CN116848857A - 针对多个收听者最佳听音位置的空间音频频域复用 - Google Patents

针对多个收听者最佳听音位置的空间音频频域复用 Download PDF

Info

Publication number
CN116848857A
CN116848857A CN202180091121.XA CN202180091121A CN116848857A CN 116848857 A CN116848857 A CN 116848857A CN 202180091121 A CN202180091121 A CN 202180091121A CN 116848857 A CN116848857 A CN 116848857A
Authority
CN
China
Prior art keywords
audio
renderer
examples
data
listening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180091121.XA
Other languages
English (en)
Inventor
A·J·泽费尔德
C·P·布朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Priority claimed from PCT/US2021/061505 external-priority patent/WO2022119989A1/en
Publication of CN116848857A publication Critical patent/CN116848857A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

一些方法涉及:由被配置用于实施多个渲染器的控制系统接收音频数据以及多个收听配置的收听配置数据,所述多个收听配置中的每个收听配置与音频环境中的收听位置和收听取向相对应;以及由每个渲染器并根据所述收听配置数据渲染所接收到的音频数据,以针对对应收听配置获得渲染器特定的扩音器馈送信号集。每个渲染器可以被配置为针对不同收听配置渲染所述音频数据。一些这样的方法可以涉及:将每个渲染器特定的扩音器馈送信号集分解成渲染器特定的频带集;以及组合每个渲染器的所述渲染器特定的频带,以产生扩音器馈送信号输出集。

Description

针对多个收听者最佳听音位置的空间音频频域复用
相关申请的交叉引用
本申请要求2020年12月3日提交的美国临时申请号63/120,963和2021年8月24日提交的美国临时申请号63/260,528的优先权,每个美国临时申请特此通过援引以其全文并入。
技术领域
本公开涉及用于渲染音频以由一组扬声器中的一些或所有扬声器(例如,每个激活的扬声器)回放的系统和方法。
背景技术
音频设备被广泛地部署在许多家庭、车辆和其他环境中。尽管用于控制音频设备的现有系统和方法提供了益处,但改进的系统和方法将仍是期望的。
符号和术语
贯穿本公开,包括在权利要求书中,术语“扬声器(speaker)”、“扩音器(loudspeaker)”和“音频再现换能器”同义地用于表示任何发声换能器(或一组换能器)。一套典型的耳机包括两个扬声器。扬声器可以被实施为包括多个换能器(例如,低音扬声器和高音扬声器),所述换能器可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中,(多个)扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同处理。
贯穿本公开,包括在权利要求中,在广义上使用“对(on)”信号或数据执行操作的表达(例如,对信号或数据进行滤波、缩放、变换或应用增益)来表示直接对信号或数据执行操作或对信号或数据的已处理版本(例如,在对其执行操作之前已经历了初步滤波或预处理的信号版本)执行操作。
贯穿本公开,包括在权利要求中,在广义上使用表达“系统”来表示设备、系统或子系统。例如,实施解码器的子系统可以被称为解码器系统,并且包括这样的子系统的系统(例如,响应于多个输入而生成X个输出信号的系统,其中,所述子系统生成M个输入,而其他X-M个输入是从外部源接收的)也可以被称为解码器系统。
贯穿本公开,包括在权利要求中,在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如,用软件或固件)为对数据(例如,音频或视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置为对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。
如本文所使用的,“智能设备”是可以在某种程度上交互地和/或自主地操作的电子设备,其通常被配置用于经由如蓝牙、Zigbee、近场通信、Wi-Fi、光保真(Li-Fi)、3G、4G、5G等各种无线协议与一个或多个其他设备(或网络)进行通信。若干种值得注意的智能设备类型是智能电话、智能汽车、智能恒温器、智能门铃、智能锁、智能冰箱、平板手机和平板计算机、智能手表、智能手环、智能钥匙链和智能音频设备。术语“智能设备”还可以是指展现出如人工智能等普适计算的一些性质的设备。
在本文中,使用表达“智能音频设备”来表示智能设备,其是单一用途音频设备或多用途音频设备(例如,智能扬声器或实施虚拟助理功能的至少一些方面的其他音频设备)。单一用途音频设备是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器和/或至少一个相机)并且很大程度上或主要被设计为实现单一用途的设备(例如,电视(TV))。例如,尽管TV通常可以播放(并且被认为能够播放)来自节目素材的音频,但在大多数实例中,现代TV运行某种操作系统,应用程序(包括看电视的应用程序)在所述操作系统上本地运行。从这个意义上说,具有(多个)扬声器和(多个)麦克风的单一用途音频设备通常被配置为运行本地应用程序和/或服务以直接使用所述(多个)扬声器和(多个)麦克风。一些单一用途音频设备可以被配置为组合在一起以实现在一定区或用户配置区域上播放音频。
一种常见类型的多用途音频设备是实施虚拟助理功能的至少一些方面的音频设备(例如,智能扬声器),尽管虚拟助理功能的其他方面可以由如一个或多个服务器等一个或多个其他设备来实施,多用途音频设备被配置用于与所述一个或多个服务器通信。这样的多用途音频设备在本文中可以被称为“虚拟助理”。虚拟助理是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器和/或至少一个相机)的设备(例如,智能扬声器或语音助理集成设备)。在一些示例中,虚拟助理可以提供将多个设备(不同于虚拟助理)用于某种意义上支持云的应用程序或以其他方式未在虚拟助理本身中或之上完全实施的应用程序的能力。换句话说,虚拟助理功能的至少一些方面(例如,言语识别功能)可以(至少部分地)由一个或多个服务器或其他设备实施,虚拟助理可以经由网络(如因特网)与所述一个或多个服务器或其他设备通信。虚拟助理有时可以一起工作,例如,以离散和有条件地定义的方式。例如,两个或更多个虚拟助理可以在其中之一(例如,最确信已经听到唤醒词的虚拟助理)对唤醒词作出响应的意义上一起工作。在一些实施方式中,连接的虚拟助理可以形成一种星座,所述星座可以由一个主应用程序管理,所述主应用程序可以是(或实施)虚拟助理。
如本文所使用的,术语“节目流”和“内容流”是指一个或多个音频信号的集合,并且在一些实例中是指视频信号的集合,所述信号集合的至少部分是旨在要一起听到的。示例包括音乐选集、电影原声、电影、电视节目、电视节目的音频部分、播客、现场语音通话、来自智能助理的合成语音响应等。在一些实例中,内容流可以包括音频信号的至少一部分的多个版本,例如,超过一种语言的同一对话。在这样的实例中,一次旨在再现音频数据或其部分的仅一个版本(例如,与单一语言相对应的版本)。
发明内容
本公开的至少一些方面可以经由方法来实施。一些这样的方法可以涉及音频数据处理。例如,一些方法可以涉及由被配置用于实施多个渲染器的控制系统接收音频数据。一些这样的方法可以涉及由所述控制系统接收多个收听配置的收听配置数据。所述多个收听配置中的每个收听配置可以与音频环境中的收听位置和收听取向相对应。一些这样的方法可以涉及由所述多个渲染器中的每个渲染器并根据所述收听配置数据渲染所述音频数据,以针对对应收听配置获得渲染器特定的扩音器馈送信号集。每个渲染器可以被配置为针对不同收听配置渲染所述音频数据。
一些这样的方法可以涉及由所述控制系统并针对每个渲染器将每个渲染器特定的扩音器馈送信号集分解成渲染器特定的频带集。一些这样的方法可以涉及由所述控制系统组合每个渲染器的所述渲染器特定的频带集,以产生扩音器馈送信号输出集。一些这样的方法可以涉及由所述控制系统将所述扩音器馈送信号输出集输出到多个扩音器。
在一些示例中,将每个渲染器特定的扩音器馈送信号集分解成每个渲染器特定的频带集可以涉及:由与每个渲染器相关联的分析滤波器组分析所述渲染器特定的扩音器馈送信号集,以产生全局频带集;以及选择所述全局频带集的频带子集以产生所述渲染器特定的频带集。可以选择所述全局频带集的频带子集,使得当组合所述多个渲染器中的所有渲染器的所述渲染器特定的频带集时,所述全局频带集中的每个频带在所述扩音器馈送信号输出集中仅被表示一次。
组合所述渲染器特定的频带集可以涉及由合成滤波器组在时域中合成所述扩音器馈送信号输出集。在一些示例中,所述分析滤波器组可以是短时离散傅里叶变换(STDFT)滤波器组、混合复合正交镜(HCQMF)滤波器组或正交镜(QMF)滤波器组。
在一些示例中,渲染器特定的频带集中的每个集可以唯一地与所述多个渲染器中的一个渲染器相关联并且唯一地与所述多个收听配置中的一个收听配置相关联。在一些实施方式中,每个收听配置可以与人的收听位置和收听取向相对应。在一些这样的示例中,所述收听位置可以与所述人的头部位置相对应,并且所述收听取向可以与所述人的头部取向相对应。
根据一些示例,所述音频数据可以是或者可以包括基于空间声道的音频数据和/或基于空间对象的音频数据。在一些实例中,所述音频数据可以具有以下格式之一:立体声、杜比3.1.2、杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.2、杜比7.1.4、杜比9.1、杜比9.1.6或杜比全景声音频格式。在一些实例中,所述渲染可以涉及在时域中执行双平衡振幅平移或在频域中执行串扰消除。
一些方法可以涉及:由控制系统接收音频数据;以及由所述控制系统接收多个收听配置的收听配置数据。例如,每个收听配置可以与收听位置和收听取向相对应。一些这样的方法可以涉及由经由所述控制系统实施的分析滤波器组分析所述音频数据,以产生与所述音频数据相对应的全局频带集。一些这样的方法可以涉及由所述控制系统并针对由所述控制系统实施的多个渲染器中的每个渲染器选择所述全局频带集的子集,以针对每个渲染器产生渲染器特定的频带集。
一些这样的方法可以涉及由所述多个渲染器中的每个渲染器并根据所述收听配置数据渲染所述渲染器特定的频带集,以针对对应收听配置获得渲染器特定的扩音器馈送信号集。在一些这样的示例中,每个渲染器可以被配置为针对不同收听配置渲染所述渲染器特定的频带集中的频带。一些这样的方法可以涉及由所述控制系统组合所述多个渲染器中的每个渲染器的渲染器特定的扩音器馈送信号集,以产生扩音器馈送信号输出集。一些这样的方法可以涉及由所述控制系统将所述扩音器馈送信号输出集输出到音频环境的多个扩音器。
一些这样的方法可以涉及由合成滤波器组将所述扩音器馈送信号输出集从频域变换到时域。在一些这样的示例中,所述分析滤波器组可以是短时离散傅里叶变换(STDFT)滤波器组、混合复合正交镜(HCQMF)滤波器组或正交镜(QMF)滤波器组。
在一些示例中,每个渲染器特定的扩音器馈送信号集可以唯一地与所述多个渲染器中的一个渲染器相关联。在一些示例中,每个渲染器特定的扩音器馈送信号集可以唯一地与所述多个收听配置中的一个收听配置相关联。根据一些示例,所述收听配置可以是或者可以包括所述音频环境中的人的收听位置和/或收听取向。在一些实例中,所述收听位置可以与所述人的头部位置相对应。在一些示例中,所述收听取向可以与所述人的头部取向相对应。
在一些实施方式中,所述收听位置和所述收听取向可以是相对于音频环境坐标系。在一些实施方式中,所述收听位置和所述收听取向可以是相对于与在所述音频环境内的人相对应(例如,与所述人的头部的位置和取向相对应)的坐标系。在一些实例中,所述收听位置可以是相对于一个或多个扩音器在所述音频环境中的位置。
根据一些实施方式,所述收听配置数据可以与从所述音频环境中的一个或多个传感器获得的传感器数据相对应。在一些示例中,所述传感器可以是或者可以包括相机、移动传感器和/或麦克风。
根据一些示例,所述音频数据可以是或者可以包括基于空间声道的音频数据和/或基于空间对象的音频数据。在一些实例中,所述音频数据可以具有以下格式之一:立体声、杜比3.1.2、杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.2、杜比7.1.4、杜比9.1、杜比9.1.6或杜比全景声音频格式。在一些示例中,组合所述扩音器馈送信号集可以涉及对所述渲染器特定的扩音器馈送信号集中的每个集进行复用。
在一些实例中,所述渲染可以涉及在时域中执行双平衡振幅平移或在频域中执行串扰消除。在一些实例中,所述渲染可以涉及在频域中执行串扰消除。
在一些示例中,所述渲染可以涉及产生多个数据结构。例如,每个数据结构可以包括用于对应收听配置并且与二维空间或三维空间中的多个点中的每一个相对应的一组渲染器特定的扬声器激活。根据一些这样的示例,所述组合可以涉及将所述多个数据结构组合成单个数据结构。
一些实施方式可以涉及一种用于在车辆中渲染音频数据的方法。一些这样的方法可以涉及:由控制系统接收音频数据;以及由所述控制系统接收指示车辆中存在多个人的传感器信号。一些这样的方法可以涉及由所述控制系统并且至少部分地基于所述传感器信号来估计相对于所述车辆中的多个扩音器的多个收听配置。例如,每个收听配置可以与所述多个人中的人的收听位置和收听取向相对应。
一些这样的方法可以涉及由所述控制系统针对所述多个收听配置中的每个收听配置渲染接收到的音频数据,以产生扩音器馈送信号输出集。一些这样的方法可以涉及由所述控制系统将所述扩音器馈送信号输出集提供给所述多个扩音器。
在一些示例中,所述音频数据的渲染可以由多个渲染器执行。在一些实例中,所述多个渲染器中的每个渲染器可以被配置为针对不同收听配置渲染所述音频数据,以获得渲染器特定的扩音器馈送信号集。在一些这样的示例中,所述方法可以涉及由所述控制系统并针对每个渲染器将每个渲染器特定的扩音器馈送信号集分解成渲染器特定的频带集。一些这样的方法可以涉及由所述控制系统组合每个渲染器的所述渲染器特定的频带集,以产生扩音器馈送信号输出集。一些这样的方法可以涉及由所述控制系统输出所述扩音器馈送信号输出集。
在一些示例中,将所述渲染器特定的扩音器馈送信号集分解成所述渲染器特定的频带集可以涉及由与每个渲染器相关联的分析滤波器组分析所述渲染器特定的扩音器馈送信号集,以产生全局频带集。一些这样的方法可以涉及选择所述全局频带集的子集以产生所述渲染器特定的频带集。在一些示例中,可以选择所述全局频带集的子集,使得当组合所述多个渲染器中的每一个的渲染器特定的频带时,所述全局频带集中的每个频带在所述扩音器馈送信号输出集中仅被表示一次。
根据一些示例,组合所述多个渲染器特定的频带可以涉及由合成滤波器组在所述时域中合成所述扩音器馈送信号输出集。在一些示例中,所述分析滤波器组可以是短时离散傅里叶变换(STDFT)滤波器组、混合复合正交镜(HCQMF)滤波器组或正交镜(QMF)滤波器组。
在一些示例中,渲染器特定的频带集中的每个集可以唯一地与所述多个渲染器中的一个渲染器相关联。在一些示例中,渲染器特定的频带集中的每个集可以唯一地与所述多个收听配置中的一个收听配置相关联。根据一些示例,所述渲染可以涉及在所述时域中执行双平衡振幅平移或在所述频域中执行串扰消除。在一些实施方式中,组合渲染器特定的频带集可以涉及对所述渲染器特定的频带集进行复用。
根据一些实施方式,所述音频数据的渲染可以由多个渲染器执行。在一些这样的示例中,每个渲染器可以被配置为针对所述多个收听配置中的不同收听配置渲染所述音频数据。根据一些这样的示例,方法可以涉及由所述控制系统所实施的分析滤波器组分析接收到的音频,以产生所述接收到的音频数据的全局频带集。一些这样的方法可以涉及由所述控制系统并针对所述多个渲染器中的每个渲染器选择所述全局频带集的子集,以针对每个渲染器产生渲染器特定的频带集。一些这样的方法可以涉及由所述多个渲染器中的每个渲染器渲染所述渲染器特定的频带集,以针对对应收听配置获得扩音器馈送信号集。一些这样的方法可以涉及组合来自每个渲染器的扩音器馈送信号集,以产生扩音器馈送信号输出集。一些这样的方法可以涉及输出所述扩音器馈送信号输出集。
根据一些示例,组合所述扩音器馈送信号集可以涉及由合成滤波器组在时域中合成所述扩音器馈送信号输出集。在一些示例中,所述合成滤波器组可以是短时离散傅里叶变换(STDFT)滤波器组、混合复合正交镜(HCQMF)滤波器组或正交镜(QMF)滤波器组。
在一些实例中,每个渲染器特定的频带集可以唯一地与一个渲染器相关联。在一些示例中,每个渲染器特定的频带集可以唯一地与一个收听配置相关联。根据一些示例,收听位置可以与头部位置相对应。在一些示例中,收听取向可以与头部取向相对应。
根据一些示例,所述音频数据可以是或者可以包括基于空间声道的音频数据和/或基于空间对象的音频数据。在一些实例中,所述音频数据可以具有以下格式之一:立体声、杜比3.1.2、杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.2、杜比7.1.4、杜比9.1、杜比9.1.6或杜比全景声音频格式。在一些实例中,所述渲染可以涉及在时域中执行双平衡振幅平移或在频域中执行串扰消除。在一些示例中,组合来自每个渲染器的所述扩音器馈送信号集可以涉及对来自每个渲染器的所述扩音器馈送信号集进行复用。
根据一些实施方式,所述传感器信号可以包括来自一个或多个座椅传感器的信号。例如,所述座椅传感器可以包括一个或多个相机、一个或多个安全带传感器、一个或多个头枕传感器、一个或多个座椅靠背传感器、一个或多个座椅底部传感器和/或一个或多个肘靠传感器。
一些方法还可以涉及选择多个渲染模式中的渲染模式。在一些示例中,所述多个渲染模式中的每个渲染模式可以基于多个收听配置中的相应收听配置。
在一些示例中,至少一个收听配置可以与人的身份相关联。在一些这样的示例中,至少一个这样的收听配置可以存储在车辆的存储器中。
根据一些示例,所述渲染可以涉及针对每个渲染器生成与收听配置相对应的一组系数。在一些这样的示例中,所述系数可以用于所述渲染。在一些示例中,所述系数可以是平移器(panner)系数。
本文描述的一些或所有操作、功能和/或方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如,软件)来执行。这样的非暂态介质可以包括如本文描述的存储器设备等存储器设备,包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。因此,本公开中描述的主题的一些创新方面可以在其上存储有软件的非暂态介质中实施。
本公开的至少一些方面可以经由装置来实施。例如,一个或多个设备可以能够至少部分地执行本文公开的方法。在一些实施方式中,装置可以包括接口系统和控制系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件部件或其组合。在一些示例中,所述装置可以是上文引用的音频设备之一。然而,在一些实施方式中,所述装置可以是另一类型的设备,如移动设备、膝上型计算机、服务器、车辆等。例如,车辆控制系统可以被配置为执行至少一些所公开的方法。音频设备控制系统可以被配置为执行至少一些所公开的方法。
在以下附图和说明中阐述了本说明书中所描述的主题的一个或多个实施方式的细节。从所述描述、附图和权利要求中,其他特征、方面和优点将变得显而易见。注意,以下附图的相对尺寸可能不是按比例来绘制的。
附图说明
图1是示出了能够实施本公开的各个方面的装置的部件的示例的框图。
图2A描绘了收听环境的平面图,所述收听环境在该示例中是生活空间。
图2B示出了图2A的音频环境在不同时间的示例。
图2C示出了音频环境的另一示例。
图3示出了一个所公开的实施方式的示例框。
图4示出了另一所公开的实施方式的示例框。
图5是概述了可以由如图1至图4中所示出的装置或系统等装置或系统执行的方法的一个示例的流程图。
图6A示出了另一所公开的实施方式的示例框。
图6B是在示例实施例中指示扬声器激活的点的图表。
图6C是根据一个示例的指示扬声器激活的点之间的三线性插值的图表。
图7是概述了可以由如本文公开的装置或系统等装置或系统执行的方法的另一示例的流程图。
图8示出了根据一个实施方式的车辆内部的示例。
图9示出了另一所公开的实施方式的示例框。
图10是概述了可以由如本文公开的装置或系统等装置或系统执行的方法的一个示例的流程图。
图11示出了环境中的四个音频设备之间的几何关系的示例。
图12示出了位于图11的音频环境内的音频发射器。
图13示出了位于图11的音频环境内的音频接收器。
图14是概述了可以由如图1中示出的装置等装置的控制系统执行的方法的一个示例的流程图。
图15是概述了用于基于DOA数据来自动地估计设备位置和取向的方法的示例的流程图。
图16是概述了用于基于DOA数据和TOA数据来自动地估计设备位置和取向的方法的一个示例的流程图。
图17是概述了用于基于DOA数据和TOA数据来自动地估计设备位置和取向的方法的另一示例的流程图。
图18A示出了音频环境的示例。
图18B示出了确定收听者角取向数据的附加示例。
图18C示出了确定收听者角取向数据的附加示例。
图18D示出了根据参考图18C描述的方法来确定对音频设备坐标的适当旋转的一个示例。
图19示出了环境中的三个音频设备之间的几何关系的示例。
图20示出了图19中示出的环境中的三个音频设备之间的几何关系的另一示例。
图21A示出了图19和图20中描绘的这两个三角形,其中没有对应的音频设备和环境的其他特征。
图21B示出了估计由三个音频设备形成的三角形的内角的示例。
图22是概述了可以由如图1中示出的装置等装置执行的方法的一个示例的流程图。
图23示出了环境中的每个音频设备是多个三角形的顶点的示例。
图24提供了前向对齐过程的一部分的示例。
图25示出了已在前向对齐过程期间发生的音频设备位置的多个估计的示例。
图26提供了反向对齐过程的一部分的示例。
图27示出了已在反向对齐过程期间发生的多个音频设备位置估计的示例。
图28示出了估计音频设备位置和实际音频设备位置的比较。
图29是概述了可以由如图1中示出的装置等装置执行的方法的另一示例的流程图。
图30是概述了定位方法的另一示例的流程图。
图31是概述了定位方法的另一示例的流程图。
具体实施方式
图1是示出了能够实施本公开的各个方面的装置的部件的示例的框图。根据一些示例,装置100可以是或者可以包括被配置用于执行本文公开的方法中的至少一些方法的智能音频设备。在其他实施方式中,装置100可以是或者可以包括被配置用于执行本文所公开的方法中的至少一些方法的另一设备,如膝上型计算机、蜂窝电话、平板设备、智能家居中枢等。在一些这样的实施方式中,装置100可以是或者可以包括服务器。在一些实施方式中,装置100可以被配置为实施在本文中可以被称为“编排设备”或“音频会话管理器”的设备。
在该示例中,装置100包括接口系统105和控制系统110。在一些实施方式中,接口系统105可以被配置用于与正在执行或被配置用于执行软件应用程序的一个或多个设备进行通信。这样的软件应用程序在本文中有时可以被称为“应用程序”或简称为“app”。在一些实施方式中,接口系统105可以被配置用于交换与应用程序有关的控制信息和相关联的数据。在一些实施方式中,接口系统105可以被配置用于与音频环境的一个或多个其他设备进行通信。在一些示例中,音频环境可以是家庭音频环境。在其他示例中,音频环境可以是另一类型的环境,如办公室环境、车辆环境、公园或其他户外环境等。在一些实施方式中,接口系统105可以被配置用于与音频环境的音频设备交换控制信息和相关联的数据。在一些示例中,控制信息和相关联的数据可以与装置100被配置用于与其通信的一个或多个应用程序有关。
在一些实施方式中,接口系统105可以被配置用于接收音频节目流。音频节目流可以包括被安排由环境的至少一些扬声器再现的音频信号。音频节目流可以包括如声道数据和/或空间元数据等空间数据。在一些实施方式中,接口系统105可以被配置用于从环境中的一个或多个麦克风接收输入。
接口系统105可以包括一个或多个网络接口和/或一个或多个外部设备接口(如一个或多个通用串行总线(USB)接口)。根据一些实施方式,接口系统105可以包括一个或多个无线接口。接口系统105可以包括用于实施用户接口的一个或多个设备,如一个或多个麦克风、一个或多个扬声器、显示系统、触摸传感器系统和/或手势传感器系统。在一些示例中,接口系统105可以包括控制系统110与存储器系统(如图1中示出的可选存储器系统115)之间的一个或多个接口。然而,在一些实例中,控制系统110可以包括存储器系统。
例如,控制系统110可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑和/或离散硬件部件。
在一些实施方式中,控制系统110可以驻留在超过一个设备中。例如,控制系统110的一部分可以驻留在本文中描绘的环境之一内的设备中,并且控制系统110的另一部分可以驻留在环境之外的如服务器、移动设备(例如,智能电话或平板计算机)等设备中。在其他示例中,控制系统110的一部分可以驻留在本文中描绘的环境之一内的设备中,并且控制系统110的另一部分可以驻留在环境的一个或多个其他设备中。例如,控制系统功能可以跨环境的多个智能音频设备分布,或者可以由编排设备(如本文中可以被称为智能家居中枢的设备)和环境的一个或多个其他设备共享。在一些这样的示例中,接口系统105还可以驻留在多于一个设备中。
在一些实施方式中,控制系统110可以被配置用于至少部分地执行本文公开的方法。本文描述的一些或所有方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如,软件)来执行。这样的非暂态介质可以包括如本文描述的存储器设备等存储器设备,包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。例如,一个或多个非暂态介质可以驻留在图1中所示出的可选存储器系统115和/或控制系统110中。因此,可以在其上存储有软件的一个或多个非暂态介质中实施本公开中所描述的主题的各个创新方面。例如,软件可以包括用于控制至少一个设备来处理音频数据的指令。例如,软件可以是可由控制系统(如图1的控制系统110)的一个或多个部件执行的。
在一些示例中,装置100可以包括图1中示出的可选麦克风系统120。可选麦克风系统120可以包括一个或多个麦克风。在一些实施方式中,一个或多个麦克风可以是另一设备(如扬声器系统的扬声器、智能音频设备等)的一部分或与其相关联。在一些示例中,装置100可以不包括麦克风系统120。然而,在一些这样的实施方式中,装置100仍然可以被配置为经由接口系统110接收音频环境中的一个或多个麦克风的麦克风数据。
根据一些实施方式,装置100可以包括图1中示出的可选扩音器系统125。可选扩音器系统125可以包括一个或多个扩音器,所述扩音器在本文中也可以被称为“扬声器”。在一些示例中,可选扩音器系统125的至少一些扩音器可以任意地定位。例如,可选扩音器系统125的至少一些扬声器可以放置在不与任何标准规定的扩音器布局相对应的位置,如杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.4、杜比9.1、滨崎22.2等。在一些这样的示例中,可选扬声器系统125的至少一些扩音器可以放置在对空间方便的位置(例如,在有空间容纳扩音器的位置),但不在任何标准规定的扩音器布局中。在一些示例中,装置100可以不包括扩音器系统125。
在一些实施方式中,装置100可以包括图1中示出的可选传感器系统129。可选传感器系统129可以包括一个或多个相机、触摸传感器、手势传感器、运动检测器等。根据一些实施方式,可选传感器系统129可以包括一个或多个相机。在一些实施方式中,相机可以是独立式相机。在一些示例中,可选传感器系统129的一个或多个相机可以驻留在智能音频设备中,所述智能音频设备可以是单一用途音频设备或虚拟助理。在一些这样的示例中,可选传感器系统129的一个或多个相机可以驻留在TV、移动电话或智能扬声器中。在一些示例中,装置100可以不包括传感器系统129。然而,在一些这样的实施方式中,装置100仍然可以被配置为经由接口系统110接收音频环境中的一个或多个传感器的传感器数据。
在一些实施方式中,装置100可以包括图1中示出的可选显示系统135。可选显示系统135可以包括一个或多个显示器,如一个或多个发光二极管(LED)显示器。在一些实例中,可选显示系统135可以包括一个或多个有机发光二极管(OLED)显示器。在装置100包括显示系统135的一些示例中,传感器系统129可以包括接近显示系统135的一个或多个显示器的触摸传感器系统和/或手势传感器系统。根据一些这样的实施方式,控制系统110可以被配置用于控制显示系统135来呈现一个或多个图形用户界面(GUI)。
根据一些这样的示例,装置100可以是或者可以包括智能音频设备。在一些这样的实施方式中,装置100可以是或者可以包括唤醒词检测器。例如,装置100可以是或者可以包括虚拟助理。
发烧友和录音工程师所使用的术语“sweet spot(最佳听音位置)”是指个人能够以混音师预期听到的方式听到回放的音频的位置。在立体声的背景下,并且假设左扩音器和右扩音器的回放水平相等,最佳听音位置可以被视为等边三角形的顶点的位置,其中左扩音器和右扩音器的位置是其他顶点。在环绕声的情况下,最佳听音位置可以被视为从四个或更多个扬声器传播的声音的焦点,例如,来自所有扬声器的波前同时到达的位置。在一些公开中,最佳听音位置被称为“参考收听点”。
因此,在一些示例中,最佳听音位置可以根据如左/右扬声器立体声布局、左/右/中心/左环绕/右环绕杜比5.1扩音器布局等典范扩音器布局来定义。然而,在包括但不限于家庭音频环境的许多音频环境中,扩音器不必定位在与典范扩音器布局的扩音器相对应的位置处。
图2A描绘了收听环境的平面图,所述收听环境在该示例中是生活空间。与本文提供的其他图一样,图2A中示出的元件的类型、数量和布置仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型、数量和/或布置的元件。在其他示例中,音频环境可以是另一类型的环境,如办公室环境、车辆环境、公园或其他户外环境等。下文描述了涉及车辆环境的一些详细示例。
根据该示例,音频环境200包括在左上方处的客厅210、在下方中央处的厨房215、以及在右下方的卧室222。在图2A的示例中,分布在整个生活空间中的框和圆圈表示一组扩音器205a、205b、205c、205d、205e、205f、205g和205h,在一些实施方式中,所述扩音器中至少一些可以是智能扬声器。在该示例中,扩音器205a至205h已放置在对生活空间方便的位置,但扩音器205a至205h不在与如杜比5.1、杜比7.1等任何标准“典范”扩音器布局相对应的位置。在一些示例中,扩音器205a至205h可以被协调以实施一个或多个所公开的实施例。
灵活渲染是用于在任意数量的任意放置的扩音器(如图2A中表示的扩音器)上渲染空间音频的技术。随着智能音频设备(例如,智能扬声器)以及未根据任何标准“典范”扩音器布局定位的其他音频设备在家中的广泛部署,实施音频数据的灵活渲染和如此渲染的音频数据的回放可能是有利的。
已开发了多种技术来实施灵活渲染,包括质心振幅平移(CMAP)和灵活虚拟化(FV)。这两种技术都将渲染问题看做是成本函数最小化之一,其中,成本函数至少包括对渲染器试图实现的期望空间印象进行建模的第一项以及为激活扬声器分派成本的第二项。在于2021年2月4日公开并且名称为“MANAGING PLAYBACK OF MULTIPLE STREAMS OF AUDIOOVER MULTIPLE SPEAKERS[管理多个音频流在多个扬声器上的回放]”(见第25页第8行至第31页第27行)的国际公开号WO 2021/021707 A1中描述了CMAP、FV和其组合的详细示例,该国际公开特此通过援引并入。
然而,本文公开的涉及灵活渲染的方法不限于基于CMAP和/或FV的灵活渲染。这样的方法可以由如矢量基振幅平移(VBAP)等任何合适类型的灵活渲染实施。Pulkki、Ville在“Virtual Sound Source Positioning Using Vector Base Amplitude Panning[使用矢量基振幅平移的虚拟声源定位]”(见音频工程学会期刊,第45卷,第6期(1997年6月))中公开了相关VBAP方法,其特此通过援引并入。其他合适类型的灵活渲染包括但不限于基于双平衡平移和高保真立体声(Ambisonics)的灵活渲染方法,如D.Arteaga在“An AmbisonicsDecoder for Irregular 3-D Loudspeaker Arrays[用于不规则3D扩音器阵列的高保真立体声解码器]”(见第8918页,(2013年5月))中描述的方法,其特此通过援引并入。
在一些实例中,可以相对于如图2A中示出的音频环境坐标系217等坐标系执行灵活渲染。根据该示例,音频环境坐标系217是二维笛卡尔坐标系。在该示例中,音频环境坐标系217的原点在扩音器205a内,并且x轴与扩音器205a的长轴相对应。在其他实施方式中,音频环境坐标系217可以是三维坐标系,所述三维坐标系可以是或可以不是笛卡尔坐标系。
此外,坐标系的原点不必与扩音器或扩音器系统相关联。在一些实施方式中,坐标系的原点可以在音频环境200的另一位置。替代性音频环境坐标系217’的位置提供一个这样的示例。在该示例中,已选择替代性音频环境坐标系217’的原点,使得x和y的值对于音频环境200内的所有位置都是正的。在一些实例中,坐标系的原点和取向可以被选择为与人的头部在音频环境200内的位置和取向相对应。在一些这样的实施方式中,人的观看方向可以沿着坐标系的轴(例如,沿着正y轴)。
在一些实施方式中,控制系统可以至少部分地基于每个参与的扩音器(例如,每个有源扩音器和/或将为其渲染音频数据的每个扩音器)在音频环境中的位置(以及在一些示例中取向)来控制灵活渲染过程。根据一些这样的实施方式,控制系统可能先前已根据如音频环境坐标系217等坐标系确定了每个参与的扩音器的位置(以及在一些示例中取向),并且可能已将对应扩音器位置数据存储在数据结构中。在下文描述了用于确定音频设备位置的一些方法。
根据一些这样的实施方式,用于编排设备(在一些实例中,其可以是扩音器205a至205h之一)的控制系统可以渲染音频数据,使得音频环境200的特定元件或区域(如电视230)表示音频环境的前部和中心。这样的实施方式对于一些用例(如回放电影、电视节目或正在电视230上显示的其他内容的音频)可能是有利的。
然而,对于其他用例(如回放不与正在电视230上显示的内容相关联的音乐),这样的渲染方法可能不是最优的。在这样的替代性用例中,可能期望渲染音频数据以进行回放,使得所渲染的声场的前部和中心与人在音频环境200内的位置和取向相对应。
例如,参考人220a,可能期望渲染音频数据以进行回放,使得所渲染的声场的前部和中心与人220a的观看方向相对应,所述观看方向由箭头223a的方向从人220a的位置指示。在该示例中,人220a的位置由在人220a的头部中心的点221a指示。在一些示例中,人220a的被渲染以进行回放的音频数据的“最佳听音位置”可以与点221a相对应。在下文描述了用于确定人在音频环境中的位置和取向的一些方法。在一些这样的示例中,可以根据一件家具的位置和取向(如椅子225的位置和取向)来确定人的位置和取向。
根据该示例,人220b和220c的位置分别由点221b和221c表示。此处,人220b和220c的前部分别由箭头223b和223c表示。点221a、221b和221c的位置以及箭头223a、223b和223c的取向可以是相对于如音频环境坐标系217等坐标系来确定的。如上所述,在一些示例中,坐标系的原点和取向可以被选择为与人的头部在音频环境200内的位置和取向相对应。
在一些示例中,人220b的被渲染以进行回放的音频数据的“最佳听音位置”可以与点221b相对应。类似地,人220c的被渲染以进行回放的音频数据的“最佳听音位置”可以与点221c相对应。可以观察到,如果人220a的被渲染以进行回放的音频数据的“最佳听音位置”与点221a相对应,则这个最佳听音位置将不与点221b或点221c相对应。
此外,人220b的所渲染的声场的前部和中心区域应理想地与箭头223b的方向相对应。同样地,人220c的所渲染的声场的前部和中心区域应理想地与箭头223c的方向相对应。可以观察到,相对于人220a、220b和220c的前部和中心区域都是不同的。因此,经由先前公开的方法并且根据这些人中任何一个人的位置和取向渲染的音频数据对于另外两个人的位置和取向将不是最优的。
然而,各种所公开的实施方式能够针对多个最佳听音位置并且在一些实例中针对多个取向令人满意地渲染音频数据。一些这样的方法涉及在一组公共扩音器上为不同收听配置创建相同音频内容的两个或更多个不同空间渲染以及通过跨频率对所述不同空间渲染进行复用来组合所述渲染。在一些这样的示例中,与人类听觉范围(例如,20Hz至20,000Hz)相对应的频谱可以被划分为多个频带。根据一些这样的示例,不同空间渲染中的每一个将经由不同的频带集进行回放。在一些这样的示例中,与每个频带集相对应的所渲染的音频数据可以组合成单个扩音器馈送信号输出集。结果可以为多个位置中的每一个并且在一些实例中为多个取向中的每一个提供空间音频。
一些这样的实施方式可以涉及为车辆中的两个或更多个人(例如,驾驶员和前排乘客两者)单独地渲染空间音频。根据一些示例,可以根据传感器数据来确定收听者数量和他们的位置(以及在一些实例中他们的取向)。在车辆背景下,可以根据座椅传感器数据来确定收听者数量和他们的位置(以及在一些实例中他们的取向)。
在一些实施方式中,可以根据来自音频环境(如图2A的音频环境200)中的一个或多个相机的数据来确定收听者数量和他们的位置(以及在一些实例中他们的取向)。在该示例中,音频环境200包括分布在整个环境中的相机211a至211e。在一些实施方式中,音频环境200中的一个或多个智能音频设备还可以包括一个或多个相机。所述一个或多个智能音频设备可以是单一用途音频设备或虚拟助理。在一些这样的示例中,可选传感器系统130的一个或多个相机可以驻留在电视230中或所述电视上、移动电话中或智能扬声器(如扩音器205b、205d、205e或205h中的一个或多个)中。尽管相机211a至211e没有在本公开中呈现的音频环境的每个描绘中示出,但在一些实施方式中,每个音频环境仍然可以包括一个或多个相机。
图2B示出了图2A的音频环境在不同时间的示例。在该示例中,人220a和人220b已改变位置和取向。在图2B中描绘的时间处,人220a已移动到椅子225,并且人220b正站在长沙发240与桌子233之间。在一些实施方式中,可以确定人220a和220b的新位置和取向,并且可以为新位置和取向中的每一个渲染音频信号。在一些示例中,如本文所公开的,可以对所渲染的音频信号进行处理和组合。
图2C示出了音频环境的另一示例。在该示例中,音频环境200包括扩音器205i、205j和205k。根据该示例,示出了单个收听位置(与点221d相对应)和两个收听取向(与箭头223d和223e相对应)。在该示例中,两个收听取向彼此正交。在一些实施方式中,可以产生与两个取向中的每一个以及与单个位置相对应的两个所渲染的音频信号集。在一些示例中,如本文所公开的(例如,通过跨频率进行复用),可以对所渲染的音频信号进行处理和组合。这样的实施方式可以为收听者提供更均匀的空间感维持,而不管他们在音频环境200中的取向如何。因此,这样的实施方式对于派对或其他社交聚会可能是令人期望的。
图3示出了一个所公开的实施方式的示例框。与本文提供的其他图一样,图3中示出的元件的类型、数量和布置仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型、数量和/或布置的元件。根据一些实施方式,图3的至少一些框可以经由图1的装置100来实施。在该示例中,元件310a至310n、315a至315n和320经由装置100的控制系统110的实例来实施。在一些这样的示例中,元件310a至310n、315a至315n和320可以由控制系统110根据存储在一个或多个非暂态计算机可读介质上的指令来实施,在一些实例中,所述非暂态计算机可读介质可以与存储器系统115的一个或多个存储器设备相对应。
在该示例中,空间音频流305由一组N个空间音频渲染器310a至310n接收并渲染。在一些示例中,空间音频流305可以包括音频信号和相关联的空间数据。空间数据可以指示与音频信号相对应的预期感知空间位置。根据一些示例(例如,对于如Dolby AtmosTM等音频对象实施方式),空间数据可以是或可以包括位置元数据。然而,在一些实例中,预期感知空间位置可以与基于声道的音频格式的声道相对应(例如,可以与左声道、右声道、中央声道等相对应)。因此,可以由空间音频渲染器310a至310n接收的空间音频流305的示例包括立体声、杜比5.1、杜比7.1和基于对象的音频内容(如杜比全景声)。
在该示例中,N是至少三个,这意味着存在至少三个空间音频渲染器。然而,在一些替代性示例中,N可以是两个或更多个。在一些示例中,空间音频渲染器310a至310n中的一个或多个可以在时域中操作。在一些实例中,空间音频渲染器310a至310n中的一个或多个可以在频域中操作。
根据该示例,空间音频渲染器310a至310n中的每一个被配置为针对单个收听配置渲染音频数据。例如,收听配置可以是根据坐标系定义的。收听配置可以与人在音频环境中的收听位置(或收听区域)相对应。在一些示例中,收听配置可以与人在音频环境中的收听取向相对应。在一些示例中,收听配置可以是相对于编号有两个或更多个的一组扩音器中的每个扩音器的位置(以及在一些实例中取向)来确定的。在一些实例中,收听位置(或收听区域)可以与一件家具在音频环境中的位置和取向相对应。例如,参考图2A,收听位置可以与椅子225的位置和取向相对应。在一些示例中,收听区域可以与长沙发240的至少一部分的位置和取向(例如,与区段205a或区段205b)相对应。
在该示例中,空间音频渲染器310a至310n中的每一个被配置为产生扬声器馈送信号,所述扬声器馈送信号被提供给分解模块315a至315n中的对应分解模块。在该实施方式中,分解模块315a至315n中的每一个被配置为将扬声器馈送信号分解成选定频带集。对于分解模块315a至315n中的一个或多个正在时域中接收扬声器馈送信号的实施方式,接收这样的扬声器馈送信号的(多个)分解模块可以被配置为将扬声器馈送信号变换到频域。在该上下文中,由分解模块315a至315n产生的“频带”是在一组频率范围中的每一个内的扬声器馈送信号的频域表示。然而,如下所述,在一些示例中,一些或所有空间音频渲染器310a至310n以及对应的分解模块315a至315n可以在时域中操作。在一些这样的示例中,“频带”可以是时域中已被滤波以便具有选定频带中的期望能量分布的扬声器馈送信号。
根据该示例,组合模块320被配置为组合由分解模块315a至315n中的每一个输出的渲染器特定的扩音器馈送信号集317a至317n,以产生扩音器馈送信号输出集325。根据一些示例,组合模块320可以被配置为组合渲染器特定的扩音器馈送信号317a至317n(例如,将其相加)。组合模块320的操作可以被视为复用过程。替代性地,分解模块315a至315n和组合模块320的组合操作可以被视为复用过程。在一些示例中,组合模块320可以被配置为将组合的渲染器特定的扩音器馈送信号集317a至317n从频域变换到时域,使得扩音器馈送信号输出集325在时域中。然而,在一些实施方式中,一些或所有空间音频渲染器310a至310n以及对应的分解模块315a至315n可以在时域中操作。在一些这样的示例中,一些或所有分解模块315a至315n可以在时域中实施梳状滤波器。在一些示例中,一些或所有分解模块315a至315n可以在时域中实施有限脉冲响应(FIR)或无限脉冲响应(IIR)滤波器。在一些示例中,可以将扩音器馈送信号输出集325提供给音频环境中的一组扩音器。根据一些实施方式,扩音器馈送信号输出集325可以由该组扩音器回放。
在一些实例中,由分解模块315a至315n中的每一个产生的每个频带集可以是渲染器特定的频带集:例如,可以为空间音频渲染器310a至310n中的每一个专门选择不同的渲染器特定的频带集。根据一些实施方式,可以有利地选择这些渲染器特定的频带集,使得扩音器馈送信号输出集325包括在可听范围内的所有频率、或在空间音频流305中所包括的频率范围内的所有频率。
在一个这样的示例中,空间音频流305可以包括(和/或扩音器馈送信号输出集325可以表示)在范围为从Fmin到Fmax的频率中的音频数据。在该示例中,渲染器特定的扩音器馈送信号317a至317n的组合频带集(换句话说,扩音器馈送信号输出集325的频带)可以包括范围为从Fmin到Fmax(包括Fmin和Fmax)的相邻频带B1至BX,其中,X是与频带总数相对应的整数。在一些这样的示例中,分解模块315a可以产生频带集B1、B1+N、B1+2N等。在一些这样的示例中,分解模块315b可以产生频带集B2、B2+N、B2+2N等。在一些这样的示例中,分解模块315c可以产生频带集B3、B3+N、B3+2N等。
例如,在存在4个空间音频渲染器和64个频带的实施方式中,分解模块315a可以产生频带集B1、B5、B9、B13、B17、B21、B25、B29、B33、B37、B41、B45、B49、B53、B57和B61。在一个这样的示例中,分解模块315b可以产生频带集B2、B6、B10、B14、B18、B22、B26、B30、B34、B38、B42、B46、B50、B54、B58和B62。在一个这样的示例中,分解模块315c可以产生频带集B3、B7、B11、B15、B19、B23、B27、B31、B35、B39、B43、B47、B51、B55、B59和B63。在一个这样的示例中,分解模块315d可以产生频带集B4、B8、B12、B16、B20、B24、B28、B32、B36、B40、B44、B48、B52、B56、B60和B64。在一些这样的示例中,扩音器馈送信号输出集325包括所有64个频带B1至B64。前述内容是可以被称为“非重叠”实施方式的一个示例,其中,所述渲染器特定的频带集中的每个集包括不同频带。
然而,在一些替代性示例中,可以存在由分解模块315a至315n产生的一个或多个重叠或非唯一频带。在一些这样的示例中,可以由分解模块315a至315n中的两个或更多个分解模块产生最低频带中的一个或多个。例如,在与前述示例类似的一个示例中,分解模块315d可以产生频带集B1、B4、B8、B12、B16、B20、B24、B28、B32、B36、B40、B44、B48、B52、B56、B60和B64。分解模块315a至315c可以产生在前述段落中指示的频带集。可以观察到,在这样的示例中,扩音器馈送信号输出集325包括频带B1的两个贡献。一些这样的实施方式可以涉及使重叠频带的回放振幅与上文描述的非重叠示例的回放振幅相匹配,其中,由分解模块315a至315d产生的仅频带集包括频带B1。例如,一些这样的实施方式可以涉及选择频带B1的两个示例的水平,使得频带B1中的总声压级在重叠情况下与在非重叠情况下相同。
图4示出了另一所公开的实施方式的示例框。与本文提供的其他图一样,图4中示出的元件的类型、数量和布置仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型、数量和/或布置的元件。根据一些实施方式,图4的至少一些框可以经由图1的装置100来实施。在该示例中,元件310a至310n、315a至315n和320经由装置100的控制系统110的实例来实施。在一些这样的示例中,元件310a至310n、315a至315n和320可以由控制系统110根据存储在一个或多个非暂态计算机可读介质上的指令来实施,在一些实例中,所述非暂态计算机可读介质可以与存储器系统115的一个或多个存储器设备相对应。
在该示例中,空间音频流305由一组N个空间音频渲染器310a至310n接收并渲染。根据该示例,空间音频流305和空间音频渲染器310a至310n是如上文参考图3所描述的,因此这些描述将不在此进行重复。
根据该实施方式,空间音频渲染器310a至310n中的每一个被配置为产生扬声器馈送信号,所述扬声器馈送信号被提供给分解模块315a至315n中的对应分解模块。在该实施方式中,分解模块315a至315n中的每一个包括滤波器组分析块405a至405n中的对应滤波器组分析块,所述滤波器组分析块中的每一个被配置为将来自空间音频渲染器310a至310n中的对应空间音频渲染器的扬声器馈送信号403a至403n分解成全局频带集407a至407n中的一个。滤波器组分析块405a至405n可以被配置为实施短时离散傅里叶变换(STDFT)滤波器组、混合复合正交镜(HCQMF)滤波器组、正交镜(QMF)滤波器组、或另一类型的滤波器组。根据一些示例,全局频带集可以与上文参考图3所描述的相邻频带B1至BX相对应。
根据该示例,分解模块315a至315n中的每一个包括频带选择块410a至410n中的对应频带选择块,所述频带选择块中的每一个被配置为从由滤波器组分析块405a至405n中的对应滤波器组分析块产生的全局频带集中选择渲染器特定的频带集。例如,所述渲染器特定的频带集可以是如上文参考图3所描述的。然而,其他实施方式可以提供不同渲染器特定的频带集。对于分解模块315a至315n中的一个或多个正在时域中接收扬声器馈送信号的实施方式,接收这样的扬声器馈送信号的(多个)分解模块可以被配置为将扬声器馈送信号变换到频域。
根据该示例,组合模块320包括组合块415,所述组合块被配置为组合由分解模块315a至315n中的每一个输出的渲染器特定的扩音器馈送信号317a至317n,以在频域中产生扩音器馈送信号输出集417。在一些示例中,组合块415可以被配置为经由复用过程组合渲染器特定的扩音器馈送信号317a至317n。在该示例中,组合模块320还包括滤波器组合成块420,所述滤波器组合成块被配置为将扩音器馈送信号输出集417从频域变换到时域,使得扩音器馈送信号输出集325在时域中。在一些示例中,可以将扩音器馈送信号输出集325提供给音频环境中的一组扩音器。根据一些实施方式,扩音器馈送信号输出集325可以由该组扩音器回放。
图5是概述了可以由如图1至图4中所示出的装置或系统等装置或系统执行的方法的一个示例的流程图。与本文所描述的其他方法一样,不必以所指示的顺序来执行方法500的框。此外,这样的方法可以包括比所示出和/或所描述的框更多或更少的框。方法500的框可以由一个或多个设备执行,所述设备可以是(或可以包括)控制系统,如图1、图3和图4中示出的和上文描述的控制系统110,或者其他公开的控制系统示例之一。
在该实施方式中,框505涉及由被配置用于实施多个渲染器的控制系统接收音频数据。在一些示例中,音频数据可以包括音频信号和相关联的空间数据,例如,如上文参考图3或图4的空间音频流305所描述的。因此,在一些示例中,音频数据可以包括基于空间声道的音频数据和/或基于空间对象的音频数据。在一些实例中,音频数据可以具有以下音频格式之一:立体声、杜比3.1.2、杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.2、杜比7.1.4、杜比9.1、杜比9.1.6或Dolby AtmosTM
根据该示例,框510涉及由控制系统接收多个收听配置的收听配置数据。在该示例中,每个收听配置与音频环境中的收听位置和收听取向相对应。例如,每个收听配置可以与人在音频环境中的收听位置和收听取向相对应。例如,收听位置可以与人的头部位置相对应。例如,收听取向可以与人的头部取向相对应。例如,收听位置和取向可以与图2A和图2B中示出的人220a至220c的位置和取向相对应。在图2C中示出的示例中,框510可以涉及接收与同一收听位置和两个不同收听取向相对应的两个收听配置的收听配置数据。
根据该实施方式,框515涉及由所述多个渲染器中的每个渲染器并根据所述收听配置数据渲染所述音频数据,以针对对应收听配置获得渲染器特定的扩音器馈送信号集。在该示例中,每个渲染器被配置为针对不同收听配置渲染所述音频数据。在一些实施方式中,一个或多个渲染器可以在时域中操作,例如,以在所述时域中执行双平衡振幅平移。根据一些实施方式,一个或多个渲染器可以在所述频域中操作,例如,以在所述频域中执行串扰消除。在一些示例中,框515可以由图3或图4的空间音频渲染器310a至310n执行。
在该示例中,框520涉及由所述控制系统并针对每个渲染器将每个渲染器特定的扩音器馈送信号集分解成渲染器特定的频带集。在一些示例中,在框520中产生的“频带”可以是在一组频率范围中的每个频率范围内的渲染器特定的扩音器馈送信号的频域表示。然而,如本文其他地方所述,在一些示例中,“频带”可以是时域中已在框520中被滤波以便具有选定频带中的期望能量分布的扬声器馈送信号。在一些示例中,框520可以由图3或图4的分解模块315a至315n执行。在一些“非重叠”实施方式中,所述渲染器特定的频带集中的每个集可以包括不同频带。然而,在一些“重叠”实施方式中,一个或多个频带可以包括在渲染器特定的频带集中的两个或更多个集中。
根据该实施方式,框525涉及由控制系统组合每个渲染器的渲染器特定的频带,以产生扩音器馈送信号输出集。在一些示例中,框525可以涉及使渲染器特定的频带集相加。框525的组合过程可以被视为对渲染器特定的频带集进行复用的过程。然而,一些人可能将框520的操作和框525的组合过程放在一起视为对渲染器特定的频带集进行复用的过程。根据一些实施方式,框525可以涉及由合成滤波器组将扩音器馈送信号输出集从频域变换到时域。在该示例中,框530涉及由所述控制系统将所述扩音器馈送信号输出集输出到多个扩音器。
在一些示例中,将每个渲染器特定的扩音器馈送信号集分解成每个渲染器特定的频带集可以涉及由与每个渲染器相关联的分析滤波器组分析所述渲染器特定的扩音器馈送信号集,以产生全局频带集。例如,所述分析滤波器组可以是短时离散傅里叶变换(STDFT)滤波器组、混合复合正交镜(HCQMF)滤波器组或正交镜(QMF)滤波器组。例如,所述全局频带集可以包括相邻频带B1至BX(包括B1和BX),其中,X是与频带总数相对应的整数。
在一些示例中,将每个渲染器特定的扩音器馈送信号集分解成每个渲染器特定的频带集可以涉及选择所述全局频带集的频带子集以产生所述渲染器特定的频带集。根据一些实施方式,渲染器特定的频带集中的每个集可以唯一地与所述多个渲染器中的一个渲染器相关联并且唯一地与所述多个收听配置中的一个收听配置相关联。在一些示例中,可以选择所述全局频带集的子集,使得当组合所述多个渲染器中的所有渲染器的渲染器特定的频带时,所述全局频带集中的每个频带在所述扩音器馈送信号输出集中仅被表示一次。
在一些实施方式中,图3和图4中描绘的一些或所有渲染器可以利用不同策略来执行它们的渲染,并且在一些实例中可以在不同信号域中操作。例如,一个渲染器可能在时域中执行双平衡振幅平移,而另一渲染器可能采用在频域中实施的串扰消除。然而,来自每个渲染器的扬声器馈送必须最终在公共域(例如,时域或频域)中,然后与一个或多个其他渲染器的输出进行组合。
当所有渲染器对来自同一滤波器组的输出进行操作时可以实现进一步的效率。现在将描述一个这样的示例。
图6A示出了另一所公开的实施方式的示例框。与本文提供的其他图一样,图6A中示出的元件的类型、数量和布置仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型、数量和/或布置的元件。在该示例中,元件310a至310n、405、410a至410n、415和420经由装置100的控制系统110的实例来实施。在一些这样的示例中,元件310a至310n、405、410a至410n、415和420可以由控制系统110根据存储在一个或多个非暂态计算机可读介质上的指令来实施,在一些实例中,所述非暂态计算机可读介质可以与存储器系统115的一个或多个存储器设备相对应。
在该示例中,由滤波器组分析块405接收空间音频流305。此处,实施滤波器组分析块405的仅单个实例,并且将滤波器组分析应用于输入空间音频流305,而不是应用于如图3和图4中示出的空间音频渲染器310a至310n中的每一个的扬声器馈送的多个实例。根据该示例,滤波器组分析块405产生与空间音频流305的音频数据相对应的全局频带集607。在该上下文中,由滤波器组分析块405产生的“频带”是在一组频率范围中的每个频率范围内的空间音频流305的音频数据的频域表示。在该示例中,滤波器组分析块405是上文参考图4描述的滤波器组分析块405a至405n的单个实例,使得描述将不在此处进行重复。
在该实施方式中,频带选择块410a至410n中的每一个被配置为从全局频带集607中选择渲染器特定的频带617a至617n集中的对应集并且将渲染器特定的频带617a至617n集之一提供给空间音频渲染器310a至310n中的对应空间音频渲染器。因此,对于空间音频渲染器310a至310n中的每一个,仅处理属于其选定频带子集的空间音频流的渲染器特定的频带以针对这些频带产生扬声器馈送,从而也潜在地降低由空间音频渲染器中的每一个执行的操作的复杂度。
如果输入空间音频流305包括空间元数据,则在一些实施方式中还会将该空间元数据提供给空间音频渲染器310a至310n。在一些这样的示例中,空间元数据可以伴随全局频带集607以及渲染器特定的频带617a至617n集中的每个集。
根据该示例,控制系统110被配置为实施上文参考图4描述的组合块415,所述组合块被配置为组合由空间音频渲染器310a至310n输出的渲染器特定的扩音器馈送信号317a至317n,以在频域中产生扩音器馈送信号输出集417。在一些示例中,组合块415可以被配置为经由求和过程组合渲染器特定的扩音器馈送信号317a至317n。在该示例中,控制系统110被配置为实施滤波器组合成块420,所述滤波器组合成块被配置为将组合的渲染器特定的扩音器馈送信号集317a至317n从频域变换到时域,使得扩音器馈送信号输出集325在时域中。在一些示例中,可以将扩音器馈送信号输出集325提供给音频环境中的一组扩音器。根据一些实施方式,扩音器馈送信号输出集325可以由该组扩音器回放。
在一个示例中,空间音频渲染器310a至310n中的每一个可以被配置为实施质心振幅平移(CMAP)和灵活虚拟化(FV)或者其一个或多个组合。在其他示例中,空间音频渲染器310a至310n中的每一个可以被配置为实施矢量基振幅平移(VBAP)、双平衡平移或另一类型的灵活渲染。根据一些这样的实施方式,空间音频渲染器310a至310n中的每一个可以被实施以使用HCQMF滤波器组在频域中操作。这样的灵活渲染器固有地可适应于相对于一组公共扩音器的不同收听位置,并且因此,N个渲染器中的每一个可以实施为在HCQMF域中操作的该相同核心渲染器的不同配置的实例化。该相同HCQMF滤波器组还适合于跨频率对渲染器进行复用,并且因此,图6A中示出的高效实施方式适用。在一些这样的示例中,HCQMF滤波器组可以包含77个频带。然而,替代性实施方式可以涉及不同类型的滤波器组,所述滤波器组中的一些可以具有更多或更少的频带。
(根据一些实施例)实施灵活渲染的实际考虑之一是复杂度。在一些情况下,考虑到特定设备的处理能力,实时地为每个音频对象的每个频带执行准确渲染可能是不可行的。一个挑战是,要渲染的至少一些音频对象的音频对象位置(在一些实例中,其可以由元数据指示)可以每秒改变多次。由于可以针对多个收听配置中的每一个执行渲染,因此对于一些所公开的实施方式,复杂度可能是复合的。
以牺牲内存为代价降低复杂度的替代性方法是使用一个或多个查找表(或其他这样的数据结构),所述查找表包括所有可能的对象位置在三维空间中的(例如,扬声器激活的)样本。取决于特定实施方式,采样在所有维度上可以相同或可以不同。在一些这样的示例中,可以针对多个收听配置中的每一个创建一个这样的数据结构。替代性地或另外地,单个数据结构可以通过多个数据结构的求和来创建,所述多个数据结构中的每一个可以与多个收听配置中的不同收听配置相对应。
图6B是在示例实施例中指示扬声器激活的点的图表。在该示例中,对x维度和y维度采样15个点,并且对z维度采样5个点。根据该示例,每个点表示M个扬声器激活,一个扬声器激活用于音频环境中的M个扬声器中的每一个。扬声器激活可以是与图6A的滤波器组分析405相关联的N个频带中的每一个的增益或复合值。单个数据结构可以通过跨这些频带对与多个收听配置相关联的数据结构进行复用来创建。换句话说,对于数据结构的每个频带,可以选择来自多个收听配置中的每一个的激活。一旦创建了该单个复用数据结构,所述数据结构就可以与用于实现与图6A的功能等效的功能的渲染器的单个实例相关联。根据该示例,图6B中示出的点可以与已通过对多个数据结构进行复用来创建的单个数据结构的扬声器激活值相对应,所述多个数据结构中的每一个与不同收听配置相对应。
其他实施方式可以包括更多样本或更少样本。例如,在一些实施方式中,用于扬声器激活的空间采样可能不均匀。一些实施方式可以涉及比图6B中示出的x,y平面多或少的x,y平面中的扬声器激活样本。一些这样的实施方式可以确定仅一个x,y平面中的扬声器激活样本。根据该示例,每个点表示用于CMAP、FV、VBAP或其他灵活渲染方法的M个扬声器激活。在一些实施方式中,如图6B中示出的扬声器激活等一组扬声器激活可以存储在数据结构中,所述数据结构在本文中可以被称为“表”(或“笛卡尔表”,如图6B中所指示的)。
期望的渲染位置将不必与已计算出扬声器激活的位置相对应。在运行时,为了确定每个扬声器的实际激活,可以实施某种形式的插值。在一些这样的示例中,可以使用离期望的渲染位置最近的8个点的扬声器激活之间的三线性插值。
图6C是根据一个示例的指示扬声器激活的点之间的三线性插值的图表。根据该示例,在图6C中示出的矩形棱柱的顶点处或附近的实心圆603与离已计算出扬声器激活的期望的渲染位置最近的8个点的位置相对应。在该实例中,期望的渲染位置是在图6C中呈现的矩形棱柱内的点。在该示例中,连续线性插值的过程包括对顶平面中的每一对点进行插值以确定第一插值点605a和第二插值点605b、对底平面中的每一对点进行插值以确定第三插值点610a和第四插值点610b、对第一插值点605a和第二插值点605b进行插值以确定顶平面中的第五插值点615、对第三插值点610a和第四插值点610b进行插值以确定底平面中的第六插值点620、以及对第五插值点615和第六插值点620进行插值以确定顶平面与底平面之间的第七插值点625。
尽管三线性插值是有效的插值方法,但本领域技术人员将理解,三线性插值只是可以用于实施本公开的各方面的一种可能的插值方法,并且其他示例可以包括其他插值方法。例如,一些实施方式可以涉及比图6B中示出的x,y平面多或少的x,y平面中的插值。一些这样的实施方式可以涉及仅一个x,y平面中的插值。在一些实施方式中,期望的渲染位置的扬声器激活将被简单地设置为离已计算出扬声器激活的期望的渲染位置最近的位置的扬声器激活。
图7是概述了可以由如本文公开的装置或系统等装置或系统执行的方法的另一示例的流程图。与本文所描述的其他方法一样,不必以所指示的顺序来执行方法700的框。此外,这样的方法可以包括比所示出和/或所描述的框更多或更少的框。方法700的框可以由一个或多个设备执行,所述设备可以是(或可以包括)控制系统,如图6A中示出的和上文描述的控制系统110,或者其他公开的控制系统示例之一。
在该实施方式中,框705涉及由控制系统接收音频数据。在一些示例中,音频数据可以包括音频信号和相关联的空间数据,例如,如上文参考图3、图4和图6的空间音频流305所描述的。因此,在一些示例中,音频数据可以包括基于空间声道的音频数据和/或基于空间对象的音频数据。在一些实例中,音频数据可以具有以下音频格式之一:立体声、杜比3.1.2、杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.2、杜比7.1.4、杜比9.1、杜比9.1.6或DolbyAtmosTM
根据该示例,框710涉及由控制系统接收多个收听配置的收听配置数据。在该示例中,每个收听配置与收听位置和收听取向相对应。例如,每个收听配置可以与人在音频环境中的收听位置和收听取向相对应。例如,收听位置可以与人的头部位置相对应。例如,收听取向可以与人的头部取向相对应。
根据一些示例,所述收听配置数据可以与从所述音频环境中的一个或多个传感器获得的传感器数据相对应。例如,所述传感器可以包括一个或多个相机、一个或多个移动传感器和/或一个或多个麦克风。在一些实例中,所述收听位置和所述收听取向可以是相对于音频环境坐标系。根据一些示例,所述收听位置可以是相对于一个或多个扩音器在所述音频环境中的位置。
根据该实施方式,框715涉及由经由控制系统实施的分析滤波器组分析接收到的音频数据,以产生与音频数据相对应的全局频带集。在一些实例中,所述分析滤波器组可以是短时离散傅里叶变换(STDFT)滤波器组、混合复合正交镜(HCQMF)滤波器组或正交镜(QMF)滤波器组。在一些示例中,框715可以由滤波器组分析块405执行,所述滤波器组分析块产生与空间音频流305的音频数据相对应的全局频带集607。
在该示例中,框720涉及由控制系统并针对由控制系统实施的多个渲染器中的每个渲染器选择全局频带集的子集,以针对每个渲染器产生渲染器特定的频带集。在一些这样的实施方式中,每个渲染器特定的扩音器馈送信号集可以唯一地与所述多个渲染器中的一个渲染器相关联并且唯一地与所述多个收听配置中的一个收听配置相关联。在一些示例中,框720可以由频带选择块410a至410n中的每一个执行,所述频带选择块被配置为从全局频带集607中选择渲染器特定的频带617a至617n集中的对应集并且将渲染器特定的频带617a至617n集之一提供给空间音频渲染器310a至310n中的对应空间音频渲染器。
根据该实施方式,框725涉及由所述多个渲染器中的每个渲染器并根据所述收听配置数据渲染所述渲染器特定的频带集,以针对对应收听配置获得渲染器特定的扩音器馈送信号集。在该示例中,每个渲染器被配置为针对不同收听配置渲染所述渲染器特定的频带集中的频带。在一些示例中,框725可以由图6A的空间音频渲染器310a至310n执行。根据一些示例,框725的渲染可以涉及频域中的串扰消除。
在该示例中,框730涉及由控制系统组合多个渲染器中的每个渲染器的渲染器特定的扩音器馈送信号集,以产生扩音器馈送信号输出集。在一些示例中,组合所述扩音器馈送信号集可以涉及对渲染器特定的扩音器馈送信号集中的每个集进行复用。在一些示例中,框730可以至少部分地由上文参考图6A描述的组合块415执行,所述组合块被配置为组合由空间音频渲染器310a至310n输出的渲染器特定的扩音器馈送信号317a至317n,以在频域中产生扩音器馈送信号输出集417。根据一些示例,框730(或方法700的另一框)可以涉及(例如,经由合成滤波器组)将频域中的扩音器馈送信号输出集变换为时域中的扩音器馈送信号输出集。
在一些替代性示例中,框725可以涉及产生多个数据结构。每个数据结构可以包括用于对应收听配置并且与二维空间或三维空间中的多个点中的每一个相对应的一组渲染器特定的扬声器激活。在一些这样的示例中,可以针对多个收听配置中的每一个创建一个这样的数据结构,例如,如上文参考图6B和图6C所描述的。在一些这样的示例中,框730可以涉及通过对多个数据结构求和来创建单个数据结构(例如,单个查找表),所述多个数据结构中的每一个与多个收听配置中的不同收听配置相对应。
在该实施方式中,框735涉及由控制系统将扩音器馈送信号输出集输出到多个扩音器。在一些示例中,方法700可以涉及使多个扩音器再现扩音器馈送信号输出集。
在一些实施方式中,音频环境可以是或可以包括车辆环境。图8示出了根据一个实施方式的车辆内部的示例。在该示例中,车辆800包括座椅805a、805b、805c和805d,所述座椅中的每一个包括座椅靠背807、座椅底部809、以及头枕810a、810b、810c和810d之一。在该实施方式中,每个座椅具有一个或多个相关联肘靠811和安全带813。
在该示例中,车辆800包括多个扩音器,尽管扩音器在图8中是不可见的。车辆音频环境的一个潜在优点是车辆内扩音器位置和取向通常是固定的。因此,通常,车辆内扩音器位置和取向是已知的并且不需要例如根据音频设备自动定位过程来确定。
根据一些示例,车辆控制系统(其可以是图1的控制系统110的实例)可以被配置为确定车辆800中的一个或多个人的收听位置和收听取向。在一些这样的示例中,可以被配置为根据从车辆800的一个或多个传感器获得的传感器数据确定车辆800中的一个或多个人的收听位置和收听取向。一个或多个传感器可以是图1的传感器系统129的实例。在图8中示出的示例中,车辆控制系统已根据从车辆800的一个或多个传感器获得的传感器数据确定了坐在驾驶员座椅上的收听者1的位置和坐在前排乘客座椅上的收听者2的位置。
在一些示例中,一个或多个传感器可以是座椅传感器,如一个或多个相机、一个或多个安全带传感器、一个或多个头枕传感器、一个或多个座椅靠背传感器、一个或多个座椅底部传感器和/或一个或多个肘靠传感器。取决于特定实施方式,如果一个或多个座椅传感器包括一个或多个相机,则(多个)相机可以或可以不附接到(多个)座椅。例如,一个或多个相机中的每一个可以附接到车辆内部在座椅附近的一部分,如仪表板、挡风玻璃、后视镜、方向盘等,并且可以被定位以便获得在座椅805a至804d中的任何座椅上的人的图像。
根据一些这样的实施方式,如果传感器数据指示人坐在座椅上,则可以假设收听位置与座椅位置(和/或头枕位置)相对应并且将假设人的收听取向与座椅的取向相对应。在一些实施方式中,车辆控制系统可以根据人的头部的位置来确定人的收听位置。在一些示例中,可以根据头枕位置来确定人的头部的位置。根据一些示例,车辆控制系统可以根据人坐着的座椅的取向来确定人的收听取向。在一些实施方式(如图8中示出的示例)中,所有座椅805a至804d面朝前。因此,车辆控制系统可以确定座椅805a至804d中的任何座椅上的人的取向是面朝前。
然而,在一些实施方式中,车辆控制系统可以至少部分地基于座椅靠背位置来确定人(例如,人的头部)的位置和/或取向。例如,车辆控制系统可以确定(例如根据座椅传感器数据或从用于定位座椅的座椅机制(包括但不限于用于调整座椅靠背角度的座椅机制))人的座椅靠背在直立位置、倾斜位置等,并且可以因此确定人的位置和/或取向。
此外,在一些替代性实施方式中,车辆中的座椅中的一个或多个可以被配置为旋转,使得车辆中的座椅中的一个或多个可以面对车辆的侧面、面对车辆的后面等。在一些这样的实施方式中,车辆控制系统可以至少部分地基于确定的座椅旋转角度(例如,根据座椅传感器数据)来确定人(例如,人的头部)的位置和/或取向。随着自动驾驶车辆越来越受欢迎和消费者的接受,在一些实例中,即使是坐在通常是车辆的驾驶员座椅上的人也可能不会一直面朝前。
图9示出了另一所公开的实施方式的示例框。与本文提供的其他图一样,图9中示出的元件的类型、数量和布置仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型、数量和/或布置的元件。在该示例中,元件310a、310b、410、415、420、905、915a和915b经由装置100的控制系统110的实例(其在该实例中是车辆控制系统)来实施。在一些这样的示例中,元件310a、310b、410、415、420、905、915a和915b可以由控制系统110根据储存于一个或多个非暂态计算机可读介质上的指令来实施,所述非暂态计算机可读介质在一些实例中可以与存储器系统115的一个或多个存储器设备相对应。
在该示例中,已编码空间音频流305被解码器905接收、解码,并且将已解码空间音频流907提供给滤波器组分析块405。此处,如在图6A中,实施滤波器组分析块405的仅单个实例,并且将滤波器组分析应用于输入的已解码空间音频流907,而不是应用于空间音频渲染器的扬声器馈送。根据该示例,滤波器组分析块405产生与已解码空间音频流907的音频数据相对应的全局频带集607。在该上下文中,由滤波器组分析块405产生的“频带”是在一组频率范围中的每一个内的已解码空间音频流907的音频数据的频域表示。在该示例中,滤波器组分析块405是上文参考图4描述的滤波器组分析块405a至405n的单个实例,使得描述将不在此处进行重复。
在该实施方式中,频带选择块410具有与上文参考图4描述的频带选择块410a至410n的功能类似的功能。然而,在该实施方式中,频带选择块410被配置为从全局频带集607中选择两个渲染器特定的频带617a和617b集。在该示例中,频带选择块410被配置为将渲染器特定的频带集617a提供至空间音频渲染器310a并且将渲染器特定的频带集617b提供给空间音频渲染器310b。因此,对于空间音频渲染器310a和310b中的每一个,仅处理属于其选定频带子集的空间音频流的渲染器特定的频带以针对这些频带产生扬声器馈送,从而与上文参考图3和图4描述的操作相比较潜在地降低由空间音频渲染器310a和310b中的每一个执行的操作的复杂度。
在该示例中,将与图8的收听者1相对应的收听者位置数据910a提供给平移器系数生成块915a,所述平移器系数生成块被配置为生成与收听者位置数据910a相对应的平移器系数并且将平移器系数提供给空间音频渲染器310a。在一些实施方式中,收听者位置数据910a可以包括收听者位置和收听者取向数据两者。在一些这样的示例中,根据座椅805a的能力,收听者取向数据可以指示收听者1面朝前。
根据该示例,将与图8的收听者2相对应的收听者位置数据910b提供给平移器系数生成块915b,所述平移器系数生成块被配置为生成与收听者位置数据910b相对应的平移器系数并且将平移器系数提供给空间音频渲染器310b。在一些实施方式中,收听者位置数据910b可以包括收听者位置和收听者取向数据两者。在一些这样的示例中,根据座椅805b的能力,收听者取向数据可以指示收听者2面朝前。根据一些示例,收听者位置数据910a和收听者位置数据910b可以是或可以基于车辆传感器数据,如座椅传感器数据。
一些替代性实施方式可以不包括与空间音频渲染器310a和310b分开的平移器系数生成块915a和915b。在一些这样的实施方式中,可以将收听者位置数据910a提供给空间音频渲染器310a,并且可以将收听者位置数据910a提供给空间音频渲染器310b。根据一些这样的示例,空间音频渲染器310a可以被配置为生成与收听者位置数据910a相对应的平移器系数,并且空间音频渲染器310b可以被配置为生成与收听者位置数据910b相对应的平移器系数。
如果输入空间音频流305包括空间元数据,则在一些实施方式中还会将该空间元数据提供给空间音频渲染器310a和310b。在一些这样的示例中,空间元数据可以伴随全局频带集607以及渲染器特定的频带617a和617b集中的每个集。
根据该示例,控制系统110被配置为实施上文参考图4描述的组合块415,所述组合块被配置为组合由空间音频渲染器310a和310b输出的渲染器特定的扩音器馈送信号317a和317b,以在频域中产生扩音器馈送信号输出集417。在一些示例中,组合块415可以被配置为经由复用过程组合渲染器特定的扩音器馈送信号317a和317b。在该示例中,控制系统110被配置为实施滤波器组合成块420,所述滤波器组合成块被配置为将扩音器馈送信号输出集417从频域变换到时域,使得扩音器馈送信号输出集325在时域中。在一些示例中,可以将扩音器馈送信号输出集325提供给车辆800中的一组扩音器。根据一些实施方式,扩音器馈送信号输出集325可以由车辆800中的该组扩音器回放。
图10是概述了可以由如本文公开的装置或系统等装置或系统执行的方法的一个示例的流程图。与本文所描述的其他方法一样,不必以所指示的顺序来执行方法1000的框。此外,这样的方法可以包括比所示出和/或所描述的框更多或更少的框。方法1000的框可以由一个或多个设备执行,所述设备可以是(或可以包括)控制系统,如图8中示出的和上文描述的控制系统110,或者其他公开的控制系统示例之一。
在该实施方式中,框1005涉及由控制系统接收音频数据。在一些实施方式中,控制系统可以是或可以包括车辆控制系统。在一些示例中,音频数据可以包括音频信号和相关联的空间数据,例如,如上文参考图3、图4、图6和图9的空间音频流305所描述的。因此,在一些示例中,音频数据可以包括基于空间声道的音频数据和/或基于空间对象的音频数据。在一些实例中,音频数据可以具有以下音频格式之一:立体声、杜比3.1.2、杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.2、杜比7.1.4、杜比9.1、杜比9.1.6或Dolby AtmosTM
根据该示例,框1010涉及由控制系统接收指示车辆中存在多个人的传感器信号。在一些实例中,所述传感器信号可以是或包括来自一个或多个座椅传感器的信号。在一些这样的示例中,座椅传感器可以包括一个或多个相机、一个或多个安全带传感器、一个或多个头枕传感器、一个或多个座椅靠背传感器、一个或多个座椅底部传感器和/或一个或多个肘靠传感器。然而,在一些替代性示例中,传感器信号可以是或可以包括来自车辆的一个或多个门的信号、来自车辆的一个或多个非座椅表面(例如,一个或多个仪表板表面、内部面板表面、底板表面、天花板表面、方向盘表面)等的信号。例如,传感器可以包括一个或多个相机、一个或多个压力传感器、一个或多个触摸传感器、一个或多个移动传感器和/或一个或多个麦克风。
根据该实施方式,框1015涉及由控制系统并且至少部分地基于传感器信号来估计多个收听配置。在该示例中,每个收听配置与多个人中的人的收听位置和收听取向相对应。在一些实例中,收听位置和收听取向可以是相对于车辆坐标系。根据一些示例,收听配置可以是相对于一个或多个扩音器在车辆中的位置。在一些这样的示例中,收听位置可以与头部位置相对应。根据一些这样的示例,收听取向可以与头部取向相对应。在一些实施方式中,至少一个收听配置可以与人的身份相关联并且储存于存储器中。例如,在一些这样的实施方式中,头部位置和/或取向可以与特定个体的经保存预设定座椅位置和/或取向相对应。存储器可以是可由控制系统访问的车辆存储器或远程存储器,例如,用于实施基于云的服务的服务器的存储器。
在该示例中,框1020涉及由控制系统针对多个收听配置中的每个收听配置渲染接收到的音频数据,以产生扩音器馈送信号输出集。在该实施方式中,框1025涉及由控制系统将扩音器馈送信号输出集提供给车辆中的多个扩音器。在一些示例中,方法1000可以涉及使多个扩音器再现扩音器馈送信号输出集。
在一些示例中,所述音频数据的渲染可以由多个渲染器执行。在一些这样的示例中,所述多个渲染器中的每个渲染器可以被配置为针对不同收听配置渲染所述音频数据,以获得渲染器特定的扩音器馈送信号集。在一些这样的示例中,方法1000可以涉及由所述控制系统并针对每个渲染器将每个渲染器特定的扩音器馈送信号集分解成渲染器特定的频带集。在一些实例中,渲染器特定的频带集中的每个集可以唯一地与所述多个渲染器中的一个渲染器相关联。在一些实例中,渲染器特定的频带集中的每个集可以唯一地与所述多个收听配置中的一个收听配置相关联。在一些实例中,渲染可以涉及在时域中的渲染(例如,在时域中执行双平衡振幅平移)或在频域中的渲染(例如,在频域中的串扰消除)。
在一些这样的示例中,方法1000可以涉及由所述控制系统组合每个渲染器的所述渲染器特定的频带集,以产生扩音器馈送信号输出集。在一些实例中,组合所述多组渲染器特定的频带可以涉及对所述渲染器特定的频带集进行复用。在一些这样的示例中,方法1000可以涉及由所述控制系统输出所述扩音器馈送信号输出集。
在一些示例中,将所述渲染器特定的扩音器馈送信号集分解成所述渲染器特定的频带集可以涉及:由与每个渲染器相关联的分析滤波器组分析所述渲染器特定的扩音器馈送信号集以产生全局频带集;以及选择所述全局频带集的子集以产生所述渲染器特定的频带集。在一些这样的示例中,可以选择所述全局频带集的子集,使得当组合所述多个渲染器中的每一个的渲染器特定的频带时,所述全局频带集中的每个频带在所述扩音器馈送信号输出集中仅被表示一次。
根据一些示例,组合所述多个渲染器特定的频带可以涉及由合成滤波器组在所述时域中合成所述扩音器馈送信号输出集。在一些示例中,所述分析滤波器组和/或所述合成滤波器组可以是短时离散傅里叶变换(STDFT)滤波器组、混合复合正交镜(HCQMF)滤波器组或正交镜(QMF)滤波器组。
在一些替代性示例中,音频数据的渲染还可以由多个渲染器执行。在一些这样的示例中,所述多个渲染器中的每个渲染器可以被配置为针对不同收听配置渲染所述音频数据,以获得渲染器特定的扩音器馈送信号集。在一些这样的示例中,方法1000可以涉及由所述控制系统所实施的分析滤波器组分析接收到的音频,以产生所述接收到的音频数据的全局频带集。在一些这样的示例中,方法1000可以涉及由所述控制系统并针对所述多个渲染器中的每个渲染器选择所述全局频带集的子集,以针对每个渲染器产生渲染器特定的频带集。在一些这样的示例中,方法1000可以涉及由所述多个渲染器中的每个渲染器渲染所述渲染器特定的频带集,以针对对应收听配置获得扩音器馈送信号集。根据一些实施方式,每个渲染器特定的频带集可以唯一地与一个渲染器相关联。在一些实施方式中,每个渲染器特定的频带集可以唯一地与一个收听配置相关联。
在一些实施方式中,所述渲染可以涉及由或针对每个渲染器生成与收听配置相对应的一组系数。所述系数可以用于所述渲染。在一些实例中,所述系数可以是平移器系数。
一些示例可以涉及从多个渲染模式中选择渲染模式。在一些这样的示例中,每个渲染模式可以基于多个收听配置中的相应收听配置。在一些示例中,至少一个收听配置可以与人的身份相关联并存储在存储器中。根据一些这样的示例,所述存储器可以是车辆存储器。在其他示例中,存储器可以是可由控制系统访问的远程存储器,例如,用于实施基于云的服务的服务器的存储器。
在一些示例中,方法1000可以涉及组合来自每个渲染器的扩音器馈送信号集,以产生扩音器馈送信号输出集。根据一些示例,组合来自每个渲染器的所述扩音器馈送信号集可以涉及对来自每个渲染器的所述扩音器馈送信号集进行复用。在一些示例中,方法1000可以涉及输出所述扩音器馈送信号输出集。
根据一些这样的示例,组合所述扩音器馈送信号集可以涉及由合成滤波器组在所述时域中合成所述扩音器馈送信号输出集。在一些示例中,所述合成滤波器组或所述分析滤波器组可以是短时离散傅里叶变换(STDFT)滤波器组、混合复合正交镜(HCQMF)滤波器组或正交镜(QMF)滤波器组。
与多个收听配置中的每一个相关联的收听位置和收听取向可以通过本领域中已知的许多机制来获得。在如汽车驾驶室等一些应用中,这些位置和取向是固定的并且可以例如借助卷尺或依据CAD设计进行物理测量。如图2A至图2B中示出的家庭环境等其他应用可能需要可以通过单次设置程序或甚至跨时间动态地自动检测这些位置和取向的更具适应性方法。在特此通过援引并入的Hess,Wolfgang,Head-Tracking Techniques forVirtual Acoustic Applications,(AES 133rd Convention,October 2012)[Hess,Wolfgang,用于虚拟声学应用的头部跟踪技术,(AES第133号公约,2012年10月)]中,提出了用于在空间音频再现系统的背景下跟踪收听者头部的位置和取向两者的许多商业上可获得的技术。所讨论的一个特定示例是微软Kinect。利用其深度传感和标准相机以及公开可用的软件(Windows软件开发工具包(SDK)),可以使用骨骼跟踪与面部识别的组合来同时跟踪空间中的多个收听者的头部的位置和取向。尽管Windows的Kinect已经停产,但实施下一代微软的深度传感器的Azure Kinect开发工具包(DK)是当前可用的。
在特此通过援引并入的名称为“Automatic Discovery and Localization ofSpeaker Locations in Surround Sound Systems[环绕声系统中的扬声器位置的自动发现和定位]”的美国专利号10,779,084中,描述了一种可以通过声学测量每个扬声器与麦克风之间的到达时间(TOA)来自动定位扩音器和麦克风在收听环境中的位置的系统。可以通过将麦克风(例如,收听者握持的移动电话中的麦克风)放置并定位在期望的收听位置处来检测收听位置,并且可以通过将另一麦克风放置在收听者的观看方向上的点处(例如TV处)来定义相关联收听取向。替代性地,可以通过将扩音器(例如,TV上的扩音器)定位在观看方向上来定义收听取向。
在特此通过援引并入的Shi,Guangi et al,Spatial Calibration of SurroundSound Systems including Listener Position Estimation,(AES 137th Convention,October 2014)[Shi,Guangi等人,包括收听者位置估计的对环绕声系统的空间校准,(AES第137号公约,2014年10月)]中描述了一种系统,其中与其位置可预测的再现系统的部件(如条形音箱、前中央扬声器)相关联的单个线性麦克风阵列测量卫星扩音器和收听者两者的到达时间差(TDOA)以定位扩音器和收听者两者的位置。在这种情况下,收听取向固有地定义为连接检测到的收听位置与再现系统的包括线性麦克风阵列的部件(如与电视共同定位(放置在电视正上方或正下方)的条形音箱)的线。由于条形音箱的位置可预测地放置在视频屏幕正上方或正下方,因此可以使用简单的三角原理将所测量的距离和入射角的几何形状转换为相对于在该参考条形音箱位置前面的任何点的绝对位置。线性麦克风阵列的扩音器与麦克风之间的距离可以通过播放测试信号并测量发射扩音器与接收麦克风之间的飞行时间(TOF)来估计。所测量的脉冲响应的直接分量的时间延迟可以用于这个目的。扩音器与麦克风阵列元件之间的脉冲响应可以通过经由被分析的扩音器播放测试信号来获得。例如,最大长度序列(MLS)或啁啾信号(还被称为对数正弦扫频)可以被用作测试信号。房间脉冲响应可以通过计算所捕获的信号与MLS输入之间的循环交叉相关来获得。本参考文献的图2示出了使用MLS输入获得的回波脉冲响应。该脉冲响应被称为类似于在典型办公室或客厅中进行的测量。直接分量的延迟用于估计扩音器与麦克风阵列元件之间的距离。对于扩音器距离估计,应计算并从所测量的TOF估计移除用于回放测试信号的音频设备的任何回环时延。
如可以看到的,存在可以获得多个收听配置的收听位置和取向的许多机制,并且所有这样的方法(以及可以开发的相关未来方法)旨在适用于本公开的实施方式。因此,本文公开的具体细节应仅仅被视为示例。
图11示出了环境中的四个音频设备之间的几何关系的示例。在该示例中,音频环境1100是包括电视1101以及音频设备1105a、1105b、1105c和1105d的房间。根据该示例,音频设备1105a至1105d分别在音频环境1100的位置1至4中。与本文公开的其他示例一样,图11中示出的元件的类型、数量、位置和取向仅作为示例。其他实施方式可以具有不同类型、数量和布置的元件,例如,更多或更少音频设备、在不同位置中的音频设备、具有不同能力的音频设备等。
在该实施方式中,音频设备1105a至1105d中的每一个是包括麦克风系统和扬声器系统的智能扬声器,所述扬声器系统包括至少一个扬声器。在一些实施方式中,每个麦克风系统包括至少三个麦克风的阵列。根据一些实施方式,电视1101可以包括扬声器系统和/或麦克风系统。在一些这样的实施方式中,自动定位方法可以用于自动地定位电视1101或电视1101的一部分(例如,电视扩音器、电视收发器等),例如,如下文参考音频设备1105a至1105d所描述的。
本公开中描述的一些实施例允许基于每一对音频设备之间的到达方向(DOA)、每一对设备之间的音频信号的到达时间(TOA)或者每一对设备之间的音频信号的DOA和TOA两者进行一组音频设备(如图11中示出的音频设备1105a至1105d)的自动定位。在一些实例中,如在图11中示出的示例中,用至少一个驱动单元和一个麦克风阵列启用音频设备中的每一个,麦克风阵列能够提供传入声音的到达方向。根据该示例,双头箭头1110ab表示由音频设备1105a发射并由音频设备1105b接收的声音,以及由音频设备1105b发射并由音频设备1105a接收的声音。类似地,双头箭头1110ac、1110ad、1110bc、1110bd和1110cd分别表示由音频设备1105a和音频设备1105c发射并接收的声音、由音频设备1105a和音频设备1105d发射并接收的声音、由音频设备1105b和音频设备1105c发射并接收的声音、由音频设备1105b和音频设备1105d发射并接收的声音、以及由音频设备1105c和音频设备1105d发射并接收的声音。
在该示例中,音频设备1105a至1105d中的每一个具有可以以各种方式定义的由箭头1115a至1115d表示的取向。例如,具有单个扩音器的音频设备的取向可以与单个扩音器所面对的方向相对应。在一些示例中,具有面对不同方向的多个扩音器的音频设备的取向可以由扩音器之一所面对的方向指示。在其他示例中,具有面对不同方向的多个扩音器的音频设备的取向可以由与音频输出在多个扩音器中的每一个所面对的不同方向上的总和相对应的矢量的方向指示。在图11中示出的示例中,参考笛卡尔坐标系定义箭头1115a至1115d的取向。在其他示例中,可以参考另一类型的坐标系(如球面或柱面坐标系)定义箭头1115a至1115d的取向。
在该示例中,电视1101包括被配置为接收电磁波的电磁界面1103。在一些示例中,电磁界面1103可以被配置为发射和接收电磁波。根据一些实施方式,音频设备1105a至1105d中的至少两个可以包括被配置为收发器的天线系统。天线系统可以被配置为发射和接收电磁波。在一些示例中,天线系统包括具有至少三个天线的天线阵列。本公开中描述的一些实施例允许至少部分地基于在设备之间发射的电磁波的DOA进行一组设备(如图11中示出的音频设备1105a至1105d和/或电视1101)的自动定位。因此,双头箭头1110ab、1110ac、1110ad、1110bc、1110bd和1110cd还可以表示在音频设备1105a至1105d之间发射的电磁波。
根据一些示例,设备(如音频设备)的天线系统可以与设备的扩音器共同定位,例如,邻近扩音器。在一些这样的示例中,天线系统取向可以与扩音器取向相对应。替代性地或另外地,设备的天线系统可以相对于设备的一个或多个扩音器具有已知或预定取向。
在该示例中,音频设备1105a至1105d被配置用于彼此无线通信并且与其他设备无线通信。在一些示例中,音频设备1105a至1105d可以包括被配置用于经由因特网在音频设备1105a至1105d与其他设备之间进行通信的网络接口。在一些实施方式中,本文公开的自动定位过程可以由音频设备1105a至1105d之一的控制系统执行。在其他示例中,自动定位过程可以由音频环境1100的另一设备(如有时可以被称为智能家居中枢的设备)执行,该另一设备被配置用于与音频设备1105a至1105d进行无线通信。在其他示例中,自动定位过程可以至少部分地通过在音频环境1100外部的设备(如服务器)例如基于从音频设备1105a至1105d中的一个或多个和/或智能家居中枢接收的信息来执行。
图12示出了位于图11的音频环境内的音频发射器。一些实施方式提供一个或多个音频发射器(如图12的人1205)的自动定位。在该示例中,人1205在位置5处。此处,由人1205发出并由音频设备1105a接收的声音是由单头箭头1210a表示的。类似地,由人1205发出并由音频设备1105b、1105c和1105d接收的声音是由单头箭头1210b、1210c和1210d表示的。音频发射器可以基于如由音频设备1105a至1105d和/或电视1101捕获的音频发射器声音的DOA、基于如由音频设备1105a至1105d和/或电视1101测量的音频发射器声音的TOA差、或基于DOA和TOA差两者来定位。
替代性地或另外地,一些实施方式可以提供一个或多个电磁波发射器的自动定位。本公开中描述的一些实施例允许至少部分地基于由一个或多个电磁波发射器发射的电磁波的DOA进行对一个或多个电磁波发射器的自动定位。如果电磁波发射器在位置5处,则由电磁波发射器发射并由音频设备1105a、1105b、1105c和1105d接收的电磁波还可以由单头箭头1210a、1210b、1210c和1210c表示。
图13示出了位于图11的音频环境内的音频接收器。在该示例中,启用智能手机1305的麦克风,但智能手机1305的扬声器当前不发出声音。一些实施例提供当智能手机1305不发出声音时对一个或多个无源音频接收器(如图13的智能手机1305)的自动定位。此处,由音频设备1105a发出并由智能手机1305接收的声音是由单头箭头1310a表示的。类似地,由音频设备1105b、1105c和1105d发出并由智能手机1305接收的声音是由单头箭头1310b、1310c和1310d表示的。
如果音频接收器配备有麦克风阵列并且被配置为确定接收到的声音的DOA,则音频接收器可以至少部分地基于由音频设备1105a至1105d发出并由音频接收器捕获的声音的DOA来定位。在一些示例中,音频接收器可以至少部分地基于如由音频接收器捕获的智能音频设备的TOA差来定位,而不管音频接收器是否配备有麦克风阵列。还有其他实施例可以允许通过组合上文描述的方法仅基于DOA或基于DOA和TOA来进行对一组智能音频设备、一个或多个音频发射器和一个或多个接收器的自动定位。
到达方向定位
图14是概述了可以由如图1中示出的装置等装置的控制系统执行的方法的一个示例的流程图。与本文所描述的其他方法一样,不必以所指示的顺序来执行方法1400的框。此外,这样的方法可以包括比所示出和/或所描述的框更多或更少的框。
方法1400是音频设备定位过程的示例。在该示例中,方法1400涉及确定两个或更多个智能音频设备的位置和取向,所述智能音频设备中的每一个包括扩音器系统和麦克风阵列。根据该示例,方法1400涉及根据DOA估计至少部分地基于由每个智能音频设备发出并且由每个其他智能音频设备捕获的音频来确定智能音频设备的位置和取向。在该示例中,方法1400的初始框依赖于每个智能音频设备的控制系统能够例如通过使用麦克风阵列的单独麦克风振膜之间的到达时间差从由该智能音频设备的麦克风阵列获得的输入音频提取DOA。
在该示例中,框1405涉及获得由音频环境的每个智能音频设备发出并由音频环境的每个其他智能音频设备捕获的音频。在一些这样的示例中,框1405可以涉及使每个智能音频设备发出声音,所述声音在一些实例中可以是具有预定持续时间、频率内容等的声音。这个预定类型的声音在本文中可以被称为结构化源信号。在一些实施方式中,智能音频设备可以是或可以包括图11的音频设备1105a至1105d。
在一些这样的示例中,框1405可以涉及使单个智能音频设备发出声音而其他智能音频设备“收听”声音的顺序过程。例如,参考图11,框1405可以涉及:(a)使音频设备1105a发出声音并从音频设备1105b至1105d的麦克风阵列接收与所发出的声音相对应的麦克风数据;然后(b)使音频设备1105b发出声音并从音频设备1105a、1105c和1105d的麦克风阵列接收与所发出的声音相对应的麦克风数据;然后(c)使音频设备1105c发出声音并从音频设备1105a、1105b和1105d的麦克风阵列接收与所发出的声音相对应的麦克风数据;然后(d)使音频设备1105d发出声音并从音频设备1105a、1105b和1105c的麦克风阵列接收与所发出的声音相对应的麦克风数据。取决于特定实施方式,所发出的声音可以相同或可以不同。
在其他示例中,框1405可以涉及使所有智能音频设备发出声音而其他智能音频设备“收听”声音的同步过程。例如,框1405可以涉及同时执行以下步骤:(1)使音频设备1105a发出第一声音并从音频设备1105b至1105d的麦克风阵列接收与所发出的第一声音相对应的麦克风数据;(2)使音频设备1105b发出不同于第一声音的第二声音并从音频设备1105a、1105c和1105d的麦克风阵列接收与所发出的第二声音相对应的麦克风数据;(3)使音频设备1105c发出不同于第一声音和第二声音的第三声音并从音频设备1105a、1105b和1105d的麦克风阵列接收与所发出的第三声音相对应的麦克风数据;(4)使音频设备1105d发出不同于第一声音、第二声音和第三声音的第四声音并从音频设备1105a、1105b和1105c的麦克风阵列接收与所发出的第四声音相对应的麦克风数据。
在一些示例中,框1405可以用于确定音频环境中的音频设备的相互可听性。本文中公开了一些详细示例。
在该示例中,框1410涉及对经由麦克风获得的音频信号进行预处理的过程。例如,框1410可以涉及应用一个或多个滤波器、噪声或回波抑制过程等。在下文描述了一些附加预处理示例。
根据该示例,框1415涉及从由框1410产生的经预处理的音频信号确定DOA候选。例如,如果框1405涉及发射和接收结构化源信号,则框1415可以涉及用于产生脉冲响应和/或“伪范围”的一个或多个解卷积方法,根据所述解卷积方法,主要峰值的到达时间差可以连同智能音频设备的已知麦克风阵列几何形状用于估计DOA候选。
然而,并非方法1400的所有实施方式都涉及基于预定声音的发射来获得麦克风信号。因此,框1415的一些示例包括应用于任意音频信号的“盲目”方法,如可控响应功率、接收器侧波束成形、或其他类似方法,根据所述“盲目”方法,可以通过峰值拾取来提取一个或多个DOA。下文描述了一些示例。将理解,虽然可以经由盲目方法或使用结构化源信号确定DOA数据,但在大多数实例中,可以仅使用结构化源信号来确定TOA数据。此外,通常可以使用结构化源信号获得更准确的DOA信息。
根据该示例,框1420涉及选择与由其他智能音频设备中的每一个发出的声音相对应的一个DOA。在许多实例中,麦克风阵列可以检测直接到达以及由同一音频设备发射的反射声音两者。框1420可以涉及选择最有可能与直接发射的声音相对应的音频信号。在下文描述了确定DOA候选和从两个或更多个候选DOA选择DOA的一些附加示例。
在该示例中,框1425涉及接收由框1420的每个智能音频设备的实施方式产生的DOA信息(换句话说,接收与从每个智能音频设备发射到音频环境中的每个其他智能音频设备的声音相对应的DOA集)并且基于DOA信息来执行定位方法(例如,经由控制系统实施定位算法)。在一些所公开的实施方式中,框1425涉及最小化可能受制于一些约束和/或权重的成本函数,例如,如下文参考图15所描述的。在一些这样的示例中,成本函数接收从每个智能音频设备到每个其他智能设备的DOA值作为输入数据,并且返回智能音频设备中的每一个的估计位置和估计取向作为输出。在图14中示出的示例中,框1430表示在框1425中产生的估计智能音频设备位置和估计智能音频设备取向。
图15是概述了用于基于DOA数据来自动地估计设备位置和取向的方法的另一示例的流程图。例如,方法1500可以通过经由如图1中示出的装置等装置的控制系统实施定位算法来执行。与本文所描述的其他方法一样,不必以所指示的顺序来执行方法1500的框。此外,这样的方法可以包括比所示出和/或所描述的框更多或更少的框。
根据该示例,在框1505中获得DOA数据。根据一些实施方式,框1505可以涉及获得声学DOA数据,例如,如上文参考图14的框1405至1420所描述的。替代性地或另外地,框1505可以涉及获得与由环境中的多个设备中的每一个发射并接收的电磁波相对应的DOA数据。
在该示例中,定位算法接收在框1505中从每个智能设备到音频环境中的每个其他智能设备获得的DOA数据以及为音频环境指定的任何配置参数1510作为输入。在一些示例中,可选约束1525可以应用于DOA数据。例如,可以由控制系统从存储器获得配置参数1510、最小化权重1515、可选约束1525和种子布局1530,所述控制系统是用于实施成本函数1520和非线性搜索算法1535的执行软件。例如,配置参数1510可以包括与最大房间尺寸、扩音器布局约束、设置全局平移(例如,2个参数)、全局旋转(1个参数)和全局比例(1个参数)的外部输入等相对应的数据。
根据该示例,将配置参数1510提供给成本函数1520和非线性搜索算法1535。在一些示例中,将配置参数1510提供给可选约束1525。在该示例中,成本函数1520考虑所测量的DOA与通过优化器的定位解决方案估计的DOA之间的差。
在一些实施例中,可选约束1525对可能的音频设备位置和/或取向施加限制,如施加音频设备彼此间的距离最小的条件。替代性地或另外地,可选约束1525可以对方便引入的虚拟最小化变量施加限制,例如,如下文所描述的。
在该示例中,还将最小化权重1515提供给非线性搜索算法1535。下文描述了一些示例。
根据一些实施方式,非线性搜索算法1535是可以找到以下形式的连续优化问题的局部解的算法:
min C(x)
x∈Cn
使得gL≤g(x)≤gU
并且xL≤x≤xU
在前述表达式中,C(x):Rn->R表示成本函数1520,并且g(x):Rn->Rm表示与可选约束1525相对应的约束函数。在这些示例中,矢量gL和gU表示约束的下限和上限,并且矢量xL和xU表示变量x的边界。
非线性搜索算法1535可以根据特定实施方式来变化。非线性搜索算法1535的示例包括梯度下降法、布罗伊登-弗莱彻-戈尔德法-山诺(BFGS)方法、内点优化(IPOPT)方法等。虽然一些非线性搜索算法仅需要成本函数和约束的值,但一些其他方法还可能需要成本函数和约束的第一导数(梯度、雅可比),并且一些其他方法也可能需要相同函数的二阶导数(Hessians)。如果需要导数,则可以明确地提供所述导数,或可以使用自动或数值微分技术自动地计算所述导数。
一些非线性搜索算法需要种子点信息来开始最小化,如图15中提供给非线性搜索算法1535的种子布局1530所建议的。在一些示例中,可以提供种子点信息作为由具有对应位置和取向的相同数量的智能音频设备(换句话说,数量与获得DOA数据的智能音频设备的实际数量相同)构成的布局。位置和取向可以是任意的,并且不需要是智能音频设备的实际或近似位置和取向。在一些示例中,种子点信息可以指示沿着音频环境的轴或另一任意线的智能音频设备位置、沿着音频环境内的圆圈、矩形或其他几何形状的智能音频设备位置等。在一些示例中,种子点信息可以指示可以是预定智能音频设备取向或随机智能音频设备取向的任意智能音频设备取向。
在一些实施例中,成本函数1520可以用复平面变量公式化如下:
其中,星号指示复共轭,竖杠指示绝对值,并且其中:
·Znm=exp(i DOAnm)表示给出如从设备n测量的智能设备m的到达方向的复平面值,其中,i表示虚数单位;
·xn=xnx+ixny表示对智能设备n的x和y位置进行编码的复平面值;
·zn=exp(iαn)表示对智能设备n的取向角度αn进行编码的复合值;
·表示给予DOAnm测量的权重;
·N表示获得DOA数据的智能音频设备的数量;以及
·x=(x1,...,xN)和z=(z1,...,zN)分别表示所有N智能音频设备的复合位置和复合取向的矢量。
根据该示例,最小化的结果是设备位置数据1540指示智能设备的2D位置xk(表示每设备2个实数未知数)并且设备取向数据1545指示智能设备的取向矢量zk(表示每设备2个附加实数变量)。从取向矢量来看,仅智能设备αk的取向角度与问题有关(每设备1个实数未知数)。因此,在该示例中,每智能设备存在3个相关未知数。
在一些示例中,结果评估框1550涉及计算成本函数在结果位置和取向处的残差。相对较低的残差指示相对更精确的设备定位值。根据一些实施方式,结果评估框1550可以涉及反馈过程。例如,一些这样的示例可以实施涉及比较给定DOA候选组合的残差与另一DOA候选组合的残差的反馈过程,例如,如在下文的DOA稳健性措施讨论中所解释的。
如上所述,在一些实施方式中,框1505可以涉及获得声学DOA数据,如上文参考涉及确定DOA候选和选择DOA候选的图14的框1405至1420所描述的。因此,图15包括从结果评估框1550到框1505的虚线,用于表示可选反馈过程的一个流程。此外,图14包括从框1430(其在一些示例中可以涉及结果评估)到DOA候选选择框1420的虚线,用于表示另一可选反馈过程的流程。
在一些实施例中,非线性搜索算法1535可以不接受复值变量。在这样的情况下,每个复值变量可以被一对实数变量取代。
在一些实施方式中,可以存在关于每个DOA测量的可用性或可靠性的附加先验信息。在一些这样的示例中,扩音器可以仅使用所有可能的DOA元素的子集来定位。例如,丢失的DOA元素可以用成本函数中的对应零权重来掩蔽。在一些这样的示例中,权重wnm可以是零或一,例如,对于丢失或被视为不足够可靠的这些测量是零并且对于可靠测量是一。在一些其他实施例中,权重wnm可以具有从零到一的连续值,作为DOA测量的可靠性的函数。在没有先验信息可用的这些实施例中,权重wnm可以被简单地设置为一。
在一些实施方式中,可以添加条件|zk|=1(每个智能音频设备一个条件)作为约束以确保指示智能音频设备的取向的矢量的归一化。在其他示例中,可以不需要这些附加约束,并且可以使指示智能音频设备的取向的矢量不归一化。其他实施方式可以添加对智能音频设备的接近度的约束条件,例如,指示|xn-xm|≥D,其中,D是智能音频设备之间的最小距离。
上述成本函数的最小化不完全地确定智能音频设备的绝对位置和取向。根据该示例,成本函数在全局旋转(1个独立参数)、全局平移(2个独立参数)和全局重新缩放(1个独立参数)下保持不变,从而同时影响所有智能设备位置和取向。该全局旋转、平移和重新缩放无法从成本函数的最小化中确定。通过对称性变换进行相关的不同布局在该框架中是完全不可区分的,并且被称为属于同一等价类别。因此,配置参数应提供允许唯一地定义表示整个等价类别的智能音频设备布局的标准。在一些实施例中,可能有利的是,选择标准使得该智能音频设备布局定义与在参考收听位置附近的收听者的参考系接近的参考系。下文提供这种标准的示例。在一些其他示例中,标准可以是纯数学的并且与现实的参考系断开连接。
对称性消歧标准可以包括:固定全局平移对称性的参考位置(例如,智能音频设备1应在坐标原点处);固定二维旋转对称性的参考取向(例如,智能设备1应被定向为朝向指定为前面的音频环境的区域,如电视1101在图11至图13中的位置);以及固定全局缩放对称性的参考距离(例如,智能设备2应在距智能设备1的单位距离处)。总共地,在该示例中存在无法从最小化问题中确定并且应作为外部输入来提供的4个参数。因此,在该示例中,存在可以从最小化问题中确定的3N-4个未知数。
如上文所描述的,在一些示例中,除了该组智能音频设备之外,还可以存在配备有麦克风阵列的一个或多个无源音频接收器、和/或一个或多个音频发射器。在这样的情况下,定位过程可以使用基于DOA估计从由每个智能音频设备和每个发射器发射并由每个其他智能音频设备和每个无源接收器捕获的音频确定智能音频设备位置和取向、发射器位置以及无源接收器位置和取向的技术。
在一些这样的示例中,定位过程可以以与上文所描述类似的方式继续进行。在一些实例中,定位过程可以基于上文描述的相同成本函数,在下文为了方便读者而示出所述成本函数:
然而,如果定位过程涉及并非音频接收器的无源音频接收器和/或音频发射器,则需要以稍微不同的方式来解释前述等式的变量。现在,N表示设备总数,包括Nsmart个智能音频设备、Nrec个无源音频接收器和Nemit个发射器,使得N=Nsmart+Nrec+Nemit。在一些示例中,权重可以具有稀疏结构以掩盖由于仅无源接收器或发射器设备(或不具有接收器的其他音频源,如人类)导致的丢失数据,使得如果设备n是不具有接收器的音频发射器,则对于所有m,/>并且如果设备m是音频接收器,则对于所有n,/>对于智能音频设备和无源接收器两者,可以确定位置和角度两者,然而对于仅音频发射器,可以获得位置。未知数总数是3Nsmart+3Nrec+2Nemit-4。
组合到达时间和到达方向定位
在以下讨论中,将强调上文描述的基于DOA的定位过程与本章节的DOA和TOA组合定位之间的差异。可以假设未明确给出的这些细节与上文描述的基于DOA的定位过程中的细节相同。
图16是概述了用于基于DOA数据和TOA数据来自动地估计设备位置和取向的方法的一个示例的流程图。例如,方法1600可以通过经由如图1中示出的装置等装置的控制系统实施定位算法来执行。与本文所描述的其他方法一样,不必以所指示的顺序来执行方法1600的框。此外,这样的方法可以包括比所示出和/或所描述的框更多或更少的框。
根据该示例,在框1605至1620中获得DOA数据。根据一些实施方式,框1605至1620可以涉及从多个智能音频设备获得声学DOA数据,例如,如上文参考图14的框1405至1420所描述的。在一些替代性实施方式中,框1605至1620可以涉及获得与由环境中的多个设备中的每一个发射并接收的电磁波相对应的DOA数据。
在该示例中,然而,框1605还涉及获得TOA数据。根据该示例,TOA数据包括由音频环境中的每个智能音频设备(例如,音频环境中的每一对智能音频设备)发出并接收的音频的所测量TOA。在涉及发出结构化源信号的一些实施例中,用于提取TOA数据的音频可以与用于提取DOA数据的音频相同。在其他实施例中,用于提取TOA数据的音频可以不同于用于提取DOA数据的音频。
根据该示例,框1616涉及检测音频数据中的TOA候选,并且框1618涉及从TOA候选中选择每个智能音频设备对的单个TOA。下文描述了一些示例。
各种技术可以用于获得TOA数据。一种方法是使用房间校准音频序列,如扫频(例如,对数正弦音调)或最大长度序列(MLS)。可选地,前述序列可以在频带限制到接近的超声音频频率范围(例如,18kHz至24kHz)的情况下使用。在该音频频率范围内,最标准的音频设备能够发出并记录声音,但这样的信号无法被人类感知到,因为它超出了正常的人类听力能力。一些替代性实施方式可以涉及从主要音频信号(如直接序列扩展频谱信号)中的隐藏信号中恢复TOA元素。
考虑到从每个智能音频设备到每个其他智能音频设备的DOA数据集以及来自每一对智能音频设备的TOA数据集,图16的定位方法1625可以基于最小化可能受制于一些约束的特定成本函数。在该示例中,图16的定位方法1625接收上文描述的DOA和TOA值作为输入数据,并且输出与智能音频设备相对应的估计位置数据和取向数据630。在一些示例中,定位方法1625还可以输出智能音频设备的回放和记录时延,例如直到无法从最小化问题确定的一些全局对称性。下文描述了一些示例。
图17是概述了用于基于DOA数据和TOA数据来自动地估计设备位置和取向的方法的另一示例的流程图。例如,方法1700可以通过经由如图1中示出的装置等装置的控制系统实施定位算法来执行。与本文所描述的其他方法一样,不必以所指示的顺序来执行方法1700的框。此外,这样的方法可以包括比所示出和/或所描述的框更多或更少的框。
除了下文所描述的,在一些示例中,框1705、1710、1715、1720、1725、1730、1735、1740、1745和1750可以如上文参考图15的框1505、1510、1515、1520、1525、1530、1535、1540、1545和1550所描述。然而,在该示例中,相对于图15的成本函数1520和非线性优化方法1535修改成本函数1720和非线性优化方法1735,以便对DOA数据和TOA数据两者进行操作。在一些示例中,可以获得框1708的TOA数据,如上文参考图16所描述的。与图15的过程相比较的另一差异是:在该示例中,非线性优化方法1735还输出与智能音频设备相对应的记录和回放时延数据1747,例如,如下文所描述的。因此,在一些实施方式中,结果评估框1750可以涉及评估DOA数据和/或TOA数据两者。在一些这样的示例中,框1750的操作可以包括涉及DOA数据和/或TOA数据的反馈过程。例如,一些这样的示例可以实施涉及比较给定TOA/DOA候选组合的残差与另一TOA/DOA候选组合的残差的反馈过程,例如,如在下文的TOA/DOA稳健性措施讨论中所解释的。
在一些示例中,结果评估框1750涉及计算成本函数在结果位置和取向处的残差。相对较低的残差通常指示相对更精确的设备定位值。根据一些实施方式,结果评估框1750可以涉及反馈过程。例如,一些这样的示例可以实施涉及比较给定TOA/DOA候选组合的残差与另一TOA/DOA候选组合的残差的反馈过程,例如,如在下文的TOA和DOA稳健性措施讨论中所解释的。
因此,图16包括从框630(其在一些示例中可以涉及结果评估)到DOA候选选择框1620和TOA候选选择框1618的虚线,用于表示可选反馈过程的流程。在一些实施方式中,框1705可以涉及获得声学DOA数据,如上文参考涉及确定DOA候选和选择DOA候选的图16的框1605至1620所描述的。在一些示例中,框1708可以涉及获得声学TOA数据,如上文参考涉及确定TOA候选和选择TOA候选的图16的框1605至1618所描述的。尽管图17中未示出,但一些可选反馈过程可以涉及从结果评估框1750恢复到框1705和/或框1708。
根据该示例,定位算法通过最小化可能受制于一些约束的成本函数继续进行,并且可以如下所描述。在该示例中,定位算法接收DOA数据1705和TOA数据1708以及为收听环境指定的配置参数1710和可能一些可选约束1725作为输入。在该示例中,成本函数考虑到所测量的DOA与估计的DOA之间的差以及所测量的TOA与估计的TOA之间的差。在一些实施例中,约束1725对可能的设备位置、取向和/或时延施加限制,如施加音频设备彼此间的距离最小的条件和/或施加一些设备时延应为零的条件。
在一些实施方式中,成本函数可以公式化如下:
C(x,z,l,k)=WDOACDOA(x,z)+WTOACTOA(x,l,k)
在前述等式中,l=(l1,...,lN)和k=(k1,...,kN)分别表示每个设备的回放和记录设备的矢量,并且其中,WDOA和WTOA分别表示DOA和TOA最小化部分的全局权重(还被称为前因子),反映了两个项中的每个项的相对重要性。在一些这样的示例中,TOA成本函数可以公式化为:
其中,
·TOAnm表示从智能设备m行进到智能设备n的信号的所测量到达时间;
·表示给予TOAnm测量的权重;以及
·c表示声音的速度。
每个智能音频设备最多有5个实数未知数:设备位置xn(每设备2个实数未知数)、设备取向αn(每设备1个实数未知数)以及记录和回放时延ln和kn(每设备2个附加未知数)。从这些来看,仅设备位置和时延与成本函数的TOA部分有关。在一些实施方式中,如果时延之间存在先验的已知限制或联系,则有效未知数数量可以减少。
在一些示例中,可以存在例如关于每个TOA测量的可用性或可靠性的附加先验信息。在这些示例中的一些示例中,权重可以是零或一,例如,对于不可用(或被视为不足够可靠)的这些测量是零并且对于可靠测量是一。这样,可以仅利用所有可能的DOA和/或TOA元素的子集来估计设备定位。在一些其他实施方式中,权重可以具有从零到一的连续值,例如,作为TOA测量的可靠性的函数。在没有先验可靠性信息可用的一些示例中,权重可以被简单地设置为一。
根据一些实施方式,可以对时延的可能值和/或不同时延本身之间的关系施加一个或多个附加约束。
在一些示例中,可以以标准长度单位(如米)测量音频设备的位置,并且可以以标准时间单位(如秒)指示时延和到达时间。然而,通常情况是,当最小化过程中使用的不同变量的变化规模为同一等级时非线性优化方法效果更好。因此,一些实施方式可以涉及重新缩放位置测量,使得智能设备位置的变化范围在-1与1之间,并且重新缩放时延和到达时间,使得这些值的范围也在-1与1之间。
上述成本函数的最小化并不完全确定智能音频设备的绝对位置和取向或者时延。TOA信息给出了绝对距离尺度,这意味着成本函数在尺度变换下不再不变,但在全局旋转和全局平移下仍保持不变。另外地,时延受制于附加全局对称性:如果相同的全局量同时添加到所有回放和记录时延,则成本函数保持不变。这些全局变换无法从成本函数的最小化中确定。类似地,配置参数应提供允许唯一地定义表示整个等价类别的设备布局的标准。
在一些示例中,对称性消歧标准可以包括以下项:固定全局平移对称性的参考位置(例如,智能设备1应在坐标原点处);固定二维旋转对称性的参考取向(例如,智能设备1应定向为朝向前面);和参考时延(例如,设备1的记录时延应是零)。总共地,在该示例中,存在无法从最小化问题中确定并且应作为外部输入来提供的4个参数。因此,存在可以从最小化问题中确定的5N-4个未知数。
在一些实施方式中,除了该组智能音频设备之外,还可以存在可能未配备有正常工作的麦克风阵列和/或一个或多个音频发射器的一个或多个无源音频接收器。包括作为最小化变量的时延允许一些所公开的方法定位其发射和接收时间不精确已知的接收器和发射器。在一些这样的实施方式中,可以实施上文描述的TOA成本函数。为了方便读者,下文再次示出该成本函数:
如上文参考DOA成本函数所描述的,如果成本函数用于涉及无源接收器和/或发射器的定位估计,则需要以稍微不同的方式来解释成本函数变量。现在,N表示设备总数,包括Nsmart个智能音频设备、Nrec个无源音频接收器和Nemit个发射器,使得N=Nsmart+Nrec+Nemit。权重可以具有稀疏结构以掩盖由于仅无源接收器或发射器导致的丢失数据,例如,使得如果设备n是音频发射器,则对于所有m,/>并且如果设备m是音频接收器,则对于所有n,/>根据一些实施方式,对于智能音频设备,必须确定位置、取向以及记录和回放时延;对于无源接收器,必须确定位置、取向和记录时延;并且对于音频发射器,必须确定位置和回放时延。根据一些这样的示例,未知数的总数因此是5Nsmart+4Nrec+3Nemit-4。
全局平移和旋转的消歧
仅DOA问题以及TOA和DOA组合问题的解决方案都受制于全局平移和旋转模糊性。在一些示例中,平移模糊性可以通过将仅发射器源视为收听者并且平移所有设备使得收听者位于原点处来解决。
旋转模糊性可以通过对解决方案施加约束来解决。例如,一些多扩音器环境可以包括电视(TV)扩音器和被定位以进行TV观看的长沙发。在将扩音器定位在环境中之后,一些方法可以涉及找到结合收听者与TV观看方向的矢量。一些这样的方法然后可以涉及使TV从其扩音器发出声音和/或提示用户走向TV并对用户的言语进行定位。一些实施方式可以涉及渲染围绕环境平移的音频对象。用户可以提供指示音频对象何时处于环境内的一个或多个预定位置(如环境的前面、在环境的TV位置处等)的用户输入(例如,说“停止”)。一些实施方式涉及配备有惯性测量单元的手机应用程序,所述惯性测量单元提示用户将手机指向两个定义的方向:第一个指向特定设备(例如具有发光LED的设备)的方向,第二个指向用户期望的观看方向,如环境的前面、在环境的TV位置处等。现在将参考图18A至图18D描述一些详细的消歧示例。
图18A示出了音频环境的示例。根据一些示例,由所公开的定位方法之一输出的音频设备位置数据可以包括参考音频设备坐标系1807对音频设备1至5中的每一个的音频设备位置的估计。在该实施方式中,音频设备坐标系1807是以音频设备2的麦克风的位置作为其原点的笛卡尔坐标系。此处,音频设备坐标系1807的x轴与音频设备2的麦克风位置与音频设备1的麦克风位置之间的线1803相对应。
在该示例中,收听者位置是通过提示被示出为坐在长沙发1103上的收听者1805(例如,经由来自环境1800a中的一个或多个扩音器的音频提示)说出一个或多个话语1827并且根据到达时间(TOA)数据估计收听者位置来确定的。TOA数据与由环境中的多个麦克风获得的麦克风数据相对应。在该示例中,麦克风数据与由音频设备1至5中的至少一些(例如,3个、4个或全部5个)音频设备的麦克风对一个或多个话语1827的检测相对应。
替代性地或另外地,收听者位置可以根据由音频设备1至5中的至少一些(例如,2个、3个、4个或全部5个)音频设备的麦克风提供的DOA数据来估计。根据一些这样的示例,可以根据与DOA数据相对应的线1809a、1809b等的交点来确定收听者位置。
根据该示例,收听者位置与收听者坐标系1820的原点相对应。在该示例中,收听者角取向数据由收听者坐标系1820的y’轴指示,所述y’轴与收听者的头1810(和/或收听者的鼻子1825)与电视1101的条形音箱1830之间的线1813a相对应。在图18A中示出的示例中,线1813a平行于y’轴。因此,角表示y轴与y’轴之间的角。因此,尽管音频设备坐标系1807的原点示出为与图18A中的音频设备2相对应,但一些实施方式涉及在音频设备坐标围绕收听者坐标系1820的原点旋转角/>之前,将音频设备坐标系1807的原点与收听者坐标系1820的原点共同定位。该共同定位可以通过从音频设备坐标系1807到收听者坐标系1820的坐标变换来执行。
在一些示例中,条形音箱1830和/或电视1101的位置可以通过使条形音箱发出声音并且根据DOA和/或TOA数据估计条形音箱的位置来确定,这可以与由音频设备1至5中的至少一些(例如,3个、4个或全部5个)音频设备的麦克风对声音的检测相对应。替代性地或另外地,条形音箱1830和/或电视1101的位置可以通过提示用户走向TV并通过DOA和/或TOA数据定位用户的言语来确定,这可以与由音频设备1至5中的至少一些(例如,3个、4个或全部5个)音频设备的麦克风对声音的检测相对应。一些这样的方法可以涉及应用成本函数,例如,如上文所描述的。一些这样的方法可以涉及三角测量。这样的示例在条形音箱1830和/或电视1101没有相关联的麦克风的情况下可以是有益的。
在条形音箱1830和/或电视1101确实具有相关联的麦克风的一些其他示例中,条形音箱1830和/或电视1101的位置可以根据TOA和/或DOA方法(如本文公开的方法)来确定。根据一些这样的方法,麦克风可以与条形音箱1830共同定位。
根据一些实施方式,条形音箱1830和/或电视1101可以具有相关联的相机1811。控制系统可以被配置为捕获收听者的头1810(和/或收听者的鼻子1825)的图像。在一些这样的示例中,控制系统可以被配置为确定收听者的头1810(和/或收听者的鼻子1825)与相机1811之间的线1813a。收听者角取向数据可以与线1813a相对应。替代性地或另外地,控制系统可以被配置为确定线1813a与音频设备坐标系的y轴之间的角
图18B示出了确定收听者角取向数据的附加示例。根据该示例,已经确定了收听者位置。此处,控制系统控制环境1800b的扩音器以将音频对象1835渲染到环境1800b内的各种位置。在一些这样的示例中,控制系统可以使扩音器渲染音频对象1835,使得音频对象1835似乎围绕收听者1805旋转,例如,通过渲染音频对象1835使得音频对象1835似乎围绕收听者坐标系1820的原点旋转。在该示例中,弯曲箭头1840示出了音频对象1835在其围绕收听者1805旋转时的轨迹的一部分。
根据一些这样的示例,收听者1805可以提供指示音频对象1835何时在收听者1805所面对的方向上的用户输入(例如,说“停止”)。在一些这样的示例中,控制系统可以被配置为确定收听者位置与音频对象1835的位置之间的线1813b。在该示例中,线1813b与收听者坐标系的y’轴相对应,这指示收听者1805所面对的方向。在替代性实施方式中,收听者1805可以提供指示音频对象1835何时在环境的前面、在环境的TV位置处、在音频设备位置处等的用户输入。
图18C示出了确定收听者角取向数据的附加示例。根据该示例,已经确定了收听者位置。此处,收听者1805正在使用手持设备1845通过将手持设备1845指向电视1101或条形音箱1830来提供关于收听者1805的观看方向的输入。在该示例中,手持设备1845的虚线轮廓和收听者的手臂指示在收听者1805将手持设备1845指向电视1101或条形音箱1830的时间之前的时间,收听者1805将手持设备1845指向音频设备2。在其他示例中,收听者1805可以已经将手持设备1845指向另一个音频设备,如音频设备1。根据该示例,手持设备1845被配置为确定音频设备2与电视1101或条形音箱1830之间的角α,所述角近似于音频设备2与收听者1805的观看方向之间的角。
在一些示例中,手持设备1845可以是包括惯性传感器系统和被配置用于与控制环境1800c的音频设备的控制系统通信的无线接口的蜂窝电话。在一些示例中,手持设备1845可以运行被配置为进行以下操作的应用程序或“app”:例如通过提供用户提示(例如,经由图形用户界面)、通过接收指示手持设备1845指向期望方向的输入、通过保存对应的惯性传感器数据和/或将对应的惯性传感器数据发射到控制环境1800c的音频设备的控制系统等来控制手持设备1845执行必要功能。
根据该示例,控制系统(其可以是手持设备1845的控制系统、环境1800c的智能音频设备的控制系统或控制环境1800c的音频设备的控制系统)被配置为根据惯性传感器数据(例如,根据陀螺仪数据)确定线1813c和1850的取向。在该示例中,线1813c平行于轴y’,并且可以用于确定收听者角取向。根据一些示例,控制系统可以根据音频设备2与收听者1805的观看方向之间的角α来确定音频设备坐标围绕收听者坐标系1820的原点的适当旋转。
图18D示出了根据参考图18C描述的方法来确定对音频设备坐标的适当旋转的一个示例。在该示例中,音频设备坐标系1807的原点与收听者坐标系1820的原点共同定位。在确定收听者位置之后,使音频设备坐标系1807的原点与收听者坐标系1820的原点共同定位是可能的。将音频设备坐标系1807的原点与收听者坐标系1820的原点共同定位可以涉及将音频设备位置从音频设备坐标系1807变换到收听者坐标系1820。已经确定了角α,如上文参考图18C所描述的。因此,角α与音频设备2在收听者坐标系1820中的期望取向相对应。在该示例中,角β与音频设备2在音频设备坐标系1807中的取向相对应。在该示例中为β-α的角指示用于将音频设备坐标系1807的y轴与收听者坐标系1820的y’轴对齐所必需的旋转。
DOA稳健性措施
如上文参考图14所述,在使用应用于任意信号的“盲目”方法(包括可控响应功率、波束成形或其他类似方法)的一些示例中,可以添加稳健性措施以提高准确性和稳定性。一些实施方式包括波束成形器可控响应的时间积分以滤除暂态并且仅检测持久峰值,而且平均掉这些持久DOA中的随机误差和波动。其他示例可以仅使用有限的频带作为输入,所述频带可以根据房间或信号类型进行调整以达到更好的性能。
对于使用‘监督’方法(涉及使用结构化源信号和去卷积方法来产生脉冲响应)的示例,可以实施预处理措施以增强DOA峰值的准确性和突显度。在一些示例中,这样的预处理可以包括在每个麦克风声道上的脉冲响应的起始处开始的某个时间宽度的振幅窗的截断。这样的示例可以并入有脉冲响应起始检测器,使得可以独立地找到每个声道起始。
在一些示例中,基于如上文描述的‘盲目’或‘监督’方法,可以添加更进一步的处理以提高DOA准确性。重要的是要注意,基于峰值检测的DOA选择(例如,在可控响应功率(SRP)或脉冲响应分析期间)对环境声学敏感,由于将抑制接收和发射能量的反射和设备遮挡,环境声学可能导致非主路径信号的捕获。这些发生可能降低设备对DOA的准确性,并且将误差引入优化器的定位解决方案。因此,谨慎的做法是将预定阈值内的所有峰值视为地面实况DOA的候选。预定阈值的一个示例是要求峰值大于平均可控响应功率(SRP)。对于所有检测到的峰值,突显度阈值化和移除低于平均信号水平的候选已被证明是简单然而有效的初始滤波技术。如本文所使用的,“突显度”是局部峰值与其相邻局部最小值相比有多大的度量,这不同于仅基于功率的阈值化。突显度阈值的一个示例是要求峰值与其相邻局部最小值之间的功率差处于或高于阈值。保留可行候选提高了设备对将在其组中包含可用DOA(在与地面实况的可接受误差容差内)的机会,尽管存在所述设备对在信号被强反射/遮挡毁坏的情况下将不包含可用DOA的机会。在一些示例中,可以实施选择算法以便进行以下项之一:1)选择每设备对的最佳可用DOA候选;2)确定没有一个候选是可用的并且因此用成本函数加权矩阵使该对的优化贡献为零;或3)选择最佳推断的候选,但在难以对最佳候选携带的误差量进行消歧的情况下将非二进制加权应用于DOA贡献。
在用最佳推断的候选进行初始优化之后,在一些示例中,定位解决方案可以用于计算每个DOA的残差成本贡献。对残差成本的异常值分析可以提供对定位解决方案影响最大的DOA对的证据,其中,极端异常值将这些DOA标记为可能不正确或次优的。根据前述三个选项之一,基于剩余候选的残差成本贡献并且在加权应用于该设备对的贡献的情况下对边远DOA对进行优化的递归运行然后可以用于进行候选处理。这是如上文参考图14至图17所描述的反馈过程的一个示例。根据一些实施方式,可以执行重复优化和处理决策,直到评估所有检测到的候选并且平衡选定DOA的残差成本贡献为止。
基于优化器评估进行候选选择的缺点是它是计算密集的并且对候选遍历顺序敏感。具有较少计算权重的替代性技术涉及确定集合中的候选的所有排列并且对这些候选运行用于设备定位的三角形对齐方法。在2020年3月19日提交并且名称为“Audio DeviceAuto-Location[音频设备自动定位]”的美国临时专利申请第62/992,068号中公开了相关三角形对齐方法,所述美国临时专利申请出于所有目的而特此通过援引并入。定位结果然后可以通过相对于三角测量中使用的DOA候选计算结果所产生的总成本和残差成本来评估。用于剖析这些度量的决策逻辑可以用于确定最佳候选以及要提供给非线性优化问题的它们相应的加权。在候选列表很大因此产生高排列计数的情况下,可以应用过滤和对排列列表的智能遍历。
TOA稳健性措施
如上文参考图16所描述的,使用多个候选TOA解决方案相比于利用单个或最小TOA值的系统增添了稳健性,并且确保误差对找到最优扬声器布局的影响最小。在获得系统的脉冲响应后,在一些示例中,可以通过搜索与直接声音相对应的峰值来恢复TOA矩阵元素中的每个TOA矩阵元素。在理想条件(例如,无噪声、源与直接指向麦克风的接收器和扬声器之间的直接路径中无阻碍)下,该峰值可以容易地被识别为脉冲响应中的最大峰值。然而,在存在噪声的情况下,阻碍、或扬声器与麦克风的不对齐、与直接声音相对应的峰值未必与最大值相对应。此外,在这样的条件下,与直接声音相对应的峰值可能难以与其他反射和/或噪声隔离。在一些实例中,直接声音识别可能是具挑战性的过程。直接声音的不正确识别将使自动定位过程降级(并且在一些实例中可能完全破坏所述自动定位过程)。因此,在直接声音识别过程中可能存在误差的情况下,考虑直接声音的多个候选可以是有效的。在一些这样的实例中,峰值选择过程可以包括两个部分:(1)寻找合适的峰值候选的直接声音搜索算法,以及(2)用于增加拾取正确TOA矩阵元素的概率的峰值候选评估过程。
在一些实施方式中,搜索直接声音候选峰值的过程可以包括用于识别直接声音的相关候选的方法。一些这样的方法可以基于以下步骤:(1)识别一个第一参考峰值(例如,脉冲响应(IR)的绝对值的最大值),即“第一峰值”;(2)评估该第一峰值周围(前面和后面)的噪声水平;(3)搜索第一峰值前面(并且在一些情况下后面)的高于噪声水平的替代性峰值;(4)根据发现的峰值的对应正确TOA的概率对所述峰值进行排序;以及可选地(5)对接近峰值进行分组(以减少候选数量)。
一旦识别出直接声音候选峰值,一些实施方式便可以涉及多峰值评估步骤。作为直接声音候选峰值搜索的结果,在一些示例中,对于每个TOA矩阵元素将存在根据其估计的概率进行排序的一个或多个候选值。多个TOA矩阵可以通过在不同候选值当中进行选择来形成。为了评估给定TOA矩阵的可能性,可以实施最小化过程(如上文描述的最小化过程)。该过程可以生成最小化的残差,所述残差是TOA和DOA矩阵的内部一致性的良好估计。完美无噪声TOA矩阵将导致零残差,而具有不正确矩阵元素的TOA矩阵将导致大残差。在一些实施方式中,方法将寻找创建具有最小残差的TOA矩阵的候选TOA矩阵元素集。这是上文参考图16和图17描述的评估过程的一个示例,所述评估过程可以涉及结果评估框1750。在一个示例中,评估过程可以涉及执行以下步骤:(1)选择初始TOA矩阵;(2)用最小化过程的残差评估初始矩阵;(3)改变来自TOA候选列表的TOA矩阵的一个矩阵元素;(4)用最小化过程的残差重新评估矩阵;(5)如果残差较小,则接受改变,否则不接受改变;以及(6)迭代进行步骤3至5。在一些示例中,当已评估所有TOA候选时或当已达到预定义最大迭代次数时评估过程可以停止。
一些所公开的替代性实施方式还涉及使用到达方向(DOA)数据声学定位扩音器和/或收听者。在一些示例中,可以经由与一些或所有扩音器共同定位的麦克风阵列获得DOA数据。
图19示出了环境中的三个音频设备之间的几何关系的示例。在该示例中,环境1900是包括电视1901、沙发1903和五个音频设备1905的房间。根据该示例,音频设备1905在环境1900的位置1至位置5中。在该实施方式中,每个音频设备1905包括具有至少三个麦克风的麦克风系统1920以及包括至少一个扬声器的扬声器系统1925。在一些实施方式中,每个麦克风系统1920包括麦克风阵列。根据一些实施方式,每个音频设备1905可以包括包含至少三根天线的天线系统。
与本文所公开的其他示例一样,图19中示出的元件的类型、数量和布置仅作为示例。其他实施方式可以具有不同类型、数量和布置的元件,例如,更多或更少的音频设备1905、在不同位置的音频设备1905等。
在该示例中,三角形1910a的顶点在位置1、2和3处。此处,三角形1910a具有边12、23a和13a。根据该示例,边12与23之间的角为θ2,边12与13a之间的角为θ1,并且边23a与13a之间的角为θ3。这些角可以根据DOA数据确定,如下文更详细描述的。
在一些实施方式中,可以确定仅三角形边的相对长度。在替代性实施方式中,可以估计三角形边的实际长度。根据一些这样的实施方式,三角形边的实际长度可以根据TOA数据来估计,例如,根据由位于一个三角形顶点处的音频设备产生并且由位于另一个三角形顶点处的音频设备检测到的声音的到达时间来估计。替代性地或另外地,三角形边的长度可以根据由位于一个三角形顶点处的音频设备产生并且由位于另一个三角形顶点处的音频设备检测到的电磁波来估计。例如,三角形边的长度可以根据由位于一个三角形顶点处的音频设备产生并且由位于另一个三角形顶点处的音频设备检测到的电磁波的信号强度来估计。在一些实施方式中,可以根据检测到的电磁波的相移来估计三角形边的长度。
图20示出了图19中示出的环境中的三个音频设备之间的几何关系的另一示例。在该示例中,三角形1910b的顶点在位置1、3和4处。此处,三角形1910b具有边13b、14和34a。根据该示例,边13b与14之间的角为θ4,边13b与34a之间的角为θ5,并且边34a与14之间的角为θ6
通过比较图11和图12,可以观察到三角形1910a的边13a的长度应该等于三角形1910b的边13b的长度。在一些实施方式中,一个三角形(例如,三角形1910a)的边长可以被假定为正确的,并且由相邻三角形共享的边的长度将被约束为该长度。
图21A示出了图19和图20中描绘的这两个三角形,其中没有对应的音频设备和环境的其他特征。图21A示出了三角形1910a和1910b的边长和角取向的估计。在图21A中示出的示例中,三角形1910b的边13b的长度被约束为与三角形1910a的边13a的长度相同。三角形1910b的其他边的长度与边13b的长度的所产生的变化成比例地缩放。所得三角形1910b’在图21A示出为与三角形1910a相邻。
根据一些实施方式,与三角形1910a和1910b相邻的其他二角形的边长都可以以类似的方式确定,直到已经确定了环境1900中的所有音频设备位置。
音频设备位置的一些示例可以如下进行。每个音频设备可以基于由环境中的每个其他音频设备产生的声音来报告环境(例如,房间)中的每个其他音频设备的DOA。第i个音频设备的笛卡尔坐标可以表示为xi=[xi,yi]T,其中,上标T指示矢量转置。给定环境中的M个音频设备,i={1...M}。
图21B示出了估计由三个音频设备形成的三角形的内角的示例。在该示例中,音频设备是i、j和k。从设备i观察到的从设备j散发的声源的DOA可以表示为θji。从设备i观察到的从设备k散发的声源的DOA可以表示为θki。在图21B中示出的示例中,θji和θki是从轴线2105a测量的,所述轴线的取向是任意的,并且所述轴线可以例如与音频设备i的取向相对应。三角形2110的内角a可以表示为a=θkiji。可以观察到,内角a的计算不依赖于轴线2105a的取向。
在图21B中示出的示例中,θij和θkj是从轴线2105b测量的,所述轴线的取向是任意的,并且所述轴线可以与音频设备j的取向相对应。三角形2110的内角b可以表示为b=θijkj。类似地,在该示例中,θjk和θik是从轴线2105c测量的。三角形2110的内角c可以表示为c=θjkik
在存在测量误差的情况下,a+b+c≠180°。可以通过从其他两个角预测每个角并且求平均来提高稳健性,例如,如下所示:
在一些实施方式中,可以通过应用正弦规则来计算边缘长度(A,B,C)(直到缩放误差)。在一些示例中,可以为一个边缘长度分派任意值,如1。例如,通过使A=1并且将顶点放置在原点处,剩余两个顶点的位置可以计算如下:
然而,任意旋转可以是可接受的。
根据一些实施方式,可以为环境中三个音频设备的所有可能子集重复三角形参数化的过程,在大小为的超集ζ中枚举。在一些示例中,Tl可以表示第l个三角形。三角形可以不以任何特定顺序枚举,取决于实施方式。由于DOA和/或边长估计中的可能误差,三角形可能重叠并且可能无法完美对齐。
图22是概述了可以由如图1中示出的装置等装置执行的方法的一个示例的流程图。与本文所描述的其他方法一样,不必以所指示的顺序来执行方法2200的框。此外,这样的方法可以包括比所示出和/或所描述的框更多或更少的框。在该实施方式中,方法2200涉及估计扬声器在环境中的位置。方法2200的框可以由一个或多个设备执行,所述一个或多个设备可以是(或可以包括)图1中示出的装置100。
在该示例中,框2205涉及获得多个音频设备中的每个音频设备的到达方向(DOA)数据。在一些示例中,多个音频设备可以包括环境中的所有音频设备,如图19中示出的所有音频设备1905。
然而,在一些实例中,多个音频设备可以仅包括环境中所有音频设备的子集。例如,多个音频设备可以包括环境中的所有智能扬声器,但不包括环境中的其他音频设备中的一个或多个。
取决于特定实施方式,可以以各种方式获得DOA数据。在一些实例中,确定DOA数据可以涉及确定多个音频设备中的至少一个音频设备的DOA数据。例如,确定DOA数据可以涉及从与多个音频设备中的单个音频设备相对应的多个音频设备麦克风中的每个麦克风接收麦克风数据以及至少部分地基于所述麦克风数据确定单个音频设备的DOA数据。替代性地或另外地,确定DOA数据可以涉及从与多个音频设备中的单个音频设备相对应的一个或多个天线接收天线数据以及至少部分地基于所述天线数据确定单个音频设备的DOA数据。
在一些这样的示例中,单个音频设备本身可以确定DOA数据。根据一些这样的实施方式,多个音频设备中的每个音频设备可以确定其自身的DOA数据。然而,在其他实施方式中,可以是本地或远程设备的另一个设备可以确定环境中的一个或多个音频设备的DOA数据。根据一些实施方式,服务器可以确定环境中一个或多个音频设备的DOA数据。
根据该示例,框2210涉及基于DOA数据确定多个三角形中的每个三角形的内角。在该示例中,多个三角形中的每个三角形具有与三个音频设备的音频设备位置相对应的顶点。上文描述了一些这样的示例。
图23示出了环境中的每个音频设备是多个三角形的顶点的示例。每个三角形的边与两个音频设备1905之间的距离相对应。
在该实施方式中,框2215涉及确定每个三角形的每条边的边长。(三角形的边在本文中也可以被称为“边缘”。)根据该示例,边长至少部分地基于内角。在一些实例中,可以通过确定三角形的第一边的第一长度以及基于三角形的内角确定三角形的第二边和第三边的长度来计算边长。上文描述了一些这样的示例。
根据一些这样的实施方式,确定第一长度可以涉及将第一长度设置为预定值。然而,在一些示例中,确定第一长度可以基于到达时间数据和/或接收到的信号强度数据。在一些实施方式中,到达时间数据和/或接收到的信号强度数据可以与来自环境中的第一音频设备的由环境中的第二音频设备检测到的声波相对应。替代性地或另外地,到达时间数据和/或接收到的信号强度数据可以与来自环境中的第一音频设备的由环境中的第二音频设备检测到的电磁波(例如,无线电波、红外波等)相对应。
根据该示例,框2220涉及执行将多个三角形中的每一个以第一顺序对齐的前向对齐过程。根据该示例,前向对齐过程产生前向对齐矩阵。
根据一些这样的示例,期望三角形以边缘(xi,xj)等于相邻边缘的方式对齐,例如,如图21A中示出的和上文所描述的。令ε的大小为的所有边缘的集合。在一些这样的实施方式中,框2220可以涉及遍历ε并且通过迫使边缘与先前对齐的边缘的边缘一致来按前向顺序对齐三角形的公共边缘。
图24提供了前向对齐过程的一部分的示例。图24中以粗体示出的数字1至5与图1、图2和图5中示出的音频设备位置相对应。图24中示出并且在本文中描述的前向对齐过程的顺序仅为示例。
在该示例中,如在图21A中,迫使三角形1910b的边13b的长度与三角形1910a的边13a的长度一致。图24中示出了所得三角形1910b’,其中,维持相同的内角。根据该示例,还迫使三角形1910c的边13c的长度与三角形1910a的边13a的长度一致。图24中示出了所得三角形1910c’,其中,维持相同的内角。
接下来,在该示例中,迫使三角形1910d的边34b的长度与三角形1910b’的边34a的长度一致。此外,在该示例中,迫使三角形1910d的边23b的长度与三角形1910a的边23a的长度一致。图24中示出了所得三角形1910d’,其中,维持相同的内角。根据一些这样的示例,图5中示出的剩余三角形可以以与三角形1910b、1910c和1910d相同的方式进行处理。
前向对齐过程的结果可以存储在数据结构中。根据一些这样的示例,前向对齐过程的结果可以存储在前向对齐矩阵中。例如,前向对齐过程的结果可以存储在矩阵中,其中,N指示三角形的总数。
当DOA数据和/或初始边长确定包含误差时,将发生多个音频设备位置估计。在前向对齐过程期间,误差通常会增加。
图25示出了已在前向对齐过程期间发生的音频设备位置的多个估计的示例。在该示例中,前向对齐过程基于以七个音频设备位置为顶点的三角形。此处,由于DOA估计中的附加误差,三角形没有完美对齐。图25中示出的数字1至7的位置与由前向对齐过程产生的估计音频设备位置相对应。在该示例中,标记为“1”的音频设备位置估计一致,但针对音频设备6和7的音频设备位置估计示出较大差异,如由数字6和7所在的相对较大的区域指出的。
返回图22,在该示例中,框2225涉及将多个三角形中的每一个以与第一顺序反向的第二顺序对齐的反向对齐过程。根据一些实施方式,反向对齐过程可以涉及像以前一样但以反向的顺序遍历ε。在替代性示例中,反向对齐过程可以不与前向对齐过程的操作顺序正好反向。根据该示例,反向对齐过程产生反向对齐矩阵,所述反向对齐矩阵在本文中可以表示为
图26提供了反向对齐过程的一部分的示例。图26中以粗体示出的数字1至5与图19、图21和图23中示出的音频设备位置相对应。图26中示出并且在本文中描述的反向对齐过程的顺序仅为示例。
在图26中示出的示例中,三角形1910e基于音频设备位置3、4和5。在该实施方式中,假定三角形1910e的边长(或“边缘”)是正确的,并且迫使相邻三角形的边长与其一致。根据该示例,迫使三角形1910f的边45b的长度与三角形1910e的边45a的长度一致。图26中示出了所得三角形1910f’,其中,内角保持相同。在该示例中,迫使三角形1910c的边35b的长度与三角形1910e的边35a的长度一致。图26中示出了所得三角形1910c”,其中,内角保持相同。根据一些这样的示例,图23中示出的剩余三角形可以以与三角形1910c和1910f相同的方式进行处理,直到反向对齐过程已经包括所有剩余三角形。
图27示出了已在反向对齐过程期间发生的多个音频设备位置估计的示例。在该示例中,反向对齐过程基于具有与上文参考图25描述的顶点相同的七个音频设备位置的三角形。图27中示出的数字1至7的位置与由反向对齐过程产生的估计音频设备位置相对应。此处同样,由于DOA估计中的附加误差,三角形没有完美对齐。在该示例中,标记为6和7的音频设备位置估计一致,但针对音频设备1和2的音频设备位置估计示出更大差异。
返回图22,框2230涉及至少部分地基于前向对齐矩阵的值和反向对齐矩阵的值来产生每个音频设备位置的最终估计。在一些示例中,产生每个音频设备位置的最终估计可以涉及平移和缩放前向对齐矩阵以产生经平移和缩放的前向对齐矩阵,以及平移和缩放反向对齐矩阵以产生经平移和缩放的反向对齐矩阵。
例如,通过将形心移动到原点并且迫使单位弗罗伯尼范数(Frobenius norm)(例如,和/>)来固定平移和缩放。
根据一些这样的示例,产生每个音频设备位置的最终估计也可以涉及基于经平移和缩放的前向对齐矩阵以及经平移和缩放的反向对齐矩阵来产生旋转矩阵。旋转矩阵可以包括每个音频设备的多个估计音频设备位置。例如,可以通过奇异值分解来找到前向对齐与反向对齐之间的最优旋转。在一些这样的示例中,涉及产生旋转矩阵可以涉及对经平移和缩放的前向对齐矩阵以及经平移和缩放的反向对齐矩阵执行奇异值分解,例如,如下:
/>
在前述等式中,分别地,U表示矩阵的左奇异矢量并且V表示所述矩阵的右奇异矢量。∑表示奇异值的矩阵。前述等式产生旋转矩阵R=VUT。矩阵乘积VUT产生旋转矩阵,使得/>被最优地旋转以与/>对齐。
根据一些示例,在确定旋转矩阵R=VUT之后,可以对对齐求平均,例如,如下:
在一些实施方式中,产生每个音频设备位置的最终估计也可以涉及对每个音频设备的估计音频设备位置求平均,以产生每个音频设备位置的最终估计。各种公开的实施方式已被证明是稳健的,即使在DOA数据和/或其他计算包括重大误差时。例如,由于来自多个三角形的重叠顶点,包含相同节点的/>个估计。跨公共节点求平均产生最终估计
图28示出了估计音频设备位置和实际音频设备位置的比较。在图28中示出的示例中,音频设备位置与在上文参考图17和图19描述的前向对齐过程和反向对齐过程期间估计的音频设备位置相对应。在这些示例中,DOA估计的误差有15度的标准偏差。尽管如此,每个音频设备位置的最终估计(每个所述最终估计在图28中由“x”表示)与实际音频设备位置(每个所述实际音频设备位置在图28中由圆圈表示)很好地对应。
前述讨论的大部分涉及音频设备自动定位。以下讨论扩展了上文简要描述的确定收听者位置和收听者角取向的一些方法。在前述描述中,术语“旋转”的使用方式与以下描述中使用的术语“取向”基本上相同。例如,上文引用的“旋转”可以是指最终扬声器几何形状的全局旋转,而不是单独三角形在上文参考图14等等所描述的过程期间的旋转。该全局旋转或取向可以参考收听者角取向例如通过收听者观看的方向、通过收听者的鼻子指向的方向等来解析。
下文描述了用于估计收听者位置的各种令人满意的方法。然而,估计收听者角取向可能具有挑战性。下文详细描述了一些相关方法。
确定收听者位置和收听者角取向可以实现一些期望的特征,如相对于收听者定向定位的音频设备。知道收听者位置和角取向允许确定例如环境中相对于收听者哪些扬声器在前面、哪些在后面、哪些靠近中心(如果有的话)等。
在音频设备位置与收听者的位置和取向之间建立关联之后,一些实施方式可以涉及将音频设备位置数据、音频设备角取向数据、收听者位置数据和收听者角取向数据提供给音频渲染系统。替代性地或另外地,一些实施方式可以涉及至少部分地基于音频设备位置数据、音频设备角取向数据、收听者位置数据和收听者角取向数据的音频数据渲染过程。
图29是概述了可以由如图1中示出的装置等装置执行的方法的另一示例的流程图。与本文所描述的其他方法一样,不必以所指示的顺序来执行方法2900的框。此外,这样的方法可以包括比所示出和/或所描述的框更多或更少的框。在该示例中,方法2900的框由控制系统执行,所述控制系统可以是(或可以包括)图1中示出的控制系统110。如上所述,在一些实施方式中,控制系统110可以驻留在单个设备中,而在其他实施方式中,控制系统110可以驻留在两个或更多个设备中。
在该示例中,框2905涉及获得环境中的多个音频设备中的每个音频设备的到达方向(DOA)数据。在一些示例中,多个音频设备可以包括环境中的所有音频设备,如图27中示出的所有音频设备1905。
然而,在一些实例中,多个音频设备可以仅包括环境中所有音频设备的子集。例如,多个音频设备可以包括环境中的所有智能扬声器,但不包括环境中的其他音频设备中的一个或多个。
取决于特定实施方式,可以以各种方式获得DOA数据。在一些实例中,确定DOA数据可以涉及确定多个音频设备中的至少一个音频设备的DOA数据。在一些示例中,可以通过控制环境中的多个扩音器中的每个扩音器以再现测试信号来获得DOA数据。例如,确定DOA数据可以涉及从与多个音频设备中的单个音频设备相对应的多个音频设备麦克风中的每个麦克风接收麦克风数据以及至少部分地基于所述麦克风数据确定单个音频设备的DOA数据。替代性地或另外地,确定DOA数据可以涉及从与多个音频设备中的单个音频设备相对应的一个或多个天线接收天线数据以及至少部分地基于所述天线数据确定单个音频设备的DOA数据。
在一些这样的示例中,单个音频设备本身可以确定DOA数据。根据一些这样的实施方式,多个音频设备中的每个音频设备可以确定其自身的DOA数据。然而,在其他实施方式中,可以是本地或远程设备的另一个设备可以确定环境中的一个或多个音频设备的DOA数据。根据一些实施方式,服务器可以确定环境中一个或多个音频设备的DOA数据。
根据图29中示出的示例,框2910涉及至少部分地基于DOA数据经由控制系统产生音频设备位置数据。在该示例中,音频设备位置数据包括对在框2905中引用的每个音频设备的音频设备位置的估计。
例如,音频设备位置数据可以是(或包括)坐标系(如笛卡尔坐标系、球面坐标系或柱面坐标系)的坐标。所述坐标系在本文中可以被称为音频设备坐标系。在一些这样的示例中,音频设备坐标系可以参考环境中的音频设备之一来定向。在其他示例中,音频设备坐标系可以参考由环境中的音频设备中的两个音频设备之间的线定义的轴线来定向。然而,在其他示例中,音频设备坐标系可以参考环境的另一部分(如电视、房间的墙等)来定向。
在一些示例中,框2910可以涉及上文参考图22描述的过程。根据一些这样的示例,框2910可以涉及基于DOA数据来确定多个三角形中的每个三角形的内角。在一些实例中,多个三角形中的每个三角形可以具有与三个音频设备的音频设备位置相对应的顶点。一些这样的方法可以涉及至少部分地基于内角来确定每个三角形的每条边的边长。
一些这样的方法可以涉及执行将多个三角形中的每一个以第一顺序对齐的前向对齐过程,以产生前向对齐矩阵。一些这样的方法可以涉及执行将多个三角形中的每一个以与第一顺序反向的第二顺序对齐的反向对齐过程,以产生反向对齐矩阵。一些这样的方法可以涉及至少部分地基于前向对齐矩阵的值和反向对齐矩阵的值来产生每个音频设备位置的最终估计。然而,在方法2900的一些实施方式中,框2910可以涉及应用除了上文参考图22描述的方法之外的方法。
在该示例中,框2915涉及经由控制系统确定指示环境内的收听者位置的收听者位置数据。例如,收听者位置数据可以参考音频设备坐标系。然而,在其他示例中,所述坐标系可以参考收听者或参考环境的一部分(如电视、房间的墙等)来定向。
在一些示例中,框2915可以涉及提示收听者(例如,经由来自环境中的一个或多个扩音器的音频提示)说出一个或多个话语并且根据DOA数据估计收听者位置。DOA数据可以与由环境中的多个麦克风获得的麦克风数据相对应。麦克风数据可以与由麦克风对一个或多个话语的检测相对应。至少一些麦克风可以与扩音器共同定位。根据一些示例,框2915可以涉及三角测量过程。例如,框2915可以涉及通过找到穿过音频设备的DOA矢量之间的交点来对用户的语音进行三角测量,例如,如上文参考图18A所描述的。根据一些实施方式,框2915(或方法2900的另一个操作)可以涉及在确定收听者位置之后,将音频设备坐标系的原点与收听者坐标系的原点共同定位。将音频设备坐标系的原点与收听者坐标系的原点共同定位可以涉及将音频设备位置从音频设备坐标系变换到收听者坐标系。
根据该实施方式,框2920涉及经由控制系统确定指示收听者角取向的收听者角取向数据。例如,收听者角取向数据可以参考用于表示收听者位置数据的坐标系(如音频设备坐标系)来得到。在一些这样的示例中,收听者角取向数据可以参考音频设备坐标系的原点和/或轴线来得到。
然而,在一些实施方式中,收听者角取向数据可以参考由收听者位置和环境中的另一个点(如电视、音频设备、墙等)定义的轴线来得到。在一些这样的实施方式中,收听者位置可以用于定义收听者坐标系的原点。在一些这样的示例中,收听者角取向数据可以参考收听者坐标系的轴线来得到。
本文公开了用于执行框2920的各种方法。根据一些示例,收听者角取向可以与收听者观看方向相对应。在一些这样的示例中,可以例如通过假定收听者正在观看特定对象(如电视),参考收听者位置数据来推断收听者观看方向。在一些这样的实施方式中,可以根据收听者位置和电视位置来确定收听者观看方向。替代性地或另外地,可以根据收听者位置和电视条形音箱位置来确定收听者观看方向。
然而,在一些示例中,可以根据收听者输入来确定收听者观看方向。根据一些这样的示例,收听者输入可以包括从由收听者握持的设备接收的惯性传感器数据。收听者可以使用所述设备来指向环境中的位置,例如,与收听者所面对的方向相对应的位置。例如,收听者可以使用所述设备来指向发声的扩音器(再现声音的扩音器)。因此,在这样的示例中,惯性传感器数据可以包括与发声的扩音器相对应的惯性传感器数据。
在一些这样的实例中,收听者输入可以包括由收听者选择的音频设备的指示。在一些示例中,音频设备的指示可以包括与所选音频设备相对应的惯性传感器数据。
然而,在其他示例中,可以根据收听者的一个或多个话语(例如,“电视现在在我前面”、“扬声器2现在在我前面”等)做出音频设备的指示。下文描述根据收听者的一个或多个话语来确定收听者角取向数据的其他示例。
根据图29中示出的示例,框2925涉及经由控制系统确定音频设备角取向数据,所述音频设备角取向数据指示每个音频设备相对于收听者位置和收听者角取向的音频设备角取向。根据一些这样的示例,框2925可以涉及围绕由收听者位置定义的点旋转音频设备坐标。在一些实施方式中,框2925可以涉及将音频设备位置数据从音频设备坐标系变换到收听者坐标系。
图30是概述了定位方法的另一示例的流程图。与本文所描述的其他方法一样,不必以所指示的顺序来执行方法3000的框。此外,这样的方法可以包括比所示出和/或所描述的框更多或更少的框。在该实施方式中,方法3000涉及估计音频设备在环境中的位置和取向。方法3000的框可以由一个或多个设备执行,所述一个或多个设备可以是(或可以包括)图1中示出的装置100。
在该示例中,框3005由控制系统获得与由音频环境的至少第一智能音频设备发出的声音相对应的到达方向(DOA)数据。例如,控制系统可以是上文参考图1所描述的控制系统110。根据该示例,第一智能音频设备包括第一音频发射器和第一音频接收器,并且DOA数据与由音频环境的至少第二智能音频设备接收的声音相对应。此处,第二智能音频设备包括第二音频发射器和第二音频接收器。在该示例中,DOA数据还与由至少第二智能音频设备发出并由至少第一智能音频设备接收的声音相对应。在一些示例中,第一智能音频设备和第二智能音频设备可以是图11中示出的音频设备1105a至1105d中的两个。
取决于特定实施方式,可以以各种方式获得DOA数据。在一些实例中,确定DOA数据可以涉及上文参考图14和/或在“DOA稳健性措施”章节中描述的DOA相关方法中的一个或多个。一些实施方式可以涉及由控制系统使用波束成形方法、可控功率响应方法、到达时间差方法和/或结构化信号方法获得DOA数据的一个或多个元素。
根据该示例,框3010涉及由控制系统接收配置参数。在该实施方式中,配置参数与音频环境本身、音频环境的一个或多个音频设备、或者音频环境和音频环境的一个或多个音频设备两者相对应。根据一些示例,配置参数可以指示音频环境中的音频设备数量、音频环境的一个或多个尺寸、对音频设备位置或取向的一个或多个约束、和/或旋转、平移或缩放中的至少一个的消歧数据。在一些示例中,配置参数可以包括回放时延数据、记录时延数据和/或用于对时延对称性进行消歧的数据。
在该示例中,框3015涉及由控制系统至少部分地基于DOA数据和配置参数来最小化成本函数,以估计至少第一智能音频设备和第二智能音频设备的位置和取向。
根据一些示例,DOA数据还可以与由音频环境的第三至第N个智能音频设备发出的声音相对应,其中,N与音频环境的智能音频设备的总数相对应。在这样的示例中,DOA数据还可以与由第一至第N个智能音频设备中的每一个从音频环境的所有其他智能音频设备接收的声音相对应。在这样的实例中,最小化成本函数可以涉及估计第三至第N个智能音频设备的位置和取向。
在一些示例中,DOA数据还可以与由音频环境的一个或多个无源音频接收器接收的声音相对应。一个或多个无源音频接收器中的每一个可以包括麦克风阵列,但可能缺少音频发射器。最小化成本函数还可以提供一个或多个无源音频接收器中的每一个的估计位置和取向。根据一些示例,DOA数据还可以与由音频环境的一个或多个音频发射器发出的声音相对应。一个或多个音频发射器中的每一个可以包括至少一个发声换能器,但可能缺乏麦克风阵列。最小化成本函数还可以提供一个或多个音频发射器中的每一个的估计位置。
在一些示例中,方法3000可以涉及由控制系统接收用于成本函数的种子布局。例如,种子布局可以指定音频环境中的音频发射器和接收器的正确数量以及音频环境中的音频发射器和接收器中的每一个的任意位置和取向。
根据一些示例,方法3000可以涉及由控制系统接收与DOA数据的一个或多个元素相关联的权重因子。例如,所述权重因子可以指示DOA数据的一个或多个元素的可用性和/或可靠性。
在一些示例中,方法3000可以涉及由控制系统接收与由音频环境的至少一个音频设备发出并由音频环境的至少一个其他音频设备接收的声音相对应的到达时间(TOA)数据。在一些这样的示例中,成本函数可以至少部分地基于TOA数据。一些这样的实施方式可以涉及估计至少一个回放时延和/或至少一个记录时延。根据一些这样的示例,成本函数可以利用重新缩放的位置、重新缩放的时延和/或重新缩放的到达时间来操作。
在一些示例中,成本函数可以包括仅取决于DOA数据的第一项和仅取决于TOA数据的第二项。在一些这样的示例中,第一项可以包括第一权重因子,并且第二项可以包括第二权重因子。根据一些这样的示例,第二项的一个或多个TOA元素可以具有指示一个或多个TOA元素中的每一个的可用性或可靠性的TOA元素权重因子。
图31是概述了定位方法的另一示例的流程图。与本文所描述的其他方法一样,不必以所指示的顺序来执行方法3100的框。此外,这样的方法可以包括比所示出和/或所描述的框更多或更少的框。在该实施方式中,方法3100涉及估计设备在环境中的位置和取向。方法3100的框可以由一个或多个设备执行,所述一个或多个设备可以是(或可以包括)图1中示出的装置100。
在该示例中,框3105由控制系统获得与环境的第一设备的至少第一收发器的发射相对应的到达方向(DOA)数据。例如,控制系统可以是上文参考图1所描述的控制系统110。根据该示例,第一收发器包括第一发射器和第一接收器,并且DOA数据与由环境的第二设备的至少第二收发器接收的发射相对应,第二收发器还包括第二发射器和第二接收器。在该示例中,DOA数据还与由至少第一收发器从至少第二收发器接收的发射相对应。根据一些示例,第一收发器和第二收发器可以被配置用于发射和接收电磁波。在一些示例中,第一智能音频设备和第二智能音频设备可以是图11中示出的音频设备1105a至1105d中的两个。
取决于特定实施方式,可以以各种方式获得DOA数据。在一些实例中,确定DOA数据可以涉及上文参考图14和/或在“DOA稳健性措施”章节中描述的DOA相关方法中的一个或多个。一些实施方式可以涉及由控制系统使用波束成形方法、可控功率响应方法、到达时间差方法和/或结构化信号方法获得DOA数据的一个或多个元素。
根据该示例,框3110涉及由控制系统接收配置参数。在该实施方式中,配置参数与环境本身、音频环境的一个或多个设备、或者环境和音频环境的一个或多个设备两者相对应。根据一些示例,配置参数可以指示环境中的音频设备数量、环境的一个或多个尺寸、对设备位置或取向的一个或多个约束、和/或旋转、平移或缩放中的至少一个的消歧数据。在一些示例中,配置参数可以包括回放时延数据、记录时延数据和/或用于对时延对称性进行消歧的数据。
在该示例中,框3115涉及由控制系统至少部分地基于DOA数据和配置参数来最小化成本函数,以估计至少第一设备和第二设备的位置和取向。
根据一些实施方式,DOA数据还可以与由环境的第三至第N个设备的第三至第N个收发器发出的传输相对应,其中,N与环境的收发器总数相对应,并且其中,DOA数据与由第一至第N个收发器中的每一个从环境的所有其他收发器接收的发射相对应。在一些这样的实施方式中,最小化成本函数还可以涉及估计第三至第N个收发器的位置和取向。
在一些示例中,第一设备和第二设备可以是智能音频设备,并且环境可以是音频环境。在一些这样的示例中,第一发射器和第二发射器可以是音频发射器。在一些这样的示例中,第一接收器和第二接收器可以是音频接收器。根据一些这样的示例,DOA数据还可以与由音频环境的第三至第N个智能音频设备发出的声音相对应,其中,N与音频环境的智能音频设备的总数相对应。在这样的示例中,DOA数据还可以与由第一至第N个智能音频设备中的每一个从音频环境的所有其他智能音频设备接收的声音相对应。在这样的实例中,最小化成本函数可以涉及估计第三至第N个智能音频设备的位置和取向。替代性地或另外地,在一些示例中,DOA数据可以与由环境中的设备发出并接收的电磁波相对应。
在一些示例中,DOA数据还可以与由环境的一个或多个无源接收器接收的声音相对应。一个或多个无源接收器中的每一个可以包括接收器阵列,但可能缺乏发射器。最小化成本函数还可以提供一个或多个无源接收器中的每一个的估计位置和取向。根据一些示例,DOA数据还可以与来自环境的一个或多个发射器的发射相对应。在一些这样的示例中,一个或多个发射器中的每一个可能缺乏接收器阵列。最小化成本函数还可以提供一个或多个发射器中的每一个的估计位置。
在一些示例中,方法3100可以涉及由控制系统接收用于成本函数的种子布局。例如,种子布局可以指定音频环境中的发射器和接收器的正确数量以及音频环境中的发射器和接收器中的每一个的任意位置和取向。
根据一些示例,方法3100可以涉及由控制系统接收与DOA数据的一个或多个元素相关联的权重因子。例如,所述权重因子可以指示DOA数据的一个或多个元素的可用性和/或可靠性。
在一些示例中,方法3100可以涉及由控制系统接收与由音频环境的至少一个音频设备发出并由音频环境的至少一个其他音频设备接收的声音相对应的到达时间(TOA)数据。在一些这样的示例中,成本函数可以至少部分地基于TOA数据。一些这样的实施方式可以涉及估计至少一个回放时延和/或至少一个记录时延。根据一些这样的示例,成本函数可以利用重新缩放的位置、重新缩放的时延和/或重新缩放的到达时间来操作。
在一些示例中,成本函数可以包括仅取决于DOA数据的第一项和仅取决于TOA数据的第二项。在一些这样的示例中,第一项可以包括第一权重因子,并且第二项可以包括第二权重因子。根据一些这样的示例,第二项的一个或多个TOA元素可以具有指示一个或多个TOA元素中的每一个的可用性或可靠性的TOA元素权重因子。
将从以下枚举的示例实施例(“EEE”)中理解各种特征和方面:
EEE1.一种音频处理方法,包括:
-由被配置用于实施多个渲染器的控制系统接收音频数据;
-由所述控制系统接收多个收听配置的收听配置数据,所述多个收听配置中的每个收听配置与音频环境中的收听位置和收听取向相对应;
-由所述多个渲染器中的每个渲染器并根据所述收听配置数据渲染所述音频数据,以针对对应收听配置获得渲染器特定的扩音器馈送信号集,其中,每个渲染器被配置为针对不同收听配置渲染所述音频数据;
-由所述控制系统并针对每个渲染器将每个渲染器特定的扩音器馈送信号集分解成渲染器特定的频带集;
-由所述控制系统组合每个渲染器的所述渲染器特定的频带集,以产生扩音器馈送信号输出集;以及
-由所述控制系统将所述扩音器馈送信号输出集输出到多个扩音器。
EEE2.如EEE1所述的方法,其中,将每个渲染器特定的扩音器馈送信号集分解成每个渲染器特定的频带集包括:
-由与每个渲染器相关联的分析滤波器组分析所述渲染器特定的扩音器馈送信号集,以产生全局频带集;以及
-选择所述全局频带集的频带子集以产生所述渲染器特定的频带集。
EEE3.如EEE2所述的方法,其中,选择所述全局频带集的频带子集,使得当组合所述多个渲染器中的所有渲染器的渲染器特定的频带集时,所述全局频带集中的每个频带在所述扩音器馈送信号输出集中仅被表示一次。
EEE4.如EEE2或EEE3所述的方法,其中,组合所述渲染器特定的频带集包括由合成滤波器组在时域中合成所述扩音器馈送信号输出集。
EEE5.如EEE2至EEE4中任一项所述的方法,其中,所述分析滤波器组选自由以下项构成的滤波器组组:短时离散傅里叶变换(STDFT)滤波器组、混合复合正交镜(HCQMF)滤波器组和正交镜(QMF)滤波器组。
EEE6.如EEE1至EEE5中任一项所述的方法,其中,渲染器特定的频带集中的每个集唯一地与所述多个渲染器中的一个渲染器相关联并且唯一地与所述多个收听配置中的一个收听配置相关联。
EEE7.如EEE1至EEE6中任一项所述的方法,其中,每个收听配置与人的收听位置和收听取向相对应。
EEE8.如权利要求7所述的方法,其中,所述收听位置与所述人的头部位置相对应,并且其中,所述收听取向与所述人的头部取向相对应。
EEE9.如EEE1至EEE8中任一项所述的方法,其中,所述音频数据包括基于空间声道的音频数据或基于空间对象的音频数据中的至少一个。
EEE10.如EEE1至EEE9中任一项所述的方法,其中,所述音频数据具有选自由以下项构成的音频格式组的格式:立体声、3.1.2、5.1、5.1.2、7.1、7.1.2、7.1.4、9.1、9.1.6和杜比全景声音频格式。
EEE11.如EEE1至EEE10中任一项所述的方法,其中,由所述多个渲染器中的渲染器进行渲染包括在时域中执行双平衡振幅平移或在频域中执行串扰消除。
EEE12.一种装置,所述装置被配置为执行如EEE1至EEE11中任一项所述的方法。
EEE13.一种系统,所述系统被配置为执行如EEE1至EEE11中任一项所述的方法。
EEE14.一个或多个非暂态介质,其上存储有指令,所述指令当由设备或系统执行时使所述设备或系统执行如EEE1至EEE11中任一项所述的方法。
虽然在本文中已经描述了具体实施例和应用,但是对于本领域普通技术人员而言显而易见的是,在不脱离在本文描述的并要求保护的范围的情况下,可以对本文描述的实施例和应用进行许多改变。应当理解,虽然已经示出和描述了某些形式,但是本公开的范围不限于所描述和示出的具体实施例或所描述的具体方法。

Claims (26)

1.一种用于在车辆中渲染音频数据的方法,所述方法包括:
由控制系统接收音频数据;
由所述控制系统接收指示车辆中存在多个人的传感器信号;
由所述控制系统并且至少部分地基于所述传感器信号来估计相对于所述车辆中的多个扩音器的多个收听配置,所述多个收听配置中的每个收听配置与所述多个人中的人的收听位置和收听取向相对应;
由所述控制系统针对所述多个收听配置中的每个收听配置渲染接收到的音频数据,以产生扩音器馈送信号输出集;以及
由所述控制系统将所述扩音器馈送信号输出集提供给所述多个扩音器。
2.如权利要求1所述的方法,其中,所述音频数据的渲染由多个渲染器执行,其中,所述多个渲染器中的每个渲染器被配置为针对不同收听配置渲染所述音频数据,以获得渲染器特定的扩音器馈送信号集,所述方法进一步包括
-由所述控制系统并针对每个渲染器将每个渲染器特定的扩音器馈送信号集分解成渲染器特定的频带集;
-由所述控制系统组合每个渲染器的所述渲染器特定的频带集,以产生扩音器馈送信号输出集;以及
-由所述控制系统输出所述扩音器馈送信号输出集。
3.根据权利要求2所述的方法,其中,将所述渲染器特定的扩音器馈送信号集分解成所述渲染器特定的频带集包括:
-由与每个渲染器相关联的分析滤波器组分析所述渲染器特定的扩音器馈送信号集,以产生全局频带集;以及
-选择所述全局频带集的子集以产生所述渲染器特定的频带集。
4.如权利要求3所述的方法,其中,选择所述全局频带集的子集,使得当组合所述多个渲染器中的每一个的渲染器特定的频带时,所述全局频带集中的每个频带在所述扩音器馈送信号输出集中仅被表示一次。
5.如权利要求2至4中任一项所述的方法,其中,组合所述多个渲染器特定的频带包括由合成滤波器组在时域中合成所述扩音器馈送信号输出集。
6.如权利要求3至5中任一项所述的方法,其中,所述分析滤波器组是短时离散傅里叶变换(STDFT)滤波器组、混合复合正交镜(HCQMF)滤波器组或正交镜(QMF)滤波器组。
7.如权利要求2至6中任一项所述的方法,其中,所述渲染器特定的频带中的每个集唯一地与所述多个渲染器中的一个渲染器相关联并且唯一地与所述多个收听配置中的一个收听配置相关联。
8.如权利要求2至7中任一项所述的方法,其中,由所述多个渲染器中的渲染器进行渲染包括在时域中执行双平衡振幅平移或在频域中执行串扰消除。
9.如权利要求2至8中任一项所述的方法,其中,组合所述渲染器特定的频带集涉及对所述渲染器特定的频带集进行复用。
10.如权利要求1至9中任一项所述的方法,其中,所述音频数据的渲染由多个渲染器执行,其中,每个渲染器被配置为针对所述多个收听配置中的不同收听配置渲染所述音频数据,所述方法进一步包括:
-由所述控制系统所实施的分析滤波器组分析接收到的音频,以产生所述接收到的音频数据的全局频带集,
-由所述控制系统并针对所述多个渲染器中的每个渲染器选择所述全局频带集的子集,以针对每个渲染器产生渲染器特定的频带集,
-由所述多个渲染器中的每个渲染器渲染所述渲染器特定的频带集,以针对对应收听配置获得扩音器馈送信号集;
-组合来自每个渲染器的扩音器馈送信号集,以产生扩音器馈送信号输出集;以及
-输出所述扩音器馈送信号输出集。
11.如权利要求10所述的方法,其中,组合所述扩音器馈送信号集包括由合成滤波器组在时域中合成所述扩音器馈送信号输出集。
12.如权利要求13或权利要求14所述的方法,其中,所述合成滤波器组是短时离散傅里叶变换(STDFT)滤波器组、混合复合正交镜(HCQMF)滤波器组或正交镜(QMF)滤波器组。
13.如权利要求13至15中任一项所述的方法,其中,每个渲染器特定的频带集唯一地与一个渲染器相关联并且唯一地与一个收听配置相关联。
14.如权利要求13至20中任一项所述的方法,其中,组合来自每个渲染器的所述扩音器馈送信号集涉及对来自每个渲染器的所述扩音器馈送信号集进行复用。
15.如权利要求1至14中任一项所述的方法,其中,收听位置与头部位置相对应,并且其中,所述收听取向与头部取向相对应。
16.如权利要求1至15中任一项所述的方法,其中,所述音频数据包括基于空间声道的音频数据或基于空间对象的音频数据中的至少一个。
17.如权利要求1至16中任一项所述的方法,其中,所述音频数据具有选自由以下项构成的音频格式组的音频格式:立体声、3.1.2、5.1、5.1.2、7.1、7.1.2、7.1.4、9.1、9.1.6和杜比全景声音频格式。
18.如权利要求1至17中任一项所述的方法,其中,所述传感器信号包括来自一个或多个座椅传感器的信号。
19.如权利要求18所述的方法,其中,所述座椅传感器包括相机、安全带传感器、头枕传感器、座椅靠背传感器、座椅底部传感器或肘靠传感器中的一个或多个。
20.如权利要求1至19中任一项所述的方法,进一步包括选择多个渲染模式中的渲染模式,所述多个渲染模式中的每个渲染模式基于多个收听配置中的相应收听配置。
21.如权利要求1至20中任一项所述的方法,其中,至少一个收听配置与人的身份相关联并且存储在所述车辆的存储器中。
22.如权利要求1至21中任一项所述的方法,其中,所述渲染包括针对每个渲染器生成与收听配置相对应的一组系数,其中,所述系数用于所述渲染。
23.如权利要求22所述的方法,其中,所述系数是平移器系数。
24.一种车辆控制系统,所述车辆控制系统被配置为执行如权利要求1至23中任一项所述的方法。
25.一种车辆,所述车辆包括如权利要求24所述的车辆控制系统。
26.一个或多个非暂态介质,其上存储有软件,所述软件包括用于实施如权利要求1至23中任一项所述的方法的指令。
CN202180091121.XA 2020-12-03 2021-12-02 针对多个收听者最佳听音位置的空间音频频域复用 Pending CN116848857A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US63/120,963 2020-12-03
US202163260528P 2021-08-24 2021-08-24
US63/260,528 2021-08-24
PCT/US2021/061505 WO2022119989A1 (en) 2020-12-03 2021-12-02 Frequency domain multiplexing of spatial audio for multiple listener sweet spots

Publications (1)

Publication Number Publication Date
CN116848857A true CN116848857A (zh) 2023-10-03

Family

ID=88171109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180091121.XA Pending CN116848857A (zh) 2020-12-03 2021-12-02 针对多个收听者最佳听音位置的空间音频频域复用

Country Status (1)

Country Link
CN (1) CN116848857A (zh)

Similar Documents

Publication Publication Date Title
US20220116723A1 (en) Filter selection for delivering spatial audio
US10820097B2 (en) Method, systems and apparatus for determining audio representation(s) of one or more audio sources
JP5878549B2 (ja) 幾何ベースの空間オーディオ符号化のための装置および方法
US20220272454A1 (en) Managing playback of multiple streams of audio over multiple speakers
US20220337969A1 (en) Adaptable spatial audio playback
US11750997B2 (en) System and method for providing a spatialized soundfield
US10299064B2 (en) Surround sound techniques for highly-directional speakers
US20230040846A1 (en) Audio device auto-location
JP2024501426A (ja) パーベイシブ音響マッピング
CN116848857A (zh) 针对多个收听者最佳听音位置的空间音频频域复用
CN116830603A (zh) 针对多个收听者最佳听音位置的空间音频频域复用
US20240107255A1 (en) Frequency domain multiplexing of spatial audio for multiple listener sweet spots
US20240114308A1 (en) Frequency domain multiplexing of spatial audio for multiple listener sweet spots
WO2023086303A1 (en) Rendering based on loudspeaker orientation
KR102670118B1 (ko) 다중 스피커를 통한 다중 오디오 스트림 재생 관리
CN116806431A (zh) 通过相互设备可听性在用户位置处的可听性
WO2022119990A1 (en) Audibility at user location through mutual device audibility
JP2023551731A (ja) オーディオ・デバイスの自動定位
WO2023086273A1 (en) Distributed audio device ducking
CN116547993A (zh) 用于骨传导式耳机的电磁信号转换器
CN116547991A (zh) 音频设备的自动定位

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination