CN114391262A - 跨具有不同回放能力的设备的动态处理 - Google Patents

跨具有不同回放能力的设备的动态处理 Download PDF

Info

Publication number
CN114391262A
CN114391262A CN202080055803.0A CN202080055803A CN114391262A CN 114391262 A CN114391262 A CN 114391262A CN 202080055803 A CN202080055803 A CN 202080055803A CN 114391262 A CN114391262 A CN 114391262A
Authority
CN
China
Prior art keywords
audio
loudspeaker
loudspeakers
spatial
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202080055803.0A
Other languages
English (en)
Other versions
CN114391262B (zh
Inventor
A·J·西斐德
J·B·兰多
D·阿特亚加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Dolby Laboratories Licensing Corp
Original Assignee
Dolby International AB
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB, Dolby Laboratories Licensing Corp filed Critical Dolby International AB
Priority to CN202311144715.XA priority Critical patent/CN117061951A/zh
Publication of CN114391262A publication Critical patent/CN114391262A/zh
Application granted granted Critical
Publication of CN114391262B publication Critical patent/CN114391262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/007Protection circuits for transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/024Positioning of loudspeaker enclosures for spatial sound reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/005Audio distribution systems for home, i.e. multi-room use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

对于收听环境的多个扩音器中的每一个,可以获得单个扩音器动态处理配置数据。可以基于所述单个扩音器动态处理配置数据来确定收听环境动态处理配置数据。可以基于所述收听环境动态处理配置数据对接收到的音频数据执行动态处理,以生成经处理的音频数据。可以渲染所述经处理的音频数据用于经由包括所述多个扩音器中的至少一些扩音器的一组扩音器再现,以产生经渲染的音频信号。所述经渲染的音频信号可以被提供给该组扩音器,并由该组扩音器再现。

Description

跨具有不同回放能力的设备的动态处理
发明人:Alan J.Seefeldt、Joshua B.Lando、Daniel Arteaga
相关申请的交叉引用
本申请要求2019年7月30日提交的西班牙专利申请号P201930702、2020年2月7日提交的美国临时专利申请号62/971,421、2020年6月25日提交的美国临时专利申请号62/705,410、2019年7月30日提交的美国临时专利申请号62/880,115和2020年6月12日提交的美国临时专利申请号62/705,143的优先权,所述专利申请中的每一个特此通过引用以其全文并入本文。
技术领域
本公开涉及用于通过一组扬声器中的一些或所有扬声器回放音频以及渲染以供回放音频的系统和方法。
背景技术
音频设备,包括但不限于智能音频设备,已经被广泛部署并且正在成为许多家庭的共同特征。尽管用于控制音频设备的现有系统和方法提供了益处,但改进的系统和方法将仍是期望的。
符号和术语
贯穿本公开,包括在权利要求中,“扬声器(speaker)”和“扩音器(loudspeaker)”同义地用于表示由单个扬声器馈送驱动的任何发声换能器(或一组换能器)。典型的耳机包括两个扬声器。
贯穿本公开,包括在权利要求中,在广义上使用“对”信号或数据进行操作的表达(例如,对信号或数据进行滤波、缩放、变换或施加增益)来表示直接对信号或数据进行操作或对信号或数据的经处理版本(例如,在对其进行操作之前已进行了初步滤波或预处理的信号版本)进行操作。
贯穿本公开,包括在权利要求中,在广义上使用表达“系统”来表示设备、系统或子系统。例如,实施解码器的子系统可以被称为解码器系统,并且包括这种子系统的系统(例如,响应于多个输入而生成X个输出信号的系统,其中,所述子系统生成其中M个输入,而其他X-M个输入是从外部源接收的)也可以被称为解码器系统。
贯穿本公开,包括在权利要求中,在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如,用软件或固件)为对数据(例如,音频、视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置为对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机,以及可编程微处理器芯片或芯片组。
贯穿本公开,包括在权利要求中,术语“耦接(couples)”或“耦接(coupled)”用于指直接或间接连接。因此,如果第一设备耦接至第二设备,则所述连接可以通过直接连接或者通过经由其他设备和连接的间接连接实现。
在本文中使用表达“智能音频设备”来表示智能设备,所述智能设备是单一用途音频设备或虚拟助理(例如,连接的虚拟助理)。单一用途音频设备是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器和/或至少一个相机)和/或至少一个扬声器(并且可选地还包括或耦接到至少一个麦克风)并且很大程度上或主要被设计为实现单一用途的设备(例如,TV或移动电话)。尽管TV通常可以播放(并且被认为能够播放)来自节目素材的音频,但是在大多数情况下,现代TV运行某种操作系统,其中应用程序(包括看电视的应用程序)在所述操作系统上本地运行。类似地,移动电话中的音频输入和输出可以做许多事情,但是这些是由在电话上运行的应用程序服务的。从这个意义上说,具有(多个)扬声器和(多个)麦克风的单一用途音频设备通常被配置为运行本地应用程序和/或服务来直接使用(多个)扬声器和(多个)麦克风。一些单一用途音频设备可以被配置为组合在一起以实现在区或用户配置的区域上播放音频。
虚拟助理(例如,连接的虚拟助理)是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器和/或至少一个相机)的设备(例如,智能扬声器或语音助理集成设备),并且所述设备可以提供将多个设备(不同于虚拟助理)用于在某种意义上启用云或者未在虚拟助理本身中或上实施的应用程序的能力。虚拟助理有时可以一起工作,例如,以非常离散和有条件定义的方式。例如,两个或更多个虚拟助理可以在其中一个(即最确信已经听到唤醒词的虚拟助理)响应于所述词的意义上一起工作。连接的设备可以形成一种星座,所述星座可以由一个主应用程序管理,所述主应用程序可以是(或实施)虚拟助理。
在本文中,“唤醒词”在广义上用于表示任何声音(例如,人类说出的词或其他声音),其中智能音频设备被配置为响应于检测到(“听到”)声音(使用包括在智能音频设备中或耦接到智能音频设备的至少一个麦克风,或至少一个其他麦克风)而唤醒。在这种情况下,“唤醒”表示设备进入等待(即,正在收听)声音命令的状态。在一些实例中,在本文中可以被称为“唤醒词”可以包括多于一个的词,例如,短语。
在本文中,表达“唤醒词检测器”表示被配置为连续搜索实时声音(例如,言语)特征与训练模型之间的对齐的设备(或包括用于将设备配置为连续搜索实时声音特征与训练模型之间的对齐的指令的软件)。通常,每当唤醒词检测器确定已经检测到唤醒词的概率超过预定义阈值时,就会触发唤醒词事件。例如,所述阈值可以是被调整以在错误接受率与错误拒绝率之间给出合理折衷的预定阈值。在唤醒词事件之后,设备可能会进入一种状态(可以被称为“唤醒”状态或“注意力”状态),在所述状态下设备会收听命令并且将接收到的命令传递给更大、计算更密集的识别器。
发明内容
一些实施例涉及用于渲染(或渲染和回放)空间音频混音(例如,渲染音频流或多个音频流)以由一组智能音频设备中的至少一个(例如,所有或一些)智能音频设备和/或由另一组扬声器中的至少一个(例如,所有或一些)扬声器回放的方法。一些实施例是用于这种渲染(例如,包括扬声器馈送的生成)以及经渲染的音频的回放(例如,生成的扬声器馈送的回放)的方法(或系统)。
一类实施例涉及用于由多个协调的(编排的)智能音频设备中的至少一个(例如,所有或一些)渲染(或渲染和回放)音频的方法。例如,用户的家庭中(的系统中)存在的一组智能音频设备可以被编排来处理各种同时用例,包括灵活渲染音频以由所有或一些智能音频设备(即,由包括在所有或一些智能音频设备中或耦接到所有或一些智能音频设备的(多个)扬声器)回放。
本公开的一些实施例是用于音频处理的系统和方法,所述音频处理涉及渲染音频(例如,例如通过渲染音频流或多个音频流来渲染空间音频混音)以由至少两个扬声器(例如,一组扬声器中的所有或一些扬声器)回放,包括:
(a)组合单个扩音器的单个扩音器动态处理配置数据(如限制阈值(回放限制阈值)),从而确定多个扩音器的收听环境动态处理配置数据(如组合阈值);
(b)使用多个扩音器的收听环境动态处理配置数据(例如,组合阈值)对音频(例如,指示空间音频混音的(多个)音频流)执行动态处理,以生成经处理的音频;以及
(c)将所述经处理的音频渲染到扬声器馈送。
在一些实施例中,所述音频处理包括
(d)根据每个扩音器的单个扩音器动态处理配置数据对经渲染的音频信号执行动态处理(例如,根据与对应的扬声器相关联的回放限制阈值来限制所述扬声器馈送,从而生成限制的扬声器馈送)。
扬声器可以是(或耦接到)一组智能音频设备中的至少一个(例如,所有或一些)智能音频设备的扬声器。在一些实施方式中,为了在步骤(d)中生成限制的扬声器馈送,在步骤(c)中生成的扬声器馈送可以由动态处理的第二阶段(例如,由每个扬声器的相关联的动态处理系统)处理,例如,以在其通过扬声器最终回放之前生成限制的(即,动态限制的)扬声器馈送。例如,扬声器馈送(或其子集或部分)可以被提供给每个不同扬声器的动态处理系统(例如,智能音频设备的动态处理子系统,其中,所述智能音频设备包括或耦接到相关的扬声器),并且来自每个所述动态处理系统的经处理的音频输出可以用于为相关的扬声器生成限制的扬声器馈送(例如,动态限制的扬声器馈送)。在特定于扬声器的动态处理(换句话说,对每个扬声器独立执行的动态处理)之后,经处理的(例如,动态限制的)扬声器馈送可以用于驱动扬声器以引起声音的回放。
动态处理的第一阶段(在步骤(b)中)可以被设计为减少空间平衡中的感知分散性偏移,否则如果省略步骤(a)和(b),并且响应于原始音频(而不是响应于在步骤(b)中生成的经处理的音频)生成由步骤(d)产生的经动态处理的(例如,限制的)扬声器馈送,则会导致所述感知分散性偏移。这可以防止混音的空间平衡发生不期望的偏移。步骤(d)中对来自步骤(c)的经渲染的扬声器馈送进行操作的动态处理的第二阶段可以被设计为确保没有扬声器失真,因为步骤(b)的动态处理不一定保证信号电平已经降低到所有扬声器的阈值以下。在一些示例中,单个扩音器动态处理配置数据的组合(例如,第一阶段(步骤(a))中的阈值的组合)可以涉及(例如,包括)对跨扬声器(例如,跨智能音频设备)的单个扩音器动态处理配置数据(例如,限制阈值)求平均或者取得跨扬声器(例如,跨智能音频设备)的单个扩音器动态处理配置数据(例如,限制阈值)的最小值的步骤。
在一些实施方式中,当动态处理(在步骤(b)中)的第一阶段对指示空间混音的音频(例如,基于对象的音频节目的音频,包括至少一个对象通道并且可选地还包括至少一个扬声器声道)进行操作时,该第一阶段可以根据用于通过使用空间区域进行音频对象处理的技术来实施。在这种情况下,与每个区域相关联的组合的单个扩音器动态处理配置数据(例如,组合限制阈值)可以通过(或作为)单个扩音器动态处理配置数据(例如,单个扬声器限制阈值)的加权平均值来得到,并且该加权可以至少部分地通过每个扬声器对区域的空间接近度和/或区域内的位置来给出或确定。
在一类实施例中,音频渲染系统可以渲染至少一个音频流(例如,渲染多个音频流以供同时回放),和/或在多个任意放置的扩音器上播放(多个)经渲染的流,其中,所述(多个)节目流中的至少一个(例如,两个或更多个)是(或确定)空间混音。
本公开的各方面可以包括一种被配置(例如,被编程)为执行一种或多种所公开的方法或其步骤的系统,以及一种实施数据的非暂态存储的有形非暂态计算机可读介质(例如,磁盘或其他有形存储介质),所述有形非暂态计算机可读介质存储用于执行一种或多种所公开的方法或其步骤的代码(例如,可执行以执行一种或多种所公开的方法或其步骤的代码)。例如,一些实施例可以是或者包括可编程通用处理器、数字信号处理器或微处理器,所述可编程通用处理器、数字信号处理器或微处理器用软件或固件编程为和/或以其他方式被配置为对数据进行多种操作中的任何一种,包括一种或多种所公开的方法或其步骤。这种通用处理器可以是或者包括计算机系统,所述计算机系统包括输入设备、存储器和处理子系统,所述处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行一种或多种所公开的方法(或其步骤)。
本公开的至少一些方面可以经由如音频处理方法等方法来实施。在一些实例中,方法可以至少部分地由如本文所公开的那些控制系统来实施。一些这样的方法涉及由控制系统并且经由接口系统来获得收听环境的多个扩音器中的每一个的单个扩音器动态处理配置数据。在一些实例中,所述多个扩音器中的一个或多个扩音器的单个扩音器动态处理配置数据可以与所述一个或多个扩音器的一个或多个能力相对应。在一些示例中,所述单个扩音器动态处理配置数据包括所述多个扩音器中的每个扩音器的单个扩音器动态处理配置数据集。一些这样的方法涉及由控制系统确定所述多个扩音器的收听环境动态处理配置数据。在一些示例中,确定所述收听环境动态处理配置数据是基于所述多个扩音器中的每个扩音器的单个扩音器动态处理配置数据集。
一些这样的方法涉及由所述控制系统并且经由所述接口系统接收音频数据,所述音频数据包括一个或多个音频信号和相关联的空间数据。在一些示例中,所述空间数据包括声道数据和/或空间元数据。一些这样的方法涉及由所述控制系统基于所述收听环境动态处理配置数据对所述音频数据执行动态处理,以生成经处理的音频数据。一些这样的方法涉及由所述控制系统渲染所述经处理的音频数据用于经由包括所述多个扩音器中的至少一些扩音器的一组扩音器再现,以产生经渲染的音频信号。一些这样的方法涉及经由所述接口系统向该组扩音器提供所述经渲染的音频信号。
在一些示例中,所述单个扩音器动态处理配置数据可以包括所述多个扩音器中的每个扩音器的回放限制阈值数据集。例如,所述回放限制阈值数据集可以包括多个频率中的每个频率的回放限制阈值。
根据一些示例,确定所述收听环境动态处理配置数据可以涉及跨所述多个扩音器确定最小回放限制阈值。在一些实例中,确定所述收听环境动态处理配置数据可以涉及跨所述多个扩音器对所述回放限制阈值求平均。在一些示例中,确定所述收听环境动态处理配置数据可以涉及对所述回放限制阈值求平均以获得跨所述多个扩音器的平均回放限制阈值,跨所述多个扩音器确定最小回放限制阈值,以及在所述最小回放限制阈值与所述平均回放限制阈值之间进行内插。在一些这样的示例中,对所述回放限制阈值求平均可以涉及确定所述回放限制阈值的加权平均值。根据一些实施方式,所述加权平均值可以至少部分地基于由所述控制系统实施的渲染过程的特性。
在一些示例中,对所述音频数据执行动态处理可以基于空间区域,所述空间区域中的每个空间区域与所述收听环境的子集相对应。根据一些这样的示例,所述回放限制阈值的加权平均值可以至少部分地基于所述渲染过程根据音频信号对所述空间区域的接近度对扩音器的激活。在一些示例中,所述加权平均值可以至少部分地基于所述空间区域中的每个空间区域中的每个扩音器的扩音器参与值。根据一些这样的示例,每个扩音器参与值可以至少部分地基于所述空间区域中的每个空间区域内的一个或多个标称空间位置。在一些这样的示例中,所述标称空间位置与如杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.4或杜比9.1环绕声混音中的声道的规范位置等声道的规范位置相对应。在一些实例中,每个扩音器参与值可以至少部分地基于与所述空间区域中的每个空间区域内的所述一个或多个标称空间位置中的每一个标称空间位置处的音频数据的渲染相对应的每个扩音器的激活。
根据一些实施方式,一种方法还可以涉及根据向其提供所述经渲染的音频信号的该组扩音器中的每个扩音器的所述单个扩音器动态处理配置数据,对所述经渲染的音频信号执行动态处理。
在一些示例中,渲染经处理的音频数据可以涉及根据一个或多个动态可配置功能来确定该组扩音器的相对激活。例如,所述一个或多个动态可配置功能可以基于所述音频信号的一个或多个属性、该组扩音器的一个或多个属性和/或一个或多个外部输入。
根据一些实施方式,对所述音频数据执行动态处理可以基于空间区域。所述空间区域中的每个空间区域可以与所述收听环境的子集相对应。在一些这样的实施方式中,可以对所述空间区域中的每个空间区域分别执行所述动态处理。在一些实例中,可以对所述空间区域中的每个空间区域分别执行确定所述收听环境动态处理配置数据。
在一些示例中,对于所述多个扩音器中的每个扩音器,所述单个扩音器动态处理配置数据可以包括动态范围压缩数据集。根据一些这样的示例,所述动态范围压缩数据集可以包括阈值数据、输入/输出比数据、攻击数据、释放数据和/或拐点数据。
根据一些实施方式,确定所述收听环境动态处理配置数据可以至少部分地基于跨所述多个扩音器组合所述动态处理配置数据集。在一些示例中,跨所述多个扩音器组合所述动态处理配置数据集可以至少部分地基于由所述控制系统实施的渲染过程的特性。
在一些这样的示例中,对所述音频数据执行动态处理可以基于一个或多个空间区域。所述一个或多个空间区域中的每个空间区域可以与所述收听环境的整体或子集相对应。在一些这样的示例中,可以对所述一个或多个空间区域中的每个空间区域分别执行跨所述多个扩音器组合所述动态处理配置数据集。在一些这样的示例中,针对所述一个或多个空间区域中的每个空间区域分别跨所述多个扩音器组合所述动态处理配置数据集可以至少部分地基于所述渲染过程根据跨所述一个或多个空间区域的期望音频信号位置对扩音器的激活。
根据一些这样的示例,针对所述一个或多个空间区域中的每个空间区域分别跨所述多个扩音器组合所述动态处理配置数据集可以至少部分地基于所述一个或多个空间区域中的每个空间区域中的每个扩音器的扩音器参与值。在一些这样的示例中,每个扩音器参与值可以至少部分地基于所述一个或多个空间区域中的每个空间区域内的一个或多个标称空间位置。在一些这样的示例中,所述标称空间位置可以与如杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.4或杜比9.1环绕声混音中的声道的规范位置等声道的规范位置相对应。在一些实例中,每个扩音器参与值可以至少部分地基于与所述一个或多个空间区域中的每个空间区域内的所述一个或多个标称空间位置中的每一个标称空间位置处的音频数据的渲染相对应的每个扩音器的激活。
本文所描述的一些或所有操作、功能和/或方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如,软件)来执行。这种非暂态介质可以包括如本文所描述的存储器设备,包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。因此,本公开中描述的主题的一些创新方面可以在其上存储有软件的非暂态介质中实施。
例如,所述软件可以包括用于控制一个或多个设备执行一种方法的指令,所述方法涉及由控制系统并且经由接口系统获得收听环境的多个扩音器中的每一个的单个扩音器动态处理配置数据。在一些实例中,所述多个扩音器中的一个或多个扩音器的单个扩音器动态处理配置数据可以与所述一个或多个扩音器的一个或多个能力相对应。在一些示例中,所述单个扩音器动态处理配置数据包括所述多个扩音器中的每个扩音器的单个扩音器动态处理配置数据集。一些这样的方法涉及由控制系统确定所述多个扩音器的收听环境动态处理配置数据。在一些示例中,确定所述收听环境动态处理配置数据是基于所述多个扩音器中的每个扩音器的单个扩音器动态处理配置数据集。
一些这样的方法涉及由所述控制系统并且经由所述接口系统接收音频数据,所述音频数据包括一个或多个音频信号和相关联的空间数据。在一些示例中,所述空间数据包括声道数据和/或空间元数据。一些这样的方法涉及由所述控制系统基于所述收听环境动态处理配置数据对所述音频数据执行动态处理,以生成经处理的音频数据。一些这样的方法涉及由所述控制系统渲染所述经处理的音频数据用于经由包括所述多个扩音器中的至少一些扩音器的一组扩音器再现,以产生经渲染的音频信号。一些这样的方法涉及经由所述接口系统向该组扩音器提供所述经渲染的音频信号。
在一些示例中,所述单个扩音器动态处理配置数据可以包括所述多个扩音器中的每个扩音器的回放限制阈值数据集。例如,所述回放限制阈值数据集可以包括多个频率中的每个频率的回放限制阈值。
根据一些示例,确定所述收听环境动态处理配置数据可以涉及跨所述多个扩音器确定最小回放限制阈值。在一些实例中,确定所述收听环境动态处理配置数据可以涉及对跨所述多个扩音器的所述回放限制阈值求平均。在一些示例中,确定所述收听环境动态处理配置数据可以涉及对所述回放限制阈值求平均以获得跨所述多个扩音器的平均回放限制阈值,跨所述多个扩音器确定最小回放限制阈值,以及在所述最小回放限制阈值与所述平均回放限制阈值之间进行内插。在一些这样的示例中,对所述回放限制阈值求平均可以涉及确定所述回放限制阈值的加权平均值。根据一些实施方式,所述加权平均值可以至少部分地基于由所述控制系统实施的渲染过程的特性。
在一些示例中,对所述音频数据执行动态处理可以基于空间区域,所述空间区域中的每个空间区域与所述收听环境的子集相对应。根据一些这样的示例,所述回放限制阈值的加权平均值可以至少部分地基于所述渲染过程根据接近所述空间区域的音频信号对扩音器的激活。在一些示例中,所述加权平均值可以至少部分地基于所述空间区域中的每个空间区域中的每个扩音器的扩音器参与值。根据一些这样的示例,每个扩音器参与值可以至少部分地基于所述空间区域中的每个空间区域内的一个或多个标称空间位置。在一些这样的示例中,所述标称空间位置与如杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.4或杜比9.1环绕声混音中的声道的规范位置等声道的规范位置相对应。在一些实例中,每个扩音器参与值可以至少部分地基于与所述空间区域中的每个空间区域内的所述一个或多个标称空间位置中的每一个标称空间位置处的音频数据的渲染相对应的每个扩音器的激活。
根据一些实施方式,一种方法还可以涉及根据向其提供所述经渲染的音频信号的该组扩音器中的每个扩音器的所述单个扩音器动态处理配置数据,对所述经渲染的音频信号执行动态处理。
在一些示例中,渲染经处理的音频数据可以涉及根据一个或多个动态可配置功能来确定该组扩音器的相对激活。例如,所述一个或多个动态可配置功能可以基于所述音频信号的一个或多个属性、该组扩音器的一个或多个属性和/或一个或多个外部输入。
根据一些实施方式,对所述音频数据执行动态处理可以基于空间区域。所述空间区域中的每个空间区域可以与所述收听环境的子集相对应。在一些这样的实施方式中,可以对所述空间区域中的每个空间区域分别执行所述动态处理。在一些实例中,可以对所述空间区域中的每个空间区域分别执行确定所述收听环境动态处理配置数据。
在一些示例中,对于所述多个扩音器中的每个扩音器,所述单个扩音器动态处理配置数据可以包括动态范围压缩数据集。根据一些这样的示例,所述动态范围压缩数据集可以包括阈值数据、输入/输出比数据、攻击数据、释放数据和/或拐点数据。
根据一些实施方式,确定所述收听环境动态处理配置数据可以至少部分地基于跨所述多个扩音器组合所述动态处理配置数据集。在一些示例中,跨所述多个扩音器组合所述动态处理配置数据集可以至少部分地基于由所述控制系统实施的渲染过程的特性。
在一些这样的示例中,对所述音频数据执行动态处理可以基于一个或多个空间区域。所述一个或多个空间区域中的每个空间区域可以与所述收听环境的整体或子集相对应。在一些这样的示例中,可以对所述一个或多个空间区域中的每个空间区域分别执行跨所述多个扩音器组合所述动态处理配置数据集。在一些这样的示例中,针对所述一个或多个空间区域中的每个空间区域分别跨所述多个扩音器组合所述动态处理配置数据集可以至少部分地基于所述渲染过程根据跨所述一个或多个空间区域的期望音频信号位置对扩音器的激活。
根据一些这样的示例,针对所述一个或多个空间区域中的每个空间区域分别跨所述多个扩音器组合所述动态处理配置数据集可以至少部分地基于所述一个或多个空间区域中的每个空间区域中的每个扩音器的扩音器参与值。在一些这样的示例中,每个扩音器参与值可以至少部分地基于所述一个或多个空间区域中的每个空间区域内的一个或多个标称空间位置。在一些这样的示例中,所述标称空间位置可以与如杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.4或杜比9.1环绕声混音中的声道的规范位置等声道的规范位置相对应。在一些实例中,每个扩音器参与值可以至少部分地基于与所述一个或多个空间区域中的每个空间区域内的所述一个或多个标称空间位置中的每一个标称空间位置处的音频数据的渲染相对应的每个扩音器的激活。
在一些实施方式中,装置可以包括接口系统和控制系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件部件或其组合。
在一些实施方式中,控制系统可以被配置用于执行本文所公开的方法中的一种或多种。一些这样的方法可以涉及由所述控制系统并且经由接口系统获得收听环境的多个扩音器中的每一个的单个扩音器动态处理配置数据。在一些实例中,所述多个扩音器中的一个或多个扩音器的单个扩音器动态处理配置数据可以与所述一个或多个扩音器的一个或多个能力相对应。在一些示例中,所述单个扩音器动态处理配置数据包括所述多个扩音器中的每个扩音器的单个扩音器动态处理配置数据集。一些这样的方法涉及由控制系统确定所述多个扩音器的收听环境动态处理配置数据。在一些示例中,确定所述收听环境动态处理配置数据是基于所述多个扩音器中的每个扩音器的单个扩音器动态处理配置数据集。
一些这样的方法涉及由所述控制系统并且经由所述接口系统接收音频数据,所述音频数据包括一个或多个音频信号和相关联的空间数据。在一些示例中,所述空间数据包括声道数据和/或空间元数据。一些这样的方法涉及由所述控制系统基于所述收听环境动态处理配置数据对所述音频数据执行动态处理,以生成经处理的音频数据。一些这样的方法涉及由所述控制系统渲染所述经处理的音频数据用于经由包括所述多个扩音器中的至少一些扩音器的一组扩音器再现,以产生经渲染的音频信号。一些这样的方法涉及经由所述接口系统向该组扩音器提供所述经渲染的音频信号。
在一些示例中,所述单个扩音器动态处理配置数据可以包括所述多个扩音器中的每个扩音器的回放限制阈值数据集。例如,所述回放限制阈值数据集可以包括多个频率中的每个频率的回放限制阈值。
根据一些示例,确定所述收听环境动态处理配置数据可以涉及跨所述多个扩音器确定最小回放限制阈值。在一些实例中,确定所述收听环境动态处理配置数据可以涉及对跨所述多个扩音器的所述回放限制阈值求平均。在一些示例中,确定所述收听环境动态处理配置数据可以涉及对所述回放限制阈值求平均以获得跨所述多个扩音器的平均回放限制阈值,跨所述多个扩音器确定最小回放限制阈值,以及在所述最小回放限制阈值与所述平均回放限制阈值之间进行内插。在一些这样的示例中,对所述回放限制阈值求平均可以涉及确定所述回放限制阈值的加权平均值。根据一些实施方式,所述加权平均值可以至少部分地基于由所述控制系统实施的渲染过程的特性。
在一些示例中,对所述音频数据执行动态处理可以基于空间区域,所述空间区域中的每个空间区域与所述收听环境的子集相对应。根据一些这样的示例,所述回放限制阈值的加权平均值可以至少部分地基于所述渲染过程根据音频信号对所述空间区域的接近度对扩音器的激活。在一些示例中,所述加权平均值可以至少部分地基于所述空间区域中的每个空间区域中的每个扩音器的扩音器参与值。根据一些这样的示例,每个扩音器参与值可以至少部分地基于所述空间区域中的每个空间区域内的一个或多个标称空间位置。在一些这样的示例中,所述标称空间位置与如杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.4或杜比9.1环绕声混音中的声道的规范位置等声道的规范位置相对应。在一些实例中,每个扩音器参与值可以至少部分地基于与所述空间区域中的每个空间区域内的所述一个或多个标称空间位置中的每一个标称空间位置处的音频数据的渲染相对应的每个扩音器的激活。
根据一些实施方式,一种方法还可以涉及根据向其提供所述经渲染的音频信号的该组扩音器中的每个扩音器的所述单个扩音器动态处理配置数据,对所述经渲染的音频信号执行动态处理。
在一些示例中,渲染经处理的音频数据可以涉及根据一个或多个动态可配置功能来确定该组扩音器的相对激活。例如,所述一个或多个动态可配置功能可以基于所述音频信号的一个或多个属性、该组扩音器的一个或多个属性和/或一个或多个外部输入。
根据一些实施方式,对所述音频数据执行动态处理可以基于空间区域。所述空间区域中的每个空间区域可以与所述收听环境的子集相对应。在一些这样的实施方式中,可以对所述空间区域中的每个空间区域分别执行所述动态处理。在一些实例中,可以对所述空间区域中的每个空间区域分别执行确定所述收听环境动态处理配置数据。
在一些示例中,对于所述多个扩音器中的每个扩音器,所述单个扩音器动态处理配置数据可以包括动态范围压缩数据集。根据一些这样的示例,所述动态范围压缩数据集可以包括阈值数据、输入/输出比数据、攻击数据、释放数据和/或拐点数据。
根据一些实施方式,确定所述收听环境动态处理配置数据可以至少部分地基于跨所述多个扩音器组合所述动态处理配置数据集。在一些示例中,跨所述多个扩音器组合所述动态处理配置数据集可以至少部分地基于由所述控制系统实施的渲染过程的特性。
在一些这样的示例中,对所述音频数据执行动态处理可以基于一个或多个空间区域。所述一个或多个空间区域中的每个空间区域可以与所述收听环境的整体或子集相对应。在一些这样的示例中,可以对所述一个或多个空间区域中的每个空间区域分别执行跨所述多个扩音器组合所述动态处理配置数据集。在一些这样的示例中,针对所述一个或多个空间区域中的每个空间区域分别跨所述多个扩音器组合所述动态处理配置数据集可以至少部分地基于所述渲染过程根据跨所述一个或多个空间区域的期望音频信号位置对扩音器的激活。
根据一些这样的示例,针对所述一个或多个空间区域中的每个空间区域分别跨所述多个扩音器组合所述动态处理配置数据集可以至少部分地基于所述一个或多个空间区域中的每个空间区域中的每个扩音器的扩音器参与值。在一些这样的示例中,每个扩音器参与值可以至少部分地基于所述一个或多个空间区域中的每个空间区域内的一个或多个标称空间位置。在一些这样的示例中,所述标称空间位置可以与如杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.4或杜比9.1环绕声混音中的声道的规范位置等声道的规范位置相对应。在一些实例中,每个扩音器参与值可以至少部分地基于与所述一个或多个空间区域中的每个空间区域内的所述一个或多个标称空间位置中的每一个标称空间位置处的音频数据的渲染相对应的每个扩音器的激活。
在以下附图和说明中阐述了本说明书所描述的主题的一个或多个实施方式的细节。从所述描述、附图和权利要求中,其他特征、方面和优点将变得显而易见。注意,以下附图的相对尺寸可能不是按比例来绘制的。
附图说明
图1是示出了能够实施本公开的各个方面的装置的部件的示例的框图。
图2描绘了收听环境的平面图,在该示例中,所述收听环境是生活空间。
图3是示出了能够实施本公开的各个方面的系统的部件的示例的框图。
图4A、图4B和图4C示出了回放限制阈值和对应的频率的示例。
图5A和图5B是示出了动态范围压缩数据的示例的图。
图6示出了收听环境的空间区域的示例。
图7示出了图6的空间区域内的扩音器的示例。
图8示出了覆盖在图7的空间区域和扩音器上的标称空间位置的示例。
图9是概述了可以由如本文所公开的那些装置或系统等装置或系统执行的方法的一个示例的流程图。
图10和图11是图示了一组示例扬声器激活和对象渲染位置的图。
图12A、图12B和图12C示出了与图10和图11的示例相对应的扩音器参与值的示例。
图13是示例实施例中的扬声器激活的图。
图14是示例实施例中的对象渲染位置的图。
图15A、图15B和图15C示出了与图13和图14的示例相对应的扩音器参与值的示例。
图16是示例实施例中的扬声器激活的图。
图17是示例实施例中的对象渲染位置的图。
图18A、图18B和图18C示出了与图16和图17的示例相对应的扩音器参与值的示例。
图19是示例实施例中的扬声器激活的图。
图20是示例实施例中的对象渲染位置的图。
图21A、图21B和图21C示出了与图19和图20的示例相对应的扩音器参与值的示例。
图22是环境的图,在该示例中,所述环境是生活空间。
在各附图中相同的附图标记和名称指示相似的元件。
具体实施方式
图1是示出了能够实施本公开的各个方面的装置的部件的示例的框图。与本文提供的其他图一样,图1中示出的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元件。根据一些示例,装置100可以是或者可以包括智能音频设备,所述智能音频设备被配置用于执行本文所公开的方法中的至少一些方法。在其他实施方式中,装置100可以是或者可以包括被配置用于执行本文所公开的方法中的至少一些方法的另一个设备,如膝上型计算机、蜂窝电话、平板设备、智能家居中枢等。在一些这样的实施方式中,装置100可以是或者可以包括服务器。
在该示例中,装置100包括接口系统105和控制系统110。在一些实施方式中,接口系统105可以被配置用于接收音频数据。音频数据可以包括被安排由环境的至少一些扬声器再现的音频信号。音频数据可以包括一个或多个音频信号和相关联的空间数据。例如,空间数据可以包括声道数据和/或空间元数据。接口系统105可以被配置用于向环境的一组扩音器中的至少一些扩音器提供经渲染的音频信号。在一些实施方式中,接口系统105可以被配置用于从环境中的一个或多个麦克风接收输入。
接口系统105可以包括一个或多个网络接口和/或一个或多个外部设备接口(如一个或多个通用串行总线(USB)接口)。根据一些实施方式,接口系统105可以包括一个或多个无线接口。接口系统105可以包括用于实施用户接口的一个或多个设备,如一个或多个麦克风、一个或多个扬声器、显示系统、触摸传感器系统和/或手势传感器系统。在一些示例中,接口系统105可以包括控制系统110与存储器系统(如图1中所示的可选存储器系统115)之间的一个或多个接口。然而,在一些实例中,控制系统110可以包括存储器系统。
控制系统110例如可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、和/或离散硬件部件。
在一些实施方式中,控制系统110可以位于多于一个设备中。例如,控制系统110的一部分可以位于本文所描绘的环境之一内的设备中,并且控制系统110的另一部分可以位于环境之外的设备中,如服务器、移动设备(例如,智能电话或平板计算机)等。在其他示例中,控制系统110的一部分可以位于本文所描绘的环境之一内的设备中,并且控制系统110的另一部分可以位于环境的一个或多个其他设备中。例如,控制系统功能可以跨环境的多个智能音频设备分布,或者可以由编排设备(如本文中可以被称为智能家居中枢的设备)和环境的一个或多个其他设备共享。在一些这样的示例中,接口系统105也可以位于多于一个设备中。
在一些实施方式中,控制系统110可以被配置用于至少部分地执行本文所公开的方法。根据一些示例,控制系统110可以被配置用于实施管理多个扬声器上的多个音频流的回放的方法。
本文所描述的一些或所有方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如,软件)来执行。这种非暂态介质可以包括如本文所描述的那些存储器设备,包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。一个或多个非暂态介质可以例如位于图1中所示的可选存储器系统115和/或控制系统110中。因此,可以在其上存储有软件的一个或多个非暂态介质中实施本公开中所描述的主题的各个创新方面。例如,软件可以包括用于控制至少一个设备来处理音频数据的指令。例如,软件可以由如图1的控制系统110等控制系统的一个或多个部件来执行。
在一些示例中,装置100可以包括图1中所示的可选麦克风系统120。可选麦克风系统120可以包括一个或多个麦克风。在一些实施方式中,一个或多个麦克风可以是另一个设备(如扬声器系统的扬声器、智能音频设备等)的一部分或与其相关联。
根据一些实施方式中,装置100可以包括图1中所示的可选扩音器系统125。可选扬声器系统125可以包括一个或多个扩音器。扩音器在本文中有时可以被称为“扬声器”。在一些示例中,可选扩音器系统125的至少一些扩音器可以任意地定位。例如,可选扩音器系统125的至少一些扬声器可以放置在不与任何标准规定扬声器布局相对应的位置,如杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.4、杜比9.1、滨崎22.2等。在一些这样的示例中,可选扩音器系统125的至少一些扩音器可以放置在空间方便的位置(例如,在有空间容纳扩音器的位置),但不在任何标准规定扩音器布局中。
在一些实施方式中,装置100可以包括图1中所示的可选传感器系统130。可选传感器系统130可以包括一个或多个相机、触摸传感器、手势传感器、运动检测器等。根据一些实施方式,可选传感器系统130可以包括一个或多个相机。在一些实施方式中,相机可以是独立式相机。在一些示例中,可选传感器系统130的一个或多个相机可以位于智能音频设备中,所述智能音频设备可以是单一用途音频设备或虚拟助理。在一些这样的示例中,可选传感器系统130的一个或多个相机可以位于TV、移动电话或智能扬声器中。
在一些实施方式中,装置100可以包括图1中所示的可选显示系统135。可选显示系统135可以包括一个或多个显示器,如一个或多个发光二极管(LED)显示器。在一些实例中,可选显示系统135可以包括一个或多个有机发光二极管(OLED)显示器。在其中装置100包括显示系统135的一些示例中,传感器系统130可以包括接近显示系统135的一个或多个显示器的触摸传感器系统和/或手势传感器系统。根据一些这样的实施方式,控制系统110可以被配置用于控制显示系统135来呈现图形用户界面(GUI),如本文所公开的GUI之一。
根据一些这样的示例,装置100可以是或者可以包括智能音频设备。在一些这样的实施方式中,装置100可以是或者可以包括唤醒词检测器。例如,装置100可以是或者可以包括虚拟助理。
图2描绘了收听环境的平面图,在该示例中,所述收听环境是生活空间。与本文提供的其他图一样,图2中示出的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元件。根据该示例,环境200包括左上方的客厅210、中央下方的厨房215和右下方的卧室222。跨生活空间分布的方框和圆圈表示一组扩音器205a-205h,在一些实施方式中,该组扩音器中的至少一些可以是放置在空间方便的位置但不遵循任何标准规定布局(任意放置)的智能扬声器。在一些示例中,扩音器205a-205h可以被协调以实施一个或多个所公开的实施例。
根据一些示例,环境200可以包括用于实施所公开的方法中的至少一些方法的智能家居中枢。根据一些这样的实施方式,智能家居中枢可以至少包括上文所描述的控制系统110的一部分。在一些示例中,智能设备(如智能扬声器、移动电话、智能电视、用于实施虚拟助理的设备等)可以实施智能家居中枢。
在该示例中,环境200包括分布在整个环境中的相机211a-211e。在一些实施方式中,环境200中的一个或多个智能音频设备还可以包括一个或多个相机。一个或多个智能音频设备可以是单一用途音频设备或虚拟助理。在一些这样的示例中,可选传感器系统130的一个或多个相机可以位于电视230中或所述电视上、移动电话中或智能扬声器(如扩音器205b、205d、205e或205h中的一个或多个)中。尽管相机211a-211e没有在本公开中呈现的环境200的每个描绘中示出,但是在一些实施方式中,每个环境200可以包括一个或多个相机。
在灵活渲染中,可以在任意数量的任意放置的扬声器上渲染空间音频。随着智能音频设备(例如,智能扬声器)在家庭中的广泛部署,需要实现允许消费者使用智能音频设备来执行音频的灵活渲染以及如此渲染的音频的回放的灵活渲染技术。
已经开发了若干种技术来实施灵活渲染,所述技术包括:质心振幅平移(CMAP)和灵活虚拟化(FV)。
在执行空间音频混音的渲染(或渲染和回放)(例如,渲染音频流或多个音频流)以由一组智能音频设备(或由另一组扬声器)中的智能音频设备回放的情况下,扬声器(例如,在智能音频设备中或耦接到所述智能音频设备)的类型可能会变化,并且因此扬声器的对应的声学能力可能会有显著的变化。在图2中所示的示例中,扩音器205d、205f和205h是具有单个0.6英寸扬声器的智能扬声器。在该示例中,扩音器205b、205c、205e和205f是具有2.5英寸低音扬声器和0.8英寸高音扬声器的智能扬声器。根据该示例,扩音器205g是具有一个5.25英寸低音扬声器、三个2英寸中音扬声器和一个1.0英寸高音扬声器的智能扬声器。这里,扩音器205a是具有十六个1.1英寸波束驱动器和两个4英寸低音扬声器的声吧。因此,智能扬声器205d和205f的低频能力显著小于环境200中的其他扩音器(尤其是具有4英寸或5.25英寸低音扬声器的那些扩音器)的低频能力。
图3是示出了能够实施本公开的各个方面的系统的部件的示例的框图。与本文提供的其他图一样,图1中示出的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元件。
根据该示例,系统300包括智能家居中枢305和扩音器205a至205m。在该示例中,智能家居中枢305包括在图1中示出并且在上文描述的控制系统110的实例。根据该实施方式,控制系统110包括收听环境动态处理配置数据模块310、收听环境动态处理模块315和渲染模块320。下文描述了收听环境动态处理配置数据模块310、收听环境动态处理模块315和渲染模块320的一些示例。在一些示例中,渲染模块320’可以被配置用于渲染和收听环境动态处理。
如智能家居中枢305与扩音器205a至205m之间的箭头所表明的,智能家居中枢305还包括在图1中示出并且在上文描述的接口系统105的实例。根据一些示例,智能家居中枢305可以是图2中示出的环境200的一部分。在一些实例中,智能家居中枢305可以由智能扬声器、智能电视、蜂窝电话、膝上型计算机等来实施。在一些实施方式中,智能家居中枢305可以由软件(例如,经由可下载软件应用程序或“app”的软件)实施。在一些实例中,智能家居中枢305可以在扩音器205a-m中的每一个中实施,所有这些扩音器并行操作以从模块320生成相同的经处理的音频信号。根据一些这样的示例,在每个扩音器中,渲染模块320然后可以生成与每个扩音器或扩音器组相关的一个或多个扬声器馈送,并且可以将这些扬声器馈送提供给每个扬声器动态处理模块。
在一些实例中,扩音器205a至205m可以包括图2的扩音器205a至205h,而在其他示例中,扩音器205a至205m可以是或者可以包括其他扩音器。因此,在该示例中,系统300包括M个扬声器,其中,M是大于2的整数。
智能扬声器以及许多其他有源扬声器通常采用某种类型的内部动态处理来防止扬声器失真。通常与这种动态处理相关联的是信号限制阈值(例如,跨频率可变的限制阈值),在所述信号限制阈值之下,信号电平被动态地保持。例如,杜比音频调节器,杜比音频处理(DAP)音频后处理套件中的若干种算法之一,提供了这种处理。在一些实例中,但通常不经由智能扬声器的动态处理模块,动态处理还可以涉及应用一个或多个压缩器、门限器、扩展器、闪避器等。
因此,在该示例中,扩音器205a至205m中的每一个都包括对应的扬声器动态处理(DP)模块A至M。扬声器动态处理模块被配置为对收听环境的每个单个扩音器应用单个扩音器动态处理配置数据。例如,扬声器DP模块A被配置为应用适合用于扩音器205a的单个扩音器动态处理配置数据。在一些示例中,单个扩音器动态处理配置数据可以与单个扩音器的多个能力之一相对应,如扩音器在特定频率范围内和在特定水平上再现音频数据而没有明显失真的能力。
当跨各自具有潜在不同的回放限制的一组异构扬声器(例如,智能音频设备的扬声器或耦接到所述智能音频设备的扬声器)渲染空间音频时,在对整体混音执行动态处理时必须小心。简单的解决方案是将空间混音渲染到每个参与扬声器的扬声器馈送,并且然后允许与每个扬声器相关联的动态处理模块根据该扬声器的限制独立地对其对应的扬声器馈送进行操作。
虽然这种方法将防止每个扬声器失真,但其可能会以感知分散性方式动态地使混音的空间平衡偏移。例如,参考图2,假设电视节目正在电视230上播放,并且对应的音频正在由环境200的扩音器再现。假设在电视节目期间,与静止对象(如工厂中的重型机械单元)相关联的音频旨在被渲染到位置244。进一步假设,由于扩音器205b在低音范围内再现声音的能力基本上更大,因此与扩音器205d相关联的动态处理模块对低音范围内的音频电平的降低大大超过与扩音器205b相关联的动态处理模块。如果与静止对象相关联的信号的音量波动,则当音量较高时,与扩音器205d相关联的动态处理模块将导致低音范围内的音频电平的降低大大超过与扩音器205b相关联的动态处理模块将降低的同一音频的电平。这种电平差异将导致静止对象的表观定位发生变化。因此,需要改进的解决方案。
本公开的一些实施例是用于渲染(或渲染和回放)空间音频混音(例如,渲染音频流或多个音频流)以由一组智能音频设备(例如,一组协调的智能音频设备)中的至少一个(例如,所有或一些)智能音频设备和/或由另一组扬声器中的至少一个(例如,所有或一些)扬声器回放的方法和系统。一些实施例是用于这种渲染(例如,包括扬声器馈送的生成)以及经渲染的音频的回放(例如,生成的扬声器馈送的回放)的方法(或系统)。这种实施例的示例包括以下各项:
用于音频处理的系统和方法可以包括渲染音频(例如,例如通过渲染音频流或多个音频流来渲染空间音频混音)以由至少两个扬声器(例如,一组扬声器中的所有或一些扬声器)回放,包括:
(a)组合单个扩音器的单个扩音器动态处理配置数据(如限制阈值(回放限制阈值)),从而确定多个扩音器的收听环境动态处理配置数据(如组合阈值);
(b)使用多个扩音器的收听环境动态处理配置数据(例如,组合阈值)对音频(例如,指示空间音频混音的(多个)音频流)执行动态处理,以生成经处理的音频;以及
(c)将所述经处理的音频渲染到扬声器馈送。
根据一些实施方式,过程(a)可以由如图3中所示的收听环境动态处理配置数据模块310等模块执行。智能家居中枢305可以被配置用于经由接口系统获得M个扩音器中的每一个的单个扩音器动态处理配置数据。在该实施方式中,单个扩音器动态处理配置数据包括多个扩音器中的每个扩音器的单个扩音器动态处理配置数据集。根据一些示例,一个或多个扩音器的单个扩音器动态处理配置数据可以与一个或多个扩音器的一个或多个能力相对应。在该示例中,单个扩音器动态处理配置数据集中的每一个包括至少一种类型的动态处理配置数据。在一些示例中,智能家居中枢305可以被配置用于通过查询扩音器205a-205m中的每一个来获得单个扩音器动态处理配置数据集。在其他实施方式中,智能家居中枢305可以被配置用于通过查询存储在存储器中的先前获得的单个扩音器动态处理配置数据集的数据结构来获得单个扩音器动态处理配置数据集。
在一些示例中,过程(b)可以由如图3的收听环境动态处理模块315等模块执行。下文描述了过程(a)和(b)的一些详细的示例。
在一些示例中,过程(c)的渲染可以由如图3的渲染模块320或渲染模块320’等模块执行。在一些实施例中,音频处理可以涉及:
(d)根据每个扩音器的单个扩音器动态处理配置数据对经渲染的音频信号执行动态处理(例如,根据与对应的扬声器相关联的回放限制阈值来限制所述扬声器馈送,从而生成限制的扬声器馈送)。例如,过程(d)可以由图3中所示的动态处理模块A至M来执行。
扬声器可以包括(或耦接到)一组智能音频设备中的至少一个(例如,所有或一些)智能音频设备的扬声器。在一些实施方式中,为了在步骤(d)中生成限制的扬声器馈送,在步骤(c)中生成的扬声器馈送可以由动态处理的第二阶段(例如,由每个扬声器的相关联的动态处理系统)处理,例如,以在其通过扬声器最终回放之前生成扬声器馈送。例如,扬声器馈送(或其子集或部分)可以被提供给每个不同扬声器的动态处理系统(例如,智能音频设备的动态处理子系统,其中,智能音频设备包括或耦接到相关的一个扬声器),并且来自每个所述动态处理系统的经处理的音频输出可以用于为相关的扬声器生成扬声器馈送。在特定于扬声器的动态处理(换句话说,对每个扬声器独立执行的动态处理)之后,经处理的(例如,动态限制的)扬声器馈送可以用于驱动扬声器以引起声音的回放。
动态处理的第一阶段(在步骤(b)中)可以被设计为减少空间平衡中的感知分散性偏移,否则如果省略步骤(a)和(b),并且响应于原始音频(而不是响应于在步骤(b)中生成的经处理的音频)生成由步骤(d)产生的经动态处理的(例如,限制的)扬声器馈送,则会导致所述感知分散性偏移。这可以防止混音的空间平衡发生不期望的偏移。对来自步骤(c)的经渲染的扬声器馈送进行操作的动态处理的第二阶段可以被设计为确保没有扬声器失真,因为步骤(b)的动态处理不一定保证信号电平已经降低到所有扬声器的阈值以下。在一些示例中,单个扩音器动态处理配置数据的组合(例如,第一阶段(步骤(a))中的阈值的组合)可以涉及(例如,包括)对跨扬声器(例如,跨智能音频设备)的单个扩音器动态处理配置数据(例如,限制阈值)求平均或者取得跨扬声器(例如,跨智能音频设备)的单个扩音器动态处理配置数据(例如,限制阈值)的最小值的步骤。
在一些实施方式中,当动态处理(在步骤(b)中)的第一阶段对指示空间混音的音频(例如,基于对象的音频节目的音频,包括至少一个对象通道并且可选地还包括至少一个扬声器声道)进行操作时,该第一阶段可以根据用于通过使用空间区域进行音频对象处理的技术来实施。在这种情况下,与每个区域相关联的组合的单个扩音器动态处理配置数据(例如,组合限制阈值)可以通过(或作为)单个扩音器动态处理配置数据(例如,单个扬声器限制阈值)的加权平均值来得到,并且该加权可以至少部分地通过每个扬声器对区域的空间接近度和/或区域内的位置来给出或确定。
在示例实施例中,假设多个M个扬声器(M≥2),其中,每个扬声器由变量i索引。与每个扬声器i相关联的是一组频率变化的回放限制阈值Ti[f],其中,变量f表示对指定阈值的一组有限频率的索引。(注意,如果一组频率的大小为一,则对应的单个阈值可以被视为跨整个频率范围应用的宽带)。这些阈值由每个扬声器在其自己的独立动态处理功能中利用,以将音频信号限制在阈值Ti[f]以下,用于特定目的,如防止扬声器失真或防止扬声器超出在其附近被认为是令人反感的某个电平进行播放。
图4A、图4B和图4C示出了回放限制阈值和对应的频率的示例。例如,所示频率范围可以跨越普通人可听到的频率范围(例如,20Hz到20kHz)。在这些示例中,回放限制阈值由图400a、400b和400c的竖直轴指示,所述竖直轴在这些示例中被标记为“电平阈值”。回放限制/电平阈值沿竖直轴上的箭头方向增加。例如,回放限制/电平阈值可以用分贝表示。在这些示例中,图400a、400b和400c的水平轴指示频率,所述频率沿水平轴上的箭头方向增加。例如,由曲线400a、400b和400c指示的回放限制阈值可以由单个扩音器的动态处理模块实施。
图4A的图400a示出了作为频率的函数的回放限制阈值的第一示例。曲线405a指示每个对应的频率值的回放限制阈值。在该示例中,在低音频率fb下,在输入电平Ti下接收的输入音频将由动态处理模块在输出电平To下输出。例如,低音频率fb可以在60Hz到250Hz的范围内。然而,在该示例中,在高音频率ft下,在输入电平Ti下接收的输入音频将由动态处理模块在同一电平(输入电平Ti)下输出。例如,高音频率ft可以在高于1280Hz的范围内。因此,在该示例中,曲线405a与动态处理模块相对应,所述动态处理模块对低音频率应用的阈值显著低于对高音频率应用的阈值。这种动态处理模块可能适合于没有低音扬声器的扩音器(例如,图2的扩音器205d)。
图4B的图400b示出了作为频率的函数的回放限制阈值的第二示例。曲线405b指示在图4A中所示的同一低音频率fb下,在输入电平Ti下接收的输入音频将由动态处理模块在较高输出电平To下输出。因此,在该示例中,曲线405b与动态处理模块相对应,所述动态处理模块不应用低于曲线405a的低音频率的阈值。这种动态处理模块可能适合于至少具有小型低音扬声器的扩音器(例如,图2的扩音器205b)。
图4C的图400c示出了作为频率的函数的回放限制阈值的第二示例。曲线405c(在该示例中是直线)指示在图4A中所示的同一低音频率fb下,在输入电平Ti下接收的输入音频将由动态处理模块在同一电平下输出。因此,在该示例中,曲线405c与动态处理模块相对应,所述动态处理模块可能适合于能够再现包括低音频率在内的广泛范围频率的扩音器。将观察到,为了简单起见,动态处理模块可以通过实施曲线405d来近似曲线405c,曲线405d对所有指示的频率应用相同阈值。
可以使用如质心振幅平移(CMAP)或灵活虚拟化(FV)等已知渲染系统来渲染多个扬声器的空间音频混音。渲染系统从空间音频混音的构成分量生成扬声器馈送,每个扬声器馈送用于多个扬声器中的每一个扬声器。在一些先前示例中,扬声器馈送随后由阈值为Ti[f]的每个扬声器的相关动态处理功能独立地处理。在没有本公开的益处的情况下,所描述的这种渲染场景可能导致经渲染的空间音频混音的感知空间平衡的分散性偏移。例如,M个扬声器之一,比如说在收听区域的右侧,可能比其他扬声器(例如,在低音范围内渲染音频)的能力要差的多,并且因此该扬声器的阈值Ti[f]可能显著低于其他扬声器的阈值,至少在特定频率范围内是如此。在回放期间,该扬声器的动态处理模块将使右侧空间混音的分量电平比左侧的分量电平显著降低更多。听众对空间混音的左/右平衡之间的这种动态偏移非常敏感,并且可能会发现结果非常分散注意力。
为了处理这个问题,在一些示例中,组合收听环境的单个扩音器的单个扩音器动态处理配置数据(例如,回放限制阈值),以创建收听环境的所有扩音器的收听环境动态处理配置数据。然后可以利用收听环境动态处理配置数据在将其渲染到扬声器馈送之前首先在整个空间音频混音的情况下执行动态处理。因为动态处理的该第一阶段可以访问整个空间混音,而不是仅仅一个独立的扬声器馈送,所以可以以不对混音的感知空间平衡造成分散性偏移的方式来执行处理。可以以消除或减少由任何单个扬声器的独立动态处理功能执行的动态处理量的方式组合单个扩音器动态处理配置数据(例如,回放限制阈值)。
在确定收听环境动态处理配置数据的一个示例中,可以将单个扬声器的单个扩音器动态处理配置数据(例如,回放限制阈值)组合成应用于动态处理的第一阶段中的空间混音的所有分量的单一收听环境动态处理配置数据集(例如,频率变化的回放限制阈值
Figure BDA0003495680840000221
根据一些这样的示例,因为对所有分量的限制是相同的,所以可以保持混音的空间平衡。组合单个扩音器动态处理配置数据(例如,回放限制阈值)的一种方式是跨所有扬声器i取最小值:
Figure BDA0003495680840000231
这种组合基本上消除了每个扬声器的单个动态处理的操作,因为空间混音首先被限制在每个频率下能力最差的扬声器的阈值以下。然而,这种策略可能过于激进。许多扬声器可能正在以低于其能力的电平回放,并且所有扬声器的组合回放电平可能低得令人反感。例如,如果将图4A中所示的低音范围内的阈值应用于与图4C的阈值相对应的扩音器,则后一个扬声器的回放电平在低音范围内未必是低的。确定收听环境动态处理配置数据的替代性组合是取跨收听环境的所有扬声器的单个扩音器动态处理配置数据的均值(平均值)。例如,在回放限制阈值的情况下,均值可以如下确定:
Figure BDA0003495680840000232
对于该组合,与取最小值相比,整体回放电平可能会增加,因为动态处理的第一阶段限制于更高的电平,从而允许更有能力的扬声器更响亮地回放。对于单个限制阈值低于均值的扬声器,如果有必要的话,其独立的动态处理功能仍可以限制其相关联的扬声器馈送。然而,动态处理的第一阶段可能已经减少了对该限制的要求,因为已经对空间混音执行了一些初始限制。
根据确定收听环境动态处理配置数据的一些示例,可以创建通过调谐参数α在单个扩音器动态处理配置数据的最小值与均值之间进行内插的可调谐组合。例如,在回放限制阈值的情况下,内插可以如下确定:
Figure BDA0003495680840000233
单个扩音器动态处理配置数据的其他组合是可能的,并且本公开旨在涵盖所有这样的组合。
图5A和图5B是示出了动态范围压缩数据的示例的图。在图500a和500b中,以分贝为单位的输入信号电平在水平轴上示出,并且以分贝为单位的输出信号电平在竖直轴上示出。与其他所公开的示例一样,特定阈值、比率和其他值仅是通过示例的方式来示出的,而不是限制性的。
在图5A中所示的示例中,输出信号电平等于低于阈值的输入信号电平,所述阈值在该示例中为-10dB。其他示例可以涉及不同的阈值,例如,-20dB、-18dB、-16dB、-14dB、-12dB、-8dB、-6dB、-4dB、-2dB、0dB、2dB、4dB、6dB等。在阈值之上示出了压缩比的各种示例。N:1的比率意味着在阈值之上,输入信号每增加N dB,输出信号电平将增加1dB。例如,10:1的压缩比(线505e)意味着在阈值之上,输入信号每增加10dB,输出信号电平将仅增加1dB。1:1的压缩比(线505a)意味着即使在阈值之上,输出信号电平也等于输入信号电平。线505b、505c和505d对应于3:2、2:1和5:1的压缩比。其他实施方式可能提供不同的压缩比,如2.5:1、3:1、3.5:1、4:3、4:1等。
图5B示出了“拐点”的示例,所述“拐点”控制压缩比在阈值处或阈值附近如何变化,所述阈值在该示例中为0dB。根据该示例,具有“硬”拐点的压缩曲线由两条直线段构成,线段510a达到阈值,并且线段510b高于阈值。硬拐点可能更容易实施,但可能导致伪像。
在图5B中,还示出了“软”拐点的一个示例。在该示例中,软拐点跨越10dB。根据该实施方式,在10dB跨度上下,具有软拐点的压缩曲线的压缩比与具有硬拐点的压缩曲线的压缩比相同。其他实施方式可以提供各种其他形状的“软”拐点,所述“软”拐点可以跨越更多或更少分贝,可以指示跨度之上的不同压缩比等。
其他类型的动态范围压缩数据可以包括“攻击”数据和“释放”数据。攻击是压缩器例如响应于输入处增加的电平而降低增益以达到由压缩比确定的增益的时期。压缩器的攻击时间通常在25毫秒与500毫秒之间,尽管其他攻击时间也是可行的。释放是压缩器例如响应于输入处减少的电平而增加增益以达到由压缩比确定的输出增益(或者如果输入电平已经下降到阈值以下,则达到输入电平)的时期。例如,释放时间可以在25毫秒到2秒的范围内。
因此,在一些示例中,对于多个扩音器中的每个扩音器,单个扩音器动态处理配置数据可以包括动态范围压缩数据集。动态范围压缩数据集可以包括阈值数据、输入/输出比数据、攻击数据、释放数据和/或拐点数据。可以将这些类型的单个扩音器动态处理配置数据中的一项或多项组合以确定收听环境动态处理配置数据。如上文参考组合回放限制阈值所述,在一些示例中,可以对动态范围压缩数据求平均以确定收听环境动态处理配置数据。在一些实例中,可以使用动态范围压缩数据的最小值或最大值来确定收听环境动态处理配置数据(例如,最大压缩比)。在其他实施方式中,可以创建例如经由如上文参考等式(3)所描述的调谐参数在单个扩音器动态处理的动态范围压缩数据的最小值与均值之间进行内插的可调谐组合。
在上文所描述的一些示例中,在动态处理的第一阶段,将单组收听环境动态处理配置数据(例如,单组组合阈值
Figure BDA0003495680840000241
)应用于空间混音的所有分量。这种实施方式可以维持混音的空间平衡,但可能造成其他不需要的伪像。例如,当隔离空间区域中空间混音的非常响亮的部分导致整个混音被调低时,可能发生“空间闪避”。在空间上远离该响亮分量的混音的其他较柔和分量可能被感知为变得不自然地柔和。例如,柔和的背景音乐可以以低于组合阈值
Figure BDA0003495680840000251
的电平在空间混音的环绕场中播放,并且因此动态处理的第一阶段不执行空间混音的限制。然后,可以在空间混音的前面(例如,在电影音轨的屏幕上)短暂地引入响亮的枪声,并且混音的整体电平增加到组合阈值以上。此时,动态处理的第一阶段将整个混音的电平降低到阈值
Figure BDA0003495680840000252
以下。因为音乐在空间上与枪声是分开的,这可能被感知为在连续的音乐流中不自然的闪避。
为了处理这种问题,一些实施方式允许对空间混音的不同“空间区域”进行独立或部分独立的动态处理。空间区域可以被视为在其上渲染整个空间混音的空间区域的子集。尽管以下讨论的大部分提供了基于回放限制阈值的动态处理的示例,但是这些概念同样适用于其他类型的单个扩音器动态处理配置数据和收听环境动态处理配置数据。
图6示出了收听环境的空间区域的示例。图6描绘了空间混音的区域的示例(由整个正方形表示),细分为三个空间区域:前面、中间和环绕。
虽然图6中的空间区域用硬边界描绘,但实际上,将从一个空间区域到另一个空间区域的过渡视为连续的是有益的。例如,位于正方形左边缘中间的空间混音的分量可以将其电平的一半分配给前面区域,并且将另一半分配给环绕区域。来自空间混音的每个分量的信号电平可以以这种连续的方式被分配并累积到每个空间区域中。然后,动态处理功能可以在从混音分配给每个空间区域的整体信号电平上独立地对每个空间区域进行操作。对于空间混音的每个分量,来自每个空间区域的动态处理的结果(例如,每频率的时变增益)然后可以被组合并应用于分量。在一些示例中,空间区域结果的这种组合对于每个分量是不同的,并且是该特定分量分配给每个区域的函数。最终结果是,具有类似空间区域分配的空间混音的分量接收类似的动态处理,但是允许空间区域之间的独立性。可以有利地选择空间区域以防止令人反感的空间偏移,如左/右不平衡,同时仍然允许一些空间上独立的处理(例如,以减少如所描述的空间闪避等其他伪像)。
在本公开的动态处理的第一阶段中,可以有利地采用用于按空间区域处理空间混音的技术。例如,可以针对每个空间区域计算跨扬声器i的单个扩音器动态处理配置数据(例如,回放限制阈值)的不同组合。组合区域阈值的集合可以由
Figure BDA0003495680840000253
表示,其中,索引j是指多个空间区域中的一个。动态处理模块可以独立地对每个空间区域及其相关联的阈值
Figure BDA0003495680840000261
进行操作,并且可以根据上文所描述的技术将结果应用回空间混音的构成分量上。
考虑被渲染的空间信号由总共K个单个构成信号xk[t]构成,每个单个构成信号具有相关联的期望的空间位置(可能时变)。用于实施区域处理的一种特定方法涉及计算时变平移增益αkj[t],所述时变平移增益描述了每个音频信号xk[t]作为音频信号相对于区域位置的期望空间位置的函数对区域j的贡献程度。这些平移增益可以有利地被设计为遵循要求增益的平方和等于一的功率保持平移定律。根据这些平移增益,区域信号sj[t]可以被计算为由该区域的所述区域信号的平移增益加权的构成信号的总和:
Figure BDA0003495680840000262
然后,每个区域信号sj[t]可以通过由区域阈值
Figure BDA0003495680840000263
参数化的动态处理功能DP独立处理,以产生频率和时间变化的区域修正增益Gj
Figure BDA0003495680840000264
然后,通过将区域修正增益与该信号的区域平移增益成比例地组合,可以为每个单个构成信号xk[t]计算频率和时间变化的修正增益:
Figure BDA0003495680840000265
然后,这些信号修正增益Gk可以通过使用例如滤波器组应用于每个构成信号,以产生经动态处理的构成信号
Figure BDA0003495680840000266
然后可以将所述经动态处理的构成信号随后渲染到扬声器信号。
可以以多种方式执行每个空间区域的单个扩音器动态处理配置数据(如扬声器回放限制阈值)的组合。作为一个示例,可以使用空间区域和扬声器独立加权wij[f]将空间区域回放限制阈值
Figure BDA0003495680840000267
计算为扬声器回放限制阈值Ti[f]的加权总和:
Figure BDA0003495680840000268
类似的加权函数可以应用于其他类型的单个扩音器动态处理配置数据。有利地,空间区域的组合的单个扩音器动态处理配置数据(例如,回放限制阈值)可以朝向对回放与该空间区域相关联的空间混音的分量负有最大责任的扬声器的单个扩音器动态处理配置数据(例如,回放限制阈值)偏置。这可以通过将权重wij[f]设置为每个扬声器对与频率f的该区域相关联的空间混音的分量的渲染责任的函数来实现。
图7示出了图6的空间区域内的扩音器的示例。图7描绘了与图6相同但是负责渲染空间混音的五个示例扬声器(扬声器1、2、3、4和5)的位置被覆盖的区域。在该示例中,扩音器1、2、3、4和5由菱形表示。在该特定示例中,扬声器1主要负责渲染中间区域,扬声器2和5负责渲染前面区域,并且扬声器3和4负责渲染环绕区域。可以基于扬声器到空间区域的这种理论上的一对一映射来创建权重wij[f],但是与基于空间区域的空间混音的处理一样,更连续的映射可能是优选的。例如,扬声器4非常靠近前面区域,并且位于扬声器4与5之间的音频混音的分量(尽管在理论上的前面区域中)将可能主要由扬声器4和5的组合回放。如此,扬声器4的单个扩音器动态处理配置数据(例如,回放限制阈值)对前面区域以及环绕区域的组合的单个扩音器动态处理配置数据(例如,回放限制阈值)的贡献是有意义的。
实现这种连续映射的一种方式是将权重wij[f]设置为等于描述每个扬声器i在渲染与空间区域j相关联的分量中的相对贡献的扬声器参与值。这种值可以直接从负责渲染扬声器的渲染系统(例如,从上文所描述的步骤(c))和与每个空间区域相关联的一个或多个标称空间位置的集合中得到。该组标称空间位置可以包括每个空间区域内的一组位置。
图8示出了覆盖在图7的空间区域和扩音器上的标称空间位置的示例。标称位置由带编号的圆圈指示:与前面区域相关联的是位于正方形顶角的两个位置,与中间区域相关联的是位于正方形顶部中间的单个位置,并且与环绕区域相关联的是位于正方形底角的两个位置。
为了计算空间区域的扬声器参与值,可以通过渲染器来渲染与区域相关联的每个标称位置,以生成与该位置相关联的扬声器激活。例如,这些激活在CMAP的情况下可以是每个扬声器的增益,或者在FV的情况下可以是每个扬声器在给定频率下的复数值。接下来,对于每个扬声器和区域,这些激活可以跨与空间区域相关联的每个标称位置累积以产生值gij[f]。该值表示扬声器i的总激活,用于渲染与空间区域j相关联的整组标称位置。最后,空间区域中的扬声器参与值可以被计算为由跨扬声器的所有这些累积的激活的总和归一化的累积的激活gij[f]。然后,可以将权重设置为该扬声器参与值:
Figure BDA0003495680840000271
所描述的归一化确保跨所有扬声器i的总和wij[f]等于一,这是等式8中的权重的期望的属性。
根据一些实施方式,上文所描述的用于计算扬声器参与值并根据这些值来组合阈值的过程可以被执行为静态过程,其中,在确定环境中的扬声器的布局和能力的设置过程期间,计算一次所得组合阈值。在这种系统中,可以假设一旦建立,单个扩音器的动态处理配置数据和渲染算法根据期望的音频信号位置激活扬声器的方式两者保持静态。然而,在某些系统中,这两个方面可能随时间变化,例如响应于回放环境中的变化条件,并且如此可能期望根据上文所描述的过程以连续或事件触发的方式更新组合阈值,以考虑到这种变化。
CMAP和FV渲染算法两者可以被增强以适应一个或多个响应于收听环境中的变化的动态可配置功能。例如,关于图7,位于扬声器3附近的人可以说出与扬声器相关联的智能助理的唤醒词,从而将系统置于准备好收听来自人的后续命令的状态。当说出唤醒词时,系统可以使用与扩音器相关联的麦克风来确定人的位置。利用该信息,系统然后可以选择将正在回放的音频的能量从扬声器3转移到其他扬声器,使得扬声器3上的麦克风可以更好地被人听到。在这种场景下,图7中的扬声器2可能在一段时间内基本上“接管”扬声器3的职责,并且因此环绕区域的扬声器参与值发生显著变化;扬声器3的参与值降低,而扬声器2的参与值增加。然后可以重新计算区域阈值,因为区域阈值取决于已经变化的扬声器参与值。替代性地,或者除了对渲染算法的这些变化之外,扬声器3的限制阈值可以被降低到其设置的标称值以下,以防止扬声器失真。这可以确保从扬声器3播放的任何剩余音频不会增加到超过被确定为对收听人的麦克风造成干扰的某个阈值。因为区域阈值也是单个扬声器阈值的函数,所以在这种情况下所述区域阈值也可以被更新。
图9是概述了可以由如本文所公开的那些装置或系统等装置或系统执行的方法的一个示例的流程图。与本文所描述的其他方法一样,不必以所指示的顺序来执行方法900的框。在一些实施方式中,可以同时执行方法900的一个或多个框。而且,方法900的一些实施方式可以包括比所示出和/或所描述的框更多或更少的框。方法900的框可以由一个或多个设备执行,所述一个或多个设备可以是(或者可以包括)控制系统,如图1中所示并且在上文描述的控制系统110,或其他所公开的控制系统示例之一。
根据该示例,框905涉及由控制系统并且经由接口系统获得用于收听环境的多个扩音器中的每一个的单个扩音器动态处理配置数据。在该实施方式中,单个扩音器动态处理配置数据包括多个扩音器中的每个扩音器的单个扩音器动态处理配置数据集。根据一些示例,一个或多个扩音器的单个扩音器动态处理配置数据可以与一个或多个扩音器的一个或多个能力相对应。在该示例中,单个扩音器动态处理配置数据集中的每一个包括至少一种类型的动态处理配置数据。
在一些实例中,框905可以涉及从收听环境的多个扩音器中的每一个扩音器获得单个扩音器动态处理配置数据集。在其他示例中,框905可以涉及从存储在存储器中的数据结构获得单个扩音器动态处理配置数据集。例如,单个扩音器动态处理配置数据集可能先前已经获得,例如,作为每个扩音器的设置程序的一部分,并且存储在数据结构中。
根据一些示例,单个扩音器动态处理配置数据集可以是专有的。在一些这样的示例中,单个扩音器动态处理配置数据集可能已经基于具有类似特性的扬声器的单个扩音器动态处理配置数据先前估计。例如,框905可以涉及根据指示多个扬声器的数据结构和多个扬声器中的每一个扬声器的对应的单个扩音器动态处理配置数据集来确定最类似的扬声器的扬声器匹配过程。扬声器匹配过程可以基于例如一个或多个低音扬声器、高音扬声器和/或中音扬声器的大小的比较。
在该示例中,框910涉及由控制系统确定多个扩音器的收听环境动态处理配置数据。根据该实施方式,确定收听环境动态处理配置数据是基于多个扩音器中的每个扩音器的单个扩音器动态处理配置数据集。确定收听环境动态处理配置数据可以涉及例如通过取一种或多种类型的单个扩音器动态处理配置数据的平均值来组合动态处理配置数据集的单个扩音器动态处理配置数据。在一些实例中,确定收听环境动态处理配置数据可以涉及确定一种或多种类型的单个扩音器动态处理配置数据的最小值或最大值。根据一些这样的实施方式,确定收听环境动态处理配置数据可以涉及在一种或多种类型的单个扩音器动态处理配置数据的最小值或最大值与均值之间进行内插。
在该实施方式中,框915涉及由控制系统并且经由接口系统接收音频数据,所述音频数据包括一个或多个音频信号和相关联的空间数据。例如,空间数据可以指示与音频信号相对应的预期感知空间位置。在该示例中,空间数据包括声道数据和/或空间元数据。
在该示例中,框920涉及由控制系统基于收听环境动态处理配置数据对音频数据执行动态处理,以生成经处理的音频数据。框920的动态处理可以涉及本文所公开的任何所公开的动态处理方法,包括但不限于应用一个或多个回放限制阈值、压缩数据等。
这里,框925涉及由控制系统渲染经处理的音频数据用于经由包括多个扩音器中的至少一些扩音器的一组扩音器再现,以产生经渲染的音频信号。在一些示例中,框925可以涉及应用CMAP渲染过程、FV渲染过程或两者的组合。在该示例中,框920在框925之前执行。然而,如上所述,框920和/或框910可以至少部分地基于框925的渲染过程。框920和925可以涉及执行如上文参考图3的收听环境动态处理模块和渲染模块320所描述的那些过程等过程。
根据该示例,框930涉及经由接口系统向一组扩音器提供经渲染的音频信号。在一个示例中,框930可以涉及通过智能家居中枢305并且经由其接口系统向扩音器205a至205m提供经渲染的音频信号。
在一些示例中,方法900可以涉及根据向其提供经渲染的音频信号的一组扩音器中的每个扩音器的单个扩音器动态处理配置数据,对经渲染的音频信号执行动态处理。例如,再次参考图3,动态处理模块A至M可以根据扩音器205a至205m的单个扩音器动态处理配置数据对经渲染的音频信号执行动态处理。
在一些实施方式中,单个扩音器动态处理配置数据可以包括多个扩音器中的每个扩音器的回放限制阈值数据集。在一些这样的示例中,回放限制阈值数据集可以包括多个频率中的每个频率的回放限制阈值。
在一些实例中,确定收听环境动态处理配置数据可以涉及跨多个扩音器确定最小回放限制阈值。在一些示例中,确定收听环境动态处理配置数据可以涉及对回放限制阈值求平均以获得跨多个扩音器的平均回放限制阈值。在一些这样的示例中,确定收听环境动态处理配置数据可以涉及跨多个扩音器确定最小回放限制阈值,以及在最小回放限制阈值与平均回放限制阈值之间进行内插。
根据一些实施方式,对回放限制阈值求平均可以涉及确定回放限制阈值的加权平均值。在一些这样的示例中,加权平均值可以至少部分地基于由控制系统实施的渲染过程的特性,如框925的渲染过程的特性。
在一些实施方式中,对音频数据执行动态处理可以基于空间区域。所述空间区域中的每个空间区域可以与所述收听环境的子集相对应。
根据一些这样的实施方式,可以对每个空间区域分别执行动态处理。例如,确定可以对每个空间区域分别执行收听环境动态处理配置数据。例如,可以对一个或多个空间区域中的每个空间区域分别执行组合跨多个扩音器的动态处理配置数据集。在一些示例中,针对一个或多个空间区域中的每个空间区域分别组合跨多个扩音器的动态处理配置数据集可以至少部分地基于渲染过程根据跨一个或多个空间区域的期望音频信号位置对扩音器的激活。
在一些示例中,针对一个或多个空间区域中的每个空间区域分别跨多个扩音器组合动态处理配置数据集可以至少部分地基于一个或多个空间区域中的每个空间区域中的每个扩音器的扩音器参与值。每个扩音器参与值可以至少部分地基于一个或多个空间区域中的每个空间区域内的一个或多个标称空间位置。在一些示例中,标称空间位置可以与杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.4或杜比9.1环绕声混音中的声道的规范位置相对应。在一些这样的实施方式中,每个扩音器参与值至少部分地基于与一个或多个空间区域的每一个空间区域内的一个或多个标称空间位置的每一个标称空间位置处的音频数据的渲染相对应的每个扩音器的激活。
根据一些这样的示例,所述回放限制阈值的加权平均值可以至少部分地基于所述渲染过程根据音频信号对所述空间区域的接近度对扩音器的激活。在一些实例中,加权平均值可以至少部分地基于每个空间区域中的每个扩音器的扩音器参与值。在一些这样的示例中,每个扩音器参与值可以至少部分地基于每个空间区域内的一个或多个标称空间位置。例如,标称空间位置可以与杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.4或杜比9.1环绕声混音中的声道的规范位置相对应。在一些实施方式中,每个扩音器参与值可以至少部分地基于与每个空间区域内的一个或多个标称空间位置的每一个标称空间位置处的音频数据的渲染相对应的每个扩音器的激活。
根据一些实施方式,渲染经处理的音频数据涉及根据一个或多个动态可配置功能来确定一组扩音器的相对激活。下文参考图10等描述了一些示例。一个或多个动态可配置功能可以基于音频信号的一个或多个属性、一组扩音器的一个或多个属性、或一个或多个外部输入。例如,一个或多个动态可配置功能可以基于:扩音器与一个或多个收听者的接近度;扩音器与吸引力位置的接近度,其中,吸引力是有利于更接近吸引力位置的相对更高的扬声器激活的因素;扩音器与推斥力位置的接近度,其中,推斥力是有利于更接近推斥力位置的相对较低的扩音器激活的因素;每个扩音器相对于环境中其他扩音器的能力;扩音器关于其他扩音器的同步;唤醒词性能;或回声消除器性能。
在一些示例中,扬声器的相对激活可以基于当在扬声器上回放时音频信号的感知空间位置的模型的成本函数、音频信号的预期感知空间位置与扬声器位置的接近度的度量以及一个或多个动态可配置功能。
在一些示例中,成本函数的最小化(包括至少一个动态扬声器激活项)可以导致至少一个扬声器的去激活(在每个这种扬声器不播放相关音频内容的意义上)和至少一个扬声器的激活(在每个这种扬声器播放至少一些经渲染的音频内容的意义上)。(多个)动态扬声器激活项可以启用各种行为中的至少一种,包括扭曲音频的空间呈现使其远离特定智能音频设备,使得所述特定智能音频设备的麦克风可以更好地听到说话者或者使得可以更好地从智能音频设备的(多个)扬声器听到次级音频流。
根据一些实施方式,对于多个扩音器中的每个扩音器,单个扩音器动态处理配置数据可以包括动态范围压缩数据集。在一些实例中,动态范围压缩数据集可以包括阈值数据、输入/输出比数据、攻击数据、释放数据、或拐点数据中的一项或多项。
如上所述,在一些实施方式中,可以省略图9中所示的方法900的至少一些框。例如,在一些实施方式中,框905和910在设置过程期间执行。在确定收听环境动态处理配置数据之后,在一些实施方式中,在“运行时间”操作期间不再次执行步骤905和910,除非收听环境的扬声器的类型和/或布置变化。例如,在一些实施方式中,可以进行初始检查以确定是否已经添加或断开任何扩音器,是否有任何扩音器位置发生了变化等。如果是,则可以实施步骤905和910。如果不是,则在“运行时间”操作之前不再次执行步骤905和910,所述“运行时间”操作可以涉及框915-930。
如上所述,现有的灵活渲染技术包括质心振幅平移(CMAP)和灵活虚拟化(FV)。从高电平来看,这两种技术渲染一组一个或多个音频信号,每个音频信号具有相关联的期望感知空间位置,用于在一组两个或更多个扬声器上回放,其中,该组扬声器的相对激活是通过扬声器回放的所述音频信号的感知空间位置的模型以及音频信号的期望感知空间位置与扬声器位置的接近度的函数。模型确保收听者在其预期空间位置附近听到音频信号,并且接近度项控制使用哪些扬声器来实现该空间印象。具体地,接近度项有利于激活靠近音频信号的期望感知空间位置的扬声器。对于CMAP和FV两者,该函数关系可以方便地从成本函数中得到,所述成本函数写为两个项的和,一个项用于空间方面并且一个项用于接近度:
Figure BDA0003495680840000321
此处,集合
Figure BDA0003495680840000322
表示一组M个扩音器的位置,
Figure BDA0003495680840000323
表示音频信号的期望感知空间位置,并且g表示扬声器激活的M维向量。对于CMAP,向量中的每个激活表示每个扬声器的增益,而对于FV,每个激活表示滤波器(在第二种情况下,g可以等效地被视为特定频率处的复值的向量,并且跨多个频率计算不同的g以形成滤波器)。激活的最佳向量是通过跨激活最小化成本函数找到的:
Figure BDA0003495680840000324
在成本函数的某些定义下,很难控制由上述最小化产生的最佳激活的绝对水平,尽管gopt的分量之间的相对水平是适当的。为了解决该问题,可以执行gopt的后续归一化,以便控制激活的绝对水平。例如,可能期望将向量归一化为具有单位长度,这符合常用的恒定功率平移规则:
Figure BDA0003495680840000331
灵活渲染算法的确切行为由成本函数的两个项Cspatial和Cproximity的特定构建决定。对于CMAP,Cspatial是从模型得到的,所述模型将从一组扩音器播放的音频信号的感知空间位置放置在由扩音器的相关联的激活增益gi(向量g的元素)加权的这些扩音器的位置的质心:
Figure BDA0003495680840000332
然后将等式3操纵成表示期望音频位置与由激活的扩音器产生的期望音频位置之间的平方误差的空间成本:
Figure BDA0003495680840000333
对于FV,成本函数的空间项被不同地定义。目标是在收听者的左耳和右耳处产生与音频对象位置
Figure BDA0003495680840000334
相对应的双耳响应b。概念上,b是滤波器的2×1向量(每只耳朵一个滤波器),但更方便地将其视为特定频率下复值的2×1向量。继续以特定频率进行该表示,可以按对象位置从一组HRTF索引中取得期望的双耳响应:
Figure BDA0003495680840000335
同时,由扩音器在收听者的耳朵处产生的2×1双耳响应e被建模为2×M声学传输矩阵H乘以复数扬声器激活值的M×1向量g:
e=Hg 等式(15)
声学传输矩阵H是基于扩音器位置
Figure BDA0003495680840000336
的集合相对于收听者位置建模的。最后,成本函数的空间分量定义为期望的双耳响应(等式14)与扩音器产生的期望的双耳响应(等式15)之间的平方误差:
Figure BDA0003495680840000337
方便地,等式13和16两者中定义的针对CMAP和FV的成本函数的空间项都可以重新布置为作为扬声器激活g的函数的矩阵二次方程:
Figure BDA0003495680840000341
其中,A是M×M正方形矩阵,B是1×M向量,并且C是标量。矩阵A的秩为2,并且因此当M>2时,存在无限多个空间误差项等于零的扬声器激活g。引入成本函数的第二个项Cproximity去除了该不确定性,并且产生了与其他可能的解相比具有感知上有益性质的特定解。对于CMAP和FV两者,Cproximity被构建成使得位置
Figure BDA0003495680840000342
远离期望音频信号位置
Figure BDA0003495680840000343
的扬声器的激活比位置接近期望位置的扬声器的激活受到更多惩罚。该构建产生了稀疏的最佳扬声器激活组,其中,仅接近期望音频信号位置的扬声器才会被显著激活,并且实际上导致音频信号的空间再现,所述空间再现在感知上对于扬声器组周围的收听者移动更加稳健。
为此,成本函数的第二个项Cproximity可以定义为扬声器激活的绝对值平方的距离加权和。这以矩阵形式简洁地表示为:
Figure BDA0003495680840000344
其中,D是期望音频位置与每个扬声器之间距离惩罚的对角矩阵:
Figure BDA0003495680840000345
距离惩罚函数可以采取许多形式,但以下是有用的参数化
Figure BDA0003495680840000346
其中,
Figure BDA0003495680840000347
是期望音频位置与扬声器位置之间的欧几里得距离,并且α和β是可调参数。参数α指示惩罚的全局强度;d0与距离惩罚的空间范围相对应(在大约d0距离处或更远的扩音器将受到惩罚),并且β解释了在距离d0处惩罚起始的突然性。
将等式17和18a中定义的成本函数的两个项相结合,得出总体成本函数
C(g)=g*Ag+Bg+C+g*Dg=g*(A+D)g+Bg+C 等式(19)
将该成本函数关于g的导数设置为等于零并且求解g产生最佳扬声器激活解:
Figure BDA0003495680840000351
通常,等式20中的最佳解可以产生值为负的扬声器激活。对于灵活渲染器的CMAP构建,这样的负激活可能是不期望的,并且因此等式(20)可以在所有激活保持为正的情况下最小化。
图10和图11是图示了一组示例扬声器激活和对象渲染位置的图。在这些示例中,扬声器激活和对象渲染位置与4、64、165、-87和-4度的扬声器位置相对应。在其他实施方式中,可以有更多或更少的扬声器和/或不同位置的扬声器。图10示出了扬声器激活1005a、1010a、1015a、1020a和1025a,其包括针对这些特定扬声器位置的等式20的最佳解。图11将单个扬声器位置绘制为正方形1105、1110、1115、1120和1125,其分别与图10的扬声器激活1005a、1010a、1015a、1020a和1025a相对应。在图11中,角度4与扬声器位置1120相对应,角度64与扬声器位置1125相对应,角度165与扬声器位置1110相对应,角度-87与扬声器位置1105相对应,并且角度-4与扬声器位置1115相对应。图11还将大量可能对象角度的理想对象位置(换句话说,要渲染音频对象的位置)示出为点1130a,并且将这些对象的对应实际渲染位置示出为通过虚线1140a连接到理想对象位置的点1135a。
图12A、图12B和图12C示出了与图10和图11的示例相对应的扩音器参与值的示例。在图12A、图12B和图12C中,角度-4.1与图11的扬声器位置1115相对应,角度4.1与图11的扬声器位置1120相对应,角度-87与图11的扬声器位置1105相对应,角度63.6与图11的扬声器位置1125相对应,并且角度165.4与图11的扬声器位置1110相对应。这些扩音器参与值是与本文其他地方公开的空间区域相关的“权重”的示例。根据这些示例,图12A、图12B和图12C中所示的扩音器参与值与图6中所示的每个空间区域中的每个扩音器的参与相对应:图12A中所示的扩音器参与值与中间区域中的每个扩音器的参与相对应,图12B中所示的扩音器参与值与前左区域和右区域中的每个扩音器的参与相对应,并且图12C中所示的扩音器参与值与后区域中的每个扩音器的参与相对应。
将(根据一些实施例实施的)灵活渲染方法与一组无线智能扬声器(或其他智能音频设备)配对可以产生非常有能力并且易于使用的空间音频渲染系统。在考虑与这种系统的交互时,显然期望对空间渲染进行动态修正,以便针对在系统使用期间可能出现的其他目标进行优化。为了实现该目标,一类实施例增强了现有的灵活渲染算法(其中扬声器激活是先前公开的空间项和接近度项的函数),其中一个或多个附加的动态可配置功能取决于正在渲染的音频信号、扬声器组和/或其他外部输入的一个或多个属性。根据一些实施例,等式1中给出的现有灵活渲染的成本函数根据以下等式增加了这些一个或多个附加依赖项
Figure BDA0003495680840000361
在等式21中,项
Figure BDA0003495680840000362
表示附加成本项,其中
Figure BDA0003495680840000363
表示正在渲染的(例如,基于对象的音频节目的)音频信号的一个或多个属性的集合,
Figure BDA0003495680840000364
表示正在通过其渲染音频的扬声器的一个或多个属性的集合,并且
Figure BDA0003495680840000365
表示一个或多个附加外部输入。每个项
Figure BDA0003495680840000366
返回成本作为与音频信号、扬声器和/或外部输入的一个或多个属性的组合相关的激活g的函数,一般由集合
Figure BDA0003495680840000367
表示。应当理解,集合
Figure BDA0003495680840000368
至少包含来自
Figure BDA0003495680840000369
Figure BDA00034956808400003610
中的任何一个的一个元素。
Figure BDA00034956808400003611
的示例包括但不限于:
·音频信号的期望感知空间位置;
·音频信号的电平(可能随时间变化);和/或
·音频信号的频谱(可能随时间变化)。
Figure BDA00034956808400003612
的示例包括但不限于:
·扩音器在收听空间中的位置;
·扩音器的频率响应;
·扩音器的回放电平限制;
·扬声器内的动态处理算法的参数,如限制器增益;
·从每个扬声器到其他扬声器的声学传输的测量或估计;
·对扬声器上的回声消除器性能的测量;和/或
·扬声器关于彼此的相对同步。
Figure BDA00034956808400003613
的示例包括但不限于:
·一个或多个收听者或说话者在回放空间中的位置;
·从每个扩音器到收听位置的声学传输的测量或估计;
·从说话者到一组扩音器的声学传输的测量或估计;
·其他一些地标在回放空间中的位置;和/或
·从每个扬声器到回放空间中的某个其他地标的声学传输的测量或估计;
使用等式21中定义的新成本函数,可以通过如先前在等式11a和11b中指定的关于g的最小化和可能的后归一化来找到最佳激活组。
与等式18a和18b中定义的接近度成本类似,将每个新成本函数项
Figure BDA0003495680840000371
表达为扬声器激活的绝对值平方的加权和也是方便的:
Figure BDA0003495680840000372
其中,Wj是描述与激活项j的扬声器i相关联的成本的权重
Figure BDA0003495680840000373
的对角矩阵:
Figure BDA0003495680840000374
将等式22a和22b与等式19中给出的CMAP和FV成本函数的矩阵二次方程版本相结合产生了等式21中给出的(一些实施例的)通用扩展成本函数的潜在有益的实施方式:
C(g)=g*Ag+Bg+C+g*Dg+Σjg*Wjg=g*(A+D+ΣjWj)g+Bg+C 等式(23)
在新成本函数项的该定义的情况下,总体成本函数仍然是矩阵二次方程,并且可以通过等式23的微分找到最佳激活组gopt以产生
Figure BDA0003495680840000375
将权重项wij中的每一个视为扩音器中的每一个的给定连续惩罚值
Figure BDA0003495680840000376
的函数是有用的。在一个示例实施例中,该惩罚值是从(要渲染的)对象到所考虑的扩音器的距离。在另一个示例实施例中,该惩罚值表示给定扩音器无法再现一些频率。基于该惩罚值,权重项wij可以参数化为:
Figure BDA0003495680840000377
其中,αj表示前置因子(其考虑了权重项的全局强度),其中,τj表示惩罚阈值(约为或超过所述惩罚阈值,权重项变得显著),并且其中,fj(x)表示单调增加函数。例如,在
Figure BDA0003495680840000378
的情况下,权重项具有以下形式:
Figure BDA0003495680840000381
其中,αj、βj、τj是可调参数,其分别指示惩罚的全局强度、惩罚起始的突然性和惩罚的程度。在设置这些可调值时应小心谨慎,使得成本项Cj相对于任何其他附加成本项以及Cspatial和Cproximity的相对影响适合于实现期望的结果。例如,根据经验,如果期望特定惩罚明显地支配其他惩罚,则将其强度αj设置为下一个最大惩罚强度的大约十倍可能是适当的。
如果所有扩音器都被惩罚,则在后处理中从所有权重项中减去最小惩罚通常是方便的,使得扬声器中的至少一个不会被惩罚:
wij→w′ij=wij-mini(wij) 等式(27)
如上所述,使用本文所描述的新成本函数项(以及根据其他实施例采用的类似的新成本函数项)可以实现许多可能的用例。接下来,用以下三个示例来描述更具体的细节:将音频移向收听者或说话者、将音频从收听者或说话者移开以及将音频从地标移开。
在第一示例中,在本文中将被称为“吸引力”的事物用于将音频朝向某个位置拉动,在一些示例中,所述位置可以是收听者或说话者的位置、地标位置、家具位置等。所述位置在本文中可以被称为“吸引力位置”或“吸引子位置”。如本文所使用的,“吸引力”是有利于更接近吸引力位置的相对更高的扩音器激活的因子。根据该示例,权重wij采用等式26的形式,其中连续惩罚值pij由第i个扬声器距固定吸引子位置
Figure BDA0003495680840000382
的距离给出,并且阈值τj由跨所有扬声器的这些距离中的最大值给出:
Figure BDA0003495680840000383
并且 等式(28a)
Figure BDA0003495680840000384
为了说明朝向收听者或说话者“拉动”音频的用例,具体地将αj=20、βj=3和
Figure BDA0003495680840000385
设置为与180度(绘图的底部中心)的收听者/说话者位置相对应的向量。αj、βj
Figure BDA0003495680840000386
的这些值仅为示例。在一些实施方式中,αj可以在1至100的范围内并且βj可以在1至25的范围内。
图13是示例实施例中的扬声器激活的图。在该示例中,图13示出了扬声器激活1005b、1010b、1015b、1020b和1025b,其包括图10和图11中相同扬声器位置的成本函数的最佳解,加上由wij表示的吸引力。
图14是示例实施例中的对象渲染位置的图。在图14、图17和图20中,扩音器位置与图11中所示的位置相同。在该示例中,图14示出了大量可能对象角度的对应理想对象位置1130b和那些对象的通过虚线1140b连接到理想对象位置1130b的对应实际渲染位置1135b。实际渲染位置1135b朝向固定位置
Figure BDA0003495680840000391
的倾斜取向说明了吸引子权重对成本函数的最佳解的影响。
图15A、图15B和图15C示出了与图13和图14的示例相对应的扩音器参与值的示例。在图15A、图15B和图15C中,角度-4.1与图11的扬声器位置1115相对应,角度4.1与图11的扬声器位置1120相对应,角度-87与图11的扬声器位置1105相对应,角度63.6与图11的扬声器位置1125相对应,并且角度165.4与图11的扬声器位置1110相对应。根据这些示例,图15A、图15B和图15C中所示的扩音器参与值与图6中所示的每个空间区域中的每个扩音器的参与相对应:图15A中所示的扩音器参与值与中间区域中的每个扩音器的参与相对应,图15B中所示的扩音器参与值与前左区域和右区域中的每个扩音器的参与相对应,并且图15C中所示的扩音器参与值与后区域中的每个扩音器的参与相对应。
为了说明推动音频离开收听者或说话者的用例,具体地将αj=5、βj=2和
Figure BDA0003495680840000392
设置为与180度(在绘图的底部中心)的收听者/说话者位置相对应的向量。αj、βj
Figure BDA0003495680840000393
的这些值仅为示例。如上所述,在一些示例中,αj可以在1至100的范围内并且βj可以在1至25的范围内。
图16是示例实施例中的扬声器激活的图。根据该示例,图16示出了扬声器激活1005c、1010c、1015c、1020c和1025c,其包括如先前图的相同扬声器位置的成本函数的最佳解,加上由wij表示的推斥力。
图17是示例实施例中的对象渲染位置的图。在该示例中,图17示出了大量可能对象角度的理想对象位置1130c和那些对象的通过虚线1140c连接到理想对象位置1130c的对应实际渲染位置1135c。实际渲染位置1135c离开固定位置
Figure BDA0003495680840000394
的倾斜取向说明了推斥子权重对成本函数的最佳解的影响。
图18A、图18B和图18C示出了与图16和图17的示例相对应的扩音器参与值的示例。根据这些示例,图18A、图18B和图18C中所示的扩音器参与值与图6中所示的每个扩音器在每个空间区域中的参与相对应:图18A中所示的扩音器参与值与中间区域中的每个扩音器的参与相对应,图18B中所示的扩音器参与值与前左区域和右区域中的每个扩音器的参与相对应,并且图18C中所示的扩音器参与值与后区域中的每个扩音器的参与相对应。
另一个示例用例是“推动”音频离开声学上敏感的地标,如通向睡着的婴儿的房间的门。与最后的示例类似,将
Figure BDA0003495680840000401
设置为与180度的门位置(绘图的底部中心)相对应的向量。为了实现更强的推斥力并且将声场完全倾斜到主要收听空间的前部,设置αj=20,βj=5。
图19是示例实施例中的扬声器激活的图。再次,在该示例中,图19示出了扬声器激活1005d、1010d、1015d、1020d和1025d,其包括对同一组扬声器位置的最佳解,加上更强的推斥力。
图20是示例实施例中的对象渲染位置的图。并且再次,在该示例中,图20示出了大量可能对象角度的理想对象位置1130d和那些对象的通过虚线1140d连接到理想对象位置1130d的对应实际渲染位置1135d。实际渲染位置1135d的倾斜取向说明了更强的推斥子权重对成本函数的最佳解的影响。
图21A、图21B和图21C示出了与图19和图20的示例相对应的扩音器参与值的示例。根据这些示例,图21A、图21B和图21C中所示的扩音器参与值与图6中所示的每个空间区域中的每个扩音器的参与相对应:图21A中所示的扩音器参与值与中间区域中的每个扩音器的参与相对应,图21B中所示的扩音器参与值与前左区域和右区域中的每个扩音器的参与相对应,并且图21C中所示的扩音器参与值与后区域中的每个扩音器的参与相对应。
图22是环境的图,在该示例中,所述环境是生活空间。图22中所示出的环境包括一组用于音频交互的智能音频设备(设备1.1)、用于音频输出的扬声器(1.3)和可控灯(1.2)。在示例中,只有设备1.1包含麦克风并且因此可以感觉到发出声音(例如,唤醒词命令)的用户(1.4)在哪里。使用各种方法,可以从这些设备共同获得信息以提供发布(例如,说出)唤醒词的用户的位置估计(例如,细粒度位置估计)。
在这种生活空间中,有一组自然活动区,人将在其中执行任务或活动,或跨越阈值。这些动作区域(区)是可以努力估计用户的位置(例如,确定不确定的位置)或情况以协助接口的其他方面的地方。包括设备1.1和扬声器1.3(和/或可选地,至少一个其他子系统或设备)中的至少一些(即,由其实施)的渲染系统可以操作以渲染音频用于在生活空间或其一个或多个区域中(例如,由一些或所有扬声器1.3)回放。可以设想的是,根据所公开的方法的任何实施例,这种渲染系统可以在参考空间模式或分布式空间模式下操作。在图8示例中,关键动作区域是:
1.厨房水槽和食物制备区域(在生活空间的左上区域中);
2.冰箱门(在水槽和食物制备区域的右边);
3.餐饮区域(在生活空间的左下方区域中);
4.生活空间的开放区域(在水槽和食物制备区域和餐饮区域的右边);
5.TV沙发(在开放区域的右边);
6.TV本身;
7.桌子;以及
8.门区域或入户通道(在生活空间的右上方区域中)。
通常有具有类似定位以适应动作区域的类似数量的灯。一些或所有灯可以是单独可控的联网代理。
根据一些实施例,(例如,由设备1.1之一或图22的系统的另一个设备)渲染音频以(根据任何所公开的实施例)由扬声器1.3中的一个或多个(和/或一个或多个设备1.1的(多个)扬声器)回放。
一类实施例涉及用于渲染音频以由多个协调的(编排的)智能音频设备中的至少一个(例如,所有或一些)回放和/或回放音频的方法。例如,用户的家庭中(的系统中)存在的一组智能音频设备可以被编排来处理各种同时用例,包括灵活渲染音频以由所有或一些智能音频设备(即,由所有或一些智能音频设备的(多个)扬声器)回放。考虑了与系统的许多交互,这些交互需要对渲染和/或回放进行动态修正。这种修正可以但不一定专注于空间保真度。
一些实施例实施渲染以供回放和/或由协调的(编排的)多个智能音频设备的(多个)扬声器回放。其他实施例实施渲染以供回放和/或由另一组扬声器的(多个)扬声器回放。
一些实施例(例如,渲染系统或渲染器,或渲染方法,或回放系统或方法)涉及用于渲染音频以供回放和/或由一组扬声器中的一些或所有扬声器(即,每个激活的扬声器)回放的系统和方法。在一些实施例中,扬声器是一组协调的(编排的)智能音频设备的扬声器。这样的实施例的示例包括以下枚举的示例实施例(EEE):
EEE1.一种用于渲染音频以由至少两个扬声器回放的方法,所述方法包括以下步骤:
(a)组合所述扬声器的限制阈值,从而确定组合阈值;
(b)使用所述组合阈值对所述音频执行动态处理,以生成经处理的音频;以及
(c)将所述经处理的音频渲染到扬声器馈送。
EEE2.如权利要求EEE1所述的方法,其中,所述限制阈值是一个或多个回放限制阈值的集合,所述一个或多个回放限制阈值表示不同频率的限制。
EEE3.如权利要求EEE1或权利要求EEE2所述的方法,其中,所述限制阈值的组合涉及跨所述多个扩音器的阈值取最小值。
EEE3.如权利要求EEE1或权利要求EEE2所述的方法,其中,所述限制阈值的组合涉及跨所述多个扩音器的限制阈值的求平均过程。
EEE5.如权利要求EEE4所述的方法,其中,所述求平均过程是加权平均。
EEE6.如权利要求EEE5所述的方法,其中,所述加权是根据所述渲染得到的。
EEE7.如权利要求EEE1至EEE6中任一项所述的方法,其中,所述渲染是空间的。
EEE8.如权利要求EEE7所述的方法,其中,所述对音频节目流的限制涉及在不同的空间区域进行不同的限制。
EEE9.如权利要求EEE8所述的方法,其中,每个空间区域的所述阈值是通过所述多个扩音器的回放限制阈值的唯一组合得到的。
EEE10.如权利要求EEE9所述的方法,其中,每个空间区域的唯一阈值是通过所述多个扩音器的限制阈值的加权平均值得到的。
EEE11.如权利要求EEE10所述的方法,其中,与给定区域的给定扩音器相关联的所述加权是通过与该区域相关联的扬声器参与因子得到的。
EEE12.如权利要求EEE11所述的方法,其中,所述扬声器参与因子是通过与分配给限制器的所述空间区域的一个或多个标称空间位置的渲染相对应的扬声器激活得到的。
EEE13.如权利要求EEE 1至EEE12中任一项所述的方法,进一步涉及根据与对应的扬声器相关联的所述限制阈值来限制所述扬声器馈送。
EEE14.一种系统,所述系统被配置为执行如权利要求EEE 1至EEE13中任一项所述的方法。
许多实施例涉及技术上的可能。对于本领域普通技术人员而言,从本公开中将显而易见是如何实施它们。本文描述了一些实施例。
本公开的一些方面包括一种被配置(例如,被编程)为执行任何所公开的方法的系统或设备,以及一种存储用于实施任何所公开的方法或其步骤的代码的有形计算机可读介质(例如,磁盘)。例如,系统可以是或者可以包括可编程通用处理器、数字信号处理器或微处理器,所述可编程通用处理器、数字信号处理器或微处理器用软件或固件编程为和/或以其他方式被配置为对数据进行多种操作中的任何一种,包括所公开的方法或其步骤的实施例。这种通用处理器可以是或者包括计算机系统,所述计算机系统包括输入设备、存储器和处理子系统,所述处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行所公开的方法(或其步骤)。
一些实施例被实施为可配置(例如,可编程)的数字信号处理器(DSP),所述数字信号处理器被配置(例如,被编程和以其他方式被配置)为对(多个)音频信号执行所需的处理,包括一种或多种所公开的方法的性能。替代性地,一些实施例(或其元件)被实施为通用处理器(例如,可以包括输入设备和存储器的个人计算机(PC)或其他计算机系统或微处理器),所述通用处理器用软件或固件编程和/或以其他方式被配置为执行一种或多种所公开的方法的多种操作中的任何一种。替代性地,一些实施例的元件被实施为被配置(例如,被编程)为执行一种或多种所公开的方法的通用处理器或DSP,并且所述系统还可以包括其他元件(例如,一个或多个扩音器和/或一个或多个麦克风)。被配置为执行一种或多种所公开的方法的通用处理器通常可以耦接到输入设备(例如,鼠标和/或键盘)、存储器,并且在一些示例中耦接到显示设备。
本公开的另一个方面是一种计算机可读介质(例如,磁盘或其他有形存储介质),所述计算机可读介质存储用于执行一种或多种所公开的方法或其步骤的代码(例如,可执行以执行一种或多种所公开的方法或其步骤的编码器)。
虽然在本文中已经描述了本公开的具体实施例和应用,但是对于本领域普通技术人员而言显而易见的是,在不脱离在本文中描述的并要求保护的本公开的范围的情况下,可以对本文所述的实施例和应用进行许多改变。应当理解,虽然已经示出和描述了本公开的某些形式,但是本公开的范围不限于所描述和示出的具体实施例或所描述的具体方法。

Claims (32)

1.一种音频处理方法,包括:
由控制系统并且经由接口系统获得收听环境的多个扩音器中的每一个的单个扩音器动态处理配置数据,所述单个扩音器动态处理配置数据包括所述多个扩音器中的每个扩音器的单个扩音器动态处理配置数据集;
由所述控制系统确定所述多个扩音器的收听环境动态处理配置数据,其中,确定所述收听环境动态处理配置数据基于所述多个扩音器中的每个扩音器的所述单个扩音器动态处理配置数据集;
由所述控制系统并且经由所述接口系统接收音频数据,所述音频数据包括一个或多个音频信号和相关联的空间数据,所述空间数据包括声道数据或空间元数据中的至少一项;
由所述控制系统基于所述收听环境动态处理配置数据对所述音频数据执行动态处理,以生成经处理的音频数据;
由所述控制系统渲染所述经处理的音频数据用于经由包括所述多个扩音器中的至少一些扩音器的一组扩音器再现,以产生经渲染的音频信号;以及
经由所述接口系统向该组扩音器提供所述经渲染的音频信号。
2.如权利要求1所述的音频处理方法,其中,所述单个扩音器动态处理配置数据包括所述多个扩音器中的每个扩音器的回放限制阈值数据集。
3.如权利要求2所述的音频处理方法,其中,所述回放限制阈值数据集包括多个频率中的每个频率的回放限制阈值。
4.如权利要求2或权利要求3所述的音频处理方法,其中,确定所述收听环境动态处理配置数据涉及跨所述多个扩音器确定最小回放限制阈值。
5.如权利要求2或权利要求3所述的音频处理方法,其中,确定所述收听环境动态处理配置数据涉及跨所述多个扩音器对所述回放限制阈值求平均。
6.如权利要求2或权利要求3所述的音频处理方法,其中,确定所述收听环境动态处理配置数据涉及对所述回放限制阈值求平均以获得跨所述多个扩音器的平均回放限制阈值,跨所述多个扩音器确定最小回放限制阈值,以及在所述最小回放限制阈值与所述平均回放限制阈值之间进行内插。
7.如权利要求5或权利要求6所述的音频处理方法,其中,对所述回放限制阈值求平均涉及确定所述回放限制阈值的加权平均值。
8.如权利要求7所述的音频处理方法,其中,所述加权平均值至少部分地基于由所述控制系统实施的渲染过程的特性。
9.如权利要求8所述的音频处理方法,其中,对所述音频数据执行动态处理基于空间区域,所述空间区域中的每个空间区域与所述收听环境的子集相对应,其中,所述回放限制阈值的加权平均值至少部分地基于所述渲染过程根据音频信号对所述空间区域的接近度对扩音器的激活。
10.如权利要求8或权利要求9所述的音频处理方法,其中,所述加权平均值至少部分地基于所述空间区域中的每个空间区域中的每个扩音器的扩音器参与值。
11.如权利要求10所述的音频处理方法,其中,每个扩音器参与值至少部分地基于所述空间区域中的每个空间区域内的一个或多个标称空间位置。
12.如权利要求11所述的音频处理方法,其中,所述标称空间位置与杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.4或杜比9.1环绕声混音中的声道的规范位置相对应。
13.如权利要求11或权利要求12所述的音频处理方法,其中,每个扩音器参与值至少部分地基于与所述空间区域中的每个空间区域内的所述一个或多个标称空间位置中的每个标称空间位置处的音频数据的渲染相对应的每个扩音器的激活。
14.如权利要求1至13中任一项所述的音频处理方法,进一步包括根据向其提供所述经渲染的音频信号的该组扩音器中的每个扩音器的所述单个扩音器动态处理配置数据,对所述经渲染的音频信号执行动态处理。
15.如权利要求1至14中任一项所述的音频处理方法,其中,渲染所述经处理的音频数据涉及根据一个或多个动态可配置功能来确定该组扩音器的相对激活,其中,所述一个或多个动态可配置功能基于所述音频信号的一个或多个属性、该组扩音器的一个或多个属性、或一个或多个外部输入。
16.如权利要求1至15中任一项所述的音频处理方法,其中,对所述音频数据执行动态处理是基于空间区域,所述空间区域中的每个空间区域与所述收听环境的子集相对应。
17.如权利要求16所述的音频处理方法,其中,对所述空间区域中的每个空间区域分别执行所述动态处理。
18.如权利要求16或权利要求17所述的音频处理方法,其中,对所述空间区域中的每个空间区域分别执行确定所述收听环境动态处理配置数据。
19.如权利要求1至18中任一项所述的音频处理方法,其中,对于所述多个扩音器中的每个扩音器,所述单个扩音器动态处理配置数据包括动态范围压缩数据集。
20.如权利要求19所述的音频处理方法,其中,所述动态范围压缩数据集包括阈值数据、输入/输出比数据、攻击数据、释放数据、或拐点数据中的一项或多项。
21.如权利要求1所述的音频处理方法,其中,确定所述收听环境动态处理配置数据至少部分地基于跨所述多个扩音器组合所述动态处理配置数据集。
22.如权利要求21所述的音频处理方法,其中,跨所述多个扩音器组合所述动态处理配置数据集至少部分地基于由所述控制系统实施的渲染过程的特性。
23.如权利要求22所述的音频处理方法,其中,对所述音频数据执行动态处理是基于一个或多个空间区域,所述一个或多个空间区域中的每个空间区域与所述收听环境的整体或子集相对应。
24.如权利要求23所述的音频处理方法,其中,对所述一个或多个空间区域中的每个空间区域分别执行跨所述多个扩音器组合所述动态处理配置数据集。
25.如权利要求24所述的音频处理方法,其中,针对所述一个或多个空间区域中的每个空间区域分别跨所述多个扩音器组合所述动态处理配置数据集至少部分地基于所述渲染过程根据跨所述一个或多个空间区域的期望音频信号位置对扩音器的激活。
26.如权利要求24或权利要求25所述的音频处理方法,其中,针对所述一个或多个空间区域中的每个空间区域分别跨所述多个扩音器组合所述动态处理配置数据集至少部分地基于所述一个或多个空间区域中的每个空间区域中的每个扩音器的扩音器参与值。
27.如权利要求26所述的音频处理方法,其中,每个扩音器参与值至少部分地基于所述一个或多个空间区域中的每个空间区域内的一个或多个标称空间位置。
28.如权利要求27所述的音频处理方法,其中,所述标称空间位置与杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.4或杜比9.1环绕声混音中的声道的规范位置相对应。
29.如权利要求27或权利要求28所述的音频处理方法,其中,每个扩音器参与值至少部分地基于与对所述一个或多个空间区域中的每个空间区域内的所述一个或多个标称空间位置中的每个标称空间位置处的音频数据的渲染相对应的每个扩音器的激活。
30.如权利要求1至29中任一项所述的音频处理方法,其中,所述多个扩音器中的一个或多个扩音器的单个扩音器动态处理配置数据与所述一个或多个扩音器的一个或多个能力相对应。
31.一种系统,所述系统被配置为执行如权利要求1至30中任一项所述的方法。
32.一个或多个非暂态介质,其上存储有软件,所述软件包括用于控制一个或多个设备执行如权利要求1至30中任一项所述的方法的指令。
CN202080055803.0A 2019-07-30 2020-07-27 跨具有不同回放能力的设备的动态处理 Active CN114391262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311144715.XA CN117061951A (zh) 2019-07-30 2020-07-27 跨具有不同回放能力的设备的动态处理

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US201962880115P 2019-07-30 2019-07-30
US62/880,115 2019-07-30
ESP201930702 2019-07-30
ES201930702 2019-07-30
US202062971421P 2020-02-07 2020-02-07
US62/971,421 2020-02-07
US202062705143P 2020-06-12 2020-06-12
US62/705,143 2020-06-12
US202062705410P 2020-06-25 2020-06-25
US62/705,410 2020-06-25
PCT/US2020/043764 WO2021021750A1 (en) 2019-07-30 2020-07-27 Dynamics processing across devices with differing playback capabilities

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202311144715.XA Division CN117061951A (zh) 2019-07-30 2020-07-27 跨具有不同回放能力的设备的动态处理

Publications (2)

Publication Number Publication Date
CN114391262A true CN114391262A (zh) 2022-04-22
CN114391262B CN114391262B (zh) 2023-10-03

Family

ID=72088369

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202311144715.XA Pending CN117061951A (zh) 2019-07-30 2020-07-27 跨具有不同回放能力的设备的动态处理
CN202080055803.0A Active CN114391262B (zh) 2019-07-30 2020-07-27 跨具有不同回放能力的设备的动态处理

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202311144715.XA Pending CN117061951A (zh) 2019-07-30 2020-07-27 跨具有不同回放能力的设备的动态处理

Country Status (7)

Country Link
US (1) US20220360899A1 (zh)
EP (1) EP4005235A1 (zh)
JP (2) JP7326583B2 (zh)
KR (2) KR102638121B1 (zh)
CN (2) CN117061951A (zh)
BR (1) BR112022001570A2 (zh)
WO (1) WO2021021750A1 (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104604257A (zh) * 2012-08-31 2015-05-06 杜比实验室特许公司 用于在各种收听环境中渲染并且回放基于对象的音频的系统
CN104604256A (zh) * 2012-08-31 2015-05-06 杜比实验室特许公司 基于对象的音频的反射声渲染
US20150222991A1 (en) * 2014-02-06 2015-08-06 Sonos, Inc. Audio Output Balancing During Synchronized Playback
CN105075292A (zh) * 2013-03-28 2015-11-18 杜比实验室特许公司 针对任意扬声器布局渲染具有表观大小的音频对象
US20170032793A1 (en) * 2015-07-31 2017-02-02 Apple Inc. Encoded audio extended metadata-based dynamic range control
CN107113528A (zh) * 2015-01-02 2017-08-29 高通股份有限公司 处理空间音频的方法,系统及制品
CN107211227A (zh) * 2015-02-06 2017-09-26 杜比实验室特许公司 用于自适应音频的混合型基于优先度的渲染系统和方法
US20180115850A1 (en) * 2015-04-20 2018-04-26 Dolby Laboratories Licensing Corporation Processing audio data to compensate for partial hearing loss or an adverse hearing environment

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4368210B2 (ja) * 2004-01-28 2009-11-18 ソニー株式会社 送受信システム、送信装置およびスピーカ搭載機器
JP4701931B2 (ja) * 2005-09-02 2011-06-15 日本電気株式会社 信号処理の方法及び装置並びにコンピュータプログラム
CN109979472B (zh) * 2013-09-12 2023-12-15 杜比实验室特许公司 用于各种回放环境的动态范围控制
CA2927664A1 (en) * 2013-10-22 2015-04-30 Fabian Kuech Concept for combined dynamic range compression and guided clipping prevention for audio devices
JP2017181761A (ja) * 2016-03-30 2017-10-05 沖電気工業株式会社 信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラム
US10264355B2 (en) * 2017-06-02 2019-04-16 Apple Inc. Loudspeaker cabinet with thermal and power mitigation control effort
WO2019246457A1 (en) * 2018-06-22 2019-12-26 Dolby Laboratories Licensing Corporation Multichannel audio enhancement, decoding, and rendering in response to feedback

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104604257A (zh) * 2012-08-31 2015-05-06 杜比实验室特许公司 用于在各种收听环境中渲染并且回放基于对象的音频的系统
CN104604256A (zh) * 2012-08-31 2015-05-06 杜比实验室特许公司 基于对象的音频的反射声渲染
CN107509141A (zh) * 2012-08-31 2017-12-22 杜比实验室特许公司 具有声道重新映射器和对象渲染器的音频处理装置
CN105075292A (zh) * 2013-03-28 2015-11-18 杜比实验室特许公司 针对任意扬声器布局渲染具有表观大小的音频对象
CN107465990A (zh) * 2013-03-28 2017-12-12 杜比实验室特许公司 用于创作和渲染音频再现数据的非暂态介质和设备
US20150222991A1 (en) * 2014-02-06 2015-08-06 Sonos, Inc. Audio Output Balancing During Synchronized Playback
CN107113528A (zh) * 2015-01-02 2017-08-29 高通股份有限公司 处理空间音频的方法,系统及制品
CN107211227A (zh) * 2015-02-06 2017-09-26 杜比实验室特许公司 用于自适应音频的混合型基于优先度的渲染系统和方法
US20180115850A1 (en) * 2015-04-20 2018-04-26 Dolby Laboratories Licensing Corporation Processing audio data to compensate for partial hearing loss or an adverse hearing environment
US20170032793A1 (en) * 2015-07-31 2017-02-02 Apple Inc. Encoded audio extended metadata-based dynamic range control

Also Published As

Publication number Publication date
KR102535704B1 (ko) 2023-05-30
JP2022542588A (ja) 2022-10-05
CN117061951A (zh) 2023-11-14
JP7326583B2 (ja) 2023-08-15
BR112022001570A2 (pt) 2022-03-22
JP2023133493A (ja) 2023-09-22
CN114391262B (zh) 2023-10-03
EP4005235A1 (en) 2022-06-01
KR102638121B1 (ko) 2024-02-20
US20220360899A1 (en) 2022-11-10
KR20220044206A (ko) 2022-04-06
WO2021021750A1 (en) 2021-02-04
KR20230074309A (ko) 2023-05-26

Similar Documents

Publication Publication Date Title
CN114521334B (zh) 音频处理系统、方法和介质
CN114175686B (zh) 音频处理方法和系统及相关非暂时性介质
WO2021021857A1 (en) Acoustic echo cancellation control for distributed audio devices
US20180324540A1 (en) Content-Adaptive Surround Sound Virtualization
CN114208209B (zh) 音频处理系统、方法和介质
WO2021119214A2 (en) Content and environmentally aware environmental noise compensation
CN114391262B (zh) 跨具有不同回放能力的设备的动态处理
RU2783150C1 (ru) Динамическая обработка в устройствах с отличающимися функциональными возможностями воспроизведения
KR102670118B1 (ko) 다중 스피커를 통한 다중 오디오 스트림 재생 관리
US12003933B2 (en) Rendering audio over multiple speakers with multiple activation criteria
WO2024025803A1 (en) Spatial audio rendering adaptive to signal level and loudspeaker playback limit thresholds
CN116830604A (zh) 动态应用的渲染配置的渐进计算和应用
WO2022120091A2 (en) Progressive calculation and application of rendering configurations for dynamic applications
CN116806431A (zh) 通过相互设备可听性在用户位置处的可听性

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40065547

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant