CN105612767B - 音频处理方法和音频处理设备 - Google Patents

音频处理方法和音频处理设备 Download PDF

Info

Publication number
CN105612767B
CN105612767B CN201480054981.6A CN201480054981A CN105612767B CN 105612767 B CN105612767 B CN 105612767B CN 201480054981 A CN201480054981 A CN 201480054981A CN 105612767 B CN105612767 B CN 105612767B
Authority
CN
China
Prior art keywords
audio signal
matrix
signal
audio
scattering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480054981.6A
Other languages
English (en)
Other versions
CN105612767A (zh
Inventor
艾伦·J·泽费尔特
马克·S·文顿
C·菲利普·布朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN105612767A publication Critical patent/CN105612767A/zh
Application granted granted Critical
Publication of CN105612767B publication Critical patent/CN105612767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

诸如上混器的音频处理系统能够分离N个输入音频信号的散射部分和非散射部分。上混器能够检测瞬时音频信号条件的情况。在瞬时音频信号条件的情况期间,上混器能够向输出M个音频信号的散射信号扩展处理添加信号自适应控制。上混器可以随时间改变散射信号扩展处理,使得在瞬时音频信号条件的情况期间,音频信号的散射部分可以基本上仅被分布至空间上靠近输入通道的输出通道。在非瞬时音频信号条件的情况期间,音频信号的散射部分可以以基本均匀的方式分布。

Description

音频处理方法和音频处理设备
相关申请的交叉引用
本申请要求2013年10月3日提交的美国临时专利申请号61/886,554和2013年11月22日提交的美国临时专利申请号61/907,890的优先权,通过引用将这两个专利申请中的每个专利申请的全部内容并入本文。
技术领域
本公开内容涉及处理音频数据。特别地,本公开内容涉及在上混(upmixing)处理期间处理包括散射音频信号和定向音频信号二者的音频数据。
背景技术
被称为上混的处理包括从较小数量N个音频信号通道来获得某个数量M个音频信号通道。能够上混的一些声音处理设备(其在本文中可以被称作“上混器(upmixer)”)可以,例如,能够基于2个输入音频通道输出3,5,7,9或更多个音频通道。一些上混器可能能够分析两个输入信号通道的相位和幅度,以确定其所代表的声场意图如何向听者传达定向印象。这样的上混设备的一个示例是Gundry在“A New Active Matrix Decoder forSurround Sound”(第19届AES大会,2001年5月)中描述的II解码器。
输入音频信号可以包括散射音频数据和/或定向音频数据。就定向音频数据而言,上混器应能够产生用于多个通道的输出信号,以向听者提供具有表观位置(apparentlocation)和/或方向的一个或多个听觉成分的感觉。某些音频信号(如与枪声对应的音频信号)可以是非常定向的。散射音频信号(如与风、雨、环境噪声等对应的音频信号)可以具有很少的或没有明显方向性。当处理还包括散射音频信号的音频数据时,应向听者提供与散射音频信号对应的包围(enveloping)散射声场的感知。
发明内容
提供了一种用于处理散射音频信号的改进方法。一些实施方式涉及从N个音频信号得出M个散射音频信号以呈现散射声场的方法,其中,M大于N且大于2。N个音频信号中的每个音频信号对应于空间位置。
方法可以涉及接收N个音频信号、得出N个音频信号的散射部分、以及检测瞬时音频信号条件的情况。方法可以涉及处理N个音频信号的散射部分以得出M个散射音频信号。在瞬时音频信号条件的情况期间,处理可以涉及:将N个音频信号的散射部分以较大的比例分布至M个散射音频信号中的、与相对较靠近N个音频信号的空间位置的空间位置对应的一个或多个散射音频信号,以及以较小的比例分布至M个散射音频信号中的、与相对较远离N个音频信号的空间位置的空间位置对应的一个或多个散射音频信号。
方法可以涉及检测非瞬时音频信号条件的情况。在非瞬时音频信号条件的情况期间,处理可以涉及:将N个音频信号的散射部分以基本均匀的方式分布至M个散射音频信号。
处理可以涉及:向N个音频信号的散射部分应用混合矩阵,以得出M个散射音频信号。混合矩阵可以是可变分布矩阵。可变分布矩阵可以从更适于在非瞬时音频信号条件期间使用的非瞬时矩阵和更适于在瞬时音频信号条件期间使用的瞬时矩阵来得出。在一些实现方式中,瞬时矩阵可以从非瞬时矩阵得出。瞬时矩阵的每个元素可以表示相应非瞬时矩阵元素的比例缩放。在一些实现方式中,比例缩放可以根据输入通道位置和输出通道位置之间的关系而定。
方法可以涉及确定瞬时控制信号值。在一些实现方式中,可以通过至少部分地基于瞬时控制信号值在瞬时矩阵和非瞬时矩阵之间进行内插来得出可变分布矩阵。瞬时控制信号值可以是时变的。在一些实现方式中,瞬时控制信号值可以以连续的方式从最小值到最大值变化。替选地,瞬时控制信号值可以以一系列离散值从最小值到最大值变化。
在一些实现方式中,确定可变分布矩阵可以涉及:根据瞬时控制信号值来计算可变分布矩阵。然而,确定可变分布矩阵可以涉及:从存储装置检索所存储的可变分布矩阵。
方法可以涉及:响应于N个音频信号得出瞬时控制信号值。方法可以涉及将N个音频信号中的每个音频信号变换至B个频带;以及针对B个频带中的每个频带单独地执行得出、检测以及处理。方法可以涉及:对N个音频信号的非散射部分进行平移,以形成M个非散射音频信号;以及将M个散射音频信号与M个非散射音频信号进行组合,以形成M个输出音频信号。
在一些实现方式中,方法可以涉及:从N个音频信号的散射部分得出K个中间信号,其中,K大于或等于一,并且小于或等于M-N。每个中间音频信号可以与N个音频信号的散射部分心理声学去相关。如果K大于一,则每个中间音频信号可以与所有其他中间音频信号心理声学去相关。在一些实现方式中,得出K个中间信号可以涉及去相关处理,所述去相关处理可以包括以下中的一个或多个:延迟、全通滤波器、伪随机滤波器或混响算法。可以响应于K个中间信号以及N个散射信号而得出M个散射音频信号。
本公开的一些方面可以以包括接口系统和逻辑系统的设备来实现。逻辑系统可以包括一个或多个处理器,如通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立门或晶体管逻辑、分立硬件部件和/或其组合。接口系统可以包括用户接口或网络接口中的至少一个。设备可以包括存储器系统。接口系统包括逻辑系统和存储器系统之间的至少一个接口。
逻辑系统可以经由接口系统接收N个输入音频信号。N个音频信号中的每个音频信号对应于空间位置。逻辑系统可以得出N个音频信号的散射部分,以及检测瞬时音频信号条件的情况。逻辑系统可以处理N个音频信号的散射部分以得出M个散射音频信号,其中,M大于N并且大于2。在瞬时音频信号条件的情况期间,处理可以涉及:将N个音频信号的散射部分以较大的比例分布至M个散射音频信号中的、与相对较靠近N个音频信号的空间位置的空间位置对应的一个或多个散射音频信号,并且以较小的比例分布至M个散射音频信号中的、与相对较远离N个音频信号的空间位置的空间位置对应的一个或多个散射音频信号。
逻辑系统可以检测非瞬时音频信号条件的情况。在非瞬时音频信号条件的情况期间,处理可以涉及:将N个音频信号的散射部分以基本均匀的方式分布至M个散射音频信号。
处理可以涉及:向N个音频信号的散射部分应用混合矩阵,以得出M个散射音频信号。混合矩阵可以是可变分布矩阵。可变分布矩阵可以从更适于在非瞬时音频信号条件期间使用的非瞬时矩阵和更适于在瞬时音频信号条件期间使用的瞬时矩阵而得出。在一些实现方式中,瞬时矩阵从非瞬时矩阵得出。瞬时矩阵的每个元素可以表示相应非瞬时矩阵元素的比例缩放。在一些实现方式中,比例缩放可以根据输入通道位置和输出通道位置之间的关系而定。
逻辑系统可以确定瞬时控制信号值。在一些示例中,可以通过至少部分地基于瞬时控制信号值在瞬时矩阵和非瞬时矩阵之间进行内插来得出可变分布矩阵。
在一些实现方式中,逻辑系统可以将N个音频信号中的每个音频信号变换至B个频带。逻辑系统可以针对B个频带中的每个频带单独地执行得出、检测以及处理。
逻辑系统可以对N个音频信号的非散射部分进行平移,以形成M个非散射音频信号。逻辑系统可以将M个散射音频信号与M个非散射音频信号进行组合,以形成M个输出音频信号。
本文公开的方法可以经由硬件、固件、存储在一个或多个非暂态介质上的软件和/或其组合来实现。在附图和下面的描述中阐述了本说明书中所描述的主题的一种或多种实现方式的细节。根据说明书、附图和权利要求,其他特征、方面及优点将变得明显。应注意,以下附图的相对尺寸可能未按比例绘制。
附图说明
图1示出了上混器的示例。
图2示出了音频处理系统的示例。
图3是概述可以由音频处理系统执行的音频处理方法的块的流程图。
图4A是提供了音频处理系统的另一示例的框图。
图4B是提供了音频处理系统的另一示例的框图。
图5示出了涉及立体声输入信号和五通道输出信号的实现方式的比例缩放因子的示例。
图6是示出了根据一个示例的散射信号处理器的进一步细节的框图。
图7是能够从N个中间输入信号生成一组M个中间输出信号的设备的框图。
图8是示出了对选择的中间信号进行去相关的示例的框图。
图9是示出了去相关器部件的示例的框图。
图10是示出了去相关器部件的替选示例的框图。
图11是提供了音频处理设备的部件的示例的框图。
各个附图中的相同的附图标记指示相同的元件。
具体实施方式
以下的说明涉及目的在于描述本公开的一些创新方面的某些实施方式,以及可以实现这些创新方面的环境的示例。然而,本文的教导可以以各种不同的方式来应用。例如,虽然针对特定的重放环境描述了各个实施方式,但是本文的教导广泛地适用于其他已知重放环境,以及在将来可以被引入的重放环境。此外,所描述的实现方式可以至少部分地在各种设备和系统,如硬件、软件、固件、基于云的系统等中实现。因此,本公开的教导不意图仅限于图中所示和/或本文所描述的实现方式,而是具有较广的适用性。
图1示出了上混的示例。在本文描述的各个示例中,音频处理系统10能够提供上混器功能,并且在本文中也可以被称作上混器。在该示例中,音频处理系统10能够通过对在本文中作为左输入(Li)通道和右输入(Ri)通道的两个输入通道的音频信号进行上混,而获得五个输出通道的信号,这五个输出通道被指定为左(L)通道、右(R)通道、中心(C)通道、左环绕(LS)通道以及右环绕(RS)通道。一些上混器可能能够从2个或不同数量的输入通道(例如3,5或更多个输入通道)输出不同数量的通道(例如,3,7,9或更多个输出通道)。
输入音频信号通常包括散射音频数据和定向音频数据。就定向音频数据而言,音频处理系统10应能够产生向听者105提供具有表观位置和/或方向的一个或多个听觉成分的感觉的定向输出信号。例如,音频处理系统10能够应用平移(panning)算法,以通过经由扬声器110中的每个扬声器再现同一音频信号来在两个扬声器110之间创建声音的幻象图像(phantom image)或表观方向。
就散射音频数据而言,音频处理系统10应能够产生向听者105提供包围散射声场的感知的散射音频信号,在该包围散射声场中,声音似乎是围绕听者105从许多(如果不是所有)方向传出。高品质散射声场通常不能够通过简单地经由位于听者周围的多个扬声器110再现同一音频信号来创建。所得到的声场一般具有在不同的聆听位置变化很大的幅度,对于听者105的位置的非常小的变化,幅度经常会改变很大量。聆听区域内有些位置似乎对一个耳朵而言没有声音,而对于另一耳朵而言有声音。所得到的声场可能看起来不自然(artificial)。因此,一些上混器可以对输出信号的散射部分进行去相关,以造成音频信号的散射部分均匀地分布在听者105周围的印象。然而,已经观察到,在输入音频信号的“瞬时”或“冲击性”时刻,在所有输出通道上均匀地散布散射信号的结果可能是在原始瞬间处的感到的“模糊(smearing)”或“缺乏冲击力”。当若干输出通道在空间上远离于原始输入通道时,这可能特别地有问题。例如,从标准立体声输入得出环绕信号就是这种情况。
为了解决上述问题,本文中所公开的一些实现方式提供了能够分离N个输入音频信号的散射部分和非散射部分或“定向”部分的上混器。该上混器能够检测瞬时音频信号条件的情况。在瞬时音频信号条件的情况下,上混器能够向输出M个音频信号的散射信号扩展过程添加信号自适应控制。本公开假定数N大于或等于一,数M大于或等于三,并且数M大于数N。
根据一些这样的实现方式,上混器可以随着时间而改变散射信号散射过程,使得在瞬时音频信号条件的情况下,音频信号的散射部分可以基本上只分布至在空间上接近输入通道的输出通道。在非瞬时音频信号条件的情况下,音频信号的散射部分可以以基本上均匀的方式分布。通过这种方法,音频信号的散射部分在瞬时音频信号条件的情况下保持在原始音频信号的空间附近,以便保持瞬时的冲击力。在非瞬时音频信号条件的情况下,音频信号的散射部分可以以基本上均匀的方式散布,以便使包围最大化。
图2示出了音频处理系统的示例。在该实现方式中,音频处理系统10包括接口系统205、逻辑系统210以及存储器系统215。接口系统205可以例如包括一个或多个网络接口、用户接口等。接口系统205可以包括一个或多个通用串行总线(USB)接口或类似的接口。接口系统205可以包括无线接口或有线接口。
逻辑系统210可以包括一个或多个处理器,如一个或多个通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立门或晶体管逻辑、分立硬件部件、或其组合。
存储器系统215可以包括一个或多个非暂态介质,例如随机存取存储器(RAM)和/或只读存储器(ROM)。存储器系统215可以包括一个或多个其他适当类型的非暂态存储介质(例如闪存)、一个或多个硬盘驱动器等。在一些实现方式中,接口系统205可以包括在逻辑系统210和存储器系统215之间的至少一个接口。
音频处理系统10可以执行本文描述的各种方法中的一个或多个方法。图3是概述了可以由音频处理系统执行的音频处理方法的块的流程图。因此,还将参照图2的音频处理系统10来描述在图3中概述的方法300。如本文中描述的其他方法一样,方法300的操作不一定以在图3中示出的顺序执行。此外,方法300(以及本文提供的其他方法)可以包括比所示出或描述的更多或更少的块。
在该示例中,图3的块305涉及接收N个输入音频信号。N个音频信号中的每一个可以与空间位置对应。例如,对于N=2的一些实施方式而言,空间位置可以对应于左输入音频通道和右输入音频通道的假定位置。在一些实施方式中,逻辑系统210可以经由接口系统205接收N个输入音频信号。
在一些实施方式中,方法300的块可以针对多个频带中的每个频带来执行。因此,在一些实现方式中,块305可以涉及接收已被分解到多个频带中的音频数据,该音频数据对应于N个输入音频信号。在替选实现方式中,块305可以涉及将输入的音频数据分解到多个频带中的处理。例如,该处理可以涉及某种类型的滤波器组,如短时傅立叶变换(STFT)或正交镜像滤波器组(QMF)。
在本实现方式中,图3的块310涉及得出N个输入音频信号的散射部分。例如,逻辑系统210可以从N个输入音频信号的非散射部分分离出散射部分。下面提供了该处理的一些示例。在时间上的任何给定瞬间,与N个输入音频信号的散射部分对应的音频信号的数目可以是N,小于N或大于N。
逻辑系统210可以至少部分地对音频信号进行去相关。可以使用多种已知的数值算法来计算两个信号的数值相关性。这些算法产生数值相关性的量度,即所谓的相关系数,其在负一和正一之间变化。大小等于或接近一的相关系数表明这两个信号是密切相关的。大小等于或接近于零的相关系数表明这两个信号一般是彼此独立的。
心理声学相关性是指跨频率子带而存在的音频信号的相关特性,该频率子带具有所谓的临界带宽(critical bandwidth)。人类听觉系统的频率分辨能力在整个音频频谱中随着频率而变化。人耳可以辨别在低于约500Hz的较低频率处在频率上靠近在一起的频谱分量,但随着频率向上前进至可听度极限,不能辨别那么靠近的频谱分量。该频率分辨率的宽度被称为临界带宽,其随频率变化。
如果跨越心理声学临界带宽的平均数值相关系数等于或接近于零,则将两个音频信号称作在心理声学上是彼此去相关(decorrelate)的。如果两个信号之间的数值相关系数在所有频率下等于或接近于零,则实现了心理声学去相关(psychoacousticdecorrelation)。即使在两个信号之间的数值相关系数在所有频率下并非都等于或接近于零的情况下,如果数值相关性改变以使得跨越每个心理声学临界频带的其平均值小于该临界频带内的任何频率的最大相关系数的一半,则也可以实现心理声学去相关。因此,心理声学去相关相比于数值去相关而言较不严格,因为:即使在两个信号彼此具有一定程度的数值相关性的情况下,也可认为这两个信号在心理声学上是去相关的。
逻辑系统210可以从N个音频信号的散射部分得出K个中间音频信号,使得K个中间音频信号中的每一个与N个音频信号的散射部分是心理声学去相关的。如果K大于一,则K个中间音频信号中的每一个可以是与所有其他中间音频信号心理声学去相关的。一些示例描述如下。
在一些实现方式中,逻辑系统210也可以执行在图3的块315和块320中描述的操作。在该示例中,块315涉及检测瞬时音频信号条件的情况。例如,块315可以涉及:例如通过确定功率随着时间的变化是否已超过预定阈值来检测功率的突然变化的发生。因此,瞬时检测在本文中可以被称作起始点检测(onset detection)。下面参照图4B和图6的起始点检测模块415来提供示例。一些这样的示例涉及在多个频带中进行起始点检测。因此,在一些情况下,块315可以涉及在一些频带中,而非在所有频带中,检测瞬时音频信号的情况。
此处,块320涉及处理N个音频信号的散射部分以得到M个散射音频信号。在瞬时音频信号条件的情况下,块320的处理可以涉及将N个音频信号的散射部分以较大的比例分布至M个散射音频信号中的、与相对较靠近N个音频信号的空间位置的空间位置对应的一个或多个散射音频信号。块320的处理可以涉及将N个音频信号的散射部分以较小的比例分布至与相对远离于N个音频信号的空间位置的空间位置对应的一个或多个散射音频信号。在图5中示出了一个示例,并且下面将论述该示例。在一些这样的实现方式中,块320的处理可以涉及混合N个音频信号的散射部分和K个中间音频信号,以得出M个散射音频信号。在瞬时音频信号条件的情况下,混合过程可以涉及将音频信号的散射部分主要分布至以下输出音频信号:该输出音频信号对应于空间上靠近输入通道的输出通道。一些实现方式还涉及检测非瞬时音频信号条件的情况。在非瞬时音频信号条件的情况下,混合可涉及使到输出通道的散射信号以基本上均匀的方式分布至M个输出音频信号。
在一些实现方式中,块320的处理可以涉及向N个音频信号的散射部分和K个中间音频信号应用混合矩阵,以获得M个散射音频信号。例如,该混合矩阵可以是根据更适于在非瞬时音频信号条件下使用的非瞬时矩阵和更适于在瞬时音频信号条件下使用的瞬时矩阵获得的可变分布矩阵。在一些实现方式中,瞬时矩阵可以从非瞬时矩阵导出。根据一些这样的实现方式,瞬时矩阵中的每个元素可以表示相应的非瞬时矩阵元素的比例缩放。该比例缩放可以例如根据输入通道位置和输出通道位置之间的关系而定。
下面提供了方法300的更详细的示例,包括但不限于瞬时矩阵和非瞬时矩阵。例如,下面参照图4B至图5描述了块315和块320的各个示例。
图4A是提供音频处理系统的另一示例的框图。图4A的块可以例如通过图2的逻辑系统210来实现。在一些实现方式中,图4A的块可以至少部分地由存储在非暂态介质中的软件来实现。在该实现方式中,音频处理系统10能够从信号路径19接收一个或多个输入通道的音频信号,并且能够针对多个输出通道沿信号路径59产生音频信号。与信号路径19交叉的小线以及与其他信号路径交叉的小线指示这些信号路径能够承载一个或多个通道的信号。在小交叉线紧下方的符号N和M指示各种信号路径分别能承载N个和M个通道的信号。在小交叉线中的一些小交叉线紧下方的符号“x”和“y”指示各个信号路径能够承载数目未指定的信号。
在音频处理系统10中,输入信号分析器20能够从信号路径19接收一个或多个输入通道的音频信号,并且能够确定输入音频信号的哪些部分表示散射声场,以及输入音频信号的哪些部分表示非散射的声场。输入信号分析器20能够将输入音频信号的被认为表示非散射声场的部分沿信号路径28传至非散射信号处理器30。此处,非散射信号处理器30能够产生意图通过多个声换能器(如扬声器)再现非散射声场的一组M个音频信号,并且能够沿信号路径39传送这些音频信号。能够执行这类处理的上混设备的一个示例是Dolby ProLogic IITM解码器。
在该示例中,输入信号分析器20能够将输入音频信号的与散射声场对应的部分沿信号路径29传送至散射信号处理器40。此处,散射信号处理器40能够沿信号路径49产生与散射声场对应的一组M个音频信号。本公开内容提供了可以由散射信号处理器40执行的音频处理的各个示例。
在该实施方式中,加法部件50能够将来自非散射信号处理器30的M个音频信号中的每个音频信号与来自散射信号处理器40的M个音频信号中的相应一个进行合并,以产生M个输出通道的相应一个输出通道的音频信号。每个输出通道的音频信号可以被用来驱动声换能器,如扬声器。
本文中所描述的各种实现方式涉及开发和使用混合等式(mixing equation)的系统,以产生可以表示散射声场的一组音频信号。在一些实现方式中,该混合等式可以是线性的混合等式。例如,混合等式可以用于散射信号处理器40。
然而,音频处理系统10仅是本公开可以如何被实现的一个示例。本公开可以以功能或结构与本文所示出和描述的设备的功能或结构不同的其他设备来实现。例如,表示声场的散射部分和非散射部分二者的信号可以由单个部件来处理。下面描述根据由矩阵限定的线性等式的系统来混合信号的独特散射信号处理器40的一些实现方式。用于散射信号处理器40和非散射信号处理器30二者的处理的各个部分可以通过由单个矩阵限定的线性等式的系统来实现。此外,本发明的各方面可以并入到以下设备中:该设备可以不包括输入信号分析器20、非散射信号处理器30或加法部件50。
图4B是提供音频处理系统的另一个示例的框图。根据一些实现方式,图4B的块包括图4A的块的更详细示例。因此,图4B的块可以例如通过图2的逻辑系统210来实现。在一些实现方式中,图4B的块可以至少部分地由存储在非暂态介质中的软件来实现。
此处,输入信号分析器20包括统计分析模块405和信号分离模块410。在该实现方式中,散射信号处理器40包括起始点检测模块415和自适应散射信号扩展模块420。然而,在替选实现方式中,图4B所示的块的功能可以在不同模块之间分布。例如,在一些实现方式中,输入信号分析器20可以执行起始点检测模块415的功能。
统计分析模块405可以对N通道输入音频信号执行各种类型的分析。例如,如果N=2,则统计分析模块405可以计算对以下各项的估计:左信号和右信号的功率之和;左信号和右信号的功率之差;以及输入的左信号和右信号之间的互相关性的实数部分。每个统计估计可以在时间块上以及在频带上累积。统计估计可以在时间上被平滑。例如,可以通过使用频率相关泄漏积分器(frequency-dependent leaky integrator),如一阶无限脉冲响应(IIR)滤波器对统计估计进行平滑。统计分析模块405可以将统计分析数据提供给其他模块,例如,信号分离模块410和/或平移模块425。
在本实现方式中,信号分离模块410能够将N个输入音频信号的散射部分与N个输入音频信号的非散射或“定向”部分分离开。信号分离模块410可以例如确定:N个输入音频信号的高度相关部分与非散射音频信号对应。例如,如果N=2,则信号分离模块410可以基于来自统计分析模块405的统计分析数据确定:非散射音频信号是包含在左输入和右输入二者中的音频信号的高度相关部分。
基于相同(或类似)的统计分析数据,平移模块425可以确定音频信号的该部分应该被导引(steer)到合适的位置,例如,表示局部音频源(如点源)的位置。平移模块425或非散射信号处理器30的另一个模块可以产生与N个输入音频信号的非散射部分对应的M个非散射音频信号。非散射信号处理器30可以将M个非散射音频信号提供给加法部件50。
信号分离模块410在一些示例中可以确定输入音频信号的散射部分是在非散射部分被分离后留下的信号部分。例如,该信号分离模块410可以通过计算输入音频信号和所述音频信号的非散射部分之间的差来确定所述音频信号的散射部分。信号分离模块410可以将音频信号的散射部分提供给自适应散射信号扩展模块420。
此处,起始点检测模块415能够检测瞬时音频信号条件的情况。在该示例中,起始点检测模块415能够确定瞬时控制信号值,并且将该瞬时控制信号值提供给自适应散射信号扩展模块420。在一些情况下,起始点检测模块415可以确定多个频带中的每个频带的音频信号是否涉及瞬时音频信号。因此,在某些情况下,由起始点检测模块415确定并提供给自适应散射信号扩展模块420的瞬时控制信号值可以特定于一个或多个特定频带,而不是所有的频带。
在该实现方式中,自适应散射信号扩展模块420能够从N个输入音频信号的散射部分获得K个中间信号。在一些实现方式中,每个中间音频信号可以与N个输入音频信号的散射部分心理声学去相关。如果K大于一,每个中间音频信号可以与所有其他中间音频信号心理声学去相关。
在该实现方式中,自适应散射信号扩展模块420能够将N个音频信号的散射部分和K个中间音频信号进行混合,以获得M个散射音频信号,其中M大于N并且大于2。在该示例中,K为大于或等于一,并且小于或等于M-N。在瞬时音频信号条件的情况下(至少部分地根据从起始点检测模块415接收到的瞬时控制信号值来确定),混合处理可涉及:将N个音频信号的散射部分以较大的比例分布至M个散射音频信号中的、与相对较靠近N个音频信号的空间位置(例如,较靠近N个输入通道的推定空间位置)的空间位置对应的一个或多个散射音频信号。在瞬时音频信号条件的情况下,该混合处理可以涉及:将N个音频信号的散射部分以较小的比例分布至M个散射音频信号中的、与相对较远离于N个音频信号的空间位置的空间位置对应的一个或多个散射音频信号。然而,在非瞬时音频信号条件的情况下,混合处理可以涉及:将N个音频信号的散射部分以基本上均匀的方式分布至M个散射音频信号。
在一些实现方式中,自适应散射信号扩展模块420可以向N个音频信号的散射部分和和K个中间音频信号应用混合矩阵,以获得M个散射音频信号。自适应散射信号扩展模块420可以将M个散射音频信号提供至加法部件50,加法部件50可以将M个散射音频信号与M个非散射音频信号进行合并,以形成M个输出音频信号。
根据一些这样的实现方式,自适应散射信号扩展模块420所应用的混合矩阵可以是可变分布矩阵,该可变分布矩阵是根据更适于在非瞬时音频信号条件下使用的非瞬时矩阵和更适于在瞬时音频信号条件下使用的瞬时矩阵而获得的。下面提供了用于确定瞬时矩阵和非瞬时矩阵的各个示例。
根据一些这样的实现方式,可以根据非瞬时矩阵获得瞬时矩阵。例如,瞬时矩阵的每个元素可以表示相应非瞬时矩阵元素的比例缩放。该比例缩放例如可以根据输入通道的位置和输出通道的位置之间的关系而定。在一些实现方式中,自适应散射信号扩展模块420可以至少部分地基于从起始点检测模块415接收到的瞬时控制信号值,在瞬时矩阵和非瞬时矩阵之间进行内插。
在一些实现方式中,自适应散射信号扩展模块420可以根据瞬时控制信号值来计算可变分布矩阵。下面提供了一些示例。然而,在替选实现方式中,自适应散射信号扩展模块420可以通过从存储装置中检索所存储的可变分布矩阵来确定可变分布矩阵。例如,自适应散射信号扩展模块420可以至少部分地基于瞬时控制信号值来确定要从存储装置中检索所存储的多个可变分布矩阵中的哪个可变分布矩阵。
瞬时控制信号值通常是时变的。在一些实现方式中,瞬时控制信号值可以以连续的方式从最小值到最大值变化。然而,在替选实现方式中,瞬时控制信号值可以以一系列离散值从最小值到最大值变化。
令c(t)表示具有在值零和值一之间连续变化的瞬时控制信号值的时变瞬时控制信号。在该示例中,瞬时控制信号值为一指示相应音频信号在本质上是类瞬时(transient-like)的,且瞬时控制信号值为零指示相应音频信号是非瞬时的。令T表示更适于在瞬时音频信号条件下使用的“瞬时矩阵”,且令C表示更适于在非瞬时音频信号条件下使用“非瞬时矩阵”。下面描述非瞬时矩阵的各个示例。可以以在瞬时矩阵和非瞬时矩阵之间进行保幂内插(power-preserving interpolation)的方式来计算非归一化版本的可变分布矩阵D(t):
为了保持M通道散射输出信号的相对能量,然后可以对该非归一化矩阵进行归一化,使得矩阵的所有元素的平方和等于一:
在等式2b中,Dij(t)表示非归一化分布矩阵D(t)的第i行和第j列中的元素。分布矩阵中的第i行和第j列中的元素指定了第j个输入散射通道对第i个输出散射通道的贡献量。然后,自适应散射信号扩展模块420可以向N+K通道散射输入信号应用归一化分布矩阵以生成M通道散射输出信号。
然而,在替选实现方式中,自适应散射信号扩展模块420可以从所存储的多个归一化分布矩阵(例如,从查找表)来检索归一化分布矩阵而不是针对每个新的时间情况(time instance)重新计算归一化的分布矩阵例如,可以针对控制信号c(t)的相应值(或值的范围)预先计算每个归一化分布矩阵
如上所述,瞬时矩阵T可以被计算为根据C连同输入和输出通道的假定空间位置而定。具体而言,瞬时矩阵的每个元素可以被计算为相应非瞬时矩阵元素的比例缩放。例如,比例缩放可以根据相应输出通道的位置与输入通道的位置的关系而定。认识到了分布矩阵中的第i行和第j列中的元素指定了第j个输入散射通道对第i个输出散射通道的贡献量,瞬时矩阵T的每个元素可以被计算为:
Tij=βiCij (等式3)
在等式3中,基于M通道输出信号的第i个通道的位置相对于输入信号的N个通道的位置来计算比例缩放因子βi。通常,对于输出通道靠近输入通道而言,可以期望的是βi接近一。当输出通道变得空间上远离于输入通道时,可以期望的是βi变得更小。
图5示出了涉及立体声输入信号和五通道输出信号的实现方式的比例缩放因子的示例。在该示例中,输入通道被指定为Li和Ri,且输出通道被指定为L,R,C,LS和RS。在图5中描绘了假定通道位置和比例缩放因子βi的示例值。在该示例中,可以看到对于空间上靠近输入通道Li和Ri的输出通道L,R和C而言,比例缩放因子βi被设置为一。在该示例中,对于假定为在空间上更远离于输入通道Li和Ri的输出通道LS和RS而言,比例缩放因子βi被设置为0.25。
假定输入声道Li和Ri位于距中间平面505加减30度的位置,则根据一些这样的实现方式,如果输出通道距中间平面505的角度的绝对值大于45度,则βi=0.25,否则βi=1。该示例提供了用于生成比例缩放因子的一种简单的策略。然而,许多其他的策略也是可能的。例如,在一些实现方式中,比例缩放因子βi可以具有不同的最小值,和/或可以具有在最小值和最大值之间的一系列值。
图6是示出了根据一个示例的散射信号处理器的其他细节的框图。在本实现方式中,散射信号处理器40的自适应散射信号扩展模块420包括去相关器模块605和可变分布矩阵模块610。在该示例中,去相关器模块605能够对N个通道的散射音频信号去相关,并产生至可变分布矩阵模块610的K个基本正交的输出通道。如本文中所使用的,如果两个向量的点积小于其幅值的乘积的35%,则所述两个向量被认为彼此“基本上正交”。这对应于向量之间的从约70度至约110度的角度。
可变分布矩阵模块610能够至少部分地基于从起始点检测模块415接收的瞬时控制信号值来确定并应用适当的可变分布矩阵。在一些实现方式中,可变分布矩阵模块610可以至少部分地基于瞬时控制信号值来计算可变分布矩阵。在替选实现方式中,可变分布矩阵模块610可以至少部分地基于瞬时控制信号值来选择所存储的可变分布矩阵,以及从存储装置检索所选择的可变分布矩阵。
虽然一些实现方式可以以宽带方式工作,但是对于自适应散射信号扩展模块420而言,优选的是可以在多个频带上操作。这样,没有与瞬时相关联的频带可被允许保持在所有通道上均匀分布,从而使包围量最大化,同时保持在适当的频带中的瞬时的冲击。为了实现这一点,音频处理系统10可以将输入音频信号分解到多个频带中。
例如,音频处理系统10可以应用某种类型的滤波器组,如短时傅立叶变换(STFT)或正交镜像滤波器组(QMF)。对于滤波器组的每个频带而言,音频处理系统10的一个或多个部件的实例(例如,如图4B或图6所示的)可以并行运行。例如,自适应散射信号扩展模块420的实例可以针对滤波器组的每个频带运行。
根据一些这样的实现方式,起始点检测模块415可以产生用于指示每个频带中的音频信号的类瞬时性质(transient-like nature)的多频带瞬时控制信号。在一些实现方式中,起始点检测模块415可以在每个频带中检测跨时间的能量增加,并且生成与这样的能量增加对应的瞬时控制信号。可以根据每个频带中的时变能量来生成这样的控制信号,在所有输入通道上降混。在一个示例中,令E(b,t)表示在频带b中在时间t处的此能量,首先可以使用单极平滑器(one-pole smoother)来计算该能量的时间平滑版本:
Es(b,t)=αsEs(b,t-1)+(1-αs)E(b,t) (等式4)
在一个示例中,可以将平滑系数αs选择成产生约200ms的半衰减时间。然而,其他平滑系数值也可以提供令人满意的结果。接下来,可以通过从当前时刻的非平滑能量的dB值中减去先前时刻的平滑能量的dB值来计算原始瞬时信号o(b,t):
o(b,t)=10log10(E(b,t))-10log10(Es(b,t-1)) (等式5)
然后,可以使用瞬时归一化界限Olow和Ohigh对该原始瞬时信号进行归一化,以使其处于零和一之间:
已发现olow=3dB和ohigh=9dB的值工作良好。然而,其他值也可以产生可接受的结果。最后,可以计算瞬时控制信号c(b,t)。在一个示例中,可以通过使用无限攻击、缓慢释放单极平滑滤波器(infinite attack,slow release one-pole smoothing filter)对归一化瞬时信号进行平滑,来计算瞬时控制信号c(b,t):
已发现产生约200ms的半衰减时间的释放系数αr工作良好。然而,其他释放系数值也可以提供令人满意的结果。在该示例中,每个频带的所得到的瞬时控制信号c(b,t)在该频带中的能量呈现明显增加时立刻升至一,然后,随着信号能量降低而逐渐降低至零。在每个频带中分布矩阵的后续按比例变化产生了散射声场的感知上透明调制(perceptuallytransparent modulation),这保持了瞬时冲击和总体包围二者。
下面是形成和应用非瞬时矩阵C及其相关方法和处理的一些示例。第一推导方法
再次参考图4A,在该示例中,散射信号处理器40通过根据线性等式的系统将从路径29接收到的N个通道的音频信号进行混合,来沿路径49生成一组M个信号。为便于在下面的讨论中进行描述,从路径29接收到的N个通道的音频信号的部分被称作中间输入信号,并且沿着路径49生成的M个通道的中间信号被称作中间输出信号。该混合操作包括使用可由矩阵乘法来表示的线性等式的系统,例如如下所示:
在等式8中,表示与从N个中间输入信号获得的N+K个信号对应的列向量;C表示Mx(N+K)矩阵或混合系数的阵列;表示与M个中间输出信号对应的列向量。可以对以时域或频域表示的信号进行混合操作。下面的论述更特别地提及时域实现方式。
如等式1所示,K大于或等于一,且小于或等于差值(M-N)。因此,信号Xi的数目和矩阵C中列的数目处于N+1和M之间。矩阵C的系数可以从彼此基本正交的M维空间中的一组N+K个单位幅值向量来获得。如上所述,如果两个向量的点积小于其幅值的乘积的35%,则认为这两个向量彼此“基本正交”。
矩阵C中的每个列具有与该组中的向量之一的元素对应的M个系数。例如,矩阵C的第一列中的系数对应于该组中的向量V中的一个,其元素被表示为(V1,…VM),使得C1,1=p·V1,...,CM,1=p·VM,其中,p表示用于根据需要对矩阵系数进行比例缩放的比例缩放因子。替选地,矩阵C的每列j中的系数可以通过不同的比例缩放因子pj来比例缩放。在许多应用中,系数被比例缩放,以使得矩阵的Frobenius范数等于或不超出的10%。下面讨论比例缩放的其他方面。
可以以期望的任何方式得出该组N+K个向量。一种方法使用具有高斯分布的伪随机值来生成系数的M×M矩阵G,并且计算该矩阵的奇异值分解,以获得三个M×M矩阵,这三个M×M矩阵在这里被表示为U,S和V。U矩阵和V矩阵二者可以都是酉矩阵。可以通过从U矩阵或V矩阵中选择N+K个列、并且对这些列中的系数进行比例缩放以实现等于或不超出的10%的Frobenius范数,来获得C矩阵。
两个信号的数值相关可以使用多种已知的数值算法进行计算。这些算法产生在负一和正一之间变化的数值相关性的度量,即所谓的相关系数。幅值等于或接近一的相关系数表明这两个信号密切相关。幅值等于或接近于零的相关系数表明这两个信号通常是相互独立的。
N+K个输入信号可以通过使N个中间输入信号相对于彼此去相关而获得。在一些实现方式中,去相关可以是在本文中所称的“心理声学去相关”,这在上面进行了简要讨论。心理声学去相关相比于数值去相关较不严格,因为即使两个信号彼此具有一定程度的数值相关性,也可以认为这两个信号是心理声学去相关的。
可以使用延迟或其他类型的滤波器来实现心理声学去相关,这些滤波器中的一些滤波器将在下面进行描述。在许多实现方式中,可以在不使用任何延迟或滤波器实现心理声学去相关的情况下,从N个中间输入信号直接获取N+K个信号Xi中的N个信号,这是因为这N个信号表示散射声场,并且有可能是已经心理声学去相关的。
第二推导方法
如果根据上述的第一推导方法将散射信号处理器40所生成的信号与表示非散射声场的其他信号进行结合,所得的信号组合可能有时会生成不希望的伪声。在一些情况下,这些伪声可能是由于矩阵C的设计没有适当地考虑到声场的散射部分和非散射部分之间的可能相互作用而产生的。如上所述,散射和非散射之间的区别并不总是明确的。例如,参考图4A,输入信号分析器20可沿路径28生成在一定程度上表示散射声场的一些信号,并且可以沿路径29生成在一定程度上表示非散射声场的信号。如果散射信号生成器40破坏或修改路径29上的信号所表示的声场的非散射特性,则在从沿路径59生成的输出信号产生的声场中会发生不希望的伪声或可听失真。例如,如果路径49上的M个散射的经处理信号与路径39上的M个非散射的经处理信号的相加造成一些非散射信号分量抵消,则这可能会降低主观印象,否则这些主观印象将会被实现。
可以通过设计矩阵C以考虑到非散射信号处理器30所处理的声场的非散射特性来实现改进。这可以通过以下步骤来完成:首先识别矩阵E,矩阵E表示或假定表示编码处理,该编码处理对M个通道的音频信号进行处理以生成从路径19接收到的N个通道的输入音频信号;然后得出该矩阵的逆矩阵,例如如下所述。
矩阵E的一个示例是用于将五个通道L,C,R,LS,RS下混为两个通道(被表示为左总(LT)和右总(RT))的5×2矩阵。LT和RT通道的信号是从路径19接收的两个(N=2)通道的输入音频信号的一个示例。在该示例中,装置10可以用于合成五个(M=5)通道的输出音频信号,所述五个(M=5)通道的输出音频信号可以生成以下声场:该声场与可以根据原始的五个音频信号生成的声场在感知上类似(如果不是基本上相同)。
在下面的等式中示出了可用于根据L,C,R,LS和RS通道信号对LT和RT通道信号进行编码的5×2矩阵E的示例:
使用已知的数值技术,例如以数值软件实现的数值技术,如可从马萨诸塞州内蒂克的MathWorksTM公司获得的中的“Pinv”功能或者可从伊利诺伊州香槟的沃尔夫勒姆研究公司获得的中的“伪逆(PseudoInverse)”功能,可以从N×M矩阵E获得M×N伪逆矩阵B。如果矩阵B的系数在通道中的任何通道之间生成不想要的串扰,或者如果任何系数是虚数或复数,则矩阵B可能不是最佳的。矩阵B可以被修改,以去除这些不希望的特性。矩阵B也可以被修改,以通过改变系数以强调用于所选择的扬声器的信号,来实现各种所希望的艺术效果。例如,系数可以改变,以增加专用于通过左通道和右通道的扬声器进行重放的信号的能量,以及降低专用于通过中心通道的扬声器进行重放的信号的能量。矩阵B的系数可以被比例缩放,以使得矩阵的每列表示M维空间中的单位幅值向量。由矩阵B的列所表示的向量不需要彼此基本正交。
在如下等式中示出了5×2矩阵B的一个示例:
可以使用矩阵(如等式10的矩阵),以通过如下运算从N个中间输入信号生成一组M个中间输出信号:
图7是能够从N个中间输入信号生成一组M个中间输出信号的装置的框图。上混器41可以例如是如图4A所示的散射信号处理器40的部件。在该示例中,上混器41从信号路径29-1和29-2接收N个中间输入信号,并且根据线性等式的系统混合这些信号,以沿信号路径49-1至49-5生成一组M个中间输出信号。上混器41内的框表示根据线性等式的系统通过矩阵B的系数进行的信号乘法或放大。
虽然矩阵B可以单独使用,但是可以通过使用额外的M×K增强矩阵A来改进性能,其中1≤K≤(M-N)。矩阵A的每个列可以表示M维空间中的与矩阵B的N个列所表示的向量基本上正交的单位幅值向量。如果K大于一,则每个列可以表示与矩阵A的所有其他列所表示的向量也基本正交的向量。
可以以多种方式得出用于矩阵A的列的向量。例如,可以使用上面提及的技术。例如,如下面所说明的,其他方法涉及对增强矩阵A和矩阵B的系数进行比例缩放,并且对系数进行级联以产生矩阵C。在一个示例中,比例缩放和级联可以代数地表示为:
C=[β·B|α·A] (等式12)
在等式12中,“|”表示矩阵B和矩阵A的列的水平级联,α表示矩阵A系数的比例缩放因子,且β表示矩阵B系数的比例缩放因子。
在一些实现方式中,比例缩放因子α和β可以被选择为使得复合矩阵C的Frobenius范数等于矩阵B的Frobenius范数或不超出矩阵B的Frobenius范数的10%。矩阵C的Frobenius范数可表示为:
在等式13中,ci,j表示在行i和列j中的矩阵系数。
如果矩阵B中的N个列中的每个列和矩阵A中的K个列中的每个列表示单位幅值向量,则矩阵B的Frobenius范数等于且矩阵A的Frobenius范数等于对于该情况,可以证明,如果矩阵C的Frobenius范数被设定为等于则比例缩放因子α和β的值彼此有关,如以下表达式所示:
在设定比例缩放因子β的值之后,可根据等式14计算出比例缩放因子α的值。在一些实现方式中,β可被选择为使得相比于通过增强矩阵A的列中的系数所混合的信号而言,通过矩阵B的列中的系数所混合的信号被给予至少大5dB的权重。可以通过约束比例缩放因子,使得α<1/2β,来实现至少6dB的权重差异。矩阵B和矩阵A的列的比例缩放权重的较大差异或较小差异可被用来实现音频通道之间的期望的声学平衡。
替选地,如下面的等式所示,可以对增强矩阵A的每列中的系数个别地进行比例缩放:
C=[β·B|α1·A1 α2·A2…αK·AK] (等式15)
在等式15中,Aj表示增强矩阵A的列j,且αj表示列j的相应比例缩放因子。对于此替选方案而言,可以为每个比例缩放因子αj选择任意值,只要每个比例缩放因子满足约束αj<1/2β。在一些实现方式中,αj和β系数的值被选择为确保C的Frobenius范数近似等于矩阵B的Frobenius范数。
根据增强矩阵A混合的信号中的每个信号可被处理以使得其与N个中间输入信号心理声学去相关,并且与根据增强矩阵A混合的所有其他信号心理声学去相关。图8是示出了对所选择的中间信号进行去相关的示例的框图。在该示例中,两个(N=2)中间输入信号、五个(M=5)中间输出信号以及三个(K=3)去相关信号被根据增强矩阵A进行混合。在图8中所示的示例中,两个中间输入信号根据由块41所表示的基本逆矩阵B进行混合。两个中间输入信号被去相关器43去相关,以提供根据块42所表示的增强矩阵A而混合的三个去相关的信号。
去相关器43可以以各种方式来实现。图9是示出了去相关器部件的示例的框图。图9所示的实现方式能够通过使输入信号延迟不同的量来实现心理声学去相关。从一毫秒至二十毫秒的范围的延迟适于许多应用。
图10是示出了去相关器部件的替选示例的框图。在本示例中,对中间输入信号中的一个进行处理。中间输入信号沿两个不同的信号处理路径传送,所述两个不同的信号处理路径在两个交叠的频率子带中向它们各自的信号应用滤波器。较低频率路径包括相位翻转滤波器61和低通滤波器62,相位翻转滤波器61根据第一冲击响应在第一频率子带中对其输入信号进行滤波,低通滤波器62限定该第一频率子带。较高频率路径包括:由滤波器实现的频率相关延迟63,所述滤波器根据不等于第一冲击响应的第二冲击响应在第二频率子带中对其输入信号进行滤波;高通滤波器64,该高通滤波器64限定了该第二频率子带;以及延迟部件65。延迟65和低通滤波器62的输出在加法节点66中被合并。加法节点66的输出是相对于中间输入信号心理声学去相关的信号。
相位翻转滤波器61的相位响应可以是频率相关的,并且可以具有峰值基本等于正负90度的双峰频率分布。相位翻转滤波器61的理想实现方式具有统一的幅值响应和在滤波器的通带中的两个或更多个频带的边缘处在正九十度和负九十度之间交替或翻转的相位响应。相位翻转可以由稀疏希尔伯特变换(sparse Hilbert transform)来实现,稀疏希尔伯特变换具有以下表达式所示的脉冲响应:
稀疏希尔伯特变换的冲击响应优选地被截短至以下长度:所述长度被选择,以通过平衡瞬时性能和频率响应的平滑性之间的折衷来优化去相关器性能。相位翻转的数目可以由S参数的值来控制。该参数应该被选择为平衡去相关的程度和脉冲响应长度之间的折衷。当S参数值增大时,可能需要较长的脉冲响应。如果S参数值太小,则滤波器可能提供不充分的去相关。如果S参数太大,则滤波器可能在足够长的时间间隔上模糊瞬时声音,以在去相关的信号中生成令人反感的伪声。
可以通过将相位翻转滤波器21实现为在相邻的相位翻转之间具有非均匀的频率间隔来改进平衡这些特性的能力,其中,在较低频率处的间隔较窄,且在较高频率处的间隔较宽。在一些实现方式中,相邻的相位翻转之间的间隔是频率的对数函数。
频率相关延迟63可以由具有等于有限长度正弦序列h[n]的冲击响应的滤波器来实现,有限长度正弦序列h[n]的即时频率在序列的持续时间上从π至零单调减小。该序列可以表示为:
在等式17中,ω(n)表示即时频率,ω′(n)表示即时频率的一阶导数,G表示归一化因子,表示即时相位,且L表示延迟滤波器的长度。在一些示例中,归一化因子G被设置为某一值,使得:
具有该冲击响应的滤波器在被应用至具有瞬时的音频信号时,有时能生成“啁啾”伪声。如下面的等式所示出的,可以通过向即时相位项添加类噪声项来降低该影响。
如果类噪声项是具有以下方差的高斯白噪声序列:该方差是π的一小部分,则通过对瞬时进行滤波所产生的伪声会听起来更像噪声而非啁啾,并且延迟和频率之间的所期望的关系仍可实现。
低通滤波器62和高通滤波器64的截止频率可被选择为大约2.5kHz,以便在这两个滤波器的通带之间没有间隙,并且使得在接近交叉频率的区域中它们的合并输出的频谱能量基本上等于在该区域中中间输入信号的频谱能量,其中在所述交叉频率处所述通带交叠。由延迟65施加的延迟量可以被设置成使得较高频率和较低频率信号处理路径的传播延迟在交叉频率处大致相等。
去相关器可以以不同的方式来实现。例如,低通滤波器62和高通滤波器64中的一个或二者可分别先于相位翻转滤波器61和频率相关延迟63。延迟65可根据需要通过放置在信号处理路径中的一个或多个延迟部件来实现。
图11是提供了音频处理系统的部件的示例的框图。在该示例中,音频处理系统1100包括接口系统1105。接口系统1105可以包括网络接口,例如无线网络接口。替选地或另外地,接口系统1105可以包括通用串行总线(USB)接口或其他这样的接口。
音频处理系统1100包括逻辑系统1110。逻辑系统1110可以包括处理器,如通用单芯片或多芯片处理器。逻辑系统1110可以包括数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立门或晶体管逻辑、或分立硬件部件,或其组合。逻辑系统1110可以被配置为控制音频处理系统1100的其他部件。虽然在图11中示出了音频处理系统1100的部件之间没有接口,但逻辑系统1110可以配置有用于与其他部件通信的接口。其他部件根据需要可以被配置为彼此通信或可以不被配置为彼此通信。
逻辑系统1110可以被配置成执行音频处理功能,包括但不限于本文中所描述的类型的功能。在一些这样的实现方式中,逻辑系统1110可以被配置成(至少部分地)根据存储在一个或多个非暂态介质上的软件来操作。非暂态介质可以包括与逻辑系统1110关联的存储器,例如随机存取存储器(RAM)和/或只读存储器(ROM)。非暂态介质可以包括存储器系统1115的存储器。存储器系统1115可以包括一种或多种适当类型的非暂态存储介质,例如闪存,硬盘驱动器等。
显示系统1130可以包括一种或多种适当类型的显示器,这取决于音频处理系统1100的表现。例如,显示系统1130可包括液晶显示器、等离子体显示器、双稳态显示器等。
用户输入系统1135可以包括一个或多个设备,所述一个或多个设备被配置成接受来自用户的输入。在一些实现方式中,用户输入系统1135可以包括覆盖在显示系统1130的显示器上的触摸屏。用户输入系统1135可以包括鼠标、跟踪球、姿势检测系统、操纵杆,呈现在显示器系统1130上的一个或多个GUI和/或菜单、按钮、键盘、开关等。在一些实现方式中,用户输入系统1135可以包括麦克风1125:用户可以经由麦克风1125提供对于音频处理系统1100的语音命令。逻辑系统可以被配置用于语音识别,并且根据这样的语音命令来控制音频处理系统1100的至少一些操作。在一些实现方式中,用户输入系统1135可以被认为是用户接口,因此作为接口系统1105的一部分。
电源系统1140可以包括一个或多个适当的能量存储装置,如镍-镉电池或锂离子电池。电源系统1140可以被配置成从电源插座接收电力。
对本公开中描述的实现方式的各种修改对于本领域的普通技术人员而言是明显的。在不脱离本公开的精神或范围的情况下,本文所限定的一般原理可应用于其他实现方式。因此,权利要求并不意图被限于本文所示的实现方式,而是适于与在此公开的本公开内容、原理以及新颖特征一致的最广范围。

Claims (32)

1.一种用于从N个音频信号得出M个散射音频信号以呈现散射声场的方法,其中M大于N并且大于2,其中所述方法包括:
接收所述N个音频信号,其中所述N个音频信号中的每个音频信号对应于空间位置;
得出所述N个音频信号的散射部分;
检测瞬时音频信号条件的情况;以及
处理所述N个音频信号的散射部分以得出所述M个散射音频信号,其中,在瞬时音频信号条件的情况期间,所述处理包括:将所述N个音频信号的散射部分以较大的比例分布至所述M个散射音频信号中的、与相对较靠近所述N个音频信号的空间位置的空间位置对应的一个或多个散射音频信号,并且以较小的比例分布至所述M个散射音频信号中的、与相对较远离所述N个音频信号的空间位置的空间位置对应的一个或多个散射音频信号。
2.根据权利要求1所述的方法,还包括检测非瞬时音频信号条件的情况,其中,在非瞬时音频信号条件的情况期间,所述处理涉及将所述N个音频信号的散射部分以均匀的方式分布至所述M个散射音频信号。
3.根据权利要求2所述的方法,其中,所述处理涉及:向所述N个音频信号的散射部分应用混合矩阵,以得出所述M个散射音频信号。
4.根据权利要求3所述的方法,其中,所述混合矩阵是从更适于在非瞬时音频信号条件期间使用的非瞬时矩阵和更适于在瞬时音频信号条件期间使用的瞬时矩阵得出的可变分布矩阵。
5.根据权利要求4所述的方法,其中,所述瞬时矩阵是从所述非瞬时矩阵得出的。
6.根据权利要求5所述的方法,其中,所述瞬时矩阵的每个元素表示相应非瞬时矩阵元素的比例缩放。
7.根据权利要求6所述的方法,其中,所述比例缩放根据输入通道位置和输出通道位置之间的关系而定。
8.根据权利要求4所述的方法,还包括确定瞬时控制信号值,其中,通过至少部分地基于所述瞬时控制信号值在所述瞬时矩阵和所述非瞬时矩阵之间进行内插来得出所述可变分布矩阵。
9.根据权利要求8所述的方法,其中,所述瞬时控制信号值是时变的。
10.根据权利要求8所述的方法,其中,所述瞬时控制信号值能够以连续的方式从最小值到最大值变化。
11.根据权利要求8所述的方法,其中,所述瞬时控制信号值能够以一系列离散值从最小值到最大值变化。
12.根据权利要求8至11中任一项所述的方法,其中,确定所述可变分布矩阵涉及:根据所述瞬时控制信号值,计算所述可变分布矩阵。
13.根据权利要求8至11中任一项所述的方法,其中,确定所述可变分布矩阵涉及:从存储装置检索所存储的可变分布矩阵。
14.根据权利要求8至11中任一项所述的方法,还包括:
响应于所述N个音频信号得出所述瞬时控制信号值。
15.根据权利要求1至11中任一项所述的方法,还包括:
将所述N个音频信号中的每个音频信号变换至B个频带;以及
针对所述B个频带中的每个频带单独地执行得出、检测以及处理。
16.根据权利要求1至11中任一项所述的方法,还包括:
对所述N个音频信号的非散射部分进行平移,以形成M个非散射音频信号;以及
将所述M个散射音频信号与所述M个非散射音频信号进行组合以形成M个输出音频信号。
17.根据权利要求1至11中任一项所述的方法,其中,所述方法还包括:
从所述N个音频信号的散射部分得出K个中间信号,使得每个中间音频信号与所述N个音频信号的散射部分心理声学去相关,并且如果K大于一,则使得每个中间音频信号与所有其他中间音频信号心理声学去相关,其中,K大于或等于一,并且小于或等于M-N。
18.根据权利要求17所述的方法,其中,得出所述K个中间信号涉及去相关处理,所述去相关处理包括延迟、全通滤波器、伪随机滤波器或混响算法中的一个或多个。
19.根据权利要求17所述的方法,其中,响应于所述K个中间信号以及所述N个散射信号,得出所述M个散射音频信号。
20.一种音频处理设备,包括:
接口系统;以及
逻辑系统,所述逻辑系统能够:
经由所述接口系统接收N个输入音频信号,其中所述N个音频信号中的每个音频信号对应于空间位置;
得出所述N个音频信号的散射部分;
检测瞬时音频信号条件的情况;以及
处理所述N个音频信号的散射部分以得出M个散射音频信号,其中,M大于N并且大于2,并且其中,在瞬时音频信号条件的情况期间,所述处理包括:将所述N个音频信号的散射部分以较大的比例分布至所述M个散射音频信号中的、与相对较靠近所述N个音频信号的空间位置的空间位置对应的一个或多个散射音频信号,并且以较小的比例分布至所述M个散射音频信号中的、与相对较远离所述N个音频信号的空间位置的空间位置对应的一个或多个散射音频信号。
21.根据权利要求20所述的音频处理设备,其中,所述逻辑系统能够检测非瞬时音频信号条件的情况,以及其中,在非瞬时音频信号条件的情况期间,所述处理涉及:将所述N个音频信号的散射部分以均匀的方式分布至所述M个散射音频信号。
22.根据权利要求21所述的音频处理设备,其中,所述处理涉及:向所述N个音频信号的散射部分应用混合矩阵,以得出所述M个散射音频信号。
23.根据权利要求22所述的音频处理设备,其中,所述混合矩阵是从更适于在非瞬时音频信号条件期间使用的非瞬时矩阵和更适于在瞬时音频信号条件期间使用的瞬时矩阵得出的可变分布矩阵。
24.根据权利要求23所述的音频处理设备,其中,所述瞬时矩阵是从所述非瞬时矩阵得出的。
25.根据权利要求24所述的音频处理设备,其中,所述瞬时矩阵的每个元素表示相应非瞬时矩阵元素的比例缩放。
26.根据权利要求25所述的音频处理设备,其中,所述比例缩放根据输入通道位置和输出通道位置之间的关系而定。
27.根据权利要求23至26中任一项所述的音频处理设备,其中,所述逻辑系统能够确定瞬时控制信号值,其中,通过至少部分地基于所述瞬时控制信号值在所述瞬时矩阵和所述非瞬时矩阵之间进行内插来得出所述可变分布矩阵。
28.根据权利要求20至26中任一项所述的音频处理设备,其中,所述逻辑系统能够:
将所述N个音频信号中的每个音频信号变换至B个频带;以及
针对所述B个频带中的每个频带单独地执行得出、检测以及处理。
29.根据权利要求20至26中任一项所述的音频处理设备,其中,所述逻辑系统能够:
对所述N个输入音频信号的非散射部分进行平移,以形成M个非散射音频信号;以及
将所述M个散射音频信号与所述M个非散射音频信号进行组合,以形成M个输出音频信号。
30.根据权利要求20至26中任一项所述的音频处理设备,其中,所述逻辑系统包括以下中的至少一个或其组合:通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立门或晶体管逻辑、分立硬件部件。
31.根据权利要求20至26中任一项所述的音频处理设备,其中,所述接口系统包括用户接口或网络接口中的至少一个。
32.根据权利要求20至26中任一项所述的音频处理设备,还包括存储器系统,其中,所述接口系统包括所述逻辑系统和所述存储器系统之间的至少一个接口。
CN201480054981.6A 2013-10-03 2014-09-26 音频处理方法和音频处理设备 Active CN105612767B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361886554P 2013-10-03 2013-10-03
US61/886,554 2013-10-03
US201361907890P 2013-11-22 2013-11-22
US61/907,890 2013-11-22
PCT/US2014/057671 WO2015050785A1 (en) 2013-10-03 2014-09-26 Adaptive diffuse signal generation in an upmixer

Publications (2)

Publication Number Publication Date
CN105612767A CN105612767A (zh) 2016-05-25
CN105612767B true CN105612767B (zh) 2017-09-22

Family

ID=51660694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480054981.6A Active CN105612767B (zh) 2013-10-03 2014-09-26 音频处理方法和音频处理设备

Country Status (11)

Country Link
US (1) US9794716B2 (zh)
EP (1) EP3053359B1 (zh)
JP (1) JP6186503B2 (zh)
KR (1) KR101779731B1 (zh)
CN (1) CN105612767B (zh)
AU (1) AU2014329890B2 (zh)
BR (1) BR112016006832B1 (zh)
CA (1) CA2924833C (zh)
ES (1) ES2641580T3 (zh)
RU (1) RU2642386C2 (zh)
WO (1) WO2015050785A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3382704A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US11595774B2 (en) 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
CN112584300B (zh) * 2020-12-28 2023-05-30 科大讯飞(苏州)科技有限公司 音频上混方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101044794A (zh) * 2004-10-20 2007-09-26 弗劳恩霍夫应用研究促进协会 用于双声道提示码编码方案和类似方案的散射声音整形
US7970144B1 (en) * 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
CN102714039A (zh) * 2010-01-22 2012-10-03 杜比实验室特许公司 使用用于改善的多声道向上混合的多声道解相关

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004019656A2 (en) 2001-02-07 2004-03-04 Dolby Laboratories Licensing Corporation Audio channel spatial translation
SE0402651D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
ES2362920T3 (es) 2006-03-28 2011-07-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Método mejorado para la conformación de señales en reconstrucción de audio multicanal.
ES2358786T3 (es) 2007-06-08 2011-05-13 Dolby Laboratories Licensing Corporation Derivación híbrida de canales de audio de sonido envolvente combinando de manera controlable componentes de señal de sonido ambiente y con decodificación matricial.
KR101518532B1 (ko) 2008-07-11 2015-05-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 인코더, 오디오 디코더, 오디오 신호, 오디오 스트림을 부호화 및 복호화하는 장치 및 컴퓨터 프로그램
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
TWI413109B (zh) 2008-10-01 2013-10-21 Dolby Lab Licensing Corp 用於上混系統之解相關器
JP5237463B2 (ja) * 2008-12-11 2013-07-17 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャンネルオーディオ信号を生成するための装置
JP5400225B2 (ja) * 2009-10-05 2014-01-29 ハーマン インターナショナル インダストリーズ インコーポレイテッド オーディオ信号の空間的抽出のためのシステム
US9408010B2 (en) 2011-05-26 2016-08-02 Koninklijke Philips N.V. Audio system and method therefor
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7970144B1 (en) * 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
CN101044794A (zh) * 2004-10-20 2007-09-26 弗劳恩霍夫应用研究促进协会 用于双声道提示码编码方案和类似方案的散射声音整形
CN102714039A (zh) * 2010-01-22 2012-10-03 杜比实验室特许公司 使用用于改善的多声道向上混合的多声道解相关

Also Published As

Publication number Publication date
EP3053359A1 (en) 2016-08-10
AU2014329890A1 (en) 2016-04-07
RU2642386C2 (ru) 2018-01-24
KR20160048964A (ko) 2016-05-04
EP3053359B1 (en) 2017-08-30
BR112016006832A2 (pt) 2017-08-01
CN105612767A (zh) 2016-05-25
BR112016006832B1 (pt) 2022-05-10
WO2015050785A1 (en) 2015-04-09
JP6186503B2 (ja) 2017-08-23
AU2014329890B2 (en) 2017-10-26
US20160241982A1 (en) 2016-08-18
KR101779731B1 (ko) 2017-09-18
CA2924833A1 (en) 2015-04-09
US9794716B2 (en) 2017-10-17
JP2016537855A (ja) 2016-12-01
ES2641580T3 (es) 2017-11-10
CA2924833C (en) 2018-09-25
RU2016111711A (ru) 2017-10-04

Similar Documents

Publication Publication Date Title
US10834519B2 (en) Methods and systems for designing and applying numerically optimized binaural room impulse responses
CN106105269B (zh) 音频信号处理方法和设备
CN101401456B (zh) 呈现中央声道音频的方法和装置
US8588427B2 (en) Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
KR100803344B1 (ko) 멀티채널 출력 신호를 구성하고 다운믹스 신호를 생성하기위한 장치 및 방법
CN102172046B (zh) 用于对输入音频信号去相关的方法和设备
US11956622B2 (en) Method for providing a spatialized soundfield
CN112075092B (zh) 经双耳化立体声内容的盲检测
CN101681625A (zh) 通过可控组合环境与矩阵解码信号分量进行的环绕声音频通道的混合推导
KR20180075610A (ko) 사운드 스테이지 향상을 위한 장치 및 방법
CN105612767B (zh) 音频处理方法和音频处理设备
CA3205223A1 (en) Systems and methods for audio upmixing
CN112584300B (zh) 音频上混方法、装置、电子设备和存储介质
Guldenschuh et al. Application of transaural focused sound reproduction
CN114401481B (zh) 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
Pulkki et al. The directional effect of crosstalk in multi-channel sound reproduction
As' ad Binaural Beamforming with Spatial Cues Preservation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant