CN104681034A - 音频信号处理 - Google Patents

音频信号处理 Download PDF

Info

Publication number
CN104681034A
CN104681034A CN201410185954.4A CN201410185954A CN104681034A CN 104681034 A CN104681034 A CN 104681034A CN 201410185954 A CN201410185954 A CN 201410185954A CN 104681034 A CN104681034 A CN 104681034A
Authority
CN
China
Prior art keywords
frequency
sound signal
frequency band
present frame
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410185954.4A
Other languages
English (en)
Inventor
双志伟
D·麦克格拉斯
M·马森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Priority to CN201410185954.4A priority Critical patent/CN104681034A/zh
Priority to PCT/US2014/067033 priority patent/WO2015080994A1/en
Priority to EP14812092.6A priority patent/EP3075072B1/en
Priority to US15/039,695 priority patent/US10142763B2/en
Publication of CN104681034A publication Critical patent/CN104681034A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Abstract

本发明的实施例涉及音频信号处理。具体而言,公开了一种用于处理音频信号的方法,包括:针对所述音频信号的当前帧,至少部分地基于所述当前帧的频率参数,确定多个预定义频带的频带能量;通过处理所述频带能量,生成所述多个预定义频带的频带增益;以及使用预定义的频带滤波器组,基于所述频带增益生成针对所述当前帧的频点增益,所述频带滤波器组特定于所述多个预定义频带。还公开了相应的系统和计算机程序产品。

Description

音频信号处理
相关申请交叉引用
本申请要求申请日为2013年11月27日、发明名称为“音频信号处理”、申请号为201310629975.6的中国专利申请的优先权。
技术领域
本发明总体上涉及音频信号处理,更具体地,涉及用于低延迟的特定于设备的音频信号处理的方法和系统。
背景技术
为了以良好的质量回放音频信号,通常需要对音频信号进行处理。例如,可以根据目标回放设备的特性或者参数来处理音频信号。这种处理称为特定于设备的(device specific)或者以设备为中心(device centric)音频信号处理。一般而言,特定于设备的音频信号处理包括与根据回放设备和/或环境的呈现和校正有关的所有处理。通常,特定于设备的音频信号处理可以包括均衡器(equalizer)处理、调节器(regulator)处理、峰值限制(peak limiting)处理,等等。作为示例,如果回放设备重现音频信号中的高频分量的能力有限,则可以对音频信号进行处理以相应地抑制高频分量,从而避免在回放中的任何破音、失真或者其他可听到的瑕疵。当然,将会理解,可以出于任何其他目的来处理音频信号。
对于VoIP(网际语音)通信和游戏等某些情况而言,音频信号处理的延迟是一个重要因素。较长的音频信号处理延迟很可能降低应用的总体性能,并且对用户体验造成不良影响。然而目前,用于音频信号处理的方案通常出于保真度的考虑而无法使延迟最小化。具体而言,音频信号处理通常包括在时域与频域之间的变换。例如,音频信号可以从时域被变换到频域以获得一系列频率系数。这些频率系数可以根据回放设备的特性而被修改。继而,具有经修改系数的音频信号被变换回时域以便回放。在音频处理延迟与计算效率之间存在着权衡。为了实现滤波器频率响应中的高分辨率,已知的方案不得不以较高的计算代价或者显著的延迟进行操作。而且,为了允许对所有频率参数的精细控制,现有方案通常将会引入较高的失真或者较长的延迟。然而,在某些音频信号处理(例如,特定于设备的音频处理)中,可能仅需要修改少数频带的带能量便能够满足多数用户的质量需求。
由此,本领域中需要一种低延迟的音频信号处理的解决方案。
发明内容
为了解决上述以及其他潜在的问题,本发明提出一种用于处理音频信号的方法和系统。
在一方面,本发明的实施例提供一种用于处理音频信号的方法。该方法包括:针对所述音频信号的当前帧,至少部分地基于所述当前帧的频率参数,确定多个预定义频带的频带能量;通过处理所述频带能量,生成所述多个预定义频带的频带增益;以及使用预定义的频带滤波器组,基于所述频带增益生成针对所述当前帧的频点增益,所述频带滤波器组特定于所述多个预定义频带。
在另一方面,本发明的实施例提供一种用于处理音频信号的系统。该系统包括:频带能量确定单元,被配置为针对所述音频信号的当前帧,至少部分地基于所述当前帧的频率参数,确定多个预定义频带的频带能量;频带增益生成单元,被配置为通过处理所述频带能量,生成所述多个预定义频带的频带增益;以及频点增益生成单元,被配置为使用预定义的频带滤波器组,基于所述频带增益生成针对所述当前帧的频点增益,所述频带滤波器组特定于所述多个预定义频带。
通过下文描述将会理解,根据本发明的实施例,可以简单地通过操作特定数目的预定义频带的频带增益来实现音频信号处理,其中所述频带是实现根据例如人类听觉特性或者模型而被定义和固定下来的。由于频带是事先固定的,因此可以使用预定义的频带滤波器组,基于频带增益导出频点增益,从而降低音频信号处理的延迟。本发明的实施例所带来的其他益处将通过下文描述而清楚。
附图说明
通过参考附图阅读下文的详细描述,本发明实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例而非限制性的方式示出了本发明的若干实施例,其中:
图1示出了根据本发明的一个示例实施例的用于处理音频信号的方法的流程图;
图2示出了根据本发明的另一示例实施例的用于处理音频信号的方法的流程图;
图3示出了根据本发明的一个示例实施例的加窗信号的框图;
图4A和图4B示出了根据本发明的一个示例实施例的对数扫略(1og sweep)信号的频带激励的框图;
图5示出了根据本发明的示例实施例的示例对称的五个扬声器配置的示例的示意图;
图6示出了根据本发明的示例实施例的用于处理音频信号的系统的框图;以及
图7示出了适于实现本发明的示例实施例的计算机系统的框图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考附图中示出的若干示例实施例来描述本发明的原理。应当理解,描述这些实施例只是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
本发明的基本思想是:通过控制频域中的一组预定义频带的频带增益来处理音频信号。根据本发明的实施例,待操作的频带可以根据例如人类听觉特性或者模型而被事先定义和固定。而且,由于频带是事先固定的,因此可以使用预定义的频带滤波器组以频带增益为基础生成频点增益,从而缩短音频信号处理中的延迟。另外,由于所要处理的频率系数的减少,与时频变换(时域向频域的变换)和频时变换(频域向时域的变换)相关联的时间代价将会显著降低。
首先参考图1,其示出了根据本发明的示例实施例的用于处理音频信号的方法100的流程图。
在步骤S101,对于待处理的音频信号的当前帧或者块,至少部分地基于当前帧的频率参数来确定多个预定义频带的频带能量。在某些实施例中,音频信号可以作为频域信号被输入。例如,音频信号的形式可以是一系列频点,每个频点例如被表示为一个复数。备选地,输入音频信号可以处于时域中,并且因此需要被变换到频域中,这将在下文详述。
根据本发明的实施例,频带可以事先定义,例如根据人类听觉特性或者模型来定义。例如,已经证明:人类用户对特定范围内的频率是敏感的,例如0到24kHz的范围。相应地,将仅对处于该范围内的频带进行频域处理。这样,本发明的实施例利用了一种遵循人类听觉系统的方便、高效的简化,以有助于降低延迟。例如,在某些实施例中,0到24kHz范围内的频率可以被划分为20个频带。应当注意,这仅仅是出于说明目的,任何其他适当的频率范围和/或频带数目均可被使用。
对于当前帧的每个预定义频带,可以存在与之关联的频率参数。频率参数可以通过各种不同的方式获得。例如,在上文描述的某些实施例中,频域音频信号可以包括多个频点,每个频点被表示为一个复数。在这样的实施例中,每个复数的实部和虚部可以被用作频率参数。备选地或附加地,可以通过对音频信号的任何适当的频率分析或者处理来获得频率参数。
每个频带的频带能量可以基于当前帧的关联频率参数而确定。给定频率参数,可以将频带能量计算为例如频率参数的和或者平方和,这方面的示例实施例将在下文详述。
接下来,方法100进行到步骤S102,在此处理频带能量以生成预定义频带的频带增益。根据本发明的实施例,对一个或多个频带能量的处理可以通过任何适当的频域音频处理技术来实现,包括但不限于均衡器处理、调节器处理、峰值限制处理,等等。相应地,均衡器、调节器、峰值限制器或者任何其他设备均可与本发明的实施例结合使用,不论它们是目前已知的还是将来开发的。特别地,在某些实施例中,为了生成频带增益,可以根据用于回放音频信号的回放设备的一个或多个参数来处理频带能量,从而实现特定于设备的音频信号处理。通过处理频带能量而生成频带增益的很多技术是已知的并且可以用于本发明的实施例。本发明的范围在这方面不受限制。
继而,在步骤S103,生成当前帧的频点增益。根据本发明的实施例,可以使用特定于所述多个预定义频带的多个预定义频带滤波器组,以基于频带增益生成频点增益。例如,可以针对每个预定义频带而设计一个滤波器组。如上所述,频带是预定义的。相应地,特定于每个频带的频带滤波器组也可以被事先设计。通过向频带增益应用这样的频带滤波器组,可以获得多个频点增益,其形式例如是滤波器系数。
给定频点增益,例如可以通过将频点增益与相应的频点相乘来确定当前帧的频域输出。特别地,在某些实施例中,当前帧的频域输出可以仅仅基于当前帧的频点来确定。在某些备选实施例中,当前帧的频域输出不仅可以基于当前帧的频点增益、而且还可以基于音频信号的至少一个先前帧的频点增益而被确定。
通过执行方法100,本发明的实施例能够以较低的延迟来处理音频信号。具体而言,如上所述,已知的方案需要获得和处理大量的频率系数以满足质量要求,这将导致变换中的较长延迟。相反,根据本发明的实施例,只需要针对特定数目的预定义的、固定的频带来控制频带增益。由此,时频变换和频时变换的时间代价将会被显著降低。而且,生成的频率增益可以通过预定义的频带滤波器组而被转换为频点增益,这些频带滤波器组是特定于预定义频带的。因为这些频带滤波器组可以根据频带的定义而被设计,因此快速地实现频点增益和频域输出的生成。
图2示出了根据本发明的示例实施例的用于处理音频信号的方法200的流程图。将会理解,方法200可以被视为上文描述的方法100的一种特定实现。特别地,在图2所示的实施例中,待处理的音频信号最初被表示为由多个帧或者块组成的时域信号。
在步骤S201,对音频信号应用时域交叉渐变(crossfading)。根据本发明的实施例,可以每S个样本执行一次处理,其中S是自然数。在某些实施例中,对音频信号的每个帧,可以获取S+C0个样本作为输入,并且将会产生S个新音频输出样本,其中C0表示交叉渐变的长度。以此方式,每个输出帧与前一输出帧交叉C0个样本。在某些实现中,可以存在长度为S+C0的缓冲区以用于存储输入样本。对于每个帧,获得S个样本并且将其附加到缓冲区的结尾,同时在缓冲区中保留先前帧的最后C0个样本。在某些实施例中,例如,可以设置S=256,C0=32并且N=320。应当注意,这些数值仅仅是出于说明目的,任何其他适当的数值都是可行的。
步骤S201处的交叉渐变过程可以通过各种不同的方式来实现,不论是当前已知的还是将来开发的。例如,可以对S+C0个样本应用时域交叉渐变窗口。在某些实现中,交叉渐变窗口可以定义如下:
win ( n ) = sin ( n C 0 + 1 * π 2 ) 2 , 1 ≤ n ≤ C 0 1 , C 0 + 1 ≤ n ≤ S cos ( n - S C 0 + 1 * π 2 ) 2 n = S + 1 : S + C 0
任何其他适当的交叉渐变技术均可与本发明的实施例结合使用。应用时域交叉渐变将有助于以非常低的计算代价在生成频带增益时降低失真。
接下来,方法200进行到步骤S202,在此音频信号从时域被变换到频域。假设当前帧是音频信号的第p个帧,其频域信号可以这样获得:
Xp(k)=F(xp(n))
其中F()表示时频变换,并且xp(n)表示第p帧的时域样本,其可被表示为:
x p ( n ) = input ( pS + n ) , 0 < n < S + C 0 0 , S + C 0 < n < 2 N
其中input()表示音频信号的输入值,并且N表示时频变换的长度。
在某些实施例中,例如,变换F()可以是调制离散傅里叶变换(MDFT)。在这些实施例中,第p帧的频域样本Xp(k)可以通过如下方式获得:
X p ( k ) = MDFT ( x p ( n ) ) = &Sigma; n = 0 2 N - 1 x p ( n ) e - i&pi; ( 2 k + 1 ) n / 2 N
备选地,变换可以是标准离散傅里叶变换(DFT)或者任何其他适当的时频变换。本发明的范围在此方面不受限制。
利用时频变换,2N个实数表示的时域样本可以被变换为N个复数表示的频域样本,每个样本可被视作一个频点。每个频点被表示为一个复数,并且每个复数的实部和虚部可被用作第p个帧的频率参数。
随后,在步骤S203,将多个预定义频带中的每个频带与步骤S202处获得的多个频点中的至少一个频点相关联。在某些实施例中,获得的频点可以被分配给不同的频带,其中每个频带与一个或多个频点相关联。频带与频点之间的关联可以是预先定义的。作为示例,在某些实施例中,可以将最低频点与最低频带相关联,将次低的第二和第三频点与低次频带相关联,以此类推。
方法200进行到步骤S204,以基于相关联频点的频率参数来确定频带能量。如上所述,在某些实施例中,每个频点可以表示为复数,复数的实部和虚部是对应于该频点的频率参数。在这些实施例中,第i个频带的频带能量可以通过计算与该频带相关联的频点的实部和虚部的平方和来确定:
E p ( i ) = &Sigma; k = Bsi Bei | x p ( k ) | 2
其中BsiandBei分别表示与第i个频带相关联的第一个频点和最后一个频点。
可以看到,在上述实施例中,频带能量仅仅基于当前帧的频率参数而被确定。以此方式,能够以较低的计算代价来确定频带能量。备选地,为了改进频带能量的精度,特别是对于那些持续时间较短的音频信号,可以基于音频信号的当前帧和至少一个先前帧的相应频率参数,来确定当前帧的频带能量。
更具体地,图3示出了先前帧和当前帧的加窗信号301和302。当前帧的加窗信号302可以平移长度S,以获得平移之后的加窗信号303。通过将信号301与303进行组合,获得了具有更长窗口的加窗信号304。在数学上,信号304可以这样导出:
x′p=xp-1(n)+xp(n-S)
其中xp(n-S)表示xp(n)和δ(n-S)的卷积,并且δ()表示平移函数。由此,合并的信号可以表示为:
x &prime; p = x p - 1 ( n ) + x p ( n ) &CircleTimes; &delta; ( n - S )
其中表示卷积函数。
相应地,在这样的实施例中,当处理第p个帧时,用于当前帧和先前帧的时域样本可以被转换到时域中:
Xp(k)=F(x′p)=F(xp-1(n))+F(xp(n))*F(δ(n-S))
以此方式,在确定用于当前帧p的频带能量时,当前帧以及一个或多个先前帧的频率参数都将被纳入考虑。由此,可以更加准确地、以较小的噪声确定频带能量。而且,将会理解,F(δ(n-S)对于所有的帧而言将是相同的,并且可以事先被计算和存储。因此,计算复杂性和计算代价将很低,因为只需要进行一些加法和乘法运算。
图4A-图4B示出了分别示出了基于288个点和544个点的MDFT参数的对数扫略信号的频带激励。图中的每个曲线对应于一个频带的激励。可以看到:基于544个点频率参数的激励比基于288个点频率参数的激励要稳定得多。
特别地,在上文的示例实施例中,考虑一个先前帧的频率参数。应当注意,本发明的范围不限于此。相反,在其他实施例中,可以基于当前帧和任意数目的先前帧的频率参数来确定频带能量。而且,已经发现:只有几个低频频带的频带激励倾向于有噪声和不准确。因此,在某些实施例中,只有一个或多个低频频带的频带能量是基于当前帧和先前帧的组合频率参数而被确定的。换言之,可以仅针对最低的一个或多个频点计算组合频率参数F(x’p)。
返回参考图2,方法200继而进行到步骤S205。在步骤S205,通过处理一个或多个频带能量来生成针对预定义频带的频带增益,对频带能量的处理例如根据目标回放设备的一个或多个参数进行,以改进音频信号的呈现和校准。例如,在某些实施例中,可以对频带能量应用均衡器处理。均衡器处理的参数可以通过不同的设置来确定,例如基带增强,图形均衡器设置,优化器设置,等等。备选地或附加地,可以将频带能量输入到调节器中。在某些实施例中,调节器可以是一个多频带限制器(multi-band limiter),其允许对每个频带失真峰值的测量并且限制将要实施的阈值。每个频带可以独立于其他频带而被操作,从而可以抑制特定的共振。此外,可以使用峰值限制器来执行峰值限制处理,以确保经过提升(boosting)之后的输出信号在特定的峰值限制阈值之内。
接下来,在步骤S206,使用特定于频带的预定义的频带滤波器组将步骤S205处生成的频带增益转化为频点增益。一般而言,这种滤波器组可以被视为由实部Tr和虚部Ti构成的矩阵,实部Tr和虚部Ti的每一个都是尺寸为N×M×B的频率系数的复数矩阵,其中M表示延迟长度,B表示频带的数目。在某些实施例中,频带滤波器组可以如下文所述这样来设计。
对于每个频带b∈[0,B-1],可以构造一个期望的脉冲响应它是表示频带b的响应的带通滤波器。该滤波器将是有限长度的,该长度可以针对n∈[0,L-1]而被定义,其中L=2N+(M-2)S-C0+1。可选地,对于每个频带b∈[0,B-1],还可以构造一个期望的脉冲响应它是表示频带b的90度相移响应的带通滤波器。该滤波器将是有限长度的,该长度可以针对n∈[0,L-1]而被定义。
继而,对于频带滤波器以及可选的中的每一个,长滤波器可被拆分为多个较短的块,记为其中n∈[0,2N-S-C0]并且m∈[0,M-1]。例如,在N=320、S=256、M=3和C0=48的实施例中,可以将长度为L=2N+(M-2)S-C0+1=849的滤波器拆分为M=3个块,每个块的长度为2N-S-C0+1=337。这些块将彼此重叠CF=2N-2S-C0+1=81个样本。每个脉冲响应块继而被变换到频域中其可被视作是特定于频带b的一个频域滤波器组。可以类似地构造这些系数继而可被用于实时地生成频点增益。
如上设计的频带滤波器适当地较窄,其中相位响应被适配以确保频带滤波器的全集相加为一个平坦的频率响应。而且,频域系数Tr和Ti是稀疏的,使得计算复杂性和代价相对较低。应当注意,上面的示例仅仅是出于说明目的。给定一组预定义的频带,可以通过各种方式设计相关联的频带滤波器组。本发明的范围在此方面不受限制。
利用作为输入的频带增益,频带滤波器组可以输出对应的频点增益:
F p ( k , m ) = &Sigma; b = 0 B - 1 T b r ( k , m ) R ( g p ( b ) ) + T b i ( k , m ) I ( g p ( b ) )
其中gp(b)表示针对频带b(0≤b≤B)的频带增益,并且R()和I()分别表示用于获取gp(b)的实部和虚部的函数。在不需要复数频带增益的某些实施例中,可以省略Ti虚部。
方法200继而进行到步骤S207,在此基于在步骤S206获得的频点增益生成当前帧的频域输出。例如,可以通过将频点增益与相应的频点相乘来生成频域输出:
Yp(k)=Xp(k)Fp(k,m)
备选地,为了将一个或多个先前帧的影响考虑在内,在某些实施例中,在步骤S207,可以不仅基于当前帧的频点增益、而且基于至少一个先前帧的频点增益,来生成针对当前帧的频域输出:
Y p ( k ) = &Sigma; m = 0 M - 1 X p - m ( k ) F p ( k , m )
其中M表示被纳入考虑的先前帧的数目。
在某些实施例中,在接下来的步骤S208,可以向信号Yp(k)应用频率交叉渐变,以获得针对当前帧的最终频域输出。以此方式,可以得到从一个帧到另一个帧的更加平滑和连续的过度,破音或者其他可听到的瑕疵被最小化。备选地,在步骤S207处获得的信号Yp(k)可以被直接用作最终频域输出,并且步骤S208可被省略。
继而在步骤S209,将针对当前帧的频域输出变换到时域中,以生成当前帧的时域输出。这里的频时变换是步骤S202处使用的时频变换的逆变换。例如,在MDFT充当步骤S202处的时频变换的实施例中,可以利用逆调制离散傅里叶变换(IMDFT)将频域输出变换回时域:
y p ( n ) = IMDFT ( Y p ( k ) ) = 1 n &Sigma; k = 0 N - 1 R ( Y p ( k ) e i&pi; ( 2 k + 1 ) n / 2 N )
获得的时域音频信号可以被直接回放。备选地,可以在步骤S210执行时域处理。在某些实施例中,该时域处理可以包括时域交叉渐变,这是通过添加帧间重叠。如上所述,如果C0>1,得到的当前帧的2N个时域样本将与先前帧部分地重叠。因此,时域输出信号可以被计算为:
outputp(pS+n)=outputp-1(pS+n)+yp(n),{0≤n<2N}
其中表示outputp(pS+n)表示针对当前帧p而输出的S个样本。备选地或附加地,可以向时域输出信号应用峰值限制处理,以确保提升之后的输出信号在特定的峰值限制阈值以下。
除了上文所讨论的特定于设备的音频信号处理之外,根据本发明的示例实施例,可以向音频信号应用耳机虚拟化(headphonevirtualization)。在此使用的术语“耳机虚拟化”是指这样的过程:使用耳机或者耳麦产生虚拟化的扬声器或音箱,使得听众可以通过耳机体验到虚拟扬声器的声音,这些虚拟扬声器具有与扬声器体验相似的真实感。此外,可选地,耳机虚拟化可以包括空间均衡化(roomequalization)、混响(reverberation)和/或任何其他适当的过程。以此方式,可以通过电子方式将适当地置于良定义声学环境中的相应扬声器(对于立体声程序而言是两个,最多可能是七个)的声学签名给予音频信号的每个声道。
例如,在某些示例实施例中,重低音音箱(低音炮)信号可以与耳机以相等的比例被混合到左声道和右声道。相应地,所有信息可被合并到两个编码的声道中,这两个编码的声道经由传统的立体声耳机被递送到听众的每只耳朵。以此方式,可以在一个虚拟空间中创建多个虚拟扬声器。由此,收听的感觉将更加自然,声音就像从听众的头部以外传来一样。
为了实现耳机虚拟化,输入音频信号可以和“与头部相关的脉冲响应”(head-related impulse response,HRIR)进行卷积。例如,在某些示例实施例中,音频信号的每个声道可以与一个HRIR相关联。在这样的实施例中,每个声道的信号可与相关联的HRIR进行卷积以用于耳机虚拟化。
在某些示例实施例中,卷积可以在时域中完成。例如,在图2所示的实施例中,当在步骤S201处向信号样本应用时域交叉渐变窗口之后,所得的结果信号可以与HRIR进行卷积。在某些示例实施例中,HRIR可以利用HRTF(与头部相关的传递函数)滤波器来表示,这是已知的并且不再在此详述。
换言之,在这样的实施例中,借助于在后续音频信号处理之前的时域卷积而实现耳机虚拟化。作为示例,在上文描述的方法200中,耳机虚拟化可以在步骤S201与S202之间执行。在某些实施例中,在方法200的步骤S201之前,还可以向每个声道应用可选的混响,并且对音频信号进行成帧。在步骤S201之后,成帧的音频信号可以与HRIR参数以及可能还有空间均衡化参数进行卷积。接下来,经过卷积的音频信号可在步骤S202处被转换到频域中,以用于后续音频信号处理。
备选地,在某些其他实施例中,用于耳机虚拟化的卷积可以在频域执行,例如通过复用(re-use)特定于频带而设计的预定义频带滤波器组。在这样的实施例中,在时域中不需要进行HRIR卷积。相反,HRIR可以被集成到频域中的预定义滤波器组中,使得HRIR卷积可以在无需单独的时域卷积的情况下被完成。换言之,当在步骤S103或者S206处通过使用预定义的频带滤波器组来处理频带能量从而生成频点增益的同时,可以执行HRIR与音频信号的卷积以便实现耳机虚拟化。
在某些示例实施例中,给定HRIR参数,可以根据这些HRIR参数修改预定义的频带滤波器组。例如,可以通过将HRIR的频域参数与上文讨论的预定义频带滤波器组的参数相乘,来修改这些预定义频带滤波器组。备选地,在某些其他示例实施例中,可以通过在设计预定义滤波器组时将所有预定义滤波器组的目标和变为HRIR的频域参数,来将HRIR参数集成到所述滤波器组中。这样,通过使用预定义频带滤波器组的冗余长度,可以显著改善耳机虚拟化的效率。
特别地,在耳机虚拟化在频域中执行的那些实施例中,在步骤S204处生成的频带能量可以至少部分地基于HRIR而被修改,以便提供更加准确和自然的经处理音频信号。可选地,在修改频带能量时,还可以将空间均衡化参数纳入考虑。例如,在某些示例实施例中,每个频带的频带能量可以乘以与该频带相关联的HRIR和/或空间均衡化的增益。继而,经过修改的频带能量可在步骤S205处被处理,以生成用于预定义频带的频带增益。
而且,在某些示例实施例中,为了降低计算复杂性和成本,可以基于声道的对称性对音频信号与HRIR进行卷积。将会理解,如果将HRIR的卷积直接应用于每个声道,则每个声道需要执行两次卷积操作,一次用于左耳、另一次用于右耳。通过将声道的对称性纳入考虑,可以减少卷积操作的数目。
考虑图5中所示的对称的五个扬声器配置作为示例。在此使用的术语“对称性”表示左声道/左环绕声道对左耳的贡献等于右声道/右环绕声道对右耳的贡献,左声道/左环绕声道对右耳的贡献等于右声道/右环绕声道对左耳的贡献,并且中央声道对左耳和右耳的贡献相等。图5示出了声道对称性的示意图。
为讨论方便之目的,分别使用C、L、R、LS和RS表示中央声道、左声道、右声道、左环绕声道和右环绕声道的音频信号。左声道和右声道对左耳的贡献(表示为SLM)可如下计算:
SLM=L*mainnear+R*mainfar
其中mainnear表示左声道相对于左耳的HRIR,mainfar表示右声道相对于左耳的HRIR,并且运算符“*”表示卷积操作。由于声道的对称性,左声道和右声道对于右耳的贡献(表示为SRM)可计算如下:
SRM=L*mainfar+R*mainnear
可以看到,直接计算SLM和SRM需要四次卷积操作。为了减少卷积操作的次数以提高效率,某些示例实施例可以如下计算SLM+SRM以及SLM+SRM而不是SLM和SRM
SLM+SRM=(L+R)*(mainnear+mainfar)
SLM-SRM=(L-R)*(mainnear-mainfar)
这样,只需要两次卷积即可。继而,可以通过加法和减法运算而从SLM+SRM和SLM+SRM恢复SLM和SRM,从而降低计算复杂性和成本。
类似地,左环绕声道和右环绕声道的贡献可以通过以下项来恢复:
SLS+SRS=(LS+RS)*(surnear+surfar)
SLS-SRS=(LS-RS)*(surnear-surfar)
其中surnear表示左环绕声道相对于左耳的HRIR或者说右环绕声道相对于右耳的HRIR,并且surfar表示左环绕声道相对于右耳的HRIR或者说右环绕声道相对于左耳的HRIR。中间声道的贡献(记为SC)可如下计算:
SC=C*center
其中center表示中央声道相对于左耳或者右耳的HRIR。
以此方式,只需要五次卷积来确定所有声道对于左耳的贡献(SL)和对于右耳的贡献(SR)之和。更具体地,SL和SR可以如下计算:
S L = S C + ( S LM + S RM ) + ( S LM - S RM ) 2 + ( S LS + S RS ) + ( S LS - S RS ) 2
S R = S C + ( S LM + S RM ) - ( S LM - S RM ) 2 + ( S LS + S RS ) - ( S LS - S RS ) 2
在这些示例实施例中,音频信号和HRIR可以根据声道的对称性而被分别转换。例如,在上文讨论的示例对称的五个扬声器配置中,input信号可以被转换为信号C、(L+R)、(L-R)、(LS+RS)和(LS-RS),而HRIR可以被转换为如下HRIR:center、(mainnear+mainfar)、(mainnear-mainfar)、(surnear+surfar)以及(surnear-surfar)。相应地,在耳机虚拟化在时域中执行的那些实施例中,转换后的音频信号可以与转换后的HRIR在时域中直接卷积。
另一方面,在耳机虚拟化借助于特定于频带的预定义频带滤波器组而在频域中执行的那些实施例中,转换后的HRIR,即center、(mainnear+mainfar)、(mainnear-mainfar)、(surnear+surfar)和(surnear-surfar)中的每一个可以与每个预定义滤波器组进行卷积。继而,可以使用得到的滤波器组来实现耳机虚拟化以及特定于设备的音频信号处理。将会理解,除了降低计算成本之外,在对称的五个扬声器配置中,可以节省存储资源,因为针对每个预定义频带只需要预先存储5个附加的滤波器。
图6示出了根据本发明示例实施例的用于处理音频信号的系统600的框图。如图所示,系统600包括:频带能量确定单元601,被配置为针对所述音频信号的当前帧,至少部分地基于所述当前帧的频率参数,确定多个预定义频带的频带能量;频带增益生成单元602,被配置为通过处理所述频带能量,生成所述多个预定义频带的频带增益;以及频点增益生成单元603,被配置为使用预定义的频带滤波器组,基于所述频带增益生成针对所述当前帧的频点增益,所述频带滤波器组特定于所述多个预定义频带。
在某些实施例中,系统600还可以包括:时频变换单元,被配置为将所述当前帧从时域变换到频域,以获得多个频点;以及关联单元,被配置为将每个所述频带与至少一个所述频点相关联。在这些实施例中,所述频带能量确定单元601被配置为基于与相关联的所述至少一个频点对应的所述频率参数,确定针对每个所述频带的所述频带能量。
在某些实施例中,系统600还可以包括第一时域交叉渐变单元,被配置为向所述当前帧应用时域交叉渐变。
在某些实施例中,所述频带中的一个或多个频带的所述频带能量是基于所述当前帧和所述音频信号中的至少一个先前帧的各自的所述频率参数而被确定的。特别地,在某些实施例中,所述一个或多个频带包括所述多个预定义频带中的至少一个低频频带。
在某些实施例中,所述频带增益生成单元602可以包括以下至少一个:均衡器,调节器,以及峰值限制器。
在某些实施例中,所述频带增益生成单元602可以包括特定于设备的处理单元,其被配置为根据用于回放所述音频信号的回放设备的参数来处理所述频带能量,从而生成所述频带增益。
在某些实施例中,系统600还可以包括:频域输出生成单元,被配置为至少部分地基于针对所述当前帧的所述频点增益,生成针对所述当前帧的频域输出。在某些实施例中,所述频域输出生成单元包括:被配置为基于针对所述当前帧和所述音频信号中的至少一个先前帧的各自的所述频点增益来生成针对所述当前帧的所述频域输出的单元。在某些实施例中,系统600还可以包括:频域交叉渐变单元,被配置为向所述频域输出应用频域交叉渐变;频时变换单元,被配置为将所述频域输出变换到时域中,以生成针对所述当前帧的时域输出;第二时域交叉渐变单元,被配置为向生成的所述时域输出应用时域交叉渐变;以及峰值限制单元,被配置为利用预定义的峰值阈值来限制所述时域输出。
在某些实施例中,系统600还可以包括:耳机虚拟化单元,被配置为通过对所述音频信号和与所述音频信号相关联的与头部相关的脉冲响应HRIR进行卷积,向所述音频信号应用耳机虚拟化。
在某些实施例中,所述耳机虚拟化单元可以包括时域卷积单元,被配置为在时域中对所述音频信号与所述HRIR进行卷积。
备选地或附加地,在某些实施例中,所述HRIR可以被集成到所述预定义的频带滤波器组中。在这样的实施例中,所述耳机虚拟化单元可以包括频域卷积单元,被配置为使用所述预定义的频带滤波器组,在频域中对所述音频信号与所述HRIR进行卷积。特别地,在某些实施例中,系统600还可以包括频带能量修改单元,被配置为至少部分地基于所述HRIR来修改确定的所述频带能量。
在某些实施例中,系统600还可以包括以下至少一个:空间均衡单元,被配置为向所述音频信号应用空间均衡化;以及混响单元,被配置为向所述音频信号应用混响。
在某些实施例中,所述音频信号基于所述音频信号的声道的对称性而与所述HRIR卷积。特别地,在某些实施例中,所述耳机虚拟化单元可以包括音频信号转换单元和HRIR转换单元。音频信号转换单元可被配置为根据所述声道的所述对称性来转换所述音频信号。HRIR转换单元可被配置为根据所述声道的所述对称性来转换所述HRIR。在这样的实施例中,耳机虚拟化单元可被配置为对转换后的音频信号与转换后的HRIR进行卷积。
为清晰起见,在图6中没有示出系统600的某些可选部件。然而,应当理解,上文参考图1到图2所描述的各个特征同样适用于系统600。而且,系统600中的各部件可以是硬件模块,也可以是软件单元模块。例如,在某些实施例中,系统600可以部分或者全部利用软件和/或固件来实现,例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地,系统600可以部分或者全部基于硬件来实现,例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本发明的范围在此方面不受限制。
下面参考图7,其示出了适于用来实现本发明实施例的计算机系统700的示意性框图。如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储单元708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中,还存储有设备700操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)单元705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可移动介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明的实施例,上文参考图1和图2描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行方法100和/或方法200的程序代码。在这样的实施例中,该计算机程序可以通过通信单元709从网络上被下载和安装,和/或从可拆卸存储单元711被安装。
一般而言,本发明的各种示例实施例可以在硬件或专用电路、软件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
而且,流程图中的各框可以被看作是方法步骤,和/或计算机程序代码的操作生成的操作,和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如,本发明的实施例包括计算机程序产品,该计算机程序产品包括有形地实现在机器可读介质上的计算机程序,该计算机程序包含被配置为实现上文描述方法的程序代码。
在本公开的上下文中,机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备,或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备,或其任意合适的组合。
用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器,使得程序代码在被计算机或其他可编程的数据处理装置执行的时候,引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。
另外,尽管操作以特定顺序被描绘,但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成,或者执行所有图示的操作以获取期望结果。在某些情况下,多任务或并行处理会是有益的。同样地,尽管上述讨论包含了某些特定的实施细节,但这并不应解释为限制任何发明或权利要求的范围,而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。
针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外,前述说明书和附图存在启发的益处,涉及本发明的这些实施例的技术领域的技术人员将会想到此处阐明的本发明的其他实施例。
本发明可以通过在此描述的任意形式来实现。例如,下面的枚举示例实施例(EEE)描述了本发明的某些方面的某些结构、特征和功能。
EEE1.一种用于耳机虚拟化的方法,包括通过对音频信号和与该音频信号相关联的与头部相关的脉冲响应(HRIR)进行卷积,对所述音频信号应用耳机虚拟化。
EEE2.根据EEE1所述的方法,其中所述卷积在时域中执行。
EEE3.根据EEE1所述的方法,其中所述卷积在频域中执行。
EEE4.根据EEE3所述的方法,其中所述HRIR被集成到特定于所述音频信号的多个预定义频带而设计的预定义频带滤波器组中,并且其中所述卷积包括使用所述预定义频带滤波器组,在频域中对所述音频信号与所述HRIR进行卷积。
EEE5.根据EEE3所述的方法,还包括:在频域中至少部分地基于所述HRIR,修改用于所述音频信号的多个预定义频带的频带能量。
EEE6.根据EEE5所述的方法,其中所述修改包括:将每个所述频带的所述频带能量乘以与该频带相关联的HRIR和/或空间均衡化的增益。
EEE7.根据EEE1到6任一项所述的方法,还包括向所述音频信号应用空间均衡化和混响中的至少一个。
EEE8.根据EEE7所述的方法,其中所述空间均衡化由卷积应用,或者通过修改所述音频信号的多个预定义频带的频带增益而被直接应用。
EEE9.根据EEE1到8任一项所述的方法,其中所述音频信号基于所述音频信号的对称性而与所述HRIR进行卷积。
EEE10.根据EEE9所述的方法,其中所述卷积包括:根据声道的对称性来转换音频信号;根据声道的对称性来转换HRIR;以及对转换后的音频信号与转换后的HRIR进行卷积。
EEE11.一种系统,包括被配置为实现根据EEE1到10任一项所述的方法的单元。
将会理解,本法明的实施例不限于公开的特定实施例,并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语,但是它们仅在通用和描述的意义上使用,而并不用于限制目的。

Claims (35)

1.一种用于处理音频信号的方法,所述方法包括:
针对所述音频信号的当前帧,至少部分地基于所述当前帧的频率参数,确定多个预定义频带的频带能量;
通过处理所述频带能量,生成所述多个预定义频带的频带增益;以及
使用预定义的频带滤波器组,基于所述频带增益生成针对所述当前帧的频点增益,所述频带滤波器组特定于所述多个预定义频带。
2.根据权利要求1所述的方法,其中确定所述频带能量包括:
将所述当前帧从时域变换到频域,以获得多个频点;
将每个所述频带与至少一个所述频点相关联;以及
基于与相关联的所述至少一个频点对应的所述频率参数,确定针对每个所述频带的所述频带能量。
3.根据权利要求2所述的方法,其中变换所述当前帧包括向所述当前帧应用时域交叉渐变。
4.根据权利要求1到3任一项所述的方法,其中所述频带中的一个或多个频带的所述频带能量是基于所述当前帧和所述音频信号中的至少一个先前帧的各自的所述频率参数而被确定的。
5.根据权利要求4所述的方法,其中所述一个或多个频带包括所述多个预定义频带中的至少一个低频频带。
6.根据权利要求1到5任一项所述的方法,其中生成所述频带增益包括对所述频带能量应用以下至少一个处理:均衡器处理,调节器处理,以及峰值限制处理。
7.根据权利要求1到6任一项所述的方法,其中所述频带增益是通过根据用于回放所述音频信号的回放设备的参数来处理所述频带能量而被生成的。
8.根据权利要求1到7任一项所述的方法,还包括:
至少部分地基于针对所述当前帧的所述频点增益,生成针对所述当前帧的频域输出。
9.根据权利要求8所述的方法,其中针对所述当前帧的所述频域输出是基于针对所述当前帧和所述音频信号中的至少一个先前帧的各自的所述频点增益而被生成的。
10.根据权利要求8或9所述的方法,还包括:
向所述频域输出应用频域交叉渐变;
将所述频域输出变换到时域中,以生成针对所述当前帧的时域输出;
向生成的所述时域输出应用时域交叉渐变;以及
利用预定义的峰值阈值来限制所述时域输出。
11.根据权利要求1到10任一项所述的方法,还包括:
通过对所述音频信号和与所述音频信号相关联的与头部相关的脉冲响应HRIR进行卷积,向所述音频信号应用耳机虚拟化。
12.根据权利要求11所述的方法,其中所述卷积包括:
在时域中对所述音频信号与所述HRIR进行卷积。
13.根据权利要求11所述的方法,其中所述HRIR被集成到所述预定义的频带滤波器组中,并且其中所述卷积包括:
使用所述预定义的频带滤波器组,在频域中对所述音频信号与所述HRIR进行卷积。
14.根据权利要求13所述的方法,还包括:
至少部分地基于所述HRIR,修改确定的所述频带能量。
15.根据权利要求11到14任一项所述的方法,还包括:
向所述音频信号应用空间均衡化与混响中的至少一个。
16.根据权利要求11到15任一项所述的方法,其中所述音频信号基于所述音频信号的声道的对称性而与所述HRIR卷积。
17.根据权利要求16所述的方法,其中所述卷积包括:
根据所述声道的所述对称性来转换所述音频信号;
根据所述声道的所述对称性来转换所述HRIR;以及
对转换后的音频信号与转换后的HRIR进行卷积。
18.一种用于处理音频信号的系统,所述系统包括:
频带能量确定单元,被配置为针对所述音频信号的当前帧,至少部分地基于所述当前帧的频率参数,确定多个预定义频带的频带能量;
频带增益生成单元,被配置为通过处理所述频带能量,生成所述多个预定义频带的频带增益;以及
频点增益生成单元,被配置为使用预定义的频带滤波器组,基于所述频带增益生成针对所述当前帧的频点增益,所述频带滤波器组特定于所述多个预定义频带。
19.根据权利要求18所述的系统,还包括:
时频变换单元,被配置为将所述当前帧从时域变换到频域,以获得多个频点;以及
关联单元,被配置为将每个所述频带与至少一个所述频点相关联,
其中所述频带能量确定单元被配置为基于与相关联的所述至少一个频点对应的所述频率参数,确定针对每个所述频带的所述频带能量。
20.根据权利要求19所述的系统,还包括:
第一时域交叉渐变单元,被配置为向所述当前帧应用时域交叉渐变。
21.根据权利要求18到20任一项所述的系统,其中所述频带中的一个或多个频带的所述频带能量是基于所述当前帧和所述音频信号中的至少一个先前帧的各自的所述频率参数而被确定的。
22.根据权利要求21所述的系统,其中所述一个或多个频带包括所述多个预定义频带中的至少一个低频频带。
23.根据权利要求18到22任一项所述的系统,其中所述频带增益生成单元包括以下至少一个:均衡器,调节器,以及峰值限制器。
24.根据权利要求18到23任一项所述的系统,其中所述频带增益生成单元包括特定于设备的处理单元,其被配置为根据用于回放所述音频信号的回放设备的参数来处理所述频带能量,从而生成所述频带增益。
25.根据权利要求18到24任一项所述的系统,还包括:
频域输出生成单元,被配置为至少部分地基于针对所述当前帧的所述频点增益,生成针对所述当前帧的频域输出。
26.根据权利要求25所述的系统,其中所述频域输出生成单元包括:被配置为基于针对所述当前帧和所述音频信号中的至少一个先前帧的各自的所述频点增益来生成针对所述当前帧的所述频域输出的单元。
27.根据权利要求25或26所述的系统,还包括:
频域交叉渐变单元,被配置为向所述频域输出应用频域交叉渐变;
频时变换单元,被配置为将所述频域输出变换到时域中,以生成针对所述当前帧的时域输出;
第二时域交叉渐变单元,被配置为向生成的所述时域输出应用时域交叉渐变;以及
峰值限制单元,被配置为利用预定义的峰值阈值来限制所述时域输出。
28.根据权利要求18到27任一项所述的系统,还包括:
耳机虚拟化单元,被配置为通过对所述音频信号和与所述音频信号相关联的与头部相关的脉冲响应HRIR进行卷积,向所述音频信号应用耳机虚拟化。
29.根据权利要求28所述的系统,其中所述耳机虚拟化单元包括:
时域卷积单元,被配置为在时域中对所述音频信号与所述HRIR进行卷积。
30.根据权利要求28所述的系统,其中所述HRIR被集成到所述预定义的频带滤波器组中,并且其中所述耳机虚拟化单元包括:
频域卷积单元,被配置为使用所述预定义的频带滤波器组,在频域中对所述音频信号与所述HRIR进行卷积。
31.根据权利要求30所述的系统,还包括:
频带能量修改单元,被配置为至少部分地基于所述HRIR来修改确定的所述频带能量。
32.根据权利要求28到31任一项所述的系统,还包括以下至少一个:
空间均衡单元,被配置为向所述音频信号应用空间均衡化;以及
混响单元,被配置为向所述音频信号应用混响。
33.根据权利要求28到32任一项所述的系统,其中所述音频信号基于所述音频信号的声道的对称性而与所述HRIR卷积。
34.根据权利要求33所述的系统,其中所述耳机虚拟化单元包括:
音频信号转换单元,被配置为根据所述声道的所述对称性来转换所述音频信号;以及
HRIR转换单元,被配置为根据所述声道的所述对称性来转换所述HRIR,
其中所述耳机虚拟化单元被配置为对转换后的音频信号与转换后的HRIR进行卷积。
35.一种用于处理音频信号的计算机程序产品,所述计算机程序产品被有形地存储在非瞬态计算机可读介质上,并且包括机器可执行指令,所述指令在被执行时使得所述机器执行根据权利要求1到17任一项所述的方法的步骤。
CN201410185954.4A 2013-11-27 2014-04-28 音频信号处理 Pending CN104681034A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201410185954.4A CN104681034A (zh) 2013-11-27 2014-04-28 音频信号处理
PCT/US2014/067033 WO2015080994A1 (en) 2013-11-27 2014-11-24 Audio signal processing
EP14812092.6A EP3075072B1 (en) 2013-11-27 2014-11-24 Audio signal processing
US15/039,695 US10142763B2 (en) 2013-11-27 2014-11-24 Audio signal processing

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN2013106299756 2013-11-27
CN201310629975 2013-11-27
CN201410185954.4A CN104681034A (zh) 2013-11-27 2014-04-28 音频信号处理

Publications (1)

Publication Number Publication Date
CN104681034A true CN104681034A (zh) 2015-06-03

Family

ID=53315985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410185954.4A Pending CN104681034A (zh) 2013-11-27 2014-04-28 音频信号处理

Country Status (4)

Country Link
US (1) US10142763B2 (zh)
EP (1) EP3075072B1 (zh)
CN (1) CN104681034A (zh)
WO (1) WO2015080994A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328159A (zh) * 2016-09-12 2017-01-11 合网络技术(北京)有限公司 一种音频流的处理方法及装置
CN106358118A (zh) * 2016-09-14 2017-01-25 腾讯科技(深圳)有限公司 一种卷积音频生成方法及音频设备
CN106470379A (zh) * 2015-08-20 2017-03-01 三星电子株式会社 用于基于扬声器位置信息处理音频信号的方法和设备
WO2020073566A1 (zh) * 2018-10-12 2020-04-16 北京字节跳动网络技术有限公司 音频处理方法和装置
CN111567065A (zh) * 2018-01-09 2020-08-21 杜比实验室特许公司 降低不需要的声音传输
CN111627459A (zh) * 2019-09-19 2020-09-04 北京安声浩朗科技有限公司 音频处理方法及装置、计算机可读存储介质及电子设备
CN112289342A (zh) * 2016-09-06 2021-01-29 渊慧科技有限公司 使用神经网络生成音频
CN112384976A (zh) * 2018-07-12 2021-02-19 杜比国际公司 动态eq
WO2021136343A1 (zh) * 2019-12-31 2021-07-08 华为技术有限公司 音频信号的编解码方法和编解码装置
TWI743812B (zh) * 2017-11-29 2021-10-21 美商博姆雲360公司 用於處理一輸入音訊信號之系統、非暫時性電腦可讀媒體及處理一輸入音訊信號之方法
WO2022242479A1 (zh) * 2021-05-17 2022-11-24 华为技术有限公司 三维音频信号编码方法、装置和编码器
US11948066B2 (en) 2016-09-06 2024-04-02 Deepmind Technologies Limited Processing sequences using convolutional neural networks

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017124007A1 (en) * 2016-01-15 2017-07-20 Dolby Laboratories Licensing Corporation Audio signal processing with low latency
GB2563606A (en) 2017-06-20 2018-12-26 Nokia Technologies Oy Spatial audio processing
US10498375B1 (en) * 2018-07-11 2019-12-03 Rohde & Schwarz Gmbh & Co. Kg Portable RF receiver module and portable antenna arrangement
JP2021184509A (ja) * 2018-08-29 2021-12-02 ソニーグループ株式会社 信号処理装置、信号処理方法、及び、プログラム
CN111615046B (zh) * 2020-05-11 2021-08-24 腾讯音乐娱乐科技(深圳)有限公司 一种音频信号处理方法及装置、计算机可读存储介质
JP2022096287A (ja) * 2020-12-17 2022-06-29 フォルシアクラリオン・エレクトロニクス株式会社 フィルタ生成装置、及びフィルタ生成プログラム

Family Cites Families (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5511128A (en) * 1994-01-21 1996-04-23 Lindemann; Eric Dynamic intensity beamforming system for noise reduction in a binaural hearing aid
US7085393B1 (en) 1998-11-13 2006-08-01 Agere Systems Inc. Method and apparatus for regularizing measured HRTF for smooth 3D digital audio
KR100598003B1 (ko) 1998-03-25 2006-07-06 레이크 테크놀로지 리미티드 오디오 신호 처리 방법 및 장치
AUPP271198A0 (en) 1998-03-31 1998-04-23 Lake Dsp Pty Limited New variants on low-latency convolution - smooth updating of filter response using crossfades
US6990205B1 (en) 1998-05-20 2006-01-24 Agere Systems, Inc. Apparatus and method for producing virtual acoustic sound
US7099482B1 (en) 2001-03-09 2006-08-29 Creative Technology Ltd Method and apparatus for the simulation of complex audio environments
US7006636B2 (en) 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US7483540B2 (en) * 2002-03-25 2009-01-27 Bose Corporation Automatic audio system equalizing
CN1219415C (zh) 2002-07-23 2005-09-14 华南理工大学 一种5.1通路环绕声的耳机重发的信号处理方法
US7330812B2 (en) * 2002-10-04 2008-02-12 National Research Council Of Canada Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel
CA2454296A1 (en) 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
JP4546151B2 (ja) * 2004-05-26 2010-09-15 株式会社日立製作所 音声コミュニケーション・システム
JP2006025281A (ja) * 2004-07-09 2006-01-26 Hitachi Ltd 情報源選択システム、および方法
GB0419346D0 (en) 2004-09-01 2004-09-29 Smyth Stephen M F Method and apparatus for improved headphone virtualisation
US7835535B1 (en) * 2005-02-28 2010-11-16 Texas Instruments Incorporated Virtualizer with cross-talk cancellation and reverb
US7345600B1 (en) 2005-03-09 2008-03-18 Texas Instruments Incorporated Asynchronous sampling rate converter
TWI397903B (zh) * 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
EP1886536A1 (de) 2005-05-01 2008-02-13 Anocsys AG Verfahren zur kompensation von änderungen reproduzierter audiosignale und eine vorrichtung
RU2008132156A (ru) * 2006-01-05 2010-02-10 Телефонактиеболагет ЛМ Эрикссон (пабл) (SE) Персонализированное декодирование многоканального объемного звука
WO2007080211A1 (en) 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
JP4801174B2 (ja) 2006-01-19 2011-10-26 エルジー エレクトロニクス インコーポレイティド メディア信号の処理方法及び装置
JP2009530916A (ja) 2006-03-15 2009-08-27 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション サブフィルタを用いたバイノーラル表現
RU2407226C2 (ru) 2006-03-24 2010-12-20 Долби Свидн Аб Генерация пространственных сигналов понижающего микширования из параметрических представлений мультиканальных сигналов
FR2899423A1 (fr) 2006-03-28 2007-10-05 France Telecom Procede et dispositif de spatialisation sonore binaurale efficace dans le domaine transforme.
FR2899424A1 (fr) * 2006-03-28 2007-10-05 France Telecom Procede de synthese binaurale prenant en compte un effet de salle
BRPI0709877B1 (pt) * 2006-04-04 2019-12-31 Dolby Laboratories Licensing Corp método e aparelho para controlar uma característica de intensidade acústica particular de um sinal de áudio
TWI517562B (zh) * 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
CN101410892B (zh) * 2006-04-04 2012-08-08 杜比实验室特许公司 改进的离散余弦变换域中的音频信号响度测量及修改
US7756281B2 (en) * 2006-05-20 2010-07-13 Personics Holdings Inc. Method of modifying audio content
CA2672165C (en) 2006-12-12 2014-07-29 Ralf Geiger Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
EP2119306A4 (en) * 2007-03-01 2012-04-25 Jerry Mahabub SOUND SPECIALIZATION AND ENVIRONMENT SIMULATION
US8077880B2 (en) * 2007-05-11 2011-12-13 Audyssey Laboratories, Inc. Combined multirate-based and fir-based filtering technique for room acoustic equalization
ATE521064T1 (de) * 2007-10-08 2011-09-15 Harman Becker Automotive Sys Verstärkung und spektralformenanpassung bei der verarbeitung von audiosignalen
US8611554B2 (en) * 2008-04-22 2013-12-17 Bose Corporation Hearing assistance apparatus
US20110109798A1 (en) * 2008-07-09 2011-05-12 Mcreynolds Alan R Method and system for simultaneous rendering of multiple multi-media presentations
US8457975B2 (en) 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
US8477970B2 (en) 2009-04-14 2013-07-02 Strubwerks Llc Systems, methods, and apparatus for controlling sounds in a three-dimensional listening environment
US20110026745A1 (en) * 2009-07-31 2011-02-03 Amir Said Distributed signal processing of immersive three-dimensional sound for audio conferences
WO2011029984A1 (en) * 2009-09-11 2011-03-17 Nokia Corporation Method, apparatus and computer program product for audio coding
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
KR20140010468A (ko) * 2009-10-05 2014-01-24 하만인터내셔날인더스트리스인코포레이티드 오디오 신호의 공간 추출 시스템
EP2489206A1 (fr) 2009-10-12 2012-08-22 France Telecom Traitement de donnees sonores encodees dans un domaine de sous-bandes
ES2888804T3 (es) * 2009-10-15 2022-01-07 Voiceage Corp Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC
BR122020024236B1 (pt) 2009-10-20 2021-09-14 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E. V. Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio, método para prover uma representação decodificada de um conteúdo de áudio e programa de computador para uso em aplicações de baixo retardamento
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
PL2545553T3 (pl) * 2010-03-09 2015-01-30 Fraunhofer Ges Forschung Urządzenie i sposób do przetwarzania sygnału audio z użyciem zrównania granicy obszaru
US8903109B2 (en) * 2010-06-23 2014-12-02 Stmicroelectronics, Inc. Frequency domain multiband dynamics compressor with automatically adjusting frequency band boundary locations
US8634578B2 (en) * 2010-06-23 2014-01-21 Stmicroelectronics, Inc. Multiband dynamics compressor with spectral balance compensation
EP2405670B1 (en) * 2010-07-08 2012-09-12 Harman Becker Automotive Systems GmbH Vehicle audio system with headrest incorporated loudspeakers
US9172345B2 (en) * 2010-07-27 2015-10-27 Bitwave Pte Ltd Personalized adjustment of an audio device
WO2012050705A1 (en) 2010-10-14 2012-04-19 Dolby Laboratories Licensing Corporation Automatic equalization using adaptive frequency-domain filtering and dynamic fast convolution
US9100734B2 (en) * 2010-10-22 2015-08-04 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
ES2966665T3 (es) * 2010-11-22 2024-04-23 Ntt Docomo Inc Dispositivo y método de codificación de audio
WO2012109384A1 (en) 2011-02-10 2012-08-16 Dolby Laboratories Licensing Corporation Combined suppression of noise and out - of - location signals
US9589580B2 (en) * 2011-03-14 2017-03-07 Cochlear Limited Sound processing based on a confidence measure
US9357282B2 (en) * 2011-03-31 2016-05-31 Nanyang Technological University Listening device and accompanying signal processing method
US9031268B2 (en) * 2011-05-09 2015-05-12 Dts, Inc. Room characterization and correction for multi-channel audio
DK2563044T3 (da) * 2011-08-23 2014-11-03 Oticon As En fremgangsmåde, en lytteanordning og et lyttesystem for at maksimere en bedre øreeffekt
DK2563045T3 (da) * 2011-08-23 2014-10-27 Oticon As Fremgangsmåde og et binauralt lyttesystem for at maksimere en bedre øreeffekt
US9131305B2 (en) * 2012-01-17 2015-09-08 LI Creative Technologies, Inc. Configurable three-dimensional sound system
US9173025B2 (en) * 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US20130259254A1 (en) * 2012-03-28 2013-10-03 Qualcomm Incorporated Systems, methods, and apparatus for producing a directional sound field
US10448161B2 (en) * 2012-04-02 2019-10-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for gestural manipulation of a sound field
US20140006017A1 (en) * 2012-06-29 2014-01-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for generating obfuscated speech signal
US9305559B2 (en) * 2012-10-15 2016-04-05 Digimarc Corporation Audio watermark encoding with reversing polarity and pairwise embedding
EP2733964A1 (en) * 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Segment-wise adjustment of spatial audio signal to different playback loudspeaker setup
EP2923502A4 (en) * 2012-11-20 2016-06-15 Nokia Technologies Oy DEVICE FOR ROOM ENHANCEMENT
EP2946572B1 (en) * 2013-01-17 2018-09-05 Koninklijke Philips N.V. Binaural audio processing
US9318092B2 (en) * 2013-01-29 2016-04-19 2236008 Ontario Inc. Noise estimation control system
US9515629B2 (en) * 2013-05-16 2016-12-06 Apple Inc. Adaptive audio equalization for personal listening devices
US9426589B2 (en) * 2013-07-04 2016-08-23 Gn Resound A/S Determination of individual HRTFs
US20150066175A1 (en) * 2013-08-29 2015-03-05 Avid Technology, Inc. Audio processing in multiple latency domains
JP6121052B2 (ja) * 2013-09-17 2017-04-26 ウィルス インスティテュート オブ スタンダーズ アンド テクノロジー インコーポレイティド マルチメディア信号処理方法および装置
WO2015048551A2 (en) * 2013-09-27 2015-04-02 Sony Computer Entertainment Inc. Method of improving externalization of virtual surround sound
EP4246513A3 (en) * 2013-12-23 2023-12-13 Wilus Institute of Standards and Technology Inc. Audio signal processing method and parameterization device for same
CN108600935B (zh) * 2014-03-19 2020-11-03 韦勒斯标准与技术协会公司 音频信号处理方法和设备
WO2015152663A2 (ko) * 2014-04-02 2015-10-08 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
KR101627652B1 (ko) * 2015-01-30 2016-06-07 가우디오디오랩 주식회사 바이노럴 렌더링을 위한 오디오 신호 처리 장치 및 방법
CN104853283A (zh) * 2015-04-24 2015-08-19 华为技术有限公司 一种音频信号处理的方法和装置

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106470379B (zh) * 2015-08-20 2020-10-30 三星电子株式会社 用于基于扬声器位置信息处理音频信号的方法和设备
KR102423753B1 (ko) * 2015-08-20 2022-07-21 삼성전자주식회사 스피커 위치 정보에 기초하여, 오디오 신호를 처리하는 방법 및 장치
CN106470379A (zh) * 2015-08-20 2017-03-01 三星电子株式会社 用于基于扬声器位置信息处理音频信号的方法和设备
KR20170022415A (ko) * 2015-08-20 2017-03-02 삼성전자주식회사 스피커 위치 정보에 기초하여, 오디오 신호를 처리하는 방법 및 장치
US10524077B2 (en) 2015-08-20 2019-12-31 Samsung Electronics Co., Ltd. Method and apparatus for processing audio signal based on speaker location information
CN112289342A (zh) * 2016-09-06 2021-01-29 渊慧科技有限公司 使用神经网络生成音频
US11948066B2 (en) 2016-09-06 2024-04-02 Deepmind Technologies Limited Processing sequences using convolutional neural networks
CN112289342B (zh) * 2016-09-06 2024-03-19 渊慧科技有限公司 使用神经网络生成音频
CN106328159A (zh) * 2016-09-12 2017-01-11 合网络技术(北京)有限公司 一种音频流的处理方法及装置
CN106328159B (zh) * 2016-09-12 2021-07-09 优酷网络技术(北京)有限公司 一种音频流的处理方法及装置
CN106358118B (zh) * 2016-09-14 2020-05-05 腾讯科技(深圳)有限公司 一种卷积音频生成方法及音频设备
CN106358118A (zh) * 2016-09-14 2017-01-25 腾讯科技(深圳)有限公司 一种卷积音频生成方法及音频设备
TWI743812B (zh) * 2017-11-29 2021-10-21 美商博姆雲360公司 用於處理一輸入音訊信號之系統、非暫時性電腦可讀媒體及處理一輸入音訊信號之方法
US11463832B2 (en) 2018-01-09 2022-10-04 Dolby Laboratories Licensing Corporation Reducing unwanted sound transmission
CN111567065A (zh) * 2018-01-09 2020-08-21 杜比实验室特许公司 降低不需要的声音传输
CN112384976A (zh) * 2018-07-12 2021-02-19 杜比国际公司 动态eq
WO2020073566A1 (zh) * 2018-10-12 2020-04-16 北京字节跳动网络技术有限公司 音频处理方法和装置
CN111627459B (zh) * 2019-09-19 2023-07-18 北京安声浩朗科技有限公司 音频处理方法及装置、计算机可读存储介质及电子设备
CN111627459A (zh) * 2019-09-19 2020-09-04 北京安声浩朗科技有限公司 音频处理方法及装置、计算机可读存储介质及电子设备
WO2021136343A1 (zh) * 2019-12-31 2021-07-08 华为技术有限公司 音频信号的编解码方法和编解码装置
WO2022242479A1 (zh) * 2021-05-17 2022-11-24 华为技术有限公司 三维音频信号编码方法、装置和编码器

Also Published As

Publication number Publication date
EP3075072A1 (en) 2016-10-05
EP3075072B1 (en) 2018-01-10
US10142763B2 (en) 2018-11-27
US20170026771A1 (en) 2017-01-26
WO2015080994A1 (en) 2015-06-04

Similar Documents

Publication Publication Date Title
CN104681034A (zh) 音频信号处理
US10469978B2 (en) Audio signal processing method and device
US10971163B2 (en) Reconstruction of audio scenes from a downmix
Cecchi et al. Room response equalization—A review
CN106658343B (zh) 用于渲染音频声场表示以供音频回放的方法和设备
US20170111737A1 (en) Processing Audio Signals
CN103262164B (zh) 叉积增强的基于子带块的谐波换位
US9728194B2 (en) Audio processing
RU2014110030A (ru) Матрица оптимального микширования и использование декорреляторов при обработке пространственного звука
CN103875197B (zh) 一种用于对具有多个声道的输入信号进行直接-发散分解的方法和装置
CN105518775A (zh) 使用自适应相位校准的多声道降混的梳型滤波器的伪迹消除
CN103811023A (zh) 音频处理装置以及音频处理方法
US9966081B2 (en) Method and apparatus for synthesizing separated sound source
EP3123746B1 (en) Method and device for applying dynamic range compression to a higher order ambisonics signal
JP5454330B2 (ja) 音響処理装置
Cecchi et al. A multichannel and multiple position adaptive room response equalizer in warped domain: Real-time implementation and performance evaluation
Poletti et al. A superfast Toeplitz matrix inversion method for single-and multi-channel inverse filters and its application to room equalization
US9928842B1 (en) Ambience extraction from stereo signals based on least-squares approach
Gaultier et al. Cascade: Channel-aware structured cosparse audio declipper
Okamoto et al. Wide-band dereverberation method based on multichannel linear prediction using prewhitening filter
KR20220044566A (ko) 심리음향적 주파수 범위 확장을 위한 비선형 적응성 필터뱅크
CN106549652A (zh) 时域滤波中的滤波器系数更新
Bank Warped, kautz, and fixed-pole parallel filters: A review
Diel et al. Efficient FPGA implementation for sound source separation using direction-informed multichannel non-negative matrix factorization
CN114287137A (zh) 基于高斯分布和k最近邻算法的房间校准

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150603