CN105519139B - 音频信号处理方法、信号处理单元、双耳渲染器、音频编码器和音频解码器 - Google Patents

音频信号处理方法、信号处理单元、双耳渲染器、音频编码器和音频解码器 Download PDF

Info

Publication number
CN105519139B
CN105519139B CN201480041811.4A CN201480041811A CN105519139B CN 105519139 B CN105519139 B CN 105519139B CN 201480041811 A CN201480041811 A CN 201480041811A CN 105519139 B CN105519139 B CN 105519139B
Authority
CN
China
Prior art keywords
signal
mrow
msub
audio
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480041811.4A
Other languages
English (en)
Other versions
CN105519139A (zh
Inventor
西蒙·法格
简·普洛格施蒂斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN105519139A publication Critical patent/CN105519139A/zh
Application granted granted Critical
Publication of CN105519139B publication Critical patent/CN105519139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • G10K15/12Arrangements for producing a reverberation or echo sound using electronic time-delay networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

描述一种根据房间脉冲响应处理音频信号(504)的方法。利用房间脉冲响应的早期部分以及房间脉冲响应的晚期混响分别对音频信号(504)进行处理(502),其中晚期混响的处理(514)包含产生缩放混响信号,缩放(526)取决于音频信号(504)。音频信号(504)的经处理的早期部分(506)与缩放混响信号相组合。

Description

音频信号处理方法、信号处理单元、双耳渲染器、音频编码器 和音频解码器
技术领域
本发明涉及音频编码/解码领域,特别地,涉及空间音频编码以及空间音频对象编码,例如3D音频编解码器系统的领域。本发明的实施例涉及一种根据房间脉冲响应处理音频信号的方法、信号处理单元、双耳渲染器、音频编码器以及音频解码器。
背景技术
空间音频编码工具是本领域中所熟知且标准化的,例如,以MPEG环绕声标准。空间音频编码从多个原始输入声道开始,例如在再现设置中依照其位置而识别的五个或七个输入声道,即左声道、中间声道、右声道、左环绕声道、右环绕声道以及低频增强声道。空间音频编码器可以从原始声道衍生一个或多个降混声道,以及另外衍生出关于空间提示的参数数据,例如在声道相干数值中的声道间水平差异、声道间相位差异、声道间时间差异等等。一个或多个降混声道与指示空间提示的参数化辅助信息一起传输到空间音频解码器,用于解码降混声道以及相关联的参数化数据,以最终获得与原始输入声道为近似版本的输出声道。在输出端设置中的声道的位置通常为固定的,例如,5.1声道格式或7.1声道格式等等。
此外,空间音频对象编码工具是本领域中所熟知且标准化的,例如,以MPEG SAOG标准(SAOG=空间音频对象编码)。相比于空间音频编码从原始声道开始,空间音频对象编码从非自动专用于特定渲染再现设置的音频对象开始。另外,音频对象在再现场景中的位置是可变化,且可由使用者例如通过将特定的渲染信息输入至空间音频对象编码解码器来设定。可选地或额外地,渲染信息可以被传输作为额外的辅助信息或元数据;渲染信息可以包括特定音频对象在再现设置中待放置(例如经过一段时间)的位置的信息。为了获得特定的数据压缩,很多音频对象使用SAOC编码器来编码,SAOC编码器根据特定的降混信息来降混对象以从输入对象中计算一个或多个运输声道。此外,SAOC编码器计算参数化辅助信息,参数化辅助信息代表对象间提示,例如对象水平差异(OLD)、对象相干数值等等。当在空间音频编码(SAC)中,对象间参数化数据是针对个别时间/频率片(time/frequency tiles)来计算。针对音频信号的特定帧(例如,1024或是2048个取样值),考虑多个频带(例如,24、32或是64个频带)使得对于每帧以及每个频带均提供参数化数据。例如,当音频片具有20个帧且当每一帧细分成32个频带时,则时间/频率片的数量为640。
在3D音频系统中,可以期望提供音频信号的空间效果,即彷佛该频信号是在特定的房间聆听到的。在这种情况下,提供特定房间的房间脉冲响应,例如基于房间脉冲响应的测量提供特定房间的房间脉冲响应,特定房间的房间脉冲响用于在呈现给聆听者的时候处理音频信号。可期望地,处理直接音效以及在此呈现中与晚期混响相分离的早期反射。
发明内容
本发明的目的是提供一种被认可的方法,用于利用房间脉冲响应的早期部分以及晚期混响分别对音频信号进行处理,以允许达到感知上的结果,尽可能地与具有完整脉冲响应的音频信号的卷积的结果相同。
该目的通过如权利要求1所述的方法、如权利要求19项所述的信号处理单元、如权利要求23所述的双耳渲染器、如权利要求24所述的音频编码器以及如权利要求25所述的音频解码器来实现。
本发明是基于发明人的如下发现,在传统方法中存在这样的问题,当根据房间脉冲响应处理音频信号时,分别关于早期部分以及混响处理音频信号的结果偏离当施加具有完整脉冲响应的卷积时的结果。本发明进一步基于发明人的如下发现,混响的适当水平取决于输入音频信号以及脉冲响应两者,因为,例如当使用合成混响方法时,在混响上的输入音频信号的作用不会完全保留下来。脉冲响应的作用可看作为通过使用已知的混响特性来作为输入参数。输入信号的作用可看作用于调整混响水平的基于信号的缩放,此混响水平基于输入音频信号而确定。已发现通过该方法,当对双耳渲染使用全卷积方法时,混响的感知水平更好地匹配混响水平。
(1)本发明提供一种根据房间脉冲响应处理音频信号的方法,该方法包括:利用房间脉冲响应的早期部分以及晚期混响分别对音频信号进行处理,其中处理晚期混响包括产生缩放混响信号,缩放比例取决于音频信号;以及将利用房间脉冲响应的早期部分进行处理的音频信号与缩放混响信号进行组合。
当与上述传统方法相比较时,本发明的方法的优势在于,不须计算全卷积结果或不须施加广泛的或不精确的聆听模式即允许缩放晚期混响。本发明实施例提供一种简单的方法缩放人工晚期混响使得其听起来像以全卷积方法实现的混响。缩放比例基于输入信号,而不需要额外的聆听模式或目标混响响度。缩放因子可以在时间频率域中导出,这是具有优势的,因为在编码器/解码器链中的音频材料在该域中也常常是可获得的。
(2)根据实施例,缩放比例可取决于音频信号的一个或多个输入声道的条件(例如输入声道的数量、活动输入声道的数量及/或在输入声道内的活动)。
这是具有优势的,因为缩放比例可从具有降低的计算成本的输入音频信号中容易地确定。例如,当相较于原始的音频信号时,缩放比例可通过简单地确定在原始的音频信号中的声道的数量来确定,此原始的音频信号被降混至当前所考虑的包含降低的数量的声道的降混声道。可选地,降混至当前考虑的降混声道的活动声道(在当前音频帧中显示某活动的声道)的数量可形成用于缩放混响信号的基础。
(3)根据实施例,缩放比例(除了输入声道条件之外)取决于音频信号的预定义或计算得到的相关性测量。
使用预定义的相关性测量是具有优势的,因为它减少处理过程中的计算复杂度。预定义的相关性测量可具有固定值,例如在0.1到0.9的范围,它可以基于对多个音频信号的分析来凭经验确定。另一方面,计算相关性测量是具有优势的,尽管需要额外的计算资源,在此情况中,期望分别地针对当前经处理的音频信号获得更精确的测量。
(4)根据实施例,产生缩放混响信号包括施加增益因子,其中增益因子基于音频信号的一个或多个输入声道的条件及/或基于音频信号的预定义或计算得到的相关性测量而确定,其中可在处理音频信号的晚期混响之前、过程中或之后施加增益因子。
这是具有优势的,因为增益因子能基于上述参数容易地计算出,并可关于基于具体实施方式的处理链中的混响器灵活地运用。
(5)根据实施例,增益因子根据下式确定:
g=cu+ρ·(cc-cu)
其中,
ρ=音频信号的预定义或计算得到的相关性测量,
cu,cc=指示音频信号的一个或多个输入声道的条件的因子,其中cu涉及完全非相关声道,cc关于完全相关声道。
这是具有优势的,因为随着时间改变的多个因子比例系具有在音频信号内的一定数量的活动声道。
(6)根据实施例,cu以及cc根据下式确定:
其中,
kin=活动或固定降混声道的数量。
这是具有优势的,因为因子直接地取决于音频信号内的活动声道的数量。如果没有声道是活动的,混响接着缩放为零,如果多个声道系为活动的,则混响的振福会增大。
(7)根据实施例,增益因子在多个音频帧上被低通滤波,其中根据下式对增益因子进行低通滤波:
gs(ti)=cs,old·gs(ti-1)+cs,new·g
cs,new=1-cs,old
其中,
ts=低通滤波器的时间常数
ti=在帧ti处的音频帧
gs=平滑增益因子
k=帧大小,以及
fs=取样频率。
这是具有优势的,因为缩放因子不会随时间发生突变。
(8)根据实施例,产生缩放混响信号包括音频信号的相关性分析,其中音频信号的相关性分析可以包括确定音频信号的音频帧的组合相关性测量,其中组合相关性测量是通过针对一个音频帧的多个声道组合组合相关性系数而计算得到的,每个音频帧包括一个或多个时隙,其中组合相关性系数可以包括取音频帧的多个相关性系数的平均值。
这是具有优势的,因为相关性可通过描述音频帧的整体相关性的单个值来进行说明。在此不需处理多个频率相关值。
(9)根据实施例,确定组合相关性测量可以包括:(i)针对一个音频帧的每个声道计算整体平均值,(ii)通过从相应的声道中减去平均值以计算出零平均音频帧,(iii)针对多个声道组合计算相关性系数,以及(iv)计算组合相关性测量,作为多个相关性系数的平均值。
这是具有优势的,因为,如上所述,对每个帧仅计算一个整体相关性值(容易处理),并且能类似于“标准”皮尔逊相关系数进行计算,其中皮尔逊相关系数也使用零平均信号以及其标准偏差。
(10)根据实施例,针对声道组合的相关性系数根据下式确定:
其中,
ρ[m,n]=相关性系数,
σ(xm[j])=横跨声道m的一个时隙j的标准偏差,
0(xn[j])=横跨声道n的一个时隙j的标准偏差,
xm,xn=零平均变量值,
*=共轭复数。
这是具有优势的,因为可使用皮尔逊相关系数的公知公式,并可将其转换成与频率以及时间相关的公式。
(11)根据实施例,处理音频信号的晚期混响之步骤包含降混音频信号以及将降混音频信号施加到一混响器。
这是具有优势的,因为例如处理混响器需要处理更少的声道,并且可直接地控制降混处理过程。
(12)本发明提供一种信号处理单元,包括输入端、早期部分处理器以及晚期混响处理器,其中输入端用于接收音频信号,早期部分处理器根据房间脉冲响应的早期部分处理接收的音频信号,晚期混响处理器根据房间脉冲响应的晚期混响处理该接收的音频信号,晚期混响处理器配置或编程用于产生取决于所接收的音频信号的缩放混响信号,输出端用于将利用房间脉冲响应的早期部分进行处理的音频信号和缩放混响信号组合为输出音频信号。
(13)根据实施例,晚期混响处理器包括接收音频信号以及产生混响信号的混响器,根据音频信号产生增益因子的相关性分析器,以及耦接至混响器的输入端或输出端并由相关性分析器提供的增益因子进行控制的增益级。
(14)根据实施例,信号处理单元进一步包括低通滤波器以及延迟元件中的至少一种,其中低通滤波器耦接于相关性分析器以及增益级之间,延迟元件耦接于增益级以及加法器之间,加法器进一步耦接至早期部分处理器以及输出端。
(15)本发明提供一种双耳渲染器,其包含本发明的信号处理单元。
(16)本发明提供一种用于编码音频信号的音频编码器,其包含本发明的信号处理单元或本发明的双耳渲染器,用于在编码之前处理音频信号。
(17)本发明提供一种用于对编码的音频信号进行解码的音频解码器,其包含本发明的信号处理单元或本发明的双耳渲染器,用于处理解码的音频信号。
附图说明
本发明实施例将关于附图进行描述,其中:
图1示出3D音频系统的3D音频编码器的整体图;
图2示出3D音频系统的3D音频编码器的整体图;
图3示出执行格式转换器的示例,该格式转换器可以在图2的3D音频解码器中执行;
图4示出双耳渲染器的示例,该双耳渲染器可在图2的3D音频解码器中执行;
图5示出房间脉冲响应h(t)的示例;
图6示出利用房间脉冲响应处理音频输入信号的不同的可能性,其中图6(a)示出根据房间脉冲响应处理完整的音频信号,以及图6(b)图示出早期部分以及晚期混响部分的分开处理;
图7示出根据本发明的教导进行操作的如同双耳渲染器的信号处理单元的框图;
图8示意性地示出根据本发明实施例在双耳渲染器中的音频信号的双耳处理;
图9示意性地示出根据本发明实施例的图8的双耳渲染器的频率域混响器中的处理。
具体实施方式
本发明方法的实施例将在此进行描述。下列描述将从3D音频编解码器系统的系统整体图开始,其中本发明方法可以在3D音频编解码器系统中执行。
图1以及图2示出根据实施例的3D音频系统的算法框图。更具体地说,图1示出3D音频编码器100的整体图。音频编码器100在预渲染器/混合器电路102(可选择地提供的)处接收输入信号,更具体地说,多个输入声道将多个声道信号104、多个对象信号106以及相应的对象元数据108提供到音频编码器100。预渲染器/混合器102(请见信号110)所处理的对象信号106可提供到SAOC(空间音频对象编码)编码器112。SAOC编码器112产生提供到USAC(统一语音和音频编码)编码器116的SAOC运输声道114。此外,信号SAOC-SI(SAOC辅助信息)118也提供到USAC编码器116。USAC编码器116进一步直接从预渲染/混合器、多个声道信号以及多个预渲染对象信号122接收对象信号120。对象元数据信息108施加到OAM(对象元数据)编码器124,此OAM编码器124将经压缩的对象元数据信息126提供到USAC编码器。USAC编码器116基于上述的输入信号产生压缩输出信号mp4,如图中128所示。
图2示出3D音频系统的3D音频解码器200的整体图。图1的音频编码器100所产生的编码信号128(mp4)在音频解码器200处被接收,更具体地说,在USAC解码器202处被接收。USAC解码器202将接收的信号128解码成声道信号204、预渲染对象信号206、对象信号208以及SAOC运输声道信号210。更进一步,压缩对象元数据信息212以及信号SAOC-SI214通过USAC解码器202输出。对象信号208被提供到输出预渲染对象信号218的对象渲染器216。SAOC运输声道信号210被提供到输出多个预渲染对象信号222的SAOC解码器220。压缩对象元信息212被提供到OAM解码器224,OAM解码器224将各个控制信号输出到对象渲染器216以及SAOC解码器220,以产生预渲染对象信号218以及预渲染对象信号222。解码器进一步包含混合器226,如图2所述,混合器226接收用于输出声道信号228的输入信号204、206、218以及222。声道信号可直接地输出到扬声器,例如以230标示的32声道扬声器。信号228可提供到格式转换电路232,格式转换电路232接收作为控制输入的再现布局信号,此再现布局信号指示声道信号228的转换方法。在图2描述的实施例中,假设可以做这样的转换,使得信号提供到以234标示的5.1扬声器系统。此外,声道信号228可提供到产生两个输出信号的双耳渲染器236,例如以238标示的耳机。
在本发明的实施例中,图1以及图2中所描述的编码/解码系统基于MPEG-DUSAC编解码器用于声道以及对象信号的编码。为了提高对多个对象进行编码的效率,可使用MPEGSAOC技术。三种渲染器可执行将对象渲染到声道、将声道渲染到耳机或将声道渲染到不同的扬声器设置(见图2的参考符号230、234以及238)的任务。当明确地传输对象信号或使用SAOC进行参数化编码时,相应的对象元数据信息108(参见信号126)被压缩,并被多路传输到3D音频数据流128。
图1以及图2示出的整体3D音频系统的算法框图将更进一步详细描述如下。
可选择性地提供预渲染器/混合器102,以在编码之前将加入对象输入场景的声道转换成声道场景。功能上,其相当于下述的对象渲染器/混合器。对象的预渲染可期望用于确保在编码器输入端处的决定性信号熵,决定性信号熵基本上取决于同步活动对象信号的数量。利用预渲染对象,则不需要对象元数据传输。离散对象信号被渲染到编码器所使用的声道布局。针对每一声道的对象的权重系从相关联的对象元数据(OAM)中获得。
USAC编码器116为针对扬声器声道信号、离散对象信号、对象降混信号以及预渲染信号的核心编解码器。其基于MPEG-D USAC技术。通过基于输入声道以及对象分配的几何以及语义信息,建立声道对象映射信息以进行上述信号的编码。映射信息描述输入声道以及对象如何映射到USAC-channel元件,如双耳元件(CPE)、单声道元件(SCE)、低频效果声道(LFE)以及四声道元件(QCE),以及CPE、SCE和LFE,以及相应的信息如何传输到解码器。在编码器的速率控制上将考虑全部额外的有效载荷如SAOC数据114,118或对象元数据126。取决于渲染器的速率/失真要求以及交互作用的要求,对象编码可能使用不同的方法。根据实施例,下列对象编码变形是可能的:
●预渲染对象:在编码之前,将对象信号预渲染以及混合到22.2声道信号。随后的编码链参见22.2声道信号。
●离散对象波形:对象作为单声道波形而提供到编码器。编码器使用单声道元件(SCE)以除了声道信号之外还传输多个对象。在接收器侧上,将解码对象信号进行渲染以及混合。压缩对象元数据信息被传输到接收器/渲染器。
●参数化对象波形:对象属性以及它们彼此之间的关系通过SAOC参数的平均值来描述。对象信号的降混利用USAC进行编码。参数化信息沿着侧边进行传输。降混声道的数量的根据对象的数量以及整体数据速率来选择。压缩对象元数据信息传输到SAOC渲染器。
对象信号的SAOC编码器112以及SAOC解码器220可基于MPEG SAOC技术。系统能够基于少量的传输声道以及额外的参数化数据(例如OLD、IOC(内部对象相关性)、DMG(降混增益))来重建、修正以及渲染多个音频对象。相较于分别传输所有对象以使编码非常有效率所要求的数据率,额外的参数化数据表现出明显较小的数据率。SAOC编码器112取作为单声道波形的对象/声道信号作为输入,并输出参数化信息(其被包装成3D音频比特数据流128)以及SAOC运输声道(使用单声道元件对其进行编码及传输)。SAOC解码器220从解码的SAOC运输声道210以及参数化信息214中重建对象/声道信号,并基于再现布局、解压缩对象元数据信息以及可选的基于用户交互信息来产生输出音频场景。
提供对象元数据编解码器(见OAM编码器124以及OAM解码器224),使得针对每一对象,指定几何位置的相关联的元数据以及在3D空间内的对象的音量是通过在时间以及空间上的对象属性的量化以进行有效率地编码。压缩对象元数据cOAM 126传输到接收器200以作为辅助信息。
对象渲染器216根据给定的再现格式利用压缩对象元数据以产生对象波形。每一对象根据其元数据渲染到特定的输出声道。该框的输出产生于部分结果的和。如果基于声道的内容以及离散/参数化对象均被解码,在输出所产生的波形228之前或在将它们反馈至后处理器模块(如双耳渲染器236或扬声器渲染器模块232)之前,基于声道的波形以及渲染对象波形通过混合器226进行混合。
双耳渲染器模块236产生多声道音频材料的双耳降混,使得每一输入声道通过虚拟音源来表示。在正交镜像滤波器组(Quadrature Mirror Filterbank,QMF)域中逐帧进行处理,双耳是基于所测量的双耳房间脉冲响应。
扬声器渲染器232在传输声道配置228以及所期望的再现格式之间进行转换。其也可被称为“格式转换器”。格式转换器执行转换以降低输出声道的数量,亦即产生降混。
图3示出执行格式转换器232的示例。格式转换器232也被称为扬声器渲染器,其在传输器声道配置以及所期望的再现格式之间进行转换。格式转换器232执行转换以到达较低的输出声道的数量,亦即进行降混(DMX)过程240。优选地操作于QMF域的降混器240,接收混合器输出信号228,并输出扬声器信号234。配置器242也被称为控制器,可以提供配置器242,配置器242可接收指示混合器输出布局(亦即确定混合器输出信号228所表示的数据的布局)的信号246,以及指示所期望的再现布局的信号248,以作为控制输入。基于此信息,优选地,控制器242针对输入以及输出格式的给定组合自动产生优化降混矩阵,并将这些矩阵施加到降混器240。格式转换器允许232标准扬声器配置以及具有非标准扬声器位置的随机配置。
图4示出图2的双耳渲染器236的实施例。双耳渲染器模块可提供多声道音频材料的双耳降混。双耳可以基于测量的双耳房间脉冲响应。房间脉冲响应可以考虑真实房间的声学特性的“指纹”。测量以及储存房间脉冲响应,任何声学信号可被提供该“指纹”,从而允许在聆听者处与房间脉冲响应相关联的房间声学特性的模拟。双耳渲染器236可配置或编程用于使用头部相关转换函数或双耳房间脉冲响应(BRIRs),将输出声道渲染成两个双耳声道。例如,针对移动装置,双耳渲染可期望用于附接至这种移动装置的耳机或扬声器。在这种移动装置中,由于约束性,可能有必要限制解码器以及渲染复杂度。在这种处理场景中除了省略去相关性,优选地,首先,使用降混器250对中间降混信号252执行降混,亦即对较少的输出声道执行降混,以对实际双耳转换器254产生较少的输入声道。例如,22.2声道材料可通过降混器250降混到5.1中间降混,或者替换地,中间降混可直接地通过在“快捷(shortcut)”模式下的图2中的SAOC解码器220进行计算。双耳渲染接着仅施加10个HRTFs(头部相关转换函数)或用于渲染在不同位置上的五个独立的声道的BRIRs函数,相对地,如果对22.2输入声道进行直接渲染,则施加44个HRTF或BRIR函数。双耳演示所需的卷积运算需要高处理能力,因此,降低处理能力的同时,仍获得可接受的音频质量,这对于移动装置是尤其有用的。双耳渲染器236产生多声道音频材料228的双耳降混238,使得每一输入声道(LFE声道除外)通过虚拟音源来表示。可在QMF域内进行逐帧处理。双耳是基于测量的双耳房间脉冲响应,直接音效以及早期反射可通过在伪FFT域中使用QMF域的顶端的快速卷积的卷积方法印记到音频材料上,同时晚期混响可分开进行处理。
图5示出房间脉冲响应h(t)300的房间脉冲响应的示例。房间脉冲响应包含三个成分,分别为直接音效301、早期反射302以及晚期混响304。因此,当执行脉冲时,房间脉冲响应描述封闭的混响声学空间的反射行为。早期反射302进行离散反射且增加密度,脉冲响应而无法识别个别反射的部分被称为晚期混响304。直接音效301可容易地在房间脉冲响应中被识别,并可与早期反射相分离,然而,从早期反射302到晚期混响304的转换是不太明显的。
如上所述,在双耳渲染器内,例如图2中所描述的双耳渲染器,已知根据房间脉冲响应处理多声道音频输入信号的不同方法。
图6示出利用房间脉冲响应处理音频输入信号的不同的可能性。图6(a)示出根据房间脉冲响应处理完整的音频信号,图6(b)示出早期部分以及晚期混响部分的分开处理。如图6(a)示出,接收输入信号400(例如多声道音频输入信号)并将其施加到处理器402,处理器402配置或编程用于允许利用房间脉冲响应(见图5)实现多声道音频输入信号400的全卷积,在所描述的实施例中,房间脉冲响应产生双耳音频输出信号404。如上所述,此方法被认为是不利的,因为对整个脉冲响应使用卷积,在运算上是非常高成本的。因此,根据另一个方法,如图6(b)所示,如关于图6(a)中的描述,取代通过利用房间脉冲响应应用全卷积来处理整个多声道音频输入信号,房间脉冲响应300的早期部分301与302(请见图5)以及晚期混响部分304为分开地进行处理。更具体地说,如图6(b)示出,接收多声道音频输入信号400,然而,此信号平行施加到第一处理器406用于处理早期部分,亦即根据图5示出的房间脉冲响应300的直接音效301以及早期反射302来处理音频信号。多声道音频输入信号400也施加到处理器408,用于根据房间脉冲响应300的晚期混响来处理音频信号。在图6(b)描述的实施例中,多声道音频输入信号也可施加到降混器410,用于将多声道信号400降混到具有较少声道的信号。降混器410的输出系接着施加到处理器408。处理器406以及408的多个输出在412上进行组合,以产生2声道音频输出信号404’。
在双耳渲染器中,如上所述,主要由于计算复杂度的降低,可期望将直接音效及早期反射与晚期混响分离开进行处理。直接音效以及早期反射的处理可例如通过处理器406所实施的卷积方法印记到音频信号(见图6(b)),同时晚期混响可被处理器408所提供的合成混响取代。接着,整体双耳输出信号404为处理器406所提供的卷积结果以及处理器408所提供的合成混响信号的组合。
此处理在现有技术参考文献[1]中也有描述。上述方法的结果在感知上应尽可能与完全脉冲响应的卷积的结果相当,全转换方法如图6(a)所描述。然而,如果音频信号,或者更一般地,音频材料利用直接音效以及脉冲响应的早期反射部分进行卷积,不同的产生的声道加在一起以形成整体音效信号,该整体音效信号到达聆听者的一个耳朵的播放信号相关联。然而,混响不从该整体信号中计算得到,一般而言,是原始输入音频信号的一个声道或降混的混响信号。因此,本发明的发明人已经确定,晚期混响不会适当地匹配处理器406所提供的卷积结果。已发现混响的适当水平取决于输入音频信号以及房间脉冲响应300。脉冲响应的作用通过使用作为混响器的输入参数的混响特性而获得,此混响器可以为处理器408的部分,这些输入参数是从测量的脉冲响应的分析中获得的,例如与频率相关的混响时间值以及与频率相关的能量测量值。一般而言,这些测量值可从单个脉冲响应中确定,例如,通过利用倍频滤波器组分析来计算能量值以及RT60混响时间值,或者这些测量值可以为多个脉冲响应分析结果的平均值。
然而,已发现,当使用如图6(b)所描述的合成混响方法时,尽管有这些提供到混响器的输入参数,在混响上的输入音频信号的作用不会完全地被保留。例如,由于用于产生合成混响尾端的降混,输入音频信号的作用会丢失。因此,混响的产生水平在感知上不会与全卷积方法的结果相当,特别是在输入信号包含多个声道的情况下。
迄今,没有已知的方法将晚期混响的数量与全卷积方法的结果相比较或将期混响的数量匹配到卷积结果。有一些技术,试图评价晚期混响的质量或其听起来有多自然。例如,在一个方法中,定义用于自然发音混响的响度测量,此方法使用响度模式预测混响的感知响度。此方法在现有技术参考文献[2]中有描述,此水平可匹配目标值。此方法的缺点是它依赖复杂但不精确的人类聆听模式,并且需要目标响度以对被发现使用全卷积结果的晚期混响提供缩放因子。
在现有技术参考文献[3]所描述的另一个方法中,针对人工混响质测量测试使用互相关标准。然而,此方法仅适用于测试不同的混响算法,而不适用于多声道音频、不适用于双耳音频以及不适用于描述晚期混响的缩放。
另一个可能的方法是使用在所考虑的耳朵处的输入声道的数量作为缩放因子,然而,此方法不会给定感知上的正确缩放,因为整体音效信号的感知振福取决于不同的音频声道的相关性,而不是仅取决于声道的数量。
因此,根据本发明提供一种信号相关的缩放方法,此方法根据输入音频信号调整混响的水平。如上所述,当针对双耳渲染使用全卷积方法时,混响的感知水平期望与混响的水平相匹配,因此,适当的混响水平的测量的判定对于达到良好的音效质量是重要的。根据实施例,分别地利用房间脉冲响应的早期部分以及晚期混响对音频信号进行处理,其中处理晚期混响包含产生缩放混响信号,其缩放比例取决于音频信号。处理过的音频信号的早期部分和缩放后的晚期混响信号组合成输出信号。根据一个实施例,缩放比例取决于音频信号的一个或多个输入声道的条件(例如输入声道的数量、活动输入声道的数量及/或在输入声道内的活动)。根据另一个实施例,缩放比例取决于音频信号的预定义或计算得到的相关性测量。可选实施例可基于一个或多个输入声道的条件以及预定义或计算得到的相关性测量的组合来进行缩放。
根据实施例,缩放后的混响信号可通过施加增益因子而产生,此增益因子基于音频信号的一个或多个输入声道的条件,或基于音频信号的预定义或计算得到的相关性测量,或者基于这两者的组合而确定。
根据实施例,分开处理音频信号的步骤包含,在第一处理步骤中,利用房间脉冲响应300的早期反射部分301、302处理音频信号,以及在与第一处理步骤不同且分开的第二处理步骤中,利用房间脉冲响应300的扩散混响304处理音频信号。从第一处理步骤至第二处理步骤的改变发生在转换时期。根据进一步的实施例,在第二处理步骤中,扩散(晚期)混响304可由合成混响来取代。在这种情况下,施加到第一处理步骤的房间脉冲响应仅包含早期反射部分300、302(见图5),而不包含晚期扩散混响304。
在下文中,根据以基于输入音频信号的相关性分析而计算出的增益因子,将进一步描述本发明方法的实施例。图7示出根据本发明的教导进行操作的如同双耳渲染器的信号处理单元的框图。双耳渲染器500包含第一分支部,此第一分支部包含从输入端504接收包含N个声道的音频信号x[k]的处理器502。当处理器502为双耳渲染器的部份时,处理输入信号504以产生输出信号506xconv[k]。更具体地说,处理器502利用房间脉冲响应的直接音效以及早期反射以造成音频输入信号504的卷积,其中房间脉冲响应的直接音效以及早期反射系可从保存多个记录的双耳房间脉冲响应的外部数据库508提供到处理器502。如上所述,处理器502可基于数据库508所提供的双耳房间脉冲响应进行操作,从而产生仅具有两个声道的输出信号502。输出信号506从处理器502提供到加法器510。输入信号504进一步提供到包含混响处理器514以及降混器516的混响分支512。降混输入信号被提供到混响器514,基于混响器参数,如同分别保存在数据库518以及520中的混响RT60和混响能量,混响器514在仅包含两个声道的混响器514输出端处产生混响信号r[k]。储存于数据库518以及520的参数可通过适当的分析522从所储存的双耳房间脉冲响应获得,如在图7中的虚线所示。
混响分支512进一步包含相关性分析处理器524,相关性分析处理器524接收输入信号504,并在其输出端处产生增益因子g。进一步地,提供耦接于混响器514以及加法器510之间的增益级526。增益级526通过增益因子g进行控制,从而在增益级526的输出端处产生施加到加法器510的缩放混响信号rg[k]。加法器510将早期处理部分以及混响信号进行组合,以提供也包含两个声道的输出信号y[k]。选择性地,混响分支512可包含耦接于处理器524以及增益级之间的低通滤波器528,用于随着多个音频帧而平滑增益因子。选择性地,延迟元件530也可提供在增益级526的输出端以及加法器510之间,用于延迟缩放混响信号,使得其匹配在房间脉冲响应内的早期反射以及混响之间的转换。
如上所述,图7示出将直接音效以及早期反射与晚期混响分开处理的双耳渲染器的框图。如图所示,利用双耳房间脉冲响应的直接音效以及早期反射进行处理的输入信号x[k]产生信号xconv[k]。如图所示,此信号被转送到加法器510用于将此信号加入至混响信号成分rg[k]。该信号是通过将输入信号x[k]的降混(例如立体声降混)馈入到混响器514而产生,混响器514随后有接收降混的混响信号r[k]以及增益因子g的倍增器或增益级526。增益因子g是通过处理器524所执行的输入信号x[k]的相关性分析而获得,如上所述,可通过低通滤波器528随着时间进行平滑。经缩放或加权的混响元件可选择性地通过延迟元件530进行延迟,以使其起点与从早期反射到晚期混响的转换点相匹配,使得在加法器510的输出端获得输出信号y[k]。
图7中描述的多声道双耳渲染器采用合成2声道晚期混响,用于克服上面所讨论的传统方法的缺点,根据本发明的方法,合成晚期混响系通过增益因子g进行缩放以将感知与全卷积方法的结果相匹配。在聆听者的耳朵处的多个声道(例如高达22.2)的迭加是相关性依赖的。这就是为什么晚期混响可根据输入信号声道的相关性进行缩放,本发明方法的实施例系提供基于相关性及时间依赖性缩放方法,此方法确定晚期混响的适当的振福。
对于计算缩放因子,引入基于相关性系数的相关性测量,以及根据实施例,相关性测量定义在二维时间依赖性频域,例如QMF域。针对每个多维音频帧、由多个频带N所定义的每个音频帧、每帧的多个时隙M以及多个音频声道A,计算在-1以及1之间的相关性数值。获得每个耳朵的每帧的一个缩放因子。
以下,将进一步详细描述本发明方法的实施例。首先,请参阅图7的相关性分析处理器524中所使用的相关性测量。根据此实施例,基于相关性测量是以皮尔逊积矩相关系数(也称为相关系数),此皮尔逊积矩相关系数是通过将两个变量值X,Y的协方差值除以它们的标准偏差的乘积值而计算得出:
其中,
E{·}=期望值操作符
ρ{X,Y}=相关性系数,
σx,σY=变量值X,Y的标准偏差
根据所描述的实施例,该处理转送为时间频率域(例如QMF域)内的二维。二维为时隙以及QMF频带。此方法是合理的,因为数据时常进行编码,并在时间频率域中进行传输。期望值操作符由随着多个时间和/或频率取样的平均值运算取代,使得在(0,1)范围内的两个零平均变量值xm,xn之间的时间频率相关性测量被定义如下:
其中,
ρ[m,n]=相关性系数,
σ(xm[j])=横跨声道m的一个时隙j的标准偏差,
σ(xn[j])=横跨声道n的一个时隙j的标准偏差,
xm,xn=零平均变量值,
*=共轭复数。
在针对一个音频帧的多个声道组合(m,n)计算该系数之后,ρ[m,n,ti]的数值通过取多个相关性值ρ[m,n,ti]的平均值而组合到单个相关性测量ρm(ti)。应当注意的是,音频帧可包含32个QMF时隙,ti指示各个音频帧。上述的处理可针对一个音频帧进行归纳,如下:
(i)首先,针对具有大小为[N,M,K]的音频或数据帧x的k个声道中的每一个,计算整体平均值,其中根据实施例,所有的k声道降混到混响器的一个输入声道。
(ii)通过从相应的声道减去该数值以计算出零平均音频或数据帧。
(iii)针对多个声道组合(m,n),计算所定义的相关性系数或相关性值c。
(iv)计算平均值相关性数值cm作为多个相关性数值ρ[m,n]的平均值(除了错误计算得到的值,例如通过除以零)。
根据上述实施例,缩放比例是基于音频信号的相关性测量而确定的。尽管需要额外的计算资源,例如当期望分别获得当前处理的音频信号的相关性测量时,这是具有优势的。
然而,本发明并不限定于这样的方法。根据其他实施例,除了计算相关性测量,还有可以使用预定义的相关性测量。使用预定义的相关性测量是具有优势的,因为它降低在处理过程中的计算复杂度。预定义的相关性测量可具有固定值,例如0.1到0.9的范围,其可基于对多个音频信号的分析来凭经验确定。在此种情况下,可省略相关性分析524,增益级的增益值可通过适当的控制信号来设定。
根据其它实施例,缩放比例取决于音频信号的一个或多个输入声道的条件(例如输入声道的数量、活动输入声道的数量及/或在输入声道内的活动)。这是具有优势的,因为可使用减少的计算成本轻易地决定缩放比例。例如,可通过简单地确定原始音频信号内的声道的数量来确定缩放比例,此原始音频信号被降混到当前考虑的降混声道,该当前考虑的降混声道包含与原始音频信号相比更少数量的声道。可选地,降混到当前考虑的降混声道的数量的活动声道(显示在当前音频帧内的某个活动的声道)的数量可形成缩放混响信号的基础。这可以在块524中进行。
在下文中,将详细描述基于音频信号的一个或多个输入声道的条件以及基于(上述固定的或计算得到的)相关性测量确定混响信号的缩放比例。根据该实施例,增益因子或增益或缩放因子g定义如下:
g=cu+ρ·(cc-cu)
其中,
ρ=音频信号的预定义或计算得到的相关性测量,
cu,cc=指示音频信号的一个或多个输入声道的条件的因子,其中cu涉及完全非相关声道,cc关于完全相关声道,
Kin=活动非零或固定降混声道的数量。
如果降混声道为完全非相关(不具有声道间相关性),则施加因子cu。在仅使用一个或多个输入声道的条件的情况下,预定义的固定相关性系数值设定为零。如果降混声道为完全相关(信号为每一个其他的加权版本(加入相位移以及偏移)),则施加因子cc。在仅使用一个或多个输入声道的条件的情况下,预定义的固定相关性系数值设定为1。这些因子描述在音频帧内的晚期混响的缩放比例的最大值和最小值(取决于(活动)声道的数量)。
根据实施例“声道数量”Kin定义如下:多声道音频信号使用降混矩阵Q降混到立体声降混,此降混矩阵Q定义哪个降混声道包含哪些输入声道(大小M×2,M为音频输入材料的输入声道的数量,例如针对5.1设置的6声道)。
降混矩阵Q的示例可以为:
针对这两个降混声道中的每个,缩放比例系数计算如下:
g=f(cc,cu,ρavg)=cuavg·(cc-cu)
其中,ρavg为针对多个声道组合[m,n]的所有的系数相关性的平均值,cc,cu取决于声道数量Kin,其可以如下:
●Kin可以为降混到当前考虑的降混声道k∈[1,2](在降混矩阵Q的行k上的包含不等于零的值的列的数量)的声道的数量。此数量不会随时间改变,因为降混矩阵Q针对一个输入声道配置进行预定义,且不会随着一个音频输入信号的长度而改变。
例如当考虑5.1输入信号应用以下情况:
o声道1,3,4降混到降混声道1(见上述矩阵Q),
o在每个音频帧(3声道)中Kin=3
●Kin可以为降混到当前所考虑的降混声道k∈[1,2](输入声道在当前音频帧内有活动的,在降混矩阵Q的行k上包含不等于零的值的输入声道的数量→在活动声道交集内的声道的数量以及在Q的行K上的非均等元素的数量)的活动声道的数量。此数量可以为随音频输入信号的长度改变的时间变量,因为即使Q保持不变,信号活动可随着时间值改变。
例如当考虑5.1输入信号应用以下情况:
o声道1,3,4降混到降混声道1(见上述矩阵Q),
o在帧n内:
■活动声道为声道1,2,4,
■Kin为在交集{1,4}内的声道的数量,
■Kin(n)=2
o在帧n+1内:
■活动声道为声道1,2,3,4,
■Kin为在交集{1,3,4}内的声道的数量,
■Kin(n+l)=3
音频声道(在预定义帧中)可考虑为活动式,在此情况下,其具有超过预设临界值的预定义帧内的振福或能量,例如根据实施例,在音频声道(在预定义帧中)的活动可被定义如下:
●信号的绝对振幅的总值或最大值(在时域,QMF域等内)在此帧内大于零,或
·信号能量的总值或最大值(在时域或QMF域内的振幅的平方的绝对值)在帧内大于零。
除了零,也可使用另一个大于零的临界值(相对于最大能量或振福),例如临界值0.01。
根据实施例,针对每个耳朵提供增益因子,该增益因子取决于活动(随时间改变)的数量或包含在降混声道内的声道Kin(不等于零的降混矩阵)的固定数量。假定因子在完全非相关以及完全相关情况之间线性增加。完全非相关表示信号为彼此的加权版本(具有偏移的相位差,相关值为1)。
如上所述,增益或缩放因子g可通过低通滤波器528随着音频帧进行平滑。低通滤波器528可具有产生帧大小k的平滑增益因子gS(t)的时间常数ts,平滑增益因子gS(t)如下:
gs(ti)=cs,old·gs(ti-1)+cs,new·g
cs,new=1-cs,old
其中,
ts=低通滤波器的时间常数,单位为秒
ti=在帧ti处的音频帧
gs=平滑增益因子
k=帧大小,以及
fs=取样频率,单位为Hz。
帧大小k可以为在时域取样值(例如2048个取样值)内的音频帧的大小。
音频帧x(ti)的左声道混响信号接着通过因子gs,left(ti)进行缩放,右声道混响信号通过因子gs,right(ti)进行缩放。利用作为呈现于立体声降混的左声道的(活动非零的或总数量的)声道的数量计算一次缩放因子,此立体声降混馈入到产生缩放因子gs,left(ti)的混响器内。接着,利用作为呈现于立体声降混的右声道的(活动非零的或总数量的)声道数量再次计算缩放因子,此立体声降混馈入到产生缩放因子gs,left(ti)的混响器内。混响器回馈音频帧的立体声混响版本。混响版本的左声道(或混响器的输入端的左声道)利用gs,left(ti)进行缩放,混响版本的右声道(或混响器的输入端的右声道)利用gs,right(ti)进行缩放。
缩放人工(合成)晚期混响被施加到加法器510,以待加入利用直接音效以及早期反射进行处理的信号506内。
如上所述,根据实施例,本发明的方法可用于双耳处理器,该双耳处理器用于音频信号的双耳处理。音频信号的双耳处理的实施例将在下文中描述。双耳处理可作为将解码信号转换成双耳降混信号的解码器处理来执行,当通过耳机被聆听时,双耳降混信号提供环绕音效体验。
图8示出根据本发明实施例的用于音频信号的双耳处理的双耳渲染器800的示意性表示。图8还提供在双耳渲染器的QMF域处理的整体图。在输入端802上的双耳渲染器800接收待处理的音频信号,例如包含N个声道以及64QMF频带的输入信号。此外,双耳渲染器800接收多个输入参数以控制音频信号的处理。输入参数包含双适用于2xN个声道以及64QMF频带的双耳房间脉冲响应(BRIR)804,最大频带的指示值Kmax 806(其用于利用BRIRs804的早期反射部分进行的音频输入信号的卷积),以及如上所述的混响器参数808以及810(RT60以及混响能量)。双耳渲染器800包含快速卷积处理器812,此快速卷积处理器812用于利用所接收的BRIRs 804的早期部分处理输入音频信号802。处理器812在输出上产生包含两个声道以及Kmax QMF频带的早期处理信号。双耳渲染器800包含早期处理分支以及混响分支,其中早期处理分支具有卷积快速处理器812,混响分支包含两个混响器816a以及816b,混响器816a以及816b中的每个接收RT60信息808以及混响能量信息810以作为输入参数。混响分支进一步包括立体声降混处理器818以及相关性分析处理器820,两者也接收输入音频信号802。此外,两个增益级821a和821b提供于立体声降混处理器818和各个混响器816a和816b之间,用于控制立体声降混处理器818所提供的降混信号822的增益。立体声降混处理器818基于输入信号802提供具有两个频带以及64QMF频带的降混信号822。增益级821a以及821b的增益分别通过相关性分析处理器820所提供的控制信号824a以及824b进行控制。增益控制的降混信号分别输入到混响器816a与816b,用于分别产生混响信号826a与826b。早期处理信号814以及混响信号826a,826b通过混合器828进行接收,混合器828将接收的信号组合成具有两个声道以及64QMF频带的输出音频信号830。此外,根据本发明,快速卷积处理器812以及混响器816a,816b接收另一个输入参数832,此另一个输入参数832指示如上所述的在房间脉冲响应804内从早期部分到晚期混响的转换。
双耳渲染器模块800(例如图2或图4的双耳渲染器236)具有作为输入802的解码数据流。信号通过QMF分析滤波器组处理,如在具有在ISO/IEC14496-3:2009第4.B.18.2项中修改的ISO/IEC14496-3:2009的第8.6.4.2.项所列出的。渲染器模块800也可处理QMF域输入数据;在此情况下,分析滤波器组可省略。双耳房间脉冲响应(BRIRs)804表示为复QMF域滤波器。从时域双耳房间脉冲响应到复QMF滤波器表现的转换列于Annex B的ISO/IEC FDIS23003-1:2006上。BRIRs 804在复QMF域中限定为特定数量的时隙,使得这些时隙仅包含早期反射部分301与302(见图5),而不包含晚期扩散混响304。如上所述,例如,通过在双耳处理的预处理步骤中通过BRIRs 804的分析而确定从早期反射到晚期混响的转换点832。接着,QMF域音频信号802以及QMF域BRIRs 804通过类频带(bandwise)快速卷积812的处理以执行双耳处理。QMF域混响器816a,816b用于产生双声道QMF域晚期混响826a与826b。混响模块816a与816b使用一组频率相关性混响时间值808以及能量值810以调整混响的特性。混响的波形基于音频输入信号802的立体声降混818,其根据多声道音频信号802的相关性分析820来适应性缩放821a与821b的振福。双声道QMF域卷积结果814以及双声道QMF域混响816a,816b接着进行组合,最后,两个QMF合成滤波器组组计算双耳时域输出信号830,如ISO/IEC 14496-3:2009的第4.6.18.4.2.项所列。渲染器也可产生QMF域输出数据;接着,省略QMF合成滤波器组。
变量定义
音频信号802馈入双耳渲染器模块800内以作为输入信号,如下所述。作为双耳处理的结果的音频信号830,被称为输出信号。双耳渲染器模块800的输入信号802为核心解码器的音频输出信号(例如见图2的信号228)。所使用的变量的定义如下:
处理
现在描述输入信号的处理。双耳渲染模块操作于输入音频信号的长度L=2048时域取样值的连续非重迭帧,并且对每个长度L的经处理的输入帧输出L个取样值的一帧。
(1)初始化以及预处理
在核心解码器(例如见图2的解码器200)传递音频取样的过程发生之前,执行双耳处理区块的初始化。初始化包含几个处理步骤。
(a)分析值的读取
混响器模块816a、816b取混响时间值808以及能量值810的频率相关集合以作为输入参数。从双耳处理模块800的初始化上的接口读取这些数值。此外,读取在时域取样值内的从早期反射到晚期混响的转换时间值832。这些数值可储存于以32位每取样值、浮点值以及小端字节顺序写成的双耳文件。处理时所需的读取值详述于下表中:
(b)BRIRs的读取以及预处理
双耳房间脉冲响应804从分别储存左耳以及右耳BRIRs的两个专用文件中读取。BRIRs的时域取样存储在具有每取样值24位分辨率以及32个声道的整数波形文件。在该文件中的BRIRs顺序详述于下表中:
如果在扬声器的任一位置上没有测量到BRIR,则在波形文件中的相应的声道包含零值。LFE声道没有用于双耳处理。
如预处理步骤,给定的双耳房间脉冲响应(BRIRs)的集合从时域滤波器转换到复值QMF域滤波器。在复值QMF域内的所给定的时域滤波器是根据ISO/IEC FDIS 23003-1:2006,Annex B来执行。滤波器转换的原型滤波器系数是根据ISO/IEC FDIS 23003-1:2006,Annex B的表B.1使用的。处理具有1≤v≤Ltrans的时域表现以增益具有1≤n≤Ltranns,的复值QMF域滤波器
(2)音频信号处理
双耳渲染器模块800的音频处理块是从核心解码器获得Nin输入声道的时域音频取样值802,并产生包含Nout=2声道的双耳输出信号830。
作为输入的处理
●从核心解码器所解码的音频数据802,
●BRIR集合804的早期反射部分的复QMF域表示,以及
●频率相关性参数集合808,810,832是通过QMF域混响器816a与816b执行,以产生晚期混响826a与826b。
(a)音频信号的QMF分析
如第一处理步骤,双耳渲染器模块将Nin声道时域输入信号(来自核心解码器)的L=2048时域取样值转换到维度Ln=32QMF时隙(时隙指数n)以及K=64频带(频带指数k)的Nin声道QMF域信号表示802。
如在具有在ISO/IEC14496-3:2009第4.B.18.2项中修改的ISO/IEC14496-3:2009的第8.6.4.2.项所列出的,QMF分析执行于时域信号的帧以增益QMF域信号的帧,其中1≤v≤L以及1≤n≤Ln
(b)QMF域音频信号的快速卷积以及QMF域BRIRs
接着,执行类频带快速卷积812以处理QMF域音频信号802以及QMF域BRIRs 804。可针对输入信号802的每个声道以及每个BRIR 804执行每个QMF频带k的FFT分析。
由于在QMF域中的复值,一个FFT分析执行于QMF域信号表示的实部以及一个FFT分析执行于QMF域信号表示的虚部。接着,组合结果以形成最终的类频带复值伪FFT域信号
以及类频带复值BRIRs
针对左耳
针对右耳
FFT转换长度是根据复值QMF域BRIR滤波器的长度Ltrans,n以及在QMF域时隙的长度Ln所决定,使得LFFT=Ltrans,n+Ln-1。
接着,复值伪FFT域信号利用复值伪FFT域BRIR滤波器倍增以形成快速卷积结果。向量mconv用于发送信号,而发送的输入信号的声道对应于BRIR数据集合中的BRIR对的声道。
符合1≤k≤Kmax的所有QMF频带k执行类频带倍增。最大频带Kmax通过QMF频带确定,此QMF频带表示18kHz或出现在来自核心解码器的音频信号内的最大信号频率fmax=min(fmax,decoder,18kHz)。
从具有每一个BRIR对的每个输入声道所产生的倍增结果在符合1≤k≤Kmax的每个QMF频带k内进行叠加,以产生中间的双声道Kmax带伪FFT域信号。
以及皆为在QMF域频带k内的伪FFT卷积结果。
下一步,执行频带FFT分析以将卷积结果转换回至QMF域,以产生中间的双声道Kmax带伪FFT域信号,其中LFFT时隙且1≤n≤LFFT以及1≤k≤Kmax
针对具有L=32时隙的每个QMF域输入帧,恢复具有L=32时隙的卷积结果。储存所留下的LFFT-32时隙,并在下列的(多个)帧中执行重迭附加的处理。
(c)晚期混响的产生
作为第二中间信号826a、826b,混响信号被称为其通过频率域混响器模块816a,816b而产生。频率域混响器816a,816b以下列作为输入
●输入信号的一帧的QMF域立体声混响822
●包含频率相关性混响时间值808以及能量值810的参数集合
频率域混响器816a与816b转换到双声道QMF域晚期混响的末端。
频率相关性参数集合的最大使用频带数量是根据最大频率进行计算。
首先,执行输入信号的一帧的QMF域立体声降混818,以通过输入信号声道的加权相加来形成混响器的输入。加权增益值包含在降混矩阵MDMX中。它们是实数非负数的且此降混矩阵的为Nout×Nin维度。其包含非零值,其中输入信号的声道映射到两个输出声道中的一个。
代表位于左半球的扬声器的声道映射到左输出声道,代表位于右半球的扬声器的声道映射到右输出声道。这些声道的信号皆通过系数1进行加权。代表在中间平面上的扬声器的声道映射到双耳信号的两输出声道。这些声道的输入信号系通过系数进行加权。
此外,能量均等步骤执行于降混内。其将一个降混声道的类频带能量调整成相当于包含在该降混声道中的输入信号声道的频带能量的总和。能量均等步骤通过利用实值系数的频带倍增来执行。
因子ceq,k限于区间[0.5,2]。引入数值常数ε以避免被零整除。降混的带宽受限于频率fmax;在所有高频带的数值皆设定为零。
图9示意性地表示根据本发明实施例双耳渲染器800的频率域混响器816a与816b中的处理。
在频率域混响器中,使用输入混合器900计算立体声输入的单声道降混。在第二输入声道上非相干地施加90°相位移。
单声道信号接着被馈入于每个频带内的产生延迟脉冲序列的回馈延迟循环902。接着相互并联的FIR去相关器以延迟的方式将信号能量分配于多个脉冲之间的间隔,并产生在多个输出声道之间的非相干性。施加延迟滤波阀密度以产生能量延迟。滤波阀相位操作受限于四个选项以执行稀疏的以及无倍增的去相关器。
在混响计算之后,针对每个QMF频带,声道间相干性(ICC)校正904包含在混响模块中。在ICC校正步骤中,使用频率相关性直接增益值gdirect以及交错混合增益gcross来调整ICC。
不同频带的能量总量值以及混响时间值包含在输入参数集合内,这些数值给定在多个频率点处,这些频率点内部映射到K=64QMF频带。
频率域混响器的两个示例用于计算最终中间信号信号为混响器的第一示例的第一输出声道,为混响器的第二示例的第二输出声道。它们组合成具有双声道、64个频带以及32个时隙的维度的最终混响信号帧。
根据输入信号帧的相关性测量820对立体声降混822进行时间缩放821a,b,以确认混响器输出的正确缩放。缩放因子定义为在区间内的数值,其线性基于0以及1之间的相关性系数ccorr
以及
其中意指横跨声道A的一个时隙n的标准偏差,操作符{*}代表共轭复数以及为在实际信号帧内的QMF域信号的零平均值的版本。
ccorr被计算两次:一次为针对活动于实际信号帧F上且包含在立体声降混的左声道中的多个声道A,B,另一次为针对活动于实际信号帧F上且包含在立体声降混的右声道中的多个声道A,B。NDMX,act为降混至降混声道A的输入声道的数量(在不等于零的降混矩阵MDMX的第A列内的矩阵元素的数量),并且活动于当前帧。
接着,缩放因子为
缩放因子通过一阶低通滤波器随音频信号帧进行平滑,以产生平滑缩放因子
缩放因子通过具有相同平均值的时域相关性分析在第一音频输入数据帧中进行初始化。
第一混响器示例的输入利用缩放因子进行缩放,第二混响器示例的输入利用缩放因子进行缩放。
(d)卷积结果以及晚期混响的组合
接着,卷积结果814,以及混响器输出826a与826b,针对QMF域音频入帧通过混合处理828进行组合,此混合处理828是将两个输入信号的带宽加在一起。应当注意的是,卷积仅在高达于Kmax的频带中执行,所以高于Kmax的上频带在内皆为零值。
晚期混响输出是通过在混合处理中的d=((Ltrans-20·64+1)/64+0.5)+1时隙的总量进行延迟。
延迟d考虑BRIRs内的从早期反射到晚期反射的转换时间以及20个QMF时隙的混响器的初始延迟,以及针对BRIRs的QMF分析的0.5QMF时隙的分析延迟,以确认在合理的时隙上的晚期混响的插入。在一个时隙n上所组合的信号是通过进行计算。
(e)双耳QMF域信号的QMF分析
QMF域输出信号的32时隙的一个双声道帧,根据ISO/IEC 14496-3:2009的第4.6.18.4.2项通过QMF分析转换成具有长度的双声道时域信号帧,从而产生最终时域输出信号830
根据本发明的方法,考虑输入信号的特性,对合成或人工晚期混响进行缩放,从而改善输出信号的质量,并同时通过分开处理而具有降低的运算复杂度的优势。此外,从以上描述可得知,不需要额外的聆听模型或目标混响响度。
应当注意的是,本发明不限于上述实施例。例如,上述实施例已组合QMF域进行描述,应当注意的是,也可以使用其他的频率域,例如STFT域。此外,缩放因子可以以频率相关性方式进行计算,使得相关性不随着频带的整体数量的改变而计算,即而是以多个S子集合进行计算,如下:
此外,平滑处理可施加于在频带,或频带可根据特定规则进行组合,例如根据听觉的频率分辨率。平滑可适用不同的时间常数,例如取决于帧大小或聆听者的偏好。
本发明的方法也可应用于不同的帧大小,甚至帧大小可能仅为在时间频率域内的仅仅一个时隙的帧大小。
根据实施例,不同的降混矩阵可用于降混,例如对称降混矩阵或非对称矩阵。
相关性测量可从在音频比特流中传输的参数中推导出来,例如从MPEG环绕或SAOC中的声道间相干性。此外,根据实施例,其可能从平均值计算中排除矩阵的一些数值,例如错误计算值或在主对角上的值,自相关值(如果有必要)。
例如当施加低复杂度双耳设定时,可在解码器上执行此处理,而不是在解码器侧的双耳渲染器内使用该处理。这导致缩放因子的一些表示,例如缩放因子本身、介于0及1之间的相关性测量及类似的,以及针对固定的下游矩阵,这些参数在比特流中从编码器传输至解码器。
此外,虽然在上述实施例中已描述,在混响器514之后施加增益,应当注意的是,根据其它实施例,此增益也可施加于混响器514之前或混响器之内,例如通过修正混响器514内的增益。这是具有优势的,因为可以需要更少的运算。
尽管在装置上下文中已经描述了一些方面,很显然地,这些方面也代表相应的方法描述,其中块或装置对应于方法步骤或方法步骤之特征。相似地,方法步骤的上下文中描述的方面也表示相应的块或项或相对应的装置的特征的描述。方法步骤中的一些或全部可通过(或使用)硬设备来执行,像是例如微处理器、可编程计算机或电子电路。在一些实施例中,最重要的方法步骤中的一些或多个可通过这种装置执行。
根据特定实施例的要求,本发明的实施例可在硬件或软件上执行。本实施方式可以使用非暂时性存储介质例如数字储存媒介来执行,例如软盘驱动器、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或是FLASH存储器,此数字储存媒介具有存储于其上的电子可读控制信号,该电子可读控制信号与可编程计算机系统配合(或能够配合),以使执行各个方法。因此,数字储存媒介可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统配合,以使执行本文描述的任一方法。
一般情况下,本发明的实施例能够作为具有程序代码的计算机程序产品而实施,当计算机程序产品在计算机上运行时,程序代码可操作用于任一方法。程序代码例如可被储存于机器可读载体上。
另一实施例包括计算机程序,该计算机程序储存于机器可读载体上,用于执行本文描述的任一方法。
换句话说,因此,本发明方法的实施例是计算机程序,当在计算机上执行时,计算机程序具有用于执行本文描述的任一方法的程序代码。
本发明方法的进一步的实施例是数据载体(或数字储存介质,或是计算机可读介质)其包括计算机程序,此计算机程序被记录在数据载体上并且用于执行本文描述的任一方法。数据载体、数字储存媒体或记录媒体典型地为有形体及/或非过渡体。
因此,本发明方法的进一步的实施例是数据流或信号序列,其代表用于执行本文描述的方法之一的程序代码。数据流或信号序列可以例如用于为经由数据通讯连接(例如经由因特网)而被传输。
进一步的实施例包括处理装置,例如计算机或可编程逻辑器件,处理装置用于或适用于执行本文描述的任一方法。
进一步的实施例包括计算机,计算机具有安装于其内的计算机程序,用于执行本文描述的任一方法。
根据本发明的进一步的实施例,包括装置或系统,用于传输(例如电子或光学方式传输)计算机程序至接收器,以执行本文描述的任一方法。接收器可以为例如计算机、移动装置、存储装置或类似的。装置或系统可以例如包括用于将计算机程序传输至接收器的文件服务器。
在一些实施例中,可编程逻辑器件(例如场可编程门阵列)可以用于执行本文所描述的方法的一些或全部的功能。在一些实施例中,场可编程门阵列可以与微处理器配合,以执行本文描述的任一方法。一般而言,这些方法优选地通过任何硬件装置来执行。
以上描述的实施例仅仅用于说明本发明的原理。可以理解的是,本文所描述的布置的修正及变化以及细节对于本领域技术人员将是显而易见的。因此,本发明意欲应当仅由所附的专利权利要求的范围所限定,而不是由本文实施例的描述及说明的具体细节所限定。
参考文献:
[1]M.R.Schroeder,"Digital Simulation of Sound Transmission inReverberant Spaces",The Journal of the Acoustical Society of America,VoS.47,pp.424-431(1970)and enhanced in JA.Moorer,"About This ReverberationBusiness",Computer Music Journal,Vol.3,no.2,pp.13-28,MIT Press(1979).
[2]Uhle,Christian;Paulus,Jouni;Herre,Jürgen:“Predicting the PerceivedLevel of Late Reverberation Using Computational Models of Loudness”Proceedings,17th International Conference on Digital Signal Processing(DSP),July 6–8,2011,Corfu,Greece.
[3]Czyzewski,Andrzej:“A Method of Artificial Reverberation QualityTesting”J.Audio Eng.Soc.,Vol.38,No 3,1990.

Claims (20)

1.一种根据房间脉冲响应(300)处理音频信号(504,802)的方法,包括:
利用所述房间脉冲响应(300)的早期部分(301,302)以及晚期混响(304)分别对所述音频信号(504,802)进行处理(502,514,812,816a,816b),其中利用所述晚期混响(304)处理所述音频信号(504,802)包括获得混响信号,并缩放所述混响信号以获得缩放混响信号;以及
将利用所述房间脉冲响应的所述早期部分进行处理的所述音频信号与所述缩放混响信号进行组合,
其中所述音频信号(504,802)包括多个输入声道,
其中缩放所述混响信号取决于所述音频信号输入声道的固定的或计算得到的相关性测量,以及
其中产生所述缩放混响信号包括:施加增益因子到经过所述房间脉冲响应(300)的所述晚期混响(304)处理的所述音频信号,所述增益因子基于所述固定的或计算得到的相关性测量而确定。
2.如权利要求1所述的方法,其中所述缩放所述混响信号取决于所述音频信号(504,802)的所述多个输入声道的条件,其中所述音频信号(504,802)的所述多个输入声道的条件包括输入声道的数量、活动输入声道的数量以及所述多个输入声道的一个或多个中的活动中的一个或多个。
3.如权利要求1所述的方法,其中所述音频信号(504,802)的所述固定的相关性测量具有0.1至0.9之间的固定值。
4.如权利要求2所述的方法,其中所述增益因子根据下式确定:
g=cu+ρ·(cc-cu)
其中,
ρ=所述音频信号(504,802)的固定的或计算得到的相关性测量,
cu,cc=指示所述音频信号(504,802)的所述多个输入声道的所述条件的因子,其中cu涉及完全非相关声道,cc关于完全相关声道,其中cu以及cc根据下式确定:
<mrow> <msub> <mi>c</mi> <mi>u</mi> </msub> <mo>=</mo> <msup> <mn>10</mn> <mfrac> <mrow> <mn>10</mn> <mo>&amp;CenterDot;</mo> <msub> <mi>log</mi> <mn>10</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mn>20</mn> </mfrac> </msup> <mo>=</mo> <msqrt> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>n</mi> </mrow> </msub> </msqrt> </mrow>
<mrow> <msub> <mi>c</mi> <mi>c</mi> </msub> <mo>=</mo> <msup> <mn>10</mn> <mfrac> <mrow> <mn>20</mn> <mo>&amp;CenterDot;</mo> <msub> <mi>log</mi> <mn>10</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mn>20</mn> </mfrac> </msup> <mo>=</mo> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>n</mi> </mrow> </msub> </mrow>
其中,
Kin=所述音频信号的活动输入声道的数量。
5.如权利要求1所述的方法,其中所述增益因子在多个音频帧上被低通滤波。
6.如权利要求5所述的方法,其中根据下式对所述增益因子进行低通滤波:
gs(ti)=cs,old·gs(ti-1)+cs,new·g
<mrow> <msub> <mi>c</mi> <mrow> <mi>s</mi> <mo>,</mo> <mi>o</mi> <mi>l</mi> <mi>d</mi> </mrow> </msub> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mrow> <mo>(</mo> <mfrac> <mn>1</mn> <mrow> <msub> <mi>f</mi> <mi>s</mi> </msub> <mo>&amp;CenterDot;</mo> <mfrac> <msub> <mi>t</mi> <mi>s</mi> </msub> <mi>k</mi> </mfrac> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow> </msup> </mrow>
cs,new=1-cs,old
其中,
g=所述增益因子
ts=低通滤波器的时间常数
ti=在帧ti处的音频帧
gs=平滑增益因子
k=帧大小,以及
fs=取样频率。
7.如权利要求1所述的方法,其中所述音频信号(504,802)的所述相关性分析包括确定所述音频信号(504,802)的音频帧的组合相关性测量,其中所述组合相关性测量是针对一个音频帧的多个声道组合通过组合相关性系数而计算得到的,每个音频帧包括一个或多个时隙。
8.如权利要求7所述的方法,其中组合所述相关性系数包括取所述音频帧的多个相关性系数的平均值。
9.如权利要求7所述的方法,其中确定所述组合相关性测量包括:
(i)针对所述一个音频帧的每个声道计算整体平均值,
(ii)通过从相应的声道中减去所述平均值以计算零平均音频帧,
(iii)计算多个声道组合的所述相关性系数,以及
(iv)计算所述组合相关性测量,作为多个相关性系数的所述平均值。
10.如权利要求7所述的方法,其中声道组合的所述相关性系数根据下式计算:
<mrow> <mi>&amp;rho;</mi> <mo>&amp;lsqb;</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>&amp;rsqb;</mo> <mo>=</mo> <mo>|</mo> <mfrac> <mn>1</mn> <mrow> <mo>(</mo> <mi>N</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mfrac> <mo>.</mo> <mfrac> <mrow> <msub> <mi>&amp;Sigma;</mi> <mi>i</mi> </msub> <msub> <mi>&amp;Sigma;</mi> <mi>j</mi> </msub> <msub> <mi>x</mi> <mi>m</mi> </msub> <mo>&amp;lsqb;</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>&amp;rsqb;</mo> <mo>&amp;CenterDot;</mo> <msub> <mi>x</mi> <mi>n</mi> </msub> <msup> <mrow> <mo>&amp;lsqb;</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>&amp;rsqb;</mo> </mrow> <mo>*</mo> </msup> </mrow> <mrow> <msub> <mi>&amp;Sigma;</mi> <mi>j</mi> </msub> <mi>&amp;sigma;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>m</mi> </msub> <mo>&amp;lsqb;</mo> <mi>j</mi> <mo>&amp;rsqb;</mo> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <mi>&amp;sigma;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>n</mi> </msub> <mo>&amp;lsqb;</mo> <mi>j</mi> <mo>&amp;rsqb;</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>|</mo> </mrow>
其中,
ρ[m,n]=相关性系数,
σ(xm[j])=横跨声道m的一个时隙j的标准偏差,
σ(xn[j])=横跨声道n的一个时隙i的标准偏差,
xm,xn=零平均变量值,
*=共轭复数。
11.如权利要求1所述的方法,包括延迟所述缩放混响信号,以使所述缩放混响信号的起点匹配所述房间脉冲响应(300)中的从早期反射到晚期混响(304)的转换点。
12.如权利要求1所述的方法,其中处理所述晚期混响包括将所述音频信号施加至降混器(410),以用于将所述音频信号(504,802)降混至具有较少声道的信号以及将所述降混音频信号施加至混响器。
13.一种计算机可读存储介质,包括计算机程序,当所述计算机程序在计算机上运行时用于执行如权利要求1至12任一项所述的方法。
14.一种信号处理单元,包括:
输入端,所述输入端用于接收音频信号(504,802),
早期部分处理器,所述早期部分处理器用于根据房间脉冲响应(300)的早期部分(301,302)处理所述接收的音频信号(504,802),
晚期混响处理器,所述晚期混响处理器用于根据所述房间脉冲响应(300)的晚期混响处理所述接收的音频信号(504,802)以获得混响信号,所述晚期混响处理器用于缩放所述混响信号以获得缩放混响信号;以及
输出端,所述输出端用于将所述接收的音频信号(504,802)的所述经处理的早期部分以及所述缩放混响信号组合为输出音频信号,
其中所述音频信号(504,802)包括多个输入声道,
其中缩放所述混响信号取决于所述音频信号输入声道的固定的或计算得到的相关性测量,以及
其中施加增益因子到经过所述房间脉冲响应(300)的所述晚期混响(304)处理的所述音频信号来产生所述缩放混响信号,所述增益因子基于所述固定的或计算得到的相关性测量而确定。
15.如权利要求14所述的信号处理单元,其中所述晚期混响处理器包括:
混响器,所述混响器用于接收所述音频信号(504,802)以及产生混响信号;以及
增益级,所述增益级耦接至所述混响器的输入端或输出端,并由所述增益因子进行控制。
16.如权利要求14所述的信号处理单元,包括相关性分析器,所述相关性分析器根据所述音频信号(504,802)产生所述增益因子。
17.如权利要求15所述的信号处理单元,进一步包括下列中的至少一种:
低通滤波器,所述低通滤波器耦接至所述增益级,以及
延迟元件,所述延迟元件耦接于所述增益级和加法器之间,所述加法器进一步耦接至所述早期部分处理器和所述输出端。
18.一种双耳渲染器,包括如权利要求14所述的信号处理单元。
19.一种用于编码音频信号的音频编码器,包括:
如权利要求14所述的信号处理单元或如权利要求18所述的双耳渲染器,用于在编码之前处理所述音频信号。
20.一种用于对编码的音频信号进行解码的音频解码器,包括:
如权利要求14所述的信号处理单元或如权利要求18所述的双耳渲染器,用于处理所述解码的音频信号。
CN201480041811.4A 2013-07-22 2014-07-18 音频信号处理方法、信号处理单元、双耳渲染器、音频编码器和音频解码器 Active CN105519139B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13177361 2013-07-22
EP13177361.6 2013-07-22
EP13189255.6 2013-10-18
EP20130189255 EP2840811A1 (en) 2013-07-22 2013-10-18 Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
PCT/EP2014/065534 WO2015011055A1 (en) 2013-07-22 2014-07-18 Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder

Publications (2)

Publication Number Publication Date
CN105519139A CN105519139A (zh) 2016-04-20
CN105519139B true CN105519139B (zh) 2018-04-17

Family

ID=48808220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480041811.4A Active CN105519139B (zh) 2013-07-22 2014-07-18 音频信号处理方法、信号处理单元、双耳渲染器、音频编码器和音频解码器

Country Status (18)

Country Link
US (5) US9955282B2 (zh)
EP (4) EP2840811A1 (zh)
JP (4) JP6374502B2 (zh)
KR (1) KR101771533B1 (zh)
CN (1) CN105519139B (zh)
AR (1) AR097002A1 (zh)
AU (1) AU2014295165B2 (zh)
BR (1) BR112016001136B1 (zh)
CA (1) CA2918279C (zh)
ES (2) ES2760873T3 (zh)
MX (2) MX2016000698A (zh)
PL (2) PL3025520T3 (zh)
PT (1) PT3025520T (zh)
RU (1) RU2642376C2 (zh)
SG (1) SG11201600370UA (zh)
TW (1) TWI555011B (zh)
WO (1) WO2015011055A1 (zh)
ZA (1) ZA201601079B (zh)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
CN105706467B (zh) 2013-09-17 2017-12-19 韦勒斯标准与技术协会公司 用于处理音频信号的方法和设备
FR3012247A1 (fr) * 2013-10-18 2015-04-24 Orange Spatialisation sonore avec effet de salle, optimisee en complexite
CN105900455B (zh) 2013-10-22 2018-04-06 延世大学工业学术合作社 用于处理音频信号的方法和设备
KR102281378B1 (ko) 2013-12-23 2021-07-26 주식회사 윌러스표준기술연구소 오디오 신호의 필터 생성 방법 및 이를 위한 파라메터화 장치
CN106105269B (zh) 2014-03-19 2018-06-19 韦勒斯标准与技术协会公司 音频信号处理方法和设备
US9584938B2 (en) * 2015-01-19 2017-02-28 Sennheiser Electronic Gmbh & Co. Kg Method of determining acoustical characteristics of a room or venue having n sound sources
CN110809227B (zh) * 2015-02-12 2021-04-27 杜比实验室特许公司 用于耳机虚拟化的混响生成
KR20230105002A (ko) 2015-08-25 2023-07-11 돌비 레버러토리즈 라이쎈싱 코오포레이션 프레젠테이션 변환 파라미터들을 사용하는 오디오 인코딩및 디코딩
US10115403B2 (en) * 2015-12-18 2018-10-30 Qualcomm Incorporated Encoding of multiple audio signals
EP3412039B1 (en) * 2016-02-02 2020-12-09 DTS, Inc. Augmented reality headphone environment rendering
EP3293987B1 (en) 2016-09-13 2020-10-21 Nokia Technologies Oy Audio processing
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
CN109792582B (zh) * 2016-10-28 2021-10-22 松下电器(美国)知识产权公司 用于回放多个音频源的双声道渲染装置和方法
CN106875953B (zh) * 2017-01-11 2020-10-13 深圳市创成微电子有限公司 模拟混音音频处理方法及系统
CN108665902B (zh) * 2017-03-31 2020-12-01 华为技术有限公司 多声道信号的编解码方法和编解码器
CN108694955B (zh) * 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
GB2562518A (en) 2017-05-18 2018-11-21 Nokia Technologies Oy Spatial audio processing
CN107358962B (zh) * 2017-06-08 2018-09-04 腾讯科技(深圳)有限公司 音频处理方法及音频处理装置
US10388265B2 (en) * 2017-06-20 2019-08-20 Signal/Noise Solutions L.L.C. Systems and methods for enhancing a signal-to-noise ratio
US9886939B2 (en) * 2017-06-20 2018-02-06 Signal/Noise Solutions, L.L.C. Systems and methods for enhancing a signal-to-noise ratio
US11089425B2 (en) * 2017-06-27 2021-08-10 Lg Electronics Inc. Audio playback method and audio playback apparatus in six degrees of freedom environment
CN117037814A (zh) 2017-08-10 2023-11-10 华为技术有限公司 时域立体声参数的编码方法和相关产品
US11257478B2 (en) 2017-10-20 2022-02-22 Sony Corporation Signal processing device, signal processing method, and program
WO2019078035A1 (ja) * 2017-10-20 2019-04-25 ソニー株式会社 信号処理装置および方法、並びにプログラム
EP3570566B1 (en) * 2018-05-14 2022-12-28 Nokia Technologies Oy Previewing spatial audio scenes comprising multiple sound sources
CN109297583B (zh) * 2018-09-14 2020-07-24 北京理工大学 汽车车内双耳异响时变噪声响度评价方法
US11503423B2 (en) * 2018-10-25 2022-11-15 Creative Technology Ltd Systems and methods for modifying room characteristics for spatial audio rendering over headphones
US10582299B1 (en) * 2018-12-11 2020-03-03 Amazon Technologies, Inc. Modeling room acoustics using acoustic waves
JP7396459B2 (ja) * 2020-03-09 2023-12-12 日本電信電話株式会社 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
WO2021187229A1 (ja) * 2020-03-18 2021-09-23 ソニーグループ株式会社 音響処理装置、音響処理方法および音響処理プログラム
KR102500157B1 (ko) 2020-07-09 2023-02-15 한국전자통신연구원 오디오 신호의 바이노럴 렌더링 방법 및 장치
CN112037825B (zh) * 2020-08-10 2022-09-27 北京小米松果电子有限公司 音频信号的处理方法及装置、存储介质
JP7487060B2 (ja) * 2020-09-28 2024-05-20 株式会社デンソーテン 音響装置および音響制御方法
JP2022144500A (ja) * 2021-03-19 2022-10-03 ヤマハ株式会社 音信号処理方法および音信号処理装置
US11665377B2 (en) 2021-04-23 2023-05-30 At&T Intellectual Property I, L.P. System and method for identifying encrypted, pre-recorded media content in packet data networks
WO2023274400A1 (zh) * 2021-07-02 2023-01-05 北京字跳网络技术有限公司 音频信号的渲染方法、装置和电子设备
US20230086521A1 (en) * 2021-09-20 2023-03-23 Tencent America LLC Feature compression for video coding for machines
US11877143B2 (en) * 2021-12-03 2024-01-16 Microsoft Technology Licensing, Llc Parameterized modeling of coherent and incoherent sound
WO2024081957A1 (en) * 2022-10-14 2024-04-18 Virtuel Works Llc Binaural externalization processing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
CN1879450A (zh) * 2003-11-12 2006-12-13 莱克技术有限公司 音频信号处理系统和方法
EP1768107A1 (en) * 2004-07-02 2007-03-28 Matsushita Electric Industrial Co Ltd Audio signal decoding device and audio signal encoding device
CN102172047A (zh) * 2008-07-31 2011-08-31 弗劳恩霍夫应用研究促进协会 双耳信号的信号生成

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06335094A (ja) * 1993-05-25 1994-12-02 Matsushita Electric Ind Co Ltd 音場再生装置
JP3498888B2 (ja) * 1996-10-11 2004-02-23 日本ビクター株式会社 サラウンド信号処理装置と方法及び映像音声再生方法、記録媒体への記録方法及び記録装置、記録媒体、処理プログラムの伝送方法及び受信方法、並びに記録データの伝送方法及び受信方法
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
US6188769B1 (en) * 1998-11-13 2001-02-13 Creative Technology Ltd. Environmental reverberation processor
US20020067836A1 (en) * 2000-10-24 2002-06-06 Paranjpe Shreyas Anand Method and device for artificial reverberation
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
JP3598993B2 (ja) * 2001-05-18 2004-12-08 ソニー株式会社 符号化装置及び方法
JP4062959B2 (ja) * 2002-04-26 2008-03-19 ヤマハ株式会社 残響付与装置、残響付与方法、インパルス応答生成装置、インパルス応答生成方法、残響付与プログラム、インパルス応答生成プログラムおよび記録媒体
JP4077279B2 (ja) * 2002-08-30 2008-04-16 アルパイン株式会社 残響レベル制御装置
US7412380B1 (en) * 2003-12-17 2008-08-12 Creative Technology Ltd. Ambience extraction and modification for enhancement and upmix of audio signals
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
KR100764903B1 (ko) 2004-09-07 2007-10-09 김병두 발전소용 미분탄 보일러 노 구조
DE102004043521A1 (de) * 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
KR101271069B1 (ko) 2005-03-30 2013-06-04 돌비 인터네셔널 에이비 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법
CN101278598B (zh) * 2005-10-07 2011-05-25 松下电器产业株式会社 音频信号处理装置以及音频信号处理方法
US8670570B2 (en) * 2006-11-07 2014-03-11 Stmicroelectronics Asia Pacific Pte., Ltd. Environmental effects generator for digital audio signals
WO2008111143A1 (ja) * 2007-03-09 2008-09-18 Pioneer Corporation 音場再生装置及び音場再生方法
US7742746B2 (en) * 2007-04-30 2010-06-22 Qualcomm Incorporated Automatic volume and dynamic range adjustment for mobile audio devices
ES2524428T3 (es) * 2009-06-24 2014-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio
GB2485979A (en) * 2010-11-26 2012-06-06 Univ Surrey Spatial audio coding
JP2012150278A (ja) * 2011-01-19 2012-08-09 Kitakyushu Foundation For The Advancement Of Industry Science And Technology 仮想空間のビジュアル変化に対応した音響効果の自動生成システム
EP2541542A1 (en) * 2011-06-27 2013-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal
KR101844336B1 (ko) * 2011-08-01 2018-04-02 삼성전자주식회사 공간감을 제공하는 신호 처리 장치 및 신호 처리 방법
US9420393B2 (en) * 2013-05-29 2016-08-16 Qualcomm Incorporated Binaural rendering of spherical harmonic coefficients

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
CN1879450A (zh) * 2003-11-12 2006-12-13 莱克技术有限公司 音频信号处理系统和方法
EP1768107A1 (en) * 2004-07-02 2007-03-28 Matsushita Electric Industrial Co Ltd Audio signal decoding device and audio signal encoding device
CN102172047A (zh) * 2008-07-31 2011-08-31 弗劳恩霍夫应用研究促进协会 双耳信号的信号生成

Also Published As

Publication number Publication date
US11445323B2 (en) 2022-09-13
JP2023071866A (ja) 2023-05-23
JP6374502B2 (ja) 2018-08-15
JP6879979B2 (ja) 2021-06-02
EP4297017A2 (en) 2023-12-27
US20180206059A1 (en) 2018-07-19
TW201521017A (zh) 2015-06-01
JP2021114799A (ja) 2021-08-05
PL3606102T3 (pl) 2024-06-17
AU2014295165A1 (en) 2016-03-10
US20230032120A1 (en) 2023-02-02
WO2015011055A1 (en) 2015-01-29
BR112016001136B1 (pt) 2022-05-24
KR101771533B1 (ko) 2017-08-25
CN105519139A (zh) 2016-04-20
US11910182B2 (en) 2024-02-20
MX2016000699A (es) 2016-04-13
AU2014295165B2 (en) 2017-03-16
JP2018182757A (ja) 2018-11-15
US10848900B2 (en) 2020-11-24
RU2642376C2 (ru) 2018-01-24
MX2016000698A (es) 2016-04-15
BR112016001136A2 (zh) 2017-07-25
EP3606102B1 (en) 2023-12-13
JP2016531484A (ja) 2016-10-06
US20160255453A1 (en) 2016-09-01
EP3606102A1 (en) 2020-02-05
SG11201600370UA (en) 2016-02-26
EP3606102C0 (en) 2023-12-13
EP3025520B1 (en) 2019-09-18
RU2016105692A (ru) 2017-08-25
KR20160046800A (ko) 2016-04-29
JP7241447B2 (ja) 2023-03-17
EP4297017A3 (en) 2024-03-06
TWI555011B (zh) 2016-10-21
ES2968380T3 (es) 2024-05-09
CA2918279C (en) 2018-08-07
CA2918279A1 (en) 2015-01-29
EP2840811A1 (en) 2015-02-25
ES2760873T3 (es) 2020-05-18
AR097002A1 (es) 2016-02-10
EP3025520A1 (en) 2016-06-01
US20240171931A1 (en) 2024-05-23
PL3025520T3 (pl) 2020-04-30
PT3025520T (pt) 2019-12-18
US20210067898A1 (en) 2021-03-04
US9955282B2 (en) 2018-04-24
ZA201601079B (en) 2017-08-30

Similar Documents

Publication Publication Date Title
CN105519139B (zh) 音频信号处理方法、信号处理单元、双耳渲染器、音频编码器和音频解码器
US11856388B2 (en) Method for processing an audio signal in accordance with a room impulse response, signal processing unit, audio encoder, audio decoder, and binaural renderer

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant