CN108780651B - 多声道译码 - Google Patents

多声道译码 Download PDF

Info

Publication number
CN108780651B
CN108780651B CN201780015738.7A CN201780015738A CN108780651B CN 108780651 B CN108780651 B CN 108780651B CN 201780015738 A CN201780015738 A CN 201780015738A CN 108780651 B CN108780651 B CN 108780651B
Authority
CN
China
Prior art keywords
windows
window
signal
length
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780015738.7A
Other languages
English (en)
Other versions
CN108780651A (zh
Inventor
V·S·C·S·奇比亚姆
V·S·阿提
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN108780651A publication Critical patent/CN108780651A/zh
Application granted granted Critical
Publication of CN108780651B publication Critical patent/CN108780651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

本发明提供一种装置,其包含接收器及解码器。所述接收器经配置以接收由编码器基于多个视窗而编码的立体声参数,所述多个视窗具有为所述多个视窗的间的重叠部分的第一长度。所述解码器经配置以使用所述立体声参数来执行上混操作以产生至少两个音频信号。所述至少两个音频信号基于用于所述上混操作中的第二多个视窗而产生。所述第二多个视窗具有为所述第二多个视窗的间的重叠部分的第二长度。所述第二长度不同于所述第一长度。

Description

多声道译码
优先权申明
本申请案要求保护2016年3月18日申请的标题为“多声道译码(MULTI CHANNELCODING)”的共同拥有的美国临时专利申请案第62/310,635号及2017年3月16日申请的标题为“多声道译码(MULTI CHANNEL CODING)”的美国非临时专利申请案第15/461,312号的优先权权益,上述申请案中的每一者的内容以全文引用的方式明确并入本文中。
技术领域
本发明大体上涉及音频译码。
背景技术
计算装置可包含多个麦克风以接收音频信号。在多声道编码解码系统中,译码器(例如,编码器、解码器或两者)可经配置以在一或多个域(诸如变换域、时域、混合域或另一域,作为说明性非限制性实例)中起作用。在立体声编码中,来自麦克风的音频信号可经编码以产生中间声道信号(mid channel signal)及一或多个侧声道信号(side channelsignal)。举例来说,当立体声(2声道)信号经译码时,可在变换域(诸如离散傅里叶变换(DFT)域)中的一或多个频带中估计空间参数的集合。另外或替代地,可在一或多个子帧的时域中估计空间参数的另一集合。可在变换域或时域中执行其它波形译码。中间声道信号可对应于第一音频信号与第二音频信号的总和。另外,在立体声解码中,中间声道信号及一或多个侧声道信号可经解码以产生多个输出信号。
在多声道编码解码系统中,可对音频信号执行DFT变换以将音频信号从时域转换成变换域。可使用视窗(例如,分析视窗)来对音频信号的一部分执行DFT变换。视窗可包含将一些延迟引入到译码过程(例如,编码及解码)的预看部分。基于编码过程及解码过程的预看部分所引入的延迟促成用以对音频信号进行编码及解码的多声道编码解码系统的延迟总量。
发明内容
在特定方面中,一种装置包含接收器及解码器。所述接收器经配置以接收由编码器基于多个视窗而编码的立体声参数,所述多个视窗具有为所述多个视窗的间的重叠部分的第一长度。所述解码器经配置以使用所述立体声参数来执行上混操作以产生至少两个音频信号。所述至少两个音频信号基于用于所述上混操作中的第二多个视窗而产生。所述第二多个视窗具有为所述第二多个视窗的间的重叠部分的第二长度。所述第二长度不同于所述第一长度。
在另一特定方面中,一种方法包含接收由编码器基于多个视窗而编码的立体声参数,所述多个视窗具有为所述多个视窗的间的重叠部分的第一长度。所述方法进一步包含使用所述立体声参数来基于上混操作产生至少两个音频信号。所述至少两个音频信号基于用于所述上混操作中的第二多个视窗而产生。所述第二多个视窗具有为所述第二多个视窗的间的重叠部分的第二长度。所述第二长度不同于所述第一长度。
在另一特定方面中,一种设备包含用于接收由编码器基于多个视窗而编码的立体声参数的装置,所述多个视窗具有为所述多个视窗的间的重叠部分的第一长度。所述设备还包含用于使用所述立体声参数来执行一上混操作以产生至少两个音频信号的装置。所述至少两个音频信号基于用于所述上混操作中的第二多个视窗而产生。所述第二多个视窗具有为所述第二多个视窗的间的重叠部分的一第二长度。所述第二长度不同于所述第一长度。
在另一特定方面中,一种计算机可读存储装置存储在由一处理器执行时使得所述处理器执行包含以下操作的指令:接收由一编码器基于多个视窗而编码的立体声参数,所述多个视窗具有为所述多个视窗的间的重叠部分的一第一长度。所述操作还包含使用所述立体声参数来基于上混操作产生至少两个音频信号。所述至少两个音频信号基于用于所述上混操作中的第二多个视窗而产生。所述第二多个视窗具有为所述第二多个视窗的间的重叠部分的第二长度。所述第二长度不同于所述第一长度。
本发明的其它方面、优点及特征将在检阅本申请案之后变得显而易见,本申请案包含以下部分:附图说明、具体实施方式及权利要求书。
附图说明
图1为包含可操作以对多个音频信号进行编码的编码器及可操作以对多个音频信号进行解码的解码器的系统的特定说明性实例的框图;
图2为说明图1的编码器的实例的图;
图3为说明图1的解码器的实例的图;
图4包含用于由图1的系统执行的编码及解码的视窗的第一说明性实例;
图5包含用于由图1的系统执行的编码及解码的视窗的第二说明性实例;
图6包含用于由图1的系统执行的编码及解码的视窗的第三说明性实例;
图7为说明操作译码器的方法的实例的流程图;
图8为说明操作译码器的方法的实例的流程图;及
图9为可操作以对多个音频信号进行编码的装置的特定说明性实例的框图。
具体实施方式
下文参考图式描述本发明的特定方面。在描述中,共同特征由共同参考数字指定。如本文所使用,各种术语仅仅用于描述特定实施方案的目的,且并不旨在限制实施方案。举例来说,除非上下文另外明确指示,否则单数形式“一”、“一个”及“所述”旨在同样包含复数形式。可进一步理解,术语“包括(comprise/comprises/comprising)”可与“包含(include/includes/including)”互换使用。另外,应理解,术语“其中(wherein)”可与“在…的情况下(where)”互换使用。如本文中所使用,用以修饰元件(诸如结构、组件、操作等)的序数术语(例如,“第一”、“第二”、“第三”等)本身不指示元件相对于另一元件的任何优先级或次序,而是仅将元件与具有相同名称(但使用序数术语)的另一元件区别开。如本文所使用,术语“集合”指代一或多个特定元件,且术语“多个”指代多个(例如,两个或多于两个)特定元件。
在本发明中,诸如“确定”、“计算”、“移位”、“调整”等的术语可用以描述如何执行一或多个操作。应注意,这些术语不应被解释为限制性的,且其它技术可用以执行类似操作。另外,如本文中所提及,“产生”、“计算”、“使用”、“选择”、“存取”与“确定”可互换使用。举例来说,“产生”、“计算”或“确定”参数(或信号)可指积极地产生、计算或确定参数(或信号),或可指使用、选择或存取已(诸如)由另一组件或装置产生的参数(或信号)。
在本发明中,揭示可操作以对多个音频信号进行译码(例如,编码、解码或两者)的系统及装置。在一些实施方案中,编码器/解码器视窗化(windowing)可能针对多声道信号译码不匹配以减小解码延迟,如本文中进一步描述。
装置可包含经配置以对多个音频信号进行编码的编码器,经配置以对多个音频信号进行解码的解码器、或两者。可使用多个记录装置(例如,多个麦克风)同时及时地捕获多个音频信号。在一些实例中,可通过对若干同时或非同时记录的音频声道进行多工来合成地(例如,人工地)产生多个音频信号(或多声道音频)。作为说明性实例,音频声道的并行记录或多路复用可产生2声道配置(即,立体声:左及右)、5.1声道配置(左、右、中央、左环绕、右环绕及低频重音(LFE)声道)、7.1声道配置、7.1+4声道配置、22.2声道配置或N声道配置。
在一些系统中,编码器与解码器可作为一对操作。编码器可执行一或多个操作以对音频信号进行编码,且解码器可(以反次序)执行一或多个操作以产生经解码音频输出。为了说明,编码器及解码器中的每一者可经配置以执行变换操作(例如,DFT操作)及反变换操作(例如,IDFT操作)。举例来说,编码器可将音频信号从时域变换成变换域以估计变换域频带(诸如DFT频带)中的一或多个参数(例如,声道间立体声参数)。编码器还可基于所估计一或多个参数而对一或多个音频信号进行波形译码。作为另一实例,解码器可在将一或多个所接收参数应用于所接收音频信号之前将所合成音频信号从时域变换成变换域。
在每一变换操作之前且在每一反变换操作之后,信号(例如,音频信号)“经视窗化”以产生经视窗化样本且经视窗化样本用以执行变换操作或反变换操作。在一些实施例中,在多声道译码或立体声译码中,在变换域中执行立体声降混操作,且发射所估计立体声提示参数连同侧声道及中间声道经译码位流。在反变换立体声降混中间信号及侧信号之后,(例如)使用ACELP/BWE或TCX译码来对中间声道及侧声道进行编码。在解码器处,中间声道及侧声道经解码、经视窗化、经变换成频域,随后进行立体声上混处理、反变换及视窗重叠添加以产生多声道(或立体声声道)以供显现。如本文所使用,将视窗应用于信号或视窗化信号包含缩放信号的一部分以产生信号的样本的时间范围。缩放所述部分可包含将信号的所述部分乘以对应于视窗的形状的值。
在一些实施方案中,编码器及解码器可实施不同的视窗化方案。由编码器或解码器实施的特定视窗化方案可用于DFT分析(例如,以执行DFT变换)或可用于DFT合成(例如,以执行反DFT反变换)。如本文所使用,视窗(或分析合成视窗)为分析视窗、合成视窗或分析视窗及对应合成视窗两者。作为由编码器及解码器实施的不同视窗化方案的实例,编码器可应用具有第一集合的特性(例如,第一集合的参数)的第一视窗,且解码器可应用具有第二集合的特性(例如,第二集合的参数)的第二视窗。第一集合的特性中的一或多个特性可不同于第二集合的特性。举例来说,作为说明性非限制性实例,第一集合的特性可在视窗的重叠部分大小的大小(例如,基于预看量)、补零(zero padding)的量、视窗的跃点大小、视窗的中心、视窗的平坦部分的大小、视窗的形状或其组合方面不同于第二集合的特性。在一些实施方案中,编码器处的第一视窗(例如,在多声道或立体声降混处理中)经配置以产生第一经视窗化样本,且解码器处的第二视窗(例如,在多声道或立体声上混处理中)经配置以产生第二经视窗化样本。第一经视窗化样本及第二经视窗化样本可对应于与系统的编码器延迟及解码器延迟相关联的不同时间帧或不同样本集合。第一经视窗化样本与第二经视窗化样本可具有相同DFT区间分辨率或可具有不同DFT区间分辨率。举例来说,编码器处的第一视窗可为25ms长,从而产生40Hz DFT区间(频率)分辨率,且解码器处的第二视窗可为20ms长,从而产生50Hz DFT区间(频率)分辨率。视窗可包含重叠部分、平坦部分及补零部分。
由所揭示方面中的至少一者提供的一个特定优点为可减小译码延迟。此外,可显著地减小译码器的计算复杂度。举例来说,通过使第一视窗与第二视窗不匹配(例如,解码器处的第二视窗的补零部分或重叠部分可短于编码器处的第一视窗的补零部分或重叠部分),可相比于其中编码器与解码器两者使用相同第一视窗(具有大重叠部分及补零部分)且应用于对应于样本的相同时间范围的样本上的系统而减小延迟。
参考图1,描绘系统100的特定说明性实例。系统100包含经由网络120以通信方式耦合到第二装置106的第一装置104。网络120可包含一或多个无线网络、一或多个有线网络或其组合。
第一装置104可包含编码器114、发射器110、一或多个输入接口112或其组合。输入接口112中的第一输入接口可耦合到第一麦克风146。输入接口112中的第二输入接口可耦合到第二麦克风148。编码器114可包含样本产生器108及变换装置109,且可经配置以对多个音频信号进行编码,如本文中所描述。
第一装置104还可包含经配置以存储第一视窗参数152的存储器153。第一视窗参数152可界定待由样本产生器108应用于音频信号(诸如第一音频信号130或第二音频信号132)的至少一部分的第一视窗或第一视窗化方案。举例来说,样本产生器108可将第一视窗(基于第一视窗参数152)应用于音频信号的至少一部分,以产生经提供到变换装置109的经视窗化样本111。变换装置109可经配置以对经视窗化样本执行变换操作,诸如变换操作(例如,DFT操作)或反变换操作(例如,IDFT操作)。
视窗化方案190的实例包含多个视窗,诸如第一视窗(n-1)192、第二视窗(n)191及第三视窗(n+1)193,其中n为整数。尽管视窗化方案190被描述为具有三个视窗,但在其它实施方案中,视窗化方案可包含多于或少于三个视窗。
参考第二视窗(n)191,第二视窗(n)191包含补零部分194、196、视窗中心195及平坦部分198。补零部分194、196可包含于第二视窗(n)191中,(例如)以控制第二视窗(n)191的总长度(例如,持续时间)。平坦部分198可对应于(例如)1的缩放因数。第二视窗(n)191还可包含多个重叠部分,诸如代表性重叠部分199。跃点大小197可指示第二视窗(n)191相对于第一视窗(n-1)192的偏移。视窗化方案190的任何两个连续视窗的间的跃点大小可相同。
第二装置106可包含解码器118、存储器175、接收器178、一或多个输出接口177或其组合。第二装置106的接收器178可经由网络120从第一装置104接收经编码音频信号(例如,一或多个位流)、一或多个参数或两者。解码器118可包含样本产生器172及变换装置174,且可经配置以显现多个声道。第二装置106可耦合到第一扬声器(loudspeaker)142、第二扬声器144或两者。
存储器175可经配置以存储第二视窗参数176。第二视窗参数176可界定待由样本产生器172应用于音频信号(诸如经编码音频信号(例如,侧位流164、中间位流166或两者))的至少一部分的第二视窗或第二视窗化方案。举例来说,样本产生器172可将第二视窗(基于第二视窗参数176)应用于经编码音频信号的至少一部分,以产生经提供到变换装置174的经视窗化样本。变换装置174可经配置以对经视窗化样本执行变换操作,诸如变换操作(例如,DFT操作)或反变换操作(例如,IDFT操作)。
由编码器114使用的(第一装置104的)第一视窗参数152与由解码器118使用的(第二装置106的)第二视窗参数176可不匹配。举例来说,作为说明性非限制性实例,第一视窗(其由第一视窗参数152界定)可在视窗的重叠部分大小的大小(例如,基于预看量)、补零的量、视窗的跃点大小、视窗的中心、视窗的平坦部分的大小、视窗的形状或其组合方面不同于第二视窗(其由第二视窗参数176界定)。在一些实施方案中,编码器114处的第一视窗(例如,在多声道或立体声降混处理中)经配置以产生第一经视窗化样本,且解码器118处的第二视窗(例如,在多声道或立体声上混处理中)经配置以产生第二经视窗化样本。在一些实施方案中,第一视窗由编码器114使用以产生第一经视窗化样本,且第二视窗由解码器118使用以产生第二经视窗化样本。第一经视窗化样本与第二经视窗化样本可具有相同DFT区间(或频率)分辨率或可具有不同DFT区间分辨率。
在操作期间,第一装置104可经由第一输入接口从第一麦克风146接收第一音频信号130,且可经由第二输入接口从第二麦克风148接收第二音频信号132。第一音频信号130可对应于右声道信号或左声道信号中的一者。第二音频信号132可对应于右声道信号或左声道信号中的另一者。在一些实施方案中,相比于接近第二麦克风148,声源152(例如,用户、说话者、环境噪声、乐器等)可更接近第一麦克风146。因此,可在输入接口112处经由第一麦克风146以比经由第二麦克风148早的时间接收到来自声源152的音频信号。经由多个麦克风的多声道信号获取中的此固有延迟可在第一音频信号130与第二音频信号132的间引入时间移位。在一些实施方案中,编码器114可经配置以调整(例如,移位)第一音频信号130或第二音频信号132中的至少一者,以在时间上及时地对准第一音频信号130与第二音频信号132。举例来说,编码器118可相对于(第二音频信号132的)第二帧移位(第一音频信号130的)第一帧。
样本产生器108可将第一视窗(基于第一视窗参数152)应用于音频信号的至少一部分,以产生经提供到变换装置109的经视窗化样本111。可在时域中产生经视窗化样本111。变换装置109(例如,频域立体声译码器)可将一或多个时域信号(诸如经视窗化样本(例如,第一音频信号130及第二音频信号132))变换成频域信号。频域信号可用以估计立体声提示162。立体声提示162可包含使得能够显现与左声道及右声道相关联的空间属性的参数。根据一些实施方案,立体声提示162可包含各种参数,诸如声道间强度差(IID)参数(例如,声道间电平差(ILD)、声道间时差(ITD)参数、声道间相位差(IPD)参数、声道间相关性(ICC)参数、立体声填充参数、非因果移位参数、频谱倾斜参数、声道间发声参数、声道间间距参数、声道间增益参数等,作为说明性非限制性实例)。可在立体声降混处理期间在频域立体声译码器109处使用立体声提示162。立体声提示162还可作为经编码信号的部分发射。相对于图2更详细地描述对立体声提示162的估计及使用。
编码器114还可至少部分基于频域信号而产生侧位流164及中间位流166。出于说明的目的,除非另外指出,否则假设第一音频信号130为左声道信号(l或L),且第二信号132为右声道信号(r或R)。第一音频信号130的频域表示可注解为Lfr(b)且第二音频信号132的频域表示可注解为Rfr(b),其中b表示频率区间的频带。根据一个实施方案,可在频域中从第一音频信号130及第二音频信号132的频域表示产生侧信号Sfr(b)。举例来说,侧信号Sfr(b)可表达为(Lfr(b)-Rfr(b))/2。可将侧信号Sfr(b)提供到“侧或残余”编码器以产生侧位流164。根据一个实施方案,可在频域中从第一音频信号130及第二音频信号132的频域表示产生中间信号Mfr(b)。根据一个实施方案,中间信号Mfr(b)可产生于频域中且变换成中间信号m(t)的频域。根据另一实施方案,中间信号m(t)可产生于时域中且变换成频域。举例来说,中间信号m(t)可表达为(l(t)+r(t))/2。相对于图2更详细地描述产生中间信号及侧信号。可将时域/频域中间信号提供到中间信号编码器以产生中间位流166。
可使用多个技术来对侧信号Sfr(b)及中间信号m(t)或Mfr(b)进行编码。根据一个实施方案,可使用具有用于高频带译码的频宽扩展的时域技术(诸如代数码激励线性预测(ACELP))来对时域中间信号m(t)进行编码。
侧译码的一个实施方案包含使用频率中间信号Mfr(b)及对应于频带(b)的立体声提示162(例如,ILD)中的信息来自频域中间信号Mfr(b)预测侧信号SPRED(b)。举例来说,所预测侧信号SPRED(b)可表达为Mfr(b)×(ILD(b)-1)/(ILD(b)+1)。频带(b)中的错误信号(或残余信号)e(b)可经计算为侧信号Sfr(b)及所预测侧信号SPRED(b)的函数。举例来说,错误信号e(b)可表达为Sfr(b)-SPRED(b)。可使用变换域译码技术来对错误信号e(b)进行译码以产生经译码错误信号eCODED(b)。对于上部频带,错误信号e(b)可表达为来自先前帧的频带(b)中的中间信号M_PASTfr(b)的经缩放版本。举例来说,经译码错误信号eCODED(b)可表达为gPRED(b)×M_PASTfr(b),其中在一些实施方案中,可估计gPRED(b)使得e(b)-gPRED(b)×M_PASTfr(b)的能量大体上减少(例如,最小化)。gPRED(b)值可被替代地称作立体声填充增益。
发射器110可经由网络120将立体声提示162、侧位流164、中间位流166或其组合发射到第二装置106。替代地或另外,发射器110可在网络120的装置或本地装置处存储立体声提示162、侧位流164、中间位流166或其组合以供稍后进行进一步处理或解码。
解码器118可基于立体声提示162、侧位流164及中间位流166而执行解码操作。样本产生器172可将第二视窗(基于第二视窗参数176)应用于所接收经编码(例如,经合成中间信号或侧信号)信号(例如,基于侧位流164、中间位流166或两者)的至少一部分,以产生经提供到变换装置174的经视窗化样本。经视窗化样本可产生于时域中。变换装置174(例如,频域立体声译码器)可将一或多个时域信号(诸如经视窗化样本(例如,侧位流164、中间位流166或两者))变换成频域信号。立体声提示162可应用于频域信号。
通过应用立体声提示162,解码器118可执行立体声上混过程且产生第一输出信号126(例如,对应于第一音频信号130)、第二输出信号128(例如,对应于第二音频信号132)或两者。第二装置106可经由第一扬声器142输出第一输出信号126。第二装置106可经由第二扬声器144输出第二输出信号128。在替代性实例中,第一输出信号126及第二输出信号128可作为立体声信号对发射到单个输出扬声器。
尽管已将第一装置104及第二装置106描述为单独装置,但在其它实施方案中,第一装置104可包含参考第二装置106所描述的一或多个组件。另外或替代地,第二装置106可包含参考第一装置104所描述的一或多个组件。举例来说,单个装置可包含编码器114、解码器118、发射器110、接收器178、一或多个输入接口112、一或多个输出接口177及存储器。单个装置的存储器可包含界定待由编码器114应用的第一视窗的第一视窗参数152及界定待由解码器176应用的第二视窗的第二视窗参数176。
在特定实施方案中,第二装置106包含经配置以接收由(第一装置104的)编码器114基于多个视窗(例如,特定视窗化方案)而编码的立体声参数(例如,立体声提示162)的接收器178,所述多个视窗具有为所述多个视窗的间的重叠部分的第一长度。接收器178还可经配置以接收中间信号,诸如由编码器114使用立体声参数(例如,立体声提示162)来基于降混操作而产生的中间位流166,如参考图2所描述。
如进一步参考图3所描述,第二装置106进一步包含解码器118,解码器118经配置以使用立体声参数来执行上混操作以产生至少两个音频信号(诸如第一输出信号126及第二输出信号128)。第二多个视窗经配置以产生小于对应于多个视窗的视窗重叠的解码延迟。换句话说,解码器处的第二多个视窗的帧间重叠小于对应编码器处的多个视窗的帧间重叠。基于具有为第二多个视窗的间的重叠部分的第二长度的第二多个视窗而产生至少两个音频信号。第二长度不同于第一长度。举例来说,第二长度小于第一长度。在一些实施方案中,使用立体声参数及中间信号来执行上混操作。在一些实施方案中,接收器经配置以接收包含立体声参数的音频信号,且解码器118经配置以在对音频信号进行解码期间应用第二多个视窗,以产生经视窗化时域音频解码信号。
在一些实施方案中,由编码器114使用的多个视窗中的每一视窗的总长度不同于由解码器118使用的第二多个视窗中的每一视窗的总长度。另外或替代地,与编码器114处的变换域中的每一频率区间相关联的第一频宽不同于与解码器118处的变换域中的每一频率区间相关联的第二频宽。
在一些实施方案中,多个视窗与第一跃点长度相关联且第二多个视窗与第二跃点长度相关联。第一跃点长度不同于第二跃点长度。另外或替代地,每音频数据的每一帧的多个视窗可包含与第二多个视窗不同的视窗数目。在一些实施方案中,多个视窗中的第一视窗与第二多个视窗中的第二视窗大小相同。在特定实施方案中,多个视窗中的每一视窗是对称的,且第二多个视窗中的第一特定视窗(例如,个别地或相对于第二多个视窗中的第二特定视窗)是不对称的。
在一些实施方案中,第二多个视窗的视窗重叠是不对称的。另外或替代地,第二多个视窗中的一对连续视窗中的第一视窗是不对称的。第一视窗与第二视窗的第一重叠部分的第三长度不同于第二视窗与第二对连续视窗中的第三视窗的第二重叠部分的第四长度。在其它实施方案中,第二多个视窗中的一对连续视窗中的两个视窗是对称的。
在一些实施方案中,第二装置106包含编码器,所述编码器经配置以在对第二音频信号的编码期间应用多个视窗以产生经视窗化时域音频编码信号。第二装置106可进一步包含发射器,所述发射器经配置以发射基于经视窗化时域音频编码信号所产生的输出位流(例如,输出音频信号)。
系统100可因此实现减少的译码延迟。举例来说,通过使第一视窗(由编码器114应用)与第二视窗(由解码器118应用)不匹配(例如,解码器的第二视窗的重叠部分可短于编码器的第一视窗的重叠部分),可相比于其中编码器变换视窗与解码器变换视窗准确地匹配且将所述视窗应用于对应于样本的相同时间范围的样本上的系统而减少延迟。
参考图2,展示说明编码器114的特定实施方案的图。第一信号290及第二信号292可对应于左声道信号及右声道信号。在一些实施方案中,左声道信号或右声道信号中的一者(“目标”信号)已相对于左声道信号或右声道信号中的另一者(“参考”信号)经时间移位,以增大译码效率(例如,以减少侧信号能量)。在一些实例中,第一信号或参考信号290可包含经视窗化左声道信号,且第二信号或目标信号292可包含经视窗化右声道信号。视窗可基于第一视窗参数152。然而,应理解,在其它实例中,参考信号290可包含经视窗化右声道信号且目标信号292可包含经视窗化左声道信号。在其它实施方案中,参考声道290可为左或右经视窗化声道中的在逐帧基础上所选的任一者,且类似地,目标信号292可为左或右经视窗化声道中的另一者。出于下文描述的目的,提供参考信号290包含经视窗化左声道信号(L)且目标信号292包含经视窗化右声道信号(R)的特定状况的实例。可平常地扩展对于其它状况的类似描述。还应理解,可使用硬件(例如,专用电路)、软件(例如,由处理器执行的指令)或其任何组合来实施图2中所说明的各种组件(例如,变换、信号产生器、编码器、估计器等)。
可对参考信号290(或左声道)执行变换202,且可对目标信号292(或右声道)执行变换204。变换202、204可由产生频域(或子频带域或经滤波低频带核心及高频带频宽扩展)信号的变换操作执行。作为非限制性实例,执行变换202、204可包含对经视窗化左声道290及经视窗化右声道292执行离散傅里叶变换(DFT)操作、快速傅里叶变换(FFT)操作、经修改离散余弦变换(MDCT)等。在一些其它实施方案中,基于第一视窗参数152的视窗化可为变换装置109的部分且可为变换202、204的部分。根据一些实施方案,正交镜相滤波器组(QMF)操作(使用滤波器频带,诸如复杂低延迟滤波器组)可用以使输入信号(例如,参考信号290及目标信号292)分裂成多个子频带,且可使用另一频域变换操作来将子频带转化成频域。变换202可应用于参考信号290以产生频域参考信号(Lfr(b))230,且变换204可应用于目标信号292以产生频域目标信号(Rfr(b))232。变换202、204操作可包含基于第一视窗参数152的视窗化操作。可将频域参考信号230及频域目标信号232提供到立体声提示估计器206及侧信号产生器208。
立体声提示估计器206可基于频域参考信号230及频域目标信号232而提取(例如,产生)立体声提示162。为了说明,IID(b)可为频带(b)中的左声道的能量EL(b)及频带(b)中的右声道的能量ER(b)的函数。举例来说,IID(b)可表达为20×log10(EL(b)/ER(b))。在编码器处估计且发射的IPD可提供频带(b)中的左声道与右声道的间的相位差在频域中的估计。立体声提示162可包含额外(或替代)参数,诸如ICC、ITD等。可将立体声提示162发射到图1的第二装置106,提供到侧信号产生器208,且提供到侧信号编码器210。在一些实施方案中,立体声参数中的至少一个参数经帧间内插,且(立体声参数的)至少一个经内插参数或至少一个未经内插值被发送到解码器(诸如图1的解码器118)且由解码器使用。举例来说,可在编码器处执行内插,且可将至少一个经内插参数发送到解码器。替代地,将立体声参数从编码器发送到解码器,且解码器执行帧间内插以产生至少一个经内插参数。
侧信号产生器208可基于频域参考信号230及频域目标信号232而产生频域侧信号(Sfr(b))234。可在频域区间/频带中估计频域侧信号234。在每一频带中,增益参数(g)可不同且可基于声道间电平差(例如,基于立体声提示162)。举例来说,频域侧信号234可表达为(Lfr(b)-c(b)×Rfr(b))/(1+c(b)),其中c(b)可为ILD(b)或ILD(b)的函数(例如,c(b)=10^(ILD(b)/20))。可将频域侧信号234提供到反变换250。举例来说,频域侧信号234可经反变换回到时域以产生时域侧信号S(t)235或经变换到MDCT域,以供译码。可将时域侧信号235提供到侧信号编码器210。
可将频域参考信号230及频域目标信号232提供到中间信号产生器212。根据一些实施方案,还可将立体声提示162提供到中间信号产生器212。中间信号产生器212可基于频域参考信号230及频域目标信号232而产生频域中间信号Mfr(b)238。根据一些实施方案,还可基于立体声提示162而产生频域中间信号Mfr(b)238。基于频域参考声道230、目标声道232及立体声提示162产生中间信号238的一些方法如下。
Mfr(b)=(Lfr(b)+Rfr(b))/2
Mfr(b)=c1(b)×Lfr(b)+c2×Rfr(b),其中c1(b)及c2(b)为复值。
在一些实施方案中,复值c1(b)及c2(b)是基于立体声提示162。举例来说,在中间侧降混的一个实施方案中,当估计IPD时,c1(b)=(cos(-γ)-i×sin(-γ))/20.5且c2(b)=(cos(IPD(b)-γ)+i×sin(IPD(b)-γ))/20.5,其中i为表示-1的平方根的虚数。
可将频域中间信号238提供到反变换252。举例来说,频域中间信号238可经反变换到时域以产生时域中间信号236,或经变换到MDCT域,以供译码。在反变换252之后,中间信号可经视窗化且与先前帧的经视窗化中间信号重叠部分重叠相加。此视窗可类似于或不同于用于变换202、204中的视窗。出于有效侧频带信号编码的目的,可将时域中间信号236提供到中间信号编码器216,且可将频域中间信号238提供到侧信号编码器210。
侧信号编码器210可基于立体声提示162、时域侧信号235及频域中间信号238而产生侧位流164。中间信号编码器216可基于时域中间信号236而产生中间位流166。举例来说,中间信号编码器216可对时域中间信号236进行编码以产生中间位流166。
变换202及204可经配置以应用与图1的第一视窗参数152相关联的分析视窗化方案。举例来说,立体声提示参数162可包含基于图1的经视窗化样本111所计算的参数值。另外,反变换250、252可经配置以执行反变换,随后执行合成视窗化(使用与图1的第一视窗参数152相关联的视窗化方案所产生),以将频域信号返回到重叠经视窗化时域信号。
在一些实施方案中,立体声提示估计器206、侧信号产生器208及中间信号产生器212中的一或多者可包含于降混器中。另外或替代地,尽管编码器114描述为包含侧信号编码器210,但在其它实施方案中,编码器114可不包含侧信号编码器210。
参考图3,展示说明解码器118的特定实施方案的图。经编码音频信号被提供到解码器118的多路分用器(DEMUX)302。经编码音频信号可包含立体声提示162、侧位流164及中间位流166。多路分用器302可经配置以从经编码音频信号提取中间位流166且将中间位流166提供到中间信号解码器304。多路分用器302还可经配置以从经编码音频信号提取侧位流164及立体声提示162。可将侧位流164及立体声提示162提供到侧信号解码器306。
中间信号解码器304可经配置以对中间位流166进行解码以产生中间信号(mCODED(t))350。变换308可应用于中间信号350以产生频域中间信号(MCODED(b))352。可将频域中间信号352提供到上混器310。
侧信号解码器306可基于侧位流164、立体声提示162及频域中间信号352而产生侧信号(SCODED(b))354。举例来说,错误(e)可经解码用于低频带及高频带。侧信号354可表达为SPRED(b)+eCODED(b),其中SPRED(b)=MCODED(b)×(ILD(b)-1)/(ILD(b)+1)。变换309可应用于侧信号354以产生频域侧信号(SCODED(b))355。频域侧信号355还可经提供到上混器310。
上混器310可基于频域中间信号352及频域侧信号355而执行上混操作。举例来说,上混器310可基于频域中间信号352及频域侧信号355而产生第一经上混信号(Lfr)356及第二经上混信号(Rfr)358。因此,在所描述实例中,第一经上混信号356可为左声道信号,且第二经上混信号358可为右声道信号。第一经上混信号356可表达为MCODED(b)+SCODED(b),且第二经上混信号358可表达为MCODED(b)-SCODED(b)。可将经上混信号356、358提供到立体声提示处理器312。
立体声提示处理器312可将立体声提示162应用于经上混信号356、358以产生信号360、362。举例来说,立体声提示162可应用于频域中的经上混左及右声道。当可用时,IPD(相位差)可在左及右声道上扩展以维持声道间相位差。反变换314可应用于信号360以产生第一时域信号l(t)364(例如,左声道信号),且反变换316可应用于信号362以产生第二时域信号r(t)366(例如,右声道信号)。反变换314、316的非限制性实例包含反离散余弦变换(IDCT)操作、反快速傅里叶逆变换(IFFT)操作等。根据一个实施方案,第一时域信号364可为参考信号290的重构建版本,且第二时域信号366可为目标信号292的重构建版本。
根据一个实施方案,可在立体声提示处理器312处执行在上混器310处所执行的操作。根据另一个实施方案,可在上混器310处执行在立体声提示处理器312处所执行的操作。根据又一个实施方案,上混器310及立体声提示处理器312可实施于单个处理元件(例如,单个处理器)内。
变换308及309可经配置以应用与图1的第二视窗参数176相关联的分析视窗化方案。与由变换308及309使用的视窗化方案相关联的第二视窗化参数176可不同于由编码器(诸如图1的编码器114)使用的视窗化方案。可在变换308、309处使用第二视窗化方案以在解码时减少延迟。举例来说,第二视窗化方案(由解码器应用)可包含与用于第一视窗化方案(由编码器应用)中的视窗具有不同大小的视窗,使得变换可带来相同数目个频带(但不同频率分辨率),且可进一步减少用于变换308及309的视窗重叠量。减少视窗重叠量减少处理来自先前视窗的重叠样本的解码延迟。因为立体声提示可基于第一视窗化(由编码器114应用)而产生,所以解码器118可产生经调整立体声参数以考虑视窗化方案的差异。举例来说,解码器114(例如,立体声提示处理器312)可经由对所接收立体声参数的内插(例如,经加权总和)产生经调整立体声参数。类似地,反变换314、316可经配置以执行反变换以将频域信号返回到重叠经视窗化时域信号。
在一些实施方案中,立体声提示处理器312可包含于上混器310中。另外或替代地,尽管解码器118经描述为包含侧信号解码器306及变换309,但在其它实施方案中,解码器118可不包含侧信号解码器306及变换309。在这些实施方案中,可将侧位流164从多路分用器302提供到上混器310,且可将立体声提示162从多路分用器302提供到上混器310或提供到立体声提示处理器312。
应注意,图2的编码器及图3的解码器可包含编码器或解码器框架的一部分,而非全部。举例来说,图2的编码器、图3的解码器或两者还可包含高频带(HB)处理的并行路径。另外或替代地,在一些实施方案中,可在图2的编码器处执行时域降混。另外或替代地,时域上混可遵循图3的解码器以获得经解码器移位补偿的左及右声道。
参考图4,描绘在编码器及解码器处所实施的视窗化方案的实例。举例来说,描绘由解码器(诸如图1的解码器118)实施的视窗化方案且通常将所述方案指定为400。在一些实施方案中,可基于第二视窗参数176而实施视窗化方案400。描绘由编码器(诸如图1的编码器114)实施的视窗化方案且通常将所述方案指定为450。在一些实施方案中,可基于第一视窗参数152而实施视窗化方案450。参考视窗化方案400及视窗化方案450,每一视窗是相同的。为了说明,每一视窗具有相同补零长度、相同跃点大小、相同重叠及相同平坦部分大小。举例来说,补零长度为3.125ms,视窗跃点大小为10ms,视窗的重叠长度为8.75ms,且视窗的平坦部分的大小为1.25ms。因此,每一视窗可具有25ms的总长度。
音频信号的帧大小可为20ms,且可每帧以2个视窗估计变换操作(诸如DFT操作)。对于每一帧,可量化且发射立体声提示参数(例如,DFT立体声提示参数)的集合,诸如图1的立体声提示162。这些立体声提示还用以在变换域中产生中间信号及侧信号,如参考图1及2所描述(上文所描述)及如参考等式1及2(下文已包含)所描述。举例来说,中间声道可基于:
M=(L+gDR)/2,或 等式1
M=g1L+g2R 等式2
其中g1+g2=1.0,且其中gD为增益参数,M对应于中间声道,L对应于左声道,且R对应于右声道。
在译码之前,通过对变换域中间信号及侧信号应用反变换来合成对应于中间及侧的[0至28.75]的帧。在反变换之后,将时域信号与类似于上文的视窗重叠相加。在一些实施方案中,视窗可刚好相同;在其它实施方案中,此变换视窗与反变换视窗可在保持补零的长度、重叠及平坦部分大小全部相同情况下,在重叠区域中具有不同视窗值。重叠相加用于反变换合成上,这是因为重叠视窗将在重叠部分中产生两个集合的时间样本。举例来说,w0(n)(例如,帧n的第一视窗)上的反变换产生来自[0至18.75]ms的样本,而反变换产生来自[10至28.75]ms的样本。来自[10至18.75]的样本经重叠相加以产生[0至28.75]ms的部分的中间信号及侧信号。因为在编码器上尚不存在来自[20至38.75]ms的重叠视窗(w0(n+1))(例如,帧n+1的第一视窗)(因为28.75之后的样本将来不可用于当前帧n中),所以从w1(n)(例如,帧n的第二视窗)的反变换产生的样本未经视窗化,且用于在[20至28.75]ms的部分中进行译码。未视窗化意味着从IDFT产生的样本由所述部分中的w1(n)划分。
应注意,编码器上来自[20至28.75]的样本为帧n内的中间/侧译码预看的部分。在解码器上,这些样本可旨在于帧n+1中得以解码。
在解码器上接收位流,首先对中间信号及侧信号进行解码,若使用语音解码器(诸如ACELP解码器),则所述信号可从部分[0至20]ms接收到时域中,且若使用非语音解码器(诸如TCX解码器),则所述信号可从部分[0至28.75]ms接收到时域中。若使用非语音解码器,则不可在当前帧中使用/耗尽来自[20至28.75]的样本,但所述样本经存储用于重叠相加于下一帧中,这具有从[0至20]ms产生可使用样本集合的效果。因为来自[20至28.75]的样本在解码器处不可用,所以引入视窗跃点大小的延迟以及时地回看且使用[-10至18.75]ms用于立体声参数的视窗化及应用。一旦对经解码中间/侧信号执行此视窗化,则执行上混,随后执行立体声参数应用以获得左及右声道的经解码DFT域表示。应用反DFT,随后应用重叠相加操作以获得经解码左及右时域信号。
如图4中所描绘,(视窗化方案450的)编码器视窗与(视窗化方案400的)解码器视窗具有相同特性。举例来说,(视窗化方案450的)编码器视窗与(视窗化方案400的)解码器视窗具有相同大小、相同重叠量、相同补零、相同大小的平坦部分等。归因于编码器视窗与解码器视窗匹配,除了引入于编码器上的28.75ms延迟以外,还在解码器上引入10ms的延迟。
应注意,编码器的视窗化方案450及解码器的视窗化方案400在完全相同时间样本处应用。举例来说,如图4中所描绘,解码器视窗与编码器视窗相同且定位于相同时间范围处。因此,视窗中心在编码器与解码器上对准。替代地,在其它实施方案中,由编码器使用的视窗与由解码器使用的视窗可不对准。举例来说,由编码器使用的多个视窗中的每一视窗的视窗位置(例如,视窗中心)不同于用于解码器处的多个视窗中的每一视窗的视窗位置(例如,视窗中心)。
参考图5,描绘在编码器及解码器处所实施的视窗化方案的另一实例。举例来说,描绘由解码器(诸如图1的解码器118)实施的视窗化方案且通常将所述方案指定为510。在一些实施方案中,可基于第二视窗参数176实施视窗化方案510。描绘由编码器(诸如图1的编码器114)实施的视窗化方案且通常将所述方案指定为520。在一些实施方案中,可基于第一视窗参数152实施视窗化方案520。
视窗化方案510可每帧具有单个视窗(20ms的跃点大小)及3.25ms的重叠区域。因此,解码器延迟为3.25ms。视窗化方案510的补零(zp)长度在视窗的两侧上为0.875ms,且平坦部分的长度为16.75ms。视窗化方案510的视窗的总长度(L)可确定为L=2×zp+2×重叠+flat_portion=25ms。重叠部分+平坦部分的长度一起构成所使用样本的实际量。补零用以将视窗变成所要大小。在另一实施方案中,视窗化方案510可使用具有(例如)3.125ms的外部重叠而(例如)10ms的内部重叠的两个视窗。
视窗化方案520可包含或对应于图4的视窗化方案450。应注意,用于编码器上的视窗化方案520的每一视窗的总长度与用于解码器上的视窗化方案510的总长度相同。通过具有相同总长度,由编码器产生的DFT区间的大小与解码器产生的DFT区间的大小可匹配。应注意,匹配视窗的大小的总长度是为方便起见而考虑,且在其它实施方案中,可能违反具有相同长度,因此在编码器及解码器处具有DFT区间的相同大小的此原理。应注意,所说明视窗化方案520可表示用于编码器处的DFT变换操作之前及DFT反变换操作之后的视窗。在一些实施方案中,用于编码器处的视窗(例如,分析视窗、合成视窗或两者)可通过具有相同重叠部分长度、相同补零、相同平坦部分长度、相同跃点大小等来大体上类似于视窗化方案520,但重叠部分中的视窗形状可与所说明视窗化方案520不同(例如,被修改)。
参考图6,描绘在编码器及解码器处所实施的视窗化方案的另一实例。举例来说,描绘由解码器(诸如图1的解码器118)实施的视窗化方案且通常将所述方案指定为610。在一些实施方案中,可基于第二视窗参数176实施视窗化方案610。描绘由编码器(诸如图1的编码器114)实施的视窗化方案且通常将所述方案指定为620。在一些实施方案中,可基于第一视窗参数152实施视窗化方案620。
由编码器使用的视窗化方案620可相比于图4的视窗化方案450或图5的视窗化方案520包含一个大视窗。视窗化方案620可具有8.75ms的重叠区域、在视窗的两侧上具有3.125的补零长度,且平坦部分的长度为11.25ms。视窗化方案620的视窗的总长度(L)可确定为L=2×zp+2×重叠+flat_portion=35ms。
由解码器使用的视窗化方案610可相比于图4的视窗化方案400包含一个视窗,且可不同于图5的视窗化方案510。视窗化方案610可具有3.25ms的重叠区域、在视窗的两侧上具有5.875ms的补零长度,且平坦部分的长度为16.75ms。视窗化方案620的视窗的总长度(L)可确定为L=2×zp+2×重叠+flat_portion=35ms。
在上文参考图5至6所描述的实施方案中,视窗中心不在编码器及解码器上的相同位置处。在特定参数在时间上极快变化的情境中,此失配可在经编码或经解码音频信号中引起假影(例如,失真)。对于此类快速变化的参数,可对编码器、解码器或两者执行经加权视窗间内插。加权可使得经内插参数将接近在解码器视窗的时间范围处所估计的参数。举例来说,参数(b,n)可对应于第n编码器视窗中的频带b,其中n为整数。可使用经加权内插:α1×参数(b,n)+α2×参数(b,n-1),其中α1及α2中的每一者为正值。在一些实施方案中,α12=1。
参考图7,揭示了操作解码器的方法的特定说明性实例的流程图,且通常将所述方法指定为700。解码器可对应于图1或图3的解码器118。举例来说,可通过图1的第二装置106执行方法700。
方法700包含在702处接收基于具有第一视窗特性的取样视窗所编码的音频信号。举例来说,音频信号可对应于图1的包含立体声提示162、侧位流164及中间位流166的经编码音频信号。音频信号可能已由第一装置104的编码器114使用基于第一视窗参数152的取样视窗来编码。举例来说,第一视窗参数152可指定包含视窗跃点长度、视窗大小重叠、补零量或中心位置的第一视窗特性。其它非限制性实例包含视窗形状、平坦视窗部分或视窗大小。
方法700还可包含在704处使用具有不同于第一视窗特性的第二视窗特性的取样视窗来对音频信号进行解码。举例来说,音频信号可由第二装置106的解码器118使用基于第二视窗参数176的取样视窗来解码。使用具有第二视窗特性的取样视窗进行解码可产生小于对应于第一视窗特性的视窗重叠的帧间解码延迟。
在一些实施方案中,对音频信号进行解码包含应用具有第二视窗特性的取样视窗以产生经视窗化时域音频解码信号。举例来说,具有第二视窗特性的取样视窗可由图1的样本产生器172应用。作为另一实例,可在图3的变换308、309处应用具有第二视窗特性的取样视窗。对音频信号进行解码还可包含对经视窗化时域音频解码信号执行变换操作以产生经视窗化频域音频解码信号。举例来说,变换操作可由图1的变换装置174执行。为了说明,变换操作可由图3的变换308、309执行。
解码器118可接收对应于基于具有第一视窗特性的取样视窗的经视窗化频域音频编码信号的第一经估计立体声参数。举例来说,第一经估计立体声参数可对应于或包含于图1至3的立体声提示162中。对音频信号进行解码可包含应用与基于具有第二视窗特性的取样视窗的经视窗化频域音频解码信号相关联的第二经估计立体声参数。举例来说,可基于所接收第一经估计立体声参数的内插而产生第二经估计立体声参数以对应于具有第二视窗特性的取样视窗。
方法700可因此使得解码器能够通过在经编码音频信号的解码期间使用如下取样视窗来减少解码延迟,所述取样视窗相比于用以对经编码音频信号进行编码的取样视窗的重叠部分具有减少的重叠部分。可在使用具有第一特性(例如,较大重叠部分)的取样视窗进行编码期间产生的参数(例如,立体声提示162)可在解码期间经内插,以至少部分地补偿具有第二特性的取样视窗中的视窗差异。结果,可改善解码延迟,同时对所再现信号品质产生可忽略的影响。
参考图8,揭示了操作解码器的方法的特定说明性实例的流程图,且通常将所述方法指定为800。解码器可对应于图1或图3的解码器118。举例来说,可通过图1的第二装置106或在另一装置(诸如基站)处执行方法800。
方法800包含在802处接收由编码器基于多个视窗而编码的立体声参数,所述多个视窗具有为所述多个视窗的间的重叠部分的第一长度。举例来说,立体声参数可包含或对应于立体声提示162。立体声参数可包含于音频信号中,诸如图1的包含立体声提示162、侧位流164及中间位流166的经编码音频信号中。立体声参数可能已由第一装置104的编码器114使用基于第一视窗参数152的取样视窗来编码。举例来说,第一视窗参数152可指定第一视窗特性,诸如视窗跃点长度、视窗大小重叠、补零量或中心位置。视窗特性的其它非限制性实例包含视窗形状、平坦视窗部分或视窗大小。
方法800还包含在804处使用立体声参数来基于上混操作产生至少两个音频信号。至少两个音频信号是基于用于上混操作中的第二多个视窗而产生。所述第二多个视窗具有为所述第二多个视窗的间的重叠部分的第二长度。第二长度不同于第一长度。举例来说,至少两个音频信号可由第二装置106的解码器118使用基于第二视窗参数176的取样视窗来产生。
在一些实施方案中,多个视窗与第一跃点长度相关联,且第二多个视窗与第二跃点长度相关联。第一跃点长度与第二跃点长度可为相同跃点长度或可为不同跃点长度。另外或替代地,多个视窗可包含与第二多个视窗不同的视窗数目。在其它实施方案中,多个视窗包含与第二多个视窗相同的视窗数目。另外或替代地,多个视窗中的第一视窗与第二多个视窗中的第二视窗大小相同。在其它实施方案中,多个视窗中的第一视窗与第二多个视窗中的第二视窗大小不同。另外或替代地,多个视窗中的每一视窗是对称的,而第二多个视窗中的第一特定视窗是不对称的。在其它实施方案中,所有多个视窗是不对称的。
在一些实施方案中,方法800可包含接收包含立体声参数的音频信号、及应用第二多个视窗以产生经视窗化时域音频解码信号。方法800还可包含对经视窗化时域音频解码信号执行变换操作以产生经视窗化频域音频解码信号。
在一些实施方案中,在编码器处的立体声降混处理期间所使用的多个视窗中的每一视窗的总长度不同于在解码器处的立体声上混处理期间所使用的第二多个视窗中的每一视窗的总长度。多个视窗可对应于用于立体声降混处理中的DFT分析视窗,且第二多个视窗可对应于用于立体声上混处理中的反DFT合成视窗。另外或替代地,与编码器处的变换域中的每一频率区间相关联的第一频率分辨率不同于与解码器处的变换域中的每一频率区间相关联的第二频率分辨率。
在其它实施方案中,用于编码器处的多个视窗中的每一视窗的视窗位置不同于用于解码器处的多个视窗中的每一视窗的视窗位置。另外或替代地,立体声参数中的至少一个参数经帧间内插,且其中至少一个经内插参数用于解码器处。可在编码器处执行此内插并将其发射到解码器,或编码器可发射未经内插值且解码器可执行帧间内插。
方法800可因此使得解码器能够通过在解码期间使用如下取样视窗来减少解码延迟,所述取样视窗相比于用以对经编码音频信号进行编码的取样视窗的重叠部分的长度具有不同长度重叠部分。结果,可显著地减少解码延迟,而对所再现信号品质产生可忽略的影响。
在特定方面中,可通过编程可编程门阵列(FPGA)装置、专用集成电路(ASIC)、诸如中央处理单元(CPU)的处理单元、数字信号处理器(DSP)、控制器、另一硬件装置、固件装置或其任何组合实施图7的方法700或图8的方法800。作为一实例,可通过如关于图9所描述的执行指令的处理器执行图7的方法700或图8的方法800。
参考图9,描绘了装置(例如无线通信装置)的特定说明性实例的框图,且通常将所述装置指定为900。在各种实施方案中,装置900可相比图9中所说明具有更多或更少组件。在说明性实例中,装置900可对应于图1的系统。举例来说,装置900可对应于图1的第一装置104或第二装置106。在说明性实例中,装置900可根据图7的方法或图8的方法而操作。
在特定实施方案中,装置900包含处理器906(例如,CPU)。装置900可包含一或多个额外处理器,诸如处理器910(例如,DSP)。处理器910可包含编解码器908,诸如语音编解码器、音乐编解码器或其组合。处理器910可包含经配置以执行语音/音乐编解码器908的操作的一或多个组件(例如,电路)。作为另一实例,处理器910可经配置以执行一或多个计算机可读指令以执行语音/音乐编解码器908的操作。因此,编解码器908可包含硬件及软件。尽管语音/音乐编解码器908被说明为处理器910的组件,但在其它实例中,语音/音乐编解码器908的一或多个组件可包含于处理器906、编解码器934、另一处理组件或其组合中。
语音/音乐编解码器908可包含解码器992,诸如声码器解码器。举例来说,解码器992可对应于图1的解码器118。在特定方面中,解码器992经配置以使用具有第二视窗特性的取样视窗来对经编码信号进行解码,第二视窗特性不同于用以对信号进行编码的取样视窗的第一视窗特性。举例来说,解码器992可经配置以使用基于一或多个所存储视窗参数991(例如,图1的第二视窗参数176)的取样视窗。语音/音乐编解码器908可包含编码器991,诸如图1的编码器114。编码器991可经配置以使用具有第一视窗特性的取样视窗来对音频信号进行编码。
装置900可包含存储器932及编解码器934。编解码器934可包含数/模转换器(DAC)902及模/数转换器(ADC)904。扬声器936、麦克风阵列938或两者可耦合到编解码器934。编解码器934可从麦克风阵列938接收模拟信号,使用模/数转换器904来将模拟信号转换成数字信号,且将数字信号提供到语音/音乐编解码器908。语音/音乐编解码器908可处理数字信号。在一些实施方案中,语音/音乐编解码器908可将数字信号提供到编解码器934。编解码器934可使用数/模转换器902将数字信号转换为模拟信号,且可将模拟信号提供到扬声器936。
装置900可包含经由收发器950(例如,发射器、接收器或所述两者)耦合到天线942的无线控制器940。装置900可包含存储器932,如计算机可读存储装置。存储器932可包含指令960,如可由处理器906、处理器910或其组合执行以执行相对于图1至6所描述的技术中的一或多者、图7的方法、图8的方法、或其组合的一或多个指令。
作为说明性实例,存储器932可存储在由处理器906、处理器910或其组合执行时使得处理器906、处理器910或其组合执行包含以下各者的操作的指令:接收基于具有第一视窗特性的取样视窗而编码的音频信号(例如,基于使用第一视窗参数152的编码取样视窗而接收立体声提示162),及使用具有不同于第一视窗特性的第二视窗特性的取样视窗来对音频信号进行解码(例如,基于第二视窗参数176)。
作为另一说明性实例,存储器932可存储在由处理器906、处理器910或其组合执行时使得处理器906、处理器910或其组合执行包含以下各者的操作的指令:接收由编码器基于多个视窗而编码的立体声参数(例如,接收立体声提示162),所述多个视窗具有为所述多个视窗的间的重叠部分的第一长度,及使用立体声参数来基于上混操作而产生至少两个音频信号。所述至少两个音频信号基于用于上混操作中的第二多个视窗而产生,所述第二多个视窗具有为所述第二多个视窗的间的重叠部分的第二长度。第二长度不同于第一长度。
在一些实施方案中,存储器932可包含代码(例如,经解译或经编译程序指令),代码可由处理器906、处理器910或其组合执行以使得处理器906、处理器910或其组合执行如参考图1的第二装置106或图1或图3的解码器118所描述的功能、执行图7的方法700的至少一部分、执行图8的方法800的至少一部分或其组合。
存储器932可包含可由处理器906、处理器910、编解码器934、装置900的另一处理单元或其组合执行以执行本文中所揭示的方法及过程的指令960。可经由专用硬件(例如,电路)、通过执行用以执行一或多个任务的指令(例如,指令960)的处理器或其组合实施图1的系统100的一或多个组件。作为实例,存储器932或处理器906、处理器910、编解码器934或其组合的一或多个组件可为存储器装置,如随机存取存储器(RAM)、磁电阻随机存取存储器(MRAM)、自旋扭矩转移MRAM(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可换磁盘或压缩光盘只读存储器(CD-ROM)。存储器装置可包含在由计算机(例如,编解码器934中的处理器、处理器906、处理器910或其组合)执行时可使得计算机执行图7的方法的至少一部分、图8的方法的至少一部分或其组合的指令(例如,指令960)。作为一实例,存储器932或处理器906、处理器910、编解码器934中的一或多个组件可为非暂时性计算机可读媒体,非暂时性计算机可读媒体包含在由计算机(例如,编解码器934中的处理器、处理器906、处理器910或其组合)执行时使得计算机执行图7的方法的至少一部分、图8的方法的至少一部分或其组合的指令(例如,指令960)。
在特定实施方案中,装置900可包含于系统级封装或片上系统装置922中。在一些实施方案中,存储器932、处理器906、处理器910、显示器控制器926、编解码器934、无线控制器940及收发器950包含于系统级封装或片上系统装置922中。在一些实施方案中,输入装置930及电力供应器944耦合到片上系统装置922。此外,在特定实施方案中,如图9中所说明,显示器928、输入装置930、扬声器936、麦克风阵列938、天线942及电力供应器944在片上系统装置922外部。在其它实施方案中,显示器928、输入装置930、扬声器936、麦克风阵列938、天线942及电力供应器944中的每一者可耦合到片上系统装置922的组件,诸如片上系统装置922的接口或控制器。在说明性实例中,装置900对应于通信装置、移动通信装置、智能电话、蜂窝电话、膝上型计算机、计算机、平板计算机、个人数字助理、机顶盒、显示装置、电视、游戏控制台、音乐播放机、无线电、数字视频播放机、数字视频光盘(DVD)播放机、光盘播放机、调谐器、相机、导航装置、解码器系统、编码器系统、基站、车辆,或其任何组合。
结合所描述方面,设备可包含用于接收基于具有第一视窗特性的取样视窗所编码的音频信号的装置。举例来说,用于接收的装置可包含或对应于图1的接收器178、图9的收发器950、用以接收经编码音频信号的一或多个其它结构、装置、电路、模块或指令或其组合。
设备还可包含用于使用具有不同于第一视窗特性的第二视窗特性的取样视窗来对音频信号进行解码的装置。举例来说,用于解码的装置可包含或对应于图1或图3的解码器118、经编程以执行图9的指令960的处理器906、910中的一或多者、用以对音频信号进行解码的一或多个其它结构、装置、电路、模块或指令、或其组合。
设备可包含用于应用具有第二视窗特性的取样视窗以产生经视窗化时域音频解码信号的装置。举例来说,用于应用的装置可包含或对应于图1的样本产生器172、解码器902、经编程以执行图9的指令960的处理器906、910中的一或多者、用以应用取样视窗的一或多个其它结构、装置、电路、模块或指令或其组合。
设备还可包含用于对经视窗化时域音频解码信号执行变换操作以产生经视窗化频域音频解码信号的装置。举例来说,用于执行变换操作的装置可包含或对应于图1的变换装置174、图3的变换308、309、解码器992、经编程以执行图9的指令960的处理器906、910中的一或多者、用以执行变换操作的一或多个其它结构、装置、电路、模块或指令或其组合。
在另一实施方案中,设备包含用于接收由编码器基于多个视窗而编码的立体声参数的装置,所述多个视窗具有为所述多个视窗的间的重叠部分的第一长度。举例来说,用于接收的装置可包含或对应于解码器118、图1的接收器178、多路分用器302、侧信号解码器306、图3的立体声提示处理器312、上混器、图9的收发器950、用以接收立体声参数的一或多个其它结构、装置、电路、模块或指令或其组合。在一些实施方案中,立体声参数可对应于离散傅里叶变换(DFT)立体声提示参数。设备还包含用于使用立体声参数来执行上混操作以产生至少两个音频信号的装置。举例来说,用于执行上混操作的装置可包含或对应于图1的解码器118、上混器310、图3的立体声提示处理器312、经编程以执行指令960的处理器906、910中的一或多者、图9的解码器992、用以执行上混操作的一或多个其它结构、装置、电路、模块或指令或其组合。所述至少两个音频信号基于用于上混操作中的第二多个视窗而产生,所述第二多个视窗具有为所述第二多个视窗的间的重叠部分的第二长度。第二长度不同于第一长度。举例来说,第二长度可小于第一长度。
在上文所描述的描述的方面中,已将所执行各种功能描述为由某些组件或模块(诸如图1的系统100的组件或模块)执行。然而,组件及模块的此划分仅是为了说明。在替代性实例中,由特定组件或模块执行的功能可替代地划分于多个组件或模块当中。此外,在其它替代性实例中,图1的两个或多于两个组件或模块可集成到单个组件或模块中。可使用硬件(例如,ASIC、DSP、控制器、FPGA装置等)、软件(例如,可由处理器执行的指令)或其任何组合来实施图1中所说明的每一组件或模块。
本领域技术人员将进一步了解,结合本文所揭示的方面所描述的各种说明性逻辑块、配置、模块、电路及算法步骤可作为电子硬件、由处理器执行的计算机软件,或两者的组合进行实施。上文已大体上就其功能性来说描述各种说明性组件、块、配置、模块、电路及步骤。将此功能性实施为硬件还是处理器可执行指令取决于特定应用及强加于整个系统上的设计约束。对于每一特定应用来说,本领域技术人员可以变化的方式实施所描述功能性,但不将这些实施决策解译为导致脱离本发明的范围。
结合本文中所揭示方面所描述的方法或算法的步骤可直接包含于硬件、由处理器执行的软件模块或两者的组合中。软件模块可驻留于RAM、快闪存储器、ROM、PROM、EPROM、EEPROM、寄存器、硬盘、可换磁盘、CD-ROM,或本领域中已知的任何其它形式的非暂时存储媒体中。特定存储媒体可耦合到处理器,使得处理器可从存储媒体读取信息且向存储媒体写入信息。在替代方案中,存储媒体可集成到处理器。处理器及存储媒体可驻留于ASIC中。ASIC可驻留于计算装置或用户终端中。在替代方案中,处理器及存储媒体可作为离散组件而驻留于计算装置或用户终端中。
提供先前描述以使得本领域技术人员能够进行或使用所揭示方面。对这些方面的各种修改将对本领域技术人员易于显而易见,且本文中所界定的原理可在不脱离本发明的范围的情况下应用于其它方面。因此,本发明并不旨在限于本文中所展示的方面,且应符合可能与如由以下权利要求书所界定的原理及新颖特征相一致的最广泛范围。

Claims (32)

1.一种用于多声道译码的装置,其包括:
接收器,其经配置以接收由编码器基于多个视窗而编码的立体声参数,所述多个视窗具有为所述多个视窗的间的重叠部分的第一长度;及
解码器,其经配置以使用所述立体声参数来执行上混操作以产生至少两个音频信号,所述至少两个音频信号基于用于所述上混操作中的第二多个视窗而产生,所述第二多个视窗具有为所述第二多个视窗的间的重叠部分的第二长度,所述第二长度不同于所述第一长度。
2.根据权利要求1所述的装置,其中在所述编码器处的立体声降混处理期间所使用的所述多个视窗中的每一视窗的总长度不同于在所述解码器处的立体声上混处理期间所使用的所述第二多个视窗中的每一视窗的总长度。
3.根据权利要求2所述的装置,其中所述多个视窗对应于用于所述立体声降混处理中的DFT分析视窗,且所述第二多个视窗对应于用于所述立体声上混处理中的反DFT合成视窗。
4.根据权利要求2所述的装置,其中与所述编码器处的变换域中的每一频率区间相关联的第一频率分辨率不同于与所述解码器处的所述变换域中的每一频率区间相关联的第二频率分辨率。
5.根据权利要求1所述的装置,其中用于所述编码器处的所述多个视窗中的每一视窗的视窗位置不同于用于所述解码器处的所述多个视窗中的每一视窗的视窗位置。
6.根据权利要求5所述的装置,其中所述立体声参数中的至少一个参数经帧间内插,且其中所述至少一个经内插参数及至少一个未经内插值用于所述解码器处。
7.根据权利要求1所述的装置,其中所述第二多个视窗的视窗重叠是不对称的。
8.根据权利要求1所述的装置,其中所述接收器经进一步配置以接收中间信号。
9.根据权利要求8所述的装置,其中所述中间信号是由所述编码器使用所述立体声参数基于降混操作而产生。
10.根据权利要求8所述的装置,其中所述上混操作是使用所述立体声参数及所述中间信号来执行。
11.根据权利要求1所述的装置,其中所述第二多个视窗中的一对连续视窗中的两个视窗是不对称的。
12.根据权利要求1所述的装置,其中所述第二多个视窗中的一对连续视窗中的第一视窗是不对称的。
13.根据权利要求12所述的装置,其中所述第一视窗与所述一对连续视窗中的第二视窗的第一重叠部分的第三长度不同于所述第二视窗与第二对连续视窗中的第三视窗的第二重叠部分的第四长度。
14.根据权利要求1所述的装置,其中所述接收器经配置以接收包含所述立体声参数的音频信号,且其中所述解码器经配置以在对所述音频信号的解码期间应用所述第二多个视窗,以产生经视窗化时域音频解码信号。
15.根据权利要求1所述的装置,其中所述接收器及所述解码器集成到移动通信装置中。
16.根据权利要求1所述的装置,其中所述接收器及所述解码器集成到基站中。
17.一种用于多声道译码的方法,其包括:
接收由编码器基于多个视窗而编码的立体声参数,所述多个视窗具有为所述多个视窗的间的重叠部分的第一长度;及
使用所述立体声参数来基于上混操作而产生至少两个音频信号,所述至少两个音频信号基于用于所述上混操作中的第二多个视窗而产生,所述第二多个视窗具有为所述第二多个视窗的间的重叠部分的第二长度,所述第二长度不同于所述第一长度。
18.根据权利要求17所述的方法,其中所述多个视窗与第一跃点长度相关联且所述第二多个视窗与第二跃点长度相关联。
19.根据权利要求17所述的方法,其中所述多个视窗包含与所述第二多个视窗不同的视窗数目。
20.根据权利要求17所述的方法,其中所述多个视窗中的第一视窗与所述第二多个视窗中的第二视窗大小相同。
21.根据权利要求17所述的方法,其中所述多个视窗中的每一视窗是对称的,且其中所述第二多个视窗中的第一视窗是不对称的。
22.根据权利要求17所述的方法,其进一步包括:
接收包含所述立体声参数的音频信号;及
应用所述第二多个视窗以产生经视窗化时域音频解码信号。
23.根据权利要求22所述的方法,其进一步包括对所述经视窗化时域音频解码信号执行变换操作以产生经视窗化频域音频解码信号。
24.根据权利要求17所述的方法,其中在包括移动通信装置的装置处执行接收及产生。
25.根据权利要求17所述的方法,其中在包括基站的装置处执行接收及产生。
26.一种用于多声道译码的设备,其包括:
用于接收由编码器基于多个视窗而编码的立体声参数的装置,所述多个视窗具有为所述多个视窗的间的重叠部分的第一长度;及
用于使用所述立体声参数来执行上混操作以产生至少两个音频信号的装置,所述至少两个音频信号基于用于所述上混操作中的第二多个视窗而产生,所述第二多个视窗具有为所述第二多个视窗的间的重叠部分的第二长度,所述第二长度不同于所述第一长度。
27.根据权利要求26所述的设备,其进一步包括:
用于应用所述第二多个视窗以产生经视窗化时域音频解码信号的装置;及
用于对所述经视窗化时域音频解码信号执行变换操作以产生经视窗化频域音频解码信号的装置。
28.根据权利要求26所述的设备,其中所述用于接收的装置及所述用于执行的装置集成到移动通信装置中。
29.根据权利要求26所述的设备,其中所述用于接收的装置及所述用于执行的装置集成到基站中。
30.一种计算机可读存储装置,其存储在由处理器执行时使得所述处理器执行包括以下各者的操作的指令:
接收由编码器基于多个视窗而编码的立体声参数,所述多个视窗具有为所述多个视窗的间的重叠部分的第一长度;及
使用所述立体声参数来基于上混操作而产生至少两个音频信号,所述至少两个音频信号基于用于所述上混操作中的第二多个视窗而产生,所述第二多个视窗具有为所述第二多个视窗的间的重叠部分的第二长度,所述第二长度不同于所述第一长度。
31.根据权利要求30所述的计算机可读存储装置,其中所述第二长度小于所述第一长度。
32.根据权利要求30所述的计算机可读存储装置,其中所述立体声参数对应于离散傅里叶变换DFT立体声提示参数。
CN201780015738.7A 2016-03-18 2017-03-17 多声道译码 Active CN108780651B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662310635P 2016-03-18 2016-03-18
US62/310,635 2016-03-18
US15/461,312 US9959877B2 (en) 2016-03-18 2017-03-16 Multi channel coding
US15/461,312 2017-03-16
PCT/US2017/023035 WO2017161315A1 (en) 2016-03-18 2017-03-17 Multi channel coding

Publications (2)

Publication Number Publication Date
CN108780651A CN108780651A (zh) 2018-11-09
CN108780651B true CN108780651B (zh) 2023-05-30

Family

ID=58489063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780015738.7A Active CN108780651B (zh) 2016-03-18 2017-03-17 多声道译码

Country Status (10)

Country Link
US (1) US9959877B2 (zh)
EP (1) EP3430623B1 (zh)
JP (1) JP6768824B2 (zh)
KR (1) KR102168054B1 (zh)
CN (1) CN108780651B (zh)
BR (1) BR112018068491A2 (zh)
CA (1) CA3014784C (zh)
ES (1) ES2783975T3 (zh)
TW (1) TWI640980B (zh)
WO (1) WO2017161315A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7407110B2 (ja) * 2018-07-03 2023-12-28 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置及び符号化方法
WO2020094263A1 (en) * 2018-11-05 2020-05-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs
JP7491376B2 (ja) 2020-06-24 2024-05-28 日本電信電話株式会社 音信号符号化方法、音信号符号化装置、プログラム及び記録媒体
WO2021260826A1 (ja) * 2020-06-24 2021-12-30 日本電信電話株式会社 音信号復号方法、音信号復号装置、プログラム及び記録媒体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1997988A (zh) * 2003-09-29 2007-07-11 索尼电子有限公司 在音频编码过程中根据mdct数据进行视窗类型判定的方法
WO2010040522A2 (en) * 2008-10-08 2010-04-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Multi-resolution switched audio encoding/decoding scheme
CN103282958A (zh) * 2010-10-15 2013-09-04 华为技术有限公司 信号分析器、信号分析方法、信号合成器、信号合成方法、加窗工具、变换器和反向变换器
EP2980791A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072726B2 (en) * 2002-06-19 2006-07-04 Microsoft Corporation Converting M channels of digital audio data into N channels of digital audio data
US20050137729A1 (en) 2003-12-18 2005-06-23 Atsuhiro Sakurai Time-scale modification stereo audio signals
US20050276430A1 (en) * 2004-05-28 2005-12-15 Microsoft Corporation Fast headphone virtualization
CA3076203C (en) 2009-01-28 2021-03-16 Dolby International Ab Improved harmonic transposition
AU2011237882B2 (en) * 2010-04-09 2014-07-24 Dolby International Ab MDCT-based complex prediction stereo coding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1997988A (zh) * 2003-09-29 2007-07-11 索尼电子有限公司 在音频编码过程中根据mdct数据进行视窗类型判定的方法
WO2010040522A2 (en) * 2008-10-08 2010-04-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Multi-resolution switched audio encoding/decoding scheme
CN103282958A (zh) * 2010-10-15 2013-09-04 华为技术有限公司 信号分析器、信号分析方法、信号合成器、信号合成方法、加窗工具、变换器和反向变换器
EP2980791A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions

Also Published As

Publication number Publication date
KR20180125475A (ko) 2018-11-23
ES2783975T3 (es) 2020-09-21
US20170270936A1 (en) 2017-09-21
US9959877B2 (en) 2018-05-01
BR112018068491A2 (pt) 2019-01-22
JP6768824B2 (ja) 2020-10-14
EP3430623B1 (en) 2020-01-01
TW201737242A (zh) 2017-10-16
WO2017161315A1 (en) 2017-09-21
KR102168054B1 (ko) 2020-10-20
TWI640980B (zh) 2018-11-11
CA3014784C (en) 2023-04-25
EP3430623A1 (en) 2019-01-23
CN108780651A (zh) 2018-11-09
CA3014784A1 (en) 2017-09-21
JP2019512737A (ja) 2019-05-16

Similar Documents

Publication Publication Date Title
US11107483B2 (en) Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
CN109509478B (zh) 音频处理装置
CA2887228C (en) Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
CN108780651B (zh) 多声道译码

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant