CN107710323B - 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法 - Google Patents

使用频谱域重新取样来编码或解码音频多通道信号的装置及方法 Download PDF

Info

Publication number
CN107710323B
CN107710323B CN201780002248.3A CN201780002248A CN107710323B CN 107710323 B CN107710323 B CN 107710323B CN 201780002248 A CN201780002248 A CN 201780002248A CN 107710323 B CN107710323 B CN 107710323B
Authority
CN
China
Prior art keywords
sequence
blocks
output
time
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780002248.3A
Other languages
English (en)
Other versions
CN107710323A (zh
Inventor
吉约姆·福克斯
伊曼纽尔·拉维利
马库斯·缪特拉斯
马库斯·施奈尔
斯蒂芬·多拉
马丁·迪茨
格兰·马尔科维奇
埃伦妮·福托波罗
斯特凡·拜尔
沃尔夫冈·耶格斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to CN202210761486.5A priority Critical patent/CN115148215A/zh
Publication of CN107710323A publication Critical patent/CN107710323A/zh
Application granted granted Critical
Publication of CN107710323B publication Critical patent/CN107710323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Position Fixing By Use Of Radio Waves (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Control Of Eletrric Generators (AREA)
  • Emergency Protection Circuit Devices (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

用于将至少两个通道的样本值的块的序列转换成频谱值的块的序列的装置,其中取样值的块具有输入取样率,多通道处理器(1010)用于将联合多通道处理应用于块的序列或块的重新取样序列,以获得频谱值的块的至少一个结果序列;频谱域重新取样器(1020)用于对结果序列的块重新取样或用于对频谱值的块的序列重新取样,以获得频谱值的块的重新取样序列,其中块的重新取样序列的块具有高达不同于最大输入频率(1211)的最大输出频率(1231,1221)的频谱值;频谱时间转换器用于将块的重新取样序列或块的结果序列转换成时域表示;以及核心编码器(1040)用于编码块的输出序列。

Description

使用频谱域重新取样来编码或解码音频多通道信号的装置及 方法
技术领域
本申请关于立体声处理或一般而言多通道处理,其中多通道信号具有两个通道(诸如,在立体声信号的情况下,左通道及右通道)或多于两个的通道(诸如,三个、四个、五个或任何其他数目个通道)。
背景技术
立体声语音且特别的会话式立体声语音已受到比立体声音乐的存储及广播少得多的关注。实际上,在语音通信中,现如今仍然主要使用单声道传输。然而,随着网络带宽及容量增大,设想基于立体声技术的通信将变得愈加流行且带来较佳收听体验。
为了高效存储或广播,在音乐的感知音频编码中已对立体声音频材料的高效编码进行长时间研究。在波形保持至关重要的高比特率下,已长时间使用已知为中间/边(M/S)立体声的总和-差立体声。对于低比特率,已引入强度立体声及近年来的参数立体声编码。在不同标准中采用最新技术,如HeAACv2及Mpeg USAC。最新技术产生两通道信号的降混且关联紧密空间边信息。
联合立体声编码通常相对于高频分辨率(即,低时间分辨率,信号的时间频率变换)来建置,且因而与大部分语音编码器中所执行的低延迟及时域处理不兼容。此外,产生的比特率通常是高的。
另一方面,参数立体声采用额外滤波器组,其作为预处理器定位于编码器的前端中且作为后处理器定位于解码器的后端中。因此,参数立体声可与如ACELP的常规语音编码器一起使用,如在MPEG USAC中进行的。此外,听觉场景的参数化可用最小量的边信息达成,此适合于低比特率。然而,如例如在MPEG USAC中,参数立体声未针对低延迟特定设计且并不针对不同会话式情境传递不变质量。在空间场景的常规参数表示中,立体声影像的宽度通过应用于两个合成通道的去相关器而人工再现且由通过编码器计算以及传输的通道间相干性(IC)参数来控制。对于大部分立体声语音,加宽立体声影像的此方式并不适合于重建是完美直接声音的语音的自然环境,因为其是由位于空间中的特定位置处的单一源产生的(有时具有来自房间的一些混响)。相比之下,乐器具有比语音大得多的自然宽度,此可通过使通道去相关来较好地模仿。
问题还在用非重合麦克风记录语音时出现,如在麦克风彼此远离时成A-B配置,或针对双耳记录或呈现。可设想那些情境以用于在电话会议中捕获语音或用于在多点控制单元(MCU)中用远距离扬声器建立虚拟听觉场景。信号的到达时间因而在一个通道与另一通道之间不同,不同于用重合麦克风进行的记录,如X-Y(强度录音)或M-S(中间边录音)。这种非时间对准的两个通道的相干性的计算接着可被错误地估计,此使得人工环境合成失败。
与立体声处理相关的现有技术参考为美国专利5,434,948或美国专利8,811,621。
文件WO 2006/089570 A1公开近透明或透明的多通道编码器/解码器方案。多通道编码器/解码器方案额外产生波形型残余信号。此残余信号与一个或多个多通道参数一起传输至解码器。与纯粹的参数多通道解码器相比,增强型解码器由于额外残余信号而产生具有经改良输出质量的多通道输出信号。在编码器侧,左通道及右通道均通过分析滤波器组被滤波。因而,对于每个子频带信号,针对子频带计算对准值及增益值。此对准因而在进一步处理之前执行。在解码器侧,执行去对准及增益处理,且接着通过合成滤波器组来合成对应信号以便产生经解码左信号及经解码右信号。
另一方面,参数立体声采用额外滤波器组,其作为预处理器定位于编码器的前端中且作为后处理器定位于解码器的后端中。因此,参数立体声可与如ACELP的常规语音编码器一起使用,如在MPEG USAC中进行的。此外,听觉场景的参数化可用最小量的边信息达成,此适合于低比特率。然而,如例如在MPEG USAC中,参数立体声未针对低延迟特定设计,且整个系统示出非常高的算法延迟。
发明内容
本发明的目标为提供针对多通道编码/解码的经改良概念,其高效且在位置中以获得低延迟。
此目标通过根据权利要求1的用于编码多通道信号的装置、根据权利要求24的用于编码多通道信号的方法、根据权利要求25的用于解码经编码多通道信号的装置、根据权利要求42的用于解码经编码多通道信号的方法或根据权利要求43的计算机程序而达成。
本发明基于如下发现:多通道处理(即,联合多通道处理)的至少一部分且优选地所有部分在频谱域中执行。具体地,优选在频谱域中执行联合多通道处理的降混操作,且额外地,时间及相位对准操作或甚至用于分析联合立体声/联合多通道处理的参数的程序。另外,频谱域重新取样在多通道处理之后或甚至在多通道处理之前执行,以便提供来自另外频谱时间转换器的输出信号,其已经处于随后连接的核心编码器所需的输出取样率下。
在解码器侧,优选地再次执行用于在频谱域中从降混信号产生第一通道信号及第二通道信号的至少操作,且优选地,甚至在频谱域中执行完整的逆多通道处理。此外,提供时间频谱转换器以用于将经核心解码信号转换成频谱域表示,且在频域内,执行逆多通道处理。频谱域重新取样在多通道逆处理之前执行或在多通道逆处理之后执行,以此方式使得在最后,频谱时间转换器将频谱重新取样信号以意欲用于时域输出信号的输出取样率转换至时域中。
因此,本发明允许完全避免任何计算密集型时域重新取样操作。相反,多通道处理与重新取样组合。在优选实施例中,频谱域重新取样在减少取样的情况下通过截短频谱而执行,或在增加取样的情况下通过对频谱进行零填补而执行。这些简单操作(即,一方面截短频谱或另一方面对频谱进行零填补,及优选的额外缩放,以便考虑诸如DFT或FFT算法的频谱域/时域转换算法中所执行的某些归一化操作)使频谱域重新取样操作以非常高效且低延迟的方式完成。
此外,已发现编码器侧上的至少一部分或甚至整个联合立体声处理/联合多通道处理及解码器侧上的对应逆多通道处理适合于在频域中执行。此并不仅仅对于作为编码器侧上的最小联合多通道处理的降混操作或作为解码器侧上的最小逆多通道处理的升混处理有效。相反,甚至编码器侧上的立体声场景分析及时间/相位对准或解码器侧上的相位及时间去对准也可在频谱域中执行。上述情况适用于优选地执行的编码器侧上的边通道编码或解码器侧上的用于产生两个经解码输出通道的边通道合成及使用。
因此,本发明的优点为提供了比现有立体声编码方案更加适合于立体声语音的转换的新立体声编码方案。本发明的实施例提供用于实现低延迟立体声编解码器及在切换式音频编解码器内集成针对语音核心编码器及基于MDCT的核心编码器的在频域中执行的共同立体声工具的新架构。
本发明的实施例关于对来自常规M/S立体声或参数立体声的元素进行混频的混合式方法。实施例使用来自联合立体声编码的一些方面及工具以及来自参数立体声的其他方面及工具。更特别地,实施例采用在编码器的前端以及在解码器的后端进行的额外时间频率分析及合成。时间频率分解及逆变换通过采用具有复数值的滤波器组或块变换来达成。来自两个通道或多通道输入,立体声或多通道处理组合且修改输入通道,以输出称为中间及边信号(MS)的通道。
本发明的实施例提供用于减小由立体声模块引入且特别地来自其滤波器组的成帧(framing)及开窗的算法延迟的解决方案。所述解决方案提供多速率逆变换,其用于通过以不同取样率产生相同立体声处理信号而对如3GPP EVS的切换式编码器或在语音编码器(如ACELP)与一般音频编码器(如TCX)之间切换的编码器进行馈送。此外,所述解决方案提供适用于低延迟及低复杂系统的不同约束以及立体声处理的开窗。此外,实施例提供用于在频谱域中组合及重新取样不同经解码合成结果的方法,其中也应用逆立体声处理。
本发明的优选实施例包含频谱域重新取样器中的多功能,其不仅产生频谱值的单个频谱域重新取样块,而且额外产生对应于不同较高或较低取样率的频谱值的块的另外重新取样序列。
此外,多通道编码器被配置为在频谱时间转换器的输出处额外提供输出信号,其与输入至编码器侧上的时间频谱转换器中的原始第一及第二通道信号具有相同的取样率。因此,在实施例中,多通道编码器以原始输入取样率提供至少一个输出信号,其优选地用于基于MDCT的编码。另外,至少一个输出信号以特别地用于ACELP编码的中间取样率提供,且以也可用于ACELP编码,但不同于其他输出取样率的另外输出取样率额外地提供另外输出信号。
这些程序可针对中间信号或针对边信号或针对源自多通道信号的第一及第二通道信号的两个信号而执行,其中在仅具有两个通道(额外地两个,例如,低频增强通道)的立体声信号的情况下,第一信号页可为左信号且第二信号可为右信号。
在另外实施例中,多通道编码器的核心编码器被配置为根据成帧控制而操作,且立体声后处理器的时间频谱转换器及频谱时间转换器以及重新取样器也被配置为根据与核心编码器的成帧控制同步的另外成帧控制而操作。执行同步,以使得核心编码器的帧的序列的每个帧的开始帧边界或结束帧边界与窗口的重叠部分的开始瞬时或结束瞬时呈预定关系,所述窗口由时间频谱转换器或由频谱时间转换器针对取样值的块的序列的每个块或针对频谱值的块的重新取样序列的每个块使用。因此,保证后续成帧操作彼此同步地操作。
在另外实施例中,具有前瞻(look-ahead)部分的前瞻操作通过核心编码器执行。在此实施例中,优选地,前瞻部分也由时间频谱转换器的分析窗口使用,其中使用分析窗口的重叠部分,所述重叠部分具有低于或等于前瞻部分的时间长度的时间长度。
因此,通过使核心编码器的前瞻部分与分析窗口的重叠部分彼此相等或通过使重叠部分甚至小于核心编码器的前瞻部分,立体声预处理器的时间频谱分析不会没有任何额外算法延迟地实施。为了确保此经开窗前瞻部分不过多地影响核心编码器前瞻功能性,优选地使用分析窗口功能的逆(inverse)来纠正此部分。
为了确保这以良好稳定性进行,使用正弦窗口形状的平方根来替代正弦窗口形状作为分析窗口,且使用1.5的幂的合成窗口的正弦以达成在频谱时间转换器的输出处执行重叠操作之前合成开窗的目的。因此,确保纠正函数假定与作为正弦函数的逆函数的纠正函数相比关于量值减小的值。
然而,在解码器侧,优选地使用相同的分析及合成窗口形状,当然,这是因为不需要纠正。另一方面,优选地在解码器侧使用时间间隙,其中时间间隙存在于解码器侧上的时间频谱转换器的分析窗口的前导重叠部分的终点与由多通道解码器侧上的核心解码器输出的帧结束时的时间瞬时之间。因此,此时间间隙内的核心解码器输出样本出于立即被立体声后处理器的分析开窗的目的而不被需要,而仅仅是下一帧的处理/开窗所需的。此时间间隙可例如通过使用通常在分析窗口的中间的非重叠部分来实施,此导致重叠部分缩短。然而,也可使用用于实施此时间间隙的其他替代例,但通过中间的非重叠部分来实施时间间隙是优选的方式。因此,此时间间隙可用于在核心解码器从频域切换至时域帧时的其他核心解码器操作或优选地切换事件之间的平滑操作,或用于在参数变化或编码特性变化已经出现时可以是有用的任何其他平滑操作。
附图说明
随后,关于附图详细地论述本发明的优选实施例,其中:
图1为多通道编码器的实施例的框图;
图2图示频谱域重新取样的实施例;
图3a至图3c图示用于执行在频谱域中具有不同归一化及对应缩放的时间/频率或频率/时间转换的不同替代例;
图3d图示某些实施例的不同频率分辨率及其他频率相关方面;
图4a为编码器的实施例的框图;
图4b图示解码器的对应实施例的框图;
图5图示多通道编码器的优选实施例;
图6图示多通道解码器的实施例的框图;
图7a图示包含组合器的多通道解码器的又一实施例;
图7b图示额外包含组合器(加法)的多通道解码器的又一实施例;
图8a图示示出若干取样率的窗口的不同特性的表;
图8b图示作为时间频谱转换器及频谱时间转换器的实施的DFT滤波器组的不同建议/实施例;
图8c图示具有10ms时间分辨率的DFT的两个分析窗口的序列;
图9a图示根据第一建议/实施例的编码器示意性开窗;
图9b图示根据第一建议/实施例的解码器示意性开窗;
图9c图示根据第一建议/实施例的编码器及解码器处的窗口;
图9d图示说明纠正实施例的优选流程图;
图9e图示进一步说明纠正实施例的流程图;
图9f图示用于解释时间间隙解码器侧实施例的流程图;
图10a图示根据第四建议/实施例的编码器示意性开窗;
图10b图示根据第四建议/实施例的解码器示意性窗口;
图10c图示根据第四建议/实施例的编码器及解码器处的窗口;
图11a图示根据第五建议/实施例的编码器示意性开窗;
图11b图示根据第五建议/实施例的解码器示意性开窗;
图11c图示根据第五建议/实施例的编码器及解码器;
图12为信号处理器中的使用降混的多通道处理的优选实施的框图;
图13为信号处理器内的具有升混操作的逆多通道处理的优选实施例;
图14a图示出于对准通道的目的进行编码的装置中所执行的程序的流程图;
图14b图示频域中所执行的程序的优选实施例;
图14c图示使用具有零填补部分及重叠范围的分析窗口进行编码的装置中所执行的程序的优选实施例;
图14d图示用于编码的装置的实施例内所执行的其他程序的流程图;
图15a图示由用于解码及编码多通道信号的装置的实施例执行的程序;
图15b图示相对于一些方面用于解码的装置的优选实施;以及
图15c图示在解码经编码多通道信号的架构中的宽带去对准的情况下所执行的程序。
具体实施方式
图1图示用于编码包含至少两个通道1001、1002的多通道信号的装置。在两通道立体声情境的情况下,第一通道1001在左通道中,且第二通道1002可为右通道。然而,在多通道情境的情况下,第一通道1001及第二通道1002可为多通道信号的通道中的任一个,诸如,例如,一方面为左通道且另一方面为左环绕通道,或一方面为右通道及另一方面为右环绕通道。然而,这些通道配对仅为示例,且其他通道配对可视情况需要而应用。
图1的多通道编码器包含时间频谱转换器,其用于将至少两个通道的取样值的块的序列转换成时间频谱转换器的输出处的频域表示。每个频域表示具有至少两个通道中的一个的频谱值的块的序列。特别地,第一通道1001或第二通道1002的取样值的块具有相关联的输入取样率,且时间频谱转换器的输出的序列的频谱值的块具有高达与输入取样率相关的最大输入频率的频谱值。在图1中所说明的实施例中,时间频谱转换器连接至多通道处理器1010。此多通道处理器被配置用于将联合多通道处理应用于频谱值的块的序列,以获得包含与至少两个通道相关的信息的频谱值的块的至少一个结果序列。典型多通道处理操作为降混操作,但优选的多通道操作包含随后将描述的额外程序。
在替代实施例中,多通道处理器1010连接至频谱域重新取样器1020,且频谱域重新取样器1020的输出被输入至多通道处理器中。此通过虚连接线1021、1022来说明。在此替代实施例中,多通道处理器被配置用于不对由时间频谱转换器输出的频谱值的块的序列应用联合多通道处理,而对可在连接线1022上获得的块的重新取样序列应用联合多通道处理。
频谱域重新取样器1020被配置用于对由多通道处理器产生的结果序列重新取样或对由时间频谱转换器1000输出的块的序列重新取样,以获得可表示如以线1025所说明的中间信号的频谱值的块的重新取样序列。优选地,频谱域重新取样器额外执行对由多通道处理器产生的边信号的重新取样,且因此也输出对应于如以1026所说明的边信号的重新取样序列。然而,边信号的产生及重新取样是可选的且并非低比特率实施所需的。优选地,频谱域重新取样器1020被配置用于出于减少取样的目的而截短频谱值的块或出于增加取样的目的而对频谱值的块进行零填补。多通道编码器额外包含频谱时间转换器,其用于将频谱值的块的重新取样序列转换成包含取样值的块的输出序列的时域表示,所述取样值的块的输出序列具有不同于输入取样率的相关联的输出取样率。在替代实施例中,在频谱域重新取样在多通道处理之前执行的情况下,多通道处理器经由虚线1023将结果序列直接提供至频谱时间转换器1030。在此替代实施例中,可选特征为:额外地,,边信号由多通道处理器产生,从而已经在重新取样表示中,且边信号接着也由频谱时间转换器进行处理。
最后,频谱时间转换器优选地提供时域中间信号1031及可选的时域边信号1032,这些信号均可由核心编码器1040进行核心编码。一般而言,核心编码器被配置用于对取样值的块的输出序列进行核心编码,以获得经编码多通道信号。
图2图示对解释频谱域重新取样有用的频谱图表。
图2中的上图表说明在时间频谱转换器1000的输出处可获得的通道的频谱。此频谱1210具有高达最大输入频率1211的频谱值。在增加取样的情况下,在延伸直至最大输出频率1221的零填补部分或零填补区域1220内执行零填补。由于意欲增加取样,因此最大输出频率1221大于最大输入频率1211。
与此相比,图2中的最低图表说明通过对块的序列减少取样导致的程序。为此目的,块在截短区域1230内被截短,使得1231处的截短频谱的最大输出频率低于最大输入频率1211。
通常,与图2中的对应频谱相关联的取样率为频谱的最大频率的至少2倍。因此,对于图2中的上部情况,取样率将为最大输入频率1211的至少2倍。
在图2的第二图表中,取样率将为最大输出频率1221(即,零填补区域1220的最高频率)的至少两倍。与此相比,在图2中的最低图表中,取样率将为最大输出频率1231(即,在截短区域1230内的截短之后剩余的最高频谱值)的至少2倍。
图3a至图3c说明在某些DFT正向或反向变换算法的情况下可使用的若干替代例。在图3a中,考虑这种情况,其中执行具有大小x的DFT,且其中正向变换算法1311中并不发生任何归一化。在块1331,说明具有不同大小y的反向变换,其中执行具有1/Ny的归一化。Ny是具有大小y的反向变换的频谱值的数目。接着,优选地执行如块1321所说明的按Ny/Nx的缩放。
与此相比,图3b说明这样的实施,其中归一化被分配至正向变换1312及反向变换1332。接着如块1322中所说明需要缩放,其中反向变换的频谱值的数目与正向变换的频谱值的数目之间的关系的平方根是有用的。
图3c说明又一实施,其中在执行具有大小x的正向变换的情况下,对正向变换执行整体归一化。因而,如块1333中所说明的反向变换在无任何归一化的情况下操作,使得如图3c中的示意性块1323所说明的并不需要任何缩放。因此,取决于特定算法,需要特定缩放操作或甚至不需要缩放操作。然而,优选地根据图3a来操作。
为了使总延迟保持为低,本发明提供在编码器侧的用于避免需要时域重新取样器且通过通过在DFT域中对信号重新取样来替换时域重新取样器的方法。举例而言,在EVS中,允许节约来自时域重新取样器的0.9375ms的延迟。频域中的重新取样系通过零填补或截短频谱及正确地对频谱进行缩放来达成。
考虑输入开窗信号x(以速率fx取样,频谱X大小为Nx)及同一信号的版本y(以速率fy重新取样,频谱大小为Ny)。取样因子因而等于:
fy/fx=Ny/Nx
在减少取样的情况下,Nx>Ny。通过直接缩放且截短原始频谱X,可在频域中简单地执行减少取样:
Y[k]=X[k].Ny/Nx,其中k=0..Ny
在增加取样的情况下,Nx<Ny。通过直接缩放且零填补原始频谱X,可在频域中简单地执行增加取样:
Y[k]=X[k].Ny/Nx,其中k=0…Nx
Y[k]=0,其中k=Nx…Ny
两种重新取样操作可通过下式概述:
Y[k]=X[k].Ny/Nx,其中所有k=0…min(Ny,Nx)
Y[k]=0,其中所有k=min(Ny,Nx)…Ny,若Ny>Nx
一旦获得新频谱Y,可通过应用大小Ny的相关联逆变换iDFT而获得时域信号y:
y=iDFT(Y)
为了跨不同帧建构连续时间信号,接着对输出帧y开窗且将其重叠添加至先前获得的帧。
窗口形状对于所有取样率相同,但窗口在样本中具有不同大小且取决于取样率而被不同地取样。由于形状被纯粹从分析上定义,因此窗口的样本的数目及其值可容易地导出。窗口的不同部分及大小在图8a中可被发现为目标取样率的函数。在此情况下,将重叠部分(LA)中的正弦函数用于分析及合成窗口。针对这些区域,递增ovlp_size系数通过下式给出:
win_ovlp(k)=sin(pi*(k+0.5)/(2*ovlp_size));其中k=0..ovlp_size-1
而递减ovlp_size系数通过下式给出:
win_ovlp(k)=sin(pi*(ovlp_size-1-k+0.5)/(2*ovlp_size));其中k=0..ovlp_size-1
其中ovlp_size是取样率的函数且在图8a中给出。
新的低延迟立体声编码为利用一些空间提示的联合中间/边(M/S)立体声编码,其中中间通道通过主要单声道核心编码器(单声道核心编码器)来编码,且边通道在次核心编码器中进行编码。编码器及解码器原理描绘于图4a及图4b中。
立体声处理主要在频域(FD)中执行。可选地,某些立体声处理可在频率分析之前在时域(TD)中执行。ITD计算的情况正是如此,ITD计算可在频率分析之前计算并应用以用于在实行立体声分析及处理之前在时间上对准通道。替代地,ITD处理可直接在频域中进行。由于如ACELP的常见语音编码器并不含有任何内部时间频率分解,因此立体声编码借助于在核心编码器之前的分析及合成滤波器组及在核心解码器之后的分析合成滤波器组的另一阶段来添加额外的复调制滤波器组。在优选实施例中,使用具有低重叠区域的过度取样DFT。然而,在其他实施例中,可使用具有类似时间分辨率的任何复值时间频率分解。在立体声滤波器组之后,参考如QMF的滤波器组或如DFT的块变换。
立体声处理由计算空间提示和/或立体声参数(如通道间时间差(ITD)、通道间相位差(IPD)、通道间位准差(ILD)及用于根据中间信号(M)预测边信号(S)的预测增益)组成。值得注意的是,编码器及解码器两者处的立体声滤波器组在编码系统中引入额外延迟。
图4a说明用于编码多通道信号的装置,其中,在此实施中,使用通道间时间差(ITD)分析在时域中执行某一联合立体声处理,且其中,使用放置于时间频谱转换器1000之前的时间移位块1410在时域内应用此ITD分析1420的结果。
接着,在频谱域内,执行又一立体声处理1010,其至少导致中间信号M的左边及右边的降混,且可选地,导致边信号S的计算,及尽管图4a中未明确地图示,由可应用两个不同替代例中的一个的图1中所说明的频谱域重新取样器1020执行的重新取样操作,即,在多通道处理之后或在多通道处理之前执行重新取样。
此外,图4a说明优选核心编码器1040的其他细节。特别地,出于编码频谱时间转换器1030的输出端处的时域中间信号m的目的,使用EVS编码器。另外,出于边信号编码的目的,执行MDCT编码1440及随后连接的向量量化1450。
经编码或经核心编码的中间信号及经核心编码的边信号被转发至将这些经编码信号与边信息一起多路复用的多路复用器1500。一种边信息为在1421输出至多路复用器(且可选地,至立体声处理组件1010)的ID参数,且其他参数为通道位准差/预测参数、通道间相位差(IPD参数)或立体声填充参数,如线1422处所说明。相应地,用于解码由比特流1510表示的多通道信号的图4b装置包含信号分离器(demultiplexer)1520、在此实施例中由针对经编码中间信号m的EVS解码器1602、及向量反量化器1603以及随后连接的逆MDCT块1604组成的核心解码器。块1604提供经核心解码的边信号s。使用时间频谱转换器1610将经解码信号m、s转换至频谱域中,且接着,在频谱域内,执行逆立体声处理及重新取样。再次,图4b说明一情形,其中从M信号至左L及右R的升混被执行,且另外,执行使用IPD参数的窄带去对准,且另外,执行用于使用线1605上的通道间位准差参数ILD及立体声填充参数来计算尽可能良好的左通道及右通道的另外程序。此外,信号分离器1520不仅从比特流1510提取线1605上的参数,而且提取线1606上的通道间时间差且将此信息转发至块逆立体声处理/重新取样器,且另外转发至块1650中的逆时间移位处理,逆时间移位处理在时域中执行,即,在由以输出速率提供经解码左信号及右信号的频谱时间转换器执行的程序之后,输出速率例如不同于EVS解码器1602的输出处的速率或不同于IMDCT块1604的输出处的速率。
立体声DFT接着可提供进一步输送至切换式核心编码器的信号的不同取样版本。用以编码的信号可为中间通道、边通道或左通道及右通道,或由两个输入通道的旋转或通道映射产生的任何信号。由于切换式系统的不同核心编码器接受不同取样率,因此重要特征为立体声合成滤波器组可提供多速率信号(multi-rated signal)。所述原理在图5中给出。
在图5中,立体声模块选取两个输入通道l及r作为输入,且在频域中将它们变换为信号M及S。在立体声处理中,输入通道最终可被映射或被修改以产生两个新信号M及S。M将根据3GPP标准EVS单声道或其经修改版本进一步被编码。此编码器为切换式编码器,在MDCT核心(在EVS情况下,TCX及HQ核心)与语音编码器(在EVS中,ACELP)之间切换。它还具有始终以12.8kHz运行的预处理功能,及以根据操作模式变化的取样率(12.8kHz、16kHz、25.6kHz或32kHz)运行的其他预处理功能。此外,ACELP以12.8kHz或16kHz运行,而MDCT核心以输入取样率运行。信号S可由标准EVS单声道编码器(或其经修改版本)或由针对其特性专门设计的特定边信号编码器进行编码。还能够可以跳过边信号S的编码。
图5说明具有经立体声处理的信号M及S的多速率合成滤波器组的优选立体声编码器细节。图5示出时间频谱转换器1000,其以输入速率(即,信号1001及1002具有的速率)运行时间频率变换。明确地,图5额外说明针对每个通道的时域分析块1000a、1000e。特别地,尽管图5说明显式时域分析块(即,用于将分析窗口应用于对应通道的开窗器),但应注意,在本说明书中的其他位置,用于应用时域分析块的开窗器被认为包括于指示为某一取样率下的“时间频谱转换器”或“DFT”的块中。此外且相应地,频谱时间转换器的提及通常包括在实际DFT算法的输出处的用于应用对应合成窗口的开窗器,其中,为了最终获得输出样本,执行以对应合成窗口进行开窗的取样值的块的重叠加法。因此,即使,例如,块1030仅提及“IDFT”,此块也通常表示利用分析窗口对时域样本的块的后续开窗以及此外后续的重叠加法操作,以便最终获得时域m信号。
此外,图5说明特定立体声场景分析块1011,所述块执行用以执行立体声处理及降混的块1010中所使用的参数,且这些参数可例如为图4a的线1422或1421上的参数。因此,块1011在所述实施中可对应于图4a中的块1420,其中甚至参数分析(即,立体声场景分析)在频谱域中进行,且特别地利用未经重新取样,但在对应于输入取样率的最大频率下的频谱值的块的序列。
此外,核心解码器1040包含基于MDCT的编码器分支1430a及ACELP编码分支1430b。特别地,针对中间信号M的中间编码器及针对边信号s的对应边编码器执行基于MDCT的编码与ACELP编码之间的切换编码,其中,通常,核心编码器额外具有通常对某一前瞻部分操作以便确定某一块或帧是否使用基于MDCT的程序或基于ACELP的程序进行编码的编码模式决定器。此外,或替代地,核心编码器被配置为使用前瞻部分,以便确定诸如LPC参数等的其他特性。
此外,核心编码器另外包含不同取样率下的预处理级,诸如以12.8kHz操作的第一预处理级1430c及以由16kHz、25.6kHz或32kHz组成的取样率群组的取样率操作的又一预处理级1430d。
因此,一般而言,图5中所说明的实施例被配置为具有用于从输入速率(其可为8kHz、16或32kHz)重新取样成不同于8、16或32的输出速率中的任一个的频谱域重新取样器。
此外,图5中的实施例另外被配置为具有未经重新取样的额外分支,即,由“输入速率下的IDFT”说明的针对中间信号且可选地针对边信号的分支。
此外,图5中的编码器优选地包含重新取样器,其不仅重新取样至第一输出取样率,而且重新取样至第二输出取样率,以便具有用于预处理器1430c及1430d两者的数据,这些预处理器可例如操作以执行优选地公开于用于在图4a的情况下已经提及的EVS编码器的3GPP标准中的某种滤波、某种LPC计算或某种其他信号处理。
图6说明用于解码经编码多通道信号1601的装置的实施例。所述解码装置包含核心解码器1600、时间频谱转换器1610、频谱域重新取样器1620、多通道处理器1630以及频谱时间转换器1640。
此外,关于用于解码经编码多通道信号1601的装置的本发明可在两个替代例中实施。一个替代例为:频谱域重新取样器被配置为在执行多通道处理之前在频谱域中对经核心解码信号重新取样。此替代例由图6中的实线来说明。然而,另一替代例为:在多通道处理之后执行频谱域重新取样,即,多通道处理以输入取样率进行。此实施例在图6中由虚线说明。
特别地,在第一实施例中,即,在频谱域重新取样在多通道处理之前在频谱域中执行的情况下,表示取样值的块的序列的经核心解码信号被转换成具有线1611处的经核心解码信号的频谱值的块的序列的频域表示。
另外,经核心解码信号不仅包含线1602处的M信号,而且包含线1603处的边信号,其中边信号在1604处经核心编码的表示说明。
接着,时间频谱转换器1610额外产生线1612上的边信号的频谱值的块的序列。
接着,频谱域重新取样由块1620执行,且在线1621将关于中间信号或降混通道或第一通道的频谱值的块的重新取样序列转发至多通道处理器,且可选地,还经由线1622将边信号的频谱值的块的重新取样序列从频谱域重新取样器1620转发至多通道处理器1630。
接着,多通道处理器1630对线1621及1622处所说明的包括来自降混信号及可选的来自边信号的序列的序列执行逆多通道处理,以便输出1631及1632处所说明的频谱值的块的至少两个结果序列。这些至少两个序列接着使用频谱时间转换器被转换至时域中,以便输出时域通道信号1641及1642。在线1615处所说明的另一替代例中,时间频谱转换器被配置为将经核心解码的信号(诸如中间信号)馈送至多通道处理器。另外,时间频谱转换器还可将经解码边信号1603以其频谱域表示馈送至多通道处理器1630,尽管此选项未在图6中说明。接着,多通道处理器执行逆处理,且输出的至少两个通道经由连接线1635被转发至频谱域重新取样器,所述频谱域重新取样器接着经由线1625将重新取样的至少这两个通道转发至频谱时间转换器1640。
因此,与在图1的情况下已论述的情况有点类似,用于解码经编码多通道信号的装置也包含两个替代例,即,频谱域重新取样在逆多通道处理之前执行的情况,或替代地,频谱域重新取样在输入取样率下的多通道处理之后执行的情况。然而,优选地,执行第一替代例,因为第一替代例允许图7a及图7b中所说明的不同信号贡献的有利对准。
此外,图7a说明核心解码器1600,然而,所述核心解码器输出三个不同输出信号,亦即:相对于输出取样率的不同取样率下的第一输出信号1601,输入取样率(即,经核心编码信号1601下的取样率)下的第二经核心解码信号1602,且核心解码器另外产生输出取样率(即,图7a中的频谱时间转换器1640的输出处最终预期的取样率)下的可操作且可用的第三输出信号1603。
所有三个经核心解码信号被输入至时间频谱转换器1610中,所述时间频谱转换器1610产生频谱值的块的三个不同序列1613、1611以及1612。
频谱值的块的序列1613具有高达最大输出频率的频率或频谱值,且因此与输出取样率相关联。
频谱值的块的序列1611具有高达不同最大频率的频谱值,且因此,此信号并不对应于输出取样率。
此外,信号1612频谱值高达也不同于最大输出频率的最大输入频率。
因此,序列1612及1611被转发至频谱域重新取样器1620,而信号1613不被转发至频谱域重新取样器1620,因为此信号已与正确输出取样率相关联。
频谱域重新取样器1620将频谱值的重新取样序列转发至组合器1700,所述组合器1700被配置为针对在重叠情形中对应的信号逐频谱线地执行逐块组合。因此,在从基于MDCT的信号至ACELP信号的切换之间通常会存在交叉区域,且在此重叠范围中,信号值存在且彼此组合。然而,当此重叠范围结束且信号仅存在于例如信号1603中,而例如信号1602不存在时,组合器在此部分中将不执行逐块频谱线加法。然而,当转接稍后出现时,逐块、逐频谱线加法将在此交叉区域期间发生。
此外,如图7b中所说明,连续加法也可为可能的,其中执行块1600a处所说明的低音后置滤波器输出信号,其产生可例如为来自图7a的信号1601的间谐波误差信号。接着,在块1610中的时间频谱转换及后续频谱域重新取样1620之后,优选地在执行图7b中的块1700中的加法之前执行额外滤波操作1702。
类似地,基于MDCT的解码级1600d及时域带宽扩展解码级1600c可经由交叉衰落(cross-fading)块1704耦接,以便获得接着以输出取样率转换成频谱域表示的经核心解码的信号1603,使得对于此信号1613,频谱域重新取样并非必需的,但所述信号可直接转发至组合器1700。立体声逆处理或多通道处理1603接着在组合器1700之后发生。
因此,与图6中所说明的实施例相比,多通道处理器1630并不对频谱值的重新取样序列进行操作,而对包含频谱值的至少一个重新取样序列(诸如,1622及1621)的序列进行操作,其中多通道处理器1630对其进行操作的序列另外包含未必要重新取样的序列1613。
如图7中所说明,来自以不同取样率工作的不同DFT的不同经解码信号已经被时间对准,因为不同取样率下的分析窗口共享相同形状。然而,频谱示出不同大小及缩放。为了调和频谱且使其兼容,所有频谱在添加至彼此之前以期望输出取样率在频域中被重新取样。
因此,图7说明DFT域中的合成信号的不同贡献的组合,其中频谱域重新取样以如下方式执行:最后,待通过组合器1700被相加的所有信号已经是可获得的,且频谱值延伸高达对应于输出取样率(即,低于或等于接着在频谱时间转换器1640的输出处所获得的输出取样率的一半)的最大输出频率。
立体声滤波器组的选择对低延迟系统至关重要,且在图8b中概述了可实现平衡。其可使用DFT(块变换)或称作CLDFB(滤波器组)的伪低延迟QMF。每个建议展示不同的延迟、时间以及频率分辨率。针对所述系统,这些特性之间的最佳折中必须被选择。具有良好频率及时间分辨率是重要的。这是为何使用如建议3中的伪QMF滤波器组可以是有问题的原因。频率分辨率低。它可通过如MPEG-USAC的MPS 212中的混合式方法来增强,且它具有明显地增大复杂度及延迟的缺点。另一重要点为核心解码器与逆立体声处理之间的解码器侧处可获得的延迟。此延迟愈大愈佳。举例而言,建议2不能提供此延迟,且出于此原因而并非有价值的解决方案。出于这些上文所提及的原因,我们在本说明书剩余部分中将关注建议1、4以及5。
滤波器组的分析及合成窗口是另一重要方面。在优选实施例中,将相同窗口用于DFT的分析及合成。在编码器侧及解码器侧处也相同。对实现以下约束付出特殊注意力:
·重叠区域必须等于或小于MDCT核心及ACELP前瞻的重叠区域。在优选实施例中,所有大小等于8.75ms。
·零填补应为至少约2.5ms,用于允许在DFT域中应用通道的线性移位。
·针对不同取样率:12.8kHz、16kHz、25.6kHz、32kHz以及48kHz,窗口大小、重叠区域大小以及零填补大小必须用整数数目个样本来表示。
·DFT复杂度应尽可能低,即,分裂基FFT实施中的DFT的最大基数应尽可能低。
·时间分辨率固定至10ms。
已知这些约束,在图8c中且在图8a中描述用于建议1及4的窗口。
图8c说明第一窗口,其由初始重叠部分1801、后续中间部分1803以及终止重叠部分或第二重叠部分1802组成。此外,第一重叠部分1801及第二重叠部分1802额外具有其开始处的零填补部分1804及其结束处的零填补部分1805。
此外,图8c说明相对于图1的时间频谱转换器1000或替代地图7a的1610的成帧所执行的程序。由元素1811(即,第一重叠部分)、中间非重叠部分1813以及第二重叠部分1812组成的另一分析窗口与第一窗口重叠50%。第二窗口额外在其开始及结束处具有零填补部分1814及1815。这些零重叠部分是必需的,以便在位置中执行频域中的宽带时间对准。
此外,第二窗口的第一重叠部分1811在中间部分1803(即,第一窗口的非重叠部分)结束时开始,且第二窗口的重叠部分(即,非重叠部分1813)在第一窗口的第二重叠部分1802结束时开始,如图所示。
当认为图8c表示频谱时间转换器(诸如用于编码器的图1的频谱时间转换器1030,或用于解码器的频谱时间转换器1640)上的重叠加法操作时,则由块1801、1802、1803、1805、1804组成的第一窗口对应于合成窗口,且由部分1811、1812、1813、1814、1815组成的第二窗口对应于下一个块的合成窗口。因而,窗口之间的重叠说明重叠部分,且以1820来说明所述重叠部分,且所述重叠部分的长度等于当前帧除以二,且在优选实施例中等于10ms。此外,在图8c的底部,用于计算重叠范围1801或1811内的递增窗口系数的分析方程式被说明为正弦函数,且相应地,重叠部分1802及1812的递减重叠大小系数也被说明为正弦函数。
在优选实施例中,相同的分析窗口及合成窗口仅用于图6、图7a、图7b中所说明的解码器。因此,时间频谱转换器1616及频谱时间转换器1640使用完全相同的窗口,如图8c中所说明。
然而,在特别地关于后续建议/实施例1的某些实施例中,使用大体上符合图1c的分析窗口,但用于递增或递减重叠部分的窗口系数使用正弦函数的平方根来计算,正弦函数中的自变量与图8c中相同。相应地,使用正弦至幂1.5函数来计算合成窗口,但再次具有相同的正弦函数的自变量。
此外,应注意,归因于重叠加法操作,至幂0.5的正弦乘以至幂1.5的正弦的乘法再一次产生正弦至幂2的结果,其是具有能量守恒情形必需的。
建议1以DFT的重叠区域具有相同大小且与ACELP前瞻及MDCT核心重叠区域对准作为主要特性。编码器延迟因而对于ACELP/MDCT核心而言相同,且立体声不引入编码器处的任何额外延迟。在EVS情况下及在使用如图5中所描述的多速率合成滤波器组方法的情况下,立体声编码器延迟低至8.75ms。
在图9a中说明编码器示意性成帧,而在图9e中描绘解码器。在图9c中以蓝色虚线画出用于编码器的窗口且以红色实线画出用于解码器的窗口。
建议1的一个主要问题在于编码器处的前瞻被开窗。所述问题可针对后续处理加以纠正,或在后续处理是为了考虑经开窗前瞻而被采用的情况下,可保留开窗。情况可能如下:若DFT中所执行的立体声处理修改输入通道,且尤其在使用非线性运算时,在核心编码被绕过的情况下,经纠正或经开窗信号不允许达成完美重建。
值得注意的,在核心解码器合成窗口与立体声解码器分析窗口之间,存在1.25ms时间间隙,其可供核心解码器后处理、带宽扩展(BWE)(如对ACELP所使用的时域BWE)或某些平滑(在ACELP核心与MDCT核心之间的转换的情况下)利用。
由于仅1.25ms的此时间间隙低于这些运算的标准EVS所需的2.3125ms,因此本发明提供在立体声模块的DFT域内组合、重新取样以及平滑切换式解码器的不同合成部分的方法。
如图9a中所说明,核心编码器1040被配置为根据成帧控制而操作以提供帧的序列,其中帧以开始帧边界1901及结束帧边界1902为界。此外,时间频谱转换器1000和/或频谱时间转换器1030也被配置为根据与第一成帧控制同步的第二成帧控制而操作。针对编码器中的时间频谱转换器1000,且特别地针对同时且完全同步地进行处理的第一通道1001及第二通道1002,通过两个重叠窗口1903及1904来说明成帧控制。此外,成帧控制在解码器侧也可见,具体地,1913及1914说明的针对图6的时间频谱转换器1610的两个重叠窗口。这些窗口1913及1914被应用于核心解码器信号,所述信号优选地为例如图6的单个单声道或降混信号1610。此外,从图9a显而易见,核心编码器1040的成帧控制与时间频谱转换器1000或频谱时间转换器1030的成帧控制之间的同步使得针对取样值的块的序列的每个块或针对频谱值的块的重新取样序列的每个块,帧序列的每个帧的开始帧边界1901或结束帧边界1902与由时间频谱转换器1000或频谱时间转换器1030所使用的重叠部分的开始瞬时或及结束瞬时呈预定关系。在图9a中所说明的实施例中,所述预定关系使得第一重叠部分的开始与相对于窗口1903的开始时间边界重合,且另一窗口1904的重叠部分的开始与中间部分(诸如,图8c的部分1803)的结束一致。因此,当图8c中的第二窗口对应于图9a中的窗口1904时,结束帧边界1902与图8c的中间部分1813的结束一致。
因此,显而易见,图9a中的第二窗口1904的第二重叠部分(诸如,图8c的1812)延伸超过结束或停止帧边界1902,且因此,延伸至以1905说明的核心编码器前瞻部分中。
因此,核心编码器1040被配置为在对取样值的块的输出序列的输出块进行核心编码时使用前瞻部分(诸如前瞻部分1905),其中输出前瞻部分在时间上位于输出块之后。输出块对应于以帧边界1901、1904为界的帧,且输出前瞻部分1905跟在用于核心编码器1040的此输出块之后。
此外,如所说明,时间频谱转换器被配置为使用分析窗口,即窗口1904,其具有时间长度上低于或等于前瞻部分1905的时间长度的重叠部分,其中位于重叠范围中的对应于图8c的重叠1812的此重叠部分被用于产生经开窗前瞻部分。
此外,频谱时间转换器1030被配置为优选地使用纠正函数来处理对应于经开窗前瞻部分的输出前瞻部分,其中纠正函数被配置为使得分析窗口的重叠部分的影响减小或消除。
因此,图9a中的在核心编码器1040与降混1010/减少取样1020块之间操作的频谱时间转换器被配置为应用纠正函数,以便撤销通过图9a中的窗口1904施加的开窗。
因此,确定核心编码器1040在将其前瞻功能性应用于前瞻部分1095时对离原始部分尽可能远的部分而非对所述前瞻部分执行前瞻功能。
然而,归因于低延迟约束,且归因于立体声预处理器与核心编码器的成帧之间的同步,用于前瞻部分的原始时域信号并不存在。然而,纠正函数的应用确保由此程序导致的任何伪讯(artifact)尽可能多地减少。
在图9d、图9e中更详细地说明关于此技术的一系列程序。
在步骤1910中,执行第零个块的DFT-1以获得时域中的第零个块。第零个块将已获得用于图9a中的窗口1903的左边的窗口。然而,此第零个块未在图9a中明确地说明。
接着,在步骤1912中,使用合成窗口对第零个块开窗,即,在图1中所说明的频谱时间转换器1030中进行开窗。
接着,如块1911中所说明,执行通过窗口1903获得的第一块的DFT-1,以获得时域中的第一块,且再一次在块1910中使用合成窗口对此第一块进行开窗。
接着,如图9d中的1918所指示,执行第二块(即,通过图9a的窗口1904获得的块)的逆DFT,以获得时域中的第二块,且接着使用合成窗口对第二块的第一部分进行开窗,如图9d的1920所说明。然而,重要地,通过图9d中的项目1918获得的第二块的第二部分并未使用合成窗口进行开窗,但如图9d的块1922中所说明地被纠正,且对于纠正函数,使用分析窗口函数且分析窗口函数的对应重叠部分的逆。
因此,若用于产生第二块的窗口为图8c中所说明的正弦窗口,则图8c的底部的用于使方程式的重叠大小系数递减的1/sin()被用作纠正函数。
然而,优选地将正弦窗口的平方根用于分析窗口,且因此,纠正函数为窗函数
Figure BDA0001530864300000181
此确保通过块1922获得的经纠正前瞻部分尽可能地接近前瞻部分内的原始信号,但当然并非原始左信号或原始右信号,而是通过将左信号及右信号相加以获得中间信号而已经获得的原始信号。
接着,在图9d中的步骤1924中,通过在块1030中执行重叠加法操作以使得编码器具有时域信号而产生由帧边界1901、1902指示的帧,且通过对应于窗口1903的块与先前块的先前样本之间的重叠加法操作以及使用由块1920获得的第二块的第一部分来执行此帧。接着,将由块1924输出的此帧转发至核心编码器1040,且额外地,核心编码器另外接收所述帧的经纠正前瞻部分,且如步骤1926中所说明,核心编码器接着可使用由步骤1922获得的经纠正前瞻部分来确定核心编码器的特性。接着,如步骤1928中所说明,核心编码器使用在块1926中确定的特性对帧进行核心编码,从而最终获得对应于帧边界1901、1902的经核心编码帧,其在优选实施例中具有20ms的长度。
优选地,延伸至前瞻部分1905中的窗口1904的重叠部分具有与前瞻部分相同的长度,但它也可比前瞻部分短,但优选地,不比前瞻部分长,以使得立体声预处理器不由于重叠窗口而引起任何额外延迟。
接着,程序继续使用合成窗口对第二块的第二部分开窗,如块1930中所说明。因此,第二块的第二部分一方面通过块1922进行纠正,且另一方面通过合成窗口进行开窗,如块1930中所说明,因为接着需要此部分以用于由核心编码器通过将第二块的经开窗第二部分、经开窗第三块以及第四块的经开窗第一部分重叠相加来产生下一帧,如块1932中所说明。自然地,第四块且特别地第四块的第二部分将再一次经受如关于图9d的项目1922中的第二块所论述的纠正操作,且接着,程序将再一次如之前所论述地重复。此外,在步骤1934中,核心编码器将使用第四块的经纠正第二部分来确定核心编码器特性,且接着,将使用经确定的编码特性来编码下一帧,以便在块1934中最终获得经核心编码的下一帧。因此,分析(对应合成)窗口的第二重叠部分与核心编码器前瞻部分1905的对准确保可获得非常低延迟实施且此优点由如下事实引起:经开窗的前瞻部分一方面通过执行纠正操作且另一方面通过应用分析窗口(不等于合成窗口,但施加较小影响)来解决,以使得可确保纠正功能与使用相同分析/合成窗口相比更稳定。然而,在核心编码器被修改成操作其前瞻功能(其通常是确定关于经开窗部分的核心编码特性必需的)的情况下,未必执行纠正功能。然而,已发现使用纠正功能优于修改核心编码器。
此外,如之前所论述,应注意,在窗口(即,分析窗口1914)的终点与由图9b的开始帧边界1901及结束帧边界1902限定的帧的结束帧边界1902之间存在时间间隙。
特别地,时间间隙相对于通过图6的时间频谱转换器1610应用的分析窗口以1920来说明,且此时间间隙相对于第一输出通道1641及第二输出通道1642也可见120。
图9f示出在时间间隙的情况下所执行的步骤的程序,核心解码器1600对帧或直至时间间隙1920的至少帧的最初部分进行核心解码。接着,图6的时间频谱转换器1610被配置为使用分析窗口1914将分析窗口应用于帧的初始部分,分析窗口不延伸直至帧的结束,即,时间瞬时1902,而仅延伸直至时间间隙1920的开始。
因此,核心解码器具有额外时间以对时间间隙中的样本进行核心解码和/或对时间间隙中的样本进行后处理,如块1940处所说明。因此,时间频谱转换器1610已输出第一块作为步骤1938的结果,此处核心解码器可提供时间间隙中的剩余样本或可在步骤1940对时间间隙中的样本进行后处理。
接着,在步骤1942中,时间频谱转换器1610被配置为使用将在图9b中的窗口1914之后出现的下一个分析窗口对时间间隙中的样本以及下一帧的样本开窗。接着,如步骤1944中所说明,核心解码器1600被配置为解码下一帧或直至时间间隙1920在下一帧中出现的至少下一帧的初始部分。接着,在步骤1946中,时间频谱转换器1610被配置为对下一帧中的样本开窗,直至下一帧的时间间隙1920,且在步骤1948中,核心解码器将接着对下一帧的时间间隙中的剩余样本进行核心解码和/或对这些样本进行后处理。
因此,此时间间隙(例如,当考虑图9b实施例时,为1.25ms)可通过核心解码器后处理、通过带宽扩展、通过例ACELP的情况下所使用的时域带宽扩展或通过ACELP与MDCT核心信号之间的传输转换的情况下的某一平滑而采用。
因此,再一次,核心解码器1600被配置为根据第一成帧控制而操作以提供帧的序列,其中时间频谱转换器1610或频谱时间转换器1640被配置为根据与第一成帧控制同步的第二成帧控制而操作,以使得帧的序列的每个帧的开始帧边界或结束帧边界与窗口的重叠部分的开始瞬时或结束瞬时呈预定关系,所述窗口由时间频谱转换器或由频谱时间转换器针对取样值的块的序列的每个块或针对频谱值的块的重新取样序列的每个块使用。
此外,时间频谱转换器1610被配置为将分析窗口用于对帧的序列的具有在结束帧边界1902之前结束的重叠范围的帧开窗,从而在重叠部分的终点与结束帧边界之间留下时间间隙1920。核心解码器1600因此被配置为并行于使用分析窗口的帧的开窗而对时间间隙1920中的样本执行处理,或其中并行于由时间频谱转换器进行的使用分析窗口的帧的开窗而对时间间隙执行另外的后处理。
此外,且优选地,定位用于经核心解码信号的后继块的分析窗口,以使得窗口的中间非重叠部分位于如图9b的1920处所说明的时间间隙内。
在建议4中,总系统延迟与建议1相比被扩大。在编码器处,额外延迟来自立体声模块。不同于建议1,完美重建的问题在建议4中不再相关。
在解码器处,核心解码器与第一DFT分析之间的可获得延迟为2.5ms,其允许执行常规重新取样、组合以及不同核心合成与延伸带宽信号之间的平滑,如其在标准EVS中所进行。
在图10a中说明编码器示意性成帧,而在图10b中描绘解码器。在图10c中给出窗口。
在建议5中,DFT的时间分辨率减小至5ms。核心编码器的前瞻及重叠区域不被开窗,这是与建议4的共享优点。另一方面,编码器解码与立体声分析之间的可获得延迟小,且需要如建议1中所建议的解决方案(图7)。此建议的主要缺点为时间频率分解的低频率分辨率及减小至5ms的小重叠区域,其防止频域中的大时间移位。
在图11a中说明编码器示意性成帧,而在图11b中描绘解码器。在图11c中给出窗口。
考虑到以上内容,相对于编码器侧,优选实施例关于多速率时间频率合成,其以不同取样率将至少一个经立体声处理的信号提供至后续处理模块。模块包括例如语音编码器(如ACELP)、预处理工具、基于MDCT的音频编码器(诸如TCX)或带宽扩展编码器(诸如时域带宽扩展编码器)。
关于解码器,执行立体声频域中的重新取样的关于解码器合成的不同贡献的组合。这些合成信号可来自语音解码器(如ACELP解码器)、基于MDCT的解码器、带宽扩展模块或来自后处理(如低音后置滤波器)的间谐波误差信号。
此外,关于编码器及解码器两者,应用用于DFT的窗口或利用零填补、低重叠区域及跳跃大小(hopsize)(其对应于不同取样率诸如12.9kHz、16kHz、25.6kHz、32kHz或48kHz下的整数数目个样本)变换的复数值是有用的。
实施例能够达成低延迟的立体声音频的低比特率编码。有效率地组合低延迟切换式音频编码方案(如EVS)与立体声编码模块的滤波器组被特定设计。
实施例可在分布或广播所有类型的立体声或多通道音频内容(语音及相似音乐,在给定低比特率下具有恒定感知质量),诸如关于数字无线电、因特网串流及音频通讯应用时使用。
图12说明用于编码具有至少两个通道的多通道信号的装置。多通道信号10一方面输入至参数确定器100中且另一方面输入至信号对准器200中。参数确定器100从多通道信号一方面确定宽带对准参数且另一方面确定多个窄带对准参数。这些参数经由参数线12输出。此外,这些参数也经由另一参数线14输出至输出接口500,如图所示。在参数线14上,诸如位准参数的额外参数从参数确定器100转发至输出接口500。信号对准器200被配置为用于使用经由参数线10接收的宽带对准参数及多个窄带对准参数来对准多通道信号10的至少两个通道,以在信号对准器200的输出处获得已对准通道20。这些已对准通道20被转发至信号处理器300,信号处理器300被配置用于从经由线20接收的已对准通道来计算中间信号31及边信号32。用于编码的装置进一步包含信号编码器400,其用于编码来自线31的中间信号及来自线32的边信号,以获得线41上的经编码中间信号及线42上的经编码边信号。这些信号均被转发至输出接口500以用于产生输出线处的经编码多通道信号50。输出线处的经编码信号50包含来自线41的经编码中间信号、来自线42的经编码边信号、来自线14的窄带对准参数及宽带对准参数以及可选的来自线14的位准参数,且额外地可选地,包含由信号编码器400产生且经由参数线43转发至输出接口500的立体声填充参数。
优选地,信号对准器被配置为在参数确定器100实际计算窄带参数之前,使用宽带对准参数对准来自多通道信号的通道。因此,在此实施例中,信号对准器200经由连接线15将宽带已对准通道发送回至参数确定器100。接着,参数确定器100从已经相对于宽带特性已对准的多通道信号而确定多个窄频带对准参数。然而,在其他实施例中,确定这些参数而无需此特定程序序列。
图14a说明优选实施,其中执行招致连接线15的特定步骤序列。在步骤16中,使用两个通道来确定宽带对准参数,且获得诸如通道间时间差或ITD参数的宽带对准参数。接着,在步骤21中,使用宽带对准参数通过图12的信号对准器200来对准两个通道。接着,在步骤17中,在参数确定器100内使用已对准通道来确定窄带参数,以确定多个窄带对准参数,诸如用于多通道信号的不同频带的多个通道间相位差参数。接着,在步骤22中,使用针对此特定频带的对应窄带对准参数来对准每个参数频带中的频谱值。当针对每个频带(其窄带对准参数可获得)执行步骤22中的此程序时,已对准的第一及第二或左/右通道可获得以用于由图12的信号处理器300进行进一步信号处理。
图14b说明图12的多通道编码器的又一实施,其中若干程序在频域中执行。
具体地,多通道编码器进一步包含时间频谱转换器150,其用于将时域多通道信号转换成频域内的至少两个通道的频谱表示。
此外,如152所说明,在图12中以100、200以及300说明的参数确定器、信号对准器以及信号处理器全部在频域中操作。
此外,多通道编码器且具体的,信号处理器进一步包含频谱时间转换器154,其用于产生至少中间信号的时域表示。
优选地,频谱时间转换器另外将也通过块152所表示的程序确定的边信号的频谱表示转换成时域表示,且图12的信号编码器400接着被配置为根据图12的信号编码器400的特定实施而将中间信号和/或边信号进一步编码为时域信号。
优选地,图14b的时间频谱转换器150被配置为实施图4c的步骤155、156以及157。具体地,步骤155包含提供分析窗口,在其一个末端处具有至少一个零填补部分,且具体地,在初始窗口部分处具有零填补部分且在终止窗口部分处具有零填补部分,如随后例如在图7中所说明。此外,所述分析窗口另外具有在窗口的第一半及窗口的第二半处的重叠范围或重叠部分,且另外,优选地,中间部分为非重叠范围,视具体情况而定。
在步骤156中,使用具有重叠范围的分析窗口对每个通道进行开窗。具体地,以获得通道的第一块的方式,使用分析窗口对每个通道进行开窗。随后,获得同一通道的第二块,其具有与第一块的某一重叠范围等,以使得在例如五次开窗操作之后,可获得每个通道的经开窗样本的五个块,这些块接着被单独地变换成频谱表示,如图14c中的157处所说明。也针对另一通道执行相同程序,以使得在步骤157结束时,可获得频谱值且具体地复频谱值(诸如DFT频谱值或复合子频带样本)的块的序列。
在由图12的参数确定器100执行的步骤158中,确定宽带对准参数,且在由图12的信号对准200执行的步骤159中,使用宽带对准参数来执行循环移位。在再次由图12的参数确定器100执行的步骤160中,针对个别频带/子频带确定窄带对准参数,且在步骤161中,使用针对特定频带所确定的对应窄带对准参数而针对每个频带使已对准频谱值旋转。
图14d说明由信号处理器300执行的其他程序。具体地,信号处理器300被配置为计算中间信号及边信号,如在步骤301所说明。在步骤302中,可执行边信号的某种进一步处理,接着,在步骤303中,将中间信号及边信号的每个块变换回至时域中,且在步骤304中,将合成窗口应用于通过步骤303获得的每个块,且在步骤305中,执行一方面针对中间信号的重叠加法操作且另一方面针对边信号的重叠加法操作,以最终获得时域中间/边信号。
具体地,步骤304及305的操作在中间信号及边信号的下一个块中导致从中间信号或边信号的一个块的一种交叉衰落,使得即使当任何参数变化出现(诸如通道间时间差参数或通道间相位差参数出现)时,此衰落在通过图14d中的步骤305获得的时域中间/边信号中将仍然不可听见。
图13说明用于解码在输入线50处接收的经编码多通道信号的装置的实施例的框图。
特别地,信号由输入接口600接收。连接至输入接口600的有信号解码器700及信号去对准器900。此外,信号处理器800一方面连接至信号解码器700且另一方面连接至信号去对准器。
特别地,经编码多通道信号包含经编码中间信号、经编码边信号、关于宽带对准参数的信息以及关于多个窄带参数的信息。因此,线50上的经编码多通道信号可与由图12的输出接口500输出的信号完全相同。
然而,重要地,此处应注意,与图12中所说明的内容相比,以某一形式包括于经编码信号中的宽带对准参数及多个窄带对准参数可恰好为由图12中的信号对准器200使用的对准参数,但替代地也可为其的逆值,即,可由通过信号对准器200执行的完全相同的操作使用的参数但具有逆值,以使得获得去对准的参数。
因此,关于对准参数的信息可为如由图12中的信号对准器200使用的对准参数或可为逆值,即,实际“去对准参数”。另外,这些参数通常将以随后将关于图8所论述的某一形式被量化。
图13的输入接口600将关于宽带对准参数及多个窄带对准参数的信息从经编码中间/边信号分离,且经由参数线610将此信息转发至信号去对准器900。另一方面,经编码中间信号经由线601被转发至信号解码器700且经编码边信号经由信号线602被转发至信号解码器700。
信号解码器被配置用于解码经编码中间信号以及解码经编码边信号,以获得线701上的经解码中间信号及线702上的经解码边信号。这些信号被信号处理器800使用以用于从经解码中间信号及经解码边信号来计算经解码第一通道信号或经解码左信号以及计算经解码第二通道或经解码右通道信号,且分别在线801、802上输出经解码第一通道及经解码第二通道。信号去对准器900被配置用于使用关于宽带对准参数的信息且额外地使用关于多个窄带对准参数的信息而将线801上的经解码第一通道及经解码右通道802去对准,以获得经解码多通道信号,即,线901及902上的具有至少两个经解码且去对准通道的经解码信号。
图9a说明通过来自图13的信号去对准器900执行的步骤的优选顺序。具体地,步骤910接收如在来自图13的线801、802上可获得的已对准的左通道及右通道。在步骤910中,信号去对准器900使用关于窄带对准参数的信息将个别子频带去对准,以便在911a及911b处获得相位去对准的经解码第一及第二或左及右通道。在步骤912中,使用宽带对准参数将这些通道去对准,以使得在913a及913b处获得相位及时间去对准的通道。
在步骤914中,执行任何其他处理,其包含使用开窗或任何重叠加法操作或一般而言任何交叉衰落操作,以便在915a或915b处获得伪讯减少或无伪讯的经解码信号,即,不具有任何伪讯的经解码通道,尽管此处通常已存在一方面用于宽带且另一方面用于多个窄带的时变去对准参数。
图15b说明图13中所说明的多通道解码器的优选实施。
特别地,来自图13的信号处理器800包含时间频谱转换器810。
信号处理器此外包含中间/边至左/右转换器820,以便从中间信号M及边信号S计算左信号L及右信号R。
然而,重要地,为了通过块820中的中间/边至左/右转换来计算L及R,边信号S未必被使用。相反地,如随后所论述,最初仅使用从通道间位准差参数ILD导出的增益参数来计算左/右信号。因此,在此实施中,边信号S仅使用于通道更新器830中,如旁通线821所说明,通道更新器操作以便使用传输的边信号S提供更好的左/右信号。
因此,转换器820使用经由位准参数输入822获得的位准参数而操作且实际上不使用边信号S,但通道更新器830接着使用边821而操作且取决于特定实施而使用经由线831接收的立体声填充参数。信号对准器900因而包含相位去对准器及能量缩放器(scaler)910。能量缩放由通过缩放因子计算器940导出的缩放因子来控制。缩放因子计算器940由通道更新器830的输出馈给。基于经由输入911接收的窄带对准参数,执行相位去对准,且在块920中,基于经由线921接收的宽带对准参数,执行时间去对准。最后,执行频谱时间转换930,以便最终获得经解码信号。
图15c说明在优选实施例中通常在图15b的块920及930内执行的步骤的另一顺序。
具体地,窄带去对准通道被输入至对应于图15b的块920的宽带去对准功能性中。在块931中执行DFT或任何其他变换。在时域样本的实际计算之后,执行使用合成窗口的可选的合成开窗。合成窗口优选与分析窗口完全相同,或从分析窗口导出,例如,内插或抽取,但以某种方式取决于分析窗口。此相依性优选地使得由两个重叠窗口定义的乘法因子针对重叠范围中的每个点总计为一。因此,在块中932中的合成窗口之后,执行重叠操作及后续加法操作。替代地,替代合成开窗及重叠/加法操作,执行每个通道的后续块之间的任何交叉衰落,以便获得伪讯减少的经解码信号,如在图15a的情况下已论述。
当考虑图6b时,很明显,一方面针对中间信号(即,“EVS解码器”)且针对边信号(逆向量量化VQ-1及逆MDCT操作(IMDCT))的实际解码操作对应于图13的信号解码器700。
此外,块810中的DFT操作对应于图15b中的组件810,且逆立体声处理及逆时间移位的功能性对应于图13的块800、900,且图6b中的逆DFT操作930对应于图15b中的块930中的对应操作。
随后,较详细地论述图3d。特别地,图3d说明具有个别频谱线的DFT频谱。优选地,图3d中所说明的DFT频谱或任何其他频谱为复频谱,且每个线为具有量值及相位或具有实部及虚部的复频谱线。
另外,所述频谱也被划分成不同参数频带。每个参数频带具有至少一个且优选地多于一个的频谱线。另外,参数频带从较低频率至较高频率增大。通常,宽带对准参数为用于整个频谱(即,在图3d中的例示性实施例中,包含所有频带1至6的频谱)的单个宽带对准参数。
此外,提供多个窄带对准参数,以使得存在用于每个参数频带的单个对准参数。这意味着用于频带的对准参数始终适用于对应频带内的所有频谱值。
此外,除窄带对准参数外,针对每个参数频带还提供位准参数。
与针对频带1至频带6的每个参数频带提供的位准参数相比,优选地仅针对有限数目个较低频带(诸如频带1、2、3以及4)提供多个窄带对准参数。
另外,针对排除较低频带的某一数目个频带(诸如,在例示性实施例中,频带4、5以及6)提供立体声填充参数,同时存在用于较低参数频带1、2以及3的边信号频谱值,且因此,针对这些较低频带不存在立体声填充参数,其中使用边信号本身或表示边信号的预测残余信号而获得波形匹配。
如已陈述,较高频带中存在较多频谱线,诸如,在图3d中的实施例中,参数频带6中的七条频谱线对参数频带2中的仅三条频谱线。然而,自然地,参数频带的数目、频谱线的数目以及参数频带内的频谱线的数目及用于某些参数的不同限值将不同。
尽管如此,图8说明参数的分布及频带的数目,这些频带的参数在与图3d相比实际上存在12个频带的某一实施例中提供。
如所说明,位准参数ILD针对12个频带中的每个提供且被量化至由每频带五个比特表示的量化准确度。
此外,窄带对准参数IPD仅针对直至2.5kHz的边界频率的较低频带提供。另外,通道间时间差或宽带对准参数仅提供作为整个频谱的单个参数,但具有整个频带的由八个位表示的极高量化准确度。
此外,提供相当粗糙量化的立体声填充参数,由每频带三个位表示且不用于低于1kHz的较低频带,这是因为对于较低频带,包括实际经编码边信号或边信号残余频谱值。
随后,概述编码器侧上的优选处理。在第一步骤中,执行左及右通道的DFT分析。此程序对应于图14c的步骤155至157。计算宽带对准参数,且特别地,优选宽带对准参数通道间时间差(ITD)。执行L及R在频域中的时间移位。替代地,也可在时域中执行此时间移位。接着执行逆DFT,在时域中执行时间移位且执行额外正向DFT,以便在使用宽带对准参数的对准之后再一次具有频谱表示。
针对已移位L及R表示上的每个参数频带计算ILD参数(即,位准参数)及相位参数(IPD参数)。此步骤对应于例如图14c的步骤160。经时间移位的L及R表示作为通道间相位差参数的函数而被旋转,如图14c的步骤161中所说明。随后,如步骤301中所说明,计算中间信号及边信号,且优选地,另外利用如随后所论述的能量会话操作。此外,执行对S的预测,其利用M,作为ILD的函数,且可选地利用过去M信号(即,早前帧的中间信号)。随后,执行中间信号及边信号的逆DFT,其在优选实施例中对应于图14d的步骤303、304、305。
在最终步骤中,对时域中间信号m及可选的残余信号进行编码。此程序对应于通过图12中的信号编码器400执行的程序。
在解码器处,在逆立体声处理中,Side信号在DFT域中产生且首先从Mid信号预测为:
Figure BDA0001530864300000261
其中g为针对每个参数频带计算出的增益且为传输的通道间位准差(ILD)的函数。
可接着以两种不同方式来优化预测Side-g·Mid的残余:
-通过对残余信号的二次编码:
Figure BDA0001530864300000262
其中gcod为针对整个频谱传输的全局增益
-通过已知为立体声填充的残余预测,利用来自先前DFT帧的先前经解码Mid信号频谱来预测残余边频谱:
Figure BDA0001530864300000271
其中gpred为针对每个参数频带传输的预测性增益。
两个类型的编码优化可在同一DFT频谱内混合。在优选实施例中,对较低参数频带应用残余编码,而对剩余频带应用残余预测。在于时域中合成残余边信号且通过MDCT将其变换之后,残余编码在如图12中所描述的优选实施例中在MDCT域中执行。不同于DFT,MDCT被关键取样且更适合于音频编码。MDCT系数为直接通过晶格向量量化而量化的向量,但可替代地通过继以熵编码器的标量量化器被编码。替代地,残余边信号还可通过语音编码技术在时域中编码或直接在DFT域中编码。
随后,描述联合立体声/多通道编码器处理或逆立体声/多通道处理的又一实施例。
1.时间频率分析:DFT
重要的,来自由DFT进行的立体声处理的额外时间频率分解允许良好听觉场景分析,同时不显著增加编码系统的总体延迟。根据默认,使用10ms的时间分辨率(为核心编码器的20ms成帧的两倍)。分析窗口及合成窗口相同且对称。窗口在图7中以16kHz的取样率表示。可以观察到,重叠区域受到限制以用于减小自生延迟,且还添加零填补以抗衡在频域中应用ITD时的循环移位,此后将对其进行解释。
2.立体声参数
立体声参数可以以立体声DFT的时间分辨率最大程度地传输。最小时,其可减小至核心编码器的成帧分辨率,即20ms。根据默认,当未检测到瞬变时,在2个DFT窗口中每隔20ms计算参数。参数频带构成频谱的非均匀且非重叠分解,后继大致2倍或4倍的等效矩形带宽(ERB)。根据默认,将4倍ERB标度用于16kHz的频率带宽(32kbps取样率,超宽带立体声)的总共12个频带。图8概述配置的示例,其中立体声边信息以约5kbps传输。
3.ITD及通道时间对准的计算
通过使用与相位变换的一般化交叉相关(GCC-PHAT)估计到达时间延迟(TDOA)来计算ITD:
Figure BDA0001530864300000272
其中L及R分别为左通道及右通道的频率频谱。频率分析可独立于用于后续立体声处理的DFT而执行或可共享。用于计算ITD的伪程序代码如下:
Figure BDA0001530864300000281
ITD计算也可概述如下。交叉相关系在依赖于频谱平坦度测量进行平滑之前在频域中计算。SFM在0与1之间定界。在类噪声信号的情况下,SFM将为高(即约1)且平滑将微弱。在类单音(tone)信号的情况下,SFM将为低且平滑将变得较强。经平滑的交叉相关接着在变换回时域之前通过其振幅被归一化。所述归一化对应于交叉相关的相位变换,且已知展示比低噪声且相对高混响环境中的一般交叉相关好的性能。如此获得的时域函数首先经滤波以用于达成更稳固的峰值峰化。对应于最大振幅的索引对应于左右通道之间的时间差(ITD)的估计。若最大值的振幅低于给定阈值,则ITD的估计视为不可靠且被设定为零。
若在时域中应用时间对准,则在单独DFT分析中计算ITD。移位被如下所述地进行:
Figure BDA0001530864300000291
它需要编码器处的额外延迟,其最大值等于可加以处置的最大绝对ITD。ITD随时间的变化将通过DFT的分析开窗来平滑。
替代地,时间对准可在频域中执行。在此情况下,ITD计算及循环移位在同一DFT域(与此其他立体声处理共享的域)中。循环移位由以下公式给出:
Figure BDA0001530864300000292
需要DFT窗口的零填补以用于利用循环移位来模拟时间移位。零填补的大小对应于可加以处置的最大绝对ITD。在优选实施例中,零填补通过在两端添加3.125ms的零而在分析窗口的两侧上均匀地分开。最大绝对可能ITD因而为6.25ms。在A-B麦克风设置中,其对应两个麦克风之间的约2.15米的最大距离的最坏情况。ITD随时间的变化通过合成开窗及DFT的重叠相加来平滑。
重要的,时间移位继以经移位信号的开窗。与现有技术的双耳提示编码(BinauralCue Coding;BCC)的主要区别为:时间移位被应用于经开窗信号,而被在合成阶段进一步被开窗。因此,ITD随时间的任何改变产生经解码信号中的人工瞬变/点击。
4.IPD的计算及通道旋转
IPD在将两个通道进行时间对准之后加以计算,且此针对每个参数频带或至少直至给定ipd_max_band,依赖于立体声配置。
Figure BDA0001530864300000293
IPD接着被应用于两个通道以用于对准它们的相位:
Figure BDA0001530864300000294
其中β=atan2(sin(IPDi[b]),cos(IPDi[b])+c),
Figure BDA0001530864300000304
且b为属于频率索引k的参数频带索引。参数β负责将相位旋转的量分配在两个通道之间,同时使它们的相位对准。β依赖于IPD,但也依赖于通道的相对振幅位准ILD。若通道具有较高振幅,则所述通道将被视为引导通道且与具有较低振幅的通道相比受相位旋转的影响较小。
5.和差及边信号编码
对两个通道的时间及相位经对准频谱执行和差变换(sum differencetransformation),其方式为将能量保存在中间信号中。
Figure BDA0001530864300000301
其中
Figure BDA0001530864300000302
在1/1.2与1.2(即,-1.58dB与+1.58dB)之间定界。所述限值避免了当调整M及S的能量时的假像。值得注意地,此能量守恒在时间及相位已预先对准时较不重要。替代地,界限可增大或减小。
用M来进一步预测边信号S:
S′(f)=S(f)-g(ILD)M(f)
其中
Figure BDA0001530864300000303
其中
Figure BDA0001530864300000305
替代地,最佳预测增益g可通过将残余的均方误差(MSE))及由先前方程式推导的ILD最小化而发现。
残余信号S′(f)可通过两种方式来模型化:通过用M的延迟频谱来预测所述残余信号,或通过在MDCT域中直接对所述残余信号进行编码。
6.立体声解码
中间信号X及边信号S首先如下所述地转换为左通道L及右通道R:
Li[k]=Mi[k]+gMi[k],其中band_limits[b]≤k<band_limits[b+1],
Ri[k]=Mi[k]-gMi[k],其中band_limits[b]≤k<band_limits[b+1],
其中每个参数频带的增益g从ILD参数导出:
Figure BDA0001530864300000311
其中
Figure BDA0001530864300000313
对于低于cod_max_band的参数频带,用经解码边信号来更新两个通道:
Li[k]=Li[k]+cod_gaini·Si[k],for 0≤k<band_limits[cod_max_band],
Figure BDA0001530864300000314
其中0≤k<band_limits[cod_max_band],
对于较高参数频带,预测边信号且通道更新如下:
Li[k]=Li[k]+cod_predi[b]·Mi-1[k],其中band_limits[b]≤k<band_limits[b+1],
Figure BDA0001530864300000315
其中band_limits[b]≤k<band_limits[b+1],
最后,将通道乘以复数值,其目标为恢复立体声信号的原始能量及通道间相位:
Li[k]=a·ej2πβ·Li[k]
Figure BDA0001530864300000316
其中
Figure BDA0001530864300000312
其中a如先前所定义地定义及定界,且其中β=atan2(sin(IPDi[b]),cos(IPDi[b])+c),且其中atan2(x,y)为x对y的四象限反正切。
最后,取决于传输的ITD,使通道在时间上或在频域中被时间移位。通过逆DFT及重叠加法来合成时域通道。
本发明的经编码音频信号可存储于数字存储介质介质或非暂时性存储介质上,或可在传输介质(诸如无线传输媒体或有线传输介质,诸如因特网)上传输。
尽管已在装置的上下文中描述一些方面,但显而易见,这些方面也表示对应方法的描述,其中块或装置对应于方法步骤或方法步骤的特征。类似地,方法步骤的上下文中所描述的方面也表示对应装置的对应块或项目或特征的描述。
取决于某些实施要求,本发明的实施例可以以硬件或软件实施。实施可使用其上存储有电子可读控制信号数字存储介质来执行,所述介质例如软性磁盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,电子可读控制信号与可编程计算机系统协作(或能够协作)以使得执行各个方法。
根据本发明的一些实施例包含具有电子可读控制信号的数据载体,所述控制信号能够与可编程计算机系统协作,以使得执行本文中所描述的方法中的一个。
大体而言,本发明的实施例可实施为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,程序代码操作性地用于执行所述方法中的一个。程序代码可例如存储于机器可读载体上。
其他实施例包含用于执行本文中所描述的方法中的一个的计算机程序,其存储于机器可读载体或非暂时性存储介质上。
换言之,本发明的方法的实施例因此为具有用于当计算机程序在计算机上执行时执行本文中所描述的方法中的一个的程序代码的计算机程序。
因此,本发明方法的又一实施例为数据载体(或数字存储媒体介质,或计算机可读介质),其包含记录于其上的用于执行本文中所描述的方法中的一个的计算机程序。
因此,本发明的方法的又一实施例为数串流或信号序列,其表示用于执行本文中所描述的方法中的一个的计算机程序。数据流或信号序列可例如被配置为经由数据通信连接(例如,经由因特网)传送。
又一实施例包含处理元件(例如,计算机或可编程逻辑装置),其被配置或被调适以执行本文中所描述的方法中的一个。
又一实施例包含计算机,其上安装有用于执行本文中所描述的方法中的一个的计算机程序。
在一些实施例中,可编程逻辑装置(例如,现场可编程门阵列)可用以执行本文中所描述的方法的功能性中的一些或全部。在一些实施例中,现场可编程门阵列可与微处理器协作,以便执行本文中所描述的方法中的一个。大体而言,优选由任何硬件装置来执行所述方法。
上文所描述的实施例仅说明本发明的原理。应理解,对本文中所描述的配置及细节的修改及变化对本领域技术人员将是显而易见的。因此,其仅意欲由所附的专利权利要求的范围限制,而非由借助于本文中的实施例的描述及解释所呈现的特定细节限制。

Claims (43)

1.一种用于编码包含至少两个通道的多通道信号的装置,包括:
时间频谱转换器,用于将所述至少两个通道的样本值的块的序列转换成具有所述至少两个通道的频谱值的块的序列的频域表示,其中取样值的块具有相关联的输入取样率,且频谱值的块的序列的频谱值的块具有高达与所述输入取样率相关的最大输入频率的频谱值;
多通道处理器,用于将联合多通道处理应用于频谱值的块的序列或频谱值的块的重新取样序列,以获得包含与所述至少两个通道相关的信息的频谱值的块的至少一个结果序列;
频谱域重新取样器,用于在频域中对所述结果序列的块重新取样或用于在频域中对所述至少两个通道的频谱值的块的序列重新取样,以获得频谱值的块的重新取样序列,其中频谱值的块的重新取样序列的块具有高达不同于所述最大输入频率的最大输出频率的频谱值;
频谱时间转换器,用于将频谱值的块的重新取样序列转换成时域表示,或用于将频谱值的块的结果序列转换成包含取样值的块的输出序列的时域表示,所述取样值的块具有不同于所述输入取样率的相关联的输出取样率;以及
核心编码器,用于编码取样值的块的输出序列,以获得经编码多通道信号。
2.如权利要求1所述的装置,
其中所述频谱域重新取样器被配置用于出于减少取样的目的而截短所述块或出于增加取样的目的而对所述块进行零填补。
3.如权利要求1所述的装置,
其中所述频谱域重新取样器被配置用于取决于所述最大输入频率及取决于所述最大输出频率而使用缩放因子对块的结果序列的块的频谱值进行缩放。
4.如权利要求3所述的装置,
其中所述缩放因子大于增加取样情况下的缩放因子,其中所述输出取样率大于所述输入取样率,或其中所述缩放因子低于减少取样情况下的缩放因子,其中所述输出取样率低于所述输入取样率,或
其中所述时间频谱转换器被配置为不使用关于频谱值的块的频谱值的总数的归一化而执行时间频率变换算法,且其中所述缩放因子等于所述重新取样序列的块的频谱值的数目与所述重新取样之前的频谱值的块的频谱值的数目之间的商,且其中所述频谱时间转换器被配置为基于所述最大输出频率而应用归一化。
5.如权利要求1所述的装置,
其中所述时间频谱转换器被配置为执行离散傅立叶变换算法,或其中所述频谱时间转换器被配置为执行逆离散傅立叶变换算法。
6.如权利要求1所述的装置,
其中所述多通道处理器被配置为获得频谱值的块的另外结果序列,以及
其中所述频谱时间转换器被配置用于将频谱值的另外结果序列转换成包含取样值的块的另外输出序列的另外时域表示,所述取样值的块具有等于所述输入取样率的相关联的输出取样率。
7.如权利要求1所述的装置,
其中所述多通道处理器被配置为提供频谱值的块的再另外结果序列,
其中所述频谱域重新取样器被配置用于在频域中对所述再另外结果序列的块重新取样,以获得频谱值的块的另外重新取样序列,其中所述另外重新取样序列的块具有高达不同于所述最大输出频率或不同于所述最大输入频率的另外最大输出频率的频谱值,以及
其中所述频谱时间转换器被配置用于将频谱值的块的另外重新取样序列转换成包含取样值的块的再另外输出序列的再另外时域表示,所述取样值的块具有不同于所述输出取样率或所述输入取样率的相关联的另外输出取样率。
8.如权利要求1所述的装置,
其中所述多通道处理器被配置为仅使用降混操作而产生中间信号作为频谱值的块的至少一个结果序列,或产生额外边信号作为频谱值的块的另外结果序列。
9.如权利要求1所述的装置,
其中所述多通道处理器被配置为产生中间信号以作为所述至少一个结果序列,其中所述频谱域重新取样器被配置为将所述中间信号重新取样至具有不同于所述最大输入频率的两个不同最大输出频率的两个独立序列,
其中所述频谱时间转换器被配置为将两个重新取样序列转换为具有不同取样率的两个输出序列,以及
其中所述核心编码器包括用于以第一取样率对第一输出序列进行预处理的第一预处理器,或用于以第二取样率对第二输出序列进行预处理的第二预处理器,以及
其中所述核心编码器被配置为对第一经预处理信号或第二经预处理信号进行核心编码,或
其中所述多通道处理器被配置为产生边信号作为所述至少一个结果序列,其中所述频谱域重新取样器被配置为将所述边信号重新取样至具有不同于所述最大输入频率的两个不同最大输出频率的两个重新取样序列,
其中所述频谱时间转换器被配置为将所述两个重新取样序列转换为具有不同取样率的两个输出序列,以及
其中所述核心编码器包括用于对第一输出序列及第二输出序列进行预处理的第一预处理器及第二预处理器;以及
其中所述核心编码器被配置为对第一经预处理序列或第二经预处理序列进行核心编码。
10.如权利要求1所述的装置,
其中所述频谱时间转换器被配置为不用任何频谱域重新取样而将所述至少一个结果序列转换成时域表示,以及
其中所述核心编码器被配置为对未重新取样输出序列进行核心编码,以获得经编码多通道信号,或其中所述多通道处理器被配置为产生边信号作为所述至少一个结果序列,其中所述频谱域重新取样器被配置为将所述边信号重新取样至具有不同于所述最大输入频率的两个不同最大输出频率的两个重新取样序列,
其中所述频谱时间转换器被配置为在无所述边信号情况下不用任何频谱域重新取样而将所述至少一个结果序列转换成时域表示,以及
其中所述核心编码器被配置为对所述边信号的未重新取样输出序列进行核心编码,以获得经编码多通道信号,或
其中所述装置进一步包括特定频谱域边信号编码器。
11.如权利要求1所述的装置,
其中所述输入取样率为包含8kHz、16kHz、32kHz的取样率的群组中的至少一个取样率,或
其中所述输出取样率为包含8kHz、12.8kHz、16kHz、25.6kHz以及32kHz的取样率的群组中的至少一个取样率。
12.如权利要求1所述的装置,
其中所述频谱时间转换器被配置为应用分析窗口,
其中所述频谱时间转换器被配置为应用合成窗口,
其中所述分析窗口的时间长度等于所述合成窗口的时间长度或为所述合成窗口的时间长度的整数倍数或整数分数,或
其中所述分析窗口及所述合成窗口各自在其初始部分或结束部分处具有零填补部分,或
其中由所述时间频谱转换器使用的分析窗口或由所述频谱时间转换器使用的合成窗口各自具有递增的重叠部分及递减的重叠部分,其中所述核心编码器包括具有前瞻部分的时域编码器或具有核心窗口的重叠部分的频域编码器,且其中所述分析窗口或所述合成窗口的重叠部分小于或等于所述核心编码器的所述前瞻部分或所述核心窗口的重叠部分,或
其中所述分析窗口及所述合成窗口使得针对包含12.8kHz、16kHz、26.6kHz、32kHz、48kHz的取样率的群组的至少两个取样率,窗口大小、重叠区域大小以及零填补大小各自包含整数数目个样本,或
其中以分裂基数实施的数字傅里叶变换的最大基数低于或等于7,或其中时间分辨率固定至低于或等于所述核心编码器的帧速率的值。
13.如权利要求1所述的装置,
其中所述核心编码器被配置为根据第一帧控制而操作以提供帧的序列,其中帧以开始帧边界及结束帧边界为界,以及
其中所述时间频谱转换器或所述频谱时间转换器被配置为根据与所述第一帧控制同步的第二帧控制而操作,其中帧的序列中的每个帧的所述开始帧边界或所述结束帧边界与由所述时间频谱转换器针对取样值的块的序列的每个块使用的或由所述频谱时间转换器针对取样值的块输出序列的每个块使用的窗口的重叠部分的开始瞬时或结束瞬时呈预定关系。
14.如权利要求1所述的装置,
其中所述核心编码器被配置为在对从具有相关联的输出取样率的取样值的块的输出序列获得的帧进行核心编码时使用前瞻部分,所述前瞻部分在时间上位于所述帧之后,
其中所述时间频谱转换器被配置为使用分析窗口,所述分析窗口具有时间长度低于或等于所述前瞻部分的时间长度的重叠部分,其中所述分析窗口的重叠部分用于产生经开窗前瞻部分。
15.如权利要求14所述的装置,
其中所述频谱时间转换器被配置为使用纠正函数来处理对应于所述经开窗前瞻部分的输出前瞻部分,其中所述纠正函数被配置为使得所述分析窗口的所述重叠部分的影响减小或消除。
16.如权利要求15所述的装置,
其中所述纠正函数与定义所述分析窗口的所述重叠部分的函数相逆。
17.如权利要求15所述的装置,
其中所述重叠部分与正弦函数的平方根成比例,
其中所述纠正函数与所述正弦函数的平方根的倒数成比例,以及
其中所述频谱时间转换器被配置为使用与(sin)1.5函数成比例的重叠部分。
18.如权利要求1所述的装置,
其中所述频谱时间转换器被配置为使用合成窗口产生第一输出块且使用所述合成窗口产生针对帧的第二输出块,其中针对所述帧的所述第二输出块的第二部分为输出前瞻部分,
其中所述频谱时间转换器被配置为使用所述第一输出块与排除所述输出前瞻部分的针对所述帧的所述第二输出块的部分之间的重叠加法操作而产生所述帧的取样值,
其中所述核心编码器被配置为将前瞻操作应用于所述输出前瞻部分,以便确定用于对所述帧进行核心编码的编码信息,以及
其中所述核心编码器被配置为使用所述前瞻操作的结果对所述帧进行核心编码。
19.如权利要求18所述的装置,
其中所述频谱时间转换器被配置为使用所述合成窗口产生在针对所述帧的所述第二输出块之后的针对另外帧的第三输出块,其中所述频谱时间转换器被配置为使针对所述另外帧的所述第三输出块的第一重叠部分与使用所述合成窗口开窗的针对所述帧的所述第二输出块的所述第二部分进行重叠,以获得在时间上在所述帧之后的所述另外帧的样本。
20.如权利要求18所述的装置,
其中所述频谱时间转换器被配置为在产生所述帧的所述第二输出块时不对所述输出前瞻部分开窗,或纠正所述输出前瞻部分,用于至少部分地撤销由所述时间频谱转换器使用的分析窗口的影响,以及
其中所述频谱时间转换器被配置为执行针对所述帧的所述第二输出块与针对另外帧的第三输出块之间的重叠加法操作以及用所述合成窗口对所述输出前瞻部分开窗。
21.如权利要求13所述的装置,
其中所述频谱时间转换器被配置为,
使用合成窗口产生输出样本的第一块及输出样本的第二块,
对所述输出样本的所述第一块的第二部分与所述输出样本的所述第二块的第一部分进行重叠加法,以产生输出样本的部分,
其中所述核心编码器被配置为将前瞻操作应用于所述输出样本的部分以用于对在时间上位于所述输出样本的所述部分之前的特定输出样本进行核心编码,其中前瞻部分不包括所述输出样本的所述第二块的所述第二部分。
22.如权利要求13所述的装置,
其中所述频谱时间转换器被配置为使用提供高于核心编码器帧的长度的两倍的时间分辨率的合成窗口,
其中所述频谱时间转换器被配置为使用所述合成窗口以用于产生输出样本的块以及执行重叠加法操作,其中所述核心编码器的前瞻部分中的所有样本使用所述重叠加法操作被计算,或
其中所述频谱时间转换器被配置为将前瞻操作应用于所述输出样本的块以用于对时间上位于所述前瞻部分之前的特定输出样本进行核心编码,其中前瞻部分不包括所述输出样本的第二块的第二部分。
23.如权利要求1所述的装置,
其中所述多通道处理器被配置为处理块的序列以使用宽带时间对准参数获得时间对准以及使用多个窄带相位对准参数获得窄带相位对准,以及使用对准序列计算中间信号及边信号以作为所述结果序列。
24.一种用于编码包含至少两个通道的多通道信号的方法,包括:
将所述至少两个通道的样本值的块的序列转换成具有所述至少两个通道的频谱值的块的序列的频域表示,其中取样值的块具有相关联的输入取样率,且频谱值的块的序列的频谱值的块具有高达与所述输入取样率相关的最大输入频率的频谱值;
将联合多通道处理应用于频谱值的块的序列或频谱值的块的重新取样序列,以获得包含与所述至少两个通道相关的信息的频谱值的块的至少一个结果序列;
在频域中对所述结果序列的块进行频谱域重新取样或在频域中对所述至少两个通道的频谱值的块的序列进行重新取样,以获得频谱值的块的重新取样序列,其中频谱值的块的重新取样序列的块具有高达不同于所述最大输入频率的最大输出频率的频谱值;
将频谱值的块的重新取样序列转换成时域表示或将频谱值的块的结果序列转换成包含取样值的块的输出序列的时域表示,所述取样值的块具有不同于所述输入取样率的相关联的输出取样率;以及
对取样值的块的输出序列进行核心编码,以获得经编码多通道信号。
25.一种用于解码经编码多通道信号的装置,包括:
核心解码器,用于产生经核心解码信号;
时间频谱转换器,用于将所述经核心解码信号的取样值的块的序列转换成具有所述经核心解码信号的频谱值的块的序列的频域表示,其中取样值的块具有相关联的输入取样率,且其中频谱值的块具有高达与所述输入取样率相关的最大输入频率的频谱值;
频谱域重新取样器,用于对所述经核心解码信号的频谱值的块的序列的频谱值的块或通过逆多通道处理在频域中获得的至少两个结果序列重新取样,以获得频谱值的块的重新取样序列或至少两个重新取样序列,其中所述重新取样序列的块或所述至少两个重新取样序列的块具有高达不同于所述最大输入频率的最大输出频率的频谱值;
多通道处理器,用于将逆多通道处理应用于包含频谱值的块的序列的序列、或频谱值的块的所述重新取样序列,以获得频谱值的块的至少两个结果序列;以及
频谱时间转换器,用于将频谱值的块的所述至少两个结果序列或频谱值的块的所述至少两个重新取样序列转换成包含取样值的块的至少两个输出序列的时域表示,所述取样值的块具有不同于所述输入取样率的相关联的输出取样率。
26.如权利要求25所述的装置,
其中所述频谱域重新取样器被配置用于出于减少取样的目的而截短所述块或出于增加取样的目的而对所述块进行零填补。
27.如权利要求25所述的装置,
其中所述频谱域重新取样器被配置用于取决于所述最大输入频率及取决于所述最大输出频率而使用缩放因子对块的所述至少两个结果序列的块的频谱值进行缩放。
28.如权利要求27所述的装置,
其中所述缩放因子大于增加取样情况下的缩放因子,其中所述输出取样率大于所述输入取样率,或其中所述缩放因子低于减少取样情况下的缩放因子,其中所述输出取样率低于所述输入取样率,或
其中所述时间频谱转换器被配置为不使用关于频谱值的块的频谱值的总数的归一化而执行时间频率变换算法,且其中所述缩放因子等于所述重新取样序列的块的频谱值的数目与所述重新取样之前的频谱值的块的频谱值的数目之间的商,且其中所述频谱时间转换器被配置为基于所述最大输出频率而应用归一化。
29.如权利要求25所述的装置,
其中所述时间频谱转换器被配置为执行离散傅立叶变换算法,或其中所述频谱时间转换器被配置为执行逆离散傅立叶变换算法。
30.如权利要求25所述的装置,
其中所述核心解码器被配置为产生具有不同于所述输入取样率的另外取样率的另外经核心解码信号,
其中所述时间频谱转换器被配置为将所述另外经核心解码信号转换成具有所述另外经核心解码信号的值的块的另外序列的频域表示,其中所述另外经核心解码信号的取样值的块具有高达不同于所述最大输入频率且与所述另外取样率相关的另外最大输入频率的频谱值,
其中所述频谱域重新取样器被配置为在频域中对所述另外经核心解码信号的块的所述另外序列重新取样,以获得频谱值的块的另外重新取样序列,其中所述另外重新取样序列的频谱值的块具有高达不同于所述另外最大输入频率的所述最大输出频率的频谱值;以及
组合器,用于组合所述重新取样序列及所述另外重新取样序列,以获得待由所述多通道处理器处理的序列。
31.如权利要求25所述的装置,
其中所述核心解码器被配置为产生具有等于所述输出取样率的另外取样率的再另外经核心解码信号,
其中所述时间频谱转换器被配置为将所述再另外序列转换成频域表示,
其中所述装置进一步包括组合器,所述组合器用于在产生由所述多通道处理器处理的块的所述序列的过程中组合频谱值的块的所述再另外序列及块的所述重新取样序列。
32.如权利要求25所述的装置,
其中所述核心解码器包含以下中的至少一个:基于MDCT的解码部分、时域带宽扩展解码部分、ACELP解码部分及低音后置滤波器解码部分,
其中所述基于MDCT的解码部分或所述时域带宽扩展解码部分被配置为产生具有所述输出取样率的所述经核心解码信号,或
其中所述ACELP解码部分或所述低音后置滤波器解码部分被配置为以不同于所述输出取样率的取样率产生经核心解码信号。
33.如权利要求25所述的装置,
其中所述时间频谱转换器被配置为将分析窗口应用于多个不同经核心解码信号中的至少两个,所述分析窗口具有时间上相同的大小或关于时间具有相同形状,
其中所述装置进一步包括组合器,所述组合器用于基于逐块而组合所述重新取样序列或所述至少两个重新取样序列与具有频谱值高达所述最大输出频率的块的任何其他序列,以获得由所述多通道处理器处理的序列。
34.如权利要求25所述的装置,
其中由所述多通道处理器处理的序列对应于中间信号,以及
其中所述多通道处理器被配置为使用关于包含于所述经编码多通道信号中的边信号的信息来额外地产生边信号,以及
其中所述多通道处理器被配置为使用所述中间信号及所述边信号来产生所述至少两个结果序列。
35.如权利要求34所述的装置,
其中所述多通道处理器被配置为使用每个参数频带的增益因子而将所述序列转换成用于第一输出通道的第一序列及用于第二输出通道的第二序列;
使用经解码边信号来更新所述第一序列及所述第二序列,或使用边信号来更新所述第一序列及所述第二序列,所述边信号是使用用于参数频带的立体声填充参数从所述中间信号的块的序列的早前块预测的;
使用关于多个窄带相位对准参数的信息来执行相位去对准及能量缩放;以及
使用关于宽带时间对准参数的信息来执行时间去对准,以获得所述至少两个结果序列。
36.如权利要求25所述的装置,
其中所述核心解码器被配置为根据第一帧控制而操作以提供帧的序列,其中帧以开始帧边界及结束帧边界为界,
其中所述时间频谱转换器或所述频谱时间转换器被配置为根据与所述第一帧控制同步的第二帧控制而操作,
其中所述时间频谱转换器或所述频谱时间转换器被配置为根据与所述第一帧控制同步的所述第二帧控制而操作,其中帧的所述序列的每个帧的所述开始帧边界或所述结束帧边界与由所述时间频谱转换器针对取样值的块的所述序列的每个块使用的或由所述频谱时间转换器针对取样值的块的所述至少两个输出序列的每个块使用的窗口的重叠部分的开始瞬时或结束瞬时呈预定关系。
37.如权利要求36所述的装置,
其中所述经核心解码信号具有帧的序列,帧具有所述开始帧边界及所述结束帧边界,
其中由所述时间频谱转换器使用以用于对帧的序列的所述帧开窗的分析窗口具有在所述结束帧边界之前结束的重叠部分,从而在所述重叠部分的终点与所述结束帧边界之间留下时间间隙,以及
其中所述核心解码器被配置为并行于使用所述分析窗口的所述帧的所述开窗而对所述时间间隙中的样本执行处理,或其中并行于使用所述分析窗口的所述帧的所述开窗而对所述时间间隙中的所述样本执行核心解码器后处理。
38.如权利要求37所述的装置,
其中所述经核心解码信号具有帧的序列,帧具有所述开始帧边界及所述结束帧边界,
其中分析窗口的第一重叠部分的开始与所述开始帧边界重合,且所述分析窗口的第二重叠部分的终点位于停止帧边界之前,使得所述第二重叠部分的所述终点与所述停止帧边界之间存在时间间隙,以及
其中用于所述经核心解码信号的后继块的所述分析窗口被定位使得所述分析窗口的中间非重叠部分位于所述时间间隙内。
39.如权利要求25所述的装置,
其中由所述时间频谱转换器使用的分析窗口具有与由所述频谱时间转换器使用的合成窗口相同的形状及时间长度。
40.如权利要求25所述的装置,
其中所述经核心解码信号具有帧的序列,其中所述帧的序列中的帧具有帧的长度,以及其中排除由所述时间频谱转换器应用的任何零填补部分的窗口的长度小于或等于所述帧的长度的一半。
41.如权利要求25所述的装置,
其中所述频谱时间转换器被配置为:
针对所述至少两个输出序列的第一输出序列应用合成窗口,以用于获得经开窗样本的第一输出块;
针对所述至少两个输出序列的所述第一输出序列应用所述合成窗口,以用于获得经开窗样本的第二输出块;以及
将所述第一输出块及所述第二输出块重叠相加,以获得所述第一输出序列的输出样本的第一群组;
其中所述第一输出序列的输出样本的第一群组及所述第二输出序列的输出样本的第二群组两者均与经解码多通道信号的相同时间部分相关,或均与所述经核心解码信号的相同帧相关。
42.一种用于解码经编码多通道信号的方法,其包含:
产生经核心解码信号;
将所述经核心解码信号的取样值的块的序列转换成具有所述经核心解码信号的频谱值的块的序列的频域表示,其中取样值的块具有相关联的输入取样率,且其中频谱值的块具有高达与所述输入取样率相关的最大输入频率的频谱值;
对所述经核心解码信号的频谱值的块的所述序列的频谱值的块或通过逆多通道处理在频域中获得的至少两个结果序列重新取样,以获得频谱值的块的重新取样序列或至少两个重新取样序列,其中所述重新取样序列的块或所述至少两个重新取样序列的块具有高达不同于所述最大输入频率的最大输出频率的频谱值;
将逆多通道处理应用于包含块的序列或块的所述重新取样序列的序列,以获得频谱值的块的至少两个结果序列;以及
将频谱值的块的所述至少两个结果序列或频谱值的块的所述至少两个重新取样序列转换成包含取样值的块的至少两个输出序列的时域表示,所述取样值的块具有不同于所述输入取样率的相关联的输出取样率。
43.一种其上存储有计算机程序的计算机可读介质,所述计算机程序当在计算机或处理器上运行时,被配置用于执行如权利要求24所述的方法或如权利要求42所述的方法。
CN201780002248.3A 2016-01-22 2017-01-20 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法 Active CN107710323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210761486.5A CN115148215A (zh) 2016-01-22 2017-01-20 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP16152450 2016-01-22
EP16152453 2016-01-22
EP16152453.3 2016-01-22
EP16152450.9 2016-01-22
PCT/EP2017/051208 WO2017125559A1 (en) 2016-01-22 2017-01-20 Apparatuses and methods for encoding or decoding an audio multi-channel signal using spectral-domain resampling

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202210761486.5A Division CN115148215A (zh) 2016-01-22 2017-01-20 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法

Publications (2)

Publication Number Publication Date
CN107710323A CN107710323A (zh) 2018-02-16
CN107710323B true CN107710323B (zh) 2022-07-19

Family

ID=57838406

Family Applications (6)

Application Number Title Priority Date Filing Date
CN201780002248.3A Active CN107710323B (zh) 2016-01-22 2017-01-20 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法
CN201780019674.8A Active CN108885879B (zh) 2016-01-22 2017-01-20 使用帧控制同步来编码或解码多声道音频信号的装置和方法
CN202210761486.5A Pending CN115148215A (zh) 2016-01-22 2017-01-20 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法
CN201780018898.7A Active CN108885877B (zh) 2016-01-22 2017-01-20 用于估计声道间时间差的设备及方法
CN201780018903.4A Active CN108780649B (zh) 2016-01-22 2017-01-20 使用宽带对准参数与多个窄带对准参数编码或解码多声道信号的设备及方法
CN202311130088.4A Pending CN117238300A (zh) 2016-01-22 2017-01-20 使用帧控制同步来编码或解码多声道音频信号的装置和方法

Family Applications After (5)

Application Number Title Priority Date Filing Date
CN201780019674.8A Active CN108885879B (zh) 2016-01-22 2017-01-20 使用帧控制同步来编码或解码多声道音频信号的装置和方法
CN202210761486.5A Pending CN115148215A (zh) 2016-01-22 2017-01-20 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法
CN201780018898.7A Active CN108885877B (zh) 2016-01-22 2017-01-20 用于估计声道间时间差的设备及方法
CN201780018903.4A Active CN108780649B (zh) 2016-01-22 2017-01-20 使用宽带对准参数与多个窄带对准参数编码或解码多声道信号的设备及方法
CN202311130088.4A Pending CN117238300A (zh) 2016-01-22 2017-01-20 使用帧控制同步来编码或解码多声道音频信号的装置和方法

Country Status (20)

Country Link
US (7) US10535356B2 (zh)
EP (5) EP3405951B1 (zh)
JP (10) JP6412292B2 (zh)
KR (4) KR102230727B1 (zh)
CN (6) CN107710323B (zh)
AU (5) AU2017208580B2 (zh)
BR (4) BR112017025314A2 (zh)
CA (4) CA3011914C (zh)
ES (4) ES2727462T3 (zh)
HK (1) HK1244584B (zh)
MX (4) MX2018008887A (zh)
MY (4) MY189205A (zh)
PL (4) PL3284087T3 (zh)
PT (3) PT3405949T (zh)
RU (4) RU2705007C1 (zh)
SG (3) SG11201806241QA (zh)
TR (1) TR201906475T4 (zh)
TW (4) TWI629681B (zh)
WO (4) WO2017125559A1 (zh)
ZA (3) ZA201804625B (zh)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9773505B2 (en) * 2008-09-18 2017-09-26 Electronics And Telecommunications Research Institute Encoding apparatus and decoding apparatus for transforming between modified discrete cosine transform-based coder and different coder
EP3405951B1 (en) 2016-01-22 2019-11-13 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatuses and methods for encoding or decoding a multi-channel audio signal using frame control synchronization
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
BR112019009315A2 (pt) 2016-11-08 2019-07-30 Fraunhofer Ges Forschung aparelho e método para mixagem de redução ou mixagem de aumento de um sinal de múltiplos canais com o uso de compensação de fase
US10475457B2 (en) * 2017-07-03 2019-11-12 Qualcomm Incorporated Time-domain inter-channel prediction
US10535357B2 (en) * 2017-10-05 2020-01-14 Qualcomm Incorporated Encoding or decoding of audio signals
US10839814B2 (en) * 2017-10-05 2020-11-17 Qualcomm Incorporated Encoding or decoding of audio signals
CN112074902B (zh) * 2018-02-01 2024-04-12 弗劳恩霍夫应用研究促进协会 使用混合编码器/解码器空间分析的音频场景编码器、音频场景解码器及相关方法
TWI708243B (zh) * 2018-03-19 2020-10-21 中央研究院 於分散式語音辨識中基於小波轉換之語音特徵壓縮及重建系統與方法
ES2909343T3 (es) * 2018-04-05 2022-05-06 Fraunhofer Ges Forschung Aparato, método o programa informático para estimar una diferencia de tiempo entre canales
CN110556116B (zh) 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置
EP3588495A1 (en) * 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
WO2020009082A1 (ja) * 2018-07-03 2020-01-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置及び符号化方法
JP7092048B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 多地点制御方法、装置及びプログラム
EP3719799A1 (en) 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation
WO2020216459A1 (en) * 2019-04-23 2020-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating an output downmix representation
CN110459205B (zh) * 2019-09-24 2022-04-12 京东科技控股股份有限公司 语音识别方法及装置、计算机可存储介质
CN110740416B (zh) * 2019-09-27 2021-04-06 广州励丰文化科技股份有限公司 一种音频信号处理方法及装置
US20220156217A1 (en) * 2019-11-22 2022-05-19 Stmicroelectronics (Rousset) Sas Method for managing the operation of a system on chip, and corresponding system on chip
CN110954866B (zh) * 2019-11-22 2022-04-22 达闼机器人有限公司 声源定位方法、电子设备及存储介质
CN111131917B (zh) * 2019-12-26 2021-12-28 国微集团(深圳)有限公司 音频频谱实时同步方法、播放装置
TWI750565B (zh) * 2020-01-15 2021-12-21 原相科技股份有限公司 真無線多聲道揚聲裝置及其多音源發聲之方法
CN111402906B (zh) * 2020-03-06 2024-05-14 深圳前海微众银行股份有限公司 语音解码方法、装置、引擎及存储介质
US11276388B2 (en) * 2020-03-31 2022-03-15 Nuvoton Technology Corporation Beamforming system based on delay distribution model using high frequency phase difference
CN111525912B (zh) * 2020-04-03 2023-09-19 安徽白鹭电子科技有限公司 一种数字信号的任意重采样方法及系统
CN113223503B (zh) * 2020-04-29 2022-06-14 浙江大学 一种基于测试反馈的核心训练语音选择方法
WO2021260826A1 (ja) * 2020-06-24 2021-12-30 日本電信電話株式会社 音信号復号方法、音信号復号装置、プログラム及び記録媒体
CN115917644A (zh) * 2020-06-24 2023-04-04 日本电信电话株式会社 声音信号编码方法、声音信号编码装置、程序以及记录介质
AU2021317755B2 (en) * 2020-07-30 2023-11-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for encoding an audio signal or for decoding an encoded audio scene
MX2023003963A (es) 2020-10-09 2023-05-25 Fraunhofer Ges Forschung Aparato, metodo, o programa de computadora para procesar una escena de audio codificada utilizando un suavizado de parametro.
CA3194876A1 (en) 2020-10-09 2022-04-14 Franz REUTELHUBER Apparatus, method, or computer program for processing an encoded audio scene using a bandwidth extension
JP2023549038A (ja) 2020-10-09 2023-11-22 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン パラメータ変換を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム
US20240064483A1 (en) * 2021-01-18 2024-02-22 Panasonic Intellectual Property Corporation Of America Signal processing device and signal processing method
WO2022262960A1 (en) 2021-06-15 2022-12-22 Telefonaktiebolaget Lm Ericsson (Publ) Improved stability of inter-channel time difference (itd) estimator for coincident stereo capture
CN113435313A (zh) * 2021-06-23 2021-09-24 中国电子科技集团公司第二十九研究所 一种基于dft的脉冲频域特征提取方法
WO2023153228A1 (ja) * 2022-02-08 2023-08-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、及び、符号化方法
CN115691515A (zh) * 2022-07-12 2023-02-03 南京拓灵智能科技有限公司 一种音频编解码方法及装置
WO2024053353A1 (ja) * 2022-09-08 2024-03-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 信号処理装置、及び、信号処理方法
WO2024074302A1 (en) 2022-10-05 2024-04-11 Telefonaktiebolaget Lm Ericsson (Publ) Coherence calculation for stereo discontinuous transmission (dtx)
CN117476026A (zh) * 2023-12-26 2024-01-30 芯瞳半导体技术(山东)有限公司 一种多路音频数据混音的方法、系统、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101267362A (zh) * 2008-05-16 2008-09-17 亿阳信通股份有限公司 一种性能指标值正常波动范围的动态确定方法及其装置
CN102007537A (zh) * 2008-07-11 2011-04-06 弗劳恩霍弗实用研究促进协会 时间扭曲轮廓计算器、音讯信号编码器、编码音讯信号表现形态、方法及计算机程序
CN104851427A (zh) * 2010-04-09 2015-08-19 杜比国际公司 解码系统和解码方法
CN105074819A (zh) * 2013-02-20 2015-11-18 弗劳恩霍夫应用研究促进协会” 使用多重叠部分来生成经编码的信号或对经编码的音频信号进行解码的设备及方法
CN107113147A (zh) * 2014-12-31 2017-08-29 Lg电子株式会社 在无线通信系统中分配资源的方法和设备

Family Cites Families (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434948A (en) * 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
US5526359A (en) * 1993-12-30 1996-06-11 Dsc Communications Corporation Integrated multi-fabric digital cross-connect timing architecture
US6073100A (en) * 1997-03-31 2000-06-06 Goodridge, Jr.; Alan G Method and apparatus for synthesizing signals using transform-domain match-output extension
US5903872A (en) 1997-10-17 1999-05-11 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to attenuate spectral splatter at frame boundaries
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression
US6549884B1 (en) * 1999-09-21 2003-04-15 Creative Technology Ltd. Phase-vocoder pitch-shifting
EP1199711A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Encoding of audio signal using bandwidth expansion
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
FI119955B (fi) * 2001-06-21 2009-05-15 Nokia Corp Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
WO2003107591A1 (en) * 2002-06-14 2003-12-24 Nokia Corporation Enhanced error concealment for spatial audio
CN100481735C (zh) * 2002-08-21 2009-04-22 广州广晟数码技术有限公司 用于从编码后的音频数据流中解码重建多声道音频信号的解码方法
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7536305B2 (en) * 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7596486B2 (en) 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
EP1769491B1 (en) 2004-07-14 2009-09-30 Koninklijke Philips Electronics N.V. Audio channel conversion
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US9626973B2 (en) * 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US20070055510A1 (en) 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
KR100712409B1 (ko) * 2005-07-28 2007-04-27 한국전자통신연구원 벡터의 차원변환 방법
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
WO2007052612A1 (ja) * 2005-10-31 2007-05-10 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置およびステレオ信号予測方法
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
MX2008010836A (es) * 2006-02-24 2008-11-26 France Telecom Un metodo para codificacion binaria de indices de cuantificacion de una envoltura de señal, un metodo para descodificar una envoltura de señal, y modulos de codificacion y descodificacion correspondiente.
DE102006049154B4 (de) 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
CN101903944B (zh) * 2007-12-18 2013-04-03 Lg电子株式会社 用于处理音频信号的方法和装置
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
JP5122681B2 (ja) * 2008-05-23 2013-01-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメトリックステレオアップミクス装置、パラメトリックステレオデコーダ、パラメトリックステレオダウンミクス装置、及びパラメトリックステレオエンコーダ
US8355921B2 (en) * 2008-06-13 2013-01-15 Nokia Corporation Method, apparatus and computer program product for providing improved audio processing
EP2144229A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
KR101400535B1 (ko) * 2008-07-11 2014-05-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 워프 활성 신호의 제공 및 이를 이용한 오디오 신호의 인코딩
MX2011000361A (es) * 2008-07-11 2011-02-25 Ten Forschung Ev Fraunhofer Un aparato y un metodo para generar datos de salida por ampliacion de ancho de banda.
ES2683077T3 (es) * 2008-07-11 2018-09-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
PL2146344T3 (pl) * 2008-07-17 2017-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście
US8504378B2 (en) * 2009-01-22 2013-08-06 Panasonic Corporation Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
RU2542668C2 (ru) * 2009-01-28 2015-02-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Звуковое кодирующее устройство, звуковой декодер, кодированная звуковая информация, способы кодирования и декодирования звукового сигнала и компьютерная программа
KR101433701B1 (ko) 2009-03-17 2014-08-28 돌비 인터네셔널 에이비 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩
US9111527B2 (en) * 2009-05-20 2015-08-18 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, and methods therefor
CN101989429B (zh) * 2009-07-31 2012-02-01 华为技术有限公司 转码方法、装置、设备以及系统
JP5031006B2 (ja) 2009-09-04 2012-09-19 パナソニック株式会社 スケーラブル復号化装置及びスケーラブル復号化方法
JP5405373B2 (ja) * 2010-03-26 2014-02-05 富士フイルム株式会社 電子内視鏡システム
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
PL3779975T3 (pl) 2010-04-13 2023-12-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder audio i powiązane sposoby przetwarzania wielokanałowych sygnałów audio stereo z wykorzystaniem zmiennego kierunku predykcji
US8463414B2 (en) * 2010-08-09 2013-06-11 Motorola Mobility Llc Method and apparatus for estimating a parameter for low bit rate stereo transmission
AU2011288406B2 (en) * 2010-08-12 2014-07-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Resampling output signals of QMF based audio codecs
BR112013008463B8 (pt) 2010-10-06 2022-04-05 Fraunhofer Ges Zur Foerderung Der Angewandten Forschubg E V Aparelho e método para processar um sinal de áudio e para prover uma granularidade temporal maior para um codec de fala e áudio unificado combinado (usac)
FR2966634A1 (fr) 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
WO2012105885A1 (en) * 2011-02-02 2012-08-09 Telefonaktiebolaget L M Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
DK2671221T3 (en) * 2011-02-03 2017-05-01 ERICSSON TELEFON AB L M (publ) DETERMINING THE INTERCHANNEL TIME DIFFERENCE FOR A MULTI-CHANNEL SIGNAL
MY160265A (en) * 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Apparatus and Method for Encoding and Decoding an Audio Signal Using an Aligned Look-Ahead Portion
BR112013020482B1 (pt) * 2011-02-14 2021-02-23 Fraunhofer Ges Forschung aparelho e método para processar um sinal de áudio decodificado em um domínio espectral
EP2710592B1 (en) * 2011-07-15 2017-11-22 Huawei Technologies Co., Ltd. Method and apparatus for processing a multi-channel audio signal
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
EP3288033B1 (en) 2012-02-23 2019-04-10 Dolby International AB Methods and systems for efficient recovery of high frequency audio content
CN103366749B (zh) * 2012-03-28 2016-01-27 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
CN103366751B (zh) * 2012-03-28 2015-10-14 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
EP2834813B1 (en) 2012-04-05 2015-09-30 Huawei Technologies Co., Ltd. Multi-channel audio encoder and method for encoding a multi-channel audio signal
KR101621287B1 (ko) 2012-04-05 2016-05-16 후아웨이 테크놀러지 컴퍼니 리미티드 다채널 오디오 신호 및 다채널 오디오 인코더를 위한 인코딩 파라미터를 결정하는 방법
KR20150012146A (ko) * 2012-07-24 2015-02-03 삼성전자주식회사 오디오 데이터를 처리하기 위한 방법 및 장치
WO2014043476A1 (en) * 2012-09-14 2014-03-20 Dolby Laboratories Licensing Corporation Multi-channel audio content analysis based upmix detection
EP2898506B1 (en) * 2012-09-21 2018-01-17 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
CN104885383B (zh) * 2012-12-27 2017-08-29 松下电器(美国)知识产权公司 影像显示方法
EP2959479B1 (en) * 2013-02-21 2019-07-03 Dolby International AB Methods for parametric multi-channel encoding
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP2830064A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
WO2016108655A1 (ko) * 2014-12-31 2016-07-07 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
EP3067886A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
EP3405951B1 (en) * 2016-01-22 2019-11-13 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatuses and methods for encoding or decoding a multi-channel audio signal using frame control synchronization
US10224042B2 (en) 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101267362A (zh) * 2008-05-16 2008-09-17 亿阳信通股份有限公司 一种性能指标值正常波动范围的动态确定方法及其装置
CN102007537A (zh) * 2008-07-11 2011-04-06 弗劳恩霍弗实用研究促进协会 时间扭曲轮廓计算器、音讯信号编码器、编码音讯信号表现形态、方法及计算机程序
CN104851427A (zh) * 2010-04-09 2015-08-19 杜比国际公司 解码系统和解码方法
CN105074819A (zh) * 2013-02-20 2015-11-18 弗劳恩霍夫应用研究促进协会” 使用多重叠部分来生成经编码的信号或对经编码的音频信号进行解码的设备及方法
CN107113147A (zh) * 2014-12-31 2017-08-29 Lg电子株式会社 在无线通信系统中分配资源的方法和设备

Also Published As

Publication number Publication date
PL3405951T3 (pl) 2020-06-29
CA3011915C (en) 2021-07-13
MY181992A (en) 2021-01-18
MY196436A (en) 2023-04-11
JP2019032543A (ja) 2019-02-28
TWI628651B (zh) 2018-07-01
CN117238300A (zh) 2023-12-15
US10706861B2 (en) 2020-07-07
EP3284087B1 (en) 2019-03-06
RU2693648C2 (ru) 2019-07-03
ZA201804776B (en) 2019-04-24
US20180322883A1 (en) 2018-11-08
JP6730438B2 (ja) 2020-07-29
JP2021103326A (ja) 2021-07-15
ES2773794T3 (es) 2020-07-14
RU2017145250A (ru) 2019-06-24
TW201729180A (zh) 2017-08-16
JP2021101253A (ja) 2021-07-08
AU2019213424A1 (en) 2019-09-12
EP3284087A1 (en) 2018-02-21
ZA201804910B (en) 2019-04-24
CA3011914A1 (en) 2017-07-27
EP3405949A1 (en) 2018-11-28
PT3405951T (pt) 2020-02-05
US20200194013A1 (en) 2020-06-18
US20180322884A1 (en) 2018-11-08
EP3503097A3 (en) 2019-07-03
JP7161564B2 (ja) 2022-10-26
AU2019213424B8 (en) 2022-05-19
CN108780649A (zh) 2018-11-09
BR112018014916A2 (pt) 2018-12-18
US20190228786A1 (en) 2019-07-25
EP3405948B1 (en) 2020-02-26
WO2017125563A1 (en) 2017-07-27
ZA201804625B (en) 2019-03-27
JP6859423B2 (ja) 2021-04-14
RU2704733C1 (ru) 2019-10-30
EP3503097A2 (en) 2019-06-26
JP2019506634A (ja) 2019-03-07
JP2022088584A (ja) 2022-06-14
CN108885877B (zh) 2023-09-08
MX2018008889A (es) 2018-11-09
JP6412292B2 (ja) 2018-10-24
KR20180104701A (ko) 2018-09-21
SG11201806246UA (en) 2018-08-30
US10854211B2 (en) 2020-12-01
BR112017025314A2 (pt) 2018-07-31
HK1244584B (zh) 2019-11-15
CA3011914C (en) 2021-08-24
AU2019213424A8 (en) 2022-05-19
CN107710323A (zh) 2018-02-16
TW201801067A (zh) 2018-01-01
EP3405951A1 (en) 2018-11-28
PL3405949T3 (pl) 2020-07-27
PL3503097T3 (pl) 2024-03-11
US11410664B2 (en) 2022-08-09
KR102230727B1 (ko) 2021-03-22
ES2768052T3 (es) 2020-06-19
JP7258935B2 (ja) 2023-04-17
US10535356B2 (en) 2020-01-14
WO2017125559A1 (en) 2017-07-27
KR20180103149A (ko) 2018-09-18
CN108885877A (zh) 2018-11-23
CN115148215A (zh) 2022-10-04
TW201732781A (zh) 2017-09-16
CN108885879A (zh) 2018-11-23
RU2017145250A3 (zh) 2019-06-24
MX2018008890A (es) 2018-11-09
CN108885879B (zh) 2023-09-15
CA3012159C (en) 2021-07-20
CA2987808C (en) 2020-03-10
CA2987808A1 (en) 2017-07-27
PT3405949T (pt) 2020-04-21
SG11201806241QA (en) 2018-08-30
SG11201806216YA (en) 2018-08-30
MX2018008887A (es) 2018-11-09
EP3405948A1 (en) 2018-11-28
KR102083200B1 (ko) 2020-04-28
TW201729561A (zh) 2017-08-16
WO2017125562A1 (en) 2017-07-27
AU2017208575A1 (en) 2018-07-26
KR20180105682A (ko) 2018-09-28
EP3503097B1 (en) 2023-09-20
EP3503097C0 (en) 2023-09-20
BR112018014799A2 (pt) 2018-12-18
JP6641018B2 (ja) 2020-02-05
RU2705007C1 (ru) 2019-11-01
US10424309B2 (en) 2019-09-24
US11887609B2 (en) 2024-01-30
WO2017125558A1 (en) 2017-07-27
AU2017208579B2 (en) 2019-09-26
JP6626581B2 (ja) 2019-12-25
TWI653627B (zh) 2019-03-11
TWI643487B (zh) 2018-12-01
AU2017208576A1 (en) 2017-12-07
MY189223A (en) 2022-01-31
CA3011915A1 (en) 2017-07-27
US20220310103A1 (en) 2022-09-29
PL3284087T3 (pl) 2019-08-30
CA3012159A1 (en) 2017-07-20
US20180197552A1 (en) 2018-07-12
CN108780649B (zh) 2023-09-08
JP6856595B2 (ja) 2021-04-07
AU2017208575B2 (en) 2020-03-05
AU2017208580B2 (en) 2019-05-09
PT3284087T (pt) 2019-06-11
BR112018014689A2 (pt) 2018-12-11
MX2017015009A (es) 2018-11-22
JP2018529122A (ja) 2018-10-04
MY189205A (en) 2022-01-31
JP2020060788A (ja) 2020-04-16
US20180342252A1 (en) 2018-11-29
RU2711513C1 (ru) 2020-01-17
TR201906475T4 (tr) 2019-05-21
US10861468B2 (en) 2020-12-08
ES2727462T3 (es) 2019-10-16
MX371224B (es) 2020-01-09
JP7270096B2 (ja) 2023-05-09
KR102219752B1 (ko) 2021-02-24
KR102343973B1 (ko) 2021-12-28
JP7053725B2 (ja) 2022-04-12
AU2017208579A1 (en) 2018-08-09
TWI629681B (zh) 2018-07-11
AU2019213424B2 (en) 2021-04-22
JP2019502966A (ja) 2019-01-31
JP2020170193A (ja) 2020-10-15
KR20180012829A (ko) 2018-02-06
EP3405949B1 (en) 2020-01-08
AU2017208580A1 (en) 2018-08-09
JP2019502965A (ja) 2019-01-31
ES2790404T3 (es) 2020-10-27
AU2017208576B2 (en) 2018-10-18
EP3405951B1 (en) 2019-11-13

Similar Documents

Publication Publication Date Title
CN107710323B (zh) 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant