CN102160113A - 多声道音频编码器和解码器 - Google Patents

多声道音频编码器和解码器 Download PDF

Info

Publication number
CN102160113A
CN102160113A CN2008801312323A CN200880131232A CN102160113A CN 102160113 A CN102160113 A CN 102160113A CN 2008801312323 A CN2008801312323 A CN 2008801312323A CN 200880131232 A CN200880131232 A CN 200880131232A CN 102160113 A CN102160113 A CN 102160113A
Authority
CN
China
Prior art keywords
signal
time
channel audio
audio signal
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2008801312323A
Other languages
English (en)
Other versions
CN102160113B (zh
Inventor
M·T·维勒莫
M·T·塔米
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN102160113A publication Critical patent/CN102160113A/zh
Application granted granted Critical
Publication of CN102160113B publication Critical patent/CN102160113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

一种装置,配置用于:确定第一信号与第二信号之间的至少一个时间延迟;根据至少一个时间延迟从第二信号生成第三信号;以及将第一信号与第三信号组合以生成第四信号;将第一信号和第二信号划分为多个时间帧;针对每个时间帧确定与第一信号的时间帧的开始相关联的第一延迟以及与第一信号的时间帧的末尾相关联的第二时间延迟;在定义为开始于时间帧的开始与第一时间延迟的组合处,并且结束于时间帧的末尾与第二时间延迟的组合处的块中,从第二信号中选择至少一个采样;以及将所选择的至少一个采样伸展为等于第一帧的采样的数目。

Description

多声道音频编码器和解码器
技术领域
本发明涉及用于编码和解码的装置,并且具体地但不仅限于用于音频和语音信号的编码和解码。
背景技术
空间音频处理是从音频源发出的音频信号通过不同传播路径到达聆听者的左耳和右耳的效果。由于这种效果,左耳处的信号与到达右耳的相应信号相比通常具有不同的到达时间和信号水平。时间和信号水平之间的差异取决于音频信号为了分别到达左耳和右耳所经过的路径的差异。聆听者的大脑继而解译这些差异,以便给出所接收的音频信号由位于相对于聆听者的特定距离和方向处的音频源生成的感觉。
因此,可以将听觉场景视为同时收听位于相对于聆听者的不同位置处的一个或多个音频源生成的音频信号的合成串音。
人类大脑可以处理双声道输入信号,以便确定声源的位置和方向的简单事实可以用于编码和合成听觉场景。空间听觉编码的一种典型方法由此可以通过有目的地修改来自一个或多个不同源(声道)的音频信号来试图建模音频场景的显著特征。这可以在被定义为左音频信号和右音频信号的耳机组中使用。左音频信号和右音频信号可以统称为双声道信号。继而可以生成所产生的双声道信号,使得其给出改变位于相对于聆听者的不同位置处的音频源的感觉。双声道信号与立体声信号的区别在于两个方面。首先,双声道信号已经并入了左声道与右声道之间的时间差,其次,双声道信号采用“头影效应”(其中,建模了特定频带的音量的减小)。
最近,已经结合多声道音频再现而使用空间音频技术。多声道音频再现的目的是提供对包括多个独立音频声道或者声源的多声道音频信号的有效编码。多声道音频信号的编码的最近解决方案集中于参量立体声(PS)和双声道线索编码(BCC)。BCC通常通过将输入音频信号下混频为单(“合量”)声道或者传送该“合量”信号的较小数目的声道来编码多声道音频信号。同时,从输入声道中提取最显著的声道间线索并且将其编码为边信息,该最显著的声道间线索另外也称为空间线索,其描述多声道声像或者音频场景。合量信号和边信息二者形成经编码的参数集,其继而可以作为通信链的一部分来传输,或者存储在存储和转发类型设备中。BCC技术的多数实现通常采用低比特率音频编码方案来进一步编码合量信号。最终,BCC解码器根据所传输或者存储的合量信号和空间线索信息来生成多声道输出信号。通常,使用低比特率知觉音频编码技术(诸如AAC)来附加地编码空间音频编码系统中采用的下混频信号,以进一步减少所需的比特率。
迄今为止,其中存在不止两个源的多声道音频编码仅用于家庭影院应用,其中带宽通常不视为主要限制。然而,多声道音频编码可以在多种移动设备上的新出现的多麦克风实现中使用,以帮助挖掘这些多麦克风技术的全部潜能。例如,多麦克风系统可以用于例如通过使得音频在接收机处缩放而在较差的音频环境中产生较好的信噪比,其中接收机具有集中于所接收的信号的特定源或者方向的能力。这一集中继而可以根据需要由接收机改进的源而改变。
上文提到的多声道系统具有以下固有问题,即,N声道/麦克风源系统在被直接编码时产生的比特流大约需要单声道带宽N倍的带宽。
该多声道带宽需求对于无线通信系统通常是禁止的。
已知通过假设每个声道记录了相同的源信号,但是具有不同的时间延迟和频率相关放大特性,可以建模多声道/多源系统。在用于减少带宽需求的一些解决方案(诸如上文描述的双声道编码解决方案)中,已证实可以将N个声道组合到单个声道中,该单个声道是水平(强度)和时间对齐的。然而,这产生了一个问题,即水平和时间对齐针对不同的时间和频率元素是不同的。另外,通常存在若干源信号占用相同的时间-频率位置,每个源信号需要不同的时间和水平对齐。
已经提出的一种单独解决方案已经解决了将所有音频源(换言之,随后由麦克风检测的音频信号的原始源)与信号分离并且建模由麦克风定义的原始源和空间的方向和音响效果的问题。然而,这在计算上较困难,并且需要大量的处理功率。另外,这一解决方案需要对所有原始源进行单独编码,并且原始源的数目可能超过原始声道的数目。换言之,所建模的原始源的数目可能大于用于记录音频环境的麦克风声道的数目。
因此,目前系统通常仅将多声道系统编码为单个声道或者较小数目的声道,并且将其他声道编码为与最近声道的水平或者强度差值。例如,在两个(左和右)声道系统中,通常,通过平均左声道和右声道来创建单个单声道,并且继而对两个声道系统中的左声道和右声道二者的频带中的信号能量水平进行量化和编码,并且进行存储/发送至接收机。在接收机/解码器处,将单信号复制到两个声道,并且将左声道和右声道的信号水平设置为与两个重新创建的声道二者中每个频带中所接收的能量信息相匹配。
这一类型的系统由于编码而产生了并非最优的声像,并且无法产生多声道系统可以产生的音频深度。
发明内容
本发明出于以下考虑,即通过将声道之间的时间差以及水平差纳入考虑而期望利用比先前允许的更高的质量来编码多声道信号。
本发明的实施方式旨在解决以上问题。
根据本发明的第一方面,提供了一种装置,配置用于:确定第一信号与第二信号之间的至少一个时间延迟;根据至少一个时间延迟从第二信号生成第三信号;以及将第一信号与第三信号组合以生成第四信号。
由此,本发明的实施方式可以编码音频信号并且产生具有较好定义的声道分离而不需要分离的声道编码。
该装置可以进一步配置用于使用以下至少一个来编码第四信号:MPEG-2AAC和MPEG-1层III(mp3)。
该装置可以进一步配置用于将第一信号和第二信号划分为多个频带,并且其中优选地针对每个频带确定至少一个时间延迟。
该装置可以进一步配置用于将第一信号和第二信号划分为多个时间帧,并且其中针对每个时间帧确定至少一个时间延迟。
该装置可以进一步配置用于将第一信号和第二信号划分为以下中的至少一个:多个非重叠时间帧;多个重叠时间帧;以及多个加窗重叠时间帧。
该装置可以进一步配置用于针对每个时间帧确定与第一信号的时间帧的开始相关联的第一时间延迟,以及与第一信号的时间帧的末尾相关联的第二时间延迟。
第一帧和第二帧可以包括多个采样,并且该装置可以进一步配置用于:在定义为开始于时间帧的开始与第一时间延迟的组合处,并且结束于时间帧的末尾与第二时间延迟的组合处的块中,从第二信号中选择至少一个采样;以及将所选择的至少一个采样伸展为等于第一帧的采样的数目。
该装置可以进一步配置用于通过以下来确定至少一个时间延迟:针对第一信号与第二信号相关生成相关值;以及选择具有最高相关值的时间值。
该装置可以进一步配置用于生成第五信号,其中该第五信号包括以下中的至少一个:至少一个时间延迟值;以及第一信号与第二信号之间的能量差。
该装置可以进一步配置用于将第五信号与第四信号复用以生成编码音频信号。
根据本发明的第二方面,提供了一种装置,配置用于:将第一信号划分为至少第一部分和第二部分;解码第一部分以形成第一声道音频信号;以及从根据第二部分修改的第一声道音频信号生成第二声道音频信号,其中第二部分包括时间延迟值,并且该装置配置用于根据对第一声道音频信号的时间延迟值、通过应用至少一个时移来生成第二声道音频信号。
第二部分还可以包括能量差值,并且其中该装置进一步配置用于通过根据能量差值向第一声道音频信号应用增益来生成第二声道音频信号。
该装置可以进一步配置用于将第一声道音频信号划分为至少两个频带,其中第二声道音频信号的生成优选地修改第一声道音频信号的每个频带。
第二部分可以包括至少一个第一时间延迟值和至少一个第二时间延迟值,第一声道音频信号可以包括从帧开始时间的第一采样到帧结束时间的末尾采样定义的至少一个帧,并且该装置优选地进一步配置用于:在由第一声道音频信号的帧开始时间和第一时间延迟值所定义的时刻,将第一声道音频信号帧的第一采样复制到第二声道音频信号;以及在第一声道音频信号的帧结束时间和第二时间延迟值定义的时刻,将第一声道音频信号的末尾采样复制到第二声道音频信号。
该装置可以进一步配置用于复制第一采样时刻与末尾采样时刻之间的任何其他第一声道音频信号帧采样。
该装置可以进一步配置用于重新采样第二声道音频信号以与第一声道音频信号同步。
一种电子设备可以包括如上所述的装置。
一种芯片集可以包括如上所述的装置。
一种编码器可以包括如上所述的装置。
一种解码器可以包括如上所述的装置。
根据本发明的第三方面,提供了一种方法,包括:确定第一信号与第二信号之间的至少一个时间延迟;根据至少一个时间延迟、从第二信号生成第三信号;以及组合第一信号和第三信号以生成第四信号。
该方法可以进一步包括:使用以下至少一个来编码第四信号:MPEG-2AAC,以及MPEG-1层III(mp3)。
该方法可以进一步包括:将第一信号和第二信号划分为多个频带,并且针对每个频带确定至少一个时间延迟。
该方法可以进一步包括:将第一信号和第二信号划分为多个时间帧,并且针对每个时间帧确定至少一个时间延迟。
该方法可以进一步包括:将第一信号和第二信号划分为以下中的至少一个:多个非重叠时间帧;多个重叠时间帧;以及多个加窗重叠时间帧。
该方法可以进一步包括:针对每个时间帧确定与第一信号的时间帧的开始相关联的第一时间延迟以及与第一信号的时间帧的末尾相关联的第二时间延迟。
第一帧和第二帧可以包括多个采样,并且该方法可以进一步包括:在定义为开始于时间帧的开始与第一时间延迟的组合处,并且结束于时间帧的末尾与第二时间延迟的组合处的块中,从第二信号中选择至少一个采样;以及将所选择的至少一个采样伸展为等于第一帧的采样的数目。
确定至少一个时间延迟可以包括:针对第一信号与第二信号相关生成相关值;以及选择具有最高相关值的时间值。
该方法可以进一步包括生成第五信号,其中该第五信号包括以下中的至少一个:至少一个时间延迟值;以及第一信号与第二信号之间的能量差。
该方法可以进一步包括:将第五信号与第四信号复用以生成编码音频信号。
根据本发明的第四方面,提供了一种方法,包括:将第一信号划分为至少第一部分和第二部分;解码第一部分以形成第一声道音频信号;以及从根据第二部分修改的第一声道音频信号生成第二声道音频信号,其中第二部分包括时间延迟值,并且其中通过应用至少一个时移来生成第二声道音频信号取决于对第一声道音频信号的时间延迟值。
第二部分还可以包括能量差值,并且其中该方法可以进一步包括:通过根据能量差值向第一声道音频信号应用增益来生成第二声道音频信号。
该方法可以进一步包括:将第一声道音频信号划分为至少两个频带,其中生成第二声道音频信号可以包括修改第一声道音频信号的每个频带。
第二部分可以包括至少一个第一时间延迟值和至少一个第二时间延迟值,第一声道音频信号可以包括从帧开始时间的第一采样到帧结束时间的末尾采样定义的至少一个帧,并且该方法可以进一步包括:在由第一声道音频信号的帧开始时间和第一时间延迟值所定义的时刻,将第一声道音频信号帧的第一采样复制到第二声道音频信号;以及在第一声道音频信号的帧结束时间和第二时间延迟值定义的时刻,将第一声道音频信号的末尾采样复制到第二声道音频信号。
该方法可以进一步包括:复制第一采样时刻与末尾采样时刻之间的任何其他第一声道音频信号帧采样。
该方法可以进一步包括:重新采样第二声道音频信号以与第一声道音频信号同步。
根据本发明的第五方面,提供了一种计算机程序产品,配置用于执行包括以下的方法:确定第一信号与第二信号之间的至少一个时间延迟;根据至少一个时间延迟、从第二信号生成第三信号;以及组合第一信号和第三信号以生成第四信号。
根据本发明的第六方面,提供了一种计算机程序产品,配置用于执行包括以下的方法:将第一信号划分为至少第一部分和第二部分;解码第一部分以形成第一声道音频信号;以及从根据第二部分修改的第一声道音频信号生成第二声道音频信号,其中第二部分包括时间延迟值;并且其中通过应用至少一个时移来生成第二声道音频信号取决于对第一声道音频信号的时间延迟值。
根据本发明的第七方面,提供了一种装置,包括:处理装置,用于确定第一信号与第二信号之间的至少一个时间延迟;信号处理装置,用于根据至少一个时间延迟从第二信号生成第三信号;以及组合装置,用于组合第一信号和第三信号以生成第四信号。
根据本发明的第八方面,提供了一种装置,包括:处理装置,用于将第一信号划分为至少第一部分和第二部分;解码装置,用于解码第一部分以形成第一声道音频信号;以及信号处理装置,用于从根据第二部分修改的第一声道音频信号生成第二声道音频信号,其中第二部分包括时间延迟值;并且其中信号处理装置配置用于根据对第一声道音频信号的时间延迟值、通过应用至少一个时移来生成第二声道音频信号。
附图说明
为了更好地理解本发明,现在通过示例的方式参考附图,其中:
图1示意性地示出了采用本发明的实施方式的电子设备;
图2示意性地示出了采用本发明的实施方式的音频编解码器系统;
图3示意性地示出了图2所示的本发明的实施方式中采用的音频编码器;
图4示出了说明编码多声道信号的本发明的实施方式的操作的流程图;
图5更加详细地示出了从图4所示的多个多声道带块生成下混频信号的操作;
图6示出了根据本发明的实施方式正在进行编码的信号的示意图;
图7示意性地示出了根据本发明的实施方式的采样伸展;
图8示出了本发明的实施方式中采用的帧窗;
图9示出了根据本发明的实施方式的加窗(重叠和非重叠)以及非重叠组合之间的差异;
图10示意性地示出了根据本发明的实施方式的在解码器中将单音信号解码到声道中;
图11示意性地示出了利用重叠和非重叠窗对单音声道的解码;
图12示出了根据本发明的实施方式的解码器;
图13示意性地示出了根据本发明的实施方式的声道化合成器;以及
图14示出了详细描述根据本发明的实施方式的解码器的操作的流程图。
具体实施方式
下面进一步详细地描述为音频编解码器提供增强的编码效率和信号保真度适当装置和可能的机制。就这一点而言,首先参考图1,其示出了示例性装置或者电子设备10的示意框图,其可以并入根据本发明的实施方式的编解码器。
电子设备10例如可以是无线通信系统的移动终端或者用户设备。
电子设备10包括麦克风11,其经由模拟数字转换器14链接到处理器21。处理器21进一步经由数字模拟转换器32链接到扬声器33。处理器21进一步链接至收发机(TX/RX)13、用户接口(UI)15和存储器22。
处理器21可以配置用于执行各种程序代码。所实现的程序代码可以包括编码代码例程。所实现的程序代码23可以进一步包括音频解码代码。所实现的程序代码23例如可以存储在存储器22中,以便由处理器21在需要时获取。存储器22可以进一步提供部分24以用于存储数据,例如已经根据本发明进行编码的数据。
在本发明的实施方式中,编码和解码代码可以在硬件或者固件中实现。
用户接口15可以使得用户能够例如经由小键盘向电子设备10输入命令,和/或例如经由显示器从电子设备10获得信息。收发机13使得能够例如经由无线通信网络与其他电子设备通信。在本发明的一些实施方式中,收发机13可以配置用于通过有线连接与其他电子设备通信。
还可以理解,电子设备10的结构可以按照多种方式进行补充和改变。
电子设备10的用户可以使用麦克风11来输入语音,该语音将要传输至一些其他电子设备,或者将要存储在存储器22的数据段24中。为此,用户已经经由用户接口15激活了相应的应用。该应用可以由处理器21运行,使得处理器21执行存储在存储器22中的编码代码。
模拟数字转换器14可以将输入的模拟音频信号转换为数字音频信号,并且向处理器21提供数字音频信号。
处理器21继而可以按照相同的方式处理数字音频信号,如参考以下描述所描述的。
将产生的比特流提供至收发机13,以便向另一电子设备传输。备选地,编码的数据可以存储在存储器22的数据段24中,例如用于随后的传输或者由相同的电子设备10随后呈现。
电子设备10也可以经由收发机13、从另一电子设备接收具有相应的编码数据的比特流。在这种情况下,处理器21可以执行存储在存储器22中的解码程序代码。处理器21因此可以解码所接收的数据,并且将解码的数据提供至数字模拟转换器32。数字模拟转换器32可以将数字解码数据转换为模拟音频数据,并且将模拟信号输出至扬声器33。也可以由用户已经经由用户接口15调用的应用来触发解码程序代码的执行。
所接收的编码数据也可以存储在存储器22的数据段24中,而不是经由扬声器33立即呈现,例如,用于使得能够随后呈现,或者向又一电子设备转发。
在本发明的一些实施方式中,可以由耳机组对扬声器33进行补充或者将其替换,该耳机组可以与电子设备10或者装置例如通过蓝牙协议经由收发机13无线地通信,或者使用传统的有线连接来通信。
可以理解,图3、图12和图13中描述的示意结构以及图4、图5和图14中的方法步骤仅呈现了图1所示的电子设备实现的完整音频编解码器的操作的一部分。
图2示出了本发明的实施方式采用的音频编解码器的一般操作。一般音频编码/解码系统包括编码器和解码器,如图2示意性示出的。示出了具有编码器104、存储或者媒体声道106和解码器108的系统102。
编码器104压缩产生比特流112的输入音频信号110,其可以被存储或者通过媒体声道106传输。比特流112可以在解码器108内接收。解码器108解压缩比特流112,并且产生输出音频信号114。与输入信号110有关的比特流112的比特率以及输出音频信号114的质量是主要特征,其定义了编码系统102的性能。
图3示意性地示出了根据本发明第一实施方式的编码器104。编码器104绘出为包括被划分为N个声道{C1,C2,...,CN}的输入302。可以理解,输入302可以布置为接收N个声道的音频信号,或者备选地,接收来自N个单独音频源的N个音频信号,其中N是等于或者大于2的整数。
在图4中通过步骤401示出了N个声道的接收。
在下文描述的实施方式中,并行处理每个声道。然而,本领域技术人员可以理解,根据特定实施方式以及相关联的并行/串行处理成本/益处分析,可以串行地或者部分串行地和部分并行地处理每个声道。
由滤波器组301接收N个声道。滤波器组301包括N个滤波器组元件303中的多个。每个滤波器组元件303接收声道之一并且输出每个声道的一系列频带分量。如图3中所看到的,用于第一声道C1的滤波器组元件是滤波器组元件FB13031,其输出B个声道带C1 1到C1 B。类似地,滤波器组元件FBN303N输出用于第N个声道的一系列B个带分量CN 1到CN B。这些声道中每一个的B个带从滤波器组301输出,并且被传送至分隔器和加窗器305。
在本发明的实施方式中,滤波器组可以是不一致的。在不一致的滤波器组中,带不一致地分布。例如,在一些实施方式中,带针对较低频率可能较窄,而针对高频率可能较宽。在本发明的一些实施方式中,带可以重叠。
在图4中通过步骤403示出了向每个声道应用滤波器组以生成针对每个声道的带。
分隔器和加窗器305接收每个声道带采样值,并且将声道的每个带分量的采样划分为采样值的块(另外称为帧)。从分隔器和加窗器向单音块编码器307输出这些块或者帧。
在本发明的一些实施方式中,块或者帧在时间上重叠。在这些实施方式中,可以应用加窗函数,以使得具有相邻块或者帧的任何重叠部分合计值为1。
图8示出了加窗函数的一个示例,并且可以根据以下公式来数学地描述。
win _ tmp = [ sin ( 2 π 1 2 + k wtl - π 2 ) + 1 ] / 2 , k = 0 , . . . , wtl - 1
win ( k ) = 0 , k = 0 , . . . , zl win _ tmp ( k - ( zl + 1 ) ) , k = zl + 1 , . . . , zl + wtl 1 , k = zl + wtl , . . . , wl / 2 1 , wl / 2 + 1 , . . . , wl / 2 + ol win _ tmp ( wl - zl - 1 - ( k - ( wl / 2 + ol + 1 ) ) ) , k = wl / 2 + ol + 1 , . . . , wl - zl - 1 0 , k = wl - zl , . . . , wl - 1
其中wtl是窗的正弦部分的长度,zl是窗中的前导零的长度,而ol是窗中间的1的长度的一半。为了使加窗重叠合计为1,以下等式必须成立:
zl + wtl + ol = length ( win ) 2 zl = ol
加窗由此使得帧或者块之间的任何重叠能够在加和到一起时等于1。另外,加窗使得能够执行后续处理,其中存在块之间的平滑过渡。
然而,在本发明的一些实施方式中,不对采样应用加窗,并且分隔器仅将采样划分为块或者帧。
在本发明的其他实施方式中,可以在应用滤波器组之前向信号应用分隔器和加窗器。换言之,可以在滤波器组301之前采用分隔器和加窗器305,以使得初始对输入声道信号进行分隔和加窗,并且继而在进行分隔和加窗之后,将其馈送至滤波器组,以生成信号的B个带的序列。
在图4中通过步骤405示出了向每个声道的每个带应用分隔和加窗以生成带块的步骤。
向单音块编码器307传送带块。单块编码器从N个声道生成较小数目的下混频声道N’。在下文描述的示例中,N’的值是1,然而,在本发明的实施方式中,编码器104可以生成不止一个下混频声道。在此类实施方式中,实现将N个声道划分为N’个组的相似声道的附加步骤,并且继而针对声道组中的每个组,可以执行以下过程以产生针对每个声道组的单个单音下混频信号。可以通过将针对用于声道的带的至少一个的声道与相似值进行比较来实现相似声道的选择。然而,在其他实施方式中,可以通过任何方便的方式来实现将声道分组为N’个声道组。
初始将声道(或者针对特定组的声道)的带的块(帧)分组为带块。换言之,现在根据音频信号发生的频带来划分音频信号,而不是根据声道号来划分。
在图4中通过步骤407示出了分组带块的操作。
每个带块被馈送至针对该带的前导声道选择器309中。由此,针对第一带,将声道的第一带CX 1的所有块输入至带1前导声道选择器3091,并且将声道的第B个带CX B输入至带B前导声道选择器309B。将其他带信号数据传输至图3中未示出的相应的带前导声道选择器,以便辅助示图的理解。
每个带前导声道选择器309选择输入声道音频信号之一作为“前导”声道。在本发明的第一实施方式中,前导声道是固定声道,例如可以选择声道组的第一声道作为前导声道。在本发明的其他实施方式中,前导声道可以是任何声道。可以通过以下方式向解码器108指示该固定声道选择:将信息插入到传输中,或者将信息与音频编码数据流一起编码,或者在本发明的一些实施方式中,可以将信息预先确定或者硬接线至编码器/解码器因此让二者得知,而无需在编码-解码过程中明确地用信号传送该信息。
在本发明的其他实施方式中,带前导声道选择器309对前导声道的选择是动态的,并且可以根据预定义标准逐块或者逐帧地选择。例如,前导声道选择器309可以选择具有最高能量的声道作为前导声道。在其他实施方式中,前导声道选择器可以根据心理声学建模标准来选择声道。在本发明的其他实施方式中,前导声道选择器309可以通过选择在与组中的所有其他声道比较时平均具有最小延迟的声道来选择前导声道。换言之,前导声道选择器可以选择具有组中所有声道的最平均特性的声道。
前导声道可以由
Figure BPA00001331515000141
来表示。
在本发明的一些实施方式中,例如,在仅存在两个声道的实施方式中,选择“虚拟”或者“虚构”声道作为前导声道可能更加有效。虚拟或者虚构前导声道不是从麦克风生成的声道或者接收的声道,而是视为这样的另一声道,其延迟平均是两个声道之间的一半,或者所有声道的平均,并且可以视为幅值为0。
在图4中通过步骤409示出了选择针对每个带块的前导声道的操作。
另外,将每个带块传送至带估计器311,以使得如图3所示,将声道组第一带音频信号数据传送至带1估计器3111,而将声道组第B带音频信号数据传送至带B估计器311B
针对每个带块声道音频信号的带估计器311计算或者确定所选择的前导声道(其可以是声道或者虚构声道)与其他声道之间的差异。在所选择的前导声道与其他声道之间所计算的差异的示例包括声道之间的延迟ΔT以及声道之间的能量水平ΔE。
图6的部分(a)示出了所选择的前导声道601与另一声道602之间的延迟的计算或者确定,如ΔT1和ΔT2所示。
所选择的前导声道C1 601与另一声道C2 602之间的帧的开始之间的延迟示为ΔT1,而所选择的前导声道C1 601与另一声道C2 602之间的帧的结尾之间的延迟示为ΔT2
在本发明的一些实施方式中,延迟时段ΔT1和ΔT2的确定/计算可以通过以下来生成:执行第一声道C1 601与第二声道C2 602的帧的开始的采样值的窗之间的相关,并且标记具有最高相关值的相关延迟。在本发明的其他实施方式中,延迟时段的确定可以在频域中实现。
在本发明的其他实施方式中,通过比较每个声道频率块以及跨单个帧的时域或者频域声道值来确定声道之间的能量差异。
在本发明的其他实施方式中,可以确定所选择的前导声道与其他声道之间的差异的其他测量。
在图4中通过步骤411示出了计算前导声道与其他带声道箱之间的差异。
通过步骤411a示出了确定所选择的前导声道与至少一个其他声道之间的差异(在图5所示的示例中是延迟)这一操作。
将带估计器311的输出传送至带单音下混频器313的输入。带单音下混频器313接收带差异值(例如针对该帧的声道(例如声道组)的带音频信号和延迟差异),并且生成针对带和帧的单音下混频信号。
这在图4中由步骤415示出,并且参考图5、图6和图7进行更加详细的描述。
带单音下混频器313通过组合来自针对带和帧的声道中每一个的值来生成针对每个带的单音下混频信号。由此,带1单音下混频器3131接收带1声道和带1估计值,并且产生带1单音下混频信号。类似地,带B单音下混频器313B接收带B声道和带B估计差值,并且产生带B单音下混频信号。
在以下示例中,针对带1声道分量和差值生成单音下混频声道信号。然而,可以理解,以下方法可以在带单音下混频器313中实现,以产生任何下混频信号。另外,以下示例描述了迭代过程,以生成针对声道的下混频信号,然而,本领域技术人员可以理解,可以使用并行操作或者结构,其中每个声道基本上同时处理,而不是每个声道单独进行。
相关于针对特定其他声道的带和帧信息的单音下混频器使用来自带估计器311的延迟信息ΔT1和ΔT2,以选择将要与前导声道采样组合的其他声道的采样。
换言之,单音下混频器选择反映前导声道与当前正在处理的其他声道之间的延迟的延迟线之间的采样。
在本发明的一些实施方式中,诸如在非加窗实施方式或者加窗重叠较小的实施方式中,可以选择来自相邻帧的采样以维持信号一致性并且减小失真(artefact)生成的可能性。在本发明的一些实施方式中,例如其中延迟超过帧采样限制并且不可能使用来自相邻帧的信息的实施方式中,单音下混频器313可以插入零样本采样。
在图5中,通过步骤501示出了选择延迟线之间的采样的操作。
单音下混频器313继而伸展所选择的采样以适应当前帧大小。可以理解,通过根据延迟值ΔT1和ΔT2选择来自当前其他声道的采样,所选择的当前其他声道中可能存在比前导声道带帧中的采样数目更少或者更多的采样。
由此,例如,其中在对当前其他声道应用延迟线之后在其他声道中存在R个采样,并且在前导声道帧中存在S个采样,则需要对采样的数目进行对齐,以便允许采样值的简单组合下混频。
在本发明的第一实施方式中,通过利用S因子对信号进行第一上采样,利用适当的低通或者全通滤波器对上采样的信号进行滤波,并且继而利用R因子对滤波结果进行下采样,从而伸展R个采样长度信号,以形成S个采样。
该操作可以在图7中示出,其中针对该示例,所选择的前导声道帧中的采样的数目是3,S=3,并且当前其他声道中的采样的数目是4,R=4。图7(a)示出了其他声道采样701、703、705和707,以及引入的上采样值。在图7(a)的示例中,在每个所选择的前导声道帧采样之后,插入另外两个零值采样。由此,在采样701之后,存在插入的零值采样709和711,在采样703之后,插入零值采样713和715,在采样705之后,插入零值采样717和719,在707之后,插入零值采样721和723。
图7(b)示出了对所选择并且上采样添加的采样进行低通滤波的结果,以使得添加的采样现在遵循所选择的前导声道采样的波形。
在图7(c)中,通过因子R对信号进行下采样,其中在该示例中,R=4。换言之,从第一采样以及继而每隔四个采样形成下采样的信号。换言之,选择第一、第五和第九采样并且去除其他采样。
所产生的信号现在具有将要与所选择的声道带帧采样相组合的正确的采样数目。
在本发明的其他实施方式中,信号的伸展可以通过在当前其他声道采样之间线性或者非线性地进行插值来实现。在本发明的其他实施方式中,可以使用上述两种方法的组合。在该混合实施方式中,通过小于S的因子对来自延迟线内当前其他声道的采样进行第一上采样,对上采样的采样值进行低通滤波以便使引入的采样值遵循当前其他声道采样,并且通过插值选择新的点。
在图5的步骤503中示出了伸展当前其他声道的采样以与前导声道的帧大小相匹配。
单音下混频器313继而将经伸展的采样添加至当前累加总值,以生成新累加总值。在第一次迭代中,将当前累加总值定义为前导声道采样值,而针对每次其他后续迭代,当前累加总值是先前迭代新累加总值。
在图5中通过步骤505示出了生成新累加总值。
带单音下混频器313继而确定是否已经处理了所有的其他声道。该确定步骤在图5中示为步骤507。如果已经处理了所有的其他声道,则操作通过关键步骤509,否则操作以另一其他声道开始新的迭代以进行再处理,换言之,操作返回步骤501。
当已经处理了所有声道时,带单音下混频器313继而重新缩放累加采样值以生成每带值的平均采样值。换言之,带单音下混频器313将累加总值中的每个采样值除以声道的数目,以产生带单音下混频信号。重新缩放累加总值的操作在图5中由步骤509示出。
每个带单音下混频器生成其自身的单音下混频信号。由此,如图3所示,带1单音下混频器3131产生带1单音下混频信号M1(i),而带B单音下混频器303B产生带B单音下混频信号MB(i)。将单音下混频信号传送至单音块315。
图6(b)和图6(c)中示出了针对两个声道系统中的真实和虚拟选择声道生成单音下混频信号的示例。
在图6(b)中,对两个声道C1和C2进行下混频以形成单音声道M。在所选择的前导声道中(在图6(b)中是C1声道),示出了其中的一个带帧603。其他声道C2605针对相关联的带帧具有延迟值ΔT1和ΔT2
按照以上示出的方法,带下混频器313将选择由ΔT1和ΔT2生成的两个延迟线之间的带帧的部分。带下混频器继而将伸展所选择的帧采样以与C1的帧大小相匹配。继而将针对C2的帧的伸展选择部分添加到帧C1。在图6(b)所示的示例中,在添加帧之前实现缩放。换言之,在将帧值相加到一起之前,带下混频器将每个帧的值除以声道数目,其在该示例中是2。
参考图6(c),示出了带单音下混频器的操作的示例,其中所选择的前导声道是虚拟或者虚构前导声道。在该示例中,带帧虚拟声道具有延迟,该延迟是该示例的两个正常声道的带帧(第一声道C1带帧607和第二声道C2的相关联带帧609)的一半。
在该示例中,单音下混频器313选择位于由+veΔT1/2651和ΔT2/2657生成的延迟线内的第一声道C1帧的帧采样,并且选择位于由-veΔT1/2653和-veΔT2/2655生成的延迟线之间的第二声道C2的帧采样。
单音下混频器313继而根据虚构或者虚拟前导声道之间的差异而将第一声道C1伸展负量(收缩),并且对经收缩的第一声道C1值进行重新缩放,在该示例中,这意味着单音下混频器313将经收缩的值除以2。单音下混频器313对于第二声道C2 609类似地实现相似的过程,其中对帧采样进行伸展并且除以2。单音下混频器313继而将修改的声道值进行组合以形成下混频的单音声道带帧611。
单音块315从每个带单音下混频器313接收单音下混频带帧信号,并且针对每个声道生成单个单音块信号。
可以通过将来自每个单音下混频音频信号的采样相加到一起来生成下混频单音块信号。在本发明的一些实施方式中,加权因子可以与每个带相关联,并且将其应用到每个带单音下混频音频信号,以产生具有带加强或者均衡的单音信号。
在图4中通过步骤417示出了组合带下混频信号以形成单个帧下混频信号的操作。
单音块315继而可以将帧单音块音频信号输出至块处理器317。块处理器317接收单音块315生成的、针对特定帧的所有频带的单音下混频信号,并且将帧进行组合以产生音频下混频信号。
在图4中通过步骤419示出了组合信号的块的可选操作。
在本发明的一些实施方式中,块处理器317不组合块/帧。
在本发明的一些实施方式中,块处理器317另外使用已知的音频编解码器对每个帧或者组合的帧单音下混频信号的一部分执行音频编码过程。
可以在本发明的实施方式中应用的音频编解码器过程的示例包括:MPEG-2AAC,也称为ISO/IEC 13818-7:1997;或者MPEG-1层III(mp3),也称为ISO/IEC 11172-3。然而,可以使用任何适合的音频编解码器来编码单音下混频信号。
本领域技术人员可以理解,根据重叠窗、非重叠窗或者信号的分隔的实现,可以按照不同的方式来编码单音声道。参考图9,示出了以下示例:具有重叠窗的单音声道图9(a)901,具有非重叠窗的单音声道图9(b)903,以及存在没有任何加窗或者重叠的信号的分隔的单音声道图9(c)905。
在本发明的实施方式中,当相邻帧之间不存在重叠时(如图9(c)所示),或者当窗中的重叠合计为1时(例如通过使用图8所示的窗函数),可以通过利用标准常规的单音音频编解码器编码单音声道来实现编码,并且可以将产生的编码值传送至复用器319。
然而,在本发明的其他实施方式中,当单音声道具有非重叠窗时(如图9(b)所示),或者当使用具有重叠窗的单音声道但是值相加不为1的时候,将帧彼此相继地放置以使得不存在重叠。在一些实施方式中,这由此生成较好质量的信号编码,因为不存在信号与不同延迟的混合。然而,应当注意,这些实施方式将创建要进行编码的更多采样。
继而将音频单音编码信号传送至复用器319。
在图4中通过步骤421示出了编码单音声道的操作。
另外,量化器321接收针对描述所选择的前导声道与其他声道之间的差异的每个带的每个块(帧)的差值,并且对差异执行量化以生成量化的差异输出,其被传送至复用器319。在本发明的一些实施方式中,也可以对量化信号实现可变长度编码,其还可以辅助检错或者纠错过程。
在图4中通过步骤413示出了实现不同值的量化的操作。
复用器319接收编码单音声道信号以及经量化和编码的不同信号,并且对信号进行复用以形成编码音频信号比特流112。
在图4中通过步骤423示出了信号的复用以形成比特流。
可以理解,通过对差异(例如强度和时间差异二者)进行编码,来自下混频声道的多声道成像效应比简单的强度差异以及先前使用的下混频声道方法更加显著,并且比所使用的非下混频多声道编码方法更加有效地进行编码。
参考图12和图13,示出了根据本发明的实施方式的解码器。相关于图14所示的流程图进一步描述此类解码器的操作。解码器108包括解复用器和解码器1201,其接收经编码的信号。解复用器和解码器1201可以从编码比特流112中分离单音编码音频信号(或者在编码不止一个单音声道的实施方式中是单音编码音频信号)和量化差值(例如所选择的前导声道之间的时间延迟以及强度差异分量)。
虽然所示出和描述的本发明的实施方式仅具有单个单音音频流,但是可以理解,可以采用下文描述的装置和过程来生成不止一个下混频音频声道-其中针对每个下混频(或者单音)音频声道独立地采用下文描述的操作。
在图14中通过步骤1401示出了比特流的接收和解复用。
继而解复用器和解码器1201可以使用来自编码器104内使用的编解码器的解码器算法部分来解码单音声道音频信号。
在图14中,通过步骤1403示出了解码信号的编码单音部分,以生成解码单音声道信号估计。
继而将解码单音或者下混频声道信号传送至滤波器组1203。
接收单音(下混频)声道音频信号的滤波器组1203使用滤波器组1203来执行滤波,以生成或者将单音信号分离成与在编码器内使用的频带等效的频带。
由此,滤波器组1203输出B个带,即下混频信号
Figure BPA00001331515000212
Figure BPA00001331515000213
继而将这些下混频信号频带分量传送至帧格式化器1205。
在图14中通过步骤1405示出了将下混频音频信号滤波为带。
帧格式化器1205从滤波器组1203接收带划分下混频音频信号,并且进一步根据帧,执行帧格式化过程,将划分为带的单音音频信号进行划分。帧划分在长度上通常与编码器中采用的相似。在本发明的一些实施方式中,帧格式化器就帧开始指示符(其可能已经在编码器中被插入到比特流中)来检查下混频音频信号,并且使用帧指示符将带划分下混频音频信号划分为帧。在本发明的其他实施方式中,帧格式化器1205可以通过采样的数目进行计数并且当已经到达预定采样数目时选择新的帧来将音频信号划分为帧。
将下混频带的帧传送至声道合成器1207。
在图14中通过步骤1407示出了将带分成帧的操作。
声道合成器1207可以从帧格式化器接收下混频音频信号的帧,并且另外从解复用器和解码器1201接收差异数据(延迟和强度差值)。
声道合成器1207可以针对根据下混频音频声道的帧以及差异数据而重构的每个声道来合成帧。在图13中,更详细地示出了声道合成器的操作。
如图13所示,声道合成器1207包括采样重新伸展器1303,其接收针对每个带以及差异信息的下混频音频信号的帧,该差异信息例如可以是时间延迟ΔT和强度差异ΔE。
采样重伸展器1303根据延迟信息,通过采样重新缩放或者“重新伸展”下混频音频信号来重新生成原始声道带帧的近似值。该过程可以视为类似于在编码器内实现的用于在编码期间伸展采样的过程,但是按照相反顺序使用因子。由此,使用图7所示的示例,其中在编码器中,将所选择的4个采样伸展至3个采样,而在解码器中,将来自解码器帧的3个采样重新伸展为形成4个采样。在本发明的实施方式中,这可以通过插值或者通过添加附加采样值并且滤波,以及继而在需要时丢弃采样,或者通过以上的组合来实现。
在本发明的实施方式中,其中存在前导和尾部窗采样,延迟通常将不会延伸通过窗区域。例如,在44.1千赫采样系统中,延迟通常在-25到+25个采样之间。在本发明的一些实施方式中,当采样选择器用于选择延伸超过当前帧或者窗的采样时,采样选择器提供附加零值采样。
重新伸展器1303的输出由此针对每个合成的声道(1到N)产生表示频率块(1到B)的采样值的帧。继而将每个合成的声道频率块帧输入到带组合器1305。
重新伸展器的操作的示例可以在图10中示出。图10示出了下混频音频声道频带帧1001的帧。如图10所示,将下混频音频声道频带帧1001在不进行修改的情况下复制到第一声道频带帧1003。换言之,第一声道C1是编码器中所选择的前导声道,并且由此具有为0的ΔT1和ΔT2值。
重新伸展器从非零ΔT1和ΔT2值重新伸展下混频音频声道频带帧1001的帧,以形成第二声道C2频带帧1005的帧。
在图14中通过步骤1411示出了根据延迟值来重新伸展所选择的采样的操作。
带组合器1305接收重新伸展的下混频音频声道频带帧,并且组合所有的频带,以便产生针对第一声道的估计声道值直到针对第N个合成声道的估计声道值
Figure BPA00001331515000232
在本发明的一些实施方式中,根据缩放因子来修改每个频带内的采样值,以均衡编码器中应用的加权因子。换言之,均衡在编码过程期间设置的重点。
在图14中通过步骤1413示出了组合针对每个合成声道帧的频带的操作。
另外,将每个声道帧的输出传送至水平调节器1307。水平调节器1307根据差异强度值ΔE而向该值应用增益,以使得针对每个声道的输出水平与针对原始声道的每个帧的能量水平近似相同。
在图14中通过步骤1415示出了调节针对每个合成声道帧的水平(应用增益)。
另外,将每个水平调节器1307的输出输入到帧重新组合器1309。帧重新组合器组合针对每个声道的每个帧,以便产生针对每个合成声道的一致输出比特流。
图11示出了帧组合的两个示例。在第一示例1101中,存在具有重叠窗的声道要进行组合,而在1103中,存在具有非重叠窗的声道要进行组合。可以通过简单地将重叠加和到一起来生成这些值以产生估计声道音频信号。通过声道合成器1207来输出该估计声道信号。
在本发明的一些实施方式中,在合成帧上实现的延迟可能在相邻帧之间突然改变,并且导致失真,其中采样值的组合也会突然改变。在本发明的一些实施方式中,帧重新组合器1309还包括中值滤波器,以辅助防止在组合的信号采样值中出现失真。在本发明的其他实施方式中,可以采用其他滤波配置,或者可以使用信号插值来防止失真。
在图14中通过步骤1417示出了对帧进行组合以生成声道比特流。
上文描述的本发明的实施方式在单独的编码器104和解码器108装置的方面描述了编解码器,以便辅助所涉及的过程的理解。然而,可以理解,装置、结构和操作可以实现为单个编码器-解码器装置/结构/操作。另外,在本发明的一些实施方式中,编码器和解码器可以共享某些和/或全部的相同元件。
虽然上述示例描述了在电子设备610内的编解码器内操作的本发明的实施方式,但是可以理解,以下描述的本发明可以实现为任何可变速率/自适应速率音频(或者语音)编解码器的一部分。由此,例如,本发明的实施方式可以在音频编解码器中实现,该音频编解码器可以实现固定或者有线通信路径上的音频编码。
由此,用户设备可以包括音频编解码器,诸如本发明的以上实施方式所述的那些。
应当理解,术语用户设备旨在覆盖任何类型的无线用户设备,诸如移动电话、便携式数据处理设备或者便携式web浏览器。
另外,公共陆地移动网络(PLMN)的元件也可以包括上文所述的音频编解码器。
一般而言,本发明的各种实施方式可以在硬件或者专用电路、软件、逻辑或者其任意组合中实现。例如,某些方面可以在硬件中实现,而其他方面可以在固件或者软件中实现,固件或者软件可以由控制器、微处理器或者其他计算设备执行,但是本发明不限于此。虽然可以将本发明的各个方面示出和描述为框图、流程图,或者使用某些其他图形表示,但是可以理解,作为非限制性的示例,本文描述的这些框、装置、系统、技术或者方法可以在硬件、软件、固件、专用电路或者逻辑、通用硬件或者控制器或者其他计算设备或者其某些组合中实现。
本发明的实施方式可以由移动设备的数据处理器(诸如在处理器实体中)可执行的计算机软件或者硬件,或者由软件和硬件的组合来实现。另外,在此方面,应当理解,图中所示的逻辑流程的任何框可以表示程序步骤或者互连的逻辑电路、框和功能,或者程序步骤与逻辑电路、框和功能的组合。
存储器可以是适于本地技术环境的任何类型,并且可以使用任何适当的数据存储技术来实现,诸如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器和可移动存储器。数据处理器可以是适于本地技术环境的任何类型,并且作为非限制性的示例,可以包括以下中的一个或多个:通用计算机、专用计算机、微处理器、数字信号处理器(DSP)和基于多核处理器架构的处理器。
本发明的实施方式可以在各种组件中实践,诸如集成电路模块。集成电路的设计大体上是高度自动化的过程。复杂和强大的软件工具可用于将逻辑水平设计转换为准备进行刻蚀并且在半导体衬底上形成的半导体电路设计。
诸如加利福尼亚山景城的Synopsys公司以及加利福尼亚圣何塞的Cadence Design提供的程序使用建立好的设计规则以及预先存储的设计模块库自动地对导体进行布线,以及在半导体芯片上定位组件。一旦已经完成用于半导体电路的设计,可以将所产生的标准化电子格式(例如,Opus、GDSII等)的设计传输至半导体制造厂或者用于制造的“芯片厂”。
以上描述已经通过示例性和非限制性示例的方式提供了本发明的示例性实施方式的全面和有益描述。然而,当结合附图和所附权利要求进行阅读时,考虑以上描述,各种修改和调整可能对本领域技术人员变得易见。然而,本发明的教导的所有此类和相似修改仍然落入所附权利要求限定的本发明的范围内。

Claims (40)

1.一种装置,配置用于:
确定第一信号与第二信号之间的至少一个时间延迟;
根据所述至少一个时间延迟从所述第二信号生成第三信号;以及
将所述第一信号与所述第三信号组合以生成第四信号。
2.根据权利要求1所述的装置,进一步配置用于使用以下至少一个来编码所述第四信号:
MPEG-2AAC,以及
MPEG-1层III(mp3)。
3.根据权利要求1到2所述的装置,进一步配置用于将所述第一信号和所述第二信号划分为多个频带,并且其中针对每个频带确定至少一个时间延迟。
4.根据权利要求1到3所述的装置,进一步配置用于将所述第一信号和所述第二信号划分为多个时间帧,并且其中针对每个时间帧确定至少一个时间延迟。
5.根据权利要求4所述的装置,进一步配置用于将所述第一信号和所述第二信号划分为以下中的至少一个:
多个非重叠时间帧;
多个重叠时间帧;以及
多个加窗重叠时间帧。
6.根据权利要求4和5所述的装置,进一步配置用于:针对每个时间帧确定与所述第一信号的时间帧的开始相关联的第一时间延迟,以及与所述第一信号的时间帧的末尾相关联的第二时间延迟。
7.根据权利要求6所述的装置,其中第一帧和第二帧包括多个采样,并且所述装置进一步配置用于:
在定义为开始于时间帧的开始与所述第一时间延迟的组合处,并且结束于时间帧的末尾与所述第二时间延迟的组合处的块中,从所述第二信号中选择至少一个采样;以及
将所选择的至少一个采样伸展为等于所述第一帧的采样的数目。
8.根据权利要求1到7所述的装置,进一步配置用于通过以下来确定至少一个时间延迟:
针对所述第一信号与所述第二信号相关生成相关值;以及
选择具有最高相关值的时间值。
9.根据权利要求1到8所述的装置,进一步配置用于生成第五信号,其中所述第五信号包括以下中的至少一个:
至少一个时间延迟值;以及
所述第一信号与所述第二信号之间的能量差。
10.根据权利要求9所述的装置,进一步配置用于将所述第五信号与所述第四信号复用以生成编码音频信号。
11.一种装置,配置用于:
将第一信号划分为至少第一部分和第二部分;
解码所述第一部分以形成第一声道音频信号;以及
从根据第二部分修改的所述第一声道音频信号生成第二声道音频信号,其中所述第二部分包括时间延迟值,并且所述装置配置用于根据对所述第一声道音频信号的时间延迟值、通过应用至少一个时移来生成所述第二声道音频信号。
12.根据权利要求11所述的装置,其中所述第二部分还包括能量差值,并且其中所述装置进一步配置用于通过根据所述能量差值向所述第一声道音频信号应用增益来生成所述第二声道音频信号。
13.根据权利要求11和12所述的装置,进一步配置用于将所述第一声道音频信号划分为至少两个频带,其中所述第二声道音频信号的生成通过修改所述第一声道音频信号的每个频带。
14.根据权利要求11到13所述的装置,其中所述第二部分包括至少一个第一时间延迟值和至少一个第二时间延迟值,所述第一声道音频信号包括从帧开始时间的第一采样到帧结束时间的末尾采样定义的至少一个帧,并且所述装置进一步配置用于:
在由所述第一声道音频信号的帧开始时间和第一时间延迟值所定义的时刻,将所述第一声道音频信号帧的第一采样复制到所述第二声道音频信号;以及
在所述第一声道音频信号的帧结束时间和第二时间延迟值定义的时刻,将所述第一声道音频信号的末尾采样复制到所述第二声道音频信号。
15.根据权利要求14所述的装置,进一步配置用于复制第一采样时刻与末尾采样时刻之间的任何其他第一声道音频信号帧采样。
16.根据权利要求15所述的装置,进一步配置用于重新采样所述第二声道音频信号以与所述第一声道音频信号同步。
17.一种电子设备,包括如权利要求1到16所述的装置。
18.一种芯片集,包括如权利要求1到16所述的装置。
19.一种编码器,包括如权利要求1到10所述的装置。
20.一种解码器,包括如权利要求11到16所述的装置。
21.一种方法,包括:
确定第一信号与第二信号之间的至少一个时间延迟;
根据所述至少一个时间延迟、从所述第二信号生成第三信号;以及
组合所述第一信号和所述第三信号以生成第四信号。
22.根据权利要求21所述的方法,进一步包括使用以下至少一个来编码第四信号:
MPEG-2AAC,以及
MPEG-1层III(mp3)。
23.根据权利要求21到22所述的方法,进一步包括:将所述第一信号和所述第二信号划分为多个频带,并且针对每个频带确定至少一个时间延迟。
24.根据权利要求21到23所述的方法,进一步包括:将所述第一信号和所述第二信号划分为多个时间帧,并且针对每个时间帧确定至少一个时间延迟。
25.根据权利要求24所述的方法,进一步包括:将所述第一信号和所述第二信号划分为以下中的至少一个:
多个非重叠时间帧;
多个重叠时间帧;以及
多个加窗重叠时间帧。
26.根据权利要求24和25所述的方法,进一步包括:针对每个时间帧确定与所述第一信号的时间帧的开始相关联的第一时间延迟以及与所述第一信号的时间帧的末尾相关联的第二时间延迟。
27.根据权利要求26所述的方法,其中第一帧和第二帧包括多个采样,并且所述方法进一步包括:
在定义为开始于时间帧的开始与所述第一时间延迟的组合处,并且结束于时间帧的末尾与所述第二时间延迟的组合处的块中,从所述第二信号中选择至少一个采样;以及
将所选择的至少一个采样伸展为等于所述第一帧的采样的数目。
28.根据权利要求21到27所述的方法,其中确定所述至少一个时间延迟包括:
针对所述第一信号与所述第二信号相关生成相关值;以及
选择具有最高相关值的时间值。
29.根据权利要求21到28所述的方法,进一步包括生成第五信号,其中所述第五信号包括以下中的至少一个:
至少一个时间延迟值;以及
所述第一信号与所述第二信号之间的能量差。
30.根据权利要求29所述的方法,进一步包括:
将所述第五信号与所述第四信号复用以生成编码音频信号。
31.一种方法,包括:
将第一信号划分为至少第一部分和第二部分;
解码所述第一部分以形成第一声道音频信号;以及
从根据所述第二部分修改的第一声道音频信号生成第二声道音频信号,其中所述第二部分包括时间延迟值,并且其中通过应用至少一个时移来生成所述第二声道音频信号取决于对所述第一声道音频信号的时间延迟值。
32.根据权利要求31所述的方法,其中所述第二部分还包括能量差值,并且其中所述方法进一步包括:通过根据所述能量差值向所述第一声道音频信号应用增益来生成所述第二声道音频信号。
33.根据权利要求31和32所述的方法,进一步包括:将所述第一声道音频信号划分为至少两个频带,其中生成所述第二声道音频信号包括修改所述第一声道音频信号的每个频带。
34.根据权利要求31到33所述的方法,其中所述第二部分包括至少一个第一时间延迟值和至少一个第二时间延迟值,所述第一声道音频信号包括从帧开始时间的第一采样到帧结束时间的末尾采样定义的至少一个帧,并且所述方法进一步包括:
在由所述第一声道音频信号的帧开始时间和第一时间延迟值所定义的时刻,将所述第一声道音频信号帧的第一采样复制到所述第二声道音频信号;以及
在所述第一声道音频信号的帧结束时间和第二时间延迟值定义的时刻,将所述第一声道音频信号的末尾采样复制到所述第二声道音频信号。
35.根据权利要求34所述的方法,进一步包括:复制第一采样时刻与末尾采样时刻之间的任何其他第一声道音频信号帧采样。
36.根据权利要求35所述的方法,进一步包括:重新采样所述第二声道音频信号以与所述第一声道音频信号同步。
37.一种计算机程序产品,配置用于执行包括以下的方法:
确定第一信号与第二信号之间的至少一个时间延迟;
根据至少一个时间延迟从所述第二信号生成第三信号;以及
组合所述第一信号和所述第三信号以生成第四信号。
38.一种计算机程序产品,配置用于执行包括以下的方法:
将第一信号划分为至少第一部分和第二部分;
解码所述第一部分以形成第一声道音频信号;以及
从根据所述第二部分修改的所述第一声道音频信号生成第二声道音频信号,其中所述第二部分包括时间延迟值;并且其中通过应用至少一个时移来生成所述第二声道音频信号取决于对所述第一声道音频信号的时间延迟值。
39.一种装置,包括:
处理装置,用于确定第一信号与第二信号之间的至少一个时间延迟;
信号处理装置,用于根据所述至少一个时间延迟从所述第二信号生成第三信号;以及
组合装置,用于组合所述第一信号和所述第三信号以生成第四信号。
40.一种装置,包括:
处理装置,用于将第一信号划分为至少第一部分和第二部分;
解码装置,用于解码第一部分以形成第一声道音频信号;以及
信号处理装置,用于从根据所述第二部分修改的所述第一声道音频信号生成第二声道音频信号,其中所述第二部分包括时间延迟值;并且其中所述信号处理装置配置用于根据对所述第一声道音频信号的时间延迟值、通过应用至少一个时移来生成所述第二声道音频信号。
CN2008801312323A 2008-08-11 2008-08-11 多声道音频编码器和解码器 Active CN102160113B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2008/060536 WO2010017833A1 (en) 2008-08-11 2008-08-11 Multichannel audio coder and decoder

Publications (2)

Publication Number Publication Date
CN102160113A true CN102160113A (zh) 2011-08-17
CN102160113B CN102160113B (zh) 2013-05-08

Family

ID=40419209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008801312323A Active CN102160113B (zh) 2008-08-11 2008-08-11 多声道音频编码器和解码器

Country Status (4)

Country Link
US (1) US8817992B2 (zh)
EP (1) EP2313886B1 (zh)
CN (1) CN102160113B (zh)
WO (1) WO2010017833A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106973355A (zh) * 2016-01-14 2017-07-21 腾讯科技(深圳)有限公司 环绕立体声实现方法和装置
CN107534820A (zh) * 2015-03-04 2018-01-02 弗劳恩霍夫应用研究促进协会 用于驱动动态压缩器的装置和方法以及用于确定动态压缩器的放大值的方法
CN107533845A (zh) * 2015-02-02 2018-01-02 弗劳恩霍夫应用研究促进协会 用于处理编码音频信号的装置和方法
CN108431890A (zh) * 2015-12-18 2018-08-21 高通股份有限公司 多音频信号的编码
CN108701464A (zh) * 2016-02-12 2018-10-23 高通股份有限公司 多个音频信号的编码
CN109166570A (zh) * 2018-07-24 2019-01-08 百度在线网络技术(北京)有限公司 一种语音切分的方法、装置、设备和计算机存储介质
WO2019037710A1 (zh) * 2017-08-23 2019-02-28 华为技术有限公司 立体声信号编码时重建信号的方法和装置
CN110462732A (zh) * 2017-03-20 2019-11-15 高通股份有限公司 目标样本产生

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2395504B1 (en) * 2009-02-13 2013-09-18 Huawei Technologies Co., Ltd. Stereo encoding method and apparatus
US8730798B2 (en) * 2009-05-05 2014-05-20 Broadcom Corporation Transmitter channel throughput in an information network
US9055371B2 (en) 2010-11-19 2015-06-09 Nokia Technologies Oy Controllable playback system offering hierarchical playback options
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
US9456289B2 (en) 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
CN108810744A (zh) 2012-04-05 2018-11-13 诺基亚技术有限公司 柔性的空间音频捕捉设备
WO2014162171A1 (en) 2013-04-04 2014-10-09 Nokia Corporation Visual audio processing apparatus
WO2014184618A1 (en) 2013-05-17 2014-11-20 Nokia Corporation Spatial object oriented audio apparatus
CN105206278A (zh) * 2014-06-23 2015-12-30 张军 一种基于流水线的三维音频编码加速方法
US9916836B2 (en) * 2015-03-23 2018-03-13 Microsoft Technology Licensing, Llc Replacing an encoded audio output signal
US10152977B2 (en) 2015-11-20 2018-12-11 Qualcomm Incorporated Encoding of multiple audio signals
US10074373B2 (en) * 2015-12-21 2018-09-11 Qualcomm Incorporated Channel adjustment for inter-frame temporal shift variations
JP2018110362A (ja) * 2017-01-06 2018-07-12 ローム株式会社 オーディオ信号処理回路、それを用いた車載オーディオシステム、オーディオコンポーネント装置、電子機器、オーディオ信号処理方法
US10872611B2 (en) * 2017-09-12 2020-12-22 Qualcomm Incorporated Selecting channel adjustment method for inter-frame temporal shift variations
US10790920B2 (en) * 2018-12-21 2020-09-29 Kratos Integral Holdings, Llc System and method for processing signals using feed forward carrier and timing recovery
IL308837A (en) 2021-05-24 2024-01-01 Kratos Integral Holdings Llc Systems and methods after identifying a combination of a plurality of DOWNLINK signals representing a communication signal

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
CN101120615A (zh) * 2005-02-22 2008-02-06 弗劳恩霍夫应用研究促进协会 近透明或透明的多声道编码器/解码器方案

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3920104B2 (ja) 2002-02-05 2007-05-30 松下電器産業株式会社 インテンシティステレオ符号化のための位相検出方法および装置
FI118370B (fi) * 2002-11-22 2007-10-15 Nokia Corp Stereolaajennusverkon ulostulon ekvalisointi
DE602004002390T2 (de) 2003-02-11 2007-09-06 Koninklijke Philips Electronics N.V. Audiocodierung
RU2392671C2 (ru) 2004-04-05 2010-06-20 Конинклейке Филипс Электроникс Н.В. Способы и устройства для кодирования и декодирования стереосигнала
DE602005011439D1 (de) 2004-06-21 2009-01-15 Koninkl Philips Electronics Nv Verfahren und vorrichtung zum kodieren und dekodieren von mehrkanaltonsignalen
US7797162B2 (en) 2004-12-28 2010-09-14 Panasonic Corporation Audio encoding device and audio encoding method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
CN101120615A (zh) * 2005-02-22 2008-02-06 弗劳恩霍夫应用研究促进协会 近透明或透明的多声道编码器/解码器方案

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107533845A (zh) * 2015-02-02 2018-01-02 弗劳恩霍夫应用研究促进协会 用于处理编码音频信号的装置和方法
US11004455B2 (en) 2015-02-02 2021-05-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an encoded audio signal
CN107533845B (zh) * 2015-02-02 2020-12-22 弗劳恩霍夫应用研究促进协会 用于处理编码音频信号的装置和方法
CN107534820B (zh) * 2015-03-04 2020-09-11 弗劳恩霍夫应用研究促进协会 用于驱动动态压缩器的装置和方法以及用于确定动态压缩器的放大值的方法
CN107534820A (zh) * 2015-03-04 2018-01-02 弗劳恩霍夫应用研究促进协会 用于驱动动态压缩器的装置和方法以及用于确定动态压缩器的放大值的方法
CN108431890A (zh) * 2015-12-18 2018-08-21 高通股份有限公司 多音频信号的编码
CN108431890B (zh) * 2015-12-18 2020-03-24 高通股份有限公司 多音频信号的编码
CN106973355A (zh) * 2016-01-14 2017-07-21 腾讯科技(深圳)有限公司 环绕立体声实现方法和装置
CN106973355B (zh) * 2016-01-14 2019-07-02 腾讯科技(深圳)有限公司 环绕立体声实现方法和装置
CN108701464A (zh) * 2016-02-12 2018-10-23 高通股份有限公司 多个音频信号的编码
CN110462732A (zh) * 2017-03-20 2019-11-15 高通股份有限公司 目标样本产生
WO2019037710A1 (zh) * 2017-08-23 2019-02-28 华为技术有限公司 立体声信号编码时重建信号的方法和装置
US11361775B2 (en) 2017-08-23 2022-06-14 Huawei Technologies Co., Ltd. Method and apparatus for reconstructing signal during stereo signal encoding
CN109166570B (zh) * 2018-07-24 2019-11-26 百度在线网络技术(北京)有限公司 一种语音切分的方法、装置、设备和计算机存储介质
CN109166570A (zh) * 2018-07-24 2019-01-08 百度在线网络技术(北京)有限公司 一种语音切分的方法、装置、设备和计算机存储介质

Also Published As

Publication number Publication date
US8817992B2 (en) 2014-08-26
WO2010017833A1 (en) 2010-02-18
CN102160113B (zh) 2013-05-08
EP2313886B1 (en) 2019-02-27
EP2313886A1 (en) 2011-04-27
US20120134511A1 (en) 2012-05-31

Similar Documents

Publication Publication Date Title
CN102160113B (zh) 多声道音频编码器和解码器
CN102084418B (zh) 用于调整多通道音频信号的空间线索信息的设备和方法
CN103262159B (zh) 用于对多声道音频信号进行编码/解码的方法和装置
KR101056325B1 (ko) 복수의 파라미터적으로 코딩된 오디오 소스들을 결합하는 장치 및 방법
KR100981699B1 (ko) 오디오 코딩
CN101010725A (zh) 多信道信号编码装置以及多信道信号解码装置
RU2407226C2 (ru) Генерация пространственных сигналов понижающего микширования из параметрических представлений мультиканальных сигналов
CN102169693B (zh) 多信道音频编码
KR101100221B1 (ko) 오디오 신호의 디코딩 방법 및 그 장치
CN103915098B (zh) 音频信号编码器
CN108780649A (zh) 使用宽带对准参数与多个窄带对准参数编码或解码多声道信号的设备及方法
CN101366081A (zh) 双声道音频信号的解码
WO2011029984A1 (en) Method, apparatus and computer program product for audio coding
CN102216983B (zh) 用于编码与信号源相关联的至少一个参数的设备和方法
CN102067210B (zh) 用于对音频信号进行编码和解码的设备和方法
WO2010125228A1 (en) Encoding of multiview audio signals
JPWO2009050896A1 (ja) ストリーム合成装置、復号装置、方法
CN102576531B (zh) 用于处理多信道音频信号的方法、设备
WO2020152394A1 (en) Audio representation and associated rendering
CN101243488A (zh) 用于编码和解码音频信号的装置及其方法
US11159885B2 (en) Optimized audio forwarding
KR20080078907A (ko) 양 귀 오디오 신호들의 복호화 제어
MX2008011994A (es) Generacion de mezclas descendentes espaciales a partir de representaciones parametricas de señales de multicanal.
CN117136406A (zh) 组合空间音频流

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160215

Address after: Espoo, Finland

Patentee after: Technology Co., Ltd. of Nokia

Address before: Espoo, Finland

Patentee before: Nokia Oyj