CN101578658A - 音频译码器 - Google Patents

音频译码器 Download PDF

Info

Publication number
CN101578658A
CN101578658A CNA2008800020987A CN200880002098A CN101578658A CN 101578658 A CN101578658 A CN 101578658A CN A2008800020987 A CNA2008800020987 A CN A2008800020987A CN 200880002098 A CN200880002098 A CN 200880002098A CN 101578658 A CN101578658 A CN 101578658A
Authority
CN
China
Prior art keywords
audio signal
signal
supplemental characteristic
audio
mixed audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008800020987A
Other languages
English (en)
Other versions
CN101578658B (zh
Inventor
D·J·布里巴尔特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN101578658A publication Critical patent/CN101578658A/zh
Application granted granted Critical
Publication of CN101578658B publication Critical patent/CN101578658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种音频译码器(100),包括:效果装置、译码装置和再现装置。该效果装置(500)从接收的下混合音频信号生成修改的下混合音频信号。所述接收的下混合音频信号包括多个音频对象的下混合。所述修改的下混合音频信号是通过把效果施加到对应于所述接收的下混合音频信号中所包括的音频对象的估计的音频信号而得到的。所述估计的音频信号根据接收的参数数据而从接收的下混合音频信号中得出。所述接收的参数数据包括对于该多个音频对象中的每个音频对象的多个对象参数。所述修改的下混合音频信号基于所施加的效果类型由译码装置译码、或由再现装置再现、或与再现装置的输出相组合。该译码装置(300)被安排成根据参数数据从下混合音频信号或修改的下混合音频信号译码音频对象。该再现装置(400)被安排成从译码的音频对象生成至少一个输出音频信号。

Description

音频译码器
技术领域
本发明涉及音频译码器,具体地但不排他地,涉及MPEG环绕(MPEGsurround)译码器或面向对象的译码器。
技术背景
在(参数)空间音频编码器中,从原始音频信号中提取参数,以便产生减小数目的下混合的(down-mix)音频信号(例如,仅仅产生对应于单声道的单个下混合信号,或用于立体声下混合的两个下混合信号),和描述原始音频信号的空间属性的对应一组参数。在(参数)空间音频译码器中,由传送的空间参数描述的空间属性被使用来重新创建非常类似于原始多通道音频信号的空间多通道信号。
最近,用于在译码一侧处理和操纵一个个音频对象的技术已经引起很大的兴趣。例如,在MPEG框架内,在基于对象的空间音频编码方面已启动了一个工作组。这个工作组的目标是“研究新的技术和再利用当前的MPEG环绕部件和技术,以用于多声源或对象到多个下混合的通道和对应的空间参数的比特率高效的编码”。换句话说,目标是将多个音频对象编码到具有对应参数的有限的一组下混合通道中。在译码器一侧,用户例如通过对一个个对象重新定位而与内容互动。
与内容的这样的互动在基于对象的译码器中是容易实现的。它于是通过包括跟随在译码之后的再现(render)而被实现。所述再现与译码相组合,以防止对确定一个个对象的需要。当前可得到的专用的再现包括对象的定位、音量调节、或再现的音频信号的均衡。
具有合并的再现的已知面向对象的译码器的一个缺点在于,它们允许对对象的有限的一组操纵,因为它们没有产生一个个对象或对一个个对象操作。另一方面,对一个个音频对象的显式译码是非常昂贵和低效率的。
发明概要
本发明的目的是提供一种用于译码音频对象的增强的译码器,它允许对于对象的更广范围的操纵,不需要为了这个目的而译码一个个音频对象。
这个目的是通过按照本发明的音频译码器而达到的。假设各具有其对应波形的一组对象先前已在面向对象的编码器中被编码,该编码器生成下混合的音频信号(在单声道的情形下是单个信号)和对应的参数数据,所述下混合音频信号是多个音频对象的下混合。参数数据包括对于每个不同的音频对象的对象参数组。接收机接收所述下混合音频信号和所述参数数据。这个下混合音频信号还被馈送到效果装置(effect means)中,所述效果装置通过把效果施加到对应于下混合音频信号所包含的所选音频对象的音频信号的估计而生成修改的下混合音频信号。音频信号的所述估计是根据参数数据而得出的。修改的下混合音频信号还取决于所施加的效果的类型(例如插入效果或发送效果)而被馈送到译码装置中、或馈送到再现装置中、或与再现装置的输出相组合。译码装置从被馈送到译码装置中的下混合音频信号译码音频对象,所述下混合音频信号是最初接收的下混合音频信号或修改的下混合音频信号。所述译码是根据参数数据而执行的。再现装置取决于所施加的效果的类型而从得自译码装置的和可选地得自效果装置的音频对象生成空间输出音频信号。
按照本发明的译码器的优点在于,并不要求为了施加各种不同类型的效果,要被施加效果的对象是可得到的。而是,本发明提出在实际的译码之前或同时,把效果施加到对应于所述对象的估计的音频信号。所以,不需要显式的对象译码,且在译码器中出现的再现被保持。
在一个实施例中,该译码器还包括修改装置,用于当对应于该对象或多个对象的估计的音频信号的频谱或时间包络通过插入效果而被修改时,修改所述的参数数据。
这样的效果的例子是生成附加的高频频谱分量的非线性失真或多频带压缩器。如果修改的音频信号的频谱特性改变,则应用被包括在所接收的参数数据中的未修改的参数会导致不想要的和可能恼人的人工产物。所以,调整参数以匹配新的频谱或时间特性,会改进最终得到的再现的音频信号的质量。
在一个实施例中,对应于一个音频对象或多个对象的估计的音频信号的生成包括:根据对应于音频对象的功率参数而进行的下混合音频信号的时间/频率相依的缩放,所述功率参数被包括在接收的参数数据中。
这种估计的优点在于,它包括下混合音频信号的乘法。这使得估计过程简单而有效。
在一个实施例中,译码装置包括按照MPEG环绕标准的译码器,和用于把所述参数数据转换成按照MPEG环绕标准的参数数据的转换装置。
使用MPEG环绕译码器的优点在于,这种类型的译码器被用作为用于面向对象的译码器的再现引擎。在这种情形下,面向对象的参数与用户控制数据相组合,并被转换成MPEG环绕参数,诸如在通道(对)之间的电平差值和相关参数。因此,MPEG环绕参数是由面向对象的参数(即传送的信息)与想要的再现特性(即在译码器侧用户可控制的信息组)的组合效果产生的。在这样的情形下,不需要中间的对象信号。
本发明还提供一种接收机和一种通信系统,以及对应的方法。
在一个实施例中,插入和发送效果被同时施加。使用例如插入效果不排除使用发送效果,反之亦然。
本发明还提供一种计算机程序产品,其使能可编程设备执行按照本发明的方法。
附图简述
从附图所显示的实施例中,将明白本发明的这些和其它方面,并将参照这些实施例对所述方面予以阐述,在图上:
图1A示意地显示面向对象的译码器;
图1B示意地显示按照本发明的面向对象的译码器;
图2显示用于插入效果的效果装置的例子;
图3显示修改装置,其用于当对应于对象或多个对象的估计的音频信号的频谱包络通过插入效果而被修改时,修改参数数据;
图4显示用于发送效果的效果装置的例子;
图5显示译码装置,该译码装置包括按照MPEG环绕标准的译码器,和用于把参数数据转换成按照MPEG环绕标准的参数数据的转换装置;
图6显示按照本发明的某些实施例的、用于传递音频信号的传输系统。
在所有的图上,相同的参考标号指示类似的或对应的特征。在图上指示的某些特征典型地以软件来实施,且因而代表软件实体,诸如软件模块或对象。
优选实施例详细说明
图1A示意地显示面向对象的译码器100,正如例如从C.Faller:“Parametric Joint-Coding of Audio Sources”,AES 120th Convention,Paris,France,Preprint 6752,May 2006中获知的。假设各具有其对应波形的一组对象先前在面向对象的编码器中被编码,该编码器产生下混合的音频信号(在单通道情形下的单个信号,或在二通道的情形下的两个信号(=立体声)),所述下混合音频信号是由对应的参数数据所表征的多个音频对象的下混合。该参数数据包括对于不同音频对象的每个音频对象的一组对象参数。接收机200接收所述下混合音频信号和所述参数数据。
被馈送到接收机200中的信号是对应于复用的下混合音频数据流的单个信号,该复用的下混合音频数据流对应于下混合音频信号和参数数据。该接收机的功能于是分用(demultiplex)两个数据流。如果下混合音频信号以压缩的形式(诸如MPEG-1层3)被提供,则接收机200还执行压缩的音频信号到时域音频下混合信号的解压缩或译码。
虽然接收机200的输入被描绘为单个信号/数据路径,但它也可以包括用于分开的下混合信号和/或参数数据的多个数据路径。因此,下混合信号和参数数据被馈送到译码装置300中,该译码装置根据参数数据从下混合音频信号译码音频对象。译码的音频对象还被馈送到再现装置400中,用于从译码的音频对象生成至少一个输出音频信号。虽然译码装置和再现装置被画成分开的单元,但它们很常见地是被合并在一起。由于译码和再现处理装置的这样的合并的结果,不需要显式地译码一个个音频对象。替代地,再现的音频信号以低得多的计算代价被提供,并且没有音频质量损失。
图1B示意地显示按照本发明的面向对象的译码器110。接收机200接收所述下混合音频信号和所述参数数据。这个下混合音频信号和参数数据还被馈送到效果装置500中,该效果装置通过把效果施加到对应于下混合音频信号所包含的所选音频对象的音频信号的估计而生成修改的下混合音频信号。音频信号的所述估计是根据参数数据而得出的。修改的下混合音频信号还取决于所施加的效果的类型(例如插入效果或发送效果)而被馈送到译码装置300中、或馈送到再现装置400中、或与再现装置的输出相组合。译码装置300从被馈送到译码装置中的下混合音频信号译码音频对象,所述下混合音频信号是最初接收的下混合音频信号或修改的下混合音频信号。所述译码是根据参数数据而执行的。再现装置400取决于所施加的效果的类型而从得自译码装置300的和可选地得自效果装置400的音频对象生成空间输出音频信号。
图2显示用于插入效果的效果装置500的例子。下混合信号501被馈送到效果装置500中;这些信号被并行地馈送到被包括在估计装置510中的单元511和512。估计装置510生成对应于插入效果要被施加到的一个对象或多个对象的估计的音频信号,以及生成对应于其余对象的估计的音频信号。对应于插入效果要被施加到的一个对象或多个对象的音频信号的估计由单元511执行,而对应于其余对象的音频信号的估计由单元512执行。所述估计是基于从接收机200得到的参数数据502。因此,插入效果由插入装置530施加到对应于插入效果要被施加到的一个对象或多个对象的估计的音频信号。加法器540相加从插入装置530提供的音频信号和对应于其余对象的估计的音频信号,因此把所有的对象再次组装在一起。最后得到的修改的下混合信号503还被馈送到面向对象的译码器110的译码装置300中。在文本的其余部分,每当提及到单元200、300或400时,它们被包括在面向对象的译码器110中。
插入效果的例子尤其是:动态范围压缩,失真的生成(例如,模拟吉它放大器),或声码器。这种类型的效果优选地被施加于一组有限(优选地,单个)的音频对象。
图3显示修改装置600,其用于当对应于所述对象或多个对象的、估计的音频信号的频谱包络通过插入效果而被修改时,修改所述参数数据。单元511和512例如估计一个个音频对象,而单元513一起估计剩余的音频对象。插入装置530包括分开的单元531和532,它们分别把插入效果施加到从单元511和512得到的估计的信号。加法器540相加从插入装置530提供的音频信号和对应于剩余对象的估计的音频信号,因此把所有的对象再次组装在一起。最终得到的修改的下混合信号503还被馈送到面向对象的译码器110的译码装置300中。
在单元531和532中使用的插入效果或者是相同的类型或者它们是不同的。由单元532使用的插入效果例如是生成附加高频频谱分量的非线性失真,或是多频带压缩器。如果修改的音频信号的频谱特性改变,则应用被包括在所述的在译码装置300中接收的参数数据中的未修改参数会导致不想要的和可能恼人的人工产物。所以,调整参数数据以匹配新的频谱特性,会改进最终得到的音频信号的质量。参数数据的这种调整在单元600中执行。调整的参数数据504被馈送到译码装置300中,并被使用来译码修改的下混合信号503。
应当指出,被包含在插入装置530中的两个单元531和532仅仅是例子。单元的数目可以取决于要被施加的插入效果的数目而变化。而且,单元531和532可以以硬件或软件来实施。
图4显示用于发送效果的效果装置的例子。下混合信号501被馈送到效果装置500中,这些信号被并行地馈送到被包括在估计装置510中的单元511和512。估计装置510生成对应于发送效果要被施加到的一个对象或多个对象的估计的音频信号。所述估计是基于从接收机200得到的参数数据502。因此,增益由增益装置560来施加到对应于从估计装置510得到的一个对象或多个对象的估计的音频信号。增益--也可以被称为权重--确定每个对象或多个对象的效果的量。单元561和562的每一个施加增益到从估计装置得到的一个个音频信号。这些单元的每一个可施加各种不同的增益。加法器540相加从增益装置560提供的音频信号,以及单元570施加发送效果。最终得到的信号505,也被称为“湿(wet)”输出,它被馈送到再现装置中,或替换地,与再现装置的输出相混合(或添加到再现装置的输出中)。
发送效果的例子尤其是:混响,调制效果,诸如合唱、镶边器(flanger)、或移相器(phaser)。
应当指出,被包括在增益装置560中的两个单元561和562仅仅是例子。单元的数目可以非常依赖于对应要对其设置发送效果水平的音频对象或多个音频对象的信号的数目。
估计装置510和增益装置560可以被组合到估计多个对象信号的加权组合的单个处理步骤中。增益561和562可以被分别合并到估计装置511和512中。这也在下面的方程式中被描述,其中Q是对象信号的加权组合(的估计),它通过每个时间/频率块(tile)一次单个缩放操作而得到。
按对象或对象组合的增益可被解译为‘效果发送水平’。在几个应用中,效果的量优选地是用户可按对象控制的。例如,用户可能想要对象之一不带有混响,另一个对象带有小量混响,而再一个对象带有完全的混响。在这样的例子中,对于每个分别的对象,按对象的增益可以等于0、0.5和1.0。
在一个实施例中,对应于一个音频对象或多个对象的、估计的音频信号的生成包括:根据对应于音频对象的功率参数而进行的下混合音频信号的时间/频率相关的缩放,所述功率参数被包括在参数数据中。
这个实施例相对于以下的例子进行解释。在编码器处,具有样本索引n的I个对象信号si[n],i=0,...,I-1被下混合,以通过对下混合信号求和而创建下混合信号x[n]:
x [ n ] = Σ i s i [ n ]
该下混合信号伴随以面向对象的参数,这些参数描述在下混合信号x[n]的一个个时间/频率块内每个对象的(相对)信号功率。对象信号si[n]例如通过使用重叠的分析窗口w[n]而被首先加窗口:
si[n,m]=si[n+mL/2]w[n]
其中L是窗口的长度,以及例如L/2是对应的跳跃尺寸(假设50%重叠),而m是窗口索引。分析窗口的典型形式是汉宁(Hanning)窗:
w [ n ] = sin ( πn L ) .
最终得到的分段的信号si[n,m]随后通过使用FFT被变换到频域:
S i [ k , m ] = Σ n s i [ n , m ] e - 2 πjkn / L
其中k是FFT仓(bin)索引。FFT仓索引k随后被分组成参数频带b。换句话说,每个参数频带b对应于一组邻接频率仓索引k。对于每个参数频带b,和每个对象信号si[k,m]的每个分段m,计算功率值σi 2[b,m]:
σ i 2 [ b , m ] = Σ k = k ( b ) k = k ( b + 1 ) - 1 S i [ k , m ] S i * [ k , m ] k + ( b + 1 ) - k ( b )
其中(*)是复共轭算子。这些参数σi 2[b,m]被包括在参数数据中(优选地在对数域中被量化)。
在面向对象的音频译码器处,一个对象或多个对象的估计过程包括:下混合音频信号的时间/频率相关的缩放。具有相同索引n的离散时间下混合信号x[n]被分割成具有频率索引k和帧(时间分段)索引m的时间/频率块X[k,m]。这是通过例如用分析窗口w[n]给信号x[n]加窗口而达到的:
x[n,m]=x[n+mL/2]w[n]
其中L是窗口的长度,以及L/2是对应的跳跃尺寸。在这种情形下,优选的分析窗口由汉宁窗的平方根给出:
w [ n ] = sin ( πn L )
随后,加窗口的信号x[n,m]通过使用FFT被变换到频域:
X [ k , m ] = Σ n x [ n , m ] e - 2 πjkn / L
X[k,m]的频域分量随后被分组成所谓的参数频带b(b=0,...,B-1)。这些参数频带与在编码器处的参数频带相一致。对象i的分段m的译码器一侧估计
Figure A20088000209800133
由下式给出:
S ^ i [ k , m ] = X [ k , m ] σ i 2 [ b ( k ) , m ] Σ i σ i 2 [ b ( k ) , m ]
其中b(k)是与频率索引k相关联的参数频带。
具有权重gi的对象信号Si的加权组合Q由下式给出:
Q [ k , m ] = Σ i g i S i [ k , m ]
在面向对象的译码器中,Q可以按照下式被估计:
Q ^ [ k , m ] = Σ i g i S ^ i [ k , m ] = X [ k , m ] g i 2 σ i 2 [ b ( k ) , m ] Σ i σ i 2 [ b ( k ) , m ]
换句话说,在所提出的面向对象的音频译码器处,可以通过下混合信号X[k,m]的时间频率相关的缩放而估计一个对象信号或多个音频对象信号的任何线性组合。
为了产生时域输出信号,每个估计的对象信号被变换到时域(使用逆FFT)、被乘以合成窗(等同于分析窗口)、并通过使用重叠-相加而与在前的帧相组合。
在一个实施例中,估计的音频信号的生成包括:藉助根据对应于音频对象的功率参数而进行的下混合音频信号的时间/频率相关的缩放,从而加权一个对象或多个对象的组合,所述功率参数被包括在接收的参数数据中。
应当指出,发送效果单元可以具有比输入信号更多的输出信号。例如,在立体声或多通道的情形下,混响单元具有单声道输入信号。
在一个实施例中,下混合信号和参数数据是按照MPEG环绕标准。现有的MPEG环绕译码器,紧接着(next to)译码功能性,还用作为再现设备。在这样的情形下,不需要对应于译码对象的中间音频信号。对象译码和再现被组合到单个设备中。
图5显示译码装置,译码装置300包括按照MPEG环绕标准的译码器320,和用于把所述参数数据转换成按照MPEG环绕标准的参数数据的转换装置310。对应于下混合信号501或修改的下混合信号503的信号508,当被施加插入效果时,被馈送到MPEG环绕译码器320中。转换装置310基于参数数据506和用户控制数据507而把所述参数数据转换成按照MPEG环绕标准的参数数据。当对应于所述对象或多个对象的估计的音频信号的频谱包络通过插入效果而被修改时,参数数据506是参数数据502或修改的参数数据504。用户控制数据507例如可以指示一个或多个音频对象的想要的空间位置。
按照一个实施例,所述方法包括以下步骤:接收至少一个下混合音频信号和参数数据,生成修改的下混合音频信号,从下混合音频信号译码音频对象,和从译码的音频对象生成至少一个输出音频信号。在所述方法中,每个下混合音频信号包括多个音频对象的下混合。参数数据包括对于该多个音频对象中的每个音频对象的多个对象参数。修改的下混合音频信号是通过把效果施加到对应于所述下混合音频信号中所包括的音频对象的估计的音频信号而得到的。该估计的音频信号根据参数数据而从下混合音频信号中得出。修改的下混合音频信号基于所施加的效果的类型而由译码装置300译码、或由再现装置400再现。译码步骤由译码装置300根据参数数据而对于下混合音频信号或修改的下混合音频信号执行。
从译码的音频对象生成至少一个输出音频信号的最后步骤,可被称为再现步骤,它可以与译码步骤组合成一个处理步骤。
在一个实施例中,用于接收音频信号的接收机包括:接收单元、效果装置、译码装置和再现装置。接收机单元从发射机接收至少一个下混合音频信号和参数数据。每个下混合音频信号包括多个音频对象的下混合。参数数据包括对于该多个音频对象中的每个音频对象的多个对象参数。
效果装置生成修改的下混合音频信号。这些修改的下混合音频信号是通过把效果施加到对应于所述下混合音频信号中所包括的音频对象的估计的音频信号而得到的。该估计的音频信号根据参数数据而从下混合音频信号中得出。修改的下混合音频信号基于所施加的效果类型由译码装置译码、或由再现装置再现。
译码装置根据参数数据从下混合音频信号或修改的下混合音频信号译码音频对象。再现装置从译码的音频对象生成至少一个输出音频信号。
图6显示按照本发明的某些实施例的、用于传递音频信号的传输系统。该传输系统包括发射机700,其通过网络800与接收机900耦合。网络800例如可以是互联网。
发射机700例如是信号记录设备,接收机900例如是信号播放设备。在特定的例子中,当支持信号记录功能时,发射机700包括用于接收多个音频对象的装置710。因此,这些对象被编码装置720编码,该编码装置720用于把多个音频对象编码到至少一个下混合音频信号和参数数据中。这样的编码装置620的一个实施例在Faller,C.:“ParametricJoint-Coding of Audio Sources”,Proc.120th AES Convention,Paris,France,May 2006中给出。每个下混合音频信号包括多个音频对象的下混合。所述参数数据包括对于该多个音频对象中的每个音频对象的多个对象参数。编码的音频对象通过用于传送下混合音频信号和参数数据的装置730被传送到接收机900。所述装置730具有与网络800的接口,并可以通过网络800传送下混合信号。
接收机900包括接收机单元910,用于从发射机700接收至少一个下混合音频信号和参数数据。每个下混合音频信号包括多个音频对象的下混合。所述参数数据包括对于该多个音频对象中的每个音频对象的多个对象参数。效果装置920生成修改的下混合音频信号。所述修改的下混合音频信号是通过把效果施加到对应于所述下混合音频信号中所包括的音频对象的估计的音频信号而得到的。所述估计的音频信号根据参数数据而从下混合音频信号中得出。所述修改的下混合音频信号基于所施加的效果的类型而由译码装置译码、或由再现装置再现、或与再现装置的输出相组合。译码装置根据参数数据从下混合音频信号或修改的下混合音频信号译码音频对象。再现装置从译码的音频对象生成至少一个输出音频信号。
在一个实施例中,插入和发送效果同时被施加。
在一个实施例中,效果是响应于用户输入而被施加的。用户可以藉助于例如按钮、滑动块、旋钮或图形用户接口而按照自己的喜好设置效果。
应当指出,上述的实施例是举例说明本发明而不是限制本发明,本领域技术人员将能够设计出许多替换实施例而不背离所附权利要求的范围。
在所附权利要求中,被放置在括号之间的任何参考标号不应被解释为限制权利要求。单词“包括”不排除不同于在权利要求中列出的那些单元或步骤的其它单元或步骤的存在。在单元前面的单词“一”或“一个”不排除多个这样的单元的存在。本发明可以藉助于包括几个不同单元的硬件以及藉助于适当地编程的计算机而被实施。

Claims (17)

1.一种音频译码器(100),包括:
效果装置(500),用于从接收的下混合音频信号生成修改的下混合音频信号,所述接收的下混合音频信号包括多个音频对象的下混合,所述修改的下混合音频信号是通过把效果施加到对应于所述接收的下混合音频信号中所包括的音频对象的估计的音频信号而得到的,所述估计的音频信号是根据接收的参数数据而从接收的下混合音频信号中得出,所述接收的参数数据包括对于该多个音频对象中的每个音频对象的多个对象参数,所述修改的下混合音频信号基于施加的效果类型由译码装置译码、或由再现装置再现、或与再现装置的输出相组合;
译码装置(300),被安排成根据参数数据从下混合音频信号或修改的下混合音频信号译码音频对象;
再现装置(400),被安排成从译码的音频对象生成至少一个输出音频信号。
2.如在权利要求1中要求的译码器,其中该效果装置(500)被安排来提供插入效果,并且包括:
估计装置(510),用于生成对应于插入效果要被施加到的一个对象或多个对象的估计的音频信号,和生成对应于其余对象的估计的音频信号;
插入装置(530),用于把插入效果施加到对应于插入效果要被施加到的一个对象或多个对象的估计的音频信号上;
加法器(540),用于相加从插入装置提供的音频信号和对应于其余对象的估计的音频信号。
3.如在权利要求2中要求的译码器,其中该译码器还包括修改装置(600),用于当对应于所述对象或多个对象的、估计的音频信号的频谱或时间包络通过插入效果而被修改时,修改所述参数数据。
4.如在权利要求1中要求的译码器,其中该效果装置被安排来提供发送效果,并且包括:
估计装置(510),用于生成对应于发送效果要被施加到的一个对象或多个对象的估计的音频信号;
增益装置(560),用于确定对于对应于发送效果要被施加到的所述对象或多个对象的估计的音频信号的发送效果的量;
加法器(540),用于相加从增益装置得到的音频信号;
发送装置(570),用于把发送效果施加到从加法器得到的音频信号。
5.如在权利要求1-4的任一项中要求的译码器,其中对应于一个音频对象或多个对象的估计的音频信号的生成包括:根据对应于音频对象的功率参数而进行的下混合音频信号的时间/频率相关的缩放,所述功率参数被包括在参数数据中。
6.如在权利要求5中要求的,其中估计的音频信号的生成包括:藉助于根据对应于音频对象的功率参数而进行的下混合音频信号的时间/频率相关的缩放,而加权一个对象或多个对象的组合,所述功率参数被包括在接收的参数数据中。
7.如在权利要求1中要求的译码器,其中所述下混合信号和参数数据是按照MPEG环绕标准。
8.如在权利要求7中要求的译码器,其中该译码装置(300)包括按照MPEG环绕标准的译码器(320),和用于把所述参数数据转换成按照MPEG环绕标准的参数数据的转换装置(310)。
9.一种译码音频信号的方法,该方法包括:
接收至少一个下混合音频信号和参数数据,每个下混合音频信号包括多个音频对象的下混合,所述参数数据包括对于该多个音频对象中的每个音频对象的多个对象参数;
生成修改的下混合音频信号;所述修改的下混合音频信号是通过把效果施加到对应于所述下混合音频信号中所包括的音频对象的估计的音频信号而得到的,所述估计的音频信号根据参数数据而从下混合音频信号中得出,所述修改的下混合音频信号基于施加的效果类型由译码装置译码、或由再现装置再现、或与再现装置的输出相组合;
根据参数数据从下混合音频信号或修改的下混合音频信号译码音频对象;
从译码的音频对象生成至少一个输出音频信号。
10.一种用于接收音频信号的接收机,该接收机包括:权利要求1的音频译码器;和接收机单元(200),用于从发射机接收至少一个下混合音频信号和参数数据,每个下混合音频信号包括多个音频对象的下混合,所述参数数据包括对于该多个音频对象中的每个音频对象的多个对象参数,该接收机单元被耦合到效果装置(500)和译码装置(300)。
11.一种用于传递音频信号的通信系统,该通信系统包括:
发射机(700),其包括:
用于接收多个音频对象的装置(710),
编码装置(720),用于把多个音频对象编码到至少一个下混合音频信号和参数数据中,每个下混合音频信号包括多个音频对象的下混合,所述参数数据包括对于该多个音频对象中的每个音频对象的多个对象参数,以及
用于传送下混合音频信号和参数数据到接收机的装置(730);以及
如在权利要求10中要求的接收机(900)。
12.一种接收音频信号的方法,该方法包括:
从发射机接收至少一个下混合音频信号和参数数据,每个下混合音频信号包括多个音频对象的下混合,所述参数数据包括对于该多个音频对象中的每个音频对象的多个对象参数;
生成修改的下混合音频信号;所述修改的下混合音频信号是通过把效果施加到对应于所述下混合音频信号中所包括的音频对象的估计的音频信号而得到的,所述估计的音频信号根据参数数据而从下混合音频信号中得出,所述修改的下混合音频信号基于施加的效果类型由译码装置译码、或由再现装置再现、或与再现装置的输出相组合;
根据参数数据从下混合音频信号或修改的下混合音频信号译码音频对象;
再现装置用于从译码的音频对象生成至少一个输出音频信号。
13.一种传送和接收音频信号的方法,该方法包括:
在发射机处执行以下步骤:
接收多个音频对象,
将该多个音频对象编码到至少一个下混合音频信号和参数数据中,每个下混合音频信号包括多个音频对象的下混合,所述参数数据包括对于该多个音频对象中的每个音频对象的多个对象参数,以及
传送下混合音频信号和参数数据到接收机;以及
在接收机处执行以下步骤:
从发射机接收至少一个下混合音频信号和参数数据,每个下混合音频信号包括多个音频对象的下混合,所述参数数据包括对于该多个音频对象中的每个音频对象的多个对象参数,
生成修改的下混合音频信号;所述修改的下混合音频信号是通过把效果施加到对应于所述下混合音频信号中所包括的音频对象的估计的音频信号而得到的,所述估计的音频信号根据参数数据而从下混合音频信号中得出,所述修改的下混合音频信号基于施加的效果类型由译码装置译码、或由再现装置再现、或与再现装置的输出相组合;
根据参数数据从下混合音频信号或修改的下混合音频信号译码音频对象,
从译码的音频对象生成至少一个输出音频信号。
14.如在权利要求9、12和13的任一项中要求的方法,其中同时地施加所述的插入和发送效果。
15.如在权利要求9、12和13的任一项中要求的方法,其中响应于用户输入而施加所述的效果。
16.一种用于执行权利要求9、12和13的任一项的方法的计算机程序产品。
17.一种包括按照权利要求1的音频译码器的音频播放设备。
CN2008800020987A 2007-01-10 2008-01-07 音频译码器 Active CN101578658B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP07100339 2007-01-10
EP07100339.6 2007-01-10
PCT/IB2008/050029 WO2008084427A2 (en) 2007-01-10 2008-01-07 Audio decoder

Publications (2)

Publication Number Publication Date
CN101578658A true CN101578658A (zh) 2009-11-11
CN101578658B CN101578658B (zh) 2012-06-20

Family

ID=39609124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008800020987A Active CN101578658B (zh) 2007-01-10 2008-01-07 音频译码器

Country Status (10)

Country Link
US (1) US8634577B2 (zh)
EP (1) EP2109861B1 (zh)
JP (1) JP5455647B2 (zh)
KR (1) KR101443568B1 (zh)
CN (1) CN101578658B (zh)
BR (1) BRPI0806346B1 (zh)
MX (1) MX2009007412A (zh)
RU (1) RU2466469C2 (zh)
TR (1) TR201906713T4 (zh)
WO (1) WO2008084427A2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012040897A1 (en) * 2010-09-28 2012-04-05 Huawei Technologies Co., Ltd. Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal
CN103890841A (zh) * 2011-11-01 2014-06-25 皇家飞利浦有限公司 音频对象编码和解码
CN104246873A (zh) * 2012-02-17 2014-12-24 华为技术有限公司 用于编码多声道音频信号的参数编码器
CN114245036A (zh) * 2021-12-21 2022-03-25 北京达佳互联信息技术有限公司 视频制作方法及装置

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
US9591424B2 (en) * 2008-12-22 2017-03-07 Koninklijke Philips N.V. Generating an output signal by send effect processing
US20100263689A1 (en) * 2009-04-21 2010-10-21 Ecolab Usa Inc. Methods and apparatus for controlling water hardness
EP2483887B1 (en) 2009-09-29 2017-07-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Mpeg-saoc audio signal decoder, method for providing an upmix signal representation using mpeg-saoc decoding and computer program using a time/frequency-dependent common inter-object-correlation parameter value
CN102714035B (zh) * 2009-10-16 2015-12-16 弗兰霍菲尔运输应用研究公司 用以提供一或多个经调整参数的装置及方法
ES2950751T3 (es) 2010-04-13 2023-10-13 Fraunhofer Ges Forschung Codificador de audio o vídeo, decodificador de audio o vídeo y métodos relacionados para procesar señales de audio o vídeo multicanal usando una dirección de predicción variable
JP5903758B2 (ja) * 2010-09-08 2016-04-13 ソニー株式会社 信号処理装置および方法、プログラム、並びにデータ記録媒体
CN103050124B (zh) 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及系统
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
CN112185399A (zh) 2012-05-18 2021-01-05 杜比实验室特许公司 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统
KR20140027831A (ko) * 2012-08-27 2014-03-07 삼성전자주식회사 오디오 신호 전송 장치 및 그의 오디오 신호 전송 방법, 그리고 오디오 신호 수신 장치 및 그의 오디오 소스 추출 방법
EP3014901B1 (en) 2013-06-28 2017-08-23 Dolby Laboratories Licensing Corporation Improved rendering of audio objects using discontinuous rendering-matrix updates
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
US10373711B2 (en) 2014-06-04 2019-08-06 Nuance Communications, Inc. Medical coding system with CDI clarification request notification
US10754925B2 (en) 2014-06-04 2020-08-25 Nuance Communications, Inc. NLU training with user corrections to engine annotations
WO2016080332A1 (ja) 2014-11-19 2016-05-26 株式会社村田製作所 コイル部品
US10366687B2 (en) * 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
WO2018057639A1 (en) 2016-09-20 2018-03-29 Nuance Communications, Inc. Method and system for sequencing medical billing codes
US11133091B2 (en) 2017-07-21 2021-09-28 Nuance Communications, Inc. Automated analysis system and method
US11024424B2 (en) 2017-10-27 2021-06-01 Nuance Communications, Inc. Computer assisted coding systems and methods
WO2020089302A1 (en) 2018-11-02 2020-05-07 Dolby International Ab An audio encoder and an audio decoder

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2011119A (en) * 1932-12-03 1935-08-13 Rekuperator Gmbh Method of protecting heating surfaces against overheating
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
EP0925689B1 (en) 1996-09-12 2002-07-03 University Of Bath Object-oriented video system
EP1613089A1 (en) 1997-02-14 2006-01-04 The Trustees of Columbia University in the City of New York Object-based audio-visual terminal and corresponding bitstream structure
US6882686B2 (en) 2000-06-06 2005-04-19 Georgia Tech Research Corporation System and method for object-oriented video processing
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
JP2005086486A (ja) * 2003-09-09 2005-03-31 Alpine Electronics Inc オーディオ装置およびオーディオ処理方法
DE102004052296A1 (de) * 2004-10-27 2006-05-04 Sennheiser Electronic Gmbh & Co. Kg Sender und Empfänger für ein drahtloses Audio-Übertragungssystem
KR100682904B1 (ko) * 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
US9626973B2 (en) * 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
JP4809370B2 (ja) * 2005-02-23 2011-11-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル音声符号化における適応ビット割り当て
ES2374309T3 (es) * 2005-07-14 2012-02-15 Koninklijke Philips Electronics N.V. Decodificación de audio.
WO2007091870A1 (en) 2006-02-09 2007-08-16 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
MX2008012251A (es) * 2006-09-29 2008-10-07 Lg Electronics Inc Metodos y aparatos para codificar y descodificar señales de audio basadas en objeto.
EP2102858A4 (en) * 2006-12-07 2010-01-20 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012040897A1 (en) * 2010-09-28 2012-04-05 Huawei Technologies Co., Ltd. Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal
CN103026406A (zh) * 2010-09-28 2013-04-03 华为技术有限公司 用于对已解码多通道音频信号或已解码立体声信号进行后处理的装置和方法
CN103026406B (zh) * 2010-09-28 2014-10-08 华为技术有限公司 用于对已解码多通道音频信号或已解码立体声信号进行后处理的装置和方法
US9293145B2 (en) 2010-09-28 2016-03-22 Huawei Technologies Co., Ltd. Device and method for postprocessing a decoded multi-channel audio signal or a decoded stereo signal
CN103890841A (zh) * 2011-11-01 2014-06-25 皇家飞利浦有限公司 音频对象编码和解码
CN103890841B (zh) * 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
CN104246873A (zh) * 2012-02-17 2014-12-24 华为技术有限公司 用于编码多声道音频信号的参数编码器
US9401151B2 (en) 2012-02-17 2016-07-26 Huawei Technologies Co., Ltd. Parametric encoder for encoding a multi-channel audio signal
CN104246873B (zh) * 2012-02-17 2017-02-01 华为技术有限公司 用于编码多声道音频信号的参数编码器
CN114245036A (zh) * 2021-12-21 2022-03-25 北京达佳互联信息技术有限公司 视频制作方法及装置
CN114245036B (zh) * 2021-12-21 2024-03-12 北京达佳互联信息技术有限公司 视频制作方法及装置

Also Published As

Publication number Publication date
EP2109861A2 (en) 2009-10-21
CN101578658B (zh) 2012-06-20
WO2008084427A2 (en) 2008-07-17
BRPI0806346A2 (pt) 2011-09-06
WO2008084427A3 (en) 2009-03-12
MX2009007412A (es) 2009-07-17
JP5455647B2 (ja) 2014-03-26
US8634577B2 (en) 2014-01-21
BRPI0806346A8 (pt) 2015-10-13
RU2466469C2 (ru) 2012-11-10
RU2009130352A (ru) 2011-02-20
KR101443568B1 (ko) 2014-09-23
TR201906713T4 (tr) 2019-05-21
US20100076774A1 (en) 2010-03-25
KR20090113286A (ko) 2009-10-29
BRPI0806346B1 (pt) 2020-09-29
JP2010515944A (ja) 2010-05-13
EP2109861B1 (en) 2019-03-13

Similar Documents

Publication Publication Date Title
CN101578658B (zh) 音频译码器
CN1914668B (zh) 用于信号时间标度的方法及设备
KR101120909B1 (ko) 멀티 채널 파라미터 변환 장치, 방법 및 컴퓨터로 판독가능한 매체
CN101044794B (zh) 用于双声道提示码编码方案和类似方案的散射声音整形的方法和设备
CN101553865B (zh) 用于处理音频信号的方法和装置
KR101049144B1 (ko) 오디오 신호 처리방법 및 장치
RU2414095C2 (ru) Усовершенствование звукового сигнала возможностью повторного микширования
EP3122073B1 (en) Audio signal processing method and apparatus
CN101484935B (zh) 用于编码和解码基于对象的音频信号的方法和装置
CN110890101B (zh) 用于基于语音增强元数据进行解码的方法和设备
CN105659630A (zh) 用于处理多媒体信号的方法和设备
MX2008012315A (es) Metodos y aparatos para codificar y descodificar señales de audio basados en objeto.
KR20090104674A (ko) 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
CN101361115A (zh) 解码信号的方法和装置
RU2658888C2 (ru) Способ и устройство для применения сжатия динамического диапазона к сигналу амбиофонии высшего порядка
KR20080033840A (ko) 믹스 신호의 처리 방법 및 장치
KR20090066190A (ko) 대화형 오디오 송/수신 장치 및 그 방법
KR20080033841A (ko) 믹스 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant