CN102138177B - 多通道音频数据的重构 - Google Patents

多通道音频数据的重构 Download PDF

Info

Publication number
CN102138177B
CN102138177B CN200980134855.0A CN200980134855A CN102138177B CN 102138177 B CN102138177 B CN 102138177B CN 200980134855 A CN200980134855 A CN 200980134855A CN 102138177 B CN102138177 B CN 102138177B
Authority
CN
China
Prior art keywords
data
spatial data
model
space values
receiving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200980134855.0A
Other languages
English (en)
Other versions
CN102138177A (zh
Inventor
戴维德·维雷泰
皮埃里克·菲利普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of CN102138177A publication Critical patent/CN102138177A/zh
Application granted granted Critical
Publication of CN102138177B publication Critical patent/CN102138177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/03Connection circuits to selectively connect loudspeakers or headphones to amplifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

一种音频数据的处理方法,其适用于至少根据减少的通道数量中的数据和空间数据重构多通道音频数据。进行检测来确定接收到的空间数据是否有效。如果检测为有效的,则根据多个模型中的各个模型来预测空间数值。预测模型根据因此而预测的空间数值和所接收到的空间数据来选择,使之能在随后接收到缺陷空间数据的情况下,根据所选择的模型来预测空间数值并使用该预测空间数值来重构多通道音频数据。

Description

多通道音频数据的重构
本发明涉及用于隐蔽重构多通道音频数据中的缺陷空间数据。多通道的音频数据通常至少根据有限数量通道中的空间数据和音频数据(例如单通道的数据)来进行重构。
多通道音频数据一般是指具有多个独立的音轨。多个独立的声源可有助于为听众提供环绕声音的感觉(afford)。
特别是在家庭影院的应用中,多通道音频数据可包括例如双通道的立体声数据或者六通道的5.1数据。本发明还可应用在空间音频会议领域,在该应用中,对应于发言者的数据进行空间化处理,从而为听众提供发言者的声音是由特定空间位置产生的感觉。
空间数据用于根据更少数量通道的数据(例如单通道数据)来获得多通道的数据。这些空间数据能够例如包括通道间差异度(Inter-pathway level)或ILDs(通道间差异度)、通道间相关性或ICCs(通道间交叉相关性)、通道间延迟或ITDs(通道间时间差异)、通道间的相位差异或IPDs(通道间相位差异)、或者其它相类似的。
接收到至少包括单通道数据和空间数据的音频数据可能会有缺陷,即,某些数据出现缺失或发生错误。
这种缺陷传输的测试可通过CRC(循环冗余校验)编码类型的方法执行。
通常,可采用预测数值替换缺陷数值以减少缓解这些缺陷。这些预测数值可根据已知的预测模型确定。
有多个预测模型是公知的。例如,可选择任意数值、先前数值、根据先前接收到的音频数据通过线性预测或相似方法确定的数值作为预测数值。
当以有缺陷的方式接收单通道数据时,采用单通道的预测数值替换缺陷数值一般都可获得令人较为满意的效果。
但是,当以缺陷的方式接收空间数据时,采用预测数值来替换缺陷数值的效果就可能不令人满意。
空间数据随时间的强烈变化会使听众产生非常明显的声音源突然移位的感觉。
例如,如果缺陷数值替换成对应于空间缺失的任意数值,会产生使听众混乱的(disruptive)重新回到单声道声音的感觉,尤其是在双声道信号的情况。实际上,在人耳层面的3D空间中可准确回放的双声道的信号通常都对应在空间中相对固定的虚拟声音源。
因此,在重构多通道音频数据的过程中就需要更好地隐蔽缺陷空间数据。
根据本发明的第一个方面,本发明的目的是提供处理声音数据的方法,其用于至少根据有限数量的通道和空间数据来重构多通道音频数据,所述方法包括检测接收到的帧的空间数据的有效性的步骤。如果该检测显示这些空间数据是有效的,则包括步骤:
a.空间数值根据多个预测模型的各个模型进行预测;
b.选择预测模型,根据预测的空间数值和实际接收到的空间数据来选择预测模型,使得在随后接收到缺陷空间数据的情况中,根据选定的模型预测空间数值,并且使用该预测空间数值来重构多通道音频数据。
因此,被认为有效的空间数据可以用于在多个预测模型中选择预测模型,以便在被认为有缺陷的空间数据的接收情况中使用。这样根据内容自适应的方法能以比使用单一预测模型的现有技术更好的方式来减少空间数据的缺陷。
专业术语“有限数量的通道”可理解为比多通道数据的通道数量更少的通道数量。例如,有限数量通道的数据可以包括单通道数据。
空间数据和常见的接收到的音频数据可由传输通道产生。例如,这些数据可通过互联网接收。或者,接收的音频信号可从存储介质中读取,例如DVD(“数字通用磁盘”)或其它相类似的。本发明不限制接收的音频数据源。
接收的音频数据可以包括编码信号、解复用和/或解码信号、数值或其它相类似的。
步骤a和b在接收到有效的帧后进行系统执行。因此,可随时间而采用各种不同的处理。
尤其是,当为各个有效帧执行步骤a和b处理时,可在存储器中写入选定的预测模型的标识符,以便在随后接收到缺陷空间数据时,能够迅速获得需应用的预测模型。
此外,步骤a和b的执行是根据确定的条件实现,并且这样可能避免执行多余的计算。
例如,当认为帧是有效时,则空间数据至少暂时存储在存储器中。步骤a和步骤b仅在随后接收到的被认为是有缺陷的空间数据时执行(因此根据存储的数据)。因而,当没有必要执行时,这样的方法特别地避免了执行步骤a的预测。
根据另一实例,在接收到被认为有效的帧后而系统执行步骤a的预测,同时仅当接收到有缺陷的帧时才执行步骤b(根据存储在存储器中的先前一个或多个帧中的空间数据)。
有利的是,在步骤b的过程中,各个预测的空间数值与根据接收到的空间数据的评估数值进行比较。具体地,一方面根据由该模型预测空间数值,以及另一方面根据接收到的空间数据的评估数值,为各个模型计算近似数值。然后选择在预测数值与评估数值之间更合适的近似数值的预测模型。
评估数值可以是一个空间数据,例如评估数值可包括ILD。在这样的情况下,在步骤b的过程中,可直接将预测空间数值与接收的空间数据进行比较。
或者,评估数值可仅从空间数据中获得。例如,评估数值可包括对帧和确定频带的ILDs中产生的增益、延迟或者其它相类似。在这样的情况下,在步骤b中将预测的空间数值与根据接收到的空间数值获得的数值进行比较。
有利的是,对于至少一种模型,先前预测的空间数值还与对应的评估数值进行比较。因此,选择最适合的内容的预测模型可更合适地执行。
例如,有可能使用多个帧中接收到的空间数据,并且进行多个帧的预测数值与评估数值的比较。
具体地说,所接收到的一系列帧中的各个帧且对于至少一个模型,有可能根据这个模型来预测空间数值,从而预测一系列的空间数值。该模型一方面可根据所预测的一系列空间数值而另一方面根据一系列帧的数据所评估的一系列数值来计算其近似数值。
有利的是,在预测模型选择步骤中,不使用有缺陷的空间数据,从而避免误导这样的选择。
此外,还有可能使用例如从同一帧(one the same frame)中接收到的当前空间数据来选择预测模型。
数据由于在传输过程中或由数据存储介质的退化(degradations)而产生缺陷。本发明不限制引起这类缺陷的原因。例如,在按等级分层级传输(或称为可扩展编码)的情况下,发送器或传输网络的其它元件可选择不传输数据集,这时在接收到的空间数据中可能会缺失一些数据。
空间数据的缺陷特性可根据诸如CRC类型码已知方法进行测试。
本发明不限制将选择预测模型的标示符写入存储器的方法。例如,有可能将对应于该模型的程序指令选择性地复制至程序存储器,或在存储器中相当简单地存储模型名,选择性挥发(optionallyvolatile)。
在步骤a的过程中,根据预测模型来执行空间数值的预测,更具体地说,可根据模型来改变用于预测的数据。例如,对于将任意数值分配给空间数值构成的模型,则预测不需要数据。对于重新使用先前的空间数值和/或由先前空间数值的权重构成的模型,则在预测过程中需要使用该先前空间数值。
有利的是,步骤a对对应于给定频带的空间数据执行。因此,多个预测可在多个不同的频带中同步进行。实际上,在立体声信号的情况中,多数适合的预测模型的选择可与频率相关:可根据考虑的频带来选择不同的预测模型。
根据本发明的另一个方面,本发明的目的是提供包括通过处理器执行所述指令时的用于执行上述的方法的指令。
根据本发明的另一个方面,本发明的目的是提供用于隐蔽缺陷空间数据的装置。该装置包括可为一个或多个存储器的存储器单元,其用于存储多个指令组(suites of instruction),且各个指令组对应于预测模型。此外,该装置包括接收空间数据的部件。检测模块可检测通过接收部件接收到的空间数据的有效性。在接收到的空间数据被检测模块测试为有效的情况下,评估模块有可能执行存储在存储器单元中的各组指令来预测空间数值。选择模块有可能根据由评估模块所预测的空间数值和由接收部件所接收到的空间数据来选择预测模型。此外,隐蔽装置还包括预测模块,用于在所接收到的空间数据被测试模块测试为有缺陷时根据由选择模块所选择的模型来预测空间数值。
根据本发明的另一方面,本发明的目的是提供用于重构多通道音频数据的装置。该装置包括多通道重构部件,用于至少根据有限数量通道的数据(例如单通道数据)来重构多通道音频数据。该装置还包括上述的隐蔽装置。预测模块用于在接收到的空间数据被测试模块认为有缺陷时向多通道重构部件提供预测的空间数值,以便重构多通道音频数据。
用于重构多通道音频数据的装置可集成在处理器或其它包括电脑或HIFI系统类型的装置中,或者其它相类似的。
重构装置的不同的硬件部件,例如重构部件,隐蔽装置,测试模块以及其它相类似的,既可以是单独的,也可以是组合的。
本发明的其它特性或优点将通过参考下述附图的详细阐述更为明晰,其中:
-图1示出了典型的对话编码装置;
-图2示出了典型的解码装置,包括根据本发明一个实施例的典型重构装置;
-图3示出了根据本发明一个实施例的典型计算方法;
-图4示出了增益典型的可能演变;以及,
-图5示出了可执行根据本发明一个方面的计算机程序的装置。
相同标示符表示在各个图中表示相同或相似的物体。
在附图所示的实例中,多通道音频数据的通道数量确切地为2,但有可能为更多的数量。多个通道的音频数据例如可包括为在6通道中的5.1数据。本发明还可应用于空间音频会议的领域中。
具体地说,可参考MPEG环绕标准,它所阐述的树状结构可用于或仿真产生大于两个以上的通道。
在所述的实施例中,音频数据以帧或数据包的方式集中分组,并索引为n。
图1示出了典型的编码器,编码器的立体声信息通过频带传输并应用于频域。
为此目的,编码器集成了诸如DSP(数字信号处理器)的时间频率转换器10,它能执行诸如离散傅立叶变换或DFT、MDCT变换(改进离散余弦变换)、MCLT变换(调制复数重叠变换)的变换。
因此,可根据对应于左和右时序信号的SL(n)和SR(n)的数值来获得频率的左信号SL(k)和右信号SR(k)的数值。
然后,籍助于矩阵部件11对左通道SL(n)和右通道SR(n)的信号进行矩阵处理。
这些部件11可根据立体声信号SL(k)和SR(k)来确定单通道信号M(k)和残差信号E(k)。单通道信号M(k)通常为左信号SL(k)和右信号SR(k)的一半之和(half-sum)。残差信号E(k)可为左信号SL(n)和右信号SR(n)之间差异的一半。
提供合适的矩阵可使单通道信号M(k)传输更多的信息。为此目的,籍助于矩阵部件11所执行的方法可随着时间而演变,以避免消除在左右通道中反相的部分。
用于评估空间数据的部件12可根据单通道信号M(k)和残差信号E(k)评估例如立体声参数的空间数据。该领域的技术人员都熟知这些立体声参数,并且这些立体声参数可包括诸如通道相互层级差异(ILDS)、通道相关性(ICCS)差异和通道(IPDs/ITDs)间的延迟或相位差。
这些立体声参数ILD(b)可通过由变量b索引的频带确定。这些频带可根据近似人类感知的频率范围进行确定。例如,可根据考虑的频谱范围和期望的精度确定使用在8至20之间的频带。
量化、编码及复用部件13可量化并编码立体声参数ILD(b),使允许以较低的数据吞吐量进行传输。
在图1所示的变换域或在时间域中,单通道信号M(k)也可籍助于部件13进行量化和编码。标准的算法都可用于处理单通道信号M(k),例如ITU G.729.1或G.718类型的语音编码器。也可以是MPEG-4AAC或HE-AAC类型的通用音频编码器。
残差信号E(k)进行选择性地传输,也可以采用频域或时域中的该信号的专用的标准化的编码或传输技术。
量化、编码及复用部件13输出所获得的编码信号Senc通过诸如无线通道进行传输。
此外,编码器可产生多个单声道通道获得的数据,并且编码器输出所获得的数据通道的数量小于输入编码器的数据通道的数量。
图2示出了用于接收对应传输信号Senc的信号S′enc的典型的解码器。
解码器和解复用部件29可从接收到的信号S′enc中获得单通道数据M′(k)、空间数据ILD′(b)以及选择性获得残差数据E′(k)。
此外,解码器包括重构装置26,用于根据单通道数据M′(k)、空间数据ILD′(b)并且选择性的根据残差信号数据E′(k)来重构多通道的音频数据S′L(k)和S′R(k)。
图3示出籍助于图2的重构装置26执行的算法。因而,同时对两个图进行阐述。
重构装置26包括用于在缺陷空间数据ILD′(b)情况中提供替换数值的隐蔽装置20和用于适当重构的多通道重构部件27。
在步骤300中,多通道重构部件27可执行例如下述组合类型:
S ′ L ( k ) = E ′ L ( k ) + W L ( b , n ) . M L ( k ) S ′ R ( k ) = E ′ R ( k ) + W R ( b , n ) . M R ( k )
其中k表示考虑频率的索引;
b表示通过传输的立体声参数分配的带宽;
ML(k)是在步骤301中获得的频域左通道的信号,其根据单通道数据M′(k),通过使用本领域技术人员所熟知的对应左通道的相位平移或延迟产生,且该相位平移或延迟可从空间数据(未示出)获得;并且,
MR(k)是以相同的方法在步骤301中所获得的频域右通道的信号。
具体地说,如果不进行相位平移,则:
MR(k)=ML(k)=M′(k)
E′L是左通道的专用信号,其通过本领域技术人员所熟知的方法从选择传输的差异数据E′(k)中获得;
E′R是右通道的专用信号,其通过本领域技术人员所熟知的方法从选择传输的差异数据E′(k)中获得。
图3未示出获得E′L和E′R的步骤。
在不传输差异数据的情况下:
E′(k),E′L=E′R=0
WL和WR是从用于考虑的带宽b和帧n的空间数据ILD′(b,n)中产生的增益。
增益WL和WR可在步骤302中通过数值W′L和W′R以下式确定:
W ′ L ( b , n ) = 2 . ILD ′ ( b , n ) 1 + ILD ′ ( b , n )
W ′ L ( b , n ) = 2 . ILD ′ ( b , n ) 1 + ILD ′ ( b , n )
式中:ILD′(b,n)从帧n中接收到的空间数据ILD′(b)
通过在0至1之间的时间常数α(例如α=0.8)进行的平滑处理在步骤304中执行如下:
WL(b,n)=α.W′L(b,n)+(1-α).WL(b,n-1),式中WL(b,n-1)表示从先前帧中获得的数值。
对于右通道而言,可在步骤304中执行相同的平滑处理:
WR(b,n)=α.W′R(b,n)+(1-α).WR(b,n-1),式中WR(b,n-1)表示从先前帧中获得数值。
此外,可使用从左通道获得的数值,例如通过:
WR(b,n)=2-WR(b,n)
隐蔽器件20有可能避免(avert)数据ILD′(b,n)的有可能遗失,使得无论怎样都可确定数据WR和WL
隐蔽器件20包括接收部件(未示出),其用于在步骤305中接收空间数据ILD′(b,n)以及同时可选择性接收的单通道数据M′(k)和残差数据E′(k)。
这些接收部件可包括例如输入端口、输入引脚或其它相类似的。
检测模块22连接至这些接收部件,使之有可能在步骤306中检测空间数据ILD′(b)的有效性。这个检测模块可执行CRC类型的编码验证,用于验证例如传输没有增加空间数据的任何退化。
检测模块22还可读取从接收到的信号S′enc中获得的确定数值(未示出),这些数值表示可能的传输数据的层级的缺失。实际上,特别是在网络堵塞或在减少传输通道带宽的情况下,可不传输某些传输网络的要素,例如数据集。不被传输的数据集可对应例如声音的细节。当检测模块22读取指示某些数据删除的数据时,这些数据认为是缺失的。
隐蔽装置20包括用于存储多组指令的存储器单元21,各组指令都对应预测模型。
例如,根据第一预测模型,当空间数据ILD′(b,n)在帧n中以及给定的频率宽度b中认为是有缺陷的,那么我们选择:
W L ( 1 ) ( b , n ) = W L ( b , n - 1 )
W R ( 1 ) ( b , n ) = W R ( b , n - 1 )
那么,对应的指令包括复制从先前帧中获得的数值WR(b,n-1),WL(b,n-1)。
例如,根据第二预测模型,可选择:
W L ( 2 ) ( b , n ) = β + ( 1 - β ) . W L ( b , n - 1 )
W R ( 2 ) ( b , n ) = β + ( 1 - β ) . W R ( b , n - 1 ) ,
式中:β介于数值0和1之间。
因此,在具有一些缺陷空间数据的连续帧的情况中,
Figure BPA00001328781800125
Figure BPA00001328781800126
趋向于接近1,并因此多通道音频数据S′L(k)和S′R(k)近似于单通道数据M′(k)。否则,空间效果将逐步消除,恢复为单通道信号。
根据另一典型的预测模型,可选择:
W L ( 3 ) ( b , n ) = 2 . W L ( b , n - 1 ) - W L ( b , n - 2 )
W R ( 3 ) ( b , n ) = 2 . W R ( b , n - 1 ) - W R ( b , n - 2 )
否则:
W L ( 4 ) ( b , n ) = 1 2 . W L ( b , n - 1 ) + 1 2 W L ( b , n - 2 )
W R ( 4 ) ( b , n ) = 1 2 . W R ( b , n - 1 ) + 1 2 W R ( b , n - 2 )
或使用中值滤波器:
W L ( 5 ) ( b , n ) = Median ( W L ( b , n - 1 ) , W L ( b , n - 2 ) , . . . )
W R ( 5 ) ( b , n ) = Median ( W R ( b , n - 1 ) , W R ( b , n - 2 ) , . . . )
可选择性地确保衰减数值更稳定,例如在WL(b,n-i)和WR(b,n-i)中分别使用0.9.WL(b,n-i)和0.9.WR(b,n-i)。可将这些衰减数值存储在存储器单元中,以便通过使用上述任一模型来直接使用它们。
其它模型也可是例如更通常的预测类型:
W L ( m ) = Σ i = 1 P a i . W L ( b , n - i )
W R ( m ) = Σ i = 1 P a i . W R ( b , n - i )
具有预测的序列P。系数ai可随着时间演变并可使用Levinson-Durbin类型的算法进行更新。
这些模型的实施例可预测WL和WR的数值。此外,这些模型有可能预测变量ILD′(b,n)、W′L和W′R的数值或相类似的数值。
例如,当空间数据ILD′(b,n)在帧n以及给定频带b中缺失时,根据等效于上述第一模型的预测模型,选择ILD′(b,n)=ILD′(b,n-1)。然后,对应的指令包括复制从先前帧中获得的数值ILD′(b,n-1)。
评估模块23可执行不同指令组的指令。该模块23可被诸如各帧所激活,使得对应的空间数据ILD′(b,n)可被检测模块22认为是有效的,否则仅认为帧是有效的且其先前帧认为是有缺陷的。
当该模块23被激活时,执行存储的所有指令,在步骤307中以循环方式重复执行初始化、检测和递增的常规步骤的指令组,从而获得数值
Figure BPA00001328781800135
集,m索引使用的模块。
选择模块24根据实际接收到的空间数据ILD′(b,n),通过预测空间数值
Figure BPA00001328781800141
与评估空间数值WL和WR的比较,从这些模型中选择一个。
例如,对各个模型而言,在步骤308中根据预测数值
Figure BPA00001328781800142
Figure BPA00001328781800143
和评估数值WL(b,n)、WR(b,n)来计算近似数值
Figure BPA00001328781800144
Figure BPA00001328781800145
近似数值可包括例如各个预测的差异:
σ L , m 2 = E [ ( W L ( b , n ) - W L ( m ) ( b , n ) ) 2 ] ,
式中:E表示数学的期望值,根据例如:
E [ x 2 ] = 1 2 Σ n = 0 N - 1 x 2 ( n )
因此,接收到的N帧的序列用于确定N个
Figure BPA00001328781800148
数值并与N个评估数值WL(b,n)进行比较。
对右通道使用相同的公式。
此外,还可计算各个通道的递归方差,例如根据:
σ m , n 2 = α · σ m , n - 1 2 [ x 2 ] + ( 1 - α ) · x 2 ( n )
式中:α为时间常数,例如为0.975,以及
Figure BPA000013287818001410
表示在帧n中的评估差异。
根据另一实施例(未示出),根据实际接收到的数值,评估涉及所获得的数据WL和WR的数据
Figure BPA000013287818001411
概率(likelihood)以代替评估的差异。例如,例如可使用评估值集:
P m L = P ( W L ( m ) ( b , n ) / W L ( b , n ) )
P m R = P ( W R ( m ) ( b , n ) / W R ( b , n ) )
通过比较
Figure BPA000013287818001414
或Pm类型的评估值,就有可能选择在预测数值和评估数值间更合适的近似数值的预测模块。例如,确定可提供最优的隐蔽的模型的索引m*:在另一实施例中,这将是最小化
Figure BPA00001328781800151
或最大化Pm的索引。
出于简化的目的,可选择在单一通道(例如左通道)中最小化
Figure BPA00001328781800152
的索引。
该数值m*包括选择预测模型的标识符,并在步骤309中存储在存储单元21中。
显而易见的是,步骤307可在步骤302、304之前执行,也可以同时执行。在此各个步骤308包括从步骤304中获得数值,并且步骤308在步骤304之后执行。
因此,隐蔽装置20包括预测模块25,用于在接收到被认为是缺陷的空间数据情况下,在步骤310中根据标示为数值m*的模型预测空间数值
Figure BPA00001328781800153
为多通道重构部件27提供该数值,虽然空间数据有缺陷,但其后在步骤300中用于重构多通道数据S′L(k)和S′R(k)。
频率时间转换部件28(例如DSP)可根据重构的多通道数据S′L(k)和S′R(k)获得瞬时音频数据S′L(n)和S′R(n)。
图4示出了表示用于第二频率的子频带的WL(b,n)数值的典型演变,其中b=1。帧索引n以横坐标表示,而数值WL(1,n)以纵坐标表示。
对于大致对应第500至810帧之间帧的A部分而言,WL(1,n)的数值大多等于1,因此对应于相对的单通道声音信号。
对于B部分而言,WL(1,n)的数值对应位于左边的信号,而对于C部分而言,WL(1,n)的数值对应位于右边的信号。
对于D部分而言,WL(1,n)的数值对应位于不同位置的多个声音源。
最佳预测模型的选择可根据增益变化的类型而变化。
因此,对于A部分而言,重复从先前帧中获得的数值的模型会错误地导致重复WL(1,n)数值的峰值。更为明知的模型将包括选择对应单通道信号的随机数值或者权重从先前帧中获得的增益,使其逐步地接近1。
在另一方面,对于B和C部分而言,最明智的方法包括重复从先前帧中获得的增益数值。
对于D部分而言,当增益相对缓慢地演变时,因此可以预见:明智的方法是将对P个先前帧中所获得的增益进行加权平均。当立体声参数较快演变时,最明智的方法是返回单通道信号以避免任何失真。
因此,最明智的模型是根据从各帧之间的增益变化类型来改变。图3所示的方法可在无需人工干预的条件下选择最合适的预测模型。
最合适预测模型的选择可在缺陷数据的情况下获得较优质量的隐蔽。
图5示出了包括显示器502、键盘和中央单元的计算机。该中央单元包括用于存储包括对应上述方法步骤的指令的计算机程序。该中央单元进一步包括用于执行这些指令的连接至存储器500的处理器501。

Claims (10)

1.一种声音数据的处理方法,用于至少根据有限数量的通道和空间数据来重构多通道音频数据,所述方法包括检测接收到的帧的空间数据的有效性的步骤(306),如果所述检测显示所接收到的空间数据是有效的,则包括步骤:
a.空间数值(307)根据多个预测模型的各个模型进行预测;
以及,
b.选择预测模型,根据预测的空间数值和所接收到的空间数据来选择预测模型,使得在随后接收到缺陷空间数据的情况中,根据选定的模型预测空间数值,并且使用该预测空间数值来重构多通道音频数据,
其特征在于,在步骤b中:对于所述多个模型的各个模型,近似数值一方面根据与所述模型
Figure FSB0000121516870000012
相关的预测空间数值以及另一方面根据接收到的空间数据的评估数值(WL(b,n),WR(b,n))进行计算,以及,选择预测模型,所述预测模型具有在预测空间数值与所述评估数值之间显示更合适的所述近似数值。
2.根据权利要求1所述的方法,其特征在于,如果检测显示所接收到的空间数据有效,进一步包括在步骤a前的存储所述有效空间数据的步骤,并且其在随后接收到缺陷空间数据的情况下,根据所述存储的空间数据执行步骤b。
3.根据权利要求2所述的方法,其特征在于,所述步骤a在随后接收到缺陷空间数据的情况下根据所述存储的空间数据执行。
4.根据权利要求1所述的方法,其特征在于,所述步骤a和步骤b在接收有效帧后系统地执行,所述方法还包括在步骤b后将该选定的预测模型标识符写入存储器的步骤。
5.根据权利要求1所述的方法,其特征在于,所述预测空间数值包括增益
Figure FSB0000121516870000021
6.根据权利要求1所述的方法,其特征在于,所述预测空间数值包括延迟。
7.根据权利要求6所述方法,其特征在于,在步骤a和步骤b中:
对所接收到的帧序列中的各帧,可根据多个预测模型中的至少一个各个模型来预测空间数值
Figure FSB0000121516870000022
;以及,
对于所述模型,近似数值
Figure FSB0000121516870000023
一方面根据与所述模型相关的预测空间数值序列以及另一方面根据所接收到的帧序列的空间数据的评估数值序列(WL(b,n),WR(b,n))进行计算。
8.根据权利要求1所述方法,其特征在于,所述步骤a对对应于确定频带(b)的空间数据执行。
9.一种用于隐蔽缺陷数据的装置(20),其特征在于,包括:
存储器单元(21),用于存储多个指令组,各个指令组对应于预测模型;
接收部件,用于接收空间数据;
检测模块(22),用于检测由接收部件所接收到的空间数据的有效性;
评估模块(23),用于在所接收到的空间数据被检测模块检测为有效的情况下,并且,执行所述存储在存储器单元中各组指令来预测空间数值;以及,
选择模块(24),用于根据评估模块所预测的空间数值和根据接收部件所接收到的空间数据来选择预测模型,其中,对于多个模型的各个模型,近似数值
Figure FSB0000121516870000031
一方面根据与所述模型
Figure FSB0000121516870000032
相关的预测空间数值以及另一方面根据接收到的空间数据的评估数值(WL(b,n),WR(b,n))进行计算,以及,选择预测模型,所述预测模型具有在预测空间数值与所述评估数值之间显示更合适的所述近似数值;
隐蔽缺陷数据的装置进一步包括:
预测模块(25),用于在随后接收到被所述检测模块认为缺陷数据的情况下,根据选择模块所选择的所述模型来预测空间数值。
10.一种用于重构多通道音频数据的装置(26),其特征在于,所述装置包括:
多通道重构部件(27),用于至少根据单通道数据重构多通道音频数据;
根据权利要求9所述的隐蔽缺陷数据的装置(20),其中预测模块(25),用于在接收到被检测模块认为有缺陷的空间数据的情况下,向多通道重构部件提供用于多通道音频数据重构的预测空间数值。
CN200980134855.0A 2008-07-30 2009-07-03 多通道音频数据的重构 Active CN102138177B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0855249 2008-07-30
FR0855249 2008-07-30
PCT/FR2009/051304 WO2010012927A1 (fr) 2008-07-30 2009-07-03 Reconstruction de donnees audio multicanal

Publications (2)

Publication Number Publication Date
CN102138177A CN102138177A (zh) 2011-07-27
CN102138177B true CN102138177B (zh) 2014-05-28

Family

ID=40276118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980134855.0A Active CN102138177B (zh) 2008-07-30 2009-07-03 多通道音频数据的重构

Country Status (8)

Country Link
US (1) US8867752B2 (zh)
EP (1) EP2319037B1 (zh)
JP (1) JP5421367B2 (zh)
KR (1) KR101590919B1 (zh)
CN (1) CN102138177B (zh)
AT (1) ATE557387T1 (zh)
ES (1) ES2387869T3 (zh)
WO (1) WO2010012927A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5333257B2 (ja) * 2010-01-20 2013-11-06 富士通株式会社 符号化装置、符号化システムおよび符号化方法
US9237400B2 (en) 2010-08-24 2016-01-12 Dolby International Ab Concealment of intermittent mono reception of FM stereo radio receivers
US9601122B2 (en) 2012-06-14 2017-03-21 Dolby International Ab Smooth configuration switching for multichannel audio
EP2862166B1 (en) * 2012-06-14 2018-03-07 Dolby International AB Error concealment strategy in a decoding system
CN116665683A (zh) 2013-02-21 2023-08-29 杜比国际公司 用于参数化多声道编码的方法
CN104282309A (zh) 2013-07-05 2015-01-14 杜比实验室特许公司 丢包掩蔽装置和方法以及音频处理系统
CN107886960B (zh) * 2016-09-30 2020-12-01 华为技术有限公司 一种音频信号重建方法及装置
US10043523B1 (en) 2017-06-16 2018-08-07 Cypress Semiconductor Corporation Advanced packet-based sample audio concealment
KR102654181B1 (ko) * 2019-03-29 2024-04-02 텔레폰악티에볼라겟엘엠에릭슨(펍) 예측 코딩에서 저비용 에러 복구를 위한 방법 및 장치
EP4138396A4 (en) * 2020-05-21 2023-07-05 Huawei Technologies Co., Ltd. AUDIO DATA TRANSMISSION METHOD AND DEVICE ASSOCIATED

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1910655A (zh) * 2004-01-20 2007-02-07 弗劳恩霍夫应用研究促进协会 构造多通道输出信号或生成下混信号的设备和方法
CN101180675A (zh) * 2005-05-25 2008-05-14 皇家飞利浦电子股份有限公司 多通道信号的预测编码

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006173A (en) * 1991-04-06 1999-12-21 Starguide Digital Networks, Inc. Method of transmitting and storing digitized audio signals over interference affected channels
DE4111131C2 (de) * 1991-04-06 2001-08-23 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen digitalisierter Tonsignale
DE19526366A1 (de) * 1995-07-20 1997-01-23 Bosch Gmbh Robert Verfahren zur Redundanzreduktion bei der Codierung von mehrkanaligen Signalen und Vorrichtung zur Dekodierung von redundanzreduzierten, mehrkanaligen Signalen
US6181800B1 (en) * 1997-03-10 2001-01-30 Advanced Micro Devices, Inc. System and method for interactive approximation of a head transfer function
US6154452A (en) * 1999-05-26 2000-11-28 Xm Satellite Radio Inc. Method and apparatus for continuous cross-channel interleaving
EP1374429A4 (en) * 2001-03-05 2009-11-11 Intervideo Inc SYSTEMS AND METHOD FOR CODING AND DECODING REDUNDANT MOTION VECTORS IN COMPRESSED VIDEO BITSTRAMS
US7835916B2 (en) * 2003-12-19 2010-11-16 Telefonaktiebolaget Lm Ericsson (Publ) Channel signal concealment in multi-channel audio systems
SE527866C2 (sv) * 2003-12-19 2006-06-27 Ericsson Telefon Ab L M Kanalsignalmaskering i multikanalsaudiosystem
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1910655A (zh) * 2004-01-20 2007-02-07 弗劳恩霍夫应用研究促进协会 构造多通道输出信号或生成下混信号的设备和方法
CN101180675A (zh) * 2005-05-25 2008-05-14 皇家飞利浦电子股份有限公司 多通道信号的预测编码

Also Published As

Publication number Publication date
EP2319037A1 (fr) 2011-05-11
EP2319037B1 (fr) 2012-05-09
WO2010012927A1 (fr) 2010-02-04
US8867752B2 (en) 2014-10-21
ATE557387T1 (de) 2012-05-15
JP5421367B2 (ja) 2014-02-19
KR20110065447A (ko) 2011-06-15
ES2387869T3 (es) 2012-10-03
JP2011529579A (ja) 2011-12-08
CN102138177A (zh) 2011-07-27
US20110129092A1 (en) 2011-06-02
KR101590919B1 (ko) 2016-02-02

Similar Documents

Publication Publication Date Title
CN102138177B (zh) 多通道音频数据的重构
US7813513B2 (en) Multi-channel encoder
CN101036183B (zh) 用于立体声兼容的多声道音频编码/解码的方法和设备
EP1754222B1 (en) Energy dependent quantization for efficient coding of spatial audio parameters
US8798276B2 (en) Method and apparatus for encoding multi-channel audio signal and method and apparatus for decoding multi-channel audio signal
KR100737302B1 (ko) 호환성 다중-채널 코딩/디코딩
CN1748247B (zh) 音频编码
CN101853660B (zh) 用于双声道提示码编码方案和类似方案的散射声音整形
RU2124272C1 (ru) Способ определения вида кодирования, который следует выбирать для кодирования по меньшей мере двух сигналов
US9025775B2 (en) Apparatus and method for adjusting spatial cue information of a multichannel audio signal
US20110206223A1 (en) Apparatus for Binaural Audio Coding
JP2002526798A (ja) 複数チャネル信号の符号化及び復号化
CN103180898A (zh) 用于利用合成单元和混频器解码包括瞬时的信号的设备
US20130054253A1 (en) Audio encoding device, audio encoding method, and computer-readable recording medium storing audio encoding computer program
KR100745688B1 (ko) 다채널 오디오 신호 부호화/복호화 방법 및 장치
US20120121091A1 (en) Ambience coding and decoding for audio applications
US20110137661A1 (en) Quantizing device, encoding device, quantizing method, and encoding method
US20120163608A1 (en) Encoder, encoding method, and computer-readable recording medium storing encoding program
US9214158B2 (en) Audio decoding device and audio decoding method
EP2618330A2 (en) Audio coding device and method
US20150149185A1 (en) Audio encoding device and audio coding method
US20140006035A1 (en) Audio encoding device and audio encoding method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant