CN102138177B - 多通道音频数据的重构 - Google Patents
多通道音频数据的重构 Download PDFInfo
- Publication number
- CN102138177B CN102138177B CN200980134855.0A CN200980134855A CN102138177B CN 102138177 B CN102138177 B CN 102138177B CN 200980134855 A CN200980134855 A CN 200980134855A CN 102138177 B CN102138177 B CN 102138177B
- Authority
- CN
- China
- Prior art keywords
- data
- spatial data
- model
- space values
- receiving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 34
- 230000002950 deficient Effects 0.000 claims abstract description 11
- 230000007547 defect Effects 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 8
- 238000012360 testing method Methods 0.000 abstract description 6
- 208000029523 Interstitial Lung disease Diseases 0.000 description 25
- 230000005540 biological transmission Effects 0.000 description 13
- 210000004027 cell Anatomy 0.000 description 4
- 230000008034 disappearance Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000035807 sensation Effects 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000010363 phase shift Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000007850 degeneration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 210000002370 ICC Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000010988 intraclass correlation coefficient Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2420/00—Details of connection covered by H04R, not provided for in its groups
- H04R2420/03—Connection circuits to selectively connect loudspeakers or headphones to amplifiers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
一种音频数据的处理方法,其适用于至少根据减少的通道数量中的数据和空间数据重构多通道音频数据。进行检测来确定接收到的空间数据是否有效。如果检测为有效的,则根据多个模型中的各个模型来预测空间数值。预测模型根据因此而预测的空间数值和所接收到的空间数据来选择,使之能在随后接收到缺陷空间数据的情况下,根据所选择的模型来预测空间数值并使用该预测空间数值来重构多通道音频数据。
Description
本发明涉及用于隐蔽重构多通道音频数据中的缺陷空间数据。多通道的音频数据通常至少根据有限数量通道中的空间数据和音频数据(例如单通道的数据)来进行重构。
多通道音频数据一般是指具有多个独立的音轨。多个独立的声源可有助于为听众提供环绕声音的感觉(afford)。
特别是在家庭影院的应用中,多通道音频数据可包括例如双通道的立体声数据或者六通道的5.1数据。本发明还可应用在空间音频会议领域,在该应用中,对应于发言者的数据进行空间化处理,从而为听众提供发言者的声音是由特定空间位置产生的感觉。
空间数据用于根据更少数量通道的数据(例如单通道数据)来获得多通道的数据。这些空间数据能够例如包括通道间差异度(Inter-pathway level)或ILDs(通道间差异度)、通道间相关性或ICCs(通道间交叉相关性)、通道间延迟或ITDs(通道间时间差异)、通道间的相位差异或IPDs(通道间相位差异)、或者其它相类似的。
接收到至少包括单通道数据和空间数据的音频数据可能会有缺陷,即,某些数据出现缺失或发生错误。
这种缺陷传输的测试可通过CRC(循环冗余校验)编码类型的方法执行。
通常,可采用预测数值替换缺陷数值以减少缓解这些缺陷。这些预测数值可根据已知的预测模型确定。
有多个预测模型是公知的。例如,可选择任意数值、先前数值、根据先前接收到的音频数据通过线性预测或相似方法确定的数值作为预测数值。
当以有缺陷的方式接收单通道数据时,采用单通道的预测数值替换缺陷数值一般都可获得令人较为满意的效果。
但是,当以缺陷的方式接收空间数据时,采用预测数值来替换缺陷数值的效果就可能不令人满意。
空间数据随时间的强烈变化会使听众产生非常明显的声音源突然移位的感觉。
例如,如果缺陷数值替换成对应于空间缺失的任意数值,会产生使听众混乱的(disruptive)重新回到单声道声音的感觉,尤其是在双声道信号的情况。实际上,在人耳层面的3D空间中可准确回放的双声道的信号通常都对应在空间中相对固定的虚拟声音源。
因此,在重构多通道音频数据的过程中就需要更好地隐蔽缺陷空间数据。
根据本发明的第一个方面,本发明的目的是提供处理声音数据的方法,其用于至少根据有限数量的通道和空间数据来重构多通道音频数据,所述方法包括检测接收到的帧的空间数据的有效性的步骤。如果该检测显示这些空间数据是有效的,则包括步骤:
a.空间数值根据多个预测模型的各个模型进行预测;
b.选择预测模型,根据预测的空间数值和实际接收到的空间数据来选择预测模型,使得在随后接收到缺陷空间数据的情况中,根据选定的模型预测空间数值,并且使用该预测空间数值来重构多通道音频数据。
因此,被认为有效的空间数据可以用于在多个预测模型中选择预测模型,以便在被认为有缺陷的空间数据的接收情况中使用。这样根据内容自适应的方法能以比使用单一预测模型的现有技术更好的方式来减少空间数据的缺陷。
专业术语“有限数量的通道”可理解为比多通道数据的通道数量更少的通道数量。例如,有限数量通道的数据可以包括单通道数据。
空间数据和常见的接收到的音频数据可由传输通道产生。例如,这些数据可通过互联网接收。或者,接收的音频信号可从存储介质中读取,例如DVD(“数字通用磁盘”)或其它相类似的。本发明不限制接收的音频数据源。
接收的音频数据可以包括编码信号、解复用和/或解码信号、数值或其它相类似的。
步骤a和b在接收到有效的帧后进行系统执行。因此,可随时间而采用各种不同的处理。
尤其是,当为各个有效帧执行步骤a和b处理时,可在存储器中写入选定的预测模型的标识符,以便在随后接收到缺陷空间数据时,能够迅速获得需应用的预测模型。
此外,步骤a和b的执行是根据确定的条件实现,并且这样可能避免执行多余的计算。
例如,当认为帧是有效时,则空间数据至少暂时存储在存储器中。步骤a和步骤b仅在随后接收到的被认为是有缺陷的空间数据时执行(因此根据存储的数据)。因而,当没有必要执行时,这样的方法特别地避免了执行步骤a的预测。
根据另一实例,在接收到被认为有效的帧后而系统执行步骤a的预测,同时仅当接收到有缺陷的帧时才执行步骤b(根据存储在存储器中的先前一个或多个帧中的空间数据)。
有利的是,在步骤b的过程中,各个预测的空间数值与根据接收到的空间数据的评估数值进行比较。具体地,一方面根据由该模型预测空间数值,以及另一方面根据接收到的空间数据的评估数值,为各个模型计算近似数值。然后选择在预测数值与评估数值之间更合适的近似数值的预测模型。
评估数值可以是一个空间数据,例如评估数值可包括ILD。在这样的情况下,在步骤b的过程中,可直接将预测空间数值与接收的空间数据进行比较。
或者,评估数值可仅从空间数据中获得。例如,评估数值可包括对帧和确定频带的ILDs中产生的增益、延迟或者其它相类似。在这样的情况下,在步骤b中将预测的空间数值与根据接收到的空间数值获得的数值进行比较。
有利的是,对于至少一种模型,先前预测的空间数值还与对应的评估数值进行比较。因此,选择最适合的内容的预测模型可更合适地执行。
例如,有可能使用多个帧中接收到的空间数据,并且进行多个帧的预测数值与评估数值的比较。
具体地说,所接收到的一系列帧中的各个帧且对于至少一个模型,有可能根据这个模型来预测空间数值,从而预测一系列的空间数值。该模型一方面可根据所预测的一系列空间数值而另一方面根据一系列帧的数据所评估的一系列数值来计算其近似数值。
有利的是,在预测模型选择步骤中,不使用有缺陷的空间数据,从而避免误导这样的选择。
此外,还有可能使用例如从同一帧(one the same frame)中接收到的当前空间数据来选择预测模型。
数据由于在传输过程中或由数据存储介质的退化(degradations)而产生缺陷。本发明不限制引起这类缺陷的原因。例如,在按等级分层级传输(或称为可扩展编码)的情况下,发送器或传输网络的其它元件可选择不传输数据集,这时在接收到的空间数据中可能会缺失一些数据。
空间数据的缺陷特性可根据诸如CRC类型码已知方法进行测试。
本发明不限制将选择预测模型的标示符写入存储器的方法。例如,有可能将对应于该模型的程序指令选择性地复制至程序存储器,或在存储器中相当简单地存储模型名,选择性挥发(optionallyvolatile)。
在步骤a的过程中,根据预测模型来执行空间数值的预测,更具体地说,可根据模型来改变用于预测的数据。例如,对于将任意数值分配给空间数值构成的模型,则预测不需要数据。对于重新使用先前的空间数值和/或由先前空间数值的权重构成的模型,则在预测过程中需要使用该先前空间数值。
有利的是,步骤a对对应于给定频带的空间数据执行。因此,多个预测可在多个不同的频带中同步进行。实际上,在立体声信号的情况中,多数适合的预测模型的选择可与频率相关:可根据考虑的频带来选择不同的预测模型。
根据本发明的另一个方面,本发明的目的是提供包括通过处理器执行所述指令时的用于执行上述的方法的指令。
根据本发明的另一个方面,本发明的目的是提供用于隐蔽缺陷空间数据的装置。该装置包括可为一个或多个存储器的存储器单元,其用于存储多个指令组(suites of instruction),且各个指令组对应于预测模型。此外,该装置包括接收空间数据的部件。检测模块可检测通过接收部件接收到的空间数据的有效性。在接收到的空间数据被检测模块测试为有效的情况下,评估模块有可能执行存储在存储器单元中的各组指令来预测空间数值。选择模块有可能根据由评估模块所预测的空间数值和由接收部件所接收到的空间数据来选择预测模型。此外,隐蔽装置还包括预测模块,用于在所接收到的空间数据被测试模块测试为有缺陷时根据由选择模块所选择的模型来预测空间数值。
根据本发明的另一方面,本发明的目的是提供用于重构多通道音频数据的装置。该装置包括多通道重构部件,用于至少根据有限数量通道的数据(例如单通道数据)来重构多通道音频数据。该装置还包括上述的隐蔽装置。预测模块用于在接收到的空间数据被测试模块认为有缺陷时向多通道重构部件提供预测的空间数值,以便重构多通道音频数据。
用于重构多通道音频数据的装置可集成在处理器或其它包括电脑或HIFI系统类型的装置中,或者其它相类似的。
重构装置的不同的硬件部件,例如重构部件,隐蔽装置,测试模块以及其它相类似的,既可以是单独的,也可以是组合的。
本发明的其它特性或优点将通过参考下述附图的详细阐述更为明晰,其中:
-图1示出了典型的对话编码装置;
-图2示出了典型的解码装置,包括根据本发明一个实施例的典型重构装置;
-图3示出了根据本发明一个实施例的典型计算方法;
-图4示出了增益典型的可能演变;以及,
-图5示出了可执行根据本发明一个方面的计算机程序的装置。
相同标示符表示在各个图中表示相同或相似的物体。
在附图所示的实例中,多通道音频数据的通道数量确切地为2,但有可能为更多的数量。多个通道的音频数据例如可包括为在6通道中的5.1数据。本发明还可应用于空间音频会议的领域中。
具体地说,可参考MPEG环绕标准,它所阐述的树状结构可用于或仿真产生大于两个以上的通道。
在所述的实施例中,音频数据以帧或数据包的方式集中分组,并索引为n。
图1示出了典型的编码器,编码器的立体声信息通过频带传输并应用于频域。
为此目的,编码器集成了诸如DSP(数字信号处理器)的时间频率转换器10,它能执行诸如离散傅立叶变换或DFT、MDCT变换(改进离散余弦变换)、MCLT变换(调制复数重叠变换)的变换。
因此,可根据对应于左和右时序信号的SL(n)和SR(n)的数值来获得频率的左信号SL(k)和右信号SR(k)的数值。
然后,籍助于矩阵部件11对左通道SL(n)和右通道SR(n)的信号进行矩阵处理。
这些部件11可根据立体声信号SL(k)和SR(k)来确定单通道信号M(k)和残差信号E(k)。单通道信号M(k)通常为左信号SL(k)和右信号SR(k)的一半之和(half-sum)。残差信号E(k)可为左信号SL(n)和右信号SR(n)之间差异的一半。
提供合适的矩阵可使单通道信号M(k)传输更多的信息。为此目的,籍助于矩阵部件11所执行的方法可随着时间而演变,以避免消除在左右通道中反相的部分。
用于评估空间数据的部件12可根据单通道信号M(k)和残差信号E(k)评估例如立体声参数的空间数据。该领域的技术人员都熟知这些立体声参数,并且这些立体声参数可包括诸如通道相互层级差异(ILDS)、通道相关性(ICCS)差异和通道(IPDs/ITDs)间的延迟或相位差。
这些立体声参数ILD(b)可通过由变量b索引的频带确定。这些频带可根据近似人类感知的频率范围进行确定。例如,可根据考虑的频谱范围和期望的精度确定使用在8至20之间的频带。
量化、编码及复用部件13可量化并编码立体声参数ILD(b),使允许以较低的数据吞吐量进行传输。
在图1所示的变换域或在时间域中,单通道信号M(k)也可籍助于部件13进行量化和编码。标准的算法都可用于处理单通道信号M(k),例如ITU G.729.1或G.718类型的语音编码器。也可以是MPEG-4AAC或HE-AAC类型的通用音频编码器。
残差信号E(k)进行选择性地传输,也可以采用频域或时域中的该信号的专用的标准化的编码或传输技术。
量化、编码及复用部件13输出所获得的编码信号Senc通过诸如无线通道进行传输。
此外,编码器可产生多个单声道通道获得的数据,并且编码器输出所获得的数据通道的数量小于输入编码器的数据通道的数量。
图2示出了用于接收对应传输信号Senc的信号S′enc的典型的解码器。
解码器和解复用部件29可从接收到的信号S′enc中获得单通道数据M′(k)、空间数据ILD′(b)以及选择性获得残差数据E′(k)。
此外,解码器包括重构装置26,用于根据单通道数据M′(k)、空间数据ILD′(b)并且选择性的根据残差信号数据E′(k)来重构多通道的音频数据S′L(k)和S′R(k)。
图3示出籍助于图2的重构装置26执行的算法。因而,同时对两个图进行阐述。
重构装置26包括用于在缺陷空间数据ILD′(b)情况中提供替换数值的隐蔽装置20和用于适当重构的多通道重构部件27。
在步骤300中,多通道重构部件27可执行例如下述组合类型:
其中k表示考虑频率的索引;
b表示通过传输的立体声参数分配的带宽;
ML(k)是在步骤301中获得的频域左通道的信号,其根据单通道数据M′(k),通过使用本领域技术人员所熟知的对应左通道的相位平移或延迟产生,且该相位平移或延迟可从空间数据(未示出)获得;并且,
MR(k)是以相同的方法在步骤301中所获得的频域右通道的信号。
具体地说,如果不进行相位平移,则:
MR(k)=ML(k)=M′(k)
E′L是左通道的专用信号,其通过本领域技术人员所熟知的方法从选择传输的差异数据E′(k)中获得;
E′R是右通道的专用信号,其通过本领域技术人员所熟知的方法从选择传输的差异数据E′(k)中获得。
图3未示出获得E′L和E′R的步骤。
在不传输差异数据的情况下:
E′(k),E′L=E′R=0
WL和WR是从用于考虑的带宽b和帧n的空间数据ILD′(b,n)中产生的增益。
增益WL和WR可在步骤302中通过数值W′L和W′R以下式确定:
式中:ILD′(b,n)从帧n中接收到的空间数据ILD′(b)。
通过在0至1之间的时间常数α(例如α=0.8)进行的平滑处理在步骤304中执行如下:
WL(b,n)=α.W′L(b,n)+(1-α).WL(b,n-1),式中WL(b,n-1)表示从先前帧中获得的数值。
对于右通道而言,可在步骤304中执行相同的平滑处理:
WR(b,n)=α.W′R(b,n)+(1-α).WR(b,n-1),式中WR(b,n-1)表示从先前帧中获得数值。
此外,可使用从左通道获得的数值,例如通过:
WR(b,n)=2-WR(b,n)
隐蔽器件20有可能避免(avert)数据ILD′(b,n)的有可能遗失,使得无论怎样都可确定数据WR和WL。
隐蔽器件20包括接收部件(未示出),其用于在步骤305中接收空间数据ILD′(b,n)以及同时可选择性接收的单通道数据M′(k)和残差数据E′(k)。
这些接收部件可包括例如输入端口、输入引脚或其它相类似的。
检测模块22连接至这些接收部件,使之有可能在步骤306中检测空间数据ILD′(b)的有效性。这个检测模块可执行CRC类型的编码验证,用于验证例如传输没有增加空间数据的任何退化。
检测模块22还可读取从接收到的信号S′enc中获得的确定数值(未示出),这些数值表示可能的传输数据的层级的缺失。实际上,特别是在网络堵塞或在减少传输通道带宽的情况下,可不传输某些传输网络的要素,例如数据集。不被传输的数据集可对应例如声音的细节。当检测模块22读取指示某些数据删除的数据时,这些数据认为是缺失的。
隐蔽装置20包括用于存储多组指令的存储器单元21,各组指令都对应预测模型。
例如,根据第一预测模型,当空间数据ILD′(b,n)在帧n中以及给定的频率宽度b中认为是有缺陷的,那么我们选择:
那么,对应的指令包括复制从先前帧中获得的数值WR(b,n-1),WL(b,n-1)。
例如,根据第二预测模型,可选择:
式中:β介于数值0和1之间。
根据另一典型的预测模型,可选择:
否则:
或使用中值滤波器:
可选择性地确保衰减数值更稳定,例如在WL(b,n-i)和WR(b,n-i)中分别使用0.9.WL(b,n-i)和0.9.WR(b,n-i)。可将这些衰减数值存储在存储器单元中,以便通过使用上述任一模型来直接使用它们。
其它模型也可是例如更通常的预测类型:
具有预测的序列P。系数ai可随着时间演变并可使用Levinson-Durbin类型的算法进行更新。
这些模型的实施例可预测WL和WR的数值。此外,这些模型有可能预测变量ILD′(b,n)、W′L和W′R的数值或相类似的数值。
例如,当空间数据ILD′(b,n)在帧n以及给定频带b中缺失时,根据等效于上述第一模型的预测模型,选择ILD′(b,n)=ILD′(b,n-1)。然后,对应的指令包括复制从先前帧中获得的数值ILD′(b,n-1)。
评估模块23可执行不同指令组的指令。该模块23可被诸如各帧所激活,使得对应的空间数据ILD′(b,n)可被检测模块22认为是有效的,否则仅认为帧是有效的且其先前帧认为是有缺陷的。
近似数值可包括例如各个预测的差异:
式中:E表示数学的期望值,根据例如:
对右通道使用相同的公式。
此外,还可计算各个通道的递归方差,例如根据:
该数值m*包括选择预测模型的标识符,并在步骤309中存储在存储单元21中。
显而易见的是,步骤307可在步骤302、304之前执行,也可以同时执行。在此各个步骤308包括从步骤304中获得数值,并且步骤308在步骤304之后执行。
为多通道重构部件27提供该数值,虽然空间数据有缺陷,但其后在步骤300中用于重构多通道数据S′L(k)和S′R(k)。
频率时间转换部件28(例如DSP)可根据重构的多通道数据S′L(k)和S′R(k)获得瞬时音频数据S′L(n)和S′R(n)。
图4示出了表示用于第二频率的子频带的WL(b,n)数值的典型演变,其中b=1。帧索引n以横坐标表示,而数值WL(1,n)以纵坐标表示。
对于大致对应第500至810帧之间帧的A部分而言,WL(1,n)的数值大多等于1,因此对应于相对的单通道声音信号。
对于B部分而言,WL(1,n)的数值对应位于左边的信号,而对于C部分而言,WL(1,n)的数值对应位于右边的信号。
对于D部分而言,WL(1,n)的数值对应位于不同位置的多个声音源。
最佳预测模型的选择可根据增益变化的类型而变化。
因此,对于A部分而言,重复从先前帧中获得的数值的模型会错误地导致重复WL(1,n)数值的峰值。更为明知的模型将包括选择对应单通道信号的随机数值或者权重从先前帧中获得的增益,使其逐步地接近1。
在另一方面,对于B和C部分而言,最明智的方法包括重复从先前帧中获得的增益数值。
对于D部分而言,当增益相对缓慢地演变时,因此可以预见:明智的方法是将对P个先前帧中所获得的增益进行加权平均。当立体声参数较快演变时,最明智的方法是返回单通道信号以避免任何失真。
因此,最明智的模型是根据从各帧之间的增益变化类型来改变。图3所示的方法可在无需人工干预的条件下选择最合适的预测模型。
最合适预测模型的选择可在缺陷数据的情况下获得较优质量的隐蔽。
图5示出了包括显示器502、键盘和中央单元的计算机。该中央单元包括用于存储包括对应上述方法步骤的指令的计算机程序。该中央单元进一步包括用于执行这些指令的连接至存储器500的处理器501。
Claims (10)
1.一种声音数据的处理方法,用于至少根据有限数量的通道和空间数据来重构多通道音频数据,所述方法包括检测接收到的帧的空间数据的有效性的步骤(306),如果所述检测显示所接收到的空间数据是有效的,则包括步骤:
a.空间数值(307)根据多个预测模型的各个模型进行预测;
以及,
b.选择预测模型,根据预测的空间数值和所接收到的空间数据来选择预测模型,使得在随后接收到缺陷空间数据的情况中,根据选定的模型预测空间数值,并且使用该预测空间数值来重构多通道音频数据,
2.根据权利要求1所述的方法,其特征在于,如果检测显示所接收到的空间数据有效,进一步包括在步骤a前的存储所述有效空间数据的步骤,并且其在随后接收到缺陷空间数据的情况下,根据所述存储的空间数据执行步骤b。
3.根据权利要求2所述的方法,其特征在于,所述步骤a在随后接收到缺陷空间数据的情况下根据所述存储的空间数据执行。
4.根据权利要求1所述的方法,其特征在于,所述步骤a和步骤b在接收有效帧后系统地执行,所述方法还包括在步骤b后将该选定的预测模型标识符写入存储器的步骤。
6.根据权利要求1所述的方法,其特征在于,所述预测空间数值包括延迟。
8.根据权利要求1所述方法,其特征在于,所述步骤a对对应于确定频带(b)的空间数据执行。
9.一种用于隐蔽缺陷数据的装置(20),其特征在于,包括:
存储器单元(21),用于存储多个指令组,各个指令组对应于预测模型;
接收部件,用于接收空间数据;
检测模块(22),用于检测由接收部件所接收到的空间数据的有效性;
评估模块(23),用于在所接收到的空间数据被检测模块检测为有效的情况下,并且,执行所述存储在存储器单元中各组指令来预测空间数值;以及,
选择模块(24),用于根据评估模块所预测的空间数值和根据接收部件所接收到的空间数据来选择预测模型,其中,对于多个模型的各个模型,近似数值一方面根据与所述模型相关的预测空间数值以及另一方面根据接收到的空间数据的评估数值(WL(b,n),WR(b,n))进行计算,以及,选择预测模型,所述预测模型具有在预测空间数值与所述评估数值之间显示更合适的所述近似数值;
隐蔽缺陷数据的装置进一步包括:
预测模块(25),用于在随后接收到被所述检测模块认为缺陷数据的情况下,根据选择模块所选择的所述模型来预测空间数值。
10.一种用于重构多通道音频数据的装置(26),其特征在于,所述装置包括:
多通道重构部件(27),用于至少根据单通道数据重构多通道音频数据;
根据权利要求9所述的隐蔽缺陷数据的装置(20),其中预测模块(25),用于在接收到被检测模块认为有缺陷的空间数据的情况下,向多通道重构部件提供用于多通道音频数据重构的预测空间数值。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0855249 | 2008-07-30 | ||
FR0855249 | 2008-07-30 | ||
PCT/FR2009/051304 WO2010012927A1 (fr) | 2008-07-30 | 2009-07-03 | Reconstruction de donnees audio multicanal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102138177A CN102138177A (zh) | 2011-07-27 |
CN102138177B true CN102138177B (zh) | 2014-05-28 |
Family
ID=40276118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980134855.0A Active CN102138177B (zh) | 2008-07-30 | 2009-07-03 | 多通道音频数据的重构 |
Country Status (8)
Country | Link |
---|---|
US (1) | US8867752B2 (zh) |
EP (1) | EP2319037B1 (zh) |
JP (1) | JP5421367B2 (zh) |
KR (1) | KR101590919B1 (zh) |
CN (1) | CN102138177B (zh) |
AT (1) | ATE557387T1 (zh) |
ES (1) | ES2387869T3 (zh) |
WO (1) | WO2010012927A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5333257B2 (ja) * | 2010-01-20 | 2013-11-06 | 富士通株式会社 | 符号化装置、符号化システムおよび符号化方法 |
US9237400B2 (en) | 2010-08-24 | 2016-01-12 | Dolby International Ab | Concealment of intermittent mono reception of FM stereo radio receivers |
US9601122B2 (en) | 2012-06-14 | 2017-03-21 | Dolby International Ab | Smooth configuration switching for multichannel audio |
EP2862166B1 (en) * | 2012-06-14 | 2018-03-07 | Dolby International AB | Error concealment strategy in a decoding system |
CN116665683A (zh) | 2013-02-21 | 2023-08-29 | 杜比国际公司 | 用于参数化多声道编码的方法 |
CN104282309A (zh) | 2013-07-05 | 2015-01-14 | 杜比实验室特许公司 | 丢包掩蔽装置和方法以及音频处理系统 |
CN107886960B (zh) * | 2016-09-30 | 2020-12-01 | 华为技术有限公司 | 一种音频信号重建方法及装置 |
US10043523B1 (en) | 2017-06-16 | 2018-08-07 | Cypress Semiconductor Corporation | Advanced packet-based sample audio concealment |
KR102654181B1 (ko) * | 2019-03-29 | 2024-04-02 | 텔레폰악티에볼라겟엘엠에릭슨(펍) | 예측 코딩에서 저비용 에러 복구를 위한 방법 및 장치 |
EP4138396A4 (en) * | 2020-05-21 | 2023-07-05 | Huawei Technologies Co., Ltd. | AUDIO DATA TRANSMISSION METHOD AND DEVICE ASSOCIATED |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1910655A (zh) * | 2004-01-20 | 2007-02-07 | 弗劳恩霍夫应用研究促进协会 | 构造多通道输出信号或生成下混信号的设备和方法 |
CN101180675A (zh) * | 2005-05-25 | 2008-05-14 | 皇家飞利浦电子股份有限公司 | 多通道信号的预测编码 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6006173A (en) * | 1991-04-06 | 1999-12-21 | Starguide Digital Networks, Inc. | Method of transmitting and storing digitized audio signals over interference affected channels |
DE4111131C2 (de) * | 1991-04-06 | 2001-08-23 | Inst Rundfunktechnik Gmbh | Verfahren zum Übertragen digitalisierter Tonsignale |
DE19526366A1 (de) * | 1995-07-20 | 1997-01-23 | Bosch Gmbh Robert | Verfahren zur Redundanzreduktion bei der Codierung von mehrkanaligen Signalen und Vorrichtung zur Dekodierung von redundanzreduzierten, mehrkanaligen Signalen |
US6181800B1 (en) * | 1997-03-10 | 2001-01-30 | Advanced Micro Devices, Inc. | System and method for interactive approximation of a head transfer function |
US6154452A (en) * | 1999-05-26 | 2000-11-28 | Xm Satellite Radio Inc. | Method and apparatus for continuous cross-channel interleaving |
EP1374429A4 (en) * | 2001-03-05 | 2009-11-11 | Intervideo Inc | SYSTEMS AND METHOD FOR CODING AND DECODING REDUNDANT MOTION VECTORS IN COMPRESSED VIDEO BITSTRAMS |
US7835916B2 (en) * | 2003-12-19 | 2010-11-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Channel signal concealment in multi-channel audio systems |
SE527866C2 (sv) * | 2003-12-19 | 2006-06-27 | Ericsson Telefon Ab L M | Kanalsignalmaskering i multikanalsaudiosystem |
SE0402651D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Advanced methods for interpolation and parameter signalling |
-
2009
- 2009-07-03 ES ES09802568T patent/ES2387869T3/es active Active
- 2009-07-03 EP EP09802568A patent/EP2319037B1/fr active Active
- 2009-07-03 CN CN200980134855.0A patent/CN102138177B/zh active Active
- 2009-07-03 JP JP2011520560A patent/JP5421367B2/ja active Active
- 2009-07-03 US US13/056,169 patent/US8867752B2/en active Active
- 2009-07-03 KR KR1020117004404A patent/KR101590919B1/ko active IP Right Grant
- 2009-07-03 WO PCT/FR2009/051304 patent/WO2010012927A1/fr active Application Filing
- 2009-07-03 AT AT09802568T patent/ATE557387T1/de active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1910655A (zh) * | 2004-01-20 | 2007-02-07 | 弗劳恩霍夫应用研究促进协会 | 构造多通道输出信号或生成下混信号的设备和方法 |
CN101180675A (zh) * | 2005-05-25 | 2008-05-14 | 皇家飞利浦电子股份有限公司 | 多通道信号的预测编码 |
Also Published As
Publication number | Publication date |
---|---|
EP2319037A1 (fr) | 2011-05-11 |
EP2319037B1 (fr) | 2012-05-09 |
WO2010012927A1 (fr) | 2010-02-04 |
US8867752B2 (en) | 2014-10-21 |
ATE557387T1 (de) | 2012-05-15 |
JP5421367B2 (ja) | 2014-02-19 |
KR20110065447A (ko) | 2011-06-15 |
ES2387869T3 (es) | 2012-10-03 |
JP2011529579A (ja) | 2011-12-08 |
CN102138177A (zh) | 2011-07-27 |
US20110129092A1 (en) | 2011-06-02 |
KR101590919B1 (ko) | 2016-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102138177B (zh) | 多通道音频数据的重构 | |
US7813513B2 (en) | Multi-channel encoder | |
CN101036183B (zh) | 用于立体声兼容的多声道音频编码/解码的方法和设备 | |
EP1754222B1 (en) | Energy dependent quantization for efficient coding of spatial audio parameters | |
US8798276B2 (en) | Method and apparatus for encoding multi-channel audio signal and method and apparatus for decoding multi-channel audio signal | |
KR100737302B1 (ko) | 호환성 다중-채널 코딩/디코딩 | |
CN1748247B (zh) | 音频编码 | |
CN101853660B (zh) | 用于双声道提示码编码方案和类似方案的散射声音整形 | |
RU2124272C1 (ru) | Способ определения вида кодирования, который следует выбирать для кодирования по меньшей мере двух сигналов | |
US9025775B2 (en) | Apparatus and method for adjusting spatial cue information of a multichannel audio signal | |
US20110206223A1 (en) | Apparatus for Binaural Audio Coding | |
JP2002526798A (ja) | 複数チャネル信号の符号化及び復号化 | |
CN103180898A (zh) | 用于利用合成单元和混频器解码包括瞬时的信号的设备 | |
US20130054253A1 (en) | Audio encoding device, audio encoding method, and computer-readable recording medium storing audio encoding computer program | |
KR100745688B1 (ko) | 다채널 오디오 신호 부호화/복호화 방법 및 장치 | |
US20120121091A1 (en) | Ambience coding and decoding for audio applications | |
US20110137661A1 (en) | Quantizing device, encoding device, quantizing method, and encoding method | |
US20120163608A1 (en) | Encoder, encoding method, and computer-readable recording medium storing encoding program | |
US9214158B2 (en) | Audio decoding device and audio decoding method | |
EP2618330A2 (en) | Audio coding device and method | |
US20150149185A1 (en) | Audio encoding device and audio coding method | |
US20140006035A1 (en) | Audio encoding device and audio encoding method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |