JP5947971B2 - マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ - Google Patents
マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ Download PDFInfo
- Publication number
- JP5947971B2 JP5947971B2 JP2015503766A JP2015503766A JP5947971B2 JP 5947971 B2 JP5947971 B2 JP 5947971B2 JP 2015503766 A JP2015503766 A JP 2015503766A JP 2015503766 A JP2015503766 A JP 2015503766A JP 5947971 B2 JP5947971 B2 JP 5947971B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- channel
- signal
- parameter
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims description 139
- 238000000034 method Methods 0.000 title claims description 63
- 238000009499 grossing Methods 0.000 claims description 113
- 230000006870 function Effects 0.000 claims description 102
- 238000001228 spectrum Methods 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 16
- 230000007774 longterm Effects 0.000 description 13
- 230000008859 change Effects 0.000 description 11
- 230000011664 signaling Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 210000005069 ears Anatomy 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000013442 quality metrics Methods 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000003446 memory effect Effects 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 208000030459 obsessive-compulsive personality disease Diseases 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009257 reactivity Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
前記第1のオーディオチャネル信号について、前記第1のオーディオチャネル信号のオーディオチャネル信号値と、前記複数のオーディオチャネル信号のうちの他のオーディオチャネル信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、関数の組を決定するステップと、
前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第1の平滑化係数に基づく前記関数の組の平滑化に基づき、第1の組の符号化パラメータを決定するステップと、
前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、第2の平滑化係数に基づく前記関数の組の平滑化に基づき、第2の組の符号化パラメータを決定するステップと、
前記第1の組の符号化パラメータ及び/又は前記第2の組の符号化パラメータに対する品質基準に基づき、前記符号化パラメータを決定するステップと
を有する方法に関する。
前記第1のオーディオチャネル信号について、前記第1のオーディオチャネル信号のオーディオチャネル信号値と、前記複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、関数の組を決定するステップと、
前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第1の平滑化係数に基づく前記関数の組の平滑化に基づき、第1の組の符号化パラメータを決定するステップと、
前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、第2の平滑化係数に基づく前記関数の組の平滑化に基づき、第2の組の符号化パラメータを決定するステップと、
前記第1の組の符号化パラメータ及び/又は前記第2の組の符号化パラメータに対する品質基準に基づき、前記符号化パラメータを決定するステップと
を有する方法に関する。
前記第1のオーディオチャネル信号の前記オーディオチャネル信号値の周波数変換を決定するステップと、
前記リファレンスオーディオ信号の前記リファレンスオーディオ信号値の周波数変換を決定するステップと、
周波数サブバンドのサブセットの少なくとも夫々の周波数サブバンドについて、相互スペクトル又は相互相関として前記関数の組を決定するステップと
を有し、
前記関数の組の夫々の関数は、前記関数の組の当該関数が関連付けられる各々の周波数サブバンドにおいて、前記第1のオーディオチャネル信号の帯域制限された信号部分と、前記リファレンスオーディオ信号の帯域制限された部分との間で計算される。
前記フレームシーケンスに対する前記第2の組の符号化パラメータの連続する値の間の比較に基づき、前記第2の組の符号化パラメータの安定性パラメータを決定するステップと、
前記安定性パラメータに依存して、前記符号化パラメータを決定するステップと
を有する。
前記第1のオーディオチャネル信号について、前記第1のオーディオチャネル信号のオーディオチャネル信号値と、前記複数のオーディオチャネル信号のうちの他のオーディオチャネル信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、関数の組を決定する第1の決定部と、
前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第1の平滑化係数に基づく前記関数の組の平滑化に基づき、第1の組の符号化パラメータを決定する第2の決定部と、
前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、第2の平滑化係数に基づく前記関数の組の平滑化に基づき、第2の組の符号化パラメータを決定する第3の決定部と、
前記第1の組の符号化パラメータ及び/又は前記第2の組の符号化パラメータに対する品質基準に基づき、前記符号化パラメータを決定する符号化パラメータ決定部と
を有するマルチチャネルオーディオエンコーダに関する。
前記第1のオーディオチャネル信号について、前記第1のオーディオチャネル信号のオーディオチャネル信号値と、前記複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、関数の組を決定する第1の決定部と、
前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第1の平滑化係数に基づく前記関数の組の平滑化に基づき、第1の組の符号化パラメータを決定する第2の決定部と、
前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、第2の平滑化係数に基づく前記関数の組の平滑化に基づき、第2の組の符号化パラメータを決定する第3の決定部と、
前記第1の組の符号化パラメータ及び/又は前記第2の組の符号化パラメータに対する品質基準に基づき、前記符号化パラメータを決定する符号化パラメータ決定部と
を有するマルチチャネルオーディオエンコーダに関する。
オーディオチャネル信号x1について、オーディオチャネル信号x1のオーディオチャネル信号値x1[n]と、複数のオーディオチャネル信号のうちの他のオーディオチャネル信号x2又は複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号x1,x2から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号x2のリファレンスオーディオ信号値x2[n]とから、関数の組c[b]を決定するステップ101と、
マルチチャネルオーディオ信号のフレームシーケンスiに対する、第1の平滑化係数SMW1に基づく関数の組c[b]の平滑化に基づき、第1の組の符号化パラメータITD[b]を決定するステップ103aと、
マルチチャネルオーディオ信号のフレームシーケンスiに対する、第2の平滑化係数SMW2に基づく関数の組c[b]の平滑化に基づき、第2の組の符号化パラメータITD_inst[b]を決定するステップ105aと、
第1の組の符号化パラメータITD[b]及び/又は第2の組の符号化パラメータITD_inst[b]に対する品質基準に基づき、符号化パラメータITDを決定するステップ107aと
を有する。
第1の平滑化係数に基づき入力信号x1[n],x2[n]からパラメータITDの推定のために第1の関数c[b]を計算し101且つ関連する平滑化された関数csm[b]を計算する103a。
1.第1及び第2のチャネル信号x1[n]及びx2[n]のFFTを計算する。
2.周波数領域においてそれら2つのチャネルの相互相関c[n]を計算する。
2.1.相互相関c[n]を強平滑化し、第1の平滑化係数、すなわち、長期平滑化係数に関して夫々の周波数ビン(又は周波数バンド)のITD(チャネル間時間差の長期推定)を計算する。
2.2.相互相関c[n]を弱平滑化し、第2の平滑化係数、すなわち、短期平滑化係数に関して夫々の周波数ビン(又は周波数バンド)のITD_inst(チャネル間時間差の短期推定)を計算する。
3.ITD_instの平均及び標準偏差を計算する。
4.ITD_instの標準偏差が閾値よりも低い場合は、強平滑化された相互相関のメモリを、弱平滑化されたバージョンからの1つにより更新し、最終のITDとしてITD_instの平均を出力する。ITD_instの標準偏差が閾値よりも高い場合は、最終のITDとしてITDの平均を出力する。
オーディオチャネル信号x1について、オーディオチャネル信号x1のオーディオチャネル信号値x1[n]と、複数のオーディオチャネル信号のうちの他のオーディオチャネル信号x2又は複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号x1,x2から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号x2のリファレンスオーディオ信号値x2[n]とから、関数の組c[b]を決定するステップ101と、
マルチチャネルオーディオ信号のフレームシーケンスiに対する、第1の平滑化係数SMW1に基づく関数の組c[b]の平滑化に基づき、第1の組の符号化パラメータCLD[b]を決定するステップ103bと、
マルチチャネルオーディオ信号のフレームシーケンスiに対する、第2の平滑化係数SMW2に基づく関数の組c[b]の平滑化に基づき、第2の組の符号化パラメータCLD_inst[b]を決定するステップ105bと、
第1の組の符号化パラメータCLD[b]及び/又は第2の組の符号化パラメータCLD_inst[b]に対する品質基準に基づき、符号化パラメータCLDを決定するステップ107bと
を有する。
第1の平滑化係数に基づき入力信号x1[n],x2[n]からパラメータCLDの推定のために第1の関数c[b]を計算し101且つ関連する平滑化された関数csm[b]を計算する103b。
1.第1及び第2のチャネル信号x1[n]及びx2[n]のFFTを計算する。
2.周波数領域においてそれら2つのチャネルのエネルギen[n]を計算する。
2.1.エネルギen[n]を強平滑化し、第1の平滑化係数、すなわち、長期平滑化係数に関して夫々の周波数ビン(又は周波数バンド)のCLD(チャネル間レベル差の長期推定)を計算する。
2.2.エネルギen[n]を弱平滑化し、第2の平滑化係数、すなわち、短期平滑化係数に関して夫々の周波数ビン(又は周波数バンド)のCLD_inst(チャネル間レベル差の短期推定)を計算する。
3.CLD_instに基づきステレオイメージの安定性を確認する。
4.ステレオイメージが安定していない場合は、強平滑化されたエネルギのメモリを、弱平滑化されたバージョンからの1つにより更新し、最終のCLDとしてCLD_instを出力する。ステレオイメージが安定している場合は、最終のCLDとしてCLDを出力する。
チャネル間時間差の強平滑化バージョンITDの正及び負の値のカウントが実行される。正及び負のITDの平均及び標準偏差は、次のとおりに、ITDの符号に基づく:
第1及び第2のステップ209及び211で、時間周波数変換が入力チャネルに適用される。好ましい実施形態において、時間周波数変換は高速フーリエ変換(FFT)又は短時間フーリエ変換(STFT)である。代替の実施形態において、時間周波数変換はコサイン変調フィルタバンク又は複素フィルタバンクである。
チャネル間時間差の強平滑化バージョンITDの正及び負の値のカウントが実行される。正及び負のITDの平均及び標準偏差は、次のとおりに、ITDの符号に基づく:
s=0.5PGLTP+0.5PGLTP,HP
に従って計算される。ここで、PGLTPは、LPC(Linear Predictive Coding)(線形予測符号化)の残留信号rLPCとLTP(Long Term Prediction)(長期予測)の残留信号rLTPとのエネルギの比として測定される長期予測ゲインであり、PGLTP,HPは:
PGLTP,HP(n)=PGLTP(n)−PGLTP(n-1)+0.5PGLTP,HP(n-1)
に従って一次ハイパスフィルタにPGLTPを通すことによって取得される信号である。
en1_sm[b,i]=en1_sm_inst[b,i] 及び en2_sm[b,i]=en2_sm_inst[b,i]
第11のステップ333で、チャネル間レベル差の弱平滑化されたバージョンCLDは、最終の符号化パラメータCDLとして出力される。安定性フラグが0に等しい場合(経路N)、第12のステップ335で、チャネル間レベル差の強平滑化されたバージョンCDLは、最終の符号化パラメータCDLとして出力される。
オーディオチャネル信号(x1)について、オーディオチャネル信号(x1)のオーディオチャネル信号値(x1[n])と、複数のオーディオチャネル信号のうちの他のオーディオチャネル信号(x2)又は複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号(x1,x2)から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号(x2)のリファレンスオーディオ信号値(x2[n])とから、関数の組(c[b])を決定する第1の決定部と、
マルチチャネルオーディオ信号のフレームシーケンス(i)に対する、第1の平滑化係数(SMW1)に基づく関数の組(c[b])の平滑化に基づき、第1の組の符号化パラメータ(ITD[b],CLD[b])を決定する第2の決定部と、
マルチチャネルオーディオ信号のフレームシーケンス(i)に対する、第2の平滑化係数(SMW2)に基づく関数の組(c[b])の平滑化に基づき、第2の組の符号化パラメータ(ITD_inst[b],CLD_inst[b])を決定する第3の決定部と、
第1の組の符号化パラメータ(ITD[b],CLD[b])及び/又は第2の組の符号化パラメータ(ITD_inst[b],CLD_inst[b])に対する品質基準に基づき、符号化パラメータ(ITD,CLD)を決定する符号化パラメータ決定部と
を有する。
(ITDstd_pos<ITDstd_neg)||(Nbpos>=A*Nbneg)
に従って、正ITDの標準偏差ITDstd_posが、負ITDの標準偏差ITDstd_negに対して確認され、且つ、正のITD値の数が、第1の係数Aを乗じられた負のITD値Nbnegの数に対して確認される。ITDstd_pos<ITDstd_neg)又はNbpos>A*Nbnegの場合は、ステップ707で、ITDは正ITDの平均として選択される。そうでない場合は、ステップ709で、正及び負のITFの間の関係が更に確認される。
(ITDstd_neg<B*ITDstd_pos)
に従って、負ITDの標準偏差ITDstd_negが、第2の係数Bを乗じられた正ITDの標準偏差ITDstd_posに対して確認される。ITDstd_neg<B* ITDstd_posの場合は、ステップ715で、負ITDの平均の反対の値が、出力されるITDとして選択される。そうでない場合は、前のフレーム(Pre_itd)からのITDがステップ717で確認される。
(ITDstd_neg<ITDstd_pos)||(Nbneg>=A*Nbpos)
に従って、負ITDの標準偏差ITDstd_negは、正ITDの標準偏差ITDstd_posに対して確認され、かつ、負のITD値の数Nbnegは、第1の係数Aを乗じられた正のITD値の数Nbposに対して確認される。ITDstd_neg<ITDstd_pos又はNbneg>A*Nbposの場合は、ステップ711で、ITDは負ITDの平均として選択される。そうでない場合は、ステップ713で、負及び正のITDの間の関係が更に確認される。
(ITDstd_pos<B*ITDstd_neg)
に従って、正ITDの標準偏差ITDstd_posが、第2の係数Bを乗じられた負ITDの標準偏差ITDstd_negに対して確認される。ITDstd_pos<B*ITDstd_negの場合は、ステップ719で、正ITDの平均の反対の値が、出力されるITDとして選択される。そうでない場合は、前のフレーム(Pre_itd)からのITDがステップ721で確認される。
401 マルチチャネルオーディオ信号
403 ビットストリーム(出力信号)
405 パラメータ生成部
407 ダウンミックス信号生成部
409 オーディオ符号化部
411 ダウンミックス信号
413 符号化オーディオ信号
415 符号化パラメータ
417 結合部
500 パラメトリックオーディオデコーダ
501 マルチチャネルオーディオ信号
503 ビットストリーム(入力信号)
505 パラメータ分離部
507 合成部
509 復号化部
511 和信号
513 符号化信号
515 符号化パラメータ
517 ビットストリーム復号化部
521 パラメータ
601 パラメトリックステレオオーディオエンコーダ
603 パラメトリックステレオオーディオデコーダ
605 ステレオオーディオ信号(左チャネル)
607 ステレオオーディオ信号(右チャネル)
609 ビットストリーム
611 パラメータ生成部
613 空間パラメータ
615 ダウンミックス信号生成部
617 ダウンミックス信号
619 モノラル符号化部
621 符号化オーディオ信
623 ビットストリーム結合部
625 復号されたステレオオーディオ信号(左チャネル)
627 復号されたステレオオーディオ信号(右チャネル)
629 ビットストリーム復号化部
631 符号化パラメータ
633 符号化信号
635 モノラル復号化部
637 和信号
639 空間パラメータ分離部
641 空間パラメータ
643 合成部
Claims (13)
- マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちの第1のオーディオチャネル信号のための符号化パラメータを決定する方法であって、前記符号化パラメータがチャネル間時間差及び/又はチャネル間レベル差を有するチャネル間の差を有し、夫々のオーディオチャネルがオーディオチャネル信号値を有する方法において、
前記第1のオーディオチャネル信号について、前記第1のオーディオチャネル信号のオーディオチャネル信号値と、前記複数のオーディオチャネル信号のうちの他のオーディオチャネル信号又は前記複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、周波数サブバンドごとの相互スペクトル又は相互相関として関数の組を決定するステップと、
前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第1の平滑化係数に基づく前記関数の組の平滑化に基づき、第1の組の符号化パラメータを決定するステップと、
前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、前記第1の平滑化係数とは異なる第2の平滑化係数に基づく前記関数の組の平滑化に基づき、第2の組の符号化パラメータを決定するステップと、
前記第2の組の符号化パラメータの安定性に応じて前記第1の組の符号化パラメータ又は前記第2の組の符号化パラメータのいずれか一方に基づき、前記符号化パラメータを決定するステップと
を有する方法。 - 前記関数の組を決定する前記ステップは、
前記第1のオーディオチャネル信号の前記オーディオチャネル信号値の周波数変換を決定するステップと、
前記リファレンスオーディオ信号の前記リファレンスオーディオ信号値の周波数変換を決定するステップと、
周波数サブバンドのサブセットの少なくとも夫々の周波数サブバンドについて、相互スペクトル又は相互相関として前記関数の組を決定するステップと
を有し、
前記関数の組の夫々の関数は、前記関数の組の当該関数が関連付けられる各々の周波数サブバンドにおいて、前記第1のオーディオチャネル信号の帯域制限された信号部分と、前記リファレンスオーディオ信号の帯域制限された部分との間で計算される、
請求項1に記載の方法。 - 周波数サブバンドは、1又は複数の周波数ビンを有する、
請求項2に記載の方法。 - 前記符号化パラメータを決定する前記ステップは、前記第2の組の符号化パラメータの安定性を示す安定性パラメータを決定するステップを有する、
請求項1乃至3のうちいずれか一項に記載の方法。 - 前記符号化パラメータを決定する前記ステップは、
前記フレームシーケンスに対する前記第2の組の符号化パラメータの連続する値の間の比較に基づき前記第2の組の符号化パラメータの安定性パラメータを決定するステップと、
前記安定性パラメータに依存して前記符号化パラメータを決定するステップと
を有する、請求項4に記載の方法。 - 前記安定性パラメータは、前記第2の組の符号化パラメータの標準偏差に少なくとも基づく、
請求項4に記載の方法。 - 前記安定性パラメータは、前記マルチチャネルオーディオ信号の1つのフレームにわたって又は複数のフレームにわたって決定される、
請求項5又は6に記載の方法。 - 前記符号化パラメータを決定する前記ステップは、前記安定性パラメータが閾値を上回るのか、それとも下回るのかを決定することを含む、
請求項5乃至7のうちいずれか一項に記載の方法。 - 前記符号化パラメータを決定する前記ステップは、前記安定性パラメータが前記閾値を下回る場合に、メモリに記憶された前記第1の組の符号化パラメータを前記第2の組の符号化パラメータにより更新することにより、前記第2の組の符号化パラメータに基づき前記符号化パラメータを決定することを含む、
請求項8に記載の方法。 - 前記第1の平滑化係数に基づく前記関数の組の前記平滑化は、1から前記第1の平滑化係数を減じた結果を乗じられた前記関数の組と、前記第1の平滑化係数を乗じられた、先に当該平滑化をされた前記関数の組の第1の平滑化されたバージョンとの足し算として計算され、
前記第2の平滑化係数に基づく前記関数の組の前記平滑化は、1から前記第2の平滑化係数を減じた結果を乗じられた前記関数の組と、前記第2の平滑化係数を乗じられた、先に当該平滑化をされた前記関数の組の第2の平滑化されたバージョンとの足し算として計算される、
請求項1乃至9のうちいずれか一項に記載の方法。 - 前記第1の平滑化係数は、前記第2の平滑化係数よりも高い、
請求項1乃至10のうちいずれか一項に記載の方法。 - マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちの第1のオーディオチャネル信号のための符号化パラメータを決定するマルチチャネルオーディオエンコーダであって、前記符号化パラメータがチャネル間時間差及び/又はチャネル間レベル差を有するチャネル間の差を有し、夫々のオーディオチャネルがオーディオチャネル信号値を有するマルチチャネルオーディオエンコーダにおいて、
前記第1のオーディオチャネル信号について、前記第1のオーディオチャネル信号のオーディオチャネル信号値と、前記複数のオーディオチャネル信号のうちの他のオーディオチャネル信号又は前記複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、周波数サブバンドごとの相互スペクトル又は相互相関として関数の組を決定する第1の決定部と、
前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第1の平滑化係数に基づく前記関数の組の平滑化に基づき、第1の組の符号化パラメータを決定する第2の決定部と、
前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、前記第1の平滑化係数とは異なる第2の平滑化係数に基づく前記関数の組の平滑化に基づき、第2の組の符号化パラメータを決定する第3の決定部と、
前記第2の組の符号化パラメータの安定性に応じて前記第1の組の符号化パラメータ又は前記第2の組の符号化パラメータのいずれか一方に基づき、前記符号化パラメータを決定する符号化パラメータ決定部と
を有するマルチチャネルオーディオエンコーダ。 - コンピュータで実行される場合に該コンピュータに請求項1乃至11のうちいずれか一項に記載の方法を実行させるコンピュータプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2012/056340 WO2013149672A1 (en) | 2012-04-05 | 2012-04-05 | Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015518176A JP2015518176A (ja) | 2015-06-25 |
JP5947971B2 true JP5947971B2 (ja) | 2016-07-06 |
Family
ID=45952541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015503766A Active JP5947971B2 (ja) | 2012-04-05 | 2012-04-05 | マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ |
Country Status (7)
Country | Link |
---|---|
US (1) | US9449604B2 (ja) |
EP (1) | EP2834814B1 (ja) |
JP (1) | JP5947971B2 (ja) |
KR (1) | KR101621287B1 (ja) |
CN (1) | CN103460283B (ja) |
ES (1) | ES2571742T3 (ja) |
WO (1) | WO2013149672A1 (ja) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6216553B2 (ja) * | 2013-06-27 | 2017-10-18 | クラリオン株式会社 | 伝搬遅延補正装置及び伝搬遅延補正方法 |
WO2016066743A1 (en) * | 2014-10-31 | 2016-05-06 | Dolby International Ab | Parametric encoding and decoding of multichannel audio signals |
KR102605480B1 (ko) | 2014-11-28 | 2023-11-24 | 소니그룹주식회사 | 송신 장치, 송신 방법, 수신 장치 및 수신 방법 |
CN106033671B (zh) | 2015-03-09 | 2020-11-06 | 华为技术有限公司 | 确定声道间时间差参数的方法和装置 |
CN106033672B (zh) * | 2015-03-09 | 2021-04-09 | 华为技术有限公司 | 确定声道间时间差参数的方法和装置 |
ES2904275T3 (es) * | 2015-09-25 | 2022-04-04 | Voiceage Corp | Método y sistema de decodificación de los canales izquierdo y derecho de una señal sonora estéreo |
US10045145B2 (en) * | 2015-12-18 | 2018-08-07 | Qualcomm Incorporated | Temporal offset estimation |
WO2017125559A1 (en) * | 2016-01-22 | 2017-07-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatuses and methods for encoding or decoding an audio multi-channel signal using spectral-domain resampling |
US10832689B2 (en) | 2016-03-09 | 2020-11-10 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for increasing stability of an inter-channel time difference parameter |
US10304468B2 (en) * | 2017-03-20 | 2019-05-28 | Qualcomm Incorporated | Target sample generation |
CN108877815B (zh) * | 2017-05-16 | 2021-02-23 | 华为技术有限公司 | 一种立体声信号处理方法及装置 |
CN109215668B (zh) * | 2017-06-30 | 2021-01-05 | 华为技术有限公司 | 一种声道间相位差参数的编码方法及装置 |
CN109300480B (zh) | 2017-07-25 | 2020-10-16 | 华为技术有限公司 | 立体声信号的编解码方法和编解码装置 |
CN117292695A (zh) * | 2017-08-10 | 2023-12-26 | 华为技术有限公司 | 时域立体声参数的编码方法和相关产品 |
US10891960B2 (en) * | 2017-09-11 | 2021-01-12 | Qualcomm Incorproated | Temporal offset estimation |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
CN111341319B (zh) * | 2018-12-19 | 2023-05-16 | 中国科学院声学研究所 | 一种基于局部纹理特征的音频场景识别方法及系统 |
CN113129910B (zh) * | 2019-12-31 | 2024-07-30 | 华为技术有限公司 | 音频信号的编解码方法和编解码装置 |
CN111935624B (zh) * | 2020-09-27 | 2021-04-06 | 广州汽车集团股份有限公司 | 车内音响空间感的客观评价方法、系统、设备及存储介质 |
WO2022153632A1 (ja) * | 2021-01-18 | 2022-07-21 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 信号処理装置、及び、信号処理方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8843378B2 (en) * | 2004-06-30 | 2014-09-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
US9626973B2 (en) * | 2005-02-23 | 2017-04-18 | Telefonaktiebolaget L M Ericsson (Publ) | Adaptive bit allocation for multi-channel audio encoding |
US7983922B2 (en) * | 2005-04-15 | 2011-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing |
TWI396188B (zh) * | 2005-08-02 | 2013-05-11 | Dolby Lab Licensing Corp | 依聆聽事件之函數控制空間音訊編碼參數的技術 |
GB2466672B (en) | 2009-01-06 | 2013-03-13 | Skype | Speech coding |
ES2452569T3 (es) | 2009-04-08 | 2014-04-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato, procedimiento y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavización de valor fase |
-
2012
- 2012-04-05 EP EP12713720.6A patent/EP2834814B1/en active Active
- 2012-04-05 KR KR1020147029976A patent/KR101621287B1/ko active IP Right Grant
- 2012-04-05 CN CN201280003252.9A patent/CN103460283B/zh active Active
- 2012-04-05 WO PCT/EP2012/056340 patent/WO2013149672A1/en active Application Filing
- 2012-04-05 JP JP2015503766A patent/JP5947971B2/ja active Active
- 2012-04-05 ES ES12713720T patent/ES2571742T3/es active Active
-
2014
- 2014-09-26 US US14/498,625 patent/US9449604B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP2834814A1 (en) | 2015-02-11 |
US20150010155A1 (en) | 2015-01-08 |
JP2015518176A (ja) | 2015-06-25 |
CN103460283B (zh) | 2015-04-29 |
ES2571742T3 (es) | 2016-05-26 |
WO2013149672A1 (en) | 2013-10-10 |
CN103460283A (zh) | 2013-12-18 |
US9449604B2 (en) | 2016-09-20 |
KR101621287B1 (ko) | 2016-05-16 |
KR20140140101A (ko) | 2014-12-08 |
EP2834814B1 (en) | 2016-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5947971B2 (ja) | マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ | |
US9449603B2 (en) | Multi-channel audio encoder and method for encoding a multi-channel audio signal | |
US11887609B2 (en) | Apparatus and method for estimating an inter-channel time difference | |
US9401151B2 (en) | Parametric encoder for encoding a multi-channel audio signal | |
JP5189979B2 (ja) | 聴覚事象の関数としての空間的オーディオコーディングパラメータの制御 | |
JP5081838B2 (ja) | オーディオ符号化及び復号 | |
US8116459B2 (en) | Enhanced method for signal shaping in multi-channel audio reconstruction | |
JP5977434B2 (ja) | パラメトリック空間オーディオ符号化および復号化のための方法、パラメトリック空間オーディオ符号器およびパラメトリック空間オーディオ復号器 | |
US9275646B2 (en) | Method for inter-channel difference estimation and spatial audio coding device | |
JP2017058696A (ja) | インターチャネル差分推定方法及び空間オーディオ符号化装置 | |
CN104205211B (zh) | 多声道音频编码器以及用于对多声道音频信号进行编码的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151019 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160603 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5947971 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |