JP6718516B2 - ハイブリッドコンシールメント方法:オーディオコーデックにおける周波数および時間ドメインパケットロスの組み合わせ - Google Patents
ハイブリッドコンシールメント方法:オーディオコーデックにおける周波数および時間ドメインパケットロスの組み合わせ Download PDFInfo
- Publication number
- JP6718516B2 JP6718516B2 JP2018547304A JP2018547304A JP6718516B2 JP 6718516 B2 JP6718516 B2 JP 6718516B2 JP 2018547304 A JP2018547304 A JP 2018547304A JP 2018547304 A JP2018547304 A JP 2018547304A JP 6718516 B2 JP6718516 B2 JP 6718516B2
- Authority
- JP
- Japan
- Prior art keywords
- error concealment
- audio
- frequency
- concealment unit
- time domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 81
- 230000003595 spectral effect Effects 0.000 claims description 99
- 230000015572 biosynthetic process Effects 0.000 claims description 54
- 238000003786 synthesis reaction Methods 0.000 claims description 54
- 238000005070 sampling Methods 0.000 claims description 22
- 238000001914 filtration Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 11
- 230000002123 temporal effect Effects 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000013016 damping Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 239000011295 pitch Substances 0.000 description 155
- 230000005284 excitation Effects 0.000 description 127
- 230000005236 sound signal Effects 0.000 description 34
- 238000010586 diagram Methods 0.000 description 27
- 238000004458 analytical method Methods 0.000 description 22
- 238000001228 spectrum Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 15
- 238000013213 extrapolation Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 230000000737 periodic effect Effects 0.000 description 9
- 238000013459 approach Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 238000006467 substitution reaction Methods 0.000 description 8
- 230000000052 comparative effect Effects 0.000 description 7
- 230000007774 longterm Effects 0.000 description 7
- 230000007704 transition Effects 0.000 description 7
- 238000012805 post-processing Methods 0.000 description 6
- 238000011084 recovery Methods 0.000 description 6
- 238000005562 fading Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 239000002131 composite material Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 238000001308 synthesis method Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003362 replicative effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/125—Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0002—Codebook adaptations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
本発明に係る実施形態は、時間ドメインコンシールメント成分と周波数ドメインコンシールメント成分とに基づく符号化されたオーディオ情報におけるオーディオフレームのロスをコンシールメントためのエラーコンシールメントオーディオ情報を提供するためのエラーコンシールメントユニットを構築する。
近年、オーディオコンテンツのデジタル伝送と記憶に対して増大する要求がある。しかしながら、オーディオコンテンツは、1つ以上のオーディオフレーム(たとえば、符号化された周波数ドメイン表現または符号化された時間ドメイン表現のような、符号化された表現の形の)を備えるデータユニット(たとえば、パケット)が失われるリスクをもたらす信頼できないチャネル上をしばしば伝送される。いくつかの状況において、ロストオーディオフレーム(または1つ以上のロストオーディオフレームを備える、パケットのようなデータユニット)の反復(再送信)を要求することが可能である。しかしながら、これは、通常は実質的な遅延をもたらし、それ故にオーディオフレームの広範囲にわたるバッファリングを必要とする。他のケースでは、ロストオーディオフレームの反復を要求することがほとんど可能でない。
本発明によると、符号化されたオーディオ情報におけるオーディオフレームのロスをコンシールメントするためのエラーコンシールメントオーディオ情報を提供するためのエラーコンシールメントユニットである。エラーコンシールメントユニットは、第1の周波数範囲のための第1のエラーコンシールメントオーディオ情報成分を周波数ドメインコンシールメントを用いて提供するように構成される。エラーコンシールメントユニットはさらに、第1の周波数範囲よりも低い周波数を備える第2の周波数範囲のための第2のエラーコンシールメントオーディオ情報成分を時間ドメインコンシールメントを用いて提供するように構成される。エラーコンシールメントユニットはさらに、第1のエラーコンシールメントオーディオ情報成分と、第2のエラーコンシールメントオーディオ情報成分とを結合して、エラーコンシールメントオーディオ情報を得るように構成される(エラーコンシールメントに関する追加の情報も提供されるかもしれない)。
−第1の周波数範囲ための第1のエラーコンシールメントオーディオ情報成分を周波数ドメインコンシールメントを用いて提供するステップと、
−第1の周波数範囲よりも低い周波数を備える第2の周波数範囲のための第2のエラーコンシールメントオーディオ情報成分を時間ドメインコンシールメントを用いて提供するステップと、
−第1のエラーコンシールメントオーディオ情報成分と、第2のエラーコンシールメントオーディオ情報成分とを結合してエラーコンシールメントオーディオ情報を得るステップと、
を備える。
−入力オーディオ情報に基づいて符号化された周波数ドメイン表現を提供する周波数ドメイン符号化ステップ、および/または、入力オーディオ情報に基づいて符号化された線形予測ドメイン表現を提供する線形予測ドメイン符号化ステップと、
−時間ドメインエラーコンシールメントと周波数ドメインエラーコンシールメントとの間のクロスオーバー周波数をオーディオデコーダ側で使用されるように定義するクロスオーバー周波数情報を決定するためのクロスオーバー周波数を決定するステップと、
を備える。
本発明の実施形態は、以下の図面を参照して、引き続いて記述される。
本セクションでは、本発明の実施の形態を、図面を参照して説明する。
図1は、本発明の実施形態に係るコンシールメントユニット100の概略ブロック図を示す。
いくつかの情報が、時間ドメインコンシールメント106によって統合されるように、時間ドメインコンシールメントに関連してここでは提供される。
いくつかの情報が、周波数ドメインコンシールメント105によって統合されるように、周波数ドメインコンシールメントに関連してここでは提供される。しかしながら、本発明のエラーコンシールメントユニットにおいて、以下において説明する周波数ドメインエラーコンシールメントは制限された周波数範囲において実行される。
表1:補間されたウインドウシーケンスとウィンドウ形状(いくつかのAACファミリーデコーダとUSACで使用されているように)
図2は、本発明の一実施形態に係るオーディオデコーダ200の概略ブロック図を示す。オーディオデコーダ200は、たとえば、周波数ドメイン表現において符号化されたオーディオフレームを備えることができる符号化されたオーディオ情報210を受信する。符号化されたオーディオ情報210は、原理上、フレームロスが時々起こるような信頼できないチャネルを介して受信される。フレームが受信され、若しくはとても遅く検出され、又はビットエラーが検出されるかもしれない。これらの発生は、フレームロスの効果を有する。すなわち、フレームが復号化に利用可能ではない。これらの失敗の1つの応答として、デコーダをコンシールメントモードで実行することができる。オーディオデコーダ200は、更に符号化されたオーディオ情報210に基づいて復号化されたオーディオ情報212を提供する。
図3は、本発明の一実施形態に係るオーディオデコーダ300の概略ブロック図を示す。
図4は、本発明の他の実施形態に係るオーディオデコーダ400を示す。
図5は、本発明の一実施形態に係る時間ドメインエラーコンシールメントの概略ブロック図を示す。図5に係るエラーコンシールメントは、全体において500として示され、図1の時間ドメインコンシールメント106を具体化できる。しかしながら、簡略して表現するために図5で示されていないけれども、時間ドメインコンシールメントの入力(例えば、信号510に適用される)において用いられるかもしれないダウンサンプリング、および時間ドメインコンシールメントの出力において用いられるかもしれないアップサンプリング、およびローパスフィルタリングが適用されるかもしれない。
図5に係る実施形態において、全てのコンシールメントは、連続するフレーム間のよりスムースな遷移を得るために、励振ドメインにおいて行われる。それ故に、LPCパラメータの適当なセットを見つける(または、さらに一般的にいえば、取得する)ことが、最初に必要である。図5に係る実施形態において、LPC分析530は、過去のプリエンファサイズされた時間ドメイン信号522上で行われる。LPCパラメータ(またはLPCフィルタ係数)は、励振信号(たとえば時間ドメイン励振信号)を得るために、過去の合成信号のLPC分析を(たとえば、時間ドメインオーディオ信号510に基づいて、またはプリエンファサイズされた時間ドメインオーディオ信号522に基づいて)実行するために用いられる。
新しい信号(たとえば、エラーコンシールメントオーディオ情報)を造るために用いられるピッチを得るために、異なるアプローチがある。
前のフレームから取得された励振(たとえば、時間ドメイン励振信号)(ロストフレームに対して丁度演算されたかまたは多重のフレームロスに対して前のロストフレームにおいて既に保存されたかのいずれか)は、1つ半のフレームを得るために必要なだけ最後のピッチサイクルを複製することによって、ハーモニックパート(決定的な成分またはほぼ周期的な成分としても示される)を、励振に(たとえば、LPC合成の入力信号に)組み込むために用いられる。煩雑性を省くため、最初のロスフレームに対して1つ半のフレームを生成し、そして続くフレームロスに対して半フレームだけ処理をシフトし、各々1フレームのみを生成することができる。次に、オーバーラップの半フレームに常にアクセスする。
いくつかの実施形態において、所望のレベルに達するために、前に取得された励振上のゲインを適用することが好ましい。「ピッチのゲイン」(たとえば、時間ドメイン励振信号の決定的な成分のゲイン、すなわちLPC合成の入力信号を取得するために、前に復号化されたオーディオフレームから導き出された時間ドメイン励振信号に適用されたゲイン)は、たとえば、最後の良好な(たとえば、適切に復号化された)フレームの終わりにおいて時間ドメインで正規化相関を行うことによって取得することができる。相関の長さは、2つのサブフレームの長さに等しいとすることができる、または適応的に変えることができる。遅延は、ハーモニックパートの生成に対して用いられるピッチ遅延に等しい。また、オプションとして、最初のロストフレーム上でのみゲイン計算を実行し、引き続く連続するフレームロスに対してフェードアウト(低減されたゲイン)を適用するのみとすることもできる。
ランダムノイズ発生器によって、「イノベーション」が構築される。このノイズは、オプションとして更にハイパスフィルタリングされ、有声のおよび立上りのフレームに対してオプションとしてプリエンファサイズされる。ハーモニックパートのローパスに関しては、このフィルタ(たとえば、ハイパスフィルタ)はサンプリングレート依存である。このノイズ(たとえば、ノイズ生成560によって提供された)は、できる限りバックグラウンドノイズに近くなるように、LPCによって(たとえば、LPC合成580によって)成形される。ハイパス特性は、また、オプションとして、フルバンド成形されたノイズのみを得てバックグラウンドノイズに近い快適なノイズを得るために、特定の量のフレームロスの後、もはやフィルタリングのないことを断言するように、連続するフレームロス上で変えられる。
フェードアウトは、大部分は多重のフレームロスに対して用いられる。しかしながら、フェードアウトは、単一のオーディオフレームのみが失われたケースにおいても用いることができる。
時間ドメインに戻るために、デエンファシスに引き続く2つの励振(音のパートとノイズが多いパート)の合計についてLPC合成580を実行することが好ましい。違う言葉で表現すれば、ロストオーディオフレーム(音のパート)に先行する1つ以上の適切に復号化されたオーディオフレームに基づいて取得された時間ドメイン励振信号552とノイズ信号562(ノイズが多いパート)との重み付け結合に基づいてLPC合成580を実行することが好ましい。上述したように、時間ドメイン励振信号552は、LPC分析530(LPC合成580に対して用いられたLPC合成フィルタの特性を記述するLPC係数に加えて)によって取得された時間ドメイン励振信号532と比較したとき、修正することができる。たとえば、時間ドメイン励振信号552は、LPC分析530によって取得された時間ドメイン励振信号532の1回スケーリングされた複製とすることができ、時間スケーリングは、時間ドメイン励振信号552のピッチを所望のピッチに適応させるために用いることができる。
変換コーデックのみのケースにおいて、最高のオーバーラップ加算を得るために、コンシールされたフレームを超える半フレームに対して人工的な信号を生成し、その上に人工的なエイリアシングを生成する。しかしながら、異なるオーバーラップ加算コンセプトを適用するだろう。
図6は、スイッチコーデックに対して用いることができる、時間ドメインコンシールメントの概略ブロック図を示す。たとえば、図6に係る時間ドメインコンシールメント600は、たとえば、図3または図4のエラーコンシールメント380において、時間ドメインエラーコンシールメント106に置き換えることができる。
新しい信号を造るために用いられるピッチを取得するために異なるアプローチがある。
前のフレームから取得された(ロストフレームに対してちょうど演算されたかまたは多重のフレームロスに対して前のロストフレームにおいて既に保存されたかのいずれかの)励振(たとえば、時間ドメイン励振信号の形の)は、たとえば、1つ半の(ロスト)フレームを得るために必要に応じて何度でも、最後のピッチサイクル(たとえば、その時間的な継続期間がピッチの周期の継続期間に等しい、時間ドメイン励振信号610の部分)を複製することによって、励振(たとえば外挿された時間ドメイン励振信号662)にハーモニックパートを組み込むために用いられる。
図6に係る実施形態において、ゲインは、所望のレベルに到達するため、前に取得された励振に適用される。ピッチのゲインは、たとえば、最後の良好なフレームの終わりにおいて時間ドメインで正規化相関を行うことによって取得される。たとえば、相関の長さは2つのサブフレーム長に等しくすることができ、遅延は、ハーモニックパートの生成に対して(たとえば、時間ドメイン励振信号の複製に対して)用いられるピッチ遅延に等しくすることができる。時間ドメインにおいてゲイン計算を行うことは、励振ドメインにおいてそれを行うことより非常に信頼性の高いゲインを与えることが分かっている。LPCはフレームごとに変化し、前のフレーム上で計算された他のLPCセットによって処理される励振信号上のゲインは、時間ドメインにおいて期待されるエネルギーを与えない。
ランダムノイズ発生器660によって、イノベーションが構築される。このノイズは、更にハイパスフィルタリングされ、有声のおよび立上りのフレームに対してオプションとしてプリエンファサイズされる。有声のおよび立上りのフレームに対して選択的に実行することができる、ハイパスフィルタリングおよびプリエンファシスは、図6において明示的には示されていないが、たとえば、ノイズ発生器660内でまたはコンバイナ/フェーダ670内で実行することができる。
フェードアウトは、大抵は多重のフレームロスに対して用いられる。しかしながら、フェードアウトは、単一のオーディオフレームのみが失われたケースにおいても用いることができる。
時間ドメインに戻って、LPC合成680は、デエンファシス684によって追従される2つの励振(音のパート652およびノイズが多いパート662)の合計(または一般に、重み付け結合)上で実行される。
次のフレームのモードに何が来るか(たとえばACELP、TCXまたはFD)はコンシールメントの間知られていないので、前もって異なるオーバーラップを準備することが好ましい。次のフレームが変換ドメイン(TCXまたはFD)にある場合に最高のオーバーラップ加算を得るために、人工的な信号(たとえばエラーコンシールメントオーディオ情報)は、たとえば、コンシールされた(失われた)フレームを超える半フレームに対して生成することができる。さらに、人工的なエイリアシングをその上に生成することができる(人工的なエイリアシングは、たとえば、MDCTオーバーラップ加算に適応させることができる)。
特に良好なエラーコンシールメントは、時間ドメイン励振信号を外挿し、外挿の結果を、フェーディング(たとえばクロスフェーディング)を用いてノイズ信号と結合し、クロスフェーディングの結果に基づいてLPC合成を実行する上述されたコンセプトによって達成されることに留意すべきである。
周波数ドメインコンシールメントは図7に表現される。ステップ701で、最新のオーディオ情報が適切に復号化されたフレームを含む場合、決定される(例えば、CRCまたは類似する戦略に基づく)。決定の結果が肯定である場合、適切に復号化されたスペクトル値は適切なオーディオ情報として、702で使用される。スペクトルは、さらに使用されるためにバッファ703で記録される(例えば、将来不適切に復号化されたフレームについて、コンシールメントするために)。
図8aは、本発明の実施の形態に係るエラーコンシールメントの概略的なブロック図である。図8aに係るエラーコンシールメントユニットは、800として全体を指定され、上述のエラーコンシールメントユニット100、230、380のいずれかを具体化することができる。エラーコンシールメントユニット800は、符号化されたオーディオ情報におけるオーディオフレームのロスをコンシールメントするためのエラーコンシールメントオーディオ情報802(上述の実施の形態の情報102、232、または382を具体化することができる)を提供する。
図8bはエラーコンシールメントユニット800(図8aの実施の形態のすべての特徴は、現在の変形に適用でき、それゆえに、その特性は繰り返さない)についての変形例800bを示す。制御(たとえば、制御装置)813は、第1および/または第2の周波数範囲の決定および/または信号適応的に変更するように提供される。
図9は、符号化されたオーディオ情報におけるオーディオフレームのロスをコンシールメントするためのエラーコンシールメントオーディオ情報(たとえば、前の例において102、232、382、および802で示される)を提供するためのエラーコンシールメント方法のフローチャートを示す。方法は、
−910で、第1の周波数範囲ための第1のエラーコンシールメントオーディオ情報成分(たとえば、103または807´)を周波数ドメインコンシールメント(たとえば、105または805)を用いて提供するステップと、
−920(ステップ910と同時またはほとんど同時に実行することができる、または、ステップ910と並列にすることを意図することができる)で、第1の周波数範囲よりも(少なくともいくらか)低い周波数を備える第2の周波数範囲のための第2のエラーコンシールメントオーディオ情報成分(たとえば、104または811´)を時間ドメインコンシールメント(たとえば、106、500、600、または809)を用いて提供するステップと、
−930で、第1のエラーコンシールメントオーディオ情報成分と、第2のエラーコンシールメントオーディオ情報成分とを結合して、エラーコンシールメントオーディオ情報(たとえば、102、232、382、または802)を得るステップと、
を備える。
図10は、図8の制御813または類似する制御が第1および/または第2の周波数範囲を決定および/または信号適応的に変更するために使用される図9の変更のフローチャート1000を示す。図9の方法に関連して、この変更は、たとえば、ユーザ選択814に基づいてまたは閾値を有する値(たとえば、チルト値または調和値)の比較に基づいて、第1および第2の周波数範囲が決定されるステップ905を備える。
図19は、いくつかの実施の形態による本発明の実装に用いられる可能性があるオーディオエンコーダ1900を示す。
−第1の周波数範囲と第2の周波数範囲(たとえば、本明細書に記載するようなクロスオーバー周波数情報)に関連付けられた情報1932を備える符号化されたオーディオ情報を送信することができるオーディオエンコーダ1900。
−オーディオエンコーダは以下を備える。
○エラーコンシールメントユニット800bは以下を備える。
・周波数ドメインコンシールメントを用いて第1の周波数範囲について、第1のエラーコンシールメントオーディオ情報成分807´と、
・時間ドメインコンシールメント809を用いて第1の周波数範囲よりも低い周波数を備える第2の周波数範囲について、第2のエラーコンシールメントオーディオ情報成分811´
○エラーコンシールメントユニットは、エンコーダ1900によって送信された情報1932に基づいて制御(813)を実行するように構成される。
○エラーコンシールメントユニット800bは、第1のエラーコンシールメントオーディオ情報成分807´と第2のエラーコンシールメントオーディオ情報成分811´とを結合し、エラーコンシールメントオーディオ情報802を得るように構成される。
−入力オーディオ情報に基づいて符号化された周波数ドメイン表現(たとえば、1908)を提供する周波数ドメイン符号化ステップ2002、および/または、入力オーディオ情報に基づいて符号化された線形予測ドメイン表現(たとえば、1922)を提供するための線形予測ドメイン符号化ステップ(たとえば、ブロック1920によって実行される)と、
−時間ドメインエラーコンシールメント(たとえば、ブロック809によって実行される)と周波数ドメインエラーコンシールメント(たとえば、ブロック805によって実行される)との間のクロスオーバー周波数をオーディオデコーダ側で使用されるように定義するクロスオーバー周波数情報(たとえば、1932)を決定するためのクロスオーバー周波数を決定するステップ2004と、
を備え、
−符号化ステップは、符号化された周波数ドメイン表現および/または符号化された線形予測ドメイン表現、ならびにクロスオーバー周波数情報も符号化されたオーディオ表現に含むように構成される。
−オーディオコンテンツを表す符号化された周波数ドメイン表現(たとえば、1908)、および/またはオーディオコンテンツを表す符号化された線形予測ドメイン表現(たとえば、1922)と、
時間ドメインエラーコンシールメントと周波数ドメインエラーコンシールメントとの間のクロスオーバー周波数をオーディオデコーダ側で使用されるように定義するクロスオーバー周波数情報(たとえば、1932)と、を備える。
上記の開示に加えて、エラーコンシールメントユニットは、コンシールメントされたフレームを弱めることができる。図1、8a、8bを参照すると、フェードアウトは、第1のエラーコンシールメント成分105または807´を減衰するために、FDコンシールメント105または805(たとえば、図7の減衰係数708によって第1の周波数範囲705a、705bにおける周波数ビンのスケーリング値によって)で操作することができる。フェードアウトは、第2のエラーコンシールメント成分104または811´(結合器/減衰器570または上述のセクション5.5.6を参照)を減衰するために、適切な減衰係数によるスケーリング値によってTDコンシールメント809で操作することもできる。
本発明の操作例は、ここで提供される。オーディオデコーダ(たとえば、オーディオデコーダ200、300または400)において、いくつかのデータフレームは失われるかもしれない。したがって、エラーコンシールメントユニット(たとえば、100、230、380、800、800b)は、ロストデータフレームのそれぞれについて、前の適切に復号化されたオーディオフレームを用いてロストデータフレームをコンシールメントするために使用される。
−最初の部分または経路(たとえば、第1の周波数範囲で第1のエラーコンシールメントオーディオ情報成分807´を得るため)において、ロスト信号の周波数ドメイン高周波エラーコンシールメントは、前の適切に復号化されたオーディオフレームの周波数スペクトル表現(たとえば、803)を使用して実行され、
−並行におよび/または同時に(ほとんど同時に)、第2の部分または経路(たとえば、第2の周波数範囲で第2のエラーコンシールメントオーディオ情報成分を得るため)において、時間ドメインコンシールメントは、前の適切に復号化されたオーディオフレーム(たとえば、pcmバッファ値)の時間ドメイン表現(たとえば、804)に実行される。
FSOUTは、16KHz(主なサンプリング率)よりも通常高い(たとえば48kHz)である(しかし、必須ではない)。
−ダウンサンプル808において、適切に符号化されたオーディオフレームの時間ドメイン表現804が所望のコアサンプリング率(ここでは16kHz)にダウンサンプルされる。
−時間ドメインコンシールメントは、合成信号809´を提供するために、809で実行される。
−アップサンプル810において、合成信号809´が出力サンプル率(FSOUT)で信号810´を提供するためにアップサンプルされる
−最後に、信号810´は、ローパスフィルタ811で、好ましくはコアサンプル率(たとえば、16KHz)の半分のカットオフ周波数(ここでは8kHz)で、フィルタ処理される。
−周波数ドメインコンシールメント805は、(適切に復号化されたフレームの)入力スペクトルの高周波数部分をコンシールメントする。
−周波数ドメインコンシールメント805によって出力されるスペクトル805´は、合成信号806´として時間ドメイン(たとえば、IMDCT806を介して)変換される。
−合成信号806´は、コアサンプル率(たとえば、16KHz)の半分のカットオフ周波数(ここでは8kHz)を有するハイパスフィルタ807で好ましくはフィルタ処理される。
AAC[1]オーディオコーデックにおける従来のコンシールメント技術は、ノイズ置換である。周波数ドメインで働き、ノイズや音楽のアイテムによく適している。音声セグメントに対して、ノイズ置換は、時間ドメインにおいて煩わしい人為的なクリックに終わる位相不連続性をよく生成する。それゆえに、ACELPのような時間ドメインアプローチは、音声セグメント([2]、[3]においてTD−TCX PLCのように)にとって使用でき、分類子によって決定される。
低周波数部分の時間ドメインコンシールメント方法であって、音声信号が最も高い印象を有する時間ドメインコンシールメント方法と、
高周波数部分の周波数ドメインコンシールメント方法であって、音声信号がノイズ特性を有する周波数ドメインコンシールメント方法と、を使用する。
第1の最後のpcmバッファは所望のコアサンプリング率(ここでは16kHz)にダウンサンプルされる。
高周波数部分について、任意の周波数ドメインコンシールメントを適用できる。ここで、AAC−ELDオーディオコーデック内のノイズ置換は、使用されるだろう。このメカニズムは、最後の良好なフレームの複製されたスペクトルを使用して、時間ドメインに戻るためにIMDCTが適用される前に、ノイズを追加する。
低周波数および高周波数部分を結合するために、オーバーラップ加算メカニズムが時間ドメインにおいて実行される。AACのようなコーデックについて、これは、1つ以上のフレームが1つのコンシールメントされたフレームについて更新されなければならないということを意味する。なぜなら、OLAの分析や合成方法は半フレームの遅延を有するからである。IMDCTが1つのフレームだけを生成し、したがって、追加の半フレームが必要とされる。そして、IMDCTは、時間ドメインにおいて、2つの連続するフレームを得るために2回呼び出される。
最後の良好なフレームの調和とチルトに基づくTDおよびFDコンシールメントの間のクロスオーバー周波数を動的に適用することが可能である。たとえば、背景ノイズがある女性の音声情報のケースにおいて、信号を5khzにダウンサンプルすることができ、時間ドメインコンシールメントが信号の最も重要な部分について良好なコンシールメントを実行するだろう。ノイズ部分は、そのあと周波数ドメインコンシールメント方法で合成されるだろう。これは、修正されたクロスオーバー(または修正されたダウンサンプル係数)と比較して複雑性が減少し、煩わしい「ビープ」効果を除去するだろう(図12ないし図14参照)。
図13は、完全な周波数範囲上のTDコンシールメントを示す。図14は、ハイブリッドのコンシールメントを示す。すなわち、TDコンシールメントを有する0から2.5kHz(参照番号1402)と、FDコンシールメントを有する上側の周波数(参照番号1401)とである。
実施の形態は、ハイブリッドコンシールメント方法に関し、オーディオコーデックのための周波数および時間ドメインコンシールメントを備える。言い換えれば、実施の形態は、オーディオコーデックのための周波数および時間ドメインにおいてハイブリッドコンシールメント方法に関連する。
いくつかの態様が装置の文脈において記載されてきたが、これらの態様は対応する方法の記述をも表すことは明らかであり、ブロックまたはデバイスは方法ステップまたは方法ステップの機能に対応する。同様に、方法ステップの文脈において記載された態様は、対応する装置の対応するブロック、アイテムまたは機能の記述をも表す。いくつかのまたはすべての方法ステップは、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって(または用いて)実行することができる。いくつかの実施形態において、いくつかの1つ以上の最も重要な方法ステップは、このような装置によって実行することができる。
[1] 3GPP TS 26.402 "Enhanced aacPlus general audio codec; Additional decoder tools (Release 11)",
[2] J. Lecomte, et al, "Enhanced time domain packet loss concealment in switched speech/audio codec", submitted to IEEE ICASSP, Brisbane, Australia, Apr.2015.
[3] WO 2015063045 A1
[4] "Apparatus and method for improved concealment of the adaptive codebook in ACELP−like concealment employing improved pitch lag estimation", 2014, PCT/EP2014/062589
[5] "Apparatus and method for improved concealment of the adaptive codebook in ACELP−like concealment employing improved pulse "synchronization", 2014, PCT/EP2014/062578
Claims (39)
- ロストオーディオフレームが、少なくとも1つの前記ロストオーディオフレームに先行する適切に復号化されたオーディオフレームに基づいてコンシールメントされるように、符号化されたオーディオ情報におけるオーディオフレームのロスをコンシールメントするためのエラーコンシールメントオーディオ情報(102、232、382、802)を提供するためのエラーコンシールメントユニット(100、230、380、800、800b)であって、
前記エラーコンシールメントユニットは、第1の周波数範囲(1401)のための第1のエラーコンシールメントオーディオ情報成分(103、807´)を周波数ドメインコンシールメント(105、704、805、910)を用いて提供するように構成され、
前記エラーコンシールメントユニットはさらに、前記第1の周波数範囲よりも低い周波数を備える第2の周波数範囲(1402)のための第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)を時間ドメインコンシールメント(106、500、600、809、920)を用いて提供するように構成され、
前記エラーコンシールメントユニットはさらに、前記第1のエラーコンシールメントオーディオ情報成分(103、807´)と前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)とを結合して、前記エラーコンシールメントオーディオ情報を得るように構成される、エラーコンシールメントユニット。 - 請求項1に記載のエラーコンシールメントユニットであって、
前記エラーコンシールメントユニットは、前記第1のエラーコンシールメントオーディオ情報成分(103、807´)が所定のロストオーディオフレームの高周波数部分を示し、
前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)が前記所定のロストオーディオフレームの低周波数部分を示し、
前記所定のロストオーディオフレームに関連付けられたエラーコンシールメントオーディオ情報は、前記周波数ドメインコンシールメント(105、704、805、910)および前記時間ドメインコンシールメント(106、500、600、809、920)の双方を用いて得られるように構成される、エラーコンシールメントユニット。 - 請求項1または請求項2の1つに記載のエラーコンシールメントユニットであって、
前記エラーコンシールメントユニットは、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームの高周波数部分の変換ドメイン表現を用いて前記第1のエラーコンシールメントオーディオ情報成分(103、807´)を導き出すように構成される、および/または、
前記エラーコンシールメントユニットは、前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームの低周波数部分に基づいて、時間ドメイン信号合成を用いて前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)を導き出すように構成される、エラーコンシールメントユニット。 - 請求項3に記載のエラーコンシールメントユニットであって、
前記エラーコンシールメントユニットは、前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームの前記高周波数部分の前記変換ドメイン表現のスケーリングされた複製またはスケーリングされていない複製を用いて、
前記ロストオーディオフレームの前記高周波数部分の変換ドメイン表現を得て、
前記ロストオーディオフレームの前記高周波数部分の前記変換ドメイン表現を、前記時間ドメインに変換して、前記第1のエラーコンシールメントオーディオ情報成分(103、807´)である時間ドメイン信号成分を得るように構成される、エラーコンシールメントユニット。 - 請求項3または請求項4に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームの前記低周波数部分に基づいて、1つ以上の合成刺激パラメータと1つ以上の合成フィルタパラメータとを得て、
信号合成を用いて前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)を得るように構成され、前記信号合成の刺激パラメータおよびフィルタパラメータは前記得られた合成刺激パラメータと前記得られた合成フィルタパラメータに基づいて導き出される、または、前記得られた合成刺激パラメータと前記得られた合成フィルタパラメータと等しい、エラーコンシールメントユニット。 - 請求項1ないし請求項5のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記第1および/または第2の周波数範囲(1401、1402)を決定および/または信号適応的に変更する制御(813)を実行するように構成される、エラーコンシールメントユニット。
- 請求項6に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、1つ以上の符号化されたオーディオフレームの特徴と1つ以上の適切に復号化されたオーディオフレームの特徴との間で選択された特徴に基づいて前記制御(813)を実行するように構成される、エラーコンシールメントユニット。
- 請求項6または請求項7に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、1つ以上の適切に復号化されたオーディオフレームの調和についての情報を得て、前記調和に関する情報に基づいて前記制御(813)を実行するように構成され、
前記エラーコンシールメントユニットは、1つ以上の適切に復号化されたオーディオフレームのスペクトルチルトについての情報を得て、前記スペクトルチルトについての前記情報に基づいて前記制御(813)を実行するように構成される、エラーコンシールメントユニット。 - 請求項8に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記第2の周波数範囲における前記調和と比べた時に、前記第1の周波数範囲における前記調和が比較的小さくなるように、前記第1の周波数範囲(1401)および前記第2の周波数範囲(1402)を選択するように構成される、エラーコンシールメントユニット。
- 請求項8または請求項9に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームが調和の閾値よりも強い調和を備える周波数の上限を決定し、それに依存して、前記第1の周波数範囲(1401)および前記第2の周波数範囲(1402)を選択するように構成される、エラーコンシールメントユニット。
- 請求項8ないし請求項10の1つに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームのスペクトルチルトがより小さいスペクトルチルトからより大きいスペクトルチルトに変化する周波数境界を決定または推定し、それに依存して、前記第1の周波数範囲および前記第2の周波数範囲を選択するように構成される、エラーコンシールメントユニット。
- 請求項6ないし請求項11のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニット(800b)は、エンコーダが送信する情報に基づいて前記制御(813)を実行するように構成される、エラーコンシールメントユニット。
- 請求項1ないし請求項12の1つに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記第1の周波数範囲がノイズ状のスペクトル構造を備えるスペクトル領域をカバーし、前記第2の周波数範囲が高調波スペクトル構造を備えるスペクトル領域をカバーするように、前記第1の周波数範囲および前記第2の周波数範囲を調整するように構成される、エラーコンシールメントユニット。
- 請求項1ないし請求項13のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、調和とノイズとの間のエネルギー関係に依存して、前記第1の周波数範囲(1401)の低周波数端および/または前記第2の周波数範囲(1402)の高周波数端を調節するために、制御を実行するように構成される、エラーコンシールメントユニット。
- 請求項1ないし請求項14のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記時間ドメインコンシールメント(106、500、600、809、920)および周波数ドメインコンシールメント(105、704、805、910)の少なくとも1つを選択的に抑制するために制御を実行する、および/または、時間ドメインコンシールメント(106、500、600、809、920)だけ、または、前記周波数ドメインコンシールメント(105、704、805、910)だけを実行して、前記エラーコンシールメントオーディオ情報を得るように構成される、エラーコンシールメントユニット。
- 請求項15に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームのスペクトルチルトの変動が、所定の周波数範囲にわたって予め定められたスペクトルチルトの閾値よりも小さいかどうかを決定または推定し、
前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームのスペクトルチルトの前記変動が前記予め定められたスペクトルチルトの閾値よりも小さいことがわかった場合にのみ、前記時間ドメインコンシールメントを用いて前記エラーコンシールメントオーディオ情報を得るように構成される、エラーコンシールメントユニット。 - 請求項15または請求項16に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームの調和が予め定められた調和の閾値よりも小さいかどうかを決定または推定し、
前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームの調和が前記予め定められた調和の閾値よりも小さいことがわかった場合にのみ、前記周波数ドメインコンシールメントを用いて前記エラーコンシールメントオーディオ情報を得るように構成される、エラーコンシールメントユニット。 - 請求項1ないし請求項17のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームのピッチに基づいて、および/または、前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームにおける前記ピッチの経時的推移に依存して、および/または前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームと前記ロストオーディオフレームの後に続く適切に復号化されたオーディオフレームとの間の前記ピッチの補間に依存して、コンシールメントされたフレームのピッチを適合させるように構成される、エラーコンシールメントユニット。
- 請求項1ないし請求項18のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットはさらに、オーバーラップ加算すなわちOLAメカニズム(107、812、930)を用いて、前記第1のエラーコンシールメントオーディオ情報成分(103、807´)と前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)とを結合(930)するように構成される、エラーコンシールメントユニット。
- 請求項1ないし請求項19のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)が、オーバーラップ加算(812)が可能なように、前記ロストオーディオフレーム(1102)よりも少なくとも25パーセント長い継続時間を備えるように、前記第2のエラーコンシールメントオーディオ情報成分(104,512,612,811´)を提供するように構成される、エラーコンシールメントユニット。
- 請求項1ないし請求項20のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記第1のエラーコンシールメントオーディオ情報成分の時間ドメイン表現(806´)を得るために、前記周波数ドメインエラーコンシールメント(805)によって得られたスペクトルドメイン表現に基づいて、逆修正離散コサイン変換、すなわちIMDCT、(806)を実行するように構成される、エラーコンシールメントユニット。
- 請求項21に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、IMDCT(806)を2回実行して、前記時間ドメインにおいて2つの連続するフレームを得るように構成される、エラーコンシールメントユニット。
- 請求項1ないし請求項22のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記周波数ドメインコンシールメント(105、704、805、910)の下流側の前記第1のエラーコンシールメントオーディオ情報成分(103、806´)のハイパスフィルタリング(807)を実行するように構成される、エラーコンシールメントユニット。
- 請求項23に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、6KHzと10KHzとの間、好ましくは7KHzと9KHzとの間、より好ましくは7.5KHzと8.5KHzとの間、さらに好ましくは7.9KHzと8.1KHzとの間、さらに好ましくは8KHzのカットオフ周波数でハイパスフィルタリング(807)を実行するように構成される、エラーコンシールメントユニット。
- 請求項23または請求項24に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記ハイパスフィルタリング(807)の低周波数境界を信号適応的に調節して、それによって、前記第1の周波数範囲(1401)の帯域幅を変更するように構成される、エラーコンシールメントユニット。
- 請求項1ないし請求項25のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記ロストオーディオフレームに先行するオーディオフレームのダウンサンプルされた時間ドメイン表現(808´)であって、前記ダウンサンプルされた時間ドメイン表現は前記ロストオーディオフレームに先行する前記オーディオフレームの低周波数部分だけを表す、ダウンサンプルされた時間ドメイン表現(808´)を得るために、前記ロストオーディオフレームに先行するオーディオフレームの時間ドメイン表現(804)をダウンサンプル(808)し、
前記ロストオーディオフレームに先行する前記オーディオフレームの前記ダウンサンプルされた時間ドメイン表現(808´)を用いて前記時間ドメインコンシールメント(106、500、600、809、920)を実行し、
前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)を得るために、前記時間ドメインコンシールメント(106、500、600、809、920)によって提供されるコンシールメントされたオーディオ情報(809´)またはその後処理されたバージョンをアップサンプル(810)して、
前記時間ドメインコンシールメント(106、500、600、809、920)が、前記ロストオーディオフレームに先行する前記オーディオフレームを完全に表すのに必要なサンプリング周波数よりも小さいサンプリング周波数を用いて実行されるように構成された、エラーコンシールメントユニット。 - 請求項26に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記ダウンサンプルされた時間ドメイン表現(808´)のサンプリング率を信号適応的に調節し、それによって前記第2の周波数領域(1402)の帯域幅を変更するように構成される、エラーコンシールメントユニット。
- 請求項1ないし請求項27の1つに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、減衰係数を用いてフェードアウトを実行するように構成される、エラーコンシールメントユニット。
- 請求項1ないし請求項28の1つに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記第1のエラーコンシールメントオーディオ情報成分(103、807´)を導き出すために、前記減衰係数を用いて前記ロストオーディオフレームに先行する前記オーディオフレームのスペクトル表現をスケーリング(707)するように構成される、エラーコンシールメントユニット。
- 請求項1ないし請求項29の1つに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)を得るために、前記時間ドメインコンシールメント(106、500、600、809、920)の出力信号(809´)、または、そのアップサンプルされたバージョン(810´)をローパスフィルタ処理(811)するように構成される、エラーコンシールメントユニット。
- 符号化されたオーディオ情報(210、310、410)に基づいて、復号化されたオーディオ情報(212、312、412)を提供するためのオーディオデコーダ(200、300、400)であって、前記オーディオデコーダは、請求項1ないし請求項30のいずれかに記載のエラーコンシールメントユニットを備える、オーディオデコーダ。
- 請求項31に記載のオーディオデコーダであって、前記オーディオデコーダは、オーディオフレームのスペクトルドメイン表現を、前記オーディオフレームの前記スペクトルドメイン表現の符号化された表現に基づいて得るように構成され、前記オーディオデコーダは、前記オーディオフレームの復号化された時間表現を得るために、スペクトルドメイン−時間ドメイン変換を実行するように構成され、
前記エラーコンシールメントは、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームのスペクトルドメイン表現またはその一部を用いて、前記周波数ドメインコンシールメント(105、704、805、910)を実行するように構成され、
前記エラーコンシールメントは、前記ロストオーディオフレームに先行する適切に復号化されたオーディオフレームの復号化された時間ドメイン表現を用いて、前記時間ドメインコンシールメント(106、500、600、809、920)を実行するように構成される、オーディオデコーダ。 - 符号化されたオーディオ情報におけるオーディオフレームのロスをコンシールメントするためのエラーコンシールメントオーディオ情報を提供するためのエラーコンシールメント方法であって、前記方法は、
第1の周波数範囲ための第1のエラーコンシールメントオーディオ情報成分(103、807´)を周波数ドメインコンシールメント(105、704、805、910)を用いて提供するステップ(910)と、
前記第1の周波数範囲よりも低い周波数を備える第2の周波数範囲のための第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)を時間ドメインコンシールメント(106、500、600、809、920)を用いて提供するステップ(920)と、
前記第1のエラーコンシールメントオーディオ情報成分(103、807´)と前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)とを結合して前記エラーコンシールメントオーディオ情報を得るステップ(930)と、
を備える、エラーコンシールメント方法。 - 請求項33に記載のエラーコンシールメント方法であって、前記方法は、前記第1および第2の周波数範囲を信号適応的に制御するステップ(905)を備える、エラーコンシールメント方法。
- 請求項34に記載のエラーコンシールメント方法であって、前記方法は、少なくとも1つのロストオーディオフレームのためのエラーコンシールメントオーディオ情報を得るために、時間ドメインコンシールメント(106、500、600、809、920)のみ、または周波数ドメインコンシールメント(105、704、805、910)のみが用いられるモードに信号適応的に切り替えるステップを備える、エラーコンシールメント方法。
- コンピュータプログラムがコンピュータ上で動作するとき、請求項33ないし請求項35の1つに記載の方法を実行する、コンピュータプログラム。
- 入力オーディオ情報に基づいて符号化された周波数ドメイン表現(1908)を提供するように構成される周波数ドメインエンコーダ(1906)、および/または、前記入力オーディオ情報に基づいて符号化された線形予測ドメイン表現(1922)を提供するように構成される線形予測ドメインエンコーダ(1920)と、
オーディオデコーダ(200、300、400)側で用いられる、時間ドメインエラーコンシールメント(809)と周波数ドメインエラーコンシールメント(805)との間のクロスオーバー周波数を定義するクロスオーバー周波数情報(1932)を決定するように構成されるクロスオーバー周波数決定器と、
を備えるオーディオエンコーダ(1900)であって、
前記オーディオエンコーダ(1900)は、前記符号化された周波数ドメイン表現(1908)、および/または、前記符号化された線形予測ドメイン表現(1922)、ならびに前記クロスオーバー周波数情報(1932)も前記符号化されたオーディオ表現(1904)に含めるように構成される、オーディオエンコーダ(1900)と、
請求項31または請求項32に記載のオーディオデコーダ(200、300、400)であって、請求項6ないし請求項12のいずれかに記載のエラーコンシールメントユニット、または、請求項13ないし請求項25のいずれかに記載のエラーコンシールメントユニットと請求項6ないし請求項12のいずれかに記載のエラーコンシールメントユニットとを組み合わせたエラーコンシールメントユニット(800b)と、
を備えるシステム(1900、200、300、400、800b)であって、
前記制御(813)は、前記オーディオエンコーダ(1900)が提供する前記クロスオーバー周波数情報(1932)に基づいて前記第1または第2の周波数範囲を決定するように構成される、システム(1900、200、300、400、800b)。 - 符号化されたオーディオ情報におけるオーディオフレームのロスをコンシールメントするためのエラーコンシールメントオーディオ情報(102、232、382、802)を提供するためのエラーコンシールメントユニット(100、230、380、800、800b)であって、
前記エラーコンシールメントユニットは、第1の周波数範囲(1401)のための第1のエラーコンシールメントオーディオ情報成分(103、807´)を周波数ドメインコンシールメント(105、704、805、910)を用いて提供するように構成され、
前記エラーコンシールメントユニットはさらに、前記第1の周波数範囲よりも低い周波数を備える第2の周波数範囲(1402)のための第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)を時間ドメインコンシールメント(106、500、600、809、920)を用いて提供するように構成され、
前記エラーコンシールメントユニットはさらに、前記第1のエラーコンシールメントオーディオ情報成分(103、807´)と前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)とを結合して、前記エラーコンシールメントオーディオ情報を得るように構成され、
前記エラーコンシールメントユニットは、前記第1および/または第2の周波数範囲(1401、1402)を決定および/または信号適応的に変更するための制御(813)を実行するように構成される、エラーコンシールメントユニット。 - 符号化されたオーディオ情報におけるオーディオフレームのロスをコンシールメントするためのエラーコンシールメントオーディオ情報を提供するためのエラーコンシールメント方法であって、前記方法は、
第1の周波数範囲のための第1のエラーコンシールメントオーディオ情報成分(103、807´)を周波数ドメインコンシールメント(105、704、805、910)を用いて提供するステップ(910)と、
前記第1の周波数範囲よりも低い周波数を備える第2の周波数範囲のための第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)を時間ドメインコンシールメント(106、500、600、809、920)を用いて提供するステップ(920)、と、
前記第1のエラーコンシールメントオーディオ情報成分(103、807´)と前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)とを結合して前記エラーコンシールメントオーディオ情報を得るステップ(930)と、を備え、
前記方法は、前記第1および第2の周波数範囲を信号適応的に制御するステップ(905)を備える、エラーコンシールメント方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16159031 | 2016-03-07 | ||
EP16159031.0 | 2016-03-07 | ||
PCT/EP2016/061865 WO2017153006A1 (en) | 2016-03-07 | 2016-05-25 | Hybrid concealment method: combination of frequency and time domain packet loss concealment in audio codecs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019511738A JP2019511738A (ja) | 2019-04-25 |
JP6718516B2 true JP6718516B2 (ja) | 2020-07-08 |
Family
ID=55521559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018547304A Active JP6718516B2 (ja) | 2016-03-07 | 2016-05-25 | ハイブリッドコンシールメント方法:オーディオコーデックにおける周波数および時間ドメインパケットロスの組み合わせ |
Country Status (11)
Country | Link |
---|---|
US (1) | US10984804B2 (ja) |
EP (1) | EP3427256B1 (ja) |
JP (1) | JP6718516B2 (ja) |
KR (1) | KR102250472B1 (ja) |
CN (1) | CN109155133B (ja) |
BR (1) | BR112018067944B1 (ja) |
CA (1) | CA3016837C (ja) |
ES (1) | ES2797092T3 (ja) |
MX (1) | MX2018010753A (ja) |
RU (1) | RU2714365C1 (ja) |
WO (1) | WO2017153006A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402905B (zh) * | 2018-12-28 | 2023-05-26 | 南京中感微电子有限公司 | 音频数据恢复方法、装置及蓝牙设备 |
BR112021012753A2 (pt) * | 2019-01-13 | 2021-09-08 | Huawei Technologies Co., Ltd. | Método implementado por computador para codificação de áudio, dispositivo eletrônico e meio legível por computador não transitório |
WO2020164751A1 (en) * | 2019-02-13 | 2020-08-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment |
WO2020165263A2 (en) * | 2019-02-13 | 2020-08-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and decoding method selecting an error concealment mode, and encoder and encoding method |
WO2020169754A1 (en) * | 2019-02-21 | 2020-08-27 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods for phase ecu f0 interpolation split and related controller |
CN110264860B (zh) * | 2019-06-14 | 2021-05-11 | 长春理工大学 | 一种基于多膜系阵列的多谱段图像伪装方法 |
CN113035208B (zh) * | 2021-03-04 | 2023-03-28 | 北京百瑞互联技术有限公司 | 一种音频解码器的分级错误隐藏方法、装置及存储介质 |
CN117524253B (zh) * | 2024-01-04 | 2024-05-07 | 南京龙垣信息科技有限公司 | 针对网络音频丢包的低延迟修复和隐藏方法及其设备 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3632213B2 (ja) | 1993-06-30 | 2005-03-23 | ソニー株式会社 | 信号処理装置 |
JPH10233692A (ja) * | 1997-01-16 | 1998-09-02 | Sony Corp | オーディオ信号符号化装置および符号化方法並びにオーディオ信号復号装置および復号方法 |
SE0004187D0 (sv) * | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
FR2852172A1 (fr) * | 2003-03-04 | 2004-09-10 | France Telecom | Procede et dispositif de reconstruction spectrale d'un signal audio |
SE527669C2 (sv) | 2003-12-19 | 2006-05-09 | Ericsson Telefon Ab L M | Förbättrad felmaskering i frekvensdomänen |
SG124307A1 (en) * | 2005-01-20 | 2006-08-30 | St Microelectronics Asia | Method and system for lost packet concealment in high quality audio streaming applications |
JP2009504001A (ja) * | 2005-07-25 | 2009-01-29 | トムソン ライセンシング | リファレンスビデオフレーム及びノンリファレンスビデオフレームの検出及び隠蔽の方法及び装置 |
US8798172B2 (en) | 2006-05-16 | 2014-08-05 | Samsung Electronics Co., Ltd. | Method and apparatus to conceal error in decoded audio signal |
KR20070115637A (ko) * | 2006-06-03 | 2007-12-06 | 삼성전자주식회사 | 대역폭 확장 부호화 및 복호화 방법 및 장치 |
US8010352B2 (en) * | 2006-06-21 | 2011-08-30 | Samsung Electronics Co., Ltd. | Method and apparatus for adaptively encoding and decoding high frequency band |
KR101292771B1 (ko) | 2006-11-24 | 2013-08-16 | 삼성전자주식회사 | 오디오 신호의 오류은폐방법 및 장치 |
JP4708446B2 (ja) * | 2007-03-02 | 2011-06-22 | パナソニック株式会社 | 符号化装置、復号装置およびそれらの方法 |
JP5618826B2 (ja) * | 2007-06-14 | 2014-11-05 | ヴォイスエイジ・コーポレーション | Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法 |
ES2403410T3 (es) * | 2007-08-27 | 2013-05-17 | Telefonaktiebolaget L M Ericsson (Publ) | Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda |
RU2443028C2 (ru) * | 2008-07-11 | 2012-02-20 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен | Устройство и способ расчета параметров расширения полосы пропускания посредством управления фреймами наклона спектра |
US8532998B2 (en) * | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Selective bandwidth extension for encoding/decoding audio/speech signal |
US8718804B2 (en) * | 2009-05-05 | 2014-05-06 | Huawei Technologies Co., Ltd. | System and method for correcting for lost data in a digital audio signal |
BR112013020324B8 (pt) * | 2011-02-14 | 2022-02-08 | Fraunhofer Ges Forschung | Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio |
CN104011793B (zh) * | 2011-10-21 | 2016-11-23 | 三星电子株式会社 | 帧错误隐藏方法和设备以及音频解码方法和设备 |
WO2013183977A1 (ko) * | 2012-06-08 | 2013-12-12 | 삼성전자 주식회사 | 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치 |
US9280975B2 (en) * | 2012-09-24 | 2016-03-08 | Samsung Electronics Co., Ltd. | Frame error concealment method and apparatus, and audio decoding method and apparatus |
CN103714821A (zh) * | 2012-09-28 | 2014-04-09 | 杜比实验室特许公司 | 基于位置的混合域数据包丢失隐藏 |
RU2628144C2 (ru) * | 2013-02-05 | 2017-08-15 | Телефонактиеболагет Л М Эрикссон (Пабл) | Способ и устройство для управления маскировкой потери аудиокадров |
KR20140126095A (ko) | 2013-04-22 | 2014-10-30 | 주식회사 케이티 | 분전함 |
KR102120073B1 (ko) | 2013-06-21 | 2020-06-08 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 개선된 피치 래그 추정을 사용하여 acelpp-형 은폐 내에서 적응적 코드북의 개선된 은폐를 위한 장치 및 방법 |
AU2014283389B2 (en) | 2013-06-21 | 2017-10-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pulse resynchronization |
KR101940740B1 (ko) * | 2013-10-31 | 2019-01-22 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법 |
ES2805744T3 (es) * | 2013-10-31 | 2021-02-15 | Fraunhofer Ges Forschung | Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo |
US9564141B2 (en) * | 2014-02-13 | 2017-02-07 | Qualcomm Incorporated | Harmonic bandwidth extension of audio signals |
NO2780522T3 (ja) * | 2014-05-15 | 2018-06-09 | ||
TWI602172B (zh) | 2014-08-27 | 2017-10-11 | 弗勞恩霍夫爾協會 | 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 |
KR101686462B1 (ko) | 2015-02-11 | 2016-12-28 | 삼성에스디에스 주식회사 | 사용자 행동 패턴을 기반으로 한 웹페이지 생성 방법 및 활용 방법 |
ES2874629T3 (es) * | 2016-03-07 | 2021-11-05 | Fraunhofer Ges Forschung | Unidad de ocultación de error, decodificador de audio y método y programa informático relacionados que desvanecen una trama de audio ocultada según factores de amortiguamiento diferentes para bandas de frecuencia diferentes |
-
2016
- 2016-05-25 KR KR1020187028987A patent/KR102250472B1/ko active IP Right Grant
- 2016-05-25 EP EP16725134.7A patent/EP3427256B1/en active Active
- 2016-05-25 BR BR112018067944-5A patent/BR112018067944B1/pt active IP Right Grant
- 2016-05-25 RU RU2018135086A patent/RU2714365C1/ru active
- 2016-05-25 CN CN201680085478.6A patent/CN109155133B/zh active Active
- 2016-05-25 CA CA3016837A patent/CA3016837C/en active Active
- 2016-05-25 WO PCT/EP2016/061865 patent/WO2017153006A1/en active Application Filing
- 2016-05-25 MX MX2018010753A patent/MX2018010753A/es unknown
- 2016-05-25 JP JP2018547304A patent/JP6718516B2/ja active Active
- 2016-05-25 ES ES16725134T patent/ES2797092T3/es active Active
-
2018
- 2018-09-07 US US16/125,348 patent/US10984804B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
RU2714365C1 (ru) | 2020-02-14 |
CN109155133A (zh) | 2019-01-04 |
BR112018067944B1 (pt) | 2024-03-05 |
WO2017153006A1 (en) | 2017-09-14 |
CA3016837C (en) | 2021-09-28 |
EP3427256B1 (en) | 2020-04-08 |
BR112018067944A2 (pt) | 2019-09-03 |
US10984804B2 (en) | 2021-04-20 |
ES2797092T3 (es) | 2020-12-01 |
KR20180118781A (ko) | 2018-10-31 |
KR102250472B1 (ko) | 2021-05-12 |
EP3427256A1 (en) | 2019-01-16 |
MX2018010753A (es) | 2019-01-14 |
US20190005967A1 (en) | 2019-01-03 |
CN109155133B (zh) | 2023-06-02 |
CA3016837A1 (en) | 2017-09-14 |
JP2019511738A (ja) | 2019-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10964334B2 (en) | Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal | |
US10269359B2 (en) | Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal | |
JP6718516B2 (ja) | ハイブリッドコンシールメント方法:オーディオコーデックにおける周波数および時間ドメインパケットロスの組み合わせ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181113 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200413 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200519 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200612 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6718516 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |