JP2019511738A - ハイブリッドコンシールメント方法:オーディオコーデックにおける周波数および時間ドメインパケットロスの組み合わせ - Google Patents

ハイブリッドコンシールメント方法:オーディオコーデックにおける周波数および時間ドメインパケットロスの組み合わせ Download PDF

Info

Publication number
JP2019511738A
JP2019511738A JP2018547304A JP2018547304A JP2019511738A JP 2019511738 A JP2019511738 A JP 2019511738A JP 2018547304 A JP2018547304 A JP 2018547304A JP 2018547304 A JP2018547304 A JP 2018547304A JP 2019511738 A JP2019511738 A JP 2019511738A
Authority
JP
Japan
Prior art keywords
error concealment
audio
frequency
concealment unit
time domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018547304A
Other languages
English (en)
Other versions
JP6718516B2 (ja
Inventor
ジェレミー ルコント
ジェレミー ルコント
エイドリアン トマセク
エイドリアン トマセク
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ, フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2019511738A publication Critical patent/JP2019511738A/ja
Application granted granted Critical
Publication of JP6718516B2 publication Critical patent/JP6718516B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations

Abstract

本発明の実施の形態は、符号化されたオーディオ情報におけるオーディオフレームのロスをコンシールメントするためのエラーコンシールメント情報(802)を提供するためのエラーコンシールメントユニット(800、800b)に関する。エラーコンシールメントユニットは、第1の周波数範囲のための第1のエラーコンシールメントオーディオ情報成分(807´)を、周波数ドメインコンシールメント(805)を用いて提供する。エラーコンシールメントユニットは、また、第1の周波数範囲よりも低い周波数を備える第2の周波数範囲のための第2のエラーコンシールメントオーディオ情報成分(811´)を、時間ドメインコンシールメント(809)を用いて提供する。エラーコンシールメントユニットは、また、第1のエラーコンシールメントオーディオ情報成分(807´)と第2のエラーコンシールメントオーディオ情報成分(811´)とを結合して、エラーコンシールメントオーディオ情報を得る。
本発明の他の実施の形態は、エラーコンシールメントユニットを備えるデコーダに関連し、同様にエンコーダや方法や復号化および/またはコンシールメントのためのプログラムに関連する。
【選択図】図8a

Description

1.技術分野
本発明に係る実施形態は、時間ドメインコンシールメント成分と周波数ドメインコンシールメント成分とに基づく符号化されたオーディオ情報におけるオーディオフレームのロスをコンシールメントためのエラーコンシールメントオーディオ情報を提供するためのエラーコンシールメントユニットを構築する。
本発明に係る実施形態は、符号化されたオーディオ情報に基づいて復号化されたオーディオ情報を提供するオーディオデコーダを構築し、オーディオデコーダは前記エラーコンシールメントユニットを備える。
本発明に係る実施形態は、必要な場合に、符号化されたオーディオ情報及びコンシールメント関数について使用される別の情報を提供するためのオーディオエンコーダを構築する。
本発明に係るいくつかの実施形態は、時間ドメインコンシールメント成分と周波数ドメインコンシールメント成分とに基づく符号化されたオーディオ情報におけるオーディオフレームのロスをコンシールメントのためのエラーコンシールメントオーディオ情報を提供するための方法を構築する。
本発明に係るいくつかの実施形態は、前記方法のうちの1つを実行するコンピュータプログラムを構築する。
2.発明の背景
近年、オーディオコンテンツのデジタル伝送と記憶に対して増大する要求がある。しかしながら、オーディオコンテンツは、1つ以上のオーディオフレーム(たとえば、符号化された周波数ドメイン表現または符号化された時間ドメイン表現のような、符号化された表現の形の)を備えるデータユニット(たとえば、パケット)が失われるリスクをもたらす信頼できないチャネル上をしばしば伝送される。いくつかの状況において、ロストオーディオフレーム(または1つ以上のロストオーディオフレームを備える、パケットのようなデータユニット)の反復(再送信)を要求することが可能である。しかしながら、これは、通常は実質的な遅延をもたらし、それ故にオーディオフレームの広範囲にわたるバッファリングを必要とする。他のケースでは、ロストオーディオフレームの反復を要求することがほとんど可能でない。
広範囲にわたるバッファリング(これは大量のメモリを消費し、オーディオ符号化能力を実質的に劣化させる)を提供することなくオーディオフレームが失われるケースが提供される良好なまたは少なくとも許容されるオーディオ品質を得るために、1つ以上のオーディオフレームのロスを処理するコンセプトを有することが望ましい。特に、オーディオフレームが失われたケースにおいてさえ、良好なオーディオ品質または少なくとも許容されるオーディオ品質をもたらすコンセプトを有することが望ましい。
特に、フレームロスは、フレームが適切に復号化されない(特に、時間内に復号化されずに出力される)ことを意味する。フレームロスは、フレームが完全に検出されないとき、またはフレームがとても遅く到着したとき、または、小さなエラーが検出された場合に生じうる。(そのため、フレームが、利用可能ではないという意味において失われ、コンシールメントされる。)これらの障害のために(「フレームロス」のクラスの一部として保持することができる)、フレームを復号化することができず、エラーコンシールメント操作を実行する必要があるという結果となる。
過去において、異なるオーディオ符号化コンセプトにおいて使用することができるいくつかのエラーコンシールメントコンセプトが開発されてきた。
高度なオーディオコーデック(AAC)において、伝統的なコンシールメント技術は、ノイズの置換である[1]。周波数ドメインにおいて操作し、ノイズや音楽に適合する。
それにも関わらず、音声セグメントについて、周波数ドメインのノイズ置換は、時間ドメインにおいて、煩わしい「クリック」アーチファクトに終わる不連続な位相を生成する。
それゆえに、ACELPのような時間ドメインアプローチは、音声セグメント(例えば、[2]または[3]におけるTD−TCX PLC)を使用することができ、分類子によって決定される。
時間ドメインコンシールメントの1つの問題は、すべての周波数範囲において、人工的に生成された調和である。煩わしい「ビープ」アーチファクトが作成される。
時間ドメインコンシールメントの他の難点は、エラーフリー復号化又はノイズ置換を有するコンシールメントと比較して高いコンピュータによる複雑性である。
先行技術の障害を克服するための解決策が必要である。
3.本発明の概要
本発明によると、符号化されたオーディオ情報におけるオーディオフレームのロスをコンシールメントするためのエラーコンシールメントオーディオ情報を提供するためのエラーコンシールメントユニットである。エラーコンシールメントユニットは、第1の周波数範囲のための第1のエラーコンシールメントオーディオ情報成分を周波数ドメインコンシールメントを用いて提供するように構成される。エラーコンシールメントユニットはさらに、第1の周波数範囲よりも低い周波数を備える第2の周波数範囲のための第2のエラーコンシールメントオーディオ情報成分を時間ドメインコンシールメントを用いて提供するように構成される。エラーコンシールメントユニットはさらに、第1のエラーコンシールメントオーディオ情報成分と、第2のエラーコンシールメントオーディオ情報成分とを結合して、エラーコンシールメントオーディオ情報を得るように構成される(エラーコンシールメントに関する追加の情報も提供されるかもしれない)。
高周波数のための周波数ドメインコンシールメント(たいていはノイズ)と低周波数のための時間ドメインコンシールメント(たいていは音声)とを用いることによって、(すべての周波数範囲にわたって時間ドメインコンシールメントを用いることによって暗示される)ノイズに対する人為的に生成される強い調和が避けられ、上述したクリックアーチファクトやビープアーチファクト(すべての周波数範囲にわたって周波数ドメインコンシールメントを用いることによって暗示される)も避けるまたは減少することができる。
さらに、コンピュータの複雑性(時間ドメインコンシールメントがすべての周波数範囲にわたって用いられるときに暗示される)も減少する。
特に、すべての周波数範囲上の人為的に生成された調和の問題は、解決される。信号がより低い周波数において強い調和だけを有する場合(だいたい4kHzまでの音声アイテムである)であり、背景ノイズがより高い周波数である場合、ナイキスト周波数まで生成された調和は煩わしい「ビープ」アーチファクトを生成するだろう。本発明で、この問題は、極めて減少し、たいていのケースで解決される。
本発明の態様によると、エラーコンシールメントユニットは、第1のエラーコンシールメントオーディオ情報成分が所定のロストオーディオフレームの高周波数部分を示し、第2のエラーコンシールメントオーディオ情報成分が所定のロストオーディオフレームの低周波数部分を示し、所定のロストオーディオフレームに関連付けられたエラーコンシールメントオーディオ情報は、周波数ドメインコンシールメントおよび時間ドメインコンシールメントの双方を用いて得られるように構成される。
本発明の態様によると、エラーコンシールメントユニットは、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームの高周波数部分の変換ドメイン表現を用いて第1のエラーコンシールメントオーディオ情報成分を導き出すように構成される、および/または、エラーコンシールメントユニットは、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームの低周波数部分に基づいて、時間ドメイン信号合成を用いて第2のエラーコンシールメントオーディオ情報成分を導き出すように構成される。
本発明の態様によると、エラーコンシールメントユニットは、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームの高周波数部分の変換ドメイン表現のスケーリングされたまたはスケーリングされていない複製を用いて、ロストオーディオフレームの高周波数部分の変換ドメイン表現を得て、ロストオーディオフレームの高周波数部分の変換ドメイン表現を、時間ドメインに変換して、第1のエラーコンシールメントオーディオ情報成分である時間ドメイン信号成分を得るように構成される。
本発明の態様によると、エラーコンシールメントユニットは、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームの低周波数部分に基づいて、1つ以上の合成刺激パラメータと1つ以上の合成フィルタパラメータとを得て、信号合成を用いて第2のエラーコンシールメントオーディオ情報成分を得るように構成され、信号合成の刺激パラメータおよびフィルタパラメータは得られた合成刺激パラメータと得られた合成フィルタパラメータに基づいて導き出される、または、得られた合成刺激パラメータと得られた合成フィルタパラメータと等しい。
本発明の態様によると、エラーコンシールメントユニットは、第1および/または第2の周波数範囲を決定および/または信号適応的に変更する制御を実行するように構成される。
したがって、ユーザまたは制御の利用は、より好ましい周波数範囲を選択することができる。さらに、復号化された信号に係るコンシールメントを修正することができる。
本発明の態様によると、エラーコンシールメントユニットは、1つ以上の符号化されたオーディオフレームの特徴と1つ以上の適切に復号化されたオーディオフレームの特徴との間で選択された特徴に基づいて制御を実行するように構成される。
したがって、信号の特徴に周波数範囲を適用することができる。
本発明の態様によると、エラーコンシールメントユニットは、1つ以上の適切に復号化されたオーディオフレームの調和についての情報を得て、調和に関する情報に基づいて制御を実行するように構成される。さらに、または、代わりに、エラーコンシールメントユニットは、1つ以上の適切に復号化されたオーディオフレームのスペクトルチルトについての情報を得て、スペクトルチルトについての情報に基づいて制御を実行するように構成される。
したがって、特別な操作が実行できる。たとえば、調和のエネルギーチルトは周波数にわたって連続するところで、すべての時間ドメインコンシールメントを実行することが好ましい(すべてで周波数ドメインコンシールメントがない)。すべてのスペクトル周波数ドメインコンシールメント(すべてで時間ドメインコンシールメントがない)は、信号が調和を含まないところがより好ましい。
本発明の態様によると、第2の周波数範囲(ほとんど音声)における調和を比較するとき、第1の周波数範囲(ほとんどノイズ)において比較的小さい調和をレンダリングすることができる。
本発明の態様によると、エラーコンシールメントユニットは、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームが調和の閾値よりも強い調和を備える周波数の上限を決定し、それに依存して、第1の周波数範囲および第2の周波数範囲を選択するように構成される。
閾値での比較を用いることによって、たとえば、ノイズを音声から区別し、時間ドメインコンシールメントを用いてコンシールメントされた周波数および周波数ドメインコンシールメントを用いてコンシールメントされた周波数を決定することができる。
本発明の態様によると、エラーコンシールメントユニットは、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームのスペクトルチルトがより小さいスペクトルチルトからより大きいスペクトルチルトに変化する周波数境界を決定または推定し、それに依存して、第1の周波数範囲および第2の周波数範囲を選択するように構成される。
小さなスペクトルチルトで、かなり(または少なくとも広く行き渡った)平坦な周波数応答が生じることを意図することができ、一方で、大きなスペクトルチルトで、信号は、高帯域よりも低帯域においてはるかに多くのエネルギー、または、他の方法のどちらかを有する。
言い換えると、小さい(または、より小さい)スペクトルチルトは、周波数応答が「かなり」平坦である一方で、大きい(または、より大きい)スペクトルチルトで、信号は、高帯域よりも低帯域において(はるかに)多くのエネルギー(たとえば、スペクトルビンごと、または周波数間隔ごと)、または、他の方法のどちらかを有する。
一次関数(たとえば、線によって表すことができる)とすることができる周波数帯のエネルギーの傾向を得る基礎的な(複雑ではない)スペクトルチルト評価を実行することができる。このケースにおいて、エネルギー(たとえば、平均帯域エネルギー)がいくらか(予め決定された)閾値よりも低い領域を検索することができる。
このケースにおいて、低帯域はほとんどエネルギーがないが、高帯域はいくつかの実施の形態において、FD(たとえば、周波数ドメインコンシールメント)だけを用いることができる。
本発明の態様によると、エラーコンシールメントユニットは、第1の周波数範囲がノイズ状のスペクトル構造を備えるスペクトル領域をカバーし、第2の周波数範囲が高調波スペクトル構造を備えるスペクトル領域をカバーするように、第1の周波数範囲(一般的により高い)および第2の周波数範囲(一般的により低い)を調整するように構成される。
したがって、音声およびノイズについて異なるコンシールメント技術を使用することができる。
本発明の態様によると、エラーコンシールメントユニットは、調和とノイズとの間のエネルギー関係に依存して、第1の周波数範囲の低周波数端および/または第2の周波数範囲の高周波数端を調節するために、制御を実行するように構成される。
調和とノイズとの間のエネルギー関係を分析することによって、確実性の良い程度で、時間ドメインコンシールメントを用いて実行される周波数と、周波数ドメインコンシールメントを用いて実行される周波数とを決定することができる。
本発明の態様によると、エラーコンシールメントユニットは、時間ドメインコンシールメントおよび周波数ドメインコンシールメントの少なくとも1つを選択的に抑制するために制御を実行する、および/または、時間ドメインコンシールメントだけ、または、周波数ドメインコンシールメントだけを実行して、エラーコンシールメントオーディオ情報を得るように構成される。
この特性は、特有の操作を実行することができる。たとえば、調和のエネルギーチルトが周波数にわたって連続しているとき、周波数ドメインコンシールメントを選択的に抑制することができる。信号が調和を含まない(たいていノイズ)とき、この時間ドメインコンシールメントを抑制することができる。
本発明の態様によると、エラーコンシールメントユニットは、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームのスペクトルチルトの変動が、所定の周波数範囲にわたって予め定められたスペクトルチルトの閾値よりも小さいかどうかを決定または推定し、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームのスペクトルチルトの変動が予め定められたスペクトルチルトの閾値よりも小さいことがわかった場合にのみ、時間ドメインコンシールメントを用いてエラーコンシールメントオーディオ情報を得るように構成される。
したがって、スペクトルチルトの変化を観察することによって、時間ドメインコンシールメントで操作するだけかどうかを決定するための簡単な技術を有することができる。
本発明の態様によると、エラーコンシールメントユニットは、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームの調和が予め定められた調和の閾値よりも小さいかどうかを決定または推定し、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームの調和が予め定められた調和の閾値よりも小さいことがわかった場合にのみ、周波数ドメインコンシールメントを用いてエラーコンシールメントオーディオ情報を得るように構成される。
したがって、調和の変化を観察することによって、周波数ドメインコンシールメントだけで操作するかどうかを決定するためのソリューションを提供することができる。
本発明の態様によると、エラーコンシールメントユニットは、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームのピッチに基づいて、および/または、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームにおけるピッチの経時的推移に依存して、および/またはロストオーディオフレームに先行する適切に復号化されたオーディオフレームとロストオーディオフレームの後に続く適切に復号化されたオーディオフレームとの間のピッチの補間に依存して、コンシールメントされたフレームのピッチを適合させるように構成される。
ピッチがすべてのフレームについて知られている場合、過去のピッチ値に基づいて、コンシールメントされたフレーム内のピッチを変更することができる。
本発明の態様によると、エラーコンシールメントユニットは、エンコーダが送信する情報に基づいて制御を実行するように構成される。
本発明の態様によると、エラーコンシールメントユニットはさらに、オーバーラップ加算すなわちOLAメカニズムを用いて、第1のエラーコンシールメントオーディオ情報成分と第2のエラーコンシールメントオーディオ情報成分とを結合するように構成される。
したがって、第1の成分および第2の成分の間のエラーコンシールメントオーディオ情報の2つの成分の組み合わせを簡単に実行することができる。
本発明の態様によると、エラーコンシールメントユニットは、第1のエラーコンシールメントオーディオ情報成分の時間ドメイン表現を得るために、周波数ドメインエラーコンシールメントによって得られたスペクトルドメイン表現に基づいて、逆修正離散コサイン変換(IMDCT)を実行するように構成される。
したがって、周波数ドメインコンシールメントと時間ドメインコンシールメントとの間の使いやすいインターフェイスを提供することができる。
本発明の態様によると、エラーコンシールメントユニットは、第2のエラーコンシールメントオーディオ情報成分が、オーバーラップ加算が可能なように、ロストオーディオフレームよりも少なくとも25パーセント長い継続時間を備えるように、第2のエラーコンシールメントオーディオ情報成分を提供するように構成される。本発明の態様によると、エラーコンシールメントユニットは、IMDCTを2回実行して、時間ドメインにおいて2つの連続するフレームを得るように構成される。
低いまたは高い周波数部分や経路を組み合わせるために、OLAメカニズムは時間ドメインにおいて実行される。AACのようなコーデックでは、1つのコンシールメントされたフレームに対して1以上のフレーム(一般的に1つ半のフレーム)を更新しなければならないことを意味する。OLAの分析および合成方法は半フレームの遅延を有するからである。逆修正離散コサイン変換(IMDCT)が使用されるとき、IMDCTは1つのフレームだけを生成する。それゆえに、追加の半フレームが必要とされる。したがって、IMDCTを2回実行して、時間ドメインにおいて2つの連続するフレームを得ることができる。
特に、フレームの長さが、AACについて、サンプル(たとえば、1024サンプル)の予め決定された数から成る場合、エンコーダで、MDCT変換はフレームの長さの2倍のウィンドウを最初に適用することである。デコーダで、MDCTの後で、オーバーラップ加算する前に、サンプル数も2倍になる(たとえば、2048)。これらのサンプルは、エイリアシングを含む。このケースにおいて、前のフレームでオーバーラップ加算をした後、左側の部分(1024サンプル)に対してエイリアシングがキャンセルされる。後者は、デコーダによって流されるフレームに対応する。
本発明の態様によると、エラーコンシールメントユニットは、周波数ドメインコンシールメントの下流側の第1のエラーコンシールメントオーディオ情報成分のハイパスフィルタリングを実行するように構成される。
したがって、信頼性の良い程度で、コンシールメント情報の高周波数成分を得ることができる。
本発明の態様によると、エラーコンシールメントユニットは、6KHzと10KHzとの間、好ましくは7KHzと9KHzとの間、より好ましくは7.5KHzと8.5KHzとの間、さらに好ましくは7.9KHzと8.1KHzとの間、さらに好ましくは8KHzのカットオフ周波数でハイパスフィルタリングを実行するように構成される。
この周波数は、音声からノイズを区別するために特に適応されることが証明されている。
本発明の態様によると、エラーコンシールメントユニットは、ハイパスフィルタリングの低周波数境界を信号適応的に調節して、それによって、第1の周波数範囲の帯域幅を変更するように構成される。
したがって、(任意の状況で)音声周波数からノイズ周波数をカットすることができる。正確にカットするこのようなフィルタ(HPおよびLP)を得ることは、通常、複雑すぎるので、実際のところ、カットオフ周波数はよく定義される(減衰が上または下の周波数に対して完璧でない場合でも)。
本発明の態様によると、エラーコンシールメントユニットは、ロストオーディオフレームに先行するオーディオフレームのダウンサンプルされた時間ドメイン表現であって、ダウンサンプルされた時間ドメイン表現はロストオーディオフレームに先行するオーディオフレームの低周波数部分だけを表す、ダウンサンプルされた時間ドメイン表現を得るために、ロストオーディオフレームに先行するオーディオフレームの時間ドメイン表現をダウンサンプルし、ロストオーディオフレームに先行するオーディオフレームのダウンサンプルされた時間ドメイン表現を用いて時間ドメインコンシールメントを実行し、第2のエラーコンシールメントオーディオ情報成分を得るために、時間ドメインコンシールメントによって提供されるコンシールメントされたオーディオ情報またはその後処理されたバージョンをアップサンプルして、時間ドメインコンシールメントが、ロストオーディオフレームに先行するオーディオフレームを完全に表すのに必要なサンプリング周波数よりも小さいサンプリング周波数を用いて実行されるように構成される。アップサンプルされた第2のエラーコンシールメントオーディオ情報成分を、その後、第1のエラーコンシールメントオーディオ情報成分と結合することができる。
ダウンサンプルされた環境で操作することによって、時間ドメインコンシールメントは、減少したコンピュータ複雑性を有する。
本発明の態様によると、エラーコンシールメントユニットは、ダウンサンプルされた時間ドメイン表現のサンプリング率を信号適応的に調節し、それによって第2の周波数領域の帯域幅を変更するように構成される。
したがって、特に信号の状態が変化するとき(例えば、特定の信号がサンプリング率を増加させる必要があるとき)、ダウンサンプルされた時間ドメイン表現のサンプリング率を適切な周波数に変更することが可能である。したがって、好ましいサンプリング率、例えば、音声からのノイズを分離する目的で、サンプリング率を得ることが可能である。
本発明の態様によると、エラーコンシールメントユニットは、減衰係数を用いてフェードアウトを実行するように構成される。
したがって、後続のコンシールメントされたフレームを正常に劣化させて、強度を低下することが可能である。
通常、1つ以上のフレームロスがある場合、フェードアウトをする。ほとんどの時間、最初のフレームロスで何らかのフェードアウトをすでに適用するが、最も重要な部分は、エラーのバーストが発生した場合(複数のフレームが失われた場合)、無音または背景ノイズにうまくフェードアウトすることである。
本発明の態様によると、エラーコンシールメントユニットは、第1のエラーコンシールメントオーディオ情報成分を導き出すために、減衰係数を用いてロストオーディオフレームに先行するオーディオフレームのスペクトル表現をスケーリングするように構成される。
このような戦略は、本発明に特に適合した正常な劣化を達成することを可能にすることに留意されたい。
本発明の態様によると、エラーコンシールメントユニットは、第2のエラーコンシールメントオーディオ情報成分を得るために、時間ドメインコンシールメントの出力信号、または、そのアップサンプルされたバージョンをローパスフィルタ処理するように構成される。
この方法で、第2のエラーコンシールメントオーディオ情報成分が、低い周波数範囲内であることを得ることで簡単であるが、信頼性のある方法を達成することができる。
本発明は、符号化されたオーディオ情報に基づいて、復号化されたオーディオ情報を提供するためのオーディオデコーダも示し、オーディオデコーダは、上記した態様のいずれかに記載のエラーコンシールメントユニットを備える。
本発明の態様によると、オーディオデコーダは、オーディオフレームのスペクトルドメイン表現を、オーディオフレームのスペクトルドメイン表現の符号化された表現に基づいて得るように構成され、オーディオデコーダは、オーディオフレームの復号化された時間表現を得るために、スペクトルドメイン−時間ドメイン変換を実行するように構成される。エラーコンシールメントは、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームのスペクトルドメイン表現またはその一部を用いて、周波数ドメインコンシールメントを実行するように構成される。エラーコンシールメントは、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームの復号化された時間ドメイン表現を用いて、時間ドメインコンシールメントを実行するように構成される。
本発明は、符号化されたオーディオ情報におけるオーディオフレームのロスをコンシールメントするためのエラーコンシールメントオーディオ情報を提供するためのエラーコンシールメント方法にも関係し、方法は、
−第1の周波数範囲ための第1のエラーコンシールメントオーディオ情報成分を周波数ドメインコンシールメントを用いて提供するステップと、
−第1の周波数範囲よりも低い周波数を備える第2の周波数範囲のための第2のエラーコンシールメントオーディオ情報成分を時間ドメインコンシールメントを用いて提供するステップと、
−第1のエラーコンシールメントオーディオ情報成分と、第2のエラーコンシールメントオーディオ情報成分とを結合してエラーコンシールメントオーディオ情報を得るステップと、
を備える。
本発明の方法は、第1および第2の周波数範囲を信号適応的に制御するステップも備える。方法は、少なくとも1つのロストオーディオフレームのためのエラーコンシールメントオーディオ情報を得るために、時間ドメインコンシールメントのみ、または周波数ドメインコンシールメントのみが用いられるモードに信号適応的に切り替えるステップを備える。
本発明は、コンピュータプログラムがコンピュータ上で動作するとき、本発明の方法を実行するため、および/または、本発明のコンシールメントユニットおよび/または本発明のデコーダを制御するためのコンピュータプログラムにも関連する。
本発明は、入力オーディオ情報に基づいて符号化されたオーディオ表現を提供するためのオーディオエンコーダにも関連する。オーディオエンコーダは、入力オーディオ情報に基づいて符号化された周波数ドメイン表現を提供するように構成される周波数ドメインエンコーダ、および/または、入力オーディオ情報に基づいて符号化された線形予測ドメイン表現を提供するように構成される線形予測ドメインエンコーダと、時間ドメインエラーコンシールメントと周波数ドメインエラーコンシールメントとの間のクロスオーバー周波数をオーディオデコーダ側で用いられるように定義するクロスオーバー周波数情報を決定するように構成されるクロスオーバー周波数決定器と、を備える。オーディオエンコーダは、符号化された周波数ドメイン表現、および/または、符号化された線形予測ドメイン表現、ならびにクロスオーバー周波数情報も符号化されたオーディオ表現に含めるように構成される。
したがって、デコーダ側で第1および第2の周波数範囲を認識する必要がない。この情報は、エンコーダによって容易に提供されるだろう。
しかしながら、オーディオエンコーダは、たとえば、オーディオデコーダのようなクロスオーバー周波数を決定するための同じコンセプトを信頼するかもしれない(ここで、入力オーディオ信号は、復号化されたオーディオ情報の代わりに使用されるかもしれない)。
本発明は、入力オーディオ情報に基づいて符号化されたオーディオ表現を提供するための方法にも関連する。方法は、
−入力オーディオ情報に基づいて符号化された周波数ドメイン表現を提供する周波数ドメイン符号化ステップ、および/または、入力オーディオ情報に基づいて符号化された線形予測ドメイン表現を提供する線形予測ドメイン符号化ステップと、
−時間ドメインエラーコンシールメントと周波数ドメインエラーコンシールメントとの間のクロスオーバー周波数をオーディオデコーダ側で使用されるように定義するクロスオーバー周波数情報を決定するためのクロスオーバー周波数を決定するステップと、
を備える。
符号化ステップは、符号化された周波数ドメイン表現および/または符号化された線形予測ドメイン表現、ならびにクロスオーバー周波数情報も符号化されたオーディオ表現に含まれるように構成される。
本発明は、以下を備える符号化されたオーディオ表現にも関連する。すなわち、オーディオコンテンツを表す符号化された周波数ドメイン表現、および/または、オーディオコンテンツを表す符号化された線形予測ドメイン表現と、時間ドメインエラーコンシールメントと周波数ドメインエラーコンシールメントとの間のクロスオーバー周波数をオーディオデコーダ側で使用されるように定義するクロスオーバー周波数情報と、を備える。
したがって、第1および第2の周波数範囲または第1および第2の周波数範囲の間の境界に関係する情報(たとえば、ビットストリーム内)を含むオーディオデータを単に送信することが可能である。符号化されたオーディオ表現を受信するデコーダは、したがって、FDコンシールメントおよびTDコンシールメントに対する周波数範囲をエンコーダによって提供される指示に単に適応することができる。
本発明は、上述のオーディオエンコーダと上述のオーディオデコーダとを備えるシステムにも関連する。制御は、オーディオエンコーダによって提供されるクロスオーバー周波数情報に基づいて第1および第2の周波数範囲を決定するように構成される。
したがって、デコーダは、エンコーダによって提供される命令にTDおよびFDコンシールメントの周波数範囲を信号適応的に修正することができる。
4.図面の簡単な説明
本発明の実施形態は、以下の図面を参照して、引き続いて記述される。
本発明の実施形態に係るコンシールメントユニットの概略ブロック図を示す。 本発明の実施形態に係るオーディオデコーダの概略ブロック図を示す。 本発明の他の実施形態に係るオーディオデコーダの概略ブロック図を示す。 図4は、図4aと図4bによって構成され、本発明の他の実施形態に係るオーディオデコーダの概略ブロック図を示す。 図4は、図4aと図4bによって構成され、本発明の他の実施形態に係るオーディオデコーダの概略ブロック図を示す。 変換コーダに対する時間ドメインコンシールメントの概略ブロック図を示す。 スイッチコーデックに対する時間ドメインコンシールメントの概略ブロック図を示す。 周波数ドメインコンシールメントの操作を図示する図を示す。 本発明の実施の形態に係るコンシールメントの概略ブロック図を示す。 本発明の他の実施の形態に係るコンシールメントの概略ブロック図を示す。 本発明のコンシールメント方法のフローチャートを示す。 本発明のコンシールメント方法のフローチャートを示す。 ウィンドウイングとオーバーラップ加算操作に関する本発明の操作の特徴を示す。 信号図の比較例を示す。 信号図の比較例を示す。 信号図の比較例を示す。 信号図の比較例を示す。 信号図の比較例を示す。 信号図の比較例を示す。 信号図の比較例を示す。 本発明の実施の形態に係るオーディオエンコーダの概略的なブロック図を示す。 本発明の符号化方法のフローチャートを示す。
5.実施の形態の概要
本セクションでは、本発明の実施の形態を、図面を参照して説明する。
5.1 図1に係るエラーコンシールメントユニット
図1は、本発明の実施形態に係るコンシールメントユニット100の概略ブロック図を示す。
コンシールメントユニット100は、符号化されたオーディオ情報におけるオーディオフレームのロスをコンシールメントするためのエラーコンシールメントオーディオ情報を備える。コンシールメントユニット100は、適切に復号されたオーディオ信号101(適切に復号化されたオーディオフレームは、過去に復号化されているということを意味する)のように、オーディオ情報によって入力される。
エラーコンシールメントユニット100は、第1の周波数範囲のための第1のエラーコンシールメントオーディオ情報成分103を、周波数ドメインコンシールメントを用いて(たとえば、周波数ドメインコンシールメント105を用いて)提供するように構成される。エラーコンシールメントユニット100はさらに、第2の周波数範囲のための第2のエラーコンシールメントオーディオ情報成分104を、時間ドメインコンシールメントを用いて(たとえば、時間ドメインコンシールメント106を用いて)を用いて提供するように構成される。第2の周波数範囲は、第1の周波数範囲よりも低い周波数を備える。エラーコンシールメントユニット100はさらに、第1のエラーコンシールメントオーディオ情報成分103と、第2のエラーコンシールメントオーディオ情報成分104とを結合して(たとえば、結合器107を用いて)、エラーコンシールメントオーディオ情報102を得るように構成される。
第1のエラーコンシールメントオーディオ情報成分103は、与えられたロストオーディオフレームの高周波数の部分(又は比較的高い周波数の部分)を表現するよう表されるだろう。第2のエラーコンシールメントオーディオ情報成分104は、与えられたロストオーディオフレームの低周波数の部分(又は比較的低い周波数の部分)を表現するよう表されるだろう。ロストオーディオフレームに関連付けられたエラーコンシールメントオーディオ情報102は、周波数ドメインコンシールメントユニット105と時間ドメインコンシールメントユニット106の両方ともを用いて得られる。
5.1.1 時間ドメインエラーコンシールメント
いくつかの情報が、時間ドメインコンシールメントシールメント106によって統合されるように、時間ドメインコンシールメントに関連してここでは提供される。
それ自体は、例えば、時間ドメインコンシールメントが、第2のエラーコンシールメントオーディオ情報成分を取得するために、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号を修正するように構成される。しかしながら、いくつかの簡単な実施の形態において、時間ドメイン励振信号を修正なしで使用することができる。違う言葉で表現すれば、時間ドメインコンシールメントは、ロストオーディオフレームに先行する1つ以上の符号化されたオーディオフレームに対して(またはそれに基づいて)時間ドメイン励振信号を取得する(または導き出す)ことができ、ロストオーディオフレームに先行する1つ以上の適切に受信されたオーディオフレームに対して(またはそれに基づいて)取得された前記時間ドメイン励振信号を修正し、それによりエラーコンシールメントオーディオ情報の第2のエラーコンシールメントオーディオ情報成分を提供するために用いられる時間ドメイン励振信号を(修正によって)取得することができる。言い換えれば、修正された時間ドメイン励振信号(または、修正されていない時間ドメイン励振信号)は、1つのロストオーディオフレーム(またはさらに多重のロストオーディオフレーム)に関連付けられたエラーコンシールメントオーディオ情報の合成(たとえば、LPC合成)に対する入力として(または入力の成分として)として用いることができる。ロストオーディオフレームに先行する1つ以上の適切に受信されたオーディオフレームに基づいて取得された時間ドメイン励振信号に基づいてエラーコンシールメントオーディオ情報の第2のエラーコンシールメントオーディオ情報の成分を提供することによって、聞き取れる不連続性を回避することができる。他方では、ロストオーディオフレームに先行する1つ以上のオーディオフレームに対して(またはそれから)導き出された時間ドメイン励振信号を(任意に)修正することによって、そして(任意に)修正された時間ドメイン励振信号に基づいてエラーコンシールメントオーディオ情報を提供することによって、オーディオコンテンツの変化する特性(たとえば、ピッチ変化)を考慮することが可能であり、そしてまた、不自然な聴覚インプレッション(たとえば、決定的な(たとえば、少なくともほぼ周期的な)信号成分を「フェードアウト」することによって)を回避することが可能である。このように、エラーコンシールメントオーディオ情報は、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームに基づいて取得された復号化されたオーディオ情報といくつかの類似性を備えることを達成することができ、エラーコンシールメントオーディオ情報は、時間ドメイン励振信号をいくらか修正することによって、ロストオーディオフレームに先行するオーディオフレームに関連する復号化されたオーディオ情報と比較したとき、いくらか異なるオーディオコンテンツを備えることを依然として達成することができる。(ロストオーディオフレームに関連する)エラーコンシールメントオーディオ情報の第2のエラーコンシールメントオーディオ情報成分の提供に対して用いられた時間ドメイン励振信号の修正は、たとえば、振幅スケーリングまたは時間スケーリングを備えることができる。しかしながら、他のタイプの修正(またはさらに振幅スケーリングと時間スケーリングの結合)が可能であり、好ましくは、エラーコンシールメントによって(入力情報として)取得された時間ドメイン励振信号と修正された時間ドメイン励振信号の一定程度の関係が残らなければならない。
結論として、オーディオデコーダは、1つ以上のオーディオフレームが失われたケースにおいてさえ、エラーコンシールメントオーディオ情報が良好な聴覚インプレッションを提供するように、エラーコンシールメントオーディオ情報を提供することを可能とする。 エラーコンシールメントは、時間ドメイン励振信号に基づいて実行され、ロストオーディオフレームに先行するもう1つのオーディオフレームに基づいて取得された時間ドメイン励振信号を修正することによって、ロストオーディオフレームの間のオーディオコンテンツの信号特性の変化が考慮される。
5.1.2 周波数ドメインエラーコンシールメント
いくつかの情報が、周波数ドメインコンシールメントシールメント105によって統合されるように、周波数ドメインコンシールメントに関連してここでは提供される。しかしながら、本発明のエラーコンシールメントユニットにおいて、以下において説明する周波数ドメインエラーコンシールメントは制限された周波数範囲において実行される。
しかしながら、上述した周波数ドメインコンシールメントは例示するだけであることに留意すべきであり、異なる又は進んだ概念も適用されるだろう。言い換えると、本明細書に記載された概念はいくつかの特有のコーデックに用いられ、すべての周波数ドメインデコーダによって適用される必要はない。
周波数ドメインコンシールメント関数は、いくつかの実施の形態において、1つのフレームによるデコーダの遅延が増加する(例えば、周波数ドメインコンシールメントが補間された場合)。いくつかの実施の形態(またはいくつかのデコーダ)において、周波数ドメインコンシールメントは、最後の周波数時間変換前にスペクトルデータに作用する。単純フレームが破損した場合、例えば、コンシールメントは、最後(または最後の1つ)の良好なフレーム(適当な復号化されたオーディオフレーム)と誤ったフレームについてのスペクトルデータを作成する最初の良好なフレームとの間に挿入する。しかしながら、いくつかのデコーダは補間を実行できないかもしれない。このようなケースにおいて、より単純な周波数ドメインコンシールメントは、例えば、前の復号化されたスペクトル値の複製や外挿のようなものを用いるかもしれない。前のフレームは、周波数時間変換によって実行され、ここでは、置換された誤ったフレームが前のフレームであり、最後の良好なフレームが前のフレームの前のフレームであり、最初の良好なフレームが実際のフレームである。もし複数のフレームが破損した場合、コンシールメントは最後の良好なフレームから僅かに修正されたスペクトル値に基づいて最初のフェードアウトを実行する。良好なフレームが利用可能になるとすぐに、コンシールメントは、新しいスペクトルデータを次第に大きくする。
以下では、実際のフレームがフレーム数nであり、挿入された破損フレームはフレーム数n−1であり、最後の1つのフレームがフレーム数n−2を有する。破損フレームのウインドウシーケンスとウィンドウ形状は以下の表にしたがう。
表1:補間されたウインドウシーケンスとウィンドウ形状(いくつかのAACファミリーデコーダとUSACで使用されているように)
フレームn−2とnのスケールファクタバンドエネルギーは計算される。これらのフレームの1つにおけるウインドウシーケンスはEIGHT_SHORT_SEQUENCEであり、フレームn−1についての最後のウインドウシーケンスが、長い変換ウィンドウの1つである場合、スケールファクタバンドエネルギーは、短いブロックスペクトル係数の周波数線インデックスを長いブロック表現にマッピングするための長いブロックスケールファクタバンドについて計算される。新しく挿入されたスペクトルは、それぞれのスペクトル係数を乗算させることによって、より古いフレームn−2のスペクトルを再利用することによって確立される。例外は、フレームn−2における短いウインドウシーケンスとフレームnにおける長いウインドウシーケンスの場合にもたらされ、ここでは実際のフレームnが補間ファクタによって修正される。このファクタはそれぞれのスペクトルバンドの範囲を越えて一定であり、フレームn−2およびnのスケールファクタバンドエネルギーの違いから生じる。最後に、挿入されたスペクトル係数の標識はランダムに入れ替わるだろう。
最近では、新しい解決策が紹介されている。これらのシステムに関連して、最後の前の良好なフレームの復号化の後、周波数ビンを複製し、その後、TNSのような他の処理および/またはノイズファイリングを独立して適用することができる。
異なる解決策がEVSまたはELDでも使用される。
5.2 図2に係るオーディオデコーダ
図2は、本発明の一実施形態に係るオーディオデコーダ200の概略ブロック図を示す。オーディオデコーダ200は、たとえば、周波数ドメイン表現において符号化されたオーディオフレームを備えることができる符号化されたオーディオ情報210を受信する。符号化されたオーディオ情報210は、原理上、フレームロスが時々起こるような信頼できないチャネルを介して受信される。フレームが受信され、若しくはとても遅く検出され、又はビットエラーが検出されるかもしれない。これらの発生は、フレームロスの効果を有する。すなわち、フレームが復号化に利用可能ではない。これらの失敗の1つの応答として、デコーダをコンシールメントモードで実行することができる。オーディオデコーダ200は、更に符号化されたオーディオ情報210に基づいて復号化されたオーディオ情報212を提供する。
オーディオデコーダ200は、フレームロスの非存在下で符号化されたオーディオ情報に基づいて復号化されたオーディオ情報222を提供する、復号化/処理120を備えることができる。
オーディオデコーダ200は、更にエラーコンシールメントオーディオ情報232を提供する、エラーコンシールメント230(エラーコンシールメントユニット100によって具体化することができる)を備える。エラーコンシールメント230は、オーディオフレームのロスをコンシールメントするために、エラーコンシールメントオーディオ情報232を提供するように構成される。
言い換えれば、復号化/処理220は、周波数ドメイン表現の形で、すなわち符号化された値が異なる周波数ビンにおける強度を記述する符号化された表現の形で、符号化されたオーディオフレームに対して、復号化されたオーディオ情報222を提供することができる。違う言葉で表現すれば、復号化/処理220は、たとえば、付加的な後処理があるケースにおいて、符号化されたオーディオ情報110からスペクトル値のセットを導き出し、周波数ドメイン−時間ドメイン変換を実行し、それにより復号化されたオーディオ情報222を構成する、または、復号化されたオーディオ情報222の提供に対するベースを形成する、時間ドメイン表現を導き出す、周波数ドメインオーディオデコーダを備えることができる。
さらに、オーディオデコーダ200は、以下に記述されるいずれかの構成および機能によって、個別にまたは組合せて補充することができることに留意すべきである。
5.3 図3に係るオーディオデコーダ
図3は、本発明の一実施形態に係るオーディオデコーダ300の概略ブロック図を示す。
オーディオデコーダ300は、符号化されたオーディオ情報310を受信し、それに基づいて、復号化されたオーディオ情報312を提供するように構成される。オーディオデコーダ300は、ビットストリームアナライザ320(「ビットストリームデフォーマッタ」または「ビットストリームパーサ」としても示すことができる)を備える。ビットストリームアナライザ320は、符号化されたオーディオ情報310を受信し、それに基づいて、周波数ドメイン表現322と、おそらくは付加的な制御情報324を提供する。周波数ドメイン表現322は、符号化されたスペクトル値326と、符号化されたスケールファクタ(またはLPC表現)328と、たとえば、ノイズ充填、中間処理、または後処理のような特定の処理ステップを制御することができる、たとえば、付加的なサイド情報330とを備えることができる。オーディオデコーダ300は、また、符号化されたスペクトル値326を受信し、それに基づいて、復号化スペクトル値342のセットを提供するように構成された、スペクトル値復号化340を備える。オーディオデコーダ300は、また、符号化されたスケールファクタ328を受信し、それに基づいて、復号化されたスケールファクタ352のセットを提供するように構成することができる、スケールファクタ復号化350を備えることができる。
スケールファクタ復号化の代替として、たとえば、符号化されたオーディオ情報がスケールファクタ情報よりむしろ符号化されたLPC情報を備えるケースにおいて、LPC−スケールファクタ変換354を用いることができる。しかしながら、いくつかの符号化モードにおいて(たとえば、USACオーディオデコーダのTCX復号化モードにおいて、またはEVSオーディオデコーダにおいて)、オーディオデコーダの側でスケールファクタのセットを導き出すために、LPC係数のセットを用いることができる。この機能は、LPC−スケールファクタ変換354によって達成することができる。
オーディオデコーダ300は、また、スケーリングされたファクタ352のセットをスペクトル値342のセットに適用し、これによりスケーリングされた復号化スペクトル値362のセットを取得するように構成することができる、スケーラ360を備えることができる。たとえば、多重の復号化スペクトル値342を備える第1の周波数バンドは、第1のスケールファクタを用いてスケーリングすることができ、多重の復号化スペクトル値342を備える第2の周波数バンドは、第2のスケールファクタを用いてスケーリングすることができる。したがって、スケーリングされた復号化スペクトル値362のセットが取得される。オーディオデコーダ300は、スケーリングされた復号化スペクトル値362にいくつかの処理を適用することができる、オプションの処理366を更に備えることができる。たとえば、オプションの処理366は、ノイズ充填またはいくつかの他の演算を備えることができる。
オーディオデコーダ300は、スケーリングされた復号化スペクトル値362、またはその処理されたバージョン368を受信し、スケーリングされた復号化スペクトル値362のセットに関連する時間ドメイン表現372を提供するように構成された、周波数ドメイン−時間ドメイン変換370を備えることができる。たとえば、周波数ドメイン−時間ドメイン変換370は、オーディオコンテンツのフレームまたはサブフレームに関連する時間ドメイン表現372を提供することができる。たとえば、周波数ドメイン−時間ドメイン変換は、MDCT係数のセット(それは、スケーリングされた復号化スペクトル値と考えることができる)を受信し、それに基づいて、時間ドメイン表現372を形成することができる、時間ドメインサンプルのブロックを提供することができる。
オーディオデコーダ300は、時間ドメイン表現372を受信し、時間ドメイン表現372をいくらか修正し、それにより時間ドメイン表現372の後処理されたバージョン378を取得することができる、後処理376をオプションとして備えることができる。
オーディオデコーダ300は、また、周波数ドメイン−時間ドメイン変換370とスケーリングされた復号化スペクトル値362(またはその処理されたバージョン368)とから時間ドメイン表現372を受信するエラーコンシールメント380を備える。さらに、エラーコンシールメント380は、1つ以上のロストオーディオフレームに対してエラーコンシールメントオーディオ情報382を提供する。言い換えれば、オーディオフレームが失われた場合に、たとえば、いかなる符号化されたスペクトル値326も、前記オーディオフレーム(またはオーディオサブフレーム)に対して利用可能でないように、エラーコンシールメント380は、ロストオーディオフレームとスケーリングされた復号化スペクトル値362(またはその処理されたバージョン368)とに先行する1つ以上のオーディオフレームに関連する時間ドメイン表現372に基づいてエラーコンシールメントオーディオ情報を提供することができる。エラーコンシールメントオーディオ情報は、通常はオーディオコンテンツの時間ドメイン表現とすることができる。
エラーコンシールメント380は、たとえば、上述されたエラーコンシールメントユニット100および/またはエラーコンシールメント230の機能を実行することができることに留意すべきである。
エラーコンシールメントに関して、エラーコンシールメントはフレーム復号化の同時刻に起こらないことに留意すべきである。たとえば、フレームnが良好であり、次に通常の復号化を行い、最後に次のフレームをコンシールしなければならない場合に助けるいくつかの変数を保存し、次にフレームn+1が失われた場合に、前の良好なフレームから来る変数を与えるコンシールメント関数を呼ぶ。また、次のフレームロスに対してまたは次の良好なフレームへのリカバリーを助けるために、いくつかの変数をアップデートする。
オーディオデコーダ300は、また、時間ドメイン表現372(または後処理376があるケースにおいて後処理された時間ドメイン表現378)を受信するように構成された、信号結合390を備える。さらに、信号結合390は、通常はロストオーディオフレームに対して提供されたエラーコンシールメントオーディオ信号の時間ドメイン表現でもある、エラーコンシールメントオーディオ情報382を受信することができる。信号結合390は、たとえば、次のオーディオフレームに関連する時間ドメイン表現を結合することができる。次の適切に復号化されたオーディオフレームがあるケースにおいて、信号結合390は、これらの次の適切に復号化されたオーディオフレームに関連する時間ドメイン表現を結合する(たとえば、オーバーラップ加算する)ことができる。しかしながら、オーディオフレームが失われた場合に、信号結合390は、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームに関連する時間ドメイン表現と、ロストオーディオフレームに関連するエラーコンシールメントオーディオ情報とを結合する(たとえば、オーバーラップ加算する)ことができ、それにより適切に受信されたオーディオフレームとロストオーディオフレームとの間のスムースな遷移を有することができる。同様に、信号結合390は、ロストオーディオフレームに関連するエラーコンシールメントオーディオ情報と、ロストオーディオフレームに引き続く他の適切に復号化されたオーディオフレームに関連する時間ドメイン表現(または多重の連続するオーディオフレームが失われたケースにおいて他のロストオーディオフレームに関連する他のエラーコンシールメントオーディオ情報)とを結合する(たとえばオーバーラップ加算する)ように構成することができる。
したがって、信号結合390は、時間ドメイン表現372、またはその後処理されたバージョン378が適切に復号化されたオーディオフレームに対して提供されるように、そしてエラーコンシールメントオーディオ情報382がロストオーディオフレームに対して提供されるように、復号化されたオーディオ情報312を提供することができ、オーバーラップ加算演算は、(それが周波数ドメイン−時間ドメイン変換370によってまたはエラーコンシールメント380によって提供されるかどうかに拘りなく)通常は次のオーディオフレームのオーディオ情報の間で実行される。いくつかのコーデックは、オーバーラップ加算部分にキャンセルされることを必要とするいくつかのエイリアシングを有し、オプションとしてオーバーラップ加算を実行するために生成したいくつかの人工的なエイリアシングを半フレーム上に生成することができる。
オーディオデコーダ300の機能は、図2に係るオーディオデコーダ200の機能に類似することに留意すべきである。さらに、図3に係るオーディオデコーダ300は、本願明細書に記述されたいずれかの構成および機能によって補充することができることに留意すべきである。特に、エラーコンシールメント380は、エラーコンシールメントに関して本願明細書に記述されたいずれかの構成および機能によって補充することができる。
5.4 図4に係るオーディオデコーダ
図4は、本発明の他の実施形態に係るオーディオデコーダ400を示す。
オーディオデコーダ400は、符号化されたオーディオ情報を受信し、それに基づいて、復号化されたオーディオ情報412を提供するように構成される。オーディオデコーダ400は、たとえば、異なるオーディオフレームが異なる符号化モードを用いて符号化された、符号化オーディオ情報410を受信するように構成することができる。たとえば、オーディオデコーダ400は、多重モードオーディオデコーダまたは「スイッチング」オーディオデコーダと考えることができる。たとえば、いくつかのオーディオフレームは、周波数ドメイン表現を用いて符号化することができ、符号化されたオーディオ情報は、スペクトル値(たとえば、FFT値またはMDCT値)の符号化された表現と、異なる周波数バンドのスケーリングを表すスケールファクタとを備える。さらに、符号化されたオーディオ情報410は、また、オーディオフレームの「時間ドメイン表現」、または多重のオーディオフレームの「線形予測符号化ドメイン表現」を備えることができる。「線形予測符号化ドメイン表現」(簡単に「LPC表現」としても示される)は、たとえば、励振信号の符号化された表現と、LPCパラメータ(線形予測符号化パラメータ)の符号化された表現を備えることができ、線形予測符号化パラメータは、たとえば、時間ドメイン励振信号に基づいてオーディオ信号を復元するために用いられる線形予測符号化合成フィルタを記述する。
以下に、オーディオデコーダ400のいくつかの詳細が記述される。
オーディオデコーダ400は、たとえば、符号化されたオーディオ情報410を分析し、符号化されたオーディオ情報410から、たとえば、符号化されたスペクトル値と、符号化されたスケールファクタと、オプションとして、付加的なサイド情報とを備える、周波数ドメイン表現422を抽出することができる、ビットストリームアナライザ420を備える。ビットストリームアナライザ420は、また、たとえば、符号化された励振426と、符号化された線形予測係数428(それは、符号化された線形予測パラメータとも考えることができる)とを備えることができる、線形予測符号化ドメイン表現424を抽出するように構成することができる。さらに、ビットストリームアナライザは、符号化されたオーディオ情報から、付加的な処理ステップを制御するために用いることができる、付加的なサイド情報を、オプションとして抽出することができる。
オーディオデコーダ400は、たとえば、図3に係るオーディオデコーダ300の復号化パスと実質的に同一とすることができる、周波数ドメイン復号化パス430を備える。言い換えれば、周波数ドメイン復号化パス430は、図3に関して上述されたように、スペクトル値復号化340と、スケールファクタ復号化350と、スケーラ360と、オプションの処理366と、周波数ドメイン−時間ドメイン変換370と、オプションの後処理376と、エラーコンシールメント380とを備えることができる。
オーディオデコーダ400は、また、線形予測ドメイン復号化パス440(これは、LPC合成が時間ドメインにおいて実行されるので、時間ドメイン復号化パスと考えることもできる)を備えることができる。線形予測ドメイン復号化パスは、励振復号化450を備える。ビットストリームアナライザ420によって提供された符号化された励振426を受信し、それに基づいて、復号化された励振452(これは、復号化された時間ドメイン励振信号という形をとることができる)を提供する。たとえば、励振復号化450は、符号化された変換符号化励振情報を受信することができ、それに基づいて、復号化された時間ドメイン励振信号を提供することができる。このように、励振復号化450は、たとえば、図7を参照して記述される励振デコーダ730によって実行される機能を実行することができる。しかしながら、代替としてまたは加えて、励振復号化450は、符号化されたACELP励振を受信することができ、前記符号化されたACELP励振情報に基づいて、復号化された時間ドメイン励振信号452を提供することができる。
励振復号化に対して、異なるオプションがあることに留意すべきである。たとえば、CELP符号化コンセプト、ACELP符号化コンセプト、CELP符号化コンセプトとACELP符号化コンセプトの修正、およびTCX符号化コンセプトを定義する関連する規格および刊行物が参照される。
線形予測ドメイン復号化パス440は、処理された時間ドメイン励振信号456が時間ドメイン励振信号452から導き出される、処理454をオプションとして備える。
線形予測ドメイン復号化パス440は、また、符号化された線形予測係数を受信し、それに基づいて、復号化された線形予測係数462を提供するように構成された、線形予測係数復号化460を備える。線形予測係数復号化460は、入力情報428として、線形予測係数の異なる表現を用いることができ、出力情報462として、復号化された線形予測係数の異なる表現を提供することができる。詳細は、線形予測係数の符合化および/または復号化が記述された異なる規格ドキュメントが参照される。
線形予測ドメイン復号化パス440は、復号化された線形予測係数を処理し、それの処理されたバージョン466を提供することができる、処理464をオプションとして備える。
線形予測ドメイン復号化パス440は、また、復号化された励振452、またはそれの処理されたバージョン456と、復号化された線形予測係数462、またはそれの処理されたバージョン466とを受信し、復号化された時間ドメインオーディオ信号472を提供するように構成された、LPC合成(線形予測符号化合成)470を備える。たとえば、LPC合成470は、復号化された時間ドメインオーディオ信号472が、時間ドメイン励振信号452(または456)をフィルタリング(合成フィルタリング)することによって取得されるように、復号化された線形予測係数462(またはそれの処理されたバージョン466)によって、復号化時間ドメイン励振信号452、またはそれの処理されたバージョンに対して定義された、フィルタリングを適用するように構成することができる。線形予測ドメイン復号化パス440は、復号化された時間ドメインオーディオ信号472の特性をリファインするまたは調整するために用いることができる、後処理474をオプションとして備えることができる。
線形予測ドメイン復号化パス440は、また、復号化された線形予測係数462(またはそれの処理されたバージョン466)と、復号化された時間ドメイン励振信号452(またはそれの処理されたバージョン456)を受信するように構成された、エラーコンシールメント480を備える。エラーコンシールメント480は、たとえばピッチ情報のような、付加情報をオプションとして受信することができる。エラーコンシールメント480は、符号化されたオーディオ情報410のフレーム(またはサブフレーム)が失われたケースにおいて、時間ドメインオーディオ信号の形とすることができる、エラーコンシールメントオーディオ情報を、結果的に提供することができる。このように、エラーコンシールメント480は、エラーコンシールメントオーディオ情報482の特性が、ロストオーディオフレームに先行する最後の適切に復号化されたオーディオフレームの特性に実質的に適応されるように、エラーコンシールメントオーディオ情報482を提供することができる。エラーコンシールメント480は、エラーコンシールメント100および/または230および/または380に関して記述されたいずれかの構成および機能を備えることができることに留意すべきである。加えて、エラーコンシールメント480は、また、図6の時間ドメインコンシールメントに関して記述されるいずれかの構成および機能を備えることができることに留意すべきである。
オーディオデコーダ400は、また、復号化された時間ドメインオーディオ信号372(またはその後処理されたバージョン378)と、エラーコンシールメント380によって提供されるエラーコンシールメントオーディオ情報382と、復号化された時間ドメインオーディオ信号472(またはその後処理されたバージョン476)と、エラーコンシールメント480によって提供されるエラーコンシールメントオーディオ情報482とを受信するように構成された、信号結合器(または信号結合490)を備える。信号結合器490は、前記信号372(または378)、382、472(または476)および482を結合し、これにより復号化されたオーディオ情報412を取得するように構成することができる。特に、オーバーラップ加算演算は、信号結合器490によって適用することができる。したがって、信号結合器490は、時間ドメインオーディオ信号が、異なるエンティティ(たとえば、異なる復号化パス430、440によって)によって提供される次のオーディオフレーム間のスムースな遷移を提供することができる。しかしながら、信号結合器490は、また、時間ドメインオーディオ信号が、次のフレームに対して、同じエンティティによって(たとえば、周波数ドメイン−時間ドメイン変換370またはLPC合成470によって)提供される場合に、スムースな遷移を提供することができる。いくつかのコーデックは、オーバーラップ加算部分にキャンセルされることを必要とするいくつかのエイリアシングを有するので、オプションとして、オーバーラップ加算を実行するために生成された、いくつかの人工的なエイリアシングを半フレーム上に生成することができる。言い換えれば、人工的な時間ドメインエイリアシング補償(TDAC)を、オプションとして用いることができる。
また、信号結合器490は、エラーコンシールメントオーディオ情報(それは、通常は時間ドメインオーディオ信号でもある)が提供されるフレームへのおよびそれからのスムースな遷移を提供することができる。
要約すると、オーディオデコーダ400は、周波数ドメインにおいて符号化されたオーディオフレームと、線形予測ドメインにおいて符号化されたオーディオフレームとを復号化することを可能とする。特に、信号特性に依存して(たとえば、オーディオエンコーダによって提供されるシグナリング情報を用いて)、周波数ドメイン復号化パスの使用と線形予測ドメイン復号化パスの使用との間でスイッチすることが可能である。フレームロスのケースにおいて、エラーコンシールメントオーディオ情報を提供に対して、最後の適切に復号化されたオーディオフレームが、周波数ドメインにおいて(または、等価的に、周波数ドメイン表現において)、または時間ドメインにおいて(または、等価的に、時間ドメイン表現において、または、等価的に、線形予測ドメインにおいて、または、等価的に、線形予測ドメイン表現において)符号化されたかどうかに従って、異なるタイプのエラーコンシールメントを用いることができる。
5.5. 図5に係る時間ドメインコンシールメント
図5は、本発明の一実施形態に係る時間ドメインエラーコンシールメントの概略ブロック図を示す。図5に係るエラーコンシールメントは、全体において500として示され、図1の時間ドメインコンシールメント106を具体化できる。しかしながら、簡略して表現するために図5で示されていないけれども、時間ドメインコンシールメントの入力(例えば、信号510に適用される)において用いられるかもしれないダウンサンプリング、および時間ドメインコンシールメントの出力において用いられるかもしれないアップサンプリング、およびローパスフィルタリングが適用されるかもしれない。
時間ドメインエラーコンシールメント500は、時間ドメインオーディオ信号510(信号101の低周波数範囲であるだろう)を受信し、それに基づいて、たとえば、時間ドメインオーディオ信号(たとえば、信号104)の形をとることができ、第2のエラーコンシールメントオーディオ情報成分を提供するために用いることができるエラーコンシールメントオーディオ情報成分512を提供するように構成される。
エラーコンシールメント500は、オプションと考えることができる、プリエンファシス520を備える。プリエンファシスは、時間ドメインオーディオ信号を受信し、それに基づいて、プリエンファサイズされた時間ドメインオーディオ信号522を提供する。
エラーコンシールメント500は、また、時間ドメインオーディオ信号510またはそれのプリエンファサイズされたバージョン522を受信し、LPCパラメータ532のセットを備えることができるLPC情報532を取得するように構成された、LPC分析530を備える。たとえば、LPC情報は、LPCフィルタ係数のセット(またはそれの表現)と、時間ドメイン励振信号(それは、LPCフィルタ係数に従って構成されたLPC合成フィルタの励振に対して適応され、少なくともほぼ、LPC分析の入力信号を復元する)を備えることができる。
エラーコンシールメント500は、また、たとえば、前に復号化されたオーディオフレームに基づいて、ピッチ情報542を取得するように構成された、ピッチ探索540を備える。
エラーコンシールメント500は、また、LPC分析の結果に基づいて(たとえば、LPC分析によって決定された時間ドメイン励振信号に基づいて)、そしておそらくはピッチ探索の結果に基づいて、外挿された時間ドメイン励振信号を取得するように構成することができる、外挿550を備える。
エラーコンシールメント500は、また、ノイズ信号562を提供する、ノイズ生成560を備える。エラーコンシールメント500は、また、外挿された時間ドメイン励振信号552とノイズ信号562とを受信し、それに基づいて、結合された時間ドメイン励振信号572を提供するように構成された、コンバイナ/フェーダ570を備える。コンバイナ/フェーダ570は、外挿された時間ドメイン励振信号552とノイズ信号562とを結合するように構成することができ、フェーディングは、外挿された時間ドメイン励振信号552(それは、LPC合成の入力信号の決定的な成分を決定する)の相対的な貢献度が時間とともに減少する一方、ノイズ信号562の相対的な貢献度が時間とともに増加するように、実行することができる。しかしながら、コンバイナ/フェーダの異なる機能も可能である。また、以下の説明も参照される。
エラーコンシールメント500は、また、結合された時間ドメイン励振信号572を受信し、それに基づいて時間ドメインオーディオ信号582を提供する、LPC合成580を備える。たとえば、LPC合成は、また、結合された時間ドメイン励振信号572に適用され、時間ドメインオーディオ信号582を導き出す、LPC成形フィルタを記述するLPCフィルタ係数を受信することができる。LPC合成580は、たとえば、1つ以上前に復号化されたオーディオフレーム(たとえば、LPC分析530によって提供される)に基づいて取得されたLPC係数を用いることができる。
エラーコンシールメント500は、また、オプションと考えることができる、デエンファシス584を備える。デエンファシス584は、デエンファサイズされたエラーコンシールメント時間ドメインオーディオ信号586を提供することができる。
エラーコンシールメント500は、また、オプションとして、次のフレーム(またはサブフレーム)に関連する時間ドメインオーディオ信号のオーバーラップ加算演算を実行する、オーバーラップ加算590を備える。しかしながら、オーバーラップ加算590は、エラーコンシールメントがオーディオデコーダ環境において既に提供された信号結合を用いることもできるので、オプションと考える必要があることに留意すべきである。たとえば、オーバーラップ加算590は、いくつかの実施形態において、オーディオデコーダ300における信号結合390によって置換することができる。
以下に、エラーコンシールメント500に関するいくつかの更なる詳細が記述される。
図5に係るエラーコンシールメント500は、変換ドメインコーデックの文脈をAAC_LCまたはAAC_ELDとしてカバーする。違う言葉で表現すれば、エラーコンシールメント500は、この種の変換ドメインコーデックにおける(そして、特に、この種の変換ドメインオーディオデコーダにおける)使用に対してよく適応される。変換コーデックのみ(たとえば、線形予測ドメイン復号化パスがない)のケースにおいて、最後のフレームからの出力信号が起点として用いられる。たとえば、時間ドメインオーディオ信号372は、エラーコンシールメントの起点として用いることができる。好ましくは、励振信号、ちょうど(1つ以上)前のフレーム(たとえば、時間ドメインオーディオ信号372のような)からの出力時間ドメイン信号は、利用可能でない。
以下に、エラーコンシールメント500のサブユニットおよび機能がより詳細に記述される。
5.5.1. LPC分析
図5に係る実施形態において、全てのコンシールメントは、連続するフレーム間のよりスムースな遷移を得るために、励振ドメインにおいて行われる。それ故に、LPCパラメータの適当なセットを見つける(または、さらに一般的にいえば、取得する)ことが、最初に必要である。図5に係る実施形態において、LPC分析530は、過去のプリエンファサイズされた時間ドメイン信号522上で行われる。LPCパラメータ(またはLPCフィルタ係数)は、励振信号(たとえば時間ドメイン励振信号)を得るために、過去の合成信号のLPC分析を(たとえば、時間ドメインオーディオ信号510に基づいて、またはプリエンファサイズされた時間ドメインオーディオ信号522に基づいて)実行するために用いられる。
5.5.2. ピッチ探索
新しい信号(たとえば、エラーコンシールメントオーディオ情報)を造るために用いられるピッチを得るために、異なるアプローチがある。
最後のフレームがLTPによるAACである場合に、AAC−LTPのようなLTPフィルタ(長期予測フィルタ)を用いたコーデックの文脈において、ハーモニックパートの生成に対して、この最後に受信されたLTPピッチ遅延および対応するゲインを用いる。このケースにおいて、ゲインは、ハーモニックパートを信号に組み込むか否かを決定するために用いられる。たとえば、LTPゲインが0.6(または他のいかなる既定値)より高い場合に、LTP情報は、ハーモニックパートを造るために用いられる。
前のフレームから利用可能ないかなるピッチ情報もない場合に、たとえば、以下に記述される2つのソリューションがある。
たとえば、エンコーダでピッチ探索に行い、ビットストリームにおいてピッチ遅延およびゲインを伝送することが可能である。これはLTPと類似しているが、いかなるフィルタリング(また、クリーンチャネルにおけるLTPフィルタリング)も適用されない。
代替として、デコーダにおいてピッチ探索を実行することが可能である。TCXのケースにおけるAMR−WBピッチ探索は、FFTドメインにおいて行われる。ELDにおいて、たとえば、MDCTドメインが用いられる場合に、位相は欠落されるであろう。それ故に、ピッチ探索は、好ましくは励振ドメインにおいて直接行われる。これは、合成ドメインにおいてピッチ探索を行うよりも良好な結果を与える。励振ドメインにおけるピッチ探索は、正規化相互相関によって最初にオープンループで行われる。次に、オプションとして、特定のデルタによって、オープンループピッチの周辺でクローズドループ探索を行うことによって、ピッチ探索をリファインする。ELDウィンドウ化の制限のため、間違ったピッチが見つかる可能性があり、従って見つかったピッチが正しいことを検証する、またはさもないとそれを廃棄する。
結論として、エラーコンシールメントオーディオ情報を提供するとき、ロストオーディオフレームに先行する最後の適切に復号化されたオーディオフレームのピッチを考慮することができる。いくつかのケースにおいて、前のフレーム(すなわち、ロストオーディオフレームに先行する最後のフレーム)の復号化から利用可能なピッチ情報がある。この場合、このピッチは、(おそらくいくつかの外挿と時間上のピッチ変化の考慮によって)再利用することができる。また、コンシールされたフレームの終わりにおいて必要とするピッチを外挿することまたは予測することを試みるために、過去の複数のフレームのピッチをオプションとして再利用することができる。
また、決定的な(たとえば、少なくともほぼ周期的な)信号成分の強度(または相対的強度)を記述する、利用可能な情報(たとえば、長期予測ゲインとして示される)がある場合に、この値は、エラーコンシールメントオーディオ情報に決定的な(またはハーモニックな)成分が含まれる必要があるかどうかを決定するために用いることができる。言い換えれば、前記値(たとえばLTPゲイン)を、所定の閾値と比較することによって、エラーコンシールメントオーディオ情報の供給に対して、前に復号化されたオーディオフレームから導き出された時間ドメイン励振信号を考慮する必要があるか否かを決定することができる。
前のフレームから(または、より正確に言うと、前のフレームの復号化から)利用可能なピッチ情報がない場合には、異なるオプションがある。ピッチ情報は、オーディオエンコーダからオーディオデコーダまで伝送することができる可能性があり、それはオーディオデコーダを単純化するが、ビットレートオーバーヘッドを発生させる。代替として、ピッチ情報は、オーディオデコーダにおいて、たとえば、励振ドメインにおいて、すなわち、時間ドメイン励振信号に基づいて、決定することができる。たとえば、前の適切に復号化されたオーディオフレームから導き出された時間ドメイン励振信号は、エラーコンシールメントオーディオ情報の供給に対して用いられるピッチ情報を識別するために、評価することができる。
5.5.3. 励振の外挿またはハーモニックパートの生成
前のフレームから取得された励振(たとえば、時間ドメイン励振信号)(ロストフレームに対して丁度演算されたかまたは多重のフレームロスに対して前のロストフレームにおいて既に保存されたかのいずれか)は、1つ半のフレームを得るために必要なだけ最後のピッチサイクルを複製することによって、ハーモニックパート(決定的な成分またはほぼ周期的な成分としても示される)を、励振に(たとえば、LPC合成の入力信号に)組み込むために用いられる。煩雑性を省くため、最初のロスフレームに対して1つ半のフレームを生成し、そして続くフレームロスに対して半フレームだけ処理をシフトし、各々1フレームのみを生成することができる。次に、オーバーラップの半フレームに常にアクセスする。
良好なフレーム(すなわち、適切に復号化されたフレーム)の後の最初のロストフレームのケースにおいて、最初のピッチサイクル(たとえば、ロストオーディオフレームに先行する最後の適切に復号化されたオーディオフレームに基づいて取得された時間ドメイン励振信号の)は、(ELDが実際に広いサンプリングレートの組合せ―AAC−ELDコアからSBRまたはAAC−ELDデュアルレートSBRによるAAC−ELDまでをカバーするので)サンプリングレート依存フィルタによってローパスフィルタリングされる。
ボイス信号におけるピッチは、ほとんどいつでも変化している。それ故に、上記提案されたコンシールメントは、コンシールされた信号の終わりにおける(すなわち、エラーコンシールメントオーディオ情報の終わりにおける)ピッチがしばしば最初の良好なフレームのピッチにマッチしないので、リカバリーにおいていくつかの問題(または少なくとも歪み)を発生させる傾向がある。それ故に、オプションとして、いくつかの実施形態において、コンシールされたフレームの終わりにおけるピッチをリカバリーフレームの始めにおけるピッチにマッチするように予測することが試みられる。たとえば、ロストフレーム(それは、コンシールされたフレームと考えられる)の終わりにおけるピッチが予測され、予測のターゲットは、ロストフレーム(コンシールされたフレーム)の終わりにおけるピッチを、1つ以上のロストフレームに引き続く最初の適切に復号化されたフレーム(最初の適切に復号化されたフレームが「リカバリーフレーム」とも呼ばれる)の始めにおけるピッチに近づくようにセットすることである。これは、フレームロスの間、または最初の良好なフレームの間(すなわち、最初の適切に受信されたフレームの間)、行われる可能性がある。さらに良好な結果を得るために、オプションとして、ピッチ予測およびピッチ再同期のようないくつかの従来のツールを再利用し、それらを適応させることが可能である。詳細に対して、たとえば、参考文献[4]および[5]が参照される。
長期予測(LTP)が周波数ドメインコーデックにおいて用いられる場合に、ピッチに関する開始情報として遅延を用いることができる。しかしながら、いくつなの実施形態において、ピッチ輪郭をより良く追跡することができる良好なデータの塊を有することも望ましい。それ故に、最後の良好な(適切に復号化された)フレームの始めと終わりにおいてピッチ探索を行うことが好ましい。信号を動くピッチに適応させるために、技術水準に存在するパルス再同期を用いることが望ましい。
5.5.4. ピッチのゲイン
いくつかの実施形態において、所望のレベルに達するために、前に取得された励振上のゲインを適用することが好ましい。「ピッチのゲイン」(たとえば、時間ドメイン励振信号の決定的な成分のゲイン、すなわちLPC合成の入力信号を取得するために、前に復号化されたオーディオフレームから導き出された時間ドメイン励振信号に適用されたゲイン)は、たとえば、最後の良好な(たとえば、適切に復号化された)フレームの終わりにおいて時間ドメインで正規化相関を行うことによって取得することができる。相関の長さは、2つのサブフレームの長さに等しいとすることができる、または適応的に変えることができる。遅延は、ハーモニックパートの生成に対して用いられるピッチ遅延に等しい。また、オプションとして、最初のロストフレーム上でのみゲイン計算を実行し、引き続く連続するフレームロスに対してフェードアウト(低減されたゲイン)を適用するのみとすることもできる。
「ピッチのゲイン」は、生成される純音性の量(または決定的な、少なくともほぼ周期的な信号成分の量)を決定する。しかしながら、人工的な音のみを有することがないように、いくつかの成型されたノイズを加えることが望ましい。非常に低いピッチのゲインを得る場合には、成形されたノイズのみからなる信号を造る。
結論として、いくつかのケースにおいて、たとえば、前に復号化されたオーディオフレームに基づいて取得された、いくつかの時間ドメイン励振信号は、(たとえば、LPC分析に対する入力信号を取得するための)ゲインに依存してスケーリングされる。したがって、時間ドメイン励振信号は決定的な(少なくともほぼ周期的な)信号成分を決定するので、ゲインは、エラーコンシールメントオーディオ情報における前記決定的な(少なくともほぼ周期的な)信号成分の相対的な強度を決定することができる。加えて、エラーコンシールメントオーディオ情報は、エラーコンシールメントオーディオ情報のトータルエネルギーが、少なくともいくらかの程度で、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームに、そして理想的には、1つ以上のロストオーディオフレームに引き続く適切に復号化されたオーディオフレームにも、適応されるように、LPC合成によって成形されたノイズに基づくことができる。
5.5.5. ノイズパートの構築
ランダムノイズ発生器によって、「イノベーション」が構築される。このノイズは、オプションとして更にハイパスフィルタリングされ、有声のおよび立上りのフレームに対してオプションとしてプリエンファサイズされる。ハーモニックパートのローパスに関しては、このフィルタ(たとえば、ハイパスフィルタ)はサンプリングレート依存である。このノイズ(たとえば、ノイズ生成560によって提供された)は、できる限りバックグラウンドノイズに近くなるように、LPCによって(たとえば、LPC合成580によって)成形される。ハイパス特性は、また、オプションとして、フルバンド成形されたノイズのみを得てバックグラウンドノイズに近い快適なノイズを得るために、特定の量のフレームロスの後、もはやフィルタリングのないことを断言するように、連続するフレームロス上で変えられる。
イノベーションゲイン(それは、たとえば、結合/フェーディング570におけるノイズ562のゲイン、すなわちそれを用いてノイズ信号562がLPC合成の入力信号572に含まれるゲインを決定することができる)は、たとえば、最後の良好なフレームの終わりにおいて相関を行うことによって、前に演算されたピッチ(それが存在する場合)の貢献度(たとえば、ロストオーディオフレームに先行する最後の適切に復号化されたオーディオフレームに基づいて取得された時間ドメイン励振信号の「ピッチのゲイン」を用いてスケーリングされた、スケーリングバージョン)を除去することによって計算される。ピッチゲインに関しては、オプションとして最初のロストフレーム上でのみ行うことができ、次にフェードアウトするが、このケースにおいてフェードアウトは、完全なミューティングに結果としてなる0またはバックグラウンドにおいて存在する推定ノイズレベルのいずれかまで進む可能性がある。相関の長さは、たとえば、2つのサブフレームの長さに等しく、遅延はハーモニックパートの生成に対して用いられるピッチ遅延に等しい。
オプションとして、このゲインは、また、ピッチのゲインが1でない場合に、ノイズ上に同程度のゲインを適用し、エネルギー喪失に到達するために、(1−「ピッチのゲイン」)によって逓倍される。オプションとして、このゲインは、ノイズファクタによっても逓倍される。ノイズファクタは、たとえば、前の有効フレーム(たとえば、ロストオーディオフレームに先行する最後の適切に復号化されたオーディオフレームから)から来る。
5.5.6. フェードアウト
フェードアウトは、大部分は多重のフレームロスに対して用いられる。しかしながら、フェードアウトは、単一のオーディオフレームのみが失われたケースにおいても用いることができる。
多重のフレームロスのケースにおいて、LPCパラメータは再計算されない。最後に演算されたものが保持されるかまたはバックグラウンド形状への収束によってLPCコンシールメントが行われるかのいずれかである。このケースにおいて、信号の周期性はゼロに収束される。たとえば、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号552は、時間とともに徐々に低減するゲインが依然として用いられる一方、ノイズ信号562は、一定に保たれるか、または、時間ドメイン励振信号552の相対的な重みがノイズ信号562の相対的な重みと比較したときに低減されるように、時間とともに徐々に増大するゲインによってスケーリングされる。結果的に、LPC合成580の入力信号572は、ますます「ノイズ状」になる。結果的に、「周期性」(または、より正確にはLPC合成580の出力信号582の決定的なまたは少なくともほぼ周期的な成分)は、時間とともに低減される。
信号572の周期性および/または信号582の周期性に従う収束の速度は、0に収束され、従って最後の正しく受信された(または適切に復号化された)フレームのパラメータおよび/または連続する消去されたフレームの数に依存し、減衰率αによって制御される。ファクタαは、LPフィルタの安定性に更に依存している。オプションとして、ピッチ長による比率においてファクタαを変えることが可能である。ピッチ(たとえば、ピッチによる周期長)は、実際に長い場合にはαを「ノーマル」にキープするが、ピッチが実際に短い場合には通常は過去の励振の同じパートを何度も複製することが必要である。これは、すぐに非常に人工的に聞こえ、それ故に、この信号を速くフェードアウトさせることが好ましい。
更にオプションとして、利用可能であれば、ピッチ予測出力を考慮することができる。ピッチが予測される場合は、それはピッチが前のフレームにおいて既に変化していたことを意味し、より多くのフレームを自由にするとより真実から離れる。それ故に、このケースにおいては音のパートのフェードアウトを少しスピードアップすることが好ましい。
ピッチがあまりに多く変化しているという理由でピッチ予測が失敗した場合、それはピッチ値が、実際に信頼性が高くないかまたは信号が実際に予測不能であるかのいずれかであることを意味する。それ故に、再び、より速くフェードアウトする(たとえば、1つ以上のロストオーディオフレームに先行する1つ以上の適切に復号化されたオーディオフレームに基づいて取得された時間ドメイン励振信号552をより速くフェードアウトする)ことが好ましい。
5.5.7. LPC合成
時間ドメインに戻るために、デエンファシスに引き続く2つの励振(音のパートとノイズが多いパート)の合計についてLPC合成580を実行することが好ましい。違う言葉で表現すれば、ロストオーディオフレーム(音のパート)に先行する1つ以上の適切に復号化されたオーディオフレームに基づいて取得された時間ドメイン励振信号552とノイズ信号562(ノイズが多いパート)との重み付け結合に基づいてLPC合成580を実行することが好ましい。上述したように、時間ドメイン励振信号552は、LPC分析530(LPC合成580に対して用いられたLPC合成フィルタの特性を記述するLPC係数に加えて)によって取得された時間ドメイン励振信号532と比較したとき、修正することができる。たとえば、時間ドメイン励振信号552は、LPC分析530によって取得された時間ドメイン励振信号532の1回スケーリングされた複製とすることができ、時間スケーリングは、時間ドメイン励振信号552のピッチを所望のピッチに適応させるために用いることができる。
5.5.8 オーバーラップ加算
変換コーデックのみのケースにおいて、最高のオーバーラップ加算を得るために、コンシールされたフレームを超える半フレームに対して人工的な信号を生成し、その上に人工的なエイリアシングを生成する。しかしながら、異なるオーバーラップ加算コンセプトを適用するだろう。
正規のAACまたはTCXの文脈において、オーバーラップ加算は、コンシールメントから来る余分な半フレームと最初の良好なフレームの最初のパートとの間で適用される(AAC−LDとして、より低い遅延ウィンドウに対して半分以下である可能性がある)。
ELD(特別な低遅延)の特殊ケースにおいて、最初のロストフレームに対して、最後の3つのウィンドウから適切な貢献度を得るために、分析を3回実行し、次に最初のコンシールメントフレームと全ての引き続くフレームに対して、もう1回分析を実行することが好ましい。次に、MDCTドメインにおいて、引き続くフレームに対して、全ての適当なメモリによって時間ドメインに戻されるように、1つのELD合成が行われる。
結論として、LPC合成580の入力信号572(および/または時間ドメイン励振信号552)は、ロストオーディオフレームの継続期間より長い時間的な継続期間に対して提供することができる。したがって、LPC合成580の出力信号582は、ロストオーディオフレームより長い期間に対して提供することもできる。したがって、オーバーラップ加算は、エラーコンシールメントオーディオ情報(それは、結果的にロストオーディオフレームの時間的拡張より長い期間に対して取得される)と、1つ以上のロストオーディオフレームに引き続く適切に復号化されたオーディオフレームに対して提供された復号化されたオーディオ情報との間で実行することができる。
5.6. 図6に係る時間ドメインコンシールメント
図6は、スイッチコーデックに対して用いることができる、時間ドメインコンシールメントの概略ブロック図を示す。たとえば、図6に係る時間ドメインコンシールメント600は、たとえば、図3または図4のエラーコンシールメント380において、時間ドメインエラーコンシールメント106に置き換えることができる。
スイッチドコーデックのケースにおいて(そして、さらに単に線形予測係数ドメインにおいて復号化を実行するコーデックのケースにおいて)、通常は前のフレーム(たとえば、ロストオーディオフレームに先行する適切に復号化されたオーディオフレーム)から来る励振信号(たとえば、時間ドメイン励振信号)を既に有する。そうでない場合(たとえば、ドメイン励振信号が利用可能でない場合)は、図5に係る実施形態において説明したように行う、すなわちLPC分析を実行することが可能である。前のフレームがACELPライクであった場合は、最後のフレームにおけるサブフレームのピッチ情報も既に有する。最後のフレームがLTP(長期予測)によるTCX(変換符号化励振)であった場合は、長期予測から来る遅延情報も有する。そして、最後のフレームが長期予測(LTP)なしに周波数ドメインにあった場合は、ピッチ探索は、好ましくは励振ドメインにおいて(たとえば、LPC分析によって提供された時間ドメイン励振信号に基づいて)直接行われる。
デコーダが時間ドメインにおけるいくつかのLPCパラメータを既に用いている場合は、それらを再利用し、LPCパラメータの新たなセットを外挿する。LPCパラメータの外挿は、過去のLPC、たとえば最後の3つのフレームと、オプションとして、DTX(不連続な変換)がコーデックにおいて存在する場合に、DTXノイズ推定の間に導き出されたLPC形状の平均に基づいている。
全てのコンシールメントは、連続するフレーム間のよりスムースな遷移を得るために、励振ドメインにおいて行われる。
以下に、図6に係るエラーコンシールメント600が更に詳細に記述される。
エラーコンシールメント600は、過去の励振610と過去のピッチ情報640とを受信する。さらに、エラーコンシールメント600は、エラーコンシールメントオーディオ情報612を提供する。
エラーコンシールメント600によって受信された過去の励振610は、たとえば、LPC分析530の出力532に対応することができることに留意すべきである。さらに、過去のピッチ情報640は、たとえば、ピッチ探索540の出力情報542に対応することができる。
エラーコンシールメント600は、上記説明が参照される外挿550に対応することができる、外挿650を更に備える。
さらに、エラーコンシールメントは、上記説明が参照されるノイズ発生器560に対応することができる、ノイズ発生器660を備える。
外挿650は、外挿された時間ドメイン励振信号552に対応することができる、外挿された時間ドメイン励振信号652を提供する。ノイズ発生器660は、ノイズ信号562に対応する、ノイズ信号662を提供する。
エラーコンシールメント600は、また、コンバイナ/フェーダ670を備える。外挿された時間ドメイン励振信号652とノイズ信号662とを受信し、それに基づいて、上記説明もあてはまるように、LPC合成680がLPC合成580に対応することができる、LPC合成680に対する入力信号672を提供する。LPC合成680は、時間ドメインオーディオ信号582に対応することができる、時間ドメインオーディオ信号682を提供する。エラーコンシールメントは、また、デエンファシス584に対応することができ、デエンファシスされたエラーコンシールメント時間ドメインオーディオ信号686を提供する、デエンファシス684を(オプションとして)備える。エラーコンシールメント600は、オプションとして、オーバーラップ加算590に対応することができる、オーバーラップ加算690を備える。しかしながら、オーバーラップ加算590に関する上記説明は、オーバーラップ加算690にもあてはまる。言い換えれば、オーバーラップ加算690は、また、LPC合成の出力信号682またはデエンファシスの出力信号686がエラーコンシールメントオーディオ情報と考えることができるように、オーディオデコーダの全体のオーバーラップ加算によって置換することができる。
結論として、エラーコンシールメント600は、エラーコンシールメント600が、LPC分析および/またはピッチ分析を実行する必要なしに、1つ以上の前に復号化されたオーディオフレームから過去の励振情報610と過去のピッチ情報640とを直接取得する点で、実質的にエラーコンシールメント500と異なる。しかしながら、エラーコンシールメント600は、オプションとして、LPC分析および/またはピッチ分析(ピッチ探索)を備えることができることに留意すべきである。
以下に、エラーコンシールメント600のいくつかの詳細が更に詳細に記述される。しかしながら、特定の詳細が本質的な構成でなく実施例と考える必要があることに留意すべきである。
5.6.1. ピッチ探索の過去のピッチ
新しい信号を造るために用いられるピッチを取得するために異なるアプローチがある。
AAC−LTPのような、LTPフィルタを用いるコーデックの文脈において、最後のフレーム(ロストフレームに先行する)がLTPによるAACであった場合は、最後のLTPピッチ遅延および対応するゲインから来るピッチ情報を有する。このケースにおいて、ハーモニックパートを信号に組み込みたいか否かを決定するためにゲインを用いる。たとえば、LTPゲインが0.6より高い場合は、ハーモニックパートを造るためにLTP情報を用いる。
前のフレームから利用可能ないかなるピッチ情報も有しない場合は、たとえば、2つの他のソリューションがある。
1つのソリューションは、エンコーダでピッチ探索を行い、ビットストリームにおいてピッチ遅延およびゲインを伝送することである。これは、長期予測(LTP)と類似しているが、いかなるフィルタリング(また、きれいなチャネルにおけるLTPフィルタリング)も適用しない。
他のソリューションは、デコーダにおいてピッチ探索を実行することである。TCXのケースにおいて、AMR−WBピッチ探索はFFTドメインにおいて行われる。たとえばTCXにおいては、MDCTドメインを用い、位相を失っている。それ故に、ピッチ探索は、好ましい実施形態において、励振ドメインにおいて(たとえば、LPC合成に対する入力として用いられる、またはLPC合成に対する入力を導き出すために用いられる、時間ドメイン励振信号に基づいて)直接行われる。これは、通常は合成ドメインにおいて(たとえば、完全に復号化された時間ドメインオーディオ信号に基づいて)ピッチ探索を行うことより良好な結果を与える。
励振ドメインにおける(たとえば、時間ドメイン励振信号に基づく)ピッチ探索は、正規化相互相関によって最初にオープンループによって行われる。次に、オプションとして、ピッチ探索は、特定のデルタによって、オープンループピッチの周辺でクローズドループ探索を行うことによってリファインすることができる。
好ましい実施態様においては、単に相関の1つの最高値を考慮しない。ノンエラーの傾向がある前のフレームからのピッチ情報を有する場合、正規化相互相関ドメインにおいて最も高い5つの値の1つに対応するが、前のフレームピッチに最も近いピッチを選択する。次に、また、見つかった最大がウィンドウ制限による間違った最大でないことが検証される。
結論として、ピッチを決定する異なるコンセプトがあり、過去のピッチ(すなわち、前に復号化されたオーディオフレームに関連するピッチ)を考慮することが演算的に効率的である。代替として、ピッチ情報は、オーディオエンコーダからオーディオデコーダに伝送することができる。他の代替として、ピッチ探索は、オーディオデコーダの側で実行することができ、ピッチの決定は、好ましくは、時間ドメイン励振信号に基づいて(すなわち、励振ドメインにおいて)実行される。特に信頼性が高く正確なピッチ情報を得るために、オープンループ探索とクローズドループ探索とを備える2段階のピッチ探索を実行することができる。代替としてまたは加えて、前に復号化されたオーディオフレームからのピッチ情報は、ピッチ探索が信頼性の高い結果を提供することを確実にするために用いることができる。
5.6.2. 励振の外挿またはハーモニックパートの構築
前のフレームから取得された(ロストフレームに対してちょうど演算されたかまたは多重のフレームロスに対して前のロストフレームにおいて既に保存されたかのいずれかの)励振(たとえば、時間ドメイン励振信号の形の)は、たとえば、1つ半の(ロスト)フレームを得るために必要に応じて何度でも、最後のピッチサイクル(たとえば、その時間的な継続期間がピッチの周期の継続期間に等しい、時間ドメイン励振信号610の部分)を複製することによって、励振(たとえば外挿された時間ドメイン励振信号662)にハーモニックパートを組み込むために用いられる。
更により良好な結果を得るために、技術水準から公知のいくつかのツールを再利用し、それらを適応させることがオプションとして可能である。参考文献は、たとえば、参考文献[4]および/または参考文献[5]が参照される。
ボイス信号におけるピッチは、ほとんどいつでも変化していることが分かっている。それ故に、上述されたコンシールメントは、コンシールされた信号の終わりにおけるピッチがしばしば最初の良好なフレームのピッチにマッチしないので、リカバリーにおいていくつかの問題を発生させる傾向があることが分かっている。それ故に、オプションとして、コンシールされたフレームの終わりにおけるピッチをリカバリーフレームの始めにおけるピッチにマッチさせるために予測することが試みられる。この機能は、たとえば、外挿650によって実行される。
TCXにおいてLTPが用いられる場合、遅延は、ピッチに関する開始情報として用いることができる。しかしながら、より良好にピッチ輪郭を追跡することができるより良好なデータの塊を有することが望ましい。それ故に、ピッチ探索は、オプションとして最後の良好なフレームの終わりにおいて行われる。信号を動くピッチに適応させるために、技術水準に存在するパルス再同期を用いることができる。
結論として、外挿(たとえば、ロストフレームに先行する最後の適切に復号化されたまたはそれに基づいて取得された時間ドメイン励振信号の)は、前のオーディオフレームに関連する前記時間ドメイン励振信号の時間部分の複製を備えることができ、複製された時間部分は、ロストオーディオフレームの間の(予想される)ピッチ変化の演算または推定に依存して修正することができる。ピッチ変化の決定に対しては、異なるコンセプトも利用可能である。
5.6.3. ピッチのゲイン
図6に係る実施形態において、ゲインは、所望のレベルに到達するため、前に取得された励振に適用される。ピッチのゲインは、たとえば、最後の良好なフレームの終わりにおいて時間ドメインで正規化相関を行うことによって取得される。たとえば、相関の長さは2つのサブフレーム長に等しくすることができ、遅延は、ハーモニックパートの生成に対して(たとえば、時間ドメイン励振信号の複製に対して)用いられるピッチ遅延に等しくすることができる。時間ドメインにおいてゲイン計算を行うことは、励振ドメインにおいてそれを行うことより非常に信頼性の高いゲインを与えることが分かっている。LPCはフレームごとに変化し、前のフレーム上で計算された他のLPCセットによって処理される励振信号上のゲインは、時間ドメインにおいて期待されるエネルギーを与えない。
ピッチのゲインは、生成される純音性の量を決定するが、人工的な音のみを有さないようにいくつかの成形されたノイズも加えられる。非常に低いゲインのピッチが取得された場合は、成形されたノイズのみからなる信号を造ることができる。
結論として、前のフレームに基づいて取得された時間ドメイン励振信号(または前に復号化されたフレームに対して取得されたまたは前に復号化されたフレームに関連する時間ドメイン励振信号)をスケーリングするために適用されるゲインは、それによりLPC合成680の入力信号内で、そして結果的にエラーコンシールメントオーディオ情報内で、音の(または決定的である、または少なくともほぼ周期的な)成分の重みを決定するように調整される。前記ゲインは、前に復号化されたフレームの復号化によって取得された時間ドメインオーディオ信号に適用される、相関に基づいて決定することができる(ここで、前記時間ドメインオーディオ信号は、復号化の過程において実行されるLPC合成を用いて取得することができる)。
5.6.4. ノイズパートの生成
ランダムノイズ発生器660によって、イノベーションが構築される。このノイズは、更にハイパスフィルタリングされ、有声のおよび立上りのフレームに対してオプションとしてプリエンファサイズされる。有声のおよび立上りのフレームに対して選択的に実行することができる、ハイパスフィルタリングおよびプリエンファシスは、図6において明示的には示されていないが、たとえば、ノイズ発生器660内でまたはコンバイナ/フェーダ670内で実行することができる。
ノイズは、できる限りバックグラウンドノイズに近くなるように、LPCによって(たとえば、外挿650によって取得された時間ドメイン励振信号652との結合の後で)成形される。
たとえば、イノベーションゲインは、前に計算されたピッチ(それが存在する場合)の貢献度を除去し、最後の良好なフレームの終わりにおいて相関を行うことによって計算することができる。相関の長さは、2つのサブフレーム長に等しくすることができ、遅延は、ハーモニックパートの生成に対して用いられるピッチ遅延に等しくすることができる。
オプションとして、このゲインは、また、ピッチのゲインが1でない場合に、ノイズ上に同程度のゲインを適用し、エネルギー喪失に到達するために、(1−ピッチのゲイン)によって逓倍することができる。オプションとして、このゲインは、ノイズのファクタによっても逓倍される。ノイズのこのファクタは、前の有効なフレームから来ることができる。
結論として、エラーコンシールメントオーディオ情報のノイズ成分は、LPC合成680(そして、おそらくは、デエンファシス684)を用いてノイズ発生器660によって提供される成形されたノイズによって取得される。加えて、付加的なハイパスフィルタリングおよび/またはプリエンファシスを適用することができる。LPC合成680の入力信号672に対するノイズ貢献度のゲイン(「イノベーションゲイン」としても示される)は、ロストオーディオフレームに先行する最後の適切に復号化されたオーディオフレームに基づいて演算することができ、決定的な(または少なくともほぼ周期的な)成分は、ロストオーディオフレームに先行するオーディオフレームから除去することができ、相関は、次にロストオーディオフレームに先行するオーディオフレームの復号化された時間ドメイン信号内で、ノイズ成分の強度(またはゲイン)を決定するために実行することができる。
オプションとして、いくつかの付加的な修正をノイズ成分のゲインに適用することができる。
5.6.5. フェードアウト
フェードアウトは、大抵は多重のフレームロスに対して用いられる。しかしながら、フェードアウトは、単一のオーディオフレームのみが失われたケースにおいても用いることができる。
多重のフレームロスのケースにおいては、LPCパラメータは再計算されない。最後に計算されたものが保持されるかまたはLPCコンシールメントが前述されたように実行されるかのいずれかである。
信号の周期性は、ゼロに収束される。収束の速度は、最後の正しく受信された(または適切に復号化された)フレームのパラメータと連続する消去された(または失われた)フレームの数とに依存しており、減衰率αによって制御される。ファクタαは、LPフィルタの安定性に更に依存している。オプションとして、ファクタαは、ピッチ長による比率において変えることができる。たとえば、ピッチが実際に長い場合には、αはノーマルに保持することができるが、ピッチが実際に短い場合には、過去の励振の同じパートを何度も複製することが望ましい(または必要である)。これは、すぐに非常に人工的に聞こえることが分かっているので、それ故にこの信号はより速くフェードアウトされる。
さらにオプションとして、ピッチ予測出力を考慮することが可能である。ピッチが予測される場合、ピッチが前のフレームにおいて既に変化し、より多くフレームが失われるとより真実から離れることを意味する。それ故に、このケースにおいて、音のパートのフェードアウトを少しスピードアップすることが望ましい。
ピッチがあまり多く変化しているという理由でピッチ予測が失敗する場合、これはピッチ値が、実際に信頼性が高くないかまたは信号が実際に予測不可能であるかのいずれかを意味する。それ故に、再びフェードアウトをより速くする必要がある。
結論として、LPC合成680の入力信号672に対する外挿された時間ドメイン励振信号652の貢献度は、通常は時間とともに低減される。これは、たとえば、外挿された時間ドメイン励振信号652に適用されるゲイン値を時間とともに低減することによって達成することができる。ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号552(またはその1つ以上の複製)をスケーリングするために適用されるゲインを徐々に低減する速度は、1つ以上のオーディオフレームの1つ以上のパラメータに依存して(および/または連続するロストオーディオフレームの数に依存して)調整される。特に、時間とともにピッチが変化するピッチ長および/またはレート、および/または、ピッチ予測が失敗するかまたは成功するかどうかの問題は、速度を調整するために用いることができる。
5.6.6 LPC合成
時間ドメインに戻って、LPC合成680は、デエンファシス684によって追従される2つの励振(音のパート652およびノイズが多いパート662)の合計(または一般に、重み付け結合)上で実行される。
言い換えれば、外挿された時間ドメイン励振信号652とノイズ信号662との重み付け結合(フェーディング)の結果は、結合された時間ドメイン励振信号を形成し、たとえば、合成フィルタを記述するLPC係数に依存して、結合された時間ドメイン励振信号672に基づいて合成フィルタリングを実行することができる、LPC合成680に入力される。
5.6.7 オーバーラップ加算
次のフレームのモードに何が来るか(たとえばACELP、TCXまたはFD)はコンシールメントの間知られていないので、前もって異なるオーバーラップを準備することが好ましい。次のフレームが変換ドメイン(TCXまたはFD)にある場合に最高のオーバーラップ加算を得るために、人工的な信号(たとえばエラーコンシールメントオーディオ情報)は、たとえば、コンシールされた(失われた)フレームを超える半フレームに対して生成することができる。さらに、人工的なエイリアシングをその上に生成することができる(人工的なエイリアシングは、たとえば、MDCTオーバーラップ加算に適応させることができる)。
良好なオーバーラップ加算と時間ドメイン(ACELP)における将来のフレームによる不連続性がないことを得るために、長いオーバーラップ加算ウィンドウを適用することができるように上述したように行うが、エイリアシングはなしに行い、またはスクウェアウィンドウを用いたい場合は、ゼロ入力レスポンス(ZIR)が合成バッファの終わりにおいて計算される。
結論として、スイッチングオーディオデコーダ(それは、たとえば、ACELP復号化とTCX復号化と周波数ドメイン復号化(FD復号化)との間でスイッチすることができる)において、オーバーラップ加算は、ロストオーディオフレームに対して主に提供されるがロストオーディオフレームに引き続く特定の時間部分に対しても提供されるエラーコンシールメントオーディオ情報と、1つ以上のロストオーディオフレームに引き続く最初の適切に復号化されたオーディオフレームに対して提供される復号化されたオーディオ情報との間で、実行することができる。次のオーディオフレーム間の遷移において時間ドメインエイリアシングをもたらす復号化モードに対してさえも適当なオーバーラップ加算を取得するために、エイリアシングキャンセル情報(たとえば、人工的なエイリアシングとして示される)を提供することができる。したがって、エラーコンシールメントオーディオ情報と、ロストオーディオフレームに引き続く最初の適切に復号化されたオーディオフレームに基づいて取得された時間ドメインオーディオ情報との間のオーバーラップ加算は、エイリアシングのキャンセルに結果としてなる。
1つ以上のロストオーディオフレームのシーケンスに引き続く最初の適切に復号化されたオーディオフレームがACELPモードにおいて符号化される場合は、LPCフィルタのゼロ入力レスポンス(ZIR)に基づくことができる、特定のオーバーラップ情報を計算することができる。
結論として、エラーコンシールメント600は、スイッチングオーディオコーデックにおける使用によく適合する。しかしながら、エラーコンシールメント600は、また、単にTCXモードにおいて符号化されたオーディオコンテンツを復号化するオーディオコーデックにおいてまたはACELPモードにおいて用いることができる。
5.6.8 結論
特に良好なエラーコンシールメントは、時間ドメイン励振信号を外挿し、外挿の結果を、フェーディング(たとえばクロスフェーディング)を用いてノイズ信号と結合し、クロスフェーディングの結果に基づいてLPC合成を実行する上述されたコンセプトによって達成されることに留意すべきである。
5.7 図7に係る周波数ドメインコンシールメント
周波数ドメインコンシールメントは図7に表現される。ステップ701で、最新のオーディオ情報が適切に復号化されたフレームを含む場合、決定される(例えば、CRCまたは類似する戦略に基づく)。決定の結果が肯定である場合、適切に復号化されたスペクトル値は適切なオーディオ情報として、702で使用される。スペクトルは、さらに使用されるためにバッファ703で記録される(例えば、将来不適切に復号化されたフレームについて、コンシールメントするために)。
決定の結果が否定である場合、704で、前に適切に復号化されたオーディオフレーム(前のサイクルにおいてステップ703でバッファに保存された)の前の記録されたスペクトル表現705が、破損された(または廃棄された)オーディオフレームの代わりに使用される。
特に、複製とスケーラ707は、破損されたオーディオフレームの代わりに使用される周波数ビン(またはスペクトルビン)の値を得るために、前の適切に復号化されたオーディオフレームの前に記録された適切なスペクトル表現705の周波数範囲705a、705b、...における周波数ビン(またはスペクトルビン)のスペクトル値を複製またはスケーリングする。
それぞれのスペクトル値は、バンドによって運搬される特定の情報に係るそれぞれの係数によって増加するだろう。さらに、0と1の間の減衰係数708は、連続したコンシールメントのケースにおいて、信号強度を繰り返し減少するために信号を減衰するように用いることができる。また、ノイズはスペクトル値706で付加的に追加されるだろう。
5.8.a)図8aに係るコンシールメント
図8aは、本発明の実施の形態に係るエラーコンシールメントの概略的なブロック図である。図8aに係るエラーコンシールメントユニットは、800として全体を指定され、上述のエラーコンシールメントユニット100、230、380のいずれかを具体化することができる。エラーコンシールメントユニット800は、符号化されたオーディオ情報におけるオーディオフレームのロスをコンシールメントするためのエラーコンシールメントオーディオ情報802(上述の実施の形態の情報102、232、または382を具体化することができる)を提供する。
エラーコンシールメントユニット800は、スペクトル803(例えば、最後の適切に復号化されたオーディオフレームのスペクトル、または、より一般的には、前に適切に復号化されたオーディオフレームスペクトル、または、そのフィルタ処理されたバージョン)およびフレーム(例えば、オーディオフレームの最後または前の適切に復号化された時間ドメイン表現、または、最後または前のpcmバッファ値)の時間ドメイン表現804によって入力されるだろう。
エラーコンシールメントユニット800は、第1の周波数範囲で(またはその範囲内で)動作することができる第1の部分または経路(適切に復号化されたオーディオフレームのスペクトル803によって入力される)と、第2の周波数範囲で(またはその範囲内で)動作することができる第2の部分または経路(適切に復号化されたオーディオフレームの時間ドメイン表現804によって入力される)とを備える。第1の周波数範囲は、第2の周波数範囲の周波数よりも高い周波数を備えるだろう。
図14は、第1の周波数範囲1401の例と第2の周波数範囲1402の例とを示す。
周波数ドメインコンシールメント805は、第1の部分または経路に(第1の周波数範囲に)適用することができる。例えば、AAC−ELD内のノイズ置換を使用することができる。逆修正離散コサイン変換(IMDCT)は、時間ドメインに戻すために適用される前に、このメカニズムは、最後の良好なフレームの複製されたスペクトルを使用して、ノイズを追加する。コンシールメントされたスペクトルは、IMDCTを経て時間ドメインに変換されるだろう。
エラーコンシールメントユニット800によって提供されるエラーコンシールメントオーディオ情報802は、第1の部分によって提供される第1のエラーコンシールメントオーディオ情報成分807´と、第2の部分によって提供される第2のエラーコンシールメントオーディオ情報成分811´との組み合わせとして得られる。いくつかの実施の形態において、第1の成分807´は、ロストオーディオフレームの高周波数部分を表すものとして意図することができ、一方で、第2の成分811´はロストオーディオフレームの低周波数部分を表すものとして意図することができる。
エラーコンシールメントユニット800の第1の部分は、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームの高周波数部分の変換ドメイン表現を用いて第1の成分807´を導き出すように使用することができる。第2の部分は、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームの低周波数部分に基づいて時間ドメイン信号合成を用いて第2の成分811´を導き出すように使用することができる。
好ましくは、エラーコンシールメントユニット800の第1の部分および第2の部分は、お互いに並列(および/または、同時に、または、ある程度同時に)に動作する。
第1の部分において、周波数ドメインエラーコンシールメント805は、第1のエラーコンシールメントオーディオ情報805´(スペクトルドメイン表現)を提供する。
第1のエラーコンシールメントオーディオ情報に基づいて時間ドメイン表現806´を得るために、逆修正離散コサイン変換(IMDCT)806は周波数ドメインエラーコンシールメント805によって得られるスペクトルドメイン表現805´の時間ドメイン表現806´を提供するように使用されるだろう。
以下で説明するように、IMDCT(806)を2回実行して、時間ドメインにおいて2つの連続するフレームを得るように構成することができる。
第1の部分または経路において、ハイパスフィルタ807は、第1のエラーコンシールメントオーディオ情報805´の時間ドメイン表現806´をフィルタ処理し、高周波数でフィルタ処理されたバージョン807´を提供するように使用されるだろう。特に、ハイパスフィルタ807は、周波数ドメインコンシールメント805(例えばIMDCT805の前後)の下流側に位置するだろう。他の実施の形態では、ハイパスフィルタ807(または、いくつかの低周波スペクトルビンを「カットオフ」できる任意のハイパスフィルタ)は、周波数ドメインコンシールメント805の前に位置するだろう。
ハイパスフィルタ807は、例えば、6KHzと10KHzとの間、好ましくは7KHzと9KHzとの間、より好ましくは7.5KHzと8.5KHzとの間、さらに好ましくは7.9KHzと8.1KHzとの間、さらに好ましくは8KHzのカットオフ周波数に合わせられるだろう。
いくつかの実施の形態によると、ハイパスフィルタ807の低周波数境界を信号適応的に調節して、それによって、第1の周波数領域の帯域幅を変更することができる。
エラーコンシールメントユニット800の第2の部分(第1の周波数領域の周波数よりも少なくとも部分的により低い周波数で動作するように構成される)において、時間ドメインコンシールメント809は、第2のエラーコンシールメント情報809´を提供する。
第2の部分において、時間ドメインコンシールメント809の上流であるダウンサンプル808は、適切に復号化されたオーディオフレームの時間ドメイン表現804のダウンサンプルされたバージョン808´を提供する。ダウンサンプル808は、ロストオーディオフレームに先行するオーディオフレーム804のダウンサンプルされた時間ドメイン表現808´を得ることを許す。このダウンサンプルされた時間ドメイン表現808´は、オーディオフレーム804の低周波数部分を表す。
第2の部分において、時間ドメインコンシールメント809の下流側であるアップサンプル810は、第2のエラーコンシールメントオーディオ情報809´のアップサンプルされたバージョン810´を提供する。その結果、第2のエラーコンシールメントオーディオ情報成分811´を得るために、時間ドメインコンシールメント809、または、その後処理されたバージョンによって提供される。
それゆえに、時間ドメインコンシールメント809は、好ましくは、適切に復号化されたオーディオフレーム804を完全に表すのに必要なサンプリング周波数よりも小さいサンプリング周波数を用いて実行される。
実施の形態によると、ダウンサンプルされた時間ドメイン表現808´のサンプリング率を信号適応的に調節し、それによって第2の周波数領域の帯域幅を変更することができる。
第2のエラーコンシールメントオーディオ情報成分811´を得るために、ローパスフィルタ811は、時間ドメインコンシールメント(またはアップサンプル810の出力信号810´)の出力信号809´をフィルタ処理するように提供される。
本発明によると、第1のエラーコンシールメントオーディオ情報成分(ハイパスフィルタ807によって出力されるように、または、IMDCTもしくは周波数ドメインコンシールメント805による他の実施の形態において)および第2のエラーコンシールメントオーディオ情報成分(ローパスフィルタ811によって出力されるように、または、アップサンプルもしくは時間ドメインコンシールメント809による他の実施の形態において)とが、オーバーラップ加算(OLA)メカニズム812を用いて、お互いに構成される(組み合わされる)。
したがって、エラーコンシールメントオーディオ情報802(上述の実施の形態の情報102、232、または382を具体化することができる)は得られる。
5.8.b)図8bに係るコンシールメント
図8bはエラーコンシールメントユニット800(図8aの実施の形態のすべての特徴は、現在の変形に適用でき、それゆえに、その特性は繰り返さない)についての変形例800bを示す。制御(たとえば、制御装置)813は、第1および/または第2の周波数範囲の決定および/または信号適応的に変更するように提供される。
制御813は、最後のスペクトル803および最後のpcmバッファされた値804のように、1つ以上の符号化されたオーディオフレームの特徴と1つ以上の適切に復号化されたオーディオフレームの特徴との間で選択された特徴に基づくことができる。また、制御813はこれらの入力の集合データ(積分値、平均値、統計値など)に基づくことができる。
いくつかの実施の形態において、選択814(たとえば、キーボード、グラフィカルユーザインタフェース、マウス、レバーのような割り当てられた入力手段によって得られる)は提供されるだろう。選択は、ユーザによって、または、プロセッサ上で動作するコンピュータプログラムによって、入力されるだろう。
制御813は、ダウンサンプラー808、および/またはアップサンプル810、および/またはローパスフィルタ811、および/またはハイパスフィルタ807を(備える)制御することができる。いくつかの実施の形態において、制御813は、第1の周波数範囲と第2の周波数範囲との間のカットオフ周波数を制御する。
いくつかの実施の形態において、制御813は、1つ以上の適切に復号化されたオーディオフレームの調和についての情報を得て、調和に関する情報に基づいて周波数の制御を実行することができる。代わりにまたはさらに、制御813は、1つ以上の適切に復号化されたオーディオフレームのスペクトルチルトについての情報を得て、スペクトルチルトについての情報に基づいて制御を実行することができる。
いくつかの実施の形態において、制御813は、第2の周波数範囲における調和を比べた時、第1の周波数範囲における調和が比較的小さくなるように、第1の周波数範囲および第2の周波数範囲を選択することができる。
ロストオーディオフレームに先行する適切に復号化されたオーディオフレームが、調和の閾値よりもより強い調和を備える周波数の上限を決定するように本発明は具体化することができ、それに依存して、第1の周波数範囲および第2の周波数範囲を選択する。
いくつかの実装において、制御813は、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームのスペクトルチルトがより小さいスペクトルチルトからより大きいスペクトルチルトに変化する周波数境界を決定または推定し、それに依存して、第1の周波数範囲および第2の周波数範囲を選択する。
いくつかの実施の形態において、制御813は、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームのスペクトルチルトの変動が、所定の周波数範囲にわたって予め決定されたスペクトルチルトの閾値よりも小さいかどうかを決定または推定する。エラーコンシールメントオーディオ情報802は、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームのスペクトルチルトの変動が予め定められたスペクトルチルトの閾値よりも小さいことがわかった場合にのみ、時間ドメインコンシールメント809を用いて得られる。
いくつかの実施の形態によると、制御813は、第1の周波数範囲がノイズ状のスペクトル構造を備えるスペクトル領域をカバーし、第2の周波数範囲が高調波スペクトル構造を備えるスペクトル領域をカバーするように、第1の周波数範囲および第2の周波数範囲を調整することができる。
いくつかの実施の形態において、制御813は、調和とノイズとの間のエネルギー関係に依存して、第1の周波数範囲の低周波数端および/または第2の周波数範囲の高周波数端を調節することができる。
本発明のいくつかの好ましい態様によると、制御813は、時間ドメインコンシールメント809および周波数ドメインコンシールメント805の少なくとも1つを選択的に抑制する、および/または、エラーコンシールメントオーディオ情報を得るために、時間ドメインコンシールメント809だけ、または、周波数ドメインコンシールメント805だけを実行する。
いくつかの実施の形態において、制御813は、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームの調和が予め決定された調和の閾値よりも小さいかどうかを決定または推定する。エラーコンシールメントオーディオ情報は、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームの調和が予め決定された調和の閾値よりも小さいことがわかった場合にのみ、周波数ドメインコンシールメント805を用いて得ることができる。
いくつかの実施の形態において、制御813は、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームのピッチに基づいて、および/または、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームにおけるピッチの経時的推移に依存して、および/またはロストオーディオフレームに先行する適切に復号化されたオーディオフレームとロストオーディオフレームの後に続く適切に復号化されたオーディオフレームとの間のピッチの補間に依存して、コンシールメントされたフレームのピッチを適合する。
いくつかの実施の形態において、制御813は、エンコーダによって送信されるデータ(たとえば、クロスオーバー周波数またはそれに関連するデータ)を受信する。それに基づいて、制御813は、第1および第2の周波数範囲に適用するための他のブロック(たとえば、ブロック807、808、810、811)のパラメータをエンコーダによって送信された値に修正することができる。
5.9. 図9に係る方法
図9は、符号化されたオーディオ情報におけるオーディオフレームのロスをコンシールメントするためのエラーコンシールメントオーディオ情報(たとえば、前の例において102、232、382、および802で示される)を提供するためのエラーコンシールメント方法のフローチャートを示す。方法は、
−910で、第1の周波数範囲ための第1のエラーコンシールメントオーディオ情報成分(たとえば、103または807´)を周波数ドメインコンシールメント(たとえば、105または805)を用いて提供するステップと、
−920(ステップ910と同時またはほとんど同時に実行することができる、または、ステップ910と並列にすることを意図することができる)で、第1の周波数範囲よりも(少なくともいくらか)低い周波数を備える第2の周波数範囲のための第2のエラーコンシールメントオーディオ情報成分(たとえば、104または811´)を時間ドメインコンシールメント(たとえば、106、500、600、または809)を用いて提供するステップと、
−930で、第1のエラーコンシールメントオーディオ情報成分と、第2のエラーコンシールメントオーディオ情報成分とを結合して、エラーコンシールメントオーディオ情報(たとえば、102、232、382、または802)を得るステップと、
を備える。
5.10. 図10に係る方法
図10は、図8の制御813または類似する制御が第1および/または第2の周波数範囲を決定および/または信号適応的に変更するために使用される図9の変更のフローチャート1000を示す。図9の方法に関連して、この変更は、たとえば、ユーザ選択814に基づいてまたは閾値を有する値(たとえば、チルト値または調和値)の比較に基づいて、第1および第2の周波数範囲が決定されるステップ905を備える。
特に、ステップ905は、制御813の操作モードを考慮することによって実行することができる。たとえば、データが、特定のデータフィールドにおいてエンコーダから送信されることを可能にする。ステップ910および920で、第1および第2の周波数範囲は、エンコーダによって(少なくとも部分的に)制御される。
5.11. 図19に係るエンコーダ
図19は、いくつかの実施の形態による本発明の実装に用いられる可能性があるオーディオエンコーダ1900を示す。
オーディオエンコーダ1900は、入力オーディオ情報1902に基づく符号化された情報1904を提供する。
一実施の形態において、オーディオエンコーダ1900は、入力オーディオ情報1902に基づいて符号化された周波数ドメイン表現1908を提供するように構成される周波数ドメインエンコーダ1906を備えることができる。符号化された周波数ドメイン表現1908は、符号化されたスペクトル値1910とスケールファクタ1912を備えることができ、情報422に対応することができる。符号化された周波数ドメイン表現1908は、符号化されたオーディオ情報210、310、410(またはその一部)を、実装することができる。
一実施の形態において、オーディオエンコーダ1900は、入力オーディオ情報1902に基づいて、符号化された線形予測ドメイン表現1922を提供するように構成される線形予測ドメインエンコーダ1920(周波数ドメインエンコーダの代わりとして、または、周波数ドメインの置換として)を備えることができる。符号化された線形予測ドメイン表現1922は、励振426と符号化された線形予測係数428に対応するかもしれない励振1924と線形予測1926とを含むことができる。符号化された線形予測ドメイン表現1922は、符号化されたオーディオ情報210、310、410(またはその一部)を実装することができる。
オーディオエンコーダ1900は、クロスオーバー周波数情報1932を決定するように構成されるクロスオーバー周波数決定器1930を備えることができる。クロスオーバー周波数情報1932は、クロスオーバー周波数を定義することができる。クロスオーバー周波数は、オーディオデコーダ(たとえば、100、200、300、400、800b)を使用するために、時間ドメインエラーコンシールメント(たとえば、106、809、920)と周波数ドメインエラーコンシールメント(たとえば、105、805、910)との間を判別することができる。
オーディオエンコーダ1900は、符号化された周波数ドメイン表現1908、および/または、符号化された線形予測ドメイン表現1922、およびクロスオーバー周波数情報1930を符号化されたオーディオ表現1904に含めるように構成することができる。
オーディオデコーダ側で評価されるとき、クロスオーバー周波数情報1930は、エラーコンシールメントユニット800bのようにエラーコンシールメントの制御813の命令および/または指示を提供する役割を有することができる。
制御813の特徴を繰り返さずに、クロスオーバー周波数情報1930が制御813について記載された同じ機能を有することができることを単に述べるだけである。言い換えると、クロスオーバー周波数情報は、クロスオーバー周波数を決定する。すなわち、線形予測ドメインコンシールメントと周波数ドメインコンシールメントとの間の周波数境界である。したがって、クロスオーバー周波数情報を受信して使用するときに、制御813は、単純化しうる。この場合、制御は、クロスオーバー周波数を決定する責任はもはやないので、制御813はより強く単純化される。むしろ、オーディオデコーダによって符号化されたオーディオ表現から抽出されたクロスオーバー周波数情報に依存して、制御は、フィルタ807、811を調節する必要があるだけかもしれない。
いくつかの実施の形態において、制御は、2つの異なる(離れた)ユニット、すなわち、クロスオーバー周波数情報1930を決定するエンコーダ側のクロスオーバー周波数決定器であって、クロスオーバー周波数を順番に決定するクロスオーバー周波数決定器と、クロスオーバー周波数情報を受信するデコーダ側の制御装置813とに、さらに分割されるように理解され、それに基づくデコーダエラーコンシールメントユニット800bの成分を適切に設定することによって動作する。たとえば、制御装置813は、ダウンサンプラー808、および/またはアップサンプラー810、および/またはローパスフィルタ811、および/またはハイパスフィルタ807を(提供して)制御することができる。
このように、一実施の形態において、システムは以下を形成する。
−第1の周波数範囲と第2の周波数範囲(たとえば、本明細書に記載するようなクロスオーバー周波数情報)に関連付けられた情報1932を備える符号化されたオーディオ情報を送信することができるオーディオエンコーダ1900。
−オーディオエンコーダは以下を備える。
○エラーコンシールメントユニット800bは以下を備える。
・周波数ドメインコンシールメントを用いて第1の周波数範囲について、第1のエラーコンシールメントオーディオ情報成分807´と、
・時間ドメインコンシールメント809を用いて第1の周波数範囲よりも低い周波数を備える第2の周波数範囲について、第2のエラーコンシールメントオーディオ情報成分811´
○エラーコンシールメントユニットは、エンコーダ1900によって送信された情報1932に基づいて制御(813)を実行するように構成される。
○エラーコンシールメントユニット800bは、第1のエラーコンシールメントオーディオ情報成分807´と第2のエラーコンシールメントオーディオ情報成分811´とを結合し、エラーコンシールメントオーディオ情報802を得るように構成される。
実施の形態(たとえば、エンコーダ1900および/またはコンシールメントユニット800bを用いて実行できる)によると、本発明は、入力オーディオ情報(たとえば、1902)に基づいて符号化されたオーディオ表現(たとえば、1904)を提供するための方法2000(図20)を提供し、方法は以下を備える。
−入力オーディオ情報に基づいて符号化された周波数ドメイン表現(たとえば、1908)を提供する周波数ドメイン符号化ステップ2002、および/または、入力オーディオ情報に基づいて符号化された線形予測ドメイン表現(たとえば、1922)を提供するための線形予測ドメイン符号化ステップ(たとえば、ブロック1920によって実行される)と、
−時間ドメインエラーコンシールメント(たとえば、ブロック809によって実行される)と周波数ドメインエラーコンシールメント(たとえば、ブロック805によって実行される)との間のクロスオーバー周波数をオーディオデコーダ側で使用されるように定義するクロスオーバー周波数情報(たとえば、1932)を決定するためのクロスオーバー周波数を決定するステップ2004と、
を備え、
−符号化ステップは、符号化された周波数ドメイン表現および/または符号化された線形予測ドメイン表現、ならびにクロスオーバー周波数情報も符号化されたオーディオ表現に含むように構成される。
さらに、符号化されたオーディオ表現は(任意に)提供することができ、および/または、それに含まれるクロスオーバー周波数情報とともに、レシーバ(デコーダ)に送信することができ、情報を復号化でき、フレームロスの場合、コンシールメントを実行することができる。たとえば、デコーダのコンシールメントユニット(たとえば、800b)は、図10の方法1000のステップ910−930を実行でき、方法1000のステップ905は方法2000のステップ2004によって実装される(または、ステップ905の機能がオーディオエンコーダ側で実行され、ステップ905は符号化されたオーディオ表現を含むクロスオーバー周波数情報を評価することによって置換される)。
また、本発明は符号化されたオーディオ表現(たとえば、1904)に関し、以下を備える。
−オーディオコンテンツを表す符号化された周波数ドメイン表現(たとえば、1908)、および/またはオーディオコンテンツを表す符号化された線形予測ドメイン表現(たとえば、1922)と、
時間ドメインエラーコンシールメントと周波数ドメインエラーコンシールメントとの間のクロスオーバー周波数をオーディオデコーダ側で使用されるように定義するクロスオーバー周波数情報(たとえば、1932)と、を備える。
5.12 フェードアウト
上記の開示に加えて、エラーコンシールメントユニットは、コンシールメントされたフレームを弱めることができる。図1、8a、8bを参照すると、フェードアウトは、第1のエラーコンシールメント成分105または807´を減衰するために、FDコンシールメント105または805(たとえば、図7の減衰係数708によって第1の周波数範囲705a、705bにおける周波数ビンのスケーリング値によって)で操作することができる。フェードアウトは、第2のエラーコンシールメント成分104または811´(結合器/減衰器570または上述のセクション5.5.6を参照)を減衰するために、適切な減衰係数によるスケーリング値によってTDコンシールメント809で操作することもできる。
さらにまたは代わりに、エラーコンシールメントオーディオ情報102または802をスケーリングすることも可能である。
6.本発明の操作
本発明の操作例は、ここで提供される。オーディオデコーダ(たとえば、オーディオデコーダ200、300または400)において、いくつかのデータフレームは失われるかもしれない。したがって、エラーコンシールメントユニット(たとえば、100、230、380、800、800b)は、ロストデータフレームのそれぞれについて、前の適切に復号化されたオーディオフレームを用いてロストデータフレームをコンシールメントするために使用される。
エラーコンシールメントユニット(たとえば、100、230,380、800、800b)は以下を操作する。
−最初の部分または経路(たとえば、第1の周波数範囲で第1のエラーコンシールメントオーディオ情報成分807´を得るため)において、ロスト信号の周波数ドメイン高周波エラーコンシールメントは、前の適切に復号化されたオーディオフレームの周波数スペクトル表現(たとえば、803)を使用して実行され、
−並行におよび/または同時に(ほとんど同時に)、第2の部分または経路(たとえば、第2の周波数範囲で第2のエラーコンシールメントオーディオ情報成分を得るため)において、時間ドメインコンシールメントは、前の適切に復号化されたオーディオフレーム(たとえば、pcmバッファ値)の時間ドメイン表現(たとえば、804)に実行される。
カットオフ周波数FSOUT/4(たとえば、ハイパスフィルタ807とローパスフィルタ811のために)は定義づけられる(たとえば、フィードバックのような方法で、制御813のような制御装置によって、事前決定、事前選択、制御される)。そのため、第1の周波数範囲のほとんどの周波数はFSOUT/4を越えており、第2の周波数範囲のほとんどの周波数はFSOUT/4よりも低い(主なサンプリング率)。FSOUTは、たとえば46KHzと50KHzの間であり、好ましくは47KHzと49KHzの間であり、より好ましくは48KHzの値に設定することができる。
FSOUTは、16KHz(主なサンプリング率)よりも通常高い(たとえば48kHz)である(しかし、必須ではない)。
エラーコンシールメントユニット(たとえば、100、230、380、800、800b)の第2の(低周波数)部分において、次の操作を実行することができる。
−ダウンサンプル808において、適切に符号化されたオーディオフレームの時間ドメイン表現804が所望のコアサンプリング率(ここでは16kHz)にダウンサンプルされる。
−時間ドメインコンシールメントは、合成信号809´を提供するために、809で実行される。
−アップサンプル810において、合成信号809´が出力サンプル率(FSOUT)で信号810´を提供するためにアップサンプルされる
−最後に、信号810´は、ローパスフィルタ811で、好ましくはコアサンプル率(たとえば、16KHz)の半分のカットオフ周波数(ここでは8kHz)で、フィルタ処理される。
エラーコンシールメントユニットの第1の(高周波数)部分において、次の操作を実行することができる。
−周波数ドメインコンシールメント805は、(適切に復号化されたフレームの)入力スペクトルの高周波数部分をコンシールメントする。
−周波数ドメインコンシールメント805によって出力されるスペクトル805´は、合成信号806´として時間ドメイン(たとえば、IMDCT806を介して)変換される。
−合成信号806´は、コアサンプル率(たとえば、16KHz)の半分のカットオフ周波数(ここでは8kHz)を有するハイパスフィルタ807で好ましくはフィルタ処理される。
より高い周波数成分(たとえば、103または807´)をより低い周波数成分(たとえば、104または811´)と結合するために、オーバーラップ加算(OLA)メカニズム(たとえば812)が時間ドメイン内で使用される。コーデックのようなAACについて、1つ以上のフレーム(一般に1つ半のフレーム)は、1つのコンシールメントされたフレームを更新しなければならない。これは、OLAの分析および合成方法が半フレーム遅延するからである。追加の半フレームが必要とされる。したがって、IMDCT806は、時間ドメイン内で2つの連続したフレームを得るために2回呼び出される。コンシールメントされたフレーム1101とロストフレーム1102の間の関係を示す図11のグラフィック1100を参照することができる。最後に、低周波数および高周波数部分は合計され、OLAメカニズムは適用される。
特に、図8bに示す装置を使用して、または、図10の方法を実装して、たとえば、前の適切に復号化されたオーディオフレームまたは数個のフレームの調和および/またはチルトに基づいて、第1および第2の周波数範囲の選択を実行すること、または、時間ドメイン(TD)および周波数ドメイン(FD)コンシールメントの間のクロスオーバー周波数を動的に適応することが可能である。
たとえば、背景ノイズがある女性の音声情報のケースにおいて、信号を5khzにダウンサンプルすることができ、時間ドメインコンシールメントは信号の最も重要な部分について良好なコンシールメントを実行するだろう。ノイズ部分は、そのあと周波数ドメインコンシールメント方法で合成されるだろう。これは、修正されたクロスオーバー(または修正されたダウンサンプル係数)と比較して複雑性が減少し、煩わしい「ビープ」効果を除去するだろう(以下で説明するプロット参照)。
ピッチがすべてのフレームで周知である場合、任意の周波数ドメインの音調のコンシールメントと比較して時間ドメインコンシールメントの1つの主要な利点を利用することが可能である。過去のピッチ値に基づいて、コンシールメントされたフレーム内のピッチを変更することが可能である(遅延要求が許される場合、補間のために将来のフレームを使用することも可能である)。
図12は、エラーフリー信号を有する図表1200を示し、横軸に時間、縦軸に周波数を示す。
図13は、時間ドメインコンシールメントをエラーが発生しやすい信号のすべての周波数帯に適用する図表1300を示す。TDコンシールメントによって集められた線は、エラーが発生しやすい信号のすべての周波数範囲上の人為的に生成された調和を示す。
図14は、本発明の結果を図示する図表1400を示す。すなわち、ノイズ(第1の周波数範囲1401において、ここでは2.5KHz以上)は周波数ドメインコンシールメント(たとえば、105または805)でコンシールメントし、音声(第2の周波数範囲1402において、ここでは2.5KHz以下)は時間ドメインコンシールメント(たとえば、106、500、600、または809)でコンシールメントする。図13との比較は、ノイズ周波数範囲上で人為的に生成される調和は避けられるということを理解することができる。
調和のエネルギーチルトが周波数に対して一定である場合、全周波数のTDコンシールメントを実行し、信号が調和を含まない場合、全てまたは他の方法でFDコンシールメントが実行されないことは当然である。
図15の図表1500から見ることができるように、周波数ドメインコンシールメントは、位相の不連続性を生成する傾向があり、一方で、図16の図表1600から見ることができるように、完全な周波数範囲に適用される時間ドメインコンシールメントは、信号位相を維持し、人為的ではない完全な出力を生成する。
図17の図表1700は、エラーが発生しやすい信号のすべての周波数帯上のFDコンシールメントを示す。図18の図表1800は、エラーが発生しやすい信号のすべての周波数帯上のTDコンシールメントを示す。このケースにおいて、FDコンシールメントは、信号特性を維持し、一方で、すべての周波数上でTDコンシールメントは、煩わしい「ビープ」アーチファクトを生成し、または、顕著なスペクトルにおいていくつかの大きな穴を生成するだろう。
特に、図8において示される装置を用いてまたは図10の方法を実装して、図15ないし図18で示される操作の間をシフトすることができる。制御装置813のような制御装置は、信号が強い調和を有するとき、図16(TDコンシールメントのみ)に示された操作に到着するための、たとえば信号(エネルギー、チルト、調和など)を分析することによる決定を操作することができる。同様に、制御813も、ノイズが優勢であるとき、図17に示す操作に到着するための決定を操作することができる。
6.1. 実験結果に基づく結論
AAC[1]オーディオコーデックにおける従来のコンシールメント技術は、ノイズ置換である。周波数ドメインで働き、ノイズや音楽のアイテムによく適している。音声セグメントに対して、ノイズ置換は、時間ドメインにおいて煩わしい人為的なクリックに終わる位相不連続性をよく生成する。それゆえに、ACELPのような時間ドメインアプローチは、音声セグメント([2]、[3]においてTD−TCX PLCのように)にとって使用でき、分類子によって決定される。
時間ドメインコンシールメントが有する1つの問題は、すべての周波数範囲で人工的に生成された調和である。低周波数において、信号が強い調和のみを有する場合、音声アイテムに対して、これはいつも4kHz周辺であり、背景ノイズから成る高周波数によって、ナイキストまで生成された調和は煩わしい「ビープ」アーチファクトを生成するだろう。時間ドメインアプローチの他の欠点は、ノイズ置換を有するエラーのない復号やコンシールメントと比較して高いコンピュータの複雑性である。
コンピュータの複雑性を減少するために、請求されたアプローチは、以下の両方の方法の組み合わせを使用する。
低周波数部分の時間ドメインコンシールメント方法であって、音声信号が最も高い印象を有する時間ドメインコンシールメント方法と、
高周波数部分の周波数ドメインコンシールメント方法であって、音声信号がノイズ特性を有する周波数ドメインコンシールメント方法と、を使用する。
6.1.1 低周波数部分(コア)
第1の最後のpcmバッファは所望のコアサンプリング率(ここでは16kHz)にダウンサンプルされる。
時間ドメインコンシールメントアルゴリズムは、1つ半の合成されたフレームを得るように実行される。追加の半フレームはオーバーラップ加算(OLA)メカニズムに後に必要とされる。
合成信号は、出力サンプリング率(FS_out)にアップサンプルされ、FS_out/2のカットオフ周波数を有するローパスフィルタでフィルタ処理される。
6.1.2 高周波数部分
高周波数部分について、任意の周波数ドメインコンシールメントを適用できる。ここで、AAC−ELDオーディオコーデック内のノイズ置換は、使用されるだろう。このメカニズムは、最後の良好なフレームの複製されたスペクトルを使用して、時間ドメインに戻るためにIMDCTが適用される前に、ノイズを追加する。
コンシールメントされたスペクトルは、IMDCTを介して時間ドメインに変換される。
最後に、過去のpcmバッファを有する合成信号がFS_out/2のカットオフ周波数を有するハイパスフィルタでフィルタ処理される。
6.1.2 完全な部分
低周波数および高周波数部分を結合するために、オーバーラップ加算メカニズムが時間ドメインにおいて実行される。AACのようなコーデックについて、これは、1つ以上のフレームが1つのコンシールメントされたフレームについて更新されなければならないということを意味する。なぜなら、OLAの分析や合成方法は半フレームの遅延を有するからである。IMDCTが1つのフレームだけを生成し、したがって、追加の半フレームが必要とされる。そして、IMDCTは、時間ドメインにおいて、2つの連続するフレームを得るために2回呼び出される。
低周波数および高周波数部分は、合計され、オーバーラップ加算メカニズムが適用される。
6.1.3 追加的な拡張機能
最後の良好なフレームの調和とチルトに基づくTDおよびFDコンシールメントの間のクロスオーバー周波数を動的に適用することが可能である。たとえば、背景ノイズがある女性の音声情報のケースにおいて、信号を5khzにダウンサンプルすることができ、時間ドメインコンシールメントが信号の最も重要な部分について良好なコンシールメントを実行するだろう。ノイズ部分は、そのあと周波数ドメインコンシールメント方法で合成されるだろう。これは、修正されたクロスオーバー(または修正されたダウンサンプル係数)と比較して複雑性が減少し、煩わしい「ビープ」効果を除去するだろう(図12ないし図14参照)。
6.1.4 実験的な結論
図13は、完全な周波数範囲上のTDコンシールメントを示す。図14は、ハイブリッドのコンシールメントを示す。すなわち、TDコンシールメントを有する0から2.5kHz(参照番号1402)と、FDコンシールメントを有する上側の周波数(参照番号1401)とである。
しかしながら、調和のエネルギーチルトが周波数に対して一定である(および、1つの明瞭なピッチまたは調和が検索される)場合、全周波数TDコンシールメントを実行し、信号が調和を含まない場合、全てまたは他の方法でFDコンシールメントが実行されないことは当然である。
周波数ドメインコンシールメント(図15)は、位相の不連続性を生成し、一方で、完全な周波数範囲に適用される時間ドメインコンシールメント(図16)は、信号位相を維持し、人為的ではない完全な出力(人為的ではない完全な出力を本当の音調信号で達成することができる)を生成する。FDコンシールメント(図17)は、信号特性を維持し、一方で、すべての周波数上でTDコンシールメント(図18)は、煩わしい「ビープ」アーチファクトを生成する。
ピッチがすべてのフレームで周知である場合、任意の周波数ドメインの音調のコンシールメントと比較して時間ドメインコンシールメントの1つの主要な利点を利用することが可能である。過去のピッチ値に基づいて、コンシールメントされたフレーム内のピッチを変更することが可能である(遅延要求が許される場合、将来のフレームを使用することも可能である)。
7. 付加的な注釈
実施の形態は、ハイブリッドコンシールメント方法に関し、オーディオコーデックのための周波数および時間ドメインコンシールメントを備える。言い換えれば、実施の形態は、オーディオコーデックのための周波数および時間ドメインにおいてハイブリッドコンシールメント方法に関連する。
AACファミリーオーディオコーデックにおいて、従来のパケットロスコンシールメント技術はノイズ置換である。周波数ドメイン(FDPLC−周波数ドメインパケットロスコンシールメント)において働いており、ノイズと音楽のアイテムにより適している。音声セグメントについて、煩雑なクリックアーチファクトに終わる位相不連続性が生じることが多いことが分かっている。この問題を克服するために、音声のようなセグメントに対してACELPのような時間ドメインアプローチTDPLC(時間ドメインパケットロスコンシールメント)が使用される。TDPLCの計算上の複雑さおよび高周波アーチファクトを回避するために、記載されたアプローチは、適応的に両方のコンシールメント方法の組み合わせを使用する。すなわち、より低い周波数についてのTDPLCと、より高い周波数についてのFDPLCである。
本発明による実施の形態は、次のコンセプトの任意の組み合わせに使用されるだろう。すなわち、ELD、XLD、DRM、MPEG−Hである。
8.代替の実装
いくつかの態様が装置の文脈において記載されてきたが、これらの態様は対応する方法の記述をも表すことは明らかであり、ブロックまたはデバイスは方法ステップまたは方法ステップの機能に対応する。同様に、方法ステップの文脈において記載された態様は、対応する装置の対応するブロック、アイテムまたは機能の記述をも表す。いくつかのまたはすべての方法ステップは、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって(または用いて)実行することができる。いくつかの実施形態において、いくつかの1つ以上の最も重要な方法ステップは、このような装置によって実行することができる。
特定の実現要求に依存して、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、その上に記憶された電子的に読取可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)、デジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを用いて実行することができる。それ故に、デジタル記憶媒体は、コンピュータ読取可能とすることができる。
本発明に係るいくつかの実施形態は、本願明細書に記載された方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる、電子的に読取可能な制御信号を有するデータキャリアを備える。
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するとき、本発明の方法の1つを実行するように動作可能であるプログラムコードによるコンピュータプログラム製品として実施することができる。プログラムコードは、例えば機械読取可能なキャリアに記憶することができる。
他の実施形態は、機械読取可能なキャリアに記憶された、本願明細書に記載された方法の1つを実行するコンピュータプログラムを備える。
言い換えれば、本発明の方法の一実施形態は、それ故に、コンピュータプログラムがコンピュータ上で動作するとき、本願明細書に記載された方法の1つを実行するプログラムコードを有するコンピュータプログラムである。
本発明の方法の更なる実施形態は、それ故に、その上に記録され、本願明細書に記載された方法の1つを実行するコンピュータプログラムを備えるデータキャリア(またはデジタル記憶媒体またはコンピュータ読取可能媒体)である。データキャリア、デジタル記憶媒体または記録媒体は、通常は有形および/または非過渡的である。
本発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の1つを実行するコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続、例えばインターネットによって送信されるように構成することができる。
更なる実施形態は、本願明細書に記載された方法の1つを実行するように構成されたまたは適合された処理手段、例えばコンピュータまたはプログラマブルロジックデバイスを備える。
更なる実施形態は、本願明細書に記載された方法の1つを実行するコンピュータプログラムがインストールされたコンピュータを備える。
本発明に係る更なる実施形態は、本願明細書に記載された方法の1つを実行するコンピュータプログラムを、受信者に転送(例えば、電子的または光学的に)するように構成された装置またはシステムを備える。受信者は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどとすることができる。装置またはシステムは、例えば、コンピュータプログラムを受信者へ転送するファイルサーバを備えることができる。
いくつかの実施形態において、本願明細書に記載された方法のいくつかまたは全ての機能を実行するために、プログラマブルロジックデバイス(例えばフィールドプログラマブルゲートアレイ)を用いることができる。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本願明細書に記載された方法の1つを実行するために、マイクロプロセッサと協働することができる。一般に、方法は、好ましくはいかなるハードウェア装置によっても実行される。
本願明細書に記載された装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実行されるだろう。
本願明細書に記載された方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実行されるだろう。
上記記載された実施形態は、単に本発明の原理に対して説明したものである。本願明細書に記載された構成および詳細の修正および変更は、当業者にとって明らかであると理解される。それ故に、本発明は、間近に迫った特許請求の範囲のスコープのみによって制限され、本願明細書の実施形態の記載および説明の方法によって表された特定の詳細によって制限されないことが意図される。
9.参考文献
[1] 3GPP TS 26.402 "Enhanced aacPlus general audio codec; Additional decoder tools (Release 11)",
[2] J. Lecomte, et al, "Enhanced time domain packet loss concealment in switched speech/audio codec", submitted to IEEE ICASSP, Brisbane, Australia, Apr.2015.
[3] WO 2015063045 A1
[4] "Apparatus and method for improved concealment of the adaptive codebook in ACELP−like concealment employing improved pitch lag estimation", 2014, PCT/EP2014/062589
[5] "Apparatus and method for improved concealment of the adaptive codebook in ACELP−like concealment employing improved pulse "synchronization", 2014, PCT/EP2014/062578


Claims (41)

  1. 符号化されたオーディオ情報におけるオーディオフレームのロスをコンシールメントするためのエラーコンシールメントオーディオ情報(102、232、382、802)を提供するためのエラーコンシールメントユニット(100、230、380、800、800b)であって、
    前記エラーコンシールメントユニットは、第1の周波数範囲(1401)のための第1のエラーコンシールメントオーディオ情報成分(103、807´)を周波数ドメインコンシールメント(105、704、805、910)を用いて提供するように構成され、
    前記エラーコンシールメントユニットはさらに、前記第1の周波数範囲よりも低い周波数を備える第2の周波数範囲(1402)のための第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)を時間ドメインコンシールメント(106、500、600、809、920)を用いて提供するように構成され、
    前記エラーコンシールメントユニットはさらに、前記第1のエラーコンシールメントオーディオ情報成分(103、807´)と、前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)とを結合して、前記エラーコンシールメントオーディオ情報を得るように構成される、エラーコンシールメントユニット。
  2. 請求項1に記載のエラーコンシールメントユニットであって、
    前記エラーコンシールメントユニットは、前記第1のエラーコンシールメントオーディオ情報成分(103、807´)が所定のロストオーディオフレームの高周波数部分を示し、
    前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)が前記所定のロストオーディオフレームの低周波数部分を示し、
    前記所定のロストオーディオフレームに関連付けられたエラーコンシールメントオーディオ情報は、前記周波数ドメインコンシールメント(105、704、805、910)および前記時間ドメインコンシールメント(106、500、600、809、920)の双方を用いて得られるように構成される、エラーコンシールメントユニット。
  3. 請求項1または請求項2の1つに記載のエラーコンシールメントユニットであって、
    前記エラーコンシールメントユニットは、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームの高周波数部分の変換ドメイン表現を用いて前記第1のエラーコンシールメントオーディオ情報成分(103、807´)を導き出すように構成される、および/または、
    前記エラーコンシールメントユニットは、前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームの低周波数部分に基づいて、時間ドメイン信号合成を用いて前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)を導き出すように構成される、エラーコンシールメントユニット。
  4. 請求項1ないし請求項3の1つに記載のエラーコンシールメントユニットであって、
    前記エラーコンシールメントユニットは、前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームの前記高周波数部分の前記変換ドメイン表現のスケーリングされたまたはスケーリングされていない複製を用いて、
    前記ロストオーディオフレームの前記高周波数部分の変換ドメイン表現を得て、
    前記ロストオーディオフレームの前記高周波数部分の前記変換ドメイン表現を、前記時間ドメインに変換して、前記第1のエラーコンシールメントオーディオ情報成分(103、807´)である時間ドメイン信号成分を得るように構成される、エラーコンシールメントユニット。
  5. 請求項3または請求項4に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームの前記低周波数部分に基づいて、1つ以上の合成刺激パラメータと1つ以上の合成フィルタパラメータとを得て、
    信号合成を用いて前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)を得るように構成され、前記信号合成の刺激パラメータおよびフィルタパラメータは前記得られた合成刺激パラメータと前記得られた合成フィルタパラメータに基づいて導き出される、または、前記得られた合成刺激パラメータと前記得られた合成フィルタパラメータと等しい、エラーコンシールメントユニット。
  6. 請求項1ないし請求項5のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記第1および/または第2の周波数範囲(1401、1402)を決定および/または信号適応的に変更する制御(813)を実行するように構成される、エラーコンシールメントユニット。
  7. 請求項6に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、1つ以上の符号化されたオーディオフレームの特徴と1つ以上の適切に復号化されたオーディオフレームの特徴との間で選択された特徴に基づいて前記制御(813)を実行するように構成される、エラーコンシールメントユニット。
  8. 請求項6または請求項7に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、1つ以上の適切に復号化されたオーディオフレームの調和についての情報を得て、前記調和に関する情報に基づいて前記制御(813)を実行するように構成され、
    前記エラーコンシールメントユニットは、1つ以上の適切に復号化されたオーディオフレームのスペクトルチルトについての情報を得て、前記スペクトルチルトについての前記情報に基づいて前記制御(813)を実行するように構成される、エラーコンシールメントユニット。
  9. 請求項8に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記第2の周波数範囲における前記調和と比べた時に、前記第1の周波数範囲における前記調和が比較的小さくなるように、前記第1の周波数範囲(1401)および前記第2の周波数範囲(1402)を選択するように構成される、エラーコンシールメントユニット。
  10. 請求項8または請求項9に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームが調和の閾値よりも強い調和を備える周波数の上限を決定し、それに依存して、前記第1の周波数範囲(1401)および前記第2の周波数範囲(1402)を選択するように構成される、エラーコンシールメントユニット。
  11. 請求項8ないし請求項10の1つに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームのスペクトルチルトがより小さいスペクトルチルトからより大きいスペクトルチルトに変化する周波数境界を決定または推定し、それに依存して、前記第1の周波数範囲および前記第2の周波数範囲を選択するように構成される、エラーコンシールメントユニット。
  12. 請求項6ないし請求項11のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニット(800b)は、エンコーダが送信する情報に基づいて前記制御(813)を実行するように構成される、エラーコンシールメントユニット。
  13. 請求項1ないし請求項12の1つに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記第1の周波数範囲がノイズ状のスペクトル構造を備えるスペクトル領域をカバーし、前記第2の周波数範囲が高調波スペクトル構造を備えるスペクトル領域をカバーするように、前記第1の周波数範囲および前記第2の周波数範囲を調整するように構成される、エラーコンシールメントユニット。
  14. 請求項1ないし請求項13のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、調和とノイズとの間のエネルギー関係に依存して、前記第1の周波数範囲(1401)の低周波数端および/または前記第2の周波数範囲(1402)の高周波数端を調節するために、制御を実行するように構成される、エラーコンシールメントユニット。
  15. 請求項1ないし請求項14のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記時間ドメインコンシールメント(106、500、600、809、920)および周波数ドメインコンシールメント(105、704、805、910)の少なくとも1つを選択的に抑制するために制御を実行する、および/または、時間ドメインコンシールメント(106、500、600、809、920)だけ、または、前記周波数ドメインコンシールメント(105、704、805、910)だけを実行して、前記エラーコンシールメントオーディオ情報を得るように構成されるエラーコンシールメントユニット。
  16. 請求項15に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームのスペクトルチルトの変動が、所定の周波数範囲にわたって予め定められたスペクトルチルトの閾値よりも小さいかどうかを決定または推定し、
    前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームのスペクトルチルトの前記変動が前記予め定められたスペクトルチルトの閾値よりも小さいことがわかった場合にのみ、前記時間ドメインコンシールメントを用いて前記エラーコンシールメントオーディオ情報を得るように構成される、エラーコンシールメントユニット。
  17. 請求項15または請求項16に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームの調和が予め定められた調和の閾値よりも小さいかどうかを決定または推定し、
    前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームの調和が前記予め定められた調和の閾値よりも小さいことがわかった場合にのみ、前記周波数ドメインコンシールメントを用いて前記エラーコンシールメントオーディオ情報を得るように構成される、エラーコンシールメントユニット。
  18. 請求項1ないし請求項17のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームのピッチに基づいて、および/または、前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームにおける前記ピッチの経時的推移に依存して、および/または前記ロストオーディオフレームに先行する前記適切に復号化されたオーディオフレームと前記ロストオーディオフレームの後に続く適切に復号化されたオーディオフレームとの間の前記ピッチの補間に依存して、コンシールメントされたフレームのピッチを適合させるように構成される、エラーコンシールメントユニット。
  19. 請求項1ないし請求項18のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットはさらに、オーバーラップ加算すなわちOLAメカニズム(107、812、930)を用いて、前記第1のエラーコンシールメントオーディオ情報成分(103、807´)と前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)とを結合(930)するように構成される、エラーコンシールメントユニット。
  20. 請求項1ないし請求項19のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)が、オーバーラップ加算(812)が可能なように、前記ロストオーディオフレーム(1102)よりも少なくとも25パーセント長い継続時間を備えるように、前記第2のエラーコンシールメントオーディオ情報成分(104,512,612,811´)を提供するように構成される、エラーコンシールメントユニット。
  21. 請求項1ないし請求項20のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記第1のエラーコンシールメントオーディオ情報成分の時間ドメイン表現(806´)を得るために、前記周波数ドメインエラーコンシールメント(805)によって得られたスペクトルドメイン表現に基づいて、逆修正離散コサイン変換、すなわちIMDCT、(806)を実行するように構成される、エラーコンシールメントユニット。
  22. 請求項21に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、IMDCT(806)を2回実行して、前記時間ドメインにおいて2つの連続するフレームを得るように構成される、エラーコンシールメントユニット。
  23. 請求項1ないし請求項22のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記周波数ドメインコンシールメント(105、704、805、910)の下流側の前記第1のエラーコンシールメントオーディオ情報成分(103、806´)のハイパスフィルタリング(807)を実行するように構成される、エラーコンシールメントユニット。
  24. 請求項23に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、6KHzと10KHzとの間、好ましくは7KHzと9KHzとの間、より好ましくは7.5KHzと8.5KHzとの間、さらに好ましくは7.9KHzと8.1KHzとの間、さらに好ましくは8KHzのカットオフ周波数でハイパスフィルタリング(807)を実行するように構成される、エラーコンシールメントユニット。
  25. 請求項23または請求項24に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記ハイパスフィルタリング(807)の低周波数境界を信号適応的に調節して、それによって、前記第1の周波数範囲(1401)の帯域幅を変更するように構成される、エラーコンシールメントユニット。
  26. 請求項1ないし請求項25のいずれかに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記ロストオーディオフレームに先行するオーディオフレームのダウンサンプルされた時間ドメイン表現(808´)であって、前記ダウンサンプルされた時間ドメイン表現は前記ロストオーディオフレームに先行する前記オーディオフレームの低周波数部分だけを表す、ダウンサンプルされた時間ドメイン表現(808´)を得るために、前記ロストオーディオフレームに先行するオーディオフレームの時間ドメイン表現(804)をダウンサンプル(808)し、
    前記ロストオーディオフレームに先行する前記オーディオフレームの前記ダウンサンプルされた時間ドメイン表現(808´)を用いて前記時間ドメインコンシールメント(106、500、600、809、920)を実行し、
    前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)を得るために、前記時間ドメインコンシールメント(106、500、600、809、920)によって提供されるコンシールメントされたオーディオ情報(809´)またはその後処理されたバージョンをアップサンプル(810)して、
    前記時間ドメインコンシールメント(106、500、600、809、920)が、前記ロストオーディオフレームに先行する前記オーディオフレームを完全に表すのに必要なサンプリング周波数よりも小さいサンプリング周波数を用いて実行されるように構成された、エラーコンシールメントユニット。
  27. 請求項26に記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記ダウンサンプルされた時間ドメイン表現(808´)のサンプリング率を信号適応的に調節し、それによって前記第2の周波数領域(1402)の帯域幅を変更するように構成される、エラーコンシールメントユニット。
  28. 請求項1ないし請求項27の1つに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、減衰係数を用いてフェードアウトを実行するように構成される、エラーコンシールメントユニット。
  29. 請求項1ないし請求項28の1つに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記第1のエラーコンシールメントオーディオ情報成分(103、807´)を導き出すために、前記減衰係数を用いて前記ロストオーディオフレームに先行する前記オーディオフレームのスペクトル表現をスケーリング(707)するように構成される、エラーコンシールメントユニット。
  30. 請求項1ないし請求項29の1つに記載のエラーコンシールメントユニットであって、前記エラーコンシールメントユニットは、前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)を得るために、前記時間ドメインコンシールメント(106、500、600、809、920)の出力信号(809´)、または、そのアップサンプルされたバージョン(810´)をローパスフィルタ処理(811)するように構成される、エラーコンシールメントユニット。
  31. 符号化されたオーディオ情報(210、310、410)に基づいて、復号化されたオーディオ情報(212、312、412)を提供するためのオーディオデコーダ(200、300、400)であって、前記オーディオデコーダは、請求項1ないし請求項30のいずれかに記載のエラーコンシールメントユニットを備える、オーディオデコーダ。
  32. 請求項31に記載のオーディオデコーダであって、前記オーディオデコーダは、オーディオフレームのスペクトルドメイン表現を、前記オーディオフレームの前記スペクトルドメイン表現の符号化された表現に基づいて得るように構成され、前記オーディオデコーダは、前記オーディオフレームの復号化された時間表現を得るために、スペクトルドメイン−時間ドメイン変換を実行するように構成され、
    前記エラーコンシールメントは、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームのスペクトルドメイン表現またはその一部を用いて、前記周波数ドメインコンシールメント(105、704、805、910)を実行するように構成され、
    前記エラーコンシールメントは、前記ロストオーディオフレームに先行する適切に復号化されたオーディオフレームの復号化された時間ドメイン表現を用いて、前記時間ドメインコンシールメント(106、500、600、809、920)を実行するように構成される、オーディオデコーダ。
  33. 符号化されたオーディオ情報におけるオーディオフレームのロスをコンシールメントするためのエラーコンシールメントオーディオ情報を提供するためのエラーコンシールメント方法であって、前記方法は、
    第1の周波数範囲ための第1のエラーコンシールメントオーディオ情報成分(103、807´)を周波数ドメインコンシールメント(105、704、805、910)を用いて提供するステップ(910)と、
    前記第1の周波数範囲よりも低い周波数を備える第2の周波数範囲のための第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)を時間ドメインコンシールメント(106、500、600、809、920)を用いて提供するステップ(920)と、
    前記第1のエラーコンシールメントオーディオ情報成分(103、807´)と、前記第2のエラーコンシールメントオーディオ情報成分(104、512、612、811´)とを結合して前記エラーコンシールメントオーディオ情報を得るステップ(930)と、
    を備える、エラーコンシールメント方法。
  34. 請求項33に記載のエラーコンシールメント方法であって、前記方法は、前記第1および第2の周波数範囲を信号適応的に制御するステップ(905)を備える、エラーコンシールメント方法。
  35. 請求項34に記載のエラーコンシールメント方法であって、前記方法は、少なくとも1つのロストオーディオフレームのためのエラーコンシールメントオーディオ情報を得るために、時間ドメインコンシールメント(106、500、600、809、920)のみ、または周波数ドメインコンシールメント(105、704、805、910)のみが用いられるモードに信号適応的に切り替えるステップを備える、エラーコンシールメント方法。
  36. コンピュータプログラムがコンピュータ上で動作するとき、請求項33ないし請求項35の1つに記載の方法を実行する、コンピュータプログラム。
  37. 入力オーディオ情報(1902)に基づいて符号化されたオーディオ表現(1904)を提供するためのオーディオエンコーダ(1900)であって、前記オーディオエンコーダは、
    前記入力オーディオ情報に基づいて符号化された周波数ドメイン表現(1908)を提供するように構成される周波数ドメインエンコーダ(1906)、および/または、前記入力オーディオ情報に基づいて符号化された線形予測ドメイン表現(1922)を提供するように構成される線形予測ドメインエンコーダ(1920)と、
    時間ドメインエラーコンシールメント(809)と周波数ドメインエラーコンシールメント(805)との間のクロスオーバー周波数をオーディオデコーダ(200、300、400)側で用いられるように定義するクロスオーバー周波数情報(1932)を決定するように構成されるクロスオーバー周波数決定器と、
    を備え、
    前記オーディオエンコーダ(1900)は、前記符号化された周波数ドメイン表現(1908)、および/または、前記符号化された線形予測ドメイン表現(1922)、ならびに前記クロスオーバー周波数情報(1932)も前記符号化されたオーディオ表現(1904)に含めるように構成される、オーディオエンコーダ。
  38. 入力オーディオ情報に基づいて符号化されたオーディオ表現を提供するための方法(2000)であって、前記方法は、
    前記入力オーディオ情報に基づいて符号化された周波数ドメイン表現を提供する周波数ドメイン符号化ステップ(2002)、および/または、前記入力オーディオ情報に基づいて符号化された線形予測ドメイン表現を提供する線形予測ドメイン符号化ステップと、
    時間ドメインエラーコンシールメントと周波数ドメインエラーコンシールメントとの間のクロスオーバー周波数をオーディオデコーダ側で使用されるように定義するクロスオーバー周波数情報を決定するためのクロスオーバー周波数を決定するステップ(2004)と、
    を備え、
    前記符号化された周波数ドメイン表現(1908)および/または前記符号化された線形予測ドメイン表現(1922)、ならびに前記クロスオーバー周波数情報(1932)も前記符号化されたオーディオ表現(1904)に含まれる、方法。
  39. オーディオコンテンツを表す符号化された周波数ドメイン表現(1908)、および/またはオーディオコンテンツを表す符号化された線形予測ドメイン表現(1922)と、
    時間ドメインエラーコンシールメント(809)と周波数ドメインエラーコンシールメント(805)との間のクロスオーバー周波数を前記オーディオデコーダ(200、300、400)側で使用されるように定義するクロスオーバー周波数情報(1932)と、
    を備える、符号化されたオーディオ表現(1904)。
  40. 請求項37に記載のオーディオエンコーダ(1900)と、
    請求項31または請求項32に記載のオーディオデコーダ(200、300、400)であって、請求項6ないし請求項12のいずれかに記載のエラーコンシールメントユニット、または、請求項13ないし請求項25のいずれかに記載のエラーコンシールメントユニットと請求項6ないし請求項12のいずれかに記載のエラーコンシールメントユニットとを組み合わせたエラーコンシールメントユニット(800b)と、
    を備えるシステム(1900、200、300、400、800b)であって、
    前記制御(813)は、前記オーディオエンコーダ(1900)が提供する前記クロスオーバー周波数情報(1932)に基づいて前記第1または第2の周波数範囲を決定するように構成される、システム(1900、200、300、400、800b)。
  41. コンピュータプログラムがコンピュータ上で動作するとき、請求項38に記載の方法を実行する、コンピュータプログラム。

JP2018547304A 2016-03-07 2016-05-25 ハイブリッドコンシールメント方法:オーディオコーデックにおける周波数および時間ドメインパケットロスの組み合わせ Active JP6718516B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16159031.0 2016-03-07
EP16159031 2016-03-07
PCT/EP2016/061865 WO2017153006A1 (en) 2016-03-07 2016-05-25 Hybrid concealment method: combination of frequency and time domain packet loss concealment in audio codecs

Publications (2)

Publication Number Publication Date
JP2019511738A true JP2019511738A (ja) 2019-04-25
JP6718516B2 JP6718516B2 (ja) 2020-07-08

Family

ID=55521559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018547304A Active JP6718516B2 (ja) 2016-03-07 2016-05-25 ハイブリッドコンシールメント方法:オーディオコーデックにおける周波数および時間ドメインパケットロスの組み合わせ

Country Status (11)

Country Link
US (1) US10984804B2 (ja)
EP (1) EP3427256B1 (ja)
JP (1) JP6718516B2 (ja)
KR (1) KR102250472B1 (ja)
CN (1) CN109155133B (ja)
BR (1) BR112018067944B1 (ja)
CA (1) CA3016837C (ja)
ES (1) ES2797092T3 (ja)
MX (1) MX2018010753A (ja)
RU (1) RU2714365C1 (ja)
WO (1) WO2017153006A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402905B (zh) * 2018-12-28 2023-05-26 南京中感微电子有限公司 音频数据恢复方法、装置及蓝牙设备
BR112021012753A2 (pt) * 2019-01-13 2021-09-08 Huawei Technologies Co., Ltd. Método implementado por computador para codificação de áudio, dispositivo eletrônico e meio legível por computador não transitório
WO2020165262A2 (en) * 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transmitter processor, audio receiver processor and related methods and computer programs
WO2020164753A1 (en) * 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method selecting an error concealment mode, and encoder and encoding method
CN113454714A (zh) * 2019-02-21 2021-09-28 瑞典爱立信有限公司 根据mdct系数的频谱形状估计
CN110264860B (zh) * 2019-06-14 2021-05-11 长春理工大学 一种基于多膜系阵列的多谱段图像伪装方法
CN113035208B (zh) * 2021-03-04 2023-03-28 北京百瑞互联技术有限公司 一种音频解码器的分级错误隐藏方法、装置及存储介质

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3632213B2 (ja) 1993-06-30 2005-03-23 ソニー株式会社 信号処理装置
JPH10233692A (ja) * 1997-01-16 1998-09-02 Sony Corp オーディオ信号符号化装置および符号化方法並びにオーディオ信号復号装置および復号方法
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
SE527669C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Förbättrad felmaskering i frekvensdomänen
SG124307A1 (en) * 2005-01-20 2006-08-30 St Microelectronics Asia Method and system for lost packet concealment in high quality audio streaming applications
KR101289603B1 (ko) * 2005-07-25 2013-07-24 톰슨 라이센싱 참조 및 비참조 비디오 프레임을 검출하고 은닉하는 방법및 장치
US8798172B2 (en) 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US8010352B2 (en) * 2006-06-21 2011-08-30 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
KR101292771B1 (ko) 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
WO2008151408A1 (en) * 2007-06-14 2008-12-18 Voiceage Corporation Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711
WO2009029037A1 (en) * 2007-08-27 2009-03-05 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive transition frequency between noise fill and bandwidth extension
ES2372014T3 (es) * 2008-07-11 2012-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para calcular datos de ampliación de ancho de banda utilizando un encuadre controlado por pendiente espectral.
US8532998B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
TWI484479B (zh) * 2011-02-14 2015-05-11 Fraunhofer Ges Forschung 用於低延遲聯合語音及音訊編碼中之錯誤隱藏之裝置和方法
KR102070430B1 (ko) * 2011-10-21 2020-01-28 삼성전자주식회사 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
EP4235657A3 (en) 2012-06-08 2023-10-18 Samsung Electronics Co., Ltd. Method and apparatus for concealing frame error and method and apparatus for audio decoding
EP2903004A4 (en) 2012-09-24 2016-11-16 Samsung Electronics Co Ltd METHOD AND APPARATUS FOR HAMPERING FRAME ERRORS, AND METHOD AND APPARATUS FOR DECODING AUDIO DATA
CN103714821A (zh) * 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
EP3561808B1 (en) * 2013-02-05 2021-03-31 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for controlling audio frame loss concealment
KR20140126095A (ko) 2013-04-22 2014-10-30 주식회사 케이티 분전함
KR102120073B1 (ko) 2013-06-21 2020-06-08 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 개선된 피치 래그 추정을 사용하여 acelpp-형 은폐 내에서 적응적 코드북의 개선된 은폐를 위한 장치 및 방법
MX352092B (es) 2013-06-21 2017-11-08 Fraunhofer Ges Forschung Aparato y método para mejorar el ocultamiento del libro de códigos adaptativo en la ocultación similar a acelp empleando una resincronización de pulsos mejorada.
ES2805744T3 (es) * 2013-10-31 2021-02-15 Fraunhofer Ges Forschung Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo
KR101984117B1 (ko) * 2013-10-31 2019-05-31 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
NO2780522T3 (ja) * 2014-05-15 2018-06-09
TWI602172B (zh) 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
KR101686462B1 (ko) 2015-02-11 2016-12-28 삼성에스디에스 주식회사 사용자 행동 패턴을 기반으로 한 웹페이지 생성 방법 및 활용 방법
CA3016949C (en) * 2016-03-07 2021-08-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Error concealment unit, audio decoder, and related method and computer program fading out a concealed audio frame out according to different damping factors for different frequency bands

Also Published As

Publication number Publication date
CA3016837C (en) 2021-09-28
BR112018067944B1 (pt) 2024-03-05
US20190005967A1 (en) 2019-01-03
EP3427256B1 (en) 2020-04-08
CN109155133A (zh) 2019-01-04
CN109155133B (zh) 2023-06-02
KR20180118781A (ko) 2018-10-31
RU2714365C1 (ru) 2020-02-14
ES2797092T3 (es) 2020-12-01
WO2017153006A1 (en) 2017-09-14
EP3427256A1 (en) 2019-01-16
BR112018067944A2 (pt) 2019-09-03
CA3016837A1 (en) 2017-09-14
US10984804B2 (en) 2021-04-20
JP6718516B2 (ja) 2020-07-08
MX2018010753A (es) 2019-01-14
KR102250472B1 (ko) 2021-05-12

Similar Documents

Publication Publication Date Title
CN105765651B (zh) 使用错误隐藏提供经解码的音频信息的音频解码器及方法
JP6306177B2 (ja) 時間ドメイン励振信号を修正するエラーコンシールメントを用いて、復号化されたオーディオ情報を提供する、オーディオデコーダおよび復号化されたオーディオ情報を提供する方法
JP6718516B2 (ja) ハイブリッドコンシールメント方法:オーディオコーデックにおける周波数および時間ドメインパケットロスの組み合わせ

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200612

R150 Certificate of patent or registration of utility model

Ref document number: 6718516

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250