JP7258135B2

JP7258135B2 - 処理されたオーディオ信号表現を提供するための装置およびオーディオ信号プロセッサ、オーディオデコーダ、オーディオエンコーダ、方法、ならびにコンピュータプログラム

Info

Publication number: JP7258135B2
Application number: JP2021524211A
Authority: JP
Inventors: シュテファン・バイヤー; パラヴィ・マベン; エマニュエル・ラヴェリ; ギヨーム・フックス; エレニ・フォトポウロウ; マルクス・ムルトゥルス
Original assignee: フラウンホファーゲセルシャフトツールフェールデルンクダーアンゲヴァンテンフォルシュンクエー．ファオ．
Priority date: 2018-11-05
Filing date: 2019-11-05
Publication date: 2023-04-14
Anticipated expiration: 2039-11-05
Also published as: TWI738106B; US11948590B2; AU2022279390B2; ES2967262T3; EP4207190A1; CA3179298A1; PL3877976T3; US20210256983A1; CN113272896B; US20210256982A1; US11804229B2; MX2021005233A; JP7275217B2; US11990146B2; AU2019374400B2; JP2022014460A; AU2019374400A1; ZA202103740B; JP2022511682A; CA3179294A1

Description

本発明に従った実施形態は、処理されたオーディオ信号表現を提供するための装置およびオーディオ信号プロセッサ、オーディオデコーダ、オーディオエンコーダ、方法、ならびにコンピュータプログラムに関する。

以下では、様々な進歩性のある実施形態および態様が説明される。また、さらなる実施形態が添付の特許請求の範囲によって定義される。

特許請求の範囲によって定義されるあらゆる実施形態が、言及される実施形態および態様において説明される詳細(特徴および機能)のいずれかによって補足され得ることに留意されたい。

また、本明細書において説明される実施形態を個別に使用することができ、特許請求の範囲に含まれるあらゆる特徴で補強することもできる。

また、本明細書において説明される個々の態様を個別にまたは組合せで使用できることに留意されたい。したがって、前記態様の別のものに詳細を追加することなく、前記個々の態様の各々に詳細を追加することができる。

本開示は、オーディオエンコーダ(処理されたオーディオ信号表現を提供するための装置および/またはオーディオ信号プロセッサ)およびオーディオデコーダにおいて使用可能な特徴を、明示的にまたは暗黙的に説明することにも留意されたい。したがって、本明細書において説明される特徴のいずれもが、オーディオエンコーダの文脈で、およびオーディオデコーダの文脈で使用され得る。

その上、方法に関して本明細書において開示される特徴および機能は、(そのような機能を実行するように構成される)装置においても使用され得る。さらに、装置に関して本明細書において開示されるあらゆる特徴および機能は、対応する方法においても使用され得る。言い換えると、本明細書において開示される方法は、装置に関して説明される特徴および機能のいずれによっても補強され得る。

また、「代替の実装形態」の項において説明されるように、本明細書において説明される特徴および機能のいずれもが、ハードウェアもしくはソフトウェアで、または、ハードウェアとソフトウェアの組合せを使用して実装され得る。

離散フーリエ変換(DFT)を使用して離散時間信号を処理することは、デジタル信号処理に対する普及している手法であり、これは第1には、DFTまたは高速フーリエ変換(FFT)の効率的な実施により複雑さを潜在的に軽減するためのものであり、第2には、DFTの後に周波数領域において信号を表現し、それにより時間信号のより簡単な周波数依存の処理を可能にするためのものである。処理された信号が、DFTの巡回畳み込みの性質の結果を避けるために、通常は時間領域へ変換し戻される場合、時間信号の重複する部分が変換され、処理の後の良好な再構築を確実にするために、個々の時間区分(フレーム)が、順方向DFT/処理/逆方向DFTの連鎖の前および/または後に窓を掛けられ、重複する部分が加算されて処理された時間信号を形成する。この手法は、たとえば図6に示されている。

一般的な低遅延システムは、たとえば、WO2017/161315A1のように、処理連鎖において順方向DFTの前に適用される窓で、DFTフィルタバンクを用いて処理されるフレームの右の窓を掛けられた部分を割ることで単に窓掛け解除することによって、窓掛け解除を使用して、重複加算のために後続のフレームが利用可能ではなくても処理された離散時間信号の近似を生成する。図7には、順方向DFTの前の時間領域信号の窓を掛けられたフレームおよび対応する適用される窓形状の例が示されている。

ここで、n_sはまだ利用可能ではない後続のフレームとの重複領域の最初のサンプルのインデックスであり、n_eは後続のフレームとの重複領域の最後のサンプルのインデックスであり、w_aは順方向DFTの前の信号の現在のフレームに適用される窓である。

処理および使用される窓に応じて、分析窓の形状のエンベロープは必ずしも保存されず、特に窓の終わりに向かって、窓サンプルは0に近い値を有するので、処理されるサンプルは1よりはるかに大きい値と乗じられ、これにより、後続のフレームとのOLA(重複加算)により産生される信号と比較して、窓掛け解除された信号の最後のサンプルの偏差が大きくなり得る。図8において、DFT領域における処理および逆DFTの後の、静的な窓掛け解除を用いた近似と後続のフレームとのOLAとの不一致の例が、示されている。

これらの偏差は、窓掛け解除された信号の近似が以降の処理ステップにおいて使用される場合、たとえば、LPC分析において近似された信号部分を使用するとき、後続のフレームとのOLAと比較して、劣化につながり得る。図9において、前の例の近似された信号部分に対して行われるLPC分析の例が示されている。

WO2017/161315A1

したがって、重複加算を実行することなく周波数領域の表現に基づいて時間領域信号表現を再構築するときに使用可能な、信号の完全性と、複雑さと、遅延との間のより良い妥協点をもたらすような着想を得ることが望まれる。

これは、本出願の独立請求項の主題によって達成される。

本発明によるさらなる実施形態は、本出願の従属請求項の主題によって定義される。

本発明による実施形態は、入力オーディオ信号表現に基づく処理されたオーディオ信号表現を提供するための装置に関する。装置は、入力オーディオ信号表現に基づく処理されたオーディオ信号表現を提供するために、窓掛け解除、たとえば適応的な窓掛け解除を適用するように構成される。たとえば、窓掛け解除は、入力オーディオ信号表現の提供のために使用される分析窓掛けを少なくとも部分的に戻す。さらに、装置は、1つまたは複数の信号特性に応じて、および/または入力オーディオ信号表現の提供のために使用される1つまたは複数の処理パラメータに応じて窓掛け解除を適応させるように構成される。ある実施形態によれば、入力オーディオ信号表現の提供は、たとえば、異なるデバイスまたは処理単位によって実行され得る。1つまたは複数の信号特性は、たとえば、入力オーディオ信号表現の特性、または入力オーディオ信号表現の導出元の中間表現の特性である。ある実施形態によれば、1つまたは複数の信号特性は、たとえばDC成分dを備える。1つまたは複数の処理パラメータは、たとえば、入力オーディオ信号表現の、または、入力オーディオ信号表現の導出元の中間表現の、分析窓掛け、順方向周波数変換、周波数領域における処理、および/もしくは逆方向の時間周波数変換のために使用されるパラメータを備え得る。

この実施形態は、入力オーディオ信号表現の提供のために使用される信号特性および/または処理パラメータに応じて窓掛け解除を適応させることによって、非常に正確な処理されたオーディオ信号表現が達成され得るという考え方に基づく。信号特性および処理パラメータに対する依存性により、入力オーディオ信号表現の提供のために使用される個々の処理に従って窓掛け解除を適応させることが可能である。さらに、窓掛け解除の適応により、提供された処理されたオーディオ信号表現は、たとえば、後続のフレームがまだ利用可能ではないとき、少なくとも右の重複部分のエリアにおける、すなわち、提供された処理されたオーディオ信号表現の最後の部分における、入力オーディオ信号表現に基づく、現実の処理され重複加算された信号のより良い近似を表現することができる。たとえば、この概念を使用すると、窓掛け解除が(たとえば、5より大きい、または10より大きい係数による)強いアップスケーリングを引き起こす時間領域において、窓掛け解除を適応させて、それにより、信号エンベロープの望ましくない劣化を減らすことが可能である。

ある実施形態によれば、装置は、入力オーディオ信号表現を導出するために使用される処理を決定する処理パラメータに応じて窓掛け解除を適応させるように構成される。処理パラメータは、たとえば、現在の処理単位もしくはフレームの処理、および/または、1つまたは複数の前の処理単位もしくはフレームの処理を決定する。ある実施形態によれば、処理パラメータによって決定される処理は、入力オーディオ信号表現の、または、入力オーディオ信号表現の導出元の中間表現の、分析窓掛け、順方向周波数変換、周波数領域における処理、および/もしくは逆方向の時間周波数変換を備える。入力オーディオ信号の提供のために使用される処理方法のリストは網羅的ではなく、より多くのまたは異なる処理方法が使用され得ることが明らかである。本発明は、本明細書において提案される処理方法のリストに限定されない。窓掛け解除における処理のこの影響は、提供された処理されたオーディオ信号表現の正確さの向上をもたらすことができる。

ある実施形態によれば、装置は、入力オーディオ信号表現の、または、入力オーディオ信号表現の導出元の中間信号表現の信号特性に応じて窓掛け解除を適応させるように構成される。信号特性はパラメータによって表され得る。入力オーディオ信号表現は、たとえば周波数領域における処理および周波数領域から時間領域への変換の後の、たとえば現在の処理単位またはフレームの時間領域信号である。中間信号表現は、たとえば、周波数領域から時間領域への変換を使用して入力オーディオ信号表現がそれから導出される、処理された周波数領域表現である。任意選択で、周波数領域から時間領域への変換は、この実施形態において、および/または、エイリアシング消去を使用する、もしくはエイリアシング消去を使用しない(たとえば、たとえばMDCT変換のような重複および加算を実行することによるエイリアシング消去特性を備え得る重複変換である逆変換を使用する)以下の実施形態のうちの1つにおいて実行され得る。ある実施形態によれば、処理パラメータと信号特性との差は、処理パラメータが、たとえば、分析窓掛け、順方向周波数変換、スペクトル領域における処理、逆方向の時間周波数変換などのような処理を決定するというものであり、信号特性が、たとえば、オフセット、振幅、位相などのような信号の表現を決定するというようなものである。入力オーディオ信号表現および/または中間信号表現の信号特性は、処理されたオーディオ信号表現を提供するために後続のフレームとの重複加算が必要ではないような、窓掛け解除の適応をもたらすことができる。ある実施形態によれば、装置は、処理されたオーディオ信号表現を提供するために入力オーディオ信号表現に窓掛け解除を適用するように構成され、たとえば、入力オーディオ信号表現の信号特性に依存して窓掛け解除を適応させ、提供される処理されたオーディオ信号表現と、後続のフレームとの重複加算を使用して得られるであろうオーディオ信号表現との偏差を減らすことが有利である。追加または代替として、中間信号表現の信号特性の考慮はさらに、たとえば偏差が大きく低減されるように、窓掛け解除を改善することができる。たとえば、DCオフセットを示す、または処理単位の最後における0への遅いもしくは不十分な収束を示す信号特性のような、従来の窓掛け解除の潜在的な問題を示す信号特性が考慮され得る。

ある実施形態によれば、装置は、窓掛け解除が適用される信号の時間領域表現の信号特性を記述する1つまたは複数のパラメータを取得するように構成される。時間領域表現は、たとえば、入力オーディオ信号表現の導出元の元の信号、または、入力オーディオ信号表現を表す、もしくは入力オーディオ信号表現の導出元である、周波数領域から時間領域への変換の後の中間信号を表す。窓掛け解除が適用される信号は、たとえば、入力オーディオ信号表現であり、または、たとえば、周波数領域における処理および周波数領域から時間領域への変換の後の、現在の処理単位もしくはフレームの時間領域信号である。ある実施形態によれば、1つまたは複数のパラメータは、たとえば、入力オーディオ信号表現の信号特性、または、たとえば、周波数領域における処理および周波数領域から時間領域への変換の後の、現在の処理単位もしくはフレームの時間領域信号の信号特性を記述する。追加または代替として、装置は、窓掛け解除が適用される時間領域入力オーディオ信号の導出元の中間信号の周波数領域表現の信号特性を記述する1つまたは複数のパラメータを取得するように構成される。時間領域入力オーディオ信号は、たとえば、入力オーディオ信号表現を表す。装置は、上で説明された1つまたは複数のパラメータに依存して窓掛け解除を適応させるように構成され得る。中間信号は、たとえば、上で説明された信号および入力オーディオ信号表現を決定するために処理されるべき信号である。時間領域表現および周波数領域表現は、たとえば、重要な処理ステップにおける入力オーディオ信号表現を表し、これは、処理されたオーディオ信号表現を提供するための重複加算処理がなくなることに基づいて、処理されたオーディオ信号表現における欠陥(またはアーティファクト)を最小化するための窓掛け解除に良い影響をもたらすことができる。たとえば、信号特性を記述するパラメータは、元の(適応されていない)窓掛け解除の適用がいつアーティファクトをもたらすか(またはもたらす可能性が高いか)を示し得る。したがって、(たとえば、従来の窓掛け解除から導出されるものへの)窓掛け解除の適応は、前記パラメータに基づいて効率的に制御され得る。

ある実施形態によれば、装置は、入力オーディオ信号表現の提供のために使用される分析窓掛けを少なくとも部分的に戻すために、窓掛け解除を適応させるように構成される。分析窓掛けは、たとえば、入力オーディオ信号表現の提供のためにさらに処理される中間信号を得るために、第1の信号に適用される。したがって、適応された窓掛け解除を適用することによって装置により提供される処理されたオーディオ信号表現は、処理された形式で少なくとも部分的に第1の信号を表す。したがって、第1の信号の非常に正確で改善された低遅延処理が、窓掛け解除の適応によって実現され得る。

ある実施形態によれば、装置は、後続の処理単位、たとえば、後続のフレームまたは後続のフレームの信号値の欠如を少なくとも部分的に補償するために、窓掛け解除を適応させるように構成される。したがって、後続のフレームとの重複加算を使用して取得可能であろう完全に処理された信号の良好な近似である、時間信号、たとえば処理されたオーディオ信号表現を取得するために、後続のフレームとの重複加算の必要はない。これにより、重複加算を省略することができるので、時間信号がフィルタバンクを使用した処理の後でさらに処理されるような信号処理システムにおいて、遅延がより小さくなる。したがって、この特徴により、処理されたオーディオ信号表現を提供するために、後続の処理単位をすでに処理していることは必要ではない。

ある実施形態によれば、窓掛け解除は、処理されたオーディオ信号表現の所与の処理単位と少なくとも部分的に時間的に重複する後続の処理単位が利用可能になる前に、その所与の処理単位、たとえば時間区分、フレーム、または現在の時間区分を提供するように構成される。処理されたオーディオ信号表現は、複数の先の処理単位、たとえば、所与の処理単位、たとえば現在処理されている時間区分より時間的に前の複数の処理単位、および、複数の後続の処理単位、たとえば、所与の処理単位より時間的に後の複数の処理単位を備えてもよく、処理されたオーディオ信号表現の提供がそれに基づく入力オーディオ信号表現は、たとえば、複数の時間区分を伴う時間信号を表す。代替的に、処理されたオーディオ信号表現は、所与の処理単位の中の処理された時間信号を表し、処理されたオーディオ信号表現の提供がそれに基づく入力オーディオ信号表現は、たとえば、所与の処理単位の中の時間信号を表す。所与の処理単位の中の処理された時間信号を受信するために、たとえば、入力オーディオ信号表現の提供のために処理されるべき入力オーディオ信号表現または第1の時間信号に窓掛けが適用され、次いで、現在の時間区分、または所与の処理単位の信号、たとえば中間信号に、処理が適用されてもよく、処理の後で、窓掛け解除が適用され、たとえば、先の処理単位との所与の処理単位の重複区分は、重複加算によって加算されるが、後続の処理単位との所与の処理単位の重複区分は、重複加算によって加算されない。所与の処理単位は、先の処理単位および後続の処理単位との重複区分を備え得る。したがって、窓掛け解除は、たとえば、後続の処理単位との所与の処理単位の時間的に重複する区分が、窓掛け解除によって非常に正確に(重複加算を実行することなく)近似され得るように適応させられる。したがって、所与の処理単位および先の処理単位だけが、たとえば後続の処理単位を含めずに考慮されるので、オーディオ信号表現は、より少ない遅延で処理され得る。

ある実施形態によれば、装置は、所与の処理されたオーディオ信号表現と、入力オーディオ信号表現の、または、たとえば処理された入力オーディオ信号表現の後続の処理単位間の重複加算の結果との偏差を制限するために、窓掛け解除を適応させるように構成される。ここで、所与の処理されたオーディオ信号表現と、入力オーディオ信号表現の所与の処理単位、先の処理単位、および後続の処理単位の間の重複加算の結果との間の偏差は特に、たとえば、窓掛け解除によって制限される。先の処理単位は、たとえば、装置によりすでに知られており、それにより、所与の処理単位の窓掛け解除は、たとえば、偏差を制限するために、後続の処理単位との所与の処理単位の時間的に重複する時間区分を(重複加算を実際に実行することなく)近似するように適応され得る。窓掛け解除のこの適応により、たとえば非常に小さい偏差が達成され、これにより、装置は、後続の処理単位の処理(および重複加算)なしで処理されたオーディオ信号表現を提供するのが非常に正確になる。

ある実施形態によれば、装置は、処理されたオーディオ信号表現の値を制限するために窓掛け解除を適応させるように構成される。窓掛け解除は、たとえば、値が、たとえば、入力オーディオ信号表現の処理単位、たとえば所与の処理単位の少なくとも最後の部分において制限されるように適応される。たとえば、装置は、たとえば、少なくとも入力オーディオ信号表現の処理単位の最後の部分のスケーリングのために、入力オーディオ信号表現の提供のために使用される分析窓掛けの対応する値の逆数より小さい、重み付け解除(または窓掛け解除)を実行するための重み値を使用するように構成される。たとえば、入力オーディオ信号表現の処理単位の最後の部分が十分に0に向かわない(または収束しない)場合、値の制限を用いた適応なしの窓掛け解除は、処理されたオーディオ信号表現の最後の部分の値のあまりにも大きな増幅をもたらし得る。(たとえば、「低減された」重み値を使用することによる)値の制限は、処理されたオーディオ信号表現の非常に正確な提供をもたらすことができ、それは、不適切な窓掛け解除により引き起こされる、増幅により引き起こされる大きな偏差を回避できるからである。

ある実施形態によれば、装置は、入力オーディオ信号の処理単位の最後の部分において0へ、たとえば滑らかに収束しない入力オーディオ信号表現に対しては、処理単位の最後の部分において窓掛け解除によって適用されるスケーリングが、入力オーディオ信号表現が処理単位の最後の部分において0に、たとえば滑らかに収束する場合と比較して低減されるように、窓掛け解除を適応させるように構成される。このスケーリングにより、たとえば、入力オーディオ信号の処理単位の最後の部分の中の値が増幅される。入力オーディオ信号の処理単位の最後の部分における値のあまりにも大きな増幅を避けるために、入力オーディオ信号表現が0に収束しないとき、処理単位の最後の部分における窓掛け解除によって適用されるスケーリングは低減される。

ある実施形態によれば、装置は、窓掛け解除を適応させて、それにより、処理されたオーディオ信号表現のダイナミックレンジを制限するように構成される。窓掛け解除は、たとえば、入力オーディオ信号表現の処理単位の少なくとも最後の部分において、または、入力オーディオ信号表現の処理単位の最後の部分において選択的に、ダイナミックレンジが制限され、それにより、処理されたオーディオ信号表現のダイナミックレンジも制限されるように、適応される。窓掛け解除は、たとえば、適応なしの窓掛け解除により引き起こされる大きな増幅が低減されて処理されたオーディオ信号表現のダイナミックレンジを制限するように、適応される。したがって、所与の処理されたオーディオ信号表現と、入力オーディオ信号表現の後続の処理単位間の重複加算の結果との間の偏差を、非常に小さくすること、またはほとんどなくすことができ、入力オーディオ信号表現は、たとえば、スペクトル領域における処理およびスペクトル領域から時間領域への変換の後の、時間領域信号を表す。

ある実施形態によれば、装置は、入力オーディオ信号表現のDC成分、たとえばオフセットに依存して窓掛け解除を適応させるように構成される。ある実施形態によれば、入力オーディオ信号表現を提供するための最初の信号表現または中間信号表現の処理は、最初の信号または中間信号の処理されたフレームにDCオフセットdを加算することがあり、処理されたフレームは、たとえば、入力オーディオ信号表現を表す。このDC成分により、入力オーディオ信号表現は、たとえば、十分に0に収束せず、それにより、窓掛け解除に誤差が発生し得る。DC成分に依存した窓掛け解除の適応により、この誤差を最小にすることができる。

ある実施形態によれば、装置は、入力オーディオ信号表現のDC成分、たとえばオフセット、たとえばdを少なくとも部分的に除去するように構成される。ある実施形態によれば、DC成分は、たとえば窓値による除算の前に窓掛けを戻すスケーリングを適用する前に(または適用する直前に)除去される。DC成分は、たとえば、後続の処理単位またはフレームとの重複領域において選択的に除去される。言い換えると、DC成分は、入力オーディオ信号表現の最後の部分において少なくとも部分的に除去される。ある実施形態によれば、DC成分は、入力オーディオ信号表現の最後の部分においてのみ除去される。これは、たとえば、最後の部分においてのみ、後続の処理単位(重複加算を実行するための)の欠如が窓掛け解除により引き起こされる処理されたオーディオ信号表現に誤差をもたらし、この誤差は最後の部分におけるDC成分を除去することによって最小にされ得るという考え方に基づく。したがって、窓掛け解除に影響を与える要因は、装置の正確さを改善するために、少なくとも部分的に除去される。

ある実施形態によれば、窓掛け解除は、処理されたオーディオ信号表現を取得するために、窓値(または複数の窓値)に応じて、入力オーディオ信号表現のDCが除去されたまたはDCが低減されたバージョンをスケーリングするように構成される。窓値は、たとえば、入力オーディオ信号表現の提供のために使用される、最初の信号または中間信号の窓掛けを表す窓関数の値である。したがって、窓値は、たとえば、入力オーディオ信号表現の現在の時間フレームのすべての時間に対する値を備えてもよく、これらの値は、たとえば、入力オーディオ信号表現をもたらすために最初の信号または中間信号と乗じられた。したがって、入力オーディオ信号表現のDCが除去されたまたはDCが低減されたバージョンのスケーリングは、たとえば、窓値または窓関数の値によって入力オーディオ信号表現のDCが除去されたもしくはDCが低減されたバージョンを割ることによって、窓関数または窓値に依存して実行され得る。したがって、窓掛け解除は、入力オーディオ信号表現の提供のために最初の信号または中間信号に適用される窓掛けを、非常に効果的に元に戻す。DCが除去された、またはDCが低減されたバージョンの使用により、窓掛け解除において、入力オーディオ信号表現の後続の処理単位間の重複加算の結果からの、処理されたオーディオ信号表現の偏差は小さくなり、またはほとんどなくなる。

ある実施形態によれば、窓掛け解除は、入力オーディオ信号のDCが除去されたまたはDCが低減されたバージョンのスケーリングの後で、DC成分、たとえばオフセットを少なくとも部分的に再導入するように構成される。上で説明されたように、スケーリングは窓値に基づくものであり得る。言い換えると、スケーリングは、装置によって実行される窓掛け解除を表し得る。DC成分の再導入により、非常に正確な処理されたオーディオ信号表現が、窓掛け解除によって提供され得る。これは、DC成分の再導入の前に入力オーディオ信号の提供のために使用される窓掛けに基づいて入力オーディオ信号のDCが除去されたまたはDCが低減されたバージョンをまずスケーリングするのが、より効率的であり正確であるという考え方に基づき、それは、DC成分を伴う入力オーディオ信号のバージョンのスケーリングが、入力オーディオ信号の大きな増幅をもたらし、したがって、窓掛け解除による処理されたオーディオ信号表現の提供がとても不正確になり得るからである。

ある実施形態によれば、窓掛け解除は、

に従って、入力オーディオ信号表現y[n]に基づいて、処理されたオーディオ信号表現y_r[n]を決定するように構成され、dはDC成分である。代替的に、たとえば上で説明されたように、値dはDCオフセットを表し得る。DC成分dは、たとえば、入力オーディオ信号表現の現在の処理単位もしくはフレーム、または最後の部分のようなそれらの一部分におけるDCオフセットを表す。値nは時間インデックスであり、n_sは、たとえば、現在の処理単位またはフレームと後続の処理単位またはフレームとの重複領域の最初のサンプルの時間インデックスであり、値n_eは重複領域の最後のサンプルの時間インデックスである。関数w_a[n]の値は、たとえばn_sとn_eとの間の時間フレームにおける、入力オーディオ信号表現の提供のために使用される分析窓である。ある実施形態によれば、分析窓w_a[n]は、上でさらに説明されるような窓値を表す。したがって、導入された式によれば、DC成分が入力オーディオ信号表現から除去され、入力オーディオ信号表現のこのバージョンが分析窓によってスケーリングされ、その後、DC成分が加算によって再導入される。したがって、窓掛け解除は、処理されたオーディオ信号表現の提供における誤差を最小にするために、DC成分に対して適応される。ある実施形態によれば、装置は、現在の処理単位、すなわち所与の処理単位の最後の部分においてのみ、上で言及された式に従って窓掛け解除を実行し、異なる窓掛け解除、たとえば、静的な窓掛け解除または適応的な窓掛け解除のような一般的な窓掛け解除を実行し、場合によっては現在の時間フレームの残りにおいて重複加算機能を実行するように構成される。

ある実施形態によれば、装置は、入力オーディオ信号表現の提供において使用される分析窓が1つまたは複数の0の値を備えるような時間部分にある、入力オーディオ信号表現の、たとえば窓掛け解除が適用される時間領域信号の1つまたは複数の値を使用して、DC成分を決定するように構成される。これらの0の値は、たとえば、入力オーディオ信号表現の提供において使用される分析窓のゼロパディングを表し得る。たとえば、ゼロパディングを伴う分析窓は、たとえば、時間領域から周波数領域への変換、周波数領域における処理、および周波数領域から時間領域への変換が実行される前に、入力オーディオ信号の提供において使用され、これが入力オーディオ信号をもたらす。説明される時間領域から周波数領域への変換および/または説明される周波数領域から時間領域への変換は任意選択で、この実施形態において、および/または以下の実施形態のうちの1つにおいて、エイリアシング消去を使用して、またはエイリアシング消去を使用せずに実行され得る。ある実施形態によれば、入力オーディオ信号表現の提供において使用される分析窓が0の値を備えるような時間部分の中にある入力オーディオ信号表現の値は、DC成分の近似値として使用される。代替として、入力オーディオ信号表現の提供において使用される分析窓が0の値を備えるような時間部分の中にある、入力オーディオ信号表現の複数の値の平均が、DC成分の近似値として使用される。したがって、入力オーディオ信号を提供するための信号の窓掛けおよび処理に起因するDC成分は、非常に簡単にかつ効率的に決定することができ、装置により実行される窓掛け解除を改善するために使用することができる。

ある実施形態によれば、装置は、スペクトル領域から時間領域への変換を使用して入力オーディオ信号表現を取得するように構成される。スペクトル領域から時間領域への変換は、たとえば、周波数領域から時間領域への変換としても理解され得る。ある実施形態によれば、装置は、スペクトル領域から時間領域への変換としてフィルタバンクを使用するように構成される。代替として、装置は、たとえば、逆離散フーリエ変換または逆離散コサイン変換をスペクトル領域から時間領域への変換として使用するように構成される。したがって、装置は、入力オーディオ信号表現を取得するために中間信号の処理を実行するように構成される。ある実施形態によれば、装置は、入力オーディオ信号表現の提供のためにスペクトル領域から時間領域への変換に関する処理パラメータを使用するように構成される。したがって、装置によって実行される窓掛け解除に影響を及ぼす処理パラメータを、非常に高速かつ正確に装置によって決定することができ、それは、装置が処理を実行するように構成され、装置が処理を実行する異なる装置から処理パラメータを受信して、本発明の装置に入力オーディオ信号表現を提供することが必要ではないからである。

本発明による実施形態は、処理されるべきオーディオ信号に基づいて、処理されたオーディオ信号表現を提供するためのオーディオ信号プロセッサに関する。オーディオ信号プロセッサは、処理されるべきオーディオ信号の処理単位の時間領域表現の窓を掛けられたバージョンを取得するために、処理されるべきオーディオ信号の処理単位、たとえばフレームまたは時間区分の時間領域表現に分析窓掛けを適用するように構成される。さらに、オーディオ信号プロセッサは、窓を掛けられたバージョンに基づいて処理されるべきオーディオ信号のスペクトル領域表現、たとえば周波数領域表現を取得するように構成される。したがって、たとえばDFTのような、たとえば順方向周波数変換が、スペクトル領域表現を取得するために使用される。たとえば、スペクトル領域表現を取得するために処理されるべきオーディオ信号の窓が掛けられたバージョンに、周波数変換が適用される。オーディオ信号プロセッサは、スペクトル領域処理、たとえば周波数領域における処理を、取得されたスペクトル領域表現に適用して、処理されたスペクトル領域表現を取得するように構成される。処理されたスペクトル領域表現に基づいて、オーディオ信号プロセッサは、たとえば逆方向の時間周波数変換を使用して、処理された時間領域表現を取得するように構成される。オーディオ信号プロセッサは本明細書において説明されるような装置を備え、装置は、処理された時間領域表現を、その入力オーディオ信号表現として取得し、それに基づいて、処理され、たとえば窓掛け解除されたオーディオ信号表現を提供するように構成される。ある実施形態によれば、装置は、オーディオ信号プロセッサから、窓掛け解除の適応のために使用される1つまたは複数の処理パラメータを受信するように構成される。したがって、1つまたは複数の処理パラメータは、オーディオ信号プロセッサによって実行される分析窓掛けに関するパラメータ、たとえば処理されるべきオーディオ信号のスペクトル時間領域を取得するための周波数変換に関する処理パラメータ、オーディオ信号プロセッサによって実行されるスペクトル領域処理に関するパラメータ、および/または、オーディオ信号プロセッサにより処理された時間領域表現を取得するための逆方向の時間周波数変換に関するパラメータを備え得る。

ある実施形態によれば、装置は、分析窓掛けの窓値を使用して窓掛け解除を適応させるように構成される。窓値は、たとえば処理パラメータを表す。窓値は、たとえば、処理単位の時間領域表現に適用された分析窓掛けを表す。

ある実施形態は、符号化されたオーディオ表現に基づいて、復号されたオーディオ表現を提供するためのオーディオデコーダに関する。オーディオデコーダは、符号化されたオーディオ表現に基づいて、符号化されたオーディオ信号のスペクトル領域表現、たとえば周波数領域表現を取得するように構成される。さらに、オーディオデコーダは、たとえば、周波数領域から時間領域への変換を使用して、スペクトル領域表現に基づいて、符号化されたオーディオ信号の時間領域表現を取得するように構成される。オーディオデコーダは、本明細書で説明される実施形態の1つに従った装置を備え、装置は、時間領域表現を、その入力オーディオ信号表現として取得し、それに基づいて、処理された、たとえば窓掛け解除されたオーディオ信号表現を、復号されたオーディオ表現として提供するように構成される。

ある実施形態によれば、オーディオデコーダは、所与の処理単位と時間的に重複する後続の処理単位、たとえばフレームまたは時間区分が復号される前に、所与の処理単位、たとえば、フレームまたは時間区分の、たとえば完全なオーディオ信号表現を提供するように構成される。したがって、符号化されたオーディオ表現の今後の単位、すなわち後続の処理単位を復号する必要なく、所与の処理単位だけをオーディオデコーダが復号することが可能である。また、低遅延を達成することができる。

ある実施形態は、入力オーディオ信号表現に基づいて、符号化されたオーディオ表現を提供するためのオーディオエンコーダに関する。オーディオエンコーダは、本明細書で説明される実施形態の1つに従った装置を備え、装置は、入力オーディオ信号表現に基づいて、処理されたオーディオ信号表現を取得するように構成される。オーディオエンコーダは、処理されたオーディオ信号表現を符号化するように構成される。したがって、短い遅延で符号化を実行できる有利なエンコーダが提案され、それは、装置によって適用される強化された窓掛け解除が、後続の処理単位をまだ処理していなくても、たとえば所与の処理単位を符号化するために使用されるからである。

ある実施形態によれば、オーディオエンコーダは、処理されたオーディオ信号表現に基づいて、スペクトル領域表現を任意選択で取得するように構成される。処理されたオーディオ信号表現は、たとえば、時間領域表現である。オーディオエンコーダは、符号化されたオーディオ表現を取得するために、スペクトル領域表現および/または時間領域表現を符号化するように構成される。したがって、たとえば、装置によって実行される本明細書において説明される窓掛け解除が時間領域表現をもたらすことができ、時間領域表現の符号化が有利であり、それは、符号化された表現が、たとえば、処理されたオーディオ信号表現を提供するための完全な重複加算をエンコーダが使用するよりも、短い遅延をもたらすからである。ある実施形態によれば、たとえば、システムの中のエンコーダは、切り替えられる時間領域/周波数領域エンコーダである。

ある実施形態によれば、装置は、入力オーディオ信号表現を形成する、複数の入力オーディオ信号のダウンミックスを実行し、スペクトル領域において、処理されたオーディオ信号表現としてダウンミックスされた信号を提供するように構成される。

本発明による実施形態は、装置の入力オーディオ信号と見なされ得る、入力オーディオ信号表現に基づいて、処理されたオーディオ信号表現を提供するための方法に関する。方法は、入力オーディオ信号表現に基づいて、処理されたオーディオ信号表現を提供するために、窓掛け解除を適用するステップを備える。窓掛け解除は、たとえば適応的な窓掛け解除であり、これは、たとえば、入力オーディオ信号表現の提供のために使用される分析窓掛けを少なくとも部分的に戻す。さらに、方法は、1つまたは複数の信号特性に応じて、および/または入力オーディオ信号表現の提供のために使用される1つまたは複数の処理パラメータに応じて、窓掛け解除を適応させるステップを備える。1つまたは複数の信号特性は、たとえば、入力オーディオ信号表現の特性、または入力オーディオ信号表現の導出元の中間表現の特性である。信号特性はDC成分dを備え得る。

方法は、上で言及された装置と同じ考えに基づく。方法は任意選択で、装置に関しても本明細書において説明されるあらゆる特徴、機能、および詳細によって補足され得る。前記特徴、機能、および詳細は、個別に、および組合せで、の両方で使用され得る。

ある実施形態は、処理されるべきオーディオ信号に基づいて、処理されるオーディオ信号表現を提供するための方法に関する。方法は、処理されるべきオーディオ信号の処理単位の時間領域表現の窓が掛けられたバージョンを取得するために、処理されるべきオーディオ信号の処理単位、たとえばフレームまたは時間区分の時間領域表現に、分析窓掛けを適用するステップを備える。さらに、方法は、窓が掛けられたバージョンに基づいて処理されるべきオーディオ信号のスペクトル領域表現、たとえば周波数領域表現を取得するステップを備える。ある実施形態によれば、スペクトル領域表現を取得するために、たとえばDFTのような順方向周波数変換が使用される。順方向周波数変換は、たとえば、スペクトル領域表現を取得するために処理されるべきオーディオ信号の窓が掛けられたバージョンに適用される。方法は、処理されたスペクトル領域表現を取得するために、取得されたスペクトル領域表現に、スペクトル領域処理、たとえば周波数領域における処理を適用するステップを備える。さらに、方法は、たとえば逆方向の時間周波数変換を使用して、処理されたスペクトル領域表現に基づいて、処理された時間領域表現を取得するステップと、本明細書において説明される方法を使用して、処理されたオーディオ信号表現を提供するステップとを備え、処理された時間領域表現は、方法を実行するための入力オーディオ信号として使用される。

方法は、上で言及されたオーディオ信号プロセッサおよび/または装置と同じ考えに基づく。方法は任意選択で、オーディオ信号プロセッサおよび/または装置に関しても本明細書において説明される任意の特徴、機能、ならびに詳細によって補足され得る。前記特徴、機能、および詳細は、個別に、および組合せで、の両方で使用され得る。

本発明による実施形態は、符号化されたオーディオ表現に基づいて、復号されたオーディオ表現を提供するための方法に関する。方法は、符号化されたオーディオ表現に基づいて、符号化されたオーディオ信号のスペクトル領域表現、たとえば周波数領域表現を取得するステップを備える。さらに、方法は、スペクトル領域表現に基づいて、符号化されたオーディオ信号の時間領域表現を取得するステップと、本明細書において説明される方法を使用して、処理されたオーディオ信号表現を提供するステップとを備え、時間領域表現が、方法を実行するための入力オーディオ信号として使用され、処理されたオーディオ信号表現が、復号されたオーディオ表現を構成し得る。

方法は、上で言及されたオーディオデコーダおよび/または装置と同じ考えに基づく。方法は任意選択で、オーディオデコーダおよび/または装置に関しても本明細書において説明される任意の特徴、機能、ならびに詳細によって補足され得る。前記特徴、機能、および詳細は、個別に、および組合せで、の両方で使用され得る。

本発明による実施形態は、コンピュータ上で実行されると本明細書において説明される方法を実行するためのプログラムコードを有するコンピュータプログラムに関する。

図面は必ずしも縮尺通りではなく、代わりに全般に、本発明の原理を例示するときに強調が行われる。以下の説明では、本発明の様々な実施形態が、以下の図面を参照して説明される。

本発明のある実施形態による装置のブロック概略図である。本発明のある実施形態による、装置によって窓掛け解除され得る入力オーディオ信号表現の提供のためのオーディオ信号の窓掛けの概略図である。本発明のある実施形態による、装置によって適用される窓掛け解除、たとえば信号近似の概略図である。本発明のある実施形態による、装置によって適用される窓掛け解除、たとえば補償の概略図である。本発明のある実施形態による、オーディオ信号プロセッサのブロック概略図である。本発明のある実施形態による、オーディオデコーダの概略図である。本発明のある実施形態による、オーディオエンコーダの概略図である。本発明のある実施形態による、処理されたオーディオ信号表現を提供するための方法のフローチャートである。本発明のある実施形態による、処理されるべきオーディオ信号に基づいて、処理されたオーディオ信号表現を提供するための方法のフローチャートである。本発明のある実施形態による、復号されたオーディオ表現を提供するための方法のフローチャートである。入力オーディオ信号表現に基づいて、符号化されたオーディオ表現を提供するための方法のフローチャートである。オーディオ信号の一般的な処理のフローチャートである。順方向DFTの前の時間領域信号の窓が掛けられたフレームおよび対応する適用される窓形状の例を示す図である。静的な窓掛け解除を用いた近似と、DFT領域および逆DFTにおける処理の後の後続のフレームとのOLAとの不一致の例を示す図である。前の例の近似された信号部分について行われるLPC分析の例を示す図である。

等しいもしくは等価な要素、または、等しいもしくは等価な機能を伴う要素は、異なる図に存在する場合であっても、等しいまたは等価な参照番号によって以下の説明において表記される。

以下の説明では、本発明の実施形態のより完全な説明を提供するために、複数の詳細が記載される。しかしながら、本発明の実施形態は、これらの具体的な詳細なしで実践され得ることが、当業者には明らかであろう。他の事例では、本発明の実施形態を不明瞭にするのを避けるために、既知の構造およびデバイスが、詳細にではなくブロック図の形式で示されている。加えて、本明細書において以後説明される様々な実施形態の特徴は、別段注記されない限り、互いに組み合わせられ得る。

図1aは、入力オーディオ信号表現120に基づいて、処理されたオーディオ信号表現110を提供するための装置100の概略図を示す。入力オーディオ信号表現120は任意選択のデバイス200によって提供されてもよく、デバイス200は信号122を処理して入力オーディオ信号表現120を提供する。ある実施形態によれば、デバイス200は、フレーミング、分析窓掛け、順方向周波数変換、周波数領域における処理、および/または信号122の逆方向の時間周波数変換を実行して、入力オーディオ信号表現120を提供することができる。

ある実施形態によれば、装置100は、外部デバイス200から入力オーディオ信号表現120を取得するように構成され得る。代替として、任意選択のデバイス200は装置100の一部であってもよく、任意選択の信号122は入力オーディオ信号表現120を表してもよく、または、デバイス200によって提供される、信号122に基づく処理された信号は、入力オーディオ信号表現120を表してもよい。

ある実施形態によれば、入力オーディオ信号表現120は、スペクトル領域における処理およびスペクトル領域から時間領域への変換の後の時間領域信号を表す。

装置100は、入力オーディオ信号表現120に基づいて、処理されたオーディオ信号表現110を提供するために、窓掛け解除130、たとえば適応的な窓掛け解除を適用するように構成される。窓掛け解除130は、たとえば、入力オーディオ信号表現120の提供のために使用される分析窓掛けを少なくとも部分的に戻す。代替または追加として、装置は、たとえば、入力オーディオ信号表現120の提供のために使用される分析窓掛けを少なくとも部分的に戻すように、窓掛け解除130を適応させるように構成される。したがって、たとえば、任意選択のデバイス200は、窓掛けを信号122に適用して入力オーディオ信号表現120を取得することができ、これは窓掛け解除130によって(たとえば、少なくとも部分的に)戻され得る。

装置100は、1つまたは複数の信号特性140に応じて、および/または、入力オーディオ信号表現120の提供のために使用される1つまたは複数の処理パラメータ150に応じて、窓掛け解除130を適応させるように構成される。ある実施形態によれば、装置100は、入力オーディオ信号表現120から、および/またはデバイス200から1つまたは複数の信号特性140を取得するように構成され、デバイス200は、任意選択の信号122の、および/または、入力オーディオ信号表現120の提供のための信号122の処理に起因する中間信号の、1つまたは複数の信号特性140を提供することができる。したがって、装置100は、たとえば、入力オーディオ信号表現120の信号特性140だけを使用するのではなく、代替または追加として、たとえば入力オーディオ信号表現120の導出元の中間信号または元の信号122も使用するように構成される。信号特性140は、たとえば、処理されたオーディオ信号表現110に関連する信号の振幅、位相、周波数、DC成分などを備え得る。ある実施形態によれば、処理パラメータ150は、装置100によって任意選択のデバイス200から取得され得る。たとえば、処理パラメータは、入力オーディオ信号表現120の提供のために、信号に、たとえば元の信号122または1つまたは複数の中間信号に適用される、方法または処理ステップの構成を定義する。したがって、処理パラメータ150は、入力オーディオ信号表現120が受けた処理を表現または定義することができる。

ある実施形態によれば、信号特性140は、現在の処理単位またはフレーム、たとえば所与の処理単位の時間領域信号の時間領域表現、すなわち入力オーディオ信号表現120の信号特性を記述する1つまたは複数のパラメータを備えてもよく、時間領域信号は、たとえば、信号122の窓が掛けられ処理されたバージョンの、周波数領域における処理および周波数領域から時間領域への変換の後に得られる。追加または代替として、信号特性140は、時間領域入力オーディオ信号、たとえば窓掛け解除が適用される入力オーディオ信号表現120の導出元である、中間信号の周波数領域表現の信号特性を記述する1つまたは複数のパラメータを備え得る。

ある実施形態によれば、本明細書において説明されるような信号特性140および/または処理パラメータ150は、以下の実施形態において説明されるような窓掛け解除130を適応させるために装置100によって使用され得る。信号特性は、たとえば、信号120の信号分析、または信号120の導出元の任意の信号の信号分析を使用して取得され得る。

ある実施形態によれば、装置100は、後続の処理単位、たとえば後続のフレームの信号値の欠如を少なくとも部分的に補償するために窓掛け解除130を適応させるように構成される。任意選択の信号122は、たとえば、任意選択のデバイス200によって処理単位へと窓が掛けられ、所与の処理単位は装置100によって窓掛け解除(130)され得る。一般的な手法では、窓掛け解除された所与の処理単位は、先の処理単位と後続の処理単位との重複加算を受ける。窓掛け解除130の本明細書において提案される適応により、後続のフレームとの重複加算を実際に実行することなく、後続のフレームとの重複加算が実行されるかのように、処理されたオーディオ信号表現110を窓掛け解除130が近似できるので、後続の処理単位は必要ではない。

以下では、図1bから図1dに関して、フレーム、すなわち処理単位と、それらの重複領域のより完全な説明が、ある実施形態による図1aに示される装置について提示される。

図1bには、本発明の実施形態による中間信号123を取得するためにステップのうちの1つとして任意選択のデバイス200によって実行され得る、分析窓掛けが示されている。ある実施形態によれば、中間信号123は、図1cおよび/または図1dに示されるように、入力オーディオ信号表現を提供するための任意選択のデバイス200によってさらに処理され得る。

図1bは、先の処理単位124_i-1の窓が掛けられたバージョン、所与の処理単位124_iの窓が掛けられたバージョン、および後続の処理単位124_i+1の窓が掛けられたバージョンを示すための概略図にすぎず、インデックスiは少なくとも2の自然数を表す。ある実施形態によれば、先の処理単位124_i-1、所与の処理単位124_i、および後続の処理単位124_i+1は、時間領域信号122に適用される窓掛け132によって達成され得る。ある実施形態によれば、所与の処理単位124_iは、t₀からt₁の期間において先の処理単位124_i-1と重複してもよく、期間t₂からt₃において後続の処理単位124_i+1と重複してもよい。図1bは概略図にすぎず、分析窓掛けの後の信号は、図1bに示されるものとは異なるように見えることがあることが明らかである。窓が掛けられた処理単位124_i-1から124_i+1は、周波数領域へと変換され、周波数領域において処理され、時間領域に戻るように変換され得ることも留意されたい。図1cには、先の処理単位124_i-1、所与の処理単位124_i、および後続の処理単位124_i+1が示されており、図1dには、先の処理単位124_i-1および所与の処理単位124_iが示されており、装置によって適用される窓掛け解除は、処理単位124に基づき得る。ある実施形態によれば、先の処理単位124_i-1は過去のフレームと関連付けられてもよく、所与の処理単位124_iは現在のフレームと関連付けられてもよい。

一般に、処理されたオーディオ信号表現を提供するために、合成窓掛け(これは通常、時間領域に戻る変換の後で、または時間領域に戻る前記変換とともにも適用される)の後のこれらの重複領域t₀からt₁および/またはt₂からt₃(t₂からt₃は図1dのn_sからn_eと関連付けられ得る)を備えるフレームに対して、重複加算が実行される。対照的に、図1aに示される本発明の装置100は、窓掛け解除130(すなわち、分析窓掛けの取り消し)を適用するように構成してもよく、これにより、期間t₂からt₃における後続の処理単位124_i+1との所与の処理単位124_iの重複加算は必要ではなく、図1cおよび図1dを参照されたい。これは、たとえば、図1cに示されるように、後続の処理単位124_i+1の信号値の欠如を少なくとも部分的に補償するような、窓掛け解除の適応によって達成される。したがって、たとえば、後続の処理単位124_i+1の期間t₂からt₃における信号値は必要ではなく、信号値のこの欠如により生じ得る誤差は、装置100による窓掛け解除130によって(たとえば、アーティファクトを回避もしくは低減するために信号特性および/または処理パラメータに適応される、所与の処理単位の最後の部分における信号120の値のアップスケーリングを使用して)補償され得る。これは、信号近似からのさらなる遅延低減をもたらし得る。

窓掛け解除が、たとえば、中間信号123の処理によって提供される入力オーディオ信号表現に適用される場合、窓掛け解除は、期間t₂からt₃において所与の処理単位と少なくとも部分的に時間的に重複する後続の処理単位124_i+1が利用可能になる前に、処理されたオーディオ信号表現110の所与の処理単位124_i、すなわち時間区分、フレームの再構築されたバージョンを提供するように構成され、図1cおよび/または図1dを参照されたい。したがって、装置100は、所与の処理単位124_iを窓掛け解除するだけで十分であるので、前を見る必要はない。

ある実施形態によれば、装置100は、期間t₀からt₁において、所与の処理単位124_iおよび先の処理単位124_i-1の重複加算を適用するように構成され、それは、先の処理単位124_i-1が、たとえば装置100によってすでに処理されているからである。

ある実施形態によれば、装置100は、処理されたオーディオ信号表現(たとえば、入力オーディオ信号表現の所与の処理単位124_iの窓掛け解除されたバージョン)と、入力オーディオ信号表現の後続の処理単位間の重複加算の結果との偏差を低減または制限するために、窓掛け解除130を適応させるように構成される。したがって、たとえば所与の処理単位124_iの処理されたオーディオ信号表現と、後続の処理単位との従来の重複加算を使用して得られるであろう処理されたオーディオ信号表現との間に、ほとんど偏差が生じないように、窓掛け解除が適応され、装置100による新しい窓掛け解除は一般的な方法より遅延が少なく、それは、後続の処理単位124_i+1が窓掛け解除において考慮される必要がなく、これが、処理されたオーディオ信号表現110を提供するための信号を処理するのに必要な遅延の最適化をもたらすからである。

ある実施形態によれば、図1aに示される装置100は、処理されたオーディオ信号表現110の値を制限するために窓掛け解除130を適応させるように構成される。したがって、たとえば、所与の処理単位124_iの期間t₂からt₃における処理単位の、たとえば少なくとも最後の部分126における高い値(図1bまたは図8参照)は、窓掛け解除によって(たとえば、所与の処理単位124_iの最後126における入力オーディオ信号表現の0への収束が遅い場合、たとえば、アップスケーリング係数の選択的な低減によって)制限され得る。したがって、静的な窓掛け解除によって得られる近似された部分を伴う出力信号112₁と、次のフレームとのOLAを使用して得られる出力信号112₂との間に生じ得るような、大きな偏差が生じるのを避けることができる(図8参照)。ある実施形態によれば、装置100は、中間信号123を取得するために使用される分析窓掛け132の対応する値の逆数より小さい、重み付け解除を実行するための重み値を使用するように構成され、中間信号123は、入力オーディオ信号表現120の提供のために、たとえば、少なくとも入力オーディオ信号表現120の処理単位の最後の部分126をスケーリングするために、さらに処理され得る。

ある実施形態によれば、窓掛け解除130は、入力オーディオ信号表現120にスケーリングを適用することができ、入力オーディオ信号表現120の所与の処理単位124_iの期間t₂からt₃における最後の部分126でのスケーリング(図1b参照)は、入力オーディオ信号表現120が、所与の処理単位124_iの最後の部分126において、たとえば滑らかに0に収束する場合と比較すると、いくつかの状況において低減される。したがって、窓掛け解除130は、入力オーディオ信号表現120が所与の処理単位124_iにおける異なる期間の間異なるスケーリングを受けることができるように、装置100によって適応され得る。したがって、たとえば、入力オーディオ信号表現120の所与の処理単位124_iの少なくとも最後の部分126において、窓掛け解除が適応され、それにより、処理されたオーディオ信号表現110のダイナミックレンジを制限する。したがって、図8において最後の部分126の出力信号112₁について示されるような高いピークは、本発明の装置100によって避けることができ、この装置は窓掛け解除130を適応させるように構成される。

ある実施形態によれば、異なる所与の処理単位124_i、すなわち、入力オーディオ信号表現120の異なる部分は、異なるスケーリングによって窓掛け解除されてもよく、それにより、適応的な窓掛け解除が実現される。したがって、たとえば、信号122は、複数の処理単位124へとデバイス200によって窓掛け解除されてもよく、装置100は、処理されたオーディオ信号表現110を提供するために、各処理単位124に対する窓掛け解除を(たとえば、異なる窓掛け解除パラメータを使用して)実行するように構成されてもよい。

ある実施形態によれば、入力オーディオ信号表現120は、窓掛け解除130を適応させるように装置100によって使用され得るDC成分、たとえばオフセットを備え得る。入力オーディオ信号表現のDC成分は、たとえば、入力オーディオ信号表現120を提供するための任意選択のデバイス200によって実行される処理に起因し得る。ある実施形態によれば、装置100は、たとえば、窓掛け解除130を適用することによって、および/または、窓掛け、たとえば分析窓掛けを戻すスケーリング、すなわち窓掛け解除130を適用する前に、入力オーディオ信号表現のDC成分を少なくとも部分的に除去するように構成される。ある実施形態によれば、入力オーディオ信号表現のDC成分は、たとえば窓掛け解除を表す窓値による除算の前に、装置によって除去され得る。ある実施形態によれば、DC成分は、後続の処理単位124_i+1を用いて、たとえば最後の部分126によって表される、重複領域において少なくとも部分的に選択的に除去され得る。ある実施形態によれば、窓掛け解除130は、入力オーディオ信号表現120のDCが除去されたまたはDCが低減されたバージョンに適用され、窓掛け解除は、処理されたオーディオ信号表現110を取得するために、ウィンドウ値に応じてスケーリングを表すことができる。スケーリングは、たとえば、入力オーディオ信号表現120のDCが除去されたまたはDCが低減されたバージョンを窓値で割ることによって適用される。窓値は、たとえば図1bに示される窓132によって表され、たとえば、所与の処理単位124_iの中の各時間ステップに対して、窓値が存在する。

入力オーディオ信号表現120のDC成分は、入力オーディオ信号表現120のDCが除去されたまたはDCが低減されたバージョンのスケーリング、たとえば窓値ベースのスケーリングの後で、たとえば少なくとも部分的に、再導入され得る。これは、DC成分が窓掛け解除において生じる誤差をもたらし得るという考えに基づき、窓掛け解除の前にそれを除去して、窓掛け解除の後にDC成分を再導入することによって、この誤差は最小限になる。

ある実施形態によれば、窓掛け解除130は、

に従って、入力オーディオ信号表現y[n]120に基づいて、処理されたオーディオ信号表現y_r[n]110を決定するように構成される。たとえば、入力オーディオ信号表現の現在の処理単位もしくはフレームにおける、またはそれらの一部分における、DC成分またはDCオフセットは、値dによって表され得る。インデックスnは、たとえば時間間隔n_sからn_eにおける時間ステップまたは連続的な時間を表す、時間インデックスであり(図1d参照)、n_sは、たとえば現在の処理単位またはフレームと後続の処理単位またはフレームとの重複領域の最初のサンプルの時間インデックスであり、n_eは、重複領域の最後のサンプルの時間インデックスである。値または関数w_a[n]は、たとえばn_sとn_eの間の時間フレームにおいて、入力オーディオ信号表現120の提供のために使用される分析窓132である。

言い換えると、ある好ましい実施形態では、処理は、信号の処理されたフレームに、たとえばDCオフセットdを加算し、補償(または窓掛け解除)がこのDC成分に適応されることが仮定される。

さらなる好ましい実施形態では、このDC成分は、たとえばゼロパディングを伴う分析窓を利用することによって近似され、処理および逆DFTの後のゼロパディング範囲内にあるサンプルの値を、加算されたDC成分に対する近似された値dとして用いる。

ある実施形態によれば、装置100は、入力オーディオ信号表現120の提供において使用される分析窓132が1つまたは複数の0の値を備えるような時間部分134(図1b参照)にある、入力オーディオ信号表現120の1つまたは複数の値を使用してDC成分を決定するように構成される。この時間部分134はゼロパディング(たとえば、連続的なゼロパディング)を表すことができ、これは、入力オーディオ信号表現120のDC成分を決定するために任意選択で適用され得る。分析窓132の時間部分134におけるゼロパディングは、この時間部分134における窓が掛けられた信号の0の値をもたらすはずであり、この窓が掛けられた信号の処理は、DC成分を定義するこの時間部分134におけるDCオフセットをもたらし得る。ある実施形態によれば、DC成分は、時間部分134における入力オーディオ信号表現120の平均オフセットを表し得る(図1b参照)。

言い換えると、図1aから図1dの文脈において説明される装置100は、ある実施形態による、低遅延周波数領域処理のための適応的な窓掛け解除を実行することができる。本発明は、たとえば、後続のフレームとの重複加算の後の完全に処理された信号の良好な近似である時間信号を取得するために後続のフレームとの重複加算を必要とすることなく、フィルタバンクを用いた処理の後の時間信号を窓掛け解除または補償する(図1cまたは図1d参照)ための新規の手法を開示し、これは、たとえば、フィルタバンクを使用した処理の後に時間信号がさらに処理されるような信号処理システムにおいて、より少ない遅延をもたらす。

図1cおよび図1dは、本明細書において提案される装置100によって実行される、同じまたは代替の窓掛け解除を示すことができ、過去のフレームと現在のフレームとの間で重複加算(OLA)を実行することができ、後続の処理単位124_i+1は必要とされない。

(たとえば、最後の部分126における処理されたオーディオ信号表現の)補償される信号部分の良好な近似を確実にし、代わりに、適用された分析窓の逆関数を用いた静的な窓掛け解除を避けるために、たとえば、適応補償
y_r[n]=f(y[n],w_a[n]),n∈[n_s;n_e]
を提案する。(たとえば、y[n]をy_r[n]にマッピングする窓掛け解除関数の)適応は、好ましくは、分析窓w_aに、たとえば次のパラメータの1つまたは複数に基づく。
・現在のフレームおよび場合によっては過去のフレームの周波数領域における処理において利用可能であり使用されるパラメータ
・現在のフレームの周波数領域表現から導出されるパラメータ
・周波数領域における処理および逆周波数変換の後の現在のフレームの時間信号から導出されるパラメータ

新しい方法および装置の利点は、後続のフレームがまだ利用可能ではないときの、右の重複部分のエリアにおける実際の処理され重複加算された信号のより良好な近似である。

本明細書において提案される装置100および方法は、次の適用分野において使用され得る。
・重複加算を用いた順方向周波数変換および逆方向周波数変換を使用して周波数領域において信号を処理した後の信号のさらなる処理を使用する低遅延処理システム。
・エンコーダにおいて、ダウンミックスが周波数領域のステレオ入力信号を処理することによって作成され、周波数領域ダウンミックスが、EVSのような最新のモノ発話/音楽エンコーダを使用したさらなるモノ符号化のために時間領域へと戻るように変換される、パラメトリックステレオエンコーダまたはステレオデコーダまたはステレオエンコーダ/デコーダシステムにおける使用のため。
・EVSコーディング規格の未来のステレオ拡張、すなわちこのシステムのDFTステレオ部分における使用のため。
・実施形態は3GPP IVAS装置またはシステムにおいて使用され得る。

図2は、処理されるべきオーディオ信号122、すなわち第1の信号に基づいて、処理されたオーディオ信号表現110を提供するためのオーディオ信号プロセッサ300を示す。ある実施形態によれば、第1の信号122x[n]は、フレーミングされ、および/または分析窓を掛けられて(210)、第1の中間信号123₁を提供することができ、第1の中間信号123₁は、順方向周波数変換220を受けて第2の中間信号123₂を提供することができ、第2の中間信号123₂は、周波数領域における処理230を受けて第3の中間信号123₃を提供することができ、第3の中間信号123₃は、逆方向の時間周波数変換240を受けて第4の中間信号123₄を提供することができる。分析窓掛け210は、たとえば、オーディオ信号122の処理単位、たとえばフレームの時間領域表現にオーディオ信号プロセッサ300によって適用される。それにより得られた第1の中間信号123₁は、たとえば、オーディオ信号122の処理単位の時間領域表現の窓が掛けられたバージョンを表す。第2の中間信号123₂は、窓が掛けられたバージョン、すなわち第1の中間信号123₁に基づいて得られたオーディオ信号122のスペクトル領域表現または周波数領域表現を表すことができる。周波数領域における処理230は、スペクトル領域の処理も表すことができ、たとえば、フィルタリングおよび/または平滑化および/または周波数変換および/またはエコー挿入などの音響効果処理および/または帯域幅拡張および/または周辺信号抽出および/またはソース分離を備え得る。したがって、第3の中間信号123₃は、処理されたスペクトル領域表現を表すことができ、第4の中間信号123₄は、任意選択で、処理されたスペクトル領域表現、すなわち第3の中間信号123₃に基づいて、処理された時間領域表現を表すことができる。

ある実施形態によれば、オーディオ信号プロセッサ200は、たとえば、図1aおよび/または図1bに関して説明されるような装置100を備え、これは、処理された時間表現123₄y[n]を、その入力オーディオ信号表現として取得し、それに基づいて、処理されたオーディオ信号表現y_r[n]110を提供するように構成される。逆方向の時間周波数変換240は、たとえば、フィルタバンクを使用した、逆離散フーリエ変換を使用した、または逆離散コサイン変換を使用した、スペクトル領域から時間領域への変換を表すことができる。したがって、装置100は、たとえば、スペクトル領域から時間領域への変換を使用して、第4の中間信号123₄によって表される入力オーディオ信号表現を取得するように構成される。

装置は、入力オーディオ信号表現123₄に基づいて、処理されたオーディオ信号表現110y_r[n]を提供するために、窓掛け解除を実行するように構成される。ある実施形態によれば、窓掛け解除が第4の中間信号123₄に適用される。装置100による窓掛け解除130の適応は、図1aおよび/または図1bに関して説明されるような特徴および/または機能を備え得る。ある実施形態によれば、装置100は、中間信号123₁から123₄の信号特性140₁から140₄に応じて、ならびに/または、入力オーディオ信号表現の提供のために使用されるそれぞれの処理ステップ210、220、230、および/もしくは240の処理パラメータ150₁から150₄に応じて、窓掛け解除130を適応させるように構成され得る。たとえば、窓掛け解除へと入力される入力オーディオ信号表現が、dcオフセットを備えること、またはdcオフセットを備える可能性が高いこと、またはフレームの最後における0に向かう遅い収束を備えることが予想され得るかどうかを、処理パラメータから結論付けることができる。したがって、処理パラメータは、窓掛け解除が適応されるべきであるかどうか、および/またはどのように適応されるべきであるかを決めるために使用され得る。

ある実施形態によれば、装置100は、オーディオ信号プロセッサ200によって実行される分析窓掛け210の窓値を使用して、窓掛け解除を適応させるように構成される。

ある実施形態によれば、装置は、

に従って、入力オーディオ信号表現y[n]123₄に基づいて、処理されたオーディオ信号表現y_r[n]110を決定するために窓掛け解除を実行するように構成される。値dは、第4の中間信号123₄のDC成分またはDCオフセットを表すことができ、w_a[n]は、処理ステップ210における入力オーディオ信号表現123₄の提供のために使用される分析窓を表すことができる。この窓掛け解除は、たとえば、すべての時間nに対する期間n_sからn_eにおいて実行される。

図3は、符号化されたオーディオ表現420に基づいて、復号されたオーディオ表現410を提供するためのオーディオデコーダ400の概略図を示す。オーディオデコーダ400は、符号化されたオーディオ表現420に基づいて、符号化されたオーディオ信号のスペクトル領域表現430を取得するように構成される。さらに、オーディオデコーダ400は、スペクトル領域表現430に基づいて、符号化されたオーディオ信号の時間領域表現440を取得するように構成される。さらに、オーディオデコーダ400は装置100を備え、これは、図1aおよび/または図1bに関して説明されるような特徴および/または機能を備え得る。装置100は、時間領域表現440を、その入力オーディオ信号表現として取得し、それに基づいて、処理されたオーディオ信号表現410を符号化されたオーディオ表現として提供するように構成される。処理されたオーディオ信号表現410は、たとえば、窓が掛けられていないオーディオ信号表現であり、それは、装置100が、時間領域表現440を窓掛け解除するように構成されるからである。

ある実施形態によれば、オーディオデコーダ400は、所与の処理単位と時間的に重複する後続の処理単位、たとえばフレームが復号される前に、所与の処理単位、たとえばフレームの、たとえば完全な復号されたオーディオ信号表現410を提供するように構成される。

図4は、入力オーディオ信号表現122に基づいて、符号化されたオーディオ表現810を提供するためのオーディオエンコーダ800の概略図を示し、入力オーディオ信号表現122は、たとえば、複数の入力オーディオ信号を備える。入力オーディオ信号表現122は任意選択で、装置100の第2の入力オーディオ信号表現120を提供するために前処理される(200)。前処理200は、第2の入力オーディオ信号表現120を提供するために、信号122のフレーミング、分析窓掛け、順方向周波数変換、周波数領域における処理、および/または逆方向の時間周波数変換を備え得る。代替的に、入力オーディオ信号表現122は、第2の入力オーディオ信号表現120をすでに表していてもよい。

装置100は、たとえば、図1aから図2に関して本明細書において説明されるような特徴および機能を備え得る。装置100は、入力オーディオ信号表現122に基づいて、処理されたオーディオ信号表現820を取得するように構成される。ある実施形態によれば、装置100は、スペクトル領域において入力オーディオ信号表現122または第2の入力オーディオ信号表現120を形成する、複数の入力オーディオ信号のダウンミックスを実行し、ダウンミックスされた信号を処理されたオーディオ信号表現820として提供するように構成される。ある実施形態によれば、装置100は、入力オーディオ信号表現122の、または第2の入力オーディオ信号表現120の第1の処理830を実行することができる。第1の処理830は、前処理200に関して説明されたような特徴および機能を備え得る。任意選択の第1の処理830によって取得される信号は、処理されたオーディオ信号表現820を提供するために、窓掛け解除され、および/またはさらに処理され得る(840)。処理されたオーディオ信号表現820は、たとえば時間領域信号である。

ある実施形態によれば、エンコーダ800は、スペクトル領域符号化870および/または時間領域符号化872を備える。図4に示されるように、エンコーダ800は、スペクトル領域符号化870と時間領域符号化872との間で符号化モードを変更するために(たとえば、切り替え符号化)、少なくとも1つのスイッチ880₁、880₂を備え得る。エンコーダは、たとえば、信号適応方式で切り替わる。代替として、エンコーダは、この2つの符号化モードを切り替えることなく、スペクトル領域符号化870または時間領域符号化872のいずれかを備え得る。

スペクトル領域符号化870において、処理されたオーディオ信号表現820は、スペクトル領域信号へと変換され得る(850)。この変換は任意選択である。ある実施形態によれば、処理されたオーディオ信号表現820は、スペクトル領域信号をすでに表しており、それにより、変換850は必要とされない。

オーディオエンコーダ800は、たとえば、処理されたオーディオ信号表現820を符号化する(860₁)ように構成される。上で説明されたように、オーディオエンコーダは、符号化されたオーディオ表現810を取得するために、スペクトル領域表現を符号化するように構成され得る。

時間領域符号化872において、オーディオエンコーダ800は、たとえば、符号化されたオーディオ表現810を取得するために、時間領域符号化を使用して、処理されたオーディオ信号表現820を符号化するように構成される。ある実施形態によれば、LPCベースの符号化を使用することができ、これは、線形予測係数を決定して符号化し、励振を決定して符号化する。

図5aは、本明細書において説明されるような装置の入力オーディオ信号と見なされ得る、入力オーディオ信号表現y_[n]に基づいて、処理されたオーディオ信号表現を提供するための方法500のフローチャートを示す。方法は、入力オーディオ信号表現に基づいて、処理されたオーディオ信号表現、たとえばy_r[n]を提供するために、窓掛け解除、たとえば適応的な窓掛け解除を適用する(510)ステップを備える。窓掛け解除は、たとえば、入力オーディオ信号表現の提供のために使用される分析窓掛けを少なくとも部分的に戻し、たとえばf(y[n],w_a[n])によって定義される。方法500は、1つまたは複数の信号特性に応じて、および/または、入力オーディオ信号表現の提供のために使用される1つまたは複数の処理パラメータに応じて、窓掛け解除を適応させる(520)ステップを備える。1つまたは複数の信号特性は、たとえば、入力オーディオ信号表現の、または入力オーディオ信号表現の導出元の中間表現の信号特性であり、たとえばDC成分dを備え得る。

図5bは、処理されるべきオーディオ信号に基づいて、処理されたオーディオ信号表現を提供するための方法600のフローチャートを示し、この方法は、処理されるべきオーディオ信号の処理単位の時間領域表現の窓が掛けられたバージョンを取得するために、処理されるべきオーディオ信号の処理単位、たとえばフレームの時間領域表現に分析窓掛けを適用する(610)ステップを備える。さらに、方法600は、たとえばDFTのような順方向周波数変換を、たとえば使用して、窓が掛けられたバージョンに基づいて処理されるべきオーディオ信号のスペクトル領域表現、たとえば周波数領域表現を取得する(620)ステップを備える。方法は、処理されたスペクトル領域表現を取得するために、スペクトル領域の処理、たとえば、周波数領域における処理を、取得されたスペクトル領域表現に適用する(630)ステップを備える。加えて、方法は、たとえば逆方向の時間周波数変換を使用して、処理されたスペクトル領域表現に基づいて、処理された時間領域表現を取得する(640)ステップと、方法500を使用して、処理されたオーディオ信号表現を提供する(650)ステップとを備え、処理された時間領域表現は、方法500を実行するための入力オーディオ信号として使用される。

図5cは、符号化されたオーディオ表現に基づいて、符号化されたオーディオ信号のスペクトル領域表現、たとえば周波数領域表現を取得する(710)ステップを備える、符号化されたオーディオ表現に基づいて、復号されたオーディオ表現を提供するための方法700のフローチャートを示す。さらに、方法は、スペクトル領域表現に基づいて、符号化されたオーディオ信号の時間領域表現を取得する(720)ステップと、方法500を使用して、処理されたオーディオ信号表現を提供する(730)ステップとを備え、時間領域表現は、方法500を実行するための入力オーディオ信号として使用される。

図5dは、入力オーディオ信号表現に基づいて、符号化されたオーディオ表現を提供する(930)ための方法900のフローチャートを示す。方法は、方法500を使用して入力オーディオ信号表現に基づいて、処理されたオーディオ信号表現を取得する(910)ステップを備える。方法900は、処理されたオーディオ信号表現を符号化する(920)ステップを備える。

代替の実装形態
いくつかの態様が装置の文脈で説明されるが、これらの態様は、対応する方法の説明も表すことが明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明される態様は、対応する装置の対応するブロックまたはアイテムまたは特徴の説明も表す。方法ステップの一部またはすべてが、たとえばマイクロプロセッサ、プログラマブルコンピュータ、または電子回路のような、ハードウェア装置によって(またはそれを使用して)実行され得る。いくつかの実施形態では、最も重要な方法ステップのうちの1つまたは複数は、そのような装置によって実行され得る。

いくつかの実装形態の要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装され得る。実装形態は、それぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する(または協働することが可能な)、電子的に読み取り可能な制御信号が記憶されているデジタル記憶媒体、たとえば、フロッピーディスク、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM、またはフラッシュメモリを使用して実行され得る。したがって、デジタル記憶媒体はコンピュータ可読であり得る。

本発明によるいくつかの実施形態は、本明細書において説明される方法の1つが実行されるように、プログラマブルコンピュータシステムと協働することが可能な、電子的に読み取り可能な制御信号を有するデータ担体を備える。

一般に、本発明の実施形態は、プログラムコードを伴うコンピュータプログラム製品として実装されてもよく、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されると、方法のうちの1つを実行するために動作可能である。プログラムコードは、たとえば、機械可読担体に記憶され得る。

他の実施形態は、機械可読担体に記憶されている、本明細書において説明される方法のうちの1つを実行するためのコンピュータプログラムを備える。

言い換えると、本発明の方法の実施形態は、したがって、コンピュータ上で実行されると、本明細書において説明される方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。

本発明の方法のさらなる実施形態は、したがって、本明細書において説明される方法のうちの1つを実行するためのコンピュータプログラムが記録されている、データ担体(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データ担体、データ記憶媒体、または記録された媒体は通常、有形であり、かつ/または非一時的である。

本発明の方法のさらなる実施形態は、本明細書において説明される方法のうちの1つを実行するためのコンピュータプログラムを表す信号のデータストリームまたはシーケンスである。たとえば、信号のデータストリームまたはシーケンスは、たとえばインターネットを介して、データ通信接続を介して転送されるように構成され得る。

さらなる実施形態は、本明細書において説明される方法のうちの1つを実行するように構成または適応される、処理手段、たとえばコンピュータ、またはプログラマブル論理デバイスを備える。

さらなる実施形態は、本明細書において説明される方法のうちの1つを実行するためのコンピュータプログラムがインストールされているコンピュータを備える。

本発明によるさらなる実施形態は、本明細書において説明される方法のうちの1つを実行するためのコンピュータプログラムを受信機に(たとえば、電子的にまたは光学的に)転送するように構成される、装置またはシステムを備える。受信機は、たとえば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、たとえば、コンピュータプログラムを受信機に転送するためのファイルサーバを備え得る。

いくつかの実施形態では、本明細書において説明される方法の機能の一部またはすべてを実行するために、プログラマブル論理デバイス(たとえば、フィールドプログラマブルゲートアレイ)が使用され得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書において説明される方法のうちの1つを実行するために、マイクロプロセッサと協働し得る。一般に、方法は好ましくは、任意のハードウェア装置によって実行される。

本明細書において説明される装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組合せを使用して実装され得る。

本明細書において説明される装置、または本明細書において説明される装置の任意の構成要素は、ハードウェアおよび/またはソフトウェアで少なくとも部分的に実装され得る。

本明細書において説明される方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組合せを使用して実行され得る。

本明細書において説明される方法、または本明細書において説明される装置の任意の構成要素は、ハードウェアおよび/またはソフトウェアによって少なくとも部分的に実行され得る。

本明細書において説明される実施形態は、本発明の原理を例示するものにすぎない。本明細書において説明される構成および詳細の修正と変形が、当業者に明らかになるであろうことが理解される。したがって、係属中の特許請求の範囲だけによって限定され、本明細書の実施形態の記述と説明によって提示される具体的な詳細によっては限定されないことが意図される。
なお、更なる実施の態様は以下の通りである。
[実施態様１]
入力オーディオ信号表現(120)に基づいて、処理されたオーディオ信号表現(110)を提供するための装置(100)であって、
前記装置(100)が、前記入力オーディオ信号表現(120)に基づいて、前記処理されたオーディオ信号表現(110)を提供するために、窓掛け解除(130)を適用するように構成され、
前記装置(100)が、1つまたは複数の信号特性(140、140 ₁ から140 ₄ )に応じて、および/または、前記入力オーディオ信号表現(120)の提供のために使用される1つまたは複数の処理パラメータ(150、150 ₁ から150 ₄ )に応じて、前記窓掛け解除(130)を適応させるように構成される、装置(100)。
[実施態様２]
前記装置(100)が、前記入力オーディオ信号表現(120)を導出するために使用される処理を決定する処理パラメータ(150、150 ₁ から150 ₄ )に応じて前記窓掛け解除(130)を適応させるように構成される、実施態様1に記載の装置(100)。
[実施態様３]
前記装置(100)が、前記入力オーディオ信号表現(120)の、および/または、前記入力オーディオ信号表現(120)の導出元の中間信号(123 ₁ から123 ₂ )表現の信号特性(140、140 ₁ から140 ₄ )に応じて、前記窓掛け解除(130)を適応させるように構成される、実施態様1または2に記載の装置(100)。
[実施態様４]
前記装置(100)が、前記窓掛け解除(130)が適用される信号の時間領域表現の信号特性(140、140 ₁ から140 ₄ )を記述する、1つまたは複数のパラメータを取得するように構成され、および/または、
前記装置(100)が、前記窓掛け解除(130)が適用される時間領域入力オーディオ信号の導出元の中間信号(123 ₁ から123 ₂ )の周波数領域表現の信号特性(140、140 ₁ から140 ₄ )を記述する、1つまたは複数のパラメータを取得するように構成され、
前記装置(100)が、前記1つまたは複数のパラメータに応じて前記窓掛け解除(130)を適応させるように構成される、実施態様3に記載の装置(100)。
[実施態様５]
前記装置(100)が、前記入力オーディオ信号表現(120)の提供のために使用される分析窓掛け(210)を少なくとも部分的に戻すために前記窓掛け解除(130)を適応させるように構成される、実施態様1から4のいずれか一つに記載の装置(100)。
[実施態様６]
前記装置(100)が、後続の処理単位(124 _i+1 )の信号値の欠如を少なくとも部分的に補償するために前記窓掛け解除(130)を適応させるように構成される、実施態様1から5のいずれか一つに記載の装置(100)。
[実施態様７]
前記窓掛け解除(130)が、前記処理されたオーディオ信号表現(110)の所与の処理単位(124 _i )と少なくとも部分的に時間的に重複する(126)後続の処理単位(124 _i+1 )が利用可能になる前に、前記所与の処理単位(124 _i )を提供するように構成される、実施態様1から6のいずれか一つに記載の装置(100)。
[実施態様８]
前記装置(100)が、前記所与の処理されたオーディオ信号表現(110)と、前記入力オーディオ信号表現(120)の後続の処理単位(124 _i+1 )間の重複加算の結果との偏差を制限するために、前記窓掛け解除(130)を適応させるように構成される、実施態様1から7のいずれか一つに記載の装置(100)。
[実施態様９]
前記装置(100)が、前記処理されたオーディオ信号表現(110)の値を制限するために前記窓掛け解除(130)を適応させるように構成される、実施態様1から8のいずれか一つに記載の装置(100)。
[実施態様１０]
前記装置(100)が、入力オーディオ信号表現(120)の処理単位(124 _i )の最後の部分(126)において0に収束しない前記入力オーディオ信号表現(120)に対して、前記処理単位(124 _i )の前記最後の部分(126)における前記窓掛け解除(130)によって適用されるスケーリングが、前記入力オーディオ信号表現(120)が前記処理単位(124 _i )の前記最後の部分(126)において0に収束する場合と比較して低減されるように、前記窓掛け解除(130)を適応させるように構成される、実施態様1から9のいずれか一つに記載の装置(100)。
[実施態様１１]
前記装置(100)が、前記窓掛け解除(130)を適応させて、それにより前記処理されたオーディオ信号表現(110)のダイナミックレンジを制限するように構成される、実施態様1から10のいずれか一つに記載の装置(100)。
[実施態様１２]
前記装置(100)が、前記入力オーディオ信号表現(120)のDC成分に応じて前記窓掛け解除(130)を適応させるように構成される、実施態様1から11のいずれか一つに記載の装置(100)。
[実施態様１３]
前記装置(100)が、前記入力オーディオ信号表現(120)のDC成分を少なくとも部分的に除去するように構成される、実施態様1から12のいずれか一つに記載の装置(100)。
[実施態様１４]
前記窓掛け解除(130)が、前記処理されたオーディオ信号表現(110)を取得するために、窓値(132)に応じて、前記入力オーディオ信号表現(120)のDCが除去されたまたはDCが低減されたバージョンをスケーリングするように構成される、実施態様1から13のいずれか一つに記載の装置(100)。
[実施態様１５]
前記窓掛け解除(130)が、前記入力オーディオ信号表現(120)のDCが除去されたまたはDCが低減されたバージョンのスケーリングの後で、DC成分を少なくとも部分的に再導入するように構成される、実施態様1から14のいずれか一つに記載の装置(100)。
[実施態様１６]
前記窓掛け解除(130)が、

に従って、前記入力オーディオ信号表現(120)y[n]に基づいて、前記処理されたオーディオ信号表現(110)y _r [n]を決定するように構成され、
dがDC成分であり、
nが時間インデックスであり、
n _s が重複領域の最初のサンプルの時間インデックスであり、
n _e が前記重複領域(126)の最後のサンプルの時間インデックスであり、
w _a [n]が、前記入力オーディオ信号表現(120)の提供のために使用される分析窓(132)である、実施態様1から15のいずれか一つに記載の装置(100)。
[実施態様１７]
前記装置(100)が、前記入力オーディオ信号表現(120)の提供において使用される分析窓(132)が1つまたは複数の0の値を備える時間部分(134)にある、前記入力オーディオ信号表現(120)の1つまたは複数の値を使用して前記DC成分を決定するように構成される、実施態様1から16のいずれか一つに記載の装置(100)。
[実施態様１８]
前記装置(100)が、スペクトル領域から時間領域への変換(240)を使用して前記入力オーディオ信号表現(120)を取得するように構成される、実施態様1から17のいずれか一つに記載の装置(100)。
[実施態様１９]
処理されるべきオーディオ信号(122)に基づいて、処理されたオーディオ信号表現(110)を提供するためのオーディオ信号プロセッサ(300)であって、
前記オーディオ信号プロセッサ(300)が、処理されるべきオーディオ信号(122)の処理単位の時間領域表現の窓が掛けられたバージョン(123 ₁ )を取得するために、処理されるべき前記オーディオ信号(122)の前記処理単位の前記時間領域表現に分析窓掛け(210)を適用するように構成され、
前記オーディオ信号プロセッサ(300)が、前記窓が掛けられたバージョン(123 ₁ )に基づいて、処理されるべき前記オーディオ信号(122)のスペクトル領域表現(123 ₂ )を取得するように構成され、
前記オーディオ信号プロセッサ(300)が、処理されたスペクトル領域表現(123 ₃ )を取得するために、前記取得されたスペクトル領域表現(123 ₂ )にスペクトル領域処理(230)を適用するように構成され、
前記オーディオ信号プロセッサ(300)が、前記処理されたスペクトル領域表現(123 ₃ )に基づいて、処理された時間領域表現(123 ₄ )を取得するように構成され、
前記オーディオ信号プロセッサ(300)が、実施態様1から18のいずれか一つに記載の装置(100)を備え、前記装置(100)が、前記処理された時間領域表現(123 ₃ )を、その入力オーディオ信号表現(120)として取得し、それに基づいて、前記処理されたオーディオ信号表現(110)を提供するように構成される、オーディオ信号プロセッサ。
[実施態様２０]
前記装置(100)が、前記分析窓掛け(210)の窓値を使用して前記窓掛け解除(130)を適応させるように構成される、実施態様19に記載のオーディオ信号プロセッサ。
[実施態様２１]
符号化されたオーディオ表現(420)に基づいて、復号されたオーディオ表現(410)を提供するためのオーディオデコーダ(400)であって、
前記オーディオデコーダ(400)が、前記符号化されたオーディオ表現(420)に基づいて、符号化されたオーディオ信号(420)のスペクトル領域表現(430)を取得するように構成され、
前記オーディオデコーダ(400)が、前記スペクトル領域表現(430)に基づいて、前記符号化されたオーディオ信号(420)の時間領域表現(440)を取得するように構成され、
前記オーディオデコーダが、実施態様1から18のいずれか一つに記載の装置(100)を備え、
前記装置(100)が、前記時間領域表現(440)を、その入力オーディオ信号表現(120)として取得し、それに基づいて、前記処理されたオーディオ信号表現(110)を提供するように構成される、オーディオデコーダ。
[実施態様２２]
前記オーディオデコーダ(400)が、所与の処理単位(124 _i )と時間的に重複する後続の処理単位(124 _i+1 )が復号される前に、前記所与の処理単位(124 _i )の前記オーディオ信号表現(122)を提供するように構成される、実施態様21に記載のオーディオデコーダ。
[実施態様２３]
入力オーディオ信号表現に基づいて、符号化されたオーディオ表現を提供するためのオーディオエンコーダであって、
前記オーディオエンコーダが、実施態様1から18のいずれか一つに記載の装置を備え、前記装置が、前記入力オーディオ信号表現に基づいて、処理されたオーディオ信号表現を取得するように構成され、
前記オーディオエンコーダが、前記処理されたオーディオ信号表現を符号化するように構成される、オーディオエンコーダ。
[実施態様２４]
前記オーディオエンコーダが、前記処理されたオーディオ信号表現に基づいてスペクトル領域表現を取得するように構成され、前記処理されたオーディオ信号表現が時間領域表現であり、
前記オーディオエンコーダが、前記符号化されたオーディオ表現を取得するために、スペクトル領域符号化を使用して前記スペクトル領域表現を符号化するように構成される、実施態様23に記載のオーディオエンコーダ。
[実施態様２５]
前記オーディオエンコーダが、前記符号化されたオーディオ表現を取得するために、時間領域符号化を使用して前記処理されたオーディオ信号表現を符号化するように構成される、実施態様23または24に記載のオーディオエンコーダ。
[実施態様２６]
前記オーディオエンコーダが、スペクトル領域符号化と時間領域符号化を切り替える切り替え符号化を使用して、前記処理されたオーディオ信号表現を符号化するように構成される、実施態様23から25のいずれか一つに記載のオーディオエンコーダ。
[実施態様２７]
前記装置が、スペクトル領域において、前記入力オーディオ信号表現を形成する複数の入力オーディオ信号のダウンミックスを実行し、ダウンミックスされた信号を前記処理されたオーディオ信号表現として提供するように構成される、実施態様23から26のいずれか一つに記載のオーディオエンコーダ。
[実施態様２８]
入力オーディオ信号表現(120)に基づいて、処理されたオーディオ信号表現(110)を提供するための装置(100)であって、
前記装置(100)が、前記入力オーディオ信号表現(120)に基づいて、前記処理されたオーディオ信号表現(110)を提供するために、窓掛け解除(130)を適用するように構成され、
前記装置(100)が、前記入力オーディオ信号表現(120)の提供のために使用される、1つまたは複数の信号特性(140、140 ₁ から140 ₄ )に応じて、および/または、1つまたは複数の処理パラメータ(150、150 ₁ から150 ₄ )に応じて、前記窓掛け解除(130)を適応させるように構成され、
前記窓掛け解除(130)が、前記入力オーディオ信号表現の提供のために使用される分析窓掛けを少なくとも部分的に戻し、
前記窓掛け(130)が、前記処理されたオーディオ信号表現(110)の所与の処理単位(124 _i )と少なくとも部分的に時間的に重複する(126)後続の処理単位(124 _i+1 )が利用可能になる前に、前記所与の処理単位(124 _i )を提供するように構成される、装置。
[実施態様２９]
入力オーディオ信号表現(120)に基づいて、処理されたオーディオ信号表現(110)を提供するための装置(100)であって、
前記装置(100)が、前記入力オーディオ信号表現(120)に基づいて、前記処理されたオーディオ信号表現(110)を提供するために、窓掛け解除(130)を適用するように構成され、
前記装置(100)が、1つまたは複数の信号特性(140、140 ₁ から140 ₄ )に応じて、および/または、前記入力オーディオ信号表現(120)の提供のために使用される1つまたは複数の処理パラメータ(150、150 ₁ から150 ₄ )に応じて、前記窓掛け解除(130)を適応させるように構成され、
前記窓掛け解除(130)が、前記入力オーディオ信号表現の提供のために使用される分析窓掛けを少なくとも部分的に戻し、
前記装置(100)が、前記窓掛け解除(130)を適応させて、それにより前記処理されたオーディオ信号表現(110)のダイナミックレンジを制限するように構成される、装置。
[実施態様３０]
入力オーディオ信号表現に基づいて、処理されたオーディオ信号表現を提供するための方法(500)であって、
前記方法が、前記入力オーディオ信号表現に基づいて、前記処理されたオーディオ信号表現を提供するために、窓掛け解除を適用する(510)ステップを備え、
前記方法が、1つまたは複数の信号特性(140、140 ₁ から140 ₄ )に応じて、および/または、前記入力オーディオ信号表現の提供のために使用される1つまたは複数の処理パラメータ(150、150 ₁ から150 ₄ )に応じて、前記窓掛け解除を適応させる(520)ステップを備える、方法。
[実施態様３１]
処理されるべきオーディオ信号に基づいて、処理されたオーディオ信号表現を提供するための方法(600)であって、
前記方法が、処理されるべきオーディオ信号の処理単位の時間領域表現の窓が掛けられたバージョンを取得するために、処理されるべき前記オーディオ信号の前記処理単位の前記時間領域表現に分析窓掛けを適用する(610)ステップを備え、
前記方法が、前記窓が掛けられたバージョンに基づいて、処理されるべき前記オーディオ信号のスペクトル領域表現を取得する(620)ステップを備え、
前記方法が、処理されたスペクトル領域表現を取得するために、スペクトル領域処理を前記取得されたスペクトル領域表現に適用する(630)ステップを備え、
前記方法が、前記処理されたスペクトル領域表現に基づいて、処理された時間領域表現を取得する(640)ステップを備え、
前記方法が、実施態様30に記載の方法を使用して、前記処理されたオーディオ信号表現を提供する(650)ステップを備え、前記処理された時間領域表現が、実施態様30に記載の方法を実行するための前記入力オーディオ信号として使用される、方法。
[実施態様３２]
符号化されたオーディオ表現に基づいて、復号されたオーディオ表現を提供するための方法(700)であって、
前記方法が、前記符号化されたオーディオ表現に基づいて、符号化されたオーディオ信号のスペクトル領域表現を取得する(710)ステップを備え、
前記方法が、前記スペクトル領域表現に基づいて、前記符号化されたオーディオ信号の時間領域表現を取得する(720)ステップを備え、
前記方法が、実施態様30に記載の方法を使用して、前記処理されたオーディオ信号表現を提供する(730)ステップを備え、前記時間領域表現が、実施態様30に記載の方法を実行するための前記入力オーディオ信号として使用される、方法。
[実施態様３３]
入力オーディオ信号表現に基づいて、符号化されたオーディオ表現を提供する(930)ための方法(900)であって、
前記方法が、実施態様30に記載の方法を使用して前記入力オーディオ信号表現に基づいて、処理されたオーディオ信号表現を取得する(910)ステップを備え、
前記方法が、前記処理されたオーディオ信号表現を符号化する(920)ステップを備える、方法。
[実施態様３４]
コンピュータ上で実行されると、実施態様30、実施態様31、実施態様32、または実施態様33に記載の方法を実行するためのプログラムコードを有する、コンピュータプログラム。

100 装置
110 処理されたオーディオ信号表現
120 入力オーディオ信号表現
122 信号
123 中間信号
124 処理単位
126 最後の部分
130 窓掛け解除
132 分析窓掛け
140 信号特性
150 処理パラメータ
200 外部デバイス
410 処理されたオーディオ信号表現
420 符号化されたオーディオ表現
430 スペクトル領域表現
440 時間領域表現
800 オーディオエンコーダ
810 符号化されたオーディオ表現
820 処理されたオーディオ信号表現
870 スペクトル領域符号化
872 時間領域符号化

Claims

入力オーディオ信号表現(120)に基づいて、処理されたオーディオ信号表現(110)を提供するための装置(100)であって、
前記装置(100)が、前記入力オーディオ信号表現(120)に基づいて、前記処理されたオーディオ信号表現(110)を提供するために、窓掛け解除(130)を適用するように構成され、
前記装置(100)が、1つまたは複数の信号特性(140、140₁から140₄)に応じて、および/または、前記入力オーディオ信号表現(120)の提供のために使用される1つまたは複数の処理パラメータ(150、150₁から150₄)に応じて、前記窓掛け解除(130)を適応させるように構成され、
前記窓掛け解除(130)が、前記入力オーディオ信号表現の提供のために使用される分析窓掛けを少なくとも部分的に戻し、
前記窓掛け解除(130)が、前記処理されたオーディオ信号表現(110)の所与の処理単位(124_i)と少なくとも部分的に時間的に重複する(126)後続の処理単位(124_i+1)が利用可能になる前に、前記所与の処理単位(124_i)を提供するように構成される、装置(100)。
前記装置(100)が、前記入力オーディオ信号表現(120)を導出するために使用される処理を決定する処理パラメータ(150、150₁から150₄)に応じて前記窓掛け解除(130)を適応させるように構成される、請求項1に記載の装置(100)。
前記装置(100)が、前記入力オーディオ信号表現(120)の、および/または、前記入力オーディオ信号表現(120)の導出元の中間信号(123₁から123₂)表現の信号特性(140、140₁から140₄)に応じて、前記窓掛け解除(130)を適応させるように構成される、請求項1または2に記載の装置(100)。
前記装置(100)が、前記窓掛け解除(130)が適用される信号の時間領域表現の信号特性(140、140₁から140₄)を記述する、1つまたは複数のパラメータを取得するように構成され、および/または、
前記装置(100)が、前記窓掛け解除(130)が適用される時間領域入力オーディオ信号の導出元の中間信号(123₁から123₂)の周波数領域表現の信号特性(140、140₁から140₄)を記述する、1つまたは複数のパラメータを取得するように構成され、
前記装置(100)が、前記1つまたは複数のパラメータに応じて前記窓掛け解除(130)を適応させるように構成される、請求項3に記載の装置(100)。
前記装置(100)が、後続の処理単位(124_i+1)の信号値の欠如を少なくとも部分的に補償するために前記窓掛け解除(130)を適応させるように構成される、請求項1から4のいずれか一項に記載の装置(100)。
前記装置(100)が、前記所与の処理されたオーディオ信号表現(110)と、前記入力オーディオ信号表現(120)の後続の処理単位(124_i+1)間の重複加算の結果との偏差を制限するために、前記窓掛け解除(130)を適応させるように構成される、請求項1から5のいずれか一項に記載の装置(100)。
前記装置(100)が、前記処理されたオーディオ信号表現(110)の値を制限するために前記窓掛け解除(130)を適応させるように構成される、請求項1から6のいずれか一項に記載の装置(100)。
前記装置(100)が、入力オーディオ信号表現(120)の処理単位(124_i)の最後の部分(126)において0に収束しない前記入力オーディオ信号表現(120)に対して、前記処理単位(124_i)の前記最後の部分(126)における前記窓掛け解除(130)によって適用されるスケーリングが、前記入力オーディオ信号表現(120)が前記処理単位(124_i)の前記最後の部分(126)において0に収束する場合と比較して低減されるように、前記窓掛け解除(130)を適応させるように構成される、請求項1から7のいずれか一項に記載の装置(100)。
前記装置(100)が、前記窓掛け解除(130)を適応させて、それにより前記処理されたオーディオ信号表現(110)のダイナミックレンジを制限するように構成される、請求項1から8のいずれか一項に記載の装置(100)。
前記装置(100)が、前記入力オーディオ信号表現(120)のDC成分に応じて前記窓掛け解除(130)を適応させるように構成される、請求項1から9のいずれか一項に記載の装置(100)。
前記装置(100)が、前記入力オーディオ信号表現(120)のDC成分を少なくとも部分的に除去するように構成される、請求項1から10のいずれか一項に記載の装置(100)。
前記窓掛け解除(130)が、前記処理されたオーディオ信号表現(110)を取得するために、窓値(132)に応じて、前記入力オーディオ信号表現(120)のDCが除去されたまたはDCが低減されたバージョンをスケーリングするように構成される、請求項1から11のいずれか一項に記載の装置(100)。
前記窓掛け解除(130)が、前記入力オーディオ信号表現(120)のDCが除去されたまたはDCが低減されたバージョンのスケーリングの後で、DC成分を少なくとも部分的に再導入するように構成される、請求項1から12のいずれか一項に記載の装置(100)。
前記窓掛け解除(130)が、

に従って、前記入力オーディオ信号表現(120)y[n]に基づいて、前記処理されたオーディオ信号表現(110)y_r[n]を決定するように構成され、
dがDC成分であり、
nが時間インデックスであり、
n_sが重複領域の最初のサンプルの時間インデックスであり、
n_eが前記重複領域(126)の最後のサンプルの時間インデックスであり、
w_a[n]が、前記入力オーディオ信号表現(120)の提供のために使用される分析窓(132)である、請求項1から13のいずれか一項に記載の装置(100)。
前記装置(100)が、前記入力オーディオ信号表現(120)の提供において使用される分析窓(132)が1つまたは複数の0の値を備える時間部分(134)にある、前記入力オーディオ信号表現(120)の1つまたは複数の値を使用して前記DC成分を決定するように構成される、請求項10、11、13、および14のいずれか一項に記載の装置(100)。
前記装置(100)が、スペクトル領域から時間領域への変換(240)を使用して前記入力オーディオ信号表現(120)を取得するように構成される、請求項1から15のいずれか一項に記載の装置(100)。
処理されるべきオーディオ信号(122)に基づいて、処理されたオーディオ信号表現(110)を提供するためのオーディオ信号プロセッサ(300)であって、
前記オーディオ信号プロセッサ(300)が、処理されるべきオーディオ信号(122)の処理単位の時間領域表現の窓が掛けられたバージョン(123₁)を取得するために、処理されるべき前記オーディオ信号(122)の前記処理単位の前記時間領域表現に分析窓掛け(210)を適用するように構成され、
前記オーディオ信号プロセッサ(300)が、前記窓が掛けられたバージョン(123₁)に基づいて、処理されるべき前記オーディオ信号(122)のスペクトル領域表現(123₂)を取得するように構成され、
前記オーディオ信号プロセッサ(300)が、処理されたスペクトル領域表現(123₃)を取得するために、前記取得されたスペクトル領域表現(123₂)にスペクトル領域処理(230)を適用するように構成され、
前記オーディオ信号プロセッサ(300)が、前記処理されたスペクトル領域表現(123₃)に基づいて、処理された時間領域表現(123₄)を取得するように構成され、
前記オーディオ信号プロセッサ(300)が、請求項1から16のいずれか一項に記載の装置(100)を備え、前記装置(100)が、前記処理された時間領域表現(123₃)を、その入力オーディオ信号表現(120)として取得し、それに基づいて、前記処理されたオーディオ信号表現(110)を提供するように構成される、オーディオ信号プロセッサ(300)。
前記装置(100)が、前記分析窓掛け(210)の窓値を使用して前記窓掛け解除(130)を適応させるように構成される、請求項17に記載のオーディオ信号プロセッサ(300)。
符号化されたオーディオ表現(420)に基づいて、復号されたオーディオ表現(410)を提供するためのオーディオデコーダ(400)であって、
前記オーディオデコーダ(400)が、前記符号化されたオーディオ表現(420)に基づいて、符号化されたオーディオ信号(420)のスペクトル領域表現(430)を取得するように構成され、
前記オーディオデコーダ(400)が、前記スペクトル領域表現(430)に基づいて、前記符号化されたオーディオ信号(420)の時間領域表現(440)を取得するように構成され、
前記オーディオデコーダが、請求項1から16のいずれか一項に記載の装置(100)を備え、
前記装置(100)が、前記時間領域表現(440)を、その入力オーディオ信号表現(120)として取得し、それに基づいて、前記処理されたオーディオ信号表現(110)を提供するように構成される、オーディオデコーダ(400)。
前記オーディオデコーダ(400)が、所与の処理単位(124_i)と時間的に重複する後続の処理単位(124_i+1)が復号される前に、前記所与の処理単位(124_i)の前記復号されたオーディオ表現(410)を提供するように構成される、請求項19に記載のオーディオデコーダ(400)。
入力オーディオ信号表現に基づいて、符号化されたオーディオ表現を提供するためのオーディオエンコーダであって、
前記オーディオエンコーダが、請求項1から16のいずれか一項に記載の装置を備え、前記装置が、前記入力オーディオ信号表現に基づいて、処理されたオーディオ信号表現を取得するように構成され、
前記オーディオエンコーダが、前記処理されたオーディオ信号表現を符号化するように構成される、オーディオエンコーダ。
前記オーディオエンコーダが、前記処理されたオーディオ信号表現に基づいてスペクトル領域表現を取得するように構成され、前記処理されたオーディオ信号表現が時間領域表現であり、
前記オーディオエンコーダが、前記符号化されたオーディオ表現を取得するために、スペクトル領域符号化を使用して前記スペクトル領域表現を符号化するように構成される、請求項21に記載のオーディオエンコーダ。
前記オーディオエンコーダが、前記符号化されたオーディオ表現を取得するために、時間領域符号化を使用して前記処理されたオーディオ信号表現を符号化するように構成される、請求項21または22に記載のオーディオエンコーダ。
前記オーディオエンコーダが、スペクトル領域符号化と時間領域符号化を切り替える切り替え符号化を使用して、前記処理されたオーディオ信号表現を符号化するように構成される、請求項21から23のいずれか一項に記載のオーディオエンコーダ。
前記装置が、スペクトル領域において、前記入力オーディオ信号表現を形成する複数の入力オーディオ信号のダウンミックスを実行し、ダウンミックスされた信号を前記処理されたオーディオ信号表現として提供するように構成される、請求項21から24のいずれか一項に記載のオーディオエンコーダ。
入力オーディオ信号表現(120)に基づいて、処理されたオーディオ信号表現(110)を提供するための装置(100)であって、
前記装置(100)が、前記入力オーディオ信号表現(120)に基づいて、前記処理されたオーディオ信号表現(110)を提供するために、窓掛け解除(130)を適用するように構成され、
前記装置(100)が、1つまたは複数の信号特性(140、140₁から140₄)に応じて、および/または、前記入力オーディオ信号表現(120)の提供のために使用される1つまたは複数の処理パラメータ(150、150₁から150₄)に応じて、前記窓掛け解除(130)を適応させるように構成され、
前記窓掛け解除(130)が、前記入力オーディオ信号表現の提供のために使用される分析窓掛けを少なくとも部分的に戻し、
前記装置(100)が、前記窓掛け解除(130)を適応させて、それにより前記処理されたオーディオ信号表現(110)のダイナミックレンジを制限するように構成される、装置(100)。
入力オーディオ信号表現に基づいて、処理されたオーディオ信号表現を提供するための方法(500)であって、
前記方法が、前記入力オーディオ信号表現に基づいて、前記処理されたオーディオ信号表現を提供するために、窓掛け解除を適用する(510)ステップを備え、
前記方法が、1つまたは複数の信号特性(140、140₁から140₄)に応じて、および/または、前記入力オーディオ信号表現の提供のために使用される1つまたは複数の処理パラメータ(150、150₁から150₄)に応じて、前記窓掛け解除を適応させる(520)ステップを備え、
前記窓掛け解除が、前記入力オーディオ信号表現の提供のために使用される分析窓掛けを少なくとも部分的に戻し、
前記窓掛け解除(130)が、前記処理されたオーディオ信号表現(110)の所与の処理単位(124_i)と少なくとも部分的に時間的に重複する(126)後続の処理単位(124_i+1)が利用可能になる前に、前記所与の処理単位(124_i)を提供する、方法。
処理されるべきオーディオ信号に基づいて、処理されたオーディオ信号表現を提供するための方法(600)であって、
前記方法が、処理されるべきオーディオ信号の処理単位の時間領域表現の窓が掛けられたバージョンを取得するために、処理されるべき前記オーディオ信号の前記処理単位の前記時間領域表現に分析窓掛けを適用する(610)ステップを備え、
前記方法が、前記窓が掛けられたバージョンに基づいて、処理されるべき前記オーディオ信号のスペクトル領域表現を取得する(620)ステップを備え、
前記方法が、処理されたスペクトル領域表現を取得するために、スペクトル領域処理を前記取得されたスペクトル領域表現に適用する(630)ステップを備え、
前記方法が、前記処理されたスペクトル領域表現に基づいて、処理された時間領域表現を取得する(640)ステップを備え、
前記方法が、請求項27に記載の方法を使用して、前記処理されたオーディオ信号表現を提供する(650)ステップを備え、前記処理された時間領域表現が、請求項27に記載の方法を実行するための前記入力オーディオ信号表現として使用される、方法。
符号化されたオーディオ表現に基づいて、復号されたオーディオ表現を提供するための方法(700)であって、
前記方法が、前記符号化されたオーディオ表現に基づいて、符号化されたオーディオ信号のスペクトル領域表現を取得する(710)ステップを備え、
前記方法が、前記スペクトル領域表現に基づいて、前記符号化されたオーディオ信号の時間領域表現を取得する(720)ステップを備え、
前記方法が、請求項27に記載の方法を使用して、前記処理されたオーディオ信号表現を提供する(730)ステップを備え、前記時間領域表現が、請求項27に記載の方法を実行するための前記入力オーディオ信号表現として使用される、方法。
入力オーディオ信号表現に基づいて、符号化されたオーディオ表現を提供する(930)ための方法(900)であって、
前記方法が、請求項27に記載の方法を使用して前記入力オーディオ信号表現に基づいて、処理されたオーディオ信号表現を取得する(910)ステップを備え、
前記方法が、前記処理されたオーディオ信号表現を符号化する(920)ステップを備える、方法。
入力オーディオ信号表現に基づいて、処理されたオーディオ信号表現を提供するための方法(500)であって、
前記方法が、前記入力オーディオ信号表現に基づいて、前記処理されたオーディオ信号表現を提供するために、窓掛け解除を適用する(510)ステップを備え、
前記方法が、1つまたは複数の信号特性(140、140₁から140₄)に応じて、および/または、前記入力オーディオ信号表現の提供のために使用される1つまたは複数の処理パラメータ(150、150₁から150₄)に応じて、前記窓掛け解除を適応させる(520)ステップを備え、
前記窓掛け解除(130)を適応させるステップが、適応なしの前記窓掛け解除により引き起こされる大きな増幅が低減されて前記処理されたオーディオ信号表現(110)のダイナミックレンジを制限するように、実行され、
前記窓掛け解除が、前記入力オーディオ信号表現の提供のために使用される分析窓掛けを少なくとも部分的に戻す、方法。
入力オーディオ信号表現(120)に基づいて、処理されたオーディオ信号表現(110)を提供するための装置(100)であって、
前記装置(100)が、前記入力オーディオ信号表現(120)に基づいて、前記処理されたオーディオ信号表現(110)を提供するために、窓掛け解除(130)を適用するように構成され、
前記装置(100)が、1つまたは複数の信号特性(140、140₁から140₄)に応じて、および/または、前記入力オーディオ信号表現(120)の提供のために使用される1つまたは複数の処理パラメータ(150、150₁から150₄)に応じて、前記窓掛け解除(130)を適応させるように構成され、
前記装置(100)が、入力オーディオ信号表現(120)の処理単位(124_i)の最後の部分(126)において0に収束しない前記入力オーディオ信号表現(120)に対して、前記処理単位(124_i)の前記最後の部分(126)における前記窓掛け解除(130)によって適用されるスケーリングが、前記入力オーディオ信号表現(120)が前記処理単位(124_i)の前記最後の部分(126)において0に収束する場合と比較して低減されるように、前記窓掛け解除(130)を適応させるように構成され、
前記窓掛け解除(130)が、前記入力オーディオ信号表現の提供のために使用される分析窓掛けを少なくとも部分的に戻す、装置。
入力オーディオ信号表現(120)に基づいて、符号化されたオーディオ表現を提供するためのオーディオエンコーダであって、
前記オーディオエンコーダが、前記入力オーディオ信号表現(120)に基づいて、処理されたオーディオ信号表現(110)を提供するための装置(100)を備え、
前記オーディオエンコーダが前記処理されたオーディオ信号表現を符号化するように構成され、
前記装置(100)が、前記入力オーディオ信号表現(120)に基づいて、前記処理されたオーディオ信号表現(110)を提供するために、窓掛け解除(130)を適用するように構成され、
前記装置(100)が、1つまたは複数の信号特性(140、140₁から140₄)に応じて、および/または、前記入力オーディオ信号表現(120)の提供のために使用される1つまたは複数の処理パラメータ(150、150₁から150₄)に応じて、前記窓掛け解除(130)を適応させるように構成され、
前記窓掛け解除(130)が、前記入力オーディオ信号表現(120)の提供のために使用される分析窓掛けを少なくとも部分的に戻す、オーディオエンコーダ。
符号化されたオーディオ表現(420)に基づいて、復号されたオーディオ表現(410)を提供するためのオーディオデコーダ(400)であって、
前記オーディオデコーダ(400)が、前記符号化されたオーディオ表現(420)に基づいて、符号化されたオーディオ信号(420)のスペクトル領域表現(430)を取得するように構成され、
前記オーディオデコーダ(400)が、前記スペクトル領域表現(430)に基づいて、前記符号化されたオーディオ信号(420)の時間領域表現(440)を取得するように構成され、
前記オーディオデコーダが、装置(100)を備え、
前記装置(100)が、前記時間領域表現(440)を、入力オーディオ信号表現(120)として取得し、それに基づいて、処理されたオーディオ信号表現(110)を提供するように構成され、
前記装置(100)が、前記入力オーディオ信号表現(120)に基づいて、前記処理されたオーディオ信号表現(110)を提供するために、窓掛け解除(130)を適用するように構成され、
前記装置(100)が、1つまたは複数の信号特性(140、140₁から140₄)に応じて、および/または、前記入力オーディオ信号表現(120)の提供のために使用される1つまたは複数の処理パラメータ(150、150₁から150₄)に応じて、前記窓掛け解除(130)を適応させるように構成され、
前記窓掛け解除(130)が、前記入力オーディオ信号表現(120)の提供のために使用される分析窓掛けを少なくとも部分的に戻し、
前記オーディオデコーダ(400)が、所与の処理単位(124_i)と時間的に重複する後続の処理単位(124_i+1)が復号される前に、前記所与の処理単位(124_i)の前記復号されたオーディオ表現(410)を提供するように構成される、オーディオデコーダ。
入力オーディオ信号表現に基づいて、処理されたオーディオ信号表現を提供するための方法(500)であって、
前記方法が、前記入力オーディオ信号表現に基づいて、前記処理されたオーディオ信号表現を提供するために、窓掛け解除を適用する(510)ステップを備え、
前記方法が、1つまたは複数の信号特性(140、140₁から140₄)に応じて、および/または、前記入力オーディオ信号表現の提供のために使用される1つまたは複数の処理パラメータ(150、150₁から150₄)に応じて、前記窓掛け解除を適応させる(520)ステップを備え、
入力オーディオ信号表現(120)の処理単位(124_i)の最後の部分(126)において0に収束しない前記入力オーディオ信号表現(120)に対して、前記処理単位(124_i)の前記最後の部分(126)における前記窓掛け解除(130)によって適用されるスケーリングが、前記入力オーディオ信号表現(120)が前記処理単位(124_i)の前記最後の部分(126)において0に収束する場合と比較して低減されるように、前記窓掛け解除(130)の適応が実行され、
前記窓掛け解除が、前記入力オーディオ信号表現の提供のために使用される分析窓掛けを少なくとも部分的に戻す、方法。
入力オーディオ信号表現に基づいて、符号化されたオーディオ表現を提供する(930)ための方法(900)であって、
前記方法が、入力オーディオ信号表現に基づいて、処理されたオーディオ信号表現を提供するための方法を使用して前記入力オーディオ信号表現に基づいて、処理されたオーディオ信号表現を取得する(910)ステップを備え、前記処理されたオーディオ信号表現を提供するための方法が、
前記入力オーディオ信号表現に基づいて、前記処理されたオーディオ信号表現を提供するために、窓掛け解除を適用する(510)ステップと、
1つまたは複数の信号特性(140、140₁から140₄)に応じて、および/または、前記入力オーディオ信号表現の提供のために使用される1つまたは複数の処理パラメータ(150、150₁から150₄)に応じて、前記窓掛け解除を適応させる(520)ステップと
を備え、
前記窓掛け解除が、前記入力オーディオ信号表現の提供のために使用される分析窓掛けを少なくとも部分的に戻し、
前記符号化されたオーディオ表現を提供する(930)ための方法(900)が、前記処理されたオーディオ信号表現を符号化する(920)ステップを備える、方法。
符号化されたオーディオ表現に基づいて、復号されたオーディオ表現を提供するための方法(700)であって、
前記方法が、前記符号化されたオーディオ表現に基づいて、符号化されたオーディオ信号のスペクトル領域表現を取得する(710)ステップを備え、
前記方法が、前記スペクトル領域表現に基づいて、前記符号化されたオーディオ信号の時間領域表現を取得する(720)ステップを備え、
前記方法が、入力オーディオ信号表現に基づいて、処理されたオーディオ信号表現を提供するための方法(500)を使用して、前記処理されたオーディオ信号表現を提供するステップを備え、前記時間領域表現が、前記入力オーディオ信号表現として使用され、前記処理されたオーディオ信号表現を提供するための方法(500)が、
前記入力オーディオ信号表現に基づいて、前記処理されたオーディオ信号表現を提供するために、窓掛け解除を適用する(510)ステップと、
1つまたは複数の信号特性(140、140₁から140₄)に応じて、および/または、前記入力オーディオ信号表現の提供のために使用される1つまたは複数の処理パラメータ(150、150₁から150₄)に応じて、前記窓掛け解除を適応させる(520)ステップと
を備え、
前記窓掛け解除が、前記入力オーディオ信号表現の提供のために使用される分析窓掛けを少なくとも部分的に戻し、
前記復号されたオーディオ表現を提供するための方法(700)が、所与の処理単位(124_i)と時間的に重複する後続の処理単位(124_i+1)が復号される前に、前記所与の処理単位(124_i)の前記復号されたオーディオ表現を提供するステップを備える、方法。
コンピュータ上で実行されると、請求項27から31および35から37のうちのいずれか一項に記載の方法を実行するためのプログラムコードを有する、コンピュータプログラム。