JP2018510374A

JP2018510374A - 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法

Info

Publication number: JP2018510374A
Application number: JP2017545563A
Authority: JP
Inventors: クリスティアンディットマー; メイナードミュラー; サッシャディスヒ
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2015-02-26
Filing date: 2016-02-23
Publication date: 2018-04-12
Anticipated expiration: 2036-02-23
Also published as: CN107517593A; ES2837107T3; US10373623B2; KR102125410B1; KR20170125058A; US20170345433A1; EP3262639A1; EP3262639B1; BR112017018145B1; CA2976864A1; WO2016135132A1; BR112017018145A2; MX2017010593A; CN107517593B; JP6668372B2; RU2679254C1; CA2976864C

Abstract

発明の手段は、処理されたオーディオ信号６を得るために、オーディオ信号４を処理するための概略ブロック図に記載された装置２である。装置２は、オーディオ信号４のオーバーラップしているフレームを表現している一連の周波数領域フレーム１２のスペクトル値のための位相値１０を計算するための位相計算機８を含む。さらに、位相計算機８は、処理されたオーディオ信号６に関連した目標時間領域エンベロープ１４についての情報に基づいて、位相値１０を計算するように構成され、その結果、処理されたオーディオ信号が、少なくとも近似に、目標時間領域エンベロープ１４および一連の周波数領域フレーム１２によって決定されたスペクトル・エンベロープを持つ。【選択図】図１

Description

本発明は、処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法に関する。さらなる実施例は、装置を含むオーディオデコーダおよび対応するオーディオエンコーダ、オーディオソース分離プロセッサおよび帯域幅エンハンスメントプロセッサ、両方を含む装置を示す。さらなる実施例によれば、信号再構成における過渡部の修復（ｔｒａｎｓｉｅｎｔｒｅｓｔｏｒａｔｉｏｎ）およびスコア情報に基づいたオーディオ分解が示される。

重畳されたサウンドソースのミクスチャーをその要素の構成要素に分離する作業は、デジタルオーディオ信号処理において重要性を有する。話し言葉の処理において、これらの構成要素は、通常、ノイズによって干渉される目標と話し手の発言、あるいは同時に話す人である。音楽において、これらの構成要素は、個々の楽器であるか、ボーカルのメロディ、打楽器、あるいは個々のノートイベントでありうる。関連した主題は、信号の再構成、過渡部の保護、およびスコア情報に基づくオーディオ構成（すなわち、ソース分離）である。

音楽ソース分離は、歌声、楽器のメロディ、打楽器、または混合信号（ｍｉｘｔｕｒｅｓｉｇｎａｌ）において起こる個々のノートイベントのような要素信号に、多声のマルチティンバーな音楽を分解することを意図する。多くの音楽分析および検索作業における重要なステップである傍らで、音楽ソースの分離は、音楽の復元、アップミックスおよびリミックスのようなアプリケーションの基本的な前提条件でもある。これらの目的のために、分離された構成要素の知覚的な品質に関する高い忠実性が望ましい。大多数の既存の分離技術は、混合信号の時間−周波数（ＴＦ）表現（しばしば短時間フーリエ変換（Ｓｈｏｒｔ−ＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ：ＳＴＦＴ））の開発に取り組む。目標要素信号は、通常、適切な逆変換を用いて再構成される。そして、それは、次々に、音楽的なノイズ、傷ついた過渡部（ｓｍｅａｒｅｄｔｒａｎｓｉｅｎｔｓ）あるいはエコーのような聞こえるアーティファクトを発生する。既存の方法は、音楽的なノイズ、位相干渉およびプレエコーの形で聞き取れるアーティファクトに悩まされる。これらのアーティファクトは、しばしば、人間のリスナーに対して極めて憂慮させる。

音楽ソース分離に関する多くの最新のレポートがある。大部分の方法において、分離は、マグニチュードスペクトルを修正することによって、時間−周波数（ＴＦ）領域において行われる。分離された構成要素に対応する時間領域信号は、元の位相情報を使用し、そして、最適な逆変換を適応することによって導出される。分離された単独の信号の良好な知覚的な品質を得ようと努力する場合、多くの著者は、スコア情報に基づいて分解技術に立ち戻る。これは、分離が時間（オンセット、オフセット）および周波数（ピッチ、音質）における構成要素信号の近似の位置に関する情報によって導かれうる効果を有する。少数の刊行物は、ドラムのような過渡信号のソース分離を取扱う。他は、ハーモニック対打楽器の構成要素の分離にフォーカスされる［５］。

さらに、プリエコーの問題は、知覚的なオーディオ信号の分野において対処されている。ここで、プリエコーは、心理音響モデルによってスペクトルマグニチュードの量子化のようなＴＦビンの中間の操作に関連して、比較的長い分析および合成ウィンドウを用いて典型的に生じされうる。過渡部のイベントの近似において、ブロック−スイッチングを使用することは最新の技術と考えられうる［６］。興味深い方法は、［１３］において提案され、ここで、スペクトル係数が周波数軸に沿って線形予測によって符号化され、そして、自動的にプリエコーが低減される。後のワークは、過渡部および残余の構成要素に信号を分解させ、そして、各ストリームに対して最適化された符号化パラメータを使用することが提案される［３］。過渡部の保護は、位相−ボコーダに基づいて時間−スケール修正の方法のコンテキストにおいても調査される。過渡部の構成要素の最適化された処理に加えて、数人の著者は、位相固定の原則または過渡フレームの位相の再初期化に従う［８］。

マグニチュードスペクトログラムの反転または位相評価としても知られる信号の再構成の問題は、よく研究された主題である。それらの古典レポートにおいて［１］、グリフィン（Ｇｒｉｆｆｉｎ）およびリム（Ｌｉｍ）は、修正されたＳＴＦＴマグニチュード（ＭＳＴＦＴＭ）スペクトログラムから、繰返しのブラインド信号再構成のためのいわゆるＬＳＥＥ−ＭＳＴＦＴＭアルゴリズムを提案した。［２］において、ＬｅＲｏｕｘらは、ＴＦ整合性基準を用いたそれを記載することによって、この方法に関する異なる見解を開発した。必要な動作をＴＦ領域に完全に保つことによって、最初の処置と比較して計算負荷を下げるいくつかの簡略化したものおよび近似値が導かれうる。ＬＳＥＥ−ＭＳＴＦＴＭを用いて得られた位相評価は、ローカルの最適条件にのみ収束するのみであるので、いくつかの文献は、位相情報［３，４］のための良好な最初の評価を見つけることに関連していた。ＳｔｕｒｍｅｌおよびＤａｕｄｅｔ［５］は、信号再構成の方法の徹底的な再調査を提供して、未解決の課題を指し示した。収束速度に関するＬＳＥＥ−ＭＳＴＦＴＭの拡張は、［６］において提案された。他の著者は、凸面最適化方式として位相評価の問題を公式化しようとして、高い計算量［７］によって妨げられる有望な結果に達した。他の研究［８］は、ウェーブレットベースのマグニチュードスペクトログラムからスペクトログラム整合性フレームワークを信号の再構成に適用することに関した。

しかしながら、信号の再構成のための記載されている方法は、例えば、過渡部についての典型的であるオーディオ信号の急激な変化の問題が、例えば、プリエコーのような以前から記載されるアーティファクトから悩まされる。

従って、改良された方法を必要とする。

Daniel W. Griffin and Jae S. Lim, "Signal estimation from modified short-time Fourier transform", IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 32, no. 2, pp. 236-243, April 1984. Jonathan Le Roux, Nobutaka Ono, and Shigeki Sagayama, "Explicit consistency constraints for STFT spectrograms and their application to phase reconstruction" in Proceedings of the ISCA Tutorial and Research Workshop on Statistical And Perceptual Audition, Brisbane, Australia, September 2008, pp. 23-28. Xinglei Zhu, Gerald T. Beauregard, and Lonce L. Wyse, "Real-time signal estimation from modified short-time Fourier transform magnitude spectra", IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, no. 5, pp. 1645-1653, July 2007. Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, and Shigeki Sagayama, "Phase initialization schemes for faster spectrogram-consistency-based signal reconstruction" in Proceedings of the Acoustical Society of Japan Autumn Meeting, September 2010, number 3-10-3. Nicolas Sturmel and Laurent Daudet, "Signal reconstruction from STFT magnitude: a state of the art" in Proceedings of the International Conference on Digital Audio Effects (DAFx), Paris, France, September 2011, pp. 375-386. Nathanaoel Perraudin, Peter Balazs, and Peter L. Soendergaard, "A fast Griffin-Lim algorithm" in Proceedings IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), New Paltz, NY, USA, October 2013, pp. 1-4. Dennis L. Sun and Julius O. Smith III, "Estimating a signal from a magnitude spectrogram via convex optimization" in Proceedings of the Audio Engineering Society (AES) Convention, San Francisco, USA, October 2012, Preprint 8785. Tomohiko Nakamura and Hiokazu Kameoka, "Fast signal reconstruction from magnitude spectrogram of continuous wavelet transform based on spectrogram consistency" in Proceedings of the International Conference on Digital Audio Effects (DAFx), Erlangen, Germany, September 2014, pp. 129-135. Volker Gnann and Martin Spiertz, "Inversion of shorttime fourier transform magnitude spectrograms with adaptive window lengths" in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, (ICASSP), Taipei, Taiwan, April 2009, pp. 325-328. Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, and Shigeki Sagayama, "Fast signal reconstruction from magnitude STFT spectrogram based on spectrogram consistency" in Proceedings International Conference on Digital Audio Effects (DAFx), Graz, Austria, September 2010, pp. 397-403.

本発明の目的は、改良された概念を、オーディオ信号を処理するために提供する。この目的は、独立請求項の主題によって解決される。

本発明は、目標時間領域振幅エンベロープが時間または周波数領域における一連の周波数領域フレームのスペクトル値に適用されうるという知見に基づく。換言すると、信号の位相は、時間−周波数および周波数−時間の変換を使用して信号処理の後、修正されうる。ここで、振幅または信号のマグニチュードは、維持されるか、また（不変に）保たれる。位相は、例えば、グリフィンおよびリムによって提案されたアルゴリズムのような繰返しのアルゴリズムを使用して復元されうる。しかしながら、目標時間領域エンベロープを使用することは、位相回復の品質を大幅に向上させる。そして、繰返しのアルゴリズムが用いられる場合、それは、低減された数の繰返しに結果として得る。目標時間領域エンベロープは、算出されうるかまたは近似されうる。

実施例は、処理されたオーディオ信号を得るために、オーディオ信号を処理するための装置を示す。装置は、オーディオ信号のオーバーラップしているフレームを表現している一連の周波数領域フレームのスペクトル値のための位相値を計算するための位相計算機を含む。位相計算機は、処理されたオーディオ信号に関連した目標時間領域エンベロープについての情報に基づいて、位相値を計算するように構成され、その結果、処理されたオーディオ信号が、少なくとも近似に、目標時間領域エンベロープおよび一連の周波数領域フレームによって決定されたスペクトル・エンベロープを持つ。目標時間領域振幅エンベロープに関する情報は、時間または周波数領域における周波数領域フレームに適用されうる。

周知の方法の上述した限定を克服するために、実施例は、より優れて再構成されたソース信号の過渡部の構成要素を保存することの技術、方法または装置を示す。特に、目的は、ドラムおよび打楽器からピアノおよびギターと同様にノート情報のオンセットの明快さを悪化させるプリエコーを減らすことでありうる。

さらなる実施例は、例えばよりよく過渡信号の構成要素を保存するグリフィンおよびリム［１］によって信号再構成処理に拡張または改良を示す。最初の方法はＳＴＦＴおよび時間領域信号との間に行ったり来たりすることによってＳＴＦＴマグニチュード（ＳＴＦＴＭ）から繰返して時間領域再構成のために必要な位相情報を推定する。そして、位相情報を更新するだけである、その一方で、固定するＳＴＦＴＭを保つ。提案された拡張または改良は、潜在的に過渡部に先行するプリエコーを減らすために、中間的な時間領域再構成を操作する。

第１実施例によれば、目標時間領域エンベロープに関する情報は、時間領域の一連の周波数領域フレームに適用される。従って、修正された短時間フーリエ変換（ＭＳＴＦＴ）は、一連の周波数領域フレームから導出されうる。修正された短時間フーリエ変換に基づいて、逆短時間フーリエ変換が、実行されうる。逆短時間フーリエ変換（ＩＳＴＦＴ）が重畳加算処理（ｏｖｅｒｌａｐ−ａｎｄ−ａｄｄｐｒｏｃｅｄｕｒｅ）を実行するので、初期のＭＳＴＦＴのマグニチュード値および位相値は変わる（更新されたか、構成されるか、調整される）。これは、オーディオ信号の中間の時間領域再構成に至る。さらに、目標時間領域エンベロープは、中間的な時間領域再構成に適用されうる。これは、インパルス応答による時間領域信号を畳み込むことによって、または、伝達関数によりスペクトルに乗算することによって、例えば実行されうる。目標時間領域エンベロープ（の近似値）を有しているオーディオ信号の中間的な時間領域再構成は、短時間フーリエ変換（ＳＴＦＴ）を使用して変換される時間−周波数でもよい。従って、重なり合う分析−および／または合成ウィンドウが、用いられうる。

目標時間領域エンベロープの変調が適用されない場合であっても、オーディオ信号の中間的な時間領域表現のＳＴＦＴは、ＩＳＴＦＴおよびＳＴＦＴにおける重畳加算処理のため以前のＭＳＴＦＴと異なる。これは、繰返しのアルゴリズムで実行されうる。ここで、更新されたＭＳＴＦＴのために、以前のＳＴＦＴ操作の位相値が使用され、そして、対応する振幅またはマグニチュード値は切り捨てられる。その代わり、更新されたＭＳＴＦＴのための振幅またはマグニチュード値として、初期のマグニチュード値が使用される。なぜなら、振幅（またはマグニチュード）値が間違った位相情報を有するだけで（完全に）再構成されると仮定されるからである。したがって、各繰返しステップにおいて、位相値は、正しい（またはもとの）位相値に適している。

第２実施例によれば、目標時間領域エンベロープは、周波数領域における一連の周波数領域フレームに適用されうる。従って、時間領域のより初期に実行されるステップは、周波数領域へ転移（変換、適用、あるいは変形）されうる。詳細には、これは、ＩＳＴＦＴの合成ウィンドウおよびＳＴＦＴの分析ウィンドウの時間−周波数変換でありうる。これはＩＳＴＦＴの後、現行フレームにオーバーラップする隣接したフレームの周波数表現に至り、そして、ＳＴＦＴは時間領域において変換される。しかしながら、このセクションは、現在のフレームの範囲内で正しい位置にシフトされ、そして、加算が、オーディオ信号の中間的な周波数領域表現を導出するために実行される。さらに、例えば、ＳＴＦＴを使用して、目標時間領域エンベロープは、周波数領域に変換することができる。そうすると、目標時間領域エンベロープの周波数表現は、中間的な周波数領域表現に適用されうる。また、この処理は、目標時間領域エンベロープのエンベロープを有している（近似値において）中間的な周波数領域表現の更新された位相を使用して、繰返して実行されうる。さらにまた、ＭＳＴＦＴの初期のマグニチュードが使用される。なぜなら、マグニチュードが、既に完全に再構成されていると仮定されるからである。

上述した装置を用いて、複数のさらなる実施例は、目標時間領域エンベロープを導出するための異なる可能性を有すると仮定される。実施例は、上述した装置を含むオーディオデコーダを示す。オーディオデコーダは、（関連する）オーディオエンコーダから、オーディオ信号を受け取りうる。オーディオエンコーダは、例えばオーディオ信号の時間枠ごとに、目標時間領域エンベロープを導出するために、オーディオ信号を分析しうる。導出された目標時間領域エンベロープは、典型的な目標時間領域エンベロープの予め定められたリストと比較されうる。オーディオ信号の計算された目標時間領域エンベロープに最も近い所定の目標時間領域エンベロープは、特定の一連のビット（例えば１６の異なる目標時間領域エンベロープを割り当てる一連の４ビット）に関連しうる。オーディオデコーダは、同じ所定の目標時間領域エンベロープ（例えばコードブックまたは参照表）を含むことができ、エンコーダから送信される一連のビットで（符号化される）所定の目標時間領域エンベロープを測定する（読むか、計算するか、または算出する）ことが可能である。

さらなる実施例によれば、上述の装置は、オーディオソース分離プロセッサの一部でありうる。オーディオソース分離プロセッサは目標時間領域エンベロープに、ラフに近似のものを使用しうる。なぜなら、（通常）１つのオーディオ信号の複数の出所源だけを有するもとのオーディオ信号は利用できないからである。従って、特に過渡部の修復のために、初期の過渡部の位置までの現行フレームは、ゼロであることを強いられうる。これは、通常、信号処理アルゴリズムのため組み込まれる過渡部の前におけるプレエコーを効果的に低減することができる。さらにまた、共通のオンセットが、目標時間領域エンベロープ（例えば各フレームのための同じオンセット）のための近似値として使用されうる。さらなる実施例によれば、異なるオンセットが、例えばオンセットの所定のリストから導出されるオーディオ信号の異なる構成要素のために使用されうる。例えば、目標時間領域エンベロープまたはピアノのオンセットは、目標時間領域エンベロープまたはギター、ハイハットまたは話し言葉のオンセットと異なる。従って、例えば目標時間領域エンベロープに（理論的に）最も適切な近いものを決定するために、そのようなオーディオ情報（楽器、話し言葉など）を検出するために、オーディオ信号のための現在のソースまたは構成要素が分析されうる。さらなる実施例によれば、オーディオソース分離が一つ以上の楽器（例えばギター、ハイハット、フルート、またはピアノ）または話し言葉をオーディオ信号の残留する部分から切り離すことを、例えば目的とする場合、そのようなオーディオ情報は（ユーザによって）予め設定されうる。予め設定されたものに基づいて、分離されたか単離されたオーディオトラックのための対応するオンセットが、選択されうる。

さらなる実施例によれば、帯域幅エンハンスメントプロセッサは、上述した装置を使用しうる。帯域幅エンハンスメントプロセッサは、オーディオ信号の一つ以上のバンドの高分解能表現を符号化するために、コアな符号化器を使用する。さらに、コアな符号化器を使用して符号化されない帯域は、帯域幅エンハンスメントエンコーダのパラメータを使用している帯域幅エンハンスメントデコーダにおいて近似されうる。例えば、エンコーダによって、パラメータとして、目標時間領域エンベロープは、送信されうる。しかしながら、好適な実施の形態によれば、目標時間領域エンベロープは、エンコーダによって（パラメータとして）送信されない。従って、目標時間領域エンベロープは、オーディオ信号のコアな復号化部分または周波数帯から直接的に導出されうる。オーディオ信号のコアな復号化部分の形状またはエンベロープは、もとのオーディオ信号の目標時間領域エンベロープに良好に近似である。しかしながら、高周波成分が、もとのエンベロープと比較した場合に、強調されえない目標時間領域エンベロープに至っているオーディオ信号のコアな復号化部分において欠けていてもよい。例えば、目標時間領域エンベロープは、オーディオ信号またはオーディオ信号の一部のローパス・フィルタ処理バージョンと類似していてもよい。しかしながら、例えば、コアな復号化オーディオ信号からの目標時間領域エンベロープに近似のものは、目標時間領域エンベロープの情報が帯域幅エンハンスメントエンコーダから帯域幅エンハンスメントデコーダまで送信されうるコードブックを使用することと比較して、（平均して）より正確でもよい。

さらなる実施例によれば、グリフィンおよびリムによって提案された繰返しの信号再構成アルゴリズムの有効な拡張が示される。拡張は、修正された短時間フーリエ変換を使用している繰返しの再構成の範囲内で、中間的なステップを示す。中間的なステップは、再構成される信号の所望であるか所定の様子を強化することができる。従って、所定のエンベロープは再構成された（時間領域）信号に使用されうる。そして、例えば、繰返しの各ステップの範囲内で、振幅変調を使用する。あるいは、エンベロープは、ＳＴＦＴの畳み込みおよび時間周波数領域エンベロープを使用している再構成された信号に適用されうる。第２の方法は有利でもよいかより効果的でありうる。なぜなら、逆ＳＴＦＴおよびＳＴＦＴは、時間周波数領域においてエミュレートされうる（実行され、変換され、あるいは転送される）。そして、従って、これらのステップは明確に実行される必要はない。さらに、例えば、シーケンス選択処理は実現されることができるような簡略化したものが実現される。さらに、（第１のＭＳＴＦＴステップの）有意義な値を有する位相の初期化は有利である。なぜなら、より速い転換が成し遂げられるからである。

実施例が添付の図を使用して詳述する前に、同じであるか機能的に等しい要素が図の同じ参照番号を与えられる、そして、同じ参照番号を備えている要素のための繰り返された説明が提出されると指摘される。それ故、同じ参照番号を有する要素のために提供される説明は、相互に交換可能である。

本発明の実施例は、それらの添付された図面を参照してその後後述する。

図１は、処理されたオーディオ信号を得るために、オーディオ信号を処理する装置の概略ブロック図を示す。図２は、時間周波数領域または周波数領域処理を用いてさらなる実施例による装置の概略ブロック図を示す。図３は、概略ブロック図を使用している時間周波数領域処理のさらなる実施例による装置を示す。図４は、周波数領域処理を使用している実施例による装置の概略ブロック図を示す。図５は、さらなる実施例を使用している時間周波数領域処理による装置の概略ブロック図を示す。図６は、実施例による過渡部の修復の模式的な構想を示す。図７は、周波数領域処理を使用しているさらなる実施例による装置の概略ブロック図を示す。図８は、音声信号の１つの部分を例示している概略時間領域ダイアグラムを示す。図９は、実施例ドラム・ループから切り離される異なるハイハットの成分信号のブロック線図を例示する。図１０は、ドラム・ループのソース分離の出典として３つの楽器を含んでいる衝撃の信号混合の概略図を示す。図１１ａは、繰返しの数に対する規格化された不整合性の大きさの漸進的変化を示す。図１１ｂは、繰返しの数に対するプリエコーエネルギーの漸進的変化を示す。図１２ａは、繰返しの数に対する規格化された不整合性の大きさの漸進的変化のブロック線図を示す。図１２ｂは、繰返しの数に対するプリエコーエネルギーの漸進的変化を示す。図１３は、典型的ＮＭＦ分解結果のブロック線図（本当の引き抜かれたテンプレート（３本の最も左のプロット線）がＶ（右下プロット線）の点で開始イベントの原型説明に似ていることを示す）を示す。図１４ａは、繰返しの数に対する規格化された整合性の大きさの漸進的変化のブロック線図を示す。図１４ｂは、繰返しの数に対するプリエコーエネルギーの漸進的変化のブロック線図を示す。図１５は、実施例によるオーディオ信号を符号化するためのオーディオエンコーダを示す。図１６は、装置および入力インタフェースを含むオーディオデコーダを示す。図１７は、一連の周波数領域フレームの表現および目標時間領域エンベロープの表現を含むオーディオ信号を示す。図１８は、実施例によるオーディオソース分離プロセッサの概略ブロック図を示す。図１９は、実施例による帯域幅エンハンスメントプロセッサの概略ブロック図を示す。図２０は、帯域幅エンハンスメントを例示している概略周波数領域ダイアグラムを示す。図２１は、（中間的な）時間領域再構成の概略図を示す。図２２は、処理されたオーディオ信号を得るために、オーディオ信号を処理する方法の概略ブロック図を示す。図２３は、オーディオ復号化の方法の概略ブロック図を示す。図２４は、オーディオソース分離の方法の概略ブロック図を示す。図２５は、符号化されたオーディオ信号の帯域幅エンハンスメントの方法の概略ブロック図を示す。図２６は、オーディオ符号化の方法の概略ブロック図を示す。

以下に、本発明の実施例がより詳細に説明される。同一または同程度の機能性を有するそれぞれの図に示される要素は、それとともに同じ参照符号を関連付けられる。

図１は、処理されたオーディオ信号６を得るために、オーディオ信号４を処理する装置２の概略ブロック図を示す。装置２は、オーディオ信号４のオーバーラップしているフレームを表現している一連の周波数領域フレーム１２のスペクトル値のための位相値１０を計算するための位相計算機８を含む。さらに、位相計算機８は、処理されたオーディオ信号６に関連した目標時間領域エンベロープ１４についての情報に基づいて、位相値１０を計算するように構成され、その結果、処理されたオーディオ信号６が、少なくとも近似に、目標時間領域エンベロープ１４および一連の周波数領域フレーム１２によって決定されたスペクトル・エンベロープを持つ。したがって、位相計算機８は、目標時間領域エンベロープに関する情報を受信するか、または、目標時間領域エンベロープ（の表現）から目標時間領域エンベロープに関する情報を抽出するように構成されうる。

一連の周波数領域フレーム１０のスペクトル値は、オーディオ信号４の短時間フーリエ変換（ＳＴＦＴ）を用いて計算されうる。従って、ＳＴＦＴは、例えば、５０％、６７％、７５％、あるいはより多くのオーバーラップしている範囲を有する分析ウィンドウを使用しうる。換言すれば、ＳＴＦＴは、例えば、分析ウィンドウの長さの１／２、１／３、１／４のホップ・サイズを使用しうる。

目標時間領域エンベロープ１４に関する情報は、現在または使用された実施例に関した異なるかあるいは様々な方法を使用して導出されうる。符号化環境において、例えば、エンコーダは、（符号化の前に）（もとの）オーディオ信号を分析し、例えば、コードブックまたは参照表インデックスを算出目標領域エンベロープの近くに所定の目標領域エンベロープを表しているデコーダに送信しうる。エンコーダとして同じコードブックまたは参照テーブルを有するデコーダは、受信されたコードブック・インデックスを使用して、目標時間領域エンベロープを導出しうる。

帯域幅エンハンスメント環境において、オーディオ信号のコアな復号化表現のエンベロープは、もとの目標時間領域エンベロープに良好な近似でありうる。

帯域幅エンハンスメントは、処理の前に入力信号の帯域幅と比較して処理された信号の帯域幅を強化することのいかなる形もカバーする。帯域幅強化の１つの方法は、例えば、国際公開第２０１５／０１０９４８号において開示されるか、またはセミパラメトリックギャップフィリングのような、インテリジェントギャップフィリング（ＩＧＦ：ＩｎｔｅｌｌｉｇｅｎｔＧａｐＦｉｌｌｉｎｇ）のようなギャップフィリング実装である。ここで、入力信号のスペクトルギャップは、送信されたパラメータ情報の援助の有無にかかわらず、入力信号のスペクトル部分によって埋められるか、または「強化」される。帯域幅強化のさらなる方法は、帯域幅強化のさらなる方法は、ＨＥ−ＡＡＣ（ＭＰＥＧ４）または関連した処理において用いられているように、スペクトル帯域複製（ＳＢＲ）である。周波数を超えるバンドが処理によって発生する。ギャップフィリング実装とは対照的に、ＳＢＲのコアな信号の帯域幅は制限される。その一方で、ギャップフィリング実装はフルバンドのコアな信号を有する。したがって、帯域幅エンハンスメントは、周波数に関して、コア信号の最大周波数よりも低い周波数に位置するスペクトルギャップに対するクロスオーバー周波数または帯域幅拡張よりも高い周波数に対する帯域幅拡張を表す。

さらに、ソース分離環境で、目標時間領域エンベロープは、近似されうる。これは、過渡部、または、目標時間領域エンベロープに近似するまたは概算としての（異なる）オンセットを使用して初期位置まで０で詰めてもよい。換言すれば、近似された目標時間領域エンベロープは、現在の時間領域エンベロープにフレームの始まりからのゼロまたは過渡部の初期位置までのオーディオ信号の一部であることを強いることによる中間的な時間領域信号の現在の時間領域エンベロープから導出可能である。さらなる実施例によれば、現在の時間領域エンベロープは、一つ以上の（あらかじめ定義された）オンセットによって（振幅）変調される。オンセットは、オーディオ信号の（完全な）処理のために固定することができるかまたは、換言すれば、オーディオ信号で第１の（時間）フレームまたは一部を処理する前か（または）処理して、一度、選ばれうる。

目標時間領域エンベロープの（近似値または評価）は、例えば、振幅変調または乗算を使用して、処理されたオーディオ信号の形状を形成するために使用されうる。そうすると、処理されたオーディオ信号は、少なくとも目標時間領域エンベロープに近似するものを有する。しかしながら、処理されたオーディオ信号のスペクトル・エンベロープは、一連の周波数領域フレームで決定される。なぜなら、一連の周波数領域フレームのスペクトルと比較した場合、目標時間領域エンベロープは主に低周波構成要素を含むからである。そうすると、大多数の周波数は不変のままである。

図２は、さらなる実施例による装置２の概略ブロック図を示す。図２の装置は、最初の位相値１８から始まって、オーバーラップしている範囲のオーバーラップしているブロックの密度を必要としている最適化目標を使用しているスペクトル値のための位相値１０を計算するために繰返しのアルゴリズムを実行するための繰返しプロセッサ１６を備えた位相計算機８を示す。さらに、目標時間領域エンベロープに応じて、繰返しプロセッサ１６は、さらなる繰返しステップにおいて、更新された位相推定２０を使用するように構成される。換言すれば、位相値１０の計算は、繰返しプロセッサ１６によって実行される繰返しのアルゴリズムを使用して実行されうる。したがって、一連の周波数領域フレームのマグニチュード値は、既知でありえ、横ばいである。初期の位相値１８から始まって、繰返しプロセッサは、各繰返しの後、繰返しを実行するために更新された位相推定２０を使用しているスペクトル値のための位相値を繰返して更新しうる。

最適化目標は、例えば、多くの繰返しでありうる。さらなる実施例によれば、最適化目標は、閾値でありえ、ここで、以前の繰返しステップの位相値と比較した場合、位相値は、軽微な範囲だけ更新されるか、または、繰返しプロセスの後、スペクトル値のマグニチュードと比較した場合、最適化目標は、一連の周波数領域フレームの（初期の）一定のマグニチュードに差がありうる。したがって、位相値は、修正または改良され、その結果、オーディオ信号のフレームのこれらの部分の個々の周波数スペクトルは、等しいか、または少なくとも軽微な範囲の差である。換言すれば、互いにオーバーラップするオーディオ信号のオーバーラップフレームの全てのフレーム部分は、同じまたは類似の周波数表現を有するべきである。

実施例によれば、位相計算機は、グリフィンおよびリムによる繰返し信号再構成処理に従う繰返しのアルゴリズムを実行するように構成される。更に、（より詳述される）実施例は、やがて公開される図に関して示される。その中で、繰返しプロセッサは、一連の処理ブロック、すなわち、周波数から時間へのコンバータ２２、振幅変調器２４および時間から周波数へのコンバータ２６によって分割されるか、または置き換えられる。便宜のために、繰返しプロセッサ１６は、通常（明確でなく）、さらなる図において指し示される。しかしながら、上述した処理ブロックは、繰返しプロセッサ１６として同様の処理を実行するか、または、繰返しプロセッサは、例えば、最適化目標のような、繰返し処理の終端条件（または出口条件）を監視するか、またはモニタされる。さらにまた、繰返しプロセッサは、図４および図７に関して、例えば、示される周波数領域処理にしたがって処理を実行しうる。

図３は、概略ブロック図のさらなる実施例に従って、装置２を示す。装置２は、周波数から時間へのコンバータ２２、振幅変調器２４および時間から周波数へのコンバータ２６を含み、ここで、周波数から時間へのコンバータおよび／または時間から周波数へのコンバータは、重畳加算処理を実行しうる。周波数から時間へのコンバータ２２は、一連の周波数領域フレーム１２および先行繰返しステップの初期位相値推定１８または位相値推定１０からオーディオ信号４の中間的な時間領域再構成２８を計算しうる。振幅変調器２４は、振幅変調した信号３０を得るために、目標時間領域エンベロープ１４（における情報）を使用して、中間的な時間領域再構成２８を変調しうる。さらに、時間から周波数へのコンバータは、振幅変調した信号３０を、位相値１０を持つ別の一連の周波数領域フレーム３２に変換するように構成される。したがって、次の繰返しステップのために、（別の一連の周波数領域フレームの）位相値１０および（別の一連の周波数領域フレームでない）一連の周波数領域フレームのスペクトル値を使用するように構成される。換言すれば、位相計算機は、各繰返しステップの後、別の一連の周波数領域フレーム３２の更新された位相値を使用する。周波数領域フレームのさらなるシーケンスのマグニチュード値は、切り捨てられてもよく、またはさらなる処理のために使用されなくてもよい。さらに、位相計算機８は、（初期の）一連の周波数領域フレーム１２のマグニチュード値を使用する。なぜなら、マグニチュード値は、すでに（完全に）再構成されると仮定されるからである。

より一般的に、目標時間領域エンベロープ１４に基づいて、位相計算機８は、例えば、振幅変調器２２において、振幅変調を、オーディオ信号４の中間的な時間領域再構成２８に適応するように構成される。振幅変調は、抑制された搬送波電送の有無にかかわらない単側波帯変調、両側波帯変調を用いるか、またはオーディオ信号の中間的な時間領域再構成を有する目標時間領域ンベロープの乗算を用いて実行されうる。初期位相値推定は、オーディオ信号の位相値、例えば、ゼロ、ランダムな値のような選択された値、またはオーディオ信号の周波数帯の位相の推定、またはオーディオソース分離を使用する場合、オーディオ信号のソースの位相でありうる。

さらなる実施例によれば、繰返し決定条件、例えば、繰返し終了状態が満たされた場合、位相計算機８は、処理されたオーディオ信号６としてオーディオ信号４の中間的な時間領域再構成２８を出力するように構成される。繰返し決定条件は、最適化目標に密接に関連しており、現在の最適化値に最適化目標の最大偏差を定義しうる。さらに、繰返し決定条件は、（最大の）繰返し数か、一連の周波数領域フレーム１２のマグニチュードと比較した場合、別の一連の周波数領域フレーム３２のマグニチュードの（最大の）偏差か、または、現在と先行フレームとの間の位相値１０の（最大の）更新効果である。

図４は実施例による装置２の概略ブロック図を示す。そして、それは図３の実施例と比較した場合、代替の実施例でありうる。位相計算機８は、少なくとも１つの目標時間領域エンベロープ１４および少なくとも１つの中間的な周波数領域表現のスペクトル表現１４’、または選択された部分あるいはバンドあるいはハイパス部分あるいは少なくとも１つの目標時間領域エンベロープ１４でのいくつかの帯域通過部分のみあるいはオーディオ信号４の少なくとも１つの中間的な周波数領域表現２８’の回旋３４を適用するように構成される。換言すれば、図３の処理は、時間領域の代わりに周波数領域において実行されうる。したがって、より詳細には、目標時間領域エンベロープ１４、その周波数表現１４’は、振幅変調の代わりに回旋を使用して、中間的な周波数領域表現２８’に適用されうる。しかしながら、別の繰返しステップに対する更新された位相値推定を使用し、第１の繰返しステップにおいて初期の位相値１８を使用した後、着想は、再度、繰返しごとに、一連の周波数領域の（もとの）マグニチュードを使用することである。しかしながら、考えは再び、繰返しごとに一連の周波数領域フレームの（もとの）マグニチュードを使用することである、そして、さらに、第１の繰返しステップの最初の位相価値１８を使用した後に、更新された位相値を使用することはさらなる繰返しステップごとに１０を推定する。換言すれば、位相計算機は、次の繰返しステップについて、更新された位相値推定として、回旋３４によって得られた位相値１０を使用するように構成される。さらに、装置は、目標時間領域エンベロープをスペクトル領域に変換するための目標エンベロープコンバータ３６を含む。さらにまた、装置２は、最新の繰返しステップおよび一連の周波数領域フレーム１２から得られる位相値推定１０を使用して中間的な周波数領域再構成２８’から時間領域再構成２８を計算するための周波数から時間へのコンバータ３８を含みうる。換言すれば、中間的な周波数領域表現２８’は、一連の周波数領域フレームのマグニチュードおよび更新された位相値推定の位相値１０を含みうる。時間領域再構成２８は、処理されたオーディオ信号６または処理されたオーディオ信号の少なくとも一部でありうる。処理されたオーディオ信号またはオーディオ信号４の周波数帯域の総数と比較した場合、部分は、例えば、低減された周波数帯域の数に関しうる。

さらなる実施例によれば、位相計算機８は、回旋プロセッサ４０を含む。回旋プロセッサ４０は、オーディオ信号４の中間的な周波数領域表現２８’を得るために、回旋カーネル、シフト・カーネルおよび／またはアド・センター（ａｄｄ−ｔｏ−ｃｅｎｔｅｒ）フレーム処理を適用しうる。換言すれば、回旋プロセッサは、一連の周波数領域フレーム１２を処理しうる。ここで、回旋プロセッサ４０は、中間的な周波数領域再構成を決定するために、周波数領域において、時間領域の重畳加算処理の周波数領域等価を一連の周波数領域フレーム１２に適用するように構成される。さらなる実施例によれば、回旋プロセッサは、現在の周波数領域フレームに基づいて、時間領域の重畳加算が周波数領域の中で実行された後に、現在の周波数領域フレームに寄与する、隣接した周波数領域フレームの部分を決定するように構成される。さらに、回旋プロセッサ４０は、現在の周波数領域フレーム内の隣接した周波数領域フレームの部分のオーバーラップしている位置を決定し、オーバーラップしている位置で、隣接する周波数領域フレームの部分と現在の周波数領域フレームの加算を実行するように構成される。さらなる実施例によれば、回旋プロセッサ４０は、時間領域の重畳加算が周波数領域の中で実行された後、現在の周波数領域フレームに寄与する、隣接した周波数領域フレームの部分を決定するために、時間領域合成と時間領域分析ウィンドウとを、時間から周波数に変換するように構成される。さらに、回旋プロセッサは、現在の周波数領域フレーム内で、隣接した周波数領域フレームの位置を、オーバーラップしている位置に移動して、オーバーラップしている位置で、隣接した周波数領域フレームの部分を現在のフレームに適用するように構成される。

換言すれば、図３に示される時間領域処理は、周波数領域へ転送（変換、適用、あるいは変形）される。従って、周波数から時間へのコンバータ２２および時間から周波数へのコンバータ２６の合成および分析ウィンドウは、周波数領域へと転送（変換、適用、あるいは変形）される。合成および分析の（結果得られる）周波数領域表現は、時間領域において、重畳加算処理においてオーバーラップされる現在のフレームに、隣接するフレームの部分を決定する（または、取り除く）。さらに、時間領域の周波数から時間への変換および時間から周波数への変換が周波数領域において実行される。これは、明示的な信号変換が無視されるか実行されないことがあり、位相計算機８および装置２の計算効率を高めることができるので、これは有利である。

図５は、分離されたチャネルの信号の再構成またはオーディオ信号４の帯域に焦点をあわせるさらなる実施例による装置２の概略ブロック図を示す。したがって、時間領域におけるオーディオ信号４は、例えば、ＳＴＦＴ４２のような時間から周波数へのコンバータを使用してオーディオ信号４のオーバーラップフレームを表している一連の時間領域フレーム１２に変換されうる。それに関して、修正されたマグニチュード推定器４４’は、一連の周波数領域フレームあるいは構成要素、または一連の周波数領域フレームの構成信号のマグニチュード４４を導出しうる。さらに、初期の位相推定１８が、初期の位相推定器１８’を使用して一連の周波数領域フレーム１２から計算されえ、または、初期の位相推定器１８’は、例えば、一連の周波数領域フレーム１２から導出されない任意の位相推定１８を選択しうる。一連の周波数領域フレーム１２のマグニチュード４４および初期の位相推定１８に基づいて、ＭＳＴＦＴ１２’は、さらなる処理および初期の位相推定１８のみにおいて不変のままである（完全に）再構成されたマグニチュード４４を有する初期の一連の周波数領域フレーム１２’’として計算しうる。初期の位相推定１８は、位相計算機８を使用して更新される。

さらなるステップにおいて、例えば、逆ＳＴＦＴ（ＩＳＴＦＴ）である周波数から時間へのコンバータ２２は、（初期の）一連の周波数領域フレーム１２’’の中間的な時間領域再構成２８を計算しうる。中間的な時間領域再構成２８は、例えば、目標エンベロープ、より正確に言えば、目標時間領域エンベロープ１４とともに乗算され振幅変調されうる。例えば、ＳＴＦＴである時間から周波数へのコンバータ２６は、位相値１０を有する別の一連の周波数領域フレーム３２を計算しうる。ＭＳＴＦＴ１２’は、更新された位相推定器１０および更新された一連の周波数領域フレームにおける一連の周波数領域フレーム１２のマグニチュード１０を使用しうる。この繰返しのアルゴリズムは、位相計算機８の上記の処理ステップを実行しうる繰返しプロセッサ１６内でＬ回実行されるか、または、繰返される。例えば、繰返し処理が完了された後、時間領域再構成２８’’は、中間的な時間領域再構成２８から導出される。

換言すれば、以下において、表記方法および信号モデルが示され、使用された信号再構成方法が記載される。その後、ＬＳＥＥ−ＭＳＴＦＴＭの方法の過渡部の保護のための拡張は、図示する実施例と関連して示される。

実施例によれば、記載されている方法、エンコーダまたはデコーダの有利な点は中間のステップ２である。そして、それはＬＳＥＥ−ＭＳＴＦＴＭ処理の過渡部の制限を実施する。

図７は、さらなる実施例による装置２の概略ブロック図を示す。図４と同様で、位相計算機は周波数領域において位相計算を実行する。周波数領域処理は、図５において示された実施例に関して記載されている時間領域処理に同様でありうる。また、時間領域信号４は、一連の周波数領域フレーム１２に導出するために、ＳＴＦＴ（パフォーマ）４２を使用して、時間周波数変換される。それについて、修正されたマグニチュード推定器４４’は、一連の周波数領域フレーム１２から修正されたマグニチュードを導出しうる。初期の位相推定器１８’は、一連の周波数領域フレームから初期の位相推定１８を導出しうるか、または、例えば、任意の初期の位相推定を提供しうる。修正されたマグニチュード推定および初期の位相推定を使用して、ＭＳＴＦＴ１２’は、初期の一連の周波数領域フレーム１２’’を計算し、または決定する。そして、それは、各繰返しステップの後、更新された位相値を受信する。図５の実施例との違いは、位相計算機８において、（初期の）一連の周波数領域フレーム１２’’である。例えば、図５における、ＩＳＴＦＴ２２またはＳＴＦＴ２６において使用する合成および分析ウィンドウである、時間領域合成および分析ウィンドウに基づいて、回旋カーネル計算機５２’は、合成および分析ウィンドウの周波数領域表現を使用して回旋カーネル５２を計算しうる。回旋カーネルは、ＩＳＴＦＴ２２において、重畳加算を使用して、現在のフレームにオーバーラップする現在の周波数領域フレームの隣接した、あるいは隣り合うフレームの部分を取り除く（スライスする、あるいは使用する）。カーネル・シフト計算機５４’は、シフト・カーネル５２を計算することができ、それらのパーツを現在の周波数領域フレームの正しいオーバーラップする位置へシフトするために、シフト・カーネル５２を隣り合う周波数領域フレームの部分に適用しうる。これは、ＩＳＴＦＴ２２の重畳加算処理のオーバーラップ処理をエミュレートしうる。さらに、ブロック５６は、重畳加算処理の追加を実行して、隣り合うフレームの部分を中心のフレーム期間に加える。回旋カーネルの計算および活用、シフト・カーネルの計算および活用、およびブロック５６において追加物は、回旋プロセッサ４０において実行されうる。回旋プロセッサ４０の出力は、一連の周波数領域フレーム１２または初期の一連の周波数領域フレーム１２’’の中間的な周波数領域再構成２８’でありうる。中間的な周波数領域再構成２８’は、回旋３４を使用して、目標エンベロープ１４の周波数領域表現で（フレームごとに）畳み込まれる。回旋３４の出力は、位相値１０を有する別の一連の周波数領域フレーム３２’でありうる。位相値１０は、さらなる繰返しステップのＭＳＴＦＴ１２’における初期の位相推定１８を置き換える。繰返しは、繰返しプロセッサ１５を使用してＬ回実行されうる。繰返し処理が停止した後、または、繰返し処理の範囲内におけるある時点において、最後の周波数領域再構成２８’’’が、回旋プロセッサ４０から導出されうる。最後の周波数領域再構成２８’’’は、最新の繰返しステップの中間的な周波数領域再構成２８’でありうる。周波数から時間へのコンバータ３８、例えば、ＩＳＴＦＴを使用して、時間領域再構成２８’’が得られ、そして、それは、処理されたオーディオ信号６でありうる。

このステップ型の関数を使用することに加えて、任意に形づくられたエンベロープ時間領域振幅エンベロープ信号のＳＴＦＴを使用することが提案されることに注意されたい。再構成の制限の広範囲は、時間領域における適切な信号変調の割り当てを通じて、ＴＦ領域におけるそれぞれの回旋を強要されうることが提示される。

すべての実験において、一般公開されている「ＩＤＭＴ−ＳＭＴ−ドラム」データセットが、使用される。「ＷａｖｅＤｒｕｍ０２」サブセットにおいて、６０のドラム・ループがある。そして、３つの楽器、キック・ドラム、スネアドラム、およびハイハットの完全に区分けされた単一のトラックの記録（すなわちオラクル成分信号）として、各々が与えられる。すべての３×６０記録は、４４：１ｋＨｚのサンプリング・レート、１６ビットのモノラルをともなう、圧縮されていないＰＣＭＷＡＶフォーマットにおいてである。全３つのトラックを混ぜ合わせて、６０の混合信号が得られる。加えて、オンセット時間およびこのようにすべてのオンセットの近似のｎ₀は、個々のの楽器ごとに利用できる。この情報を用いて、４４２１のドラムのオンセットイベントのテストセットがミクスチャー、目標楽器の連続的なオンセットの間の各位置から、抜粋を受け取ることによって構築される。そうすることで、各抜粋の前にＮ個のサンプルがゼロ詰めされる。その根拠は、ローカルの過渡部の位置の前に意図的に無音部分を付加することである。そのセクション内で、前のノートオンセットに先行する減衰の影響が除外されえ、そして、潜在的に発生しているプレエコーが測定される。次に、これは、（表現を簡略化するために、ｎ₀として再び示される）ｎ₀＋Ｎへのローカルの過渡部の位置の仮想のシフトに至る。

図８は、１つのセグメントまたはオーディオ信号のフレームまたはテスト・アイテムを例示している概略時間領域ダイアグラムを示す。図８は、混合信号６１ａ、目標ハイハット信号６１ｂ、過渡部の修復６１ｄと比較されたＬＳＥＥ−ＭＳＴＦＴＭ６１ｃを使用した再構成を示し、２００回の繰返し後に得られた両者が、オンセット抜粋ごとに適用され、例えば、それは、点線６０’および６０’’の間の部分である。混合信号６１ａは、明らかな目標ハイハット信号６１ｂに対するキック・ドラムおよびスネアドラムの影響を示す。

図９ａ−ｃは、実施例のドラム・ループの異なるハイハット成分信号の概略ダイアグラムを例示する。過渡部の位置ｎ₀ ６２は、実線によって示され、ここで、過渡部の位置ｎ₀ ６２は、実線によって示される、抜粋境界６０’および６０’’は、点線によって示される。図９ａは、上側における混合信号と下側におけるオラクルハイハット信号を示す。図９ｂは、オラクルマグニチュードおよびゼロ位相期間を伴う初期設定から得られるハイハット信号を示す。ＧＬの場合のＬが２００回繰返しの後の再構成が、図９ｂの上側に示され、ＴＲの場合が、図９ｂの下側に示される。図９ｃは、ゼロ位相におけるＮＭＦＤベースのマグニチュードを有する初期設定から得られるハイハット信号を示す、ＮＭＦＤベースの処理は、図１２−１４（の仕様）に関連して記載される。ＧＬの場合のＬが２００回繰返し後の再構成が、図９ｃの上側に提示され、ＴＲの場合が、図９ｃの下側に提示される。分解は非常によく実施例のドラム・ループで働くので、図９ｂおよび図９ｃの間における目立つ視覚の違いがほとんどない。

図１０は、信号の概略図を示す。図１０ａは、ｃ＝３の成分信号ｘ_cの合計として、混合信号ｘ６４ａを示し、合成ドラムサウンドサンプルの各含んでいるシーケンスは、例えば、ローランドＴＲ８０８のドラムマシンからである。ｘ₁ ６４ａ’’’は、キック・ドラムを示し、ｘ₂ ６４ａ’’は、スネアドラムを示し、ｘ₃ ６４ａ’は、ハイハットを示す。図１０ｂは、ミクスチャーのマグニチュードスペクトグラムＶおよびｃ＝３の成分のマグニチュードスペクトグラムＶ_cの時間周波数表現を示す。より良い可視性のために、周波数軸は、対数関数的間隔でリサンプリングされ、マグニチュードは、対数的に圧縮されている。さらに、信号６４ａの時間周波数表現が参照符号６４ｂによって示される。さらに、図９において、調整された抜粋境界は破線で視覚化され、事実上ｎ₀だけ実線でシフトされる。ドラム・ループは現実的なリズムであるため、抜粋は、同時に演奏される残りのドラム楽器との重ね合わせの程度が変化する。図９ａにおいて、ミクスチャー（上側）は、分離したハイハット信号（下部）と比較してキック・ドラムの顕著な影響を示す。比較するために、図１０ａにおける２つの上側のプロットが、使用された実施例の信号のミクスチャーｘおよびハイハット成分ｘ₃のバージョンにおいてズームインされる。下側のプロットにおいて、一方は、分離してキック・ドラムを見ることができ、これは、例えばローランドＴＲ８０８のドラム・コンピュータからサンプリングされ、減衰する正弦波に似ている。

しかしながら、以下の図は、後述するように異なるホップ・サイズおよび異なるウィンドウ長を使用して導出される。

以下に、スコア通知オーディオ分解シナリオにおいて、提案された過渡部の修復方法または装置をどのように適用するかの実施例を説明する。目的は、過渡部の保護を強化したポリフォニックドラムレコーディングからの独立したドラムサウンドの抽出である。前に使用された理想化された実験の条件とは対照的に、ミクスチャーからの成分信号の振幅スペクトログラムが推定される。このために、分解手法としてＮＭＦＤ（ＮｏｎＮｅｇａｔｉｖｅＭａｔｒｉｘＦａｃｔｏｒＤｅｃｏｎｖｏｌｕｔｉｏｎ）［３，４］を使用しうる。実施例は、ＮＭＦＤにスコア通知された制限を強制する戦略を説明する。最後に、これらのより現実的な条件で実験を繰返し、観察を論じる。

続いて、ｘのＴＦ表現を分解するために使用されるＮＭＦＤ法を簡単に説明する。すでに示されているように、幅広い種類の代替分離手法が存在する。以前の研究［３，４］は、ドラム音の分離のためにＮＭＦの畳み込みバージョンであるＮＭＦＤをうまく適用した。直感的に言えば、根底にある畳み込みまたは畳み込みモデルは、構成要素信号の１つのオーディオイベントが、いくつかのオンセット関連アクティビティ（例えば、特定のドラムに当たる）に対するインパルス応答として働くプロトタイプイベントによって説明できると仮定する。図１０ｂでは、ハイハット構成要素Ｖ₃におけるこの種の挙動を見ることができる。そこでは、８つのオンセットイベントのすべてのインスタンスは、オンセット位置ごとにプロトタイプイベントを挿入することで説明できる、お互いのコピーのように見える。

図９において、例示的なドラム・ループからの選択されたハイハットのオンセットの異なる再構成が詳細に示される。使用されたマグニチュード推定値（図９ｂのオラクルまたは図９ｃのＮＭＦＤベース）にかかわらず、提案されたＴＲ再構成（下側）は、従来のＧＬ再構成（上側）と比較して明らかに低減されたプリエコーを示す。非公式のリスニングテスト（ヘッドフォンを使用することが望ましい）によって、ＭＳＴＦＴの初期化と再構成方法のさまざまな組み合わせで達成できる明確な発声の違いを明確に突き止めることができる。不完全なマグニチュードの分解が単一の構成要素信号内の望ましくないクロストークアーチファクトにつながる場合でも、実施例によるＴＲの方法は、従来のＧＬの再構成よりも過渡部の特性を良好に保つ。さらに、ＭＳＴＦＴの初期化のためのミクスチャーの位相の使用は、オラクル信号と比較してドラム事象の減衰相の再構成に微妙な差異をしばしば気づくことができるので、良い選択であると思われる。しかしながら、不完全なマグニチュードの分解に起因する音色の違いははるかに顕著である。

実施例は、音楽ソースの分離における過渡信号の構成要素の改善された復元のためのグリフィンおよびリムの繰返しのＬＳＥＥ−ＭＳＴＦＴＭ処理への効果的な拡張を示す。装置、エンコーダ、デコーダまたは方法は、過渡部の位置に関する付加的なサイド情報を使用し、これは情報ソースの分離シナリオで与えられる。

さらなる実施例によれば、グリフィンおよびリムの繰返しのＬＳＥＥ−ＭＳＴＦＴＭ処理を効果的に拡張し、音楽ソースの分離における過渡信号の構成要素の改善された修復が示される。この方法または装置は、情報ソースの分離シナリオに示されていると仮定される、過渡部の位置に関する付加的な付加情報を使用する。公的に入手可能な「ＩＤＭＴＳＭＴ−Ｄｒｕｍｓ」データセットを用いた２つの実験は、実施例による方法、エンコーダ、またはデコーダが、実験の条件下および、最高水準のソース分離技術を使用して得られた成分信号の両方においてプレエコーを減少させるのに有益であることを示した。

実施例によれば、ソース分離の状況で抽出された過渡信号の構成要素の知覚的な品質が改善される。多くの最高水準の技術は、混合信号の振幅短時間フーリエ変換（ＳＴＦＴ）に適切な分解を適用することに基づく。個々の成分信号の再構成に使用される位相情報は、通常、ミクスチャーから取り出され、複素値の修正されたＳＴＦＴ（ＭＳＴＦＴ）を生じる。ＳＴＦＴが目標ＭＳＴＦＴに近似する時間領域信号を再構成するための様々な方法がある。位相の不整合性のために、これらの再構築された信号は、過渡部の構成要素に先行するプリエコーのようなアーティファクトを含む可能性が高い。実施例は、この問題を改善するためのグリフィンおよびリムによる繰返し信号再構成処理の拡張を示す。公的に利用可能なテストセットを使用して注意深く作成された実験は、本方法または装置がプリエコーを相当に減衰させ、依然として元のアプローチと同様の収束特性を示すことを示している。

さらなる実験において、グリフィンおよびリムによる元のアプローチと同様の収束特性を依然として示す一方、この方法または装置はプレエコーをかなり減衰させることが示される。スコアに基づいたオーディオ分解を含む３番目の実験でも改善が見られる。

以下の図は、装置２に関連するさらなる実施例に関連する。

図１５は、オーディオ信号４を符号化するためのオーディオエンコーダ１００を示す。オーディオエンコーダは、オーディオ信号プロセッサおよびエンベロープ決定器を備える。オーディオ信号プロセッサ１０２は、符号化されたオーディオ信号１０８が、時間領域オーディオ信号のシーケンスまたは周波数領域フレームの表現と、目標時間領域エンベロープ１０６の表現とを含むように、時間領域オーディオ信号を符号化するように構成される。エンベロープ決定器は、時間領域オーディオ信号からエンベロープを決定するように構成され、ここで、エンベロープ決定器は、エンベロープを所定のエンベロープのセットと比較して、比較に基づいて目標時間領域エンベロープの表現を決定するようにさらに構成される。エンベロープは、オーディオ信号の一部、例えばフレームのエンベロープまたはオーディオ信号のさらなる部分の時間領域エンベロープでありうる。さらに、エンベロープは、符号化されたオーディオ信号にエンベロープを含めるように構成されうるオーディオ信号プロセッサに提供されうる。

換言すれば、エンベロープ、例えば、オーディオ信号のフレームなどの部分の時間領域エンベロープを決定することによって、（標準）オーディオエンコーダは、オーディオエンコーダ１００に拡張されうる。導出されたエンベロープは、コードブックまたはルックアップテーブル内の１つまたは複数の所定の時間領域エンベロープと比較されうる。最も適合する所定のエンベロープの位置は、例えば、ビット数を使用して符号化されうる。したがって、例えば、１６個の異なる所定の時間ドメインエンベロープをアドレスするために４ビット、例えば、３２個の所定の時間ドメインエンベロープをアドレスするために５ビット、または、異なる所定の時間領域エンベロープに応じて、さらに異なる数のビット数が使用されうる。

図１６は、装置２および入力インタフェース１１２を含むオーディオデコーダ１１０を示す。入力インタフェース１１２は、符号化されたオーディオ信号を受信しうる。符号化されたオーディオ信号は、周波数領域フレームのシーケンスの表現および目標時間領域エンベロープの表現を含みうる。

換言すれば、デコーダ１１０は、例えばエンコーダ１００から符号化された音声信号を受け取ることができる。デコーダ１１０は、例えば、エンコーダ１００から符号化されたオーディオ信号を受信しうる。入力インタフェース１１２あるいは装置２、または他の手段は、目標時間領域エンベロープ１４またはその表現、例えばルックアップテーブルまたはコードブックにおける目標時間領域エンベロープの位置を示す一連のビットを抽出しうる。さらにまた、さらに、装置２は、例えば符号化されたオーディオ信号の破損された位相をまだ変化していない絶対値を有するように調整することによって、符号化されたオーディオ信号１０８を復号化し、または装置は、例えば符号化されたオーディオ信号のスペクトルのマグニチュードを十分にまたは完全に復号化した復号化ユニットから、復号化されたオーディオ信号の位相値を補正することができ、装置は、デコードユニットによって壊れているかもしれないデコードされたオーディオ信号の位相をさらに調整する。

図１７は、一連の周波数領域フレーム１２の表現および目標時間領域エンベロープ１４の表現を含むオーディオ信号１１４を示す。時間領域オーディオ信号１２の一連の周波数領域フレームの表現は、標準オーディオ符号化方式による符号化されたオーディオ信号でありうる。さらにまた、目標時間領域エンベロープ１４の表現は、目標時間領域エンベロープのビット表現でありうる。ビット表現は、例えば、目標時間領域エンベロープのサンプリングおよび量子化を使用することによって、またはさらなるデジタル化方法によって導出しうる。さらに、目標時間領域エンベロープ１４の表現は、例えば、コードブックのインデックスでありえ、またはビット数で示されまたは符号化されたルックアップテーブルでありうる。

図１８は、実施例によるオーディオソース分離プロセッサ１１６の概略ブロック図を示す。オーディオソース分離プロセッサは、装置２およびスペクトルマスク器１１８を含む。スペクトルマスク器は、修正されたオーディオ信号１２０を導出するために、もとのオーディオ信号４のスペクトルをマスキングしうる。もとのオーディオ信号４と比較して、修正されたオーディオ信号１２０は、低減された数の周波数帯域または時間周波数ビンを含みうる。さらに、修正されたオーディオ信号は、オーディオ信号４の１つのソースまたは１つの楽器または１つの（人間の）話し手のみを含みうる。ここで、他のソース、話し手、または楽器の周波数の寄与が隠されたりマスクされたりしない。しかしながら、修正されたオーディオ信号１２０のマグニチュードの値は、（所望の）処理されたオーディオ信号６のマグニチュードの値と一致する可能性があるので、修正されたオーディオ信号の位相値は破損している可能性がある。したがって、装置２は、目標時間領域エンベロープ１４に対する修正オーディオ信号の位相値を補正しうる。

図１９は、実施例による帯域幅エンハンスメントプロセッサ１２２の概略ブロック図を示す。帯域幅エンハンスメントプロセッサ１２２は、符号化されたオーディオ信号１２４を処理するために構成される。さらに、帯域幅エンハンスメントプロセッサ１２２は、エンハンスメントプロセッサ１２６および装置２を備える。エンハンスメントプロセッサ１２６は、符号化された信号に含まれるオーディオ信号帯域からエンハンスメント信号１２７を生成するように構成される。そして、ここで、エンハンスメントプロセッサ１２６は、符号化された信号１２２に含まれる符号化された表現から、または符号化された信号に含まれるオーディオ信号帯域から、目標時間領域エンベロープ１４を抽出するように構成される。さらに、装置２は、目標時間領域エンベロープを使用してエンハンスメント信号１２６を処理しうる。

換言すれば、エンハンスメントプロセッサ１２６は、オーディオ信号帯域をコア符号化するか、または符号化されたオーディオ信号のコア符号化されたオーディオ信号を受信しうる。さらに、エンハンスメントプロセッサ１２６は、例えば、符号化されたオーディオ信号のパラメータおよびオーディオ信号のコア符号化されたベース帯域部分を使用して、オーディオ信号のさらなる帯域を計算しうる。さらに、目標時間領域エンベロープ１４が符号化オーディオ信号１２４内に存在しえ、またはエンハンスメントプロセッサが、オーディオ信号のベース帯域部分から目標時間領域エンベロープを計算するように構成されうる。

図２０は、スペクトルの概略図を例示する。スペクトルは、図２０の図示の例では７つのスケールファクタバンドＳＣＢ１ないしＳＣＢ７が存在するスケールファクタバンドＳＣＢに再分割される。スケールファクタバンドは、ＡＡＣ規格で定義され、図２０に概略的に図示されているように、高い周波数まで帯域幅が増加するＡＡＣスケールファクタバンドとすることができる。インテリジェントギャップフィリングは、スペクトルの最初からではなく、すなわち低周波数で行うことが好ましいが、３０９に示すＩＧＦ開始周波数でＩＧＦ動作を開始することが好ましい。したがって、コア周波数帯域は最低周波数からＩＧＦ開始周波数まで伸びる。ＩＧＦ開始周波数より上では、第２のスペクトル部分の第２のセットによって表される低分解能成分から高分解能スペクトル成分３０４，３０５，３０６，３０７（第１のスペクトル部分の第１のセット）を分離するためにスペクトル分析が適用される。図２０は、エンハンスメント処理プロセッサ１２６に例示的に入力されるスペクトルを示す。すなわち、コア・エンコーダは全範囲で動作するが、有意な量のゼロ・スペクトル値を符号化する。すなわち、これらのゼロ・スペクトル値は、ゼロに量子化されるか、または量子化の前または量子化に続いてゼロに設定される。とにかく、コア・エンコーダは全範囲で動作する、すなわちスペクトルが図示のように動作し、すなわち、コア・デコーダは、より低いスペクトル分解能を有する第２のスペクトル部分の第２の組のインテリジェントギャップフィリングまたは符号化を必ずしも意識する必要はない。

好ましくは、高分解能は、ＭＤＣＴラインのようなスペクトル線のラインごとの符号化によって定義され、第２の分解能または低分解能は、例えば、スケールファクタバンドごとに単一のスペクトル値のみを計算することによって定義される。ここで、スケールファクタバンドはいくつかの周波数ラインをカバーする。したがって、第２の低分解能は、スペクトル分解能に関して、ＡＡＣまたはＵＳＡＣコア符号器のようなコア符号器によって典型的に適用されるラインごとの符号化によって定義される第２または高分解能よりもはるかに低い。

特に、コア・エンコーダが低ビットレート条件にある場合、コア・バンドにおける追加のノイズ充填動作、すなわちＩＧＦ開始周波数よりも低い周波数、すなわちスケールファクタバンドＳＣＢ１〜ＳＣＢ３が付加的に適用されうる。ノイズ充填においては、ゼロに量子化されたいくつかの隣接スペクトル・ラインが存在する。デコーダ側では、ゼロに量子化されたこれらのスペクトル値が再合成され、再合成されたスペクトル値は、ノイズ充填エネルギーを用いてそのマグニチュードが調整される。ＵＳＡＣのような絶対的な用語または相対的な意味で、特にスケールファクタに関して与えられるノイズ充填エネルギーは、ゼロに量子化されたスペクトル値のセットのエネルギーに対応する。これらのノイズ充填スペクトル線はまた、他の周波数からの周波数タイルを使用して周波数再生に依存するＩＧＦ動作を伴わない直接的なノイズ充填合成によって再生される第３のスペクトル部分の第３のセットであると考えることができ、ソース範囲と、エネルギー情報Ｅ₁，Ｅ₂，Ｅ₃，Ｅ₄とを含む。

好ましくは、エネルギー情報が計算されるバンドは、スケールファクタバンドと一致する。他の実施例において、スケールファクタバンド４および５に対して例えば単一のエネルギー情報値のみが送信されるようにエネルギー情報値のグループ化が適用されるが、この実施例においてさえも、グループ化された再構成バンドの境界はスケールファクタバンドの境界と一致する。異なる帯域分割が適用される場合、特定の再計算または同期計算が適用されてもよく、これは特定の実装に応じて意味をなしうる。

符号化オーディオ信号１２４のコア符号化部分またはコア符号化周波数帯は、カットオフ周波数またはＩＧＦ開始周波数３０９までのオーディオ信号の高分解能表現を含みうる。このＩＧＦ開始周波数３０９より上では、オーディオ信号は、例えばパラメトリック符号化を使用して低分解能で符号化されたスケールファクタバンドを含みうる。しかし、コア符号化されたベースバンド部分、例えば、パラメータを使用して、符号化されたオーディオ信号１２４を復号化しうる。これは１回または複数回行いうる。

これは、第１のカットオフ周波数１３０を上回ってもマグニチュード値の良好な再構成を提供しうる。しかしながら、少なくとも連続したスケールファクタバンド間のカットオフ周波数の周りでは、コア符号化ベースバンド部分１２８の最上の周波数または最高周波数は、コア符号化ベースバンドのパディングのために、コア符号化ベースバンド部分の最低周波数に隣接しているＩＧＦ開始周波数３０９よりも高い周波数から高い周波数に変化すると、位相値が破損する可能性がある。したがって、ベースバンド再構成オーディオ信号は、帯域拡張信号の位相を再構成するために装置２に入力されてもよい。

さらに、コア符号化されたベースバンド部分がもとのオーディオ信号に関する多くの情報を含むので、帯域幅エンハンスメントが機能する。これは、もとのオーディオ信号のエンベロープが、たとえもとのオーディオ信号のエンベロープのさらなる高周波成分のためにより強調されても、コア符号化されたベースバンド部分のエンベロープがもとのオーディオ信号のエンベロープと少なくとも類似しているという結論に至る。そして、それは、コア符号化されたベースバンド部分には存在しないか、または欠けている。

図２１は、上側の第１の繰返しステップの後、第２の繰返しステップの数が図２１の下側の最初の繰返しステップ数よりも大きい場合の（中間）時間領域再構成の概略図を示す。比較的高いリップル１３２は、一連の周波数領域フレームの隣接フレームの不整合性から生じる。通常、時間領域信号から開始して、時間領域信号のＳＴＦＴの逆ＳＴＦＴは、時間領域信号において再び生じる。本願明細書において、隣接する周波数領域フレームは、ＳＴＦＴが適用された後に整合しているので、逆ＳＴＦＴ演算の重畳加算処理は、もとの信号を合計するか、または明らかにする。しかしながら、破損した位相値を有する周波数領域から開始して、隣接する周波数領域フレームは整合性がない（すなわち、不整合である）。ここで、周波数領域信号のＩＳＴＦＴのＳＴＦＴは、図２１の上側に示されているように、適正または整合性のある音声信号につながることはない。しかしながら、このアルゴリズムが繰返しもとのマグニチュードに適用される場合、各繰返しステップにおいてリップル１３２が低減され、図２１の下側に示される（ほぼ完全な）再構成オーディオ信号が得られることが数学的に証明される。本願明細書において、リップル１３２は低減される。換言すれば、中間的な時間領域信号のマグニチュードは、各繰返しステップ後の一連の周波数領域フレームの初期振幅値に変換される。連続合成ウィンドウ１３６の間の０．５のホップ・サイズは、便宜上選択され、任意の適切な値、例えば、０．７５に設定することができることに留意しなければならない。

図２２は、処理されたオーディオ信号を得るために、オーディオ信号を処理する方法２２００の概略ブロック図を示す。方法２２００は、オーディオ信号のオーバーラップしているフレームを表現する一連の周波数領域フレームのスペクトル値のための位相値を計算するステップ２２０５を含み、ここで、位相値は、処理されたオーディオ信号に関連した目標時間領域エンベロープの情報に基づいて計算され、その結果、処理されたオーディオ信号は、少なくとも近似に、目標時間領域エンベロープおよび一連の周波数領域フレームによって決定されたスペクトル・エンベロープを有する。

図２３は、オーディオ復号化の方法２３００の概略ブロック図を示す。方法２３００は、ステップ２３０５において方法２２００を含み、ステップ２３１０において、符号化された信号を受信して、符号化された信号は、一連の周波数領域フレームの表現と、目標時間領域エンベロープの表現とを含む。

図２４は、オーディオソース分離の方法２４００の概略ブロック図を示す。方法２４００は、方法２２００を実行するためのステップ２４０５、および処理のための装置の中に入力する修正されたオーディオ信号を得るためにもとのオーディオ信号のスペクトルをマスキングし、ここで、処理されたオーディオ信号は、目標時間領域エンベロープに関連した分離されたソース信号である。

図２５は、符号化されたオーディオ信号の帯域幅エンハンスメントの方法の概略ブロック図を示す。方法２５００は、符号化された信号において含まれたオーディオ信号帯域から拡張信号を生成するステップ２５０５、方法２２００を実行するためのステップ２５１０、およびステップ２５１５を含む。生成するステップは、符号化された信号に含まれる符号化された表現から、または符号化された信号に含まれるオーディオ信号帯域から目標時間領域エンベロープを抽出することを含む。

図２６は、オーディオ符号化の方法２６００の概略ブロック図を示す。方法２６００は、符号化されたオーディオ信号が、時間領域オーディオ信号の一連の周波数領域フレームの表現および目標時間領域エンベロープの表現を含むように、時間領域オーディオ信号を符号化するステップ２６０５、および時間領域オーディオ信号からエンベロープを決定するステップ２６１０を含む。ここで、エンベロープ決定器は、さらに、エンベロープを、所定のエンベロープのセットと比較して、比較に基づいて、目標時間領域エンベロープの表現を決定する。

本発明のさらなる実施例は、以下の例に関する。これは、
１）時間周波数領域表現から時間領域信号を繰返し再構成すること、
２）マグニチュード、位相情報および時間周波数領域表現に対する初期推定を生成すること、
３）繰返しの間、ある信号特性に中間的信号操作を適用すること、
４）時間周波数領域表現を時間領域へ変換すること、
５）任意の振幅エンベロープを有する中間的な時間領域信号を変調すること、
６）変調された時間領域信号を時間周波数領域へ変換すること、
７）時間周波数領域表現を更新するために結果として生じる位相情報を使用すること、
８）隣接するフレームから中央フレームに特に畳み込まれ、かつシフトされた寄与を追加する時間周波数領域処理によって逆変換および順変換のシーケンスをエミュレートすること、
９）短縮された畳み込みカーネルを使用し、対称性を利用して上記の処理を近似すること、
１０）目標フレームの時間周波数表現との所望のフレームの畳み込みによって時間領域変調をエミュレートすること、
１１）時間周波数領域操作を時間周波数依存方式で適用するには、例えば、時間周波数ビンを選択するためにのみ操作を適用すること、または、
１２）知覚的オーディオ符号化のための上述の処理を使用するために、オーディオソース分離、および／または帯域幅エンハンスメントを含むこと、
のための、方法、装置またはプログラムでありうる。

オーディオ分解シナリオにおける複数種類の評価が、実施例による装置または方法に適用される。ここで、目的は、ポリフォニックドラムレコーディングから分離されたドラムサウンドを抽出することである。真の「オラクル」構成要素信号およびその正確な過渡部の位置など、必要なすべてのサイド情報が豊富になっている公的に利用可能なテストセットを使用することができる。ある実験では、実験の条件下で、信号再構成における過渡部の保護のための提案された方法または装置の利点を評価することに焦点を当てるために、すべてのサイド情報の使用が行われる。これらの理想化された条件の下で、提案された方法は、もとの方法または装置と同様の収束特性を依然として示す一方で、プリエコーをかなり低減させることができる。さらなる実験では、ミクスチャーからの成分信号のＳＴＦＴＭを推定するために、スコアに基づいた制限を伴う最高水準の分解技術［３，４］が採用される。これらの（より現実的な）条件下で、提案された方法は依然として有意な改善をもたらす。

本明細書では、ライン上の信号は、ラインの参照番号によって時々命名されることがあり、時にはラインに起因する参照番号自体によって示されることが理解されるべきである。したがって、ある信号を有するラインが信号そのものを示すような表記である。回線はハードワイヤード実装の物理回線にすることができる。しかし、コンピュータ化された実装では、物理的な線は存在しないが、線によって表される信号は、ある計算モジュールから他の計算モジュールに伝送される。

本発明は、ブロックが実際のまたは論理的なハードウェア構成要素を表すブロック図の文脈で説明されているが、本発明はまた、コンピュータ実装方法によって実施することもできる。後者の場合、ブロックは対応する方法ステップを表し、これらのステップは対応する論理ハードウェア・ブロックまたは物理ハードウェア・ブロックによって実行される機能を表す。

いくつかの態様が装置という脈絡の中で記載されていた場合であっても、該態様も、対応する方法の説明を表現するものとして理解される。その結果、ブロックまたは装置は、方法のステップに対応するか、または方法ステップの特徴として理解されうる。類推によって、態様は、それとともに記載されていたか、または、方法ステップもブロックに対応し、または装置に対応する詳細あるいは特性の説明を表す。方法ステップのいくつかまたは全ては、ハードウェア装置（または、ハードウェア装置を使用するとともに）、例えば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路によって実行されうる。いくつかの実施の形態において、最も重要な方法ステップのいくつかまたはいくらかは、この種の装置によって実行されうる。

本発明の送信または符号化された信号は、デジタル記憶媒体に格納することができ、または無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体上で伝送することができる。

特定の実現要求に応じて、本発明の実施の形態は、ハードウェアにおいて、または、ソフトウェアにおいて、実行されうる。その実現態様は、それぞれの方法が実行されるように、プログラミング可能なコンピュータ・システムと協働しうるか、または、協働する、そこに格納された電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えば、フロッピー（登録商標）ディスク、ＤＶＤ、ブルーレイディスク、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、またはＦＬＡＳＨメモリを使用して実行されうる。従って、デジタル記憶媒体は、コンピュータ読み込み可能でもよい。

本発明による若干の実施の形態は、本願明細書において記載される方法のいくつかが実行されるように、プログラミング可能なコンピュータ・システムと協働することができる電子的に読み込み可能な制御信号を有するデータキャリアを含む。

通常、本発明の実施の形態は、プログラムコードを有するコンピュータ・プログラム製品として実施され、コンピュータ・プログラム製品がコンピュータ上で実行する場合、プログラムコードは、いくつかの方法を実行するために作動される。プログラムコードは、例えば、機械可読キャリアに格納される。

他の実施の形態は、本願明細書において記載される方法のいくつかを実行するためのコンピュータ・プログラムを含み、コンピュータ・プログラムが、機械可読キャリアに格納される。

換言すれば、従って、コンピュータ・プログラムがコンピュータ上で実行する場合、本発明の方法の実施の形態は、本願明細書において記載される方法のいくつかを実行するためのプログラムコードを有するコンピュータ・プログラムである。

従って、本発明の方法のさらなる実施の形態は、本願明細書において記載される方法のいくつかを実行するためのコンピュータ・プログラムを含むデータキャリア（または、デジタル記憶媒体、またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体または記録された媒体は、典型的には、有体物および／または無体物である。

従って、本発明の方法のさらなる実施の形態は、本願明細書において記載される方法のいくつかを実行するためのコンピュータ・プログラムを表しているデータストリームまたは一連の信号である。例えば、データストリームまたは一連の信号は、データ通信接続、例えば、インターネットを介して転送されるように構成されうる。

さらなる実施の形態は、本願明細書において記載される方法のいくつかを実行するために構成され、または適応される処理手段、例えば、コンピュータ、またはプログラミング可能な論理回路を含む。

さらなる実施の形態は、その上にインストールされ、本願明細書において記載される方法のいくつかを実行するためのコンピュータ・プログラムを有するコンピュータを含む。

発明に従う別の実施の形態は、ここに記載された方法のうちの少なくとも１つを実行するためのコンピュータ・プログラムを、受信器に転送するように構成された装置またはシステムを含む。転送は、例えば、電子的にまたは光学的である。受信器は、例えば、コンピュータまたは携帯機器または記憶デバイスなどである。装置またはシステムは、例えば、コンピュータ・プログラムを受信器に転送するためのファイルサーバーを含む。

いくつかの実施の形態において、プログラミング可能な論理回路（例えば、現場でプログラム可能なゲートアレイ（ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ））が、本願明細書において記載されるいくつかまたは全ての機能を実行するために使用されうる。いくつかの実施の形態において、現場でプログラム可能なゲートアレイは、本願明細書において記載される方法のいくつかを実行するために、マイクロプロセッサと協働しうる。一般に、方法は、いくつかのハードウェア装置によって、好ましくは実行される。

上述した実施の形態は、本発明の原則の例を表すだけである。本願明細書において記載される装置および詳細の修正および変更は、他の当業者にとって明らかであるものと理解される。こういうわけで、記述の手段および実施の形態の議論によって、本願明細書において表された明細書の詳細な記載によりはむしろ、以下の請求項の範囲にによってのみ制限されるように意図する。

文献
[1] Daniel W. Griffin and Jae S. Lim, "Signal estimation from modified short-time Fourier transform", IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 32, no. 2, pp. 236-243, April 1984.

[2] Jonathan Le Roux, Nobutaka Ono, and Shigeki Sagayama, "Explicit consistency constraints for STFT spectrograms and their application to phase reconstruction" in Proceedings of the ISCA Tutorial and Research Workshop on Statistical And Perceptual Audition, Brisbane, Australia, September 2008, pp. 23-28.

[3] Xinglei Zhu, Gerald T. Beauregard, and Lonce L. Wyse, "Real-time signal estimation from modified short-time Fourier transform magnitude spectra", IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, no. 5, pp. 1645-1653, July 2007.

[4] Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, and Shigeki Sagayama, "Phase initialization schemes for faster spectrogram-consistency-based signal reconstruction" in Proceedings of the Acoustical Society of Japan Autumn Meeting, September 2010, number 3-10-3.

[5] Nicolas Sturmel and Laurent Daudet, "Signal reconstruction from STFT magnitude: a state of the art" in Proceedings of the International Conference on Digital Audio Effects (DAFx), Paris, France, September 2011, pp. 375-386.

[6] Nathanaoel Perraudin, Peter Balazs, and Peter L. Soendergaard, "A fast Griffin-Lim algorithm" in Proceedings IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), New Paltz, NY, USA, October 2013, pp. 1-4.

[7] Dennis L. Sun and Julius O. Smith III, "Estimating a signal from a magnitude spectrogram via convex optimization" in Proceedings of the Audio Engineering Society (AES) Convention, San Francisco, USA, October 2012, Preprint 8785.

[8] Tomohiko Nakamura and Hiokazu Kameoka, "Fast signal reconstruction from magnitude spectrogram of continuous wavelet transform based on spectrogram consistency" in Proceedings of the International Conference on Digital Audio Effects (DAFx), Erlangen, Germany, September 2014, pp. 129-135.

[9] Volker Gnann and Martin Spiertz, "Inversion of shorttime fourier transform magnitude spectrograms with adaptive window lengths" in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, (ICASSP), Taipei, Taiwan, April 2009, pp. 325-328.

[10] Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, and Shigeki Sagayama, "Fast signal reconstruction from magnitude STFT spectrogram based on spectrogram consistency" in Proceedings International Conference on Digital Audio Effects (DAFx), Graz, Austria, September 2010, pp. 397-403.

Claims

処理されたオーディオ信号（６）を得るために、オーディオ信号（４９）を処理するための装置（２）であって、
オーディオ信号（４）のオーバーラップしているフレームを表現している一連の周波数領域フレーム（１２）のスペクトル値のための位相値（１０）を計算するための位相計算機（８）を含み、
前記位相計算機（８）は、前記処理されたオーディオ信号（６）に関連した目標時間領域エンベロープ（１４）についての情報に基づいて、位相値（１０）を計算するように構成され、その結果、前記処理されたオーディオ信号が、少なくとも近似に、前記目標時間領域エンベロープ（１４）および前記一連の周波数領域フレーム（１２）によって決定されたスペクトル・エンベロープを持つ、装置。
前記位相計算機（８）は、
初期の位相値（１８）から開始して、オーバーラップしている範囲の中のオーバーラップしているブロックの整合性を必要とする最適化目標を使って、スペクトル値のための位相値を計算するために、繰返しのアルゴリズムを実行するための繰返しプロセッサ（１６）を含み、
前記繰返しプロセッサ（１６）は、別の繰返しステップの中で、前記目標時間領域エンベロープ（１４）に依存している更新された位相推定（２０）を使うように構成されている、請求項１に記載の装置（２）。
前記位相計算機（８）は、少なくとも１つの目標時間領域エンベロープ（１４）および少なくとも１つの中間的な周波数領域再構成（２８’）のスペクトル表現の回旋、または、オーディオ信号の少なくとも１つの目標時間領域エンベロープまたは少なくとも１つの中間的な周波数領域再構成の、選択された部分または帯域またはハイパス部分のみまたはほんのいくつかの帯域通過部分のみを適用するように構成されている、請求項１または請求項２に記載の装置（２）。
前記位相計算機は、
前記一連の周波数領域フレーム（１２）および先行繰返しステップの初期位相値推定（１８）または位相値推定（２０）から前記オーディオ信号（４）の前記中間的な時間領域再構成（２８）を計算するための周波数から時間へのコンバータ（２２）と、
振幅変調したオーディオ信号（３０）を得るために、目標時間領域エンベロープ（１４）を使用して、中間的な時間領域再構成（２８）を変調するための振幅変調器（２４）と、
前記振幅変調した信号（３０）を、位相値（１０）を持つ別の一連の周波数領域フレーム（３２）に変換するための時間から周波数へのコンバータ（２６）と、を含み、
前記位相計算機は、次の繰返しステップのために、前記一連の周波数領域フレーム（１２）の前記位相値および前記スペクトル値を使うように構成されている、請求項３に記載の装置（２）。
前記位相計算機（８）は、繰返し決定条件が満たされたとき、前記処理されたオーディオ信号（６）として、前記中間的な時間領域再構成（２８）を出力するように構成されている、請求項５に記載の装置（２）。
前記位相計算機は、前記オーディオ信号（４）の前記中間的な周波数領域再構成（２８’）を得るために、回旋カーネルを適用し、シフト・カーネルを適用し、中心的フレームに隣接したフレームのオーバーラップしている部分を前記中心的フレームに追加するための回旋プロセッサ（４０）を含んでいる、請求項４に記載の装置（２）。
前記位相計算機（８）は、次の繰返しステップについて、更新された位相値推定（２０）として、前記回旋（３４）によって得られた位相値（１０）を使用するように構成されている、請求項４または請求項６に記載の装置（２）。
前記目標時間領域エンベロープを前記スペクトル領域に変換するための目標エンベロープコンバータ（３６）をさらに含む、請求項４または請求項６または請求項７のいずれか１つに記載の装置（２）。
最新の繰返しステップおよび前記一連の周波数領域フレーム（１２）から得られた前記位相値推定（１０，２０）を使って、前記中間的な周波数領域再構成（２８’，２８’’’）から前記時間領域再構成（２８’’）を計算するための周波数から時間へのコンバータ（３８）をさらに含む、請求項４または請求項６または請求項７または請求項８のいずれか１つに記載の装置（２）。
前記位相計算機（８）は、前記一連の周波数領域フレーム（１２）を処理するために回旋プロセッサ（４０）を含み、前記回旋プロセッサは、前記中間的な周波数領域再構成を決定するために、時間領域の重畳加算処理を、前記周波数領域の中の前記一連の周波数領域フレーム（１２）に適用するように構成されている、請求項４または請求項６または請求項７または請求項８または請求項９のいずれか１つに記載の装置（２）。
前記回旋プロセッサ（４０）は、現在の周波数領域フレームに基づいて、時間領域の重畳加算が前記周波数領域の中で実行された後に、現在の周波数領域フレームに寄与する、隣接した周波数領域フレームの部分を決定するように構成され、
前記回旋プロセッサは、前記現在の周波数領域フレーム内の前記隣接した周波数領域フレームの部分のオーバーラップしている位置を決定し、前記オーバーラップしている位置で、隣接する周波数領域フレームの前記部分と前記現在の周波数領域フレームの加算を実行するようにさらに構成されている、請求項１０の装置（２）。
前記回旋プロセッサは、時間領域の重畳加算が前記周波数領域の中で実行された後に、現在の周波数領域フレームに寄与する、隣接した周波数領域フレームの部分を決定するために、時間領域合成と時間領域分析ウィンドウとを、周波数から時間に変換するように構成され、
前記回旋プロセッサは、前記現在の周波数領域フレーム内で、前記隣接した周波数領域フレームの位置を、オーバーラップしている位置に移動して、前記オーバーラップしている位置で、前記隣接した周波数領域フレームの部分を前記現在のフレームに適用するようにさらに構成されている、請求項１０または請求項１１に記載の装置（２）。
前記位相計算機（８）は、グリフィンとリムによる繰返しの信号再構成処理に従って、繰返しのアルゴリズムを実行するように構成されている、請求項１ないし請求項１２のいずれか１つに記載の装置（２）。
オーディオ信号を符号化するためのオーディオエンコーダ（１００）であって、
符号化されたオーディオ信号（１０８）が、オーディオ信号の一連の周波数領域フレームの表現と目標時間領域エンベロープの表現とを含むように、オーディオ信号を符号化するために構成されたオーディオ信号プロセッサ（１０２）と、
前記オーディオ信号から時間領域エンベロープを決定するために構成されたエンベロープ決定器（１０４）と、を含み、
前記エンベロープ決定器（１０４）は、前記エンベロープを、所定のエンベロープのセットと比較して、前記比較に基づいて、前記目標時間領域エンベロープ（１４）の表現を決定するようにさらに構成されている、オーディオエンコーダ（１００）。
請求項１ないし請求項１３のいずれか１つに記載の装置（２）と、
符号化された信号（１０８）を受信するための入力インタフェース（１１２）と、を含み、
前記符号化された信号は、前記一連の周波数領域フレームの表現および前記目標時間領域エンベロープ（１８）の表現を含む、オーディオデコーダ（１１０）。
前記時間領域オーディオ信号（４）の一連の周波数領域フレーム（１２）の表現および目標時間領域エンベロープ（１４）の表現を含む、オーディオ信号（１１４）。
請求項１ないし請求項１３のいずれか１つに記載の処理するための装置（２）と、
処理するための装置に入力する変調されたオーディオ信号を得るために、もとのオーディオ信号のスペクトルをマスキングするためのスペクトルマスク器（１１８）と、を含み、
前記処理されたオーディオ信号（６）は、前記目標時間領域エンベロープ（１４）と関連した、分離されたソース信号である、オーディオソース分離プロセッサ（１１６）。
符号化されたオーディオ信号を処理するための帯域幅エンハンスメントプロセッサ（１２２）であって、
前記符号化された信号に含まれるオーディオ信号帯域からエンハンスメント信号（１２７）を生成するためのエンハンスメントプロセッサ（１２６）と、
請求項１ないし請求項１３のいずれか１つに記載の処理するための装置（２）と、を含み、
前記エンハンスメントプロセッサ（１２６）は、前記符号化された信号に含まれる符号化された表現、または、前記符号化された信号に含まれる前記オーディオ信号帯域から、前記目標時間領域エンベロープ（１４）を抽出するように構成されている、帯域幅エンハンスメントプロセッサ（１２２）。
処理されたオーディオ信号を得るためにオーディオ信号を処理するための方法（２２００）であって、
前記オーディオ信号のオーバーラップしているフレームを表現する一連の周波数領域フレームのスペクトル値のための位相値を計算するステップを含み、
前記位相値は、前記処理されたオーディオ信号に関連した目標時間領域エンベロープについての情報に基づいて計算され、その結果、前記処理されたオーディオ信号が、少なくとも近似に、前記一連の周波数領域フレームによって決定された前記目標時間領域エンベロープおよびスペクトル・エンベロープを持つ、方法（２２００）。
オーディオ復号化の方法（２３００）であって、
請求項１９の方法、
符号化された信号を受信するステップを含み、前記符号化された信号は、前記一連の周波数領域フレームの表現および前記目標時間領域エンベロープの表現を含む、方法（２３００）。
オーディオソース分離の方法（２４００）であって、
請求項１９の方法、
処理のための装置の中に入力される変調されたオーディオ信号を得るために、もとのオーディオ信号のスペクトルをマスキングするステップを含み、
前記処理されたオーディオ信号は、前記目標時間領域エンベロープに関連した分離されたソース信号である、方法（２４００）。
符号化されたオーディオ信号の帯域幅エンハンスメントの方法（２５００）であって、
エンハンスメント信号を、前記符号化された信号に含まれたオーディオ信号帯域から生成するステップと、
請求項１９の方法を含み、
前記生成するステップは、前記符号化された信号に含まれた符号化された表現、または、前記符号化された信号に含まれた前記オーディオ信号帯域から、前記目標時間領域エンベロープを抽出するステップを含む、方法（２５００）。
オーディオ符号化の方法（２６００）であって、
前記符号化されたオーディオ信号が、オーディオ信号の一連の周波数領域フレームの表現および目標時間領域エンベロープの表現を含むように、前記オーディオ信号を符号化し、
前記オーディオ信号から時間領域エンベロープを決定し、
前記エンベロープを、所定のエンベロープのセットと比較して、前記比較に基づいて、前記目標時間領域エンベロープの表現を決定するステップを含む、方法（２６００）。
コンピュータまたはプロセッサで動作させると、請求項１９、請求項２０、請求項２１、請求項２２、または請求項２３のうちのいずれか１つの方法を実行するためのコンピュータ・プログラム。