JP2016539377A

JP2016539377A - 低演算資源を用いて符号化済みオーディオ信号を復号化する装置及び方法

Info

Publication number: JP2016539377A
Application number: JP2016536886A
Authority: JP
Inventors: ニーデルマイエル，アンドレアス; ヴィルデ，ステファン; フィッシャー，ダニエル; ヒルデンブラント，マティアス; ガイエル，マルク; ノイエンドルフ，マックス
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2013-12-09
Filing date: 2014-11-28
Publication date: 2016-12-15
Anticipated expiration: 2034-11-28
Also published as: ES2650941T3; CN105981101B; KR101854298B1; US20160284359A1; US9799345B2; EP3080803B1; US10332536B2; US20170278522A1; CA2931958C; MX353703B; RU2644135C2; EP3080803A1; MX2016007430A; CA2931958A1; JP6286554B2; WO2015086351A1; BR112016012689B1; CN105981101A; EP2881943A1; KR20160079878A

Abstract

第１のハーモニック帯域幅拡張モード又は第２の非ハーモニック帯域幅拡張モードのいずれかを示す帯域幅拡張制御データを含む符号化済みオーディオ信号（１０１）を復号化する装置は、第１のハーモニック帯域幅拡張モード又は第２の非ハーモニック帯域幅拡張モードのいずれかを示す帯域幅拡張制御データを含む符号化済みオーディオ信号を受信するための入力インターフェイス（１００）と、第２の非ハーモニック帯域幅拡張モードを使用してオーディオ信号（１０１）を復号化するためのプロセッサ（１０２）と、符号化済み信号に対して帯域幅拡張制御データが第１のハーモニック帯域幅拡張モードを示している場合でも、第２の非ハーモニック帯域幅拡張モードを使用してオーディオ信号を復号化するようプロセッサ（１０２）を制御するためのコントローラ（１０４）と、を備える。【選択図】図１ａ

Description

本発明はオーディオ処理に関し、特に低減された演算資源を用いて符号化済みオーディオ信号を復号化する概念に関するものである。

「スピーチ及びオーディオ統合符号化」（ＵＳＡＣ）標準（非特許文献１）は、ハーモニック転換器を用いたハーモニック帯域幅拡張ツールＨＢＥを標準化しており、このツールはスペクトル帯域複製（ＳＢＲ）システムの拡張であり、非特許文献１及び２においてそれぞれ標準化されている。

ＳＢＲは、所与の低周波数部分を所与のサイド情報と一緒に使用することによって、帯域幅制限されたオーディオ信号の高周波コンテンツを合成する。SBRツールは非特許文献２に記載されており、強化されたＳＢＲ、つまりｅＳＢＲは非特許文献１に記載されている。位相ボコーダを用いるハーモニック帯域幅拡張ＨＢＥはｅＳＢＲの一部であり、標準的なＳＢＲ処理において実行されるコピーパッチング（copy-up patching）された信号の中で度々観測される聴覚的粗さを避けるために発展してきた。ＨＢＥの主たる目的は、ｅＳＢＲを適用しながら、所与のオーディオ信号の合成された高周波領域におけるハーモニックな構造を保存することである。

符号器がＨＢＥツールの使用を選択できる一方で、非特許文献１に適合する復号器は、ＨＢＥ関連データの復号化及び適用を提供しなければならない。

リスニング試験（非特許文献３）は、ＨＢＥを使用することで、非特許文献１に従って復号化されたビットストリームの知覚的オーディオ品質を改善するであろうことを示している。

ＨＢＥツールは、従来のＳＢＲシステムの単純なコピーパッチングを、先進的な信号処理手順によって置き換えるものである。これら手順は、フィルタ状態及び遅延ラインのために、かなりの量の処理パワーとメモリとを必要とする。これとは対照的に、コピーパッチングの演算複雑性は無視できる。

ＨＢＥについて観測された複雑性の増大は、パーソナルコンピュータ装置については問題にならない。しかしながら、復号器チップを設計するチップ製作者は、演算上の作業量とメモリ消費に関して、確実で複雑性の低い制約を求めている。その一方で、聴覚的粗さを避ける目的で、ＨＢＥ処理が望まれている。

ＵＳＡＣ−ビットストリームは、非特許文献1に記載のように復号化される。このことは、非特許文献１の７．５．３に記載のように、ＨＢＥ復号器ツールの実装を必然的に暗示している。このツールは、ｅＳＢＲ処理を含む全てのコーデック作動ポイントにおいて信号伝達され得る。非特許文献１のプロファイルと適合基準を満足する復号器装置にとって、このことは、演算上の作業量とメモリ消費の全体が、最悪の場合には有意に増大することを意味している。

演算複雑性における実際の増大は、実装とプラットフォームに依存する。オーディオチャネル毎のメモリ消費の増大は、メモリが最適化された現在の実装においては、実際のＨＢＥ処理について少なくとも１５ｋワードである。

[1]ISO/IEC 23003-3:2012: "Unified speech and audio coding" [2]ISO/IEC 14496-3:2009: "Audio" [3]ISO/IEC JTCI/SC29/WG11 MPEG2011/N12232: "USAC Verification Test Report"

本発明の目的は、現存の符号化済みオーディオ信号を処理するために、低い演算量でかつそれにも拘わらず適切な、符号化済みオーディオ信号を復号化する改良された概念を提供することである。

この目的は、請求項１に従う符号化済みオーディオ信号を復号化する装置、請求項１３に従う符号化済みオーディオ信号を復号化する方法、又は請求項１４に従うコンピュータプログラムによって達成される。

本発明は、次のような知見に基づいている。すなわち、ハーモニック帯域幅拡張モードを使用して復号化されるべき部分を含み、非ハーモニック帯域幅拡張モードを使用して復号化されるべき部分をさらに含むオーディオ信号が、全体信号に亘って非ハーモニック帯域幅拡張モードだけを使用して復号化される場合、低減されたメモリ資源を必要とするオーディオ復号化概念が達成されるという知見である。換言すれば、ある信号がハーモニック帯域幅拡張モードを使用して復号化されるべく信号伝達されている部分又はフレームを含む場合であっても、これら部分又はフレームが非ハーモニック帯域幅拡張モードを使用して復号化されるということである。この目的で、非ハーモニック帯域幅拡張モードを使用してオーディオ信号を復号化するためのプロセッサが提供され、加えて、符号化済みオーディオ信号内に含まれた帯域幅拡張制御データがそのオーディオ信号について第１の−つまりハーモニックな−帯域幅拡張モードを示す場合であっても、第２の非ハーモニック帯域幅拡張モードを使用してオーディオ信号を復号化するようにプロセッサを制御するために、その装置内にコントローラが実装されるか、又は復号化の方法の中で制御ステップが実行される。それ故、プロセッサは、演算的に非常に効率的な非ハーモニック帯域幅拡張モードにだけ対応するための、メモリ及び処理パワーのような対応するハードウエア資源だけを持って実装されればよい。他方で、オーディオ復号器は、許容可能な品質を持つ復号化済み信号を得るために、符号化済みオーディオ信号を受け入れかつハーモニック帯域幅拡張モードを用いて復号化することもできる。換言すれば、低い演算資源要求アプリケーションに対しては、たとえ符号化済みオーディオ信号それ自体が、内部に含まれた帯域幅拡張制御データによって、この信号の少なくとも複数の部分がハーモニック帯域幅拡張モードを使用して復号化されることを必要としたとしても、コントローラは、全体のオーディオ信号を、非ハーモニック帯域幅拡張モードを使用して復号化するように、プロセッサを制御するよう構成されている。このように、両方の帯域幅拡張モードを必要とする符号化済みオーディオ信号に対し、完全な後方互換性を維持しながら、演算資源を一方としオーディオ品質を他方とする二者間の良好な妥協が取得される。本発明は、特にＵＳＡＣ復号器の演算量とメモリ要求を低減するという事実により有利である。さらに、好適な実施形態において、所定の又は標準化された非ハーモニック帯域幅拡張モードは、基本的に非ハーモニック帯域幅拡張モードのためには必要でない帯域幅拡張モードデータをできるだけ再利用するためにビットストリーム内で伝送されたハーモニック帯域幅拡張モードデータを使用して修正され、その非ハーモニック帯域幅拡張モードのオーディオ品質が改善される。このように、ＵＳＡＣ標準(非特許文献1)において開示された位相ボコーダ処理に典型的に基づいているハーモニック帯域幅拡張モードを省略することに起因する知覚的品質の障害を緩和するために、この好適な実施形態において、代替的復号化スキームが提案される。

一実施形態では、符号化済みオーディオ信号が符号化済みステレオ又は多チャネルオーディオ信号である場合、プロセッサは第２の非ハーモニック帯域幅拡張モードを使用して符号化済みオーディオ信号を復号化するのに十分なメモリ資源と処理資源とを有する一方で、そのメモリ資源又は処理資源は第１のハーモニック帯域幅拡張モードを使用して符号化済みオーディオ信号を復号化するのには十分でない。これと対照的に、符号化済みオーディオ信号が符号化済みモノラル信号である場合、プロセッサは第２の非ハーモニック帯域幅拡張モードを使用し、かつ第１のハーモニック帯域幅拡張モードを使用して、符号化済みオーディオ信号を復号化するのに十分なメモリ資源と処理資源とを有する。なぜなら、モノラル復号化のための資源は、ステレオ又は多チャネル復号化のための資源に比べて低減されるからである。よって、利用可能な資源はビットストリーム構成、すなわちツールとサンプリングレート等との組合せに依存する。例えば、資源はハーモニックＢＷＥを使用してモノラルビットストリームを復号化するのには十分であるが、プロセッサはハーモニックＢＷＥを使用してステレオビットストリームを復号化するためには資源不足となる可能性がある。

以下に、好適な実施形態について添付の図面を参照しながら以下に説明する。

限られた資源のプロセッサを使用して符号化済みオーディオ信号を復号化するための装置の一実施形態を示す。両方の帯域幅拡張モードについての符号化済みオーディオ信号データの一例を示す。ＵＳＡＣ標準復号器と新規な復号器とを示す表である。図１ａのコントローラを構成するための実施形態のフローチャートを示す。共通の帯域幅拡張ペイロードデータと追加のハーモニック帯域幅拡張データとを有する、符号化済みオーディオ信号の他の構造を示す。標準の非ハーモニック帯域幅拡張モードを修正するためのコントローラの構成を示す。コントローラの他の構成を示す。改良された非ハーモニック帯域幅拡張モードの一構成を示す。プロセッサの好適な構成を示す。単一チャネル要素のための復号化手順のシンタックスを示す。チャネルペア要素のための復号化手順のシンタックスの前半を示す。チャネルペア要素のための復号化手順のシンタックスの後半を示す。改良された非ハーモニック帯域幅拡張モードの他の構成を示す。図８ａに示されたデータの概要を示す。コントローラによって実行された非ハーモニック帯域幅拡張モードの改良の他の構成を示す。パッチングバッファとそのパッチングバッファのコンテンツのシフトとを示す。非ハーモニック帯域幅拡張モードの好ましい修正の説明を示す。

図１ａは、符号化済みオーディオ信号を復号化する装置の一実施形態を示す。符号化済みオーディオ信号は、第１のハーモニック帯域幅拡張モード又は第２の非ハーモニック帯域幅拡張モードのいずれかを示す、帯域幅拡張制御データを含む。符号化済みオーディオ信号はライン１０１によって入力インターフェイス１００に入力される。入力インターフェイスはライン１０８を介して限られた資源のプロセッサ１０２に接続されている。さらに、少なくとも任意にライン１０６を介して入力インターフェイス１００に接続され、さらにライン１１０を介してプロセッサ１０２に接続されている、コントローラ１０４が設けられている。プロセッサ１０２の出力は、符号１１２で示すような復号化済みオーディオ信号である。入力インターフェイス１００は、符号化済みオーディオ信号の１フレームのような符号化済み部分について、第１のハーモニック帯域幅拡張モード又は第２の非ハーモニック帯域幅拡張モードのいずれかを示す、帯域幅拡張制御データを含む符号化済みオーディオ信号を受信するよう構成されている。プロセッサ１０２は、図１ａのライン１１０の近傍に示すように、第２の非ハーモニック帯域幅拡張モードのみを使用してオーディオ信号を復号化するよう構成されている。このことは、コントローラ１０４によって確実になる。コントローラ１０４は、たとえ帯域幅拡張制御データが符号化済みオーディオ信号について第１のハーモニック帯域幅拡張モードを示していても、第２の非ハーモニック帯域幅拡張モードを使用してそのオーディオ信号を復号化するよう、プロセッサ１０２を制御するよう構成されている。

図１ｂは、データストリーム又はビットストリーム内の符号化済みオーディオ信号の好ましい構成を示している。符号化済みオーディオ信号は、全体のオーディオ項目についてのヘッダ１１４を含み、かつ全体のオーディオ項目はフレーム１（１１６）、フレーム２（１１８）及びフレーム３（１２０）のような一連のフレームの中に組織化されている。各フレームはさらに、フレーム１についてのヘッダ１１６ａのような関連ヘッダとフレーム１についてのペイロードデータ１１６ｂとを有している。さらに、第２フレーム１１８も、ヘッダデータ１１８ａとペイロードデータ１１８ｂとを有する。同様に、第３フレーム１２０も、ヘッダ１２０ａとペイロードデータブロック１２０ｂとを有する。ＵＳＡＣ標準においては、ヘッダ１１４はフラグ「harmonicSBR」を有する。もしこのフラグ「harmonicSBR」が０であれば、ＵＳＡＣ標準に定義されているように、全体のオーディオ項目は非ハーモニック帯域幅拡張モードを使用して復号化される。この文脈においてＵＳＡＣ標準については、ISO/IEC 1449-3:2009,オーディオ部門である高効率ＡＡＣ標準（ＨＥ−ＡＡＣ）を参照されたい。しかしながら、harmonicSBRフラグが１の値を有する場合には、ハーモニック帯域幅拡張モードが有効化され、各フレームについて０又は１であり得る個別フラグsbrPatchingModeによって信号伝達され得る。この文脈の中で、２つのフラグの異なる値を示す図１ｃを参照されたい。このように、フラグharmonicSBRが１で、フラグsbrPatchingModeが０である場合には、ＵＳＡＣ標準復号器はハーモニック帯域幅拡張モードを実行する。しかしながら、図１ｃの１３０で示される場合、図１ａのコントローラ１０４は、プロセッサ１０２に非ハーモニック帯域幅拡張モードを実行させるよう制御する。

図２は、本発明の手順の好ましい構成を示す。ステップ２００では、入力インターフェイス１００又は復号化装置の中の他のエンティティが符号化済みオーディオから帯域幅拡張制御データを読み出し、この帯域幅拡張制御データが１フレーム当り１つの指示となり得るか、又は、もし可能なら、ＵＳＡＣ標準に関して図１ｂの文脈において説明したように、１項目当り１つの追加指示となり得る。ステップ２０２では、プロセッサ１０２は帯域幅拡張制御データを受け取り、その帯域幅拡張制御データを図１ａのプロセッサ１０２内に実装されている特異な制御レジスタに格納する。次に、ステップ２０４では、コントローラ１０４がこのプロセッサ制御レジスタにアクセスし、そして２０６に示すように、この制御レジスタを非ハーモニック帯域幅拡張を示す値で上書きする。この点は、ＵＳＡＣシンタックス内で、単一チャネル要素については図６の符号６００で、又はsbr_channel_pair_elementについては図７ａのステップ７００及び図７ｂのステップ７０２、７０４でそれぞれ示されるように、例示的に示されている。特に、図２のブロック２０６において示された「上書き」は、ＵＳＡＣシンタックス内に行６００、７００、７０２、７０４を挿入することによって実行され得る。特に、図６の残りの部分はISO/IEC DIS 23003-3の表４１に対応しており、図７ａ，７ｂはISO/IEC DIS 23003-3の表４２に対応している。この国際標準は、参照によってその全体が本願に組み込まれる。この標準の中で、図６及び図７ａ，７ｂにおける全てのパラメータ／値の詳細な定義が付与されている。

特に、６００、７００、７０２、７０４で示されたハイレベルシンタックス内の追加行は次のことを示している。すなわち、６０２においてビットストリームから読み出された値sbrPatchingModeとは関係なく、sbrPatchingModeフラグは１に設定される。即ち、復号器におけるさらなる処理に対し、非ハーモニック帯域幅拡張モードが実行されるべきことを信号伝達している。重要な点は、シンタックス行６００が、６０４で示されるsbrOversampllingFlag, sbrPitchInBinsFlag及びsbrPitchInBinsからなる特異なハーモニック帯域幅拡張データの復号器側の読み出しの後に配置されていることである。それ故、図６に示され、同様に図７ａにも示されるように、符号化済みオーディオ信号は、両方の帯域幅拡張モード、すなわち非ハーモニック帯域幅拡張モードとハーモニック帯域幅拡張モードとについて共通の帯域幅拡張ペイロードデータ６０６を含んでおり、かつ６０４で示すようにハーモニック帯域幅拡張モードについて特異な追加のデータを含んでいる。この点は図３ａの文脈の中でも後述されるであろう。変数「lpHBE」は本発明の手順、すなわち「低いパワーのハーモニック帯域幅拡張」モードを示しており、このモードは非ハーモニック帯域幅拡張モードであるが、「ハーモニック帯域幅拡張」に関して後述するような追加の修正が加えられたモードである。

好適には、図１ａに示すように、プロセッサ１０２は限られた資源のプロセッサである。特に、限られた資源の資源プロセッサ１０２は、第２の非ハーモニック帯域幅拡張モードを用いてオーディオ信号を復号化するのに十分な処理資源とメモリ資源とを有する。しかしながら、特にそのメモリ又は処理資源は第１のハーモニック帯域幅拡張モードを用いてオーディオ信号を復号化するのには十分でない。図３ａで示すように、１フレームは、ヘッダ３００と、共通の帯域幅拡張ペイロードデータ３０２と、ピッチ、ハーモニックグリッドなどに関するデータのような追加のハーモニック帯域幅拡張データ３０４と、さらに追加的に符号化済みコアデータ３０６とを含む。しかしながら、これらデータ項目の順序は、図３ａと相違していてもよい。異なる好適な実施形態においては、符号化済みコアデータが最初である。次に、sbrPatchingModeフラグ／ビットを有するヘッダ３００が続き、追加のＨＢＥデータ３０４が後続し、最後に共通の帯域幅拡張ペイロードデータ３０２が続く。

追加のハーモニック帯域幅拡張データは、ＵＳＡＣの例において、図６の文脈の中で項目６０４として説明したように、７ビットからなるsbrPitchInBins情報である。特に、ＵＳＡＣ標準で示したように、データsbrPitchInBinsはＳＢＲハーモニック転換器において、外積項目(cross-product terms)の加算を制御している。sbrPitchInBinsは０〜１２７の間の範囲における整数値であり、コアコーダのサンプリング周波数に対して作動している１５３６−ＤＦＴについて、周波数ｂｉｎで測定された距離を表している。特に、sbrPitchInBins情報を使用して、ピッチ又はハーモニックグリッドが決定され得ることが発見された。この点は、図８ｂの式（１）の中で示されている。このハーモニックグリッドを計算するために、sbrPitchInBins及びsbrRatioの値が計算され、ここでＳＢＲ比は上述の図８ｂにおいて示される通りであり得る。

当然ながら、ハーモニックグリッド、ピッチ、又はハーモニックグリッドを定義している基本トーンの他の指示がビットストリーム内に含まれ得る。このデータは第１のハーモニック帯域幅拡張モードを制御するために使用され、本発明の一実施形態では、いかなる修正もない非ハーモニック帯域幅拡張モードが実行されるように、廃棄され得る。しかしながら、他の実施形態では、図３ｂ及び他の図に示すように、単純な非ハーモニック帯域幅拡張モードはハーモニック帯域幅拡張モードについての制御データを使用して修正される。換言すれば、符号化済みオーディオ信号は、第１のハーモニック帯域幅拡張モードと第２の非ハーモニック帯域幅拡張モードとについての共通の帯域幅拡張ペイロードデータ３０２を含み、かつ第１のハーモニック帯域幅拡張モードについての追加的ペイロードデータ３０４を含む。この文脈で、図１に示されたコントローラ１０４は、プロセッサ１０２を制御するために追加的ペイロードデータを使用するよう構成され、それは、如何なる修正もなしに第２の非ハーモニック帯域幅拡張モードでパッチング操作を行う場合に比べて、プロセッサによって実行されるパッチング操作を修正するためである。この目的で、プロセッサ１０２は図３ｂに示されるようなパッチングバッファを有することが望ましく、そのバッファの具体的な構成は図８ｄに関して例示的に説明される。

さらなる実施形態において、第１のハーモニック帯域幅拡張モードについての追加的ペイロードデータ３０４は、符号化済みオーディオ信号のハーモニック特性に関する情報を含み、このハーモニック特性は、sbrPitchInBinsデータ、他のハーモニックグリッドデータ、基本トーンデータ、又は如何なる他のデータであってもよく、他のデータとは、符号化済みオーディオ信号の対応する部分のハーモニックグリッド、基本トーン、又はピッチがそのデータから導出され得るデータのことである。コントローラ１０４は、符号化済みオーディオ信号を復号化する際にパッチング操作を実行するために、プロセッサ１０２によって使用されるパッチングバッファのパッチングバッファコンテンツを修正するよう構成されており、それにより、パッチ信号のハーモニック特性がパッチングバッファを修正しないパッチ済み信号に比べて前記ハーモニック特性により近くなる。

この目的で、図９を参照されたい。ここでは、符号９００において、ハーモニックグリッドｋ・ｆ₀におけるスペクトルラインを有するオリジナルスペクトルを示し、ハーモニックラインは１からＮまで延びている。さらに、基本トーンｆ₀は、この実例では３に等しく、その結果、ハーモニックグリッドは３の全ての倍数を含む。さらに、項目９０２はパッチング前の復号化済みコアスペクトルを示している。特に、クロスオーバー周波数x0は１６の位置で示され、パッチソースは周波数ライン４から周波数ライン１０まで延びるように示されている。パッチソースの開始及び／又は終了周波数は、好ましくは符号化済みオーディオ信号の中で信号伝達され、典型的には図３ａの共通の帯域幅拡張ペイロードデータ３０２の中のデータとして信号伝達される。項目９０４は項目９０２と同じ状況を示しているが、９０６に追加的に計算されたハーモニックグリッドｋ・ｆ₀を有している。さらに、パッチ目標（patch destination）９０８が示されている。このパッチ目標は、図３ａの共通の帯域幅拡張ペイロードデータ３０２の中に好ましくは追加的に含まれる。よって、パッチソースは９０３で示すようにソース範囲の低域周波数を示しており、パッチ目標はパッチ目標の低域側境界を示している。もし、９１０で示すように典型的な非ハーモニックなパッチングが適用された場合には、パッチ済みデータの調性ライン又はハーモニックラインと計算されたハーモニックグリッド９０６との間に不一致が存在することが見て取れるであろう。それ故、従来のＳＢＲパッチング、単純なＵＳＡＣ又は高効率ＡＡＣの非ハーモニックパッチングモードでは、誤ったハーモニックグリッドを持つパッチを導入することになる。この問題を解決するため、プロセッサによってこの単純な非ハーモニックパッチの修正が実行される。修正の一つの方法は、パッチングバッファのコンテンツを回転させること、別の言い方をすれば、ハーモニックラインの周波数における距離を変化させずに、ハーモニックラインをパッチング帯域内で移動させることである。パッチのハーモニックグリッドをパッチング前の復号化済みスペクトルの計算されたハーモニックグリッドに一致させる他の方法は、当業者にとって自明のことである。本発明のこの好ましい実施形態では、符号化済みオーディオ信号内に共通の帯域幅拡張ペイロードデータと共に含まれている追加のハーモニック帯域幅拡張データは、単純に廃棄されるのではなく、典型的にはビットストリーム内で信号伝達されている非ハーモニック帯域幅拡張モードを修正することによって、オーディオ品質を改善するために再利用される。しかしながら、修正された非ハーモニック帯域幅拡張モードが依然として隣接する周波数ｂｉｎのセットの隣接する周波数ｂｉｎのセットへのコピー操作に依存する非ハーモニック帯域幅拡張モードであるという事実により、この手順は、単純な非ハーモニック帯域幅拡張モードを実行する場合に比べてメモリ資源の増量という結果を招くことがない一方で、図９の９１２で示すようにハーモニックグリッドの一致により、再生された信号のオーディオ品質を有意に強化する。

図３ｃは、図３ｂのコントローラ１０４によって実行される好ましい構成を示す。ステップ３１０では、コントローラ１０４は追加のハーモニック帯域幅拡張データからハーモニックグリッドを計算し、この目的で如何なる計算が実行されてもよいが、ＵＳＡＣの文脈においては、図８ｂの式（１）が実行される。さらに、ステップ３１２ではパッチングソース帯域及びパッチング目標帯域が決定され、すなわち、この決定は基本的に、共通の帯域幅拡張データからパッチソースデータ９０３とパッチ目標データ９０８とを読み出すことを含んでも良い。しかしながら、他の実施形態においては、このデータは予め定義されており、従って既に復号器側に知られており、必ずしも伝送される必要はない。

ステップ３１４では、パッチングソース帯域が周波数境界内で修正される。つまりパッチソースのパッチ境界は、伝送されたデータに比べて変更されない。この修正は、パッチングの前、つまりパッチデータが９０２で示されたパッチングの前のコア又は復号化済みスペクトルに関連しているとき、又はパッチコンテンツが高周波数領域に既に転換された後、のいずれでも実行可能であり、すなわち図９の中でパッチングが矢印９１４で示され、符号９１０と、回転がパッチングの後で実行された符号９１２とによって示されている。

このパッチング９１４又は「コピー」は、非ハーモニックパッチングであり、図９においては、周波数刻み６個分を持つパッチソースの広がりと、目標領域内の同じ周波数刻み６個分を持つ広がり、即ち、９１０又は９１２の広がりとを比べることによって、確認され得る。

この修正は、ハーニックグリッドと合致するパッチングソース帯域における周波数部分が、パッチングの後で、ハーニックグリッドと合致する目標周波数部分内に配置されるように、実行される。

好適には、図８ｄに示されるように、３つの異なる状態８２８、８３０、８３２で示されたパッチングバッファがプロセッサ１０２内に設けられている。プロセッサは図４内の４００で示されるように、パッチングバッファをロードするよう構成されている。次に、コントローラは、追加の帯域幅拡張データと共通の帯域幅拡張データとを使用して、バッファシフト値を計算４０２するよう構成されている。次に、ステップ４０４では、計算されたバッファシフト値によってバッファコンテンツがシフトされる。項目８３０は、シフト値が「−２」であると計算された場合を示し、項目８３２は、２のシフト値がステップ４０２で計算され、＋２によるシフトがステップ４０４で実行された場合のバッファ状態を示している。次に、図４の４０６で示されるように、パッチングバッファコンテンツを使用してパッチングが実行されるが、そのパッチは非ハーモニック方式で実行される。次に、ステップ４０８では、パッチ結果が共通の帯域幅拡張データを使用して修正される。そのような追加的に使用される共通の帯域幅拡張データは、高効率ＡＡＣ又はＵＳＡＣから知られているように、スペクトル包絡データ、ノイズデータ、特異なハーモニックライン上のデータ、逆フィルタリングデータ等であってもよい。

この目的で、図１ａのプロセッサ１０２のさらなる詳細構成を示す図５を参照されたい。このプロセッサは、典型的には、コア復号器５００と、パッチングバッファを有するパッチャ５０２と、パッチ修正器５０４と、結合器５０６とを含む。コア復号器は、符号化済みオーディオ信号を復号化して、図９の９０２に示されるように、パッチング前の復号化済みスペクトルを得るよう構成されている。次に、パッチングバッファを有するパッチャ５０２は、図９における操作９１４を実行する。パッチャ５０２は、図９の文脈の中で説明したように、パッチングの前又は後に、パッチングバッファの修正を実行する。パッチ修正器５０４は最後に、図４の４０８で示されたように、追加の帯域幅拡張データを使用してパッチ結果を修正する。次に、例えば合成フィルタバンク形式の周波数ドメイン結合器であり得る結合器５０６は、パッチ修正器５０４の出力とコア復号器５００の出力、つまり低帯域信号とを結合して、図１ａのライン１１２での出力として最終的に帯域幅拡張オーディオ信号を取得する。

図１ｂの文脈の中で既に説明した通り、帯域幅拡張制御データは、オーディオ項目について、図１ｂにおいて説明されたharmonicSBRのような第１の制御データエンティティを含んでも良く、このオーディオ項目は複数のオーディオフレーム１１６、１１８、１２０を含む。第１の制御データエンティティは、第１のハーモニック帯域幅拡張モードが前記複数のフレームについて活性か又は不活性かを示している。さらに、例示的にはＵＳＡＣ標準におけるＳＢＲパッチングモードに対応する第２の制御データエンティティが準備され、個別のフレームについて各ヘッダ１１６ａ，１１８ａ，１２０ａの中に提供される。

図１ａの入力インターフェイス１００は、オーディオ項目についての第１の制御データエンティティと、複数のフレームの各フレームについての第２の制御データエンティティとを読み出すよう構成され、図１ａのコントローラ１０４は、第１の制御データエンティティの値及び第２の制御データエンティティの値とは関係なく、第２の非ハーモニック帯域幅拡張モードを使用してオーディオ信号を復号化するように、プロセッサ１０２を制御するよう構成されている。

本発明の一実施形態では、図６及び図７ａ、７ｂにおいてシンタックス変更によって示されたように、ＵＳＡＣ復号器は比較的高い複雑性を持つハーモニック帯域幅拡張計算をスキップするよう強制される。よって、もし６００、７００、７０２、７０４で示されるフラグlpHBEが非ゼロ値に設定されたとき、帯域幅拡張又は「低パワーＨＢＥ」が動作する。lpHBEフラグは、利用可能なハードウエア資源に依存して、復号器によって個別に設定されてもよい。ゼロ値は、復号器が完全な標準準拠、つまり図１ｂの第１と第２の制御データエンティティによって指示されるように動作するであろうことを意味している。しかしながら、もしこの値が１であれば、ハーモニック帯域幅拡張モードが信号伝達された場合でも、非ハーモニック帯域幅拡張モードがプロセッサによって実行されるであろう。

よって、本発明は、低い演算複雑性と低いメモリ消費とを必要とするプロセッサを、新たな復号化手順と共に提供している。非特許文献１に定義されたｅＳＢＲのビットストリームシンタックスは、ＨＢＥ（非特許文献１）及び従来のＳＢＲ復号化（非特許文献２）の双方にとって共通のベースを共有している。しかしながら、ＨＢＥの場合には、追加情報がビットストリームの中に符号化される。本発明の好適な実施形態における「低複雑性ＨＢＥ」復号器は、非特許文献１に従ってＵＳＡＣ符号化済みデータを復号化し、全てのＨＢＥ特異情報を廃棄する。残りのｅＳＢＲデータは、次に従来のＳＢＲ（非特許文献２）アルゴリズムへと供給されかつそれによって解釈される。つまり、そのデータはハーモニック転換（harmonic transposition）に代えてコピーパッチング（非特許文献２）を適用するよう使用される。ｅＳＢＲ復号化メカニズムの修正は、シンタックス変更に関して、図６及び図７ａ，７ｂで示されている。さらに、好適な一実施形態においては、ビットストリームによって運ばれるsbrPitchInBins情報のような特異なＨＢＥ情報が再利用される。

従来のＵＳＡＣ符号化済みビットストリームデータを用いて、sbrPitchInBins値がＵＳＡＣフレームの中で伝送されてもよい。この値は、現在のＵＳＡＣフレームのハーモニック構造を記述している情報を伝送するために、符号器によって決定されていた周波数値を反映している。標準ＨＢＥ機能を使用せずにこの値を活用するために、以下の本発明方法がステップ毎に適用されるべきである。

１．ビットストリームからsbrPitchInBinsを抽出する。
ＵＳＡＣビットストリームからビットストリーム要素sbrPitchInBinsを如何にして抽出するかの情報について、それぞれ表４４及び表４５を参照（非特許文献１）。
２．式（１）に従ってハーモニックグリッドを計算する。

３．ソースパッチ開始サブバンドと目標パッチ開始サブバンドとの双方のハーモニックグリッドに対する距離を計算する。

図８ａにおけるフローチャートは、開始及び終了パッチのハーモニックグリッドに対する距離をどのように計算するかについて、本発明アルゴリズムの詳細な説明を与えている。
harmonicGrid (hg) 式（１）に従うハーモニックグリッド
source_band 図９のＱＭＦパッチソース帯域９０３
dest_band 図９のＱＭＦパッチ目標帯域９０８
p_mod_x ソース帯域mod hg
k_mod_x 目標帯域 mod hg
mod モジュロ演算
NINT 直近の整数への丸め操作
sbrRatio SBR比、即ち１／２，３／８又は１／４
pitchInBins ビットストリーム内で伝送されたピッチ情報

以下に、図８ａについてさらに詳細に説明する。好適には、この制御すなわち全体の計算は図１ａのコントローラ１０４内で実行される。ステップ８００では、ハーモニックグリッドが図８ｂに示すように式（１）に従って計算される。次に、ハーモニックグリッドｈｇが２より小さいかどうかが判定される。もしそうでない場合には、次に制御はステップ８１０へ移行する。しかしながら、ハーモニックグリッドが２より小さいと判定された場合には、次にステップ８０４でソース帯域値が偶数かどうかを判定する。もしそうであれば、ハーモニックグリッドは２であると判定され、もしそうでないときには、ハーモニックグリッドは３に等しいと判定される。次に、ステップ８１０において、モジュロ計算が実行される。ステップ８１２では、両方のモジュロ計算が異なるかどうかが判定される。もしその結果が同じである場合には、手順は終了し、もし結果が異なる場合には、ブロック８１４内で示されるように、シフト値が両方のモジュロ計算結果の間の差分として計算される。次に、ステップ８１４でも示されるように、循環方式のバッファシフトが実行される。シフトを適用する場合に、好ましくは位相関係が考慮されるべきであることを注意する必要がある。この制御はブロック８１６で終了する。

要約すると、図８ｃに示されるように、全体の手順は、８２０で示されるようにビットストリームからsbrPitchInBins情報を抽出するステップを含む。次に、コントローラは、８２２で示されるようにハーモニックグリッドを計算する。次に、ステップ８２４において、ソース開始サブバンドと目標開始サブバンドとのハーモニックグリッドに対する両方の距離が計算され、その計算は、好適な実施形態では、ステップ８１０に対応する。最後に、ブロック８２６で示すように、ＱＭＦバッファシフト、すなわち高効率ＡＡＣ非ハーモニック帯域幅拡張のＱＭＦドメイン内での循環シフトが実行される。

ＱＭＦバッファシフトでは、たとえ非ハーモニック帯域幅拡張手順が実行されていても、伝送されたsbrPitchInBins情報に従って信号のハーモニック構造が再構成される。

これまで幾つかの特徴を符号化又は復号化装置の文脈で説明してきたが、これら特徴はまた対応する方法の記述を表現していることは明白であり、そこではブロック又は装置は方法ステップ又は方法ステップの特徴に対応している。同様に、方法ステップの文脈で説明された特徴はまた、対応するブロック又は項目の説明、又は対応する装置の特徴を表現している。方法ステップの幾つか又は全部は、例えばマイクロプロセッサ、プログラム可能なコンピュータ、又は電子回路などのハードウエア装置によって（を用いて）実行されてもよい。幾つかの実施形態では、最も重要な方法ステップの幾つか又はそれ以上がそのような装置によって実行されてもよい。

ある実装要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、非一時的記憶媒体、すなわちその中に格納された電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する（又は協働可能な）、例えばフレキシブルディスク，ハードディスクトライブ（ＨＤＤ），ＤＶＤ，ブルーレイ，ＣＤ，ＲＯＭ，ＰＲＯＭ，ＥＰＲＯＭ，ＥＥＰＲＯＭ又はフラッシュメモリなどのデジタル記憶媒体を使用して実行され得る。従って、そのデジタル記憶媒体はコンピュータ読み取り可能であり得る。

本発明に従う幾つかの実施形態は、上述した方法の１つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有するデータキャリアを含む。

一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは、例えば機械読み取り可能なキャリアに格納されていても良い。

本発明の他の実施形態は、上述した方法の１つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。

換言すれば、本発明方法の一実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

本発明の他の実施形態は、上述した方法の１つを実行するために記録されたコンピュータプログラムを含む、データキャリア（又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体）である。データキャリア、デジタル記憶媒体、又は記録された媒体は、典型的には有形であり、及び／又は非一時的である。

本発明の他の実施形態は、上述した方法の１つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。

他の実施形態は、上述した方法の１つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。

他の実施形態は、上述した方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

本発明に従う他の実施形態は、ここで説明した方法の１つを実行するためのコンピュータプログラムを受信機へ（例えば電子的に又は光学的に）伝送するよう構成された、装置又はシステムを含む。受信機は、例えばコンピュータ、携帯機器、メモリーデバイス又はそれらの類似物であってもよい。装置又はシステムは、例えばコンピュータプログラムを受信機へと転送するファイルサーバを含んでもよい。

幾つかの実施形態においては、（例えば書換え可能ゲートアレイのような）プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイが、上述した方法の１つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。

上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、添付した特許請求の範囲によってのみ限定されるべきであり、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではない。

本発明の一実施形態では、図６及び図７ａ、７ｂにおいてシンタックス変更によって示されたように、ＵＳＡＣ復号器は比較的高い複雑性を持つハーモニック帯域幅拡張計算をスキップするよう強制される。よって、もし６００、７００、７０２、７０４で示されるフラグlpHBEが非ゼロ値に設定されたとき、非ハーモニック帯域幅拡張又は「低パワーＨＢＥ」が動作する。lpHBEフラグは、利用可能なハードウエア資源に依存して、復号器によって個別に設定されてもよい。ゼロ値は、復号器が完全な標準準拠、つまり図１ｂの第１と第２の制御データエンティティによって指示されるように動作するであろうことを意味している。しかしながら、もしこの値が１であれば、ハーモニック帯域幅拡張モードが信号伝達された場合でも、非ハーモニック帯域幅拡張モードがプロセッサによって実行されるであろう。

Claims

第１のハーモニック帯域幅拡張モード又は第２の非ハーモニック帯域幅拡張モードのいずれかを示す帯域幅拡張制御データを含む符号化済みオーディオ信号（１０１）を復号化する装置であって、
前記第１のハーモニック帯域幅拡張モード又は前記第２の非ハーモニック帯域幅拡張モードのいずれかを示す前記帯域幅拡張制御データを含む前記符号化済みオーディオ信号を受信するための入力インターフェイス（１００）と、
前記第２の非ハーモニック帯域幅拡張モードを使用して、前記オーディオ信号（１０１）を復号化するためのプロセッサ（１０２）と、
前記帯域幅拡張制御データが前記符号化済み信号について前記第１のハーモニック帯域幅拡張モードを示している場合でも、前記第２の非ハーモニック帯域幅拡張モードを使用して前記オーディオ信号を復号化するよう、前記プロセッサ（１０２）を制御するためのコントローラ（１０４）と、
を備える装置。
請求項１に記載の装置において、前記プロセッサ（１０２）は、前記第２の非ハーモニック帯域幅拡張モードを使用して前記符号化済みオーディオ信号を復号化するのに十分なメモリ資源及び処理資源を有し、前記メモリ又は処理資源は前記第１のハーモニック帯域幅拡張モードを使用して前記符号化済みオーディオ信号を復号化するのには十分でない、装置。
請求項１又は２に記載の装置において、
前記入力インターフェイス（１００）は前記帯域幅拡張制御データを読み出し、前記符号化済みオーディオ信号が前記第１のハーモニック帯域幅拡張モード又は前記第２の非ハーモニック帯域幅拡張モードのいずれを使用して復号化されるべきかを決定し、かつ前記帯域幅拡張制御データをプロセッサ制御レジスタ内に格納するよう構成され、
前記コントローラ（１０４）は前記プロセッサ制御レジスタにアクセスし、前記入力インターフェイス（１００）が前記第１のハーモニック帯域幅拡張モードを示す値を格納していた場合に、前記第２の非ハーモニック帯域幅拡張モードを示す値によって前記プロセッサ制御レジスタ内の値を上書きするよう構成されている、装置。
請求項１乃至３のいずれか１項に記載の装置において、前記符号化済みオーディオ信号は前記第１のハーモニック帯域幅拡張モードと前記第２の非ハーモニック帯域幅拡張モードとについて共通の帯域幅拡張ペイロードデータ（３０２）を含み、かつ前記第１のハーモニック帯域幅拡張モードのみについての追加的ペイロードデータ（３０４）を含み、
前記コントローラ（１０４）は、前記追加的ペイロードデータ（３０４）を使用して、前記第２の非ハーモニック帯域幅拡張モードにおけるパッチング操作に比べて、前記プロセッサによって実行されるパッチング操作を修正するように前記プロセッサ（１０２）を制御するよう構成され、前記修正されたパッチング操作は非ハーモニックパッチング操作である、装置。
請求項４に記載の装置において、
前記追加的ペイロードデータ（３０４）は、前記符号化済みオーディオ信号のハーモニック特性に関する情報を含み、
前記コントローラ（１０４）は、前記符号化済みオーディオ信号を復号化する際にパッチング操作を実行するため、前記プロセッサ（１０２）によって使用されるパッチングバッファのパッチングバッファコンテンツ（８２８、８３０、８３２）を、パッチ済み信号のハーモニック特性が前記パッチングバッファコンテンツを修正しないパッチ済み信号のハーモニック特性に比べて前記ハーモニック特性により近くなるように、修正するよう構成されている、装置。
請求項４又は５に記載の装置において、
前記コントローラ（１０４）は、
前記追加的ペイロードデータからピッチ周波数を示すハーモニックグリッドを計算（３１０）し、
周波数境界を持つパッチングソース帯域と周波数境界を持つパッチング目標帯域とについて、パッチングソース情報とパッチング目標情報とを決定（３１２）し、
前記ハーモニックグリッドに合致しているパッチングソース帯域内の周波数部分が、パッチング（９１４）の後に、前記ハーモニックグリッドに合致している目標周波数部分（９１２）内に配置されるように、パッチング（９１４）操作の前又は後に、前記パッチングソース帯域内の前記データを前記周波数境界内で修正（３１４）する、
よう構成されている装置。
請求項４乃至６のいずれか１項に記載の装置において、
前記プロセッサ（１０２）はパッチングバッファを備え、
前記プロセッサは前記共通の帯域幅拡張ペイロードデータを使用して前記パッチングバッファをロード（４００）するよう構成され、
前記コントローラは、前記符号化済みオーディオ信号のハーモニックグリッドを示す追加の帯域幅拡張データを使用し、パッチソース帯域情報（９０３）及びパッチ目標帯域情報（９０８）を使用して、バッファシフト値を計算（４０２）するよう構成され、
前記コントローラは、バッファコンテンツに対してバッファシフト操作を生じさせる（４０４）よう構成され、
前記プロセッサ（１０２）は前記バッファシフト値によってシフトされた前記バッファコンテンツを使用してパッチ済みデータを生成（４０６、４０８）するよう構成されている、装置。
請求項７に記載の装置において、前記コントローラは循環方式の前記バッファシフト操作を生じさせる（４０４）よう構成されている、装置。
請求項１乃至８のいずれか１項に記載の装置において、
前記プロセッサは、
コア符号化済みオーディオ信号（９０２）を復号化するコア復号器（５００）と、
前記符号化済みオーディオ信号からの帯域幅拡張データを使用して、前記コア符号化済みオーディオ信号のソース周波数領域を、前記非ハーモニック帯域幅拡張モードに従って目標周波数領域へパッチングするパッチャ（５０２）と、
前記符号化済みオーディオ信号からの帯域幅拡張データを使用して、前記目標周波数領域におけるパッチ済み信号を修正するパッチ修正器（５０４）と、を備える装置。
請求項１乃至９のいずれか１項に記載の装置において、
前記帯域幅拡張制御データは、複数のオーディオのフレームを含む１つのオーディオ項目についての第１の制御データエンティティ（１１４）と、前記符号化済みオーディオ信号の各フレームについての第２の制御データエンティティ（１１６ａ，１１８ａ，１２０ａ）とを含み、前記第１の制御データエンティティは前記第１のハーモニック帯域幅拡張モードが前記複数のフレームについて活性か又は不活性かを示し、前記第２の制御データエンティティは前記第１のハーモニック帯域幅拡張モードが前記符号化済みオーディオ信号の各個別のフレームについて活性か又は不活性かを示しており、
前記入力インターフェイス（１００）は、前記オーディオ項目についての前記第１の制御データエンティティと前記複数のフレームの各フレームについての前記第２の制御データエンティティとを読み出すよう構成され、
前記コントローラ（１０４）は、第１の制御データエンティティの値及び第２の制御データエンティティの値とは関係なく、前記第２の非ハーモニック帯域幅拡張モードを使用して前記オーディオ信号を復号化するように、前記プロセッサ（１０２）を制御するよう構成されている、装置。
請求項１乃至１０のいずれか１項に記載の装置において、
前記符号化済みオーディオ信号はＵＳＡＣ標準によって定義されたビットストリームであり、
前記プロセッサ（１０２）は前記ＵＳＡＣ標準によって定義された前記第２の非ハーモニック帯域幅拡張モードを実行するよう構成され、
前記入力インターフェイスは前記ＵＳＡＣ標準に従って前記符号化済みオーディオ信号を含む前記ビットストリームを解析するよう構成されている、装置。
請求項１乃至１１のいずれか１項に記載の装置において、
前記符号化済みオーディオ信号が符号化済みステレオ又は多チャネルオーディオ信号である場合に、前記プロセッサ（１０２）は、前記第２の非ハーモニック帯域幅拡張モードを使用して前記符号化済みオーディオ信号を復号化するのに十分なメモリ資源及び処理資源を有し、前記メモリ又は処理資源は前記第１のハーモニック帯域幅拡張モードを使用して前記符号化済みオーディオ信号を復号化するのには十分でなく、
前記符号化済みオーディオ信号が符号化済みモノラル信号である場合に、前記プロセッサ（１０２）は、前記第２の非ハーモニック帯域幅拡張モード及び前記第１のハーモニック帯域幅拡張モードを使用して、前記符号化済みオーディオ信号を復号化するのに十分なメモリ資源及び処理資源を有する、装置。
第１のハーモニック帯域幅拡張モード又は第２の非ハーモニック帯域幅拡張モードのいずれかを示す帯域幅拡張制御データを含む符号化済みオーディオ信号（１０１）を復号化する方法であって、
前記第１のハーモニック帯域幅拡張モード又は前記第２の非ハーモニック帯域幅拡張モードのいずれかを示す前記帯域幅拡張制御データを含む前記符号化済みオーディオ信号を受信するステップ（１００）と、
前記第２の非ハーモニック帯域幅拡張モードを使用して、前記オーディオ信号（１０１）を復号化するステップ（１０２）と、
前記帯域幅拡張制御データが前記符号化済み信号について前記第１のハーモニック帯域幅拡張モードを示している場合でも、前記第２の非ハーモニック帯域幅拡張モードを使用して前記オーディオ信号を復号化するよう、前記プロセッサ（１０２）を制御するステップ（１０４）と、
を含む方法。
コンピュータ上で作動するとき、請求項１３に従って符号化済みオーディオ信号を復号化する方法を実行するためのコンピュータプログラム。