JP2014508316A

JP2014508316A - 音声信号フレームにおけるイベントのスロット位置の符号化および復号化

Info

Publication number: JP2014508316A
Application number: JP2013549787A
Authority: JP
Inventors: アヒムクンツ; サッシャディスヒ; トムベックシュトレーム
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2011-01-18
Filing date: 2012-01-17
Publication date: 2014-04-03
Anticipated expiration: 2032-01-17
Also published as: AU2012208673A1; BR112013018362B1; US20130304480A1; WO2012098098A1; MX2013008364A; US9502040B2; KR101657251B1; CA2824935C; RU2013138354A; BR112013018362A2; TWI485699B; KR20130133833A; EP2666161A1; TW201248619A; CN103620677A; JP5818913B2; MY155887A; CN103620677B; ZA201306173B; SG191988A1

Abstract

音声信号フレームにおけるイベントを含む復号化するための装置（１０；４０；６０；４１０）、符号化するための装置（５１０）、復号化するための方法、およびスロットの位置を符号化するための方法、ならびにそれぞれのコンピュータ・プログラムおよび符号化された信号であって、復号化するための装置（１０；４０；６０；４１０）は、音声信号フレームのスロットの合計を示しているフレーム・スロット数を解析するための解析ユニット（２０；４２；７０；４２０）であって、イベント・スロット数は、音声信号フレームのイベントを含むイベント状態数、およびスロットの数を示す、解析ユニットと、フレーム・スロット数、イベント・スロット数およびイベント状態数を使用して音声信号フレームにおけるイベントを含む複数のスロット位置の表示を生成するための生成ユニット（３０；４５；８０；４３０）と、を含む。
【選択図】図９ａ

Description

音声処理および音声符号化の分野に関し、特に、音声信号フレームにおけるイベントのスロット位置を符号化および復号化に関する。

音声処理および／または符号化は、さまざまな方法で発展している。特に、空間音声アプリケーションは、ますます重要になっている。音声信号処理は、しばしば、信号を非相関化または再生をするために用いられる。さらに、信号の非相関性および再生は、モノラルからステレオへのアップミックス、モノラル／ステレオからマルチチャンネルへのアップミックス、人工的な残響、ステレオワイドニング、または相互作用的なミキシング／レンダリングの処理において使用される。

いくつかの音声信号処理システムは、非相関器を使用する。重要な例は、１またはいくつかのダウンミックス信号から再構成される２以上の信号の間における特定の非相関性特性を復元するためのパラメトリック空間音声デコーダにおける非相関化する信号の応用である。たとえば、インテンシティステレオと比較した場合、非相関器の応用は、出力信号の知覚的な品質を大幅に向上させる。具体的には、非相関器の使用は、広い音像、いくつかの同時音のオブジェクト、および／または環境を有する空間音の特有の合成を可能にする。しかしながら、非相関器は、時間的な信号構造、音質等における変化のようなアーティファクトを取り込むことも知られている。

音声処理における非相関器の他の応用例は、たとえば、収束挙動を改善するために、マルチチャンネル音響エコーキャンセレーションシステムにおける空間印象または非相関器の使用を変化するための人工的な残響の生成である。

１つの重要な空間音声符号化スキームは、パラメトリックステレオ（ＰａｒａｍｅｔｒｉｃＳｔｅｒｅｏ；ＰＳ）である。図１は、モノラルからステレオへのデコーダの構造を例示する。単一の非相関器は、モノラル入力信号Ｍ（「ドライ」信号）から非相関化された信号Ｄ（「ウェット」信号）を生成する。そして、非相関化された信号Ｄは、信号Ｍとともにミキサーに送り込まれる。それから、ミキサーは、出力信号ＬおよびＲを生成するために、入力信号ＭおよびＤに混合行列Ｈを適用する。混合行列Ｈにおける係数は、調整され、信号に依存され、またはユーザによって制御されうる。

あるいは、混合行列は、ダウンミックスとともに送信され、所望のマルチチャンネル出力を形成するためのダウンミックスの信号をどれくらいアップミックスするかについてのパラメトリック記述を含むサイド情報によって制御される。空間サイド情報は、たいてい、一致した信号エンコーダにおけるモノラルダウンミックス処理の間に生成される。

上記のような空間音声符号化は、たとえば、パラメトリックステレオにおいて、広く適用される。パラメトリックステレオデコーダの典型的な構造は、図２において示される。図２において、非相関化は、変換領域において実行される。空間パラメータは、ユーザまたは追加ツール、たとえば、バイノーラルレンダリング／プレゼンテーションのための後処理によって修正されうる。この場合、アップミックスパラメータは、混合行列のための入力パラメータを計算するためにバイノーラルフィルタからパラメータと結合される。

混合行列Ｈの出力Ｌ／Ｒは、モノラル入力信号Ｍおよび非相関化された信号Ｄから計算される。

混合行列において、出力に送り込まれる非相関化された音の量は、送信されたパラメータ、たとえば、内部チャンネルレベル拡散（Ｉｎｔｅｒ−ＣｈａｎｎｅｌｌｅｖｅｌＤｉｆｆｅｒｅｎｃｅｓ；ＩＬＤ）、内部チャンネル相関／コヒーレンス（Ｉｎｔｅｒ−ＣｈａｎｎｅｌＣｏｒｒｅｌａｔｉｏｎ／Ｃｏｈｅｒｅｎｃｅ；ＩＣＣ）および／または修正され、またはユーザ定義の設定に基づいて制御される。

概念的には、非相関化された出力Ｄの出力信号は、オリジナルのＬ／Ｒの完全な復号化を理想的に考慮にいれる残留信号を置き換える。アップミキサーにおける残留信号の代わりに非相関化された出力Ｄを利用することは、残留信号を送信することを、別に、必要とされるビットレートの節減を結果として得る。このように、非相関器の目的は、モノラル信号Ｍから信号Ｄを生成することであり、そして、Ｄによって置き換えられる残留信号として類似の特性を示す。参照は、以下の文献になされる。

Ｊ．Ｂｒｅｅｂａａｒｔ，Ｓ．ｖａｎｄｅＰａｒ，Ａ．Ｋｏｈｌｒａｕｓｃｈ，Ｅ．Ｓｃｈｕｉｊｅｒｓ， “Ｈｉｇｈ−ＱｕａｌｉｔｙＰａｒａｍｅｔｒｉｃＳｐａｔｉａｌＡｕｄｉｏＣｏｄｉｎｇａｔＬｏｗＢｉｔｒａｔｅｓ” ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＥＳ１１６^th Ｃｏｎｖｅｎｔｉｏｎ，Ｂｅｒｌｉｎ，Ｐｒｅｐｒｉｎｔ６０７２，Ｍａｙ２００４

ＭＰＥＧサラウンド（ＭＰＳ）を考慮すると、Ｏｎｅ−Ｔｏ−Ｔｗｏボックス（ＯＴＴボックス）と称されるＰＳと類似の構造は、空間音声復号化ツリーにおいて使用される。これは、マルチチャンネル空間音声符号化／復号化スキームに対してモノラルからステレオへのアップミックスの概念の一般化としてみなされうる。ＭＰＳにおいて、ＴＴＴ動作モードに依存して非相関器を適用しうるＴｗｏ−Ｔｏ−Ｔｈｒｅｅアップミックスシステム（ＴＴＴボックス）が存在しうる。詳細は、以下の文献に記載されている。

Ｊ．Ｈｅｒｒｅ，Ｋ．Ｋｊｏｅｒｌｉｎｇ，Ｊ．Ｂｒｅｅｂａａｒｔｅｔａｌ．， “ＭＰＥＧｓｕｒｒｏｕｎｄ？ｔｈｅＩＳＯ／ＭＰＥＧｓｔａｎｄａｒｄｆｏｒｅｆｆｉｃｉｅｎｔａｎｄｃｏｍｐａｔｉｂｌｅｍｕｌｔｉ−ｃｈａｎｎｅｌａｕｄｉｏｃｏｄｉｎｇ，” ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１２２^th ＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ｖｉｅｎｎａ，Ａｕｓｔｒｉａ，Ｍａｙ２００７

指向性音声符号化（ＤｉｒＡＣ）に関して、ＤｉｒＡＣは、一定のスピーカ位置を有する音声出力チャンネルの固定数に密接に結びつかないパラメトリック音場符号化スキームに関する。ＤｉｒＡＣは、音場の非コヒーレント・コンポーネントを合成するために、ＤｉｒＡＣレンダラー、すなわち、空間音声デコーダにおける非相関器を適用する。指向性音声符号化は、さらに、以下に記載される。

Ｐｕｌｋｋｉ，Ｖｉｌｌｅ； “ＳｐａｔｉａｌＳｏｕｎｄＲｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ” ｉｎＪ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．，Ｖｏｌ．５５，Ｎｏ．６，２００７

最高水準の非相関器に関して、参照は、以下の文献になされる：

ＩＳＯ／ＩＥＣＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄ “ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ − ＭＰＥＧａｕｄｉｏｔｅｃｈｎｏｌｏｇｉｅｓ − Ｐａｒｔ１：ＭＰＥＧＳｕｒｒｏｕｎｄ”，ＩＳＯ／ＩＥＣ２３００３−１：２００７．

Ｊ．Ｅｎｇｄｅｇａｒｄ，Ｈ．Ｐｕｒｎｈａｇｅｎ，Ｊ．Ｒｏｅｄｅｎ，Ｌ．Ｌｉｌｊｅｒｙｄ， “ＳｙｎｔｈｅｔｉｃＡｍｂｉｅｎｃｅｉｎＰａｒａｍｅｔｒｉｃＳｔｅｒｅｏＣｏｄｉｎｇ” ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＥＳ１１６^th Ｃｏｎｖｅｎｔｉｏｎ，Ｂｅｒｌｉｎ，Ｐｒｅｐｒｉｎｔ，Ｍａｙ２００４

ＩＩＲラティスオールパス構造が、ＭＰＳ（非特許文献２および非特許文献４）のような空間音声デコーダにおける非相関器として使用される。他の最高水準の非相関器は、減衰しているノイズバーストを有する入力信号を畳み込むために、（潜在的に周波数依存の）遅延を適用する。空間音声アップミックスシステムのための最高水準の非相関器の概要のために、参照は、非特許文献５になされる：「ＳｙｎｔｈｅｔｉｃＡｍｂｉｅｎｃｅｉｎＰａｒａｍｅｔｒｉｃＳｔｅｒｅｏＣｏｄｉｎｇ」。

一般に、パラメトリック空間音声符号化における符号化／復号化されるステレオまたはマルチチャンネルの拍手のような信号は、低減された信号の品質として得られることが知られている。拍手のような信号は、異なる方向からトランジェントのむしろ高密度のミクスチャを含むことによって特徴付けられる。このような信号の例は、拍手、雨の音、駆け足の馬等である。拍手のような信号は、ノイズのような、滑らかなバックグラウンドサウンドの分野に知覚的に融合する遠い音源から、しばしば、サウンド・コンポーネントも含む。

ＭＰＥＧサラウンドのような空間音声デコーダにおいて使用されるラティスオールパス構造は、人工の残響発生器として作用し、そして、結果として、（室内残響テールのような）一様な、滑らかな、ノイズのような、インバーシブサウンドを生成するために適切である。しかしながら、それらは、まだ、リスナーを没頭させる非一様な空間時間的構造を有する音場の例である：１つの顕著な例は、一様なノイズのようなフィールドだけによってではなく、異なる方向からの単一の拍手のむしろ密度の高いシーケンスによってもリスナーの包まれた状態を作成する拍手のような音場である。従って、拍手音場の非一様な成分は、トランジェントの空間的に分布されたミクスチャによって特徴付けられうる。これらの明確な拍手は、全て均一で、滑らかで、ノイズのようであるわけではない。

それらの残響のような挙動のため、ラティスオールパス非相関器は、たとえば、拍手の特徴を有する実体験のように感じる音場を生成することができない。その代わり、拍手のような信号に適用される場合、それらは、時間的に、信号におけるトランジェントをけがす傾向がある。望まない結果は、拍手のような音場の特徴的な時空間的構造のないノイズのような特有の実体験のように感じる音場である。さらに、単一の拍手のようなトランジェントイベントは、非相関フィルタの共鳴のアーティファクトを引き起こしうる。

ＵＳＡＣ（統一スピーチおよび音声符号化）は、話し言葉および音声の符号化および異なるビットレートでのそのミクスチャのための音声符号化規格である。

パラメトリックステレオ符号化技術が適用できる場合、ＵＳＡＣの知覚的な品質は、３２ｋｂｐｓの範囲におけるビットレートでの拍手および拍手のような音のステレオ符号化において、さらに、改善されうる。専用の拍手処理が、コーデックの範囲内で適用されない場合、ＵＳＡＣの符号化された拍手アイテムは、狭い防音スタジオおよび包囲の欠如するような傾向がある。大部分は、ＵＳＡＣのステレオ符号化技術およびそれらの限界は、ＭＰＥＧサラウンド（ＭＰＳ）から受け継がれる。しかしながら、ＵＳＡＣは、専用の適合を、適当な拍手処理の要件に対して提供する。前記適合は、トランジェント・ステアリング非相関器（ＴｒａｎｓｉｅｎｔＳｔｅｅｒｉｎｇＤｅｃｏｒｒｅｌａｔｏｒ：ＴＳＤ）と名づけられ、本発明の実施の形態である。

拍手信号は、単一からなり、２、３ミリ秒で時間的に明確に知覚の拍手が分離され、そして、非常に密度の高い遠くの拍手からノイズのような環境発信を重畳されることが想定される。顕著なサイド情報レートでのパラメトリックステレオ符号化において、空間パラメータの設定（内部チャンネルレベル差、内部チャンネル相関等）の精度は、一回の拍手の充分な空間再分布を確実にするには非常に低く、そして、包囲の欠如に至る。加えて、拍手は、ラティスオールパス非相関器によって処理されやすい。これは、必然的にトランジェントの時間的分散を生じさせ、さらに、主観的品質を減らす。

ＵＳＡＣデコーダの範囲内におけるトランジェント・ステアリング非相関器（ＴＳＤ）を使用することは、ＭＰＳ処理の修正を結果として得る。そのような方法についての基礎をなす考えは、以下のように、拍手の非相関性問題に対処することである：
− ラティスオールパス非相関器の前のＱＭＦ領域のトランジェントを分離する：すなわち、トランジェントストリームｓ２および非トランジェントストリームｓ１に非相関化された入力信号を分割する。
− トランジェントミクスチャに対して適切である異なるパラメータ制御された非相関器にトランジェントストリームを送り込む。
− ＭＰＳオールパス非相関器に非トランジェントストリームを送り込む。
− 非相関化された信号Ｄを得るために、両方の非相関Ｄ₁およびＤ₂の出力を加える。

図３は、ＵＳＡＣデコーダの範囲内におけるＯｎｅ−Ｔｏ−Ｔｗｏ（ＯＴＴ）の構成を例示する。図３のＵ型のトランジェント処理ボックスは、トランジェント処理のために提案されるものとしてのパラレル信号経路を含む。

ＴＳＤ処理を導く２つのパラメータは、エンコーダからデコーダ（図３を参照）への周波数から独立したパラメータとして送信される：
− エンコーダにおいて実行されるトランジェント検出器のバイナリのトランジェント／非トランジェントの決定は、デコーダにおけるＱＭＦ時間スロット精度を有するトランジェントの分離を制御するために用いられる。効率的なロス符号化スキームは、トランジェントＱＭＦのスロット位置データを送信するために利用される。
− 実際のトランジェント非相関パラメータは、トランジェントの空間的分布を導くためのトランジェント非相関器のために必要である。トランジェント非相関パラメータは、ダウンミックスとその間のその残余との間の角度を意味する。これらのパラメータは、トランジェントを含むために、エンコーダで検知されている時間スロットの間に送信されるだけである。

上記の技術の品質を評価するために、２つのＭＵＳＨＲＡ試聴テストは、高品質静電ＳＴＡＸヘッドホンを使用している制御試聴テスト環境において実施された。テストは、３２ｋｂｐｓおよび１６ｋｂｐｓのステレオ構成で実行された。１６人の専門家のリスナーは、試験の各々に参加した。

ＵＳＡＣテストセットが拍手の項目を含まないので、付加的な拍手アイテムは、提案された技術の利点を示すために選ばれた。表１にリストされる項目は、テストに含まれている：

正規の１２のＭＰＥＧＵＳＡＣ試聴テスト項目に関して、ＴＳＤは、決して作動中でない。しかしながら、ビットストリームにおいて、ＴＳＤイネーブル・ビット（ＴＳＤがオフのことを示している）が加えて、このようにわずかにコア−コーダのためのビット配分に影響を及ぼした時から、これらの項目は必ずしもビット同一のままでない。これらの違いは非常に小さいので、これらの項目は、試聴テストにおいて含まれなかった。これらの変化が、ごくわずかであり微小であることを示すために、データは、これらの違いのサイズに提供される。

インター−ＴＥＳと名づけられたコーデック・ツールは、ＵＳＡＣ参照モデル８（ＲＭ８）の一部である。この技術は、拍手のような信号を含むトランジェントの知覚的な品質を改善することが報告されているので、インター−ＴＥＳは、あらゆるテスト条件において、常に切り替えられた。この種の設定において、最高の品質は保証され、そして、インター−ＴＥＳおよびＴＳＤの直交性は実証される。

システムテストは、以下の構成を有する：
− ＲＭ８：ＵＳＡＣＲＭ８システム
− ＣＥ：トランジェント・ステアリング非相関器（ＴＳＤ）によって強化されるＵＳＡＣＲＭ８システム

図４および図５は、３２ｋｂｐｓのテストシナリオに対するそれらの９５％の信頼区間とともに、ＭＵＳＨＲＡスコアを表す。テスト・データのために、スチューデントのｔ−分布が仮定された。図４の絶対のスコアは、すべての項目に対してより高い平均スコアを示し、５つの項目中４つ対して、９５％の信頼区間における重要な改良である。項目は、ＲＭ８対して劣化しなかった。ＵＳＡＣＲＭ８に関して、ＴＳＤコア実験（ＣＥ）における評価について、ＵＳＡＣ＋ＴＳＤのための異なるスコアは、図５においてプロットされる。ここで、すべての項目のための重要な改良が、示されうる。

１６ｋｂｐｓテストの設定のために、図６および図７は、それらの９５％の信頼区間とともにＭＵＳＨＲＡスコアを表す。データのスチューデントのｔ−分布が仮定される。図６における絶対のスコアは、あらゆる項目に対してより高い平均スコアを示す。１つの項目に対して、９５％の信頼区間における重要性が示されうる。項目は、ＲＭ８よりも悪い項目はなかった。異なるスコアは、図７においてプロットされる。また、異なるデータに関する全ての項目のための重要な改良が示された。

ＴＳＤツールは、ビットストリームにおいて送信されるｂｓＴｓｄＥｎａｂｌｅによって有効になる。ＴＳＤが有効である場合、トランジェントの実際の分離は、ビットストリームにおいても送信され、そして、ＴＳＤが使用可な場合に備えて、ｂｓＴｓｄＣｏｄｅｄＰｏｓに符号化されるトランジェント検出フラグＴｓｄＳｅｐＤａｔａによって制御される。

エンコーダにおいて、ＴＳＤイネーブル・フラグｂｓＴｓｄＥｎａｂｌｅは、セグメント分類器によって生成される。トランジェント検出フラグＴｓｄＳｅｐＤａｔａは、トランジェント検出器によって設定される。

既に指摘されているように、ＴＳＤは、１２のＭＰＥＧＵＳＡＣテスト項目に対して起動しない。さらに５つの拍手項目のために、ＴＳＤアクティブ化は図８において表される。そして、時間に対するｂｓＴｓｄＥｎａｂｌｅな論理状態を示す。

ＴＳＤが起動される場合、トランジェントは特定のＱＭＦタイムスロットにおいて検出され、そして、これらは、その後、専用のトランジェント非相関器に送り込まれる。付加的なテスト項目毎に対して、表２は、トランジェントを含むＴＳＤが起動されたフレームの範囲内におけるスロットのパーセンテージのリストである。

エンコーダからデコーダに、トランジェント分離決定および非相関器のパラメータを送信することは、一定量のサイド情報を必要とする。しかしながら、この量は、ＭＰＳの範囲内におけるブロードバンド空間キューの送信からのビットレートの節約によって過度に補償される。

結論的には、表３の第１列にリストされるように、平均ＭＰＳ＋ＴＳＤサイド情報ビットレートは、プランＵＳＡＣにおけるプランＭＰＳサイド情報ビットレートよりもさらに低い。提示された構成において、主観的品質の評価のために利用される場合、表３の第２列にリストされる平均ビットレートは、ＴＳＤのために測定されている。

ＴＳＤの計算の計算量は、以下に起因する。
− トランジェントスロット位置の復号化
− トランジェント非相関器の計算量

３２タイムスロットのＭＰＥＧサラウンド空間フレーム長を仮定して、スロット位置の復号化は、最悪の場合、空間フレームにつき、（６４の分割＋８０の乗算）、すなわち、空間フレームにつき、６４＊２５＋８０＝１６８０の演算を必要とする。

コピー演算および条件文を無視して、トランジェント非相関器の計算量は、スロット毎に１つの虚数乗法およびハイブリッドＱＭＦ帯域によって与えられる。

これは、ＴＳＤの以下の全体の複雑度をもたらす。そして、表４において、プランＵＳＡＣの複雑度と比較して示される。

要約すると、試聴テスト・データは、明らかに、両方の演算ポイントにおける全ての項目の異なるスコアにおいて拍手信号の主観的品質の重要な改良を示す。アブソルートスコアの項目に関して、ＴＳＤの状態における全ての項目は、より高い平均スコアを示す。３２ｋｂｐｓに対して、重要な改良が、５つの項目中４つに対して存在する。１６ｋｂｐｓに対して、１つの項目が、重要な改良を示す。ＲＭ８よりも悪いスコアの項目はなかった。計算量におけるデータから分かるように、改良は、ごくわずかな計算コストで成し遂げられる。さらに、これは、ＵＳＡＣのためのＴＳＤツールの利点を強調する。

上記のトランジェント・ステアリング非相関器は、ＵＳＡＣにおいて音声処理を大幅に向上させる。しかしながら、上記でもみられたように、トランジェント・ステアリング非相関器は、特定のスロットにおけるトランジェントの存在または不存在に関する情報を要求する。ＵＳＡＣにおいて、タイムスロットに関する情報は、フレーム単位を基礎として送信されうる。フレームは、いくつか、たとえば、３２タイムスロットを含む。したがって、エンコーダが、フレーム単位を基礎としてトランジェントを含むスロットに関する情報を送信することを認められる。送信されるビットの数を減らすことは、音声信号処理において重要な意味を持つ。これが、たとえ、フレーム毎に送信されるビットの数が、ちょうどいくつかのビットによって減少する場合を意味しても、単一の音声記録でさえ、フレームの膨大な数を含むので、全体のビット転送レートは、著しく減少しうる。

しかしながら、音声信号フレームにおけるイベントのスロット位置を復号化する問題は、トランジェントを復号化する問題に限定されない。音声信号フレームが音的であるかどうか、ノイズ、およびノイズなどを含むか、含まないかのような、他のイベントのスロット位置を復号化するためにさらに役立つ。つまり、音声信号フレームにおけるイベントのスロット位置を効率よく符号化および復号化するための装置は、イベントの多数の異なる性質に対して非常に役立つ。

この文献は、音声信号フレームのスロットまたはスロット位置に関連する場合、この意味におけるスロットは、タイムスロット、周波数スロット、時間−周波数スロットまたは他のいかなる種類のスロットでもよい。本発明は、ＵＳＡＣにおける音声処理および音声信号フレームに限定されず、その代わり、ＭＰＥＧ１／２、Ｌａｙｅｒ３（「ＭＰ３」）、先進的音響符号化（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ：ＡＡＣ）などの如何なる種類の音声フォーマットにも関連することが、さらに理解される。音声信号フレームにおけるイベントのスロット位置を効率よく符号化および復号化することは、いかなる種類の音声信号フレームにも、非常に役立つ。

Ｊ．Ｂｒｅｅｂａａｒｔ，Ｓ．ｖａｎｄｅＰａｒ，Ａ．Ｋｏｈｌｒａｕｓｃｈ，Ｅ．Ｓｃｈｕｉｊｅｒｓ， "Ｈｉｇｈ−ＱｕａｌｉｔｙＰａｒａｍｅｔｒｉｃＳｐａｔｉａｌＡｕｄｉｏＣｏｄｉｎｇａｔＬｏｗＢｉｔｒａｔｅｓ" ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＥＳ１１６th Ｃｏｎｖｅｎｔｉｏｎ，Ｂｅｒｌｉｎ，Ｐｒｅｐｒｉｎｔ６０７２，Ｍａｙ２００４Ｊ．Ｈｅｒｒｅ，Ｋ．Ｋｊｏｅｒｌｉｎｇ，Ｊ．Ｂｒｅｅｂａａｒｔｅｔａｌ．， "ＭＰＥＧｓｕｒｒｏｕｎｄ？ｔｈｅＩＳＯ／ＭＰＥＧｓｔａｎｄａｒｄｆｏｒｅｆｆｉｃｉｅｎｔａｎｄｃｏｍｐａｔｉｂｌｅｍｕｌｔｉ−ｃｈａｎｎｅｌａｕｄｉｏｃｏｄｉｎｇ，" ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１２２th ＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ｖｉｅｎｎａ，Ａｕｓｔｒｉａ，Ｍａｙ２００７Ｐｕｌｋｋｉ，Ｖｉｌｌｅ； "ＳｐａｔｉａｌＳｏｕｎｄＲｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ" ｉｎＪ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．，Ｖｏｌ．５５，Ｎｏ．６，２００７ＩＳＯ／ＩＥＣＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄ "ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ？ＭＰＥＧａｕｄｉｏｔｅｃｈｎｏｌｏｇｉｅｓ？Ｐａｒｔ１：ＭＰＥＧＳｕｒｒｏｕｎｄ"，ＩＳＯ／ＩＥＣ２３００３−１：２００７．Ｊ．Ｅｎｇｄｅｇａｒｄ，Ｈ．Ｐｕｒｎｈａｇｅｎ，Ｊ．Ｒｏｅｄｅｎ，Ｌ．Ｌｉｌｊｅｒｙｄ， "ＳｙｎｔｈｅｔｉｃＡｍｂｉｅｎｃｅｉｎＰａｒａｍｅｔｒｉｃＳｔｅｒｅｏＣｏｄｉｎｇ" ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＥＳ１１６th Ｃｏｎｖｅｎｔｉｏｎ，Ｂｅｒｌｉｎ，Ｐｒｅｐｒｉｎｔ，Ｍａｙ２００４

したがって、本発明の目的は、わずかなビット数を有する音声信号フレームにおけるイベントのスロット位置を符号化するための装置を提供することである。さらに、本発明に記載の符号化するための装置によって符号化された音声信号フレームにおけるイベントのスロット位置を復号化するための装置を提供することも本発明の目的である。本発明の目的は、請求項１に記載の復号化するための装置、請求項１１に記載の符号化するための装置、請求項１４に記載の復号化するための方法、請求項１５に記載の符号化するための方法、請求項１６に記載の復号化するためのコンピュータ・プログラム、請求項１７に記載の符号化するためのコンピュータ・プログラム、請求項１８に記載の符号化された音声信号により達成される。

本発明は、音声信号フレームのスロットの合計数を示しているフレーム・スロット数と音声信号フレームのイベントを含むスロットの数を示しているイベント・スロット数とは、本発明の復号化する装置において利用されうることを前提とする。たとえば、エンコーダは、フレーム・スロット数および／またはイベント・スロット数を復号化するための装置に送信しうる。実施の形態において、エンコーダは、音声信号フレームのスロットの合計数から１を引いた数を送信することによって、音声信号フレームのスロットの合計数を示しうる。エンコーダは、音声信号フレームのイベントを含むスロットの数から１を引いた数を送信することによって、音声信号フレームのイベントを含むスロットの数をさらに示しうる。あるいは、デコーダは、エンコーダからの情報なしに、音声信号フレームのスロットの合計数および音声信号フレームのイベントを含むスロットの数をそれ自身が決定しうる。

これらの前提に基づいて、本発明によると、音声信号フレームにおけるイベントを含むスロット位置の数は、以下の所見を使用して、符号化および復号化されうる：

Ｎを音声信号フレームのスロットの合計数であるとし、そして、
Ｐを音声信号フレームのイベントを含むスロットの数であるとする。

復号化するための装置と同様に符号化するための装置の両方は、ＮおよびＰの値を認識していることを前提とする。

実施の形態において、復号化するための装置が提供され、ここで、復号化するための装置は、イベント状態数またはアップデートされたイベント状態数と閾値とを比較するテストを実施するように適応される。そのようなテストは、イベント状態数からイベントを含むスロット位置を導出するように使用されうる。イベント状態数と閾値とを比較するテストは、イベント状態数またはアップデートされたイベント状態数が、閾値より大きいか、閾値以上か、閾値より小さいか、または閾値以下かどうかの比較により実施されうる。さらにまた、復号化するための装置は、テストの結果に依存するイベント状態数またはアップデートされたイベント状態数をアップデートするように、適応されることが好ましい。

実施の形態において、復号化するための装置は提供され、そして、それは、特定の考慮されたスロットに関して、イベント状態数、またはアップデートされたイベント状態数を比較しているテストを実行するように適応される。ここで、閾値は、フレーム・スロット数、イベント・スロット数、およびフレームの範囲内における考慮されたスロットの位置に依存する。これによって、イベントを含むスロットの位置は、スロット単位を基礎として決定され、フレームのスロット毎に、スロットがイベントを含むかどうかを次々と決定する。

更なる実施の形態において、復号化するための装置は提供され、そして、それは、フレームのスロットの第１のセットを含む第１のフレーム区分、およびフレームのスロットの第２のセットを含む第２のフレーム区分に分割するように適応される。ここで、復号化するための装置は、さらに、別々にフレーム区分の各々のためのイベントを含む位置を決定するために適応される。これによって、イベントを含むスロットの位置は、フレーム区分をさらにより小さいフレームまたはフレーム区分に繰り返し分割することによって決定されうる。

以下に、本発明の実施の形態は、図に関して更に詳細に記載される。

図１は、モノラルからステレオへのアップミキサーにおける非相関器の代表的な応用例である。図２は、モノラルからステレオへのアップミキサーにおける非相関器のさらなる典型的な応用例である。図３は、トランジェント・ステアリング非相関器（ＴＳＤ）を含むＯｎｅ−Ｔｏ−Ｔｗｏ（ＯＴＴ）システムの概要である。図４は、ＴＳＤコア実験（ＣＥ）におけるＲＭ８ＵＳＡＣおよびＵＳＡＣＲＭ８＋ＴＳＤを比較する３２ｋｂｐｓステレオに対する絶対的なスコアを例示している図である。図５は、プランＵＳＡＣシステムと対比してトランジェント・ステアリング非相関器を使用するＵＳＡＣと比較する３２ｋｂｐｓステレオに対する表示している差のスコアの図である。図６は、ＴＳＤコア実験（ＣＥ）におけるＲＭ８ＵＳＡＣおよびＵＳＡＣＲＭ８＋ＴＳＤを比較する１６ｋｂｐｓステレオに対する絶対的なスコアを表示している図である。図７は、プランＵＳＡＣシステムと対比してトランジェント・ステアリング非相関器を使用するＵＳＡＣと比較する１６ｋｂｐｓステレオに対する表示している差のスコアの図である。図８は、ｂｓＴｓｄＥｎａｂｌｅフラグの論理状態として表現される５つの追加項目のためのＴＳＤのアクティブ化を表示する。図９ａは、本発明の実施の形態にかかる音声信号フレームにおけるイベントを含むスロットの位置を復号化するための装置を例示する。図９ｂは、本発明のさらなる実施の形態にかかる音声信号フレームにおけるイベントを含むスロットの位置を復号化するための装置を例示する。図９ｃは、本発明の他の実施の形態にかかる音声信号フレームにおけるイベントを含むスロットの位置を復号化するための装置を例示する。図１０は、本発明の実施の形態にかかる復号化するための装置によって実施される復号化の処理を例示しているフローチャートである。図１１は、本発明の実施の形態にかかるイベントを含むスロットの位置の復号化を実行する擬似コードを例示する。図１２は、本発明の実施の形態にかかる符号化するための装置によって実施される符号化の処理を例示しているフローチャートである。図１３は、本発明のさらなる実施の形態にかかる音声信号フレームにおけるイベントを含むスロットの位置を符号化する処理を表している擬似コードである。図１４は、本発明のさらなる実施の形態にかかる音声信号フレームにおけるイベントを含むスロットの位置を復号化するための装置を例示する。図１５は、本発明の実施の形態にかかる音声信号フレームにおけるイベントを含むスロットの位置を符号化するための装置を例示する。図１６は、実施の形態にかかるＵＳＡＣのＭＰＳ２１２データの構文を表す。図１７は、実施の形態にかかるＵＳＡＣのＴｓｄＤａｔａの構文を例示する。図１８は、ＭＰＳフレーム長に依存するｎＢｉｔｓＴｒＳｌｏｔｓの表を例示する。図１９は、実施の形態にかかるＵＳＡＣのｂｓＴｅｍｐＳｈａｐｅＣｏｎｆｉｇに関する表を示す。図２０は、実施の形態にかかるＵＳＡＣのＴｅｍｐＳｈａｐｅＤａｔａの構文を表す。図２１は、実施の形態にかかるＯＴＴ復号化ブロックにおける非相関器ブロックＤを例示する。図２２は、実施の形態にかかるＵＳＡＣのＥｃＤａｔａの構文を表す。図２３は、ＴＳＤデータの生成のための信号フローチャートを例示する。

図９ａは、本発明の実施の形態にかかる音声信号フレームにおけるイベントを含むスロットの位置を復号化するための装置１０を例示する。復号化するための装置１０は、解析ユニット２０および生成ユニット３０を含む。音声信号フレームのスロットの合計数を示しているフレーム・スロット数ＦＳＮ、音声信号フレームのイベントを含むスロットの数を示しているイベント・スロット数ＥＳＯＮ、およびイベント状態数ＥＳＴＮは、復号化するための装置１０に送り込まれる。そして、復号化するための装置１０は、フレーム・スロット数ＦＳＮ、イベント・スロット数ＥＳＯＮおよびイベント状態数ＥＴＮを使用することによって、イベントを含むスロットの位置を復号化する。復号化は、復号化の処理において、協働する解析ユニット２０および生成ユニット３０によって実施される。さらに、解析ユニット２０は、テスト、すなわち、イベント状態数ＥＳＴＮと閾値とを比較を実行する役割を有しており、生成ユニット３０は、復号化処理の中間結果、すなわち、アップデートされたイベント状態数を生成し、アップデートする。

さらに、生成ユニット３０は、音声信号フレームにおけるイベントを含む複数のスロット位置の表示を生成する。音声信号フレームのイベントを含む複数のスロット位置の特定の表示は、「表示状態」として参照されうる。

実施の形態によれば、音声信号フレームにおけるイベントを含む複数のスロット位置の表示は、第１の時点で生成され、生成ユニット３０は、第２の時点で、スロットがイベントを含むかどうかを第１のスロットに対して示し、生成ユニット３０は、スロットがイベントを含むかどうか、第２のスロットに対して示す。

さらなる実施の形態によれば、たとえば、イベントを含む複数のスロット位置の表示は、イベントをそれが含むかどうか、フレームのスロット毎に示しているビット配列でもよい。

解析ユニット２０および生成ユニット３０は、両ユニットが、中間結果を作り出すように、復号化する処理において１回以上互いにコールするように協働しうる。

図９ｂは、本発明の実施の形態による復号化するための装置４０を例示する。復号化するための装置４０は、さらに音声信号プロセッサ５０を含むという点において、とりわけ、図９ａの装置１０とは異なる。音声信号プロセッサ５０は、音声入力信号および生成ユニット４５によって生成された音声信号フレームにおけるイベントを含む複数のスロット位置の表示を受信する。表示に応じて、音声信号プロセッサ５０は、音声出力信号を生成する。音声信号プロセッサ５０は、たとえば、音声入力信号を非相関化することによって、音声出力信号を生成しうる。さらに、音声信号プロセッサ５０は、図３において例示されるような音声出力信号を生成するために、ラティスＩＩＲ非相関器５４、トランジェント非相関器５６およびトランジェント分離器５２を含みうる。音声信号フレームにおけるイベントを含む複数のスロット位置の表示は、スロットがトランジェントを含むことを示す場合、そのとき、音声信号プロセッサ５０は、トランジェント非相関器５６によるスロットに関する音声入力信号を非相関化する。しかしながら、音声信号フレームにおけるイベントを含む複数のスロット位置の表示が、トランジェントを含まないスロットを示す場合、そのとき、音声信号プロセッサは、ラティスＩＩＲ非相関器５４を使用することによって、スロットに関する音声入力信号Ｓを非相関化する。特定のスロットが（トランジェント非相関器５６による非相関化）トランジェントを含むことを、表示が示すか、または、スロットが（ラティスＩＩＲ非相関器による非相関化）トランジェントを含むかどうかに依存して、音声信号プロセッサは、スロットに関する音声信号の部分が、トランジェント非相関器５６またはラティスＩＩＲ非相関器５４に取り入れられるかどうかの表示に基づいて決定するトランジェント分離器５２を使用する。

図９ｃは、本発明の実施の形態による復号化するための装置６０を例示する。復号化するための装置６０は、さらにそれが、スロット・セレクタ９０を含むという点において、図９ａの装置１０とは異なる。復号化は、スロットがイベントを含むかどうかフレームのスロット毎に、次々と決定するスロット毎に基づいて行われる。スロット・セレクタ９０は、考慮するフレームのスロットを決定する。好ましいアプローチは、スロット・セレクタ９０が次々とフレームのスロットを選択するということである。

この実施の形態の復号化するための装置６０のスロット毎の復号化は、以下の所見に基づく。それは、音声信号フレームにおけるイベントを含むスロットの位置を復号化するための装置、符号化するための装置、復号化するための方法および符号化するための方法の実施の形態のために適用されうる。以下の所見は、コンピュータ・プログラムおよび符号化された信号にもそれぞれ適用しうる。

Ｎが音声信号フレームのスロットの（合計）数であり、Ｐがフレームのイベントを含むスロットの数である（これは、Ｎがフレーム・スロット数ＦＳＮであり、Ｐがイベント・スロット数ＥＳＯＮであることを意味する）。フレームの第１のスロットが考慮される。２つのケースが区別されうる。

実施の形態において、復号化するための装置は、フレームの第１のスロットがテストによってイベントを含むかどうか、イベント状態数が閾値より大きいかを決定するように適応される。（あるいは、イベント状態数が閾値以上か、閾値以下か、または閾値よりも小さいかどうかをテストするように、実施の形態の符号化／復号化は実現されうる。）第１のスロットを解析した後、復号化は、調整値を使用してフレームの第２のスロットのために続けられる。（１減少された）考慮されたスロットの数の調整の他に、（第１のスロットがイベントを含まなかった場合）イベントを含むスロットの数は、結局、１減少もする。そして、イベント状態数が閾値より大きい場合に、イベント状態数から第１のスロットに関する部分を削除するために、イベント状態数は調整される。復号化の処理は、同様の方法で、フレームの更なるスロットに対して続けられうる。

各反復の２項係数の算出は、高コストである。したがって、実施の形態によれば、以下のルールが、前の反復からの値を使用して２項係数をアップデートするために使用されうる：

これらの式を用いて、２項係数の各アップデートが１つの乗算および１つの除算だけのコストであり、明確な評価は、各反復において、Ｐの乗算および除算のコストがかかる。

この実施の形態において、デコーダの全体の計算量は、各反復の１乗算、除算およびｉｆ文に対して、および各符号化位置の１乗算、加算および除算に対して、２項係数の初期化のためのＰ乗算および除算である。理論的には、１まで初期化のために必要とされる除算の数を減少することが可能である点に留意されたい。しかしながら、実際には、このアプローチは、非常に大きな整数を結果として得る。そして、それを扱うのは困難である。デコーダの最悪計算量は、Ｎ＋２Ｐ回の除算およびＮ＋２Ｐ回の乗算であり、Ｐ回の加算およびＮ回のｉｆ文である。

実施の形態において、符号化するための装置によって使用される符号化アルゴリズムは、すべてのスロットを通して反復される必要はなく、それらだけは、それらに割り当てられる位置を有する。したがって、以下のとおりである。

エンコーダの最悪計算量は、Ｐ−１の加算と同様に、Ｐ・（Ｐ−１）の乗算およびＰ・（Ｐ−１）の除算である。

図１０は、本発明の実施の形態による復号化をするための装置により実施される復号化処理を例示する。この実施の形態において、復号化は、スロット単位を基礎に実行される。

ステップ１１０において、値は初期化される。復号化するための装置は、変数ｓにおいて入力値として受信したイベント状態数を格納する。さらに、イベント・スロット数によって示されるように、フレームのイベントを含むスロットの数は、変数ｐにおいて格納される。さらに、フレーム・スロット数によって示されるように、フレームにおいて含まれるスロットの合計数は、変数Ｎにおいて格納される。

ステップ１２０において、ＴｓｄＳｅｐＤａｔａ［ｔ］の値は、フレームの全てのスロットに対して０によって初期化される。ビット配列ＴｓｄＳｅｐＤａｔａは、生成される出力データである。各スロット位置ｔに対して、スロット位置に対応するスロットがイベント（ＴｓｄＳｅｐＤａｔａ[ｔ]＝１）を含むかどうか、または含まないかどうか（ＴｓｄＳｅｐＤａｔａ[ｔ]＝０）を示す。ステップ１２０において、フレーム全てのスロットの対応する値は、０によって初期化される。

ステップ１３０において、変数ｋは、値Ｎ−１によって初期化される。この実施の形態において、Ｎの要素を含むフレームのスロットは０，１，２，．．．Ｎ−１と番号がつけられる。ｋ＝Ｎ−１を設定することは、もっとも高いスロット数を有するスロットが最初に評価されることを意味する。

ステップ１４０において、ｋ≧０であるかどうかが考慮される。ｋ＜０である場合、スロット位置の復号化は、終了し、処理は終了し、そうでなければ、処理はステップ１５０に続く。

ステップ１５０において、ｐ＞ｋかどうかがテストされる。ｐがｋより大きい場合、これは、残りの全てのスロットがイベントを含むことを意味する。処理は、ステップ２３０に続き、残りのスロット０，１，．．．，ｋのＴｓｄＳｅｐＤａｔａのフィールド値は、残りのスロットの各々がイベントを含むことを示して、１に設定される。この場合において、処理は、その後終了する。しかしながら、ステップ１５０において、ｐがｋよりも大きくないことが分かった場合、復号化処理は、ステップ１６０に続く。

ステップ１７０において、（最終的にアップデートされる）イベント状態数ｓがｃ以上かどうかがテストされる。ここで、ｃは、ステップ１６０においてちょうど算出される閾値である。

ｓがｃより小さい場合、これは、（スロット位置ｋを伴う）考慮されたスロットがイベントを含まない場合である。この場合、ＴｓｄＳｅｐＤａｔａ［ｋ］が、ステップ１４０においてこのスロットに対して０に既に設定されているので、さらなるアクションはされない。そのとき、処理は、ステップ２２０に続く。ステップ２２０において、ｋは、ｋ＝ｋ−１に設定され、次のスロットが注目される。

一方、ステップ１７０におけるテストは、ｓがｃ以上かを示し、これは、考慮されたスロットｋがイベントを含むことを意味する。この場合、イベント状態数ｓは、アップデートされ、ステップ１８０において、値ｓ：＝ｓ−ｃに設定される。さらに、ＴｓｄＳｅｐＤａｔａ［ｋ］は、スロットｋがイベントを含むことを示すために、ステップ１９０において、１に設定される。さらに、ステップ２００において、ｐは、ｐ−１に設定され、現在調べられる残りのスロットがイベントを有するｐ−１スロットを含むことを示す。

ステップ２１０において、ｐが０に等しいかどうか、テストされる。ｐが０に等しい場合、残りのスロットはイベントを含まず、復号化処理は終了する。そうでなければ、残りのスロットの少なくとも１つはイベントを含み、処理は、復号化処理が次のスロット（ｋ−１）を続ける、ステップ２２０に続く。

図１０において例示される実施の形態の復号化処理は、スロットがイベントを含むかどうか（ＴｓｄＳｅｐＤａｔａ［ｋ］＝１）、または、含まないかどうか（ＴｓｄＳｅｐＤａｔａ［ｋ］＝０）、をフレームの各スロットｋに対して示している出力値として、配列ＴｓｄＳｅｐＤａｔａを生成する。

図９ｃに戻って、装置は、図１０において例示される復号化処理を実行する、実施の形態の復号化するための装置６０は、考慮するためのスロットを決定するスロット・セレクタ９０を含む。図１０に関して、そのようなスロット・セレクタは、図１０の処理ステップ１３０および２２０を実行するように適応される。この実施の形態の適切な解析ユニット７０は、図１０の処理ステップ１４０、１５０、１７０および２１０を実行するように適応される。そのような実施の形態の生成ユニット８０は、図１０の全ての他の処理ステップを実施するように適応される。

図１１は、本発明の実施の形態によるイベントを含むスロットの位置の復号化を実施するための擬似コードを例示する。

図１２は、本発明の実施の形態による符号化するための装置により実施される符号化処理を例示する。この実施の形態によれば、符号化は、スロット単位を基礎にして実行される。図１２に例示される実施の形態による符号化処理は、イベント状態数を生成することである。

ステップ３１０において、値が初期化される。ｐ＿ｓは、０によって初期化される。イベント状態数は、引き続いて、変数ｐ＿ｓをアップデートすることによって生成される。符号化処理が終了した場合、ｐ＿ｓは、イベント状態数を担持する。ステップ３１０は、フレーム−１においてｋからイベントを含むスロットの（ｋ：＝）数までを設定することによって、ｋも初期化する。

ステップ３２０において、変数「ｓｌｏｔ」が、ｓｌｏｔ：＝ｔｓｄＰｏｓ［ｋ］に設定され、ここで、ｔｓｄＰｏｓは、イベントを含むスロットの位置を保持している配列である。配列におけるスロット位置は、昇順に格納される。

ステップ３３０において、テストは、ｋ≧ｓｌｏｔかどうかのテストを実行する。この場合、処理は終了する。そうでなければ、処理はステップ３４０において続けられる。

ステップ３５０において、変数ｐ＿ｓは、アップデートされ、ｐ＿ｓ：＝ｐ＿ｓ＋ｃに設定される。

ステップ３６０において、ｋは、ｋ：＝ｋ−１に設定される。

それから、ステップ３７０において、テストは、ｋ≧０であるかどうかのテストを実行し、次に、スロットｋ−１が注目される。そうでなければ、処理が終了する。

図１３は、本発明の実施の形態によるイベントを含むスロットの位置の符号化を実行する、擬似コードを表す。

図１４は、本発明のさらなる実施の形態による音声信号フレームにおけるイベントを含むスロットの位置を復号化するための装置４１０を例示する。また、図９ａにおけるように、音声信号フレームのスロットの合計数を示すフレーム・スロット数ＦＳＮ、音声信号フレームのイベントを含むスロットの数を示すイベント・スロット数ＥＳＯＮ、およびイベント状態数ＥＳＴＮは、復号化するための装置４１０に送り込まれる。復号化するための装置４１０は、フレーム区分器４４０をさらに含むという点で、図９ａの装置とは異なる。フレーム区分器４４０は、フレームのスロットの第１のセットを含む第１のフレーム区分、およびフレームのスロットの第２のセットを含む第２のフレーム区分をフレームに分割するように適応され、イベントを含むスロット位置は、フレーム区分のそれぞれのために別々に決定される。これによって、イベントを含むスロットの位置は、フレーム区分よりもさらに小さいフレームまたはフレーム区分を繰り返して分割することによって、決定されうる。

この実施の形態の復号化するための装置４１０の復号化に「基づく区分」は、以下の概念に基づく。そして、それは、音声信号フレームにおけるイベントを含むスロットの位置を復号化するための装置、符号化するための装置、復号化するための方法、および符号化するための方法の実施の形態のために適用されうる。以下の概念は、コンピュータ・プログラムおよび符号化された信号のそれぞれにも適用されうる。

復号化に基づく区分は、一組のスロットを含む各フレーム区分の２つのフレーム区分ＡおよびＢに分割されるという考えに基づく。ここで、フレーム区分Ａは、Ｎ_aスロットを含み、フレーム区分Ｂは、Ｎ_bスロットを含み、たとえば、Ｎ_a＋Ｎ_b＝Ｎである。好ましくは、区分ＡおよびＢがスロットのほとんど同じ合計数（たとえば、Ｎ_a＝Ｎ_bまたはＮ_a＝Ｎ_b−１）を有するように、フレームは、２つの区分に任意に分割されうる。フレームを２つの区分に分割することによって、イベントが生じたスロット位置を決定する作業は、２つのサブタスクにも分割され、すなわち、フレーム区分Ａにおいて生じたイベントのスロット位置を決定し、フレーム区分Ｂにおいて生じたイベントのスロット位置を決定する。

この実施の形態において、復号化するための装置が、フレームのスロットの数、フレームのイベントを含むスロットの数およびイベント状態数を認識している前提である。両方のサブタスクを解析するために、復号化するための装置が、各フレーム区分のスロットの数、各フレーム区分に関して生じたイベントのスロットの数、および各フレーム区分のイベント状態数（そのようなフレーム区分のイベント状態数は、「イベントサブ状態数」として参照される）も認識している。

復号化するための装置自身が、２つのフレーム区分にフレームを分割するので、フレーム区分ＡがＮ_aスロットを含み、フレーム区分ＢがＮ_bスロットを含むことをそれ自体が既知である。両方のフレームのそれぞれのためのイベントを含むスロットの数を決定することは、以下の所見に基づく。

フレームが２つの区分に分割されるので、イベントを含むそれぞれのスロットは、現在、区分Ａまたは区分Ｂのおけるどちらか一方において位置する。さらに、Ｐはフレーム区分のイベントを含むスロットの数であり、Ｎはフレーム区分のスロットの合計数であり、およびｆ（Ｐ，Ｎ）は、フレーム区分のイベントのスロット部分の異なる組み合わせの数を戻す関数であると仮定すると、そのとき、（区分Ａおよび区分Ｂに分割されている）全体のフレームのイベントのスロット部分の異なる組み合わせの数は、以下の通りとなる。

上記の考慮すべき事柄に基づいて、実施の形態によれば、区分Ａがイベントを含む０スロットを有し、区分Ｂがイベントを含むＰスロットを有する第１の設定を有する全ての組み合わせは、第１の閾値よりも小さいイベント状態数によって符号化されなければならない。イベント状態数は、正かまたは０である整数値として符号化される。第１の設定についてｆ（０，Ｎ_a）・ｆ（Ｐ，Ｎ_b）の組み合わせのみであるので、適切な第１の閾値は、ｆ（０，Ｎ_a）・ｆ（Ｐ，Ｎ_b）である。

区分Ａがイベントを含む１スロットを有し、区分Ｂがイベントを含むＰ−１スロットを有する第２の設定を有する全ての組み合わせは、第１の閾値以上、また、第２の値以下のイベント状態数によって符号化されなければならない。第２の設定についてｆ（１，Ｎ_a）・ｆ（Ｐ−１，Ｎ_b）の組み合わせのみであるので、適切な第２の値は、ｆ（１，Ｎ_a）・ｆ（Ｐ−１，Ｎ_b）である。他の設定についての組み合わせに対するイベント状態数は、同様に決定される。

実施の形態によれば、符号化は、フレームを２つのフレーム区分ＡおよびＢに分離することによって実行される。そのとき、イベント状態数が第１の閾値よりも小さいかどうかテストされる。好ましい実施の形態において、第１の閾値は、ｆ（０，Ｎ_a）・ｆ（Ｐ，Ｎ_b）である。

イベント状態数が第１の閾値よりも小さい場合、区分Ａがイベントを含む０スロットを含み、区分Ｂが、イベントの生じたフレームの全てのＰスロットを含むと結論されうる。そして、復号化は、対応する区分のイベントを含むスロットの数を表すそれぞれ決定された数を有する両方の区分のために実施される。さらに、第１のイベント状態数は、区分Ａのために決定され、第２のイベント状態数は、新しいイベント状態数としてそれぞれ使用される区分Ｂのために決定される。本願明細書の範囲内において、フレーム区分のイベント状態数は、「イベントサブ状態数」として参照される。

しかしながら、イベント状態数が第１の閾値以上の場合、イベント状態数はアップデートされうる。好ましい実施の形態において、イベント状態数は、イベント状態数からの値を減ずることによって、好ましくは、第１の閾値、たとえば、ｆ（０，Ｎ_a）・ｆ（Ｐ，Ｎ_b）を減ずることによってアップデートされうる。次のステップにおいて、アップデートされたイベント状態数が第２の閾値よりも小さいかどうか、テストされる。好ましい実施の形態において、第２の閾値は、ｆ（１，Ｎ_a）・ｆ（Ｐ−１，Ｎ_b）でありうる。イベント状態数が第２の閾値よりも小さい場合、区分Ａは、イベントを含む１スロットを有し、区分Ｂは、イベントを含むＰ−１スロットを有するように導出されうる。そして、復号化は、各区分のイベントを含むスロットのそれぞれ決定された数を有する両方の区分に対して実施される。第１のイベントサブ状態値は、区分Ａの復号化のために使用され、第２のイベントサブ状態値は、区分Ｂの復号化のために使用される。しかしながら、イベント状態数が第２の閾値以上の場合、イベント状態数はアップデートされうる。好ましい実施の形態において、イベント状態数は、イベント状態数からの値、好ましくは、ｆ（１，Ｎ_a）・ｆ（Ｐ−１，Ｎ_b）を減ずることによってアップデートされうる。復号化処理は、２つのフレーム区分に関して、イベントを含むスロットの残りの分布可能性のために、同様に適用される。

実施の形態において、区分Ａためのイベントサブ状態値および区分Ｂのためのイベントサブ状態値は、区分Ａおよび区分Ｂの復号化のために使用されうる。ここで、両方のイベントサブ状態値は、以下に示す除算を実行することによって決定される。

イベント状態値／ｆ（区分Ｂのイベントを含むスロットの数，Ｎ_b）

好ましくは、区分Ａのイベントサブ状態数は、上述の除算の整数部であり、区分Ｂのイベントサブ状態数は、その除算の余りの部分である。この除算で使用されたイベント状態数は、フレームの元のイベント状態数またはアップデートされた、たとえば、上述したように、１以上の閾値により減ずることによりアップデートされたイベント状態数でありうる。

復号化に基づく区分の上述の記載の概念を例示するために、フレームが、イベントを含む２つのスロットを有する状況が考慮される。さらにまた、ｆ（ｐ，Ｎ）が、再度、フレーム区分のイベントのスロット部分の異なる組み合わせの番号を返す関数である場合、ｐは、フレーム区分のイベントを含むスロットの数であり、Ｎは、そのフレーム区分のスロットの合計数である。そのとき、位置の可能な分布のそれぞれに対して、可能な組み合わせの以下に示す番号が結果として得られる。

フレームの符号化されたイベント状態数が、ｆ（０，Ｎ_a）・ｆ（２，Ｎ_b）よりも小さい場合、そのとき、イベントを含むスロットは、０および２として割り当てられるように、結論されうる。そうでなければ、ｆ（０，Ｎ_a）・ｆ（２，Ｎ_b）は、イベント状態数から減算され、結果は、ｆ（１，Ｎ_a）・ｆ（１，Ｎ_b）と比較される。それが、より小さい場合、そのとき、位置は、１および１として割り当てられる。そうでなければ、我々は、割り当て２および０のみを有し、位置は、２および０を割り当てられる。

以下に、擬似コードが、音声信号フレームにおける特定のイベント（ここでは：「パルス」）を含むスロットの位置を復号化するための実施の形態により提供される。この擬似コードにおいて、「ｐｕｌｓｅｓ＿ａ」は、区分Ａにおけるイベントを含むスロットの（仮定の）数であり、そして、「ｐｕｌｓｅｓ＿ｂ」は、区分Ｂにおけるイベントを含むスロットの（仮定の）数である。この擬似コードにおいて、（最終的にアップデートされる）イベント状態数は、「ｓｔａｔｅ」として参照される。区分ＡおよびＢのイベントのサブ状態数は、「ｓｔａｔｅ」変数において、まだ合同で符号化される。実施の形態のジョイント符号化スキームにより、（ここで、「ｓｔａｔｅ＿ａ」として参照される）Ａのイベントサブ状態数は、ｓｔａｔｅ／ｆ（ｐｕｌｓｅｓ＿ｂ，Ｎ_b）の除算の整数部であり、（ここで、「ｓｔａｔｅ＿ｂ」として参照される）Ｂのイベントサブ状態数は、その除算の余りである。これによって、長さ（区分のスロットの合計数）および両方の区分の（区分におけるイベントを含むスロットの数の）符号化された位置の数は、同じアプローチによって復号化されうる。

Ｆｕｎｃｔｉｏｎｘ＝ｄｅｃｏｄｅｓｔａｔｅ（ｓｔａｔｅ，ｐｕｌｓｅｓ，Ｎ）

１．ＳｐｌｉｔｖｅｃｔｏｒｉｎｔｏｔｗｏｐａｒｔｉｔｉｏｎｓｏｆｌｅｎｇｔｈＮａａｎｄＮｂ．
２．Ｆｏｒｐｕｌｓｅｓ＿ａｆｒｏｍ０ｔｏｐｕｌｓｅｓ
− ａ．ｐｕｌｓｅｓ＿ｂ＝ｐｕｌｓｅｓ − ｐｕｌｓｅｓ＿ａ
ｂ．ｉｆｓｔａｔｅ＜ｆ（ｐｕｌｓｅｓ＿ａ，Ｎａ）＊ｆ（ｐｕｌｓｅｓ＿ｂ，Ｎｂ）ｔｈｅｎｂｒｅａｋｆｏｒ−ｌｏｏｐ．
ｃ．ｓｔａｔｅ：＝ｓｔａｔｅ − ｆ（ｐｕｌｓｅｓ＿ａ，Ｎａ）＊ｆ（ｐｕｌｓｅｓ＿ｂ，Ｎｂ）
３．ＮｕｍｂｅｒｏｆｐｏｓｓｉｂｌｅｓｔａｔｅｓｆｏｒｐａｒｔｉｔｉｏｎＢｉｓｎｏ＿ｓｔａｔｅｓ＿ｂ＝ｆ（ｐｕｌｓｅｓ＿ｂ，Ｎｂ）
４．Ｔｈｅｓｔａｔｅｓ，ｓｔａｔｅ＿ａａｎｄｓｔａｔｅ＿ｂ，ｏｆｐａｒｔｉｔｉｏｎｓＡａｎｄＢ，ｒｅｓｐｅｃｔｉｖｅｌｙ，ａｒｅｔｈｅｉｎｔｅｇｅｒｐａｒｔａｎｄｔｈｅｒｅｍｉｎｄｅｒｏｆｔｈｅｄｉｖｉｓｉｏｎｓｔａｔｅ／ｎｏ＿ｓｔａｔｅｓ＿ｂ．
５．ＩｆＮａ＞１ｔｈｅｎｔｈｅｄｅｃｏｄｅｄｖｅｃｔｏｒｏｆｐａｒｔｉｔｉｏｎＡｉｓｏｂｔａｉｎｅｄｒｅｃｕｒｓｉｖｅｌｙｂｙ
ｘａ＝ｄｅｃｏｄｅｓｔａｔｅ（ｓｔａｔｅ＿ａ，ｐｕｌｓｅｓ＿ａ，Ｎａ）
Ｏｔｈｅｒｗｉｓｅ（Ｎａ＝＝１），ａｎｄｔｈｅｖｅｃｔｏｒｘａｉｓａｓｃａｌａｒａｎｄｗｅｃａｎｓｅｔｘａ＝ｓｔａｔｅ＿ａ．
６．ＩｆＮｂ＞１ｔｈｅｎｔｈｅｄｅｃｏｄｅｄｖｅｃｔｏｒｏｆｐａｒｔｉｔｉｏｎＢｉｓｏｂｔａｉｎｅｄｒｅｃｕｒｓｉｖｅｌｙｂｙ
ｘｂ＝ｄｅｃｏｄｅｓｔａｔｅ（ｓｔａｔｅ＿ｂ，ｐｕｌｓｅｓ＿ｂ，Ｎｂ）
Ｏｔｈｅｒｗｉｓｅ（Ｎｂ＝＝１），ａｎｄｔｈｅｖｅｃｔｏｒｘｂｉｓａｓｃａｌａｒａｎｄｗｅｃａｎｓｅｔｘｂ＝ｓｔａｔｅ＿ｂ．
７．Ｔｈｅｆｉｎａｌｏｕｔｐｕｔｘｉｓｏｂｔａｉｎｅｄｂｙｍｅｒｇｉｎｇｘａａｎｄｘｂｂｙｘ＝［ｘａｘｂ］．

このアルゴリズムの出力は、あらゆる符号化された位置（すなわち、イベントを含むスロットのスロット位置）において（１）を有し、他（すなわち、イベントを含まないスロットの位置）においてゼロ（０）を有するベクトルである。

以下に、擬似コードは、上記として類似の意味を有する類似の変数名を使用する音声信号フレームにおけるイベントを含むスロットの符号化位置のための実施の形態によって提供される。

Ｆｕｎｃｔｉｏｎｓｔａｔｅ＝ｅｎｃｏｄｅｓｔａｔｅ（ｘ，Ｎ）

１．ＳｐｌｉｔｖｅｃｔｏｒｉｎｔｏｔｗｏｐａｒｔｉｔｉｏｎｓｘａａｎｄｘｂｏｆｌｅｎｇｔｈＮａａｎｄＮｂ．
２．ＣｏｕｎｔｐｕｌｓｅｓｉｎｐａｒｔｉｔｉｏｎｓＡａｎｄＢｉｎｐｕｌｓｅｓ＿ａａｎｄｐｕｌｓｅｓ＿ｂ，ａｎｄｓｅｔｐｕｌｓｅｓ＝ｐｕｌｓｅｓ＿ａ＋ｐｕｌｓｅｓ＿ｂ．
３．Ｓｅｔｓｔａｔｅｔｏ０
４．Ｆｏｒｋｆｒｏｍ０ｔｏｐｕｌｓｅｓ＿ａ−１
ａ．ｓｔａｔｅ：＝ｓｔａｔｅ＋ｆ（ｋ，Ｎａ）＊ｆ（ｐｕｌｓｅ−ｋ，Ｎｂ）
５．ＩｆＮａ＞１，ｅｎｃｏｄｅｐａｒｔｉｔｉｏｎＡｂｙｓｔａｔｅ＿ａ＝ｅｎｃｏｄｅｓｔａｔｅ（ｘａ，Ｎａ）；
Ｏｔｈｅｒｗｉｓｅ（Ｎａ＝＝１），ｓｅｔｓｔａｔｅ＿ａ＝ｘａ．
６．ＩｆＮｂ＞１，ｅｎｃｏｄｅｐａｒｔｉｔｉｏｎＢｂｙｓｔａｔｅ＿ｂ＝ｅｎｃｏｄｅｓｔａｔｅ（ｘｂ，Ｎｂ）；
Ｏｔｈｅｒｗｉｓｅ（Ｎｂ＝＝１），ｓｅｔｓｔａｔｅ＿ｂ＝ｘｂ．
７．Ｅｎｃｏｄｅｓｔａｔｅｓｊｏｉｎｔｌｙ
ｓｔａｔｅ：＝ｓｔａｔｅ＋ｓｔａｔｅ＿ａ＊ｆ（ｐｕｌｓｅｓ＿ｂ，Ｎｂ）＋ｓｔａｔｅ＿ｂ．

ここで、同様に、復号化アルゴリズムに、あらゆる符号化された位置（すなわち、イベントを含むスロットのスロット位置）はベクトルｘにおける（１）によって確認され、そして、他の全ての要素は、（すなわち、イベントを含まないスロットの位置において）ゼロ（０）である。

擬似コードにおいて定式化される上記の再帰的方法は、標準的な方法を使用している非機能的方法で直ちに実施されうる。

本発明の実施の形態によれば、関数ｆ（ｐ，Ｎ）は、ルックアップテーブルとして実現されうる。位置が、重ならない場合、たとえば、現在の状況において、そのとき、ｎｕｍｂｅｒ−ｏｆ−ｓｔａｔｅｓ関数ｆ（ｐ，Ｎ）は、オンラインで算出されうる単に２項式である。

である。

本発明の実施の形態によれば、エンコーダおよびデコーダの両方は、プロダクトｆ（ｐ−ｋ，Ｎ_a）＊ｆ（ｋ，Ｎ_b）がｋの連続的な値のために算出されるｆｏｒ−ｌｏｏｐを有する。効率的な計算のために、これは、以下のように書かれうる。

換言すれば、（デコーダにおけるステップ２ｂおよび２ｃならびにエンコーダにおけるステップ４ａにおける）引算／加算のための連続的な期間は、３つの乗算および１つの除算によって算出されうる。

記載されている方法と同様に、（多くのスロットを有するフレームの）ロング・ベクトルの状態は、非常に大きい整数であり、容易に、標準プロセッサの表現の長さを延長する。したがって、非常に長い整数を扱うことのできる算術関数を使用することを必要とする。

計算量に関して、ここで注目される方法は、上記のスロット単位に対する違いにおいて、スプリットおよびｃｏｎｑｕｅｒ−ｔｙｐｅアルゴリズムである。入力ベクトル長が２の累乗である場合、再帰は、ｌｏｇ２（Ｎ）の深さを有する。

パルスの数が、再帰の各深さにおいて一定のままであるので、それから、ｆｏｒ−ｌｏｏｐの反復の数が各再帰と同じである。それは、ループの数がｐｕｌｅｓ・ｌｏｇ２（Ｎ）であるということになる。

上述したように、ｆ（ｐ−ｋ，Ｎ_a）・ｆ（ｋ，Ｎ_b）の各アップデートは、３つの乗算および１つの除算によってされうる。

デコーダにおける引算および比較が、１つの動作であるとみなされうる点に留意すべきである。

区分が、ｌｏｇ２（Ｎ）−１回、合併されるということを直ちに知られうる。エンコーダにおける状態のジョイント符号化において、ｌｏｇ２（Ｎ）−１回、乗算し、加算するのに必要である。同様に、デコーダにおける状態のジョイント復号化において、ｌｏｇ２−１回、除算するのに必要である。

除算のうち、デコーダにおいて状態をジョイント符号化するのみが、分母が倍長整数である除算を必要とする点に留意すべきである。他の除算は、分母において、比較的短い整数を有する。長い分母を有する除算は、もっとも複雑な処理であるので、それらは可能な場合、回避すべきである。

要約すると、倍長整数算術演算の数は、デコーダにおいてである。

乗算（３・ｐｕｌｅｓ＋１）・ｌｏｇ２（Ｎ）−１
除算（ｐｕｌｅｓ＋１）・ｌｏｇ２（Ｎ）−１
そのうちの倍長整数の除算ｌｏｇ２（Ｎ）−１
加算および引算ｐｕｌｅｓ・ｌｏｇ２（Ｎ）

同様に、エンコーダにおいて、以下のとおりである。

乗算（３・ｐｕｌｅｓ＋１）・ｌｏｇ２（Ｎ）−１
除算（ｐｕｌｅｓ＋１）・ｌｏｇ２（Ｎ）−１
そのうちの倍長整数の除算０
加算および引算（ｐｕｌｅｓ＋２）・ｌｏｇ２（Ｎ）

倍長整数を有するｌｏｇ２（Ｎ）−１の除算のみは必要である。

さらなる実施の形態において、再帰的処理ステップのいくらかまたは全てが、標準の方法を使用している非再帰的方法で実施するように、再帰的処理ステップを使用するために含まれ、適応される上記の実施の形態が修正される。

図１５は、実施の形態による音声信号フレームにおけるイベントを含むスロットの位置を符号化するための装置（５１０）を例示する。符号化するための装置（５１０）は、イベント状態数の符号化することによってスロットの位置を符号化するために適応されるイベント状態数生成器（５３０）を含む。さらに、装置は、フレーム・スロット数およびイベント・スロット数をイベント状態数生成器（５３０）に提供するために適応されるスロット情報ユニット（５２０）を含む。イベント状態数生成器は、上記の符号化するための方法をのうちの１つを実施しうる。

さらなる実施の形態において、符号化された音声信号が提供される。符号化された音声信号は、イベント状態数を含む。他の実施の形態において、符号化された音声信号は、さらに、イベント・スロット数を含む。またさらに、符号化された音声信号フレームは、フレーム・スロット数も含む。音声信号フレームにおいて、音声信号フレームにおけるイベントを含むスロットの位置は、復号化するための上記において記載される方法のうちの１つにより復号化される。実施の形態において、イベント状態数、イベント・スロット数およびフレーム・スロット数は、音声信号フレームにおけるイベントを含むスロットの位置が上記おいて記載される方法のうちの１つを使用することによって復号化されうるように送信される。

本発明の符号化された音声信号は、デジタル記憶媒体もしくは一時的な記憶媒体に保存され、またはインターネットのように、たとえば、ワイヤレス伝送媒体または有線の伝送媒体などのような伝送媒体において伝送されうる。

以下は、本実施の形態によるトランジェント・ステアリング非相関器（ＴＳＤ）を支持するために適応されるＵＳＡＣの構文を説明する。

図１６は、ＭＰＳ（ＭＰＥＧＳｕｒｒｏｕｎｄ）２１２データを例示する。ＭＰＳ２１２は、ＭＰＳ２１２ステレオ・モジュールのためのペイロードを含むデータのブロックである。ＭＰＳ２１２データは、ＴＳＤデータを含む。

図１７は、ＴＳＤデータの構文を表す。それは、ＭＰＳ２１２データフレームにおけるスロットのための、トランジェントスロット（ｂｓＴｓｄＮｕｍＴｒＳｌｏｔｓ）の数とＴＳＤＴｒａｎｓｉｅｎｔＰｈａｓｅＤａｔａ（ｂｓＴｓｄＴｒＰｈａｓｅＤａｔａ）とを含む。スロットがトランジェントデータを含む場合（ＴｓｄＳｅｐＤａｔａ［ｔｓ］は、１に設定される）、ｂｓＴｓｄＴｒＰｈａｓｅＤａｔａは位相データを含み、そうでなければ、ｂｓＴｓｄＴｒＰｈａｓｅＤａｔａ［ｔｓ］は０に設定される。

ｎＢｉｔｓＴｒＳｌｏｔｓは、トランジェントスロット（ｂｓＴｓｄＮｕｍＴｒＳｌｏｔｓ）の数をもたらすために使用されるビットの数を定義する。ｎＢｉｔｓＴｒＳｌｏｔｓは、ＭＰＳ２１２データフレーム（ｎｕｍＳｌｏｔｓ）のスロットの数に依存する。図１８は、ＭＰＳ２１２データにおけるスロットの数と、トランジェントスロットの数をもたらすために使用されるビットの数との関係を例示する。

図１９は、テンポラルシェーピング（ＳＴＰまたはＧＥＳ）の処理モード、またはデコーダにおけるトランジェント・ステアリング非相関器のアクティブ化を示す。ｔｅｍｐＳｈａｐｅＣｏｎｆｉｇが０に設定される場合、テンポラルシェーピングは、全く適応されない。ｔｅｍｐＳｈａｐｅＣｏｎｆｉｇが１に設定される場合、ＳｕｂｂａｎｄＤｏｍａｉｎＴｅｍｐｏｒａｌＰｒｏｃｅｓｓｉｎｇ（ＳＴＰ）が適用される。ｔｅｍｐＳｈａｐｅＣｏｎｆｉｇが２に設定される場合、ＧｕｉｄｅｄＥｎｖｅｌｏｐｅＳｈａｐｉｎｇ（ＧＥＳ）が適用される。そして、ｔｅｍｐＳｈａｐｅＣｏｎｆｉｇが３に設定される場合、トランジェント・ステアリング非相関器（ＴＳＤ）が適用される。

図２０は、ＴｅｍｐＳｈａｐｅＤａｔａの構文を例示する。ｂｓＴｅｍｐＳｈａｐｅＣｏｎｆｉｇが３に設定される場合、ＴｅｍｐＳｈａｐｅＤａｔａは、ＴＳＤがフレームで使用可であることを示すｂｓＴｓｄＥｎａｂｌｅを含む。

図２１は、実施の形態による非相関器ブロックＤを例示する。ＯＴＴ復号化ブロックにおける非相関器ブロックＤは、信号セパレータ、２つの非相関器、および信号コンバイナを含む。

Ｄ_APは、以下を意味する：サブセクション７．１１．２．５（全通過の非相関器）において定義した全通過の非相関器。

Ｄ_TRは、以下を意味する：トランジェント非相関器。

スロット−トランジェント分離フラグＴｓｄＳｅｐＤａｔａ（ｎ）につき、後述するように、ＴｓｄＴｒＰｏｓ＿ｄｅｃ（）によって可変長符号語ｂｓＴｓｄＣｏｄｅｄＰｏｓから復号化される。ｂｓＴｓｄＣｏｄｅｄＰｏｓの符号語長さ、すなわち、ｎＢｉｔｓＴｓｄＣＷは、以下に従って算出される：

図１１に戻って、図１１は、実施の形態によって、ＴｓｄＳｅｐＤａｔａ［ｎ］に、ＴＳＤトランジェントスロット分離データｂｓＴｓｄＣｏｄｅｄＰｏｓの復号化を例示する。符号化されたトランジェント位置に対して「１」でありそれ以外は「０」からなる長さｓｕｍＳｌｏｔｓの配列が図１１において例示されるように定義される。

ＴＳＤツールはカレント・フレームでできない場合、すなわち、（ｂｓＴｓｄＥｎａｂｌｅ＝＝０）である場合、すべてのｎに対してＴｓｄＳｅｐＤａｔａ（ｎ）＝０の場合、入力信号は処理される。

非トランジェント信号成分は、非トランジェント信号成分のための非相関器出力をもたらす次のサブセクションにおいて定義されるような、全通過の非相関器Ｄ_APにおいて処理される。

非相関器出力は、トランジェントおよび非トランジェント成分の両方を含む非相関化された信号を形成するように加えられる。

図２２は、ｂｓＦｒｅｑｕｅｎｃｙＲｅｓＳｔｒｉｄｅＸＸＸを含むＥｃＤａｔａの構文を例示する。構文要素ｂｓＦｒｅｑＲｅｓＳｔｒｉｄｅは、ＭＰＳにおけるブロードバンド・キューのユーティライゼーションを考慮に入れる。ＸＸＸは、データタイプ（ＣＬＤ、ＩＣＣ、ＩＰＤ）の値と置き換えられる。

ＯＴＴデコーダの構造におけるトランジェント・ステアリング非相関器は、拍手のような信号のトランジェント成分に専門化した非相関器に適用することの可能性を提供する。ＴＳＤ機能のアクティブ化は、フレーム毎に１度送信されるエンコーダ生成のｂｓＴｓｄＥｎａｂｌｅによって制御される。

エンコーダの１つのチャンネルモジュール（Ｒ−ＯＴＴ）に対する２つのチャンネルにおけるＴＳＤデータは、以下のように生成される。

− 拍手のような信号を検出するセマンティック信号分類器を実行させる。分類結果は、フレーム毎に１度送信される。ｂｓＴｓｄＥｎａｂｌｅフラグは、拍手のような信号のための１に設定される、そうでなければ、それは０に設定される。

−ｂｓＴｓｄＥｎａｂｌｅが、カレント・フレームに対して０に設定される場合、さらなるＴＳＤデータは、このフレームのために、生成されず／送信されない。

−ｂｓＴｓｄＥｎａｂｌｅが、カレント・フレームに対して１に設定される場合、以下を実行する：
・ＯＴＴ空間パラメータのブロードバンド算出のスイッチを入れる。
・カレント・フレーム（ＭＰＳタイムスロット毎のバイナリの決定）のトランジェントを検出する。
・以下の擬似コードに従って、ベクトルｔｓｄＰｏｓにおけるｔｓｄＰｏｓＬｅｎを符号化する。ｔｓｄＰｏｓにおけるスロット位置は、昇順において要求される。図１３は、ｔｓｄＰｏｓＬｅｎにおいて、トランジェントスロット位置を符号化するための擬似コードを例示する。
・トランジェントスロットの数（ｂｓＴｓｄＮｕｍＴｒＳｌｏｔｓ＝（検出されたトランジェントスロットの数）−１）を送信する。
・符号化されたトランジェント位置（ｂｓＴｓｄＣｏｄｅｄＰｏｓ）を送信する。
・トランジェントスロット毎に、ダウンミックス信号と残留信号との間にブロードバンド位相差を表す位相計測を算出する。
・トランジェントスロット毎に、ブロードバンド位相差計測（ｂｓＴｓｄＴｒＰｈａｓｅＤａｔａ）を符号化して、送信する。

最後に、図２３は、１つのチャンネルモジュール（Ｒ−ＯＴＴ）に対して、２つのチャンネルにおけるＴＳＤデータの生成のための信号フローチャートを例示する。

若干の態様が、装置に関連して記載されているが、これらの形態は対応する方法の記載も表すことは明らかである。ここで、１ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。類似して、方法ステップに関連して記載されている形態は、対応するブロックまたは項目または対応する装置の特徴の説明を表す。

特定の実現要求に応じて、本発明の実施の形態は、ハードウェアにおいて、または、ソフトウェアにおいて、実行されうる。その実現態様は、それぞれの方法が実行されるように、プログラミング可能なコンピュータシステムと協働するか（または、協働することができる）、そこに格納された電子的に読み込み可能な制御信号を有するデジタル記憶媒体、たとえば、フロッピー（登録商標）ディスク、ＤＶＤ、ブルーレイディスク、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、またはＦＬＡＳＨメモリを使用して実行されうる。

本発明による若干の実施の形態は、本願明細書において記載される方法のうちの１つが実行されるように、プログラミング可能なコンピュータシステムと協働することができる電子的に読み込み可能な信号を有するデータキャリアを含む。

通常、本発明の実施の形態は、プログラム・コードを有するコンピュータ・プログラム製品として実施され、コンピュータ・プログラム製品がコンピュータ上で実行する場合、プログラム・コードは、方法のうちの１つを実行するために作動される。プログラム・コードは、機械可読キャリアに、たとえば、格納されうる。

他の実施の形態は、機械可読キャリアまたは持続性記憶媒体に格納され、本願明細書において記載される方法のうちの１つを実行するためのコンピュータ・プログラムを含む。

換言すれば、したがって、コンピュータ・プログラムがコンピュータ上で実行する場合、本発明の方法の実施の形態は、本願明細書において記載される方法のうちの１つを実行するためのプログラム・コードを有するコンピュータ・プログラムである。

したがって、本発明の方法の更なる実施の形態は、その上に記録され、本願明細書において記載される方法のうちの１つを実行するためのコンピュータ・プログラムを含むデータキャリア（または、デジタル記憶媒体、またはコンピュータ可読媒体）である。

したがって、本発明の方法の更なる実施の形態は、本願明細書において記載される方法のうちの１つを実行するためのコンピュータ・プログラムを表しているデータストリームまたは一連の信号である。たとえば、データストリームまたは一連の信号は、データ通信接続、たとえば、インターネットを介して転送されるように構成されうる。

更なる実施の形態は、本願明細書において記載される方法のうちの１つを実行するために構成され、または適応される処理手段、たとえば、コンピュータ、またはプログラミング可能な論理回路を含む。

更なる実施の形態は、その上にインストールされ、本願明細書において記載される方法のうちの１つを実行するためのコンピュータ・プログラムを有するコンピュータを含む。

いくつかの実施の形態において、プログラミング可能な論理回路（たとえば、現場でプログラム可能なゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ））が、本願明細書において記載されるいくつかまたは全ての機能を実行するために使用されうる。いくつかの実施の形態において、現場でプログラム可能なゲートアレイは、本願明細書において記載される方法の１つを実行するために、マイクロプロセッサと協働しうる。一般に、方法は、いくつかのハードウェア装置によって、好ましくは実行される。

上述した実施の形態は、本発明の原理の例を表すだけである。本願明細書において記載される装置の修正および変更は、他の当業者にとって明らかであるものと理解される。したがって、間近に迫った特許請求の範囲だけによってのみ制限され、ならびに、本願発明の記述および説明によって表された明細書の詳細な記載によっては、制限されない。

Claims

スロットと前記スロットに関連したイベントを含む音声信号フレームを有する符号化された音声信号を復号化するための装置（１０；４０；６０；４１０）であって、前記装置は、
前記音声信号フレームのスロットの合計数を示しているフレーム・スロット数を解析するための解析ユニット（２０；４２；７０；４２０）であって、イベント・スロット数は、前記音声信号フレームの前記イベント、およびイベント状態数を含む前記スロットの数を示す、解析ユニットと、
前記フレーム・スロット数、前記イベント・スロット数および前記イベント状態数を使用して前記音声信号フレームにおける前記イベントを含む複数のスロット位置の表示を生成するための生成ユニット（３０；４５；８０；４３０）と、
を含む、復号化するための装置。
復号化するための装置（１０；４０；６０；４１０）は、音声信号フレームにおけるトランジェントの前記スロットの位置を復号化するように適応される、請求項１に記載の復号化するための装置。
前記解析ユニット（２０；４２；７０；４２０）は、前記イベント状態数、またはアップデートされたイベント状態数と閾値とを比較するテストを実施するように適応される、請求項１または請求項２に記載の復号化するための装置。
前記解析ユニット（２０；４２；７０；４２０）は、前記イベント状態数またはアップデートされたイベント状態数が、閾値より大きいか、閾値以上か、閾値より小さいか、または閾値以下かどうかの比較により前記テストを実施するように適応され、
ここで、前記生成ユニット（３０；４５；８０；４３０）は、前記イベント状態数、または前記テストの結果に依存するアップデートされたイベント状態数をアップデートするように、さらに適応される、請求項３に記載の復号化するための装置。
前記復号化するための装置（１０；４０；６０）は、スロット・セレクタ（９０）をさらに含み、
ここで、前記スロット・セレクタ（９０）は、考慮されたスロットとして、スロットを選択するように適応され、
前記解析ユニット（２０；４２；７０）は、考慮されたスロットに関して前記テストを実施するように適応され、
前記閾値は、前記フレーム・スロット数、前記イベント・スロット数、および前記フレームの範囲内における前記考慮されたスロットの位置に依存する、請求項３または請求項４に記載の復号化するための装置。
前記復号化するための装置（１０；４０；４１０）は、フレーム区分器（４４０）をさらに含み、
ここで、前記フレーム区分器（４４０）は、前記フレームのスロットの第１のセットを含む第１のフレーム区分、および前記フレームのスロットの第２のセットを含む第２のフレーム区分を前記フレームに分割するように適応され、前記復号化するための装置（１０；４０；４１０）は、前記スロット位置を決定するように、さらに適応される、請求項１ないし請求項４のいずれかに記載の復号化するための装置。
前記復号化するための装置（１０；４０；６０；４１０）は、
フレーム・スロット数、前記イベント・スロット数および前記イベント状態数を使用して前記音声信号フレームにおける前記イベントを含む複数のスロット位置の表示を使用して、音声出力信号を生成するための音声信号プロセッサ（５０）をさらに含む、請求項１ないし請求項７のいずれかに記載の復号化するための装置。
前記イベントを含む複数のスロット位置の前記表示が、第１の表示状態である場合、前記音声信号プロセッサ（５０）は、第１の方法に従って前記音声出力信号を生成するように適応され、そして、前記イベントを含む複数のスロット位置の前記表示が、前記第１の表示状態とは異なる第２の表示状態である場合、前記音声信号プロセッサ（５０）は、異なる第２の方法に従って、前記音声出力信号を生成するように適応される、請求項８に記載の復号化するための装置。
前記スロットがトランジェントを含むことを前記第１の表示状態が表示する場合、前記第１の方法が、スロットを復号化するためのトランジェント非相関器（５６）を使用することを含み、前記スロットがトランジェントを含まないことを前記第２の表示状態が表示する場合、前記第２の方法が、スロットを復号化するための第２の非相関器（５４）を使用することを含む、請求項９に記載の復号化するための装置。
音声信号フレームにおけるイベントを含むスロットの位置を符号化する装置（５１０）であって、前記装置は、
イベント状態数を符号化することによってスロットの前記位置を符号化するためのイベント状態数生成器（５３０）と、
前記音声信号フレームのスロットの前記合計数を示すフレーム・スロット数と、前記音声信号フレームの前記イベントを前記イベント状態数生成器（５３０）に含むスロットの前記数を示すイベント・スロット数とを提供するように適応されるスロット情報ユニット（５２０）と、を含み、
ここで、前記イベント状態数、前記フレーム・スロット数および前記イベント・スロット数は、一緒に、前記音声信号フレームにおける前記イベントを含む複数のスロット位置を示す、符号化するための装置。
前記イベント状態数生成器（５３０）は、イベントを含む各スロットのための正の整数値を加えることによってイベント状態数を生成するように適応される、請求項１１に記載の符号化するための装置。
前記イベント状態数生成器（５３０）は、前記イベント状態数を生成するために、第１のフレーム区分のための第１のイベントサブ状態数を決定し、第２のフレーム区分のための第２のイベントサブ状態数を決定し、そして、前記第１および第２のイベント状態数を結合することによって、前記イベント状態数を生成するように適応される、請求項１１に記載の符号化するための装置。
音声信号フレームにおけるイベントを含むスロットの位置を復号化するための方法であって、前記方法は、
前記音声信号フレームのスロットの合計数を示しているフレーム・スロット数を解析するステップであって、イベント・スロット数は、前記音声信号フレームの前記イベント、およびイベント状態数を含むスロットの数を示す、解析するステップと、
フレーム・スロット数、前記イベント・スロット数および前記イベント状態数を使用して、前記音声信号フレームにおける前記イベントを含む複数のスロット位置の表示を生成するステップと、
を含む、復号化するための方法。
音声信号フレームにおけるイベントを含むスロットの位置を符号化する方法であって、前記方法は、
前記音声信号フレームのスロットの合計数を示すフレーム・スロット数を受信するか、または決定するステップと、
前記音声信号フレームの前記イベントを含むスロットの数を示すイベント・スロット数を受信するか、または決定するステップと、
前記音声信号フレームにおける前記イベントを含む複数のスロット位置の表示は、フレーム・スロット数、前記イベント・スロット数および前記イベント状態数によって復号化されうるように、前記イベント状態数、前記フレーム・スロット数および前記イベント・スロット数に基づくイベント状態数を符号化するステップと、
を含む、符号化するための方法。
請求項１４に記載の音声信号フレームにおけるイベントのスロット位置を復号化するための方法を実施する音声信号フレームにおける前記イベントを含むスロット位置を復号化するためのコンピュータ・プログラム。
請求項１５に記載の音声信号フレームにおけるイベントのスロット位置を符号化するための方法を実施する音声信号フレームにおける前記イベントを含むスロットの位置を符号化するためのコンピュータ・プログラム。
イベント状態数を含む符号化された音声信号であって、イベントを含むスロットの位置は、請求項１４に記載の方法に従って復号化されうる、符号化された音声信号。