JP2014508316A - 音声信号フレームにおけるイベントのスロット位置の符号化および復号化 - Google Patents

音声信号フレームにおけるイベントのスロット位置の符号化および復号化 Download PDF

Info

Publication number
JP2014508316A
JP2014508316A JP2013549787A JP2013549787A JP2014508316A JP 2014508316 A JP2014508316 A JP 2014508316A JP 2013549787 A JP2013549787 A JP 2013549787A JP 2013549787 A JP2013549787 A JP 2013549787A JP 2014508316 A JP2014508316 A JP 2014508316A
Authority
JP
Japan
Prior art keywords
event
slot
frame
decoding
slots
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013549787A
Other languages
English (en)
Other versions
JP5818913B2 (ja
Inventor
アヒム クンツ
サッシャ ディスヒ
トム ベックシュトレーム
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2014508316A publication Critical patent/JP2014508316A/ja
Application granted granted Critical
Publication of JP5818913B2 publication Critical patent/JP5818913B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

音声信号フレームにおけるイベントを含む復号化するための装置(10;40;60;410)、符号化するための装置(510)、復号化するための方法、およびスロットの位置を符号化するための方法、ならびにそれぞれのコンピュータ・プログラムおよび符号化された信号であって、復号化するための装置(10;40;60;410)は、音声信号フレームのスロットの合計を示しているフレーム・スロット数を解析するための解析ユニット(20;42;70;420)であって、イベント・スロット数は、音声信号フレームのイベントを含むイベント状態数、およびスロットの数を示す、解析ユニットと、フレーム・スロット数、イベント・スロット数およびイベント状態数を使用して音声信号フレームにおけるイベントを含む複数のスロット位置の表示を生成するための生成ユニット(30;45;80;430)と、を含む。
【選択図】図9a

Description

音声処理および音声符号化の分野に関し、特に、音声信号フレームにおけるイベントのスロット位置を符号化および復号化に関する。
音声処理および/または符号化は、さまざまな方法で発展している。特に、空間音声アプリケーションは、ますます重要になっている。音声信号処理は、しばしば、信号を非相関化または再生をするために用いられる。さらに、信号の非相関性および再生は、モノラルからステレオへのアップミックス、モノラル/ステレオからマルチチャンネルへのアップミックス、人工的な残響、ステレオワイドニング、または相互作用的なミキシング/レンダリングの処理において使用される。
いくつかの音声信号処理システムは、非相関器を使用する。重要な例は、1またはいくつかのダウンミックス信号から再構成される2以上の信号の間における特定の非相関性特性を復元するためのパラメトリック空間音声デコーダにおける非相関化する信号の応用である。たとえば、インテンシティステレオと比較した場合、非相関器の応用は、出力信号の知覚的な品質を大幅に向上させる。具体的には、非相関器の使用は、広い音像、いくつかの同時音のオブジェクト、および/または環境を有する空間音の特有の合成を可能にする。しかしながら、非相関器は、時間的な信号構造、音質等における変化のようなアーティファクトを取り込むことも知られている。
音声処理における非相関器の他の応用例は、たとえば、収束挙動を改善するために、マルチチャンネル音響エコーキャンセレーションシステムにおける空間印象または非相関器の使用を変化するための人工的な残響の生成である。
1つの重要な空間音声符号化スキームは、パラメトリックステレオ(Parametric Stereo;PS)である。図1は、モノラルからステレオへのデコーダの構造を例示する。単一の非相関器は、モノラル入力信号M(「ドライ」信号)から非相関化された信号D(「ウェット」信号)を生成する。そして、非相関化された信号Dは、信号Mとともにミキサーに送り込まれる。それから、ミキサーは、出力信号LおよびRを生成するために、入力信号MおよびDに混合行列Hを適用する。混合行列Hにおける係数は、調整され、信号に依存され、またはユーザによって制御されうる。
あるいは、混合行列は、ダウンミックスとともに送信され、所望のマルチチャンネル出力を形成するためのダウンミックスの信号をどれくらいアップミックスするかについてのパラメトリック記述を含むサイド情報によって制御される。空間サイド情報は、たいてい、一致した信号エンコーダにおけるモノラルダウンミックス処理の間に生成される。
上記のような空間音声符号化は、たとえば、パラメトリックステレオにおいて、広く適用される。パラメトリックステレオデコーダの典型的な構造は、図2において示される。図2において、非相関化は、変換領域において実行される。空間パラメータは、ユーザまたは追加ツール、たとえば、バイノーラルレンダリング/プレゼンテーションのための後処理によって修正されうる。この場合、アップミックスパラメータは、混合行列のための入力パラメータを計算するためにバイノーラルフィルタからパラメータと結合される。
混合行列Hの出力L/Rは、モノラル入力信号Mおよび非相関化された信号Dから計算される。
Figure 2014508316
混合行列において、出力に送り込まれる非相関化された音の量は、送信されたパラメータ、たとえば、内部チャンネルレベル拡散(Inter−Channel level Differences;ILD)、内部チャンネル相関/コヒーレンス(Inter−Channel Correlation/Coherence;ICC)および/または修正され、またはユーザ定義の設定に基づいて制御される。
概念的には、非相関化された出力Dの出力信号は、オリジナルのL/Rの完全な復号化を理想的に考慮にいれる残留信号を置き換える。アップミキサーにおける残留信号の代わりに非相関化された出力Dを利用することは、残留信号を送信することを、別に、必要とされるビットレートの節減を結果として得る。このように、非相関器の目的は、モノラル信号Mから信号Dを生成することであり、そして、Dによって置き換えられる残留信号として類似の特性を示す。参照は、以下の文献になされる。
J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, “High−Quality Parametric Spatial Audio Coding at Low Bitrates” in Proceedings of the AES 116th Convention, Berlin, Preprint 6072, May 2004
MPEGサラウンド(MPS)を考慮すると、One−To−Twoボックス(OTTボックス)と称されるPSと類似の構造は、空間音声復号化ツリーにおいて使用される。これは、マルチチャンネル空間音声符号化/復号化スキームに対してモノラルからステレオへのアップミックスの概念の一般化としてみなされうる。MPSにおいて、TTT動作モードに依存して非相関器を適用しうるTwo−To−Threeアップミックスシステム(TTTボックス)が存在しうる。詳細は、以下の文献に記載されている。
J. Herre, K. Kjoerling, J. Breebaart et al., “MPEG surround ? the ISO/MPEG standard for efficient and compatible multi−channel audio coding,” in Proceedings of the 122th AES Convention, Vienna, Austria, May 2007
指向性音声符号化(DirAC)に関して、DirACは、一定のスピーカ位置を有する音声出力チャンネルの固定数に密接に結びつかないパラメトリック音場符号化スキームに関する。DirACは、音場の非コヒーレント・コンポーネントを合成するために、DirACレンダラー、すなわち、空間音声デコーダにおける非相関器を適用する。指向性音声符号化は、さらに、以下に記載される。
Pulkki, Ville; “Spatial Sound Reproduction with Directional Audio Coding” in J.Audio Eng. Soc., Vol. 55, No. 6, 2007
最高水準の非相関器に関して、参照は、以下の文献になされる:
ISO/IEC International Standard “Information Technology − MPEG audio technologies − Part1: MPEG Surround”, ISO/IEC 23003−1:2007.
J. Engdegard, H. Purnhagen, J. Roeden, L.Liljeryd, “Synthetic Ambience in Parametric Stereo Coding” in Proceedings of the AES 116th Convention, Berlin, Preprint, May 2004
IIRラティスオールパス構造が、MPS(非特許文献2および非特許文献4)のような空間音声デコーダにおける非相関器として使用される。他の最高水準の非相関器は、減衰しているノイズバーストを有する入力信号を畳み込むために、(潜在的に周波数依存の)遅延を適用する。空間音声アップミックスシステムのための最高水準の非相関器の概要のために、参照は、非特許文献5になされる:「Synthetic Ambience in Parametric Stereo Coding」。
一般に、パラメトリック空間音声符号化における符号化/復号化されるステレオまたはマルチチャンネルの拍手のような信号は、低減された信号の品質として得られることが知られている。拍手のような信号は、異なる方向からトランジェントのむしろ高密度のミクスチャを含むことによって特徴付けられる。このような信号の例は、拍手、雨の音、駆け足の馬等である。拍手のような信号は、ノイズのような、滑らかなバックグラウンドサウンドの分野に知覚的に融合する遠い音源から、しばしば、サウンド・コンポーネントも含む。
MPEGサラウンドのような空間音声デコーダにおいて使用されるラティスオールパス構造は、人工の残響発生器として作用し、そして、結果として、(室内残響テールのような)一様な、滑らかな、ノイズのような、インバーシブサウンドを生成するために適切である。しかしながら、それらは、まだ、リスナーを没頭させる非一様な空間時間的構造を有する音場の例である:1つの顕著な例は、一様なノイズのようなフィールドだけによってではなく、異なる方向からの単一の拍手のむしろ密度の高いシーケンスによってもリスナーの包まれた状態を作成する拍手のような音場である。従って、拍手音場の非一様な成分は、トランジェントの空間的に分布されたミクスチャによって特徴付けられうる。これらの明確な拍手は、全て均一で、滑らかで、ノイズのようであるわけではない。
それらの残響のような挙動のため、ラティスオールパス非相関器は、たとえば、拍手の特徴を有する実体験のように感じる音場を生成することができない。その代わり、拍手のような信号に適用される場合、それらは、時間的に、信号におけるトランジェントをけがす傾向がある。望まない結果は、拍手のような音場の特徴的な時空間的構造のないノイズのような特有の実体験のように感じる音場である。さらに、単一の拍手のようなトランジェントイベントは、非相関フィルタの共鳴のアーティファクトを引き起こしうる。
USAC(統一スピーチおよび音声符号化)は、話し言葉および音声の符号化および異なるビットレートでのそのミクスチャのための音声符号化規格である。
パラメトリックステレオ符号化技術が適用できる場合、USACの知覚的な品質は、32kbpsの範囲におけるビットレートでの拍手および拍手のような音のステレオ符号化において、さらに、改善されうる。専用の拍手処理が、コーデックの範囲内で適用されない場合、USACの符号化された拍手アイテムは、狭い防音スタジオおよび包囲の欠如するような傾向がある。大部分は、USACのステレオ符号化技術およびそれらの限界は、MPEGサラウンド(MPS)から受け継がれる。しかしながら、USACは、専用の適合を、適当な拍手処理の要件に対して提供する。前記適合は、トランジェント・ステアリング非相関器(Transient Steering Decorrelator:TSD)と名づけられ、本発明の実施の形態である。
拍手信号は、単一からなり、2、3ミリ秒で時間的に明確に知覚の拍手が分離され、そして、非常に密度の高い遠くの拍手からノイズのような環境発信を重畳されることが想定される。顕著なサイド情報レートでのパラメトリックステレオ符号化において、空間パラメータの設定(内部チャンネルレベル差、内部チャンネル相関等)の精度は、一回の拍手の充分な空間再分布を確実にするには非常に低く、そして、包囲の欠如に至る。加えて、拍手は、ラティスオールパス非相関器によって処理されやすい。これは、必然的にトランジェントの時間的分散を生じさせ、さらに、主観的品質を減らす。
USACデコーダの範囲内におけるトランジェント・ステアリング非相関器(TSD)を使用することは、MPS処理の修正を結果として得る。そのような方法についての基礎をなす考えは、以下のように、拍手の非相関性問題に対処することである:
− ラティスオールパス非相関器の前のQMF領域のトランジェントを分離する:すなわち、トランジェントストリームs2および非トランジェントストリームs1に非相関化された入力信号を分割する。
− トランジェントミクスチャに対して適切である異なるパラメータ制御された非相関器にトランジェントストリームを送り込む。
− MPSオールパス非相関器に非トランジェントストリームを送り込む。
− 非相関化された信号Dを得るために、両方の非相関D1およびD2の出力を加える。
図3は、USACデコーダの範囲内におけるOne−To−Two(OTT)の構成を例示する。図3のU型のトランジェント処理ボックスは、トランジェント処理のために提案されるものとしてのパラレル信号経路を含む。
TSD処理を導く2つのパラメータは、エンコーダからデコーダ(図3を参照)への周波数から独立したパラメータとして送信される:
− エンコーダにおいて実行されるトランジェント検出器のバイナリのトランジェント/非トランジェントの決定は、デコーダにおけるQMF時間スロット精度を有するトランジェントの分離を制御するために用いられる。効率的なロス符号化スキームは、トランジェントQMFのスロット位置データを送信するために利用される。
− 実際のトランジェント非相関パラメータは、トランジェントの空間的分布を導くためのトランジェント非相関器のために必要である。トランジェント非相関パラメータは、ダウンミックスとその間のその残余との間の角度を意味する。これらのパラメータは、トランジェントを含むために、エンコーダで検知されている時間スロットの間に送信されるだけである。
上記の技術の品質を評価するために、2つのMUSHRA試聴テストは、高品質静電STAXヘッドホンを使用している制御試聴テスト環境において実施された。テストは、32kbpsおよび16kbpsのステレオ構成で実行された。16人の専門家のリスナーは、試験の各々に参加した。
USACテストセットが拍手の項目を含まないので、付加的な拍手アイテムは、提案された技術の利点を示すために選ばれた。表1にリストされる項目は、テストに含まれている:
Figure 2014508316
正規の12のMPEG USAC試聴テスト項目に関して、TSDは、決して作動中でない。しかしながら、ビットストリームにおいて、TSDイネーブル・ビット(TSDがオフのことを示している)が加えて、このようにわずかにコア−コーダのためのビット配分に影響を及ぼした時から、これらの項目は必ずしもビット同一のままでない。これらの違いは非常に小さいので、これらの項目は、試聴テストにおいて含まれなかった。これらの変化が、ごくわずかであり微小であることを示すために、データは、これらの違いのサイズに提供される。
インター−TESと名づけられたコーデック・ツールは、USAC参照モデル8(RM8)の一部である。この技術は、拍手のような信号を含むトランジェントの知覚的な品質を改善することが報告されているので、インター−TESは、あらゆるテスト条件において、常に切り替えられた。この種の設定において、最高の品質は保証され、そして、インター−TESおよびTSDの直交性は実証される。
システムテストは、以下の構成を有する:
− RM8:USAC RM8システム
− CE:トランジェント・ステアリング非相関器(TSD)によって強化されるUSAC RM8システム
図4および図5は、32kbpsのテストシナリオに対するそれらの95%の信頼区間とともに、MUSHRAスコアを表す。テスト・データのために、スチューデントのt−分布が仮定された。図4の絶対のスコアは、すべての項目に対してより高い平均スコアを示し、5つの項目中4つ対して、95%の信頼区間における重要な改良である。項目は、RM8対して劣化しなかった。USAC RM8に関して、TSDコア実験(CE)における評価について、USAC+TSDのための異なるスコアは、図5においてプロットされる。ここで、すべての項目のための重要な改良が、示されうる。
16kbpsテストの設定のために、図6および図7は、それらの95%の信頼区間とともにMUSHRAスコアを表す。データのスチューデントのt−分布が仮定される。図6における絶対のスコアは、あらゆる項目に対してより高い平均スコアを示す。1つの項目に対して、95%の信頼区間における重要性が示されうる。項目は、RM8よりも悪い項目はなかった。異なるスコアは、図7においてプロットされる。また、異なるデータに関する全ての項目のための重要な改良が示された。
TSDツールは、ビットストリームにおいて送信されるbsTsdEnableによって有効になる。TSDが有効である場合、トランジェントの実際の分離は、ビットストリームにおいても送信され、そして、TSDが使用可な場合に備えて、bsTsdCodedPosに符号化されるトランジェント検出フラグTsdSepDataによって制御される。
エンコーダにおいて、TSDイネーブル・フラグbsTsdEnableは、セグメント分類器によって生成される。トランジェント検出フラグTsdSepDataは、トランジェント検出器によって設定される。
既に指摘されているように、TSDは、12のMPEG USACテスト項目に対して起動しない。さらに5つの拍手項目のために、TSDアクティブ化は図8において表される。そして、時間に対するbsTsdEnableな論理状態を示す。
TSDが起動される場合、トランジェントは特定のQMFタイムスロットにおいて検出され、そして、これらは、その後、専用のトランジェント非相関器に送り込まれる。付加的なテスト項目毎に対して、表2は、トランジェントを含むTSDが起動されたフレームの範囲内におけるスロットのパーセンテージのリストである。
Figure 2014508316
エンコーダからデコーダに、トランジェント分離決定および非相関器のパラメータを送信することは、一定量のサイド情報を必要とする。しかしながら、この量は、MPSの範囲内におけるブロードバンド空間キューの送信からのビットレートの節約によって過度に補償される。
結論的には、表3の第1列にリストされるように、平均MPS+TSDサイド情報ビットレートは、プランUSACにおけるプランMPSサイド情報ビットレートよりもさらに低い。提示された構成において、主観的品質の評価のために利用される場合、表3の第2列にリストされる平均ビットレートは、TSDのために測定されている。
Figure 2014508316
TSDの計算の計算量は、以下に起因する。
− トランジェントスロット位置の復号化
− トランジェント非相関器の計算量
32タイムスロットのMPEGサラウンド空間フレーム長を仮定して、スロット位置の復号化は、最悪の場合、空間フレームにつき、(64の分割+80の乗算)、すなわち、空間フレームにつき、64*25+80=1680の演算を必要とする。
コピー演算および条件文を無視して、トランジェント非相関器の計算量は、スロット毎に1つの虚数乗法およびハイブリッドQMF帯域によって与えられる。
これは、TSDの以下の全体の複雑度をもたらす。そして、表4において、プランUSACの複雑度と比較して示される。
Figure 2014508316
要約すると、試聴テスト・データは、明らかに、両方の演算ポイントにおける全ての項目の異なるスコアにおいて拍手信号の主観的品質の重要な改良を示す。アブソルートスコアの項目に関して、TSDの状態における全ての項目は、より高い平均スコアを示す。32kbpsに対して、重要な改良が、5つの項目中4つに対して存在する。16kbpsに対して、1つの項目が、重要な改良を示す。RM8よりも悪いスコアの項目はなかった。計算量におけるデータから分かるように、改良は、ごくわずかな計算コストで成し遂げられる。さらに、これは、USACのためのTSDツールの利点を強調する。
上記のトランジェント・ステアリング非相関器は、USACにおいて音声処理を大幅に向上させる。しかしながら、上記でもみられたように、トランジェント・ステアリング非相関器は、特定のスロットにおけるトランジェントの存在または不存在に関する情報を要求する。USACにおいて、タイムスロットに関する情報は、フレーム単位を基礎として送信されうる。フレームは、いくつか、たとえば、32タイムスロットを含む。したがって、エンコーダが、フレーム単位を基礎としてトランジェントを含むスロットに関する情報を送信することを認められる。送信されるビットの数を減らすことは、音声信号処理において重要な意味を持つ。これが、たとえ、フレーム毎に送信されるビットの数が、ちょうどいくつかのビットによって減少する場合を意味しても、単一の音声記録でさえ、フレームの膨大な数を含むので、全体のビット転送レートは、著しく減少しうる。
しかしながら、音声信号フレームにおけるイベントのスロット位置を復号化する問題は、トランジェントを復号化する問題に限定されない。音声信号フレームが音的であるかどうか、ノイズ、およびノイズなどを含むか、含まないかのような、他のイベントのスロット位置を復号化するためにさらに役立つ。つまり、音声信号フレームにおけるイベントのスロット位置を効率よく符号化および復号化するための装置は、イベントの多数の異なる性質に対して非常に役立つ。
この文献は、音声信号フレームのスロットまたはスロット位置に関連する場合、この意味におけるスロットは、タイムスロット、周波数スロット、時間−周波数スロットまたは他のいかなる種類のスロットでもよい。本発明は、USACにおける音声処理および音声信号フレームに限定されず、その代わり、MPEG1/2、Layer3(「MP3」)、先進的音響符号化(Advanced Audio Coding:AAC)などの如何なる種類の音声フォーマットにも関連することが、さらに理解される。音声信号フレームにおけるイベントのスロット位置を効率よく符号化および復号化することは、いかなる種類の音声信号フレームにも、非常に役立つ。
J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, "High−Quality Parametric Spatial Audio Coding at Low Bitrates" in Proceedings of the AES 116th Convention, Berlin, Preprint 6072, May 2004 J. Herre, K. Kjoerling, J. Breebaart et al., "MPEG surround ? the ISO/MPEG standard for efficient and compatible multi−channel audio coding," in Proceedings of the 122th AES Convention, Vienna, Austria, May 2007 Pulkki, Ville; "Spatial Sound Reproduction with Directional Audio Coding" in J.Audio Eng. Soc., Vol. 55, No. 6, 2007 ISO/IEC International Standard "Information Technology ? MPEG audio technologies ? Part1: MPEG Surround", ISO/IEC 23003−1:2007. J. Engdegard, H. Purnhagen, J. Roeden, L.Liljeryd, "Synthetic Ambience in Parametric Stereo Coding" in Proceedings of the AES 116th Convention, Berlin, Preprint, May 2004
したがって、本発明の目的は、わずかなビット数を有する音声信号フレームにおけるイベントのスロット位置を符号化するための装置を提供することである。さらに、本発明に記載の符号化するための装置によって符号化された音声信号フレームにおけるイベントのスロット位置を復号化するための装置を提供することも本発明の目的である。本発明の目的は、請求項1に記載の復号化するための装置、請求項11に記載の符号化するための装置、請求項14に記載の復号化するための方法、請求項15に記載の符号化するための方法、請求項16に記載の復号化するためのコンピュータ・プログラム、請求項17に記載の符号化するためのコンピュータ・プログラム、請求項18に記載の符号化された音声信号により達成される。
本発明は、音声信号フレームのスロットの合計数を示しているフレーム・スロット数と音声信号フレームのイベントを含むスロットの数を示しているイベント・スロット数とは、本発明の復号化する装置において利用されうることを前提とする。たとえば、エンコーダは、フレーム・スロット数および/またはイベント・スロット数を復号化するための装置に送信しうる。実施の形態において、エンコーダは、音声信号フレームのスロットの合計数から1を引いた数を送信することによって、音声信号フレームのスロットの合計数を示しうる。エンコーダは、音声信号フレームのイベントを含むスロットの数から1を引いた数を送信することによって、音声信号フレームのイベントを含むスロットの数をさらに示しうる。あるいは、デコーダは、エンコーダからの情報なしに、音声信号フレームのスロットの合計数および音声信号フレームのイベントを含むスロットの数をそれ自身が決定しうる。
これらの前提に基づいて、本発明によると、音声信号フレームにおけるイベントを含むスロット位置の数は、以下の所見を使用して、符号化および復号化されうる:

Nを音声信号フレームのスロットの合計数であるとし、そして、
Pを音声信号フレームのイベントを含むスロットの数であるとする。
復号化するための装置と同様に符号化するための装置の両方は、NおよびPの値を認識していることを前提とする。
Figure 2014508316
Figure 2014508316
Figure 2014508316
Figure 2014508316
実施の形態において、復号化するための装置が提供され、ここで、復号化するための装置は、イベント状態数またはアップデートされたイベント状態数と閾値とを比較するテストを実施するように適応される。そのようなテストは、イベント状態数からイベントを含むスロット位置を導出するように使用されうる。イベント状態数と閾値とを比較するテストは、イベント状態数またはアップデートされたイベント状態数が、閾値より大きいか、閾値以上か、閾値より小さいか、または閾値以下かどうかの比較により実施されうる。さらにまた、復号化するための装置は、テストの結果に依存するイベント状態数またはアップデートされたイベント状態数をアップデートするように、適応されることが好ましい。
実施の形態において、復号化するための装置は提供され、そして、それは、特定の考慮されたスロットに関して、イベント状態数、またはアップデートされたイベント状態数を比較しているテストを実行するように適応される。ここで、閾値は、フレーム・スロット数、イベント・スロット数、およびフレームの範囲内における考慮されたスロットの位置に依存する。これによって、イベントを含むスロットの位置は、スロット単位を基礎として決定され、フレームのスロット毎に、スロットがイベントを含むかどうかを次々と決定する。
更なる実施の形態において、復号化するための装置は提供され、そして、それは、フレームのスロットの第1のセットを含む第1のフレーム区分、およびフレームのスロットの第2のセットを含む第2のフレーム区分に分割するように適応される。ここで、復号化するための装置は、さらに、別々にフレーム区分の各々のためのイベントを含む位置を決定するために適応される。これによって、イベントを含むスロットの位置は、フレーム区分をさらにより小さいフレームまたはフレーム区分に繰り返し分割することによって決定されうる。
以下に、本発明の実施の形態は、図に関して更に詳細に記載される。
図1は、モノラルからステレオへのアップミキサーにおける非相関器の代表的な応用例である。 図2は、モノラルからステレオへのアップミキサーにおける非相関器のさらなる典型的な応用例である。 図3は、トランジェント・ステアリング非相関器(TSD)を含むOne−To−Two(OTT)システムの概要である。 図4は、TSDコア実験(CE)におけるRM8 USACおよびUSAC RM8+TSDを比較する32kbpsステレオに対する絶対的なスコアを例示している図である。 図5は、プランUSACシステムと対比してトランジェント・ステアリング非相関器を使用するUSACと比較する32kbpsステレオに対する表示している差のスコアの図である。 図6は、TSDコア実験(CE)におけるRM8 USACおよびUSAC RM8+TSDを比較する16kbpsステレオに対する絶対的なスコアを表示している図である。 図7は、プランUSACシステムと対比してトランジェント・ステアリング非相関器を使用するUSACと比較する16kbpsステレオに対する表示している差のスコアの図である。 図8は、bsTsdEnableフラグの論理状態として表現される5つの追加項目のためのTSDのアクティブ化を表示する。 図9aは、本発明の実施の形態にかかる音声信号フレームにおけるイベントを含むスロットの位置を復号化するための装置を例示する。 図9bは、本発明のさらなる実施の形態にかかる音声信号フレームにおけるイベントを含むスロットの位置を復号化するための装置を例示する。 図9cは、本発明の他の実施の形態にかかる音声信号フレームにおけるイベントを含むスロットの位置を復号化するための装置を例示する。 図10は、本発明の実施の形態にかかる復号化するための装置によって実施される復号化の処理を例示しているフローチャートである。 図11は、本発明の実施の形態にかかるイベントを含むスロットの位置の復号化を実行する擬似コードを例示する。 図12は、本発明の実施の形態にかかる符号化するための装置によって実施される符号化の処理を例示しているフローチャートである。 図13は、本発明のさらなる実施の形態にかかる音声信号フレームにおけるイベントを含むスロットの位置を符号化する処理を表している擬似コードである。 図14は、本発明のさらなる実施の形態にかかる音声信号フレームにおけるイベントを含むスロットの位置を復号化するための装置を例示する。 図15は、本発明の実施の形態にかかる音声信号フレームにおけるイベントを含むスロットの位置を符号化するための装置を例示する。 図16は、実施の形態にかかるUSACのMPS212データの構文を表す。 図17は、実施の形態にかかるUSACのTsdDataの構文を例示する。 図18は、MPSフレーム長に依存するnBitsTrSlotsの表を例示する。 図19は、実施の形態にかかるUSACのbsTempShapeConfigに関する表を示す。 図20は、実施の形態にかかるUSACのTempShapeDataの構文を表す。 図21は、実施の形態にかかるOTT復号化ブロックにおける非相関器ブロックDを例示する。 図22は、実施の形態にかかるUSACのEcDataの構文を表す。 図23は、TSDデータの生成のための信号フローチャートを例示する。
図9aは、本発明の実施の形態にかかる音声信号フレームにおけるイベントを含むスロットの位置を復号化するための装置10を例示する。復号化するための装置10は、解析ユニット20および生成ユニット30を含む。音声信号フレームのスロットの合計数を示しているフレーム・スロット数FSN、音声信号フレームのイベントを含むスロットの数を示しているイベント・スロット数ESON、およびイベント状態数ESTNは、復号化するための装置10に送り込まれる。そして、復号化するための装置10は、フレーム・スロット数FSN、イベント・スロット数ESONおよびイベント状態数ETNを使用することによって、イベントを含むスロットの位置を復号化する。復号化は、復号化の処理において、協働する解析ユニット20および生成ユニット30によって実施される。さらに、解析ユニット20は、テスト、すなわち、イベント状態数ESTNと閾値とを比較を実行する役割を有しており、生成ユニット30は、復号化処理の中間結果、すなわち、アップデートされたイベント状態数を生成し、アップデートする。
さらに、生成ユニット30は、音声信号フレームにおけるイベントを含む複数のスロット位置の表示を生成する。音声信号フレームのイベントを含む複数のスロット位置の特定の表示は、「表示状態」として参照されうる。
実施の形態によれば、音声信号フレームにおけるイベントを含む複数のスロット位置の表示は、第1の時点で生成され、生成ユニット30は、第2の時点で、スロットがイベントを含むかどうかを第1のスロットに対して示し、生成ユニット30は、スロットがイベントを含むかどうか、第2のスロットに対して示す。
さらなる実施の形態によれば、たとえば、イベントを含む複数のスロット位置の表示は、イベントをそれが含むかどうか、フレームのスロット毎に示しているビット配列でもよい。
解析ユニット20および生成ユニット30は、両ユニットが、中間結果を作り出すように、復号化する処理において1回以上互いにコールするように協働しうる。
図9bは、本発明の実施の形態による復号化するための装置40を例示する。復号化するための装置40は、さらに音声信号プロセッサ50を含むという点において、とりわけ、図9aの装置10とは異なる。音声信号プロセッサ50は、音声入力信号および生成ユニット45によって生成された音声信号フレームにおけるイベントを含む複数のスロット位置の表示を受信する。表示に応じて、音声信号プロセッサ50は、音声出力信号を生成する。音声信号プロセッサ50は、たとえば、音声入力信号を非相関化することによって、音声出力信号を生成しうる。さらに、音声信号プロセッサ50は、図3において例示されるような音声出力信号を生成するために、ラティスIIR非相関器54、トランジェント非相関器56およびトランジェント分離器52を含みうる。音声信号フレームにおけるイベントを含む複数のスロット位置の表示は、スロットがトランジェントを含むことを示す場合、そのとき、音声信号プロセッサ50は、トランジェント非相関器56によるスロットに関する音声入力信号を非相関化する。しかしながら、音声信号フレームにおけるイベントを含む複数のスロット位置の表示が、トランジェントを含まないスロットを示す場合、そのとき、音声信号プロセッサは、ラティスIIR非相関器54を使用することによって、スロットに関する音声入力信号Sを非相関化する。特定のスロットが(トランジェント非相関器56による非相関化)トランジェントを含むことを、表示が示すか、または、スロットが(ラティスIIR非相関器による非相関化)トランジェントを含むかどうかに依存して、音声信号プロセッサは、スロットに関する音声信号の部分が、トランジェント非相関器56またはラティスIIR非相関器54に取り入れられるかどうかの表示に基づいて決定するトランジェント分離器52を使用する。
図9cは、本発明の実施の形態による復号化するための装置60を例示する。復号化するための装置60は、さらにそれが、スロット・セレクタ90を含むという点において、図9aの装置10とは異なる。復号化は、スロットがイベントを含むかどうかフレームのスロット毎に、次々と決定するスロット毎に基づいて行われる。スロット・セレクタ90は、考慮するフレームのスロットを決定する。好ましいアプローチは、スロット・セレクタ90が次々とフレームのスロットを選択するということである。
この実施の形態の復号化するための装置60のスロット毎の復号化は、以下の所見に基づく。それは、音声信号フレームにおけるイベントを含むスロットの位置を復号化するための装置、符号化するための装置、復号化するための方法および符号化するための方法の実施の形態のために適用されうる。以下の所見は、コンピュータ・プログラムおよび符号化された信号にもそれぞれ適用しうる。
Nが音声信号フレームのスロットの(合計)数であり、Pがフレームのイベントを含むスロットの数である(これは、Nがフレーム・スロット数FSNであり、Pがイベント・スロット数ESONであることを意味する)。フレームの第1のスロットが考慮される。2つのケースが区別されうる。
Figure 2014508316
Figure 2014508316
Figure 2014508316
実施の形態において、復号化するための装置は、フレームの第1のスロットがテストによってイベントを含むかどうか、イベント状態数が閾値より大きいかを決定するように適応される。(あるいは、イベント状態数が閾値以上か、閾値以下か、または閾値よりも小さいかどうかをテストするように、実施の形態の符号化/復号化は実現されうる。)第1のスロットを解析した後、復号化は、調整値を使用してフレームの第2のスロットのために続けられる。(1減少された)考慮されたスロットの数の調整の他に、(第1のスロットがイベントを含まなかった場合)イベントを含むスロットの数は、結局、1減少もする。そして、イベント状態数が閾値より大きい場合に、イベント状態数から第1のスロットに関する部分を削除するために、イベント状態数は調整される。復号化の処理は、同様の方法で、フレームの更なるスロットに対して続けられうる。
Figure 2014508316
Figure 2014508316
各反復の2項係数の算出は、高コストである。したがって、実施の形態によれば、以下のルールが、前の反復からの値を使用して2項係数をアップデートするために使用されうる:
Figure 2014508316
これらの式を用いて、2項係数の各アップデートが1つの乗算および1つの除算だけのコストであり、明確な評価は、各反復において、Pの乗算および除算のコストがかかる。
この実施の形態において、デコーダの全体の計算量は、各反復の1乗算、除算およびif文に対して、および各符号化位置の1乗算、加算および除算に対して、2項係数の初期化のためのP乗算および除算である。理論的には、1まで初期化のために必要とされる除算の数を減少することが可能である点に留意されたい。しかしながら、実際には、このアプローチは、非常に大きな整数を結果として得る。そして、それを扱うのは困難である。デコーダの最悪計算量は、N+2P回の除算およびN+2P回の乗算であり、P回の加算およびN回のif文である。
実施の形態において、符号化するための装置によって使用される符号化アルゴリズムは、すべてのスロットを通して反復される必要はなく、それらだけは、それらに割り当てられる位置を有する。したがって、以下のとおりである。
Figure 2014508316
エンコーダの最悪計算量は、P−1の加算と同様に、P・(P−1)の乗算およびP・(P−1)の除算である。
図10は、本発明の実施の形態による復号化をするための装置により実施される復号化処理を例示する。この実施の形態において、復号化は、スロット単位を基礎に実行される。
ステップ110において、値は初期化される。復号化するための装置は、変数sにおいて入力値として受信したイベント状態数を格納する。さらに、イベント・スロット数によって示されるように、フレームのイベントを含むスロットの数は、変数pにおいて格納される。さらに、フレーム・スロット数によって示されるように、フレームにおいて含まれるスロットの合計数は、変数Nにおいて格納される。
ステップ120において、TsdSepData[t]の値は、フレームの全てのスロットに対して0によって初期化される。ビット配列TsdSepDataは、生成される出力データである。各スロット位置tに対して、スロット位置に対応するスロットがイベント(TsdSepData[t]=1)を含むかどうか、または含まないかどうか(TsdSepData[t]=0)を示す。ステップ120において、フレーム全てのスロットの対応する値は、0によって初期化される。
ステップ130において、変数kは、値N−1によって初期化される。この実施の形態において、Nの要素を含むフレームのスロットは0,1,2,...N−1と番号がつけられる。k=N−1を設定することは、もっとも高いスロット数を有するスロットが最初に評価されることを意味する。
ステップ140において、k≧0であるかどうかが考慮される。k<0である場合、スロット位置の復号化は、終了し、処理は終了し、そうでなければ、処理はステップ150に続く。
ステップ150において、p>kかどうかがテストされる。pがkより大きい場合、これは、残りの全てのスロットがイベントを含むことを意味する。処理は、ステップ230に続き、残りのスロット0,1,...,kのTsdSepDataのフィールド値は、残りのスロットの各々がイベントを含むことを示して、1に設定される。この場合において、処理は、その後終了する。しかしながら、ステップ150において、pがkよりも大きくないことが分かった場合、復号化処理は、ステップ160に続く。
Figure 2014508316
ステップ170において、(最終的にアップデートされる)イベント状態数sがc以上かどうかがテストされる。ここで、cは、ステップ160においてちょうど算出される閾値である。
sがcより小さい場合、これは、(スロット位置kを伴う)考慮されたスロットがイベントを含まない場合である。この場合、TsdSepData[k]が、ステップ140においてこのスロットに対して0に既に設定されているので、さらなるアクションはされない。そのとき、処理は、ステップ220に続く。ステップ220において、kは、k=k−1に設定され、次のスロットが注目される。
一方、ステップ170におけるテストは、sがc以上かを示し、これは、考慮されたスロットkがイベントを含むことを意味する。この場合、イベント状態数sは、アップデートされ、ステップ180において、値s:=s−cに設定される。さらに、TsdSepData[k]は、スロットkがイベントを含むことを示すために、ステップ190において、1に設定される。さらに、ステップ200において、pは、p−1に設定され、現在調べられる残りのスロットがイベントを有するp−1スロットを含むことを示す。
ステップ210において、pが0に等しいかどうか、テストされる。pが0に等しい場合、残りのスロットはイベントを含まず、復号化処理は終了する。そうでなければ、残りのスロットの少なくとも1つはイベントを含み、処理は、復号化処理が次のスロット(k−1)を続ける、ステップ220に続く。
図10において例示される実施の形態の復号化処理は、スロットがイベントを含むかどうか(TsdSepData[k]=1)、または、含まないかどうか(TsdSepData[k]=0)、をフレームの各スロットkに対して示している出力値として、配列TsdSepDataを生成する。
図9cに戻って、装置は、図10において例示される復号化処理を実行する、実施の形態の復号化するための装置60は、考慮するためのスロットを決定するスロット・セレクタ90を含む。図10に関して、そのようなスロット・セレクタは、図10の処理ステップ130および220を実行するように適応される。この実施の形態の適切な解析ユニット70は、図10の処理ステップ140、150、170および210を実行するように適応される。そのような実施の形態の生成ユニット80は、図10の全ての他の処理ステップを実施するように適応される。
図11は、本発明の実施の形態によるイベントを含むスロットの位置の復号化を実施するための擬似コードを例示する。
図12は、本発明の実施の形態による符号化するための装置により実施される符号化処理を例示する。この実施の形態によれば、符号化は、スロット単位を基礎にして実行される。図12に例示される実施の形態による符号化処理は、イベント状態数を生成することである。
ステップ310において、値が初期化される。p_sは、0によって初期化される。イベント状態数は、引き続いて、変数p_sをアップデートすることによって生成される。符号化処理が終了した場合、p_sは、イベント状態数を担持する。ステップ310は、フレーム−1においてkからイベントを含むスロットの(k:=)数までを設定することによって、kも初期化する。
ステップ320において、変数「slot」が、slot:=tsdPos[k]に設定され、ここで、tsdPosは、イベントを含むスロットの位置を保持している配列である。配列におけるスロット位置は、昇順に格納される。
ステップ330において、テストは、k≧slotかどうかのテストを実行する。この場合、処理は終了する。そうでなければ、処理はステップ340において続けられる。
Figure 2014508316
ステップ350において、変数p_sは、アップデートされ、p_s:=p_s+cに設定される。
ステップ360において、kは、k:=k−1に設定される。
それから、ステップ370において、テストは、k≧0であるかどうかのテストを実行し、次に、スロットk−1が注目される。そうでなければ、処理が終了する。
図13は、本発明の実施の形態によるイベントを含むスロットの位置の符号化を実行する、擬似コードを表す。
図14は、本発明のさらなる実施の形態による音声信号フレームにおけるイベントを含むスロットの位置を復号化するための装置410を例示する。また、図9aにおけるように、音声信号フレームのスロットの合計数を示すフレーム・スロット数FSN、音声信号フレームのイベントを含むスロットの数を示すイベント・スロット数ESON、およびイベント状態数ESTNは、復号化するための装置410に送り込まれる。復号化するための装置410は、フレーム区分器440をさらに含むという点で、図9aの装置とは異なる。フレーム区分器440は、フレームのスロットの第1のセットを含む第1のフレーム区分、およびフレームのスロットの第2のセットを含む第2のフレーム区分をフレームに分割するように適応され、イベントを含むスロット位置は、フレーム区分のそれぞれのために別々に決定される。これによって、イベントを含むスロットの位置は、フレーム区分よりもさらに小さいフレームまたはフレーム区分を繰り返して分割することによって、決定されうる。
この実施の形態の復号化するための装置410の復号化に「基づく区分」は、以下の概念に基づく。そして、それは、音声信号フレームにおけるイベントを含むスロットの位置を復号化するための装置、符号化するための装置、復号化するための方法、および符号化するための方法の実施の形態のために適用されうる。以下の概念は、コンピュータ・プログラムおよび符号化された信号のそれぞれにも適用されうる。
復号化に基づく区分は、一組のスロットを含む各フレーム区分の2つのフレーム区分AおよびBに分割されるという考えに基づく。ここで、フレーム区分Aは、Naスロットを含み、フレーム区分Bは、Nbスロットを含み、たとえば、Na+Nb=Nである。好ましくは、区分AおよびBがスロットのほとんど同じ合計数(たとえば、Na=NbまたはNa=Nb−1)を有するように、フレームは、2つの区分に任意に分割されうる。フレームを2つの区分に分割することによって、イベントが生じたスロット位置を決定する作業は、2つのサブタスクにも分割され、すなわち、フレーム区分Aにおいて生じたイベントのスロット位置を決定し、フレーム区分Bにおいて生じたイベントのスロット位置を決定する。
この実施の形態において、復号化するための装置が、フレームのスロットの数、フレームのイベントを含むスロットの数およびイベント状態数を認識している前提である。両方のサブタスクを解析するために、復号化するための装置が、各フレーム区分のスロットの数、各フレーム区分に関して生じたイベントのスロットの数、および各フレーム区分のイベント状態数(そのようなフレーム区分のイベント状態数は、「イベントサブ状態数」として参照される)も認識している。
復号化するための装置自身が、2つのフレーム区分にフレームを分割するので、フレーム区分AがNaスロットを含み、フレーム区分BがNbスロットを含むことをそれ自体が既知である。両方のフレームのそれぞれのためのイベントを含むスロットの数を決定することは、以下の所見に基づく。
フレームが2つの区分に分割されるので、イベントを含むそれぞれのスロットは、現在、区分Aまたは区分Bのおけるどちらか一方において位置する。さらに、Pはフレーム区分のイベントを含むスロットの数であり、Nはフレーム区分のスロットの合計数であり、およびf(P,N)は、フレーム区分のイベントのスロット部分の異なる組み合わせの数を戻す関数であると仮定すると、そのとき、(区分Aおよび区分Bに分割されている)全体のフレームのイベントのスロット部分の異なる組み合わせの数は、以下の通りとなる。
Figure 2014508316
上記の考慮すべき事柄に基づいて、実施の形態によれば、区分Aがイベントを含む0スロットを有し、区分Bがイベントを含むPスロットを有する第1の設定を有する全ての組み合わせは、第1の閾値よりも小さいイベント状態数によって符号化されなければならない。イベント状態数は、正かまたは0である整数値として符号化される。第1の設定についてf(0,Na)・f(P,Nb)の組み合わせのみであるので、適切な第1の閾値は、f(0,Na)・f(P,Nb)である。
区分Aがイベントを含む1スロットを有し、区分Bがイベントを含むP−1スロットを有する第2の設定を有する全ての組み合わせは、第1の閾値以上、また、第2の値以下のイベント状態数によって符号化されなければならない。第2の設定についてf(1,Na)・f(P−1,Nb)の組み合わせのみであるので、適切な第2の値は、f(1,Na)・f(P−1,Nb)である。他の設定についての組み合わせに対するイベント状態数は、同様に決定される。
実施の形態によれば、符号化は、フレームを2つのフレーム区分AおよびBに分離することによって実行される。そのとき、イベント状態数が第1の閾値よりも小さいかどうかテストされる。好ましい実施の形態において、第1の閾値は、f(0,Na)・f(P,Nb)である。
イベント状態数が第1の閾値よりも小さい場合、区分Aがイベントを含む0スロットを含み、区分Bが、イベントの生じたフレームの全てのPスロットを含むと結論されうる。そして、復号化は、対応する区分のイベントを含むスロットの数を表すそれぞれ決定された数を有する両方の区分のために実施される。さらに、第1のイベント状態数は、区分Aのために決定され、第2のイベント状態数は、新しいイベント状態数としてそれぞれ使用される区分Bのために決定される。本願明細書の範囲内において、フレーム区分のイベント状態数は、「イベントサブ状態数」として参照される。
しかしながら、イベント状態数が第1の閾値以上の場合、イベント状態数はアップデートされうる。好ましい実施の形態において、イベント状態数は、イベント状態数からの値を減ずることによって、好ましくは、第1の閾値、たとえば、f(0,Na)・f(P,Nb)を減ずることによってアップデートされうる。次のステップにおいて、アップデートされたイベント状態数が第2の閾値よりも小さいかどうか、テストされる。好ましい実施の形態において、第2の閾値は、f(1,Na)・f(P−1,Nb)でありうる。イベント状態数が第2の閾値よりも小さい場合、区分Aは、イベントを含む1スロットを有し、区分Bは、イベントを含むP−1スロットを有するように導出されうる。そして、復号化は、各区分のイベントを含むスロットのそれぞれ決定された数を有する両方の区分に対して実施される。第1のイベントサブ状態値は、区分Aの復号化のために使用され、第2のイベントサブ状態値は、区分Bの復号化のために使用される。しかしながら、イベント状態数が第2の閾値以上の場合、イベント状態数はアップデートされうる。好ましい実施の形態において、イベント状態数は、イベント状態数からの値、好ましくは、f(1,Na)・f(P−1,Nb)を減ずることによってアップデートされうる。復号化処理は、2つのフレーム区分に関して、イベントを含むスロットの残りの分布可能性のために、同様に適用される。
実施の形態において、区分Aためのイベントサブ状態値および区分Bのためのイベントサブ状態値は、区分Aおよび区分Bの復号化のために使用されうる。ここで、両方のイベントサブ状態値は、以下に示す除算を実行することによって決定される。

イベント状態値/f(区分Bのイベントを含むスロットの数,Nb
好ましくは、区分Aのイベントサブ状態数は、上述の除算の整数部であり、区分Bのイベントサブ状態数は、その除算の余りの部分である。この除算で使用されたイベント状態数は、フレームの元のイベント状態数またはアップデートされた、たとえば、上述したように、1以上の閾値により減ずることによりアップデートされたイベント状態数でありうる。
復号化に基づく区分の上述の記載の概念を例示するために、フレームが、イベントを含む2つのスロットを有する状況が考慮される。さらにまた、f(p,N)が、再度、フレーム区分のイベントのスロット部分の異なる組み合わせの番号を返す関数である場合、pは、フレーム区分のイベントを含むスロットの数であり、Nは、そのフレーム区分のスロットの合計数である。そのとき、位置の可能な分布のそれぞれに対して、可能な組み合わせの以下に示す番号が結果として得られる。
Figure 2014508316
フレームの符号化されたイベント状態数が、f(0,Na)・f(2,Nb)よりも小さい場合、そのとき、イベントを含むスロットは、0および2として割り当てられるように、結論されうる。そうでなければ、f(0,Na)・f(2,Nb)は、イベント状態数から減算され、結果は、f(1,Na)・f(1,Nb)と比較される。それが、より小さい場合、そのとき、位置は、1および1として割り当てられる。そうでなければ、我々は、割り当て2および0のみを有し、位置は、2および0を割り当てられる。
以下に、擬似コードが、音声信号フレームにおける特定のイベント(ここでは:「パルス」)を含むスロットの位置を復号化するための実施の形態により提供される。この擬似コードにおいて、「pulses_a」は、区分Aにおけるイベントを含むスロットの(仮定の)数であり、そして、「pulses_b」は、区分Bにおけるイベントを含むスロットの(仮定の)数である。この擬似コードにおいて、(最終的にアップデートされる)イベント状態数は、「state」として参照される。区分AおよびBのイベントのサブ状態数は、「state」変数において、まだ合同で符号化される。実施の形態のジョイント符号化スキームにより、(ここで、「state_a」として参照される)Aのイベントサブ状態数は、state/f(pulses_b,Nb)の除算の整数部であり、(ここで、「state_b」として参照される)Bのイベントサブ状態数は、その除算の余りである。これによって、長さ(区分のスロットの合計数)および両方の区分の(区分におけるイベントを含むスロットの数の)符号化された位置の数は、同じアプローチによって復号化されうる。

Function x = decodestate(state, pulses, N)

1. Split vector into two partitions of length Na and Nb.
2. For pulses_a from 0 to pulses
− a. pulses_b = pulses − pulses_a
b. if state < f(pulses_a,Na)*f(pulses_b,Nb) then break for−loop.
c. state := state − f(pulses_a,Na)*f(pulses_b,Nb)
3. Number of possible states for partition B is no_states_b = f(pulses_b,Nb)
4. The states, state_a and state_b, of partitions A and B, respectively, are the integer part and the reminder of the division state/no_states_b.
5. If Na > 1 then the decoded vector of partition A is obtained recursively by
xa = decodestate(state_a,pulses_a,Na)
Otherwise (Na==1), and the vector xa is a scalar and we can set xa=state_a.
6. If Nb > 1 then the decoded vector of partition B is obtained recursively by
xb = decodestate(state_b,pulses_b,Nb)
Otherwise (Nb==1), and the vector xb is a scalar and we can set xb=state_b.
7. The final output x is obtained by merging xa and xb by x = [xa xb].
このアルゴリズムの出力は、あらゆる符号化された位置(すなわち、イベントを含むスロットのスロット位置)において(1)を有し、他(すなわち、イベントを含まないスロットの位置)においてゼロ(0)を有するベクトルである。
以下に、擬似コードは、上記として類似の意味を有する類似の変数名を使用する音声信号フレームにおけるイベントを含むスロットの符号化位置のための実施の形態によって提供される。

Function state = encodestate(x,N)

1. Split vector into two partitions xa and xb of length Na and Nb.
2. Count pulses in partitions A and B in pulses_a and pulses_b, and set pulses=pulses_a+pulses_b.
3. Set state to 0
4. For k from 0 to pulses_a−1
a. state := state + f(k,Na)*f(pulse−k,Nb)
5. If Na > 1, encode partition A by state_a = encodestate(xa, Na);
Otherwise (Na==1), set state_a = xa.
6. If Nb > 1, encode partition B by state_b = encodestate(xb,Nb);
Otherwise (Nb==1), set state_b = xb.
7. Encode states jointly
state := state + state_a*f(pulses_b,Nb) + state_b.
ここで、同様に、復号化アルゴリズムに、あらゆる符号化された位置(すなわち、イベントを含むスロットのスロット位置)はベクトルxにおける(1)によって確認され、そして、他の全ての要素は、(すなわち、イベントを含まないスロットの位置において)ゼロ(0)である。
擬似コードにおいて定式化される上記の再帰的方法は、標準的な方法を使用している非機能的方法で直ちに実施されうる。
本発明の実施の形態によれば、関数f(p,N)は、ルックアップテーブルとして実現されうる。位置が、重ならない場合、たとえば、現在の状況において、そのとき、number−of−states関数f(p,N)は、オンラインで算出されうる単に2項式である。
Figure 2014508316
である。
本発明の実施の形態によれば、エンコーダおよびデコーダの両方は、プロダクトf(p−k,Na)*f(k,Nb)がkの連続的な値のために算出されるfor−loopを有する。効率的な計算のために、これは、以下のように書かれうる。
Figure 2014508316
換言すれば、(デコーダにおけるステップ2bおよび2cならびにエンコーダにおけるステップ4aにおける)引算/加算のための連続的な期間は、3つの乗算および1つの除算によって算出されうる。
記載されている方法と同様に、(多くのスロットを有するフレームの)ロング・ベクトルの状態は、非常に大きい整数であり、容易に、標準プロセッサの表現の長さを延長する。したがって、非常に長い整数を扱うことのできる算術関数を使用することを必要とする。
計算量に関して、ここで注目される方法は、上記のスロット単位に対する違いにおいて、スプリットおよびconquer−typeアルゴリズムである。入力ベクトル長が2の累乗である場合、再帰は、log2(N)の深さを有する。
パルスの数が、再帰の各深さにおいて一定のままであるので、それから、for−loopの反復の数が各再帰と同じである。それは、ループの数がpules・log2(N)であるということになる。
上述したように、f(p−k,Na)・f(k,Nb)の各アップデートは、3つの乗算および1つの除算によってされうる。
デコーダにおける引算および比較が、1つの動作であるとみなされうる点に留意すべきである。
区分が、log2(N)−1回、合併されるということを直ちに知られうる。エンコーダにおける状態のジョイント符号化において、log2(N)−1回、乗算し、加算するのに必要である。同様に、デコーダにおける状態のジョイント復号化において、log2−1回、除算するのに必要である。
除算のうち、デコーダにおいて状態をジョイント符号化するのみが、分母が倍長整数である除算を必要とする点に留意すべきである。他の除算は、分母において、比較的短い整数を有する。長い分母を有する除算は、もっとも複雑な処理であるので、それらは可能な場合、回避すべきである。
要約すると、倍長整数算術演算の数は、デコーダにおいてである。

乗算 (3・pules+1)・log2(N)−1
除算 (pules+1)・log2(N)−1
そのうちの倍長整数の除算 log2(N)−1
加算および引算 pules・log2(N)
同様に、エンコーダにおいて、以下のとおりである。

乗算 (3・pules+1)・log2(N)−1
除算 (pules+1)・log2(N)−1
そのうちの倍長整数の除算 0
加算および引算 (pules+2)・log2(N)
倍長整数を有するlog2(N)−1の除算のみは必要である。
さらなる実施の形態において、再帰的処理ステップのいくらかまたは全てが、標準の方法を使用している非再帰的方法で実施するように、再帰的処理ステップを使用するために含まれ、適応される上記の実施の形態が修正される。
図15は、実施の形態による音声信号フレームにおけるイベントを含むスロットの位置を符号化するための装置(510)を例示する。符号化するための装置(510)は、イベント状態数の符号化することによってスロットの位置を符号化するために適応されるイベント状態数生成器(530)を含む。さらに、装置は、フレーム・スロット数およびイベント・スロット数をイベント状態数生成器(530)に提供するために適応されるスロット情報ユニット(520)を含む。イベント状態数生成器は、上記の符号化するための方法をのうちの1つを実施しうる。
さらなる実施の形態において、符号化された音声信号が提供される。符号化された音声信号は、イベント状態数を含む。他の実施の形態において、符号化された音声信号は、さらに、イベント・スロット数を含む。またさらに、符号化された音声信号フレームは、フレーム・スロット数も含む。音声信号フレームにおいて、音声信号フレームにおけるイベントを含むスロットの位置は、復号化するための上記において記載される方法のうちの1つにより復号化される。実施の形態において、イベント状態数、イベント・スロット数およびフレーム・スロット数は、音声信号フレームにおけるイベントを含むスロットの位置が上記おいて記載される方法のうちの1つを使用することによって復号化されうるように送信される。
本発明の符号化された音声信号は、デジタル記憶媒体もしくは一時的な記憶媒体に保存され、またはインターネットのように、たとえば、ワイヤレス伝送媒体または有線の伝送媒体などのような伝送媒体において伝送されうる。
以下は、本実施の形態によるトランジェント・ステアリング非相関器(TSD)を支持するために適応されるUSACの構文を説明する。
図16は、MPS(MPEG Surround)212データを例示する。MPS 212は、MPS 212ステレオ・モジュールのためのペイロードを含むデータのブロックである。MPS 212データは、TSDデータを含む。
図17は、TSDデータの構文を表す。それは、MPS 212データフレームにおけるスロットのための、トランジェントスロット(bsTsdNumTrSlots)の数とTSD Transient Phase Data(bsTsdTrPhaseData)とを含む。スロットがトランジェントデータを含む場合(TsdSepData[ts]は、1に設定される)、bsTsdTrPhaseDataは位相データを含み、そうでなければ、bsTsdTrPhaseData[ts]は0に設定される。
nBitsTrSlotsは、トランジェントスロット(bsTsdNumTrSlots)の数をもたらすために使用されるビットの数を定義する。nBitsTrSlotsは、MPS 212データフレーム(numSlots)のスロットの数に依存する。図18は、MPS 212データにおけるスロットの数と、トランジェントスロットの数をもたらすために使用されるビットの数との関係を例示する。
図19は、テンポラルシェーピング(STPまたはGES)の処理モード、またはデコーダにおけるトランジェント・ステアリング非相関器のアクティブ化を示す。tempShapeConfigが0に設定される場合、テンポラルシェーピングは、全く適応されない。tempShapeConfigが1に設定される場合、Subband Domain Temporal Processing(STP)が適用される。tempShapeConfigが2に設定される場合、Guided Envelope Shaping(GES)が適用される。そして、tempShapeConfigが3に設定される場合、トランジェント・ステアリング非相関器(TSD)が適用される。
図20は、TempShapeDataの構文を例示する。bsTempShapeConfigが3に設定される場合、TempShapeDataは、TSDがフレームで使用可であることを示すbsTsdEnableを含む。
図21は、実施の形態による非相関器ブロックDを例示する。OTT復号化ブロックにおける非相関器ブロックDは、信号セパレータ、2つの非相関器、および信号コンバイナを含む。
APは、以下を意味する:サブセクション7.11.2.5(全通過の非相関器)において定義した全通過の非相関器。
TRは、以下を意味する:トランジェント非相関器。
Figure 2014508316
スロット−トランジェント分離フラグTsdSepData(n)につき、後述するように、TsdTrPos_dec()によって可変長符号語bsTsdCodedPosから復号化される。bsTsdCodedPosの符号語長さ、すなわち、nBitsTsdCWは、以下に従って算出される:
Figure 2014508316
図11に戻って、図11は、実施の形態によって、TsdSepData[n]に、TSDトランジェントスロット分離データbsTsdCodedPosの復号化を例示する。符号化されたトランジェント位置に対して「1」でありそれ以外は「0」からなる長さsumSlotsの配列が図11において例示されるように定義される。
TSDツールはカレント・フレームでできない場合、すなわち、(bsTsdEnable==0)である場合、すべてのnに対してTsdSepData(n)=0の場合、入力信号は処理される。
Figure 2014508316
非トランジェント信号成分は、非トランジェント信号成分のための非相関器出力をもたらす次のサブセクションにおいて定義されるような、全通過の非相関器DAPにおいて処理される。
Figure 2014508316
非相関器出力は、トランジェントおよび非トランジェント成分の両方を含む非相関化された信号を形成するように加えられる。
Figure 2014508316
図22は、bsFrequencyResStrideXXXを含むEcDataの構文を例示する。構文要素bsFreqResStrideは、MPSにおけるブロードバンド・キューのユーティライゼーションを考慮に入れる。XXXは、データタイプ(CLD、ICC、IPD)の値と置き換えられる。
OTTデコーダの構造におけるトランジェント・ステアリング非相関器は、拍手のような信号のトランジェント成分に専門化した非相関器に適用することの可能性を提供する。TSD機能のアクティブ化は、フレーム毎に1度送信されるエンコーダ生成のbsTsdEnableによって制御される。
エンコーダの1つのチャンネルモジュール(R−OTT)に対する2つのチャンネルにおけるTSDデータは、以下のように生成される。

− 拍手のような信号を検出するセマンティック信号分類器を実行させる。分類結果は、フレーム毎に1度送信される。bsTsdEnableフラグは、拍手のような信号のための1に設定される、そうでなければ、それは0に設定される。

−bsTsdEnableが、カレント・フレームに対して0に設定される場合、さらなるTSDデータは、このフレームのために、生成されず/送信されない。

−bsTsdEnableが、カレント・フレームに対して1に設定される場合、以下を実行する:
・OTT空間パラメータのブロードバンド算出のスイッチを入れる。
・カレント・フレーム(MPSタイムスロット毎のバイナリの決定)のトランジェントを検出する。
・以下の擬似コードに従って、ベクトルtsdPosにおけるtsdPosLenを符号化する。tsdPosにおけるスロット位置は、昇順において要求される。図13は、tsdPosLenにおいて、トランジェントスロット位置を符号化するための擬似コードを例示する。
・トランジェントスロットの数(bsTsdNumTrSlots=(検出されたトランジェントスロットの数)−1)を送信する。
・符号化されたトランジェント位置(bsTsdCodedPos)を送信する。
・トランジェントスロット毎に、ダウンミックス信号と残留信号との間にブロードバンド位相差を表す位相計測を算出する。
・トランジェントスロット毎に、ブロードバンド位相差計測(bsTsdTrPhaseData)を符号化して、送信する。
最後に、図23は、1つのチャンネルモジュール(R−OTT)に対して、2つのチャンネルにおけるTSDデータの生成のための信号フローチャートを例示する。
若干の態様が、装置に関連して記載されているが、これらの形態は対応する方法の記載も表すことは明らかである。ここで、1ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。類似して、方法ステップに関連して記載されている形態は、対応するブロックまたは項目または対応する装置の特徴の説明を表す。
特定の実現要求に応じて、本発明の実施の形態は、ハードウェアにおいて、または、ソフトウェアにおいて、実行されうる。その実現態様は、それぞれの方法が実行されるように、プログラミング可能なコンピュータシステムと協働するか(または、協働することができる)、そこに格納された電子的に読み込み可能な制御信号を有するデジタル記憶媒体、たとえば、フロッピー(登録商標)ディスク、DVD、ブルーレイディスク、CD、ROM、PROM、EPROM、EEPROM、またはFLASHメモリを使用して実行されうる。
本発明による若干の実施の形態は、本願明細書において記載される方法のうちの1つが実行されるように、プログラミング可能なコンピュータシステムと協働することができる電子的に読み込み可能な信号を有するデータキャリアを含む。
通常、本発明の実施の形態は、プログラム・コードを有するコンピュータ・プログラム製品として実施され、コンピュータ・プログラム製品がコンピュータ上で実行する場合、プログラム・コードは、方法のうちの1つを実行するために作動される。プログラム・コードは、機械可読キャリアに、たとえば、格納されうる。
他の実施の形態は、機械可読キャリアまたは持続性記憶媒体に格納され、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを含む。
換言すれば、したがって、コンピュータ・プログラムがコンピュータ上で実行する場合、本発明の方法の実施の形態は、本願明細書において記載される方法のうちの1つを実行するためのプログラム・コードを有するコンピュータ・プログラムである。
したがって、本発明の方法の更なる実施の形態は、その上に記録され、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを含むデータキャリア(または、デジタル記憶媒体、またはコンピュータ可読媒体)である。
したがって、本発明の方法の更なる実施の形態は、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを表しているデータストリームまたは一連の信号である。たとえば、データストリームまたは一連の信号は、データ通信接続、たとえば、インターネットを介して転送されるように構成されうる。
更なる実施の形態は、本願明細書において記載される方法のうちの1つを実行するために構成され、または適応される処理手段、たとえば、コンピュータ、またはプログラミング可能な論理回路を含む。
更なる実施の形態は、その上にインストールされ、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを有するコンピュータを含む。
いくつかの実施の形態において、プログラミング可能な論理回路(たとえば、現場でプログラム可能なゲートアレイ(Field Programmable Gate Array))が、本願明細書において記載されるいくつかまたは全ての機能を実行するために使用されうる。いくつかの実施の形態において、現場でプログラム可能なゲートアレイは、本願明細書において記載される方法の1つを実行するために、マイクロプロセッサと協働しうる。一般に、方法は、いくつかのハードウェア装置によって、好ましくは実行される。
上述した実施の形態は、本発明の原理の例を表すだけである。本願明細書において記載される装置の修正および変更は、他の当業者にとって明らかであるものと理解される。したがって、間近に迫った特許請求の範囲だけによってのみ制限され、ならびに、本願発明の記述および説明によって表された明細書の詳細な記載によっては、制限されない。

Claims (18)

  1. スロットと前記スロットに関連したイベントを含む音声信号フレームを有する符号化された音声信号を復号化するための装置(10;40;60;410)であって、前記装置は、
    前記音声信号フレームのスロットの合計数を示しているフレーム・スロット数を解析するための解析ユニット(20;42;70;420)であって、イベント・スロット数は、前記音声信号フレームの前記イベント、およびイベント状態数を含む前記スロットの数を示す、解析ユニットと、
    前記フレーム・スロット数、前記イベント・スロット数および前記イベント状態数を使用して前記音声信号フレームにおける前記イベントを含む複数のスロット位置の表示を生成するための生成ユニット(30;45;80;430)と、
    を含む、復号化するための装置。
  2. 復号化するための装置(10;40;60;410)は、音声信号フレームにおけるトランジェントの前記スロットの位置を復号化するように適応される、請求項1に記載の復号化するための装置。
  3. 前記解析ユニット(20;42;70;420)は、前記イベント状態数、またはアップデートされたイベント状態数と閾値とを比較するテストを実施するように適応される、請求項1または請求項2に記載の復号化するための装置。
  4. 前記解析ユニット(20;42;70;420)は、前記イベント状態数またはアップデートされたイベント状態数が、閾値より大きいか、閾値以上か、閾値より小さいか、または閾値以下かどうかの比較により前記テストを実施するように適応され、
    ここで、前記生成ユニット(30;45;80;430)は、前記イベント状態数、または前記テストの結果に依存するアップデートされたイベント状態数をアップデートするように、さらに適応される、請求項3に記載の復号化するための装置。
  5. 前記復号化するための装置(10;40;60)は、スロット・セレクタ(90)をさらに含み、
    ここで、前記スロット・セレクタ(90)は、考慮されたスロットとして、スロットを選択するように適応され、
    前記解析ユニット(20;42;70)は、考慮されたスロットに関して前記テストを実施するように適応され、
    前記閾値は、前記フレーム・スロット数、前記イベント・スロット数、および前記フレームの範囲内における前記考慮されたスロットの位置に依存する、請求項3または請求項4に記載の復号化するための装置。
  6. Figure 2014508316
  7. 前記復号化するための装置(10;40;410)は、フレーム区分器(440)をさらに含み、
    ここで、前記フレーム区分器(440)は、前記フレームのスロットの第1のセットを含む第1のフレーム区分、および前記フレームのスロットの第2のセットを含む第2のフレーム区分を前記フレームに分割するように適応され、前記復号化するための装置(10;40;410)は、前記スロット位置を決定するように、さらに適応される、請求項1ないし請求項4のいずれかに記載の復号化するための装置。
  8. 前記復号化するための装置(10;40;60;410)は、
    フレーム・スロット数、前記イベント・スロット数および前記イベント状態数を使用して前記音声信号フレームにおける前記イベントを含む複数のスロット位置の表示を使用して、音声出力信号を生成するための音声信号プロセッサ(50)をさらに含む、請求項1ないし請求項7のいずれかに記載の復号化するための装置。
  9. 前記イベントを含む複数のスロット位置の前記表示が、第1の表示状態である場合、前記音声信号プロセッサ(50)は、第1の方法に従って前記音声出力信号を生成するように適応され、そして、前記イベントを含む複数のスロット位置の前記表示が、前記第1の表示状態とは異なる第2の表示状態である場合、前記音声信号プロセッサ(50)は、異なる第2の方法に従って、前記音声出力信号を生成するように適応される、請求項8に記載の復号化するための装置。
  10. 前記スロットがトランジェントを含むことを前記第1の表示状態が表示する場合、前記第1の方法が、スロットを復号化するためのトランジェント非相関器(56)を使用することを含み、前記スロットがトランジェントを含まないことを前記第2の表示状態が表示する場合、前記第2の方法が、スロットを復号化するための第2の非相関器(54)を使用することを含む、請求項9に記載の復号化するための装置。
  11. 音声信号フレームにおけるイベントを含むスロットの位置を符号化する装置(510)であって、前記装置は、
    イベント状態数を符号化することによってスロットの前記位置を符号化するためのイベント状態数生成器(530)と、
    前記音声信号フレームのスロットの前記合計数を示すフレーム・スロット数と、前記音声信号フレームの前記イベントを前記イベント状態数生成器(530)に含むスロットの前記数を示すイベント・スロット数とを提供するように適応されるスロット情報ユニット(520)と、を含み、
    ここで、前記イベント状態数、前記フレーム・スロット数および前記イベント・スロット数は、一緒に、前記音声信号フレームにおける前記イベントを含む複数のスロット位置を示す、符号化するための装置。
  12. 前記イベント状態数生成器(530)は、イベントを含む各スロットのための正の整数値を加えることによってイベント状態数を生成するように適応される、請求項11に記載の符号化するための装置。
  13. 前記イベント状態数生成器(530)は、前記イベント状態数を生成するために、第1のフレーム区分のための第1のイベントサブ状態数を決定し、第2のフレーム区分のための第2のイベントサブ状態数を決定し、そして、前記第1および第2のイベント状態数を結合することによって、前記イベント状態数を生成するように適応される、請求項11に記載の符号化するための装置。
  14. 音声信号フレームにおけるイベントを含むスロットの位置を復号化するための方法であって、前記方法は、
    前記音声信号フレームのスロットの合計数を示しているフレーム・スロット数を解析するステップであって、イベント・スロット数は、前記音声信号フレームの前記イベント、およびイベント状態数を含むスロットの数を示す、解析するステップと、
    フレーム・スロット数、前記イベント・スロット数および前記イベント状態数を使用して、前記音声信号フレームにおける前記イベントを含む複数のスロット位置の表示を生成するステップと、
    を含む、復号化するための方法。
  15. 音声信号フレームにおけるイベントを含むスロットの位置を符号化する方法であって、前記方法は、
    前記音声信号フレームのスロットの合計数を示すフレーム・スロット数を受信するか、または決定するステップと、
    前記音声信号フレームの前記イベントを含むスロットの数を示すイベント・スロット数を受信するか、または決定するステップと、
    前記音声信号フレームにおける前記イベントを含む複数のスロット位置の表示は、フレーム・スロット数、前記イベント・スロット数および前記イベント状態数によって復号化されうるように、前記イベント状態数、前記フレーム・スロット数および前記イベント・スロット数に基づくイベント状態数を符号化するステップと、
    を含む、符号化するための方法。
  16. 請求項14に記載の音声信号フレームにおけるイベントのスロット位置を復号化するための方法を実施する音声信号フレームにおける前記イベントを含むスロット位置を復号化するためのコンピュータ・プログラム。
  17. 請求項15に記載の音声信号フレームにおけるイベントのスロット位置を符号化するための方法を実施する音声信号フレームにおける前記イベントを含むスロットの位置を符号化するためのコンピュータ・プログラム。
  18. イベント状態数を含む符号化された音声信号であって、イベントを含むスロットの位置は、請求項14に記載の方法に従って復号化されうる、符号化された音声信号。
JP2013549787A 2011-01-18 2012-01-17 音声信号フレームにおけるイベントのスロット位置の符号化および復号化 Active JP5818913B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161433803P 2011-01-18 2011-01-18
US61/433,803 2011-01-18
EP11172791.3 2011-07-06
EP11172791A EP2477188A1 (en) 2011-01-18 2011-07-06 Encoding and decoding of slot positions of events in an audio signal frame
PCT/EP2012/050613 WO2012098098A1 (en) 2011-01-18 2012-01-17 Encoding and decoding of slot positions of events in an audio signal frame

Publications (2)

Publication Number Publication Date
JP2014508316A true JP2014508316A (ja) 2014-04-03
JP5818913B2 JP5818913B2 (ja) 2015-11-18

Family

ID=44508771

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013549787A Active JP5818913B2 (ja) 2011-01-18 2012-01-17 音声信号フレームにおけるイベントのスロット位置の符号化および復号化

Country Status (15)

Country Link
US (1) US9502040B2 (ja)
EP (2) EP2477188A1 (ja)
JP (1) JP5818913B2 (ja)
KR (1) KR101657251B1 (ja)
CN (1) CN103620677B (ja)
AR (1) AR084873A1 (ja)
AU (1) AU2012208673B2 (ja)
BR (1) BR112013018362B1 (ja)
CA (1) CA2824935C (ja)
MX (1) MX2013008364A (ja)
MY (1) MY155887A (ja)
SG (1) SG191988A1 (ja)
TW (1) TWI485699B (ja)
WO (1) WO2012098098A1 (ja)
ZA (1) ZA201306173B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016539358A (ja) * 2013-10-21 2016-12-15 ドルビー・インターナショナル・アーベー オーディオ信号のパラメトリック再構成のための脱相関器構造

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2013298462B2 (en) 2012-08-03 2016-10-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases
WO2014126684A1 (en) * 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Time-varying filters for generating decorrelation signals
TWI618051B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
WO2014126689A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
CN110619882B (zh) * 2013-07-29 2023-04-04 杜比实验室特许公司 用于降低去相关器电路中瞬态信号的时间伪差的系统和方法
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
EP2963648A1 (en) * 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using vertical phase correction
KR20180094004A (ko) * 2015-12-10 2018-08-22 아스카바, 인크. 블록 처리 저장 시스템 상에 저장된 데이터 및 오디오 데이터의 축소
CN105654959B (zh) * 2016-01-22 2020-03-06 韶关学院 一种自适应滤波的系数更新方法及装置
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
US11232804B2 (en) 2017-07-03 2022-01-25 Dolby International Ab Low complexity dense transient events detection and coding
CA3071208A1 (en) * 2017-07-28 2019-01-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus for encoding or decoding an encoded multichannel signal using a filling signal generated by a broad band filter
US10594869B2 (en) 2017-08-03 2020-03-17 Bose Corporation Mitigating impact of double talk for residual echo suppressors
US10200540B1 (en) * 2017-08-03 2019-02-05 Bose Corporation Efficient reutilization of acoustic echo canceler channels
US10542153B2 (en) 2017-08-03 2020-01-21 Bose Corporation Multi-channel residual echo suppression
WO2019070722A1 (en) 2017-10-03 2019-04-11 Bose Corporation SPACE DIAGRAM DETECTOR
TWI812658B (zh) * 2017-12-19 2023-08-21 瑞典商都比國際公司 用於統一語音及音訊之解碼及編碼去關聯濾波器之改良之方法、裝置及系統
US10964305B2 (en) 2019-05-20 2021-03-30 Bose Corporation Mitigating impact of double talk for residual echo suppressors

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009506371A (ja) * 2005-08-30 2009-02-12 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3307138B2 (ja) * 1995-02-27 2002-07-24 ソニー株式会社 信号符号化方法及び装置、並びに信号復号化方法及び装置
US6424938B1 (en) 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
CA2365529C (en) * 1999-04-07 2011-08-30 Dolby Laboratories Licensing Corporation Matrix improvements to lossless encoding and decoding
AU2003281128A1 (en) 2002-07-16 2004-02-02 Koninklijke Philips Electronics N.V. Audio coding
SG108862A1 (en) * 2002-07-24 2005-02-28 St Microelectronics Asia Method and system for parametric characterization of transient audio signals
US7536305B2 (en) 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
TW594674B (en) * 2003-03-14 2004-06-21 Mediatek Inc Encoder and a encoding method capable of detecting audio signal transient
US7353169B1 (en) * 2003-06-24 2008-04-01 Creative Technology Ltd. Transient detection and modification in audio signals
PL1683133T3 (pl) 2003-10-30 2007-07-31 Koninl Philips Electronics Nv Kodowanie lub dekodowanie sygnału audio
AU2005219956B2 (en) * 2004-03-01 2009-05-28 Dolby Laboratories Licensing Corporation Multichannel audio coding
KR100571574B1 (ko) * 2004-07-26 2006-04-17 한양대학교 산학협력단 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템
KR20070003594A (ko) * 2005-06-30 2007-01-05 엘지전자 주식회사 멀티채널 오디오 신호에서 클리핑된 신호의 복원방법
EP1921605B1 (en) * 2005-09-01 2014-03-12 Panasonic Corporation Multi-channel acoustic signal processing device
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
ATE505912T1 (de) * 2006-03-28 2011-04-15 Fraunhofer Ges Forschung Verbessertes verfahren zur signalformung bei der mehrkanal-audiorekonstruktion
DE102006049154B4 (de) 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
DE102007018032B4 (de) * 2007-04-17 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Erzeugung dekorrelierter Signale
CN101308655B (zh) * 2007-05-16 2011-07-06 展讯通信(上海)有限公司 一种音频编解码方法与装置
US8725520B2 (en) 2007-09-07 2014-05-13 Qualcomm Incorporated Power efficient batch-frame audio decoding apparatus, system and method
TWI433137B (zh) * 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009506371A (ja) * 2005-08-30 2009-02-12 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016539358A (ja) * 2013-10-21 2016-12-15 ドルビー・インターナショナル・アーベー オーディオ信号のパラメトリック再構成のための脱相関器構造
US9848272B2 (en) 2013-10-21 2017-12-19 Dolby International Ab Decorrelator structure for parametric reconstruction of audio signals

Also Published As

Publication number Publication date
AU2012208673A1 (en) 2013-08-29
BR112013018362B1 (pt) 2021-01-19
US20130304480A1 (en) 2013-11-14
WO2012098098A1 (en) 2012-07-26
MX2013008364A (es) 2013-08-12
US9502040B2 (en) 2016-11-22
KR101657251B1 (ko) 2016-09-13
CA2824935C (en) 2016-08-30
RU2013138354A (ru) 2015-02-27
BR112013018362A2 (pt) 2016-10-04
TWI485699B (zh) 2015-05-21
KR20130133833A (ko) 2013-12-09
EP2666161A1 (en) 2013-11-27
TW201248619A (en) 2012-12-01
CN103620677A (zh) 2014-03-05
JP5818913B2 (ja) 2015-11-18
MY155887A (en) 2015-12-15
CN103620677B (zh) 2015-10-14
ZA201306173B (en) 2014-04-30
SG191988A1 (en) 2013-08-30
AU2012208673B2 (en) 2015-05-14
CA2824935A1 (en) 2012-07-26
AR084873A1 (es) 2013-07-10
EP2477188A1 (en) 2012-07-18

Similar Documents

Publication Publication Date Title
JP5818913B2 (ja) 音声信号フレームにおけるイベントのスロット位置の符号化および復号化
CA2576739C (en) Multichannel decorrelation in spatial audio coding
AU2011295368B2 (en) Apparatus for generating a decorrelated signal using transmitted phase information
JP5563647B2 (ja) マルチチャンネル復号化方法及びマルチチャンネル復号化装置
EP2870603B1 (en) Encoding and decoding of audio signals
JP6134867B2 (ja) レンダラ制御式空間アップミックス
JP6133422B2 (ja) マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法
KR102482162B1 (ko) 오디오 인코더 및 디코더
RU2575393C2 (ru) Кодирование и декодирование позиций слотов с событиями в кадре аудиосигнала
AU2015201672A1 (en) Apparatus for generating a decorrelated signal using transmitted phase information
JP2015118123A (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム及びオーディオ復号装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141202

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150929

R150 Certificate of patent or registration of utility model

Ref document number: 5818913

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250