JP2011528129A - 切り換え可能なバイパスを有するオーディオ符号化/復号化方式 - Google Patents

切り換え可能なバイパスを有するオーディオ符号化/復号化方式 Download PDF

Info

Publication number
JP2011528129A
JP2011528129A JP2011517779A JP2011517779A JP2011528129A JP 2011528129 A JP2011528129 A JP 2011528129A JP 2011517779 A JP2011517779 A JP 2011517779A JP 2011517779 A JP2011517779 A JP 2011517779A JP 2011528129 A JP2011528129 A JP 2011528129A
Authority
JP
Japan
Prior art keywords
signal
region
audio signal
domain
converter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011517779A
Other languages
English (en)
Other versions
JP5613157B2 (ja
Inventor
ベルンハルト グリル
シュテファン バイエル
ギヨーム フックス
シュテファン ガヤーズベアガー
ラルフ ガイガー
ジョーハン ヒルペアト
ウルリヒ クレマー
イェレミー ルコンテ
マルクス マルトラス
マクス ノイエンドルフ
ハラルド ポップ
ニコラウス レッテルバッハ
ロッシェ レフェブル
ブリュノ ベセトゥ
ジミー ラピエール
フィリップ グルネー
レドワン サラミ
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
ヴォイスエイジ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40718647&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2011528129(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ, ヴォイスエイジ・コーポレーション filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2011528129A publication Critical patent/JP2011528129A/ja
Application granted granted Critical
Publication of JP5613157B2 publication Critical patent/JP5613157B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • G10L2019/0008Algebraic codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

符号化のための装置は、異なる領域の符号化データによって示される異なる信号部分を有する符号化オーディオ信号を得るために、第1の領域変換器(510)、切り換え可能なバイパス(50)、第2の領域変換器(410)、第1の処理装置(420)および第2の処理装置(520)を含む。ここで、その符号化オーディオ信号は異なる符号化アルゴリズムによって符号化されたものである。領域変換器をバイパスするためのバイパスを伴った前記復号器において対応する復号化ステージは、高品位および低ビットレートを有する復号化オーディオ信号の生成を可能にする。
【選択図】図1a

Description

本発明は、オーディオ符号化に、そして、特に、低ビットレートオーディオ符号化方式に関する。
従来技術において、MP3またはAACのような周波数領域符号化方式が知られている。これらの周波数領域符号器は、時間領域/周波数領域変換、音響心理学的なモジュールからの情報を使用して制御されるその後の量子化ステージ、および、量子化されたスペクトル係数および対応する補助情報が符号表を使用してエントロピー符号化される、符号化ステージに基づく。
その一方で、例えば3GPP TS 26.290にて説明されているようなAMR―WB+などの音声処理に非常によく適している符号器がある。この種の音声符号化方式は、時間領域信号の線形予測(Linear Predictive)フィルタリングを実行する。この種のLPフィルタリングは、その入力時間領域信号の線形予測(Linear Prediction)分析から生じる。結果として生じるLPフィルタ係数は、補助情報として符号化され送信される。その処理は、線形予測符号化(Linear Prediction Coding:LPC)として知られている。そのフィルタの出力で、励振信号としても知られている予測残差信号または予測誤差信号は、ACELP符号器の合成による分析ステージを使用して符号化されるかまたは、代わりに、オーバーラップを有するフーリエ変換を使用する変換符号器を使用して符号化される。ACELP符号化とTCX符号化とも呼ばれているTransform Coded eXcitation符号化との間の決定は、閉ループまたは開ループアルゴリズムを使用してなされる。
HE―AAC(high efficiency AAC)符号化方式のような周波数領域オーディオ符号化方式は、AAC符号方式およびスペクトル帯域複製(SBR:spectral bandwidth replication)技術を組み合わせたものであるが、それはまた、「MPEGサラウンド」という専門用語の下で知られるジョイントステレオまたはマルチチャンネル符号化ツールにも組み合わすことができる。
その一方で、AMR―WB+のような音声符号器も、高周波強調ステージおよびステレオ機能性を有する。
周波数領域符号化方式は、それらが音楽信号には低ビットレートで高品質を示すという点で、有利である。しかし、低ビットレートでの音声信号の品質には、問題がある。
音声符号化方式は、音声信号には低ビットレートでさえ高品質を示すが、音楽信号には低ビットレートで低品質を示す。
3GPP TS 26.190 3GPP TS 26.290 「音声符号化:指導書概説」アンドレアス スパニアス、IEEE議事録、第82巻、No.10、1994年10月、ページ1541―1582("Speech Coding: A Tutorial Review", Andreas Spanias, Proceedings of the IEEE, Vol.82,No.10,October 1994, pages 1541−1582)
本発明の目的は、改良された符号化/復号化構想を提供することにある。
この目的は、請求項1に記載のオーディオ信号を符号化するための装置、請求項12に記載のオーディオ信号を符号化するための方法、請求項13に記載の符号化オーディオ信号を復号化する装置、請求項21に記載の符号化オーディオ信号を復号化する方法、または、請求項22に記載のコンピュータ・プログラムによって達成される。
本発明に記載の符号器において、2つの領域変換器が使用されており、第1の領域変換器は、例えば時間領域などの第1の領域から、例えばLPC領域などの第2の領域に、オーディオ信号を変換する。第2の領域変換器は、入力領域から出力領域に変換する働きをしている、そして、第2の領域変換器は、入力として、第1の領域変換器の出力信号または切り換え可能なバイパスの出力信号を受けとる。そして、そのバイパスは第1の領域変換器をバイパスするために接続される。換言すれば、これは、第2の領域変換器が、入力として、時間領域のような第1の領域のオーディオ信号、または、代わりに、第1の領域変換器の出力信号、すなわち、すでにある領域から違う領域に変換されたオーディオ信号を受けとることを意味する。第2の領域変換器の出力は第1の処理された信号を生成するために第1の処理装置によって処理され、そして、第1の領域変換器の出力は第2の処理された信号を生成するために第2の処理装置によって処理される。好ましくは、第2の処理装置への入力が第1の領域変換器の出力よりむしろ時間領域のオーディオ信号であるように、切り換え可能なバイパスは、さらに、同様に第2の処理装置と接続できる。
この極めて柔軟な符号化構想は、高品質および高ビット効率のオーディオ符号化に特に役立つ。これは、その構想がオーディオ信号を少なくとも3つの異なる領域において符号化することを可能にし、そして、その切り換え可能なバイパスが、さらに、第2の処理装置に同様に接続される時は、4つの領域においてさえ可能にするためである。このことは、時間領域オーディオ信号のある部分のための第1の領域変換器をバイパスまたは橋渡しするために、あるいは、そうしないために、その切り換え可能なバイパスに対し制御可能な切り換えを行なうことによって達成できる。第1の領域変換器がバイパスされる場合であっても、時間領域オーディオ信号を符号化するための2つの異なる可能性はまだ残っている。すなわち、第2の領域変換器に接続された第1の処理装置を経由するか、または、第2の処理装置を経由するかである。
好ましくは、第1の処理装置および第2の領域変換器は共に、MPEG 1 Layer 3またはMPEG 4(AAC)から知られる心理音響学的に駆動されるオーディオ符号器のような情報受信側モデル(information−sink model)の符号器を形作る。
好ましくは、他方の符号器、すなわち、第2の処理装置は、時間領域符号器であり、それは例えばACELP符号器から知られるような残差符号器である。そこでは、LPC残差信号が、例えばLPC残差信号または時間領域信号のためのベクトル量子化符号器のような残差符号器を使用して符号化される。実施形態において、バイパスが開いているとき、この時間領域符号器は、入力として、LPC領域信号を受ける。この種の符号器は情報源モデル(information source model)の符号器である。これは、情報源モデルの符号器が、情報受信側モデル(information sink model)の符号器とは対照的に、特に音声生成モデルの規定を利用するように設計されているためである。しかし、バイパスが閉じているときは、第2の処理装置への入力信号はLPC領域信号よりむしろ時間領域信号であるだろう。
しかし、切り換え可能なバイパスの動作が停止される場合、それは第1の領域からのオーディオ信号が更に処理される前に第2の領域に変換されることを意味するが、その場合、再び2つの異なる可能性が残る。すなわち、例えばLPC領域でありうる第2の領域にある第1の領域変換器の出力を符号化するか、あるいは、代わりに、例えばスペクトル領域でありうる第3の領域に、第2の領域信号を変換するかである。
都合のよいことに、スペクトル領域変換器、すなわち、第2の領域変換器は、第2の領域変換器への入力信号が例えば時間領域のような第1の領域にあるか、または、例えばLPC領域のような第2の領域にあるかどうかに関しては関係なく同じアルゴリズムを実行するように適合される。
復号器側では、2つの異なる復号化分岐があり、ひとつの復号化分岐は、領域変換器、すなわち第2の領域変換器を含み、一方で、その他を復号化分岐は、逆処理装置を含むだけで、領域変換器を含まない。符号器側での実際のバイパス設定、すなわち、そのバイパスが作動中だったかどうかに応じて、復号器の第1の変換器は、バイパスされるか否かとなる。特に、第2の変換器の出力がすでに、第1または時間領域のようなターゲット領域にあるとき、復号器の第1の変換器はバイパスされる。しかしながら、その復号器の第2の変換器の出力が第1の領域とは異なる領域にある場合、そのとき復号器のバイパスは動作を停止され、そして、その信号はその異なる領域からターゲット領域、すなわち、その好ましい実施形態において第1の領域に変換される。一実施形態において、第2の処理された信号は、同じ領域、すなわち、第2の領域にあるが、符号器側での切り換え可能なバイパスが第2の処理装置にも接続可能である他の実施形態において、復号器側の第2の逆処理装置の出力は同様に第1の領域にすでにあることが可能である。この場合、復号器の出力合成器が、オーディオ信号の異なる部分を示し、そして、同じ領域にある入力信号を受けとるように、第1の変換器は復号器側の切り換え可能なバイパスを使用してバイパスされる。これらの信号は、その合成器により時間多重化される、または、その復号器の出力合成器によってクロスフェードされることが可能である。
好ましい実施形態において、符号化のためのその装置は、入力信号を圧縮するための共通の前処理ステージを含む。すべての異なる符号化モードのための共通の前処理ステージの出力が共通の前処理ステージへの入力に関する圧縮バージョンであるように、この共通の前処理ステージはマルチチャンネル処理装置および/またはスペクトル帯域複製(spectral bandwidth replication)処理装置を含みうる。対応して、復号器側の合成器の出力信号は、例えば、スペクトル帯域複製合成、および/または、符号器側から復号器側へ送られるパラメータのマルチチャンネル情報を使用して好ましく導かれるマルチチャンネルのアップミックス(upmix)操作のようなマルチチャンネル拡張操作を実行する働きをしている共通の後処理ステージによって、後処理される。
好ましい実施形態において、符号器へ入力されるオーディオ信号と復号器により出力されるオーディオ信号のある第1の領域は、時間領域である。好ましい実施形態において、第1の領域変換器がLPC分析ステージであるように、第1の領域変換器の出力が置かれる第2の領域はLPC領域である。別の実施形態において、第3の領域、すなわち、第2の領域変換器の出力が置かれる領域は、スペクトル領域であるか、または、第1の領域変換器によって生成されるLPC領域信号のスペクトル領域である。第2の領域変換器と接続される第1の処理装置は、入力信号がスペクトル領域にあるかLPCスペクトル領域にあるかに関して関係なく同じ機能性を実行する、ハフマン符号器または算術符号器と接続される、心理音響的に駆動される量子化器などの、エントロピーを低減している符号を共にする量子化器/スケーラのような、情報受信側の符号器として好ましくは実行される。
別の好ましい実施形態において、第1の領域変換器の出力を処理するための、または、十分な機能の装置にある切り換え可能なバイパスの出力を処理するための第2の処理装置は、例えばACELP符号器において、または、他のいかなるCELP符号器において使用される残差信号符号器のような時間領域符号器である。
本発明の好ましい実施形態は、添付の図面に関して後に説明される。
図1aは、本発明の第1の態様に従う符号化方式のブロック図である。 図1bは、本発明の第1の態様に従う復号化方式のブロック図である。 図1cは、本発明の別の態様に従う符号化方式のブロック図である。 図1dは、本発明の別の態様に従う復号化方式のブロック図である。 図2aは、本発明の第2の態様に従う符号化方式のブロック図である。 図2bは、本発明の第2の態様に従う復号化方式の略図である。 図2cは、図2aの好ましい共通の前処理のブロック図である。 図2dは、図2bの好ましい共通の後処理のブロック図である。 図3aは、本発明の別の態様に従う符号化方式のブロック図を示す。 図3bは、本発明の別の態様に従う復号化方式のブロック図を示す。 図3cは、直列のスイッチを有した符号化装置/方法の略図を示す。 図3dは、直列の合成器が使用された復号化するための装置または方法の略図を示す。 図3eは、時間領域信号の図および両方の符号化信号に含まれる短いクロスフェード領域を示している符号化信号の対応する表現を示す。 図4aは、符号化の分岐の前に位置付けられたスイッチを有するブロック図を示す。 図4bは、その分岐を符号化した後に位置づけられたスイッチを有した符号化方式のブロック図を示す。 図4cは、好ましい合成器の実施形態のためのブロック図を示す。 図5aは、準周期的またはインパルス状の信号セグメントとしての時間領域音声セグメントの波形を示し、図5bは、図5aのセグメントのスペクトルを示す。 図5cは、ノイズ状の、または、定常のセグメントのための例として、無声音声の時間領域音声セグメントを示し、図5dは、図5cの時間領域波形のスペクトルを示す。 図6は、合成による分析CELP符号器のブロック図を示す。 図7aは、インパルス状のおよび定常の信号のための例として、有声/無声の励振信号を示す。 図7bは、インパルス状のおよび定常の信号のための例として、有声/無声の励振信号を示す。 図7cは、インパルス状のおよび定常の信号のための例として、有声/無声の励振信号を示す。 図7dは、インパルス状のおよび定常の信号のための例として、有声/無声の励振信号を示す。 図7eは、短期予測情報および予測誤差信号を供給する符号器側のLPCステージを示す。 図7fは、重み付けされた信号を生成するためのLPC装置の別の実施形態を示す。 図7gは、図2bの変換器537に必要とされる重み付けされた信号を逆重み付け操作とその後の励振解析を適用することによって励振信号に変換するための実施例を示す。 図8は、本発明の実施形態に従うジョイント・マルチチャンネル・アルゴリズムのブロック図を示す。 図9は、帯域拡張アルゴリズムの好ましい実施形態を示す。 図10aは、開ループ決定を実行するときのスイッチの詳細な説明を示す。 図10bは、閉ループ決定モードで作動するときのスイッチの図を示す。
図1aは、2つの領域変換器510、410および切り換え可能なバイパス50がある本発明の実施形態を示す。切り換え可能なバイパス50は、切り換え可能なバイパス50の切り換え制御入力への入力である制御信号51に応答として、アクティブまたは非アクティブに適合する。切り換え可能なバイパスがアクティブである場合、オーディオ信号入力99、195でのオーディオ信号は、第1の領域変換器510に送られず、第2の領域変換器410が入力99、195のオーディオ信号を直接受けとるように、切り換え可能なバイパス50に送られる。図1cおよび1dと関連して述べられることになる一実施形態において、切り換え可能なバイパス50の出力信号が第2の処理装置520のみを介して処理されるように、切り換え可能なバイパス50は、第2の領域変換器410に接続されずに、代わりに、第2の処理装置520に接続可能である。
しかし、切り換え可能なバイパス50が制御信号51によって非アクティブ状態に設定されている場合、オーディオ信号入力99または195のオーディオ信号は、第1の領域変換器510に入力されて、第1の領域変換器510の出力のオーディオ信号は、第2の領域変換器410または第2の処理装置520へ入力される。第1の領域変換器の出力信号が第2の領域変換器410か第2の処理装置520に入力されるかどうかに関する決定は、好ましくは、同様にスイッチ制御信号に基づいてなされるが、代わりに、メタデータのような他の手段を介して、または、信号解析に基づいてなされうる。あるいは、第1の領域変換器信号510は、装置410、520の両方に入力されることさえ可能であり、そして、その選択は、処理信号が特定の時間部分のオーディオ信号を示すために出力インターフェースに入力されるのだが、図4bと関連して述べられるように、処理装置および出力インターフェースとの間に接続されたスイッチを介してなされる。一方で、どちらの信号が出力データストリームに入力されるかに関する決定は、出力インターフェース800そのものの中でされることも可能である。
図1aに示されるように、入力99/195のオーディオ信号が第1の領域にある、その符号化オーディオ信号を得るために、オーディオ信号を符号化するための本発明の装置は、そのオーディオ信号を第1の領域から第2の領域に変換するための第1の領域変換器を含む。さらに、第1の領域変換器510をバイパスする、または、バイパス切り換え制御信号51に応答して第1の領域変換器によってオーディオ信号の変換を引き起こすための、切り換え可能なバイパス54は、供給される。このように、アクティブ状態では、切り換え可能なバイパスは、第1の領域変換器をバイパスする。そして、非アクティブ状態では、オーディオ信号は第1の領域変換器に入力される。
さらに、切り換え可能なバイパス50または第1の領域変換器から受けとられるオーディオ信号を第3の領域に変換するための第2の領域変換器410は、供給される。第3の領域は、第2の領域とは異なる。加えて、第1の処理された信号を得るために第1の符号化アルゴリズムに従う第3の領域のオーディオ信号を符号化するための第1の処理装置420は、供給される。さらに、第2の符号化アルゴリズムに従う第1の領域変換器から受けとられるオーディオ信号を符号化するための第2の処理装置520は、供給される。ここで、第2の符号化アルゴリズムは第1の符号化アルゴリズムとは異なる。第2の処理装置は、第2の処理された信号を供給する。特に、その装置は、そのオーディオ信号の一部のために、その出力の符号化オーディオ信号を有するように適合される。ここで、この符号化信号は第1の処理された信号または第2の処理された信号を含む。当然、クロスオーバー領域はありうるが、しかし、拡張符号化効率からみて、目標は、最大ビットレート圧縮が得られるように、そのクロスオーバー領域をできるだけ小さく保ち、可能ならばそれらを除去することである。
図1bは、好ましい実施形態の図1aの符号器に対応する復号器を示す。図1bの符号化オーディオ信号を復号化するためのその装置は、入力として、第3の領域にある第1の処理された信号と第2の領域にある第2の処理された信号を含む符号化オーディオ信号を受け取る。ここで、第2の領域と第3の領域は互いに異なる。特に、入力インターフェース900へ入力される信号は、図1aのインターフェース800からの出力に類似している。復号化するためのその装置は、第1の処理された信号を逆処理するための第1の逆処理装置430と第2の処理された信号を逆処理するための第2の逆処理装置530とを含む。加えて、第1の逆処理された信号を第3の領域から異なる領域に領域変換するための第2の変換器440は、供給される。加えて、第2の逆処理された信号を第1の領域に変換するための、あるいは、その異なる領域が第1の領域ではないときに第1の逆処理された信号を第1の領域に変換するための第1の変換器540は、供給される。これは、第1の処理された信号がすでに第1の領域にない、すなわち、前処理/後処理が一巡なされた場合に復号化オーディオ信号または中間のオーディオ信号があるはずのターゲット領域にないときに、第1の逆処理された信号が第1の変換器によって変換されるだけであることを意味する。さらに、その異なる領域が第1の領域であるときにその復号器は第1の変換器540をバイパスするためのバイパス52を含む。図1bの回路はさらに、第1の変換器540の出力とバイパス出力、すなわち、合成された復号化オーディオ信号699を得るためにバイパス52によって出力された信号を合成するための合成器600を含み、その信号はその通りに使用されうるし、あるいは、共通の後処理ステージを使用して解凍されさえしうる。そして、そのことは後ほど述べられる。
図1cは、心理音響モデルの信号分類器300がMPEGサラウンド(Surround)符号器101および拡張スペクトル帯域複製(enhanced spectral band replication)処理装置102によって形成された共通の前処理ステージに入力されたオーディオ信号を分類するために供給された本発明のオーディオ符号器の好ましい実施形態を示す。さらに、第1の領域変換器510は、LPC分析ステージであり、そして、切り換え可能なバイパスは、第1の領域変換器であるLPC分析ステージ510の入力と出力の間に接続される。
LPC装置は一般にLPC領域信号を出力する。そして、その信号は図7eの励振信号または図7fの重み付けされた信号または他の信号のようなLPC領域のいかなる信号でもありうる。そして、それはLPCフィルタ係数をオーディオ信号に適用することによって生成されたものである。さらにまた、LPC装置は、これらの係数を決定も可能であり、そしてまた、これらの係数を量子化/符号化も可能である。
加えて、バイパス50およびLPCステージ510の共通の出力の信号が第1の符号化分岐400または第2の符号化分岐500に送られるように、スイッチ200は第1の領域変換器の出力に供給される。第1の符号化分岐400は、図1aの第2の領域変換器410および第1の処理装置420を含み、第2の符号化分岐500は、図1aの第2の処理装置520を含む。図1cの符号器の実施形態において、第1の領域変換器510の入力は切り換え可能なバイパス50の入力と接続され、そして、切り換え可能なバイパス50の出力は共通出力を形成するために第1の領域変換器510の出力と接続され、そして、この共通出力は、スイッチが2つの出力を含むスイッチ200への入力であるが、そのスイッチは追加の符号化処理装置のための追加の出力を含むことさえありうる。
好ましくは、第1の符号化分岐400の第2の領域変換器410は修正離散コサイン変換(MDCT)を含む。そして、それは、加えて、切り換え可能なタイムワープ(TW:time warp)機能と結びつく。MDCTスペクトルはスカラー/量子化器を使用して符号化される。そして、それは信号分類器ブロック300の中で位置付けされる心理音響的なモデルから供給される情報に基づいて入力値の量子化を実行する。一方で、第2の処理装置は、入力信号を時間領域符号化するための時間領域符号器を含む。一実施形態において、アクティブな/閉じたバイパス50の場合に、スイッチ200は自動的に上の方の符号化分岐に設定されるように、スイッチ200は制御される。しかし、別の実施形態において、時間領域符号器520が時間領域オーディオ入力信号を直接受けることができるようにバイパスがアクティブな/閉じたときでも、スイッチ200は切り換え可能なバイパス50と独立して制御されもする。
図1dは、LPC合成ブロック540が図1bの第1の変換器に対応し、バイパス52を介してバイパスされることが可能である対応する復号器を示す。そして、そのバイパスは好ましくは、ビットストリーム・デマルチプレクサ900によって生成されるバイパス信号により制御される切り換え可能なバイパスである。ビットストリーム・デマルチプレクサ900は、この信号、および、入力ビットストリーム899からの符号化分岐430、530またはSBR(スペクトル帯域複製:spectral band replication)合成ブロック701またはMPEGサラウンド復号器ブロック702のための他の全ての制御信号を生成しうるか、または、信号解析または他の分離した情報源からのこれらの制御線のためのデータを受けとりうる。
続いて、符号器のための図1cおよび復号器のための図1dの実施形態のより詳細な説明が与えられる。
その好ましい実施形態は、成功した音声符号器技術を有するAAC、SBRおよびMPEGサラウンドのような成功したMPEG技術の強みを組み合わせたハイブリッドオーディオ符号器から成る。結果として生じる符復号化は、すべての信号カテゴリのための共通の前処理を含み、そして、それは、MPEGサラウンドとeSBR(拡張スペクトル帯域複製:enhanced SBR)から成る。心理音響モデルによって、そして、信号カテゴリに基づいて制御されて、情報受信側または情報源側から派生した符号器アーキテクチャは、フレームごとベースで選択される。
提案された符復号化は、MPEGサラウンド、SBRのような符号化ツールやAACベース符号器を有利に使用する。これらは、音声のための、そして、極めて低いビットレートでの機能を改善するために、変更および拡張を受けた。より高いビットレートで、新規な符復号化がAACに非常に近いモードに後退することができるように、そのAACの機能は少なくとも整合される。平均してわずかにより良いノイズレス符号化機能を供給する拡張ノイズレス符号化モードは実行される。さらに約32kbps以下のビットレートのために、追加のツールは、音声および他の信号のためのそのベース符号器の機能を改善するために作動する。これらのツールの主要構成要素は、LPCベースの周波数成形と、MDCTベースの符号器および時間領域符号器のためのより多くの他のウィンドウ長さオプションである。新しい帯域拡張技術は、低いクロスオーバー周波数に、そして、音声のためにより適しているSBRツールに対する拡張として使用される。MPEGサラウンドツールは、ダウンミックスおよびパラメータ化されたステレオイメージを供給することによって、ステレオまたはマルチチャンネル信号のパラメータ表示を供給する。与えられた試験項目のために、それは、ステレオ信号だけを符号化するために使用されるが、MPEG―Dから現存のMPEGサラウンド機能を利用することによって、マルチチャンネル入力信号にも適している。
MDCT符号器を除く符復号化チェーンにおけるすべてのツールは、低ビットレートでのみ好ましくは使用される。
MPEGサラウンド技術は、M個のオーディオ伝送路を介してN個のオーディオ入力チャンネルを送信するために使用される。このように、そのシステムは、本来的にマルチチャンネルが利用可能である。そのMPEGサラウンド技術は、低ビットレートで、そして、音声のような信号のために、その機能を増加させるために、拡張を受けた。
基本的な運転モードは、ステレオ入力信号からの高品質のモノラルダウンミックスの作成である。加えて、一組の空間パラメータは、抽出される。復号器側では、ステレオ出力信号は、抽出され送信された空間パラメータと結合して、復号化されたモノラルのダウンミックスを使用して発生する。低ビットレート2―1―2モードは、MPEGサラウンドの現存の5―x―5または7―x―7の動作点(operating point)に追加され、MPEGサラウンドのアップミックスにおける単一のOTT(one−to−two)ボックスからなる単純なツリー構造を使用している。構成部品のいくつかは、音声再生により良く適合するために修正を受けた。例えば64kbps以上のようなより高いデータ転送速度のために、コア符号は別々のステレオ符号化(中央/サイドまたはL/R)を使用しており、MPEGサラウンドは、この動作点に関して使用されない。
この技術提案において提案される帯域拡張は、MPEG SBR(スペクトル帯域複製:spectral band replication)技術に基づく。使用されるフィルタバンクは、MPEGサラウンドおよびSBRのQMFフィルタバンクと同一である。そして、そのフィルタバンクは、追加の合成/分析なしで、QMF領域サンプルをMPEGサラウンドとSBRの間で共有するという可能性を提供する。標準化されたSBRツールと比較して、eSBRは、音声およびオーディオコンテンツに最適である拡張処理アルゴリズムを導入する。SBRに対する拡張は含まれ、そして、それは極めて低いビットレートおよび低いクロスオーバー周波数により適している。
SBRとAACの組み合わせから知られるように、この機能は全体的に停止させることが可能であり、コア符号器に全周波数範囲の符号化を任せることができる。
提案されたシステムのコア符号器部分は、任意のLPCフィルタと切り換え可能な周波数領域/時間領域コア符号器の組み合わせとして見ることができる。
音声符号器のアーキテクチャから知られるように、LPCフィルタは人の話し言葉のソースモデルの基礎を供給する。LPC処理は、全体的に、または、フレームごとベースで、動作可能にも操作不可(バイパスされること)にもできる。
LPCフィルタの後に続いて、LPC領域信号は、時間領域または周波数領域符号化アーキテクチャを基にした変換を使用して符号化される。これらの2つの分岐の間の切り換えは、拡張された心理音響モデルによって制御される。
時間領域符号器のアーキテクチャは、ACELP技術に基づいており、低ビットレートで特に音声信号のための最適な符号化機能を供給する。
周波数領域ベースの符復号化分岐は、スカラー量子化器およびエントロピー符号化を有するMDCTアーキテクチャに基づく。
任意選択で、タイムワーピング(time−warping)ツールは、より簡潔な信号表現によってより高いビットレート(例えば64kbps以上)で音声信号のための符号化効率を高めるのに利用できる。
MDCTベースのアーキテクチャは、現存のMPEG技術から知られるようにトランスペアレントに良品質を低いビットレートおよびスケールで届ける。それは、より高いビットレートでAACモードに収束することができる。
バッファの必要条件はAACと同一である。すなわち、入力バッファにおける最大ビット数は、コア符号器のチャンネルにつき6144であり、つまり、モノラルチャンネル要素につき6144ビットであり、ステレオチャンネル要素につき12288ビットである。
ビットリザーバー(bit reservoir)は、符号器で制御され、それは現在のビット需要に符号化処理を適合することを可能にする。ビットリザーバーの特性は、AACと同一である。
符号器および復号器は、12kbpsのモノラルと64kpbsステレオとの間で異なるビットレートで動作する制御が可能である。
復号器の煩雑性は、PCUの観点で特定される。ベース復号器のために、約11.7PCUという煩雑性が必要である。タイムワーピング(time−warping)ツールが使用される場合、64kbpsのテストモードに関しては、復号器の煩雑性は22.2PCUに増加される。
好ましいステレオ復号器のRAMとROMの要件は、以下の通りである。
RAM: 〜24 kWords
ROM: 〜150 kWords
エントロピー符号器に通知することによって、全体でたった98kWordsまでのROMサイズを得ることができる。
タイムワーピング(time−warping)ツールが使用される場合、RAMの要求は、3kWords以内で増加して、ROMの要求は、40kWords以内で増加する。
理論上のアルゴリズム遅延は、符復号化チェーン(例、MPEGサラウンドなど)において使用されるツールに依存している。提案された技術のアルゴリズム遅延は、その符復号化サンプリングレートで動作点ごとに示される。以下の値は、フレーミングディレイ(framig delay)、すなわち、符号器の入力バッファを第1のフレームを処理するために必要なサンプル数で満たすために必要とされる遅延を含まない。このフレーミングディレイ(framig delay)は、すべての指定された動作モードのための2048のサンプルである。
次のテーブルは、最小のアルゴリズム遅延と使用された実施例のための遅延の両方を含む。符復号化のサンプリングレートに48kHzの入力PCMファイルを再標本化する付加的な遅延は、『()』に記入される。
Figure 2011528129
この符復号化の主な特性は、以下のようにまとめることができる。
提案された技術は、音声または音楽コンテンツを符号化ための機能を犠牲にせずに、都合よく最新技術の音声およびオーディオ符号化技術を使用する。このことは、結果として、超低速(12kbps)で始まり、128kbps以上のような、その符復号化がトランスパレントな品質に達する高データ速度まで上がっていくビットレート範囲のための、音声や音楽、そして混合されたコンテンツのための最新技術の品質を提供することを可能とする符復号化が生じさせる。
モノラル信号、ステレオ信号またはマルチチャンネル信号は、図2aの共通の前処理ステージ100に入力される。その共通の前処理方式は、ジョイントステレオ機能、サラウンド機能および/または帯域拡張機能を有しうる。ブロック100の出力には、1組のバイパス50および変換器510またはこの種のマルチプルセットへ入力される、モノラルチャンネル、ステレオチャンネルまたはマルチプルチャンネルがある。
ステージ100が2個以上の出力を有するとき、すなわち、ステージ100がステレオ信号またはマルチチャンネル信号を出力するとき、バイパス50および変換器510のセットは、ステージ100のそれぞれの出力のために存在することができる。模範として、ステレオ信号の第1のチャンネルは音声チャンネルでありうる。そして、ステレオ信号の第2のチャンネルは音楽チャンネルでありうる。この状況では、決定ステージでのその決定は、同じ瞬間の2つのチャンネルの間で異なることがありうる。
バイパス50は、決定ステージ300によって制御される。決定ステージは、入力として、ブロック100に入力される信号またはブロック100によって出力される信号を受けとる。あるいは、決定ステージ300はモノラル信号、ステレオ信号またはマルチチャンネル信号に含まれるか、または、この種の信号に少なくとも関連する補助情報を受けうる。ここで、情報が存在しており、それは、例えば、モノラル信号、ステレオ信号またはマルチチャンネル信号を生み出すときに最初に生成されたものである。
一実施形態において、決定ステージは前処理ステージ100を制御せず、そして、ブロック300および100の間の矢印は存在しない。別の実施形態において、ブロック100での処理は、決定ステージ300によって、その決定に基づいてブロック100の一つ以上のパラメータをセットするために、ある程度制御される。しかし、このことは、ブロック100の主機能がステージ300の決定に関係なくアクティブであるように、ブロック100における一般のアルゴリズムに影響を与えないだろう。
決定ステージ300は、図1aの上の方の分岐で示される周波数符号化部分400に、または、図2aの下のほうの分岐で示され、要素510、520を有する第2の符号化部分500の部分でありうるLPC領域変換器510に、共通の前処理ステージの出力を送るために、バイパス50を作動させる。
一実施形態において、そのバイパスは、単一の領域変換器をバイパスする。別の実施形態において、例えば第3の符号化分岐またはさらに第4の符号化分岐、さらに多くの符号化分岐のような異なる符号化分岐のための追加の領域変換器がありうる。3つの符号化分岐を有する実施形態において、第3の符号化分岐は、第2の符号化分岐に類似している可能性があるが、第2の分岐500の励振符号器520とは異なる励振符号器を含みうる。この実施形態において、第2の分岐はLPCステージ510および例えばACELPにあるようなコードブックベースの励振符号器を含み、そして、第3の分岐はLPCステージおよびLPCステージの出力信号のスペクトル表現で作動している励振符号器を含む。
周波数領域の符号化分岐の主要な要素は、共通の前処理ステージの出力信号をスペクトル領域に変換する働きをしているスペクトル変換ブロック410である。そのスペクトル変換ブロックは、MDCTアルゴリズム、または、QMF、FFTアルゴリズム、ウェーブレット(Wavelet)解析、一定数のフィルタバンクチャンネルを有する臨界サンプリング(critically sampled)フィルタバンクのようなフィルタバンクを含みうる。ここで、このフィルタバンクのサブバンド信号は実数値信号または複素信号でもありうる。スペクトル変換ブロック410の出力は、スペクトルオーディオ符号器420を使用して符号化される。そして、それはAAC符号化体系から知られるような処理ブロックを含みうる。
下方の符号化分岐500において、主要な要素は、この実施形態においては領域変換機510であり、そして、2種類の信号を出力する、LPC510のようなソースモデル分析器である。1つの信号は、LPC合成フィルタのフィルタ特性を制御するために使用されるLPC情報信号である。このLPC情報は、復号器に送られる。その他のLPCステージ510の出力信号は、励振信号またはLPC領域信号である。そして、それは励振符号器520に入力される。励振符号器520は、CELP符号器、ACELP符号器またはLPC領域信号を処理するその他の符号器のようなソースフィルタ型符号器からくることがありうる。
他の好ましい励振符号器の実施例は、励振信号またはLPC領域信号の変換符号化である。この実施形態において、励振信号はACELPコードブック機構を使用しての符号化はされず、励振信号はスペクトル表現に変換され、そして、フィルタバンクの場合におけるサブバンド信号またはFFTのような変換の場合における周波数係数のようなスペクトル表現の値は、データ圧縮を得るために符号化される。この種の励振符号器の実施例は、AMR―WB+から知られるTCX符号化モードである。このモードは、LPCステージ510の出力をスペクトル変換器410に接続することによって得られる。3GPP TS 26.290から知られるようなTCXモードは、変換領域において知覚的に重み付けされた信号の処理を生じさせる。フーリエ変換され重み付けされた信号は、ノイズ・ファクター量子化を有するスプリットマルチレート(split multi−rate)格子量子化(代数VQ(ベクトル量子化))を使用して量子化される。変換は、1024、512または、256のサンプルの窓において算出される。励振信号は、逆重み付けフィルタを介して、量子化され重み付けされた信号を逆フィルタリングすることで回復される。
図1aまたは図1cにおいて、LPCブロック510の後にACELPブロックでありうる時間領域符号器、または、TCXブロック527でありうる変換領域符号器が続く。ACELPは3GPP TS 26.190において説明され、そして、TCXは3GPP TS 26.290において説明される。通常、ACELPブロックは、図7eにて説明されるような手順によって算出されたようなLPC励振信号を受ける。TCXブロック527は、図7fによって生成されるような重み付けされた信号を受ける。
Figure 2011528129
Figure 2011528129
項目510は単一のブロックを示すが、ブロック510は、異なる信号を、これらの信号がLPC領域にある限り、出力することができる。励振信号モードまたは重み付けされた信号モードのようなブロック510の作動モードは、作動スイッチ状態によることが可能である。あるいは、ブロック510は2つの並列処理装置を有することが可能であり、ここで、一方の装置は図7eと類似して実施され、もう一方の装置は図7fとして実施される。それ故、510の出力のLPC領域は、LPC励振信号またはLPCの重み付けされた信号またはその他のLPC領域信号を表示することが可能である。
Figure 2011528129
Figure 2011528129
決定ステージでの決定は、決定ステージが音楽/音声の区別をし、バイパス50を、および、もしあるなら、図1cのスイッチ200を音楽信号が上方の分岐400に入力され、音声信号が下方の分岐500に入力されるような方法で制御するように、信号を適合しうる。一実施形態において、その決定ステージは、復号器が正しい復号演算を実行するためにこの決定情報を使用することができるように、出力ビットストリームへその決定情報を送っている。
この種の復号器は、図2bにおいて示される。スペクトルオーディオ符号器420により出力された信号は、送信後、スペクトルオーディオ復号器430に入力される。スペクトルオーディオ復号器430の出力は、時間領域変換器440に入力される。類似して、図2aの励振符号器520の出力は、LPC領域信号を出力する励振復号器530に入力される。LPC領域信号は、LPC合成ステージ540に入力される。そして、それは、別の入力として、対応するLPC分析ステージ510によって生成されるLPC情報を受けとる。時間領域変換器440の出力および/またはLPC合成ステージ540の出力は、切り換え可能なバイパス52に入力される。そのバイパス52は、例えば、決定ステージ300によって生成された、または、例えば最初のモノラル信号、ステレオ信号またはマルチチャンネル信号をつくったものによって外部から供給された、バイパス制御信号を介して制御される。
バイパス540またはステージ540の出力は、合成器600に入力されるものであり、後に共通の後処理ステージ700に入力される完全なモノラル信号である。そして、その後処理ステージは、ジョイントステレオ処理または帯域拡張処理などを実行しうる。共通の後処理ステージの特定の機能によって、モノラル信号、ステレオ信号またはマルチチャンネル信号は、出力される。そして、その出力は共通の後処理ステージ700が帯域拡張処理を実行するとき、ブロック700へ入力される信号より大きな帯域幅を有する。
一実施形態において、バイパス52は、一つの変換器540をバイパスするのに適合される。別の実施形態において、例えば第3の復号化分岐、または、さらに第4の復号化分岐またはさらに多くの復号化分岐のような追加の復号化分岐を定めている追加の変換器がありうる。3つの復号化分岐を有する実施形態において、第3の復号化分岐は、第2の復号化分岐と類似しうるが、第2の分岐530、540における励振復号器530とは異なる励振復号器を含みうる。この実施形態において、第2の分岐はLPCステージ540とACELPにあるようなコードブックベースの励振復号器を含み、そして、第3の分岐はLPCステージおよびLPCステージ540出力のスペクトル表現で作動している励振復号器を含む。
前に述べたように、図2cは本発明の第二態様に従う好ましい符号化方式を示す。図1aの100における共通の前処理方式は、ここで、出力として、ジョイントステレオパラメータおよび二つ以上のチャンネルを有する信号である入力信号をダウンミックスすることによって生成されるモノラル出力信号を生成するサラウンド/ジョイントステレオのブロック101を含む。通常、ブロック101の出力の信号は、より多くのチャンネルを有する信号でもありうる。しかし、ブロック101のダウンミックス機能のため、ブロック101の出力のチャンネル数はブロック101に入力されるチャンネル数より小さくなるだろう。
ブロック101の出力は、図2cの符号器において、例えばその出力の低帯域信号またはローパス信号のような帯域制限された信号を出力する帯域拡張ブロック102に入力される。さらにまた、ブロックに102に入力される信号の高帯域のために、MPEG―4のHE―AACプロファイルから知られるようなスペクトル包絡パラメータ、逆フィルタリングパラメータ、暗騒音パラメータなどの、帯域拡張パラメータが生成され、ビットストリーム・マルチプレクサ800に送られる。
好ましくは、決定ステージ300は、例えば音楽モードかまたは音声モードかを決定するために、ブロック101に入力される、または、ブロック102に入力される信号を受け取る。音楽モードにおいては、上方の符号化分岐400は選択され、一方、音声モードにおいては、下方の符号化分岐500は選択される。好ましくは、決定ステージは、加えて、ジョイントステレオブロック101および/または帯域拡張ブロック102を、これらのブロックの機能を特定の信号に適合するように制御する。このように、決定ステージが、入力信号のある時間部分が音楽モードのような第1モードにあることを決定するとき、ブロック101および/またはブロック102の特定の機能を決定ステージ300によって制御することができる。あるいは、決定ステージ300が、その信号が音声モードにあること、または、通常、LPC領域符号化モードにあることを決定するとき、そのときブロック101および102の特定の機能を決定ステージの出力に従って制御することができる。
スイッチ200の入力信号から、または、ステージ200に入力される信号の基礎をなしている元のオーディオ信号を生成するもののようないかなる外部ソースから得られうる、スイッチの決定に応じて、そのスイッチは、周波数符号化分岐400およびLPC符号化分岐500との間で切り換わる。周波数符号化分岐400は、スペクトル変換ステージとその後接続される量子化/符号化ステージを含む。量子化/符号化ステージは、AAC符号器のような現代の周波数領域符号器から知られるようなあらゆる機能を含むことができる。さらに、周波数における心理音響的なマスキング閾値のような心理音響的な情報を生成する心理音響的なモジュールを介して量子化/符号化ステージにおける量子化演算を制御することができ、ここで、この情報はそのステージに入力される。
好ましくは、スペクトル変換は、MDCT演算、さらにより好ましくは、タイムワープ処理MDCT(TW−MDCT:time−warped MDCT)演算であるMDCT演算を使用してなされる。ここで、強度、または、一般には、ワープ強度は、ゼロおよび高いワープ強度との間で制御が可能である。ワープ強度がゼロのとき、図1cのブロック400のMDCT演算は、従来技術において周知の正攻法のMDCT演算である。タイムワープの補助情報を伴ったタイムワープ強度は、補助情報としてビットストリーム・マルチプレクサ800に、送信/入力が可能である。従って、タイムワープ処理MDCT(TW―MDCT)が使用される場合、タイムワープ補助情報は、図1cの424で示されるようにビットストリームに送信されるはずであり、そして、復号器側では、タイムワープ補助情報は、図1dの項目434で示されるように、ビットストリームから受けとられるはずである。
LPC符号化分岐において、LPC領域符号器は、ピッチゲイン、ピッチラグおよび/または例えばコードブック・インデックスやコードゲインのようなコードブック情報を算出しているACELPコアを含みうる。
第1の符号化分岐400において、スペクトル変換器は、好ましくは、ベクトル量子化ステージでありうる量子化/エントロピー符号化ステージが後に続く特定の窓関数を有する特別に構成されたMDCT演算を含むが、好ましくは周波数領域符号化分岐の量子化器/符号器に類似した量子化器/符号器である。
図2dは、図2cの符号化方式に対応する復号化方式を示す。ビットストリーム・マルチプレクサによって生成されるビットストリームは、ビットストリーム・デマルチプレクサに入力される。例えばモード検出ブロックを介してビットストリームから引き出される情報に応じて、復号器側のスイッチは、帯域拡張ブロック701に、上方の分岐から信号を送るか、または、下方の分岐から信号を送るかするために制御される。帯域拡張ブロック701は、ビットストリーム・デマルチプレクサから、補助情報を受けとり、そして、この補助情報およびモード決定の出力に基づいて、例えば図1dの合成器600によって出力された低帯域に基づいた高帯域を再構築する。
ブロック701によって生成される全帯域信号は、ジョイントステレオ/サラウンド処理ステージ702に入力される。そして、そのステージは2本のステレオチャンネルまたはいくつかのマルチチャンネルを再構築する。通常、ブロック702は、このブロックへ入力されたものより多くのチャンネルを出力する。用途に応じて、ブロック702への入力は、例えばステレオモードのような2本のチャンネルを含みさえするし、このブロックによる出力がこのブロックへの入力より多くのチャンネルを有しさえすれば、より多くのチャンネルを含みさえする。
図1cのスイッチ200は、図4aにおいて一般に示すように、1つの分岐だけが処理すべき信号を受けとり、そして、その他の分岐は処理すべき信号を受けとらないように、両分岐との間で切り換わるように示されている。しかし、図4bにおいて示される他の実施形態において、そのスイッチは、例えばオーディオ符号器420や励振符号器520の後に配置されることもある。そして、それは両分岐400、500が平行に同じ信号を処理することを意味する。しかし、ビットレートを倍にしないように、それら符号化分岐400または500のうちの1つによって出力される信号のみ、出力ビットストリームに含められるように選択される。その決定ステージは、そのビットストリームに含められる信号が特定のコスト関数を最小化するように作動するだろう。ここで、そのコスト関数は生成されたビットレートまたは生成された知覚歪みまたは合成されたレート/歪みのコスト関数でありえる。従って、このモードか、または、図に示されるモードにおいて、決定ステージは、最終的に符号化分岐出力だけが、一定の知覚歪みのために最低ビットレートを有する、または一定のビットレートのために最低の知覚歪みを有することを確認するために、閉ループモードで作動することも可能である。
通常、分岐400における処理は、知覚ベースモデルのまたは情報受信側モデルの処理である。このように、この分岐は、音を受けとるヒトの聴覚系のモデルを作る。それとは反対に、分岐500の処理は励振、残差またはLPC領域における信号を生成することである。通常、分岐500の処理は、音声モデルまたは情報生成モデルの処理である。音声信号のために、このモデルは、音を生成している人の話し言葉/音の生成システムのモデルである。しかし、異なる音生成モデルを必要としている異なるソースからの音が符号化されることになっている場合、分岐500における処理は異なることもありうる。
図1aから4cまでは、装置のブロック図として示されているが、これらの図は同時に方法の図であり、ここで、そのブロックの機能は、その方法のステップに対応する。
図3cは、オーディオ入力信号195を符号化するためのオーディオ符号器を示す。オーディオ入力信号195は、例えば時間領域でありうるし、しかし、例えば周波数領域、LCP領域、LPCスペクトル領域またはその他の領域のような他のいかなる領域でもありうる第1の領域に存在する。通常、1つの領域からその他の領域への変換は、よく知られた時間/周波数変換アルゴリズムまたは周波数/時間変換アルゴリズムのいずれかのような変換アルゴリズムの一種によって実行される。
時間領域から例えばLPCの領域への他の変換は、結果としてLPC残差信号または励振信号、または他のLPC領域信号を生じさせる時間領域信号に対しLPCベースのフィルタリングを行なった結果である。その変換前に相当な数の信号サンプルに影響を及ぼすフィルタ処理信号を生じさせている他のいかなるフィルタリング操作も、場合によっては変換アルゴリズムとして使用することができる。従って、LPCベースの重み付けフィルタを使用したオーディオ信号の重み付けは、LPC領域の信号を生成する別の変換である。時間/周波数変換において、単一のスペクトル値の修正は、その変換前、すべての時間領域値に影響を及ぼす。類似して、いかなる時間領域サンプルの修正も、各周波数領域サンプルに影響を及ぼすだろう。同様に、LPC領域状況における励振信号のサンプルの修正は、LPCフィルタの長さのため、LPCフィルタリングの前に相当な数のサンプルに、影響を及ぼす。同様に、LPC変換の前のサンプルの修正は、LPCフィルタの固有のメモリー効果により、このLPC変換によって得られた多くのサンプルに、影響を及ぼす。
図3cのオーディオ符号器は、第1の符号化信号を生成する第1の符号化分岐522を含む。この第1の符号化信号は、好ましい実施形態において、時間スペクトル領域、すなわち、時間領域信号が時間/周波数変換を介して処理されるときに得られる領域である第4の領域にありうる。
従って、オーディオ信号を符号化するための第1の符号化分岐522は、第1の符号化信号を得るために第1の符号化アルゴリズムを使用する。ここで、この第1の符号化アルゴリズムは時間/周波数変換アルゴリズムを含むときも。
さらに、オーディオ符号器は、オーディオ信号を符号化するための第2の符号化分岐523を含む。第2の符号化分岐523は第2の符号化信号を得るために、第1の符号化アルゴリズムとは異なる第2の符号化アルゴリズムを使用する。
そのオーディオ符号器は、さらに、一部のオーディオ入力信号のために、ブロック522の出力の第1の符号化信号か第2の符号化分岐の出力の第2の符号化信号が符号器の出力信号に含まれるように、第1の符号化分岐522と第2の符号化分岐523、524との間で切り換えるための第1のスイッチ521を含む。このように、オーディオ入力信号195のある部分のために、第4の領域の第1の符号化信号がその符号器の出力信号に含まれるとき、第2の領域の第1の処理された信号かまたは第3の領域の第2の処理された信号である第2の符号化信号は、その符号器の出力信号に含まれない。このことは、確実にこの符号器がビットレート効率がよいようにする。実施形態において、図3eと関連して述べられることになるが、2つの異なる符号化信号に含まれるオーディオ信号のいかなる時間部分もワンフレームのフレーム長と比較して小さい。これらの小部分は、クロスフェードせずに起こりうるアーチファクトを低減させるために、スイッチ事象の場合、1つの符号化信号からその他の符号化信号へのクロスフェードに役立つ。従って、クロスフェード領域は別にして、各時間領域ブロックは、単一の領域のみの符号化信号によって示される。
図3cに示されるように、第2の符号化分岐523は、第1の領域のオーディオ信号、すなわち、信号195を第2の領域に変換するための変換器521、および、バイパス50の後に続く。さらにまた、第1の処理分岐522は、好ましくは第1の処理分岐522が領域変更を実行しないように第2の領域にある、または、第1の領域にある、第1の処理された信号を得る。
第2の符号化分岐523、524は、オーディオ信号を、第2の処理分岐523、524の出力で第2の処理された信号を得るために、第1の領域とは異なり、また、第2の領域とも異なる第3の領域または第4の領域に変換する。
さらにまた、その符号器は、第1の処理分岐522と第2の処理分岐523、524との間で切り換えるためのスイッチ521を含む。ここで、このスイッチは図1cのスイッチ200に対応する。
図3dは、図3cの符号器によって生成される符号化オーディオ信号を復号化するための対応する復号器を示す。通常、第1の領域オーディオ信号の各ブロックは、第2または第1の領域信号か、または、好ましくはできる限り臨界サンプリング(critical sampling)の境界にあるシステムを得るために1フレームの長さと比較して短い、任意のクロスフェード領域とは別の第3または第4の領域の符号化信号によって示される。符号化オーディオ信号は、第1の符号化信号、第2の符号化信号を含む。ここにおいて、第1の符号化信号、第2の符号化信号は復号化オーディオ信号とは異なる時間部分に関わり、そして、復号化オーディオ信号のための第2の領域、第3の領域および第1の領域は互いに異なる。
その復号器は、第1の符号化アルゴリズムに基づく復号化するための第1の復号化分岐を含む。第1の復号化分岐は、図3dの531で示される。
図3dの復号器は、さらに、いくつかの要素を含む第2の復号化分岐533、534を含む。
さらに、その復号器は、第1または第2の領域の信号を得るために第1の逆処理された信号および第2の逆処理された信号を合成するための第1の合成器532を含む。ここで、この合成信号は、最初の時間で、第1の逆処理された信号によって影響を受けるのみであり、あとの時間で、第2の逆処理された信号によって影響を受けるのみである。
さらに、その復号器は、その合成信号を第1の領域に変換するための変換器540と切り換え可能なバイパス52とを含む。
最後に、図3dにおいて示される復号器は、第1の領域の復号化された信号を得るために、バイパス52からの復号化された第1の信号と変換器540の出力信号を合成するための第2の合成器600を含む。また、第1の領域の復号化出力信号は、第1の時間で、変換器540により出力された信号によって影響を受けるのみであり、あとの時間では、バイパスされた信号により影響を受けるのみである。
この状況は、符号器の視点から、図3eにおいて示される。図3eの上部分は、略図で、時間領域のオーディオ信号のような第1の領域のオーディオ信号を示す。ここで、時間インデックスは左から右に増加し、そして、項目3は図3cの信号195を示しているオーディオサンプルのストリームとみなされうる。図3eは、図3eの項目4で示すように、第1の符号化信号と第2の符号化信号との間で切り換わることによって生成されうるフレーム3a、3b、3c、3dを示す。第1の符号化信号および第2の符号化信号は、完全に異なる領域にある。異なる領域間の切り換えが結果として復号器側でアーチファクトを生じさせないことを確実にするために、時間領域信号のフレーム3a、3b、3c、…は、クロスフェード領域として示されるオーバーラップ範囲を有する。しかし、この種のクロスフェード領域は、フレーム3d、3c間には存在していない。それは、フレーム3dもまた、先の信号3cと同じ領域にある信号によって示されることもあり、そうすればフレーム3cおよび3dの間での領域変化はないことを意味する。
従って、通常、好まれるのは、領域変化がないクロスフェード領域を供給しないことであり、そして、クロスフェード領域、すなわち、領域変化すなわち2つの切り換えのどちらかの切り換え動作があるとき、2つのその後の符号化/処理された信号によって符号化される一部のオーディオ信号を供給することである。
第1の符号化信号または第2の処理された信号が例えば50パーセントのオーバーラップを有しているMDCT処理により生成された、その実施形態において、各時間領域サンプルは、2つのその後のフレームに含まれる。しかし、MDCTの特性のため、このことは、結果としてオーバーヘッドをもたらさない。これは、MDCTが臨界サンプリング(critically sampled)システムであるからである。この文脈において、臨界サンプリング(critically sampled)とは、スペクトル値の数が時間領域値の数と同じであることを意味する。MDCTは、MDCTブロックから次のMDCTブロックへのクロスオーバーが臨界サンプリング(critically sampled)の要件に違反するであろうオーバーヘッドなしで供給されるように、クロスオーバー効果が特定のクロスオーバーの領域なしで供給されるという点で、有利である。
好ましくは、第1の符号化分岐の第1の符号化アルゴリズムは情報受信側モデルに基づき、そして、第2の符号化分岐の第2の符号化アルゴリズムは情報源またはSNRモデルに基づく。SNRモデルは、特定の音生成メカニズムに特に関連はないが、例えば閉ループ決定に基づく複数の符号化モードの中で選択されることができる1つの符号化モードであるモデルである。このように、SNRモデルは利用可能な符号化モデルであるが、音生成の物理的な構成に関わる必要はなく、情報受信側モデルとは異なるパラメータ化された符号化モデルであり、そして、それは閉ループ決定によって選択されることが可能で、具体的には、異なるモデルからの異なるSNRの結果を比較することによって選択されることが可能である。
図3cに示されるように、制御装置300、525は供給される。この制御装置は、図1cの決定ステージ300の機能を含みうる。通常、その制御装置は、信号に適合できる方法で図1cのバイパスおよびスイッチ200を制御するためにある。その制御装置は、目的関数に関して、バイパスに入力される、または、第1あるいは第2の符号化分岐により出力される信号を分析する、あるいは、第1および第2の符号化分岐からの符号化および復号化により得られる信号を分析する働きをしている。代わりに、または、加えて、その制御装置は、ここでも目的関数に関して、スイッチに入力される、あるいは、第1の処理分岐または第2の処理分岐によって出力される信号、または、第1の処理分岐および第2の処理分岐から処理または逆処理により得られる信号を分析する働きをしている。
一実施形態において、第1の符号化分岐または第2の符号化分岐は、例えばMDCTまたはMDSTアルゴリズムのようなエイリアシングを生じさせる時間/周波数変換アルゴリズムを含む。そして、それはエイリアシング効果を生じさせない直接のFFT変換とは異なる。さらにまた、一方または両方の分岐は、量子化器/エントロピー符号器ブロックを含む。具体的には、第2の符号化分岐の第2の処理分岐のみ、エイリアシング作用を生じさせている時間/周波数変換器を含む。そして、第2の符号化分岐の第1の処理分岐は量子化器および/またはエントロピー符号器を含み、いかなるエイリアシング効果も生じさせない。エイリアシングを生じさせる時間/周波数変換器は、分析窓を適用するためのウィンドワ(windower)とMDCT変換アルゴリズムとを含むのが好ましい。具体的には、ウィンドワ(windower)は、ウィンドウ化された信号のサンプルが少なくとも2つのその後のウィンドウ化されたフレームで起こるように、オーバーラップの方法で窓関数をその後のフレームに適用する働きをする。
一実施形態において、第1の処理分岐はACELP符号器を含み、第2の処理分岐はMDCTスペクトル変換器および量子化されたスペクトル成分を得るためにスペクトル成分を量子化するための量子化器を含む。ここで、各量子化されたスペクトル成分はゼロであるかまたは複数の異なることもある量子化器インデックスのうちの1つの量子化器インデックスによって定義される。
前に述べたように、両方の符号化分岐は、オーディオ信号をブロック単位の方法(block−wise manner)で符号化する働きをしている。その方法では、信号の所定のサンプル数(対応する切り換えのためにワンフレーム長を形成している所定の数)のブロックの後に、最低限、切り換えまたはバイパスの動作が起こるように、バイパスまたは切り換えが、ブロック単位の方法(block−wise manner)で作動する。このように、そのバイパスによりバイパスするための粒は、例えば、2048または1028のサンプルのブロックでありうる。そして、そのフレーム長は、バイパスの切り換えに基づいて変化可能でありうるが、好ましくは、そのような相当長い周期に固定される。
それとは反対に、すなわち、スイッチ200が1つのモードからその他へ切り換わるとき、スイッチ200のためのブロック長は、第1の切り換えのためのブロック長より相当小さい。好ましくは、より長いブロック長がより短いブロック長の整数倍であるように、切り換えのための両方のブロック長は選択される。好ましい実施形態において、第1の切り換えのブロック長は2048であり、そして、第2の切り換えのブロック長は、1024、またはより好ましくは512、そしてさらにより好ましくは、256である、そして、さらにより好ましくは、バイパスが単一の時間だけを変えるときに、最大で、そのスイッチが16回切り換わることができるように、128サンプルでさえある。
別の実施形態において、制御装置300は、音声への決定が音楽への決定に対して好まれるような方法で、第1のスイッチのための音声音楽の識別を実行する働きをしている。この実施形態において、第1のスイッチのための1フレームの50%未満の部分が音声であり、そのフレームの50%以上の部分が音楽である時でさえ、音声への決定がされる。
さらに、第1フレームの極めて小さい部分が音声であるとき、特に、第1フレームの一部が音声であり、それはより小さい第2のフレームの長さの50%であるとき、その制御装置はすでに音声モードへ切り換わる働きをしている。このように、例えば、第1のスイッチのフレーム長に対応するブロックのわずか6%または12%が音声であるときでさえも、好ましい音声/好ましい切り換え決定は、すでに音声に切り換える。
この処理は、好ましくは、一実施形態において有声音声コアを有する第1の処理分岐のビットレートをセーブする能力を十分に引き出すためであり、そして、第2の処理分岐が変換器を含むという事実のため非音声である大きな第1のフレームの残りのための品質も緩めないためである。従って同様に音声信号でない信号を有するオーディオ信号に有効である。好ましくは、この第2の処理分岐は、臨界サンプリングされ(critically sampled)、そして復号器側でのオーバーラップ加算(overlap and add)などの時間領域エイリアシングキャンセレーション(TDAC)処理のため、小ウィンドウサイズでさえ高効率でエイリアシングのない演算を供給するオーバーラップするMDCTを含む。さらに、好ましくはAACのようなMDCT符号化分岐である第1の符号化分岐のために大きなブロック長は有用である。これは、非音声信号は通常極めて定常であり、そして、長い変換窓は高い周波数分解能を供給し、従って高品質を供給し、加えて、心理音響的に制御された量子化モジュールのためビットレート効率を供給するためである。そして、それは第2の符号化分岐の第2の処理分岐の変換ベースの符号化モードに適合されることもできる。
図3d復号器図に関して、伝送信号が図3eで示されたように、補助情報4aとして明示の指標を含むことは好ましい。この補助情報4aは、図3dにおける第1の逆処理分岐または第2の逆処理分岐のような補正処理装置に、対応する第1の処理された信号および第2の処理された信号を送るために、図3dにおいて図示されないビットストリーム・パーサによって抽出される。従って、符号化信号は、符号化/処理された信号を有するだけでなく、これらの信号に関する補助情報も含む。しかし、他の実施形態において、復号器側のビットストリーム・パーサが特定の信号間で識別することを可能にする潜在的な信号がありうる。図3eに関して、第1の処理された信号または第2の処理された信号が、第2の符号化分岐の出力であり、従って第2の符号化された信号であることが略図に描かれる。
好ましくは、第1の復号化分岐および/または第2の逆処理された分岐は、スペクトル領域から時間領域への変換のためのMDCT変換を含む。この目的で、オーバーラップアダー(overlap−adder)は、同時に、ブロッキングアーチファクトを回避するためにクロスフェード効果を供給する時間領域エイリアシングキャンセル機能を実行するために供給される。通常、第1の復号化分岐は、第4の領域で符号化された信号を第1の領域に変換し、その一方で、第2の逆処理された分岐は、第3の領域から第2の領域への変換を実行する。そして、合成器600の入力で、その後に第1の合成器と接続される変換器は、第1の領域信号だけがそこにあるように、第2の領域から第1の領域への変換を供給する。そして、それは、図3dの実施形態において、復号化出力信号を示す。
図4cは、好ましい復号器の実施例の別の態様を示す。特に、第1の復号器が時間エイリアシングを生じさせる復号器であり、あるいは、一般に周波数領域復号器と言われるものであり、そして、第2の復号器が時間領域装置である状況で、聞き取れるアーチファクトを避けるために、特に切り換え状況で、第1の復号器450および第2の復号器550によって出力されるブロックまたはフレーム間の境界は、完全には連続的であってはならない。このように、第1の復号器450の第1のブロックが出力されるとき、そして、その後の時間部のために第2の復号器のブロックが出力されるとき、好ましいのは、クロスフェードブロック607で示すようにクロスフェード操作を実行することである。この目的で、クロスフェード・ブロック607は、図4cにおいて607a、607bおよび607cで図示したように、実行されうる。各分岐は、正規化スケール上で、0と1との間の重み係数m1を有する重み付け器(weighter)を有しうる。ここで、重み係数はプロット609に示すように変動することができる。そのようなクロスフェージングルールは、連続的で滑らかなクロスフェージングが必ず起こるようにし、加えて、ユーザが声の大きさの変化を知覚しないであろうことを確実にする。sin2クロスフェージングルールのような非線形のクロスフェージングルールは、線形のクロスフェージングルールの代わりに適用することができる。
ある瞬間において、第1の復号器の最後のブロックは、窓を使用して生成され、その窓は実際にこのブロックのフェードアウトを実行した。この場合、ブロック607aの重み係数m1は1に等しく、そして、実際、重み付けはこの分岐のために全く必要でない。
第2の復号器から第1の復号器への切り換えが起こるとき、そして、第2の復号器がそのブロックの終わりまで実際にその出力をフェードアウトさせる窓を含むときに、そのとき「m2」で示される重み付け器(weighter)は必要でないだろう。あるいは、重み付けパラメータはクロスフェージング領域全体にわたって1に設定されることが可能である。
切り換え後の第1のブロックが窓関数を掛ける(windowing)操作を使用して生成されるとき、そして、この窓が実際にフェードイン操作を実行するとき、そのとき、重み付け器(weighter)が本当に必要でないように、対応する重み係数は1にセットされることも可能である。従って、最後のブロックが復号器によってフェードアウトするために窓関数を掛けられるとき、そして、切り換え後の第1のブロックがフェードインを供給するために復号器を使用して窓関数を掛けられるとき、そのとき、重み付け器(weighter)607a、607bは、全く必要でなく、そして、アダー607cによる加算演算で十分である。
この場合、最後のフレームのフェードアウト部分および次のフレームのフェードイン部分は、ブロック609に示されるクロスフェージング領域を定める。さらに、この種の状況において好ましいのは、1つの復号器の最後のブロックが他の復号器の第1のブロックを有するある時間のオーバーラップを有することである。
クロスフェージング操作が必要でない、または、可能でない、または、所望でない場合、そして、1つの復号器から他の復号器への困難な切り換えしかない場合、オーディオ信号の無声のパッセージにおいて、または、少なくとも、低エネルギーのある、すなわち、無声またはほぼ無声であると知覚されるオーディオ信号のパッセージにおいて、この種の切り換えを実行することが好まれる。好ましくは、決定ステージ300は、この種の実施形態において、スイッチ事象の後に続く対応する時間部分が、例えば、オーディオ信号の平均のエネルギーより低くて、好ましくは、そのオーディオ信号の2またはそれ以上の時間部分/フレームに関したオーディオ信号の平均のエネルギーの50%より低いエネルギーを有するとき、スイッチ200が動作するだけであることを確実にする。
好ましくは、第2の符号化規則/復号化規則は、LPCベースの符号化アルゴリズムである。LPCベースの音声符号化において、準周期的なインパルス状の励振信号セグメントまたは信号部分とノイズ状の励振信号セグメントまたは信号部分との間の差が作られる。これは、図7bのような超低ビットレートのLPCボコーダ(2.4kbps)のために実行される。しかし、中間レートのCELP符号器において、その励振は、適応型コードブックおよび固定型コードブックから基準化されたベクトルの加算のために得られる。
準周期的インパルス状の励振信号セグメント、すなわち、特定のピッチを有する信号セグメントは、ノイズ状の励振信号より、異なるメカニズムで符号化される。準周期的インパルス状の励振信号が有声音声と結ぶつく一方で、ノイズ状の励振信号は無声音声に関連がある。
見本として、図5aから5dまでを参照する。ここでは、準周期的インパルス状の信号セグメントまたは信号部分とノイズ状の信号セグメントまたは信号部分が、見本として述べられる。特に、時間領域の図5aと周波数領域の図5bにて示されるような有声音声は、準周期的インパルス状の信号部分のための例として述べられており、そして、ノイズ状の信号部分のための例としての無声音声セグメントは図5cおよび5dと関連して述べられる。音声は、通常、有声のもの、無声のもの、または混合のものとして分類することができる。抽出された有声および無声セグメントのための時間および周波数領域プロットが、図5aから5dまでに示される。有声音声は、時間領域において準周期的であり、周波数領域において調和して構築される。その一方で、無声速度はランダム状であり広帯域である。有声音声の短時間スペクトルは、その微細でホルマントな構造によって特徴づけられる。微細な調和構造は、音声の準周期性の結果であって、震動している声帯に起因しうる。ホルマント構造(スペクトル包絡)は、ソースと声道の相互関係に起因する。声道は、咽頭および口腔から成る。有声音声の短時間スペクトルと「合う」スペクトル包絡の形状は、声門のパルスにより声道およびスペクトル傾斜(6dB/Octave)の変換特性と関係している。スペクトル包絡は、ホルマントと呼ばれている一組のピークによって特徴づけられる。ホルマントは、声道の共振モードである。平均声道のために、3〜5つのホルマントが5kHz以下にある。音声合成および知覚の両方において、3kHz以下でたいてい起こっている最初の3つのホルマントの振幅および位置が、相当重要である。より高いホルマントもまた、広帯域および無声音声表現に重要である。音声の特性は、以下の通り、物理的な音声生成システムに関連がある。有声音声は、震動している声帯によって生成される準周期的な声門の空気パルスを有する声道を励振することによって生成される。周期的なパルスの周波数は、基本周波数またはピッチと呼ばれる。無声音声は、声道の収縮により空気を送ることによって生成される。鼻音は声道に対する鼻道の音響カップリングに起因する。そして、破裂音は、道の後ろで立ち上がった空気圧を突然に放出することによって生成される。
このように、オーディオ信号のノイズ状の部分は、図5cと図5dに示したように、インパルス状の時間領域構造も調和周波数領域構造も示さない。そして、例えば図5aと図5bに示されるように、それは準周期的インパルス状の部分とは異なる。しかし、後ほど概説されるように、ノイズ状の部分と準周期的インパルス状の部分との間の差は、励振信号のためのLPCの後にも、観測されることが可能である。LPCは、声道をモデル化して、その信号から声道の励振を引き出す方法である。
さらに、準周期的でインパルス状の部分およびノイズ状の部分は、適時な方法で起こりうる。すなわち、時間におけるオーディオ信号の一部はノイズが多く、そして、時間におけるオーディオ信号の他の部分は準周期的、すなわち、調性があることを意味する。代わりに、または、加えて、信号の特性は、異なる周波数帯域において異なることがありうる。このように、そのオーディオ信号がノイズが多いか調性であるかどうかに関わらず、その決定も、ある周波数帯域またはいくつかのある周波数帯域がノイズが多いとみなされ、他の周波数帯域は調性であるとみなされるように、周波数選択的に実行されうる。この場合、オーディオ信号のある時間部分は、調性の成分とノイズが多い成分を含みうる。
図7aは、音声生成システムの線形モデルを示す。このシステムは、二ステージの励振、すなわち、図7cに示すような有声音声のためのインパルス列と図7dに示すような無声音声のためのランダムノイズと仮定する。声道は、声門のモデル72によって生成された図7cまたは図7dのパルスを処理する全極型フィルタ70としてモデル化される。それ故、図7aのシステムは、利得ステージ77、フォワード経路78、フィードバック経路79および加算ステージ80を有する図7bの全極フィルタモデルに縮小することができる。フィードバック経路79には、予測フィルタ81があり、そして、図7bにおいて示される全ソースモデル合成システムは、以下のようにz領域関数を使用して表すことができる。

S(z)=g/(1―A(z))・X(z)

ここで、gは利得を表しており、A(z)はLP分析によって定まる予測フィルタであり、X(z)は励振信号であり、そして、S(z)は合成音声出力である。
図7cおよび7dは、線形ソースシステムモデルを使用して有声および無声音声合成のグラフィック時間領域の説明を与える。このシステムおよび上記の方程式の励振パラメータは知られておらず、音声サンプルの有限集合から決定されなければならない。A(z)の係数は、入力信号の線形予測およびフィルタ係数の量子化を使用して得られる。p位のフォワード型の線形予測器において、音声シーケンスの現在のサンプルは、p個の通過したサンプルの線形結合から予測される。予測器の係数は、レビンソン―ダービン(Levinson−Durbin)アルゴリズムまたは通常、自己相関法または反射法のような周知のアルゴリズムにより決定することができる。
図7eは、LPC分析ブロック510のより詳細な実施例を示す。オーディオ信号は、フィルタ情報A(z)を決定するフィルタ決定ブロックに入力される。この情報は、復号器のために必要な短期予測情報としての出力である。この情報は、例えばAMR―WB+の仕様から知られるように、量子化器81によって量子化される。短期予測情報は、実際の予測フィルタ85によって必要とされる。減算器86において、オーディオ信号の現在のサンプルが入力され、そして、現在のサンプルのための予測値は、このサンプルのために予測誤差信号がライン84で生成されるように、減算される。この種の予測誤差信号サンプルのシーケンスは、図7cまたは7dにおいて非常に概略的に示される。従って、図7c、7dは、一種の修正されたインパルス状の信号とみなされうる。
図7eが励振信号を算出するのに好ましい方法を示す一方、図7fは重み付けされた信号を算出するのに好ましい方法を示す。図7eとは対照的に、γが1とは異なるとき、フィルタ85は異なる。1より小さい値がγには好まれる。さらに、ブロック87が存在し、μは1より小さい数が好ましい。通常、図7eおよび7fの要素は、3GPP TS 26.190または3GPP TS 26.290にあるように実施することができる。
図7gは、逆処理を示しており、それは図2bの要素537の復号器側に適用することができる。特に、ブロック88は重み付けされた信号から重み付けなしの信号を生成し、そして、ブロック89は重み付けなしの信号から励振を算出する。通常、図7gの重み付けなしの信号を除いたすべての信号はLPC領域にあるが、励振信号および重み付けされた信号は同じ領域にある異なる信号である。ブロック89は、それからブロック536の出力と共に使用されることができる励振信号を出力する。それから、共通の逆LPC変換は、図2bのブロック540において実行することができる。
Figure 2011528129
CELPアルゴリズムは、例えばガウス形シーケンスのコードブックを使用して短期および長期予測の後に得られた残差信号を符号化する。ACELPアルゴリズムは、その「A」は「Algebraic(代数の)」を表しており、特定の代数学的にデザインされたコードブックを有する。
コードブックは、各ベクトルがいくつかのサンプル量のより多いまたはより少ないベクトルを含みうる。利得係数gは符号ベクトルを基準化し、そして、得られた符号は、長期予測合成フィルタおよび短期予測合成フィルタによってフィルタにかけられる。減算器69の出力の知覚的に重み付けされた平均二乗誤差が最小化されるように、「最適」符号ベクトルは選択される。CELPのサーチ処理は、図6にて示されるような合成による分析最適化によってなされる。
特定の場合のために、フレームが無声および有声の音声の混成であるとき、または、音楽上の音声が起こるときに、TCX符号化はLPC領域の励振を符号化するためにより適当でありえる。TCX符号化は、励振生成のいかなる仮定もすることなしで周波数領域において重み付けされた信号を処理する。TCXは、それから、CELP符号化より包括的であり、励振の有声または無声のソースモデルに制限されない。TCXは、まだ、音声状の信号のホルマントをモデル化するための線形予測フィルタを使用しているソースフィルタ型符号化である。
AMR―WB+のような符号化において、AMR―WB+の説明から知られるように、異なるTCXモードとACELPの間の選択は起こる。ブロック単位の離散フーリエ変換の長さが異なるモードのために異なるという点で、TCXモードは異なっており、そして、その最適なモードは合成による分析アプローチによって、または、直接の「フィードフォワード」モードによって選択されることができる。
図2cと2dと関連して述べられるように、共通の前処理ステージ100は、好ましくは、ジョイントマルチチャンネル(サラウンド/ジョイントステレオ装置)101を含んでおり、加えて、帯域拡張ステージ102を含む。対応して、復号器は、帯域拡張ステージ701およびその後接続されるジョイントマルチチャンネルステージ702を含む。好ましくは、符号器に関して、そのジョイントマルチチャンネルステージ101は、帯域拡張ステージ102の前に接続され、そして、復号器側では信号処理方向に関して、帯域拡張ステージ701は信号処理方向に関してジョイントマルチチャンネルステージ702の前に接続される。しかし、代わりに、共通の前処理ステージは、その後に接続された帯域拡張ステージなしのジョイントマルチチャンネルを含むことができ、または、接続されたジョイントマルチチャンネルステージなしの帯域拡張ステージを含むことができる。
符号器側101a、101b、そして、復号器側702aおよび702bにおけるジョイントマルチチャンネルステージのための好ましい例は、図8の状況において示される。ダウンミキサー(downmixer)が多くのK個の送信チャンネルを生成するように、多くのE個の元の入力チャンネルはダウンミキサー101aに入力される。ここで、Kは1以上であり、Eよりは小さいか等しい。
好ましくは、E個の入力チャネルは、パラメータ情報を生成するジョイントマルチチャンネルパラメータ分析器101bに入力される。このパラメータ情報は、好ましくは、例えば異なる符号化やその後のハフマン符号化、あるいは、その後の算術符号化によってエントロピー符号化される。ブロック101dによって出力される符号化されたパラメータ情報は、図2bの項目702の一部でありうるパラメータ復号器702bに送られる。パラメータ復号器702bは、送られたパラメータ情報を復号化して、アップミキサー(upmixer)702aに復号化されたパラメータ情報を送る。アップミキサー(upmixer)702aはK個の送信されたチャンネルを受けて、多くのL個の出力チャネルを生成する。ここで、Lの数は、Kより大きいか等しく、Eより低いか等しい。
パラメータ情報は、BCC技術から知られるような、または、MPEGサラウンド規格で知られ、詳述されるような、内部チャンネルレベル差、内部チャンネル時間差、内部チャンネル位相差および/または内部チャンネルコヒーレンス測定を含みうる。送信チャンネルの数は、超低ビットレートアプリケーション用の単一のモノラルチャンネルでありうるし、または、互換性を持つステレオアプリケーションを含みうるし、または、互換性を持つステレオ信号、すなわち、2本のチャンネルを含みうる。一般的に、入力チャンネルの数Eは、5でありうるし、さらにより多いこともありうる。あるいは、入力チャンネルの数Eは、また、空間音声オブジェクト符号化(SAOC:spatial audio object coding)の状況において知られるように、E個のオーディオオブジェクトでもありうる。
一実施例では、ダウンミキサーは、元のE個の入力チャンネルの重み付けされた、または、重み付けなしの加算、または、E個の入力オーディオオブジェクトの加算を実行する。入力チャンネルとしてのオーディオオブジェクトの場合、ジョイントマルチチャンネルパラメータ分析器101bは、好ましくは、時間部分ごとの、そして、さらにより好ましくは、周波数帯域ごとのオーディオオブジェクト間の相関行列のようなオーディオオブジェクトパラメータを算出する。この目的で、全周波数範囲は、少なくとも10、そして、好ましい32または64の周波数帯域に分割されうる。
図9は、図2aの帯域拡張ステージ102および図2bの対応する帯域拡張ステージ701の実施のための好ましい実施形態を示す。符号器側で、帯域拡張ブロック102は、好ましくはローパスフィルタをかけるブロック102b、ローパスに続くかまたはQMF帯域の半分のみで動作する、逆QMFの一部であるダウンサンプラ(downsampler)ブロックおよび高帯域分析器102aを含む。帯域拡張ブロック102に入力された元のオーディオ信号は、それから符号化分岐および/またはスイッチに入力される低帯域信号を生成するためにローパスフィルタにかけられる。そのローパスフィルタは、3kHz〜10kHzの範囲にありうるカットオフ周波数を有する。また、帯域拡張ブロック102は、スペクトル包絡パラメータ情報や暗騒音パラメータ情報、逆フィルタパラメータ情報、さらに高帯域の特定の調和ラインに関するパラメータ情報およびスペクトル帯域複製に関連した章におけるMPEG―4規格で詳述されたような追加パラメータなどの帯域拡張パラメータを算出するための高帯域分析器をさらに含む。
復号器側で、帯域拡張ブロック701は、パッチャ(patcher)701a、アジャスタ701bおよび合成器701cを含む。合成器701cは、復号化された低帯域信号とアジャスタ701bにより出力された再構築され調整された高帯域信号を合成する。アジャスタ701bへの入力は、例えばスペクトル帯域複製によって、または、通常、帯域拡張などによって、低帯域信号から高帯域信号を抽出する働きをするパッチャによって供給される。パッチャ701aによって実行されるパッチングは、調和方法、または、非調和的な方法で実行されるパッチングでもよい。パッチャ701aによって生成される信号は、その後、送信されたパラメータ帯域拡張情報を使用してアジャスタ701bによって調整される。
図8および図9に示すように、説明されたブロックは、好ましい実施形態のモード制御入力を有しうる。このモード制御入力は、決定ステージ300の出力信号から生じる。この種の好ましい実施形態において、対応するブロックの特性は決定ステージの出力、すなわち、好ましい実施形態において、そのオーディオ信号のある時間部分のために音声への決定がなされるべきか音楽への決定がなされるべきかに適合されうる。好ましくは、そのモード制御は、これらのブロックの一つ以上の機能に関連するだけであり、ブロックの機能全てには関連するわけではない。例えば、その決定は、パッチャ701aのみに影響を与えうるが、図9の他のブロックには影響しないこともあり、あるいは、例えば、図8のジョイントマルチチャンネルパラメータ分析器のみに影響を与えうるが、図8の他のブロックには与えないこともありうる。この実施例は、好ましくは、より高い柔軟性およびより高品質およびより低ビットレートの出力信号が共通の前処理ステージにおいて柔軟性を供給することによって得られるというものである。しかし、一方で、両方の種類の信号のための共通の前処理ステージのアルゴリズムの使用は、効率的な符号化/復号化方式を実行することを可能にする。
図10aおよび図10bは、決定ステージ300の2つの異なる実施例を示す。図10aに、開ループ決定が示される。ここで、決定ステージの信号分析器300aは、入力信号のある時間部分またはある周波数部分が、この信号部分が第1の符号化分岐400によって、または、第2の符号化分岐500によって符号化されることを必要とする特性を有するかを決定するために、特定の規則を有する。この目的で、信号分析器300aがオーディオ入力信号を共通の前処理ステージへのオーディオ入力信号を分析する場合もあり、または、共通の前処理ステージにより出力されるオーディオ信号、すなわち、オーディオ中間信号を分析する場合もあり、またはモノラル信号もありうるし、あるいは、図8に示されるkチャンネルを有する信号もありうる、ダウンミックス信号の出力などの共通の前処理ステージ内の中間信号を分析する場合もある。出力側では、信号分析器300aは、符号器側のスイッチ200と復号器側の対応するスイッチ600または合成器600を制御するための切り換え決定を生成する。
代わりに、決定ステージ300は閉ループ決定を実行しうる。そして、それは、両方の符号化分岐がオーディオ信号の同じ部分上でそれらのタスクを実行し、そして、両方の符号化信号が、対応する復号化分岐300c、300dによって復号化されることを意味する。装置300cおよび300dの出力は、例えばオーディオ中間信号の対応する部分を置くために復号化装置の出力を比較するコンパレータ300bに入力される。そして、分岐ごとのSN比のようなコスト関数に応じて、切り換え決定はなされる。この閉ループ決定は、開ループ決定と比較して増加した煩雑性を有するが、この煩雑性は符号器側に存在しているだけであり、復号器にはこの処理によるいかなる不利な点もない。これは、復号器がこの符号化決定の出力を都合よく使用することができるからである。従って、閉ループモードは、例えば符号器は少数であるが、復号器は多数であり、加えて、スマートかつ安価でなければならない放送アプリケーションのように復号器の煩雑性が問題ではないアプリケーションにおける煩雑性および品質考慮のため好まれる。
コンパレータ300dによって適用されるコスト関数は、品質面によって駆動されるコスト関数であることもあり、または、ノイズ面によって駆動されるコスト関数であることもあり、または、ビットレート面によって駆動されるコスト関数であることもあり、または、ビットレート、品質、(符号化アーチファクト、具体的には量子化によって生じる)ノイズなどのいかなる組み合わせによっても駆動される合成コスト関数でもありうる。
好ましくは、第1の符号化分岐または第2の符号化分岐は、符号器側および対応して復号器側にタイムワープ機能を含む。一実施形態において、第1の符号化分岐は、一部のオーディオ信号に依存する可変のワーピング特性を算出するためのタイムワープモジュール、決定されたワーピング特性に従う再サンプリング化のためのリサンプラ、時間領域/周波数領域変換器および時間領域/周波数領域変換の結果を符号化された表現に変換するためのエントロピー符号器を含む。可変のワープ特性は、その符号化オーディオ信号に含まれる。この情報は、タイムワープ拡張の復号化分岐により読み込まれ、ワープなしの時間スケールにおける出力信号を最終的に有するために処理される。例えば、復号化分岐は、エントロピー復号化、非量子化および周波数領域を時間領域に戻す変換を実行する。時間領域において、デワーピング(dewarping)は、適用することができて、最終的にワープなしの時間スケールを有する離散的なオーディオ信号を得るための対応する再サンプリング演算が続きうる。
本発明の方法の特定の実施要件に応じて、本発明の方法は、ハードウェアにおいて、または、ソフトウェアにおいて実施することができる。その実施例は、本発明の方法が実行されるようにプログラミング可能な計算機システムと連携するデジタル記録媒体、特に、そこに格納された電子的に読み込み可能な制御信号を有するディスク、DVDまたはCDを使用して実施することができる。従って、通常、本発明は、機械で読み取り可能なキャリアに格納されたプログラムコードを有するコンピュータ・プログラム製品である。そして、そのプログラムコードは、そのコンピュータ・プログラム製品がコンピュータ上で動作するときに、発明の方法を実施するために作動される。従って、換言すれば、本発明の方法は、コンピュータ・プログラムがコンピュータ上で動作するときに、本発明の方法のうちの少なくとも1つを実行するためのプログラムコードを有するコンピュータ・プログラムである。
本発明の符号化オーディオ信号は、デジタル記憶媒体に格納できるか、または、ワイヤレス送信媒体のような伝送媒体、または、インターネットのような有線の伝送媒体で送信できる。
上記実施形態は、本発明の原理のために、単に示しているだけである。ここに述べられた装置および詳細の修正や変形は、他の当業者にとって明白であるものと理解される。従って、その意図は、差し迫った特許クレームの範囲によってのみ制限され、ここにおける実施形態の叙述や説明として示される具体的な詳細によっては制限されないということである。

Claims (19)

  1. 符号化オーディオ信号を得るためにオーディオ信号を符号化するための装置であって、前記オーディオ信号は第1の領域にあり、
    前記オーディオ信号を前記第1の領域から第2の領域に変換するための第1の領域変換器(510)と、
    バイパス切り換え制御信号(51)に応答して、前記第1の領域変換器(510)をバイパスするための、または、前記第1の領域変換器(510)によって前記オーディオ信号の変換を引き起こすための、切り換え可能なバイパス(50)と、
    前記切り換え可能なバイパス(50)または前記第1の領域変換器(510)から受け取られたオーディオ信号を第3の領域に変換するための第2の領域変換器(410)であり、前記第3の領域は前記第2の領域とは異なっている第2の領域変換器(410)と、
    第1の符号化アルゴリズムに従って前記第3の領域のオーディオ信号を符号化するための第1の処理装置(420)と、
    第2の処理された信号を得るために前記第1の符号化アルゴリズムとは異なる第2の符号化アルゴリズムに従って、前記第1の領域変換器(510)から受け取られる前記オーディオ信号を符号化するための第2の処理装置(520)と、を含み、
    前記オーディオ信号の一部ための前記符号化信号は、前記第1の処理された信号、または、前記第2の処理された信号を含むこと、を特徴とする、装置。
  2. 前記第1の領域変換器(510)がLPC残差信号およびLPCパラメータデータを得るために前記オーディオ信号をLPCフィルタにかけるためのLPC分析フィルタを含むこと、を特徴とする、請求項1に記載の装置。
  3. 前記第2の領域変換器(410)が入力信号をそのスペクトル表現に変換するための時間‐周波数変換器を含むこと、を特徴とする、請求項1または請求項2に記載の装置。
  4. 符号化出力信号が前記第2の処理装置(520)への入力信号と同じ領域にあるように、前記第2の処理装置(520)が前記符号化出力信号を生成する働きをすること、を特徴とする、請求項1〜請求項3のいずれかに記載の装置。
  5. 前記第1の処理装置(420)が量子化器およびエントロピー符号器を含み、そして、前記第2の処理装置(520)がコードブックベースのソース符号器を含むこと、を特徴とする、請求項1〜請求項4のいずれかに記載の装置。
  6. 前記第1の処理装置(420)が情報受信側モデルに基づき、前記第2の処理装置(520)は情報源モデルに基づくこと、を特徴とする、請求項1〜請求項5のいずれかに記載の装置。
  7. 前記第1の領域変換器(510)の出力および前記第2の領域変換器(410)の入力および前記第2の処理装置(520)の入力との間に接続される切り換えステージ(200)を更に含み、
    前記切り換えステージ(200)は、切り換えステージの制御信号に応答して、前記第2の領域変換器(410)の前記入力および前記第2の処理装置(520)の前記入力との間で切り換わるのに適合されていること、を特徴とする、請求項1〜請求項6のいずれかに記載の装置。
  8. 前記切り換え可能なバイパス(50)の出力が前記第1の領域変換器(510)の出力に接続され、前記切り換え可能なバイパス(50)の入力が前記第1の領域変換器(510)への入力に接続されること、を特徴とする、請求項1〜請求項7のいずれかに記載の装置。
  9. 前記オーディオ信号の一部の解析結果に応じて、前記オーディオ信号の前記一部のための前記切り換え可能なバイパス(50)を制御するための信号分類器を更に含むこと、を特徴とする、請求項1〜請求項8のいずれかに記載の装置。
  10. 前記第2の領域変換器(410)がブロックベースの方法で入力信号を変換する働きをし、そして、前記オーディオ信号の内容に応じて異なる長さのブロックが変換されるという点において前記第2の領域変換器(410)が制御されるように、前記第2の領域変換器がオーディオ信号解析に応答してブロックベースの切り換えを実行する働きをすること、を特徴とする、請求項1〜請求項9のうちの1項に記載の装置。
  11. 符号化オーディオ信号を得るためにオーディオ信号を符号化するための方法であって、前記オーディオ信号は第1の領域にあり、
    前記オーディオ信号を前記第1の領域から第2の領域に変換するステップ(510)と、
    バイパス切り換え制御信号(51)に応答して、前記オーディオ信号を前記第1の領域から第2の領域に変換するステップ(510)をバイパスするステップ(50)、あるいは、前記第1の領域から第2の領域への前記オーディオ信号の変換を引き起こすステップと、
    バイパスされたオーディオ信号(50)または前記第2の領域のオーディオ信号を第3の領域に変換するステップであり、前記第3の領域は前記第2の領域とは異なっている、前記変換するステップと、
    第1の符号化アルゴリズムに従って、前記バイパスされたオーディオ信号(50)または前記第2の領域にある前記オーディオ信号を変換するステップ(410)によって生成される前記第3の領域のオーディオ信号を符号化するステップ(420)と、
    第2の処理された信号を得るために前記第1の符号化アルゴリズムとは異なる第2の符号化アルゴリズムに従って、前記第2の領域にある前記オーディオ信号を符号化するステップ(520)と、を含み、
    前記オーディオ信号の一部ための前記符号化信号は、前記第1の処理された信号、または、前記第2の処理された信号を含むこと、を特徴とする、方法。
  12. 符号化オーディオ信号を復号化するための装置であって、前記符号化オーディオ信号は第3の領域にある第1の処理された信号と第2の領域にある第2の処理された信号を含み、前記第2の領域および前記第3の領域は互いに異なっており、
    前記第1の処理された信号を逆処理するための第1の逆処理装置(430)と、
    前記第2の処理された信号を逆処理するための第2の逆処理装置(530)と、
    前記第1の逆処理された信号を前記第3の領域から異なる領域に領域変換するための第2の変換器(440)と、
    前記異なる領域が前記第1の領域ではないときに、前記第2の逆処理された信号を第1の領域に変換するための、または、異なる領域に変換された前記第1の逆処理された信号を前記第1の領域に変換するための、第1の変換器(540)と、
    前記異なる領域が前記第1の領域であるときに、前記第1の変換器(540)をバイパスするためのバイパス(52)と、を含むこと、を特徴とする、装置。
  13. 合成された復号化オーディオ信号(699)を得るために前記第1の変換器(540)の出力と前記バイパス(52)の出力とを合成するための合成器(600)を更に含むこと、を特徴とする、請求項12に記載の装置。
  14. 前記第1の処理された信号、前記第2の処理された信号、および、ある第1の逆処理された信号のために前記第1の変換器(540)が前記バイパスによってバイパスされるかそうでないかを示している前記制御信号を、符号化オーディオ信号から抽出するための入力インタフェース(900)を更に含むこと、を特徴とする、請求項12または請求項13に記載の復号化するための装置。
  15. 前記第1の変換器(540)は線形予測符号化(LPC)合成ステージを含み、前記第2の変換器(440)はオーディオ信号のスペクトル表現を前記オーディオ信号の時間表現に変換するためのスペクトル―時間変換器を含むこと、を特徴とする、請求項12〜請求項14のいずれかに記載の復号化するための装置。
  16. 前記第1の逆処理装置(430)はエントロピー復号器および逆量子化器を含み、前記第2の逆処理装置(530)は前記コードブックベースのソース復号器を含むこと、を特徴とする、請求項12〜請求項15のいずれかに記載の復号化するための装置。
  17. 前記第2の変換器(440)が、前記符号化オーディオ信号に含まれる付加情報(434)によって制御可能な、逆タイムワープ処理修正離散コサイン変換(inverse time warped modified discrete cosine transform)フィルタリング操作のような合成フィルタリング操作を実行する働きをすること、を特徴とする、請求項12〜請求項16のいずれかに記載の復号化するための装置。
  18. 符号化オーディオ信号を復号化するための方法であって、前記符号化オーディオ信号は第3の領域にある第1の処理された信号と第2の領域にある第2の処理された信号を含み、前記第2の領域および前記第3の領域は互いに異なっており、
    前記第1の処理された信号を逆処理するステップ(430)と、
    前記第2の処理された信号を逆処理するステップ(530)と、
    前記第1の逆処理された信号を前記第3の領域から異なる領域に第2の領域変換をするステップ(440)と、
    前記異なる領域が前記第1の領域ではないときに、前記第2の逆処理された信号を第1の領域に第1の領域変換をするステップ(540)、あるいは、前記第1の逆処理された信号を前記第1の領域に変換するステップと、
    前記異なる領域が前記第1の領域であるときに、第1の領域変換をする前記ステップ(540)をバイパスするステップ(52)と、を含むこと、を特徴とする、方法。
  19. コンピュータ・プログラムがコンピュータ上で動作するときに、請求項11に記載のオーディオ信号を符号化するための方法、または、請求項18に記載の符号化オーディオ信号を復号化するための方法を実行するためのコンピュータ・プログラム。
JP2011517779A 2008-07-17 2009-07-06 切り換え可能なバイパスを有するオーディオ符号化/復号化方式 Active JP5613157B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US8158608P 2008-07-17 2008-07-17
US61/081,586 2008-07-17
EP09002270.8A EP2146344B1 (en) 2008-07-17 2009-02-18 Audio encoding/decoding scheme having a switchable bypass
EP09002270.8 2009-02-18
PCT/EP2009/004875 WO2010006717A1 (en) 2008-07-17 2009-07-06 Audio encoding/decoding scheme having a switchable bypass

Publications (2)

Publication Number Publication Date
JP2011528129A true JP2011528129A (ja) 2011-11-10
JP5613157B2 JP5613157B2 (ja) 2014-10-22

Family

ID=40718647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011517779A Active JP5613157B2 (ja) 2008-07-17 2009-07-06 切り換え可能なバイパスを有するオーディオ符号化/復号化方式

Country Status (17)

Country Link
US (2) US8321210B2 (ja)
EP (2) EP2146344B1 (ja)
JP (1) JP5613157B2 (ja)
KR (1) KR101224884B1 (ja)
CN (1) CN102099856B (ja)
AR (1) AR072551A1 (ja)
AU (1) AU2009270524B2 (ja)
BR (1) BRPI0910999B1 (ja)
CA (1) CA2727883C (ja)
ES (2) ES2592416T3 (ja)
HK (2) HK1138673A1 (ja)
MX (1) MX2011000534A (ja)
PL (2) PL2146344T3 (ja)
PT (1) PT2146344T (ja)
RU (1) RU2483364C2 (ja)
TW (1) TWI441167B (ja)
WO (1) WO2010006717A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014500521A (ja) * 2010-10-25 2014-01-09 ヴォイスエイジ・コーポレーション 低ビットレート低遅延の一般オーディオ信号の符号化
JP2015506653A (ja) * 2012-02-24 2015-03-02 ドルビー・インターナショナル・アーベー オーディオ処理
JP2015525375A (ja) * 2012-06-14 2015-09-03 ドルビー・インターナショナル・アーベー 可変数の受信チャネルに基づくマルチチャネル・オーディオ・レンダリングのためのなめらかな構成切り換え
JP2016534410A (ja) * 2013-09-12 2016-11-04 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオ・コンテンツの符号化
JP2017017749A (ja) * 2013-04-05 2017-01-19 ドルビー・インターナショナル・アーベー オーディオ処理システム
JP2018511827A (ja) * 2015-03-09 2018-04-26 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャンネル信号を符号化するためのオーディオエンコーダおよび符号化されたオーディオ信号を復号化するためのオーディオデコーダ
WO2021261235A1 (ja) * 2020-06-22 2021-12-30 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8356127B2 (en) * 2004-12-09 2013-01-15 Rambus Inc. Memory interface with workload adaptive encode/decode
PT2165328T (pt) * 2007-06-11 2018-04-24 Fraunhofer Ges Forschung Codificação e descodificação de um sinal de áudio tendo uma parte do tipo impulso e uma parte estacionária
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
MX2011000366A (es) * 2008-07-11 2011-04-28 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar muestras de audio.
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2311034B1 (en) * 2008-07-11 2015-11-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals
ES2401487T3 (es) * 2008-07-11 2013-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para la codificación/decodificación de una señal de audio utilizando un esquema de conmutación de generación de señal ajena
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
WO2010044593A2 (ko) 2008-10-13 2010-04-22 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
KR101649376B1 (ko) 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
KR101797033B1 (ko) * 2008-12-05 2017-11-14 삼성전자주식회사 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
KR101411780B1 (ko) 2009-10-20 2014-06-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 이전의 디코딩된 스펙트럼 값들의 그룹의 검출을 이용하는 오디오 인코더, 오디오 디코더, 오디오 정보를 인코딩하기 위한 방법, 오디오 정보를 디코딩하기 위한 방법 및 컴퓨터 프로그램
JP5773502B2 (ja) 2010-01-12 2015-09-02 フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーディオ符号化器、オーディオ復号器、オーディオ情報を符号化するための方法、オーディオ情報を復号するための方法、および上位状態値と間隔境界との両方を示すハッシュテーブルを用いたコンピュータプログラム
EP2375410B1 (en) 2010-03-29 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal
ES2935911T3 (es) * 2010-04-09 2023-03-13 Dolby Int Ab Descodificación estéreo de predicción compleja basada en MDCT
PL4120248T3 (pl) * 2010-07-08 2024-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder wykorzystujący kasowanie aliasingu w przód
TWI479160B (zh) * 2010-12-20 2015-04-01 Hon Hai Prec Ind Co Ltd 測試裝置及方法
CN103329199B (zh) * 2011-01-25 2015-04-08 日本电信电话株式会社 编码方法、编码装置、周期性特征量决定方法、周期性特征量决定装置、程序、记录介质
JP5969513B2 (ja) 2011-02-14 2016-08-17 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 不活性相の間のノイズ合成を用いるオーディオコーデック
CA2984936C (en) * 2011-02-18 2019-10-29 Ntt Docomo, Inc. Speech decoder, speech encoder, speech decoding method, speech encoding method, speech decoding program, and speech encoding program
SI2774145T1 (sl) * 2011-11-03 2020-10-30 Voiceage Evs Llc Izboljšane negovorne vsebine v celp dekoderju z nizko frekvenco
CN102543079A (zh) * 2011-12-21 2012-07-04 南京大学 一种实时的音频信号分类方法及设备
RU2725416C1 (ru) 2012-03-29 2020-07-02 Телефонактиеболагет Лм Эрикссон (Пабл) Расширение полосы частот гармонического аудиосигнала
EP2880654B1 (en) * 2012-08-03 2017-09-13 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases
AU2013301831B2 (en) * 2012-08-10 2016-12-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder, decoder, system and method employing a residual concept for parametric audio object coding
KR102033985B1 (ko) * 2012-08-10 2019-10-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 공간적 오디오 객체 코딩에 오디오 정보를 적응시키기 위한 장치 및 방법
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
KR101732137B1 (ko) * 2013-01-07 2017-05-02 삼성전자주식회사 원격 제어 장치 및 전력 제어 방법
WO2014106878A1 (ja) * 2013-01-07 2014-07-10 日本電気株式会社 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法およびプログラム
ES2924427T3 (es) * 2013-01-29 2022-10-06 Fraunhofer Ges Forschung Decodificador para generar una señal de audio mejorada en frecuencia, procedimiento de decodificación, codificador para generar una señal codificada y procedimiento de codificación que utiliza información lateral de selección compacta
EP2951820B1 (en) 2013-01-29 2016-12-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for selecting one of a first audio encoding algorithm and a second audio encoding algorithm
ES2626809T3 (es) * 2013-01-29 2017-07-26 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Concepto para compensación de conmutación del modo de codificación
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
US9148721B2 (en) * 2013-03-14 2015-09-29 Dunlop Manufacturing, Inc. System, method and apparatus for silent true bypass switching
KR102243688B1 (ko) * 2013-04-05 2021-04-27 돌비 인터네셔널 에이비 인터리브된 파형 코딩을 위한 오디오 인코더 및 디코더
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
PT3011561T (pt) * 2013-06-21 2017-07-25 Fraunhofer Ges Forschung Aparelho e método para desvanecimento de sinal aperfeiçoado em diferentes domínios durante ocultação de erros
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830055A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
CN103413553B (zh) * 2013-08-20 2016-03-09 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、编码端、解码端和系统
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
US10083708B2 (en) * 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
CN103841244A (zh) * 2013-12-03 2014-06-04 华为技术有限公司 一种终端及终端的录音方法
WO2015104447A1 (en) 2014-01-13 2015-07-16 Nokia Technologies Oy Multi-channel audio signal classifier
CN105336339B (zh) 2014-06-03 2019-05-03 华为技术有限公司 一种语音频信号的处理方法和装置
PT3000110T (pt) 2014-07-28 2017-02-15 Fraunhofer Ges Forschung Seleção de um de entre um primeiro algoritmo de codificação e um segundo algoritmo de codificação com o uso de redução de harmônicos.
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
US20160057463A1 (en) * 2014-08-19 2016-02-25 Gatesair, Inc. Hybrid time-divisional multiplexed modulation
KR20160081844A (ko) 2014-12-31 2016-07-08 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
WO2016108655A1 (ko) 2014-12-31 2016-07-07 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
TWI758146B (zh) * 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
EP3345409B1 (en) * 2015-08-31 2021-11-17 Dolby International AB Method for frame-wise combined decoding and rendering of a compressed hoa signal and apparatus for frame-wise combined decoding and rendering of a compressed hoa signal
CN105242111B (zh) * 2015-09-17 2018-02-27 清华大学 一种采用类脉冲激励的频响函数测量方法
WO2017050398A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
KR102219752B1 (ko) 2016-01-22 2021-02-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 채널 간 시간 차를 추정하기 위한 장치 및 방법
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
US10872598B2 (en) 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10573326B2 (en) * 2017-04-05 2020-02-25 Qualcomm Incorporated Inter-channel bandwidth extension
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US10796686B2 (en) 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
US11017761B2 (en) * 2017-10-19 2021-05-25 Baidu Usa Llc Parallel neural text-to-speech
US10872596B2 (en) * 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
FR3075443A1 (fr) * 2017-12-19 2019-06-21 Orange Traitement d'un signal monophonique dans un decodeur audio 3d restituant un contenu binaural
GB2582916A (en) * 2019-04-05 2020-10-14 Nokia Technologies Oy Spatial audio representation and associated rendering
US10755721B1 (en) 2019-04-30 2020-08-25 Synaptics Incorporated Multichannel, multirate, lattice wave filter systems and methods
EP3970141B1 (en) * 2019-05-14 2024-02-28 Dolby Laboratories Licensing Corporation Method and apparatus for speech source separation based on a convolutional neural network
CN110730408A (zh) * 2019-11-11 2020-01-24 北京达佳互联信息技术有限公司 一种音频参数切换方法、装置、电子设备及存储介质
US10978083B1 (en) 2019-11-13 2021-04-13 Shure Acquisition Holdings, Inc. Time domain spectral bandwidth replication
KR20220125026A (ko) * 2021-03-04 2022-09-14 삼성전자주식회사 오디오 처리 방법 및 이를 포함하는 전자 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175098A (ja) * 1997-12-12 1999-07-02 Nec Corp 音声及び音楽符号化方式
JP2007525707A (ja) * 2004-02-18 2007-09-06 ヴォイスエイジ・コーポレーション Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
JP2007538283A (ja) * 2004-05-19 2007-12-27 ノキア コーポレイション オーディオ用コーダ・モード切り替え支援

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6016473A (en) 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
JP2002304196A (ja) * 2001-04-03 2002-10-18 Sony Corp オーディオ信号記録制御方法、プログラムおよび記録媒体、オーディオ信号再生制御方法、プログラムおよび記録媒体、オーディオ信号入力制御方法、プログラムおよび記録媒体
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
JP2005510925A (ja) * 2001-11-30 2005-04-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号コード化
US7424434B2 (en) 2002-09-04 2008-09-09 Microsoft Corporation Unified lossy and lossless audio compression
TW584835B (en) 2002-12-13 2004-04-21 Univ Nat Chiao Tung Method and architecture of digital coding for transmitting and packing audio signals
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
DE10345995B4 (de) * 2003-10-02 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
KR100750115B1 (ko) * 2004-10-26 2007-08-21 삼성전자주식회사 오디오 신호 부호화 및 복호화 방법 및 그 장치
US7418394B2 (en) 2005-04-28 2008-08-26 Dolby Laboratories Licensing Corporation Method and system for operating audio encoders utilizing data from overlapping audio segments
CN101086845B (zh) * 2006-06-08 2011-06-01 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
TWI371925B (en) 2006-09-08 2012-09-01 Via Tech Inc Apparatus for processing multiple signals with a single analog-to-digital converter and method thereof
CN101197576A (zh) * 2006-12-07 2008-06-11 上海杰得微电子有限公司 一种音频信号编码、解码方法
AU2007331763B2 (en) * 2006-12-12 2011-06-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175098A (ja) * 1997-12-12 1999-07-02 Nec Corp 音声及び音楽符号化方式
JP2007525707A (ja) * 2004-02-18 2007-09-06 ヴォイスエイジ・コーポレーション Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
JP2007538283A (ja) * 2004-05-19 2007-12-27 ノキア コーポレイション オーディオ用コーダ・モード切り替え支援

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014500521A (ja) * 2010-10-25 2014-01-09 ヴォイスエイジ・コーポレーション 低ビットレート低遅延の一般オーディオ信号の符号化
US9728194B2 (en) 2012-02-24 2017-08-08 Dolby International Ab Audio processing
JP2015506653A (ja) * 2012-02-24 2015-03-02 ドルビー・インターナショナル・アーベー オーディオ処理
JP2015525375A (ja) * 2012-06-14 2015-09-03 ドルビー・インターナショナル・アーベー 可変数の受信チャネルに基づくマルチチャネル・オーディオ・レンダリングのためのなめらかな構成切り換え
JP2015525532A (ja) * 2012-06-14 2015-09-03 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオのためのなめらかな構成切り換え
US9552818B2 (en) 2012-06-14 2017-01-24 Dolby International Ab Smooth configuration switching for multichannel audio rendering based on a variable number of received channels
US9601122B2 (en) 2012-06-14 2017-03-21 Dolby International Ab Smooth configuration switching for multichannel audio
JP2017017749A (ja) * 2013-04-05 2017-01-19 ドルビー・インターナショナル・アーベー オーディオ処理システム
US10325607B2 (en) 2013-09-12 2019-06-18 Dolby International Ab Coding of multichannel audio content
US10593340B2 (en) 2013-09-12 2020-03-17 Dolby International Ab Methods and apparatus for decoding encoded audio signal(s)
US11776552B2 (en) 2013-09-12 2023-10-03 Dolby International Ab Methods and apparatus for decoding encoded audio signal(s)
JP2018146975A (ja) * 2013-09-12 2018-09-20 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオ・コンテンツの符号化
JP2016534410A (ja) * 2013-09-12 2016-11-04 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオ・コンテンツの符号化
US11410665B2 (en) 2013-09-12 2022-08-09 Dolby International Ab Methods and apparatus for decoding encoded audio signal(s)
US9899029B2 (en) 2013-09-12 2018-02-20 Dolby International Ab Coding of multichannel audio content
US10777208B2 (en) 2015-03-09 2020-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
JP2020038374A (ja) * 2015-03-09 2020-03-12 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャンネル信号を符号化するためのオーディオエンコーダおよび符号化されたオーディオ信号を復号化するためのオーディオデコーダ
US10395661B2 (en) 2015-03-09 2019-08-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US11107483B2 (en) 2015-03-09 2021-08-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US11238874B2 (en) 2015-03-09 2022-02-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
JP7077290B2 (ja) 2015-03-09 2022-05-30 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャンネル信号を符号化するためのオーディオエンコーダおよび符号化されたオーディオ信号を復号化するためのオーディオデコーダ
US10388287B2 (en) 2015-03-09 2019-08-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US11741973B2 (en) 2015-03-09 2023-08-29 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
JP2018511827A (ja) * 2015-03-09 2018-04-26 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャンネル信号を符号化するためのオーディオエンコーダおよび符号化されたオーディオ信号を復号化するためのオーディオデコーダ
US11881225B2 (en) 2015-03-09 2024-01-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
WO2021261235A1 (ja) * 2020-06-22 2021-12-30 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
CA2727883A1 (en) 2010-04-21
EP2301024B1 (en) 2012-07-25
CA2727883C (en) 2014-09-02
AR072551A1 (es) 2010-09-08
MX2011000534A (es) 2011-04-27
TWI441167B (zh) 2014-06-11
JP5613157B2 (ja) 2014-10-22
CN102099856A (zh) 2011-06-15
KR101224884B1 (ko) 2013-02-06
PL2301024T3 (pl) 2012-12-31
EP2301024A1 (en) 2011-03-30
US20110202355A1 (en) 2011-08-18
EP2146344A1 (en) 2010-01-20
HK1156143A1 (en) 2012-06-01
US8321210B2 (en) 2012-11-27
KR20110055515A (ko) 2011-05-25
BRPI0910999A2 (pt) 2019-05-14
AU2009270524B2 (en) 2012-03-15
TW201009814A (en) 2010-03-01
PL2146344T3 (pl) 2017-01-31
EP2146344B1 (en) 2016-07-06
ES2391715T3 (es) 2012-11-29
US8959017B2 (en) 2015-02-17
CN102099856B (zh) 2012-11-07
WO2010006717A1 (en) 2010-01-21
BRPI0910999B1 (pt) 2020-03-10
RU2483364C2 (ru) 2013-05-27
ES2592416T3 (es) 2016-11-30
HK1138673A1 (zh) 2010-08-27
RU2010154749A (ru) 2012-07-10
US20130066640A1 (en) 2013-03-14
PT2146344T (pt) 2016-10-13
AU2009270524A1 (en) 2010-01-21

Similar Documents

Publication Publication Date Title
US11676611B2 (en) Audio decoding device and method with decoding branches for decoding audio signal encoded in a plurality of domains
JP5613157B2 (ja) 切り換え可能なバイパスを有するオーディオ符号化/復号化方式
JP5325294B2 (ja) 共通の前処理を有する低ビットレート・オーディオ符号化/復号化方式
MX2011003824A (es) Esquema de codificacion/decodificacion de audio conmutado de resolucion multiple.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121106

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130131

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130625

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130925

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131002

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140812

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140905

R150 Certificate of patent or registration of utility model

Ref document number: 5613157

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250