JP5369180B2 - サンプリングされたオーディオ信号のフレームを符号化するためのオーディオエンコーダおよびデコーダ - Google Patents

サンプリングされたオーディオ信号のフレームを符号化するためのオーディオエンコーダおよびデコーダ Download PDF

Info

Publication number
JP5369180B2
JP5369180B2 JP2011517027A JP2011517027A JP5369180B2 JP 5369180 B2 JP5369180 B2 JP 5369180B2 JP 2011517027 A JP2011517027 A JP 2011517027A JP 2011517027 A JP2011517027 A JP 2011517027A JP 5369180 B2 JP5369180 B2 JP 5369180B2
Authority
JP
Japan
Prior art keywords
frame
information
coefficients
prediction
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011517027A
Other languages
English (en)
Other versions
JP2011527459A (ja
Inventor
イェレミー ルコンテ
フィリップ グルネー
シュテファン バイエル
マルクス マルトラス
ニコラウス レッテルバッハ
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
ヴォイスエイジ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ, ヴォイスエイジ・コーポレーション filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2011527459A publication Critical patent/JP2011527459A/ja
Application granted granted Critical
Publication of JP5369180B2 publication Critical patent/JP5369180B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、オーディオ符号化/復号化の分野にあり、特に多重の符号化領域を利用するオーディオ符号化概念の分野にある。
従来技術において、例えばMP3またはAACなどの周波数領域符号化スキームが公知である。これらの周波数領域エンコーダは、時間領域/周波数領域変換と、量子化誤差が心理音響モジュールからの情報を用いて制御される後の量子化ステージと、量子化されたスペクトル係数および対応するサイド情報がコード表を用いてエントロピー符号化される符化ステージとに基づく。
一方、3GPP TS 26.290に記載されているように、例えばAMR−WB+などの音声処理に非常によく適しているエンコーダがある。そのような音声符号化スキームは、時間領域信号のLP(LP=線形予測(Linear Predictive))フィルタリングを実行する。そのようなLPフィルタリングは、入力時間領域信号の線形予測分析から導き出される。そして、結果として生じるLPフィルタ係数は、量子化され/符号化され、さらに、サイド情報として送信される。このプロセスは、LPC(LPC=線形予測符号化(Linear Predictive Coding))として公知である。フィルタの出力で、励起信号としても公知である予測残留信号または予測誤差信号は、ACELPエンコーダの合成による分析ステージを用いて符号化され、または、その代わりに、オーバーラップをともなうフーリエ変換を用いる変換エンコーダを用いて符号化される。ACELP符号化およびTCX符号化とも呼ばれるTransform Coded eXcitation符号化のどちらかの決定は、閉ループまたは開ループアルゴリズムを用いて行われる。
AAC符号化スキームおよびスペクトルバンド複製技術を結合する例えば高性能AAC符号化スキームなどの周波数領域オーディオ符号化スキームは、ジョイントステレオまたは用語「MPEGサラウンド(MPEG surround)」の下で公知であるマルチチャンネル符号化ツールと結合することもできる。
一方、例えばAMR−WB+などの音声エンコーダも、高周波エンハスメントステージおよびステレオ機能性を有する。
周波数領域符号化スキームは、それらが音楽信号のために低ビットレートで高品質を示すという点で有利である。しかしながら、問題は、低ビットレートで音声信号の品質にある。音声符号化スキームは、低ビットレートでさえ音声信号のために高品質を示すが、低ビットレートで音楽信号のために低品質を示す。
周波数領域符号化スキームは、しばしば、いわゆるMDCT(MDCT=修正離散コサイン変換)を利用する。MDCTは、最初に、J. Princen、A. Bradleyの「時間領域エイリアシングキャンセルに基づく分析/合成フィルタバンク設計(Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation)」、IEEE Trans. ASSP、ASSP−34(5):1153−1161、1986に記載されている。MDCTまたはMDCTフィルタバンクは、最新のおよび効率的なオーディオコーダにおいて広く用いられる。この種の信号処理は、以下の利点を提供する。
処理ブロック間のスムースなクロスフェード:それぞれの処理ブロックにおいて信号が(例えばスペクトル係数の量子化のため)異なって変えられる場合であっても、ブロックからブロックへの突然の遷移によるブロッキングアーチファクトがウィンドウ化されたオーバーラップ/加算操作のために生じない。
クリティカルなサンプリング:フィルタバンクの出力でスペクトル値の数がその入力で時間領域入力値の数に等しく、さらに、さらなるオーバーヘッド値が送信されなければならない。
MDCTフィタバンクは、高い周波数選択性および符号化ゲインを提供する。
それらの優れた特性は、時間領域エイリアシングキャンセルの技術を利用することによって達成される。時間領域エイリアシングキャンセルは、2つの隣接するウィンドウ化された信号をオーバーラップ加算することによる合成で行われる。量子化がMDCTの分析および合成ステージ間に適用されない場合、元の信号の完全な再構成が得られる。しかしながら、MDCTは、音楽信号に特に適する符号化スキームのために用いられる。そのような周波数領域符号化スキームは、前述のように、音声信号のための低ビットレートで低減された品質を有するが、特に適合音声コーダは、周波数領域符号化スキームと比較して、同程度のビットレートでより高品質を有しまたは同じ品質のために著しく低ビットレートさえ有する。
「拡張適合マルチレートワイドバンド(AMR−WB+)コーデック(Extended Adaptive Multi−Rate − Wideband (AMR−WB+) codec)」、3GPP TS 26.290 V6.3.0、2005−06、Technical Specificationに定義されるように、例えばAMR−WB+(AMR−WB+=Adaptive Multi−Rate WideBand extended)コーデックなどの音声符号化技術は、MDCTを適用しなく、したがって、特に、クリティカルにサンプリングされた処理においておよび1つのブロックから他のブロックへのクロスオーバーにおいて依存するMDCTの優れた特性からどんな利点もとることができない。したがって、ビットレートに関してどんなペナルティもなしにMDCTによって得られる1つのブロックから他のブロックへのクロスオーバー、したがって、MDCTのクィティカルなサンプリング特性は、音声コーダにおいてまだ得られていない。
単一のハイブリッド符号化スキーム内で音声コーダおよびオーディオコーダを結合するときに、低ビットレートおよび高品質で1つの符号化モードから他の符号化モードへの切替えをどのように得るかという問題がまだある。
従来のオーディオ符号化概念は、通常、オーディオファイルまたは通信の初めに、起動されるように設計されている。これらの従来の概念を用いることにより、例えば予測フィルタなどのフィルタ構造は、符号化または復号化手順の初めに特定の時間で安定な状態に達する。しかしながら、例えば一方では変換ベースの符号化および他方では入力の前の分析による音声符号化を用いる切替えオーディオ符号化システムのために、それぞれのフィルタ構造が、アクティブにおよび連続的に更新されない。例えば、音声コーダは、短時間にしばしば再起動されることが求められ得る。再起動すると、起動時間が最初から始まり、初期状態がゼロにリセットされる。例えば安定な状態に達するために音声コーダが必要とする時間は、特に遷移の品質のためにクリティカルであり得る。
例えばAMR−WB+としての従来の概念(「拡張適合マルチレートワイドバンド(AMR−WB+)コーデック(Extended Adaptive Multi−Rate − Wideband (AMR−WB+) codec)」、3GPP TS 26.290 V6.3.0、2005−06、Technical specification参照)は、変換ベースのコーダおよび音声コーダ間で遷移しまたは切替えるときに、音声コーダの完全なリセットを用いる。
AMR−WB+は、ストップまたはリセットの中間がないと仮定して、信号がフェードインするときに、1回だけ起動するという状態の下で最適化される。そこで、デコーダのすべてのメモリーは、フレームごとに更新することができる。AMR−WB+が信号の中央に用いられる場合において、リセットは、指示されなければならなく、さらに、符化または復号化側において用いられるすべてのメモリーは、ゼロに設定される。したがって、従来の概念は、不安定な状態において強い歪みの導入とともに、長すぎる時間が音声コーダの安定な状態に達する前に適用されるという問題を有する。
従来の概念の別の不利な点は、オーバーヘッドを導入する符号化領域を切替えるときに、それらが長いオーバーラップするセグメントを利用するということであり、符号化効率に不利に影響する。
J. Princen、A. Bradleyの「時間領域エイリアシングキャンセルに基づく分析/合成フィルタバンク設計(Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation)」、IEEE Trans. ASSP、ASSP−34(5):1153−1161、1986 「拡張適合マルチレートワイドバンド(AMR−WB+)コーデック(Extended Adaptive Multi−Rate − Wideband (AMR−WB+) codec)」、3GPP TS 26.290 V6.3.0、2005−06、Technical Specification
本発明の目的は、符号化領域切替えを用いてオーディオ符号化のための改良された概念を提供することである。
この目的は、請求項1に記載のオーディオエンコーダ、請求項に記載のオーディオ信号のフレームを符号化するための方法、請求項に記載のオーディオデコーダ、請求項13に記載のオーディオ信号のフレームを復号化するための方法、および請求項14に記載のコンピュータプログラムによって達成される。
本発明は、上述の問題がリセットの後の対応するフィルタの状態情報を考慮することによってデコーダにおいて解決することができるという知見に基づく。例えば、リセット後に、特定のフィルタの状態がゼロに設定されたときに、フィルタが最初からすなわちすべての状態またはメモリーがゼロに設定されて起動されないが、それから起動して短い起動またはウォームアップ時間を実現することができる特定の状態に関する情報が送られると、フィルタの起動またはウォームアップ手順を短くすることができる。
本発明の別の知見は、切替え状態に関する前記情報がエンコーダまたはデコーダ側において生成することができることである。例えば、予測ベースの符化概念および変換ベースの符化概念を切替えるときに、さらなる情報は、デコーダが実際にその出力を用いなければならない前に安定な状態に予測合成フィルタをとることを可能にするために、切替えの前に提供することができる。
言い換えると、本発明の知見は、特に切替えオーディオコーダにおいて変換領域から予測領域に切替えるときに、予測領域に実際の切替えのすぐ前にフィルタ状態に関するさらなる情報が、切替えアーチファクトを生成する問題を解決することができることである。
本発明の別の知見は、切替えのすぐ前にフィルタまたはメモリーの状態に関する情報を決定するために、切替えに関するそのような情報が、実際の切替えが起こりさらに基本的に前記出力にエンコーダ処理を実行するすぐ前にその出力を考慮することによって、デコーダだけで生成することができることである。いくつかの実施形態は、それとともに従来のエンコーダを用いることができ、さらに、単にデコーダ処理である切替えアーチファクトの問題を低減することができる。前記情報を考慮に入れて、例えば、予測フィルタは、実際の切替えの前に、例えば対応する変換領域デコーダの出力を分析することによって、すでにウォームアップすることができる。
本発明の実施形態は、添付図面を用いて詳述される。
図1は、オーディオエンコーダの実施形態を示す。 図2は、オーディオデコーダの実施形態を示す。 図3は、実施形態によって用いられるウィンドウ形状を示す。 図4aは、MDCTおよび時間領域エイリアシングを示す。 図4bは、MDCTおよび時間領域エイリアシングを示す。 図5は、時間領域エイリアシングキャンセルのための実施形態のブロック図を示す。 図6aは、実施形態において時間領域エイリアシングキャンセルのために処理される信号を示す。 図6bは、実施形態において時間領域エイリアシングキャンセルのために処理される信号を示す。 図6cは、実施形態において時間領域エイリアシングキャンセルのために処理される信号を示す。 図6dは、実施形態において時間領域エイリアシングキャンセルのために処理される信号を示す。 図6eは、実施形態において時間領域エイリアシングキャンセルのために処理される信号を示す。 図6fは、実施形態において時間領域エイリアシングキャンセルのために処理される信号を示す。 図6gは、実施形態において時間領域エイリアシングキャンセルのために処理される信号を示す。 図7aは、線形予測デコーダを用いるときに実施形態において時間領域エイリアシングキャンセルのための信号処理チェーンを示す。 図7bは、線形予測デコーダを用いるときに実施形態において時間領域エイリアシングキャンセルのための信号処理チェーンを示す。 図7cは、線形予測デコーダを用いるときに実施形態において時間領域エイリアシングキャンセルのための信号処理チェーンを示す。 図7dは、線形予測デコーダを用いるときに実施形態において時間領域エイリアシングキャンセルのための信号処理チェーンを示す。 図7eは、線形予測デコーダを用いるときに実施形態において時間領域エイリアシングキャンセルのための信号処理チェーンを示す。 図7fは、線形予測デコーダを用いるときに実施形態において時間領域エイリアシングキャンセルのための信号処理チェーンを示す。 図7gは、線形予測デコーダを用いるときに実施形態において時間領域エイリアシングキャンセルのための信号処理チェーンを示す。 図8aは、時間領域エイリアシングキャンセルをともなう実施形態において信号処理チェーンを示す。 図8bは、時間領域エイリアシングキャンセルをともなう実施形態において信号処理チェーンを示す。 図8cは、時間領域エイリアシングキャンセルをともなう実施形態において信号処理チェーンを示す。 図8dは、時間領域エイリアシングキャンセルをともなう実施形態において信号処理チェーンを示す。 図8eは、時間領域エイリアシングキャンセルをともなう実施形態において信号処理チェーンを示す。 図8fは、時間領域エイリアシングキャンセルをともなう実施形態において信号処理チェーンを示す。 図8gは、時間領域エイリアシングキャンセルをともなう実施形態において信号処理チェーンを示す。 図9aは、実施形態においてエンコーダ側における信号処理を示す。 図9bは、実施形態においてデコーダ側における信号処理を示す。
図1は、オーディオエンコーダ100の実施形態を示す。オーディオエンコーダ100は、符号化されたフレームを得るために、サンプリングされたオーディオ信号のフレームを符化するために構成され、そこにおいて、フレームは、多数の時間領域オーディオサンプルを含む。オーディオエンコーダの実施形態は、オーディオサンプルのフレームに基づいて合成フィルタの係数に関する情報および予測領域フレームに関する情報を決定するための予測符号化分析ステージ110を含む。実施形態において、予測領域フレームは、励起フレームまたは励起フレームのフィルタにかけられたバージョンに対応することができる。以下において、それは、オーディオサンプルのフレームに基づいて合成フィルタの係数に関する情報および予測領域フレームに関する情報を符号化するときに、予測領域符号化にゆだねることができる。
さらに、オーディオエンコーダ100の実施形態は、フレームスペクトルを得るためにオーディオサンプルのフレームを周波数領域に変換するための周波数領域トランスフォーマ120を含む。以下において、それは、フレームスペクトルが符号化されるときに、変換領域符号化にゆだねることができる。さらに、オーディオエンコーダ100の実施形態は、フレームのための符号化されたデータが係数に関する情報および予測領域フレームに関する情報に基づくかそれともフレームスペクトルに基づくかを決定するための符号化領域決定器130を含む。オーディオエンコーダ100の実施形態は、前のフレームの符号化されたデータが前のフレームスペクトルに基づいて符号化されたときに、現在のフレームの符号化されたデータが係数に関する情報および予測領域フレームに関する情報に基づくことを符号化領域決定器が決定するときに、切替え係数に関する情報を決定するためのコントローラ140を含む。オーディオエンコーダ100の実施形態は、予測領域フレームに関する情報、係数に関する情報、切替え領域係数に関する情報および/またはフレームスペクトルを符号化するための冗長性低減エンコーダ150をさらに含む。言い換えれば、符化領域決定器130は、符化領域を決定するが、コントローラ140は、変換領域から予測領域に切替えるときに、切替え係数に関する情報を提供する。
図1において、破線によって表示されるいくらかの接続がある。これらは、実施形態において異なるオプションを示す。例えば、切替え係数に関する情報は、係数に関する情報および予測領域フレームに関する情報がその出力で常に利用できるように、予測符号化分析ステージ110を単に恒久的に実行することによって得ることができる。そして、コントローラ140は、予測符号化分析ステージ110から出力をいつ符号化するか、および、切替え決定が符号化領域決定器130によって行われた後に、周波数領域トランスフォーマ120で出力されるフレームスペクトルをいつ符号化するかを、冗長性低減エンコーダ150に示すことができる。したがって、コントローラ140は、変換領域から予測領域に切替えるときに、切替え係数に関する情報を符号化するために冗長性低減エンコーダ150を制御することができる。
切替えが生じる場合、コントローラ140は、オーバーラップするフレームを符号化するために、冗長性低減エンコーダ150に示すことができ、前のフレームの間、冗長性低減エンコーダ150は、ビットストリームが前のフレームのためにフレームスペクトルと同様に係数に関する情報および予測領域フレームに関する情報の両方とも含む方法で、コントローラ140によって制御することができる。言い換えれば、実施形態において、コントローラは、符号化されたフレームが上述の情報を含むような方法で、冗長性低減エンコーダ150を制御することができる。他の実施態様において、符化領域決定器130は、符化領域を変えて、予測符号化分析ステージ110および周波数領域トランスフォーマ120を切替えることに決定することができる。
これらの実施形態において、コントローラ140は、切替え係数を提供するために、内部でいくらかの分析を行うことができる。実施形態において、切替え係数に関する情報は、フィルタの状態に関する情報、適合コードブックコンテンツ、メモリーの状態、励起信号に関する情報、LPC係数などに対応することができる。切替え係数に関する情報は、予測合成ステージ220のウォームアップまたは初期化を可能にするどんな情報を含んでもよい。
化領域決定器130は、図1において破線によっても示されるオーディオ信号のフレームまたはサンプルに基づいて符化領域をいつ切替えるかに関する決定を行うことができる。他の実施態様において、前記決定は、係数に関する情報、予測領域フレームに関する情報および/またはフレームスペクトルに基づいて行うことができる。
一般に、実施形態は、符化領域決定器130が符化領域をいつ変えるかについて決定する方法に制限されるべきでなく、上述の問題が生じる間、符化領域変更が符化領域決定器130によって決定されることがより重要であり、さらに、いくつかの実施形態において、オーディオエンコーダ100は、上述の不利な影響が少なくとも部分的に補償される方法で調整される。
実施形態において、符化領域決定器130は、信号特性またはオーディオフレームの特性に基づいて決定するために構成することができる。すでに周知のように、オーディオ信号のオーディオ特性は、符号化効率を決定することができ、すなわちオーディオ信号の特定の特性のために、変換ベースの符号化を用いることがより効率的であり、他の特性のために、予測領域符号化を用いることがより有益であり得る。いくつかの実施形態において、符化領域決定器130は、信号が非常に音的または無声音的であるときに、変換ベースの符号化を用いることを決定するために構成され得る。信号が一時的なまたは音声のような信号である場合、符化領域決定器130は、符号化するために述べたように、予測領域フレームを用いることを決定するために構成され得る。
図1において他の破線および矢印によれば、コントローラ140には、係数に関する情報、予測領域フレームに関する情報およびフレームスペクトルが提供され、さらに、コントローラ140は、前記情報に基づいて切替え係数に関する情報を決定するために構成することができる。他の実施態様において、コントローラ140は、切替え係数を決定するために、情報を予測符号化分析ステージ110に提供することができる。実施形態において、切替え係数は、係数に関する情報に対応してもよく、さらに、他の実施形態において、それらは異なる方法で決定されてもよい。
図2は、オーディオデコーダ200の実施形態を示す。オーディオデコーダ200の実施形態は、サンプリングされたオーディオ信号のフレームを得るために、符号化されたフレームを復号化するために構成され、そこにおいて、フレームは、多数の時間領域オーディオサンプルを含む。オーディオデコーダ200の実施形態は、予測領域フレームに関する情報、合成フィルタのための係数に関する情報および/またはフレームスペクトルを得るために、符号化されたフレームを復号化するための冗長性読出しデコーダ210を含む。さらに、オーディオデコーダ200の実施形態は、合成フィルタのための係数に関する情報および予測領域フレームに関する情報に基づいてオーディオサンプルの予測されたフレームを決定するための予測合成ステージ220と、フレームスペクトルから変換されたフレームを得るためにフレームスペクトルを時間領域に変換するための時間領域トランスフォーマ230とを含む。オーディオデコーダ200の実施形態は、サンプリングされたオーディオ信号のフレームを得るために変換されたフレームおよび予測されたフレームを結合するための結合器240をさらに含む。
さらに、オーディオデコーダ200の実施形態は、切替えプロセスを制御するためのコントローラ250を含み、切替えプロセスは、前のフレームが変換されたフレームに基づきさらに現在のフレームが予測されたフレームに基づくときに行われ、コントローラ250は、切替えプロセスが行われるときに予測合成ステージ220が初期化されるように、予測合成ステージ220をトレーニングし、初期化しまたはウォームアップするために、予測合成ステージ220に切替え係数を提供するために構成される。
図2に示される破線矢印によれば、コントローラ250は、オーディオデコーダ200のコンポーネントの部分または全体を制御するように構成され得る。コントローラ250は、例えば、切替え係数に関する特別な情報または前の予測領域フレームに関する情報などを読出すために、冗長性読出しデコーダ210を調整するように構成され得る。他の実施態様において、コントローラ250は、それ自体によって、例えば、結合器240によって復号化されたフレームを提供することによって、結合器240の出力に基づいてLP分析を行うことによって、切替え係数に関する前記情報を導き出すために構成され得る。そして、コントローラ250は、上述のオーバーラップするフレーム、タイミング、時間領域分析および時間領域分析キャンセルなどを確立するために、予測合成ステージ220および時間領域トランスフォーマ230を調整しまたは制御するために構成され得る。
以下において、正確なフィルタ合成を確実にする状態に達する特定の時間を必要とする起動の間、予測子および内部フィルタを含めて、LPCベースの領域コーデックが考慮される。言い換えれば、オーディオエンコーダ100の実施形態において、予測符号化分析ステージ110は、LPC分析に基づいて合成フィルタの係数に関する情報および予測領域フレームに関する情報を決定するために構成することができる。オーディオデコーダ200の実施形態において、予測合成ステージ220は、LPC合成フィルタに基づいて予測フレームを決定するために構成することができる。
最初のLPD(LPD=線形予測領域(Linear Prediction Domain))フレームの初めに矩形ウィンドウを用いさらにLPDベースのコーデックをゼロ状態にリセットすることによって、明らかにこれらの遷移のための理想オプションを提供しないが、その理由は、充分な時間がブロッキングアーチファクトを導入する良好な信号を確立するためにLPDコーデックのために残されないからである。
実施形態において、非LPDモードからLPDモードへの遷移を扱うために、オーバラップウィンドウを用いることができる。言い換えれば、オーディオエンコーダ100の実施形態において、周波数領域トランスフォーマ120は、高速フーリエ変換(FFT=高速フーリエ変換(Fast Fourier Transform))またはMDCT(MDCT=修正離散コサイン変換(Modified Discrete Cosine Transform))に基づいてオーディオサンプルのフレームを変換するために構成することができる。オーディオデコーダ200の実施形態において、時間領域トランスフォーマ230は、逆FFT(IFFT=は、逆FFT)または逆MDCT(IMDCT=逆MDCT)に基づいてフレームスペクトルを時間領域に変換するために構成することができる。
それとともに、実施形態は、変換ベースのモードとも呼ばれ得る非LPDモードにおいてまたは予測分析および合成とも呼ばれるLPDモードにおいて実行することができる。一般に、実施形態は、特にMDCTおよびIMDCTを用いるときに、オーバーラップするウィンドウを用いることができる。言い換えれば、非LPDモードにおいて、時間領域エイリアシング(TDA=Time Domain Aliasing)をともなうオーバーラップするウィンドウ化を用いることができる。それとともに、非LPDモードからLPDモードに切替えるときに、最後の非LPDフレームの時間領域エイリアシングは、補償することができる。実施形態は、LPD符号化を行う前に元の信号において時間領域エイリアシングを導入することができるが、時間領域エイリアシングは、例えばACELP(ACELP=代数コードブック励起線形予測(Algebraic Codebook Excitation Linear Prediction))などの予測ベースの時間領域符号化と互換性がなくてもよい。実施形態は、LPDセグメントの初めにおいてアーチファクトエイリアシングを導入することができ、さらに、非LPD遷移にACELPに関しては同様に時間領域キャンセルを適用することができる。言い換えれば、予測分析および合成は、実施形態においてACELPに基づき得る。
いくつかの実施形態において、アーチファクトエイリアシングは、元の信号の代わりに合成信号から生成される。合成信号が特にLPD起動で不正確であるので、これらの実施形態は、アーチファクトTDAを導入することによってブロックアーチファクトをいくらか補償することができるが、アーチファクトTDAの導入は、アーチファクトの低減とともに不正確の誤差を導入し得る。
図3は、1つの実施形態内で切替えプロセスを示す。図3に表示される実施形態において、切替えプロセスが非LPDモード例えばMDCTモードからLPDモードに切替えると仮定される。図3に示すように、2048個のサンプルの総ウィンドウ長が考慮される。図3の左側において、MDCTウィンドウの立ち上がりは、512個のサンプルを通じて広がって示される。MDCTおよびIMDCTのプロセスの間、MDCTウィンドウの立ち上がりのこれらの512個のサンプルは、完全な2048個のサンプルウィンドウ内で中央に配置された1024個のサンプルを含むMDCTカーネルに図3において割り当てられる次の512個のサンプルに折返される。以下においてさらに詳細に説明されるように、MDCTおよびIMDCTのプロセスによって導入される時間領域エイリアシングは、時間領域エイリアシングがそれぞれの連続的なオーバーラップするMDCTウィンドウによって本質的に補償できることがMDCTの有利な特性の1つであるように、先行するフレームが非LPDモードにおいて符号化されたときにクリティカルでない。
しかしながら、LPDモードに切替えるときに、すなわち現在、図3に示されるMDCTウィンドウの右側部分を考慮するとき、そのような時間領域エイリアシングキャンセルは、自動的に行われなく、それは、LPDモードにおいて復号化される最初のフレームが先行するMDCTフレームで補償するために時間領域エイリアシングを自動的に有しないからである。したがって、オーバーラップする領域において、実施形態は、MDCTカーネルウィンドウの終端に中心がある、すなわち、1536個のサンプルの後に中心がある、128個のサンプルのエリアにおいて図3に示されるように、アーチファクト時間領域エイリアシングを導入することができる。言い換えれば、図3において、アーチファクト時間領域エイリアシングは、最後のMDCTフレームの終端に導入される時間領域エイリアシングで補償するために、LPDモードフレームの初めに、すなわちこの実施形態において最初の128個のサンプルに導入されると仮定される。
好適な実施形態において、MDCTは、1つの領域における符化操作から異なる他の領域における符化操作にクリティカルにサンプリングする切替えを得るために適用され、すなわち、周波数領域トランスフォー120および/または時間領域トランスフォー230の実施形態において行われる。しかしながら、他のすべての変換は、同様に適用することができる。しかしながら、MDCTが好適な実施形態であるので、MDCTは、図4aおよび図4bに関してさらに詳細に述べられる。
図4aは、左側に増加する部分および右側に減少する部分を有するウィンドウ470を示し、そこにおいて、このウィンドウを4つの部分a、b、cおよびdに分割することができる。ウィンドウ470は、図から分かるように、示される50%のオーバーラップ/加算状況においてエイリアシング部分だけを有する。特に、ゼロからNまでのサンプルを有する第1の部分は先行するウィンドウ469の第2の部分に対応し、さらに、ウィンドウ470のサンプルNおよびサンプル2N間に広がる後半部分は、ウィンドウ471の第1の部分にオーバーラップし、ウィンドウ471は示された実施形態のウィンドウi+1にあるが、ウィンドウ470はウィンドウiである。
MDCT操作は、ウィンドウ化および折返し操作並びにその後の変換操作特に後のDCT(DCT=離散コサイン変換(Discrete Cosine Transform))操作の直列接続とみなすことができ、そこにおいて、タイプIVのDCT(DCT−IV)が適用される。特に、折返し操作は、折返しブロックの第1の部分N/2を−cR−dとして計算することによって、さらに、折返し出力のN/2個のサンプルの第2部分をa−bRとして計算することによって得られ、そこにおいて、Rは、逆演算子である。このように、折返し操作は、2N個の入力値が受信されるが、N個の出力値をもたらす。
デコーダ側において対応する展開操作は、等式形で、同様に図4aにおいて示される。
一般に、(a、b、c、d)におけるMDCT操作は、図4aに示されるように、同じ出力値を(−cR−d、a−bR)のDCT−IVとして正確にもたらす。
それに対応して、さらに展開操作を用いて、IMDCT操作は、DCT−IV逆変換の出力に適用される展開操作の出力をもたらす。
したがって、時間エイリアシングは、エンコーダ側において折返し操作を実行することによって導入される。そして、ウィンドウ化および折返し操作の結果は、N個の入力値を必要とするDCT−IVブロック変換を用いて周波数領域に変換される。
デコーダ側において、N個の入力値は、DCT−IV操作を用いて時間領域に逆に変換され、さらに、このため、この逆変換操作の出力は、2N個の出力値であるがエイリアシング出力値を得るために展開操作に変えられる。
折返し操作によって導入され、さらに、展開操作の後にまだそこにあるエイリアシングを取り除くために、オーバーラップ/加算操作が、時間領域エイリアシングキャンセルを行うことができる。
したがって、展開操作の結果がオーバーラップする半分において前のIMDCTの結果とともに加算されるときに、逆にされた項が図4aの下部の方程式においてキャンセルして、例えばbおよびdを簡単に得て、そのため、元のデータを回復する。
ウィンドウ化されたMDCTのためのTDACを得るために、要件が存在し、それは「プリンセンブラッドリー(Princen−Bradley)」条件として公知であり、それは、ウィンドウ係数が、サンプルごとにユニティ(1)をもたらすように時間領域エイリアシングキャンセラにおいて結合される対応するサンプルのために2乗にされたことを意味する。
図4aが、例えば、長ウィンドウまたは短ウィンドウのためのAAC−MDCT(AAC=Advanced Audio Coding)において適用されるようなウィンドウシーケンスを示すが、図4bは、エイリアシング部分に加えて、同様に非エイリアシング部分を有する異なるウィンドウ関数を示す。
図4bは、ゼロ部分a1およびd2を有し、エイリアシング部分472a、472bを有し、さらに、非エイリアシング部分472cを有する分析ウィンドウ関数472を示す。
c2、d1にわたって広がるエイリアシング部分472bは、473bで示される後のウィンドウ473の対応するエイリアシング部分を有する。それに対応して、ウィンドウ473は、非エイリアシング部分473aをさらに含む。図4bは、図4aと比較したときに、ウィンドウ472のためのゼロ部分a1、d1またはウィンドウ473のためのc1があるという事実のため、両方のウィンドウが非エイリアシング部分を受信し、さらに、エイリアシング部分においてウィンドウ関数が図4aにおけるよりも急峻であることを明らかにする。それから見て、エイリアシング部分472aはLkに対応し、非エイリアシング部分472cは部分Mkに対応し、さらに、エイリアシング部分472bは図4bのRkに対応する。
折返し操作がウィンドウ472によってウィンドウ化されるサンプルのブロックに適用されるときに、状況は、図4bにおいて示されるように得られる。第1のN/4個のサンプルにわたって広がる左側部分は、エイリアシングを有する。N/2個のサンプルにわたって広がる第2の部分は、エイリアシングがないが、それは、折返し操作がゼロ値を有するウィンドウ部分に適用されるからであり、さらに、最後のN/4個のサンプルは、再び、エイリアシングの影響を受ける。折返し操作のため、折返し操作の出力値の数はNに等しいが、入力は、実際に、この実施形態におけるN/2の値がウィンドウ472を用いてウィンドウ化操作のためゼロに設定されたけれども、2Nであった。
現在、DCT−IVは、折返し操作の結果に適用されるが、重要なことに、1つの符号化モードから別の符号化モードへの遷移であるエイリアシング部分472は、両方の部分がオーディオサンプルの同じブロックに属しさらに重要なことに同じブロック変換操作に入力されるけれども、非エイリアシング部分より異なって処理される。
図4bは、ウィンドウ472、473、474のウィンドウシーケンスをさらに示し、そこにおいて、ウィンドウ473は、非エイリアシング部分が存在する状況からエイリアシング部分だけが存在する状況までの遷移ウィンドウである。これは、ウィンドウ関数を非対称に成形することによって得られる。ウィンドウ473の右側部分は、図4aのウィンドウシーケンスにおいてウィンドウの右側部分と類似するが、左側部分は、非エイリアシング部分および(c1で)対応するゼロ部分を有する。したがって、図4bは、AACが完全にオーバーラップするウィンドウを用いて実行されるときにMDCT−TCXからAACへの遷移を示し、または、その代わりに、ウィンドウ474がTCXデータブロックを完全にオーバーラップする方法でウィンドウ化するときにAACからMDCT−TCXへの遷移を示し、それは、1つのモードから他のモードに切替えるための理由がないときに、一方ではMDCT−TCXのためのおよび他方ではMDCT−AACのための正規の操作である。
したがって、ウィンドウ473は、「ストップウィンドウ(stop window)」であると呼ぶことができ、それは、ブロックがウィンドウ係数として同数、すなわち図4aまたは図4bの例において2N個のサンプルを有するように設定されるときに、一般のブロックラスターまたはフレームラスターが維持されるように、このウィンドウの長さが少なくとも1つの隣接するウィンドウの長さと同一である好ましい特性をさらに有する。
以下において、アーチファクト時間領域エイリアシングおよび時間領域エイリアシングキャンセルの方法が詳細に述べられる。図5は、信号処理チェーンを表示する実施形態において利用されるブロック図を示す。図6a〜図6gおよび図7a〜図7gは、サンプル信号を示し、そこにおいて、図6a〜図6gは、元の信号が用いられると仮定して時間領域エイリアシングキャンセルの原理プロセスを示し、図7a〜図7gにおいて、サンプル信号が示され、それらは最初のLPDフレームが完全なリセットの後にどんな適合もなしに生じるという仮定に基づいて決定される。
言い換えれば、図5は、非LPDモードからLPDモードへの遷移の場合にLPDモードにおいて最初のフレームのためのアーチファクト時間領域エイリアシングおよび時間領域エイリアシングキャンセルを導入するプロセスの実施形態を示す。図5は、最初に、ウィンドウ化がブロック510において現在のLPDフレームに適用されることを示す。図6a、図6bおよび図7a、7bが示すように、ウィンドウ化は、それぞれの信号のフェードインに対応する。図5においてウィンドウ化ブロック510の上の小さいグラフに示されるように、ウィンドウ化がLk個のサンプルに適用されると仮定される。ウィンドウ化510の後に折返し操作520が続き、それはLk/2個のサンプルをもたらす。折返し操作の結果は、図6cおよび図7cにおいて示される。低減されたサンプル数のため、それぞれの信号の初めにLk/2個のサンプルにわたって広がるゼロ時間があることが分かる。
ブロック510におけるウィンドウ化操作およびブロック520における折返し操作は、MDCTを通じて導入される時間領域エイリアシングとして要約することができる。しかしながら、IMDCTを通じて逆に変換するときに、さらなるエイリアシングの影響が生じる。IMDCTによって呼び起こされる影響は、図5においてブロック530および540によって要約され、それは、逆にされた時間領域エイリアシングとしてまた要約することができる。そして、図5に示されるように、展開がブロック530において行われ、それは、サンプルの数を2倍にする結果、すなわちLk個のサンプル結果をもたらす。それぞれの信号は、図6dおよび図7dにおいて表示される。図6dおよび図7dから、サンプルの数が2倍になり、さらに、時間エイリアシングが導入されたことが分かる。信号をフェードインするために、展開530の操作の後に、別のウィンドウ化操作540が続く。第2のウィンドウ化540の結果は、図6eおよび図7eにおいて示される。最後に、図6eおよび図7eにおいて表示されるアーチファクト時間エイリアシング信号が、オーバーラップし、さらに、非LPDモードにおいて符号化される前のフレームに加算され、それは図5においてブロック550によって示され、さらに、それぞれの信号が図6fおよび図7fにおいて表示される。
言い換えれば、オーディオデコーダ200の実施形態において、結合器240は、図5においてブロック550の機能を行うように構成することができる。
結果として生じる信号は、図6gおよび図7gにおいて示される。要約すると、図6a、図6b、図7a、および図7bによって示される両方の場合において、それぞれのフレームの左側部分がウィンドウ化される。そして、ウィンドウの左側部分が折返され、それが図6cおよび図7cに示される。展開の後(図6dおよび図7d参照)、別のウィンドウ化が適用される(図6eおよび図7e参照)。図6fおよび図7fは、前の非LPDフレームの形状を有する現在のプロセスフレームを示し、さらに、図6gおよび図7gは、オーバーラップおよび加算操作の後の結果に示す。図6a〜図6gから、完全な再構成が、LPDフレームにおいてアーチファクトTDAを適用しさらに前のフレームにオーバーラップおよび加算を適用した後に実施形態によって達成できることが分かる。しかしながら、第2の場合において、すなわち図7a〜図7gに示される場合において、再構成は、完全でない。すでに上述のように、第2の場合において、LPDモードが完全にリセットされ、すなわちLPCの合成の状態およびメモリーがゼロに設定されたと仮定された。これは、最初のサンプルの間、正確でない合成信号をもたらす。この場合、アーチファクトTDAは、完全な再構成よりもむしろ歪みおよびアーチファクトをもたらすオーバーラップ加算を加える(図6gおよび図7g参照)。
図6a〜図6gおよび図8a〜図8gは、アーチファクト時間領域エイリアシングおよび時間領域エイリアシングキャンセルのための元の信号を用いる場合およびLPD起動信号を用いるという別の場合間の別の比較を示すが、図8a〜図8gにおいて、LPD起動時間は、図7a〜図7gにおいて取るよりも長く取ると仮定された。図6a〜図6gおよび図8a〜図8gは、図5に関してすでに説明されたように、同じ操作が適用されたサンプル信号のグラフを示す。図6gおよび図8gを比較して、図8gにおいて表示される信号に導入される歪みおよびアーチファクトが図7gにおいてのそれらよりもさらに著しいことが分かる。図8gにおいて表示される信号は、比較的長い時間の間、多くの歪みを含む。まさに比較のために、図6gは、時間領域エイリアシングキャンセルのための元の信号を考慮するときに、完全な再構成を示す。
本発明の実施形態は、それぞれ、予測符号化分析ステージ110、予測合成ステージ220の実施形態として、例えばLPDコアコーデックの起動時間の速度を上げることができる。実施形態は、元の信号にできるだけ近いように合成された信号の低減を可能にするために、すべての関係したメモリーおよび状態を更新することができ、さらに、図7gおよび図8gにおいて表示されるような歪みを低減することができる。さらに、実施形態において、より長いオーバーラップおよび加算時間は、それらができる時間領域エイリアシングおよび時間領域エイリアシングキャンセルの改良された導入のために可能である。
すでに上述のように、最初のまたは現在のLPDフレームの初めに矩形ウィンドウを用い、さらに、LPDベースのコーデックをゼロ状態にリセットすることは、遷移のための理想オプションではなくてもよい。歪みおよびアーチファクトは、充分な時間が良好な信号を確立するためにLPDコーデックのために残されないので、生じ得る。類似の考慮すべき事項が、コーデックの内部状態変数をどんな定義された初期値にも設定するために保持するが、それは、そのようなコーダの安定な状態が多重信号特性に依存し、さらに、どんな定義され一定の初期状態から起動時間も長くすることができるからである。
オーディオエンコーダ100の実施形態において、コントローラ140は、LPC分析に基づいて合成フィルタのための係数に関する情報および切替え予測領域フレームに関する情報を決定するために構成することができる。言い換えれば、実施形態は、矩形ウィンドウを用いることができ、さらに、LPDコーデックの内部状態をリセットすることができる。いくつかの実施形態において、エンコーダは、前の非LPDフレームから符号化されたフレームに合成サンプルについて、フィルタメモリーに関する情報および/またはACELPによって用いられる適合コードブックを含むことができ、さらに、それらをデコーダに提供することができる。言い換えれば、オーディオエンコーダ100の実施形態は、前の非LPDフレームを復号化することができ、LPC分析を実行することができ、さらに、LPC分析フィルタを、その情報をデコーダに提供するための非LPD合成信号に適用することができる。
すでに上述のように、コントローラ140は、前記情報が前のフレームにオーバーラップするオーディオサンプルのフレームを表すことができるように、切替え係数に関する情報を決定するために構成することができる。
実施形態において、オーディオエンコーダ100は、冗長性低減エンコーダ150を用いて切替え係数に関するそのような情報を符号化するために構成することができる。実施形態の部分として、再起動手順は、ビットストリームにおいて前のフレームに計算されるLPCのさらなるパラメータ情報を送信しまたは含むことによって強化され得る。LPC係数のさらなる設定は、以下においてLPC0と呼ぶことができる。
実施形態において、コーデックは、フレームごとに推定されまたは決定される4つのLPCフィルタ、すなわちLPC1〜LPC4を用いて、そのLPDコア符号化モードにおいて操作することができる。実施形態において、非LPD符号化からLPD符号化への遷移で、前のフレームの終端に中心があるLPC分析に対応することができるさらなるLPCフィルタLPC0が、決定されまたは推定され得る。言い換えれば、実施形態において、前のフレームにオーバーラップするオーディオサンプルのフレームは、前のフレームの終端に中心があり得る。
オーディオデコーダ200の実施形態において、冗長性読出しデコーダ210は、符号化されたフレームから切替え係数に関する情報を復号化ために構成することができる。したがって、予測合成ステージ220は、前のフレームにオーバーラップする切替え予測されたフレームを決定するために構成することができる。別の実施形態において、切替え予測されたフレームは、前のフレームの終端に中心があり得る。
実施形態において、非LPDセグメントまたはフレームの終端に対応するLPCフィルタ、すなわちLPC0は、LPC係数の補間のために、または、ACELPの場合にゼロ入力応答の計算のために用いることができる。
上述のように、このLPCフィルタは、順方向に推定され、すなわち、入力信号に基づいて推定され、エンコーダによって量子化され、さらに、デコーダに送信され得る。他の実施態様において、LPCフィルタは、逆方向に、すなわち、過去の合成された信号に基づくデコーダによって推定することができる。順方向推定は、さらなるビットレートを用いることができるが、より効率的で信頼性の高い起動時間を可能にすることもできる。
言い換えれば、他の実施形態において、オーディオデコーダ200の実施形態内のコントローラ250は、合成フィルタのための係数に関する前のフレーム情報および/または予測領域フレームに関する前のフレーム情報を得るために、前のフレームを分析するために構成することができる。コントローラ250は、さらに、切替え係数として係数に関する前のフレーム情報を予測合成ステージ220に提供するために構成することができる。コントローラ250は、さらに、トレーニングするために予測合成ステージ220に予測領域フレームに関する前のフレーム情報を提供することができる。
オーディオエンコーダ100が切替え係数に関する情報を提供する実施形態において、ビットストリームにおいてビットの量は、わずかに増加し得る。デコーダで分析を行うことは、ビットストリームにおいてビットの量を増加しない。しかしながら、デコーダで分析を行うことは、特別な複雑さを導入し得る。したがって、実施形態において、LPC分析の分解能は、スペクトルダイナミックを低減することによって強化することができ、すなわち、信号のフレームは、プリエンファシスフィルタを通じて最初に前処理することができる。逆低周波エンファシスは、次のフレームを符号化するために必要な励起信号または予測領域フレームを得ることを可能にするオーディオエンコーダ100における場合と同様に、デコーダ200の実施形態に適用することができる。これらのすべてのフィルタは、過去の入力が適用されなかったと想定すれば、すなわちフィルタにおいて状態情報が完全なリセットの後にゼロに設定されると想定すれば、ゼロ状態応答、すなわち現在の入力によるフィルタの出力を与えることができる。一般に、LPD符号化モードが通常に実行しているときに、フィルタにおいて状態情報は、前のフレームのフィルタリングの後に最終状態によって更新される。実施形態において、すでに最初のLPDフレームのために、すべてのフィルタおよび予測子が最初のフレームのための最適なまたは改良されたモードにおいて実行するために初期化される方法で符号化されるLPDの内部フィルタ状態を設定するために、切替え係数/係数に関する情報は、オーディオエンコーダ100によって提供することができ、または、さらなる処理は、デコーダ200で行うことができる。
一般に、予測符号化分析ステージ110によってオーディオエンコーダ100において行われるように、分析のためのフィルタおよび予測子は、合成のためのオーディオデコーダ200において用いられるフィルタおよび予測と区別される。
例えば予測符号化分析ステージ110のように分析のために、これらのフィルタのすべてまたは少なくとも1つは、メモリーを更新するために前のフレームの適切な元のサンプルとともに送ることができる。図9aは、分析のために用いられるフィルタ構造の実施形態を示す。最初のフィルタは、プリエンファシスフィルタ1002であり、それは、LPC分析フィルタ1006、すなわち予測符号化分析ステージ110の分解能を強化するために用いることができる。実施形態において、LPC分析フィルタ1006は、分析ウィンドウ内で例えばハイパスフィルタにかけられた音声サンプルを用いて短期フィルタ係数を計算しまたは評価することができる。言い換えれば、実施形態において、コントローラ140は、前のフレームの復号化されたフレームスペクトルのハイパスフィルタにかけられたバージョンに基づいて切替え係数に関する情報を決定するために構成することができる。同じような方法で、分析がオーディオデコーダ200の実施形態で行われると仮定して、コントローラ250は、前のフレームのハイパスフィルタにかけられたバージョンを分析するために構成することができる。
図9aに示されるように、LP分析フィルタ1006は、知覚的な重み付けフィルタ1004の後にある。実施形態において、知覚的な重み付けフィルタ1004は、コードブックの合成による分析検索において使用することができる。フィルタは、例えば音道共振のように、誤差をフォルマント周波数に近い領域において少なくさらにそれらから離れている領域において多く重み付けることによって、フォルマントのノイズマスキング特性を利用することができる。実施形態において、冗長性低減エンコーダ150は、それぞれの予測領域フレーム/フレームに適合するコードブックに基づいて符号化するために構成することができる。それに対応して、冗長性読出しデコーダ210は、フレームのサンプルに適するコードブックに基づいて復号化するために構成することができる。
図9bは、合成の場合において信号処理のブロック図を示す。合成の場合、実施形態において、すべてのまたは少なくとも1つのフィルタは、メモリーを更新するために前のフレームの適切な合成されたサンプルとともに送ることができる。オーディオデコーダ200の実施形態において、これは、前の非LPDフレームの合成が直接的に利用できるので、直接的であってもよい。しかしながら、オーディオエンコーダ100の実施形態において、合成は、デフォルトによって行われなくてもよく、さらに、それに対応して、合成されたサンプルは、利用できなくてもよい。したがって、オーディオエンコーダ100の実施形態において、コントローラ140は、前の非LPDフレームを復号化するために構成することができる。両方の実施形態、すなわちオーディオエンコーダ100およびオーディオエンコーダ200において、非LPDフレームが復号化されると、前のフレームの合成は、図9bに従ってブロック1012において行うことができる。さらに、LP合成フィルタ1012の出力は、逆知覚的な重み付けフィルタ1014に入力することができ、それの後に、デエンファシスフィルタ1016が適用される。実施形態において、適合されたコードブックは、用いられさらに前のフレームから合成されたサンプルとともに追加され得る。さらなる実施形態において、適合コードブックは、あらゆるサブフレームに適する励起ベクトルを含むことができる。適合コードブックは、長期フィルタ状態から導き出され得る。遅延値は、インデックスとして適合コードブックに用いることができる。実施形態において、適合コードブックを追加するために、励起信号または残留信号は、ゼロメモリーを有する逆重み付けフィルタに量子化された重み付けられた信号をフィルタリングによって最終的に計算され得る。励起は、長期予測子メモリーを更新するために、エンコーダ100で特に必要とされ得る。
本発明の実施形態は、さらなるパラメータを提供しおよび/または変換ベースのコーダによって符号化される前のフレームのサンプルとともにエンコーダまたはデコーダの内部メモリーを送ることによって、フィルタの再起動手順を強化しまたは加速することができるという利点を提供することができる。
実施形態は、関係したメモリーの全体または部分を更新することによってLPCコアコーデックの起動手順のスピードアップの利点を提供することができ、特に完全なリセットを用いるときに、従来の概念を用いるよりも元の信号に近い合成された信号をもたらすことができる。さらに、実施形態は、より長いオーバーラップおよび加算ウィンドウを可能にすることができ、さらに、それとともに時間領域エイリアシングキャンセルの改良された使用を可能にすることができる。実施形態は、音声コーダの不安定な状態を短くすることができるという利点を提供することができ、変換ベースのコーダから音声コーダへの遷移の間に生成されたアーチファクトを低減することができる。
本発明の方法の特定の実現要求に応じて、本発明の方法は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協動する(または協働することができる)、電子的に可読の制御信号を格納したデジタル記憶媒体、特にディスク、DVD、CDを用いて実行することができる。
そのため、本発明は、一般に、機械可読のキャリアに格納されたプログラムコードを有するコンピュータプログラム製品であり、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、方法の1つを実行するために作動される。
したがって、言い換えれば、本発明の方法は、コンピュータプログラムがコンピュータ上で実行されるときに、本発明の方法のうちの少なくとも1つを実行するためのプログラムコードを有するコンピュータプログラムである。
前述のものは、特にその特定の実施形態に関して示されさらに説明されたが、その精神および範囲から逸脱することなく、構造および詳細においてさまざまな他の変更が可能であることは、当業者にとって理解されることである。さまざまな変更が、ここに開示される上位概念から逸脱することなく異なる実施形態に適合する際に可能でありさらに続く請求項によって理解されることは、理解されることである。

Claims (14)

  1. 符号化されたフレームを得るためにサンプリングされたオーディオ信号のフレームを符化するために構成されるオーディオエンコーダ(100)であって、そこにおいて、フレームは時間領域オーディオサンプルを含み、前記オーディオエンコーダは、
    オーディオサンプルのフレームに基づいて合成フィルタの係数に関する情報および予測領域フレームに関する情報を決定するための予測符号化分析ステージ(110)、
    フレームスペクトルを得るためにオーディオサンプルのフレームを周波数領域に変換するための周波数領域トランスフォーマ(120)、
    フレームのための符号化されたデータが前記係数に関する前記情報および前記予測領域フレームに関する前記情報に基づくかそれとも前記フレームスペクトルに基づくかを決定するための符化領域決定器(130)、
    前のフレームの符号化されたデータが、前記周波数領域トランスフォーマによって得られる前のフレームスペクトルに基づいて符号化されたときに、現在のフレームの符号化されたデータが前記係数に関する前記情報および前記予測領域フレームに関する前記情報に基づくことを前記符化領域決定器が決定するときに、前記前のフレームのLPC分析に基づいてさらに前記前のフレームの復号化されたフレームスペクトルのハイパスフィルタにかけられたバージョンに基づいて、予測合成ステージの初期化を可能にする情報を含む切替え係数に関する情報を決定するためのコントローラ(140)、および
    前記フレームのために、前記予測領域フレームに関する前記情報、前記係数に関する前記情報、前記切替え係数に関する前記情報および前記フレームスペクトルを符号化するための冗長性低減エンコーダ(150)を含、オーディオエンコーダ。
  2. 前記予測符号化分析ステージ(110)は、LPC(LPC=線形予測符号化(Linear Prediction Coding))分析に基づいて前記合成フィルタの前記係数に関する前記情報および前記予測領域フレームに関する前記情報を決定するために構成され、および/または、前記周波数領域トランスフォーマ(120)は、高速フーリエ変換(FFT)または修正離散コサイン変換(MDCT)に基づいてオーディオサンプルの前記フレームを変換するために構成される、請求項1に記載のオーディオエンコーダ(100)。
  3. 前記コントローラ(140)は、前記LPC分析に基づいて合成フィルタのための係数に関する情報および切替え予測領域フレームに関する情報を前記切替え係数に関する情報として決定するために構成される、請求項1または請求項2に記載のオーディオエンコーダ(100)。
  4. 前記コントローラ(140)は、前記切替え係数が前記前のフレームにオーバーラップするオーディオサンプルのフレームを表すように、前記切替え係数に関する前記情報を決定するために構成される、請求項1ないし請求項3の1つに記載のオーディオエンコーダ(100)。
  5. 前記前のフレームにオーバーラップするオーディオサンプルの前記フレームは、前記前のフレームの終端に中心がある、請求項4に記載のオーディオエンコーダ(100)。
  6. 符号化されたフレームを得るためにサンプリングされたオーディオ信号のフレームを符号化するための方法であって、そこにおいて、フレームは時間領域オーディオサンプルを含み、前記方法は、
    オーディオサンプルのフレームに基づいて合成フィルタの係数に関する情報および予測領域フレームに関する情報を決定するステップ、
    フレームスペクトルを得るためにオーディオサンプルのフレームを周波数領域に変換するステップ、
    フレームのための符号化されたデータが前記係数に関する前記情報および前記予測領域フレームに関する前記情報に基づくかそれとも前記フレームスペクトルに基づくかを決定するステップ、
    前のフレームの符号化されたデータが、前記周波数領域への変換によって得られる前のフレームスペクトルに基づいて符号化されたときに、現在のフレームの符号化されたデータが前記係数に関する前記情報および前記予測領域フレームに関する前記情報に基づくことを決定するときに、前記前のフレームのLPC分析に基づいてさらに前記前のフレームの復号化されたフレームスペクトルのハイパスフィルタにかけられたバージョンに基づいて、予測合成ステージの初期化を可能にする情報を含む切替え係数に関する情報を決定するステップ、および
    前記フレームのために、前記予測領域フレームに関する前記情報、前記係数に関する前記情報、前記切替え係数に関する前記情報および前記フレームスペクトルを符号化するステップを含、方法。
  7. サンプリングされたオーディオ信号のフレームを得るために符号化されたフレームを復号化するためのオーディオデコーダ(200)であって、そこにおいて、フレームは時間領域オーディオサンプルを含み、前記オーディオデコーダは、
    符号化されたデータが合成フィルタの係数に関する情報および予測領域フレームに関する情報に基づくフレームのために、前記予測領域フレームに関する前記情報および合成フィルタのための係数に関する前記情報と、符号化されたデータがフレームスペクトルに基づくフレームのために、前記フレームスペクトルを得るために前記符号化されたフレームを復号化するための冗長性読出しデコーダ(210)、
    前記符号化されたデータが前記合成フィルタの係数に関する前記情報および前記予測領域フレームに関する前記情報に基づく前記フレームのために、前記合成フィルタのための前記係数に関する前記情報および前記予測領域フレームに関する前記情報に基づいてオーディオサンプルの予測されたフレームを決定するための予測合成ステージ(220)、
    前記符号化されたデータが前記フレームスペクトルに基づく前記フレームのために、前記フレームスペクトルから変換されたフレームを得るために前記フレームスペクトルを前記時間領域に変換するための時間領域トランスフォーマ(230)、
    前記サンプリングされたオーディオ信号の前記フレームを得るために前記変換されたフレームおよび前記予測されたフレームを結合するための結合器(240)、および
    切替えプロセスを制御するためのコントローラ(250)であって、前記切替えプロセスは、前のフレームが変換されたフレームに基づきさらに現在のフレームが予測されたフレームに基づくときに行われ、前記コントローラ(250)は、前記切替えプロセスが行われるときに前記予測合成ステージ(220)が初期化されるように、前記前のフレームの終端に対応するLPCフィルタを推定することによって前記予測合成ステージ(220)の初期化のために前記予測合成ステージ(220)に切替え係数を提供するために構成される、コントローラ(250)を含む、オーディオデコーダ。
  8. 前記冗長性読出しデコーダ(210)は、前記符号化されたフレームから前記切替え係数に関する情報を復号化するために構成される、請求項7に記載のオーディオデコーダ(200)。
  9. 前記予測合成ステージ(220)は、LPC合成に基づいて前記予測フレームを決定するために構成され、および/または、前記時間領域トランスフォーマ(230)は、逆FFTまたは逆MDCTに基づいて前記フレームスペクトルを前記時間領域に変換するために構成される、請求項7または請求項8に記載のオーディオデコーダ(200)。
  10. 前記コントローラ(250)は、合成フィルタのための係数に関する前のフレーム情報および予測領域フレームに関する前のフレーム情報を得るために前記前のフレームを分析するために構成され、さらに、前記コントローラ(250)は、切替え係数として係数に関する前記前のフレーム情報を前記予測合成ステージ(220)に提供するために構成され、および/または、前記コントローラ(250)は、トレーニングするために前記予測合成ステージ(220)に前記予測領域フレームに関する前記前のフレーム情報をさらに提供するために構成される、請求項7ないし請求項9の1つに記載のオーディオデコーダ(200)。
  11. 前記予測合成ステージ(220)は、前記前のフレームの終端に中心がある切替え予測フレームを決定するために構成される、請求項7ないし請求項10の1つに記載のオーディオデコーダ(200)。
  12. 前記コントローラ(250)は、前記前のフレームのハイパスフィルタにかけられたバージョンを分析するために構成される、請求項7ないし請求項11の1つに記載のオーディオデコーダ(200)。
  13. サンプリングされたオーディオ信号のフレームを得るために符号化されたフレームを復号化するための方法であって、そこにおいて、フレームは時間領域オーディオサンプルを含み、前記方法は、
    符号化されたデータが合成フィルタの係数に関する情報および予測領域フレームに関する情報に基づくフレームのために、前記予測領域フレームに関する前記情報および前記合成フィルタのための前記係数に関する前記情報と、符号化されたデータがフレームスペクトルに基づくフレームのために、前記フレームスペクトルを得るために前記符号化されたフレームを復号化するステップ、
    前記符号化されたデータが前記合成フィルタの係数に関する前記情報および前記予測領域フレームに関する前記情報に基づく前記フレームのために、前記合成フィルタのための前記係数の前記情報および前記予測領域フレームに関する前記情報に基づいてオーディオサンプルの予測されたフレームを決定するステップ、
    前記符号化されたデータが前記フレームスペクトルに基づく前記フレームのために、前記フレームスペクトルから変換されたフレームを得るために前記フレームスペクトルを前記時間領域に変換するステップ、
    前記サンプリングされたオーディオ信号の前記フレームを得るために前記変換されたフレームおよび前記予測されたフレームを結合するステップ、および
    切替えプロセスを制御するステップであって、前記切替えプロセスは、前のフレームが変換されたフレームに基づきさらに現在のフレームが予測されたフレームに基づくときに行われる、ステップ、
    前記切替えプロセスが行われるときに予測合成ステージが初期化されるように、前記前のフレームの終端に対応するLPCフィルタを推定することによって初期化のために切替え係数を提供するステップを含む、方法。
  14. コンピュータプログラムがコンピュータまたはプロセッサ上で実行されるときに、請求項6または請求項13の方法の1つを実行するためのプログラムコードを有するコンピュータプログラム。
JP2011517027A 2008-07-11 2009-07-08 サンプリングされたオーディオ信号のフレームを符号化するためのオーディオエンコーダおよびデコーダ Active JP5369180B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US7985108P 2008-07-11 2008-07-11
US61/079,851 2008-07-11
US10382508P 2008-10-08 2008-10-08
US61/103,825 2008-10-08
PCT/EP2009/004947 WO2010003663A1 (en) 2008-07-11 2009-07-08 Audio encoder and decoder for encoding frames of sampled audio signals

Publications (2)

Publication Number Publication Date
JP2011527459A JP2011527459A (ja) 2011-10-27
JP5369180B2 true JP5369180B2 (ja) 2013-12-18

Family

ID=41110884

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011517027A Active JP5369180B2 (ja) 2008-07-11 2009-07-08 サンプリングされたオーディオ信号のフレームを符号化するためのオーディオエンコーダおよびデコーダ

Country Status (19)

Country Link
US (1) US8751246B2 (ja)
EP (1) EP2311034B1 (ja)
JP (1) JP5369180B2 (ja)
KR (1) KR101227729B1 (ja)
CN (1) CN102105930B (ja)
AR (1) AR072556A1 (ja)
AU (1) AU2009267394B2 (ja)
BR (3) BR122021009256B1 (ja)
CA (1) CA2730315C (ja)
CO (1) CO6351832A2 (ja)
ES (1) ES2558229T3 (ja)
HK (1) HK1157489A1 (ja)
MX (1) MX2011000369A (ja)
MY (1) MY156654A (ja)
PL (1) PL2311034T3 (ja)
RU (1) RU2498419C2 (ja)
TW (1) TWI441168B (ja)
WO (1) WO2010003663A1 (ja)
ZA (1) ZA201100090B (ja)

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8576096B2 (en) 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
MY181231A (en) * 2008-07-11 2020-12-21 Fraunhofer Ges Zur Forderung Der Angenwandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
PL2301020T3 (pl) * 2008-07-11 2013-06-28 Fraunhofer Ges Forschung Urządzenie i sposób do kodowania/dekodowania sygnału audio z użyciem algorytmu przełączania aliasingu
KR101649376B1 (ko) 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
WO2010044593A2 (ko) 2008-10-13 2010-04-22 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
US9384748B2 (en) * 2008-11-26 2016-07-05 Electronics And Telecommunications Research Institute Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching
US8219408B2 (en) 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8140342B2 (en) 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US8200496B2 (en) 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
JP4977157B2 (ja) 2009-03-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
JP4977268B2 (ja) * 2011-12-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US9275650B2 (en) 2010-06-14 2016-03-01 Panasonic Corporation Hybrid audio encoder and hybrid audio decoder which perform coding or decoding while switching between different codecs
EP2466580A1 (en) 2010-12-14 2012-06-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Encoder and method for predictively encoding, decoder and method for decoding, system and method for predictively encoding and decoding and predictively encoded information signal
FR2969805A1 (fr) * 2010-12-23 2012-06-29 France Telecom Codage bas retard alternant codage predictif et codage par transformee
PL2676265T3 (pl) * 2011-02-14 2019-09-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób do kodowania sygnału audio z stosowaniem zrównanej części antycypacji
PL2676264T3 (pl) 2011-02-14 2015-06-30 Fraunhofer Ges Forschung Koder audio estymujący szum tła podczas faz aktywnych
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
US9037456B2 (en) * 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
EP2772914A4 (en) * 2011-10-28 2015-07-15 Panasonic Corp DECODER FOR HYBRID SOUND SIGNALS, COORDINATORS FOR HYBRID SOUND SIGNALS, DECODING PROCEDURE FOR SOUND SIGNALS AND CODING SIGNALING PROCESSES
CN104040624B (zh) * 2011-11-03 2017-03-01 沃伊斯亚吉公司 改善低速率码激励线性预测解码器的非语音内容
US9043201B2 (en) * 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
US9601122B2 (en) 2012-06-14 2017-03-21 Dolby International Ab Smooth configuration switching for multichannel audio
US9123328B2 (en) * 2012-09-26 2015-09-01 Google Technology Holdings LLC Apparatus and method for audio frame loss recovery
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
GB201219090D0 (en) * 2012-10-24 2012-12-05 Secr Defence Method an apparatus for processing a signal
CN103915100B (zh) * 2013-01-07 2019-02-15 中兴通讯股份有限公司 一种编码模式切换方法和装置、解码模式切换方法和装置
BR112015018040B1 (pt) 2013-01-29 2022-01-18 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Ênfase de baixa frequência para codificação com base em lpc em domínio de frequência
CA2899542C (en) 2013-01-29 2020-08-04 Guillaume Fuchs Noise filling without side information for celp-like coders
RU2625560C2 (ru) * 2013-02-20 2017-07-14 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ кодирования или декодирования аудиосигнала с использованием перекрытия, зависящего от местоположения перехода
FR3003683A1 (fr) * 2013-03-25 2014-09-26 France Telecom Mixage optimise de flux audio codes selon un codage par sous-bandes
FR3003682A1 (fr) * 2013-03-25 2014-09-26 France Telecom Mixage partiel optimise de flux audio codes selon un codage par sous-bandes
KR20140117931A (ko) 2013-03-27 2014-10-08 삼성전자주식회사 오디오 디코딩 장치 및 방법
EP2981897A4 (en) 2013-04-03 2016-11-16 Hewlett Packard Entpr Dev Lp DEACTIVATION OF FALSIFIED CARTRIDGES
JP6201043B2 (ja) 2013-06-21 2017-09-20 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. エラー封じ込め中の切替音声符号化システムについての向上した信号フェードアウトのための装置及び方法
US9666202B2 (en) 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
CN107369455B (zh) 2014-03-21 2020-12-15 华为技术有限公司 语音频码流的解码方法及装置
US9685164B2 (en) * 2014-03-31 2017-06-20 Qualcomm Incorporated Systems and methods of switching coding technologies at a device
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980797A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
EP2980796A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
FR3024582A1 (fr) 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
CN106297813A (zh) 2015-05-28 2017-01-04 杜比实验室特许公司 分离的音频分析和处理
WO2017050398A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
CN109328382B (zh) * 2016-06-22 2023-06-16 杜比国际公司 用于将数字音频信号从第一频域变换到第二频域的音频解码器及方法
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
WO2020207593A1 (en) * 2019-04-11 2020-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program
US11437050B2 (en) * 2019-09-09 2022-09-06 Qualcomm Incorporated Artificial intelligence based audio coding
US11694692B2 (en) 2020-11-11 2023-07-04 Bank Of America Corporation Systems and methods for audio enhancement and conversion

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3943879B4 (de) * 1989-04-17 2008-07-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Digitales Codierverfahren
US5533052A (en) * 1993-10-15 1996-07-02 Comsat Corporation Adaptive predictive coding with transform domain quantization based on block size adaptation, backward adaptive power gain control, split bit-allocation and zero input response compensation
JPH09506478A (ja) * 1994-10-06 1997-06-24 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ 光放射半導体ダイオード及びこのようなダイオードの製造方法
JP2856185B2 (ja) * 1997-01-21 1999-02-10 日本電気株式会社 音声符号化復号化システム
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
AU2002307884A1 (en) * 2002-04-22 2003-11-03 Nokia Corporation Method and device for obtaining parameters for parametric speech coding of frames
US7328150B2 (en) * 2002-09-04 2008-02-05 Microsoft Corporation Innovations in pure lossless audio compression
US7424434B2 (en) * 2002-09-04 2008-09-09 Microsoft Corporation Unified lossy and lossless audio compression
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
RU2005135650A (ru) * 2003-04-17 2006-03-20 Конинклейке Филипс Электроникс Н.В. (Nl) Синтез аудиосигнала
JP2005057591A (ja) * 2003-08-06 2005-03-03 Matsushita Electric Ind Co Ltd オーディオ信号符号化装置及びオーディオ信号復号化装置
US7325023B2 (en) * 2003-09-29 2008-01-29 Sony Corporation Method of making a window type decision based on MDCT data in audio encoding
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
CN100561576C (zh) * 2005-10-25 2009-11-18 芯晟(北京)科技有限公司 一种基于量化信号域的立体声及多声道编解码方法与系统
KR20070077652A (ko) * 2006-01-24 2007-07-27 삼성전자주식회사 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법
CN101086845B (zh) * 2006-06-08 2011-06-01 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
EP2092517B1 (en) * 2006-10-10 2012-07-18 QUALCOMM Incorporated Method and apparatus for encoding and decoding audio signals
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
JP5171842B2 (ja) * 2006-12-12 2013-03-27 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 時間領域データストリームを表している符号化および復号化のための符号器、復号器およびその方法
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
KR20100007738A (ko) * 2008-07-14 2010-01-22 한국전자통신연구원 음성/오디오 통합 신호의 부호화/복호화 장치
ES2592416T3 (es) * 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
BR122020024236B1 (pt) * 2009-10-20 2021-09-14 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E. V. Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio, método para prover uma representação decodificada de um conteúdo de áudio e programa de computador para uso em aplicações de baixo retardamento
WO2011048117A1 (en) * 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
BR112012009490B1 (pt) * 2009-10-20 2020-12-01 Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados
CN103477387B (zh) * 2011-02-14 2015-11-25 弗兰霍菲尔运输应用研究公司 使用频谱域噪声整形的基于线性预测的编码方案

Also Published As

Publication number Publication date
AU2009267394B2 (en) 2012-10-18
HK1157489A1 (en) 2012-06-29
AR072556A1 (es) 2010-09-08
BRPI0910784B1 (pt) 2022-02-15
TWI441168B (zh) 2014-06-11
KR101227729B1 (ko) 2013-01-29
WO2010003663A1 (en) 2010-01-14
US20110173008A1 (en) 2011-07-14
PL2311034T3 (pl) 2016-04-29
EP2311034B1 (en) 2015-11-04
BR122021009256B1 (pt) 2022-03-03
TW201009815A (en) 2010-03-01
CN102105930A (zh) 2011-06-22
CO6351832A2 (es) 2011-12-20
JP2011527459A (ja) 2011-10-27
EP2311034A1 (en) 2011-04-20
KR20110052622A (ko) 2011-05-18
CN102105930B (zh) 2012-10-03
US8751246B2 (en) 2014-06-10
AU2009267394A1 (en) 2010-01-14
MX2011000369A (es) 2011-07-29
CA2730315C (en) 2014-12-16
ES2558229T3 (es) 2016-02-02
MY156654A (en) 2016-03-15
ZA201100090B (en) 2011-10-26
RU2011104004A (ru) 2012-08-20
BRPI0910784A2 (pt) 2021-04-20
BR122021009252B1 (pt) 2022-03-03
CA2730315A1 (en) 2010-01-14
RU2498419C2 (ru) 2013-11-10

Similar Documents

Publication Publication Date Title
JP5369180B2 (ja) サンプリングされたオーディオ信号のフレームを符号化するためのオーディオエンコーダおよびデコーダ
JP5551693B2 (ja) エイリアシングスイッチスキームを用いてオーディオ信号を符号化/復号化するための装置および方法
EP3268957B1 (en) Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
TWI435317B (zh) 音訊信號編碼器、音訊信號解碼器、用以提供音訊內容之編碼表示型態之方法、用以提供音訊內容之解碼表示型態之方法及使用於低延遲應用之電腦程式
EP2591470B1 (en) Coder using forward aliasing cancellation
TWI479478B (zh) 用以使用對齊的預看部分將音訊信號解碼的裝置與方法
CN109155133B (zh) 音频帧丢失隐藏的错误隐藏单元、音频解码器及相关方法
KR20120082435A (ko) 멀티 모드 오디오 코덱 및 이를 위해 적응된 celp 코딩
US9984696B2 (en) Transition from a transform coding/decoding to a predictive coding/decoding
JP6538820B2 (ja) スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオ・デコーダ、方法及びコンピュータ・プログラム
RU2574849C2 (ru) Устройство и способ для кодирования и декодирования аудиосигнала с использованием выровненной части опережающего просмотра

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121113

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130208

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130913

R150 Certificate of patent or registration of utility model

Ref document number: 5369180

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250