JP5357040B2 - オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置 - Google Patents

オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置 Download PDF

Info

Publication number
JP5357040B2
JP5357040B2 JP2009537084A JP2009537084A JP5357040B2 JP 5357040 B2 JP5357040 B2 JP 5357040B2 JP 2009537084 A JP2009537084 A JP 2009537084A JP 2009537084 A JP2009537084 A JP 2009537084A JP 5357040 B2 JP5357040 B2 JP 5357040B2
Authority
JP
Japan
Prior art keywords
signal
domain
unit
encoding
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009537084A
Other languages
English (en)
Other versions
JP2010510540A (ja
Inventor
オー,ウン−ミ
ソン,チャン−ヨン
チュー,ギ−ヒョン
キム,ジュン−フェ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2010510540A publication Critical patent/JP2010510540A/ja
Application granted granted Critical
Publication of JP5357040B2 publication Critical patent/JP5357040B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

実施例は、コーデックに係り、より詳細には、スピーチ信号及び/またはオーディオ信号を符号化する方法及び装置に関する。
従来のコーデックは、スピーチコーデックとオーディオコーデックに分類される。スピーチコーデックは、音声発声モデルを利用して、主に50Hzから7kHzに至る周波数帯域に該当する信号を符号化または復号化する。このようなスピーチコーデックは、一般的に声帯と声道とをモデリングすることで、音声信号を代表するパラメータを抽出して符号化及び復号化を行う。オーディオコーデックは、HE−AACのように心理音響モデルを適用し、主に0Hzから24Hzに至る周波数帯域に該当する信号を符号化または復号化する。このようなオーディオコーデックは、人間の聴覚特性を利用して感度の低い信号を省略することによって符号化及び復号化を行う。
しかし、このようなスピーチコーデックとオーディオコーデックは、スピーチ信号とオーディオ信号とをいずれも効率的に行い難い問題点を有する。スピーチコーデックは、スピーチ信号の符号化/復号化に適しているが、オーディオ信号を符号化または復号化するに当たって音質が低下する。オーディオコーデックは、オーディオ信号を符号化するか、復号化する場合、圧縮効果に優れるが、音声信号を符号化/復号化するに当たって信号を圧縮する効率が落ちる。したがって、スピーチ信号、オーディオ信号、スピーチとオーディオとが混合された信号を各々符号化/復号化するに当たって、少ないビットを利用するにもかかわらず、音質を向上させうる方法及び装置が要求される。
実施例は、スピーチ信号及び/またはオーディオ信号をいずれも効率的に符号化/復号化する方法及び装置を提供する。
実施例による側面及びユーティリティは、入力信号を少なくとも1つ以上のドメインに変換する段階と、前記入力信号または前記変換された信号を利用して既定の単位別に符号化するドメインを決定する段階と、前記決定されたドメインで各単位に設けられた信号を符号化する段階と、を含む信号符号化方法を提供することによって達成されうる。
実施例による側面及びユーティリティは、入力信号を利用して既定の単位別に符号化する少なくとも1つ以上のドメインを決定する段階と、各単位に設けられた信号を前記決定されたドメインに変換して符号化する段階と、を含む信号符号化方法を提供することによって達成されうる。
実施例による側面及びユーティリティは、既定の単位に設けられた各信号が符号化されたドメインを判断する段階と、各単位に設けられた信号を前記判断されたドメインで復号化する段階と、前記復号化された各単位に設けられた信号を合成して、信号を復元する段階と、を含む信号復号化方法を提供することによって達成されうる。
実施例による側面及びユーティリティは、入力信号を少なくとも1つ以上のドメインに変換し、前記入力信号または前記変換された信号を利用して既定の単位別に符号化するドメインを決定する変換部と、前記決定されたドメインで各単位に設けられた信号を符号化する符号化部と、を備える信号符号化装置を提供することによって達成されうる。
実施例による側面及びユーティリティは、既定の単位に設けられた各信号が符号化されたドメインを判断する逆多重化部と、各単位に設けられた信号を前記判断されたドメインで復号化する復号化部と、前記復号化された各単位に設けられた信号を合成して信号を復元する変換部と、を備える信号復号化装置を提供することによって達成されうる。
実施例による側面及びユーティリティは、入力信号を少なくとも1つ以上のドメインに変換し、前記入力信号または前記変換された信号を利用して既定の単位別に符号化するドメインを決定し、前記決定されたドメインで各単位に設けられた信号を符号化する符号化部と、既定の単位に設けられた各信号が符号化されたドメインを判断し、各単位に設けられた信号を前記判断されたドメインで復号化し、前記復号化された各単位に設けられた信号を合成して信号を復元する復号化部と、を備える信号符号化及び/または復号化装置を提供することによって達成されうる。
実施例による側面及びユーティリティは、入力信号を少なくとも1つ以上のドメインに変換し、前記入力信号または前記変換された信号を利用して既定の単位別に符号化するドメインを決定し、前記決定されたドメインで各単位に設けられた信号を符号化する方法と、既定の単位に設けられた各信号が符号化されたドメインを判断し、各単位に設けられた信号を前記判断されたドメインで復号化し、前記復号化された各単位に設けられた信号を合成して信号を復元する方法を実行させるプログラムとしてコンピュータで読取り可能なコードを含むコンピュータで読取り可能な媒体を提供することによって達成されうる。
オーディオ及び/またはスピーチ信号符号化装置の一実施例を示すブロック図である。 図1に示されたオーディオ及び/またはスピーチ信号符号化装置で周波数ドメイン符号化部の一実施例を示すブロック図である。 図1に示されたオーディオ及び/またはスピーチ信号符号化装置で周波数ドメイン符号化部の他の実施例を示すブロック図である。 オーディオ及び/またはスピーチ信号符号化装置の他の実施例を示すブロック図である。 オーディオ及び/またはスピーチ信号符号化装置の他の実施例を示すブロック図である。 オーディオ及び/またはスピーチ信号符号化装置の他の実施例を示すブロック図である。 オーディオ及び/またはスピーチ信号符号化装置の他の実施例を示すブロック図である。 オーディオ及び/またはスピーチ信号符号化装置の他の実施例を示すブロック図である。 オーディオ及び/またはスピーチ信号符号化装置の他の実施例を示すブロック図である。 オーディオ及び/またはスピーチ信号符号化装置の他の実施例を示すブロック図である。 オーディオ及び/またはスピーチ信号復号化装置の一実施例を示すブロック図である。 図11に示されたオーディオ及び/またはスピーチ信号復号化装置で周波数ドメイン復号化部の一実施例を示すブロック図である。 図11に示されたオーディオ及び/またはスピーチ信号復号化装置で周波数ドメイン復号化部の他の一実施例を示すブロック図である。 オーディオ及び/またはスピーチ信号復号化装置の他の実施例を示すブロック図である。 オーディオ及び/またはスピーチ信号復号化装置の他の実施例を示すブロック図である。 オーディオ及び/またはスピーチ信号復号化装置の他の実施例を示すブロック図である。 オーディオ及び/またはスピーチ信号復号化装置の他の実施例を示すブロック図である。 オーディオ及び/またはスピーチ信号復号化装置の他の実施例を示すブロック図である。 オーディオ及び/またはスピーチ信号復号化装置の他の実施例を示すブロック図である。 オーディオ及び/またはスピーチ信号復号化装置の他の実施例を示すブロック図である。 オーディオ及び/またはスピーチ信号符号化方法についての一実施例を示すフローチャートである。 図21に示されたオーディオ及び/またはスピーチ信号符号化方法の一実施例を示すフローチャートである。 図21に示されたオーディオ及び/またはスピーチ信号符号化方法の他の実施例を示すフローチャートである。 オーディオ及び/またはスピーチ信号符号化方法についての他の実施例を示すフローチャートである。 オーディオ及び/またはスピーチ信号符号化方法についての他の実施例を示すフローチャートである。 オーディオ及び/またはスピーチ信号符号化方法についての他の実施例を示すフローチャートである。 オーディオ及び/またはスピーチ信号符号化方法についての他の実施例を示すフローチャートである。 オーディオ及び/またはスピーチ信号符号化方法についての他の実施例を示すフローチャートである。 オーディオ及び/またはスピーチ信号符号化方法についての他の実施例を示すフローチャートである。 オーディオ及び/またはスピーチ信号符号化方法についての他の実施例を示すフローチャートである。 オーディオ及び/またはスピーチ信号復号化方法についての一実施例を示すフローチャートである。 図31に示されたオーディオ及び/またはスピーチ信号復号化方法のある段階の一実施例を示すフローチャートである。 図31に示されたオーディオ及び/またはスピーチ信号復号化方法でした段階の他の実施例を示すフローチャートである。 オーディオ及び/またはスピーチ信号復号化方法についての他の実施例を示すフローチャートである。 オーディオ及び/またはスピーチ信号復号化方法についての他の実施例を示すフローチャートである。 オーディオ及び/またはスピーチ信号復号化方法についての他の実施例を示すフローチャートである。 オーディオ及び/またはスピーチ信号復号化方法についての他の実施例を示すフローチャートである。 オーディオ及び/またはスピーチ信号復号化方法についての他の実施例を示すフローチャートである。 オーディオ及び/またはスピーチ信号復号化方法についての他の実施例を示すフローチャートである。 オーディオ及び/またはスピーチ信号復号化方法についての他の実施例を示すフローチャートである。
以下、添付した図面を参照して実施例によるオーディオ及び/またはスピーチ信号符号化及び復号化方法及び装置について詳細に説明する。
図1は、オーディオ及び/またはスピーチ信号符号化装置の第1実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号符号化装置は、第1ドメイン変換部100、周波数ドメイン符号化部110及び多重化部120を含んでなる。
第1ドメイン変換部100は、入力端子INを通じて入力された入力信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第1ドメイン変換部100は、入力信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、入力信号の符号化に利用され、第2変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。
例えば、第1ドメイン変換部100は、入力信号を第1変換方式に該当するMDCT(Modified Discrete Cosine Transform)により周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDST(Modified Discrete Sine Transform)により周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は実数部と共に入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFT(Discrete Fourier Transform)を行った後、MDCTの係数を量子化することで発生するミスマッチ(miss match)を解決しうる。
周波数ドメイン符号化部110は、第1ドメイン変換部100で第1変換方式により変換された信号の各サブバンドから重要スペクトル成分(Important Spectral Component)を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって残余スペクトル成分のノイズレベルを計算して量子化する。このような周波数ドメイン符号化部110は、図2及び図3に示された例と同様に実施しうる。
第1に、図2は、周波数ドメイン符号化部110の一実施例を示すブロック図であって、図1及び図2を参照すれば、周波数ドメイン符号化部110は、心理音響モデル適用部200、重要周波数成分(important spectral component)選択部210、量子化部220、ノイズ処理部230を備えてなる。
心理音響モデル適用部200は、人間の聴覚特性による知覚的な重複性を除去するために、入力信号に対して心理音響モデルを適用する。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
心理音響モデル適用部200は、人間の聴覚特性を利用した心理音響モデルを適用して、入力信号から感度の低い細部情報を省略あるいは排除し、周波数別に感度の程度を意味するSMR値を割当てる。心理音響モデル適用部200は、第2変換方式に変換された信号を利用して心理音響モデルを適用し、第2変換方式の例としてMDSTがある。
重要周波数成分選択部210は、入力端子IN1を通じて入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択する。重要周波数成分選択部210で重要スペクトル成分を選択する方法として次のような方法がある。第1に、SMR値を計算してマスキング閾値より大きい信号を重要スペクトル成分として選択する。第2に、所定の加重値を考慮してスペクトルピークを抽出して重要スペクトル成分を選択する。第3に、各サブバンド別にSNR値を計算してSNR値の低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を重要スペクトル成分として選択する。前記3つの方法は別途に実施してもよく、少なくとも1つ以上の方法を組合わせて実施しても良い。
量子化部220は、心理音響モデル適用部200で割当てられたSMR値で重要周波数成分選択部210から選択された重要スペクトル成分を量子化して出力端子OUT1を通じて出力する。
ノイズ処理部230は、入力端子IN1を通じて入力される周波数ドメインで表現された信号から、重要周波数成分選択部210で選択された重要スペクトル成分を除いた残余スペクトル成分を抽出し、残余スペクトル成分のノイズレベルを計算して量子化する。ここで、ノイズ処理部230は、量子化された結果を出力端子OUT2を通じて出力する。
第2に、図3は、周波数ドメイン符号化部110の他の一実施例を示すブロック図であって、図1及び図3を参照すれば、周波数ドメイン符号化部110は、音声ツール符号化部300、心理音響モデル適用部310、重要周波数成分選択部320、量子化部330及びノイズ処理部340を含んでなる。
音声ツール符号化部300は、臨界値を有するアタックが強い信号と判別される信号に対して短いトランスフォームの長さでさらに細密に符号化し、その結果を出力端子OUT3に出力する。ここで、信号は、第1変換方法により変換される信号でありうる。
心理音響モデル適用部310は、人間の聴覚特性による知覚的な重複性を除去あるいは排除するために、入力信号に対して心理音響モデルを適用する。また、心理音響モデル適用部310は、入力端子IN2を通じて入力される周波数ドメインで表現された信号の各サブバンドに対して割当てられるビットを計算する。
心理音響モデル適用部310は、人間の聴覚特性を利用した心理音響モデルを適用して感度の低い細部情報を省略し、周波数別に感度の程度を意味するSMR値を異ならせて割当てる。心理音響モデル適用部200は、第2変換方式に変換された信号を利用して心理音響モデルを適用し、第2変換方式の例としてMDSTがある。
重要周波数成分選択部320は、入力端子IN2を通じて入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択する。重要周波数成分選択部320で重要スペクトル成分を選択する方法として次のような方法がある。第1に、SMR値を計算してマスキング閾値より大きい信号を重要スペクトル成分として選択する。第2に、所定の加重値を考慮してスペクトルピークを抽出して重要スペクトル成分を選択する。第3に、各サブバンド別にSNR値を計算してSNR値の低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を重要スペクトル成分として選択する。前記3つの方法は別途に実施してもよく、少なくとも1つ以上の方法を組合わせて実施しても良い。
量子化部330は、心理音響モデル適用部310で割当てられたSMR値で重要周波数成分選択部320から選択された重要スペクトル成分を量子化して出力端子OUT4を通じて出力する。
ノイズ処理部340は、入力端子IN2を通じて入力される周波数ドメインで表現された信号から、重要周波数成分選択部320で選択された重要スペクトル成分を除いた残余スペクトル成分を抽出し、残余スペクトル成分のノイズレベルをサブバンド別に計算して量子化する。ここで、ノイズ処理部340は、量子化された結果を出力端子OUT5を通じて出力する。
ここで、ノイズレベルは線形予測(linear prediction)分析を行って計算しうる。このような線形予測分析は、自己相関法(autocorrelation method)を利用して行い、共分散法(covariance method)、ダービンの方法(Durbin’s method)を利用しうる。線形予測を通じて符号化器で、現在フレームにノイズ成分がどの位あるかを予測する。もし、ノイズ成分が強い場合、ノイズレベルをそのまま伝送し、ノイズ成分が少なく、トーン成分が強い場合には、相対的にノイズレベルを減らして伝送する。また、小さなウィンドウである場合には、ノイズが急変する場合であるために、追加的にノイズレベルを減らして伝送する。
多重化部120は、周波数ドメイン符号化部110で符号化した結果を多重化してビットストリームを生成し、出力端子OUTを通じて出力する。ここで、周波数ドメイン符号化部110で符号化した結果は、図2の実施例に記述された出力端子OU1の量子化部220で重要スペクトル成分を量子化した結果及び出力端子OUT2のノイズ処理部230で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された出力端子OUT3の音声ツール符号化部300で符号化された結果、出力端子OUT4の量子化部330で重要スペクトル成分を量子化した結果及び出力端子OUT5のノイズ処理部340で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図4は、オーディオ及び/またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号符号化装置は、ドメイン変換部400、モード決定部410、時間ドメイン符号化部420、周波数ドメイン符号化部430及び多重化部440を含んでなる。
ドメイン変換部400は、入力端子IN4を通じて入力された入力信号を時間ドメインから周波数ドメインに変換してサブバンド別に分割し、所定のサブバンドに対して時間ドメインに逆変換する。
ここで、ドメイン変換部400は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度(temporal resolution)を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性(flexible)変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例としてFV−MLT(Frequency Varying Modulated Lapped Transform)がある。
このようなドメイン変換部400は、第1ドメイン変換部403及び第2ドメイン変換部406を含んでなる。
第1ドメイン変換部403は、入力端子IN4を通じて入力された入力信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第1ドメイン変換部403は、入力信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、入力信号の符号化に利用され、第2変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。
例えば、第1ドメイン変換部403は、入力信号を第1変換方式に該当するMDCT(Modified Discrete Cosine Transform)により周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDST(Modified Discrete Sine Transform)により周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFT(Discrete Fourier Transform)を行った後、MDCTの係数を量子化することで発生するミスマッチ(missmatch)を解決しうる。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
第2ドメイン逆変換部406は、第1ドメイン変換部403で周波数ドメインに変換された所定のサブバンドを、第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第2ドメイン逆変換部406は、第1変換方式に対する逆変換方式に該当するIMDCT(Inverse Modified Discrete Cosine Transform)により逆変換する。
モード決定部410は、第1ドメイン変換部403で周波数ドメインに変換された信号の各サブバンドに対して、周波数ドメインでの符号化の適否を判断する。言い換えれば、モード決定部410は、既定の基準によって各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、モード決定部410は、各サブバンドに対してモード決定部410で決定されたドメインを示す識別子を量子化して多重化部440に出力する。
ここで、モード決定部410が所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第1ドメイン変換部403から入力される周波数ドメインに該当する信号のみ利用する方法、入力端子IN4を通じて入力される時間ドメインに該当する信号のみ利用する方法、第1ドメイン変換部403から入力される周波数ドメインに該当する信号と入力端子IN4を通じて入力される時間ドメインに該当する信号とをいずれも利用する方法がある。
モード決定部410で、周波数ドメインでの符号化が適しないと判断されたサブバンドを、第2ドメイン逆変換部406は、第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。
時間ドメイン符号化部420は、第2ドメイン逆変換部406で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する。
所定の場合、モード決定部410で、周波数ドメインでの符号化が適しないと判断されたサブバンドも、時間ドメイン符号化部420で該当するサブバンドの信号を時間ドメインで符号化すると同時に、周波数ドメイン符号化部430でも同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の1つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化して多重化部440に出力する。
周波数ドメイン符号化部430は、モード決定部410で、周波数ドメインでの符号化が適すると判断されたサブバンドを、周波数ドメインで符号化する。ここで、周波数ドメイン符号化部430は、前述した図2及び図3に図示された例によって実施できる。
多重化部440は、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、時間ドメイン符号化部420で符号化した結果及び周波数ドメイン符号化部430で符号化した結果を含んで多重化することによって、ビットストリームを生成して出力端子OUTを通じて出力する。ここで、周波数ドメイン符号化部430で符号化した結果は、図2の実施例に記述された量子化部220で重要スペクトル成分を量子化した結果、及びノイズ処理部230で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された音声ツール符号化部300で符号化された結果、量子化部330で重要スペクトル成分を量子化した結果及びノイズ処理部340で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図5は、オーディオ及び/またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号符号化装置は、ステレオ符号化部500、第1ドメイン変換部510、周波数ドメイン符号化部520及び多重化部530を含んでなる。
ステレオ符号化部500は、入力端子INを通じて入力された入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシング(downmixing)する。ステレオ符号化部500で抽出するパラメータは、符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシング(upmixing)するのに必要な情報を意味する。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度(correlation)または干渉度(coherence)などがある。ここで、ステレオ符号化部500は、抽出したパラメータを量子化して多重化部530に出力する。
第1ドメイン変換部510は、ステレオ符号化部500でダウンミキシングされた信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第1ドメイン変換部510は、ステレオ符号化部500でダウンミキシングされた信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、入力信号の符号化に利用され、第2変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
例えば、第1ドメイン変換部510は、入力信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
周波数ドメイン符号化部520は、第1ドメイン変換部510から入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する。このような周波数ドメイン符号化部520は、前述した図2及び図3に例示された通りに実施しうる。
多重化部530は、ステレオ符号化部500で量子化されたパラメータ及び周波数ドメイン符号化部520で符号化した結果を多重化してビットストリームを生成し、出力端子OUTを通じて出力する。ここで、周波数ドメイン符号化部520で符号化した結果は、図2の実施例に記述された量子化部220で重要スペクトル成分を量子化した結果及びノイズ処理部230で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された音声ツール符号化部300で符号化された結果、量子化部330で重要スペクトル成分を量子化した結果及びノイズ処理部340で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図6は、オーディオ及び/またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号符号化装置は、ステレオ符号化部600、ドメイン変換部610、モード決定部620、時間ドメイン符号化部630、周波数ドメイン符号化部640及び多重化部650を含んでなる。
ステレオ符号化部600は、入力端子INを通じて入力された入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする。ステレオ符号化部600で抽出するパラメータは、符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ここで、ステレオ符号化部600は、抽出したパラメータを量子化して多重化部530に出力する。
ドメイン変換部610は、ステレオ符号化部600でダウンミキシングされた信号を時間ドメインから周波数ドメインに変換してサブバンド別に分割し、所定のサブバンドに対して時間ドメインに逆変換する。
ここで、ドメイン変換部610は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例として、FV−MLT(Frequency Varying Modulated Lapped Transform)がある。
このようなドメイン変換部610は、第1ドメイン変換部613及び第2ドメイン逆変換部616を含んでなる。
第1ドメイン変換部613は、ステレオ符号化部600でダウンミキシングされた信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第1ドメイン変換部613は、ステレオ符号化部600でダウンミキシングされた信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために第1変換方式以外の第2変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、ダウンミキシングされた信号の符号化に利用され、第2変換方式により変換された信号は、ダウンミキシングされた信号に対して心理音響モデルを適用するのに利用される。
例えば、第1ドメイン変換部613は、ダウンミキシングされた信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、ダウンミキシングされた信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、ダウンミキシングされた信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
第2ドメイン逆変換部616は、第1ドメイン変換部613で周波数ドメインに変換された所定のサブバンドを、第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第2ドメイン逆変換部616は、第1変換方式に対する逆変換方式に該当するIMDCT(Inverse Modified Discrete Cosine Transform)により逆変換する。
モード決定部620は、第1ドメイン変換部613で周波数ドメインに変換された信号の各サブバンドに対して、周波数ドメインでの符号化の適否を判断する。言い換えれば、モード決定部620は、各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、モード決定部620は、各サブバンドに対してモード決定部620で決定されたドメインを示す識別子を量子化して多重化部650に出力する。
ここで、モード決定部620が所定のサブバンドに対して、周波数ドメインでの符号化の適否を判断するに当たって、第1ドメイン変換部613から入力される周波数ドメインに該当する信号のみ利用する方法、ステレオ符号化部600から入力される時間ドメインに該当する信号のみ利用する方法、第1ドメイン変換部613から入力される周波数ドメインに該当する信号及びステレオ符号化部600から入力される時間ドメインに該当する信号とをいずれも利用する方法がある。
第2ドメイン逆変換部616は、モード決定部620で、周波数ドメインでの符号化が適しないと判断されたサブバンドを第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第2ドメイン逆変換部616は、IMDCTを適用して所定のサブバンドを時間ドメインに逆変換する。
時間ドメイン符号化部630は、第2ドメイン逆変換部616で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する。
所定の場合モード決定部620で、周波数ドメインでの符号化が適しないと判断されたサブバンドも、時間ドメイン符号化部630で該当するサブバンドの信号を時間ドメインで符号化すると同時に、周波数ドメイン符号化部640でも、同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の1つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化して多重化部650に出力する。
周波数ドメイン符号化部640は、モード決定部620で、周波数ドメインでの符号化が適すると判断されたサブバンドを、周波数ドメインで符号化する。ここで、周波数ドメイン符号化部640は、前述した図2及び図3に図示された例によって実施できる。
多重化部650は、ステレオ符号化部600で量子化されたパラメータ各サブバンドが符号化されたドメインを示す識別子を量子化した結果、時間ドメイン符号化部630で符号化した結果及び周波数ドメイン符号化部640で符号化した結果を含んで多重化することによって、ビットストリームを生成して出力端子OUTを通じて出力する。ここで、周波数ドメイン符号化部630で符号化した結果は、図2の実施例に記述された量子化部220で重要スペクトル成分を量子化した結果及びノイズ処理部230で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された音声ツール符号化部300で符号化された結果、量子化部330で重要スペクトル成分を量子化した結果及びノイズ処理部340で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図7は、オーディオ及び/またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号符号化装置は、バンド分割部700、第1ドメイン変換部710、周波数ドメイン符号化部720、高周波数バンド符号化部730及び多重化部740を含んでなる。
バンド分割部700は、入力端子INを通じて入力された入力信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する。
第1ドメイン変換部710は、バンド分割部700で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第1ドメイン変換部710は、低周波数バンド信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第2変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
例えば、第1ドメイン変換部710は、低周波数バンド信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
周波数ドメイン符号化部720は、第1ドメイン変換部710から入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する。このような周波数ドメイン符号化部720は、前述した図2及び図3に例示された通りに実施しうる。
高周波数バンド符号化部730は、低周波数バンド信号を利用してバンド分割部700で分割された高周波数バンド信号を符号化する。
多重化部740は、周波数ドメイン符号化部720で符号化した結果及び高周波数バンド符号化部730で符号化した結果を多重化してビットストリームを生成し、出力端子OUTを通じて出力する。ここで、周波数ドメイン符号化部720で符号化した結果は、図2の実施例に記述された量子化部220で重要スペクトル成分を量子化した結果及びノイズ処理部230で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された音声ツール符号化部300で符号化された結果、量子化部330で重要スペクトル成分を量子化した結果及びノイズ処理部340で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図8は、オーディオ及び/またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号符号化装置は、バンド分割部800、ドメイン変換部810、モード決定部820、時間ドメイン符号化部830、周波数ドメイン符号化部840、高周波数バンド符号化部850及び多重化部860を含んでなる。
バンド分割部800は、入力端子INを通じて入力された入力信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する。
ドメイン変換部810は、バンド分割部800で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換してサブバンド別に分割し、所定のサブバンドに対して時間ドメインに逆変換する。
ここで、ドメイン変換部810は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例として、FV−MLTがある。
このようなドメイン変換部810は、第1ドメイン変換部813及び第2ドメイン逆変換部816を含んでなる。
第1ドメイン変換部813は、バンド分割部800で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第1ドメイン変換部813は、低周波数バンド信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために第1変換方式以外の第2変換方式でも、低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第2変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。
例えば、第1ドメイン変換部813は、低周波数バンド信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
第2ドメイン逆変換部816は、第1ドメイン変換部813で周波数ドメインに変換された所定のサブバンドを、第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第2ドメイン逆変換部816は、第1変換方式に対する逆変換方式に該当するIMDCTにより周波数ドメインから時間ドメインに逆変換する。
モード決定部820は、第1ドメイン変換部813で周波数ドメインに変換された低周波数バンド信号の各サブバンドに対して周波数ドメインでの符号化の適否を判断する。言い換えれば、モード決定部820は、各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、モード決定部820は、各サブバンドに対してモード決定部820で決定されたドメインを示す識別子を量子化して多重化部860に出力する。
ここで、モード決定部820が所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第1ドメイン変換部813から入力される周波数ドメインに該当する信号のみ利用する方法、バンド分割部800から入力される時間ドメインに該当する信号のみ利用する方法、第1ドメイン変換部813から入力される周波数ドメインに該当する信号及びバンド分割部800から入力される時間ドメインに該当する信号とをいずれも利用する方法がある。
第2ドメイン逆変換部816は、モード決定部820で、周波数ドメインでの符号化が適しないと判断されたサブバンドを第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第2ドメイン逆変換部816は、IMDCTを適用して所定のサブバンドを周波数ドメインから時間ドメインに逆変換する。
時間ドメイン符号化部830は、第2ドメイン逆変換部816で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する。
所定の場合モード決定部820で、周波数ドメインでの符号化が適しないと判断されたサブバンドも時間ドメイン符号化部830で該当するサブバンドの信号を時間ドメインで符号化すると同時に、周波数ドメイン符号化部840でも同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の1つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化して多重化部860に出力する。
周波数ドメイン符号化部840は、モード決定部820で、周波数ドメインでの符号化が適すると判断されたサブバンドを、周波数ドメインで符号化する。ここで、周波数ドメイン符号化部840は、前述した図2及び図3に示された例によって実施できる。
高周波数バンド符号化部850は、低周波数バンド信号を利用してバンド分割部800で分割された高周波数バンド信号を符号化する。
多重化部860は、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、時間ドメイン符号化部830で符号化した結果、周波数ドメイン符号化部840で符号化した結果及び高周波数バンド符号化部850で符号化された結果を含んで多重化することによって、ビットストリームを生成して出力端子OUTを通じて出力する。ここで、周波数ドメイン符号化部840で符号化した結果は、図2の実施例に記述された量子化部220で重要スペクトル成分を量子化した結果及びノイズ処理部230で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された音声ツール符号化部300で符号化された結果、量子化部330で重要スペクトル成分を量子化した結果及びノイズ処理部340で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図9は、オーディオ及び/またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号符号化装置は、ステレオ符号化部900、バンド分割部910、第1ドメイン変換部920、周波数ドメイン符号化部930、高周波数バンド符号化部940及び多重化部950を含んでなる。
ステレオ符号化部900は、入力端子INを通じて入力された入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする。ステレオ符号化部900で抽出するパラメータは、符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ステレオ符号化部900は、抽出したパラメータを量子化して多重化部950に出力する。
バンド分割部910は、ステレオ符号化部900でダウンミキシングされた信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する。
第1ドメイン変換部920は、バンド分割部910で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第1ドメイン変換部920は、低周波数バンド信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために第1変換方式以外の第2変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第2変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
例えば、第1ドメイン変換部920は、低周波数バンド信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
周波数ドメイン符号化部930は、第1ドメイン変換部920から入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する。このような周波数ドメイン符号化部930は、前述した図2及び図3に例示された通りに実施しうる。
高周波数バンド符号化部940は、低周波数バンド信号を利用してバンド分割部910で分割された高周波数バンド信号を符号化する。
多重化部950は、ステレオ符号化部900で量子化されたパラメータ、周波数ドメイン符号化部930で符号化した結果及び高周波数バンド符号化部940で符号化した結果を多重化してビットストリームを生成し、出力端子OUTを通じて出力する。ここで、周波数ドメイン符号化部990で符号化した結果は、図2の実施例に記述された量子化部220で重要スペクトル成分を量子化した結果及びノイズ処理部230で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された音声ツール符号化部300で符号化された結果、量子化部330で重要スペクトル成分を量子化した結果及びノイズ処理部340で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図10は、オーディオ及び/またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号符号化装置は、ステレオ符号化部1000、バンド分割部1010、ドメイン変換部1020、モード決定部1030、時間ドメイン符号化部1040、周波数ドメイン符号化部1050、高周波数バンド符号化部1060及び多重化部1070を含んでなる。
ステレオ符号化部1000は、入力端子INを通じて入力された入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする。ステレオ符号化部1000で抽出するパラメータは、符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ステレオ符号化部1000は、抽出したパラメータを量子化して多重化部1070に出力する。
バンド分割部1010は、ステレオ符号化部1000でダウンミキシングされた信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する。
ドメイン変換部1020は、バンド分割部1010で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換してサブバンド別に分割し、所定のサブバンドに対して時間ドメインに逆変換する。
ここで、ドメイン変換部1020は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性 変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例として、FV−MLTがある。
このようなドメイン変換部1020は、第1ドメイン変換部1023及び第2ドメイン逆変換部1026を含んでなる。
第1ドメイン変換部1023は、バンド分割部1010で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第1ドメイン変換部1023は、低周波数バンド信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために第1変換方式以外の第2変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第2変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
例えば、第1ドメイン変換部1023は、低周波数バンド信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
第2ドメイン逆変換部1026は、第1ドメイン変換部1023で周波数ドメインに変換された所定のサブバンドを、第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第2ドメイン逆変換部1026は、第1変換方式に対する逆変換方式に該当するIMDCTにより逆変換する。
モード決定部1030は、第1ドメイン変換部1023で周波数ドメインに変換された低周波数バンド信号の各サブバンドに対して周波数ドメインでの符号化の適否を判断する。言い換えれば、モード決定部1030は、既定の基準によって各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、モード決定部1030は、各サブバンドに対してモード決定部1030で決定されたドメインを示す識別子を量子化して多重化部1070に出力する。
ここで、モード決定部1030が所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第1ドメイン変換部1023から入力される周波数ドメインに該当する信号のみ利用する方法、バンド分割部1010から入力される時間ドメインに該当する信号のみ利用する方法、第1ドメイン変換部1023から入力される周波数ドメインに該当する信号とバンド分割部1010から入力される時間ドメインに該当する信号とをいずれも利用する方法がある。
第2ドメイン逆変換部1026は、モード決定部1030で、周波数ドメインでの符号化が適しないと判断されたサブバンドを第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第2ドメイン逆変換部1026は、IMDCTを適用して所定のサブバンドを逆変換する。
時間ドメイン符号化部1040は、第2ドメイン逆変換部1026で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する。
所定の場合モード決定部1030で、周波数ドメインでの符号化が適しないと判断されたサブバンドも時間ドメイン符号化部1040で該当するサブバンドの信号を時間ドメインで符号化すると同時に、周波数ドメイン符号化部1050でも同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の1つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化して多重化部1070に出力する。
周波数ドメイン符号化部1050は、モード決定部1030で、周波数ドメインでの符号化が適すると判断されたサブバンドを、周波数ドメインで符号化する。ここで、周波数ドメイン符号化部1050は、前述した図2及び図3に図示された例によって実施できる。
高周波数バンド符号化部1060は、低周波数バンド信号を利用してバンド分割部1010で分割された高周波数バンド信号を符号化する。
多重化部1070は、ステレオ符号化部1000で量子化されたパラメータ、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、時間ドメイン符号化部1040で符号化した結果、周波数ドメイン符号化部1050で符号化した結果及び高周波数バンド符号化部1060で符号化された結果を含んで多重化することによって、ビットストリームを生成して出力端子OUTを通じて出力する。ここで、周波数ドメイン符号化部1050で符号化した結果は、図2の実施例に記述された量子化部220で重要スペクトル成分を量子化した結果及びノイズ処理部230で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された音声ツール符号化部300で符号化された結果、量子化部330で重要スペクトル成分を量子化した結果及びノイズ処理部340で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図11は、オーディオ及び/またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号復号化装置は逆多重化部1100、周波数ドメイン復号化部1110及び第2ドメイン逆変換部1120を含んでなる。
逆多重化部1100は、入力端子INを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部1100が出力するデータには、符号化端によって周波数ドメインで符号化された結果として重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果が含まれるもある。
周波数ドメイン復号化部1110は逆多重化部1100から出力される符号化端によって周波数ドメインで符号化された結果を復号化する。さらに詳細には、周波数ドメイン復号化部1110は各サブバンドから選択された重要スペクトル成分を復号化して、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部1110は、図12及び図13に例示された通りに実施しうる。
第1に、図12は、図11に示されたオーディオ及び/またはスピーチ信号復号化装置の周波数ドメイン復号化部1110の一実施例を示すブロック図であって、周波数ドメイン復号化部1110は、逆量子化部1200及びノイズ復号化部1210を含んでなる。
逆量子化部1200は、人間の聴覚特性による知覚的な重複性を除去する心理音響モデルを適用してそれぞれ異なって割当てられたビットで符号化された重要スペクトル成分を入力端子IN1を通じて逆多重化された結果を入力されて逆量子化する。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
ノイズ復号化部1210は、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを入力端子IN2を通じて逆多重化された結果を入力されて復号化する。また、ノイズ復号化部1210は、復号化されたノイズレベルを逆量子化部1200で逆量子化された重要スペクトル成分に合成する。ここで、ノイズ復号化部1210は、合成された結果を出力端子OUT1を通じて出力する。
第2に、図13は、図11に示されたオーディオ及び/またはスピーチ信号復号化装置の周波数ドメイン復号化部1110の他の実施例を示すブロック図であって、周波数ドメイン復号化部1110は、逆量子化部1300、ノイズ復号化部1310及び音声ツール復号化部1320を含んでなる。
逆量子化部1300は、人間の聴覚特性による知覚的な重複性を除去する心理音響モデルを適用してそれぞれ異なって割当てられたビットで符号化された重要スペクトル成分を入力端子IN3を通じて逆多重化された結果を入力されて逆量子化する。
ノイズ復号化部1310は、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを入力端子IN4を通じて逆多重化された結果を入力されて復号化する。また、ノイズ復号化部1310は、復号化されたノイズレベルを逆量子化部1200で逆量子化された重要スペクトル成分に合成する。
音声ツール復号化部1320は、符号化端で音声ツールにより符号化された結果を入力端子IN5を通じて逆多重化された結果を入力されて復号化する。また、音声ツール復号化部1320は、音声ツール復号化部1320で復号化された結果をノイズ復号化部1310で合成された結果に合成する。ここで、音声ツール復号化部1320は、合成された結果を出力端子OUT2を通じて出力する。
図11を参照すれば、第2ドメイン逆変換部1120は、周波数ドメイン復号化部1110で復号化された結果を周波数ドメインから時間ドメインに第2逆変換方式により逆変換する。ここで、第2逆変換方式は、前述した第2変換方式に対する逆変換過程を適用したものであって、例えば、IMDCT(Inverse Modified Discrete Cosine Transform)がある。また、第2ドメイン逆変換部1120は、逆変換された結果を出力端子OUTを通じて出力する。例えば、第2ドメイン逆変換部1120は、図12の出力端子OUT1で、ノイズ復号化部1210で合成された信号をIMDCTにより周波数ドメインから時間ドメインに逆変換し、図13の出力端子OUT2で、音声ツール復号化部1320で合成された信号をIMDCTにより周波数ドメインから時間ドメインに逆変換する。
図14は、オーディオ及び/またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号復号化装置は、逆多重化部1400、モード判断部1410、周波数ドメイン復号化部1420、時間ドメイン復号化部1430及びドメイン変換部1440を含んでなる。
逆多重化部1400は、入力端子INを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部1400が逆多重化して出力するデータには、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果及び所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果などがある。
ここで、符号化端によって周波数ドメインで符号化された結果は、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
モード判断部1410は、逆多重化部1400から出力された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する。
周波数ドメイン復号化部1420は、モード判断部1410で周波数ドメインで符号化されたと判断された1つ以上のサブバンドを周波数ドメインで復号化する。さらに詳細には、周波数ドメイン復号化部1420は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部1420は、図12及び図13に例示された通りに実施しうる。
時間ドメイン復号化部1430は、モード判断部1410によって時間ドメインで符号化されたと判断された1つ以上のサブバンドを周波数ドメインで復号化する。
所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも、周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。周波数ドメイン復号化部1420は、周波数ドメインで該当サブバンドの符号化結果を復号化し、時間ドメイン復号化部1430では、時間ドメインで符号化された結果を復号化する。
ドメイン変換部1440は、時間ドメイン復号化部1430で復号化された信号を時間ドメインから周波数ドメインに変換し、周波数ドメイン復号化部1420で復号化された信号及び時間ドメイン復号化部1430から出力された信号を周波数ドメインに変換された信号を合成して周波数ドメインから時間ドメインに変換する。
ここで、ドメイン変換部1440は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてFV−MLT(Frequency Varying Modulated Lapped Transform)がある。
ドメイン変換部1440は、第2ドメイン変換部1443及び第2ドメイン逆変換部1446を含んでなる。
第2ドメイン変換部1443は、時間ドメイン復号化部1430で復号化された信号を第2変換方式により時間ドメインから周波数ドメインに変換する。例えば、第2変換方式にはMDCTがある。
第2ドメイン逆変換部1446は、周波数ドメイン復号化部1420で復号化されたサブバンドの信号と第2ドメイン変換部1443で変換されたサブバンドの信号とを合成して、第2逆変換方式により周波数ドメインから時間ドメインに逆変換する。このような第2逆変換方式は、前述した第2変換方式を逆変換する過程を行うものであって、例えば、IMDCT(Inverse Modified Discrete Cosine Transform)がある。ここで、第2ドメイン逆変換部1446は、逆変換された結果を出力端子OUTを通じて出力する。
図15は、オーディオ及び/またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号復号化装置は、逆多重化部1500、周波数ドメイン復号化部1510、第2ドメイン逆変換部1520及びステレオ復号化部1530を含んでなる。
逆多重化部1500は、入力端子INを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部1500が逆多重化して出力するデータには符号化端によって周波数ドメインで符号化された結果及びステレオ信号にアップミキシングするためのパラメータを含む。ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果が含まれるもある。
周波数ドメイン復号化部1510は、逆多重化部1100から出力される符号化端によって周波数ドメインで符号化された結果を復号化する。さらに詳細には、周波数ドメイン復号化部1510は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部1510は、図12及び図13に例示された通りに実施しうる。
第2ドメイン逆変換部1520は、周波数ドメイン復号化部1510で復号化された結果を周波数ドメインから時間ドメインに第2逆変換方式により逆変換する。ここで、第2逆変換方式は、前述した第2変換方式に対する逆変換過程を適用したものであって、例えば、IMDCTがある。
ステレオ復号化部1530は、第2ドメイン逆変換部1520で逆変換されたモノ信号をステレオ信号にアップミックスするためのパラメータを利用してステレオ信号にアップミキシングする。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ここで、ステレオ復号化部1530は、アップミキシングされたステレオ信号を出力端子OUTを通じて出力する。
図16は、オーディオ及び/またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号復号化装置は、逆多重化部1600、モード判断部1610、周波数ドメイン復号化部1620、時間ドメイン復号化部1630、ドメイン変換部1640及びステレオ復号化部1650を含んでなる。
逆多重化部1600は、入力端子INを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部1600が逆多重化して出力するデータには、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果、所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果及びモノ信号をステレオ信号にアップミキシングするためのパラメータなどがある。
ここで、符号化端によって周波数ドメインで符号化された結果は、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果が含まれることもある。
モード判断部1610は、逆多重化部1600から出力された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する。
周波数ドメイン復号化部1620は、モード判断部1610で周波数ドメインで符号化されたと判断された1つ以上のサブバンドを周波数ドメインで復号化する。さらに詳細には、周波数ドメイン復号化部1620は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部1620は、図12及び図13に例示された通りに実施しうる。
時間ドメイン復号化部1630は、モード判断部1610によって時間ドメインで符号化されたと判断された1つ以上のサブバンドを時間ドメインで復号化する。
所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも、周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。該当するサブバンドを周波数ドメイン復号化部1620では、周波数ドメインで符号化された結果を復号化し、時間ドメイン復号化部1630では、時間ドメインで符号化された結果を復号化する。
ドメイン変換部1640は、時間ドメイン復号化部1630で復号化された信号を時間ドメインから周波数ドメインに変換し、周波数ドメイン復号化部1420で復号化された信号及び時間ドメイン復号化部1430から出力された信号を周波数ドメインに変換された信号を合成して周波数ドメインから時間ドメインに変換する。
ここで、ドメイン変換部1640は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてFV−MLTがある。
ドメイン変換部1640は、第2ドメイン変換部1643及び第2ドメイン逆変換部1646を含んでなる。
第2ドメイン変換部1643は、時間ドメイン復号化部1630で復号化された信号を第2変換方式により時間ドメインから周波数ドメインに変換する。例えば、第2変換方式には、MDCTがある。
第2ドメイン逆変換部1646は、周波数ドメイン復号化部1620で復号化されたサブバンドの信号と第2ドメイン変換部1643で変換されたサブバンドの信号とを合成して、第2逆変換方式により周波数ドメインから時間ドメインに逆変換する。ここで、第2逆変換方式は、前述した第2変換方式を逆変換する過程を行うものであって、例えば、IMDCTがある。
ステレオ復号化部1650は、第2ドメイン逆変換部1646で逆変換されたモノ信号をステレオ信号にアップミキシングするためのパラメータを利用してステレオ信号にアップミキシングする。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。また、ステレオ復号化部1650は、アップミキシングされたステレオ信号を出力端子OUTを通じて出力する。
図17は、オーディオ及び/またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号復号化装置は逆多重化部1700、周波数ドメイン復号化部1710、高周波数バンド復号化部1720、第2ドメイン逆変換部1730及びバンド合成部1740を含んでなる。
逆多重化部1700は、入力端子INを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部1700が逆多重化して出力するデータには、符号化端によって周波数ドメインで符号化された結果及び低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を含む。ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
周波数ドメイン復号化部1710は、逆多重化部1700から出力される符号化端によって周波数ドメインで符号化された結果を復号化する。さらに詳細には、周波数ドメイン復号化部1710は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部1710は、図12及び図13に例示された通りに実施しうる。
第2ドメイン逆変換部1730は、周波数ドメイン復号化部1710で復号化された結果を周波数ドメインから時間ドメインに第2逆変換方式により逆変換する。ここで、第2逆変換方式は、前述した第2変換方式に対する逆変換過程を適用したものであって、例えば、IMDCTがある。
高周波数バンド復号化部1720は、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を逆多重化部1700から入力され、低周波数バンド信号を利用して高周波数バンド信号を生成する。
バンド合成部1740は、第2ドメイン逆変換部1730で逆変換された低周波数バンド信号と高周波数バンド復号化部1720で生成された高周波数バンド信号とを合成する。ここで、バンド合成部1740は、合成された信号を出力端子OUTを通じて出力する。
図18は、オーディオ及び/またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号復号化装置は逆多重化部1800、モード判断部1810、周波数ドメイン復号化部1820、時間ドメイン復号化部1830、ドメイン変換部1840、高周波数バンド復号化部1850及びバンド合成部1860を含んでなる。
逆多重化部1800は、入力端子INを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部1800が逆多重化して出力するデータには、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果、所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果及び低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報などがある。
ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
モード判断部1810は、逆多重化部1800から出力された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する。
周波数ドメイン復号化部1820は、モード判断部1810で周波数ドメインで符号化されたと判断された1つ以上のサブバンドを周波数ドメインで復号化する。さらに詳細には、周波数ドメイン復号化部1820は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部1820は、図12及び図13に例示された通りに実施しうる。
時間ドメイン復号化部1830は、モード判断部1810によって時間ドメインで符号化されたと判断された1つ以上のサブバンドを時間ドメインで復号化する。
所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。該当するサブバンドを周波数ドメイン復号化部1820では周波数ドメインで符号化された結果を復号化し、時間ドメイン復号化部1830では時間ドメインで符号化された結果を復号化する。
ドメイン逆変換部1840は、時間ドメイン復号化部1830で復号化された信号を時間ドメインから周波数ドメインに変換し、周波数ドメイン復号化部1820で復号化された信号及び時間ドメイン復号化部1830から出力された信号を周波数ドメインに変換された信号を合成して周波数ドメインから時間ドメインに変換する。
ここで、ドメイン変換部1840は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてFV−MLT(Frequency Varying Modulated LappedTransform)がある。
ドメイン変換部1840は、第2ドメイン変換部1843及び第2ドメイン逆変換部1846を含んでなる。
第2ドメイン変換部1843は、時間ドメイン復号化部1830で復号化された信号を第2変換方式により時間ドメインから周波数ドメインに変換する。第2変換方式にはMDCTがある。
第2ドメイン逆変換部1846は、周波数ドメイン復号化部1620で復号化されたサブバンドの信号と第2ドメイン変換部1843で変換されたサブバンドの信号とを合成して第2逆変換方式により周波数ドメインから時間ドメインに逆変換する。ここで、第2逆変換方式は、前述した第2変換方式を逆変換する過程を行うものであって、例えば、IMDCTがある。
高周波数バンド復号化部1850は、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を逆多重化部1800から入力され、低周波数バンド信号を利用して高周波数バンド信号を生成する。
バンド合成部1860は、第2ドメイン逆変換部1846で逆変換された低周波数バンド信号と高周波数バンド復号化部1850で生成された高周波数バンド信号とを合成する。ここで、バンド合成部1860は、合成された信号を出力端子OUTを通じて出力する。
図19は、オーディオ及び/またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号復号化装置は、逆多重化部1900、周波数ドメイン復号化部1910、第2ドメイン逆変換部1920、高周波数バンド復号化部1930、バンド合成部1940及びステレオ復号化部1950を含んでなる。
逆多重化部1900は、入力端子INを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部1900が逆多重化して出力するデータには符号化端によって周波数ドメインで符号化された結果、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報、ステレオでアップミキシングできるパラメータなどがある。ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
周波数ドメイン復号化部1910は、逆多重化部1900から出力される符号化端によって周波数ドメインで符号化された結果を復号化する。さらに詳細には、周波数ドメイン復号化部1910は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部1910は、図12及び図13に例示された通りに実施しうる。
第2ドメイン逆変換部1920は、周波数ドメイン復号化部1910で復号化された結果を周波数ドメインから時間ドメインに第2逆変換方式により逆変換する。ここで、第2逆変換方式は、前述した第2変換方式に対する逆変換過程を適用したものであって、例えば、IMDCTがある。
高周波数バンド復号化部1930は、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を逆多重化部1900から入力され、低周波数バンド信号を利用して高周波数バンド信号を生成する。
バンド合成部1940は、第2ドメイン逆変換部1920で逆変換された低周波数バンド信号と高周波数バンド復号化部1930で生成された高周波数バンド信号とを合成する。
ステレオ復号化部1950は、バンド合成部1940で提供されるモノ信号を、逆多重化部1900から出力されたモノ信号をステレオ信号にアップミキシングするためのパラメータを利用して、ステレオ信号にアップミキシングする。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ここで、ステレオ復号化部1950は、アップミキシングされたステレオ信号を出力端子OUTを通じて出力する。
図20は、オーディオ及び/またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号復号化装置は、逆多重化部2000、モード判断部2010、周波数ドメイン復号化部2020、時間ドメイン復号化部2030、ドメイン逆変換部2040、高周波数バンド復号化部2050、バンド合成部2060及びステレオ復号化部2070を含んでなる。
逆多重化部2000は、入力端子INを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部2000が逆多重化して出力するデータには、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果、所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果及び低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報などがある。
ここで、符号化端によって周波数ドメインで符号化された結果は、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
モード判断部2010は、逆多重化部2000から出力された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する。
周波数ドメイン復号化部2020は、モード判断部2010で周波数ドメインで符号化されたと判断された1つ以上のサブバンドを周波数ドメインで復号化する。さらに詳細には、周波数ドメイン復号化部2020は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部1820は、図12及び図13に例示された通りに実施しうる。
時間ドメイン復号化部2030は、モード判断部2010によって時間ドメインで符号化されたと判断された1つ以上のサブバンドを時間ドメインで復号化する。
所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも、周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。周波数ドメイン復号化部2020では、周波数ドメインで該当サブバンドの符号化結果を復号化し、時間ドメイン復号化部2030では、時間ドメインで該当サブバンドの符号化結果を復号化する。
ドメイン逆変換部2040は、時間ドメイン復号化部2030で復号化された信号を時間ドメインから周波数ドメインに変換し、周波数ドメイン復号化部2020で復号化された信号及び時間ドメイン復号化部2030から出力された信号を周波数ドメインに変換された信号を合成して周波数ドメインから時間ドメインに変換する。
ここで、ドメイン変換部2040は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてFV−MLTがある。
このようなドメイン変換部2040は、第2ドメイン変換部2043及び第2ドメイン逆変換部2046を含んでなる。
第2ドメイン変換部2043は、時間ドメイン復号化部2030で復号化された信号を第2変換方式により時間ドメインから周波数ドメインに変換する。例えば、第2変換方式にはMDCTがある。
第2ドメイン逆変換部2046は、周波数ドメイン復号化部2020で復号化されたサブバンドの信号と第2ドメイン変換部2043で変換されたサブバンドの信号とを合成して、第2逆変換方式により周波数ドメインから時間ドメインに逆変換する。ここで、第2逆変換方式は、前述した第2変換方式を逆変換する過程を行うものであって、例えば、IMDCTがある。
高周波数バンド復号化部2050は、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を逆多重化部2000から入力され、低周波数バンド信号を利用して高周波数バンド信号を生成する。
バンド合成部2060は、第2ドメイン逆変換部2046で逆変換された低周波数バンド信号と高周波数バンド復号化部2050で生成された高周波数バンド信号とを合成する。
ステレオ復号化部2070は、バンド合成部2060で提供されるモノ信号を逆多重化部2000から出力されたモノ信号をステレオ信号でアップミックスするためのパラメータを利用してステレオ信号にアップミキシングする。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ここで、ステレオ復号化部2070は、アップミキシングされたステレオ信号を出力端子OUTを通じて出力する。
図21は、オーディオ及び/またはスピーチ信号符号化方法についての第1実施例を示すフローチャートである。
まず、入力信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する(第2100段階)。第2100段階では、入力信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、入力信号の符号化に利用され、第2変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。
例えば、第2100段階は、入力信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
第2100段階で、第1変換方式により変換された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する(第2110段階)。このような第2110段階は、図22及び23に例示された通りに実施しうる。
第1に、図22は、図21に示されたオーディオ及び/またはスピーチ信号符号化方法の第2110段階の一実施例を示すフローチャートである。
まず、人間の聴覚特性による知覚的な重複性を除去するために、心理音響モデルを適用する(第2200段階)。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
第2200段階では、人間の聴覚特性を利用した心理音響モデルを適用して感度の低い細部情報を省略し、周波数別に感度の程度を意味するSMR値を割当てる。第2200段階では、第2変換方式に変換された信号を利用して心理音響モデルを適用し、第2変換方式の例としてMDSTがある。
第2200段階後に、入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択する(第2205段階)。第2205段階で、重要スペクトル成分を選択する方法として次のような方法がある。第1に、SMR値を計算してマスキング閾値より大きい信号を重要スペクトル成分として選択する。第2に、所定の加重値を考慮してスペクトルピークを抽出して重要スペクトル成分を選択する。第3に、各サブバンド別にSNR値を計算してSNR値の低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を重要スペクトル成分として選択する。前記3つの方法は、別途に実施してもよく、少なくとも1つ以上の方法を組合わせて実施しても良い。
第2200段階で割当てられたSMR値で第2205段階から選択された重要スペクトル成分を量子化する(第2210段階)。
第2210段階後に、周波数ドメインで表現された信号から、第2205段階から選択された重要スペクトル成分を除いた残余スペクトル成分を抽出し、残余スペクトル成分のノイズレベルを計算して量子化する(第2220段階)。
図23は、図21に示されたオーディオ及び/またはスピーチ信号符号化方法の第2110段階の他の実施例を示すフローチャートである。
まず、アタックが強い信号と判別される信号に対して短いトランスフォームの長さでさらに細密に符号化する(第2300段階)。
第2300段階後に、人間の聴覚特性による知覚的な重複性を除去するために、心理音響モデルを適用する(第2305段階)。
第2305段階では、人間の聴覚特性を利用した心理音響モデルを適用して感度の低い細部情報を省略し、周波数別に感度の程度を意味するSMR値を異ならせて割当てる。第2305段階では、第2変換方式に変換された信号を利用して心理音響モデルを適用し、第2変換方式の例としてMDSTがある。
第2305段階後に、入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択する(第2310段階)。第2310段階で重要スペクトル成分を選択する方法として次のような方法がある。第1に、SMR値を計算してマスキング閾値より大きい信号を重要スペクトル成分として選択する。第2に、所定の加重値を考慮してスペクトルピークを抽出して重要スペクトル成分を選択する。第3に、各サブバンド別にSNR値を計算してSNR値の低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を重要スペクトル成分として選択する。前記3つの方法は、別途に実施してもよく、少なくとも1つ以上の方法を組合わせて実施しても良い。
第2305段階で割当てられたSMR値で第2310段階から選択された重要スペクトル成分を量子化する(第2320段階)。
第2320段階後に、入力される周波数ドメインで表現された信号から、第2310段階から選択された重要スペクトル成分を除いた残余スペクトル成分を抽出し、残余スペクトル成分のノイズレベルをサブバンド別に計算して量子化する(第2330段階)。
ここで、ノイズレベルは線形予測分析を行って計算できる。このような線形予測分析は、自己相関法(autocorrelation method)を利用して行い、共分散法(covariance method)、ダービンの方法(Durbin’s method)などを利用しうる。線形予測を通じて符号化器で現在フレームにノイズ成分がどの位あるかを予測する。もし、ノイズ成分が強い場合、ノイズレベルをそのまま伝送し、もし、ノイズ成分は少なく、トーン成分が強い場合には、相対的にノイズレベルを減らして伝送する。また、小さなウィンドウである場合には、ノイズが急変する場合であるために、追加的にノイズレベルを減らして伝送する。
次いで、図21を参照すれば、第2110段階で符号化した結果を多重化してビットストリームを生成する(第2120段階)。第2110段階で符号化した結果は、図22の実施例に記述された第2210段階で重要スペクトル成分を量子化した結果及び第2220段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された第2300段階で符号化された結果、第2320段階で重要スペクトル成分を量子化した結果及び第2330段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図24は、オーディオ及び/またはスピーチ信号符号化方法についての第2実施例を示すフローチャートである。
まず、入力信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する(第2400段階)。第2400段階では、入力信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、入力信号の符号化に利用され、第2変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。
例えば、第2400段階では、入力信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
第2400段階で、周波数ドメインに変換された信号の各サブバンドに対して、周波数ドメインでの符号化の適否を判断する(第2410段階)。言い換えれば、第2410段階では、既定の基準によって各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、第2410段階では、各サブバンドに対して第2410段階で決定されたドメインを示す識別子を量子化する。
第2410段階で、所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第2400段階で変換された周波数ドメインに該当する信号のみ利用する方法、時間ドメインに該当する入力信号のみ利用する方法、第2400段階で変換された周波数ドメインに該当する信号と時間ドメインに該当する入力信号とをいずれも利用する方法がある。
もし、第2410段階で、周波数ドメインでの符号化が適したサブバンドであると判断されれば、該当するサブバンドを周波数ドメインで符号化する(第2420段階)。ここで、第2420段階では、前述した図22及び23に示された例によって実施できる。
もし、第2410段階で、周波数ドメインでの符号化が適したサブバンドではないと判断されれば、該当するサブバンドに対して第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する(第2430段階)。例えば、第2430段階は、第1変換方式に対する逆変換方式に該当するIMDCTにより逆変換する。
第2400段階及び第2430段階は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性ある変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例として、FV−MLTがある。
第2430段階で、時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する(第2440段階)。
所定の場合、第2410段階で、周波数ドメインでの符号化が適したサブバンドではないと判断されても、該当するサブバンドの信号を時間ドメインで符号化すると同時に、同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の1つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化する。
第2420段階または第2440段階後に、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、第2440段階で符号化した結果及び第2420段階で符号化した結果を含んで多重化することによって、ビットストリームを生成する。第2420段階で、符号化した結果は、図22の実施例に記述された第2210段階で重要スペクトル成分を量子化した結果及び第2220段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された第2300段階で符号化された結果、第2320段階で重要スペクトル成分を量子化した結果及び第2330段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図25は、オーディオ及び/またはスピーチ信号符号化方法についての第3実施例を示すフローチャートである。
まず、入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする(第2500段階)。第2500段階で抽出するパラメータは、符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。第2500段階では、抽出したパラメータを量子化する。
第2500段階でダウンミキシングされた信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する(第2510段階)。第2510段階では、第2500段階でダウンミキシングされた信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、入力信号の符号化に利用され、第2変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
例えば、第2510段階では、入力信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
第2510段階で周波数ドメインに変換された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する(第2520段階)。このような第2520段階では、前述した図22及び23に例示された通りに実施しうる。
第2500段階で量子化されたパラメータ及び第2520段階で符号化した結果を多重化してビットストリームを生成する(第2530段階)。第2520段階で符号化した結果は、図22の実施例に記述された第2210段階で重要スペクトル成分を量子化した結果及び第2220段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された第2300段階で符号化された結果、第2320段階で重要スペクトル成分を量子化した結果及び第2330段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図26は、オーディオ及び/またはスピーチ信号符号化方法についての第4実施例を示すフローチャートである。
まず、入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする(第2600段階)。第2600段階で抽出するパラメータは符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ここで、第2600段階では抽出したパラメータを量子化する。
第2600段階でダウンミキシングされた信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する(第2610段階)。第2610段階では、入力信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、入力信号の符号化に利用され、第2変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。
例えば、第2610段階では、入力信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
第2610段階で周波数ドメインに変換された信号の各サブバンドに対して、周波数ドメインでの符号化の適否を判断する(第2620段階)。言い換えれば、第2620段階では、既定の基準によって各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、第2620段階では、各サブバンドに対して第2620段階で決定されたドメインを示す識別子を量子化する。
第2620段階で、所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第2610段階で変換された周波数ドメインに該当する信号のみ利用する方法、時間ドメインに該当する第2600段階でダウンミキシングされた信号のみ利用する方法、第2610段階で変換された周波数ドメインに該当する信号と時間ドメインに該当する第2600段階でダウンミキシングされた信号とをいずれも利用する方法がある。
もし、第2620段階で周波数ドメインでの符号化が適したサブバンドであると判断されれば、該当するサブバンドを周波数ドメインで符号化する(第2630段階)。ここで、第2630段階では、前述した図22及び23に示された例によって実施できる。
もし、第2620段階で周波数ドメインでの符号化が適したサブバンドではないと判断されれば、該当するサブバンドに対して第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する(第2640段階)。例えば、第2640段階は、第1変換方式に対する逆変換方式に該当するIMDCTにより逆変換する。
第2610段階及び第2640段階は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性ある変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例としてFV−MLTがある。
第2640段階で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する(第2650段階)。
所定の場合、第2620段階で周波数ドメインでの符号化が適したサブバンドではないと判断されても該当するサブバンドの信号を時間ドメインで符号化すると同時に、同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の1つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化する。
第2630段階または第2650段階後に、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、第2600段階で量子化一パラメータ、第2630段階で符号化した結果及び第2650段階で符号化した結果を含んで多重化することによって、ビットストリームを生成する。第2630段階で符号化した結果は、図22の実施例に記述された第2210段階で重要スペクトル成分を量子化した結果及び第2220段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された第2300段階で符号化された結果、第2320段階で重要スペクトル成分を量子化した結果及び第2330段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図27は、オーディオ及び/またはスピーチ信号符号化方法についての第5実施例を示すフローチャートである。
まず、入力信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する(第2700段階)。
第2700段階で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する(第2710段階)。第2710段階では低周波数バンド信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第2変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
例えば、第2710段階では、低周波数バンド信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
第2710段階で周波数ドメインに変換された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する(第2720段階)。このような第2720段階は、前述した図2及び図3に例示された通りに実施しうる。
第2700段階で分割された高周波数バンド信号を低周波数バンド信号を利用して符号化する(第2730段階)。
第2720段階で符号化した結果、第2730段階で符号化した結果及び低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を多重化してビットストリームを生成する(第2740段階)。ここで、第2720段階で符号化した結果は、図22の実施例に記述された第2210段階で重要スペクトル成分を量子化した結果及び第2220段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された第2300段階で符号化された結果、第2320段階で重要スペクトル成分を量子化した結果及び第2330段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図28は、オーディオ及び/またはスピーチ信号符号化方法についての第6実施例を示すフローチャートである。
まず、入力信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する(第2800段階)。
第2800段階で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する(第2810段階)。第2810段階では、低周波数バンド信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第2変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。
例えば、第2810段階では、低周波数バンド信号を、第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
第2810段階で周波数ドメインに変換された信号の各サブバンドに対して、周波数ドメインでの符号化の適否を判断する(第2820段階)。言い換えれば、第2820段階では既定の基準によって各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、第2820段階では、各サブバンドに対して第2820段階で決定されたドメインを示す識別子を量子化する。
第2820段階で、所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第2810段階で変換された周波数ドメインに該当する信号のみ利用する方法、時間ドメインに該当する低周波数バンド信号のみ利用する方法、第2810段階で変換された周波数ドメインに該当する信号と時間ドメインに該当する低周波数バンド信号とをいずれも利用する方法がある。
もし、第2820段階で周波数ドメインでの符号化が適したサブバンドであると判断されれば、該当するサブバンドを周波数ドメインで符号化する(第2830段階)。ここで、第2830段階は、前述した図22及び23に図示された例によって実施できる。
もし、第2820段階で周波数ドメインでの符号化が適したサブバンドではないと判断されれば、該当するサブバンドに対して第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する(第2840段階)。例えば、第2840段階は、第1変換方式に対する逆変換方式に該当するIMDCTにより逆変換する。
第2810段階及び第2840段階は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例としてFV−MLTがある。
第2840段階で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する(第2850段階)。
所定の場合、第2820段階で周波数ドメインでの符号化が適したサブバンドではないと判断されても、該当するサブバンドの信号を時間ドメインで符号化すると同時に、同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の1つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化する。
第2800段階で分割された高周波数バンド信号を低周波数バンド信号を利用して符号化する(第2860段階)。
第2830段階または第2850段階後に、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、第2830段階で符号化した結果、第2850段階で符号化した結果、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を含んで多重化することによって、ビットストリームを生成する(第2870段階)。第2830段階で符号化した結果は、図22の実施例に記述された第2210段階で重要スペクトル成分を量子化した結果及び第2220段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された第2300段階で符号化された結果、第2320段階で重要スペクトル成分を量子化した結果及び第2330段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図29は、オーディオ及び/またはスピーチ信号符号化方法についての第7実施例を示すフローチャートである。
まず、入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする(第2900段階)。第2900段階で抽出するパラメータは、符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。また、第2900段階では抽出したパラメータを量子化する。
第2900段階でダウンミキシングされた信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する(第2910段階)。
第2910段階で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する(第2920段階)。第2920段階では、低周波数バンド信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第2変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
例えば、第2920段階では、低周波数バンド信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
第2920段階で周波数ドメインに変換された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する(第2930段階)。このような第2930段階は、前述した図22及び23に例示された通りに実施しうる。
第2910段階で分割された高周波数バンド信号を低周波数バンド信号を利用して符号化する(第2940段階)。
第2900段階で量子化されたパラメータ、第2930段階で符号化した結果及び第2940段階で符号化した結果を多重化することによって、ビットストリームを生成する。ここで、第2930段階で符号化した結果は、図22の実施例に記述された第2210段階で重要スペクトル成分を量子化した結果及び第2220段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された第2300段階で符号化された結果、第2320段階で重要スペクトル成分を量子化した結果及び第2330段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図30は、オーディオ及び/またはスピーチ信号符号化方法についての第8実施例を示すフローチャートである。
まず、入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする(第3000段階)。第3000段階で抽出するパラメータは符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。また、第3000段階では、抽出したパラメータを量子化する。
第3000段階でダウンミキシングされた信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する(第3010段階)。
第3010段階で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する(第3020段階)。第3020段階では、低周波数バンド信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために第1変換方式以外の第2変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第2変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。
例えば、第3020段階では、低周波数バンド信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
第3020段階で周波数ドメインに変換された信号の各サブバンドに対して、周波数ドメインでの符号化の適否を判断する(第3030段階)。言い換えれば、第3030段階では、既定の基準によって各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、第3030段階では、各サブバンドに対して第3030段階で決定されたドメインを示す識別子を量子化する。
第3030段階で、所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第3020段階で変換された周波数ドメインに該当する信号のみ利用する方法、時間ドメインに該当する低周波数バンド信号のみ利用する方法、第3020段階で変換された周波数ドメインに該当する信号と時間ドメインに該当する低周波数バンド信号とをいずれも利用する方法がある。
もし、第3030段階で周波数ドメインでの符号化が適したサブバンドであると判断されれば、該当するサブバンドを周波数ドメインで符号化する(第3040段階)。ここで、第3040段階は、前述した図22及び23に図示された例によって実施できる。
もし、第3030段階で周波数ドメインでの符号化が適したサブバンドではないと判断されれば、該当するサブバンドに対して第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する(第3050段階)。例えば、第3050段階は第1変換方式に対する逆変換方式に該当するIMDCTにより逆変換する。
第3020段階及び第3050段階は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例としてFV−MLTがある。
第3050段階で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する(第3060段階)。
所定の場合、第3030段階で周波数ドメインでの符号化が適したサブバンドではないと判断されても、該当するサブバンドの信号を時間ドメインで符号化すると同時に、同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の1つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化する。
第3010段階で分割された高周波数バンド信号を低周波数バンド信号を利用して符号化する(第3070段階)。
第3000段階で量子化されたパラメータ、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、第3040段階で符号化した結果、第3060段階で符号化した結果、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を含んで多重化することによってビットストリームを生成する(第3080段階)。第3080段階で符号化した結果は、図22の実施例に記述された第2210段階で重要スペクトル成分を量子化した結果及び第2220段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された第2300段階で符号化された結果、第2320段階で重要スペクトル成分を量子化した結果及び第2330段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図31は、オーディオ及び/またはスピーチ信号復号化方法についての第1実施例を示すフローチャートである。
まず、符号化端から伝送されたビットストリームを入力されて逆多重化する(第3100段階)。第3100段階で逆多重化した結果には、符号化端によって周波数ドメインで符号化された結果として重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果が含まれるもある。
第3100段階で逆多重化された符号化端によって周波数ドメインで符号化された結果を復号化する(第3110段階)。さらに詳細には、第3110段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第3110段階は、図32及び図33に例示された通りに実施しうる。
第1に、図32は、図31に示されたオーディオ及び/またはスピーチ信号復号化方法の第3110段階の一実施例を示すフローチャートである。
まず、人間の聴覚特性による知覚的な重複性を除去する心理音響モデルを適用してそれぞれ異なって割当てられたビットで符号化された重要スペクトル成分が逆多重化された結果を逆量子化する(第3200段階)。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
第3200段階で逆量子化した重要スペクトル成分を除いた残余スペクトル成分のノイズレベルが逆多重化された結果を復号化する(第3210段階)。また、第3210段階では、復号化されたノイズレベルを第3200段階で復号化された重要スペクトル成分に合成する。
第2に、図33は、図31に示されたオーディオ及び/またはスピーチ信号復号化方法の第3110段階の他の一実施例を示すフローチャートである。
まず、人間の聴覚特性による知覚的な重複性を除去する心理音響モデルを適用してそれぞれ異なって割当てられたビットで符号化された重要スペクトル成分が逆多重化された結果を逆量子化する(第3300段階)。
第3300段階で逆量子化された重要スペクトル成分を除いた残余スペクトル成分のノイズレベルが逆多重化された結果を復号化する(第3310段階)。また、第3310段階では、復号化されたノイズレベルを第3300段階で復号化された重要スペクトル成分に合成する。
第3310段階後に、符号化端で音声ツールにより符号化された結果が逆多重化された結果を復号化する(第3320段階)。また、第3320段階では、第3320段階で復号化された結果を第3310段階で合成された結果に合成する。
第3110段階で復号化された結果を周波数ドメインから時間ドメインに第2逆変換方式により逆変換する(第3120段階)。ここで、第2逆変換方式は、前述した第2変換方式に対する逆変換過程を適用したものであって、例えば、IMDCTがある。例えば、第3120段階では、図32で第3200段階で合成された信号をIMDCTにより周波数ドメインから時間ドメインに逆変換し、図33で第3320段階で合成された信号をIMDCTにより周波数ドメインから時間ドメインに逆変換する。
図34は、オーディオ及び/またはスピーチ信号復号化方法についての第2実施例を示すフローチャートである。
まず、符号化端から伝送されたビットストリームを入力されて逆多重化する(第3400段階)。第3400段階逆多重化した結果には、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果及び所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果などがある。
ここで、符号化端によって周波数ドメインで符号化された結果は、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
第3400段階で逆多重化された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する(第3410段階)。
もし、第3410段階で周波数ドメインで符号化されたサブバンドであると判断されれば、該当する1つ以上のサブバンドを周波数ドメインで復号化する(第3420段階)。さらに詳細には、第3420段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第3420段階は、図32及び図33に例示された通りに実施しうる。
もし、第3410段階によって時間ドメインで符号化されたサブバンドであると判断されれば、該当する1つ以上のサブバンドを時間ドメインで復号化する(第3430段階)。
所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも、周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。かかる場合該当するサブバンドに対して時間ドメインで符号化された結果を復号化し、周波数ドメインでも符号化された結果を復号化する。
第3430段階で復号化された信号を第2変換方式により時間ドメインから周波数ドメインに変換する(第3440段階)。例えば、第2変換方式にはMDCTがある。
第3420段階で復号化されたサブバンドの信号と第3440段階で変換されたサブバンドの信号とを合成して、第2逆変換方式により周波数ドメインから時間ドメインに逆変換する(第3450段階)。このような第2逆変換方式は、前述した第2変換方式を逆変換する過程を行うものであって、例えば、IMDCTがある。
第3440段階及び第3450段階は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてFV−MLTがある。
図35は、オーディオ及び/またはスピーチ信号復号化方法についての第3実施例を示すフローチャートである。
まず、符号化端から伝送されたビットストリームを入力されて逆多重化する(第3500段階)。第3500段階で逆多重化された結果には、符号化端によって周波数ドメインで符号化された結果及びモノ信号をステレオ信号にアップミキシングするためのパラメータを含む。ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果が含まれるもある。
第3500段階で逆多重化された符号化端によって周波数ドメインで符号化された結果を周波数ドメインで復号化する(第3510段階)。さらに詳細には、第3510段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第3510段階は図32及び図33に例示された通りに実施しうる。
第3510段階で復号化された結果を周波数ドメインから時間ドメインに第2逆変換方式により逆変換する(第3520段階)。ここで、第2逆変換方式は、前述した第2変換方式に対する逆変換過程を適用したものであって、例えば、IMDCTがある。
第3520段階で逆変換されたモノ信号をステレオ信号でアップミックスするためのパラメータを利用してステレオ信号にアップミキシングする(第3530段階)。このようなパラメータの例として二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。
図36は、オーディオ及び/またはスピーチ信号復号化方法についての第4実施例を示すフローチャートである。
まず、符号化端から伝送されたビットストリームを入力されて逆多重化する(第3600段階)。第3600段階逆多重化された結果には、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果及び所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果などがある。
ここで、符号化端によって周波数ドメインで符号化された結果は、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
第3600段階で逆多重化された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する(第3610段階)。
もし、第3610段階で周波数ドメインで符号化されたサブバンドであると判断されれば、該当する1つ以上のサブバンドを周波数ドメインで復号化する(第3620段階)。さらに詳細には、第3620段階では各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第3420段階は、図32及び図33に例示された通りに実施しうる。
もし、第3610段階によって時間ドメインで符号化されたサブバンドであると判断されれば、該当する1つ以上のサブバンドを時間ドメインで復号化する(第3630段階)。
所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも、周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。かかる場合該当するサブバンドに対して時間ドメインで符号化された結果を復号化し、周波数ドメインでも符号化された結果を復号化する。
第3630段階で復号化された信号を第2変換方式により時間ドメインから周波数ドメインに変換する(第3640段階)。例えば、第2変換方式にはMDCTがある。
第3620段階で復号化されたサブバンドの信号と第3640段階で変換されたサブバンドの信号とを合成して、第2逆変換方式により周波数ドメインから時間ドメインに逆変換する(第3650段階)。このような第2逆変換方式は、前述した第2変換方式を逆変換する過程を行うものであって、例えば、IMDCTがある。
第3640段階及び第3650段階は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてFV−MLTがある。
第3650段階で逆変換されたモノ信号をステレオ信号にアップミキシングするためのパラメータを利用してステレオ信号にアップミキシングする(第3660段階)。このようなパラメータの例として二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。
図37は、オーディオ及び/またはスピーチ信号復号化方法についての第5実施例を示すフローチャートである。
まず、符号化端から伝送されたビットストリームを入力されて逆多重化する(第3700段階)。第3700段階で逆多重化されたデータには、符号化端によって周波数ドメインで符号化された結果及び低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を含む。ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
第3700段階で逆多重化された符号化端によって周波数ドメインで符号化された結果を周波数ドメインで復号化する(第3710段階)。さらに詳細には、第3710段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第3710段階は、図32及び図33に例示された通りに実施しうる。
第3710段階で復号化された結果を周波数ドメインから時間ドメインに第2逆変換方式により逆変換する(第3720段階)。ここで、第2逆変換方式は、前述した第2変換方式に対する逆変換過程を適用したものであって、例えば、IMDCTがある。
第3720段階で逆変換された低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報によって低周波数バンド信号を利用して高周波数バンド信号を復号化する(第3730段階)。
第3720段階で逆変換された低周波数バンド信号と第3730段階で生成された高周波数バンド信号とを合成する(第3740段階)。
図38は、オーディオ及び/またはスピーチ信号復号化方法についての第6実施例を示すフローチャートである。
まず、符号化端から伝送されたビットストリームを入力されて逆多重化する(第3800段階)。第3800段階で逆多重化された結果には、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果及び所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果などがある。
ここで、符号化端によって周波数ドメインで符号化された結果は、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
第3800段階で逆多重化された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する(第3810段階)。
もし、第3810段階で周波数ドメインで符号化されたサブバンドであると判断されれば、該当する1つ以上のサブバンドを周波数ドメインで復号化する(第3820段階)。さらに詳細には、第3820段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第3820段階は図32及び図33に例示された通りに実施しうる。
もし、第3810段階によって時間ドメインで符号化されたサブバンドであると判断されれば、該当する1つ以上のサブバンドを時間ドメインで復号化する(第3830段階)。
所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも、周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。かかる場合該当するサブバンドを時間ドメインで符号化された結果を復号化し、周波数ドメインでも符号化された結果を復号化する。
第3830段階で復号化された信号を第2変換方式により時間ドメインから周波数ドメインに変換する(第3840段階)。例えば、第2変換方式にはMDCTがある。
第3820段階で復号化されたサブバンドの信号と第3840段階で変換されたサブバンドの信号とを合成して、第2逆変換方式により周波数ドメインから時間ドメインに逆変換する(第3850段階)。このような第2逆変換方式は、前述した第2変換方式を逆変換する過程を行うものであって、例えば、IMDCTがある。
第3840段階及び第3850段階は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてFV−MLTがある。
第3800段階で逆多重化された低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報によって低周波数バンド信号を利用して高周波数バンド信号を復号化する(第3860段階)。
第3850段階で逆変換された低周波数バンド信号と第3860段階で復号化された高周波数バンド信号とを合成する(第3870段階)。
図39は、オーディオ及び/またはスピーチ信号復号化方法についての第7実施例を示すフローチャートである。
まず、符号化端から伝送されたビットストリームを入力されて逆多重化する(第3900段階)。第3900段階で逆多重化された結果には、符号化端によって周波数ドメインで符号化された結果、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報、ステレオでアップミキシングできるパラメータなどがある。ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
第3900段階で逆多重化された結果を周波数ドメインで復号化する(第3910段階)。さらに詳細には、第3910段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第3910段階は、図32及び図33に例示された通りに実施しうる。
第3910段階で復号化された結果を周波数ドメインから時間ドメインに第2逆変換方式により逆変換する(第3920段階)。ここで、第2逆変換方式は、前述した第2変換方式に対する逆変換過程を適用したものであって、例えば、IMDCTがある。
第3900段階で逆多重化された高周波数バンド信号を復号化できる情報によって低周波数バンド信号を利用して高周波数バンド信号を復号化する(第3930段階)。
第3920段階で逆変換された低周波数バンド信号と第3930段階で生成された高周波数バンド信号とを合成する(第3940段階)。
第3940段階で合成されたモノ信号をステレオ信号にアップミキシングするためのパラメータを利用してステレオ信号にアップミキシングする(第3950段階)。このようなパラメータの例として二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。
図40は、オーディオ及び/またはスピーチ信号復号化方法についての第8実施例を示すフローチャートである。
まず、符号化端から伝送されたビットストリームを入力されて逆多重化する(第4000段階)。第4000段階で逆多重化された結果には、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果及び所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果などがある。
ここで、符号化端によって周波数ドメインで符号化された結果は、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
第4000段階で逆多重化された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する(第4010段階)。
もし、第4010段階で周波数ドメインで符号化されたサブバンドであると判断されれば、該当する1つ以上のサブバンドを周波数ドメインで復号化する(第4020段階)。さらに詳細には、第4020段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第4020段階は、図32及び図33に例示された通りに実施しうる。
もし、第4010段階によって時間ドメインで符号化されたサブバンドであると判断されれば、該当する1つ以上のサブバンドを時間ドメインで復号化する(第4030段階)。
所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。かかる場合、該当するサブバンドを時間ドメインで符号化された結果を復号化し、周波数ドメインでも符号化された結果を復号化する。
第4030段階で復号化された信号を第2変換方式により時間ドメインから周波数ドメインに変換する(第4040段階)。例えば、第2変換方式にはMDCTがある。
第4020段階で復号化されたサブバンドの信号と第4040段階で変換されたサブバンドの信号とを合成して第2逆変換方式により周波数ドメインから時間ドメインに逆変換する(第4050段階)。このような第2逆変換方式は、前述した第2変換方式を逆変換する過程を行うものであって、例えば、IMDCTがある。
第4040段階及び第4050段階は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてFV−MLTがある。
第4000段階で逆多重化された低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報によって低周波数バンド信号を利用して高周波数バンド信号を復号化する(第4060段階)。
第4050段階で逆変換された低周波数バンド信号と第4060段階で生成された高周波数バンド信号とを合成する(第4070段階)。
第4070段階で逆変換されたモノ信号をステレオ信号にアップミキシングするためのパラメータを利用してステレオ信号にアップミキシングする(第4080段階)。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。
実施例は、コンピュータで読取り可能な記録媒体にコンピュータ(情報処理機能を有する装置とをいずれも含む)で読取り可能なコードとして具現することができる。コンピュータで読取り可能な記録媒体はコンピュ−タシステムで読取り可能なデータが保存されるあらゆる種類の記録装置を含む。コンピュータで読取り可能な記録装置の例としては、ROM、RAM、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ保存装置などがある。
オーディオ及び/またはスピーチ信号符号化及び復号化方法及び装置の実施例によれば、スピーチ信号、オーディオ信号及びスピーチ信号とオーディオ信号が混合された信号をいずれも効率的に符号化/復号化しうる。また、符号化及び復号化を行うに当たって、少ないビットを使用しても、音質をさらに向上させうる効果を奏しうる。
理解を助けるために図示された実施例を参考にして説明したが、これは例示的なものに過ぎず、当業者ならば、これより多様な変形及び均等な他実施例が可能であるという点を理解できるである。したがって、実施例の真の技術的保護範囲は、特許請求の範囲により決まるべきである。

Claims (7)

  1. オーディオデータの符号化されたドメインが第1ドメインであるか第2ドメインであるかを判断する段階と、
    符号化されたオーディオデータを前記判断されたドメインで復号化する段階と、
    互いに異なるドメインで復号された前記オーディオデータを、帯域幅を拡張するために、1つのドメインで表現されるように処理する段階と、
    前記1つのドメインで表現されるように処理されたオーディオデータを用いて高周波数帯域信号を生成する段階と、
    前記1つのドメインで表現されるように処理されたオーディオデータと前記生成された高周波数帯域信号を含むモノ信号を、前記モノ信号をステレオ信号にアップミキシングするためのパラメータを用いてアップミキシングする段階と、を含むことを特徴とする信号復号化方法。
  2. 前記第1ドメインと前記第2ドメインは相異なることを特徴とする請求項に記載の信号復号化方法。
  3. 前記第1ドメインと前記第2ドメインのうち一つは周波数ドメインであることを特徴とする請求項に記載の信号復号化方法。
  4. 前記オーディオデータは低周波数帯域信号を含むことを特徴とする請求項に記載の信号復号化方法。
  5. オーディオデータの符号化されたドメインが第1ドメインであるか第2ドメインであるかを判断するモード判断部と、
    符号化されたオーディオデータを前記判断されたドメインで復号化する復号化部と、
    互いに異なるドメインで復号された前記オーディオデータを、帯域幅を拡張するために、1つのドメインで表現されるように処理するドメイン逆変換部と、
    前記1つのドメインで表現されるように処理されたオーディオデータを用いて高周波数帯域信号を生成する高周波数バンド復号化部と、
    前記1つのドメインで表現されるように処理されたオーディオデータと前記生成された高周波数帯域信号を含むモノ信号を、前記モノ信号をステレオ信号にアップミキシングするためのパラメータを用いてアップミキシングするステレオ復号化部と、を備え
    前記判断されたドメインが前記第1ドメインであり、前記第1ドメインが周波数ドメインである場合には、ノイズレベルを追加で復号化することを特徴とする信号復号化装置。
  6. 前記第1ドメインと前記第2ドメインは相異なることを特徴とする請求項に記載の信号復号化装置。
  7. 前記オーディオデータは低周波数帯域信号を含むことを特徴とする請求項に記載の信号復号化装置。
JP2009537084A 2006-11-17 2007-11-16 オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置 Active JP5357040B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020060114102A KR101434198B1 (ko) 2006-11-17 2006-11-17 신호 복호화 방법
KR10-2006-0114102 2006-11-17
PCT/KR2007/005764 WO2008060114A1 (en) 2006-11-17 2007-11-16 Method and apparatus to encode and/or decode audio and/or speech signal

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2013178117A Division JP6050199B2 (ja) 2006-11-17 2013-08-29 オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置

Publications (2)

Publication Number Publication Date
JP2010510540A JP2010510540A (ja) 2010-04-02
JP5357040B2 true JP5357040B2 (ja) 2013-12-04

Family

ID=39401877

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2009537084A Active JP5357040B2 (ja) 2006-11-17 2007-11-16 オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置
JP2013178117A Active JP6050199B2 (ja) 2006-11-17 2013-08-29 オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置
JP2015113480A Active JP6170520B2 (ja) 2006-11-17 2015-06-03 オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2013178117A Active JP6050199B2 (ja) 2006-11-17 2013-08-29 オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置
JP2015113480A Active JP6170520B2 (ja) 2006-11-17 2015-06-03 オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置

Country Status (6)

Country Link
US (2) US20080120095A1 (ja)
EP (1) EP2089878A4 (ja)
JP (3) JP5357040B2 (ja)
KR (1) KR101434198B1 (ja)
CN (2) CN103219010B (ja)
WO (1) WO2008060114A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
KR101016224B1 (ko) * 2006-12-12 2011-02-25 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 인코더, 디코더 및 시간 영역 데이터 스트림을 나타내는 데이터 세그먼트를 인코딩하고 디코딩하는 방법
KR101261524B1 (ko) * 2007-03-14 2013-05-06 삼성전자주식회사 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
KR101452722B1 (ko) * 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
PL2311034T3 (pl) * 2008-07-11 2016-04-29 Fraunhofer Ges Forschung Koder i dekoder audio do kodowania ramek próbkowanego sygnału audio
EP3002750B1 (en) * 2008-07-11 2017-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding audio samples
EP2301020B1 (en) * 2008-07-11 2013-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
ES2683077T3 (es) * 2008-07-11 2018-09-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
KR101381513B1 (ko) 2008-07-14 2014-04-07 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
KR101261677B1 (ko) 2008-07-14 2013-05-06 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
KR101756834B1 (ko) * 2008-07-14 2017-07-12 삼성전자주식회사 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
US20110087494A1 (en) * 2009-10-09 2011-04-14 Samsung Electronics Co., Ltd. Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme
EP2362387A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Watermark generator, watermark decoder, method for providing a watermark signal in dependence on binary message data, method for providing binary message data in dependence on a watermarked signal and computer program using a differential encoding
CN102884570B (zh) 2010-04-09 2015-06-17 杜比国际公司 基于mdct的复数预测立体声编码
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
KR101697550B1 (ko) * 2010-09-16 2017-02-02 삼성전자주식회사 멀티채널 오디오 대역폭 확장 장치 및 방법
US8948138B2 (en) * 2011-03-23 2015-02-03 Telefonaktiebolaget L M Ericsson (Publ) Signal compression for backhaul communications using linear transformations
CN103220058A (zh) * 2012-01-20 2013-07-24 旭扬半导体股份有限公司 音频数据与视觉数据同步装置及其方法
PL3457400T3 (pl) 2012-12-13 2024-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie do kodowania głosowego audio, urządzenie do dekodowania głosowego audio, sposób kodowania głosowego audio i sposób dekodowania głosowego audio
CN103971692A (zh) * 2013-01-28 2014-08-06 北京三星通信技术研究有限公司 音频处理方法、装置及系统
US9978381B2 (en) * 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3465341B2 (ja) * 1994-04-28 2003-11-10 ソニー株式会社 オーディオ信号符号化方法
JP3158932B2 (ja) * 1995-01-27 2001-04-23 日本ビクター株式会社 信号符号化装置及び信号復号化装置
JPH09127985A (ja) * 1995-10-26 1997-05-16 Sony Corp 信号符号化方法及び装置
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
CN100395817C (zh) * 2001-11-14 2008-06-18 松下电器产业株式会社 编码设备、解码设备和解码方法
JP4308229B2 (ja) * 2001-11-14 2009-08-05 パナソニック株式会社 符号化装置および復号化装置
CN1288625C (zh) * 2002-01-30 2006-12-06 松下电器产业株式会社 音频编码与解码设备及其方法
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
CN100508026C (zh) * 2002-04-10 2009-07-01 皇家飞利浦电子股份有限公司 立体声信号编码
DE60307252T2 (de) * 2002-04-11 2007-07-19 Matsushita Electric Industrial Co., Ltd., Kadoma Einrichtungen, verfahren und programme zur kodierung und dekodierung
JP4399185B2 (ja) * 2002-04-11 2010-01-13 パナソニック株式会社 符号化装置および復号化装置
US7191136B2 (en) * 2002-10-01 2007-03-13 Ibiquity Digital Corporation Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband
EP1611772A1 (en) * 2003-03-04 2006-01-04 Nokia Corporation Support of a multichannel audio extension
US7876966B2 (en) * 2003-03-11 2011-01-25 Spyder Navigations L.L.C. Switching between coding schemes
JP2004302259A (ja) * 2003-03-31 2004-10-28 Matsushita Electric Ind Co Ltd 音響信号の階層符号化方法および階層復号化方法
KR20050121733A (ko) * 2003-04-17 2005-12-27 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 발생
CN100508030C (zh) * 2003-06-30 2009-07-01 皇家飞利浦电子股份有限公司 一种编码/解码音频信号的方法及相应设备
KR100940531B1 (ko) * 2003-07-16 2010-02-10 삼성전자주식회사 광대역 음성 신호 압축 및 복원 장치와 그 방법
JP2005057591A (ja) * 2003-08-06 2005-03-03 Matsushita Electric Ind Co Ltd オーディオ信号符号化装置及びオーディオ信号復号化装置
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
ATE354160T1 (de) * 2003-10-30 2007-03-15 Koninkl Philips Electronics Nv Audiosignalcodierung oder -decodierung
CN1914668B (zh) * 2004-01-28 2010-06-16 皇家飞利浦电子股份有限公司 用于信号时间标度的方法及设备
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118835B (fi) * 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
US7639823B2 (en) * 2004-03-03 2009-12-29 Agere Systems Inc. Audio mixing using magnitude equalization
DE602004010188T2 (de) * 2004-03-12 2008-09-11 Nokia Corp. Synthese eines mono-audiosignals aus einem mehrkanal-audiosignal
US7739120B2 (en) * 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
US7596486B2 (en) 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
EP1749296B1 (en) * 2004-05-28 2010-07-14 Nokia Corporation Multichannel audio extension
KR100634506B1 (ko) * 2004-06-25 2006-10-16 삼성전자주식회사 저비트율 부호화/복호화 방법 및 장치
US8150042B2 (en) * 2004-07-14 2012-04-03 Koninklijke Philips Electronics N.V. Method, device, encoder apparatus, decoder apparatus and audio system
KR100773539B1 (ko) * 2004-07-14 2007-11-05 삼성전자주식회사 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
SE0402650D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
KR100707173B1 (ko) * 2004-12-21 2007-04-13 삼성전자주식회사 저비트율 부호화/복호화방법 및 장치
JP2006243042A (ja) * 2005-02-28 2006-09-14 Sanyo Electric Co Ltd 高域補間装置及び再生装置
KR100818268B1 (ko) * 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
WO2007052088A1 (en) * 2005-11-04 2007-05-10 Nokia Corporation Audio compression
EP1971978B1 (en) * 2006-01-09 2010-08-04 Nokia Corporation Controlling the decoding of binaural audio signals
KR20070077652A (ko) * 2006-01-24 2007-07-27 삼성전자주식회사 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
KR101390188B1 (ko) * 2006-06-21 2014-04-30 삼성전자주식회사 적응적 고주파수영역 부호화 및 복호화 방법 및 장치
US8010352B2 (en) * 2006-06-21 2011-08-30 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
KR101393298B1 (ko) * 2006-07-08 2014-05-12 삼성전자주식회사 적응적 부호화/복호화 방법 및 장치
KR101565919B1 (ko) * 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
KR101379263B1 (ko) * 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
KR101373004B1 (ko) * 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
EP2259253B1 (en) * 2008-03-03 2017-11-15 LG Electronics Inc. Method and apparatus for processing audio signal

Also Published As

Publication number Publication date
JP2010510540A (ja) 2010-04-02
CN103219010B (zh) 2017-05-31
US20080120095A1 (en) 2008-05-22
EP2089878A1 (en) 2009-08-19
KR101434198B1 (ko) 2014-08-26
JP2014016628A (ja) 2014-01-30
EP2089878A4 (en) 2011-01-19
US20170032800A1 (en) 2017-02-02
JP6170520B2 (ja) 2017-07-26
CN101583994A (zh) 2009-11-18
CN103219010A (zh) 2013-07-24
JP2015172779A (ja) 2015-10-01
JP6050199B2 (ja) 2016-12-21
KR20080044707A (ko) 2008-05-21
WO2008060114A1 (en) 2008-05-22
CN101583994B (zh) 2013-05-01

Similar Documents

Publication Publication Date Title
JP6170520B2 (ja) オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置
JP7092809B2 (ja) 再構築帯域に対するエネルギ情報を用いてオーディオ信号を復号化または符号化する装置および方法
KR101373004B1 (ko) 고주파수 신호 부호화 및 복호화 장치 및 방법
KR101435893B1 (ko) 대역폭 확장 기법 및 스테레오 부호화 기법을 이용한오디오 신호의 부호화/복호화 방법 및 장치
KR101428487B1 (ko) 멀티 채널 부호화 및 복호화 방법 및 장치
KR101411901B1 (ko) 오디오 신호의 부호화/복호화 방법 및 장치
CN105957532B (zh) 对音频/语音信号进行编码和解码的方法和设备
JP5809066B2 (ja) 音声符号化装置および音声符号化方法
WO2013168414A1 (ja) 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
JP4685165B2 (ja) 仮想音源位置情報に基づいたチャネル間レベル差量子化及び逆量子化方法
WO2009048239A2 (en) Encoding and decoding method using variable subband analysis and apparatus thereof
JP5629319B2 (ja) スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法
JPWO2011080916A1 (ja) 音声符号化装置および音声符号化方法
KR101403340B1 (ko) 변환 부호화 방법 및 장치
KR101434209B1 (ko) 오디오/스피치 신호 부호화장치
KR101434207B1 (ko) 오디오/스피치 신호 부호화방법
KR101434206B1 (ko) 신호 복호화 장치
EP2720223A2 (en) Audio signal processing method, audio encoding apparatus, audio decoding apparatus, and terminal adopting the same
KR101457897B1 (ko) 대역폭 확장 부호화 및 복호화 방법 및 장치
KR101449432B1 (ko) 신호 부호화 및 복호화 방법 및 장치
Li et al. Efficient stereo bitrate allocation for fully scalable audio codec

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120313

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120613

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130108

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130408

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130415

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130610

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130829

R150 Certificate of patent or registration of utility model

Ref document number: 5357040

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250