JP2017507363A - 帯域幅拡張のための高周波復号方法及びその装置 - Google Patents

帯域幅拡張のための高周波復号方法及びその装置 Download PDF

Info

Publication number
JP2017507363A
JP2017507363A JP2016555511A JP2016555511A JP2017507363A JP 2017507363 A JP2017507363 A JP 2017507363A JP 2016555511 A JP2016555511 A JP 2016555511A JP 2016555511 A JP2016555511 A JP 2016555511A JP 2017507363 A JP2017507363 A JP 2017507363A
Authority
JP
Japan
Prior art keywords
low frequency
spectrum
frequency spectrum
excitation
high frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016555511A
Other languages
English (en)
Other versions
JP6383000B2 (ja
Inventor
チュー,キ−ヒョン
オ,ウン−ミ
ファン,ソン−ホ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Priority claimed from PCT/KR2015/002045 external-priority patent/WO2015133795A1/ko
Publication of JP2017507363A publication Critical patent/JP2017507363A/ja
Application granted granted Critical
Publication of JP6383000B2 publication Critical patent/JP6383000B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

帯域幅拡張のための高周波数復号方法及びその装置に係り、該帯域幅拡張のための高周波数復号方法は、励起クラスを復号する段階、復号された低周波スペクトルを、励起クラスに基づいて変形する段階、及び変形された低周波スペクトルに基づいて、高周波数励起スペクトルを生成する段階を含む。

Description

本発明は、オーディオ符号化及びオーディオ復号に係り、さらに詳細には、帯域幅拡張のための高周波復号方法及びその装置に関する。
G.719のコーディングスキームは、テレカンファレンシングの目的で開発及び標準化されたものであり、MDCT(modified discrete cosine transform)を行って周波数ドメイン変換を行い、ステーショナリ(stationary)フレームである場合には、MDCTスペクトルを直ちにコーディングする。ノンステーショナリ(non-stationary)フレームは、時間ドメインエイリアシング順序(time domain aliasing order)を変更することにより、時間的な特性を考慮するように変更する。ノンステーショナリフレームについて得られたスペクトルは、ステーショナリフレームと同一フレームワークでコーデックスを構成するために、インターリービングを行い、ステーショナリフレームと類似した形態で構成される。かように構成されたスペクトルのエネルギーを求めて正規化を行った後で量子化を行う。通常、エネルギーは、RMS値で表現され、正規化されたスペクトルは、エネルギー基盤のビット割り当てを介して、バンド別に必要なビットを生成し、バンド別ビット割り当て情報を基に、量子化及び無損失符号化を介して、ビットストリームを生成する。
G.719のデコーディングスキームによれば、コーディング方式の逆過程でビットストリームからエネルギーを逆量子化し、逆量子化されたエネルギーを基に、ビット割り当て情報を生成してスペクトルの逆量子化を行い、正規化された逆量子化されたスペクトルを生成する。このとき、ビットが不足する場合、特定バンドには、逆量子化したスペクトルがなくなりもする。かような特定バンドに対してノイズを生成するために、低周波数の逆量子化されたスペクトルを基に、ノイズコードブックを生成し、伝送されたノイズレベルに合わせてノイズを生成するノイズフィリング方式が適用される。一方、特定周波数以上のバンドについては、低周波数信号をフォールディングし、高周波数信号を生成する帯域幅拡張技法が適用される。
本発明が解決しようとする課題は、復元音質を向上させることができる帯域幅拡張のための高周波復号方法及びその装置、並びにそれを採用するマルチメディア機器を提供することである。
前記課題を達成するための本発明の一実施形態による、帯域幅拡張のための高周波復号方法は、励起クラスを復号する段階と、復号された低周波スペクトルを、前記励起クラスに基づいて変形する段階と、変形された低周波スペクトルに基づいて、高周波数励起スペクトルを生成する段階と、を含んでもよい。
前記課題を達成するための本発明の一実施形態による、帯域幅拡張のための高周波数復号装置は、励起クラスを復号し、復号された低周波スペクトルを、前記励起クラスに基づいて変形し、変形された低周波スペクトルに基づいて、高周波数励起スペクトルを生成する少なくとも1つのプロセッサを含んでもよい。
本発明の一実施形態による、帯域幅拡張のための高周波数復号方法及びその装置によれば、復元された低周波スペクトルを変形し、高周波数励起スペクトルを生成することにより、複雑度の過度な増加なしに、復元音質を向上させることができる。
一実施形態によって、低周波帯域及び高周波帯域のサブバンド構成の例について説明する図面である。 一実施形態によって、R0帯域及びR1帯域を、選択されたコーディング方式に対応し、R2及びR3、並びにR4及びR5で区分した図面である。 一実施形態によって、R0帯域及びR1帯域を、選択されたコーディング方式に対応し、R2及びR3、並びにR4及びR5で区分した図面である。 一実施形態によって、R0帯域及びR1帯域を、選択されたコーディング方式に対応し、R2及びR3、並びにR4及びR5で区分した図面である。 一実施形態による、高周波帯域のサブバンド構成の例について説明する図面である。 一実施形態によるオーディオ符号化装置の構成を示したブロック図である。 一実施形態によるBWEパラメータ生成部の構成を示したブロック図である。 一実施形態によるオーディオ復号装置の構成を示したブロック図である。 一実施形態による高周波復号装置の構成を示したブロック図である。 一実施形態による低周波スペクトル変形部の構成を示したブロック図である。 他の実施形態による低周波スペクトル変形部の構成を示したブロック図である。 他の実施形態による低周波スペクトル変形部の構成を示したブロック図である。 他の実施形態による低周波スペクトル変形部の構成を示したブロック図である。 一実施形態にダイナミックレンジ制御部の構成を示したブロック図である。 一実施形態による高周波励起スペクトル生成部の構成を示したブロック図である。 バンド境界における、加重値に対するスムージング処理について説明するための図面である。 一実施形態によって、オーバーラッピング領域に存在するスペクトルを再構成するために使用される寄与分である加重値について説明する図面である。 一実施形態による、復号モジュールを含むマルチメディア機器の構成を示したブロック図である。 一実施形態による、符号化モジュール及び復号モジュールを含むマルチメディア機器の構成を示したブロック図である。 一実施形態による高周波復号方法の動作について説明するためのフローチャートである。 一実施形態による低周波スペクトル変形方法の動作について説明するためのフローチャートである。
本発明は、多様な変換を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、詳細な説明によって具体的に説明する。しかし、それは、本発明を、特定の実施形態について限定するものではなく、本発明の技術的思想及び技術範囲に含まれる全ての変換、均等物ないし代替物を含むものであると理解される。本発明についての説明において、関連公知技術に係わる具体的な説明が、本発明の要旨を不明確にすると判断される場合、その詳細な説明を省略する。
第1、第2のような用語は、多様な構成要素についての説明に使用されるが、構成要素は、用語によって限定されるものではない。該用語は、1つの構成要素を他の構成要素から区別する目的のみに使用される。
本発明で使用した用語は、ただ特定の実施形態についての説明に使用されたものであり、本発明を限定する意図ではない。本発明で使用した用語は、本発明での機能を考慮しながら、可能な限り、現在汎用される一般的な用語を選択したが、それは、当分野の当業者の意図、判例、または新たな技術の出現などによっても異なる。また、特定の場合は、出願人が任意に選定した用語もあり、その場合、当該発明の説明部分において、詳細にその意味を記載する。従って、本発明で使用される用語は、単純な用語の名称ではない、その用語が有する意味と、本発明の全般にわたる内容とを基に定義されなければならない。
単数の表現は、文脈上明白に異なって意味しない限り、複数の表現を含む。本発明において、「含む」または「有する」というような用語は、明細書上に記載された特徴、数字、段階、動作、構成要素、部品、またはそれらの組み合わせが存在するということを指すものであり、1またはそれ以上の他の特徴や数字、段階、動作、構成要素、部品、またはそれらの組み合わせの存在または付加の可能性をあらかじめ排除するものではないと理解されなければならない。
以下、本発明の実施形態について、添付図面を参照して詳細に説明するが、その説明において、同一であるか、あるいは対応する構成要素は、同一図面番号を付し、それに係わる重複説明は省略する。
図1は、一実施形態による、低周波帯域及び高周波帯域のサブバンド構成の例について説明する図面である。一実施形態によれば、サンプリングレートは、32kHzであり、640個のMDCT(modified discrete cosine transform)スペクトル係数を22個のバンドで構成し、具体的には、低周波帯域に対して17個のバンドで構成され、高周波帯域に対して、5個のバンドで構成される。例えば、高周波帯域の開始周波数は、241番目のスペクトル係数であり、0〜240までのスペクトル係数は、低周波コーディング方式、すなわち、コアコーディング方式によってコーディングされる領域であり、R0と定義することができる。また、241〜639までのスペクトル係数は、帯域幅拡張(BWE)が行われる高周波帯域であり、R1と定義することができる。一方、R1領域には、ビット割り当て情報により、低周波数コーディング方式によってコーディングされるバンドも存在することができる。
図2Aないし図2Cは、図1のR0領域及びR1領域を、選択されたコーディング方式により、R2、R3、R4、R5に区分した図面である。まず、BWE領域であるR1領域は、R2及びR3に区分され、低周波数コーディング領域であるR0領域は、R4及びR5に区分される。R2は、低周波数コーディング方式、例えば、周波数ドメインコーディング方式で、量子化及び無損失符号化される信号を含んでいるバンドを示し、R3は、低周波数コーディング方式によってコーディングされる信号がないバンドを示す。一方、R2がビットが割り当てされ、低周波数コーディング方式によってコーディングされると決定されるとしても、ビットが不足する場合、R3におけるところと同一方式でバンドが生成される。R5は、ビットが割り当てられ、低周波数コーディング方式でコーディングが行われるバンドを示し、R4は、ビット余裕分がなく、低周波数信号にもかかわらず、コーディングに行われないか、あるいはビットが少なく割り当てられ、ノイズを付加しなければならないバンドを示す。従って、R4とR5との区分は、ノイズ付加いかんによって判断され、それは、低周波数コーディングされたバンド内スペクトル個数の比率によって決定され、またはFPC(factorial pulse coding)を使用した場合には、バンド内パルス割り当て情報に基づいて決定することができる。R4バンドとR5バンドは、復号過程において、ノイズを付加するときに区分されために、符号化過程においては、明確に区分されない。R2バンド〜R5バンドは、符号化される情報が互いに異なるだけではなく、デコーディング方式が異なるようにも適用される。
図2Aに図示された例の場合、低周波数コーディング領域R0において、170−240までの2個バンドがノイズを付加するR4であり、BWE領域R1において、241−350までの2個バンド、及び427−639までの2個バンド、が低周波数コーディング方式によってコーディングされるR2である。図2Bに図示された例の場合、低周波数コーディング領域R0において、202−240までの1個バンドがノイズを付加するR4であり、BWE領域R1において、241−639までの5個バンドいずれもが低周波数コーディング方式によってコーディングされるR2である。図2Cに図示された例の場合、低周波数コーディング領域R0において、144−240までの3個バンドがノイズを付加するR4であり、BWE領域R1において、R2は存在しない。低周波数コーディング領域R0において、R4は、通常、高周波数部分に分布するが、BWE領域R1において、R2は、特定周波数部分に制限されるものではない。
図3は、一実施形態による広帯域(WB)の高周波帯域のサブバンド構成の例について説明する図面である。ここで、32KHzサンプリングレートは、32kHzであり、640個のMDCTスペクトル係数を、中高周波帯域に対して14個のバンドで構成される。100Hzには、4個のスペクトル係数が含まれ、従って、400Hzである最初のバンドには、16個のスペクトル係数が含まれる。参照符号310は、6.4〜14.4KHzの高周波帯域を示し、参照符号330は、8.0〜16.0KHzの高周波帯域に対するサブバンド構成をそれぞれ示す。
図4は、一実施形態によるオーディオ符号化装置の構成を示したブロック図である。図4に図示されたオーディオ符号化装置は、BWEパラメータ生成部410、低周波符号化部430、高周波符号化部450及び多重化部470を含んでもよい。各構成要素は、少なくとも1つのモジュールに一体化され、少なくとも1つのプロセッサ(図示せず)によっても具現される。ここで、入力信号は、音楽または音声、あるいは音楽と音声との混合信号を意味し、大きく見て、音声信号と、他の一般的な信号とに分けられる。以下では、説明の便宜のために、オーディオ信号と総称する。
図4を参照すれば、BWEパラメータ生成部410は、帯域幅拡張のためのBWEパラメータを生成することができる。ここで、BWEパラメータは、励起クラス(excitation class)に該当する。一方、具現方式により、BWEパラメータは、励起クラスと異なるパラメータを含んでもよい。BWEパラメータ生成部410は、フレーム単位で、信号特性に基づいて、励起クラスを生成することができる。具体的には、入力信号が音声特性を有するか、あるいはトナーを特性を有するかということを判断し、判断結果に基づいて、複数の励起クラスのうち一つを決定することができる。複数の励起クラスは、音声に係わる励起クラス、トーナルミュージックに係わる励起クラス、及びノントーナルミュージックに係わる励起クラスを含んでもよい。決定された励起クラスは、ビットストリームに含まれて伝送される。
低周波符号化部430は、低域信号に対して符号化を行い、符号化されたスペクトル係数を生成することができる。また、低周波符号化部430は、低域信号のエネルギーに係わる情報を符号化することができる。一実施形態によれば、低周波符号化部430は、低域信号を周波数ドメインに変換して低周波スペクトルを生成し、低周波スペクトルに対して量子化し、量子化されたスペクトル係数を生成することができる。ドメイン変換のために、MDCTを使用することができるが、それに限定されるものではない。量子化のために、PVQ(pyramid vector quantization)を使用することができるが、それに限定されるものではない。
高周波符号化部450は、高域信号に対して符号化を行い、デコーダ端での帯域幅拡張に必要なパラメータ、あるいはビット割り当てに必要なパラメータを生成することができる。帯域幅拡張に必要なパラメータは、高域信号のエネルギーに係わる情報と、付加情報とを含んでもよい。ここで、該エネルギーは、エンベロープ、スケールファクタ、平均電力あるいはNormで表現される。該付加情報は、高域で重要な周波数成分を含むバンドに係わる情報であり、特定高周波バンドに含まれた周波数成分に係わる情報でもある。高周波符号化部450は、高域信号を周波数ドメインに変換して高周波スペクトルを生成し、高周波スペクトルのエネルギーに係わる情報を量子化することができる。ドメイン変換のために、MDCTを使用することができるが、それに限定されるものではない。量子化のために、ベクトル量子化を使用することができるが、それに限定されるものではない。
多重化部470は、BWEパラメータ、すなわち、励起クラス、帯域幅拡張に必要なパラメータ、あるいはビット割り当てに必要なパラメータ、及び低域の符号化されたスペクトル係数を含み、ビットストリームを生成することができる。該ビットストリームは、伝送されたり保存されたりする。
周波数ドメインのBWE方式は、時間ドメインコーディングパートと結合されて適用される。時間ドメインコーディングには、主に、CELP(code excited linear prediction)方式が使用され、CELP方式で低域をコーディングし、周波数ドメインでのBWEではない時間ドメインでのBWE方式と結合されるように具現される。かような場合、全体的に、時間ドメインコーディングと周波数ドメインコーディングとの適応的コーディング方式決定に基づいて、コーディング方式を選択的に適用することができる。適切なコーディング方式を選択するために、信号分類を必要として、一実施形態によれば、信号分類結果を優先的に利用して、フレーム別励起クラスを決定することができる。
図5は、一実施形態によるBWEパラメータ生成部410(図4)の構成を示したブロック図であり、信号分類部510及び励起クラス生成部530を含んでもよい。
図5を参照すれば、信号分類部510は、信号特性をフレーム単位で分析し、現在フレームが音声信号であるか否かということを分類し、分類結果によって、励起クラスを決定することができる。信号分類処理は、公知の多様な方法、例えば、短区間特性及び/または長区間特性を利用して遂行される。短区間特性及び/または長区間特性は、周波数ドメイン特性あるいは時間ドメイン特性でもある。現在フレームが、時間ドメインコーディングが適切な方式である音声信号に分類される場合、高域信号の特性に基づいた方式より、固定された形態の励起クラスを割り当てる方式が音質向上に役に立つ。ここで、信号分類処理は、以前フレームの分類結果を考慮せずに、現在フレームについて行われる。すなわち、たとえ現在フレームが、ハングオーバーを考慮し、最終的には、周波数ドメインコーディングと決定されるにしても、現在フレーム自体が、時間ドメインコーディングが適切な方式であると分類された場合には、固定された励起クラスを割り当てることができる。例えば、現在フレームが、時間ドメインコーディングが適切な音声信号に分類される場合、励起クラスは、音声特性に係わる第1励起クラスに設定される。
励起クラス生成部530は、信号分類部510の分類結果、現在フレームが音声信号に分類されない場合、少なくとも1以上の閾値を利用して励起クラスを決定することができる。一実施形態によれば、励起クラス生成部530は、信号分類部510の分類結果、現在フレームが音声信号に分類されない場合、高域のトーナリティ値を算出し、トーナリティ値を閾値と比較し、励起クラスを決定することができる。励起クラスの個数により、複数個の閾値が使用される。1つの閾値が使用される場合、トーナリティ値が閾値より大きい場合、トーナルミュージック信号であり、トーナリティ値が閾値より小さい場合、ノントーナルミュージック信号、例えば、ノイズ信号に分類することができる。現在フレームがトーナルミュージック信号に分類される場合、励起クラスは、トーナル特性に係わる第2励起クラスに決定され、ノイズ信号に分類される場合、ノントーナル特性と係わる第3励起クラスに決定される。
図6は、一実施形態によるオーディオ復号装置の構成を示したブロック図である。図6に図示されたオーディオ復号装置は、逆多重化部610、BWEパラメータ復号部630、低周波復号部650及び高周波復号部670を含んでもよい。図示されていないが、オーディオ復号装置は、スペクトル結合部と逆変換部をさらに含んでもよい。各構成要素は、少なくとも1つのモジュールに一体化され、少なくとも1つのプロセッサ(図示せず)によっても具現される。ここで、入力信号は、音楽または音声、あるいは音楽と音声との混合信号を意味し、大きく見て、音声信号と、他の一般的な信号にも分けられる。以下では、説明の便宜のために、オーディオ信号と総称する。
図6を参照すれば、逆多重化部610は、受信されるビットストリームをパージングし、復号に必要なパラメータを生成することができる。
BWEパラメータ復号部630は、ビットストリームから、BWEパラメータを復号することができる。該BWEパラメータは、励起クラスに該当する。一方、該BWEパラメータは、励起クラスと異なるパラメータを含んでもよい。
低周波復号部650は、ビットストリームから、低域の符号化されたスペクトル係数を復号し、低周波スペクトルを生成することができる。一方、低周波復号部650は、低域信号のエネルギーに係わる情報を復号することができる。
高周波復号部670は、復号された低周波スペクトルと、励起クラスとを利用して、高周波励起スペクトルを生成することができる。他の実施形態によれば、高周波復号部670は、ビットストリームから、帯域幅拡張に必要なパラメータ、あるいはビット割り当てに必要なパラメータを復号し、帯域幅拡張に必要なパラメータ、あるいはビット割り当てに必要なパラメータと、復号された低域信号のエネルギーに係わる情報とを高周波励起スペクトルに適用することができる。
帯域幅拡張に必要なパラメータは、高域信号のエネルギーに係わる情報と、付加情報とを含んでもよい。該付加情報は、高域で重要な周波数成分を含むバンドに係わる情報であり、特定高周波バンドに含まれた周波数成分に係わる情報でもある。高域信号のエネルギーに係わる情報は、ベクトル逆量子化される。
スペクトル結合部(図示せず)は、低周波復号部650から提供されるスペクトルと、高周波復号部670から提供されるスペクトルとを結合することができる。逆変換部(図示せず)は、結合されたスペクトルを時間ドメインに逆変換することができる。ドメイン逆変換のためにIMDCT(inverse MDCT)を使用することができるが、それに限定されるものではない。
図7は、一実施形態による高周波復号装置の構成を示したブロック図であり、図6の高周波復号部670に対応するか、あるいは別途の装置でも具現される。図7の高周波復号装置は、低周波スペクトル変形部710及び高周波励起スペクトル生成部730を含んでもよい。ここに図示されていないが、復号された低周波スペクトルを受信する受信部をさらに含んでもよい。
図7を参照すれば、低周波スペクトル変形部710は、復号された低周波スペクトルを、励起クラスに基づいて変形する(modify)。一実施形態によれば、復号された低周波スペクトルは、ノイズフィリング処理されたスペクトルでもある。他の実施形態によれば、復号された低周波スペクトルは、ノイズフィリング処理された後、ゼロとして残っている部分に、再びランダム符号と、一定サイズの振幅を有する係数とを挿入するアンチスパースネス(anti-sparseness)処理されたスペクトルでもある。
高周波励起スペクトル生成部730は、変形された低周波スペクトルから、高周波励起スペクトルを生成することができる。さらには、生成された高周波励起スペクトルのエネルギーが逆量子化されたエネルギーにマッチングされるように生成された高周波励起スペクトルのエネルギーにゲインを適用することができる。
図8は、一実施形態による低周波スペクトル変形部710(図7)構成を示したブロック図であり、演算部810を含んでもよい。
図8を参照すれば、演算部810は、復号された低周波スペクトルに対して、励起クラスに基づいて、所定の演算処理を行い、変形された低周波スペクトルを生成することができる。ここで、復号された低周波スペクトルは、ノイズフィリング処理されたスペクトル、アンチスパースネス処理されたスペクトル、あるいはノイズが付加されていない逆量子化された低周波スペクトルに該当する。所定の演算処理は、励起クラスによって加重値を決定し、復号された低周波スペクトルとランダムノイズとを、決定された加重値に基づいて混合する処理を意味する。所定の演算処理は、乗算処理と加算処理とを含んでもよい。ランダムノイズは、公知の多様な方式によって生成され、一例を挙げれば、ランダムシード(random seed)を利用して生成される。一方、演算部810は、所定の演算処理に先立ってホワイトニングされた低周波スペクトルと、ランダムノイズとのレベルを類似したレベルにマッチングさせる処理をさらに含んでもよい。
図9は、他の実施形態による低周波スペクトル変形部710(図7)の構成を示したブロック図であり、ホワイトニング部910、演算部930及びレベル調整部950を含んでもよい。ここで、レベル調整部950は、オプションとしても具備される。
図9を参照すれば、ホワイトニング部910は、復号された低周波スペクトルに対して、ホワイトニングを行うことができる。ここで、復号された低周波スペクトルに、ゼロとして残っている部分は、ノイズフィリング処理あるいはアンチスパースネス処理によってノイズが付加される。ノイズ付加は、サブバンド単位で選択的に行われる。ホワイトニング処理は、低周波スペクトルのエンベロープ情報に基づいて正規化を行うものであり、公知の多様な方式を適用することができる。具体的には、正規化処理は、低周波スペクトルからエンベロープを算出し、低周波スペクトルをエンベロープに分けることに該当する。ホワイトニング処理は、スペクトルの形態はフラットであるが、内部周波数の微細構造(fine structure)は維持されるように行われる。一方、正規化処理のためのウィンドウサイズは、信号特性によって決定される。
演算部930は、ホワイトニングされた低周波スペクトルに対して、励起クラスに基づいて、所定の演算処理を行い、変形された低周波スペクトルを生成することができる。所定の演算処理は、励起クラスによって加重値を決定し、ホワイトニングされた低周波スペクトルとランダムノイズとを、決定された加重値に基づいて混合する処理を意味する。演算部930は、図8の演算部810と同一に動作することができる。
図10は、他の実施形態による低周波スペクトル変形部710(図7)の構成を示したブロック図であり、ダイナミックレンジ制御部1010を含んでもよい。
図10を参照すれば、ダイナミックレンジ制御部1010は、復号された低周波スペクトルのダイナミックレンジを励起クラスに基づいて制御し、変形された低周波スペクトルを生成することができる。ここで、ダイナミックレンジは、スペクトル振幅を意味する。
図11は、他の実施形態による低周波スペクトル変形部710(図7)の構成を示したブロック図であり、ホワイトニング部1110及びダイナミックレンジ制御部1130を含んでもよい。
図11を参照すれば、ホワイトニング部1110は、図9のホワイトニング部910と同一に動作することができる。すなわち、ホワイトニング部1110は、復号された低周波スペクトルに対して、ホワイトニングを行うことができる。ここで、復号された低周波スペクトルに、ゼロとして残っている部分は、ノイズフィリング処理あるいはアンチスパースネス処理によってノイズが付加される。ノイズ付加は、サブバンド単位で選択的に行われる。ホワイトニング処理は、低周波スペクトルのエンベロープ情報に基づいて正規化を行うものであり、公知の多様な方式を適用することができる。具体的には、正規化処理は、低周波スペクトルからエンベロープを算出し、低周波スペクトルをエンベロープに分けることに該当する。ホワイトニング処理は、スペクトルの形態はフラットであるが、内部周波数の微細構造は維持されるように行われる。一方、正規化処理のためのウィンドウサイズは、信号特性によって決定される。
ダイナミックレンジ制御部1130は、ホワイトニングされた低周波スペクトルのダイナミックレンジを励起クラスに基づいて制御し、変形された低周波スペクトルを生成することができる。
図12は、一実施形態によるダイナミックレンジ制御部1110(図11)の構成を示したブロック図であり、符号分離部1210、制御パラメータ決定部1230、振幅調節部1250、ランダム符号生成部1270及び符号適用部1290を含んでもよい。ここで、ランダム符号生成部1270は、符号適用部1290と一体化されもする。
図12を参照すれば、符号分離部1210は、復号された低周波スペクトルから符号を除去し、振幅、すなわち、絶対値スペクトルを生成することができる。
制御パラメータ決定部1230は、励起クラスに基づいて制御パラメータを決定することができる。励起クラスは、トーナル特性あるいはフラット特性と関連ある情報であるために、励起クラスに基づいて、絶対値スペクトルの振幅を調節することができる制御パラメータを決定することができる。絶対値スペクトルの振幅は、ダイナミックレンジあるいはピーク・バレー間隔で示すことができる。一実施形態によれば、制御パラメータ決定部1130は、励起クラスに対応し、互いに異なる値の制御パラメータを決定することができる。例えば、音声特性に係わる励起クラスである場合には、0.2を、トーナル特性に係わる励起クラスである場合には、0.05と、ノイズ特性に係わる励起クラスである場合には、0.8を制御パラメータに割り当てることができる。それにより、高周波帯域でノイズ特性を有するフレームの場合、振幅調節程度を大きくすることができる。
振幅調節部1250は、制御パラメータ決定部1230で決定された制御パラメータに基づいて、低周波スペクトルの振幅、すなわち、ダイナミックレンジを調節することができる。そのとき、制御パラメータの値が大きいほど、ダイナミックレンジをさらに多く調節する。一実施形態によれば、本来の絶対値スペクトルに所定大きさの振幅を加減することにより、ダイナミックレンジを調節することができる。所定大きさの振幅は、絶対値スペクトルの特定バンドの各周波数ビンの振幅と、当該バンドの平均振幅との差値に、制御パラメータを乗じた値に該当する。振幅調節部1250は、低周波スペクトルを、同一サイズのバンドでもって構成して処理することができる。一実施形態によれば、各バンドに16個のスペクトル係数が含まれるように構成することができる。各バンド別に平均振幅が算出され、各バンドに含まれた各周波数ビンの振幅が、各バンドの平均振幅と、制御パラメータとに基づいて調節される。一例を挙げれば、バンドの平均振幅より大きい振幅を有する周波数ビンは、その振幅を減少させ、バンドの平均振幅より小さい振幅を有する周波数ビンは、その振幅を増加させることを意味する。そのとき、ダイナミックレンジの調節程度は、励起クラスによって異なる。具体的には、ダイナミックレンジ制御は、下記数式(1)によって行われる。
ここで、S’[i]は、周波数ビンiのダイナミックレンジが制御された振幅を示し、S[i]は、周波数ビンiの振幅を示し、m[k]は、周波数ビンiが属しているバンドの平均振幅を示し、aは、制御パラメータをそれぞれ示す。一実施形態によれば、各振幅は、絶対値を示すことができる。それによれば、ダイナミックレンジ制御は、バンドのスペクトル係数、すなわち、周波数ビンの単位で行われる。平均振幅は、バンド単位で算出され、制御パラメータは、フレーム単位で適用される。
一方、各バンドは、トランスポジションが行われる開始周波数を基準に構成することができる。一例を挙げれば、各バンドは、トランスポジション周波数ビン2から始まりながら、16個の周波数ビンを含むように構成することができる。具体的には、SWB(super wideband)である場合、24.4kbpsでは、周波数ビンの145で終わりながら、9個のバンドが存在し、32kbpsでは、周波数ビンの129で終わりながら、8個のバンドが存在する。FB(full band)である場合、24.4kbpsでは、周波数ビンの305で終わりながら、19個のバンドが存在し、32kbpsでは、周波数ビンの289で終わりながら、18個のバンドが存在する。
ランダム符号生成部1270は、励起クラスに基づいて、ランダム符号が必要であると判断された場合、ランダム符号を生成することができる。ランダム符号は、フレーム単位で生成される。一実施形態によれば、ノイズ特性に係わる励起クラスの場合、ランダム符号が適用される。
符号適用部1290は、ダイナミックレンジが調節された低周波スペクトルに対して、ランダム符号、あるいは本来の符号のうち一つを適用し、変形された低周波スペクトルを生成することができる。ここで、本来の符号は、符号分離部1210で除去された符号を使用することができる。一実施形態によれば、ノイズ特性に係わる励起クラスの場合、ランダム符号を適用し、トーナル特性に係わる励起クラス、あるいは音声特性に係わる励起クラスの場合、本来の符号を適用することができる。具体的には、noisyであると判断されたフレームの場合、ランダム符号を適用し、トーナルであると判断されたフレーム、あるいは音声信号と判断されたフレームの場合、本来の符号を適用することができる。
図13は、一実施形態による高周波励起スペクトル生成部730(図7)の構成を示したブロック図であり、スペクトルパッチング部1310及びスペクトル調節部1330を含んでもよい。ここで、スペクトル調節部1330は、オプションとしても具備される。
図13を参照すれば、スペクトルパッチング部1310は、変形された低周波スペクトルを高域にパッチング、例えば、転写、コピー、ミラーリングあるいはフォールディングし、空いている高域にスペクトルを充填することができる。一実施形態によれば、ソース帯域である50〜3250Hzにある変形されたスペクトルを、8000〜11200Hz帯域にコピーし、同一ソース帯域である50〜3250Hzにある変形されたスペクトルを、11200Hz〜14400Hz帯域にコピーし、ソース帯域である2000〜3600Hzにある変形されたスペクトルを、14400〜16000Hz帯域にコピーすることができる。かような過程を介して、変形された低周波スペクトルから、高周波励起スペクトルが生成される。
スペクトル調節部1330は、スペクトルパッチング部1310で行われたパッチングされたバンド間の境界において、スペクトルの不連続を解決するために、スペクトルパッチング部1310から提供される高周波励起スペクトルを調節することができる。一実施形態によれば、スペクトルパッチング部1310から提供される高周波励起スペクトルの境界位置周辺のスペクトルを活用することができる。
かように生成された高周波励起スペクトル、あるいは調節された高周波励起スペクトルと、復号された低周波スペクトルは、結合され、結合されたスペクトルは、逆変換過程を介して、時間ドメイン信号に生成される。高周波励起スペクトル、及び復号された低周波スペクトルそれぞれに対して、あらかじめ逆変換過程が遂行された後で結合されもする。一方、逆変換過程には、IMDCTが適用されてもよいが、それに限定されるものではない。
スペクトル結合過程において、周波数帯域が重なる部分に対して、オーバーラップアド(overlap ad)処理を介して復元することができる。または、スペクトル結合過程において、周波数帯域が重なる部分に対して、ビットストリームを介して伝送された情報を基に復元することができる。あるいは、受信側の環境により、オーバーラップアド処理、あるいは伝送された情報に基づいた処理が選択的に適用されるか、あるいは加重値に基づいて復元することができる。
図14は、バンド境界において、加重値に対するスムージング処理について説明するための図面である。図14を参照すれば、(K+2)バンドの加重値と、(K+1)バンドの加重値とが互いに異なるために、バンド境界でスムージングを行う必要がある。図14の例では、(K+1)バンドは、スムージングを行わず、(K+2)バンドでのみスムージングを行う。その理由は、(K+1)バンドでの加重値Ws(K+1)が0であるために、(K+1)バンドでスムージングを行えば、(K+1)バンドでの加重値Ws(K+1)が0ではない値を有し、(K+1)バンドにおいて、ランダムノイズまで考慮しなければならないからである。すなわち、加重値が0であるいうのは、当該バンドでは、高周波励起スペクトルの生成時、ランダムノイズを考慮しないということを示す。それは、極端なトーナル信号である場合に該当し、ランダムノイズによって、ハーモニック信号のバレー区間にノイズが挿入され、ノイズ発生を防ぐためである。
次に、高周波エネルギーに対して、低周波エネルギー伝送方式とは異なる方式、例えば、VQ(vector quantization)のような方式を適用すれば、低周波エネルギーは、スカラー量子化後、無損失符号化を使用して伝送され、高周波エネルギーは、他の方式で量子化を行って伝送される。かように処理する場合、低周波数コーディング領域R0の最後のバンドと、BWE領域R1の開始バンドとをオーバーラッピングする方式で構成することができる。また、BWE領域R1のバンド構成は、他の方式で構成し、さらに稠密なバンド割り当て構造を有することができる。
例えば、低周波数コーディング領域R0の最後のバンドは、8.2kHzまで構成され、BWE領域R1の開始バンドは、8kHzから始まるように構成することができる。その場合、低周波数コーディング領域R0と、BWE領域R1との間に、オーバーラッピング領域が発生する。その結果、オーバーラッピング領域には、2つの復号されたスペクトルを生成することができる。一つは、低周波復号方式を適用して生成したスペクトルであり、他の一つは、高周波復号方式で生成したスペクトルである。2つのスペクトル、すなわち、低周波スペクトルと高周波スペクトルとの遷移(transition)がさらにスムージングされるように、オーバーラップアド方式を適用することができる。例えば、2つのスペクトルを同時に活用しながら、オーバーラッピングされた領域のうち、低周波数側に近いスペクトルは、低周波方式によって生成されたスペクトルの寄与分を高め、高周波数側に近いスペクトルは、高周波方式によって生成されたスペクトルの寄与分を高め、オーバーラッピングされた領域を再構成することができる。
例えば、低周波数コーディング領域R0の最後のバンドは、8.2kHzまでであり、BWE領域R1の開始バンドは、8kHzから始める場合、32kHzサンプリングレートで、640サンプルのスペクトルを構成すれば、320〜327まで8個のスペクトルがオーバーラップされ、8個のスペクトルについては、次の数式(2)のように生成することができる。
ここで、
は、低周波方式によって復号されたスペクトルを示し
は、高周波方式によって復号されたスペクトルを示し、L0は、高周波の開始スペクトル位置を示し、L0〜L1は、オーバーラッピングされた領域を示し、wは、寄与分をそれぞれ示す。
図15は、一実施形態によって、復号化端でのBWE処理後、オーバーラッピング領域に存在するスペクトルを再構成するために使用される寄与分について説明する図面である。
図15を参照すれば、w(k)は、w0(k)及びw1(k)を選択的に適用することができるが、w0(k)は、低周波数と高周波数との復号方式に、同一加重値を適用するものであり、w1(k)は、高周波数の復号方式にさらに大きい加重値を加える方式である。2つのw(k)に係わる選択基準は多様であるが、一例としては、低周波のオーバーラッピングバンドにパルスが存在するか否かということである。低周波のオーバーラッピングバンドでパルスが選択されてコーディングされた場合には、w0(k)を活用し、低周波で生成したスペクトルに対する寄与分を、L1近くまで有効にし、高周波の寄与分を減少させる。基本的には、BWEを介して生成された信号のスペクトルよりは、実際コーディング方式によって生成されたスペクトルが、原信号との近接性側面でさらに高い。それを活用し、オーバーラッピングバンドで原信号にさらに近接したスペクトルの寄与分を高める方式を適用することができ、従って、スムージング効果及び音質の向上を図ることができる。
図16は、本発明の一実施形態による、復号モジュールを含むマルチメディア機器の構成を示したブロック図である。
図16に図示されたマルチメディア機器1600は、通信部1610と復号モジュール1630とを含んでもよい。また、復号結果として得られる復元されたオーディオ信号の用途によって、復元されたオーディオ信号を保存する保存部1650をさらに含んでもよい。また、マルチメディア機器1600は、スピーカ1670をさらに含んでもよい。すなわち、保存部1650とスピーカ1670は、オプションとしても具備される。一方、図16に図示されたマルチメディア機器1600は、任意の符号化モジュール(図示せず)、例えば、一般的な符号化機能を遂行する符号化モジュール、あるいは本発明の一実施形態による符号化モジュールをさらに含んでもよい。ここで、復号モジュール1630は、マルチメディア機器1600に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1つの以上のプロセッサ(図示せず)によっても具現される。
図16を参照すれば、通信部1610は、外部から提供される符号化されたビットストリームと、オーディオ信号とのうち少なくとも一つを受信するか、あるいは復号モジュール1630の復号結果として得られる復元されたオーディオ信号と、符号化結果として得られるオーディオビットストリームとのうち少なくとも一つを送信することができる。通信部1610は、無線インターネット、無線イントラネット、無線電話網、無線LAN(local area network)、Wi−Fi(wireless fidelity)、WFD(Wi−Fi direct)、3G(generation)、4G(4generation)、ブルートゥース(Bluetooth(登録商標))、赤外線通信(IrDA(infrared data association))、RFID(radio frequency identification)、UWB(ultra wideband)、ジグビー(Zigbee(登録商標))、NFC(near field communication)のような無線ネットワーク;または有線電話網、有線インターネットのような有線ネットワークを介して、外部のマルチメディア機器とデータを送受信することができるように構成される。
復号モジュール1630は、一実施形態によれば、通信部1610を介して提供されるビットストリームを受信し、ビットストリームに含まれたオーディオスペクトルに対して復号を行うことができる。復号処理は、前述の復号装置、あるいは後述する復号方法を利用して行われることができるが、それらに限定されるものではない。
保存部1650は、復号モジュール1630で生成される復元されたオーディオ信号を保存することができる。一方、保存部1650は、マルチメディア機器1600の運用に必要な多様なプログラムを保存することができる。
スピーカ1670は、復号モジュール1630で生成される復元されたオーディオ信号を外部に出力することができる。
図17は、本発明の一実施形態による、符号化モジュール及び復号モジュールを含むマルチメディア機器の構成を示したブロック図である。
図17に図示されたマルチメディア機器1700は、通信部1710、符号化モジュール1720及び復号モジュール1730を含んでもよい。また、符号化結果として得られるオーディオビットストリーム、あるいは復号結果として得られる復元されたオーディオ信号の用途によって、オーディオビットストリーム、あるいは復元されたオーディオ信号を保存する保存部1740をさらに含んでもよい。また、マルチメディア機器1700は、マイクロフォン1750あるいはスピーカ1760をさらに含んでもよい。ここで、符号化モジュール1720と復号モジュール1730は、マルチメディア機器1700に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1以上のプロセッサ(図示せず)によっても具現される。
図17に図示された各構成要素のうち、図16に図示されたマルチメディア機器1600と重複する構成要素については、その詳細な説明は省略する。
符号化モジュール1720は、一実施形態によれば、通信部1710あるいはマイクロフォン1750を介して提供される時間ドメインのオーディオ信号に対して符号化を行うことができる。該符号化処理は、前述の符号化装置を利用して行われもするが、それに限定されるものではない。
マイクロフォン1750は、ユーザあるいは外部のオーディオ信号を符号化モジュール1720に提供することができる。
図16及び図17に図示されたマルチメディア機器1600,1700には、電話、モバイルフォンなどを含む音声通信専用端末;TV(television)、MP3プレーヤなどを含む放送専用装置あるいは音楽専用装置;あるいは音声通信専用端末と、放送専用装置あるいは音楽専用装置との融合端末装置が含まれるが、それらに限定されるものではない。また、マルチメディア機器1600,1700は、クライアント、サーバ、あるいはクライアントとサーバとの間に配置される変換器としても使用される。
一方、マルチメディア機器1600,1700が、例えば、モバイルフォンである場合、図示されてはいないが、キーパッドのようなユーザ入力部、ユーザインターフェース、あるいはモバイルフォンで処理される情報をディスプレイするディスプレイ部、モバイルフォンの全般的な機能を制御するプロセッサをさらに含んでもよい。また、モバイルフォンは、撮像機能を有するカメラ部と、モバイルフォンで必要とされる機能を遂行する少なくとも1以上の構成要素と、をさらに含んでもよい。
一方、マルチメディア機器1600,1700が、例えば、TVである場合、図示されてはいないが、キーパッドのようなユーザ入力部、受信された放送情報をディスプレイするディスプレイ部、TVの全般的な機能を制御するプロセッサをさらに含んでもよい。また、TVは、TVで必要とされる機能を遂行する少なくとも1以上の構成要素をさらに含んでもよい。
図18は、一実施形態による高周波復号方法の動作について説明するためのフローチャートである。図18に図示された方法は、図6の高周波復号部670で遂行されるか、あるいは別途のプロセッサによっても遂行される。
図18を参照すれば、1810段階においては、励起クラスを復号する。励起クラスは、エンコーダ端で生成され、ビットストリームでデコーダ端に伝送される。一方、励起クラスは、デコーダ端で別途に生成して使用される。励起クラスは、フレーム単位で得られる。
1830段階においては、ビットストリームに含まれた低周波スペクトルの量子化インデックスから復号された低周波スペクトルを受信することができる。量子化インデックスは、例えば、最も低い周波数帯域以外には、帯域間差分インデックスでもある。低周波スペクトルの量子化インデックスは、例えば、ベクトル逆量子化される。ベクトル逆量子化方法としては、PVQを使用することができるが,それに限定されるものではない。逆量子化結果に対して,ノイズフィリング処理が行われ、復号された低周波スペクトルを生成することができる。ノイズフィリング処理は、ゼロに量子化されることにより、スペクトルに存在するギャップをフィリングするためのものである。類似ランダムノイズがギャップに挿入されもする。ノイズフィリング処理が施される周波数ビンの区間は、あらかじめ設定されている。ギャップに挿入されるノイズ量は、ビットストリームに伝送されるパラメータによっても制御される。ノイズフィリング処理された低周波スペクトルは、追加して逆正規化が行われてもよい。ノイズフィリング処理された低周波スペクトルに対しては、追加してアンチスパースネス処理(anti-sparseness processing)が行われてもよい。アンチスパースネス処理のために、ノイズフィリング処理された低周波数スペクトルにおいて、ゼロとして残っている係数部分に、ランダム符号と、一定大きさの振幅とを有する係数が挿入される。アンチスパースネス処理された低周波数スペクトルは、追加して低域の逆量子化されたエンベロープに基づいて、エネルギーが調節されてもよい。
1850段階においては、復号された低周波スペクトルを、励起クラスに基づいて変形することができる。復号された低周波スペクトルは、逆量子化されたスペクトル、ノイズフィリング処理されたスペクトル、あるいはアンチスパースネス処理されたスペクトルのうち一つにもなる。復号された低周波スペクトルの振幅を、励起クラスによって調節することができる。例えば、振幅減少分を励起クラスによって決定することができる。
1870段階においては、変形された低周波スペクトルを利用して、高周波励起スペクトルを生成することができる。変形された低周波スペクトルを、帯域幅拡張のために必要となる高域にパッチングし、高周波励起スペクトルを生成することができる。パッチング方法の例としては、あらかじめ設定された区間を高域にコピーしたりフォールディングしたりする方法を有することができる。
図19は、一実施形態による低周波スペクトル変形方法の動作について説明するためのフローチャートである。図19に図示された方法は、図18の1850段階に該当するか、あるいは独立しても具現される。一方、図19に図示された方法は、図7の低周波スペクトル変形部710で遂行されるか、あるいは別途のプロセッサによっても遂行される。
図19を参照すれば、1910段階においては、励起クラスに基づいて、振幅調節程度を決定することができる。具体的には、1910段階においては、振幅調節程度を決定するために、励起クラスに基づいて、制御パラメータを生成することができる。一実施形態によれば、励起クラスが、音声特性、トーナル特性あるいはノントーナル特性を示すかというによって、制御パラメータの値が決定される。
1930段階においては、決定された振幅調節位に基づいて、低周波スペクトルの振幅を調節することができる。励起クラスが、音声特性あるいはトーナル特性を示す場合と比較すれば、励起クラスがノントーナル特性を示す場合、さらに大きい値の制御パラメータが生成されるために、振幅減少分が大きくなる。振幅調節の例としては、各周波数ビンの振幅、例えば、Norm値と、当該バンドの平均Norm値との差を制御パラメータに乗じた値ほど減少させることができる。
1950段階においては、振幅が調節された低周波スペクトルに対して、符号を適用することができる。励起クラスにより、本来の符号あるいはランダム符号が適用される。例えば、励起クラスが、音声特性あるいはトーナル特性を示す場合、本来の符号が、励起クラスがノントーナル特性を示す場合、ランダム符号化が適用される。
1970段階においては、1950段階で符号が適用された低周波スペクトルを、変形された低周波数スペクトルに生成することができる。
前記実施形態による方法は、コンピュータで実行されるプログラムに作成可能であり、コンピュータで読み取り可能な記録媒体を利用して、前記プログラムを動作させる汎用デジタルコンピュータで具現される。また、前述の本発明の実施形態で使用されるデータ構造、プログラム命令あるいはデータファイルは、コンピュータで読み取り可能な記録媒体に、多様な手段を介して記録される。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取り可能なデータが保存される全種の保存装置を含んでもよい。コンピュータで読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体(magnetic media);CD(compact disc)−ROM(read only memory)、DVD(digital versatile disc)のような光記録媒体(optical media);フロプティカルディスク(floptical disk)のような磁気・光媒体(magneto-optical media);及びROM、RAM(random access memory)、フラッシュメモリのような、プログラム命令を保存して遂行するように特別に構成されたハードウェア装置;が含まれてもよい。また、コンピュータで読み取り可能な記録媒体は、プログラム命令、データ構造などを指定する信号を伝送する伝送媒体でもある。プログラム命令の例としては、コンパイラによって作われるような機械語コードだけではなく、インタープリタなどを使用して、コンピュータによって実行される高級言語コードを含んでもよい。
以上のように、本発明の一実施形態は、たとえ限定された実施形態及び図面によって説明されたとしても、本発明の一実施形態は、前述の実施形態に限定されるものではなく、本発明が属する分野で当業者であるならば、かような記載から、多様な修正及び変形が可能でああろう。従って、本発明のスコープは、前述の説明ではなく、特許請求の範囲に示されており、それと均等または等価的変形は、いずれも本発明技術的思想の範疇に属するものである。

Claims (15)

  1. 励起クラスを復号する段階と、
    復号された低周波スペクトルを、前記励起クラスに基づいて変形する段階と、
    変形された低周波スペクトルに基づいて、高周波数励起スペクトルを生成する段階と、を含む帯域幅拡張のための高周波復号方法。
  2. 前記励起クラスは、フレーム単位でビットストリームに含まれることを特徴とする請求項1に記載の帯域幅拡張のための高周波復号方法。
  3. 前記低周波スペクトルを変形する段階は、前記励起クラスに基づいて振幅調節程度を決定することを特徴とする請求項1に記載の帯域幅拡張のための高周波復号方法。
  4. 前記低周波スペクトルを変形する段階は、前記励起クラスに基づいて、前記復号された低周波スペクトルのダイナミックレンジを調節することを特徴とする請求項1に記載の帯域幅拡張のための高周波復号方法。
  5. 前記低周波スペクトルを変形する段階は、
    前記励起クラスに基づいて制御パラメータを生成する段階と、
    前記制御パラメータに基づいて、前記低周波スペクトルの振幅を調節する段階と、を含むことを特徴とする請求項1に記載の帯域幅拡張のための高周波復号方法。
  6. 前記低周波スペクトルを変形する段階は、前記復号された低周波スペクトルを正規化する段階をさらに含み、前記制御パラメータに基づいて、前記正規化された低周波スペクトルの振幅を調節することを特徴とする請求項5に記載の帯域幅拡張のための高周波復号方法。
  7. 前記低周波スペクトルの振幅を調節する段階は、特定帯域に含まれたスペクトル係数の振幅と、前記帯域の振幅平均との差と、前記制御パラメータとを利用して遂行されることを特徴とする請求項5に記載の帯域幅拡張のための高周波復号方法。
  8. 前記低周波スペクトルを変形する段階は、振幅が調節された低周波スペクトルに対して、励起クラスに基づいて、ランダム符号と、本来の符号とのうち一つを適用する段階をさらに含むことを特徴とする請求項5に記載の帯域幅拡張のための高周波復号方法。
  9. 前記励起クラスが、音声特性あるいはトーナル特性に係わる場合、前記振幅が調節された低周波スペクトルに、本来の符号を適用することを特徴とする請求項5に記載の帯域幅拡張のための高周波復号方法。
  10. 前記励起クラスが、ノントーナル特性に係わる場合、低周波スペクトルにランダム符号を適用することを特徴とする請求項5に記載の帯域幅拡張のための高周波復号方法。
  11. 前記復号された低周波スペクトルは、ノイズフィリング処理されたスペクトル、あるいはアンチスパースネス処理されたスペクトルであることを特徴とする請求項1に記載の帯域幅拡張のための高周波復号方法。
  12. 励起クラスを復号し、復号された低周波スペクトルを、前記励起クラスに基づいて変形し、変形された低周波スペクトルに基づいて、高周波数励起スペクトルを生成する少なくとも1つのプロセッサを含む帯域幅拡張のための帯域幅拡張のための高周波復号装置。
  13. 前記プロセッサは、
    前記励起クラスを復号するパラメータ復号部と、
    前記復号された低周波スペクトルの振幅を、前記励起クラスに基づいて調節し、前記変形された低周波スペクトルを生成する低周波スペクトル変形部と、
    前記変形された低周波スペクトルに基づいて、前記高周波励起スペクトルを生成する高周波励起スペクトル生成部と、を含むことを特徴とする請求項12に記載の帯域幅拡張のための高周波復号装置。
  14. 前記プロセッサは、前記励起クラスに基づいて、前記復号された低周波スペクトルのダイナミックレンジの調節程度を決定することを特徴とする請求項12に記載の帯域幅拡張のための高周波復号装置。
  15. 前記プロセッサは、前記励起クラスがノントーナル特性を示す場合、前記励起クラスが、音声特性あるいはトーナル特性を示す場合より、前記復号された低周波スペクトルのダイナミックレンジを多く調節することを特徴とする請求項12に記載の帯域幅拡張のための高周波復号装置。
JP2016555511A 2014-03-03 2015-03-03 帯域幅拡張のための高周波復号方法及びその装置 Active JP6383000B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461946985P 2014-03-03 2014-03-03
US61/946,985 2014-03-03
PCT/KR2015/002045 WO2015133795A1 (ko) 2014-03-03 2015-03-03 대역폭 확장을 위한 고주파 복호화 방법 및 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018146260A Division JP6715893B2 (ja) 2014-03-03 2018-08-02 帯域幅拡張のための高周波復号方法及びその装置

Publications (2)

Publication Number Publication Date
JP2017507363A true JP2017507363A (ja) 2017-03-16
JP6383000B2 JP6383000B2 (ja) 2018-08-29

Family

ID=57482538

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016555511A Active JP6383000B2 (ja) 2014-03-03 2015-03-03 帯域幅拡張のための高周波復号方法及びその装置
JP2018146260A Active JP6715893B2 (ja) 2014-03-03 2018-08-02 帯域幅拡張のための高周波復号方法及びその装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2018146260A Active JP6715893B2 (ja) 2014-03-03 2018-08-02 帯域幅拡張のための高周波復号方法及びその装置

Country Status (4)

Country Link
US (3) US10410645B2 (ja)
EP (1) EP3115991A4 (ja)
JP (2) JP6383000B2 (ja)
CN (3) CN106463143B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3518237B1 (en) 2014-03-14 2022-09-07 Telefonaktiebolaget LM Ericsson (publ) Audio coding method and apparatus
US10553228B2 (en) * 2015-04-07 2020-02-04 Dolby International Ab Audio coding with range extension
US10984808B2 (en) * 2019-07-09 2021-04-20 Blackberry Limited Method for multi-stage compression in sub-band processing
CN113593586A (zh) * 2020-04-15 2021-11-02 华为技术有限公司 音频信号编码方法、解码方法、编码设备以及解码设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005111568A1 (ja) * 2004-05-14 2005-11-24 Matsushita Electric Industrial Co., Ltd. 符号化装置、復号化装置、およびこれらの方法
JP2010020251A (ja) * 2008-07-14 2010-01-28 Ntt Docomo Inc 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法
JP2010538317A (ja) * 2007-08-27 2010-12-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) ノイズ補充の方法及び装置
JP2011215198A (ja) * 2010-03-31 2011-10-27 Sony Corp 復号装置および復号方法、符号化装置および符号化方法、並びにプログラム
US20130290003A1 (en) * 2012-03-21 2013-10-31 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding high frequency for bandwidth extension

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8421498D0 (en) 1984-08-24 1984-09-26 British Telecomm Frequency domain speech coding
US5247579A (en) * 1990-12-05 1993-09-21 Digital Voice Systems, Inc. Methods for speech transmission
JPH05260105A (ja) * 1992-03-11 1993-10-08 Fujitsu Ltd 無線送信装置
JP3278900B2 (ja) * 1992-05-07 2002-04-30 ソニー株式会社 データ符号化装置及び方法
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
JP3237089B2 (ja) 1994-07-28 2001-12-10 株式会社日立製作所 音響信号符号化復号方法
US5940429A (en) * 1997-02-25 1999-08-17 Solana Technology Development Corporation Cross-term compensation power adjustment of embedded auxiliary data in a primary data signal
US6272176B1 (en) 1998-07-16 2001-08-07 Nielsen Media Research, Inc. Broadcast encoding system and method
CN100372270C (zh) * 1998-07-16 2008-02-27 尼尔逊媒介研究股份有限公司 广播编码的系统和方法
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
JP3454206B2 (ja) * 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
SE0004163D0 (sv) 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
DE60323331D1 (de) * 2002-01-30 2008-10-16 Matsushita Electric Ind Co Ltd Verfahren und vorrichtung zur audio-kodierung und -dekodierung
DE60327900D1 (de) * 2002-12-24 2009-07-16 Fujitsu Microelectronics Ltd Taktgenerator mit spektraler Dispersion
ATE394774T1 (de) * 2004-05-19 2008-05-15 Matsushita Electric Ind Co Ltd Kodierungs-, dekodierungsvorrichtung und methode dafür
WO2006025313A1 (ja) * 2004-08-31 2006-03-09 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号化装置、通信装置及び音声符号化方法
DE602004020765D1 (de) 2004-09-17 2009-06-04 Harman Becker Automotive Sys Bandbreitenerweiterung von bandbegrenzten Tonsignalen
KR100648704B1 (ko) * 2005-07-29 2006-11-23 삼성에스디아이 주식회사 이차 전지 모듈
US7734462B2 (en) * 2005-09-02 2010-06-08 Nortel Networks Limited Method and apparatus for extending the bandwidth of a speech signal
US8396717B2 (en) * 2005-09-30 2013-03-12 Panasonic Corporation Speech encoding apparatus and speech encoding method
EP2012305B1 (en) * 2006-04-27 2011-03-09 Panasonic Corporation Audio encoding device, audio decoding device, and their method
US20080300866A1 (en) * 2006-05-31 2008-12-04 Motorola, Inc. Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
CN101089951B (zh) 2006-06-16 2011-08-31 北京天籁传音数字技术有限公司 频带扩展编码方法及装置和解码方法及装置
KR101390188B1 (ko) * 2006-06-21 2014-04-30 삼성전자주식회사 적응적 고주파수영역 부호화 및 복호화 방법 및 장치
KR101346358B1 (ko) 2006-09-18 2013-12-31 삼성전자주식회사 대역폭 확장 기법을 이용한 오디오 신호의 부호화/복호화방법 및 장치
US20080071550A1 (en) * 2006-09-18 2008-03-20 Samsung Electronics Co., Ltd. Method and apparatus to encode and decode audio signal by using bandwidth extension technique
KR101375582B1 (ko) 2006-11-17 2014-03-20 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US8639500B2 (en) 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
US8392198B1 (en) * 2007-04-03 2013-03-05 Arizona Board Of Regents For And On Behalf Of Arizona State University Split-band speech compression based on loudness estimation
EP2186088B1 (en) 2007-08-27 2017-11-15 Telefonaktiebolaget LM Ericsson (publ) Low-complexity spectral analysis/synthesis using selectable time resolution
CN101458930B (zh) * 2007-12-12 2011-09-14 华为技术有限公司 带宽扩展中激励信号的生成及信号重建方法和装置
EP2224432B1 (en) * 2007-12-21 2017-03-15 Panasonic Intellectual Property Corporation of America Encoder, decoder, and encoding method
KR101452722B1 (ko) * 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
AU2009220321B2 (en) 2008-03-03 2011-09-22 Intellectual Discovery Co., Ltd. Method and apparatus for processing audio signal
CN101335000B (zh) 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
CN101609674B (zh) 2008-06-20 2011-12-28 华为技术有限公司 编解码方法、装置和系统
WO2010028297A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
US8532983B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
CN101751926B (zh) 2008-12-10 2012-07-04 华为技术有限公司 信号编码、解码方法及装置、编解码系统
KR101301245B1 (ko) * 2008-12-22 2013-09-10 한국전자통신연구원 스펙트럼 계수의 서브대역 할당 방법 및 장치
EP2555191A1 (en) * 2009-03-31 2013-02-06 Huawei Technologies Co., Ltd. Method and device for audio signal denoising
PL2273493T3 (pl) 2009-06-29 2013-07-31 Fraunhofer Ges Forschung Kodowanie i dekodowanie z rozszerzaniem szerokości pasma
FR2947945A1 (fr) 2009-07-07 2011-01-14 France Telecom Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques
CN102081927B (zh) 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
CN102222505B (zh) 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
US8600737B2 (en) * 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
WO2011155170A1 (ja) * 2010-06-09 2011-12-15 パナソニック株式会社 帯域拡張方法、帯域拡張装置、プログラム、集積回路およびオーディオ復号装置
CN102436820B (zh) * 2010-09-29 2013-08-28 华为技术有限公司 高频带信号编码方法及装置、高频带信号解码方法及装置
CA2823175C (en) 2010-12-29 2016-07-26 Ki-Hyun Choo Apparatus and method for encoding/decoding for high-frequency bandwidth extension
US9589568B2 (en) 2011-02-08 2017-03-07 Lg Electronics Inc. Method and device for bandwidth extension
RU2464649C1 (ru) 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
JP6001657B2 (ja) 2011-06-30 2016-10-05 サムスン エレクトロニクス カンパニー リミテッド 帯域幅拡張信号生成装置及びその方法
US9384749B2 (en) 2011-09-09 2016-07-05 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, encoding method and decoding method
US9390722B2 (en) * 2011-10-24 2016-07-12 Lg Electronics Inc. Method and device for quantizing voice signals in a band-selective manner
CN104025189B (zh) 2011-10-27 2016-10-12 Lg电子株式会社 编码语音信号的方法、解码语音信号的方法,及使用其的装置
HUE050600T2 (hu) * 2011-11-03 2021-01-28 Voiceage Evs Llc A nem-beszéd tartalom javítása alacsony sebességû CELP számára
US9082398B2 (en) * 2012-02-28 2015-07-14 Huawei Technologies Co., Ltd. System and method for post excitation enhancement for low bit rate speech coding
KR20130007485U (ko) * 2012-06-21 2013-12-31 이찬희 액자화분
CN102750955B (zh) * 2012-07-20 2014-06-18 中国科学院自动化研究所 基于残差信号频谱重构的声码器
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
AU2015291897B2 (en) 2014-07-25 2019-02-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Acoustic signal encoding device, acoustic signal decoding device, method for encoding acoustic signal, and method for decoding acoustic signal

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005111568A1 (ja) * 2004-05-14 2005-11-24 Matsushita Electric Industrial Co., Ltd. 符号化装置、復号化装置、およびこれらの方法
JP2010538317A (ja) * 2007-08-27 2010-12-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) ノイズ補充の方法及び装置
JP2010020251A (ja) * 2008-07-14 2010-01-28 Ntt Docomo Inc 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法
JP2011215198A (ja) * 2010-03-31 2011-10-27 Sony Corp 復号装置および復号方法、符号化装置および符号化方法、並びにプログラム
US20130290003A1 (en) * 2012-03-21 2013-10-31 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding high frequency for bandwidth extension

Also Published As

Publication number Publication date
US20170092282A1 (en) 2017-03-30
JP6383000B2 (ja) 2018-08-29
CN111312277A (zh) 2020-06-19
US20210020187A1 (en) 2021-01-21
CN111312277B (zh) 2023-08-15
CN111312278A (zh) 2020-06-19
US10410645B2 (en) 2019-09-10
US20190385627A1 (en) 2019-12-19
CN106463143B (zh) 2020-03-13
US11676614B2 (en) 2023-06-13
JP2018165843A (ja) 2018-10-25
CN111312278B (zh) 2023-08-15
US10803878B2 (en) 2020-10-13
JP6715893B2 (ja) 2020-07-01
EP3115991A4 (en) 2017-08-02
CN106463143A (zh) 2017-02-22
EP3115991A1 (en) 2017-01-11

Similar Documents

Publication Publication Date Title
KR102248252B1 (ko) 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
JP6980871B2 (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
US11688406B2 (en) High-band encoding method and device, and high-band decoding method and device
US11676614B2 (en) Method and apparatus for high frequency decoding for bandwidth extension
JP2016538602A (ja) 信号符号化方法及びその装置、並びに信号復号化方法及びその装置
JP2017506771A (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
KR102491177B1 (ko) 대역폭 확장을 위한 고주파 복호화 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161014

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180802

R150 Certificate of patent or registration of utility model

Ref document number: 6383000

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250