JP6239007B2 - オーディオエンコーダ、オーディオデコーダ、符号化されたオーディオ情報を生成する方法、復号されたオーディオ情報を生成する方法、コンピュータプログラム及び信号適応帯域幅拡張を用いる符号化表現 - Google Patents

オーディオエンコーダ、オーディオデコーダ、符号化されたオーディオ情報を生成する方法、復号されたオーディオ情報を生成する方法、コンピュータプログラム及び信号適応帯域幅拡張を用いる符号化表現 Download PDF

Info

Publication number
JP6239007B2
JP6239007B2 JP2015555682A JP2015555682A JP6239007B2 JP 6239007 B2 JP6239007 B2 JP 6239007B2 JP 2015555682 A JP2015555682 A JP 2015555682A JP 2015555682 A JP2015555682 A JP 2015555682A JP 6239007 B2 JP6239007 B2 JP 6239007B2
Authority
JP
Japan
Prior art keywords
bandwidth extension
information
audio
audio information
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015555682A
Other languages
English (en)
Other versions
JP2016509257A (ja
Inventor
ザーシャ・ディシュ
クリスチアン・ヘルムリヒ
ヨハネス・ヒルペルト
ユーリエン・ロビリアルド
コンスタンティン・シュミット
シュテファン・ヴィルデ
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2016509257A publication Critical patent/JP2016509257A/ja
Application granted granted Critical
Publication of JP6239007B2 publication Critical patent/JP6239007B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明による実施形態は、入力されたオーディオ情報に基づいて符号化されたオーディオ情報を生成するためのオーディオエンコーダに関する。
本発明によるさらなる実施形態は、符号化されたオーディオ情報に基づいて復号されたオーディオ情報を生成するためのオーディオデコーダに関する。
本発明によるさらなる実施形態は、入力されたオーディオ情報に基づいて符号化されたオーディオ情報を生成するための方法に関する。
本発明によるさらなる実施形態は、符号化されたオーディオ情報に基づいて復号されたオーディオ情報を生成するための方法に関する。
本発明によるさらなる実施形態は、前記方法のうちの1つを実行するためのコンピュータプログラムに関する。
本発明によるさらなる実施形態は、オーディオ情報を表す符号化されたオーディオ表現に関する。
本発明による幾つかの実施形態は、超低ビットレートオーディオ符号化のための信号適応(signal-adaptive)型サイド情報レートを有する汎用オーディオ帯域幅拡張に関する。
近年、オーディオコンテンツの符号化及び復号に対する需要が高まってきている。符号化されたオーディオコンテンツの送信及び記憶のための利用可能なビットレート及び記憶容量は、大幅に増大してきているが、依然として、相応な品質でのオーディオコンテンツ、特に通信の場面における音声信号、のビットレート効率的な符号化、送信、記憶及び復号が求められている。
最新の音声符号化システムは、広帯域(WB)デジタル・オーディオ・コンテンツ、即ち周波数が7−8kHzまでの信号を6kbpsという低いビットレートで符号化する能力を有する。最も広範に論じられる例は、ITU−T推奨のG.722.2(例えば、非特許文献[1]参照)並びにさらに最近に開発されたG.718(例えば、非特許文献[4]及び[10]参照)及びMPEG統合型音声オーディオコーデックxHE−AAC(例えば、非特許文献[8]参照)である。AMR−WBとしても知られるG.722.2及びG.718は、共に、基礎を成すACELPコアコーダが、知覚的により適切なより低い周波数(具体的には、ヒト聴覚系が位相敏感である周波数)に「集中」し、これにより、特に超低ビットレートで十分な品質を達成できるようにするために、6.4kHzから7kHzまでの帯域幅拡張(BWE:bandwidth extension)技術を使用する。xHE−AACでは、帯域幅拡張(BWE)に向上スペクトル帯域複製(eSBR:enhanced spectral band replication)が使用される。帯域幅拡張プロセスは、概して、次のような2つの概念的なアプローチに分けることができる。
(1)「ブラインド」又は「人工的」BWE。この帯域幅拡張プロセスでは、高周波数(HF)成分が、復号された低周波数(LF)コアコーダ(core-coder)信号のみから、即ち、エンコーダから送信されるサイド情報を必要とすることなく復元される。このスキームは、AMR−WB及びG.718により16kbps以下で、ならびに、従来の狭帯域電話音声上で動作する幾つかの後方互換性帯域幅拡張後処理システム(例えば、非特許文献[5]及び[9]参照)によって使用される。
(2)「誘導式」BWE。これは、高周波数(HF)コンテンツの復元に使用されるパラメータの幾つかが、復号されたコア信号から推定されるのではなく、サイド情報としてデコーダへ送信されることにおいてブラインド帯域幅拡張とは異なる。AMR−WB、G.718、xHE−AAC、ならびに他の幾つかのコーデック(例えば、非特許文献[2]、[7]及び[11]参照)は、このアプローチを用いるが、超低ビットレートでの使用ではない。
[1] B. Bessette et al., "The Adaptive Multi-rate Wideband Speech Codec (AMR-WB)・" IEEE Trans. on Speech and Audio Processing, Vol. 10, No. 8, Nov. 2002. [2] B. Geiser et al., "Bandwidth Extension for Hierarchical Speech and Audio Coding in ITU-T Rec. G.729.1・" IEEE Trans. on Audio, Speech, and Language Processing, Vol. 15, No. 8, Nov. 2007. [3] B. Iser, W. Minker, and G. Schmidt, Bandwidth Extension of Speech Signals, Springer Lecture Notes in Electrical Engineering, Vol. 13, New York, 2008. [4] M. Jelinek and R. Salami, "Wideband Speech Coding Advances in VMR-WB Standard・" IEEE Trans. on Audio, Speech, and Language Processing, Vol. 15, No. 4, May 2007. [5] I. Katsir, I. Cohen, and D. Malah, "Speech Bandwidth Extension Based on Speech Phonetic Content and Speaker Vocal Tract Shape Estimation・" in Proc. EUSIPCO 2011, Barcelona, Spain, Sep. 2011. [6] E. Larsen and R. M. Aarts, Audio Bandwidth Extension: Application of Psycho, Signal Processing and Loudspeaker Design, Wiley, New York, 2004. [7] J. Maekinen et al., "AMR-WB+: A New Audio Coding Standard for 3rd Generation Mobile Audio Services・" in Proc. ICASSP 2005, Philadelphia, USA, Mar. 2005. [8] M. Neuendorf et al., "MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types・" in Proc. 132nd AES Convention, Budapest, Hungary, Apr. 2012. Also appears in the Journal of the AES, 2013. [9] H. Pulakka and P. Alku, "Bandwidth Extension of Telephone Speech Using a Neural Network and a Filter Bank Implementation for Highband Mel Spectrum・" IEEE Trans. on Audio, Speech, and Language Processing, Vol. 19, No. 7, Sep. 2011. [10] T. Vaillancourt et al., "ITU-T EV-VBR: A Robust 8-32 kbit/s Scalable Coder for Error Prone Telecommunications Channels・" in Proc. EUSIPCO 2008, Lausanne, Switzer, Aug. 2008. [11] L. Miao et al., "G.711.1 Annex D and G.722 Annex B: New ITU-T Superwideband codecs・" in Proc. ICASSP 2011, Prague, Czech Republic, May 2011.
しかしながら、低いビットレートでオーディオコンテンツを復元するに足る高品質を実現する適切な帯域幅拡張を提供することは、困難であることが分かっている。
したがって、ビットレートとオーディオ品質との間に改良されたトレードオフをもたらす帯域幅拡張概念が必要とされている。
本発明による一実施形態は、入力されたオーディオ情報に基づいて符号化されたオーディオ情報を生成するためのオーディオエンコーダを創造する。このオーディオエンコーダは、入力されたオーディオ情報の低周波数部分を符号化して、低周波数部分の符号化表現を得るように構成された低周波数エンコーダを備えている。このオーディオエンコーダは、入力されたオーディオ情報に基づいて帯域幅拡張情報を生成するように構成された帯域幅拡張情報プロバイダも備えている。このオーディオエンコーダは、帯域幅拡張情報を、選択的に、符号化されたオーディオ情報へ信号適応式で包含するように構成されている。
本発明によるこの実施形態は、幾つかのタイプのオーディオコンテンツに関しては、かつ連続したオーディオコンテンツ片における幾つかの部分ですらも、低周波数部分の符号化表現に基づいて、帯域幅拡張サイド情報なしに、又はほんの少しの帯域幅拡張サイド情報(例えば、符号化されたオーディオ情報に包含されている少数の帯域幅拡張パラメータ)だけで、高品質の帯域幅拡張を実現することができる、という発見に基づいている。しかしながら、本概念は、他のタイプのオーディオコンテンツに関しては、かつ連続したオーディオコンテンツ片における他の部分ですらも、そうでなければデコーダ側の帯域幅拡張が満足のいくオーディオ品質を実現できないという理由で、帯域幅拡張サイド情報(例えば、専用の帯域幅拡張パラメータ)又は(例えば、前述の事例に比べて)増大された量の帯域幅拡張サイド情報を符号化オーディオ情報へ包含することが必要である(又は、少なくとも大いに望ましい)場合がある、という発見に基づくものでもある。
帯域幅拡張情報を符号化オーディオ情報へ選択的に包含することにより(例えば、符号化されたオーディオ情報へ包含される帯域幅拡張情報もしくは帯域幅拡張パラメータの量を選択的に変えること、又は帯域幅拡張情報の符号化オーディオ情報への包含と、帯域幅拡張情報の符号化オーディオ情報への前記包含の省略とを選択的に切り替えることにより)、デコーダ側での帯域幅拡張が帯域幅拡張情報をさほど必要としていない場合に「不必要な」帯域幅拡張情報が貴重なビットレートを消費することを回避することができ、しかもなお、デコーダ側での帯域幅拡張のために、即ちデコーダ側でのオーディオコンテンツ復元のために帯域幅拡張情報が実際に必要とされていれば、帯域幅拡張情報(又は、増大された量の帯域幅拡張情報)が符号化オーディオ情報に包含されるように保証することができる。
したがって、信号に適応して帯域幅拡張情報を選択的に符号化オーディオ情報へ包含すること、即ち、復号されたオーディオ信号表現の十分な高品質を達成するために帯域幅拡張情報が実際に必要とされる場合に包含することにより、依然として高いオーディオ品質を達成する可能性を保ちながら平均ビットレートを低減することができる。
言い替えれば、このオーディオエンコーダは、例えば、オーディオデコーダ側でのパラメータ誘導式帯域幅拡張を可能にする帯域幅拡張情報の生成と、オーディオデコーダ側でのブラインド帯域幅拡張の使用は必要であるが、帯域幅拡張情報の生成の省略とを切り替えることができる。
したがって、上述の概念を使用することにより、ビットレートとオーディオ品質との間の特に良好なトレードオフを達成することができる。
ある好適な実施形態において、このオーディオエンコーダは、入力されたオーディオ情報について、低周波数部分の符号化表現に基づきかつブラインド帯域幅拡張を用いては(例えば、予め決められた品質尺度に関して)十分な又は所望される品質で復号され得ない部分を識別するように構成された検出器を備えている。この場合、このオーディオエンコーダは、入力されたオーディオ情報の部分のうちその検出器によって識別された部分に関して、帯域幅拡張情報を選択的に、符号化されたオーディオ情報へ包含するように構成されている。低周波数部分の符号化表現に基づき、かつブラインド帯域幅拡張を用いては、入力されたオーディオ情報のどの部分が十分な(又は所望される)品質で復号され得ないかを、(例えば、入力されたオーディオ情報の特徴に基づいて、又は、オーディオエンコーダ側のオーディオ情報の部分的又は完全な復元に基づいて)決定するか又は推定することにより、入力されたオーディオ情報の部分(例えば、フレーム)(又は、等価的に、符号化されたオーディオ情報のフレーム又は部分)に関して、帯域幅拡張情報を符号化オーディオ情報へ包含するか否かを決定する有意義な基準が得られる。言い替えれば、検出器によって評価される上述の基準は、符号化されたオーディオ情報を復号することにより達成することのできる聴覚印象と、符号化されたオーディオ情報のビットレートとの間の優れたトレードオフを可能にする。
ある好適な実施形態において、このオーディオエンコーダは、入力されたオーディオ情報について、低周波数部分に基づいて帯域幅拡張パラメータを十分な又は所望される精度で推定することができない部分を識別するように構成された検出器を備えている。この場合、このオーディオエンコーダは、入力されたオーディオ情報のその検出器によって識別された部分に関して、帯域幅拡張情報を選択的に、符号化されたオーディオ情報へ包含するように構成されている。本発明によるこの実施形態は、帯域幅拡張パラメータが低周波数部分に基づいて十分な、又は所望される精度で推定され得るか否かに関する決定が、適度の計算量で評価されることが可能な、かつそれにも関わらず、帯域幅拡張情報を符号化オーディオ情報へ包含するか否かを決定するための適切な基準となる基準を構成する、という発見に基づいている。
ある好適な実施形態において、このオーディオエンコーダは、入力されたオーディオ情報の部分を、その部分が時間的な静止部分であるかどうかに依存して、かつその部分が低域通過特性を有するかどうかに依存して識別するように構成された検出器を備えている。さらに、このオーディオエンコーダは、入力されたオーディオ情報のその検出器によって低域通過特性を有する時間的な静止部分として識別された部分に関して、帯域幅拡張情報をその符号化オーディオ情報へ包含することを選択的に省略するように構成されている。
本発明によるこの実施形態は、入力されたオーディオ情報の時間的に静止しかつ低域通過特性を含む部分に関して、帯域幅拡張情報を符号化オーディオ情報へ包含することは、(ビットストリームからの帯域幅拡張情報又はパラメータに依存しない)ブラインド帯域幅拡張が、典型的には、このような信号部分の十分に優れた復元を可能にするという理由で、典型的には不要であるという発見に基づいている。したがって、計算効率の良い方法で評価されることが可能な、かつそれにも関わらず、(ビットレートとオーディオ品質との間のトレードオフに関して)良い結果が得られるようにする基準が存在する。
ある好適な実施形態において、上記の検出器は、入力されたオーディオ情報の部分を、その部分が発声音声を含むかどうかに依存して、及び/又は、その部分が環境(例えば、車の)雑音を含むかどうかに依存して、及び/又は、その部分が打楽器使用のない音楽を含むかどうかに依存して識別するように構成されている。発声音声を含むか、又は環境雑音を含むか、又は打楽器使用のない音楽を含むこのような部分は、典型的には、十分なオーディオ品質を有するブラインド帯域幅拡張を用いて復元されることが可能であり、よって、このような部分に関しては、符号化オーディオ情報への帯域幅拡張情報の包含の省略が推奨されることがわかった。
ある好適な実施形態において、このオーディオエンコーダは、入力されたオーディオ情報の部分を、低周波数部分のスペクトル包絡線と高周波数部分のスペクトル包絡線との差が予め決められた大きさ以上であるかどうかに依存して識別するように構成された検出器を備えている。この場合、このオーディオエンコーダは、入力されたオーディオ情報のその検出器によって識別された部分に関して、帯域幅拡張情報を選択的に、符号化されたオーディオ情報へ包含するように構成されている。
入力されたオーディオ情報の低周波数部分のスペクトル包絡線と高周波数部分のスペクトル包絡線との間に大きい差がある部分は、典型的には、ブラインド帯域幅拡張を用いてうまく復元できないことがわかった。その理由は、ブラインド帯域幅拡張は、高周波数部分において(即ち、帯域幅拡張信号において)それぞれの低周波数部分に比べて類似するスペクトル包絡線を与えることが多いからである。したがって、低周波数部分のスペクトル包絡線と高周波数部分のスペクトル包絡線との差の評価は、帯域幅拡張情報を符号化オーディオ情報へ包含するか否かを決定するための優れた基準となることがわかった。
ある好適な実施形態において、上記の検出器は、入力されたオーディオ情報の部分を、その部分が無声音を含むかどうかに依存して、及び/又は、その部分が打楽器音を含むかどうかに依存して識別するように構成されている。無声音を含む部分及び打楽器音を含む部分は、典型的には、低周波数部分のスペクトル包絡線が高周波数部分のスペクトル包絡線とは実質的に異なるスペクトルを含むことがわかった。したがって、無声音及び/又は打楽器音の検出は、帯域幅拡張情報を符号化オーディオ情報へ包含するか否かを決定するための優れた基準となることがわかった。
ある好適な実施形態において、このオーディオエンコーダは、入力されたオーディオ情報の部分のスペクトル傾斜を決定するように、かつ入力されたオーディオ情報の部分を、この決定されたスペクトル傾斜が一定又は可変の傾斜しきい値以上であるかどうかに依存して識別するように構成された検出器を備えている。この場合、このオーディオエンコーダは、入力されたオーディオ情報のこの検出器によって識別された部分に関して、帯域幅拡張情報を、符号化されたオーディオ情報へ選択的に包含するように構成されている。スペクトル傾斜は、適度の計算量で導出することができ、しかも帯域幅拡張情報を符号化オーディオ情報へ包含するか否かを決定するための優れた基準となることがわかった。例えば、スペクトル傾斜が傾斜しきい値に達するか、又はこれを超えれば、そのスペクトルは高域通過特性を有し、よってブラインド帯域幅拡張によってはうまく復元できない、と結論づけることができる。特に、ブラインド帯域幅拡張は、典型的には、正の傾斜(高周波数部分が低周波数部分より強調される)を含むスペクトルを高精度で復元することができない。さらに、高周波数部分は、正のスペクトル傾斜の場合に特に知覚的関連性があることから、このような場合に、帯域幅拡張情報を符号化されたオーディオ表現へ包含することが推奨される。
ある好適な実施形態において、上記の検出器は、さらに、入力されたオーディオ情報の部分のゼロ交差レートを決定するように、かつ入力されたオーディオ情報の部分を、同じくこの決定されたゼロ交差レートが一定又は可変のゼロ交差レートしきい値以上であるかどうかに依存して識別するように構成されている。ゼロ交差レートもまた、入力されたオーディオ情報について、ブラインド帯域幅拡張を用いてはうまく復元できず、よって、(ビットレートとオーディオ品質との間の優れたトレードオフを達成することに関連して)帯域幅拡張情報を符号化オーディオ情報へ包含することが意味をなす部分を検出するための優れた基準であることがわかった。
ある好適な実施形態において、上記の検出器は、識別される信号部分(これらの信号部分に関して帯域幅拡張情報が符号化オーディオ表現へ包含される)と識別されない信号部分(これらの信号部分に関して帯域幅拡張情報が符号化オーディオ表現へ包含されない)との間の遷移回数を減らすべく、入力されたオーディオ情報の信号部分を識別するためにヒステリシスを適用するように構成されている。帯域幅拡張情報の符号化オーディオ情報への包含と帯域幅拡張情報の符号化オーディオ情報への包含の省略との間の過度な切替えは、回避することが効果的であることがわかった。というのは、特に遷移回数が著しく多ければ、このような遷移が何らかのアーティファクトをもたらすことがあるためである。したがって、例えば傾斜しきい値(この場合は、可変の傾斜しきい値である)又はゼロ交差レートしきい値(この場合は、可変のゼロ交差レートしきい値である)へ適用できるヒステリシスを用いれば、この目的を達成することができる。
ある好適な実施形態において、このオーディオエンコーダは、入力されたオーディオ情報の高周波数部分のスペクトル包絡線を表すパラメータを信号に適応して符号化オーディオ情報へ帯域幅拡張情報として選択的に包含するように構成されている。この実施形態は、高周波数部分のスペクトル包絡線を表すパラメータはパラメータ誘導の帯域幅拡張において特に重要であり、入力されたオーディオ情報の高周波数部分のスペクトル包絡線を表すそのパラメータの包含は高品質の帯域幅拡張を高いビットレートを引き起こすことなく達成できるようにする、という発想に基づいている。
ある好適な実施形態において、上記の低周波数エンコーダは、最大周波数が6kHzから7kHzまでの範囲内である周波数を含む入力されたオーディオ情報の低周波数部分を符号化するように構成されている。さらに、このオーディオエンコーダは、符号化されたオーディオ表現へ、300Hzから500Hzまでの間の帯域幅を有する高周波数信号部分又は小部分(例えば、約6kHzから7kHzを超える周波数を有する信号部分)の強度を記述する3つから5つまでの間のパラメータを選択的に包含するように構成されている。このような概念は、事実上ビットレートを高くすることなく、優れたオーディオ品質をもたらすことがわかった。
ある好適な実施形態において、このオーディオエンコーダは、符号化されたオーディオ表現へ、4つの高周波数信号部分(又は小部分)の強度を記述する3−5個のスカラ量子化されたパラメータを選択的に包含するように構成されている。その高周波数信号部分(又は、小部分)は低周波数部分より上の周波数範囲に及ぶ。4つの高周波数信号部分の強度を記述する3−5個のスカラ量子化されたパラメータの使用は、典型的には、ブラインド帯域幅拡張により同じ信号部分上で達成可能な比較的低いオーディオ品質を凌ぐパラメータ誘導の帯域幅拡張を達成するには十分であることがわかった。したがって、復元されたオーディオ信号部分は、それがブラインド帯域幅拡張を用いて復元されたか、誘導式の帯域幅拡張を用いて復元されたかに関わらず、品質に大差はない。したがって、上述の概念は、ブラインド帯域幅拡張とパラメータ誘導の帯域幅拡張との切替えを可能にする概念にうまく適応している。
ある好適な実施形態において、このオーディオエンコーダは、符号化されたオーディオ表現へ、スペクトル的に隣接する周波数部分のエネルギー間の関係を記述する複数のパラメータを選択的に包含するように構成されている。ここで、それらのパラメータのうちの1つは、第1の帯域幅拡張の高周波数部分と低周波数部分との間のエネルギーの割合を記述し、かつそれらのパラメータのうちの他のパラメータは、(一対ずつの)他の帯域幅拡張高周波数部分の間のエネルギーの割合を記述する。異なる(好ましくは、隣接する)周波数部分のエネルギー(又は、等価的に強度)間の割合(又は、差分)を記述するこのような概念は、帯域幅拡張情報の効率的な符号化を可能にすることがわかった。スペクトル的に隣接する周波数部分のエネルギー間の関係を記述するこのようなパラメータは、典型的には、帯域幅拡張により達成可能なオーディオ品質を事実上損なうことなく、ごく少量のビット数で量子化できることもわかった。
本発明による別の実施形態は、符号化されたオーディオ情報に基づいて復号されたオーディオ情報を生成するためのオーディオデコーダを創造する。このオーディオデコーダは、(オーディオコンテンツの)低周波数部分の符号化表現を復号して、低周波数部分の復号表現を得るように構成された低周波数デコーダを備えている。また、このオーディオデコーダは、オーディオコンテンツの部分のうち帯域幅拡張パラメータが符号化オーディオ情報に包含されていない部分に関してはブラインド帯域幅拡張を用いて帯域幅拡張信号を得るように、かつオーディオコンテンツの部分のうち帯域幅拡張パラメータが符号化オーディオ情報に包含されている部分に関してはパラメータ誘導の帯域幅拡張を用いて帯域幅拡張信号を得るように構成されている帯域幅拡張も備えている。
このオーディオエンコーダは、オーディオ品質とビットレートとの間の優れたトレードオフは、連続したオーディオコンテンツ片内であってもブラインド帯域幅拡張とパラメータ誘導の帯域幅拡張とを切り替えることが可能であれば達成可能である、という考えに基づいている。それは、多くの典型的なオーディオコンテンツ片は、ブラインド帯域幅拡張を用いて高いオーディオ品質を達成できる部分と十分なオーディオ品質を達成するためにはパラメータ誘導の帯域幅拡張が必要とされる部分の双方を含むことがわかったからである。さらに、オーディオエンコーダに関連する先の説明と同じ考察がこのオーディオデコーダにも当てはまることは明らかである。
ある好適な実施形態において、このオーディオデコーダは、フレーム毎に、帯域幅拡張信号をブラインド帯域幅拡張を用いて得るか又はパラメータ誘導の帯域幅拡張を用いて得るかを決定するように構成されている。ブラインド帯域幅拡張とパラメータ誘導の帯域幅拡張との間のこのようなきめの細かい(フレーム毎の)切替えは、オーディオコンテンツの過度の劣化を避けるべくパラメータ誘導の帯域幅拡張が必要とされるフレームが定期的に幾つか存在する場合でも、ビットレートを適度に低く保つ手助けをすることがわかった。
ある好適な実施形態において、このオーディオデコーダは、連続したオーディオコンテンツ片内でブラインド帯域幅拡張の使用とパラメータ誘導帯域幅拡張の使用とを切り替えるように構成されている。この実施形態は、単一の(連続した)オーディオコンテンツ片であっても、異なる種類の一節(又は、部分又はフレーム)を含む場合が多く、それらの一節にはパラメータ誘導の帯域幅拡張を用いて符号化(よって、必然的に復号)されるべきものがあるが、残りはオーディオ品質をさほど劣化させることなくブラインド帯域幅拡張を用いて復号することができるものである、という発見に基づいている。
ある好適な実施形態において、このオーディオデコーダは、オーディオコンテンツの異なる部分(例えば、異なるフレーム)について符号化されたオーディオ情報に含まれるフラグを評価し、(例えば、そのフラグが関連付けられているフレームに関して)ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかを決定するように構成されている。したがって、ブラインド帯域幅拡張を用いるべきか又はパラメータ誘導の帯域幅拡張を用いるべきかの決定は単純に保たれ、よって、このオーディオデコーダは、ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかを決定するための実質的な知能を有する必要がない。
しかしながら、別の好適な実施形態において、このオーディオデコーダは、ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかを、低周波数部分の符号化表現に基づいて、帯域幅拡張モードを信号伝達するフラグを評価することなく決定するように構成されている。したがって、このオーディオデコーダ内に知能を設けることにより、帯域幅拡張モードを信号伝達するフラグを省略することができ、これにより、ビットレートが低減される。
ある好適な実施形態において、このオーディオデコーダは、ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかを、(オーディオコンテンツの)低周波数部分の復号表現の1つ以上の特徴に基づいて決定するように構成されている。低周波数部分の復号表現の特徴は、ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかの決定に高精度で使用できる量を構成することがわかった。これは、特に、オーディオエンコーダ側で同じ特徴が使用される場合に当てはまる。したがって、帯域幅拡張モードを信号伝達するフラグを評価することはもはや不要であり、これによりビットレートの低減が可能になる。それは、オーディオエンコーダ側で帯域幅拡張モードの信号伝達フラグを、符号化されたオーディオ表現へ包含する必要がないからである。
ある好適な実施形態において、このオーディオデコーダは、ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかを、量子化された線形予測係数及び/又は(オーディオコンテンツの)低周波数部分の復号表現の時間領域統計に基づいて決定するように構成されている。量子化された線形予測係数はオーディオデコーダ側で容易に得ることができ、かつ、スペクトル傾斜を導出させることにより、ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかの優れた指標として機能し得ることがわかった。さらに、量子化された線形予測係数は、オーディオエンコーダ側でも容易に入手可能であり、よって、ブラインド帯域幅拡張及びパラメータ誘導の帯域幅拡張との間の切替えをオーディオエンコーダ側とオーディオデコーダ側で調和させることは、容易に可能である。同様に、ゼロ交差レート等の、低周波数部分の復号表現の時間領域統計も、オーディオデコーダ側でブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかを決定するための信頼性の高い量であることがわかった。
ある好適な実施形態において、帯域幅拡張は、帯域幅拡張信号を、入力されたオーディオ情報(又は、コンテンツ)の時間的部分のうち帯域幅拡張パラメータが符号化オーディオ情報へ包含されない時間的部分に関する低周波数部分の復号表現の1つ以上の特徴を用いて、及び/又は低周波数デコーダの1つ以上のパラメータを用いて得るように構成されている。このようなブラインド帯域幅拡張は、結果的に高いオーディオ品質をもたらすことがわかった。
ある好適な実施形態において、帯域幅拡張は、帯域幅拡張信号を、入力されたオーディオ情報(又は、コンテンツ)時間的部分のうち帯域幅拡張パラメータが符号化オーディオ情報へ包含されない時間的部分に関するスペクトルの重心情報を用いて、及び/又はエネルギー情報を用いて、及び/又は(スペクトル)傾斜情報を用いて、及び/又はコード化されたフィルタ係数を用いて得るように構成されている。これらの量の使用は、高品質の帯域幅拡張を達成する効率的な方法をもたらすことがわかった。
ある好適な実施形態において、帯域幅拡張は、帯域幅拡張信号を、オーディオコンテンツの時間的部分のうち帯域幅拡張パラメータが符号化オーディオ情報へ包含される時間的部分に関する高周波数部分のスペクトル包絡線を記述するビットストリームパラメータを用いて得るように構成されている。高周波数部分のスペクトル包絡線を記述するビットストリームパラメータの使用は、高品質を有するビットレート効率的なパラメータ誘導帯域幅拡張を可能にし、スペクトル包絡線を記述するビットストリームパラメータは、高いビットレートを必要とせず、オーディオフレーム当たり比較的少ないビット数のみで符号化できることがわかった。結果的に、パラメータ誘導帯域幅拡張へ切り替えても、ビットレートはさほど増大しない。
ある好適な実施形態において、帯域幅拡張は、帯域幅拡張信号を得るために、300Hzから500Hzまでの間の帯域幅を有する高周波数信号部分の強度を記述する3つから5つまでの間のビットストリームパラメータを評価するように構成されている。知覚的に重要な範囲にわたる帯域幅拡張を達成するに足るビットストリームパラメータの数は比較的少数であり、よって、ビットレートの僅かな増加で高いオーディオ品質を達成できることがわかった。
ある好適な実施形態において、300Hzから500Hzまでの間の帯域幅を有する高周波数信号部分の強度を記述するその3つから5つまでの間のビットストリームパラメータは、オーディオフレーム当たり6ビットから15ビットまでの間の帯域幅拡張スペクトル成形パラメータが存在するように、2又は3ビットの分解能でスカラ量子化される。このような選択は、パラメータ誘導帯域幅拡張の極めて高いビットレート効率を可能にし、帯域幅拡張品質は、ブラインド帯域幅拡張が優れた結果をもたらすオーディオコンテンツの「重要でない」部分に関して、典型的には、ブラインド帯域幅拡張を用いて達成可能な帯域幅拡張品質と比肩し得ることがわかった。したがって、ブラインド帯域幅拡張が適用される場合、及びパラメータ誘導の帯域幅拡張が適用される場合の双方において、均衡のとれた品質が存在する。
ある好適な実施形態において、帯域幅拡張は、ブラインド帯域幅拡張からパラメータ誘導の帯域幅拡張へ切り替える場合、及び/又はパラメータ誘導の帯域幅拡張からブラインド帯域幅拡張へ切り替える場合に、帯域幅拡張信号のエネルギーの平滑化を実行するように構成されている。したがって、ブラインド帯域幅拡張及びパラメータ誘導帯域幅拡張の異なる性質により引き起こされる場合もあるクリック又は「ブロッキングアーティファクト」は、回避することができる。
ある好適な実施形態において、帯域幅拡張は、オーディオコンテンツの部分のうち、ブラインド帯域幅拡張が適用される部分に続いてパラメータ誘導の帯域幅拡張が適用される部分に対して、帯域幅拡張信号の高周波数部分を減衰させるように構成されている。さらに、帯域幅拡張は、オーディオコンテンツの部分のうち、パラメータ誘導の帯域幅拡張が適用される部分に続いてブラインド帯域幅拡張が適用される部分に対して、帯域幅拡張信号の高周波数部分をあまり減衰させないように構成されている。したがって、ブラインド帯域幅拡張が典型的に低域通過特性を示す効果は、パラメータ誘導帯域幅拡張の場合は必ずしも当てはまらないにしても、ある程度は補償することができる。したがって、オーディオコンテンツの部分のうち、ブラインド帯域幅拡張を用いて復号される部分とパラメータ誘導帯域幅拡張を用いて復号される部分との間の遷移におけるアーティファクトは低減される。
本発明による別の実施形態は、入力されるオーディオ情報に基づいて符号化されたオーディオ情報を生成するための方法を創造する。この方法は、低周波数部分の符号化表現を得るために、入力されたオーディオ情報の低周波数部分を符号化するステップを含む。また、この方法は、帯域幅拡張情報を、入力されたオーディオ情報に基づいて生成するステップも含む。帯域幅拡張情報は、選択的に、符号化されたオーディオ情報へ信号に適応して包含される。この方法は、上述のオーディオエンコーダの場合と同じ考察に基づいている。
本発明による別の実施形態は、符号化されたオーディオ情報に基づいて復号されたオーディオ情報を生成するための方法を創造する。この方法は、低周波数部分の復号表現を得るために、低周波数部分の符号化表現を復号するステップを含む。この方法は、さらに、オーディオコンテンツの部分のうち帯域幅拡張パラメータが符号化オーディオ情報へ包含されていない部分に関して、ブラインド帯域幅拡張を用いて帯域幅拡張信号を得るステップを含む。この方法は、さらに、オーディオコンテンツの部分のうち帯域幅拡張パラメータが符号化オーディオ情報へ包含されている部分に関して、パラメータ誘導の帯域幅拡張を用いて帯域幅拡張信号を得るステップを含む。この方法は、上述のオーディオデコーダの場合と同じ考察に基づいている。
本発明による別の実施形態は、コンピュータ上で実行されると上述の方法のうちの1つを実行するためのコンピュータプログラムを創造する。
本発明による別の実施形態は、オーディオ情報を表す符号化されたオーディオ表現を創造する。符号化されたオーディオ表現は、オーディオ情報の低周波数部分の符号化表現と帯域幅拡張情報を含む。帯域幅拡張情報は、オーディオ情報の全ての部分ではないが幾つかの部分に関して、符号化されたオーディオ表現へ信号に適応して包含される。この符号化されたオーディオ情報は、先に述べたオーディオエンコーダによって生成され、かつ先に述べたオーディオデコーダによって評価することができる。
図1は本発明の一実施形態によるオーディオエンコーダを示す略ブロック図である。 図2は本発明の別の実施形態によるオーディオエンコーダを示す略ブロック図である。 図3は周波数部分とそれらに関連した符号化されたオーディオ情報を示すグラフ表現である。 図4は本発明の一実施形態によるオーディオデコーダを示す略ブロック図である。 図5は本発明の別の実施形態によるオーディオデコーダを示す略ブロック図である。 図6は本発明の一実施形態による符号化されたオーディオ表現を生成するための方法を示すフローチャートである。 図7は本発明の一実施形態による復号されたオーディオ表現を生成するための方法を示すフローチャートである。 図8は本発明の一実施形態による符号化されたオーディオ表現を示す略図である。
続いて、添付の図面を参照して、本発明による実施形態を説明する。
1.図1によるオーディオエンコーダ
図1は本発明の一実施形態によるオーディオエンコーダを示す略ブロック図である。
図1によるオーディオエンコーダ100は、入力されたオーディオ情報110を受信し、かつこれに基づいて符号化されたオーディオ情報112を生成する。オーディオエンコーダ100は、入力されたオーディオ情報110の低周波数部分を符号化して低周波数部分の符号化表現122を得るように構成された低周波数エンコーダ120を備えている。オーディオエンコーダ100は、入力されたオーディオ情報110に基づいて帯域幅拡張情報132を生成するように構成された帯域幅拡張情報プロバイダ130も備えている。オーディオエンコーダ100は、帯域幅拡張情報132を、符号化されたオーディオ情報112へ信号に適応して選択的に包含するように構成されている。
オーディオエンコーダ100の機能性に関しては、オーディオエンコーダ100は入力されたオーディオ情報110のビットレート効率的な符号化を提供すると言うことができる。低周波数部分、例えば約6kHz又は7kHzまでの周波数範囲における周波数部分は、低周波数エンコーダ120を用いて符号化され、その場合、既知のオーディオ符号化概念の何れをも使用することができる。例えば、低周波数エンコーダ120は、(例えば、AACオーディオエンコーダのような)「汎用オーディオ」エンコーダであっても、(例えば、線形予測ベースのオーディオエンコーダ、CELPオーディオエンコーダ、ACELPオーディオエンコーダ、などのような)音声タイプのオーディオエンコーダであってもよい。したがって、入力されたオーディオ情報の低周波数部分は、従来の概念のいずれかを用いて符号化される。それでも、低周波数部分の符号化表現122のビットレートは適度に小さく保たれる。それは、約6kHzから7kHzまでの周波数成分のみが符号化されるからである。さらに、オーディオエンコーダ100は、帯域幅拡張情報を、例えば、低周波数エンコーダ120により符号化される周波数領域より高い周波数を含む周波数領域のような、入力されたオーディオ情報110の高周波数部分を記述する帯域幅拡張パラメータの形式で生成することができる。したがって、帯域幅拡張情報プロバイダ130は、図1には示されていないオーディオデコーダ側で実行される帯域幅拡張を制御できる、符号化されたオーディオ情報112のサイド情報を生成することができる。帯域幅拡張情報(又は、帯域幅拡張サイド情報)は、例えば、入力されたオーディオ情報の高周波数部分、即ち低周波数エンコーダ120では扱われない周波数範囲、のスペクトル形状(又は、スペクトル包絡線)を表現してもよい。
しかしながら、オーディオエンコーダ100は、帯域幅拡張情報が、符号化されたオーディオ情報112へ包含されるべきかどうかを、信号に適応して決定するように構成されている。したがって、オーディオエンコーダ100は、オーディオデコーダ側でオーディオ情報を復元するために必要とされる(又は、少なくとも望ましい)場合にのみ、帯域幅拡張情報を符号化オーディオ情報112へ包含することができる。この点に関して、このオーディオエンコーダは、入力されたオーディオ情報の部分に関して(又は等価的に、符号化されたオーディオ情報の部分に関して)、帯域幅拡張情報132が帯域幅拡張情報プロバイダ130によって生成されるかどうかも制御してもよい。というのは、元来、帯域幅拡張情報が符号化オーディオ情報へ包含されないのであれば、入力されたオーディオ情報(又は、符号化されたオーディオ情報)の部分に関して帯域幅拡張情報を生成する必要がないからである。したがって、オーディオエンコーダ100により実行される何らかの分析プロセス及び/又は決定プロセスに基づいて、オーディオデコーダ側でのオーディオコンテンツの対応部分の復元に際して、所定のオーディオ品質を達成するための帯域幅拡張情報が不要であることが見つかれば、オーディオエンコーダ100は、帯域幅拡張情報132を符号化オーディオ情報112へ包含するのを回避することによって、符号化オーディオ情報112のビットレートを可能な限り小さく保つことができる。
したがって、オーディオエンコーダ100は、オーディオデコーダ側で(所定のオーディオ品質を達成するために)必要とされる場合にのみ、帯域幅拡張情報を符号化オーディオ情報へ包含する。このことは、符号化オーディオ情報112のビットレートを低減させる手助けをするとともに、オーディオデコーダ側での符号化オーディオ情報の復号に際して、低いオーディオ品質を回避するために帯域幅拡張情報が必要とされれば、適切な帯域幅拡張情報132が符号化オーディオ情報112に包含されることを保証する。したがって、オーディオエンコーダ100により、ビットレートとオーディオ品質との間に、従来の手法に比べて改良されたトレードオフが達成される。
例えば、このオーディオデコーダは、オーディオフレーム毎に、帯域幅拡張情報が符号化オーディオ情報112へ包含されるべきかどうかを(又は、帯域幅拡張情報が決定されるべきかどうかさえも)決定してもよい。しかしながら、代替として、オーディオデコーダは、「入力」毎に(例えば、オーディオファイル毎、又はオーディオストリーム毎に)、帯域幅拡張情報が符号化オーディオ情報112へ包含されるべきかどうかを決定してもよい。この目的のために、その決定が信号に適応して行われるように、入力を(例えば、符号化に先行して)分析してもよい。
2.図2によるオーディオエンコーダ
図2は本発明の一実施形態によるオーディオエンコーダを示す略ブロック図である。オーディオエンコーダ200は、入力されたオーディオ情報210を受信し、かつこれに基づいて符号化されたオーディオ情報212を生成する。オーディオエンコーダ200は低周波数エンコーダ220を備えており、低周波数エンコーダ220は先に述べた低周波数エンコーダ120に実質的に等しいものであってもよい。低周波数エンコーダ220は、入力されたオーディオ情報の(又は、等価的に、入力されたオーディオ情報210により表現されるオーディオコンテンツの)低周波数部分の符号化表現222を生成する。オーディオエンコーダ200は帯域幅拡張情報プロバイダ230も備えており、帯域幅拡張情報プロバイダ230は先に述べた帯域幅拡張情報プロバイダ130に実質的に等しいものであってもよい。帯域幅拡張情報プロバイダ230は、典型的には、入力されたオーディオ情報210を受信する。しかしながら、帯域幅拡張情報プロバイダ230は、低周波数エンコーダ220から制御情報(又は中間情報)も受信してもよく、その制御情報(又は中間情報)は、例えば、入力されたオーディオ情報210の低周波数部分のスペクトル(又はスペクトル形状、又はスペクトル包絡線)に関する情報を含んでもよい。しかしながら、その制御情報(又は、中間情報)は、符号化パラメータ(例えば、LPCフィルタ係数、又はMDCT係数もしくはQMF係数のような変換領域値)なども含んでもよい。さらに、帯域幅拡張情報プロバイダ230は、任意ではあるが、低周波数部分の符号化表現222、又は少なくともその一部を受信してもよい。さらに、オーディオエンコーダ200は検出器240を備えており、検出器240は入力されたオーディオ情報210の所定の部分に関して(又は、符号化されたオーディオ情報212の所定の部分に関して)帯域幅拡張情報が符号化オーディオ情報212へ包含されるかどうかを決定するように構成されている。任意ではあるが、検出器240は、入力されたオーディオ情報210の(又は、符号化されたオーディオ情報212の)上記所定の部分に関して、その帯域幅拡張情報が帯域幅拡張情報プロバイダ230によって決定されるかどうかも決定してもよい。したがって、検出器240は、入力されたオーディオ情報210、及び/又は(例えば、先に述べたように)低周波数エンコーダ220から制御情報もしくは中間情報224、及び/又は低周波数部分の符号化表現222を受信してもよい。さらに、検出器240は、帯域幅拡張情報の選択的生成及び/又は帯域幅拡張情報の符号化オーディオ情報212への選択的包含を制御する制御信号242を生成するように構成されている。
オーディオエンコーダ200の機能性に関しては、オーディオエンコーダ100に関して行った先の説明を参照されたい。
さらに、検出器240は中心的な役割をもっていることに留意されるべきである。というのは、検出器240は、帯域幅拡張情報が符号化オーディオ情報212へ包含されるか否かを決定し、したがってさらに、符号化オーディオ情報212を受信するオーディオデコーダが、入力オーディオ情報210により記述されるオーディオコンテンツを、ブラインド帯域幅拡張を用いて復元するか又はパラメータ誘導の帯域幅拡張(帯域幅拡張情報はパラメータ誘導の帯域幅拡張を誘導するパラメータを表す)を用いて復元するかを決定するからである。
一般的に言えば、検出器は、ブラインド帯域幅拡張を使用する低周波数部分の符号化表現222に基づいては十分な又は所望される品質で復号できない、入力されたオーディオ情報の部分を識別する。言い替えれば、検出器240は、低周波数部分の符号化表現222が単独では、十分な品質を有するブラインド帯域幅拡張を見込めない場合を認識すべきである。表現を変えれば、検出器240は、好ましくは、入力されたオーディオ情報について、低周波数部分に基づいて、容認できる(又は、所望される)オーディオ品質に達する十分な(又は、所望される)精度で帯域幅拡張パラメータを推定できない部分を識別する。結果的に、検出器240は、制御信号242を用いて、入力されたオーディオ情報の部分のうち、ブラインド帯域幅拡張を使用する(即ち、エンコーダから帯域幅拡張情報を受信しない)低周波数部分の符号化表現222に基づいて十分な又は所望される品質で復号できない部分に関しては、帯域幅拡張情報が符号化オーディオ情報へ包含されるべきであることを決定することができる。等価的に、検出器は、制御信号242を用いて、入力されたオーディオ情報の部分のうち、低周波数部分(又は、等価的に、低周波数部分の符号化表現222)に基づいて帯域幅拡張パラメータを十分な又は所望される品質で推定できない部分に関しては、帯域幅拡張情報が符号化オーディオ情報へ包含されるべきであることを決定することができる。
帯域幅拡張情報が符号化オーディオ情報へ包含されるべきであるような部分を識別する(又は、等価的に、入力されたオーディオ情報の部分のうち、帯域幅拡張情報を符号化オーディオ情報212へ包含する必要がない部分を識別する)ために、検出器240は異なる方策を用いてもよい。先に述べたように、検出器240は異なるタイプの入力情報を受信してもよい。事例によっては、検出器による、帯域幅拡張情報が符号化オーディオ情報212へ包含されるべきか否かの決定は、専ら入力されたオーディオ情報210に基づいてもよう。言い替えれば、検出器240は、例えば、入力されたオーディオ情報210を分析して、入力されたオーディオ情報のどの部分(符号化されたオーディオ情報212の部分に対応する)に関して、容認できる(又は、所望される)オーディオ品質に達するために帯域幅拡張情報232を符号化オーディオ情報212へ包含する必要があるか、を見出すように構成されていてもよい。しかしながら、検出器240のこの決定は、オーディオ情報210を分析する代わりに、低周波数エンコーダ200により生成される何らかの制御情報又は中間情報224に基づいてもよい。あるいは、又はさらに、検出器240のこの決定は、入力されたオーディオ情報210の低周波数部分の符号化表現222に基づいてもよい。したがって、検出器は、異なる量を評価して、オーディオデコーダ側のブラインド帯域幅拡張が十分なオーディオ品質をもたらすか(又は、十分なオーディオ品質をもたらす可能性が高いか、又は十分なオーディオ品質をもたらすことが期待されるか)どうか、を決定(又は、推定)してもよい。
例えば、検出器は、入力されたオーディオ情報210の部分が時間的に静止した部分であるかどうか、かつ入力されたオーディオ情報210のこれらの部分が低域通過特性を有するかどうか、を決定してもよい。例えば、検出器240は、時間的に静止した部分であることが見出され、かつ低域通過特性を有する部分に関しては、帯域幅拡張情報を符号化オーディオ情報212へ包含する必要がない、と決定してもよい。というのは、入力されたオーディオ情報210のこのような部分は、典型的には、オーディオデコーダ側において、ブラインド帯域幅拡張を用いる場合でも十分に高いオーディオ品質で復元できることが認識されているからである。これは、ブラインド帯域幅拡張は、入力されたオーディオ情報(又は、コンテンツ)の部分のうち、オーディオコンテンツの著しい変化を含まず(又は、オーディオコンテンツの過渡又は他の著しい変動を含まず)、よって時間的に静止しているとみなすことのできる部分に対して典型的にうまく機能する、という事実のためである。さらに、ブラインド帯域幅拡張は、オーディオコンテンツの部分のうち低域通過特性を含む部分に対して、即ち、オーディオコンテンツの部分のうち低周波数部分の強度が高周波数部分の強度より高い部分に対しては、うまく機能することがわかった。それは、このことが大部分のブラインド帯域幅拡張概念の基本的な想定であるからである。したがって、検出器240は、低域通過特性を有する時間的に静止したそのような部分に関しては、帯域幅拡張情報の符号化オーディオ情報212への包含を選択的に省略するように制御信号242を用いて信号伝達してもよい。
例えば、検出器240は、入力されたオーディオ情報の部分のうち発声音声を含む部分、及び/又は、入力されたオーディオ情報の部分のうち環境雑音を含む部分、及び/又は、入力されたオーディオ情報の部分のうち打楽器使用のない音楽を含む部分を識別するように構成されていてもよい。入力されたオーディオ情報のこのような部分は、典型的には、時間的に静止していて低域通過特性を含み、よって、検出器240は、典型的には、このような部分に関して帯域幅拡張情報の符号化オーディオ情報への包含を省略するように信号伝達する。
あるいは、又はさらに、検出器240は、入力されたオーディオ情報の高周波数部分におけるスペクトル形状が、低周波数部分のスペクトル包絡線に基づいて(例えば、ブラインド帯域幅拡張により適用される概念を用いて)適度な精度で予測できるかどうかを分析してもよい。したがって、検出器は、例えば、低周波数部分のスペクトル包絡線(例えば、低周波数部分の中間情報224により、又は符号化表現222により記述されることがある)と、高周波数部分のスペクトル包絡線(例えば、入力されたオーディオ情報210に基づいて検出器240で決定されることがある)との差分が、予め決められた差分の大きさ以上であるかどうかを決定するように構成されていてもよい。例えば、検出器240は、この差分を、スペクトル包絡線の強度差に関して、又は形状差に関して、又は周波数にわたる変動に関して、又は他の任意の特性に関して決定してもよい。したがって、検出器240は、低周波数部分のスペクトル包絡線と高周波数部分のスペクトル包絡線との差分が既定の差分の大きさ以上であることを見いだすことに応答して、帯域幅拡張情報232を入力オーディオ情報へ包含することを決定し、(かつ信号伝達)してもよい。言い替えれば、検出器240は、低周波数部分のスペクトル包絡線に基づいて高周波数部分のスペクトル包絡線をどの程度良好に予測できるかを決定してもよく、もしこの予測がよい結果を得ることができない場合(例えば、高周波数部分の予測されたスペクトル包絡線が高周波数部分の実際のスペクトル包絡線からあまりにかけ離れている場合に相当する)、オーディオデコーダ側で帯域幅拡張情報232が必要とされるものと結論づけてもよい。しかしながら、検出器240は、高周波数部分の予測されたスペクトル包絡線を高周波数部分の実際のスペクトル包絡線と比較するのではなく、その代わりに低周波数部分のスペクトル包絡線を高周波数部分のスペクトル包絡線と比較してもよい。これは、ブラインド帯域幅推定を適用した場合、高周波数部分のスペクトル包絡線が低周波数部分のスペクトル包絡線に大体類似することが想定されるのであれば意味がある。
あるいは、又はさらに、検出器240は、無声音を含む部分、及び/又は打楽器音を含む部分を識別してもよい。このような場合、高周波数部分のスペクトル包絡線は、典型的には、低周波数部分のスペクトル包絡線とは著しく異なることから、検出器は、入力オーディオ情報(又は、符号化されたオーディオ情報)の部分のうち無声音を含むか又は打楽器音を含むそのような部分に関して帯域幅拡張情報を符号化オーディオ表現へ包含するように信号伝達してもよい。
しかしながら、あるいは又はさらに、検出器240は入力されたオーディオ情報210の部分のスペクトル傾斜を分析してもよい。また、検出器240は、入力されたオーディオ情報の部分のスペクトル傾斜に関する情報を用いて、帯域幅拡張情報232が符号化オーディオ情報212へ包含されるべきかどうかを決定してもよい。このような概念は、ブラインド帯域幅拡張は、オーディオコンテンツの部分のうち高周波数範囲に比べて低周波数範囲内により多くのエネルギー(又は、一般には、強度)が存在する部分に対してうまく機能するという考えに基づいている。一方で、高周波数部分(高周波数範囲としても示される)が「支配的」、即ち十分な量のエネルギーを含んでいれば、ブラインド帯域幅拡張は、典型的には、オーディオコンテンツをうまく再生することができず、よって、帯域幅拡張情報が符号化オーディオ情報へ包含されるべきである。したがって、実施形態によっては、検出器は、(周波数にわたるエネルギー、又は一般には強度、の分布を記述する)スペクトル傾斜が一定又は可変の傾斜しきい値以上であるかどうかを決定する。スペクトル傾斜が一定の又は可変の傾斜しきい値以上(これは、少なくとも、周波数の増加に伴ってエネルギー又は強度が低下する「通常の」事例と比較した場合、オーディオコンテンツの高周波数部分に比較的大きいエネルギー又は強度が存在することを意味する)であれば、検出器は帯域幅拡張情報を符号化オーディオ情報へ包含するように決定してもよい。
これまでに述べた特徴の幾つか又は全てに加えて、検出器は入力されたオーディオ情報の部分のゼロ交差レートも評価してもよい。さらに、帯域幅拡張情報を包含するかどうかに関する検出器の決定も、決定されたゼロ交差レートが一定又は可変のゼロ交差レートしきい値以上であるかどうかに基づいてもよい。この概念は、高いゼロ交差レートは典型的には高い周波数が入力オーディオ情報において重要な役割を果たすことを示し、ひいてはこれが、オーディオデコーダ側でパラメータ誘導式帯域幅拡張が使用されるべきであることを示す、という考えに基づいている。
さらに、検出器240は、好ましくは、帯域幅拡張情報232を符号化オーディオ情報へ包含することと包含しないこととの間の過度の切替えを回避するために、何らかのヒステリシスを用いてもよいことは留意されるべきである。例えば、そのヒステリシスは可変の傾斜しきい値へ適用してもよく、可変のゼロ交差レートしきい値へ適用してもよく、又は、帯域幅拡張情報を包含することから包含しないことへの遷移もしくはその逆の遷移について決定するために使用される他の任意のしきい値へ適用してもよい。したがって、ヒステリシスは、入力オーディオ情報の現在の部分に関して帯域幅拡張情報が包含されている場合に、帯域幅拡張情報包含の省略へ切り替える確率を減らすようにしきい値を変えてよい。同様に、入力オーディオ情報の現在の部分に関して帯域幅拡張情報の包含が回避されている場合、しきい値を、帯域幅拡張情報の包含へ切り替える確率を減らすように変えてもよい。したがって、異なるモード間の遷移によって引き起こされことのあるアーティファクトを減らすことができる。
以下、帯域幅拡張情報プロバイダ230に関連する幾つかの詳細について論じる。特に、帯域幅拡張情報232が符号化オーディオ情報へ包含されるべきであるという検出器の信号伝達に応答して、どの情報が符号化オーディオ情報212へ包含されるかについて説明する。説明のために図3も参照する。図3は、入力されたオーディオ情報の周波数部分と、符号化されたオーディオ表現へ包含されるパラメータを概略的に示している。横座標310は周波数を表し、縦座標312は異なるスペクトルビン(例えば、MDCT係数、QMF係数、FFT係数など)の強度(例えば、振幅又はエネルギーのような強度)を表している。図から分かるように、入力されたオーディオ情報の低周波数部分は、例えば、低い方の周波数境界(例えば、0、50Hz、300Hz又は他の任意の適度な低い周波数境界)から約6.4kHzまでの周波数範囲を網羅することができる。図から分かるように、符号化表現222はこの低周波数部分(例えば、300Hzから6.4kHzまでなど)に関して生成することができる。さらに、例えば6.4kHzから8kHzまでの範囲の高周波数部分が存在する。しかし、高周波数部分は、当然、典型的には受聴者が知覚できる周波数範囲によって限定される異なる周波数範囲を網羅することができる。しかしながら、図3で分かるように、一例として、参照符号320で示されるスペクトル包絡線は、高周波数部分において不規則な形状を含む。さらに、スペクトル包絡線320は、高周波数部分において比較的大きいエネルギーを含み、かつさらには、7.2kHzから7.6kHzまでの間で比較的高いエネルギーを含むことが分かる。比較として、図3には、第2のスペクトル包絡線330も示されていて、第2のスペクトル包絡線330は高周波数部分において(例えば、単位周波数当たりの)強度又はエネルギーの減衰を示している。したがって、スペクトル包絡線320は、典型的には、検出器に、オーディオコンテンツの部分のうちスペクトル包絡線320を含む部分に関して帯域幅拡張情報を符号化オーディオ表現へ包含することを決定させ、一方でスペクトル包絡線330は、典型的には、検出器に、オーディオコンテンツの部分のうちスペクトル包絡線330を含む部分に関して帯域幅拡張情報の包含を省略することを決定させる。
図からさらに分かるように、オーディオコンテンツの部分のうちスペクトル包絡線320を含む部分に関しては、4つのスカラパラメータが符号化オーディオ表現へ帯域幅拡張情報として包含される。第1のスカラパラメータは、例えば、6.4kHzから6.8kHzまでの周波数範囲のスペクトル包絡線(又はこのスペクトル包絡線の平均)を記述することができ、第2のスカラパラメータは6.8kHzから7.2kHzまでの周波数範囲のスペクトル包絡線320(又はその平均)を記述することができ、第3のスカラパラメータは7.2kHzから7.6kHzまでの周波数範囲のスペクトル包絡線320(又は、その平均)を記述することができ、第4のスカラパラメータは7.6kHzから8kHzまでの周波数範囲のスペクトル包絡線(又はその平均)を記述することができる。これらのスカラパラメータは、スペクトル包絡線を絶対的に、又はスペクトル的に先行する周波数範囲(又は周波数領域)に関して相対的に記述することができる。例えば、第1のスカラパラメータは、6.4kHzから6.8kHzまでの周波数範囲におけるスペクトル包絡線と、より低い周波数範囲(例えば、6.4kHz未満)におけるスペクトル包絡線との間の強度比(これは、例えば、何らかの量に正規化してもよい)を記述することができる。第2、第3及び第4のスカラパラメータは、例えば、隣接する周波数範囲におけるスペクトル包絡線(の強度)間の差(又は割合)を記述することができ、よって、例えば、第2のスカラパラメータは、6.8kHzから7.2kHzまでの周波数範囲におけるスペクトル包絡線(の平均値)と、6.4kHzから6.8kHzまでの周波数範囲におけるスペクトル包絡線との間の割合を記述することができる。
さらに、低周波数部分、即ち6.4kHz未満の周波数部分、の符号化表現は、どんな場合でも包含できることは留意されるべきである。6.4kHz未満の周波数部分(低周波数部分)は、任意の周知の符号化概念を用いて、例えば、AAC(又はその派生方法)のような「汎用オーディオ」符号化、又は(例えば、CELP、ACELP又はこれらの派生方法のような)音声符号化を用いて符号化することができる。したがって、オーディオコンテンツの部分のうちスペクトル包絡線320を含む部分に関しては、低周波数部分の符号化表現と4つのスカラ帯域幅拡張パラメータ(これらは、比較的少ないビット数を用いて量子化することができる)の双方が、符号化オーディオ表現へ包含される。一方、オーディオコンテンツの部分のうちスペクトル包絡線330を含む部分に関しては、低周波数部分の符号化表現のみが符号化オーディオ表現へ包含され、(スカラ)帯域幅拡張パラメータは符号化オーディオ表現へ包含されない。(しかしながら、これにより重大な問題は生じない。というのは、スペクトル包絡線330は、規則的かつ減衰する(低域通過)特性を示し、ブラインド帯域幅拡張を用いてうまく復元できるからである。)
結論を言えば、オーディオエンコーダ200は、入力されたオーディオ情報の高周波数部分のスペクトル包絡線を表すパラメータを符号化オーディオ情報へ信号に適応して帯域幅拡張情報として選択的に包含するように構成されている。例えば、図3を参照して述べたスカラ帯域幅拡張パラメータは、符号化されたオーディオ情報へ信号に適応して包含させることができる。一般的に言えば、低周波数エンコーダ220は、入力されたオーディオ情報210のうち6kHzから7kHzまでの範囲内に存在する最大周波数(図3の例では、6.4kHzの境界が使用されている)までの周波数を含む低周波数部分を符号化するように構成されていてもよい。さらに、このオーディオエンコーダは、符号化されたオーディオ表現へ、300Hzから500Hzまでの間の帯域幅を有する高周波数信号部分の強度を記述する3つから5つまでの間のパラメータを選択的に包含するように構成されていてもよい。図3の例では、約400Hzの帯域幅を有する高周波数信号部分の強度を記述する4つのスカラパラメータが示されている。言い替えれば、このオーディオエンコーダは、符号化されたオーディオ表現へ、4つの高周波数信号部分の強度を記述する4つのスカラ量子化されたパラメータを包含するように構成されていてもよい。それらの高周波数信号部分は、(例えば、図3を参照して説明したような)低周波数部分より上の(例えば、図3に示されているような)周波数範囲を網羅している。例えば、オーディオエンコーダは、符号化されたオーディオ表現へ、スペクトル的に隣接する周波数部分間のエネルギー又は強度の関係を記述する複数のパラメータを選択的に包含するように構成されていてもよく、それらのパラメータのうちの1つは、第1の帯域幅拡張の高周波数部分のエネルギー又は強度と、低周波数部分のエネルギー又は強度との割合を記述し、他のパラメータは、他の帯域幅拡張高周波数部分間のエネルギー又は強度の割合を記述する(ここで、帯域幅拡張の高周波数部分は、6.4kHzから6.8kHzまで、6.8kHzから7.2kHzまで、7.2kHzから7.6kHzまで、及び7.6kHzkら8kHzまでの周波数部分とすることができる)。あるいは、(高周波数信号部分の強度を記述する)3つから5つまでの間の包絡線形状パラメータはベクトル量子化してもよい。ベクトル量子化は、典型的には、スカラ量子化よりも幾分効率的である。一方、ベクトル量子化は、スカラ量子化よりも複雑である。言い替えれば、4つの帯域幅拡張エネルギー値の量子化は、代替的に、(スカラ量子化を用いるよりもむしろ)ベクトル量子化を用いて実行することが可能である。
結論を言えば、オーディオエンコーダは、符号化されたオーディオ表現へ比較的単純な帯域幅拡張情報を包含するように構成されていてもよく、よって、符号化されたオーディオ表現のビットレートは、入力されたオーディオ情報(又は、符号化されたオーディオ表現)の部分のうち、検出器によりパラメータ誘導の帯域幅拡張が望ましいことが見いだされる部分に関してのみ僅かに増大する。
3.図4によるオーディオデコーダ
図4は、本発明の一実施形態によるオーディオデコーダを示す略ブロック図である。図4によるオーディオデコーダ400は、(例えば、オーディオエンコーダ100により、又はオーディオエンコーダ200により生成され得る)符号化されたオーディオ情報410を受信し、かつこれに基づいて、復号されたオーディオ情報412を生成する。
オーディオデコーダ400は低周波数デコーダ420を備え、低周波数デコーダ420は符号化されたオーディオ情報410(又は少なくとも、符号化されたオーディオ情報410に含まれる低周波数部分の符号化表現)を受信し、低周波数部分の符号化表現を復号し、かつ低周波数部分の復号表現422を得る。オーディオデコーダ400は、(符号化オーディオ情報410により表現された)(符号化された)オーディオコンテンツの部分のうち、帯域幅拡張パラメータが符号化オーディオ情報410に包含されない部分に関してはブラインド帯域幅拡張を用いて帯域幅拡張信号432を得るように、かつオーディオコンテンツの部分のうち、帯域幅拡張パラメータが符号化オーディオ情報(又は、符号化オーディオ表現)410に包含される部分に関しては、(符号化されたオーディオ情報410に包含された帯域幅拡張情報又は帯域幅拡張パラメータを利用する)パラメータ誘導の帯域幅拡張を用いて帯域幅拡張信号432を得るように構成されている帯域幅拡張430も含む。
したがって、オーディオデコーダ400は、帯域幅拡張パラメータが符号化オーディオ情報410に包含されるか否かに関わらず、帯域幅拡張を実行することができる。したがって、このオーディオデコーダは、符号化されたオーディオ情報410に適応することができ、かつ、ブラインド帯域幅拡張とパラメータ誘導の帯域幅拡張との間に切替えが存在するという概念を可能にする。結果的に、オーディオデコーダ400は、オーディオコンテンツの部分のうち、ブラインド帯域幅拡張を用いては十分な品質で復元できない部分(例えば、フレーム)に関してのみ帯域幅拡張パラメータが包含される符号化されたオーディオ情報410を処理することができる。したがって、低周波数部分の復号表現及び帯域幅拡張信号の双方を含む復号されたオーディオ情報412(帯域幅拡張信号は、例えば、低周波数部分の復号表現422へ付加することができ、これにより復号されたオーディオ情報412が得られる)を生成することができる。
したがって、オーディオデコーダ400は、オーディオ品質とビットレートとの間の優れたトレードオフを達成する手助けをする。
以下、例えば図5を参照して、オーディオデコーダ400の任意のさらなる改良について述べる。
4.図5によるオーディオデコーダ
図5は、本発明の別の実施形態によるオーディオデコーダ500を示す略ブロック図である。オーディオデコーダ500は、符号化されたオーディオ情報(符号化されたオーディオ表現としても示される)510を受信し、かつこれに基づいて、復号されたオーディオ情報(復号されたオーディオ表現としても示される)512を生成する。オーディオデコーダ500は低周波数デコーダ520を備えている。低周波数デコーダ520は低周波数デコーダ420と等しいものであってもよく、かつ同等な機能性を実現してもよい。したがって、低周波数デコーダ500は、符号化されたオーディオ情報510によって表現されたオーディオコンテンツの低周波数部分の復号表現522を生成する。オーディオデコーダ500は帯域幅拡張530も備えており、帯域幅拡張530は帯域幅拡張430と同じ機能性を実現してもよい。
したがって、帯域幅拡張530は帯域幅拡張信号532を生成することができ、帯域幅拡張信号532は、典型的には、低周波数部分の復号表現522と結合され(例えば、付加され)、これにより復号されたオーディオ情報512が得られる。帯域幅拡張530は、例えば、低周波数部分522の復号表現522を受信してもよい。しかしながら、代替として、帯域幅拡張532は、低周波数デコーダ520によって生成される制御情報(補助情報又は中間情報とも考えられる)524を受信してもよい。補助情報又は制御情報又は中間情報524は、例えば、オーディオコンテンツの低周波数部分のスペクトル形状、低周波数部分の復号表現のゼロ交差レート、又は低周波数デコーダ520により使用され帯域幅拡張のプロセスにおいて有用である他の任意の中間量を表現することができる。さらに、このオーディオデコーダは制御装置540を備え、制御装置540は、帯域幅拡張530によってブラインド帯域幅拡張が実行されるべきか、パラメータ誘導の帯域幅拡張が実行されるべきかを示す制御情報542を生成するように構成されている。制御装置540は制御情報542を生成するために異なるタイプの情報を用いてもよい。例えば、制御装置540は帯域幅拡張モード・ビットストリームフラグを受信してもよい。帯域幅拡張モード・ビットストリームフラグは符号化されたオーディオ情報510に包含されることがある。例えば、符号化されたオーディオ情報には、各部分(例えば、各フレーム)毎に1つの帯域幅拡張モード・ビットストリームフラグを存在させることができる。帯域幅拡張モード・ビットストリームフラグは、制御装置540によって符号化オーディオ情報から抽出することが可能であり、かつ制御情報542を導出するために使用してもよい(又は、帯域幅拡張モード・ビットストリームフラグは、そのまま制御情報542を構成してもよい)。しかしながら、あるいは、低周波数部分を表現し、及び/又は低周波数部分の復号方法を記述する情報(したがって、「低周波数部分復号情報」としても示される)を制御装置540が受信してもよい。あるいは、又はさらに、制御装置540は低周波数デコーダから制御情報又は補助情報又は中間情報524を受信してもよい。それらの情報は、例えば、低周波数部分のスペクトル包絡線に関する情報、及び/又は低周波数部分の復号表現のゼロ交差レートに関する情報を運ぶことができる。しかしながら、制御情報又は補助情報又は中間情報524は、低周波数部分の復号表現522の統計に関する情報も運んでもよく、又は、低周波数部分の符号化表現から低周波数デコーダ520により導出される他の任意の中間情報(低周波数部分復号情報としても示される)を表現してもよい。
あるいは、又はさらに、制御装置540は低周波数部分の復号表現522を受信してもよく、かつ自らが、低周波数部分の復号表現522から特徴値(例えば、ゼロ交差レート情報、スペクトル包絡線情報、スペクトル傾斜情報など)を導出してもよい。
したがって、制御装置540は、ビットストリームフラグを評価して、符号化されたオーディオ情報510内に(ブラインド帯域幅拡張が使用されるべきか、パラメータ誘導の帯域幅拡張が使用されるべきかを信号伝達する)ようなビットストリームフラグが含まれていれば、ブラインド/パラメータ誘導制御情報542を生成してもよい。しかしながら、(例えば、ビットレートを節約するために)符号化されたオーディオ情報510内にそのようなビットストリームフラグが含まれていなければ、制御装置540は、典型的には、他の情報に基づいて、ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかを決定する。この目的のために、低周波数部分復号情報(低周波数部分の符号化表現に等しいもの、又はそのサブセットに等しいものであってもよい)は、制御装置540によって評価されてもよい。あるいは、又はさらに、この制御装置は、ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかを決定するために、即ち、制御情報542を生成するために、低周波数部分の復号表現522を考慮してもよい。さらに、制御装置540は、任意ではあるが、低周波数デコーダ520により生成される制御情報又は補助情報又は中間情報524を用いてもよい。ただし、低周波数デコーダ520が制御装置540により使用可能な任意の中間量を生成するものとする。
したがって、制御装置540は、帯域幅拡張を、ブラインド帯域幅拡張とパラメータ誘導の帯域幅拡張との間で切り替えることができる。
ブラインド帯域幅拡張の場合、帯域幅拡張530は、低周波数部分の復号表現522に基づいて、何れの追加的なビットストリームパラメータをも評価することなく帯域幅拡張信号532を生成することができる。一方、パラメータ誘導帯域幅拡張の場合、帯域幅拡張530は追加的な(専用の)帯域幅拡張ビットストリームパラメータを考慮して帯域幅拡張信号532を生成することができる。帯域幅拡張ビットストリームパラメータはオーディオコンテンツの高周波数部分の特性(即ち、帯域幅拡張信号の特性)を決定するのを補助するものである。しかしながら、帯域幅拡張530は、帯域幅拡張信号532を生成するために、低周波数デコーダ520により生成される低周波数部分の復号表現522、及び/又は制御情報又は補助情報又は中間情報524も用いてもよい。
したがって、ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかの決定は、(典型的には、符号化されたオーディオ情報により表現されるオーディオコンテンツの高周波数部分を記述する)帯域幅拡張信号を得るために、(典型的には、低周波数デコーダ520によって低周波数部分の復号表現を生成するためには使用されない)専用の帯域幅拡張パラメータが適用されるかどうかを効果的に決定する。
上記を要約すると、オーディオデコーダ500は、フレームごとに帯域幅拡張信号532を、ブラインド帯域幅拡張を用いて得るか又はパラメータ誘導の帯域幅拡張を用いて得るかを決定するように構成されていてもよい(ここで、「フレーム」は、オーディオコンテンツ1つの部分の一例であり、例えば、10ミリ秒から40ミリ秒までの間の持続時間からなり、好ましくは約20ミリ秒±2ミリ秒の持続時間をもつことができる)。したがって、このオーディオデコーダは、ブラインド帯域幅拡張とパラメータ誘導の帯域幅拡張とを非常に微細な時間粒度で切り替えるように構成することができる。
また、オーディオデコーダ500が、典型的には、連続したオーディオコンテンツ片内でブラインド帯域幅拡張の使用とパラメータ誘導帯域幅拡張の使用とを切り替えることができる点は、留意されるべきである。したがって、ブラインド帯域幅拡張とパラメータ誘導の帯域幅拡張との間の切替えは、帯域幅拡張を単一のオーディオコンテンツ片の異なる部分の(変化する)特性へ適応させるために、連続したオーディオコンテンツ片内で実質的にいつでも(当然ながら、フレーミングを考慮して)実行することが可能である。
先に述べたように、このオーディオデコーダ(好ましくは、制御装置540)は、オーディオコンテンツの異なる部分(例えば、異なるフレーム)について、符号化されたオーディオ情報510に含まれるフラグ(例えば、1フレーム当たり1つの単ビットフラグ)を評価し、ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかを決定するように構成されていてもよい。この場合、制御装置540は、オーディオコンテンツの各部分について符号化されたオーディオ情報に信号伝達フラグが包含されなければならないという犠牲を払って、極めて単純に保つことが可能である。しかしながら、あるいは、制御装置540は、ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかの決定を、低周波数部分の符号化表現に基づいて(低周波数デコーダ520によって低周波数部分のその符号化表現から導出される制御情報又は補助情報又は中間情報524の使用を含んでもよく、かつ低周波数デコーダ520によって低周波数部分の符号化表現から導出される復号表現522の使用も含んでもよい)、(専用の)帯域幅拡張モードの信号伝達フラグを評価することなく行なうように構成されていてもよい。したがって、ブラインド帯域幅拡張とパラメータ誘導の帯域幅拡張との切替えは、ビットストリームにおける信号伝達の負担なしでも実行することが可能である。
このオーディオデコーダ(又は、制御装置540)は、ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかを、低周波数部分の復号表現の1つ以上の特徴に基づいて決定するように構成されていてもよい。例えば、スペクトル傾斜情報、ゼロ交差レート情報などのようなこうした特徴は、低周波数部分の復号表現522から抽出されるか、制御情報/補助情報/中間情報524によって信号伝達されるか、の何れかであってもよい。例えば、オーディオデコーダ(又は、制御装置540)は、ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかを、量子化された線形予測係数(例えば、制御情報/補助情報/中間情報524に含まれ得る)に基づいて、及び/又は低周波数部分の復号表現522の時間領域統計に依存して決定するように構成されていてもよい。
以下、帯域幅拡張をどのように達成するかに関する幾つかの概念を記述する。例えば、帯域幅拡張は、帯域幅拡張信号532を、(入力された)オーディオコンテンツの時間的部分のうち帯域幅拡張パラメータが符号化オーディオ情報へ包含されない時間的部分に関する低周波数部分の復号表現522の1つ以上の特徴及び/又は低周波数デコーダ520の1つ以上のパラメータ(これは制御情報/補助情報/中間情報524によって信号伝達されてもよい)を用いて得るように構成されていてもよい。したがって、帯域幅拡張530はブラインド帯域幅拡張を実行することができる。ブラインド帯域幅拡張は、低周波数部分の復号表現から、符号化されたオーディオ情報によって表現されたオーディオコンテンツの高周波数部分への推論をするという考えに基づいている。例えば、帯域幅拡張530は、帯域幅拡張信号532を、入力されたオーディオコンテンツの時間的部分のうち帯域幅拡張パラメータが符号化オーディオ情報510へ包含されない時間的部分に関するスペクトル重心情報を用いて、及び/又はエネルギー情報を用いて、及び/又は(例えば、コード化された)フィルタ係数を用いて得るように構成されていてもよい。したがって、優れたブラインド帯域幅拡張の達成が可能である。
但し、当然ながら、異なるブラインド帯域幅拡張概念も適用できる。
しかしながら、帯域幅拡張は、帯域幅拡張信号532を、オーディオコンテンツの時間的部分のうち帯域幅拡張パラメータが符号化オーディオ情報へ包含される時間的部分に関する高周波数部分のスペクトル包絡線を記述するビットストリームパラメータを用いて得るように構成されていてもよい。言い替えれば、パラメータ誘導の帯域幅拡張は、高周波数部分のスペクトル包絡線を記述するビットストリームパラメータを用いて実行されてもよい。高周波数部分のスペクトル包絡線を記述するビットストリームパラメータは、パラメータ誘導の帯域幅拡張を支援できる(しかしながら、パラメータ誘導の帯域幅拡張は、追加的に、ブラインド帯域幅拡張によって使用される量の幾つか、又は全てに依存してもよい)。
例えば、帯域幅拡張は、好ましくは、帯域幅拡張信号を得るために、300Hzから500Hzまでの間の帯域幅を有する高周波数信号部分の強度を記述する3つから5つまでの間のビットストリームパラメータを評価するように構成されるべきであることがわかった。このような比較的少数のビットストリームパラメータの使用は、ビットレートをさほど増加させず、しかも、「困難な」信号部分の事例において帯域幅拡張の十分な改良をもたらし、よって、「困難な」信号部分に対してこのような誘導式の帯域幅拡張により達成可能な品質は、ブラインド帯域幅拡張を用いて「容易な」信号部分に対して達成可能な品質に比肩し得るものである(ここで、「困難な」信号部分とはブラインド帯域幅拡張が優れた又は容認できるオーディオ品質をもたらすとは思われない信号部分であり、「容易な」信号部分とはブラインド帯域幅拡張が十分な結果をもたらす信号部分である)。
したがって、300Hzから500Hzまでの間の帯域幅を有する高周波数信号部分の強度を記述する3つから5つまでの間のビットストリームパラメータは、フレーム当たり6ビットから15ビットまでの間の帯域幅拡張スペクトル成形パラメータが存在するように、2又は3ビットの分解能でスカラ量子化されることが好ましい。オーディオコンテンツの「困難な」部分に関して言えば、帯域幅拡張情報のこのような低いビットレートでも、既に、適度に優れた帯域幅拡張を達成するに足ることがわかった。
任意ではあるが、帯域幅拡張530は、ブラインド帯域幅拡張からパラメータ誘導の帯域幅拡張へ切り替える場合、及び/又はパラメータ誘導の帯域幅拡張からブラインド帯域幅拡張へ切り替える場合に、帯域幅拡張信号のエネルギーの平滑化を実行するように構成されていてもよい。したがって、ブラインド帯域幅拡張とパラメータ誘導の帯域幅拡張との切替えに際してのスペクトル形状における不連続性は低減される。例えば、帯域幅拡張は、オーディオコンテンツの部分のうち、ブラインド帯域幅拡張が適用される部分に続いてパラメータ誘導の帯域幅拡張が適用される部分に対して、帯域幅拡張信号の高周波数部分を減衰させるように構成されていてもよい。また、帯域幅拡張は、オーディオコンテンツの部分のうちパラメータ誘導の帯域幅拡張が適用される部分に続いてブラインド帯域幅拡張が適用される部分に対して、帯域幅拡張信号の高周波数部分の減衰を減らす(即ち、帯域幅拡張信号の高周波数部分を幾分か強調する)ように構成されていてもよい。しかしながら、平滑化は、帯域幅拡張モード間の切替えに際して高周波数部分のスペクトル形状の不連続性を低減する他の何らかの操作によっても実行される場合がある。このように、オーディオ品質はアーティファクトを減らすことによって向上される。
結論を言えば、オーディオデコーダ500は、符号化オーディオ情報内に帯域幅拡張情報が生成される場合、及び符号化オーディオ情報内に帯域幅拡張情報が生成されない場合の双方で、オーディオコンテンツの高品質復号を可能にする。このオーディオデコーダは、ブラインド帯域幅拡張とパラメータ誘導の帯域幅拡張とを精細な時間粒度で(例えば、フレーム毎に)切り替えることができ、アーティファクトは少なく保たれる。
5.図6による、入力されたオーディオ情報に基づいて符号化されたオーディオ情報を生成するための方法
図6は、入力されたオーディオ情報に基づいて、符号化されたオーディオ情報を生成するための方法600を示すフローチャートである。方法600は、低周波数部分の符号化表現を達成するために、入力されたオーディオ情報の低周波数部分を符号化するステップ610を含む。方法600は、帯域幅拡張情報を、入力されたオーディオ情報に基づいて生成するステップ620も含み、帯域幅拡張情報は符号化されたオーディオ情報へ信号に適応して選択的に包含される。
図6による方法600が、本明細書においてオーディオエンコーダに関連して(かつ、オーディオデコーダにも関連して)述べたあらゆる特徴及び機能性によって補足され得ることは留意されるべきである。
6.図7による、復号されたオーディオ情報を生成するための方法
図7は、本発明の一実施形態による、復号されたオーディオ情報を生成するための方法を示すフローチャートである。方法700は、低周波数部分の復号表現を達成するために、低周波数部分の符号化表現を復号するステップ710を含む。方法700は、さらに、オーディオコンテンツの部分のうち帯域幅拡張パラメータが符号化オーディオ情報へ包含されない部分に関して、ブラインド帯域幅拡張を用いて帯域幅拡張信号を得るステップ720も含む。さらに、方法700は、オーディオコンテンの部分のうち帯域幅拡張パラメータが符号化オーディオ情報へ包含される部分に関して、パラメータ誘導の帯域幅拡張を用いて帯域幅拡張信号を得るステップ730を含む。
図7による方法700が、本明細書においてオーディオデコーダに関連して(かつ、オーディオエンコーダにも関連して)述べたあらゆる特徴及び機能性によって補足され得ることは留意されるべきである。
7.図8による符号化されたオーディオ表現
図8は、オーディオ情報を表現する符号化されたオーディオ表現800を示す略図である。
符号化されたオーディオ表現(符号化されたオーディオ情報としても示される)は、オーディオ情報低周波数部分の符号化表現を含む。例えば、オーディオ情報低周波数部分の符号化表現810は、オーディオ情報の第1の部分に関して、例えば、オーディオ情報の第1のフレームに関して生成される。さらに、オーディオ情報低周波数部分の符号化表現は、オーディオ情報の第2の部分(例えば、第2のフレーム)に関しても生成される。しかしながら、符号化されたオーディオ表現800は帯域幅拡張情報も含み、帯域幅拡張情報は、オーディオ情報の全ての部分ではないが幾つかの部分に関して、符号化されたオーディオ表現へ信号に適応して包含される。例えば、帯域幅拡張情報812は、オーディオ情報の第1の部分に関して包含される。一方、オーディオ情報の第2の部分に関しては、帯域幅拡張情報は生成されない。
結論を言えば、符号化されたオーディオ表現800は、典型的には、本明細書に記述されているオーディオエンコーダによって生成され、かつ本明細書に記述されているオーディオデコーダによって評価される。当然ながら、符号化されたオーディオ表現は、非一時的コンピュータ読取り可能媒体などに格納されてもよい。さらに、符号化されたオーディオ表現800が、オーディオエンコーダ及びオーディオデコーダに関連して記述されているあらゆる特徴、情報アイテムなどによって補足され得ることは留意されるべきである。
8.結論及びさらなる態様
本発明による実施形態は、従来の超低ビットレート・オーディオコーディングにおける帯域幅拡張の問題点及び既存の従来的な帯域幅拡張技術の欠点に、ブラインド帯域幅拡張とパラメータ誘導の帯域幅拡張との信号適応的な組合せとしての「最小誘導式」帯域幅拡張を提案することによって対処するものである。その最小誘導式帯域幅拡張は、
入力されたオーディオの高周波数コンテンツ(例えば、高周波数部分)が低周波数オーディオ(例えば、オーディオコンテンツの低周波数部分)からさほど良く復元され得ない場合にのみ、誘導式の帯域幅拡張を用い、即ち、20ミリ秒当たり(例えば、オーディオフレーム当たり)数ビットのサイド情報を伝送し、
ブラインド帯域幅拡張、即ち、スペクトル重心、エネルギー、傾斜、符号化されたフィルタ係数、その他等の低周波数コアの特徴(例えば、復元された低周波数部分の特徴)からの高周波数成分の(例えば、高周波数部分の)古典的な復元、を用い、
サイド情報のベクトル量子化の代わりにスカラを利用することにより、かつフーリエ変換及び自己相関及び/又はフィルタ計算等の大量のデータポイントが関与する演算を回避することによって、極めて低い計算複雑性を示し、
音楽だけでなくあらゆるタイプの音声でうまく機能するように、入力される信号特性に対して強固であり、即ち、静かな環境における成人音声等の特定の入力信号に対して最適化されたものではない。
本発明による実施形態の誘導式帯域幅拡張部においてサイド情報としてどのパラメータを伝送するか、及びこのパラメータをいつ伝送するかは、これから回答すべき問題である。
AMR−WB等の広帯域コーデックでは、コアコーダ領域より上の高周波数領域のスペクトル包絡線が、帯域幅拡張を十分な品質で実行するために必要な(又は、実行する上で望ましい)最も重要なデータを表現することがわかった。スペクトル精細構造及び時間包絡線等の他の全てのパラメータは、復号されたコア信号から極めて正確に導出されることが可能であり、あるいは、知覚上ほとんど重要性がない。したがって、本明細書に記述されている最小誘導式の帯域幅拡張の誘導される部分は、高周波数スペクトル包絡線をサイド情報として(例えば、帯域幅拡張情報として)伝送するだけである。これは、帯域幅拡張サイド情報レートを低く保つ手助けとなる。さらに、ブラインド帯域幅拡張は、幾分はっきりとした低域通過特性を有する時間的に静止した信号部分に関しては、十分な即ち少なくとも容認できる品質を提供することが実験的に明らかとなった。発声音声、環境雑音及び打楽器使用のない音楽部分は一般的な例である。実際、広帯域音声及びオーディオ符号化システムへの大部分の入力が、典型的には、このカテゴリに属する。
しかしながら、その瞬間スペクトルが高周波数領域において(例えば、高周波数部分において)低周波数(コアコーダ)領域(又は、低周波数部分)の場合とはかなり異なる包絡線を示す信号セグメントは、好ましくは、高周波数スペクトル包絡線の量子化表現をサイド情報として(例えば、帯域幅拡張情報として)伝送する誘導式の帯域幅拡張を介して符号化されることになる。その理由は、このようなスペクトル構造に対して、ブラインド帯域幅拡張は、概して、コード化されたフィルタ係数又はスペクトル成形された残留信号(音声コーダにおける励起としても知られる)によって与えられるコア信号包絡線から高周波数スペクトル包絡線の進行を予測できないことにある。代表的な例は、主として現代音楽におけるある種の打楽器音だけでなく、無声音、特に「s」又はドイツ語の「z」のような強い摩擦音及び破擦音である。したがって、本発明による実施形態では、誘導式の帯域幅拡張は、このような「予測不可能な」高周波数スペクトルに対してのみ起動される。
本発明による最小誘導式の帯域幅拡張は、xHE−AACの低遅延バージョンであるLD−USACに関して、13.2キロビット/秒における広帯域符号化(WB−符号化)信号帯域幅を6.4kHzから8.0kHzへと拡張するために実施された。エンコーダ側では、ブラインド/誘導の決定が、既存の過渡検出器により生成される入力信号ゼロ交差レートの変化のような時間領域の特徴(他の符号化モード決定にも利用される)だけでなく、知覚周波数スケール上の入力信号のスペクトル傾斜(ACELP符号化経路においても使用される既存の特徴)から20ミリ秒のコーデックフレーム毎に計算される。より具体的には、スペクトル傾斜がスペクトルエネルギーが周波数の増加に伴って増大する傾向があることを意味する正であって指定されたしきい値を超えており、同時にゼロ交差レートが所定の割合だけ増加しているか又は所定のしきい値を超えていて、つまり現在のフレームが雑音の多い波形部分の開始を表すか又はその波形部分内に存在することを意味していれば、誘導式の帯域幅拡張が選択されて信号伝達される。これ以外は、ブラインド帯域幅拡張が選択される。先に述べたしきい値に関しては、誘導式帯域幅拡張とブラインド帯域幅拡張の間を交互に切り替える蓋然性を減らすために、単純なヒステリシスがさらに適用される。あるフレームに対して、誘導式の帯域幅拡張モードが採用されていると、これに続くフレームにおいて使用されるべき決定しきい値は1ビット下げられて、コーデックが誘導モードに留まる傾向が高くなる。ブラインドモードへ切り替えることが決定されていれば、原しきい値が回復され、帯域幅拡張決定が誘導モードへ切り替わる可能性はただちに低くされる。
フレーム毎の帯域幅拡張における残りの手順をまとめると、次のようになる。
1.帯域幅拡張がブラインドモードにあれば、ビットストリーム内の1ビットを用いて「0」を伝送し、デコーダへこのモードを信号伝達する。随意により、ビットの伝送は行わず、デコーダに、デコーダ側でのコア信号の分析によって、そのフレームがブラインド帯域幅拡張モードを用いることを確認させる。
2.帯域幅拡張が誘導モードにあれば、ビットストリーム内の1ビットを用いて「1」を伝送する。次に、エンコーダは、デコーダにおける6.4kHzから8kHzまでの帯域幅拡張領域の正確なスペクトル成形を可能にするために、各々が入力信号の400Hzをカバーする4つの周波数利得指数を計算する。低遅延USACの実現において、4つの指数は各々、4つの帯域幅拡張領域QMFエネルギーのうちの1つの、先行するQMFエネルギーに対する(又は、第1の帯域幅拡張利得の場合、4.8〜6.4kHzのQMFスペクトルのエネルギーに対する)スカラ量子化の結果である。2dBのステップサイズを有する2ビットのミッドライズ(mid-rise)量子化器が使用されることから、この利得は、−3 … 3dBの値範囲を網羅し、かつ1フレーム当たり8ビットを消費する。これは、誘導式帯域幅拡張の1フレーム当たり9ビット、又は随意により、ステップ1におけるような信号伝達を除けば8ビットの合計サイド情報をもたらす。
3.対応するデコーダにおいて、第1の帯域幅拡張ビットが読み取られる。これが、「0」であればブラインド帯域幅拡張が使用され、そうでなければ、さらに8ビットが読み取られて誘導式の帯域幅拡張が使用される。随意により、この第1の帯域幅拡張ビットの読み取りは、(このビットがビットストリーム内に存在しないという理由で)スキップされ、ブラインド/誘導決定が局所的に、ステップ1で述べたようにコア信号分析によって実行される。
4.デコーダにおいて、ブラインド帯域幅拡張モードが決定されていれば、復号されたコア信号の特徴のみを用いる帯域幅拡張が実行される。この帯域幅拡張は、本質的に、非特許文献[2]、[3]、[6]及び[9]のうちの1つに記述されている帯域幅拡張概念に準じるが、DFT領域ではなくQMFにおいて、かつコアQMFスペクトル、例えばスペクトル重心/傾斜から導出される低複雑性の特徴のみを用いる。
5.デコーダにおいて、誘導式の帯域幅拡張モードが選択されていれば、4つの2ビット利得指数がQMFエネルギー利得に逆量子化され、かつ、ステップ4におけるように復元されるQMF帯域幅拡張領域バンドのスペクトル成形に適用される。言い替えれば、スペクトル成形が、コア信号から外挿されるスケーリングではなく、ビットストリーム内で伝送されるスケール因子を介して行われること(結果的に、パラメータ誘導の帯域幅拡張になる)を除いて、ここでもブラインド帯域幅拡張が使用される。
6.ブラインド帯域幅拡張と誘導式帯域幅拡張の間を1フレーム毎に切り替える際には、ブラインド帯域幅拡張の低域通過状の挙動により引き起こされるスイッチングアーティファクト(高周波数エネルギーの不連続性)を最小限に抑えるために、高周波数エネルギーの単純な平滑化が実行される。その平滑化は、本質的に、ブラインド帯域幅拡張と誘導式帯域幅拡張の間のクロスフェーダ(cross-fader)として機能する。すなわち、幾つかのブラインド帯域幅拡張フレームに続く最初の誘導式帯域幅拡張フレームは、その高周波数領域において1ビット減衰され、一方、幾つかの誘導式帯域幅拡張後の最初のブラインド帯域幅拡張フレームの高周波数減衰は1ビット低減される。
典型的な電話音声コンテンツ及びポピュラーミュージックに対しては、全20ミリ秒フレームの約13%がLD−USACにおける誘導式の帯域幅拡張を利用することを実験が示している。したがって、帯域幅拡張サイド情報の平均レートは、1フレーム当たり約2ビット又は0.1キロビット/秒になる。これは、(e)SBR(例えば、非特許文献[8]参照)又はそこで参照されるどの誘導式音声コーダ帯域幅拡張のレートよりも遙かに少ない。
さらに、本項目で先にステップ毎の説明において任意の方法として提案したように、デコーダへの帯域幅拡張モード決定の1ビット信号伝達は、エネルギー及びデコーダの双方がこの決定をコア符号化信号からビットイグザクト(bit-exact)式に導出することができれば、回避され得る点も留意されるべきである。これは、エンコーダが帯域幅拡張モードを、局所的に復号されたコア信号から導出される幾つかの特徴に基づいて選択すれば達成可能であるが、その理由は、このコア信号がデコーダにおいて利用可能な唯一の信号であることにある。所定のフレームにおいて伝送誤差が発生しておらず、かつエンコーダとデコーダの双方が全く同一のコア信号特徴(先に述べたように、ゼロ交差レートのような復号された残留信号からの量子化されたLPC係数又は時間領域統計等)から帯域幅拡張モードを決定するものとすれば、モード決定はエンコーダとデコーダとで同一である。
本発明による実施形態は、9〜13キロビット/秒のビットレートで観察され得る広帯域コーデックにおける所定の品質上のジレンマを克服する。一方、このようなビットレートは、もともと、適度な量の帯域幅拡張データであってもその伝送を正当化するには低すぎて、1キロビット/秒以上のサイド情報を有する典型的な誘導式帯域幅拡張システムは除外されることがわかった。もう一方で、実現可能なブラインド帯域幅拡張は、少なくとも幾つかのタイプの音声又は音楽資料に対しては、コア信号から適切なパラメータを予測できないことから、音がかなり悪くなることがわかった。したがって、誘導式帯域幅拡張スキームのサイド情報レートを、超低ビットレートの符号化においてもこれを採用できるようにする1キロビット/秒より遙かに下のレベルまで低減することが望ましいということがわかった。本発明による実施形態において使用される手法は、ブラインド帯域幅拡張によっては下手に又は未最適に復元される典型的な入力信号のセグメントを識別し、かつこれらのセグメントに関してのみ、高周波数復元品質を容認できるレベル(又は、少なくとも、その信号に対するブラインド帯域幅拡張の平均品質範囲内にあるレベル)まで向上させるために必要なサイド情報を伝送するというものである。言い替えれば、高周波数入力信号の部分のうちブラインド帯域幅拡張によって程よく再生される部分は、帯域幅拡張サイド情報をほとんど又は全く用いずに符号化されるべきであり、かつブラインド帯域幅拡張がコーデック品質の全体的な印象を低下させると思われる部分のみが、その高周波数成分を誘導式帯域幅拡張によって再生させるべきである。サイド情報レートを信号に適応して調整するこのような帯域幅拡張設計は、本発明の対象であって、「最小誘導式帯域幅拡張」と呼ぶ。
本発明による実施形態は、近年文献に示されている多数の帯域幅拡張手法(例えば、非特許文献[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]、[9]及び[10]参照)を凌ぐものである。概して、これらの全ては、入力信号の瞬間特性に関わらず、所定の動作点において完全にブラインド又は完全に誘導式の何れかである。さらに、ブラインド帯域幅拡張の全ての実施(例えば、非特許文献[1]、[3]、[4]、[5]、[9]及び[10]参照)は、専ら音声信号に関して最適化され、したがって、音楽等の他の入力に対して満足な品質を生み出す可能性は低い(この点については、一部の刊行物においても言及されている)。最後に、ほとんどの従来の帯域幅拡張は実現が比較的複雑であって、サイド情報のフーリエ変換、LPCフィルタ計算又はベクトル量子化を使用する。これは、大部分のモバイルデバイスは、有する計算能力が極めて限定的であることを考えれば、移動体通信市場における新しい符号化技術の採用において不都合を引き起こす可能性がある。
さらに結論を言えば、本発明による実施形態は、オーディオエンコーダ、又はオーディオ符号化方法、又は関連するコンピュータプログラムを創造する。
本発明によるさらなる実施形態は、先に述べたようなオーディオデコーダ、又はオーディオ復号方法、又は関連するコンピュータプログラムを創造する。
本発明によるさらなる実施形態は、先に述べたような符号化されたオーディオ信号、又はその符号化されたオーディオ信号を格納している記憶媒体を創造する。
9.他の実施例
幾つかの態様を装置に関して記述してきたが、これらの態様が、対応する方法の説明ともなることは明らかであり、ブロック又はデバイスは、方法ステップ又は方法ステップの特徴に相当する。同様に、方法ステップ関して記述されている態様は、対応する装置の対応するブロック、単位体又は特徴の説明ともなる。方法ステップの幾つか又は全ては、例えばマイクロプロセッサ、プログラマブルコンピュータ又は電子回路のようなハードウェア装置によって(又は、ハードウェア装置を用いて)実行することができる。実施形態によっては、最も重要な方法ステップのうちの何れか1つ又はそれ以上は、そのような装置によって実行することができる。
本発明による符号化されたオーディオ信号は、デジタル記憶媒体に格納されることが可能であり、又は伝送媒体、例えば無線伝送媒体もしくはインターネット等の有線伝送媒体で伝送されることが可能である。
所定の実装要件に依存して、本発明の実施形態は、ハードウェア又はソフトウェアにおいて実装されることが可能である。その実装は、デジタル記憶媒体、例えばフロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリを用いて実行することができ、それらは個々の方法が実行されるようにプログラマブル・コンピュータ・システムと協働する(または協働することのできる)電子的に読出し可能な制御信号をもっている。したがって、デジタル記憶媒体は、コンピュータ読取り可能であってもよい。
本発明による幾つかの実施形態は、本明細書に記述されている方法のうちの1つが実行されるようにプログラマブル・コンピュータ・システムと共働することができる電子的に読取り可能な制御信号を有するデータキャリアを含む。
概して、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム・プロダクトとして実装されることが可能であり、そのプログラムコードは、そのコンピュータ・プログラム・プロダクトがコンピュータ上で実行されると本発明の方法のうちの1つを実行するように作動する。そのログラムコードは、例えば、機械読取り可能キャリアに格納されてもよい。
他の実施形態は、機械読取り可能キャリアに格納され、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを含む。
したがって、言い替えれば、本発明による方法の一実施形態は、コンピュータ上で実行されると本明細書に記述されている方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明による方法のさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを記録しているデータキャリア(又は、デジタル記憶媒体又はコンピュータ読取り可能媒体)である。データキャリア、デジタル記憶媒体又は記録媒体は、典型的には、有形及び/又は非遷移性である。
したがって、本発明による方法のさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、データ通信接続、例えばインターネットを介して転送されるように構成されていてもよい。
さらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するように構成された又は適合化された処理手段、例えばコンピュータ、又はプログラマブル論理デバイスを含む。
さらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。
本発明によるさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを受信機へ(例えば、電子的又は光学的に)転送するように構成された装置又はシステムを含む。その受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。その装置又はシステムは、例えば、コンピュータプログラムを受信機へ転送するためのファイルサーバを備えていてもよい。
実施形態によっては、本明細書に記述されている方法の機能の幾つか又は全てを実行するために、プログラマブル論理デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)が使用されてもよい。実施形態によっては、フィールド・プログラマブル・ゲート・アレイは、本明細書に記述されている方法のうちの1つを実行するために、マイクロプロセッサと共働してもよい。概して、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。
本明細書に記述されている装置は、ハードウェア装置を用いて、又はコンピュータを用いて、又はハードウェア装置とコンピュータとの組合せを用いて実施されてもよい。
本明細書に記述されている方法は、ハードウェア装置を用いて、又はコンピュータを用いて、又はハードウェア装置とコンピュータとの組合せを用いて実行されてもよい。
これまでに述べた実施形態は、本発明の原理を単に例示したものである。本明細書に記述されている装置及び詳細の、変更及び変形は、当業者である他の者には明らかとなることは理解されよう。したがって、意図するところは、本発明は添付の特許請求の範囲によってのみ限定されるべきものであり、本明細書における実施形態の記述及び説明によって提示された特有の詳細によって限定されるものではないということである。

Claims (37)

  1. 入力されたオーディオ情報(110;210)に基づいて、符号化されたオーディオ情報(112;212)を生成するためのオーディオエンコーダ(100;200)であって、
    低周波数部分の符号化表現(122;222)を得るために、前記入力されたオーディオ情報の低周波数部分を符号化するように構成された低周波数エンコーダ(120;220)と、
    前記入力されたオーディオ情報に基づいて帯域幅拡張情報(132;232)を生成するように構成された帯域幅拡張情報プロバイダ(130;230)と、を備え、
    該オーディオエンコーダは、帯域幅拡張情報を、選択的に、前記符号化されたオーディオ情報へ信号に適応して包含するように構成されており、
    該オーディオエンコーダは、前記入力されたオーディオ情報の部分のうち帯域幅拡張パラメータが前記低周波数部分に基づいては十分な又は所望される精度で推定され得ない部分を識別するように構成された検出器(240)を備え、かつ、
    該オーディオエンコーダは、前記入力されたオーディオ情報の部分のうち前記検出器によって識別された部分に関して、帯域幅拡張情報を選択的に、前記符号化されたオーディオ情報へ包含するように構成されているオーディオエンコーダ(100;200)。
  2. 該オーディオエンコーダは、前記入力されたオーディオ情報の部分のうち十分な又は所望される品質で復号され得ない部分を、前記低周波数部分の前記符号化表現に基づいて、かつブラインド帯域幅拡張を用いて識別するように構成された検出器(240)を備え、かつ、
    該オーディオエンコーダは、前記入力されたオーディオ情報の部分のうち前記検出器によって識別された部分に関して、帯域幅拡張情報を選択的に前記符号化されたオーディオ情報へ包含するように構成されている請求項1に記載のオーディオエンコーダ(100;200)。
  3. 該オーディオエンコーダは、前記入力されたオーディオ情報の部分を、前記部分が時間的な静止部分であるかどうかに依存して、かつ前記部分が低域通過特性を有するかどうかに依存して識別するように構成された検出器(240)を備え、かつ、
    該オーディオエンコーダは、前記入力されたオーディオ情報の部分のうち前記検出器によって低域通過特性を有する時間的な静止部分として識別された部分に関して、帯域幅拡張情報を前記符号化されたオーディオ情報へ包含することを選択的に省略するように構成されている請求項1又は2に記載のオーディオエンコーダ(100;200)。
  4. 前記検出器は、前記入力されたオーディオ情報の部分を、前記部分が発声音声を含むかどうかに依存して、及び/又は前記部分が環境雑音を含むかどうかに依存して、及び/又は前記部分が打楽器使用のない音楽を含むかどうかに依存して識別するように構成されている請求項3に記載のオーディオエンコーダ(100;200)。
  5. 該オーディオエンコーダは、前記入力されたオーディオ情報の部分を、低周波数部分のスペクトル包絡線と高周波数部分のスペクトル包絡線との差分が予め決められた差分の大きさ以上であるかどうかに依存して識別するように構成された検出器(240)を備え、かつ、
    該オーディオエンコーダは、前記入力されたオーディオ情報の前記検出器によって識別された部分に関して、帯域幅拡張情報を選択的に、前記符号化されたオーディオ情報へ包含するように構成されている請求項1から4のいずれか一項に記載のオーディオエンコーダ(100;200)。
  6. 前記検出器は、前記部分が無声音を含むかどうかに依存して部分を識別するように構成され、及び/又は、前記検出器は、前記部分が打楽器音を含むかどうかに依存して部分を識別するように構成されている請求項5に記載のオーディオエンコーダ(100;200)。
  7. 該オーディオエンコーダは、前記入力されたオーディオ情報の部分のスペクトル傾斜を決定するように、かつ前記入力されたオーディオ情報の部分を、前記決定されたスペクトル傾斜が一定又は可変の傾斜しきい値以上であるかどうかに依存して識別するように構成された検出器(240)を備え、かつ、
    該オーディオエンコーダは、前記入力されたオーディオ情報の前記検出器によって識別された部分に関して、帯域幅拡張情報を選択的に、前記符号化されたオーディオ情報へ包含するように構成されている請求項1から6のいずれか一項に記載のオーディオエンコーダ(100;200)。
  8. 前記検出器は、さらに、前記入力されたオーディオ情報の部分のゼロ交差レートを決定し、かつ前記入力されたオーディオ情報の部分を、前記決定されたゼロ交差レートが一定もしくは可変のゼロ交差レートしきい値以上であるかどうか、又は前記ゼロ交差レートがゼロ交差レートの変化しきい値を超える時間的変化を含むかどうかに依存しても識別するように構成されている請求項7に記載のオーディオエンコーダ(100;200)。
  9. 前記検出器(240)は、識別される信号部分と識別されない信号部分との間の遷移回数を減らすべく、前記入力されたオーディオ情報の信号部分を識別するためにヒステリシスを適用するように構成されている請求項2から8のいずれか一項に記載のオーディオエンコーダ(100;200)。
  10. 該オーディオエンコーダは、前記入力されたオーディオ情報の高周波数部分のスペクトル包絡線を表すパラメータを前記符号化されたオーディオ情報へ信号に適応して前記帯域幅拡張情報として選択的に包含するように構成されている請求項1から9のいずれか一項に記載のオーディオエンコーダ(100;200)。
  11. 前記低周波数エンコーダは、6kHzから7kHzまでの範囲内に存在する最大周波数までの周波数を含む前記入力されたオーディオ情報の低周波数部分を符号化するように構成され、かつ、
    該オーディオエンコーダは、前記符号化されたオーディオ表現へ、300Hzから500Hzまでの間の帯域幅を有する高周波数信号部分の強度を記述する3つから5つまでの間のパラメータを選択的に包含するように構成されている請求項1から10のいずれか一項に記載のオーディオエンコーダ(100;200)。
  12. 該オーディオエンコーダは、前記符号化されたオーディオ表現へ、4つの高周波数信号部分の強度を記述する4つのスカラ量子化されたパラメータを選択的に包含するように構成され、前記高周波数信号部分は、前記低周波数部分より上の周波数範囲を網羅している請求項11に記載のオーディオエンコーダ(100;200)。
  13. 該オーディオエンコーダは、前記符号化されたオーディオ表現へ、スペクトル的に隣接する周波数部分の間のエネルギー又は強度の関係を記述する複数のパラメータを選択的に包含するように構成され、前記パラメータのうちの1つは、第1の帯域幅拡張の高周波数部分と低周波数部分との間のエネルギーもしくは強度の割合、又は差分を記述し、かつ前記パラメータのうちの他のパラメータは、他の帯域幅拡張高周波数部分の間のエネルギーもしくは強度の割合、又は差分を記述する請求項11又は12に記載のオーディオエンコーダ(100;200)。
  14. 符号化されたオーディオ情報(410;510)に基づいて、復号されたオーディオ情報(412;512)を生成するためのオーディオデコーダ(400;500)であって、
    低周波数部分の復号表現(422;522)を得るために、前記低周波数部分の符号化表現を復号するように構成された低周波数デコーダ(420;520)と、
    オーディオコンテンツの部分のうち帯域幅拡張情報が前記符号化されたオーディオ情報に包含されていない部分に関してはブラインド帯域幅拡張を用いて帯域幅拡張信号(432;532)を得るように、かつオーディオコンテンツの部分のうち帯域幅拡張情報が前記符号化されたオーディオ情報に包含されている部分に関してはパラメータ誘導の帯域幅拡張を用いて前記帯域幅拡張信号を得るように構成された帯域幅拡張(430;530)と、を備えており、
    該オーディオデコーダは、ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかを、帯域幅拡張モードを信号伝達するフラグを評価することなく、前記低周波数部分の前記符号化表現に基づいて決定するように構成されているオーディオデコーダ(400;500)。
  15. 該オーディオデコーダは、フレーム毎に、前記帯域幅拡張信号を、ブラインド帯域幅拡張を用いて得るか又はパラメータ誘導の帯域幅拡張を用いて得るかを決定するように構成されている請求項14に記載のオーディオデコーダ(400;500)。
  16. 該オーディオデコーダは、連続したオーディオコンテンツ片内でブラインド帯域幅拡張の使用とパラメータ誘導帯域幅拡張の使用とを切り替えるように構成されている請求項14又は15に記載のオーディオデコーダ(400;500)。
  17. 該オーディオデコーダは、前記オーディオコンテンツの異なる部分について、前記符号化されたオーディオ情報に含まれるフラグを評価し、ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかを決定するように構成されている請求項14から16のいずれか一項に記載のオーディオデコーダ(400;500)。
  18. 該オーディオデコーダは、ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかを、前記低周波数部分の前記復号表現の1つ以上の特徴に基づいて決定するように構成されている請求項14から17のいずれか一項に記載のオーディオデコーダ(400;500)。
  19. 該オーディオデコーダは、ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかを、線形予測係数に基づいて、及び/又は前記低周波数部分の前記復号表現の時間領域統計に基づいて決定するように構成されている請求項14から18のいずれか一項に記載のオーディオデコーダ(400;500)。
  20. 前記帯域幅拡張は、前記帯域幅拡張信号を、前記低周波数部分の前記復号表現の1つ以上の特徴を用いて、及び/又は入力されたオーディオコンテンツの時間的部分のうち帯域幅拡張情報が前記符号化されたオーディオ情報へ包含されない時間的部分に関する前記低周波数デコーダの1つ以上のパラメータを用いて得るように構成されている請求項14から19のいずれか一項に記載のオーディオデコーダ(400;500)。
  21. 前記帯域幅拡張は、前記帯域幅拡張信号を、前記入力されたオーディオコンテンツの時間的部分のうち帯域幅拡張情報が前記符号化されたオーディオ情報へ包含されない時間的部分に関する、スペクトル重心情報を用いて、及び/又はエネルギー情報を用いて、及び/又は傾斜情報を用いて、及び/又はフィルタ係数を用いて得るように構成されている請求項20に記載のオーディオデコーダ(400;500)。
  22. 前記帯域幅拡張は、前記帯域幅拡張信号を、入力されたオーディオコンテンツの時間的部分のうち帯域幅拡張情報が前記符号化されたオーディオ情報へ包含されない時間的部分に関する、スペクトル重心情報を用いて、及び/又はエネルギー情報を用いて、及び/又は傾斜情報を用いて、及び/又はフィルタ係数を用いて得るように構成されている請求項14から19のいずれか一項に記載のオーディオデコーダ(400;500)。
  23. 前記帯域幅拡張は、前記帯域幅拡張信号を、前記オーディオコンテンツの時間的部分のうち帯域幅拡張情報が前記符号化されたオーディオ情報へ包含される時間的部分に関する高周波数部分のスペクトル包絡線を記述するビットストリームパラメータを用いて得るように構成されている請求項14から22のいずれか一項に記載のオーディオデコーダ(400;500)。
  24. 前記帯域幅拡張は、前記帯域幅拡張信号を得るために、300Hzから500Hzまでの間の帯域幅を有する高周波数信号部分の強度を記述する3つから5つまでの間のビットストリームパラメータを評価するように構成されている請求項23に記載のオーディオデコーダ(400;500)。
  25. 高周波数信号部分の強度を記述する前記3つから5つまでの間のビットストリームパラメータは、オーディオフレーム当たり6ビットから15ビットまでの間の帯域幅拡張スペクトル成形パラメータが存在するように、2又は3ビットの分解能でスカラ量子化される請求項24に記載のオーディオデコーダ(400;500)。
  26. 前記帯域幅拡張は、ブラインド帯域幅拡張からパラメータ誘導の帯域幅拡張へ切り替える場合、及び/又はパラメータ誘導の帯域幅拡張からブラインド帯域幅拡張へ切り替える場合に、前記帯域幅拡張信号のエネルギーの平滑化を実行するように構成されている請求項14から25のいずれか一項に記載のオーディオデコーダ(400;500)。
  27. 前記帯域幅拡張は、オーディオコンテンツの部分のうち、ブラインド帯域幅拡張が適用される部分に続いてパラメータ誘導の帯域幅拡張が適用される部分に対して、前記帯域幅拡張信号の高周波数部分を減衰させるように構成され、かつ、
    前記帯域幅拡張は、オーディオコンテンツの部分のうち、パラメータ誘導の帯域幅拡張が適用される部分に続いてブラインド帯域幅拡張が適用される部分に対して、前記帯域幅拡張信号の高周波数部分の減衰を減らすか又はレベルを上げるように構成されている請求項26に記載のオーディオデコーダ(400;500)。
  28. 入力されたオーディオ情報に基づいて符号化されたオーディオ情報を生成するための方法(600)であって、
    低周波数部分の符号化表現を得るために前記入力されたオーディオ情報の前記低周波数部分を符号化するステップ(610)と、
    前記入力されたオーディオ情報に基づいて帯域幅拡張情報を生成するステップ(620)と、を含み、
    帯域幅拡張情報は、選択的に、前記符号化されたオーディオ情報へ信号に適応して包含され、
    該方法は、前記入力されたオーディオ情報の部分のうち帯域幅拡張パラメータが前記低周波数部分に基づいては十分な又は所望される精度で推定され得ない部分を識別するステップを含み、かつ、
    該方法は、前記入力されたオーディオ情報の識別された部分に関して、帯域幅拡張情報を選択的に、前記符号化されたオーディオ情報へ包含するステップを含んでいる方法(600)。
  29. 符号化されたオーディオ情報に基づいて復号されたオーディオ情報を生成するための方法(700)であって、
    低周波数部分の復号表現を得るために前記低周波数部分の符号化表現を復号するステップ(710)と、
    オーディオコンテンツの部分のうち帯域幅拡張パラメータが前記符号化されたオーディオ情報へ包含されていない部分に関してブラインド帯域幅拡張を用いて帯域幅拡張信号を得るステップ(720)と、
    前記オーディオコンテンツの部分のうち帯域幅拡張情報が前記符号化されたオーディオ情報に包含されている部分に関して、パラメータ誘導の帯域幅拡張を用いて前記帯域幅拡張信号を入手するステップ(730)と、を含み、
    該方法は、ブラインド帯域幅拡張を用いるか又はパラメータ誘導の帯域幅拡張を用いるかを、帯域幅拡張モードを信号伝達するフラグを評価することなく、前記低周波数部分の前記符号化表現に基づいて決定するステップを含んでいる方法(700)。
  30. コンピュータプログラムがコンピュータ上で実行されると、請求項28又は29に記載の方法を実行するためのコンピュータプログラム。
  31. 入力されたオーディオ情報(110;210)に基づいて、符号化されたオーディオ情報(112;212)を生成するためのオーディオエンコーダ(100;200)であって、
    低周波数部分の符号化表現(122;222)を得るために、前記入力されたオーディオ情報の低周波数部分を符号化するように構成された低周波数エンコーダ(120;220)と、
    前記入力されたオーディオ情報に基づいて帯域幅拡張情報(132;232)を生成するように構成された帯域幅拡張情報プロバイダ(130;230)と、を備え、
    該オーディオエンコーダは、帯域幅拡張情報を、選択的に、前記符号化されたオーディオ情報へ信号に適応して包含するように構成されており、
    該オーディオエンコーダは、前記入力されたオーディオ情報の部分を、低周波数部分のスペクトル包絡線と高周波数部分のスペクトル包絡線との差分が予め決められた差分の大きさ以上であるかどうかに依存して識別するように構成された検出器(240)を備え、かつ、
    該オーディオエンコーダは、前記入力されたオーディオ情報の前記検出器によって識別された部分に関して、帯域幅拡張情報を選択的に、前記符号化されたオーディオ情報へ包含するように構成されているオーディオエンコーダ(100;200)。
  32. 入力されたオーディオ情報(110;210)に基づいて、符号化されたオーディオ情報(112;212)を生成するためのオーディオエンコーダ(100;200)であって、
    低周波数部分の符号化表現(122;222)を得るために、前記入力されたオーディオ情報の低周波数部分を符号化するように構成された低周波数エンコーダ(120;220)と、
    前記入力されたオーディオ情報に基づいて帯域幅拡張情報(132;232)を生成するように構成された帯域幅拡張情報プロバイダ(130;230)と、を備え、
    該オーディオエンコーダは、帯域幅拡張情報を、選択的に、前記符号化されたオーディオ情報へ信号に適応して包含するように構成されており、
    該オーディオエンコーダは、前記入力されたオーディオ情報の部分のスペクトル傾斜を決定するように、かつ前記入力されたオーディオ情報の部分を、前記決定されたスペクトル傾斜が一定又は可変の傾斜しきい値以上であるかどうかに依存して識別するように構成された検出器(240)を備え、かつ、
    該オーディオエンコーダは、前記入力されたオーディオ情報の前記検出器によって識別された部分に関して、帯域幅拡張情報を選択的に、前記符号化されたオーディオ情報へ包含するように構成されているオーディオエンコーダ(100;200)。
  33. 符号化されたオーディオ情報(410;510)に基づいて、復号されたオーディオ情報(412;512)を生成するためのオーディオデコーダ(400;500)であって、
    低周波数部分の復号表現(422;522)を得るために、前記低周波数部分の符号化表現を復号するように構成された低周波数デコーダ(420;520)と、
    オーディオコンテンツの部分のうち帯域幅拡張情報が前記符号化されたオーディオ情報に包含されていない部分に関してはブラインド帯域幅拡張を用いて帯域幅拡張信号(432;532)を得るように、かつオーディオコンテンツの部分のうち帯域幅拡張報が前記符号化されたオーディオ情報に包含されている部分に関してはパラメータ誘導の帯域幅拡張を用いて前記帯域幅拡張信号を得るように構成された帯域幅拡張(430;530)と、を備えており、
    前記帯域幅拡張は、ブラインド帯域幅拡張からパラメータ誘導の帯域幅拡張へ切り替える場合、及び/又はパラメータ誘導の帯域幅拡張からブラインド帯域幅拡張へ切り替える場合に、前記帯域幅拡張信号のエネルギーの平滑化を実行するように構成されており、
    前記帯域幅拡張は、オーディオコンテンツの部分のうち、ブラインド帯域幅拡張が適用される部分に続いてパラメータ誘導の帯域幅拡張が適用される部分に対して、前記帯域幅拡張信号の高周波数部分を減衰させるように構成され、かつ、
    前記帯域幅拡張は、オーディオコンテンツの部分のうち、パラメータ誘導の帯域幅拡張が適用される部分に続いてブラインド帯域幅拡張が適用される部分に対して、前記帯域幅拡張信号の高周波数部分の減衰を減らすか又はレベルを上げるように構成されているオーディオデコーダ(400;500)。
  34. 入力されたオーディオ情報に基づいて符号化されたオーディオ情報を生成するための方法(600)であって、
    低周波数部分の符号化表現を得るために前記入力されたオーディオ情報の前記低周波数部分を符号化するステップ(610)と、
    前記入力されたオーディオ情報に基づいて帯域幅拡張情報を生成するステップ(620)と、を含み、
    帯域幅拡張情報は、選択的に、前記符号化されたオーディオ情報へ信号に適応して包含され、
    該方法は、前記入力されたオーディオ情報の部分を、低周波数部分のスペクトル包絡線と高周波数部分のスペクトル包絡線との差分が予め決められた差分の大きさ以上であるかどうかに依存して識別するステップを含み、かつ、
    該方法は、前記入力されたオーディオ情報の識別された部分に関して、帯域幅拡張情報を選択的に、前記符号化されたオーディオ情報へ包含するステップを含んでいる方法(600)。
  35. 入力されたオーディオ情報に基づいて符号化されたオーディオ情報を生成するための方法(600)であって、
    低周波数部分の符号化表現を得るために前記入力されたオーディオ情報の前記低周波数部分を符号化するステップ(610)と、
    前記入力されたオーディオ情報に基づいて帯域幅拡張情報を生成するステップ(620)と、を含み、
    帯域幅拡張情報は、選択的に、前記符号化されたオーディオ情報へ信号に適応して包含され、
    該方法は、前記入力されたオーディオ情報の部分のスペクトル傾斜を決定するステップ、及び前記入力されたオーディオ情報の部分を、前記決定されたスペクトル傾斜が一定又は可変の傾斜しきい値以上であるかどうかに依存して識別するステップを含み、かつ、
    該方法は、前記入力されたオーディオ情報の識別された部分に関して、帯域幅拡張情報を選択的に、前記符号化されたオーディオ情報へ包含するステップを含んでいる方法(600)。
  36. 符号化されたオーディオ情報に基づいて復号されたオーディオ情報を生成するための方法(700)であって、
    低周波数部分の復号表現を得るために前記低周波数部分の符号化表現を復号するステップ(710)と、
    オーディオコンテンツの部分のうち帯域幅拡張パラメータが前記符号化されたオーディオ情報へ包含されていない部分に関してブラインド帯域幅拡張を用いて帯域幅拡張信号を得るステップ(720)と、
    前記オーディオコンテンツの部分のうち帯域幅拡張パラメータが前記符号化されたオーディオ情報に包含されている部分に関して、パラメータ誘導の帯域幅拡張を用いて前記帯域幅拡張信号を入手するステップ(730)と、を含み、
    該方法は、ブラインド帯域幅拡張からパラメータ誘導の帯域幅拡張へ切り替える場合、及び/又はパラメータ誘導の帯域幅拡張からブラインド帯域幅拡張へ切り替える場合に、前記帯域幅拡張信号のエネルギーの平滑化を実行するステップを含んでおり、
    該方法は、オーディオコンテンツの部分のうち、ブラインド帯域幅拡張が適用される部分に続いてパラメータ誘導の帯域幅拡張が適用される部分に対して、前記帯域幅拡張信号の高周波数部分を減衰させるステップを含んでおり、かつ、
    該方法は、オーディオコンテンツの部分のうち、パラメータ誘導の帯域幅拡張が適用される部分に続いてブラインド帯域幅拡張が適用される部分に対して、前記帯域幅拡張信号の高周波数部分の減衰を減らすか又はレベルを上げるステップを含んでいる方法(700)。
  37. コンピュータプログラムがコンピュータ上で実行されると、請求項3435又は36に記載の方法を実行するためのコンピュータプログラム。
JP2015555682A 2013-01-29 2014-01-28 オーディオエンコーダ、オーディオデコーダ、符号化されたオーディオ情報を生成する方法、復号されたオーディオ情報を生成する方法、コンピュータプログラム及び信号適応帯域幅拡張を用いる符号化表現 Active JP6239007B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361758205P 2013-01-29 2013-01-29
US61/758,205 2013-01-29
PCT/EP2014/051641 WO2014118185A1 (en) 2013-01-29 2014-01-28 Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension

Publications (2)

Publication Number Publication Date
JP2016509257A JP2016509257A (ja) 2016-03-24
JP6239007B2 true JP6239007B2 (ja) 2017-11-29

Family

ID=50029037

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015555682A Active JP6239007B2 (ja) 2013-01-29 2014-01-28 オーディオエンコーダ、オーディオデコーダ、符号化されたオーディオ情報を生成する方法、復号されたオーディオ情報を生成する方法、コンピュータプログラム及び信号適応帯域幅拡張を用いる符号化表現

Country Status (20)

Country Link
US (1) US9646624B2 (ja)
EP (4) EP2951822B1 (ja)
JP (1) JP6239007B2 (ja)
KR (1) KR101771828B1 (ja)
CN (2) CN105264599B (ja)
AR (2) AR094681A1 (ja)
AU (1) AU2014211479B2 (ja)
BR (1) BR112015017753B1 (ja)
CA (4) CA2898637C (ja)
ES (4) ES2768179T3 (ja)
HK (1) HK1218179A1 (ja)
MX (1) MX347062B (ja)
MY (1) MY185176A (ja)
PL (4) PL3070713T3 (ja)
PT (3) PT3070713T (ja)
RU (1) RU2641461C2 (ja)
SG (1) SG11201505912QA (ja)
TW (1) TWI533288B (ja)
WO (1) WO2014118185A1 (ja)
ZA (1) ZA201506312B (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9886959B2 (en) * 2005-02-11 2018-02-06 Open Invention Network Llc Method and system for low bit rate voice encoding and decoding applicable for any reduced bandwidth requirements including wireless
KR101261677B1 (ko) * 2008-07-14 2013-05-06 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
WO2014118156A1 (en) * 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
TWI693594B (zh) 2015-03-13 2020-05-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
CN106294331B (zh) 2015-05-11 2020-01-21 阿里巴巴集团控股有限公司 音频信息检索方法及装置
EP3288031A1 (en) * 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
GB201620317D0 (en) * 2016-11-30 2017-01-11 Microsoft Technology Licensing Llc Audio signal processing
TWI807562B (zh) 2017-03-23 2023-07-01 瑞典商都比國際公司 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合
EP3382703A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and methods for processing an audio signal
US10650806B2 (en) * 2018-04-23 2020-05-12 Cerence Operating Company System and method for discriminative training of regression deep neural networks
EP3576088A1 (en) 2018-05-30 2019-12-04 Fraunhofer Gesellschaft zur Förderung der Angewand Audio similarity evaluator, audio encoder, methods and computer program
US11570849B2 (en) * 2018-12-06 2023-01-31 Schneider Electric Systems Usa, Inc. Wireless instrument area network node with internal force sensor
WO2020253941A1 (en) * 2019-06-17 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs
KR20210003507A (ko) * 2019-07-02 2021-01-12 한국전자통신연구원 오디오 코딩을 위한 잔차 신호 처리 방법 및 오디오 처리 장치
WO2021261235A1 (ja) * 2020-06-22 2021-12-30 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
CN112019282B (zh) * 2020-08-13 2022-10-28 西安烽火电子科技有限责任公司 一种短波时变信道衰落带宽估计方法
CN112669860B (zh) * 2020-12-29 2022-12-09 北京百瑞互联技术有限公司 一种增加lc3音频编解码有效带宽的方法及装置
CN113035211B (zh) * 2021-03-11 2021-11-16 马上消费金融股份有限公司 音频压缩方法、音频解压缩方法及装置
WO2024080597A1 (ko) * 2022-10-12 2024-04-18 삼성전자주식회사 오디오 비트스트림을 적응적으로 처리하는 전자 장치, 방법, 및 비일시적 컴퓨터 판독가능 저장 매체

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8901032A (nl) 1988-11-10 1990-06-01 Philips Nv Coder om extra informatie op te nemen in een digitaal audiosignaal met een tevoren bepaald formaat, een decoder om deze extra informatie uit dit digitale signaal af te leiden, een inrichting voor het opnemen van een digitaal signaal op een registratiedrager, voorzien van de coder, en een registratiedrager verkregen met deze inrichting.
JPH0758629B2 (ja) * 1989-08-24 1995-06-21 矢崎総業株式会社 端子係止具付コネクタ
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6226616B1 (en) * 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
EP1423847B1 (en) * 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
KR101271069B1 (ko) * 2005-03-30 2013-06-04 돌비 인터네셔널 에이비 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법
JP5129117B2 (ja) * 2005-04-01 2013-01-23 クゥアルコム・インコーポレイテッド 音声信号の高帯域部分を符号化及び復号する方法及び装置
WO2006116025A1 (en) 2005-04-22 2006-11-02 Qualcomm Incorporated Systems, methods, and apparatus for gain factor smoothing
US7610197B2 (en) * 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
US7953605B2 (en) 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
JP5266341B2 (ja) * 2008-03-03 2013-08-21 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
CN102089814B (zh) * 2008-07-11 2012-11-21 弗劳恩霍夫应用研究促进协会 对编码的音频信号进行解码的设备和方法
PL4231290T3 (pl) * 2008-12-15 2024-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder powiększania szerokości pasma audio, powiązany sposób oraz program komputerowy
EP2239732A1 (en) 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
CN101521014B (zh) * 2009-04-08 2011-09-14 武汉大学 音频带宽扩展编解码装置
ES2400661T3 (es) * 2009-06-29 2013-04-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de extensión de ancho de banda
EP2502231B1 (en) * 2009-11-19 2014-06-04 Telefonaktiebolaget L M Ericsson (PUBL) Bandwidth extension of a low band audio signal
US8600737B2 (en) * 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
PL2676264T3 (pl) * 2011-02-14 2015-06-30 Fraunhofer Ges Forschung Koder audio estymujący szum tła podczas faz aktywnych
CN102543086B (zh) * 2011-12-16 2013-08-14 大连理工大学 一种基于音频水印的语音带宽扩展的装置和方法

Also Published As

Publication number Publication date
CA2898637A1 (en) 2014-08-07
EP3054446B1 (en) 2023-08-09
ZA201506312B (en) 2016-12-21
PT3067890T (pt) 2018-03-08
EP3070713B1 (en) 2018-01-17
US9646624B2 (en) 2017-05-09
PL3070713T3 (pl) 2018-07-31
MX2015009682A (es) 2015-11-30
PL2951822T3 (pl) 2020-06-29
PT3070713T (pt) 2018-04-24
PT2951822T (pt) 2020-02-05
CN105264599B (zh) 2019-05-10
MX347062B (es) 2017-04-10
KR20150114979A (ko) 2015-10-13
EP3070713A1 (en) 2016-09-21
PL3067890T3 (pl) 2018-06-29
ES2664185T3 (es) 2018-04-18
CA2985115A1 (en) 2014-08-07
AU2014211479B2 (en) 2017-02-23
WO2014118185A1 (en) 2014-08-07
EP3054446A1 (en) 2016-08-10
ES2659177T3 (es) 2018-03-14
CN105264599A (zh) 2016-01-20
SG11201505912QA (en) 2015-08-28
TW201443883A (zh) 2014-11-16
ES2768179T3 (es) 2020-06-22
CA2985105C (en) 2019-03-12
MY185176A (en) 2021-04-30
CA2985121A1 (en) 2014-08-07
BR112015017753B1 (pt) 2022-05-31
CN110111801B (zh) 2023-11-10
KR101771828B1 (ko) 2017-08-25
CA2985121C (en) 2019-03-12
EP2951822B1 (en) 2019-11-13
BR112015017753A2 (pt) 2018-05-02
JP2016509257A (ja) 2016-03-24
ES2959240T3 (es) 2024-02-22
PL3054446T3 (pl) 2024-02-19
TWI533288B (zh) 2016-05-11
RU2015136792A (ru) 2017-03-10
AR094681A1 (es) 2015-08-19
CN110111801A (zh) 2019-08-09
HK1218179A1 (zh) 2017-02-03
AR115823A2 (es) 2021-03-03
US20150332702A1 (en) 2015-11-19
AU2014211479A1 (en) 2015-09-10
EP3067890B1 (en) 2018-01-03
EP2951822A1 (en) 2015-12-09
CA2898637C (en) 2020-06-16
EP3067890A1 (en) 2016-09-14
CA2985105A1 (en) 2014-08-07
CA2985115C (en) 2019-02-19
RU2641461C2 (ru) 2018-01-17
EP3054446C0 (en) 2023-08-09

Similar Documents

Publication Publication Date Title
JP6239007B2 (ja) オーディオエンコーダ、オーディオデコーダ、符号化されたオーディオ情報を生成する方法、復号されたオーディオ情報を生成する方法、コンピュータプログラム及び信号適応帯域幅拡張を用いる符号化表現
US10373621B2 (en) Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
CA2984066C (en) Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161018

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170106

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20170106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171031

R150 Certificate of patent or registration of utility model

Ref document number: 6239007

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250