JP2014508322A - 帯域拡張方法及び装置 - Google Patents

帯域拡張方法及び装置 Download PDF

Info

Publication number
JP2014508322A
JP2014508322A JP2013553355A JP2013553355A JP2014508322A JP 2014508322 A JP2014508322 A JP 2014508322A JP 2013553355 A JP2013553355 A JP 2013553355A JP 2013553355 A JP2013553355 A JP 2013553355A JP 2014508322 A JP2014508322 A JP 2014508322A
Authority
JP
Japan
Prior art keywords
signal
band
frequency
energy
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013553355A
Other languages
English (en)
Other versions
JP5833675B2 (ja
Inventor
ギュ ヒョク ジョン
ヨン ハン リ
ヒェ ジョン ジョン
ホン クック キム
イン ギュ カン
ラグ ヨン キム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of JP2014508322A publication Critical patent/JP2014508322A/ja
Application granted granted Critical
Publication of JP5833675B2 publication Critical patent/JP5833675B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】音声又はオーディオ信号の信号帯域を拡張する方法及び装置に関する。
【解決手段】本発明による帯域拡張方法は、入力信号をMDCT(Modified Discrete Cosine Transform)して第1の変換信号を生成するステップ、前記第1の変換信号に基づいて第2の変換信号及び第3の変換信号を生成するステップ、前記第1の変換信号、第2の変換信号、第3の変換信号から各々の正規成分及びエネルギー成分を生成するステップ、前記各々の正規信号から拡張正規成分を生成し、前記各々のエネルギー成分から拡張エネルギー成分を生成するステップ、前記拡張正規成分と前記拡張エネルギー成分に基づいて拡張変換信号を生成するステップ、及び前記拡張変換信号をIMDCT(Inverse MDCT)するステップを含む。
【選択図】図5

Description

本発明は、音声信号の符号化及び復号化に関し、より具体的には信号帯域変換技術に関する。
ユビキタス(Ubiquitous)時代の渡来と共にこれに基づいた高品質音声及びオーディオサービスに対する需要が増加している。増加する要求を満たすために、効率的な音声及び/又はオーディオコーデックが要求される実情である。
ネットワークの発達と共に、音声及びオーディオサービスに提供される帯域幅が拡張されることによって、高いビット率では高品質のオーディオを提供し、低いビット率では音声又は中低品質のオーディオを提供するスケーラブル(scalable)音声及びオーディオ符号化/復号化方法が考慮されている。
そのとき、スケーラブル符号化/復号化において、ビット率だけでなく、帯域幅を可変的に提供することによってサービスの品質を向上させ、符号化/復号化の効率を増加させることができる。例えば、入力信号が超広帯域(Super−Wideband:SWB)信号である場合、これに基づいて広帯域(Wideband:WB)信号を再生し、又は入力信号が広帯域信号である場合、これに基づいて超広帯域信号を再生するようにすることによって、サービスの向上を図ることができる。
したがって、広帯域信号から超広帯域信号を生成する方法に対する議論が行われている。
本発明の技術的目的は、オーディオ/音声信号の符号化及び復号化において、効果的な帯域拡張方法及び装置を提供することである。
本発明の技術的目的は、オーディオ/音声信号の符号化及び復号化において、広帯域信号に基づいて超広帯域信号を復元する方法及び装置を提供することである。
本発明の技術的目的は、オーディオ/音声信号の符号化及び復号化において、符号化段からの追加情報送信なく復号化段で帯域拡張を実行する方法及び装置を提供することである。
本発明の技術的目的は、オーディオ/音声信号の符号化及び復号化において、処理帯域の増加にもかかわらず性能劣化が発生しない帯域拡張方法及び装置を提供することである。
本発明の技術的目的は、オーディオ/音声信号の符号化及び復号化において、下位帯域と拡張された上位帯域との間の境界で発生することができる雑音を効果的に防止する帯域拡張方法及び装置を提供することである。
本発明の一実施形態は、帯域拡張方法であって、入力信号をMDCT(Modified Discrete Cosine Transform)して第1の変換信号を生成するステップ、前記第1の変換信号に基づいて第2の変換信号及び第3の変換信号を生成するステップ、前記第1の変換信号、第2の変換信号、第3の変換信号から各々の正規成分及びエネルギー成分を生成するステップ、前記各々の正規信号から拡張正規成分を生成し、前記各々のエネルギー成分から拡張エネルギー成分を生成するステップ、前記拡張正規成分と前記拡張エネルギー成分に基づいて拡張変換信号を生成するステップ、及び前記拡張変換信号をIMDCT(Inverse MDCT)するステップを含む。そのとき、前記第2の変換信号は、前記第1の変換信号を上位の周波数帯域にスペクトル拡張した信号であり、前記第3の変換信号は、前記第1の変換信号を第1の基準周波数帯域に対して反転させた信号である。
具体的に、前記第2の変換信号は、前記第1の変換信号の信号帯域を上位帯域に2倍拡張した信号である。
また、前記第3の変換信号は、前記第1の変換信号の最上段の周波数に対して前記第1の変換信号を反転させた信号であり、前記第3の変換信号は、前記第1の変換信号の最上段の周波数を中心にした重複帯域幅内で定義される。そのとき、前記第3の変換信号は、前記重複帯域幅内で前記第1の変換信号と合成される。
前記第1の変換信号のエネルギー成分は、第1の周波数区間に対する前記第1の変換信号の平均絶対値であり、前記第2の変換信号のエネルギー成分は、第2の周波数区間に対する前記第2の変換信号の平均絶対値であり、前記第3の変換信号のエネルギー成分は、第3の周波数区間に対する前記第3の変換信号の平均絶対値であり、前記第1の周波数区間は、前記第1の変換信号が定義される周波数区間内に存在し、前記第2の周波数区間は、前記第2の変換信号が定義される周波数区間内に存在し、前記第3の周波数区間は、前記第3の変換信号が定義される周波数区間内に存在する。
前記第1乃至第3の周波数区間の大きさは、前記第1乃至第3の変換信号が定義される周波数帯域のうち連続する10個の周波数帯域に該当し、前記第1の変換信号が定義される周波数区間は、前記第1の変換信号が定義される最低周波数帯域から連続する280個の上位の周波数帯域に該当し、前記第2の変換信号が定義される周波数区間は、前記第1の変換信号が定義される最低周波数帯域から連続する560個の上位の周波数帯域に該当する。
そして、前記第3の変換信号が定義される周波数区間は、前記第1の変換信号が定義される最上周波数帯域を中心に連続する140個の周波数帯域に該当する。
一方、前記第1の変換信号の正規信号は、前記第1の変換信号のエネルギー成分に対する前記第1の変換信号であり、前記第2の変換信号の正規信号は、前記第2の変換信号のエネルギー成分に対する前記第2の変換信号であり、前記第3の変換信号の正規信号は、前記第3の変換信号のエネルギー成分に対する前記第3の変換信号である。
また、前記拡張エネルギー成分は、前記第1の変換信号が定義される周波数帯域幅Kの第1のエネルギー区間内で、前記第1の変換信号のエネルギー成分であり、前記第1のエネルギー区間の最上段の周波数帯域から幅K/2の上位区間である第2のエネルギー区間では前記第2の変換信号のエネルギー成分及び前記第3の変換信号のエネルギー成分の重複であり、前記第2のエネルギー区間の最上段の周波数帯域から幅K/2の上位区間である第3のエネルギー区間では前記第2の変換信号のエネルギー成分である。そのとき、前記第2のエネルギー区間の前半では前記第3の変換信号のエネルギー成分に加重値を付加し、前記第2のエネルギー区間の後半では前記第2の変換信号のエネルギー成分に加重値を付加する。
また、前記拡張正規成分は、第2の基準周波数帯域を基準に、前記第2の基準周波数帯域より低い周波数帯域では前記第1の変換信号の正規成分であり、前記第2の基準周波数帯域より高い周波数帯域では前記第2の変換信号の正規成分であり、前記第2の基準周波数帯域は、前記第1の変換信号と前記第2の変換信号との間の相互相関度が最大となる周波数帯域である。
前記拡張正規成分及び拡張エネルギー成分の生成ステップでは、前記拡張エネルギー成分が定義される最上位の周波数帯域で前記拡張エネルギー成分に対するスムージングを実行する。
本発明の他の実施形態は、帯域拡張装置であって、入力信号をMDCT(Modified Discrete Cosine Transform)変換して第1の変換信号を生成する変換部、前記第1の変換信号に基づいて信号を生成する信号生成部、前記第1の変換信号及び前記信号生成部で生成された信号を合成して拡張帯域信号を生成する信号合成部、及び前記拡張帯域信号をIMDCT(Inverse MDCT)変換する逆変換部を含む。前記信号生成部は、前記第1の変換信号を上位の周波数帯域にスペクトル拡張して第2の変換信号を生成し、前記第1の変換信号を第1の基準周波数に対して反転して第3の変換信号を生成し、前記第1乃至第3の変換信号から正規成分とエネルギー成分を抽出し、前記信号合成部は、前記第1の変換信号及び第2の変換信号の正規成分に基づいて拡張正規成分を合成し、前記第1の変換信号乃至第3の変換信号のエネルギー成分に基づいて拡張エネルギー成分を合成し、前記拡張正規成分と前記拡張エネルギー成分に基づいて拡張帯域信号を生成する。
前記第1の変換信号のエネルギー成分は、第1の周波数区間に対する前記第1の変換信号の平均絶対値であり、前記第2の変換信号のエネルギー成分は、第2の周波数区間に対する前記第2の変換信号の平均絶対値であり、前記第3の変換信号のエネルギー成分は、第3の周波数区間に対する前記第3の変換信号の平均絶対値である。
前記第1の変換信号の正規信号は、前記第1の変換信号のエネルギー成分に対する前記第1の変換信号であり、前記第2の変換信号の正規信号は、前記第2の変換信号のエネルギー成分に対する前記第2の変換信号であり、前記第3の変換信号の正規信号は、前記第3の変換信号のエネルギー成分に対する前記第3の変換信号である。
前記拡張エネルギー成分は、前記第1の変換信号が定義される周波数帯域幅Kの第1のエネルギー区間内で、前記第1の変換信号のエネルギー成分であり、前記第1のエネルギー区間の最上段の周波数帯域から幅K/2の上位区間である第2のエネルギー区間では前記第2の変換信号のエネルギー成分及び前記第3の変換信号のエネルギー成分の重複であり、前記第2のエネルギー区間の最上段の周波数帯域から幅K/2の上位区間である第3のエネルギー区間では前記第2の変換信号のエネルギー成分である。
前記第2のエネルギー区間の前半では前記第3の変換信号のエネルギー成分に加重値を付加し、前記第2のエネルギー区間の後半では前記第2の変換信号のエネルギー成分に加重値を付加する。
一方、前記拡張正規成分は、第2の基準周波数帯域を基準に、前記第2の基準周波数帯域より低い周波数帯域では前記第1の変換信号の正規成分であり、前記第2の基準周波数帯域より高い周波数帯域では前記第2の変換信号の正規成分であり、前記第2の基準周波数帯域は、前記第1の変換信号と前記第2の変換信号との間の相互相関度が最大となる周波数帯域である。
本発明によると、オーディオ/音声信号の符号化及び復号化において、効果的に帯域幅を拡張することができる。
本発明によると、オーディオ/音声信号の符号化及び復号化において、入力された広帯域信号の帯域を拡張して超広帯域信号を復元することができる。
本発明によると、オーディオ/音声信号の符号化及び復号化において、符号化段からの追加情報送信なく復号化段で帯域幅を拡張することができる。
本発明によると、オーディオ/音声信号の符号化及び復号化において、処理帯域の増加にもかかわらず性能劣化なく帯域幅を拡張することができる。
本発明によると、オーディオ/音声信号の符号化及び復号化において、下位帯域と拡張された上位帯域との間の境界で発生することができる雑音を効果的に防止することができる。
本発明による音声符号化器に対する構成の一例を概略的に説明する図面である。 本発明の実施例に係る音声復号化器を示す概念図である。 ABE方法によりコードブックベースのスペクトル包絡線予測及び分割帯域励起信号予測が適用される一例を概略的に説明する図面である。 帯域拡張技法に基づいてABEが適用される一例を概略的に説明する図面である。 本発明によって帯域拡張を実行する方法を概略的に説明する順序図である。 本発明による帯域拡張装置で実行する帯域拡張方法の他の例を概略的に説明する順序図である。 本発明によって超広帯域信号のエネルギー成分を合成する方法を概略的に説明する図面である。
以下、図面を参照して本発明の実施形態に対して具体的に説明する。本明細書の実施例を説明するにあたって、関連した公知構成又は機能に対する具体的な説明が本明細書の要旨を不明にすると判断される場合にはその詳細な説明は省略する。
本明細書において、第1の構成要素が第2の構成要素に「連結されている」又は「接続されている」と記載された場合には、第2の構成要素に直接的に連結されている、又は接続されていることもあるが、第3構成要素を媒介して第2の構成要素に連結されている、又は接続されていることもある。
「第1」、「第2」などの用語は、一つの技術的構成を他の技術的構成から区別するために使われることができる。例えば、本発明の技術的思想の範囲内で第1の構成要素と命名された構成要素は、第2の構成要素と命名されて同様な機能を遂行することもできる。
図1は、本発明による音声符号化器に対する構成の一例を概略的に説明する図面である。
図1を参照すると、音声符号化器100は、帯域幅確認部105、サンプリング変換部125、前処理部130、帯域分割部110、線形予測分析部115、135、線形予測量子化部140、150、175、変換部145、逆変換部155、180、ピッチ検出部160、適応(adaptive)コードブック検索部165、固定コードブック検索部170、モード選択部185、帯域予測部190、補償利得予測部195を含むことができる。
帯域幅確認部105は、入力される音声信号の帯域幅情報を判断することができる。音声信号は、帯域幅によって、約4kHzの帯域幅を有してPSTN(Public Switched Telephone Network)で多く使われる狭帯域信号(Narrowband)、約7kHzの帯域幅を有して狭帯域の音声信号より自然な高音質スピーチやAMラジオで多く使われる広帯域信号(Wideband)、及び約14kHzの帯域幅を有して音楽、デジタル放送と共に音質が重要視される分野で多く使われる超広帯域信号(Super wideband)に分類されることができる。帯域幅確認部105では入力された音声信号を周波数領域に変換して現在音声信号の帯域幅が狭帯域信号か、広帯域信号か、超広帯域信号かを判断することができる。帯域幅確認部105は、入力された音声信号を周波数領域に変換し、スペクトラムの上位帯域ビン(bin)の有無及び/又は成分を分析して判別することもできる。帯域幅確認部105は、具現によって入力される音声信号の帯域幅が固定されている場合、別に備えられないこともある。
帯域幅確認部105は、入力された音声信号の帯域幅によって、超広帯域信号は、帯域分割部110に送信し、狭帯域信号又は広帯域信号は、サンプリング変換部125に送信することができる。
帯域分割部110は、入力された信号のサンプリングレートを変換し、上位帯域と下位帯域に分割することができる。例えば、32kHzの音声信号を25.6kHzのサンプリング周波数に変換し、上位帯域と下位帯域に12.8kHzずつ分割することができる。帯域分割部110は、分割された帯域のうち、下位帯域信号を前処理部130に送信し、上位帯域信号を線形予測分析部115に送信する。
サンプリング変換部125は、入力された狭帯域信号又は広帯域信号の入力を受けて一定のサンプリングレートを変更することができる。例えば、入力された狭帯域音声信号のサンプリングレートが8kHzである場合、12.8kHzにアップサンプリングして上位帯域信号を生成することができ、入力された広帯域音声信号が16kHzである場合、12.8kHzにダウンサンプリングを実行して下位帯域信号を生成することができる。サンプリング変換部125は、サンプリング変換された下位帯域信号を出力する。内部サンプリング周波数(internal sampling frequency)は、12.8kHzでない異なるサンプリング周波数を有してもよい。
前処理部130は、サンプリング変換部125及び帯域分割部110で出力された下位帯域信号に対して前処理を実行する。前処理部130では音声パラメータを生成することができる。例えば、ハイパスフィルタリング又はプリエンファシス(Pre−emphasis)フィルタリングのようなフィルタリングを使用して重要領域の周波数成分を抽出することができる。音声帯域幅によって遮断周波数(cutoff frequency)を異なるように設定し、相対的に重要度が少ない情報が集まっている周波数帯域である超低周波数(very low frequency)をハイパスフィルタリングすることで、パラメータ抽出時に必要な重要帯域に集中することができる。他の例として、プリエンファシス(pre−emphasis)フィルタリングを使用して入力信号の高い周波数帯域をブーストすることによって、低周波数領域と高周波数領域のエネルギーをスケーリングすることができる。したがって、線形予測分析時、解像度を増加させることができる。
線形予測分析部115、135は、LPC(Linear Prediction Coefficient)を算出することができる。線形予測分析部115、135では音声信号の周波数スペクトラムの全体形状を示すフォルマント(Formant)をモデリングすることができる。線形予測分析部115、135では元来の音声信号と線形予測分析部135で算出された線形予測係数を利用して生成した予測音声信号との差であるエラー(error)値のMSE(means quare error)が最も小さくなるようにLPC値を算出することができる。LPCを算出する自己相関(autocorrelation)方法又は共分散(covariance)方法など、多様な方法が使われることができる。
線形予測分析部115は、下位帯域信号に対する線形予測分析部135と違って、高い次数のLPCを抽出することができる。
線形予測量子化部120、140では抽出されたLPCを変換してLSP(Linear Spectral Pair)やLSF(Linear Spectral Frequency)のような周波数領域の変換係数を生成し、生成された周波数領域の変換係数を量子化することができる。LPCは、大きい動的範囲(Dynamic Range)を有するため、このようなLPCをそのまま送信する場合、圧縮率が落ちるようになる。したがって、周波数領域に変換し、変換係数を量子化することで、少ない情報量でLPC情報を生成することができる。
線形予測量子化部120、140では量子化されたLPCを逆量子化して時間領域に変換されたLPCを利用して線形予測残余信号を生成することができる。線形予測残余信号は、音声信号で予測されたフォルマント成分が除外された信号であり、ピッチ(pitch)情報とランダム信号を含むことができる。
線形予測量子化部120では量子化されたLPCを利用し、元来の上位帯域信号とのフィルタリングを介して線形予測残余信号を生成する。生成された線形予測残余信号は、上位帯域予測励起信号との補償利得を求めるために補償利得予測部195に送信される。
線形予測量子化部140では量子化されたLPCを利用し、元来の下位帯域信号とのフィルタリングを介して線形予測残余信号を生成する。生成された線形予測残余信号は、変換部145及びピッチ検出部160に入力される。
図1において、変換部145、量子化部150、逆変換部155は、TCX(Transform Coded Excitation)モードを実行するRCXモード実行部として動作することができる。また、ピッチ検出部160、適応コードブック検索部165、固定コードブック検索部170は、CELP(Code Excited Linear Prediction)モードを実行するCELPモード実行部として動作することができる。
変換部145ではDFT(Discrete Fourier Transform)又はFFT(Fast Fourier Transform)のような変換関数に基づいて、入力された線形予測残余信号を周波数ドメインに変換させることができる。変換部145は、変換係数情報を量子化部150に送信することができる。
量子化部150では変換部145で生成された変換係数に対して量子化を実行することができる。量子化部150では多様な方法に量子化を実行することができる。量子化部150は、選択的に周波数帯域によって量子化を実行することができ、また、AbS(Analysis by Synthesis)を利用して最適の周波数組合せを算出することもできる。
逆変換部155は、量子化された情報に基づいて逆変換を実行して時間ドメインで線形予測残余信号の復元された励起信号を生成することができる。
量子化後に逆変換された線形予測残余信号、即ち、復元された励起信号は、線形予測を介して音声信号として復元される。復元された音声信号は、モード選択部185に送信される。このようにTCXモードに復元された音声信号は、後述するCELPモードに量子化され、復元された音声信号と比較されることができる。
一方、CELPモードで、ピッチ検出部160は、自己相関(autocorrelation)方法のようなオープンループ(open−loop)方式を利用して線形予測残余信号に対するピッチを算出することができる。例えば、ピッチ検出部160は、合成された音声信号と実際の音声信号を比較してピッチ周期とピーク値などを算出することができ、そのとき、AbS(Analysis by Synthesis)などの方法を利用することができる。
適応コードブック検索部165は、ピッチ検出部で算出されたピッチ情報に基づいて適応コードブックインデックスとゲインを抽出する。適応コードブック検索部165は、AbSなどを利用して適応コードブックインデックスとゲイン情報に基づいて線形予測残余信号でピッチ構造(pitch structure)を算出することができる。適応コードブック検索部165は、適応コードブックの寄与分、例えば、ピッチ構造に対する情報が除外された線形予測残余信号を固定コードブック検索部170に送信する。
固定コードブック検索部170は、適応コードブック検索部165から受信した線形予測残余信号に基づいて固定コードブックインデックスとゲインを抽出して符号化することができる。
量子化部175は、ピッチ検出部160で出力されたピッチ情報、適応コードブック検索部165で出力された適応コードブックインデックス及びゲイン、そして固定コードブック検索部170で出力された固定コードブックインデックス及びゲインなどのパラメータを量子化する。
逆変換部180は、量子化部175で量子化された情報を利用して復元された線形予測残余信号である励起信号を生成することができる。励起信号に基づいて線形予測の逆過程を介して音声信号を復元することができる。
逆変換部180は、CELPモードに復元された音声信号をモード選択部185に送信する。
モード選択部185ではTCXモードを介して復元されたTCX励起信号とCELPモードを介して復元されたCELP励起信号を比較し、元来の線形予測残余信号と類似の信号を選択することができる。モード選択部185は、選択した励起信号がどのようなモードを介して復元されたかに対する情報も符号化することができる。モード選択部185は、復元された音声信号の選択に対する選択情報と励起信号をビットストリームで帯域予測部190に送信することができる。
帯域予測部190は、モード選択部185で送信された選択情報と復元された励起信号を利用して上位帯域の予測励起信号を生成することができる。
補償利得予測部195は、帯域予測部190で送信された上位帯域予測励起信号と線形予測量子化部120で送信された上位帯域予測残余信号を比較してスペクトラム上のゲインを補償することができる。
一方、図1の例において、各構成部は、各々、別途のモジュールとして動作することもでき、複数の構成部が一つのモジュールを形成して動作することもできる。例えば、量子化部120、140、150、175は、一つのモジュールとして各動作を実行することもでき、量子化部120、140、150、175の各々が別途のモジュールとしてプロセス上必要な位置に備えられることもできる。
図2は、本発明の実施例に係る音声復号化器を示す概念図である。
図2を参照すると、音声復号化器200は、逆量子化部205、210、帯域予測部220、利得補償部225、逆変換部215、線形予測合成部230、235、サンプリング変換部240、帯域合成部250、後処理フィルタリング部245、255を含むことができる。
逆量子化部205、210は、量子化されたパラメータ情報を音声符号化器から受信し、これを逆量子化する。
逆変換部215は、TCXモード又はCELPモードに符号化された音声情報を逆変換して励起信号を復元することができる。逆変換部215は、符号化器から受信したパラメータに基づいて復元された励起信号を生成することができる。そのとき、逆変換部215は、音声符号化器から選択された一部帯域に対してのみ逆変換を実行することもできる。逆変換部215は、復元された励起信号を線形予測合成部235と帯域予測部220に送信することができる。
線形予測合成部235は、逆変換部215から送信された励起信号と音声符号化器から送信された線形予測係数を利用して下位帯域信号を復元することができる。線形予測合成部235は、復元された下位帯域信号をサンプリング変換部240と帯域合成部250に送信することができる。
帯域予測部220は、逆変換部215から受信した復元された励起信号値に基づいて上位帯域の予測励起信号を生成することができる。
利得補償部225は、帯域予測部220から受信した上位帯域予測励起信号と符号化器で送信された補償利得値に基づいて超広帯域音声信号に対するスペクトラム上のゲインを補償することができる。
線形予測合成部230は、補償された上位帯域予測励起信号値を利得補償部225から受信し、補償された上位帯域予測励起信号値と音声符号化器から受信した線形予測係数値に基づいて上位帯域信号を復元することができる。
帯域合成部250は、復元された下位帯域の信号を線形予測合成部235から受信し、復元された上位帯域信号を線形予測合成部235から受信し、受信した上位帯域信号と下位帯域信号に対する帯域合成を実行することができる。
サンプリング変換部240は、内部サンプリング周波数値を再び元来のサンプリング周波数値に変換させることができる。
後処理部245、255では信号復元のために必要な後処理を実行することができる。例えば、後処理部245、255は、前処理部でプリエンファシス(pre−emphasis)フィルタを逆フィルタリングすることができるディエンファシス(de−emphasis)フィルタが含まれることができる。後処理部245、255は、フィルタリングだけでなく、量子化エラーを最小化したり、スペクトラムのハーモニックピークを生かしてバレー(valley)を殺す等、様々な後処理動作を実行することもできる。後処理部245は、復元された狭帯域又は広帯域信号を出力し、後処理部255は、復元された超広帯域信号を出力することができる。
前述したように、図1及び図2で開示した音声符号化器は、本発明で開示された発明が使われる一つの例示として本発明による技術的思想の範囲内で多様な応用が可能である。
一方、効果的な音声及び/又はオーディオサービスを提供するためにスケーラブル(scalable)符号化/復号化方法が考慮されている。
一般的にスケーラブル音声及びオーディオ符号化器/復号化器は、ビット率だけでなく、帯域幅も可変的に提供することができる。例えば、入力される音声/オーディオ信号が超広帯域(Super−Wideband:SWB)である信号である場合には、これに基づいて広帯域(Wideband:WB)信号を再生し、入力される音声/オーディオ信号が広帯域信号である場合には、これに基づいて超広帯域信号を再生する方式に帯域幅を可変的に提供する。
広帯域信号を超広帯域信号に変換する過程は、リサンプリング(re−sampling)過程を介して実行されることができる。
しかし、広帯域信号を超広帯域信号に変換するために単純にアップサンプリング(up−sampling)過程を使用する場合、生成された超広帯域信号は、サンプリングレート(sampling rate)が超広帯域信号のサンプリングレートであるとしても、実際信号が存在する帯域(bandwidth)は、単純に広帯域信号と同じである。結局、アップサンプリングにより情報量(例えば、データレート(data rate))は、増加するようになるが、音質に対しては利得がない。
これと関連し、ビット率(bit rate)の増加なく広帯域信号又は狭帯域信号(Narrowband:NB)から超広帯域信号を復元する方法を人工的帯域拡張(Artificial Bandwidth Extension:ABE、以下「ABE」という)という。
以下、本明細書ではビット率増加なく広帯域信号又は低帯域信号の入力を受けて超広帯域信号に復元する帯域拡張方法、例えば、広帯域−超広帯域(WB−to−SWB)リサンプリング方法に対して具体的に説明する。
本発明ではスケーラブル音声及びオーディオ符号化器の処理領域であるMDCT(Modified Discrete Cosine Transform)領域で広帯域信号の反射帯域情報と予測帯域情報を活用して超広帯域信号を復元する。
初期の音声コーデックの場合、ネットワークの帯域幅とアルゴリズム処理速度の制約のため、低い計算量を有しながら狭帯域を処理するコーデック、例えば、G.711のようなコーデックを主に開発してきた。つまり、複雑で高いビット率を処理する方法を介して良い音質を提供するコーデックより、計算量が低くビット率も低い方法を利用して音声通話に適した音質を提供するための方法を適用してきた。
以後、信号処理技術とネットワークが発達するにつれて、複雑度も高くて音声品質も高いコーデック技術が開発されてきた。例えば、3.4kHz以下の帯域幅のみを考慮した狭帯域音声コーデックと7kHzまでの帯域幅を処理する広帯域音声コーデックなどが開発されてきた。
しかし、前述したように、高品質音声サービスに対する需要が増加することを考慮する時、超広帯域音声信号に対する高品質サービスを提供するために、広帯域音声コーデックに基づいて広帯域以上の帯域幅をサポートすることができるスケーラブルコーデックを使用する方法を考慮することができる。そのとき、広帯域音声コーデックとしてG729.1、G718などを利用することができる。
広帯域音声コーデックに基づいて超広帯域をサポートするスケーラブルコーデックは、多様な場合に利用されることができる。例えば、通話サービスを利用して互いに通話中である二人のユーザのうち、一人のユーザの端末は、広帯域信号のみを処理することができる端末であり、他の一人のユーザの端末は、超広帯域信号を処理することができる端末である場合を仮定する。その場合、二人のユーザ間の通話を維持するために、超広帯域信号を処理することができる端末を利用するユーザに超広帯域信号でない広帯域信号に基づいた音声信号が提供される問題が発生するおそれがある。そのとき、広帯域信号に基づいて超広帯域信号をリサンプリングして復元可能であれば問題を解決することができる。
本発明による音声コーデックは、広帯域信号と超広帯域信号の両方ともを処理することができ、広帯域信号に基づいてリサンプリングを介して超広帯域信号を復元することができる。
現在までリサンプリング技術に使われるABE技術は、一般的に狭帯域信号に基づいて広帯域信号を復元する方式に研究されてきた。
ABE技術は、大きくスペクトル包絡線(Spectral Envelope)予測技術と励起信号(Excitation Signal)予測技術に分けることができる。励起信号は、変調(modulation)等を介して予測されることができる。スペクトル包絡線は、パターン認識技法を利用して予測されることができる。スペクトル包絡線の予測に利用されることができるパターン認識技法として、例えば、GMM(Gauss Mixture Model)、HMM(Hidden Markov Model)などがある。
広帯域(WB)信号を予測するABE方法に対しては音声認識特徴ベクトルを主に使用するMFCC(Mel−Frequency Cepstral Coefficient)やこれを量子化するVQ(Vector Quantization)のインデックスを活用する方法などが研究されてきた。
図3は、ABE方法によりコードブックベースのスペクトル包絡線予測及び分割帯域励起信号予測が適用される一例を概略的に説明する図面である。
図3を参照すると、周波数拡張に対して狭帯域(telephone−band)コードブックに基づいて広帯域コードブックを予測する。同時に、励起信号に対しては低帯域拡張と高帯域拡張を分けて進行した後、合成段で線形予測コーディング(Linear Predictive Coding:LPC)を介してこれを合成する。線形予測コーディングの結果は、周波数拡張の結果と統合される。
一方、図3の例に係る方式は、計算量が多いため、音声符号化器の要素技術として利用しにくい。例えば、処理帯域が増えるにつれて増加した特徴ベクトルのため、性能の劣化が発生しやすい。また、訓練データベースの特性によって性能の偏差が大きくなることができる。このように、図3の例に係る方式をMDCTドメインで処理される超広帯域信号を予測するために適用することは無理がある。
図4は、帯域拡張技法に基づいてABEが適用される一例を概略的に説明する図面である。スペクトル包絡線予測技法及び励起信号予測技法に基づいたABEと図4のABE技法は、既存の帯域拡張技法に基づいて適用される。
図4を参照すると、周波数ドメインでの包絡線情報と共に時間軸を沿って時間ドメインでの包絡線情報を予測する。例えば、高帯域信号の合成に必要なパラメータを予測するために低帯域信号で抽出したMFCCを特徴ベクトルにしてGMMを適用している。
図4の例で説明する方式によると、既存の帯域拡張方法で定義するパラメータのみ予測し、残りの予測に必要な構造は、既存の方法を再使用してABEを実行することができる。
ただし、図4の方法も、汎用性が落ちるという短所が存在する。例えば、励起信号に該当する部分を予め予測して活用するため、相対的に予測しなければならない情報が限定的である。
また、図4の帯域拡張方法は、帯域別特性を無視したままで適用しにくい。即ち、図4の帯域拡張方法は、広帯域への帯域拡張のために開発された方法であるため、広帯域に基づいた超広帯域信号の復元に適用しにくい。特に、この方法は、ベースライン帯域の信号が充実に復元された時、性能が保障される方法であるため、ベースライン帯域の信号が符号化器でのみ復元されることができる場合には所望の効果を得にくい。
したがって、多くの計算量を伴わずにデータベースの特性に大きく左右されず、汎用性を維持することができる帯域拡張技法が考慮される必要がある。
本発明では追加的なビットなしに帯域拡張を実行する。即ち、追加的なビットなしに広帯域入力信号(例えば、16kHzの標本化周波数で入力された信号)を超広帯域信号(32kHzの標本化周波数を有する信号)に出力することができる。
また、本発明による帯域拡張方法は、(移動、無線)通信にも適用されることができ、MDCT変換を除外した追加的な遅延なく帯域拡張が実行されることができる。
本発明による帯域拡張方法は、汎用性を考慮してベースライン(baseline)符号化器/復号化器のフレームと同じ長さのフレームを使用することができる。例えば、ベースライン符号化器にG.718を使用する場合、フレームの長さを20msに設定することができる。その場合、20msは、32kHz信号を基準にする時、640サンプルに該当する。
表1は、本発明による帯域拡張方法を利用する場合の仕様に対する一例を概略的に示す。
Figure 2014508322
図5は、本発明によって帯域拡張を実行する方法を概略的に説明する順序図である。図5の方法では広帯域信号の入力を受けて超広帯域信号を出力するリサンプリング方法を説明している。
図5で説明する各ステップは、符号化器及び/又は復号化器で実行されることができる。図5では説明の便宜のために、各ステップが符号化器及び/又は復号化器内の帯域拡張装置から実行されることを説明する。帯域拡張装置は、復号化器の帯域予測部又は帯域合成部に位置してもよく、別途のユニットに復号化器内に位置してもよい。
また、図5の各ステップは、帯域拡張装置で実行されてもよく、各ステップに対応する機械的ユニットで実行されてもよい。
図5で説明する帯域拡張方法は、大きく四つのステップに分けられることができる。例えば、(1)入力信号をMDCTドメインに変換するステップ、(2)低帯域(広帯域)入力信号を利用して高帯域信号を生成するために、拡張信号及び反転信号を生成するステップ、(3)高帯域信号を生成するために、エネルギー成分と正規化されたスペクトルビン成分を生成するステップ、(4)入力信号の拡張された信号を生成し、これを出力するステップに分けられることができる。
図5を参照すると、帯域拡張装置は、広帯域信号(WB signal)を受信してMDCT(Modified Discrete Cosine Transform)を実行する(S510)。
入力される広帯域信号は、32kHzに標本化されたモノ信号であり、MDCTにより時間/周波数(Time/Frequency:T/F)変換される。ここでは、MDCTを使用することを説明したが、時間/周波数変換を実行する他の変換方法を利用してもよい。
32kHzに標本化される場合、入力信号の一フレームは320サンプルで構成されることができる。MDCTは、重複合算(overlap−and−add)構造を有するため、現在フレームの以前フレームを構成する320サンプルを含む640サンプルで時間/周波数(T/F)変換を実行することができる。
入力信号をMDCT処理し、スペクトルビン、XWB(k)を生成することができる。XWB(k)は、k番目のスペクトルビンを示し、kは、サンプリング周波数又は周波数成分を指示することができる。スペクトルビンは、MDCTを実行して得たMDCT係数と解析されることもある。入力信号が32kHzに標本化された場合、スペクトルビンは320個(1≦k≦320)個が生成されることができる。
320個のスペクトルビンは、0〜8kHzに対応するが、このうち、広帯域(7kHz帯域)に対応する280個のスペクトルビンを利用して帯域拡張を実行することができる。したがって、本発明による帯域拡張の結果として、560個のスペクトルビンで構成された復元信号として超広帯域信号XSWB(k)を生成することができる。
帯域拡張装置は、MDCTにより生成されたスペクトルビンを所定個数ずつサブバンドでグルーピング(grouping)する(S520)。例えば、各サブバンド当たりスペクトルビンの個数を10個に設定することができる。したがって、帯域拡張装置は、入力信号から28個のサブバンドを構成し、これに基づいて56個のサブバンドで構成された出力信号を生成することができる。
帯域拡張装置は、入力信号から構成された28個のサブバンドを拡張及び反転し、拡張バンド信号(extended band signal)XExt(k)と反転バンド信号(reflected band signal)XRef(k)を生成する(S530)。拡張バンド信号は、スペクトル内挿法(spectral interpolation)により生成されることができ、反転バンド信号は、低帯域スペクトルフォールディング(low band spectral folding)により生成されることができる。これに対しては後述する。
Figure 2014508322
帯域拡張装置は、各エネルギー成分GWB(j)、GExt(j)、GRef(j)に基づいて超広帯域信号に対するエネルギー成分GSWB(j)を生成する(S550)。超広帯域信号に対するエネルギー成分を合成して生成する方法に対しては後述する。
Figure 2014508322
帯域拡張装置は、超広帯域信号のエネルギー成分GSWB(j)と超広帯域信号の正規化されたスペクトルビン成分XXXを利用して超広帯域信号XSWB(k)を生成する(S570)。
超広帯域信号XSWB(k)の具体的な生成方法は後述する。
その後、帯域拡張装置は、IMDCT(Inverse MDCT)を実行することで、復元された超広帯域信号を出力する(S580)。
前述したように、帯域拡張装置は、前記各ステップ(S510〜S580)に対応する機械的ユニットを含むことができる。例えば、帯域拡張装置は、MDCT部、グルーピング部、拡張及び反転部、エネルギー抽出及び正規化部、SWBエネルギー生成部、スペクトル係数予測部、SWB信号生成部、IMDCT部を含むことができる。そのとき、各機械的ユニットが実行する動作は、対応する各ステップに対して説明した通りである。
図6は、本発明による帯域拡張装置で実行する帯域拡張方法の他の例を概略的に説明する順序図である。図6の実施例では図5の実施例のように、S500と同様なMDCT実行ステップ(S600)、S510と同様なグルーピングステップ(S610)、S520と同様な拡張及び反転ステップ(S620)、S540に対応するエネルギー抽出/正規化ステップ(S630)、S550に対応するSWB拡張ステップ(S640、S650、S660)、S560と同様なスペクトル係数予測ステップ(S670)、S570と同様なSWB信号生成ステップ(S680)、S580と同様なIMDCTステップ(S690)を含む。
図6の場合には図5の場合と違って、エネルギー抽出/正規化ステップで入力信号のエネルギー成分GWB(j)のみを抽出し、これに基づいて反転バンド信号のエネルギー成分GRef(j)を抽出するステップ(S640)と拡張バンド信号のエネルギー成分GExt(j)を抽出するステップ(S650)は、SWB拡張ステップで実行される。SWB拡張ステップでは生成されたGRef(j)とGExt(j)、そして入力信号のエネルギー成分GWB(j)に基づいて超広帯域信号のエネルギー成分GSWB(j)を生成する(S660)。
図6の場合にも、帯域拡張装置は、前記各ステップ(S600〜S690)に対応する機械的ユニットを含むことができる。例えば、帯域拡張装置は、MDCT部、グルーピング部、拡張及び反転部、エネルギー成分抽出及び正規化部、SWB拡張部(反転バンド信号エネルギー成分抽出部、拡張バンド信号エネルギー成分抽出部、超広帯域信号エネルギー成分生成部)、スペクトル係数予測部、SWB信号生成部、IMDCT部を含むことができる。そのとき、各機械的ユニットが実行する動作は、対応する各ステップに対して説明した通りである。
図5及び図6の各ステップを前述した4個の大きいステップに分けると、(1)入力信号をMDCTドメインに変換するステップにはMDCTステップ(S510、S600)が含まれることができ、(2)低帯域(広帯域)入力信号を利用して高帯域信号を生成するために拡張信号及び反転信号を生成するステップにはグルーピングステップ(S520、S610)と拡張及び反転ステップ(S530、S620)が含まれることができ、(3)高帯域信号を生成するために、エネルギー成分と正規化されたスペクトルビン成分を生成するステップにはエネルギー抽出及び正規化ステップ(S540、S630、S640、S650)、MDCT係数予測ステップ(S560、S670)、高帯域エネルギー合成ステップ(S550、S660)が含まれることができ、(4)入力信号の拡張された信号を生成し、これを出力するステップには超高帯域信号合成ステップ(S570、S680)とIMDCTステップ(S580、S690)が含まれることができる。
図5及び図6に示す構成を有する帯域拡張装置は、復号化器内の独自のモジュールとして動作することができる。また、帯域拡張装置は、復号化器内の帯域予測部又は帯域合成部の一構成として動作することもできる。
一方、レイヤ構造を採用して、符号化器で以前レイヤの信号に基づいて高帯域信号を復元して処理する場合には、符号化器も本発明による帯域拡張装置を含むことができる。
以下、本発明によって拡張バンド信号及び反転バンド信号を構成する方法、エネルギー成分を抽出し、正規化成分を生成する方法、超広帯域信号のエネルギー成分を合成する方法、フェッチインデックスを算出し、これに基づいて超広帯域信号の正規化成分を生成する方法、エネルギー成分に対するスムージングを実行する方法、超広帯域信号を合成する方法に対して説明する。
<拡張バンド信号の構成/反転バンド信号の構成>
本発明による帯域拡張方法では入力信号(広帯域信号)より高帯域の信号を処理して超広帯域信号を出力する。
入力信号が約50Hz〜7kHzの広帯域信号である場合、追加に処理する帯域は、7kHz〜14kHzの7kHz帯域幅になる。そのとき、追加処理する帯域は、ベースライン符号化器として使われる符号化器の処理帯域幅と同じ帯域幅になる。即ち、ベースライン符号化器の処理帯域幅が7kHzである場合、ベースライン符号化器をそのまま使用しながら超広帯域信号を復元するために、7kHzの帯域幅が処理される。
そのとき、低帯域(広帯域)入力信号の帯域拡張のために低帯域信号をフェッチ(fetch)する場合、いくつかの問題が発生することができる。例えば、7kHzの入力信号に対応する1〜280番目のスペクトルビンを7kHz〜14kHzの帯域に対応する281〜560番目のスペクトルビンとして使用するために、フェッチインデックスは280の値を有さなければならず、その場合、フェッチインデックスが固定されることによってフェッチインデックスを多様に選択/算出しにくい。また、ハーモニック性質が強い低帯域成分が7〜8kHzの拡張帯域信号として使われるため、音質劣化が発生する恐れがある。
しかし、このような問題を解決するために低帯域信号の一部を活用しない場合には、7kHzの帯域幅を拡張して超広帯域信号を復元することができない。
したがって、帯域拡張の以前に帯域幅を変化する必要がある。
本発明による帯域拡張方法では、低帯域信号を利用して帯域拡張をする前に、まず、拡張バンド信号(Extended Band Signal)XExt(k)を構成する。これによって、フェッチのための選択(フェッチインデックス選択)の幅を広めることができ、ハーモニック性質が強い低帯域成分を超広帯域信号を生成するためにフェッチする帯域(区間)として処理しなくても7kHzの帯域幅を拡張することができる。
拡張バンド信号XExt(k)は、入力信号XWB(k)のスペクトラムを2倍に増える2倍のスペクトルストレッチングを介して生成することができる。これを数式に表示すると、数式1の通りである。
Figure 2014508322
ここで、Nは、入力信号のサンプリング個数の2倍に該当する個数を指示する。例えば、入力信号XWB(k)でkが1≦k≦280の場合、Nは560である。
一方、数式1を介して帯域拡張をする場合、既存の低帯域信号XWB(k)と拡張された信号XExt(k)との間のエネルギー成分の差と位相成分の差によって最終的に復元された超広帯域信号に雑音が発生することができる。これを解決するために、エネルギーマッチング過程を介して低帯域信号XWB(k)と拡張された信号XExt(k)の境界でエネルギーの差を補償することもできるが、エネルギー補償は、フレーム単位に行われるため、時間/周波数変換解像度の限界を招くようになる。
したがって、本発明では前記雑音が発生することを防止するために、反転バンド信号(Reflected Band Signal)XRef(k)を生成し、反転バンド信号と拡張バンド信号を共に利用して帯域拡張を実行する。
反転バンド信号XRef(k)は、低帯域(広帯域)入力信号を高帯域信号に反転することによって生成することができる。これを数式に表示すると、数式2の通りである。
Figure 2014508322
数式2では入力信号が280個のサンプルで構成された広帯域信号である場合を例として説明している。数式2において、Nwは、反転バンド信号を合成する時に使用する重複合算ウィンドウ(Overlap−and−add Window)の長さを示す。これに対してはエネルギー成分の合成に対する部分で再び説明する。
<エネルギー成分の抽出及び正規化>
本発明による帯域拡張方法では復元しようとする超広帯域信号のエネルギー成分と正規化されたスペクトルビンを互いに独立的な方法により予測する。
まず、各信号からエネルギー成分を抽出する。例えば、低帯域(広帯域)入力信号XWB(k)に対するエネルギー成分GWB(j)を抽出し、拡張バンド信号XExt(k)に対するエネルギー成分GExt(j)を抽出し、反転バンド信号XRef(k)に対するエネルギー成分GRef(j)を抽出する。
各信号に対するサブバンド別エネルギー成分は、該当サブバンド内の信号のゲイン(gain)に対する平均値に抽出されることができる。これを数式に表示すると、数式3の通りである。
Figure 2014508322
数式3において、XXは、WB、Ext、Refのうちいずれか一つである。例えば、低帯域(広帯域)入力信号XWB(k)に対するエネルギー成分である場合、GXX(j)はGWB(j)であり、拡張バンド信号XExt(k)に対するエネルギー成分である場合、GXX(j)はGExt(j)であり、反転バンド信号XRef(k)に対するエネルギー成分である場合、GXX(j)はGRef(j)である。
また、数式3において、Mxxは、各信号に対するサブバンドの個数を示す。例えば、MWBは、低帯域(広帯域)入力信号に属するサブバンドの個数を示し、MExtは、拡張バンド信号に属するサブバンドの個数を示し、MRefは、反転バンド信号に属するサブバンドの個数を示す。本発明の実施例のように、280個のスペクトルビンで構成される入力信号のエネルギー成分GWB(j)に対するMWBは28であり、560個のスペクトルビンで構成される拡張バンド信号のエネルギー成分GExt(j)に対するMExtは56であり、140個のスペクトルビンで構成される反転バンド信号のエネルギー成分GRef(j)に対するMRefは14である。反転バンド信号を構成するスペクトルビンの個数に対しては後述する。
各信号に対するスペクトルビンは、各信号に対するエネルギー成分に基づいて正規化されることができる。例えば、正規化されたスペクトルビンは、エネルギー成分に対するスペクトルビンの比になる。具体的に、正規化されたスペクトルビンは、該当スペクトルビンが属するサブバンド信号のエネルギー成分に対する該当スペクトルビンの比で定義されることができる。これを数式に表示すると、数式4の通りである。
Figure 2014508322
数式4において、KXXは、スペクトルビンの個数を示す。したがって、KXXは、10MXXとなる。例えば、本発明の実施例のように、280個のスペクトルビンで構成される入力信号XWB(k)に対するKWBは280であり、560個のスペクトルビンで構成される拡張バンド信号XExt(k)に対するKExtは560であり、140個のスペクトルビンで構成される反転バンド信号XRef(k)に対するKRefは140である。
したがって、周波数成分に対応する正規化されたスペクトルビンを得ることができる。
<超広帯域信号のエネルギー成分合成>
本発明による帯域拡張方法では、低帯域入力信号XWB(k)に基づいて生成された拡張バンド信号のエネルギー成分GExt(j)及び反転バンド信号のエネルギー成分GRef(j)を利用して超広帯域信号の高帯域エネルギー成分を生成する。
具体的に、本発明では拡張バンド信号のエネルギー成分と反転バンド信号のエネルギー成分を重複加重(Overlap−and−Add)して復元しようとする超広帯域信号において低帯域と高帯域の中間帯域に対するエネルギー成分を生成する。拡張バンド信号のエネルギー成分と反転バンド信号のエネルギー成分を重複合算するときに窓関数を利用することができる。例えば、本発明ではハニングウィンドウイング(Hanning Windowing)を利用して中間帯域に対するエネルギー成分を生成することができる。
また、復元しようとする超広帯域信号の高帯域に対するエネルギー成分を拡張バンド信号を利用して生成することができる。
図7は、本発明によって超広帯域信号のエネルギー成分を合成する方法を概略的に説明する図面である。図7の(a)乃至(d)において、縦軸は、信号のゲイン(gain)又は強度(Intensity:I)を示し、横軸は、信号の帯域、即ち、周波数(frequency:f)を示す。
図7(a)を参照すると、入力された低帯域(広帯域)の信号のエネルギー成分700を高帯域までそのまま拡張する場合、図示されているようなエネルギー成分710を得るようになる。しかし、前述したように、入力信号をそのまま高帯域信号として使用する場合には、音質に問題が発生する恐れがあるだけでなく、ベースライン符号化器/復号化器との汎用性にも問題を引き起こす。
したがって、本発明では図7(b)のように拡張バンド信号のエネルギー成分720を生成し、図7(c)のように反転バンド信号のエネルギー成分730を生成して超高帯域信号のエネルギー成分を復元する。即ち、低帯域(広帯域)入力信号と拡張バンド信号の境界では反転バンド信号を利用して超高帯域信号を復元する。
前述したように、拡張バンド信号は、入力信号をスペクトル内挿法、即ち、スペクトルストレッチングして生成するため、入力信号より小さい傾きを有するようになる。したがって、入力信号の終端部分(k=280である部分とその隣接部分)とは一致しない、又は入力信号の終端部分で相互相関度が低くなることができる。
したがって、入力信号の終端部分では、前述したように、入力信号を反転して生成した反転バンド信号のエネルギー部分に加重値を付与して超高帯域信号のエネルギー成分を復元する。
図7(d)は、入力信号のエネルギー成分、拡張バンド信号のエネルギー成分、及び反転バンド信号のエネルギー成分を利用して合成することを概略的に示している。図7(d)を参照すると、入力信号のエネルギー成分と反転バンド信号のエネルギー成分との連結は、入力信号のエネルギー成分と拡張バンド信号のエネルギー成分との間の連結状態より正確である。
したがって、低帯域信号(入力信号)と高帯域信号との間の中間帯域に対するエネルギー成分は、反転バンド信号のエネルギー成分と拡張バンド信号のエネルギー成分に加重値を付与する方式に合成されることができる。そのとき、中間帯域の長さは、数式2で詳述した重複合算ウィンドウの長さになる。
例えば、中間帯域の下位部分(入力信号に近い部分)に対しては反転バンド信号のエネルギー成分に加重値を付与し、中間帯域の上位部分に対しては拡張バンド信号のエネルギー成分に加重値を付与することができる。そのとき、加重値は、窓関数として付与されることができる。
中間帯域以上の高帯域に対しては拡張バンド信号のエネルギー成分を超高帯域信号のエネルギー成分として利用する。
本発明の一実施例として、低帯域(広帯域)入力信号XWB(k)が28個(0≦j≦27)のサブバンド信号で構成され、所定の帯域(例えば、拡張領域の半分)に対して拡張バンド信号のエネルギー成分と反転バンド信号のエネルギー成分が重複合算されるとする時、復元しようとする超広帯域信号のエネルギー成分は、数式5のように得られることができる。
Figure 2014508322
数式5において、wは、ハニングウィンドウを示し、w(n)は、56個のサンプルで構成されたハニングウィンドウのn番目の値を示す。ハニングウィンドウは、数式2で説明した重複合算ウィンドウの一例ということができる。
そのとき、数式5と違って、入力信号の帯域より上位帯域のみを考慮してハニングウィンドウを適用する場合には、数式6のように示すことができる。そのとき、数式6において、GSWB(j)はGWB(j)の帯域より高い帯域の信号に対するエネルギー成分のみを意味する。
Figure 2014508322
数式6において、w(n)は、28個のサンプルで構成されたハニングウィンドウのn番目の値を示す。
ハニングウィンドウ(Hanning Window)は、連続する信号の所定部分を特定する時、該当部分の始めと終わりから信号の大きさを0に収束するようにする。
数式7は、本発明によって数式5と数式6に適用されることができるハニングウィンドウの一例を示す。
Figure 2014508322
数式7において、ハニングウィンドウの長さは、数式5の中間帯域(28≦j≦41)又は数式6の中間帯域(0≦j≦13)の長さであり、ハニングウィンドウの長さは、数式2で説明した重複合算ウィンドウの長さになる。数式7のハニングウィンドウを数式5に適用する場合、Nの値は、56になることができる。また、数式7のハニングウィンドウを数式6に適用する場合、Nの値は、28になることができる。
以下、数式5を利用して本発明を説明する。数式7を参照する時、数式5の中間帯域(28≦j≦41)の重複合算において、拡張バンド信号のエネルギー成分に対するウィンドウの値は、中間帯域の開始点(j=28)で0になり、反転バンド信号のエネルギー成分に対するウィンドウ値は、中間帯域の終了点(j=41)で0になる。即ち、中間帯域の下位部分(入力信号に近い部分)に対しては反転バンド信号のエネルギー成分に加重値が付与され、中間帯域の上位部分に対しては拡張バンド信号のエネルギー成分に加重値が付与される。
数式5を参照すると、前述したように、本発明による帯域拡張において、超広帯域信号の低帯域部分に対するエネルギー成分では、入力信号(広帯域信号)のエネルギー成分を利用する。
数式6を利用する場合にも前述した方法と同様に本発明を具現することができ、ただし、その場合にはNの値を28にしてハニングウィンドウを適用する。数式6を利用する場合に得られる超広帯域信号のエネルギー成分は、全体超広帯域信号のエネルギー成分で低帯域のエネルギー成分GWB(j)が除外されたものであり、全体超広帯域信号のエネルギー成分は、数式6により得られたGSWB(j)とGWB(j)を共に利用して得ることができるという点に留意する。
<正規化されたスペクトルビンに対するフェッチインデックス(fetchindex)>
本発明による帯域拡張方法では最適のフェッチインデックスを決定するために相互相関度を利用する。
即ち、超広帯域信号の正規化されたスペクトルビン成分は、入力信号(広帯域信号)の正規化されたスペクトルビン成分と拡張バンド信号の正規化されたスペクトルビン成分で構成されることができる。そのとき、拡張バンド信号の正規化されたスペクトルビン成分と復元しようとする超広帯域信号の正規化されたスペクトルビン成分との間の関係をフェッチインデックスを介して設定することができる。
例えば、入力信号に対する正規化されたスペクトルビン成分と最も相関度が高い拡張バンド信号の正規化されたスペクトルビンを決定する。相関度が最も高い拡張バンド信号の正規化されたスペクトルビンは、周波数k値により特定されることができる。したがって、超広帯域信号において、入力信号の帯域以後の高帯域に対する正規化されたスペクトルビンは、相関度が最も高い拡張バンド信号の正規化されたスペクトルビンを特定する周波数を利用して決定されることができる。
以下、相関度が最も高い拡張バンド信号の正規化されたスペクトルビンを特定する周波数、即ち、フェッチインデックスを決定する方法を具体的に説明する。
相互相関度区間と相互相関度インデックスは、互いにトレードオフ(trade−off)の関係にある。相互相関度区間は、相互相関度の算出に利用する区間、即ち、相互相関度を判断する帯域を意味する。相互相関度インデックスは、相互相関度区間内で相互相関度を算出する特定周波数を指示する。相互相関度区間が広くなると、選択可能な相互相関度インデックスの個数は減り、相互相関度区間が狭くなると、選択可能な相互相関度インデックスの個数は増える。
入力信号帯域のうち、低帯域は、強い信号を含んでいるという点を考慮し、エラー発生を避けるために、相互相関度区間は、入力信号の帯域のうち、上位一部帯域に設定されることができる。
本発明による帯域拡張方法では、入力信号である広帯域信号が7kHz帯域の280個サンプルで構成される場合(0≦k≦279である場合)、相互相関度区間と相互相関度インデックス個数の和が140になるように設定してフェッチインデックス(最大相互相関度インデックス)を決定する。
最大相互相関度インデックスは、相互相関度区間内で入力信号の正規化されたスペクトルビン成分と最も相関度が高い拡張バンド信号の正規化されたスペクトルビン成分を特定する周波数を指示する。
本発明による実施例では、説明の便宜のために、相互相関度区間は、80個のサンプルに該当する区間に設定し、相互相関度インデックスiの個数(即ち、サンプルをシフト(shift)しながら相互相関度を測定する場合、シフト回数)は、60に設定する場合を説明する。
その場合、最大相互相関度インデックスmax_indexは、入力信号帯域0≦k≦279のうち2000≦k≦279である区間内で、60個のk値のうち入力信号の正規化されたスペクトルビン成分と拡張バンド信号の正規化されたスペクトルビン成分との間の相関度が最も高まるk値に決定されることができる。
これを数式に表示すると、数式8の通りである。
Figure 2014508322
ここで、CC(x(m)y(n))は、相互相関度関数であり、数式9のように定義される。
Figure 2014508322
前述したように、復元しようとする超広帯域信号の高帯域に対する正規化されたスペクトルビン成分は、最大相互相関度インデックスmax_indexを利用して決定することができる。
例えば、入力信号である広帯域信号が7kHz帯域の280個サンプルで構成される場合、超広帯域信号で280番目のサンプリング周波数以後k番目の周波数成分での正規化されたスペクトルビンは、最大相互相関度インデックスからk番目の周波数成分での拡張バンド信号に対する正規化されたスペクトルビン成分になる。これを数式に表示すると、数式10の通りである。
Figure 2014508322
<エネルギースムージング>
前述したように生成された超広帯域信号のエネルギー成分GSWB(j)は、拡張バンド信号のエネルギー成分GExt(j)と反転バンド信号のエネルギー成分GRef(j)とを合成して生成したため、14kHz帯域の成分が大きく予測される恐れがある。
このような予測エラーに起因して高周波成分に雑音が入ることができる。即ち、超広帯域信号の高帯域が高いゲインを有して縦断される場合は、音質の劣化を招く恐れがある。
したがって、本発明では合成した超広帯域信号のエネルギー成分のうち、高帯域の上側一部エネルギー成分をスムージング(Smoothing)することができる。スムージングは、周波数成分によってエネルギー成分に一定の減殺を付与する。
例えば、高帯域の10個のエネルギー成分に対してスムージングをする場合、超広帯域信号のエネルギー成分は、数式11のようにスムージングされることができる。
Figure 2014508322
<超広帯域(SWB)信号の合成>
本発明による帯域拡張方法では、生成された超広帯域信号のエネルギー成分GSWB(j)と超広帯域信号の正規化されたスペクトルビンに基づいて超広帯域信号を復元することができる。k番目の周波数成分での超広帯域信号は、k番目の周波数成分での超広帯域信号の正規化されたスペクトルビンを時間/周波数変換係数にし、k番目の周波数成分が属するサブバンドjでのエネルギーを有する信号として示すことができる。
これを数式に表示すると、数式12の通りである。
Figure 2014508322
Figure 2014508322
前述した例示的なシステムにおいて、方法は、一連のステップ又はブロックで順序図に基づいて説明されているが、本発明は、ステップの順序に限定されるものではなく、あるステップは前述と異なるステップと異なる順序に又は同時に発生することができる。また、前述した実施例は、多様な態様の例示を含む。したがって、本発明は、特許請求の範囲内に属する全ての交替、修正、及び変更を含む。
以上、本発明に対する説明において、一構成要素が他の構成要素に「連結されている」又は 「接続されている」と言及された場合、前記一構成要素が他の構成要素に直接的に連結されている、又は接続されていることもあるが、前記二つの構成要素の間に他の構成要素が存在することもあると理解されなければならない。反面、一構成要素が他の構成要素に「直接連結されている」又は「直接接続されている」と言及された場合、二つの構成要素の間に他の構成要素が存在しないと理解されなければならない。
一方、前記第1の変換信号の正規信号は、前記第1の変換信号のエネルギー成分に対する前記第1の変換信号の比であり、前記第2の変換信号の正規信号は、前記第2の変換信号のエネルギー成分に対する前記第2の変換信号の比であり、前記第3の変換信号の正規信号は、前記第3の変換信号のエネルギー成分に対する前記第3の変換信号の比である。
前記第1の変換信号の正規信号は、前記第1の変換信号のエネルギー成分に対する前記第1の変換信号の比であり、前記第2の変換信号の正規信号は、前記第2の変換信号のエネルギー成分に対する前記第2の変換信号の比であり、前記第3の変換信号の正規信号は、前記第3の変換信号のエネルギー成分に対する前記第3の変換信号の比である。
図5及び図6の各ステップを前述した4個の大きいステップに分けると、(1)入力信号をMDCTドメインに変換するステップにはMDCTステップ(S510、S600)が含まれることができ、(2)低帯域(広帯域)入力信号を利用して高帯域信号を生成するために拡張信号及び反転信号を生成するステップにはグルーピングステップ(S520、S610)と拡張及び反転ステップ(S530、S620)が含まれることができ、(3)高帯域信号を生成するために、エネルギー成分と正規化されたスペクトルビン成分を生成するステップにはエネルギー抽出及び正規化ステップ(S540、S630、S640、S650)、MDCT係数予測ステップ(S560、S670)、高帯域エネルギー合成ステップ(S550、S660)が含まれることができ、(4)入力信号の拡張された信号を生成し、これを出力するステップには超帯域信号合成ステップ(S570、S680)とIMDCTステップ(S580、S690)が含まれることができる。
したがって、本発明では図7(b)のように拡張バンド信号のエネルギー成分720を生成し、図7(c)のように反転バンド信号のエネルギー成分730を生成して超帯域信号のエネルギー成分を復元する。即ち、低帯域(広帯域)入力信号と拡張バンド信号の境界では反転バンド信号を利用して超帯域信号を復元する。
したがって、入力信号の終端部分では、前述したように、入力信号を反転して生成した反転バンド信号のエネルギー部分に加重値を付与して超帯域信号のエネルギー成分を復元する。
中間帯域以上の高帯域に対しては拡張バンド信号のエネルギー成分を超帯域信号のエネルギー成分として利用する。

Claims (17)

  1. 入力信号をMDCT処理して第1の変換信号を生成するステップと、
    前記第1の変換信号に基づいて第2の変換信号及び第3の変換信号を生成するステップと、
    前記第1の変換信号、第2の変換信号、第3の変換信号から各々の正規成分及びエネルギー成分を生成するステップと、
    前記各々の正規信号から拡張正規成分を生成し、前記各々のエネルギー成分から拡張エネルギー成分を生成するステップと、
    前記拡張正規成分と前記拡張エネルギー成分に基づいて拡張変換信号を生成するステップと、
    前記拡張変換信号をIMDCT処理するステップと、
    を含み、
    前記第2の変換信号は、前記第1の変換信号を上位の周波数帯域にスペクトル拡張した信号であり、
    前記第3の変換信号は、前記第1の変換信号を第1の基準周波数帯域に対して反転させた信号であることを特徴とする帯域拡張方法。
  2. 前記第2の変換信号は、前記第1の変換信号の信号帯域を上位帯域に2倍拡張した信号であることを特徴とする請求項1に記載の帯域拡張方法。
  3. 前記第3の変換信号は、前記第1の変換信号の最上段の周波数に対して前記第1の変換信号を反転させた信号であり、前記第3の変換信号は、前記第1の変換信号の最上段の周波数を中心にした重複帯域幅内で定義されることを特徴とする請求項1に記載の帯域拡張方法。
  4. 前記第3の変換信号は、前記重複帯域幅内で前記第1の変換信号と合成されることを特徴とする請求項3に記載の帯域拡張方法。
  5. 前記第1の変換信号のエネルギー成分は、第1の周波数区間に対する前記第1の変換信号の平均絶対値であり、前記第2の変換信号のエネルギー成分は、第2の周波数区間に対する前記第2の変換信号の平均絶対値であり、前記第3の変換信号のエネルギー成分は、第3の周波数区間に対する前記第3の変換信号の平均絶対値であり、前記第1の周波数区間は、前記第1の変換信号が定義される周波数区間内に存在し、前記第2の周波数区間は、前記第2の変換信号が定義される周波数区間内に存在し、前記第3の周波数区間は、前記第3の変換信号が定義される周波数区間内に存在することを特徴とする請求項1に記載の帯域拡張方法。
  6. 前記第1乃至第3の周波数区間の大きさは、前記第1乃至第3の変換信号が定義される周波数帯域のうち連続する10個の周波数帯域に該当し、前記第1の変換信号が定義される周波数区間は、前記第1の変換信号が定義される最低周波数帯域から連続する280個の上位の周波数帯域に該当し、前記第2の変換信号が定義される周波数区間は、前記第1の変換信号が定義される最低周波数帯域から連続する560個の上位の周波数帯域に該当し、前記第3の変換信号が定義される周波数区間は、前記第1の変換信号が定義される最上周波数帯域を中心に連続する140個の周波数帯域に該当することを特徴とする請求項5に記載の帯域拡張方法。
  7. 前記第1の変換信号の正規信号は、前記第1の変換信号のエネルギー成分に対する前記第1の変換信号であり、前記第2の変換信号の正規信号は、前記第2の変換信号のエネルギー成分に対する前記第2の変換信号であり、前記第3の変換信号の正規信号は、前記第3の変換信号のエネルギー成分に対する前記第3の変換信号であることを特徴とする請求項1に記載の帯域拡張方法。
  8. 前記拡張エネルギー成分は、前記第1の変換信号が定義される周波数帯域幅Kの第1のエネルギー区間内で、前記第1の変換信号のエネルギー成分であり、前記第1のエネルギー区間の最上段の周波数帯域から幅K/2の上位区間である第2のエネルギー区間では前記第2の変換信号のエネルギー成分及び前記第3の変換信号のエネルギー成分の重複であり、前記第2のエネルギー区間の最上段の周波数帯域から幅K/2の上位区間である第3のエネルギー区間では前記第2の変換信号のエネルギー成分であることを特徴とする請求項1に記載の帯域拡張方法。
  9. 前記第2のエネルギー区間の前半では前記第3の変換信号のエネルギー成分に加重値を付加し、前記第2のエネルギー区間の後半では前記第2の変換信号のエネルギー成分に加重値を付加することを特徴とする請求項8に記載の帯域拡張方法。
  10. 前記拡張正規成分は、第2の基準周波数帯域を基準に、前記第2の基準周波数帯域より低い周波数帯域では前記第1の変換信号の正規成分であり、前記第2の基準周波数帯域より高い周波数帯域では前記第2の変換信号の正規成分であり、前記第2の基準周波数帯域は、前記第1の変換信号と前記第2の変換信号との間の相互相関度が最大となる周波数帯域であることを特徴とする請求項1に記載の帯域拡張方法。
  11. 前記拡張正規成分及び拡張エネルギー成分の生成ステップでは、前記拡張エネルギー成分が定義される最上位の周波数帯域で前記拡張エネルギー成分に対するスムージングを実行することを特徴とする請求項1に記載の帯域拡張方法。
  12. 入力信号をMDCT処理して第1の変換信号を生成する変換部、
    前記第1の変換信号に基づいて信号を生成する信号生成部、
    前記第1の変換信号及び前記信号生成部で生成された信号を合成して拡張帯域信号を生成する信号合成部、及び、
    前記拡張帯域信号をIMDCT処理する逆変換部、
    を含み、
    前記信号生成部は、前記第1の変換信号を上位の周波数帯域にスペクトル拡張して第2の変換信号を生成し、
    前記第1の変換信号を第1の基準周波数に対して反転して第3の変換信号を生成し、
    前記第1乃至第3の変換信号から正規成分とエネルギー成分を抽出し、
    前記信号合成部は、
    前記第1の変換信号及び第2の変換信号の正規成分に基づいて拡張正規成分を合成し、
    前記第1の変換信号乃至第3の変換信号のエネルギー成分に基づいて拡張エネルギー成分を合成し、
    前記拡張正規成分と前記拡張エネルギー成分に基づいて拡張帯域信号を生成することを特徴とする帯域拡張装置。
  13. 前記第1の変換信号のエネルギー成分は、第1の周波数区間に対する前記第1の変換信号の平均絶対値であり、前記第2の変換信号のエネルギー成分は、第2の周波数区間に対する前記第2の変換信号の平均絶対値であり、前記第3の変換信号のエネルギー成分は、第3の周波数区間に対する前記第3の変換信号の平均絶対値であることを特徴とする請求項12に記載の帯域拡張装置。
  14. 前記第1の変換信号の正規信号は、前記第1の変換信号のエネルギー成分に対する前記第1の変換信号であり、前記第2の変換信号の正規信号は、前記第2の変換信号のエネルギー成分に対する前記第2の変換信号であり、前記第3の変換信号の正規信号は、前記第3の変換信号のエネルギー成分に対する前記第3の変換信号であることを特徴とする請求項12に記載の帯域拡張装置。
  15. 前記拡張エネルギー成分は、前記第1の変換信号が定義される周波数帯域幅Kの第1のエネルギー区間内で、前記第1の変換信号のエネルギー成分であり、前記第1のエネルギー区間の最上段の周波数帯域から幅K/2の上位区間である第2のエネルギー区間では前記第2の変換信号のエネルギー成分及び前記第3の変換信号のエネルギー成分の重複であり、前記第2のエネルギー区間の最上段の周波数帯域から幅K/2の上位区間である第3のエネルギー区間では前記第2の変換信号のエネルギー成分であることを特徴とする請求項12に記載の帯域拡張装置。
  16. 前記第2のエネルギー区間の前半では前記第3の変換信号のエネルギー成分に加重値を付加し、前記第2のエネルギー区間の後半では前記第2の変換信号のエネルギー成分に加重値を付加することを特徴とする請求項15に記載の帯域拡張装置。
  17. 前記拡張正規成分は、第2の基準周波数帯域を基準に、前記第2の基準周波数帯域より低い周波数帯域では前記第1の変換信号の正規成分であり、前記第2の基準周波数帯域より高い周波数帯域では前記第2の変換信号の正規成分であり、前記第2の基準周波数帯域は、前記第1の変換信号と前記第2の変換信号との間の相互相関度が最大となる周波数帯域であることを特徴とする請求項12に記載の帯域拡張装置。
JP2013553355A 2011-02-08 2012-02-08 帯域拡張方法及び装置 Expired - Fee Related JP5833675B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161440843P 2011-02-08 2011-02-08
US61/440,843 2011-02-08
US201161479405P 2011-04-27 2011-04-27
US61/479,405 2011-04-27
PCT/KR2012/000910 WO2012108680A2 (ko) 2011-02-08 2012-02-08 대역 확장 방법 및 장치

Publications (2)

Publication Number Publication Date
JP2014508322A true JP2014508322A (ja) 2014-04-03
JP5833675B2 JP5833675B2 (ja) 2015-12-16

Family

ID=46639053

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013553355A Expired - Fee Related JP5833675B2 (ja) 2011-02-08 2012-02-08 帯域拡張方法及び装置

Country Status (6)

Country Link
US (1) US9589568B2 (ja)
EP (1) EP2674942B1 (ja)
JP (1) JP5833675B2 (ja)
KR (1) KR20140027091A (ja)
CN (1) CN103460286B (ja)
WO (1) WO2012108680A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016507080A (ja) * 2013-01-29 2016-03-07 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ エネルギー制限演算を用いて周波数増強信号を生成する装置および方法
WO2021172053A1 (ja) * 2020-02-25 2021-09-02 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
CN104217727B (zh) 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
KR102386736B1 (ko) * 2014-03-03 2022-04-14 삼성전자주식회사 대역폭 확장을 위한 고주파 복호화 방법 및 장치
US10410645B2 (en) 2014-03-03 2019-09-10 Samsung Electronics Co., Ltd. Method and apparatus for high frequency decoding for bandwidth extension
SG10201808274UA (en) 2014-03-24 2018-10-30 Samsung Electronics Co Ltd High-band encoding method and device, and high-band decoding method and device
US9729726B2 (en) 2014-12-05 2017-08-08 Facebook, Inc. Seamless codec switching
US9667801B2 (en) 2014-12-05 2017-05-30 Facebook, Inc. Codec selection based on offer
US10506004B2 (en) 2014-12-05 2019-12-10 Facebook, Inc. Advanced comfort noise techniques
US9729287B2 (en) * 2014-12-05 2017-08-08 Facebook, Inc. Codec with variable packet size
US10469630B2 (en) 2014-12-05 2019-11-05 Facebook, Inc. Embedded RTCP packets
US9729601B2 (en) 2014-12-05 2017-08-08 Facebook, Inc. Decoupled audio and video codecs
KR101701623B1 (ko) * 2015-07-09 2017-02-13 라인 가부시키가이샤 VoIP 통화음성 대역폭 감소를 은닉하는 시스템 및 방법
US9837094B2 (en) * 2015-08-18 2017-12-05 Qualcomm Incorporated Signal re-use during bandwidth transition period
JP7392510B2 (ja) 2020-02-19 2023-12-06 中国電力株式会社 門扉用施錠装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010020251A (ja) * 2008-07-14 2010-01-28 Ntt Docomo Inc 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法
JP2010085876A (ja) * 2008-10-02 2010-04-15 Clarion Co Ltd 高域補完装置
US20100198587A1 (en) * 2009-02-04 2010-08-05 Motorola, Inc. Bandwidth Extension Method and Apparatus for a Modified Discrete Cosine Transform Audio Coder
JP2010224321A (ja) * 2009-03-24 2010-10-07 Toshiba Corp 信号処理装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6607136B1 (en) * 1998-09-16 2003-08-19 Beepcard Inc. Physical presence digital authentication system
DE60214027T2 (de) 2001-11-14 2007-02-15 Matsushita Electric Industrial Co., Ltd., Kadoma Kodiervorrichtung und dekodiervorrichtung
US7228271B2 (en) 2001-12-25 2007-06-05 Matsushita Electric Industrial Co., Ltd. Telephone apparatus
JP4281349B2 (ja) * 2001-12-25 2009-06-17 パナソニック株式会社 電話装置
CN1830148B (zh) 2003-07-29 2010-11-24 松下电器产业株式会社 音频信号频带扩展装置
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
JP4627548B2 (ja) 2005-09-08 2011-02-09 パイオニア株式会社 帯域拡張装置、帯域拡張方法および帯域拡張プログラム
WO2010028292A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive frequency prediction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010020251A (ja) * 2008-07-14 2010-01-28 Ntt Docomo Inc 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法
JP2010085876A (ja) * 2008-10-02 2010-04-15 Clarion Co Ltd 高域補完装置
US20100198587A1 (en) * 2009-02-04 2010-08-05 Motorola, Inc. Bandwidth Extension Method and Apparatus for a Modified Discrete Cosine Transform Audio Coder
JP2010224321A (ja) * 2009-03-24 2010-10-07 Toshiba Corp 信号処理装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016507080A (ja) * 2013-01-29 2016-03-07 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ エネルギー制限演算を用いて周波数増強信号を生成する装置および方法
JP2016510429A (ja) * 2013-01-29 2016-04-07 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ サブバンドの時間的平滑化を用いて周波数増強信号を生成する装置および方法
US9552823B2 (en) 2013-01-29 2017-01-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a frequency enhancement signal using an energy limitation operation
US9640189B2 (en) 2013-01-29 2017-05-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a frequency enhanced signal using shaping of the enhancement signal
US9741353B2 (en) 2013-01-29 2017-08-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a frequency enhanced signal using temporal smoothing of subbands
US10354665B2 (en) 2013-01-29 2019-07-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a frequency enhanced signal using temporal smoothing of subbands
WO2021172053A1 (ja) * 2020-02-25 2021-09-02 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
EP2674942B1 (en) 2017-10-25
EP2674942A4 (en) 2014-07-02
US9589568B2 (en) 2017-03-07
CN103460286A (zh) 2013-12-18
WO2012108680A2 (ko) 2012-08-16
US20130317812A1 (en) 2013-11-28
EP2674942A2 (en) 2013-12-18
KR20140027091A (ko) 2014-03-06
CN103460286B (zh) 2015-07-15
JP5833675B2 (ja) 2015-12-16
WO2012108680A3 (ko) 2012-11-22

Similar Documents

Publication Publication Date Title
JP5833675B2 (ja) 帯域拡張方法及び装置
JP6787941B2 (ja) 高周波数帯域幅拡張のための符号化/復号化装置及びその方法
KR101436715B1 (ko) 광대역 스피치 코딩을 위한 시스템들, 방법들, 장치, 및 컴퓨터 프로그램 제품들
US8532983B2 (en) Adaptive frequency prediction for encoding or decoding an audio signal
KR102063900B1 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
US9672835B2 (en) Method and apparatus for classifying audio signals into fast signals and slow signals
US8942988B2 (en) Efficient temporal envelope coding approach by prediction between low band signal and high band signal
JP5597896B2 (ja) 修正離散コサイン変換音声符号化器用の帯域幅拡大方法及び装置
US20100063827A1 (en) Selective Bandwidth Extension
US8380498B2 (en) Temporal envelope coding of energy attack signal by using attack point location
KR20150021034A (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
Kornagel Techniques for artificial bandwidth extension of telephone speech
EP2772911B1 (en) Method and device for quantizing voice signals in a band-selective manner
KR101352608B1 (ko) 음성 신호의 대역폭 확장 방법 및 그 장치

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151029

R150 Certificate of patent or registration of utility model

Ref document number: 5833675

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees