JP2014531623A - 音声信号符号化方法及び音声信号復号方法、並びにそれを利用する装置 - Google Patents

音声信号符号化方法及び音声信号復号方法、並びにそれを利用する装置 Download PDF

Info

Publication number
JP2014531623A
JP2014531623A JP2014533211A JP2014533211A JP2014531623A JP 2014531623 A JP2014531623 A JP 2014531623A JP 2014533211 A JP2014533211 A JP 2014533211A JP 2014533211 A JP2014533211 A JP 2014533211A JP 2014531623 A JP2014531623 A JP 2014531623A
Authority
JP
Japan
Prior art keywords
sine wave
transform coefficient
adjacent
transform
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014533211A
Other languages
English (en)
Other versions
JP5969614B2 (ja
Inventor
ヨンハン リ
ヨンハン リ
キュヒョク チョン
キュヒョク チョン
インギュ カン
インギュ カン
ヒェジョン チョン
ヒェジョン チョン
ラギョン キム
ラギョン キム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of JP2014531623A publication Critical patent/JP2014531623A/ja
Application granted granted Critical
Publication of JP5969614B2 publication Critical patent/JP5969614B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】正弦波モードで音声信号を処理する方法及び装置を提供すること。【解決手段】本発明による音声信号の符号化方法は、入力音声信号を構成する正弦波成分を変換して正弦波成分に対する変換係数を生成するステップと、生成された変換係数のうち符号化対象変換係数を決定するステップと、決定された変換係数を指示する指示情報を送信するステップとを含み、指示情報は、変換係数の位置情報、振幅情報、及び正負符号情報を含むことができる。【選択図】図9

Description

本発明は、音声信号の符号化及び復号に関し、より具体的に、正弦波音声信号の符号化方法及び装置、並びに復号方法及び装置に関する。
一般的に、オーディオ信号には多様な周波数の信号が含まれており、人間の可聴周波数は20Hz〜20kHzであり、それに比べて、人間の音声は約200Hz〜3kHz領域に存在する。入力オーディオ信号は、人間の音声が存在する帯域だけでなく、人間の音声がほとんど存在しない7kHz以上の高周波領域の成分まで含む場合もある。
最近、ネットワークの発達及び高品質サービスに対するユーザ要求が増加している。オーディオ信号は、狭帯域(以下‘NB’という)、広帯域(Wide Band、以下‘WB’という)、超広帯域(Super Wide Band:SWB、以下‘SWB’という)のような広い帯域を介して送信されている。
これと関連し、WB(サンプリング速度が約16kHzまで)の信号に対して、NB(サンプリング速度が約8kHzまで)に適した符号化方式を適用すると、音質の劣化が発生する問題がある。
また、SWB(サンプリング速度が約32kHzまで)の信号に対して、NBに適した符号化方式又はWBに適した符号化方式を適用したときも、音質の劣化が発生する問題がある。
したがって、NBからWB又はSWBに至る多様な帯域、又は多様な帯域間の通信環境を含む多様な環境で使用可能な音声及びオーディオ符号化装置/復号装置に対する開発が進められている。
本発明は、正弦波モードを適用するにあたって、追加のビットを使用せずに量子化雑音を減少させることができる符号化/復号方法及び装置を提供することを目的とする。
本発明は、ビット速度を増加させずに追加情報を送信することによって、正弦波モードで音声信号を処理する方法及び装置を提供することを目的とする。
本発明は、ビットストリーム構造を変化させずに追加情報を送信することによって、符号化効率を上げ、量子化雑音を減少させる方法及び装置を提供することを目的とする。
本発明の一実施形態は、音声信号符号化方法であって、入力音声信号を構成する正弦波成分を変換して正弦波成分に対する変換係数を生成するステップと、生成された変換係数のうち符号化対象変換係数を決定するステップと、決定された変換係数を指示する指示情報を送信するステップと、を含み、指示情報は、変換係数の位置情報、振幅情報、及び正負符号情報を含み、符号化対象変換係数が隣接した変換係数である場合、位置情報は、同じ位置情報を重複指示する。
符号化対象変換係数を決定するステップでは、変換係数の大きさを考慮して最も大きい第1の変換係数及び2番目に大きい第2の変換係数を検索し、第1の変換係数及び第2の変換係数と、第1の変換係数及び第1の変換係数に隣接した変換係数と、第2の変換係数及び第2の変換係数に隣接した変換係数との三つの組合せのうちいずれか一つを符号化対象変換係数として決定する。
このとき、第1の変換係数及び第2の変換係数に対する平均2乗誤差(MSE)と、第1の変換係数及び第1の変換係数に隣接した変換係数に対するMSEと、第2の変換係数及び第2の変換係数に隣接した変換係数に対するMSEとを比較し、MSEが最も小さい変換係数の組合せを符号化対象変換係数として決定する。
又は、第1の変換係数及び第2の変換係数に対する残余係数の和と、第1の変換係数及び第1の変換係数に隣接した変換係数に対する残余係数の和と、第2の変換係数及び第2の変換係数に隣接した変換係数に対する残余係数の和とを比較し、残余係数の和が最も小さい変換係数の組合せを符号化対象変換係数として決定する。
第1の変換係数に隣接した二つの変換係数の正負符号が同じでない場合には、第1の変換係数に隣接した変換係数を符号化対象から除外し、第2の変換係数に隣接した二つの変換係数の正負符号が同じでない場合には、第2の変換係数に隣接した変換係数を符号化対象から除外する。
指示情報送信ステップでは、符号化対象変換係数の正負符号を指示する情報として、1番目の符号化対象変換係数の正負符号を指示する情報を送信する。
第1の変換係数及び第1の変換係数に隣接した変換係数が符号化対象変換係数として決定された場合、位置情報は、第1の変換係数を重複指示し、第2の変換係数及び第2の変換係数に隣接した変換係数が符号化対象変換係数として決定された場合、位置情報は、第2の変換係数を重複指示する。
符号化対象となる正弦波成分は、超広帯域に属する信号である。
本発明の他の実施形態は、音声信号の復号方法であって、音声情報を含むビットストリームを受信するステップと、ビットストリームに含まれている指示情報に基づいて音声信号を構成する正弦波成分に対する変換係数を復元するステップと、復元された変換係数を逆変換し、音声信号を復元するステップとを含む。
変換係数を復元するステップでは、指示情報が同じ位置を重複指示する場合、指示される位置及び指示される位置と隣接する位置に変換係数を復元する。
指示情報は、変換係数に対する位置情報、振幅情報、及び正負符号情報を含み、位置情報は、トラック内で最も大きい第1の変換係数の情報及びトラック内で2番目に大きい第2の変換係数を指示し、又は第1の変換係数の位置を重複指示し、又は第2の変換係数を重複指示する。
位置情報が第1の変換係数を重複指示する場合には、第1の変換係数及び第1の変換係数に隣接した二つの変換係数を復元し、位置情報が第2の変換係数を重複指示する場合には、第1の変換係数及び第1の変換係数に隣接した二つの変換係数を復元する。
位置情報が第1の変換係数を重複指示する場合には、第1の変換係数及び第1の変換係数に隣接した二つの変換係数を同じ大きさで復元し、位置情報が第2の変換係数を重複指示する場合には、第1の変換係数及び第1の変換係数に隣接した二つの変換係数を同じ大きさで復元する。位置情報が第1の変換係数を重複指示する場合には、第1の変換係数及び第1の変換係数に隣接した二つの変換係数を同じ正負符号で復元し、位置情報が第2の変換係数を重複指示する場合には、第1の変換係数及び第1の変換係数に隣接した二つの変換係数を同じ正負符号で復元する。
このとき、復元される音声信号は、超広帯域音声信号である。
本発明によると、正弦波モードを適用するにあたって、追加のビットを使用せずにより効果的な情報を利用して符号化/復号を実行し、量子化雑音を減少させることができる。
本発明によると、ビット速度を増加させずに追加情報を送信して正弦波モードで音声信号を処理することによって、符号化効率を上げ、送信オーバヘッドを減らすことができる。
本発明によると、追加情報を送信することによって、符号化効率を上げ、量子化雑音を減少させる一方で、ビットストリーム構造を維持して後方互換性を有することができる。
本発明によると、高品質の音声及びオーディオ通信送信サービスが可能であり、これを介して多様な付加サービスを創出することができる。
超広帯域信号を帯域拡張方法によって処理する場合に利用できる符号化器構成の一例を概略的に示す図である。 符号化器構成の一例をコア符号化器の構成を中心に説明する図である。 超広帯域信号を帯域拡張方法によって処理する場合に利用できる復号器構成の一例を概略的に示す図である。 復号器構成の一例をコア復号器の構成を中心に説明する図である。 正弦波モードで正弦波を符号化する方法を概略的に説明する図である。 一番目のSWB階層であるレイヤ6での正弦波モードに対するトラック情報の一例を概略的に示す図である。 第1の正弦波及び第2の正弦波を選択する方法を概略的に説明する図である。 本発明によって正弦波モードで送信する情報を決定する方法の一例を概略的に示すフローチャートである。 最大振幅を有する2個の正弦波のうち一つの正弦波にだけ隣接する2個の正弦波の正負符号が各々同じ場合を例として説明する図である。 最も大きい2個の正弦波に隣接する2個の正弦波の正負符号が各々同じ場合に、送信する情報を選択する方法を概略的に説明する図である。 量子化前のMDCT係数の絶対値を利用して送信する情報を決定する方法の一例を概略的に説明するフローチャートである。
以下、図を参照して本発明の実施形態に対して具体的に説明する。本明細書の実施例を説明するにあたって、関連した公知構成又は機能に対する具体的な説明が本明細書の要旨を不明にすると判断される場合にはその詳細な説明は省略する。
一構成要素が他の構成要素に“連結されている”又は“接続されている”と言及された場合、該当他の構成要素に直接的に連結されていること、又は接続されていることを意味するが、中間に他の構成要素が存在してもよいと理解しなければならない。
第1、第2などの用語は、多様な構成要素の説明に使われることがあるが、この構成要素は、上記の用語によって限定されるものではない。上記の用語は、一つの構成要素を他の構成要素と区別する目的にだけ使われる。
本発明の実施例に開示する構成部は、互いに異なる特徴的な機能を示すために独立的に図示されるものであって、各構成部が分離されたハードウェア又は一つのソフトウェア構成単位に構成されることを意味しない。すなわち、各構成部は、説明の便宜上、独立の構成部として配置されているものであり、各構成部のうち少なくとも2個の構成部が統合されて一つの構成部を成し、又は一つの構成部が複数個の構成部に分けられて機能を遂行してもよい。
ネットワークの発達及び高品質サービスに対する要求に応えて、NBからWB又はSWBに至る多様な帯域に対するオーディオ信号処理方法が研究されている。例えば、音声及びオーディオ符号化/復号技術として、符号励起線形予測(CELP)符号化方式、変換符号化方式、帯域及びチャネル拡張方法などが研究されている。
符号化器は、基本符号化器(baseline coder)と強化階層(enhancement layer)とに区分することができる。また、強化階層は、低域強化(Lower Band Enhancement:LBE)階層と、帯域拡張(Bandwidth Extension:BWE)階層と、高域強化(Higher Band Enhancement:HBE)階層と、に分けられる。
LBE階層は、コア符号化器(core encoder)/コア復号器(core decoder)で処理した音源と原音、すなわち励起信号との差信号、を符号化/復号することによって、低域の音質を向上させる。高域信号は低域信号と類似性を有するため、低域を利用した高域拡張方法によって、低いビット速度で高域信号を復元することができる。
高域信号を拡張して符号化し、復号過程を経て復元する方法であって、SWB信号をスケーラブルに拡張して処理する方法を考慮することができる。SWB信号を帯域拡張する方法は、修正離散余弦変換(MDCT)領域で動作することができる。
拡張階層は、一般モード(generic mode)と正弦波モード(sinusoidal mode)とに分けて処理することができる。例えば、3個の拡張階層が利用される場合、1番目の拡張階層は、一般モード及び正弦波モードで処理され、2番目及び3番目の拡張階層は、正弦波モードで処理されるようにすることができる。
本明細書において、「正弦波」(sinusoid)は、正弦波(sine wave)及び正弦波を半波長ほど位相シフトした余弦波(cosine wave)の双方を含む。したがって、本発明において、正弦波は、正弦波を意味することもあるし、余弦波を意味することもある。入力された正弦波が余弦波である場合には、符号化/復号過程で正弦波又は余弦波に変換することもでき、このような変換は、入力信号が経る変換の変換方法に基づく。入力される正弦波が正弦波である場合にも、符号化/復号過程で余弦波又は正弦波に変換することができ、このような変換は、入力信号が経る変換の変換方法に基づく。
一般モードにおいて、符号化は、符号化された広帯域信号副帯域の適応的複製に基づいて行われる。正弦波モードの符号化では、高周波コンテンツに正弦波が追加される。正弦波モードは、周期性が強い信号、すなわちトーン成分がある信号に対する効率的符号化技法として、正弦波成分ごとに正負符号(sign)、振幅、及び位置の情報を符号化することができる。階層ごとに所定個数、例えば、10個のMDCT係数を符号化することができる。
図1は、超広帯域信号を帯域拡張方法によって処理する場合に利用できる符号化器構成の一例を概略的に示す。
図1を参照すると、符号化器100は、ダウンサンプリング部105、コア符号化器110、MDCT部115、調性(tonality)推定部、調性判断部125、SWB符号化部130を含む。SWB符号化部130は、一般モード部135、正弦波モード部140、追加正弦波部145、150を含む。
SWB信号が入力されると、ダウンサンプリング部105は、入力信号をダウンサンプリングしてコア符号化器が処理できるWB信号を生成する。
SWB符号化は、MDCT領域で実行される。コア符号化器110は、WB信号を符号化して合成されたWB信号をMDCTし、MDCT係数を出力する。
MDCT部115は、SWB信号をMDCTし、調性推定部120がMDCTされた信号の調性を推定する。一般モード及び正弦波モードのうちいずれのモードを選択するかは、調性に基づいて判断する。例えば、スケーラブルSWB帯域拡張方法で3個の階層を利用する場合、1番目の階層、すなわち、レイヤ6mo(レイヤ7mo)は、調性推定に基づいて選択することができる。3個の階層のうちレイヤ6moでは、一般モード及び/又は正弦波モードを使うことができ、上位階層(レイヤ7mo、レイヤ8mo)では、正弦波モードを使うことができる。
調性推定は、現在フレームと過去フレームとの間のスペクトルピークの相関分析に基づいて実行することができる。
調性推定部120は、調性推定値を調性判断部125に出力する。
調性判断部125は、MDCT変換された信号が調性(tonal)であるかどうかを調性程度に基づいて判断し、SWB符号化部130に伝達する。例えば、調性判断部125は、調性推定部120から入力された調性推定値を所定の基準値と比較することによって、MDCT変換された信号が調性信号であるか、又は非調性信号であるかを判断する。
図示されているように、SWB符号化部130は、MDCTされたSWB信号のMDCT係数を処理する。このとき、SWB符号化部130は、コア符号化器110を経て入力される合成WB信号のMDCT係数を利用して、SWB信号のMDCT係数を処理することができる。
調性判断部125によってMDCT変換された信号が、調性でないと判断された場合には、一般モード部135に信号が伝達され、調性であると判断された場合には、正弦波モード部140に信号が伝達される。
一般モードは、入力フレームが調性でないと判断された場合に利用することができる。低域スペクトラムを直接高周波に転置(transpose)し、原高周波の包絡線に沿うようにパラメータ化する。このとき、パラメータ化は、原高周波数の場合よりも粗く行うことができる。一般モードを適用することによって、高周波コンテンツを低いビット速度で符号化することができる。
例えば、一般モードでは高周波帯域を副帯域(sub−band)に分け、所定の類似性判断基準によって、符号化されて包絡線正規化された広帯域コンテンツの中から最もよく一致するものを選択する。選択されたコンテンツは、スケーリングされた後に合成された高周波コンテンツとして出力される。
正弦波モード部140は、入力されたフレームが調性である場合に利用することができる。正弦波モードでは、正弦波成分の有限集合を高周波(HF)スペクトラムに加えてSWB信号を生成する。このとき、HFスペクトラムは、SW合成信号のMDCT係数を利用して生成される。
追加正弦波部145、150では、一般モードに出力された信号及び正弦波モードで出力された信号に追加正弦波を付加して生成信号を強化する。例えば、追加正弦波部145、150は、追加ビットが割り当てられる場合、送信する追加正弦波(パルス)を決定し、量子化する正弦波モードを拡張して信号を強化する。
一方、図示されているように、コア符号化器110、調性判断部125、一般モード部135、正弦波モード部140、追加正弦波部145、150の出力は、ビットストリームで復号器に送信することができる。
図2は、符号化器構成の一例をコア符号化器の構成を中心に説明する図である。図2を参照すると、符号化器200は、帯域幅確認部205、サンプリング変換部210、MDCT変換部215、コア符号化器220、重要MDCT係数抽出及び量子化部265を含む。
帯域幅確認部205は、入力信号(音声信号)がNB信号であるか、WB信号であるか、SWB信号であるかを判別することができる。NB信号は、サンプリング速度が8kHzであり、WB信号は、サンプリング速度が16kHzであり、SWB信号は、サンプリング速度が32kHzである。
帯域幅確認部205は、入力信号を周波数領域に変換してスペクトラムの上位帯域ビン(bin)の成分及び存否を判別することができる。
符号化器200は、入力信号が固定される場合、例えば、入力信号がNBで固定される場合には帯域幅確認部205を含まなくてもよい。
帯域幅確認部205は、入力信号を判別し、NB又はWB信号をサンプリング変換部210に出力し、SWB信号をサンプリング変換部210又はMDCT変換部215に出力する。
サンプリング変換部210は、入力信号をコア符号化器220に入力されるWB信号に変換するサンプリングを実行する。例えば、サンプリング変換部210は、入力された信号がNB信号である場合には、サンプリング速度が12.8kHzである信号となるようにアップサンプリングし、入力された信号がWB信号である場合には、サンプリング速度が12.8kHzである信号となるようにダウンサンプリングすることによって、12.8kHzの下位帯域信号を作ることができる。入力された信号がSWB信号である場合、サンプリング変換部210は、サンプリング速度が12.8kHzとなるようにダウンサンプリングすることによって、コア符号化器220の入力信号を生成する。
コア符号化器220は、前処理部225、線形予測分析部230、量子化部235、CELPモード実行部240、量子化部245、逆量子化部250、合成及び後処理部255、及びMDCT変換部260を含む。
前処理部225は、コア符号化器220に入力される下位帯域信号のうち、低い周波数成分をフィルタして所望の帯域の信号だけを線形予測分析部に伝達することができる。
線形予測分析部230は、前処理部225で処理された信号から線形予測係数(LPC)を抽出することができる。例えば、線形予測分析部230は、入力された信号から16次線形予測係数を抽出して量子化部235に伝達することができる。
量子化部235は、線形予測分析部230から伝達された線形予測係数を量子化する。下位帯域で量子化された線形予測係数を利用して原下位帯域信号をフィルタすることによって線形予測残余信号(residual)を生成する。
量子化部235で生成された線形予測残余信号は、CELPモード実行部240に入力される。
CELPモード実行部240は、入力された線形予測残余信号のピッチを、自己相関関数を利用して検出する。このとき、1次開ループピッチ検索方法及び1次閉ループピッチ検索方法、合成による分析(AbS)などの方法を利用することができる。
CELPモード実行部240は、検出されたピッチの情報に基づいて適応符号表インデクス及び利得情報を抽出することができる。CELPモード実行部240は、線形予測残余信号から適応符号表の寄与分を除外した残りの成分に基づいて、固定符号表インデクス及び利得を抽出することができる。
CELPモード実行部240は、ピッチ検索、適応符号表検索、固定符号表検索によって抽出した線形予測残余信号に対するパラメータ(ピッチ、適応符号表インデクス及び利得、固定符号表インデクス及び利得)を量子化部245に伝達する。
量子化部245は、CELPモード実行部240から伝達されたパラメータを量子化する。
量子化部245で量子化された線形予測残余信号に対するパラメータは、ビットストリームで出力することができるため、復号器に送信することができる。また、量子化部245で量子化された線形予測残余信号に対するパラメータは、逆量子化部250に伝達することができる。
逆量子化部250は、CELPモードを介して抽出され、量子化されたパラメータを利用して復元された励起信号を生成する。生成された励起信号は、合成及び後処理部255に伝達される。
合成及び後処理部255は、復元された励起信号及び量子化された線形予測係数を合成した後、12.8kHzの合成信号を生成し、アップサンプリングを介して16kHzのWB信号を復元する。
MDCT変換部260は、復元されたWB信号をMDCT方法によって変換する。MDCT変換されたWB信号は、重要MDCT係数抽出及び量子化部265に出力される。
重要MDCT係数抽出及び量子化部265は、図1に示すSWB符号化部に対応する。重要MDCT係数抽出及び量子化部265は、MDCT変換部215からSWBに対するMDCT変換係数の入力を受け、MDCT変換部260から合成されたWBに対するMDCT変換係数の入力を受ける。
重要MDCT係数抽出及び量子化部265は、入力されたMDCT変換係数を利用して量子化する変換係数を抽出する。重要MDCT係数抽出及び量子化部265がMDCT係数を抽出する具体的な内容は、図1のSWB符号化部に対する説明と同様である。
重要MDCT係数抽出及び量子化部265は、抽出したMDCT係数を量子化してビットストリームで出力し、復号器に送信する。
図3は、超広帯域信号を帯域拡張方法によって処理する場合に利用できる復号器構成の一例を概略的に示す。
図3を参照すると、復号器300は、コア復号器305、第1の後処理部310、アップサンプリング部315、SWB復号部320、IMDCT部350、第2の後処理部355、加算部360を含む。SWB復号部320は、一般モード部325、正弦波モード部330、追加正弦波部335、340を含む。
図示されているように、コア復号器305、一般モード部325、正弦波モード部330、追加正弦波部335には、処理する対象情報及び/又は処理のための補助情報をビットストリームから入力することができる。
コア復号器305は、広帯域信号を復号してWB信号を合成する。合成されたWB信号は、第1の後処理部310に入力され、合成されたWB信号のMDCT変換係数は、SWB復号部320に入力される。
第1の後処理部310は、合成されたWB信号を時間領域で改善する。
アップサンプリング部315は、WB信号をアップサンプリングしてSWB信号を構成する。
SWB復号部320は、ビットストリームから入力されたSWB信号のMDCTを復号する。このとき、コア復号器305から入力される合成されたWB信号のMDCT係数を利用することができる。SWB信号の復号は、主にMDCT領域で実行される。
一般モード部325及び正弦波モード部330は、拡張階層の1番目の階層を復号し、上位階層は、追加正弦波部335、340で復号することができる。
SWB復号部320は、SWB符号化部で説明した符号化過程に対応して、符号化過程の逆順に復号過程を実行する。このとき、SWB復号部320は、ビットストリームからの入力情報が調性であるかどうかを判断し、調性である場合には、正弦波モード部330又は正弦波モード部330及び追加正弦波部340で復号過程を実行し、調性でない場合には、一般モード部325又は一般モード部325及び追加正弦波部335で復号過程を実行するようにすることができる。
例えば、一般モード部325は、適応的な副帯域複製によってHF信号を構成する。次に、2個の正弦波成分が1番目のSWB拡張階層のスペクトラムに加えられる。一般モード及び正弦波モードは、正弦波モード符号化のベースとなる類似の強化階層を活用する。
正弦波モード部330は、正弦波成分の有限集合に基づいてHF信号を生成する。追加正弦波部335、340は、上位SWB階層に正弦波を追加し、高域コンテンツの品質を改善する。
IMDCT部350は、逆MDCTを実行して時間領域の信号を出力し、第2の後処理部355は、逆MDCT処理された信号を時間領域で改善する。
加算部360は、コア復号器で復号され、アップサンプリングされたSWB信号とSWB復号部320で出力されたSWB信号とを加算し、復元された信号を出力する。
図4は、復号器構成の一例をコア復号器の構成を中心に説明する図である。図4を参照すると、復号器400は、コア復号器410、後処理/サンプリング変換部450、逆量子化部460、上位MDCT係数生成部470、MDCT逆変換部480、後処理フィルタ部490を含む。
符号化器から送信されたNB信号又はWB信号を含むビットストリームは、コア復号器410に入力される。
コア復号器410は、逆変換部420、線形予測合成部430、MDCT変換部440を含む。
逆変換部420は、CELPモードで符号化された音声情報を逆変換し、符号化器から受信したパラメータに基づいて励起信号を復元することができる。逆変換部420は、復元された励起信号を線形予測合成部430に送信することができる。
線形予測合成部430は、逆変換部420から送信された励起信号と、符号化器から送信された線形予測係数とを利用して、下位帯域信号(NB信号、WB信号等)を復元することができる。
線形予測合成部430で復元された下位帯域信号(12.8kHz)は、NBにダウンサンプリングすることもできるし、又はWBにアップサンプリングすることもできる。WB信号は、後処理/サンプリング変換部450に出力され、又はMDCT変換部440に出力される。
後処理/サンプリング変換部450は、NB信号又はWB信号をアップサンプリングし、SWB信号復元に使用する合成信号を生成することができる。
MDCT変換部440は、復元された下位帯域信号をMDCT変換し、上位MDCT係数生成部470に送信する。
逆量子化部460及び上位MDCT係数生成部470は、図3に示す復号器のSWB復号部に対応する。
逆量子化部460は、ビットストリームを介して量子化されたSWB信号及びパラメータを符号化器から受信し、受信した情報を逆量子化する。
逆量子化されたSWB信号及びパラメータは、上位MDCT係数生成部470に伝達される。
上位MDCT係数生成部470は、コア復号器410から合成されたNB信号又はWB信号に対するMDCT係数を受信し、SWB信号に対するビットストリームから必要なパラメータを受信することによって、逆量子化されたSWB信号に対するMDCT係数を生成する。図3に示すように、上位MDCT係数生成部470は、信号が調性か否かによって一般モード又は正弦波モードを適用することができ、拡張階層の信号に対しては追加正弦波モードを適用することができる。
MDCT逆変換部480は、生成されたMDCT係数に対する逆変換を介して信号を復元する。
後処理フィルタ部490は、復元された信号に対するフィルタを適用することができる。フィルタを介して量子化誤差を減らし、ピークを強調して、谷(valley)を弱める等の後処理を進行することができる。
後処理フィルタ部490を介して復元された信号と後処理/サンプリング変換部450を介して復元された信号とを合成してSWB信号を復元することができる。
帯域拡張方法に対して図1乃至図4で説明したように、SWB入力信号を符号化するためにコア符号化器及び強化階層処理部(SWB符号化部)を経る。SWB信号を復号するためにはコア復号器及び強化階層処理部(SWB復号部)を経る。
SWB入力信号のうちWBに該当する信号情報を符号化するために、SWB信号は、WBに対応するサンプリング速度にダウンサンプリングし、WB符号化器(コア符号化器)で符号化される。
SWB信号の符号化に利用するために、符号化されたWB信号は、合成された後、MDCT変換され、WBに対するMDCT係数をSWB符号化部に入力することができる。SWB入力信号は、MDCT変換後、MDCT係数領域で調性(tonality)の程度によって一般モードと正弦波モードとに分けられて符号化される。符号化効率を上げるために、追加正弦波を利用して強化階層を更に符号化してもよい。
SWB信号のうちWBに該当する信号情報は、WB復号器(コア復号器)で復号される。復号されたWB信号は、合成された後、MDCT変換され、WBに対するMDCT係数をSWB復号部に入力することができる。符号化されたSWB信号は、符号化されたモードに対応して一般モードと正弦波モードとに分けられて復号され、追加正弦波を利用して強化階層を更に復号してもよい。逆変換されたSWB信号及びWB信号は、アップサンプリングなど、追加後処理を経て合成された後、SWB信号に復元することができる。
以下、本発明と関連して正弦波モードに対して説明する。
正弦波モードは、音声信号を構成するすべての正弦波(音声信号を構成する正弦波成分ともいう)を符号化するものではなく、音声信号を構成する正弦波のうちエネルギが大きい正弦波だけを符号化する方式である。したがって、すべての正弦波を符号化するときと違って、正弦波モードにおいては、符号化器は、選択された正弦波の振幅情報、正負符号(sign)情報だけでなく、選択された正弦波の位置情報を符号化して復号器に送信する。
このとき、音声信号を構成する「正弦波(sinusoid)」は、音声信号を構成する各正弦波をMDCT変換して得たMDCT係数(X(k))を意味する。したがって、本明細書において、正弦波モードにおいて正弦波に対する特性を説明するとき、正弦波の振幅は、該当正弦波成分をMDCT変換して得たMDCT係数の振幅(C)、該当正弦波成分の正負符号(sign)、該当正弦波成分の位置(pos)を意味することに留意されたい。正弦波の位置は、周波数領域での位置であって、音声信号を構成する各正弦波を特定する波数(wave number)kであってもよいし、波数(k)に対応するインデクスであってもよい。
本明細書では、説明の便宜のために、音声信号を構成する各正弦波成分のMDCT係数を「正弦波」又は「パルス」と簡単に表示することに留意されたい。したがって、本明細書では、特別な説明がない場合、「正弦波」又は「パルス」は、入力音声信号を構成する各正弦波成分のMDCT係数を意味する。
また、本明細書では、説明の便宜のために、正弦波の位置を該当正弦波の波数で特定して説明する。ただし、これは説明の便宜のためのものに過ぎず、本発明はこれに限定されるものではなく、正弦波の位置として周波数領域で正弦波の位置を特定することができる別の情報を利用する場合にも、本発明の内容は、同一に適用することができる。
正弦波モードは、正弦波の位置情報を送信しなければならないため、すべての正弦波を符号化するには適しないが、少ない個数の正弦波を利用して音質を保証しなければない場合、又は低いビット速度を利用して送信しなければならない場合に効果的である。したがって、帯域拡張技法又は低いビット速度の音声コーデックに活用することができる。
図5は、正弦波モードで正弦波を符号化する方法を概略的に説明する図である。
図5を参照すると、入力された音声信号を構成する正弦波が各正弦波の波数(k)に対応して位置する。
上向き正弦波は、正の値を有するMDCT係数を示し、下向き正弦波は、負の値を有するMDCT係数を意味する。正弦波(MDCT係数)の振幅は、正弦波の長さに対応する。
図5は、位置4に振幅126を有する正の正弦波が位置し、位置74に振幅18を有する負の正弦波が位置する場合を例として説明する。正弦波モードでは、前述したように、正弦波の振幅情報、正負符号情報、及び位置情報を送信する。
二つの最も大きい正弦波を検索して該当情報を符号化する場合を仮定すると、図5の例では、位置4に位置する一番目の正弦波の情報[振幅:126、正負符号:+、位置:4]を符号化し、2番目の正弦波の情報[振幅:74、正負符号:−、位置:18]を符号化することができる。
図6は、一番目のSWB階層であるレイヤ6での正弦波モードに対するトラック情報の一例を概略的に示す。
図6の例では、周波数領域で音声信号を構成する各正弦波(MDCT係数)が各正弦波の波数に対応する位置に表示されている。
トラック0は、280〜342の周波数区間に位置し、位置単位(例えば、波数又は周波数)において間隔2を有する正弦波で構成される。トラック1は、281〜343の周波数区間に位置し、間隔2を有する正弦波で構成される。トラック2は、344〜406の周波数区間に位置し、間隔2を有する正弦波で構成される。トラック3は、345〜407の周波数区間に位置し、間隔2を有する正弦波で構成される。トラック4は、408〜471の周波数区間に位置し、間隔1を有する正弦波で構成される。トラック5は、472〜503の周波数区間に位置し、間隔1を有する正弦波で構成される。
正弦波モードでは、トラック順かつトラック毎に、所定の条件を満たす所定個数の正弦波を検索し、検索された正弦波を量子化する。検索されて量子化される正弦波は、前述したように、該当正弦波のMDCT係数であることに留意されたい。
レイヤ6において、ビット割当てによって、トラック0からトラック3までの4個のトラックでは、各々、2個の正弦波が検索されて量子化され、トラック4及びトラック5では、各々、一つの正弦波が検索されて量子化される。
各トラックでの検索は、トラック内で最も大きい正弦波、すなわち、振幅が最も大きい正弦波をトラック別に割り当てられた個数だけ検索することである。したがって、図5のような例を考慮すると、トラック0、トラック1、トラック2、及びトラック3では、最も大きい2個の正弦波を検索し、トラック4及びトラック5では、最も大きい一つの正弦波を検索する。
一番目のSWB階層であるレイヤ6における正弦波モードは、図1及び図3の正弦波モード部で実行することができる。
正弦波モードは、HF信号で10個のパルス(正弦波)を抽出する方法によって符号化することができる。最初の4個のパルスは、7000〜8600Hzに該当する位置で抽出することができ、次の4個のパルスは、8600〜10200Hz帯域、最後の2個は、10200〜11800Hz帯域及び11800〜12699Hz帯域で各々一つずつ抽出することができる。
検索されたパルスは、量子化することができる。
検索されたパルスの位置、すなわち、最も大きいパルスの位置は、現在階層で求めたオリジナルの信号M32(k)と以前階層で求めたHF合成信号
Figure 2014531623
との差分値を利用して決定することができる。式1は、差分値を決定する方法の一例を示す。
Figure 2014531623
式1において、Mは、MDCT係数の振幅を示し、kは、パルス(正弦波)の位置であって、波数を示す。したがって、M32(k)は、32KHzまでのSWBに対する位置kでのパルス振幅を示す。
レイヤ6の正弦波モードは、HF合成信号が存在しないため、初期値を0に設定することができる。したがって、レイヤ6において、式1を利用して差分値を求める過程は、結局、M32(k)の最大値を求めることである。
D(k)から5個の副帯域に分割し、Dj(k)(ここで、0≦j≦4又は1≦j≦5)を作る。各副帯域のパルス個数は、予め決定されたNj(Nは、整数)値を有する。
表1は、各副帯域別にNj個の最も大きいパルスを探す方法の一例を示す。
Figure 2014531623
表1の例のような整列方法を介して最大値Nを検索し、検索したN値をinput_dataという配列に格納する。
表2は、レイヤ6において、副帯域Dj(k)別に抽出するパルスの個数及び範囲を説明するものである。
Figure 2014531623
表2は、各トラック別に検索によって符号化対象として抽出される正弦波(パルス)の個数、トラックの開始位置(検索の開始位置)、各トラック別パルス位置の間隔サイズ、各トラック別パルスの個数を示す。
各トラック別に抽出されたNj個のパルスは、位置情報posj(l)(l=0,...,Nj)を有しており、位置情報は、各トラックの開始位置に関連している。
抽出されたパルスの振幅cj(l)は、以下のように符号化することができる。
(式2)
j(l)=log(|Dj(posj(l))|)
式2によると、振幅値は符号化されるが、正負符号情報を失う。したがって、パルスの符号値は、次の式3によって別個に符号化することができる。
Figure 2014531623
このとき、Nj=2個である場合には検索された二つのパルスの符号値を全部送信するのではなく、トラック別に一番目のパルスの正負符号値を送信する。他のパルスの正負符号値情報は、1番目のパルスの正負符号値を符号化するとき、表3を利用して導出することができる。
Figure 2014531623
表3において、posj(0)、Sign_sinj(0)、cj(0)は振幅が大きいパルスの位置、正負符号、振幅を示し、posj(1)、Sign_sinj(1)、cj(1)は振幅が小さいパルスの位置、正負符号、振幅を示す。
表3の方法によると、振幅が大きいパルスが、振幅が小さいパルスより周波数軸上で前に位置するときは、二つのパルスの正負符号が同じものとして誘導し、振幅が大きいパルスが、振幅が小さいパルスより周波数軸上で後に位置するときは、二つのパルスの正負符号が異なるものとして誘導することができる。したがって、復号器側では、符号化器が表3の方式によって整列した情報を受信すると、二つのパルスの正負符号を誘導することができる。
レイヤ6の場合は、式1で原信号をターゲット信号にして符号化を実行したが、レイヤ6の上位階層、例えば、レイヤ7又はレイヤ8の場合には、式1に示すように、前の階層の原信号と上位階層の合成信号との間の差をターゲット信号にして符号化が実行される。
レイヤ6の上位階層で実行される符号化の方式も、レイヤ6に対して前述した符号化方法に類似する。
SWB強化階層の1番目の階層であるレイヤ7に対する符号化では、HF(7〜14kHz)信号から更に10個のパルスが抽出される。レイヤ7では、一般モード及び正弦波モードによって符号化する周波数帯域が異なるように設定することができる。
一般モードで出力されるHF信号
Figure 2014531623
は、総計8個の副帯域に分けられ、副帯域ごとにエネルギが計算される。各副帯域は、表2のように、32個のMDCT係数で構成されており、各副帯域でのエネルギ計算方法は、式4の通りである。
Figure 2014531623
式4において、
Figure 2014531623
は、一般モードを経て再合成されたHF信号である。
レイヤ7において、8個の副帯域は、各副帯域別エネルギを互いに比較してエネルギが最も多い副帯域からエネルギの大きさ順に整列される。整列された副帯域のうちエネルギが最も多い5個の副帯域を選択し、副帯域別に5個のパルスをレイヤ6で説明した正弦波符号化方法によって抽出する。このとき、正弦波符号化方法で定義されるトラックの位置は、フレーム別HF信号のエネルギ特徴によって異なる。
正弦波モードで出力されるHF信号
Figure 2014531623
から抽出される総計10個のパルスは、4個を抽出する過程と6個を抽出する過程とを介して抽出される。4個のパルスは、9400〜11000Hz帯域に該当する位置で抽出され、6個のパルスは、11000〜13400Hz帯域に該当する位置で抽出される。
表4は、レイヤ7の正弦波モード(正弦波モードフレーム)におけるトラック別情報を示す。
Figure 2014531623
表4において、レイヤ7の各トラック別に検索によって符号化対象として抽出される正弦波の個数、トラックの開始位置(検索の開始位置)、各トラック別パルス位置の間隔サイズ、各パルスの個数を示す。
一方、レイヤ8では更に20個のパルスを抽出し、レイヤ7と同様にレイヤ6のモードに少しの差異を付加する。
一般モード(一般モードフレーム)では、10個ずつのパルスを抽出する二つの互いに異なる過程が実行される。
一番目の10個のパルスのうち6個のパルスは、3個のトラックからトラック当たり2個ずつ抽出され、パルスが抽出される帯域は、9750〜12150Hzである。一番目の10個のパルスのうち残った4個のパルスは、2個のトラックから2個ずつ抽出され、パルスが抽出される帯域は、12150〜13750Hzである。
20個のパルスのうち残った10個のパルスの抽出方法も類似する。10個のパルスのうち初めの6個のパルスは、3個のトラックからトラック当たり2個ずつ抽出され、パルスが抽出される帯域は、8600〜11000Hzである。残った4個のパルスは、2個のトラックから2個ずつ抽出され、パルスが抽出される帯域は、11000〜12600Hzである。
表5は、レイヤ8の一般モードフレームで正弦波トラック構造の例を説明するものである。
Figure 2014531623
表6は、レイヤ8の正弦波モードフレームで20個のパルスのうち1番目の10個のパルスを抽出する第1の集合に対する正弦波トラック構造の例を示す。
Figure 2014531623
表7は、レイヤ8の正弦波モードフレームで20個のパルスのうち2番目の10個のパルスを抽出する第2の集合に対する正弦波トラック構造の例を示す。
Figure 2014531623
前述した正弦波トラック構造に対する例を示す表を参照すると、1トラック当たり2個の正弦波を符号化することが一般的である。例えば、レイヤ7に対する表4の例では、5個のトラックのトラックごとに2個の正弦波を符号化するために1正弦波当たり32個の位置、すなわち、5ビットが割り当てられている。5ビットを使用する場合、すべての位置情報が25=32個の探索空間で表現されるため、位置情報以外に追加の情報を送信することは困難である。
既存の正弦波モードでは32個の探索空間に対して2個のインデクスを送信し、このために5ビットを使用する。すなわち、正弦波モードでは、第1の正弦波の検出から、絶対値が最も大きい正弦波である第1の正弦波の位置情報、正負符号情報、及び振幅情報を抽出した後、絶対値が2番目に大きい正弦波である第2の正弦波を検索して位置情報、正負符号情報、及び振幅情報を抽出する。第2の正弦波を検出する時、検出された第1の正弦波が再検出されないように第1の正弦波の振幅を0に設定する。
第2の正弦波を検出するとき、第1の正弦波の振幅を0に設定するため、第2の正弦波を検出するステップで第1の正弦波の位置と同じ位置が選択されない。
図7は、第1の正弦波及び第2の正弦波を選択する方法を概略的に説明する図である。図7の例では、位置4に存在するパルスの振幅が最も大きい126である。したがって、第1の正弦波として位置4のパルスが検索されて、位置、正負符号、及び振幅の情報が抽出される。
第2の正弦波を検出するとき、既に検出された第1の正弦波の振幅を0に設定しない場合、第2の正弦波として位置4のパルスが再検索されることができるため、正弦波モードでは第1の正弦波の振幅を0に設定して第2の正弦波を検索する。
したがって、各パルスの位置に5ビットを使用して二つのパルスの位置を表示することができる組合せの数は25×25=1024個であるが、正弦波モードでは第2の正弦波の検索において使われない場合の数が存在するため、実際正弦波モードで使用可能な組合せの数は25×(25−1)=992個である。
結局、10ビットを使用するが、使用しない場合の数32個が存在する。すなわち、図7の例において、第1の正弦波を検索するステップでも位置4の正弦波を選択する場合、及び第2の正弦波を検索するステップでも位置4の正弦波を選択する場合が使用されていないが、送信ビットに割り当てられた場合の数としては存在する。
したがって、使用はしないが、存在はする場合を、音声信号の特徴をよく表す新たな正弦波の組合せを指示するために定義し、新たに定義された正弦波組合せを指示する情報を送信することができる。
例えば、2個の正弦波の位置を指示する送信情報が同じ位置を第1の正弦波の位置を重複指示する場合、又は第2の正弦波の位置を重複指示する場合には重複指示される正弦波及び重複指示された正弦波に隣接する正弦波を指示すると定義することができる。図7の例において、正弦波の位置を指示する情報が位置4を重複して指示する場合には、位置4の正弦波及び位置5の正弦波を指示すると定義することができる。
この場合、指示する正弦波と共に、指示する正弦波の前後に隣接する2個の正弦波が符号化対象正弦波として抽出されたものであると定義することができ、送信される情報は、(1)重複指示する正弦波、及び(2)隣接する2個の正弦波のうちいずれか一つである。受信する復号器側では、送信された情報のうち隣接する正弦波に対する情報は、重複指示された正弦波位置の前後で同じであると解釈して該当正弦波を復元することができる。
例えば、復号器は、2個の正弦波(パルス)の位置を指示する位置インデクスが同じインデクスである場合、すなわち、二つの位置インデクスが全部15である場合、位置インデクス15の正弦波と共に、位置インデクス14又は位置インデクス16の正弦波が符号化対象正弦波として抽出されたものであると判断することができる。したがって、復号器は、送信された情報に基づいて位置インデクス15の正弦波を復元し、位置インデクス14及び位置インデクス16の正弦波を同じ情報に基づいて復元することができる。
したがって、表2乃至表7を参照すると、各トラック別に2個の正弦波を送信する場合、すなわち、レイヤ6で正弦波モードが適用されるフレームの所定トラック(図6の例によると、トラック0〜トラック3)と、レイヤ7で正弦波モードが適用されるフレームのトラックと、レイヤ8で一般モードが適用されるフレームのトラックと、正弦波モードが適用されるフレームのトラックと、レイヤ6で一般モードが適用され、レイヤ8で追加正弦波モードが適用されるフレームのトラックとに対しては、最も大きい2個の正弦波の代わりに入力音声信号の特性をよく反映する2個の正弦波(例えば、隣接した2個の正弦波)を選択することもできる。選択された2個の正弦波の情報は、同じ正弦波位置が重複指示される場合に対応させて送信することができる。
隣接した2個の正弦波の情報を送信する場合にも情報を送信する方法は、二つの最も大きい正弦波情報を送信する場合と同様である。例えば、正弦波の位置を指示する情報、正弦波の振幅を指示する情報、正弦波の正負符号を指示する情報が送信され、このとき、「正弦波」とは、前述したように、正弦波のMDCT係数を意味し、正弦波の位置は、該当正弦波(MDCT係数)に対応する波数である。また、二つの隣接した正弦波の正負符号は、1ビットを利用して送信することができる。1ビットを使用して隣接した2個の正弦波の正負符号情報を送信するために、隣接した2個の正弦波の正負符号が同じ場合だけを送信対象情報に限定する方法も利用することができる。
本発明では、位置情報を符号化するにあたって、送信に使用しない場合の数に付加的な情報を対応させることによって、同じ送信ビットを使用する一方で、既存の正弦波モードによって符号化する成分の数、すなわち、送信できる情報の数を増加させる。これによって、追加ビットを使用せずに量子化雑音を減少させることができる。また、量子化による雑音を考慮して(1)最も大きい2個の正弦波に対する情報を送信する方法、及び(2)最も大きい2個の正弦波に対する情報と隣接した2個の正弦波に対する情報のうち効率的な情報を選択的に送信する方法を適応的に利用することによって量子化雑音の増加を防止し、音質を向上させることもできる。
以下、図を参照して最も大きい2個の正弦波に対する情報と、隣接した2個の正弦波に対する情報とのうち効率的な情報を送信する方法を説明する。
該当トラックで2個の正弦波情報を送信する場合、検索によって最も大きい2個の正弦波、第1の正弦波及び第2の正弦波が検出された場合を仮定する。第1の正弦波は、該当トラックで振幅が最も大きい正弦波であり、第2の正弦波は、該当トラックで振幅が2番目に大きい正弦波を示す。
本発明では、(1)第1の正弦波及び第2の正弦波の情報、(2)第1の正弦波及び第1の正弦波に隣接した正弦波の情報、(3)第2の正弦波及び第2の正弦波に隣接した正弦波の情報の中からいずれか一つを選択して送信する。
隣接した2個の正弦波の情報を送信する場合(すなわち、(2)と(3)の場合)には、同じ正弦波の位置を指示する二つのインデクス情報を送信する。例えば、(2)の場合には、第1の正弦波の位置を各々指示する二つのインデクスを送信し、(3)の場合には、第2の正弦波の位置を指示する二つのインデクスを送信してもよい。
(1)第1の正弦波及び第2の正弦波の情報、(2)第1の正弦波及び第1の正弦波に隣接した正弦波の情報、(3)第2の正弦波及び第2の正弦波に隣接した正弦波の情報のうちいずれを送信するかは、各場合に対するMSEを比較して決定することができる。
該当トラックでn番目に大きい正弦波の位置をposn MAXとすると、第1の正弦波の位置はpos1 MAXで表し、第2の正弦波の位置はpos2 MAXで表すことができる。また、第1の正弦波に隣接した2個の正弦波の位置はpos1 MAX−1とpos1 MAX+1になり、第2の正弦波に隣接した2個の正弦波の位置はpos2 MAX−1とpos2 MAX+1になる。
したがって、第1の正弦波に対するMSEであるMSE1 MAX、第2の正弦波に対するMSEであるMSE2 MAX、第1の正弦波に隣接した2個の正弦波に対する平均MSEであるMSE1 adjacent、第2の正弦波に隣接した2個の正弦波に対する平均MSEであるMSE2 adjacentは、例えば、式5のとおりである。
Figure 2014531623
式5において、X(k)は、原本信号を構成するk番目の正弦波成分(波数がkである正弦波)のMDCT係数を意味し、
Figure 2014531623
は、k番目の正弦波成分の量子化されたMDCT係数を意味する。
第1の正弦波のMDCT係数はX(pos1 MAX)で表し、第2の正弦波のMDCT係数はX(pos2 MAX)で表すことができる。したがって、第1の正弦波に隣接した2個の正弦波のMDCT係数は、X(pos1 MAX−1)及びX(pos1 MAX+1)で表し、第2の正弦波に隣接した2個の正弦波のMDCT係数は、X(pos2 MAX−1)及びX(pos1 MAX+1)で表すことができる。
本発明では、(1)第1の正弦波及び第2の正弦波の情報、(2)第1の正弦波及び第1の正弦波に隣接した正弦波の情報、(3)第2の正弦波及び第2の正弦波に隣接した正弦波の情報に対するMSEを比較し、(1)〜(3)のうちMSEが少ない情報を送信することができる。
また、隣接した2個の正弦波の情報を送信する一方で、(1)の場合と同一な送信ビットを使用するために、2個の正弦波の正負符号が同じ場合だけを(2)及び(3)の対象に限定してもよい。したがって、式3及び表3を利用して1ビットで正弦波の正負符号を送信する(1)の場合と同様に、(2)及び(3)の場合でも1ビットで正弦波の正負符号を指示することができる。
図8は、本発明によって正弦波モードで送信する情報を決定する方法の一例を概略的に示すフローチャートである。図8の方法は、図1に示す符号化器の正弦波モード部及び追加正弦波部で実行することもできる。図8の説明でも、前述したように「正弦波」は、該当正弦波のMDCT係数を意味する。
図8を参照すると、正弦波情報を送信するトラックから検索を介して最大振幅を有する2個の正弦波(第1の正弦波及び第2の正弦波)が検出される(S800)。前述したように、検出される第1の正弦波の位置をpos1 MAXといい、第2の正弦波の位置をpos2 MAXという。最も大きい振幅を有する2個の正弦波は、式1を利用して検出されたD(k)値を利用して検出することができる。
次に、検出した正弦波のうち第1の正弦波に隣接した2個の正弦波の正負符号が同じかどうかを判断する(S810)。2個の正弦波の情報を送信する場合、正負符号に対する情報は、先に送信される正弦波の情報だけが1ビットで送信される。したがって、最も大きい2個の正弦波の情報を送信する代わりに、隣接した2個の正弦波の情報を送信するときは、隣接した2個の正弦波の正負符号が同じ場合だけを対象とすることによって、最も大きい2個の正弦波の情報を送信する場合と同様に、正負符号に対する情報を1ビットで送信することができる。
第1の正弦波に隣接した2個の正弦波の正負符号が同じ場合、第2の正弦波に対するMSEの大きさと、第1の正弦波に隣接した正弦波の平均MSEの大きさと、を比較する(S820)。第2の正弦波のMSE及び第1の正弦波に隣接した正弦波の平均MSEは、式5の場合のとおりである。
第2の正弦波のMSEが第1の正弦波に隣接した正弦波の平均MSEより小さい場合、第1の正弦波に隣接した正弦波の情報は送信対象から除外される。したがって、第2の正弦波及び第1の正弦波に対する情報を送信するか、又は第2の正弦波及び第2の正弦波に隣接した正弦波の情報を送信するかを決定する。
S810ステップにおいて、第1の正弦波に隣接した2個の正弦波の正負符号が相違すると判断した場合にも、第1の正弦波に隣接した2個の正弦波の情報は送信対象から除外されるため、第2の正弦波及び第1の正弦波に対する情報を送信するか、又は第2の正弦波及び第2の正弦波に隣接した正弦波の情報を送信するかを決定する。
第2の正弦波のMSEが第1の正弦波に隣接した正弦波の平均MSEより大きい場合、第2の正弦波の情報と第1の正弦波の情報を共に送信することは、対象から除外される。したがって、第1の正弦波及び第1の正弦波に隣接した正弦波の情報を送信するか、又は第2の正弦波及び第2の正弦波に隣接した正弦波の情報を送信するかを決定する。
S820ステップにおいて、第2の正弦波のMSEが第1の正弦波に隣接した正弦波の平均MSEより小さい場合、又は第1の正弦波に隣接した2個の正弦波の正負符号が相違する場合には、第2の正弦波に隣接した2個の正弦波の正負符号が同じかどうかを判断する(S830)。
第2の正弦波に隣接した2個の正弦波の正負符号が同じ場合、第1の正弦波のMSEの大きさと、第2の正弦波に隣接した正弦波の平均MSEの大きさと、を比較する(S840)。
第1の正弦波のMSEが第2の正弦波に隣接した正弦波の平均MSEより大きい場合、第2の正弦波及び第2の正弦波に隣接した正弦波の情報が送信される(S850)。このとき、第2の正弦波の情報と共に第2の正弦波に隣接した2個の正弦波のうち一つの情報が送信される。例えば、第2の正弦波の位置を重複指示する位置情報、第2の正弦波及び第2の正弦波に隣接した正弦波の振幅情報、第2の正弦波及び第2の正弦波に対する正負符号情報が符号化されて送信される。
受信する復号器側では、送信された正弦波の情報に基づいて、第2の正弦波及び第2の正弦波に隣接した正弦波を発生することができる。第2の正弦波に隣接する正弦波は、第2の正弦波に隣接する二つの位置(第2の正弦波の前後)に同じ振幅及び正負符号の正弦波として発生することができる。
第1の正弦波のMSEが第2の正弦波に隣接した正弦波の平均MSEより小さい場合には、第1の正弦波及び第2の正弦波の情報が送信される(S860)。S830ステップにおいて、第2の正弦波に隣接した2個の正弦波の正負符号が相違する場合も、第2の正弦波に隣接した正弦波の情報は送信対象でないため、第1の正弦波及び第2の正弦波の情報が送信される(S860)。
一方、S820ステップにおいて、第2の正弦波のMSEが第1の正弦波に隣接した正弦波の平均MSEより大きい場合には、第1の正弦波に隣接した2個の正弦波の正負符号が同じかどうかを判断する(S870)。
第1の正弦波に隣接した2個の正弦波の正負符号が同じ場合には、第1の正弦波及び第1の正弦波に隣接した正弦波のMSEの大きさと、第2の正弦波及び第2の正弦波に隣接した正弦波のMSEの大きさと、を比較する(S880)。第1の正弦波及び第1の正弦波に隣接した正弦波のMSEは、第1の正弦波のMSEと第1の正弦波に隣接した正弦波の平均MSEを意味する。第2の正弦波及び第2の正弦波に隣接した正弦波のMSEは、第2の正弦波のMSE及び第2の正弦波に隣接した正弦波の平均MSEを意味する。
第1の正弦波及び第1の正弦波に隣接した正弦波のMSEが第2の正弦波及び第2の正弦波に隣接した正弦波のMSEより小さい場合、第1の正弦波及び第1の正弦波に隣接した正弦波の情報が送信される(S890)。このとき、第1の正弦波の情報と共に、第1の正弦波に隣接した2個の正弦波のうち一つの情報が送信される。例えば、第1の正弦波の位置を重複指示する位置情報、第1の正弦波及び第1の正弦波に隣接した正弦波の振幅情報、第1の正弦波及び第1の正弦波に対する正負符号情報が符号化されて送信される。
受信する復号器側では、送信された正弦波の情報に基づいて第1の正弦波及び第1の正弦波に隣接した正弦波を発生することができる。第1の正弦波に隣接する正弦波は、第1の正弦波に隣接する二つの位置(第1の正弦波の前後)に同じ振幅及び正負符号の正弦波として発生することができる。
第1の正弦波及び第1の正弦波に隣接した正弦波のMSEが第2の正弦波及び第2の正弦波に隣接した正弦波のMSEより大きい場合、第2の正弦波及び第2の正弦波に隣接した正弦波の情報が送信される(S850)。このとき、第2の正弦波の情報と共に、第2の正弦波に隣接した2個の正弦波のうち一つの情報が送信される。受信する復号器側では、前述したように、第2の正弦波及び第2の正弦波に隣接した正弦波を発生することができる。
S820で判断する関係であるMSE2 MAX<MSE1 adjacentは、MSE1 MAX+MSE2 MAX<MSE1 MAX+MSE1 adjacentと等価となる。また、S840で判断する関係であるMSE1 MAX>MSE2 adjacentは、MSE1 MAX+MSE2 MAX>MSE2 MAX+MSE2 adjacentと等価となる。
これを考慮すると、(1)第1の正弦波及び第2の正弦波の情報、(2)第1の正弦波及び第1の正弦波に隣接した正弦波の情報、(3)第2の正弦波及び第2の正弦波に隣接した正弦波の情報のうち、送信可能な対象情報の中からMSEが最も小さい情報が送信される。
このとき、送信可能な対象情報とは、(i)第1の正弦波及び第2の正弦波情報、(ii)第1の正弦波及び第1の正弦波に隣接した正弦波の情報であって、第1の正弦波に隣接した2個の正弦波の正負符号が同じ場合、(iii)第2の正弦波及び第2の正弦波に隣接した正弦波の情報であって、第2の正弦波に隣接した2個の正弦波の正負符号が同じ場合を意味する。
表8は、図8の例で送信される情報を簡単に示す。
Figure 2014531623
表8において、“第1の正負符号”は、第1の正弦波に隣接した2個の正弦波の正負符号が同一であるか相違であるかを示す。表7において、“第2の正負符号”は、第2の正弦波に隣接した2個の正弦波の正負符号が同一であるか相違であるかを示す。
表8において、“MSE1&2 VS MSE1&ADJ”は、第1の正弦波及び第2の正弦波の情報を送信する場合に対するMSEと、第1の正弦波及び第1の正弦波に隣接した正弦波の情報を送信する場合に対するMSEとのうち、小さいものを示す。
表8において、“MSE1&2 VS MSE2&ADJ”は、第1の正弦波及び第2の正弦波の情報を送信する場合に対するMSEと、第2の正弦波及び第2の正弦波に隣接した正弦波の情報を送信する場合に対するMSEとのうち、小さいものを示す。
表8において、“MSE1&ADJ VS MSE2&ADJ”は、第1の正弦波及び第1の正弦波に隣接した正弦波の情報を送信する場合に対するMSEと、第2の正弦波及び第2の正弦波に隣接した正弦波の情報を送信する場合に対するMSEとのうち、小さいものを示す。
本発明では、トラック内で最も大きい2個の正弦波を単純に検出して送信する方法で利用されなかった場合についての新たな情報が更に用いられる。したがって、最も大きい2個の正弦波の情報だけを送信する場合のビットストリームと同一なビットストリーム構造を利用することができる。
表9は、本発明で使用するビットストリームの構造を概略的に説明するものである。
Figure 2014531623
図8の例では、送信する情報を選択する方法として、最も大きい振幅を有するものとして検出された正弦波(第1の正弦波、第2の正弦波)に対するMSEと隣接した正弦波に対するMSEの平均とを比較し、MSEが低い場合を選択する方法を採択している。したがって、追加の送信ビットを使用することなく最も大きい正弦波の情報外により効果的な情報がある場合(MSEがより小さい情報がある場合)、より効果的な情報を送信することによって量子化雑音を減らすことができる。
例えば、表10の関係を満たす場合には、最も大きい正弦波として検出された2個の正弦波を選択し、選択された2個の正弦波の情報を送信する。一方、表9の関係を満たさない場合には、最も大きい正弦波として検出された2個の正弦波のうちいずれか一つとそれに隣接した正弦波を選択し、選択された正弦波の情報を送信する。
Figure 2014531623
表10の例は、図8で説明した方法のうち一部を例示したものであって、最も大きい2個の正弦波の情報と、最も大きい一つの正弦波及びそれに隣接した正弦波の情報とのうちいずれを送信するかを選択する方法を簡単に示す。
図9は、最大振幅を有する正弦波2個のうち一つの正弦波に対してだけ、隣接正弦波の正負符号が同じ場合を例として説明する図である。
図9を参照すると、pos1 MAXに位置する第1の正弦波に対して隣接するpos1 MAX−1及びpos1 MAX+1には同じ正負符号を有する正弦波が存在しない。これに対し、pos2 MAXに位置する第2の正弦波に対しては隣接するpos2 MAX−1及びpos2 MAX+1に位置する2個の正弦波は、正負符号が同じである。
したがって、第2の正弦波は、符号化する正弦波として選択され、第2の正弦波と共に第1の正弦波を符号化するか、又は隣接正弦波910を符号化するかが決定される。第1の正弦波を符号化するか、又は隣接正弦波910を符号化するかは、表9のような判別方法を介して決定することができる。
図10は、最も大きい2個の正弦波に隣接する2個の正弦波の正負符号が各々同じ場合に、送信する情報を選択する方法を概略的に説明する図である。
図10を参照すると、第1の正弦波(X(pos1 MAX))に隣接する2個の正弦波(X(pos1 MAX−1),X(pos1 MAX+1))の正負符号が同じである。また、第2の正弦波(X(pos2 MAX))に隣接する2個の正弦波(X(pos2 MAX−1),X(pos2 MAX+1))の正負符号も同じである。
したがって、この場合には、(1)第1の正弦波及び第2の正弦波の情報を送信するか、(2)第1の正弦波及び隣接正弦波1010の情報を送信するか、(3)第2の正弦波及び隣接正弦波1020の情報を送信するかを決定しなければならない。この場合、それぞれのMSEを比較することによって、式6のように、MSEを最小化する場合を決定する。送信する情報は、上記の(1)乃至(3)でMSEを最小化する場合の情報として決定される。
(式6)
Min({MSE1 MAX+Min(MSE2 MAX,MSE1 Adjacent)},{MSE2 MAX+MSE2 Adjacent})
以上、MSEを利用して送信する情報を選択する方法を説明したが、本発明は、これに限定されるものではない。
例えば、MSEの代わりに正弦波の振幅(正弦波成分のMDCT係数の大きさ)を考慮して、送信する情報を選択するようにすることもできる。このとき、特定正弦波の振幅は、残余信号の和の大きさによって判断することができる。残余信号の和(D)は、検索対象トラックの正弦波に対する全体MDCT係数の和から、特定正弦波に対応するMDCT係数の量子化された値を除外した値であると定義することができる。
式7は、検索対象トラックで検索された最も大きい2個の正弦波(第1の正弦波、第2の正弦波)に対する残余信号の和と、第1の正弦波に隣接した正弦波に対する残余信号の和との平均を示す。
Figure 2014531623
式7において、
Figure 2014531623
は、原MDCT係数X(k)のうち、現在検索されるトラックのMDCT係数のうちk番目のMDCT係数を意味し、
Figure 2014531623
は、現在検索されるトラックのMDCT係数のうちk番目の量子化されたMDCT係数を意味する。
また、posn MAXは、前述したように、トラック内でn番目に大きい正弦波(正弦波成分のMDCT係数)の位置を意味する。
n MAXは、正弦波モードで各正弦波に対するMDCT係数の中から、n番目の正弦波に対するMDCT係数を除外した残りの係数の和であって、n番目の正弦波に対する残余信号の和である。
n Adjacentは、n番目の正弦波に隣接した2個の正弦波に対する残余信号の和の平均を意味する。すなわち、Dn Adjacentは、正弦波モードで各正弦波に対するMDCT係数の中から、n−1番目の正弦波に対するMDCT係数を除外した残りの係数の和と、n+1番目の正弦波に対するMDCT係数を除外した残りの係数の和と、を加え、2で除した値に該当する。
図11は、MSEの代わりに、量子化前のMDCT係数の絶対値を利用して送信する情報を決定する方法の一例を概略的に説明するフローチャートである。図11の説明でも、前述したように、「正弦波」は、正弦波のMDCT係数を意味する。
図11を参照すると、正弦波情報を送信するトラックから検索を介して最大振幅を有する2個の正弦波(第1の正弦波及び第2の正弦波)が検出される(S1100)。前述したように、検出される第1の正弦波の位置をpos1 MAXといい、第2の正弦波の位置をpos2 MAXという。最も大きい振幅を有する2個の正弦波は、式1を利用して検出されたD(k)値を利用して検出することができる。
次に、検出した正弦波のうち第1の正弦波に隣接した2個の正弦波の正負符号が同じかどうかを判断する(S1110)。最も大きい2個の正弦波の情報を送信する代わりに、隣接した正弦波の情報を送信する時には、隣接した2個の正弦波の正負符号が同じ場合だけを対象にすることによって、最も大きい2個の正弦波の情報を送信する場合と同様に、正負符号に対する情報を1ビットで送信することができる。
第1の正弦波に隣接した2個の正弦波の正負符号が同じ場合、第2の正弦波に対するD2 MAXの大きさと、第1の正弦波に隣接した正弦波に対するD1 Adjacentの大きさと、を比較する(S1120)。第2の正弦波に対するD2 MAXと第1の正弦波に隣接した正弦波に対するD1 Adjacentは、式7の場合の通りである。
図11の例では、比較対象となる送信対象情報のうち振幅が大きい正弦波の情報を優先的に送信する。したがって、残余係数の和又は残余係数の和の平均を比較する図11の例では、値が小さい方を選択することができる。
第2の正弦波に対するD2 MAXが第1の正弦波に隣接した正弦波に対するD1 Adjacentより小さい場合、第1の正弦波に隣接した正弦波の情報は、送信対象から除外される。したがって、第2の正弦波及び第1の正弦波に対する情報を送信するか、又は第2の正弦波及び第2の正弦波に隣接した正弦波の情報を送信するかを決定する。
S1110ステップにおいて、第1の正弦波に隣接した2個の正弦波の正負符号が相違すると判断した場合にも、第1の正弦波に隣接した2個の正弦波の情報は、送信対象から除外されるため、第2の正弦波及び第1の正弦波に対する情報を送信するか、又は第2の正弦波及び第2の正弦波に隣接した正弦波の情報を送信するかを決定する。
第2の正弦波に対するD2 MAXが第1の正弦波に隣接した正弦波に対するD1 Adjacentより大きい場合、第2の正弦波の情報及び第1の正弦波の情報を共に送信することは、対象から除外される。したがって、第1の正弦波及び第1の正弦波に隣接した正弦波の情報を送信するか、又は第2の正弦波及び第2の正弦波に隣接した正弦波の情報を送信するかを決定する。
S1120ステップにおいて、第2の正弦波に対するD2 MAXが第1の正弦波に隣接した正弦波に対するD1 Adjacentより小さい場合、又は第1の正弦波に隣接した2個の正弦波の正負符号が相違する場合には、第2の正弦波に隣接した2個の正弦波の正負符号が同じかどうかを判断する(S1130)。
第2の正弦波に隣接した2個の正弦波の正負符号が同じ場合、第1の正弦波に対するD1 MAXの大きさと、第2の正弦波に隣接した正弦波に対するD2 Adjacentの大きさと、を比較する(S1140)。
第1の正弦波に対するD1 MAXが第2の正弦波に隣接した正弦波に対するD2 Adjacentより大きい場合、第2の正弦波及び第2の正弦波に隣接した正弦波の情報が送信される(S1150)。このとき、第2の正弦波の情報と共に、第2の正弦波に隣接した2個の正弦波のうち一つの情報が送信される。例えば、第2の正弦波の位置を重複指示する位置情報と、第2の正弦波及び第2の正弦波に隣接した正弦波の振幅情報と、第2の正弦波及び第2の正弦波に対する正負符号情報とが符号化されて送信される。
受信する復号器側では、送信された正弦波の情報に基づいて第2の正弦波及び第2の正弦波に隣接した正弦波を発生することができる。第2の正弦波に隣接する正弦波は、第2の正弦波に隣接する二つの位置(第2の正弦波の前後)に同じ振幅及び正負符号の正弦波として発生することができる。
第1の正弦波に対するD1 MAXが第2の正弦波に隣接した正弦波に対するD2 Adjacentより小さい場合には、第1の正弦波及び第2の正弦波の情報が送信される(S1160)。S1130ステップにおいて、第2の正弦波に隣接した2個の正弦波の正負符号が相違する場合にも、第2の正弦波に隣接した正弦波の情報は、送信対象でないため、第1の正弦波及び第2の正弦波の情報が送信される(S1160)。
一方、S1120ステップにおいて、第2の正弦波に対するD2 MAXが第1の正弦波に隣接した正弦波に対するD1 Adjacentより大きい場合には、第1の正弦波に隣接した2個の正弦波の正負符号が同じかどうかを判断する(S1170)。
第1の正弦波に隣接した2個の正弦波の正負符号が同じ場合には、第1の正弦波及び第1の正弦波に隣接した正弦波に対するD1 MAX+D1 Adjacentの大きさと、第2の正弦波及び第2の正弦波に隣接した正弦波に対するD2 MAX+D2 Adjacentの大きさと、を比較する(S1180)。
第1の正弦波及び第1の正弦波に隣接した正弦波に対するD1 MAX+D1 Adjacentが第2の正弦波、及び第2の正弦波に隣接した正弦波に対するD2 MAX+D2 Adjacentより小さい場合、第1の正弦波及び第1の正弦波に隣接した正弦波の情報が送信される(S1190)。このとき、第1の正弦波の情報と共に、第1の正弦波に隣接した2個の正弦波のうち一つの情報が送信される。例えば、第1の正弦波の位置を重複指示する位置情報と、第1の正弦波及び第1の正弦波に隣接した正弦波の振幅情報と、第1の正弦波及び第1の正弦波に対する正負符号情報とが符号化されて送信される。
受信する復号器側では、送信された正弦波の情報に基づいて第1の正弦波及び第1の正弦波に隣接した正弦波を発生することができる。第1の正弦波に隣接する正弦波は、第1の正弦波に隣接する二つの位置(第1の正弦波の前後)に同じ振幅及び正負符号の正弦波として発生することができる。
第1の正弦波及び第1の正弦波に隣接した正弦波に対するD1 MAX+D1 Adjacentが、第2の正弦波及び第2の正弦波に隣接した正弦波に対するD2 MAX+D2 Adjacentより大きい場合、第2の正弦波及び第2の正弦波に隣接した正弦波の情報が送信される(S1150)。このとき、第2の正弦波の情報と共に、第2の正弦波に隣接した2個の正弦波のうち一つの情報が送信され、受信する復号器側では、前述したように、第2の正弦波及び第2の正弦波に隣接した正弦波を発生することができる。
S1120で判断する関係であるD2 MAX<D1 adjacentはD1 MAX+D2 MAX<D1 MAX+D1 adjacentと等価となる。また、S1140で判断する関係であるD1 MAX>D2 adjacentはD1 MAX+D2 MAX>D2 MAX+D2 adjacentと等価となる。
これを考慮すると、(1)第1の正弦波及び第2の正弦波の情報、(2)第1の正弦波及び第1の正弦波に隣接した正弦波の情報、(3)第2の正弦波及び第2の正弦波に隣接した正弦波の情報のうち、送信可能な対象情報の中から残余係数の和が最も小さい情報が送信される。
このとき、送信可能な対象情報とは、(i)第1の正弦波及び第2の正弦波情報、(ii)第1の正弦波及び第1の正弦波に隣接した正弦波の情報であって、第1の正弦波に隣接した2個の正弦波の正負符号が同じ場合の情報、(iii )第2の正弦波及び第2の正弦波に隣接した正弦波の情報であって、第2の正弦波に隣接した2個の正弦波の正負符号が同じ場合の情報を意味する。
表11は、図11の例で送信される情報を簡単に示す。
Figure 2014531623
表11において、“第1の正負符号”は、第1の正弦波に隣接した2個の正弦波の正負符号が同一であるか相違であるかを示す。表7において、“第2の正負符号”は、第2の正弦波に隣接した2個の正弦波の正負符号が同一であるか相違であるかを示す。
表11において、“D1&D2 VS D1&Dadj”は、第1の正弦波及び第2の正弦波の情報を送信する場合に対する残余係数の和(D1 MAX+D2 MAX)と、第1の正弦波及び第1の正弦波に隣接した正弦波の情報を送信する場合に対する残余係数の和(D1 MAX+D1 Adjacent)とのうち小さいものを示す。
表11において、“D1&D2 VS D2&Dadj”は、第1の正弦波及び第2の正弦波の情報を送信する場合に対する残余係数の和(D1 MAX+D2 MAX)と、第2の正弦波及び第2の正弦波に隣接した正弦波の情報を送信する場合に対する残余係数の和(D2 MAX+D2 Adjacent)とのうち小さいものを示す。
表11において、“D1&Dadj VS D2&Dadj”は、第1の正弦波及び第1の正弦波に隣接した正弦波の情報を送信する場合に対する残余係数の和(D1 MAX+D1 Adjacent)と、第2の正弦波及び第2の正弦波に隣接した正弦波の情報を送信する場合に対する残余係数の和(D2 MAX+D2 Adjacent)とのうち小さいものを示す。
このように、選択された情報が符号化されて送信されると、復号器は、送信された情報に基づいて該当トラックの正弦波(正弦波のMDCT係数)を復元することができる。
前述したように、該当トラックから検出された最も大きい2個の正弦波の情報が送信される場合には、(1)2個の正弦波の位置情報、(2)2個の正弦波の振幅情報、(3)2個の正弦波の正負符号情報が送信され、復号器は、これに基づいて正弦波の情報によって指示される位置に、指示される振幅と正負符号を有する正弦波を復元することができる。
該当トラックから検出される最も大きい2個の正弦波のうちいずれか一つの正弦波とそれに隣接した正弦波に対する情報が送信される場合には、(1)2個の正弦波の位置情報、(2)2個の正弦波の振幅情報、(3)2個の正弦波の正負符号情報が送信される。このとき、2個の正弦波の位置情報は同じ位置を指示する。指示される位置は、2個の正弦波のうち大きい振幅を有する正弦波の位置である。
復号器は、送信された2個の正弦波の情報に基づいて、送信された振幅情報のうち大きい振幅に対応する正弦波を位置情報が指示する位置に発生することができる。位置情報が指示する位置に隣接する位置(位置情報が指示する位置の前後又は左右)には送信された振幅情報のうち小さい振幅に対応する正弦波を発生することができる。
復号器は、このように正弦波(MDCT係数)を発生した後、図3及び図4で説明したように、IMDCTを実行する過程を含む一連の過程を経て音声信号を復元することができる。
本明細書においては、理解を容易にするために括弧内に該当内容を併記したが、併記されない場合に括弧の内容が排除されることを意味するものではない。例えば、理解を助けるために必要な部分で「正弦波(パルス)」、「正弦波(MDCT係数)」などの併記を使用したが、併記されない場合、正弦波がパルスでないことを意味するものではなく、また、正弦波がMDCT係数でないことを意味するものではないことに留意されたい。
このように、本発明では、ビット速度を増加させることなく追加情報を送信することによって符号化効率を上げることができ、ビットストリーム構造を変化させずに符号化/復号を実行することができるため、後方互換性が保障される。
また、前述した例示で、方法は、一連のステップ又はブロックで順序図に基づいて説明されているが、本発明は、ステップの順序に限定されるものではなく、あるステップは、前述と異なるステップと異なる順序で、又は同時に発生することができる。また、前述した実施例は、多様な態様の例示を含む。例えば、前述した実施形態を組み合わせて実施することもでき、その組合せも本発明による実施形態に属する。本発明は、特許請求の範囲内に属する本発明の技術的思想による多様な修正及び変更を含む。
位置情報が第1の変換係数を重複指示する場合には、第1の変換係数及び第1の変換係数に隣接した二つの変換係数を復元し、位置情報が第2の変換係数を重複指示する場合には、第の変換係数及び第の変換係数に隣接した二つの変換係数を復元する。
位置情報が第1の変換係数を重複指示する場合には、第1の変換係数及び第1の変換係数に隣接した二つの変換係数を同じ大きさで復元し、位置情報が第2の変換係数を重複指示する場合には、第の変換係数及び第の変換係数に隣接した二つの変換係数を同じ大きさで復元する。位置情報が第1の変換係数を重複指示する場合には、第1の変換係数及び第1の変換係数に隣接した二つの変換係数を同じ正負符号で復元し、位置情報が第2の変換係数を重複指示する場合には、第の変換係数及び第の変換係数に隣接した二つの変換係数を同じ正負符号で復元する。

Claims (14)

  1. 入力音声信号を構成する正弦波成分を変換して前記正弦波成分に対する変換係数を生成するステップと、
    前記生成された変換係数のうち符号化対象変換係数を決定するステップと、
    前記決定された変換係数を指示する指示情報を送信するステップと、を有し、
    前記指示情報は、変換係数の位置情報、振幅情報、及び正負符号情報を含み、
    前記符号化対象変換係数が隣接した変換係数である場合、前記位置情報は、同じ位置情報を重複指示することを特徴とする、音声信号符号化方法。
  2. 前記符号化対象変換係数を決定するステップでは、変換係数の大きさを考慮して最も大きい第1の変換係数及び2番目に大きい第2の変換係数を検索し、前記第1の変換係数及び前記第2の変換係数と、前記第1の変換係数及び前記第1の変換係数に隣接した変換係数と、前記第2の変換係数及び前記第2の変換係数に隣接した変換係数と、の三つの組合せのうちいずれか一つを符号化対象変換係数として決定することを特徴とする、請求項1に記載の音声信号符号化方法。
  3. 前記第1の変換係数及び前記第2の変換係数に対する平均2乗誤差(MSE)と、前記第1の変換係数及び前記第1の変換係数に隣接した変換係数に対するMSEと、前記第2の変換係数及び前記第2の変換係数に隣接した変換係数に対するMSEと、を比較し、
    MSEが最も小さい変換係数の組合せを符号化対象変換係数として決定することを特徴とする、請求項2に記載の音声信号符号化方法。
  4. 前記第1の変換係数及び前記第2の変換係数に対する残余係数の和と、前記第1の変換係数及び前記第1の変換係数に隣接した変換係数に対する残余係数の和と、前記第2の変換係数及び前記第2の変換係数に隣接した変換係数に対する残余係数の和と、を比較し、
    残余係数の和が最も小さい変換係数の組合せを符号化対象変換係数として決定することを特徴とする、請求項2に記載の音声信号符号化方法。
  5. 前記第1の変換係数に隣接した二つの変換係数の正負符号が同じでない場合には、前記第1の変換係数に隣接した変換係数を符号化対象から除外し、
    前記第2の変換係数に隣接した二つの変換係数の正負符号が同じでない場合には、前記第2の変換係数に隣接した変換係数を符号化対象から除外することを特徴とする、請求項2に記載の音声信号符号化方法。
  6. 前記指示情報送信ステップでは、前記符号化対象変換係数の正負符号に対して、一番目の符号化対象変換係数の正負符号を指示する情報を送信することを特徴とする、請求項2に記載の音声信号符号化方法。
  7. 前記第1の変換係数及び前記第1の変換係数に隣接した変換係数が符号化対象変換係数として決定された場合、前記位置情報は、第1の変換係数を重複指示し、
    前記第2の変換係数及び前記第2の変換係数に隣接した変換係数が符号化対象変換係数として決定された場合、前記位置情報は、第2の変換係数を重複指示することを特徴とする、請求項2に記載の音声信号符号化方法。
  8. 前記正弦波成分は、超広帯域に属することを特徴とする、請求項1に記載の音声信号符号化方法。
  9. 音声情報を含むビットストリームを受信するステップと、
    前記ビットストリームに含まれている指示情報に基づいて音声信号を構成する正弦波成分に対する変換係数を復元するステップと、
    前記復元された変換係数を逆変換し、音声信号を復元するステップと、を有し、
    前記変換係数を復元するステップでは、前記指示情報が同じ位置を重複指示する場合、前記指示される位置及び前記指示される位置と隣接する位置に変換係数を復元することを特徴とする、音声信号復号方法。
  10. 前記指示情報は、変換係数に対する位置情報、振幅情報、及び正負符号情報を含み、
    前記位置情報は、トラック内で最も大きい第1の変換係数の情報及びトラック内で2番目に大きい第2の変換係数を指示するか、前記第1の変換係数の位置を重複指示するか、又は、前記第2の変換係数を重複指示することを特徴とする、請求項9に記載の音声信号復号方法。
  11. 前記位置情報が第1の変換係数を重複指示する場合には、前記第1の変換係数及び前記第1の変換係数に隣接した二つの変換係数を復元し、
    前記位置情報が第2の変換係数を重複指示する場合には、前記第1の変換係数及び前記第1の変換係数に隣接した二つの変換係数を復元することを特徴とする、請求項10に記載の音声信号復号方法。
  12. 前記位置情報が第1の変換係数を重複指示する場合には、前記第1の変換係数及び前記第1の変換係数に隣接した二つの変換係数を同じ大きさで復元し、
    前記位置情報が第2の変換係数を重複指示する場合には、前記第1の変換係数及び前記第1の変換係数に隣接した二つの変換係数を同じ大きさで復元することを特徴とする、請求項10に記載の音声信号復号方法。
  13. 前記位置情報が第1の変換係数を重複指示する場合には、前記第1の変換係数及び前記第1の変換係数に隣接した二つの変換係数を同じ正負符号で復元し、
    前記位置情報が第2の変換係数を重複指示する場合には、前記第1の変換係数及び前記第1の変換係数に隣接した二つの変換係数を同じ正負符号で復元することを特徴とする、請求項10に記載の音声信号復号方法。
  14. 前記復元される音声信号は、超広帯域音声信号であることを特徴とする、請求項9に記載の音声信号復号方法。
JP2014533211A 2011-09-28 2012-09-28 音声信号符号化方法及び音声信号復号方法 Expired - Fee Related JP5969614B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161540518P 2011-09-28 2011-09-28
US61/540,518 2011-09-28
US201261684826P 2012-08-20 2012-08-20
US61/684,826 2012-08-20
PCT/KR2012/007889 WO2013048171A2 (ko) 2011-09-28 2012-09-28 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치

Publications (2)

Publication Number Publication Date
JP2014531623A true JP2014531623A (ja) 2014-11-27
JP5969614B2 JP5969614B2 (ja) 2016-08-17

Family

ID=47996640

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014533211A Expired - Fee Related JP5969614B2 (ja) 2011-09-28 2012-09-28 音声信号符号化方法及び音声信号復号方法

Country Status (6)

Country Link
US (1) US9472199B2 (ja)
EP (1) EP2763137B1 (ja)
JP (1) JP5969614B2 (ja)
KR (1) KR102048076B1 (ja)
CN (1) CN103946918B (ja)
WO (1) WO2013048171A2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2725416C1 (ru) * 2012-03-29 2020-07-02 Телефонактиеболагет Лм Эрикссон (Пабл) Расширение полосы частот гармонического аудиосигнала
CN105745703B (zh) * 2013-09-16 2019-12-10 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
US10388293B2 (en) 2013-09-16 2019-08-20 Samsung Electronics Co., Ltd. Signal encoding method and device and signal decoding method and device
CN110176241B (zh) * 2014-02-17 2023-10-31 三星电子株式会社 信号编码方法和设备以及信号解码方法和设备
EP4293666A3 (en) 2014-07-28 2024-03-06 Samsung Electronics Co., Ltd. Signal encoding method and apparatus and signal decoding method and apparatus
WO2017064264A1 (en) 2015-10-15 2017-04-20 Huawei Technologies Co., Ltd. Method and appratus for sinusoidal encoding and decoding
KR20200127781A (ko) * 2019-05-03 2020-11-11 한국전자통신연구원 주파수 복원 기법 기반 오디오 부호화 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008040452A (ja) * 2006-07-14 2008-02-21 Victor Co Of Japan Ltd 符号化装置及び復号化装置
JP2010521712A (ja) * 2007-03-16 2010-06-24 サムスン エレクトロニクス カンパニー リミテッド 正弦波オーディオコーディング方法及び装置
WO2010134757A2 (ko) * 2009-05-19 2010-11-25 한국전자통신연구원 계층형 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US5394508A (en) * 1992-01-17 1995-02-28 Massachusetts Institute Of Technology Method and apparatus for encoding decoding and compression of audio-type data
US5684926A (en) * 1996-01-26 1997-11-04 Motorola, Inc. MBE synthesizer for very low bit rate voice messaging systems
US5924064A (en) * 1996-10-07 1999-07-13 Picturetel Corporation Variable length coding using a plurality of region bit allocation patterns
US6385576B2 (en) * 1997-12-24 2002-05-07 Kabushiki Kaisha Toshiba Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
JP3372908B2 (ja) * 1999-09-17 2003-02-04 エヌイーシーマイクロシステム株式会社 マルチパルス探索処理方法と音声符号化装置
US6539349B1 (en) * 2000-02-15 2003-03-25 Lucent Technologies Inc. Constraining pulse positions in CELP vocoding
JP5485488B2 (ja) 2000-06-20 2014-05-07 コーニンクレッカ フィリップス エヌ ヴェ 正弦波符号化
US6728669B1 (en) * 2000-08-07 2004-04-27 Lucent Technologies Inc. Relative pulse position in celp vocoding
CA2327041A1 (en) * 2000-11-22 2002-05-22 Voiceage Corporation A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals
BR0109237A (pt) 2001-01-16 2002-12-03 Koninkl Philips Electronics Nv Codificador paramétrico, método de codificação paramétrica, decodificador paramétrico, método de decodificação, fluxo de dados incluindo dados de código senoidais, e, meio de armazenamento
BRPI0305710B1 (pt) * 2002-08-01 2017-11-07 Panasonic Corporation "apparatus and method of decoding of audio"
AU2003263509A1 (en) 2002-10-17 2004-05-04 Koninklijke Philips Electronics N.V. Sinusoidal audio coding with phase updates
FI118704B (fi) * 2003-10-07 2008-02-15 Nokia Corp Menetelmä ja laite lähdekoodauksen tekemiseksi
FR2867648A1 (fr) * 2003-12-10 2005-09-16 France Telecom Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques
US7788091B2 (en) * 2004-09-22 2010-08-31 Texas Instruments Incorporated Methods, devices and systems for improved pitch enhancement and autocorrelation in voice codecs
US8000967B2 (en) * 2005-03-09 2011-08-16 Telefonaktiebolaget Lm Ericsson (Publ) Low-complexity code excited linear prediction encoding
US20090210219A1 (en) * 2005-05-30 2009-08-20 Jong-Mo Sung Apparatus and method for coding and decoding residual signal
KR101171098B1 (ko) * 2005-07-22 2012-08-20 삼성전자주식회사 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
US8620644B2 (en) * 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
KR100848324B1 (ko) * 2006-12-08 2008-07-24 한국전자통신연구원 음성 부호화 장치 및 그 방법
US8175870B2 (en) 2006-12-26 2012-05-08 Huawei Technologies Co., Ltd. Dual-pulse excited linear prediction for speech coding
US8306813B2 (en) 2007-03-02 2012-11-06 Panasonic Corporation Encoding device and encoding method
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US20090180531A1 (en) * 2008-01-07 2009-07-16 Radlive Ltd. codec with plc capabilities
WO2010031109A1 (en) * 2008-09-19 2010-03-25 Newsouth Innovations Pty Limited Method of analysing an audio signal
KR101441474B1 (ko) 2009-02-16 2014-09-17 한국전자통신연구원 적응적 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
WO2011087332A2 (ko) 2010-01-15 2011-07-21 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008040452A (ja) * 2006-07-14 2008-02-21 Victor Co Of Japan Ltd 符号化装置及び復号化装置
JP2010521712A (ja) * 2007-03-16 2010-06-24 サムスン エレクトロニクス カンパニー リミテッド 正弦波オーディオコーディング方法及び装置
WO2010134757A2 (ko) * 2009-05-19 2010-11-25 한국전자통신연구원 계층형 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6014021032; Mikko Tammi, et al.: 'Scalable superwideband extension for wideband coding' Proceedings of 2009 IEEE International Conference on Acoustics, Speech and Signal Processing , 20090419, pp.161-164, IEEE *
JPN6014021032; Mikko Tammi,et al: 'Scalable superwideband extension for wideband coding' Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on , 20090419, p161-164, IEEE *

Also Published As

Publication number Publication date
KR20140082676A (ko) 2014-07-02
CN103946918B (zh) 2017-03-08
US20140236581A1 (en) 2014-08-21
WO2013048171A2 (ko) 2013-04-04
JP5969614B2 (ja) 2016-08-17
KR102048076B1 (ko) 2019-11-22
CN103946918A (zh) 2014-07-23
US9472199B2 (en) 2016-10-18
EP2763137A2 (en) 2014-08-06
EP2763137A4 (en) 2015-05-06
EP2763137B1 (en) 2016-09-14
WO2013048171A3 (ko) 2013-05-23

Similar Documents

Publication Publication Date Title
JP5969614B2 (ja) 音声信号符号化方法及び音声信号復号方法
JP5863868B2 (ja) 適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
JP4950210B2 (ja) オーディオ圧縮
CN101263553B (zh) 分级编码/解码设备
KR101139172B1 (ko) 스케일러블 음성 및 오디오 코덱들에서 양자화된 mdct 스펙트럼에 대한 코드북 인덱스들의 인코딩/디코딩을 위한 기술
JP4861196B2 (ja) Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
CN102394066B (zh) 语音编码装置、解码装置和语音编码方法、解码方法
CN101276587B (zh) 声音编码装置及其方法和声音解码装置及其方法
JP6980871B2 (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
JP6039678B2 (ja) 音声信号符号化方法及び復号化方法とこれを利用する装置
JP2009524100A (ja) 符号化/復号化装置及び方法
JP6139685B2 (ja) 損失フレーム復元方法及びオーディオ復号化方法とそれを利用する装置
MX2011000383A (es) Esquema de codificacion/decodificacion de audio a baja tasa de bits con pre-procesamiento comun.
JP5730860B2 (ja) 階層型正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
WO2008053970A1 (fr) Dispositif de codage de la voix, dispositif de décodage de la voix et leurs procédés
Tammi et al. Scalable superwideband extension for wideband coding
US20100280830A1 (en) Decoder
US20170206905A1 (en) Method, medium and apparatus for encoding and/or decoding signal based on a psychoacoustic model

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160707

R150 Certificate of patent or registration of utility model

Ref document number: 5969614

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees