JP2014531623A

JP2014531623A - 音声信号符号化方法及び音声信号復号方法、並びにそれを利用する装置

Info

Publication number: JP2014531623A
Application number: JP2014533211A
Authority: JP
Inventors: ヨンハンリ; キュヒョクチョン; インギュカン; ヒェジョンチョン; ラギョンキム
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2011-09-28
Filing date: 2012-09-28
Publication date: 2014-11-27
Anticipated expiration: 2032-09-28
Also published as: KR20140082676A; CN103946918B; US20140236581A1; WO2013048171A2; JP5969614B2; KR102048076B1; CN103946918A; US9472199B2; EP2763137A2; EP2763137A4; EP2763137B1; WO2013048171A3

Abstract

【課題】正弦波モードで音声信号を処理する方法及び装置を提供すること。【解決手段】本発明による音声信号の符号化方法は、入力音声信号を構成する正弦波成分を変換して正弦波成分に対する変換係数を生成するステップと、生成された変換係数のうち符号化対象変換係数を決定するステップと、決定された変換係数を指示する指示情報を送信するステップとを含み、指示情報は、変換係数の位置情報、振幅情報、及び正負符号情報を含むことができる。【選択図】図９

Description

本発明は、音声信号の符号化及び復号に関し、より具体的に、正弦波音声信号の符号化方法及び装置、並びに復号方法及び装置に関する。

一般的に、オーディオ信号には多様な周波数の信号が含まれており、人間の可聴周波数は２０Ｈｚ〜２０ｋＨｚであり、それに比べて、人間の音声は約２００Ｈｚ〜３ｋＨｚ領域に存在する。入力オーディオ信号は、人間の音声が存在する帯域だけでなく、人間の音声がほとんど存在しない７ｋＨｚ以上の高周波領域の成分まで含む場合もある。

最近、ネットワークの発達及び高品質サービスに対するユーザ要求が増加している。オーディオ信号は、狭帯域（以下‘ＮＢ’という）、広帯域（ＷｉｄｅＢａｎｄ、以下‘ＷＢ’という）、超広帯域（ＳｕｐｅｒＷｉｄｅＢａｎｄ：ＳＷＢ、以下‘ＳＷＢ’という）のような広い帯域を介して送信されている。

これと関連し、ＷＢ（サンプリング速度が約１６ｋＨｚまで）の信号に対して、ＮＢ（サンプリング速度が約８ｋＨｚまで）に適した符号化方式を適用すると、音質の劣化が発生する問題がある。

また、ＳＷＢ（サンプリング速度が約３２ｋＨｚまで）の信号に対して、ＮＢに適した符号化方式又はＷＢに適した符号化方式を適用したときも、音質の劣化が発生する問題がある。

したがって、ＮＢからＷＢ又はＳＷＢに至る多様な帯域、又は多様な帯域間の通信環境を含む多様な環境で使用可能な音声及びオーディオ符号化装置／復号装置に対する開発が進められている。

本発明は、正弦波モードを適用するにあたって、追加のビットを使用せずに量子化雑音を減少させることができる符号化／復号方法及び装置を提供することを目的とする。

本発明は、ビット速度を増加させずに追加情報を送信することによって、正弦波モードで音声信号を処理する方法及び装置を提供することを目的とする。

本発明は、ビットストリーム構造を変化させずに追加情報を送信することによって、符号化効率を上げ、量子化雑音を減少させる方法及び装置を提供することを目的とする。

本発明の一実施形態は、音声信号符号化方法であって、入力音声信号を構成する正弦波成分を変換して正弦波成分に対する変換係数を生成するステップと、生成された変換係数のうち符号化対象変換係数を決定するステップと、決定された変換係数を指示する指示情報を送信するステップと、を含み、指示情報は、変換係数の位置情報、振幅情報、及び正負符号情報を含み、符号化対象変換係数が隣接した変換係数である場合、位置情報は、同じ位置情報を重複指示する。

符号化対象変換係数を決定するステップでは、変換係数の大きさを考慮して最も大きい第１の変換係数及び２番目に大きい第２の変換係数を検索し、第１の変換係数及び第２の変換係数と、第１の変換係数及び第１の変換係数に隣接した変換係数と、第２の変換係数及び第２の変換係数に隣接した変換係数との三つの組合せのうちいずれか一つを符号化対象変換係数として決定する。

このとき、第１の変換係数及び第２の変換係数に対する平均２乗誤差（ＭＳＥ）と、第１の変換係数及び第１の変換係数に隣接した変換係数に対するＭＳＥと、第２の変換係数及び第２の変換係数に隣接した変換係数に対するＭＳＥとを比較し、ＭＳＥが最も小さい変換係数の組合せを符号化対象変換係数として決定する。

又は、第１の変換係数及び第２の変換係数に対する残余係数の和と、第１の変換係数及び第１の変換係数に隣接した変換係数に対する残余係数の和と、第２の変換係数及び第２の変換係数に隣接した変換係数に対する残余係数の和とを比較し、残余係数の和が最も小さい変換係数の組合せを符号化対象変換係数として決定する。

第１の変換係数に隣接した二つの変換係数の正負符号が同じでない場合には、第１の変換係数に隣接した変換係数を符号化対象から除外し、第２の変換係数に隣接した二つの変換係数の正負符号が同じでない場合には、第２の変換係数に隣接した変換係数を符号化対象から除外する。

指示情報送信ステップでは、符号化対象変換係数の正負符号を指示する情報として、１番目の符号化対象変換係数の正負符号を指示する情報を送信する。

第１の変換係数及び第１の変換係数に隣接した変換係数が符号化対象変換係数として決定された場合、位置情報は、第１の変換係数を重複指示し、第２の変換係数及び第２の変換係数に隣接した変換係数が符号化対象変換係数として決定された場合、位置情報は、第２の変換係数を重複指示する。

符号化対象となる正弦波成分は、超広帯域に属する信号である。

本発明の他の実施形態は、音声信号の復号方法であって、音声情報を含むビットストリームを受信するステップと、ビットストリームに含まれている指示情報に基づいて音声信号を構成する正弦波成分に対する変換係数を復元するステップと、復元された変換係数を逆変換し、音声信号を復元するステップとを含む。

変換係数を復元するステップでは、指示情報が同じ位置を重複指示する場合、指示される位置及び指示される位置と隣接する位置に変換係数を復元する。

指示情報は、変換係数に対する位置情報、振幅情報、及び正負符号情報を含み、位置情報は、トラック内で最も大きい第１の変換係数の情報及びトラック内で２番目に大きい第２の変換係数を指示し、又は第１の変換係数の位置を重複指示し、又は第２の変換係数を重複指示する。

位置情報が第１の変換係数を重複指示する場合には、第１の変換係数及び第１の変換係数に隣接した二つの変換係数を復元し、位置情報が第２の変換係数を重複指示する場合には、第１の変換係数及び第１の変換係数に隣接した二つの変換係数を復元する。

位置情報が第１の変換係数を重複指示する場合には、第１の変換係数及び第１の変換係数に隣接した二つの変換係数を同じ大きさで復元し、位置情報が第２の変換係数を重複指示する場合には、第１の変換係数及び第１の変換係数に隣接した二つの変換係数を同じ大きさで復元する。位置情報が第１の変換係数を重複指示する場合には、第１の変換係数及び第１の変換係数に隣接した二つの変換係数を同じ正負符号で復元し、位置情報が第２の変換係数を重複指示する場合には、第１の変換係数及び第１の変換係数に隣接した二つの変換係数を同じ正負符号で復元する。

このとき、復元される音声信号は、超広帯域音声信号である。

本発明によると、正弦波モードを適用するにあたって、追加のビットを使用せずにより効果的な情報を利用して符号化／復号を実行し、量子化雑音を減少させることができる。

本発明によると、ビット速度を増加させずに追加情報を送信して正弦波モードで音声信号を処理することによって、符号化効率を上げ、送信オーバヘッドを減らすことができる。

本発明によると、追加情報を送信することによって、符号化効率を上げ、量子化雑音を減少させる一方で、ビットストリーム構造を維持して後方互換性を有することができる。

本発明によると、高品質の音声及びオーディオ通信送信サービスが可能であり、これを介して多様な付加サービスを創出することができる。

超広帯域信号を帯域拡張方法によって処理する場合に利用できる符号化器構成の一例を概略的に示す図である。符号化器構成の一例をコア符号化器の構成を中心に説明する図である。超広帯域信号を帯域拡張方法によって処理する場合に利用できる復号器構成の一例を概略的に示す図である。復号器構成の一例をコア復号器の構成を中心に説明する図である。正弦波モードで正弦波を符号化する方法を概略的に説明する図である。一番目のＳＷＢ階層であるレイヤ６での正弦波モードに対するトラック情報の一例を概略的に示す図である。第１の正弦波及び第２の正弦波を選択する方法を概略的に説明する図である。本発明によって正弦波モードで送信する情報を決定する方法の一例を概略的に示すフローチャートである。最大振幅を有する２個の正弦波のうち一つの正弦波にだけ隣接する２個の正弦波の正負符号が各々同じ場合を例として説明する図である。最も大きい２個の正弦波に隣接する２個の正弦波の正負符号が各々同じ場合に、送信する情報を選択する方法を概略的に説明する図である。量子化前のＭＤＣＴ係数の絶対値を利用して送信する情報を決定する方法の一例を概略的に説明するフローチャートである。

以下、図を参照して本発明の実施形態に対して具体的に説明する。本明細書の実施例を説明するにあたって、関連した公知構成又は機能に対する具体的な説明が本明細書の要旨を不明にすると判断される場合にはその詳細な説明は省略する。

一構成要素が他の構成要素に“連結されている”又は“接続されている”と言及された場合、該当他の構成要素に直接的に連結されていること、又は接続されていることを意味するが、中間に他の構成要素が存在してもよいと理解しなければならない。

第１、第２などの用語は、多様な構成要素の説明に使われることがあるが、この構成要素は、上記の用語によって限定されるものではない。上記の用語は、一つの構成要素を他の構成要素と区別する目的にだけ使われる。

本発明の実施例に開示する構成部は、互いに異なる特徴的な機能を示すために独立的に図示されるものであって、各構成部が分離されたハードウェア又は一つのソフトウェア構成単位に構成されることを意味しない。すなわち、各構成部は、説明の便宜上、独立の構成部として配置されているものであり、各構成部のうち少なくとも２個の構成部が統合されて一つの構成部を成し、又は一つの構成部が複数個の構成部に分けられて機能を遂行してもよい。

ネットワークの発達及び高品質サービスに対する要求に応えて、ＮＢからＷＢ又はＳＷＢに至る多様な帯域に対するオーディオ信号処理方法が研究されている。例えば、音声及びオーディオ符号化／復号技術として、符号励起線形予測（ＣＥＬＰ）符号化方式、変換符号化方式、帯域及びチャネル拡張方法などが研究されている。

符号化器は、基本符号化器（ｂａｓｅｌｉｎｅｃｏｄｅｒ）と強化階層（ｅｎｈａｎｃｅｍｅｎｔｌａｙｅｒ）とに区分することができる。また、強化階層は、低域強化（ＬｏｗｅｒＢａｎｄＥｎｈａｎｃｅｍｅｎｔ：ＬＢＥ）階層と、帯域拡張（ＢａｎｄｗｉｄｔｈＥｘｔｅｎｓｉｏｎ：ＢＷＥ）階層と、高域強化（ＨｉｇｈｅｒＢａｎｄＥｎｈａｎｃｅｍｅｎｔ：ＨＢＥ）階層と、に分けられる。

ＬＢＥ階層は、コア符号化器（ｃｏｒｅｅｎｃｏｄｅｒ）／コア復号器（ｃｏｒｅｄｅｃｏｄｅｒ）で処理した音源と原音、すなわち励起信号との差信号、を符号化／復号することによって、低域の音質を向上させる。高域信号は低域信号と類似性を有するため、低域を利用した高域拡張方法によって、低いビット速度で高域信号を復元することができる。

高域信号を拡張して符号化し、復号過程を経て復元する方法であって、ＳＷＢ信号をスケーラブルに拡張して処理する方法を考慮することができる。ＳＷＢ信号を帯域拡張する方法は、修正離散余弦変換（ＭＤＣＴ）領域で動作することができる。

拡張階層は、一般モード（ｇｅｎｅｒｉｃｍｏｄｅ）と正弦波モード（ｓｉｎｕｓｏｉｄａｌｍｏｄｅ）とに分けて処理することができる。例えば、３個の拡張階層が利用される場合、１番目の拡張階層は、一般モード及び正弦波モードで処理され、２番目及び３番目の拡張階層は、正弦波モードで処理されるようにすることができる。

本明細書において、「正弦波」（ｓｉｎｕｓｏｉｄ）は、正弦波（ｓｉｎｅｗａｖｅ）及び正弦波を半波長ほど位相シフトした余弦波（ｃｏｓｉｎｅｗａｖｅ）の双方を含む。したがって、本発明において、正弦波は、正弦波を意味することもあるし、余弦波を意味することもある。入力された正弦波が余弦波である場合には、符号化／復号過程で正弦波又は余弦波に変換することもでき、このような変換は、入力信号が経る変換の変換方法に基づく。入力される正弦波が正弦波である場合にも、符号化／復号過程で余弦波又は正弦波に変換することができ、このような変換は、入力信号が経る変換の変換方法に基づく。

一般モードにおいて、符号化は、符号化された広帯域信号副帯域の適応的複製に基づいて行われる。正弦波モードの符号化では、高周波コンテンツに正弦波が追加される。正弦波モードは、周期性が強い信号、すなわちトーン成分がある信号に対する効率的符号化技法として、正弦波成分ごとに正負符号（ｓｉｇｎ）、振幅、及び位置の情報を符号化することができる。階層ごとに所定個数、例えば、１０個のＭＤＣＴ係数を符号化することができる。

図１は、超広帯域信号を帯域拡張方法によって処理する場合に利用できる符号化器構成の一例を概略的に示す。

図１を参照すると、符号化器１００は、ダウンサンプリング部１０５、コア符号化器１１０、ＭＤＣＴ部１１５、調性（ｔｏｎａｌｉｔｙ）推定部、調性判断部１２５、ＳＷＢ符号化部１３０を含む。ＳＷＢ符号化部１３０は、一般モード部１３５、正弦波モード部１４０、追加正弦波部１４５、１５０を含む。

ＳＷＢ信号が入力されると、ダウンサンプリング部１０５は、入力信号をダウンサンプリングしてコア符号化器が処理できるＷＢ信号を生成する。

ＳＷＢ符号化は、ＭＤＣＴ領域で実行される。コア符号化器１１０は、ＷＢ信号を符号化して合成されたＷＢ信号をＭＤＣＴし、ＭＤＣＴ係数を出力する。

ＭＤＣＴ部１１５は、ＳＷＢ信号をＭＤＣＴし、調性推定部１２０がＭＤＣＴされた信号の調性を推定する。一般モード及び正弦波モードのうちいずれのモードを選択するかは、調性に基づいて判断する。例えば、スケーラブルＳＷＢ帯域拡張方法で３個の階層を利用する場合、１番目の階層、すなわち、レイヤ６ｍｏ（レイヤ７ｍｏ）は、調性推定に基づいて選択することができる。３個の階層のうちレイヤ６ｍｏでは、一般モード及び／又は正弦波モードを使うことができ、上位階層（レイヤ７ｍｏ、レイヤ８ｍｏ）では、正弦波モードを使うことができる。

調性推定は、現在フレームと過去フレームとの間のスペクトルピークの相関分析に基づいて実行することができる。

調性推定部１２０は、調性推定値を調性判断部１２５に出力する。

調性判断部１２５は、ＭＤＣＴ変換された信号が調性（ｔｏｎａｌ）であるかどうかを調性程度に基づいて判断し、ＳＷＢ符号化部１３０に伝達する。例えば、調性判断部１２５は、調性推定部１２０から入力された調性推定値を所定の基準値と比較することによって、ＭＤＣＴ変換された信号が調性信号であるか、又は非調性信号であるかを判断する。

図示されているように、ＳＷＢ符号化部１３０は、ＭＤＣＴされたＳＷＢ信号のＭＤＣＴ係数を処理する。このとき、ＳＷＢ符号化部１３０は、コア符号化器１１０を経て入力される合成ＷＢ信号のＭＤＣＴ係数を利用して、ＳＷＢ信号のＭＤＣＴ係数を処理することができる。

調性判断部１２５によってＭＤＣＴ変換された信号が、調性でないと判断された場合には、一般モード部１３５に信号が伝達され、調性であると判断された場合には、正弦波モード部１４０に信号が伝達される。

一般モードは、入力フレームが調性でないと判断された場合に利用することができる。低域スペクトラムを直接高周波に転置（ｔｒａｎｓｐｏｓｅ）し、原高周波の包絡線に沿うようにパラメータ化する。このとき、パラメータ化は、原高周波数の場合よりも粗く行うことができる。一般モードを適用することによって、高周波コンテンツを低いビット速度で符号化することができる。

例えば、一般モードでは高周波帯域を副帯域（ｓｕｂ−ｂａｎｄ）に分け、所定の類似性判断基準によって、符号化されて包絡線正規化された広帯域コンテンツの中から最もよく一致するものを選択する。選択されたコンテンツは、スケーリングされた後に合成された高周波コンテンツとして出力される。

正弦波モード部１４０は、入力されたフレームが調性である場合に利用することができる。正弦波モードでは、正弦波成分の有限集合を高周波（ＨＦ）スペクトラムに加えてＳＷＢ信号を生成する。このとき、ＨＦスペクトラムは、ＳＷ合成信号のＭＤＣＴ係数を利用して生成される。

追加正弦波部１４５、１５０では、一般モードに出力された信号及び正弦波モードで出力された信号に追加正弦波を付加して生成信号を強化する。例えば、追加正弦波部１４５、１５０は、追加ビットが割り当てられる場合、送信する追加正弦波（パルス）を決定し、量子化する正弦波モードを拡張して信号を強化する。

一方、図示されているように、コア符号化器１１０、調性判断部１２５、一般モード部１３５、正弦波モード部１４０、追加正弦波部１４５、１５０の出力は、ビットストリームで復号器に送信することができる。

図２は、符号化器構成の一例をコア符号化器の構成を中心に説明する図である。図２を参照すると、符号化器２００は、帯域幅確認部２０５、サンプリング変換部２１０、ＭＤＣＴ変換部２１５、コア符号化器２２０、重要ＭＤＣＴ係数抽出及び量子化部２６５を含む。

帯域幅確認部２０５は、入力信号（音声信号）がＮＢ信号であるか、ＷＢ信号であるか、ＳＷＢ信号であるかを判別することができる。ＮＢ信号は、サンプリング速度が８ｋＨｚであり、ＷＢ信号は、サンプリング速度が１６ｋＨｚであり、ＳＷＢ信号は、サンプリング速度が３２ｋＨｚである。

帯域幅確認部２０５は、入力信号を周波数領域に変換してスペクトラムの上位帯域ビン（ｂｉｎ）の成分及び存否を判別することができる。

符号化器２００は、入力信号が固定される場合、例えば、入力信号がＮＢで固定される場合には帯域幅確認部２０５を含まなくてもよい。

帯域幅確認部２０５は、入力信号を判別し、ＮＢ又はＷＢ信号をサンプリング変換部２１０に出力し、ＳＷＢ信号をサンプリング変換部２１０又はＭＤＣＴ変換部２１５に出力する。

サンプリング変換部２１０は、入力信号をコア符号化器２２０に入力されるＷＢ信号に変換するサンプリングを実行する。例えば、サンプリング変換部２１０は、入力された信号がＮＢ信号である場合には、サンプリング速度が１２.８ｋＨｚである信号となるようにアップサンプリングし、入力された信号がＷＢ信号である場合には、サンプリング速度が１２.８ｋＨｚである信号となるようにダウンサンプリングすることによって、１２.８ｋＨｚの下位帯域信号を作ることができる。入力された信号がＳＷＢ信号である場合、サンプリング変換部２１０は、サンプリング速度が１２.８ｋＨｚとなるようにダウンサンプリングすることによって、コア符号化器２２０の入力信号を生成する。

コア符号化器２２０は、前処理部２２５、線形予測分析部２３０、量子化部２３５、ＣＥＬＰモード実行部２４０、量子化部２４５、逆量子化部２５０、合成及び後処理部２５５、及びＭＤＣＴ変換部２６０を含む。

前処理部２２５は、コア符号化器２２０に入力される下位帯域信号のうち、低い周波数成分をフィルタして所望の帯域の信号だけを線形予測分析部に伝達することができる。

線形予測分析部２３０は、前処理部２２５で処理された信号から線形予測係数（ＬＰＣ）を抽出することができる。例えば、線形予測分析部２３０は、入力された信号から１６次線形予測係数を抽出して量子化部２３５に伝達することができる。

量子化部２３５は、線形予測分析部２３０から伝達された線形予測係数を量子化する。下位帯域で量子化された線形予測係数を利用して原下位帯域信号をフィルタすることによって線形予測残余信号（ｒｅｓｉｄｕａｌ）を生成する。

量子化部２３５で生成された線形予測残余信号は、ＣＥＬＰモード実行部２４０に入力される。

ＣＥＬＰモード実行部２４０は、入力された線形予測残余信号のピッチを、自己相関関数を利用して検出する。このとき、１次開ループピッチ検索方法及び１次閉ループピッチ検索方法、合成による分析（ＡｂＳ）などの方法を利用することができる。

ＣＥＬＰモード実行部２４０は、検出されたピッチの情報に基づいて適応符号表インデクス及び利得情報を抽出することができる。ＣＥＬＰモード実行部２４０は、線形予測残余信号から適応符号表の寄与分を除外した残りの成分に基づいて、固定符号表インデクス及び利得を抽出することができる。

ＣＥＬＰモード実行部２４０は、ピッチ検索、適応符号表検索、固定符号表検索によって抽出した線形予測残余信号に対するパラメータ（ピッチ、適応符号表インデクス及び利得、固定符号表インデクス及び利得）を量子化部２４５に伝達する。

量子化部２４５は、ＣＥＬＰモード実行部２４０から伝達されたパラメータを量子化する。

量子化部２４５で量子化された線形予測残余信号に対するパラメータは、ビットストリームで出力することができるため、復号器に送信することができる。また、量子化部２４５で量子化された線形予測残余信号に対するパラメータは、逆量子化部２５０に伝達することができる。

逆量子化部２５０は、ＣＥＬＰモードを介して抽出され、量子化されたパラメータを利用して復元された励起信号を生成する。生成された励起信号は、合成及び後処理部２５５に伝達される。

合成及び後処理部２５５は、復元された励起信号及び量子化された線形予測係数を合成した後、１２.８ｋＨｚの合成信号を生成し、アップサンプリングを介して１６ｋＨｚのＷＢ信号を復元する。

ＭＤＣＴ変換部２６０は、復元されたＷＢ信号をＭＤＣＴ方法によって変換する。ＭＤＣＴ変換されたＷＢ信号は、重要ＭＤＣＴ係数抽出及び量子化部２６５に出力される。

重要ＭＤＣＴ係数抽出及び量子化部２６５は、図１に示すＳＷＢ符号化部に対応する。重要ＭＤＣＴ係数抽出及び量子化部２６５は、ＭＤＣＴ変換部２１５からＳＷＢに対するＭＤＣＴ変換係数の入力を受け、ＭＤＣＴ変換部２６０から合成されたＷＢに対するＭＤＣＴ変換係数の入力を受ける。

重要ＭＤＣＴ係数抽出及び量子化部２６５は、入力されたＭＤＣＴ変換係数を利用して量子化する変換係数を抽出する。重要ＭＤＣＴ係数抽出及び量子化部２６５がＭＤＣＴ係数を抽出する具体的な内容は、図１のＳＷＢ符号化部に対する説明と同様である。

重要ＭＤＣＴ係数抽出及び量子化部２６５は、抽出したＭＤＣＴ係数を量子化してビットストリームで出力し、復号器に送信する。

図３は、超広帯域信号を帯域拡張方法によって処理する場合に利用できる復号器構成の一例を概略的に示す。

図３を参照すると、復号器３００は、コア復号器３０５、第１の後処理部３１０、アップサンプリング部３１５、ＳＷＢ復号部３２０、ＩＭＤＣＴ部３５０、第２の後処理部３５５、加算部３６０を含む。ＳＷＢ復号部３２０は、一般モード部３２５、正弦波モード部３３０、追加正弦波部３３５、３４０を含む。

図示されているように、コア復号器３０５、一般モード部３２５、正弦波モード部３３０、追加正弦波部３３５には、処理する対象情報及び／又は処理のための補助情報をビットストリームから入力することができる。

コア復号器３０５は、広帯域信号を復号してＷＢ信号を合成する。合成されたＷＢ信号は、第１の後処理部３１０に入力され、合成されたＷＢ信号のＭＤＣＴ変換係数は、ＳＷＢ復号部３２０に入力される。

第１の後処理部３１０は、合成されたＷＢ信号を時間領域で改善する。

アップサンプリング部３１５は、ＷＢ信号をアップサンプリングしてＳＷＢ信号を構成する。

ＳＷＢ復号部３２０は、ビットストリームから入力されたＳＷＢ信号のＭＤＣＴを復号する。このとき、コア復号器３０５から入力される合成されたＷＢ信号のＭＤＣＴ係数を利用することができる。ＳＷＢ信号の復号は、主にＭＤＣＴ領域で実行される。

一般モード部３２５及び正弦波モード部３３０は、拡張階層の１番目の階層を復号し、上位階層は、追加正弦波部３３５、３４０で復号することができる。

ＳＷＢ復号部３２０は、ＳＷＢ符号化部で説明した符号化過程に対応して、符号化過程の逆順に復号過程を実行する。このとき、ＳＷＢ復号部３２０は、ビットストリームからの入力情報が調性であるかどうかを判断し、調性である場合には、正弦波モード部３３０又は正弦波モード部３３０及び追加正弦波部３４０で復号過程を実行し、調性でない場合には、一般モード部３２５又は一般モード部３２５及び追加正弦波部３３５で復号過程を実行するようにすることができる。

例えば、一般モード部３２５は、適応的な副帯域複製によってＨＦ信号を構成する。次に、２個の正弦波成分が１番目のＳＷＢ拡張階層のスペクトラムに加えられる。一般モード及び正弦波モードは、正弦波モード符号化のベースとなる類似の強化階層を活用する。

正弦波モード部３３０は、正弦波成分の有限集合に基づいてＨＦ信号を生成する。追加正弦波部３３５、３４０は、上位ＳＷＢ階層に正弦波を追加し、高域コンテンツの品質を改善する。

ＩＭＤＣＴ部３５０は、逆ＭＤＣＴを実行して時間領域の信号を出力し、第２の後処理部３５５は、逆ＭＤＣＴ処理された信号を時間領域で改善する。

加算部３６０は、コア復号器で復号され、アップサンプリングされたＳＷＢ信号とＳＷＢ復号部３２０で出力されたＳＷＢ信号とを加算し、復元された信号を出力する。

図４は、復号器構成の一例をコア復号器の構成を中心に説明する図である。図４を参照すると、復号器４００は、コア復号器４１０、後処理／サンプリング変換部４５０、逆量子化部４６０、上位ＭＤＣＴ係数生成部４７０、ＭＤＣＴ逆変換部４８０、後処理フィルタ部４９０を含む。

符号化器から送信されたＮＢ信号又はＷＢ信号を含むビットストリームは、コア復号器４１０に入力される。

コア復号器４１０は、逆変換部４２０、線形予測合成部４３０、ＭＤＣＴ変換部４４０を含む。

逆変換部４２０は、ＣＥＬＰモードで符号化された音声情報を逆変換し、符号化器から受信したパラメータに基づいて励起信号を復元することができる。逆変換部４２０は、復元された励起信号を線形予測合成部４３０に送信することができる。

線形予測合成部４３０は、逆変換部４２０から送信された励起信号と、符号化器から送信された線形予測係数とを利用して、下位帯域信号（ＮＢ信号、ＷＢ信号等）を復元することができる。

線形予測合成部４３０で復元された下位帯域信号（１２.８ｋＨｚ）は、ＮＢにダウンサンプリングすることもできるし、又はＷＢにアップサンプリングすることもできる。ＷＢ信号は、後処理／サンプリング変換部４５０に出力され、又はＭＤＣＴ変換部４４０に出力される。

後処理／サンプリング変換部４５０は、ＮＢ信号又はＷＢ信号をアップサンプリングし、ＳＷＢ信号復元に使用する合成信号を生成することができる。

ＭＤＣＴ変換部４４０は、復元された下位帯域信号をＭＤＣＴ変換し、上位ＭＤＣＴ係数生成部４７０に送信する。

逆量子化部４６０及び上位ＭＤＣＴ係数生成部４７０は、図３に示す復号器のＳＷＢ復号部に対応する。

逆量子化部４６０は、ビットストリームを介して量子化されたＳＷＢ信号及びパラメータを符号化器から受信し、受信した情報を逆量子化する。

逆量子化されたＳＷＢ信号及びパラメータは、上位ＭＤＣＴ係数生成部４７０に伝達される。

上位ＭＤＣＴ係数生成部４７０は、コア復号器４１０から合成されたＮＢ信号又はＷＢ信号に対するＭＤＣＴ係数を受信し、ＳＷＢ信号に対するビットストリームから必要なパラメータを受信することによって、逆量子化されたＳＷＢ信号に対するＭＤＣＴ係数を生成する。図３に示すように、上位ＭＤＣＴ係数生成部４７０は、信号が調性か否かによって一般モード又は正弦波モードを適用することができ、拡張階層の信号に対しては追加正弦波モードを適用することができる。

ＭＤＣＴ逆変換部４８０は、生成されたＭＤＣＴ係数に対する逆変換を介して信号を復元する。

後処理フィルタ部４９０は、復元された信号に対するフィルタを適用することができる。フィルタを介して量子化誤差を減らし、ピークを強調して、谷（ｖａｌｌｅｙ）を弱める等の後処理を進行することができる。

後処理フィルタ部４９０を介して復元された信号と後処理／サンプリング変換部４５０を介して復元された信号とを合成してＳＷＢ信号を復元することができる。

帯域拡張方法に対して図１乃至図４で説明したように、ＳＷＢ入力信号を符号化するためにコア符号化器及び強化階層処理部（ＳＷＢ符号化部）を経る。ＳＷＢ信号を復号するためにはコア復号器及び強化階層処理部（ＳＷＢ復号部）を経る。

ＳＷＢ入力信号のうちＷＢに該当する信号情報を符号化するために、ＳＷＢ信号は、ＷＢに対応するサンプリング速度にダウンサンプリングし、ＷＢ符号化器（コア符号化器）で符号化される。

ＳＷＢ信号の符号化に利用するために、符号化されたＷＢ信号は、合成された後、ＭＤＣＴ変換され、ＷＢに対するＭＤＣＴ係数をＳＷＢ符号化部に入力することができる。ＳＷＢ入力信号は、ＭＤＣＴ変換後、ＭＤＣＴ係数領域で調性（ｔｏｎａｌｉｔｙ）の程度によって一般モードと正弦波モードとに分けられて符号化される。符号化効率を上げるために、追加正弦波を利用して強化階層を更に符号化してもよい。

ＳＷＢ信号のうちＷＢに該当する信号情報は、ＷＢ復号器（コア復号器）で復号される。復号されたＷＢ信号は、合成された後、ＭＤＣＴ変換され、ＷＢに対するＭＤＣＴ係数をＳＷＢ復号部に入力することができる。符号化されたＳＷＢ信号は、符号化されたモードに対応して一般モードと正弦波モードとに分けられて復号され、追加正弦波を利用して強化階層を更に復号してもよい。逆変換されたＳＷＢ信号及びＷＢ信号は、アップサンプリングなど、追加後処理を経て合成された後、ＳＷＢ信号に復元することができる。

以下、本発明と関連して正弦波モードに対して説明する。

正弦波モードは、音声信号を構成するすべての正弦波（音声信号を構成する正弦波成分ともいう）を符号化するものではなく、音声信号を構成する正弦波のうちエネルギが大きい正弦波だけを符号化する方式である。したがって、すべての正弦波を符号化するときと違って、正弦波モードにおいては、符号化器は、選択された正弦波の振幅情報、正負符号（ｓｉｇｎ）情報だけでなく、選択された正弦波の位置情報を符号化して復号器に送信する。

このとき、音声信号を構成する「正弦波（ｓｉｎｕｓｏｉｄ）」は、音声信号を構成する各正弦波をＭＤＣＴ変換して得たＭＤＣＴ係数（Ｘ（ｋ））を意味する。したがって、本明細書において、正弦波モードにおいて正弦波に対する特性を説明するとき、正弦波の振幅は、該当正弦波成分をＭＤＣＴ変換して得たＭＤＣＴ係数の振幅（Ｃ）、該当正弦波成分の正負符号（ｓｉｇｎ）、該当正弦波成分の位置（ｐｏｓ）を意味することに留意されたい。正弦波の位置は、周波数領域での位置であって、音声信号を構成する各正弦波を特定する波数（ｗａｖｅｎｕｍｂｅｒ）ｋであってもよいし、波数（ｋ）に対応するインデクスであってもよい。

本明細書では、説明の便宜のために、音声信号を構成する各正弦波成分のＭＤＣＴ係数を「正弦波」又は「パルス」と簡単に表示することに留意されたい。したがって、本明細書では、特別な説明がない場合、「正弦波」又は「パルス」は、入力音声信号を構成する各正弦波成分のＭＤＣＴ係数を意味する。

また、本明細書では、説明の便宜のために、正弦波の位置を該当正弦波の波数で特定して説明する。ただし、これは説明の便宜のためのものに過ぎず、本発明はこれに限定されるものではなく、正弦波の位置として周波数領域で正弦波の位置を特定することができる別の情報を利用する場合にも、本発明の内容は、同一に適用することができる。

正弦波モードは、正弦波の位置情報を送信しなければならないため、すべての正弦波を符号化するには適しないが、少ない個数の正弦波を利用して音質を保証しなければない場合、又は低いビット速度を利用して送信しなければならない場合に効果的である。したがって、帯域拡張技法又は低いビット速度の音声コーデックに活用することができる。

図５は、正弦波モードで正弦波を符号化する方法を概略的に説明する図である。

図５を参照すると、入力された音声信号を構成する正弦波が各正弦波の波数（ｋ）に対応して位置する。

上向き正弦波は、正の値を有するＭＤＣＴ係数を示し、下向き正弦波は、負の値を有するＭＤＣＴ係数を意味する。正弦波（ＭＤＣＴ係数）の振幅は、正弦波の長さに対応する。

図５は、位置４に振幅１２６を有する正の正弦波が位置し、位置７４に振幅１８を有する負の正弦波が位置する場合を例として説明する。正弦波モードでは、前述したように、正弦波の振幅情報、正負符号情報、及び位置情報を送信する。

二つの最も大きい正弦波を検索して該当情報を符号化する場合を仮定すると、図５の例では、位置４に位置する一番目の正弦波の情報［振幅：１２６、正負符号：＋、位置：４］を符号化し、２番目の正弦波の情報［振幅：７４、正負符号：−、位置：１８］を符号化することができる。

図６は、一番目のＳＷＢ階層であるレイヤ６での正弦波モードに対するトラック情報の一例を概略的に示す。

図６の例では、周波数領域で音声信号を構成する各正弦波（ＭＤＣＴ係数）が各正弦波の波数に対応する位置に表示されている。

トラック０は、２８０〜３４２の周波数区間に位置し、位置単位（例えば、波数又は周波数）において間隔２を有する正弦波で構成される。トラック１は、２８１〜３４３の周波数区間に位置し、間隔２を有する正弦波で構成される。トラック２は、３４４〜４０６の周波数区間に位置し、間隔２を有する正弦波で構成される。トラック３は、３４５〜４０７の周波数区間に位置し、間隔２を有する正弦波で構成される。トラック４は、４０８〜４７１の周波数区間に位置し、間隔１を有する正弦波で構成される。トラック５は、４７２〜５０３の周波数区間に位置し、間隔１を有する正弦波で構成される。

正弦波モードでは、トラック順かつトラック毎に、所定の条件を満たす所定個数の正弦波を検索し、検索された正弦波を量子化する。検索されて量子化される正弦波は、前述したように、該当正弦波のＭＤＣＴ係数であることに留意されたい。

レイヤ６において、ビット割当てによって、トラック０からトラック３までの４個のトラックでは、各々、２個の正弦波が検索されて量子化され、トラック４及びトラック５では、各々、一つの正弦波が検索されて量子化される。

各トラックでの検索は、トラック内で最も大きい正弦波、すなわち、振幅が最も大きい正弦波をトラック別に割り当てられた個数だけ検索することである。したがって、図５のような例を考慮すると、トラック０、トラック１、トラック２、及びトラック３では、最も大きい２個の正弦波を検索し、トラック４及びトラック５では、最も大きい一つの正弦波を検索する。

一番目のＳＷＢ階層であるレイヤ６における正弦波モードは、図１及び図３の正弦波モード部で実行することができる。

正弦波モードは、ＨＦ信号で１０個のパルス（正弦波）を抽出する方法によって符号化することができる。最初の４個のパルスは、７０００〜８６００Ｈｚに該当する位置で抽出することができ、次の４個のパルスは、８６００〜１０２００Ｈｚ帯域、最後の２個は、１０２００〜１１８００Ｈｚ帯域及び１１８００〜１２６９９Ｈｚ帯域で各々一つずつ抽出することができる。

検索されたパルスは、量子化することができる。

検索されたパルスの位置、すなわち、最も大きいパルスの位置は、現在階層で求めたオリジナルの信号Ｍ₃₂（ｋ）と以前階層で求めたＨＦ合成信号

との差分値を利用して決定することができる。式１は、差分値を決定する方法の一例を示す。

式１において、Ｍは、ＭＤＣＴ係数の振幅を示し、ｋは、パルス（正弦波）の位置であって、波数を示す。したがって、Ｍ₃₂（ｋ）は、３２ＫＨｚまでのＳＷＢに対する位置ｋでのパルス振幅を示す。

レイヤ６の正弦波モードは、ＨＦ合成信号が存在しないため、初期値を０に設定することができる。したがって、レイヤ６において、式１を利用して差分値を求める過程は、結局、Ｍ₃₂（ｋ）の最大値を求めることである。

Ｄ（ｋ）から５個の副帯域に分割し、Ｄ_j（ｋ）（ここで、０≦ｊ≦４又は１≦ｊ≦５）を作る。各副帯域のパルス個数は、予め決定されたＮ_j（Ｎは、整数）値を有する。

表１は、各副帯域別にＮ_j個の最も大きいパルスを探す方法の一例を示す。

表１の例のような整列方法を介して最大値Ｎを検索し、検索したＮ値をｉｎｐｕｔ_ｄａｔａという配列に格納する。

表２は、レイヤ６において、副帯域Ｄ_j（ｋ）別に抽出するパルスの個数及び範囲を説明するものである。

表２は、各トラック別に検索によって符号化対象として抽出される正弦波（パルス）の個数、トラックの開始位置（検索の開始位置）、各トラック別パルス位置の間隔サイズ、各トラック別パルスの個数を示す。

各トラック別に抽出されたＮ_j個のパルスは、位置情報ｐｏｓ_j（ｌ）（ｌ＝０,...,Ｎ_j）を有しており、位置情報は、各トラックの開始位置に関連している。

抽出されたパルスの振幅ｃ_j（ｌ）は、以下のように符号化することができる。

（式２）
ｃ_j（ｌ）＝ｌｏｇ（|Ｄ_j（ｐｏｓ_j（ｌ））|）

式２によると、振幅値は符号化されるが、正負符号情報を失う。したがって、パルスの符号値は、次の式３によって別個に符号化することができる。

このとき、Ｎ_j＝２個である場合には検索された二つのパルスの符号値を全部送信するのではなく、トラック別に一番目のパルスの正負符号値を送信する。他のパルスの正負符号値情報は、１番目のパルスの正負符号値を符号化するとき、表３を利用して導出することができる。

表３において、ｐｏｓ_j（０）、Ｓｉｇｎ_ｓｉｎ_j（０）、ｃ_j（０）は振幅が大きいパルスの位置、正負符号、振幅を示し、ｐｏｓ_j（１）、Ｓｉｇｎ_ｓｉｎ_j（１）、ｃ_j（１）は振幅が小さいパルスの位置、正負符号、振幅を示す。

表３の方法によると、振幅が大きいパルスが、振幅が小さいパルスより周波数軸上で前に位置するときは、二つのパルスの正負符号が同じものとして誘導し、振幅が大きいパルスが、振幅が小さいパルスより周波数軸上で後に位置するときは、二つのパルスの正負符号が異なるものとして誘導することができる。したがって、復号器側では、符号化器が表３の方式によって整列した情報を受信すると、二つのパルスの正負符号を誘導することができる。

レイヤ６の場合は、式１で原信号をターゲット信号にして符号化を実行したが、レイヤ６の上位階層、例えば、レイヤ７又はレイヤ８の場合には、式１に示すように、前の階層の原信号と上位階層の合成信号との間の差をターゲット信号にして符号化が実行される。

レイヤ６の上位階層で実行される符号化の方式も、レイヤ６に対して前述した符号化方法に類似する。

ＳＷＢ強化階層の１番目の階層であるレイヤ７に対する符号化では、ＨＦ（７〜１４ｋＨｚ）信号から更に１０個のパルスが抽出される。レイヤ７では、一般モード及び正弦波モードによって符号化する周波数帯域が異なるように設定することができる。

一般モードで出力されるＨＦ信号

は、総計８個の副帯域に分けられ、副帯域ごとにエネルギが計算される。各副帯域は、表２のように、３２個のＭＤＣＴ係数で構成されており、各副帯域でのエネルギ計算方法は、式４の通りである。

式４において、

は、一般モードを経て再合成されたＨＦ信号である。

レイヤ７において、８個の副帯域は、各副帯域別エネルギを互いに比較してエネルギが最も多い副帯域からエネルギの大きさ順に整列される。整列された副帯域のうちエネルギが最も多い５個の副帯域を選択し、副帯域別に５個のパルスをレイヤ６で説明した正弦波符号化方法によって抽出する。このとき、正弦波符号化方法で定義されるトラックの位置は、フレーム別ＨＦ信号のエネルギ特徴によって異なる。

正弦波モードで出力されるＨＦ信号

から抽出される総計１０個のパルスは、４個を抽出する過程と６個を抽出する過程とを介して抽出される。４個のパルスは、９４００〜１１０００Ｈｚ帯域に該当する位置で抽出され、６個のパルスは、１１０００〜１３４００Ｈｚ帯域に該当する位置で抽出される。

表４は、レイヤ７の正弦波モード（正弦波モードフレーム）におけるトラック別情報を示す。

表４において、レイヤ７の各トラック別に検索によって符号化対象として抽出される正弦波の個数、トラックの開始位置（検索の開始位置）、各トラック別パルス位置の間隔サイズ、各パルスの個数を示す。

一方、レイヤ８では更に２０個のパルスを抽出し、レイヤ７と同様にレイヤ６のモードに少しの差異を付加する。

一般モード（一般モードフレーム）では、１０個ずつのパルスを抽出する二つの互いに異なる過程が実行される。

一番目の１０個のパルスのうち６個のパルスは、３個のトラックからトラック当たり２個ずつ抽出され、パルスが抽出される帯域は、９７５０〜１２１５０Ｈｚである。一番目の１０個のパルスのうち残った４個のパルスは、２個のトラックから２個ずつ抽出され、パルスが抽出される帯域は、１２１５０〜１３７５０Ｈｚである。

２０個のパルスのうち残った１０個のパルスの抽出方法も類似する。１０個のパルスのうち初めの６個のパルスは、３個のトラックからトラック当たり２個ずつ抽出され、パルスが抽出される帯域は、８６００〜１１０００Ｈｚである。残った４個のパルスは、２個のトラックから２個ずつ抽出され、パルスが抽出される帯域は、１１０００〜１２６００Ｈｚである。

表５は、レイヤ８の一般モードフレームで正弦波トラック構造の例を説明するものである。

表６は、レイヤ８の正弦波モードフレームで２０個のパルスのうち１番目の１０個のパルスを抽出する第１の集合に対する正弦波トラック構造の例を示す。

表７は、レイヤ８の正弦波モードフレームで２０個のパルスのうち２番目の１０個のパルスを抽出する第２の集合に対する正弦波トラック構造の例を示す。

前述した正弦波トラック構造に対する例を示す表を参照すると、１トラック当たり２個の正弦波を符号化することが一般的である。例えば、レイヤ７に対する表４の例では、５個のトラックのトラックごとに２個の正弦波を符号化するために１正弦波当たり３２個の位置、すなわち、５ビットが割り当てられている。５ビットを使用する場合、すべての位置情報が２⁵＝３２個の探索空間で表現されるため、位置情報以外に追加の情報を送信することは困難である。

既存の正弦波モードでは３２個の探索空間に対して２個のインデクスを送信し、このために５ビットを使用する。すなわち、正弦波モードでは、第１の正弦波の検出から、絶対値が最も大きい正弦波である第１の正弦波の位置情報、正負符号情報、及び振幅情報を抽出した後、絶対値が２番目に大きい正弦波である第２の正弦波を検索して位置情報、正負符号情報、及び振幅情報を抽出する。第２の正弦波を検出する時、検出された第１の正弦波が再検出されないように第１の正弦波の振幅を０に設定する。

第２の正弦波を検出するとき、第１の正弦波の振幅を０に設定するため、第２の正弦波を検出するステップで第１の正弦波の位置と同じ位置が選択されない。

図７は、第１の正弦波及び第２の正弦波を選択する方法を概略的に説明する図である。図７の例では、位置４に存在するパルスの振幅が最も大きい１２６である。したがって、第１の正弦波として位置４のパルスが検索されて、位置、正負符号、及び振幅の情報が抽出される。

第２の正弦波を検出するとき、既に検出された第１の正弦波の振幅を０に設定しない場合、第２の正弦波として位置４のパルスが再検索されることができるため、正弦波モードでは第１の正弦波の振幅を０に設定して第２の正弦波を検索する。

したがって、各パルスの位置に５ビットを使用して二つのパルスの位置を表示することができる組合せの数は２⁵×２⁵＝１０２４個であるが、正弦波モードでは第２の正弦波の検索において使われない場合の数が存在するため、実際正弦波モードで使用可能な組合せの数は２⁵×（２⁵−１）＝９９２個である。

結局、１０ビットを使用するが、使用しない場合の数３２個が存在する。すなわち、図７の例において、第１の正弦波を検索するステップでも位置４の正弦波を選択する場合、及び第２の正弦波を検索するステップでも位置４の正弦波を選択する場合が使用されていないが、送信ビットに割り当てられた場合の数としては存在する。

したがって、使用はしないが、存在はする場合を、音声信号の特徴をよく表す新たな正弦波の組合せを指示するために定義し、新たに定義された正弦波組合せを指示する情報を送信することができる。

例えば、２個の正弦波の位置を指示する送信情報が同じ位置を第１の正弦波の位置を重複指示する場合、又は第２の正弦波の位置を重複指示する場合には重複指示される正弦波及び重複指示された正弦波に隣接する正弦波を指示すると定義することができる。図７の例において、正弦波の位置を指示する情報が位置４を重複して指示する場合には、位置４の正弦波及び位置５の正弦波を指示すると定義することができる。

この場合、指示する正弦波と共に、指示する正弦波の前後に隣接する２個の正弦波が符号化対象正弦波として抽出されたものであると定義することができ、送信される情報は、（１）重複指示する正弦波、及び（２）隣接する２個の正弦波のうちいずれか一つである。受信する復号器側では、送信された情報のうち隣接する正弦波に対する情報は、重複指示された正弦波位置の前後で同じであると解釈して該当正弦波を復元することができる。

例えば、復号器は、２個の正弦波（パルス）の位置を指示する位置インデクスが同じインデクスである場合、すなわち、二つの位置インデクスが全部１５である場合、位置インデクス１５の正弦波と共に、位置インデクス１４又は位置インデクス１６の正弦波が符号化対象正弦波として抽出されたものであると判断することができる。したがって、復号器は、送信された情報に基づいて位置インデクス１５の正弦波を復元し、位置インデクス１４及び位置インデクス１６の正弦波を同じ情報に基づいて復元することができる。

したがって、表２乃至表７を参照すると、各トラック別に２個の正弦波を送信する場合、すなわち、レイヤ６で正弦波モードが適用されるフレームの所定トラック（図６の例によると、トラック０〜トラック３）と、レイヤ７で正弦波モードが適用されるフレームのトラックと、レイヤ８で一般モードが適用されるフレームのトラックと、正弦波モードが適用されるフレームのトラックと、レイヤ６で一般モードが適用され、レイヤ８で追加正弦波モードが適用されるフレームのトラックとに対しては、最も大きい２個の正弦波の代わりに入力音声信号の特性をよく反映する２個の正弦波（例えば、隣接した２個の正弦波）を選択することもできる。選択された２個の正弦波の情報は、同じ正弦波位置が重複指示される場合に対応させて送信することができる。

隣接した２個の正弦波の情報を送信する場合にも情報を送信する方法は、二つの最も大きい正弦波情報を送信する場合と同様である。例えば、正弦波の位置を指示する情報、正弦波の振幅を指示する情報、正弦波の正負符号を指示する情報が送信され、このとき、「正弦波」とは、前述したように、正弦波のＭＤＣＴ係数を意味し、正弦波の位置は、該当正弦波（ＭＤＣＴ係数）に対応する波数である。また、二つの隣接した正弦波の正負符号は、１ビットを利用して送信することができる。１ビットを使用して隣接した２個の正弦波の正負符号情報を送信するために、隣接した２個の正弦波の正負符号が同じ場合だけを送信対象情報に限定する方法も利用することができる。

本発明では、位置情報を符号化するにあたって、送信に使用しない場合の数に付加的な情報を対応させることによって、同じ送信ビットを使用する一方で、既存の正弦波モードによって符号化する成分の数、すなわち、送信できる情報の数を増加させる。これによって、追加ビットを使用せずに量子化雑音を減少させることができる。また、量子化による雑音を考慮して（１）最も大きい２個の正弦波に対する情報を送信する方法、及び（２）最も大きい２個の正弦波に対する情報と隣接した２個の正弦波に対する情報のうち効率的な情報を選択的に送信する方法を適応的に利用することによって量子化雑音の増加を防止し、音質を向上させることもできる。

以下、図を参照して最も大きい２個の正弦波に対する情報と、隣接した２個の正弦波に対する情報とのうち効率的な情報を送信する方法を説明する。

該当トラックで２個の正弦波情報を送信する場合、検索によって最も大きい２個の正弦波、第１の正弦波及び第２の正弦波が検出された場合を仮定する。第１の正弦波は、該当トラックで振幅が最も大きい正弦波であり、第２の正弦波は、該当トラックで振幅が２番目に大きい正弦波を示す。

本発明では、（１）第１の正弦波及び第２の正弦波の情報、（２）第１の正弦波及び第１の正弦波に隣接した正弦波の情報、（３）第２の正弦波及び第２の正弦波に隣接した正弦波の情報の中からいずれか一つを選択して送信する。

隣接した２個の正弦波の情報を送信する場合（すなわち、（２）と（３）の場合）には、同じ正弦波の位置を指示する二つのインデクス情報を送信する。例えば、（２）の場合には、第１の正弦波の位置を各々指示する二つのインデクスを送信し、（３）の場合には、第２の正弦波の位置を指示する二つのインデクスを送信してもよい。

（１）第１の正弦波及び第２の正弦波の情報、（２）第１の正弦波及び第１の正弦波に隣接した正弦波の情報、（３）第２の正弦波及び第２の正弦波に隣接した正弦波の情報のうちいずれを送信するかは、各場合に対するＭＳＥを比較して決定することができる。

該当トラックでｎ番目に大きい正弦波の位置をｐｏｓⁿ _MAXとすると、第１の正弦波の位置はｐｏｓ¹ _MAXで表し、第２の正弦波の位置はｐｏｓ² _MAXで表すことができる。また、第１の正弦波に隣接した２個の正弦波の位置はｐｏｓ¹ _MAX−１とｐｏｓ¹ _MAX＋１になり、第２の正弦波に隣接した２個の正弦波の位置はｐｏｓ² _MAX−１とｐｏｓ² _MAX＋１になる。

したがって、第１の正弦波に対するＭＳＥであるＭＳＥ¹ _MAX、第２の正弦波に対するＭＳＥであるＭＳＥ² _MAX、第１の正弦波に隣接した２個の正弦波に対する平均ＭＳＥであるＭＳＥ¹ _adjacent、第２の正弦波に隣接した２個の正弦波に対する平均ＭＳＥであるＭＳＥ² _adjacentは、例えば、式５のとおりである。

式５において、Ｘ（ｋ）は、原本信号を構成するｋ番目の正弦波成分（波数がｋである正弦波）のＭＤＣＴ係数を意味し、

は、ｋ番目の正弦波成分の量子化されたＭＤＣＴ係数を意味する。

第１の正弦波のＭＤＣＴ係数はＸ（ｐｏｓ¹ _MAX）で表し、第２の正弦波のＭＤＣＴ係数はＸ（ｐｏｓ² _MAX）で表すことができる。したがって、第１の正弦波に隣接した２個の正弦波のＭＤＣＴ係数は、Ｘ（ｐｏｓ¹ _MAX−１）及びＸ（ｐｏｓ¹ _MAX＋１）で表し、第２の正弦波に隣接した２個の正弦波のＭＤＣＴ係数は、Ｘ（ｐｏｓ² _MAX−１）及びＸ（ｐｏｓ¹ _MAX＋１）で表すことができる。

本発明では、（１）第１の正弦波及び第２の正弦波の情報、（２）第１の正弦波及び第１の正弦波に隣接した正弦波の情報、（３）第２の正弦波及び第２の正弦波に隣接した正弦波の情報に対するＭＳＥを比較し、（１）〜（３）のうちＭＳＥが少ない情報を送信することができる。

また、隣接した２個の正弦波の情報を送信する一方で、（１）の場合と同一な送信ビットを使用するために、２個の正弦波の正負符号が同じ場合だけを（２）及び（３）の対象に限定してもよい。したがって、式３及び表３を利用して１ビットで正弦波の正負符号を送信する（１）の場合と同様に、（２）及び（３）の場合でも１ビットで正弦波の正負符号を指示することができる。

図８は、本発明によって正弦波モードで送信する情報を決定する方法の一例を概略的に示すフローチャートである。図８の方法は、図１に示す符号化器の正弦波モード部及び追加正弦波部で実行することもできる。図８の説明でも、前述したように「正弦波」は、該当正弦波のＭＤＣＴ係数を意味する。

図８を参照すると、正弦波情報を送信するトラックから検索を介して最大振幅を有する２個の正弦波（第１の正弦波及び第２の正弦波）が検出される（Ｓ８００）。前述したように、検出される第１の正弦波の位置をｐｏｓ¹ _MAXといい、第２の正弦波の位置をｐｏｓ² _MAXという。最も大きい振幅を有する２個の正弦波は、式１を利用して検出されたＤ（ｋ）値を利用して検出することができる。

次に、検出した正弦波のうち第１の正弦波に隣接した２個の正弦波の正負符号が同じかどうかを判断する（Ｓ８１０）。２個の正弦波の情報を送信する場合、正負符号に対する情報は、先に送信される正弦波の情報だけが１ビットで送信される。したがって、最も大きい２個の正弦波の情報を送信する代わりに、隣接した２個の正弦波の情報を送信するときは、隣接した２個の正弦波の正負符号が同じ場合だけを対象とすることによって、最も大きい２個の正弦波の情報を送信する場合と同様に、正負符号に対する情報を１ビットで送信することができる。

第１の正弦波に隣接した２個の正弦波の正負符号が同じ場合、第２の正弦波に対するＭＳＥの大きさと、第１の正弦波に隣接した正弦波の平均ＭＳＥの大きさと、を比較する（Ｓ８２０）。第２の正弦波のＭＳＥ及び第１の正弦波に隣接した正弦波の平均ＭＳＥは、式５の場合のとおりである。

第２の正弦波のＭＳＥが第１の正弦波に隣接した正弦波の平均ＭＳＥより小さい場合、第１の正弦波に隣接した正弦波の情報は送信対象から除外される。したがって、第２の正弦波及び第１の正弦波に対する情報を送信するか、又は第２の正弦波及び第２の正弦波に隣接した正弦波の情報を送信するかを決定する。

Ｓ８１０ステップにおいて、第１の正弦波に隣接した２個の正弦波の正負符号が相違すると判断した場合にも、第１の正弦波に隣接した２個の正弦波の情報は送信対象から除外されるため、第２の正弦波及び第１の正弦波に対する情報を送信するか、又は第２の正弦波及び第２の正弦波に隣接した正弦波の情報を送信するかを決定する。

第２の正弦波のＭＳＥが第１の正弦波に隣接した正弦波の平均ＭＳＥより大きい場合、第２の正弦波の情報と第１の正弦波の情報を共に送信することは、対象から除外される。したがって、第１の正弦波及び第１の正弦波に隣接した正弦波の情報を送信するか、又は第２の正弦波及び第２の正弦波に隣接した正弦波の情報を送信するかを決定する。

Ｓ８２０ステップにおいて、第２の正弦波のＭＳＥが第１の正弦波に隣接した正弦波の平均ＭＳＥより小さい場合、又は第１の正弦波に隣接した２個の正弦波の正負符号が相違する場合には、第２の正弦波に隣接した２個の正弦波の正負符号が同じかどうかを判断する（Ｓ８３０）。

第２の正弦波に隣接した２個の正弦波の正負符号が同じ場合、第１の正弦波のＭＳＥの大きさと、第２の正弦波に隣接した正弦波の平均ＭＳＥの大きさと、を比較する（Ｓ８４０）。

第１の正弦波のＭＳＥが第２の正弦波に隣接した正弦波の平均ＭＳＥより大きい場合、第２の正弦波及び第２の正弦波に隣接した正弦波の情報が送信される（Ｓ８５０）。このとき、第２の正弦波の情報と共に第２の正弦波に隣接した２個の正弦波のうち一つの情報が送信される。例えば、第２の正弦波の位置を重複指示する位置情報、第２の正弦波及び第２の正弦波に隣接した正弦波の振幅情報、第２の正弦波及び第２の正弦波に対する正負符号情報が符号化されて送信される。

受信する復号器側では、送信された正弦波の情報に基づいて、第２の正弦波及び第２の正弦波に隣接した正弦波を発生することができる。第２の正弦波に隣接する正弦波は、第２の正弦波に隣接する二つの位置（第２の正弦波の前後）に同じ振幅及び正負符号の正弦波として発生することができる。

第１の正弦波のＭＳＥが第２の正弦波に隣接した正弦波の平均ＭＳＥより小さい場合には、第１の正弦波及び第２の正弦波の情報が送信される（Ｓ８６０）。Ｓ８３０ステップにおいて、第２の正弦波に隣接した２個の正弦波の正負符号が相違する場合も、第２の正弦波に隣接した正弦波の情報は送信対象でないため、第１の正弦波及び第２の正弦波の情報が送信される（Ｓ８６０）。

一方、Ｓ８２０ステップにおいて、第２の正弦波のＭＳＥが第１の正弦波に隣接した正弦波の平均ＭＳＥより大きい場合には、第１の正弦波に隣接した２個の正弦波の正負符号が同じかどうかを判断する（Ｓ８７０）。

第１の正弦波に隣接した２個の正弦波の正負符号が同じ場合には、第１の正弦波及び第１の正弦波に隣接した正弦波のＭＳＥの大きさと、第２の正弦波及び第２の正弦波に隣接した正弦波のＭＳＥの大きさと、を比較する（Ｓ８８０）。第１の正弦波及び第１の正弦波に隣接した正弦波のＭＳＥは、第１の正弦波のＭＳＥと第１の正弦波に隣接した正弦波の平均ＭＳＥを意味する。第２の正弦波及び第２の正弦波に隣接した正弦波のＭＳＥは、第２の正弦波のＭＳＥ及び第２の正弦波に隣接した正弦波の平均ＭＳＥを意味する。

第１の正弦波及び第１の正弦波に隣接した正弦波のＭＳＥが第２の正弦波及び第２の正弦波に隣接した正弦波のＭＳＥより小さい場合、第１の正弦波及び第１の正弦波に隣接した正弦波の情報が送信される（Ｓ８９０）。このとき、第１の正弦波の情報と共に、第１の正弦波に隣接した２個の正弦波のうち一つの情報が送信される。例えば、第１の正弦波の位置を重複指示する位置情報、第１の正弦波及び第１の正弦波に隣接した正弦波の振幅情報、第１の正弦波及び第１の正弦波に対する正負符号情報が符号化されて送信される。

受信する復号器側では、送信された正弦波の情報に基づいて第１の正弦波及び第１の正弦波に隣接した正弦波を発生することができる。第１の正弦波に隣接する正弦波は、第１の正弦波に隣接する二つの位置（第１の正弦波の前後）に同じ振幅及び正負符号の正弦波として発生することができる。

第１の正弦波及び第１の正弦波に隣接した正弦波のＭＳＥが第２の正弦波及び第２の正弦波に隣接した正弦波のＭＳＥより大きい場合、第２の正弦波及び第２の正弦波に隣接した正弦波の情報が送信される（Ｓ８５０）。このとき、第２の正弦波の情報と共に、第２の正弦波に隣接した２個の正弦波のうち一つの情報が送信される。受信する復号器側では、前述したように、第２の正弦波及び第２の正弦波に隣接した正弦波を発生することができる。

Ｓ８２０で判断する関係であるＭＳＥ² _MAX＜ＭＳＥ¹ _adjacentは、ＭＳＥ¹ _MAX＋ＭＳＥ² _MAX＜ＭＳＥ¹ _MAX＋ＭＳＥ¹ _adjacentと等価となる。また、Ｓ８４０で判断する関係であるＭＳＥ¹ _MAX＞ＭＳＥ² _adjacentは、ＭＳＥ¹ _MAX＋ＭＳＥ² _MAX＞ＭＳＥ² _MAX＋ＭＳＥ² _adjacentと等価となる。

これを考慮すると、（１）第１の正弦波及び第２の正弦波の情報、（２）第１の正弦波及び第１の正弦波に隣接した正弦波の情報、（３）第２の正弦波及び第２の正弦波に隣接した正弦波の情報のうち、送信可能な対象情報の中からＭＳＥが最も小さい情報が送信される。

このとき、送信可能な対象情報とは、（ｉ）第１の正弦波及び第２の正弦波情報、（ii）第１の正弦波及び第１の正弦波に隣接した正弦波の情報であって、第１の正弦波に隣接した２個の正弦波の正負符号が同じ場合、（iii）第２の正弦波及び第２の正弦波に隣接した正弦波の情報であって、第２の正弦波に隣接した２個の正弦波の正負符号が同じ場合を意味する。

表８は、図８の例で送信される情報を簡単に示す。

表８において、“第１の正負符号”は、第１の正弦波に隣接した２個の正弦波の正負符号が同一であるか相違であるかを示す。表７において、“第２の正負符号”は、第２の正弦波に隣接した２個の正弦波の正負符号が同一であるか相違であるかを示す。

表８において、“ＭＳＥ１＆２ＶＳＭＳＥ１＆ＡＤＪ”は、第１の正弦波及び第２の正弦波の情報を送信する場合に対するＭＳＥと、第１の正弦波及び第１の正弦波に隣接した正弦波の情報を送信する場合に対するＭＳＥとのうち、小さいものを示す。

表８において、“ＭＳＥ１＆２ＶＳＭＳＥ２＆ＡＤＪ”は、第１の正弦波及び第２の正弦波の情報を送信する場合に対するＭＳＥと、第２の正弦波及び第２の正弦波に隣接した正弦波の情報を送信する場合に対するＭＳＥとのうち、小さいものを示す。

表８において、“ＭＳＥ１＆ＡＤＪＶＳＭＳＥ２＆ＡＤＪ”は、第１の正弦波及び第１の正弦波に隣接した正弦波の情報を送信する場合に対するＭＳＥと、第２の正弦波及び第２の正弦波に隣接した正弦波の情報を送信する場合に対するＭＳＥとのうち、小さいものを示す。

本発明では、トラック内で最も大きい２個の正弦波を単純に検出して送信する方法で利用されなかった場合についての新たな情報が更に用いられる。したがって、最も大きい２個の正弦波の情報だけを送信する場合のビットストリームと同一なビットストリーム構造を利用することができる。

表９は、本発明で使用するビットストリームの構造を概略的に説明するものである。

図８の例では、送信する情報を選択する方法として、最も大きい振幅を有するものとして検出された正弦波（第１の正弦波、第２の正弦波）に対するＭＳＥと隣接した正弦波に対するＭＳＥの平均とを比較し、ＭＳＥが低い場合を選択する方法を採択している。したがって、追加の送信ビットを使用することなく最も大きい正弦波の情報外により効果的な情報がある場合（ＭＳＥがより小さい情報がある場合）、より効果的な情報を送信することによって量子化雑音を減らすことができる。

例えば、表１０の関係を満たす場合には、最も大きい正弦波として検出された２個の正弦波を選択し、選択された２個の正弦波の情報を送信する。一方、表９の関係を満たさない場合には、最も大きい正弦波として検出された２個の正弦波のうちいずれか一つとそれに隣接した正弦波を選択し、選択された正弦波の情報を送信する。

表１０の例は、図８で説明した方法のうち一部を例示したものであって、最も大きい２個の正弦波の情報と、最も大きい一つの正弦波及びそれに隣接した正弦波の情報とのうちいずれを送信するかを選択する方法を簡単に示す。

図９は、最大振幅を有する正弦波２個のうち一つの正弦波に対してだけ、隣接正弦波の正負符号が同じ場合を例として説明する図である。

図９を参照すると、ｐｏｓ¹ _MAXに位置する第１の正弦波に対して隣接するｐｏｓ¹ _MAX−１及びｐｏｓ¹ _MAX＋１には同じ正負符号を有する正弦波が存在しない。これに対し、ｐｏs² _MAXに位置する第２の正弦波に対しては隣接するｐｏｓ² _MAX−１及びｐｏｓ² _MAX＋１に位置する２個の正弦波は、正負符号が同じである。

したがって、第２の正弦波は、符号化する正弦波として選択され、第２の正弦波と共に第１の正弦波を符号化するか、又は隣接正弦波９１０を符号化するかが決定される。第１の正弦波を符号化するか、又は隣接正弦波９１０を符号化するかは、表９のような判別方法を介して決定することができる。

図１０は、最も大きい２個の正弦波に隣接する２個の正弦波の正負符号が各々同じ場合に、送信する情報を選択する方法を概略的に説明する図である。

図１０を参照すると、第１の正弦波（Ｘ（ｐｏｓ¹ _MAX））に隣接する２個の正弦波（Ｘ（ｐｏｓ¹ _MAX−１）,Ｘ（ｐｏｓ¹ _MAX＋１））の正負符号が同じである。また、第２の正弦波（Ｘ（ｐｏｓ² _MAX））に隣接する２個の正弦波（Ｘ（ｐｏｓ² _MAX−１）,Ｘ（ｐｏｓ² _MAX＋１））の正負符号も同じである。

したがって、この場合には、（１）第１の正弦波及び第２の正弦波の情報を送信するか、（２）第１の正弦波及び隣接正弦波１０１０の情報を送信するか、（３）第２の正弦波及び隣接正弦波１０２０の情報を送信するかを決定しなければならない。この場合、それぞれのＭＳＥを比較することによって、式６のように、ＭＳＥを最小化する場合を決定する。送信する情報は、上記の（１）乃至（３）でＭＳＥを最小化する場合の情報として決定される。

（式６）
Ｍｉｎ（｛ＭＳＥ¹ _MAX＋Ｍｉｎ（ＭＳＥ² _MAX,ＭＳＥ¹ _Adjacent）｝,｛ＭＳＥ² _MAX＋ＭＳＥ² _Adjacent｝）

以上、ＭＳＥを利用して送信する情報を選択する方法を説明したが、本発明は、これに限定されるものではない。

例えば、ＭＳＥの代わりに正弦波の振幅（正弦波成分のＭＤＣＴ係数の大きさ）を考慮して、送信する情報を選択するようにすることもできる。このとき、特定正弦波の振幅は、残余信号の和の大きさによって判断することができる。残余信号の和（Ｄ）は、検索対象トラックの正弦波に対する全体ＭＤＣＴ係数の和から、特定正弦波に対応するＭＤＣＴ係数の量子化された値を除外した値であると定義することができる。

式７は、検索対象トラックで検索された最も大きい２個の正弦波（第１の正弦波、第２の正弦波）に対する残余信号の和と、第１の正弦波に隣接した正弦波に対する残余信号の和との平均を示す。

式７において、

は、原ＭＤＣＴ係数Ｘ（ｋ）のうち、現在検索されるトラックのＭＤＣＴ係数のうちｋ番目のＭＤＣＴ係数を意味し、

は、現在検索されるトラックのＭＤＣＴ係数のうちｋ番目の量子化されたＭＤＣＴ係数を意味する。

また、ｐｏｓⁿ _MAXは、前述したように、トラック内でｎ番目に大きい正弦波（正弦波成分のＭＤＣＴ係数）の位置を意味する。

Ｄⁿ _MAXは、正弦波モードで各正弦波に対するＭＤＣＴ係数の中から、ｎ番目の正弦波に対するＭＤＣＴ係数を除外した残りの係数の和であって、ｎ番目の正弦波に対する残余信号の和である。

Ｄⁿ _Adjacentは、ｎ番目の正弦波に隣接した２個の正弦波に対する残余信号の和の平均を意味する。すなわち、Ｄⁿ _Adjacentは、正弦波モードで各正弦波に対するＭＤＣＴ係数の中から、ｎ−１番目の正弦波に対するＭＤＣＴ係数を除外した残りの係数の和と、ｎ＋１番目の正弦波に対するＭＤＣＴ係数を除外した残りの係数の和と、を加え、２で除した値に該当する。

図１１は、ＭＳＥの代わりに、量子化前のＭＤＣＴ係数の絶対値を利用して送信する情報を決定する方法の一例を概略的に説明するフローチャートである。図１１の説明でも、前述したように、「正弦波」は、正弦波のＭＤＣＴ係数を意味する。

図１１を参照すると、正弦波情報を送信するトラックから検索を介して最大振幅を有する２個の正弦波（第１の正弦波及び第２の正弦波）が検出される（Ｓ１１００）。前述したように、検出される第１の正弦波の位置をｐｏｓ¹ _MAXといい、第２の正弦波の位置をｐｏｓ² _MAXという。最も大きい振幅を有する２個の正弦波は、式１を利用して検出されたＤ（ｋ）値を利用して検出することができる。

次に、検出した正弦波のうち第１の正弦波に隣接した２個の正弦波の正負符号が同じかどうかを判断する（Ｓ１１１０）。最も大きい２個の正弦波の情報を送信する代わりに、隣接した正弦波の情報を送信する時には、隣接した２個の正弦波の正負符号が同じ場合だけを対象にすることによって、最も大きい２個の正弦波の情報を送信する場合と同様に、正負符号に対する情報を１ビットで送信することができる。

第１の正弦波に隣接した２個の正弦波の正負符号が同じ場合、第２の正弦波に対するＤ² _MAXの大きさと、第１の正弦波に隣接した正弦波に対するＤ¹ _Adjacentの大きさと、を比較する（Ｓ１１２０）。第２の正弦波に対するＤ² _MAXと第１の正弦波に隣接した正弦波に対するＤ¹ _Adjacentは、式７の場合の通りである。

図１１の例では、比較対象となる送信対象情報のうち振幅が大きい正弦波の情報を優先的に送信する。したがって、残余係数の和又は残余係数の和の平均を比較する図１１の例では、値が小さい方を選択することができる。

第２の正弦波に対するＤ² _MAXが第１の正弦波に隣接した正弦波に対するＤ¹ _Adjacentより小さい場合、第１の正弦波に隣接した正弦波の情報は、送信対象から除外される。したがって、第２の正弦波及び第１の正弦波に対する情報を送信するか、又は第２の正弦波及び第２の正弦波に隣接した正弦波の情報を送信するかを決定する。

Ｓ１１１０ステップにおいて、第１の正弦波に隣接した２個の正弦波の正負符号が相違すると判断した場合にも、第１の正弦波に隣接した２個の正弦波の情報は、送信対象から除外されるため、第２の正弦波及び第１の正弦波に対する情報を送信するか、又は第２の正弦波及び第２の正弦波に隣接した正弦波の情報を送信するかを決定する。

第２の正弦波に対するＤ² _MAXが第１の正弦波に隣接した正弦波に対するＤ¹ _Adjacentより大きい場合、第２の正弦波の情報及び第１の正弦波の情報を共に送信することは、対象から除外される。したがって、第１の正弦波及び第１の正弦波に隣接した正弦波の情報を送信するか、又は第２の正弦波及び第２の正弦波に隣接した正弦波の情報を送信するかを決定する。

Ｓ１１２０ステップにおいて、第２の正弦波に対するＤ² _MAXが第１の正弦波に隣接した正弦波に対するＤ¹ _Adjacentより小さい場合、又は第１の正弦波に隣接した２個の正弦波の正負符号が相違する場合には、第２の正弦波に隣接した２個の正弦波の正負符号が同じかどうかを判断する（Ｓ１１３０）。

第２の正弦波に隣接した２個の正弦波の正負符号が同じ場合、第１の正弦波に対するＤ¹ _MAXの大きさと、第２の正弦波に隣接した正弦波に対するＤ² _Adjacentの大きさと、を比較する（Ｓ１１４０）。

第１の正弦波に対するＤ¹ _MAXが第２の正弦波に隣接した正弦波に対するＤ² _Adjacentより大きい場合、第２の正弦波及び第２の正弦波に隣接した正弦波の情報が送信される（Ｓ１１５０）。このとき、第２の正弦波の情報と共に、第２の正弦波に隣接した２個の正弦波のうち一つの情報が送信される。例えば、第２の正弦波の位置を重複指示する位置情報と、第２の正弦波及び第２の正弦波に隣接した正弦波の振幅情報と、第２の正弦波及び第２の正弦波に対する正負符号情報とが符号化されて送信される。

受信する復号器側では、送信された正弦波の情報に基づいて第２の正弦波及び第２の正弦波に隣接した正弦波を発生することができる。第２の正弦波に隣接する正弦波は、第２の正弦波に隣接する二つの位置（第２の正弦波の前後）に同じ振幅及び正負符号の正弦波として発生することができる。

第１の正弦波に対するＤ¹ _MAXが第２の正弦波に隣接した正弦波に対するＤ² _Adjacentより小さい場合には、第１の正弦波及び第２の正弦波の情報が送信される（Ｓ１１６０）。Ｓ１１３０ステップにおいて、第２の正弦波に隣接した２個の正弦波の正負符号が相違する場合にも、第２の正弦波に隣接した正弦波の情報は、送信対象でないため、第１の正弦波及び第２の正弦波の情報が送信される（Ｓ１１６０）。

一方、Ｓ１１２０ステップにおいて、第２の正弦波に対するＤ² _MAXが第１の正弦波に隣接した正弦波に対するＤ¹ _Adjacentより大きい場合には、第１の正弦波に隣接した２個の正弦波の正負符号が同じかどうかを判断する（Ｓ１１７０）。

第１の正弦波に隣接した２個の正弦波の正負符号が同じ場合には、第１の正弦波及び第１の正弦波に隣接した正弦波に対するＤ¹ _MAX＋Ｄ¹ _Adjacentの大きさと、第２の正弦波及び第２の正弦波に隣接した正弦波に対するＤ² _MAX＋Ｄ² _Adjacentの大きさと、を比較する（Ｓ１１８０）。

第１の正弦波及び第１の正弦波に隣接した正弦波に対するＤ¹ _MAX＋Ｄ¹ _Adjacentが第２の正弦波、及び第２の正弦波に隣接した正弦波に対するＤ² _MAX＋Ｄ² _Adjacentより小さい場合、第１の正弦波及び第１の正弦波に隣接した正弦波の情報が送信される（Ｓ１１９０）。このとき、第１の正弦波の情報と共に、第１の正弦波に隣接した２個の正弦波のうち一つの情報が送信される。例えば、第１の正弦波の位置を重複指示する位置情報と、第１の正弦波及び第１の正弦波に隣接した正弦波の振幅情報と、第１の正弦波及び第１の正弦波に対する正負符号情報とが符号化されて送信される。

第１の正弦波及び第１の正弦波に隣接した正弦波に対するＤ¹ _MAX＋Ｄ¹ _Adjacentが、第２の正弦波及び第２の正弦波に隣接した正弦波に対するＤ² _MAX＋Ｄ² _Adjacentより大きい場合、第２の正弦波及び第２の正弦波に隣接した正弦波の情報が送信される（Ｓ１１５０）。このとき、第２の正弦波の情報と共に、第２の正弦波に隣接した２個の正弦波のうち一つの情報が送信され、受信する復号器側では、前述したように、第２の正弦波及び第２の正弦波に隣接した正弦波を発生することができる。

Ｓ１１２０で判断する関係であるＤ² _MAX＜Ｄ¹ _adjacentはＤ¹ _MAX＋Ｄ² _MAX＜Ｄ¹ _MAX＋Ｄ¹ _adjacentと等価となる。また、Ｓ１１４０で判断する関係であるＤ¹ _MAX＞Ｄ² _adjacentはＤ¹ _MAX＋Ｄ² _MAX＞Ｄ² _MAX＋Ｄ² _adjacentと等価となる。

これを考慮すると、（１）第１の正弦波及び第２の正弦波の情報、（２）第１の正弦波及び第１の正弦波に隣接した正弦波の情報、（３）第２の正弦波及び第２の正弦波に隣接した正弦波の情報のうち、送信可能な対象情報の中から残余係数の和が最も小さい情報が送信される。

このとき、送信可能な対象情報とは、（ｉ）第１の正弦波及び第２の正弦波情報、（ii）第１の正弦波及び第１の正弦波に隣接した正弦波の情報であって、第１の正弦波に隣接した２個の正弦波の正負符号が同じ場合の情報、（iii ）第２の正弦波及び第２の正弦波に隣接した正弦波の情報であって、第２の正弦波に隣接した２個の正弦波の正負符号が同じ場合の情報を意味する。

表１１は、図１１の例で送信される情報を簡単に示す。

表１１において、“第１の正負符号”は、第１の正弦波に隣接した２個の正弦波の正負符号が同一であるか相違であるかを示す。表７において、“第２の正負符号”は、第２の正弦波に隣接した２個の正弦波の正負符号が同一であるか相違であるかを示す。

表１１において、“Ｄ１＆Ｄ２ＶＳＤ１＆Ｄａｄｊ”は、第１の正弦波及び第２の正弦波の情報を送信する場合に対する残余係数の和（Ｄ¹ _MAX＋Ｄ² _MAX）と、第１の正弦波及び第１の正弦波に隣接した正弦波の情報を送信する場合に対する残余係数の和（Ｄ¹ _MAX＋Ｄ¹ _Adjacent）とのうち小さいものを示す。

表１１において、“Ｄ１＆Ｄ２ＶＳＤ２＆Ｄａｄｊ”は、第１の正弦波及び第２の正弦波の情報を送信する場合に対する残余係数の和（Ｄ¹ _MAX＋Ｄ² _MAX）と、第２の正弦波及び第２の正弦波に隣接した正弦波の情報を送信する場合に対する残余係数の和（Ｄ² _MAX＋Ｄ² _Adjacent）とのうち小さいものを示す。

表１１において、“Ｄ１＆ＤａｄｊＶＳＤ２＆Ｄａｄｊ”は、第１の正弦波及び第１の正弦波に隣接した正弦波の情報を送信する場合に対する残余係数の和（Ｄ¹ _MAX＋Ｄ¹ _Adjacent）と、第２の正弦波及び第２の正弦波に隣接した正弦波の情報を送信する場合に対する残余係数の和（Ｄ² _MAX＋Ｄ² _Adjacent）とのうち小さいものを示す。

このように、選択された情報が符号化されて送信されると、復号器は、送信された情報に基づいて該当トラックの正弦波（正弦波のＭＤＣＴ係数）を復元することができる。

前述したように、該当トラックから検出された最も大きい２個の正弦波の情報が送信される場合には、（１）２個の正弦波の位置情報、（２）２個の正弦波の振幅情報、（３）２個の正弦波の正負符号情報が送信され、復号器は、これに基づいて正弦波の情報によって指示される位置に、指示される振幅と正負符号を有する正弦波を復元することができる。

該当トラックから検出される最も大きい２個の正弦波のうちいずれか一つの正弦波とそれに隣接した正弦波に対する情報が送信される場合には、（１）２個の正弦波の位置情報、（２）２個の正弦波の振幅情報、（３）２個の正弦波の正負符号情報が送信される。このとき、２個の正弦波の位置情報は同じ位置を指示する。指示される位置は、２個の正弦波のうち大きい振幅を有する正弦波の位置である。

復号器は、送信された２個の正弦波の情報に基づいて、送信された振幅情報のうち大きい振幅に対応する正弦波を位置情報が指示する位置に発生することができる。位置情報が指示する位置に隣接する位置（位置情報が指示する位置の前後又は左右）には送信された振幅情報のうち小さい振幅に対応する正弦波を発生することができる。

復号器は、このように正弦波（ＭＤＣＴ係数）を発生した後、図３及び図４で説明したように、ＩＭＤＣＴを実行する過程を含む一連の過程を経て音声信号を復元することができる。

本明細書においては、理解を容易にするために括弧内に該当内容を併記したが、併記されない場合に括弧の内容が排除されることを意味するものではない。例えば、理解を助けるために必要な部分で「正弦波（パルス）」、「正弦波（ＭＤＣＴ係数）」などの併記を使用したが、併記されない場合、正弦波がパルスでないことを意味するものではなく、また、正弦波がＭＤＣＴ係数でないことを意味するものではないことに留意されたい。

このように、本発明では、ビット速度を増加させることなく追加情報を送信することによって符号化効率を上げることができ、ビットストリーム構造を変化させずに符号化／復号を実行することができるため、後方互換性が保障される。

また、前述した例示で、方法は、一連のステップ又はブロックで順序図に基づいて説明されているが、本発明は、ステップの順序に限定されるものではなく、あるステップは、前述と異なるステップと異なる順序で、又は同時に発生することができる。また、前述した実施例は、多様な態様の例示を含む。例えば、前述した実施形態を組み合わせて実施することもでき、その組合せも本発明による実施形態に属する。本発明は、特許請求の範囲内に属する本発明の技術的思想による多様な修正及び変更を含む。

位置情報が第１の変換係数を重複指示する場合には、第１の変換係数及び第１の変換係数に隣接した二つの変換係数を復元し、位置情報が第２の変換係数を重複指示する場合には、第２の変換係数及び第２の変換係数に隣接した二つの変換係数を復元する。

位置情報が第１の変換係数を重複指示する場合には、第１の変換係数及び第１の変換係数に隣接した二つの変換係数を同じ大きさで復元し、位置情報が第２の変換係数を重複指示する場合には、第２の変換係数及び第２の変換係数に隣接した二つの変換係数を同じ大きさで復元する。位置情報が第１の変換係数を重複指示する場合には、第１の変換係数及び第１の変換係数に隣接した二つの変換係数を同じ正負符号で復元し、位置情報が第２の変換係数を重複指示する場合には、第２の変換係数及び第２の変換係数に隣接した二つの変換係数を同じ正負符号で復元する。

Claims

入力音声信号を構成する正弦波成分を変換して前記正弦波成分に対する変換係数を生成するステップと、
前記生成された変換係数のうち符号化対象変換係数を決定するステップと、
前記決定された変換係数を指示する指示情報を送信するステップと、を有し、
前記指示情報は、変換係数の位置情報、振幅情報、及び正負符号情報を含み、
前記符号化対象変換係数が隣接した変換係数である場合、前記位置情報は、同じ位置情報を重複指示することを特徴とする、音声信号符号化方法。
前記符号化対象変換係数を決定するステップでは、変換係数の大きさを考慮して最も大きい第１の変換係数及び２番目に大きい第２の変換係数を検索し、前記第１の変換係数及び前記第２の変換係数と、前記第１の変換係数及び前記第１の変換係数に隣接した変換係数と、前記第２の変換係数及び前記第２の変換係数に隣接した変換係数と、の三つの組合せのうちいずれか一つを符号化対象変換係数として決定することを特徴とする、請求項１に記載の音声信号符号化方法。
前記第１の変換係数及び前記第２の変換係数に対する平均２乗誤差（ＭＳＥ）と、前記第１の変換係数及び前記第１の変換係数に隣接した変換係数に対するＭＳＥと、前記第２の変換係数及び前記第２の変換係数に隣接した変換係数に対するＭＳＥと、を比較し、
ＭＳＥが最も小さい変換係数の組合せを符号化対象変換係数として決定することを特徴とする、請求項２に記載の音声信号符号化方法。
前記第１の変換係数及び前記第２の変換係数に対する残余係数の和と、前記第１の変換係数及び前記第１の変換係数に隣接した変換係数に対する残余係数の和と、前記第２の変換係数及び前記第２の変換係数に隣接した変換係数に対する残余係数の和と、を比較し、
残余係数の和が最も小さい変換係数の組合せを符号化対象変換係数として決定することを特徴とする、請求項２に記載の音声信号符号化方法。
前記第１の変換係数に隣接した二つの変換係数の正負符号が同じでない場合には、前記第１の変換係数に隣接した変換係数を符号化対象から除外し、
前記第２の変換係数に隣接した二つの変換係数の正負符号が同じでない場合には、前記第２の変換係数に隣接した変換係数を符号化対象から除外することを特徴とする、請求項２に記載の音声信号符号化方法。
前記指示情報送信ステップでは、前記符号化対象変換係数の正負符号に対して、一番目の符号化対象変換係数の正負符号を指示する情報を送信することを特徴とする、請求項２に記載の音声信号符号化方法。
前記第１の変換係数及び前記第１の変換係数に隣接した変換係数が符号化対象変換係数として決定された場合、前記位置情報は、第１の変換係数を重複指示し、
前記第２の変換係数及び前記第２の変換係数に隣接した変換係数が符号化対象変換係数として決定された場合、前記位置情報は、第２の変換係数を重複指示することを特徴とする、請求項２に記載の音声信号符号化方法。
前記正弦波成分は、超広帯域に属することを特徴とする、請求項１に記載の音声信号符号化方法。
音声情報を含むビットストリームを受信するステップと、
前記ビットストリームに含まれている指示情報に基づいて音声信号を構成する正弦波成分に対する変換係数を復元するステップと、
前記復元された変換係数を逆変換し、音声信号を復元するステップと、を有し、
前記変換係数を復元するステップでは、前記指示情報が同じ位置を重複指示する場合、前記指示される位置及び前記指示される位置と隣接する位置に変換係数を復元することを特徴とする、音声信号復号方法。
前記指示情報は、変換係数に対する位置情報、振幅情報、及び正負符号情報を含み、
前記位置情報は、トラック内で最も大きい第１の変換係数の情報及びトラック内で２番目に大きい第２の変換係数を指示するか、前記第１の変換係数の位置を重複指示するか、又は、前記第２の変換係数を重複指示することを特徴とする、請求項９に記載の音声信号復号方法。
前記位置情報が第１の変換係数を重複指示する場合には、前記第１の変換係数及び前記第１の変換係数に隣接した二つの変換係数を復元し、
前記位置情報が第２の変換係数を重複指示する場合には、前記第１の変換係数及び前記第１の変換係数に隣接した二つの変換係数を復元することを特徴とする、請求項１０に記載の音声信号復号方法。
前記位置情報が第１の変換係数を重複指示する場合には、前記第１の変換係数及び前記第１の変換係数に隣接した二つの変換係数を同じ大きさで復元し、
前記位置情報が第２の変換係数を重複指示する場合には、前記第１の変換係数及び前記第１の変換係数に隣接した二つの変換係数を同じ大きさで復元することを特徴とする、請求項１０に記載の音声信号復号方法。
前記位置情報が第１の変換係数を重複指示する場合には、前記第１の変換係数及び前記第１の変換係数に隣接した二つの変換係数を同じ正負符号で復元し、
前記位置情報が第２の変換係数を重複指示する場合には、前記第１の変換係数及び前記第１の変換係数に隣接した二つの変換係数を同じ正負符号で復元することを特徴とする、請求項１０に記載の音声信号復号方法。
前記復元される音声信号は、超広帯域音声信号であることを特徴とする、請求項９に記載の音声信号復号方法。