JP6647370B2

JP6647370B2 - 音声音響符号化装置及び音声音響符号化方法

Info

Publication number: JP6647370B2
Application number: JP2018211253A
Authority: JP
Inventors: 河嶋　拓也; 拓也河嶋; 押切　正浩; 正浩押切
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2012-11-05
Filing date: 2018-11-09
Publication date: 2020-02-14
Anticipated expiration: 2033-11-01
Also published as: JP2018018100A; PL2916318T3; US20190147897A1; EP4220636A1; MX355630B; ES2753228T3; MX2015004981A; MY189358A; EP2916318B1; US20170243594A1; CN104737227B; KR20200111830A; KR20150082269A; EP3584791B1; US20180114535A1; RU2648629C2; EP3584791A1; US10210877B2; RU2015116610A; JP6435392B2

Description

本発明は、変換符号化方式を用いた音声音響符号化装置及び音声音響符号化方法に関する。

０．０５−１４ｋＨｚ帯域の超広帯域（ＳＷＢ：Super-Wide-Band）の音声信号または音楽信号を効率的に符号化できる方式として、ＩＴＵ−Ｔ（International Telecommunication Union Telecommunication Standardization Sector）で規格化された非特許文献１及び非特許文献２に記載の技術がある。これらの技術では、７ｋＨｚまでの帯域をコア符号化部で符号化し、７ｋＨｚ以上の帯域（以下、「拡張帯域」という）を拡張符号化部で符号化している。

コア符号化部では、符号励振線形予測（ＣＥＬＰ：Code Excited Linear Prediction）を用いて符号化を行い、ＣＥＬＰでは符号化しきれない残差信号をＭＤＣＴ（Modified Discrete Cosine Transform）にて周波数領域に変換した上で、ＦＰＣ（Factorial Pulse Coding）またはＡＶＱ（Algebraic Vector Quantization）と言った変換符号化で符号化している。拡張符号化部では、７ｋＨｚ以上の拡張帯域において、７ｋＨｚまでの低域のスペクトルと相関の高い帯域を探索して、最も相関の高い帯域を拡張帯域の符号化に利用する手法等を用いて符号化している。なお、非特許文献１及び非特許文献２では、７ｋＨｚまでの低域側と７ｋＨｚ以上の高域側には、それぞれ符号化ビット数があらかじめ決められており、低域側と高域側をそれぞれ決められた符号化ビット数で符号化している。

また、非特許文献３においても、ＳＷＢを符号化する方式がＩＴＵ−Ｔで規格化されていることが開示されている。非特許文献３に記載の符号化装置では、入力信号をＭＤＣＴにより周波数領域に変換し、サブバンドに分割して、サブバンド毎に符号化を行う。具体的には、この符号化装置は、まず、各サブバンドエネルギーを算出し、符号化する。次に、周波数微細構造を符号化するために、サブバンドエネルギーに基づいて、各サブバンドに周波数微細構造を符号化するための符号化ビットを配分する。周波数微細構造は、格子ベクトル量子化（Lattice Vector Quantization）を用いて符号化される。格子ベクトル量子化も、ＦＰＣまたはＡＶＱ同様、スペクトルの符号化に適した変換符号化の一種である。格子ベクトル量子化では、符号化ビットが十分に配分されないために、復号したスペクトルのエネルギーとサブバンドエネルギーとは誤差が大きい場合がある。この場合は、サブバンドエネルギーと復号スペクトルとのエネルギーの誤差を雑音ベクトルで埋める処理を行うことで符号化を行う。

また、非特許文献４では、ＡＡＣ（Advanced Audio Coding）による符号化技術について述べられている。ＡＡＣでは、聴覚モデルに基づいてマスキング閾値を算出し、マスキング閾値以下のＭＤＣＴ係数を符号化対象から外すことにより、効率的に符号化を行っている。

ITU-T Standard G.718 AnnexB,2010年 ITU-T Standard G.729.1 AnnexE,2010年 ITU-T Standard G.719,2008年 MP3 AND AAC explained, AES 17th International Conference on High Quality Audio Coding, 1999年

非特許文献１及び非特許文献２では、コア符号化部が符号化する低域側と、拡張符号化部が符号化する高域側とにビットが固定で割り当てられており、信号の特性に応じて適切に低域と高域に符号化ビットを割り当てることができない。このため、入力信号の特性によっては十分な性能を発揮できないという課題がある。

一方、非特許文献３では、サブバンドエネルギーに応じて低域から高域まで適応的にビットを割り当てる仕組みはあるが、高域ほどスペクトルの誤差に対する感度が低いという聴覚特性に着目すると、高域には必要以上にビットが割り当てられやすいという課題がある。これについて以下に説明する。

符号化プロセスにおいて、まず、サブバンド毎に算出したサブバンドエネルギーが大きいほど、多くのビットが割り当てられるように各サブバンドで必要なビット量が算出される。ただし、変換符号化では、アルゴリズムの性質上、符号化ビット割り当てを１ビット増やしても符号化能力が向上せず、ある程度まとまったビット数を割り当てなければ符号化結果が変わらない場合がある。このため、ビット単位ではなく、このようなまとまったビット数の単位でビットの割り当てを行えば便利である。このような符号化に必要なビット数の単位を、ここではユニットと呼ぶことにする。割り当てられたユニット数が多いほど、スペクトルの形状及び振幅を正確に表現できる。なお、聴覚特性を考慮して、高域のサブバンドは低域に比べ、その帯域幅を広くとるのが一般的であるが、帯域幅が広いほど１ユニットに必要なビット量は多くなるから、１ユニットのビット数は帯域幅に応じて変えることにする。

本発明で想定する変換符号化では、スペクトルを周波数軸上の少数のパルス列で近似するため、その振幅情報と位置情報に、ユニット単位で割り当てられた符号化ビットを消費することになる。

さらに、非特許文献４では、聴覚特性上重要ではないＭＤＣＴ係数を符号化対象から外すことにより、効率的に符号化を行っているが、符号化するスペクトル個々の位置情報は正確に表現している。このため、サブバンドの帯域幅が広いほど、個々のスペクトルの位置を表現するのに多くのビットを消費しなければならない。

しかしながら、高域になるほど、スペクトルの位置に対する聴覚の感度は低くなり、主要なスペクトル振幅、サブバンドエネルギーが表現できていれば聴感上の劣化は感じにくい。それにも関わらず、非特許文献３及び非特許文献４では、高域においても多くのビットを消費して、スペクトル個々の位置を正確に表現しようとしている。つまり、スペクトル位置を正確に表現するために、必要以上に符号化ビットを使用するという課題がある。

本発明の目的は、拡張帯域の音質の劣化を抑制しつつ、拡張帯域のスペクトルの符号化に割り当てる符号化ビット量を低減する音声音響符号化装置及び音声音響符号化方法を提供することである。

本発明の音声音響符号化装置は、時間領域の入力信号を周波数領域のスペクトルに変換する時間周波数変換手段と、拡張領域の周波数領域のスペクトルを複数のサブバンドに分割する分割手段と、前記拡張領域内の各サブバンドにおいて、１つ前のフレームにおけるサブバンドの最大振幅スペクトルと、現在のフレームにおけるサブバンドの前記最大振幅スペクトルとの距離が所定範囲内にある場合に、前記サブバンドよりも狭い限定帯域を現在のフレームに設定し、前記限定帯域の帯域幅は、前フレームの前記最大振幅スペクトルの周辺帯域を符号化対象の帯域として限定する、限定帯域設定手段と、前記限定帯域設定手段により限定帯域が設定された場合、現在のフレームにおけるサブバンドについて、前記限定帯域内のスペクトルを符号化し、前記限定帯域の外側のスペクトルは符号化しない、変換符号化手段と、を具備する構成を採る。

本発明の音声音響符号化方法は、時間領域の入力信号を周波数領域のスペクトルに変換する時間周波数変換工程と、拡張領域の周波数領域のスペクトルを複数のサブバンドに分割する分割工程と、前記拡張領域内の各サブバンドにおいて、１つ前のフレームにおけるサブバンドの最大振幅スペクトルと、現在のフレームにおけるサブバンドの前記最大振幅スペクトルとの距離が所定範囲内にある場合に、限定帯域を設定し、前記限定帯域の帯域幅は、前フレームの前記最大振幅スペクトルの周辺帯域を符号化対象の帯域として限定する、限定帯域設定工程と、前記限定帯域が設定された現在のフレームにおけるサブバンドについて、前記限定帯域のスペクトルを符号化し、前記限定帯域の外側のスペクトルは符号化しない、変換符号化工程と、を具備する構成を採る。

本発明の音声音響復号装置は、限定帯域を設定するか否かを示すフラグを含む、音声音響符号化データを復号する変換復号部と、１つ前のフレームにおけるサブバンドの最大振幅スペクトルの位置情報を記憶する記憶部と、復号されたバンドに符号化装置側で限定帯域が設定されているか否かを、復号されたフラグに基づいて認識し、限定帯域が設定されていると認識された場合、前記１つ前のフレームにおけるサブバンドの最大振幅スペクトル位置情報を用いて、前記限定帯域が設定された現在のフレームにおけるサブバンドについて、前記限定帯域のスペクトルを復号する、対象帯域復号手段と、を具備し、前記限定帯域は、符号化装置側において、前記各サブバンドにおいて、１つ前のフレームにおけるサブバンドの最大振幅スペクトルと、現在のフレームにおけるサブバンドの前記最大振幅スペクトルとの距離が所定範囲内にある場合に、限定帯域を設定し、前記限定帯域の帯域幅は、前フレームの前記最大振幅スペクトルの周辺帯域を符号化対象の帯域として限定される、構成を採る。

本発明の音声音響復号方法は、限定帯域を設定するか否かを示すフラグを含む、音声音響符号化データを復号し、１つ前のフレームにおけるサブバンドの最大振幅スペクトル位置情報を記憶し、復号されたバンドに符号化装置側で限定帯域が設定されているか否かを、復号されたフラグに基づいて認識し、限定帯域が設定されていると認識した場合、前記１つ前のフレームにおけるサブバンドの最大振幅スペクトル位置情報を用いて、前記限定帯域が設定された現在のフレームにおけるサブバンドについて、前記限定帯域のスペクトルを復号し、前記限定帯域は、符号化装置側において、前記各サブバンドにおいて、１つ前のフレームにおけるサブバンドの最大振幅スペクトルと、現在のフレームにおけるサブバンドの前記最大振幅スペクトルとの距離が所定範囲内にある場合に、限定帯域を設定し、前記限定帯域の帯域幅は、前フレームの前記最大振幅スペクトルの周辺帯域を符号化対象の帯域として限定される、構成を採る。

本発明によれば、拡張帯域の音質の劣化を抑制しつつ、拡張帯域のスペクトルの符号化に割り当てる符号化ビット量を低減することができる。

本発明の実施の形態１，３，５に係る音声音響符号化装置の構成を示すブロック図帯域圧縮を説明するための図ユニット数再算出部の動作を説明するための図本発明の実施の形態１，３，５に係る音声音響復号装置の構成を示すブロック図帯域伸張を説明するための図本発明の実施の形態１に係る音声音響符号化装置の他の構成を示すブロック図本発明の実施の形態１に係る音声音響復号装置の他の構成を示すブロック図本発明の実施の形態２に係る音声音響符号化装置の構成を示すブロック図本発明の実施の形態２に係る音声音響復号装置の構成を示すブロック図位置補正情報に基づいて帯域伸張した様子を示す図本発明の実施の形態４に係る声音響符号化装置の構成を示すブロック図インタリーブを説明するための図本発明の実施の形態４に係る声音響復号装置の構成を示すブロック図帯域圧縮の一例を示す図帯域伸張の一例を示す図本発明の実施の形態６に係る音声音響符号化装置の構成を示すブロック図帯域限定を行わない変換符号化の一例を示す図帯域限定を行った変換符号化の一例を示す図本発明の実施の形態６に係る音声音響復号装置の構成を示すブロック図

以下、本発明の実施の形態について、図面を参照して詳細に説明する。ただし、実施の形態において、同一機能を有する構成には同一符号を付し、重複する説明は省略する。

（実施の形態１）
図１は、本発明の実施の形態１に係る音声音響符号化装置１００の構成を示すブロック図である。以下、図１を用いて、音声音響符号化装置１００の構成について説明する。

時間周波数変換部１０１は、入力信号を取得し、取得した時間領域の入力信号を周波数領域に変換して、入力信号スペクトルとしてサブバンド分割部１０２に出力する。なお、実施の形態では、時間周波数変換としてＭＤＣＴを例に説明するが、ＦＦＴ（Fast Fourier Transform）またはＤＣＴ（Discrete Cosine Transform）等の直交変換を用いてもよい。

サブバンド分割部１０２は、時間周波数変換部１０１から出力された入力信号スペクトルをＭ個のサブバンドに分割し、サブバンドのスペクトルをサブバンドエネルギー算出部１０３及び帯域圧縮部１０５に出力する。一般に、人間の聴覚特性を考慮して、低域ほど帯域幅が狭く、高域ほど帯域幅が広くなるような不均一分割を行う。本説明においても、これを前提に説明を行う。ｎ番目のサブバンドのサブバンド長をＷ［ｎ］で表し、サブバンドスペクトルベクトルは、Ｓｎで表すものとする。各Ｓｎには、Ｗ［ｎ］個のスペクトルが格納される。また、Ｗ［ｋ−１］≦Ｗ［ｋ］の関係を持つものとする。このように不均一分割を行う符号化方式として、ＩＴＵ−ＴＧ．７１９がある。Ｇ．７１９は、サンプリングレートが４８ｋＨｚの入力信号を時間周波数変換する。その後、スペクトルを最低域では周波数軸上で８点毎にサブバンドに分割し、最高域では３２点毎にサブバンドに分割している。なお、Ｇ．７１９は３２ｋｂｐｓから１２８ｋｂｐｓと多くの符号化ビットを使える符号化方式であるが、さらに低ビットレート化を図るためには、各サブバンドの長さを長くすることが有用であり、特に高域ほどサブバンド長を長くする方が有用であると考えられる。

サブバンドエネルギー算出部１０３は、サブバンド分割部１０２から出力されたサブバンドスペクトルからサブバンド毎にエネルギーを算出して、量子化したサブバンドエネルギーをユニット数算出部１０４に出力し、サブバンドエネルギーを符号化したサブバンドエネルギー符号化データを多重化部１０８に出力する。ここでは、サブバンドエネルギーは、そのサブバンドに含まれるスペクトルのエネルギーを、底を２とする対数で表したものとする。サブバンドエネルギーの算出式を次式（１）に示す。

ここで、ｎはサブバンド番号、Ｅ［ｎ］はサブバンドｎのサブバンドエネルギー、Ｗ［ｎ］はサブバンドｎのサブバンド長、Ｓｎ［ｉ］はｎ番目のサブバンドのｉ番目のスペクトルを意味するものとする。なお、サブバンド長はサブバンドエネルギー算出部１０３に予め登録されているものとする。

ユニット数算出部１０４は、サブバンドエネルギー算出部１０３から出力された量子化サブバンドエネルギーに基づいて、サブバンドに割り当てる暫定的な割当ビット数を算出し、計算したユニット数とともにユニット数再算出部１０６に出力する。サブバンドエネルギー算出部１０３と同様に、サブバンド長はユニット数算出部１０４に予め登録されているものとする。基本的に、符号化ビットは、サブバンドエネルギーＥ［ｎ］が大きいほど、多く割り当てられる。ただし、符号化ビットはユニット単位で割り当てられ、１ユニットあたりのビット数はサブバンド長に依存する。そのため、他のサブバンドでのビット配分も含めて最適に配分する必要がある。なお、ユニット数算出部１０４の詳細については後述する。

帯域圧縮部１０５は、サブバンド分割部１０２から出力されたサブバンドスペクトルを用いて、拡張帯域の各サブバンドを帯域圧縮し、低域側のサブバンド及び前記圧縮したサブバンドを含むサブバンド圧縮スペクトルを変換符号化部１０７に出力する。帯域圧縮の目的は、主要なスペクトルを符号化対象として残しつつ、スペクトル位置の情報を削除することで、変換符号化に要する符号化ビットを削減することである。なお、帯域圧縮部１０５の詳細については後述する。

ユニット数再算出部１０６は、ユニット数算出部１０４から出力された暫定的な割当ビット数及びユニット数に基づいて、帯域圧縮を行ったサブバンドにおいて削減したビットを拡張帯域外の低域に再配分する。ユニット数再算出部１０６は、再配分したビットに基づいて、ユニット数を再配分し、再配分ユニット数を変換符号化部１０７に出力する。なお、ユニット数再算出部１０６の詳細については後述する。

変換符号化部１０７は、帯域圧縮部１０５から出力されたサブバンド圧縮スペクトルを変換符号化により符号化して、変換符号化データを多重化部１０８に出力する。変換符号化方式として、例えばＦＰＣ、ＡＶＱ、または、ＬＶＱといった変換符号化方式を用いる。変換符号化部１０７では、入力されたサブバンド圧縮スペクトルを、ユニット数再算出部１０６から出力された再配分ユニット数で決定される符号化ビットを用いて符号化する。再配分ユニット数が多ければ多いほど、スペクトルを近似するパルス数を増やしたり、その振幅値をより正確にしたりすることができる。パルス数を増やすのか、その振幅精度を向上させるのかは、符号化対象の入力スペクトルと復号後のスペクトルとの歪を基準として決定する。

多重化部１０８は、サブバンドエネルギー算出部１０３から出力されたサブバンドエネルギー符号化データと、変換符号化部１０７から出力された変換符号化データとを多重化して符号化データとして出力する。

ここで、図１に示したユニット数算出部１０４におけるユニット数の配分方法について具体例を挙げて説明する。まず、ユニット数算出部１０４は、サブバンドエネルギー算出部１０３から出力されたサブバンドエネルギーに基づいて、各サブバンドに割り当てるビット数を計算する。以下、計算されたビット数を暫定的な割当ビット数という。例えば、スペクトル微細構造を符号化するために与えられた符号化ビットの総量が３２０ビット、式（１）で計算した後に量子化した各サブバンドのサブバンドエネルギーの合計が１６０であった場合、３２０／１６０＝２．０であるので、各サブバンドのエネルギーに２．０を乗じたものを暫定的な割当ビット数とすることができる。

次に、ユニット数算出部１０４は、各サブバンドに実際に割り当てるビット（以下、「割当ビット数」という）を決定するが、変換符号化ではユニット単位で符号化ビットを割り当てることになるので、暫定的な割当ビット数をそのまま割当ビット数とすることができない。例えば、暫定的な割当ビット数が３０、１ユニットが７ビットであった場合において、割当ビット数が暫定的な割当ビット数を超えないものとすると、ユニット数は４となり、割当ビット数は２８、暫定的な割当ビット数に対して２ビットが余剰ビットとなる。

このように、サブバンド毎に割当ビット数を順次算出すると、全サブバンドについて算出が終了した時点で、符号化ビットに過不足が発生する恐れがある。そのため、効率的に符号化ビットを割り当てる工夫が必要となる。例えば、あるサブバンドで生じた余剰ビットを、次のサブバンドの暫定的な割当ビット数に加算していくことにより、ビットを過不足なく配分することが考えられる。

具体的な例を用いて説明する。ここでは簡単のため、スペクトルを近似するパルスの位置情報のみを符号化する例で説明し、かつ符号化されるパルスが増える毎にその位置情報分が単純に加算されるものとする。例えばサブバンド長を３２とすると、３２は２の５乗以下なので、サブバンド内のすべてのスペクトルの位置を符号化対象とするには最低限５ビット必要となる。つまり、このサブバンドにおける１ユニットは５ビットとなる。

サブバンドのエネルギーから計算される暫定的な割当ビット数が３３であったとすると、割り当てられるユニット数は６、割当ビット数３０となり、余剰ビットは３ビットとなる。しかしながら、前サブバンドにおいて２ビットの余剰ビットが発生していたとしたら、このサブバンドの暫定的な割当ビット数に前サブバンドの余剰ビット２を加算して、暫定的な割当ビット数が３５となる。この結果、ユニット数は７となり、割当ビット数は３５となる。すなわち、余剰ビットは０ビットとなる。これを順次全てのサブバンドで繰り返していくことにより、効率的なユニット配分が可能となる。

次に、図１に示した帯域圧縮部１０５における帯域圧縮方法について説明する。帯域圧縮方法として、ここでは、帯域圧縮対象サブバンドの低域側から順に２サンプルずつの組み合わせを作り、各組み合わせのうち絶対値振幅の大きい方のサンプルを残す場合を例に説明する。

図２に、帯域圧縮を説明するための図を示す。ただし、図２では、拡張帯域における帯域圧縮対象サブバンドｎを抽出した様子を示し、サブバンド長をＷ（ｎ）、横軸は周波数、縦軸はスペクトルの絶対値振幅を示すものとする。

図２（Ａ）は、帯域圧縮前のサブバンドスペクトルを示す。この例では、帯域圧縮前の帯域幅はＷ（ｎ）＝８とする。帯域圧縮部１０５は、サブバンド分割部１０２から出力されたサブバンドスペクトルを低域側から順に２サンプルずつを組みとする組み合わせを作り、各組み合わせのうち絶対値振幅の大きいスペクトルを残す。図２（Ａ）の例では、１番目と２番目に位置するスペクトルの組み合わせのうち２番目のスペクトルを選択し、１番目のスペクトルを破棄する。同様に、帯域圧縮部１０５は、３番目と４番目の組み合わせ、５番目と６番目の組み合わせ、７番目と８番目の組み合わせにおいてそれぞれ大きい方のスペクトルを選択する。選択した結果、図２（Ｂ）に示すようになり、位置２、４、５、８番目の４本のスペクトルが選択される。

次に、帯域圧縮部１０５は、選択したスペクトルを帯域圧縮する。帯域圧縮は、選択されたスペクトルを周波数軸上で低域側に詰めて配置することにより行われる。この結果、帯域圧縮サブバンドスペクトルは、図２（Ｃ）で表され、帯域圧縮後の帯域幅は、圧縮前に比べて半分の帯域幅となる。なお、圧縮前の帯域幅が奇数である場合も考慮すると、帯域圧縮後のサブバンド幅Ｗ’（ｎ）は、以下の式（２）によって表すことができる。

式（２）において、（ｉｎｔ）は小数点以下を切り捨てて整数化する関数、％は剰余を算出する演算子を表す。

このように、拡張帯域における各帯域圧縮対象サブバンドでは、低域側から順に２サンプルずつを組みとする各組み合わせのうち絶対値振幅の大きいスペクトルを残しつつ、帯域幅を半分にすることができる。

次に、図１に示したユニット数再算出部１０６におけるユニット数再算出方法について説明する。ユニット数再算出部１０６では、暫定的な割当ビット数に近くなるように割当ビット数を算出する点は、ユニット数算出部１０４と同様であるが、帯域圧縮対象サブバンドでは、ユニット数算出部１０４において算出されたユニット数を維持することと、帯域圧縮対象サブバンドで削減したビットを低域に再配分するようにしている点が異なる。

ユニット数再算出部１０６は、帯域圧縮対象サブバンドで削減したビットを低域に再配分するために、まず、帯域圧縮対象サブバンドの割当ビット数を確定させる。ユニット数は固定、サブバンド長は帯域圧縮により減っているので、割当ビット数を減らすことができる。ここでは、帯域圧縮によってサブバンド長が半減する場合を例に説明しているので、１ユニット当たりのビット数は１ビット減少する。帯域圧縮対象サブバンドのユニット数の合計が１０ユニットであった場合には、１０ビット削減できる。

削減できたビットを低域サブバンドの暫定的な割当ビット数に加算することにより、低域サブバンドに対してユニット数を多く配分することができる。ここでは簡単のため、削減したビットを最も低域のサブバンドの暫定的な割当ビット数に加算するものとする。この結果、最も低域のサブバンドでは暫定的な割当ビット数が大きくなるため、配分されるユニット数が多くなることが期待できる。

以後、このサブバンドで生じる余剰ビットを順次、高域側のサブバンドの暫定的な割当ビット数に加算し、ユニットの再配分を行う。これを帯域圧縮対象サブバンドの直前のサブバンドまで繰り返すことで、帯域圧縮後の全てのサブバンドにユニットを再配分することができる。

図３に、ユニット数再算出部１０６の動作を説明するための図を示す。図３において、最上段（「サブバンド」と記載された段）は、サブバンドの分割イメージを示している。サブバンドは、１からＭに分割され、サブバンド１が最も低域側のサブバンド、サブバンドＭが最も高域側のサブバンドとする。また、サブバンド１からサブバンド（ｋｈ−１）までを帯域圧縮対象外の低域側のサブバンド、サブバンドｋｈからＭまでを帯域圧縮対象のサブバンドとする。

また、中段（「ユニット数算出部出力」と記載された段）は、ユニット数算出部１０４から出力されたユニット数を示している。ユニット数は、サブバンドｋに対して、ユニット数算出部１０４によりｕ（ｋ）が割り当てられているものとする。

ユニット数再算出部１０６は、サブバンドｋｈからサブバンドＭに対しては、ユニット数算出部１０４で算出されたｕ（ｋ）をそのまま使用する。帯域幅を圧縮した後でもスペクトルを近似するパルスの本数を維持するためである。これにより、帯域圧縮サブバンドではスペクトル近似能力を維持しつつ、帯域幅が圧縮されるので、符号化ビットを削減でき、その削減ビットを余剰ビットにすることができる。

図３において、下段（「ユニット数再算出部出力」と記載された段）は、ユニット数再算出部１０６の出力のイメージを示している。ユニット数再算出部１０６は、サブバンドｋｈからサブバンドＭまでは、ユニット数算出部１０４の出力をそのまま使用するので、ユニット数はｕ（ｋ）のままである。ユニット数再算出部１０６は、余剰ビットを低域側のサブバンドに利用でき、新たにｕ’（ｋ）を算出する。これにより、聴感上重要な低域スペクトルの符号化精度を上げることができるので、全体の音質を向上させることができる。

なお、上記の例では、帯域圧縮サブバンドで削減したビットを、最も低域のサブバンドの暫定的な割当ビット数に全て加算する例を示したが、削減したビット数を、まだ割当ビット数を算出していないサブバンドに均等に割り当て、これらサブバンドの暫定的な割当ビット数に加算するようにしてもよい。また、サブバンドエネルギーが大きいサブバンドにより多く加算するようにしてもよい。また、必ずしも低域側から高域側に向かって昇順で処理をしなくてもよい。

以上の構成により、音声音響符号化装置１００は、拡張帯域の各サブバンドを帯域圧縮して符号化ビットを削減し、削減した符号化ビットを余剰ビットとして低域に再配分することにより、音質を向上させることができる。

図４は、本発明の実施の形態１に係る音声音響復号装置２００の構成を示すブロック図である。ユニット数または１ユニットあたりのビット数は送信されないため、復号装置側で計算する必要がある。このため、符号化装置と同様に、ユニット数算出部とユニット数再算出部を持つ。以下、図４を用いて音声音響復号装置２００の構成について説明する。

符号分離部２０１は、符号化データが入力され、入力された符号化データをサブバンドエネルギー符号化データと変換符号化データとに分離し、サブバンドエネルギー符号化データをサブバンドエネルギー復号部２０２に出力し、変換符号化データを変換符号化復号部２０５に出力する。

サブバンドエネルギー復号部２０２は、符号分離部２０１から出力されたサブバンドエネルギー符号化データを復号し、復号によって得られた量子化サブバンドエネルギーをユニット数算出部２０３に出力する。

ユニット数算出部２０３は、サブバンドエネルギー復号部２０２から出力された量子化サブバンドエネルギーを用いて、暫定的な割当ビット数とユニット数を算出し、算出した暫定的な割当ビット数とユニット数をユニット数再算出部２０４に出力する。なお、ユニット数算出部２０３は、音声音響符号化装置１００のユニット数算出部１０４と同一であるため、その詳細な説明は省略する。

ユニット数再算出部２０４は、ユニット数算出部２０３から出力された暫定的な割当ビット数とユニット数に基づいて、再配分ユニット数を算出し、算出した再配分ユニット数を変換符号化復号部２０５に出力する。なお、ユニット数再算出部２０４は、音声音響符号化装置１００のユニット数再算出部１０６と同一であるため、その詳細な説明は省略する。

変換符号化復号部２０５は、符号分離部２０１から出力された変換符号化データ、及び、ユニット数再算出部２０４から出力された再配分ユニット数に基づいて、サブバンド毎に復号した結果をサブバンド圧縮スペクトルとして帯域伸長部２０６に出力する。変換符号化復号部２０５は、再配分ユニット数から符号化に要した符号化ビット数を取得し、変換符号化データを復号する。

帯域伸張部２０６は、変換符号化復号部２０５から出力されたサブバンド圧縮スペクトルのうち、帯域圧縮対象外のサブバンドでは、そのままサブバンド圧縮スペクトルをサブバンドスペクトルとしてサブバンド統合部２０７に出力する。また、帯域伸張部２０６は、変換符号化復号部２０５から出力されたサブバンド圧縮スペクトルのうち、帯域圧縮対象サブバンドでは、サブバンド圧縮スペクトルをサブバンド長の幅に伸張して、サブバンドスペクトルとしてサブバンド統合部２０７に出力する。

本実施の形態では、音声音響符号化装置１００の帯域圧縮部１０５において、帯域圧縮サブバンドの低域側から順に２サンプルずつの組み合わせを作り、各組み合わせのうち絶対値振幅の大きい方のサンプルを残す方法で帯域圧縮しているので、帯域伸張部２０６は、復号されたスペクトルを一つおきに、偶数番地もしくは奇数番地に格納することで本来の帯域幅（圧縮前の帯域幅）に伸張されたスペクトルを得ることができる。この場合、復号されたサブバンドスペクトルの位置のずれは最大１サンプルとなる。なお、帯域伸張部２０６の詳細については後述する。

サブバンド統合部２０７は、帯域伸張部２０６から出力されたサブバンドスペクトルを低域側から詰めて一つのベクトルに統合し、統合したベクトルを復号信号スペクトルとして周波数時間変換部２０８に出力する。

周波数時間変換部２０８は、サブバンド統合部２０７から出力された周波数領域の信号である復号信号スペクトルを時間領域の信号に変換して復号信号を出力する。

次に、図４に示した帯域伸張部２０６における帯域伸張方法について説明する。図５に帯域伸張を説明するための図を示す。ただし、図５では、図２と同様、サブバンド長をＷ（ｎ）、横軸は周波数、縦軸はスペクトルの絶対値振幅を示すものとし、図２（Ｃ）で示したサブバンド圧縮スペクトルを伸張する場合について説明する。

帯域圧縮後の位置１に位置するサブバンド圧縮スペクトルは、圧縮前には位置１または位置２に存在していた。同様に、帯域圧縮後の位置２に位置するサブバンド圧縮スペクトルは、圧縮前には位置３または位置４に存在していた。同様に、帯域圧縮後の位置３と位置４に存在しているサブバンド圧縮スペクトルは、位置５または位置６、位置７または位置８にそれぞれ存在していた。

帯域伸張部２０６は、帯域圧縮後のスペクトルが帯域圧縮前にいずれかの位置に存在していたかは知りえないので、帯域圧縮後のスペクトルをいずれかの位置に配置することで伸張する。図５の例では、帯域圧縮後の位置１のサブバンド圧縮スペクトルは伸張後の位置１に、帯域圧縮後の位置２のサブバンド圧縮スペクトルは伸張後の位置３に配置するというように奇数番地に配置していく。この結果、伸張後のスペクトル位置５に存在するスペクトルのみが正しい位置に配置され、その他のスペクトル位置は１サンプルずれた位置に配置される。

以上の構成により、符号化データを、音声音響復号装置２００により復号することができる。

このように、実施の形態１では、音声音響符号化装置１００が、帯域圧縮対象サブバンドにおいて、サブバンドスペクトルを低域側から順に２サンプルずつを組みとする組み合わせを作り、各組み合わせのうち絶対値振幅の大きいスペクトルを選択し、選択したスペクトルを周波数軸上で低域側に詰めて配置することにより、聴感上重要ではないスペクトルを間引いて、帯域を圧縮することができる。また、これにより、スペクトルの変換符号化に必要な割当ビット数を削減することができる。

また、実施の形態１では、帯域圧縮対象サブバンドにおいて削減した割当ビット数を拡張帯域より低域のスペクトルの変換符号化のために再配分することにより、聴感上重要なスペクトルをより正確に表すことができるので、音質を向上させることができる。

なお、本実施の形態では、音声音響符号化装置１００において、ユニット数算出部１０４がユニット数を算出し、ユニット数再算出部１０６が再配分ユニット数を算出する場合について説明した。しかし、本発明は、図６に示すように、音声音響符号化装置１１０として、ユニット数算出部１０４とユニット数再算出部１０６の機能を統合してユニット数算出部１１１としてもよい。

また、本実施の形態では、音声音響復号装置２００において、ユニット数算出部２０３がユニット数を算出し、ユニット数再算出部２０４が再配分ユニット数を算出する場合について説明した。しかし、本発明は、図７に示すように、音声音響復号装置２１０として、ユニット数算出部２０３とユニット数再算出部２０４の機能を統合してユニット数算出部２１１としてもよい。

なお、本実施の形態では、帯域を圧縮する方法として、帯域圧縮対象サブバンドの低域側から順に２サンプルずつの組み合わせを作り、各組み合わせのうち絶対値振幅の大きい方のサンプルを残す場合について説明したが、別の帯域圧縮方法を用いてもよい。例えば、２サンプルずつの組み合わせに限らず、３サンプル以上のサンプル数で組み合わせを作り、各組み合わせのうち絶対値振幅の最も大きいサンプルを残すようにしてもよい。この場合、帯域圧縮によって削減できるビット数を増加させることができる。

また、高域になるほど組み合わせるサンプル数を多くするようにしてもよい。また、低域側から順に組み合わせを作ることに限らず、高域側から順に組み合わせを作るようにしてもよい。

（実施の形態２）
図８は、本発明の実施の形態２に係る音声音響符号化装置１２０の構成を示すブロック図である。以下、図８を用いて音声音響符号化装置１２０の構成について説明する。なお、図８が図１と異なる点は、ユニット数再算出部１０６を削除し、ユニット数算出部１０４をユニット数算出部１１１に変更し、サブバンドエネルギー減衰部１２１を追加した点である。

サブバンドエネルギー減衰部１２１は、サブバンドエネルギー算出部１０３から出力された量子化サブバンドエネルギーのうち、帯域圧縮対象サブバンドのサブバンドエネルギーを減衰させ、減衰させたサブバンドエネルギーをユニット数算出部１１１に出力する。

ここで、帯域圧縮対象サブバンドのサブバンドエネルギーを減衰させる理由について説明する。仮に、サブバンドエネルギーを減衰させないとすると、実施の形態１で説明したように、ユニット数算出部１１１によってこのサブバンドエネルギーをもとに暫定的な割当ビットが決まるが、帯域圧縮によって例えば帯域を半分にした場合、ユニットのビット数は１ビット削減されるので、余剰ビットが発生することになる。しかし、ユニット数再算出部１０６が無いので、この余剰ビットは高域側のサブバンドから低域側のサブバンドに必ずしも適切に再配分することができず無駄になる場合がある。

そこで、サブバンドエネルギー減衰部１２１は、帯域圧縮対象サブバンドに対して、当該サブバンドエネルギーを減衰させることにより、無駄な余剰ビットの発生を抑制している。ただし、帯域圧縮により、サブバンド長を半分にするとしても、主要なスペクトルは残しているので、サブバンドエネルギーを半分にしてしまうと過剰な減衰となってしまう。そのため、サブバンドエネルギー減衰部１２１は、例えば、サブバンドエネルギーに０．８倍等の定率を乗算したり、サブバンドエネルギーから３．０といった定数を減算したりしてもよい。

図９は、本発明の実施の形態２に係る音声音響復号装置２２０の構成を示すブロック図である。以下、図９を用いて音声音響符号化装置２２０の構成について説明する。なお、図９が図４と異なる点は、ユニット数再算出部２０４を削除し、ユニット数算出部１０４をユニット数算出部２１１に変更し、サブバンドエネルギー減衰部２２１を追加した点である。

サブバンドエネルギー減衰部２２１は、サブバンドエネルギー復号部２０２から出力されたサブバンドエネルギーのうち、帯域圧縮対象サブバンドのサブバンドエネルギーを減衰させ、減衰させたサブバンドエネルギーをユニット数算出部２１１に出力する。ただし、サブバンドエネルギー減衰部２２１は、音声音響符号化装置１２０のサブバンドエネルギー減衰部１２１と同一の条件で減衰を行う。

このように、実施の形態２では、音声音響符号化装置１２０が帯域圧縮対象サブバンドのサブバンドエネルギーを減衰させることにより、暫定的な割当ビットが符号化側と同じ値になるようにしている。

（実施の形態３）
実施の形態１では、帯域圧縮対象のサブバンドにおける伸張後のスペクトル位置が帯域圧縮前から変化する可能性がある。そこで、少なくとも、サブバンド内において聴感に大きな影響を及ぼす絶対値振幅が最大のスペクトル（以下、「振幅最大スペクトル」という）については、帯域圧縮の前後でスペクトル位置が変化しないようにすることが考えられる。

本発明の実施の形態３では、帯域圧縮対象のサブバンドにおける振幅最大スペクトルの復号後の位置を補正する場合について説明する。

本発明の実施の形態３に係る音声音響符号化装置及び音声音響復号装置の構成は、実施の形態１に示した図１、図４と同様の構成であり、帯域圧縮部１０５、帯域伸張部２０６の機能が異なるのみなので、図１、図４を援用し、異なる機能について説明する。また、以下において、図２（Ａ）、図２（Ｂ）、図５を流用して説明する。

図１を参照するに、帯域圧縮部１０５は、サブバンド分割部１０２から出力されたサブバンドスペクトルから振幅最大スペクトルを探索する。帯域圧縮部１０５は、振幅最大スペクトルの位置が奇数番地に位置していれば０、偶数番地に位置していれば１とする位置補正情報を算出して変換符号化部１０７に出力する。図２（Ｂ）において、振幅最大スペクトルは位置２（偶数番地）に存在するスペクトルであるので、帯域圧縮部１０５は位置補正情報を１と算出する。算出された位置補正情報は、変換符号化部１０７によって符号化され、音声音響復号装置２００に送信される。

図４を参照するに、帯域伸張部２０６は、変換符号化復号部２０５から出力されたサブバンド圧縮スペクトルのうち、帯域圧縮対象外のサブバンドでは、そのままサブバンド圧縮スペクトルをサブバンドスペクトルとしてサブバンド統合部２０７に出力する。また、帯域伸張部２０６は、変換符号化復号部２０５から出力されたサブバンド圧縮スペクトルのうち、帯域圧縮対象サブバンドでは、復号された位置補正情報に基づいて、振幅最大スペクトルを配置し、残りのサブバンド圧縮スペクトルをサブバンド長の幅に伸張して、サブバンドスペクトルとしてサブバンド統合部２０７に出力する。ここでは、位置補正情報が１であるので、振幅最大スペクトルは偶数番地に配置される。この結果を図１０に示す。図２（Ａ）と比べると、位置２に位置する振幅最大スペクトルが正確な位置に配置されていることが分かる。なお、振幅最大スペクトル以外は、最大１サンプルずれる可能性がある。

このように、位置補正情報に基づいて、振幅最大スペクトルを配置することにより、振幅最大スペクトルを帯域圧縮の前後でスペクトル位置を維持することができる。

なお、帯域を半分にする場合は、位置補正情報に１ビットの割り当てが必要となるので、ユニット数を５とすると、削減分の５ビットと増加する位置補正情報分の１ビットとから最終的な削減ビット数は４となる。また、１／４に帯域圧縮し、ユニット数を５とする場合には、削減分の１０ビットと増加する位置補正情報分２ビットとから最終的な削減ビット数は８となる。

このように、実施の形態３では、音声音響符号化装置１００は、帯域圧縮対象サブバンドの振幅最大スペクトルの位置が奇数番地に位置していれば０、偶数番地に位置していれば１とする位置補正情報を算出し、音声音響復号装置２００に送信し、音声音響復号装置２００が位置補正情報に基づいて、振幅最大スペクトルを配置することにより、サブバンド内において聴感に大きな影響を及ぼす振幅最大スペクトルを帯域圧縮の前後でスペクトル位置を維持することができる。

なお、本実施の形態では、振幅最大スペクトルの位置が奇数番地に位置していれば０、偶数番地に位置していれば１とする位置補正情報を算出すると説明したが、本発明はこれに限らない。例えば、振幅最大スペクトルの位置が奇数番地に位置していれば１、偶数番地に位置していれば０であってもよい。また、帯域圧縮対象サブバンドを１／３、１／４等に圧縮する場合には、それに伴った位置補正情報が算出される。

（実施の形態４）
実施の形態１では、帯域を圧縮する方法として、帯域圧縮対象サブバンドの低域側から順に２サンプルずつの組み合わせを作り、各組み合わせのうち絶対値振幅の大きい方のサンプルを残す場合について説明した。しかし、振幅最大スペクトルの次に大きい振幅のスペクトル（以下、「次点スペクトル」という）が振幅最大スペクトルと隣接するケースでは、次点スペクトルは符号化対象から外れてしまうことがある。次点スペクトルが振幅最大スペクトルと隣接するケースは、拡張帯域においては確率的に多いことが観測により確認されている。

そこで、本発明の実施の形態４では、帯域圧縮対象サブバンドのスペクトルの配置をあらかじめ定められた手順に従って変更し（以下、「インタリーブ」という）、振幅最大スペクトルと次点スペクトルとが隣り合わないようにする場合について説明する。

図１１は、本発明の実施の形態４に係る音声音響符号化装置１３０の構成を示すブロック図である。以下、図１１を用いて音声音響符号化装置１３０の構成について説明する。ただし、図１１が図６と異なる点は、インタリーバ１３１を追加した点である。

インタリーバ１３１は、サブバンド分割部１０２から出力されたサブバンドスペクトルの配置をインタリーブし、配置をインタリーブしたサブバンドスペクトルを帯域圧縮部１０５に出力する。

図１２に、インタリーブを説明するための図を示す。図１２では、帯域圧縮対象サブバンドｎを抽出した様子を示し、サブバンド長をＷ（ｎ）、横軸は周波数、縦軸はスペクトルの絶対値振幅を示すものとする。

図１２（Ａ）は、帯域圧縮前のスペクトルを示しており、位置２のスペクトルが振幅最大スペクトルとし、位置１のスペクトルが次点スペクトルとする。ここで、実施の形態１に示した方法でスペクトルの選択を行うと、図１２（Ｂ）に示すように、位置２のスペクトルが選択され、位置１の次点スペクトルは符号化対象から除外されてしまう。

図１２（Ｃ）は、インタリーブ後のスペクトルを示す。具体的には、奇数番地をスペクトル上で低域側に並べ替え、偶数番地をスペクトル上で高域側に並べ替えた様子を示している。図中のＯｐ（ｘ）（ｘ＝１〜８）は、インタリーブ前のサブバンドスペクトル位置がｘであることを示すものとする。

このように、インタリーバ１３１が帯域圧縮対象サブバンドにおけるスペクトルの配置をインタリーブすることにより、振幅最大スペクトルの位置は５に、次点スペクトルの位置は１となって、両者は離れることになる。このため、実施の形態１に示した方法で帯域圧縮を行っても、図１２（Ｄ）に示すように、振幅最大スペクトルと次点スペクトルとを符号化対象とすることが可能となる。ただし、復号後のスペクトル位置のずれは、この例では最大２サンプルとなる。

図１３は、本発明の実施の形態４に係る声音響復号装置２３０の構成を示すブロック図である。以下、図１３を用いて音声音響復号装置２３０の構成について説明する。ただし、図１３が図７と異なる点は、デインタリーバ２３１を追加した点である。

デインタリーバ２３１は、帯域伸張部２０６から出力されたサブバンド毎に分離されたサブバンドスペクトルのうち、帯域圧縮対象サブバンドでは、サブバンドスペクトルの配置をデインタリーブし、配置をデインタリーブしたサブバンドスペクトルをサブバンド統合部２０７に出力する。

このように、実施の形態４では、音声音響符号化装置１３０が帯域圧縮対象サブバンドのスペクトルの配置をインタリーブして帯域圧縮することにより、次点スペクトルと振幅最大スペクトルとが隣接する場合であっても、両者を離すことができ、帯域圧縮によって次点スペクトルが除外されることを回避することができる。

なお、本実施の形態と実施の形態１〜３のいずれかとは任意に組み合わせることが可能である。ちなみに、実施の形態３の振幅最大スペクトルに対する位置補正情報を符号化する方法と本実施の形態とを組み合わせた場合、インタリーブを行っても、振幅最大スペクトルの位置は正確に符号化することができる。

（実施の形態５）
実施の形態４では、インタリーブをすることで振幅最大スペクトルと次点スペクトルとが隣接する場合に、次点スペクトルが符号化対象から外れることを防ぐ方法について説明した。本発明の実施の形態５では、振幅最大スペクトル近辺を帯域圧縮対象から外すことで、次点スペクトルが符号化対象から外れることを防ぐ方法について説明する。

本発明の実施の形態５に係る音声音響符号化装置及び音声音響復号装置の構成は、実施の形態１に示した図１、図４と同様の構成であり、帯域圧縮部１０５、帯域伸張部２０６の機能が異なるのみなので、図１、図４を援用し、異なる機能について説明する。

図１を参照するに、帯域圧縮部１０５は、サブバンド分割部１０２から出力されたサブバンドスペクトルから振幅最大スペクトルを探索する。振幅最大スペクトルが複数あった場合は、低域側のスペクトルを振幅最大スペクトルとする。帯域圧縮部１０５は、探索した振幅最大スペクトル及びその近辺のスペクトルを抽出し、帯域圧縮対象外のスペクトル、すなわち、サブバンド圧縮スペクトルの一部とする。ここでは、例えば、振幅最大スペクトルの前後１サンプル、つまり、３サンプルを帯域圧縮対象から除外するものとする。

帯域圧縮部１０５は、帯域圧縮対象外のスペクトルより低域側の帯域圧縮を行い、帯域圧縮した結果をサブバンド圧縮スペクトルの低域側から配置する。帯域圧縮部１０５は、帯域圧縮対象外のスペクトルを、サブバンド圧縮スペクトルの高域側に続けて配置する。次に、帯域圧縮部１０５は、帯域圧縮対象外のスペクトルより高域側の帯域圧縮を行い、帯域圧縮した結果をサブバンド圧縮スペクトルの高域側に続けて配置する。

帯域圧縮部１０５がこのような処理を行うことにより、振幅最大スペクトルの近辺を帯域圧縮対象から除外したサブバンド圧縮スペクトルを得ることができ、隣接した振幅最大スペクトルと次点スペクトルとを符号化対象とすることが可能となる。なお、振幅最大スペクトルの伸張後の位置を正確に表さないのであれば、この帯域圧縮方法に関して音声音響復号装置２００に送るべき情報は特にない。

図４を参照するに、帯域伸張部２０６は、変換符号化復号部２０５から出力されたサブバンド圧縮スペクトルのうち振幅最大値を探索する。音声音響符号化装置１００と同様に、振幅最大値が複数検出された場合は、低域側のスペクトルを振幅最大スペクトルとする。この結果、帯域伸張部２０６は、振幅最大スペクトル近辺のスペクトルを帯域圧縮対象外のスペクトルとする。ここでは、振幅最大スペクトル及びその前後１サンプルずつ、計３サンプルを帯域圧縮対象外のスペクトルとして抽出する。

次に、帯域伸張部２０６は、帯域圧縮対象外のスペクトルより低域側のサブバンド圧縮スペクトルを伸張する。伸張は、サブバンド圧縮スペクトルの低域側スペクトルを奇数番地に順次配置し、帯域圧縮対象外のスペクトルの直前まで繰り返して行われる。帯域伸張部２０６は、伸張した低域側のサブバンドスペクトルの高域側に続けて、帯域圧縮対象外のスペクトルを配置する。次に、帯域伸張部２０６は、帯域圧縮対象外のスペクトルより高域側のサブバンド圧縮スペクトルを伸張し、伸張したサブバンドスペクトルを帯域圧縮対象外のスペクトルの高域側に配置する。

帯域伸張部２０６がこのような処理を行うことにより、振幅最大スペクトルの近辺を帯域圧縮対象から外したサブバンド圧縮スペクトルを伸張することができる。

次に、上述した帯域圧縮部１０５の帯域圧縮方法について説明する。図１４に帯域圧縮の一例を示す。ここでは、サブバンド長を１０とし、低域側から振幅値を、８，３，６，２，１０，９，５，７，４，１とする。

帯域圧縮部１０５は、まず、サブバンドスペクトルの振幅最大スペクトルを探索し、振幅最大スペクトル及びその前後１サンプルずつ、計３サンプルを帯域圧縮対象外のスペクトルとして抽出する。この例では、位置５のスペクトルが最大なので、位置４，５，６のスペクトルが帯域圧縮対象外となる。すなわち、低域側の位置１，２，３と高域側の位置７，８，９，１０に位置するスペクトルが帯域圧縮対象となる。この結果、図１４に示すように、位置１，３のスペクトルが選択され、それに続いて、帯域圧縮対象外の位置４，５，６のスペクトルが配置され、続いて、位置８，１０のスペクトルが選択されて、サブバンド圧縮スペクトルが構成される。

次に、上述した帯域伸張部２０６の帯域伸張方法について説明する。図１５に帯域伸張の一例を示す。帯域伸張部２０６は、サブバンド圧縮スペクトルの振幅最大値を探索する。この例では、位置４のスペクトルが振幅最大スペクトルとなるため、位置３，４，５のスペクトルが帯域圧縮対象外のスペクトルとなる。すなわち、低域側の位置１，２のスペクトル、高域側の位置６，７のスペクトルは帯域圧縮されたスペクトルであることが分かる。

帯域伸張部２０６は、位置１、２のサブバンド圧縮スペクトルをサブバンドスペクトルの位置１，３にそれぞれ配置する。続いて、帯域伸張部２０６は、帯域圧縮対象外のスペクトルをそれに続けてサブバンドスペクトルの位置５，６，７に配置する。さらに、帯域伸張部２０６は、位置６，７のサブバンド圧縮スペクトルをサブバンドスペクトルの位置８，１０に配置する。このような手順により、振幅最大スペクトル及びその近辺を帯域圧縮対象から外して帯域圧縮されたサブバンド圧縮スペクトルを伸張することが可能となる。

このように、実施の形態５では、音声音響符号化装置１００が、帯域圧縮対象サブバンドにおける振幅最大スペクトル及びその近辺のスペクトルを帯域圧縮対象から除外し、その他のスペクトルを帯域圧縮することにより、次点スペクトルと振幅最大スペクトルとが隣接する場合であっても、帯域圧縮によって次点スペクトルが除外されることを回避することができる。

なお、本実施の形態では、振幅最大スペクトルの伸張後の位置が正確な位置とならない可能性があるが、実施の形態２で説明した位置補正情報を符号化及び送信することにより、正確な位置に配置することが可能である。

（実施の形態６）
一般的に、聴感上重要なスペクトルは、振幅が大きく、かつ、ほぼ同じ周波数である程度以上の長い時間継続して発生しているケースが多い。人間の音声における母音がこの特徴を持つが、音声以外の楽器が発する高帯域においても母音程ではないにしても、この特徴を多くのケースで観察できる。この特徴を利用して、前のフレームで主観上重要なスペクトルを抽出しておき、現フレームにおいてそのスペクトルの周辺帯域のみを符号化対象として限定して符号化することで、聴感上重要なスペクトルをより効率的に符号化できる。

原信号であるサブバンドスペクトルでは数フレームに渡って安定して出力されていたスペクトルが、サブバンドエネルギーの変動に伴い符号化ビット量がフレーム毎に変動するため、フレーム毎に符号化できたり符号化できなかったりといった現象が発生することがある。この場合、復号音声の明瞭性を劣化させノイジーにさせてしまう。

そこで、本発明の実施の形態６では、拡張帯域におけるサブバンドの全てのスペクトルを符号化対象とせず、聴感上重要なスペクトル周辺帯域のみを符号化対象とすることで、より効率的な符号化を実現できる構成について説明する。

図１６は、本発明の実施の形態６に係る音声音響符号化装置１４０の構成を示すブロック図である。以下、図１６を用いて音声音響符号化装置１４０の構成について説明する。ただし、図１６が図１と異なる点は、ユニット数再算出部１０６と帯域圧縮部１０５を削除し、ユニット数算出部１０４をユニット数算出部１４１に変更し、変換符号化部１０７を変換符号化部１４２に変更し、多重化部１０８を多重化部１４５に変更し、変換符号化結果記憶部１４３及び対象帯域設定部１４４を追加した点である。

ユニット数算出部１４１は、サブバンドエネルギー算出部１０３から出力されたサブバンドエネルギーに基づいて、各サブバンドに割り当てる暫定的な割当ビット数を算出する。また、ユニット数算出部１４１は、後述する対象帯域設定部１４４から出力される帯域限定サブバンド情報に基づいて、変換符号化の符号化対象帯域のサブバンド長を取得する。取得したサブバンド長からユニット数が算出できるので、ユニット数算出部１４１は、暫定的な割当ビット数に近くなるように、符号化ビット量を算出する。ユニット数算出部１４１は、算出した符号化ビット量と同等の情報をユニット数として変換符号化部１４２に出力する。基本的に、符号化ビットは、サブバンドエネルギーＥ［ｎ］が大きいほど、多くのビットが割り当てられるようにビット配分が行われる。ただし、ビット配分はユニット単位で割り当てられ、ユニットに要するビット数はサブバンド長に依存する。つまり、同じ暫定的な割当ビット数であっても、サブバンド長が短ければ、ユニットに必要なビットは少なくなることで、より多くのユニットが使えることになる。ユニットが多く使えると、より多くのスペクトルを符号化できたり、振幅の精度を上げたりすることができる。

変換符号化部１４２は、ユニット数算出部１４１から出力されたユニット数と、後述する対象帯域設定部１４４から出力される帯域限定サブバンド情報とを用いて、サブバンド分割部１０２から出力されたサブバンドスペクトルを変換符号化により符号化する。符号化した変換符号化データは多重化部１４５に出力される。また、変換符号化部１４２は、変換符号化データを復号し、復号したスペクトルを復号サブバンドスペクトルとして変換符号化結果記憶部１４３に出力する。変換符号化部１４２は、符号化する際には、ユニット数算出部１４１より出力されるユニット数と、対象帯域設定部１４４より出力される帯域限定サブバンド情報とから、符号化対象となる帯域の開始スペクトル位置、終了スペクトル位置、サブバンド長等を取得して変換符号化を行う。以後、対象帯域設定部１４４により設定される、通常のサブバンド長よりも短い符号化対象サブバンドを限定帯域と呼び、サブバンド内の全てのスペクトルを符号化対象とするときには全帯域と呼ぶこととする。変換符号化方式として、ＦＰＣ、ＡＶＱ、または、ＬＶＱといった変換符号化方式を用いれば効率的に符号化できる。なお、限定帯域外のスペクトルは符号化対象から外れるため、変換符号化では符号化されない。ここでは、復号サブバンドスペクトルにおける限定帯域外のスペクトルは全て振幅を零にする。

変換符号化結果記憶部１４３は、変換符号化部１４２から出力された復号サブバンドスペクトル情報を記憶する。ここでは、説明を簡単にするため、変換符号化結果記憶部１４３は、そのサブバンドにおける振幅最大スペクトル（絶対値振幅が最大のスペクトル）の情報のみを記憶するものとする。変換符号化結果記憶部１４３は、記憶したスペクトルの位置を前フレームのスペクトル情報として、記憶したフレームの次のフレームで対象帯域設定部１４４に出力する。なお、ビットが少なくユニット数が零となった場合、及び、変換符号化が行われなかった場合には、スペクトルが記憶されていないことを示すようにする。例えば、前フレームのスペクトル情報を−１のように設定すればよい。

対象帯域設定部１４４は、変換符号化結果記憶部１４３から出力された前フレームのスペクトル情報と、サブバンド分割部１０２から出力されたサブバンドスペクトルとを用いて、帯域限定サブバンド情報を生成し、ユニット数算出部１４１及び変換符号化部１４２に出力する。帯域限定サブバンド情報は、符号化を行う帯域の開始スペクトル位置、終了スペクトル位置及び符号化対象帯域のサブバンド長が分かるものであればよい。

また、対象帯域設定部１４４は、サブバンドを帯域限定するか否かを示す帯域限定フラグを多重化部１４５に出力する。ここでは、帯域限定フラグが１のときに帯域限定を行い、帯域限定フラグが０のときに全帯域を符号化対象とするものとする。

多重化部１４５は、サブバンドエネルギー算出部１０３から出力されたサブバンドエネルギー符号化データと、変換符号化部１４２から出力された変換符号化データと、対象帯域設定部１４４から出力された帯域限定フラグとを多重化して符号化データとして出力する。

以上の構成により、音声音響符号化装置１４０は、前フレームの変換符号化結果を用いて、帯域限定した符号化データを生成することができる。

次に、図１６に示した対象帯域設定部１４４における対象帯域設定方法について説明する。

対象帯域設定部１４４は、符号化対象のサブバンドに含まれる全てのスペクトルを変換符号化の対象とするか、聴感上重要なスペクトルの周辺に限定した帯域に含まれるスペクトルを変換符号化の対象とするかの判断を行う。聴感上重要なスペクトルか否かの判断方法を、以下に簡易的な方法で例示する。

サブバンドスペクトルの中で振幅最大スペクトルは聴感上重要性が高いと考えられる。現フレームにおいても、サブバンドスペクトルにおける振幅最大スペクトルが、前フレームの振幅最大スペクトルと近い帯域内にあれば、聴感上重要なスペクトルが時間的に連続していると判断できる。このようなケースでは、前フレームの聴感上重要なスペクトル周辺帯域のみに符号化範囲を絞ることができる。

例えば、ｎ番目のサブバンドにおいて、前フレームの聴感上重要なスペクトルの位置をＰ［ｔ−１，ｎ］とする。符号化対象限定後の帯域の幅をＷＬ［ｎ］とすると、帯域限定後の符号化対象帯域の開始スペクトル位置はＰ［ｔ−１，ｎ］−（ｉｎｔ）（ＷＬ［ｎ］／２）、終了スペクトル位置はＰ［ｔ−１，ｎ］＋（ｉｎｔ）（ＷＬ［ｎ］）／２）で表される。ただし、ここでは、ＷＬ［ｎ］は奇数、（ｉｎｔ）は小数点を切り捨てる処理を表すものとする。ここで、サブバンド長Ｗ［ｎ］を１００、ＷＬ［ｎ］を３１とすると、一本のスペクトルの位置を表すのに最低限必要なビット量は、７ビットから５ビットに削減できる。

なお、ＷＬ［ｎ］は、サブバンド毎にあらかじめ決めておくものとして説明するが、サブバンドスペクトルの特徴に応じて可変としてもよい。例えば、サブバンドエネルギーが大きいときは、ＷＬ［ｎ］を広くし、フレームｔ−１におけるサブバンドエネルギーとフレームｔにおけるサブバンドエネルギーの変化が少ないときは、ＷＬ［ｎ］を狭くする方法等がある。

また、サブバンド長Ｗ［ｎ］においては、Ｗ［ｎ−１］≦Ｗ［ｎ］の関係があったが、限定帯域幅ＷＬ［ｎ］においては、その関係に拘束されなくてもよい。また、限定帯域の開始スペクトル位置、及び終了スペクトル位置が、元々のサブバンドの範囲外になる場合には、元々のサブバンドの開始スペクトル位置を限定帯域の開始スペクトル位置、もしくは、元々のサブバンドの終了スペクトル位置を限定帯域の終了スペクトル位置とするようにし、ＷＬ[ｎ]は変更しないものとする。

ところで、限定帯域を前フレームでの変換符号化の結果のみで決めた場合、限定帯域外に主観上重要なスペクトルが移動した場合には、そのスペクトルは符号化されず、主観上重要ではない帯域を限定帯域として符号化し続ける危険がある。しかしながら、本例のように、限定帯域内に現サブバンドの振幅最大スペクトルが存在するか確認することにより、限定帯域外に主観上重要なスペクトルが存在するかを知ることができる。その場合には、全帯域を符号化対象とすることで、主観上重要なスペクトルの継時的な符号化に寄与することができる。

なお、対象帯域設定部１４４においては、聴感上重要な帯域を、前フレームと現フレームの振幅最大スペクトルの位置から算出する場合を例に説明したが、低域スペクトルの調波構造から高域スペクトルの調波構造を推定して、聴感上重要な帯域を算出するようにしてもよい。調波構造とは、低域のスペクトルがほぼ等間隔で高域にも存在する構造である。そのため、低域スペクトルから調波構造を推定し、高域における調波構造を推定することもできる。推定した帯域周辺を限定帯域として符号化することも可能である。この場合、低域スペクトルを先に符号化し、その符号化結果を用いてから高域のスペクトルを符号化するようにすれば、音声音響符号化装置と音声音響復号装置の間で同一の帯域限定サブバンド情報を得ることは可能である。

次に、上述した音声音響符号化装置１４０の一連の動作について説明する。

まず、帯域限定を行わない拡張帯域の符号化について、図１７を用いて説明する。図１７では、サブバンドｎ−１とサブバンドｎの２つのサブバンドを表示しており、横軸は周波数、縦軸はスペクトル振幅の絶対値を表している。また、スペクトルは、各サブバンドにおける振幅最大スペクトルのみを表示している。また、時間的に連続する３つのフレームｔ−１,ｔ,ｔ＋１を上から順に表示している。フレームｔ、サブバンドｎ−１の振幅最大スペクトルの位置をＰ［ｔ、ｎ−１］で表すものとする。

サブバンドエネルギー算出部１０３により算出されたサブバンドエネルギーにより、フレームｔ−１、サブバンドｎ−１の暫定的な割当ビット数は７ビット、サブバンドｎの暫定的な割当ビット数は５ビットであったとする。以下、フレームｔでは、５ビットと７ビット、フレームｔ＋１では、７ビットと５ビットであったとする。

なお、サブバンドｎ−１のサブバンド長Ｗ［ｎ−１］は１００、サブバンド長Ｗ［ｎ］は１１０であるとし、それぞれ２の７乗を下回るので、ユニットを簡単のため整数化して７ビットであるものとする。フレームｔ−１では、サブバンドｎ−１の暫定的な割当ビット数がユニットを超えるため、ひとつのスペクトルを符号化できる。一方、サブバンドｎでは暫定的な割当ビット数がユニットを超えないため、スペクトルは符号化されない。フレームｔでは、暫定的な割当ビット数が５ビットと７ビットなので、サブバンドｎのみスペクトルが符号化され、フレームｔ＋１では、暫定的な割当ビット数が７ビットと５ビットであるため、サブバンドｎ−１のスペクトルが変換符号化されるものとする。

このような場合、サブバンドｎ−１に着目すると、入力スペクトルでは、近い帯域内で連続してスペクトルが存在していたにも関わらず、暫定的な割当ビット数が若干足らないために、フレームｔでスペクトルが符号化されず、ｔ−１からｔ＋１において時間的に連続して符号化されない。本例のように連続性が欠如した場合、復号信号の明瞭性を劣化させ、ノイジーな印象を与えてしまう。

次に、帯域限定を行った拡張帯域の符号化について、図１８を用いて説明する。図１８の基本的な構成は図１７と同様である。また、フレームｔ−１については、図１７に説明した例と全く同一であるものとする。

まず、フレームｔのサブバンドｎについて説明する。フレームｔ−１におけるサブバンドｎは変換符号化では符号化されていないため、フレームｔでは、対象帯域設定部１４４に変換符号化結果記憶部１４３から前フレームのスペクトル情報が−１として出力される。これにより、フレームｔのサブバンドｎでは、帯域限定を行わずにサブバンド内の全てのスペクトルを対象に変換符号化を行う。サブバンドｎの帯域限定フラグは０に設定する。本例の場合、暫定的な割当ビット数は７ビットであるので、１つのスペクトルが符号化される。

次に、フレームｔのサブバンドｎ−１について説明する。フレームｔ−１では、サブバンドｎ−１で変換符号化がされているため、変換符号化結果記憶部１４３から前フレームのスペクトル情報Ｐ［ｔ−１，ｎ−１］が対象帯域設定部１４４に出力される。対象帯域設定部１４４では、限定帯域をＰ［ｔ−１，ｎ−１］−（ｉｎｔ）（ＷＬ［ｎ−１］／２）から、Ｐ［ｔ−１，ｎ−１］＋（ｉｎｔ）（ＷＬ［ｎ−１］／２）と設定する。次に、入力されるサブバンドスペクトルのうち、振幅最大スペクトルＰ［ｔ，ｎ−１］を探索する。本例においては、Ｐ［ｔ，ｎ−１］は限定帯域内に存在するので、サブバンドｎ−１の帯域限定フラグを１にセットする。また、対象帯域設定部１４４は、帯域限定サブバンド情報として、限定帯域の開始スペクトル位置Ｐ［ｔ−１，ｎ−１］−（ｉｎｔ）（ＷＬ［ｎ−１］／２）、終了スペクトル位置Ｐ［ｔ−１，ｎ−１］＋（ｉｎｔ）（ＷＬ［ｎ−１］／２）、限定帯域幅ＷＬ［ｎ−１］を出力する。

ユニット数算出部１４１では、サブバンド長がＷ［ｎ−１］からＷＬ［ｎ−１］に短縮されたので、ユニット数が増える可能性が高くなる。

変換符号化部１４２では、サブバンド分割部１０２から出力されたサブバンドスペクトルのうち、対象帯域設定部１４４から出力された限定帯域サブバンド情報で指示される限定帯域内のスペクトルのみ符号化する。ＷＬ［ｎ−１］が３１であるとすると、３１は２の５乗未満なのでユニットは簡単のため５で表す。この例では、暫定的な割当ビット数が５ビット、ユニットが５であるためひとつのスペクトルを符号化できる。以後、フレームｔ＋１においても、フレームｔと同様の手順で符号化できる。

上述したように、重要なスペクトル周辺帯域に限定して変換符号化することにより、サブバンドｎ−１に着目したとき、フレームｔ−１からｔ＋１まで連続して変換符号化により符号化できることを示した。このように、聴感上重要なスペクトルを時間的に連続して符号化することが可能となるため、ノイズ感の少ない明瞭性の高い復号音声を得ることができる。

図１９は、本発明の実施の形態６に係る声音響復号装置２４０の構成を示すブロック図である。以下、図１９を用いて音声音響復号装置２４０の構成について説明する。ただし、図１９が図７と異なる点は、符号分離部２０１を符号分離部２４１に、ユニット数算出部２１１をユニット数算出部２４２に、変換符号化復号部２０５を変換符号化復号部２４３に、サブバンド統合部２０７をサブバンド統合部２４６にそれぞれ変更し、変換符号化結果記憶部２４４及び対象帯域復号部２４５を追加した点である。

符号分離部２４１は、符号化データが入力され、入力された符号化データをサブバンドエネルギー符号化データ、変換符号化データ、帯域限定フラグに分離し、サブバンドエネルギー符号化データをサブバンドエネルギー復号部２０２に出力し、変換符号化データを変換符号化復号部２４３に出力し、帯域限定フラグを対象帯域復号部２４５に出力する。

ユニット数算出部２４２は、音声音響符号化装置１４０のユニット数算出部１４１と同一であるため、その詳細な説明は省略する。

変換符号化復号部２４３は、符号分離部２４１から出力された変換符号化データ、ユニット数算出部２４２から出力されたユニット数、および、対象帯域復号部２４５から出力された帯域限定サブバンド情報に基づいて、サブバンド毎に復号した結果を復号サブバンドスペクトルとしてサブバンド統合部２４６に出力する。なお、帯域限定された符号化データを復号した場合には、限定帯域外のスペクトルの振幅は全て零とし、出力するサブバンド長は帯域限定する前のサブバンド長Ｗ［ｎ］のスペクトルとして出力する。

変換符号化結果記憶部２４４は、音声音響符号化装置１４０の変換符号化結果記憶部１４３とほぼ同一の機能を有する。ただし、フレーム消失、パケットロス等、通信路による誤りの影響を受けたときは、復号サブバンドスペクトルを変換符号化結果記憶部２４４に記憶することができないので、例えば、前フレームのスペクトル情報を−１のように設定する。

対象帯域復号部２４５は、符号分離部２４１から出力された帯域限定フラグと、変換符号化結果記憶部２４４から出力された前フレームのスペクトル情報とに基づいて、帯域限定サブバンド情報をユニット数算出部２４２と変換符号化復号部２４３とに出力する。対象帯域復号部２４５は、帯域限定フラグの値に応じて、帯域限定を行うか否かを決定する。ここでは、対象帯域復号部２４５は、帯域限定フラグが１のときには、帯域限定を行い、帯域限定を示す帯域限定サブバンド情報を出力する。一方、対象帯域復号部２４５は、帯域限定フラグが０のときには、帯域限定は行わずに、そのサブバンドの全スペクトルを符号化対象であることを示す帯域限定サブバンド情報を出力する。ただし、変換符号化結果記憶部２４４から出力された前フレームのスペクトル情報が−１であったとしても、帯域限定フラグが１であれば、対象帯域復号部２４５は、帯域限定を示す帯域限定サブバンド情報を算出する。これは、フレーム消失等により前フレームで変換符号化データの復号が行われなかった場合には、前フレームのスペクトル情報が−１となるが、音声音響符号化装置１４０においては帯域限定を行った変換符号化を行っているので、帯域限定を前提として変換符号化データを復号する必要があるためである。

サブバンド統合部２４６は、変換符号化復号部２４３から出力された復号サブバンドスペクトルを低域側から詰めて一つのベクトルに統合し、統合したベクトルを復号信号スペクトルとして周波数時間変換部２０８に出力する。

次に、上述した音声音響復号装置２４０の一連の動作について、図１８を用いて説明する。

ここでは、フレームｔ−１において、サブバンドｎ−１は変換符号化されており、サブバンドｎは変換符号化で符号化されていないものとする。フレームｔにおいては、サブバンドｎ−１及びサブバンドｎは変換符号化されており、サブバンドｎ−１は帯域限定により符号化されているものとする。

まず、フレームｔについて説明する。対象帯域復号部２４５は、各サブバンドが、符号分離部２４１から出力された帯域限定フラグにより、帯域限定されずに変換符号化されたサブバンドか、帯域限定の上で変換符号化されたサブバンドかを知ることができる。帯域限定されずに変換符号化されたサブバンド、ここでは、サブバンドｎは全てのスペクトル符号化対象として復号される。変換符号化復号部２４３は、符号分離部２４１から出力された符号化データを、対象帯域復号部２４５から出力されたサブバンド長Ｗ［ｎ］、及び、ユニット数算出部２４２から出力されたユニット数を用いて復号することができる。

一方、対象帯域復号部２４５は、帯域限定フラグにより、サブバンドｎ−１が帯域限定された状態で符号化されていることを知ることができる。そのため、変換符号化復号部２４３は、符号分離部２４１から出力された符号化データを、対象帯域復号部２４５から出力されたサブバンドｎ−１の帯域限定サブバンド長ＷＬ［ｎ−１］、及び、ユニット数算出部２４２から出力されたユニット数を用いて復号することができる。

ただし、このままでは、変換符号化復号部２４３は、復号した復号サブバンドスペクトルの正確な配置位置は特定できないので、前フレームのサブバンドｎ−１の復号結果を使って、正確な配置位置を特定する。変換符号化結果記憶部２４４には、Ｐ［ｔ−１，ｎ−１］が記憶されているものとする。対象帯域復号部２４５は、変換符号化結果記憶部２４４から出力されたＰ［ｔ−１，ｎ−１］を中心に、サブバンド幅がＷＬ［ｎ−１］となるように、帯域限定サブバンド情報を設定する。具体的には、帯域限定サブバンドの開始スペクトル位置をＰ［ｔ−１，ｎ−１］−（ｉｎｔ）（ＷＬ［ｎ−１］／２）、終了スペクトル位置をＰ［ｔ−１，ｎ−１］＋（ｉｎｔ）（ＷＬ［ｎ−１］／２）とする。このようにして算出した帯域限定サブバンド情報を、変換符号化復号部２４３に出力する。

これにより、変換符号化復号部２４３は、復号したサブバンドスペクトルを正確な位置に配置できる。なお、帯域限定サブバンド情報で示される限定帯域外のスペクトルについてはスペクトルの振幅を零とする。

なお、フレームｔ−１が通信路の影響により受信できず、正しく復号できなかった場合は、変換符号化結果記憶部２４４には、正しい復号結果が記憶されない。そのため、フレームｔにおいて帯域限定により符号化されたサブバンドの場合、復号サブバンドスペクトルを正確な位置に配置することはできない。この場合、帯域限定サブバンド情報の開始スペクトル位置、終了スペクトル位置を、例えば、サブバンド中央付近となるように固定としてもよい。また、変換符号化結果記憶部２４４において、過去に復号した結果を用いて推定するようにしてもよい。また、変換符号化復号部２４３が低域スペクトルから調波構造を算出し、当該サブバンドにおける調波構造を推定して、振幅最大スペクトルの位置を推定するようにしてもよい。

以上の一連の動作により、音声音響復号装置２４０は、帯域限定により符号化された符号化データを復号することができる。

以上の音声音響符号化装置１４０により、高域における継時性が高いスペクトルを効率的に符号化することが可能となり、また、音声音響復号装置２４０により、明瞭性の高い復号信号を得ることが可能となる。

このように、実施の形態６では、前フレームで主観上重要なスペクトル周辺帯域のみを符号化することにより、少ないビットで対象帯域を符号化できるため、時間的に継続して聴感上重要なスペクトルを符号化できる可能性を向上させることができる。この結果、明瞭性の高い復号信号を得ることが可能となる。

２０１２年１１月５日出願の特願２０１２−２４３７０７及び２０１３年５月３１日出願の特願２０１３−１１５９１７の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。

本発明にかかる音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法は、音声通話を行う通信装置等に適用できる。

１０１時間周波数変換部
１０２サブバンド分割部
１０３サブバンドエネルギー算出部
１０４、２０３、１１１、１４１、２１１、２４２ユニット数算出部
１０５帯域圧縮部
１０６、２０４ユニット数再算出部
１０７、１４２変換符号化部
１０８、１４５多重化部
１２１、２２１サブバンドエネルギー減衰部
１３１インタリーバ
１４３、２４４変換符号化結果記憶部
１４４対象帯域設定部
２０１、２４１符号分離部
２０２サブバンドエネルギー復号部
２０５、２４３変換符号化復号部
２０６帯域伸張部
２０７、２４６サブバンド統合部
２０８周波数時間変換部
２３１デインタリーバ
２４５対象帯域復号部

Claims

時間領域の入力信号を周波数領域のスペクトルに変換する時間周波数変換手段と、
拡張領域の周波数領域のスペクトルを複数のサブバンドに分割する分割手段と、
前記拡張領域内の各サブバンドにおいて、１つ前のフレームにおけるサブバンドの最大振幅スペクトルと、現在のフレームにおけるサブバンドの前記最大振幅スペクトルとの距離が所定範囲内にある場合に、前記サブバンドよりも狭い限定帯域を現在のフレームに設定し、前記限定帯域の帯域幅は、前フレームの前記最大振幅スペクトルの周辺帯域を符号化対象の帯域として限定する、限定帯域設定手段と、
前記限定帯域設定手段により限定帯域が設定された場合、現在のフレームにおけるサブバンドについて、前記限定帯域内のスペクトルを符号化し、前記限定帯域の外側のスペクトルは符号化しない、変換符号化手段と、
を具備する音声音響符号化装置。
前記各サブバンドにおける前記最大振幅スペクトルの情報を記憶する記憶部をさらに備え、
前記限定帯域設定手段は、前フレームの前記最大振幅スペクトルの情報を用いて、限定帯域を設定する、
請求項１に記載の音声音響符号化装置。
前記限定帯域設定手段は、
限定帯域を設定するか否かを示すフラグを出力する、
請求項１に記載の音声音響符号化装置。
前記フラグが１のときに、前記限定帯域設定手段は限定帯域を設定する、
請求項３に記載の音声音響符号化装置。
時間領域の入力信号を周波数領域のスペクトルに変換する時間周波数変換工程と、
拡張領域の周波数領域のスペクトルを複数のサブバンドに分割する分割工程と、
前記拡張領域内の各サブバンドにおいて、１つ前のフレームにおけるサブバンドの最大振幅スペクトルと、現在のフレームにおけるサブバンドの前記最大振幅スペクトルとの距離が所定範囲内にある場合に、限定帯域を設定し、前記限定帯域の帯域幅は、前フレームの前記最大振幅スペクトルの周辺帯域を符号化対象の帯域として限定する、限定帯域設定工程と、
前記限定帯域が設定された現在のフレームにおけるサブバンドについて、前記限定帯域のスペクトルを符号化し、前記限定帯域の外側のスペクトルは符号化しない、変換符号化工程と、
を具備する音声音響符号化方法。
前記各サブバンドにおける前記最大振幅スペクトルの情報を記憶する記憶工程をさらに備え、
前記限定帯域設定工程は、前フレームの前記最大振幅スペクトルの情報を用いて、前記限定帯域を設定する、
請求項５に記載の音声音響符号化方法。
前記限定帯域設定工程は、
前記限定帯域を設定するか否かを示すフラグを出力する、
請求項５に記載の音声音響符号化方法。
前記フラグが１のときに、前記限定帯域設定手段は限定帯域を設定する、
請求項７に記載の音声音響符号化方法。
限定帯域を設定するか否かを示すフラグを含む、音声音響符号化データを復号する変換復号部と、
１つ前のフレームにおけるサブバンドの最大振幅スペクトルの位置情報を記憶する記憶部と、
復号されたバンドに符号化装置側で限定帯域が設定されているか否かを、復号されたフラグに基づいて認識し、
限定帯域が設定されていると認識された場合、前記１つ前のフレームにおけるサブバンドの最大振幅スペクトル位置情報を用いて、前記限定帯域が設定された現在のフレームにおけるサブバンドについて、前記限定帯域のスペクトルを復号する、対象帯域復号手段と、
を具備し、
前記限定帯域は、符号化装置側において、前記各サブバンドにおいて、１つ前のフレームにおけるサブバンドの最大振幅スペクトルと、現在のフレームにおけるサブバンドの前記最大振幅スペクトルとの距離が所定範囲内にある場合に、限定帯域を設定し、前記限定帯域の帯域幅は、前フレームの前記最大振幅スペクトルの周辺帯域を符号化対象の帯域として限定される、
音声音響復号装置。
限定帯域を設定するか否かを示すフラグを含む、音声音響符号化データを復号し、
１つ前のフレームにおけるサブバンドの最大振幅スペクトル位置情報を記憶し、
復号されたバンドに符号化装置側で限定帯域が設定されているか否かを、復号されたフラグに基づいて認識し、
限定帯域が設定されていると認識した場合、前記１つ前のフレームにおけるサブバンドの最大振幅スペクトル位置情報を用いて、前記限定帯域が設定された現在のフレームにおけるサブバンドについて、前記限定帯域のスペクトルを復号し、
前記限定帯域は、符号化装置側において、前記各サブバンドにおいて、１つ前のフレームにおけるサブバンドの最大振幅スペクトルと、現在のフレームにおけるサブバンドの前記最大振幅スペクトルとの距離が所定範囲内にある場合に、限定帯域を設定し、前記限定帯域の帯域幅は、前フレームの前記最大振幅スペクトルの周辺帯域を符号化対象の帯域として限定される、
音声音響復号方法。