JP2022050609A

JP2022050609A - 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法

Info

Publication number: JP2022050609A
Application number: JP2022003475A
Authority: JP
Inventors: ゾンシアンリウ; Zongxian Liu; スリカンスナジスティ; Srikanth Nagisetty; 正浩押切; Masahiro Oshikiri
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2012-12-13
Filing date: 2022-01-13
Publication date: 2022-03-30
Also published as: EP3457400A1; JP6535466B2; BR112015013233A2; EP2933799A4; JP7010885B2; US9767815B2; PL2933799T3; BR112015013233B1; CN107516531B; CN104838443A; EP3232437B1; EP3457400B1; US20170345431A1; MX2015006161A; US10685660B2; MX341885B; WO2014091694A1; BR112015013233B8; KR20150095702A; ES2643746T3

Abstract

【課題】効率的なビット配分を行い、音質の向上を図る音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法を提供する。【解決手段】音声音響符号化装置のビット割当部（１０７）において、卓越周波数バンド識別部（３０１）が、入力音声音響信号のスペクトル中のノルム係数値が極大値を有する卓越周波数バンドを識別し、卓越グループ決定部（３０２－１～３０２－Ｎ）および非卓越グループ決定部（３０３）が、全てのサブバンドを、卓越周波数バンドを含む卓越グループと卓越周波数バンドを含まない非卓越グループとにグループする。グループビット配分部（３０８）がグループ毎のエネルギーおよびノルム分散に基づいて、各グループにビットを配分し、サブバンドビット配分部（３０９）がグループ毎に配分されたビットをグループのエネルギーに対するノルムの割合に応じて各サブバンドにさらに配分する。【選択図】図７

Description

本発明は、変換符号化方式を用いた音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法に関する。

０．０２？２０ｋＨｚ帯域のフルバンド（ＦＢ：Full band）の音声信号または音楽信号を効率的に符号化できる方式として、ＩＴＵ？Ｔ（International Telecommunication Union Telecommunication Standardization Sector）で規格化された技術がある。この技術では、入力信号を周波数領域に変換し、２０ｋＨｚまでの帯域を符号化している（変換符号化）。

ここで、変換符号化は、離散コサイン変換（ＤＣＴ：Discrete Cosine Transform）または修正離散コサイン変換（ＭＤＣＴ：Modified Discrete Cosine Transform）等の時間周波数変換を使用して、入力信号を時間領域から周波数領域に変換し、信号を聴覚特性に正確に対応させてマッピングできるようにする符号化方式である。

変換符号化においては、スペクトル係数が複数の周波数サブバンドに分割される。各サブバンドの符号化において、より多くの量子化ビットを、人の耳にとって知覚的に重要なバンドに割り当てることにより、音質を全体的に高めることができる。

この目的を達成するために、効率的なビット割当方法が検討されており、例えば、非特許文献１に開示の技術が知られている。以下、特許文献１に開示のビット割当方法について図１および図２を用いて説明する。

図１は、特許文献１に開示の音声音響符号化装置の構成を示すブロック図である。４８ｋＨｚでサンプリングされた入力信号が音声音響符号化装置の過渡検出器１１および変換部１２に入力される。

過渡検出器１１は、入力信号から、音声の始端部または終端部に対応する過渡フレーム、またはそれ以外の音声区間に対応する定常フレームのいずれかを検出し、変換部１２は、過渡検出器１１によって検出されたフレームが過渡フレームか定常フレームかに応じて、高周波数分解能変換または低周波数分解能変換を入力信号のフレームに適用し、スペクトル係数（または変換係数）を取得する。

ノルム推定部１３は、変換部１２によって得られたスペクトル係数を帯域幅の異なるバンドに分割する。また、ノルム推定部１３は、分割した各バンドのノルム（またはエネルギー）を推定する。

ノルム量子化部１４は、ノルム推定部１３によって推定された各バンドのノルムに基づいて、全てのバンドのノルムからなるスペクトル包絡線を求め、求めたスペクトル包絡線を量子化する。

スペクトル正規化部１５は、変換部１２によって得られたスペクトル係数を、ノルム量子化部１４によって量子化されたノルムによって正規化する。

ノルム調整部１６は、ノルム量子化部１４によって量子化されたノルムを適応スペクトル重み付けに基づいて、調整する。

ビット割当部１７は、ノルム調整部１６によって調整された量子化ノルムを用いて、フレーム内のバンド毎に使用可能なビットを割り当てる。

格子ベクトル符号化部１８は、スペクトル正規化部１５によって正規化されたスペクトル係数を、ビット割当部１７によってバンド毎に割り当てられたビットで格子ベクトル符号化を行う。

ノイズレベル調整部１９は、格子ベクトル符号化部１８における符号化前のスペクトル係数のレベルを推定し、推定したレベルを符号化する。これにより、ノイズレベル調整インデックスが求められる。

マルチプレクサ２０は、変換部１２が取得した入力信号のフレーム構成、すなわち、定常フレームであるか過渡フレームであるかを示す過渡信号フラグ、ノルム量子化部１４によって量子化されたノルム、格子ベクトル符号化部１８によって得られた格子符号ベクトル、および、ノイズレベル調整部１９によって得られたノイズレベル調整インデックスを多重化してビットストリームを形成し、ビットストリームを音声音響復号装置に送信する。

図２は、特許文献１に開示の音声音響復号装置の構成を示すブロック図である。音声音響符号化装置から送信されたビットストリームが音声音響復号装置において受信され、デマルチプレクサ２１によって逆多重化される。

ノルム逆量子化部２２は、量子化されたノルムを逆量子化し、全てのバンドのノルムからなるスペクトル包絡線を求め、ノルム調整部２３は、ノルム逆量子化部２２によって逆量子化されたノルムを適応スペクトル重み付けに基づいて、調整する。

ビット割当部２４は、ノルム調整部２３によって調整されたノルムを用いて、フレーム内のバンド毎に使用可能なビットを割り当てる。すなわち、ビット割当部２４は、正規化されたスペクトル係数の格子ベクトル符号を復号するために必須のビット割当を再計算する。

格子復号部２５は、過渡信号フラグを復号し、復号した過渡信号フラグが示すフレーム構成、および、ビット割当部２４によって割り当てられたビットに基づいて、格子符号ベクトルを復号し、スペクトル係数を取得する。

スペクトルフィル生成器２６は、格子復号部２５によって復号されたスペクトル係数に基づいて作成されるコードブックを用いて、ビットが配分されなかった低周波数のスペクトル係数を再生成する。また、スペクトルフィル生成器２６は、ノイズレベル調整インデックスを用いて、再生成されたスペクトル係数のレベルを調整する。さらに、スペクトルフィル生成器２６は、高周波数の符号化されていないスペクトル係数を、低周波数の符号化されたスペクトル係数を用いて再生成する。

加算器２７は、復号されたスペクトル係数および再生成されたスペクトル係数を合わせて、正規化されたスペクトル係数を生成する。

包絡線成形部２８は、加算器２７によって生成された正規化スペクトル係数に、ノルム逆量子化部２２によって逆量子化されたスペクトル包絡線を適用して、フルバンドスペクトル係数を生成する。

逆変換部２９は、包絡線成形部２８によって生成されたフルバンドスペクトル係数に逆修正離散コサイン変換（ＩＭＤＣＴ：Inverse Modified Discrete Cosine Transform）などの逆変換を適用して、時間領域信号に変換する。ここでは、定常フレームの場合には高周波数分解能の逆変換が適用され、過渡フレームの場合には低周波数分解能の逆変換が適
用される。

Ｇ．７１９では、スペクトル係数がスペクトルグループに分割される。各スペクトルグループは、図３に示すように、等しい長さのサブベクトルのバンドに分割される。サブベクトルはグループ間で異なる長さを有し、この長さは周波数の増加とともに増加する。変換の分解能については、低周波数では、より高い周波数分解能を使用し、高周波数では、より低い周波数分解能を使用する。Ｇ．７１９で述べられているように、グループ化により、符号化中に使用可能なビットバジェットを効率的に使用できるようになる。

また、Ｇ．７１９では、ビット割当方法が符号化装置および復号装置において同一である。ここで、ビット割当方法について図４を用いて説明する。

図４に示すように、ステップ（以下、「ＳＴ」と省略する）３１では、心理音響重み付けおよびマスキング効果を調整するために、量子化されたノルムがビット割り当て前に調整される。

ＳＴ３２では、全サブバンドのうち最大ノルムを有するサブバンドが識別され、ＳＴ３３では、最大ノルムを有するサブバンドにおいて、各スペクトル係数について１ビットが割り当てられる。すなわち、スペクトル係数の数だけビットが割り当てられる。

ＳＴ３４では、割り当てたビットに応じて、ノルムを減少させ、ＳＴ３５では、残りの割当可能ビット数が８ビット以上であるか否かが判定される。残りの割当可能ビット数が８ビット以上のときには、ＳＴ３２に戻り、残りの割当可能ビット数が８ビット未満のときには、ビット割当手順を終了する。

このように、ビット割当方法は、調整された量子化ノルムを用いて、フレーム内の使用可能なビットをサブバンド間で割り当てる。そして、正規化されたスペクトル係数が、各サブバンドに割り当てられたビットで格子ベクトル符号化によって符号化される。

ITU-T Recommendation G.719,"Low-complexity full-band audio coding for high-quality conversation applications,"ITU-T, 2009.

しかしながら、上記ビット割当方法では、スペクトルバンドをグループ化する際、入力信号特性を考慮していないため、効率的なビット配分を行うことができず、さらなる高音質化が望めないという問題がある。

本発明の目的は、効率的なビット配分を行い、音質の向上を図る音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法を提供することである。

本発明の音声音響符号化装置は、入力信号を時間領域から周波数領域に変換する変換手段と、前記入力信号の周波数スペクトルが分割されてなる複数のサブバンドのそれぞれについて、エネルギーレベルを表すエネルギー包絡線を推定する推定手段と、前記エネルギー包絡線を量子化する量子化手段と、量子化された前記エネルギー包絡線を複数のグループにグループ化するグループ決定手段と、前記複数のグループにビットを割り当てる第１ビット割当手段と、前記複数のグループに割り当てられたビットをグループ毎にサブバン
ドに割り当てる第２ビット割当手段と、前記サブバンドに割り当てられたビットを用いて、前記周波数スペクトルを符号化する符号化手段と、を具備する構成を採る。

本発明の音声音響復号装置は、量子化されたスペクトル包絡線を逆量子化する逆量子化手段と、量子化された前記スペクトル包絡線を複数のグループにグループ化するグループ決定手段と、前記複数のグループにビットを割り当てる第１ビット割当手段と、前記複数のグループに割り当てられたビットをグループ毎にサブバンドに割り当てる第２ビット割当手段と、前記サブバンドに割り当てられたビットを用いて、音声音響信号の周波数スペクトルを復号する復号手段と、復号された前記周波数スペクトルに逆量子化された前記スペクトル包絡線を適用し、復号スペクトルを再現する包絡線成形手段と、前記復号スペクトルを周波数領域から時間領域に逆変換する逆変換手段と、を具備する構成を採る。

本発明の音声音響符号化方法は、入力信号を時間領域から周波数領域に変換し、前記入力信号の周波数スペクトルが分割されてなる複数のサブバンドのそれぞれについて、エネルギーレベルを表すエネルギー包絡線を推定し、前記エネルギー包絡線を量子化し、量子化された前記エネルギー包絡線を複数のグループにグループ化し、前記複数のグループにビットを割り当て、前記複数のグループに割り当てられたビットをグループ毎にサブバンドに割り当て、前記サブバンドに割り当てられたビットを用いて、前記周波数スペクトルを符号化するようにした。

本発明の音声音響復号方法は、量子化されたスペクトル包絡線を逆量子化し、量子化された前記スペクトル包絡線を複数のグループにグループ化し、前記複数のグループにビットを割り当て、前記複数のグループに割り当てられたビットをグループ毎にサブバンドに割り当て、前記サブバンドに割り当てられたビットを用いて、音声音響信号の周波数スペクトルを復号し、復号された前記周波数スペクトルに逆量子化された前記スペクトル包絡線を適用し、復号スペクトルを再現し、前記復号スペクトルを周波数領域から時間領域に逆変換するようにした。

本発明によれば、効率的なビット配分を行い、音質の向上を図ることができる。

特許文献１に開示の音声音響符号化装置の構成を示すブロック図特許文献１に開示の音声音響復号装置の構成を示すブロック図特許文献１に開示の定常モードにおけるスペクトル係数のグループ化を示す図特許文献１に開示のビット割当方法を示すフロー図本発明の一実施の形態に係る音声音響符号化装置の構成を示すブロック図本発明の一実施の形態に係る音声音響復号装置の構成を示すブロック図図５に示したビット割当部の内部構成を示すブロック図本発明の一実施の形態に係るグループ化方法を説明するための図ノルム分散を示す図

以下、本発明の実施の形態について、図面を参照して詳細に説明する。

（一実施の形態）
図５は、本発明の一実施の形態に係る音声音響符号化装置１００の構成を示すブロック図である。４８ｋＨｚでサンプリングされた入力信号が音声音響符号化装置１００の過渡検出器１０１および変換部１０２に入力される。

過渡検出器１０１は、入力信号から、音声の始端部または終端部に対応する過渡フレーム、またはそれ以外の音声区間に対応する定常フレームのいずれかを検出し、検出結果を変換部１０２に出力する。変換部１０２は、過渡検出器１０１から出力された検出結果が過渡フレームか定常フレームかに応じて、高周波数分解能変換または低周波数分解能変換を入力信号のフレームに適用し、スペクトル係数（または変換係数）を取得して、ノルム推定部１０３およびスペクトル正規化部１０５に出力する。また、変換部１０２は、過渡検出器１０１から出力された検出結果であるフレーム構成、すなわち、定常フレームであるか過渡フレームであるかを示す過渡信号フラグをマルチプレクサ１１０に出力する。

ノルム推定部１０３は、変換部１０２から出力されたスペクトル係数を帯域幅の異なるバンドに分割し、分割した各バンドのノルム（またはエネルギー）を推定する。ノルム推定部１０３は、推定した各バンドのノルムをノルム量子化部１０４に出力する。

ノルム量子化部１０４は、ノルム推定部１０３から出力された各バンドのノルムに基づいて、全てのバンドのノルムからなるスペクトル包絡線を求め、求めたスペクトル包絡線を量子化し、量子化したスペクトル包絡線をスペクトル正規化部１０５及びノルム調整部１０６に出力する。

スペクトル正規化部１０５は、変換部１０２から出力されたスペクトル係数を、ノルム量子化部１０４から出力された量子化スペクトル包絡線によって正規化し、正規化したスペクトル係数を格子ベクトル符号化部１０８に出力する。

ノルム調整部１０６は、ノルム量子化部１０４から出力された量子化スペクトル包絡線を適応スペクトル重み付けに基づいて調整し、調整した量子化スペクトル包絡線をビット割当部１０７に出力する。

ビット割当部１０７は、ノルム調整部１０６から出力された、調整された量子化スペクトル包絡線を用いて、フレーム内のバンド毎に使用可能なビットを割り当て、割り当てたビットを格子ベクトル符号化部１０８に出力する。なお、ビット割当部１０７の詳細については後述する。

格子ベクトル符号化部１０８は、スペクトル正規化部１０５によって正規化されたスペクトル係数を、ビット割当部１０７によってバンド毎に割り当てられたビットで格子ベクトル符号化を行い、格子符号ベクトルをノイズレベル調整部１０９およびマルチプレクサ１１０に出力する。

ノイズレベル調整部１０９は、格子ベクトル符号化部１０８における符号化前のスペクトル係数のレベルを推定し、推定したレベルを符号化する。これにより、ノイズレベル調整インデックスが求められる。ノイズレベル調整インデックスはマルチプレクサ１１０に出力される。

マルチプレクサ１１０は、変換部１０２から出力された過渡信号フラグ、ノルム量子化部１０４から出力された量子化されたスペクトル包絡線、格子ベクトル符号化部１０８から出力された格子符号ベクトル、および、ノイズレベル調整部１０９から出力されたノイズレベル調整インデックスを多重化してビットストリームを形成し、ビットストリームを音声音響復号装置に送信する。

図６は、本発明の一実施の形態に係る音声音響復号装置２００の構成を示すブロック図である。音声音響符号化装置１００から送信されたビットストリームが音声音響復号装置２００において受信され、デマルチプレクサ２０１によって逆多重化される。

ノルム逆量子化部２０２は、マルチプレクサから出力された量子化されたスペクトル包絡線（すなわちノルム）を逆量子化し、全てのバンドのノルムからなるスペクトル包絡線を求め、求めたスペクトル包絡線をノルム調整部２０３に出力する。

ノルム調整部２０３は、ノルム逆量子化部２０２から出力されたスペクトル包絡線を適応スペクトル重み付けに基づいて調整し、調整したスペクトル包絡線をビット割当部２０４に出力する。

ビット割当部２０４は、ノルム調整部２０３から出力されたスペクトル包絡線を用いて、フレーム内のバンド毎に使用可能なビットを割り当てる。すなわち、ビット割当部２０４は、正規化されたスペクトル係数の格子ベクトル符号を復号するために必須のビット割当を再計算する。割り当てたビットは格子復号部２０５に出力される。

格子復号部２０５は、デマルチプレクサ２０１から出力された過渡信号フラグが示すフレーム構成、および、ビット割当部２０４から出力されたビットに基づいて、デマルチプレクサ２０１から出力された格子符号ベクトルを復号し、スペクトル係数を取得する。スペクトル係数は、スペクトルフィル生成器２０６および加算器２０７に出力される。

スペクトルフィル生成器２０６は、格子復号部２０５から出力されたスペクトル係数に基づいて作成されるコードブックを用いて、ビットが配分されなかった低周波数のスペクトル係数を再生成する。また、スペクトルフィル生成器２０６は、デマルチプレクサ２０１から出力されたノイズレベル調整インデックスを用いて、再生成されたスペクトル係数のレベルを調整する。さらに、スペクトルフィル生成器２０６は、高周波数の符号化されていないスペクトル係数を、低周波数の符号化されたスペクトル係数を用いて再生成する。レベルが調整された低周波数のスペクトル係数、および、再生成された高周波数のスペクトル係数は加算器２０７に出力される。

加算器２０７は、格子復号部２０５から出力されたスペクトル係数、および、スペクトルフィル生成器２０６から出力されたスペクトル係数を合わせて、正規化されたスペクトル係数を生成し、正規化されたスペクトル係数を包絡線成形部２０８に出力する。

包絡線成形部２０８は、加算器２０７によって生成された正規化スペクトル係数に、ノルム逆量子化部２０２から出力されたスペクトル包絡線を適用して、フルバンドスペクトル係数（復号スペクトルに相当）を生成する。生成されたフルバンドスペクトル係数は、逆変換部２０９に出力される。

逆変換部２０９は、包絡線成形部２０８から出力されたフルバンドスペクトル係数に逆修正離散コサイン変換（ＩＭＤＣＴ：Inverse Modified Discrete Cosine Transform）などの逆変換を適用して、時間領域信号に変換して、出力信号を出力する。ここでは、定常フレームの場合には高周波数分解能の逆変換が適用され、過渡フレームの場合には低周波数分解能の逆変換が適用される。

次に、上述したビット割当部１０７の詳細について図７を用いて説明する。なお、音声音響符号化装置１００のビット割当部１０７と、音声音響復号装置２００のビット割当部２０４とは同一の構成であるため、ここでは、ビット割当部１０７についてのみ説明し、ビット割当部２０４の説明は省略する。

図７は、図５に示したビット割当部１０７の内部構成を示すブロック図である。卓越周波数バンド識別部３０１は、ノルム調整部１０６から出力された量子化スペクトル包絡線
に基づいて、スペクトル中のノルム係数値が極大値を有するサブバンドである卓越周波数バンドを識別し、識別した各卓越周波数バンドを卓越グループ決定部３０２－１～３０２Ｎにそれぞれ出力する。卓越周波数バンドの決定方法として、ノルム係数値が極大値を有する周波数バンドとする以外に、例えば、全サブバンドの中でノルム係数値が最大値を有するバンドを卓越周波数バンドとしたり、予め定められた閾値または全サブバンドのノルムから算出される閾値を超えるノルム係数値を有するバンドを卓越周波数バンドとしたりすることが考えられる。

卓越グループ決定部３０２－１～３０２Ｎは、卓越周波数バンド識別部３０１から出力された卓越周波数バンドを中心に、入力信号特性に応じて適応的にグループ幅を決定する。具体的には、グループ幅は、卓越周波数バンドを中心とした両側におけるノルム係数値の下り勾配が止まるまでをグループ幅とする。卓越グループ決定部３０２－１～３０２Ｎは、グループ幅に含まれる周波数バンドを卓越グループと決定し、決定した卓越グループを非卓越グループ決定部３０３に出力する。なお、卓越周波数バンドがエッジ（使用可能周波数の端）にあるときには、下り勾配の一方の側のみがグループに含まれる。

非卓越グループ決定部３０３は、卓越グループ決定部３０２－１～３０２Ｎから出力された卓越グループ以外の連続するサブバンドを卓越周波数バンドのない非卓越グループと決定する。非卓越グループ決定部３０３は、卓越グループおよび非卓越グループをグループエネルギー算出部３０４およびノルム分散算出部３０６に出力する。

グループエネルギー算出部３０４は、非卓越グループ決定部３０３から出力された卓越グループおよび非卓越グループについて、グループ毎のエネルギーを算出し、算出したエネルギーを総エネルギー算出部３０５およびグループビット配分部３０８に出力する。グループ毎のエネルギーは次式（１）によって算出される。

ここで、ｋはグループのインデックス、Ｅｎｅｒｇｙ（Ｇ（ｋ））はグループｋのエネルギー、ｉはグループ２のサブバンドインデックス、Ｍはグループｋのサブバンドの総数、Ｎｏｒｍ（ｉ）はグループｎのサブバンドｉのノルム係数値を表す。

総エネルギー算出部３０５は、グループエネルギー算出部３０４から出力されたグループ毎のエネルギーを全て加算し、全てのグループの総エネルギーを算出する。算出された総エネルギーはグループビット配分部３０８に出力される。総エネルギーは次式（２）によって算出される。

ここで、Ｅｎｅｒｇｙｔｏｔａｌは全てのグループの総エネルギー、Ｎはスペクトル中のグループの総数、ｋはグループのインデックス、Ｅｎｅｒｇｙ（Ｇ（ｋ））はグループｋのエネルギーを表す。

ノルム分散算出部３０６は、非卓越グループ決定部３０３から出力された卓越グループおよび非卓越グループについて、グループ毎のノルム分散を算出し、算出したノルム分散を総ノルム分散算出部３０７およびグループビット配分部３０８に出力する。グループ毎のノルム分散は次式（３）によって算出される。

ここで、ｋはグループのインデックス、Ｎｏｒｍｖａｒ（Ｇ（ｋ））はグループｋのノルム分散、Ｎｏｒｍｍａｘ（Ｇ（ｋ））はグループｋの最大ノルム係数値、Ｎｏｒｍｍｉｎ（Ｇ（ｋ））はグループｋの最小ノルム係数値を表す。

総ノルム分散算出部３０７は、ノルム分散算出部３０６から出力されたグループ毎のノルム分散に基づいて、全てのグループの総ノルム分散を算出する。算出された総ノルム分散はグループビット配分部３０８に出力される。総ノルム分散は次式（４）によって算出される。

ここで、Ｎｏｒｍｖａｒｔｏｔａｌは全てのグループの総ノルム分散、Ｎはスペクトル中のグループの総数、ｋはグループのインデックス、Ｎｏｒｍｖａｒ（Ｇ（ｋ））は、グループｋのノルム分散を表す。

グループビット配分部３０８（第１ビット割当手段に相当）は、グループエネルギー算出部３０４から出力されたグループ毎のエネルギー、総エネルギー算出部３０５から出力された全てのグループの総エネルギー、ノルム分散算出部３０６から出力されたグループ毎のノルム分散、および、総ノルム分散算出部３０７から出力された全てのグループの総ノルム分散に基づいて、グループ毎にビット配分を行い、グループ毎に配分されたビットをサブバンドビット配分部３０９に出力する。グループ毎に配分されるビットは次式（５）によって算出される。

ここで、ｋはグループのインデックス、Ｂｉｔｓ（Ｇ（ｋ））はグループｋに配分されたビット数、Ｂｉｔｓｔｏｔａｌは使用可能な全てのビット数、ｓｃａｌｅ１はエネルギーによって割り当てられたビットの割合、Ｅｎｅｒｇｙ（Ｇ（ｋ））はグループｋのエネルギー、Ｅｎｅｒｇｙｔｏｔａｌは全てのグループの総エネルギー、Ｎｏｒｍｖａｒ（Ｇ（ｋ））はグループｋのノルム分散を表す。

また、上式（５）において、ｓｃａｌｅ１は、［０，１］の範囲の値をとり、エネルギーまたはノルム分散によって割り当てられたビットの割合を調整する。ｓｃａｌｅ１の値が大きいほど、エネルギーによって割り当てられるビットが多くなり、極端な場合、その値が１であれば、全てのビットがエネルギーによって割り当てられる。ｓｃａｌｅ１の値が小さいほど、ノルム分散によって割り当てられるビットが多くなり、極端な場合、その値が０であれば、全てのビットがノルム分散によって割り当てられる。

グループビット配分部３０８が、上述したようにグループ毎にビット配分を行うことにより、卓越グループには、より多くのビットを配分し、非卓越グループには、より少ないビットを配分することができる。

このように、グループビット配分部３０８では、グループの知覚的重要度がエネルギーおよびノルム分散によって決定され、卓越グループをより強調することができる。また、ノルム分散は、マスキング理論に一致し、これを用いることにより、知覚的重要度をより正確に決定することができる。

サブバンドビット配分部３０９（第２ビット割当手段に相当）は、グループビット配分部３０８から出力されたグループ毎のビットに基づいて、各グループ内のサブバンドにビットが配分され、グループ毎のサブバンドに割り当てたビットをビット割当結果として格子ベクトル符号化部１０８に出力する。ここでは、知覚的により重要なサブバンドには、より多くのビットが配分され、知覚的にあまり重要でないサブバンドには、より少ないビットが配分される。グループ内の各サブバンドに配分されるビットは次式（６）によって算出される。

ここで、ＢｉｔｓＧ（ｋ）ｓｂ（ｉ）はグループｋのサブバンドｉに割り当てられたビット、ｉはグループｋのサブバンドインデックス、Ｂｉｔｓ（Ｇ（ｋ））はグループｋに割り当てられたビット、Ｅｎｅｒｇｙ（Ｇ（ｋ））はグループｋのエネルギー、Ｎｏｒｍ（ｉ）はグループｋのサブバンドｉのノルム係数値を表す。

次に、グループ化の方法について図８を用いて説明する。図８（ａ）に示すような量子化スペクトル包絡線がピーク周波数バンド識別部３０１に入力されたとする。ピーク周波数バンド識別部３０１は、入力された量子化スペクトル包絡線に基づいて、卓越周波数バンド９，２０を識別する（図８（ｂ）参照）。

卓越グループ生成部３０２－１～３０２－Ｎでは、卓越周波数バンド９，２０を中心とした両側におけるノルム係数値の下り勾配が止まるまでが同一の卓越グループと決定される。図８の例では、卓越周波数バンド９については、サブバンド６～１２が卓越グループ（グループ２）とされ、卓越周波数バンド２０については、サブバンド１７～２２を卓越グループ（グループ４）と決定する（図８（ｃ）参照）。

非卓越グループ決定部３０３では、卓越グループ以外の連続する周波数バンドが卓越周波数バンドのない非卓越グループと決定される。図８の例では、サブバンド１～５（グループ１）、サブバンド１３～１６（グループ３）、サブバンド２３～２５（グループ５）がそれぞれ非卓越グループと決定される（図８（ｃ）参照）。

この結果、量子化スペクトル包絡線は、５つのグループ、すなわち、２つの卓越グループ（グループ２、４）と３つの非卓越グループ（グループ１、３、５）とにグループ化される。

このようなグループ化方法により、入力信号特性に応じて適応的にグループ幅を決定することができる。また、この方法では、音声音響復号装置においても使用可能な量子化されたノルム係数を用いるため、追加情報を音声音響復号装置に送信する必要がない。

なお、ノルム分散算出部３０６では、グループ毎のノルム分散が算出される。参考までに、図８の例でグループ２におけるノルム分散Ｅｎｅｒｇｙｖａｒ（Ｇ（２））を図９に示す。

次に、知覚的重要度について説明する。一般に、音声音響信号のスペクトル中には、複数のピーク（山）およびバレー（谷）がある。ピークは、音声音響信号の卓越周波数に位置するスペクトル成分（卓越音成分）から構成される。ピークは、知覚的に非常に重要である。ピークの知覚的重要度は、ピークのエネルギーとバレーのエネルギーとの差、すなわち、ノルム分散によって判断することができる。理論的には、ピークが、隣接する周波数バンドと比較して十分大きなエネルギーを有する場合、そのピークは十分なビット数で符号化されるべきであり、不十分なビット数で符号化されると、混入する符号化ノイズが際だってしまい、音質が低下する。一方、バレーは、音声音響信号の卓越音成分から構成されず、知覚的に重要ではない。

本実施の形態における周波数バンドのグループ化方法では、卓越周波数バンドはスペクトルのピークに対応しており、周波数バンドをグループ化することは、ピーク（卓越周波数バンドを有する卓越グループ）とバレー（卓越周波数バンドのない非卓越グループ）とを分離することになる。

グループビット配分部３０８では、ピークの知覚的重要度を決定する。Ｇ．７１９といった技術では、エネルギーのみによって知覚的重要度を決定していたのに対して、本実施の形態では、エネルギーおよびノルム（エネルギー）分散の両方によって知覚的重要度を決定し、決定した知覚的重要度に基づいて各グループに配分するビットを決定する。

また、サブバンドビット配分部３０９では、グループ内のノルム分散が大きい場合、このグループはピークの１つであることを意味し、ピークは知覚的により重要で、最大値を有するノルム係数は正確に符号化されるべきである。このため、このピークのサブバンドにはより多くのビットが配分される。一方、グループ内のノルム分散が非常に小さい場合、このグループは、バレーの１つであることを意味し、バレーは知覚的に重要ではなく、それほど正確に符号化される必要はない。このため、このグループの各サブバンドには少ないビットが配分される。

このように、本実施の形態によれば、入力音声音響信号のスペクトル中のノルム係数値が極大値を有する卓越周波数バンドを識別し、全てのサブバンドを、卓越周波数バンドを含む卓越グループと卓越周波数バンドを含まない非卓越グループとにグループ化し、グループ毎のエネルギーおよびノルム分散に基づいて、各グループにビットを配分し、グループ毎に配分されたビットをグループのエネルギーに対するノルムの割合に応じて各サブバンドにさらに配分する。これにより、知覚的に重要なグループおよびサブバンドに多くのビットを割り当てることができ、効率的なビット配分を行うことができる。この結果、音質の向上を図ることができる。

なお、本実施の形態におけるノルム係数は、サブバンドエネルギーを表すものであり、エネルギー包絡線ともいう。

２０１２年１２月１３日出願の特願２０１２－２７２５７１の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。

本発明にかかる音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法は、無線通信端末装置、無線通信基地局装置、電話会議端末装置、ビデオ会議端末装置、および、ボイスオーバーインターネットプロトコル（ＶｏＩＰ）端末装置等に適用することができる。

１０１過渡検出器
１０２変換部
１０３ノルム推定部
１０４ノルム量子化部
１０５スペクトル正規化部
１０６、２０３ノルム調整部
１０７、２０４ビット割当部
１０８格子ベクトル符号化部
１０９ノイズレベル調整部
１１０マルチプレクサ
２０１デマルチプレクサ
２０２ノルム逆量子化部
２０５格子復号部
２０６スペクトルフィル生成器
２０７加算器
２０８包絡線成形部
２０９逆変換部
３０１卓越周波数バンド識別部
３０２－１～３０２－Ｎ卓越グループ決定部
３０３非卓越グループ決定部
３０４グループエネルギー算出部
３０５総エネルギー算出部
３０６ノルム分散算出部
３０７総ノルム分散算出部
３０８グループビット配分部
３０９サブバンドビット配分部

Claims

入力信号を時間領域から周波数領域に変換する変換手段と、
前記入力信号の周波数スペクトルが分割されてなる複数のサブバンドのそれぞれについて、エネルギーレベルを表すエネルギー包絡線を推定する推定手段と、
前記エネルギー包絡線を量子化する量子化手段と、
量子化された前記エネルギー包絡線を複数のグループにグループ化するグループ決定手段と、
前記複数のグループにビットを割り当てる第１ビット割当手段と、
前記複数のグループに割り当てられたビットをグループ毎にサブバンドに割り当てる第２ビット割当手段と、
前記サブバンドに割り当てられたビットを用いて、前記周波数スペクトルを符号化する符号化手段と、
を具備する音声音響符号化装置。
前記周波数スペクトルのうち、エネルギー包絡線が極大値を有するサブバンドである卓越周波数バンドを識別する卓越周波数バンド識別手段をさらに具備し、
前記グループ決定手段は、
前記卓越周波数バンド、および、前記卓越周波数バンドの両側におけるエネルギー包絡線の下り勾配をなすサブバンドを卓越グループに決定し、前記卓越周波数バンド以外の連続するサブバンドを非卓越グループに決定する、
請求項１に記載の音声音響符号化装置。
グループ毎のエネルギーを算出するエネルギー算出手段と、
グループ毎のエネルギー包絡線分散を算出する分散算出手段と、
をさらに具備し、
前記第１ビット割当手段は、
算出された前記グループ毎のエネルギーおよび前記グループ毎のエネルギー包絡線分散に基づいて、エネルギーおよびエネルギー包絡線分散の少なくとも一方が大きいほど、より多くのビットをグループに割り当て、エネルギーおよびエネルギー包絡線分散の少なくとも一方が小さいほど、より少ないビットをグループに割り当てる、
請求項１に記載の音声音響符号化装置。
前記第２ビット割当手段は、
前記サブバンドのエネルギー包絡線が大きいほど、当該サブバンドにより多くのビットを割り当て、前記サブバンドのエネルギー包絡線が小さいほど、当該サブバンドにより少ないビットを割り当てる、
請求項１に記載の音声音響符号化装置。
量子化されたスペクトル包絡線を逆量子化する逆量子化手段と、
量子化された前記スペクトル包絡線を複数のグループにグループ化するグループ決定手段と、
前記複数のグループにビットを割り当てる第１ビット割当手段と、
前記複数のグループに割り当てられたビットをグループ毎にサブバンドに割り当てる第２ビット割当手段と、
前記サブバンドに割り当てられたビットを用いて、音声音響信号の周波数スペクトルを復号する復号手段と、
復号された前記周波数スペクトルに逆量子化された前記スペクトル包絡線を適用し、復号スペクトルを再現する包絡線成形手段と、
前記復号スペクトルを周波数領域から時間領域に逆変換する逆変換手段と、
を具備する音声音響復号装置。
前記周波数スペクトルのうち、エネルギー包絡線が極大値を有するサブバンドである卓越周波数バンドを識別する卓越周波数バンド識別手段をさらに具備し、
前記グループ決定手段は、
前記卓越周波数バンド、および、前記卓越周波数バンドの両側におけるエネルギー包絡線の下り勾配をなすサブバンドを卓越グループに決定し、前記卓越周波数バンド以外の連続するサブバンドを非卓越グループに決定する、
請求項５に記載の音声音響復号装置。
グループ毎のエネルギーを算出するエネルギー算出手段と、
グループ毎のエネルギー包絡線分散を算出する分散算出手段と、
をさらに具備し、
前記第１ビット割当手段は、
算出された前記グループ毎のエネルギーおよび前記グループ毎のエネルギー包絡線分散に基づいて、エネルギーおよびエネルギー包絡線分散の少なくとも一方が大きいほど、より多くのビットをグループに割り当て、エネルギーおよびエネルギー包絡線分散の少なくとも一方が小さいほど、より少ないビットをグループに割り当てる、
請求項５に記載の音声音響復号装置。
前記第２ビット割当手段は、
前記サブバンドのエネルギー包絡線が大きいほど、当該サブバンドにより多くのビットを割り当て、前記サブバンドのエネルギー包絡線が小さいほど、当該サブバンドにより少ないビットを割り当てる、
請求項５に記載の音声音響復号装置。
入力信号を時間領域から周波数領域に変換し、
前記入力信号の周波数スペクトルが分割されてなる複数のサブバンドのそれぞれについて、エネルギーレベルを表すエネルギー包絡線を推定し、
前記エネルギー包絡線を量子化し、
量子化された前記エネルギー包絡線を複数のグループにグループ化し、
前記複数のグループにビットを割り当て、
前記複数のグループに割り当てられたビットをグループ毎にサブバンドに割り当て、
前記サブバンドに割り当てられたビットを用いて、前記周波数スペクトルを符号化する、
音声音響符号化方法。
量子化されたスペクトル包絡線を逆量子化し、
量子化された前記スペクトル包絡線を複数のグループにグループ化し、
前記複数のグループにビットを割り当て、
前記複数のグループに割り当てられたビットをグループ毎にサブバンドに割り当て、
前記サブバンドに割り当てられたビットを用いて、音声音響信号の周波数スペクトルを復号し、
復号された前記周波数スペクトルに逆量子化された前記スペクトル包絡線を適用し、復号スペクトルを再現し、
前記復号スペクトルを周波数領域から時間領域に逆変換する、
音声音響復号方法。