JP6511033B2

JP6511033B2 - 音声符号化装置および音声符号化方法

Info

Publication number: JP6511033B2
Application number: JP2016212827A
Authority: JP
Inventors: 菊入　圭; 圭菊入; 山口　貴史; 貴史山口
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2016-10-31
Filing date: 2016-10-31
Publication date: 2019-05-08
Anticipated expiration: 2034-03-24
Also published as: JP2017078860A

Description

本発明は、音声符号化装置および音声符号化方法に関する。

音声信号、音響信号のデータ量を数十分の一に圧縮する音声符号化技術は、信号の伝送・蓄積において極めて重要な技術である。広く利用されている音声符号化技術の例として、周波数領域にて信号を符号化する変換符号化方式を挙げることができる。

変換符号化においては、低いビットレートで高い品質を得るために、入力信号に応じて周波数帯域ごとに符号化に要するビットを割り当てる適応ビット割り当てが広く用いられている。符号化による歪みを最小化するビット割り当て方法は、各周波数帯域の信号パワーに応じた割り当てであり、それに人間の聴覚を加味した形でのビット割り当ても行われている。

一方で、割り当てビット数が非常に少ない周波数帯域の品質を改善するための技術がある。特許文献１では、所定の閾値よりも割り当てられたビット数が少ない周波数帯域の変換係数を、その他の周波数帯域の変換係数で近似する手法が開示されている。また、特許文献２では、周波数帯域内でパワーが小さいためにゼロに量子化されてしまった成分に対して、擬似雑音信号を生成する手法、他の周波数帯域のゼロに量子化されていない成分の信号を複製する手法が開示されている。

さらには、音声信号、音響信号は一般的に高周波数帯域よりも低周波数帯域にパワーが偏り、主観品質に与える影響も大きいことを加味して、入力信号の高周波数帯域は符号化した低周波数帯域を用いて生成する帯域拡張技術も広く用いられている。帯域拡張技術は、少ないビット数で高周波数帯域を生成可能なため、低ビットレートで高い品質を得ることが可能である。特許文献３では、低周波数帯域のスペクトルを高周波数帯域に複写した後に、符号化器より送信される高周波数帯域スペクトルの性質に関する情報に基づいてスペクトル形状を調整して高周波数帯域を生成する手法が開示されている。

特開平９-１５３８１１号公報米国特許第７４４７６３１号明細書特許第５２０３０７７号

上記の技術では、少ないビット数で符号化された周波数帯域の成分が原音の当該成分に周波数領域で似るように生成している。一方で、時間領域では歪みが目立ってしまい、品質が劣化することがある。

上記の問題を鑑み、本発明は、少ないビット数で符号化された周波数帯域の成分の時間領域における歪みを軽減し、品質を改善することができる音声符号化装置および音声符号化方法を提供することを目的とする。

本発明の音声符号化装置は、入力される音声信号を符号化して符号化系列を出力する音声符号化装置であって、前記音声信号を符号化して前記音声信号を含む符号化系列を得る符号化部と、前記音声信号の時間包絡に関する情報を取得する時間包絡情報取得部と、前記符号化部で得られる符号化系列と、前記時間包絡情報取得部で得られる時間包絡に関する情報を多重化する多重化部と、を備え、前記時間包絡に関する情報として、線形予測分析により算出された予測利得に基づいて前記時間包絡が平坦である情報が生成される。

本発明によれば、少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。

、第１の実施形態に係る音声復号装置１０の構成を示す図である。第１の実施形態に係る音声復号装置１０の動作を示すフローチャートである。第１の実施形態に係る音声復号装置１０の復号部１０ａの第１の例の構成を示す図である。、第１の実施形態に係る音声復号装置１０の復号部１０ａの第１の例の動作を示すフローチャートである。第１の実施形態に係る音声復号装置１０の復号部１０ａの第２の例の構成を示す図である。第１の実施形態に係る音声復号装置１０の復号部１０ａの第２の例の動作を示すフローチャートである。第１の実施形態に係る音声復号装置１０の復号部１０ａの第２の例の第１復号部の構成を示す図である。第１の実施形態に係る音声復号装置１０の復号部１０ａの第２の例の第１復号部の動作を示すフローチャートである。第１の実施形態に係る音声復号装置１０の復号部１０ａの第２の例の第２復号部の構成を示す図である。第１の実施形態に係る音声復号装置１０の復号部１０ａの第２の例の第２復号部の動作を示すフローチャートである。第１の実施形態に係る音声復号装置１０の選択的時間包絡整形部１０ｂの第１の例の構成を示す図である。第１の実施形態に係る音声復号装置１０の選択的時間包絡整形部１０ｂの第１の例の動作を示すフローチャートである。時間包絡整形処理を示す説明図である。第２の実施形態に係る音声復号装置１１の構成を示す図である。第２の実施形態に係る音声復号装置１１の動作を示すフローチャートである。第２の実施形態にかかる音声符号化装置２１の構成を示す図である。第２の実施形態に係る音声符号化装置２１の動作を示すフローチャートである。第３の実施形態に係る音声復号装置１２の構成を示す図である。第３の実施形態に係る音声復号装置１２の動作を示すフローチャートである。第４の実施形態に係る音声復号装置１３の構成を示す図である。第４の実施形態に係る音声復号装置１３の動作を示すフローチャートである。本実施形態の音声復号装置または音声符号化装置として機能するコンピュータのハードウェア構成を示す図である。音声復号装置として機能させるためのプログラム構成を示す図である。音声符号化装置として機能させるためのプログラム構成を示す図である。

添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

［第１の実施形態］
図１は、第１の実施形態に係る音声復号装置１０の構成を示す図である。音声復号装置１０の通信装置は、音声信号を符号化した符号化系列を受信し、更に、復号した音声信号を外部に出力する。音声復号装置１０は、図１に示すように、機能的には、復号部１０ａ、選択的時間包絡整形部１０ｂを備える。

図２は、第１の実施形態に係る音声復号装置１０の動作を示すフローチャートである。

復号部１０ａは、符号化系列を復号し、復号信号を生成する（ステップＳ１０-１）。

選択的時間包絡整形部１０ｂは、前記復号部から符号化系列を復号する際に得られる情報である復号関連情報と復号信号を受け取り、復号信号の成分の時間包絡を選択的に所望の時間包絡に整形する（ステップＳ１０-２）。なお、以降の記載において、信号の時間包絡は、時間方向に対する信号のエネルギーまたはパワー（及び、これらと等価のパラメータ）の変動を表すものとする。

図３は、第１の実施形態に係る音声復号装置１０の復号部１０ａの第１の例の構成を示す図である。復号部１０ａは、図３に示すように、機能的には、復号/逆量子化部１０ａＡ、復号関連情報出力部１０ａＢ、時間周波数逆変換部１０ａＣを備える。

図４は、第１の実施形態に係る音声復号装置１０の復号部１０ａの第１の例の動作を示すフローチャートである。

復号/逆量子化部１０ａＡは、符号化系列の符号化方式に応じて、符号化系列に対して復号、逆量子化のうち少なくとも１つを実施して周波数領域復号信号を生成する（ステップＳ１０-１-１）。

復号関連情報出力部１０ａＢは、前記復号/逆量子化部１０ａＡにて復号信号を生成する際に得られる復号関連情報を受け、復号関連情報を出力する（ステップＳ１０-１-２）。さらには、符号化系列を受けて解析して復号関連情報を得て、復号関連情報を出力してもよい。復号関連情報としては、例えば、周波数帯域ごとの符号化ビット数でもよく、これと同等の情報（例えば，周波数帯域ごとの１周波数成分あたりの平均符号化ビット数）でもよい。さらには、周波数成分ごとの符号化ビット数でもよい。さらには、周波数帯域ごとの量子化ステップサイズでもよい。さらには、周波数成分の量子化値でもよい。ここで、周波数成分とは、例えば所定の時間周波数変換の変換係数である。さらには、周波数帯域ごとのエネルギーまたはパワーでもよい。さらには、所定の周波数帯域（周波数成分でもよい）を提示する情報でもよい。さらには、例えば、復号信号生成の際に他の時間包絡整形に関する処理を含む場合には、当該時間包絡整形処理に関する情報であってもよく、例えば、当該時間包絡整形処理をするか否かの情報、当該時間包絡整形処理により整形される時間包絡に関する情報、当該時間包絡整形処理の時間包絡整形の強度の情報のうち少なくともひとつであってもよい。前記の例のうち少なくとも１つが復号関連情報として出力される。

時間周波数逆変換部１０ａＣは、前記周波数領域復号信号を所定の時間周波数逆変換により時間領域の復号信号に変換し出力する（ステップＳ１０-１-３）。ただし、周波数領域復号信号に時間周波数逆変換を施さずに出力してもよい。例えば、選択的時間包絡整形部１０ｂが入力信号として周波数領域の信号を要求する場合が該当する。

図５は、第１の実施形態に係る音声復号装置１０の復号部１０ａの第２の例の構成を示す図である。復号部１０ａは、図５に示すように、機能的には、符号化系列解析部１０ａＤ、第１復号部１０ａＥ、第２復号部１０ａＦを備える。

図６は、第１の実施形態に係る音声復号装置１０の復号部１０ａの第２の例の動作を示すフローチャートである。

符号化系列解析部１０ａＤは、符号化系列を解析して、第１符号化系列と第２符号化系列に分離する（ステップＳ１０-１-４）。

第１復号部１０ａＥは、第１符号化系列を第１の復号方式にて復号して第１復号信号を生成し、当該復号に関する情報である第１復号関連情報を出力する（ステップＳ１０-１-５）。

第２復号部１０ａＦは、前記第１復号信号を用いて、第２符号化系列を第２の復号方式にて復号して復号信号を生成し、当該復号に関する情報である第２復号関連情報を出力する（ステップＳ１０-１-６）。本例においては、この第１復号関連情報および第２復号関連情報を合わせたものが、復号関連情報である。

図７は、第１の実施形態に係る音声復号装置１０の復号部１０ａの第２の例の第１復号部の構成を示す図である。第１復号部１０ａＥは、図７に示すように、機能的には、第１復号/逆量子化部１０ａＥ-ａ、第１復号関連情報出力部１０ａＥ-ｂを備える。

図８は、第１の実施形態に係る音声復号装置１０の復号部１０ａの第２の例の第１復号部の動作を示すフローチャートである。

第１復号/逆量子化部１０ａＥ-ａは、第１符号化系列の符号化方式に応じて、第１符号化系列に対して復号、逆量子化のうち少なくとも１つを実施して第１復号信号を生成し出力する（ステップＳ１０-１-５-１）。

第１復号関連情報出力部１０ａＥ-ｂは、前記第１復号/逆量子化部１０ａＥ-ａにて第１復号信号を生成する際に得られる第１復号関連情報を受け、第１復号関連情報を出力する（ステップＳ１０-１-５-２）。さらには、第１符号化系列を受けて解析して第１復号関連情報を得て、第１復号関連情報を出力してもよい。第１復号関連情報の例としては、前記復号関連情報出力部１０ａＢが出力する復号関連情報の例と同様でもよい。さらには、第１復号部の復号方式が第１復号方式であることを第１復号関連情報としてもよい。さらには、第１復号信号に含まれる周波数帯域（周波数成分でもよい）（第１符号化系列に符号化されている音声信号の周波数帯域（周波数成分でもよい））を示す情報を第１復号関連情報としてもよい。

図９は、第１の実施形態に係る音声復号装置１０の復号部１０ａの第２の例の第２復号部の構成を示す図である。第２復号部１０ａＦは、図９に示すように、機能的には、第２復号/逆量子化部１０ａＦ-ａ、第２復号関連情報出力部１０ａＦ-ｂ、復号信号合成部１０ａＦ-ｃを備える。

図１０は、第１の実施形態に係る音声復号装置１０の復号部１０ａの第２の例の第２復号部の動作を示すフローチャートである。

第２復号/逆量子化部１０ａＦ-１は、第２符号化系列の符号化方式に応じて、第２符号化系列に対して復号、逆量子化のうち少なくとも１つを施して第２復号信号を生成し出力する（ステップs１０-１-６-１）。第２復号信号の生成に際しては、第１復号信号を用いてもよい。第２復号部の復号方式（第２復号方式）は、帯域拡張方式であってもよく、第１復号信号を用いた帯域拡張方式であってもよい。さらには、特許文献１（特開平９-１５３８１１号公報）に示されるように、第１の符号化方式にて割り当てられたビット数が所定の閾値よりも少なかった周波数帯域の変換係数を、第２の符号化方式として他の周波数帯域の変換係数で近似する符号化方式に対応する復号方式でもよい。また、さらには、特許文献２（米国特許第７４４７６３１）に示されるように、第１の符号化方式にてゼロに量子化された周波数の成分に対して、第２の符号化方式にて擬似雑音信号を生成するまたは他の周波数成分の信号を複製する符号化方式に対応する復号方式でもよい。さらには、当該周波数の成分に対して、第２の符号化方式にて他の周波数成分の信号を用いて近似する符号化方式に対応する復号方式でもよい。また、第１の符号化方式にてゼロに量子化された周波数の成分は、第１の符号化方式で符号化されない周波数の成分と解釈できる。これらの場合、第１の符号化方式に対応する復号方式が第１復号部の復号方式である第１復号方式、第２の符号化方式に対応する復号方式が第２復号部の復号方式である第２復号方式としてもよい。

第２復号関連情報出力部１０ａＦ-ｂは、前記第２復号/逆量子化部１０ａＦ-ａにて第２復号信号を生成する際に得られる第２復号関連情報を受け、第２復号関連情報を出力する（ステップＳ１０-１-６-２）。さらには、第２符号化系列を受けて解析して第２復号関連情報を得て、第２復号関連情報を出力してもよい。第２復号関連情報の例としては、前記復号関連情報出力部１０ａＢが出力する復号関連情報の例と同様でもよい。

さらには、第２復号部の復号方式が第２復号方式であることを示す情報を第２復号関連情報としてもよい。例えば、第２復号方式が帯域拡張方式であることを示す情報を第２復号関連情報としてもよい。さらに例えば、帯域拡張方式で生成される第２復号信号の各周波数帯域に対する帯域拡張方式を示す情報を第２復号情報としてもよい。当該各周波数帯域に対する帯域拡張方式を示す情報としては、例えば、他の周波数帯域より信号を複製した、他の周波数帯域の信号で当該周波数の信号を近似した、擬似雑音信号を生成した、サイン信号を付加した等の情報であってもよい。さらに例えば、他の周波数帯域の信号で当該周波数の信号を近似する際には近似方法に関する情報であってもよい。さらに例えば、他の周波数帯域の信号で当該周波数の信号を近似する際に白色化を用いた場合には、白色化の強度に関する情報を第２復号情報としてもよい。さらに例えば、他の周波数帯域の信号で当該周波数の信号を近似する際に擬似雑音信号を付加した場合には、擬似雑音信号のレベルに関する情報を第２復号情報としてもよい。さらに例えば、擬似雑音信号を生成した場合には、擬似雑音信号のレベルに関する情報を第２復号情報としてもよい。

さらに例えば、第２復号方式が、第１の符号化方式にて割り当てられたビット数が所定の閾値よりも少なかった周波数帯域の変換係数を、他の周波数帯域の変換係数での近似、及び擬似雑音信号の変換係数を付加（置換でもよい）のうちのいずれかまたは両方とする符号化方式に対応する復号方式であることを示す情報を第２復号関連情報としてもよい。例えば、当該周波数帯域の変換係数の近似方法に関する情報を第２復号関連情報としてもよい。例えば、近似方法として他の周波数帯域の変換係数を白色化する方法を用いた場合には、白色化の強度に関する情報を第２復号情報としてもよい。例えば、当該擬似雑音信号のレベルに関する情報を第２復号情報としてもよい。

さらに例えば、第２の符号化方式が、第１の符号化方式にてゼロに量子化された（すなわち、第1の符号化方式にて符号化されない）周波数の成分に対して、擬似雑音信号を生成するまたは他の周波数成分の信号を複製する符号化方式であることを示す情報を第２復号関連情報としてもよい。例えば、各周波数成分に対して、第１の符号化方式にてゼロに量子化された（すなわち、第1の符号化方式にて符号化されない）周波数の成分か否かを示す情報を、第２復号関連情報としてもよい。例えば、当該周波数成分に対して擬似雑音信号を生成するか他の周波数成分の信号を複製するかを示す情報を、第２復号関連情報としてもよい。さらに例えば、当該周波数成分に対して他の周波数成分の信号を複製する場合、複製方法に関する情報を第２復号関連情報としてもよい。複製方法に関する情報としては、例えば、複製元の周波数であってもよい。さらに例えば、複製の際に複製元の周波数成分に対して処理を加えるか否か、さらには加える処理に関する情報であってもよい。さらに例えば、当該複製元の周波数成分に対して加える処理が白色化の場合には、白色化の強度に関する情報であってもよい。さらに例えば、当該複製元の周波数成分に対して加える処理が擬似雑音信号付加の場合には、擬似雑音信号のレベルに関する情報であってもよい。

復号信号合成部１０ａＦ-ｃは、第１復号信号と第２復号信号より、復号信号を合成して出力する(ステップＳ１０-１-６-３)。第２の符号化方式が帯域拡張方式である場合は、一般的には、第１復号信号が低周波数帯域の信号、第２復号信号が高周波数帯域の信号であり、復号信号はこれら両方の周波数帯域をもつことになる。

図１１は、第１の実施形態に係る音声復号装置１０の選択的時間包絡整形部１０ｂの第１の例の構成を示す図である。選択的時間包絡整形部１０ｂは、図１１に示すように、機能的には、時間周波数変換部１０ｂＡ、周波数選択部１０ｂＢ、周波数選択的時間包絡整形部１０ｂＣ、時間周波数逆変換部１０ｂＤを備える。

図１２は、第１の実施形態に係る音声復号装置１０の選択的時間包絡整形部１０ｂの第１の例の動作を示すフローチャートである。

時間周波数変換部１０ｂＡは、時間領域の復号信号を所定の時間周波数変換により周波数領域の復号信号に変換する（ステップＳ１０-２-１）。ただし、復号信号が周波数領域の信号の場合には、当該時間周波数変換部１０ｂＡ、及び当該処理ステップＳ１０-２-１を省略できる。

周波数選択部１０ｂＢは、周波数領域の復号信号及び復号関連情報のうち少なくとも一つを用いて、周波数領域の復号信号において時間包絡整形処理を施す周波数帯域を選択する（ステップＳ１０-２-２）。前記周波数選択処理は、時間包絡整形処理を施す周波数成分を選択してもよい。当該選択される周波数帯域（周波数成分でもよい）は、復号信号のうちの一部の周波数帯域（周波数成分でもよい）でもよく、また復号信号のすべての周波数帯域（周波数成分でもよい）でもよい。

例えば、復号関連情報が周波数帯域ごとの符号化ビット数である場合は、当該符号化ビット数が所定の閾値よりも小さい周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。前記周波数帯域ごとの符号化ビット数と同等の情報の場合にも、同様に、所定の閾値との比較により時間包絡整形処理を施す周波数帯域を選択できることは明白である。さらに例えば、復号関連情報が周波数成分ごとの符号化ビット数である場合は、当該符号化ビット数が所定の閾値よりも小さい周波数成分を、時間包絡整形処理を施す周波数成分として選択してもよい。例えば、変換係数を符号化されていない周波数成分を、時間包絡整形処理を施す周波数成分として選択してもよい。さらに例えば、復号関連情報が周波数帯域ごとの量子化ステップサイズである場合、当該量子化ステップサイズが所定の閾値よりも大きい周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。さらに例えば、復号関連情報が周波数成分の量子化値である場合、当該量子化値を所定の閾値と比較して、時間包絡整形処理を施す周波数帯域を選択してもよい。例えば、量子化変換係数が所定の閾値よりも小さい成分を、時間包絡整形処理を施す周波数成分として選択してもよい。さらに例えば、復号関連情報が周波数帯域ごとのエネルギーまたはパワーである場合、当該エネルギーまたはパワーを所定の閾値と比較して、時間包絡整形処理を施す周波数帯域を選択してもよい。例えば、選択的時間包絡整形処理の対象となる周波数帯域のエネルギーまたはパワーが所定の閾値よりも小さい場合は、当該周波数帯域には時間包絡整形処理を施さないとしてもよい。

さらに例えば、復号関連情報が他の時間包絡整形処理に関する情報である場合は、当該時間包絡整形処理が施されない周波数帯域を、本発明における時間包絡整形処理を施す周波数帯域として選択してもよい。

さらに例えば、復号部１０ａが復号部１０ａの第２の例に記載の構成であって、復号関連情報が第２復号部の符号化方式である場合に、第２復号部の符号化方式に応じて第２復号部にて復号される周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。例えば、第２復号部の符号化形式が帯域拡張方式である場合に、第２復号部にて復号される周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。例えば、第２復号部の符号化形式が時間領域における帯域拡張方式である場合に、第２復号部にて復号される周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。例えば、第２復号部の符号化形式が周波数領域における帯域拡張方式である場合に、第２復号部にて復号される周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。例えば、帯域拡張方式にて他の周波数帯域より信号を複製した周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。例えば、帯域拡張方式にて他の周波数帯域の信号を用いて当該周波数の信号を近似した周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。例えば、帯域拡張方式にて擬似雑音信号を生成した周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。例えば、帯域拡張方式にてサイン信号を付加した周波数帯域を除く周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。

さらに例えば、復号部１０ａが復号部１０ａの第２の例に記載の構成であって、第２の符号化方式が第１の符号化方式にて割り当てられたビット数が所定の閾値よりも少なかった周波数帯域または成分（第１の符号化方式にて符号化されていない周波数帯域または成分でもよい）の変換係数を、他の周波数帯域または成分の変換係数を用いた近似、及び擬似雑音信号の変換係数を付加（置換でもよい）のうちのいずれかまたは両方とする符号化方式である場合において、変換係数を他の周波数帯域または成分の変換係数を用いて近似した周波数帯域または成分を、時間包絡整形処理を施す周波数帯域または成分として選択してもよい。例えば、擬似雑音信号の変換係数を付加（置換でもよい）した周波数帯域または成分を、時間包絡整形処理を施す周波数帯域または成分として選択してもよい。例えば、変換係数を他の周波数帯域または成分の変換係数を用いて近似する際の近似方法に応じて、時間包絡整形処理を施す周波数帯域または成分として選択してもよい。例えば、近似方法として他の周波数帯域または成分の変換係数を白色化する方法を用いた場合には、白色化の強度に応じて、時間包絡整形処理を施す周波数帯域または成分を選択してもよい。例えば、擬似雑音信号の変換係数を付加（置換でもよい）する場合において、当該擬似雑音信号のレベルに応じて、時間包絡整形処理を施す周波数帯域または成分を選択してもよい。

さらに例えば、復号部１０ａが復号部１０ａの第２の例に記載の構成であって、第２の符号化方式が、第１の符号化方式にてゼロに量子化された（すなわち、第1の符号化方式にて符号化されない）周波数の成分に対して、擬似雑音信号を生成するまたは他の周波数成分の信号を複製（他の周波数成分の信号を用いた近似でもよい）する符号化方式である場合において、擬似雑音信号を生成した周波数成分を、時間包絡整形処理を施す周波数成分として選択してもよい。例えば、他の周波数成分の信号を複製（他の周波数成分の信号を用いて近似でもよい）した周波数成分を、時間包絡整形処理を施す周波数成分として選択してもよい。例えば、当該周波数成分に対して他の周波数成分の信号を複製（他の周波数成分の信号を用いて近似でもよい）する場合、複製元（近似元）の周波数に応じて、時間包絡整形処理を施す周波数成分を選択してもよい。例えば、複製の際に複製元の周波数成分に対して処理を加えるか否かに応じて、時間包絡整形処理を施す周波数成分を選択してもよい。例えば、複製（近似でも良い）の際に複製元（近似元）の周波数成分に対して加える処理に応じて、時間包絡整形処理を施す周波数成分を選択してもよい。例えば、当該複製元（近似元）の周波数成分に対して加える処理が白色化の場合には、白色化の強度に応じて、時間包絡整形処理を施す周波数成分を選択してもよい。例えば、近似の際の近似方法に応じて、時間包絡整形処理を施す周波数成分を選択してもよい。

周波数成分または周波数帯域の選択方法は、上記の例を組み合わせてもよい。また、周波数領域の復号信号及び復号関連情報のうち少なくとも一つを用いて、周波数領域の復号信号において時間包絡整形処理を施す周波数成分または帯域を選択すればよく、周波数成分または周波数帯域の選択方法は上記の例に限定されない。

周波数選択的時間包絡整形部１０ｂＣは、復号信号の前記周波数選択部１０ｂＢで選択された周波数帯域の時間包絡を所望の時間包絡に整形する（ステップＳ１０-２-３）。前記時間包絡整形の実施は、周波数成分単位であってもよい。

時間包絡の整形方法は、例えば、選択された周波数帯域の変換係数を線形予測分析して得られた線形予測係数を用いた線形予測逆フィルタでフィルタリングすることで、時間包絡を平坦にする方法であってもよい。当該線形予測逆フィルタの伝達関数Ａ（ｚ）は、離散時間系における当該線形予測逆フィルタの応答を表す関数であり、

で表すことができる。ｐは予測次数であり、αｉ（ｉ = １,..,ｐ）は線形予測係数である。例えば、選択された周波数帯域の変換係数を、当該線形予測係数を用いた線形予測フィルタでフィルタリングすることで、時間包絡を立ち上がりまたは/及び立ち下がりにする方法であってもよい。当該線形予測フィルタの伝達関数は、

で表すことができる。

上記線形予測係数を用いる時間包絡整形処理においては、帯域幅拡大率ρを用いて、時間包絡を平坦にするまたは立ち上がりまたは/及び立ち下がりにする強度を調整してもよい。

上記の例は、復号信号を時間周波数変換した変換係数だけでなく、復号信号をフィルタバンクによって周波数領域の信号に変換して得られるサブバンド信号の任意の時間tにおけるサブサンプルに対して処理してもよい。上記の例では、復号信号に対して周波数領域において線形予測分析に基づくフィルタリングを施すことで、復号信号の時間領域におけるパワーの分布を変え、時間包絡を整形できる。

さらに例えば、復号信号をフィルタバンクによって周波数領域の信号に変換したサブバンド信号の振幅を、任意の時間セグメントにおいて、時間包絡整形処理を施す周波数成分（または、周波数帯域）の平均振幅にすることにより時間包絡を平坦にしてもよい。これにより、時間包絡整形処理前の当該時間セグメントの当該周波数成分（または、周波数帯域）のエネルギーを保持したまま、時間包絡を平坦にできる。同様に、時間包絡整形処理前の当該時間セグメントの当該周波数成分（または、周波数帯域）のエネルギーを保持したまま、サブバンド信号の振幅を変更することで時間包絡を立ち上がり/立ち下がりにしてもよい。

さらに例えば、図１３に示すように、上記周波数選択部１０ｂＢにて時間包絡を整形する周波数成分または周波数帯域として選択されなかった周波数成分または周波数帯域（非選択周波数成分または非選択周波数帯域とよぶ）を含む周波数帯域において、復号信号の非選択周波数成分（非選択周波数帯域でもよい）の変換係数（またはサブサンプル）を他の値にて置き換えた上で、上記時間包絡整形方法にて時間包絡整形処理を施した後に、当該非選択周波数成分（非選択周波数帯域でもよい）の変換係数（またはサブサンプル）を置き換える前の元の値に戻すことで、非選択周波数成分（非選択周波数帯域でもよい）を除いた周波数成分（周波数帯域）に時間包絡整形処理を施してもよい。

これにより、非選択周波数成分（または、非選択周波数帯域）が点在することによって時間包絡整形処理を施す周波数成分（または周波数帯域）が細かく分割されてしまう場合においても、分割されてしまう周波数成分（または周波数帯域）をまとめて時間包絡整形処理することができ、演算量を削減できる。例えば、上記線形予測分析を用いる時間包絡整形方法においては、細かく分割された時間包絡整形処理を施す周波数成分（または、周波数帯域）に対して線形予測分析をするのに対し、当該分割された周波数成分（または、周波数帯域）を非選択周波数成分（または、非選択周波数帯域）も含めてまとめて一度の線形予測分析をすればよく、さらに線形予測逆フィルタ（線形予測フィルタでもよい）でのフィルタリング処理も、当該分割された周波数成分（または、周波数帯域）を非選択周波数成分（または、非選択周波数帯域）も含めてまとめて一度のフィルタリングででき、低演算量で実現できる。

当該非選択周波数成分（非選択周波数帯域でもよい）の変換係数（またはサブサンプル）の置き換えは、例えば、当該非選択周波数成分（非選択周波数帯域でもよい）の変換係数（またはサブサンプル）及びその近隣の周波数成分（または、周波数帯域でもよい）を含めた振幅の平均値を用いて、当該非選択周波数成分（非選択周波数帯域でもよい）の変換係数（またはサブサンプル）の振幅を置き換えてもよい。その際には、例えば、変換係数の符号は元の変換係数の符号を維持してもよく、サブサンプルの位相は元のサブサンプルの位相を維持してもよい。さらに例えば、当該周波数成分（周波数帯域でもよい）の変換係数（またはサブサンプル）が量子化/符号化されておらず、他の周波数成分（周波数帯域でもよい）の変換係数（またはサブサンプル）で複製・近似、または/及び擬似雑音信号の生成・付加、及び/またはサイン信号の付加で生成された周波数成分（周波数帯域でもよい）に対して時間包絡整形処理を施すと選択された場合は、非選択周波数成分（非選択周波数帯域でもよい）の変換係数（またはサブサンプル）を擬似的に他の周波数成分（周波数帯域でもよい）の変換係数（またはサブサンプル）で複製・近似、または/及び擬似雑音信号の生成・付加、及び/またはサイン信号の付加で生成した変換係数（またはサブサンプル）に置き換えてもよい。選択された周波数帯域の時間包絡の整形方法は上記の方法を組み合わせてもよく、時間包絡整形方法は上記の例に限定されない。

時間周波数逆変換部１０ｂＤは、周波数選択的に時間包絡整形を施された復号信号を時間領域の信号に変換し出力する（ステップＳ１０-２-４）。

［第２の実施形態］
図１４は、第２の実施形態に係る音声復号装置１１の構成を示す図である。音声復号装置１１の通信装置は、音声信号を符号化した符号化系列を受信し、更に、復号した音声信号を外部に出力する。音声復号装置１１は、図１４に示すように、機能的には、逆多重化部１１ａ、復号部１０ａ、選択的時間包絡整形部１１ｂを備える。

図１５は、第２の実施形態に係る音声復号装置１１の動作を示すフローチャートである。

逆多重化部１１ａは、符号化系列を復号/逆量子化して復号信号を得る符号化系列と時間包絡情報とに分離する（ステップＳ１１-１）。復号部１０ａは、符号化系列を復号し、復号信号を生成する（ステップＳ１０-１）。時間包絡情報が符号化もしくは/及び量子化されている場合は、復号もしくは/及び逆量子化して時間包絡情報を得る。

時間包絡情報としては、例えば、符号化装置にて符号化した入力信号の時間包絡が平坦であることを示す情報であってもよい。例えば、当該入力信号の時間包絡が立ち上がりであることを示す情報であってもよい。例えば、当該入力信号の時間包絡が立ち下がりであることを示す情報であってもよい。

さらには、例えば、時間包絡情報は、当該入力信号の時間包絡の平坦の度合いを示す情報であってもよく、例えば、当該入力信号の時間包絡の立ち上がりの度合いを示す情報であってもよく、例えば、当該入力信号の時間包絡の立ち下がりの度合いを示す情報であってもよい。

さらには、例えば、時間包絡情報は、選択的時間包絡整形部にて時間包絡を整形するか否かを示す情報であってもよい。

選択的時間包絡整形部１１ｂは、復号部１０ａから符号化系列を復号する際に得られる情報である復号関連情報と復号信号を受け取り、前記逆多重化部より時間包絡情報を受け取り、これらのうち少なくともひとつに基づいて、復号信号の成分の時間包絡を選択的に所望の時間包絡に整形する（ステップＳ１１-２）。

選択的時間包絡整形部１１ｂにおける選択的時間包絡整形の方法は、例えば、選択的時間包絡整形部１０ｂと同様でもよく、さらに時間包絡情報を加味して選択的時間包絡整形を施してもよい。例えば、時間包絡情報が符号化装置にて符号化した入力信号の時間包絡が平坦であることを示す情報である場合には、当該情報に基づいて、時間包絡を平坦に整形してもよい。例えば、時間包絡情報が当該入力信号の時間包絡が立ち上がりであることを示す情報である場合には、当該情報に基づいて、時間包絡を立ち上がりに整形してもよい。例えば、時間包絡情報が当該入力信号の時間包絡が立ち下がりであることを示す情報である場合には、当該情報に基づいて、時間包絡を立ち下がりに整形してもよい。

さらに例えば、時間包絡情報が当該入力信号の時間包絡の平坦の度合いを示す情報である場合には、当該情報に基づいて時間包絡を平坦にする強度を調整してもよい。例えば、時間包絡情報が当該入力信号の時間包絡の立ち上がりの度合いを示す情報である場合には、当該情報に基づいて時間包絡を立ち上がりにする強度を調整してもよい。例えば、時間包絡情報が当該入力信号の時間包絡の立ち下がりの度合いを示す情報である場合には、当該情報に基づいて時間包絡を立ち下がりにする強度を調整してもよい。

さらに例えば、時間包絡情報が選択的時間包絡整形部１１ｂにて時間包絡を整形するか否かを示す情報である場合には、当該情報に基づいて時間包絡整形処理を施すか否かを決定してもよい。

さらに例えば、上記の例の時間包絡情報で当該時間包絡情報に基づいて時間包絡整形処理を施すにあたり、時間包絡整形を施す周波数帯域（周波数成分でもよい）を第１の実施形態と同様に選択し、復号信号における当該選択された周波数帯域（周波数成分でもよい）の時間包絡を所望の時間包絡に整形してもよい。

図１６は、第２の実施形態にかかる音声符号化装置２１の構成を示す図である。音声符号化装置２１の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された符号化系列を外部に出力する。音声符号化装置２１は、図１６に示すように、機能的には、符号化部２１ａ、時間包絡情報符号化部２１ｂ、多重化部２１ｃを備える。

図１７は、第２の実施形態に係る音声符号化装置２１の動作を示すフローチャートである。

符号化部２１ａは、入力された音声信号を符号化し符号化系列を生成する（ステップＳ２１-１）。符号化部２１ａにおける音声信号の符号化方式は、前記復号部１０ａの復号方式に対応する符号化方式である。

時間包絡情報符号化部２１ｂは、入力された音声信号と前記符号化部２１ａにて音声信号を符号化する際に得られる情報のうち少なくともひとつより時間包絡情報を生成する。生成された時間包絡情報は符号化/量子化されてもよい（ステップＳ２１-２）。時間包絡情報は、例えば、前記音声復号装置１１の逆多重化部１１ａで得られる時間包絡情報であってもよい。

さらに例えば、音声復号装置１１の復号部にて復号信号を生成する際に本発明とは別の時間包絡整形に関する処理をし、当該時間包絡整形処理に関する情報を音声符号化装置２１にて保持している場合、当該情報を用いて時間包絡情報を生成してもよい。例えば、本発明とは別の時間包絡処理をするか否かの情報に基づいて、音声復号装置１１の選択的時間包絡整形部１１ｂにて時間包絡を整形するか否かを示す情報を生成してもよい。

さらに例えば、前記音声復号装置１１の選択的時間包絡整形部１１ｂでは、前記第１の実施形態に係る音声復号装置１０の選択的時間包絡整形部１０ｂの第１の例に記載の線形予測分析を用いた時間包絡整形の処理を施す場合には、当該時間包絡整形処理での線形予測分析と同様に、入力された音声信号の変換係数（サブバンドサンプルでもよい）を線形予測分析した結果を用いて時間包絡情報を生成してもよい。具体的には、例えば、当該線形予測分析による予測利得を算出し、当該予測利得に基づいて時間包絡情報を生成してもよい。予測利得の算出の際には、入力された音声信号のすべての周波数帯域の変換係数（サブバンドサンプルでもよい）を線形予測分析してもよく、さらには入力された音声信号の一部の周波数帯域の変換係数（サブバンドサンプルでもよい）を線形予測分析してもよい。さらには、入力された音声信号を複数の周波数帯域に分割して当該周波数帯域ごとに変換係数（サブバンドサンプルでもよい）の線形予測分析をしてもよく、その際には複数の予測利得が算出でき、当該複数の予測利得を用いて時間包絡情報を生成してもよい。

さらに例えば、前記符号化部２１ａにて音声信号を符号化する際に得られる情報は、復号部１０ａが前記第２の例の構成の場合、第１の復号方式に対応する符号化方式（第１の符号化方式）での符号化の際に得られる情報と第２の復号方式に対応する符号化方式（第２の符号化方式）での符号化の際に得られる情報のうち少なくとも１つであってもよい。

多重化部２１ｃは、前記符号化部で得られた符号化系列と前記時間包絡情報符号化部で得られた時間包絡情報を多重化し出力する（ステップＳ２１-３）。

［第３の実施形態］
図１８は、第３の実施形態に係る音声復号装置１２の構成を示す図である。音声復号装置１２の通信装置は、音声信号を符号化した符号化系列を受信し、更に、復号した音声信号を外部に出力する。音声復号装置１２は、図１８に示すように、機能的には、復号部１０ａ、時間包絡整形部１２ａを備える。

図１９は、第３の実施形態に係る音声復号装置１２の動作を示すフローチャートである。復号部１０ａは、符号化系列を復号し、復号信号を生成する（ステップＳ１０-１）。そして、時間包絡整形部１２ａは、前記復号部１０ａから出力される復号信号の時間包絡を所望の時間包絡に整形する（ステップＳ１２-１）。時間包絡の整形方法は、前記第１の実施形態と同様に、復号信号の変換係数を線形予測分析して得られた線形予測係数を用いた線形予測逆フィルタでフィルタリングすることで、時間包絡を平坦にする方法でもよく、当該線形予測係数を用いた線形予測フィルタでフィルタリングすることで、時間包絡を立ち上がりまたは/及び立ち下がりにする方法であってもよく、さらに帯域幅拡大率を用いて平坦/立ち上がり/立ち下がりの強度を制御してもよく、さらには復号信号の変換係数の代わりに復号信号をフィルタバンクによって周波数領域の信号に変換して得られるサブバンド信号の任意の時間tにおけるサブサンプルに対して上記の例の時間包絡整形を施してもよい。さらには、前記第１の実施形態と同様に、任意の時間セグメントにおいて、所望の時間包絡になるように、当該サブバンド信号の振幅を修正してもよく、例えば、時間包絡整形処理を施す周波数成分（または、周波数帯域）の平均振幅にすることにより時間包絡を平坦にしてもよい。上記の時間包絡整形は復号信号の全周波数帯域に施してもよく、所定の周波数帯域に施してもよい。

［第４の実施形態］
図２０は、第４の実施形態に係る音声復号装置１３の構成を示す図である。音声復号装置１３の通信装置は、音声信号を符号化した符号化系列を受信し、更に、復号した音声信号を外部に出力する。音声復号装置１３は、図２０に示すように、機能的には、逆多重化部１１ａ、復号部１０ａ、時間包絡整形部１３ａを備える。

図２１は、第４の実施形態に係る音声復号装置１３の動作を示すフローチャートである。逆多重化部１１ａは、符号化系列を復号/逆量子化して復号信号を得る符号化系列と時間包絡情報とに分離し（ステップＳ１１-１）、復号部１０ａは、符号化系列を復号し、復号信号を生成する（ステップＳ１０-１）。そして、時間包絡整形部１３ａは、逆多重化部１１ａより時間包絡情報を受け取り、当該時間包絡情報に基づいて、復号部１０ａから出力される復号信号の時間包絡を所望の時間包絡に整形する（ステップＳ１３-１）。

当該時間包絡情報は、前記第２の実施形態と同様に、符号化装置にて符号化した入力信号の時間包絡が平坦であることを示す情報、当該入力信号の時間包絡が立ち上がりであることを示す情報、当該入力信号の時間包絡が立ち下がりであることを示す情報であってもよく、さらには、例えば、当該入力信号の時間包絡の平坦の度合いを示す情報、当該入力信号の時間包絡の立ち上がりの度合いを示す情報、当該入力信号の時間包絡の立ち下がりの度合いを示す情報であってもよく、さらには、時間包絡整形部１３ａにて時間包絡を整形するか否かを示す情報であってもよい。

［ハードウェア構成］
上述の音声復号装置１０，１１、１２、１３および音声符号化装置２１はそれぞれ、ＣＰＵ等のハードウェアから構成されているものである。図１１は、音声復号装置１０，１１、１２、１３および音声符号化装置２１それぞれのハードウェア構成の一例を示す図である。音声復号装置１０，１１、１２、１３および音声符号化装置２１はそれぞれ、物理的には、図１１に示すように、ＣＰＵ１００、主記憶装置であるＲＡＭ１０１及びＲＯＭ１０２、ディスプレイ等の入出力装置１０３、通信モジュール１０４、及び補助記憶装置１０５などを含むコンピュータシステムとして構成されている。

音声復号装置１０，１１、１２、１３および音声符号化装置２１はそれぞれの各機能ブロックの機能はそれぞれ、図２２に示すＣＰＵ１００、ＲＡＭ１０１等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１００の制御のもとで入出力装置１０３、通信モジュール１０４、及び補助記憶装置１０５を動作させるとともに、ＲＡＭ１０１におけるデータの読み出し及び書き込みを行うことで実現される。

［プログラム構成］
引き続いて、上述した音声復号装置１０，１１、１２、１３および音声符号化装置２１はそれぞれによる処理をコンピュータに実行させるための音声復号プログラム５０及び音声符号化プログラム６０を説明する。

図２３に示すように、音声復号プログラム５０は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体４０に形成されたプログラム格納領域４１内に格納される。より具体的には、音声復号プログラム５０は、音声復号装置１０が備える記録媒体４０に形成されたプログラム格納領域４１内に格納される。

音声復号プログラム５０は、復号モジュール５０ａ、選択的時間包絡整形モジュール５０ｂを実行させることにより実現される機能は、上述した音声復号装置１０の復号部１０ａ、選択的時間包絡整形部１０ｂの機能とそれぞれ同様である。さらに、復号モジュール５０ａは、復号／逆量子化部１０ａＡ、復号関連情報出力部１０ａＢ、および時間周波数逆変換部１０ａＣとして機能するためのモジュールを備える。また、復号モジュール５０ａは、符号化系列解析部１０ａＤ、第１復号部１０ａＥ、第２復号部１０ａＦとして機能するためのモジュールを備えるようにしてもよい。

また、選択的時間包絡整形モジュール５０ｂは、時間周波数変換部１０ｂＡ、周波数選択部１０ｂＢ、周波数選択的時間包絡整形部１０ｂＣ、時間周波数逆変換部１０ｂＤとして機能するためのモジュールを備える。

また、音声復号プログラム５０は、上述音声復号装置１１と機能するために、逆多重化部１１ａ、復号部１０ａ、選択的時間包絡整形部１１ｂとして機能するためのモジュールを備える。

また、音声復号プログラム５０は、上述音声復号装置１２として機能するために、復号部１０ａ、時間包絡整形部１２ａとして機能するためのモジュールを備える。

また、音声復号プログラム５０は、音声復号装置１３として機能するために、逆多重化部１１ａ、復号部１０ａ、時間包絡整形部１３ａとして機能するためのモジュールを備える。

また、図２４に示すように、音声符号化プログラム６０は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体４０に形成されたプログラム格納領域４１内に格納される。より具体的には、音声符号化プログラム６０は、音声符号化装置２０が備える記録媒体４０に形成されたプログラム格納領域４１内に格納される。

音声符号化プログラム６０は、符号化モジュール６０ａ、時間包絡情報符号化モジュール６０ｂ、及び多重化モジュール６０ｃを備えて構成される。符号化モジュール６０ａ、時間包絡情報符号化モジュール６０ｂ、及び多重化モジュール６０ｃを実行させることにより実現される機能は、上述した音声符号化装置２１の符号化部２１ａ、時間包絡情報符号化部２１ｂ、及び多重化部２１ｃの機能とそれぞれ同様である。

なお、音声復号プログラム５０及び音声符号化プログラム６０それぞれは、その一部若しくは全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録（インストールを含む）される構成としてもよい。また、音声復号プログラム５０及び音声符号化プログラム６０それぞれの各モジュールは、１つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムよって上述した音声復号プログラム５０及び音声符号化プログラム６０それぞれの処理が行われる。

本実施形態における音声復号装置および音声符号化装置の一側面について以下の通り明記する。

本発明の一側面に係る音声復号装置は、符号化された音声信号を復号して音声信号を出力する音声復号装置であって、前記符号化された音声信号を含む符号化系列を復号して復号信号を得る復号部と、前記符号化系列の復号に関する復号関連情報に基づいて、復号信号における周波数帯域の時間包絡を整形する選択的時間包絡整形部と、を備える。信号の時間包絡は、時間方向に対する信号のエネルギーまたはパワー（及び、これらと等価のパラメータ）の変動を表す。本構成により、少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。

また、本発明の別の一側面に係る音声復号装置は、符号化された音声信号を復号して音声信号を出力する音声復号装置であって、前記符号化された音声信号を含む符号化系列と当該音声信号の時間包絡に関する時間包絡情報を分離する逆多重化部と、前記符号化系列を復号して復号信号を得る復号部と、前記時間包絡情報と前記符号化系列の復号に関する復号関連情報のうち少なくとも一つに基づいて、復号信号における周波数帯域の時間包絡を整形する選択的時間包絡整形部と、を備える。本構成により、前記音声信号の符号化系列を生成し出力する音声符号化装置にて当該音声符号化装置に入力される音声信号を参照して生成された時間包絡情報に基づき、少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。

復号部は、前記符号化系列を復号または/および逆量子化して周波数領域の復号信号を得る復号・逆量子化部と、前記復号・逆量子化部における復号または/および逆量子化の過程で得られる情報、および前記符号化系列を解析して得られる情報のうち少なくとも一つを復号関連情報として出力する復号関連情報出力部と、前記周波数領域の復号信号を時間領域の信号に変換して出力する時間周波数逆変換部とを備える、こととしてもよい。本構成により、少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。

また、復号部は、前記符号化系列を第１符号化系列と第２符号化系列に分離する符号化系列解析部と、前記第１符号化系列を復号または/および逆量子化して第１復号信号を得て前記復号関連情報として第１復号関連情報を得る第１復号部と、前記第２符号化系列と第１復号信号のうち少なくとも一つを用いて第２復号信号を得て出力し、前記復号関連情報として第２復号関連情報を出力する第２復号部とを備える、こととしてもよい。本構成により、複数の復号部により復号されて復号信号が生成される際にも、少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。

第１復号部は、前記第１符号化系列を復号または/および逆量子化して第１復号信号を得る第１復号・逆量子化部と、前記第１復号・逆量子化部における復号または/および逆量子化の過程で得られる情報、および前記第１符号化系列を解析して得られる情報のうち少なくとも一つを第１復号関連情報として出力する第１復号関連情報出力部とを備える、こととしてもよい。本構成により、複数の復号部により復号されて復号信号が生成される際に、少なくとも第１の復号部に関連する情報に基づいて、少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。

第２復号部は、前記第２符号化系列と前記第１復号信号のうち少なくとも１つを用いて第２復号信号を得る第２復号・逆量子化部と、前記第２復号・逆量子化部における第２復号信号を得る過程で得られる情報、および前記第２符号化系列を解析して得られる情報のうち少なくとも一つを第２復号関連情報として出力する第２復号関連情報出力部とを備える、こととしてもよい。本構成により、複数の復号部により復号されて復号信号が生成される際に、少なくとも第２の復号部に関連する情報に基づいて、少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。

選択的時間包絡整形部は、前記復号信号を周波数領域の信号に変換する時間・周波数変換部と、前記復号関連情報に基づいて、前記周波数領域の復号信号を各周波数帯域の時間包絡を整形する周波数選択的時間包絡整形部と、前記各周波数帯域の時間包絡を整形された周波数領域の復号信号を時間領域の信号に変換する時間・周波数逆変換部とを備える、こととしてもよい。本構成により、周波数領域において少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。

復号関連情報は、各周波数帯域の符号化ビット数に関連する情報である、こととしてもよい。本構成により、各周波数帯域の符号化ビット数に応じて、当該周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。

復号関連情報は、各周波数帯域の量子化ステップに関連する情報であることとしてもよい。本構成により、各周波数帯域の量子化ステップに応じて、当該周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。

復号関連情報は、各周波数帯域の符号化方式に関連する情報である、こととしてもよい。本構成により、各周波数帯域の符号化方式に応じて、当該周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。

復号関連情報は、各周波数帯域に注入される雑音成分に関連する情報である、こととしてもよい。本構成により、各周波数帯域に注入される雑音成分に応じて、当該周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。

周波数選択的時間包絡整形部は、時間包絡を整形する周波数帯域に対応する前記復号信号を、当該復号信号を周波数領域において線形予測分析して得られた線形予測係数を用いたフィルタを用いて所望の時間包絡に整形する、こととしてもよい。本構成により、周波数領域における復号信号を用いて、少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。

周波数選択的時間包絡整形部は、時間包絡を整形しない周波数帯域に対応する前記復号信号を周波数領域において他の信号に置き換えた後、時間包絡を整形する周波数および時間包絡を整形しない周波数に対応する復号信号を、周波数領域において線形予測分析して得られた線形予測係数を用いたフィルタを用いて、周波数領域において前記時間包絡を整形する周波数および時間包絡を整形しない周波数に対応する復号信号をフィルタリング処理することで所望の時間包絡に整形し、時間包絡整形後に、前記時間包絡を整形しない周波数帯域に対応する復号信号は他の信号に置き換える前の元の信号に戻す、こととしてもよい。本構成により、より少ない演算量にて、周波数領域における復号信号を用いて、少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。

また、本発明の別の一側面に係る音声復号装置は、符号化された音声信号を復号して音声信号を出力する音声復号装置であって、前記符号化された音声信号を含む符号化系列を復号して復号信号を得る復号部と、前記復号信号を周波数領域において線形予測分析して得られた線形予測係数を用いたフィルタを用いて、周波数領域において前記復号信号をフィルタリング処理することで所望の時間包絡に整形する時間包絡整形部と、を備える。本構成により、周波数領域における復号信号を用いて、当該少ないビット数で符号化された復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。

また、本発明の別の一側面に係る音声符号化装置は、入力される音声信号を符号化して符号化系列を出力する音声符号化装置であって、前記音声信号を符号化して前記音声信号を含む符号化系列を得る符号化部と、前記音声信号の時間包絡に関する情報を符号化する時間包絡情報符号化部と、前記符号化部で得られる符号化系列と、前記時間包絡情報符号化部で得られる時間包絡に関する情報の符号化系列を多重化する多重化部と、を備える。

また、本発明の一側面に係る態様は、以下の通り音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラムとして捉えることができる。

すなわち、本発明の一側面に係る音声復号方法は、符号化された音声信号を復号して音声信号を出力する音声復号装置の音声復号方法であって、前記符号化された音声信号を含む符号化系列を復号して復号信号を得る復号ステップと、前記符号化系列の復号に関する復号関連情報に基づいて、復号信号における周波数帯域の時間包絡を整形する選択的時間包絡整形ステップと、を備える。

また、本発明の一側面に係る音声復号方法は、符号化された音声信号を復号して音声信号を出力する音声復号装置の音声復号方法であって、前記符号化された音声信号を含む符号化系列と当該音声信号の時間包絡に関する時間包絡情報を分離する逆多重化ステップと、前記符号化系列を復号して復号信号を得る復号ステップと、前記時間包絡情報と前記符号化系列の復号に関する復号関連情報のうち少なくとも一つに基づいて、復号信号における周波数帯域の時間包絡を整形する選択的時間包絡整形ステップと、を備える。

また、本発明の一側面に係る音声復号プログラムは、前記符号化された音声信号を含む符号化系列を復号して復号信号を得る復号ステップと、前記符号化系列の復号に関する復号関連情報に基づいて、復号信号における周波数帯域の時間包絡を整形する選択的時間包絡整形ステップと、をコンピュータに実行させる。

また、本発明の一側面に係る音声復号方法は、符号化された音声信号を復号して音声信号を出力する音声復号装置の音声復号方法であって、前記符号化された音声信号を含む符号化系列と当該音声信号の時間包絡に関する時間包絡情報を分離する逆多重化ステップと、前記符号化系列を復号して復号信号を得る復号ステップと、前記時間包絡情報と前記符号化系列の復号に関する復号関連情報のうち少なくとも一つに基づいて、復号信号における周波数帯域の時間包絡を整形する選択的時間包絡整形ステップと、をコンピュータに実行させる。

また、本発明の一側面に係る音声復号方法は、符号化された音声信号を復号して音声信号を出力する音声復号装置の音声復号方法であって、前記符号化された音声信号を含む符号化系列を復号して復号信号を得る復号ステップと、前記復号信号を周波数領域において線形予測分析して得られた線形予測係数を用いたフィルタを用いて、周波数領域において前記復号信号をフィルタリング処理することで所望の時間包絡に整形する時間包絡整形ステップと、を備える。

また、本発明の一側面に係る音声符号化方法は、入力される音声信号を符号化して符号化系列を出力する音声符号化装置の音声符号化方法であって、前記音声信号を符号化して前記音声信号を含む符号化系列を得る符号化ステップと、前記音声信号の時間包絡に関する情報を符号化する時間包絡情報符号化ステップと、前記符号化ステップで得られる符号化系列と、前記時間包絡情報符号化ステップで得られる時間包絡に関する情報の符号化系列を多重化する多重化ステップと、を備える。

また、本発明の一側面に係る音声復号プログラムは、符号化された音声信号を含む符号化系列を復号して復号信号を得る復号ステップと、前記復号信号を周波数領域において線形予測分析して得られた線形予測係数を用いたフィルタを用いて、周波数領域において前記復号信号をフィルタリング処理することで所望の時間包絡に整形する時間包絡整形ステップと、をコンピュータに実行させる。

また、本発明の一側面に係る音声符号化プログラムは、音声信号を符号化して前記音声信号を含む符号化系列を得る符号化ステップと、前記音声信号の時間包絡に関する情報を符号化する時間包絡情報符号化ステップと、前記符号化ステップで得られる符号化系列と、前記時間包絡情報符号化ステップで得られる時間包絡に関する情報の符号化系列を多重化する多重化ステップと、コンピュータに実行させる。

１０ａＦ-１…逆量子化部、１０…音声復号装置、１０ａ…復号部、１０ａＡ…復号/逆量子化部、１０ａＢ…復号関連情報出力部、１０ａＣ…時間周波数逆変換部、１０ａＤ…符号化系列解析部、１０ａＥ…第１復号部、１０ａＥ-ａ…第１復号/逆量子化部、１０ａＥ-ｂ…第１復号関連情報出力部、１０ａＦ…第２復号部、１０ａＦ-ａ…第２復号/逆量子化部、１０ａＦ-ｂ…第２復号関連情報出力部、１０ａＦ-ｃ…復号信号合成部、１０ｂ…選択的時間包絡整形部、１０ｂＡ…時間周波数変換部、１０ｂＢ…周波数選択部、１０ｂＣ…周波数選択的時間包絡整形部、１０ｂＤ…時間周波数逆変換部、１１…音声復号装置、１１ａ…逆多重化部、１１ｂ…選択的時間包絡整形部、１２…音声復号装置、１２ａ…時間包絡整形部、１３…音声復号装置、１３ａ…時間包絡整形部、２１…音声符号化装置、２１ａ…符号化部、２１ｂ…時間包絡情報符号化部、２１ｃ…多重化部。

Claims

入力される音声信号を符号化して符号化系列を出力する音声符号化装置であって、
前記音声信号を符号化して前記音声信号を含む符号化系列を得る符号化部と、
前記音声信号の時間包絡に関する情報を取得する時間包絡情報取得部と、
前記符号化部で得られる符号化系列と、前記時間包絡情報取得部で得られる時間包絡に関する情報を多重化する多重化部と、
を備え、
前記時間包絡に関する情報として、線形予測分析により算出された予測利得に基づいて前記時間包絡が平坦である情報が生成される、音声符号化装置。
前記予測利得を算出する際において、前記音声信号の一部の周波数帯域の変換係数に対して前記線形予測分析が行われる、請求項１に記載の音声符号化装置。
入力された前記音声信号は複数の周波数帯域に分割され、当該周波数帯域ごとに変換係数は線形予測分析されて得られた複数の予測利得に基づいて、前記時間包絡に関する情報は生成される、請求項２に記載の音声符号化装置。
入力される音声信号を符号化して符号化系列を出力する音声符号化装置の音声符号化方法であって、
前記音声信号を符号化して前記音声信号を含む符号化系列を得る符号化ステップと、
前記音声信号の時間包絡に関する情報を取得する時間包絡情報取得ステップと、
前記符号化ステップで得られる符号化系列と、前記時間包絡情報取得ステップで得られる時間包絡に関する情報を多重化する多重化ステップと、
を備え、
前記時間包絡に関する情報として、線形予測分析により算出された予測利得に基づいて前記時間包絡が平坦である情報が生成される、音声符号化方法。