JP6511033B2 - 音声符号化装置および音声符号化方法 - Google Patents

音声符号化装置および音声符号化方法 Download PDF

Info

Publication number
JP6511033B2
JP6511033B2 JP2016212827A JP2016212827A JP6511033B2 JP 6511033 B2 JP6511033 B2 JP 6511033B2 JP 2016212827 A JP2016212827 A JP 2016212827A JP 2016212827 A JP2016212827 A JP 2016212827A JP 6511033 B2 JP6511033 B2 JP 6511033B2
Authority
JP
Japan
Prior art keywords
decoding
information
signal
unit
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016212827A
Other languages
English (en)
Other versions
JP2017078860A (ja
Inventor
菊入 圭
圭 菊入
山口 貴史
貴史 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2016212827A priority Critical patent/JP6511033B2/ja
Publication of JP2017078860A publication Critical patent/JP2017078860A/ja
Application granted granted Critical
Publication of JP6511033B2 publication Critical patent/JP6511033B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声符号化装置および音声符号化方法に関する。
音声信号、音響信号のデータ量を数十分の一に圧縮する音声符号化技術は、信号の伝送・蓄積において極めて重要な技術である。広く利用されている音声符号化技術の例として、周波数領域にて信号を符号化する変換符号化方式を挙げることができる。
変換符号化においては、低いビットレートで高い品質を得るために、入力信号に応じて周波数帯域ごとに符号化に要するビットを割り当てる適応ビット割り当てが広く用いられている。符号化による歪みを最小化するビット割り当て方法は、各周波数帯域の信号パワーに応じた割り当てであり、それに人間の聴覚を加味した形でのビット割り当ても行われている。
一方で、割り当てビット数が非常に少ない周波数帯域の品質を改善するための技術がある。特許文献1では、所定の閾値よりも割り当てられたビット数が少ない周波数帯域の変換係数を、その他の周波数帯域の変換係数で近似する手法が開示されている。また、特許文献2では、周波数帯域内でパワーが小さいためにゼロに量子化されてしまった成分に対して、擬似雑音信号を生成する手法、他の周波数帯域のゼロに量子化されていない成分の信号を複製する手法が開示されている。
さらには、音声信号、音響信号は一般的に高周波数帯域よりも低周波数帯域にパワーが偏り、主観品質に与える影響も大きいことを加味して、入力信号の高周波数帯域は符号化した低周波数帯域を用いて生成する帯域拡張技術も広く用いられている。帯域拡張技術は、少ないビット数で高周波数帯域を生成可能なため、低ビットレートで高い品質を得ることが可能である。特許文献3では、低周波数帯域のスペクトルを高周波数帯域に複写した後に、符号化器より送信される高周波数帯域スペクトルの性質に関する情報に基づいてスペクトル形状を調整して高周波数帯域を生成する手法が開示されている。
特開平9-153811号公報 米国特許第7447631号明細書 特許第5203077号
上記の技術では、少ないビット数で符号化された周波数帯域の成分が原音の当該成分に周波数領域で似るように生成している。一方で、時間領域では歪みが目立ってしまい、品質が劣化することがある。
上記の問題を鑑み、本発明は、少ないビット数で符号化された周波数帯域の成分の時間領域における歪みを軽減し、品質を改善することができる音声符号化装置および音声符号化方法を提供することを目的とする。
本発明の音声符号化装置は、入力される音声信号を符号化して符号化系列を出力する音声符号化装置であって、前記音声信号を符号化して前記音声信号を含む符号化系列を得る符号化部と、前記音声信号の時間包絡に関する情報を取得する時間包絡情報取得部と、前記符号化部で得られる符号化系列と、前記時間包絡情報取得部で得られる時間包絡に関する情報を多重化する多重化部と、を備え、前記時間包絡に関する情報として、線形予測分析により算出された予測利得に基づいて前記時間包絡が平坦である情報が生成される
本発明によれば、少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。
、第1の実施形態に係る音声復号装置10の構成を示す図である。 第1の実施形態に係る音声復号装置10の動作を示すフローチャートである。 第1の実施形態に係る音声復号装置10の復号部10aの第1の例の構成を示す図である。 、第1の実施形態に係る音声復号装置10の復号部10aの第1の例の動作を示すフローチャートである。 第1の実施形態に係る音声復号装置10の復号部10aの第2の例の構成を示す図である。 第1の実施形態に係る音声復号装置10の復号部10aの第2の例の動作を示すフローチャートである。 第1の実施形態に係る音声復号装置10の復号部10aの第2の例の第1復号部の構成を示す図である。 第1の実施形態に係る音声復号装置10の復号部10aの第2の例の第1復号部の動作を示すフローチャートである。 第1の実施形態に係る音声復号装置10の復号部10aの第2の例の第2復号部の構成を示す図である。 第1の実施形態に係る音声復号装置10の復号部10aの第2の例の第2復号部の動作を示すフローチャートである。 第1の実施形態に係る音声復号装置10の選択的時間包絡整形部10bの第1の例の構成を示す図である。 第1の実施形態に係る音声復号装置10の選択的時間包絡整形部10bの第1の例の動作を示すフローチャートである。 時間包絡整形処理を示す説明図である。 第2の実施形態に係る音声復号装置11の構成を示す図である。 第2の実施形態に係る音声復号装置11の動作を示すフローチャートである。 第2の実施形態にかかる音声符号化装置21の構成を示す図である。 第2の実施形態に係る音声符号化装置21の動作を示すフローチャートである。 第3の実施形態に係る音声復号装置12の構成を示す図である。 第3の実施形態に係る音声復号装置12の動作を示すフローチャートである。 第4の実施形態に係る音声復号装置13の構成を示す図である。 第4の実施形態に係る音声復号装置13の動作を示すフローチャートである。 本実施形態の音声復号装置または音声符号化装置として機能するコンピュータのハードウェア構成を示す図である。 音声復号装置として機能させるためのプログラム構成を示す図である。 音声符号化装置として機能させるためのプログラム構成を示す図である。
添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
[第1の実施形態]
図1は、第1の実施形態に係る音声復号装置10の構成を示す図である。音声復号装置10の通信装置は、音声信号を符号化した符号化系列を受信し、更に、復号した音声信号を外部に出力する。音声復号装置10は、図1に示すように、機能的には、復号部10a、選択的時間包絡整形部10bを備える。
図2は、第1の実施形態に係る音声復号装置10の動作を示すフローチャートである。
復号部10aは、符号化系列を復号し、復号信号を生成する(ステップS10-1)。
選択的時間包絡整形部10bは、前記復号部から符号化系列を復号する際に得られる情報である復号関連情報と復号信号を受け取り、復号信号の成分の時間包絡を選択的に所望の時間包絡に整形する(ステップS10-2)。なお、以降の記載において、信号の時間包絡は、時間方向に対する信号のエネルギーまたはパワー(及び、これらと等価のパラメータ)の変動を表すものとする。
図3は、第1の実施形態に係る音声復号装置10の復号部10aの第1の例の構成を示す図である。復号部10aは、図3に示すように、機能的には、復号/逆量子化部10aA、復号関連情報出力部10aB、時間周波数逆変換部10aCを備える。
図4は、第1の実施形態に係る音声復号装置10の復号部10aの第1の例の動作を示すフローチャートである。
復号/逆量子化部10aAは、符号化系列の符号化方式に応じて、符号化系列に対して復号、逆量子化のうち少なくとも1つを実施して周波数領域復号信号を生成する(ステップS10-1-1)。
復号関連情報出力部10aBは、前記復号/逆量子化部10aAにて復号信号を生成する際に得られる復号関連情報を受け、復号関連情報を出力する(ステップS10-1-2)。さらには、符号化系列を受けて解析して復号関連情報を得て、復号関連情報を出力してもよい。復号関連情報としては、例えば、周波数帯域ごとの符号化ビット数でもよく、これと同等の情報(例えば,周波数帯域ごとの1周波数成分あたりの平均符号化ビット数)でもよい。さらには、周波数成分ごとの符号化ビット数でもよい。さらには、周波数帯域ごとの量子化ステップサイズでもよい。さらには、周波数成分の量子化値でもよい。ここで、周波数成分とは、例えば所定の時間周波数変換の変換係数である。さらには、周波数帯域ごとのエネルギーまたはパワーでもよい。さらには、所定の周波数帯域(周波数成分でもよい)を提示する情報でもよい。さらには、例えば、復号信号生成の際に他の時間包絡整形に関する処理を含む場合には、当該時間包絡整形処理に関する情報であってもよく、例えば、当該時間包絡整形処理をするか否かの情報、当該時間包絡整形処理により整形される時間包絡に関する情報、当該時間包絡整形処理の時間包絡整形の強度の情報のうち少なくともひとつであってもよい。前記の例のうち少なくとも1つが復号関連情報として出力される。
時間周波数逆変換部10aCは、前記周波数領域復号信号を所定の時間周波数逆変換により時間領域の復号信号に変換し出力する(ステップS10-1-3)。ただし、周波数領域復号信号に時間周波数逆変換を施さずに出力してもよい。例えば、選択的時間包絡整形部10bが入力信号として周波数領域の信号を要求する場合が該当する。
図5は、第1の実施形態に係る音声復号装置10の復号部10aの第2の例の構成を示す図である。復号部10aは、図5に示すように、機能的には、符号化系列解析部10aD、第1復号部10aE、第2復号部10aFを備える。
図6は、第1の実施形態に係る音声復号装置10の復号部10aの第2の例の動作を示すフローチャートである。
符号化系列解析部10aDは、符号化系列を解析して、第1符号化系列と第2符号化系列に分離する(ステップS10-1-4)。
第1復号部10aEは、第1符号化系列を第1の復号方式にて復号して第1復号信号を生成し、当該復号に関する情報である第1復号関連情報を出力する(ステップS10-1-5)。
第2復号部10aFは、前記第1復号信号を用いて、第2符号化系列を第2の復号方式にて復号して復号信号を生成し、当該復号に関する情報である第2復号関連情報を出力する(ステップS10-1-6)。本例においては、この第1復号関連情報および第2復号関連情報を合わせたものが、復号関連情報である。
図7は、第1の実施形態に係る音声復号装置10の復号部10aの第2の例の第1復号部の構成を示す図である。第1復号部10aEは、図7に示すように、機能的には、第1復号/逆量子化部10aE-a、第1復号関連情報出力部10aE-bを備える。
図8は、第1の実施形態に係る音声復号装置10の復号部10aの第2の例の第1復号部の動作を示すフローチャートである。
第1復号/逆量子化部10aE-aは、第1符号化系列の符号化方式に応じて、第1符号化系列に対して復号、逆量子化のうち少なくとも1つを実施して第1復号信号を生成し出力する(ステップS10-1-5-1)。
第1復号関連情報出力部10aE-bは、前記第1復号/逆量子化部10aE-aにて第1復号信号を生成する際に得られる第1復号関連情報を受け、第1復号関連情報を出力する(ステップS10-1-5-2)。さらには、第1符号化系列を受けて解析して第1復号関連情報を得て、第1復号関連情報を出力してもよい。第1復号関連情報の例としては、前記復号関連情報出力部10aBが出力する復号関連情報の例と同様でもよい。さらには、第1復号部の復号方式が第1復号方式であることを第1復号関連情報としてもよい。さらには、第1復号信号に含まれる周波数帯域(周波数成分でもよい)(第1符号化系列に符号化されている音声信号の周波数帯域(周波数成分でもよい))を示す情報を第1復号関連情報としてもよい。
図9は、第1の実施形態に係る音声復号装置10の復号部10aの第2の例の第2復号部の構成を示す図である。第2復号部10aFは、図9に示すように、機能的には、第2復号/逆量子化部10aF-a、第2復号関連情報出力部10aF-b、復号信号合成部10aF-cを備える。
図10は、第1の実施形態に係る音声復号装置10の復号部10aの第2の例の第2復号部の動作を示すフローチャートである。
第2復号/逆量子化部10aF-1は、第2符号化系列の符号化方式に応じて、第2符号化系列に対して復号、逆量子化のうち少なくとも1つを施して第2復号信号を生成し出力する(ステップs10-1-6-1)。第2復号信号の生成に際しては、第1復号信号を用いてもよい。第2復号部の復号方式(第2復号方式)は、帯域拡張方式であってもよく、第1復号信号を用いた帯域拡張方式であってもよい。さらには、特許文献1(特開平9-153811号公報)に示されるように、第1の符号化方式にて割り当てられたビット数が所定の閾値よりも少なかった周波数帯域の変換係数を、第2の符号化方式として他の周波数帯域の変換係数で近似する符号化方式に対応する復号方式でもよい。また、さらには、特許文献2(米国特許第7447631)に示されるように、第1の符号化方式にてゼロに量子化された周波数の成分に対して、第2の符号化方式にて擬似雑音信号を生成するまたは他の周波数成分の信号を複製する符号化方式に対応する復号方式でもよい。さらには、当該周波数の成分に対して、第2の符号化方式にて他の周波数成分の信号を用いて近似する符号化方式に対応する復号方式でもよい。また、第1の符号化方式にてゼロに量子化された周波数の成分は、第1の符号化方式で符号化されない周波数の成分と解釈できる。これらの場合、第1の符号化方式に対応する復号方式が第1復号部の復号方式である第1復号方式、第2の符号化方式に対応する復号方式が第2復号部の復号方式である第2復号方式としてもよい。
第2復号関連情報出力部10aF-bは、前記第2復号/逆量子化部10aF-aにて第2復号信号を生成する際に得られる第2復号関連情報を受け、第2復号関連情報を出力する(ステップS10-1-6-2)。さらには、第2符号化系列を受けて解析して第2復号関連情報を得て、第2復号関連情報を出力してもよい。第2復号関連情報の例としては、前記復号関連情報出力部10aBが出力する復号関連情報の例と同様でもよい。
さらには、第2復号部の復号方式が第2復号方式であることを示す情報を第2復号関連情報としてもよい。例えば、第2復号方式が帯域拡張方式であることを示す情報を第2復号関連情報としてもよい。さらに例えば、帯域拡張方式で生成される第2復号信号の各周波数帯域に対する帯域拡張方式を示す情報を第2復号情報としてもよい。当該各周波数帯域に対する帯域拡張方式を示す情報としては、例えば、他の周波数帯域より信号を複製した、他の周波数帯域の信号で当該周波数の信号を近似した、擬似雑音信号を生成した、サイン信号を付加した等の情報であってもよい。さらに例えば、他の周波数帯域の信号で当該周波数の信号を近似する際には近似方法に関する情報であってもよい。さらに例えば、他の周波数帯域の信号で当該周波数の信号を近似する際に白色化を用いた場合には、白色化の強度に関する情報を第2復号情報としてもよい。さらに例えば、他の周波数帯域の信号で当該周波数の信号を近似する際に擬似雑音信号を付加した場合には、擬似雑音信号のレベルに関する情報を第2復号情報としてもよい。さらに例えば、擬似雑音信号を生成した場合には、擬似雑音信号のレベルに関する情報を第2復号情報としてもよい。
さらに例えば、第2復号方式が、第1の符号化方式にて割り当てられたビット数が所定の閾値よりも少なかった周波数帯域の変換係数を、他の周波数帯域の変換係数での近似、及び擬似雑音信号の変換係数を付加(置換でもよい)のうちのいずれかまたは両方とする符号化方式に対応する復号方式であることを示す情報を第2復号関連情報としてもよい。例えば、当該周波数帯域の変換係数の近似方法に関する情報を第2復号関連情報としてもよい。例えば、近似方法として他の周波数帯域の変換係数を白色化する方法を用いた場合には、白色化の強度に関する情報を第2復号情報としてもよい。例えば、当該擬似雑音信号のレベルに関する情報を第2復号情報としてもよい。
さらに例えば、第2の符号化方式が、第1の符号化方式にてゼロに量子化された(すなわち、第1の符号化方式にて符号化されない)周波数の成分に対して、擬似雑音信号を生成するまたは他の周波数成分の信号を複製する符号化方式であることを示す情報を第2復号関連情報としてもよい。例えば、各周波数成分に対して、第1の符号化方式にてゼロに量子化された(すなわち、第1の符号化方式にて符号化されない)周波数の成分か否かを示す情報を、第2復号関連情報としてもよい。例えば、当該周波数成分に対して擬似雑音信号を生成するか他の周波数成分の信号を複製するかを示す情報を、第2復号関連情報としてもよい。さらに例えば、当該周波数成分に対して他の周波数成分の信号を複製する場合、複製方法に関する情報を第2復号関連情報としてもよい。複製方法に関する情報としては、例えば、複製元の周波数であってもよい。さらに例えば、複製の際に複製元の周波数成分に対して処理を加えるか否か、さらには加える処理に関する情報であってもよい。さらに例えば、当該複製元の周波数成分に対して加える処理が白色化の場合には、白色化の強度に関する情報であってもよい。さらに例えば、当該複製元の周波数成分に対して加える処理が擬似雑音信号付加の場合には、擬似雑音信号のレベルに関する情報であってもよい。
復号信号合成部10aF-cは、第1復号信号と第2復号信号より、復号信号を合成して出力する(ステップS10-1-6-3)。第2の符号化方式が帯域拡張方式である場合は、一般的には、第1復号信号が低周波数帯域の信号、第2復号信号が高周波数帯域の信号であり、復号信号はこれら両方の周波数帯域をもつことになる。
図11は、第1の実施形態に係る音声復号装置10の選択的時間包絡整形部10bの第1の例の構成を示す図である。選択的時間包絡整形部10bは、図11に示すように、機能的には、時間周波数変換部10bA、周波数選択部10bB、周波数選択的時間包絡整形部10bC、時間周波数逆変換部10bDを備える。
図12は、第1の実施形態に係る音声復号装置10の選択的時間包絡整形部10bの第1の例の動作を示すフローチャートである。
時間周波数変換部10bAは、時間領域の復号信号を所定の時間周波数変換により周波数領域の復号信号に変換する(ステップS10-2-1)。ただし、復号信号が周波数領域の信号の場合には、当該時間周波数変換部10bA、及び当該処理ステップS10-2-1を省略できる。
周波数選択部10bBは、周波数領域の復号信号及び復号関連情報のうち少なくとも一つを用いて、周波数領域の復号信号において時間包絡整形処理を施す周波数帯域を選択する(ステップS10-2-2)。前記周波数選択処理は、時間包絡整形処理を施す周波数成分を選択してもよい。当該選択される周波数帯域(周波数成分でもよい)は、復号信号のうちの一部の周波数帯域(周波数成分でもよい)でもよく、また復号信号のすべての周波数帯域(周波数成分でもよい)でもよい。
例えば、復号関連情報が周波数帯域ごとの符号化ビット数である場合は、当該符号化ビット数が所定の閾値よりも小さい周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。前記周波数帯域ごとの符号化ビット数と同等の情報の場合にも、同様に、所定の閾値との比較により時間包絡整形処理を施す周波数帯域を選択できることは明白である。さらに例えば、復号関連情報が周波数成分ごとの符号化ビット数である場合は、当該符号化ビット数が所定の閾値よりも小さい周波数成分を、時間包絡整形処理を施す周波数成分として選択してもよい。例えば、変換係数を符号化されていない周波数成分を、時間包絡整形処理を施す周波数成分として選択してもよい。さらに例えば、復号関連情報が周波数帯域ごとの量子化ステップサイズである場合、当該量子化ステップサイズが所定の閾値よりも大きい周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。さらに例えば、復号関連情報が周波数成分の量子化値である場合、当該量子化値を所定の閾値と比較して、時間包絡整形処理を施す周波数帯域を選択してもよい。例えば、量子化変換係数が所定の閾値よりも小さい成分を、時間包絡整形処理を施す周波数成分として選択してもよい。さらに例えば、復号関連情報が周波数帯域ごとのエネルギーまたはパワーである場合、当該エネルギーまたはパワーを所定の閾値と比較して、時間包絡整形処理を施す周波数帯域を選択してもよい。例えば、選択的時間包絡整形処理の対象となる周波数帯域のエネルギーまたはパワーが所定の閾値よりも小さい場合は、当該周波数帯域には時間包絡整形処理を施さないとしてもよい。
さらに例えば、復号関連情報が他の時間包絡整形処理に関する情報である場合は、当該時間包絡整形処理が施されない周波数帯域を、本発明における時間包絡整形処理を施す周波数帯域として選択してもよい。
さらに例えば、復号部10aが復号部10aの第2の例に記載の構成であって、復号関連情報が第2復号部の符号化方式である場合に、第2復号部の符号化方式に応じて第2復号部にて復号される周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。例えば、第2復号部の符号化形式が帯域拡張方式である場合に、第2復号部にて復号される周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。例えば、第2復号部の符号化形式が時間領域における帯域拡張方式である場合に、第2復号部にて復号される周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。例えば、第2復号部の符号化形式が周波数領域における帯域拡張方式である場合に、第2復号部にて復号される周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。例えば、帯域拡張方式にて他の周波数帯域より信号を複製した周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。例えば、帯域拡張方式にて他の周波数帯域の信号を用いて当該周波数の信号を近似した周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。例えば、帯域拡張方式にて擬似雑音信号を生成した周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。例えば、帯域拡張方式にてサイン信号を付加した周波数帯域を除く周波数帯域を、時間包絡整形処理を施す周波数帯域として選択してもよい。
さらに例えば、復号部10aが復号部10aの第2の例に記載の構成であって、第2の符号化方式が第1の符号化方式にて割り当てられたビット数が所定の閾値よりも少なかった周波数帯域または成分(第1の符号化方式にて符号化されていない周波数帯域または成分でもよい)の変換係数を、他の周波数帯域または成分の変換係数を用いた近似、及び擬似雑音信号の変換係数を付加(置換でもよい)のうちのいずれかまたは両方とする符号化方式である場合において、変換係数を他の周波数帯域または成分の変換係数を用いて近似した周波数帯域または成分を、時間包絡整形処理を施す周波数帯域または成分として選択してもよい。例えば、擬似雑音信号の変換係数を付加(置換でもよい)した周波数帯域または成分を、時間包絡整形処理を施す周波数帯域または成分として選択してもよい。例えば、変換係数を他の周波数帯域または成分の変換係数を用いて近似する際の近似方法に応じて、時間包絡整形処理を施す周波数帯域または成分として選択してもよい。例えば、近似方法として他の周波数帯域または成分の変換係数を白色化する方法を用いた場合には、白色化の強度に応じて、時間包絡整形処理を施す周波数帯域または成分を選択してもよい。例えば、擬似雑音信号の変換係数を付加(置換でもよい)する場合において、当該擬似雑音信号のレベルに応じて、時間包絡整形処理を施す周波数帯域または成分を選択してもよい。
さらに例えば、復号部10aが復号部10aの第2の例に記載の構成であって、第2の符号化方式が、第1の符号化方式にてゼロに量子化された(すなわち、第1の符号化方式にて符号化されない)周波数の成分に対して、擬似雑音信号を生成するまたは他の周波数成分の信号を複製(他の周波数成分の信号を用いた近似でもよい)する符号化方式である場合において、擬似雑音信号を生成した周波数成分を、時間包絡整形処理を施す周波数成分として選択してもよい。例えば、他の周波数成分の信号を複製(他の周波数成分の信号を用いて近似でもよい)した周波数成分を、時間包絡整形処理を施す周波数成分として選択してもよい。例えば、当該周波数成分に対して他の周波数成分の信号を複製(他の周波数成分の信号を用いて近似でもよい)する場合、複製元(近似元)の周波数に応じて、時間包絡整形処理を施す周波数成分を選択してもよい。例えば、複製の際に複製元の周波数成分に対して処理を加えるか否かに応じて、時間包絡整形処理を施す周波数成分を選択してもよい。例えば、複製(近似でも良い)の際に複製元(近似元)の周波数成分に対して加える処理に応じて、時間包絡整形処理を施す周波数成分を選択してもよい。例えば、当該複製元(近似元)の周波数成分に対して加える処理が白色化の場合には、白色化の強度に応じて、時間包絡整形処理を施す周波数成分を選択してもよい。例えば、近似の際の近似方法に応じて、時間包絡整形処理を施す周波数成分を選択してもよい。
周波数成分または周波数帯域の選択方法は、上記の例を組み合わせてもよい。また、周波数領域の復号信号及び復号関連情報のうち少なくとも一つを用いて、周波数領域の復号信号において時間包絡整形処理を施す周波数成分または帯域を選択すればよく、周波数成分または周波数帯域の選択方法は上記の例に限定されない。
周波数選択的時間包絡整形部10bCは、復号信号の前記周波数選択部10bBで選択された周波数帯域の時間包絡を所望の時間包絡に整形する(ステップS10-2-3)。前記時間包絡整形の実施は、周波数成分単位であってもよい。
時間包絡の整形方法は、例えば、選択された周波数帯域の変換係数を線形予測分析して得られた線形予測係数を用いた線形予測逆フィルタでフィルタリングすることで、時間包絡を平坦にする方法であってもよい。当該線形予測逆フィルタの伝達関数A(z)は、離散時間系における当該線形予測逆フィルタの応答を表す関数であり、
Figure 0006511033


で表すことができる。pは予測次数であり、αi(i = 1,..,p)は線形予測係数である。例えば、選択された周波数帯域の変換係数を、当該線形予測係数を用いた線形予測フィルタでフィルタリングすることで、時間包絡を立ち上がりまたは/及び立ち下がりにする方法であってもよい。当該線形予測フィルタの伝達関数は、
Figure 0006511033


で表すことができる。
上記線形予測係数を用いる時間包絡整形処理においては、帯域幅拡大率ρを用いて、時間包絡を平坦にするまたは立ち上がりまたは/及び立ち下がりにする強度を調整してもよい。
Figure 0006511033


Figure 0006511033

上記の例は、復号信号を時間周波数変換した変換係数だけでなく、復号信号をフィルタバンクによって周波数領域の信号に変換して得られるサブバンド信号の任意の時間tにおけるサブサンプルに対して処理してもよい。上記の例では、復号信号に対して周波数領域において線形予測分析に基づくフィルタリングを施すことで、復号信号の時間領域におけるパワーの分布を変え、時間包絡を整形できる。
さらに例えば、復号信号をフィルタバンクによって周波数領域の信号に変換したサブバンド信号の振幅を、任意の時間セグメントにおいて、時間包絡整形処理を施す周波数成分(または、周波数帯域)の平均振幅にすることにより時間包絡を平坦にしてもよい。これにより、時間包絡整形処理前の当該時間セグメントの当該周波数成分(または、周波数帯域)のエネルギーを保持したまま、時間包絡を平坦にできる。同様に、時間包絡整形処理前の当該時間セグメントの当該周波数成分(または、周波数帯域)のエネルギーを保持したまま、サブバンド信号の振幅を変更することで時間包絡を立ち上がり/立ち下がりにしてもよい。
さらに例えば、図13に示すように、上記周波数選択部10bBにて時間包絡を整形する周波数成分または周波数帯域として選択されなかった周波数成分または周波数帯域(非選択周波数成分または非選択周波数帯域とよぶ)を含む周波数帯域において、復号信号の非選択周波数成分(非選択周波数帯域でもよい)の変換係数(またはサブサンプル)を他の値にて置き換えた上で、上記時間包絡整形方法にて時間包絡整形処理を施した後に、当該非選択周波数成分(非選択周波数帯域でもよい)の変換係数(またはサブサンプル)を置き換える前の元の値に戻すことで、非選択周波数成分(非選択周波数帯域でもよい)を除いた周波数成分(周波数帯域)に時間包絡整形処理を施してもよい。
これにより、非選択周波数成分(または、非選択周波数帯域)が点在することによって時間包絡整形処理を施す周波数成分(または周波数帯域)が細かく分割されてしまう場合においても、分割されてしまう周波数成分(または周波数帯域)をまとめて時間包絡整形処理することができ、演算量を削減できる。例えば、上記線形予測分析を用いる時間包絡整形方法においては、細かく分割された時間包絡整形処理を施す周波数成分(または、周波数帯域)に対して線形予測分析をするのに対し、当該分割された周波数成分(または、周波数帯域)を非選択周波数成分(または、非選択周波数帯域)も含めてまとめて一度の線形予測分析をすればよく、さらに線形予測逆フィルタ(線形予測フィルタでもよい)でのフィルタリング処理も、当該分割された周波数成分(または、周波数帯域)を非選択周波数成分(または、非選択周波数帯域)も含めてまとめて一度のフィルタリングででき、低演算量で実現できる。
当該非選択周波数成分(非選択周波数帯域でもよい)の変換係数(またはサブサンプル)の置き換えは、例えば、当該非選択周波数成分(非選択周波数帯域でもよい)の変換係数(またはサブサンプル)及びその近隣の周波数成分(または、周波数帯域でもよい)を含めた振幅の平均値を用いて、当該非選択周波数成分(非選択周波数帯域でもよい)の変換係数(またはサブサンプル)の振幅を置き換えてもよい。その際には、例えば、変換係数の符号は元の変換係数の符号を維持してもよく、サブサンプルの位相は元のサブサンプルの位相を維持してもよい。さらに例えば、当該周波数成分(周波数帯域でもよい)の変換係数(またはサブサンプル)が量子化/符号化されておらず、他の周波数成分(周波数帯域でもよい)の変換係数(またはサブサンプル)で複製・近似、または/及び擬似雑音信号の生成・付加、及び/またはサイン信号の付加で生成された周波数成分(周波数帯域でもよい)に対して時間包絡整形処理を施すと選択された場合は、非選択周波数成分(非選択周波数帯域でもよい)の変換係数(またはサブサンプル)を擬似的に他の周波数成分(周波数帯域でもよい)の変換係数(またはサブサンプル)で複製・近似、または/及び擬似雑音信号の生成・付加、及び/またはサイン信号の付加で生成した変換係数(またはサブサンプル)に置き換えてもよい。選択された周波数帯域の時間包絡の整形方法は上記の方法を組み合わせてもよく、時間包絡整形方法は上記の例に限定されない。
時間周波数逆変換部10bDは、周波数選択的に時間包絡整形を施された復号信号を時間領域の信号に変換し出力する(ステップS10-2-4)。
[第2の実施形態]
図14は、第2の実施形態に係る音声復号装置11の構成を示す図である。音声復号装置11の通信装置は、音声信号を符号化した符号化系列を受信し、更に、復号した音声信号を外部に出力する。音声復号装置11は、図14に示すように、機能的には、逆多重化部11a、復号部10a、選択的時間包絡整形部11bを備える。
図15は、第2の実施形態に係る音声復号装置11の動作を示すフローチャートである。
逆多重化部11aは、符号化系列を復号/逆量子化して復号信号を得る符号化系列と時間包絡情報とに分離する(ステップS11-1)。復号部10aは、符号化系列を復号し、復号信号を生成する(ステップS10-1)。時間包絡情報が符号化もしくは/及び量子化されている場合は、復号もしくは/及び逆量子化して時間包絡情報を得る。
時間包絡情報としては、例えば、符号化装置にて符号化した入力信号の時間包絡が平坦であることを示す情報であってもよい。例えば、当該入力信号の時間包絡が立ち上がりであることを示す情報であってもよい。例えば、当該入力信号の時間包絡が立ち下がりであることを示す情報であってもよい。
さらには、例えば、時間包絡情報は、当該入力信号の時間包絡の平坦の度合いを示す情報であってもよく、例えば、当該入力信号の時間包絡の立ち上がりの度合いを示す情報であってもよく、例えば、当該入力信号の時間包絡の立ち下がりの度合いを示す情報であってもよい。
さらには、例えば、時間包絡情報は、選択的時間包絡整形部にて時間包絡を整形するか否かを示す情報であってもよい。
選択的時間包絡整形部11bは、復号部10aから符号化系列を復号する際に得られる情報である復号関連情報と復号信号を受け取り、前記逆多重化部より時間包絡情報を受け取り、これらのうち少なくともひとつに基づいて、復号信号の成分の時間包絡を選択的に所望の時間包絡に整形する(ステップS11-2)。
選択的時間包絡整形部11bにおける選択的時間包絡整形の方法は、例えば、選択的時間包絡整形部10bと同様でもよく、さらに時間包絡情報を加味して選択的時間包絡整形を施してもよい。例えば、時間包絡情報が符号化装置にて符号化した入力信号の時間包絡が平坦であることを示す情報である場合には、当該情報に基づいて、時間包絡を平坦に整形してもよい。例えば、時間包絡情報が当該入力信号の時間包絡が立ち上がりであることを示す情報である場合には、当該情報に基づいて、時間包絡を立ち上がりに整形してもよい。例えば、時間包絡情報が当該入力信号の時間包絡が立ち下がりであることを示す情報である場合には、当該情報に基づいて、時間包絡を立ち下がりに整形してもよい。
さらに例えば、時間包絡情報が当該入力信号の時間包絡の平坦の度合いを示す情報である場合には、当該情報に基づいて時間包絡を平坦にする強度を調整してもよい。例えば、時間包絡情報が当該入力信号の時間包絡の立ち上がりの度合いを示す情報である場合には、当該情報に基づいて時間包絡を立ち上がりにする強度を調整してもよい。例えば、時間包絡情報が当該入力信号の時間包絡の立ち下がりの度合いを示す情報である場合には、当該情報に基づいて時間包絡を立ち下がりにする強度を調整してもよい。
さらに例えば、時間包絡情報が選択的時間包絡整形部11bにて時間包絡を整形するか否かを示す情報である場合には、当該情報に基づいて時間包絡整形処理を施すか否かを決定してもよい。
さらに例えば、上記の例の時間包絡情報で当該時間包絡情報に基づいて時間包絡整形処理を施すにあたり、時間包絡整形を施す周波数帯域(周波数成分でもよい)を第1の実施形態と同様に選択し、復号信号における当該選択された周波数帯域(周波数成分でもよい)の時間包絡を所望の時間包絡に整形してもよい。
図16は、第2の実施形態にかかる音声符号化装置21の構成を示す図である。音声符号化装置21の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された符号化系列を外部に出力する。音声符号化装置21は、図16に示すように、機能的には、符号化部21a、時間包絡情報符号化部21b、多重化部21cを備える。
図17は、第2の実施形態に係る音声符号化装置21の動作を示すフローチャートである。
符号化部21aは、入力された音声信号を符号化し符号化系列を生成する(ステップS21-1)。符号化部21aにおける音声信号の符号化方式は、前記復号部10aの復号方式に対応する符号化方式である。
時間包絡情報符号化部21bは、入力された音声信号と前記符号化部21aにて音声信号を符号化する際に得られる情報のうち少なくともひとつより時間包絡情報を生成する。生成された時間包絡情報は符号化/量子化されてもよい(ステップS21-2)。時間包絡情報は、例えば、前記音声復号装置11の逆多重化部11aで得られる時間包絡情報であってもよい。
さらに例えば、音声復号装置11の復号部にて復号信号を生成する際に本発明とは別の時間包絡整形に関する処理をし、当該時間包絡整形処理に関する情報を音声符号化装置21にて保持している場合、当該情報を用いて時間包絡情報を生成してもよい。例えば、本発明とは別の時間包絡処理をするか否かの情報に基づいて、音声復号装置11の選択的時間包絡整形部11bにて時間包絡を整形するか否かを示す情報を生成してもよい。
さらに例えば、前記音声復号装置11の選択的時間包絡整形部11bでは、前記第1の実施形態に係る音声復号装置10の選択的時間包絡整形部10bの第1の例に記載の線形予測分析を用いた時間包絡整形の処理を施す場合には、当該時間包絡整形処理での線形予測分析と同様に、入力された音声信号の変換係数(サブバンドサンプルでもよい)を線形予測分析した結果を用いて時間包絡情報を生成してもよい。具体的には、例えば、当該線形予測分析による予測利得を算出し、当該予測利得に基づいて時間包絡情報を生成してもよい。予測利得の算出の際には、入力された音声信号のすべての周波数帯域の変換係数(サブバンドサンプルでもよい)を線形予測分析してもよく、さらには入力された音声信号の一部の周波数帯域の変換係数(サブバンドサンプルでもよい)を線形予測分析してもよい。さらには、入力された音声信号を複数の周波数帯域に分割して当該周波数帯域ごとに変換係数(サブバンドサンプルでもよい)の線形予測分析をしてもよく、その際には複数の予測利得が算出でき、当該複数の予測利得を用いて時間包絡情報を生成してもよい。
さらに例えば、前記符号化部21aにて音声信号を符号化する際に得られる情報は、 復号部10aが前記第2の例の構成の場合、第1の復号方式に対応する符号化方式(第1の符号化方式)での符号化の際に得られる情報と第2の復号方式に対応する符号化方式(第2の符号化方式)での符号化の際に得られる情報のうち少なくとも1つであってもよい。
多重化部21cは、前記符号化部で得られた符号化系列と前記時間包絡情報符号化部で得られた時間包絡情報を多重化し出力する(ステップS21-3)。
[第3の実施形態]
図18は、第3の実施形態に係る音声復号装置12の構成を示す図である。音声復号装置12の通信装置は、音声信号を符号化した符号化系列を受信し、更に、復号した音声信号を外部に出力する。音声復号装置12は、図18に示すように、機能的には、復号部10a、時間包絡整形部12aを備える。
図19は、第3の実施形態に係る音声復号装置12の動作を示すフローチャートである。復号部10aは、符号化系列を復号し、復号信号を生成する(ステップS10-1)。そして、時間包絡整形部12aは、前記復号部10aから出力される復号信号の時間包絡を所望の時間包絡に整形する(ステップS12-1)。時間包絡の整形方法は、前記第1の実施形態と同様に、復号信号の変換係数を線形予測分析して得られた線形予測係数を用いた線形予測逆フィルタでフィルタリングすることで、時間包絡を平坦にする方法でもよく、当該線形予測係数を用いた線形予測フィルタでフィルタリングすることで、時間包絡を立ち上がりまたは/及び立ち下がりにする方法であってもよく、さらに帯域幅拡大率を用いて平坦/立ち上がり/立ち下がりの強度を制御してもよく、さらには復号信号の変換係数の代わりに復号信号をフィルタバンクによって周波数領域の信号に変換して得られるサブバンド信号の任意の時間tにおけるサブサンプルに対して上記の例の時間包絡整形を施してもよい。さらには、前記第1の実施形態と同様に、任意の時間セグメントにおいて、所望の時間包絡になるように、当該サブバンド信号の振幅を修正してもよく、例えば、時間包絡整形処理を施す周波数成分(または、周波数帯域)の平均振幅にすることにより時間包絡を平坦にしてもよい。上記の時間包絡整形は復号信号の全周波数帯域に施してもよく、所定の周波数帯域に施してもよい。
[第4の実施形態]
図20は、第4の実施形態に係る音声復号装置13の構成を示す図である。音声復号装置13の通信装置は、音声信号を符号化した符号化系列を受信し、更に、復号した音声信号を外部に出力する。音声復号装置13は、図20に示すように、機能的には、逆多重化部11a、復号部10a、時間包絡整形部13aを備える。
図21は、第4の実施形態に係る音声復号装置13の動作を示すフローチャートである。逆多重化部11aは、符号化系列を復号/逆量子化して復号信号を得る符号化系列と時間包絡情報とに分離し(ステップS11-1)、復号部10aは、符号化系列を復号し、復号信号を生成する(ステップS10-1)。そして、時間包絡整形部13aは、逆多重化部11aより時間包絡情報を受け取り、当該時間包絡情報に基づいて、復号部10aから出力される復号信号の時間包絡を所望の時間包絡に整形する(ステップS13-1)。
当該時間包絡情報は、前記第2の実施形態と同様に、符号化装置にて符号化した入力信号の時間包絡が平坦であることを示す情報、当該入力信号の時間包絡が立ち上がりであることを示す情報、当該入力信号の時間包絡が立ち下がりであることを示す情報であってもよく、さらには、例えば、当該入力信号の時間包絡の平坦の度合いを示す情報、当該入力信号の時間包絡の立ち上がりの度合いを示す情報、当該入力信号の時間包絡の立ち下がりの度合いを示す情報であってもよく、さらには、時間包絡整形部13aにて時間包絡を整形するか否かを示す情報であってもよい。
[ハードウェア構成]
上述の音声復号装置10,11、12、13および音声符号化装置21はそれぞれ、CPU等のハードウェアから構成されているものである。図11は、音声復号装置10,11、12、13および音声符号化装置21それぞれのハードウェア構成の一例を示す図である。音声復号装置10,11、12、13および音声符号化装置21はそれぞれ、物理的には、図11に示すように、CPU100、主記憶装置であるRAM101及びROM102、ディスプレイ等の入出力装置103、通信モジュール104、及び補助記憶装置105などを含むコンピュータシステムとして構成されている。
音声復号装置10,11、12、13および音声符号化装置21はそれぞれの各機能ブロックの機能はそれぞれ、図22に示すCPU100、RAM101等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU100の制御のもとで入出力装置103、通信モジュール104、及び補助記憶装置105を動作させるとともに、RAM101におけるデータの読み出し及び書き込みを行うことで実現される。
[プログラム構成]
引き続いて、上述した音声復号装置10,11、12、13および音声符号化装置21はそれぞれによる処理をコンピュータに実行させるための音声復号プログラム50及び音声符号化プログラム60を説明する。
図23に示すように、音声復号プログラム50は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体40に形成されたプログラム格納領域41内に格納される。より具体的には、音声復号プログラム50は、音声復号装置10が備える記録媒体40に形成されたプログラム格納領域41内に格納される。
音声復号プログラム50は、復号モジュール50a、選択的時間包絡整形モジュール50bを実行させることにより実現される機能は、上述した音声復号装置10の復号部10a、選択的時間包絡整形部10bの機能とそれぞれ同様である。さらに、復号モジュール50aは、復号/逆量子化部10aA、復号関連情報出力部10aB、および時間周波数逆変換部10aCとして機能するためのモジュールを備える。また、復号モジュール50aは、符号化系列解析部10aD、第1復号部10aE、第2復号部10aFとして機能するためのモジュールを備えるようにしてもよい。
また、選択的時間包絡整形モジュール50bは、時間周波数変換部10bA、周波数選択部10bB、周波数選択的時間包絡整形部10bC、時間周波数逆変換部10bDとして機能するためのモジュールを備える。
また、音声復号プログラム50は、上述音声復号装置11と機能するために、逆多重化部11a、復号部10a、選択的時間包絡整形部11bとして機能するためのモジュールを備える。
また、音声復号プログラム50は、上述音声復号装置12として機能するために、復号部10a、時間包絡整形部12aとして機能するためのモジュールを備える。
また、音声復号プログラム50は、音声復号装置13として機能するために、逆多重化部11a、復号部10a、時間包絡整形部13aとして機能するためのモジュールを備える。
また、図24に示すように、音声符号化プログラム60は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体40に形成されたプログラム格納領域41内に格納される。より具体的には、音声符号化プログラム60は、音声符号化装置20が備える記録媒体40に形成されたプログラム格納領域41内に格納される。
音声符号化プログラム60は、符号化モジュール60a、時間包絡情報符号化モジュール60b、及び多重化モジュール60cを備えて構成される。符号化モジュール60a、時間包絡情報符号化モジュール60b、及び多重化モジュール60cを実行させることにより実現される機能は、上述した音声符号化装置21の符号化部21a、時間包絡情報符号化部21b、及び多重化部21cの機能とそれぞれ同様である。
なお、音声復号プログラム50及び音声符号化プログラム60それぞれは、その一部若しくは全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録(インストールを含む)される構成としてもよい。また、音声復号プログラム50及び音声符号化プログラム60それぞれの各モジュールは、1つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムよって上述した音声復号プログラム50及び音声符号化プログラム60それぞれの処理が行われる。
本実施形態における音声復号装置および音声符号化装置の一側面について以下の通り明記する。
本発明の一側面に係る音声復号装置は、符号化された音声信号を復号して音声信号を出力する音声復号装置であって、前記符号化された音声信号を含む符号化系列を復号して復号信号を得る復号部と、前記符号化系列の復号に関する復号関連情報に基づいて、復号信号における周波数帯域の時間包絡を整形する選択的時間包絡整形部と、を備える。信号の時間包絡は、時間方向に対する信号のエネルギーまたはパワー(及び、これらと等価のパラメータ)の変動を表す。本構成により、少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。
また、本発明の別の一側面に係る音声復号装置は、符号化された音声信号を復号して音声信号を出力する音声復号装置であって、前記符号化された音声信号を含む符号化系列と当該音声信号の時間包絡に関する時間包絡情報を分離する逆多重化部と、前記符号化系列を復号して復号信号を得る復号部と、前記時間包絡情報と前記符号化系列の復号に関する復号関連情報のうち少なくとも一つに基づいて、復号信号における周波数帯域の時間包絡を整形する選択的時間包絡整形部と、を備える。本構成により、前記音声信号の符号化系列を生成し出力する音声符号化装置にて当該音声符号化装置に入力される音声信号を参照して生成された時間包絡情報に基づき、少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。
復号部は、前記符号化系列を復号または/および逆量子化して周波数領域の復号信号を得る復号・逆量子化部と、前記復号・逆量子化部における復号または/および逆量子化の過程で得られる情報、および前記符号化系列を解析して得られる情報のうち少なくとも一つを復号関連情報として出力する復号関連情報出力部と、前記周波数領域の復号信号を時間領域の信号に変換して出力する時間周波数逆変換部とを備える、こととしてもよい。本構成により、少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。
また、復号部は、前記符号化系列を第1符号化系列と第2符号化系列に分離する符号化系列解析部と、前記第1符号化系列を復号または/および逆量子化して第1復号信号を得て前記復号関連情報として第1復号関連情報を得る第1復号部と、 前記第2符号化系列と第1復号信号のうち少なくとも一つを用いて第2復号信号を得て出力し、前記復号関連情報として第2復号関連情報を出力する第2復号部とを備える、こととしてもよい。本構成により、複数の復号部により復号されて復号信号が生成される際にも、少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。
第1復号部は、前記第1符号化系列を復号または/および逆量子化して第1復号信号を得る第1復号・逆量子化部と、前記第1復号・逆量子化部における復号または/および逆量子化の過程で得られる情報、および前記第1符号化系列を解析して得られる情報のうち少なくとも一つを第1復号関連情報として出力する第1復号関連情報出力部とを備える、こととしてもよい。本構成により、複数の復号部により復号されて復号信号が生成される際に、少なくとも第1の復号部に関連する情報に基づいて、少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。
第2復号部は、前記第2符号化系列と前記第1復号信号のうち少なくとも1つを用いて第2復号信号を得る第2復号・逆量子化部と、前記第2復号・逆量子化部における第2復号信号を得る過程で得られる情報、および前記第2符号化系列を解析して得られる情報のうち少なくとも一つを第2復号関連情報として出力する第2復号関連情報出力部とを備える、こととしてもよい。本構成により、複数の復号部により復号されて復号信号が生成される際に、少なくとも第2の復号部に関連する情報に基づいて、少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。
選択的時間包絡整形部は、前記復号信号を周波数領域の信号に変換する時間・周波数変換部と、前記復号関連情報に基づいて、前記周波数領域の復号信号を各周波数帯域の時間包絡を整形する周波数選択的時間包絡整形部と、前記各周波数帯域の時間包絡を整形された周波数領域の復号信号を時間領域の信号に変換する時間・周波数逆変換部とを備える、こととしてもよい。本構成により、周波数領域において少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。
復号関連情報は、各周波数帯域の符号化ビット数に関連する情報である、こととしてもよい。本構成により、各周波数帯域の符号化ビット数に応じて、当該周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。
復号関連情報は、各周波数帯域の量子化ステップに関連する情報であることとしてもよい。本構成により、各周波数帯域の量子化ステップに応じて、当該周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。
復号関連情報は、各周波数帯域の符号化方式に関連する情報である、こととしてもよい。本構成により、各周波数帯域の符号化方式に応じて、当該周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。
復号関連情報は、各周波数帯域に注入される雑音成分に関連する情報である、こととしてもよい。本構成により、各周波数帯域に注入される雑音成分に応じて、当該周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。
周波数選択的時間包絡整形部は、時間包絡を整形する周波数帯域に対応する前記復号信号を、当該復号信号を周波数領域において線形予測分析して得られた線形予測係数を用いたフィルタを用いて所望の時間包絡に整形する、こととしてもよい。本構成により、周波数領域における復号信号を用いて、少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。
周波数選択的時間包絡整形部は、時間包絡を整形しない周波数帯域に対応する前記復号信号を周波数領域において他の信号に置き換えた後、時間包絡を整形する周波数および時間包絡を整形しない周波数に対応する復号信号を、周波数領域において線形予測分析して得られた線形予測係数を用いたフィルタを用いて、周波数領域において前記時間包絡を整形する周波数および時間包絡を整形しない周波数に対応する復号信号をフィルタリング処理することで所望の時間包絡に整形し、時間包絡整形後に、前記時間包絡を整形しない周波数帯域に対応する復号信号は他の信号に置き換える前の元の信号に戻す、こととしてもよい。本構成により、より少ない演算量にて、周波数領域における復号信号を用いて、少ないビット数で符号化された周波数帯域の復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。
また、本発明の別の一側面に係る音声復号装置は、符号化された音声信号を復号して音声信号を出力する音声復号装置であって、前記符号化された音声信号を含む符号化系列を復号して復号信号を得る復号部と、前記復号信号を周波数領域において線形予測分析して得られた線形予測係数を用いたフィルタを用いて、周波数領域において前記復号信号をフィルタリング処理することで所望の時間包絡に整形する時間包絡整形部と、を備える。本構成により、周波数領域における復号信号を用いて、当該少ないビット数で符号化された復号信号の時間包絡を所望の時間包絡に整形し、品質を改善することが可能となる。
また、本発明の別の一側面に係る音声符号化装置は、入力される音声信号を符号化して符号化系列を出力する音声符号化装置であって、前記音声信号を符号化して前記音声信号を含む符号化系列を得る符号化部と、前記音声信号の時間包絡に関する情報を符号化する時間包絡情報符号化部と、前記符号化部で得られる符号化系列と、前記時間包絡情報符号化部で得られる時間包絡に関する情報の符号化系列を多重化する多重化部と、を備える。
また、本発明の一側面に係る態様は、以下の通り音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラムとして捉えることができる。
すなわち、本発明の一側面に係る音声復号方法は、符号化された音声信号を復号して音声信号を出力する音声復号装置の音声復号方法であって、前記符号化された音声信号を含む符号化系列を復号して復号信号を得る復号ステップと、前記符号化系列の復号に関する復号関連情報に基づいて、復号信号における周波数帯域の時間包絡を整形する選択的時間包絡整形ステップと、を備える。
また、本発明の一側面に係る音声復号方法は、符号化された音声信号を復号して音声信号を出力する音声復号装置の音声復号方法であって、前記符号化された音声信号を含む符号化系列と当該音声信号の時間包絡に関する時間包絡情報を分離する逆多重化ステップと、前記符号化系列を復号して復号信号を得る復号ステップと、前記時間包絡情報と前記符号化系列の復号に関する復号関連情報のうち少なくとも一つに基づいて、復号信号における周波数帯域の時間包絡を整形する選択的時間包絡整形ステップと、を備える。
また、本発明の一側面に係る音声復号プログラムは、前記符号化された音声信号を含む符号化系列を復号して復号信号を得る復号ステップと、前記符号化系列の復号に関する復号関連情報に基づいて、復号信号における周波数帯域の時間包絡を整形する選択的時間包絡整形ステップと、をコンピュータに実行させる。
また、本発明の一側面に係る音声復号方法は、符号化された音声信号を復号して音声信号を出力する音声復号装置の音声復号方法であって、前記符号化された音声信号を含む符号化系列と当該音声信号の時間包絡に関する時間包絡情報を分離する逆多重化ステップと、前記符号化系列を復号して復号信号を得る復号ステップと、前記時間包絡情報と前記符号化系列の復号に関する復号関連情報のうち少なくとも一つに基づいて、復号信号における周波数帯域の時間包絡を整形する選択的時間包絡整形ステップと、をコンピュータに実行させる。
また、本発明の一側面に係る音声復号方法は、符号化された音声信号を復号して音声信号を出力する音声復号装置の音声復号方法であって、前記符号化された音声信号を含む符号化系列を復号して復号信号を得る復号ステップと、前記復号信号を周波数領域において線形予測分析して得られた線形予測係数を用いたフィルタを用いて、周波数領域において前記復号信号をフィルタリング処理することで所望の時間包絡に整形する時間包絡整形ステップと、を備える。
また、本発明の一側面に係る音声符号化方法は、入力される音声信号を符号化して符号化系列を出力する音声符号化装置の音声符号化方法であって、前記音声信号を符号化して前記音声信号を含む符号化系列を得る符号化ステップと、前記音声信号の時間包絡に関する情報を符号化する時間包絡情報符号化ステップと、前記符号化ステップで得られる符号化系列と、前記時間包絡情報符号化ステップで得られる時間包絡に関する情報の符号化系列を多重化する多重化ステップと、を備える。
また、本発明の一側面に係る音声復号プログラムは、符号化された音声信号を含む符号化系列を復号して復号信号を得る復号ステップと、前記復号信号を周波数領域において線形予測分析して得られた線形予測係数を用いたフィルタを用いて、周波数領域において前記復号信号をフィルタリング処理することで所望の時間包絡に整形する時間包絡整形ステップと、をコンピュータに実行させる。
また、本発明の一側面に係る音声符号化プログラムは、音声信号を符号化して前記音声信号を含む符号化系列を得る符号化ステップと、前記音声信号の時間包絡に関する情報を符号化する時間包絡情報符号化ステップと、前記符号化ステップで得られる符号化系列と、前記時間包絡情報符号化ステップで得られる時間包絡に関する情報の符号化系列を多重化する多重化ステップと、コンピュータに実行させる。
10aF-1…逆量子化部、10…音声復号装置、10a…復号部、10aA…復号/逆量子化部、10aB…復号関連情報出力部、10aC…時間周波数逆変換部、10aD…符号化系列解析部、10aE…第1復号部、10aE-a…第1復号/逆量子化部、10aE-b…第1復号関連情報出力部、10aF…第2復号部、10aF-a…第2復号/逆量子化部、10aF-b…第2復号関連情報出力部、10aF-c…復号信号合成部、10b…選択的時間包絡整形部、10bA…時間周波数変換部、10bB…周波数選択部、10bC…周波数選択的時間包絡整形部、10bD…時間周波数逆変換部、11…音声復号装置、11a…逆多重化部、11b…選択的時間包絡整形部、12…音声復号装置、12a…時間包絡整形部、13…音声復号装置、13a…時間包絡整形部、21…音声符号化装置、21a…符号化部、21b…時間包絡情報符号化部、21c…多重化部。

Claims (4)

  1. 入力される音声信号を符号化して符号化系列を出力する音声符号化装置であって、
    前記音声信号を符号化して前記音声信号を含む符号化系列を得る符号化部と、
    前記音声信号の時間包絡に関する情報を取得する時間包絡情報取得部と、
    前記符号化部で得られる符号化系列と、前記時間包絡情報取得部で得られる時間包絡に関する情報を多重化する多重化部と、
    を備え、
    前記時間包絡に関する情報として、線形予測分析により算出された予測利得に基づいて前記時間包絡が平坦である情報が生成される、音声符号化装置。
  2. 前記予測利得を算出する際において、前記音声信号の一部の周波数帯域の変換係数に対して前記線形予測分析が行われる、請求項1に記載の音声符号化装置。
  3. 入力された前記音声信号は複数の周波数帯域に分割され、当該周波数帯域ごとに変換係数は線形予測分析されて得られた複数の予測利得に基づいて、前記時間包絡に関する情報は生成される、請求項2に記載の音声符号化装置。
  4. 入力される音声信号を符号化して符号化系列を出力する音声符号化装置の音声符号化方法であって、
    前記音声信号を符号化して前記音声信号を含む符号化系列を得る符号化ステップと、
    前記音声信号の時間包絡に関する情報を取得する時間包絡情報取得ステップと、
    前記符号化ステップで得られる符号化系列と、前記時間包絡情報取得ステップで得られる時間包絡に関する情報を多重化する多重化ステップと、
    を備え、
    前記時間包絡に関する情報として、線形予測分析により算出された予測利得に基づいて前記時間包絡が平坦である情報が生成される、音声符号化方法。
JP2016212827A 2016-10-31 2016-10-31 音声符号化装置および音声符号化方法 Active JP6511033B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016212827A JP6511033B2 (ja) 2016-10-31 2016-10-31 音声符号化装置および音声符号化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016212827A JP6511033B2 (ja) 2016-10-31 2016-10-31 音声符号化装置および音声符号化方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014060650A Division JP6035270B2 (ja) 2014-03-24 2014-03-24 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019072799A Division JP6691251B2 (ja) 2019-04-05 2019-04-05 音声復号装置、音声復号方法、および音声復号プログラム

Publications (2)

Publication Number Publication Date
JP2017078860A JP2017078860A (ja) 2017-04-27
JP6511033B2 true JP6511033B2 (ja) 2019-05-08

Family

ID=58665373

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016212827A Active JP6511033B2 (ja) 2016-10-31 2016-10-31 音声符号化装置および音声符号化方法

Country Status (1)

Country Link
JP (1) JP6511033B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US20100042406A1 (en) * 2002-03-04 2010-02-18 James David Johnston Audio signal processing using improved perceptual model
JP4921611B2 (ja) * 2009-04-03 2012-04-25 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置

Also Published As

Publication number Publication date
JP2017078860A (ja) 2017-04-27

Similar Documents

Publication Publication Date Title
JP6035270B2 (ja) 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
JP6691251B2 (ja) 音声復号装置、音声復号方法、および音声復号プログラム
JP6511033B2 (ja) 音声符号化装置および音声符号化方法
JP6872056B2 (ja) 音声復号装置および音声復号方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190405

R150 Certificate of patent or registration of utility model

Ref document number: 6511033

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250