JP3878254B2

JP3878254B2 - 音声圧縮符号化方法および音声圧縮符号化装置

Info

Publication number: JP3878254B2
Application number: JP25883396A
Authority: JP
Inventors: 淳山根; 博喜内山
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1996-06-21
Filing date: 1996-09-30
Publication date: 2007-02-07
Anticipated expiration: 2016-09-30
Also published as: US5943644A; JPH10111700A

Description

【０００１】
【発明の属する技術分野】
本発明は，留守番電話，音声応答システム，ボイスメール等に適用される音声圧縮符号化装置に関し，より詳細には，アナログ音声波形を入力してディジタル音声波形に変換した後，該ディジタル音声波形を所定の符号化方式で符号化することにより，データ量を圧縮する音声圧縮符号化装置に関する。
【０００２】
【従来の技術】
近年，自動車電話等の移動体通信におけるチャンネル容量の拡大や，マルチメディア通信における膨大な情報の蓄積・伝送の必要性から，実用的な低ビットレート音声符号化に対する要求が高まっている。
【０００３】
また，ファクシミリ・モデムの付加機能として，留守番電話のための音声符号化手法の開発も望まれている。
【０００４】
現在，１０ｋｂｐｓ以下の低ビットレート音声符号化方式では，ＣＥＬＰ（ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎｃｏｄｉｎｇｓｙｓｔｅｍ）方式が主流になっている。このＣＥＬＰ方式は，線形予測に基づく音声のＡＲ（Ａｕｔｏ−Ｒｅｇｒｅｓｓｉｖｅ：自己回帰）モデルに基づいた符号化方式である。
【０００５】
具体的には，符号化側において，音声をフレームまたはサブフレームと呼ばれる単位に分割し，それぞれの単位についてスペクトル包絡を表すＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｄｉｎｇ：線形予測）係数と，そのピッチ情報を表すピッチラグと，音源情報である雑音源情報と，利得とを抽出し，それぞれ符号化を行い，格納または伝送するものである。
【０００６】
また，復号側では，符号化された各情報を復元し，雑音源情報にピッチ情報を加えることによって励振源信号を生成し，この励振源信号をＬＰＣ係数で構成される線形予測合成フィルタに通し，合成音声を得るものである。
【０００７】
【発明が解決しようとする課題】
しかしながら，上記従来のＣＥＬＰ方式では，１０ｋｂｐｓの低ビットレートにおいて，良好な音声を得ることができるという利点を有する反面，それぞれのパラメータの符号化過程における演算量が多いという問題点があった。
【０００８】
特に，ピッチラグの符号化や雑音源情報の符号化については，符号化された励振源信号を線形予測合成フィルタに通した合成音声を生成し，原音声と比較する必要があるが，フィルタ演算には多くの演算を必要とするため，全ての励振源信号をフィルタに通すのは非現実的であるという問題点があった。
【０００９】
また，従来のＣＥＬＰ方式では，二次誤差信号の符号帳を持ち，符号帳に属する各符号ベクトルとスペクトル包絡とから二次誤差信号を合成し，入力信号から得られた二次誤差信号と比較し，そのひずみが最小となる符号を選択することによって符号化を行っているため，符号帳探索のための演算量および符号帳を蓄えるためのメモリ量が多くなるという問題点もあった。
【００１０】
なお，ＣＥＬＰ方式における演算量を削減する従来技術として，例えば，フィルタ演算を行って比較するのではなく，近似的に原音声との比較を行うことのできるパラメータによって絞り込むという予備選択手法が提案されている。
【００１１】
また，雑音源は，与えられたビット数に相当する雑音ベクトルを蓄えているのが一般的であり，その構成を工夫することにより，演算量を削減する方法も提案されている。具体的には，雑音ベクトルをビット数だけ持ち，それらの和や差で雑音源を表すＶＳＥＬＰ（ＶｅｃｔｏｒＳｕｍＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎｃｏｄｉｎｇ）方式がその一例である。
【００１２】
ところが，実用的な低ビットレート音声符号化に対する要求から，上記従来のＣＥＬＰ方式における演算量を削減する方法（予備選択手法，ＶＳＥＬＰ方式等）の他にも，それらとは異なる方法で演算量を削減可能なものが要望されている。
【００１３】
本発明は上記に鑑みてなされたものであって，ＣＥＬＰ方式の符号化の過程において，演算量を削減すると共に，メモリ量の低減を図れる音声圧縮符号化方法および音声圧縮符号化装置を提供することを目的とする。
【００１４】
【課題を解決するための手段】
上記の目的を達成するために，請求項１に係る音声圧縮符号化方法は，アナログ音声波形を入力してディジタル音声波形に変換する第１の工程と，前記ディジタル音声波形を所定の符号化方式で符号化する第２の工程と，前記符号化された音声波形を蓄積する第３の工程と，前記蓄積されたディジタル音声波形を取り出して復号化する第４の工程と，前記復号化されたディジタル音声波形をアナログ音声波形に変換する第５の工程と，を有する音声圧縮符号化方法において，前記第２の工程が，前記ディジタル音声波形をフレームまたはサブフレームと呼ばれる単位に分割するフレーム分割工程と，前記分割したフレームまたはサブフレームの単位のそれぞれについて，スペクトル包絡を表すスペクトル包絡情報，ピッチ情報および音源情報である雑音源情報を抽出し，符号化する抽出・符号化工程と，を含み，前記第４の工程が，符号化された前記スペクトル包絡情報，ピッチ情報および雑音源情報を復元する復元工程と，前記復元した雑音源情報およびピッチ情報から励振源信号を生成する励振源信号生成工程と，前記励振源信号と前記復元したスペクトル包絡情報から合成音声を生成する合成音声生成工程と，を含み，さらに，前記抽出・符号化工程が，前記雑音源情報を抽出・符号化する際に，前記フレームまたはサブフレームから前記ピッチ情報および前記スペクトル包絡情報から生成されるピッチ成分音声を除いた成分である二次誤差信号を抽出し，前記二次誤差信号の強度最大のものからあらかじめ定められた数のサンプル位置を選定し，前記選定されたサンプル位置および前記選定されたサンプル位置の強度を符号化することによって前記雑音源情報の抽出・符号化を行うものである。
【００１５】
また，請求項２に係る音声圧縮符号化方法は，アナログ音声波形を入力してディジタル音声波形に変換する第１の工程と，前記ディジタル音声波形を所定の符号化方式で符号化する第２の工程と，前記符号化された音声波形を蓄積する第３の工程と，前記蓄積されたディジタル音声波形を取り出して復号化する第４の工程と，前記復号化されたディジタル音声波形をアナログ音声波形に変換する第５の工程と，を有する音声圧縮符号化方法において，前記第２の工程が，前記ディジタル音声波形をフレームまたはサブフレームと呼ばれる単位に分割するフレーム分割工程と，前記分割したフレームまたはサブフレームの単位のそれぞれについて，スペクトル包絡を表すスペクトル包絡情報，ピッチ情報および音源情報である雑音源情報を抽出し，符号化する抽出・符号化工程と，を含み，前記第４の工程が，符号化された前記スペクトル包絡情報，ピッチ情報および雑音源情報を復元する復元工程と，前記復元した雑音源情報およびピッチ情報から励振源信号を生成する励振源信号生成工程と，前記励振源信号と前記復元したスペクトル包絡情報から合成音声を生成する合成音声生成工程と，を含み，さらに，前記抽出・符号化工程が，前記雑音源情報を抽出・符号化する際に，前記フレームまたはサブフレームから前記ピッチ情報および前記スペクトル包絡情報から生成されるピッチ成分音声を除いた成分である二次誤差信号を抽出し，前記二次誤差信号を周波数領域に変換した後，前記周波数領域におけるスペクトル強度最大のものからあらかじめ定められた数の周波数を選定し，前記選定された周波数および前記選定された周波数のスペクトル係数を符号化することによって，前記二次誤差信号の符号とするものである。
【００１６】
また，請求項３に係る音声圧縮符号化方法は，アナログ音声波形を入力してディジタル音声波形に変換する第１の工程と，前記ディジタル音声波形を所定の符号化方式で符号化する第２の工程と，前記符号化された音声波形を蓄積する第３の工程と，前記蓄積されたディジタル音声波形を取り出して復号化する第４の工程と，前記復号化されたディジタル音声波形をアナログ音声波形に変換する第５の工程と，を有する音声圧縮符号化方法において，前記第２の工程が，前記ディジタル音声波形をフレームまたはサブフレームと呼ばれる単位に分割するフレーム分割工程と，前記分割したフレームまたはサブフレームの単位のそれぞれについて，スペクトル包絡を表すスペクトル包絡情報，ピッチ情報および音源情報である雑音源情報を抽出し，符号化する抽出・符号化工程と，を含み，前記第４の工程が，符号化された前記スペクトル包絡情報，ピッチ情報および雑音源情報を復元する復元工程と，前記復元した雑音源情報およびピッチ情報から励振源信号を生成する励振源信号生成工程と，前記励振源信号と前記復元したスペクトル包絡情報から合成音声を生成する合成音声生成工程と，を含み，さらに，前記抽出・符号化工程が，前記雑音源情報を抽出・符号化する際に，前記フレームまたはサブフレームから前記ピッチ情報および前記スペクトル包絡情報から生成されるピッチ成分音声を除いた成分である二次誤差信号を抽出し，前記二次誤差信号の強度最大のものからあらかじめ定められた数のサンプル位置を選定し，前記選定されたサンプル位置および前記選定されたサンプル位置の振幅を符号化したものと，前記二次誤差信号を周波数領域に変換した後，前記二次誤差信号の周波数領域におけるスペクトル強度最大のものからあらかじめ定められた周波数を選定し，前記選定された周波数および前記選定された周波数のスペクトル係数を符号化したものと，によって前記二次誤差信号の符号とするものである。
【００１７】
また，請求項４に係る音声圧縮符号化方法は，アナログ音声波形を入力してディジタル音声波形に変換する第１の工程と，前記ディジタル音声波形を所定の符号化方式で符号化する第２の工程と，前記符号化された音声波形を蓄積する第３の工程と，前記蓄積されたディジタル音声波形を取り出して復号化する第４の工程と，前記復号化されたディジタル音声波形をアナログ音声波形に変換する第５の工程と，を有する音声圧縮符号化方法において，前記第２の工程が，前記ディジタル音声波形をフレームまたはサブフレームと呼ばれる単位に分割するフレーム分割工程と，前記分割したフレームまたはサブフレームの単位のそれぞれについて，スペクトル包絡を表すスペクトル包絡情報，ピッチ情報および音源情報である雑音源情報を抽出し，符号化する抽出・符号化工程と，を含み，前記第４の工程が，符号化された前記スペクトル包絡情報，ピッチ情報および雑音源情報を復元する復元工程と，前記復元した雑音源情報およびピッチ情報から励振源信号を生成する励振源信号生成工程と，前記励振源信号と前記復元したスペクトル包絡情報から合成音声を生成する合成音声生成工程と，を含み，さらに，前記抽出・符号化工程が，前記雑音源情報を抽出・符号化する際に，前記フレームまたはサブフレームから前記ピッチ情報および前記スペクトル包絡情報から生成されるピッチ成分音声を除いた成分である二次誤差信号を抽出し，前記二次誤差信号の強度最大のものから幾つかのサンプル位置を選定し，前記選定されたサンプル位置および前記選定されたサンプル位置の振幅を符号化したものと，前記二次誤差信号を周波数領域に変換した後，前記二次誤差信号の周波数領域におけるスペクトル強度最大のものから幾つかの周波数を選定し，前記選定された周波数および前記選定された周波数のスペクトル係数を符号化したものと，を用い，さらに選定数の合計数をあらかじめ定めた数にし，復号音声のひずみが最も小さくなるように組み合わせを選択することによって，前記二次誤差信号の符号とするものである。
【００１８】
また，請求項５に係る音声圧縮符号化方法は，請求項２乃至４のいずれか一つに記載の音声圧縮符号化方法において，前記抽出・符号化工程が，前記二次誤差信号を周波数領域に変換する際に，離散コサイン変換を用いるものである。
【００１９】
また，請求項６に係る音声圧縮符号化方法は，請求項２乃至４のいずれか一つに記載の音声圧縮符号化方法において，前記抽出・符号化工程が，前記二次誤差信号を周波数領域に変換する際に，離散フーリエ変換を用いるものである。
【００２０】
また，請求項７に係る音声圧縮符号化方法は，請求項２乃至４のいずれか一つに記載の音声圧縮符号化方法において，前記抽出・符号化工程が，前記二次誤差信号を周波数領域に変換する際に，Ｋ−Ｌ（Ｋａｒｈｕｎｅｎ−Ｌｏｅｖｅ）変換を用いるものである。
【００２４】
また，請求項８に係る音声圧縮符号化方法は，請求項２乃至４のいずれか一つに記載の音声圧縮符号化方法において，前記第４の工程が，前記符号化後の二次誤差信号である雑音源情報を時間軸に戻した量子化二次誤差信号に乱数を加える工程を含むものである。
【００２５】
また，請求項９に係る音声圧縮符号化装置は，アナログ音声波形を入力してディジタル音声波形に変換するＡ／Ｄ変換手段と，前記ディジタル音声波形を所定の符号化方式で符号化する音声符号化手段と，前記符号化された音声波形を蓄積する蓄積手段と，前記蓄積手段から前記符号化されたディジタル音声波形を取り出して復号化する音声復号化手段と，前記復号化されたディジタル音声波形をアナログ音声波形に変換するＤ／Ａ変換手段と，を備えた音声圧縮符号化装置において，前記音声符号化手段が，前記ディジタル音声波形をフレームまたはサブフレームと呼ばれる単位に分割するフレーム分割手段と，前記分割したフレームまたはサブフレームの単位のそれぞれについて，スペクトル包絡を表すスペクトル包絡情報，ピッチ情報および音源情報である雑音源情報を抽出し，符号化する抽出・符号化手段と，を含み，前記音声復号化手段が，符号化された前記スペクトル包絡情報，ピッチ情報および雑音源情報を復元する復元手段と，前記復元した雑音源情報およびピッチ情報から励振源信号を生成する励振源信号生成手段と，前記励振源信号と前記復元したスペクトル包絡情報から合成音声を生成する合成音声生成手段と，を含み，さらに，前記抽出・符号化手段が，前記雑音源情報を抽出・符号化する際に，前記フレームまたはサブフレームから前記ピッチ情報および前記スペクトル包絡情報から生成されるピッチ成分音声を除いた成分である二次誤差信号を抽出し，前記二次誤差信号の強度最大のものからあらかじめ定められた数のサンプル位置を選定し，前記選定されたサンプル位置および前記選定されたサンプル位置の強度を符号化することによって前記雑音源情報の抽出・符号化を行うものである。
【００２６】
また，請求項１０に係る音声圧縮符号化装置は，アナログ音声波形を入力してディジタル音声波形に変換するＡ／Ｄ変換手段と，前記ディジタル音声波形を所定の符号化方式で符号化する音声符号化手段と，前記符号化された音声波形を蓄積する蓄積手段と，前記蓄積手段から前記符号化されたディジタル音声波形を取り出して復号化する音声復号化手段と，前記復号化されたディジタル音声波形をアナログ音声波形に変換するＤ／Ａ変換手段と，を備えた音声圧縮符号化装置において，前記音声符号化手段が，前記ディジタル音声波形をフレームまたはサブフレームと呼ばれる単位に分割するフレーム分割手段と，前記分割したフレームまたはサブフレームの単位のそれぞれについて，スペクトル包絡を表すスペクトル包絡情報，ピッチ情報および音源情報である雑音源情報を抽出し，符号化する抽出・符号化手段と，を含み，前記音声復号化手段が，符号化された前記スペクトル包絡情報，ピッチ情報および雑音源情報を復元する復元手段と，前記復元した雑音源情報およびピッチ情報から励振源信号を生成する励振源信号生成手段と，前記励振源信号と前記復元したスペクトル包絡情報から合成音声を生成する合成音声生成手段と，を含み，さらに，前記抽出・符号化手段が，前記雑音源情報を抽出・符号化する際に，前記フレームまたはサブフレームから前記ピッチ情報および前記スペクトル包絡情報から生成されるピッチ成分音声を除いた成分である二次誤差信号を抽出し，前記二次誤差信号を周波数領域に変換した後，前記周波数領域におけるスペクトル強度最大のものからあらかじめ定められた数の周波数を選定し，前記選定された周波数および前記選定された周波数のスペクトル係数を符号化することによって，前記二次誤差信号の符号とするものである。
【００２７】
また，請求項１１に係る音声圧縮符号化装置は，アナログ音声波形を入力してディジタル音声波形に変換するＡ／Ｄ変換手段と，前記ディジタル音声波形を所定の符号化方式で符号化する音声符号化手段と，前記符号化された音声波形を蓄積する蓄積手段と，前記蓄積手段から前記符号化されたディジタル音声波形を取り出して復号化する音声復号化手段と，前記復号化されたディジタル音声波形をアナログ音声波形に変換するＤ／Ａ変換手段と，を備えた音声圧縮符号化装置において，前記音声符号化手段が，前記ディジタル音声波形をフレームまたはサブフレームと呼ばれる単位に分割するフレーム分割手段と，前記分割したフレームまたはサブフレームの単位のそれぞれについて，スペクトル包絡を表すスペクトル包絡情報，ピッチ情報および音源情報である雑音源情報を抽出し，符号化する抽出・符号化手段と，を含み，前記音声復号化手段が，符号化された前記スペクトル包絡情報，ピッチ情報および雑音源情報を復元する復元手段と，前記復元した雑音源情報およびピッチ情報から励振源信号を生成する励振源信号生成手段と，前記励振源信号と前記復元したスペクトル包絡情報から合成音声を生成する合成音声生成手段と，を含み，さらに，前記抽出・符号化手段が，前記雑音源情報を抽出・符号化する際に，前記フレームまたはサブフレームから前記ピッチ情報および前記スペクトル包絡情報から生成されるピッチ成分音声を除いた成分である二次誤差信号を抽出し，前記二次誤差信号の強度最大のものからあらかじめ定められた数のサンプル位置を選定し，前記選定されたサンプル位置および前記選定されたサンプル位置の振幅を符号化したものと，前記二次誤差信号を周波数領域に変換した後，前記二次誤差信号の周波数領域におけるスペクトル強度最大のものからあらかじめ定められた周波数を選定し，前記選定された周波数および前記選定された周波数のスペクトル係数を符号化したものと，によって前記二次誤差信号の符号とするものである。
【００２８】
また，請求項１２に係る音声圧縮符号化装置は，アナログ音声波形を入力してディジタル音声波形に変換するＡ／Ｄ変換手段と，前記ディジタル音声波形を所定の符号化方式で符号化する音声符号化手段と，前記符号化された音声波形を蓄積する蓄積手段と，前記蓄積手段から前記符号化されたディジタル音声波形を取り出して復号化する音声復号化手段と，前記復号化されたディジタル音声波形をアナログ音声波形に変換するＤ／Ａ変換手段と，を備えた音声圧縮符号化装置において，前記音声符号化手段が，前記ディジタル音声波形をフレームまたはサブフレームと呼ばれる単位に分割するフレーム分割手段と，前記分割したフレームまたはサブフレームの単位のそれぞれについて，スペクトル包絡を表すスペクトル包絡情報，ピッチ情報および音源情報である雑音源情報を抽出し，符号化する抽出・符号化手段と，を含み，前記音声復号化手段が，符号化された前記スペクトル包絡情報，ピッチ情報および雑音源情報を復元する復元手段と，前記復元した雑音源情報およびピッチ情報から励振源信号を生成する励振源信号生成手段と，前記励振源信号と前記復元したスペクトル包絡情報から合成音声を生成する合成音声生成手段と，を含み，さらに，前記抽出・符号化手段が，前記雑音源情報を抽出・符号化する際に，前記フレームまたはサブフレームから前記ピッチ情報および前記スペクトル包絡情報から生成されるピッチ成分音声を除いた成分である二次誤差信号を抽出し，前記二次誤差信号の強度最大のものから幾つかのサンプル位置を選定し，前記選定されたサンプル位置および前記選定されたサンプル位置の振幅を符号化したものと，前記二次誤差信号を周波数領域に変換した後，前記二次誤差信号の周波数領域におけるスペクトル強度最大のものから幾つかの周波数を選定し，前記選定された周波数および前記選定された周波数のスペクトル係数を符号化したものと，を用い，さらに選定数の合計数をあらかじめ定めた数にし，復号音声のひずみが最も小さくなるように組み合わせを選択することによって，前記二次誤差信号の符号とするものである。
【００２９】
また，請求項１３に係る音声圧縮符号化装置は，請求項１０乃至１２のいずれか一つに記載の音声圧縮符号化装置において，前記抽出・符号化手段が，前記二次誤差信号を周波数領域に変換する際に，離散コサイン変換を用いるものである。
【００３０】
また，請求項１４に係る音声圧縮符号化装置は，請求項１０乃至１２のいずれか一つに記載の音声圧縮符号化装置において，前記抽出・符号化手段が，前記二次誤差信号を周波数領域に変換する際に，離散フーリエ変換を用いるものである。
【００３１】
また，請求項１５に係る音声圧縮符号化装置は，請求項１０乃至１２のいずれか一つに記載の音声圧縮符号化装置において，前記抽出・符号化手段が，前記二次誤差信号を周波数領域に変換する際に，Ｋ−Ｌ（Ｋａｒｈｕｎｅｎ−Ｌｏｅｖｅ）変換を用いるものである。
【００３５】
また，請求項１６に係る音声圧縮符号化装置は，請求項１０乃至１２のいずれか一つに記載の音声圧縮符号化装置において，前記音声復号化手段が，前記符号化後の二次誤差信号である雑音源情報を時間軸に戻した量子化二次誤差信号に乱数を加えるものである。
【００３６】
【発明の実施の形態】
以下，本発明の音声圧縮符号化方法および音声圧縮符号化装置について，〔実施の形態１〕，〔実施の形態２〕，〔実施の形態３〕，〔実施の形態４〕，〔実施の形態５〕，〔実施の形態６〕の順で，図面を参照して詳細に説明する。
【００３７】
〔実施の形態１〕
図１は，実施の形態１の音声圧縮符号化装置１００の概略構成図を示す。音声圧縮符号化装置１００は，アナログ信号（アナログ音声波形）を入力してディジタル信号（ディジタル音声波形）に変換するＡ／Ｄ変換手段としてのＡ／Ｄ変換部１０１と，Ａ／Ｄ変換部１０１からディジタル信号を入力して，圧縮符号化する音声符号化手段としての音声符号化部１０２と，圧縮符号化された圧縮符号化信号を蓄積する蓄積手段としての蓄積部１０３と，圧縮符号化信号を伸長復号する音声復号化手段としての音声復号化部１０４と，復号化されたディジタル信号をアナログ信号に変換するＤ／Ａ変換手段としてのＤ／Ａ変換部１０５と，から構成される。
【００３８】
図２は，音声符号化部１０２のブロック構成図を示し，入力したディジタル信号をあらかじめ定められたサンプル数のフレーム単位に分割し，フレーム信号を出力するフレーム分割器２０１と，フレーム分割器２０１で分割したフレーム（フレーム信号）から，フレーム単位でスペクトル包絡を表すスペクトル包絡情報を抽出して符号化するスペクトル包絡抽出器２０２と，フレーム分割器２０１で分割したフレームをさらにあらかじめ定められたサンプル数のサブフレーム単位に分割し，サブフレーム信号を出力するサブフレーム分割器２０３と，スペクトル包絡抽出器２０２で抽出したスペクトル包絡情報を用いて，サブフレーム分割器２０３で分割したサブフレームからピッチ情報を抽出して符号化するピッチ情報抽出器２０４と，ピッチ情報とサブフレーム信号とを入力し，二次誤差信号を算出する二次誤差信号算出器２０５と，二次誤差信号とスペクトル包絡情報とから音源情報である雑音源情報を抽出して符号化する雑音源抽出器２０６と，から構成される。
【００３９】
以上の構成において，その動作を説明する。図１において，アナログ音声入力装置（図示せず）から入力されたアナログ信号（アナログ音声波形）はＡ／Ｄ変換部１０１によってディジタル信号に変換される。ここで，アナログ音声入力装置としては，例えば，マイクロフォンや，ＣＤプレーヤ，カセットデッキ等が挙げられる。
【００４０】
続いて，ディジタル信号は，音声符号化部１０２に送られ，図２に示すように，フレーム分割器２０１によってあらかじめ定められたサンプル数（例えば，２４０サンプル）のフレームと呼ばれる単位に分割される。このフレームはフレーム信号としてスペクトル包絡抽出器２０２およびサブフレーム分割器２０３に出力される。
【００４１】
スペクトル包絡抽出器２０２は，該フレーム信号からスペクトル包絡情報を抽出して符号化し，ピッチ情報抽出器２０４および二次誤差信号算出器２０５へ出力する。スペクトル包絡情報としては，例えば，線形予測分析に基づく線形予測係数，ＰＡＲＣＯＲ係数，ＬＳＰ係数等が挙げられる。またスペクトル包絡情報の符号化には，ベクトル量子化や，スカラー量子化，分割ベクトル量子化，多段ベクトル量子化，予測量子化，あるいはそれらの複数の量子化の組み合わせが挙げられる。
【００４２】
一方，サブフレーム分割器２０３は，フレーム分割器２０１からフレーム信号を入力し，該フレーム信号をあらかじめ定められたサンプル数（例えば，６０サンプル）に分割し，サブフレーム信号として出力する。
【００４３】
各サブフレームは，ピッチ情報抽出器２０４において，スペクトル包絡抽出器２０２によって抽出されたスペクトル包絡情報を用いて，ピッチ情報が抽出され，符号化される。ピッチ情報抽出には，ＣＥＬＰ方式で用いられる適応符号帳探索，あるいはフーリエ変換，ウェーブレット変換等のスペクトル包絡情報から求める方法が適用できる。また，上記適応符号帳探索には，聴覚重みづけフィルタを用いる場合もある。なお，聴覚重みづけフィルタは，前述した線形予測係数から構成することができる。
【００４４】
二次誤差信号算出器２０５では，サブフレーム信号から，ピッチ情報抽出器２０４で抽出したピッチ成分（ピッチ情報）の影響を取り除いた成分（これを二次誤差信号と呼ぶ）を算出し，雑音源抽出器２０６へ出力する。
【００４５】
雑音源抽出器２０６においては，二次誤差信号を入力すると，この二次誤差信号を直接符号化し，符号化した二次誤差信号（量子化二次誤差信号と呼ぶ）を雑音源情報として出力する。ここで，雑音源抽出器２０６で二次誤差信号を符号化する方法としては，二次誤差信号の強度最大のものからあらかじめ定められた数のサンプル位置を選定し，選定されたサンプル位置および選定されたサンプル位置の強度を符号化することによって，二次誤差信号を符号化する方法を適用する。これによって比較的演算量を少なくすることができる。
【００４６】
なお，本発明に用いている音声符号化方法は，ＣＥＬＰ音声符号化に属する符号化方法である。従来のＣＥＬＰ方式では，二次誤差信号の符号帳を持ち，符号帳に属する各符号ベクトルとスペクトル包絡情報とから二次誤差信号を合成し，入力信号から得られた二次誤差信号と比較し，そのひずみが最小となる符号を選択することによって符号化を行っている。因みに，この探索においては聴覚重みづけフィルタを用いることができる。
【００４７】
ところが，ＣＥＬＰ方式は，低ビットレートで高品質の音声圧縮符号化技術であるものの，符号帳探索のための演算量および符号帳を蓄えるためのメモリ量の多さが問題となっている。これに対して，実施の形態１では，二次誤差信号そのものを符号化するため，演算量を削減でき，また符号帳を記憶する必要がないため，低メモリ量のＣＥＬＰ方式を提供することができる。
【００４８】
このようにして音声符号化部１０２は，ディジタル信号からスペクトル包絡情報，ピッチ情報および雑音源情報を抽出して符号化し，これらを量子化信号として出力する。これらの量子化信号は，圧縮符号化信号として蓄積部１０３によって蓄積される。
【００４９】
このようにして蓄積部１０３に蓄積された圧縮符号化信号（量子化信号）は，必要に応じて，音声復号化部１０４によって読み出されて復号化（復元）され，Ｄ／Ａ変換部１０５でアナログ信号（アナログ音声波形）に変換される。
【００５０】
このとき，音声復号化部１０４は，符号化されたスペクトル包絡情報，ピッチ情報および雑音源情報を復元し，復元した雑音源情報およびピッチ情報から励振源信号を生成し，該励振源信号と復元したスペクトル包絡情報から復号音声（合成音声）を生成して，Ｄ／Ａ変換部１０５に出力する。
【００５１】
前述したように実施の形態１によれば，符号帳を持たないため，符号帳に必要なメモリ量が削減でき，さらにフィルタ計算を用いた符号帳探索を行わないため，演算量が削減できる。
【００５２】
〔実施の形態２〕
実施の形態２の音声圧縮符号化装置は，二次誤差信号を符号化する際に，二次誤差信号を周波数領域に変換した後，変換領域における係数を符号化することにより，二次誤差信号の符号化とするものである。
【００５３】
実施の形態２における周波数領域の係数としては，例えば，離散コサイン変換，離散フーリエ変換，Ｋ−Ｌ（Ｋａｒｈｕｎｅｎ−Ｌｏｅｖｅ）変換を用いることができる。周波数領域は，少ないパラメータで音声信号の特徴を表すことができるため，多くの音声処理に用いられている。また，周波数領域への変換は，例えば，ＦＦＴ（高速フーリエ変換）を用いる等のように低演算量で変換可能なものが知られている。したがって，二次誤差信号を周波数領域に変換し，変換係数を符号化することにより，演算量を大幅に削減することが可能である。
【００５４】
図３は，実施の形態２の雑音源抽出器３０１の概略ブロック図を示す。なお，基本的な構成および動作は，図１および図２で示した実施の形態１の音声圧縮符号化装置と同様に付き，ここでは異なる部分のみを説明する。
【００５５】
雑音源抽出器３０１は，図示の如く，二次誤差信号算出器２０５から入力した二次誤差信号を離散コサイン変換によって周波数領域に変換する離散コサイン変換器３０２と，離散コサイン変換器３０２から周波数領域の係数（ＤＣＴ係数）を入力し，該係数を符号化する係数符号化器３０３と，から構成される。
【００５６】
なお，係数符号化器３０３は，変換領域における係数（周波数領域の係数）を符号化する際に，二次誤差信号の周波数領域におけるスペクトル強度最大のものからあらかじめ定められた数（例えば，２）の周波数を選定し，選定された周波数を符号化すると共に，その周波数のスペクトル係数（強度）も量子化強度として符号化する。符号化（量子化）の方法としては，例えば，振幅を対数変換し，その大きさ（強度）に対応させてあらかじめ設定した範囲に相当する符号を与える。この場合，選択された周波数に与えられた番号，強度の属する範囲に与えられた符号である量子化強度，および係数の符号（＋／−）が二次誤差信号に対応する符号（すなわち，雑音源情報）となる。
【００５７】
このようにして生成された雑音源情報は，実施の形態１と同様に蓄積部１０３に蓄積される。
【００５８】
一方，実施の形態２の音声復号化部１０４は，蓄積部１０３から雑音源情報として，周波数に与えられた番号，量子化強度および係数の符号（＋／−）を入力し，これらの雑音源情報から二次誤差信号を復元する必要があるため，離散コサイン係数を復元する構成および離散コサイン係数から二次誤差信号を復元する構成を追加する必要がある。
【００５９】
図４は，実施の形態２の音声復号化部１０４の一部構成を示し，図示の如く，符号化された係数を入力して元の係数に復元する係数復元器４０１と，復元した係数を周波数領域から時間領域に戻す逆離散コサイン変換器４０２とを備えている。音声復号化部１０４では，蓄積部１０３から雑音源情報を入力すると，係数復元器４０１においてこれらの符号から各係数を復元し，さらに逆離散コサイン変換器４０２によって周波数領域から時間領域に戻し，量子化二次誤差信号として復元する。なお，符号化側で，ピッチ情報抽出に適応符号帳探索を用いる場合には，符号から各係数を復元し，時間領域に戻し，さらにスペクトル包絡情報を用いた線形予測逆フィルタ（図示せず）で残差領域に変換することにより，通常のＣＥＬＰにおける雑音符号ベクトルとして用いることも可能である。
【００６０】
前述したように実施の形態２によれば，実施の形態１の効果に加えて，音声波形の特徴である周波数特徴を符号化するので，少ないビット数で二次誤差信号を符号化することができる。また，離散コサイン変換は高速フーリエ変換によって高速かつ低演算量で実現することが可能であるので，さらに低演算量の符号化が可能となる。
【００６１】
また，変換領域における係数を符号化する際に，二次誤差信号の周波数領域におけるスペクトル強度最大のものからあらかじめ定められた数の周波数を選定し，選定された周波数および選定された周波数のスペクトル係数を符号化することによって，二次誤差信号を符号化しているので，低演算量で二次誤差信号の符号化を行うことができる。
【００６２】
なお，実施の形態２では，周波数領域の変換方法として，離散コサイン変換を用いたが，離散フーリエ変換またはＫ−Ｌ（Ｋａｒｈｕｎｅｎ−Ｌｏｅｖｅ）変換を用いても良く，同様に少ないビット数で二次誤差信号を符号化することができる。
【００６３】
〔実施の形態３〕
実施の形態３の音声圧縮符号化装置は，二次誤差信号を符号化する際に，二次誤差信号の強度最大のものから幾つかのサンプル位置を選定し，選定されたサンプル位置および選定されたサンプル位置の振幅を符号化したものと，二次誤差信号の周波数領域におけるスペクトル強度最大のものから幾つかの周波数を選定し，選定された周波数および選定された周波数のスペクトル係数を符号化したものとによって，二次誤差信号を符号化するものである。
【００６４】
図５は，実施の形態３の雑音源抽出器５０１の概略ブロック図を示す。なお，基本的な構成および動作は，図１および図２で示した実施の形態１の音声圧縮符号化装置と同様に付き，ここでは異なる部分のみを説明する。
【００６５】
雑音源抽出器５０１は，図示の如く，二次誤差信号を入力し，二次誤差信号の強度最大のものからＮ１個のサンプルを選択し，その位置および強度を符号化する係数符号化器５０２ａを有した時間領域符号化器５０２と，二次誤差信号を入力し，周波数領域変換器５０３ａで二次誤差信号を周波数領域に変換し，係数符号化器５０３ｂで周波数の強度最大のものからＮ２個の周波数を選択し，その周波数のスペクトル係数を符号化する周波数領域符号化器５０３と，時間領域符号化器５０２および周波数領域符号化器５０３から送られてきたＮ１＋Ｎ２個の符号のうち，時間領域からＭ１個，周波数領域からＭ２個を，Ｍ１とＭ２との和があらかじめ定めたＭ個となるように選択する係数選択器５０４と，から構成される。
【００６６】
以上の構成において，時間領域符号化器５０２において，二次誤差信号の最大強度のものからＮ１個のサンプルを選択し，その位置およびその強度を符号化し，係数選択器５０４へ送る。
【００６７】
また，周波数領域符号化器５０３において，先ず，二次誤差信号を周波数領域に変換し，強度再度のものからＮ２個の周波数を選択し，その周波数およびスペクトル係数を符号化し，係数選択器５０４へ送る。
【００６８】
係数選択器５０４では，時間領域符号化器５０２および周波数領域符号化器５０３から送られてきたＮ１＋Ｎ２個の符号のうち，時間領域からＭ１個，周波数領域からＭ２個を，Ｍ１とＭ２との和があらかじめ定めたＭ個となるように選択し，選択結果を二次誤差信号の符号化したデータ（雑音源情報）として出力する。
【００６９】
前述したように実施の形態３によれば，時間領域の特徴と周波数領域の特徴との双方を組み合わせて符号化するため，実施の形態１または実施の形態２と比較して，同ビットレートで高音質の復号音声を得ることができる。
【００７０】
〔実施の形態４〕
実施の形態４の音声圧縮符号化装置は，実施の形態３の音声圧縮符号化装置と同様の構成において，二次誤差信号の強度最大のものからあらかじめ定められた数のサンプル位置を選定し，選定されたサンプル位置および選定されたサンプル位置の振幅を符号化したものと，二次誤差信号の周波数領域におけるスペクトル強度最大のものからあらかじめ定められた周波数を選定し，選定された周波数および選定された周波数のスペクトル係数を符号化したものとによって，二次誤差信号を符号化するものである。
【００７１】
具体的には，図５に示した実施の形態３の雑音源抽出器５０１において，時間領域符号化器５０２で選択するサンプル数Ｎ１と周波数領域符号化器５０３で選択するサンプル数Ｎ２とを固定し，かつ，Ｍ＝Ｎ１＋Ｎ２に設定した場合に相当する。
【００７２】
実施の形態４によれば，実施の形態３と同様に時間領域の特徴と周波数領域の特徴との双方を組み合わせて符号化するため，実施の形態１または実施の形態２と比較して，同ビットレートで高音質の復号音声を得ることができる。
【００７３】
〔実施の形態５〕
実施の形態５の音声圧縮符号化装置は，実施の形態３の音声圧縮符号化装置と同様の構成において，二次誤差信号の強度最大のものから幾つかのサンプル位置を選定し，選定されたサンプル位置および選定されたサンプル位置の振幅を符号化したものと，二次誤差信号の周波数領域におけるスペクトル強度最大のものから幾つかの周波数を選定し，選定された周波数および選定された周波数のスペクトル係数を符号化したものとを用い，さらに選定数の合計数をあらかじめ定めた数にし，復号音声のひずみが最も小さくなるように組み合わせを選択することによって，二次誤差信号を符号化するものである。換言すれば，復号音声のひずみが最小となるように時間領域の係数および周波数領域の係数の数を調整するものである。
【００７４】
具体的には，図５に示した実施の形態３の雑音源抽出器５０１において，係数選択器５０４で，サンプル数Ｍ１，Ｍ２の組み合わせてとして考えられる全ての組み合わせについて，入力音声とのひずみを算出し，そのひずみが最も小さくなるＭ１とＭ２とを選択し，その値に相当する符号を用いて二次誤差信号の符号とする。なお，この場合にはＭ１とＭ２の組み合わせを表現するための情報の符号化する必要があるが，例えば，Ｍが２とか，３といった値の場合，サブフレーム当たり２ビット程度の増加で良い。
【００７５】
実施の形態５によれば，実施の形態３と同様に時間領域の特徴と周波数領域の特徴との双方を組み合わせて符号化するため，実施の形態１または実施の形態２と比較して，同ビットレートで高音質の復号音声を得ることができる。
【００７６】
また，実施の形態３と比較した場合でも，復号音声のひずみが最小となるように時間領域の係数および周波数領域の係数の数を調整するので，ビットレートを増やすことなく，さらに高音質の復号音声を得ることができる。
【００７７】
〔実施の形態６〕
実施の形態６の音声圧縮符号化装置は，実施の形態２と同様に，二次誤差信号を符号化する際に，二次誤差信号を周波数領域に変換した後，変換領域における係数を符号化することにより，二次誤差信号の符号化とすることに加えて，さらに，雑音源情報を復元する際に，復号側（本発明の音声復号化手段）で，雑音源情報（符号化後の二次誤差信号）を時間軸に戻した量子化二次誤差信号とした後，乱数を加えるものである。なお，基本的な構成および動作は，実施の形態２の音声圧縮符号化装置と同様に付き，ここでは異なる部分のみを説明する。
【００７８】
図６は，実施の形態６の音声復号化部１０４の一部構成を示し，図示の如く，符号化された係数を入力して元の係数に復元する係数復元器６０１と，復元した係数を周波数領域から時間領域に戻す逆離散コサイン変換器６０２と，量子化二次誤差信号に乱数を加えるための白色雑音付加器６０３と，を備えている。なお，ここでは，白色雑音を加えることによって乱数を与える例を示すが，特にこれに限定するものではなく，他の方法であっても良い。
【００７９】
以上の構成において，その動作を説明する。音声復号化部１０４では，蓄積部１０３から雑音源情報を入力すると，係数復元器６０１においてこれらの符号から各係数を復元し，さらに逆離散コサイン変換器６０２によって周波数領域から時間領域に戻し，量子化二次誤差信号に復元する。続いて，白色雑音付加器６０３で，量子化二次誤差信号に白色雑音を与えることにより乱数を加え，雑音付加量子化二次誤差信号として出力する。
【００８０】
符号側（音声符号化部１０２）において，二次誤差信号を符号化する際に，二次誤差信号を周波数領域に変換した後，強度が最大のものだけを残して符号化した場合でも，それ以外のスペクトル成分が含まれることが多い。したがって，実施の形態６に示すように，復元側（音声復号化部１０４）で，量子化二次誤差信号に乱数を加えることにより，実施の形態１〜実施の形態５と比較して，より自然な復号音声を得ることができるようになる。
【００８１】
〔参考例１〕
参考例１の音声圧縮符号化装置は，実施の形態２と同様に，二次誤差信号を符号化する際に，二次誤差信号を周波数領域に変換した後，変換領域における係数を符号化することにより，二次誤差信号の符号化とすることに加えて，さらに，雑音源情報を復元する際に，復号側（本発明の音声復号化手段）で，雑音源情報（符号化後の二次誤差信号）を時間軸に戻した量子化二次誤差信号とした後，１／ｆゆらぎを加えるものである。なお，基本的な構成および動作は，実施の形態２の音声圧縮符号化装置と同様に付き，ここでは異なる部分のみを説明する。
【００８２】
図７は，参考例１の音声復号化部１０４の一部構成を示し，図示の如く，符号化された係数を入力して元の係数に復元する係数復元器７０１と，復元した係数を周波数領域から時間領域に戻す逆離散コサイン変換器７０２と，量子化二次誤差信号に１／ｆゆらぎを加えるための１／ｆゆらぎ付加器７０３と，を備えている。
【００８３】
以上の構成において，その動作を説明する。音声復号化部１０４では，蓄積部１０３から雑音源情報を入力すると，係数復元器７０１においてこれらの符号から各係数を復元し，さらに逆離散コサイン変換器７０２によって周波数領域から時間領域に戻し，量子化二次誤差信号に復元する。続いて，１／ｆゆらぎ付加器７０３で，量子化二次誤差信号に１／ｆゆらぎを与えることにより乱数を加え，１／ｆゆらぎ付加量子化二次誤差信号として出力する。
【００８４】
符号側（音声符号化部１０２）において，二次誤差信号を符号化する際に，例えば，二次誤差信号を周波数領域に変換した後，強度が最大のものだけを残して符号化した場合でも，それ以外のスペクトル成分が含まれることが多い。したがって，実施の形態７に示すように，復元側（音声復号化部１０４）で，量子化二次誤差信号に１／ｆゆらぎを加えることにより，実施の形態１〜実施の形態５と比較して，より自然な復号音声を得ることができるようになる。
【００８５】
【発明の効果】
以上説明したように，本発明の音声圧縮符号化方法（請求項１）は，雑音源情報を抽出・符号化する際に，フレームまたはサブフレームからピッチ情報およびスペクトル包絡情報から生成されるピッチ成分音声を除いた成分であり，かつスペクトル包絡成分を含む二次誤差信号を抽出し，二次誤差信号の強度最大のものからあらかじめ定められた数のサンプル位置を選定し，選定されたサンプル位置および選定されたサンプル位置の強度を符号化することによって，雑音源情報の抽出・符号化を行うため，スペクトル包絡成分を除去した残差領域における符号帳を用いた符号化と異なり，ＣＥＬＰ方式の符号化の過程において，演算量を削減すると共に，メモリ量の低減を図ることができる。
【００８６】
また，本発明の音声圧縮符号化方法（請求項２）は，変換領域における係数を符号化する際に，二次誤差信号の周波数領域におけるスペクトル強度最大のものからあらかじめ定められた数の周波数を選定し，選定された周波数および選定された周波数のスペクトル係数を符号化することによって，二次誤差信号の符号とするため，周波数領域の係数の符号化を比較的低演算量で実現できる。
【００８７】
また，本発明の音声圧縮符号化方法（請求項３）は，二次誤差信号の強度最大のものから幾つかのサンプル位置を選定し，選定されたサンプル位置および選定されたサンプル位置の振幅を符号化したものと，二次誤差信号の周波数領域におけるスペクトル強度最大のものから幾つかの周波数を選定し，選定された周波数および選定された周波数のスペクトル係数を符号化したものとによって，二次誤差信号の符号とするため，換言すれば，時間領域の特徴と周波数領域の特徴との双方を組み合わせて符号化するため，同ビットレートで高音質の復号音声を得ることができる。
【００８８】
また，本発明の音声圧縮符号化方法（請求項４）は，二次誤差信号の強度最大のものから幾つかのサンプル位置を選定し，選定されたサンプル位置および選定されたサンプル位置の振幅を符号化したものと，二次誤差信号の周波数領域におけるスペクトル強度最大のものから幾つかの周波数を選定し，選定された周波数および選定された周波数のスペクトル係数を符号化したものとを用い，さらに選定数の合計数をあらかじめ定めた数にし，復号音声のひずみが最も小さくなるように組み合わせを選択することによって，二次誤差信号の符号とするため，ビットレートを増やすことなく，高音質の復号音声を得ることができる。
【００８９】
また，本発明の音声圧縮符号化方法（請求項５）は，請求項２乃至４のいずれか１つに記載の音声圧縮符号化方法において，二次誤差信号を周波数領域に変換する際に，離散コサイン変換を用いるため，高速かつ低演算量で符号化を行うことができる。
【００９０】
また，本発明の音声圧縮符号化方法（請求項６）は，請求項２乃至４のいずれか１つに記載の音声圧縮符号化方法において，二次誤差信号を周波数領域に変換する際に，離散フーリエ変換を用いるため，高速かつ低演算量で符号化を行うことができる。
【００９１】
また，本発明の音声圧縮符号化方法（請求項７）は，請求項２乃至４のいずれか１つに記載の音声圧縮符号化方法において，二次誤差信号を周波数領域に変換する際に，Ｋ−Ｌ（Ｋａｒｈｕｎｅｎ−Ｌｏｅｖｅ）変換を用いるため，高速かつ低演算量で符号化を行うことができる。
【００９５】
また，本発明の音声圧縮符号化方法（請求項８）は，請求項２乃至４のいずれか１つに記載の音声圧縮符号化方法において，符号化後の二次誤差信号である雑音源情報を時間軸に戻した量子化二次誤差信号に乱数を加えるため，より自然な復号音声を得ることができる。
【００９６】
また，本発明の音声圧縮符号化装置（請求項９）は，雑音源情報を抽出・符号化する際に，フレームまたはサブフレームからピッチ情報およびスペクトル包絡情報から生成されるピッチ成分音声を除いた成分であり，かつスペクトル包絡成分を含む二次誤差信号を抽出し，二次誤差信号の強度最大のものからあらかじめ定められた数のサンプル位置を選定し，選定されたサンプル位置および選定されたサンプル位置の強度を符号化することによって，雑音源情報の抽出・符号化を行うため，スペクトル包絡成分を除去した残差領域における符号帳を用いた符号化と異なり，ＣＥＬＰ方式の符号化の過程において，演算量を削減すると共に，メモリ量の低減を図ることができる。
【００９７】
また，本発明の音声圧縮符号化装置（請求項１０）は，変換領域における係数を符号化する際に，二次誤差信号の周波数領域におけるスペクトル強度最大のものからあらかじめ定められた数の周波数を選定し，選定された周波数および選定された周波数のスペクトル係数を符号化することによって，二次誤差信号の符号とするため，周波数領域の係数の符号化を比較的低演算量で実現できる。
【００９８】
また，本発明の音声圧縮符号化装置（請求項１１）は，二次誤差信号の強度最大のものから幾つかのサンプル位置を選定し，選定されたサンプル位置および選定されたサンプル位置の振幅を符号化したものと，二次誤差信号の周波数領域におけるスペクトル強度最大のものから幾つかの周波数を選定し，選定された周波数および選定された周波数のスペクトル係数を符号化したものとによって，二次誤差信号の符号とするため，換言すれば，時間領域の特徴と周波数領域の特徴との双方を組み合わせて符号化するため，同ビットレートで高音質の復号音声を得ることができる。
【００９９】
また，本発明の音声圧縮符号化装置（請求項１２）は，二次誤差信号の強度最大のものから幾つかのサンプル位置を選定し，選定されたサンプル位置および選定されたサンプル位置の振幅を符号化したものと，二次誤差信号の周波数領域におけるスペクトル強度最大のものから幾つかの周波数を選定し，選定された周波数および選定された周波数のスペクトル係数を符号化したものとを用い，さらに選定数の合計数をあらかじめ定めた数にし，復号音声のひずみが最も小さくなるように組み合わせを選択することによって，二次誤差信号の符号とするため，ビットレートを増やすことなく，高音質の復号音声を得ることができる。
【０１００】
また，本発明の音声圧縮符号化装置（請求項１３）は，請求項１０乃至１２のいずれか１つに記載の音声圧縮符号化方法において，二次誤差信号を周波数領域に変換する際に，離散コサイン変換を用いるため，高速かつ低演算量で符号化を行うことができる。
【０１０１】
また，本発明の音声圧縮符号化装置（請求項１４）は，請求項１０乃至１２のいずれか１つに記載の音声圧縮符号化方法において，二次誤差信号を周波数領域に変換する際に，離散フーリエ変換を用いるため，高速かつ低演算量で符号化を行うことができる。
【０１０２】
また，本発明の音声圧縮符号化装置（請求項１５）は，請求項１０乃至１２のいずれか１つに記載の音声圧縮符号化方法において，二次誤差信号を周波数領域に変換する際に，Ｋ−Ｌ（Ｋａｒｈｕｎｅｎ−Ｌｏｅｖｅ）変換を用いるため，高速かつ低演算量で符号化を行うことができる。
【０１０６】
また，本発明の音声圧縮符号化装置（請求項１６）は，請求項１０乃至１２のいずれか１つに記載の音声圧縮符号化装置において，音声復号化手段が，符号化後の二次誤差信号である雑音源情報を時間軸に戻した量子化二次誤差信号に乱数を加えるため，より自然な復号音声を得ることができる。
【図面の簡単な説明】
【図１】実施の形態１の音声圧縮符号化装置の概略構成図である。
【図２】実施の形態１の音声符号化部のブロック構成図である。
【図３】実施の形態２の雑音源抽出器の概略ブロック図である。
【図４】実施の形態２の音声復号化部の一部構成を示すブロック図である。
【図５】実施の形態３の雑音源抽出器の概略ブロック図である。
【図６】実施の形態６の音声復号化部の一部構成を示すブロック図である。
【図７】参考例１の音声復号化部の一部構成を示すブロック図である。
【符号の説明】
１００音声圧縮符号化装置
１０１Ａ／Ｄ変換部
１０２音声符号化部
１０３蓄積部
１０４音声復号化部
１０５Ｄ／Ａ変換部
２０１フレーム分割器
２０２スペクトル包絡抽出器
２０３サブフレーム分割器
２０４ピッチ情報抽出器
２０５二次誤差信号算出器
２０６雑音源抽出器
３０１雑音源抽出器
３０２離散コサイン変換器
３０３係数符号化器
４０１係数復元器
４０２逆離散コサイン変換器
５０１雑音源抽出器
５０２時間領域符号化器
５０２ａ係数符号化器
５０３周波数領域符号化器
５０３ａ周波数領域変換器
５０３ｂ係数符号化器
５０４係数選択器
６０１係数復元器
６０２逆離散コサイン変換器
６０３白色雑音付加器
７０１係数復元器
７０２逆離散コサイン変換器
７０３１／ｆゆらぎ付加器

Claims

アナログ音声波形を入力してディジタル音声波形に変換する第１の工程と，前記ディジタル音声波形を所定の符号化方式で符号化する第２の工程と，前記符号化された音声波形を蓄積する第３の工程と，前記蓄積されたディジタル音声波形を取り出して復号化する第４の工程と，前記復号化されたディジタル音声波形をアナログ音声波形に変換する第５の工程と，を有する音声圧縮符号化方法において，
前記第２の工程が，前記ディジタル音声波形をフレームまたはサブフレームと呼ばれる単位に分割するフレーム分割工程と，前記分割したフレームまたはサブフレームの単位のそれぞれについて，スペクトル包絡を表すスペクトル包絡情報，ピッチ情報および音源情報である雑音源情報を抽出し，符号化する抽出・符号化工程と，を含み，
前記第４の工程が，符号化された前記スペクトル包絡情報，ピッチ情報および雑音源情報を復元する復元工程と，前記復元した雑音源情報およびピッチ情報から励振源信号を生成する励振源信号生成工程と，前記励振源信号と前記復元したスペクトル包絡情報から合成音声を生成する合成音声生成工程と，を含み，
さらに，前記抽出・符号化工程が，前記雑音源情報を抽出・符号化する際に，前記フレームまたはサブフレームから前記ピッチ情報および前記スペクトル包絡情報から生成されるピッチ成分音声を除いた成分である二次誤差信号を抽出し，前記二次誤差信号の強度最大のものからあらかじめ定められた数のサンプル位置を選定し，前記選定されたサンプル位置および前記選定されたサンプル位置の強度を符号化することによって前記雑音源情報の抽出・符号化を行うことを特徴とする音声圧縮符号化方法。
アナログ音声波形を入力してディジタル音声波形に変換する第１の工程と，前記ディジタル音声波形を所定の符号化方式で符号化する第２の工程と，前記符号化された音声波形を蓄積する第３の工程と，前記蓄積されたディジタル音声波形を取り出して復号化する第４の工程と，前記復号化されたディジタル音声波形をアナログ音声波形に変換する第５の工程と，を有する音声圧縮符号化方法において，
前記第２の工程が，前記ディジタル音声波形をフレームまたはサブフレームと呼ばれる単位に分割するフレーム分割工程と，前記分割したフレームまたはサブフレームの単位のそれぞれについて，スペクトル包絡を表すスペクトル包絡情報，ピッチ情報および音源情報である雑音源情報を抽出し，符号化する抽出・符号化工程と，を含み，
前記第４の工程が，符号化された前記スペクトル包絡情報，ピッチ情報および雑音源情報を復元する復元工程と，前記復元した雑音源情報およびピッチ情報から励振源信号を生成する励振源信号生成工程と，前記励振源信号と前記復元したスペクトル包絡情報から合成音声を生成する合成音声生成工程と，を含み，
さらに，前記抽出・符号化工程が，前記雑音源情報を抽出・符号化する際に，前記フレームまたはサブフレームから前記ピッチ情報および前記スペクトル包絡情報から生成されるピッチ成分音声を除いた成分である二次誤差信号を抽出し，前記二次誤差信号を周波数領域に変換した後，前記周波数領域におけるスペクトル強度最大のものからあらかじめ定められた数の周波数を選定し，前記選定された周波数および前記選定された周波数のスペクトル係数を符号化することによって，前記二次誤差信号の符号とすること，
を特徴とする音声圧縮符号化方法。
アナログ音声波形を入力してディジタル音声波形に変換する第１の工程と，前記ディジタル音声波形を所定の符号化方式で符号化する第２の工程と，前記符号化された音声波形を蓄積する第３の工程と，前記蓄積されたディジタル音声波形を取り出して復号化する第４の工程と，前記復号化されたディジタル音声波形をアナログ音声波形に変換する第５の工程と，を有する音声圧縮符号化方法において，
前記第２の工程が，前記ディジタル音声波形をフレームまたはサブフレームと呼ばれる単位に分割するフレーム分割工程と，前記分割したフレームまたはサブフレームの単位のそれぞれについて，スペクトル包絡を表すスペクトル包絡情報，ピッチ情報および音源情報である雑音源情報を抽出し，符号化する抽出・符号化工程と，を含み，
前記第４の工程が，符号化された前記スペクトル包絡情報，ピッチ情報および雑音源情報を復元する復元工程と，前記復元した雑音源情報およびピッチ情報から励振源信号を生成する励振源信号生成工程と，前記励振源信号と前記復元したスペクトル包絡情報から合成音声を生成する合成音声生成工程と，を含み，
さらに，前記抽出・符号化工程が，前記雑音源情報を抽出・符号化する際に，前記フレームまたはサブフレームから前記ピッチ情報および前記スペクトル包絡情報から生成されるピッチ成分音声を除いた成分である二次誤差信号を抽出し，前記二次誤差信号の強度最大のものからあらかじめ定められた数のサンプル位置を選定し，前記選定されたサンプル位置および前記選定されたサンプル位置の振幅を符号化したものと，前記二次誤差信号を周波数領域に変換した後，前記二次誤差信号の周波数領域におけるスペクトル強度最大のものからあらかじめ定められた周波数を選定し，前記選定された周波数および前記選定された周波数のスペクトル係数を符号化したものと，によって前記二次誤差信号の符号とすること，
を特徴とする音声圧縮符号化方法。
アナログ音声波形を入力してディジタル音声波形に変換する第１の工程と，前記ディジタル音声波形を所定の符号化方式で符号化する第２の工程と，前記符号化された音声波形を蓄積する第３の工程と，前記蓄積されたディジタル音声波形を取り出して復号化する第４の工程と，前記復号化されたディジタル音声波形をアナログ音声波形に変換する第５の工程と，を有する音声圧縮符号化方法において，
前記第２の工程が，前記ディジタル音声波形をフレームまたはサブフレームと呼ばれる単位に分割するフレーム分割工程と，前記分割したフレームまたはサブフレームの単位のそれぞれについて，スペクトル包絡を表すスペクトル包絡情報，ピッチ情報および音源情報である雑音源情報を抽出し，符号化する抽出・符号化工程と，を含み，
前記第４の工程が，符号化された前記スペクトル包絡情報，ピッチ情報および雑音源情報を復元する復元工程と，前記復元した雑音源情報およびピッチ情報から励振源信号を生成する励振源信号生成工程と，前記励振源信号と前記復元したスペクトル包絡情報から合成音声を生成する合成音声生成工程と，を含み，
さらに，前記抽出・符号化工程が，前記雑音源情報を抽出・符号化する際に，前記フレームまたはサブフレームから前記ピッチ情報および前記スペクトル包絡情報から生成されるピッチ成分音声を除いた成分である二次誤差信号を抽出し，前記二次誤差信号の強度最大のものから幾つかのサンプル位置を選定し，前記選定されたサンプル位置および前記選定されたサンプル位置の振幅を符号化したものと，前記二次誤差信号を周波数領域に変換した後，前記二次誤差信号の周波数領域におけるスペクトル強度最大のものから幾つかの周波数を選定し，前記選定された周波数および前記選定された周波数のスペクトル係数を符号化したものと，を用い，さらに選定数の合計数をあらかじめ定めた数にし，復号音声のひずみが最も小さくなるように組み合わせを選択することによって，前記二次誤差信号の符号とすること，
を特徴とする音声圧縮符号化方法。
請求項２乃至４のいずれか一つに記載の音声圧縮符号化方法において，
前記抽出・符号化工程が，前記二次誤差信号を周波数領域に変換する際に，離散コサイン変換を用いることを特徴とする音声圧縮符号化方法。
請求項２乃至４のいずれか一つに記載の音声圧縮符号化方法において，
前記抽出・符号化工程が，前記二次誤差信号を周波数領域に変換する際に，離散フーリエ変換を用いることを特徴とする音声圧縮符号化方法。
請求項２乃至４のいずれか一つに記載の音声圧縮符号化方法において，
前記抽出・符号化工程が，前記二次誤差信号を周波数領域に変換する際に，Ｋ−Ｌ（Ｋａｒｈｕｎｅｎ−Ｌｏｅｖｅ）変換を用いることを特徴とする音声圧縮符号化方法。
請求項２乃至４のいずれか一つに記載の音声圧縮符号化方法において，
前記第４の工程が，前記符号化後の二次誤差信号である雑音源情報を時間軸に戻した量子化二次誤差信号に乱数を加える工程を含むことを特徴とする音声圧縮符号化方法。
アナログ音声波形を入力してディジタル音声波形に変換するＡ／Ｄ変換手段と，前記ディジタル音声波形を所定の符号化方式で符号化する音声符号化手段と，前記符号化された音声波形を蓄積する蓄積手段と，前記蓄積手段から前記符号化されたディジタル音声波形を取り出して復号化する音声復号化手段と，前記復号化されたディジタル音声波形をアナログ音声波形に変換するＤ／Ａ変換手段と，を備えた音声圧縮符号化装置において，
前記音声符号化手段が，前記ディジタル音声波形をフレームまたはサブフレームと呼ばれる単位に分割するフレーム分割手段と，前記分割したフレームまたはサブフレームの単位のそれぞれについて，スペクトル包絡を表すスペクトル包絡情報，ピッチ情報および音源情報である雑音源情報を抽出し，符号化する抽出・符号化手段と，を含み，
前記音声復号化手段が，符号化された前記スペクトル包絡情報，ピッチ情報および雑音源情報を復元する復元手段と，前記復元した雑音源情報およびピッチ情報から励振源信号を生成する励振源信号生成手段と，前記励振源信号と前記復元したスペクトル包絡情報から合成音声を生成する合成音声生成手段と，を含み，
さらに，前記抽出・符号化手段が，前記雑音源情報を抽出・符号化する際に，前記フレームまたはサブフレームから前記ピッチ情報および前記スペクトル包絡情報から生成されるピッチ成分音声を除いた成分である二次誤差信号を抽出し，前記二次誤差信号の強度最大のものからあらかじめ定められた数のサンプル位置を選定し，前記選定されたサンプル位置および前記選定されたサンプル位置の強度を符号化することによって前記雑音源情報の抽出・符号化を行うことを特徴とする音声圧縮符号化装置。
アナログ音声波形を入力してディジタル音声波形に変換するＡ／Ｄ変換手段と，前記ディジタル音声波形を所定の符号化方式で符号化する音声符号化手段と，前記符号化された音声波形を蓄積する蓄積手段と，前記蓄積手段から前記符号化されたディジタル音声波形を取り出して復号化する音声復号化手段と，前記復号化されたディジタル音声波形をアナログ音声波形に変換するＤ／Ａ変換手段と，を備えた音声圧縮符号化装置において，
前記音声符号化手段が，前記ディジタル音声波形をフレームまたはサブフレームと呼ばれる単位に分割するフレーム分割手段と，前記分割したフレームまたはサブフレームの単位のそれぞれについて，スペクトル包絡を表すスペクトル包絡情報，ピッチ情報および音源情報である雑音源情報を抽出し，符号化する抽出・符号化手段と，を含み，
前記音声復号化手段が，符号化された前記スペクトル包絡情報，ピッチ情報および雑音源情報を復元する復元手段と，前記復元した雑音源情報およびピッチ情報から励振源信号を生成する励振源信号生成手段と，前記励振源信号と前記復元したスペクトル包絡情報から合成音声を生成する合成音声生成手段と，を含み，
さらに，前記抽出・符号化手段が，前記雑音源情報を抽出・符号化する際に，前記フレームまたはサブフレームから前記ピッチ情報および前記スペクトル包絡情報から生成されるピッチ成分音声を除いた成分である二次誤差信号を抽出し，前記二次誤差信号を周波数領域に変換した後，前記周波数領域におけるスペクトル強度最大のものからあらかじめ定められた数の周波数を選定し，前記選定された周波数および前記選定された周波数のスペクトル係数を符号化することによって，前記二次誤差信号の符号とすること，
を特徴とする音声圧縮符号化装置。
アナログ音声波形を入力してディジタル音声波形に変換するＡ／Ｄ変換手段と，前記ディジタル音声波形を所定の符号化方式で符号化する音声符号化手段と，前記符号化された音声波形を蓄積する蓄積手段と，前記蓄積手段から前記符号化されたディジタル音声波形を取り出して復号化する音声復号化手段と，前記復号化されたディジタル音声波形をアナログ音声波形に変換するＤ／Ａ変換手段と，を備えた音声圧縮符号化装置において，
前記音声符号化手段が，前記ディジタル音声波形をフレームまたはサブフレームと呼ばれる単位に分割するフレーム分割手段と，前記分割したフレームまたはサブフレームの単位のそれぞれについて，スペクトル包絡を表すスペクトル包絡情報，ピッチ情報および音源情報である雑音源情報を抽出し，符号化する抽出・符号化手段と，を含み，
前記音声復号化手段が，符号化された前記スペクトル包絡情報，ピッチ情報および雑音源情報を復元する復元手段と，前記復元した雑音源情報およびピッチ情報から励振源信号を生成する励振源信号生成手段と，前記励振源信号と前記復元したスペクトル包絡情報から合成音声を生成する合成音声生成手段と，を含み，
さらに，前記抽出・符号化手段が，前記雑音源情報を抽出・符号化する際に，前記フレームまたはサブフレームから前記ピッチ情報および前記スペクトル包絡情報から生成されるピッチ成分音声を除いた成分である二次誤差信号を抽出し，前記二次誤差信号の強度最大のものからあらかじめ定められた数のサンプル位置を選定し，前記選定されたサンプル位置および前記選定されたサンプル位置の振幅を符号化したものと，前記二次誤差信号を周波数領域に変換した後，前記二次誤差信号の周波数領域におけるスペクトル強度最大のものからあらかじめ定められた周波数を選定し，前記選定された周波数および前記選定された周波数のスペクトル係数を符号化したものと，によって前記二次誤差信号の符号とすること，
を特徴とする音声圧縮符号化装置。
アナログ音声波形を入力してディジタル音声波形に変換するＡ／Ｄ変換手段と，前記ディジタル音声波形を所定の符号化方式で符号化する音声符号化手段と，前記符号化された音声波形を蓄積する蓄積手段と，前記蓄積手段から前記符号化されたディジタル音声波形を取り出して復号化する音声復号化手段と，前記復号化されたディジタル音声波形をアナログ音声波形に変換するＤ／Ａ変換手段と，を備えた音声圧縮符号化装置において，
前記音声符号化手段が，前記ディジタル音声波形をフレームまたはサブフレームと呼ばれる単位に分割するフレーム分割手段と，前記分割したフレームまたはサブフレームの単位のそれぞれについて，スペクトル包絡を表すスペクトル包絡情報，ピッチ情報および音源情報である雑音源情報を抽出し，符号化する抽出・符号化手段と，を含み，
前記音声復号化手段が，符号化された前記スペクトル包絡情報，ピッチ情報および雑音源情報を復元する復元手段と，前記復元した雑音源情報およびピッチ情報から励振源信号を生成する励振源信号生成手段と，前記励振源信号と前記復元したスペクトル包絡情報から合成音声を生成する合成音声生成手段と，を含み，
さらに，前記抽出・符号化手段が，前記雑音源情報を抽出・符号化する際に，前記フレームまたはサブフレームから前記ピッチ情報および前記スペクトル包絡情報から生成されるピッチ成分音声を除いた成分である二次誤差信号を抽出し，前記二次誤差信号の強度最大のものから幾つかのサンプル位置を選定し，前記選定されたサンプル位置および前記選定されたサンプル位置の振幅を符号化したものと，前記二次誤差信号を周波数領域に変換した後，前記二次誤差信号の周波数領域におけるスペクトル強度最大のものから幾つかの周波数を選定し，前記選定された周波数および前記選定された周波数のスペクトル係数を符号化したものと，を用い，さらに選定数の合計数をあらかじめ定めた数にし，復号音声のひずみが最も小さくなるように組み合わせを選択することによって，前記二次誤差信号の符号とすること，
を特徴とする音声圧縮符号化装置。
請求項１０乃至１２のいずれか一つに記載の音声圧縮符号化装置において，
前記抽出・符号化手段が，前記二次誤差信号を周波数領域に変換する際に，離散コサイン変換を用いることを特徴とする音声圧縮符号化装置。
請求項１０乃至１２のいずれか一つに記載の音声圧縮符号化装置において，
前記抽出・符号化手段が，前記二次誤差信号を周波数領域に変換する際に，離散フーリエ変換を用いることを特徴とする音声圧縮符号化装置。
請求項１０乃至１２のいずれか一つに記載の音声圧縮符号化装置において，
前記抽出・符号化手段が，前記二次誤差信号を周波数領域に変換する際に，Ｋ−Ｌ（Ｋａｒｈｕｎｅｎ−Ｌｏｅｖｅ）変換を用いることを特徴とする音声圧縮符号化装置。
請求項１０乃至１２のいずれか一つに記載の音声圧縮符号化装置において，
前記音声復号化手段が，前記符号化後の二次誤差信号である雑音源情報を時間軸に戻した量子化二次誤差信号に乱数を加えることを特徴とする音声圧縮符号化装置。