JP3715417B2

JP3715417B2 - 音声圧縮符号化装置，音声圧縮符号化方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP3715417B2
Application number: JP29303797A
Authority: JP
Inventors: 淳山根
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1997-10-24
Filing date: 1997-10-24
Publication date: 2005-11-09
Anticipated expiration: 2017-10-24
Also published as: JPH11134000A

Description

【０００１】
【発明の属する技術分野】
本発明は，留守番電話，音声応答システム，ボイスメール等に適用される音声圧縮符号化装置，音声圧縮符号化方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関し，より詳細には，アナログ音声波形を入力してディジタル音声信号に変換した後，該ディジタル音声信号を所定の符号化方式で符号化することにより，演算量の低減を図った音声圧縮符号化装置，音声圧縮符号化方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【０００２】
【従来の技術】
近年，自動車電話等の移動体通信におけるチャンネル容量の拡大や，マルチメディア通信における膨大な情報の蓄積・伝送の必要性から，実用的な低ビットレート音声符号化に対する要求が高まっている。
【０００３】
また，ファクシミリ・モデムや，データ・モデムの付加機能として，留守番電話のための音声符号化／復号化機能を備えたものが求められており，この符号化／復号化ための低ビットレートの音声圧縮符号化手法の開発が望まれている。
【０００４】
現在，１０ｋｂｐｓ以下の低ビットレート音声圧縮符号化方式の主流は，ＣＥＬＰ（ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎｃｏｄｉｎｇｓｙｓｔｅｍ）方式である。このＣＥＬＰ方式は，線形予測に基づく音声のＡＲ（Ａｕｔｏ−Ｒｅｇｒｅｓｓｉｖｅ：自己回帰）モデルに基づいたモデルベースの圧縮符号化方式である。
【０００５】
具体的には，符号化側において，音声をフレームまたはサブフレームと呼ばれる単位に分割し，それぞれの単位についてスペクトル包絡を表すＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｄｉｎｇ：線形予測）係数，そのピッチ情報を表すピッチラグ情報，音源情報である雑音（源）情報，および，ピッチラグ情報と音源情報に対する利得情報のそれぞれに対応するパラメータを抽出し，それぞれ符号化（量子化）を行い，格納または伝送するものである。
【０００６】
また，復号側では，符号化された各情報を復元し，雑音源情報にピッチ情報を加えることによって励振源信号を生成し，この励振源信号をＬＰＣ係数で構成される線形予測合成フィルタに通し，合成音声を得るものである。
【０００７】
【発明が解決しようとする課題】
しかしながら，上記従来のＣＥＬＰ方式では，１０ｋｂｐｓの低ビットレートにおいて，良好な音声を得ることができるという利点を有する反面，それぞれのパラメータの符号化過程における演算量の多さがリアルタイム処理を実現する上で障害となるという問題点があった。
【０００８】
特に，ピッチラグ情報の符号化や雑音源情報の符号化については，励振源符号帳に蓄えられた各励振源符号ベクトルを，線形予測合成フィルタに通すことによって合成音声を生成し，原音声と比較し，最も原音声に近いものを選択することによって行われているが，フィルタ演算には多くに演算を必要とするため，前記励振源符号帳に蓄えられた全ての励振源符号ベクトルをフィルタに通して比較を行うことを多大な計算を必要とし，汎用のプロセッサでリアルタイムに処理を実現することは大変困難であった。
【０００９】
そのため，これまでに，さまざまな演算量削減のための改良が行われている。例えば，全ての励振源符号ベクトルに対してフィルタ演算を行い原音声との比較を行うのではなく，近似的に原音声との比較を行うことのできる比較的演算量の少ないパラメータによって励振源符号ベクトルを少数に絞り込むという予備選択手法はその一つである。
【００１０】
また，前記励振源符号帳は，与えられたビット数によって表される数の励振源符号ベクトルを蓄えているのが一般的であるが，その構成を工夫することにより，演算量を削減する方法も提案されている。励振源符号ベクトルをビット数分だけ有し，それらの和と差でビット数によって表される数の励振源符号ベクトルを表すことにより，フィルタ計算の数を激減させるＶＳＥＬＰ（ＶｅｃｔｏｒＳｕｍＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｄｉｎｇ）方式はその一例である。
【００１１】
本発明は上記に鑑みてなされたものであって，ＣＥＬＰ方式の符号化の過程において，雑音励振源符号ベクトル探索によって行っていた二次誤差信号の符号化（量子化）を，二次誤差信号そのものを符号化（量子化）することにより，雑音励振源の探索における演算量を削減し，また雑音励振源符号ベクトルを蓄えるためのメモリを必要としないことを目的とする。
【００１２】
【課題を解決するための手段】
上記の目的を達成するために，請求項１に係る音声圧縮符号化装置は，アナログ音声波形をディジタル音声信号にディジタル化するＡ／Ｄ変換手段と，前記ディジタル音声信号を所定の符号化方式で符号化する音声符号化手段と，前記符号化されたディジタル音声信号を蓄積する蓄積手段と，前記蓄積されたディジタル音声信号を取り出して復号化する音声復号化手段と，前記復号化されたディジタル音声信号をアナログ音声信号に変換するＤ／Ａ変換手段と，を有する音声圧縮符号化装置において，前記音声符号化手段が，さらに前記ディジタル音声信号をフレームと呼ばれる処理単位に分割するフレーム分割手段と，前記分割したフレームについてスペクトル包絡を表すスペクトル包絡情報を抽出して符号化するスペクトル包絡符号化手段と，前記分割したフレームからサブフレームと呼ばれる処理単位を構成するサブフレーム構成手段と，前記サブフレームのピッチ情報を抽出して符号化するピッチ情報抽出手段と，前記ピッチ情報から利得情報を抽出して符号化する利得情報抽出手段と，音源情報である雑音源情報を抽出して符号化する雑音源情報抽出手段と，を備え，前記音声復号化手段が，さらに前記符号化されたスペクトル包絡情報を復号するスペクトル包絡情報復号手段と，前記符号化された雑音源情報を復号する雑音源情報復号手段と，前記符号化されたピッチ情報を復号するピッチ情報復号手段と，前記符号化された利得情報を復号する利得情報復号手段と，前記復号された雑音源情報，ピッチ情報および利得情報から励振源信号を生成する励振源信号生成手段と，前記励振源信号と前記復号されたスペクトル包絡情報とから合成信号を生成する合成信号生成手段と，を備え，さらに，前記雑音源情報抽出手段が，前記サブフレーム構成手段によって構成された前記サブフレームの強度を測定する強度測定手段と，前記強度測定手段によって測定された前記強度が予め定められた強度より小さい場合に，離散コサイン変換係数の本数を減少させるように設定する本数設定手段と，前記サブフレーム構成手段によって構成された前記サブフレームと，前記スペクトル包絡符号化手段によって抽出された前記スペクトラム包絡情報と，前記ピッチ情報抽出手段によって抽出された前記ピッチ情報と，および前記利得情報抽出手段によって抽出された前記利得情報に基づいて，二次誤差信号を抽出する二次誤差信号抽出手段と，前記二次誤差信号抽出手段によって抽出された前記二次誤差信号を離散コサイン変換係数列に変換する離散コサイン変換手段と，前記離散コサイン変換手段によって変換された前記離散コサイン変換係数列から前記本数設定手段によって設定された本数に基づいて，離散コサイン変換係数の選択を行う係数選択手段と，前記係数選択手段によって選択された前記離散コサイン変換係数を入力し，所定長のビット列に変換して出力する変換手段と，を備えたものである。
【００１５】
また，請求項２に係る音声圧縮符号化装置は，アナログ音声波形をディジタル音声信号にディジタル化するＡ／Ｄ変換手段と，前記ディジタル音声信号を所定の符号化方式で符号化する音声符号化手段と，前記符号化されたディジタル音声信号を蓄積する蓄積手段と，前記蓄積されたディジタル音声信号を取り出して復号化する音声復号化手段と，前記復号化されたディジタル音声信号をアナログ音声信号に変換するＤ／Ａ変換手段と，を有する音声圧縮符号化装置において，前記音声符号化手段が，前記ディジタル音声信号をフレームと呼ばれる処理単位に分割するフレーム分割手段と，前記分割したフレームについてスペクトル包絡を表すスペクトル包絡情報を抽出して符号化するスペクトル包絡符号化手段と，前記分割したフレームからサブフレームと呼ばれる処理単位を構成するサブフレーム構成手段と，前記サブフレームのピッチ情報を抽出して符号化するピッチ情報抽出手段と，前記ピッチ情報から利得情報を抽出して符号化する利得情報抽出手段と，音源情報である雑音源情報を抽出して符号化する雑音源情報抽出手段と，を備え，前記音声復号化手段が，前記符号化されたスペクトル包絡情報を復号するスペクトル包絡情報復号手段と，前記符号化された雑音源情報を復号する雑音源情報復号手段と，前記符号化されたピッチ情報を復号するピッチ情報復号手段と，前記符号化された利得情報を復号する利得情報復号手段と，前記復号された雑音源情報，ピッチ情報および利得情報から励振源信号を生成する励振源信号生成手段と，前記励振源信号と前記復号されたスペクトル包絡情報とから合成信号を生成する合成信号生成手段と，を備え，前記雑音源情報抽出手段が，二次誤差信号を抽出する二次誤差信号抽出手段と，前記抽出された前記二次誤差信号を離散コサイン変換係数列に変換する離散コサイン変換手段と，前記離散コサイン変換手段で得られた離散コサイン変換係数列を所定のビット長に変換する係数列変換手段と，を備え，さらに，前記係数列変換手段が，前記離散コサイン変換係数列の帯域を所定数に分割し，分割された離散コサイン変換係数列の帯域単位のそれぞれにおいて，絶対値が最大の離散コサイン変換係数から所定数の離散コサイン変換係数を選択する係数選択手段と，前記係数選択手段で選択した前記離散コサイン変換係数を入力し，所定長のビット列に変換して出力する変換手段と，備えたものである。
【００１９】
また，請求項３に係る音声圧縮符号化方法は，アナログ音声波形をディジタル音声信号にディジタル化するＡ／Ｄ変換工程と，前記ディジタル音声信号を所定の符号化方式で符号化する音声符号化工程と，前記符号化されたディジタル音声信号を蓄積する蓄積工程と，前記蓄積されたディジタル音声信号を取り出して復号化する音声復号化工程と，前記復号化されたディジタル音声信号をアナログ音声信号に変換するＤ／Ａ変換工程と，を有する音声圧縮符号化方法において，前記音声符号化工程が，さらに前記ディジタル音声信号をフレームと呼ばれる処理単位に分割するフレーム分割工程と，前記分割したフレームについてスペクトル包絡を表すスペクトル包絡情報を抽出して符号化するスペクトル包絡符号化工程と，前記分割したフレームからサブフレームと呼ばれる処理単位を構成するサブフレーム構成工程と，前記サブフレームのピッチ情報を抽出して符号化するピッチ情報抽出工程と，前記ピッチ情報から利得情報を抽出して符号化する利得情報抽出工程と，音源情報である雑音源情報を抽出して符号化する雑音源情報抽出工程と，を含み，前記音声復号化工程が，さらに前記符号化されたスペクトル包絡情報を復号するスペクトル包絡情報復号工程と，前記符号化された雑音源情報を復号する雑音源情報復号工程と，前記符号化されたピッチ情報を復号するピッチ情報復号工程と，前記符号化された利得情報を復号する利得情報復号工程と，前記復号された雑音源情報，ピッチ情報および利得情報から励振源信号を生成する励振源信号生成工程と，前記励振源信号と前記復号されたスペクトル包絡情報とから合成信号を生成する合成信号生成工程と，を含み，さらに，前記雑音源情報抽出工程が，前記サブフレーム構成工程によって構成された前記サブフレームの強度を測定する強度測定工程と，前記強度測定工程によって測定された前記強度が予め定められた強度より小さい場合に，離散コサイン変換係数の本数を減少させるように設定する本数設定工程と，前記サブフレーム構成工程によって構成された前記サブフレームと，前記スペクトル包絡符号化工程によって抽出された前記スペクトラム包絡情報と，前記ピッチ情報抽出工程によって抽出された前記ピッチ情報と，および前記利得情報抽出工程によって抽出された前記利得情報に基づいて，二次誤差信号を抽出する二次誤差信号抽出工程と，前記二次誤差信号抽出工程によって抽出された前記二次誤差信号を離散コサイン変換係数列に変換する離散コサイン変換工程と，前記離散コサイン変換工程によって変換された前記離散コサイン変換係数列から前記本数設定工程によって設定された本数に基づいて，離散コサイン変換係数の選択を行う係数選択工程と，前記係数選択工程によって選択された前記離散コサイン変換係数を入力し，所定長のビット列に変換して出力する変換工程と，を含むものである。
【００２２】
また，請求項４に係る音声圧縮符号化方法は，アナログ音声波形をディジタル音声信号にディジタル化するＡ／Ｄ変換工程と，前記ディジタル音声信号を所定の符号化方式で符号化する音声符号化工程と，前記符号化されたディジタル音声信号を蓄積する蓄積工程と，前記蓄積されたディジタル音声信号を取り出して復号化する音声復号化工程と，前記復号化されたディジタル音声信号をアナログ音声信号に変換するＤ／Ａ変換工程と，を有する音声圧縮符号化方法において，前記音声符号化工程が，前記ディジタル音声信号をフレームと呼ばれる処理単位に分割するフレーム分割工程と，前記分割したフレームについてスペクトル包絡を表すスペクトル包絡情報を抽出して符号化するスペクトル包絡符号化工程と，前記分割したフレームからサブフレームと呼ばれる処理単位を構成するサブフレーム構成工程と，前記サブフレームのピッチ情報を抽出して符号化するピッチ情報抽出工程と，前記ピッチ情報から利得情報を抽出して符号化する利得情報抽出工程と，音源情報である雑音源情報を抽出して符号化する雑音源情報抽出工程と，を含み，前記音声復号化工程が，前記符号化されたスペクトル包絡情報を復号するスペクトル包絡情報復号工程と，前記符号化された雑音源情報を復号する雑音源情報復号工程と，前記符号化されたピッチ情報を復号するピッチ情報復号工程と，前記符号化された利得情報を復号する利得情報復号工程と，前記復号された雑音源情報，ピッチ情報および利得情報から励振源信号を生成する励振源信号生成工程と，前記励振源信号と前記復号されたスペクトル包絡情報とから合成信号を生成する合成信号生成工程と，を含み，前記雑音源情報抽出工程が，二次誤差信号を抽出する二次誤差信号抽出工程と，前記抽出された前記二次誤差信号を離散コサイン変換係数列に変換する離散コサイン変換工程と，前記離散コサイン変換工程で得られた離散コサイン変換係数列を所定のビット長に変換する係数列変換工程と，を含み，さらに，前記係数列変換工程が，前記離散コサイン変換係数列の帯域を所定数に分割し，分割された離散コサイン変換係数列の帯域単位のそれぞれにおいて，絶対値が最大の離散コサイン変換係数から所定数の離散コサイン変換係数を選択する係数選択工程と，前記係数選択工程で選択した前記離散コサイン変換係数を入力し，所定長のビット列に変換して出力する変換工程と，を含むものである。
【００２６】
また，請求項５に係るコンピュータ読み取り可能な記録媒体は，請求項３または請求項４に記載の音声圧縮符号化方法の各工程をコンピュータに実行させるためのプログラムを記録したものである。
【００２７】
【発明の実施の形態】
以下，本発明の音声圧縮符号化装置，音声圧縮符号化方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体について，〔実施の形態１〕〜〔実施の形態６〕の順で，図面を参照して詳細に説明する。
【００２８】
〔実施の形態１〕
図１は，実施の形態１の音声圧縮符号化装置１００の概略構成図を示す。音声圧縮符号化装置１００は，アナログ音声波形をディジタル音声信号にディジタル化するＡ／Ｄ変換手段としてのＡ／Ｄ変換部１０１と，Ａ／Ｄ変換部１０１からディジタル音声信号を入力して，ディジタル音声信号を所定の符号化方式で符号化する音声符号化手段としての音声符号化部１０２と，音声符号化部１０２で符号化されたディジタル音声信号（符号化されたスペクトル包絡情報，ピッチ情報，利得情報および雑音源情報）を蓄積する蓄積手段としての蓄積部１０３と，蓄積されたディジタル音声信号を取り出して復号化する音声復号化手段としての音声復号化部１０４と，復号化されたディジタル音声信号をアナログ音声信号に変換するＤ／Ａ変換手段としてのＤ／Ａ変換部１０５と，から構成される。なお，Ａ／Ｄ変換部１０１としては，例えば，Ａ／Ｄ変換装置，ＰＣ用サウンドボード等が挙げられる。また，Ｄ／Ａ変換部１０５としては，例えば，Ｄ／Ａ変換装置，ＰＣ用サウンドボード等が挙げられる。
【００２９】
図２は，音声符号化部１０２のブロック構成図を示す。音声符号化部１０２は，入力したディジタル音声信号を予め定められたサンプル数（例えば，２４０サンプル）のフレームと呼ばれる単位に分割し，フレーム信号を出力するフレーム構成部２０１と，フレーム構成部２０１で分割したフレーム（フレーム信号）から，フレーム単位でスペクトル包絡を表すスペクトル包絡情報を抽出して符号化するスペクトル包絡抽出部２０２と，フレーム構成部２０１で分割したフレームを更に予め定められたサンプル数（例えば，６０サンプル）のサブフレーム単位に分割し，サブフレーム信号を出力するサブフレーム構成部２０３と，スペクトル包絡抽出部２０２で抽出したスペクトル包絡情報を用いて，サブフレーム構成部２０３で分割したサブフレームからピッチ情報を抽出して符号化するピッチ情報抽出部２０４と，ピッチ情報から利得情報を抽出して符号化する利得抽出部２０５と，スペクトル包絡情報，サブフレーム，ピッチ情報および利得情報から音源情報である雑音源情報を抽出して符号化する雑音源抽出部２０６と，から構成される。
【００３０】
また，図３は，雑音源抽出部２０６のブロック構成図を示す。雑音抽出部２０６は，スペクトル包絡抽出部２０２で抽出されたスペクトル包絡情報，サブフレーム構成部２０３から出力されたサブフレーム信号，ピッチ情報抽出部２０４で抽出されたピッチ情報および利得抽出部２０５で抽出された利得情報を用いて，二次誤差信号を抽出する二次誤差信号構成部３０１と，二次誤差信号を離散コサイン変換（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ：以下，ＤＣＴと記述する）して，ＤＣＴ係数列を得るＤＣＴ変換部３０２と，ＤＣＴ変換部３０２によるＤＣＴ変換で得られたＤＣＴ係数列を所定のビット長に変換する係数変換部３０３と，から構成される。さらに，係数変換部３０３は，ＤＣＴ係数列からＤＣＴ係数を選択する係数選択部３０４と，係数選択部３０４で選択したＤＣＴ係数を入力し，所定長のビット列に変換して出力する変換部３０５とを有する。
【００３１】
更に，図４は，音声復号化部１０４のブロック構成図を示す。音声復号化部１０４は，蓄積部１０３から取り出したディジタル音声信号（符号化されたスペクトル包絡情報，ピッチ情報，利得情報および雑音源情報）を入力し，符号化されたスペクトル包絡情報を復元するスペクトル包絡復号部４０１と，符号化されたピッチ情報を復元するピッチ情報復号部４０２と，符号化された雑音源情報から雑音源情報を復元する雑音源復号部４０３と，符号化された利得情報を復元する利得復号部４０４と，復元されたスペクトル包絡情報と復元されたピッチ情報，利得情報および雑音源情報から生成された励振源信号とから合成音声を生成する音声合成部４０５と，から構成される。
【００３２】
以上の構成において，図５の実施の形態１の音声圧縮符号化装置１００の概略フローチャートおよび図６の音声符号化部の動作手順を示すフローチャートを参照してその動作を説明する。図１において，アナログ音声入力装置（図示せず）から入力されたアナログ音声信号（アナログ音声波形）はＡ／Ｄ変換部１０１によってディジタル音声信号に変換される（Ｓ５０１）。ここで，アナログ音声入力装置としては，例えば，マイクロフォンや，ＣＤプレーヤ，カセットデッキ等が挙げられる。
【００３３】
続いて，ディジタル音声信号を入力した音声符号化部１０２は，ディジタル音声信号を所定の符号化方式で符号化する（Ｓ５０２）。ここで，図６の音声符号化部１０２の概略フローチャートを参照して，音声符号化部１０２による音声符号化処理について詳細に説明する。
【００３４】
先ず，ディジタル音声信号は，フレーム構成部２０１のフレーム構成処理によって，予め定められたサンプル数（例えば，２４０サンプル）のフレームと呼ばれる単位に分割される（Ｓ６０１）。なお，このフレームはフレーム信号としてスペクトル包絡抽出部２０２およびサブフレーム構成部２０３に出力される。
【００３５】
次に，スペクトル包絡抽出部２０２のスペクトル包絡抽出処理によって，該フレーム信号からスペクトル包絡情報を抽出して符号化（量子化）し，ピッチ情報抽出部２０４および雑音源抽出部２０６へ出力する（Ｓ６０２）。スペクトル包絡情報としては，例えば，線形予測分析に基づく線形予測係数，ＰＡＲＣＯＲ係数，ＬＳＰ係数等が挙げられる。またスペクトル包絡情報の符号化（量子化）には，ベクトル量子化や，スカラー量子化，分割ベクトル量子化，多段ベクトル量子化，あるいはそれらの複数の量子化の組み合わせが挙げられる。
【００３６】
一方，サブフレーム構成部２０３は，フレーム構成部２０１からフレーム信号を入力すると，サブフレーム構成処理を実行して，該フレーム信号を予め定められたサンプル数（例えば，６０サンプル）に分割し，サブフレーム信号として出力する（Ｓ６０３）。
【００３７】
各サブフレーム信号は，ピッチ情報抽出部２０４のピッチ情報抽出処理によって，スペクトル包絡抽出部２０２によって抽出されたスペクトル包絡情報を用いて，ピッチ情報が抽出され，符号化される（Ｓ６０４）。ピッチ情報の抽出には，ＣＥＬＰ方式における適応符号帳探索，またはフーリエ変換やウェーブレット変換等のスペクトル情報から求める方法等が考えられる。適応符号帳探索の場合，聴覚重みづけフィルタを用いる場合もある。聴覚重みづけフィルタは前記線形予測係数から構成することができる。
【００３８】
ピッチ情報抽出部２０４で抽出されたピッチ情報は，利得抽出部２０５に入力され，利得抽出処理によって利得情報（利得成分）が抽出されて符号化される（Ｓ６０５）。
【００３９】
雑音源抽出部２０６では，二次誤差信号構成部３０１，ＤＣＴ変換部３０２，および係数変換部３０３によって雑音源抽出処理が実行される（Ｓ６０６）。具体的には，先ず，図３に示すように，二次誤差信号構成部３０１がサブフレーム信号，スペクトル包絡情報，ピッチ情報および利得情報を用いて，雑音源抽出処理を実行し，二次誤差信号を構成する。この際，前サブフレームまでの残差信号と，ピッチ情報抽出部２０４において抽出したピッチ情報と，利得抽出部２０５において抽出した利得情報と，によってピッチ成分残差信号を構成し，さらに，構成したピッチ成分残差信号とスペクトル包絡情報とからピッチ成分信号を構成した後，サブフレーム信号からピッチ成分信号を差し引くことによって二次誤差信号を得ることができる。なお，ピッチ成分残差信号とスペクトル包絡情報とからピッチ成分信号を得るには，スペクトル包絡情報によって得られる合成フィルタに残差信号を通す等の方法を用いることができる。このようにして構成された二次誤差信号は，ＤＣＴ変換部３０２に出力される。
【００４０】
次に，ＤＣＴ変換部３０２は，二次誤差信号を入力してＤＣＴ変換し，ＤＣＴ変換によって得られた複数のＤＣＴ係数（すなわち，ＤＣＴ係数列）を係数変換部３０３へ出力する。
【００４１】
係数変換部３０３において，係数選択部３０４は，複数のＤＣＴ係数を入力しすると，ＤＣＴ係数列からＤＣＴ係数の選択を行い，選択結果を出力する。変換部３０５は，係数選択部３０４の選択結果に基づいてＤＣＴ係数列を所定のビット長に変換して出力する。すなわち，ＤＣＴ係数列を符号化し，雑音源情報として出力する。
【００４２】
このようにして音声符号化部１０２は，ディジタル音声信号からスペクトル包絡情報，ピッチ情報，利得情報および雑音源情報を抽出して符号化し，これらを量子化信号（符号化したディジタル音声信号）として出力する。
【００４３】
図５に戻って，音声符号化部１０２から出力された量子化信号（符号化したディジタル音声信号）は，蓄積部１０３によって蓄積される（Ｓ５０３）。
【００４４】
次に，蓄積部１０３に蓄積された量子化信号（符号化されたディジタル音声信号）は，必要に応じて，音声復号化部１０４によって読み出されて復号化（復元）される（Ｓ６０４）。音声復号化部１０４においては，図４に示すように，スペクトル包絡復号部４０１でスペクトル包絡情報が復元され，ピッチ情報復号部４０２でピッチ情報が復元され，雑音源復号部４０３で雑音源情報が復元され，さらに，利得復号部４０４で利得情報が復元される。ここで，復元されたピッチ情報，雑音源情報および利得情報は，残差信号（励振源信号）を構成する。音声合成部４０５は，復元されたスペクトル包絡情報と残差信号とからディジタル音声信号である復号音声（合成音声）を生成して，Ｄ／Ａ変換部１０５に出力する。
【００４５】
続いて，音声合成部４０５（すなわち，音声復号化部１０４）から出力されたディジタル音声信号は，図１に示すように，Ｄ／Ａ変換部１０５でアナログ音声信号（アナログ音声波形）に変換される（Ｓ５０５）。
【００４６】
前述したように本実施の形態１は，ＣＥＬＰ音声符号化に属する音声圧縮符号化方法を用いた音声圧縮符号化装置である。
【００４７】
従来のＣＥＬＰ方式では，二次誤差信号の符号帳を持ち，符号帳に属する各符号ベクトルとスペクトル包絡情報とから二次誤差信号を合成し，入力信号から得られた二次誤差信号と比較し，そのひずみが最小となる符号を選択することによって符号化を行っている。因みに，この探索においては聴覚重みづけフィルタを用いることができる。ところが，ＣＥＬＰ方式は，高音質で低ビットレートの音声圧縮符号化技術であるものの，符号帳探索のための演算量の多さが問題となっている。
【００４８】
これに対して，実施の形態１の音声圧縮符号化装置によれば，この二次誤差信号の符号化において，符号帳やフィルタ計算によらず，二次誤差信号を離散コサイン変換（ＤＣＴ）し，その結果であるＤＣＴ係数を所定のビット長に変換することにより符号化を行うものである。前述したようにＤＣＴ係数は，係数変換部３０３に送られて，係数選択部３０４で選択され，変換部３０５において所定のビット長に変換される。
【００４９】
すなわち，符号帳を持たず，かつ，フィルタ計算を用いた符号帳探索を行わないため，従来のＣＥＬＰ方式と比較して，低演算量で高音質かつ低ビットレートの音声圧縮符号化装置（音声圧縮符号化方法）が可能になる。これによって，リアルタイム処理を実現することが可能である。
【００５０】
換言すれば，実施の形態１の音声圧縮符号化装置（音声圧縮符号化方法）は，ＣＥＬＰ方式の符号化の過程において，雑音励振源符号ベクトル探索によって行っていた二次誤差信号の符号化（量子化）を，二次誤差信号そのものを符号化（量子化）することにより，雑音励振源の探索における演算量を削減し，また雑音励振源符号ベクトルを蓄えるためのメモリを必要としないようにすることができる。
【００５１】
〔実施の形態２〕
図７は，実施の形態２の音声圧縮符号化装置の雑音源抽出部２０６のブロック構成図を示す。なお，その他の構成は実施の形態１と共通につき，ここでは異なる部分のみを図示し，説明する。
【００５２】
実施の形態２の音声圧縮符号化装置は，実施の形態１の音声圧縮符号化装置において，さらに，雑音源抽出部２０６が，サブフレーム信号の強度を測定する強度測定部３０６と，強度測定部３０６で測定した強度に基づいてビット長を算出するビット長算出部３０７と，を備え，変換部３０５が，ビット長算出部３０７で算出したビット長に基づいて，ＤＣＴ係数列の変換に使用するビット長を変更するものである。
【００５３】
以上の構成において，その動作を説明する。雑音源抽出部２０６に入力されたサブフレーム信号は，強度測定部３０６に送られ，強度測定部３０６でサブフレーム信号の強度Ｐが測定され，測定された強度Ｐはビット長算出部３０７に送られる（請求項９の強度測定工程に相当する）。
【００５４】
ビット長算出部３０７には，あらかじめ強度Ｐと符号化ビットＬとの関係が関数Ｌ（Ｐ）として設定されており，ビット長算出部３０７は，強度測定部３０６から強度Ｐを入力すると，関数Ｌ（Ｐ）を用いて符号化ビットＬの値（ビット長）を算出し，符号化ビットＬを変換部３０５へ出力する（請求項９のビット長算出工程に相当する）。
【００５５】
係数変換部３０３では，係数選択部３０４がＤＣＴ変換部３０２から送られてきたＤＣＴ係数列からＤＣＴ係数の選択を行い変換部３０５へ出力する。変換部３０５は，係数選択部３０４から入力したＤＣＴ係数を，ビット長算出部３０７から入力した符号化ビットＬの長さに符号化する（請求項９の変換工程に相当する）。
【００５６】
前述したように実施の形態２の音声圧縮符号化装置（音声圧縮符号化方法）によれば，全てのフレームの信号を同一のビットレートで符号化するのではなく，信号の性質（強度）によってビットレートを変化させるため，より効率的な符号化が可能である。例えば，入力サブフレーム信号の強度が小さい場合は，ほぼ無音区間あるいは雑音のみの区間であると考えることができるため，このような信号の場合に，付与する符号ビット数を削減することにより，有音区間の音質は維持したままで平均的なビットレートを削減することが可能となる。併せて，有音区間の場合に，付与する符号ビット数を増加させることで，全体的なビットレートを増加させることなく，有音区間の音質を向上させることができる。
【００５７】
〔実施の形態３〕
図８は，実施の形態３の音声圧縮符号化装置の雑音源抽出部２０６のブロック構成図を示す。なお，その他の構成は実施の形態１と共通につき，ここでは異なる部分のみを図示し，説明する。
【００５８】
実施の形態３の音声圧縮符号化装置は，実施の形態１の音声圧縮符号化装置において，さらに，雑音源抽出部２０６が，サブフレーム信号の強度を測定する強度測定部３０６と，強度測定部３０６で測定した強度に基づいて，係数選択部３０４で選択する離散コサイン変換係数の本数を設定する本数設定部３０８と，を備え，係数選択部３０４が，本数設定部３０８で設定された本数に基づいて，選択する離散コサイン変換係数の数を変更するものである。
【００５９】
以上の構成において，その動作を説明する。雑音源抽出部２０６に入力されたサブフレーム信号は，強度測定部３０６に送られ，強度測定部３０６でサブフレーム信号の強度Ｐが測定され，測定された強度Ｐは本数設定部３０８に送られる（請求項１０の強度測定工程に相当する）。
【００６０】
本数設定部３０８には，あらかじめ強度Ｐと選択本数Ｎとの関係が関数Ｎ（Ｐ）として設定されており，本数設定部３０８は，強度測定部３０６から強度Ｐを入力すると，関数Ｎ（Ｐ）を用いて選択本数Ｎの値を算出し，選択本数Ｎを係数選択部３０４へ出力する（請求項１０の本数設定工程に相当する）。
【００６１】
係数選択部３０４では，ＤＣＴ変換部３０２から送られてきたＤＣＴ係数列を，本数設定部３０８から入力した選択本数Ｎに相当する本数のＤＣＴ係数を選択し，変換部３０５へ送る（請求項１０の係数選択工程に相当する）。
【００６２】
変換部３０５では，送られてきたＮ本（本数）のＤＣＴ係数を所定のビット長に符号化する。
【００６３】
前述したように実施の形態３の音声圧縮符号化装置（音声圧縮符号化方法）によれば，サブフレームの強度に応じて選択するＤＣＴ係数の数を変更するため，例えば，入力サブフレーム信号の強度が小さくなれば選択されるＤＣＴ係数の本数が減少するように変化させ，選択されるＤＣＴ係数の本数が減少すれば，出力されるビット長が減少するように設定することにより，有音区間の精度を高く維持したままで平均的なビットレートの削減を行うことが可能である。
【００６４】
〔実施の形態４〕
図９は，実施の形態４の音声圧縮符号化装置の雑音源抽出部２０６のブロック構成図を示す。なお，その他の構成は実施の形態１と共通につき，ここでは異なる部分のみを図示し，説明する。
【００６５】
実施の形態４の音声圧縮符号化装置は，実施の形態１で示した係数選択部３０４が，ＤＣＴ係数列の帯域を所定数に分割し，分割されたＤＣＴ係数列の帯域単位のそれぞれにおいて，所定のＤＣＴ係数を選択するものであり，図９に示すように，係数選択部３０４が，ＤＣＴ係数列の帯域を所定数に分割する係数分割部５００と，係数の帯域に応じて配置されており，かつ，それぞれ送られてきた係数から所定数を選択するｍ個の分割係数選択部５０１〜５０ｍと，を有している。
【００６６】
以上の構成において，その動作を説明する。係数選択部３０４では，ＤＣＴ変換部３０２から送られてきたＤＣＴ係数列を，係数分割部５００で帯域分割して所定数（ここでは，ｍ個の帯域）に分割し，それぞれ係数の帯域に相当する次段の分割係数選択部５０１〜５０ｍに送る。各分割係数選択部５０１〜５０ｍは，それぞれ送られてきた係数から所定するを選択し，変換部３０５へ送出する（請求項１１の係数選択工程に相当する）。
【００６７】
なお，係数分割部５００におけるＤＣＴ係数列の帯域の分割方法としては，例えば，図１０（ａ）のようにＤＣＴ係数列を表した場合に，図１０（ｂ）のように隣接する係数をまとめる分割方法や，図１０（ｃ）のようにＡＣＥＬＰで用いられるＡｌｇｅｂｒａｉｃ符号のような所定の間隔をおいた係数同士をまとめる分割方法等が考えられる。
【００６８】
前述したように実施の形態４の音声圧縮符号化装置（音声圧縮符号化方法）によれば，ＤＣＴ係数列の帯域を所定数に分割し，分割されたＤＣＴ係数列の帯域単位のそれぞれにおいて，所定のＤＣＴ係数を選択するため，さらに全体の圧縮率を高めることができる。すなわち，ＤＣＴ係数列を全体から所定数選択し，選択されたＤＣＴ係数の係数位置（周波数）を符号化するためには，例えば，サブフレーム長が６４サンプルの場合，一本あたり６ビット必要になるが，ＤＣＴ係数の帯域を所定数に分割することにより，一本選択するのに必要なビット数を削減することができる。具体的には，例えば，帯域を四等分することにより，一本あたり４ビットで良くなる。したがって，同一本数の係数を選択するのに必要なビット長の削減が可能となり，全体の圧縮率を高めることができる。
【００６９】
〔実施の形態５〕
図１１は，実施の形態５の音声圧縮符号化装置の雑音源抽出部２０６のブロック構成図を示す。なお，その他の構成は実施の形態１と共通につき，ここでは異なる部分のみを図示し，説明する。
【００７０】
実施の形態５の音声圧縮符号化装置は，実施の形態１の音声圧縮符号化装置において，さらに，雑音源抽出部２０６が，サブフレーム信号の強度を測定する強度測定部３０６と，強度測定部３０６で測定した強度に基づいてビット長を算出するビット長算出部３０７と，を備え，係数選択部３０４が，ＤＣＴ係数列の帯域を所定数に分割し，分割された離散コサイン変換係数列の帯域単位のそれぞれにおいて，所定の離散コサイン変換係数を選択し，変換部３０５が，分割された離散コサイン変換係数列の帯域単位のそれぞれにおいて，ビット長算出部３０７で算出したビット長に基づいて，ＤＣＴ係数を変換する際のビット長を変更するものである。
【００７１】
以上の構成において，その動作を説明する。雑音源抽出部２０６に入力されたサブフレーム信号は，強度測定部３０６に送られ，強度測定部３０６でサブフレーム信号の強度Ｐが測定され，測定された強度Ｐはビット長算出部３０７に送られる（請求項１２の強度測定工程に相当する）。
【００７２】
ビット長算出部３０７には，あらかじめ強度Ｐと符号化ビットＬとの関係が関数Ｌ（Ｐ）として設定されており，ビット長算出部３０７は，強度測定部３０６から強度Ｐを入力すると，関数Ｌ（Ｐ）を用いて符号化ビットＬの値（ビット長）を算出し，符号化ビットＬを変換部３０５へ出力する（請求項１２のビット長算出工程に相当する）。
【００７３】
係数変換部３０３では，係数選択部３０４がＤＣＴ変換部３０２から送られてきたＤＣＴ係数列を，係数分割部５００で帯域分割して所定数（ここでは，ｍ個の帯域）に分割し，それぞれ係数の帯域に相当する次段の分割係数選択部５０１〜５０ｍに送る。各分割係数選択部５０１〜５０ｍは，それぞれ送られてきた係数から所定するを選択し，変換部３０５へ送出する（請求項１２の係数変換工程に相当する）。
【００７４】
続いて，変換部３０５が，係数選択部３０４から入力したＤＣＴ係数を，ビット長算出部３０７から入力した符号化ビットＬの長さに符号化する（請求項１２の変換工程に相当する）。
【００７５】
前述したように実施の形態５の音声圧縮符号化装置（音声圧縮符号化方法）によれば，全てのフレームの信号を同一のビットレートで符号化するのではなく，信号の性質（強度）によってビットレートを変化させるため，より効率的な符号化が可能である。例えば，入力サブフレーム信号の強度が小さい場合は，ほぼ無音区間あるいは雑音のみの区間であると考えることができるため，このような信号の場合に，付与する符号ビット数を削減することにより，有音区間の音質は維持したままで平均的なビットレートを削減することが可能となる。併せて，有音区間の場合に，付与する符号ビット数を増加させることで，全体的なビットレートを増加させることなく，有音区間の音質を向上させることができる。
【００７６】
また，ＤＣＴ係数列の帯域を所定数に分割し，分割されたＤＣＴ係数列の帯域単位のそれぞれにおいて，所定のＤＣＴ係数を選択するため，同一本数の係数を選択するのに必要なビット長の削減が可能となり，さらに全体の圧縮率を高めることができる。
【００７７】
〔実施の形態６〕
図１２は，実施の形態６の音声圧縮符号化装置の雑音源抽出部２０６のブロック構成図を示す。なお，その他の構成は実施の形態１と共通につき，ここでは異なる部分のみを図示し，説明する。
【００７８】
実施の形態６の音声圧縮符号化装置は，実施の形態１の音声圧縮符号化装置において，さらに，雑音源抽出部２０６が，サブフレーム信号の強度を測定する強度測定部３０６と，強度測定部３０６で測定した強度に基づいて，係数選択部３０４で選択する離散コサイン変換係数の本数を設定する本数設定部３０８と，を備え，係数選択部３０４が，ＤＣＴ係数列の帯域を所定数に分割し，分割されたＤＣＴ係数例の帯域単位のそれぞれに対し，本数設定部３０８で設定された本数に基づいて，選択するＤＣＴ係数の本数を変更するものである。
【００７９】
以上の構成において，その動作を説明する。雑音源抽出部２０６に入力されたサブフレーム信号は，強度測定部３０６に送られ，強度測定部３０６でサブフレーム信号の強度Ｐが測定され，測定された強度Ｐは本数設定部３０８に送られる（請求項１３の強度測定工程に相当する）。
【００８０】
本数設定部３０８には，あらかじめ強度Ｐと選択本数Ｎとの関係が関数Ｎ（Ｐ）として設定されており，本数設定部３０８は，強度測定部３０６から強度Ｐを入力すると，関数Ｎ（Ｐ）を用いて選択本数Ｎの値を算出し，選択本数Ｎを係数選択部３０４へ出力する（請求項１３の本数設定工程に相当する）。
【００８１】
係数変換部３０３では，係数選択部３０４が，ＤＣＴ変換部３０２から送られてきたＤＣＴ係数列を，本数設定部３０８から入力した選択本数Ｎに相当する本数のＤＣＴ係数を選択し，変換部３０５へ送る（請求項１３の係数選択工程に相当する）。
【００８２】
変換部３０５では，送られてきたＮ本（本数）のＤＣＴ係数を所定のビット長に符号化する。
【００８３】
前述したように実施の形態６の音声圧縮符号化装置（音声圧縮符号化方法）によれば，サブフレームの強度に応じて選択するＤＣＴ係数の数を変更するため，例えば，入力サブフレーム信号の強度が小さくなれば選択されるＤＣＴ係数の本数が減少するように変化させ，選択されるＤＣＴ係数の本数が減少すれば，出力されるビット長が減少するように設定することにより，有音区間の精度を高く維持したままで平均的なビットレートの削減を行うことが可能である。
【００８４】
また，ＤＣＴ係数列の帯域を所定数に分割し，分割されたＤＣＴ係数列の帯域単位のそれぞれにおいて，所定のＤＣＴ係数を選択するため，同一本数の係数を選択するのに必要なビット長の削減が可能となり，さらに全体の圧縮率を高めることができる。
【００８５】
なお，前述した実施の形態１〜実施の形態６の音声圧縮符号化装置の他の実施の形態として，係数選択部３０４でＤＣＴ係数列から所定数のＤＣＴ係数を選択する際に，ＤＣＴ係数の係数値の絶対値が最大のものから所定数を選択するようにしても良い。これによって，二次誤差信号の特徴を最もよく再現できるため，さらに精度の高い符号化を行うことができる。
【００８６】
また，前述した各実施の形態では，入力したアナログ音声波形をディジタル音声信号にディジタル化し，符号化（圧縮）して蓄積し，蓄積されているディジタル音声信号（符号化されたディジタル音声信号）を取り出して復号化し，さらにアナログ音声信号に変換して出力する例を記述しているが，本発明の本質とするところは，音声圧縮符号化方法における符号化および復号化の方法にあり，本発明の方法で，符号化した信号をネットワークや通信装置等の伝送手段を介して，伝送した後，本発明の方法で復号化する場合にも，当然のことながら本発明の範疇に属することは明らかである。
【００８７】
さらに，前述した各実施の形態で説明した音声圧縮符号化方法は，予め用意されたプログラムをパーソナルコンピュータや，ワークステーション等のコンピュータで実行することによって実現することもできる。このプログラムは，ハードディスク，プロッピーディスク，ＣＤ−ＲＯＭ，ＭＯ，ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され，コンピュータによって記録媒体から読み出されることによって実行される。また，このプログラムは，上記記録媒体またはネットワークを介して配布することも可能である。
【００８８】
【発明の効果】
以上説明したように，本発明の音声圧縮符号化装置（請求項１）によれば，音声符号化手段が，ディジタル音声信号をフレームと呼ばれる処理単位に分割するフレーム分割手段と，分割したフレームについてスペクトル包絡を表すスペクトル包絡情報を抽出して符号化するスペクトル包絡符号化手段と，分割したフレームからサブフレームと呼ばれる処理単位を構成するサブフレーム構成手段と，サブフレームのピッチ情報を抽出して符号化するピッチ情報抽出手段と，ピッチ情報から利得情報を抽出して符号化する利得情報抽出手段と，音源情報である雑音源情報を抽出して符号化する雑音源情報抽出手段と，を備え，音声復号化手段が，符号化されたスペクトル包絡情報を復号するスペクトル包絡情報復号手段と，符号化された雑音源情報を復号する雑音源情報復号手段と，符号化されたピッチ情報を復号するピッチ情報復号手段と，符号化された利得情報を復号する利得情報復号手段と，復号された雑音源情報，ピッチ情報および利得情報から励振源信号を生成する励振源信号生成手段と，励振源信号と復号されたスペクトル包絡情報とから合成信号を生成する合成信号生成手段と，を備え，さらに，雑音源情報抽出手段が，サブフレーム構成手段によって構成されたサブフレームの強度を測定する強度測定手段と，強度測定手段によって測定された強度が予め定められた強度より小さい場合に，離散コサイン変換係数の本数を減少させるように設定する本数設定手段と，サブフレーム構成手段によって構成されたサブフレームと，スペクトル包絡符号化手段によって抽出されたスペクトラム包絡情報と，ピッチ情報抽出手段によって抽出されたピッチ情報と，および利得情報抽出手段によって抽出された利得情報に基づいて，二次誤差信号を抽出する二次誤差信号抽出手段と，二次誤差信号抽出手段によって抽出された二次誤差信号を離散コサイン変換係数列に変換する離散コサイン変換手段と，離散コサイン変換手段によって変換された離散コサイン変換係数列から本数設定手段によって設定された本数に基づいて，離散コサイン変換係数の選択を行う係数選択手段と，係数選択手段によって選択された離散コサイン変換係数を入力し，所定長のビット列に変換して出力する変換手段と，を備えたため，サブフレームの強度に応じて選択する離散コサイン変換係数の数を変更することができ，例えば，入力サブフレーム信号の強度が小さくなれば選択される離散コサイン変換係数の本数が減少するように変化させ，選択される離散コサイン変換係数の本数が減少すれば，出力されるビット長が減少するように設定することにより，有音区間の精度を高く維持したままで平均的なビットレートの削減を行うことが可能である。また，ＣＥＬＰ方式の符号化の過程において，雑音励振源符号ベクトル探索によって行っていた二次誤差信号の符号化（量子化）を，二次誤差信号そのものを符号化（量子化）することにより，雑音励振源の探索における演算量を削減し，また雑音励振源符号ベクトルを蓄えるためのメモリを必要としないようにすることができる。
【００９１】
また，本発明の音声圧縮符号化装置（請求項２）は，音声符号化手段が，ディジタル音声信号をフレームと呼ばれる処理単位に分割するフレーム分割手段と，分割したフレームについてスペクトル包絡を表すスペクトル包絡情報を抽出して符号化するスペクトル包絡符号化手段と，分割したフレームからサブフレームと呼ばれる処理単位を構成するサブフレーム構成手段と，サブフレームのピッチ情報を抽出して符号化するピッチ情報抽出手段と，ピッチ情報から利得情報を抽出して符号化する利得情報抽出手段と，音源情報である雑音源情報を抽出して符号化する雑音源情報抽出手段と，を備え，音声復号化手段が，符号化されたスペクトル包絡情報を復号するスペクトル包絡情報復号手段と，符号化された雑音源情報を復号する雑音源情報復号手段と，符号化されたピッチ情報を復号するピッチ情報復号手段と，符号化された利得情報を復号する利得情報復号手段と，復号された雑音源情報，ピッチ情報および利得情報から励振源信号を生成する励振源信号生成手段と，励振源信号と復号されたスペクトル包絡情報とから合成信号を生成する合成信号生成手段と，を備え，雑音源情報抽出手段が，二次誤差信号を抽出する二次誤差信号抽出手段と，抽出された二次誤差信号を離散コサイン変換係数列に変換する離散コサイン変換手段と，離散コサイン変換手段で得られた離散コサイン変換係数列を所定のビット長に変換する係数列変換手段と，を備え，さらに，係数列変換手段が，離散コサイン変換係数列の帯域を所定数に分割し，分割された離散コサイン変換係数列の帯域単位のそれぞれにおいて，絶対値が最大の離散コサイン変換係数から所定数の離散コサイン変換係数を選択する係数選択手段と，係数選択手段で選択した離散コサイン変換係数を入力し，所定長のビット列に変換して出力する変換手段と，備えたため，同一本数の係数を選択するのに必要なビット長の削減が可能となり，さらに全体の圧縮率を高めることができる。また，ＣＥＬＰ方式の符号化の過程において，雑音励振源符号ベクトル探索によって行っていた二次誤差信号の符号化（量子化）を，二次誤差信号そのものを符号化（量子化）することにより，雑音励振源の探索における演算量を削減し，また雑音励振源符号ベクトルを蓄えるためのメモリを必要としないようにすることができる。
【００９７】
また，本発明の音声圧縮符号化方法（請求項３）は，音声符号化工程が，さらにディジタル音声信号をフレームと呼ばれる処理単位に分割するフレーム分割工程と，分割したフレームについてスペクトル包絡を表すスペクトル包絡情報を抽出して符号化するスペクトル包絡符号化工程と，分割したフレームからサブフレームと呼ばれる処理単位を構成するサブフレーム構成工程と，サブフレームのピッチ情報を抽出して符号化するピッチ情報抽出工程と，ピッチ情報から利得情報を抽出して符号化する利得情報抽出工程と，音源情報である雑音源情報を抽出して符号化する雑音源情報抽出工程と，を含み，音声復号化工程が，さらに符号化されたスペクトル包絡情報を復号するスペクトル包絡情報復号工程と，符号化された雑音源情報を復号する雑音源情報復号工程と，符号化されたピッチ情報を復号するピッチ情報復号工程と，符号化された利得情報を復号する利得情報復号工程と，復号された雑音源情報，ピッチ情報および利得情報から励振源信号を生成する励振源信号生成工程と，励振源信号と復号されたスペクトル包絡情報とから合成信号を生成する合成信号生成工程と，を含み，さらに，雑音源情報抽出工程が，サブフレーム構成工程によって構成されたサブフレームの強度を測定する強度測定工程と，強度測定工程によって測定された強度が予め定められた強度より小さい場合に，離散コサイン変換係数の本数を減少させるように設定する本数設定工程と，サブフレーム構成工程によって構成されたサブフレームと，スペクトル包絡符号化工程によって抽出されたスペクトラム包絡情報と，ピッチ情報抽出工程によって抽出されたピッチ情報と，および利得情報抽出工程によって抽出された利得情報に基づいて，二次誤差信号を抽出する二次誤差信号抽出工程と，二次誤差信号抽出工程によって抽出された二次誤差信号を離散コサイン変換係数列に変換する離散コサイン変換工程と，離散コサイン変換工程によって変換された離散コサイン変換係数列から本数設定工程によって設定された本数に基づいて，離散コサイン変換係数の選択を行う係数選択工程と，係数選択工程によって選択された離散コサイン変換係数を入力し，所定長のビット列に変換して出力する変換工程と，を含むため，サブフレームの強度に応じて選択する離散コサイン変換係数の数を変更することができ，例えば，入力サブフレーム信号の強度が小さくなれば選択される離散コサイン変換係数の本数が減少するように変化させ，選択される離散コサイン変換係数の本数が減少すれば，出力されるビット長が減少するように設定することにより，有音区間の精度を高く維持したままで平均的なビットレートの削減を行うことが可能である。また、ＣＥＬＰ方式の符号化の過程において，雑音励振源符号ベクトル探索によって行っていた二次誤差信号の符号化（量子化）を，二次誤差信号そのものを符号化（量子化）することにより，雑音励振源の探索における演算量を削減し，また雑音励振源符号ベクトルを蓄えるためのメモリを必要としないようにすることができる。
【００９８】
また，本発明の音声圧縮符号化方法（請求項４）は，音声符号化工程が，ディジタル音声信号をフレームと呼ばれる処理単位に分割するフレーム分割工程と，分割したフレームについてスペクトル包絡を表すスペクトル包絡情報を抽出して符号化するスペクトル包絡符号化工程と，分割したフレームからサブフレームと呼ばれる処理単位を構成するサブフレーム構成工程と，サブフレームのピッチ情報を抽出して符号化するピッチ情報抽出工程と，ピッチ情報から利得情報を抽出して符号化する利得情報抽出工程と，音源情報である雑音源情報を抽出して符号化する雑音源情報抽出工程と，を含み，音声復号化工程が，符号化されたスペクトル包絡情報を復号するスペクトル包絡情報復号工程と，符号化された雑音源情報を復号する雑音源情報復号工程と，符号化されたピッチ情報を復号するピッチ情報復号工程と，符号化された利得情報を復号する利得情報復号工程と，復号された雑音源情報，ピッチ情報および利得情報から励振源信号を生成する励振源信号生成工程と，励振源信号と復号されたスペクトル包絡情報とから合成信号を生成する合成信号生成工程と，を含み，雑音源情報抽出工程が，二次誤差信号を抽出する二次誤差信号抽出工程と，抽出された二次誤差信号を離散コサイン変換係数列に変換する離散コサイン変換工程と，離散コサイン変換工程で得られた離散コサイン変換係数列を所定のビット長に変換する係数列変換工程と，を含み，さらに，係数列変換工程が，離散コサイン変換係数列の帯域を所定数に分割し，分割された離散コサイン変換係数列の帯域単位のそれぞれにおいて，絶対値が最大の離散コサイン変換係数から所定数の離散コサイン変換係数を選択する係数選択工程と，係数選択工程で選択した離散コサイン変換係数を入力し，所定長のビット列に変換して出力する変換工程と，を含むため，同一本数の係数を選択するのに必要なビット長の削減が可能となり，さらに全体の圧縮率を高めることができる。また、ＣＥＬＰ方式の符号化の過程において，雑音励振源符号ベクトル探索によって行っていた二次誤差信号の符号化（量子化）を，二次誤差信号そのものを符号化（量子化）することにより，雑音励振源の探索における演算量を削減し，また雑音励振源符号ベクトルを蓄えるためのメモリを必要としないようにすることができる。
【０１０２】
また，本発明のコンピュータ読み取り可能な記録媒体（請求項５）は，請求項３または請求項４に記載の音声圧縮符号化方法の各工程をコンピュータに実行させるためのプログラムを記録したため，このプログラムをコンピュータに実行させることにより，ＣＥＬＰ方式の符号化の過程において，雑音励振源符号ベクトル探索によって行っていた二次誤差信号の符号化（量子化）を，二次誤差信号そのものを符号化（量子化）することにより，雑音励振源の探索における演算量を削減し，また雑音励振源符号ベクトルを蓄えるためのメモリを必要としないようにすることができる。サブフレームの強度に応じて選択する離散コサイン変換係数の数を変更することができ，例えば，入力サブフレーム信号の強度が小さくなれば選択される離散コサイン変換係数の本数が減少するように変化させ，選択される離散コサイン変換係数の本数が減少すれば，出力されるビット長が減少するように設定することにより，有音区間の精度を高く維持したままで平均的なビットレートの削減を行うことが可能である。また、同一本数の係数を選択するのに必要なビット長の削減が可能となり，さらに全体の圧縮率を高めることができる。
【図面の簡単な説明】
【図１】実施の形態１の音声圧縮符号化装置の概略構成図である。
【図２】実施の形態１の音声符号化部のブロック構成図である。
【図３】実施の形態１の雑音源抽出部の概略ブロック図である。
【図４】実施の形態１の音声復号化部の一部構成を示すブロック図である。
【図５】実施の形態１の音声圧縮符号化装置（音声圧縮符号化方法）の概略フローチャートである。
【図６】実施の形態１の音声符号化部の動作手順を示すフローチャートである。
【図７】実施の形態２の音声圧縮符号化装置の雑音源抽出部の構成を示すブロック図である。
【図８】実施の形態３の音声圧縮符号化装置の雑音源抽出部の構成を示すブロック図である。
【図９】実施の形態４の音声圧縮符号化装置の雑音源抽出部の構成を示すブロック図である。
【図１０】実施の形態４の係数分割部におけるＤＣＴ係数列の帯域の分割方法の一例を示す説明図である。
【図１１】実施の形態５の音声圧縮符号化装置の雑音源抽出部の構成を示すブロック図である。
【図１２】実施の形態６の音声圧縮符号化装置の雑音源抽出部の構成を示すブロック図である。
【符号の説明】
１００音声圧縮符号化装置
１０１Ａ／Ｄ変換部
１０２音声符号化部
１０３蓄積部
１０４音声復号化部
１０５Ｄ／Ａ変換部
２０１フレーム構成部
２０２スペクトル包絡抽出部
２０３サブフレーム構成部
２０４ピッチ情報抽出部
２０５利得抽出部
２０６雑音源抽出部
３０１二次誤差信号構成部
３０２ＤＣＴ変換部
３０３係数変換部
３０４係数選択部
３０５変換部
３０６強度測定部
３０７ビット長算出部
３０８本数設定部
４０１スペクトル包絡復号部
４０２ピッチ情報復号部
４０３雑音源復号部
４０４利得復号部
４０５音声合成部
５００係数分割部
５０１〜５０ｍ分割係数選択部

Claims

アナログ音声波形をディジタル音声信号にディジタル化するＡ／Ｄ変換手段と，前記ディジタル音声信号を所定の符号化方式で符号化する音声符号化手段と，前記符号化されたディジタル音声信号を蓄積する蓄積手段と，前記蓄積されたディジタル音声信号を取り出して復号化する音声復号化手段と，前記復号化されたディジタル音声信号をアナログ音声信号に変換するＤ／Ａ変換手段と，を有する音声圧縮符号化装置において，
前記音声符号化手段が，さらに前記ディジタル音声信号をフレームと呼ばれる処理単位に分割するフレーム分割手段と，前記分割したフレームについてスペクトル包絡を表すスペクトル包絡情報を抽出して符号化するスペクトル包絡符号化手段と，前記分割したフレームからサブフレームと呼ばれる処理単位を構成するサブフレーム構成手段と，前記サブフレームのピッチ情報を抽出して符号化するピッチ情報抽出手段と，前記ピッチ情報から利得情報を抽出して符号化する利得情報抽出手段と，音源情報である雑音源情報を抽出して符号化する雑音源情報抽出手段と，を備え，
前記音声復号化手段が，さらに前記符号化されたスペクトル包絡情報を復号するスペクトル包絡情報復号手段と，前記符号化された雑音源情報を復号する雑音源情報復号手段と，前記符号化されたピッチ情報を復号するピッチ情報復号手段と，前記符号化された利得情報を復号する利得情報復号手段と，前記復号された雑音源情報，ピッチ情報および利得情報から励振源信号を生成する励振源信号生成手段と，前記励振源信号と前記復号されたスペクトル包絡情報とから合成信号を生成する合成信号生成手段と，を備え，
さらに，前記雑音源情報抽出手段が，前記サブフレーム構成手段によって構成された前記サブフレームの強度を測定する強度測定手段と，前記強度測定手段によって測定された前記強度が予め定められた強度より小さい場合に，離散コサイン変換係数の本数を減少させるように設定する本数設定手段と，前記サブフレーム構成手段によって構成された前記サブフレームと，前記スペクトル包絡符号化手段によって抽出された前記スペクトラム包絡情報と，前記ピッチ情報抽出手段によって抽出された前記ピッチ情報と，および前記利得情報抽出手段によって抽出された前記利得情報に基づいて，二次誤差信号を抽出する二次誤差信号抽出手段と，前記二次誤差信号抽出手段によって抽出された前記二次誤差信号を離散コサイン変換係数列に変換する離散コサイン変換手段と，前記離散コサイン変換手段によって変換された前記離散コサイン変換係数列から前記本数設定手段によって設定された本数に基づいて，離散コサイン変換係数の選択を行う係数選択手段と，前記係数選択手段によって選択された前記離散コサイン変換係数を入力し，所定長のビット列に変換して出力する変換手段と，
を備えることを特徴とする音声圧縮符号化装置。
アナログ音声波形をディジタル音声信号にディジタル化するＡ／Ｄ変換手段と，前記ディジタル音声信号を所定の符号化方式で符号化する音声符号化手段と，前記符号化されたディジタル音声信号を蓄積する蓄積手段と，前記蓄積されたディジタル音声信号を取り出して復号化する音声復号化手段と，前記復号化されたディジタル音声信号をアナログ音声信号に変換するＤ／Ａ変換手段と，を有する音声圧縮符号化装置において，
前記音声符号化手段が，前記ディジタル音声信号をフレームと呼ばれる処理単位に分割するフレーム分割手段と，前記分割したフレームについてスペクトル包絡を表すスペクトル包絡情報を抽出して符号化するスペクトル包絡符号化手段と，前記分割したフレームからサブフレームと呼ばれる処理単位を構成するサブフレーム構成手段と，前記サブフレームのピッチ情報を抽出して符号化するピッチ情報抽出手段と，前記ピッチ情報から利得情報を抽出して符号化する利得情報抽出手段と，音源情報である雑音源情報を抽出して符号化する雑音源情報抽出手段と，を備え，
前記音声復号化手段が，前記符号化されたスペクトル包絡情報を復号するスペクトル包絡情報復号手段と，前記符号化された雑音源情報を復号する雑音源情報復号手段と，前記符号化されたピッチ情報を復号するピッチ情報復号手段と，前記符号化された利得情報を復号する利得情報復号手段と，前記復号された雑音源情報，ピッチ情報および利得情報から励振源信号を生成する励振源信号生成手段と，前記励振源信号と前記復号されたスペクトル包絡情報とから合成信号を生成する合成信号生成手段と，を備え，
前記雑音源情報抽出手段が，二次誤差信号を抽出する二次誤差信号抽出手段と，前記抽出された前記二次誤差信号を離散コサイン変換係数列に変換する離散コサイン変換手段と，前記離散コサイン変換手段で得られた離散コサイン変換係数列を所定のビット長に変換する係数列変換手段と，を備え，
さらに，前記係数列変換手段が，前記離散コサイン変換係数列の帯域を所定数に分割し，分割された離散コサイン変換係数列の帯域単位のそれぞれにおいて，絶対値が最大の離散コサイン変換係数から所定数の離散コサイン変換係数を選択する係数選択手段と，前記係数選択手段で選択した離散コサイン変換係数を入力し，所定長のビット列に変換して出力する変換手段と，を備えることを特徴とする音声圧縮符号化装置。
アナログ音声波形をディジタル音声信号にディジタル化するＡ／Ｄ変換工程と，前記ディジタル音声信号を所定の符号化方式で符号化する音声符号化工程と，前記符号化されたディジタル音声信号を蓄積する蓄積工程と，前記蓄積されたディジタル音声信号を取り出して復号化する音声復号化工程と，前記復号化されたディジタル音声信号をアナログ音声信号に変換するＤ／Ａ変換工程と，を有する音声圧縮符号化方法において，
前記音声符号化工程が，さらに前記ディジタル音声信号をフレームと呼ばれる処理単位に分割するフレーム分割工程と，前記分割したフレームについてスペクトル包絡を表すスペクトル包絡情報を抽出して符号化するスペクトル包絡符号化工程と，前記分割したフレームからサブフレームと呼ばれる処理単位を構成するサブフレーム構成工程と，前記サブフレームのピッチ情報を抽出して符号化するピッチ情報抽出工程と，前記ピッチ情報から利得情報を抽出して符号化する利得情報抽出工程と，音源情報である雑音源情報を抽出して符号化する雑音源情報抽出工程と，を含み，
前記音声復号化工程が，さらに前記符号化されたスペクトル包絡情報を復号するスペクトル包絡情報復号工程と，前記符号化された雑音源情報を復号する雑音源情報復号工程と，前記符号化されたピッチ情報を復号するピッチ情報復号工程と，前記符号化された利得情報を復号する利得情報復号工程と，前記復号された雑音源情報，ピッチ情報および利得情報から励振源信号を生成する励振源信号生成工程と，前記励振源信号と前記復号されたスペクトル包絡情報とから合成信号を生成する合成信号生成工程と，を含み，
さらに，前記雑音源情報抽出工程が，前記サブフレーム構成工程によって構成された前記サブフレームの強度を測定する強度測定工程と，前記強度測定工程によって測定された前記強度が予め定められた強度より小さい場合に，離散コサイン変換係数の本数を減少させるように設定する本数設定工程と，前記サブフレーム構成工程によって構成された前記サブフレームと，前記スペクトル包絡符号化工程によって抽出された前記スペクトラム包絡情報と，前記ピッチ情報抽出工程によって抽出された前記ピッチ情報と，および前記利得情報抽出工程によって抽出された前記利得情報に基づいて，二次誤差信号を抽出する二次誤差信号抽出工程と，前記二次誤差信号抽出工程によって抽出された前記二次誤差信号を離散コサイン変換係数列に変換する離散コサイン変換工程と，前記離散コサイン変換工程によって変換された前記離散コサイン変換係数列から前記本数設定工程によって設定された本数に基づいて，離散コサイン変換係数の選択を行う係数選択工程と，前記係数選択工程によって選択された前記離散コサイン変換係数を入力し，所定長のビット列に変換して出力する変換工程と，
を含むことを特徴とする音声圧縮符号化方法。
アナログ音声波形をディジタル音声信号にディジタル化するＡ／Ｄ変換工程と，前記ディジタル音声信号を所定の符号化方式で符号化する音声符号化工程と，前記符号化されたディジタル音声信号を蓄積する蓄積工程と，前記蓄積されたディジタル音声信号を取り出して復号化する音声復号化工程と，前記復号化されたディジタル音声信号をアナログ音声信号に変換するＤ／Ａ変換工程と，を有する音声圧縮符号化方法において，
前記音声符号化工程が，前記ディジタル音声信号をフレームと呼ばれる処理単位に分割するフレーム分割工程と，前記分割したフレームについてスペクトル包絡を表すスペクトル包絡情報を抽出して符号化するスペクトル包絡符号化工程と，前記分割したフレームからサブフレームと呼ばれる処理単位を構成するサブフレーム構成工程と，前記サブフレームのピッチ情報を抽出して符号化するピッチ情報抽出工程と，前記ピッチ情報から利得情報を抽出して符号化する利得情報抽出工程と，音源情報である雑音源情報を抽出して符号化する雑音源情報抽出工程と，を含み，
前記音声復号化工程が，前記符号化されたスペクトル包絡情報を復号するスペクトル包絡情報復号工程と，前記符号化された雑音源情報を復号する雑音源情報復号工程と，前記符号化されたピッチ情報を復号するピッチ情報復号工程と，前記符号化された利得情報を復号する利得情報復号工程と，前記復号された雑音源情報，ピッチ情報および利得情報から励振源信号を生成する励振源信号生成工程と，前記励振源信号と前記復号されたスペクトル包絡情報とから合成信号を生成する合成信号生成工程と，を含み，
前記雑音源情報抽出工程が，二次誤差信号を抽出する二次誤差信号抽出工程と，前記抽出された二次誤差信号を離散コサイン変換係数列に変換する離散コサイン変換工程と，前記離散コサイン変換工程で得られた前記離散コサイン変換係数列を所定のビット長に変換する係数列変換工程と，を含み，
さらに，前記係数列変換工程が，前記離散コサイン変換係数列の帯域を所定数に分割し，分割された離散コサイン変換係数列の帯域単位のそれぞれにおいて，絶対値が最大の離散コサイン変換係数から所定数の離散コサイン変換係数を選択する係数選択工程と，前記係数選択工程で選択した前記離散コサイン変換係数を入力し，所定長のビット列に変換して出力する変換工程と，を含むことを特徴とする音声圧縮符号化方法。
請求項３または請求項４に記載の音声圧縮符号化方法の各工程をコンピュータに実行させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。