JP3360046B2

JP3360046B2 - 音声符号化装置、音声復号化装置及び音声符復号化方法

Info

Publication number: JP3360046B2
Application number: JP27511999A
Authority: JP
Inventors: 正米崎
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1999-09-28
Filing date: 1999-09-28
Publication date: 2002-12-24
Anticipated expiration: 2019-09-28
Also published as: WO2001024164A1; JP2001100798A; EP1132891A1; AU7321200A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自動車電話、携帯
電話等の無線通信システムの通信装置に使用される音声
符号化装置、音声復号化装置及び音声符復号化方法に関
する。

【０００２】

【従来の技術】近年、需要が急増している無線通信シス
テムの分野では、電波資源の有効利用のため低ビットレ
ートで高品質に音声を符復号化できる装置の開発が進め
られている。

【０００３】図１２は、従来の音声符号化装置及び音声
復号化装置の構成を示すブロック図である。

【０００４】図１２の音声符号化装置１において、スペ
クトル包絡分析部１１は、入力音声信号のスペクトル包
絡情報を推定する。スペクトル包絡量子化部１２は、ス
ペクトル包絡分析部１１にて推定されたスペクトル包絡
情報を量子化する。

【０００５】逆フィルタ１３は、入力音声信号に対し
て、スペクトル包絡量子化部１２にて量子化されたスペ
クトル包絡情報の周波数特性の逆特性をフィルタリング
してスペクトル包絡成分を除去する。これにより、周波
数特性が平坦な信号を得ることができる。この信号は、
発声過程において声帯で生じる音源信号を模したものと
考えられる。以下、この信号を「音源信号」という。

【０００６】音源符号帳１４には、平坦な周波数特性を
有する信号が蓄積されている。音源符号化部１５は、音
源信号に最も近い信号を音源符号帳１４から探索し、そ
の符号（以下、「音源符号」という）を出力する。

【０００７】多重化部１６は、スペクトル包絡量子化部
１２から出力されたスペクトル包絡情報の量子化値を示
す符号と、音源符号化部１５から出力された音源符号と
を符号列として多重化して通信路に送出する。

【０００８】図１２の音声復号化装置２において、逆多
重化部２１は、受信した符号列をスペクトル包絡情報の
量子化値を示す符号と音源符号とに分離する。

【０００９】音源符号帳２２には、音源符号帳１４と同
一の信号が蓄積されている。音源選択部２３は、受信し
た音源符号に対応する信号を音源符号帳２２の中から選
択して抽出する。

【００１０】合成フィルタ２４は、音源選択部２３にて
抽出された信号が、受信したスペクトル包絡情報の周波
数特性を有するようにフィルタリングし、復号音声を出
力する。

【００１１】このように、従来の音声符号化装置及び音
声復号化装置では、信号のダイナミックレンジや量子化
特性が異なるスペクトル包絡情報を音源信号と分離し、
それぞれの特性に応じた量子化器を構成することによ
り、高品質な音声符復号化を実現している。

【００１２】

【発明が解決しようとする課題】しかしながら、上記従
来の音声符号化装置及び音声復号化装置では、スペクト
ル包絡情報を量子化した結果に基づいてフィルタリング
を行っているため、低ビットレート化によりスペクトル
包絡情報の量子化において十分な精度を得られない場
合、音源信号を平坦化することができず量子化効率が低
下し、復号音声の品質が劣化するという問題を有する。

【００１３】本発明はかかる点に鑑みてなされたもので
あり、低ビットレートで情報を送信する場合であっても
高品質に音声復号を実現することができる音声符号化装
置、音声復号化装置及び音声符復号化方法を提供するこ
とを目的とする。

【００１４】

【課題を解決するための手段】本発明の音声符号化装置
は、入力音声信号から基本周波数とスペクトル包絡情報
を抽出する音声分析手段と、抽出された基本周波数を量
子化する基本周波数量子化手段と、抽出されたスペクト
ル包絡情報からスペクトル包絡曲面を生成するマトリッ
クス生成手段と、生成されたスペクトル包絡曲面に対し
時間軸方向の直交変換を行う時間軸直交変換手段と、直
交変換された時間軸変換係数に対し時間軸上の次数に応
じたモデルを適用しパラメータを抽出するモデル適用手
段と、抽出されたモデルパラメータを量子化するパラメ
ータ量子化手段と、スペクトル包絡曲面の量子化値と基
本周波数の量子化値とを多重化して送出する多重化手段
とを具備する構成を採る。

【００１５】この構成により、音源情報とスペクトル包
絡情報を独立して量子化し、時間軸変換係数の次数に応
じたモデルを適用して音声符号化することができるの
で、いずれかの情報の量子化精度が劣化することに伴っ
て他方の情報の量子化効率が低下することを避けること
ができ、低ビットレートで情報を送信する場合であって
も高品質に音声復号を実現することができる。

【００１６】

【００１７】

【００１８】

【００１９】

【００２０】

【００２１】

【００２２】本発明の音声符号化装置は、モデルを適用
しない時間軸変換係数に対し周波数軸方向の直交変換を
行う周波数軸直交変換手段を具備し、パラメータ量子化
手段は、抽出されたモデルパラメータ及び前記周波数軸
直交変換手段から出力された変換係数を量子化する構成
を採る。

【００２３】この構成により、モデル化により量子化効
率が向上する時間軸変換係数に対してのみモデルを適用
することができるので、モデル化による量子化効率を向
上しつつモデル化歪を低減し、低ビットレートで情報を
送信する場合であっても高品質に音声復号を実現するこ
とができる。

【００２４】本発明の音声符号化装置のモデル適用手段
は、入力信号に対してモデルを適用しパラメータを抽出
するモデルパラメータ推定手段と、このモデルパラメー
タ推定手段にてモデルを適用した際に生じた分析歪を推
定するモデル誤差推定手段とを具備する構成を採る。

【００２５】この構成により、モデル化歪を量子化する
ことができるので、モデル化による量子化効率を向上し
つつモデル化歪を低減し、低ビットレートで情報を送信
する場合であっても高品質に音声復号を実現することが
できる。

【００２６】本発明の音声符号化装置のパラメータ量子
化手段は、基本周波数情報とスペクトル包絡情報の少な
くとも一方を用いて各量子化対象値に対する量子化感度
を決定する重み算出手段と、予め求めた量子化対象値毎
の統計量を蓄積する統計量蓄積手段と、前記重み算出手
段から出力された量子化対象値に対する量子化感度及び
統計量蓄積手段に蓄積されている統計量から量子化器を
設計する量子化生成手段と、この量子化生成手段の設計
結果に基づいて量子化対象値を量子化する量子化手段と
を具備する構成を採る。

【００２７】この構成により、基本周波数もしくはスペ
クトル包絡情報に対して量子化器を適応させることがで
きるので、合成音声信号の客観的な量子化歪及び聴感上
の歪を低減することができる。

【００２８】本発明の音声符号化装置のパラメータ量子
化手段は、基本周波数情報とスペクトル包絡情報の少な
くとも一方を用いてスペクトル包絡上での量子化誤差尺
度を適応的に決定する誤差尺度決定手段と、符号帳に蓄
積されている量子化値をスペクトル包絡曲面に変換する
第１スペクトル包絡構成手段と、量子化対象値をスペク
トル包絡曲面に変換する第２スペクトル包絡構成手段
と、前記第１スペクトル包絡構成手段にて構成されたス
ペクトル包絡曲面と前記第２スペクトル包絡構成手段に
て構成されたスペクトル包絡曲面との誤差を誤差尺度に
基づいて算出する誤差算出手段と、誤差が最小となる量
子化値に対応する符号を符号帳から選択する符号選択手
段とを具備する構成を採る。

【００２９】この構成により、基本周波数もしくはスペ
クトル包絡情報に対して適応させた量子化時の誤差尺度
を用いてスペクトル包絡曲面の誤差を時間−周波数平面
上で算出することができるので、合成音声信号の客観的
な量子化歪及び聴感上の歪を低減することができる。

【００３０】本発明の音声符号化装置のパラメータ量子
化手段は、基本周波数情報とスペクトル包絡情報の少な
くとも一方を用いてスペクトル包絡上での量子化誤差重
み関数を適応的に決定する誤差関数決定手段と、量子化
誤差重み関数を変換する量子化パラメータ上での誤差尺
度を定義する誤差関数変換手段と、誤差尺度に基づいて
量子化対象値と符号帳に蓄積されている量子化値との誤
差を算出する誤差算出手段と、誤差が最小となる量子化
値に対応する符号を符号帳から選択する符号選択手段と
を具備する構成を採る。

【００３１】この構成により、基本周波数及びスペクト
ル包絡情報に対して適応させた量子化時の誤差尺度を用
いて量子化パラメータ間の誤差を算出することができる
ので、少ない処理量で合成音声信号の客観的な量子化歪
及び聴感上の歪を低減することができる。

【００３２】本発明の音声復号化装置は、上記音声符号
化装置から送信された符号列をスペクトル包絡情報の量
子化値を示す符号と基本周波数の量子化値を示す符号と
に分離する逆多重化手段と、受信したスペクトル包絡情
報から量子化されたスペクトル包絡曲面を再構成するス
ペクトル包絡構成手段と、再構成されたスペクトル包絡
曲面を基本周波数情報に基づいて切り出して復号音声を
合成する音声合成手段とを具備する構成を採る。

【００３３】この構成により、音源情報とスペクトル包
絡情報を独立して量子化された音声符号を復号すること
ができるので、いずれかの情報の量子化精度が劣化する
ことに伴って他方の情報の量子化効率が低下することを
避けることができ、低ビットレートで情報を送信する場
合であっても高品質に音声復号を実現することができ
る。

【００３４】本発明の音声復号化装置のスペクトル包絡
構成手段は、量子化対象外の各パラメータに対応して予
め統計的に求めたパラメータ値を蓄積するパラメータ蓄
積手段と、入力したスペクトル包絡情報に基づいてスペ
クトル包絡曲面を生成するスペクトル包絡生成手段とを
具備する構成を採る。

【００３５】この構成により、量子化対象外のパラメー
タとして統計的に求めた値を用いることができるので、
任意の値を用いた場合と比較して正確なスペクトル包絡
曲面を復元することができる。

【００３６】本発明の音声符復号化方法は、符号側に
て、入力音声信号から基本周波数とスペクトル包絡情報
を抽出し、抽出された基本周波数を量子化し、抽出され
たスペクトル包絡情報からスペクトル包絡曲面を生成
し、生成されたスペクトル包絡曲面に対し時間軸方向の
直交変換を行い、直交変換された時間軸変換係数に対し
時間軸上の次数に応じたモデルを適用しパラメータを抽
出し、抽出されたモデルパラメータを量子化し、スペク
トル包絡曲面の量子化値と基本周波数の量子化値とを多
重化して送出し、復号側にて、受信した符号列をスペク
トル包絡情報の量子化値を示す符号と基本周波数の量子
化値を示す符号とに分離し、受信したスペクトル包絡情
報から量子化されたスペクトル包絡曲面を再構成し、再
構成されたスペクトル包絡曲面を基本周波数情報に基づ
いて切り出して復号音声を合成することとした。

【００３７】この方法により、音源情報とスペクトル包
絡情報を独立して量子化し、時間軸変換係数の次数に応
じたモデルを適用して音声符号化することができるの
で、いずれかの情報の量子化精度が劣化することに伴っ
て他方の情報の量子化効率が低下することを避けること
ができ、低ビットレートで情報を送信する場合であって
も高品質に音声復号を実現することができる。

【００３８】本発明の記録媒体は、コンピュータに、入
力音声信号から基本周波数とスペクトル包絡情報を抽出
させる手順と、抽出された基本周波数を量子化させる手
順と、抽出されたスペクトル包絡情報からスペクトル包
絡曲面を生成させる手順と、生成されたスペクトル包絡
曲面に対し時間軸方向の直交変換を行わせる手順と、直
交変換された時間軸変換係数に対し時間軸上の次数に応
じたモデルを適用しパラメータを抽出させる手順と、抽
出されたモデルパラメータを量子化させる手順と、スペ
クトル包絡曲面の量子化値と基本周波数の量子化値とを
多重化させる手順とを実行させるための音声符号化プロ
グラムを記録した機械読み取り可能なものである。

【００３９】本発明の記録媒体は、コンピュータに、上
記記録媒体に記録された音声符号化プログラムの実行に
より得られる符号列をスペクトル包絡情報の量子化値を
示す符号と基本周波数の量子化値を示す符号とに分離さ
せる手順と、受信したスペクトル包絡情報から量子化さ
れたスペクトル包絡曲面を再構成させる手順と、再構成
されたスペクトル包絡曲面を基本周波数情報に基づいて
切り出させて復号音声を合成させる手順とを実行させる
ための音声復号化プログラムを記録した機械読み取り可
能なものである。

【００４０】これらにより、音源情報とスペクトル包絡
情報を独立して量子化し、時間軸変換係数の次数に応じ
たモデルを適用して音声符号化することができるので、
いずれかの情報の量子化精度が劣化することに伴って他
方の情報の量子化効率が低下することを避けることがで
き、低ビットレートで情報を送信する場合であっても高
品質に音声復号を実現することができる。

【００４１】

【発明の実施の形態】本発明の骨子は、時間的に連続し
たスペクトル包絡曲面を基本周波数に基づいて切り出す
ことにより音声信号が生成されることに着目し、スペク
トル包絡情報と音源情報を完全に分離してスペクトル包
絡情報の量子化精度に影響されない音声符復号化処理を
実現すること、かつ、分析合成モデルにおいて有効なス
ペクトル包絡情報の高効率量子化手法を通して高能率音
声符復号処理を実現することである。

【００４２】以下、本発明の実施の形態について、添付
図面を参照して詳細に説明する。

【００４３】（実施の形態１）図１は、本発明の実施の
形態１に係る音声符号化装置及び音声復号化装置の構成
を示すブロック図である。

【００４４】図１の音声符号化装置１００において、音
声分析部１０１は、入力音声信号から基本周波数と短時
間スペクトル包絡情報を抽出する。基本周波数量子化部
１０２は、音声分析部１０１にて抽出された基本周波数
を量子化する。

【００４５】なお、入力音声信号から基本周波数と短時
間スペクトル包絡情報を抽出する音声分析に関しては、
既に［河原英紀、増田郁代、“時間周波数領域での補間
を用いた音声の変換について，”信学技報EA96-28,pp.9
-18,1996］等において、STRAIGHT分析合成モデルに基づ
いて行ったものが開示されている。このモデルにおい
て、音源情報は基本周波数のみでありスペクトル包絡情
報と完全に独立しているため、音源情報及びスペクトル
包絡情報の量子化誤差が互いの情報の量子化に影響を及
ぼすことはない。

【００４６】マトリックス生成部１０３は、音声分析部
１０１にて抽出された短時間スペクトル包絡情報を時間
軸に沿って並べることにより時間−周波数平面上のスペ
クトル包絡曲面を生成する。スペクトル包絡量子化部１
０４は、マトリックス生成部１０３にて生成されたスペ
クトル包絡曲面を量子化する。

【００４７】なお、スペクトル包絡情報は時間−周波数
平面平面上の連続関数として量子化するのは、切り出さ
れるスペクトル包絡のみを量子化した場合、音源情報に
依存してスペクトル包絡情報を量子化することとなり、
本発明の骨子である情報の量子化処理における分離がで
きなくなるためである。

【００４８】多重化部１０５は、スペクトル包絡量子化
部１０４から出力されたスペクトル包絡曲面の量子化値
を示す符号と、基本周波数量子化部１０２から出力され
た基本周波数の量子化値を示す符号とを多重化して通信
路に送出する。

【００４９】図１の音声復号化装置２００において、逆
多重化部２０１は、受信した符号列をスペクトル包絡情
報の量子化値を示す符号と基本周波数の量子化値を示す
符号とに分離する。

【００５０】スペクトル包絡構成部２０２は、受信した
スペクトル包絡情報から量子化されたスペクトル包絡曲
面を再構成する。音声合成部２０３は、スペクトル包絡
構成部２０２にて再構成されたスペクトル包絡曲面を、
基本周波数情報に基づいて切り出すことにより復号音声
を合成し出力する。

【００５１】次に、図１に示した本実施の形態に係る音
声符号化装置及び音声復号化装置の情報処理動作の流れ
について説明する。

【００５２】まず、音声符号化装置１００の音声分析部
１０１にて、入力した入力音声信号から基本周波数と短
時間スペクトル包絡情報が抽出される。抽出された基本
周波数は、基本周波数量子化部１０２にて量子化され
る。

【００５３】一方、抽出された短時間スペクトル包絡情
報は、マトリックス生成部１０３にて時間軸に沿って並
べられ、時間−周波数平面上のスペクトル包絡曲面が生
成される。スペクトル包絡曲面は、スペクトル包絡量子
化部１０４にて量子化される。

【００５４】量子化された基本周波数及びスペクトル包
絡曲面は、多重化部１０５にて多重され通信路に送出さ
れる。そして、基本周波数及びスペクトル包絡曲面は、
音声復号化装置２００の逆多重化部２０１に受信され、
スペクトル包絡情報の量子化値と基本周波数の量子化値
とに分離される。

【００５５】スペクトル包絡情報の量子化値はスペクト
ル包絡構成部２０２に入力され、スペクトル包絡構成部
２０２においてスペクトル包絡曲面が再構成される。

【００５６】そして、音声合成部２０３において、再構
成されたスペクトル包絡曲面が基本周波数情報に基づい
て切り出されることにより、復号音声が合成され出力さ
れる。

【００５７】このように、音源情報とスペクトル包絡情
報を独立して量子化することにより、いずれかの情報の
量子化精度が劣化することに伴って他方の情報の量子化
効率が低下することを避けることができ、低ビットレー
トで情報を送信する場合であっても高品質に音声復号を
実現することができる。

【００５８】（実施の形態２）図２は、本発明の実施の
形態２に係る音声符号化装置のスペクトル包絡量子化部
の内部構成を示すブロック図である。

【００５９】なお、本実施の形態に係る音声符号化装置
の構成は、実施の形態１の図１に示した音声符号化装置
の構成と同様であるので説明を省略する。

【００６０】図２のスペクトル包絡量子化部１０４にお
いて、２次元直交変換器３０１は、スペクトル包絡曲面
に対し時間軸方向及び周波数軸方向の２次元直交変換を
行う。パラメータ量子化器３０２は、２次元直交変換器
３０１における２次元直交変換処理にて得られた変換係
数を量子化する。

【００６１】ここで、一般にスペクトル包絡曲面の高周
波成分の差異は聴感上認識されにくい。従って、直交変
換して得られる低周波成分の係数情報のみを用いて復号
化側で音声合成しても音声品質が大きく劣化することは
ない。そこで、パラメータ量子化器３０２では、低周波
成分の係数情報のみを量子化する。

【００６２】このように、直交変換を用いることで聴覚
上重要でない情報を削除することができ、低ビットレー
トで情報を送信する場合であっても高品質に音声復号を
実現することができる。

【００６３】（実施の形態３）図３は、本発明の実施の
形態３に係る音声符号化装置のスペクトル包絡量子化部
の内部構成を示すブロック図である。

【００６４】なお、本実施の形態に係る音声符号化装置
の構成は、実施の形態１の図１に示した音声符号化装置
の構成と同様であるので説明を省略する。

【００６５】図３のスペクトル包絡量子化部１０４にお
いて、モデル適用器３１１は、スペクトル包絡曲面をモ
デル化してモデルパラメータを抽出する。

【００６６】このモデルは、時間−周波数空間における
スペクトル包絡曲面をモデル化したものであり、例え
ば、図４に示すように、スペクトル包絡曲面の時間軸に
おける両断面に対する全極モデルの適用及びその補完に
よりモデル化することができる。

【００６７】パラメータ量子化器３０２は、モデル適用
器３１１にて抽出されたモデルパラメータを量子化す
る。

【００６８】このように、スペクトル包絡曲面をモデル
化することにより、スペクトル包絡曲面の量子化効率を
向上させることができ、低ビットレートで情報を送信す
る場合であっても高品質に音声復号を実現することがで
きる。

【００６９】（実施の形態４）図５は、本発明の実施の
形態４に係る音声符号化装置のスペクトル包絡量子化部
の内部構成を示すブロック図である。

【００７０】なお、本実施の形態に係る音声符号化装置
の構成は、実施の形態１の図１に示した音声符号化装置
の構成と同様であるので説明を省略する。

【００７１】図５のスペクトル包絡量子化部１０４にお
いて、時間軸直交変換器３２１は、スペクトル包絡曲面
に対し時間軸方向の直交変換を行う。モデル適用器３１
１は、直交変換された時間軸変換係数に対し、時間軸上
の次数に応じたモデルを適用しパラメータを抽出する。
パラメータ量子化器３０２は、モデル適用器３１１にて
抽出されたモデルパラメータを量子化する。

【００７２】このように、時間軸変換係数の次数に応じ
たモデルを適用することにより、モデル化による量子化
効率を向上させることができ、低ビットレートで情報を
送信する場合であっても高品質に音声復号を実現するこ
とができる。

【００７３】（実施の形態５）図６は、本発明の実施の
形態５に係る音声符号化装置のスペクトル包絡量子化部
の内部構成を示すブロック図である。

【００７４】なお、本実施の形態に係る音声符号化装置
の構成は、実施の形態１の図１に示した音声符号化装置
の構成と同様であるので説明を省略する。

【００７５】図６のスペクトル包絡量子化部１０４にお
いて、時間軸直交変換器３３１は、スペクトル包絡曲面
に対し時間軸方向の直交変換を行い、直交変換された時
間軸変換係数をモデル化するものとしないものとに分類
する。この分類方法として、例えば、時間軸０次の係数
は、スペクトル包絡曲面を平均したスペクトル包絡であ
るので全極モデルを適用し、それ以外の係数にはモデル
を適用しない方法等がある。

【００７６】モデル適用器３１１は、直交変換された時
間軸変換係数の一部に対し、時間軸上の次数に応じたモ
デルを適用しパラメータを抽出する。周波数軸直交変換
器３３２は、モデルを適用しない時間軸変換係数に対し
周波数軸方向の直交変換を行う。パラメータ量子化器３
０２は、モデル適用器３１１にて抽出されたモデルパラ
メータ及び周波数軸直交変換器３３２から出力された変
換係数を量子化する。

【００７７】このように、モデル化により量子化効率が
向上する時間軸変換係数に対してのみモデルを適用する
ことにより、モデル化による量子化効率を向上しつつモ
デル化歪を低減し、低ビットレートで情報を送信する場
合であっても高品質に音声復号を実現することができ
る。

【００７８】（実施の形態６）図７は、本発明の実施の
形態６に係る音声符号化装置のモデル適用器の内部構成
を示すブロック図である。

【００７９】なお、本実施の形態に係るモデル適用器３
１１は、上記実施の形態３から５のいずれかに示したも
のである。

【００８０】モデルパラメータ推定器４０１は、入力信
号に対してモデルを適用しパラメータを抽出する。

【００８１】例えば、音声符号化の場合、音声生成過程
を考慮して全極モデルで入力信号をモデル化する。しか
し、モデルの次数が低い場合、モデルは、信号に含まれ
る零点を表すことができず、モデルによる分析歪が生じ
る。

【００８２】そこで、モデル誤差推定器４０２は、モデ
ルを適用する際に生じた分析歪を推定してパラメータ量
子化器に出力する。

【００８３】このように、モデル化歪を量子化すること
により、モデル化による量子化効率を向上しつつモデル
化歪を低減し、低ビットレートで情報を送信する場合で
あっても高品質に音声復号を実現することができる。

【００８４】（実施の形態７）図８は、本発明の実施の
形態７に係る音声符号化装置のパラメータ量子化器の内
部構成を示すブロック図である。

【００８５】なお、本実施の形態に係るパラメータ量子
化器３０２は、上記実施の形態２から５のいずれかに示
したものである。

【００８６】重み算出器５０１は、基本周波数情報を用
いて各量子化対象値に対する量子化感度を決定する。以
下、重み算出器５０１における量子化感度の決定方法の
一例を示す。

【００８７】音声復号化処理ではスペクトル包絡曲面を
基本周波数に従って切り出し、時間軸上で連結すること
で復号音声を生成する。このとき、基本周波数の高調波
振幅値は、その他のスペクトル振幅値と比較し重要な情
報となる。そこで、切り出されるスペクトル包絡位置の
高調波振幅値に重み付けした重み係数曲面を生成する。

【００８８】次に量子化対象値を得た変換と同様の方法
を用いて変換して量子化対象パラメータ空間での重み係
数を算出することにより、各量子化対象値に対する量子
化感度を決定する。

【００８９】重み算出器５０２は、スペクトル包絡情報
を用いて各量子化対象値に対する量子化感度を決定す
る。以下、重み算出器５０２における量子化感度の決定
方法の一例を示す。

【００９０】ある信号に対し同じ大きさの雑音が付加さ
れる場合、ダイナミックレンジの小さな信号は大きな信
号と比較し、聴感上において雑音が目立つ。そこで、ス
ペクトル包絡曲面で振幅が小さい程大きく重み付けした
重み係数曲面を生成する。

【００９１】次に量子化対象値を得た変換と同様の方法
を用いて変換して量子化対象パラメータ空間での重み係
数を算出することにより、各量子化対象値に対する量子
化感度を決定する。なお、重み算出器５０２における量
子化器の適応法は復号化処理においても必要となるた
め、復号化処理との同期をとるべく前フレームで量子化
したスペクトル包絡情報を用いることが望ましい。

【００９２】統計量蓄積器５０３には、予め求めた量子
化対象値毎の統計量が蓄積されている。量子化生成器５
０４は、重み算出器５０１及び重み算出器５０２から出
力された量子化対象値に対する量子化感度と、統計量蓄
積器５０３に蓄積されている統計量から量子化器を設計
する。

【００９３】例えば、スカラー量子化器を用いる場合、
統計量として量子化対象値の分散を蓄積しておき、この
分散と量子化感度に基づいて量子化ステップ幅を決定す
る。分散が同じ場合には量子化感度が大きい。すなわ
ち、量子化誤差の影響を受けやすい量子化対象値に対し
て量子化ステップ幅が小さくなるようにする。

【００９４】量子化器５０５は、量子化生成器５０４の
設計結果に基づいて量子化対象値を量子化する。

【００９５】このように、基本周波数及びスペクトル包
絡情報に対して量子化器を適応させることにより、合成
音声信号の客観的な量子化歪及び聴感上の歪を低減する
ことができる。

【００９６】なお、本実施の形態では、基本周波数情報
及びスペクトル包絡情報の２つの情報を用いてそれぞれ
各量子化対象値に対する量子化感度を決定したが、いず
れか一方の情報を用いて量子化感度を決定し、量子化器
を設計してもよい。

【００９７】（実施の形態８）図９は、本発明の実施の
形態８に係る音声符号化装置のパラメータ量子化器の内
部構成を示すブロック図である。

【００９８】なお、本実施の形態に係るパラメータ量子
化器３０２は、上記実施の形態２から５のいずれかに示
したものである。

【００９９】誤差尺度決定器５１１は、基本周波数情報
を用いてスペクトル包絡上での量子化誤差尺度を適応的
に決定する。誤差尺度決定器５１２は、スペクトル包絡
情報を用いてスペクトル包絡上での量子化誤差尺度を適
応的に決定する。誤差尺度合成器５１３は、誤差尺度決
定器５１１及び誤差尺度決定器５１２で得られた誤差尺
度を１つの誤差尺度に合成する。

【０１００】符号帳５１４には、量子化値が蓄積されて
いる。スペクトル包絡構成器５１５は、符号帳５１４に
蓄積されている量子化値をスペクトル包絡曲面に変換す
る。スペクトル包絡構成器５１６は、量子化対象値をス
ペクトル包絡曲面に変換する。

【０１０１】誤差算出器５１７は、誤差尺度合成器５１
３から出力された誤差尺度に基づいて、スペクトル包絡
構成器５１５にて構成されたスペクトル包絡曲面とスペ
クトル包絡構成器５１６にて構成されたスペクトル包絡
曲面との誤差を算出する。

【０１０２】符号選択器５１８は、誤差が最小となる量
子化値に対応する符号を符号帳５１４から選択して出力
する。

【０１０３】このように、基本周波数及びスペクトル包
絡情報に対して適応させた量子化時の誤差尺度を用いて
スペクトル包絡曲面の誤差を時間−周波数平面上で算出
することにより、合成音声信号の客観的な量子化歪及び
聴感上の歪を低減することができる。

【０１０４】なお、本実施の形態では、基本周波数及び
スペクトル包絡情報の両方に関してスペクトル包絡上で
の量子化誤差尺度を決定したが、いずれか一方に関して
量子化誤差尺度を決定し、誤差を算出してもよい。

【０１０５】（実施の形態９）図１０は、本発明の実施
の形態９に係る音声符号化装置のパラメータ量子化器の
内部構成を示すブロック図である。

【０１０６】なお、本実施の形態に係るパラメータ量子
化器３０２は、上記実施の形態２から５のいずれかに示
したものである。

【０１０７】誤差関数決定器５２１は、基本周波数情報
を用いてスペクトル包絡上での量子化誤差重み関数を適
応的に決定する。誤差関数決定器５２２は、スペクトル
包絡情報を用いてスペクトル包絡上での量子化誤差重み
関数を適応的に決定する。誤差関数合成器５２３は、誤
差関数決定器５２１及び誤差関数決定器５２２で得られ
た量子化誤差重み関数を１つの誤差関数に合成する。誤
差関数変換器５２４は、誤差関数合成器５２３から出力
された量子化誤差重み関数を変換する量子化パラメータ
上での誤差尺度を定義する。

【０１０８】符号帳５２５には、量子化値が蓄積されて
いる。誤差算出器５２６は、誤差関数変換器５２４から
出力された誤差尺度に基づいて、量子化対象値と符号帳
５２５に蓄積されている量子化値との誤差を算出する。

【０１０９】符号選択器５２７は、誤差が最小となる量
子化値に対応する符号を符号帳５２５から選択して出力
する。

【０１１０】このように、基本周波数及びスペクトル包
絡情報に対して適応させた量子化時の誤差尺度を用いて
量子化パラメータ間の誤差を算出することにより、少な
い処理量で合成音声信号の客観的な量子化歪及び聴感上
の歪を低減することができる。

【０１１１】なお、本実施の形態では、基本周波数及び
スペクトル包絡情報の両方に関してスペクトル包絡上で
の量子化誤差重み関数を決定したが、いずれか一方に関
して量子化誤差重み関数を決定し、誤差を算出してもよ
い。

【０１１２】（実施の形態１０）図１１は、本発明の実
施の形態１０に係る音声復号化装置のスペクトル包絡構
成部の内部構成を示すブロック図である。

【０１１３】なお、本実施の形態に係る音声復号化装置
の構成は、実施の形態１の図１に示した音声復号化装置
の構成と同様であるので説明を省略する。

【０１１４】ここで、上記実施の形態２で説明したよう
に、直交変換を用いる音声符復号化方法では、符号側に
おいて、聴覚上重要でない高周波成分を伝送しないこと
で情報圧縮を図っている。そこで、本実施の形態では、
復号側において、予め統計的に求めたパラメータ値を使
用して、受信されなかったパラメータを補完することに
より包絡曲面を生成する。

【０１１５】図１１のスペクトル包絡構成部２０２にお
いて、パラメータ蓄積器６０１には、量子化対象外の各
パラメータに対応して予め統計的に求めたパラメータ値
が蓄積されている。スペクトル包絡生成器６０２は、入
力したスペクトル包絡情報に基づいてスペクトル包絡曲
面を生成する。

【０１１６】このように、量子化対象外のパラメータと
して統計的に求めた値を用いることにより、任意の値を
用いた場合と比較して正確なスペクトル包絡曲面を復元
することができる。

【０１１７】

【発明の効果】以上説明したように、本発明の音声符号
化装置、音声復号化装置及び音声符復号化方法によれ
ば、スペクトル包絡情報と音源情報を完全に分離してス
ペクトル包絡情報の量子化精度に影響されない音声符復
号化処理を実現すること、かつ、分析合成モデルにおい
て有効なスペクトル包絡情報の高効率量子化手法を通し
て高能率音声符復号処理を実現することができるので、
低ビットレートで情報を送信する場合であっても高品質
に音声復号を実現することができる。

【図面の簡単な説明】

【図１】本発明の実施の形態１に係る音声符号化装置及
び音声復号化装置の構成を示すブロック図

【図２】本発明の実施の形態２に係る音声符号化装置の
スペクトル包絡量子化部の内部構成を示すブロック図

【図３】本発明の実施の形態３に係る音声符号化装置の
スペクトル包絡量子化部の内部構成を示すブロック図

【図４】上記実施の形態に係るスペクトル包絡曲面のモ
デル図

【図５】本発明の実施の形態４に係る音声符号化装置の
スペクトル包絡量子化部の内部構成を示すブロック図

【図６】本発明の実施の形態５に係る音声符号化装置の
スペクトル包絡量子化部の内部構成を示すブロック図

【図７】本発明の実施の形態６に係る音声符号化装置の
モデル適用器の内部構成を示すブロック図

【図８】本発明の実施の形態７に係る音声符号化装置の
パラメータ量子化器の内部構成を示すブロック図

【図９】本発明の実施の形態８に係る音声符号化装置の
パラメータ量子化器の内部構成を示すブロック図

【図１０】本発明の実施の形態９に係る音声符号化装置
のパラメータ量子化器の内部構成を示すブロック図

【図１１】本発明の実施の形態１０に係る音声復号化装
置のスペクトル包絡構成部の内部構成を示すブロック図

【図１２】従来の音声符号化装置及び音声復号化装置の
構成を示すブロック図

【符号の説明】

１００音声符号化装置１０１音声分析部１０２基本周波数量子化部１０３マトリックス生成部１０４スペクトル包絡量子化部１０５多重化部２００音声復号化装置２０１逆多重化部２０２スペクトル包絡構成部２０３音声合成部３０１２次元直交変換器３０２パラメータ量子化器３１１モデル適用器３２１時間軸直交変換器３３１時間軸直交変換器３３２周波数軸直交変換器４０１モデルパラメータ推定器４０２モデル誤差推定器５０１、５０２重み算出器５０３統計量蓄積器５０４量子化生成器５０５量子化器５１１、５１２誤差尺度決定器５１３誤差尺度合成器５１４、５２５符号帳５１５、５１６スペクトル包絡構成器５１７、５２６誤差算出器５１８、５２７符号選択器５２１、５２２誤差関数決定器５２３誤差関数合成器５２４誤差関数変換器６０１パラメータ蓄積器６０２スペクトル包絡生成器

Claims

(57)【特許請求の範囲】

【請求項１】入力音声信号から基本周波数とスペクト
ル包絡情報を抽出する音声分析手段と、抽出された基本
周波数を量子化する基本周波数量子化手段と、抽出され
たスペクトル包絡情報からスペクトル包絡曲面を生成す
るマトリックス生成手段と、生成されたスペクトル包絡
曲面に対し時間軸方向の直交変換を行う時間軸直交変換
手段と、直交変換された時間軸変換係数に対し時間軸上
の次数に応じたモデルを適用しパラメータを抽出するモ
デル適用手段と、抽出されたモデルパラメータを量子化
するパラメータ量子化手段と、スペクトル包絡曲面の量
子化値と基本周波数の量子化値とを多重化して送出する
多重化手段とを具備することを特徴とする音声符号化装
置。
【請求項２】モデルを適用しない時間軸変換係数に対
し周波数軸方向の直交変換を行う周波数軸直交変換手段
を具備し、パラメータ量子化手段は、抽出されたモデル
パラメータ及び前記周波数軸直交変換手段から出力され
た変換係数を量子化することを特徴とする請求項１記載
の音声符号化装置。
【請求項３】モデル適用手段は、入力信号に対してモ
デルを適用しパラメータを抽出するモデルパラメータ推
定手段と、このモデルパラメータ推定手段にてモデルを
適用した際に生じた分析歪を推定するモデル誤差推定手
段とを具備することを特徴とする請求項１又は請求項２
記載の音声符号化装置。
【請求項４】パラメータ量子化手段は、基本周波数情
報とスペクトル包絡情報の少なくとも一方を用いて各量
子化対象値に対する量子化感度を決定する重み算出手段
と、予め求めた量子化対象値毎の統計量を蓄積する統計
量蓄積手段と、前記重み算出手段から出力された量子化
対象値に対する量子化感度及び統計量蓄積手段に蓄積さ
れている統計量から量子化器を設計する量子化生成手段
と、この量子化生成手段の設計結果に基づいて量子化対
象値を量子化する量子化手段とを具備することを特徴と
する請求項１から請求項３のいずれかに記載の音声符号
化装置。
【請求項５】パラメータ量子化手段は、基本周波数情
報とスペクトル包絡情報の少なくとも一方を用いてスペ
クトル包絡上での量子化誤差尺度を適応的に決定する誤
差尺度決定手段と、符号帳に蓄積されている量子化値を
スペクトル包絡曲面に変換する第１スペクトル包絡構成
手段と、量子化対象値をスペクトル包絡曲面に変換する
第２スペクトル包絡構成手段と、前記第１スペクトル包
絡構成手段にて構成されたスペクトル包絡曲面と前記第
２スペクトル包絡構成手段にて構成されたスペクトル包
絡曲面との誤差を誤差尺度に基づいて算出する誤差算出
手段と、誤差が最小となる量子化値に対応する符号を符
号帳から選択する符号選択手段とを具備することを特徴
とする請求項１から請求項３のいずれかに記載の音声符
号化装置。
【請求項６】パラメータ量子化手段は、基本周波数情
報とスペクトル包絡情報の少なくとも一方を用いてスペ
クトル包絡上での量子化誤差重み関数を適応的に決定す
る誤差関数決定手段と、量子化誤差重み関数を変換する
量子化パラメータ上での誤差尺度を定義する誤差関数変
換手段と、誤差尺度に基づいて量子化対象値と符号帳に
蓄積されている量子化値との誤差を算出する誤差算出手
段と、誤差が最小となる量子化値に対応する符号を符号
帳から選択する符号選択手段とを具備することを特徴と
する請求項１から請求項３のいずれかに記載の音声符号
化装置。
【請求項７】請求項１から請求項６のいずれかに記載
の音声符号化装置から送信された符号列をスペクトル包
絡情報の量子化値を示す符号と基本周波数の量子化値を
示す符号とに分離する逆多重化手段と、受信したスペク
トル包絡情報から量子化されたスペクトル包絡曲面を再
構成するスペクトル包絡構成手段と、再構成されたスペ
クトル包絡曲面を基本周波数情報に基づいて切り出して
復号音声を合成する音声合成手段とを具備することを特
徴とする音声復号化装置。
【請求項８】スペクトル包絡構成手段は、量子化対象
外の各パラメータに対応して予め統計的に求めたパラメ
ータ値を蓄積するパラメータ蓄積手段と、入力したスペ
クトル包絡情報に基づいてスペクトル包絡曲面を生成す
るスペクトル包絡生成手段とを具備することを特徴とす
る請求項７記載の音声復号化装置。
【請求項９】符号側にて、入力音声信号から基本周波
数とスペクトル包絡情報を抽出し、抽出された基本周波
数を量子化し、抽出されたスペクトル包絡情報からスペ
クトル包絡曲面を生成し、生成されたスペクトル包絡曲
面に対し時間軸方向の直交変換を行い、直交変換された
時間軸変換係数に対し時間軸上の次数に応じたモデルを
適用しパラメータを抽出し、抽出されたモデルパラメー
タを量子化し、スペクトル包絡曲面の量子化値と基本周
波数の量子化値とを多重化して送出し、復号側にて、受
信した符号列をスペクトル包絡情報の量子化値を示す符
号と基本周波数の量子化値を示す符号とに分離し、受信
したスペクトル包絡情報から量子化されたスペクトル包
絡曲面を再構成し、再構成されたスペクトル包絡曲面を
基本周波数情報に基づいて切り出して復号音声を合成す
ることを特徴とする音声符復号化方法。
【請求項１０】コンピュータに、入力音声信号から基
本周波数とスペクトル包絡情報を抽出させる手順と、抽
出された基本周波数を量子化させる手順と、抽出された
スペクトル包絡情報からスペクトル包絡曲面を生成させ
る手順と、生成されたスペクトル包絡曲面に対し時間軸
方向の直交変換を行わせる手順と、直交変換された時間
軸変換係数に対し時間軸上の次数に応じたモデルを適用
しパラメータを抽出させる手順と、抽出されたモデルパ
ラメータを量子化させる手順と、スペクトル包絡曲面の
量子化値と基本周波数の量子化値とを多重化させる手順
とを実行させるための音声符号化プログラムを記録した
機械読み取り可能な記録媒体。
【請求項１１】コンピュータに、請求項１０の記録媒
体に記録された音声符号化プログラムの実行により得ら
れる符号列をスペクトル包絡情報の量子化値を示す符号
と基本周波数の量子化値を示す符号とに分離させる手順
と、受信したスペクトル包絡情報から量子化されたスペ
クトル包絡曲面を再構成させる手順と、再構成されたス
ペクトル包絡曲面を基本周波数情報に基づいて切り出さ
せて復号音声を合成させる手順とを実行させるための音
声復号化プログラムを記録した機械読み取り可能な記録
媒体。