JPH0990995A

JPH0990995A - 音声符号化装置

Info

Publication number: JPH0990995A
Application number: JP7249889A
Authority: JP
Inventors: Kazunori Ozawa; 一範小澤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1995-09-27
Filing date: 1995-09-27
Publication date: 1997-04-04
Anticipated expiration: 2015-09-27
Also published as: DE69636209T2; CA2186433C; CA2186433A1; US5826226A; DE69636209D1; EP0766232A2; EP0766232B1; JP3196595B2; EP0766232A3

Abstract

(57)【要約】【課題】低ビットレートでも良好な音質の得られる音
声符号化装置の提供。【解決手段】音声符号化装置の音源量子化回路３５０
において、複数個のパルスの組合せで音源信号を表わ
す。少なくとも一つのパルスをあらかじめ定められたビ
ット数で表し、少なくとも１つのパルスの振幅が、パル
スの位置に依存してあらかじめ決定されている。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声符号化装置に
関し、特に、音声信号を低いビットレートで高品質に符
号化する音声符号化装置に関する。

【０００２】

【従来の技術】音声信号を高能率に符号化する方式とし
ては、例えば、M.Schroeder and B.Atal氏による“Code
-excited linear prediction: High quality speech at
low bit rates"(Proc.ICASSP,pp.937-940,1985 年）と
題した論文（文献１）や、Kleijn氏らによる“Improved
speech quality and efficeint vector quantizationi
n SELP" (Proc.ICASSP,pp.155-158,1988 年）と題した
論文（文献２）などに記載されているＣＥＬＰ（Code E
xcited Linear Predictive Coding ）が知られている。
この従来例では、送信側では、フレームごと（例えば２
０ms）に音声信号から線形予測（ＬＰＣ）分析を用い
て、音声信号のスペクトル特性を表すスペクトルパラメ
ータを抽出する。フレームにおけるサブフレーム（例え
ば５ms）に分割し、サブフレームごとに過去の音源信号
を基に適応コードブックにおけるパラメータ（ピッチ周
期に対応する遅延パラメータとゲインパラメータ）を抽
出し、適応コードブックにより前記サブフレームの音声
信号をピッチ予測する。ピッチ予測して求めた音源信号
に対して、あらかじめ定められた種類の雑音信号からな
る音源コードブック（ベクトル量子化コードブック）か
ら最適な音源コードベクトルを選択し、最適なゲインを
計算することにより、音源信号を量子化する。音源コー
ドベクトルの選択の仕方は、選択した雑音信号により合
成した信号と、前記残差信号との誤差電力を最小化する
ように行う。そして、選択されたコードベクトルの種類
を表すインデクスとゲインならびに、前記スペクトルパ
ラメータと適応コードブックのパラメータをマルチプレ
クサ部により組み合わせて伝送する。受信側の説明は省
略する。

【０００３】

【発明が解決しようとする課題】前記従来法では、音源
コードブックから最適な音源コードベクトルを選択する
のに多大な演算量を要するという問題がある。これは、
文献１や２の方法では、音源コードベクトルを選択する
のに、各コードベクトルに対して一旦フィルタリングも
しくは畳み込み演算を行ない、この演算をコードブック
に格納されているコードベクトルの個数だけ繰り返すこ
とに起因する。例えば、コードブックのビット数がＢビ
ットで、次元数がＮのときは、フィルタリングあるいは
畳み込み演算のときのフィルタあるいはインパルス応答
長をＫとすると、演算量は１秒当たり、Ｎ×Ｋ×２^B×
８０００／Ｎだけ必要となる。一例として、Ｂ＝１０，
Ｎ＝４０，ｋ＝１０とすると、１秒当たり８１，９２
０，０００回の演算が必要となり、極めて膨大であると
いう問題点がある。

【０００４】音源コードブック探索に必要な演算量を大
幅に低減する方法として、種々のものが提案されてい
る。例えば、ＡＣＥＬＰ(Argebraic Code Exited Linea
r Prediction) 方式が提案されている。これは、例え
ば、C.Laflammeらによる“16 kbps wideband speech co
ding technique based on algebraic CELP”と題した論
文（Proc.ICASSP,pp.13-16,1991)（文献３）などを参照
することができる。文献３の方法によれば、音源信号を
複数個のパルスで表し、各パルスの位置をあらかじめ定
められたビット数で表し伝送する。ここで、各パルスの
振幅は＋1.0 もしくは＋1.0 に限定されているため、振
幅を伝送する必要はない。さらに、このために、パルス
探索の演算量を大幅に低減化できる。

【０００５】文献３の従来法では、演算量を大幅に低減
化することが可能となるが、音質も充分ではないという
問題点がある。この理由としては、各パルスが正負の極
性のみか有しておらず、絶対値振幅はパルスの位置によ
らず常に1.0 であるため、振幅を極めて粗く量子化した
ことになり、このために音質が劣化している。

【０００６】本発明の目的は、上述の問題を解決し、ビ
ットレートが低い場合でも、比較的少ない演算量で音質
の劣化の少ない音声符号化装置を提供することにある。

【０００７】

【課題を解決するための手段】本発明によれば、入力し
た音声信号からスペクトルパラメータを求めて量子化す
るスペクトルパラメータ計算部と、前記スペクトルパラ
メータを用いて前記音声信号の音源信号を量子化して出
力する音源量子化部とを有する音声符号化装置におい
て、少なくとも一つのパルスの位置をあらかじめ定めら
れたビット数で表し、少なくとも一つのパルスの振幅が
パルスの位置に依存しあらかじめ決定されている音源量
子化部を有することを特徴とする音声符号化装置が得ら
れる。

【０００８】本発明によれば、少なくとも一つのパルス
の振幅は、位置に依存してあらかじめ音声信号を用いて
学習しておくことを特徴とする音源量子化部を有する請
求項１記載の音声符号化装置が得られる。

【０００９】本発明によれば、少なくとも一つのパルス
のとりうる位置があらかじめ制限されている音源量子化
部を有することを特徴とする請求項１または請求項２記
載の音声符号化装置が得られる。

【００１０】本発明によれば、入力した音声信号からス
ペクトルパラメータを求めて量子化するスペクトルパラ
メータ計算部と、前記スペクトルパラメータを用いて前
記音声信号の音源信号を量子化して出力する音源量子化
部とを有する音声符号化装置において、少なくとも一つ
のパルスの位置をあらかじめ定められたビット数で表
し、複数パルスの振幅をまとめて量子化する音源量子化
部を有することを特徴とする音声符号化装置が得られ
る。

【００１１】本発明によれば、複数パルスの振幅をまと
めて量子化するために、あらかじめ音声信号を用いて学
習して決定したコードブックを使用する音源量子化部を
有することを特徴とする請求項４記載の音声符号化装置
が得られる。

【００１２】本発明によれば、少なくとも一つのパルス
のとりうる位置があらかじめ制限されている音源量子化
部を有することを特徴とする請求項４または請求項５記
載の音声符号化装置が得られる。

【００１３】本発明によれば、入力した音声信号からモ
ードを判別し判別情報を出力するモード判定部と、前記
音声信号からスペクトルパラメータを求めて量子化する
スペクトルパラメータ計算部と、前記スペクトルパラメ
ータを用いて音源信号を量子化して出力する音源量子化
部とを有する音声符号化装置において、あらかじめ定め
られたモードの場合に、少なくとも一つのパルスの位置
をあらかじめ定められたビット数で表し、少なくとも一
つのパルスの振幅がパルスの位置に依存しあらかじめ決
定されている音源量子化部を有することを特徴とする音
声符号化装置が得られる。

【００１４】本発明によれば、少なくとも一つのパルス
の振幅は、位置に依存してあらかじめ音声信号を用いて
学習して決定しておくことを特徴とする音源量子化部を
有する請求項７記載の音声符号化装置が得られる。

【００１５】本発明によれば、少なくとも一つのパルス
のとりうる位置があらかじめ制限されている音源量子化
部を有することを特徴とする請求項７または請求項８記
載の音声符号化装置が得られる。

【００１６】本発明によれば、入力した音声信号からモ
ードを判別し判別情報を出力するモード判別部と、前記
音声信号からスペクトルパラメータを求めて量子化する
スペクトルパラメータ計算部と、前記スペクトルパラメ
ータを用いて前記音声信号の音源信号を量子化して出力
する音源量子化部とを有する音声符号化装置において、
あらかじめ定められたモードの場合に、少なくとも一つ
のパルスの位置をあらかじめ定められたビット数で表
し、複数パルスの振幅をまとめて量子化する音源量子化
部を有することを特徴とする音声符号化装置が得られ
る。

【００１７】本発明によれば、複数パルスの振幅をま
とめて量子化するために、あらかじめ音声信号を用いて
学習して決定したコードブックを使用することを特徴と
する音源量子化部を有する請求項１０記載の音声符号化
装置が得られる。

【００１８】本発明によれば、少なくとも一つのパル
スのとりうる位置があらかじめ制限されている音源量子
化部を有することを特徴とする請求項１０または請求項
１１記載の音声符号化装置が得られる。

【００１９】第１の発明では、音源量子化部において、
一定時間間隔毎に、Ｍ個のパルスを立てて音源を量子化
すると考える。ｉ番目のパルスの振幅、位置をそれぞ
れ、ｑ_i、ｍ_iとする。このとき、音源信号は下式のよ
うに表せる。

【００２０】

【００２１】ここで、Ｇは全体のレベルを表すゲインで
ある。少なくとも一つのパルス、例えば、２つのパルス
について、位置の組合せの各々に対して、パルスの位置
に依存して、あらかじめ振幅値を決定しておく。

【００２２】第２の発明では、第１の発明におけるパル
スの振幅値を、位置に依存して、あらかじめ、多量の音
声信号を用いて学習して決定しておく。

【００２３】第３の発明では、少なくとも一つのパルス
のとりうる位置があらかじめ制限されている。例えば、
偶数番目のサンプル位置、奇数番目のサンプル位置、Ｌ
サンプルとびのサンプル位置、などが考えられる。

【００２４】第４の発明では、式（１）において、複数
個のパルス（例えば２パルス）の振幅を表す振幅パター
ンをＢビット分（２^B種類）、振幅コードブックとして
あらかじめ用意しておき、最適な振幅パターンを選択す
る。

【００２５】第５の発明では、第４の発明におけるＢビ
ット分の振幅コードブックをあらかじめ、多量の音声信
号を用いて学習して決定しておく。

【００２６】第６の発明では、第４または第５の発明に
おいて、少なくとも一つのパルスのとりうる位置があら
かじめ制限されている。例えば、偶数番目のサンプル位
置、奇数番目のサンプル位置、Ｌサンプルとびのサンプ
ル位置、などが考えられる。

【００２７】第７の発明では、入力音声をフレームごと
に分割し、フレームとに特徴量を使用してモードを判別
する。以下ではモードの種類は４とする。モードは概ね
次のように対応する。モード０：無音／子音部、モード
１：過渡部、モード２：母音の弱定常部、モード３：母
音の強定常部。そして、あらかじめ定められたモードの
場合に、少なくとも一つのパルス、例えば、２つのパル
スについて、位置の組合せの各々に対して、パルスの位
置に依存してあらかじめ振幅値を決定しておく。

【００２８】第８の発明では、第７の発明におけるパル
スの振幅値をあらかじめ、多量の音声信号を用いて学習
して決定しておく。

【００２９】第９の発明では、第７または第８の発明に
おいて少なくとも一つのパルスのとりうる位置があらか
じめ制限されている。例えば、偶数番目のサンプル位
置、奇数番目のサンプル位置、Ｌサンプルとびのサンプ
ル位置、などが考えられる。

【００３０】第１０の発明では、入力音声をフレームご
とに分割し、フレームごとに特徴量を使用してモードを
判別する。そして、あらかじめ定められたモードの場合
に、複数個のパルス（例えば２パルス）の振幅を表す振
幅パターンをＢビット分（２^B種類）振幅コードブック
としてあらかじめ用意しておき、最適なパターンを選択
する。

【００３１】第１１の発明では、第１０の発明における
Ｂビット分の振幅コードブックをあらかじめ、多量の音
声信号を用いて学習して決定しておく。

【００３２】第１２の発明では、第１０または第１１の
発明において、少なくとも一つのパルスのとりうる位置
があらかじめ制限されている。例えば偶数番目のサンプ
ル位置、奇数番目のサンプル位置、Ｌサンプルとびのサ
ンプル位置、などが考えられる。

【００３３】

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。

【００３４】図１は本発明による音声符号化装置の第１
の実施の形態を示すブロック図である。

【００３５】図１を参照すると、入力端子１００から音
声信号を入力し、フレーム分割回路１１０では音声信号
をフレーム（例えば１０ms）ごとに分割し、サブフレー
ム分割回路１２０では、フレームの音声信号をフレーム
よりも短いサブフレーム（例えば２ms）に分割する。

【００３６】スペクトルパラメータ計算回路２００は、
少なくとも一つのサブフレームの音声信号に対して、サ
ブフレーム長よりも長い窓（例えば２４ms）をかけて音
声を切り出してスペクトルパラメータをあらかじめ定め
られた次数（例えばＰ＝１０次）計算する。ここでスペ
クトルパラメータの計算には、周知のＬＰＣ分析や、Bu
rg分析などを用いることができる。ここでは、Burg分析
を用いることとする。Burg分析の詳細については、中溝
著による“信号解析とシステム同定”と題した単行本
（コロナ社1988年刊）の82〜87頁（文献４）などに記載
されているので説明は略する。さらにスペクトルパラメ
ータ計算部２００は、Burg法により計算された線形予測
係数α_i（ｉ＝１，…，10）を量子化や補間に適したＬ
ＳＰパラメータに変換する。ここで、線形予測係数から
ＬＳＰへの変換は、菅村他による“線スペクトル対（Ｌ
ＳＰ）音声分析合成方式による音声情報圧縮”と題した
論文（電子通信学会誌、J64 ―A 、pp.599―606 、1981
年）（文献５）を参照することができる。例えば、第
２、４サブフレームでBurg法により求めた線形予測係数
を、ＬＳＰパラメータに変換し、第１、３サブフレーム
のＬＳＰを直線補間により求めて、第１、３サブフレー
ムのＬＳＰを逆変換して線形予測係数に戻し、第１−４
サブフレームの線形予測係数α_il（ｉ＝１，…，10，ｌ
＝１，…，５）を聴感重み付け回路２３０に出力する。
また、第４サブフレームのＬＳＰをスペクトルパラメー
タ量子化回路２１０へ出力する。

【００３７】スペクトルパラメータ量子化回路２１０
は、あらかじめ定められたサブフレームのＬＳＰパラメ
ータを効率的に量子化し、下式の歪みを最小化する量子
化値を出力する。

【００３８】

【００３９】ここで、ＬＳＰ(i),ＱＬＳＰ(i)_j、Ｗ(i)
はそれぞれ、量子化前のｉ次目のＬＳＰ、量子化後のｊ
番目の結果、重み係数である。

【００４０】以下では、量子化法として、ベクトル量子
化を用いるものとし、第４サブフレームのＬＳＰパラメ
ータを量子化するものとする。ＬＳＰパラメータのベク
トル量子化の手法は周知の手法を用いることができる。
具体的は方法は例えば、特開平4 ―171500号公報（文献
６）や特開平4 ―363000号公報（文献７）や、特開平5
―6199号公報（文献８）や、T.Nomura et al.,による
“LSP Coding VQ-SVQWith Interpolation in 4.075kbps
M-LCELP Speech Coder ”と対した論文（Proc. Mobile
Multimedia Communications,pp.B.2.5,1993）（文献
９）などを参照できるのでここでは説明を略する。

【００４１】また、スペクトルパラメータ量子化回路２
１０は、第４サブフレームで量子化したＬＳＰパラメー
タをもとに、第１〜第４サブフレームのＬＳＰパラメー
タを復元する。ここでは、現フレームの第４サブフレー
ムの量子化ＬＳＰパラメータと１つ過去のフレームの第
４サブフレームの量子化ＬＳＰを直線補間して、第１〜
第３サブフレームのＬＳＰを復元する。ここで、量子化
前のＬＳＰと量子化後のＬＳＰとの誤差電力を最小化す
るコードベクトルを１種類選択した後に、直線補間によ
り第１〜第４のサブフレームのＬＳＰを復元する。さら
に性能を向上させるためには、前記誤差電力を最小化す
るコードベクトルを複数候補選択したのちに、各々の候
補について、累積歪を評価し、累積歪を最小化する候補
と補間ＵＳＰの組を選択するようにすることができる。
詳細は、例えは、特願平5 ―8737号明細書（文献１０）
を参照することができる。

【００４２】以上により復元した第１〜３サブフレーム
のＬＳＰと第４サブフレームの量子化ＬＳＰをサブフレ
ームごとに線形予測係数α'_il （ｉ＝１，…，10，ｌ＝
１，…，５）に変換し、インパルス応答計算回路３１０
へ出力する。また、第４サブフレームの量子化ＬＳＰの
コードベクトルを表すインデクスをマルチプレクサ４０
０に出力する。

【００４３】聴感重み付け回路２３０は、スペクトルパ
ラメータ計算回路２００から、各サブフレームごとに量
子化前の線形予測係数α'_il （ｉ＝１，…，10，ｌ＝
１，…，５）を入力し、前記文献１にもとづき、サブフ
レームの音声信号に対して聴感重み付けを行い、聴感重
み付け信号を出力する。

【００４４】応答信号計算回路２４０は、スペクトルパ
ラメータ計算回路２００から、各サブフレームごとに線
形予測係数α_ilを入力し、スペクトルパラメータ量子化
回路２１０から、量子化、補間して復元した線形予測係
数α'_il をサブフレームごとに入力し、保存されている
フィルタメモリの値を用いて、入力信号を零d(n)＝０と
した応答信号を１サブフレーム分計算し、減算回路２３
５へ出力する。ここで応答信号ｘ_z(n) を下式で表され
る。

【００４５】

【００４６】ただし、ｎ−ｉ≦０のときは

【００４７】

【００４８】ここでＮはサブフレーム長を示す。γは、
聴感重み付け量を制御する重み係数であり、下記の式
（７）と同一の値である。ｓ_w(n) 、ｐ(n) は、それぞ
れ、重み付け信号計算回路の出力信号、後述の式（７）
における右辺第１項のフィルタの分母の項の出力信号を
それぞれ示す。

【００４９】減算回路２３５は、下式により、聴感重み
付け信号から応答信号をサブフレーム分減算し、ｘ'
_w(n) を適応コードブック回路５００へ出力する。

【００５０】

【００５１】インパルス応答計算回路３１０は、ｚ変換
が下式で表される聴感重み付けフィルタのインパルス応
答ｈ_w(n)をあらかじめ定められた点数Ｌだけ計算し、適
応コードブック回路５００、音源量子化回路３５０へ出
力する。

【００５２】

【００５３】適応コードブック回路５００は、ゲイン量
子化回路３６５から過去の音源信号ｖ(n) を、減算回路
２３５から出力信号ｘ'_w(n) を、インパルス応答計算回
路３１０からインパルス応答ｈ_w(n)を入力する。ピッチ
に対応する遅延Ｔを下式の歪みを最小化するように求
め、遅延を表すインデクスをマルチプレクサ４００に出
力する。

【００５４】

【００５５】ここで、

【００５６】

【００５７】であり、記号＊は畳み込み演算を表す。

【００５８】

【００５９】ここで、女性音や、子供の声に対して、遅
延の抽出精度を向上させるために、遅延を整数サンプル
ではなく、小数サンプル値で求めてもよい。具体的な方
法は、例えば、P.Kroon による、“Pitch predictors w
ith high terminal resolution”と対した論文（Proc.
ICASSP,pp.661-664,1990年）（文献１１）などを参照す
ることができる。

【００６０】さらに、適応コードブック回路５００は、
下式に従いピッチ予測を行ない、予測残差信号ｅ_w(n)を
音源量子化回路３５０へ出力する。

【００６１】

【００６２】音源量子化回路３５０は、前述したよう
に、Ｍ個のパルスをたてるとする。少なくとも一つのパ
ルスの位置をあらかじめ定められたビット数で量子化
し、位置を表すインデクスをマルチプレクサ４００に出
力する。パルスにおける位置の探索法は、一パルスずつ
逐次的に探索する種々の方法が提案されており、例え
ば、K.Ozawa 氏らによる“A study on pulse search al
gorithms for multipulse excited speech coder reali
zation, ”と題した論文（文献１２）などを参照できる
ので、ここでは説明を省略する。また、これ以外でも前
記文献３に記された方法や、後述の式（１６）―（２
１）を記した方法などを用いることもできる。

【００６３】このとき、少なくとも一つのパルスの振幅
は、位置に依存してあらかじめ定まっている。

【００６４】ここでは、一例としてＭ個のうちの２個の
パルスの振幅がこれらの２個のパルスの位置の組合せに
依存してあらかじめ定まっているとする。いま、第１パ
ルス、第２パルスともに２種類の位置をとりえるとする
と、これら２パルスの振幅の例としてはパルスの位置の
組合せとしては(1,1)(1,2)(2,1)(2,2)があり、位置の組
合せに対応して振幅としては、例えば、(1.0,1.0)(1.0,
0.1)(0.1,1.0)(0.1,0.1)などが考えられる。振幅は位置
の組合せに応じてあらかじめ定められているので、振幅
を表すための情報を伝送する必要はない。

【００６５】なお、２個以外のパルスは、簡略化のため
に、位置に依存せずにあらかじめ定められた振幅、例え
ば、1.0 、-1.0など、をもたせることもできる。

【００６６】振幅、位置の情報はゲイン量子化回路３６
５に出力される。

【００６７】ゲイン量子化回路３６５は、ゲインコード
ブック３９０からゲインコードベクトルを読みだし、選
択された音源コードベクトルに対して、下式を最小化す
るようにゲインコードベクトルを選択する。ここでは、
適応コードブックのゲインと音源のゲインの両者を同時
にベクトル量子化する例について示す。

【００６８】

【００６９】ここで、β'_k、Ｇ'_kは、ゲインコードブッ
ク３９０に格納された２次元ゲインコードブックにおけ
るｋ番目のコードベクトルである。選択されたゲインコ
ードベクトルを表すインデクスをマルチプレクサ４００
に出力する。

【００７０】重み付け信号計算回路３６０は、スペクト
ルパラメータ計算回路２００の出力パラメータおよび、
それぞれのインデクスを入力し、インデクスからそれに
対応するコードベクトルを読みだし、まず下式にもとづ
き駆動音源信号ｖ(n) を求める。

【００７１】

【００７２】ｖ(n) は適応コードブック回路５００に出
力される。

【００７３】次に、重み付け信号計算回路３６０は、ス
ペクトルパラメータ計算回路２００の出力パラメータ、
スペクトルパラメータ量子化回路２１０の出力パラメー
タを用いて下式により、応答信号ｓ_w(n)をサブフレーム
ごとに計算し、応答信号計算回路２４０に出力する。

【００７４】

【００７５】図２は本発明の第２の実施の形態を示すブ
ロック図である。この実施の形態は、図１の実施の形態
に比して、音源量子化回路３５５の動作が異なる。ここ
では、パルスの振幅値は、振幅パターンとして振幅パラ
メータ格納回路３５９に格納しておき、パルスの位置情
報を入力して読みだす。このパターンは、パルスの位置
の組合せに依存して、多量の音声データベースを用いて
学習し、位置に依存して一意に決定しておく。

【００７６】図３は本発明の第３の実施の形態を示すブ
ロック図である。音源量子化回路３５７では、各パルス
のとりうる位置があらかじめ制限されている。例えば、
偶数番目のサンプル位置、奇数番目のサンプル位置、Ｌ
サンプルとびのサンプル位置、などが考えられる。ここ
では、サンプルとびのサンプル位置をとることにし、Ｌ
の値は次のように選ぶ。

【００７７】Ｌ＝Ｎ／Ｍ（１５）ここで、Ｎ、Ｍはそれぞれ、サブフレーム長、パルスの
個数を示す。

【００７８】なお、少なくとも一つのパルスの振幅は、
パルスの位置に依存してあらかじめ決定されていてもよ
い。

【００７９】図４は本発明の第４の実施の形態を示すブ
ロック図である。音源量子化回路４５０は、第１の実施
の形態と同一の方法でパルスの位置を求め、これを量子
化してマルチプレクサ４００およびゲイン量子化回路３
６５へ出力する。

【００８０】さらに、複数パルスの振幅をまとめてベク
トル量子化する。具体的に説明すると、パルス振幅コー
ドブック４５１から、パルス振幅コードベクトルを読み
だし、下式の歪みを最小化する振幅コードベクトルを選
択する。

【００８１】

【００８２】ここで、Ｇは最適ゲイン、ｇ'_ik は、ｋ番
目の振幅コードベクトルにおけるｉ番目のパルス振幅で
ある。

【００８３】式（１６）の最小化は以下のように定式化
できる。式（１６）をパルスの振幅ｇ'_iで偏微分して０
とおくと

【００８４】

【００８５】ここで

【００８６】

【００８７】である。

【００８８】したがって、式（１６）の最小化は、式
（１７）の右辺第２項の最大化と等価となる。

【００８９】式（１７）の右辺第２項の分母は下式のよ
うに変形できる。

【００９０】

【００９１】ここで

【００９２】

【００９３】したがって、式（２０）のｇ'_ik ²とｇ'_ik
ｇ'_jk を振幅コードベクトルｋごとにあらかじめ計算し
てコードブックに格納しておくことにより、計算量を大
幅に低減化できる。また、サブフレームごとにφとψを
一度計算しておけば、さらに演算量を低減化できる。

【００９４】この場合の振幅量子化に必要な積和回数
は、サブフレーム当たりのパルスの個数をＭとし、サブ
フレーム長をＬ、インパルス応答長をＬ、振幅コードブ
ックのビット数をＢとすると、サブフレーム当たり、概
ねＮ² ＋[(Ｍ−１)!＋Ｍ］２^B＋ＮＬ＋Ｍ２^Bとなる。
Ｂ＝10、Ｎ＝40、Ｍ＝４、Ｌ＝20とすると、この値は、
１秒当たり、3,347,200 回となる。また、パルスの位置
を探索するには、文献１２に記載されている方式１を使
用すれば、上記演算量に対して新たに発生する演算量は
ないので、文献１、２の従来方式の方法に比べ、約1/24
となる。

【００９５】したがって、本方法を用いることにより、
パルスの振幅、位置探索に必要な演算量は、従来方式に
比べ、極めて少ないことがわかる。

【００９６】音源量子化回路は以上の方法で選択された
振幅コードベクトルのインデクスをマルチプレクサ４０
０に出力する。また、各パルスの位置と振幅コードベク
トルによる各パルスの振幅をゲイン量子化回路３６５に
出力する。

【００９７】図５は図４の実施の形態の変形を示すブロ
ック図である。音源・ゲイン量子化回路５５０では、ゲ
インを量子化しながらパルスの振幅の量子化を行なう点
が、図４の音源量子化回路４５０と異なる。パルスの位
置は音源量子化回路４５０と同一の方法で求め、同一の
方法で量子化する。パルスの振幅とゲインは、下式を最
小化するように、パルス振幅コードブック４５１、ゲイ
ンコードブック３９０からそれぞれ、パルス振幅コード
ベクトルとゲインコードベクトルを選択することによ
り、量子化する。

【００９８】

【００９９】ここで、ｇ'_ik は、ｋ番目のパルス振幅コ
ードベクトルにおけるｉ番目のパルス振幅である。
β'_k、Ｇ'_kは、ゲインコードブック３９０に格納された
２次元ゲインコードブックにおけるｋ番目のコードベク
トルである。パルス振幅ベクトルとゲインコードベクト
ルのすべての組合せに対し、式（２２）を最小化するよ
うに最適な組合せを１組選択することができる。

【０１００】また、探索演算量を低減化するために予測
選択を導入することもできる。例えば、式（１６）ある
いは式（１７）の歪みが小さい順にパルス振幅コードベ
クトルを複数個予備選択し、各候補に対してゲインコー
ドブックを探索し、式（２２）を最小化するパルス振幅
コードベクトルとゲインコードベクトルの組合せを１種
類選択する。

【０１０１】選択されたパルス振幅コードベクトル、ゲ
インコードベクトルを表すインデクスをマルチプレクサ
４００に出力する。

【０１０２】図６は本発明の第５の実施の形態を示すブ
ロック図である、図４の実施の形態に比して、パルス振
幅学習コードブック５８０が異なる。このコードブック
は、複数パルスの振幅を量子化するためのコードブック
を、音声信号を用いてあらかじめ学習して格納してお
く。コードブックの学習法は、例えば、Linde 氏らによ
る“An algorithm for vector quantization design,”
と題した論文（IEEE Trans.Commun.,pp.84-95,January,
1980）（文献１３）などを参照できる。

【０１０３】なお、図５と同様に、ゲインをゲインコー
ドブックにより量子化しながら、パルス振幅をパルス振
幅コードブックにより量子化するような構成にすること
もできる。

【０１０４】図７は本発明の第６の実施の形態を示すブ
ロック図である。図４の実施の形態に比して、音源量子
化回路４７０が異なる。各パルスのとりうる位置かあら
かじめ制限されている。例えば、偶数番目のサンプル位
置、奇数番目のサンプル位置、Ｌサンプルとびのサンプ
ル位置、などが考えられる。ここでは、Ｌサンプルとび
のサンプル位置をとることにし、Ｌの値は式（１３）に
示したように選ぶ。

【０１０５】なお、複数パルスの振幅をまとめてコード
ブックを用いて量子化することもできる。

【０１０６】図８は本発明の第７の実施の形態を示すブ
ロック図である。モード判別回路８００は、聴感重み付
け回路２３０からフレーム単位で聴感重み付け信号を受
取り、モード判別情報を出力する。ここでは、モード判
別に、現在のフレームの特徴量を用いる。特徴量として
は、例えば、フレームで平均したピッチ予測ゲインを用
いる。ピッチ予測ゲインの計算は、例えば下式を用い
る。

【０１０７】

【０１０８】ここで、Ｌはフレームに含まれるサブフレ
ームの個数である。Ｐ_i、Ｅ_iはそれぞれ、ｉ番目のサ
ブフレームでの音声パワ、ピッチ予測誤差パワを示す。

【０１０９】

【０１１０】ここで、Ｔは予測ゲインを最大化する最適
遅延である。

【０１１１】フレーム平均ピッチ予測ゲインＧをあらか
じめ複数個のしきい値と比較して複数種類のモードに分
類する。モードの個数としては、例えば４を用いること
ができる。モード判別回路８００は、モード判別情報を
音源量子化回路６００、マルチプレクサ４００へ出力す
る。

【０１１２】音源量子化回路６００は、モード判別情報
があらかじめ定められたモードを示す場合に以下の処理
を行なう。

【０１１３】式（１）に示すようにＭ個のパルスを求め
るとし、少なくとも一つのパルスの位置をあらかじめ定
められたビット数で量子化し、位置に表すインデクスを
マルチプレクサに出力する。このとき、少なくとも一つ
のパルスの振幅は、位置に依存してあらかじめ定まって
いる。

【０１１４】ここでは、一例としてＭ個のうちの２個の
パルスの振幅がこれらの２個のパルスの位置の組合せに
依存してあらかじめ定まっているとする。いま、第１パ
ルス、第２パルスともに２種類の位置をとりえるとする
と、これら２パルスの振幅の例としてはパルスの位置の
組合せとしては(1,1)(1,2)(2,1)(2,2)があり、位置の組
合せに対応して振幅としては、例えば、(1.0,1.0)(1.0,
0.1)(0.1,1.0)(0.1,0.1)などが考えられる。振幅は位置
の組合せに応じてあらかじめ定められているので、振幅
を表すための情報を伝送する必要はない。

【０１１５】なお、２個以上のパルスは、簡略化のため
に、位置に依存せずにあらかじめ定められた振幅、例え
ば、1.0 、-1.0など、をもたせることもできる。

【０１１６】振幅、位置の情報はゲイン量子化回路３６
５に出力される。

【０１１７】図９は本発明の第８の実施の形態を示すブ
ロック図である。音源量子化回路６５０は、モード判別
回路８００から判別情報を入力し、あらかじめ定められ
たモードの場合に、振幅パラメータ格納回路３５９か
ら、パルスの位置情報を入力して、パルスの振幅値を読
みだす。

【０１１８】このパターンは、パルスの位置の組合せに
依存して、多量の音声データベースを用いて学習し、位
置に依存して一意に決定しておく。学習法については、
前記文献１３などを参照できる。

【０１１９】図１０は本発明の第９の実施の形態を示す
ブロック図である。音源量子化回路６８０は、モード判
別回路８００から判別情報を入力し、あらかじめ定めら
れたモードの場合に、各パルスのとりうる位置があらか
じめ制限されている。例えば、偶数番目のサンプル位
置、奇数番目のサンプル位置、Ｌサンプルとびのサンプ
ル位置、などが考えられる。ここでは、Ｌサンプルとび
のサンプル位置をとることにし、Ｌの値は式（１５）の
ように選ぶ。

【０１２０】なお、少なくとも一つのパルスの振幅を位
置に依存してあらかじめ振幅パターンとして学習してお
いてもよい。

【０１２１】図１１は本発明の第１０の実施の形態を示
すブロック図である。音源量子化回路７００は、モード
判別回路８００から判別情報を入力し、あらかじめ定め
られたモードの場合に、少なくとも一つのパルスの位置
をあらかじめ定められたビット数で量子化し、インデク
スをゲイン量子化回路３６５、マルチプレクサ４００へ
出力する。次に、複数パルスの振幅をまとめてベクトル
量子化する。パルス振幅コードブック４５１から、パル
ス振幅コードベクトルを読みだし、式（１４）の歪み最
小化する振幅コードベクトルを選択する。そして、選択
された振幅コードベクトルのインデクスをゲイン量子化
回路３６５、マルチプレクサ４００へ出力する。

【０１２２】なお、式（１７）を用いて、ゲインを量子
化しながら、パルス振幅を量子化する構成をとることも
できる。

【０１２３】図１２は本発明の第１１の実施の形態を示
すブロック図である。音源量子化回路７５０は、モード
判別回路８００から判別情報を入力し、あらかじめ定め
られたモードの場合に、少なくとも一つのパルスの位置
をあらかじめ定められたビット数で量子化し、インデク
スをゲイン量子化回路３６５、マルチプレクサ４００へ
出力する。次に、複数パルスの振幅をまとめてベクトル
量子化する。パルス振幅学習コードブック５８０から、
あらかじめ学習されたパルス振幅コードベクトルを読み
だし、式（１４）の歪み最小化する振幅コードベクトル
を選択する。そして、選択された振幅コードベクトルの
インデクスをゲイン量子化回路３６５、マルチプレクサ
４００へ出力する。

【０１２４】なお、式（２２）を用いて、ゲインを量子
化しながら、パルス振幅を量子化する構成をとることも
できる。

【０１２５】図１３は本発明の第１２の実施の形態を示
すブロック図である。音源量子化回路７８０は、モード
判別回路８００から判別情報を入力し、あらかじめ定め
られたモードの場合に、少なくとも一つのパルスの位置
をあらかじめ定められたビット数で量子化する。ここ
で、各パルスのとりうる位置があらかじめ制限されてい
る。例えば、偶数番目のサンプル位置、奇数番目のサン
プル位置、Ｌサンプルとびのサンプル位置、などが考え
られる。ここでは、Ｌサンプルとびのサンプル位置をと
ることにし、Ｌの値は式（１５）のように選ぶ。インデ
クスをゲイン量子化回路３６５、マルチプレクサ４００
へ出力する。

【０１２６】なお、パルス振幅コードブックとしては、
第１１の実施の形態で述べたように、あらかじめ学習し
たコードブックを使用することもできる。

【０１２７】さらに、式（２２）を用いて、ゲインを量
子化しながら、パルス振幅を量子化する構成をとること
もできる。

【０１２８】上述した実施の形態に限らず、種々の変形
が可能である。

【０１２９】モード判別情報を用いて適応コードブック
回路や、ゲインコードブックを切替える構成とすること
もできる。

【０１３０】

【発明の効果】以上説明したように、本発明によれば、
音源量子化部において、少なくとも一つのパルスの位置
はあらかじめ定められたビット数で量子化し、パルスの
少なくとも１つのパルスの振幅がパルスの位置に依存し
てあらかじめ決定されているので、あるいは、パルスの
振幅がパルスの位置に依存して、音声信号を用いてあら
かじめ学習されているので、音源探索の演算量を低くお
さえながら、従来方式よりも音質が改善される。

【０１３１】さらに、本発明によれば、複数パルスの振
幅をまとめて量子化するためにコードブックを有してい
るので、音源探索の演算量を低くおさえながら、従来方
式よりも音質が一層改善されるという大きな効果があ
る。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態のブロック図であ
る。

【図２】本発明の第２の実施の形態のブロック図であ
る。

【図３】本発明の第３の実施の形態のブロック図であ
る。

【図４】本発明の第４の実施の形態のブロック図であ
る。

【図５】図４の実施の形態の変形を示すブロック図であ
る。

【図６】本発明の第５の実施の形態のブロック図であ
る。

【図７】本発明の第６の実施の形態のブロック図であ
る。

【図８】本発明の第７の実施の形態のブロック図であ
る。

【図９】本発明の第８の実施の形態のブロック図であ
る。

【図１０】本発明の第９の実施の形態のブロック図であ
る。

【図１１】本発明の第１０の実施の形態のブロック図で
ある。

【図１２】本発明の第１１の実施の形態のブロック図で
ある。

【図１３】本発明の第１２の実施の形態のブロック図で
ある。

【符号の説明】

１１０フレーム分割回路１２０ＬＳＰパラメータ分割回路２００スペクトルパラメータ計算回路２１０スペクトルパラメータ量子化回路２１１ＬＳＰコードブック２３０聴感重み付け回路２３５減算回路２４０応答信号計算回路３１０インパルス応答計算回路３５０，３５５，３５７，４５０，４７０，６００，６
５０，６８０，７００，７５０，７８０音源量子化
回路５００適応コードブック回路５５０音源・ゲイン量子化回路３５９振幅パラメータ格納回路３５５音源量子化回路３６０重み付け信号計算回路３６５ゲイン量子化回路３９０ゲインコードブック４００マルチプレクサ４５１パルス振幅コードブック５８０パルス振幅学習コードブック８００モード判別回路

Claims

【特許請求の範囲】

【請求項１】入力した音声信号からスペクトルパラメ
ータを求めて量子化するスペクトルパラメータ計算部
と、前記スペクトルパラメータを用いて前記音声信号の
音源信号を量子化して出力する音源量子化部とを有する
音声符号化装置において、少なくとも一つのパルスの位
置をあらかじめ定められたビット数で表し、少なくとも
一つのパルスの振幅がパルスの位置に依存しあらかじめ
決定されている音源量子化部を有することを特徴とする
音声符号化装置。
【請求項２】少なくとも一つのパルスの振幅は、位置
に依存してあらかじめ音声信号を用いて学習しておくこ
とを特徴とする音源量子化部を有する請求項１記載の音
声符号化装置。
【請求項３】少なくとも一つのパルスのとりうる位置
があらかじめ制限されている音源量子化部を有すること
を特徴とする請求項１または請求項２記載の音声符号化
装置。
【請求項４】入力した音声信号からスペクトルパラメ
ータを求めて量子化するスペクトルパラメータ計算部
と、前記スペクトルパラメータを用いて前記音声信号の
音源信号を量子化して出力する音源量子化部とを有する
音声符号化装置において、少なくとも一つのパルスの位
置をあらかじめ定められたビット数で表し、複数パルス
の振幅をまとめて量子化する音源量子化部を有すること
を特徴とする音声符号化装置。
【請求項５】複数パルスの振幅をまとめて量子化する
ために、あらかじめ音声信号を用いて学習して決定した
コードブックを使用する音源量子化部を有することを特
徴とする請求項４記載の音声符号化装置。
【請求項６】少なくとも一つのパルスのとりうる位置
があらかじめ制限されている音源量子化部を有すること
を特徴とする請求項４または請求項５記載の音声符号化
装置。
【請求項７】入力した音声信号からモードを判別し判
別情報を出力するモード判定部と、前記音声信号からス
ペクトルパラメータを求めて量子化するスペクトルパラ
メータ計算部と、前記スペクトルパラメータを用いて音
源信号を量子化して出力する音源量子化部とを有する音
声符号化装置において、あらかじめ定められたモードの
場合に、少なくとも一つのパルスの位置をあらかじめ定
められたビット数で表し、少なくとも一つのパルスの振
幅がパルスの位置に依存しあらかじめ決定されている音
源量子化部を有することを特徴とする音声符号化装置。
【請求項８】少なくとも一つのパルスの振幅は、位置
に依存してあらかじめ音声信号を用いて学習して決定し
ておくことを特徴とする音源量子化部を有する請求項７
記載の音声符号化装置。
【請求項９】少なくとも一つのパルスのとりうる位置
があらかじめ制限されている音源量子化部を有すること
を特徴とする請求項７または請求項８記載の音声符号化
装置。
【請求項１０】入力した音声信号からモードを判別し
判別情報を出力するモード判別部と、前記音声信号から
スペクトルパラメータを求めて量子化するスペクトルパ
ラメータ計算部と、前記スペクトルパラメータを用いて
前記音声信号の音源信号を量子化して出力する音源量子
化部とを有する音声符号化装置において、あらかじめ定
められたモードの場合に、少なくとも一つのパルスの位
置をあらかじめ定められたビット数で表し、複数パルス
の振幅をまとめて量子化する音源量子化部を有すること
を特徴とする音声符号化装置。
【請求項１１】複数パルスの振幅をまとめて量子化す
るために、あらかじめ音声信号を用いて学習して決定し
たコードブックを使用することを特徴とする音源量子化
部を有する請求項１０記載の音声符号化装置。
【請求項１２】少なくとも一つのパルスのとりうる位
置があらかじめ制限されている音源量子化部を有するこ
とを特徴とする請求項１０または請求項１１記載の音声
符号化装置。