JPH06222797A

JPH06222797A - 音声符号化方式

Info

Publication number: JPH06222797A
Application number: JP5008737A
Authority: JP
Inventors: Kazunori Ozawa; 一範小澤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1993-01-22
Filing date: 1993-01-22
Publication date: 1994-08-12
Anticipated expiration: 2013-04-28
Also published as: AU5391394A; CA2113928A1; DE69420431D1; AU666599B2; DE69420431T2; CA2113928C; EP0607989A3; JP2746039B2; EP0607989B1; EP0607989A2; US5737484A

Abstract

(57)【要約】（修正有）【目的】４．８ｋｂ／ｓ以下のビットレートで高い音質
を得る音声符号化方式。【構成】音声信号をフレームに分割し、サブフレームに
分割し、サブフレームのスペクトルパラメータ計算部２
００と、スペクトルパラメータを量子化するスペクトル
パラメータ量子化部２１０と、音声信号から特徴量を計
算してフレーム音声信号のモード分類部２４５と、スペ
クトルパラメータを用い音声信号に聴感重み付けを施し
た重み付け部２３０と、モード分類結果と量子化された
スペクトルパラメータと音声信号とを用いて、ピッチ周
期を表わすパラメータを求める適応コードブック部３０
０と、重み付け信号と適応コードブック部３００の出力
とスペクトルパラメータと量子化されたスペクトルパラ
メータを用い、複数段からなる音源コードブック３５１
₁〜３５１_Nとゲインコードブック３５５とを探索し音
源信号を量子化する音源量子化部３５０とを有する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声信号を低いビット
レート、特に４．８ｋｂ／ｓ以下のビットレートで高品
質に符号化するための音声符号化方式に関する。

【０００２】

【従来の技術】従来、音声信号を４．８ｋｂ／ｓ以下の
低いビットレートで符号化する方式としては、例えばシ
ュレーダ（Ｍ．Ｓｃｈｒｏｅｄｅｒ）およびアタル
（Ｂ．Ａｔａｌ）による“コード−エキサイテド・リニ
ア・プレディクション：ハイ・クォリティ・スピーチ・
アト・ベリ・ロウ・ビット・レイツ（Ｃｏｄｅ−ｅｘｃ
ｉｔｅｄｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎ：Ｈｉ
ｇｈｑｕａｌｉｔｙｓｐｅｅｃｈａｔｖｅｒｙ
ｌｏｗｂｉｔｒａｔｅｓ）”、音響、音声および
信号処理に関する国際会議の議事録（Ｐｒｏｃ．ＩＣＡ
ＳＳＰ），１９８５年９３７ないし９４０ページの論文
（文献１）や、クレイジン（Ｋｌｅｉｊｎ）らによる
“インプルーブド・スピーチ・クォリティ・アンド・エ
フィシェント・ベクトル・クォンタイゼイション・イン
・エスイーエルピー（Ｉｍｐｒｏｖｅｄｓｐｅｅｃｈ
ｑｕａｌｉｔｙａｎｄｅｆｆｉｃｉｅｎｔｖｅｃ
ｔｏｒｑｕａｎｔｉｚａｔｉｏｎｉｎＳＥＬ
Ｐ）”、音響、音声および信号処理に関する国際会議の
議事録（Ｐｒｏｃ．ＩＣＡＳＳＰ），１９８８年、１５
５ないし１５８ページの論文（文献２）に記載されてい
るＣＥＬＰ（ＣｏｄｅＥｘｃｉｔｅｄＬＰＣＣｏ
ｄｉｎｇ）方式が知られている。この方式では、送信側
にてフレーム毎（例えば２０ｍｓ）の音声信号を線形予
測（ＬＰＣ）分析して音声信号のスペクトル特性を表す
スペクトルパラメータを抽出し、フレームをさらにサブ
フレーム（例えば５ｍｓ）に分割してサブフレーム毎に
過去の音源信号をもとに適応コードブックにおけるパラ
メータ（遅延パラメータおよびゲインパラメータ）を抽
出し、適応コードブックによりサブフレームの音声信号
をピッチ予測し、ピッチ予測して求めた残差信号に対し
て、予め定められた種類の雑音信号からなる音源コード
ブック（ベクトル量子化コードブック）から最適音源コ
ードベクトルを選択し最適なゲインを計算する。最適音
源コードベクトルの選択は、選択した雑音信号により合
成した信号と、前述の残差信号との誤差電力を最小化す
るように行う。そして選択された音源コードベクトルの
種類を表すインデクスおよび最適ゲインならびに、前述
のスペクトルパラメータおよび適応コードブックから抽
出したパラメータを伝送する。受信側の説明は省略す
る。

【０００３】

【発明が解決しようとする課題】上述した文献１および
２の従来方式では、良好な音質を得るためには音源コー
ドブックのサイズが十分大きい（例えば１０ビット）必
要があった。このため、音源コードブックの探索に膨大
な演算量を必要とした。さらに必要とするメモリ容量も
膨大であり（例えば１０ビット４０次元の場合には、４
０Ｋワードのメモリ容量）、ハードウェアをコンパクト
に実現するのが困難であった。また、ビットレートを低
減するためにフレーム長、サブフレーム長を増大し、音
源コードブックのビット数を低減せずに次元数を増大す
ると、演算量はきわめて顕著に増加するという問題点が
ある。

【０００４】コードブックのサイズを低減する方法とし
て、例えばジュアング（Ｂ．Ｊｕａｎｇ）らによる“マ
ルチプル・ステージ・ベクトル・クォンタイゼイション
・フォア・スピーチ・コーディング（Ｍｕｌｔｉｐｌｅ
Ｓｔａｇｅｖｅｃｔｏｒｑｕａｎｔｉｚａｔｉｏｎ
ｆｏｒｓｐｅｅｃｈｃｏｄｉｎｇ）”、音響、音
声および信号処理に関する国際会議の議事録（Ｐｒｏ
ｃ．ＩＣＡＳＳＰ），１９８２年、５９７ないし６００
ページの論文（文献３）に記載されているように、コー
ドブックを多段に分割して構成し、各コードブックを独
立に探索する多段ベクトル量子化法が知られている。こ
の方法では、コードブックが複数段に分割されているの
で、１段あたりのコードブックのサイズは、例えばＢ／
Ｌビット（ここでＢは全体のビット数、Ｌは段数）に低
減されるため、コードブック探索に要する演算量は、Ｌ
段全体でも、Ｂビット１段に比べ、Ｌ×２^B/Lに低減さ
れる。また、コードブック格納に必要なメモリ容量も同
様に低減される。しかし、この方法では、各段のコード
ブックを独立に学習、探索しているので、Ｂビット１段
に比べ、性能は大きく低下するという問題点がある。

【０００５】本発明の目的は、上述した問題点を解決
し、比較的少ない演算量及びメモリ容量により、低ビッ
トレート特に４．８ｋｂ／ｓ以下のビットレートで音質
の良好な音声符号化方式を提供することにある。

【０００６】

【課題を解決するための手段】本発明の方式は、入力す
る音声信号をあらかじめ定めたタイミングごとにフレー
ムに分割しさらに複数個のサブフレームに細分割して、
少なくとも一つの前記サブフレームに対して前記音声信
号のスペクトル的特徴を表すスペクトルパラメータを算
出するスペクトルパラメータ計算部と、あらかじめ指定
した位置の前記サブフレームのスペクトルパラメータを
量子化コードブックを用いて量子化するスペクトルパラ
メータ量子化部と、前記音声信号のあらかじめ定められ
た特徴量を計算して前記フレームの音声信号を複数種類
のモードのうちの一つに分類するモード分類部と、前記
スペクトルパラメータ計算部にて得られる前記スペクト
ルパラメータに応じて前記音声信号に聴感重み付けを施
した重み付け信号を求める重み付け部と、前記モード分
類部でのモード分類結果と前記スペクトルパラメータ計
算部にて得られるスペクトルパラメータと前記スペクト
ルパラメータ量子化部にて量子化されたスペクトルパラ
メータと前記重み付け信号とに応じて、そのモードに対
応した前記音声信号のピッチを表わすパラメータを求め
て送出する適応コードブック部と、前記重み付け信号と
前記適応コードブック部の送出パラメータと前記スペク
トルパラメータと前記量子化されたスペクトルパラメー
タとに応じて、複数段からなる音源コードブックとゲイ
ンコードブックとを探索して前記音声信号の音源信号を
量子化した出力信号を発する音源量子化部とを有する。

【０００７】

【作用】本発明による音声符号化方式の作用を示す。

【０００８】音声信号をフレーム（例えば４０ｍｓ）に
分割し、さらにサブフレーム（例えば８ｍｓ）に分割す
る。スペクトルパラメータ計算部では、少なくとも一つ
のサブフレーム（例えば５つのサブフレームのうち第
１，第３，第５のサブフレーム）に対して、周知のＬＰ
Ｃ分析を施してスペクトルパラメータ（ＬＰＣパラメー
タ）を求める。スペクトルパラメータ量子化部では、あ
らかじめ定められたサブフレーム（例えば第５サブフレ
ーム）に対応するＬＰＣパラメータを量子化コードブッ
クを用いて量子化する。ここで、コードブックとして
は、ベクトル量子化コードブック、スカラ量子化コード
ブック、ベクトル−スカラ量子化コードブックのいずれ
をも用いることができる。

【０００９】次に、フレームの音声信号からあらかじめ
定められた特徴量を計算し、この値とあらかじめ定めら
れたしきい値とを比較して、フレーム毎に複数種類（例
えば４種類）のモードに分類する。次に、聴感重み付け
部では、第１，第２，第５のサブフレームのスペクトル
パラメータａｉ（ｉ＝１ないしＰ）を用いて、下式
（１）により聴感重み付け信号をサブフレーム毎に計算
する。ただし、第２及び第４サブフレームのスペクトル
パラメータについてはそれぞれ、例えば第１，第３のサ
ブフレーム、及び第３第５のサブフレームのスペクトル
パラメータを直線補間することにより得られる。

【００１０】

【００１１】ここで、ｘ（ｚ）、Ｘｗ（ｚ）は、それぞ
れ、フレームの音声信号及び聴感重み付け信号のｚ変換
である。Ｐはスペクトルパラメータの次数である。ま
た、γは聴感重み付け量を制御するための定数であり、
通常０．８程度に選ぶ。

【００１２】次に、適応コードブック部では、聴感重み
付け信号に対して、サブフレーム毎に、ピッチに関する
パラメータとして遅延Ｔとゲインβを計算する。ここで
遅延はピッチ周期に対応する。適応コードブックのパラ
メータの計算法は、前記文献２を参照できる。また、特
に女性話者に対する適応コードブックの性能を改善する
ために、サブフレーム毎の遅延をサンプリング時刻毎の
整数値ではなくて小数値で表すこともできる。具体的に
は、クルーン（Ｐ．Ｋｒｏｏｎ）およびアタル（Ｂ．Ａ
ｔａｌ）による“ピッチ・プレディクターズ・ウィズ・
ハイ・テンポラル・レゾリューション（Ｐｉｔｃｈｐ
ｒｅｄｉｃｔｏｒｓｗｉｔｈｈｉｇｈｔｅｍｐｏ
ｒａｌｒｅｓｏｌｕｔｉｏｎ）”、音響、音声および
信号処理に関する国際会議の議事録（Ｐｒｏｃ．ＩＣＡ
ＳＳＰ）１９９０年、６６１ないし６６４ページの論文
（文献４）等を参照することができる。このようにする
ことにより、例えばサブフレーム毎の遅延量を整数値で
表すと７ビット必要であったのが、小数値にすることに
より８ビット程度に増加するが、女性音に関しては著し
く音質が改善される。

【００１３】さらに、適応コードブックのパラメータの
計算に関する演算量を低減化するために、まず、聴感重
み付け信号に対して、サブフレーム毎に遅延の候補をオ
ープンループ探索により、下式（２）を最大化するもの
から順に複数種類求める。

【００１４】Ｄ（Ｔ）＝Ｐ²（Ｔ）／Ｑ（Ｔ）（２）但し、

【００１５】

【００１６】である。以上により、サブフレーム毎に、
オープンループ探索により、少なくとも１種類の遅延候
補を求め、その後、過去のフレームの駆動音源信号を用
いたクローズドループ探索により、サブフレーム毎に、
前記候補の近傍を探索して、ピッチ周期（遅延）とゲイ
ンを求める。（具体的な方法に関しては、例えば特願平
３−１０３２６２号（文献５）等を参照）適応コードブックの遅延量は、有声区間では、サブフレ
ーム間で極めて相関が高いため、サブフレーム間で遅延
量の差分をとり、差分を伝送することにより、適応コー
ドブックの遅延を伝送するために必要な伝送情報量を、
遅延量をサブフレーム毎に独立に伝送する方法に比べ大
幅に低減化することができる。例えば、フレーム毎に第
１サブフレームでは、遅延量を小数値で表して８ビット
で伝送し、第２〜５サブフレームでは、直前サブフレー
ムとの遅延量の差分を例えば３ビットで伝送すれば、全
てのサブフレームで８ビットを伝送する場合に比べ、伝
送情報量をフレーム当たり４０ビットから２０ビットに
低減化することができる。

【００１７】次に、音源量子化部では、複数段のベクト
ル量子化用のコードブックから構成される音源コードブ
ックを探索し、前述の重み付け信号と音源コードブック
中の各コードベクトルにより重み付け再生された信号と
の誤差電力を最小化するよう、コードベクトルが各段毎
に選択される。例えば音源コードブックが２段のコード
ブックから構成されていると、コードベクトルの探索は
下式（５）に従って行う。

【００１８】

【００１９】上式において、βｖ（ｎ−Ｔ）は適応コー
ドブック部のクローズドループ探索において計算された
適応コードベクトルであり、βは適応コードベクトルの
ゲインである。ｃ_1j（ｎ）、ｃ_2i（ｎ）はそれぞれ、１
段目、２段目のコードブックのｊ番目のコードベクト
ル、ｉ番目のコードベクトルを表す。また、ｈ_w（ｎ）
は下式（６）の重み付けフィルタの特性を表すインパル
ス応答である。また、γ₁，γ₂はそれぞれ、１段目、
２段目のコードブックに関する最適ゲインである。

【００２０】

【００２１】ここで、γは式（１）の聴感重み付けを制
御する定数である。

【００２２】次に、音源コードブックの式（５）を最小
化するコードベクトルを探索した後に、下式（７）を最
小化するようにゲインコードブックを探索する。

【００２３】

【００２４】ここでγ₁ｋ、γ_2kは、２次元のゲインコ
ードブックのｋ番目のゲインコードベクトルを示す。

【００２５】音源コードブックの最適コードベクトルを
探索するときの演算量を低減化するために、各段毎に、
複数種類の音源コードベクトルの候補（例えば、１段目
はｍ₁種類、２段目はｍ₂種類）を選択し、選択後に、
１段目と２段目の候補の全組み合わせ（ｍ₁×ｍ₂）を
探索して、式（５）を最小にする候補の組み合わせを選
択してもよい。

【００２６】また、ゲインコードブックを探索するとき
は、上記音源コードベクトルの候補の全ての組み合わ
せ、あるいは、組み合わせのうち、誤差電力の小さい順
に、あらかじめ定められた個数だけ選択した候補の組み
合わせに対して、式（７）に従いゲインコードブックを
探索し、誤差電力を最小化するようなゲインコードベク
トルと音源コードベクトルの組み合わせを求めるように
してもよい。このようにすると演算量は増大するが、性
能は改善される。

【００２７】次に、本発明の特許請求の範囲の請求項２
に記載した実施態様のモード分類部では、特徴量として
累積ピッチ予測歪を用いる。まず、適応コードブック部
のオープンループ探索によりサブフレーム毎に選択され
たピッチ周期候補Ｔに対して、ピッチ予測歪として、下
式（８）に従いピッチ予測誤差歪をサブフレーム毎に求
める。

【００２８】

【００２９】ここで１はサブフレーム番号である。そし
て下式（９）によりフレーム全体の累積予測誤差電力を
求め、この値とあらかじめ定められたしきい値とを比較
して、複数種類のモードに分類する。

【００３０】

【００３１】例えば、モードを４種類設けるとすると、
しきい値を３種類設け、式（９）の値を３種類のしきい
値と比較してモード分類を行う。なお、ピッチ予測歪と
しては、上記以外にピッチ予測ゲイン等を用いることも
できる。

【００３２】請求項３に記載した本発明の実施態様のス
ペクトルパラメータ量子化部では、モード分類部で分類
されたモードのいくつかに対して、トレーニング信号に
対して、あらかじめスペクトル量子化コードブックを作
成しておき、符号化するときはモード情報を用いてスペ
クトル量子化コードブックを切り替えて使用する。この
ようにするとコードブックを格納するメモリ容量は、切
り替える種類だけ増大するが、全体合計ではより大きな
サイズのコードブックを有することと等価となり、伝送
情報量を増大させずに性能を向上させることができる。

【００３３】請求項４に記載した本発明の実施態様の音
源量子化部では、あらかじめトレーニング信号をモード
毎に分類して、あらかじめ定められたモード毎で異なる
音源コードブック、及びゲインコードブックを作成して
おき、符号化するときは、モード情報を用いて、音源コ
ードブック及びゲインコードブックを切り替えて使用す
る。このようにするとコードブックを格納するメモリ容
量は、切り替える種類だけ増大するが、全体合計ではよ
り大きなサイズのコードブックを有することと等価とな
り、伝送情報量を増大させずに性能を向上させることが
できる。

【００３４】さらに請求項５に記載した本発明の実施態
様の音源量子化部では、複数段のコードブックのうちの
少なくとも一つの段は、コードベクトルの要素があらか
じめ定められた間引き率（例えば、間引き率＝２）のレ
ギュラーパルス構成となっている。ここで、間引き率＝
１とすれば通常の構成になる。このような構成にするこ
とにより、音源コードブックの格納に必要なメモリ量を
１／間引き率、（例えば間引き率＝２とすると１／２）
に低減できる。また、音源コードブック探索に必要な演
算量もほぼ、１／間引き率以下に低減化できる。さら
に、音源コードベクトルの要素を間引いてパルス化する
ことにより、特に音声の母音部等では、聴感上重要なピ
ッチパルスをより良好に表すことができるので音質が向
上する。

【００３５】

【実施例】次に、本発明について図面を参照して説明す
る。

【００３６】図１は本発明の第１の実施例を示すブロッ
ク図である。同図において、入力端子１００から入力す
る音声信号は、フレーム分割回路１１０でフレーム（例
えば４０ｍｓ）毎に分割され、サブフレーム分割回路１
２０でさらにフレームよりも短いサブフレーム（例えば
８ｍｓ）に分割される。

【００３７】スペクトルパラメータ計算回路２００で
は、少なくとも一つのサブフレームの音声信号に対し
て、サブフレーム長よりも長い窓（例えば２４ｍｓ）を
かけて音声を切り出してスペクトラパラメータをあらか
じめ定められた次数（例えば次数Ｐ＝１０）にて計算す
る。スペクトルパラメータは、特に子音、母音間での過
渡区間では時間的に大きく変化するので、短い時間毎に
分析する方が望ましいが、そのようにすると分析に必要
な演算量が増大するため、フレーム中のいずれかＬ個
（Ｌ〉１）のサブフレーム（例えばＬ＝３とし、第１，
３，５サブフレーム）に対してスペクトルパラメータを
計算することにする。そして、分析しなかったサブフレ
ーム（ここでは第２，４サブフレーム）では、それぞ
れ、第１と第３サブフレーム、第３と第５サブフレーム
のスペクトルパラメータを後述のＬＳＰ上で直線補間し
たものをスペクトルパラメータとして使用する。ここで
スペクトルパラメータの計算には、周知のＬＰＣ分析
や、バーグ（Ｂｕｒｇ）分析等を用いることができる。
本実施例では、Ｂｕｒｇ分析を用いる。Ｂｕｒｇ分析の
詳細については、例えば中溝による“信号解析とシステ
ム同定”と題した単行本（コロナ社、１９８８年刊）の
８２ないし８７ページ（文献６）に記載されている。

【００３８】さらにスペクトルパラメータ計算回路２０
０では、Ｂｕｒｇ法により計算された線形予測係数α_i
（ｉ＝１ないし１０）を量子化や補間に適した線スペク
トル対（ＬＳＰ）パラメータに変換する。ここで、線形
予測係数からＬＳＰへの変換法は、例えば菅村らによる
“線スペクトル対（ＬＳＰ）音声分析合成方式による音
声情報圧縮”と題した論文（電子通信学会論文誌、Ｊ６
４−Ａ、５９９ないし６０６ページ、１９８１年）（文
献７）を利用する。つまり、第１，３，５サブフレーム
でＢｕｒｇ法により求めた線形予測係数を、ＬＳＰパラ
メータに変換し、第２，４サブフレームのＬＳＰを直線
補間により求めて、第２，４サブフレームのＬＳＰを逆
変換して線形予測係数に戻し、第１ないし５サブフレー
ムの線形予測係数α_il（ｉ＝１ないし１０，ｌ＝１ない
し５）を聴感重み付け回路２３０に出力する。また、第
１ないし第５サブフレームのＬＳＰをスペクトルパラメ
ータ量子化回路２１０へ出力する。

【００３９】スペクトルパラメータ量子化回路２１０で
は、あらかじめ定められたサブフレームのＬＳＰパラメ
ータを効率的に量子化する。本実施例では、量子化法と
して、ベクトル量子化を用い、第５サブフレームのＬＳ
Ｐパラメータを量子化する。ＬＳＰパラメータのベクト
ル量子化の手法は周知の手法を用いることができる。
（例えば特願平２−２９７６００号（文献８）や特願平
３−２６１９２５号（文献９）、特願平３−１５５０４
９号（文献１０）等を参照）さらに、スペクトルパラメ
ータ量子化部２１０では、第５サブフレームで量子化し
たＬＳＰパラメータをもとに、第１ないし第４サブフレ
ームのＬＳＰパラメータを復元する。本実施例では、現
フレームの第５サブフレームの量子化ＬＳＰパラメータ
と１つ過去のフレームの第５サブフレームの量子化ＬＳ
Ｐを直線補間して、第１ないし第４サブフレームのＬＳ
Ｐを復元する。つまり、量子化前のＬＳＰと量子化後の
ＬＳＰとの誤差電力を最小化するコードベクトルを１種
類選択した後に、直線補間により第１ないし第４サブフ
レームのＬＳＰを復元できる。さらに性能を向上させる
ためには、前記誤差電力を最小化するコードベクトルを
複数候補選択したのちに、各々の候補について、下式
（１０）による累積歪を評価し、累積歪を最小化する候
補と補間ＬＳＰの組を選択するようにすれば良い。

【００４０】

【００４１】ここで、１ｓｐ_il、１ｓｐ’_lはそれぞ
れ、第１サブフレームの量子化前のＬＳＰ，量子化後復
元した第１サブフレームのＬＳＰである。また、ｂ
_ilは、第１サブフレームの量子化前のＬＳＰに対して下
式（１１）を適用して求めた重み係数である。

【００４２】ｂ_il＝（１／［１ｓｐ_i,l−１ｓｐ_i-1,l］）＋（１／［１ｓｐ_i+1,l−１ｓｐ_i,l］）（１１）また、ｃ_iはＬＳＰの次数方向への重み係数であり、例
えば下式（１２）を用いて求めることができる。

【００４３】ｃ_i＝１．０（ｉ＝１ないし８），０．８（ｉ＝９ないし１０）（１２）以上により復元した第１ないし第４サブフレームのＬＳ
Ｐと第５サブフレームの量子化ＬＳＰをサブフレーム毎
に線形予測係数α’_il（ｉ＝１ないし１０，ｌ＝１ない
し５）に変換し、インパルス応答計算回路３１０へ出力
する。また、第５サブフレームの量子化ＬＳＰのコード
ベクトルを表すインデクスをマルチプレクサ４００に出
力する。

【００４４】上記の動作において、直線補間のかわり
に、ＬＳＰの保管パターンをあらかじめ定められたビッ
ト数（例えば２ビット）分用意しておき、これらのパタ
ーンの各々に対して第１ないし第４サブフレームのＬＳ
Ｐを復元して式（１０）を評価し、式（１０）を最小化
するコードベクトルと補間パターンの組を選択するよう
にしても良い。このようにすると保管パターンのビット
数だけ伝送情報が増加するが、ＬＳＰのフレーム内での
時間的な変化をより精密に表すことができる。ここで、
保管パターンは、トレーニング用のＬＳＰデータを用い
てあらかじめ学習して作成しても良いし、あらかじめ定
められたパターンを格納しておいても良い。

【００４５】モード分類回路２４５では、モード分類を
行うための特徴量として、スペクトルパラメータの予測
誤差電力を用いる。スペクトルパラメータ計算回路２０
０により計算された線形予測係数を５サブフレーム分入
力し、Ｋパラメータに変換し、下式（１３）により５サ
ブフレーム分の累積予測誤差電力Ｅを計算する。

【００４６】

【００４７】ただし、

【００４８】

【００４９】であり、Ｐ₁は第１サブフレームの入力信
号のパワである。次にＥの値をあらかじめ定められたし
きい値と比較して、複数種類のモードに分類する。例え
ば４種類のモードに分類するときは、３種類のしきい値
と比較することにより行う。分類して得られたモード情
報は適応コードブック回路３００へ出力されると共に、
モード情報を表すインデクス（４種類のモード情報のと
きは２ビット）がマルチプレクサ４００へ出力される。

【００５０】重み付け回路２３０は、スペクトルパラメ
ータ計算回路２００から、各サブフレーム毎に線形予測
係数α_il（ｉ＝１ないし１０，ｌ＝１ないし５）を入力
し、式（１）にもとづき、サブフレームの音声信号に対
して聴感重み付けを行い、聴感重み付け信号を出力す
る。

【００５１】応答信号計算回路２４０は、スペクトルパ
ラメータ計算回路２００から、各サブフレーム毎に線形
予測係数α_ilを入力し、スペクトルパラメータ量子化回
路２１０から、量子化、補間して復元した線形予測係数
α’_ilをサブフレーム毎に入力し、保存されているフィ
ルタメモリの値を用いて、入力信号ｄ（ｎ）＝０とした
応答信号を１サブフレーム分計算し、減算器２５０へ出
力する。ここで、応答信号ｘ_z（ｎ）は下式（１５）で
表される。

【００５２】

【００５３】ここで、γは式（１）の場合と同一の値で
ある。

【００５４】減算器２５０は、下式により、聴感重み付
け信号から応答信号を１サブフレーム分減算し、ｘ_w’
（ｎ）を適応コードブック回路３００へ出力する。

【００５５】ｘ_w’（ｎ）＝ｘ_w（ｎ）−ｘ_z（ｎ）（１６）インパルス応答計算回路３１０は、ｚ変換が下式で表さ
れる重み付けフィルタのインパルス応答ｈ_w（ｎ）をあ
らかじめ定められた点数Ｌだけ計算し、適応コードブッ
ク回路３００、音源量子化回路３５０へ出力する。

【００５６】

【００５７】適応コードブック回路３００は、モード分
類回路からのモード情報を入力し、あらかじめ定められ
たモードのときにのみピッチパラメータを求める。ここ
では、モードは４モードあり、モード分類のときのしき
い値がモード０からモード３になるにつれて大きくなっ
ているとすると、モード０は子音部、モード１ないし３
は母音部に対応すると考えられるので、適応コードブッ
ク回路３００は、モード１ないし３に対してのみピッチ
パラメータを求めることにする。まず、オープンループ
探索において、聴感重み付け回路２３０の出力信号に対
して、サブフレーム毎に式（２）を最大化する整数遅延
候補を複数種類（例えばＭ種類）選択する。さらに、遅
延の短い領域では（例えば遅延が２０ないし８０）、候
補の各々に対して前記文献４等の手法を用いて、整数遅
延の近傍において、複数種類の小数遅延候補を求め、最
終的に前記式（２）を最大化する小数遅延候補をサブフ
レーム毎に少なくとも１種類選択する。以下では、簡単
のために候補数は１種類とし、サブフレーム毎に１種類
選択された遅延をｄ_l（ｌ＝１ないし５）とする。次
に、クローズドループ探索において、過去のフレームの
駆動音源信号ｖ（ｎ）をもとに、サブフレーム毎に、ｄ
_lのあらかじめ定められた近傍の数点εに対して下式
（１８）を評価し、その値を最大化する遅延をサブフレ
ーム毎に求め、遅延を表すインデクスＩ_dをマルチプレ
クサに出力する。探索法の詳細については、文献５等を
参照できる。また、下式（２１）により適応コードベク
トルを計算し、音源量子化回路３５０に出力する。

【００５８】Ｄ’（ｄ_l＋ε）＝Ｐ’²（ｄ_l＋ε）／Ｑ（ｄ_l＋ε）（１８）ただし

【００５９】

【００６０】ここで、ｈ_W（ｎ）はインパルス応答計算
回路の出力である。

【００６１】ｑ（ｎ）＝β・ｖ（ｎ−（ｄ_l＋ε））＊ｈ_w（ｎ）（２１）ただし、β＝Ｐ’（ｄ_l＋ε）／Ｑ（ｄ_l＋ε）（２２）また、作用の項で説明したように、有声区間（例えばモ
ード１ないし３）では、サブフレーム間で遅延の差分を
とり、差分を伝送することもできる。このような構成の
場合、例えばフレームの第１サブフレームでは、小数遅
延で８ビット伝送し、第２〜５サブフレームでは前のサ
ブフレームとの遅延の差分を例えばサブフレーム当たり
３ビットで伝送することができる。またオープンループ
遅延探索のときに、第２〜５サブフレームでは、前のフ
レームの遅延の近傍値を３ビット分探索することとし、
さらに各サブフレーム毎に遅延の候補を選択するのでは
なく、遅延候補の５サブフレーム分のパスに対して５サ
ブフレーム分累積の誤差電力を求め、これを最小化する
遅延候補のパスを求め、クローズドループ探索に出力す
る。クローズドループ探索では、前のサブフレームでク
ローズドループ探索により得られた遅延値の近傍を３ビ
ット分探索して最終的な遅延値を求め、求めたサブフレ
ーム毎の遅延値に対応するインデクスをマルチプレクサ
４００に出力する。

【００６２】音源量子化回路３５０は、減算器２５０の
出力信号、適応コードブック回路３００の出力信号、イ
ンパルス応答計算回路３１０の出力信号を入力し、ま
ず、複数段からなるベクトル量子化コードブックの探索
を行う。図１では複数種類のベクトル量子化コードブッ
クを音源コードブック３５１₁〜３５１_Nとして表して
いる。以下では簡単のために、段数は２とする。各段の
コードベクトルの探索は、式（５）を修正した下式（２
３）に従う。

【００６３】

【００６４】ただし、ｘ’_w（ｎ）は減算器２５０の出
力信号である。なお、モード０では適応コードブックを
使用しないため、式（２３）の代わりに、下式（２４）
を最小化するコードベクトルを探索する。

【００６５】

【００６６】式（２３）を最小化するための１段目、２
段目のコードベクトルの探索法は種々あるが、ここでは
１段目、２段目から複数種類の候補を選択し、その後
に、両候補の組み合わせ探索を行い、式（２３）の歪を
最小化する候補の組み合わせを決定する。また、１段
目、２段目のベクトル量子化コードブックは、前述の探
索法を考慮して、あらかじめ多量の音声データベースを
用いて設計しておく。以上により決定された１段目，２
段目のコードベクトルのインデクスＩ_c1，Ｉ_c2を出力す
る。

【００６７】また、音源量子化回路３５０は、ゲインコ
ードブックの探索も行う。図１ではゲインコードブック
は３５５として表されている。ゲインコードブックは、
適応コードブックを使用するモード１ないし３では、音
源コードブックの決定されたインデクスを用いて下式
（２５）を最小化するように探索する。

【００６８】

【００６９】ここでは、適応コードベクトルのゲイン、
１段目，２段目の音源コードベクトルのゲインを３次元
のゲインコードブックを使用して量子化することとす
る。ここで、（β_k，γ_1k，γ_2k）はそのｋ番目のコー
ドベクトルである。式（２５）を最小化するには、例え
ば、全てのゲインコードベクトル（ｋ＝０ないし２^B−
１）に対して式（２５）を最小化するゲインコードベク
トルを求めてもよいし、ゲインコードベクトルの候補を
複数種類予備選択しておき、その複数種類のなかから、
式（２５）を最小化するものを選択しても良い。ゲイン
コードベクトル決定後、選択されたゲインコードベクト
ルを示すインデクスＩ_gを出力する。一方、適応コード
ブックを用いないモードでは、下式（２６）を最小化す
るようにゲインコードブックを探索する。ここでは２次
元のゲインコードブックを使用する。

【００７０】

【００７１】重み付け信号計算回路３６０は、スペクト
ルパラメータ計算回路の出力パラメータ及び、それぞれ
のインデクスを入力し、インデクスからそれに対応する
コードベクトルを読みだし、まず下式にもとづき駆動音
源信号ｖ（ｎ）を求める。

【００７２】ｖ（ｎ）＝β’ｖ（ｎ−ｄ）＋γ’₁ｃ₁（ｎ）＋γ’₂ｃ₂（ｎ）（２７）ただし、適応コードブックを使用しないモードでは、
β’＝０とする。次に、スペクトルパラメータ計算回路
２００の出力パラメータ、スペクトルパラメータ量子化
回路２１０の出力パラメータを用いて下式（２８）によ
り、重み付け信号ｓ_w（ｎ）をサブフレーム毎に計算
し、応答信号計算回路２４０へ出力する。

【００７３】

【００７４】以上により、本発明の第１の実施例の説明
を終える。

【００７５】図２は本発明の第２の実施例を示すブロッ
ク図である。本実施例は、モード分類回路４１０に関す
るものであり、図１の実施例と同一の参照符号を付した
構成要素は、図１の場合と同じ動作を行うので説明を省
略する。

【００７６】適応コードブック回路４２０におけるオー
プンループ計算回路４２１は、前述の式（２）および
（３）にもとづき、サブフレーム毎に、遅延の候補を少
なくとも１種類求め、クローズドループ計算回路４２２
に出力する。さらに、式（２９）のピッチ予測誤差電力
をサブフレーム１毎に計算する。

【００７７】

【００７８】そして、Ｐ_Glをモード分類回路４１０に出
力する。

【００７９】クローズドループ計算回路４２２は、モー
ド情報、オープンループ計算回路４２１からサブフレー
ム毎に少なくとも１種類の遅延候補、聴感重み付け信号
を入力し、第１の実施例の適応コードブック回路３００
におけるクローズドループ探索部と同一の動作を行う。

【００８０】モード分類回路４１０は下式（３０）に従
い、特徴量として、累積ピッチ予測誤差電力Ｅ_Gを求
め、これを複数種類のしきい値と比較し、モードを分類
し、モード情報を出力する。

【００８１】

【００８２】以上で、第２の実施例の説明を終了する。

【００８３】図３は本発明の第３の実施例を示すブロッ
ク図である。図３において、図１と同一の参照符号を付
した構成要素は、図１と同一の動作を行うので、説明は
省略する。図３において、スペクトルパラメータ量子化
回路４５０は、スペクトルパラメータ量子化用に複数種
類の量子化コードブック４５１₀〜４５１_M-1を有して
おり、モード情報分類回路２５０からモード情報を入力
し、あらかじめ定められたモード毎に４５１₀〜４５１
_M-1を切り替えて使用する。

【００８４】量子化コードブック４５１₁〜４５１
_Nは、あらかじめ、トレーニング用の多量のスペクトル
パラメータをモードに分類しておき、あらかじめ定めら
れたモード毎に量子化コードブックを設計しておけばよ
い。このような構成をとることにより、量子化スペクト
ルパラメータのインデクスの伝送情報量、コードブック
探索の演算量を図１と同一に保ちながら、コードブック
サイズが数倍になったこととほぼ等価となるので、スペ
クトルパラメータ量子化の性能を大幅に改善できる。

【００８５】以上により、第３の実施例の説明を終了す
る。

【００８６】図４は本発明の第４の実施例を示すブロッ
ク図である。。図４において、図１と同一の参照符号を
付した構成要素は、図１と同一の動作を行うので、説明
は省略する。図４において、音源量子化回路４７０は、
Ｎ段（Ｎ〉１）のベクトル量子化コードブック４７１₁₀
〜４７１_1NをＭセット（Ｍ〉１）、及びゲインコードブ
ック４８１を４８１₀〜４８１_M-1までＭセット有して
おり、４７１₁₀〜４７１_NM-1（合計Ｎ×Ｍ種類）のベク
トル量子化コードブックを有している。モード分類回路
２５０からのモード情報を用いて、あらかじめ定められ
たモードのときに、Ｍセットのうちのあらかじめ定めら
れたｊ番目のセットにおけるＮ段のベクトル量子化コー
ドブックを選択し、あらかじめ定められたｊ番目のセッ
トにおけるゲインコードブックを選択して音源信号の量
子化を行う。

【００８７】音源コードブック、ゲインコードブックを
設計するときは、あらかじめ多量の音声データベースを
モード毎に分類しておき、前述の方法を用いて、あらか
じめ定められたモード毎にコードブックを設計すれば良
い。これらにより、音源コードブック、ゲインコードブ
ックのインデクスの伝送情報量、音現コードブック探索
の演算量を図１と同一に保ちながら、コードブックサイ
ズがＭ倍になったこととほぼ等価となるので、音源量子
化の性能を大幅に改善できる。

【００８８】図４の音源量子化回路３５０において、Ｎ
段のコードブック３５１₁〜３５１_Nを有し、そのうち
の少なくとも１段が、図５に示すような、あらかじめ定
められた間引き率のレギュラーパルス構成となってい
る。図５では、間引き率ｍ＝２の例を示す。レギュラー
パルス構成にすると、振巾が零の位置では演算処理が不
要なのでコードブック探索に必要な演算量を約１／ｍに
低減化することができる。また、コードブックを格納す
るのに必要なメモリ量も振巾が零の位置では格納する必
要がないので、約１／ｍに低減化できる。レギュラーパ
ルス構成の詳細については、デルプラト（Ｍ．Ｄｅｌｐ
ｒａｔ）らの“ア・６ｋｂｐｓ．レギュラー・パルス・
シーイーエルピー・コーダ・フォア・モビル・ラジオ・
コミュニケーションズ（Ａ６ｋｂｐｓｒｅｇｕｌａ
ｒｐｕｌｓｅＣＥＬＰｃｏｄｅｒｆｏｒｍｏ
ｂｉｌｅｒａｄｉｏｃｏｍｍｕｎｉｃａｔｉｏｎ
ｓ）”（アタル（Ａｔａｌ）編、ＫｌｕｗｅｒＡｃａ
ｄｅｍｉｃＰｕｂｌｉｓｈｅｒｓ，１９９０年、１７
９ないし１８８ページ）と題した論文（文献１１）等を
参照できるので、ここでは説明を省略する。レギュラー
パルス構成のコードブックも前述の方法により、あらか
じめ学習しておく。

【００８９】さらに、異なる位相の振幅パターンを共通
のパターンとして表現してコードブックを設計し、符号
化時は、位相だけ時間的にずらして使用することによ
り、ｍ＝２のときは、メモリ量、演算量をさらに１／２
に低減化できる。

【００９０】また、メモリ量を低減させるためには、レ
ギュラーパルス構成以外にも、マルチパルスの構成をと
ることもできる。

【００９１】以上により本発明の第４の実施例の説明を
終了する。

【００９２】本発明の意向を損なうこと無く、上述した
実施例以外にも種々の変形が可能である。

【００９３】まず、スペクトルパラメータはＬＳＰ以外
にも他の周知なパラメータを用いることができる。

【００９４】スペクトルパラメータ計算回路２００で
は、フレーム中で少なくとも１つのサブフレームでスペ
クトルパラメータを計算するときに、前のサブフレーム
と現在のサブフレームとのＲＭＳの変化あるいはパワの
変化を測定し、これらの変化が大きな複数個のサブフレ
ームに対してスペクトルパラメータを計算するようにし
てもよい。このようにすると、音声の変化点では必ずス
ペクトルパラメータを分析することになり、分析するサ
ブフレーム数を低減しても性能の劣化を防ぐことができ
る。

【００９５】スペクトルパラメータの量子化には、ベク
トル量子化、スカラ量子化、ベクトル−スカラ量子化な
ど周知な方法を用いることができる。

【００９６】スペクトルパラメータ量子化回路における
補間パターンの選択には、式（１０）以外にも他の周知
な距離尺度を用いることができる。例えば、下式（３
１）を用いることもできる。

【００９７】

【００９８】ここで、ＲＭＳ₁は１サブフレームのＲＭ
Ｓもしくはパワである。

【００９９】また、音源量子化回路において、式（２
３）〜（２６）で、ゲインγ₁とγ₂を同一とすること
もできる。このときは、ゲインコードブックは適応コー
ドブックを用いるモードでは、２次元ゲインとなり、適
応コードブックを用いないモードでは１次元ゲインとな
る。また、モード毎に、音源コードブックの段数、ある
いは各段の音源コードブックのビット数、ゲインコード
ブックのビット数を変えることもできる。例えば、モー
ド０は３段で、モード１ないし３は２段とすることもで
きる。

【０１００】また、音源コードブックの構成は、例え
ば、２段構成のときに、１段目コードベクトルに対応さ
せて２段目のコードブックを設計しておき、１段目で選
択されたコードベクトルに応じて２段目で探索するコー
ドブックを切り替えるようにすると、メモリ量は増大す
るが、性能はさらに改善される。

【０１０１】また、音源コードブックの探索、ならびに
学習のときの距離尺度は、他の周知な尺度を用いること
もできる。

【０１０２】また、ゲインコードブックは、伝送ビット
数よりも全体で数倍大きなのサイズのコードブックをあ
らかじめ学習し、あらかじめ定められたモード毎に前記
コードブックの一部の領域を使用領域としてアサインし
ておき、符号化するときは、モードに応じて使用領域を
切り替えて使用することもできる。

【０１０３】また、適応コードブック回路での探索、並
びに音源量子化回路での探索には、それぞれ、式（１
９）〜（２１）、式（２３）〜（２６）のように、イン
パルス応答ｈ_w（ｎ）を用いて畳み込み演算を行ってい
るが、これは、伝達特性が式（６）で表されるような重
み付けフィルタを用いてフィルタリング演算により行う
こともできる。このようにすると、演算量は増大する
が、性能はさらに向上する。

【０１０４】

【発明の効果】以上述べたように本発明によれば、音声
の特徴量を用いて音声をモードに分類し、モードにより
スペクトルパラメータの量子化の方法、適応コードブッ
クの動作、音源量子化の方法を切り替えているので、従
来方式と比較してより低いビットレートでも良好な音質
が得られる。

【図面の簡単な説明】

【図１】本発明の第１の実施例のブロック図。

【図２】本発明の第２の実施例のブロック図。

【図３】本発明の第３の実施例のブロック図。

【図４】本発明の第４の実施例のブロック図。

【図５】本発明の第４の実施例におけるレギュラーパル
スを例示する信号タイミング図である。

【符号の説明】

１１０フレーム分割回路１２０サブフレーム分割回路２００スペクトルパラメータ計算回路２１０，４５０スペクトルパラメータ量子化回路２１１，４５１₀〜４５１_M-1 コードブック２３０重み付け回路２４０応答信号計算回路２４５，４１０モード分類回路２５０演算回路３００，４２０適応コードブック回路３１０インパルス応答計算回路３５０，４７０音源量子化回路３５１₁〜３５１_N，４７１₁₀〜４７１_NM-1 音源コ
ードブック３５５，４８１₀〜４８１_M-1 ゲインコードブック４００マルチプレクサ４２１オープンループ計算回路４２２クローズドループ計算回路

Claims

【特許請求の範囲】

【請求項１】入力する音声信号をあらかじめ定めたタ
イミングごとにフレームに分割しさらに複数個のサブフ
レームに細分割して、少なくとも一つの前記サブフレー
ムに対して前記音声信号のスペクトル的特徴を表すスペ
クトルパラメータを算出するスペクトルパラメータ計算
部と、あらかじめ指定した位置の前記サブフレームのス
ペクトルパラメータを量子化コードブックを用いて量子
化するスペクトルパラメータ量子化部と、前記音声信号
のあらかじめ定められた特徴量を計算して前記フレーム
の音声信号を複数種類のモードのうちの一つに分類する
モード分類部と、前記スペクトルパラメータ計算部にて
得られる前記スペクトルパラメータに応じて前記音声信
号に聴感重み付けを施した重み付け信号を求める重み付
け部と、前記モード分類部でのモード分類結果と前記ス
ペクトルパラメータ計算部にて得られるスペクトルパラ
メータと前記スペクトルパラメータ量子化部にて量子化
されたスペクトルパラメータと前記重み付け信号とに応
じて、そのモードに対応した前記音声信号のピッチを表
わすパラメータを求めて送出する適応コードブック部
と、前記重み付け信号と前記適応コードブック部の送出
パラメータと前記スペクトルパラメータと前記量子化さ
れたスペクトルパラメータとに応じて、複数段からなる
音源コードブックとゲインコードブックとを探索して前
記音声信号の音源信号を量子化した出力信号を発する音
源量子化部とを有することを特徴とする音声符号化方
式。
【請求項２】前記モード分類部は、前記重み付け部に
て得る前記重み付け信号からサブフレーム毎にピッチ予
測による歪を求め、そのピッチ予測歪をフレーム全体に
わたり累積した値を特徴量として用いてモード分類を行
う請求項１記載の音声符号化方式。
【請求項３】前記スペクトルパラメータ量子化部は、
前記モード分類部におけるモード分類結果に応じて複数
段の前記量子化コードブックを切り替えてスペクトルパ
ラメータを量子化する請求項１記載の音声符号化方式。
【請求項４】前記音源量子化部は、前記モード分類部
におけるモード分類結果に応じて複数段の前記音源コー
ドブックと前記ゲインコードブックとを切り替えて前記
音源信号を量子化する請求項１記載の音声符号化方式。
【請求項５】前記音源量子化部は、複数段の前記音源
コードブックのうち、少なくとも一つの段があらかじめ
定められた間引き率のコードブックから構成されている
請求項１記載の音声符号化方式。