JPH05265496A

JPH05265496A - 複数のコードブックを有する音声符号化方法

Info

Publication number: JPH05265496A
Application number: JP4061778A
Authority: JP
Inventors: Yoshiaki Asakawa; 吉章淺川; Hidetoshi Sekine; 英敏関根; Yasuko Shinada; 康子品田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1992-03-18
Filing date: 1992-03-18
Publication date: 1993-10-15

Abstract

(57)【要約】【目的】４ｋｂｐｓ以下の低ビットレートでも高品質
な合成音声を得ることの出来る、比較的低処理量の音声
符号化方法を提供する。【構成】ＣＥＬＰ符号器に音響分類器（１５）と複数
の統計コードブック（３２ａ、・・・・、３２ｍ）と、
統計コードブック選択器（３３）とを具備し、これらの
統計コードブックを音響分類器（１５）の分類結果にし
たがって統計コードブック選択器（３３）で切り替え、
コードブック検索器（３１）で検索する構成になって
る。【効果】複数の統計コードブックは、あらかじめ音響
分類器によって分類した学習データを用いて作成してい
るため、入力音声のバリエーションをカバーでき、高品
質化が図れる。また、符号化時には選択されたもののみ
をコードブック検索の対象とするので、処理量の低減が
図れる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、低ビットレートで高品
質な合成音声を得るに好適な音声符号化方法に関し、特
に比較的少ない処理量で４ｋｂｐｓ以下のビットレート
に適用できる音声符号化方法に係る。

【０００２】

【従来の技術】合成音声と原音声の重み付き誤差を評価
し、その誤差を最小化するように符号化パラメータを決
定する、「合成による分析」手法を取り入れた音声符号
化方式が最近提案され、低ビットレートにおいても比較
的良好な音声品質を得ることに成功している。代表的な
ものとして符号駆動線形予測符号化（ＣＥＬＰ）方式、
例えば、M.R.Schroeder and B.S.Atal："Code-excite
d linear prediction(CELP)"，Proc．ICASSP 85 (1
985.3)、があり、４．８ｋｂｐｓで実用的な音声品質を
達成している。また、ＣＥＬＰ方式の改良方式も多数提
案されており、例えばベクトル和駆動線形予測符号化
（ＶＳＥＬＰ）方式（例えば、I.A.Gersonand M.A.Jas
iuk："Vector sum excited linear prediction（VS
ELP）speech coding at 8kbps"，Proc．ICASSP 90
(1990.4)）は、処理量やメモリ容量、ビット誤り耐性
の点で優れている。

【０００３】一方無線通信のディジタル化が本格化し、
周波数の有効活用の観点から、より低ビットレート（４
ｋｂｐｓ以下）の音声符号化方式の開発が望まれてい
る。ＣＥＬＰやＶＳＥＬＰを単純に低ビットレート化し
ようとすると、品質劣化が大きくなり、限界がある。そ
こで、入力音声の音響的な性質に従って駆動音源を切り
換える方式が提案されている。

【０００４】このような方式としては、有声音でマルチ
パルス、無声音でＣＥＬＰを用いる「ＭＰＣ−ＣＥＬＰ」
方式（小澤、熊谷：マルチパルスとＣＥＬＰを用いる
３．２ｋｂ／ｓ音声符号化方式、電子情報通信学会春季
全国大会(１９９０．３)）や、有声音では位相と振幅を
制御したシングルパルス、無声音ではＣＥＬＰを用いる
「ＳＰＥ−ＣＥＬＰ」方式（W.Granzow and B.S.Ata
l："High-qualitydigital speech at 4 kb/s"，Pro
c．GLOBECOM 90（1990.12）)、音声を音響的に分類
し、その分類ごとにＣＥＬＰのコードブックや更新周期
を切り換える「ＰＳ−ＶＸＣ」方式（S.Wang and A.G
ersho："Phonetically-based vectorexcitation codi
ng of speech at 3.6kbps"，Proc．ICASSP 89（19
89.5))等がある。これらの符号化方式を従来のＣＥＬＰ
等の単一処理型の符号化方式と対比して、便宜的に「音
響分類符号化方式」と呼ぶことにする。

【０００５】

【発明が解決しようとする課題】上記音響分類符号化方
式は、比較的少ない品質劣化で低ビットレート化が図れ
るが、次のような問題がある。

【０００６】本質的に異なった符号化方式（例えばマル
チパルスとＣＥＬＰ）を切り換えて使用するため、音色
が変化するなど音質が不自然になりがちである。本発明
の第１の目的は、低ビットレート化しても音声品質の劣
化が少なく、かつ音色の変化が目立たない符号化方式を
提供することである。

【０００７】また、従来の音響分類型符号化方式は、複
数の異なる符号化方式を具備する必要があり、処理が複
雑で、ハードウェア化した場合の規模が大きくなる。本
発明の第２の目的は、比較的低処理量で第１の目的を実
現することである。

【０００８】また、従来の音響分類型符号化方式は、音
響分類結果から一義的に符号化方式を決定するため、音
響分類の誤りが音声品質の劣化に結び付く。本発明の第
３の目的は、音響分類が誤った場合でも音声品質の劣化
がほとんど生じない符号化方式を提供することである。

【０００９】

【課題を解決するための手段】上記目的を達成するた
め、本発明では以下の手段を有する。（１）入力音声の
音響的特徴を反映した、性質の異なる複数個のコードブ
ックを具備し、また、量子化特性の異なる量子化テーブ
ルを具備し、入力音声の音響分類を行う手段と、その結
果に基づき、量子化テーブルとコードコードブックを選
択する手段を有する。（２）ＶＳＥＬＰ的な構造化コー
ドブックを具備し、効率的なコードブック検索手段を有
する。（３）音響分類が誤っても決定的な音質劣化にな
らないように構成されたコードブックを具備し、コード
ブックの予備選択手段を有する。（４）量子化テーブ
ル、コードブックともに複数個の候補を選び、それら全
組合せの中から最適なものを選ぶ選択手段を有する。

【００１０】

【作用】本発明には、種々の変形があるので、ここでは
代表的な構成における作用を述べる。

【００１１】まず、もっとも基本的な構成（第１の構
成）における作用を説明する。符号器に入力された音声
は、まずフレーム、およびサブフレームに分割される。
音響分類部において入力音声の音響的特徴に従って、フ
レーム、またはサブフレーム単位で分類がなされる。短
期予測分析部では、フレームごとにスペクトルパラメー
タ（短期予測係数）が抽出され、前記音響分類の結果に
従って適切な量子化テーブルが選択され、量子化され
る。次に長期予測分析部において、サブフレーム単位
で、適応コードブックから最適な長期予測ラグと利得を
求める。コードブック検索部では、複数個の統計コード
ブックの中から、前記音響分類の結果に従って１つまた
は複数個のコードブックを選択し、これを検索すること
によって最適なコードベクトルと利得を求める。なお、
長期予測分析やコードブック検索においては、前記短期
予測係数によって重みづけられた、原音声と合成音声の
誤差を最小化するようにしてラグやコードベクトルが選
択される。

【００１２】以上のようにして求められたスペクトルパ
ラメータや利得は量子化され、長期予測ラグや選択され
た統計コードブック番号とコードベクトルの指標ととも
に符号化され、伝送パラメータとして復号器へ伝送され
る。

【００１３】復号器では、上記伝送パラメータから駆動
音源が計算され、短期予測係数をフィルタ係数とする合
成フィルタに入力されることによって、復号化音声が得
られる。

【００１４】また、本発明の別の構成においては、音響
分類を行うことなく、複数個の統計コードブックをすべ
て検索し、最適なコードベクトルが選択される。それ以
外の作用は、上記第１の構成の場合と同様である。

【００１５】また、本発明のさらに別の構成において
は、統計コードブックは複数個のサブセットに分割され
ており、音響分類結果に従って、検索するコードブック
のサブセットを限定する。それ以外の作用は、上記第１
の構成の場合と同様である。

【００１６】

【実施例】以下、図面を用いて本発明の実施例を説明す
る。本発明の第１の実施例の符号化部のブロック図を図
１に、復号化部のブロック図を図２に示す。

【００１７】本発明は、符号駆動型音声符号化（ＣＥＬ
Ｐ）方式に基づいているので、具体的な実施例の説明に
先立って、まずＣＥＬＰ方式の原理について説明する。
図３はＣＥＬＰの符号化部における駆動音源決定の原理
図である。同図では、音源の周期性を表す成分として適
応コードブック１０４の出力である長期予測ベクトル１
０７と、周期性以外の成分として統計コードブックの出
力であるコードベクトルを用い、それぞれに利得を乗じ
て加算した加重和を駆動音源とする。なお、図示した例
では音源の周期性以外の成分として音源のランダム性と
雑音性をそれぞれコードベクトルとする。したがって統
計コードブックとしてそれぞれに対応する二つの統計コ
ードブック１０５と１０６の出力であるコードベクトル
１０８と１０９にそれぞれの利得１１１、１１２を乗じ
て加算する。統計コードブックの種類は一つだけの場合
もある。

【００１８】最適な駆動音源を得るためのコードブック
の検索は次のようにしてなされる。一般に駆動音源を合
成フィルタに入力して得られる合成音声が、原音声（入
力音声）に一致するような駆動音源が得られれば良い
が、実際にはなんらかの誤差（量子化歪）を伴う。した
がってこの誤差を最小化するように駆動音源を決定すれ
ば良いことになるが、人間の聴覚特性は必ずしも誤差量
と音声の主観品質の対応が取れないことが知られてい
る。そこで聴覚特性との対応が良くなるように重み付け
した誤差を用いるのが一般的である。聴覚重み付けにつ
いては、例えば次の文献に記載されている。B.S.Atal
and J.R.Remde：”A new model ofLPC excitation
for producing natural-sounding speech at lo
w bitrates"，Proc．ICASSP 82（1982.5)。

【００１９】この聴覚重み付け誤差を評価するために、
駆動音源１１３は重み付け合成フィルタ１１５に入力さ
れ、重み付け合成音声１１５を得る。入力音声１１６も
重み付けフィルタ１１７を通して重み付け入力音声１１
８を得、重み付け合成音声１１５との差を取って重み付
け誤差波形１１９を得る。重み付け誤差波形は、２乗誤
差計算部１２０において誤差評価区間にわたって２乗和
を計算され、重み付け２乗誤差１２１が得られる。前述
のように駆動音源は長期予測ベクトルと統計コードベク
トルの荷重和であるから、駆動音源の決定は、各コード
ブックからどのコードベクトルを選択するかを決めるコ
ードベクトル指標の決定に帰着する。すなわち、長期予
測ラグ１０１とコードベクトル指標１０２、１０３を順
次変えて重み付け２乗誤差１２１を算出し、誤差最小化
部１２２において重み付け誤差が最小となるものを選択
すれば良い。このような駆動音源決定法を「合成による
分析」法と呼んでいる。上述の手順を忠実に行う、すな
わち毎回重み付け誤差を評価しながら長期予測ラグと統
計コードベクトルの指標を同じに最適化しようとする
と、膨大な処理量となるため、実際には逐次最適化等の
手法が用いられる。

【００２０】図１は本発明の第１の実施例の音声符号化
部のブロック図である。符号化部は大別して、音声入力
部、短期予測分析部、長期予測分析部、コードブック検
索部、利得量子化部からなる。図２は本発明の第１の実
施例の復号化部のブロック図である。復号化部は大別し
て、パラメータ復号化部、駆動音源生成部、合成音声出
力部からなる。以下、第１の実施例の動作の概要を説明
する。

【００２１】アナログ入力音声１１はＡＤ変換器１２に
よってディジタル信号に変換され、一旦バッファメモリ
１３に格納される。ＡＤ変換の標本化周波数は通常８ｋ
Ｈｚである。音響分類器１５はバッファメモリ１３から
フレーム長もしくはサブフレーム長のディジタル音声デ
ータ１４を読みだし、入力音声の音響的特徴に基づいて
分類する。フレーム長、サブフレーム長はそれぞれ、例
えば４０ｍｓ（３２０サンプル）、８ｍｓ（６４サンプ
ル）程度である。また、音響分類は後述のように、例え
ば母音性や摩擦性等に分類する。音響分類結果は音響分
類フラッグ１６として出力される。

【００２２】短期予測分析器１７はバッファメモリ１３
から分析フレーム長の音声データ１４を読みだし、短期
予測パラメータ１８を出力する。

【００２３】短期予測パラメータ１８は、短期予測パラ
メータ量子化器１９において量子化される。ここで複数
個の量子化テーブル２０ａから２０ｎの中から、音響分
類フラッグ１６を参照して短期予測パラメータ量子化テ
ーブル選択器２１によって選択された量子化テーブル２
２が実際の量子化に供せられる。選択された量子化テー
ブルの番号が量子化テーブル指標２３として、また量子
化符号が短期予測パラメータ量子化指標２４として、そ
れぞれ伝送パラメータとして出力される。これら二つの
指標は一つにまとめられることは言うまでもない。ま
た、短期予測パラメータの量子化値２５が、次段以降に
送出される。

【００２４】長期予測分析器２６では、音声の周期性を
表すパラメータである長期予測ラグが抽出され、長期予
測ラグの指標２７と長期予測ベクトル２８が出力され
る。

【００２５】統計コードブック検索器３１では、音源の
雑音成分をコードブックから検索する。複数のコードブ
ック３２ａから３２ｍの中から、統計コードブック選択
器３３が音響分類フラッグ１６を参照して検索対象コー
ドブック３４を選択する。コードブックの指標３５とコ
ードベクトルの指標３６が伝送パラメータとして出力さ
れる。また、検索結果として得られるコードベクトル３
７は、利得量子化器５１へ送出される。

【００２６】利得量子化器５１では、長期予測ベクトル
２８とコードベクトル３７の利得を量子化し、利得指標
５２が出力される。

【００２７】多重化器５４では、伝送パラメータである
各種指標２３、２４、２７、３５、３６、５２が多重化
され、伝送路５５へ送出される。

【００２８】次に、図２を用いて復号化部の動作の概略
を説明する。

【００２９】伝送路５５から受信された伝送パラメータ
は、多重分離器５６によって各種パラメータ６１、６
２、６３、６４、６５、６６に分離される。これらのパ
ラメータは、伝送路上でビット誤りを受けなければ、符
号化部で送出されたパラメータ２３、２４、２７、３
５、３６と同じ値を持つ。

【００３０】短期予測パラメータ復号器７２では、複数
個の短期予測パラメータ量子化テーブル７０ａから７０
ｎの中から量子化テーブル指標６１を参照して短期予測
パラメータ量子化テーブル選択器７１によって量子化テ
ーブルが選択され、短期予測パラメータ量子化指標６２
に基づいて、この選択された量子化テーブルから短期予
測パラメータ（量子化値）７３が復号される。なお、量
子化テーブル７０ａから７０ｎは符号化部における量子
化テーブル２０ａから２０ｎに等しいことは言うまでも
ない。

【００３１】長期予測ラグ復号器７４では、長期予測ラ
グ指標６３に基づいて長期予測ラグ７５が復号される。

【００３２】量子化利得復号器７６では、利得指標６６
に基づいて利得７７を復号する。

【００３３】統計コードベクトル復号器８０では、複数
個の統計コードブック７８ａから７８ｍの中からコード
ブック指標６４を参照して統計コードブック選択器７９
によってコードブックが選択され、この選択されたコー
ドブックからコードベクトル指標６５に基づいてコード
ベクトル８１が復号される。量子化テーブル同様、統計
コードブック７８ａから７８ｍは符号化部における統計
コードブック３２ａから３２ｍに等しい。

【００３４】駆動音源生成器９２では、まず適応コード
ブック９０から長期予測ラグ７５に基づいて長期予測ベ
クトル９１を読みだし、コードベクトル８１と利得７７
とともにサブフレームごとに駆動音源９３を生成する。
駆動音源９３は合成フィルタ９４に入力されるととも
に、適応コードブック９０の更新にも使用される。適応
コードブックは図１の符号化部のブロック図には明示さ
れていないが、後述の長期予測分析器２６の説明で示す
ように、符号化部にも同一のものが具備されている。

【００３５】合成フィルタ９４は、量子化短期予測パラ
メータ７３またはそれから導出されるパラメータをフィ
ルタ係数とする線形予測フィルタであり、ディジタル合
成音声９５を合成出力する。

【００３６】ディジタル合成音声９５はバッファメモリ
９６を介して連続的にＤＡ変換器９７に送出され、アナ
ログ合成音声９８に変換される。

【００３７】以上、概要を説明したので、次に第１の実
施例の主要部分の詳細な機能を説明する。

【００３８】音響分類器１５はフレーム長、あるいはサ
ブフレーム長の音声データ１４から物理的パラメータを
計算し、それらのパラメータ値の論理判定によって、そ
の区間の音声を複数個のカテゴリーに分類するものであ
る。音響分類方法自体は公知の技術であり、たとえば小
澤：”種々の音源を用いる４．８ｋｂ／ｓマルチパルス
音声符号化方式”、日本音響学会講演論文集（１９８
９．３）に一例が開示されている。音響分類器として構
成した場合のブロック図を図４に示す。物理パラメータ
は、エネルギー計算部１５１、エネルギー変化率計算部
１５３、最大相関計算部１５５、予測利得計算部１５
７、対数断面積比計算部１５９によって計算され、それ
ぞれの物理量１５２、１５４、１５６、１５８、１６０
が論理判定部１６１に入力される。各物理量の具体的計
算方法は、前記文献を参照されたい。論理判定部１６１
の判定論理は図５に示すとおりであり、これから母音
性、鼻音性、破裂・過渡性、摩擦性の４種類に分類して
いる。また、本発明の発明者らは、別の音響分類方法を
提案している。そのブロック図を図６に示す。物理パラ
メータはエネルギー１５２、エネルギー変化率１５４、
最大相関値１５６である。論理判定部１６２の判定論理
を図７に示す。この例では、母音・鼻音性、立ち上が
り、立ち下がり、その他の４通りに分類している。音響
分類はフレーム単位、あるいはサブフレーム単位で実行
されるが、例えばエネルギー変化率は、フレーム単位に
算出する場合は前フレームのフレームエネルギーと現フ
レームのフレームエネルギーの差、あるいはサブフレー
ムごとのエネルギーの変化を算出すれば良い。また、サ
ブフレーム単位で算出する場合は、隣接するサブフレー
ムのエネルギー差、または、サブフレームをさらに前後
半に分割して、その各々のエネルギーの差を検出すれば
良い。

【００３９】短期予測分析器１７は、フレームごとに音
声データ１４から音声のスペクトル包絡を表す短期予測
パラメータ１８を抽出する。短期予測パラメータ１８は
最も一般的には線形予測係数、またはそれから導出され
る等価なパラメータであり、具体的には偏自己相関係数
（ＰＡＲＣＯＲ係数、反射係数）、線スペクトル対（Ｌ
ＳＰパラメータ）等がある。線形予測係数の導出方法と
しては、Ｄｕｒｂｉｎ・Ｌｅｖｉｎｓｏｎの反復法（斎
藤、中田著、「音声情報処理の基礎」、オーム社、昭和
５６年に紹介されている）が一般的であり、反射係数の
導出方法は、上記以外にもＦＬＡＴアルゴリズム（電波
システム開発センター策定、「デジタル方式自動車電話
システム標準規格ＲＣＲＳＴＤ−２７」（以下、「Ｒ
ＣＲ規格書」と略す）に開示されている）やＬｅＲｏｕ
ｘ法（斎藤、中田著、前出書に記載）などが提案されて
いる。また、線形予測係数からＬＳＰパラメータへの変
換方法も、斎藤、中田著の前出書に記載されている。

【００４０】線形予測パラメータ１８は線形予測パラメ
ータ量子化器１９によって量子化され、量子化値２５に
変換される。量子化は、許容されるビット数によって、
スカラー量子化やベクトル量子化が用いられるが、本発
明の特徴は、複数個の量子化テーブル２０ａ、．．．、
２０ｎを具備していることである。線形予測パラメータ
値の分布は音声の特徴によって異なるので、音声の特徴
に応じた量子化テーブルを用いることによって効率的な
量子化が可能となる。そこで短期予測パラメータ量子化
テーブル選択器２１において、音響分類フラッグ１６を
参照して検索対象量子化テーブル２２を選択する。量子
化テーブル選択器２１は、音響分類結果と検索対象量子
化テーブルとを対応づけるものであり、テーブル参照形
式となっている。通常は一つの音響分類に対して一つの
量子化テーブルが選択されるが、量子化テーブルの数や
音響分類のカテゴリーによっては、複数個の量子化テー
ブルが検索対象量子化テーブル２２として選択されるこ
ともある。実際に量子化を行い、量子化歪が最小となる
量子化値２５が決まると、その時に用いられた量子化テ
ーブルの指標２３と量子化レベルの符号（量子化指標）
２４が伝送パラメータとして出力される。なお、二つの
伝送パラメータ２３と２４は便宜上別々に記載したが、
両者をまとめて一つのパラメータにできることは言うま
でもない。

【００４１】以上の説明では、量子化テーブル２０は複
数個あるとしていたが、本発明では量子化テーブルを一
つだけ具備する場合もありうる。この場合、量子化器１
９は選択器２１を介することなく、直接量子化テーブル
２０を検索する。

【００４２】次に長期予測分析器２６について説明す
る。初めに説明したとおり、長期予測分析は適応コード
ブックの検索とみなされ、合成波形と原音声との聴覚重
み付け誤差の最小化によって長期予測ラグ（適応コード
ブックの指標）が選択される。ここでは統計コードブッ
クとは逐次的に検索する場合について説明する。すなわ
ち、統計コードブックの出力は０と仮定して、最適な長
期予測ベクトル２８を決定する。

【００４３】重み付け誤差を算出するために、まず入力
音声１４に聴覚重み付け部２６１において重み付けがな
され、重み付け音声２６２を得る。重み付けフィルタは
量子化短期予測パラメータ２５から構成されるが、その
具体形式は次の通りである。

【００４４】

【数１】

【００４５】ここにαｉはフィルタ係数（線形予測係
数）、Ｎｐはフィルタ次数でたとえばＮｐ＝１０、λは
重み付けパラメータで通常λ＝０．８である。

【００４６】一般に合成フィルタの出力は過去の状態の
影響を受けるが、ここでは演算量を削減するために、予
め重み付け音声２６２から過去の合成フィルタの影響を
取り除いておく。すなわち、零入力応答計算・減算部２
６３において、重み付け合成フィルタの零入力応答を計
算し、重み付け音声２６２から減算し、過去の影響を取
り除いた重み付け音声２６４を得る。ここで用いる合成
フィルタは次の通りである。

【００４７】

【数２】

【００４８】この合成フィルタは重み付けパラメータλ
を含んでいる点が、復号側の合成フィルタと異なる点で
ある。

【００４９】一方、検索の対象となる長期予測ラグに対
応して、適応コードブック２６７から読みだされたコー
ドベクトル２６８の重み付け合成は、長期予測ベクトル
計算部２６９において、重み付け合成フィルタのインパ
ルス応答との畳み込みによって実現する。このようにし
て得られた合成出力（長期予測ベクトル）２７０は合成
フィルタの過去の状態には依存しないので、零状態応答
と呼ばれる。ここで重み付け合成フィルタのインパルス
応答は、インパルス応答計算部２６５において、（数
２）のαとして短期予測パラメータの量子化値２５を用
いて予め計算しておく。検索範囲にある各ラグに対する
長期予測ベクトル２７０を計算し、ラグ選択部２７１に
おいて重み付け音声２６４との相関が計算され、相関の
最大値を与える（最適な）長期予測ベクトル２８と、そ
の時の長期予測ラグを量子化した長期予測ラグ指標２７
が出力される。長期予測分析方法の詳細や演算量削減の
ための手法等については、前出のＲＣＲ規格書を参照さ
れたい。

【００５０】次に統計コードブック検索器３１について
説明する。本発明の特徴は、複数種類のコードブック３
２ａから３２ｍを具備しており、音響分類の結果に基づ
いてそれらを切り替えて使用する点にある。このように
する理由は、音声の特徴ごとにその残差波形（合成フィ
ルタに入力する音源波形に相当する信号で、音声の分析
によって得られる）の特徴も異なることがあげられる。
統計コードブックのコードベクトルは、音声を短期予
測、長期予測した後の残差波形を近似するものと考えら
れ、短期予測、長期予測が理想的になされた場合には、
ほとんどランダムな雑音成分となる。しかし、現実には
量子化等の影響で、短期予測、長期予測が理想的には行
われず、この結果残差にも音声の特徴が残るようにな
る。よって、統計コードブックを音声のカテゴリーごと
にその特徴を反映させて作成することが、高品質化のた
めに有効である。また、検索すべきコードブックを予め
限定することは、コードブック検索処理量削減の点でも
有効である。

【００５１】図９にコードブック検索器のブロック図を
示す。統計コードブック選択器３３は音響分類フラッグ
１６を参照して、複数個の統計コードブック３２
ａ、．．．、３２ｍから検索対象コードブック３４を選
択する。検索対象コードブック３４から順次読みだされ
たコードベクトルは、零状態応答計算部３１１におい
て、長期予測分析と同様に、短期予測パラメータの量子
化値２５を用いて零状態応答３１２が計算される。零状
態応答３１２は直交化部３１３において、長期予測ベク
トル２８と直交化される。直交化にはグラム・シュミッ
トの直交化法等が用いられる。コードブック検索におい
て、直交化は必須の処理ではないが、長期予測ベクトル
との逐次検索による性能劣化を低減する効果がある。直
交化された零状態応答３１４は検索部３１５に入力さ
れ、長期予測分析によって求められた、合成フィルタの
過去の影響を取り除いた重み付け音声２６４との２乗誤
差

【００５２】

【数３】

【００５３】が評価される。ここにｐ(ｎ)は上記の重み
付け音声、ｆ(ｎ)は直交化されフィルタ処理済みのコー
ドベクトル、γは利得、Ｎはサブフレーム内のサンプル
数である。またｉはコードベクトルの指標である。２乗
誤差の最小値を与えるコードベクトルの指標３６が出力
され、コードベクトル計算部３１６において、指標３６
に対応する零状態応答が（最適）コードベクトル３７と
して出力される。

【００５４】以上では、統計コードブックは通常のＣＥ
ＬＰ符号器と同様に、駆動音源を構成するコードベクト
ルの集合として説明している。本発明では、コードブッ
ク構造として、ＶＳＥＬＰ型の基底ベクトルの集合を採
用することが可能である。この場合、全基底ベクトルの
２値荷重和をコードベクトルとみなすことが出来、コー
ドブックの検索は２値荷重の組み合わせ方に帰着する。
通常のＣＥＬＰ型符号器のコードベクトルとＶＳＥＬＰ
符号器の基底ベクトルとは、次式によって対応付けられ
ている。

【００５５】

【数４】

【００５６】ここにＶm(n)はｍ番目の基底ベクトルを示
し、Ｍは基底ベクトルの数、たとえば９を表す。ｎはサ
ブフレーム内のサンプル番号であり、サブフレーム長が
たとえば６４サンプルとすると、ｎは０から６３の値を
取る。Ｕi(n)はＭ個の基底ベクトルの線形結合によって
生成される２のＭ乗個（Ｍ＝９の場合は５１２個）のコ
ードベクトルであり、ｉは０から２のＭ乗−１までの値
を取る。線形結合の重みθimは、符号語ｉのｍビットが
１ならばθim＝＋１、０ならばθim＝−１という２値の
値を取る。すなわちコードベクトルＵi(n)はＭ個の基底
ベクトルの加算または減算の全組合せによって生成され
るものである。

【００５７】ＶＳＥＬＰ符号器のコードブック検索につ
いては、前出のＲＣＲ規格書に詳細に述べられているの
で、ここでは省略する。図１０は本発明にＶＳＥＬＰ型
のコードブック構造を取り入れた場合のブロック図を示
している。複数個の基底ベクトルコードブック３２’
ａ、・・・、３２’ｍから、選択器３３によって検索対
象となるコードブック３４が選択される。零状態応答計
算、直交化は図９での説明と同様であるが、対象はコー
ドベクトルではなく、Ｍ個の基底ベクトルである点が異
なっている。長期予測ベクトル２８に直交化された各基
底ベクトルの零状態応答３１４は、荷重和計算部３１７
に入力され、荷重格納部３１８に格納されている荷重θ
imが順次読みだされ、（数４）にしたがってコードベク
トルが計算される。これは予め基底ベクトルからコード
ベクトルを生成し、これを零状態応答、直交化したもの
と等価である。コードベクトル検索部３１５では２のＭ
乗通りの荷重に対応したコードベクトル３２０につい
て、重み付けられ零入力応答を減算された入力音声２６
４との２乗誤差が評価される。２乗誤差の最小値を与え
る重みの符号３６が伝送パラメータとして出力され、同
時にコードベクトル計算部３１６にも入力される。コー
ドベクトル計算部３１６では、２乗誤差の最小値を与え
る符号３６に対応する荷重３１９を荷重格納部３１８か
ら読みだし、基底ベクトルの零状態応答３１２に対して
（数４）に基づいて、長期予測ベクトルに直交化されて
いないコードベクトル３７を計算する。

【００５８】コードブック検索に関連して、コードブッ
クの作成方法について説明する。コードブックの設計
（学習）法としては、閉ループ法によるものが最近提案
されている。閉ループ法は、コードベクトルの学習デー
タを用いて実際の符号化と同じ処理を行い、誤差が減少
するように学習データを修正していくものである。ＣＥ
ＬＰ符号器のコードブック学習法は、たとえば G.Davi
dson，M.Yong and A.Gersho："Real-time vector e
xcitation coding of speech at 4800bps"Proc．I
CASSP 87（1987）に述べられている。また、ＶＳＥＬ
Ｐの基底ベクトルの学習法は、I.A.Gerson："Vector s
um excited linear prediction(VSELP)speech codi
ng for Japan digital cellular"，信学技報、ＲＣ
Ｓ９０−２０（１９９０．１１）やプラワット、板
倉：”線形予測符号化における駆動音源波形コードブッ
クの設計”、信学技報、ＳＰ９０−５３（１９９０）に
述べられている。本発明では、コードブック、あるいは
基底ベクトルの学習法には従来の技術を使用するが、音
響分類に応じたカテゴリー数だけコードブック具備する
ことに特徴がある。図１１は音響分類に対応したコード
ブック学習用の学習データを作成するためのブロック図
である。学習データは不特定の話者、発声内容にも十分
対応できるように、十分な量の音声データから作られ
る。コードベクトル（または基底ベクトル、以下同様）
長はサブフレーム長と一致するので、学習用のディジタ
ル音声データ１４をサブフレーム長分読みだし、これを
音響分類器１５とパラメータ計算部２９１に入力する。
パラメータ計算部では、コードブックの学習に必要なデ
ータ、具体的には線形予測パラメータやインパルス応
答、長期予測ベクトル等を計算し、これらのパラメータ
２９２を切り替え部２９３へ出力する。一方、音響分類
器１５は、音声符号器で用いられるのと同一の機能を有
し、音声データ１４の音響的特徴を抽出し、所定数のカ
テゴリーに分類、音響分類フラッグ１６を切り替え部２
９３へ出力する。切り替え部２９３では、音響分類フラ
ッグ１６にしたがってパラメータ計算部２９１で計算さ
れたパラメータ２９２を学習データ格納部２９４ａ、・
・・、２９４ｍに振り分ける。

【００５９】次に図１に戻り、利得量子化器５１につい
て説明する。駆動音源は次式のように長期予測ベクトル
Ｃ₀と統計コードベクトルＣ₁の荷重和であるが、この荷
重が利得である（Ｃ₀とＣ₁はいずれも重み付けられてい
ない）。

【００６０】

【数５】

【００６１】利得は長期予測分析、あるいはコードブッ
ク検索における誤差評価式を偏微分することによって求
めることが出来る。しかし、本実施例では逐次検索を行
っているので、最適な利得は、それぞれの最適ベクトル
を求めた後、次の総合誤差評価式の偏微分によって求め
る必要がある。

【００６２】

【数６】

【００６３】ここにＣ₀’とＣ₁’は重み付けられた長期
予測ベクトルと統計コードベクトルである。利得量子化
器においては、このようにして最適利得を求めた後、そ
れらをスカラー量子化、あるいはベクトル量子化し、そ
の利得量子化指標５２を出力する。また、利得の量子化
を閉ループ法によって行うことも可能である。これは量
子化テーブルから順次利得の量子化値（候補）を読みだ
し、これを用いて誤差を評価し、誤差の最小値を与える
量子化値をもって量子化結果とするものである。この方
法の具体例は、前出のＲＣＲ規格書に開示されている。

【００６４】以上説明した本実施例の符号化処理の結
果、伝送パラメータは以下の通りとなる。量子化テーブ
ル指標２３、短期予測パラメータ量子化指標２４、長期
予測ラグ指標２７、コードブック指標３５、コードベク
トル指標３６、利得量子化指標５２の６パラメータであ
る。これらは多重化器５４によって多重化され、伝送路
５５に送出される。

【００６５】次に図２に戻り、本実施例の復号化部につ
いて説明する。

【００６６】伝送パラメータは伝送路５５から受信され
ると、多重分離器５６において、量子化テーブル指標６
１、短期予測パラメータ量子化指標６２、長期予測ラグ
指標６３、コードブック指標６４、コードベクトル指標
６５、利得量子化指標６６に多重分離される。

【００６７】復号化処理の第１段階は、各パラメータ値
の復号化である。短期予測パラメータ量子化テーブル選
択器７１は、複数個の量子化テーブル７１ａ、・・・、
７０ｎの中から、量子化テーブル指標６１に基づいて、
符号化時に選択された量子化テーブルを選択し、短期予
測パラメータ復号器７２へ送出する。同復号器７２で
は、短期予測パラメータ量子化指標６２に基づいて短期
予測パラメータ値７３が復号される。同様に長期予測ラ
グ復号器７４では長期予測ラグ指標６３に基づいて長期
予測ラグ７５を復号する。利得復号器７６では利得量子
化指標６６に基づいて量子化利得７７を復号する。統計
コードブック選択器７９は、複数個の統計コードブック
７８ａ、・・・、７８ｍの中から、コードブック指標６
４に基づいて、符号化時に選択された統計コードブック
を選択し、統計コードベクトル復号器８０へ送出する。
同復号器８０では、コードベクトル指標６５に基づいて
コードベクトル８１が復号される。

【００６８】復号化処理の第２段階は、駆動音源の生成
である。駆動音源生成器９２では、適応コードブック９
０から長期予測ラグ７５に対応して読みだされた長期予
測ベクトル９１と、コードベクトル８１に（数５）のよ
うに利得７７が乗ぜられ、加算されて駆動音源９３が生
成される。駆動音源９３は合成フィルタ９４に入力され
るとともに、適応コードブック９０の状態更新にも用い
られる。

【００６９】復号化処理の最後の段階は、音声合成であ
る。合成フィルタ９４では、短期予測パラメータ復号器
７２で復号された短期予測パラメータ７３をフィルタ係
数とし、駆動音源９３を入力することによってディジタ
ル合成音声９５を合成出力する。ディジタル合成音声９
５はバッファメモリ９６を介して連続的にＤＡ変換器に
送られ、アナログ合成音声９８に変換される。

【００７０】以上で、本発明の第１の実施例の音声入力
から符号化、復号化、音声出力までの動作を説明した。
以上の説明では、音声のフレームエネルギー（パワー）
には特に言及しなかった。これはフレームエネルギーは
駆動音源の利得に反映されているためであるが、利得の
量子化を考慮すると、利得のダイナミックレンジを抑え
るためにあらかじめフレームエネルギーで正規化してお
く方が有利である。フレームエネルギーは線形予測パラ
メータの計算時に容易に求められるので、フレームエネ
ルギーは別途量子化して、その指標を伝送する。このよ
うにした場合のビット割当ての例を次に示す。

【００７１】標本化周波数を８ｋＨｚ、フレーム長を４
０ｍｓ（３２０サンプル）、サブフレーム長を８ｍｓ
（６４サンプル）とする。フレームエネルギーと線形予
測パラメータはフレーム単位で更新し、他のパラメータ
はサブフレーム単位で更新するものとする。なお、フレ
ームエネルギーと線形予測パラメータは、サブフレーム
単位で補間して用いた方が、合成音声の品質向上に有効
である。短期予測パラメータの量子化テーブルを２種類
持つ場合、量子化テーブル指標（切り替えフラッグ）は
１ビットである。量子化は２０ビットの２段ベクトル量
子化を行うとすれば、量子化指標は２０ビットとなる。
フレームエネルギーは５ビットでスカラー量子化する。
よって、フレーム当りの伝送ビット数は２６ビットであ
る。

【００７２】サブフレーム単位のパラメータは、長期予
測ラグの指標が７ビットで、これは長期予測ラグの範囲
が１９サンプル（４２１Ｈｚ）から１４６サンプル（５
５Ｈｚ）に対応する。統計コードブックを４種類具備す
るとすれば、コードブック指標は２ビット、また、コー
ドブックサイズを８ビット（２５６コードベクトル）と
すればコードベクトル指標は８ビットである。利得は、
長期予測ベクトルに対するものと統計コードベクトルに
対するものをベクトル量子化して７ビットで表す。よっ
て、サブフレーム当りの伝送ビット数は２４ビットとな
る。以上により、トータルビットレートは３６５０ｂｐ
ｓとなる。この場合、音響分類器は短期予測パラメータ
量子化器の選択のためにはフレームごとに、統計コード
ブック選択のためにはサブフレームごとに分類フラッグ
を出力している。しかし、統計コードブックの切り替え
を２サブフレームに１回とすれば、音響分類フラッグの
出力間隔も２サブフレームごととなり、ビットレートは
さらに低減する。

【００７３】以上説明したように、本発明の第１の実施
例では、従来のＣＥＬＰやＶＳＥＬＰとほぼ同等の処理
量で、音声品質の劣化を抑えて低ビットレート化が可能
となる。

【００７４】次に本発明の第２の実施例について説明す
る。符号化部を図１２、復号化部を図１３に示す。本実
施例の特徴は、図１２に示すように統計コードブックの
検索が２段になっており、そのいずれも、あるいはいず
れかが複数のコードブックを具備していることである。
統計コードブックを２段階で検索することは、図３の従
来のＣＥＬＰ符号器でもそうであったように、駆動音源
の周期性以外の雑音成分の近似度を高めるためであり、
２段ベクトル量子化を行っているとみなすこともでき
る。

【００７５】本実施例の符号化部は、図１２に示すよう
に図１の第１の実施例において、第１の統計コードブッ
ク検索器３１と利得量子化器５１の間に第２の統計コー
ドブック検索器４１が挿入された形となっている。以
下、本実施例について説明するが、第１の実施例との共
通部分については説明を省略し、第２のコードブック検
索器関係の部分のみ説明する。

【００７６】図１４に示すように、複数のコードブック
４２ａ、・・・、４２ｌの中から統計コードブック選択
器４３によって検索対象コードブック４４が選択され
る。第２の統計コードブック検索器４１の構造は、図９
の第１の統計コードブック検索器３１と基本的に同様で
あるが、直交化部４１３において零状態応答４１２が長
期予測ベクトル２８だけでなく、第１のコードベクトル
３７に対しても直交化される点が異なっている。具体的
には、零状態応答４１２がまず長期予測ベクトル２８に
直交化され、この長期予測ベクトルに直交化された零状
態応答がさらに第１の統計コードベクトル３７に対して
直交化され、２段階に直交化された零状態応答４１４が
検索部４１５に入力される。第２の統計コードベクトル
検索器４１の出力は、第２のコードベクトル指標４６と
第２のコードベクトル４７である。

【００７７】利得量子化器５１では、長期予測ベクトル
２８、第１のコードベクトル３７、第２のコードベクト
ル４７に対する利得が求められ、量子化されて利得量子
化指標５２が出力される。

【００７８】本発明の第２の実施例の復号化部のブロッ
ク図を図１３に示す。第１の実施例の復号化部（図２）
に、第２の統計コードブック８２ａ、・・・、８２ｌと
第２の統計コードブック選択器８３、第２のコードベク
トル復号器８４が追加された構造となっている。利得復
号器７６からは、利得７７として、長期予測ベクトル、
第１のコードベクトル、第２のコードベクトルの三つの
ベクトルに対する利得が出力される。駆動音源生成器９
２では、長期予測ベクトル９１、第１のコードベクトル
８１、第２のコードベクトル８５にそれぞれ利得を乗
じ、加算して駆動音源を生成する。

【００７９】第２の実施例においては、第２の統計コー
ドブック検索の処理量と、第２のコードブック指標と第
２のコードベクトル指標のビットレートが増加するが、
第１の実施例に比べて高品質な合成音声を得ることが出
来る。

【００８０】次に本発明の第３の実施例について説明す
る。符号化部を図１５に示す。復号化部は第１の実施例
の復号化部（図２）と同じである。本実施例の特徴は、
図１５に示すように誤差評価器５３を具備していること
である。すなわち、符号化部において、短期予測パラメ
ータの量子化値と統計コードブックのコードベクトルを
それぞれ複数個候補として持ち、それらの全組み合わせ
について重み付け誤差を計算し、その誤差を最小化する
組合せの指標を符号器の最終的な出力とする。これは、
逐次最適化の同時最適化からの劣化を低減しようとする
ものである。短期予測パラメータと統計コードベクトル
だけでなく、長期予測ベクトルについても複数個の候補
を出すことによって、より効果は高まる。以下、本実施
例の主要部分について説明する。

【００８１】短期予測パラメータ量子化テーブル選択器
２１では、検索対象量子化テーブルとして複数個の候補
を選択する。これは音響分類フラッグ１６の値に対して
複数の量子化テーブルを割り当てておけば良い。短期予
測パラメータ量子化器１９では、それぞれの量子化テー
ブルを用いて量子化した短期予測パラメータ値２５と、
その時の量子化指標２４を出力する。もし音響分類フラ
ッグ１６の値に対して量子化テーブルが一つしか割り当
てられていない場合は、その量子化テーブルを用いて量
子化したときの量子化歪が小さい順に所定個数の候補を
出力する。

【００８２】長期予測分析器２６では、複数の短期予測
パラメータの量子化値２５のそれぞれに対して、長期予
測ラグを求め、長期予測ベクトル２８を出力する。例え
ば、短期予測パラメータの量子化値２５が二つの候補を
持っているとすれば、長期予測ベクトルも二つ得られ
る。もし長期予測ラグも短期予測パラメータの量子化値
のそれぞれに対して複数個（例えば２個）の候補を出す
とすれば、この時点で組合せとしては４通りできること
になる。以下、統計コードブックの検索においても同様
であり、複数のそれ以前の候補の組合せに対して、さら
に複数の統計コードベクトルの候補を出す。候補数を２
とすれば、全部で８通りの組合せが出来ることになる。
利得量子化器では、この８通りの組合せに対してそれぞ
れ最適な利得を求め、その指標を出力する。

【００８３】誤差評価器５３では、これらの８通りの組
合せについて、各々の重み付け２乗誤差を算出し、その
最小値を与える組合せを最終的な符号化結果とし、以下
のパラメータを出力する。量子化テーブル指標２３’、
短期予測パラメータ量子化指標２４’、長期予測ラグ指
標２７’、コードブック指標３５’、コードベクトル指
標３６’、利得量子化指標５２’である。

【００８４】復号化部では、これらの伝送パラメータか
ら各パラメータ値を復号し、最終的に合成音声を得る。

【００８５】本実施例では、それぞれの処理部で複数個
の候補出力を出し、その組合せに対して誤差評価をする
ため、第１の実施例に比べて処理量や中間データの記憶
容量が増加するが、合成音声の品質は格段に向上する。

【００８６】次に、本発明の第４の実施例について説明
する。符号化部を図１６に示す。復号化部は第１の実施
例の復号化部（図２）と同じである。本実施例では、短
期予測パラメータの量子化テーブルと、統計コードブッ
クをそれぞれ複数個具備する点は第１から第３の実施例
と同様であるが、これらの選択を音響分類器の分類結果
によらずに行う点に特徴がある。すなわち、短期予測パ
ラメータの量子化の場合には、複数の量子化テーブルの
すべてを用いて量子化し、量子化誤差が最小となるもの
を選択する。また、コードブックの検索では、複数の統
計コードブックのすべてを検索し、重み付け誤差が最小
になるものを選択する。これは量子化テーブル、あるい
は統計コードブックは音響分類に基づいて音声のバリエ
ーションをカバーするように作成しておくが、量子化
時、あるいは検索時には誤差最小化規範によって決定す
ることを意味する。

【００８７】本実施例によれば、短期予測パラメータの
量子化や統計コードブックの検索が全探索となるため、
第１の実施例に比べて処理量が増えるが、音声品質を表
す客観尺度（たとえばセグメンタルＳＮ比）が良好な合
成音声が得られる。

【００８８】次に、本発明の第５の実施例について説明
する。符号化部を図１７に示す。本実施例では、第４の
実施例と同様に音響分類は行わない。それ以外は第２の
実施例と同じで、統計コードブックの検索を２段階で行
っている。復号化部は第２の実施例の復号化部（図１
３）と同じである。

【００８９】本実施例の効果は、第４の実施例の場合と
同様に、第２の実施例に比べて処理量が増えるが、音声
品質を表す客観尺度（たとえばセグメンタルＳＮ比）が
良好な合成音声が得られる点である。

【００９０】次に、本発明の第６の実施例について説明
する。符号化部を図１８に示す。本実施例では、第４の
実施例と同様に音響分類は行わない。それ以外は第３の
実施例と同様に誤差評価器５３を有し、短期予測パラメ
ータの量子化値２５、長期予測ベクトル２８、統計コー
ドブックのコードベクトル３７のそれぞれの複数の候補
の組み合わせのうち、重み付け誤差が最小となるものを
決定する。復号化部は第１の実施例の復号化部（図２）
と同じである。

【００９１】第３の実施例においては、短期予測パラメ
ータ量子化テーブル選択器２１や統計コードブック選択
器３３によって、実際に具備している量子化テーブル数
や統計コードブック数よりも候補数をしぼり込むことも
可能であったが、本実施例では実際に具備している量子
化テーブル数、あるいは統計コードブック数だけの候補
が上がることになる。もちろんその中から量子化歪や重
み付け誤差を基準に最終的な候補をしぼることは可能で
ある。

【００９２】本実施例の効果は、第３の実施例同様、第
１の実施例に比べて処理量や中間データの記憶容量が増
加するが、合成音声の品質は格段に向上する点にある。

【００９３】以上、第１の実施例から第６の実施例にお
いては、複数個の統計コードブックは音響分類に対応し
て作成されたものをそのまま用いている。しかしこれら
のコードブックは完全に独立で、互いに分離されている
とは限らない。すなわち複数のコードブック間で成分
（コードベクトル）に類似なもの、あるいは重複がある
と、複数のコードブックを統合し、再度クラスタリング
することによって、よりコンパクトなコードブックを構
成することが出来る。この場合、統合前のコードブック
は統合後のコードブックのサブセットとみなすことが出
来る。したがって、これまでの実施例で具備していた複
数個の統計コードブックの代わりに、統合後のコードブ
ックを用い、統計コードブック選択器は統合コードブッ
クのサブセットを指定し、検索対象コードブックとする
ことが出来る。

【００９４】図１８に統合コードブックと検索対象コー
ドブックの関係を示す。統合コードブック３２１は、音
響分類に対応して作成した個別コードブックを再クラス
タリングして統合したものである。検索対象コードブッ
ク３４は、統合コードブック３２１のサブセットになっ
ている。統計コードブック選択器３３の機能は基本的に
は、音響分類フラッグ１６に基づいて、統合コードブッ
ク３２１の要素（コードベクトル）を検索対象コードブ
ック３４に対応付けるテーブルである。

【００９５】このように統合コードブックの採用によっ
て、複数のコードブックを個別に具備するよりも記憶容
量の削減効果がある。

【００９６】また、図１９の例では統合コードブックか
ら一つの検索対象コードブック（サブセット）を限定し
ていたが、複数個の検索対象コードブックを限定するこ
とも可能である。この例を図２０に示す。統計コードブ
ック選択器３３では複数個の検索対象コードブック３４
ａ、・・・、３４ｋを出力している。これは第３や第６
の実施例で複数の候補コードベクトルを用いるような場
合に相当する。

【００９７】以上の説明では、複数の検索対象コードブ
ックにおける要素（コードベクトル）間のオーバーラッ
プについては特に意識していなかった。しかし音響分類
を行う場合でも、その境界はあいまいであり、完全に分
離できるものではない。もし音響分類がわずかの差で誤
ったとすると、サブセットにオーバーラップが無いと音
声品質の劣化を招く。これに対し、図２１に示すように
統合コードブックのサブセットを意識的にオーバーラッ
プさせて構成しておけば、音響分類の誤りの影響を最小
限にすることが可能である。

【００９８】以上のように、第１から第６の実施例の複
数個の統計コードブックを統合コードブックに置きか
え、検索対象コードブックの選択を統合コードブックの
サブセットの限定にしても、同様の機能を実現できるこ
とは明らかである。さらに、コードブックの記憶容量を
削減できる効果もある。

【００９９】

【発明の効果】本発明によれば、比較的低処理量で、
３．６ｋｂｐｓ程度の高品質低ビットレート音声符号化
方法を提供出来る。

【図面の簡単な説明】

【図１】本発明の第１の実施例の符号化部のブロック図
である。

【図２】本発明の第１の実施例の復号化部のブロック図
である。

【図３】従来のＣＥＬＰ符号器の原理を示すブロック図
である。

【図４】実施例の音響分類器の一例のブロック図であ
る。

【図５】実施例の音響分類器の判定論理の一例を示す図
である。

【図６】実施例の音響分類器の別の例のブロック図であ
る。

【図７】実施例の音響分類器の判定論理の別の例を示す
図である。

【図８】実施例の長期予測分析器のブロック図である。

【図９】実施例の統計コードブック検索器のブロック図
である。

【図１０】ＶＳＥＬＰ型コードブックを採用したコード
ブック検索器の例を示すブロック図である。

【図１１】実施例の学習ベクトル作成器のブロック図で
ある。

【図１２】本発明の第２の実施例の符号化部のブロック
図である。

【図１３】本発明の第２の実施例の復号化部のブロック
図である。

【図１４】第２の実施例の第２の統計コードブック検索
器のブロック図である。

【図１５】本発明の第３の実施例の符号化部のブロック
図である。

【図１６】本発明の第４の実施例の符号化部のブロック
図である。

【図１７】本発明の第５の実施例の符号化部のブロック
図である。

【図１８】本発明の第６の実施例の符号化部のブロック
図である。

【図１９】統合コードブックと検索対象コードブックの
関係を示す概念図である。

【図２０】統合コードブックと検索対象コードブックの
関係の別の例を示す概念図である。

【図２１】統計コードブックのオーバーラップサブセッ
トを示す概念図である。

【符号の説明】

１１…アナログ入力音声、１２…ＡＤ変換器、１３，９６…バッファメモリ、１４…ディジタル音声データ、１５…音響分類器、１６…音響分類フラッグ、１７…短期予測分析器、１８…短期予測パラメータ、１９…短期予測パラメータ量子化器、２０，７０…短期予測パラメータ量子化テーブル、２１，７１…短期予測パラメータ量子化テーブル選択
器、２２…検索対象量子化テーブル、２３，２３’，６１…量子化テーブル指標、２４，２４’，６２…短期予測パラメータ量子化指標、２５，７３…短期予測パラメータ量子化値、２６…長期予測分析器、２７，２７’，６３…長期予測ラグ指標、２８…長期予測ベクトル、３１，４１…統計コードブック検索器、３２，４２，７８，８２…統計コードブック、３３，４３，７９，８３…統計コードブック選択器、３４，４４…検索対象コードブック、３５，３５’，４５，６４，６７…コードブック指標、３６，３６’，４６，６５，６８…コードベクトル指
標、３７，４７，８１，８５…コードベクトル、５１…利得量子化器、５２，５２’，６６…利得量子化指標、５３…誤差評価器、５４…多重化器、５５…伝送路、５６…多重分離器、７２…短期予測パラメータ復号器、７４…長期予測ラグ復号器、７５…長期予測ラグ、７６…利得復号器、７７…量子化利得、８０，８４…統計コードベクトル復号器、９０…適応コードブック、９２…駆動音源生成器、９３…駆動音源、９４…合成フィルタ、９５…ディジタル合成音声、９７…ＤＡ変換器、９８…アナログ合成音声。

Claims

【特許請求の範囲】

【請求項１】符号化部において入力音声を予め定めた時
間間隔（フレーム）ごとに短期予測分析を行い、前記フ
レームに等しいかあるいはより短い時間間隔（サブフレ
ーム）ごとに長期予測分析を行い、該長期分析結果と前
記短期分析結果を補助情報として抽出し、前記サブフレ
ームごとに駆動音源として予め用意されたコードブック
の中から前記入力音声と復号音声との重み付け誤差を最
小化するようなコードベクトルを選択し、該コードベク
トルの指標を前記補助情報とともに伝送または蓄積し、
復号化部において前記補助情報と前記ベクトル指標に基
づいて音声を復号化する符号駆動音声符号化方法におい
て、前記コードブックとして複数個のコードブックの集
合からなるものを用い、前記符号化部に具備された分類
器により前記入力音声を複数のカテゴリーに分類し、こ
の分類結果に基づいて前記駆動音源として用いるコード
ベクトルを前記複数個のコードブックのすべて又は一部
から検索することを特徴とする複数のコードブックを有
する音声符号化方法。
【請求項２】前記コードブックのコードベクトルは、少
数の基底ベクトルの２値の荷重付き線形結合で表現さ
れ、前記コードブックの検索は前記線形結合の前記２値
の荷重の組合せの種類を指定することと等価であること
を特徴とする請求項１に記載の複数のコードブックを有
する音声符号化方法。
【請求項３】前記分類器による分類にあたり、前記入力
音声から導出可能な物理的パラメータを用いることを特
徴とする請求項１に記載の複数のコードブックを有する
音声符号化方法。
【請求項４】前記分類器によって前記入力音声を分類
し、分類結果を出力する時間間隔は、前記フレームに等
しいか又はそれよりも短く、かつ、前記サブフレームに
等しいか又はそれよりも長いことを特徴とする請求項１
もしくは請求項３に記載の複数のコードブックを有する
音声符号化方法。
【請求項５】前記音声符号化方法は、複数個のコードブ
ック集合を具備しており、前記駆動音源は前記複数個の
コードブック集合の各集合から選択されたコードベクト
ルの荷重和であるとき、前記複数個のコードブック集合
の少なくとも１つは複数個のコードブックからなる集合
であって、前記分類器の分類結果に基づいて前記複数個
のコードブックから少なくとも１つを選択し、前記駆動
音源として用いるコードベクトルを検索するコードブッ
クとすることを特徴とする請求項１から請求項４のいず
れかに記載の複数のコードブックを有する音声符号化方
法。
【請求項６】前記複数個のコードブックは相異なる学習
データを用いて作成することを特徴とする請求項１から
請求項５のいずれかに記載の複数のコードブックを有す
る音声符号化方法。
【請求項７】前記相異なる学習データは、前記分類に用
いるのと同じ物理的パラメータを用いて分類した音声デ
ータに基づいて作成されることを特徴とする請求項６に
記載の複数のコードブックを有する音声符号化方法。
【請求項８】前記短期予測分析の結果得られる予測係数
を量子化する量子化テーブルを複数個具備し、前記分類
器の分類結果に基づき、前記量子化テーブルを切り換え
て使用することを特徴とする請求項１から請求項７のい
ずれかに記載の複数のコードブックを有する音声符号化
方法。
【請求項９】前記短期予測分析の結果得られる予測係数
を量子化する量子化テーブルを複数個具備し、該複数個
の量子化テーブルを用いて量子化した前記予測係数の複
数個の量子化値と、前記駆動音源の候補として選択した
複数個のコードベクトルの候補との組合せにおいて、前
記重み付け誤差が最小となるような組合せを選択するこ
とを特徴とする請求項１から請求項８のいずれかに記載
の複数のコードブックを有する音声符号化方法。
【請求項１０】符号化部において入力音声を予め定めた
時間間隔（フレーム）ごとに短期予測分析を行い、前記
フレームに等しいかあるいはより短い時間間隔（サブフ
レーム）ごとに長期予測分析を行い、該長期分析結果と
前記短期分析結果を補助情報として抽出し、前記サブフ
レームごとに駆動音源として予め用意されたコードブッ
クの中から前記入力音声と復号音声との重み付け誤差を
最小化するようなコードベクトルを選択し、該ベクトル
の指標を前記補助情報とともに伝送または蓄積し、復号
化部において前記補助情報と前記ベクトル指標に基づい
て音声を復号化する符号駆動音声符号化方法において、
前記コードブックとして複数個のコードブックの集合か
らなるものを用い、前記駆動音源として用いるコードベ
クトルを前記複数個のコードブックのすべてから検索す
ることを特徴とする複数のコードブックを有する音声符
号化方法。
【請求項１１】前記コードブックのコードベクトルは、
少数の基底ベクトルの２値の荷重付き線形結合で表現さ
れ、前記コードブックの検索は前記線形結合の前記２値
の荷重の組合せの種類を指定することと等価であること
を特徴とする請求項１０に記載の複数のコードブックを
有する音声符号化方法。
【請求項１２】前記音声符号化方法は、複数個のコード
ブック集合を具備しており、前記駆動音源は前記複数個
のコードブック集合の各集合から選択されたコードベク
トルの荷重和であるとき、前記複数個のコードブック集
合の少なくとも１つは複数個のコードブックからなる集
合であって、前記複数個のコードブックのすべてから前
記駆動音源として用いるコードベクトルを検索すること
を特徴とする請求項１０もしくは請求項１１に記載の複
数のコードブックを有する音声符号化方法。
【請求項１３】前記複数個のコードブックは相異なる学
習データを用いて作成することを特徴とする請求項１０
から請求項１２のいずれかに記載の複数のコードブック
を有する音声符号化方法。
【請求項１４】前記相異なる学習データは、音声データ
から導出可能な物理的パラメータを用いて複数のカテゴ
リーに分類した音声データに基づいて作成されることを
特徴とする請求項１３に記載の複数のコードブックを有
する音声符号化方法。
【請求項１５】前記短期予測分析の結果得られる予測係
数を量子化する量子化テーブルを複数個具備し、該複数
個の量子化テーブルを用いて量子化した前記予測係数の
量子化値と、前記駆動音源の候補として選択した複数個
のコードベクトルの候補との組合せにおいて、前記重み
付け誤差が最小となるような組合せを選択することを特
徴とする請求項１０から請求項１４のいずれか記載の複
数のコードブックを有する音声符号化方法。
【請求項１６】符号化部において入力音声を予め定めた
時間間隔（フレーム）ごとに短期予測分析を行い、前記
フレームに等しいかあるいはより短い時間間隔（サブフ
レーム）ごとに長期予測分析を行い、該長期分析結果と
前記短期分析結果を補助情報として抽出し、前記サブフ
レームごとに駆動音源として予め用意されたコードブッ
クの中から前記入力音声と復号音声との重み付け誤差を
最小化するようなコードベクトルを選択し、該ベクトル
の指標を前記補助情報とともに伝送または蓄積し、復号
化部において前記補助情報と前記ベクトル指標に基づい
て音声を復号化する符号駆動音声符号化方法において、
前記コードブックは複数個のサブセットに分割されてお
り、前記符号化部に具備された分類器により前記入力音
声を複数のカテゴリーに分類し、この分類結果に基づい
て前記駆動音源として選択するコードベクトルを検索す
るサブセットを限定することを特徴とする音声符号化方
法。
【請求項１７】前記コードブックのコードベクトルは、
少数の基底ベクトルの２値の荷重付き線形結合で表現さ
れ、前記コードブックの検索は前記線形結合の前記２値
の荷重の組合せの種類を指定することと等価であること
を特徴とする請求項１６に記載の音声符号化方法。
【請求項１８】前記分類器は前記入力音声から導出可能
な物理的パラメータを用いることを特徴とする請求項１
６もしくは請求項１７に記載の音声符号化方法。
【請求項１９】前記分類器によって前記入力音声を分類
し、分類結果を出力する時間間隔は、前記フレームに等
しいか又はそれよりも短く、かつ、前記サブフレームに
等しいか又はそれよりも長いことを特徴とする請求項１
６から請求項１８のいずれかに記載の音声符号化方法。
【請求項２０】前記分類器の分類結果に基づいて前記駆
動音源として選択するベクトルを検索するサブセットを
複数個限定することを特徴とする請求項１６から請求項
１９のいずれかに記載の音声符号化方法。
【請求項２１】コードブックを複数個のサブセットに分
割し、前記分類器の分類結果に基づいて前記駆動音源ベ
クトルを前記サブセットから検索する音声符号化方法で
あって、前記サブセットのベクトル要素は前記サブセッ
ト間でオーバーラップすることを特徴とする請求項１６
から請求項２０のいずれかに記載の音声符号化方法。
【請求項２２】前記音声符号化方法は、複数個のコード
ブックを具備しており、前記駆動音源は前記複数個のコ
ードブックの各々から選択されたコードベクトルの荷重
和であるとき、前記複数個のコードブックの少なくとも
１つは複数個のサブセットに分割されており、前記分類
器の分類結果に基づいて前記複数個のサブセットから少
なくとも１つを選択し、前記駆動音源として用いるコー
ドベクトルを検索することを特徴とする請求項１６から
請求項２１のいずれかに記載の音声符号化方法。
【請求項２３】前記短期予測分析の結果得られる予測係
数を量子化する量子化テーブルを複数個具備し、前記分
類器の分類結果に基づき、前記量子化テーブルを切り換
えて使用することを特徴とする請求項１６から請求項２
２のいずれかに記載の音声符号化方法。
【請求項２４】前記短期予測分析の結果得られる予測係
数を量子化する量子化テーブルを複数個具備し、該複数
個の量子化テーブルを用いて量子化した前記予測係数の
複数個の量子化値と、前記駆動音源の候補として選択し
た複数個のコードベクトルの候補との組合せにおいて、
前記重み付け誤差が最小となるような組合せを選択する
ことを特徴とする請求項１６から請求項１２記載の音声
符号化方法。