JPH05265496A - 複数のコードブックを有する音声符号化方法 - Google Patents

複数のコードブックを有する音声符号化方法

Info

Publication number
JPH05265496A
JPH05265496A JP4061778A JP6177892A JPH05265496A JP H05265496 A JPH05265496 A JP H05265496A JP 4061778 A JP4061778 A JP 4061778A JP 6177892 A JP6177892 A JP 6177892A JP H05265496 A JPH05265496 A JP H05265496A
Authority
JP
Japan
Prior art keywords
codebook
codebooks
speech
vector
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4061778A
Other languages
English (en)
Inventor
Yoshiaki Asakawa
吉章 淺川
Hidetoshi Sekine
英敏 関根
Yasuko Shinada
康子 品田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP4061778A priority Critical patent/JPH05265496A/ja
Publication of JPH05265496A publication Critical patent/JPH05265496A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 4kbps以下の低ビットレートでも高品質
な合成音声を得ることの出来る、比較的低処理量の音声
符号化方法を提供する。 【構成】 CELP符号器に音響分類器(15)と複数
の統計コードブック(32a、・・・・、32m)と、
統計コードブック選択器(33)とを具備し、これらの
統計コードブックを音響分類器(15)の分類結果にし
たがって統計コードブック選択器(33)で切り替え、
コードブック検索器(31)で検索する構成になって
る。 【効果】 複数の統計コードブックは、あらかじめ音響
分類器によって分類した学習データを用いて作成してい
るため、入力音声のバリエーションをカバーでき、高品
質化が図れる。また、符号化時には選択されたもののみ
をコードブック検索の対象とするので、処理量の低減が
図れる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、低ビットレートで高品
質な合成音声を得るに好適な音声符号化方法に関し、特
に比較的少ない処理量で4kbps以下のビットレート
に適用できる音声符号化方法に係る。
【0002】
【従来の技術】合成音声と原音声の重み付き誤差を評価
し、その誤差を最小化するように符号化パラメータを決
定する、「合成による分析」手法を取り入れた音声符号
化方式が最近提案され、低ビットレートにおいても比較
的良好な音声品質を得ることに成功している。代表的な
ものとして符号駆動線形予測符号化(CELP)方式、
例えば、M.R.Schroeder and B.S.Atal:"Code-excite
d linear prediction(CELP)",Proc.ICASSP 85 (1
985.3)、があり、4.8kbpsで実用的な音声品質を
達成している。また、CELP方式の改良方式も多数提
案されており、例えばベクトル和駆動線形予測符号化
(VSELP)方式(例えば、I.A.Gersonand M.A.Jas
iuk:"Vector sum excited linear prediction(VS
ELP)speech coding at 8kbps",Proc.ICASSP 90
(1990.4))は、処理量やメモリ容量、ビット誤り耐性
の点で優れている。
【0003】一方無線通信のディジタル化が本格化し、
周波数の有効活用の観点から、より低ビットレート(4
kbps以下)の音声符号化方式の開発が望まれてい
る。CELPやVSELPを単純に低ビットレート化し
ようとすると、品質劣化が大きくなり、限界がある。そ
こで、入力音声の音響的な性質に従って駆動音源を切り
換える方式が提案されている。
【0004】このような方式としては、有声音でマルチ
パルス、無声音でCELPを用いる「MPC−CELP」
方式(小澤、熊谷:マルチパルスとCELPを用いる
3.2kb/s音声符号化方式、電子情報通信学会春季
全国大会(1990.3))や、有声音では位相と振幅を
制御したシングルパルス、無声音ではCELPを用いる
「SPE−CELP」方式(W.Granzow and B.S.Ata
l:"High-qualitydigital speech at 4 kb/s",Pro
c.GLOBECOM 90(1990.12))、音声を音響的に分類
し、その分類ごとにCELPのコードブックや更新周期
を切り換える「PS−VXC」方式(S.Wang and A.G
ersho:"Phonetically-based vectorexcitation codi
ng of speech at 3.6kbps",Proc.ICASSP 89(19
89.5))等がある。これらの符号化方式を従来のCELP
等の単一処理型の符号化方式と対比して、便宜的に「音
響分類符号化方式」と呼ぶことにする。
【0005】
【発明が解決しようとする課題】上記音響分類符号化方
式は、比較的少ない品質劣化で低ビットレート化が図れ
るが、次のような問題がある。
【0006】本質的に異なった符号化方式(例えばマル
チパルスとCELP)を切り換えて使用するため、音色
が変化するなど音質が不自然になりがちである。本発明
の第1の目的は、低ビットレート化しても音声品質の劣
化が少なく、かつ音色の変化が目立たない符号化方式を
提供することである。
【0007】また、従来の音響分類型符号化方式は、複
数の異なる符号化方式を具備する必要があり、処理が複
雑で、ハードウェア化した場合の規模が大きくなる。本
発明の第2の目的は、比較的低処理量で第1の目的を実
現することである。
【0008】また、従来の音響分類型符号化方式は、音
響分類結果から一義的に符号化方式を決定するため、音
響分類の誤りが音声品質の劣化に結び付く。本発明の第
3の目的は、音響分類が誤った場合でも音声品質の劣化
がほとんど生じない符号化方式を提供することである。
【0009】
【課題を解決するための手段】上記目的を達成するた
め、本発明では以下の手段を有する。(1)入力音声の
音響的特徴を反映した、性質の異なる複数個のコードブ
ックを具備し、また、量子化特性の異なる量子化テーブ
ルを具備し、入力音声の音響分類を行う手段と、その結
果に基づき、量子化テーブルとコードコードブックを選
択する手段を有する。(2)VSELP的な構造化コー
ドブックを具備し、効率的なコードブック検索手段を有
する。(3)音響分類が誤っても決定的な音質劣化にな
らないように構成されたコードブックを具備し、コード
ブックの予備選択手段を有する。(4)量子化テーブ
ル、コードブックともに複数個の候補を選び、それら全
組合せの中から最適なものを選ぶ選択手段を有する。
【0010】
【作用】本発明には、種々の変形があるので、ここでは
代表的な構成における作用を述べる。
【0011】まず、もっとも基本的な構成(第1の構
成)における作用を説明する。符号器に入力された音声
は、まずフレーム、およびサブフレームに分割される。
音響分類部において入力音声の音響的特徴に従って、フ
レーム、またはサブフレーム単位で分類がなされる。短
期予測分析部では、フレームごとにスペクトルパラメー
タ(短期予測係数)が抽出され、前記音響分類の結果に
従って適切な量子化テーブルが選択され、量子化され
る。次に長期予測分析部において、サブフレーム単位
で、適応コードブックから最適な長期予測ラグと利得を
求める。コードブック検索部では、複数個の統計コード
ブックの中から、前記音響分類の結果に従って1つまた
は複数個のコードブックを選択し、これを検索すること
によって最適なコードベクトルと利得を求める。なお、
長期予測分析やコードブック検索においては、前記短期
予測係数によって重みづけられた、原音声と合成音声の
誤差を最小化するようにしてラグやコードベクトルが選
択される。
【0012】以上のようにして求められたスペクトルパ
ラメータや利得は量子化され、長期予測ラグや選択され
た統計コードブック番号とコードベクトルの指標ととも
に符号化され、伝送パラメータとして復号器へ伝送され
る。
【0013】復号器では、上記伝送パラメータから駆動
音源が計算され、短期予測係数をフィルタ係数とする合
成フィルタに入力されることによって、復号化音声が得
られる。
【0014】また、本発明の別の構成においては、音響
分類を行うことなく、複数個の統計コードブックをすべ
て検索し、最適なコードベクトルが選択される。それ以
外の作用は、上記第1の構成の場合と同様である。
【0015】また、本発明のさらに別の構成において
は、統計コードブックは複数個のサブセットに分割され
ており、音響分類結果に従って、検索するコードブック
のサブセットを限定する。それ以外の作用は、上記第1
の構成の場合と同様である。
【0016】
【実施例】以下、図面を用いて本発明の実施例を説明す
る。本発明の第1の実施例の符号化部のブロック図を図
1に、復号化部のブロック図を図2に示す。
【0017】本発明は、符号駆動型音声符号化(CEL
P)方式に基づいているので、具体的な実施例の説明に
先立って、まずCELP方式の原理について説明する。
図3はCELPの符号化部における駆動音源決定の原理
図である。同図では、音源の周期性を表す成分として適
応コードブック104の出力である長期予測ベクトル1
07と、周期性以外の成分として統計コードブックの出
力であるコードベクトルを用い、それぞれに利得を乗じ
て加算した加重和を駆動音源とする。なお、図示した例
では音源の周期性以外の成分として音源のランダム性と
雑音性をそれぞれコードベクトルとする。したがって統
計コードブックとしてそれぞれに対応する二つの統計コ
ードブック105と106の出力であるコードベクトル
108と109にそれぞれの利得111、112を乗じ
て加算する。統計コードブックの種類は一つだけの場合
もある。
【0018】最適な駆動音源を得るためのコードブック
の検索は次のようにしてなされる。一般に駆動音源を合
成フィルタに入力して得られる合成音声が、原音声(入
力音声)に一致するような駆動音源が得られれば良い
が、実際にはなんらかの誤差(量子化歪)を伴う。した
がってこの誤差を最小化するように駆動音源を決定すれ
ば良いことになるが、人間の聴覚特性は必ずしも誤差量
と音声の主観品質の対応が取れないことが知られてい
る。そこで聴覚特性との対応が良くなるように重み付け
した誤差を用いるのが一般的である。聴覚重み付けにつ
いては、例えば次の文献に記載されている。B.S.Atal
and J.R.Remde:”A new model ofLPC excitation
for producing natural-sounding speech at lo
w bitrates",Proc.ICASSP 82(1982.5)。
【0019】この聴覚重み付け誤差を評価するために、
駆動音源113は重み付け合成フィルタ115に入力さ
れ、重み付け合成音声115を得る。入力音声116も
重み付けフィルタ117を通して重み付け入力音声11
8を得、重み付け合成音声115との差を取って重み付
け誤差波形119を得る。重み付け誤差波形は、2乗誤
差計算部120において誤差評価区間にわたって2乗和
を計算され、重み付け2乗誤差121が得られる。前述
のように駆動音源は長期予測ベクトルと統計コードベク
トルの荷重和であるから、駆動音源の決定は、各コード
ブックからどのコードベクトルを選択するかを決めるコ
ードベクトル指標の決定に帰着する。すなわち、長期予
測ラグ101とコードベクトル指標102、103を順
次変えて重み付け2乗誤差121を算出し、誤差最小化
部122において重み付け誤差が最小となるものを選択
すれば良い。このような駆動音源決定法を「合成による
分析」法と呼んでいる。上述の手順を忠実に行う、すな
わち毎回重み付け誤差を評価しながら長期予測ラグと統
計コードベクトルの指標を同じに最適化しようとする
と、膨大な処理量となるため、実際には逐次最適化等の
手法が用いられる。
【0020】図1は本発明の第1の実施例の音声符号化
部のブロック図である。符号化部は大別して、音声入力
部、短期予測分析部、長期予測分析部、コードブック検
索部、利得量子化部からなる。図2は本発明の第1の実
施例の復号化部のブロック図である。復号化部は大別し
て、パラメータ復号化部、駆動音源生成部、合成音声出
力部からなる。以下、第1の実施例の動作の概要を説明
する。
【0021】アナログ入力音声11はAD変換器12に
よってディジタル信号に変換され、一旦バッファメモリ
13に格納される。AD変換の標本化周波数は通常8k
Hzである。音響分類器15はバッファメモリ13から
フレーム長もしくはサブフレーム長のディジタル音声デ
ータ14を読みだし、入力音声の音響的特徴に基づいて
分類する。フレーム長、サブフレーム長はそれぞれ、例
えば40ms(320サンプル)、8ms(64サンプ
ル)程度である。また、音響分類は後述のように、例え
ば母音性や摩擦性等に分類する。音響分類結果は音響分
類フラッグ16として出力される。
【0022】短期予測分析器17はバッファメモリ13
から分析フレーム長の音声データ14を読みだし、短期
予測パラメータ18を出力する。
【0023】短期予測パラメータ18は、短期予測パラ
メータ量子化器19において量子化される。ここで複数
個の量子化テーブル20aから20nの中から、音響分
類フラッグ16を参照して短期予測パラメータ量子化テ
ーブル選択器21によって選択された量子化テーブル2
2が実際の量子化に供せられる。選択された量子化テー
ブルの番号が量子化テーブル指標23として、また量子
化符号が短期予測パラメータ量子化指標24として、そ
れぞれ伝送パラメータとして出力される。これら二つの
指標は一つにまとめられることは言うまでもない。ま
た、短期予測パラメータの量子化値25が、次段以降に
送出される。
【0024】長期予測分析器26では、音声の周期性を
表すパラメータである長期予測ラグが抽出され、長期予
測ラグの指標27と長期予測ベクトル28が出力され
る。
【0025】統計コードブック検索器31では、音源の
雑音成分をコードブックから検索する。複数のコードブ
ック32aから32mの中から、統計コードブック選択
器33が音響分類フラッグ16を参照して検索対象コー
ドブック34を選択する。コードブックの指標35とコ
ードベクトルの指標36が伝送パラメータとして出力さ
れる。また、検索結果として得られるコードベクトル3
7は、利得量子化器51へ送出される。
【0026】利得量子化器51では、長期予測ベクトル
28とコードベクトル37の利得を量子化し、利得指標
52が出力される。
【0027】多重化器54では、伝送パラメータである
各種指標23、24、27、35、36、52が多重化
され、伝送路55へ送出される。
【0028】次に、図2を用いて復号化部の動作の概略
を説明する。
【0029】伝送路55から受信された伝送パラメータ
は、多重分離器56によって各種パラメータ61、6
2、63、64、65、66に分離される。これらのパ
ラメータは、伝送路上でビット誤りを受けなければ、符
号化部で送出されたパラメータ23、24、27、3
5、36と同じ値を持つ。
【0030】短期予測パラメータ復号器72では、複数
個の短期予測パラメータ量子化テーブル70aから70
nの中から量子化テーブル指標61を参照して短期予測
パラメータ量子化テーブル選択器71によって量子化テ
ーブルが選択され、短期予測パラメータ量子化指標62
に基づいて、この選択された量子化テーブルから短期予
測パラメータ(量子化値)73が復号される。なお、量
子化テーブル70aから70nは符号化部における量子
化テーブル20aから20nに等しいことは言うまでも
ない。
【0031】長期予測ラグ復号器74では、長期予測ラ
グ指標63に基づいて長期予測ラグ75が復号される。
【0032】量子化利得復号器76では、利得指標66
に基づいて利得77を復号する。
【0033】統計コードベクトル復号器80では、複数
個の統計コードブック78aから78mの中からコード
ブック指標64を参照して統計コードブック選択器79
によってコードブックが選択され、この選択されたコー
ドブックからコードベクトル指標65に基づいてコード
ベクトル81が復号される。量子化テーブル同様、統計
コードブック78aから78mは符号化部における統計
コードブック32aから32mに等しい。
【0034】駆動音源生成器92では、まず適応コード
ブック90から長期予測ラグ75に基づいて長期予測ベ
クトル91を読みだし、コードベクトル81と利得77
とともにサブフレームごとに駆動音源93を生成する。
駆動音源93は合成フィルタ94に入力されるととも
に、適応コードブック90の更新にも使用される。適応
コードブックは図1の符号化部のブロック図には明示さ
れていないが、後述の長期予測分析器26の説明で示す
ように、符号化部にも同一のものが具備されている。
【0035】合成フィルタ94は、量子化短期予測パラ
メータ73またはそれから導出されるパラメータをフィ
ルタ係数とする線形予測フィルタであり、ディジタル合
成音声95を合成出力する。
【0036】ディジタル合成音声95はバッファメモリ
96を介して連続的にDA変換器97に送出され、アナ
ログ合成音声98に変換される。
【0037】以上、概要を説明したので、次に第1の実
施例の主要部分の詳細な機能を説明する。
【0038】音響分類器15はフレーム長、あるいはサ
ブフレーム長の音声データ14から物理的パラメータを
計算し、それらのパラメータ値の論理判定によって、そ
の区間の音声を複数個のカテゴリーに分類するものであ
る。音響分類方法自体は公知の技術であり、たとえば小
澤:”種々の音源を用いる4.8kb/sマルチパルス
音声符号化方式”、日本音響学会講演論文集(198
9.3)に一例が開示されている。音響分類器として構
成した場合のブロック図を図4に示す。物理パラメータ
は、エネルギー計算部151、エネルギー変化率計算部
153、最大相関計算部155、予測利得計算部15
7、対数断面積比計算部159によって計算され、それ
ぞれの物理量152、154、156、158、160
が論理判定部161に入力される。各物理量の具体的計
算方法は、前記文献を参照されたい。論理判定部161
の判定論理は図5に示すとおりであり、これから母音
性、鼻音性、破裂・過渡性、摩擦性の4種類に分類して
いる。また、本発明の発明者らは、別の音響分類方法を
提案している。そのブロック図を図6に示す。物理パラ
メータはエネルギー152、エネルギー変化率154、
最大相関値156である。論理判定部162の判定論理
を図7に示す。この例では、母音・鼻音性、立ち上が
り、立ち下がり、その他の4通りに分類している。音響
分類はフレーム単位、あるいはサブフレーム単位で実行
されるが、例えばエネルギー変化率は、フレーム単位に
算出する場合は前フレームのフレームエネルギーと現フ
レームのフレームエネルギーの差、あるいはサブフレー
ムごとのエネルギーの変化を算出すれば良い。また、サ
ブフレーム単位で算出する場合は、隣接するサブフレー
ムのエネルギー差、または、サブフレームをさらに前後
半に分割して、その各々のエネルギーの差を検出すれば
良い。
【0039】短期予測分析器17は、フレームごとに音
声データ14から音声のスペクトル包絡を表す短期予測
パラメータ18を抽出する。短期予測パラメータ18は
最も一般的には線形予測係数、またはそれから導出され
る等価なパラメータであり、具体的には偏自己相関係数
(PARCOR係数、反射係数)、線スペクトル対(L
SPパラメータ)等がある。線形予測係数の導出方法と
しては、Durbin・Levinsonの反復法(斎
藤、中田著、「音声情報処理の基礎」、オーム社、昭和
56年に紹介されている)が一般的であり、反射係数の
導出方法は、上記以外にもFLATアルゴリズム(電波
システム開発センター策定、「デジタル方式自動車電話
システム標準規格RCR STD−27」(以下、「R
CR規格書」と略す)に開示されている)やLeRou
x法(斎藤、中田著、前出書に記載)などが提案されて
いる。また、線形予測係数からLSPパラメータへの変
換方法も、斎藤、中田著の前出書に記載されている。
【0040】線形予測パラメータ18は線形予測パラメ
ータ量子化器19によって量子化され、量子化値25に
変換される。量子化は、許容されるビット数によって、
スカラー量子化やベクトル量子化が用いられるが、本発
明の特徴は、複数個の量子化テーブル20a、...、
20nを具備していることである。線形予測パラメータ
値の分布は音声の特徴によって異なるので、音声の特徴
に応じた量子化テーブルを用いることによって効率的な
量子化が可能となる。そこで短期予測パラメータ量子化
テーブル選択器21において、音響分類フラッグ16を
参照して検索対象量子化テーブル22を選択する。量子
化テーブル選択器21は、音響分類結果と検索対象量子
化テーブルとを対応づけるものであり、テーブル参照形
式となっている。通常は一つの音響分類に対して一つの
量子化テーブルが選択されるが、量子化テーブルの数や
音響分類のカテゴリーによっては、複数個の量子化テー
ブルが検索対象量子化テーブル22として選択されるこ
ともある。実際に量子化を行い、量子化歪が最小となる
量子化値25が決まると、その時に用いられた量子化テ
ーブルの指標23と量子化レベルの符号(量子化指標)
24が伝送パラメータとして出力される。なお、二つの
伝送パラメータ23と24は便宜上別々に記載したが、
両者をまとめて一つのパラメータにできることは言うま
でもない。
【0041】以上の説明では、量子化テーブル20は複
数個あるとしていたが、本発明では量子化テーブルを一
つだけ具備する場合もありうる。この場合、量子化器1
9は選択器21を介することなく、直接量子化テーブル
20を検索する。
【0042】次に長期予測分析器26について説明す
る。初めに説明したとおり、長期予測分析は適応コード
ブックの検索とみなされ、合成波形と原音声との聴覚重
み付け誤差の最小化によって長期予測ラグ(適応コード
ブックの指標)が選択される。ここでは統計コードブッ
クとは逐次的に検索する場合について説明する。すなわ
ち、統計コードブックの出力は0と仮定して、最適な長
期予測ベクトル28を決定する。
【0043】重み付け誤差を算出するために、まず入力
音声14に聴覚重み付け部261において重み付けがな
され、重み付け音声262を得る。重み付けフィルタは
量子化短期予測パラメータ25から構成されるが、その
具体形式は次の通りである。
【0044】
【数1】
【0045】ここにαiはフィルタ係数(線形予測係
数)、Npはフィルタ次数でたとえばNp=10、λは
重み付けパラメータで通常λ=0.8である。
【0046】一般に合成フィルタの出力は過去の状態の
影響を受けるが、ここでは演算量を削減するために、予
め重み付け音声262から過去の合成フィルタの影響を
取り除いておく。すなわち、零入力応答計算・減算部2
63において、重み付け合成フィルタの零入力応答を計
算し、重み付け音声262から減算し、過去の影響を取
り除いた重み付け音声264を得る。ここで用いる合成
フィルタは次の通りである。
【0047】
【数2】
【0048】この合成フィルタは重み付けパラメータλ
を含んでいる点が、復号側の合成フィルタと異なる点で
ある。
【0049】一方、検索の対象となる長期予測ラグに対
応して、適応コードブック267から読みだされたコー
ドベクトル268の重み付け合成は、長期予測ベクトル
計算部269において、重み付け合成フィルタのインパ
ルス応答との畳み込みによって実現する。このようにし
て得られた合成出力(長期予測ベクトル)270は合成
フィルタの過去の状態には依存しないので、零状態応答
と呼ばれる。ここで重み付け合成フィルタのインパルス
応答は、インパルス応答計算部265において、(数
2)のαとして短期予測パラメータの量子化値25を用
いて予め計算しておく。検索範囲にある各ラグに対する
長期予測ベクトル270を計算し、ラグ選択部271に
おいて重み付け音声264との相関が計算され、相関の
最大値を与える(最適な)長期予測ベクトル28と、そ
の時の長期予測ラグを量子化した長期予測ラグ指標27
が出力される。長期予測分析方法の詳細や演算量削減の
ための手法等については、前出のRCR規格書を参照さ
れたい。
【0050】次に統計コードブック検索器31について
説明する。本発明の特徴は、複数種類のコードブック3
2aから32mを具備しており、音響分類の結果に基づ
いてそれらを切り替えて使用する点にある。このように
する理由は、音声の特徴ごとにその残差波形(合成フィ
ルタに入力する音源波形に相当する信号で、音声の分析
によって得られる)の特徴も異なることがあげられる。
統計コードブックのコードベクトルは、音声を短期予
測、長期予測した後の残差波形を近似するものと考えら
れ、短期予測、長期予測が理想的になされた場合には、
ほとんどランダムな雑音成分となる。しかし、現実には
量子化等の影響で、短期予測、長期予測が理想的には行
われず、この結果残差にも音声の特徴が残るようにな
る。よって、統計コードブックを音声のカテゴリーごと
にその特徴を反映させて作成することが、高品質化のた
めに有効である。また、検索すべきコードブックを予め
限定することは、コードブック検索処理量削減の点でも
有効である。
【0051】図9にコードブック検索器のブロック図を
示す。統計コードブック選択器33は音響分類フラッグ
16を参照して、複数個の統計コードブック32
a、...、32mから検索対象コードブック34を選
択する。検索対象コードブック34から順次読みだされ
たコードベクトルは、零状態応答計算部311におい
て、長期予測分析と同様に、短期予測パラメータの量子
化値25を用いて零状態応答312が計算される。零状
態応答312は直交化部313において、長期予測ベク
トル28と直交化される。直交化にはグラム・シュミッ
トの直交化法等が用いられる。コードブック検索におい
て、直交化は必須の処理ではないが、長期予測ベクトル
との逐次検索による性能劣化を低減する効果がある。直
交化された零状態応答314は検索部315に入力さ
れ、長期予測分析によって求められた、合成フィルタの
過去の影響を取り除いた重み付け音声264との2乗誤
【0052】
【数3】
【0053】が評価される。ここにp(n)は上記の重み
付け音声、f(n)は直交化されフィルタ処理済みのコー
ドベクトル、γは利得、Nはサブフレーム内のサンプル
数である。またiはコードベクトルの指標である。2乗
誤差の最小値を与えるコードベクトルの指標36が出力
され、コードベクトル計算部316において、指標36
に対応する零状態応答が(最適)コードベクトル37と
して出力される。
【0054】以上では、統計コードブックは通常のCE
LP符号器と同様に、駆動音源を構成するコードベクト
ルの集合として説明している。本発明では、コードブッ
ク構造として、VSELP型の基底ベクトルの集合を採
用することが可能である。この場合、全基底ベクトルの
2値荷重和をコードベクトルとみなすことが出来、コー
ドブックの検索は2値荷重の組み合わせ方に帰着する。
通常のCELP型符号器のコードベクトルとVSELP
符号器の基底ベクトルとは、次式によって対応付けられ
ている。
【0055】
【数4】
【0056】ここにVm(n)はm番目の基底ベクトルを示
し、Mは基底ベクトルの数、たとえば9を表す。nはサ
ブフレーム内のサンプル番号であり、サブフレーム長が
たとえば64サンプルとすると、nは0から63の値を
取る。Ui(n)はM個の基底ベクトルの線形結合によって
生成される2のM乗個(M=9の場合は512個)のコ
ードベクトルであり、iは0から2のM乗−1までの値
を取る。線形結合の重みθimは、符号語iのmビットが
1ならばθim=+1、0ならばθim=−1という2値の
値を取る。すなわちコードベクトルUi(n)はM個の基底
ベクトルの加算または減算の全組合せによって生成され
るものである。
【0057】VSELP符号器のコードブック検索につ
いては、前出のRCR規格書に詳細に述べられているの
で、ここでは省略する。図10は本発明にVSELP型
のコードブック構造を取り入れた場合のブロック図を示
している。複数個の基底ベクトルコードブック32’
a、・・・、32’mから、選択器33によって検索対
象となるコードブック34が選択される。零状態応答計
算、直交化は図9での説明と同様であるが、対象はコー
ドベクトルではなく、M個の基底ベクトルである点が異
なっている。長期予測ベクトル28に直交化された各基
底ベクトルの零状態応答314は、荷重和計算部317
に入力され、荷重格納部318に格納されている荷重θ
imが順次読みだされ、(数4)にしたがってコードベク
トルが計算される。これは予め基底ベクトルからコード
ベクトルを生成し、これを零状態応答、直交化したもの
と等価である。コードベクトル検索部315では2のM
乗通りの荷重に対応したコードベクトル320につい
て、重み付けられ零入力応答を減算された入力音声26
4との2乗誤差が評価される。2乗誤差の最小値を与え
る重みの符号36が伝送パラメータとして出力され、同
時にコードベクトル計算部316にも入力される。コー
ドベクトル計算部316では、2乗誤差の最小値を与え
る符号36に対応する荷重319を荷重格納部318か
ら読みだし、基底ベクトルの零状態応答312に対して
(数4)に基づいて、長期予測ベクトルに直交化されて
いないコードベクトル37を計算する。
【0058】コードブック検索に関連して、コードブッ
クの作成方法について説明する。コードブックの設計
(学習)法としては、閉ループ法によるものが最近提案
されている。閉ループ法は、コードベクトルの学習デー
タを用いて実際の符号化と同じ処理を行い、誤差が減少
するように学習データを修正していくものである。CE
LP符号器のコードブック学習法は、たとえば G.Davi
dson,M.Yong and A.Gersho:"Real-time vector e
xcitation coding of speech at 4800bps"Proc.I
CASSP 87(1987)に述べられている。また、VSEL
Pの基底ベクトルの学習法は、I.A.Gerson:"Vector s
um excited linear prediction(VSELP)speech codi
ng for Japan digital cellular",信学技報、RC
S90−20(1990.11)やプラワット、板
倉:”線形予測符号化における駆動音源波形コードブッ
クの設計”、信学技報、SP90−53(1990)に
述べられている。本発明では、コードブック、あるいは
基底ベクトルの学習法には従来の技術を使用するが、音
響分類に応じたカテゴリー数だけコードブック具備する
ことに特徴がある。図11は音響分類に対応したコード
ブック学習用の学習データを作成するためのブロック図
である。学習データは不特定の話者、発声内容にも十分
対応できるように、十分な量の音声データから作られ
る。コードベクトル(または基底ベクトル、以下同様)
長はサブフレーム長と一致するので、学習用のディジタ
ル音声データ14をサブフレーム長分読みだし、これを
音響分類器15とパラメータ計算部291に入力する。
パラメータ計算部では、コードブックの学習に必要なデ
ータ、具体的には線形予測パラメータやインパルス応
答、長期予測ベクトル等を計算し、これらのパラメータ
292を切り替え部293へ出力する。一方、音響分類
器15は、音声符号器で用いられるのと同一の機能を有
し、音声データ14の音響的特徴を抽出し、所定数のカ
テゴリーに分類、音響分類フラッグ16を切り替え部2
93へ出力する。切り替え部293では、音響分類フラ
ッグ16にしたがってパラメータ計算部291で計算さ
れたパラメータ292を学習データ格納部294a、・
・・、294mに振り分ける。
【0059】次に図1に戻り、利得量子化器51につい
て説明する。駆動音源は次式のように長期予測ベクトル
0と統計コードベクトルC1の荷重和であるが、この荷
重が利得である(C0とC1はいずれも重み付けられてい
ない)。
【0060】
【数5】
【0061】利得は長期予測分析、あるいはコードブッ
ク検索における誤差評価式を偏微分することによって求
めることが出来る。しかし、本実施例では逐次検索を行
っているので、最適な利得は、それぞれの最適ベクトル
を求めた後、次の総合誤差評価式の偏微分によって求め
る必要がある。
【0062】
【数6】
【0063】ここにC0’とC1’は重み付けられた長期
予測ベクトルと統計コードベクトルである。利得量子化
器においては、このようにして最適利得を求めた後、そ
れらをスカラー量子化、あるいはベクトル量子化し、そ
の利得量子化指標52を出力する。また、利得の量子化
を閉ループ法によって行うことも可能である。これは量
子化テーブルから順次利得の量子化値(候補)を読みだ
し、これを用いて誤差を評価し、誤差の最小値を与える
量子化値をもって量子化結果とするものである。この方
法の具体例は、前出のRCR規格書に開示されている。
【0064】以上説明した本実施例の符号化処理の結
果、伝送パラメータは以下の通りとなる。量子化テーブ
ル指標23、短期予測パラメータ量子化指標24、長期
予測ラグ指標27、コードブック指標35、コードベク
トル指標36、利得量子化指標52の6パラメータであ
る。これらは多重化器54によって多重化され、伝送路
55に送出される。
【0065】次に図2に戻り、本実施例の復号化部につ
いて説明する。
【0066】伝送パラメータは伝送路55から受信され
ると、多重分離器56において、量子化テーブル指標6
1、短期予測パラメータ量子化指標62、長期予測ラグ
指標63、コードブック指標64、コードベクトル指標
65、利得量子化指標66に多重分離される。
【0067】復号化処理の第1段階は、各パラメータ値
の復号化である。短期予測パラメータ量子化テーブル選
択器71は、複数個の量子化テーブル71a、・・・、
70nの中から、量子化テーブル指標61に基づいて、
符号化時に選択された量子化テーブルを選択し、短期予
測パラメータ復号器72へ送出する。同復号器72で
は、短期予測パラメータ量子化指標62に基づいて短期
予測パラメータ値73が復号される。同様に長期予測ラ
グ復号器74では長期予測ラグ指標63に基づいて長期
予測ラグ75を復号する。利得復号器76では利得量子
化指標66に基づいて量子化利得77を復号する。統計
コードブック選択器79は、複数個の統計コードブック
78a、・・・、78mの中から、コードブック指標6
4に基づいて、符号化時に選択された統計コードブック
を選択し、統計コードベクトル復号器80へ送出する。
同復号器80では、コードベクトル指標65に基づいて
コードベクトル81が復号される。
【0068】復号化処理の第2段階は、駆動音源の生成
である。駆動音源生成器92では、適応コードブック9
0から長期予測ラグ75に対応して読みだされた長期予
測ベクトル91と、コードベクトル81に(数5)のよ
うに利得77が乗ぜられ、加算されて駆動音源93が生
成される。駆動音源93は合成フィルタ94に入力され
るとともに、適応コードブック90の状態更新にも用い
られる。
【0069】復号化処理の最後の段階は、音声合成であ
る。合成フィルタ94では、短期予測パラメータ復号器
72で復号された短期予測パラメータ73をフィルタ係
数とし、駆動音源93を入力することによってディジタ
ル合成音声95を合成出力する。ディジタル合成音声9
5はバッファメモリ96を介して連続的にDA変換器に
送られ、アナログ合成音声98に変換される。
【0070】以上で、本発明の第1の実施例の音声入力
から符号化、復号化、音声出力までの動作を説明した。
以上の説明では、音声のフレームエネルギー(パワー)
には特に言及しなかった。これはフレームエネルギーは
駆動音源の利得に反映されているためであるが、利得の
量子化を考慮すると、利得のダイナミックレンジを抑え
るためにあらかじめフレームエネルギーで正規化してお
く方が有利である。フレームエネルギーは線形予測パラ
メータの計算時に容易に求められるので、フレームエネ
ルギーは別途量子化して、その指標を伝送する。このよ
うにした場合のビット割当ての例を次に示す。
【0071】標本化周波数を8kHz、フレーム長を4
0ms(320サンプル)、サブフレーム長を8ms
(64サンプル)とする。フレームエネルギーと線形予
測パラメータはフレーム単位で更新し、他のパラメータ
はサブフレーム単位で更新するものとする。なお、フレ
ームエネルギーと線形予測パラメータは、サブフレーム
単位で補間して用いた方が、合成音声の品質向上に有効
である。短期予測パラメータの量子化テーブルを2種類
持つ場合、量子化テーブル指標(切り替えフラッグ)は
1ビットである。量子化は20ビットの2段ベクトル量
子化を行うとすれば、量子化指標は20ビットとなる。
フレームエネルギーは5ビットでスカラー量子化する。
よって、フレーム当りの伝送ビット数は26ビットであ
る。
【0072】サブフレーム単位のパラメータは、長期予
測ラグの指標が7ビットで、これは長期予測ラグの範囲
が19サンプル(421Hz)から146サンプル(5
5Hz)に対応する。統計コードブックを4種類具備す
るとすれば、コードブック指標は2ビット、また、コー
ドブックサイズを8ビット(256コードベクトル)と
すればコードベクトル指標は8ビットである。利得は、
長期予測ベクトルに対するものと統計コードベクトルに
対するものをベクトル量子化して7ビットで表す。よっ
て、サブフレーム当りの伝送ビット数は24ビットとな
る。以上により、トータルビットレートは3650bp
sとなる。この場合、音響分類器は短期予測パラメータ
量子化器の選択のためにはフレームごとに、統計コード
ブック選択のためにはサブフレームごとに分類フラッグ
を出力している。しかし、統計コードブックの切り替え
を2サブフレームに1回とすれば、音響分類フラッグの
出力間隔も2サブフレームごととなり、ビットレートは
さらに低減する。
【0073】以上説明したように、本発明の第1の実施
例では、従来のCELPやVSELPとほぼ同等の処理
量で、音声品質の劣化を抑えて低ビットレート化が可能
となる。
【0074】次に本発明の第2の実施例について説明す
る。符号化部を図12、復号化部を図13に示す。本実
施例の特徴は、図12に示すように統計コードブックの
検索が2段になっており、そのいずれも、あるいはいず
れかが複数のコードブックを具備していることである。
統計コードブックを2段階で検索することは、図3の従
来のCELP符号器でもそうであったように、駆動音源
の周期性以外の雑音成分の近似度を高めるためであり、
2段ベクトル量子化を行っているとみなすこともでき
る。
【0075】本実施例の符号化部は、図12に示すよう
に図1の第1の実施例において、第1の統計コードブッ
ク検索器31と利得量子化器51の間に第2の統計コー
ドブック検索器41が挿入された形となっている。以
下、本実施例について説明するが、第1の実施例との共
通部分については説明を省略し、第2のコードブック検
索器関係の部分のみ説明する。
【0076】図14に示すように、複数のコードブック
42a、・・・、42lの中から統計コードブック選択
器43によって検索対象コードブック44が選択され
る。第2の統計コードブック検索器41の構造は、図9
の第1の統計コードブック検索器31と基本的に同様で
あるが、直交化部413において零状態応答412が長
期予測ベクトル28だけでなく、第1のコードベクトル
37に対しても直交化される点が異なっている。具体的
には、零状態応答412がまず長期予測ベクトル28に
直交化され、この長期予測ベクトルに直交化された零状
態応答がさらに第1の統計コードベクトル37に対して
直交化され、2段階に直交化された零状態応答414が
検索部415に入力される。第2の統計コードベクトル
検索器41の出力は、第2のコードベクトル指標46と
第2のコードベクトル47である。
【0077】利得量子化器51では、長期予測ベクトル
28、第1のコードベクトル37、第2のコードベクト
ル47に対する利得が求められ、量子化されて利得量子
化指標52が出力される。
【0078】本発明の第2の実施例の復号化部のブロッ
ク図を図13に示す。第1の実施例の復号化部(図2)
に、第2の統計コードブック82a、・・・、82lと
第2の統計コードブック選択器83、第2のコードベク
トル復号器84が追加された構造となっている。利得復
号器76からは、利得77として、長期予測ベクトル、
第1のコードベクトル、第2のコードベクトルの三つの
ベクトルに対する利得が出力される。駆動音源生成器9
2では、長期予測ベクトル91、第1のコードベクトル
81、第2のコードベクトル85にそれぞれ利得を乗
じ、加算して駆動音源を生成する。
【0079】第2の実施例においては、第2の統計コー
ドブック検索の処理量と、第2のコードブック指標と第
2のコードベクトル指標のビットレートが増加するが、
第1の実施例に比べて高品質な合成音声を得ることが出
来る。
【0080】次に本発明の第3の実施例について説明す
る。符号化部を図15に示す。復号化部は第1の実施例
の復号化部(図2)と同じである。本実施例の特徴は、
図15に示すように誤差評価器53を具備していること
である。すなわち、符号化部において、短期予測パラメ
ータの量子化値と統計コードブックのコードベクトルを
それぞれ複数個候補として持ち、それらの全組み合わせ
について重み付け誤差を計算し、その誤差を最小化する
組合せの指標を符号器の最終的な出力とする。これは、
逐次最適化の同時最適化からの劣化を低減しようとする
ものである。短期予測パラメータと統計コードベクトル
だけでなく、長期予測ベクトルについても複数個の候補
を出すことによって、より効果は高まる。以下、本実施
例の主要部分について説明する。
【0081】短期予測パラメータ量子化テーブル選択器
21では、検索対象量子化テーブルとして複数個の候補
を選択する。これは音響分類フラッグ16の値に対して
複数の量子化テーブルを割り当てておけば良い。短期予
測パラメータ量子化器19では、それぞれの量子化テー
ブルを用いて量子化した短期予測パラメータ値25と、
その時の量子化指標24を出力する。もし音響分類フラ
ッグ16の値に対して量子化テーブルが一つしか割り当
てられていない場合は、その量子化テーブルを用いて量
子化したときの量子化歪が小さい順に所定個数の候補を
出力する。
【0082】長期予測分析器26では、複数の短期予測
パラメータの量子化値25のそれぞれに対して、長期予
測ラグを求め、長期予測ベクトル28を出力する。例え
ば、短期予測パラメータの量子化値25が二つの候補を
持っているとすれば、長期予測ベクトルも二つ得られ
る。もし長期予測ラグも短期予測パラメータの量子化値
のそれぞれに対して複数個(例えば2個)の候補を出す
とすれば、この時点で組合せとしては4通りできること
になる。以下、統計コードブックの検索においても同様
であり、複数のそれ以前の候補の組合せに対して、さら
に複数の統計コードベクトルの候補を出す。候補数を2
とすれば、全部で8通りの組合せが出来ることになる。
利得量子化器では、この8通りの組合せに対してそれぞ
れ最適な利得を求め、その指標を出力する。
【0083】誤差評価器53では、これらの8通りの組
合せについて、各々の重み付け2乗誤差を算出し、その
最小値を与える組合せを最終的な符号化結果とし、以下
のパラメータを出力する。量子化テーブル指標23’、
短期予測パラメータ量子化指標24’、長期予測ラグ指
標27’、コードブック指標35’、コードベクトル指
標36’、利得量子化指標52’である。
【0084】復号化部では、これらの伝送パラメータか
ら各パラメータ値を復号し、最終的に合成音声を得る。
【0085】本実施例では、それぞれの処理部で複数個
の候補出力を出し、その組合せに対して誤差評価をする
ため、第1の実施例に比べて処理量や中間データの記憶
容量が増加するが、合成音声の品質は格段に向上する。
【0086】次に、本発明の第4の実施例について説明
する。符号化部を図16に示す。復号化部は第1の実施
例の復号化部(図2)と同じである。本実施例では、短
期予測パラメータの量子化テーブルと、統計コードブッ
クをそれぞれ複数個具備する点は第1から第3の実施例
と同様であるが、これらの選択を音響分類器の分類結果
によらずに行う点に特徴がある。すなわち、短期予測パ
ラメータの量子化の場合には、複数の量子化テーブルの
すべてを用いて量子化し、量子化誤差が最小となるもの
を選択する。また、コードブックの検索では、複数の統
計コードブックのすべてを検索し、重み付け誤差が最小
になるものを選択する。これは量子化テーブル、あるい
は統計コードブックは音響分類に基づいて音声のバリエ
ーションをカバーするように作成しておくが、量子化
時、あるいは検索時には誤差最小化規範によって決定す
ることを意味する。
【0087】本実施例によれば、短期予測パラメータの
量子化や統計コードブックの検索が全探索となるため、
第1の実施例に比べて処理量が増えるが、音声品質を表
す客観尺度(たとえばセグメンタルSN比)が良好な合
成音声が得られる。
【0088】次に、本発明の第5の実施例について説明
する。符号化部を図17に示す。本実施例では、第4の
実施例と同様に音響分類は行わない。それ以外は第2の
実施例と同じで、統計コードブックの検索を2段階で行
っている。復号化部は第2の実施例の復号化部(図1
3)と同じである。
【0089】本実施例の効果は、第4の実施例の場合と
同様に、第2の実施例に比べて処理量が増えるが、音声
品質を表す客観尺度(たとえばセグメンタルSN比)が
良好な合成音声が得られる点である。
【0090】次に、本発明の第6の実施例について説明
する。符号化部を図18に示す。本実施例では、第4の
実施例と同様に音響分類は行わない。それ以外は第3の
実施例と同様に誤差評価器53を有し、短期予測パラメ
ータの量子化値25、長期予測ベクトル28、統計コー
ドブックのコードベクトル37のそれぞれの複数の候補
の組み合わせのうち、重み付け誤差が最小となるものを
決定する。復号化部は第1の実施例の復号化部(図2)
と同じである。
【0091】第3の実施例においては、短期予測パラメ
ータ量子化テーブル選択器21や統計コードブック選択
器33によって、実際に具備している量子化テーブル数
や統計コードブック数よりも候補数をしぼり込むことも
可能であったが、本実施例では実際に具備している量子
化テーブル数、あるいは統計コードブック数だけの候補
が上がることになる。もちろんその中から量子化歪や重
み付け誤差を基準に最終的な候補をしぼることは可能で
ある。
【0092】本実施例の効果は、第3の実施例同様、第
1の実施例に比べて処理量や中間データの記憶容量が増
加するが、合成音声の品質は格段に向上する点にある。
【0093】以上、第1の実施例から第6の実施例にお
いては、複数個の統計コードブックは音響分類に対応し
て作成されたものをそのまま用いている。しかしこれら
のコードブックは完全に独立で、互いに分離されている
とは限らない。すなわち複数のコードブック間で成分
(コードベクトル)に類似なもの、あるいは重複がある
と、複数のコードブックを統合し、再度クラスタリング
することによって、よりコンパクトなコードブックを構
成することが出来る。この場合、統合前のコードブック
は統合後のコードブックのサブセットとみなすことが出
来る。したがって、これまでの実施例で具備していた複
数個の統計コードブックの代わりに、統合後のコードブ
ックを用い、統計コードブック選択器は統合コードブッ
クのサブセットを指定し、検索対象コードブックとする
ことが出来る。
【0094】図18に統合コードブックと検索対象コー
ドブックの関係を示す。統合コードブック321は、音
響分類に対応して作成した個別コードブックを再クラス
タリングして統合したものである。検索対象コードブッ
ク34は、統合コードブック321のサブセットになっ
ている。統計コードブック選択器33の機能は基本的に
は、音響分類フラッグ16に基づいて、統合コードブッ
ク321の要素(コードベクトル)を検索対象コードブ
ック34に対応付けるテーブルである。
【0095】このように統合コードブックの採用によっ
て、複数のコードブックを個別に具備するよりも記憶容
量の削減効果がある。
【0096】また、図19の例では統合コードブックか
ら一つの検索対象コードブック(サブセット)を限定し
ていたが、複数個の検索対象コードブックを限定するこ
とも可能である。この例を図20に示す。統計コードブ
ック選択器33では複数個の検索対象コードブック34
a、・・・、34kを出力している。これは第3や第6
の実施例で複数の候補コードベクトルを用いるような場
合に相当する。
【0097】以上の説明では、複数の検索対象コードブ
ックにおける要素(コードベクトル)間のオーバーラッ
プについては特に意識していなかった。しかし音響分類
を行う場合でも、その境界はあいまいであり、完全に分
離できるものではない。もし音響分類がわずかの差で誤
ったとすると、サブセットにオーバーラップが無いと音
声品質の劣化を招く。これに対し、図21に示すように
統合コードブックのサブセットを意識的にオーバーラッ
プさせて構成しておけば、音響分類の誤りの影響を最小
限にすることが可能である。
【0098】以上のように、第1から第6の実施例の複
数個の統計コードブックを統合コードブックに置きか
え、検索対象コードブックの選択を統合コードブックの
サブセットの限定にしても、同様の機能を実現できるこ
とは明らかである。さらに、コードブックの記憶容量を
削減できる効果もある。
【0099】
【発明の効果】本発明によれば、比較的低処理量で、
3.6kbps程度の高品質低ビットレート音声符号化
方法を提供出来る。
【図面の簡単な説明】
【図1】本発明の第1の実施例の符号化部のブロック図
である。
【図2】本発明の第1の実施例の復号化部のブロック図
である。
【図3】従来のCELP符号器の原理を示すブロック図
である。
【図4】実施例の音響分類器の一例のブロック図であ
る。
【図5】実施例の音響分類器の判定論理の一例を示す図
である。
【図6】実施例の音響分類器の別の例のブロック図であ
る。
【図7】実施例の音響分類器の判定論理の別の例を示す
図である。
【図8】実施例の長期予測分析器のブロック図である。
【図9】実施例の統計コードブック検索器のブロック図
である。
【図10】VSELP型コードブックを採用したコード
ブック検索器の例を示すブロック図である。
【図11】実施例の学習ベクトル作成器のブロック図で
ある。
【図12】本発明の第2の実施例の符号化部のブロック
図である。
【図13】本発明の第2の実施例の復号化部のブロック
図である。
【図14】第2の実施例の第2の統計コードブック検索
器のブロック図である。
【図15】本発明の第3の実施例の符号化部のブロック
図である。
【図16】本発明の第4の実施例の符号化部のブロック
図である。
【図17】本発明の第5の実施例の符号化部のブロック
図である。
【図18】本発明の第6の実施例の符号化部のブロック
図である。
【図19】統合コードブックと検索対象コードブックの
関係を示す概念図である。
【図20】統合コードブックと検索対象コードブックの
関係の別の例を示す概念図である。
【図21】統計コードブックのオーバーラップサブセッ
トを示す概念図である。
【符号の説明】
11…アナログ入力音声、 12…AD変換器、 13,96…バッファメモリ、 14…ディジタル音声データ、 15…音響分類器、 16…音響分類フラッグ、 17…短期予測分析器、 18…短期予測パラメータ、 19…短期予測パラメータ量子化器、 20,70…短期予測パラメータ量子化テーブル、 21,71…短期予測パラメータ量子化テーブル選択
器、 22…検索対象量子化テーブル、 23,23’,61…量子化テーブル指標、 24,24’,62…短期予測パラメータ量子化指標、 25,73…短期予測パラメータ量子化値、 26…長期予測分析器、 27,27’,63…長期予測ラグ指標、 28…長期予測ベクトル、 31,41…統計コードブック検索器、 32,42,78,82…統計コードブック、 33,43,79,83…統計コードブック選択器、 34,44…検索対象コードブック、 35,35’,45,64,67…コードブック指標、 36,36’,46,65,68…コードベクトル指
標、 37,47,81,85…コードベクトル、 51…利得量子化器、 52,52’,66…利得量子化指標、 53…誤差評価器、 54…多重化器、 55…伝送路、 56…多重分離器、 72…短期予測パラメータ復号器、 74…長期予測ラグ復号器、 75…長期予測ラグ、 76…利得復号器、 77…量子化利得、 80,84…統計コードベクトル復号器、 90…適応コードブック、 92…駆動音源生成器、 93…駆動音源、 94…合成フィルタ、 95…ディジタル合成音声、 97…DA変換器、 98…アナログ合成音声。

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】符号化部において入力音声を予め定めた時
    間間隔(フレーム)ごとに短期予測分析を行い、前記フ
    レームに等しいかあるいはより短い時間間隔(サブフレ
    ーム)ごとに長期予測分析を行い、該長期分析結果と前
    記短期分析結果を補助情報として抽出し、前記サブフレ
    ームごとに駆動音源として予め用意されたコードブック
    の中から前記入力音声と復号音声との重み付け誤差を最
    小化するようなコードベクトルを選択し、該コードベク
    トルの指標を前記補助情報とともに伝送または蓄積し、
    復号化部において前記補助情報と前記ベクトル指標に基
    づいて音声を復号化する符号駆動音声符号化方法におい
    て、前記コードブックとして複数個のコードブックの集
    合からなるものを用い、前記符号化部に具備された分類
    器により前記入力音声を複数のカテゴリーに分類し、こ
    の分類結果に基づいて前記駆動音源として用いるコード
    ベクトルを前記複数個のコードブックのすべて又は一部
    から検索することを特徴とする複数のコードブックを有
    する音声符号化方法。
  2. 【請求項2】前記コードブックのコードベクトルは、少
    数の基底ベクトルの2値の荷重付き線形結合で表現さ
    れ、前記コードブックの検索は前記線形結合の前記2値
    の荷重の組合せの種類を指定することと等価であること
    を特徴とする請求項1に記載の複数のコードブックを有
    する音声符号化方法。
  3. 【請求項3】前記分類器による分類にあたり、前記入力
    音声から導出可能な物理的パラメータを用いることを特
    徴とする請求項1に記載の複数のコードブックを有する
    音声符号化方法。
  4. 【請求項4】前記分類器によって前記入力音声を分類
    し、分類結果を出力する時間間隔は、前記フレームに等
    しいか又はそれよりも短く、かつ、前記サブフレームに
    等しいか又はそれよりも長いことを特徴とする請求項1
    もしくは請求項3に記載の複数のコードブックを有する
    音声符号化方法。
  5. 【請求項5】前記音声符号化方法は、複数個のコードブ
    ック集合を具備しており、前記駆動音源は前記複数個の
    コードブック集合の各集合から選択されたコードベクト
    ルの荷重和であるとき、前記複数個のコードブック集合
    の少なくとも1つは複数個のコードブックからなる集合
    であって、前記分類器の分類結果に基づいて前記複数個
    のコードブックから少なくとも1つを選択し、前記駆動
    音源として用いるコードベクトルを検索するコードブッ
    クとすることを特徴とする請求項1から請求項4のいず
    れかに記載の複数のコードブックを有する音声符号化方
    法。
  6. 【請求項6】前記複数個のコードブックは相異なる学習
    データを用いて作成することを特徴とする請求項1から
    請求項5のいずれかに記載の複数のコードブックを有す
    る音声符号化方法。
  7. 【請求項7】前記相異なる学習データは、前記分類に用
    いるのと同じ物理的パラメータを用いて分類した音声デ
    ータに基づいて作成されることを特徴とする請求項6に
    記載の複数のコードブックを有する音声符号化方法。
  8. 【請求項8】前記短期予測分析の結果得られる予測係数
    を量子化する量子化テーブルを複数個具備し、前記分類
    器の分類結果に基づき、前記量子化テーブルを切り換え
    て使用することを特徴とする請求項1から請求項7のい
    ずれかに記載の複数のコードブックを有する音声符号化
    方法。
  9. 【請求項9】前記短期予測分析の結果得られる予測係数
    を量子化する量子化テーブルを複数個具備し、該複数個
    の量子化テーブルを用いて量子化した前記予測係数の複
    数個の量子化値と、前記駆動音源の候補として選択した
    複数個のコードベクトルの候補との組合せにおいて、前
    記重み付け誤差が最小となるような組合せを選択するこ
    とを特徴とする請求項1から請求項8のいずれかに記載
    の複数のコードブックを有する音声符号化方法。
  10. 【請求項10】符号化部において入力音声を予め定めた
    時間間隔(フレーム)ごとに短期予測分析を行い、前記
    フレームに等しいかあるいはより短い時間間隔(サブフ
    レーム)ごとに長期予測分析を行い、該長期分析結果と
    前記短期分析結果を補助情報として抽出し、前記サブフ
    レームごとに駆動音源として予め用意されたコードブッ
    クの中から前記入力音声と復号音声との重み付け誤差を
    最小化するようなコードベクトルを選択し、該ベクトル
    の指標を前記補助情報とともに伝送または蓄積し、復号
    化部において前記補助情報と前記ベクトル指標に基づい
    て音声を復号化する符号駆動音声符号化方法において、
    前記コードブックとして複数個のコードブックの集合か
    らなるものを用い、前記駆動音源として用いるコードベ
    クトルを前記複数個のコードブックのすべてから検索す
    ることを特徴とする複数のコードブックを有する音声符
    号化方法。
  11. 【請求項11】前記コードブックのコードベクトルは、
    少数の基底ベクトルの2値の荷重付き線形結合で表現さ
    れ、前記コードブックの検索は前記線形結合の前記2値
    の荷重の組合せの種類を指定することと等価であること
    を特徴とする請求項10に記載の複数のコードブックを
    有する音声符号化方法。
  12. 【請求項12】前記音声符号化方法は、複数個のコード
    ブック集合を具備しており、前記駆動音源は前記複数個
    のコードブック集合の各集合から選択されたコードベク
    トルの荷重和であるとき、前記複数個のコードブック集
    合の少なくとも1つは複数個のコードブックからなる集
    合であって、前記複数個のコードブックのすべてから前
    記駆動音源として用いるコードベクトルを検索すること
    を特徴とする請求項10もしくは請求項11に記載の複
    数のコードブックを有する音声符号化方法。
  13. 【請求項13】前記複数個のコードブックは相異なる学
    習データを用いて作成することを特徴とする請求項10
    から請求項12のいずれかに記載の複数のコードブック
    を有する音声符号化方法。
  14. 【請求項14】前記相異なる学習データは、音声データ
    から導出可能な物理的パラメータを用いて複数のカテゴ
    リーに分類した音声データに基づいて作成されることを
    特徴とする請求項13に記載の複数のコードブックを有
    する音声符号化方法。
  15. 【請求項15】前記短期予測分析の結果得られる予測係
    数を量子化する量子化テーブルを複数個具備し、該複数
    個の量子化テーブルを用いて量子化した前記予測係数の
    量子化値と、前記駆動音源の候補として選択した複数個
    のコードベクトルの候補との組合せにおいて、前記重み
    付け誤差が最小となるような組合せを選択することを特
    徴とする請求項10から請求項14のいずれか記載の複
    数のコードブックを有する音声符号化方法。
  16. 【請求項16】符号化部において入力音声を予め定めた
    時間間隔(フレーム)ごとに短期予測分析を行い、前記
    フレームに等しいかあるいはより短い時間間隔(サブフ
    レーム)ごとに長期予測分析を行い、該長期分析結果と
    前記短期分析結果を補助情報として抽出し、前記サブフ
    レームごとに駆動音源として予め用意されたコードブッ
    クの中から前記入力音声と復号音声との重み付け誤差を
    最小化するようなコードベクトルを選択し、該ベクトル
    の指標を前記補助情報とともに伝送または蓄積し、復号
    化部において前記補助情報と前記ベクトル指標に基づい
    て音声を復号化する符号駆動音声符号化方法において、
    前記コードブックは複数個のサブセットに分割されてお
    り、前記符号化部に具備された分類器により前記入力音
    声を複数のカテゴリーに分類し、この分類結果に基づい
    て前記駆動音源として選択するコードベクトルを検索す
    るサブセットを限定することを特徴とする音声符号化方
    法。
  17. 【請求項17】前記コードブックのコードベクトルは、
    少数の基底ベクトルの2値の荷重付き線形結合で表現さ
    れ、前記コードブックの検索は前記線形結合の前記2値
    の荷重の組合せの種類を指定することと等価であること
    を特徴とする請求項16に記載の音声符号化方法。
  18. 【請求項18】前記分類器は前記入力音声から導出可能
    な物理的パラメータを用いることを特徴とする請求項1
    6もしくは請求項17に記載の音声符号化方法。
  19. 【請求項19】前記分類器によって前記入力音声を分類
    し、分類結果を出力する時間間隔は、前記フレームに等
    しいか又はそれよりも短く、かつ、前記サブフレームに
    等しいか又はそれよりも長いことを特徴とする請求項1
    6から請求項18のいずれかに記載の音声符号化方法。
  20. 【請求項20】前記分類器の分類結果に基づいて前記駆
    動音源として選択するベクトルを検索するサブセットを
    複数個限定することを特徴とする請求項16から請求項
    19のいずれかに記載の音声符号化方法。
  21. 【請求項21】コードブックを複数個のサブセットに分
    割し、前記分類器の分類結果に基づいて前記駆動音源ベ
    クトルを前記サブセットから検索する音声符号化方法で
    あって、前記サブセットのベクトル要素は前記サブセッ
    ト間でオーバーラップすることを特徴とする請求項16
    から請求項20のいずれかに記載の音声符号化方法。
  22. 【請求項22】前記音声符号化方法は、複数個のコード
    ブックを具備しており、前記駆動音源は前記複数個のコ
    ードブックの各々から選択されたコードベクトルの荷重
    和であるとき、前記複数個のコードブックの少なくとも
    1つは複数個のサブセットに分割されており、前記分類
    器の分類結果に基づいて前記複数個のサブセットから少
    なくとも1つを選択し、前記駆動音源として用いるコー
    ドベクトルを検索することを特徴とする請求項16から
    請求項21のいずれかに記載の音声符号化方法。
  23. 【請求項23】前記短期予測分析の結果得られる予測係
    数を量子化する量子化テーブルを複数個具備し、前記分
    類器の分類結果に基づき、前記量子化テーブルを切り換
    えて使用することを特徴とする請求項16から請求項2
    2のいずれかに記載の音声符号化方法。
  24. 【請求項24】前記短期予測分析の結果得られる予測係
    数を量子化する量子化テーブルを複数個具備し、該複数
    個の量子化テーブルを用いて量子化した前記予測係数の
    複数個の量子化値と、前記駆動音源の候補として選択し
    た複数個のコードベクトルの候補との組合せにおいて、
    前記重み付け誤差が最小となるような組合せを選択する
    ことを特徴とする請求項16から請求項12記載の音声
    符号化方法。
JP4061778A 1992-03-18 1992-03-18 複数のコードブックを有する音声符号化方法 Pending JPH05265496A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4061778A JPH05265496A (ja) 1992-03-18 1992-03-18 複数のコードブックを有する音声符号化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4061778A JPH05265496A (ja) 1992-03-18 1992-03-18 複数のコードブックを有する音声符号化方法

Publications (1)

Publication Number Publication Date
JPH05265496A true JPH05265496A (ja) 1993-10-15

Family

ID=13180895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4061778A Pending JPH05265496A (ja) 1992-03-18 1992-03-18 複数のコードブックを有する音声符号化方法

Country Status (1)

Country Link
JP (1) JPH05265496A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08328597A (ja) * 1995-05-31 1996-12-13 Nec Corp 音声符号化装置
US5809459A (en) * 1996-05-21 1998-09-15 Motorola, Inc. Method and apparatus for speech excitation waveform coding using multiple error waveforms
US5848387A (en) * 1995-10-26 1998-12-08 Sony Corporation Perceptual speech coding using prediction residuals, having harmonic magnitude codebook for voiced and waveform codebook for unvoiced frames
WO2002045078A1 (en) * 2000-11-30 2002-06-06 Matsushita Electric Industrial Co., Ltd. Audio decoder and audio decoding method
WO2002054386A1 (fr) * 2000-12-26 2002-07-11 Mitsubishi Denki Kabushiki Kaisha Systeme de codage vocal et procede de codage vocal
KR100416362B1 (ko) * 1998-09-16 2004-01-31 텔레폰아크티에볼라게트 엘엠 에릭슨 Celp 인코딩/디코딩 방법 및 장치
JP2008090311A (ja) * 1997-12-24 2008-04-17 Mitsubishi Electric Corp 音声符号化方法
JP2009134303A (ja) * 1997-12-24 2009-06-18 Mitsubishi Electric Corp 音声復号化方法及び音声復号化装置
JP2010244078A (ja) * 2004-09-17 2010-10-28 Panasonic Corp スペクトル包絡情報量子化装置、スペクトル包絡情報復号装置、スペクトル包絡情報量子化方法及びスペクトル包絡情報復号方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08328597A (ja) * 1995-05-31 1996-12-13 Nec Corp 音声符号化装置
US5884252A (en) * 1995-05-31 1999-03-16 Nec Corporation Method of and apparatus for coding speech signal
US5848387A (en) * 1995-10-26 1998-12-08 Sony Corporation Perceptual speech coding using prediction residuals, having harmonic magnitude codebook for voiced and waveform codebook for unvoiced frames
US5809459A (en) * 1996-05-21 1998-09-15 Motorola, Inc. Method and apparatus for speech excitation waveform coding using multiple error waveforms
JP2009134303A (ja) * 1997-12-24 2009-06-18 Mitsubishi Electric Corp 音声復号化方法及び音声復号化装置
JP2008090311A (ja) * 1997-12-24 2008-04-17 Mitsubishi Electric Corp 音声符号化方法
KR100416362B1 (ko) * 1998-09-16 2004-01-31 텔레폰아크티에볼라게트 엘엠 에릭슨 Celp 인코딩/디코딩 방법 및 장치
US7146311B1 (en) 1998-09-16 2006-12-05 Telefonaktiebolaget Lm Ericsson (Publ) CELP encoding/decoding method and apparatus
US7478042B2 (en) 2000-11-30 2009-01-13 Panasonic Corporation Speech decoder that detects stationary noise signal regions
WO2002045078A1 (en) * 2000-11-30 2002-06-06 Matsushita Electric Industrial Co., Ltd. Audio decoder and audio decoding method
WO2002054386A1 (fr) * 2000-12-26 2002-07-11 Mitsubishi Denki Kabushiki Kaisha Systeme de codage vocal et procede de codage vocal
US7454328B2 (en) 2000-12-26 2008-11-18 Mitsubishi Denki Kabushiki Kaisha Speech encoding system, and speech encoding method
JP2010244078A (ja) * 2004-09-17 2010-10-28 Panasonic Corp スペクトル包絡情報量子化装置、スペクトル包絡情報復号装置、スペクトル包絡情報量子化方法及びスペクトル包絡情報復号方法
US8712767B2 (en) 2004-09-17 2014-04-29 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus, scalable encoding method, scalable decoding method, communication terminal apparatus, and base station apparatus

Similar Documents

Publication Publication Date Title
KR100264863B1 (ko) 디지털 음성 압축 알고리즘에 입각한 음성 부호화 방법
JP4390803B2 (ja) 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置
JP4005359B2 (ja) 音声符号化及び音声復号化装置
JP3114197B2 (ja) 音声パラメータ符号化方法
JPH10187197A (ja) 音声符号化方法及び該方法を実施する装置
JPH0990995A (ja) 音声符号化装置
EP1005022B1 (en) Speech encoding method and speech encoding system
JPH08272395A (ja) 音声符号化装置
JPH05265496A (ja) 複数のコードブックを有する音声符号化方法
JP2002268686A (ja) 音声符号化装置及び音声復号化装置
JP3095133B2 (ja) 音響信号符号化方法
JP3353852B2 (ja) 音声の符号化方法
JP3174733B2 (ja) Celp型音声復号化装置、およびcelp型音声復号化方法
JP3232701B2 (ja) 音声符号化方法
JP3916934B2 (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置
JP3144284B2 (ja) 音声符号化装置
JP3232728B2 (ja) 音声符号化方法
JP3192051B2 (ja) 音声符号化装置
JP2002073097A (ja) Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法
JP3292227B2 (ja) 符号励振線形予測音声符号化方法及びその復号化方法
JPH05273999A (ja) 音声符号化方法
JP3024467B2 (ja) 音声符号化装置
JP2000029499A (ja) 音声符号化装置ならびに音声符号化復号化装置
JP3174779B2 (ja) 拡散音源ベクトル生成装置及び拡散音源ベクトル生成方法
JP3174782B2 (ja) Celp型音声復号化装置及びcelp型音声復号化方法