JPH02502857A

JPH02502857A - 音声符号化装置

Info

Publication number: JPH02502857A
Application number: JP1501163A
Authority: JP
Inventors: ホッジス　マーチン・ロジャー・レスター
Original assignee: ブリティシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニ
Priority date: 1988-01-05
Filing date: 1988-12-29
Publication date: 1990-09-06
Anticipated expiration: 2014-12-20
Also published as: NO893532L; EP0324283B1; AU2921989A; AU608944B2; CA1334690C; DK425689D0; US5058165A; EP0324283A1; DE3879664T2; DK172908B1; ES2039655T3; WO1989006418A1; DE3879664T4; NO301097B1; HK130196A; NO893532D0; DK425689A; DE3879664D1; JP2992045B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】音声符号化装置〔技術分野〕本発明は音声符号化に関する。特に、駆動信号源（ｅｘｃｉｔａｔｉｏｎｓｏｕｒｃｅ）の出力を合成フィルタに通過させ、これにより音声信号を発生する装置に関する。このような装置では、符号化のために、入力音声から所望の駆動信号を発生させることと、フィルタのパラメータ設定とが問題となる。フィルタのパラメータについては、線形予測分析（ＬＰＣ％１ｉｎｅａｒ　ｐｒｅｄｉｃｔｉｖｅ　ｃｏｄｉｎｇ）法により導くことができ、この技術はすでに確立されている。本発明は駆動信号源に関する。

〔従来の技術〕

雑音源と繰り返しパルス源とを切り替えて入力音声の有声と無声とを判定する装置は、音声出力の質が不自然となる傾向がある。そこで、パルスシーケンスを発生する「マルチパルス」駆動信号源の使用が提案されている。この場合に、マルチパルスの発生シーケンスについては、初期状態では何も設定されない。この方法は、・数パルス（例えばＩＱｍｓのフレームに対して８個のパルス）を利用するだけで、十分な結果が得られる。これについては、エイタル、レムデ、「ア・二ニー・モデル・オブＬＰＣエクサイテイション・フォー・フロデューシング・ナチュラルサウンディング・スピーチ・アト・ロウ・ビット・レイン」、ブロシーデインダス・オブＩＥＥＩＩ：　ＩＣＡＳＳＰ　。

パリ、第６１４頁、１９８２年（Ｂ、Ｓ、Ａｔａｌ　ａｎｄ　Ｊ、Ｒ，Ｒｅｍｄｅ　：　”Ａ　Ｎｅｗ　Ｍｏｄｅｌｏｆ　　ＬＰＣＥｘｃｉｔａｔｉｏｎ　　ｆｏｒ　　　ｐｒｏｄｕｃｉｎｇ　Ｎａｔｕｒａｌ−ｓｏｕｎｄｉｎｇ　５ｐｅｅｃｈ　　　ａｔＬｏｗ　［ｌｉｔ　Ｒａｔｅｓ”、　Ｐｒｏｃ、　ＩＥＥＥ　ＩＣＡＳＳＰ、　Ｐａｒｉｓ、　ｐｐ、６１４．１９８２）に詳しく説明されている。

〔発明の開示〕

本発明によると、入力音声信号から合成フィルタのパラメータを導出する手段と、音声標本に比較して少ない数のパルスを時間フレーム内に含む駆動信号を符号化する手段と、駆動信号を構成するパルスを導出するときに導出部に依存する因子をそのパルスに乗算する手段と、この手段により得られる積を量子化する後方適応量子化回路とを備えた音声符号化装置が提供される。符号化する手段は、動作時に、入力音声信号と上記フィルタの駆動信号に対する応答との差が削減されるように、パルスの振幅およびタイミングを選択する。これは、駆動信号を表す第一のパルスの振幅およびタイミングを導出し、この第一のパルスおよびこの第一のパルスとの間に存在するパルスとを組み合わせて上記差が削減されるような駆動信号を表す一以上のパルスを連続して導出することにより行われる。

いくつかの実施例について添付図面を参照して説明する。

〔図面の簡単な説明〕

第１図は本発明第一実施例の符号化装置を示すブロック構成図。

第２図は第１図の符号化装置と共に用いる復号化装置のブロック構成図。

第３図は本発明第二実施例の符号化装置を示すブロック構成図。

［発明を実施するための最良の形態］第１図に示す符号化装置において、入力１０入力音声信号は標本化された形態（望ましくはディジタル）の信号である。この信号は予測回路２により処理され、その出力（例えばフィルタ係数の組）により、合成フィルタのスペクトル応答を音声信号と同等になるように設定する。予測回路２による解析には、従来からのＬＰＧ　（予測線形符号化）音声符号化装置を用いることにより実施できる。この解析は、このような装置で一般的に行われるように、入力標本が分割された音声フレームに対して行う。フレームの長さは典型的には２０ミリ秒であり、係数の組が２０ミリ秒毎に生成される。この係数の組は、信号線３を経由して出力マルチプレクサ４に供給される。

フィルタの設定値とともに、符号化装置は駆動信号源の設定値を生成する。この設定値は、元の音声を近似するするために合成フィルタを駆動することから、符号化装置で生成する必要がある。第１図に示した符号化装置はマルチパルス導出部５を備え、入力音声標本とＬＰＣ係数とから、上述した「マルチパルス」駆動信号のフレームに含まれるパルスの振幅（出力６）および位置（出カフ）を導き出す。典型的なサブブロック（ＬＰＣフレームの部分）は１０ミリ秒の大きさであり８個のパルスを含むのに対し、第１図の実施例は、３個のパルスを含む４ミリ秒のサブブロックを用いる。これは、符号化プロセスに導入される遅延が少ないので、望ましいことである。

マルチパルス導出の課題は、復号化された合成音声と元の音声との間の誤りを最小化するパルス位置および振幅を見つけることである。

サブブロックがｎ個の音声標本で構成されると仮定し、ｎ個の入力音声標本を５０〜Ｓｈ−＋、ｎ個の合成標本をＳｏ’〜Ｓ、、−＋’とする。これらの標本をベクトルｓ、ｓ’で表す。駆動信号は振幅ａ。

のパルスを含む。これらのパルスは、フレーム内のｎ個の可能な時点のうちどこで発生してもよいが、その数は制限されている（これをに個とする）。したがって、駆動信号はａ０〜ａ、−１の成分を含むｎ次元ベクトルｉとして表されるが、８０〜ａ、−のうちのに個だけが零以外の値をもつ。このとき、ｅ”　＝　（ｓ　−ｓ’　）　”　　　　　　　　　　　　　−−−−（１）で表される誤差を最小とする２に個の未知数（ｋ個が振幅、ｋ個がパルス位置）を見つけることが問題となる。

この問題を解くために必要な計算量は膨大であり、エイタル、レムデの提案した方法は以下の通りである。

（１）−個のパルスだけについて、誤差が最小となるような振幅および位置を見゛〕ける。

（２）二つ目のパルスについて、最初のパルスに組み合わせて誤差が最小となるような振幅および位置を見つける。このとき、以前に判断したパルスの振幅および位置については固定しておく。

（３）　　これを他のパルスに対して繰り返す。

この方法は第１図に示したマルチパルス導出部５で用いられ、第１図の帰還路８．９により、最初に導出したパルスを考慮してサブブロック内の後続のパルスを導出することを示す。導出されるパルスの順序は、サブブロック内の実際の位置とは無関係である。

パルス振幅ａＪＯ値は後方適応量子化回路９に供給される。ただし、最初に統計的な因子ｆｌが（乗算器１０により）乗算される。現実には、導出された最初のパルスが一般に最も大きく、少なくとも最初の数パルスについては、続いて導出されたパルスが徐々に小さくなる傾向がある。パルスの大きさが変化しても、トレーニング・シーケンスを統計的に解析すると平均的にこの傾向がある。そこで、この因子を乗算器１０に供給し、導出シーケンス内のどのパルスであるかに無関係に、乗算器の出力におけるパルス振幅が平均的に同一になるようにする。三つのパルスを用いる場合には、因子として、導出される最初のパルスｆ０＝１導出される第二のパルスｆ＋＝８／ｓ導出される第三のパルスｆ２＝８／３（六つのパルスを用いる場合には、第四ないし第六のパルスにそれぞれ８／３．８／３および４）を用いる。このステップの目的は、適応量子化の有効性を高め、量子化雑音また振幅の符号化に用いるビット数の一方（または双方）を削減できるようにするものである。

多数のパルスを使用する場合には、音声の標本シーケンスを解析することにより適当な因子を導出することができ、最初に導出されたパルスの振幅に対する平均振幅を見つけることができる。このとき、その逆数を乗算器の因子とする。この場合の単純な（最適化されていないが）方法は、最初に導出されたパルスに因子「１」を乗算し、他のパルスには「２Ｊを乗算する。

後方適応量子化回路９は３ビツト・ジャヤント量子化回路（Ｊａｙａｎｔｑｕａｎｔ　１ｓｅｒ）であり、最適非線形最大値量子化回路１１を備える。この最適非線形最大値量子化回路１１の特性を第１表に示す。

第１表出力符号は単に三つの出力ビットの値を表すものであり、「／」の前の数字は正負を表す符号ビットであり、これに続く１〜４の数字は二進数００〜１１を表す。

スケーリング部１２は、量子化回路の入力に設けられた除算器１３にスケール因子を供給する。スケール因子Ｓ（初期状態では「１」）は変数であり、入力されたパルス振幅の値に対する量子化回路の符号語出力に依存し、現在の値から次のパルス振幅のために使用する新しい値へと増加または減少するように変化する。

式で表すと、Ｓｋ　ｍ　　　＝　　　Ｓ　ｋ−＋　　ｍｋ−＋である。ｋが与えられたときのｍの値を第２表に示す。

第２表この因子はジャヤントが提案したものと異なっている。また、このスケール因子は、サブブロックまたはフレームの終了時にもリセットされない。

適応動作の高速化のための付加的手段として、二つの連続的な出力符号が「４」になったときに、二つ目の出力によりスケール因子を２．２５倍（１，５が二回）に増加させる手段が設けられる。この手段は、第１図において遅延回路１４および「４・４」検出器１５として表される。

後方適応量子化回路９からの量子化された振幅と、マルチパルス導出部５からの位置情報とは、ＬＰＣ係数とともに出力マルチプレクサ４に入力される。出力マルチプレクサは、これらの入力を一つの出力１６に結合する。

第２図に示す復号化装置では、デマルチプレクサ２６により係数、振幅および位置情報を分離し、合成フィルタ３０を更新するための係数を供給する。パルス振幅の符号語は「逆量子化回路」２１に供給され、量子化回路１１により導入された非線形性が除去される。すなわち、受信符号語が第１表の出力の欄に示した値に変換される。スケーリング因子Ｓについては、第１図の回路部１２．１４．１５とそれぞれ同等な回路部２２．２４．２５により、振幅符号語から導くことができる。

乗算器３１では、このスケーリング因子Ｓを逆量子化回路の出力に乗算する。このとき因子ｆ＋が除算器３２に供給される。除算器３２の出力は元の振幅（ただし量子化誤りを含む）を表し、パルス位置情報とともに、駆動信号発生器３３に供給される。

駆動信号発生器３３の出力はフィルタ３１により濾波され、復号化された音声信号として出力端子３４に出力される。

上述したように、マルチパルス導出部は、新しいパルスを導出するときに、帰還路８．９により前に導出したパルスの影響を考慮する。これらのパルスの実際の影響を符号化装置で考慮することが望ましく、このループ内に量子化回路を含むことが望ましい。このような符号化装置を第３図に示す。この図に示した符号化装置では、出力されたパルス振幅が局部符号器４０を介して帰還される。局部符号器４０は逆量子化回路２１′、乗算器３１′および除算器３２′を含む。

スケール因子は、当然、後方適応量子化回路９から得られる。第２図の復号化装置をこの符号器に利用することもできる。

パルスを順に導出する技術を用いたマルチパルス符号化では、再最適化ステップを含むものがある。これは、初期に導出したパルスが後に導出されるパルスの特性を参照していないことを考慮したものであり、そのパルスの振幅およびまたは位置を修正することにより、結果を改善できる。これについては、例えば本願出願人による英国特許出願第８６０８０３１号および第８７２０６０４号（アメリカ合衆国特許出願第８４６８５４号、ＰＣＴ／ＧＢ８７１００６１２　（特開平１−５００６９６）　）に示されている。

第１図の場合に、どのような従来技術を付加してもよい。第２図の場合に、必要な場合には位置再最適化を用いることもできる。しかし第３図の場合には、ループ内の量子化にこれを用いるので、パルスｉの量子化をパルスｉ＋１が導出される前に行い、パルスｉをさらに調整することは、量子化プロセスに重大な影響を与えることなしには不可能である。

国際調査報告

Claims

【特許請求の範囲】

１．入力音声信号から合成フィルタのパラメータを導出する手段と、駆動信号を表す第一のパルスの振幅およびタイミングを導出し、この第一のパルスおよびこの第一のパルスとの間に存在するパルスに組み合わせて入力音声信号と上記フィルタの駆動信号に対する応答との差が削減されるような駆動信号を表す−以上のパルスを連続して導出することによりパルスの振幅およびタイミングを選択して、音声標本に比較して少ない数のパルスを時間フレーム内に含む駆動信号を符号化する手段と、駆動信号を構成するパルスを導出するときにその導出順に依存する因子をそのパルスに乗算する手段と、この乗算する手段により得られた積を量子化する後方適応量子化回路とを備えた音声符号化装置。
２．少なくとも三つのパルスを導出する請求項１記載の音声符号化装置。
３．因子は最初のパルスに対して「１」であり、これに続くパルスにはそれぞれ「１」より大きく以前に導出されたパルスに対して使用した値以上である請求項２記載の音声符号化装置。
４．最初の三つのパルスに対する因子は、導出順にそれぞれ実質的に１、８／５および８／３である請求項３記載の音声符号化装置。
５．導出手段はさらに別のパルスを導出する構成であり、最初およびどの関連するパルスの振幅の値を用い、局部復号器を介して量子化回路の出力からの振幅の値を用いる請求項１ないし請求項４のいずれかに記載の音声符号化装置。
６．添付図面の第１図または第２図を参照して説明した音声符号化装置。