JP2000515992A

JP2000515992A - 言語コーディング

Info

Publication number: JP2000515992A
Application number: JP10508614A
Authority: JP
Inventors: チョイ、フン・ブン; サン、シャオキン; チートハム、バリー・マイケル・ジョージ
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1996-07-30
Filing date: 1997-07-28
Publication date: 2000-11-28
Also published as: WO1998005029A1; AU3702497A; EP0917709B1; EP0917709A1; DE69702261T2; DE69702261D1; US6219637B1

Abstract

(57)【要約】言語信号用デコーダは、時間にしたがって変化する信号を合成するために振幅スペクトル情報を受信する手段；振幅スペクトル情報から、振幅スペクトル情報に対応する振幅スペクトルをもつ最小の位相フィルタに対応する位相スペクトル情報を計算する手段（７）；振幅スペクトル情報および位相スペクトル情報から、時間にしたがって変化する信号を生成する手段（８）；および信号の位相スペクトルを修正するように動作できる位相調節手段（31，32）をもつ。

Description

【発明の詳細な説明】言語コーディング本発明は、言語のコーディングおよびデコーディング、とくにシステム内のコーディングプロセスがコード化されている信号内に含まれている全部または一部の位相情報を送ることに失敗しているようなシステムに関する。本発明の１つの態様にしたがって、言語信号用デコーダであり：振幅スペクトル情報を受信して、時間で変化する信号を合成する手段と；振幅スペクトル情報から、振幅スペクトル情報に対応する振幅スペクトルをもつ最小位相フィルタに対応する位相スペクトル情報を計算する手段と；振幅スペクトル情報および位相スペクトル情報から、時間で変化する信号を生成する手段と；信号の位相スペクトルを修正するように動作できる位相調節手段とを含む言語信号のデコーダを提供する。本発明は別の態様では、最小位相合成フィルタの応答を定義する情報と励起信号合成のための振幅スペクトル情報とを含む言語信号をデコードするデコーダであり：振幅スペクトル情報から、励起信号を生成する手段と；応答情報によって制御され、かつ励起信号をフィルタ処理するために接続された合成フィルタと；位相調節信号を推定して、信号の位相を修正する位相調節手段とを含むデコーダを提供する。別の態様では、本発明は言語信号をコーディングおよびデコーディングする方法であり：（ａ）言語信号の振幅スペクトルを表す信号を生成することと；（ｂ）信号を受信することと；（ｃ）受信した信号から、受信した信号により決まる振幅スペクトルをもち、かつｚ−面プロットとして見たときに、単位円の外側に少なくとも１つの極をもつ伝達関数に対応する位相スペクトルをもつ合成言語信号を生成することとを含む言語信号をコーディングおよびデコーディングする方法を提供する。ここで本発明の幾つかの実施形態を例示的に添付の図面を参照して記載することにする。図１は、周知の言語コーダおよびデコーダのブロック図である。図２は、人間の発声システム(vocal system)のモデルを示す。図３は、本発明の１つの実施形態の言語デコーダのブロック図である。図４および５は、図３のデコーダから得られたテスト結果を示す図である。図６は、（周知の）ローゼンバーグパルス(Rosenberg pulse)の形状のグラフである。図７は、本発明の第２の形式の言語デコーダのブロック図である。図８は、周知の形式の言語コーダのブロック図である。図９は、図９のコーダで使用するための、本発明のデコーダの第３の実施形態のブロック図である。図１０は、本発明を示すｚ面プロットである。この第１の例は、言語信号のコーディングおよびデコーディングにシヌソイド（正弦波状の）変換コーディング（ＳＴＣ）技術を使用することを仮定している。この技術はMcAulayおよびQuatieriによって提案され、R.J.McAulayおよびT.F. Quatieriによる文献"Speech Analysis/Synthesis based on a Sinusoidal Repre sentation"（IEEE Trans．Acoust．Speech Signal Process．ASSP-34，pp.744乃至754,1986年）、および同じくR.J.McAulayおよびT.F.Quatieriによる文献"Low- rate Speech Speech Coding based on the Sinusoidal Model"（"Advances in S peech Signal Processing"(Ed.S.FuruiおよびM.M.Sondhi，Marcel Dekker Inc., 1992年)に含まれる）に記載されている。原理を図１に示し、ここではコーダは入力１においてディジタル形式で言語サンプルを受信し；通常２０msの継続期間の言語セグメントは高速フーリエ変換（ＦＦＴ）ユニット２でフーリエ解析され、言語の短期間の周波数スペクトルを決定することになっている。とくに、これは重要な振幅スペクトルにおけるピークの振幅および周波数であり、周波数は− 有声音の場合−ピッチ検出器３によって得られるピッチ周波数の高調波であると仮定される。位相スペクトルは、伝送効率という観点では伝送されず、また、振幅スペクトル表示は、デコーダへ送るために、この例では包絡線を振幅スペクトルに合わせ、かつ１組の係数（例えば、ＬＳＰ（ラインスペクトル対）係数）によってこの包絡線を特徴付けることによって得られる。この機能は変換ユニット４でフーリエ係数を受取り、曲線を合わせ、さらにユニット５で包絡線をコーダの出力を形成するＬＳＰ係数に変換して行われる。対応するデコーダも図１に示されている。図１のデコーダは包絡線情報を受取っても、位相情報が不足しているときは、幾つかの仮定に基いて位相スペクトルを再構成しなければならない。受け取ったＬＳＰ係数によって表される振幅スペクトルが最小の位相伝達関数の振幅スペクトルであるという仮定を使用する−この仮定は、人間の音声システムを瞬時に（インパルスで）励起された最小位相フィルタとみなすことができる仮定に等しい。したがってユニット６は受け取ったＬＳＰ係数から振幅スペクトルを導き出し、ユニット７は最小位相の仮定に基いてこの振幅スペクトルに対応する位相スペクトルを計算する。２つのスペクトルから、シヌソイド合成器８はこのスペクトルによって決まる振幅と位相をもつ、ピッチ周波数の高調波である１組のシヌソイドの和を生成する。シヌソイド言語合成では、合成言語信号ｙ（ｎ）は正弦波の和によって構成される。なお、Ａ_kおよびφ_kは、周波数トラックω_kと関係する各正弦波成分の振幅および位相を表し、Ｎはシヌソイドの数である。これは前提条件ではないが、シヌソイドが高調波に関係していると仮定することが一般的であり、したがって：なお、なお、φ_k（ｎ）は高調波の瞬時相関位相、Ψ_k（ｎ）は瞬時線形位相成分、ω₀ （ｎ）は瞬時基本ピッチ周波数を表す。シヌソイド合成の簡単な例には、オーバーラップおよび加算方法である。この方法では、Ａ_k（ｎ）、ω₀（ｎ）、Ψ_k（ｎ）は定期的に更新され、短い時間、例えば１０ｍｓ、では一定のフレームであると仮定される。したがってｉ番目の信号フレームは次のように合成することができる：これは、本質的に逆ディスクリート（離散的）フーリエ変換であることに注意すべきである。隣合うフレームを次のように組合わせることによってフレームの境界で不連続を避けることができる：なお、Ｗ（ｎ）は、オーバーラップおよび付加ウインドウであり、例えば三角形または台形をしており、Ｔは多数のサンプル期間として表されるフレームの継続期間である。別の方法で、ｙ（ｎ）は式２に振幅および位相の項を補間することによって継続的に計算することができる。このような方法では、大きさの成分Ａ_k（ｎ）はしばしば更新の間に線形補間され、一方で位相成分を補間する多数の方法が報告されてきた。１つの方法（McAulayおよびQuatieri）では、瞬時の結合位相（Ψ_k （ｎ）＋φ（ｎ））およびピッチ周波数ω₀（ｎ）は各更新点で特定される。したがって補間された位相の軌道は三次多項式によって表すことができる。別の方法(Kleijn)では、Ψ_k（ｎ）およびφ_k（ｎ）が別々に補間される。この場合、φ （ｎ）は更新点で直接に特定され、線形に補間され、一方で線形位相成分Ψ（ｎ）はピッチ周波数ω₀（ｎ）に関して更新点で特定され、四次多項式の補間のみが必要である。上述から、シヌソイド合成器は、定期的に更新される値Ａ_k（ｎ）、ω₀（ｎ）、φ_k（ｎ）から連続する信号を生成するユニットとして一般化できることが明らかである。シヌソイドの数を固定するか、時間で変化させることができる。したがって、我々は元の位相情報が得られず、何らかの方法でφ_kを合成器で導き出さなければならないようなシヌソイド合成方法に関心がある。図１のシステムは合理的に満足のいく結果をだすが、ここで記載するコーダおよびデコーダは位相スペクトルについての代わりの仮定を提供する。人間の発声装置を、時間で変化するフィルタＨ（ｚ）（ｚはｚ−変換変数である）を駆動している規則的な一連のデルタ関数を構成するインパルス励起ｅ（ｎ）としてみなすことができるという概念は、図２に示したように、３つのフィルタによって形成されるＨ（ｚ）について検討することによってより精度良くすることができる。すなわち３つのフィルタは伝達関数Ｇ（ｚ）をもつ声門（グロッタル）フィルタ20、伝達関数Ｖ（ｚ）をもつ声道（ボーカルトライト）フィルタ21、および伝達関数Ｌ（ｚ）をもつ唇放出フィルタ(lip radiation filter)である。ここでは、フィルタの変数およびインパルス応答を表す時間ドメイン表現は小文字で示され、ｚ変換および周波数ドメインの表示は大文字で同じ文字で表されている。したがって言語信号ｓ（ｎ）は次のように記載することができる：または、ｅ（ｎ）のスペクトルは、ピッチ周波数の高調波における一連のラインであるので、各高調波の周波数におけるｓの大きさは次のように示すことができる：なお、Ａはｅ（ｎ）の振幅によって決定される定数であり、位相は次のように示すことができる：なお、ｍは整数である。図１のデコーダにおける振幅スペクトルが|Ｈ(ｅ^j ^ω)|に対応すると仮定すると、再生された言語は、使用される位相スペクトルがａｒｇＨ（ｅ^j ^ω）と異なる程度まで等級を下げることになる。ここで成分Ｇ、Ｖ、およびＬを考えると、最小の位相は声道の伝達関数Ｖ（ｚ）についての良い仮定である。通常これは、次の伝達関数をもつ全極モデル(all -pole model)によって表すことができる。なお、ρ_iは伝達関数の極であり、言語のフォルマント周波数に直接に関係しており、Ｐは極の数である。唇放出フィルタは微分器として考えることができる：なお、αは単一のゼロを表し、１(unity)に近い値をもつ（通常、０．９５）。最小の位相仮定はＶ（ｚ）およびＬ（ｚ）に対しては良いのであるが、Ｇ（ｚ）に対しては有効度は低くなると考えられる。何れのフィルタ伝達関数も最小位相関数と全通過（オールパス）フィルタとの積として表すことができるが、次のように仮定することもできることに注意すべきである：図３を参照して簡潔に記載したデコーダは、Ｇに関係付けられた振幅スペクトルが次の式に対応しているという仮定に基いている。デコーダは、Ｇ_apの適切な伝達関数は次の式の通りであるという仮定に基いて処理を進める。Ｇ_apに対する対応する位相スペクトルは、次のとおりである。図３のデコーダにおいて、要素６、７、および８は図１に示したものと同じである。しかしながら参照符号７で計算される位相スペクトルが調節される。ユニット31はピッチ周波数を受取り、ωの相関する値に対する式１７、すなわち言語の現在のフレームに対するピッチ周波数の高調波にしたがってφ_Fの値を計算する。次に加算器32でφ_Fの値を最小の位相値に加えてから、シヌソイド合成器８へ出力する。図３のデコーダでは、固定値β₁＝β₂＝０．８（しかしながら、以下に記載したように、βを変化させることも可能である）で実験を行なった。実験から、測定された位相エラーにおいて改善がみられ（図４参照）、関連のテストでは聞き手が４つのデコーダの出力を聞き、言語品質を好きな順序に４つのデコーダを置くように求められる（図５参照）。選択によって得点を付け：第１の選択＝４、第２の選択＝３、第３の選択＝２、第４の選択＝１、得点が加算される。この結果は、Rosenburgパルスの図を含んでいる。A.E.Rosenburgの文献（"Eff ect of Glottal Pulse Shape on the Quality of Natural Vowels"，J.Acoust.S oc．of America，Vol.49，No.2，1971年，pp.583-590）によって記載されているように、声門フィルタＧの出力に対して仮定されるパルスの形状である。Rosenb urgパルスの形状は図６に示されており、次のように定められる：なお、ｐはピッチ期間であり、Ｔ_PおよびＴ_Nはそれぞれ声門の開放および閉鎖回数である。したがって式１６の代わりに、図７に示されるように参照符号31で式１７からのｇ（ｔ）の位相に等しい計算された位相を適用する。しかしながら、最小の位相伝達関数によって表すことができるローゼンバーグパルススペクトルの成分が２回使用されないようにするために、式１７に対応する振幅スペクトルは、参照符号71で計算され、位相スペクトル計算ユニット７によって処理される前に、振幅値から差引かれる。得られた結果はＴ_P＝０．３３Ｐ、Ｔ_N＝０．１Ｐである。同じ考え方を声門励起および声道応答を畳込みを解く（deconvolve）試行を行う構成、−いわゆる線形予測コーダに応用することができる。ここで（図８参照）、入力言語をフレームごとに解析して(60)、入力言語をもつフレームに類似したスペクトル応答をもつフィルタのパラメータを決定する。次にこの応答の逆特性をもつフィルタ61を設定し、言語信号をこの逆フィルタへ送って、残りの信号ｒ（ｎ）を生成する。この残りの信号ｒ（ｎ）は、理想的には平らなスペクトルをもち、実際には元の言語のスペクトルよりも平らである。コーダが情報と共にフィルタ応答の詳細を送り(63)、デコーダが励起信号を構成することができるようにする(64)。励起信号は、ある程度残りの信号に類似しているが、デコーダが合成フィルタを駆動するのに使用され、出力言語信号を生成することができる。多くの提案で、残りの情報を送る異なる方法が作られた。例えば、（ａ）有声音にはピッチ期間および利得値を送ってパルス発生器を制御し、また無声音には利得値を送ってノイズ発生器を制御する；（ｂ）残りを量子化した形（ＲＥＬＰコーディング）、（ｃ）残りをベクトル−量子化した形（ＣＥＬＰコーディング）、（ｄ）不規則なパルス列のコード化した表示（ＭＰＬＰＣコーディング）、（ｅ）デコーダがフレームの長さの繰返しシーケンスを合成できるようにする残りの信号の信号サイクルの特徴(particulars)（プロトタイプ波形補間またはＰＷＩ）、（W.B.Kleijinによる文献("Encoding Speech using prototype Wav eforms"，IEEE Trans．Speech and Audio Processing，Vol 1，No.4，1993年10 月，pp.386乃至399)、およびW.B.KleijinとJ.Haagenによる文献("A Speech Code r based on Decomposition of Characteristic Waveforms"，Proc ICASSP，1995 年，pp.508乃至511)参照）。送られるフィルタ情報から励起に関する位相情報を削除される場合には、図２に関係して記載したのと類似の状況が生じる。したがって使用される位相スペクトルに関して仮定をたてることが必要である。何れの場合でもＬＰＣ解析から最小の位相伝達関数を生成されるので、合成フィルタのために位相情報が含まれるか否かは問題ではない。したがってここでの議論の目的にとっては位相応答が送られるフィルタ情報（通常は１組のフィルタ係数）に含まれるか否か、または最小位相の仮定に基いてデコーダでそれが計算されるか否かは重要ではない。この文脈でとくに重要なものはＰＷＩコーダであり、ここでは一般に抽出されたプロトタイプの残りのピッチサイクルをフーリエ変換を用いて解析している。フーリエ係数を単に量子化するのではなく、振幅およびピッチ期間のみを送ることによって伝送容量を節約することができる。したがって図９の構成では、図８の要素と同じ要素は同じ参照符号であり、励起ユニット63は−ＰＷＩ原理にしたがって動作し、出力の組でフーリエ係数を生成し−次にユニット80で大きさの情報のみを抽出し、これをデコーダへ送る。デコーダにおいてユニット91は−図３のユニット31と類似しており−式１６を使用して位相調整値φ_Fを計算し、励起発生器64の位相を制御する。この例では次の表にしたがって、β₁は０．９５に設定され、β₂はピッチ期間ｐの関数として制御される：表１−定の範囲のピッチ期間に対してＦ（ｚ）で使用される値これらの値を選択して、式１５の全通過伝達関数がもつ位相応答は、ローゼンバーグパルスの位相スペクトルの一部に対応し、Ｔ_P＝０．４ｐおよびＴ_N＝０．１６ｐであり、ＬＰＣ合成フィルタ65によってモデル化されない。以前のように、加算器83に前もって調整を加えて、ＰＷＩ励起発生器64に送る前にフーリエ係数に変換し戻される。計算ユニット91は、式１６を構成するためにプログラムされたディジタル信号処理ユニットによって実現することができる。ｚ面上の極とゼロに関してこれらの調節の効果を検討することが重要である。仮想全伝達関数Ｈ（ｚ）はＧ、Ｖ、およびＬの積であり、したがって図９に示されているように、単位円内にはρ_iにＰ極、αに１つのゼロがあり、単位円の外側には１／β₁および１／β₂に２つの極がある。逆ＬＰＣ解析の効果は逆フィルタ61を生成して、ρ_iとほぼ一致するゼロによってスペクトルを平らにすることである。フィルタ、最小の位相フィルタは１／β₁および１／β₂において単位円の外側でゼロを生成することはできないが、その代りにβ₁およびβ₂でゼロを生成する。β₁およびβ₂は位相応答ではなく、大きさの応答を平らにするのに役立つ（フィルタは極を生成して、通常αと同様の値をもつβ₁のように、αでゼロを打ち消すことはできない）ので、振幅スペクトルにおいてαゼロと１／β₁の極とは打ち消し合い、逆フィルタはちょうどρ_iおよびβ₂でゼロをもつと仮定することが一般的である。したがって残りがもつ位相スペクトルは、ｚ面においてβ₁およびβ₂における２つのゼロ（βは元の信号に対応する値をもつ）と１／β₁および１／β₂（βはＬＰＣ解析によって決定される値をもつ）における極とによって表される。この情報は失われており、これらの位置においてゼロおよび極をもつ式１５および１６にしたがう全通過フィルタの計算によって近似値が求められる。この説明は、位相調節が式１６によって全ての周波数において決定されることを断定している。しかしながら、その代りに周波数範囲の下方部分から−言語の特徴によって設定されるか、または依存できる範囲で式１６のみを適用し、ランダム位相をより高い周波数成分に適用することができる。上述で図９に関して記載した構成は、主として有声音のために設計されている。無声音に適応させるために、コーダは通常のやり方で有声音／無声音言語検出器92をもち、デコーダがスイッチ93を介して、励起発生器64とコーダからの利得信号によって振幅を制御する音声発生器との間でスイッチする。調節は位相値を付加することによって示されたが、これは所望の結果を達成する唯一の方法ではなく；その代りに、例えば合成フィルタ65の後ろ（または前）には式１５の応答をもつ全通過フィルタによって配置することができる。記載したデコーダはコード化され、それに送られた信号のデコーディングに関して説明したが、デコーダは、記憶され、後で検索されるコード化された信号から言語を生成するのに役立つ−すなわちデコーダは言語合成器の一部を形成できることに注意すべきである。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＧＨ，ＨＵ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＷ (72)発明者チートハム、バリー・マイケル・ジョージイギリス国、エル69・３ビーエックス、リバプール、サウス・モスリー・ヒル・ロード 99

Claims

【特許請求の範囲】１．言語信号用デコーダであり：振幅スペクトル情報を受信して、時間で変化する信号を合成する手段と；振幅スペクトル情報から、振幅スペクトル情報に対応する振幅スペクトルをもつ最小位相フィルタに対応する位相スペクトル情報を計算する手段と；振幅スペクトル情報および位相スペクトル情報から、時間で変化する信号を生成する手段と；信号の位相スペクトルを修正するように動作できる位相調節手段とを含む言語信号のデコーダ。２．最小位相合成フィルタの応答を定義する情報と励起信号合成のための振幅スペクトル情報とを含む言語信号をデコードするデコーダであり：振幅スペクトル情報から、励起信号を生成する手段と；応答情報によって制御され、かつ励起信号をフィルタ処理するために接続された合成フィルタと；位相調節信号を推定して、信号の位相を修正する位相調節手段とを含むデコーダ。３．励起発生手段を接続して、位相調節信号を受取り、それによって決定される位相スペクトルをもつ励起を発生する請求項２記載のデコーダ。４．動作において位相調節手段を置いて、信号の位相をその生成後に調節するようにした請求項１または２記載のデコーダ。５．ｚ面の表示において単位円の外側に少なくとも１つの極をもつ全通過フィルタの伝達関数にしたがって、位相調節手段を動作して、位相を調節することができる請求項１乃至４の何れか１個記載のデコーダ。６．ｚ面の表示において単位円の外側に２つの極をもつ全通過フィルタの伝達関数にしたがって、位相調節手段を動作して、位相を調節することができる請求項１乃至４の何れか１個記載のデコーダ。７．動作において調節手段を置いて、デコーダが受信したピッチ期間情報の関数として該または前記極の位置が変化するようにした請求項５または６記載のデコーダ。８．言語信号をコーディングおよびデコーディングする方法であり：（ａ）言語信号の振幅スペクトルを表す信号を生成することと；（ｂ）信号を受信することと；（ｃ）受信した信号から、受信した信号により決まる振幅スペクトルをもちｚ−面プロットとして見たときに、単位円の外側に少なくとも１つの極をもつ伝達関数に対応する位相スペクトルをもつ合成言語信号を生成することとを含む言語信号をコーディングおよびデコーディングする方法。９．受信した信号から最小の位相スペクトルを計算し、最小の位相スペクトルと前記極に対応するスペクトルの組み合わせである複合位相スペクトルを形成することによって、合成言語信号の位相スペクトルを決定する請求項８記載の方法。１０．信号が最小の位相合成フィルタを定める信号を含み、定められた合成フィルタおよび前記極に対応する位相スペクトルによって合成言語信号の位相スペクトルを決定する請求項８記載の方法。