【発明の詳細な説明】
人間の音声を符号化し引き続きそれを再生するための方法及びシステム本発明の背景
本発明は人間の音声(human speech)の符号化、及び引き続きそれの再生の方法
に関する。よく知られた方法が LPC符号化の原理に基づくが、その結果はそれな
りのものでしかない、ということが判っている。本出願の発明者は LPC符号化の
原理が更に改善の努力を企てるための良き出発点であるということを見出した。
特に、音声生成に対する種々の影響が更に洗練されたやり方で考慮されるときに
、種々のフィルタ LPC特性の値が、改善された結果を得るように改訂されること
ができる。本発明の概略
従って本発明の目的はとりわけ、上述の技術により動作するための音声生成フ
ィルタ特性を改善することであって、特に LPCデータベースとの両立性を或る程
度まで維持することである。その1つの態様では本発明の方法は更に、
或る量の人間の音声を表す情報を受け取るステップ;
該情報に対応するスペクトル包絡線を持つ LPC音声合成フィルタの伝達関数のす
べての複素極を推定するステップ;
人間の音声系モデルの任意の特定の共鳴に無関係なすべての極を上記伝達関数か
らえり抜き、それ以外のすべての極を保持するステップ;
上記えり抜かれた極を表すところの声門パルスに関連するシーケンスを定義する
ステップ;
上記それ以外のすべての極を表す複素伝達関数を持つ第2のフィルタを定義する
ステップ;及び
上記声門パルスに関連するシーケンスと、上記第2のフィルタの表現とを組み合
わせることに基づくフィルタ手段により表される音声を出力するステップ;
の諸ステップを含んで成る。
複素極を2つのグループに区別することにより、それらグループの各々を最適な
やり方で別々にモデル化することが許容される。
上記推定するステップは更に、上記人間の音声を表す情報に関連する固定第1
ラインスペクトル(数式(5))を推定すること、及び上記人間の音声系モデルに付
随する固定第2ラインスペクトル(数式(7))を推定することを含み、また上記声
門パルスに関連するシーケンスに対応する可変第3ラインスペクトル(数式(8))
を、適切なマッチングレベルに達するまで上記第3ラインスペクトルを上記推定
された第1ラインスペクトルにマッチさせるように、見出すことをも更に含むこ
とが有利である。このマッチングのとり方は簡明であるにも拘らずその性能は極
めて良好である、ということが判明している。
上記えり抜くステップは、予め定められたしきい値周波数より下の周波数に関
連するすべての極に付随することが好適である。このやり方で、区別することが
単純且つ簡明に実行される。実際上はこれら低周波の極が丁度、えり抜かれなけ
ればならないものになっているのである。
上述の方法は LPCと両立する音声データベースを使用するのが有利である。そ
のようなデータベースは多種多様な音声のタイプ及び言語に対して容易に入手可
能である。
本発明はまた、上述の人間の音声を符号化する方法を実行するシステムにも関
する。本発明のそれ以外の利点は従属請求項に記載される。
音声を種々のやり方で操作すること自体は、ヨーロッパ特許EP 527 527号及び
それに対応する米国特許US 5,479,564号、ヨーロッパ特許EP 527 529号及びそれ
に対応する米国特許出願07/924,726号、並びにヨーロッパ特許 EP 95203210.0号
及びそれに対応する米国特許出願08/...,...号に開示されており、これらはすべ
て本出願の出願人によるものである。はじめの2つの文献は、未処理の音声のピ
ッチ周期を挿入したり除去したりして音声の経過時間に影響を与えることが記述
され、3番目は音声の短時間フーリエ変換について比較できるやり方で取り扱う
ものである。前に述べたように、本発明は符号化された音声のコンパクトな記憶
を、低価格の解答を求めるために達成しようと試みるものである。上記文献では
更に膨大な記憶スペースを必要としている。図面の簡単な説明
本発明の上述及びその他の態様及び利点は、以下に開示される好適実施例によ
り、及び特に添付の図面を引用することにより説明される。
それらの図面は:
図1が、既知のモノパルス・ボコーダーの図であり;
図2aが、そのようなボコーダーの励起を示す図であり;
図2bが、それにより生成される典型的な音声信号を示す図であり;
図3aが、フィルタに基づく音声生成モデルを示す図であり;
図3bが、それから導かれる第2次モデルを示す図であり;
図4aが、音声系の伝達関数を示す図であり;
図4bが、合成フィルタの伝達関数を示す図であり;
図4cが、声門パルスフィルタの伝達関数を示す図であり;
図5aが、典型的な自然音声信号を示す図であり;
図5bが、それに関連する声門パルスシーケンスを示す図であり;
図5cが、該シーケンスを時間に対して微分したものを示す図であり;
図6が、声門パルスフィルタのインパルス応答を示す図であり;
図7が、提案する合成器を示す図であり;
図8が、使用されるフィルタの極のプロットを示す図であり;
図9aが、2つの伝達関数の比較を示す図であり;
図9bが、別の2つの伝達関数の比較を示す図であり;
図10が、典型的な声門パルスの時間導関数を示す図であり;
図11a,11b が、図10のパルスの全極スペクトル表現を示す図であり;
図12が、スペクトルの傾きを説明するグラフを示す図であり;
図13a,13b が、声門パルス及びその時間導関数を示す図である。本発明の原理の説明
図1は、モノパルス(mono-pulse)すなわちLPC(linear predictive coding)に
基づく既存の技術によるボコーダー(vocoder)を示す図であって、これは多くの
教科書、例えば1987年Addison-Wesley社刊行のDouglas O'Shaugnessy著“Speech
communication,Human and Machine”に載っている。LPCの利点は、極度にコンパ
クトな記憶のやり方と、そのように符号化された音声を容易なやり方で操作する
ことのたやすさとである。不利な点は、生成された音声の相対的に貧弱な品質で
ある。概念的には音声合成は全極(all-pole)フィルタ54を用い、該フィルタは符
号化された音声を受け取って、出力58に一連の音声フレームのシーケンスを出力
する。入力40は実際のピッチ周波数を記号化したもので、該周波数は実際のピッ
チ周波数繰り返しにおいて有声(voiced)フレームの生成を制御するアイテム42に
供給される。それとは対照的にアイテム44は、一般に(白)雑音で表される無声
(unvoiced)フレームの生成を制御する。マルチプレクサー46は選択信号48に制御
されて有声、無声間を選択する。増幅器ブロック52はアイテム50に制御されて実
際の利得ファクタを変えることができる。フィルタ54は、制御アイテム56により
記号化されるような時間変動フィルタ係数を持つ。典型的には、種々のパラメタ
は5-20ミリ秒ごとに更新される。この合成器(synthesizer)はモノパルス励起型
と呼ばれる、それは1ピッチ周期当たり唯1つの励起パルスしか存在しないから
である。増幅器ブロック52からフィルタ54への入力は励起信号と呼ばれる。一般
的には図1は人間の音声系(human vocal tract)の性質とは直接関係のないパラ
メタ的の(parametric)モデルである。図1によるアプローチは広汎であり、多数
の分野への応用のために大きなデータベースが混合されて(compouded)いる。
この関係では、図2aがそのようなボコーダーの励起の実例を示し、図2bがそれ
により生成された音声信号を示し、茲では時間は秒で表され、実際の音声信号の
振幅は適当な単位で表される。
本発明は有声の音声の上記再生を、簡単なやり方で改善することを意図する。
茲で本発明の主要な観点は、人間の音声の物理的生成を、或る1つのやり方で擬
態する(mimick)ことである。説明用として、図3aはフィルタに基づく音声生成モ
デルであり、音声が人間の音声系で生成されるやり方に基づいている:図1とは
対照的に、図3aは物理学的、或いは寧ろ生理学的モデルであり、それは音声系の
幾何学的及び物理学的特性に遙かに密接に関連する。ブロック20はここでもまた
全極(all-pole)フィルタであり、後に図5に示すような脈動する空気の流れの形
で一連の声門パルスのシーケンスが音源22から供給される。人間の場合は唇から
観念的出力26に放出せられる音響(sound)はこの放出過程では大なり小なり微分
せられ、これは微分器すなわち高域通過フィルタ24により記号化されている。こ
のモジュールの設定自体は図1と類似であるが、音源22及びフィルタ20は共に別
の特性を持つ。微分器と音源を組み合わせることを通して訂正された設定が図3b
のようになり、茲では音源23が声門の空気の流れの時間導関数を生成する。本発
明の1つの利点は LPCで示唆されたデータベースの使用の可能性である。将来は
本発明への視点で更に改良されているであろうデータベースが、もっと優れた性
能を提供するであろう。
この微分の性質という観点では、図5aに示した(典型的な母音/a/ の)原始音
響トラックは、声門パルスの特性を音声系本体の特性から分離するという観点か
ら図5bの声門パルスの流れによって表される。生成される音声は、音声系パラメ
タの表現を声門パルスの表現と共に供給することを通してこれら2つの構成要素
の双方に基づく。次に、この声門パルスは図5cに示すような時間微係数に翻訳さ
れる。この図5cでは鋭いピークが声門の閉じた瞬間を示し、これが入力に対する
主要な瞬間である。図示のセグメントの長さは合成フレームの典型的な長さに対
応する。声門パルス及びその微係数は閉鎖位相分析(closed-phase analysis)と
呼ばれる逆濾波技術(inverse filtering technique)により得られている。この
技術では先ず声門閉鎖の間隔の推定がなされる。これらの間隔の内部では音声は
音声系の共鳴のみから成る。続いてこれらの間隔は全0(all-zero)逆フィルタを
生成するのに使われる。すると声門パルスの時間微係数はこのフィルタによる逆
濾波によって求められる。続いて声門パルス自体がこの時間微係数を積分するこ
とによって求められる。この音声系フィルタは求められた全0フィルタの逆であ
る。この音声系フィルタ Hν の伝達関数の大きさ(magnitude)が図4aに示される
。同じセグメントに対する合成フィルタ Hs の伝達関数の大きさが図4bに示され
る。この2つの伝達関数は見掛け上は明らかに同じフォルマント(formant)共鳴
を含むが、低周波数では異なる。このことは、Hs が音声系のスペクトルの性質(
behaviour)と声門パルスの時間微係数のスペクトルの性質との双方を記述してい
るのに対し、Hν は音声系のスペクトルの性質のみを記述している、という事実
に起因するのである。図4cは声門パルスフィルタの伝達関数を与える。雑誌J.Ac
coust.Soc.Am.90(5),1991年11月号pp.2394-2410所載のD.G.Childers及びC.K.Le
e による“Vocal quality factors:Analysis,synthesis,and perception”には
声門
パルスの音声の音響化への影響が記載されている。
次に:
と書くことにより、図1の合成システムが図3bのモデルと比較される。
茲で Hg は線形フィルタで、声門パルスフィルタと呼ばれる。そのインパルス
応答が合成器中の声門パルス時間微係数のモデルとなる。フィルタ Hg は最小位
相伝達関数を持つ。これは、Hs 及び Hν が共に安定全極フィルタであることに
よりそうなるのである。声門パルスフィルタの伝達関数は図4cに示され、インパ
ルス応答は図6に示される。図5cでこの声門パルス時間微係数の合成モデルを真
の時間微係数と比較すると、たとえスペクトルの大きさ(magnitude)は同一であ
るかも知れないが、それらの時間領域の表現は全く異なる。そのような差異は原
始音声の時間領域の表現と合成音声の時間領域の表現と間にも同様に存在する。
明らかに、モノパルスボコーダーの陰伏(implicit)声門パルスのモデルは真の
声門パルスとは異なる。その理由は、真の声門パルスの時間微係数は、最小位相
システムのインパルス応答のように密接に近似することができないからである。
図3bのモデルから導かれる合成器が、声門パルスの時間微係数の改良された表現
と、音声系の共鳴のモデルであるに過ぎない合成フィルタとを具備すれば、更に
良好な知覚的音声品質をもたらすであろう、と提案される。
この提案された合成器が図7に示される。或る特定の要求条件が、図1のデー
タ源40,48,50,及び56に関連するパラメタを生成するのに必要な既存のデータ
ベースと、以前のまま両立する。これは次のようにして実現する。原始合成フィ
ルタのフィルタ係数は音声系のフィルタの係数及び声門パルスのフィルタの係数
を導くのに用いられる。好適な実例として、Liljencrants-Fant(LF) モデル
が声門パルスを記述するのに用いられ、これについては上掲のChilders-Leeの文
献(Fant及びFant他の文献を引用した)にも明快な説明が与えられている。それ
らのパラメタは、声門パルスフィルタとLFパルスとの間の周波数領域内で、大き
さのマッチングがとれるように同調させる。このことによって音声系フィルタの
ハット(hat)の励起が所望のスペクトル特性と現実の時間的表現とを併せ持つこ
とになる。所要のステップを以下に詳述する。
本発明によれば、声門パルスのシーケンス及びフィルタ特性は共に、利用可能
な設備に対して改良された音響の品質を達成するよう改訂される。解決すべき問
題点は:
a.いかなるフィルタ係数が元のフィルタに対応するか;
b.いかなるフィルタ係数が入力パルスシーケンスのスペクトルの性質(茲で
は図4cによるもの)に対応するか;
がある。
特に、声門パルスのシーケンスの処理結果の位相を考慮するが、これは既存の
技術では敬遠すべきものと考えられていた。使用されるフィルタは、位相の相互
関係を制御するいわゆる最小位相フィルタである。特に、それは音声系の共鳴の
モデルである。伝達関数の残りの部分は声門パルス自体の形成を通してモデルか
される。茲で、標本周波数の半分であるθは0とπとの間で変動するものとして
、フィルタの伝達関数は:
と書くことができる。もう1つの表現は:
であり、茲で各αは単位円の内部にある複素数の極である、すなわちそれはその
共役複素数も極であることを意味する。この関連では、図8が使用されるフィル
タの極のプロットである。例として上記関数の極30とその共役複素数32が、人間
の音声系の或る特定の共鳴に対応するものとして示されている。図8では極のプ
ロット中に斜線で陰影を付けた領域が示されている。それの右側には、人間の音
声系の最低共鳴周波数である +/-θmin の角の間の扇形セクタを含み、該人間
の音声系は年齢、性別等に僅かに依存する。この角に対する普通の値は 200Hzの
周波数に対応し、それは選定された特定の声のタイプに依存する。また、負の実
軸に沿っている幅の狭いストリップが、上記共鳴から立ち上がらないであろう極
を含むかも知れない。それ故に斜線で陰影を付けてない領域中の極だけを表す新
しいフィルタが建設される。
これに関連して図12が、θの関数としての「レスト(‘rest’)」フィルタの伝
達関数の実数部に存在するスペクトルの傾き(spectral tilt)を説明するグラフ
である。カーブは値が1のところから出発し、θの値が大きくなるに伴い大なり
小なり徐々に減少する。この当初の下降傾斜がフィルタのスペクトルの傾きと呼
ばれる。そうすると声門パルスのシーケンスは、図示の伝達関数とほぼ同じ値を
持つ当初のスペクトルの傾きを持つに違いない。これはLFモデルのパラメタの形
を造ることにより実現される。特にスペクトルの傾きは人間の聴き手が主観的に
感じる音声の「暖かさ」に影響する:傾斜が急に成るに従い「より暖かい」音響
を与える。生理学的には傾きは声帯を閉じる速さに関係する。もし閉じ方が速け
れば相対的に多くの高い周波数のエネルギーが持続するが、もし閉じ方が遅けれ
ば相対的に僅かの高い周波数のエネルギーしか声の中に存在しない。好適な実施例の詳細な説明
音声系フィルタの係数、及び合成フィルタの係数からの声門パルスのスペクト
ル表現は、次のようにして導かれる。先ず最初に、すべてのフォルマント周波数
は 200Hzより上に在ると仮定し、また Hν の複素極の大きさはしきい値0.85よ
り上だが単位円の内部に在ると仮定する。フォルマントに対応する複素極を対応
しない複素極から分離することより、伝達関数は積の形で表現されて:
となる。茲で1番目のファクタは数式(1)中の声門パルスフィルタ Hs/Hν の
推定値であり、これはフォルマントに割り当てることのできないすべての極を含
んでいる。2番目のファクタはすべてのフォルマント極を含む音声系フィルタの
推定値である。
これに関連して、図9aは、閉鎖位相分析を用い、また上記近似を用いた音声系
フィルタの比較を示す。同様の比較が、声門パルスフィルタに対して、図9bでな
されている。フォルマント周波数の周りでは限定された差異しか見出されない。
これらは閉鎖位相分析が一般にはより鋭いフォルマントのピークに有利であるか
ら生成されるのである。茲で用いられる分離の判定基準は次の通りである:上述
のしきい値周波数 200Hzより下の周波数に対応するすべての極は、フォルマント
周波数とは無関係であると仮定されていた。
Hs からのフォルマント極と非フォルマント極との間の分離は、もし Hs 自身
が2次のセクションの積として表されているならば、すなわちフォルマントパラ
メタの別の表現であるいわゆるPQ対で表されているならば、特に簡単であってそ
れについては1993年 Macmillan社刊行の John R.Deller,Jr.他著“Discrete-Tim
e Processing of Speech Signals”という書籍のpp.331-333を参照されたい。LF
パラメタは次の実例により推定することができる。
先ず最初に、声門パルスの時間微分のLFモデルの時間的に連続な形は:
と表される。茲で量A(任意の振幅),ω,α,te,ε,及びLFパラメタのピッ
チT0は生成(generation)パラメタであって、このうちω,α,te,εについて
は未だ確定するに及ばず、これらは閉音節の(closed)数学的表現に最も適してい
る。なおその他にもLF声門パルスを記述するパラメタの組がある。ピッチは合成
器中で既知である。その他のパラメタは組織的なやり方で最適化されなければな
らない。
この最適化の最初のアプローチは、声門パルスフィルタとLFフィルタとの間の
周波数領域内で良好な大きさの釣り合いが存在するようになるまで、4つのパラ
メタを同調させることである。推定される声門パルスフィルタは或る次元の全極
フィルタである。このフィルタはLFパルスから導かれる同じ次元の全極フィルタ
の基準と見なすことができる。するとLFのパラメタは十分な釣り合いが生じるま
で訂正されなければならない。先ず相関関数:
を見出し、次にフィルタ係数を得るために Levinson-Durbinの方法を適用するこ
とにより、LFパルスから全極フィルタを導くことができる。Levinson-Durbinの
アルゴリズムについてはDellerの前掲書を参照されたい。図11a,図11b は、この
やり方で求められた図10中のLFパルスのスペクトルの大きさを示す。
その次の典型的手順は、上述のスペクトルの傾きのような推定される声門パル
スフィルタから或る特性パラメタを測定して同じ特性を持つLFパルスを生成する
ことである。LFパラメタと推定される特性との関係は結果として起こる成果によ
り定められる。
もう1つの有用な手順は、1つのピッチ周期で測定されたLFパルスのエネルギ
ーと、利得パラメタの大きさを持つインパルスで励起されるときの声門パルスフ
ィルタの応答のエネルギーとを等しくさせることができるようなやり方で、LFパ
ルスの振幅を選ぶことである。所要の量は簡明なやり方で計算される。到達した
結果の質は知覚的なやり方で評価するのが有利である。比較される対象は、3個
の異形すなわち:原始母音;モノパルス合成された母音:改良された声門モデル
化により合成された母音;のそれぞれの中の、持続するが短い母音とするのが好
適である。
該手順のまた別の拡大は次の通りである。人間の音声情報に対応するスペクト
ル包絡線を持つ LPC音声合成フィルタの伝達関数の複素極の推定は、下記の数式
(5)に関連する固定第1ラインスペクトルの推定を含む。更に該手順は、人間の
音声系のモデルにふさわしい下記の数式(7)に関連する固定第2ラインスペクト
ルの推定を含む。更にまた該手順は、声門パルス関連シーケンスに対応する下記
の数式(7)に関連する可変第3ラインスペクトルを、適切なマッチングレベルに
達するまで推定された第1ラインスペクトルに上記第3ラインスペクトルをマッ
チさせるように、見出すことも含む。
図13a,図13b はモデル化された典型的声門パルス及びその時間導関数を示す。
標本化周波数は fs 、基本周波数は f0 、基本周期は t0=1/f0 である。更にtp
=2π/ωp とする。以後用いられるパラメタはいわゆる明細(specification
)パラメタであって、それは生成パラメタと等価であるが、音声生成器械の物理
学的側面と更に密接に関連する。特に、teと taとは生成パラメタへの直接の翻
訳を持たない。図中に示される信号セグメントは少なくとも2つの基本周期を含
むことに留意されたい。
茲で、wk,k=0,…,M−1 をウィンドウ関数、例えば Hanningウィンドウとし
、
をスペクトル中のスペクトルラインの数とするとき、信号ラインスペクトルは:
となる。
A(exp(jθ)) を音声系フィルタの伝達関数とするとき、音声系のラインスペ
クトルは:
である。
g(t;t0,te,tp,ta) を、例えばLFモデルによる声門パルスの時間導関数
とするとき、声門パルスのラインスペクトルは:
である。
声門パルスのパラメタte,tp,taは、この距離測定の知覚的妥当性を増加
するためにβを加算して、関数:
を最小化する偏角(argument)として求められる。β=1/3 が満足すべき結果を与
える、ということが判明している。
距離測定の代替案として
がある。
全体を最小にするか、又は少なくとも適切なレベルに達するか、のどちらかに
到達するまで、関数値を最小化すること自体は、簡明な数学的手法である。上記
最小化が極めて満足すべき音声生成を導いていることは既に判明している。