JP2002023775A

JP2002023775A - 音声合成における表現力の改善

Info

Publication number: JP2002023775A
Application number: JP2001168648A
Authority: JP
Inventors: Eduardo Reck Miranda; レックミランダ、エドワード
Original assignee: Sony France SA
Current assignee: Sony France SA
Priority date: 2000-06-02
Filing date: 2001-06-04
Publication date: 2002-01-25
Also published as: DE60112512T2; DE60112512D1; US20020026315A1; US6804649B2; EP1160764A1

Abstract

(57)【要約】（修正有）【課題】音源フィルタ法に基づく音声合成装置の音源
モジュールにおいて、音源カテゴリのライブラリを用い
ることにより、音声合成の表現力を向上させる。【解決手段】各音源音カテゴリは特定の形態論的なカ
テゴリに相当し、実際の音声に対し、声道の影響を除去
する逆フィルタリング処理を施すことにより得られる。
ライブラリはパラメータを格納してもよく、すなわち、
格納されるデータは、逆フィルタリング処理により得ら
れた音そのものではなく、逆フィルタリング処理により
得られた音を例えばフェーズボコーダ技術等の適切な再
合成技術により再合成するための合成係数であってもよ
い。これら係数はＳＴＦＴ分析によって導き出される。

Description

【発明の詳細な説明】

【０００１】

【本発明の属する技術分野】本発明は音声合成の分野に
関し、特に、音声シンセサイザによって生成された音声
の表現力を向上させる手法に関する。

【０００２】

【従来の技術】近年、特にテキスト−音声（text-to-sp
eech：以下、ＴＴＳという。）合成の分野において、音
声合成技術が著しく進歩している。音声合成の方法に
は、サンプリング法（連結法（concatenative approac
h）又は２音声法（diphone-basedapproach）とも呼ばれ
る。）と、音源フィルタ法（source-filter approach）
又は調音法（articulatory approach）といった２つの
基本的な方法がある。この点については、１９９８年、
英国、オックスフォードのフォーカルプレス（Focal Pr
ess）社発刊、イー・アール・ミランダ（E.R. Mirand
a）著、「電子音楽家のためのコンピュータ音声合成（C
omputer Sound Synthesis）」に記載されている。

【０００３】サンプリング法は、インデックスが付さ
れ、デジタル的に記録された例えば音節等の短い音声セ
グメントのデータベースを利用する。発話音を再生する
場合、再生エンジンは、記録されている適切な短いセグ
メントを連続的に結合して必要な単語を組み立てる。記
録されている音声を分析し、これら記録されている音声
がデータベース内でより効果的に表現されるような処理
を行う方法もある。この他に、短い発話セグメントを符
号化した形式で記録する手法もある。例えば、米国特許
第３９８２０７０号及び第３９９５１１６号では、必要
な音を再生するためにフェーズボコーダ（phase vocode
r）において必要とされる係数を表す信号を記録する。

【０００４】サンプリング法は、通常、ＴＴＳシステム
を構築するために適した方法であり、実際、現在市販さ
れているコンピュータ音声システムの多くにおいて、中
核となる技術として使用されている。

【０００５】音源フィルタ法は、図１に示すように、人
間の声道の機能を真似ることにより、スクラッチ（scra
tch）から音声を生成する方法である。音源フィルタモ
デルは、生の音源信号（raw source signal）を生成
し、この生の音源信号を複雑なフィルタ構成体（comple
x filter arrangement）により成形することにより音声
の生成をシミュレートする。この技術については、例え
ば、１９８０年、アメリカ音響学会ジャーナル（Journa
l of the Acoustical Society of America）６３（２）
号第９７１〜９９５頁に記載されているディー・クラッ
トによる「縦続／並列ホルマントシンセサイザ用ソフト
ウェア（Software for a Cascade/Parallel Formant Sy
nthesiser）」等に説明されている。

【０００６】人間の場合、生の音源は、声門（左右声帯
間の隙間）により生成された振動から生じる音に対応
し、複雑なフィルタは、音声が通過する声道に対応す
る。複雑なフィルタは、様々な方法で実現できる。包括
的には、音声が通過する声道は、鼻孔への分岐管を有す
る管とみなされ、この管はいくつかの部分に分割され、
各部分の共鳴がフィルタによりシミュレートされる。

【０００７】これらのフィルタのパラメータを容易に特
定するために、この方法は、例えば、特定の音声を発声
する場合における舌、顎、唇の位置等の調音情報（arti
culatory information）をフィルタのパラメータに変換
するインターフェイスを備える。このため、音源フィル
タモデルは、調音モデル（articulatory model）とも呼
ばれる。この調音モデルについては、１９７３年アメリ
カ音響学会ジャーナル（Journal of the Acoustical So
ciety of America）５３（４）号第１０７０〜１０８２
頁に記載のピー・マーメルスタイン（P. Mermelstein）
著「音声生成研究のための調音モデル（Articulatory M
odel for the Study of Speech Production）」に説明
されている。音声は、ある調音位置（articulatory pos
ition）の組から次の調音位置の組にどのように移動す
るかをプログラムに指示することにより再生される。換
言すれば、制御ユニットは、連続的時間の各時刻におけ
る音源及びフィルタを設定し、調音位置の組が連続する
時刻に亘ってどのように移動するかを定義することによ
り発声音の合成を制御する。すなわちこの手法では、１
つの調音位置及び音源の組から次の連続する時刻におけ
る次の調音位置及び音源の組にシステムをどのように移
動させるかを指示する。

【０００８】言語展開（language evolution）の基本的
なメカニズムの研究に使用するために、より高性能な音
声シンセサイザの実現が望まれている。このような研究
は、例えば、コンピュータ及びロボット装置の言語能力
を向上させることを目的としている。これらの基本的な
メカニズムの１つとしては、音声学的及び韻律的レパー
トリ（phonetic and prosodic repertoires）の出現も
含まれる。これらのメカニズムに関する研究は、以下の
ような能力を有する音声シンセサイザが必要である。す
なわち、この音声シンセサイザは、ｉ）自己組織化（se
lf-organisation）及びモジュール性（modularity）等
の進化的研究パラダイム（evolutionaryresearch parad
igms）をサポートする能力、ｉｉ）音声の生成及び知覚
の両方を表す知識表現（knowledge representation）の
統一的な形式（ unified form）をサポートし、これに
より話す能力及び聴く能力が同じ知覚モータメカニズム
（sensory-motor mechanisms）を共有するという仮定を
サポートする能力、ｉｉｉ）豊かな表現力で話し、歌う
ことを可能にする能力（感情及びパラ言語的特徴（para
linguistic features）を含む）を有している。

【０００９】サンプリング法に基づくシンセサイザは、
上述した要件のいずれをも満たさない。一方、音源フィ
ルタ法は、上述の要件ｉ）及び要件ｉｉ）を満たすが、
これまでに提案されているシステムは、要件ｉｉｉ）を
満たしておらず、この要件ｉｉｉ）を満たすよう改善す
る必要がある。

【００１０】本願発明者らは、音源フィルタ法に基づい
た従来の音声合成に使用される調音シミュレーション
は、シンセサイザのフィルタ部分においては十分に機能
するが、音源信号の重要性を大きく見落としてしまうこ
とを見出した。声門の重要性をより慎重に分析すること
により、音源フィルタ合成の品質及び柔軟性を実質的に
改善することができる。

【００１１】標準的な手法は、以下の２つの音源生成器
を用いて音源コンポーネントを具現化することである。
すなわち、第１の生成器は、白色雑音生成器（子音の生
成のシミュレート）であり、第２の生成器は、周期的高
調波パルス生成器（母音の生成のシミュレート）であ
る。この従来の音声シンセサイザの一般的な構造を図２
に示す。各生成器がフィルタに供給する信号の量を精密
に制御することによって、真声帯の（母音のための）緊
張又は（子音のための）緩和を粗くシミュレートするこ
とができる。この方法に関する主な制約は次のとおりで
ある。

【００１２】ａ）雑音信号及びパルス信号の混合によ
り生成される音は、現実的な音に聞こえない。すなわ
ち、雑音信号及びパルス信号は、完全に異なる性質を有
しているので、雑音信号及びパルス信号は良好に混合さ
れない。さらに、（子音と母音で単語を構成するために
必要な）雑音からパルスへ、あるいはパルスから雑音へ
の高速な切換により、摩擦音のような雑音（"buzzy" vo
ice）が生じてしまう。

【００１３】ｂ）パルス信号のスペクトルは、その基
本周波数の高調波から構成される（すなわちＦＯ、２^＊
ＦＯ、２^＊（２^＊ＦＯ）、２^＊（２^＊（２^＊ＦＯ））
等）。これは、音源信号の成分がフィルタに入力される
以前には変化できないことを意味し、したがって音声の
音質が制限される。

【００１４】ｃ）パルス信号のスペクトルは固定され
たエンベロープを有し、このエンベロープにおいて、各
高調波のエネルギは、周波数が２倍になる毎に−６ｄＢ
ずつ、指数関数的に減少する。音源信号は、常に同じス
ペクトル構成を有しているため、音声の音色のニュアン
スを柔軟に表現することができない。また、高周波ホル
マントのエネルギを高めなくてはならない場合、高周波
ホルマントは、不当に表現されてしまう。

【００１５】ｄ）上述のｂ）及びｃ）に加えて、音源
信号のスペクトルは動的な軌道（dynamical trajector
y）を欠く。すなわち、スペクトル成分間の周波数距離
及びそれらの振幅は、いずれも所定の期間にいて最初か
ら最後まで不変であり、このため時間的な変化を表現で
きず、合成された音声では音声の動的な軌道である抑揚
を表現できない。

【００１６】米国特許第５，５２８，７２６号（クッ
ク：Cook）には、音源フィルタ法に基づいて異なる声門
音源信号を合成する音声合成装置が開示されている。こ
の音声合成装置では、フィルタ構成体は、デジタル音響
管ネットワーク（digital waveguide network）を使用
する。また、事前に定義された音声信号の組を生成する
ための音響管結合制御パラメータ（waveguide junction
control parameters）及び関連する声門音源信号パラ
メータの組を格納するパラメータライブラリが採用され
ている。このシステムでは、余弦２乗波形（raised cos
ine waveshape）として開始され、続いてゼロに落ち、
ゼロが継続する直線部（閉鎖端：closingedge）が続く
波形により、異なる声門の音源信号を生成する基礎的な
声門パルスが模倣される。ここでは、開口スロープ（op
ening slope）及び時間を固定させて、閉鎖端の開始位
置及び終了位置を変更させることにより、異なる声門音
源信号が形成される。クックのシステムでは、これらの
異なる声門の音源信号の表現ではなく、異なる音源信号
のフーリエ級数表現のパラメータをデータとして保存す
る。

【００１７】クックのシステムは、ライブラリに格納さ
れたパラメータに基づいて、異なる種類の声門音源信号
の合成を行うが、声道（vocal tract）をモデル化する
フィルタ構成体による後続するフィルタ処理のために、
異なる種類の音源信号は、余弦２乗関数により導出され
たそれぞれの基礎的なパルス波形の単一のサイクルに基
づいて生成されている。さらに、クックのシステムは、
異なる種類の音源信号の最適化を行わないため、包括的
な音源フィルタ型のシンセサイザからの最終的な音声信
号出力の表現力を改善することはできない。

【００１８】

【発明の開示】本発明の好ましい実施の形態では、上述
の要件ｉ）〜ｉｉｉ）をすべて満たし、制約ａ）〜ｄ）
に関する問題を解決する音声合成方法及び音声合成装置
を提供する。特に、本発明の好ましい実施の形態は、そ
れぞれが形態論的カテゴリに対応する音源カテゴリのパ
ラメータのライブラリを用いることにより、合成された
音声の表現力を改善する（上述の要件ｉｉｉ））。

【００１９】本発明の好ましい実施の形態に示す音声合
成方法及び音声合成装置においては、音源信号は、自在
な長さを有する波形に基づいて生成され、この波形は、
実質的にいかなる形状を有することもできる波形の複数
回の繰り返しサイクルを含むことができる音の短いセグ
メントに対応している。

【００２０】また、本発明の好ましい実施の形態におい
ては、音源信号カテゴリが実際の音声に対する分析に基
づいて導き出される音声合成方法及び音声合成装置が提
供される。

【００２１】本発明の好ましい実施の形態では、音源フ
ィルタ法に基づく音声合成装置の音源コンポーネントに
おいて、従来のパルス発生器を、発声音を生成するため
に検索できる形態論に基づいた音源カテゴリのライブラ
リに置換することにより、音声合成装置の性能を向上さ
せる。この音源ライブラリは、発声音の一般的な形態論
に基づき、発声音のそれぞれの特定クラスに適合した異
なるカテゴリの音源に関するパラメータを格納する。ク
ラスの例としては、例えば「破裂音の子音から開母音へ
（plosive consonant to open vowel）」、「前舌母音
から後舌母音へ（front vowel to back vowel）」、所
定の感情的音色（emotive timbre）等がある。本発明に
基づくこの音声合成装置の包括的な構造は、図３に示さ
れている。

【００２２】本発明に基づく音声合成方法及び音声合成
装置では、子音と母音を表わす信号がいずれも音源と同
じ種類の音源（雑音及び／又はパルス音源からではな
く）に由来するので、より滑らかな発声音を生成するこ
とができる。

【００２３】本発明においては、ライブラリは「パラメ
ータ的である」ことが望ましく、換言すれば、格納され
るパラメータは音自身ではなく音声合成用パラメータで
あることが望ましい。再合成された音声信号は、生の音
声信号として使用され、声道をモデル化する複雑なフィ
ルタ構成体に入力される。格納されるパラメータは、音
声の分析により導き出されるものであり、また、より高
い性能及び豊かな表現力を実現するために、再合成処理
の前にこれらパラメータを様々な手法により変更しても
よい。

【００２４】格納されるパラメータは、実際の音声デー
タに対する分析に基づいて導き出されたフェーズボコー
ダのモジュール係数（例えばデジタルトラッキングフェ
ーズボコーダ（digital tracking phase vocoder：ＴＰ
Ｖ）又は「発振器バンク（oscillator bank）」ボコー
ダー用の係数）であってもよい。フェーズボコーダによ
る生の音声信号の再合成は、短時間フーリエ変換（Shor
t Time Fourier transform：ＳＴＦＴ）データを振幅及
び周波数の軌道（又はエンベロープ）に変換することに
より音声信号を生成するある種の追加型再合成（additi
ve re-synthesis）である［上述のイー・アール・ミラ
ンダ（E.R.Miranda）の論文参照）。フェーズボコーダ
からの出力信号は、声道をシミュレートするフィルタ構
成体に供給される。

【００２５】ライブラリをパラメータのライブラリとし
て実現することにより、音声合成処理の柔軟性が高くな
る。すなわち、これにより、異なる声門の品質をシミュ
レートするために音源合成係数を操作することができ
る。さらに、音源音の再合成処理の前に、ライブラリに
格納されているパラメータを用いて、フェーズボコーダ
に基づくスペクトル変換を行うことができ、これによ
り、より豊富な韻律を実現することができる。

【００２６】また、再合成された音源信号をフィルタ構
成体に供給する前に、音源信号に対して時間的な変換処
理を施してもよい。すなわち、音源信号のピッチが時間
と変化するように音源信号を変形する（これにより最終
音的な声信号の「イントネーション」を修正する）こと
により、最終的に生成される音声信号の表現力をより豊
かにすることができる。このピッチの変更を実現する技
術としては、ピッチ同期オーバーラップ及び追加（Pitc
h-Synchronous Overlap and Add：ＰＳＯＬＡ）技術を
用いるとよい。

【００２７】

【発明の実施の形態】上述のように、発明を適用した音
声合成方法及び音声合成装置では、音源フィルタ型シン
セサイザを用いた従来の音源を、形態論に基づいた（mo
rphologically-based）音源カテゴリのパラメータのラ
イブラリに置き換える。

【００２８】本発明に基づく音源モジュールからの出力
を処理するためには、声道（vocaltract）をモデリング
した音響管（waveguide）又は帯域通過フィルタ等のい
かなるフィルタ構成体を使用してもよい。さらに、フィ
ルタ構成体は、声道の応答をモデル化するのみではな
く、頭蓋骨から放射される音波を考慮することもでき
る。また、対応する従来の技術により、フィルタ構成体
内のフィルタのパラメータを制御してもよい。この技術
については、クラット（Klatt）の文献に記述されてい
る。

【００２９】なお、本発明の好ましい実施の形態におい
ては、音響管はしご技術（waveguide ladder techniqu
e）を用いる。音響管はしご技術については、例えば、
１９８７年、アメリカ合衆国、イリノイ州ウルバナ（Ur
bana）で開催されたＩＣＭＡ、国際コンピュータミュー
ジック会議（international Computer Music Conferenc
e）会報、第９〜１６頁記載のジェイ・オー・スミス
（J.O. Smith）著、「音響管フィルタチュートリアル
（Waveguide Filter Tutorial）」に説明されている。
音響管はしご技術は、例えば声道内壁の粘性や弾性等、
声道の非線形損失をモデルに組み込むことができ、有用
である。音響管はしご技術は、声道を含む様々な管楽器
の本体をシミュレートするために採用されている周知の
技術である。この技術については、例えば、１９９８
年、ＤＡＦＸ９８会報、第２２３〜２３０頁、ピー・ア
ール・コック（Cook）著「完全なオーディオ形態素に向
けて：歌声合成及び処理（Towards the Perfect Audio
Morph? Singing Voice Synthesis and Processing）」
に説明されている。

【００３０】適切なフィルタ構成及びこのフィルタ構成
に対する制御については、当分野の文献に説明されてい
るので、ここでは詳細には説明しない。

【００３１】以下、本発明に基づく音源カテゴリのパラ
メータのライブラリの構築及びこのライブラリを用いた
音源音の生成について、図４〜図８を用いて詳細に説明
する。

【００３２】図４は、本発明の好ましい実施の形態にお
ける音源カテゴリのパラメータのライブラリの構築の手
順を示す図である。この図では、長方形で囲まれた項目
は処理を示し、楕円形で囲まれた項目はそれぞれの処理
からの信号の入出力を示す。

【００３３】図４に示すように、好ましい具体例では、
格納される信号は以下のように算出される。実際の音声
（１）が検出され、声道が音源信号に与えた調音的影響
を減算するために、逆フィルタリング処理（２）が行わ
れる（１９９３年、コンピュータ音楽ジャーナル（Comp
uter Music Journal）１７（１）号に記載のピー・アー
ル・クック（P.R. Cook）著、「ＳＰＡＳＭ：実時間声
道物理モデル編集、制御及び歌声の生成（SPASM: A Rea
l-time Vocal Tract Physical Model Editor/Controlle
r and Singer）参照）。この逆フィルタリング処理は、
音源ストリームＳ_ｈに対し、応答φ_ｈを有するフィルタ
により畳込処理を行った結果、発声音ω _ｈが得られたと
すると（図１参照）、この発声音ω_ｈに対して逆畳込処
理を行うことにより、音源ストリームＳ_ｈに近似する信
号が得られるという推論に基づいている。

【００３４】

【数１】

【００３５】逆畳込処理は、例えば、ケプストラム（ce
pstrum）及び線形予測符号化（linear predictive codi
ng：ＬＰＣ）のような自己回帰法（autoregression met
hods）等、使用できるいかなる技術を用いて行ってもよ
い。

【００３６】

【数２】

【００３７】ここで、ｉはｉ番目のフィルタ係数であ
り、ｐはフィルタの数であり、ｎ_ｔは雑音信号である。
１９９６年、アメリカ合衆国、マサチューセッツ州、ケ
ンブリッジ、ＭＩＴプレス、カーティス・ロードによる
「コンピュータミュージックチュートリアル」（The Co
mputer Music Tutorial" by Curtis Roads, MIT Press,
Cambridge, Massachusetts, USA, 1996）参照。

【００３８】図５は、逆のフィルタリングによる、推定
された声門信号（glottal signal）（図４に示す項目
３）の生成処理の具体例を示す図である。

【００３９】推定された声門信号は、包括的な発声音形
式を包含する形態論的カテゴリに割り当てられる
（４）。形態論的カテゴリとしては、例えば「破裂音の
子音から後舌母音へ（plosive consonant to back vowe
l）」、「前舌母音から後舌母音へ（front to back vow
el）」、所定の感情的音色（emotive timbre）等があ
る。所定の形式（例えば、あるささやかれた母音）につ
いては、この形式を表わす信号は、それぞれの形式の様
々な発声音を逆フィルタリング処理して得られる推定さ
れた声門母音信号（５）を平均化することにより算出さ
れる。推定された声門信号は可変長の短い音声セグメン
トとなる。この音声セグメントの長さは、検討されてい
る声門の形態論的カテゴリを特徴づけるために必要な長
さである。与えられた形式を表わす平均化された信号
を、この明細書では「声門信号カテゴリ」（６）と呼
ぶ。

【００４０】例えば、「ｐａｒｋ」の音節／ｐａ／や
「ｐｅｄｅｓｔｒｉａｎ」の音節／ｐｅ／等の様々な実
例（instances）がシステムに入力され、システムは、
これらの実例からカテゴリ表現を構築する。この具体例
においては、生成されたカテゴリ表現に「破裂音から開
母音へ（plosive to open vowel」というラベルを付
す。例えば、「破裂音から開母音へ」の音の特定の例、
例えば／ｐａ／音を合成する場合、ライブラリに格納さ
れている「破裂音から開母音へ」のカテゴリ表現にアク
セスして音源信号を生成する。フィルタ構成体における
フィルタのパラメータは、所望の／ｐａ／音を生成する
ための伝達関数をこの音源信号に適応するよう、従来の
手法により設定される。

【００４１】声門信号カテゴリは、さらなる処理を行う
ことなく、ライブラリに格納することもできる。しかし
ながら、ここで、カテゴリ（音源信号）そのものではな
く、カテゴリを符号化して登録するようにするとなおよ
い。詳しくは、発明の好ましい具体例においては、短時
間フーリエ変換（Short Time Fourier transform：以
下、ＳＴＦＴという。）アルゴリズム（図４に示す項目
７）を使用して各声門信号カテゴリを分析し、例えばフ
ェーズボコーダにより元の音源音声信号を再合成するた
めに使用できる係数（８）を生成する。続いて、これら
の再合成係数は、声門音源ライブラリ（９）に格納さ
れ、後にそれぞれの音源信号を生成するための合成処理
時に読み出される。

【００４２】ＳＴＦＴ分析は、声門信号カテゴリを互い
に重なり合うセグメントに分類し、各セグメントを所定
のエンベロープにより成形する。

【００４３】

【数３】

【００４４】ここで、χ_ｍは入力信号であり、ｈ_ｎ−ｍ
は時間シフトされた窓であり、ｎは離散的な時間間隔で
あり、ｋは周波数ビン（frequency bin）のためのイン
デックスであり、Ｎはスペクトル（あるいは分析窓の長
さ）におけるポイント数であり、Χ_{（ｍ、ｋ）}は離散的
時間間隔ｎにおいて、周波数ビンｋに対応する、窓処理
された入力信号のフーリエ変換を表す（上述の「コンピ
ュータミュージック教本」参照）。

【００４５】この分析により、振幅及び周波数の軌道
（trajectories）によるスペクトルの表現（換言すれ
ば、時間的に変化する音の部分的な周波数（周波数成
分））が生成され、これらがライブラリに格納される再
合成係数を構成する。

【００４６】従来の音源フィルタ型のシンセサイザと同
様、本発明に基づく音声合成方法及び音声合成装置にお
いて発声音を合成する場合、その発声音は、最終的な発
声音全体を生成するために連続的に出力すべき一連の構
成要素の音へ分類される。声道をモデル化するフィルタ
構成体から所望の連続する音を出力するためには、その
フィルタ構成体に適切な音源ストリームを入力する必要
がある。図６は、発明の好ましい実施例として、音源ス
トリームを生成する主な手順を説明する図である。

【００４７】図６に示すように、まず、発声音に含まれ
る音を識別し、音源カテゴリのライブラリからそれぞれ
のクラスの音に関連したコードを読み出す必要がある
（２１）。これらのコードは、再合成器（例えば、フェ
ーズボコーダ）の係数を決定するためのものであり、理
論上、この再合成器に直接供給して、所望の音源音声信
号を再生する（２７）こともできる。発明の好ましい実
施例において使用される再合成器は、付加的な正弦波技
術（sinusoidal technique）を使用して音源ストリーム
を合成するフェーズボコーダである。換言すれば、声門
の音源ライブラリから検索された振幅と周波数の軌道
は、それぞれの正弦波を出力する発振器のバンクを駆動
し、これらの波形は加算され、最終出力音源信号が生成
される（図７参照）。

【００４８】一連の音から構成される発声音を合成する
とき、補間処理が実行され、これにより１つの音から次
の音までの遷移が滑らかになる。補間処理は、合成処理
（２７）に先立って合成係数に適用される（２４、２
５）。（なお、音源フィルタ型シンセサイザの標準のフ
ィルタ構成体と同様、このフィルタ構成体も補間処理を
行うが、この場合の補間処理は、制御回路により特定さ
れた調音位置間の補間処理である）声門の音源カテゴリを再合成係数（例えば、振幅及び周
波数軌道を表わす係数）の形式で格納することによる主
な利点は、この信号スペクトル情報に対して、例えば、
精密なチューニング又はモーフィング（子音−母音、母
音−子音）等の目的を持って、様々な処理を行うことが
できるという点である。図６に示すように、声門の音源
ライブラリから検索された再合成係数（２４）にスペク
トルの変換（２５）を適用するために、必要に応じて、
適切な変換係数（２２）が使用される。このようにして
変換された係数（２６）は、音源ストリームの生成のた
めに再合成器に供給される。例えば、あるスペクトルか
ら別のスペクトルへの漸次的な遷移を実現するために、
音源スペクトルのエンベロープ及びスペクトルのコンテ
ンツを変更し、２つ以上のスペクトルを混合することも
できる。

【００４９】声門の音源ライブラリから検索された声門
の音源カテゴリに適用できるスペクトル変換処理の具体
例を図８に示す。この変換処理には、時間伸張処理（ti
me-stretching：図８ａを参照）、スペクトルシフト処
理（spectral shift：図８ｂを参照）、及びスペクトル
伸張処理（spectral stretching：図を８ｃ参照）等が
含まれる。図８ａに示す具体例では、部分音の振幅の軌
道が時間的に変更されている。図８ｂ及び図８ｃに示す
具体例では、周波数の軌道が時間的に変更されている。

【００５０】スペクトルの時間伸張処理（図８ａ）は、
オリジナルの音（図８ａの上側に示すグラフ）の分析フ
レーム間の距離（時間的間隔）を増加させ、時間的に伸
張された音のスペクトル（図８ａの下側に示すグラフ）
である変換された信号を生成する処理である。スペクト
ルシフト処理（図８ｂ）は、スペクトルの部分間の距離
（周波数間隔）を変更する処理である。周波数成分の間
隔はオリジナルのスペクトル（図８ｂの上側に示すグラ
フ）においては、Δｆであり、変形されたスペクトル
（図８ｂの下側に示すグラフ）においては、Δｆ’とさ
れている。ここで、Δｆ≠Δｆ’である。スペクトル伸
張処理（図８ｃ）は、スペクトルシフト処理に類似した
処理であるが、スペクトル伸張処理の場合には、周波数
成分の間のそれぞれの距離(周波数間隔)が一定ではなく
なるという点が異なる。すなわち、スペクトルの部分間
の距離は指数関数的に増加するよう変更される。

【００５１】また、再合成された音源信号におけるピッ
チの経時的な変化の仕方を変更することにより、最終的
に生成される音声信号の表現（いわゆる「感情的表
現」）を豊かにすることができる。この時間的な変換処
理により、例えば、比較的抑揚のない音声信号をより旋
律的（melodic）にしたり、あるいは、（文末のピッチ
を上げることにより）肯定文を疑問文に変換する等の処
理を行うことができる。

【００５２】本発明においては、例えば上述のＰＳＯＬ
Ａ技術を用いて、この時間的な変換処理を行う。この技
術は、１９９２年６月発行の「音声通信（Speech Commu
nication）１１，２／３号、第１７５〜１８７頁に記載
のエイチ・バルブレット（H.Valbret）、イー・ムリン
クス（E. Moulincs）及びジェイ・ピー・タルバッハ
（J.P. Tulbach）著「ＰＳＯＬＡ技術を用いた音声変換
（Voice transformationusing PSOLA technique）」に
開示されている。

【００５３】ＰＳＯＬＡ技術は、再合成された音源信号
に対する適切な変換処理を行い、この後、変形された音
源信号は、声道をモデル化するフィルタ構成体に供給さ
れる。このように、好ましい具体例では、ＰＳＯＬＡ技
術を具現化したモジュールにより、図６に示す音源合成
ユニット２７から出力される音源信号を変換する。

【００５４】上述のように、所望の特定の音を合成する
場合、音源信号は、その音のクラスあるいは形態論的カ
テゴリに対応してライブラリに格納されているカテゴリ
表現に基づいて、音源信号が生成され、フィルタ構成体
はこのクラスの所望の特定の音を生成するように既知の
手法で構成され、音源信号を変更する。フィルタ構成体
が処理する生の素材は、従来の手法により生成された音
源信号の成分より適切な成分を備えるので、本発明によ
れば良好な合成結果を得ることができる。

【００５５】本発明に基づく音声合成技術は、母音と子
音を表す両方の信号が、（雑音音源及び／又はパルス音
源ではなく）音源と同じ種類の音源に由来するので、母
音と子音の間のモーフィング（morphing）がより現実に
近いものとなるという点で、上述した標準の声門のモデ
ルの制約ａ）を改善する。すなわち、本発明によれば、
合成された発声音がより滑らかなものとなる。

【００５６】発明の好ましい実施例では、合成係数を操
作して音源信号のスペクトルを変更できるため、制約
ｂ）及び制約ｃ）に関する問題も著しく改善される。す
なわち、本発明に基づくシステムはより高い柔軟性を有
している。声門の質の違い（例えば、表現力のある合
成、感情の付加、個人的特性を有する特別な声のシミュ
レーション等）は、再合成プロセスを適用する前に、フ
ェーズボコーダ係数の値を変更することによりシミュレ
ートできる。これにより、現在発音中の音源に対して時
間的な変更処理を行う関数を指定でき、したがって制約
ｄ）に関する問題も改善される。したがって、より豊富
な韻律（prosody）を得ることができる。

【００５７】本発明は、音源フィルタモデルの音源要素
がフィルタ要素と同等に重要であるという見地に基づ
き、音源要素の性能及び柔軟性を改善するために技術を
提供する。特別のスペクトル処理を定義する手順を見出
すことにより、この技術の有用性はさらに高まる。実際
の声門は、音源スペクトルに非常に微妙な変化を与える
ことができるが、これらの微妙な作用をフェーズボコー
ダの係数を特定することによりシミュレートすることは
容易ではない。

【００５８】なお、本発明は、上述した特定の実施の形
態の特徴によって制限されるものではない。すなわち、
添付の請求の範囲内において、上述の実施の形態を様々
に変更することができる。

【００５９】また、声道のシミュレートを例に本発明を
説明したが、本発明の範囲は人間の音声を模倣するシス
テムのみに制限されるものではない。本発明は、人間の
声道が通常生成することのない、例えばロボットの声等
の音声を合成するために使用することもできる。

【図面の簡単な説明】

【図１】音源フィルタ法による音声合成の背景となる原
理を説明する図である。

【図２】音源フィルタ法に基づく従来の音声合成装置の
一般的な構造を示すブロック図である。

【図３】本発明を適用した音声シンセサイザの包括的な
構造を示すブロック図である。

【図４】発明に基づき、音源カテゴリライブラリを構築
する処理の手順を示すフローチャートである。

【図５】逆フィルタリング処理によって、音源音声信号
（推定された声門信号）がどのように生成されるかを説
明する図である。

【図６】発明に基づき、音源音を生成する手順を説明す
るフローチャートである。

【図７】発明の好ましい実施例において使用される発振
器バンクによって具現化された付加的なシヌソイド技術
を概略的に説明する図である。

【図８】本発明の好ましい実施例に基づいて定義された
声門の音源カテゴリに適用できるいくつかの異なる種類
の変換処理を説明する図であり、図８ａはスペクトルの
時間伸張処理を示し、図８ｂはスペクトル変更処理を示
し、図８ｃはスペクトル伸張処理を示す図である。

Claims

【特許請求の範囲】

【請求項１】使用時に音源信号を出力する音源モジュ
ールと、上記音源信号を入力信号として受信し、該音源信号に対
し、声道の応答をモデル化するフィルタ特性を適用する
フィルタモジュールとを備え、上記音源モジュールは、それぞれの形態論的カテゴリに
対応した音源カテゴリの表現が格納されたライブラリを
備え、上記音源モジュールから出力される音源信号出力
は、選択された音源カテゴリの表現であることを特徴と
する音声合成装置。
【請求項２】上記音源モジュールは、上記音源信号を
出力する再合成器を備え、上記表現は、上記再合成器が上記音源カテゴリを再生成
するための再合成係数の形式で上記ライブラリに格納さ
れていることを特徴とする請求項１記載の音声合成装
置。
【請求項３】上記ライブラリに格納された表現は、実
際の音声に対し、声道によって課された調音の効果を除
外する逆フィルタリング処理を施すことにより導き出さ
れることを特徴とする請求項２記載の音声合成装置。
【請求項４】上記ライブラリに格納された表現は、発
声音のそれぞれの部分を逆畳込処理を施すことにより導
き出されることを特徴とする請求項３記載の音声合成装
置。
【請求項５】特定の形態論的カテゴリに対応した上記
音源カテゴリの表現は、形態論的カテゴリを具体化する
複数の音声の実例に逆フィルタリング処理を施して得ら
れた信号を平均化することにより導き出されることを特
徴とする請求項３又は４記載の音声合成装置。
【請求項６】上記再合成器は、上記フィルタモジュー
ルに供給される声門信号を出力するフェーズボコーダを
備え、上記音源カテゴリに格納された表現を構成する再合成係
数は、逆フィルタリングにより得られた信号を短時間フ
ーリエ変換分析することにより得られる表現に対応する
ことを特徴とする請求項２乃至５いずれか１項記載の音
声合成装置。
【請求項７】上記再合成係数に対するスペクトル変換
処理を実行するスペクトル変換処理手段を備え、上記フ
ェーズボコーダは上記スペクトル変換処理手段により変
換された再合成係数に基づいて動作することを特徴とす
る請求項６記載の音声合成装置。
【請求項８】上記音源信号のピッチは時間関数として
変化し、ピッチを変化させる関数を変更することにより
音源信号を変換する音源信号変換手段を備え、上記フィ
ルタモジュールは上記音源信号変換手段により変換され
た音源信号に対してフィルタリング処理を行うことを特
徴とする請求項１乃至８いずれか１項記載の音声合成装
置。
【請求項９】上記フィルタモジュールは、音響管はし
ご技術により実現されることを特徴とする請求項１乃至
８いずれか１項記載の音声合成装置。
【請求項１０】音源モジュールを準備するステップ
と、上記音源モジュールにより、音に関する特定の形態論的
カテゴリに対応する音源信号を生成するステップと、声道の応答をモデル化するフィルタ特性を有するフィル
タモジュールを準備するステップと、上記フィルタモジュールに上記音源信号を入力するステ
ップとを有し、上記音源モジュールを準備するステップは、それぞれの
形態論的カテゴリに対応した音源カテゴリの表現が格納
されたライブラリを備える上記音源モジュールを準備す
るステップを有し、上記音源モジュールから出力される
音源信号出力は、選択された音源カテゴリの表現である
ことを特徴とする音声合成方法。
【請求項１１】上記音源モジュールは、対応する形態
論的カテゴリを表わす再合成係数の形式でライブラリに
格納されている表現を検索し、再合成器への該検索され
た再合成係数を再合成器に入力し、音源信号として再合
成器によって生成された信号を音源信号として出力する
ことを特徴とする請求項１０記載の音声合成方法。
【請求項１２】上記ライブラリに格納された表現は、
実際の音声に対し、声道によって課された調音の効果を
除外する逆フィルタリング処理を施すことにより導き出
されることを特徴とする請求項１１記載の音声合成方
法。
【請求項１３】上記ライブラリに格納された表現は、
発声音のそれぞれの部分を逆畳込処理を施すことにより
導き出されることを特徴とする請求項１２記載の音声合
成方法。
【請求項１４】上記特定の形態論的カテゴリに対応す
る音源カテゴリの表現は、形態論的カテゴリを具体化す
る複数の音声の実例に逆フィルタリング処理を施して得
られた信号を平均化することにより導き出されることを
特徴とする請求項１２又は１３記載の音声合成方法。
【請求項１５】上記再合成器は、上記フィルタモジュ
ールに供給される声門信号を生成するフェーズボコーダ
を備え、上記音源カテゴリに格納された表現を構成する
再合成係数は、逆フィルタリングにより得られた信号を
短時間フーリエ変換分析することにより得られる表現に
対応することを特徴とする請求項１１乃至１４いずれか
１項記載の音声合成方法。
【請求項１６】上記検索された再合成係数にスペクト
ル変換処理が施され、上記フェーズボコーダは、変換さ
れた再合成係数に基づいて動作することを特徴とする請
求項１５記載の音声合成方法。
【請求項１７】上記音源信号のピッチは時間の関数と
して変化し、ピッチを変化させる関数を変更することに
より音源信号を変形するステップを有し、上記フィルタ
モジュールは上記音源信号を変形するステップにより変
形された音源信号に対してフィルタリング処理を行うこ
とを特徴とする請求項１０乃至１６いずれか１項記載の
音声合成方法。
【請求項１８】上記フィルタモジュールは、音響管は
しご技術により実現されることを特徴とする請求項１０
乃至１７記載の音声合成方法。