JPH08512150A

JPH08512150A - ニューラル・ネットワークを利用してテキストを可聴信号に変換する方法および装置

Info

Publication number: JPH08512150A
Application number: JP7528216A
Authority: JP
Inventors: カラーリ，オーハン; コーリギャン，ジェラルド・エドワード; ジャーサン，イラ・アラン
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1994-04-28
Filing date: 1995-03-21
Publication date: 1996-12-17
Also published as: FI955608A0; EP0710378A1; EP0710378A4; US5668926A; WO1995030193A1; AU675389B2; CA2161540A1; CN1057625C; FI955608A; CN1128072A; AU2104095A; CN1275746A; CA2161540C

Abstract

(57)【要約】まず、録音済み音声メッセージ２０４を利用してニューラル・ネットワーク１０６をトレーニングすることにより、テキストはスピーチなどの可聴信号に変換できる。このトレーニングを開始するため、録音済み音声メッセージは、固定継続時間２１３を有する一連の音声フレーム２０５に変換される。次に、各音声フレームには、音声表現２０３およびターゲット音響表現２０８が割り当てられ、音声表現２０３は、音声フレームの単音および調音特性を表すバイナリ・ワードであり、一方ターゲット・音響表現２０８は、ピッチおよびエネルギなどの音声情報のベクトルである。トレーニングの後、ニューラル・ネットワーク１０６は、テキストからスピーチへの変換で用いられる。まず、変換するテキストは、音声表現２０８と同じ形式で、かつ固定継続時間２１３を有する一連の音声フレーム４０１に変換される。次に、ニューラル・ネットワークは、音声フレーム４０１のいくつかを含む文脈説明に応答して、音響表現を生成する。この音響表現は、シンセサイザ１０７によってスピーチ波形に変換される。

Description

【発明の詳細な説明】ニューラル・ネットワークを利用してテキストを可聴信号に変換する方法および装置発明の分野本発明は、一般に、テキストを可聴信号に変換する分野に関し、さらに詳しくは、ニューラル・ネットワークを利用してテキストを可聴信号に変換することに関する。発明の背景テキスト／音声変換（text-to-speech conversion）では、テキストのストリームをスピーチ波形に変換する。この変換プロセスは、一般に、テキストの音声表現（phonetic representation）を複数のスピーチ・パラメータに変換することを含む。このスピーチ・パラメータは、スピーチ・シンセサイザによって音声波形に変換される。音声表現をスピーチ・パラメータに変換するため、連鎖システム（concatenative system）が用いられる。連鎖システムは、diphonesまたは demisyllabesである音声の解析によって生成されるパターンを格納し、格納されたパターンを連結して、その継続時間（duration）を調整し、遷移を平滑化して、音声表現に応答して音声パラメータを生成する。連結システムの１つの問題点は、非常に多くのパターンを格納しなければならないことである。一般に、１０００以上のパターンを連結システムに格納しなければならない。さらに、格納パターン間の遷移は、平滑でない。また、音声表現をスピーチ・パラメータに変換するため、ルールによる合成（synthesis-by-rule）システムも用いられる。ルールによる合成システムは、各可能な音声表現についてターゲット・スピーチ・パラメータを格納する。ターゲット・スピーチ・パラメータは、ルール・セットにより音声表現間の遷移に基づいて修正される。ルールによる合成システムの問題点は、遷移ルールはわずかな遷移スタイルしか生成しない順向にあるので、音声表現間の遷移は自然でないことである。さらに、大きなルール・セットを格納しなければならない。音声表現をスピーチ・パラメータに変換するためニューラル・ネットワークも用いられる。ニューラル・ネットワークは、スピーチ・パラメータを録音済みメッセージのテキストの音声表現と関連づけるようにトレーニングされる。このトレーニングの結果によって、音声表現からスピーチ波形を生成するために必要な伝達関数を表す重み付きニューラル・ネットワークが得られる。ニューラル・ネットワークは、知識ベースがメモリではなく重みに格納されるので、連結システムやルールによる合成システムの大きな格納条件を克服する。音素（phoneme）からなる音声表現をスピーチ・パラメータに変換するために用いられる１つのニューラル・ネットワークは、音素のグループまたはウィンドウをその入力として利用する。ウィンドウ内の音素の数は固定され、あらかじめ決定される。ニューラル・ネットワークは、ウィンドウの中間音素についてスピーチ・パラメータのいくつかのフレームを生成し、中間音素を取り囲むウィンドウにおける他の音素は、ニューラル・ネットワークがスピーチ・パラメータを判定する上で利用する文脈（context）を与える。この構成の問題点は、生成されるスピーチ・パラメータは、音声表現間でなめらかな遷移を生成せず、そのため生成されたスピーチは自然でなく、意味不明になることがあることである。従って、格納条件を低減し、自然で理解しやすいスピーチを生成するように音声表現間で円滑な遷移を提供するテキスト／スピーチ変換システムが必要とされる。図面の簡単な説明第１図は、本発明によるテキスト／音声変換を利用する車両ナビゲーション・システムを示す。第２−１図および第２−２図は、本発明によりテキストから音声に変換する上で用いられるニューラル・ネットワーク用のトレーニング・データを生成する方法を示す。第３図は、本発明によりニューラル・ネットワークをトレーニングする方法を示す。第４図は、本発明によりテキストから音声を生成する方法を示す。第５図は、本発明により音声フレームの音声表現として用いることができるバイナリ・ワードを示す。好適な実施例の説明本発明は、テキストをスピーチなどの可聴信号に変換する方法を提供する。これは、まず録音済み発声メッセージをこれらのメッセージのスピーチと関連づけるためニューラル・ネットワークをトレーニングすることによって達成される。トレーニングを開始するため、録音済み発声メッセージは固定継続時間（fixed duration）を有する一連の音声フレームに変換される。次に、各音声フレームには音声表現（phonetic representation）およびターゲット音響表現（target ac oustic representation）が割り当てられ、ここで音声表現とは音声フレームの単音（phone）および調音（articulation）特性を表すバイナリ・ワードであり、ターゲット音響表現とはピッチやエネルギなどの音声情報のベクトルである。この情報により、ニューラル・ネットワークはテキスト・ストリームから音響表現を生成するようにトレーニングされ、テキストをスピーチに変換できる。本発明について、第１図ないし第５図を参照してさらに詳しく説明する。第１図は、方向データベース（directional database）１０２，テキスト／単音プロセッサ（text-to-phone processor）１０３，継続時間プロセッサ（duration pr ocessor）１０４、プリプロセッサ（pre-processor）１０５，ニューラル・ネットワーク１０６およびシンセサイザ１０７を含む車両ナビゲーション・システム１００を示す。方向データベース１０２は、街路名，高速道路，陸標および車両の運転者を案内するために必要な他のデータのセットを収容する。方向データベース１０２または他のソースは、テキスト・ストリーム１０１をテキスト／単音プロセッサ１０３に供給する。テキスト／単音プロセッサ１０３は、特性はプリプロセッサ１０５に供給されるテキスト・ストリーム１０１の音声および調音特性を生成する。プリプロセッサ１０５は、継続時間プロセッサ１０４からテキスト・ストリーム１０１の継続時間データも受信する。この継続時間データおよび音声・調音特性に応答して、プリプロセッサ１０５は、一連の固定継続時間の音声フレームを生成する。ニューラル・ネットワーク１０６は、各音声フレームを受信し、その内部重みに基づいて音声フレームの音響表現を生成する。シンセサイザ１０７は、ニューラル・ネットワーク１０６によって生成された音響表現に応答して音声１０８を生成する。車両ナビゲーション・システム１００は、汎用またはデジタル信号プロセッサを利用してソフトウェア内で実施できる。方向データベース１０２は、発声されるテキストを生成する。車両ナビゲーション・システムの観点では、これはシステムがユーザをその目的地まで案内するために提供する方向および情報でもよい。この入力テキストは任意の言語でもよく、言語の書面による表現である必要はない。入力テキストは、言語の音声表現でもよい。一般に、テキスト／単音プロセッサ１０３は、構文境界（syntactic boundary ）の説明および構文要素（syntactic component）の卓立（prominence）とともに、テキストを一連の音声表現に変換する。音声表現への変換および卓立（prom inence）の判定は、レター／サウンド・ルール（letter-to-sound rules）や、テキストの語形解析（morphological analysis）を含め、さまざまな手段によって達成できる。同様に、構文境界を判定する方法には、テキストの解剖（parsin g of text）、および句読点や前置詞，名詞，代名詞，冠詞、接続詞などの一般的な機能語の位置に基づく境界の単純な挿入がある。好適な実施では、方向データベース１０２は、一連の単音，各単語の単語カテゴリ，構文境界および構文要素の卓立ならびに強勢（stress）を含む、テキストの音声および構文表現を提供する。用いられる一連の単音は、Garafolo，John S.，"The Structure And Form at Of The DARPA TIMIT CD-ROM Prototype"，National Institute Of Standards And Technology，1988 からのものである。一般に、単語カテゴリは、テキスト・ストリームにおける単語の役割を表す。構造的な単語、すなわち、冠詞，前置詞および代名詞は、機能語として分類される。意味と構造の関係を追加する単語は、内容（content）として分類される。第３の単語カテゴリは、単語の一部ではない音、すなわち、沈黙や声門閉鎖音（glottal stop）について存在する。テキスト・ストリームにおいて識別される構文境界は、文境界（sentence boundary），節境界（clause bo undary），句境界（phrase boundary）および単語境界である。単語の卓立は、最小卓立から最大卓立を表す１から１３までの値としてスケーリングされ、音節強勢（syllabic stress）は、一次（primary），二次（secondary），未強勢（u nstressed）または強調（emphasized）として分類される。好適な実施では、方向データベースはテキストの音声および構文表現を格納するので、テキスト／単音プロセッサ１０３は、この情報を継続時間プロセッサ１０４およびプリプロセッサ１０５の両方に単純に渡す。継続時間プロセッサ１０４は、テキスト／単音プロセッサ１０３から出力される各単音に継続時間を割り当てる。継続時間は、単音が発せられる時間である。継続時間（duration）は、ニューラル・ネットワークおよびルール・ベース・コンポーネントを含むさまざまな手段によって生成できる。好適な実施では、ある単音の継続時間（Ｄ）は、次のようにルール・ベース・コンポーネントによって生成される：継続時間は、式（１）によって求められる：Ｄ＝d_min＋t＋（λ（d_inherent−d_min））式（１）ここで、d_minは最小継続時間であり、d_inherentは固有継続時間で、これらはともに以下の表１から選択される。 λの値は、以下のルールによって求められる。単音が核（nucleus）、すなわち音節における母音または音節子音であるか、あるいは節の最後の音節における核に続き、かつ単音が反転音（retroflex），側音（lateral）または鼻音（nasal）である場合、 λ₁＝λ_initial ｘｍ₁ かつｍ₁＝１.４となり、そうでない場合、 λ₁＝λ_initialとなる。単音が核であるか、あるいは節の最後の音節における核に続き、かつ反転音，側音または鼻音でない場合、 λ₂＝λ₁ｍ₂ かつｍ₂＝１.４となり、そうでない場合、 λ₂＝λ₁となる。単音が句を終了しない音節の核である場合、 λ₃＝λ₂ｍ₂ かつｍ₃＝０.６となり、そうでない場合、 λ₃＝λ₂₁となる。単音が句を終了する音節の核であり、かつ母音でない場合、 λ₄＝λ₃ｍ₄ かつｍ₄＝１.２となり、そうでない場合、 λ₄＝λ₃となる。単音が句を終了する音節における母音に続く場合、 λ₅＝λ₄ｍ₅ かつｍ₅＝１.４となり、そうでない場合、 λ₅＝λ₄となる。単音が単語を終了しない音節の核である場合、 λ₆＝λ₅ｍ₆ かつｍ₆＝０.８５となり、そうでない場合、 λ₆＝λ₅となる。単音が２つ以上の音節の単語にあり、かつこの単語を終了しない音節の核である場合、 λ₇＝λ₆ｍ₇ かつｍ₇＝０.８となり、そうでない場合、 λ₇＝λ₆となる。単音が単語における第１音節の核の前にない子音である場合、 λ₈＝λ₇ｍ₈ かつｍ₈＝０.７５となり、そうでない場合、 λ₈＝λ₇となる。単音が非強勢音節であり、かつ音節の核でないか、あるいは音節の核に続く場合、 λ₉＝λ₈ｍ₉ かつｍ₉＝０.７となり、単音が半母音とそれに続く母音でない場合、 λ₉＝λ₈ｍ₁₀となる。かつｍ₁₀＝０.２５となり、そうでない場合、 λ₉＝λ₈となる。単音が強勢されない語音節中の音節の核であるか、あるいは二次強勢を有する場合、 λ₁₀＝λ₉ｍ₁₁ かつｍ₁₁＝０.７５となり、そうでない場合、 λ₁₀=λ₉となる。単音が強勢されない非語音節中の音節の核であるか、あるいは二次強勢を有する場合、 λ₁₁＝λ₁₀ｍ₁₂ かつｍ₁₂＝０.７となり、そうでない場合、 λ₁₁＝λ₁₀となる。単音が単語を終了する母音であり、かつ句の最後の音節にある場合、 λ₁₂＝λ₁₁ｍ₁₃ かつｍ₁₃＝１.２となり、そうでない場合、 λ₁₂＝λ₁₁となる。単音が単語を終了する母音であり、かつ句の最後の音節にない場合、 λ₁₃＝λ₁₂（１−（ｍ₁₄（１−ｍ₁₃）））かつｍ₁₄＝０.３となり、そうでない場合、 λ₁₃＝λ₁₂となる。単音が母音とそれに続く同じ単語中の摩擦音（fricative）であり、かつ単音が句の最後の音節にある場合、 λ₁₄＝λ₁₃ｍ₁₅ かつｍ₁₅＝１.２となり、そうでない場合、 λ₁₄＝λ₁₃となる。単音が母音とそれに続く同じ単語中の摩擦音であり、かつ単音が句の最後の音節にない場合、 λ₁₅＝λ₁₄（１−（ｍ₁₄（１−ｍ₁₅）））となり、そうでない場合、 λ₁₅＝λ₁₄となる。単音が母音とそれに続く同じ単語中の終止（closure）であり、かつ単音が句における最後の音節にある場合、 λ₁₆＝λ₁₅ｍ₁₆ かつｍ₁₆＝１.６となり、そうでない場合、 λ₁₆＝λ₁₅となる。単音が母音とそれに続く同じ単語中の終止であり、かつ単音が句における最後の音節にない場合、 λ₁₇＝λ₁₆（１−（ｍ₁₄（１−ｍ₁₆）））となり、そうでない場合、 λ₁₇＝λ₁₆となる。単音が母音とそれに続く鼻音であり、かつ単音が句における最後の音節にある場合、 λ₁₇＝λ₁₆ｍ₁₇ かつｍ₁₇＝１.２となり、そうでない場合、 λ₁₇＝λ₁₆となる。単音が母音とそれに続く鼻音であり、かつ単音が句における最後の音節にない場合、 λ₁₈＝λ₁₇（１−ｍ₁₄（１−ｍ₁₇））となり、そうでない場合、 λ₁₈＝λ₁₇となる。単音が母音とそれに続いて母音がある場合、 λ₁₉＝λ₁₈ｍ₁₈ かつｍ₁₈＝１.４となり、そうでない場合、 λ₁₉＝λ₁₈となる。単音が母音とその前に母音がある場合、 λ₂₀＝λ₁₉ｍ₁₉ かつｍ₁₉＝０.７となり、そうでない場合、 λ₂₀＝λ₁₉となる。単音が「ｎ」で、同じ単語中の母音がその前にあり、かつそれに続いて同じ単語中に非強勢母音がある場合、 λ₂₁＝λ₂₀ｍ₂₀ かつｍ₂₀＝０.１となり、そうでない場合、 λ₂₁＝λ₂₀となる。単音が子音で、同じ句中の子音がその前にあり、かつそれに続いて同じ句中に子音がある場合、 λ₂₂＝λ₂₁ｍ₂₁ かつｍ₂₁＝０.８となり、子音が調音の同じ場所を有さない場合、 λ₂₂＝λ₂₁ｍ₂₁ｍ₂₂ かつｍ₂₂＝０.７となり、そうでない場合、 λ₂₂＝λ₂₁となる。単音が子音で、同じ句中の子音がその前になく、かつそれに続いて同じ句中の子音がある場合、 λ₂₃＝λ₂₂ｍ₂₃ かつｍ₂₃＝０.７となり、子音が調音の同じ場所を有さない場合、 λ₂₃＝λ₂₂ｍ₂₂ｍ₂₃ となり、そうでない場合、 λ₂₃＝λ₂₂となる。単音が子音で、同じ句中の子音がその前にあり、かつそれに続いて同じ句中の子音がある場合、 λ＝λ₂₃ｍ₂₄ かつｍ₂₄＝０.５となり、子音が調音の同じ場所を有さない場合、 λ＝λ₂₃ｍ₂₂ｍ₂₄ となり、そうでない場合、 λ＝λ₂₃ である。値tは次のようにして求められる：単音が強勢母音で、その前に無声音リリース（unvoiced release）または破擦音（affricate）がある場合、ｔ＝２５ミリ秒で、それ以外の場合はt＝０である。さらに、単音が非強勢音節にあり、または単音がこの単音がある音節の核の後に来る場合、最小継続時間d_minは、式（１）で用いられる前に半減される。 d_min，d_inherent，tおよびｍ₁〜ｍ₂₄の好適な値は、式（１）を用いて算出された継続時間と、録音済みスピーチのデータベースからの実継続時間との平均二乗差を最小限に抑えるため、標準的な数値方法を利用して求められた。λ_initial の値は、d_min，d_inherent，t₁およびｍ₁〜ｍ₂₄の判定中に１となるように選択された。ただし、テキスト／スピーチの実際の変換中には、よりゆっくりとしてわかりやすいスピーチの好適な値は、λ_initial＝１.４である。プリプロセッサ１０５は、継続時間プロセッサ１０４およびテキスト／単音プロセッサ１０３の出力をニューラル・ネットワーク１０６の適切な入力に変換する。プリプロセッッサ１０５は、時間を一連の固定継続時間フレームに分割し、フレーム中に名詞的に発音される単音を各フレームに割り当てる。これは、継続時間プロセッサ１０４によって供給される各単音およびその継続時間の表現からの簡単な変換である。フレームに割り当てられる期間は、単音に割り当てられる期間に入る。この単音は、フレーム中に名詞的に発音されるものである。これら各フレームについて、音声表現は、名詞的に発音される単音に基づいて生成される。音声表現は、単音と、この単音に伴う調音特性を識別する。以下の表２−ａないし表２−ｆは、好適な実施における６０個の単音と、３６個の調音特性とを示す。各フレームの文脈説明も生成され、フレームの音声表現，このフレーム付近の他のフレームの音声表現，および構文境界，単語卓立，音節強勢ならびに単語カテゴリを含む追加文脈データからなる。従来技術とは対照的に、文脈説明は、離散的な単音の数によって決定されず、実質的には時間の尺度であるフレームの数によって決定される。好適な実施では、対象フレームを中心とした５１個のフレームの音声表現が文脈説明に含まれる。さらに、テキスト／単音プロセッサ１０３および継続時間プロセッサ１０４の出力から導出される文脈データは、３つ前の単音および３つ後の単音の中間に対する時間的な距離を示す６つの距離値と、カレント単音の開始および終了に対する時間的な距離を示す２つの距離値と、前後の単語，句，節および文に対する時間的な距的な距離を示す８つの境界値と、前後の単音に対する時間的な距離を示す２つの距離値と、３つの前の単音および３つの後の単音の継続時間を示す６つの継続時間値と、現在の単音の継続時間と、５１個の音声表現のそれぞれの単語卓立を示す５１個の値と、５１個の音声表現のそれぞれの単語カテゴリを示す５１個の値と、５１個のフレームのそれぞれの音節強勢を示す５１個の値とを含む。ニューラル・ネットワーク１０６は、プリプロセッサ１０５によって供給された文脈説明を受け、その内部重みに基づいて、シンセサイザ１０７が音声のフレームを生成するために必要な音響表現を生成する。好適な実施で用いられるニューラル・ネットワーク１０６は、４層の回帰フィードフォーワード・ネットワーク（four layer recurrent feed-forward network）である。このニューラル・ネットワークは、入力層に６１００個の処理要素（ＰＥ：processing element）と、第１隠れ層（hidden layer）に５０個のＰＥと、第２隠れ層に５０個のＰＥと、出力層に１４個のＰＥとを有する。２つの隠れ層は、シグマ伝達関数（sigm oid transfer function）を利用し、入力および出力層は線形伝達関数を利用する。入力層は、５１個の音声表現について４８９６個のＰＥ（ここで各音声表現は９６個のＰＥを利用）と、回帰入力について１４０個のＰＥ、すなわち、出力層における１４個のＰＥの１０個の過去の出力状態と、文脈データについて１０６４個のＰＥとに分割される。３つの前の単音および３つの後の単音の中間に対して時間的な距離を示す６つの距離値と、カレント単音の開始および終了に対する時間的な距離を示す２つの距離値と、３つの前の単音および３つの後の単音の継続時間を示す６対の継続時間値と、現在の単音の継続時間とを受けるために、９００個のＰＥが用いられ；前および後の単語，句，節および文に対する時間的な距離を示す８つの境界値を受けるために、８個のＰＥが用いられ；前および後の単音に対する時間的な距離を示す２つの距離値について２つのＰＥが用いられ；現在の単音の継続時間について１つのＰＥが用いられ；５１個の音声表現のそれぞれの単語卓立を示す５１個の値について５１個のＰＥが用いられ；５１個の音声表現のそれぞれについて単語カテゴリを示す５１個の値について５１個のＰＥが用いられ；そして５１個のフレームのそれぞれの音節強勢を示す５１個の値について５１個のＰＥが用いられるように、文脈データについて用いられる１０６４個のＰＥは分割される。３つの前および３つの後の単音の中間に対する時間的な距離を示す６つの距離値と、カレント単音の開始および終了に対する時間的な距離を示す２つの距離値と、６つの継続時間値と、現在の単音の継続時間とを受けるために用いられる９００個のＰＥは、単音ごとに１つのＰＥが各値に割り当てられるように構成される。６０個の可能な単音および１５個の値、すなわち、３つの前および３つの後の単音の中間に対する時間的な距離を示す６つの距離値と、カレント単音の開始および終了に対する時間的な距離を示す２つの距離値と、６つの継続時間値と、現在の単音の継続時間とがあるので、９００個のＰＥが必要である。ニューラル・ネットワーク１０６は、シンセサイザ１０７が音声のフレームを生成するために用いられるスピーチ・パラメータの音響表現を生成する。好適な実施例において生成される音響表現は、ピッチである１４個のパラメータ；エネルギ；発声による推定エネルギ；エネルギのヒストリに基づき、有声周波数バンドと無声周波数バンドとの間の区別の位置に影響を与えるパラメータ；およびフレームの線形予測符号化（ＬＰＣ： linear predictive coding）解析から導出される最初の１０個のログ・エリア比（log area ratio）からなる。シンセサイザ１０７は、ニューラル・ネットワーク１０６によって与えられた音響表現を音声信号に変換する。このために利用できる方法には、フォーマット合成（format synthesis），マルチバンド励起合成（multi-band excitation sy nthesis）および線形予測符号化がある。好適な実施例で採用される方法はＬＰＣで、ニューラル・ネットワークから供給されるログ・エリア比から生成される自己回帰フィルタ（autoregressive filter）の励起の変形を有する。自己回帰フィルタは、２バンド励起方式を利用して励起され、低周波数はニューラル・ネットワークによって供給されるピッチで有声励起を有し、高周波数は無声励起を有する。励起のエネルギは、ニューラル・ネットワークによって供給される。有声励起が用いられる以下のカットオフ周波数は、次式によって決定される：ここで、ｆ_cutoffはヘルツ単位のカットオフ周波数で、ＶＥは発声エネルギで、Ｅはエネルギで、Ｐはピッチで、Ｋは閾値パラメータである。ＶＥ，Ｅ，Ｐ，Ｋの値は、ニューラル・ネットワーク１０６によって供給される。ＶＥは有声励起による信号中のエネルギのバイアス付き推定値であり、Ｋはエネルギ値のヒストリから導出される閾値調整である。ピッチおよび両方のエネルギ値は、ニューラル・ネットワークの出力において対数スケーリングされる。カットオフ周波数は、ピッチの３つの倍音（harmonics）のバンドについて有声および無声判定が行われるので、ある整数ｎについて（３ｎ＋（１／２））Ｐとして表すことができる最も近い周波数に調整される。さらに、カットオフ周波数がピッチ周波数の３５倍以上の場合、励起は完全に有声である。第２−１図および第２−２図は、ニューラル・ネットワークにおいて用いられるターゲット音響表現２０８がトレーニング・テキスト２００からどのように生成されるかを図式的に示す。トレーニング・テキスト２００は、発声され、録音されて、トレーニング・テキスト２０４の録音済み音声メッセージを生成する。トレーニング・テキスト２００は、音声標記に転写され、この音声標記はトレーニング・テキスト２０４の録音済み音声メッセージと時間整合され、複数の単音２０１を生成し、ここで複数の単音における各単音の継続時間は変化し、録音済み音声メッセージ２０４によって決定される。次に、録音済み音声メッセージは、各音声フレームについて、固定継続時間２１３を有する一連の音声フレーム２０５に分割される。固定継続時間は、好ましくは５ミリ秒である。同様に、複数の単音２０１は、各音声フレームについて対応する音声表現があるように、同じ固定継続時間２１３を有する一連の音声表現２０２に変換される。特に、音声フレーム２０６は、割り当てられた音声表現２１４に対応する。音声フレーム２０６について、割り当てられた音声表現２１４および音声フレーム２０６の各側上の多数の音声フレームの音声表現を含む、文脈説明（context description）２０７も生成される。文脈説明２０７は、好ましくは、構文境界，単語卓立，音節強勢および単語カテゴリを表す文脈データ２１６を含むことができる。一連の音声フレーム２０５は、音声またはスピーチ符号器で、好ましくは線形予測符号器を利用して符号化され、各音声フレームについて対応する割当ターゲット音響表現があるように、一連のターゲット音響表現２０８を生成する。特に、音声フレーム２０６は、割当ターゲット音響表現２１２と対応する。ターゲット音響表現２０８は、スピーチ符号器の出力を表し、ピッチ２０９，信号のエネルギ２１０およびログ・エリア比２１１などのフレームの特性を記述する一連の数値ベクトルからなってもよい。第３図は、通常動作の前にニューラル・ネットワーク１０６を設定するために行わなければならないニューラル・ネットワーク・トレーニング・プロセスを示す。ニューラル・ネットワークは、その入力ベクトルと、ＰＥによって利用される内部伝達関数とに基づいて、出力ベクトルを生成する。伝達関数で用いられる係数は、出力ベクトルを変更するためトレーニング・プロセス中に変更される。伝達関数および係数は、総じてニューラル・ネットワーク１０６の重み（weight s）といい、これらの重みは与えられた入力ベクトルによって生成される出力ベクトルを変更するためにトレーニング・プロセス中に変更される。重みは、最初は小さいランダムな値に設定される。文脈説明２０７は、入力ベクトルとして機能し、ニューラル・ネットワーク１０６の入力に印加される。文脈説明２０７は、ニューラル・ネットワーク重み値に従って処理され、出力ベクトル、すなわち関連音響表現３００を生成する。トレーニング・セッションの開始で、関連音響表現３００は、ニューラル・ネットワーク重みがランダムな値であるため意味がない。関連音響表現３００と割当ターゲット音響表現２１１との間の距離に比例して、誤差信号ベクトルが生成される。次に、重み値は、この誤差信号を低減する方向に調整される。このプロセスは、文脈説明２０７および割当ターゲット音響表現２１１の関連対について複数回繰り返される。重みを調整して、関連音響表現３００を割当ターゲット音響表現２１１に近づけるこのプロセスがニューラル・ネットワーク１０６のトレーニングである。このトレーニングは、標準的なバック・プロパゲーション方法（back propagation of errors method）を利用する。ニューラル・ネットワーク１０６がトレーニングされると、重み値は文脈説明２０７を、割当ターゲット音響表現２１１と値が類似した出力ベクトルに変換するために必要な情報を有する。第１図を参照して説明した好適なニューラル・ネットワーク構成では、完全にトレーニングされたとみなされるまでには、入力および以降の重み調整に対して最大１０００万個の文脈説明２０７の提示を必要とする。第４図は、トレーニングされたニューラル・ネットワーク１０６を利用して、通常の動作中にテキスト・ストリーム４００を音声に変換する方法を示す。テキスト・ストリーム４００は、固定継続時間２１３を有する一連の音声フレーム（ phonetic frame）４０１に変換され、各フレームの表現は、音声表現２０３と同じ種類である。各割当音声フレーム４０２について、文脈説明２０７と同じ種類の文脈説明４０３が生成される。これは、ニューラル・ネットワーク１０６に入力として与えられ、ニューラル・ネットワーク１０６は割当音声フレーム４０２について生成された音響表現４０５を生成する。一連の音声フレーム４０１における各割当音声フレーム４０２について変換を実行することにより、複数の音響表現４０４が生成される。これら複数の音響表現４０４は、シンセサイザ１０７に対して入力として与えられ、音声１０８を生成する。第５図は、音声表現２０３の好適な実施を示す。フレームの音声表現２０３は、単音ＩＤ５０１および調音特性５０２に分割されるバイナリ・ワード５００からなる。単音ＩＤ５０１は、単純に、フレーム中に名詞的に発音される単音のＮ分の１符号表現である。単音ＩＤ５０１はＮビットからなり、各ビットは、与えられたフレームで発声される単音を表す。これらのビットの１つが設定され、単音が発声されることを示し、残りはクリアされる。第５図において、発声される単音は、Ｂのリリースであり、そのためビットＢ５０６は設定され、ビットＡＡ５０３，ＡＥ５０４，ＡＨ５０５，Ｄ５０７，ＪＪ５０８および単音ＩＤ５０１中の他のすべてのビットはクリアされる。調音特性５０２は、発声される単音が発音される方法を記述するビットである。例えば、上記のＢは有声唇音リリースであり、そのため母音５０９，半母音５１０，鼻音５１１，アーチファクト５１４のビット，ならびにＢリリースが有さない特性を表す他のビットはクリアされ、唇音５１２，有声５１３などＢリリースが有する特性は設定される。６０個の可能な単音および３６個の調音特性がある好適な実施では、バイナリ・ワード５００は９６ビットである。本発明は、テキストをスピーチなどの可聴信号に変換する方法を提供する。かかる方法では、スピーチ合成システムは、ルールによる合成システムによって必要とされる面倒なルール生成や、連結システムによって必要とされる境界整合および平滑化を行わずに、話者の音声を自動的に生成するようにトレーニングできる。本方法では、用いられる文脈説明により音声表現境界において大きな変化が生じないので、ニューラル・ネットワークをこの問題に適用する従来の試みに対する改善を提供する。

Claims

【特許請求の範囲】１．テキストを可聴信号に変換する方法であって：セットアップ中において：１ａ）録音済み音声メッセージを提供する段階；１ｂ）前記録音済み音声メッセージを、各音声フレームが固定継続時間を有する一連の音声フレームに分割する段階；１ｃ）前記一連の音声フレームの各音声フレームについて、複数の音声表現のうち１つの音声表現を割り当てる段階；１ｄ）前記各音声フレームの音声表現と、前記一連の音声フレームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、前記各音声フレームについて複数の文脈説明のうち１つの文脈説明を生成する段階；１ｅ）前記各音声フレームについて、複数の音響表現のうち１つのターゲット音響表現を割り当てる段階；１ｆ）前記複数の音響表現のうちの１つの音響表現を、前記各音声フレームの文脈説明と関連づけるためニューラル・ネットワークをトレーニングする段階；通常動作中において：１ｇ）テキスト・ストリームを受信する段階；１ｈ）前記テキスト・ストリームを一連の音声フレームに変換する段階であって、前記一連の音声フレームの１つの音声フレームは、前記複数の音声表現のうち１つを含み、前記音声フレームは前記固定継続時間を有する段階；１ｉ）前記複数の音声表現のうちの１つと、前記一連の音声フレームの少なくともいくつかの他の音声フレームの音声表現ととに基づいて、前記複数の文脈説明のうち１つを前記音声フレームに割り当てる段階；１ｊ）前記複数の文脈説明の１つに基づいて、前記ニューラル・ネットワークによって、前記音声フレームを前記複数の音声表現の１つに変換する段階；および１ｋ）前記複数の音声表現の１つを可聴信号に変換する段階；によって構成されることを特徴とする方法。２．２ａ）段階（１ｃ）が、単音を含むため前記音声表現を定義することをさらに含み、選択された場合に、段階（１ｃ）は前記単音をバイナリ・ワードとして表すことをさらに含んで構成され、前記バイナリ・ワードの１ビットが設定され，前記バイナリ・ワードの任意の残りのビットが設定されない段階；２ｂ）段階（１ｃ）が、調音特性を含むため前記音声表現を定義することをさらに含んで構成される段階；２ｃ）段階（１ｅ）が、前記複数の音響表現をスピーチ・パラメータとして定義することをさらに含んで構成される段階；２ｄ）段階（ｆ）が、前記ニューラル・ネットワークをフィードフォーワード・ニューラル・ネットワークとして定義することをさらに含んで構成される段階；２ｅ）段階（１ｆ）が、誤差のバック・プロパゲーションを利用してニューラル・ネットワークをトレーニングすることをさらに含んで構成される段階；２ｆ）段階（１ｆ）が、回帰入力構造を有するニューラル・ネットワークを定義することをさらに含んで構成される段階；２ｇ）段階（１ｆ）が、前記音声フレームの音声表現と、前記一連の音声フレームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、構文境界情報を生成することをさらに含んで構成される段階；２ｈ）段階（１ｄ）が、前記音声フレームの音声表現と、前記一連の音声フレームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、音声境界情報を生成することをさらに含んで構成される段階；２ｉ）段階（１ｄ）が、前記音声フレームの音声表現と、前記一連の音声フレームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、構文情報の卓立の記述を生成することをさらに含んで構成され；および２ｊ）段階（１ｇ）が、前記テキスト・ストリームを言語の音声形式として定義することをさらに含んで構成される段階；のうち少なくとも１つであることを特徴とする請求項１記載の方法。３．テキストを可聴信号に変換するために用いられるニューラル・ネットワークを作成する方法であって：３ａ）録音済み音声メッセージを提供する段階；３ｂ）前記録音済み音声メッセージを、各音声フレームが固定継続時間を有する一連の音声フレームに分割する段階；３ｃ）前記一連の音声フレームの各音声フレームについて、複数の音声表現のうち１つの音声表現を割り当てる段階；３ｄ）前記各音声フレームの音声表現と、前記一連の音声フレームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、前記各音声フレームについて複数の文脈説明のうち１つの文脈説明を生成する段階；３ｅ）前記各音声フレームについて、複数の音響表現のうち１つのターゲット音響表現を割り当てる段階；３ｆ）前記複数の音響表現のうちの１つの音響表現を、前記各音声フレームの文脈説明と関連づけるためニューラル・ネットワークをトレーニングする段階であって、前記音響表現は前記ターゲット音響表現と実質的に一致する段階；によって構成されることを特徴とする方法。４．４ａ）段階（３ｃ）が、単音を含むため前記音声表現を定義することをさらに含み、選択された場合に、段階（３ｃ）は前記単音をバイナリ・ワードとして表すことをさらに含んで構成され、前記バイナリ・ワードの１ビットが設定され，前記バイナリ・ワードの任意の残りのビットが設定されない段階；４ｂ）段階（３ｅ）が、調音特性を含むため前記音声表現を定義することをさらに含んで構成される段階；４ｃ）段階（３ｆ）が、前記複数の音響表現をスピーチ・パラメータとして定義することをさらに含んで構成される段階；４ｄ）段階（３ｆ）が、前記ニューラル・ネットワークをフィードフォーワード・ニューラル・ネットワークとして定義することをさらに含んで構成される段階；４ｅ）段階（３ｆ）が、誤差のバック・プロパゲーションを利用してニューラル・ネットワークをトレーニングすることをさらに含んで構成される段階；４ｆ）段階（３ｆ）が、回帰入力構造を有するニューラル・ネットワークを定義することをさらに含んで構成される段階；４ｇ）段階（３ｄ）が、前記音声フレームの音声表現と、前記一連の音声フレームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、構文境界情報を生成することをさらに含んで構成される段階；４ｈ）段階（３ｄ）が、前記音声フレームの音声表現と、前記一連の音声フレームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、音声境界情報を生成することをさらに含んで構成される段階；および４ｉ）段階（３ｄ）が、前記音声フレームの音声表現と、前記一連の音声フレームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、構文情報の卓立の記述を生成することをさらに含んで構成される段階；のうち少なくとも１つであることを特徴とする請求項３記載の方法。５．テキストを可聴信号に変換する方法であって：５ａ）テキスト・ストリームを受信する段階；５ｂ）前記テキスト・ストリームを一連の音声フレームに変換する段階であって、前記一連の音声フレームのうち１つの音声フレームは、複数の音声表現のうち１つを含み、前記音声フレームは固定継続時間を有する段階；５ｃ）前記複数の音声表現のうち１つと、前記一連の音声フレームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、複数の文脈説明のうち１つを前記音声フレームに割り当てる段階；５ｄ）前記複数の文脈説明のうち１つに基づいて、ニューラル・ネットワークにより、前記音声フレームを複数の音響表現のうちの１つに変換する段階；５ｅ）前記複数の音響表現のうち１つを可聴信号に変換する段階；によって構成されることを特徴とする方法。６．６ａ）段階（５ｂ）が、単音を含むため前記音声表現を定義することをさらに含み、選択された場合に、段階（５ｂ）は前記単音をバイナリ・ワードとして表すことをさらに含んで構成され、前記バイナリ・ワードの１ビットが設定され，前記バイナリ・ワードの任意の残りのビットが設定されない段階；６ｂ）段階（５ｂ）が、調音特性を含むため前記音声表現を定義することをさらに含んで構成される段階；６ｃ）段階（５ｄ）が、前記複数の音響表現をスピーチ・パラメータとして定義することをさらに含んで構成される段階；６ｄ）段階（５ｄ）が、前記ニューラル・ネットワークをフィードフォーワード・ニューラル・ネットワークとして定義することをさらに含んで構成される段階；６ｅ）段階（５ｄ）が、回帰入力構造を有する前記ニューラル・ネットワークを定義することをさらに含んで構成される段階；６ｆ）段階（５ｃ）が、前記音声フレームの音声表現と、前記一連の音声フレームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、構文境界情報を生成することをさらに含んで構成される段階；６ｇ）段階（５ｃ）が、前記音声フレームの音声表現と、前記一連の音声フレームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、音声境界情報を生成することをさらに含んで構成される段階；６ｈ）段階（５ｃ）が、前記音声フレームの音声表現と、前記一連の音声フレームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、構文情報の卓立の記述を生成することをさらに含んで構成される段階；および６ｉ）段階（５ａ）が、前記テキスト・ストリームを言語の音声形式として定義することをさらに含んで構成される段階；のうち少なくとも１つであることを特徴とする請求項５記載の方法。７．テキストを可聴信号に変換する装置であって：テキスト／単音プロセッサであって、テキスト・ストリームを一連の音声表現に変換するテキスト／単音プロセッサ；前記テキスト／単音プロセッサに動作可能に結合された継続時間プロセッサであって、前記テキスト・ストリームについて継続時間データを生成する前期継続時間プロセッサ；プリプロセッサであって、前記一連の音声表現および前記継続時間データを一連の音声フレームに変換し、前記一連の音声フレームの各音声フレームは固定継続時間であり、かつ文脈説明を有し、前記文脈説明は、前記一連の音声フレームの前期各音声フレームと、前記一連の音声フレームのうち少なくともいくつかの他の音声フレームとに基づく、プリプロセッサ；ニューラル・ネットワークであって、前記文脈説明に基づいて、前記一連の音声フレームの１つの音声フレームについて音響表現を生成するニューラル・ネットワーク；によって構成されることを特徴とする装置。８．前記ニューラル・ネットワークに動作可能に接続され、前記音響表現に応答して可聴信号を生成するシンセサイザ；をさらに含んで構成されることを特徴とする請求項７記載の装置。９．複数のテキスト・ストリームからなる方向データベース；前記方向データベースに動作可能に結合されたテキスト／単音プロセッサであって、前記複数のテキスト・ストリームのうち１つのテキスト・ストリームを一連の音声表現に変換するテキスト／単音プロセッサ；前記テキスト／単音プロセッサに動作可能に結合された継続時間プロセッサであって、前記テキスト・ストリームについて継続時間データを生成する継続時間プロセッサ；プリプロセッサであって、前記一連の音声表現および前記継続時間データを一連の音声フレームに変換し、前記一連の音声フレームの各音声フレームは固定継続時間であり、かつ文脈説明を有し、前記文脈説明は、前記一連の音声フレームの前期各音声フレームと、前記一連の音声フレームのうち少なくともいくつかの他の音声フレームとに基づく、プリプロセッサ；ニューラル・ネットワークであって、前記文脈説明に基づいて、前記一連の音声フレームの１つの音声フレームについて音響表現を生成するニューラル・ネットワーク；によって構成されることを特徴とする車両ナビゲーション・システム。１０．前記ニューラル・ネットワークに動作可能に接続され、前記音響表現に応答して可聴信号を生成するシンセサイザ；をさらに含んで構成されることを特徴とする請求項９記載の車両ナビゲーション・システム。