JPH08512150A - ニューラル・ネットワークを利用してテキストを可聴信号に変換する方法および装置 - Google Patents

ニューラル・ネットワークを利用してテキストを可聴信号に変換する方法および装置

Info

Publication number
JPH08512150A
JPH08512150A JP7528216A JP52821695A JPH08512150A JP H08512150 A JPH08512150 A JP H08512150A JP 7528216 A JP7528216 A JP 7528216A JP 52821695 A JP52821695 A JP 52821695A JP H08512150 A JPH08512150 A JP H08512150A
Authority
JP
Japan
Prior art keywords
audio
representation
frames
audio frames
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7528216A
Other languages
English (en)
Inventor
カラーリ,オーハン
コーリギャン,ジェラルド・エドワード
ジャーサン,イラ・アラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JPH08512150A publication Critical patent/JPH08512150A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

(57)【要約】 まず、録音済み音声メッセージ204を利用してニューラル・ネットワーク106をトレーニングすることにより、テキストはスピーチなどの可聴信号に変換できる。このトレーニングを開始するため、録音済み音声メッセージは、固定継続時間213を有する一連の音声フレーム205に変換される。次に、各音声フレームには、音声表現203およびターゲット音響表現208が割り当てられ、音声表現203は、音声フレームの単音および調音特性を表すバイナリ・ワードであり、一方ターゲット・音響表現208は、ピッチおよびエネルギなどの音声情報のベクトルである。トレーニングの後、ニューラル・ネットワーク106は、テキストからスピーチへの変換で用いられる。まず、変換するテキストは、音声表現208と同じ形式で、かつ固定継続時間213を有する一連の音声フレーム401に変換される。次に、ニューラル・ネットワークは、音声フレーム401のいくつかを含む文脈説明に応答して、音響表現を生成する。この音響表現は、シンセサイザ107によってスピーチ波形に変換される。

Description

【発明の詳細な説明】 ニューラル・ネットワークを利用してテキストを 可聴信号に変換する方法および装置 発明の分野 本発明は、一般に、テキストを可聴信号に変換する分野に関し、さらに詳しく は、ニューラル・ネットワークを利用してテキストを可聴信号に変換することに 関する。 発明の背景 テキスト/音声変換(text-to-speech conversion)では、テキストのストリ ームをスピーチ波形に変換する。この変換プロセスは、一般に、テキストの音声 表現(phonetic representation)を複数のスピーチ・パラメータに変換するこ とを含む。このスピーチ・パラメータは、スピーチ・シンセサイザによって音声 波形に変換される。音声表現をスピーチ・パラメータに変換するため、連鎖シス テム(concatenative system)が用いられる。連鎖システムは、diphonesまたは demisyllabesである音声の解析によって生成されるパターンを格納し、格納され たパターンを連結して、その継続時間(duration)を調整し、遷移 を平滑化して、音声表現に応答して音声パラメータを生成する。連結システムの 1つの問題点は、非常に多くのパターンを格納しなければならないことである。 一般に、1000以上のパターンを連結システムに格納しなければならない。さ らに、格納パターン間の遷移は、平滑でない。また、音声表現をスピーチ・パラ メータに変換するため、ルールによる合成(synthesis-by-rule)システムも用 いられる。ルールによる合成システムは、各可能な音声表現についてターゲット ・スピーチ・パラメータを格納する。ターゲット・スピーチ・パラメータは、ル ール・セットにより音声表現間の遷移に基づいて修正される。ルールによる合成 システムの問題点は、遷移ルールはわずかな遷移スタイルしか生成しない順向に あるので、音声表現間の遷移は自然でないことである。さらに、大きなルール・ セットを格納しなければならない。 音声表現をスピーチ・パラメータに変換するためニューラル・ネットワークも 用いられる。ニューラル・ネットワークは、スピーチ・パラメータを録音済みメ ッセージのテキストの音声表現と関連づけるようにトレーニングされる。このト レーニングの結果によって、音声表現からスピーチ波形を生成するために必要な 伝達関数を表す重み付きニューラル・ネットワークが得られる。ニューラル・ネ ットワークは、知識ベースがメモリではなく重みに格納されるので、連結システ ムやルールによる合成システムの大きな格 納条件を克服する。 音素(phoneme)からなる音声表現をスピーチ・パラメータに変換するために 用いられる1つのニューラル・ネットワークは、音素のグループまたはウィンド ウをその入力として利用する。ウィンドウ内の音素の数は固定され、あらかじめ 決定される。ニューラル・ネットワークは、ウィンドウの中間音素についてスピ ーチ・パラメータのいくつかのフレームを生成し、中間音素を取り囲むウィンド ウにおける他の音素は、ニューラル・ネットワークがスピーチ・パラメータを判 定する上で利用する文脈(context)を与える。この構成の問題点は、生成され るスピーチ・パラメータは、音声表現間でなめらかな遷移を生成せず、そのため 生成されたスピーチは自然でなく、意味不明になることがあることである。 従って、格納条件を低減し、自然で理解しやすいスピーチを生成するように音 声表現間で円滑な遷移を提供するテキスト/スピーチ変換システムが必要とされ る。 図面の簡単な説明 第1図は、本発明によるテキスト/音声変換を利用する車両ナビゲーション・ システムを示す。 第2−1図および第2−2図は、本発明によりテキストから音声に変換する上 で用いられるニューラル・ネットワ ーク用のトレーニング・データを生成する方法を示す。 第3図は、本発明によりニューラル・ネットワークをトレーニングする方法を 示す。 第4図は、本発明によりテキストから音声を生成する方法を示す。 第5図は、本発明により音声フレームの音声表現として用いることができるバ イナリ・ワードを示す。 好適な実施例の説明 本発明は、テキストをスピーチなどの可聴信号に変換する方法を提供する。こ れは、まず録音済み発声メッセージをこれらのメッセージのスピーチと関連づけ るためニューラル・ネットワークをトレーニングすることによって達成される。 トレーニングを開始するため、録音済み発声メッセージは固定継続時間(fixed duration)を有する一連の音声フレームに変換される。次に、各音声フレームに は音声表現(phonetic representation)およびターゲット音響表現(target ac oustic representation)が割り当てられ、ここで音声表現とは音声フレームの 単音(phone)および調音(articulation)特性を表すバイナリ・ワードであり 、ターゲット音響表現とはピッチやエネルギなどの音声情報のベクトルである。 この情報により、ニューラル・ネットワークはテキスト・ストリームから音響表 現を生成するよ うにトレーニングされ、テキストをスピーチに変換できる。 本発明について、第1図ないし第5図を参照してさらに詳しく説明する。第1 図は、方向データベース(directional database)102,テキスト/単音プロ セッサ(text-to-phone processor)103,継続時間プロセッサ(duration pr ocessor)104、プリプロセッサ(pre-processor)105,ニューラル・ネッ トワーク106およびシンセサイザ107を含む車両ナビゲーション・システム 100を示す。方向データベース102は、街路名,高速道路,陸標および車両 の運転者を案内するために必要な他のデータのセットを収容する。方向データベ ース102または他のソースは、テキスト・ストリーム101をテキスト/単音 プロセッサ103に供給する。テキスト/単音プロセッサ103は、特性はプリ プロセッサ105に供給されるテキスト・ストリーム101の音声および調音特 性を生成する。プリプロセッサ105は、継続時間プロセッサ104からテキス ト・ストリーム101の継続時間データも受信する。この継続時間データおよび 音声・調音特性に応答して、プリプロセッサ105は、一連の固定継続時間の音 声フレームを生成する。ニューラル・ネットワーク106は、各音声フレームを 受信し、その内部重みに基づいて音声フレームの音響表現を生成する。シンセサ イザ107は、ニューラル・ネットワーク106によって生成された音響表現に 応答して音声108を生成する。車 両ナビゲーション・システム100は、汎用またはデジタル信号プロセッサを利 用してソフトウェア内で実施できる。 方向データベース102は、発声されるテキストを生成する。車両ナビゲーシ ョン・システムの観点では、これはシステムがユーザをその目的地まで案内する ために提供する方向および情報でもよい。この入力テキストは任意の言語でもよ く、言語の書面による表現である必要はない。入力テキストは、言語の音声表現 でもよい。 一般に、テキスト/単音プロセッサ103は、構文境界(syntactic boundary )の説明および構文要素(syntactic component)の卓立(prominence)ととも に、テキストを一連の音声表現に変換する。音声表現への変換および卓立(prom inence)の判定は、レター/サウンド・ルール(letter-to-sound rules)や、 テキストの語形解析(morphological analysis)を含め、さまざまな手段によっ て達成できる。同様に、構文境界を判定する方法には、テキストの解剖(parsin g of text)、および句読点や前置詞,名詞,代名詞,冠詞、接続詞などの一般 的な機能語の位置に基づく境界の単純な挿入がある。好適な実施では、方向デー タベース102は、一連の単音,各単語の単語カテゴリ,構文境界および構文要 素の卓立ならびに強勢(stress)を含む、テキストの音声および構文表現を提供 する。用いられる一連の単音は、Garafolo,John S.,"The Structure And Form at Of The DARPA TIMIT CD-ROM Prototype",National Institute Of Standards And Technology,1988 からのものである。一般に、単語カテゴリは、テキスト・ストリームにおける単 語の役割を表す。構造的な単語、すなわち、冠詞,前置詞および代名詞は、機能 語として分類される。意味と構造の関係を追加する単語は、内容(content)と して分類される。第3の単語カテゴリは、単語の一部ではない音、すなわち、沈 黙や声門閉鎖音(glottal stop)について存在する。テキスト・ストリームにお いて識別される構文境界は、文境界(sentence boundary),節境界(clause bo undary),句境界(phrase boundary)および単語境界である。単語の卓立は、 最小卓立から最大卓立を表す1から13までの値としてスケーリングされ、音節 強勢(syllabic stress)は、一次(primary),二次(secondary),未強勢(u nstressed)または強調(emphasized)として分類される。好適な実施では、方 向データベースはテキストの音声および構文表現を格納するので、テキスト/単 音プロセッサ103は、この情報を継続時間プロセッサ104およびプリプロセ ッサ105の両方に単純に渡す。 継続時間プロセッサ104は、テキスト/単音プロセッサ103から出力され る各単音に継続時間を割り当てる。継続時間は、単音が発せられる時間である。 継続時間(duration)は、ニューラル・ネットワークおよびルール・ ベース・コンポーネントを含むさまざまな手段によって生成できる。好適な実施 では、ある単音の継続時間(D)は、次のようにルール・ベース・コンポーネン トによって生成される: 継続時間は、式(1)によって求められる: D=dmin+t+(λ(dinherent−dmin)) 式(1) ここで、dminは最小継続時間であり、dinherentは固有継続時間で、これらはと もに以下の表1から選択される。 λの値は、以下のルールによって求められる。 単音が核(nucleus)、すなわち音節における母音または音節子音であるか、 あるいは節の最後の音節における核に続き、かつ単音が反転音(retroflex), 側音(lateral)または鼻音(nasal)である場合、 λ1=λinitial x m1 かつm1=1.4となり、そうでない場合、 λ1=λinitialとなる。 単音が核であるか、あるいは節の最後の音節における核に続き、かつ反転音,側 音または鼻音でない場合、 λ2=λ12 かつm2=1.4となり、そうでない場合、 λ2=λ1となる。 単音が句を終了しない音節の核である場合、 λ3=λ22 かつm3=0.6となり、そうでない場合、 λ3=λ21となる。 単音が句を終了する音節の核であり、かつ母音でない場合、 λ4=λ34 かつm4=1.2となり、そうでない場合、 λ4=λ3となる。 単音が句を終了する音節における母音に続く場合、 λ5=λ45 かつm5=1.4となり、そうでない場合、 λ5=λ4となる。 単音が単語を終了しない音節の核である場合、 λ6=λ56 かつm6=0.85となり、そうでない場合、 λ6=λ5となる。 単音が2つ以上の音節の単語にあり、かつこの単語を終了しない音節の核である 場合、 λ7=λ67 かつm7=0.8となり、そうでない場合、 λ7=λ6となる。 単音が単語における第1音節の核の前にない子音である場合、 λ8=λ78 かつm8=0.75となり、そうでない場合、 λ8=λ7となる。 単音が非強勢音節であり、かつ音節の核でないか、あるいは音節の核に続く場合 、 λ9=λ89 かつm9=0.7となり、単音が半母音とそれに続く母音でない場合、 λ9=λ810となる。 かつm10=0.25となり、そうでない場合、 λ9=λ8となる。 単音が強勢されない語音節中の音節の核であるか、あるいは二次強勢を有する場 合、 λ10=λ911 かつm11=0.75となり、そうでない場合、 λ109となる。 単音が強勢されない非語音節中の音節の核であるか、ある いは二次強勢を有する場合、 λ11=λ1012 かつm12=0.7となり、そうでない場合、 λ11=λ10となる。 単音が単語を終了する母音であり、かつ句の最後の音節にある場合、 λ12=λ1113 かつm13=1.2となり、そうでない場合、 λ12=λ11となる。 単音が単語を終了する母音であり、かつ句の最後の音節にない場合、 λ13=λ12(1−(m14(1−m13))) かつm14=0.3となり、そうでない場合、 λ13=λ12となる。 単音が母音とそれに続く同じ単語中の摩擦音(fricative)であり、かつ単音が 句の最後の音節にある場合、 λ14=λ1315 かつm15=1.2となり、そうでない場合、 λ14=λ13となる。 単音が母音とそれに続く同じ単語中の摩擦音であり、かつ単音が句の最後の音節 にない場合、 λ15=λ14(1−(m14(1−m15))) となり、そうでない場合、 λ15=λ14となる。 単音が母音とそれに続く同じ単語中の終止(closure)であり、かつ単音が句に おける最後の音節にある場合、 λ16=λ1516 かつm16=1.6となり、そうでない場合、 λ16=λ15となる。 単音が母音とそれに続く同じ単語中の終止であり、かつ単音が句における最後の 音節にない場合、 λ17=λ16(1−(m14(1−m16))) となり、そうでない場合、 λ17=λ16となる。 単音が母音とそれに続く鼻音であり、かつ単音が句における最後の音節にある場 合、 λ17=λ1617 かつm17=1.2となり、そうでない場合、 λ17=λ16となる。 単音が母音とそれに続く鼻音であり、かつ単音が句におけ る最後の音節にない場合、 λ18=λ17(1−m14(1−m17)) となり、そうでない場合、 λ18=λ17となる。 単音が母音とそれに続いて母音がある場合、 λ19=λ1818 かつm18=1.4となり、そうでない場合、 λ19=λ18となる。 単音が母音とその前に母音がある場合、 λ20=λ1919 かつm19=0.7となり、そうでない場合、 λ20=λ19となる。 単音が「n」で、同じ単語中の母音がその前にあり、かつそれに続いて同じ単語 中に非強勢母音がある場合、 λ21=λ2020 かつm20=0.1となり、そうでない場合、 λ21=λ20となる。 単音が子音で、同じ句中の子音がその前にあり、かつそれに続いて同じ句中に子 音がある場合、 λ22=λ2121 かつm21=0.8となり、子音が調音の同じ場所を有さない場合、 λ22=λ212122 かつm22=0.7となり、そうでない場合、 λ22=λ21となる。 単音が子音で、同じ句中の子音がその前になく、かつそれ に続いて同じ句中の子音がある場合、 λ23=λ2223 かつm23=0.7となり、子音が調音の同じ場所を有さない場合、 λ23=λ222223 となり、そうでない場合、 λ23=λ22となる。 単音が子音で、同じ句中の子音がその前にあり、かつそれに続いて同じ句中の子 音がある場合、 λ=λ2324 かつm24=0.5となり、子音が調音の同じ場所を有さない場合、 λ=λ232224 となり、そうでない場合、 λ=λ23 である。 値tは次のようにして求められる: 単音が強勢母音で、その前に無声音リリース(unvoiced release)または破擦 音(affricate)がある場合、t=25ミリ秒で、それ以外の場合はt=0である 。 さらに、単音が非強勢音節にあり、または単音がこの単音がある音節の核の後に 来る場合、最小継続時間dminは、式(1)で用いられる前に半減される。 dmin,dinherent,tおよびm1〜m24の好適な値は、式(1)を用いて算出され た継続時間と、録音済みスピーチのデータベースからの実継続時間との平均二乗 差を最小限に抑えるため、標準的な数値方法を利用して求められた。λinitial の値は、dmin,dinherent,t1およびm1〜m24の判定中に1となるように選択さ れた。ただし、テキスト/スピーチの実際の変換中には、よりゆっくりとしてわ かりやすいスピーチの好適な値は、λinitial=1.4である。 プリプロセッサ105は、継続時間プロセッサ104およびテキスト/単音プ ロセッサ103の出力をニューラル・ネットワーク106の適切な入力に変換す る。プリプロセッ ッサ105は、時間を一連の固定継続時間フレームに分割し、フレーム中に名詞 的に発音される単音を各フレームに割り当てる。これは、継続時間プロセッサ1 04によって供給される各単音およびその継続時間の表現からの簡単な変換であ る。フレームに割り当てられる期間は、単音に割り当てられる期間に入る。この 単音は、フレーム中に名詞的に発音されるものである。これら各フレームについ て、音声表現は、名詞的に発音される単音に基づいて生成される。音声表現は、 単音と、この単音に伴う調音特性を識別する。以下の表2−aないし表2−fは 、好適な実施における60個の単音と、36個の調音特性とを示す。各フレーム の文脈説明も生成され、フレームの音声表現,このフレーム付近の他のフレーム の音声表現,および構文境界,単語卓立,音節強勢ならびに単語カテゴリを含む 追加文脈データからなる。従来技術とは対照的に、文脈説明は、離散的な単音の 数によって決定されず、実質的には時間の尺度であるフレームの数によって決定 される。好適な実施では、対象フレームを中心とした51個のフレームの音声表 現が文脈説明に含まれる。さらに、テキスト/単音プロセッサ103および継続 時間プロセッサ104の出力から導出される文脈データは、3つ前の単音および 3つ後の単音の中間に対する時間的な距離を示す6つの距離値と、カレント単音 の開始および終了に対する時間的な距離を示す2つの距離値と、前後の単語,句 ,節および文に対する時間的な距 的な距離を示す8つの境界値と、前後の単音に対する時間的な距離を示す2つの 距離値と、3つの前の単音および3つの後の単音の継続時間を示す6つの継続時 間値と、現在の単音の継続時間と、51個の音声表現のそれぞれの単語卓立を示 す51個の値と、51個の音声表現のそれぞれの単語カテゴリを示す51個の値 と、51個のフレームのそれぞれの音節強勢を示す51個の値とを含む。 ニューラル・ネットワーク106は、プリプロセッサ105によって供給され た文脈説明を受け、その内部重みに基づいて、シンセサイザ107が音声のフレ ームを生成するために必要な音響表現を生成する。好適な実施で用いられるニュ ーラル・ネットワーク106は、4層の回帰フィードフォーワード・ネットワー ク(four layer recurrent feed-forward network)である。このニューラル・ ネットワークは、入力層に6100個の処理要素(PE:processing element) と、第1隠れ層(hidden layer)に50個のPEと、第2隠れ層に50個のPE と、出力層に14個のPEとを有する。2つの隠れ層は、シグマ伝達関数(sigm oid transfer function)を利用し、入力および出力層は線形伝達関数を利用す る。入力層は、51個の音声表現について4896個のPE(ここで各音声表現 は96個のPEを利用)と、回帰入力について140個のPE、すなわち、出力 層における14個のPEの10個の過去の出力状態と、文脈データについて10 64個のPEとに分割される。3つの前の単音および3つの後の単音の中間に対 して時間的な距離を示す6つの距離値と、カレント単音の開始および終了に対す る時間的な距離を示す2つの距離値と、3つの前の単音および3つの後の単音の 継続時間を示す6対の継続時間値と、現在の単音の継続時間とを受けるために、 900個のPEが用いられ;前および後の単語,句,節および文に対する時間的 な距離を示す8つの 境界値を受けるために、8個のPEが用いられ;前および後の単音に対する時間 的な距離を示す2つの距離値について2つのPEが用いられ;現在の単音の継続 時間について1つのPEが用いられ;51個の音声表現のそれぞれの単語卓立を 示す51個の値について51個のPEが用いられ;51個の音声表現のそれぞれ について単語カテゴリを示す51個の値について51個のPEが用いられ;そし て51個のフレームのそれぞれの音節強勢を示す51個の値について51個のP Eが用いられるように、文脈データについて用いられる1064個のPEは分割 される。3つの前および3つの後の単音の中間に対する時間的な距離を示す6つ の距離値と、カレント単音の開始および終了に対する時間的な距離を示す2つの 距離値と、6つの継続時間値と、現在の単音の継続時間とを受けるために用いら れる900個のPEは、単音ごとに1つのPEが各値に割り当てられるように構 成される。60個の可能な単音および15個の値、すなわち、3つの前および3 つの後の単音の中間に対する時間的な距離を示す6つの距離値と、カレント単音 の開始および終了に対する時間的な距離を示す2つの距離値と、6つの継続時間 値と、現在の単音の継続時間とがあるので、900個のPEが必要である。ニュ ーラル・ネットワーク106は、シンセサイザ107が音声のフレームを生成す るために用いられるスピーチ・パラメータの音響表現を生成する。好適な実施例 において生成される音響表現 は、ピッチである14個のパラメータ;エネルギ;発声による推定エネルギ;エ ネルギのヒストリに基づき、有声周波数バンドと無声周波数バンドとの間の区別 の位置に影響を与えるパラメータ;およびフレームの線形予測符号化(LPC: linear predictive coding)解析から導出される最初の10個のログ・エリア比 (log area ratio)からなる。 シンセサイザ107は、ニューラル・ネットワーク106によって与えられた 音響表現を音声信号に変換する。このために利用できる方法には、フォーマット 合成(format synthesis),マルチバンド励起合成(multi-band excitation sy nthesis)および線形予測符号化がある。好適な実施例で採用される方法はLP Cで、ニューラル・ネットワークから供給されるログ・エリア比から生成される 自己回帰フィルタ(autoregressive filter)の励起の変形を有する。自己回帰 フィルタは、2バンド励起方式を利用して励起され、低周波数はニューラル・ネ ットワークによって供給されるピッチで有声励起を有し、高周波数は無声励起を 有する。励起のエネルギは、ニューラル・ネットワークによって供給される。有 声励起が用いられる以下のカットオフ周波数は、次式によって決定される: ここで、fcutoffはヘルツ単位のカットオフ周波数で、VEは発声エネルギで、 Eはエネルギで、Pはピッチで、Kは閾値パラメータである。VE,E,P,K の値は、ニューラル・ネットワーク106によって供給される。VEは有声励起 による信号中のエネルギのバイアス付き推定値であり、Kはエネルギ値のヒスト リから導出される閾値調整である。ピッチおよび両方のエネルギ値は、ニューラ ル・ネットワークの出力において対数スケーリングされる。カットオフ周波数は 、ピッチの3つの倍音(harmonics)のバンドについて有声および無声判定が行 われるので、ある整数nについて(3n+(1/2))Pとして表すことができ る最も近い周波数に調整される。さらに、カットオフ周波数がピッチ周波数の3 5倍以上の場合、励起は完全に有声である。 第2−1図および第2−2図は、ニューラル・ネットワークにおいて用いられ るターゲット音響表現208がトレーニング・テキスト200からどのように生 成されるかを図式的に示す。トレーニング・テキスト200は、発声され、録音 されて、トレーニング・テキスト204の録音済み音声メッセージを生成する。 トレーニング・テキスト200は、音声標記に転写され、この音声標記はトレー ニング・テキスト204の録音済み音声メッセージと時間整合され、複数の単音 201を生成し、ここで複数の単音にお ける各単音の継続時間は変化し、録音済み音声メッセージ204によって決定さ れる。次に、録音済み音声メッセージは、各音声フレームについて、固定継続時 間213を有する一連の音声フレーム205に分割される。固定継続時間は、好 ましくは5ミリ秒である。同様に、複数の単音201は、各音声フレームについ て対応する音声表現があるように、同じ固定継続時間213を有する一連の音声 表現202に変換される。特に、音声フレーム206は、割り当てられた音声表 現214に対応する。音声フレーム206について、割り当てられた音声表現2 14および音声フレーム206の各側上の多数の音声フレームの音声表現を含む 、文脈説明(context description)207も生成される。文脈説明207は、 好ましくは、構文境界,単語卓立,音節強勢および単語カテゴリを表す文脈デー タ216を含むことができる。一連の音声フレーム205は、音声またはスピー チ符号器で、好ましくは線形予測符号器を利用して符号化され、各音声フレーム について対応する割当ターゲット音響表現があるように、一連のターゲット音響 表現208を生成する。特に、音声フレーム206は、割当ターゲット音響表現 212と対応する。ターゲット音響表現208は、スピーチ符号器の出力を表し 、ピッチ209,信号のエネルギ210およびログ・エリア比211などのフレ ームの特性を記述する一連の数値ベクトルからなってもよい。 第3図は、通常動作の前にニューラル・ネットワーク106を設定するために 行わなければならないニューラル・ネットワーク・トレーニング・プロセスを示 す。ニューラル・ネットワークは、その入力ベクトルと、PEによって利用され る内部伝達関数とに基づいて、出力ベクトルを生成する。伝達関数で用いられる 係数は、出力ベクトルを変更するためトレーニング・プロセス中に変更される。 伝達関数および係数は、総じてニューラル・ネットワーク106の重み(weight s)といい、これらの重みは与えられた入力ベクトルによって生成される出力ベ クトルを変更するためにトレーニング・プロセス中に変更される。重みは、最初 は小さいランダムな値に設定される。文脈説明207は、入力ベクトルとして機 能し、ニューラル・ネットワーク106の入力に印加される。文脈説明207は 、ニューラル・ネットワーク重み値に従って処理され、出力ベクトル、すなわち 関連音響表現300を生成する。トレーニング・セッションの開始で、関連音響 表現300は、ニューラル・ネットワーク重みがランダムな値であるため意味が ない。関連音響表現300と割当ターゲット音響表現211との間の距離に比例 して、誤差信号ベクトルが生成される。次に、重み値は、この誤差信号を低減す る方向に調整される。このプロセスは、文脈説明207および割当ターゲット音 響表現211の関連対について複数回繰り返される。重みを調整して、関連音響 表現300を割当ターゲット音響表現 211に近づけるこのプロセスがニューラル・ネットワーク106のトレーニン グである。このトレーニングは、標準的なバック・プロパゲーション方法(back propagation of errors method)を利用する。ニューラル・ネットワーク10 6がトレーニングされると、重み値は文脈説明207を、割当ターゲット音響表 現211と値が類似した出力ベクトルに変換するために必要な情報を有する。第 1図を参照して説明した好適なニューラル・ネットワーク構成では、完全にトレ ーニングされたとみなされるまでには、入力および以降の重み調整に対して最大 1000万個の文脈説明207の提示を必要とする。 第4図は、トレーニングされたニューラル・ネットワーク106を利用して、 通常の動作中にテキスト・ストリーム400を音声に変換する方法を示す。テキ スト・ストリーム400は、固定継続時間213を有する一連の音声フレーム( phonetic frame)401に変換され、各フレームの表現は、音声表現203と同 じ種類である。各割当音声フレーム402について、文脈説明207と同じ種類 の文脈説明403が生成される。これは、ニューラル・ネットワーク106に入 力として与えられ、ニューラル・ネットワーク106は割当音声フレーム402 について生成された音響表現405を生成する。一連の音声フレーム401にお ける各割当音声フレーム402について変換を実行することにより、複数の音響 表現404が生成される。これ ら複数の音響表現404は、シンセサイザ107に対して入力として与えられ、 音声108を生成する。 第5図は、音声表現203の好適な実施を示す。フレームの音声表現203は 、単音ID501および調音特性502に分割されるバイナリ・ワード500か らなる。単音ID501は、単純に、フレーム中に名詞的に発音される単音のN 分の1符号表現である。単音ID501はNビットからなり、各ビットは、与え られたフレームで発声される単音を表す。これらのビットの1つが設定され、単 音が発声されることを示し、残りはクリアされる。第5図において、発声される 単音は、Bのリリースであり、そのためビットB506は設定され、ビットAA 503,AE504,AH505,D507,JJ508および単音ID501 中の他のすべてのビットはクリアされる。調音特性502は、発声される単音が 発音される方法を記述するビットである。例えば、上記のBは有声唇音リリース であり、そのため母音509,半母音510,鼻音511,アーチファクト51 4のビット,ならびにBリリースが有さない特性を表す他のビットはクリアされ 、唇音512,有声513などBリリースが有する特性は設定される。60個の 可能な単音および36個の調音特性がある好適な実施では、バイナリ・ワード5 00は96ビットである。 本発明は、テキストをスピーチなどの可聴信号に変換する方法を提供する。か かる方法では、スピーチ合成システ ムは、ルールによる合成システムによって必要とされる面倒なルール生成や、連 結システムによって必要とされる境界整合および平滑化を行わずに、話者の音声 を自動的に生成するようにトレーニングできる。本方法では、用いられる文脈説 明により音声表現境界において大きな変化が生じないので、ニューラル・ネット ワークをこの問題に適用する従来の試みに対する改善を提供する。

Claims (1)

  1. 【特許請求の範囲】 1.テキストを可聴信号に変換する方法であって: セットアップ中において: 1a)録音済み音声メッセージを提供する段階; 1b)前記録音済み音声メッセージを、各音声フレームが固定継続時間を有す る一連の音声フレームに分割する段階; 1c)前記一連の音声フレームの各音声フレームについて、複数の音声表現の うち1つの音声表現を割り当てる段階; 1d)前記各音声フレームの音声表現と、前記一連の音声フレームのうち少な くともいくつかの他の音声フレームの音声表現とに基づいて、前記各音声フレー ムについて複数の文脈説明のうち1つの文脈説明を生成する段階; 1e)前記各音声フレームについて、複数の音響表現のうち1つのターゲット 音響表現を割り当てる段階; 1f)前記複数の音響表現のうちの1つの音響表現を、前記各音声フレームの 文脈説明と関連づけるためニューラル・ネットワークをトレーニングする段階; 通常動作中において: 1g)テキスト・ストリームを受信する段階; 1h)前記テキスト・ストリームを一連の音声フレームに変換する段階であっ て、前記一連の音声フレームの1つ の音声フレームは、前記複数の音声表現のうち1つを含み、前記音声フレームは 前記固定継続時間を有する段階; 1i)前記複数の音声表現のうちの1つと、前記一連の音声フレームの少なく ともいくつかの他の音声フレームの音声表現ととに基づいて、前記複数の文脈説 明のうち1つを前記音声フレームに割り当てる段階; 1j)前記複数の文脈説明の1つに基づいて、前記ニューラル・ネットワーク によって、前記音声フレームを前記複数の音声表現の1つに変換する段階;およ び 1k)前記複数の音声表現の1つを可聴信号に変換する段階; によって構成されることを特徴とする方法。 2.2a)段階(1c)が、単音を含むため前記音声表現を定義することをさら に含み、選択された場合に、段階(1c)は前記単音をバイナリ・ワードとして 表すことをさらに含んで構成され、前記バイナリ・ワードの1ビットが設定され ,前記バイナリ・ワードの任意の残りのビットが設定されない段階; 2b)段階(1c)が、調音特性を含むため前記音声表現を定義することをさ らに含んで構成される段階; 2c)段階(1e)が、前記複数の音響表現をスピーチ・パラメータとして定 義することをさらに含んで構成される段階; 2d)段階(f)が、前記ニューラル・ネットワークを フィードフォーワード・ニューラル・ネットワークとして定義することをさらに 含んで構成される段階; 2e)段階(1f)が、誤差のバック・プロパゲーションを利用してニューラ ル・ネットワークをトレーニングすることをさらに含んで構成される段階; 2f)段階(1f)が、回帰入力構造を有するニューラル・ネットワークを定 義することをさらに含んで構成される段階; 2g)段階(1f)が、前記音声フレームの音声表現と、前記一連の音声フレ ームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、構 文境界情報を生成することをさらに含んで構成される段階; 2h)段階(1d)が、前記音声フレームの音声表現と、前記一連の音声フレ ームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、音 声境界情報を生成することをさらに含んで構成される段階; 2i)段階(1d)が、前記音声フレームの音声表現と、前記一連の音声フレ ームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、構 文情報の卓立の記述を生成することをさらに含んで構成され;および 2j)段階(1g)が、前記テキスト・ストリームを言語の音声形式として定 義することをさらに含んで構成される段階; のうち少なくとも1つであることを特徴とする請求項1 記載の方法。 3.テキストを可聴信号に変換するために用いられるニューラル・ネットワーク を作成する方法であって: 3a)録音済み音声メッセージを提供する段階; 3b)前記録音済み音声メッセージを、各音声フレームが固定継続時間を有す る一連の音声フレームに分割する段階; 3c)前記一連の音声フレームの各音声フレームについて、複数の音声表現の うち1つの音声表現を割り当てる段階; 3d)前記各音声フレームの音声表現と、前記一連の音声フレームのうち少な くともいくつかの他の音声フレームの音声表現とに基づいて、前記各音声フレー ムについて複数の文脈説明のうち1つの文脈説明を生成する段階; 3e)前記各音声フレームについて、複数の音響表現のうち1つのターゲット 音響表現を割り当てる段階; 3f)前記複数の音響表現のうちの1つの音響表現を、前記各音声フレームの 文脈説明と関連づけるためニューラル・ネットワークをトレーニングする段階で あって、前記音響表現は前記ターゲット音響表現と実質的に一致する段階; によって構成されることを特徴とする方法。 4.4a)段階(3c)が、単音を含むため前記音声表現を定義することをさら に含み、選択された場合に、段階 (3c)は前記単音をバイナリ・ワードとして表すことをさらに含んで構成され 、前記バイナリ・ワードの1ビットが設定され,前記バイナリ・ワードの任意の 残りのビットが設定されない段階; 4b)段階(3e)が、調音特性を含むため前記音声表現を定義することをさ らに含んで構成される段階; 4c)段階(3f)が、前記複数の音響表現をスピーチ・パラメータとして定 義することをさらに含んで構成される段階; 4d)段階(3f)が、前記ニューラル・ネットワークをフィードフォーワー ド・ニューラル・ネットワークとして定義することをさらに含んで構成される段 階; 4e)段階(3f)が、誤差のバック・プロパゲーションを利用してニューラ ル・ネットワークをトレーニングすることをさらに含んで構成される段階; 4f)段階(3f)が、回帰入力構造を有するニューラル・ネットワークを定 義することをさらに含んで構成される段階; 4g)段階(3d)が、前記音声フレームの音声表現と、前記一連の音声フレ ームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、構 文境界情報を生成することをさらに含んで構成される段階; 4h)段階(3d)が、前記音声フレームの音声表現と、前記一連の音声フレ ームのうち少なくともいくつかの他の 音声フレームの音声表現とに基づいて、音声境界情報を生成することをさらに含 んで構成される段階;および 4i)段階(3d)が、前記音声フレームの音声表現と、前記一連の音声フレ ームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、構 文情報の卓立の記述を生成することをさらに含んで構成される段階; のうち少なくとも1つであることを特徴とする請求項3記載の方法。 5.テキストを可聴信号に変換する方法であって: 5a)テキスト・ストリームを受信する段階; 5b)前記テキスト・ストリームを一連の音声フレームに変換する段階であっ て、前記一連の音声フレームのうち1つの音声フレームは、複数の音声表現のう ち1つを含み、前記音声フレームは固定継続時間を有する段階; 5c)前記複数の音声表現のうち1つと、前記一連の音声フレームのうち少な くともいくつかの他の音声フレームの音声表現とに基づいて、複数の文脈説明の うち1つを前記音声フレームに割り当てる段階; 5d)前記複数の文脈説明のうち1つに基づいて、ニューラル・ネットワーク により、前記音声フレームを複数の音響表現のうちの1つに変換する段階; 5e)前記複数の音響表現のうち1つを可聴信号に変換する段階; によって構成されることを特徴とする方法。 6.6a)段階(5b)が、単音を含むため前記音声表現を定義することをさら に含み、選択された場合に、段階(5b)は前記単音をバイナリ・ワードとして 表すことをさらに含んで構成され、前記バイナリ・ワードの1ビットが設定され ,前記バイナリ・ワードの任意の残りのビットが設定されない段階; 6b)段階(5b)が、調音特性を含むため前記音声表現を定義することをさ らに含んで構成される段階; 6c)段階(5d)が、前記複数の音響表現をスピーチ・パラメータとして定 義することをさらに含んで構成される段階; 6d)段階(5d)が、前記ニューラル・ネットワークをフィードフォーワー ド・ニューラル・ネットワークとして定義することをさらに含んで構成される段 階; 6e)段階(5d)が、回帰入力構造を有する前記ニューラル・ネットワーク を定義することをさらに含んで構成される段階; 6f)段階(5c)が、前記音声フレームの音声表現と、前記一連の音声フレ ームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、構 文境界情報を生成することをさらに含んで構成される段階; 6g)段階(5c)が、前記音声フレームの音声表現と、前記一連の音声フレ ームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、音 声境界情報を生 成することをさらに含んで構成される段階; 6h)段階(5c)が、前記音声フレームの音声表現と、前記一連の音声フレ ームのうち少なくともいくつかの他の音声フレームの音声表現とに基づいて、構 文情報の卓立の記述を生成することをさらに含んで構成される段階;および 6i)段階(5a)が、前記テキスト・ストリームを言語の音声形式として定 義することをさらに含んで構成される段階; のうち少なくとも1つであることを特徴とする請求項5記載の方法。 7.テキストを可聴信号に変換する装置であって: テキスト/単音プロセッサであって、テキスト・ストリームを一連の音声表現 に変換するテキスト/単音プロセッサ; 前記テキスト/単音プロセッサに動作可能に結合された継続時間プロセッサで あって、前記テキスト・ストリームについて継続時間データを生成する前期継続 時間プロセッサ; プリプロセッサであって、前記一連の音声表現および前記継続時間データを一 連の音声フレームに変換し、前記一連の音声フレームの各音声フレームは固定継 続時間であり、かつ文脈説明を有し、前記文脈説明は、前記一連の音声フレーム の前期各音声フレームと、前記一連の音声フレーム のうち少なくともいくつかの他の音声フレームとに基づく、プリプロセッサ; ニューラル・ネットワークであって、前記文脈説明に基づいて、前記一連の音 声フレームの1つの音声フレームについて音響表現を生成するニューラル・ネッ トワーク; によって構成されることを特徴とする装置。 8.前記ニューラル・ネットワークに動作可能に接続され、前記音響表現に応答 して可聴信号を生成するシンセサイザ; をさらに含んで構成されることを特徴とする請求項7記載の装置。 9.複数のテキスト・ストリームからなる方向データベース; 前記方向データベースに動作可能に結合されたテキスト/単音プロセッサであ って、前記複数のテキスト・ストリームのうち1つのテキスト・ストリームを一 連の音声表現に変換するテキスト/単音プロセッサ; 前記テキスト/単音プロセッサに動作可能に結合された継続時間プロセッサで あって、前記テキスト・ストリームについて継続時間データを生成する継続時間 プロセッサ; プリプロセッサであって、前記一連の音声表現および前記継続時間データを一 連の音声フレームに変換し、前記一連の音声フレームの各音声フレームは固定継 続時間であり、かつ文脈説明を有し、前記文脈説明は、前記一連の音声フレーム の前期各音声フレームと、前記一連の音声フレーム のうち少なくともいくつかの他の音声フレームとに基づく、プリプロセッサ; ニューラル・ネットワークであって、前記文脈説明に基づいて、前記一連の音 声フレームの1つの音声フレームについて音響表現を生成するニューラル・ネッ トワーク; によって構成されることを特徴とする車両ナビゲーション・システム。 10.前記ニューラル・ネットワークに動作可能に接続され、前記音響表現に応 答して可聴信号を生成するシンセサイザ; をさらに含んで構成されることを特徴とする請求項9記載の車両ナビゲーショ ン・システム。
JP7528216A 1994-04-28 1995-03-21 ニューラル・ネットワークを利用してテキストを可聴信号に変換する方法および装置 Pending JPH08512150A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US23433094A 1994-04-28 1994-04-28
US08/234,330 1994-04-28
PCT/US1995/003492 WO1995030193A1 (en) 1994-04-28 1995-03-21 A method and apparatus for converting text into audible signals using a neural network

Publications (1)

Publication Number Publication Date
JPH08512150A true JPH08512150A (ja) 1996-12-17

Family

ID=22880916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7528216A Pending JPH08512150A (ja) 1994-04-28 1995-03-21 ニューラル・ネットワークを利用してテキストを可聴信号に変換する方法および装置

Country Status (8)

Country Link
US (1) US5668926A (ja)
EP (1) EP0710378A4 (ja)
JP (1) JPH08512150A (ja)
CN (2) CN1057625C (ja)
AU (1) AU675389B2 (ja)
CA (1) CA2161540C (ja)
FI (1) FI955608A (ja)
WO (1) WO1995030193A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020003809A (ja) * 2016-09-06 2020-01-09 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したオーディオの生成
JP2020034883A (ja) * 2018-08-27 2020-03-05 日本放送協会 音声合成装置及びプログラム
JP2020525853A (ja) * 2017-07-03 2020-08-27 ドルビー・インターナショナル・アーベー 密集性の過渡事象の検出及び符号化の複雑さの低減
JP2020166299A (ja) * 2017-11-29 2020-10-08 ヤマハ株式会社 音声合成方法
US11069345B2 (en) 2016-09-06 2021-07-20 Deepmind Technologies Limited Speech recognition using convolutional neural networks
US11080591B2 (en) 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
US11321542B2 (en) 2016-10-26 2022-05-03 Deepmind Technologies Limited Processing text sequences using neural networks
JP2022071074A (ja) * 2018-05-11 2022-05-13 グーグル エルエルシー クロックワーク階層化変分エンコーダ

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5950162A (en) * 1996-10-30 1999-09-07 Motorola, Inc. Method, device and system for generating segment durations in a text-to-speech system
EP0932896A2 (en) * 1996-12-05 1999-08-04 Motorola, Inc. Method, device and system for supplementary speech parameter feedback for coder parameter generating systems used in speech synthesis
BE1011892A3 (fr) * 1997-05-22 2000-02-01 Motorola Inc Methode, dispositif et systeme pour generer des parametres de synthese vocale a partir d'informations comprenant une representation explicite de l'intonation.
US6134528A (en) * 1997-06-13 2000-10-17 Motorola, Inc. Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations
US5930754A (en) * 1997-06-13 1999-07-27 Motorola, Inc. Method, device and article of manufacture for neural-network based orthography-phonetics transformation
US5913194A (en) * 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
GB2328849B (en) * 1997-07-25 2000-07-12 Motorola Inc Method and apparatus for animating virtual actors from linguistic representations of speech by using a neural network
KR100238189B1 (ko) * 1997-10-16 2000-01-15 윤종용 다중 언어 tts장치 및 다중 언어 tts 처리 방법
WO1999031637A1 (en) * 1997-12-18 1999-06-24 Sentec Corporation Emergency vehicle alert system
JPH11202885A (ja) * 1998-01-19 1999-07-30 Sony Corp 変換情報配信システム、変換情報送信装置、変換情報受信装置
DE19861167A1 (de) * 1998-08-19 2000-06-15 Christoph Buskies Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten
DE19837661C2 (de) * 1998-08-19 2000-10-05 Christoph Buskies Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten
US6230135B1 (en) 1999-02-02 2001-05-08 Shannon A. Ramsay Tactile communication apparatus and method
US6178402B1 (en) 1999-04-29 2001-01-23 Motorola, Inc. Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network
JP4005360B2 (ja) 1999-10-28 2007-11-07 シーメンス アクチエンゲゼルシヤフト 合成すべき音声応答の基本周波数の時間特性を定めるための方法
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
DE10018134A1 (de) * 2000-04-12 2001-10-18 Siemens Ag Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
DE10032537A1 (de) * 2000-07-05 2002-01-31 Labtec Gmbh Dermales System, enthaltend 2-(3-Benzophenyl)Propionsäure
US6990449B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. Method of training a digital voice library to associate syllable speech items with literal text syllables
US7451087B2 (en) * 2000-10-19 2008-11-11 Qwest Communications International Inc. System and method for converting text-to-voice
US6990450B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. System and method for converting text-to-voice
US6871178B2 (en) * 2000-10-19 2005-03-22 Qwest Communications International, Inc. System and method for converting text-to-voice
US7043431B2 (en) * 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
KR100486735B1 (ko) * 2003-02-28 2005-05-03 삼성전자주식회사 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치
US8886538B2 (en) * 2003-09-26 2014-11-11 Nuance Communications, Inc. Systems and methods for text-to-speech synthesis using spoken example
JP2006047866A (ja) * 2004-08-06 2006-02-16 Canon Inc 電子辞書装置およびその制御方法
GB2466668A (en) * 2009-01-06 2010-07-07 Skype Ltd Speech filtering
US8571870B2 (en) * 2010-02-12 2013-10-29 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
US8949128B2 (en) 2010-02-12 2015-02-03 Nuance Communications, Inc. Method and apparatus for providing speech output for speech-enabled applications
US8447610B2 (en) 2010-02-12 2013-05-21 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
US10453479B2 (en) * 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
US9460704B2 (en) * 2013-09-06 2016-10-04 Google Inc. Deep networks for unit selection speech synthesis
US9640185B2 (en) * 2013-12-12 2017-05-02 Motorola Solutions, Inc. Method and apparatus for enhancing the modulation index of speech sounds passed through a digital vocoder
CN104021373B (zh) * 2014-05-27 2017-02-15 江苏大学 一种半监督语音特征可变因素分解方法
US20150364127A1 (en) * 2014-06-13 2015-12-17 Microsoft Corporation Advanced recurrent neural network based letter-to-sound
WO2016172871A1 (zh) * 2015-04-29 2016-11-03 华侃如 基于循环神经网络的语音合成方法
KR102413692B1 (ko) 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
KR102192678B1 (ko) 2015-10-16 2020-12-17 삼성전자주식회사 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치
US10089974B2 (en) 2016-03-31 2018-10-02 Microsoft Technology Licensing, Llc Speech recognition and text-to-speech learning system
US11008507B2 (en) 2017-02-09 2021-05-18 Saudi Arabian Oil Company Nanoparticle-enhanced resin coated frac sand composition
WO2018213565A2 (en) 2017-05-18 2018-11-22 Telepathy Labs, Inc. Artificial intelligence-based text-to-speech system and method
US10672389B1 (en) 2017-12-29 2020-06-02 Apex Artificial Intelligence Industries, Inc. Controller systems and methods of limiting the operation of neural networks to be within one or more conditions
US10802488B1 (en) 2017-12-29 2020-10-13 Apex Artificial Intelligence Industries, Inc. Apparatus and method for monitoring and controlling of a neural network using another neural network implemented on one or more solid-state chips
US10324467B1 (en) * 2017-12-29 2019-06-18 Apex Artificial Intelligence Industries, Inc. Controller systems and methods of limiting the operation of neural networks to be within one or more conditions
US10802489B1 (en) 2017-12-29 2020-10-13 Apex Artificial Intelligence Industries, Inc. Apparatus and method for monitoring and controlling of a neural network using another neural network implemented on one or more solid-state chips
US10795364B1 (en) 2017-12-29 2020-10-06 Apex Artificial Intelligence Industries, Inc. Apparatus and method for monitoring and controlling of a neural network using another neural network implemented on one or more solid-state chips
US10620631B1 (en) 2017-12-29 2020-04-14 Apex Artificial Intelligence Industries, Inc. Self-correcting controller systems and methods of limiting the operation of neural networks to be within one or more conditions
CN108492818B (zh) * 2018-03-22 2020-10-30 百度在线网络技术(北京)有限公司 文本到语音的转换方法、装置和计算机设备
US11366434B2 (en) 2019-11-26 2022-06-21 Apex Artificial Intelligence Industries, Inc. Adaptive and interchangeable neural networks
US10956807B1 (en) 2019-11-26 2021-03-23 Apex Artificial Intelligence Industries, Inc. Adaptive and interchangeable neural networks utilizing predicting information
US11367290B2 (en) 2019-11-26 2022-06-21 Apex Artificial Intelligence Industries, Inc. Group of neural networks ensuring integrity
US10691133B1 (en) 2019-11-26 2020-06-23 Apex Artificial Intelligence Industries, Inc. Adaptive and interchangeable neural networks
US11869483B2 (en) * 2021-10-07 2024-01-09 Nvidia Corporation Unsupervised alignment for text to speech synthesis using neural networks

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR1602936A (ja) * 1968-12-31 1971-02-22
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
JP2920639B2 (ja) * 1989-03-31 1999-07-19 アイシン精機株式会社 移動経路探索方法および装置
JPH0375860A (ja) * 1989-08-18 1991-03-29 Hitachi Ltd パーソナライズド端末

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020003809A (ja) * 2016-09-06 2020-01-09 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したオーディオの生成
US11069345B2 (en) 2016-09-06 2021-07-20 Deepmind Technologies Limited Speech recognition using convolutional neural networks
US11080591B2 (en) 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
JP2021152664A (ja) * 2016-09-06 2021-09-30 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したオーディオの生成
US11386914B2 (en) 2016-09-06 2022-07-12 Deepmind Technologies Limited Generating audio using neural networks
US11869530B2 (en) 2016-09-06 2024-01-09 Deepmind Technologies Limited Generating audio using neural networks
US11948066B2 (en) 2016-09-06 2024-04-02 Deepmind Technologies Limited Processing sequences using convolutional neural networks
US11321542B2 (en) 2016-10-26 2022-05-03 Deepmind Technologies Limited Processing text sequences using neural networks
JP2020525853A (ja) * 2017-07-03 2020-08-27 ドルビー・インターナショナル・アーベー 密集性の過渡事象の検出及び符号化の複雑さの低減
JP2020166299A (ja) * 2017-11-29 2020-10-08 ヤマハ株式会社 音声合成方法
JP2022071074A (ja) * 2018-05-11 2022-05-13 グーグル エルエルシー クロックワーク階層化変分エンコーダ
JP2020034883A (ja) * 2018-08-27 2020-03-05 日本放送協会 音声合成装置及びプログラム

Also Published As

Publication number Publication date
FI955608A0 (fi) 1995-11-22
EP0710378A1 (en) 1996-05-08
EP0710378A4 (en) 1998-04-01
US5668926A (en) 1997-09-16
WO1995030193A1 (en) 1995-11-09
AU675389B2 (en) 1997-01-30
CA2161540A1 (en) 1995-11-09
CN1057625C (zh) 2000-10-18
FI955608A (fi) 1995-11-22
CN1128072A (zh) 1996-07-31
AU2104095A (en) 1995-11-29
CN1275746A (zh) 2000-12-06
CA2161540C (en) 2000-06-13

Similar Documents

Publication Publication Date Title
JPH08512150A (ja) ニューラル・ネットワークを利用してテキストを可聴信号に変換する方法および装置
Yoshimura et al. Mixed excitation for HMM-based speech synthesis
US7460997B1 (en) Method and system for preselection of suitable units for concatenative speech
US7565291B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
EP1221693B1 (en) Prosody template matching for text-to-speech systems
O'Malley Text-to-speech conversion technology
US20020087317A1 (en) Computer-implemented dynamic pronunciation method and system
JPH0887297A (ja) 音声合成システム
JPH08335096A (ja) テキスト音声合成装置
JPH0580791A (ja) 音声規則合成装置および方法
JPS62138898A (ja) 音声規則合成方式
JP3270668B2 (ja) テキストからスピーチへの人工的ニューラルネットワークに基づく韻律の合成装置
KR100387232B1 (ko) 한국어운율생성장치및방법
JP3575919B2 (ja) テキスト音声変換装置
JP3078073B2 (ja) 基本周波数パタン生成方法
JP2513266B2 (ja) 音韻継続時間長決定装置
JPH06214585A (ja) 音声合成装置
JP2581130B2 (ja) 音韻継続時間長決定装置
Karjalainen Review of speech synthesis technology
JPH08160990A (ja) 音声合成装置
JP3088211B2 (ja) 基本周波数パタン生成装置
JP3297221B2 (ja) 音韻継続時間長制御方式
Venkatagiri Digital speech technology: An overview
JPH08328578A (ja) テキスト音声合成装置
JPH0519780A (ja) 音声規則合成装置および方法