JP4363590B2

JP4363590B2 - 音声合成

Info

Publication number: JP4363590B2
Application number: JP2003564856A
Authority: JP
Inventors: アディソン、エド; ウィルソン、エイチ．、ドナルド; マープル、ゲーリー; ハンダル、アンソニー、エイチ．; クレブス、ナンシー
Original assignee: レサックテクノロジーズ、インコーポレイテッド
Priority date: 2002-01-29
Filing date: 2003-01-28
Publication date: 2009-11-11
Anticipated expiration: 2023-01-28
Also published as: WO2003065349A2; EP1479068A4; WO2003065349A3; WO2003065349B1; US20030163316A1; US6865533B2; EP1479068A2; CA2474483A1; JP2005516262A

Description

（発明の背景）
音声認識技術は、ここ10年余りの間に、正確さと使いやすさの面において、格段の進歩を遂げてきた。その一方で、テキストから音声への変換技術は、聴きやすく、自然な音で容易に理解しやすい機能を備えたものであるかという点については、いまだに、その機能は定義しにくいものの、求めてやまない目標であることには変わりはない。

少なくとも、英語などのある種の言語において、人の発する音声に含まれ人に聴こえる手掛かりとなるものは、極めて微妙なものであるため、既知の音をもつ既知の音節を音声に変換することは、明らかに簡単なことであると誤解を受ける場合も多い。特に、これらの聴こえる手掛かりとなるもののある種の特徴は認識されているものの、平常文では宣言的に聴こえるが疑問となるとの最後でピッチが上がることや、いくつかは話者に固有に見られるような特徴と、いくつかは任意あるいは一般的に見られるような特徴が、より微妙な表現としてピッチとエネルギー（音量）に現われて、これらが、肉声の個々の音声と組み合わさって、実際の音声を生み出すものとなっている。

本発明によれば、個々の発話者の音色、ランダム性などの要素が、程度を変えて、発せられる音声に組み込まれ、擬似ランダム効果をもたらしている。さらに、発話者の音色は、教師から生徒へ教授されるボイストレーニングの既存の技術でパタン化された表現的なモデルに従ったり、そのモデルと組み合わせて、統合されている。これらの既存の技術の一つに、Ｌｅｓｓａｃシステムがあるが、これは、人間の音声を演劇やそれと同等のものに適用する場面での、人間の音声の明瞭性を向上させることを目的としている。

本発明のアプローチに対し、従来のテキストから音声への変換技術は、しばしば高い情報密度を必要とする、機械的なアプローチを採用している。既存のテキスト・音声変換技術の多くは、例えば、複雑な電話応答システムで用いられるような、全ての文章を予め記録したものを利用していると思われる。このシステムの例としては、米国で利用されている独自システムである、Ｗｉｌｄｆｉｒｅ（登録商標）がある。これらのシステムでは、表現上の観点から説得性のある特徴を備えた、文字、内容および調子をもって予め記録された文章に着目し、それが対話の形で使われる際の任意性、すなわち対話のオプションの数を最小化することを目的としている。例えば、個人の音声を認識し、その人の電話番号に合致したことを通知するシステムでは、恐らく、喜びあるいは驚きを表すイントネーションで、“やあ！こんにちは、スミスさん”と応答するものとなる。一方、スミス氏が自分自身の電話回線を使って話していたとしても、システムの音声認識ソフトが、スミス氏の音声とは違うと判断した場合には、“本当にスミスさんですか？”と疑った声で応答するように、システムのプログラムを仕組むことができる。上記の例では、人間が発声する上記の文章は、完全に記録されている。しかし、極めて少ない応答のために必要となるメモリ容量は、比較的多いものとなり、実用の目的からは用途が限られる。

他のアプローチとしては、米国特許番号６，２６６，６３７、Ｄｏｎａｖａｎによる発明のような、いわゆる、“語句配置”と呼ばれる方法がある。この方法では、文章の形で記録された人間の音声を用いて、出力音声を構成する。さらに、本技術によれば、音声の各部の特徴は、例えば、長さ、エネルギーおよびピッチを変化させることにより、変更することができる。これに関連した、発声を再生するアプローチでは、より限定されたシステムの問題は解決できるものの、人間の音声に比べて、明瞭性も悪く、自然に聴こえないという傾向がある。予め録音した音声と合成した音声をある程度混合させることにより、これらの問題のいくつかは解決できるが、その出力音声は、用途も広く語彙も豊富とはなるものの、それでもなお機械的で人工的なものにならざるを得ない。

更に他の方法として、音声を個々の音や音素に分割し、これらの音から単語を合成する方法がある。このような音素は、最初は、人間の音声を録音したものであるが、これらの特徴を変化させ、得られた音素は、異なる長さ、ピッチ、エネルギーや他の特徴について、元の録音に対して変化したものとさせることができる。更に他のアプローチとして、音素を複数録音し、複数の単語の録音を、音素構成ブロックを用いて単語生成と統合する方法がある。

更に、改良した方法として、例えば、入力された音声信号の発声成分と非発声成分の韻律を独立して変化させることにより、韻律を変えるという方法があり、これは、Ａｃｅｒｏによる発明、米国特許第６，２５３，１８２号に開示されるとおりである。更に、Ａｃｅｒｏ発明でも示されているように、出力音声の周波数領域表現を変化させることも可能である。

音声をつなぎ合わせて合成するシステムは、入力文から音声を出力するために、小さい音声の文節を合成して、人間の音声を生成する。さらに、これらの出力音声ユニットは、つなぎ合わされたり、再生されて、システムが最終的な音声を形成するものとなる。音声は、音素、二重音声（２つの音素）あるいは三重音声（三つの音素）を用いて生成される。Ａｃｅｒｏにより示された技術によれば、音声ユニットの韻律は、その音のピッチと長さで定義されるが、質問の最後でピッチを上げるように、意味を伝えるために変化させられるものであってもよい。

更に、他の音声合成技術として、発音に関する技術的なルールを適用し、所定の順序で並んだ子音および、あるいは母音の所定の組合せを音声合成変換するものと組合わせる方法がある。例えば、Ｍａｎｗａｒｉｎｇ他による発明、米国特許第６，１８８，９８４号を参照のこと。本方法の一つの特徴は、音節の間の境界を認識し、適切なルールを適用することにある。

以上見てきたように、現在の音声合成システムの方法は、文章、句、単語をつなぎ合わせるという初歩の段階から、音素を用いて単語生成するという方向に向かって発展してきたものである。単語の部分ユニットを用いて音声合成する方法は、多様な語彙に適している一方で、単語の部分ユニットを重ね継ぐという点で、重大な問題を抱えている。それにもかかわらず、同時に、この方法は、多様な語彙に対応できる、汎用な音声合成システムに対して、最も適したモデルを構成しているようにも見える。したがって、韻律の指定は主要な関心となっている。例えば、Ｐｅｒｓｏｎによる発明、米国特許第６，１４４，９３９号では、音源とフィルタ合成器部品を、人間の音声の発声機構の物理的な構造に対して、緊密に対応させる、ソースフィルタモデルの可能性が提案されている。この方法は、音源の波形によって声門の源流をモデル化しながら、フィルタのパラメータを選んで、音声の発生機構の作用をモデル化するものである。人が関与するのは、音節全体をシステムに格納することができないが、音節の半分だけなら対応可能であるような少ないメモリからなるシステムであることは、明確である。ここで、興味ある点は、この方法は、各アルファベットで表された音に対応した各子音の前後に、様々な母音を付加した子音を用いるという、Ａｓｓｙｒｏ−Ｂａｂｙｌｏｎｉａｎのアルファベット手法に酷似しているという点である。

（発明の要旨）
メモリを有する計算機を用いて音声合成する方法を開示する。テキストを、計算機のメモリ中に取り込む。語彙構文解析のルールの集合を適用し、テキストを複数のコンポーネントに分割する。発音および意味情報を、これらのコンポーネントに関連付ける。語句構文解析のルールの集合を用いて、マーク付けしたテキストを生成する。さらに、音声的な構文解析ルールとＬｅｓｓａｃ表現構文解析ルールを用いて、マーク付けされたテキストを、音声的に構文解析する。さらに、計算機のメモリに、音を格納し、各々の音には、発音情報を関連付ける。テキストに対応した音を呼び出し、音声および表現構文解析ルールを用いて構文解析した後、マーク付けされたテキストから生の音声信号を生成する。

メモリを有する計算機を用いて音声合成を行う方法の一実施例を、以下、説明する。複数の単語から構成されたテキストを、計算機のメモリ中に取り込む。テキストの中から、複数の音素を抽出する。複数の単語に対応した韻律を記録したデータベースに基づき、各音素を韻律記録に対応づける。人工知能ルールの第一集合を適用し、テキストに対応した文脈情報を求める。各音素に対応した、文脈依存の韻律の変化を求める。さらに、各音素に対応した、Ｌｅｓｓａｃに由来する韻律の変化を決定するための、Ｌｅｓｓａｃ理論に基づき、ルールの第二集合を適用する。文脈依存の韻律の変化と、Ｌｅｓｓａｃに由来する尾人の変化に応じて、各音素に対する韻律記録を変化させる。さらに、音素に対応したメモリ音情報を読み出す。文脈依存の韻律の変化と、Ｌｅｓｓａｃに由来する韻律の変化に応じて変化させた韻律記録に基づき、音情報を変化させる。そして、音声信号を生成するために、音情報を出力する。

更に、音声信号の韻律を変化させ、音声信号の現実感を向上させる方法を開示する。さらに、ランダムにあるいは擬似ランダムに見える方法で音声信号の韻律を変化させて、現実感を向上させる。

音情報を、異なる話者ごとに対応させ、人工知能ルールの集合を用いて、出力される音情報に対応した話者を特定する。

更に、テキスト中の単語と、それらの並び方に基づき、文脈依存した韻律の変化に応じて、韻律記録を変化させる。また、テキスト中の単語の感情的な文脈に基づき、文脈に依存した韻律の変化に応じて、韻律記録を変化させる。これらの韻律記録の変化を、音声信号の様々な韻律と組合せ、時々、擬似ランダムな方法で変化させることで、より現実感を向上させることができる。

生成される音声情報を、異なる話者に対応づけ、人工知能ルールの集合を適用することにより、出力すべき音情報に対応した話者を特定する。さらに、テキスト中の単語とそれらの並び方に基づき、文脈依存の韻律の変化に応じて、韻律記録を変化させる。

５０年以上にわたる研究により、ＡｒｔｈｕｒＬｅｓｓａｃは、音楽と音声の間の基本的な関係を反映した、完璧な音声システムを初めて開発した。彼の発見と開発は、経験的になされたものであったが、多くの学術的な研究に基づいたものであった。彼の初期の研究は、音楽と声楽の理解を音声理論と関連づけるものであり、それは、声の研究と教授法に関する従来の方法の殻を、革新的に突き破る結果につながるものとなった。Ｌｅｓｓａｃの音声研究の初期の段階では、、他人を真似た教授法と学習法は、不十分なものであり、むしろ害を及ぼすものであると決定づけていた。彼は、感覚と感性と運動神経のフィードバック原理に基づく学習システムを開発しようと決断した。この決心により、身体と声の自然機能について、実学的でありながら学術的な膨大な量の研究が必要となった。

同じくして、この５０年の間に、音楽歴史家たちは、西洋の古典音楽史の枠を越えた研究活動を始めていた。学際的な研究は、西洋、東洋、アフリカを始め、様々な音楽を結びつけていった。文化人類学、考古学、歴史および音楽の研究は、音声と音楽の起源について、ある見通しを得始めていった。これらの起源は、有史以前のものであったため、現存する原始種族についての多くの研究成果が得られて、始めてその研究の進歩を果たすことができた。しかし、今でもなお、Ｌｅｓｓａｃが得たような、音楽と音声の間の関係の全容を説明した者はいない。しかし、最近の研究により、彼の主だった主張を裏付ける兆しが見えてきた。

現在でも、Ｌｅｓｓａｃシステムに優る完璧な音声システムはない。音声システムは、音声の２つの機能的な特徴と、一つの発声の特徴を扱う必要がある。機能的には、音声は、母音と子音から構成されている。発声の観点からは、強調の仕方が異なれば意味も変わってしまうような、異なる音を持つ単語、文章、段落あるいは音声の間には、相互に関連性が存在する。母音と音楽の間の関連性は、長い間、認識されてはいたが、この特徴は、音声システムでは扱われていなかった。しかし、子音の機能的な特徴と音楽楽器との間の関係と、音声と楽譜との間の関係とが同一であることは、これまで研究されていなかった。

今日では、発声と音声の理論と教授法は、国際音標文字（ＩＰＡ）に多いに依存している。ＩＰＡは、一世紀も前に、西欧の研究者達により生み出されたものである。ＩＰＡは、音のマッピングに優れている。ＩＰＡは、正字法に囚われる呪縛から開放し、学生に対して、所定の言語、例えばスペイン語の綴りを簡略化する際に、彼らの母国語には存在しない他の言語での特定の母音と子音の発音のしかたに指針を提供するものとなった。しかし、生身の人間に対して、どのように発音すればよいかを教授するには、この方法は、きわめて弱く、人為的な手段である。すなわち、扱いにくく、複雑で、時代遅れのものである。この方法は、音響的で、擬音的で機械的な、非創造的なやり方を強いるものである。そして、極めて多くの音声について過ちを招くものである。

ＩＰＡシステムの記号は、文化的な面で意味を区別することのない地域的な発生起源によって起こる変化を切り離して、言語で用いられる可能な音の全てをマッピングするものである。さらに、この記号は、理解して話すためには、音に関連づけて（すなわち、耳を通して）習得あるいは記憶する必要がある。

また、ＩＰＡは、単語、句、および、大きな音声のユニットの中での音を機能的に関連付けることは、全く考慮していない。これは、音声システムではなく、単に、音を比較して、何がしかの定義を試みようとするに過ぎないものである。

ＩＰＡの母音と子音の発音の純粋な記号的な特性に対し、Ｌｅｓｓａｃの母音は、機能的には“数値的かつ運動的”なものであり、Ｌｅｓｓａｃの子音は、“数値的、運動的、潜在的に数値的”なものである。

音を発生させる操作という観点から、Ｌｅｓｓａｃの“調査”手法と、歌と会話との間の基本的な差異を取り除く作業は、音声を利用する全ての面で基本的な音楽的な特性を利用している。

同時に、Ｌｅｓｓａｃの音声システムは、音響音声学、調音音声学、聴覚音声学と生理音声学の従来のシステムの重要な要素を含み、それらをうまく適合させている。

Ｌａｓｓａｃの音声システムでは、数値が、構造および運動に関する感覚に直接対応しており、この感覚は、複製された時に、耳による制御を必要とせずに、すなわち、音響環境の悪条件のままでも、所望の音を生み出すものである。数値的な記述を行動に直接変換することに基づくため、この習得法には、その過程を弱めたり干渉する影響を除去するような余地はない。さらに、音の値を強化することを助け、他のシステムでは大きな量として残っているものへ、意味のある定量的な要素を与える、重要な定性的な要素を語彙感覚および共鳴感覚により、母音が供給される。

このように、Ｌｅｓｓａｃの母音システムは、前方、中央および後方に置かれる母音あるいは、高音と低音の母音というＩＰＡの考え方を排除するものである。すなわち、このシステムは、声門、咽頭、口蓋、硬口蓋、そり舌、歯、口唇を操作して発する音を、機械的に扱うことはせず、本質的に、耳に頼らない制御を実現するものである。

Ｌｅｓｓａｃ子音システム（ＤｒａｍａＢｏｏｋＰｕｂｌｉｓｈｅｒｓ社から１９６７年発行のＡｒｔｈｕｒＬｅｓｓａｃの著書、ＴＨＥＵＳＥＡＮＤＴＲＡＩＮＩＮＧＯＦＴＨＥＨＵＭＡＮＶＯＩＣＥ（人間の声の利用と訓練）の１２９ページから１７９ページに記載）は、子音を、楽器に関連づけるものである。各々の子音は、楽器（の音色）を反映し、楽器の演奏の音とイメージの両方を含むものである。このイメージとは、タッチ、リズム、大きさおよび繊細さである。

楽器を理解するとは、音自信を理解することだけではなく、楽器が演奏される方法の運動感覚と、その楽器が可能とする他の用途を理解することを指している。それは、芸術的な構成であり、物理的なイメージとして機能するものとなる。

従来の肉声および音声のトレーニングでは、多かれ少なかれ習慣が自動的である場合でさえ、（テキストの中に）“Ｔ”あるいは“Ｖ”の文字を見つけると、舌と歯肉、唇の縁は、所望の破裂音あるいは摩擦音を発声するための動作に入るが、発せられる音は、しばしば、耳に聞き取るには、予期せぬ、不規則なものであり、一部が欠けたり、聞き取れなかったりする場合がある。

その印象は、音を発声させる方法が、少なくとも半ダースはあるにちがいないというものである。

Ｌｅｓｓａｃ子音システムでは、芸術的なドラムビートを教えられた後では、絵に“Ｔ”と描かれた小太鼓の絵は、複雑な舌の動きや、模倣の記憶、耳による聴き取りを取り止めるものとなる。学生は、完璧な“Ｔ”の音を作り出すだけでなく、他のトレーニングなしに、“Ｋ”、“Ｐ”、“Ｄ”、“Ｂ”および“Ｇ”のドラムビートを感じる方法を知ることになる。このように、考え方が明確になると、“Ｒ”はトロンボーンのように感じるか、“Ｖ”はチェロのように感じるか、“５”は音響効果のように感じるか、“ＣＨ”はシンバルのように感じるかなどについて、耳の聴こえない人や、中国人やフランス人など外国の人に確かめてみる価値がある。その結果は、耳による判断、精神的な混乱、物理的あるいは生理的な運動なしに、常に、明確かつ完璧であることが示され、この明確な発声に対する、以前のような文化的あるいは部分的な影響によって、影響を受けることはない。

伝統的に、発声および音声の研究は、いくつかの分野に分割されている。すなわち、歌のための発声、会話のための発声、語法、演説、治療などである。しかし、根本的なＬｅｓｓａｃの考え方は、全ての原理をサポートするものである。全ての発声および音声は、相対的な発話と歌との間の違いを伴った、基本的に音楽的なものである。

伝統的に、子音は、その発音ははっきりとした音であると考えられていて、これは、基本的には、明瞭性の点で重要なことである。子音に対する、Ｌｅｓｓａｃの楽器に基づく考え方は、歌と会話で、母音と子音の相対的な位置付けを逆転させることを提案している。歌の場合には、母音が、主要な芸術的な貢献をし、一方、子音は、功利的な役割を演じる。しかし、一般的な音声では、子音は、メロディーとリズムのほとんどを提供し、一方、母音は、基本的に強調する働きをする。

学生にとっては、母音と子音をもつ発声と音声は、調和した品質と幅を持ち、音楽的に楽器を演奏するかのように声を発声することができるものであると理解するようになるため、彼らは、声を発するイメージを変えて、すなわち、音楽を演奏するオーケストラのイメージを抱くようになる。

組織化され関連した、いくつかのイメージを教える際には、Ｌｅｓｓａｃの方法は、手元での調査に焦点を当てており、通常の学習の方法では、暗黙的に含むような、抑制したり競合する多くの反応パタンに陥ることを未然に防ぐものとなっている。時として、コミュニケーションをすることが困難になることもあるが、コミュニケーションの際には、（このシステムは）膨大な量の情報を“塊”として、すなわち、記憶された状態として、含むことになる。特別な種類の学習では、イメージは、情報の塊となる。

Ｌｅｓｓａｃの音声理論を初めて理解した人たちの多くは、Ｌｅｓｓａｃが楽器を利用して子音を教え、全体として、音楽的なアプローチをとることは、単純に、教師にとって役に立つアナロジーであると考えるであろう。その一方で、もし、この方法に同意しないならば、このアプローチは、なんらかのトリックだと考えるであろう。しかし、音楽の起源の研究によれば、音楽と音声との間の関係、その中でも、子音と楽器との関係が、基本になっていると考えられる。すべての文化では、特定の楽器の発展と人間の音声とは、互いに関連し合った過程を経てきたと思われている。ある種の楽器は、人間の音声のイメージや音そのものを映し出しているように作られており、ある種の人間の音声は、基本的な打楽器の音や、弓で演奏する弦楽器を弾いた音や、初期のホルンの音色のような、心地よい楽器のイメージや音そのものを映し出しているかのように発声される。

英語に適用されるＬｅｓｓａｃの子音システムは、西欧文化とその交響楽の楽器を反映している。ドラム、ホルン、弦楽器などの基本的な楽器は、すべての文化に共通であるが、Ｌｅｓｓａｃの音声システムは他の文化圏の言語に適用した際の、特定の異なる子音を反映した特定の変更は、まだ定義されていない。

本発明による方法は、特定の伝達意図をもって、聞き手に対して発声されようとするテキストを検証する処理と、次に、Ｌｅｓｓａｃシステムの発音ルール表記などの音声マーク付けシステムに従って、テキストにマーク付けをする処理とから構成されている。音声合成発生器を制御するルールの集合は、Ｌｅｓｓａｃ原理などの音声原理に基づいている。これらのルールは、通常、従来技術の音声合成エンジンに組み込まれ、ソフトウェアの動作と、ソフトウェアを使うコンピュータにより生成される音声の特性を制御する。コンピュータは、マーク付けされたテキストを、表情豊かに発声するために用いられる。音色、構造、子音のエネルギーの各々が、音声の中で異なるバランスを持ち、コンピュータにより生成される音声を聞き取るよく訓練された熟練家に向かって話し掛けられるような場合には、選択した表現スタイルに対して、いくつかの発音を切り換えながら、マーク付けされたテキストを、表情豊かに発声するためにコンピュータを用いるステップが繰り返し実行される。次に、コンピュータにより生成された音声は、スタイルの基準および、あるいは、その表現性について一貫性をもっているかについて、評価される。さらに、聞き手が集められ、コンピュータで生成された音声が、聞き手に対して再生される。コンピュータで生成された音声に対する、聞き手の理解が、評価され、特定の組み込まれた一つのルールあるいは複数のルールに関連づけられ、聞き手にとって比較的理解しやすい結果をもたらしたルールが選択される。

（最適な様態の詳細説明）
本発明のいくつかの実施例を示す以下の図面を引用して説明することにより、発明の機能、目的および利点を、明確にする。
本発明に従い、現行のシステムの問題を解決することを目的とした、音声合成の方法を説明する。特に、パタンマッチング、音素、二重音声および信号処理に基づく現行のシステムでは、人間のような表現力をもたない、“ロボット”のような音声が出力されている。本発明の一実施例によれば、言語学、“Ｎ要素音素”、および多くの部分でＡｒｔｈｕｒＬｅｓｓａｃの研究成果に基づく人工知能ルールを適用して、発明による計算機で生成した音声中の、音色のエネルギー、音楽的特長、自然音および構造的エネルギーを向上させる。本発明の応用範囲は、顧客サービス応答システム、電話応答システム、情報検索、視覚障害者あるいは“手が塞がっている”人のための計算機によるテキスト読み上げ、教育、オフィス業務支援などがある。

現行の音声合成システムは、信号処理とフィルタリングに基づいて、音素、二重音声および、あるいは三重音声にもとづく処理を伴うものである。現行のシステムが生み出す音声は、理解することは可能であるが、概ね、人間にとっては、ロボットのように、機械的で、安っぽく、人間味の薄いものとなっている。本発明は、言語学的な特徴を模擬するための特徴と、知識ベース処理を実装し、人間の発話特性と擬似自然音声合成モデルを実装することにより、人間の発話を模擬するための計算機に実装可能なモデルを開発して、音声合成を行うものである。

現在の市場には、多くのシステムがある。この状況は、自然な音を発生する音声合成システムへの、変わらぬニーズがあることを示しているように思われるが、現行の多くの音声合成システムは、パタン認識と統計的処理を含んでおり、上記の適用分野で求められる性能を満足しない古い手法に基づくものとなっている。同様に、システムパラメータを同定し、信号処理を決定するための、いわゆる隠れマルコフモデルを含んでいる。

図１によれば、本発明によるシステム１０は、テキスト１２を格納あるいは記録する処理から始まる。次にステップ１４で言語構文解析が行なわれる。第一のタスクは、以下、トークン化と称する。本発明によれば、トークン化を用いて単語および句読点リストを、テキストの先頭から、順次抽出する。その結果は、単語リストとなり、更に、ステップ１６で、辞書情報を用いて、この単語リストを処理する。この処理には、各単語の検索を含む。すなわち、検索する対象は、その単語が構成する文脈に依存した音声の可能な部分、可能な多義性、様々な慣用句の中の可能な単語の組み合わせであり、これらは、ステップ１６でシステムが用いる辞書に含まれている。ステップ１６での辞書検索の後、ステップ１８で、語句構文解析により、各語句の終わりを識別し、言語的な多義性を除去して、各単語に対して、実際の音声中の部分に対応したラベル付けを行う。ステップ２０で、マーク付けしたテキストを生成することにより、トークン化は完了する。

本発明によれば、トークン化の処理は、ファイルあるいは記録され、音声に変換中の入力テキストに対する単語リストを生成する処理を含んでいる。例えば、質問文“Mr.Smith, are you going to New York on June 5？（スミスさん、６月５日は、ニューヨークに行く予定ですか？）”に対して、トークン化処理の第一の部分の出力は、以下のようになる。

Mr., Smith, [comma], are, you, going, to, New, York, on, July, 5, [?]

ステップ１６（詳細は以下で説明）の辞書検索の後、これと同一の表現を、以下のように表す。

Mister Smith, [comma], are, you, going, to, New York, on, July fifth, [?]

ここでは、固有名詞“ＭｉｓｔｅｒＳｍｉｔｈ”は、複数の単語からなるが、単独トークンとしてグループ化されている。同一のことが、日付“Ｊｕｎｅ５”にも当てはまる。記号“？”は、トークンとして分類されるが、これは、韻律について特別の意味をもつためであり、ピッチおよび音色の表現を含み、後の、音声合成の処理で考慮することになる。

本発明では、さらに、ステップ２２で、音声構文解析により、データベースに格納され、英語と英語の発音のルールを含む、ルールに基づき各単語を、音素、二重音声あるいはＭ要素の音素に分割する。本データベースの出力は、ステップ２４で与えられる。

ステップ２４でルールを適用することに加え、システムは、ステップ２６で、表現構文解析を行う。ステップ２６での表現構文解析は、Ｌｅｓｓａｃ発声訓練システム理論に基づき、ステップ２８でデータベースから得られたルール処理によって行われる。特に、本システムは、子音の“連続”や、それらが発声されるかどうかということや、単語リスト中での色音のエネルギー位置や、単語中での構造的な“母音”の音や、様々な接続語があるというような事を識別する。他の実用的なパタンマッチングルールが、適用され、話者の識別、感情、強調、速度、ピッチ、および以下で詳細を説明するような事柄を決定する。結果として得られた“音素”リストは、デジタルフィルタ群に送られ、そこで所定の音素に対応したオーディオストリームをデータベース中で検索し、ステップ３０でデジタルフィルタを用いてフィルタ処理される。フィルタのパラメータは、以前のルール処理によって決定され、最終的に音声を話者に対して出力する前に、平滑化が行われる。この平滑化は、ステップ３２で平滑化フィルタを用いて行われ、ステップ３４で音声信号が出力される。

本発明によれば、システムを対話的に操作して、辞書が用いられる。ＡｍｅｒｉｃａｎＨｅｒｒｉｔａｇｅＤｉｃｔｉｏｎａｒｙのような既存の辞書の内容を、何らかの好適な形式、例えば、ハードディスクドライブ、ＲＡＭあるいはこれらの組み合わせといった形式をシステムで採用し、それを格納するものとなっている。この辞書データベースは、音声合成エンジンが動作中に、システムからアクセスされるものである。辞書データベースの応用システムは、スペル、音声の一部および発音の情報を含んでおり、更に、共通して用いる固有名詞のリスト、地名のリストなどを含んでいる。更に、辞書データベースでは、音声中のあいまいな部分を表すことも必要となる。必要となる他の事項としては、共通慣用句と略記もしくは数値トークンのための完全なスペルとを含み、他の情報も必要となる。さらに、話者の識別情報、段落およびページの数や、個々の音声の中に組み込むことを望まないようなことを決定するためのアルゴリズムの形で与えられる情報が必要となる。

このように、辞書検索により、“ＪｏｈｎＳｍｉｔｈ”を、２つの単語からなるものではなく、文法上の目的から、単独トークンとして認識するといったことを行う。一方で、発声上の目的から、システムは、この部分を、２つの単語からなるものとして扱うこともある。同様に、“Ｊｕｎｅ５，２００１”は、文法上の目的から、日付を表す単独トークンとして扱う必要があるが、一方で、発話上の目的から、“Ｊｕｎｅｆｉｆｔｈ、ｔｗｏｔｈｏｕｓａｎｄａｎｄｏｎｅ”として表す必要がある。これには、日付を扱う特別なアルゴリズムが必要となる。“Ｒｕｎ”は、複数の意味をもつ、単独の単語である。従って、辞書では、単語が作り出す音声の可能な部分のすべてを、各単語についてリストアップすることが必要となる。“Ｄｒ”は、将来の音声処理のために“ｄｏｃｔｏｒ”として表す必要がある。“Ａｎｔａｒｃｔｉｃａ”は、辞書にもとづいて発音する必要となる。しかし、上記の事柄に加え、本発明では、出力音声の品質は、Ｌｅｓｓａｃ子音エネルギールール処理と他のＬｅｓｓａｃルールとを含んでおり、その詳細は後で説明する。一般的には、本発明の方法は、各子音の音エネルギーを、特定の子音に対応した係数の時間幅をもつ、ディラックのデルタ関数として扱っている。

語句構文解析は、単語照合基準として音声の一部を用いる、ルールの推論システム、あるいは、有限状態遷移プロセッサである。出力は、文章中での機能が特定された単語の役割がラベル付けされた語句である（例えば、動詞ｖ、動詞、目的語、ｘの前置詞句修飾詞の目的語、名詞ｎの形容修飾詞）。本発明では、従来技術による語句構文解析を用いて、それを改良して、ここで定義される様々な基準を組み込むものとする。本発明では、単純な語句構文解析を用いて、語句の境界、各語句の先頭語と修飾語を特定する。これは、自然な発話を行う際の、適切な休止を決めるために、有用である。

多くの音声合成システムは、単語を、その要素となる発声音に分割する、音声構文解析を用いている。本発明による音声合成システムも、音声構文解析を用いているが、その音声構文解析の出力を用いて、以下に説明するように、Ｌｅｓｓａｃルールを適用する。

本発明の一実施例では、各単語に対して、３つのトークンを生成することにより、この音声構文解析を行うことになる。これらのトークンは、以下に説明するように、Ｌｅｓｓａｃルール処理装置に送られる。第一のトークンは、英単語である。通常、このトークンは、テキストから直接取り込まれるが、時として、独自に生成する必要がある。上述した例では、“Ｄｒ”は“ｄｏｃｔｏｒ”に置き換える必要があり、日付を表現した“５”は“ｆｉｆｔｈ”に置き換える必要があることを示したものである。第二のトークンは、英語辞書によって与えられた、単語の発音を記述したものである。このトークンは、便宜上、後の処理とフィルタリングのために採られたものである。Ｌｅｓｓａｃルール処理装置に出力される第三のトークンは、標準の音声構文解析の出力である。例えば、単語“ｖｏｉｃｅ”は、アルファベット表記［Ｖ］、［ＯＩ］および［Ｓ］の順に対応した音を与えるものとなる。

本発明の一実施例では、Ｌｅｓｓａｃルール処理装置は、中核となる処理要素であり、そこには、ＡｒｔｈｕｒＬｅｓｓａｃの研究成果が処理内容に組み込まれている。Ｌｅｓｓａｃルールは、マーク付けされたテキストを走査し、発声表現に対応した、特定の音響フレームあるいは音響遷移フレームを選択する。また、Ｌｅｓｓａｃルールは、ピッチ、速度あるいは強度（音量）を特定する。いくつかの例を以下に示す。Ｌｅｓｓａｃルールを完全な形で収めたものは、書籍となっている。特に、１９６７年にＤｒａｍａＢｏｏｋＰｕｂｌｉｓｈｅｒから発行された、ＡｒｔｈｕｒＬｅｓｓａｃの著作、ＴｈｅＵｓｅａｎｄＴｒａｉｎｉｎｇｏｆｔｈｅＨｕｍａｎＶｏｉｃｅがある。Ｌｅｓｓａｃのルールは、音構文解析によりルールに与えられるトークンに対して、適用される。

Ｌｅｓｓａｃ理論によれば、子音のエネルギーは、概念的には、交響楽に例えられている。特に、Ｌｅｓｓａｃ理論では、“交響楽”の楽器は、子音に関連付けられる。Ｌｅｓｓａｃの子音エネルギーについてのルールは、各単語の各子音部について、一つあるいはそれ以上の楽器の音響特性を特定するものである。Ｌｅｓｓａｃ理論のルールの大部分は、テキストのマーク付けと音（すなわち、“ｚバスバイオリン”）の選び方に対応している。例えば、“Ｈｉｓｈｏｍｅｗａｓｗｒｅｃｋｅｄ”という語句を例にとると、Ｌｅｓｓａｃの子音エネルギールールは、第一と第二の‘ｓ’を“ｚバスバイオリン”として特定し、‘ｍ’を“ｍビオラ”、‘ｄ’がその後に続く‘ｃｋ’を“ＫＴ二重ドラム”として特定する。他の状況では、“ｎ”は、バイオリンである。音に関連付けられたこれらの楽器は、更に、後のフィルタ処理に備えて、音響信号を格納する。

古典的なＬｅｓｓａｃの教授法は、音声の基本要素として、音楽を精神的に意識することを確立し、話しをしている最中の学生の意識に、この考え方を植え付けることを拠り所としており、その結果として、学生が、Ｌｅｓｓａｃが好ましいものとして、また関連づけられたものとして目指した音楽的特長に裏付けられて、明瞭に音声を発することができるようになる。

本発明によるＬｅｓｓａｃ理論の実践の形は、明確なＬｅｓｓａｃ理論の実践を伴う（すなわち、適切で明瞭な発音を得るためにＡｒｔｈｕｒＬｅｓｓａｃにより定められたルールに従う）音の再生のための音声データベースに含む形式と、音声に変換するように入力されたテキスト中の単語の音節中で特定された音素の並びに応じて、特定の音を選択する形式の２つがある。

Ｌｅｓｓａｃ理論により、学生には、声の振動を感動をもって体験する方法を示し、音色エネルギーの概念が教授される。

本発明によれば、声が適切に用いられた場合には、硬い口蓋、鼻腔および前額部を通して音色が意識された形で伝わるものと考えられる。これらの音色は、骨伝導によって伝わる。他のものより感動をもたらす、ある種の音が存在する。例えば、“ｉｔ’ｓｅａｓｙ”の中にある、長音の“ｅ”ｙの音を考えてみよう。この“ＹＢｕｚｚ”は、聴覚的なハミングの“ｅ”―ｙ“ｅａ―ｓｙ”として格納される。

本発明では、声が適切に用いられた場合には、硬い口蓋、鼻腔および前額部を通して音色が意識された形で伝わるものと考えられる。これらの音色は、骨伝導によって伝わる。他のものより感動をもたらす、ある種の音が存在する。例えば、“ｉｔ’ｓｅａｓｙ”の中にある、長音の“ｅ”ｙの音を考えてみよう。この“ＹＢｕｚｚ”は、聴覚的なハミングとして格納され、この音は、音声合成の音響パタンとして用いられる。また、“ａｗａｙ”の中の、二番目の“ａ”も、Ｌｅｓｓａｃ理論によれば、“＋ＹＢｕｚｚ”として知られた、連結された音色と考えられる。他の音は、“ｌｏｗ”の中にある、長音の“ｏ”のような集中した母音と二重母音がある。“あくびして伸びた”顔の姿勢は、骨格を伝わる骨伝導の音色を生み出し、発声は、小さく、鼻にかかった、甲高いものではなく、豊に、動的に、かつ豊富な音色を持つものとなる。“あくびして伸びた”状態では、顔は前面に突き出した姿勢となる。メガホンを反対向きに描いて、メガホンの広がった方を唇に当て、口の中を大きく広げてメガホンを入れてゆく様子を考えてみれば、この顔を前面に突き出した姿勢が、どのようなものであるか、よく理解できるはずである。驚きの表情をした時に、単語“Ｏｈ”と言うときに、人間は通常この音を発する。

構造的なエネルギーは、話言葉を発する時、特に、母音と二重母音を発音する時の、上下の唇の間隔に対応した、１と６の間の任意のスケールを用いた数値システムを用いて、Ｌｅｓｓａｃにより定義されている。もっとも大きく唇を開ける場合は、“ｂａｄ”のような単語を発する場合、数値は６であり、もっとも小さく唇を開ける場合は、“ｂｏｏｚｅ” のような単語を発する場合、数値は１である。表１は、この数値システムを簡単に示したものであり、Ｌｅｓｓａｃの研究論文に詳細が記されている。本発明では、Ｌｅｓｓａｃのルールを用いて、各々の主母音を定量化し、あらかじめ格納された音響信号を再生するために用いられる。

Ｌｅｓｓａｃは、話し言葉の単語を連結するのには、多くの方法があることを確認しており、例えば、Ｌｅｓｓａｃの“直接連結”として知られたものがある。一方、“ｋ”の次に“ｔ”が続くように、２つの子音が連結し、口の中の異なる場所で各音が発せられた場合には、“ｋ”の音は、“ｔ”の音に移る前に音が完結して、完全に再生されることになる。この状態は、“再生および連結”として知られている。三番目の方法は、“ｇｒａｂｂｏｘｅｓ”あるいは“ｋｅｅｐｂａｃｋ”で、“ｂ”の次にもう１つの“ｂ”あるいは“ｐ”が続くように、２つの子音が連結し、口の中の同じ場所、あるいは極めて近い場所で各音が発せられた場合である。この場合、第一の子音、あるいはドラム音は、発声の準備の途上にあって、第二の子音に移る前にその音は完結せず、第二の子音に移る前に僅かな話者のとまどいが存在することになる。この状態は、“準備および連結”として知られている。本発明では、Ｌｅｓｓａｃが確認した、これらの状態と他の連結についてのルールは、彼の著書“ＴｈｅＴｒａｉｎｉｎｇｏｆｔｈｅＨｕｍａｎＶｏｉｃｅ”に詳しく記されている。

本発明の動作は、例えば、単語“ｖｏｉｃｅ”によってよく理解することができる。単語“ｖｏｉｃｅ”は、音声構文解析から３つのトークンを受けとる。これらは、［ｖｏｉｃｅ］、［ＶＯＩＳ］および［ｖｏｉｓ］である。

更に、Ｌｅｓｓａｃのルール処理装置は、単語“ｖｏｉｃｅ”について、以下に示すようなＬｅｓｓａｃルール構文で、音の並びを出力する。

Ｖ−チェロ, ３−ＹＢｕｚｚ, Ｓ（無音）

本発明によれば、“実用的な”ルールを用いて、音声合成システムで、より現実感のある自然な発声を行うことが可能となる。現実的なルールにより、音声フィルタのパラメータを変化させて表すことができる文脈および設定情報をカプセル化することになる。実用的なルールには、話者を特定するテキスト中の特徴、単語の発音の一部とテキストの特質などに関するものがある。

例えば、本発明のシステムでも、あるいは人工知能を用いても、話者が男性なのか女性なのかを決定する試みが可能である。環境を、静寂なもの、あるいは騒音があるものにすることができるが、特定の音響環境を選んで、好ましい効果をもたらすこともできる。例えば、白色雑音は、現実感の雰囲気を作り出すのに役立つ。もし、入力されたテキストが、海に関するものである場合には、人工知能により、テキストの内容に応じた効果を狙い、海岸の岩場に打ち寄せる波の音を作ることができる。また、本発明では、人工知能を用いて、話者の話し方がゆっくりなのか、淡々としたものなのか、早口なのかを、入力されたテキストから判定することができる。本発明の実施例では、人工知能で実装した様々なルールについて、適切なものを示したり、メニューで自由に選択できるようにし、システムパラメータとして利用できるようにしてある。

本発明では、発音と語句の区切りが決定される。既知の自然言語処理モジュールによって特定された、語句の区切りと発音のマーク付けに基づいて、ある屈折、休止あるいはアクセントを推定する。これらの実用的なルールは、前段階の処理で求めた、マーク付けした言語的特徴と、特定の声の特徴を照合する。例としては、コンマ符号の後には休止を入れる、文章の終わり符号の後には長い休止を入れる、クエスチョン符号の前とクエスチョン符号で終わる文章の最初の単語ではピッチを上げるなどがある。いくつかの場合には、音声の中の特定の部分が、特に、単語に対応してピッチを変えるなど、話の印象に影響を与えることもありうる。

また、人工知能を、例えば、物語の文章に適用し、会話に二人の話者がいるような状況を特定することもできる。ここでは、人工知能を使って、話者が変わるごとに話者のパラメータを変更するように、システムに信号を送る。

本発明では、以上でも示唆したように、Ｌｅｓｓａｃルールあるいは他の言語ルールを適用することに基づき、後の処理のために、蓄積された音声信号がアクセスされる。音声処理のこの段階では、格納された音素、二重音声、Ｎ要素の音素のデータベースあるいは“辞書”を用いて、音声信号処理とフィルタリングを開始する。もっぱら音素あるいは二重音声だけを用いる従来のシステムとは異なり、本発明のシステムは、音素、二重音声およびＮ要素の音素のすべてを格納し、Ｌｅｓｓａｃルールあるいは他の言語ルール処理の結果に応じて、各々の音に対応したものを、これらの中から一つを選ぶ。

例えば、１９６７年発行（第二版）のＬｅｓｓａｃの著書の７１ページに記載された構造エネルギー記号は、これらの音のいくつかに対応し、構造エネルギー音の＃１、＃２１、＃３、＃４、＃５、＃５１および＃６として記されている。本書の１９９７年発行の第３版の１７０ページから１７１ページでは、より多くの記号と音が列挙されていて、グループ、３ｙ、６ｙおよびＲ導出音が完備されている。これらは、口と唇の形に対応しており、Ｌｅｓｓａｃ理論による音に対応付けられている。

Ｌｅｓｓａｃの共鳴エネルギー音の取り扱いでは、同じことが部分的に時間領域のディラックデルタ関数としてモデル化されている。ここでは、ディラック関数の幅は、特定の子音と韻律の他の要素に対応した関数因子によって拡張されている。

以上で説明したように、身体のエネルギーについてのＬｅｓｓａｃの考え方は、発声を理解する上で有用なツールであると考えられ、これを理解することにより、より現実感を増した音声合成を行うことができる。特に、Ｌｅｓｓａｃの身体エネルギーの考え方によれば、ある主題と行為は、感覚とエネルギーを呼び起こすものであることがわかる。例えば、人が、家族といっしょに、例えば、休暇をすごしたいという気持ちになることを想定する。このような状況になると、人の気持ちというものは、その歩き方や、動作や態度に、目に見えるように現れるものである。

本発明では、音声の観点から、このような身体エネルギーの２つの効果をモデル化している。第一のモデルでは、人工知能を用いて、身体エネルギーの発生を検知して、適度に速度を上げて話す傾向と高いピッチとすることを韻律に組み込む。更に、発話している環境に応じて、身体エネルギーによって、結果として音声に振動をもたらすような身体の動きを引き起こす場合もある。例えば、人がパーティに出席していて、Ｌｅｓｓａｃの身体エネルギーが極めて高いレベルに到達した場合には、頭を左右に動かすようになり、その結果、声量と、少ない量ではあるがピッチに変動が現れる。このような状況は、人工知能によってあらかじめ定めた範囲内で、ランダムなパラメータを操作する形で、モデルに組み込むことができる。本発明に関連し、ランダムパラメータを引用するとき、あるいは、ランダム因子を特定の韻律要素に導入する時はいつでも、システムによってあらかじめ定めた範囲内で、ランダムなパラメータを操作する形で、同じものをモデルに組み込むものとなっている。

均一な方法とする代わりに、この２つのモデルを混在させた方法により、システムは、各音について情報理論的に最適な一つの構造を選択することができる。本発明では、情報理論的な最適性を指標とすることにより、従来から知られている情報理論（Ｇａｌｌａｇｈｅｒによって記述された）におけるエントロピー指標を用いて、最小のエントロピーをもつ音を、情報理論的に最適なものとすることができる。

デジタルフィルタ処理は、音素、二重音声、Ｍ要素からなる音素、あるいは他の記録音を、前段階の処理に基づき、音声信号ライブラリから選択することから始まる。各音は、上述した前段階でのルール処理でマーク付けされたテキストに基づいて、仮ではあるが、適当なスペースを置いて設定され、さらに、前段階でのルール処理による命令に基づいて、フィルタ処理が行われる。

以下のリストは、あらかじめ用意されたフィルタとパラメータの種類を示すものである。フィルタ処理の効果は、比較的主観的なものである。さらに、フィルタ処理システムが異なると、異なる音に対しては、劇的に異なる結果をもたらすこともある。従って、従来技術による音声のフィルタ処理では、一度に答えが得られる方法を採用しているが、本発明では、最適なフィルタ処理の選択のためには、試行錯誤を行うことが最良なものとなる。本発明では、タイムワープフィルタを用いて、音声のテンポが調節できる。バンドパスフィルタは、ピッチを調節するための良い手段である。周波数変換を用いて、音声の品質を変えることができ、すなわち、平滑化フィルタにより音声の連続性をもたらすことができる。さらに、本発明では、フィルタをカスケード状に接続することにより、複数のパラメータが必要になる状況へも対応できるものと考えられる。

本発明では、音声の出力は、フィルタ処理を終えた音声信号を、直接デジタルオーディオプレーヤーに送ることにより実現している。音声出力として、標準の音声信号フォーマットを用いており、コストの削減が可能となっている。

図２および図３は、本発明の音声合成方法１１０の好適な実施例を示す図である。方法１１０は、ステップ１１２の、音声に変換するテキストの入力処理から始まる。テキストは、ステップ１１４で、人工知能アルゴリズムにかけられ、その文脈と一般情報コンテンツを決定するが、比較的単純な人工知能処理方式により、この情報コンテンツを生成するレベルとなっている。例えば、テキスト中にクエスチョン符号が含まれていることから、質問文であると判定するようなレベルの処理を想定している。このようなレベルの処理とすることは、上述したように、テキストで表わされた様々な音を構成する音素の韻律に対して、特有の効果を与えるものとなる。

ステップ１１６では、ステップ１１８のテキストから得られた、テキスト中の音素の韻律を決定し、韻律の記録を生成する。ステップ１1６で生成した韻律記録は、その発音が辞書に定義されているような特定の単語に基づくものである。ステップ１２０では、その韻律に対応した文脈情報をもつテキストを用いて、テキスト中の文脈のテキストの特定の要素に対応した韻律を決定する。この文脈韻律決定（文章中のクエスチョン符号で与えられるようなこと）は、ステップ１１８で生成した韻律記録を修正するのに用いられる付加情報をもたらす。

本発明では、ステップ１１８で、テキストの要素の韻律に、ピッチと長さについての定量的な値を割り付ける。さらに、ステップ１１８で生成された値は、ステップ１２０で変化させる。従って、韻律記録は、文脈韻律情報によって変化した各語の韻律についての基本情報を含むため、ステップ１１８は、増強した韻律記録を生成するものと言える。

しかし、本発明では、システムから出力された韻律番号をランダムに変化させることを用いるため、均等なルールに基づいた韻律の機械的な感覚は取り除かれる。全国的には、定量的な韻律の数値が不正確な韻律に対応するような範囲に到ることのないように、ランダムな変化の幅は、適切な値に設定する必要がある。しかし、韻律が適度な範囲で変化させられたとしても、人間の聴覚には十分聞き取れるものとなっている。例えば、歌手の発声に見られるような、かすかな不協和音でさえ、明瞭に聴こえることを考えてみよう。出力される音声信号を通して、意味を容易に理解できなくなるほど、韻律を変化させることなく、機械的でない出力音声信号が得られるように、韻律を変化させることが可能となる。このように韻律記録中の定量的な値を変化させる処理が、ステップ１２２に実装されている。

ステップ１１８で出力された識別情報に加え、ステップ１１８で特定された音素は、音情報に関連付ける必要がある。この音情報は、規格化された音情報の形式をもつ。本発明の一実施例では、規格化された音情報を基準にして音の長さとピッチを変えるために、音情報が用いられる。各音素に対応した音情報は、ステップ１２４で生成される。

本発明の一実施例では、音情報は、従来技術のいくつかの手段によって求めることができる。例えば、システムは、人の声を記録したデータを単純に格納していて、システムによりメモリの中から呼び出すような仕掛けとすることも可能である。もう一つの方法として、理論的や実験的に生成した音素、機械的に合成した音素、いわゆる半音素、あるいは、各音素カーブの様々な部分を定義する音素の開始、中盤、減衰部、ならびにエネルギー振動に基づいて、システムが音を生成することも可能である。

以下で詳細に説明する本発明の一実施例では、これらの音、より正確に言えば、これらの音を生成するためのルールとそれに対応した定量的な数値は、Ｌｅｓｓａｃルールに基づいて変化させることができるが、Ｌｅｓｓａｃのルールの適用は、音素が、最初の音素の開始を待つ部分であるのか、最後の音素の開始部分であるのかによって異なる形をもつ各音素を格納し、適用可能なＬｅｓｓａｃのルールを検索して適切な音素の形を選択するという手順で実装されている。これについては、以下で詳細に説明する。

音素の並びについての音情報は、本実施例では、音素識別情報とそれに対応したピッチ、長さおよび音声情報の形をもっており、これはステップ１２６で、Ｌｅｓｓａｃの直接連結検出装置に送られる。

Ｌｅｓｓａｃの直接連結を理解するには、Ｌｅｓｓａｃ理論に基づいて、子音単独、あるいは、単語“ｈｉｔｓ”の中の“ｔｓ”のような子音の連続という特定の感覚を習得した後、この音楽感覚や演奏を、単語に適用することを学び、次に文章に適用することを学び、最後に段落全体に適用することを、日常生活の場で学ぶ。連続した音声の中で、子音を“発声”するためには、特別な指針がある。同じルールは、単独の単語にも同様に適用される。これらのルールの一つには、例えば、“最後の子音は、次の単語の先頭の母音に直接連結する”というものがある。すなわち、
ｆａｒａｂｏｖｅ（一つの単語、すなわちｆａｒａｂｏｖｅとして扱う）
ｇｒａｂｉｔ
ｓｔｏｐｕｐ
ｂａｄａｃｔｏｒ
ｂｒｅａｔｈｅｉｎ
ｔｈａｔ’ｓｅｎｏｕｇｈ
ｔｈｉｓｉｓｉｔ

これが直接連結と呼ばれるものである。

Ｌｅｓｓａｃ理論に基づいて、２つの音素の並びが、直接連結を必要とする際には、このことがステップ１２６で検出される。Ｌｅｓｓａｃ理論によれば、各音素に対応した定量的な数値を変更して、正しい音を発生させることができる。このような直接連結の変更は、ステップ１２６でシステムから出力される。しかし、ステップ１２８では、どの場合でも同じことをやるのではなく、変更の程度を、ランダムに変えてゆく。この目的は、機械的に均一で入力に忠実なモデルではなく、自然な音声合成とすることにある。従って、ステップ１２８では、音素に対応した定量的な数値の中に、変更の程度を加え、システムは、Ｌｅｓｓａｃ理論に従って発声しランダム化された音を、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で生成する。

ステップ１３０では、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で表した、Ｌｅｓｓａｃ理論に従って発声しランダム化された音により、ステップ１２２で生成した韻律記録の出力を変更する。

同様に、Ｌｅｓｓａｃ理論による他の発音の変更には、いわゆる、再生と連結がある。口の中の全く異なる位置で形成され、連続して発せられた子音は、完全に再生することができる。例えば、黒の蝶ネクタイ、Ｋビート（タムタムの音）は、柔らかい口蓋からはじけるように離れた舌の後部で形成され、Ｔスネアドラム・ビートは、歯肉の縁からはじけるように離れた舌の先で形成され、これら２つは全く異なる接触点となる。従って、Ｔ音がはじけるように発せられる前に、Ｋ音を完全に再生（あるいは音が完結）することができる。これと同じ原理は、“ｌｏｖｅｋｎｏｔ”を発音するときにも当てはまり、ここでは、ＶチェロとＮバイオリンが、口の中の異なる２つの場所で発せられる。他の例としては、
ｓｏｂｓｉｓｔｅｒ
ｋｅｅｐｔｈｉｓ
ｓｔａｎｄｂａｃｋ
ｔａｋｅｔｉｍｅ
ｓｍｏｏｔｈｓｕｒｆａｃｅ
ｓｔａｃｋｐａｃｋ
ｃａｎ’ｔｂｅ
ｈｉｌｌｃｏｕｎｔｒｙ／ａｓｋｎｏｔｗｈｙ
ｕｎｄｅｒｓｔａｎｄｐａｔｉｅｎｃｅ

この連結の種類は、再生と連結と呼ばれるものである。

このように、２つの音素が並び、Ｌｅｓｓａｃ理論に従って、再生と連結が必要となる場合には、同様のことがステップ１３２で検出される。Ｌｅｓｓａｃ理論によれば、この２つの音素の各々に対応した定量的な数値を変化させて、正しい音を作り出すことができる。ステップ１３２で、このような再生と連結の変更の結果が、システムから出力される。ステップ１３４では、どのケースにでも同一のものを適用する代わりに、自然な音声を発する音声合成の目的を満たすように、変更の程度をランダムに変化させる。このように、ステップ１３４では、音素に対応した定量的な数値の中に、変更の程度を加え、システムは、Ｌｅｓｓａｃ理論に従って発声しランダム化された音を、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で生成する。

ステップ１３６では、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で表した、Ｌｅｓｓａｃ理論に従って発声しランダム化された音を、ステップ１２２で生成した韻律記録の出力によって変化させる。

Ｌｅｓｓａｃ理論による他の発音の変更には、いわゆる準備と連結がある。これは、いくつかの子音が、口の中の同一の接触点、あるいは、ほぼ同一の接触点で形成される場合である。これは、同一の子音と同族語に対して成立する条件である。同族語は、同一の場所と同一の方法で発せられる２つの子音であり、一方の音は発せられるが、他方の音は無音である。表２に例を示す。

これらの場合では、人は、最初の子音を準備して崩すように、すなわち、唇あるいは舌を、最初の子音を発する位置に動的にもってゆくが、二番目の子音だけを完全に発声する。この準備動作は、最初の子音を、単に欠落させないためのものである。

また、２つの子音が、半分関連しあう場合、すなわち、それらの接触点が、口の中のほぼ同一の位置となる場合にも、この準備動作が生じる。
ｓｔａｂｍｅ
ｈｅｌｐｍｅ
ｇｏｏｄｎｅｗｓ
ｔｈａｔｓｅｅｍｓｇｏｏｄ
ｒｅｄｚｏｎｅ
ｄｉｄｔｈａｔ

半分関連しあう子音は、持続可能な種類の子音がドラムビートに続くように、これらが発声される場合にのみ関連しあうものとなる。これらが反転した場合、例えば、“ｐｕｓｈｄｏｗｎ”の場合には、この関係は消滅し、これらの子音は、再生と連結の関係となる。

この連結の種類は、準備と連結と呼ばれるものである。

これらの３つの連結の効果は、一つの単語から次の単語へ無理なくつないで、自然な音声が発せられるようにするというものである。同様の効果は、一つの単語の中でも生み出すことができる。

このように、２つの音素が並び、Ｌｅｓｓａｃ理論に従って、準備と連結が必要となる場合には、同様のことがステップ１３８で検出される。Ｌｅｓｓａｃ理論によれば、この２つの音素の各々に対応した定量的な数値を変化させて、正しい音を作り出すことができる。ステップ１３８で、このような再生と連結の変更の結果が、システムから出力される。

ステップ１４０では、どのケースにでも同一のものを適用する代わりに、自然な音声を発する音声合成の目的を満たすように、変更の程度をランダムに変化させる。従って、ステップ１４０では、音素に対応した定量的な数値の中に、変更の程度を加え、システムは、Ｌｅｓｓａｃ理論に従って発声しランダム化された音を、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で生成する。

ステップ１４２では、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で表した、Ｌｅｓｓａｃ理論に従って発声しランダム化された音を、ステップ１２２で生成した韻律記録の出力によって変化させる。

Ｌｅｓｓａｃルールに関する以上の説明から理解できるように、変更が生じるのは、ステップ１３０、ステップ１３６、あるいはステップ１４２だけであり、これは、２つの子音の並びが、直接連結ルール、再生と連結ルール、および準備と連結ルールからなるグループの、いずれか一つに属するという理由からである。

本発明では、韻律の深さも変化させることが可能である。これと、ランダムに変化させることを混同してはならない。特に、所定の範囲内でランダムに変化させることは、韻律の定量的な値に適用される。しかし、この範囲自体を変更すると、変化をより深めることができる。ランダムに韻律を変化させる範囲を変更することには、いくつかの形がある。例えば、変更は、通常の曲線、あるいはベル型曲線で分布を描いており、韻律の変更の深さは、ベル型曲線の頂点の定量的な値を変更する形、および、あるいは、ベル型曲線の幅を変化させる形となる。

変更は、ランダムなベル型曲線分布、他のランダムな分布、擬似ランダムな分布などのように、均一とならないような、何らかのルール、あるいは複数のルールに従って行われる。

特に、ステップ１４４では、ステップ１４６でシステムに入力されたランダムデータに応じて、韻律を変更する。さらに、ステップ１４８では、手作業による上書き、および、あるいは、ベル型曲線の中心点やベル型曲線の幅などの手作業による選択によって、深さを変更する。

さらに、ステップ１４４の実行の後、音の認識情報と他のパラメータと組み合わされた韻律とが、システムで与えられ、韻律変調器に送られる。ステップ１５０では、韻律変調器が音声信号を生成する。

ステップ１４８での、システムに手作業で入力された韻律の深さの選択と同じように、本発明では、システムは、男声の話者、女性の話者、成熟した大人の女性の話者、若い男性の話者、外国語訛りのある成熟した大人の男性の話者など、異なる話者を模擬するために、韻律の選択における変更を考慮したものになっている。これはステップ１５２で行なわれる。

本発明では、現実世界での音声の潜在的な特徴を考慮することにより、システムでの現実感を向上させるものとなっている。これには、ほぼすべての環境に限られた量だけ存在する、ある程度の量のエコーが含まれている。エコーパラメータは、ステップ１５４で設定される。ステップ１５６で、ランダム化が行われ、例えば、頭をいろいろな方向に動かしたり、話しながら歩き回る話者を模擬する。そして、ステップ１５８で、ランダム化されたパラメータにより、システムにエコーが加えられる。

ステップ１５８で生成された信号は共鳴して、肺、気管、喉および口の音響空洞が、発声により大きさを変えることを模擬する。通常、この空洞の大きさは、音素の母音によって変化する。例えば、通常、母音“ｉ”は、小さな音響空洞で発せられるが、文字“ａ”は、たいていの場合、大きな音響空洞で作り出される。

ステップ１６０では、システムに共鳴が導入され、そこでは、ステップ１６２で生成された母音情報に従って、共鳴の中心周波数を変化させる。この母音情報は、ステップ１６４で共鳴パラメータを制御するために用いられる。この情報は、例えば、所望するＹ−ｂｕｚｚとａ−Ｙｂｕｚｚに作用するために用いられる。さらに、ランダム化はステップ１６６で導入される。図に示してきたように、ある程度のランダム化は、様々な場面で有効であり好ましいものであるが、本発明では、ランダム化するステップはない。

次に、ステップ１６０で生成された信号は、音響空洞を形成する細胞の減衰効果を模擬するように、減衰させる。通常、この空洞の細胞の減衰効果は、音の周波数に応じて変化する。

ステップ１６８で、システムに減衰を加える。減衰パラメータは、ステップ１７０で設定され、ステップ１７２でのランダム化ではオプションとして扱われ、最終的な減衰情報が与えられる。この減衰情報を用いて、ステップ１６８で実装された減衰を制御する。

最後に、ステップ１７４では、システムによって生成した音声に、背景ノイズを加える。この背景ノイズは、白色雑音や、音楽や、より低い音量の他の音声などであってよい。

本発明によれば、人工知能を用いて、音声中でいつ休止するかを決定する。必要に応じて、これらのボゼズ（bosses）は増やすことができ、ボゼズでは、音声合成の操作についての意思決定で用いられる。さらに、Ｌｅｓｓａｃによる定義に従って、子音エネルギードラムビートにより特定された音声の休止の間に、平滑化フィルタを適用することも可能である。これらのドラムビートは、連続音声のセグメントのマイク付けをはずす作用をする。既存の方法に対し、平滑化フィルタを用いることにより、これらのセグメント中の音声を、連続した音にして、一まとまりにならないようにできる。

さらに、低音、高音、中音の音声周波数の減衰のような、より普通の平滑化を用いることにより、娯楽に用いられる従来のステレオ受信機と同じように、出力音声の全体のピッチに効果を及ぼすことができる。

図４は、本発明の音声合成方法２１０の他の実施例を示す図である。方法２１０は、ステップ２１２の、音声に変換するテキストの入力処理から始まる。テキストは、ステップ２１４で、人工知能アルゴリズムにかけられ、その文脈と一般情報コンテンツを決定するが、比較的単純な人工知能処理方式により、この情報コンテンツを生成するレベルとなっている。例えば、テキスト中にクエスチョン符号が含まれていることから、質問文であると判定するようなレベルの処理を想定している。このようなレベルの処理とすることは、上述したように、テキストで表わされた様々な音を構成する音素の韻律に対して、特有の効果を与えるものとなる。

ステップ２１６では、韻律の識別情報と韻律の音とともに、ステップ２１８のテキストから得られた、テキスト中の音素の韻律を決定し、韻律の記録を生成する。ステップ２1６で生成した韻律記録は、その発音が辞書に定義されているような特定の単語に基づくものである。ステップ２２０では、その韻律に対応した文脈情報をもつテキストを用いて、テキスト中の文脈のテキストの特定の要素に対応した韻律を決定する。この文脈韻律決定（文章中のクエスチョン符号で与えられるようなこと）は、ステップ２１８で生成した韻律記録を修正するのに用いられる付加情報をもたらす。

本発明では、ステップ２１８で、テキストの要素の韻律に、ピッチと長さについての定量的な値が割り付けられる。さらに、ステップ２１８で生成された値は、ステップ２２０で変化させる。従って、韻律記録は、文脈韻律情報によって変化した各語の韻律についての基本情報を含むため、ステップ２１８は、増強した韻律記録を生成するものと言える。

しかし、前の実施例と同じように、システムから出力された韻律番号をランダムに変化させることを用いるため、均等なルールに基づいた韻律の機械的な感覚は取り除かれる。定量的な韻律の数値が不正確な韻律に対応するような範囲に到ることのないように、ランダムな変化の幅は、適切な値に設定する必要がある。本発明では、出力される音声信号を通して、意味を容易に理解できなくなるほど、韻律を変化させることなく、機械的でない出力音声信号が得られるように、韻律を変化させる。このように韻律記録中の定量的な値を変化させる処理が、ステップ２２２に実装されている。

ステップ２１８で出力された識別情報に加え、ステップ２１８で特定された音素は、音情報に関連付ける必要がある。この音情報は、規格化された音情報の形式をもつ。本発明の一実施例では、規格化された音情報を基準にして音の長さとピッチを変えるために、音情報が用いられる。各音素に対応した音情報は、ステップ２１８で生成される。

音素の並びについての音情報は、本実施例では、音素識別情報とそれに対応したピッチ、長さおよび音声情報の形をもっており、これはステップ２２６で、Ｌｅｓｓａｃの直接連結検出装置に送られる。

Ｌｅｓｓａｃ理論に基づいて、２つの音素の並びが、直接連結を必要とする際には、このことがステップ２２６で検出される。直接連結が検出された場合には、システムは、決定ステップ２２７で判定し、ステップ２２８に進む。Ｌｅｓｓａｃ論理に基づいて、各音素に関連する定量値は修正されて適切な音声となる。このような直接連結の修正（あるいは、上記の韻律を変化させて修正された、異なるソース音素）は、ステップ２２８でシステムから出力される。しかし、ステップ２２８では、どの場合でも同じことをやるのではなく、変更の程度を、ランダムに変えてゆく。この目的は、機械的に均一で入力に忠実なモデルではなく、自然な音声合成とすることにある。従って、ステップ２２８では、音素に対応した定量的な数値の中に、変更の程度を加え、システムは、Ｌｅｓｓａｃ理論に従って発声しランダム化された音を、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で生成する。

ステップ２３０では、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で表した、Ｌｅｓｓａｃ理論に従って発声しランダム化された音により、ステップ２２２で生成した韻律記録の出力を変更し、更に、変更された記録は、オプションの韻律の深さを変調するステップ２４４の処理に送られる。

ステップ２２６で直接連結が検出されない場合には、システムは、決定ステップ２２７で判定し、ステップ２３２に進む。

２つの音素が並び、Ｌｅｓｓａｃ理論に従って、再生と連結が必要となる場合には、同様のことがステップ２３２で検出される。もし再生と連結が検出された場合には、システムは、決定ステップ２３３で判定し、ステップ２３４に進む。Ｌｅｓｓａｃ理論によれば、この２つの音素の各々に対応した定量的な数値を変化させて、正しい音を作り出すことができる。ステップ２３２で、このような再生と連結の変更（あるいは、上記の韻律を変化させて修正された、異なるソース音素）の結果が、システムから出力される。ステップ２３４では、どのケースにでも同一のものを適用する代わりに、自然な音声を発する音声合成の目的を満たすように、変更の程度をランダムに変化させる。このように、ステップ２３４では、音素に対応した定量的な数値の中に、変更の程度を加え、システムは、Ｌｅｓｓａｃ理論に従って発声しランダム化された音を、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で生成する。

ステップ２３６では、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で表した、Ｌｅｓｓａｃ理論に従って発声しランダム化された音を、ステップ２２２で生成した韻律記録の出力によって変化させ、更に、変更された記録は、オプションの韻律の深さを変調するステップ２４４の処理に送られる。

ステップ２３２で直接連結が検出されない場合には、システムは、決定ステップ２３３で判定し、ステップ２３８に進む。２つの音素が並び、Ｌｅｓｓａｃ理論に従って、準備と連結が必要となる場合には、同様のことがステップ２３８で検出される。もし準備と連結が検出されない場合には、システムは、決定ステップ２３９で判定し、ステップ２４６に進む。Ｌｅｓｓａｃ理論によれば、この２つの音素の各々に対応した定量的な数値を変化させて、正しい音を作り出すことができる。ステップ２４０で、このような再生と連結の変更（あるいは、上記の韻律を変化させて修正された、異なるソース音素）の結果が、システムから出力される。ステップ２４０では、どのケースにでも同一のものを適用する代わりに、自然な音声を発する音声合成の目的を満たすように、変更の程度をランダムに変化させる。このように、ステップ２４０では、音素に対応した定量的な数値の中に、変更の程度を加え、システムは、Ｌｅｓｓａｃ理論に従って発声しランダム化された音を、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で生成する。
ステップ２４２では、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で表した、Ｌｅｓｓａｃ理論に従って発声しランダム化された音を、ステップ２２２で生成した韻律記録の出力によって変化させ、変化させた記録をステップ２４４でのオプションの韻律深さ変調を行なう。

ステップ２３８で準備と連結が検出されない場合には、システムは、決定ステップ２３９で判定し、ステップ２４４に進むが、そこでは、Ｌｅｓｓａｃ理論に基づく変更はなく、韻律記録と音素に対して、韻律の深さを変化させる処理を行う。

本発明では、ステップ２４６でシステムに入力されたランダムデータに応じて、ステップ２４４で韻律が変更される。更に、ステップ２４８では、手作業による上書き、および、あるいは、ベル型曲線の中心点やベル型曲線の幅などを手作業で選択して、深さが変更される。

さらに、ステップ２４４の実行の後、音の認識情報と他のパラメータと組み合わされた韻律とが、システムで与えられ、韻律変調器に送られる。ステップ２５０では、韻律変調器が音声信号を生成する。

韻律の深さを手作業で選択してシステムに入力するステップ２４８の処理と同様に、本発明では、システムは、男性の話者、女性の話者、成熟した大人の女性の話者、若い男性の話者、外国語訛りのある成熟した大人の男性の話者など、異なる話者を模擬するために、韻律の選択における変更を考慮したものになっている。本発明では、人工知能、ユーザによる入力、あるいはそれらの組み合わせにより、対話の有無を判定する。一般的に、対話というものは二人の話者の間で交わされるものであり、このような場合、システムは、例えば、文中のクエスチョン符号を見つけ出すことにより、一方の話者が話している時と、他方の話者が話している時とを区別することができる。人工知能を使うと、例えば、テキスト中の話者の名前を見つけ出して、話者の性別を区別することができたり、テキストの広い範囲を見て、その人が苗字で呼ばれる時と、苗字と名前のフルネームで呼ばれている時とを区別することが可能となる。このような情報は、すべてステップ２５１で抽出され、ステップ２５２の話者の選択処理で考慮されるようになっている。例えば、本装置は、一方の話者の音声を、どっしりとした男性の声で作りだし、他方の話者の音声を、旋律の美しい女性の声で作り出すことが可能である。

ステップ２５０で出力したテキストは、更に、図３に示す処理ステップに渡される。

図５は、本発明の音声合成方法３１０の他の実施例を示す図である。方法３１０は、ステップ３１２の、音声に変換するテキストの入力処理から始まる。テキストは、ステップ３１４で、人工知能アルゴリズムにかけられ、その文脈と一般情報コンテンツを決定するが、比較的単純な人工知能処理方式により、この情報コンテンツを生成するレベルとなっている。このようなレベルの処理とすることは、上述したように、テキストで表わされた様々な音を構成する音素の韻律に対して、特有の効果を与えるものとなる。

ステップ３１６では、韻律の識別情報と韻律の音とともに、ステップ３１８のテキストから得られた、テキスト中の音素の韻律を決定し、韻律の記録を生成する。ステップ３1６で生成した韻律記録は、その発音が辞書に定義されているような特定の単語に基づくものである。ステップ３２０では、その韻律に対応した文脈情報をもつテキストを用いて、テキスト中の文脈のテキストの特定の要素に対応した韻律を決定する。この文脈韻律決定（文章中のクエスチョン符号、あるいはＬｅｓｓａｃルール（例えば、図４で示したように実装されたルール）で与えられるようなこと）は、ステップ３１８で生成した韻律記録を修正するのに用いられる付加情報をもたらす。

本発明では、ステップ３１８で、テキストの要素の韻律に、ピッチと長さについての定量的な値が割り付けられる。さらに、ステップ３１８で生成された値は、ステップ３２０で変化させる。従って、韻律記録は、文脈韻律情報によって変化した各語の韻律についての基本情報を含むため、ステップ３１８は、増強した韻律記録を生成するものと言える。

しかし、前の実施例と同じように、システムから出力された韻律番号をランダムに変化させることを用いるため、均等なルールに基づいた韻律の機械的な感覚は取り除かれる。定量的な韻律の数値が不正確な韻律に対応するような範囲に到ることのないように、ランダムな変化の幅は、適切な値に設定する必要がある。本発明では、出力される音声信号を通して、意味を容易に理解できなくなるほど、韻律を変化させることなく、機械的でない出力音声信号が得られるように、韻律を変化させる。このように韻律記録中の定量的な値を変化させる処理が、ステップ３２２に実装されている。

ステップ３１８で出力された識別情報に加え、ステップ３１８で特定された音素は、音情報に関連付ける必要がある。この音情報は、規格化された音情報の形式をもつ。本発明の一実施例では、規格化された音情報を基準にして音の長さとピッチを変えるために、音情報が用いられる。各音素に対応した音情報は、ステップ３１８で生成される。

音素の並びについての音情報は、本実施例では、音素識別情報とそれに対応したピッチ、長さおよび音声情報の形をもっており、これは、オプションとして、上述したように、Ｌｅｓｓａｃの連結の検出によって変更され、ステップ３４４で、オプションの韻律の深さを変調する処理にかけられる。

本発明では、ステップ３４６でシステムに入力されたランダムデータに応じて、ステップ３４４で韻律が変更される。更に、ステップ３４８では、手作業による上書き、および、あるいは、ベル型曲線の中心点やベル型曲線の幅などを手作業で選択して、深さが変更される。

さらに、ステップ３４４の実行の後、音の認識情報と他のパラメータと組み合わされた韻律とが、システムで与えられ、韻律変調器に送られる。ステップ３５０では、韻律変調器が音声信号を生成する。

韻律の深さを手作業で選択してシステムに入力するステップ３４８の処理と同様に、本発明では、システムは、感情を模擬するために、韻律の選択、および、あるいは、点量的な韻律の値の変更を考慮したものになっている。これは、様々な感情に関連付けられたある種の単語の存在と頻度、および、ある種の語句などの存在を検出することにより実現されている。本発明では、人工知能（あるいは、手作業による上書きのための、ユーザによる入力、あるいはその組み合わせ）を用いて、これの処理に関する性能を向上することが考慮されている。このような情報は、すべてステップ３５１で抽出され、さらに、適切な感情を反映するために、拡張された韻律記録をステップ２５３で変更する、韻律を変更する情報を生成するために用いられる。この情報は、ステップ３４４で韻律の深さを変更するために送られる。

従来技術による音声合成（ＴＴＳ）システムでは、合成装置が課題となっていた。一方、音声をつなぎ合わせて合成する方法を用いると、フォルマント周波数による方法よりは融通性は少なくなるものの、男性と女性の違いに合わせて、より整合のとれた音声を作り出す特徴をもっている。また、人間の音声で使われるときの調和音と音量で再生される高品質の合成音声を、高品位の記録として取り込むことができ、シンセサイザからの音を加工するのに用いられる音素を用いることができる。残念なことに、周波数や韻律の不連続性を生じる同時調音と呼ばれる、（音素、二重音声、三重音声などの）音の単位の不適切なマッチングの影響を受ける。

従来技術の他の問題としては、限定されたり不適切な表現性、不自然な韻律、ならびに、生み出そうとする音声によって感情表現を伝えることが求められる場面で、音声によって感情を伝えることに失敗するといったものがある。

本発明のシステムは、これらの問題点を解決するものである。上で説明したように、本発明の方法は、人工知能（ＡＩ）を適用してテキストの意味を認識し、伝えようとするメッセージの感情表現を特定するものである。本発明のほかの実施例では、シンセサイザに対してどのように発音すべきかを指示する際に含まれる、音素データベースへの書記素に着目している。

従来技術によるＴＴＳでは、入力テキストを解析して、テキストを規格化し、文章の構造を特定して、文章の構造や構文を言語的に解析することが行われている。これは、書記素によってテキストからの音声出力を得るものである。さらに、音声分析は、書記素を音素に変換し、韻律分析により、ピッチ、長さおよびリズムについての音響的な変更を行う。これらの処理の出力は、入力されたテキストを音声合成して発音したものになる。

現行のＴＴＳでの課題は、音声合成したものが、実際の人の音声のようなリズムと表現性をもつようにすることである。本発明の方法では、音声合成すべき言語的にマーク付けしたテキストを、さらに、自動計算言語処理（ＡＣＬ）と人工知能（ＡＩ）によって処理する。

前者のＡＣＬ技術は、音声合成しようとするテキストから得られた構造的、音色および子音のエネルギーを表す、合成音声の音響的な特徴を、どこで適用するかを決定するものである。この技術は、単語を個々に発音する際に、個々の単語の中にある音の調音と同時調音の並びを生み出すために、音素指令の唯一の書記素が、どこで必要になるのかを特定する。また、この技術は、発声させる単語の特定の並びの中で調音の変更が必要となる場合があるため、音の調音と同時調音の別の並びを生み出すために、音素指令の唯一の書記素が、どこで必要になるのかを特定する。このような発音のルールのいくつかの例として、“連結と再生”、“準備と連結”などのルールが、ＡｒｔｈｕｒＬｅｓｓａｃの著書の中で紹介されている。

また、後者の人工知能技術は、元のマーク付けテキストを処理して、合成音声がどのような人に向けて話しかけられようとしているかを明らかにするものであり（例えば、一般的なニュース内容、個人向けにカストマイズされたニュース、個人に対して説得するメッセージなど）、さらに、合成音声によって伝えようとするメッセージの意味（例えば、熱意、興奮、客観的な事実の表現、ユーモアなど）に応じて文脈を伝えるために必要とされる、最も適した表現上の韻律を明らかにするものである。メッセージの内容と意図、ならびに想定される聞き手は、用いるべき韻律はなにかを示すものとなる。これにより、リズム、音色の変化、音色の変化率の変化、子音と母音の長さ、さらに、会話の構造的な要素を反映した音響的な要素と共鳴が変更される。上述した単語と句の、“規格化された”自然な表現での発音に対し、ＡＣＬで規定されている発音ルールの規格化された調音と同時調音に基づき、書記素から音素へのユニークな変換命令の、音の時間的な変化の後で、これらの変更を行うことになる。

本発明の発想の一つの原点は、複数のデータベースを備えて利用することにある。これらのデータベースの内容と生成について、以下、説明する。これらのデータベースは規格化され、自然な会話を特定するための参照基準として提供される。明瞭に聞こえるように適切に発音された単語の韻律の並びと、個々に発声される単語と、連続した単語として発声される単語に関する、子音の自然な調音についてのルールが、規格化されている。

これらのデータベースの音素と書記素は、規格化されることにより、発音の本来のリズムの減衰範囲を備えている。同様に、子音と母音を再生する際に、音色が変更される自然な音楽に制約を加え、用いる構文に依存した変更についても、音量と共鳴を考慮する必要があるが、同様にその変更を減らすことができる。

本発明の方法では、音声の利用と訓練に関するＬｅｓｓａｃシステムに含まれる他のルールは、再生された子音あるいは母音の音色を、伸ばしたり、縮めたり、上昇させたり下降させたりして変更し、その変化の時間と率も変更するためのマーク付けされた命令として利用される。同様に、音色、共鳴および調和音に影響を与えるような構造的な変更に対して、他のマーク付け命令がある。例えば、逆円錐の大きさ、唇を開く大きさ、ｙ−ｂｕｚｚである。最後に示すこの種の命令としては、韻律における句読要素として、子音の調音、沈黙、およびの沈黙のランダム性を特定するものがある。

本発明の方法は、認定されたＬｅｓｓａｃ理論の実践者たちを、選択されたスタイルでテキストを読み上げる話者として用いている。これらの実践者たちは、話されるメッセージを調べて、話されるメッセージの意図した目的と、想定される聞き手を想定する。一例として、様々な聴衆に対するラジオのニュース放送の原稿を、例証として考察する。これらのメッセージが、どんな言語レベルにあるのかを分析すると、サンプリングしたテキストは、言語的な理解の要求レベルとして、８年生から１２年生のものであり、また、大学学部卒業程度のものが表現されている。

認定されたＬｅｓｓａｃ理論の実践者たちは、Ｌｅｓｓａｃシステムの発音ルールの記法に従って、手作業でこれらのテキストにマーク付けをした。手作業のマーク付けルールのデータベースは、音声合成の対象となるテキストを計算機によって言語評価するためのベースであり、上述した自動計算機言語解析技術のベースである。これらの実践者たちは、これらの例としてのテキストを、印象的に、かつ、伝えようとするテキストの意味に従って音声にして話す。音色、構造、子音のエネルギーが、会話の中では異なるバランスを持つような表現のスタイルを変えて発音しながら、各話者が、繰り返し音声を発してゆく。

これらの実践者たちは、自分が話す順番である時を除き、他の人が話すのを聴いて、マーク付けされたテキストの通りに正確に話されているかに着目する。また、彼らは、伝えようとするテキストの意味が表現されているところで、スタイルの基準が満たされているかに着目して、他の人の話すのを評価する。マーク付けテキストに正確に沿っているか、あるいは、スタイルの基準が満たされているかのいずれかの観点で、失敗したと見なされる話は、選択されたテキストに対する会話の記録として残すものから除外される。

表現の単独のスタイルとして、テキストのマーク付けに適用されるルールは、聞き手に音声として与えられるテキストを効率的に区別し、伝えようとするメッセージの認知的な意味と、その意味を伝えることに最も役立つ表現スタイルを決定するための、人工知能技術（構文、語彙選択、句構造、ファジー集合、ニューラルネット等）のベースとなるものである。

音声を発する際の個々の表現に関する韻律のルールのデータベースを用いて、個々に発声された単語と、句あるいは段落のように単語が並んだ形での単語の発音について、規格化された自然な発音の“標準スタイル”のための音声と明確に発音するルールだけを用いて発音されたものと同じテキストについての規格化された音響の時間軸上の変化からのズレを補正する。この指標は、音素のレベルで生成される音に対し、ピッチ周波数、音素の持続時間、単位時間当りの音の変化、および音の変化の時間軸上の変化について、単位量の＋と−の変化として出力されるものである。このように、伝えようとするメッセージの内容に適したスタイルと、リズム、音調の変化、および音声合成されるテキスト中の単語について、子音および母音の伸ばされたり短くされた調音の変化の時間軸上の変化を与えるために用いられるスタイルを与える、人工知能に基づくテキストの評価結果が得られる。表現のスタイルに関する指令は、個々に発音される単語と、発声される単語の並びの中での単語の位置により、発音を変更する必要のある単語に規格化された音データからのズレを定量化したものとして与えられる。

本発明の目的は、特定の複数のデータベースの組を作り出し、効果的なメッセージのスタイルを、聞き手の要求に合わせることにある。受け入れられた音声を集めて、これを高品位の記録の形で保存し、選び抜かれたテキストに対する音声を収録した音声データベースとして格納する。これらの音声を、高校卒業未満、高校卒業、大学卒業の各教育レベルの人たちを聞き手として再生する。聞き手は、明確に理解できるものとして話者の認知に基づき、高品位の音声を判定する。その判定は、話者についての聞き手の印象を、肯定的、中立的、否定的で表すことや、話者の信憑性について、充分信用できるから信じられないまでで表すことや、話し方のスタイル（客観的な報告、事実にもとづく主張、確信にもとづく主張、親密さ、ユーモアなど）についてや、話者の感情的な状態（幸せ、悲しい、恐ろしい、怒っているなど）について行われる。また、聞き手は、伝えられた単語と語句が正確に認知できたかどうかについてもテストされ（テストサンプルの単語と語句の中の理解した割合）、また、話者が意図とする意味を正確に理解できたかどうかについてもテストされる（メッセージの中の主要な考え方を、聞き手が正しく認知した割合や、そのような音声になっている理由や、意図とした聞き手の想定を正しく認知した割合で判定する。）

同時に、同じ条件をもつ聞き手を集め、再度、異なる教育到達レベルごとにテストする。この聞き手の集団では、各人には、元のテキストを文字で読ませるが、高品位の録音は聴かせないようにする。各人は、認知、印象および正確な理解について、先の音声を聴かされた集団と同一の項目についてテストを受ける。

本発明によれば、人工知能技術（ＡＩ）によって直接適用されるルールの集合を構築する。充分なサンプル量となる数の聞き手が、読まれたテキストの特定の記録音声を聴いて、メッセージを正しく受け取り、その意味を理解した段階で、最終的なルール選択を行う。各ルールは独立変数として扱い、多重識別統計分析を行って、複数のデータベース中の規格化された単語と句から、距離関数での変動幅が所定の値となるルールの最小の集合を特定する。この変動幅は、変更された音素と距離関数を適用した一定の割合、例えば、９５％とするこれにより、理解の程度があまり影響しないルールを除外できる。

関連した距離関数とルールは、ＡＩ処理で用いられ、意図した表現、採用された韻律および音楽要素を求めるために、音素と書記素を変更するための自動出力を示す。これらの新しい値を合成し、Ｌｅｓｓａｃ理論の実践者に対して再生する。この実践者は、その合成結果を聴いて、合成のための複数のデータベース値を単純に用いた場合と比較して、音声品質について評価を下す。

次に、これらの音声を、Ｌｅｓｓａｃ理論の実践者の高品位録音を聞いた聞き手に対応した聞き手集団に対して再生する。この目的は、少ないルールの集合で印象に関する合成を行った結果において、非専門家である聞き手の高品位録音よりも、理解度が等しいかそれを上回ることを確認することにある。

最終的なルールと距離関数の集合は、ＡＩ評価と、合成しようとするマーク付けされたテキストの計算言語処理による出力に対応したルールを含むデータベースセットとなる。
本発明の実施例を、システムの様々な部分に対するいくつかの代案とともに説明してきたが、様々な変更が可能であることは、本技術分野に精通した者にとっては自明なことである。これらの変更は、本発明の趣旨と範囲を逸脱することはなく、この趣旨と範囲は、請求項で限定し定義したものである。

本発明による音声合成システムを示す図である。３つのＬｅｓｓａｃルールを適用した音声合成システムを示す図である。図２のシステムからの韻律出力を処理するために用いられるフィルタシステムを示す図である。話者を区別する特徴を付加した、図２に示したものと同様の音声合成システムを示す図である。出力合成音声中に感情を込めるための、本発明による音声合成システムを示す図である。

Claims

メモリを有する計算機装置を用いて音声合成を行う方法であって、
（ａ）前記計算機装置の前記メモリにテキスト（１１２）を受信するステップと、
（ｂ）言語構文解析ルール（２６）の集合を適用し、前記テキストを複数の要素に構文解析するステップと、
（ｃ）発音と意味に関する情報を、前記要素に対応づけるステップと
（ｄ）語句構文解析ルール（１８）の集合を適用し、マーク付けしたテキストを生成するステップと、
（ｅ）音構文解析ルールを用いて、前記マーク付けしたテキスト（２２）を音構文解析するステップと、
（ｆ）複数の音をメモリに格納するステップであって、前記音の各々は、前記発音に関する情報に対応付けられたものであることを特徴とするステップと、
（ｇ）前記テキストに対応付けられた音を呼び出し、生の音声信号を生成するステップを含む方法であって、
さらに、（ｈ）表現構文解析ルール（２６）を用いて、前記マーク付けしたテキストを構文解析するステップを含み、該ルールは、任意のＬｅｓｓａｃ構文解析ルールであることを特徴とする方法。
請求項１記載の方法において、表現構文解析ルールは、データベースから求められ、Ｌｅｓｓａｃの音声指導システムに基づくものであり、ルールは、発声されるか無音である子音ドラムビートの特定と、単語リスト中の音エネルギー位置と、単語の中の構造的な母音の音と、連結詞を任意に含むことを特徴とする方法。
請求項１記載の方法は、ランダム化された文脈韻律変更を含むことを特徴とする方法。
請求項１記載の方法は、直接連結、再生と連結、および準備と連結からなるグループから選択した任意の一つまたはより多くのＬｅｓｓａｃ連結詞の韻律変更を含むことを特徴とする方法。
請求項１記載の方法は、テキストの意味の認識への人工知能の適用と、伝えようとするメッセージの感情的な状態の特定と、特定された感情的な状態に応じた音声合成出力の韻律の変更とを含むことを特徴とする方法。
請求項１、２、３、４または５記載の方法は、
（ｈ）表現構文解析ルールを用いて決定したパラメータを用いて、前記生の音声信号をフィルタ処理し、出力音声信号を生成するステップを含むことを特徴とする方法。
メモリを有する計算機装置を用いて音声合成を行う方法であって、
（ａ）前記計算機装置の前記メモリに複数単語からなるテキスト（１１２）を受信するステップと、
（ｂ）前記テキストから複数の音素（１１８）を抽出するステップと、
（ｃ）前記音素に対応した音情報を、前記メモリから読み出すステップと、
（ｄ）前記音情報を出力して、音声信号を生成するステップとを含む方法であって、
（ｃ）前記単語に対応した韻律記録のデータベースに基づく韻律記録を、前記音素の各々に対応づけることと、
（ｄ）人工知能ルールの集合を適用し、前記テキストの文脈情報を決定することと、
（ｅ）前記音素の各々に対して、
（ｉ）文脈の影響を受けた韻律の変化を決定し、
（ｉｉ）Ｌｅｓｓａｃ理論に基づくルールの第二集合を適用し、Ｌｅｓｓａｃ理論に基づく韻律の変化を決定し、
（ｉｉｉ）前記文脈の影響を受けた韻律の変化と、前記Ｌｅｓｓａｃ理論に基づく韻律の変化に応じて、韻律記録を変更し、
（ｉｖ）前記音素に対応した音情報を、前記メモリから読み出し、
（ｖ）前記文脈の影響を受けた韻律の変化と、前記Ｌｅｓｓａｃ理論に基づく韻律の変化に応じて変更した韻律記録に基づき、前記音情報を変更し、変更された音情報を生成すすることを特徴とする方法。
請求項７記載の音声合成方法において、前記音声信号の韻律を変化させ、前記音声信号の現実感を向上させることを特徴とする方法。
請求項７記載の音声合成方法において、ランダムに、または擬似ランダムに前記音声信号の韻律を変化させ、前記音声信号の現実感を向上させることを特徴とする方法。
請求項７記載の音声合成方法において、前記音情報を異なる話者に対応させ、人工知能ルールの集合を用いて、出力しようとする音情報に対応した話者の特定情報を決定することを特徴とする方法。
請求項７記載の音声合成方法において、前記文脈の影響を受けた韻律の変化に応じた、韻律記録の前記変更は、前期テキストの単語とそれらの並び方に基づくものであることを特徴とする方法。
請求項７、８、９、１０または１１記載の音声合成方法において、前記文脈の影響を受けた韻律の変化に応じた、韻律記録の前記変更は、前記テキスト中の単語の感情的な文脈に基づくものであることを特徴とする方法。
請求項１２記載の音声合成方法において、前記音声信号の韻律を変化させ、前記音声信号の現実感を向上させることを特徴とする方法。
請求項１３記載の音声合成方法において、ランダムに、または擬似ランダムに前記音声信号の韻律を変化させ、前記音声信号の現実感を向上させることを特徴とする方法。
請求項１４記載の音声合成方法において、前記音情報を異なる話者に対応させ、人工知能ルールの集合を用いて、出力しようとする音情報に対応した話者の特定情報を決定することを特徴とする方法。
請求項１５記載の音声合成方法において、前記文脈の影響を受けた韻律の変化に応じた、韻律記録の前記変更は、前期テキストの単語とそれらの並び方に基づくものであることを特徴とする方法。
請求項１６記載の音声合成方法は、さらに、前記音声信号をフィルタ処理し、フィルタ処理された変更された音情報信号を求め、前記フィルタ処理された変更された音情報信号を出力して音声信号を生成するステップを含むことを特徴とする方法。
請求項１７記載の音声合成方法において、前記変更された音情報の前記フィルタ処理は、エコーの導入を含むことを特徴とする方法。
請求項１８記載の音声合成方法において、前記変更された音情報の前記フィルタ処理は、前記変更された音情報を、母音情報に合わせて共鳴特性を与えるアナログまたはデジタル共鳴回路に送ることを特徴とする方法。
請求項１７記載の音声合成方法において、前記音声信号のフィルタ処理は、前記変更された音情報の減衰を含むことを特徴とする方法。
請求項１６記載の音声合成方法は、さらに、エコーを導入して、前記変更された音情報をフィルタ処理するステップと、前記変更された音情報を、母音情報に合わせて共鳴特性を与えるアナログまたはデジタル共鳴回路に送るステップと、前記変更された音情報を減衰するステップとを含むことを特徴とする方法。
請求項１２記載の音声合成方法は、さらに、エコーを導入して、前記変更された音情報をフィルタ処理するステップと、前記変更された音情報を、母音情報に合わせて共鳴特性を与えるアナログまたはデジタル共鳴回路に送るステップと、前記変更された音情報を減衰するステップとを含むことを特徴とする方法。
請求項１２記載の音声合成方法は、さらに、前記テキストに適用する人工知能ルールに応じ、および、または人による入力に応じて、前記テキストの文脈と論理的に整合をもつ背景音を加えるステップを含むことを特徴とする方法。
請求項１２記載の音声合成方法は、さらに、前記テキストの文脈と整合をとり、前記テキストに適用される人工知能ルールおよび、または人の入力に応じて、論理的に背景音を加えるステップを含むことを特徴とする方法。
請求項１２記載の音声合成方法は、さらに、メッセージの内容、意図または想定される聞き手の情報を用いて、適用すべき韻律を示すステップを含むことを特徴とする方法。
請求項１２記載の音声合成方法は、さらに、リズム、音の変化、音の変化率、子音および母音の音の長さ、調和音の構成および共鳴の中から選ばれた、一つまたはより多くの韻律特性を変更するステップを含むことを特徴とする方法。