JP4363590B2 - 音声合成 - Google Patents

音声合成 Download PDF

Info

Publication number
JP4363590B2
JP4363590B2 JP2003564856A JP2003564856A JP4363590B2 JP 4363590 B2 JP4363590 B2 JP 4363590B2 JP 2003564856 A JP2003564856 A JP 2003564856A JP 2003564856 A JP2003564856 A JP 2003564856A JP 4363590 B2 JP4363590 B2 JP 4363590B2
Authority
JP
Japan
Prior art keywords
sound
speech
text
prosody
lessac
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003564856A
Other languages
English (en)
Other versions
JP2005516262A (ja
Inventor
アディソン、エド
ウィルソン、エイチ.、ドナルド
マープル、ゲーリー
ハンダル、アンソニー、エイチ.
クレブス、ナンシー
Original Assignee
レサック テクノロジーズ、 インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/061,078 external-priority patent/US6847931B2/en
Application filed by レサック テクノロジーズ、 インコーポレイテッド filed Critical レサック テクノロジーズ、 インコーポレイテッド
Publication of JP2005516262A publication Critical patent/JP2005516262A/ja
Application granted granted Critical
Publication of JP4363590B2 publication Critical patent/JP4363590B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Document Processing Apparatus (AREA)

Description

(発明の背景)
音声認識技術は、ここ10年余りの間に、正確さと使いやすさの面において、格段の進歩を遂げてきた。その一方で、テキストから音声への変換技術は、聴きやすく、自然な音で容易に理解しやすい機能を備えたものであるかという点については、いまだに、その機能は定義しにくいものの、求めてやまない目標であることには変わりはない。
少なくとも、英語などのある種の言語において、人の発する音声に含まれ人に聴こえる手掛かりとなるものは、極めて微妙なものであるため、既知の音をもつ既知の音節を音声に変換することは、明らかに簡単なことであると誤解を受ける場合も多い。特に、これらの聴こえる手掛かりとなるもののある種の特徴は認識されているものの、平常文では宣言的に聴こえるが疑問となるとの最後でピッチが上がることや、いくつかは話者に固有に見られるような特徴と、いくつかは任意あるいは一般的に見られるような特徴が、より微妙な表現としてピッチとエネルギー(音量)に現われて、これらが、肉声の個々の音声と組み合わさって、実際の音声を生み出すものとなっている。
本発明によれば、個々の発話者の音色、ランダム性などの要素が、程度を変えて、発せられる音声に組み込まれ、擬似ランダム効果をもたらしている。さらに、発話者の音色は、教師から生徒へ教授されるボイストレーニングの既存の技術でパタン化された表現的なモデルに従ったり、そのモデルと組み合わせて、統合されている。これらの既存の技術の一つに、Lessacシステムがあるが、これは、人間の音声を演劇やそれと同等のものに適用する場面での、人間の音声の明瞭性を向上させることを目的としている。
本発明のアプローチに対し、従来のテキストから音声への変換技術は、しばしば高い情報密度を必要とする、機械的なアプローチを採用している。既存のテキスト・音声変換技術の多くは、例えば、複雑な電話応答システムで用いられるような、全ての文章を予め記録したものを利用していると思われる。このシステムの例としては、米国で利用されている独自システムである、Wildfire(登録商標)がある。これらのシステムでは、表現上の観点から説得性のある特徴を備えた、文字、内容および調子をもって予め記録された文章に着目し、それが対話の形で使われる際の任意性、すなわち対話のオプションの数を最小化することを目的としている。例えば、個人の音声を認識し、その人の電話番号に合致したことを通知するシステムでは、恐らく、喜びあるいは驚きを表すイントネーションで、“やあ!こんにちは、スミスさん”と応答するものとなる。一方、スミス氏が自分自身の電話回線を使って話していたとしても、システムの音声認識ソフトが、スミス氏の音声とは違うと判断した場合には、“本当にスミスさんですか?”と疑った声で応答するように、システムのプログラムを仕組むことができる。上記の例では、人間が発声する上記の文章は、完全に記録されている。しかし、極めて少ない応答のために必要となるメモリ容量は、比較的多いものとなり、実用の目的からは用途が限られる。
他のアプローチとしては、米国特許番号6,266,637、Donavanによる発明のような、いわゆる、“語句配置”と呼ばれる方法がある。この方法では、文章の形で記録された人間の音声を用いて、出力音声を構成する。さらに、本技術によれば、音声の各部の特徴は、例えば、長さ、エネルギーおよびピッチを変化させることにより、変更することができる。これに関連した、発声を再生するアプローチでは、より限定されたシステムの問題は解決できるものの、人間の音声に比べて、明瞭性も悪く、自然に聴こえないという傾向がある。予め録音した音声と合成した音声をある程度混合させることにより、これらの問題のいくつかは解決できるが、その出力音声は、用途も広く語彙も豊富とはなるものの、それでもなお機械的で人工的なものにならざるを得ない。
更に他の方法として、音声を個々の音や音素に分割し、これらの音から単語を合成する方法がある。このような音素は、最初は、人間の音声を録音したものであるが、これらの特徴を変化させ、得られた音素は、異なる長さ、ピッチ、エネルギーや他の特徴について、元の録音に対して変化したものとさせることができる。更に他のアプローチとして、音素を複数録音し、複数の単語の録音を、音素構成ブロックを用いて単語生成と統合する方法がある。
更に、改良した方法として、例えば、入力された音声信号の発声成分と非発声成分の韻律を独立して変化させることにより、韻律を変えるという方法があり、これは、Aceroによる発明、米国特許第6,253,182号に開示されるとおりである。更に、Acero発明でも示されているように、出力音声の周波数領域表現を変化させることも可能である。
音声をつなぎ合わせて合成するシステムは、入力文から音声を出力するために、小さい音声の文節を合成して、人間の音声を生成する。さらに、これらの出力音声ユニットは、つなぎ合わされたり、再生されて、システムが最終的な音声を形成するものとなる。音声は、音素、二重音声(2つの音素)あるいは三重音声(三つの音素)を用いて生成される。Aceroにより示された技術によれば、音声ユニットの韻律は、その音のピッチと長さで定義されるが、質問の最後でピッチを上げるように、意味を伝えるために変化させられるものであってもよい。
更に、他の音声合成技術として、発音に関する技術的なルールを適用し、所定の順序で並んだ子音および、あるいは母音の所定の組合せを音声合成変換するものと組合わせる方法がある。例えば、Manwaring他による発明、米国特許第6,188,984号を参照のこと。本方法の一つの特徴は、音節の間の境界を認識し、適切なルールを適用することにある。
以上見てきたように、現在の音声合成システムの方法は、文章、句、単語をつなぎ合わせるという初歩の段階から、音素を用いて単語生成するという方向に向かって発展してきたものである。単語の部分ユニットを用いて音声合成する方法は、多様な語彙に適している一方で、単語の部分ユニットを重ね継ぐという点で、重大な問題を抱えている。それにもかかわらず、同時に、この方法は、多様な語彙に対応できる、汎用な音声合成システムに対して、最も適したモデルを構成しているようにも見える。したがって、韻律の指定は主要な関心となっている。例えば、Personによる発明、米国特許第6,144,939号では、音源とフィルタ合成器部品を、人間の音声の発声機構の物理的な構造に対して、緊密に対応させる、ソースフィルタモデルの可能性が提案されている。この方法は、音源の波形によって声門の源流をモデル化しながら、フィルタのパラメータを選んで、音声の発生機構の作用をモデル化するものである。人が関与するのは、音節全体をシステムに格納することができないが、音節の半分だけなら対応可能であるような少ないメモリからなるシステムであることは、明確である。ここで、興味ある点は、この方法は、各アルファベットで表された音に対応した各子音の前後に、様々な母音を付加した子音を用いるという、Assyro−Babylonianのアルファベット手法に酷似しているという点である。
(発明の要旨)
メモリを有する計算機を用いて音声合成する方法を開示する。テキストを、計算機のメモリ中に取り込む。語彙構文解析のルールの集合を適用し、テキストを複数のコンポーネントに分割する。発音および意味情報を、これらのコンポーネントに関連付ける。語句構文解析のルールの集合を用いて、マーク付けしたテキストを生成する。さらに、音声的な構文解析ルールとLessac表現構文解析ルールを用いて、マーク付けされたテキストを、音声的に構文解析する。さらに、計算機のメモリに、音を格納し、各々の音には、発音情報を関連付ける。テキストに対応した音を呼び出し、音声および表現構文解析ルールを用いて構文解析した後、マーク付けされたテキストから生の音声信号を生成する。
メモリを有する計算機を用いて音声合成を行う方法の一実施例を、以下、説明する。複数の単語から構成されたテキストを、計算機のメモリ中に取り込む。テキストの中から、複数の音素を抽出する。複数の単語に対応した韻律を記録したデータベースに基づき、各音素を韻律記録に対応づける。人工知能ルールの第一集合を適用し、テキストに対応した文脈情報を求める。各音素に対応した、文脈依存の韻律の変化を求める。さらに、各音素に対応した、Lessacに由来する韻律の変化を決定するための、Lessac理論に基づき、ルールの第二集合を適用する。文脈依存の韻律の変化と、Lessacに由来する尾人の変化に応じて、各音素に対する韻律記録を変化させる。さらに、音素に対応したメモリ音情報を読み出す。文脈依存の韻律の変化と、Lessacに由来する韻律の変化に応じて変化させた韻律記録に基づき、音情報を変化させる。そして、音声信号を生成するために、音情報を出力する。
更に、音声信号の韻律を変化させ、音声信号の現実感を向上させる方法を開示する。さらに、ランダムにあるいは擬似ランダムに見える方法で音声信号の韻律を変化させて、現実感を向上させる。
音情報を、異なる話者ごとに対応させ、人工知能ルールの集合を用いて、出力される音情報に対応した話者を特定する。
更に、テキスト中の単語と、それらの並び方に基づき、文脈依存した韻律の変化に応じて、韻律記録を変化させる。また、テキスト中の単語の感情的な文脈に基づき、文脈に依存した韻律の変化に応じて、韻律記録を変化させる。これらの韻律記録の変化を、音声信号の様々な韻律と組合せ、時々、擬似ランダムな方法で変化させることで、より現実感を向上させることができる。
生成される音声情報を、異なる話者に対応づけ、人工知能ルールの集合を適用することにより、出力すべき音情報に対応した話者を特定する。さらに、テキスト中の単語とそれらの並び方に基づき、文脈依存の韻律の変化に応じて、韻律記録を変化させる。
50年以上にわたる研究により、Arthur Lessacは、音楽と音声の間の基本的な関係を反映した、完璧な音声システムを初めて開発した。彼の発見と開発は、経験的になされたものであったが、多くの学術的な研究に基づいたものであった。彼の初期の研究は、音楽と声楽の理解を音声理論と関連づけるものであり、それは、声の研究と教授法に関する従来の方法の殻を、革新的に突き破る結果につながるものとなった。Lessacの音声研究の初期の段階では、、他人を真似た教授法と学習法は、不十分なものであり、むしろ害を及ぼすものであると決定づけていた。彼は、感覚と感性と運動神経のフィードバック原理に基づく学習システムを開発しようと決断した。この決心により、身体と声の自然機能について、実学的でありながら学術的な膨大な量の研究が必要となった。
同じくして、この50年の間に、音楽歴史家たちは、西洋の古典音楽史の枠を越えた研究活動を始めていた。学際的な研究は、西洋、東洋、アフリカを始め、様々な音楽を結びつけていった。文化人類学、考古学、歴史および音楽の研究は、音声と音楽の起源について、ある見通しを得始めていった。これらの起源は、有史以前のものであったため、現存する原始種族についての多くの研究成果が得られて、始めてその研究の進歩を果たすことができた。しかし、今でもなお、Lessacが得たような、音楽と音声の間の関係の全容を説明した者はいない。しかし、最近の研究により、彼の主だった主張を裏付ける兆しが見えてきた。
現在でも、Lessacシステムに優る完璧な音声システムはない。音声システムは、音声の2つの機能的な特徴と、一つの発声の特徴を扱う必要がある。機能的には、音声は、母音と子音から構成されている。発声の観点からは、強調の仕方が異なれば意味も変わってしまうような、異なる音を持つ単語、文章、段落あるいは音声の間には、相互に関連性が存在する。母音と音楽の間の関連性は、長い間、認識されてはいたが、この特徴は、音声システムでは扱われていなかった。しかし、子音の機能的な特徴と音楽楽器との間の関係と、音声と楽譜との間の関係とが同一であることは、これまで研究されていなかった。
今日では、発声と音声の理論と教授法は、国際音標文字(IPA)に多いに依存している。IPAは、一世紀も前に、西欧の研究者達により生み出されたものである。IPAは、音のマッピングに優れている。IPAは、正字法に囚われる呪縛から開放し、学生に対して、所定の言語、例えばスペイン語の綴りを簡略化する際に、彼らの母国語には存在しない他の言語での特定の母音と子音の発音のしかたに指針を提供するものとなった。しかし、生身の人間に対して、どのように発音すればよいかを教授するには、この方法は、きわめて弱く、人為的な手段である。すなわち、扱いにくく、複雑で、時代遅れのものである。この方法は、音響的で、擬音的で機械的な、非創造的なやり方を強いるものである。そして、極めて多くの音声について過ちを招くものである。
IPAシステムの記号は、文化的な面で意味を区別することのない地域的な発生起源によって起こる変化を切り離して、言語で用いられる可能な音の全てをマッピングするものである。さらに、この記号は、理解して話すためには、音に関連づけて(すなわち、耳を通して)習得あるいは記憶する必要がある。
また、IPAは、単語、句、および、大きな音声のユニットの中での音を機能的に関連付けることは、全く考慮していない。これは、音声システムではなく、単に、音を比較して、何がしかの定義を試みようとするに過ぎないものである。
IPAの母音と子音の発音の純粋な記号的な特性に対し、Lessacの母音は、機能的には“数値的かつ運動的”なものであり、Lessacの子音は、“数値的、運動的、潜在的に数値的”なものである。
音を発生させる操作という観点から、Lessacの“調査”手法と、歌と会話との間の基本的な差異を取り除く作業は、音声を利用する全ての面で基本的な音楽的な特性を利用している。
同時に、Lessacの音声システムは、音響音声学、調音音声学、聴覚音声学と生理音声学の従来のシステムの重要な要素を含み、それらをうまく適合させている。
Lassacの音声システムでは、数値が、構造および運動に関する感覚に直接対応しており、この感覚は、複製された時に、耳による制御を必要とせずに、すなわち、音響環境の悪条件のままでも、所望の音を生み出すものである。数値的な記述を行動に直接変換することに基づくため、この習得法には、その過程を弱めたり干渉する影響を除去するような余地はない。さらに、音の値を強化することを助け、他のシステムでは大きな量として残っているものへ、意味のある定量的な要素を与える、重要な定性的な要素を語彙感覚および共鳴感覚により、母音が供給される。
このように、Lessacの母音システムは、前方、中央および後方に置かれる母音あるいは、高音と低音の母音というIPAの考え方を排除するものである。すなわち、このシステムは、声門、咽頭、口蓋、硬口蓋、そり舌、歯、口唇を操作して発する音を、機械的に扱うことはせず、本質的に、耳に頼らない制御を実現するものである。
Lessac子音システム(Drama Book Publishers社から1967年発行のArthur Lessacの著書、THE USE AND TRAINING OF THE HUMAN VOICE(人間の声の利用と訓練)の129ページから179ページに記載)は、子音を、楽器に関連づけるものである。各々の子音は、楽器(の音色)を反映し、楽器の演奏の音とイメージの両方を含むものである。このイメージとは、タッチ、リズム、大きさおよび繊細さである。
楽器を理解するとは、音自信を理解することだけではなく、楽器が演奏される方法の運動感覚と、その楽器が可能とする他の用途を理解することを指している。それは、芸術的な構成であり、物理的なイメージとして機能するものとなる。
従来の肉声および音声のトレーニングでは、多かれ少なかれ習慣が自動的である場合でさえ、(テキストの中に)“T”あるいは“V”の文字を見つけると、舌と歯肉、唇の縁は、所望の破裂音あるいは摩擦音を発声するための動作に入るが、発せられる音は、しばしば、耳に聞き取るには、予期せぬ、不規則なものであり、一部が欠けたり、聞き取れなかったりする場合がある。
その印象は、音を発声させる方法が、少なくとも半ダースはあるにちがいないというものである。
Lessac子音システムでは、芸術的なドラムビートを教えられた後では、絵に“T”と描かれた小太鼓の絵は、複雑な舌の動きや、模倣の記憶、耳による聴き取りを取り止めるものとなる。学生は、完璧な“T”の音を作り出すだけでなく、他のトレーニングなしに、“K”、“P”、“D”、“B”および“G”のドラムビートを感じる方法を知ることになる。このように、考え方が明確になると、“R”はトロンボーンのように感じるか、“V”はチェロのように感じるか、“5”は音響効果のように感じるか、“CH”はシンバルのように感じるかなどについて、耳の聴こえない人や、中国人やフランス人など外国の人に確かめてみる価値がある。その結果は、耳による判断、精神的な混乱、物理的あるいは生理的な運動なしに、常に、明確かつ完璧であることが示され、この明確な発声に対する、以前のような文化的あるいは部分的な影響によって、影響を受けることはない。
伝統的に、発声および音声の研究は、いくつかの分野に分割されている。すなわち、歌のための発声、会話のための発声、語法、演説、治療などである。しかし、根本的なLessacの考え方は、全ての原理をサポートするものである。全ての発声および音声は、相対的な発話と歌との間の違いを伴った、基本的に音楽的なものである。
伝統的に、子音は、その発音ははっきりとした音であると考えられていて、これは、基本的には、明瞭性の点で重要なことである。子音に対する、Lessacの楽器に基づく考え方は、歌と会話で、母音と子音の相対的な位置付けを逆転させることを提案している。歌の場合には、母音が、主要な芸術的な貢献をし、一方、子音は、功利的な役割を演じる。しかし、一般的な音声では、子音は、メロディーとリズムのほとんどを提供し、一方、母音は、基本的に強調する働きをする。
学生にとっては、母音と子音をもつ発声と音声は、調和した品質と幅を持ち、音楽的に楽器を演奏するかのように声を発声することができるものであると理解するようになるため、彼らは、声を発するイメージを変えて、すなわち、音楽を演奏するオーケストラのイメージを抱くようになる。
組織化され関連した、いくつかのイメージを教える際には、Lessacの方法は、手元での調査に焦点を当てており、通常の学習の方法では、暗黙的に含むような、抑制したり競合する多くの反応パタンに陥ることを未然に防ぐものとなっている。時として、コミュニケーションをすることが困難になることもあるが、コミュニケーションの際には、(このシステムは)膨大な量の情報を“塊”として、すなわち、記憶された状態として、含むことになる。特別な種類の学習では、イメージは、情報の塊となる。
Lessacの音声理論を初めて理解した人たちの多くは、Lessacが楽器を利用して子音を教え、全体として、音楽的なアプローチをとることは、単純に、教師にとって役に立つアナロジーであると考えるであろう。その一方で、もし、この方法に同意しないならば、このアプローチは、なんらかのトリックだと考えるであろう。しかし、音楽の起源の研究によれば、音楽と音声との間の関係、その中でも、子音と楽器との関係が、基本になっていると考えられる。すべての文化では、特定の楽器の発展と人間の音声とは、互いに関連し合った過程を経てきたと思われている。ある種の楽器は、人間の音声のイメージや音そのものを映し出しているように作られており、ある種の人間の音声は、基本的な打楽器の音や、弓で演奏する弦楽器を弾いた音や、初期のホルンの音色のような、心地よい楽器のイメージや音そのものを映し出しているかのように発声される。
英語に適用されるLessacの子音システムは、西欧文化とその交響楽の楽器を反映している。ドラム、ホルン、弦楽器などの基本的な楽器は、すべての文化に共通であるが、Lessacの音声システムは他の文化圏の言語に適用した際の、特定の異なる子音を反映した特定の変更は、まだ定義されていない。
本発明による方法は、特定の伝達意図をもって、聞き手に対して発声されようとするテキストを検証する処理と、次に、Lessacシステムの発音ルール表記などの音声マーク付けシステムに従って、テキストにマーク付けをする処理とから構成されている。音声合成発生器を制御するルールの集合は、Lessac原理などの音声原理に基づいている。これらのルールは、通常、従来技術の音声合成エンジンに組み込まれ、ソフトウェアの動作と、ソフトウェアを使うコンピュータにより生成される音声の特性を制御する。コンピュータは、マーク付けされたテキストを、表情豊かに発声するために用いられる。音色、構造、子音のエネルギーの各々が、音声の中で異なるバランスを持ち、コンピュータにより生成される音声を聞き取るよく訓練された熟練家に向かって話し掛けられるような場合には、選択した表現スタイルに対して、いくつかの発音を切り換えながら、マーク付けされたテキストを、表情豊かに発声するためにコンピュータを用いるステップが繰り返し実行される。次に、コンピュータにより生成された音声は、スタイルの基準および、あるいは、その表現性について一貫性をもっているかについて、評価される。さらに、聞き手が集められ、コンピュータで生成された音声が、聞き手に対して再生される。コンピュータで生成された音声に対する、聞き手の理解が、評価され、特定の組み込まれた一つのルールあるいは複数のルールに関連づけられ、聞き手にとって比較的理解しやすい結果をもたらしたルールが選択される。
(最適な様態の詳細説明)
本発明のいくつかの実施例を示す以下の図面を引用して説明することにより、発明の機能、目的および利点を、明確にする。
本発明に従い、現行のシステムの問題を解決することを目的とした、音声合成の方法を説明する。特に、パタンマッチング、音素、二重音声および信号処理に基づく現行のシステムでは、人間のような表現力をもたない、“ロボット”のような音声が出力されている。本発明の一実施例によれば、言語学、“N要素音素”、および多くの部分でArthur Lessacの研究成果に基づく人工知能ルールを適用して、発明による計算機で生成した音声中の、音色のエネルギー、音楽的特長、自然音および構造的エネルギーを向上させる。本発明の応用範囲は、顧客サービス応答システム、電話応答システム、情報検索、視覚障害者あるいは“手が塞がっている”人のための計算機によるテキスト読み上げ、教育、オフィス業務支援などがある。
現行の音声合成システムは、信号処理とフィルタリングに基づいて、音素、二重音声および、あるいは三重音声にもとづく処理を伴うものである。現行のシステムが生み出す音声は、理解することは可能であるが、概ね、人間にとっては、ロボットのように、機械的で、安っぽく、人間味の薄いものとなっている。本発明は、言語学的な特徴を模擬するための特徴と、知識ベース処理を実装し、人間の発話特性と擬似自然音声合成モデルを実装することにより、人間の発話を模擬するための計算機に実装可能なモデルを開発して、音声合成を行うものである。
現在の市場には、多くのシステムがある。この状況は、自然な音を発生する音声合成システムへの、変わらぬニーズがあることを示しているように思われるが、現行の多くの音声合成システムは、パタン認識と統計的処理を含んでおり、上記の適用分野で求められる性能を満足しない古い手法に基づくものとなっている。同様に、システムパラメータを同定し、信号処理を決定するための、いわゆる隠れマルコフモデルを含んでいる。
図1によれば、本発明によるシステム10は、テキスト12を格納あるいは記録する処理から始まる。次にステップ14で言語構文解析が行なわれる。第一のタスクは、以下、トークン化と称する。本発明によれば、トークン化を用いて単語および句読点リストを、テキストの先頭から、順次抽出する。その結果は、単語リストとなり、更に、ステップ16で、辞書情報を用いて、この単語リストを処理する。この処理には、各単語の検索を含む。すなわち、検索する対象は、その単語が構成する文脈に依存した音声の可能な部分、可能な多義性、様々な慣用句の中の可能な単語の組み合わせであり、これらは、ステップ16でシステムが用いる辞書に含まれている。ステップ16での辞書検索の後、ステップ18で、語句構文解析により、各語句の終わりを識別し、言語的な多義性を除去して、各単語に対して、実際の音声中の部分に対応したラベル付けを行う。ステップ20で、マーク付けしたテキストを生成することにより、トークン化は完了する。
本発明によれば、トークン化の処理は、ファイルあるいは記録され、音声に変換中の入力テキストに対する単語リストを生成する処理を含んでいる。例えば、質問文“Mr.Smith, are you going to New York on June 5?(スミスさん、6月5日は、ニューヨークに行く予定ですか?)”に対して、トークン化処理の第一の部分の出力は、以下のようになる。
Mr., Smith, [comma], are, you, going, to, New, York, on, July, 5, [?]
ステップ16(詳細は以下で説明)の辞書検索の後、これと同一の表現を、以下のように表す。
Mister Smith, [comma], are, you, going, to, New York, on, July fifth, [?]
ここでは、固有名詞“Mister Smith”は、複数の単語からなるが、単独トークンとしてグループ化されている。同一のことが、日付“June 5”にも当てはまる。記号“?”は、トークンとして分類されるが、これは、韻律について特別の意味をもつためであり、ピッチおよび音色の表現を含み、後の、音声合成の処理で考慮することになる。
本発明では、さらに、ステップ22で、音声構文解析により、データベースに格納され、英語と英語の発音のルールを含む、ルールに基づき各単語を、音素、二重音声あるいはM要素の音素に分割する。本データベースの出力は、ステップ24で与えられる。
ステップ24でルールを適用することに加え、システムは、ステップ26で、表現構文解析を行う。ステップ26での表現構文解析は、Lessac発声訓練システム理論に基づき、ステップ28でデータベースから得られたルール処理によって行われる。特に、本システムは、子音の“連続”や、それらが発声されるかどうかということや、単語リスト中での色音のエネルギー位置や、単語中での構造的な“母音”の音や、様々な接続語があるというような事を識別する。他の実用的なパタンマッチングルールが、適用され、話者の識別、感情、強調、速度、ピッチ、および以下で詳細を説明するような事柄を決定する。結果として得られた“音素”リストは、デジタルフィルタ群に送られ、そこで所定の音素に対応したオーディオストリームをデータベース中で検索し、ステップ30でデジタルフィルタを用いてフィルタ処理される。フィルタのパラメータは、以前のルール処理によって決定され、最終的に音声を話者に対して出力する前に、平滑化が行われる。この平滑化は、ステップ32で平滑化フィルタを用いて行われ、ステップ34で音声信号が出力される。
本発明によれば、システムを対話的に操作して、辞書が用いられる。American Herritage Dictionaryのような既存の辞書の内容を、何らかの好適な形式、例えば、ハードディスクドライブ、RAMあるいはこれらの組み合わせといった形式をシステムで採用し、それを格納するものとなっている。この辞書データベースは、音声合成エンジンが動作中に、システムからアクセスされるものである。辞書データベースの応用システムは、スペル、音声の一部および発音の情報を含んでおり、更に、共通して用いる固有名詞のリスト、地名のリストなどを含んでいる。更に、辞書データベースでは、音声中のあいまいな部分を表すことも必要となる。必要となる他の事項としては、共通慣用句と略記もしくは数値トークンのための完全なスペルとを含み、他の情報も必要となる。さらに、話者の識別情報、段落およびページの数や、個々の音声の中に組み込むことを望まないようなことを決定するためのアルゴリズムの形で与えられる情報が必要となる。
このように、辞書検索により、“John Smith”を、2つの単語からなるものではなく、文法上の目的から、単独トークンとして認識するといったことを行う。一方で、発声上の目的から、システムは、この部分を、2つの単語からなるものとして扱うこともある。同様に、“June 5, 2001”は、文法上の目的から、日付を表す単独トークンとして扱う必要があるが、一方で、発話上の目的から、“June fifth、two thousand and one”として表す必要がある。これには、日付を扱う特別なアルゴリズムが必要となる。“Run”は、複数の意味をもつ、単独の単語である。従って、辞書では、単語が作り出す音声の可能な部分のすべてを、各単語についてリストアップすることが必要となる。“Dr”は、将来の音声処理のために“doctor”として表す必要がある。“Antarctica”は、辞書にもとづいて発音する必要となる。しかし、上記の事柄に加え、本発明では、出力音声の品質は、Lessac子音エネルギールール処理と他のLessacルールとを含んでおり、その詳細は後で説明する。一般的には、本発明の方法は、各子音の音エネルギーを、特定の子音に対応した係数の時間幅をもつ、ディラックのデルタ関数として扱っている。
語句構文解析は、単語照合基準として音声の一部を用いる、ルールの推論システム、あるいは、有限状態遷移プロセッサである。出力は、文章中での機能が特定された単語の役割がラベル付けされた語句である(例えば、動詞v、動詞、目的語、xの前置詞句修飾詞の目的語、名詞nの形容修飾詞)。本発明では、従来技術による語句構文解析を用いて、それを改良して、ここで定義される様々な基準を組み込むものとする。本発明では、単純な語句構文解析を用いて、語句の境界、各語句の先頭語と修飾語を特定する。これは、自然な発話を行う際の、適切な休止を決めるために、有用である。
多くの音声合成システムは、単語を、その要素となる発声音に分割する、音声構文解析を用いている。本発明による音声合成システムも、音声構文解析を用いているが、その音声構文解析の出力を用いて、以下に説明するように、Lessacルールを適用する。
本発明の一実施例では、各単語に対して、3つのトークンを生成することにより、この音声構文解析を行うことになる。これらのトークンは、以下に説明するように、Lessacルール処理装置に送られる。第一のトークンは、英単語である。通常、このトークンは、テキストから直接取り込まれるが、時として、独自に生成する必要がある。上述した例では、“Dr”は“doctor”に置き換える必要があり、日付を表現した“5”は“fifth”に置き換える必要があることを示したものである。第二のトークンは、英語辞書によって与えられた、単語の発音を記述したものである。このトークンは、便宜上、後の処理とフィルタリングのために採られたものである。Lessacルール処理装置に出力される第三のトークンは、標準の音声構文解析の出力である。例えば、単語“voice”は、アルファベット表記[V]、[OI]および[S]の順に対応した音を与えるものとなる。
本発明の一実施例では、Lessacルール処理装置は、中核となる処理要素であり、そこには、Arthur Lessacの研究成果が処理内容に組み込まれている。Lessacルールは、マーク付けされたテキストを走査し、発声表現に対応した、特定の音響フレームあるいは音響遷移フレームを選択する。また、Lessacルールは、ピッチ、速度あるいは強度(音量)を特定する。いくつかの例を以下に示す。Lessacルールを完全な形で収めたものは、書籍となっている。特に、1967年にDrama Book Publisherから発行された、Arthur Lessacの著作、The Use and Training of the Human Voiceがある。Lessacのルールは、音構文解析によりルールに与えられるトークンに対して、適用される。
Lessac理論によれば、子音のエネルギーは、概念的には、交響楽に例えられている。特に、Lessac理論では、“交響楽”の楽器は、子音に関連付けられる。Lessacの子音エネルギーについてのルールは、各単語の各子音部について、一つあるいはそれ以上の楽器の音響特性を特定するものである。Lessac理論のルールの大部分は、テキストのマーク付けと音(すなわち、“zバスバイオリン”)の選び方に対応している。例えば、“His home was wrecked”という語句を例にとると、Lessacの子音エネルギールールは、第一と第二の‘s’を“zバスバイオリン”として特定し、‘m’を“mビオラ”、‘d’がその後に続く‘ck’を“KT二重ドラム”として特定する。他の状況では、“n”は、バイオリンである。音に関連付けられたこれらの楽器は、更に、後のフィルタ処理に備えて、音響信号を格納する。
古典的なLessacの教授法は、音声の基本要素として、音楽を精神的に意識することを確立し、話しをしている最中の学生の意識に、この考え方を植え付けることを拠り所としており、その結果として、学生が、Lessacが好ましいものとして、また関連づけられたものとして目指した音楽的特長に裏付けられて、明瞭に音声を発することができるようになる。
本発明によるLessac理論の実践の形は、明確なLessac理論の実践を伴う(すなわち、適切で明瞭な発音を得るためにArthur Lessacにより定められたルールに従う)音の再生のための音声データベースに含む形式と、音声に変換するように入力されたテキスト中の単語の音節中で特定された音素の並びに応じて、特定の音を選択する形式の2つがある。
Lessac理論により、学生には、声の振動を感動をもって体験する方法を示し、音色エネルギーの概念が教授される。
本発明によれば、声が適切に用いられた場合には、硬い口蓋、鼻腔および前額部を通して音色が意識された形で伝わるものと考えられる。これらの音色は、骨伝導によって伝わる。他のものより感動をもたらす、ある種の音が存在する。例えば、“it’s easy”の中にある、長音の“e”yの音を考えてみよう。この“Y Buzz”は、聴覚的なハミングの“e”―y“ea―sy”として格納される。
本発明では、声が適切に用いられた場合には、硬い口蓋、鼻腔および前額部を通して音色が意識された形で伝わるものと考えられる。これらの音色は、骨伝導によって伝わる。他のものより感動をもたらす、ある種の音が存在する。例えば、“it’s easy”の中にある、長音の“e”yの音を考えてみよう。この“Y Buzz”は、聴覚的なハミングとして格納され、この音は、音声合成の音響パタンとして用いられる。また、“away”の中の、二番目の“a”も、Lessac理論によれば、“+Y Buzz”として知られた、連結された音色と考えられる。他の音は、“low”の中にある、長音の“o”のような集中した母音と二重母音がある。“あくびして伸びた”顔の姿勢は、骨格を伝わる骨伝導の音色を生み出し、発声は、小さく、鼻にかかった、甲高いものではなく、豊に、動的に、かつ豊富な音色を持つものとなる。“あくびして伸びた”状態では、顔は前面に突き出した姿勢となる。メガホンを反対向きに描いて、メガホンの広がった方を唇に当て、口の中を大きく広げてメガホンを入れてゆく様子を考えてみれば、この顔を前面に突き出した姿勢が、どのようなものであるか、よく理解できるはずである。驚きの表情をした時に、単語“Oh”と言うときに、人間は通常この音を発する。
構造的なエネルギーは、話言葉を発する時、特に、母音と二重母音を発音する時の、上下の唇の間隔に対応した、1と6の間の任意のスケールを用いた数値システムを用いて、Lessacにより定義されている。もっとも大きく唇を開ける場合は、“bad”のような単語を発する場合、数値は6であり、もっとも小さく唇を開ける場合は、“booze” のような単語を発する場合、数値は1である。表1は、この数値システムを簡単に示したものであり、Lessacの研究論文に詳細が記されている。本発明では、Lessacのルールを用いて、各々の主母音を定量化し、あらかじめ格納された音響信号を再生するために用いられる。
Figure 0004363590
Lessacは、話し言葉の単語を連結するのには、多くの方法があることを確認しており、例えば、Lessacの“直接連結”として知られたものがある。一方、“k”の次に“t”が続くように、2つの子音が連結し、口の中の異なる場所で各音が発せられた場合には、“k”の音は、“t”の音に移る前に音が完結して、完全に再生されることになる。この状態は、“再生および連結”として知られている。三番目の方法は、“grab boxes”あるいは“keep back”で、“b”の次にもう1つの“b”あるいは“p”が続くように、2つの子音が連結し、口の中の同じ場所、あるいは極めて近い場所で各音が発せられた場合である。この場合、第一の子音、あるいはドラム音は、発声の準備の途上にあって、第二の子音に移る前にその音は完結せず、第二の子音に移る前に僅かな話者のとまどいが存在することになる。この状態は、“準備および連結”として知られている。本発明では、Lessacが確認した、これらの状態と他の連結についてのルールは、彼の著書“The Training of the Human Voice”に詳しく記されている。
本発明の動作は、例えば、単語“voice”によってよく理解することができる。単語“voice”は、音声構文解析から3つのトークンを受けとる。これらは、[voice]、[V OI S]および[vois]である。
更に、Lessacのルール処理装置は、単語“voice”について、以下に示すようなLessacルール構文で、音の並びを出力する。
V−チェロ, 3−Y Buzz, S(無音)
本発明によれば、“実用的な”ルールを用いて、音声合成システムで、より現実感のある自然な発声を行うことが可能となる。現実的なルールにより、音声フィルタのパラメータを変化させて表すことができる文脈および設定情報をカプセル化することになる。実用的なルールには、話者を特定するテキスト中の特徴、単語の発音の一部とテキストの特質などに関するものがある。
例えば、本発明のシステムでも、あるいは人工知能を用いても、話者が男性なのか女性なのかを決定する試みが可能である。環境を、静寂なもの、あるいは騒音があるものにすることができるが、特定の音響環境を選んで、好ましい効果をもたらすこともできる。例えば、白色雑音は、現実感の雰囲気を作り出すのに役立つ。もし、入力されたテキストが、海に関するものである場合には、人工知能により、テキストの内容に応じた効果を狙い、海岸の岩場に打ち寄せる波の音を作ることができる。また、本発明では、人工知能を用いて、話者の話し方がゆっくりなのか、淡々としたものなのか、早口なのかを、入力されたテキストから判定することができる。本発明の実施例では、人工知能で実装した様々なルールについて、適切なものを示したり、メニューで自由に選択できるようにし、システムパラメータとして利用できるようにしてある。
本発明では、発音と語句の区切りが決定される。既知の自然言語処理モジュールによって特定された、語句の区切りと発音のマーク付けに基づいて、ある屈折、休止あるいはアクセントを推定する。これらの実用的なルールは、前段階の処理で求めた、マーク付けした言語的特徴と、特定の声の特徴を照合する。例としては、コンマ符号の後には休止を入れる、文章の終わり符号の後には長い休止を入れる、クエスチョン符号の前とクエスチョン符号で終わる文章の最初の単語ではピッチを上げるなどがある。いくつかの場合には、音声の中の特定の部分が、特に、単語に対応してピッチを変えるなど、話の印象に影響を与えることもありうる。
また、人工知能を、例えば、物語の文章に適用し、会話に二人の話者がいるような状況を特定することもできる。ここでは、人工知能を使って、話者が変わるごとに話者のパラメータを変更するように、システムに信号を送る。
本発明では、以上でも示唆したように、Lessacルールあるいは他の言語ルールを適用することに基づき、後の処理のために、蓄積された音声信号がアクセスされる。音声処理のこの段階では、格納された音素、二重音声、N要素の音素のデータベースあるいは“辞書”を用いて、音声信号処理とフィルタリングを開始する。もっぱら音素あるいは二重音声だけを用いる従来のシステムとは異なり、本発明のシステムは、音素、二重音声およびN要素の音素のすべてを格納し、Lessacルールあるいは他の言語ルール処理の結果に応じて、各々の音に対応したものを、これらの中から一つを選ぶ。
例えば、1967年発行(第二版)のLessacの著書の71ページに記載された構造エネルギー記号は、これらの音のいくつかに対応し、構造エネルギー音の#1、#21、#3、#4、#5、#51および#6として記されている。本書の1997年発行の第3版の170ページから171ページでは、より多くの記号と音が列挙されていて、グループ、3y、6yおよびR導出音が完備されている。これらは、口と唇の形に対応しており、Lessac理論による音に対応付けられている。
Lessacの共鳴エネルギー音の取り扱いでは、同じことが部分的に時間領域のディラックデルタ関数としてモデル化されている。ここでは、ディラック関数の幅は、特定の子音と韻律の他の要素に対応した関数因子によって拡張されている。
以上で説明したように、身体のエネルギーについてのLessacの考え方は、発声を理解する上で有用なツールであると考えられ、これを理解することにより、より現実感を増した音声合成を行うことができる。特に、Lessacの身体エネルギーの考え方によれば、ある主題と行為は、感覚とエネルギーを呼び起こすものであることがわかる。例えば、人が、家族といっしょに、例えば、休暇をすごしたいという気持ちになることを想定する。このような状況になると、人の気持ちというものは、その歩き方や、動作や態度に、目に見えるように現れるものである。
本発明では、音声の観点から、このような身体エネルギーの2つの効果をモデル化している。第一のモデルでは、人工知能を用いて、身体エネルギーの発生を検知して、適度に速度を上げて話す傾向と高いピッチとすることを韻律に組み込む。更に、発話している環境に応じて、身体エネルギーによって、結果として音声に振動をもたらすような身体の動きを引き起こす場合もある。例えば、人がパーティに出席していて、Lessacの身体エネルギーが極めて高いレベルに到達した場合には、頭を左右に動かすようになり、その結果、声量と、少ない量ではあるがピッチに変動が現れる。このような状況は、人工知能によってあらかじめ定めた範囲内で、ランダムなパラメータを操作する形で、モデルに組み込むことができる。本発明に関連し、ランダムパラメータを引用するとき、あるいは、ランダム因子を特定の韻律要素に導入する時はいつでも、システムによってあらかじめ定めた範囲内で、ランダムなパラメータを操作する形で、同じものをモデルに組み込むものとなっている。
均一な方法とする代わりに、この2つのモデルを混在させた方法により、システムは、各音について情報理論的に最適な一つの構造を選択することができる。本発明では、情報理論的な最適性を指標とすることにより、従来から知られている情報理論(Gallagherによって記述された)におけるエントロピー指標を用いて、最小のエントロピーをもつ音を、情報理論的に最適なものとすることができる。
デジタルフィルタ処理は、音素、二重音声、M要素からなる音素、あるいは他の記録音を、前段階の処理に基づき、音声信号ライブラリから選択することから始まる。各音は、上述した前段階でのルール処理でマーク付けされたテキストに基づいて、仮ではあるが、適当なスペースを置いて設定され、さらに、前段階でのルール処理による命令に基づいて、フィルタ処理が行われる。
以下のリストは、あらかじめ用意されたフィルタとパラメータの種類を示すものである。フィルタ処理の効果は、比較的主観的なものである。さらに、フィルタ処理システムが異なると、異なる音に対しては、劇的に異なる結果をもたらすこともある。従って、従来技術による音声のフィルタ処理では、一度に答えが得られる方法を採用しているが、本発明では、最適なフィルタ処理の選択のためには、試行錯誤を行うことが最良なものとなる。本発明では、タイムワープフィルタを用いて、音声のテンポが調節できる。バンドパスフィルタは、ピッチを調節するための良い手段である。周波数変換を用いて、音声の品質を変えることができ、すなわち、平滑化フィルタにより音声の連続性をもたらすことができる。さらに、本発明では、フィルタをカスケード状に接続することにより、複数のパラメータが必要になる状況へも対応できるものと考えられる。
本発明では、音声の出力は、フィルタ処理を終えた音声信号を、直接デジタルオーディオプレーヤーに送ることにより実現している。音声出力として、標準の音声信号フォーマットを用いており、コストの削減が可能となっている。
図2および図3は、本発明の音声合成方法110の好適な実施例を示す図である。方法110は、ステップ112の、音声に変換するテキストの入力処理から始まる。テキストは、ステップ114で、人工知能アルゴリズムにかけられ、その文脈と一般情報コンテンツを決定するが、比較的単純な人工知能処理方式により、この情報コンテンツを生成するレベルとなっている。例えば、テキスト中にクエスチョン符号が含まれていることから、質問文であると判定するようなレベルの処理を想定している。このようなレベルの処理とすることは、上述したように、テキストで表わされた様々な音を構成する音素の韻律に対して、特有の効果を与えるものとなる。
ステップ116では、ステップ118のテキストから得られた、テキスト中の音素の韻律を決定し、韻律の記録を生成する。ステップ116で生成した韻律記録は、その発音が辞書に定義されているような特定の単語に基づくものである。ステップ120では、その韻律に対応した文脈情報をもつテキストを用いて、テキスト中の文脈のテキストの特定の要素に対応した韻律を決定する。この文脈韻律決定(文章中のクエスチョン符号で与えられるようなこと)は、ステップ118で生成した韻律記録を修正するのに用いられる付加情報をもたらす。
本発明では、ステップ118で、テキストの要素の韻律に、ピッチと長さについての定量的な値を割り付ける。さらに、ステップ118で生成された値は、ステップ120で変化させる。従って、韻律記録は、文脈韻律情報によって変化した各語の韻律についての基本情報を含むため、ステップ118は、増強した韻律記録を生成するものと言える。
しかし、本発明では、システムから出力された韻律番号をランダムに変化させることを用いるため、均等なルールに基づいた韻律の機械的な感覚は取り除かれる。全国的には、定量的な韻律の数値が不正確な韻律に対応するような範囲に到ることのないように、ランダムな変化の幅は、適切な値に設定する必要がある。しかし、韻律が適度な範囲で変化させられたとしても、人間の聴覚には十分聞き取れるものとなっている。例えば、歌手の発声に見られるような、かすかな不協和音でさえ、明瞭に聴こえることを考えてみよう。出力される音声信号を通して、意味を容易に理解できなくなるほど、韻律を変化させることなく、機械的でない出力音声信号が得られるように、韻律を変化させることが可能となる。このように韻律記録中の定量的な値を変化させる処理が、ステップ122に実装されている。
ステップ118で出力された識別情報に加え、ステップ118で特定された音素は、音情報に関連付ける必要がある。この音情報は、規格化された音情報の形式をもつ。本発明の一実施例では、規格化された音情報を基準にして音の長さとピッチを変えるために、音情報が用いられる。各音素に対応した音情報は、ステップ124で生成される。
本発明の一実施例では、音情報は、従来技術のいくつかの手段によって求めることができる。例えば、システムは、人の声を記録したデータを単純に格納していて、システムによりメモリの中から呼び出すような仕掛けとすることも可能である。もう一つの方法として、理論的や実験的に生成した音素、機械的に合成した音素、いわゆる半音素、あるいは、各音素カーブの様々な部分を定義する音素の開始、中盤、減衰部、ならびにエネルギー振動に基づいて、システムが音を生成することも可能である。
以下で詳細に説明する本発明の一実施例では、これらの音、より正確に言えば、これらの音を生成するためのルールとそれに対応した定量的な数値は、Lessacルールに基づいて変化させることができるが、Lessacのルールの適用は、音素が、最初の音素の開始を待つ部分であるのか、最後の音素の開始部分であるのかによって異なる形をもつ各音素を格納し、適用可能なLessacのルールを検索して適切な音素の形を選択するという手順で実装されている。これについては、以下で詳細に説明する。
音素の並びについての音情報は、本実施例では、音素識別情報とそれに対応したピッチ、長さおよび音声情報の形をもっており、これはステップ126で、Lessacの直接連結検出装置に送られる。
Lessacの直接連結を理解するには、Lessac理論に基づいて、子音単独、あるいは、単語“hits”の中の“ts”のような子音の連続という特定の感覚を習得した後、この音楽感覚や演奏を、単語に適用することを学び、次に文章に適用することを学び、最後に段落全体に適用することを、日常生活の場で学ぶ。連続した音声の中で、子音を“発声”するためには、特別な指針がある。同じルールは、単独の単語にも同様に適用される。これらのルールの一つには、例えば、“最後の子音は、次の単語の先頭の母音に直接連結する”というものがある。すなわち、
far above(一つの単語、すなわちfaraboveとして扱う)
grab it
stop up
bad actor
breathe in
that’s enough
this is it
これが直接連結と呼ばれるものである。
Lessac理論に基づいて、2つの音素の並びが、直接連結を必要とする際には、このことがステップ126で検出される。Lessac理論によれば、各音素に対応した定量的な数値を変更して、正しい音を発生させることができる。このような直接連結の変更は、ステップ126でシステムから出力される。しかし、ステップ128では、どの場合でも同じことをやるのではなく、変更の程度を、ランダムに変えてゆく。この目的は、機械的に均一で入力に忠実なモデルではなく、自然な音声合成とすることにある。従って、ステップ128では、音素に対応した定量的な数値の中に、変更の程度を加え、システムは、Lessac理論に従って発声しランダム化された音を、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で生成する。
ステップ130では、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で表した、Lessac理論に従って発声しランダム化された音により、ステップ122で生成した韻律記録の出力を変更する。
同様に、Lessac理論による他の発音の変更には、いわゆる、再生と連結がある。口の中の全く異なる位置で形成され、連続して発せられた子音は、完全に再生することができる。例えば、黒の蝶ネクタイ、Kビート(タムタムの音)は、柔らかい口蓋からはじけるように離れた舌の後部で形成され、Tスネアドラム・ビートは、歯肉の縁からはじけるように離れた舌の先で形成され、これら2つは全く異なる接触点となる。従って、T音がはじけるように発せられる前に、K音を完全に再生(あるいは音が完結)することができる。これと同じ原理は、“love knot”を発音するときにも当てはまり、ここでは、VチェロとNバイオリンが、口の中の異なる2つの場所で発せられる。他の例としては、
sob sister
keep this
stand back
take time
smooth surface
stack pack
can’t be
hill country/ask not why
understand patience
この連結の種類は、再生と連結と呼ばれるものである。
このように、2つの音素が並び、Lessac理論に従って、再生と連結が必要となる場合には、同様のことがステップ132で検出される。Lessac理論によれば、この2つの音素の各々に対応した定量的な数値を変化させて、正しい音を作り出すことができる。ステップ132で、このような再生と連結の変更の結果が、システムから出力される。ステップ134では、どのケースにでも同一のものを適用する代わりに、自然な音声を発する音声合成の目的を満たすように、変更の程度をランダムに変化させる。このように、ステップ134では、音素に対応した定量的な数値の中に、変更の程度を加え、システムは、Lessac理論に従って発声しランダム化された音を、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で生成する。
ステップ136では、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で表した、Lessac理論に従って発声しランダム化された音を、ステップ122で生成した韻律記録の出力によって変化させる。
Lessac理論による他の発音の変更には、いわゆる準備と連結がある。これは、いくつかの子音が、口の中の同一の接触点、あるいは、ほぼ同一の接触点で形成される場合である。これは、同一の子音と同族語に対して成立する条件である。同族語は、同一の場所と同一の方法で発せられる2つの子音であり、一方の音は発せられるが、他方の音は無音である。表2に例を示す。
Figure 0004363590
これらの場合では、人は、最初の子音を準備して崩すように、すなわち、唇あるいは舌を、最初の子音を発する位置に動的にもってゆくが、二番目の子音だけを完全に発声する。この準備動作は、最初の子音を、単に欠落させないためのものである。
また、2つの子音が、半分関連しあう場合、すなわち、それらの接触点が、口の中のほぼ同一の位置となる場合にも、この準備動作が生じる。
stab me
help me
good news
that seems good
red zone
did that
半分関連しあう子音は、持続可能な種類の子音がドラムビートに続くように、これらが発声される場合にのみ関連しあうものとなる。これらが反転した場合、例えば、“push down”の場合には、この関係は消滅し、これらの子音は、再生と連結の関係となる。
この連結の種類は、準備と連結と呼ばれるものである。
これらの3つの連結の効果は、一つの単語から次の単語へ無理なくつないで、自然な音声が発せられるようにするというものである。同様の効果は、一つの単語の中でも生み出すことができる。
このように、2つの音素が並び、Lessac理論に従って、準備と連結が必要となる場合には、同様のことがステップ138で検出される。Lessac理論によれば、この2つの音素の各々に対応した定量的な数値を変化させて、正しい音を作り出すことができる。ステップ138で、このような再生と連結の変更の結果が、システムから出力される。
ステップ140では、どのケースにでも同一のものを適用する代わりに、自然な音声を発する音声合成の目的を満たすように、変更の程度をランダムに変化させる。従って、ステップ140では、音素に対応した定量的な数値の中に、変更の程度を加え、システムは、Lessac理論に従って発声しランダム化された音を、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で生成する。
ステップ142では、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で表した、Lessac理論に従って発声しランダム化された音を、ステップ122で生成した韻律記録の出力によって変化させる。
Lessacルールに関する以上の説明から理解できるように、変更が生じるのは、ステップ130、ステップ136、あるいはステップ142だけであり、これは、2つの子音の並びが、直接連結ルール、再生と連結ルール、および準備と連結ルールからなるグループの、いずれか一つに属するという理由からである。
本発明では、韻律の深さも変化させることが可能である。これと、ランダムに変化させることを混同してはならない。特に、所定の範囲内でランダムに変化させることは、韻律の定量的な値に適用される。しかし、この範囲自体を変更すると、変化をより深めることができる。ランダムに韻律を変化させる範囲を変更することには、いくつかの形がある。例えば、変更は、通常の曲線、あるいはベル型曲線で分布を描いており、韻律の変更の深さは、ベル型曲線の頂点の定量的な値を変更する形、および、あるいは、ベル型曲線の幅を変化させる形となる。
変更は、ランダムなベル型曲線分布、他のランダムな分布、擬似ランダムな分布などのように、均一とならないような、何らかのルール、あるいは複数のルールに従って行われる。
特に、ステップ144では、ステップ146でシステムに入力されたランダムデータに応じて、韻律を変更する。さらに、ステップ148では、手作業による上書き、および、あるいは、ベル型曲線の中心点やベル型曲線の幅などの手作業による選択によって、深さを変更する。
さらに、ステップ144の実行の後、音の認識情報と他のパラメータと組み合わされた韻律とが、システムで与えられ、韻律変調器に送られる。ステップ150では、韻律変調器が音声信号を生成する。
ステップ148での、システムに手作業で入力された韻律の深さの選択と同じように、本発明では、システムは、男声の話者、女性の話者、成熟した大人の女性の話者、若い男性の話者、外国語訛りのある成熟した大人の男性の話者など、異なる話者を模擬するために、韻律の選択における変更を考慮したものになっている。これはステップ152で行なわれる。
本発明では、現実世界での音声の潜在的な特徴を考慮することにより、システムでの現実感を向上させるものとなっている。これには、ほぼすべての環境に限られた量だけ存在する、ある程度の量のエコーが含まれている。エコーパラメータは、ステップ154で設定される。ステップ156で、ランダム化が行われ、例えば、頭をいろいろな方向に動かしたり、話しながら歩き回る話者を模擬する。そして、ステップ158で、ランダム化されたパラメータにより、システムにエコーが加えられる。
ステップ158で生成された信号は共鳴して、肺、気管、喉および口の音響空洞が、発声により大きさを変えることを模擬する。通常、この空洞の大きさは、音素の母音によって変化する。例えば、通常、母音“i”は、小さな音響空洞で発せられるが、文字“a”は、たいていの場合、大きな音響空洞で作り出される。
ステップ160では、システムに共鳴が導入され、そこでは、ステップ162で生成された母音情報に従って、共鳴の中心周波数を変化させる。この母音情報は、ステップ164で共鳴パラメータを制御するために用いられる。この情報は、例えば、所望するY−buzzとa−Y buzzに作用するために用いられる。さらに、ランダム化はステップ166で導入される。図に示してきたように、ある程度のランダム化は、様々な場面で有効であり好ましいものであるが、本発明では、ランダム化するステップはない。
次に、ステップ160で生成された信号は、音響空洞を形成する細胞の減衰効果を模擬するように、減衰させる。通常、この空洞の細胞の減衰効果は、音の周波数に応じて変化する。
ステップ168で、システムに減衰を加える。減衰パラメータは、ステップ170で設定され、ステップ172でのランダム化ではオプションとして扱われ、最終的な減衰情報が与えられる。この減衰情報を用いて、ステップ168で実装された減衰を制御する。
最後に、ステップ174では、システムによって生成した音声に、背景ノイズを加える。この背景ノイズは、白色雑音や、音楽や、より低い音量の他の音声などであってよい。
本発明によれば、人工知能を用いて、音声中でいつ休止するかを決定する。必要に応じて、これらのボゼズ(bosses)は増やすことができ、ボゼズでは、音声合成の操作についての意思決定で用いられる。さらに、Lessacによる定義に従って、子音エネルギードラムビートにより特定された音声の休止の間に、平滑化フィルタを適用することも可能である。これらのドラムビートは、連続音声のセグメントのマイク付けをはずす作用をする。既存の方法に対し、平滑化フィルタを用いることにより、これらのセグメント中の音声を、連続した音にして、一まとまりにならないようにできる。
さらに、低音、高音、中音の音声周波数の減衰のような、より普通の平滑化を用いることにより、娯楽に用いられる従来のステレオ受信機と同じように、出力音声の全体のピッチに効果を及ぼすことができる。
図4は、本発明の音声合成方法210の他の実施例を示す図である。方法210は、ステップ212の、音声に変換するテキストの入力処理から始まる。テキストは、ステップ214で、人工知能アルゴリズムにかけられ、その文脈と一般情報コンテンツを決定するが、比較的単純な人工知能処理方式により、この情報コンテンツを生成するレベルとなっている。例えば、テキスト中にクエスチョン符号が含まれていることから、質問文であると判定するようなレベルの処理を想定している。このようなレベルの処理とすることは、上述したように、テキストで表わされた様々な音を構成する音素の韻律に対して、特有の効果を与えるものとなる。
ステップ216では、韻律の識別情報と韻律の音とともに、ステップ218のテキストから得られた、テキスト中の音素の韻律を決定し、韻律の記録を生成する。ステップ216で生成した韻律記録は、その発音が辞書に定義されているような特定の単語に基づくものである。ステップ220では、その韻律に対応した文脈情報をもつテキストを用いて、テキスト中の文脈のテキストの特定の要素に対応した韻律を決定する。この文脈韻律決定(文章中のクエスチョン符号で与えられるようなこと)は、ステップ218で生成した韻律記録を修正するのに用いられる付加情報をもたらす。
本発明では、ステップ218で、テキストの要素の韻律に、ピッチと長さについての定量的な値が割り付けられる。さらに、ステップ218で生成された値は、ステップ220で変化させる。従って、韻律記録は、文脈韻律情報によって変化した各語の韻律についての基本情報を含むため、ステップ218は、増強した韻律記録を生成するものと言える。
しかし、前の実施例と同じように、システムから出力された韻律番号をランダムに変化させることを用いるため、均等なルールに基づいた韻律の機械的な感覚は取り除かれる。定量的な韻律の数値が不正確な韻律に対応するような範囲に到ることのないように、ランダムな変化の幅は、適切な値に設定する必要がある。本発明では、出力される音声信号を通して、意味を容易に理解できなくなるほど、韻律を変化させることなく、機械的でない出力音声信号が得られるように、韻律を変化させる。このように韻律記録中の定量的な値を変化させる処理が、ステップ222に実装されている。
ステップ218で出力された識別情報に加え、ステップ218で特定された音素は、音情報に関連付ける必要がある。この音情報は、規格化された音情報の形式をもつ。本発明の一実施例では、規格化された音情報を基準にして音の長さとピッチを変えるために、音情報が用いられる。各音素に対応した音情報は、ステップ218で生成される。
本発明の一実施例では、音情報は、従来技術のいくつかの手段によって求めることができる。例えば、システムは、人の声を記録したデータを単純に格納していて、システムによりメモリの中から呼び出すような仕掛けとすることも可能である。もう一つの方法として、理論的や実験的に生成した音素、機械的に合成した音素、いわゆる半音素、あるいは、各音素カーブの様々な部分を定義する音素の開始、中盤、減衰部、ならびにエネルギー振動に基づいて、システムが音を生成することも可能である。
音素の並びについての音情報は、本実施例では、音素識別情報とそれに対応したピッチ、長さおよび音声情報の形をもっており、これはステップ226で、Lessacの直接連結検出装置に送られる。
Lessac理論に基づいて、2つの音素の並びが、直接連結を必要とする際には、このことがステップ226で検出される。直接連結が検出された場合には、システムは、決定ステップ227で判定し、ステップ228に進む。Lessac論理に基づいて、各音素に関連する定量値は修正されて適切な音声となる。このような直接連結の修正(あるいは、上記の韻律を変化させて修正された、異なるソース音素)は、ステップ228でシステムから出力される。しかし、ステップ228では、どの場合でも同じことをやるのではなく、変更の程度を、ランダムに変えてゆく。この目的は、機械的に均一で入力に忠実なモデルではなく、自然な音声合成とすることにある。従って、ステップ228では、音素に対応した定量的な数値の中に、変更の程度を加え、システムは、Lessac理論に従って発声しランダム化された音を、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で生成する。
ステップ230では、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で表した、Lessac理論に従って発声しランダム化された音により、ステップ222で生成した韻律記録の出力を変更し、更に、変更された記録は、オプションの韻律の深さを変調するステップ244の処理に送られる。
ステップ226で直接連結が検出されない場合には、システムは、決定ステップ227で判定し、ステップ232に進む。
2つの音素が並び、Lessac理論に従って、再生と連結が必要となる場合には、同様のことがステップ232で検出される。もし再生と連結が検出された場合には、システムは、決定ステップ233で判定し、ステップ234に進む。Lessac理論によれば、この2つの音素の各々に対応した定量的な数値を変化させて、正しい音を作り出すことができる。ステップ232で、このような再生と連結の変更(あるいは、上記の韻律を変化させて修正された、異なるソース音素)の結果が、システムから出力される。ステップ234では、どのケースにでも同一のものを適用する代わりに、自然な音声を発する音声合成の目的を満たすように、変更の程度をランダムに変化させる。このように、ステップ234では、音素に対応した定量的な数値の中に、変更の程度を加え、システムは、Lessac理論に従って発声しランダム化された音を、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で生成する。
ステップ236では、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で表した、Lessac理論に従って発声しランダム化された音を、ステップ222で生成した韻律記録の出力によって変化させ、更に、変更された記録は、オプションの韻律の深さを変調するステップ244の処理に送られる。
ステップ232で直接連結が検出されない場合には、システムは、決定ステップ233で判定し、ステップ238に進む。2つの音素が並び、Lessac理論に従って、準備と連結が必要となる場合には、同様のことがステップ238で検出される。もし準備と連結が検出されない場合には、システムは、決定ステップ239で判定し、ステップ246に進む。Lessac理論によれば、この2つの音素の各々に対応した定量的な数値を変化させて、正しい音を作り出すことができる。ステップ240で、このような再生と連結の変更(あるいは、上記の韻律を変化させて修正された、異なるソース音素)の結果が、システムから出力される。ステップ240では、どのケースにでも同一のものを適用する代わりに、自然な音声を発する音声合成の目的を満たすように、変更の程度をランダムに変化させる。このように、ステップ240では、音素に対応した定量的な数値の中に、変更の程度を加え、システムは、Lessac理論に従って発声しランダム化された音を、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で生成する。
ステップ242では、音識別情報とそれに対応した定量的な韻律を他のパラメータと合わせた形式で表した、Lessac理論に従って発声しランダム化された音を、ステップ222で生成した韻律記録の出力によって変化させ、変化させた記録をステップ244でのオプションの韻律深さ変調を行なう。
ステップ238で準備と連結が検出されない場合には、システムは、決定ステップ239で判定し、ステップ244に進むが、そこでは、Lessac理論に基づく変更はなく、韻律記録と音素に対して、韻律の深さを変化させる処理を行う。
本発明では、ステップ246でシステムに入力されたランダムデータに応じて、ステップ244で韻律が変更される。更に、ステップ248では、手作業による上書き、および、あるいは、ベル型曲線の中心点やベル型曲線の幅などを手作業で選択して、深さが変更される。
さらに、ステップ244の実行の後、音の認識情報と他のパラメータと組み合わされた韻律とが、システムで与えられ、韻律変調器に送られる。ステップ250では、韻律変調器が音声信号を生成する。
韻律の深さを手作業で選択してシステムに入力するステップ248の処理と同様に、本発明では、システムは、男性の話者、女性の話者、成熟した大人の女性の話者、若い男性の話者、外国語訛りのある成熟した大人の男性の話者など、異なる話者を模擬するために、韻律の選択における変更を考慮したものになっている。本発明では、人工知能、ユーザによる入力、あるいはそれらの組み合わせにより、対話の有無を判定する。一般的に、対話というものは二人の話者の間で交わされるものであり、このような場合、システムは、例えば、文中のクエスチョン符号を見つけ出すことにより、一方の話者が話している時と、他方の話者が話している時とを区別することができる。人工知能を使うと、例えば、テキスト中の話者の名前を見つけ出して、話者の性別を区別することができたり、テキストの広い範囲を見て、その人が苗字で呼ばれる時と、苗字と名前のフルネームで呼ばれている時とを区別することが可能となる。このような情報は、すべてステップ251で抽出され、ステップ252の話者の選択処理で考慮されるようになっている。例えば、本装置は、一方の話者の音声を、どっしりとした男性の声で作りだし、他方の話者の音声を、旋律の美しい女性の声で作り出すことが可能である。
ステップ250で出力したテキストは、更に、図3に示す処理ステップに渡される。
図5は、本発明の音声合成方法310の他の実施例を示す図である。方法310は、ステップ312の、音声に変換するテキストの入力処理から始まる。テキストは、ステップ314で、人工知能アルゴリズムにかけられ、その文脈と一般情報コンテンツを決定するが、比較的単純な人工知能処理方式により、この情報コンテンツを生成するレベルとなっている。このようなレベルの処理とすることは、上述したように、テキストで表わされた様々な音を構成する音素の韻律に対して、特有の効果を与えるものとなる。
ステップ316では、韻律の識別情報と韻律の音とともに、ステップ318のテキストから得られた、テキスト中の音素の韻律を決定し、韻律の記録を生成する。ステップ316で生成した韻律記録は、その発音が辞書に定義されているような特定の単語に基づくものである。ステップ320では、その韻律に対応した文脈情報をもつテキストを用いて、テキスト中の文脈のテキストの特定の要素に対応した韻律を決定する。この文脈韻律決定(文章中のクエスチョン符号、あるいはLessacルール(例えば、図4で示したように実装されたルール)で与えられるようなこと)は、ステップ318で生成した韻律記録を修正するのに用いられる付加情報をもたらす。
本発明では、ステップ318で、テキストの要素の韻律に、ピッチと長さについての定量的な値が割り付けられる。さらに、ステップ318で生成された値は、ステップ320で変化させる。従って、韻律記録は、文脈韻律情報によって変化した各語の韻律についての基本情報を含むため、ステップ318は、増強した韻律記録を生成するものと言える。
しかし、前の実施例と同じように、システムから出力された韻律番号をランダムに変化させることを用いるため、均等なルールに基づいた韻律の機械的な感覚は取り除かれる。定量的な韻律の数値が不正確な韻律に対応するような範囲に到ることのないように、ランダムな変化の幅は、適切な値に設定する必要がある。本発明では、出力される音声信号を通して、意味を容易に理解できなくなるほど、韻律を変化させることなく、機械的でない出力音声信号が得られるように、韻律を変化させる。このように韻律記録中の定量的な値を変化させる処理が、ステップ322に実装されている。
ステップ318で出力された識別情報に加え、ステップ318で特定された音素は、音情報に関連付ける必要がある。この音情報は、規格化された音情報の形式をもつ。本発明の一実施例では、規格化された音情報を基準にして音の長さとピッチを変えるために、音情報が用いられる。各音素に対応した音情報は、ステップ318で生成される。
本発明の一実施例では、音情報は、従来技術のいくつかの手段によって求めることができる。例えば、システムは、人の声を記録したデータを単純に格納していて、システムによりメモリの中から呼び出すような仕掛けとすることも可能である。もう一つの方法として、理論的や実験的に生成した音素、機械的に合成した音素、いわゆる半音素、あるいは、各音素カーブの様々な部分を定義する音素の開始、中盤、減衰部、ならびにエネルギー振動に基づいて、システムが音を生成することも可能である。
音素の並びについての音情報は、本実施例では、音素識別情報とそれに対応したピッチ、長さおよび音声情報の形をもっており、これは、オプションとして、上述したように、Lessacの連結の検出によって変更され、ステップ344で、オプションの韻律の深さを変調する処理にかけられる。
本発明では、ステップ346でシステムに入力されたランダムデータに応じて、ステップ344で韻律が変更される。更に、ステップ348では、手作業による上書き、および、あるいは、ベル型曲線の中心点やベル型曲線の幅などを手作業で選択して、深さが変更される。
さらに、ステップ344の実行の後、音の認識情報と他のパラメータと組み合わされた韻律とが、システムで与えられ、韻律変調器に送られる。ステップ350では、韻律変調器が音声信号を生成する。
韻律の深さを手作業で選択してシステムに入力するステップ348の処理と同様に、本発明では、システムは、感情を模擬するために、韻律の選択、および、あるいは、点量的な韻律の値の変更を考慮したものになっている。これは、様々な感情に関連付けられたある種の単語の存在と頻度、および、ある種の語句などの存在を検出することにより実現されている。本発明では、人工知能(あるいは、手作業による上書きのための、ユーザによる入力、あるいはその組み合わせ)を用いて、これの処理に関する性能を向上することが考慮されている。このような情報は、すべてステップ351で抽出され、さらに、適切な感情を反映するために、拡張された韻律記録をステップ253で変更する、韻律を変更する情報を生成するために用いられる。この情報は、ステップ344で韻律の深さを変更するために送られる。
ステップ250で出力したテキストは、更に、図3に示す処理ステップに渡される。
従来技術による音声合成(TTS)システムでは、合成装置が課題となっていた。一方、音声をつなぎ合わせて合成する方法を用いると、フォルマント周波数による方法よりは融通性は少なくなるものの、男性と女性の違いに合わせて、より整合のとれた音声を作り出す特徴をもっている。また、人間の音声で使われるときの調和音と音量で再生される高品質の合成音声を、高品位の記録として取り込むことができ、シンセサイザからの音を加工するのに用いられる音素を用いることができる。残念なことに、周波数や韻律の不連続性を生じる同時調音と呼ばれる、(音素、二重音声、三重音声などの)音の単位の不適切なマッチングの影響を受ける。
従来技術の他の問題としては、限定されたり不適切な表現性、不自然な韻律、ならびに、生み出そうとする音声によって感情表現を伝えることが求められる場面で、音声によって感情を伝えることに失敗するといったものがある。
本発明のシステムは、これらの問題点を解決するものである。上で説明したように、本発明の方法は、人工知能(AI)を適用してテキストの意味を認識し、伝えようとするメッセージの感情表現を特定するものである。本発明のほかの実施例では、シンセサイザに対してどのように発音すべきかを指示する際に含まれる、音素データベースへの書記素に着目している。
従来技術によるTTSでは、入力テキストを解析して、テキストを規格化し、文章の構造を特定して、文章の構造や構文を言語的に解析することが行われている。これは、書記素によってテキストからの音声出力を得るものである。さらに、音声分析は、書記素を音素に変換し、韻律分析により、ピッチ、長さおよびリズムについての音響的な変更を行う。これらの処理の出力は、入力されたテキストを音声合成して発音したものになる。
現行のTTSでの課題は、音声合成したものが、実際の人の音声のようなリズムと表現性をもつようにすることである。本発明の方法では、音声合成すべき言語的にマーク付けしたテキストを、さらに、自動計算言語処理(ACL)と人工知能(AI)によって処理する。
前者のACL技術は、音声合成しようとするテキストから得られた構造的、音色および子音のエネルギーを表す、合成音声の音響的な特徴を、どこで適用するかを決定するものである。この技術は、単語を個々に発音する際に、個々の単語の中にある音の調音と同時調音の並びを生み出すために、音素指令の唯一の書記素が、どこで必要になるのかを特定する。また、この技術は、発声させる単語の特定の並びの中で調音の変更が必要となる場合があるため、音の調音と同時調音の別の並びを生み出すために、音素指令の唯一の書記素が、どこで必要になるのかを特定する。このような発音のルールのいくつかの例として、“連結と再生”、“準備と連結”などのルールが、Arthur Lessacの著書の中で紹介されている。
また、後者の人工知能技術は、元のマーク付けテキストを処理して、合成音声がどのような人に向けて話しかけられようとしているかを明らかにするものであり(例えば、一般的なニュース内容、個人向けにカストマイズされたニュース、個人に対して説得するメッセージなど)、さらに、合成音声によって伝えようとするメッセージの意味(例えば、熱意、興奮、客観的な事実の表現、ユーモアなど)に応じて文脈を伝えるために必要とされる、最も適した表現上の韻律を明らかにするものである。メッセージの内容と意図、ならびに想定される聞き手は、用いるべき韻律はなにかを示すものとなる。これにより、リズム、音色の変化、音色の変化率の変化、子音と母音の長さ、さらに、会話の構造的な要素を反映した音響的な要素と共鳴が変更される。上述した単語と句の、“規格化された”自然な表現での発音に対し、ACLで規定されている発音ルールの規格化された調音と同時調音に基づき、書記素から音素へのユニークな変換命令の、音の時間的な変化の後で、これらの変更を行うことになる。
本発明の発想の一つの原点は、複数のデータベースを備えて利用することにある。これらのデータベースの内容と生成について、以下、説明する。これらのデータベースは規格化され、自然な会話を特定するための参照基準として提供される。明瞭に聞こえるように適切に発音された単語の韻律の並びと、個々に発声される単語と、連続した単語として発声される単語に関する、子音の自然な調音についてのルールが、規格化されている。
これらのデータベースの音素と書記素は、規格化されることにより、発音の本来のリズムの減衰範囲を備えている。同様に、子音と母音を再生する際に、音色が変更される自然な音楽に制約を加え、用いる構文に依存した変更についても、音量と共鳴を考慮する必要があるが、同様にその変更を減らすことができる。
本発明の方法では、音声の利用と訓練に関するLessacシステムに含まれる他のルールは、再生された子音あるいは母音の音色を、伸ばしたり、縮めたり、上昇させたり下降させたりして変更し、その変化の時間と率も変更するためのマーク付けされた命令として利用される。同様に、音色、共鳴および調和音に影響を与えるような構造的な変更に対して、他のマーク付け命令がある。例えば、逆円錐の大きさ、唇を開く大きさ、y−buzzである。最後に示すこの種の命令としては、韻律における句読要素として、子音の調音、沈黙、およびの沈黙のランダム性を特定するものがある。
本発明の方法は、認定されたLessac理論の実践者たちを、選択されたスタイルでテキストを読み上げる話者として用いている。これらの実践者たちは、話されるメッセージを調べて、話されるメッセージの意図した目的と、想定される聞き手を想定する。一例として、様々な聴衆に対するラジオのニュース放送の原稿を、例証として考察する。これらのメッセージが、どんな言語レベルにあるのかを分析すると、サンプリングしたテキストは、言語的な理解の要求レベルとして、8年生から12年生のものであり、また、大学学部卒業程度のものが表現されている。
認定されたLessac理論の実践者たちは、Lessacシステムの発音ルールの記法に従って、手作業でこれらのテキストにマーク付けをした。手作業のマーク付けルールのデータベースは、音声合成の対象となるテキストを計算機によって言語評価するためのベースであり、上述した自動計算機言語解析技術のベースである。これらの実践者たちは、これらの例としてのテキストを、印象的に、かつ、伝えようとするテキストの意味に従って音声にして話す。音色、構造、子音のエネルギーが、会話の中では異なるバランスを持つような表現のスタイルを変えて発音しながら、各話者が、繰り返し音声を発してゆく。
これらの実践者たちは、自分が話す順番である時を除き、他の人が話すのを聴いて、マーク付けされたテキストの通りに正確に話されているかに着目する。また、彼らは、伝えようとするテキストの意味が表現されているところで、スタイルの基準が満たされているかに着目して、他の人の話すのを評価する。マーク付けテキストに正確に沿っているか、あるいは、スタイルの基準が満たされているかのいずれかの観点で、失敗したと見なされる話は、選択されたテキストに対する会話の記録として残すものから除外される。
表現の単独のスタイルとして、テキストのマーク付けに適用されるルールは、聞き手に音声として与えられるテキストを効率的に区別し、伝えようとするメッセージの認知的な意味と、その意味を伝えることに最も役立つ表現スタイルを決定するための、人工知能技術(構文、語彙選択、句構造、ファジー集合、ニューラルネット等)のベースとなるものである。
音声を発する際の個々の表現に関する韻律のルールのデータベースを用いて、個々に発声された単語と、句あるいは段落のように単語が並んだ形での単語の発音について、規格化された自然な発音の“標準スタイル”のための音声と明確に発音するルールだけを用いて発音されたものと同じテキストについての規格化された音響の時間軸上の変化からのズレを補正する。この指標は、音素のレベルで生成される音に対し、ピッチ周波数、音素の持続時間、単位時間当りの音の変化、および音の変化の時間軸上の変化について、単位量の+と−の変化として出力されるものである。このように、伝えようとするメッセージの内容に適したスタイルと、リズム、音調の変化、および音声合成されるテキスト中の単語について、子音および母音の伸ばされたり短くされた調音の変化の時間軸上の変化を与えるために用いられるスタイルを与える、人工知能に基づくテキストの評価結果が得られる。表現のスタイルに関する指令は、個々に発音される単語と、発声される単語の並びの中での単語の位置により、発音を変更する必要のある単語に規格化された音データからのズレを定量化したものとして与えられる。
本発明の目的は、特定の複数のデータベースの組を作り出し、効果的なメッセージのスタイルを、聞き手の要求に合わせることにある。受け入れられた音声を集めて、これを高品位の記録の形で保存し、選び抜かれたテキストに対する音声を収録した音声データベースとして格納する。これらの音声を、高校卒業未満、高校卒業、大学卒業の各教育レベルの人たちを聞き手として再生する。聞き手は、明確に理解できるものとして話者の認知に基づき、高品位の音声を判定する。その判定は、話者についての聞き手の印象を、肯定的、中立的、否定的で表すことや、話者の信憑性について、充分信用できるから信じられないまでで表すことや、話し方のスタイル(客観的な報告、事実にもとづく主張、確信にもとづく主張、親密さ、ユーモアなど)についてや、話者の感情的な状態(幸せ、悲しい、恐ろしい、怒っているなど)について行われる。また、聞き手は、伝えられた単語と語句が正確に認知できたかどうかについてもテストされ(テストサンプルの単語と語句の中の理解した割合)、また、話者が意図とする意味を正確に理解できたかどうかについてもテストされる(メッセージの中の主要な考え方を、聞き手が正しく認知した割合や、そのような音声になっている理由や、意図とした聞き手の想定を正しく認知した割合で判定する。)
同時に、同じ条件をもつ聞き手を集め、再度、異なる教育到達レベルごとにテストする。この聞き手の集団では、各人には、元のテキストを文字で読ませるが、高品位の録音は聴かせないようにする。各人は、認知、印象および正確な理解について、先の音声を聴かされた集団と同一の項目についてテストを受ける。
本発明によれば、人工知能技術(AI)によって直接適用されるルールの集合を構築する。充分なサンプル量となる数の聞き手が、読まれたテキストの特定の記録音声を聴いて、メッセージを正しく受け取り、その意味を理解した段階で、最終的なルール選択を行う。各ルールは独立変数として扱い、多重識別統計分析を行って、複数のデータベース中の規格化された単語と句から、距離関数での変動幅が所定の値となるルールの最小の集合を特定する。この変動幅は、変更された音素と距離関数を適用した一定の割合、例えば、95%とするこれにより、理解の程度があまり影響しないルールを除外できる。
関連した距離関数とルールは、AI処理で用いられ、意図した表現、採用された韻律および音楽要素を求めるために、音素と書記素を変更するための自動出力を示す。これらの新しい値を合成し、Lessac理論の実践者に対して再生する。この実践者は、その合成結果を聴いて、合成のための複数のデータベース値を単純に用いた場合と比較して、音声品質について評価を下す。
次に、これらの音声を、Lessac理論の実践者の高品位録音を聞いた聞き手に対応した聞き手集団に対して再生する。この目的は、少ないルールの集合で印象に関する合成を行った結果において、非専門家である聞き手の高品位録音よりも、理解度が等しいかそれを上回ることを確認することにある。
最終的なルールと距離関数の集合は、AI評価と、合成しようとするマーク付けされたテキストの計算言語処理による出力に対応したルールを含むデータベースセットとなる。
本発明の実施例を、システムの様々な部分に対するいくつかの代案とともに説明してきたが、様々な変更が可能であることは、本技術分野に精通した者にとっては自明なことである。これらの変更は、本発明の趣旨と範囲を逸脱することはなく、この趣旨と範囲は、請求項で限定し定義したものである。
本発明による音声合成システムを示す図である。 3つのLessacルールを適用した音声合成システムを示す図である。 図2のシステムからの韻律出力を処理するために用いられるフィルタシステムを示す図である。 話者を区別する特徴を付加した、図2に示したものと同様の音声合成システムを示す図である。 出力合成音声中に感情を込めるための、本発明による音声合成システムを示す図である。

Claims (26)

  1. メモリを有する計算機装置を用いて音声合成を行う方法であって、
    (a)前記計算機装置の前記メモリにテキスト(112)を受信するステップと、
    (b)言語構文解析ルール(26)の集合を適用し、前記テキストを複数の要素に構文解析するステップと、
    (c)発音と意味に関する情報を、前記要素に対応づけるステップと
    (d)語句構文解析ルール(18)の集合を適用し、マーク付けしたテキストを生成するステップと、
    (e)音構文解析ルールを用いて、前記マーク付けしたテキスト(22)を音構文解析するステップと、
    (f)複数の音をメモリに格納するステップであって、前記音の各々は、前記発音に関する情報に対応付けられたものであることを特徴とするステップと、
    (g)前記テキストに対応付けられた音を呼び出し、生の音声信号を生成するステップを含む方法であって、
    さらに、(h)表現構文解析ルール(26)を用いて、前記マーク付けしたテキストを構文解析するステップを含み、該ルールは、任意のLessac構文解析ルールであることを特徴とする方法。
  2. 請求項1記載の方法において、表現構文解析ルールは、データベースから求められ、Lessacの音声指導システムに基づくものであり、ルールは、発声されるか無音である子音ドラムビートの特定と、単語リスト中の音エネルギー位置と、単語の中の構造的な母音の音と、連結詞を任意に含むことを特徴とする方法。
  3. 請求項1記載の方法は、ランダム化された文脈韻律変更を含むことを特徴とする方法。
  4. 請求項1記載の方法は、直接連結、再生と連結、および準備と連結からなるグループから選択した任意の一つまたはより多くのLessac連結詞の韻律変更を含むことを特徴とする方法。
  5. 請求項1記載の方法は、テキストの意味の認識への人工知能の適用と、伝えようとするメッセージの感情的な状態の特定と、特定された感情的な状態に応じた音声合成出力の韻律の変更とを含むことを特徴とする方法。
  6. 請求項1、2、3、4または5記載の方法は、
    (h)表現構文解析ルールを用いて決定したパラメータを用いて、前記生の音声信号をフィルタ処理し、出力音声信号を生成するステップを含むことを特徴とする方法。
  7. メモリを有する計算機装置を用いて音声合成を行う方法であって、
    (a)前記計算機装置の前記メモリに複数単語からなるテキスト(112)を受信するステップと、
    (b)前記テキストから複数の音素(118)を抽出するステップと、
    (c)前記音素に対応した音情報を、前記メモリから読み出すステップと、
    (d)前記音情報を出力して、音声信号を生成するステップとを含む方法であって、
    (c)前記単語に対応した韻律記録のデータベースに基づく韻律記録を、前記音素の各々に対応づけることと、
    (d)人工知能ルールの集合を適用し、前記テキストの文脈情報を決定することと、
    (e)前記音素の各々に対して、
    (i)文脈の影響を受けた韻律の変化を決定し、
    (ii)Lessac理論に基づくルールの第二集合を適用し、Lessac理論に基づく韻律の変化を決定し、
    (iii)前記文脈の影響を受けた韻律の変化と、前記Lessac理論に基づく韻律の変化に応じて、韻律記録を変更し、
    (iv)前記音素に対応した音情報を、前記メモリから読み出し、
    (v)前記文脈の影響を受けた韻律の変化と、前記Lessac理論に基づく韻律の変化に応じて変更した韻律記録に基づき、前記音情報を変更し、変更された音情報を生成すすることを特徴とする方法。
  8. 請求項7記載の音声合成方法において、前記音声信号の韻律を変化させ、前記音声信号の現実感を向上させることを特徴とする方法。
  9. 請求項7記載の音声合成方法において、ランダムに、または擬似ランダムに前記音声信号の韻律を変化させ、前記音声信号の現実感を向上させることを特徴とする方法。
  10. 請求項7記載の音声合成方法において、前記音情報を異なる話者に対応させ、人工知能ルールの集合を用いて、出力しようとする音情報に対応した話者の特定情報を決定することを特徴とする方法。
  11. 請求項7記載の音声合成方法において、前記文脈の影響を受けた韻律の変化に応じた、韻律記録の前記変更は、前期テキストの単語とそれらの並び方に基づくものであることを特徴とする方法。
  12. 請求項7、8、9、10または11記載の音声合成方法において、前記文脈の影響を受けた韻律の変化に応じた、韻律記録の前記変更は、前記テキスト中の単語の感情的な文脈に基づくものであることを特徴とする方法。
  13. 請求項12記載の音声合成方法において、前記音声信号の韻律を変化させ、前記音声信号の現実感を向上させることを特徴とする方法。
  14. 請求項13記載の音声合成方法において、ランダムに、または擬似ランダムに前記音声信号の韻律を変化させ、前記音声信号の現実感を向上させることを特徴とする方法。
  15. 請求項14記載の音声合成方法において、前記音情報を異なる話者に対応させ、人工知能ルールの集合を用いて、出力しようとする音情報に対応した話者の特定情報を決定することを特徴とする方法。
  16. 請求項15記載の音声合成方法において、前記文脈の影響を受けた韻律の変化に応じた、韻律記録の前記変更は、前期テキストの単語とそれらの並び方に基づくものであることを特徴とする方法。
  17. 請求項16記載の音声合成方法は、さらに、前記音声信号をフィルタ処理し、フィルタ処理された変更された音情報信号を求め、前記フィルタ処理された変更された音情報信号を出力して音声信号を生成するステップを含むことを特徴とする方法。
  18. 請求項17記載の音声合成方法において、前記変更された音情報の前記フィルタ処理は、エコーの導入を含むことを特徴とする方法。
  19. 請求項18記載の音声合成方法において、前記変更された音情報の前記フィルタ処理は、前記変更された音情報を、母音情報に合わせて共鳴特性を与えるアナログまたはデジタル共鳴回路に送ることを特徴とする方法。
  20. 請求項17記載の音声合成方法において、前記音声信号のフィルタ処理は、前記変更された音情報の減衰を含むことを特徴とする方法。
  21. 請求項16記載の音声合成方法は、さらに、エコーを導入して、前記変更された音情報をフィルタ処理するステップと、前記変更された音情報を、母音情報に合わせて共鳴特性を与えるアナログまたはデジタル共鳴回路に送るステップと、前記変更された音情報を減衰するステップとを含むことを特徴とする方法。
  22. 請求項12記載の音声合成方法は、さらに、エコーを導入して、前記変更された音情報をフィルタ処理するステップと、前記変更された音情報を、母音情報に合わせて共鳴特性を与えるアナログまたはデジタル共鳴回路に送るステップと、前記変更された音情報を減衰するステップとを含むことを特徴とする方法。
  23. 請求項12記載の音声合成方法は、さらに、前記テキストに適用する人工知能ルールに応じ、および、または人による入力に応じて、前記テキストの文脈と論理的に整合をもつ背景音を加えるステップを含むことを特徴とする方法。
  24. 請求項12記載の音声合成方法は、さらに、前記テキストの文脈と整合をとり、前記テキストに適用される人工知能ルールおよび、または人の入力に応じて、論理的に背景音を加えるステップを含むことを特徴とする方法。
  25. 請求項12記載の音声合成方法は、さらに、メッセージの内容、意図または想定される聞き手の情報を用いて、適用すべき韻律を示すステップを含むことを特徴とする方法。
  26. 請求項12記載の音声合成方法は、さらに、リズム、音の変化、音の変化率、子音および母音の音の長さ、調和音の構成および共鳴の中から選ばれた、一つまたはより多くの韻律特性を変更するステップを含むことを特徴とする方法。
JP2003564856A 2002-01-29 2003-01-28 音声合成 Expired - Fee Related JP4363590B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/061,078 US6847931B2 (en) 2002-01-29 2002-01-29 Expressive parsing in computerized conversion of text to speech
US10/334,658 US6865533B2 (en) 2000-04-21 2002-12-31 Text to speech
PCT/US2003/002561 WO2003065349A2 (en) 2002-01-29 2003-01-28 Text to speech

Publications (2)

Publication Number Publication Date
JP2005516262A JP2005516262A (ja) 2005-06-02
JP4363590B2 true JP4363590B2 (ja) 2009-11-11

Family

ID=27667761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003564856A Expired - Fee Related JP4363590B2 (ja) 2002-01-29 2003-01-28 音声合成

Country Status (5)

Country Link
US (1) US6865533B2 (ja)
EP (1) EP1479068A4 (ja)
JP (1) JP4363590B2 (ja)
CA (1) CA2474483A1 (ja)
WO (1) WO2003065349A2 (ja)

Families Citing this family (212)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7292980B1 (en) * 1999-04-30 2007-11-06 Lucent Technologies Inc. Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2002282543A (ja) * 2000-12-28 2002-10-02 Sony Computer Entertainment Inc オブジェクトの音声処理プログラム、オブジェクトの音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体、プログラム実行装置、及びオブジェクトの音声処理方法
US20020133342A1 (en) * 2001-03-16 2002-09-19 Mckenna Jennifer Speech to text method and system
GB0113570D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Audio-form presentation of text messages
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
US7096183B2 (en) * 2002-02-27 2006-08-22 Matsushita Electric Industrial Co., Ltd. Customizing the speaking style of a speech synthesizer based on semantic analysis
US20030212761A1 (en) * 2002-05-10 2003-11-13 Microsoft Corporation Process kernel
KR100463655B1 (ko) * 2002-11-15 2004-12-29 삼성전자주식회사 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법
US7424430B2 (en) * 2003-01-30 2008-09-09 Yamaha Corporation Tone generator of wave table type with voice synthesis capability
JP4264030B2 (ja) * 2003-06-04 2009-05-13 株式会社ケンウッド 音声データ選択装置、音声データ選択方法及びプログラム
US20040254793A1 (en) * 2003-06-12 2004-12-16 Cormac Herley System and method for providing an audio challenge to distinguish a human from a computer
JP2005031259A (ja) * 2003-07-09 2005-02-03 Canon Inc 自然言語処理方法
US7359085B2 (en) * 2003-07-14 2008-04-15 Lexmark International, Inc. Method and apparatus for recording sound information and playing sound information back using an all-in-one printer
US8886538B2 (en) * 2003-09-26 2014-11-11 Nuance Communications, Inc. Systems and methods for text-to-speech synthesis using spoken example
US8200477B2 (en) * 2003-10-22 2012-06-12 International Business Machines Corporation Method and system for extracting opinions from text documents
US8103505B1 (en) * 2003-11-19 2012-01-24 Apple Inc. Method and apparatus for speech synthesis using paralinguistic variation
US20050125486A1 (en) * 2003-11-20 2005-06-09 Microsoft Corporation Decentralized operating system
JP4585759B2 (ja) * 2003-12-02 2010-11-24 キヤノン株式会社 音声合成装置、音声合成方法、プログラム、及び記録媒体
WO2005088606A1 (en) * 2004-03-05 2005-09-22 Lessac Technologies, Inc. Prosodic speech text codes and their use in computerized speech systems
US7570746B2 (en) * 2004-03-18 2009-08-04 Sony Corporation Method and apparatus for voice interactive messaging
US20070203703A1 (en) * 2004-03-29 2007-08-30 Ai, Inc. Speech Synthesizing Apparatus
US7788098B2 (en) 2004-08-02 2010-08-31 Nokia Corporation Predicting tone pattern information for textual information used in telecommunication systems
US7865365B2 (en) * 2004-08-05 2011-01-04 Nuance Communications, Inc. Personalized voice playback for screen reader
JP2006047866A (ja) * 2004-08-06 2006-02-16 Canon Inc 電子辞書装置およびその制御方法
US7869999B2 (en) * 2004-08-11 2011-01-11 Nuance Communications, Inc. Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
JP4456537B2 (ja) * 2004-09-14 2010-04-28 本田技研工業株式会社 情報伝達装置
US7675641B2 (en) * 2004-10-28 2010-03-09 Lexmark International, Inc. Method and device for converting scanned text to audio data via connection lines and lookup tables
JP4802489B2 (ja) * 2004-12-07 2011-10-26 日本電気株式会社 音データ提供システムおよびその方法
TWI281145B (en) * 2004-12-10 2007-05-11 Delta Electronics Inc System and method for transforming text to speech
US7707131B2 (en) * 2005-03-08 2010-04-27 Microsoft Corporation Thompson strategy based online reinforcement learning system for action selection
US7734471B2 (en) 2005-03-08 2010-06-08 Microsoft Corporation Online learning for dialog systems
US7885817B2 (en) * 2005-03-08 2011-02-08 Microsoft Corporation Easy generation and automatic training of spoken dialog systems using text-to-speech
JP2008545995A (ja) * 2005-03-28 2008-12-18 レサック テクノロジーズ、インコーポレーテッド ハイブリッド音声合成装置、方法および用途
US7415413B2 (en) * 2005-03-29 2008-08-19 International Business Machines Corporation Methods for conveying synthetic speech style from a text-to-speech system
US20090202226A1 (en) * 2005-06-06 2009-08-13 Texthelp Systems, Ltd. System and method for converting electronic text to a digital multimedia electronic book
KR100724868B1 (ko) * 2005-09-07 2007-06-04 삼성전자주식회사 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070078655A1 (en) * 2005-09-30 2007-04-05 Rockwell Automation Technologies, Inc. Report generation system with speech output
US8224647B2 (en) 2005-10-03 2012-07-17 Nuance Communications, Inc. Text-to-speech user's voice cooperative server for instant messaging clients
US20070124142A1 (en) * 2005-11-25 2007-05-31 Mukherjee Santosh K Voice enabled knowledge system
US20070288898A1 (en) * 2006-06-09 2007-12-13 Sony Ericsson Mobile Communications Ab Methods, electronic devices, and computer program products for setting a feature of an electronic device based on at least one user characteristic
US8036902B1 (en) * 2006-06-21 2011-10-11 Tellme Networks, Inc. Audio human verification
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
CN101606190B (zh) * 2007-02-19 2012-01-18 松下电器产业株式会社 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101295504B (zh) * 2007-04-28 2013-03-27 诺基亚公司 用于仅文本的应用的娱乐音频
CN103200309A (zh) * 2007-04-28 2013-07-10 诺基亚公司 用于仅文本的应用的娱乐音频
EP2188729A1 (en) * 2007-08-08 2010-05-26 Lessac Technologies, Inc. System-effected text annotation for expressive prosody in speech synthesis and recognition
JP4327241B2 (ja) * 2007-10-01 2009-09-09 パナソニック株式会社 音声強調装置および音声強調方法
SG152092A1 (en) * 2007-10-26 2009-05-29 Creative Tech Ltd Wireless handheld device able to accept text input and methods for inputting text on a wireless handheld device
JP5098613B2 (ja) * 2007-12-10 2012-12-12 富士通株式会社 音声認識装置及びコンピュータプログラム
US9330720B2 (en) * 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8489399B2 (en) 2008-06-23 2013-07-16 John Nicholas and Kristin Gross Trust System and method for verifying origin of input through spoken language analysis
US20090326948A1 (en) * 2008-06-26 2009-12-31 Piyush Agarwal Automated Generation of Audiobook with Multiple Voices and Sounds from Text
US9186579B2 (en) 2008-06-27 2015-11-17 John Nicholas and Kristin Gross Trust Internet based pictorial game system and method
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8352268B2 (en) * 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8571849B2 (en) * 2008-09-30 2013-10-29 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with prosodic information
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8401849B2 (en) * 2008-12-18 2013-03-19 Lessac Technologies, Inc. Methods employing phase state analysis for use in speech synthesis and recognition
US8380507B2 (en) * 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US8332225B2 (en) * 2009-06-04 2012-12-11 Microsoft Corporation Techniques to create a custom voice font
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110029325A1 (en) * 2009-07-28 2011-02-03 General Electric Company, A New York Corporation Methods and apparatus to enhance healthcare information analyses
US20110029326A1 (en) * 2009-07-28 2011-02-03 General Electric Company, A New York Corporation Interactive healthcare media devices and systems
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8949128B2 (en) 2010-02-12 2015-02-03 Nuance Communications, Inc. Method and apparatus for providing speech output for speech-enabled applications
US8571870B2 (en) 2010-02-12 2013-10-29 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
US8447610B2 (en) 2010-02-12 2013-05-21 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9564120B2 (en) * 2010-05-14 2017-02-07 General Motors Llc Speech adaptation in speech synthesis
US8423365B2 (en) 2010-05-28 2013-04-16 Daniel Ben-Ezri Contextual conversion platform
US8965768B2 (en) 2010-08-06 2015-02-24 At&T Intellectual Property I, L.P. System and method for automatic detection of abnormal stress patterns in unit selection synthesis
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
JP2012198277A (ja) * 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9111457B2 (en) * 2011-09-20 2015-08-18 International Business Machines Corporation Voice pronunciation for text communication
US10453479B2 (en) 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US8972265B1 (en) * 2012-06-18 2015-03-03 Audible, Inc. Multiple voices in audio content
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9472113B1 (en) 2013-02-05 2016-10-18 Audible, Inc. Synchronizing playback of digital content with physical content
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9928754B2 (en) * 2013-03-18 2018-03-27 Educational Testing Service Systems and methods for generating recitation items
US9317486B1 (en) 2013-06-07 2016-04-19 Audible, Inc. Synchronizing playback of digital content with captured physical content
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
EP3061086B1 (en) * 2013-10-24 2019-10-23 Bayerische Motoren Werke Aktiengesellschaft Text-to-speech performance evaluation
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
JP6507579B2 (ja) * 2014-11-10 2019-05-08 ヤマハ株式会社 音声合成方法
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US9721551B2 (en) 2015-09-29 2017-08-01 Amper Music, Inc. Machines, systems, processes for automated music composition and generation employing linguistic and/or graphical icon based musical experience descriptions
US10854180B2 (en) 2015-09-29 2020-12-01 Amper Music, Inc. Method of and system for controlling the qualities of musical energy embodied in and expressed by digital music to be automatically composed and generated by an automated music composition and generation engine
RU2632424C2 (ru) 2015-09-29 2017-10-04 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для синтеза речи по тексту
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
JP6523998B2 (ja) * 2016-03-14 2019-06-05 株式会社東芝 読み上げ情報編集装置、読み上げ情報編集方法およびプログラム
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10225621B1 (en) 2017-12-20 2019-03-05 Dish Network L.L.C. Eyes free entertainment
CN108877765A (zh) * 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
WO2019245916A1 (en) * 2018-06-19 2019-12-26 Georgetown University Method and system for parametric speech synthesis
EP3921770A4 (en) * 2019-02-05 2022-11-09 Igentify Ltd. SYSTEM AND METHOD FOR MODULATION OF DYNAMIC GAPS IN SPEECH
CN110047474A (zh) * 2019-05-06 2019-07-23 齐鲁工业大学 一种英语音标发音智能训练系统及训练方法
KR20210155401A (ko) 2019-05-15 2021-12-23 엘지전자 주식회사 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법
US11024275B2 (en) 2019-10-15 2021-06-01 Shutterstock, Inc. Method of digitally performing a music composition using virtual musical instruments having performance logic executing within a virtual musical instrument (VMI) library management system
US10964299B1 (en) 2019-10-15 2021-03-30 Shutterstock, Inc. Method of and system for automatically generating digital performances of music compositions using notes selected from virtual musical instruments based on the music-theoretic states of the music compositions
US11037538B2 (en) 2019-10-15 2021-06-15 Shutterstock, Inc. Method of and system for automated musical arrangement and musical instrument performance style transformation supported within an automated music performance system
US11302300B2 (en) * 2019-11-19 2022-04-12 Applications Technology (Apptek), Llc Method and apparatus for forced duration in neural speech synthesis
CN110933330A (zh) * 2019-12-09 2020-03-27 广州酷狗计算机科技有限公司 视频配音方法、装置、计算机设备及计算机可读存储介质
TWI759003B (zh) * 2020-12-10 2022-03-21 國立成功大學 語音辨識模型的訓練方法
WO2022144851A1 (en) * 2021-01-01 2022-07-07 Jio Platforms Limited System and method of automated audio output
CN112818118B (zh) * 2021-01-22 2024-05-21 大连民族大学 基于反向翻译的中文幽默分类模型的构建方法
WO2024079605A1 (en) 2022-10-10 2024-04-18 Talk Sàrl Assisting a speaker during training or actual performance of a speech

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783803A (en) 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US4903305A (en) 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
US4866778A (en) 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
US5231670A (en) 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US5027406A (en) 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5010495A (en) 1989-02-02 1991-04-23 American Language Academy Interactive language learning system
US5745873A (en) 1992-05-01 1998-04-28 Massachusetts Institute Of Technology Speech recognition using final decision based on tentative decisions
US5393236A (en) 1992-09-25 1995-02-28 Northeastern University Interactive speech pronunciation apparatus and method
GB9223066D0 (en) 1992-11-04 1992-12-16 Secr Defence Children's speech training aid
US5850627A (en) 1992-11-13 1998-12-15 Dragon Systems, Inc. Apparatuses and methods for training and operating speech recognition systems
US5636325A (en) 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US5796916A (en) 1993-01-21 1998-08-18 Apple Computer, Inc. Method and apparatus for prosody for synthetic speech prosody determination
US5487671A (en) 1993-01-21 1996-01-30 Dsp Solutions (International) Computerized system for teaching speech
JPH10511472A (ja) 1994-12-08 1998-11-04 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 言語障害者間の語音の認識を向上させるための方法および装置
US5787231A (en) 1995-02-02 1998-07-28 International Business Machines Corporation Method and system for improving pronunciation in a voice control system
US5717828A (en) 1995-03-15 1998-02-10 Syracuse Language Systems Speech recognition apparatus and method for learning
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5903864A (en) 1995-08-30 1999-05-11 Dragon Systems Speech recognition
US5799279A (en) 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
JP2942190B2 (ja) 1996-05-10 1999-08-30 本田技研工業株式会社 バギー車の車体フレーム構造及びその製造方法
US5728960A (en) 1996-07-10 1998-03-17 Sitrick; David H. Multi-dimensional transformation systems and display communication architecture for musical compositions
US5766015A (en) 1996-07-11 1998-06-16 Digispeech (Israel) Ltd. Apparatus for interactive language training
WO1998014934A1 (en) 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US5864805A (en) 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system
US5946654A (en) 1997-02-21 1999-08-31 Dragon Systems, Inc. Speaker identification using unsupervised speech models
GB2323693B (en) 1997-03-27 2001-09-26 Forum Technology Ltd Speech to text conversion
JP4267101B2 (ja) 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
US6081780A (en) 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
US6266637B1 (en) 1998-09-11 2001-07-24 International Business Machines Corporation Phrase splicing and variable substitution using a trainable speech synthesizer
US6188984B1 (en) 1998-11-17 2001-02-13 Fonix Corporation Method and system for syllable parsing
US6253182B1 (en) 1998-11-24 2001-06-26 Microsoft Corporation Method and apparatus for speech synthesis with efficient spectral smoothing
US6144939A (en) 1998-11-25 2000-11-07 Matsushita Electric Industrial Co., Ltd. Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains
WO2001082291A1 (en) 2000-04-21 2001-11-01 Lessac Systems, Inc. Speech recognition and training methods and systems
US6505158B1 (en) * 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech

Also Published As

Publication number Publication date
WO2003065349A2 (en) 2003-08-07
EP1479068A4 (en) 2007-05-09
WO2003065349A3 (en) 2004-01-08
WO2003065349B1 (en) 2004-02-26
US20030163316A1 (en) 2003-08-28
US6865533B2 (en) 2005-03-08
EP1479068A2 (en) 2004-11-24
CA2474483A1 (en) 2003-08-07
JP2005516262A (ja) 2005-06-02

Similar Documents

Publication Publication Date Title
JP4363590B2 (ja) 音声合成
US6847931B2 (en) Expressive parsing in computerized conversion of text to speech
US8219398B2 (en) Computerized speech synthesizer for synthesizing speech from text
Dutoit An introduction to text-to-speech synthesis
Feld et al. Vocal anthropology: From the music of language to the language of song
Halle From memory to speech and back: Papers on phonetics and phonology 1954-2002
JP2007527555A (ja) 韻律音声テキストコード及びコンピュータ化された音声システムへのその使用
WO2009021183A1 (en) System-effected text annotation for expressive prosody in speech synthesis and recognition
KR20150076128A (ko) 3차원 멀티미디어 활용 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법
JPH0335296A (ja) テキスト音声合成装置
Aaron et al. Conversational computers
Meyer et al. A Flute, Musical Bows and Bamboo Clarinets that “Speak” in the Amazon Rainforest; Speech and Music in the Gavião Language of Rondônia
Sečujski et al. Learning prosodic stress from data in neural network based text-to-speech synthesis
JP2004145015A (ja) テキスト音声合成システム及び方法
Trouvain et al. Speech synthesis: text-to-speech conversion and artificial voices
Iida A study on corpus-based speech synthesis with emotion
Chamorro An Analysis of Jonathan Harvey’s Speakings for Orchestra and Electronics
JP2908720B2 (ja) 合成を基本とした会話訓練装置及び方法
Madaminjonov Formation of a Speech Database in the Karakalpak Language for Speech Synthesis Systems
IMRAN ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE
O'Cinneide et al. A brief introduction to speech synthesis and voice modification
Handley Evaluating text-to-speech (TTS) synthesis for use in computer-assisted language learning (CALL)
Clark Emphasizing the articulatory and timbral aspects of vocal production in vocal composition
COHEN et al. A study of pitch phenomena and applications in electrolarynx speech
Newell et al. Place, authenticity time: a framework for synthetic voice acting

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20050328

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090623

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090717

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090814

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120828

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees