JP2007102787A - インスタント・メッセージを可聴音信号によって注釈付けする方法、システム及びプログラム - Google Patents

インスタント・メッセージを可聴音信号によって注釈付けする方法、システム及びプログラム Download PDF

Info

Publication number
JP2007102787A
JP2007102787A JP2006270009A JP2006270009A JP2007102787A JP 2007102787 A JP2007102787 A JP 2007102787A JP 2006270009 A JP2006270009 A JP 2006270009A JP 2006270009 A JP2006270009 A JP 2006270009A JP 2007102787 A JP2007102787 A JP 2007102787A
Authority
JP
Japan
Prior art keywords
text
writer
speech
message
instant message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006270009A
Other languages
English (en)
Inventor
Terry W Niemeyer
テリー・ウエード・ニーメイヤ
Liliana Orozco
リリアナ・オロッコ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2007102787A publication Critical patent/JP2007102787A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】インスタント・メッセージの書き手がメッセージの受け手に音声(可聴音)を生じるのを可能にし制御する方法、システム、及びプログラムを提供する。
【解決手段】メッセージの書き手の音声は語形成型または調音型のテキストから音声への合成エンジンに合わせたパラメータに特徴付けられる。その結果、受け手のクライアント装置は、メッセージ・テキストから書き手の音声の特徴に従った可聴音信号を発生する。代替例として、書き手はサーバーに、実際の音声のサンプルを記憶することができる。その結果、書き手がメッセージを受け手に送ると、サーバーはそのテキスト・メッセージ中の語を合成するためのサンプルを抽出し、そのサンプルを受け手のクライアント装置に送る。そのサンプルはクライアント側の連結合成的なテキストから音声への合成エンジンが書き手の実際の音声に似た可聴音信号を発生する。
【選択図】図1

Description

本発明は、テキストから音声(スピーチ)への合成を用いてテキスト・メッセージの読み出しをするために、インスタント・メッセージ・クライアントが使用できるような、ユーザーの音声データの、サーバー側の記憶部を使用する方法に関する。
テキストから音声への合成
従来の、テキストから音声へ(「テキスト読み上げ」あるいはtext-to-speech 即ち「TTS」と称する)の合成方法は大別すると二つの段階、すなわち高レベル合成および低レベル合成に分けられる。 高レベル合成は、語(ワード)及びこれらの語の文法的用法(例えば、句(フレーズ)の開始もしくは終了、ピリオド(終了符)やクエスチョンマーク(疑問符)などの句読点)を考慮するものである。 典型的には、テキスト分析をして入力テキストを音声その他の言語表示に書き換えることができ、音声情報が波形での音声発生を生じる。
高レベルTTS処理中、話そうとするテキスト・ストリング(文字列)が分析されて複数の語(ワード)に分解される。そこでそのような語は、話し言葉の音(サウンド)のもっと小さいユニット、「音素」に分解される。一般的にいえば、音素は、複数のワードを区別することができるサウンドの基本的で理論的なユニットである。複数のワードは音素の集まりとして定義されもしくは構成される。そこで、低レベルのTTS中、データが音素毎に発生され(もしくは取り出され)、複数のワードが組み立てられ、そして複数のフレーズが完成される。
低レベル合成は、適当な回路(例えば、サウンド・カード、D/Aコンバータなど)を用いて、可聴音になるようなアナログ形式に変換され得るデータを実際に発生する。低レベルTTS合成のための3つの一般的な方法、(a)フォルマント合成、(b)連結的合成、(c)調音合成がある。
フォルマント合成は、ターミナル・アナロジ ( terminal analogy ) としても知られているが、サウンド源およびフォルマント周波数のみをモデルとする。 それは人間の音声サンプルをなんら使用せず、代わりに合成された音声出力を生じるために音響モデルを採用する。音声化、ノイズ・レベルおよび基本的周波数が人工的な音声の波形を生じるために何度も使用されるある種のパラメータ的用法である。
フォルマント合成が、よりロボット的なサウンドの音声であるために、リアルな人間の音声を持たない。フォルマント合成された音声の利点の一つはその知性にある。それは連結的システムを高速のときでさえもしばしば妨げる音響的な欠損を回避することができる。更に、フォルマント・ベースのシステムがその出力音声を全体制御するので、多様なシミュレートされた感情とトーン(音質、音色)を生じることができる。
フォルマントTTS合成プログラムは連結的システムよりもサイズが小さい。音声サンプルのデータベースが不要だからである。従って、プロセッサの電力やメモリ・スペースが不足しているような環境でも使用できる。
調音素性TTS合成技法は人間の発声を直接的に、しかし何ら実際の記録された音声サンプルを使用しないで、モデル化している。調音素性合成は人間の声道をモデル化し、そこでその発声プロセスが生じる。これらの理由から、フォルマントTTS合成の一層複雑なバージョンとしばしば見られる。
連結的合成は、一連の短い予め記録した人間の音声サンプルを組み合わせ、あるいは「連結」して、語、句、文を、より人間らしい質を持つ態様で再生する。この方法はもっとも自然な響きの合成音声をもたらす。しかし、その自然なバリエーション故に、ときとして聞き取れる不具合が、その波形を歪め(例えば舌打ち音やポンといった音)、それがその自然さを減じる。 大きな語彙や辞書についていえば、連結的TTSシステはまた人間の音声サンプルの全てを保持するためにかなり多くの量のデータ記憶部を持たなければならない。連結的合成には、単位選択合成、Diphone(音と音のつながり部分)合成 、分野限定合成という3つの類型がある。全ての類型は、その方法論に従い完全な発話を生じるため、予め記録した語句を使用する。
要約すると、フォルマント合成ないし調音素性TTSシステムは、より少ないソフトウエアと記憶スペースを必要とするが、或る特定の実際の人の性質を持つ人間的な音声を生じない。 フォルマントTTSシステムは、 音素サンプルを採取した人に幾らか似た音声サウンドを生じるが、これらのシステムはそのサンプル・データベースのためにかなりの量の記憶スペースを必要とする。
テキスト・ベースのインスタント・メッセージング
技術の利用が今日のように進んでくると、一人もしくは複数の仲間とコンピュータを介しほぼリアルタイムでコミュニケーション(意思伝達)する手段として、もっと多くの人々がリアルタイムのメッセージング・システム、例えば、アメリカン・オンライン(「AOL」)のインスタント・メッセージング(「AIM」、商標)やインターナショナル・ビジネス・マシーンズ(「IBM」)SameTime(商標)を使用するようになっている。
Eメールもインスタント・メッセージング(IM)も基本的にはテキスト・ベースである。 換言すると、それらは通常、テキストのみを送るのに使用される。何故ならば、それらの図形(グラフィックス)、映像、サウンドなどの動作は、使用するサービスまたはネットワークに依存して、限定されているか、不十分か、全く利用できないからである。
リアルタイム・メッセージング・システムは電子的なメール(Eメール)システムとはメッセージが直ぐに受け手に配布される点で異なる。もしも受け手がそのときオンラインでなければ、そのメッセージは後で配布する目的では記憶されず、列に並べることもないのである。インスタント・メッセージングの場合、同じサービスに加入している両方の(全ての)ユーザーはコミュニケーションするためには同時にオンラインでなければならず、受け手も送り手からのインスタント・メッセージを喜んで受け入れる必要がある。オンラインでない人、あるいは特定の送り手からのメッセージを受け入れたくない人にメッセージを送ろうとすると、そのコミュニケーションが完了していないことを知らせる結果となる。
従って、IMは概略、Eメールと似たテキスト・ベースではあるが、そのコミュニケーション機構はEメール・システムより、双方向のラジオや電話に似た作用をする。
IMには、視力障害を持っているユーザーを補助するための備えがほんの少しある。 テキストのサイズ、色、及び背景がある程度まで調節できる。更に、WINDOWSを動作させるIBM互換のパーソナル・コンピュータなど、特定のプラットフォーム上で動作するある種のIBMクライアントは、コンピュータのような合成音声を用いコンピュータ・スクリーン上でテキストを「読み上げる」テキストから音声への合成機能を活性化することができる。このコンピュータのような合成音声は理解しにくい。更に、その合成された音声はそれが読み上げる全てのテキストに対し、メッセージの書き手に関わらず、同じトーン、性質であるので、メッセージの受け手はIMのメッセージを彼らに送っているのが誰なのか判断するのが難しいかもしれない。
視覚障害を持つ人々がIMを介してもっと効果的にコミュニケーションすることができるようにいくつかの新しい製品が導入されてきた。そのような一つの方法は完全にクライアント・ベースの構成であり、そこでは幾つかの「ストック(手持ち)の」予め記録された音声からユーザーが選択するのをソフトウエアが許容するようになっている。受取ったテキスト・メッセージは、これらの音声のうちの一つを使って受け手に聞こえるように読み上げられる。ユーザーは誰がそのテキスト・メッセージを最初に送ったかに関わらず、同じ音声、同じトーンのメッセージを聞くことになる。例えば、ユーザーが男性の音声を選択すれば、たとえ書いた人が女性であっても、男性の音声が全てのメッセージを読み上げるのに使用される。更には、この型のフォルマント・ベースのTTSシステムは音素サンプルを保持するのにクライアント装置上に記憶スペースを必要とするから、パーソナル・デジタル・アシスタント(「PDA」)、スマートフォンなどの低コストのパベーシブ(普及品の)コンピュータ装置にとってそのシステムは魅力的でなくなっている。
市場に現在提供されている他のアプローチ(解決策)は音声メッセージング・システムをインスタント・メッセージングと結合することである。もしもメッセージの送り手が、予定していた受け手が現在オンラインでないと分り、IMメッセージを受取ることができないと分った場合、送り手には音声メール・システムでメッセージを記録する機会が与えられる。この記録された音声メッセージは保持され、予定していた受け手が後で取り出せる。しかし、このアプローチは送り手の手間を倍にする。第1に送り手がテキスト・メッセージをタイプしなければならず、第2に送り手が音声メッセージを記録しなければならない。更に、このアプローチは、予定していた受け手がIMクライアントのほかのインターフェースを使用する必要がある。その受け手は音声メール・メッセージに何とかログインして取り出さなければならないのである。
これらの課題にアプローチする更に別の試みは、IMメッセージの受け手のクライアント装置であって、IMメッセージのテキストから音声を合成する機能を持つ以下のようなクライアント装置を提供するものであった。即ち、そのメッセージの書き手に基づく特定の「トーン」の音声をシンセサイザに於いてユーザーが割り当てるという選択を行える機能を備えているクライアント装置である。この「トーン」は書き手のトーンや特徴的なサウンドではなく、受け手が受取る複数のメッセージの複数の書き手相互間を識別するのを助けるように受け手で使用される、コンピュータで合成したトーンである。
従って、今日のインスタント・テキスト・メッセージング技術は、視覚障害を持つユーザーのための一層効果的なコミュニケーションを可能にする点で、了解度が不足していた。これらの方法はいずれも視覚障害者にとってのインスタント・テキスト・メッセージング問題を真に解決するものではない。これらの解決方法はいずれも、クライアント装置上で大量のコードを必要とするか、クライアント装置上で大量のサンプル記憶域を必要とするか、メッセージの送り手あるいは書き手の性質や自然さが似た音声を生じることができない、といった問題を一つ以上抱えている。
本発明はインスタント・メッセージの書き手または送り手がそのメッセージの受け手に可聴音の音声を生じることができるようにする。本発明の一視点によれば、メッセージの書き手の音声が、語形成型のあるいは調音型のテキストから音声への合成用エンジンと互換性のあるパラメータの中に特徴付けられる。メッセージを受取ると、その受取ったクライアント装置が書き手の音声の特徴に従いそのメッセージ・テキストから、可聴音の音声信号を発生することができるようにする。
本発明の他の視点によると、書き手は実際の音声の音声記号や語のサンプルをサーバーに記憶することができる。書き手が受け手にメッセージを伝送すると、サーバーはテキスト・メッセージ中の語を合成するだけに必要なサンプルを抽出し、それらを受け手のクライアント装置に配布する。その結果、それらはクライアント側の連結的テキスト音声エンジンによって、書き手の実際の音声に良く似た、可聴音の音声信号を発生するように使用される。
本発明の更に別の視点によれば、実際の語形成型のもしくは調音型の制御パラメータを送る代わりに、あるいはインスタント・メッセージとともに音素サンプルを送る代わりに、ハイパー・リンクまたは他のポインタのみがメッセージとともに送られる。そこで、受け手のクライアント装置によりそのメッセージが「読み上げられる」とき、そのサンプルまたはパラメータあるいはその両方をリンクを用いて取り出すことができる。
以下の開示に於いては、低周波発振器(「LFO」)TTS合成方法、並びに音声発生(例えば、語形成型、調音型など)のベースとしてソフトウエアで生成したトーンを使用する全てのTTS合成方法及びシステム全体に言及する。これらの型の方法は何らかの特別のあるいは特定の人間の音声をモデル化しよう、あるいは響かせようとはしていず、しばしば「コンピュータ音声」にもっと似たものである。これらは一般に音声サンプル記憶部を必要としない。 何故ならそれらは音声を、音声及び人間の声道の数学的モデルに殆ど完全に依拠した音声を発生するからである。
同様に、「サンプル・ベース」のTTS方法及びシステムとしてまとめて音声信号(例えば連結的)を生じるために、サンプルされ、記録された人間の音声に依存する全てのTTS合成方法及びシステムに言及する。
本発明は、LFOもしくはサンプル・ベースのTTS方法またはその両方を用いる代替実施例について開示される。その用い方というのは、受け手のクライアント装置のところでの資源の必要性を出来るだけ少なくするが、 受け手に対し再生される音声の、特徴的で分りやすい特性を決定するようなメッセージを書き手または送り手が最大限制御できるような態様で用いる。
より一般的な感覚で云えば、本発明は、複雑なLFO合成ソフトウエアの大量の資源消費もしくはサンプル・ベースのTTSのための大量の音声サンプル記憶部を軽減するために、サーバー側の記憶部もしくは送り手側の音声の解析またはその両方を提供する。 メッセージがクライアントに配布されるとき、その特定のIMメッセージのための音声を合成するのに必要なだけの資源の量を使用ないし獲得するように、本発明は幾つかの仕組みのうちの一つを、受け手のクライアント装置に備える。
例えば、第1の実施例では、もしもLFOベースのTTSが、受け手のクライアント装置によって使用されるなら、そのTTSエンジンを制御する一組の合成パラメータがTTSエンジンに、メッセージの送り手自身の音声に類似するサウンドを持つ音声を発生させるように、受け手のクライアント装置によって使用される。受け取り側のユーザーは、これらのパラメータを潜在的なユーザー毎に定義する必要がなく、メッセージの大量な潜在的な書き手のための大量なパラメータを受け手側のクライアント装置が長期にわたって記憶するための資源(例えば、メモリやディスク・スペース)を消費する必要もない。この方法を用いることにより、受け手側のユーザーには、各メッセージの特定の書き手の音声として明瞭に識別し理解できるTTSが提供される。またこのメッセージの書き手若しくは送り手はテキストIMメッセージの代わりに別個の音声メッセージを記録する必要がない。
本発明の第2の変形した実施例では、もしもサンプル・ベースのTTSが、受け手のクライアント装置により使用されるなら、メッセージの書き手毎の音素のフルセットが、クライアント装置によってではなく、音声注釈付きメッセージング・サーバーによって記憶される。これは、メッセージを受取るかもしれない潜在的に多くのメッセージの書き手のための音素サンプルを記憶して置くために大量の資源をクライアント装置が占有するのを軽減する。IMメッセージがメッセージ・サーバーから受け手のクライアントに送られるとき、そのメッセージには音素サンプルのサブセットが与えられる。その音素サンプルのサブセットは、そのテキスト・メッセージ中に含まれる語句を合成するのに必要なものが判断される。その特定のメッセージには必要のない音素は送られない。従ってクライアント側で必要なデータ記憶は非常に少なくて済む。受け手のクライアントは受け手のユーザーがその音声を聞いてしまうまで音素サンプルのサブセットを一時的に記憶する。その後はそのサンプルはオプションで削除してもよい。このアプローチはまたそのメッセージに伴い別の音声メッセージを記録しなければいけないことから送り手を解放し、送る際の音声注釈付きメッセージのサイズを最小限にし、受け手のユーザーが送り手の音声の特徴及び明確な性質が非常に似た、メッセージ・テキストに従う合成された音声を受け手のユーザーが聞くことができる。また、第1の実施例と同様、受け手のユーザーは、メッセージを受取るかも知れない潜在的な書き手毎のTTSパラメータを構成する必要がなく、そのTTSのためにクライアント装置が資源を消費する度合いも現在入手できる技法と比べて少なくて済む。
前述の第2の実施例に似た動作をする本発明の第3の実施例では、IMメッセージを備えた音素サンプルのサブセットを伝送する代わりに、音素サンプルのサブセットのサーバー側の記憶箇所への一組のハイパー・リンク、もしくはポインタのみが伝送される。これは更に音声注釈付きのIMメッセージのサイズを減じるが、音声が合成される際に必要になったとき、クライアント装置が潜在的にリアルタイムで音素サンプルを速やかに取出せるようにする。
本発明の動作の概要
図4には、音声注釈付きのインスタント・メッセージング・システムのユーザーが、テキストを通常はタイプすることによってテキスト・メッセージを書く(ステップ30)。その書き手は、音声注釈付きメッセージ即ちVAMを、予定のあるいは意図した受け手が受取れるようにする(ステップ31)。そして、その書き手はその特別に制御されたメッセージを、音声注釈付きメッセージ・サーバーと協働するインスタント・メッセージ・サーバーに差し出す、あるいは「送る」(ステップ32)。
図5は、音声注釈付きインスタント・メッセージを受取るための本発明の動作概要を示す。受け手のユーザーが一つもしくは複数のサーバーから音声注釈付きメッセージを受取る(ステップ33)。 本発明は、書き手/送り手により制御されるような、LFOベースの音声合成パラメータを受取る(ステップ34)か、または書き手/送り手により制御されるような音素サンプルを受取る(ステップ35)か、あるいはその両方を受取る。 そして、メッセージの書き手若しくは送り手により制御され構成されるパラメータ若しくはサンプルに従ってそのメッセージのテキストが合成される(ステップ36)。
LFO TTSベースの実施例
前述のとおり、本発明の第1の実施例は、LFOベースのTTS機能を採用するクライアント・サーバーと相互運用する。 図1について、書き手若しくは送り手のための一組の音声合成パラメータ11が音声注釈付きメッセージング(「VAM」)サーバー48により記憶される。このVAMサーバー48は、IBM Sametime(商標)ベース・サーバーなどのようなインスタント・メッセージング・サーバー47と協働する。書き手がテキスト部分を含むインスタント・メッセージ46を作成し、送ると、VAMサーバー48はまた、書き手のLFO合成パラメータを非クライアントの記憶部11から書き手のLFO合成パラメータ12を抽出し、そしてクライアント側のLFO TTSエンジン45にこれらの抽出されたパラメータ12を提供する(401)。 これらのパラメータを提供する方法(401)は本発明を実現する際、以下に限定されないが、いろいろと変えることが出来る。
(a)データ・セクションとして、メッセージ46にパラメータを付加し、且つ
(b)クライアントがアクセス可能な記憶部でパラメータの記憶箇所を指し示すポインタまたはハイパー・リンクをメッセージ中に置く。
強化されたIMクライアント41はメッセージ46のテキストからオーディオ出力である可聴音信号44を発生するようにLFO TTSエンジンを制御することができる。そしてメッセージ46のテキスト部分の表示43とともにメッセージの送り手若しくは書き手により決定される特性12を有する。
サンプル・ベースTTSの実施例
先に説明したように、本発明の他の実施例は、図6に詳細に示すように、サンプル・ベースTTS技法を用いたクライアント装置と相互運用できる。この実施例では、フルセットのユーザー音素サンプルがVAMサーバー48により記憶部49に記憶される。IMテキスト・メッセージ46がそのようなユーザーにより作成され送られると、VAMサーバー48がメッセージ46のテキスト内容を解析し、そのメッセージの音声読み上げを合成するのにどの音素が必要とされるかを決定し、そしてその特定のテキスト・メッセージ46に対し、どの音素がTTSエンジンにより使用されないかを決定する。必要とされる音素サンプルのサブセット400がVAMサーバー48によって記憶部49から抽出され、クライアント側のサンプル・ベースTTS記憶部42に提供される(401)。先に説明したLFOベースの実施例と同様に、クライアント側のTTSエンジンに音素サンプルのサブセットを提供する(401)のに使用されるこの方法は、実際に使用される特定のネットワーク及び技法に従って変えることができる。以下は、これに限定されるものではないが、その方法に含まれ得る変形例である。
(a)サンプル400をメッセージ46に付加し、あるいは関連づけ、且つ
(b)クライアントのアクセス可能な媒体にサンプルが記憶される。これによって図7に示すように、必要時にTTSエンジンがサンプルを取り出すことができる。
送り手/書き手のアカウント初期化
図10には、音声注釈付きメッセージを作成し、送りたいユーザー毎にシステムを初期化する、本発明による一般的なプロセスを示す。メッセージの書き手81はウエブ・ページにログインし、音声応答ユニット(「VRU」)を呼び出すか、あるいは初期化(または維持)プロセス80を開始させるための類似のアクションを取る(ステップ81)。そして、LFOまたはサンプル・ベース動作、またはその両方を初期化するため、選択する(ステップ82)。
もしもユーザーがLFOベースのTTS動作を初期化することを選択するなら、ユーザーは語句を読み上げるようプロンプトで指示され(ステップ83)、LFO合成パラメータを発生するために解析され(84)、そしてユーザーのアカウント又は識別子とともに記憶部11に記憶される。
もしもユーザーがサンプル・ベースのTTS動作を初期化する(あるいは更新する)ことを選択するなら、ユーザーは語句を読み上げるよう指示され(ステップ85)、音素サンプルを抽出するよう解析される(ステップ86)、そしてユーザーのアカウント又は識別子とともに記憶部49に記憶される。
図8は、LFOベースの実施例を開始させる(または更新する)ための論理プロセスを詳細に示す。本発明の実施例を開始させるために、音声注釈付きIMメッセージの、個々の潜在的な送り手または書き手は、オーディオ記録機能または電話を備えた、ウエブ・ブラウザ装置など、それら自身のクライアント装置を使うことができ、これによって音声解析システム61と、例えばウエブ・ページにログインし、あるいは音声応答ユニットを呼び出すことなどによってコミュニケートすることができる(ステップ62)。この音声解析システムはユーザーに或る語や音、句を読み上げさせるよう指示し、これらの音声サンプルに従ってアルゴリズム解析を行い、その音声の或る特徴を決定するという、いくつかの利用可能なタイプのうちの一つであってよい。例えば、その解析はユーザーの音声のハーモニック(調和、高調波)コンテンツ(例えば、音声サンプルの大部分のパワーが見出される主要な周波数)及びユーザーの音声のエネルギー包絡線(例えば、各各の読み上げられた語や句の時間のパワーや音圧レベル)などのパラメータを生じることができる。
これらのパラメータはユーザーの音声解析システム(アナライザ)61によりデータ記憶部11に記憶される。その記憶部11はVAMサーバー48によりアクセスでき、これは音声注釈付きIMメッセージの、受け手のクライアント装置への配布と関連してすでに説明したように、後で使用される。
図9は、サンプル・ベースの実施例を初期化するための論理プロセスを詳細に説明する。LFOベースの実施例のための初期化プロセスに似て、このプロセスはオーディオ(音声)を使用できるウエブ・ブラウザ若しくは電話などのクライアント装置62をユーザーが使用できるようにするが、これは、この目的のために利用できる幾つかのユニットのうちの一つであってもよいユーザー音素アナライザ71と、電話呼び出しまたはウエブ・サーバーへの接続などでコミュニケートする(701)ためである。音素アナライザ71は典型的には幾つかの句、語、音を読み上げるようにユーザーにプロンプトで指示する。このことは語の辞書全体を再度作り出すのに必要とされる音声単位を全て含んでいる。通常は、ユーザーは辞書の全ての語を読み上げる必要はないが、ユーザーの名前など幾つかの特定の語も記録される。
音素アナライザは、ユーザーにより提供された音声サンプルから音素を抽出し、それからその音素をユーザーの音素データベース49に記憶する。このデータベースはVAMサーバー48によりアクセス可能であり、すでに説明したように、音声注釈付きIMメッセージの伝送中に使用できる。
好適なコンピューティング・プラットフォーム
本発明は、パーソナル・コンピュータ、ウエブ・サーバー及びウエブ・ブラウザなどの良く知られたコンピューティング・プラットフォーム上に今日すでに見出されているソフトウエアの一つの特徴としてあるいは追加版として好適には実現される。これらの共通のコンピューティング・プラットフォームはパーソナル・コンピュータならびにパーソナル・デジタル・アシスタント(PDA)、ウエブを利用できるワイヤレス電話、及び他のタイプのパーソナル情報マネージメント(PIM)装置などのポータブル・コンピューテイング・プラットフォームを含むことができる。
従って、ハイエンドのウエブまたはエンタープライズ・サーバー・プラットフォームから、パーソナル・コンピュータ、ポータブルPDA、又はウエブを使用できるワイヤレス電話まで、導入範囲にかかるかもしれないコンピューティング・プラットフォームの一般的なアーキテクチャをレビューすることは有用である。
図2を参照すると、一般的なアーキテクチャが提供されている。中央演算処理装置(「CPU」)21は典型的には、マイクロプロセッサ22、これと協働するランダム・アクセス・メモリ(「RAM」)24及び読み出し専用メモリ(「ROM」)25を含む。しばしばCPU21にはキャッシュ・メモリ23及びプログラマブルFlashROM 26が備えられている。マイクロプロセッサ22及び様々なタイプのCPUメモリとの間のインターフェース27は、しばしば「ローカル・バス」と呼ばれるが、もっと一般的であり、工業標準のバスでもある。
多くのコンピューティング・プラットフォームには更に、ハード・ディスク。ドライブ(「HDD」)、フロッピー・ディスク・ドライブ、コンパクト・ディスク・ドライブ(CD、CD−R、CD−RW、DVD,DVD−R)、専用のディスク及びテープ・ドライブ(例えば、Iomega Zip(商標)、Jaz (商標)、Addonics SuperDisk(商標))など、一つ以上の記憶ドライブ29が設けられる。 更に、幾つかの記憶ドライブは、コンピュータ・ネットワークを介してもアクセスできる。
多くのコンピューティング・プラットフォームは、そのコンピューティング・プラットフォームの意図する機能に従って1個若しくは複数個のコミュニケーション・インターフェース210を備えている。例えば、パーソナル・コンピュータはしばしば、高速シリアル・ポート(RS−232、RS−422等)、強化されたパラレル・ポート(「EPP」)及び1個若しくは複数個のユニバーサル・シリアル・バス(「USB」)ポートを備えている。このコンピューティング・プラットフォームにはまた、Ethernetカードなどのローカル・エリア・ネットワーク(「LAN」)インターフェース、及び High Performance Serial Bus IEEE−1394 などの高速インターフェースが設けられても良い。
ワイヤレス電話及びワイヤレス・ネットワークのPDAなどのコンピューティング・プラットフォームには、高周波(「RF」)インターフェースやアンテナが設けられていても良い。 或る場合には、コンピューティング・プラットフォームに赤外線データ・アレンジメント・インターフェース(「IrDA」)も設けられていても良い。
コンピューティング・プラットフォームには、しばしば1個若しくはそれ以上の内部拡張スロット211が備えられている。例えば、Industry Standard Architecture(「ISA」)、Enhanced Industry Standard Architecture(「EISA」)、 Peripheral Component Interconnect(「PCI」)、あるいはサウンド・カード、メモリ・ボード、グラフィック・アクセラレータなど、他のハードウエアを付加するための独自仕様のインターフェース・スロットが備えられている。
更に、ラップトップ・コンピュータ及びPDAなど多くのユニットには、1個もしくは複数個の外部拡張スロット212が備えられ、ユーザーがPCMCIAカード、SmartMediaカード、ならびに取り外し可能なハード・ドライブ、CDドライブ及びフロッピー・ドライブなどの種々の独自仕様のモジュールなどハードウエア拡張装置をユーザーが導入したり取り外したりし易いようになっている。
しばしば、記憶ドライブ29、コミュニケーション・インターフェース210、内部拡張スロット211及び外部拡張スロット212が、ISA,EISA,PCIなど標準のあるいはインダストリにオープンなバス・アーキテクチャ28を介してCPU21と相互接続される。多くの場合、バス28は任意の独自設計になっている。
コンピューティング・プラットフォームには通常、1個若しくは複数個のユーザー入力装置、例えばキーボード若しくはキーパッド216、マウス若しくはポインタ装置217またはタッチスクリーン・ディスプレイ218あるいはその幾つかが備えられている。パーソナル・コンピュータの場合、フルサイズのキーボードがマウス若しくはトラックボール若しくはTrackPoint(商標)などのポインタ装置とともに備えられている。ウェブを使用できるワイヤレス電話の場合、簡単なキーパッドが1個若しくは複数個の機能特定キーとともに設けられている。PDAの場合、タッチスクリーン218が通常設けられ、手書き認識機能をしばしば備えている。
更には、ウエブの利用できるワイヤレス電話のマイクロフォン若しくはパーソナル・コンピュータのマイクロフォンなど、マイクロフォン219がコンピューティング・プラットフォームに設けられている。このマイクロフォンはオーディオ及び音声の信号を単に知らせるのに使用されても良く、またウエブサイトの音声ナビゲーション若しくは自動ダイヤルする電話番号など、音声認識機能を用いてユーザーの選択を入力するのに使用することもできる。
多くのコンピューティング・プラットフォームはまた、ディジタルのスチル・カメラやフルモーションのディジタル・ビデオ・カメラなどカメラ装置2100を備えている。
ディスプレイ213など1個若しくは複数個の出力装置が大抵のコンピューティング・プラットフォームには設けられている。ディスプレイ213は、陰極線管(CRT)、薄膜トランジスタ(「TFT」)アレイ、若しくは簡単なセットの発光ダイオード(「LED」)若しくは液晶ディスプレイ(「LED」)のインジケータなど、いろいろな形態をとる。
1個若しくは複数個のスピーカー214若しくはアナンシエータ(信号表示機器)215がしばしばコンピューティング・プラットフォームとともに関連付けられる。 スピーカー214はワイヤレス電話のスピーカー若しくはパーソナル・コンピュータのスピーカーなど、オーディオや音楽を再生するのに使用することができる。アナンシエータ215はPDA及びPIMのようなある種の装置に共通に見られるような警報音発生器若しくはブザーの形態をとっても良い。
これらのユーザー入出力装置は、独自仕様のバス構造若しくはインターフェースまたはその両方を介してCPU21に直接、相互接続(28´、28´´)されても良いし、 あるいは1個若しくは複数個のインダストリ・オープンなバス、例えばISA、EISA、PCIなどを介して相互接続されていてもよい。
コンピューティング・プラットフォームにはそのための所望の機能を導入するため、1個若しくは複数個のソフトウエア及びファームウエア2101のプログラムを実装している。
図3には、このコンピューティング・プラットフォームの範囲でのソフトウエア及びファームウエア2101の一般化した構成の詳細を示す。1個若しくは複数個のオペレーティング・システム(「OS」)固有のアプリケーション・プログラム223がコンピューティング・プラットフォーム上に設けられても良い。例えば、ワード・プロセッサ、スプレッドシート、コンタクト・マネージメント・ユーティリティ、アドレスブック、カレンダ、Eメール・クライアント、プレゼンテーション、フィナンシャル及び会計のプログラムなどである。
更には、1個若しくは複数個の「ポータブル」または装置から独立のプログラム224が設けられても良い。これらは、Java(商標)スクリプト及びプログラムなど、OS固有のプラットフォーム特有のインタープリタ225によって解釈される必要がある。
しばしば、コンピューティング・プラットフォームにはウエブ・ブラウザ若しくはマイクロ・ブラウザ226が設けられている。これらもそのブラウザの1個若しくは複数個の拡張プログラム、例えばブラウザ・プラグイン227を含んでいる。
このコンピューティング装置には、しばしばオペレーティング・システム220が設けられる。例えば、Microsoft Windows(商標)、UNIX、IBM OS/2(商標)、IBM AIX(商標)、オープンソースLINUX、 Apple の MAC OS(商標)、その他のプラットフォーム特有のオペレーティング・システムである。PDAやワイヤレス電話など、小型の装置には、リアルタイム・オペレーティング・システム(「RTOS」)や Palm ComputingのPalmOS(商標)など、他の形式のオペレーティング・システムを装備していても良い。
一組の基本入出力機能(「BIOS」)及びハードウエア・デバイス・ドライバ221は、オペレーティング・システム220及びプログラムがコンピューティング・プラットフォームに備えられた特定のハードウエア機能をインターフェースし、制御するのを許可能にするようにしばしば設けられる。
更に、1個若しくは複数個の組み込みファームウエア・プログラム222が多くのコンピューティング・プラットフォームには共通に設けられる。これらのプログラムは、マイクロ・コントローラ若しくはハード・ドライブ、コミュニケーション・プロセッサ、ネットワーク・インターフェース・カード、あるいはサウンド・カード、若しくはグラフィック・カードなど、周辺装置の一部として搭載され若しくは組み込まれたマイクロ・コントローラによって実行される。
このように、図2及び図3は、一般的に様々なハードウエア・コンポーネント、様々なコンピューティング・プラットフォームのソフトウエア及びファームウエアのプログラムを説明している。コンピューティング・プラットフォームとしては、いかに限定されるものではないが、パーソナル・コンピュータ、PDA、PIM、ウエブを利用できる電話、 WebTV(商標)ユニットなど他の電子機器も含む。このように、そのようなコンピューティング・プラットフォーム上のソフトウエア、ファームウエアを好適に実装するプロセス及び方法について本発明を開示した。当業者には容易に理解されるように、下記の方法及びプロセスが、本発明の精神及び範囲から逸脱しない範囲で、ハードウエア機能としてその一部または全体を代替して実現できる。
結語
本発明を幾つかの実施例とともに説明してきたが、当業者には理解されるように、これらの実施例が本発明の範囲全体を示しているわけではない。別の実施例を選択することもできる。別のプログラミング言語若しくは方法論を使用すること、別のコンピューティング・プラットフォームを使用すること、別のコミュニケーション・プロトコル及びネットワークを使用することも本発明に含まれる。本発明の範囲は、特許請求の範囲により決定されたい。
以下の詳細な説明は、ここで示す図面とともに、本発明の完全な開示を提供する。
TTSがIMメッセージの書き手ないし作者の声を緊密になぞらえるようにした、予め構成されたLFO TTS合成パラメータが、受け手のクライアントと交換される、本発明の一実施例を示す図である。 汎用的なコンピュータ・プラットフォーム・アーキテクチャ及びそのようなアーキテクチャのソフトウエア及びファームウエアの汎用的な編制を示す図である。 汎用的なコンピュータ・プラットフォーム・アーキテクチャ及びそのようなアーキテクチャのソフトウエア及びファームウエアの汎用的な編制を示す図である。 音声の注釈のついたIMメッセージを書くための本発明による論理プロセスを示す図である。 そのような音声注釈付きIMメッセージを受取り、「再生する」ための本発明による論理プロセスを示す図である。 記録されたユーザーの音素のサブセットを送信するのを利用する、本発明の他の実施例の図である。 サンプリングされたユーザーの音素のサブセットを指示するような一組のハイパー・リンクの交換を利用する、本発明の更に他の実施例の図である。 LFO TTS音声パラメータを構成するプロセスを示す図である。 ユーザーの音素サンプルのマスター・セットを構成するプロセスを示す図である。 オーサリング・アカウント ( authoring account ) を初期化させるという一方または両方の方法をユーザーが初期化させることができるようにするための、本発明による論理プロセスを開示する図である。
符号の説明
11 記憶部
12 ユーザー音声パラメータ
41 強化されたIM(インスタント・メッセージ)クライアント
42 サンプル・ベースTTS(テキストから音声への合成)記憶部
43 ユーザー表示
44 オーディオ出力
45 LFO(低周波発信器)ベースTTS
46 テキスト・メッセージ
47 IM(インスタント・メッセージ)サーバー
48 VAM(音声注釈付きメッセージ)サーバー

Claims (8)

  1. インスタント・メッセージを可聴音信号によって注釈付けする方法であって、
    インスタント・メッセージの作成中、音声注釈付けオプションのために1個若しくは複数個のテキストから音声への合成用制御パラメータを、書き手により確立するステップと、
    前記インスタント・パラメータ及び前記制御パラメータを、受け手の装置に送るステップと、
    前記書き手により確立された前記制御パラメータを、前記受け手の装置が受取るステップと、
    前記インスタント・メッセージをレビューするとともに、
    前記インスタント・メッセージのテキスト部分を表す音声が前記書き手の確立した前記制御パラメータに従って可聴音として生じるように、前記書き手が確立した前記制御パラメータに従って前記受け手の装置によりテキストから音声への合成を行うステップと
    を含む方法。
  2. 前記1個若しくは複数個のテキストから音声への合成用制御パラメータを確立するステップが、語形成型のテキストから音声への合成用エンジンと互換性のある1個若しくは複数個の音声特性パラメータを確立するステップを含み、前記制御パラメータがサーバーによって記憶されている、請求項1に記載の方法。
  3. 前記1個若しくは複数個のテキストから音声への合成用制御パラメータを確立するステップが、調音型のテキストから音声への合成用エンジンと互換性のある1個若しくは複数個の特性パラメータを含む、請求項1の方法。
  4. 前記1個若しくは複数個のテキストから音声への合成用制御パラメータを確立するステップは、前記書き手の実際の音声の1個若しくは複数個の音素サンプルであって、サーバーによって記憶され、連結合成的なテキストから音声への合成用エンジンと互換性のある前記1個若しくは複数個の音素サンプルを確立するステップを含む、請求項1に記載の方法。
  5. 前記インスタント・メッセージ及び前記制御パラメータを、受け手の装置に送るステップが、送る前に、前記制御パラメータを前記インスタント・メッセージに関連付けるステップを含む、請求項1に記載の方法。
  6. 前記インスタント・メッセージ及び前記制御パラメータを、受け手の装置に送るステップが、送る前に、前記制御パラメータへの一組のハイパー・リンクを前記インスタント・メッセージと関連付けるステップを含む、請求項1に記載の方法。
  7. インスタント・メッセージを可聴音信号によって注釈付けするシステムであって、
    インスタント・メッセージの作成中、音声注釈付けオプションのための、書き手により確立される1個若しくは複数個のテキストから音声への合成用制御パラメータと、
    前記インスタント・パラメータ及び前記制御パラメータを、受け手の装置に送るように適用されたメッセージ・トランスミッタと、
    前記書き手により確立された前記制御パラメータを前記受け手の装置により受け取るように適用されたメッセージ・レシーバと、
    前記インスタント・メッセージをレビューするとともに、
    前記インスタント・メッセージのテキスト部分を表す音声が前記書き手の確立した前記制御パラメータに従って可聴音として生じるように、前記書き手が確立した前記制御パラメータに従ってテキストから音声への合成を行うように適用された、前記受け手の装置のテキストから音声への合成用エンジンと
    を含むシステム。
  8. インスタント・メッセージを可聴音信号によって注釈付けするためのコンピュータ・プログラムであって、
    インスタント・メッセージの作成中、音声注釈付けオプションのために1個若しくは複数個のテキストから音声への合成用制御パラメータを、書き手により確立するステップと、
    前記インスタント・パラメータ及び前記制御パラメータを、受け手の装置に送るステップと、
    前記書き手により確立された前記制御パラメータを、前記受け手の装置が受取るステップと、
    前記インスタント・メッセージをレビューするとともに、
    前記インスタント・メッセージのテキスト部分を表す音声が前記書き手の確立した前記制御パラメータに従って可聴音として生じるように、前記書き手が確立した前記制御パラメータに従って前記受け手の装置によりテキストから音声への合成を行うステップと
    をコンピュータに実行させる、コンピュータ・プログラム。
JP2006270009A 2005-10-03 2006-09-29 インスタント・メッセージを可聴音信号によって注釈付けする方法、システム及びプログラム Pending JP2007102787A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/242,661 US8224647B2 (en) 2005-10-03 2005-10-03 Text-to-speech user's voice cooperative server for instant messaging clients

Publications (1)

Publication Number Publication Date
JP2007102787A true JP2007102787A (ja) 2007-04-19

Family

ID=37902930

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006270009A Pending JP2007102787A (ja) 2005-10-03 2006-09-29 インスタント・メッセージを可聴音信号によって注釈付けする方法、システム及びプログラム

Country Status (3)

Country Link
US (3) US8224647B2 (ja)
JP (1) JP2007102787A (ja)
CN (1) CN1946065B (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8224647B2 (en) 2005-10-03 2012-07-17 Nuance Communications, Inc. Text-to-speech user's voice cooperative server for instant messaging clients
US8600753B1 (en) * 2005-12-30 2013-12-03 At&T Intellectual Property Ii, L.P. Method and apparatus for combining text to speech and recorded prompts
EP2095250B1 (en) * 2006-12-05 2014-11-12 Nuance Communications, Inc. Wireless server based text to speech email
US8478598B2 (en) * 2007-08-17 2013-07-02 International Business Machines Corporation Apparatus, system, and method for voice chat transcription
US20090055186A1 (en) * 2007-08-23 2009-02-26 International Business Machines Corporation Method to voice id tag content to ease reading for visually impaired
US8103506B1 (en) * 2007-09-20 2012-01-24 United Services Automobile Association Free text matching system and method
US8285548B2 (en) 2008-03-10 2012-10-09 Lg Electronics Inc. Communication device processing text message to transform it into speech
US20120069974A1 (en) * 2010-09-21 2012-03-22 Telefonaktiebolaget L M Ericsson (Publ) Text-to-multi-voice messaging systems and methods
EA201001550A1 (ru) * 2010-10-25 2012-02-28 Висконти Груп Менеджмент Лтд. Способ преобразования текстов, способ поиска, способ автоматизированного перевода и способ автоматизированного озвучивания текстов
US20120259633A1 (en) * 2011-04-07 2012-10-11 Microsoft Corporation Audio-interactive message exchange
JP2013072903A (ja) * 2011-09-26 2013-04-22 Toshiba Corp 合成辞書作成装置および合成辞書作成方法
US9240180B2 (en) * 2011-12-01 2016-01-19 At&T Intellectual Property I, L.P. System and method for low-latency web-based text-to-speech without plugins
US9020818B2 (en) * 2012-03-05 2015-04-28 Malaspina Labs (Barbados) Inc. Format based speech reconstruction from noisy signals
KR102023157B1 (ko) * 2012-07-06 2019-09-19 삼성전자 주식회사 휴대 단말기의 사용자 음성 녹음 및 재생 방법 및 장치
PL401347A1 (pl) * 2012-10-25 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Spójny interfejs do lokalnej i oddalonej syntezy mowy
CN104050962B (zh) * 2013-03-16 2019-02-12 广东恒电信息科技股份有限公司 基于语音合成技术的多功能阅读器
GB2516942B (en) * 2013-08-07 2018-07-11 Samsung Electronics Co Ltd Text to Speech Conversion
KR101703214B1 (ko) * 2014-08-06 2017-02-06 주식회사 엘지화학 문자 데이터의 내용을 문자 데이터 송신자의 음성으로 출력하는 방법
US10176798B2 (en) * 2015-08-28 2019-01-08 Intel Corporation Facilitating dynamic and intelligent conversion of text into real user speech
CN106547511B (zh) 2015-09-16 2019-12-10 广州市动景计算机科技有限公司 一种语音播读网页信息的方法、浏览器客户端及服务器
US9830903B2 (en) * 2015-11-10 2017-11-28 Paul Wendell Mason Method and apparatus for using a vocal sample to customize text to speech applications
CN105721292A (zh) * 2016-03-31 2016-06-29 宇龙计算机通信科技(深圳)有限公司 一种信息读取方法、装置及终端
US10083684B2 (en) 2016-08-22 2018-09-25 International Business Machines Corporation Social networking with assistive technology device
US10339925B1 (en) * 2016-09-26 2019-07-02 Amazon Technologies, Inc. Generation of automated message responses
CN109213466B (zh) * 2017-06-30 2022-03-25 北京国双科技有限公司 庭审信息的显示方法及装置
CN108366302B (zh) * 2018-02-06 2020-06-30 南京创维信息技术研究院有限公司 Tts播报指令优化方法、智能电视、系统及存储装置
CN111261139B (zh) * 2018-11-30 2023-12-26 上海擎感智能科技有限公司 文字拟人化播报方法及系统
CN110415678A (zh) * 2019-06-13 2019-11-05 百度时代网络技术(北京)有限公司 自定义语音播报客户端、服务器、系统及方法
CN110337030B (zh) * 2019-08-08 2020-08-11 腾讯科技(深圳)有限公司 视频播放方法、装置、终端和计算机可读存储介质
US11270702B2 (en) 2019-12-07 2022-03-08 Sony Corporation Secure text-to-voice messaging

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000122941A (ja) * 1998-10-14 2000-04-28 Matsushita Electric Ind Co Ltd 電子メールを用いた情報転送方法
JP2001034280A (ja) * 1999-07-21 2001-02-09 Matsushita Electric Ind Co Ltd 電子メール受信装置および電子メールシステム
JP2005031919A (ja) * 2003-07-10 2005-02-03 Ntt Docomo Inc 通信システム
JP2005535012A (ja) * 2002-07-31 2005-11-17 インチェーン プロプライエタリー リミテッド アニメーション化したメッセージング

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5278943A (en) * 1990-03-23 1994-01-11 Bright Star Technology, Inc. Speech animation and inflection system
US5444768A (en) * 1991-12-31 1995-08-22 International Business Machines Corporation Portable computer device for audible processing of remotely stored messages
JPH05260082A (ja) 1992-03-13 1993-10-08 Toshiba Corp テキスト読み上げ装置
US5559927A (en) * 1992-08-19 1996-09-24 Clynes; Manfred Computer system producing emotionally-expressive speech messages
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
US6035273A (en) * 1996-06-26 2000-03-07 Lucent Technologies, Inc. Speaker-specific speech-to-text/text-to-speech communication system with hypertext-indicated speech parameter changes
JP3349905B2 (ja) * 1996-12-10 2002-11-25 松下電器産業株式会社 音声合成方法および装置
US5812126A (en) * 1996-12-31 1998-09-22 Intel Corporation Method and apparatus for masquerading online
US5890115A (en) * 1997-03-07 1999-03-30 Advanced Micro Devices, Inc. Speech synthesizer utilizing wavetable synthesis
US7027568B1 (en) * 1997-10-10 2006-04-11 Verizon Services Corp. Personal message service with enhanced text to speech synthesis
JPH11265195A (ja) * 1998-01-14 1999-09-28 Sony Corp 情報配信システム、情報送信装置、情報受信装置、情報配信方法
KR100629672B1 (ko) 1998-01-23 2006-09-29 상꾜 가부시키가이샤 스피로피페리딘 유도체
KR100259918B1 (ko) * 1998-03-05 2000-06-15 윤종용 핸즈프리키트의 쇼트메시지 음성합성 장치 및 방법
US5995590A (en) * 1998-03-05 1999-11-30 International Business Machines Corporation Method and apparatus for a communication device for use by a hearing impaired/mute or deaf person or in silent environments
US6023678A (en) * 1998-03-27 2000-02-08 International Business Machines Corporation Using TTS to fill in for missing dictation audio
US6100461A (en) * 1998-06-10 2000-08-08 Advanced Micro Devices, Inc. Wavetable cache using simplified looping
EP1045372A3 (en) * 1999-04-16 2001-08-29 Matsushita Electric Industrial Co., Ltd. Speech sound communication system
US6611802B2 (en) * 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
US6557026B1 (en) * 1999-09-29 2003-04-29 Morphism, L.L.C. System and apparatus for dynamically generating audible notices from an information network
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
US6810379B1 (en) * 2000-04-24 2004-10-26 Sensory, Inc. Client/server architecture for text-to-speech synthesis
US7277855B1 (en) * 2000-06-30 2007-10-02 At&T Corp. Personalized text-to-speech services
US6801931B1 (en) * 2000-07-20 2004-10-05 Ericsson Inc. System and method for personalizing electronic mail messages by rendering the messages in the voice of a predetermined speaker
JP2002149560A (ja) * 2000-08-28 2002-05-24 Sharp Corp 電子メール装置及び電子メールシステム
US6862568B2 (en) * 2000-10-19 2005-03-01 Qwest Communications International, Inc. System and method for converting text-to-voice
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
US6876968B2 (en) * 2001-03-08 2005-04-05 Matsushita Electric Industrial Co., Ltd. Run time synthesizer adaptation to improve intelligibility of synthesized speech
CN1159702C (zh) 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译系统和方法
US6570983B1 (en) * 2001-07-06 2003-05-27 At&T Wireless Services, Inc. Method and system for audibly announcing an indication of an identity of a sender of a communication
JP3589216B2 (ja) * 2001-11-02 2004-11-17 日本電気株式会社 音声合成システム及び音声合成方法
US6816578B1 (en) * 2001-11-27 2004-11-09 Nortel Networks Limited Efficient instant messaging using a telephony interface
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
KR100450319B1 (ko) * 2001-12-24 2004-10-01 한국전자통신연구원 가상 환경에서 참여자간의 의사전달 장치 및 방법
US7123695B2 (en) * 2002-05-21 2006-10-17 Bellsouth Intellectual Property Corporation Voice message delivery over instant messaging
US20050043951A1 (en) * 2002-07-09 2005-02-24 Schurter Eugene Terry Voice instant messaging system
FR2843479B1 (fr) * 2002-08-07 2004-10-22 Smart Inf Sa Procede de calibrage d'audio-intonation
US20040054534A1 (en) * 2002-09-13 2004-03-18 Junqua Jean-Claude Client-server voice customization
US8666747B2 (en) * 2002-10-31 2014-03-04 Verizon Business Global Llc Providing information regarding interactive voice response sessions
US7280968B2 (en) * 2003-03-25 2007-10-09 International Business Machines Corporation Synthetically generated speech responses including prosodic characteristics of speech inputs
JP4130190B2 (ja) * 2003-04-28 2008-08-06 富士通株式会社 音声合成システム
US8005677B2 (en) * 2003-05-09 2011-08-23 Cisco Technology, Inc. Source-dependent text-to-speech system
US20050027539A1 (en) * 2003-07-30 2005-02-03 Weber Dean C. Media center controller system and method
US8886538B2 (en) * 2003-09-26 2014-11-11 Nuance Communications, Inc. Systems and methods for text-to-speech synthesis using spoken example
US20050096909A1 (en) * 2003-10-29 2005-05-05 Raimo Bakis Systems and methods for expressive text-to-speech
US7454349B2 (en) * 2003-12-15 2008-11-18 Rsa Security Inc. Virtual voiceprint system and method for generating voiceprints
FR2865846A1 (fr) * 2004-02-02 2005-08-05 France Telecom Systeme de synthese vocale
US7877259B2 (en) * 2004-03-05 2011-01-25 Lessac Technologies, Inc. Prosodic speech text codes and their use in computerized speech systems
US7865365B2 (en) * 2004-08-05 2011-01-04 Nuance Communications, Inc. Personalized voice playback for screen reader
US7693719B2 (en) * 2004-10-29 2010-04-06 Microsoft Corporation Providing personalized voice font for text-to-speech applications
US7706510B2 (en) * 2005-03-16 2010-04-27 Research In Motion System and method for personalized text-to-voice synthesis
US7269561B2 (en) * 2005-04-19 2007-09-11 Motorola, Inc. Bandwidth efficient digital voice communication system and method
US8224647B2 (en) 2005-10-03 2012-07-17 Nuance Communications, Inc. Text-to-speech user's voice cooperative server for instant messaging clients
US8886537B2 (en) * 2007-03-20 2014-11-11 Nuance Communications, Inc. Method and system for text-to-speech synthesis with personalized voice

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000122941A (ja) * 1998-10-14 2000-04-28 Matsushita Electric Ind Co Ltd 電子メールを用いた情報転送方法
JP2001034280A (ja) * 1999-07-21 2001-02-09 Matsushita Electric Ind Co Ltd 電子メール受信装置および電子メールシステム
JP2005535012A (ja) * 2002-07-31 2005-11-17 インチェーン プロプライエタリー リミテッド アニメーション化したメッセージング
JP2005031919A (ja) * 2003-07-10 2005-02-03 Ntt Docomo Inc 通信システム

Also Published As

Publication number Publication date
US9026445B2 (en) 2015-05-05
US8428952B2 (en) 2013-04-23
US20130218569A1 (en) 2013-08-22
US20070078656A1 (en) 2007-04-05
US20120253816A1 (en) 2012-10-04
US8224647B2 (en) 2012-07-17
CN1946065B (zh) 2012-01-11
CN1946065A (zh) 2007-04-11

Similar Documents

Publication Publication Date Title
US9026445B2 (en) Text-to-speech user's voice cooperative server for instant messaging clients
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
US8594995B2 (en) Multilingual asynchronous communications of speech messages recorded in digital media files
JP3224000B2 (ja) テキスト−音声変換システム
Taylor Text-to-speech synthesis
US9761219B2 (en) System and method for distributed text-to-speech synthesis and intelligibility
US8036894B2 (en) Multi-unit approach to text-to-speech synthesis
US6308151B1 (en) Method and system using a speech recognition system to dictate a body of text in response to an available body of text
JP2003289387A (ja) ボイスメッセージ処理システムおよび方法
US20070124142A1 (en) Voice enabled knowledge system
KR20050122274A (ko) 휴대용 장치에서 텍스트 음성 변환 처리를 위한 시스템 및방법
US20080162559A1 (en) Asynchronous communications regarding the subject matter of a media file stored on a handheld recording device
US20040098266A1 (en) Personal speech font
US20090177473A1 (en) Applying vocal characteristics from a target speaker to a source speaker for synthetic speech
JPH0981174A (ja) 音声合成システムおよび音声合成方法
JP2003271182A (ja) 音響モデル作成装置及び音響モデル作成方法
JP3691773B2 (ja) 文章解析方法とその方法を利用可能な文章解析装置
US20030216921A1 (en) Method and system for limited domain text to speech (TTS) processing
US11335321B2 (en) Building a text-to-speech system from a small amount of speech data
JPH09258785A (ja) 情報処理方法および情報処理装置
US20230335111A1 (en) Method and system for text-to-speech synthesis of streaming text
Rajole et al. Voice Based E-Mail System for Visually Impaired Peoples Using Computer Vision Techniques: An Overview
Mishra et al. Voice Based Email System for Visually Impaired
HIX H. REX HARTSON
Scholar Andriod Based Punjabi TTS System

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090928

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20091217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120330

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121225

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130107

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20130125