JP2007102787A

JP2007102787A - インスタント・メッセージを可聴音信号によって注釈付けする方法、システム及びプログラム

Info

Publication number: JP2007102787A
Application number: JP2006270009A
Authority: JP
Inventors: Terry W Niemeyer; テリー・ウエード・ニーメイヤ; Liliana Orozco; リリアナ・オロッコ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2005-10-03
Filing date: 2006-09-29
Publication date: 2007-04-19
Also published as: US9026445B2; US8428952B2; US20130218569A1; US20070078656A1; US20120253816A1; US8224647B2; CN1946065B; CN1946065A

Abstract

【課題】インスタント・メッセージの書き手がメッセージの受け手に音声（可聴音）を生じるのを可能にし制御する方法、システム、及びプログラムを提供する。
【解決手段】メッセージの書き手の音声は語形成型または調音型のテキストから音声への合成エンジンに合わせたパラメータに特徴付けられる。その結果、受け手のクライアント装置は、メッセージ・テキストから書き手の音声の特徴に従った可聴音信号を発生する。代替例として、書き手はサーバーに、実際の音声のサンプルを記憶することができる。その結果、書き手がメッセージを受け手に送ると、サーバーはそのテキスト・メッセージ中の語を合成するためのサンプルを抽出し、そのサンプルを受け手のクライアント装置に送る。そのサンプルはクライアント側の連結合成的なテキストから音声への合成エンジンが書き手の実際の音声に似た可聴音信号を発生する。
【選択図】図１

Description

本発明は、テキストから音声（スピーチ）への合成を用いてテキスト・メッセージの読み出しをするために、インスタント・メッセージ・クライアントが使用できるような、ユーザーの音声データの、サーバー側の記憶部を使用する方法に関する。

テキストから音声への合成
従来の、テキストから音声へ（「テキスト読み上げ」あるいはtext-to-speech 即ち「ＴＴＳ」と称する）の合成方法は大別すると二つの段階、すなわち高レベル合成および低レベル合成に分けられる。高レベル合成は、語（ワード）及びこれらの語の文法的用法（例えば、句（フレーズ）の開始もしくは終了、ピリオド（終了符）やクエスチョンマーク（疑問符）などの句読点）を考慮するものである。典型的には、テキスト分析をして入力テキストを音声その他の言語表示に書き換えることができ、音声情報が波形での音声発生を生じる。

高レベルＴＴＳ処理中、話そうとするテキスト・ストリング（文字列）が分析されて複数の語（ワード）に分解される。そこでそのような語は、話し言葉の音（サウンド）のもっと小さいユニット、「音素」に分解される。一般的にいえば、音素は、複数のワードを区別することができるサウンドの基本的で理論的なユニットである。複数のワードは音素の集まりとして定義されもしくは構成される。そこで、低レベルのＴＴＳ中、データが音素毎に発生され（もしくは取り出され）、複数のワードが組み立てられ、そして複数のフレーズが完成される。

低レベル合成は、適当な回路（例えば、サウンド・カード、Ｄ／Ａコンバータなど）を用いて、可聴音になるようなアナログ形式に変換され得るデータを実際に発生する。低レベルＴＴＳ合成のための３つの一般的な方法、（ａ）フォルマント合成、（ｂ）連結的合成、（ｃ）調音合成がある。

フォルマント合成は、ターミナル・アナロジ ( terminal analogy ) としても知られているが、サウンド源およびフォルマント周波数のみをモデルとする。それは人間の音声サンプルをなんら使用せず、代わりに合成された音声出力を生じるために音響モデルを採用する。音声化、ノイズ・レベルおよび基本的周波数が人工的な音声の波形を生じるために何度も使用されるある種のパラメータ的用法である。

フォルマント合成が、よりロボット的なサウンドの音声であるために、リアルな人間の音声を持たない。フォルマント合成された音声の利点の一つはその知性にある。それは連結的システムを高速のときでさえもしばしば妨げる音響的な欠損を回避することができる。更に、フォルマント・ベースのシステムがその出力音声を全体制御するので、多様なシミュレートされた感情とトーン（音質、音色）を生じることができる。

フォルマントＴＴＳ合成プログラムは連結的システムよりもサイズが小さい。音声サンプルのデータベースが不要だからである。従って、プロセッサの電力やメモリ・スペースが不足しているような環境でも使用できる。

調音素性ＴＴＳ合成技法は人間の発声を直接的に、しかし何ら実際の記録された音声サンプルを使用しないで、モデル化している。調音素性合成は人間の声道をモデル化し、そこでその発声プロセスが生じる。これらの理由から、フォルマントＴＴＳ合成の一層複雑なバージョンとしばしば見られる。

連結的合成は、一連の短い予め記録した人間の音声サンプルを組み合わせ、あるいは「連結」して、語、句、文を、より人間らしい質を持つ態様で再生する。この方法はもっとも自然な響きの合成音声をもたらす。しかし、その自然なバリエーション故に、ときとして聞き取れる不具合が、その波形を歪め(例えば舌打ち音やポンといった音)、それがその自然さを減じる。大きな語彙や辞書についていえば、連結的ＴＴＳシステはまた人間の音声サンプルの全てを保持するためにかなり多くの量のデータ記憶部を持たなければならない。連結的合成には、単位選択合成、Ｄｉｐｈｏｎｅ（音と音のつながり部分）合成、分野限定合成という３つの類型がある。全ての類型は、その方法論に従い完全な発話を生じるため、予め記録した語句を使用する。

要約すると、フォルマント合成ないし調音素性ＴＴＳシステムは、より少ないソフトウエアと記憶スペースを必要とするが、或る特定の実際の人の性質を持つ人間的な音声を生じない。フォルマントＴＴＳシステムは、音素サンプルを採取した人に幾らか似た音声サウンドを生じるが、これらのシステムはそのサンプル・データベースのためにかなりの量の記憶スペースを必要とする。

テキスト・ベースのインスタント・メッセージング
技術の利用が今日のように進んでくると、一人もしくは複数の仲間とコンピュータを介しほぼリアルタイムでコミュニケーション（意思伝達）する手段として、もっと多くの人々がリアルタイムのメッセージング・システム、例えば、アメリカン・オンライン（「ＡＯＬ」）のインスタント・メッセージング（「ＡＩＭ」、商標）やインターナショナル・ビジネス・マシーンズ（「ＩＢＭ」）ＳａｍｅＴｉｍｅ（商標）を使用するようになっている。

Ｅメールもインスタント・メッセージング（ＩＭ）も基本的にはテキスト・ベースである。換言すると、それらは通常、テキストのみを送るのに使用される。何故ならば、それらの図形（グラフィックス）、映像、サウンドなどの動作は、使用するサービスまたはネットワークに依存して、限定されているか、不十分か、全く利用できないからである。

リアルタイム・メッセージング・システムは電子的なメール（Ｅメール）システムとはメッセージが直ぐに受け手に配布される点で異なる。もしも受け手がそのときオンラインでなければ、そのメッセージは後で配布する目的では記憶されず、列に並べることもないのである。インスタント・メッセージングの場合、同じサービスに加入している両方の（全ての）ユーザーはコミュニケーションするためには同時にオンラインでなければならず、受け手も送り手からのインスタント・メッセージを喜んで受け入れる必要がある。オンラインでない人、あるいは特定の送り手からのメッセージを受け入れたくない人にメッセージを送ろうとすると、そのコミュニケーションが完了していないことを知らせる結果となる。

従って、ＩＭは概略、Ｅメールと似たテキスト・ベースではあるが、そのコミュニケーション機構はＥメール・システムより、双方向のラジオや電話に似た作用をする。

ＩＭには、視力障害を持っているユーザーを補助するための備えがほんの少しある。テキストのサイズ、色、及び背景がある程度まで調節できる。更に、WINDOWSを動作させるＩＢＭ互換のパーソナル・コンピュータなど、特定のプラットフォーム上で動作するある種のＩＢＭクライアントは、コンピュータのような合成音声を用いコンピュータ・スクリーン上でテキストを「読み上げる」テキストから音声への合成機能を活性化することができる。このコンピュータのような合成音声は理解しにくい。更に、その合成された音声はそれが読み上げる全てのテキストに対し、メッセージの書き手に関わらず、同じトーン、性質であるので、メッセージの受け手はＩＭのメッセージを彼らに送っているのが誰なのか判断するのが難しいかもしれない。

視覚障害を持つ人々がＩＭを介してもっと効果的にコミュニケーションすることができるようにいくつかの新しい製品が導入されてきた。そのような一つの方法は完全にクライアント・ベースの構成であり、そこでは幾つかの「ストック（手持ち）の」予め記録された音声からユーザーが選択するのをソフトウエアが許容するようになっている。受取ったテキスト・メッセージは、これらの音声のうちの一つを使って受け手に聞こえるように読み上げられる。ユーザーは誰がそのテキスト・メッセージを最初に送ったかに関わらず、同じ音声、同じトーンのメッセージを聞くことになる。例えば、ユーザーが男性の音声を選択すれば、たとえ書いた人が女性であっても、男性の音声が全てのメッセージを読み上げるのに使用される。更には、この型のフォルマント・ベースのＴＴＳシステムは音素サンプルを保持するのにクライアント装置上に記憶スペースを必要とするから、パーソナル・デジタル・アシスタント（「ＰＤＡ」）、スマートフォンなどの低コストのパベーシブ（普及品の）コンピュータ装置にとってそのシステムは魅力的でなくなっている。

市場に現在提供されている他のアプローチ（解決策）は音声メッセージング・システムをインスタント・メッセージングと結合することである。もしもメッセージの送り手が、予定していた受け手が現在オンラインでないと分り、ＩＭメッセージを受取ることができないと分った場合、送り手には音声メール・システムでメッセージを記録する機会が与えられる。この記録された音声メッセージは保持され、予定していた受け手が後で取り出せる。しかし、このアプローチは送り手の手間を倍にする。第１に送り手がテキスト・メッセージをタイプしなければならず、第２に送り手が音声メッセージを記録しなければならない。更に、このアプローチは、予定していた受け手がＩＭクライアントのほかのインターフェースを使用する必要がある。その受け手は音声メール・メッセージに何とかログインして取り出さなければならないのである。

これらの課題にアプローチする更に別の試みは、ＩＭメッセージの受け手のクライアント装置であって、ＩＭメッセージのテキストから音声を合成する機能を持つ以下のようなクライアント装置を提供するものであった。即ち、そのメッセージの書き手に基づく特定の「トーン」の音声をシンセサイザに於いてユーザーが割り当てるという選択を行える機能を備えているクライアント装置である。この「トーン」は書き手のトーンや特徴的なサウンドではなく、受け手が受取る複数のメッセージの複数の書き手相互間を識別するのを助けるように受け手で使用される、コンピュータで合成したトーンである。

従って、今日のインスタント・テキスト・メッセージング技術は、視覚障害を持つユーザーのための一層効果的なコミュニケーションを可能にする点で、了解度が不足していた。これらの方法はいずれも視覚障害者にとってのインスタント・テキスト・メッセージング問題を真に解決するものではない。これらの解決方法はいずれも、クライアント装置上で大量のコードを必要とするか、クライアント装置上で大量のサンプル記憶域を必要とするか、メッセージの送り手あるいは書き手の性質や自然さが似た音声を生じることができない、といった問題を一つ以上抱えている。

本発明はインスタント・メッセージの書き手または送り手がそのメッセージの受け手に可聴音の音声を生じることができるようにする。本発明の一視点によれば、メッセージの書き手の音声が、語形成型のあるいは調音型のテキストから音声への合成用エンジンと互換性のあるパラメータの中に特徴付けられる。メッセージを受取ると、その受取ったクライアント装置が書き手の音声の特徴に従いそのメッセージ・テキストから、可聴音の音声信号を発生することができるようにする。

本発明の他の視点によると、書き手は実際の音声の音声記号や語のサンプルをサーバーに記憶することができる。書き手が受け手にメッセージを伝送すると、サーバーはテキスト・メッセージ中の語を合成するだけに必要なサンプルを抽出し、それらを受け手のクライアント装置に配布する。その結果、それらはクライアント側の連結的テキスト音声エンジンによって、書き手の実際の音声に良く似た、可聴音の音声信号を発生するように使用される。

本発明の更に別の視点によれば、実際の語形成型のもしくは調音型の制御パラメータを送る代わりに、あるいはインスタント・メッセージとともに音素サンプルを送る代わりに、ハイパー・リンクまたは他のポインタのみがメッセージとともに送られる。そこで、受け手のクライアント装置によりそのメッセージが「読み上げられる」とき、そのサンプルまたはパラメータあるいはその両方をリンクを用いて取り出すことができる。

以下の開示に於いては、低周波発振器（「ＬＦＯ」）ＴＴＳ合成方法、並びに音声発生（例えば、語形成型、調音型など）のベースとしてソフトウエアで生成したトーンを使用する全てのＴＴＳ合成方法及びシステム全体に言及する。これらの型の方法は何らかの特別のあるいは特定の人間の音声をモデル化しよう、あるいは響かせようとはしていず、しばしば「コンピュータ音声」にもっと似たものである。これらは一般に音声サンプル記憶部を必要としない。何故ならそれらは音声を、音声及び人間の声道の数学的モデルに殆ど完全に依拠した音声を発生するからである。

同様に、「サンプル・ベース」のＴＴＳ方法及びシステムとしてまとめて音声信号（例えば連結的）を生じるために、サンプルされ、記録された人間の音声に依存する全てのＴＴＳ合成方法及びシステムに言及する。

本発明は、ＬＦＯもしくはサンプル・ベースのＴＴＳ方法またはその両方を用いる代替実施例について開示される。その用い方というのは、受け手のクライアント装置のところでの資源の必要性を出来るだけ少なくするが、受け手に対し再生される音声の、特徴的で分りやすい特性を決定するようなメッセージを書き手または送り手が最大限制御できるような態様で用いる。

より一般的な感覚で云えば、本発明は、複雑なＬＦＯ合成ソフトウエアの大量の資源消費もしくはサンプル・ベースのＴＴＳのための大量の音声サンプル記憶部を軽減するために、サーバー側の記憶部もしくは送り手側の音声の解析またはその両方を提供する。メッセージがクライアントに配布されるとき、その特定のＩＭメッセージのための音声を合成するのに必要なだけの資源の量を使用ないし獲得するように、本発明は幾つかの仕組みのうちの一つを、受け手のクライアント装置に備える。

例えば、第１の実施例では、もしもＬＦＯベースのＴＴＳが、受け手のクライアント装置によって使用されるなら、そのＴＴＳエンジンを制御する一組の合成パラメータがＴＴＳエンジンに、メッセージの送り手自身の音声に類似するサウンドを持つ音声を発生させるように、受け手のクライアント装置によって使用される。受け取り側のユーザーは、これらのパラメータを潜在的なユーザー毎に定義する必要がなく、メッセージの大量な潜在的な書き手のための大量なパラメータを受け手側のクライアント装置が長期にわたって記憶するための資源（例えば、メモリやディスク・スペース）を消費する必要もない。この方法を用いることにより、受け手側のユーザーには、各メッセージの特定の書き手の音声として明瞭に識別し理解できるＴＴＳが提供される。またこのメッセージの書き手若しくは送り手はテキストＩＭメッセージの代わりに別個の音声メッセージを記録する必要がない。

本発明の第２の変形した実施例では、もしもサンプル・ベースのＴＴＳが、受け手のクライアント装置により使用されるなら、メッセージの書き手毎の音素のフルセットが、クライアント装置によってではなく、音声注釈付きメッセージング・サーバーによって記憶される。これは、メッセージを受取るかもしれない潜在的に多くのメッセージの書き手のための音素サンプルを記憶して置くために大量の資源をクライアント装置が占有するのを軽減する。ＩＭメッセージがメッセージ・サーバーから受け手のクライアントに送られるとき、そのメッセージには音素サンプルのサブセットが与えられる。その音素サンプルのサブセットは、そのテキスト・メッセージ中に含まれる語句を合成するのに必要なものが判断される。その特定のメッセージには必要のない音素は送られない。従ってクライアント側で必要なデータ記憶は非常に少なくて済む。受け手のクライアントは受け手のユーザーがその音声を聞いてしまうまで音素サンプルのサブセットを一時的に記憶する。その後はそのサンプルはオプションで削除してもよい。このアプローチはまたそのメッセージに伴い別の音声メッセージを記録しなければいけないことから送り手を解放し、送る際の音声注釈付きメッセージのサイズを最小限にし、受け手のユーザーが送り手の音声の特徴及び明確な性質が非常に似た、メッセージ・テキストに従う合成された音声を受け手のユーザーが聞くことができる。また、第１の実施例と同様、受け手のユーザーは、メッセージを受取るかも知れない潜在的な書き手毎のＴＴＳパラメータを構成する必要がなく、そのＴＴＳのためにクライアント装置が資源を消費する度合いも現在入手できる技法と比べて少なくて済む。

前述の第２の実施例に似た動作をする本発明の第３の実施例では、ＩＭメッセージを備えた音素サンプルのサブセットを伝送する代わりに、音素サンプルのサブセットのサーバー側の記憶箇所への一組のハイパー・リンク、もしくはポインタのみが伝送される。これは更に音声注釈付きのＩＭメッセージのサイズを減じるが、音声が合成される際に必要になったとき、クライアント装置が潜在的にリアルタイムで音素サンプルを速やかに取出せるようにする。

本発明の動作の概要
図４には、音声注釈付きのインスタント・メッセージング・システムのユーザーが、テキストを通常はタイプすることによってテキスト・メッセージを書く（ステップ３０）。その書き手は、音声注釈付きメッセージ即ちＶＡＭを、予定のあるいは意図した受け手が受取れるようにする（ステップ３１）。そして、その書き手はその特別に制御されたメッセージを、音声注釈付きメッセージ・サーバーと協働するインスタント・メッセージ・サーバーに差し出す、あるいは「送る」（ステップ３２）。

図５は、音声注釈付きインスタント・メッセージを受取るための本発明の動作概要を示す。受け手のユーザーが一つもしくは複数のサーバーから音声注釈付きメッセージを受取る（ステップ３３）。本発明は、書き手／送り手により制御されるような、ＬＦＯベースの音声合成パラメータを受取る（ステップ３４）か、または書き手／送り手により制御されるような音素サンプルを受取る（ステップ３５）か、あるいはその両方を受取る。そして、メッセージの書き手若しくは送り手により制御され構成されるパラメータ若しくはサンプルに従ってそのメッセージのテキストが合成される（ステップ３６）。

ＬＦＯＴＴＳベースの実施例
前述のとおり、本発明の第１の実施例は、ＬＦＯベースのＴＴＳ機能を採用するクライアント・サーバーと相互運用する。図１について、書き手若しくは送り手のための一組の音声合成パラメータ１１が音声注釈付きメッセージング（「ＶＡＭ」）サーバー４８により記憶される。このＶＡＭサーバー４８は、ＩＢＭＳａｍｅｔｉｍｅ（商標）ベース・サーバーなどのようなインスタント・メッセージング・サーバー４７と協働する。書き手がテキスト部分を含むインスタント・メッセージ４６を作成し、送ると、ＶＡＭサーバー４８はまた、書き手のＬＦＯ合成パラメータを非クライアントの記憶部１１から書き手のＬＦＯ合成パラメータ１２を抽出し、そしてクライアント側のＬＦＯＴＴＳエンジン４５にこれらの抽出されたパラメータ１２を提供する（４０１）。これらのパラメータを提供する方法（４０１）は本発明を実現する際、以下に限定されないが、いろいろと変えることが出来る。

（ａ）データ・セクションとして、メッセージ４６にパラメータを付加し、且つ
（ｂ）クライアントがアクセス可能な記憶部でパラメータの記憶箇所を指し示すポインタまたはハイパー・リンクをメッセージ中に置く。

強化されたＩＭクライアント４１はメッセージ４６のテキストからオーディオ出力である可聴音信号４４を発生するようにＬＦＯＴＴＳエンジンを制御することができる。そしてメッセージ４６のテキスト部分の表示４３とともにメッセージの送り手若しくは書き手により決定される特性１２を有する。

サンプル・ベースＴＴＳの実施例
先に説明したように、本発明の他の実施例は、図６に詳細に示すように、サンプル・ベースＴＴＳ技法を用いたクライアント装置と相互運用できる。この実施例では、フルセットのユーザー音素サンプルがＶＡＭサーバー４８により記憶部４９に記憶される。ＩＭテキスト・メッセージ４６がそのようなユーザーにより作成され送られると、ＶＡＭサーバー４８がメッセージ４６のテキスト内容を解析し、そのメッセージの音声読み上げを合成するのにどの音素が必要とされるかを決定し、そしてその特定のテキスト・メッセージ４６に対し、どの音素がＴＴＳエンジンにより使用されないかを決定する。必要とされる音素サンプルのサブセット４００がＶＡＭサーバー４８によって記憶部４９から抽出され、クライアント側のサンプル・ベースＴＴＳ記憶部４２に提供される（４０１）。先に説明したＬＦＯベースの実施例と同様に、クライアント側のＴＴＳエンジンに音素サンプルのサブセットを提供する（４０１）のに使用されるこの方法は、実際に使用される特定のネットワーク及び技法に従って変えることができる。以下は、これに限定されるものではないが、その方法に含まれ得る変形例である。

（ａ）サンプル４００をメッセージ４６に付加し、あるいは関連づけ、且つ
（ｂ）クライアントのアクセス可能な媒体にサンプルが記憶される。これによって図７に示すように、必要時にＴＴＳエンジンがサンプルを取り出すことができる。

送り手／書き手のアカウント初期化
図１０には、音声注釈付きメッセージを作成し、送りたいユーザー毎にシステムを初期化する、本発明による一般的なプロセスを示す。メッセージの書き手８１はウエブ・ページにログインし、音声応答ユニット（「ＶＲＵ」）を呼び出すか、あるいは初期化（または維持）プロセス８０を開始させるための類似のアクションを取る（ステップ８１）。そして、ＬＦＯまたはサンプル・ベース動作、またはその両方を初期化するため、選択する（ステップ８２）。

もしもユーザーがＬＦＯベースのＴＴＳ動作を初期化することを選択するなら、ユーザーは語句を読み上げるようプロンプトで指示され（ステップ８３）、ＬＦＯ合成パラメータを発生するために解析され（８４）、そしてユーザーのアカウント又は識別子とともに記憶部１１に記憶される。

もしもユーザーがサンプル・ベースのＴＴＳ動作を初期化する（あるいは更新する）ことを選択するなら、ユーザーは語句を読み上げるよう指示され（ステップ８５）、音素サンプルを抽出するよう解析される（ステップ８６）、そしてユーザーのアカウント又は識別子とともに記憶部４９に記憶される。

図８は、ＬＦＯベースの実施例を開始させる（または更新する）ための論理プロセスを詳細に示す。本発明の実施例を開始させるために、音声注釈付きＩＭメッセージの、個々の潜在的な送り手または書き手は、オーディオ記録機能または電話を備えた、ウエブ・ブラウザ装置など、それら自身のクライアント装置を使うことができ、これによって音声解析システム６１と、例えばウエブ・ページにログインし、あるいは音声応答ユニットを呼び出すことなどによってコミュニケートすることができる（ステップ６２）。この音声解析システムはユーザーに或る語や音、句を読み上げさせるよう指示し、これらの音声サンプルに従ってアルゴリズム解析を行い、その音声の或る特徴を決定するという、いくつかの利用可能なタイプのうちの一つであってよい。例えば、その解析はユーザーの音声のハーモニック（調和、高調波）コンテンツ（例えば、音声サンプルの大部分のパワーが見出される主要な周波数）及びユーザーの音声のエネルギー包絡線（例えば、各各の読み上げられた語や句の時間のパワーや音圧レベル）などのパラメータを生じることができる。

これらのパラメータはユーザーの音声解析システム（アナライザ）６１によりデータ記憶部１１に記憶される。その記憶部１１はＶＡＭサーバー４８によりアクセスでき、これは音声注釈付きＩＭメッセージの、受け手のクライアント装置への配布と関連してすでに説明したように、後で使用される。

図９は、サンプル・ベースの実施例を初期化するための論理プロセスを詳細に説明する。ＬＦＯベースの実施例のための初期化プロセスに似て、このプロセスはオーディオ（音声）を使用できるウエブ・ブラウザ若しくは電話などのクライアント装置６２をユーザーが使用できるようにするが、これは、この目的のために利用できる幾つかのユニットのうちの一つであってもよいユーザー音素アナライザ７１と、電話呼び出しまたはウエブ・サーバーへの接続などでコミュニケートする（７０１）ためである。音素アナライザ７１は典型的には幾つかの句、語、音を読み上げるようにユーザーにプロンプトで指示する。このことは語の辞書全体を再度作り出すのに必要とされる音声単位を全て含んでいる。通常は、ユーザーは辞書の全ての語を読み上げる必要はないが、ユーザーの名前など幾つかの特定の語も記録される。

音素アナライザは、ユーザーにより提供された音声サンプルから音素を抽出し、それからその音素をユーザーの音素データベース４９に記憶する。このデータベースはＶＡＭサーバー４８によりアクセス可能であり、すでに説明したように、音声注釈付きＩＭメッセージの伝送中に使用できる。

好適なコンピューティング・プラットフォーム
本発明は、パーソナル・コンピュータ、ウエブ・サーバー及びウエブ・ブラウザなどの良く知られたコンピューティング・プラットフォーム上に今日すでに見出されているソフトウエアの一つの特徴としてあるいは追加版として好適には実現される。これらの共通のコンピューティング・プラットフォームはパーソナル・コンピュータならびにパーソナル・デジタル・アシスタント（ＰＤＡ）、ウエブを利用できるワイヤレス電話、及び他のタイプのパーソナル情報マネージメント（ＰＩＭ）装置などのポータブル・コンピューテイング・プラットフォームを含むことができる。

従って、ハイエンドのウエブまたはエンタープライズ・サーバー・プラットフォームから、パーソナル・コンピュータ、ポータブルＰＤＡ、又はウエブを使用できるワイヤレス電話まで、導入範囲にかかるかもしれないコンピューティング・プラットフォームの一般的なアーキテクチャをレビューすることは有用である。

図２を参照すると、一般的なアーキテクチャが提供されている。中央演算処理装置（「ＣＰＵ」）２１は典型的には、マイクロプロセッサ２２、これと協働するランダム・アクセス・メモリ（「ＲＡＭ」）２４及び読み出し専用メモリ（「ＲＯＭ」）２５を含む。しばしばＣＰＵ２１にはキャッシュ・メモリ２３及びプログラマブルＦｌａｓｈＲＯＭ２６が備えられている。マイクロプロセッサ２２及び様々なタイプのＣＰＵメモリとの間のインターフェース２７は、しばしば「ローカル・バス」と呼ばれるが、もっと一般的であり、工業標準のバスでもある。

多くのコンピューティング・プラットフォームには更に、ハード・ディスク。ドライブ（「ＨＤＤ」）、フロッピー・ディスク・ドライブ、コンパクト・ディスク・ドライブ（ＣＤ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ，ＤＶＤ−Ｒ）、専用のディスク及びテープ・ドライブ（例えば、ＩｏｍｅｇａＺｉｐ（商標）、Ｊａｚ（商標）、ＡｄｄｏｎｉｃｓＳｕｐｅｒＤｉｓｋ（商標））など、一つ以上の記憶ドライブ２９が設けられる。更に、幾つかの記憶ドライブは、コンピュータ・ネットワークを介してもアクセスできる。

多くのコンピューティング・プラットフォームは、そのコンピューティング・プラットフォームの意図する機能に従って１個若しくは複数個のコミュニケーション・インターフェース２１０を備えている。例えば、パーソナル・コンピュータはしばしば、高速シリアル・ポート（ＲＳ−２３２、ＲＳ−４２２等）、強化されたパラレル・ポート（「ＥＰＰ」）及び１個若しくは複数個のユニバーサル・シリアル・バス（「ＵＳＢ」）ポートを備えている。このコンピューティング・プラットフォームにはまた、Ｅｔｈｅｒｎｅｔカードなどのローカル・エリア・ネットワーク（「ＬＡＮ」）インターフェース、及びＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＳｅｒｉａｌＢｕｓＩＥＥＥ−１３９４などの高速インターフェースが設けられても良い。

ワイヤレス電話及びワイヤレス・ネットワークのＰＤＡなどのコンピューティング・プラットフォームには、高周波（「ＲＦ」）インターフェースやアンテナが設けられていても良い。或る場合には、コンピューティング・プラットフォームに赤外線データ・アレンジメント・インターフェース（「ＩｒＤＡ」）も設けられていても良い。

コンピューティング・プラットフォームには、しばしば１個若しくはそれ以上の内部拡張スロット２１１が備えられている。例えば、ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ（「ＩＳＡ」）、ＥｎｈａｎｃｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ（「ＥＩＳＡ」）、ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ（「ＰＣＩ」）、あるいはサウンド・カード、メモリ・ボード、グラフィック・アクセラレータなど、他のハードウエアを付加するための独自仕様のインターフェース・スロットが備えられている。

更に、ラップトップ・コンピュータ及びＰＤＡなど多くのユニットには、１個もしくは複数個の外部拡張スロット２１２が備えられ、ユーザーがＰＣＭＣＩＡカード、ＳｍａｒｔＭｅｄｉａカード、ならびに取り外し可能なハード・ドライブ、ＣＤドライブ及びフロッピー・ドライブなどの種々の独自仕様のモジュールなどハードウエア拡張装置をユーザーが導入したり取り外したりし易いようになっている。

しばしば、記憶ドライブ２９、コミュニケーション・インターフェース２１０、内部拡張スロット２１１及び外部拡張スロット２１２が、ＩＳＡ，ＥＩＳＡ，ＰＣＩなど標準のあるいはインダストリにオープンなバス・アーキテクチャ２８を介してＣＰＵ２１と相互接続される。多くの場合、バス２８は任意の独自設計になっている。

コンピューティング・プラットフォームには通常、１個若しくは複数個のユーザー入力装置、例えばキーボード若しくはキーパッド２１６、マウス若しくはポインタ装置２１７またはタッチスクリーン・ディスプレイ２１８あるいはその幾つかが備えられている。パーソナル・コンピュータの場合、フルサイズのキーボードがマウス若しくはトラックボール若しくはＴｒａｃｋＰｏｉｎｔ（商標）などのポインタ装置とともに備えられている。ウェブを使用できるワイヤレス電話の場合、簡単なキーパッドが１個若しくは複数個の機能特定キーとともに設けられている。ＰＤＡの場合、タッチスクリーン２１８が通常設けられ、手書き認識機能をしばしば備えている。

更には、ウエブの利用できるワイヤレス電話のマイクロフォン若しくはパーソナル・コンピュータのマイクロフォンなど、マイクロフォン２１９がコンピューティング・プラットフォームに設けられている。このマイクロフォンはオーディオ及び音声の信号を単に知らせるのに使用されても良く、またウエブサイトの音声ナビゲーション若しくは自動ダイヤルする電話番号など、音声認識機能を用いてユーザーの選択を入力するのに使用することもできる。

多くのコンピューティング・プラットフォームはまた、ディジタルのスチル・カメラやフルモーションのディジタル・ビデオ・カメラなどカメラ装置２１００を備えている。

ディスプレイ２１３など１個若しくは複数個の出力装置が大抵のコンピューティング・プラットフォームには設けられている。ディスプレイ２１３は、陰極線管（ＣＲＴ）、薄膜トランジスタ（「ＴＦＴ」）アレイ、若しくは簡単なセットの発光ダイオード（「ＬＥＤ」）若しくは液晶ディスプレイ（「ＬＥＤ」）のインジケータなど、いろいろな形態をとる。

１個若しくは複数個のスピーカー２１４若しくはアナンシエータ（信号表示機器）２１５がしばしばコンピューティング・プラットフォームとともに関連付けられる。スピーカー２１４はワイヤレス電話のスピーカー若しくはパーソナル・コンピュータのスピーカーなど、オーディオや音楽を再生するのに使用することができる。アナンシエータ２１５はＰＤＡ及びＰＩＭのようなある種の装置に共通に見られるような警報音発生器若しくはブザーの形態をとっても良い。

これらのユーザー入出力装置は、独自仕様のバス構造若しくはインターフェースまたはその両方を介してＣＰＵ２１に直接、相互接続（２８´、２８´´）されても良いし、あるいは１個若しくは複数個のインダストリ・オープンなバス、例えばＩＳＡ、ＥＩＳＡ、ＰＣＩなどを介して相互接続されていてもよい。

コンピューティング・プラットフォームにはそのための所望の機能を導入するため、１個若しくは複数個のソフトウエア及びファームウエア２１０１のプログラムを実装している。

図３には、このコンピューティング・プラットフォームの範囲でのソフトウエア及びファームウエア２１０１の一般化した構成の詳細を示す。１個若しくは複数個のオペレーティング・システム（「ＯＳ」）固有のアプリケーション・プログラム２２３がコンピューティング・プラットフォーム上に設けられても良い。例えば、ワード・プロセッサ、スプレッドシート、コンタクト・マネージメント・ユーティリティ、アドレスブック、カレンダ、Ｅメール・クライアント、プレゼンテーション、フィナンシャル及び会計のプログラムなどである。

更には、１個若しくは複数個の「ポータブル」または装置から独立のプログラム２２４が設けられても良い。これらは、Ｊａｖａ（商標）スクリプト及びプログラムなど、ＯＳ固有のプラットフォーム特有のインタープリタ２２５によって解釈される必要がある。

しばしば、コンピューティング・プラットフォームにはウエブ・ブラウザ若しくはマイクロ・ブラウザ２２６が設けられている。これらもそのブラウザの１個若しくは複数個の拡張プログラム、例えばブラウザ・プラグイン２２７を含んでいる。

このコンピューティング装置には、しばしばオペレーティング・システム２２０が設けられる。例えば、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（商標）、ＵＮＩＸ、ＩＢＭＯＳ／２（商標）、ＩＢＭＡＩＸ（商標）、オープンソースＬＩＮＵＸ、ＡｐｐｌｅのＭＡＣＯＳ（商標）、その他のプラットフォーム特有のオペレーティング・システムである。ＰＤＡやワイヤレス電話など、小型の装置には、リアルタイム・オペレーティング・システム（「ＲＴＯＳ」）やＰａｌｍＣｏｍｐｕｔｉｎｇのＰａｌｍＯＳ（商標）など、他の形式のオペレーティング・システムを装備していても良い。

一組の基本入出力機能（「ＢＩＯＳ」）及びハードウエア・デバイス・ドライバ２２１は、オペレーティング・システム２２０及びプログラムがコンピューティング・プラットフォームに備えられた特定のハードウエア機能をインターフェースし、制御するのを許可能にするようにしばしば設けられる。

更に、１個若しくは複数個の組み込みファームウエア・プログラム２２２が多くのコンピューティング・プラットフォームには共通に設けられる。これらのプログラムは、マイクロ・コントローラ若しくはハード・ドライブ、コミュニケーション・プロセッサ、ネットワーク・インターフェース・カード、あるいはサウンド・カード、若しくはグラフィック・カードなど、周辺装置の一部として搭載され若しくは組み込まれたマイクロ・コントローラによって実行される。

このように、図２及び図３は、一般的に様々なハードウエア・コンポーネント、様々なコンピューティング・プラットフォームのソフトウエア及びファームウエアのプログラムを説明している。コンピューティング・プラットフォームとしては、いかに限定されるものではないが、パーソナル・コンピュータ、ＰＤＡ、ＰＩＭ、ウエブを利用できる電話、ＷｅｂＴＶ（商標）ユニットなど他の電子機器も含む。このように、そのようなコンピューティング・プラットフォーム上のソフトウエア、ファームウエアを好適に実装するプロセス及び方法について本発明を開示した。当業者には容易に理解されるように、下記の方法及びプロセスが、本発明の精神及び範囲から逸脱しない範囲で、ハードウエア機能としてその一部または全体を代替して実現できる。

結語
本発明を幾つかの実施例とともに説明してきたが、当業者には理解されるように、これらの実施例が本発明の範囲全体を示しているわけではない。別の実施例を選択することもできる。別のプログラミング言語若しくは方法論を使用すること、別のコンピューティング・プラットフォームを使用すること、別のコミュニケーション・プロトコル及びネットワークを使用することも本発明に含まれる。本発明の範囲は、特許請求の範囲により決定されたい。

以下の詳細な説明は、ここで示す図面とともに、本発明の完全な開示を提供する。
ＴＴＳがＩＭメッセージの書き手ないし作者の声を緊密になぞらえるようにした、予め構成されたＬＦＯＴＴＳ合成パラメータが、受け手のクライアントと交換される、本発明の一実施例を示す図である。汎用的なコンピュータ・プラットフォーム・アーキテクチャ及びそのようなアーキテクチャのソフトウエア及びファームウエアの汎用的な編制を示す図である。汎用的なコンピュータ・プラットフォーム・アーキテクチャ及びそのようなアーキテクチャのソフトウエア及びファームウエアの汎用的な編制を示す図である。音声の注釈のついたＩＭメッセージを書くための本発明による論理プロセスを示す図である。そのような音声注釈付きＩＭメッセージを受取り、「再生する」ための本発明による論理プロセスを示す図である。記録されたユーザーの音素のサブセットを送信するのを利用する、本発明の他の実施例の図である。サンプリングされたユーザーの音素のサブセットを指示するような一組のハイパー・リンクの交換を利用する、本発明の更に他の実施例の図である。ＬＦＯＴＴＳ音声パラメータを構成するプロセスを示す図である。ユーザーの音素サンプルのマスター・セットを構成するプロセスを示す図である。オーサリング・アカウント ( authoring account ) を初期化させるという一方または両方の方法をユーザーが初期化させることができるようにするための、本発明による論理プロセスを開示する図である。

符号の説明

１１記憶部
１２ユーザー音声パラメータ
４１強化されたＩＭ（インスタント・メッセージ）クライアント
４２サンプル・ベースＴＴＳ（テキストから音声への合成）記憶部
４３ユーザー表示
４４オーディオ出力
４５ＬＦＯ（低周波発信器）ベースＴＴＳ
４６テキスト・メッセージ
４７ＩＭ（インスタント・メッセージ）サーバー
４８ＶＡＭ（音声注釈付きメッセージ）サーバー

Claims

インスタント・メッセージを可聴音信号によって注釈付けする方法であって、
インスタント・メッセージの作成中、音声注釈付けオプションのために１個若しくは複数個のテキストから音声への合成用制御パラメータを、書き手により確立するステップと、
前記インスタント・パラメータ及び前記制御パラメータを、受け手の装置に送るステップと、
前記書き手により確立された前記制御パラメータを、前記受け手の装置が受取るステップと、
前記インスタント・メッセージをレビューするとともに、
前記インスタント・メッセージのテキスト部分を表す音声が前記書き手の確立した前記制御パラメータに従って可聴音として生じるように、前記書き手が確立した前記制御パラメータに従って前記受け手の装置によりテキストから音声への合成を行うステップと
を含む方法。
前記１個若しくは複数個のテキストから音声への合成用制御パラメータを確立するステップが、語形成型のテキストから音声への合成用エンジンと互換性のある１個若しくは複数個の音声特性パラメータを確立するステップを含み、前記制御パラメータがサーバーによって記憶されている、請求項１に記載の方法。
前記１個若しくは複数個のテキストから音声への合成用制御パラメータを確立するステップが、調音型のテキストから音声への合成用エンジンと互換性のある１個若しくは複数個の特性パラメータを含む、請求項１の方法。
前記１個若しくは複数個のテキストから音声への合成用制御パラメータを確立するステップは、前記書き手の実際の音声の１個若しくは複数個の音素サンプルであって、サーバーによって記憶され、連結合成的なテキストから音声への合成用エンジンと互換性のある前記１個若しくは複数個の音素サンプルを確立するステップを含む、請求項１に記載の方法。
前記インスタント・メッセージ及び前記制御パラメータを、受け手の装置に送るステップが、送る前に、前記制御パラメータを前記インスタント・メッセージに関連付けるステップを含む、請求項１に記載の方法。
前記インスタント・メッセージ及び前記制御パラメータを、受け手の装置に送るステップが、送る前に、前記制御パラメータへの一組のハイパー・リンクを前記インスタント・メッセージと関連付けるステップを含む、請求項１に記載の方法。
インスタント・メッセージを可聴音信号によって注釈付けするシステムであって、
インスタント・メッセージの作成中、音声注釈付けオプションのための、書き手により確立される１個若しくは複数個のテキストから音声への合成用制御パラメータと、
前記インスタント・パラメータ及び前記制御パラメータを、受け手の装置に送るように適用されたメッセージ・トランスミッタと、
前記書き手により確立された前記制御パラメータを前記受け手の装置により受け取るように適用されたメッセージ・レシーバと、
前記インスタント・メッセージをレビューするとともに、
前記インスタント・メッセージのテキスト部分を表す音声が前記書き手の確立した前記制御パラメータに従って可聴音として生じるように、前記書き手が確立した前記制御パラメータに従ってテキストから音声への合成を行うように適用された、前記受け手の装置のテキストから音声への合成用エンジンと
を含むシステム。
インスタント・メッセージを可聴音信号によって注釈付けするためのコンピュータ・プログラムであって、
インスタント・メッセージの作成中、音声注釈付けオプションのために１個若しくは複数個のテキストから音声への合成用制御パラメータを、書き手により確立するステップと、
前記インスタント・パラメータ及び前記制御パラメータを、受け手の装置に送るステップと、
前記書き手により確立された前記制御パラメータを、前記受け手の装置が受取るステップと、
前記インスタント・メッセージをレビューするとともに、
前記インスタント・メッセージのテキスト部分を表す音声が前記書き手の確立した前記制御パラメータに従って可聴音として生じるように、前記書き手が確立した前記制御パラメータに従って前記受け手の装置によりテキストから音声への合成を行うステップと
をコンピュータに実行させる、コンピュータ・プログラム。