JP2003520983A

JP2003520983A - 改良されたテキスト−音声変換

Info

Publication number: JP2003520983A
Application number: JP2001511664A
Authority: JP
Inventors: ディドコック，クリフォード，ニール; ウィルソン，マイケル，ジョフリー，アンドリュー
Original assignee: アバイアテクノロジーコーポレーション
Priority date: 1999-07-21
Filing date: 2000-04-20
Publication date: 2003-07-08
Also published as: DE60019301D1; WO2001006489A1; AU4307500A; EP1204964A1; EP1204964B1; DE60019301T2; CA2379862A1

Abstract

(57)【要約】テキストメッセージの音声への言語ベースの変換を操作する方法であって、テキストメッセージを取り出すステップと；言語識別子に基づいてテキストメッセージをコンピュータ生成された音声に変換するステップと；コンピュータ生成された音声を加入者に再生するステップとを含み、前記方法が、言語識別子が自動的に選択される動作の自動モードと、言語識別子が事前に決定される動作の固定モードとを有する、方法を開示する。そのような方法を実施するシステムも開示する。

Description

【発明の詳細な説明】

【０００１】（発明の分野）本発明は、ボイスメッセージングおよびテキストメッセージングのシステムお
よび方法ならびに言語認識のシステムおよび方法に関する。具体的には、本発明
は、テキストメッセージに関連する言語を自動的に識別し、適当なテキスト−音
声変換を実行する通信システムに関する。そのようなシステムの例が、電子メー
ルリーダまたは統一されたメッセージングアプリケーションである。

【０００２】（発明の背景）テキストを音声に変換するコンピュータベースの技法が、周知になってきた。
そのような技法を介して、テキストデータが、最も一般的にはソフトウェアを含
むテキスト−音声変換「エンジン」によってオーディオ情報に変換される。テキ
スト−音声ソフトウェアの例には、ＡｐｐｌｅＣｏｍｐｕｔｅｒ社のＳｐｅｅ
ｃｈＭａｎａｇｅｒ（ＡｐｐｌｅＣｏｍｐｕｔｅｒｃｏｒｐｏｒａｔｉｏ
ｎ、米国カリフォルニア州Ｃｕｐｅｒｔｉｎｏ）およびＤｉｇｉｔａｌＥｑｕ
ｉｐｍｅｎｔＣｏｒｐｏｒａｔｉｏｎ社のＤＥＣＴａｌｋ（Ｄｉｇｉｔａｌ
ＥｑｕｉｐｍｅｎｔＣｏｒｐｏｒａｔｉｏｎ、米国マサチューセッツ州Ｃａｍ
ｂｒｉｄｇｅ）が含まれる。テキストデータを音声に変換するほかに、そのよう
なソフトウェアは、音量、ピッチ、速度、および他の音声関連パラメータを制御
するユーザコマンドに応答する。

【０００３】テキスト−音声エンジンには、一般に、テキストアナライザ、構文／文脈アナ
ライザ、および合成モジュールが含まれる。テキストアナライザは、構文／文脈
アナライザと共に、ルールベースのインデックスを使用して、テキストデータ内
の基本文法単位を識別する。基本文法単位は、通常は、単語ベースまたは音素ベ
ースであり、ルールベースのインデックスを、それに対応して音素ライブラリと
称する。当業者は、音素ライブラリに、通常は正字法データの音素表現への変換
のための単語ベース辞書が含まれることを理解するであろう。合成モジュールは
、識別された基本文法単位に対応する音声シーケンスを組み立てるか生成し、そ
の音声シーケンスをリスナに再生する。

【０００４】テキスト−音声変換は、統一または統合されたメッセージングシステムのコン
テキスト内で非常に有用になる可能性がある。そのようなメッセージングシステ
ムでは、ボイス処理サーバが、電子メールシステムに結合され、ユーザの電子メ
ールインボックスが、メッセージ通知を提供すると同時に、電子メールメッセー
ジ、ボイスメッセージ、およびおそらくはファクシミリなどの他のタイプのメッ
セージに関するメッセージングサービスにアクセスする。統一されたメッセージ
ングシステムの例が、Ｏｃｔｅｌ社のＵｎｉｆｉｅｄＭｅｓｓｅｎｇｅｒ（Ｏ
ｃｔｅｌＣｏｍｍｕｎｉｃａｔｉｏｎｓＣｏｒｐｏｒａｔｉｏｎ、米国カリ
フォルニア州Ｍｉｌｐｉｔａｓ）である。そのようなシステムでは、テキスト−
音声変換の使用を介して、電子メールメッセージが音声に選択的に変換される。
したがって、リモート電話機から発呼するユーザが、ボイスメッセージと電子メ
ールメッセージの両方を容易に聞くことができる。したがって、テキスト−音声
変換を使用する統一されたメッセージングシステムでは、ユーザが、メッセージ
取出動作中に自分のコンピュータに直接にアクセスできる必要がなくなる。

【０００５】多くの状況で、メッセージングシステムのユーザは、異なる言語で記述された
テキストメッセージを受信することを期待することができる。たとえば、ヨーロ
ッパで事業を行っている人は、英語、フランス語、またはドイツ語で書かれた電
子メールメッセージを受信する可能性がある。特定の言語の文脈内でテキストを
音声に成功裡に変換するためには、その言語用に設計されたテキスト−音声エン
ジンが必要である。したがって、フランス語のテキストをフランス語の音声に成
功裡に変換するためには、フランス語特有の音素ライブラリを含む、フランス語
用に設計されたテキスト−音声エンジンが必要である。英語のテキスト−音声エ
ンジンの使用を介してフランス語のテキストを話された言語に変換することを試
みると、大量の理解できない出力が作られるはずである。

【０００６】従来技術では、人間の「リスナ」が、メッセージを音声に変換する際に使用さ
れる所与のテキスト−音声エンジンを指定することに頼るメッセージングシステ
ムが、既知である。人間の「リスナ」は、電話回線の他端の加入者である。その
代わりに、一部のシステムでは、メッセージ作成者が、メッセージと共に送信さ
れる言語識別コードを指定できるようになっている。これらの手法の両方が、非
効率的であり、不便である。

【０００７】１９９７年７月１３日出願の米国特許出願第０９／０９９７４４号明細書に、
テキストメッセージの音声への変換のために自動言語識別を提供する統一された
メッセージングシステムが記載されている。このシステムでは、音声に変換され
るテキストの言語が、ユーザまたは加入者からの入力を一切必要とせずに、自動
的に識別される。

【０００８】この自動システムの欠点は、自動言語選択が正しくない場合に、異なる言語を
選択するための柔軟性がないことである。たとえば、自動言語アイデンティファ
イヤが、正しい言語である尤度が類似する複数の言語を識別する可能性があり、
正しい言語が、言語認識での不備に起因して最高の尤度を有しない場合がある。
そのようなシステムは、テキストの短い断片について不正になる可能性が非常に
高い。

【０００９】したがって、本発明の目的は、電話ユーザに伝えるために、テキストを音声に
変換する改良されたシステムを提供することである。

【００１０】（発明の概要）本発明の第１の態様によれば、テキストメッセージの音声への言語ベースの変
換を操作する方法であって、テキストメッセージを取り出すステップと；テキス
トメッセージを、言語識別子に基づいてコンピュータ生成された音声に変換する
ステップと；コンピュータ生成された音声を加入者に再生するステップとを含み
、言語識別子が自動的に選択される動作の自動モードと、言語識別子が事前に決
定される動作の固定モードとを有する方法が提供される。

【００１１】動作の自動モードが、動作のデフォルトモードであることが好ましい。動作の
固定モードが、加入者固定モード要求によって開始されることが好ましい。

【００１２】この方法が、加入者固定モード要求に応答して、自動モードから固定モードに
切り替えることが好ましい。

【００１３】自動モードで、この方法が、加入者固定モード要求に応答して、固定モードで
事前に決定された言語識別子に切り替えることが好ましい。

【００１４】事前に決定された言語識別子は、事前に決定された言語識別子の組の最初の言
語識別子とすることができる。事前に決定された言語識別子は、事前に決定され
た言語識別子の組のうちで、自動モードで使用された言語識別子に続く言語識別
子とすることができる。事前に決定された言語識別子の組は、各識別子が正しい
言語識別子である尤度に従って順序付けることができる。

【００１５】加入者固定モード要求に応答して、テキストメッセージを変換するステップが
、現在の段落または現在の文の先頭に戻ることが好ましい。

【００１６】固定モードでは、この方法が、加入者固定モード要求に応答して、組内の次の
事前に決定された言語識別子に切り替えることができる。動作の自動モードは、
加入者自動モード要求によって開始することができる。

【００１７】加入者自動モード要求に応答して、テキストメッセージを変換するステップが
、現在の段落または現在の文の先頭に戻ることができる。

【００１８】加入者固定モード要求に、使用される言語識別子の表示を含めることができる
。

【００１９】加入者固定モード要求に応答して、コンピュータ生成された音声を再生するス
テップを、一時停止することができる。加入者自動モード要求に応答して、コン
ピュータ生成された音声を再生するステップを、一時停止することができる。

【００２０】変換するステップで、テキスト−音声エンジンを使用することができる。

【００２１】変換するステップで、テキストメッセージを直接にコンピュータ生成された音
声に変換することができる。

【００２２】変換するステップに、テキストメッセージを、言語識別子に基づくユーザが選
択した言語に翻訳されたテキストメッセージに翻訳することと；翻訳されたテキ
ストメッセージを、ユーザが選択した言語に基づくコンピュータ生成された音声
に変換することとを含めることができる。

【００２３】この方法には、さらに、後続テキストメッセージを感知するステップと；取出
、生成、変換、および再生のステップを繰り返すステップとを含めることができ
る。

【００２４】自動モードでは、生成のステップに、さらに、テキストメッセージの文字のシ
ーケンスを検査することと；テキストメッセージの文字のシーケンスに基づいて
テキストメッセージの出現頻度を形成することと；出現頻度を複数の共回帰ライ
ブラリの１つと突き合わせることとを含めることができる。突合せのステップに
、さらに、出現頻度を複数の基準頻度のそれぞれと比較するステップであって、
複数の基準頻度のそれぞれが、複数の共回帰ライブラリの１つに対応する、比較
するステップと；出現頻度と複数の基準頻度の１つの間の最適一致を判定するス
テップとを含めることができる。検査のステップに、文字のシーケンス内の３つ
の連続する文字の組合せを検査する三重字アナライザを使用することを含めるこ
とができる。文字のシーケンスは、テキストメッセージの第１の部分で見つける
ことができる。

【００２５】突合せのステップに、さらに、出現頻度を、複数の共回帰ライブラリの１つに
対応する複数の基準頻度のそれぞれと比較することと；出現頻度と複数の基準頻
度の１つとの間に十分な数の一致が存在することを判定することとを含めること
ができる。突合せのステップは、出現頻度と複数の基準頻度の１つとの間に十分
な数の一致がある時に実行することができる。

【００２６】この方法に、さらに、十分な数の一致が存在しない時にこの方法を終了するス
テップを含めることができる。

【００２７】本発明の第２の態様によれば、テキストメッセージをコンピュータ生成された
音声に変換するメッセージングシステムであって、テキストメッセージを保管す
る手段と；テキストを保管する手段に結合された、テキストメッセージに対応す
る言語識別子を生成する手段と；保管する手段に結合されたテキスト−音声エン
ジンとを含み、テキスト−音声エンジンが、テキストメッセージを、言語識別子
に基づいてコンピュータ生成された音声に変換し、言語識別子を生成する手段が
、言語識別子が自動的に選択される動作の自動モードと、言語識別子が事前に決
定される動作の固定モードとを有する、メッセージングシステムが提供される。

【００２８】言語識別子を生成する手段の動作のモードを、加入者要求によって決定するこ
とができる。

【００２９】言語識別子を生成する手段の動作のデフォルトモードを、自動モードとするこ
とができる。

【００３０】これから、添付図面に関して好ましい実施形態を参照することによって本発明
を説明する。

【００３１】（好ましい実施形態の説明）図１を参照すると、本発明を実施できる統一されたメッセージングシステム１
００の好ましい実施形態のブロック図が示されている。統一されたメッセージン
グシステム１００には、構内交換機（ＰＢＸ）１２０に結合された電話機１１０
、１１２、および１１４の組と；ネットワーク信号線１３６を介してファイルサ
ーバ１３４に結合された複数のコンピュータ１３２を含むコンピュータネットワ
ークであって、ファイルサーバ１３４が、さらにデータ記憶装置１３８に結合さ
れる、コンピュータネットワークと；ネットワーク信号線１３６に結合され、電
話回線の組１４２ならびに統合リンク１４４を介してＰＢＸ１２０に結合される
ボイスゲートウェイサーバ１４０とが含まれる。ＰＢＸ１２０は、さらに、幹線
１２２、１２４、および１２６の集合を介して電話網に結合される。図１に示さ
れた統一されたメッセージングシステム１００は、米国特許第５５５７６５９号
明細書、表題「ＥｌｅｃｔｒｏｎｉｃＭａｉｌＳｙｓｔｅｍＨａｖｉｎｇ
ＩｎｔｅｇｒａｔｅｄＶｏｉｃｅＭｅｓｓａｇｅｓ」に記載されたものと
同等である。本発明を、図１に示された特定のシステムに関して本明細書で説明
するが、当業者は、本発明の教示が、本質的にすべての統一されたまたは統合さ
れたメッセージング環境または他の電子メール読取アプリケーションに適用可能
であることを諒解するであろう。

【００３２】本発明では、コンピュータネットワーク上で実行される通常のソフトウェアが
、ファイル転送サービスおよびソフトウェアアプリケーションへのグループアク
セスならびに、それを介してコンピュータユーザがメッセージならびにメッセー
ジ添付ファイルをコンピュータ１３２の間でファイルサーバ１３４を介して転送
できる電子メール（ｅ−ｍａｉｌ）システムを提供する。例示的実施形態では、
ＭｉｃｒｏｓｏｆｔＥｘｃｈａｎｇｅ（商標）ソフトウェア（Ｍｉｃｒｏｓｏ
ｆｔＣｏｒｐｏｒａｔｉｏｎ、米国ワシントン州Ｒｅｄｍｏｎｄ）が、コンピ
ュータネットワーク上で実行されて、そのような機能性を提供する。ファイルサ
ーバ１３４内では、電子メールディレクトリによって、当業者に容易に理解され
る形で、各コンピュータユーザの名前が、メッセージ保管場所または「インボッ
クス」およびネットワークアドレスと関連付けられる。ボイスゲートウェイサー
バ１４０は、コンピュータネットワーク１３０と電話システムの間のメッセージ
の交換を促進する。さらに、ボイスゲートウェイサーバ１４０は、留守番電話、
自動受付台、ボイスメッセージの保管および転送、およびメッセージ照会動作な
どのボイスメッセージングサービスを、ボイスメッセージング加入者に提供する
。好ましい実施形態では、各加入者が、電子メールディレクトリで識別される、
すなわち、コンピュータ１３２をコンピュータネットワークに結合された、コン
ピュータユーザである。当業者は、代替実施形態で、ボイスメッセージング加入
者を、コンピュータユーザのサブセットとすることができることを諒解するであ
ろう。もう１つの代替実施形態では、コンピュータユーザを、ボイスメッセージ
ング加入者の大きいプールのサブセットとすることができ、これは、ボイスゲー
トウェイサーバが主に留守番電話に使用される時に有用になる可能性がある。

【００３３】図２も参照すると、ボイスゲートウェイサーバ１４０の第１実施形態のブロッ
ク図が示されている。

【００３４】第１実施形態では、ボイスゲートウェイサーバ１４０に、ボイスボード２００
、ネットワークインターフェースユニット２０２、処理ユニット２０４、データ
記憶ユニット２０６、およびメモリ２１０が含まれる。メモリ２１０には、複数
のボイスメッセージングアプリケーションユニット２２０、２２２、２２４、お
よび２２６と；メッセージバッファ２３０と；１組のテキスト−音声エンジン２
４２、２４３、および２４４、対応する音素ライブラリ２５２、２５３、および
２５４、三重字アナライザ２６０と；複数の共回帰ライブラリ２７２、２７３、
２７４、２７５、および２７６が、常駐して含まれる。ボイスゲートウェイサー
バ１４０内の各要素は、共通バス２９９に結合される。ネットワークインターフ
ェースユニット２０２は、さらに、ネットワーク信号線１３６に結合され、ボイ
スボード２００は、ＰＢＸ１２０に結合される。

【００３５】ボイスボード２００が、コンピュータシステムを電話交換機器にインターフェ
ースする通常の回路を含み、テレフォニ処理機能およびボイス処理機能を提供す
ることが好ましい。ネットワークインターフェースユニット２０２に、ボイスゲ
ートウェイサーバ１４０とコンピュータネットワーク１３０の間のデータ転送を
管理する通常の回路が含まれることが好ましい。好ましい実施形態では、処理ユ
ニット２０４およびデータ記憶ユニット２０６も、通常のものである。

【００３６】ボイスメッセージングアプリケーションユニット２２０、２２２、２２４、お
よび２２６は、留守番電話、自動受付台、ボイスメッセージ保管動作、およびボ
イスメッセージ転送動作を含むボイスメッセージングサービスを加入者に提供す
る。メッセージ照会ユニット２２６は、加入者の要求に応答して、電話ベースの
メッセージ再生動作を指示する。ボイスメッセージレビュー要求に応答して、メ
ッセージ照会ユニット２２６は、加入者のインボックスに関連するボイスメッセ
ージの取出を開始し、その後、通常の形で電話を介してユーザにボイスメッセー
ジを再生する。テキストメッセージレビュー要求に応答して、メッセージ照会ユ
ニット２２６は、加入者のインボックスに関連するテキストメッセージの取出を
開始し、その後、図３に関して下で詳細に説明する自動言語認識動作およびテキ
スト−音声変換動作が行われる。好ましい実施形態では、ボイスメッセージング
アプリケーションユニット２２０、２２２、２２４、および２２６に、処理ユニ
ット２０４によって実行可能なプログラム命令シーケンスが含まれる。

【００３７】メッセージバッファ２３０には、メモリ２００のうちで、ファイルサーバ１３
４とのメッセージ交換の前または後に一時的にメッセージを保管するために予約
された部分が含まれる。テキスト−音声エンジン２４２、２４３、２４４、２４
５、および２４６に、テキストデータを音声に変換する通常のソフトウェアが含
まれることが好ましい。当業者は、代替実施形態で、テキスト−音声エンジン２
４２、２４３、２４４、２４５、および２４６の１つまたは複数の部分を、ハー
ドウェアを使用して実施できることを容易に理解するであろう。

【００３８】所与の時点でメモリ２１０内に常駐するテキスト−音声エンジン２４２、２４
３、および２４４の数は、本発明が使用される言語環境に従って決定される。好
ましい実施形態では、メモリ２１０に、最も一般的に期待される言語のグループ
内の言語ごとに１つのテキスト−音声エンジン２４２、２４３、および２４４が
含まれる。追加のテキスト−音声エンジン２４５および２４６が、データ記憶ユ
ニット２０６に常駐することが好ましく、これらは、下で詳細に説明するように
、前述のグループの外の言語のテキスト−音声変換が必要な時に、メモリ２１０
にロードされる。例示的実施形態では、英語、フランス語、およびドイツ語に対
応するテキスト−音声エンジン２４２、２４３、および２４４が、メモリ２１０
に常駐し、ポルトガル語、イタリア語、または他の言語のためのテキスト−音声
エンジン２４５および２４６が、データ記憶ユニット２０６に常駐する。当業者
は、代替実施形態で、メモリ内に常駐するテキスト−音声エンジン２４２、２４
３、および２４４の数を、仮想記憶法などの記憶管理技法に従って決定すること
ができ、その場合に、テキスト−音声エンジン２４２、２４３、および２４４が
、必要に応じてデータ記憶ユニット２０６に普通にスワップアウトされることを
諒解するであろう。

【００３９】メモリ２１０に、その中に常駐するテキスト−音声エンジン２４２、２４３、
および２４４のそれぞれに対応する通常の音素ライブラリ２５２、２５３、およ
び２５４が含まれることが好ましい。好ましい実施形態では、音素ライブラリ２
５５および２５６も、データ記憶ユニット２０６に保管されるテキスト−音声エ
ンジン２４５および２４６のそれぞれのために、データ記憶ユニット２０６に常
駐する。

【００４０】この実施形態は、テキスト言語識別に関するｎ−グラフ法、具体的には、１）
「ＢｉｇｒａｍａｎｄＴｒｉｇｒａｍＭｏｄｅｌｓｆｏｒＬａｎｇｕ
ａｇｅＩｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄＣｌａｓｓｉｆｉｃａｔｉｏ
ｎ」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＩＳＢＷｏｒｋｓｈｏｐ
ｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓｆｏｒＳｐｅ
ｅｃｈａｎｄＨａｎｄｗｒｉｔｉｎｇＲｅｃｏｇｎｉｔｉｏｎ，Ｕｎｉｖ
ｅｒｓｉｔｙｏｆＬｅｅｄｓ、１９９４年；２）「ＮａｔｕｒａｌＬａｎ
ｇｕａｇｅＩｄｅｎｔｉｆｉｃａｔｉｏｎＵｓｉｎｇＣｏｒｐｕｓ−Ｂａ
ｓｅｄＭｏｄｅｌｓ」、ＨｅｒｍｅｓＪｏｕｒｎａｌｏｆＬｉｎｇｕｉ
ｓｔｉｃｓ１３：１８３−２０４、１９９４年；および３）「Ｎ−ｇｒａｍ
ＴｏｏｌｓｆｏｒＧｅｎｅｒｉｃＳｙｍｂｏｌＰｒｏｃｅｓｓｉｎｇ」
、Ｍ．Ｓｃ．ＴｈｅｓｉｓｏｆＰｈｉｌＣａｖｅ、Ｓｃｈｏｏｌｏｆ
ＣｏｍｐｕｔｅｒＳｔｕｄｉｅｓ、ＵｎｉｖｅｒｓｉｔｙｏｆＬｅｅｄｓ
、１９９５年に報告された、英国のＵｎｉｖｅｒｓｉｔｙｏｆＬｅｅｄｓで
ＣｌｉｖｅＳｏｕｔｅｒおよびＧａｖｉｎＣｈｕｒｃｈｅｒによって開発さ
れた技法に頼ることが好ましい。

【００４１】ｎ−グラフ言語識別では、テキストメッセージ内の連続するｎ文字の組合せの
出現頻度が、特定の言語に関連する基準ｎ文字出現統計と比較される。所与の言
語の基準統計は、その言語からとられるテキストサンプルから自動的に導出また
はモデル化される。本明細書では、所与の言語の基準ｎ文字出現統計が、一緒に
、共回帰ライブラリ２７２、２７３、２７４、２７５、および２７６として保管
される。

【００４２】この実施形態では、三重字アナライザ２６０と、共回帰ライブラリ２７２、２
７３、２７４、２７５、および２７６を使用して、三重字ベース言語識別すなわ
ち、３文字の組合せの統計的出現に基づく言語識別を実行することが好ましい。
好ましい実施形態では、メモリ２１０に、メモリ２１０内のテキスト−音声エン
ジン２４２、２４３、および２４４ならびにデータ記憶ユニット２０６に保管さ
れるテキスト−音声エンジン２４５および２４６のそれぞれに対応する共回帰ラ
イブラリ２７２、２７３、２７４、２７５、および２７６が含まれる。

【００４３】三重字アナライザ２６０は、言語識別子と、相対的な言語識別の確信度を示す
尤度またはパーセンテージ値を返す。ＵｎｉｖｅｒｓｉｔｙｏｆＬｅｅｄｓ
で開発された三重字アナライザ２６０は、テキスト入力に少なくとも１７５文字
が含まれる時に１００％の精度に達する。三重字アナライザ２６０は、さらに、
より短い長さのテキストシーケンスに関して、通常は９０％を超える高い言語識
別精度を維持する。

【００４４】例示的実施形態では、ボイスゲートウェイサーバ１４０が、パーソナルコンピ
ュータであって、２００ＭＨｚのＩｎｔｅｌＰｅｎｔｉｕｍ（商標）プロセッ
サ（ＩｎｔｅｌＣｏｒｐｏｒａｔｉｏｎ、米国カリフォルニア州Ｓａｎｔａ
Ｃｌａｒａ）と；１２８メガバイトのランダムアクセスメモリ（ＲＡＭ）と；イ
ーサネット（登録商標）ベースのネットワークインターフェースユニット２０２
と；データ記憶ユニット２０６として働くＲｅｄｕｎｄａｎｔＡｒｒａｙｏ
ｆＩｎｅｘｐｅｎｓｉｖｅＤｉｓｋｓ（ＲＡＩＤ）ドライブと；Ｒｈｅｔｏ
ｒｅｘボイスボード（ＲｈｅｔｏｒｅｘＣｏｒｐｏｒａｔｉｏｎ、米国カリフ
ォルニア州ＳａｎＪｏｓｅ）と；ＤＥＣＴａｌｋテキスト−音声エンジン２４
２、２４３、２４４、２４５、および２４６と、対応する音素ライブラリ２５２
、２５３、２５４、２５５、および２５６（ＤｉｇｉｔａｌＥｑｕｉｐｍｅｎ
ｔＣｏｒｐｏｒａｔｉｏｎ、米国マサチューセッツ州Ｃａｍｂｒｉｄｇｅ）と
；ＵｎｉｖｅｒｓｉｔｙｏｆＬｅｅｄｓで開発された、前述の三重字アナラ
イザ２６０および関連する共回帰ライブラリ２７２、２７３、２７４、２７５、
および２７６と；Ｏｃｔｅｌ社のＵｎｉｆｉｅｄＭｅｓｓｅｎｇｅｒソフトウ
ェア（ＯｃｔｅｌＣｏｍｍｕｎｉｃａｔｉｏｎｓＣｏｒｐｏｒａｔｉｏｎ、
米国カリフォルニア州Ｍｉｌｐｉｔａｓ）を使用して実施されたボイスメッセー
ジングアプリケーションユニット２２０、２２２、２２４、および２２６とを有
する。

【００４５】図３を参照すると、テキストメッセージの音声への言語ベースの変換を提供す
る第１の好ましい方法の流れ図が示されている。好ましい方法は、加入者による
テキストメッセージレビュー要求の発行に応答してステップ３００で開始され、
メッセージ照会ユニット２２６が、加入者のインボックスから、または加入者に
よって指定された特定のデータファイルまたはフォルダから、テキストメッセー
ジを取り出す。好ましい実施形態では、加入者のインボックスが、ファイルサー
バの記憶位置に対応し、取り出されるテキストメッセージが、メッセージバッフ
ァ２３０に転送される。ステップ３００に続いて、システムの動作の自動モード
では、メッセージ照会ユニット２２６が、ステップ３０２で、三重字アナライザ
２６０に識別ディレクティブを発行し、これによって、言語識別を開始する。識
別ディレクティブに応答して、三重字アナライザ２６０が、ステップ３０４で、
現在検討中のテキストメッセージ内の連続する３文字組合せを検査し、文字組合
せの出現頻度を判定する。好ましい実施形態では、三重字アナライザ２６０が、
テキストメッセージが十分に長い場合にはテキストメッセージの最初の少なくと
も１７５文字を検査し、そうでない場合には、三重字アナライザ２６０は、可能
な最長の文字シーケンスを検査する。現在のテキストメッセージの出現頻度の判
定に続いて、ステップ３０８で、三重字アナライザ２６０が、その出現頻度を、
共回帰ライブラリ２７２、２７３、２７４、２７５、および２７６のそれぞれの
基準出現統計と比較し、特定の共回帰ライブラリ２７２、２７３、２７４、およ
び２７５との最も近い一致を判定する。最も近い一致を判定した後に、三重字ア
ナライザ２６０が、ステップ３１０で、言語識別子および関連する尤度値をメッ
セージ照会ユニット２２６に返す。当業者は、代替実施形態で、三重字アナライ
ザ２６０が、言語識別子および各言語識別子に対応する尤度値の組を返すことが
できることを諒解するであろう。

【００４６】テキストメッセージが、共回帰ライブラリ２７２、２７３、２７４、２７５、
および２７６の１つに対応する言語で記述されている限り、出現頻度と基準出現
統計の間の相関は、成功裡の言語識別に十分である可能性が高い。テキストメッ
セージが、存在する共回帰ライブラリ２７２、２７３、２７４、２７５、および
２７６のどれにも対応しない言語で記述されている場合には、相関が悪くなり、
最も近い一致を判定することができない。三重字アナライザ２６０によって返さ
れる尤度値が、最小許容可能閾値（たとえば２０％）未満である場合には、メッ
セージ照会ユニット２２６が、ステップ３１２および３１８を介して、対応する
事前に録音されたメッセージを加入者に再生する。例示的な事前に録音されたメ
ッセージは、「ｌａｎｇｕａｇｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｕｎｓｕｃ
ｃｅｓｓｆｕｌ（言語識別失敗）」とすることができる。

【００４７】言語識別子および許容可能な尤度値を受け取った後に、メッセージ照会ユニッ
ト２２６は、ステップ３１４で、適当なテキスト−音声エンジン２４２、２４３
、２４４、２４５、または２４６を自動的に選択する。テキスト−音声エンジン
２４４および２４５とそれに関連する音素ライブラリ２５４および２５５がメモ
リ２１０内に現在常駐していない場合には、メッセージ照会ユニット２２６が、
必要なテキスト−音声エンジン２４４または２４５および対応する音素ライブラ
リ２５４または２５５を、データ記憶ユニット２０６からメモリ２１０に転送す
る。

【００４８】ステップ３１４の後に、メッセージ照会ユニット２２６が、ステップ３１６で
、選択されたテキスト−音声エンジン２４２、２４３、２４４、２４５、または
２４６に変換ディレクティブを発行し、その後、現在検討中のテキストメッセー
ジが、通常の形で音声に変換され、加入者に再生される。ステップ３１６の完了
時に、メッセージ照会ユニット２２６が、ステップ３２０で、加入者のインボッ
クスにある、または、加入者の指定によって指定された別のテキストメッセージ
が、検討を必要とするかどうかを判定する。そうである場合には、好ましい方法
はステップ３００に進む；そうでない場合には、好ましい方法は終了する。

【００４９】代替実施形態では、ステップ３１２および３１８を省略することができ、ステ
ップ３１０からステップ３１４に直接に進んで、加入者に再生される「最良推測
」テキスト−音声変換を作る。そのような代替実施形態では、メッセージ照会ユ
ニット２２６が、１）尤度値を無視するか、２）複数の言語識別子および尤度値
が返される場合に、最良の尤度値に関連する言語識別子を選択することができる
。

【００５０】好ましい実施形態では、テキスト言語識別が実行され、その後、適当な言語で
のテキスト−音声変換が実行される。これは、元のテキストメッセージが記述さ
れた言語と一致するコンピュータ生成音声を加入者が聞くことをもたらす。代替
実施形態では、テキスト言語識別を実行することができ、その後、テキスト−テ
キスト言語変換（すなわち翻訳）を実行し、その後、テキスト−音声変換を実行
し、加入者に最も楽な言語でコンピュータ生成された音声を加入者が聞くことに
なる。この代替実施形態を促進するために、加入者言語プリファレンス選択肢の
組を、加入者情報データベースまたはディレクトリ内のユーザ構成データとして
保管する。加入者情報データベースは、ボイスゲートウェイサーバ１４０内に常
駐することができ、また、当業者に容易に理解される形で、ファイルサーバの電
子メールディレクトリに関連して実施することができる。さらに、ボイスゲート
ウェイサーバ１４０を変更して、下で詳細に説明する、追加の要素を含めること
ができる。

【００５１】本発明によれば、図３に関して上で説明した方法が開始された後はいつでも、
メッセージ照会ユニット２２６が、加入者からの追加の要求を監視する。

【００５２】本発明によれば、このシステムは、図３に関して上で説明した、テキスト−音
声変換の言語識別子が自動的に選択される、自動モードの動作と、固定モードの
動作とを有する。固定モードの動作では、メッセージ照会ユニット２２６によっ
て受信される加入者固定モード要求に応答して、システムが、言語識別子が事前
に決定される、固定モードの動作に入る。固定モードの動作は、加入者が押すＤ
ＴＭＦキーの事前に決定されたシーケンスによって選択することができる。

【００５３】図４（ａ）を参照すると、システムが自動モードである時に、ステップ４００
で、メッセージ照会ユニット２２６が、加入者固定モード要求を監視する。加入
者固定モード要求が受信されない限り、ステップ４０２で、システムが、自動モ
ードで継続し、図３に関して上で説明したように動作する。

【００５４】しかし、メッセージ照会ユニット２２６が、加入者固定モード要求を受信する
場合には、ステップ４０４で、システムが、固定モードの動作に切り替わる。

【００５５】メッセージ照会ユニットが加入者固定モード要求を受信する可能性が最も高い
時点は、図３のステップ３１６である。ユーザが、変換されたテキストを聞き、
音声が理解不能であることに起因して、選択された言語が正しくないに違いない
ことを理解した場合に、加入者は、事前に決定された言語識別子の１つを選択す
ることを選んで、正しい言語選択の達成を試みることができる。

【００５６】ステップ４０６で、固定モードに入ったことに応答して、事前に決定された言
語識別子が選択される。固定モードでの、事前に決定された言語識別子の選択は
、変更することができる。

【００５７】好ましい実施形態では、最初の加入者固定モード要求に応答して、言語識別子
の事前に構成された組の最初の言語識別子が選択される。事前に構成された言語
識別子の組は、その言語が出現すると期待される尤度に従って配置することがで
きる。したがって、現在の例では、ＴＴＳエンジン２４２に関連する言語識別子
を選択することができる。ＴＴＳエンジン２４３、２４４、２４５、および２４
６に関連する言語識別子は、それぞれ、リストの２番目、３番目、４番目、およ
び５番目である。

【００５８】もちろん、「現在の」言語を、言語識別子の事前に構成された組から除去する
か、組を順序付ける時にスキップしなければならない。この改良を行うことがで
きるのは、「現在の」言語が、明らかに正しくないからである。

【００５９】代替配置では、言語識別子を、自動選択に関連する言語識別子の後の次の言語
識別子とすることができる。したがって、自動選択によって、ＴＴＳエンジン２
４４に関連する言語識別子が選択される場合に、加入者固定モード要求に応答し
て、ＴＴＳエンジン２４５に関連する言語識別子を選択することができる。

【００６０】もう１つの代替実施形態では、ステップ３１０で返される尤度値を使用するこ
とができ、自動ステップで選択された言語識別子に続く、次に高い尤度を有する
言語識別子が選択される。

【００６１】事前に決定された言語識別子の選択の後に、ステップ４０８で、検討中のテキ
ストメッセージを、通常の形で音声に変換し、加入者に再生する。

【００６２】図４（ｂ）を参照すると、システムがステップ４０４で固定モードの動作に入
った後に、ステップ４１０で、メッセージ照会ユニット２２６が、加入者からの
もう１つの加入者固定モード要求の受信について監視する。もう１つの加入者固
定モード要求が受信されない限り、ステップ４１２で、システムは、図４（ａ）
に関して上で説明したように継続する。

【００６３】もう１つの加入者固定モード要求を受信する場合には、ステップ４１４で、次
の事前に決定された言語識別子を選択する。次の事前に決定された言語識別子を
選択する手順は、応用例に従って変更することができる。次の事前に決定された
言語識別子は、事前に決定されたリスト内の次のＴＴＳエンジンに関連する言語
識別子に従って選択することができる。代替案では、これを、次に高い尤度を有
する言語識別子に従って選択することができる。

【００６４】次の言語識別子を選択した後に、ステップ４１６で、検討中のテキストメッセ
ージを、通常の形で音声に変換し、加入者に再生する。

【００６５】現在のテキストメッセージの変換が、ステップ４０８または４１６のいずれか
で完了した後に、好ましい実施形態では、この方法が、図３のステップ３２０に
戻る。もう１つのメッセージを変換しなければならない場合には、加入者による
もう１つの割込みまで、この方法が自動モードでもう一度継続される。代替配置
では、次のメッセージおよび後続のメッセージについて、システムが、現在選択
されている言語識別子を使用して、固定モードで継続することができる。加入者
は、同一の現在のメッセージに関して固定モード動作を連続して要求して、音声
メッセージが理解できるようになるまで、使用可能な言語識別子のリストを効果
的にサイクルすることができる。

【００６６】好ましい実施形態では、システムが固定モードの動作である時に、メッセージ
照会ユニットが、加入者自動モード要求に応答して、自動モードの動作に戻る。
自動モードの動作は、加入者が押すＤＴＭＦキーの事前に決定されたシーケンス
によって選択することができる。

【００６７】したがって、図４（ａ）および図４（ｂ）に示された固定モードの動作では、
メッセージ照会ユニットが、加入者自動モード要求について加入者を監視し、そ
れに応答して図３のステップ３００に戻る。

【００６８】単一のテキストメッセージに、異なる言語のテキストが含まれる可能性がある
。たとえば、電子メールメッセージに、前に転送された、異なる言語のメッセー
ジを含めることができる。したがって、固定モードから自動モードに戻る能力が
、好ましい。メッセージ内の新しい文が、言語の変化に起因して加入者に理解不
能である場合に、加入者は、即座に自動モードに戻って、言語識別子の最適自動
推定を使用することができる。

【００６９】動作モードが、自動モードと固定モードの間で切り替えられる時に、必ず、入
力テキストを現在の段落の先頭に再位置決めすることが好ましい。その後、テキ
スト−音声変換処理が、新たに選択された言語用の新たに選択されたＴＴＳエン
ジンを使用して、テキストが現在の段落の先頭に再位置決めされた状態で、もう
一度開始される。

【００７０】加入者は、段落の最初の部分を聞いた後に、言語の変更を選択することを選ぶ
可能性が高い。したがって、既に聞かれたものであっても、段落全体を、新しい
言語識別子に基づいて音声に変換する必要がある。代替案では、入力テキストを
、メッセージの先頭または現在の文の先頭に再位置決めすることができる。

【００７１】当業者は、加入者が前の文を超えてスキップバックを継続でき、任意の前の文
のテキスト−音声変換を繰り返すことができるなど、さらなる改良が存在する可
能性があることを諒解するであろう。したがって、普通の情況の下で、加入者が
、自動言語識別の利益を受けることができる。しかし、自動言語識別が、正しく
ないか不適切に動作する時には、発呼者が、好ましくは成功をもたらす可能性が
高い順で、自動選択された言語をスキップして、サポートされる使用可能な言語
のリストをサイクルすることができる。

【００７２】さらなる修正形態では、システムが、テキスト−音声変換に使用される言語の
加入者による識別をもたらすことができる。そのような配置では、加入者に、Ｄ
ＴＭＦキー押下げを介してシステムに入力するための、使用可能な言語のそれぞ
れに関連するコードを与えることができる。もう１つの修正形態では、自動音声
認識を備えたシステムで、加入者が、システムに次に試行させたい言語の名前を
話すことができる。

【００７３】当業者は、このシステムに対する変形形態が存在し得ることを諒解するであろ
う。たとえば、上で説明した実施形態では、自動モードの動作が、デフォルトの
動作のモードである。代替のシステムでは、加入者が動作のモードを具体的に選
択することを要求することができる。

【００７４】本発明を、特に特定の自動言語識別技法に関して説明してきたが、本発明を、
他の自動言語技法と共に使用することができることを諒解されたい。

【００７５】１つの代替自動言語認識技法が、１９９７年７月１３日出願の米国特許出願第
０９／０９９７４４号明細書に開示されている。その技法では、テキスト−音声
変換ステップの前に、テキストを、好ましい言語に翻訳する。そのような代替配
置では、加入者固定モード要求によって、固定された音声−テキストジェネレー
タを使用する音声変換の前にテキストを翻訳するのに使用される言語識別子を変
更することができる。

【００７６】上記から、本発明が、統一されたメッセージシステムに関し、電子メールシス
テムおよび構内交換機（ＰＢＸ）に結合されたボイスゲートウェイサーバを含む
ことがわかる。ボイスゲートウェイサーバは、加入者の組にボイスメッセージン
グサービスを提供する。ボイスゲートウェイサーバ内では、三重字アナライザが
、３文字の組合せを順次検査し；出現頻度を、特定の言語で記述されたテキスト
サンプルからモデリングされた基準出現統計と比較し；テキストメッセージの言
語識別子；および尤度値を生成する。言語識別子に基づいて、メッセージ照会ユ
ニットが、テキストメッセージを加入者に再生されるコンピュータ生成された音
声に変換するのに適当なテキスト−音声エンジンを選択する。

【００７７】好ましい実施形態に関して本発明を説明してきたが、当業者は、さまざまな修
正形態を実現できることを諒解するであろう。たとえば、グラフ法以外の技法に
基づく言語識別ツールを、三重字アナライザ２６０および関連する共回帰ライブ
ラリ２７２、２７３、２７４、２７５、および２７６の代わりに使用することが
できる。もう１つの例として、１つまたは複数のテキスト−音声エンジン２４２
、２４３、２４４、２４５、または２４６を、リモートプロシージャ呼出しの使
用を介してアクセスされる「オフボード」テキスト−音声エンジンなどのハード
ウェアを介して実施することができる。もう１つの例として、変換された音声デ
ータまたは翻訳されたテキストデータを、将来の使用のために保管することがで
き、これは、１回保管、複数再生環境で有用になる可能性がある。本明細書の説
明は、本発明に対するこれらおよび他の変形形態をもたらす。

【図面の簡単な説明】

【図１】本発明を使用することができる統一されたメッセージングシステムの好ましい
実施形態のブロック図である。

【図２】図１のメッセージングシステムに適するボイスサーバの実施形態のブロック図
である。

【図３】テキスト−音声用の自動言語識別を提供する好ましい方法の流れ図である。

【図４（ａ）】図３の自動言語識別のオーバーライドを提供する好ましい方法の流れ図である
。

【図４（ｂ）】図３の自動言語識別のオーバーライドを提供する好ましい方法の流れ図である
。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者ウィルソン，マイケル，ジョフリー，アンドリューイギリス国イー11 １ジェーエッチロンドン，レイトンストーン，リットンロード 60 Ｆターム(参考） 5D045 AB26 【要約の続き】

Claims

【特許請求の範囲】

【請求項１】テキストメッセージの音声への言語ベースの変換を操作する
方法であって、該方法が、該テキストメッセージを取り出すステップと；該テキ
ストメッセージを、言語識別子に基づいてコンピュータ生成された音声に変換す
るステップと；該コンピュータ生成された音声を加入者に再生するステップとを
含み、該方法が、該言語識別子が自動的に選択される動作の自動モードと、該言
語識別子が事前に決定される動作の固定モードとを有する、方法。
【請求項２】動作の該自動モードが、動作のデフォルトモードである、請
求項１に記載の方法。
【請求項３】動作の該固定モードが、加入者固定モード要求によって開始
される、請求項１または請求項２に記載の方法。
【請求項４】該方法が、該加入者固定モード要求に応答して、自動モード
から固定モードに切り替える、請求項３に記載の方法。
【請求項５】該自動モードで、該方法が、該加入者固定モード要求に応答
して、該固定モードで事前に決定された言語識別子に切り替える、請求項３また
は請求項４に記載の方法。
【請求項６】該事前に決定された言語識別子が、事前に決定された言語識
別子の組の最初の言語識別子である、請求項５に記載の方法。
【請求項７】該自動モードで決定された該言語が、事前に決定された言語
識別子の該組から除去される、請求項６に記載の方法。
【請求項８】該事前に決定された言語識別子が、事前に決定された言語識
別子の組のうちで、該自動モードで使用された該言語識別子に続く言語識別子で
ある、請求項５に記載の方法。
【請求項９】事前に決定された言語識別子の該組が、各識別子が正しい言
語識別子である尤度に従って順序付けられる、請求項６または請求項７に記載の
方法。
【請求項１０】該加入者固定モード要求に応答して、該テキストメッセー
ジを変換する該ステップが、現在の段落または現在の文の先頭に戻る、請求項５
ないし７のいずれか一項に記載の方法。
【請求項１１】該固定モードで、該方法が、加入者固定モード要求に応答
して、該組内の次の事前に決定された言語識別子に切り替える、前の請求項のい
ずれかに記載の方法。
【請求項１２】動作の該自動モードが、加入者自動モード要求によって開
始される、前の請求項のいずれかに記載の方法。
【請求項１３】該加入者自動モード要求に応答して、該テキストメッセー
ジを変換する該ステップが、現在の段落または現在の文の先頭に戻る、請求項１
２に記載の方法。
【請求項１４】該加入者固定モード要求が、使用される該言語識別子の表
示を含む、請求項３ないし１１のいずれか一項に記載の方法。
【請求項１５】該加入者固定モード要求に応答して、該コンピュータ生成
された音声を再生する該ステップが、一時停止される、請求項３ないし１４のい
ずれか一項に記載の方法。
【請求項１６】該加入者自動モード要求に応答して、該コンピュータ生成
された音声を再生する該ステップが、一時停止される、請求項１１ないし１３の
いずれか一項に記載の方法。
【請求項１７】変換する該ステップが、テキスト−音声エンジンを使用す
る、前の請求項のいずれかに記載の方法。
【請求項１８】変換する該ステップが、該テキストメッセージを直接にコ
ンピュータ生成された音声に変換する、前の請求項のいずれかに記載の方法。
【請求項１９】変換する該ステップが、該テキストメッセージを、該言語
識別子に基づくユーザが選択した言語に翻訳されたテキストメッセージに翻訳す
ることと；該翻訳されたテキストメッセージを、該ユーザが選択した言語に基づ
くコンピュータ生成された音声に変換することとを含む、請求項１ないし１７の
いずれか一項に記載の方法。
【請求項２０】テキストメッセージをコンピュータ生成された音声に変換
するメッセージングシステムであって、該システムが、テキストメッセージを保
管する手段と；テキストを保管する該手段に結合された、該テキストメッセージ
に対応する言語識別子を生成する手段と；保管する該手段に結合されたテキスト
−音声エンジンとを含み、該テキスト−音声エンジンが、該テキストメッセージ
を、該言語識別子に基づいて該コンピュータ生成された音声に変換し、該言語識
別子を生成する該手段が、該言語識別子が自動的に選択される動作の自動モード
と、該言語識別子が事前に決定される動作の固定モードとを有する、メッセージ
ングシステム。
【請求項２１】該言語識別子を生成する該手段の動作のモードが、加入者
要求によって決定される、請求項２０に記載のメッセージングシステム。
【請求項２２】該言語識別子を生成する該手段の動作のデフォルトモード
が、自動モードである、請求項２０または請求項２１に記載のメッセージングシ
ステム。