JP2003520983A - 改良されたテキスト−音声変換 - Google Patents

改良されたテキスト−音声変換

Info

Publication number
JP2003520983A
JP2003520983A JP2001511664A JP2001511664A JP2003520983A JP 2003520983 A JP2003520983 A JP 2003520983A JP 2001511664 A JP2001511664 A JP 2001511664A JP 2001511664 A JP2001511664 A JP 2001511664A JP 2003520983 A JP2003520983 A JP 2003520983A
Authority
JP
Japan
Prior art keywords
language
subscriber
text
language identifier
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001511664A
Other languages
English (en)
Other versions
JP2003520983A5 (ja
Inventor
ディドコック,クリフォード,ニール
ウィルソン,マイケル,ジョフリー,アンドリュー
Original Assignee
アバイア テクノロジー コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アバイア テクノロジー コーポレーション filed Critical アバイア テクノロジー コーポレーション
Publication of JP2003520983A publication Critical patent/JP2003520983A/ja
Publication of JP2003520983A5 publication Critical patent/JP2003520983A5/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/53Centralised arrangements for recording incoming messages, i.e. mailbox systems
    • H04M3/5307Centralised arrangements for recording incoming messages, i.e. mailbox systems for recording messages comprising any combination of audio and non-audio components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion

Abstract

(57)【要約】 テキストメッセージの音声への言語ベースの変換を操作する方法であって、テキストメッセージを取り出すステップと;言語識別子に基づいてテキストメッセージをコンピュータ生成された音声に変換するステップと;コンピュータ生成された音声を加入者に再生するステップとを含み、前記方法が、言語識別子が自動的に選択される動作の自動モードと、言語識別子が事前に決定される動作の固定モードとを有する、方法を開示する。そのような方法を実施するシステムも開示する。

Description

【発明の詳細な説明】
【0001】 (発明の分野) 本発明は、ボイスメッセージングおよびテキストメッセージングのシステムお
よび方法ならびに言語認識のシステムおよび方法に関する。具体的には、本発明
は、テキストメッセージに関連する言語を自動的に識別し、適当なテキスト−音
声変換を実行する通信システムに関する。そのようなシステムの例が、電子メー
ルリーダまたは統一されたメッセージングアプリケーションである。
【0002】 (発明の背景) テキストを音声に変換するコンピュータベースの技法が、周知になってきた。
そのような技法を介して、テキストデータが、最も一般的にはソフトウェアを含
むテキスト−音声変換「エンジン」によってオーディオ情報に変換される。テキ
スト−音声ソフトウェアの例には、Apple Computer社のSpee
ch Manager(Apple Computer corporatio
n、米国カリフォルニア州Cupertino)およびDigital Equ
ipment Corporation社のDECTalk(Digital
Equipment Corporation、米国マサチューセッツ州Cam
bridge)が含まれる。テキストデータを音声に変換するほかに、そのよう
なソフトウェアは、音量、ピッチ、速度、および他の音声関連パラメータを制御
するユーザコマンドに応答する。
【0003】 テキスト−音声エンジンには、一般に、テキストアナライザ、構文/文脈アナ
ライザ、および合成モジュールが含まれる。テキストアナライザは、構文/文脈
アナライザと共に、ルールベースのインデックスを使用して、テキストデータ内
の基本文法単位を識別する。基本文法単位は、通常は、単語ベースまたは音素ベ
ースであり、ルールベースのインデックスを、それに対応して音素ライブラリと
称する。当業者は、音素ライブラリに、通常は正字法データの音素表現への変換
のための単語ベース辞書が含まれることを理解するであろう。合成モジュールは
、識別された基本文法単位に対応する音声シーケンスを組み立てるか生成し、そ
の音声シーケンスをリスナに再生する。
【0004】 テキスト−音声変換は、統一または統合されたメッセージングシステムのコン
テキスト内で非常に有用になる可能性がある。そのようなメッセージングシステ
ムでは、ボイス処理サーバが、電子メールシステムに結合され、ユーザの電子メ
ールインボックスが、メッセージ通知を提供すると同時に、電子メールメッセー
ジ、ボイスメッセージ、およびおそらくはファクシミリなどの他のタイプのメッ
セージに関するメッセージングサービスにアクセスする。統一されたメッセージ
ングシステムの例が、Octel社のUnified Messenger(O
ctel Communications Corporation、米国カリ
フォルニア州Milpitas)である。そのようなシステムでは、テキスト−
音声変換の使用を介して、電子メールメッセージが音声に選択的に変換される。
したがって、リモート電話機から発呼するユーザが、ボイスメッセージと電子メ
ールメッセージの両方を容易に聞くことができる。したがって、テキスト−音声
変換を使用する統一されたメッセージングシステムでは、ユーザが、メッセージ
取出動作中に自分のコンピュータに直接にアクセスできる必要がなくなる。
【0005】 多くの状況で、メッセージングシステムのユーザは、異なる言語で記述された
テキストメッセージを受信することを期待することができる。たとえば、ヨーロ
ッパで事業を行っている人は、英語、フランス語、またはドイツ語で書かれた電
子メールメッセージを受信する可能性がある。特定の言語の文脈内でテキストを
音声に成功裡に変換するためには、その言語用に設計されたテキスト−音声エン
ジンが必要である。したがって、フランス語のテキストをフランス語の音声に成
功裡に変換するためには、フランス語特有の音素ライブラリを含む、フランス語
用に設計されたテキスト−音声エンジンが必要である。英語のテキスト−音声エ
ンジンの使用を介してフランス語のテキストを話された言語に変換することを試
みると、大量の理解できない出力が作られるはずである。
【0006】 従来技術では、人間の「リスナ」が、メッセージを音声に変換する際に使用さ
れる所与のテキスト−音声エンジンを指定することに頼るメッセージングシステ
ムが、既知である。人間の「リスナ」は、電話回線の他端の加入者である。その
代わりに、一部のシステムでは、メッセージ作成者が、メッセージと共に送信さ
れる言語識別コードを指定できるようになっている。これらの手法の両方が、非
効率的であり、不便である。
【0007】 1997年7月13日出願の米国特許出願第09/099744号明細書に、
テキストメッセージの音声への変換のために自動言語識別を提供する統一された
メッセージングシステムが記載されている。このシステムでは、音声に変換され
るテキストの言語が、ユーザまたは加入者からの入力を一切必要とせずに、自動
的に識別される。
【0008】 この自動システムの欠点は、自動言語選択が正しくない場合に、異なる言語を
選択するための柔軟性がないことである。たとえば、自動言語アイデンティファ
イヤが、正しい言語である尤度が類似する複数の言語を識別する可能性があり、
正しい言語が、言語認識での不備に起因して最高の尤度を有しない場合がある。
そのようなシステムは、テキストの短い断片について不正になる可能性が非常に
高い。
【0009】 したがって、本発明の目的は、電話ユーザに伝えるために、テキストを音声に
変換する改良されたシステムを提供することである。
【0010】 (発明の概要) 本発明の第1の態様によれば、テキストメッセージの音声への言語ベースの変
換を操作する方法であって、テキストメッセージを取り出すステップと;テキス
トメッセージを、言語識別子に基づいてコンピュータ生成された音声に変換する
ステップと;コンピュータ生成された音声を加入者に再生するステップとを含み
、言語識別子が自動的に選択される動作の自動モードと、言語識別子が事前に決
定される動作の固定モードとを有する方法が提供される。
【0011】 動作の自動モードが、動作のデフォルトモードであることが好ましい。動作の
固定モードが、加入者固定モード要求によって開始されることが好ましい。
【0012】 この方法が、加入者固定モード要求に応答して、自動モードから固定モードに
切り替えることが好ましい。
【0013】 自動モードで、この方法が、加入者固定モード要求に応答して、固定モードで
事前に決定された言語識別子に切り替えることが好ましい。
【0014】 事前に決定された言語識別子は、事前に決定された言語識別子の組の最初の言
語識別子とすることができる。事前に決定された言語識別子は、事前に決定され
た言語識別子の組のうちで、自動モードで使用された言語識別子に続く言語識別
子とすることができる。事前に決定された言語識別子の組は、各識別子が正しい
言語識別子である尤度に従って順序付けることができる。
【0015】 加入者固定モード要求に応答して、テキストメッセージを変換するステップが
、現在の段落または現在の文の先頭に戻ることが好ましい。
【0016】 固定モードでは、この方法が、加入者固定モード要求に応答して、組内の次の
事前に決定された言語識別子に切り替えることができる。動作の自動モードは、
加入者自動モード要求によって開始することができる。
【0017】 加入者自動モード要求に応答して、テキストメッセージを変換するステップが
、現在の段落または現在の文の先頭に戻ることができる。
【0018】 加入者固定モード要求に、使用される言語識別子の表示を含めることができる
【0019】 加入者固定モード要求に応答して、コンピュータ生成された音声を再生するス
テップを、一時停止することができる。加入者自動モード要求に応答して、コン
ピュータ生成された音声を再生するステップを、一時停止することができる。
【0020】 変換するステップで、テキスト−音声エンジンを使用することができる。
【0021】 変換するステップで、テキストメッセージを直接にコンピュータ生成された音
声に変換することができる。
【0022】 変換するステップに、テキストメッセージを、言語識別子に基づくユーザが選
択した言語に翻訳されたテキストメッセージに翻訳することと;翻訳されたテキ
ストメッセージを、ユーザが選択した言語に基づくコンピュータ生成された音声
に変換することとを含めることができる。
【0023】 この方法には、さらに、後続テキストメッセージを感知するステップと;取出
、生成、変換、および再生のステップを繰り返すステップとを含めることができ
る。
【0024】 自動モードでは、生成のステップに、さらに、テキストメッセージの文字のシ
ーケンスを検査することと;テキストメッセージの文字のシーケンスに基づいて
テキストメッセージの出現頻度を形成することと;出現頻度を複数の共回帰ライ
ブラリの1つと突き合わせることとを含めることができる。突合せのステップに
、さらに、出現頻度を複数の基準頻度のそれぞれと比較するステップであって、
複数の基準頻度のそれぞれが、複数の共回帰ライブラリの1つに対応する、比較
するステップと;出現頻度と複数の基準頻度の1つの間の最適一致を判定するス
テップとを含めることができる。検査のステップに、文字のシーケンス内の3つ
の連続する文字の組合せを検査する三重字アナライザを使用することを含めるこ
とができる。文字のシーケンスは、テキストメッセージの第1の部分で見つける
ことができる。
【0025】 突合せのステップに、さらに、出現頻度を、複数の共回帰ライブラリの1つに
対応する複数の基準頻度のそれぞれと比較することと;出現頻度と複数の基準頻
度の1つとの間に十分な数の一致が存在することを判定することとを含めること
ができる。突合せのステップは、出現頻度と複数の基準頻度の1つとの間に十分
な数の一致がある時に実行することができる。
【0026】 この方法に、さらに、十分な数の一致が存在しない時にこの方法を終了するス
テップを含めることができる。
【0027】 本発明の第2の態様によれば、テキストメッセージをコンピュータ生成された
音声に変換するメッセージングシステムであって、テキストメッセージを保管す
る手段と;テキストを保管する手段に結合された、テキストメッセージに対応す
る言語識別子を生成する手段と;保管する手段に結合されたテキスト−音声エン
ジンとを含み、テキスト−音声エンジンが、テキストメッセージを、言語識別子
に基づいてコンピュータ生成された音声に変換し、言語識別子を生成する手段が
、言語識別子が自動的に選択される動作の自動モードと、言語識別子が事前に決
定される動作の固定モードとを有する、メッセージングシステムが提供される。
【0028】 言語識別子を生成する手段の動作のモードを、加入者要求によって決定するこ
とができる。
【0029】 言語識別子を生成する手段の動作のデフォルトモードを、自動モードとするこ
とができる。
【0030】 これから、添付図面に関して好ましい実施形態を参照することによって本発明
を説明する。
【0031】 (好ましい実施形態の説明) 図1を参照すると、本発明を実施できる統一されたメッセージングシステム1
00の好ましい実施形態のブロック図が示されている。統一されたメッセージン
グシステム100には、構内交換機(PBX)120に結合された電話機110
、112、および114の組と;ネットワーク信号線136を介してファイルサ
ーバ134に結合された複数のコンピュータ132を含むコンピュータネットワ
ークであって、ファイルサーバ134が、さらにデータ記憶装置138に結合さ
れる、コンピュータネットワークと;ネットワーク信号線136に結合され、電
話回線の組142ならびに統合リンク144を介してPBX120に結合される
ボイスゲートウェイサーバ140とが含まれる。PBX120は、さらに、幹線
122、124、および126の集合を介して電話網に結合される。図1に示さ
れた統一されたメッセージングシステム100は、米国特許第5557659号
明細書、表題「Electronic Mail System Having
Integrated Voice Messages」に記載されたものと
同等である。本発明を、図1に示された特定のシステムに関して本明細書で説明
するが、当業者は、本発明の教示が、本質的にすべての統一されたまたは統合さ
れたメッセージング環境または他の電子メール読取アプリケーションに適用可能
であることを諒解するであろう。
【0032】 本発明では、コンピュータネットワーク上で実行される通常のソフトウェアが
、ファイル転送サービスおよびソフトウェアアプリケーションへのグループアク
セスならびに、それを介してコンピュータユーザがメッセージならびにメッセー
ジ添付ファイルをコンピュータ132の間でファイルサーバ134を介して転送
できる電子メール(e−mail)システムを提供する。例示的実施形態では、
Microsoft Exchange(商標)ソフトウェア(Microso
ft Corporation、米国ワシントン州Redmond)が、コンピ
ュータネットワーク上で実行されて、そのような機能性を提供する。ファイルサ
ーバ134内では、電子メールディレクトリによって、当業者に容易に理解され
る形で、各コンピュータユーザの名前が、メッセージ保管場所または「インボッ
クス」およびネットワークアドレスと関連付けられる。ボイスゲートウェイサー
バ140は、コンピュータネットワーク130と電話システムの間のメッセージ
の交換を促進する。さらに、ボイスゲートウェイサーバ140は、留守番電話、
自動受付台、ボイスメッセージの保管および転送、およびメッセージ照会動作な
どのボイスメッセージングサービスを、ボイスメッセージング加入者に提供する
。好ましい実施形態では、各加入者が、電子メールディレクトリで識別される、
すなわち、コンピュータ132をコンピュータネットワークに結合された、コン
ピュータユーザである。当業者は、代替実施形態で、ボイスメッセージング加入
者を、コンピュータユーザのサブセットとすることができることを諒解するであ
ろう。もう1つの代替実施形態では、コンピュータユーザを、ボイスメッセージ
ング加入者の大きいプールのサブセットとすることができ、これは、ボイスゲー
トウェイサーバが主に留守番電話に使用される時に有用になる可能性がある。
【0033】 図2も参照すると、ボイスゲートウェイサーバ140の第1実施形態のブロッ
ク図が示されている。
【0034】 第1実施形態では、ボイスゲートウェイサーバ140に、ボイスボード200
、ネットワークインターフェースユニット202、処理ユニット204、データ
記憶ユニット206、およびメモリ210が含まれる。メモリ210には、複数
のボイスメッセージングアプリケーションユニット220、222、224、お
よび226と;メッセージバッファ230と;1組のテキスト−音声エンジン2
42、243、および244、対応する音素ライブラリ252、253、および
254、三重字アナライザ260と;複数の共回帰ライブラリ272、273、
274、275、および276が、常駐して含まれる。ボイスゲートウェイサー
バ140内の各要素は、共通バス299に結合される。ネットワークインターフ
ェースユニット202は、さらに、ネットワーク信号線136に結合され、ボイ
スボード200は、PBX120に結合される。
【0035】 ボイスボード200が、コンピュータシステムを電話交換機器にインターフェ
ースする通常の回路を含み、テレフォニ処理機能およびボイス処理機能を提供す
ることが好ましい。ネットワークインターフェースユニット202に、ボイスゲ
ートウェイサーバ140とコンピュータネットワーク130の間のデータ転送を
管理する通常の回路が含まれることが好ましい。好ましい実施形態では、処理ユ
ニット204およびデータ記憶ユニット206も、通常のものである。
【0036】 ボイスメッセージングアプリケーションユニット220、222、224、お
よび226は、留守番電話、自動受付台、ボイスメッセージ保管動作、およびボ
イスメッセージ転送動作を含むボイスメッセージングサービスを加入者に提供す
る。メッセージ照会ユニット226は、加入者の要求に応答して、電話ベースの
メッセージ再生動作を指示する。ボイスメッセージレビュー要求に応答して、メ
ッセージ照会ユニット226は、加入者のインボックスに関連するボイスメッセ
ージの取出を開始し、その後、通常の形で電話を介してユーザにボイスメッセー
ジを再生する。テキストメッセージレビュー要求に応答して、メッセージ照会ユ
ニット226は、加入者のインボックスに関連するテキストメッセージの取出を
開始し、その後、図3に関して下で詳細に説明する自動言語認識動作およびテキ
スト−音声変換動作が行われる。好ましい実施形態では、ボイスメッセージング
アプリケーションユニット220、222、224、および226に、処理ユニ
ット204によって実行可能なプログラム命令シーケンスが含まれる。
【0037】 メッセージバッファ230には、メモリ200のうちで、ファイルサーバ13
4とのメッセージ交換の前または後に一時的にメッセージを保管するために予約
された部分が含まれる。テキスト−音声エンジン242、243、244、24
5、および246に、テキストデータを音声に変換する通常のソフトウェアが含
まれることが好ましい。当業者は、代替実施形態で、テキスト−音声エンジン2
42、243、244、245、および246の1つまたは複数の部分を、ハー
ドウェアを使用して実施できることを容易に理解するであろう。
【0038】 所与の時点でメモリ210内に常駐するテキスト−音声エンジン242、24
3、および244の数は、本発明が使用される言語環境に従って決定される。好
ましい実施形態では、メモリ210に、最も一般的に期待される言語のグループ
内の言語ごとに1つのテキスト−音声エンジン242、243、および244が
含まれる。追加のテキスト−音声エンジン245および246が、データ記憶ユ
ニット206に常駐することが好ましく、これらは、下で詳細に説明するように
、前述のグループの外の言語のテキスト−音声変換が必要な時に、メモリ210
にロードされる。例示的実施形態では、英語、フランス語、およびドイツ語に対
応するテキスト−音声エンジン242、243、および244が、メモリ210
に常駐し、ポルトガル語、イタリア語、または他の言語のためのテキスト−音声
エンジン245および246が、データ記憶ユニット206に常駐する。当業者
は、代替実施形態で、メモリ内に常駐するテキスト−音声エンジン242、24
3、および244の数を、仮想記憶法などの記憶管理技法に従って決定すること
ができ、その場合に、テキスト−音声エンジン242、243、および244が
、必要に応じてデータ記憶ユニット206に普通にスワップアウトされることを
諒解するであろう。
【0039】 メモリ210に、その中に常駐するテキスト−音声エンジン242、243、
および244のそれぞれに対応する通常の音素ライブラリ252、253、およ
び254が含まれることが好ましい。好ましい実施形態では、音素ライブラリ2
55および256も、データ記憶ユニット206に保管されるテキスト−音声エ
ンジン245および246のそれぞれのために、データ記憶ユニット206に常
駐する。
【0040】 この実施形態は、テキスト言語識別に関するn−グラフ法、具体的には、1)
「Bigram and Trigram Models for Langu
age Identification and Classificatio
n」、Proceedings of the AISB Workshop
on Computational Linguistics for Spe
ech and Handwriting Recognition,Univ
ersity of Leeds、1994年;2)「Natural Lan
guage Identification Using Corpus−Ba
sed Models」、Hermes Journal of Lingui
stics 13:183−204、1994年;および3)「N−gram
Tools for Generic Symbol Processing」
、M.Sc.Thesis of Phil Cave、School of
Computer Studies、University of Leeds
、1995年に報告された、英国のUniversity of Leedsで
Clive SouterおよびGavin Churcherによって開発さ
れた技法に頼ることが好ましい。
【0041】 n−グラフ言語識別では、テキストメッセージ内の連続するn文字の組合せの
出現頻度が、特定の言語に関連する基準n文字出現統計と比較される。所与の言
語の基準統計は、その言語からとられるテキストサンプルから自動的に導出また
はモデル化される。本明細書では、所与の言語の基準n文字出現統計が、一緒に
、共回帰ライブラリ272、273、274、275、および276として保管
される。
【0042】 この実施形態では、三重字アナライザ260と、共回帰ライブラリ272、2
73、274、275、および276を使用して、三重字ベース言語識別すなわ
ち、3文字の組合せの統計的出現に基づく言語識別を実行することが好ましい。
好ましい実施形態では、メモリ210に、メモリ210内のテキスト−音声エン
ジン242、243、および244ならびにデータ記憶ユニット206に保管さ
れるテキスト−音声エンジン245および246のそれぞれに対応する共回帰ラ
イブラリ272、273、274、275、および276が含まれる。
【0043】 三重字アナライザ260は、言語識別子と、相対的な言語識別の確信度を示す
尤度またはパーセンテージ値を返す。University of Leeds
で開発された三重字アナライザ260は、テキスト入力に少なくとも175文字
が含まれる時に100%の精度に達する。三重字アナライザ260は、さらに、
より短い長さのテキストシーケンスに関して、通常は90%を超える高い言語識
別精度を維持する。
【0044】 例示的実施形態では、ボイスゲートウェイサーバ140が、パーソナルコンピ
ュータであって、200MHzのIntel Pentium(商標)プロセッ
サ(Intel Corporation、米国カリフォルニア州Santa
Clara)と;128メガバイトのランダムアクセスメモリ(RAM)と;イ
ーサネット(登録商標)ベースのネットワークインターフェースユニット202
と;データ記憶ユニット206として働くRedundant Array o
f Inexpensive Disks(RAID)ドライブと;Rheto
rexボイスボード(Rhetorex Corporation、米国カリフ
ォルニア州San Jose)と;DECTalkテキスト−音声エンジン24
2、243、244、245、および246と、対応する音素ライブラリ252
、253、254、255、および256(Digital Equipmen
t Corporation、米国マサチューセッツ州Cambridge)と
;University of Leedsで開発された、前述の三重字アナラ
イザ260および関連する共回帰ライブラリ272、273、274、275、
および276と;Octel社のUnified Messengerソフトウ
ェア(Octel Communications Corporation、
米国カリフォルニア州Milpitas)を使用して実施されたボイスメッセー
ジングアプリケーションユニット220、222、224、および226とを有
する。
【0045】 図3を参照すると、テキストメッセージの音声への言語ベースの変換を提供す
る第1の好ましい方法の流れ図が示されている。好ましい方法は、加入者による
テキストメッセージレビュー要求の発行に応答してステップ300で開始され、
メッセージ照会ユニット226が、加入者のインボックスから、または加入者に
よって指定された特定のデータファイルまたはフォルダから、テキストメッセー
ジを取り出す。好ましい実施形態では、加入者のインボックスが、ファイルサー
バの記憶位置に対応し、取り出されるテキストメッセージが、メッセージバッフ
ァ230に転送される。ステップ300に続いて、システムの動作の自動モード
では、メッセージ照会ユニット226が、ステップ302で、三重字アナライザ
260に識別ディレクティブを発行し、これによって、言語識別を開始する。識
別ディレクティブに応答して、三重字アナライザ260が、ステップ304で、
現在検討中のテキストメッセージ内の連続する3文字組合せを検査し、文字組合
せの出現頻度を判定する。好ましい実施形態では、三重字アナライザ260が、
テキストメッセージが十分に長い場合にはテキストメッセージの最初の少なくと
も175文字を検査し、そうでない場合には、三重字アナライザ260は、可能
な最長の文字シーケンスを検査する。現在のテキストメッセージの出現頻度の判
定に続いて、ステップ308で、三重字アナライザ260が、その出現頻度を、
共回帰ライブラリ272、273、274、275、および276のそれぞれの
基準出現統計と比較し、特定の共回帰ライブラリ272、273、274、およ
び275との最も近い一致を判定する。最も近い一致を判定した後に、三重字ア
ナライザ260が、ステップ310で、言語識別子および関連する尤度値をメッ
セージ照会ユニット226に返す。当業者は、代替実施形態で、三重字アナライ
ザ260が、言語識別子および各言語識別子に対応する尤度値の組を返すことが
できることを諒解するであろう。
【0046】 テキストメッセージが、共回帰ライブラリ272、273、274、275、
および276の1つに対応する言語で記述されている限り、出現頻度と基準出現
統計の間の相関は、成功裡の言語識別に十分である可能性が高い。テキストメッ
セージが、存在する共回帰ライブラリ272、273、274、275、および
276のどれにも対応しない言語で記述されている場合には、相関が悪くなり、
最も近い一致を判定することができない。三重字アナライザ260によって返さ
れる尤度値が、最小許容可能閾値(たとえば20%)未満である場合には、メッ
セージ照会ユニット226が、ステップ312および318を介して、対応する
事前に録音されたメッセージを加入者に再生する。例示的な事前に録音されたメ
ッセージは、「language identification unsuc
cessful(言語識別失敗)」とすることができる。
【0047】 言語識別子および許容可能な尤度値を受け取った後に、メッセージ照会ユニッ
ト226は、ステップ314で、適当なテキスト−音声エンジン242、243
、244、245、または246を自動的に選択する。テキスト−音声エンジン
244および245とそれに関連する音素ライブラリ254および255がメモ
リ210内に現在常駐していない場合には、メッセージ照会ユニット226が、
必要なテキスト−音声エンジン244または245および対応する音素ライブラ
リ254または255を、データ記憶ユニット206からメモリ210に転送す
る。
【0048】 ステップ314の後に、メッセージ照会ユニット226が、ステップ316で
、選択されたテキスト−音声エンジン242、243、244、245、または
246に変換ディレクティブを発行し、その後、現在検討中のテキストメッセー
ジが、通常の形で音声に変換され、加入者に再生される。ステップ316の完了
時に、メッセージ照会ユニット226が、ステップ320で、加入者のインボッ
クスにある、または、加入者の指定によって指定された別のテキストメッセージ
が、検討を必要とするかどうかを判定する。そうである場合には、好ましい方法
はステップ300に進む;そうでない場合には、好ましい方法は終了する。
【0049】 代替実施形態では、ステップ312および318を省略することができ、ステ
ップ310からステップ314に直接に進んで、加入者に再生される「最良推測
」テキスト−音声変換を作る。そのような代替実施形態では、メッセージ照会ユ
ニット226が、1)尤度値を無視するか、2)複数の言語識別子および尤度値
が返される場合に、最良の尤度値に関連する言語識別子を選択することができる
【0050】 好ましい実施形態では、テキスト言語識別が実行され、その後、適当な言語で
のテキスト−音声変換が実行される。これは、元のテキストメッセージが記述さ
れた言語と一致するコンピュータ生成音声を加入者が聞くことをもたらす。代替
実施形態では、テキスト言語識別を実行することができ、その後、テキスト−テ
キスト言語変換(すなわち翻訳)を実行し、その後、テキスト−音声変換を実行
し、加入者に最も楽な言語でコンピュータ生成された音声を加入者が聞くことに
なる。この代替実施形態を促進するために、加入者言語プリファレンス選択肢の
組を、加入者情報データベースまたはディレクトリ内のユーザ構成データとして
保管する。加入者情報データベースは、ボイスゲートウェイサーバ140内に常
駐することができ、また、当業者に容易に理解される形で、ファイルサーバの電
子メールディレクトリに関連して実施することができる。さらに、ボイスゲート
ウェイサーバ140を変更して、下で詳細に説明する、追加の要素を含めること
ができる。
【0051】 本発明によれば、図3に関して上で説明した方法が開始された後はいつでも、
メッセージ照会ユニット226が、加入者からの追加の要求を監視する。
【0052】 本発明によれば、このシステムは、図3に関して上で説明した、テキスト−音
声変換の言語識別子が自動的に選択される、自動モードの動作と、固定モードの
動作とを有する。固定モードの動作では、メッセージ照会ユニット226によっ
て受信される加入者固定モード要求に応答して、システムが、言語識別子が事前
に決定される、固定モードの動作に入る。固定モードの動作は、加入者が押すD
TMFキーの事前に決定されたシーケンスによって選択することができる。
【0053】 図4(a)を参照すると、システムが自動モードである時に、ステップ400
で、メッセージ照会ユニット226が、加入者固定モード要求を監視する。加入
者固定モード要求が受信されない限り、ステップ402で、システムが、自動モ
ードで継続し、図3に関して上で説明したように動作する。
【0054】 しかし、メッセージ照会ユニット226が、加入者固定モード要求を受信する
場合には、ステップ404で、システムが、固定モードの動作に切り替わる。
【0055】 メッセージ照会ユニットが加入者固定モード要求を受信する可能性が最も高い
時点は、図3のステップ316である。ユーザが、変換されたテキストを聞き、
音声が理解不能であることに起因して、選択された言語が正しくないに違いない
ことを理解した場合に、加入者は、事前に決定された言語識別子の1つを選択す
ることを選んで、正しい言語選択の達成を試みることができる。
【0056】 ステップ406で、固定モードに入ったことに応答して、事前に決定された言
語識別子が選択される。固定モードでの、事前に決定された言語識別子の選択は
、変更することができる。
【0057】 好ましい実施形態では、最初の加入者固定モード要求に応答して、言語識別子
の事前に構成された組の最初の言語識別子が選択される。事前に構成された言語
識別子の組は、その言語が出現すると期待される尤度に従って配置することがで
きる。したがって、現在の例では、TTSエンジン242に関連する言語識別子
を選択することができる。TTSエンジン243、244、245、および24
6に関連する言語識別子は、それぞれ、リストの2番目、3番目、4番目、およ
び5番目である。
【0058】 もちろん、「現在の」言語を、言語識別子の事前に構成された組から除去する
か、組を順序付ける時にスキップしなければならない。この改良を行うことがで
きるのは、「現在の」言語が、明らかに正しくないからである。
【0059】 代替配置では、言語識別子を、自動選択に関連する言語識別子の後の次の言語
識別子とすることができる。したがって、自動選択によって、TTSエンジン2
44に関連する言語識別子が選択される場合に、加入者固定モード要求に応答し
て、TTSエンジン245に関連する言語識別子を選択することができる。
【0060】 もう1つの代替実施形態では、ステップ310で返される尤度値を使用するこ
とができ、自動ステップで選択された言語識別子に続く、次に高い尤度を有する
言語識別子が選択される。
【0061】 事前に決定された言語識別子の選択の後に、ステップ408で、検討中のテキ
ストメッセージを、通常の形で音声に変換し、加入者に再生する。
【0062】 図4(b)を参照すると、システムがステップ404で固定モードの動作に入
った後に、ステップ410で、メッセージ照会ユニット226が、加入者からの
もう1つの加入者固定モード要求の受信について監視する。もう1つの加入者固
定モード要求が受信されない限り、ステップ412で、システムは、図4(a)
に関して上で説明したように継続する。
【0063】 もう1つの加入者固定モード要求を受信する場合には、ステップ414で、次
の事前に決定された言語識別子を選択する。次の事前に決定された言語識別子を
選択する手順は、応用例に従って変更することができる。次の事前に決定された
言語識別子は、事前に決定されたリスト内の次のTTSエンジンに関連する言語
識別子に従って選択することができる。代替案では、これを、次に高い尤度を有
する言語識別子に従って選択することができる。
【0064】 次の言語識別子を選択した後に、ステップ416で、検討中のテキストメッセ
ージを、通常の形で音声に変換し、加入者に再生する。
【0065】 現在のテキストメッセージの変換が、ステップ408または416のいずれか
で完了した後に、好ましい実施形態では、この方法が、図3のステップ320に
戻る。もう1つのメッセージを変換しなければならない場合には、加入者による
もう1つの割込みまで、この方法が自動モードでもう一度継続される。代替配置
では、次のメッセージおよび後続のメッセージについて、システムが、現在選択
されている言語識別子を使用して、固定モードで継続することができる。加入者
は、同一の現在のメッセージに関して固定モード動作を連続して要求して、音声
メッセージが理解できるようになるまで、使用可能な言語識別子のリストを効果
的にサイクルすることができる。
【0066】 好ましい実施形態では、システムが固定モードの動作である時に、メッセージ
照会ユニットが、加入者自動モード要求に応答して、自動モードの動作に戻る。
自動モードの動作は、加入者が押すDTMFキーの事前に決定されたシーケンス
によって選択することができる。
【0067】 したがって、図4(a)および図4(b)に示された固定モードの動作では、
メッセージ照会ユニットが、加入者自動モード要求について加入者を監視し、そ
れに応答して図3のステップ300に戻る。
【0068】 単一のテキストメッセージに、異なる言語のテキストが含まれる可能性がある
。たとえば、電子メールメッセージに、前に転送された、異なる言語のメッセー
ジを含めることができる。したがって、固定モードから自動モードに戻る能力が
、好ましい。メッセージ内の新しい文が、言語の変化に起因して加入者に理解不
能である場合に、加入者は、即座に自動モードに戻って、言語識別子の最適自動
推定を使用することができる。
【0069】 動作モードが、自動モードと固定モードの間で切り替えられる時に、必ず、入
力テキストを現在の段落の先頭に再位置決めすることが好ましい。その後、テキ
スト−音声変換処理が、新たに選択された言語用の新たに選択されたTTSエン
ジンを使用して、テキストが現在の段落の先頭に再位置決めされた状態で、もう
一度開始される。
【0070】 加入者は、段落の最初の部分を聞いた後に、言語の変更を選択することを選ぶ
可能性が高い。したがって、既に聞かれたものであっても、段落全体を、新しい
言語識別子に基づいて音声に変換する必要がある。代替案では、入力テキストを
、メッセージの先頭または現在の文の先頭に再位置決めすることができる。
【0071】 当業者は、加入者が前の文を超えてスキップバックを継続でき、任意の前の文
のテキスト−音声変換を繰り返すことができるなど、さらなる改良が存在する可
能性があることを諒解するであろう。したがって、普通の情況の下で、加入者が
、自動言語識別の利益を受けることができる。しかし、自動言語識別が、正しく
ないか不適切に動作する時には、発呼者が、好ましくは成功をもたらす可能性が
高い順で、自動選択された言語をスキップして、サポートされる使用可能な言語
のリストをサイクルすることができる。
【0072】 さらなる修正形態では、システムが、テキスト−音声変換に使用される言語の
加入者による識別をもたらすことができる。そのような配置では、加入者に、D
TMFキー押下げを介してシステムに入力するための、使用可能な言語のそれぞ
れに関連するコードを与えることができる。もう1つの修正形態では、自動音声
認識を備えたシステムで、加入者が、システムに次に試行させたい言語の名前を
話すことができる。
【0073】 当業者は、このシステムに対する変形形態が存在し得ることを諒解するであろ
う。たとえば、上で説明した実施形態では、自動モードの動作が、デフォルトの
動作のモードである。代替のシステムでは、加入者が動作のモードを具体的に選
択することを要求することができる。
【0074】 本発明を、特に特定の自動言語識別技法に関して説明してきたが、本発明を、
他の自動言語技法と共に使用することができることを諒解されたい。
【0075】 1つの代替自動言語認識技法が、1997年7月13日出願の米国特許出願第
09/099744号明細書に開示されている。その技法では、テキスト−音声
変換ステップの前に、テキストを、好ましい言語に翻訳する。そのような代替配
置では、加入者固定モード要求によって、固定された音声−テキストジェネレー
タを使用する音声変換の前にテキストを翻訳するのに使用される言語識別子を変
更することができる。
【0076】 上記から、本発明が、統一されたメッセージシステムに関し、電子メールシス
テムおよび構内交換機(PBX)に結合されたボイスゲートウェイサーバを含む
ことがわかる。ボイスゲートウェイサーバは、加入者の組にボイスメッセージン
グサービスを提供する。ボイスゲートウェイサーバ内では、三重字アナライザが
、3文字の組合せを順次検査し;出現頻度を、特定の言語で記述されたテキスト
サンプルからモデリングされた基準出現統計と比較し;テキストメッセージの言
語識別子;および尤度値を生成する。言語識別子に基づいて、メッセージ照会ユ
ニットが、テキストメッセージを加入者に再生されるコンピュータ生成された音
声に変換するのに適当なテキスト−音声エンジンを選択する。
【0077】 好ましい実施形態に関して本発明を説明してきたが、当業者は、さまざまな修
正形態を実現できることを諒解するであろう。たとえば、グラフ法以外の技法に
基づく言語識別ツールを、三重字アナライザ260および関連する共回帰ライブ
ラリ272、273、274、275、および276の代わりに使用することが
できる。もう1つの例として、1つまたは複数のテキスト−音声エンジン242
、243、244、245、または246を、リモートプロシージャ呼出しの使
用を介してアクセスされる「オフボード」テキスト−音声エンジンなどのハード
ウェアを介して実施することができる。もう1つの例として、変換された音声デ
ータまたは翻訳されたテキストデータを、将来の使用のために保管することがで
き、これは、1回保管、複数再生環境で有用になる可能性がある。本明細書の説
明は、本発明に対するこれらおよび他の変形形態をもたらす。
【図面の簡単な説明】
【図1】 本発明を使用することができる統一されたメッセージングシステムの好ましい
実施形態のブロック図である。
【図2】 図1のメッセージングシステムに適するボイスサーバの実施形態のブロック図
である。
【図3】 テキスト−音声用の自動言語識別を提供する好ましい方法の流れ図である。
【図4(a)】 図3の自動言語識別のオーバーライドを提供する好ましい方法の流れ図である
【図4(b)】 図3の自動言語識別のオーバーライドを提供する好ましい方法の流れ図である
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),AE,AL,A M,AT,AU,AZ,BA,BB,BG,BR,BY ,CA,CH,CN,CR,CU,CZ,DE,DK, DM,EE,ES,FI,GB,GD,GE,GH,G M,HR,HU,ID,IL,IN,IS,JP,KE ,KG,KP,KR,KZ,LC,LK,LR,LS, LT,LU,LV,MA,MD,MG,MK,MN,M W,MX,NO,NZ,PL,PT,RO,RU,SD ,SE,SG,SI,SK,SL,TJ,TM,TR, TT,TZ,UA,UG,US,UZ,VN,YU,Z A,ZW (72)発明者 ウィルソン,マイケル,ジョフリー,アン ドリュー イギリス国 イー11 1ジェーエッチ ロ ンドン,レイトンストーン,リットン ロ ード 60 Fターム(参考) 5D045 AB26 【要約の続き】

Claims (22)

    【特許請求の範囲】
  1. 【請求項1】 テキストメッセージの音声への言語ベースの変換を操作する
    方法であって、該方法が、該テキストメッセージを取り出すステップと;該テキ
    ストメッセージを、言語識別子に基づいてコンピュータ生成された音声に変換す
    るステップと;該コンピュータ生成された音声を加入者に再生するステップとを
    含み、該方法が、該言語識別子が自動的に選択される動作の自動モードと、該言
    語識別子が事前に決定される動作の固定モードとを有する、方法。
  2. 【請求項2】 動作の該自動モードが、動作のデフォルトモードである、請
    求項1に記載の方法。
  3. 【請求項3】 動作の該固定モードが、加入者固定モード要求によって開始
    される、請求項1または請求項2に記載の方法。
  4. 【請求項4】 該方法が、該加入者固定モード要求に応答して、自動モード
    から固定モードに切り替える、請求項3に記載の方法。
  5. 【請求項5】 該自動モードで、該方法が、該加入者固定モード要求に応答
    して、該固定モードで事前に決定された言語識別子に切り替える、請求項3また
    は請求項4に記載の方法。
  6. 【請求項6】 該事前に決定された言語識別子が、事前に決定された言語識
    別子の組の最初の言語識別子である、請求項5に記載の方法。
  7. 【請求項7】 該自動モードで決定された該言語が、事前に決定された言語
    識別子の該組から除去される、請求項6に記載の方法。
  8. 【請求項8】 該事前に決定された言語識別子が、事前に決定された言語識
    別子の組のうちで、該自動モードで使用された該言語識別子に続く言語識別子で
    ある、請求項5に記載の方法。
  9. 【請求項9】 事前に決定された言語識別子の該組が、各識別子が正しい言
    語識別子である尤度に従って順序付けられる、請求項6または請求項7に記載の
    方法。
  10. 【請求項10】 該加入者固定モード要求に応答して、該テキストメッセー
    ジを変換する該ステップが、現在の段落または現在の文の先頭に戻る、請求項5
    ないし7のいずれか一項に記載の方法。
  11. 【請求項11】 該固定モードで、該方法が、加入者固定モード要求に応答
    して、該組内の次の事前に決定された言語識別子に切り替える、前の請求項のい
    ずれかに記載の方法。
  12. 【請求項12】 動作の該自動モードが、加入者自動モード要求によって開
    始される、前の請求項のいずれかに記載の方法。
  13. 【請求項13】 該加入者自動モード要求に応答して、該テキストメッセー
    ジを変換する該ステップが、現在の段落または現在の文の先頭に戻る、請求項1
    2に記載の方法。
  14. 【請求項14】 該加入者固定モード要求が、使用される該言語識別子の表
    示を含む、請求項3ないし11のいずれか一項に記載の方法。
  15. 【請求項15】 該加入者固定モード要求に応答して、該コンピュータ生成
    された音声を再生する該ステップが、一時停止される、請求項3ないし14のい
    ずれか一項に記載の方法。
  16. 【請求項16】 該加入者自動モード要求に応答して、該コンピュータ生成
    された音声を再生する該ステップが、一時停止される、請求項11ないし13の
    いずれか一項に記載の方法。
  17. 【請求項17】 変換する該ステップが、テキスト−音声エンジンを使用す
    る、前の請求項のいずれかに記載の方法。
  18. 【請求項18】 変換する該ステップが、該テキストメッセージを直接にコ
    ンピュータ生成された音声に変換する、前の請求項のいずれかに記載の方法。
  19. 【請求項19】 変換する該ステップが、該テキストメッセージを、該言語
    識別子に基づくユーザが選択した言語に翻訳されたテキストメッセージに翻訳す
    ることと;該翻訳されたテキストメッセージを、該ユーザが選択した言語に基づ
    くコンピュータ生成された音声に変換することとを含む、請求項1ないし17の
    いずれか一項に記載の方法。
  20. 【請求項20】 テキストメッセージをコンピュータ生成された音声に変換
    するメッセージングシステムであって、該システムが、テキストメッセージを保
    管する手段と;テキストを保管する該手段に結合された、該テキストメッセージ
    に対応する言語識別子を生成する手段と;保管する該手段に結合されたテキスト
    −音声エンジンとを含み、該テキスト−音声エンジンが、該テキストメッセージ
    を、該言語識別子に基づいて該コンピュータ生成された音声に変換し、該言語識
    別子を生成する該手段が、該言語識別子が自動的に選択される動作の自動モード
    と、該言語識別子が事前に決定される動作の固定モードとを有する、メッセージ
    ングシステム。
  21. 【請求項21】 該言語識別子を生成する該手段の動作のモードが、加入者
    要求によって決定される、請求項20に記載のメッセージングシステム。
  22. 【請求項22】 該言語識別子を生成する該手段の動作のデフォルトモード
    が、自動モードである、請求項20または請求項21に記載のメッセージングシ
    ステム。
JP2001511664A 1999-07-21 2000-04-20 改良されたテキスト−音声変換 Pending JP2003520983A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP99305779.3 1999-07-21
EP99305779 1999-07-21
PCT/GB2000/001567 WO2001006489A1 (en) 1999-07-21 2000-04-20 Improved text to speech conversion

Publications (2)

Publication Number Publication Date
JP2003520983A true JP2003520983A (ja) 2003-07-08
JP2003520983A5 JP2003520983A5 (ja) 2005-04-07

Family

ID=8241531

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001511664A Pending JP2003520983A (ja) 1999-07-21 2000-04-20 改良されたテキスト−音声変換

Country Status (6)

Country Link
EP (1) EP1204964B1 (ja)
JP (1) JP2003520983A (ja)
AU (1) AU4307500A (ja)
CA (1) CA2379862A1 (ja)
DE (1) DE60019301T2 (ja)
WO (1) WO2001006489A1 (ja)

Families Citing this family (121)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
CN1145317C (zh) * 2001-05-16 2004-04-07 华为技术有限公司 在智能网上实现业务语音动态加载的方法及其系统组网
GB2377119A (en) * 2001-06-27 2002-12-31 365 Plc Interactive voice response system
EP1302928A1 (de) * 2001-10-16 2003-04-16 Siemens Aktiengesellschaft Verfahren zur Spracherkennung, insbesondere von Namen, und Spracherkenner
GB2402855A (en) * 2003-06-12 2004-12-15 Seiko Epson Corp Multiple language text to speech processing
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
US20050267757A1 (en) * 2004-05-27 2005-12-01 Nokia Corporation Handling of acronyms and digits in a speech recognition and text-to-speech engine
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9001975B2 (en) 2012-12-11 2015-04-07 Genesys Telecommunications Laboratories, Inc. Contact center recording service
EP4138075A1 (en) 2013-02-07 2023-02-22 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5568383A (en) * 1992-11-30 1996-10-22 International Business Machines Corporation Natural language translation system and document transmission network with translation loss information and restrictions
WO1996012271A1 (en) * 1994-10-14 1996-04-25 National Semiconductor Corporation Speech synthesis apparatus and method for synthesizing a finite set of sentences and numbers using one program
GB9625284D0 (en) * 1996-12-04 1997-01-22 Canon Kk A data processing method and apparatus for identifying a classification to which data belongs
CA2242065C (en) * 1997-07-03 2004-12-14 Henry C.A. Hyde-Thomson Unified messaging system with automatic language identification for text-to-speech conversion
EP0889626A1 (en) * 1997-07-04 1999-01-07 Octel Communications Corporation Unified messaging system with automatic language identifacation for text-to-speech conversion

Also Published As

Publication number Publication date
DE60019301D1 (de) 2005-05-12
WO2001006489A1 (en) 2001-01-25
AU4307500A (en) 2001-02-05
EP1204964A1 (en) 2002-05-15
EP1204964B1 (en) 2005-04-06
DE60019301T2 (de) 2006-03-09
CA2379862A1 (en) 2001-01-25

Similar Documents

Publication Publication Date Title
JP2003520983A (ja) 改良されたテキスト−音声変換
US6487533B2 (en) Unified messaging system with automatic language identification for text-to-speech conversion
EP0889626A1 (en) Unified messaging system with automatic language identifacation for text-to-speech conversion
EP0935378B1 (en) System and methods for automatic call and data transfer processing
US8185539B1 (en) Web site or directory search using speech recognition of letters
US6775360B2 (en) Method and system for providing textual content along with voice messages
US6996531B2 (en) Automated database assistance using a telephone for a speech based or text based multimedia communication mode
US6651042B1 (en) System and method for automatic voice message processing
JP4089148B2 (ja) 通訳サービス方法および通訳サービス装置
US5940476A (en) System and method for identifying an unidentified caller
US7937268B2 (en) Facilitating navigation of voice data
EP1014277A1 (en) Communication system and method employing automatic language identification
US20030220784A1 (en) System and method for automated voice message transcription and delivery
EP1343096A2 (en) System and method for message language translation
WO2001069905A1 (en) Speech recognition system and method for converting voice mail messages to electronic mail messages
US20020072910A1 (en) Adjustable speech menu interface
WO2000018100A9 (en) Interactive voice dialog application platform and methods for using the same
US20030081738A1 (en) Method and apparatus for improving access to numerical information in voice messages
US20050131698A1 (en) System, method, and storage medium for generating speech generation commands associated with computer readable information
US6947969B2 (en) System and method for accessing voice messaging system data
KR100277065B1 (ko) 음성인식음성우편시스템에서인식단어변경방법
JP2002304189A (ja) 音声認識利用型文書作成方法、装置、認識辞書作成プログラム、および同プログラムを記録した記録媒体
KR100227525B1 (ko) 통신망을 통한 음성사서함 서비스에 있어서의 음성수첩 서비스 방법 및 그 장치
KR100258140B1 (ko) 음성우편장치의 음성인식 장치 및 방법
JPH10190842A (ja) 音声対話システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060308

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060608

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060908

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070115

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070308

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070406