JP3873131B2

JP3873131B2 - 電話メッセージの転記のために使用される編集システム及び方法

Info

Publication number: JP3873131B2
Application number: JP18737299A
Authority: JP
Inventors: ムクンド・パドマナブハン; マイケル・ピチェニイ; ダヴィド・ナハムー; サリム・ローコス
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-11-03
Filing date: 1999-07-01
Publication date: 2007-01-24
Anticipated expiration: 2019-07-01
Also published as: KR20000034881A; CN1155214C; CN1255011A; US6219638B1; JP2000148182A; KR100329894B1

Description

【０００１】
政府情報：
米国政府は、本発明に関する払い込み済み免許を有し、限られた状況において、特許所有者に、ＤＡＲＰＡ（Defense and Advanced Research Projects Agency）により裁定された合理的な譲渡条件MDA972-97-C-0012にもとづき、他人に免許を与えるように要求する権利を有する。
【０００２】
【発明の属する技術分野】
本発明は音声認識のための編集システムに関し、特に、電話の音声から転記されたメッセージを編集するシステム及び方法に関する。
【０００３】
【従来の技術】
最近のパーソナル通信の進歩により、音声、マルチメディア（図及び音声）、テキスト（電子メール、ページャ）などの情報が、様々なチャネルを介してユーザに伝送されるようになった。これらの進歩により、様々な媒体を介してユーザにより受信されるメッセージが、単一のレポジトリに記憶され、ユーザにより都合がよいときに検索または探索され得るような、統一されたメッセージ処理の概念が生まれた。
【０００４】
更に、ユーザが自身のメッセージを検索するための、非常に限られた能力しか有さないパーソナル・デジタル・アシスタント（ＰＤＡ）を有することが一般的である。しかしながら、一般に、最も単純なＰＤＡは、テキストの受信はサポートするが、マルチメディア信号の受信をサポートしない。従って、音声及びマルチメディア信号をテキストに変換し、これらの信号が容易にアクセスされ得るようにすることが必要である。このことはまた、通信のための帯域幅要求に対しても影響を及ぼす。なぜなら、テキスト信号は音声よりも少ない伝送帯域幅を要求するからである。
【０００５】
ボイスメールは一般に使用されるメッセージ・システムであり、それにより個人の音声が記録され、続いてメッセージの受信者により再生される。従って、統一されたメッセージ処理の重要な要素は、こうしたメッセージをテキストに変換する能力である。これは勿論、自動音声認識アルゴリズムを用いて実行される。しかしながら、ボイスメール・メッセージは通常、未知の電話帯域チャネルを介して記録される任意の音声を表し（すなわち、メッセージを残している呼び出し人が、地球の反対側にいたり、隣人であったりする）、自動音声認識システムにとって、非常に難題である。
【０００６】
結果的に、転記されたテキストが誤りだらけで、メッセージの受信者がメッセージを全く解読できなかったりする。従って、メッセージを残す者が転記の品質をチェックし、必要に応じて訂正できる、特定の形態のフィードバック機構を組み込むことが有利である。
【０００７】
【発明が解決しようとする課題】
従って、音声データをテキストに変換し、転記されたテキストを音声により訂正する機能を組み込んだ対話式システム及び方法が待望される。
【０００８】
【課題を解決するための手段】
音声を受信し、前記音声をテキストに変換するためのメッセージ・システは、ユーザにより入力された音声を受信するための第１のサーバと、前記音声をテキストに変換するための音声認識サーバ（ここで前記音声認識サーバが診断データを訂正機構に提供して、訂正されるべき前記音声入力の一部分を示す）と、ユーザによる訂正のために、前記テキストを合成音声に変換して、前記合成音声を再生するための音声合成器と、及び訂正された音声が通信システムを介する伝送のためにテキストとして提供されるように、前記ユーザが前記合成音声を訂正することを可能にするための訂正機構（ここで前記訂正機構がユーザに、訂正のために前記音声入力の一部分を選択するように指示する）とを含む。
【０００９】
他の実施例では、通信システムを介して伝送されるテキストが、ページャ、電子メール及びファックスの１つに伝送され得る。訂正機構はユーザに、訂正のために音声入力の一部分を選択するように指示し得る。訂正される音声入力部分を示すために、音声認識サーバが診断データを訂正機構に提供して、訂正されるべき前記音声入力の一部分を示し得る。訂正機構はユーザに、訂正のために音声入力部分を再記録するように指示し得る。システムは更に、前記通信システムを介して異なる言語の伝送のために、前記音声入力をテキストに変換するための言語翻訳サーバを含み得る。システムは更に、音声認識サーバによる音声認識のために、ユーザを識別し、かつ音声認識モデルを調整するための話者識別サーバを含み得る。
【００１０】
汎用メッセージ・システムにおいて、メッセージを訂正するための方法は、音声メッセージを記録するステップと、音声認識システムを使用して、前記メッセージをテキストに転記するステップ（ここで前記転記するステップにおいて、前記テキストは、訂正のために、前記音声メッセージの一部分を示すための診断データを含む）と、前記転記されたテキストに従い音声を提供し、訂正のために前記メッセージを再生するステップと、訂正されるべき前記メッセージの部分を識別するステップ（ここで前記識別するステップが、前記再生されたメッセージを聞いて、前記音声メッセージの訂正されるべき一部分を選択するようにユーザに指示するステップを含む）と、前記識別された部分を再記録することによって、前記メッセージを訂正するステップと、及び通信システムを介して、前記訂正されたテキストを出力するステップとを含む。
【００１１】
汎用メッセージ・システムにおいて、メッセージを訂正するための方法を実行するために、マシンによって実行可能な命令プログラムを実現するための、マシンによって読出し可能なプログラム記憶装置は、前記方法が、音声メッセージを記録するステップと、音声認識システムを使用して、前記メッセージをテキストに転記するステップ（ここで前記転記するステップにおいて、前記テキストは、訂正のために、前記音声メッセージの一部分を示すための診断データを含む）と、前記転記されたテキストに従い音声を提供し、訂正のために前記メッセージを再生するステップと、訂正されるべき前記メッセージの部分を識別するステップ（ここで前記識別するステップが、前記再生されたメッセージを聞いて、前記音声メッセージの訂正されるべき一部分を選択するようにユーザに指示するステップを含む）と、前記識別された部分を再記録することによって、前記メッセージを訂正するステップと、及び通信システムを介して、前記訂正されたテキストを出力するステップとを含む。
【００１２】
プログラム記憶装置により実行可能な別の方法では、音声メッセージが好適には電話によって記録される。訂正されるべきメッセージ部分を識別するステップが、音声認識サーバから診断データを提供し、メッセージ部分の正確さの尤度を決定するステップを含み得る。訂正されるメッセージ部分を識別するステップはまた、再生されたメッセージを聞いて、ユーザに前記音声メッセージの訂正されるべき一部分を選択するステップを含み得る。識別された部分を再記録することによって、メッセージを訂正するステップは、メッセージの一部を再記録するステップと、音声認識サーバによって、前記再記録された部分を変換して、テキストを訂正するステップと、訂正されたテキストに従って、再記録された部分の音声を再生するステップと、受け入れ可能であれば、メッセージの再記録された部分を承認するステップとを含む。更に、複数の言語のうちの１つによりメッセージを記録するステップを含み、更に通信システムを介して、複数の言語の１つによりテキストを出力するステップが含まれ得る。また、音声認識モデルに関連付けられたユーザを識別するステップと、及び音声認識モデルを適用して、ユーザの音声入力を認識するステップが含まれ得る。
【００１３】
【発明の実施の形態】
本発明は音声認識のための編集システムに関し、特に、電話の音声から転記されたメッセージを編集するシステム及び方法に関する。
【００１４】
図１及び図２に示される要素は、ハードウェア、ソフトウェアまたはそれらの組み合わせの様々な形態により実現され得る。好適には、これらの要素は、プロセッサ、メモリ及び入出力インタフェースを有する、適切にプログラムされた１つ以上の汎用デジタル・コンピュータ上のソフトウェアにより実現される。添付の図面において、同一の参照番号は同一のまたは類似の要素を表す。最初に一般にシステム１０として示される統一メッセージ・システム及び方法に対応するブロック／フロー図である図１を参照する。メッセージ・サーバ１２は、全てのメッセージを送受信及び記憶する汎用ハブである。メッセージ・サーバ１２はメッセージの検索のために、メッセージを幾つかの形式（電子メール１８、ファックス２０、ボイスメール２２またはページ２４）の１つにより送信するために（幾つかの電話及びパーソナル・デジタル・アシスタント（ＰＤＡ）は、テキスト・メッセージを受信できる）、またはメッセージ・サーバ１２上のユーザ・メッセージを消去したり、応答するなどの操作のために、コンピュータ１４または電話機１６を介してアクセスされ得る。更に、メッセージ・サーバ１２はユーザのために、電子メール１８、ファックス２０またはページ２４を介して、直接メッセージを受信し得る。
【００１５】
ユーザのために電話機１６を介して受信されるメッセージは、メッセージ・サーバ１２上にも記憶され得るが、電話機１６からの入来音声信号とメッセージ・サーバ１２との間に、中間ブリッジとして機能する追加の電話サーバ２６が存在し得る。別の実施例では、電話サーバ２６はメッセージ・サーバ１２内に含まれ得る。電話サーバ２６はまた、システム１０の構成要素間の情報のフローを制御する。
【００１６】
ここで用語"サーバ"は、同一のコンピュータ上、または好適にはネットワークを介してアクセス可能な異なるコンピュータ上で実行される、プログラムまたはコンピュータを指し示すために使用される。
【００１７】
次に、ユーザが電話機１６を用いて、別のユーザのためにメッセージを残すシステム及び方法、並びにこの方法に関連する様々なシステム構成要素の機能について述べることにする。
【００１８】
電話呼び出しが第１のユーザにより発せられ、電話サーバ２６により受信される。電話サーバ２６は第１のユーザに対して、別のユーザのためにメッセージを残すか、第１のユーザのメッセージを検索するか、または第１のユーザのメッセージを操作するかのオプションを与える。こうしたオプションは、電話サーバ２６により提供されるプロンプトを介して、第１のユーザに提供される。
【００１９】
第１のユーザは１つのオプションを選択する権利を与えられ、これは所定のトーンで（オプション１に対して１、オプション２に対して２を押下するなど）、或いは第１のユーザの音声応答を記録し、音声認識サーバ３２により音声をテキストに変換することにより指定される（この音声認識サーバは、L. R. Bahlらによる"Performance of the IBM Large Vocabulary Continuous Speech Recognition System on ARPA Wall Street Journal Task"、Proceedings of the International Acoustics Speech and Signal Processing、1995で述べられるシステムと同様のものでよい）。認識されたテキストは、ユーザが選択したオプションを決定するために使用される。
【００２０】
第１のユーザが別のユーザのためにメッセージを残したい場合、システム１０は第１のユーザに対して、メッセージを音声メッセージとして直接残すか、それともメッセージをテキストに変換するかのオプションを与える。ユーザは、前述のように、所定のトーンまたは音声により指定されるオプションを選択する。
【００２１】
ユーザがページを英数字ページャに送信したい場合、またはメッセージを異なる言語で送信したい場合、音声をテキストに変換することが必要である。
【００２２】
ユーザがこのオプションを指定する場合、電話サーバ２６はプロンプトを発し、ユーザにメッセージを記録するように指示する。一旦メッセージが記録されると（メッセージの終りは、回線上の無音をチェックすることにより、またはユーザがキーを押下することにより決定される）、記録された音声が音声認識サーバ３２に送信される。音声認識サーバ３２は自動音声認識アルゴリズム（例えば転記をフィルタリングする自然言語処理を使用する）を用いて、音声をテキストに転記し、転記されたテキストを訂正されるべき音声入力の部分を示すための診断データ（発声された各単語のために生成された尤度値、発声された各単語に関する信頼度、各単語若しくはサブ単語の期間など）と共に電話サーバ２６に返送する。
【００２３】
電話サーバ２６はテキスト及び診断データを音声合成サーバ３４に転送する。音声合成サーバ３４は合成音声を生成し、この合成音声を電話サーバ２６に返送する。電話サーバ２６は本発明に従い、合成音声を電話回線を介してユーザに再生する（この合成音声は、音声認識サーバ３２により生成された、誤りが多く存在し得る転記に対応する）。
【００２４】
合成音声をユーザに対して再生する１つの目的は、ユーザが受け入れ不能なまたは不正確な領域を訂正することを可能にすることである。電話サーバ２６は次に、ユーザにメッセージを訂正するオプションを提供する。
【００２５】
訂正機構３６に関連付けられる音声の再生は、多数の方法により達成され得る。幾つかの例には、i）電話サーバ２６がメッセージ全体をユーザに再生し、もしそれが受け入れ不能または不正確な場合、ユーザにメッセージを再記録するように指示する、ii）電話サーバ２６が、音声認識サーバ３２から受信される信頼度診断データにより、低信頼度を有する転記領域を決定し、ユーザにその領域だけを訂正するように指示する、iii）電話サーバ２６が、例えば経過時間または音声の休止などの特定の測定にもとづき、転記を複数部分に分解し、各部分をユーザに再生することにより、ユーザに各セグメントを個々に訂正するオプションを与える、などが含まれる。
【００２６】
他の訂正方法も同様に、本発明で使用可能である。
【００２７】
ユーザがメッセージの任意の所望の部分を訂正する訂正機構３６も、異なる方法により達成され得る。幾つかの例には、i）ユーザが電話機１６上のキーを押下することにより、メッセージ（またはメッセージの一部）の受諾または拒絶を示し、セグメントを再記録し、これが前述したように処理される、ii）ユーザが"イエス"または"ＯＫ"を発声するか、無音の状態を維持することにより、メッセージの受諾を示すか、"ノー"と発声することにより拒絶を示す、などが含まれる。この場合、ユーザの応答が記録されて、テキストに転記され、転記されたテキスト（イエス、ＯＫ、無音、またはノー）が、ユーザが選択したオプションを決定する。
【００２８】
ユーザが転記に満足すると、電話サーバ２６は記録された音声と一緒に、テキストをメッセージ・サーバ１２に送信する。また、テキストを後のアクセスのために記憶するための命令、或いはユーザが選択した電子メール１８、ファックス２０またはページ２４により通信ネットワークまたはシステムを介して、テキストを送信するための命令も一緒に送信される。
【００２９】
別の実施例では、ユーザがメッセージを別の言語で送信することを希望する場合、電話サーバ２６がテキストを言語翻訳サーバ３８に送信する。言語翻訳サーバ３８は自動翻訳アルゴリズムを用いて、テキストを異なる言語に変換し、翻訳されたテキストを電話サーバ２６に返送する。電話サーバ２６は、翻訳されたテキストを別の処理のために、メッセージ・サーバ１２に送信する。
【００３０】
一般に、音声の転記において、話者固有モデルまたは話者適応化モデルが使用される場合、音声認識サーバ３２の音声認識性能は改善される。従って、電話サーバ２６は話者識別サーバ４０とも対話し、呼び出し元のユーザの識別を決定するか、或いはユーザが自身の名前を発声するように指示され、話者独立のモデルを有する音声認識サーバ３２により音声を転記し、その転記を用いてユーザの識別を決定する。一旦ユーザの識別が決定されると、音声認識サーバ３２は、特定のユーザまたはユーザのクラスに適合化されたモデルを使用し、ユーザの音声を転記する。
【００３１】
他の実施例では、メッセージ・サーバ１２に記憶されるメッセージが、複数のアカウント、アドレスまたは装置に配送され得る。
【００３２】
例えば、保管された転記済みメッセージが、第１のユーザ・グループのページャに送信され、第２のユーザ・グループに電子メールにより配送され、また第３のユーザにファックスされ得る。システム１０は更に、例えばページ及びファックスなどの異なる媒体を用いて、同一のメッセージを単一のユーザに送信するために使用され得る。
【００３３】
更に、音声合成サーバ３４はテキスト・メッセージを合成し、それを電話またはボイスメール・システムに配送するために使用され得る。更に別の実施例では、各ユーザが、メッセージがそのユーザのために転記されるときに、自動的に更新されるパーソナル・ウェブページ４２を有する。ウェブページ４２は、インターネットなどの通信ネットワークを介してアクセスされる。
【００３４】
図２を参照すると、ユーザがメッセージの記録を指定すると、ブロック１０２で、プロンプトがユーザにメッセージを記録するように指示する。メッセージはブロック１０４で、電話機または他の音響入力装置に発声することにより記録され（メッセージの終りは、好適には回線上の無音をチェックすることにより、またはユーザがキーを押下することにより決定される）、記録された音声が音声認識サーバ３２（図１）に送信される。ブロック１０６で、音声認識サーバ３２が自動音声認識アルゴリズム（例えば転記をフィルタリングする自然言語処理を使用する）を用いて、音声をテキストに転記し、転記されたテキストを特定の診断（発声された各単語に対して生成される尤度値、発声された各単語に関する信頼度、各単語若しくはサブ単語の期間など）と共に、電話サーバ２６に返送する。
【００３５】
ブロック１０８では、電話サーバ２６はテキスト及び診断を音声合成サーバ３４に転送し、音声合成サーバ３４は合成音声を生成し、この合成音声を電話サーバ２６に返送する。電話サーバ２６は本発明に従い、この合成音声を電話回線を介して、ユーザに再生する（この合成音声は、音声認識サーバ３２により生成された、誤りが多く存在し得る転記に対応する）。
【００３６】
ブロック１１０で、ユーザはメッセージ内の受け入れ不能なまたは不正確な領域を訂正する。訂正のための合成音声の再生は、多数の方法により達成され得る。幾つかの例には、i）メッセージ全体がユーザに再生され、もしそれが受け入れ不能または不正確な場合、ユーザにメッセージを再記録するように指示する、ii）音声認識サーバ３２から受信される信頼度診断により、低信頼度を有する転記領域を決定し、ユーザにその領域だけを訂正するように指示する、iii）例えば経過時間または音声の休止などの特定の測定にもとづき、転記を複数部分に分解し、各部分をユーザに再生することにより、ユーザに各セグメントを個々に訂正するオプションを与える、などが含まれる。他の訂正方法も同様に、本発明で使用可能である。メッセージの一部分が個々に訂正され得る。幾つかの例には、i）ユーザが電話機１６上のキーを押下することにより、メッセージ（またはメッセージの一部）の受諾または拒絶を示し、セグメントを再記録し、これが前述したように処理される、ii）ユーザが"イエス"または"ＯＫ"を発声するか、無音の状態を維持することにより、メッセージの受諾を示すか、"ノー"と発声することにより拒絶を示す、などが含まれる。この場合、ユーザの応答が記録されて、テキストに転記され、転記されたテキスト（イエス、ＯＫ、無音、またはノー）が、ユーザが選択したオプションを決定する。
【００３７】
ブロック１１２では、ユーザが転記に満足すると、電話サーバ２６は記録された音声と一緒に、テキストをメッセージ・サーバ１２に送信する。また、テキストを後のアクセスのために記憶するための命令、或いはテキストをユーザにより選択された電子メール１８、ファックス２０またはページ２４を介して、送信するための命令も一緒に送信される。メッセージはまた、ユーザにより異なる言語で電話システムなどの通信ネットワークを介して伝送されることが希望される場合、その言語に変換され得る。更に、ユーザはメッセージが記録される言語を指定し得る。これは前述の話者識別プロセスの一部である。
【００３８】
以上、電話メッセージの転記のために使用される編集システム及び方法の好適な実施例について述べてきたが、当業者であれば前述の教示を鑑み、様々な変更及び変形が可能であろう。従って、これらの変更及び変形についても、本発明の範囲及び趣旨内に含まれるものである。
まとめとして、本発明の構成に関して以下の事項を開示する。
（１）音声を受信し、前記音声をテキストに変換するためのメッセージ・システムであって、
ユーザにより入力された音声を受信するための第１のサーバと、
前記音声をテキストに変換するための音声認識サーバと、前記音声認識サーバが各単語の期間を含む診断データを訂正機構に提供して、訂正されるべき前記音声入力の一部分を示す、
ユーザによる訂正のために、訂正機構によって分解されたテキストを合成音声に変換して、前記合成音声を再生するための音声合成器と、及び
訂正された音声が通信システムを介する伝送のためにテキストとして提供されるように、前記ユーザが前記合成音声を訂正することを可能にするための訂正機構と、ここで前記訂正機構が、経過時間または音声の休止に基づき前記変換されたテキストを複数に分解して、ユーザに訂正のために前記変換された合成音声の一部分を選択するように指示する、
を含む、前記システム。
（２）前記通信システムを介して伝送される前記テキストが、テキスト読取り装置に伝送されることを含む、（１）に記載のシステム。
（３）前記診断データが、発声された各単語のために生成された尤度値、発声された各単語に関する信頼度のいずれかを含む、（１）又は（２）のいずれかに記載のシステム。
（４）前記訂正機構がユーザに、訂正のために前記音声入力の前記一部分を再記録するように指示する、（１）乃至（３）のいずれか一に記載のシステム。
（５）前記通信システムを介して異なる言語の伝送のために、前記音声入力をテキストに変換するための言語翻訳サーバを更に含む、（１）乃至（４）のいずれか一に記載のシステム。
（６）前記音声認識サーバによる音声認識のために、ユーザを認識し、かつ音声認識モデルを調整するための話者識別サーバを更に含む、（１）乃至（５）のいずれか一に記載のシステム。
（７）汎用メッセージ・システムにおいて、メッセージを訂正するための方法であって、
音声メッセージを記録するステップと、
音声認識システムを使用して、前記メッセージをテキストに転記するステップと、
経過時間または音声の休止に基づき、前記転記されたテキストを複数に分解するステップと、
前記分解されたテキストに従い音声を提供し、訂正のために前記メッセージを再生するステップと、
訂正されるべき前記メッセージの部分を識別するステップと、ここで前記識別するステップが、前記再生されたメッセージを聞いて、ユーザに前記音声メッセージの訂正されるべき一部分を選択するように指示するステップを含む、
前記識別された部分を再記録することによって、前記メッセージを訂正するステップと、及び
通信システムを介して、前記訂正されたテキストを出力するステップと、
を含む、前記方法。
（８）前記音声メッセージが電話によって記録される、（７）に記載の方法。
（９）前記診断データが、発声された各単語のために生成された尤度値、発声された各単語に関する信頼度のいずれかを含む、（７）又は（８）のいずれかに記載の方法。
（１０）前記識別された部分を再記録することによって、前記メッセージを訂正するステップが、
前記メッセージの一部を再記録するステップと、
音声認識サーバによって、前記再記録された部分を変換して、前記テキストを訂正するステップと、
前記訂正された前記テキストに従って、前記再記録された部分の音声を再生するステップと、及び
受け入れ可能であれば、前記メッセージの前記再記録された部分を承認するステップと、
を含む、（７乃至９のいずれか一に記載の方法。
（１１）複数の言語の１つにより前記メッセージを記録するステップを更に含む、（７）乃至（１０）のいずれか一に記載の方法。
（１２）前記通信システムを介して、複数の言語の１つにより前記テキストを出力するステップを更に含む、（７）乃至（１１）のいずれか一に記載の方法。
（１３）音声認識モデルに関連付けられたユーザを識別するステップと、及び
前記音声認識モデルを適用して、前記ユーザの前記音声入力を認識するステップと、
を更に含む、（７）乃至（１２）のいずれか一に記載の方法。
（１４）汎用メッセージ・システムにおいて、メッセージを訂正するための方法を実行するために、マシンによって実行可能な命令プログラムを実現するための、マシンによって読出し可能なプログラム記憶装置において、
前記方法が、
音声メッセージを記録するステップと、
音声認識システムを使用して、前記メッセージをテキストに転記するステップと、
経過時間または音声の休止に基づき、前記転記されたテキストを複数に分解するステップと、
前記分解されたテキストに従い音声を提供し、訂正のために前記メッセージを再生するステップと、
訂正されるべき前記メッセージの部分を識別するステップと、ここで前記識別するステップが、前記再生されたメッセージを聞いて、ユーザに前記音声メッセージの訂正されるべき一部分を選択するように指示するステップを含む、
前記識別された部分を再記録することによって、前記メッセージを訂正するステップと、及び
通信システムを介して、前記訂正されたテキストを出力するステップと、
を含む、前記プログラム記憶装置。
（１５）前記音声メッセージが電話によって記録される、（１４）に記載のプログラム記憶装置。
（１６）前記診断データが、発声された各単語のために生成された尤度値、発声された各単語に関する信頼度のいずれかを含む、（１４）又は（１５）のいずれかに記載のプログラム記憶装置。
（１７）前記識別された部分を再記録することによって、前記メッセージを訂正するステップが、
前記メッセージの一部を再記録するステップと、
音声認識サーバによって、前記再記録された部分を変換して、前記テキストを訂正するステップと、
前記訂正された前記テキストに従って、前記再記録された部分の音声を再生するステップと、及び
受け入れ可能であれば、前記メッセージの前記再記録された部分を承認するステップと、
を含む、（１４）乃至（１６）のいずれか一に記載のプログラム記憶装置。
（１８）複数の言語の１つにより前記メッセージを記録するステップを更に含む、（１４）乃至（１７）のいずれか一に記載のプログラム記憶装置。
（１９）前記通信システムを介して、複数の言語の１つにより前記テキストを出力するステップを更に含む、（１４）乃至（１８）のいずれか一に記載のプログラム記憶装置。
（２０）音声認識モデルに関連付けられたユーザを識別するステップと、及び
前記音声認識モデルを適用して、前記ユーザの前記音声入力を認識するステップと、
を更に含む、（１４）乃至（１９）のいずれか一に記載のプログラム記憶装置。
【図面の簡単な説明】
【図１】本発明に従う訂正機構を有する汎用メッセージ・システムのブロック／フロー図である。
【図２】本発明に従うメッセージ訂正のフロー図である。
【符号の説明】
１０システム
１２メッセージ・サーバ
１４コンピュータ
１６電話機
１８電子メール
２０ファックス
２２ボイスメール
２４ページ
２６電話サーバ
３２音声認識サーバ
３４音声合成サーバ
３６訂正機構
３８言語翻訳サーバ
４０話者識別サーバ
４２パーソナル・ウェブページ

Claims

音声を受信し、前記音声をテキストに変換するためのメッセージ・システムであって、
ユーザにより入力された音声を受信するための第１のサーバと、
前記音声をテキストに変換するための音声認識サーバと、前記音声認識サーバが各単語の期間を含む診断データを訂正機構に提供して、訂正されるべき前記音声入力の一部分を示す、
ユーザによる訂正のために、訂正機構によって分解されたテキストを合成音声に変換して、前記合成音声を再生するための音声合成器と、及び
訂正された音声が通信システムを介する伝送のためにテキストとして提供されるように、前記ユーザが前記合成音声を訂正することを可能にするための訂正機構と、ここで前記訂正機構が、経過時間または音声の休止に基づき前記変換されたテキストを複数に分解して、ユーザに訂正のために前記変換された合成音声の一部分を選択するように指示する、
を含む、前記システム。
前記通信システムを介して伝送される前記テキストが、テキスト読取り装置に伝送されることを含む、請求項１に記載のシステム。
前記診断データが、発声された各単語のために生成された尤度値、発声された各単語に関する信頼度のいずれかを含む、請求項１又は２のいずれかに記載のシステム。
前記訂正機構がユーザに、訂正のために前記音声入力の前記一部分を再記録するように指示する、請求項１乃至３のいずれか一に記載のシステム。
前記通信システムを介して異なる言語の伝送のために、前記音声入力をテキストに変換するための言語翻訳サーバを更に含む、請求項１乃至４のいずれか一に記載のシステム。
前記音声認識サーバによる音声認識のために、ユーザを認識し、かつ音声認識モデルを調整するための話者識別サーバを更に含む、請求項１乃至５のいずれか一に記載のシステム。
汎用メッセージ・システムにおいて、メッセージを訂正するための方法であって、
音声メッセージを記録するステップと、
音声認識システムを使用して、前記メッセージをテキストに転記するステップと、
経過時間または音声の休止に基づき、前記転記されたテキストを複数に分解するステップと、
前記分解されたテキストに従い音声を提供し、訂正のために前記メッセージを再生するステップと、
訂正されるべき前記メッセージの部分を識別するステップと、ここで前記識別するステップが、前記再生されたメッセージを聞いて、ユーザに前記音声メッセージの訂正されるべき一部分を選択するように指示するステップを含む、
前記識別された部分を再記録することによって、前記メッセージを訂正するステップと、及び
通信システムを介して、前記訂正されたテキストを出力するステップと、
を含む、前記方法。
前記音声メッセージが電話によって記録される、請求項７に記載の方法。
前記診断データが、発声された各単語のために生成された尤度値、発声された各単語に関する信頼度のいずれかを含む、請求項７又は８のいずれかに記載の方法。
前記識別された部分を再記録することによって、前記メッセージを訂正するステップが、
前記メッセージの一部を再記録するステップと、
音声認識サーバによって、前記再記録された部分を変換して、前記テキストを訂正するステップと、
前記訂正された前記テキストに従って、前記再記録された部分の音声を再生するステップと、及び
受け入れ可能であれば、前記メッセージの前記再記録された部分を承認するステップと、
を含む、請求項７乃至９のいずれか一に記載の方法。
複数の言語の１つにより前記メッセージを記録するステップを更に含む、請求項７乃至１０のいずれか一に記載の方法。
前記通信システムを介して、複数の言語の１つにより前記テキストを出力するステップを更に含む、請求項７乃至１１のいずれか一に記載の方法。
音声認識モデルに関連付けられたユーザを識別するステップと、及び
前記音声認識モデルを適用して、前記ユーザの前記音声入力を認識するステップと、
を更に含む、請求項７乃至１２のいずれか一に記載の方法。
汎用メッセージ・システムにおいて、メッセージを訂正するための方法を実行するために、マシンによって実行可能な命令プログラムを実現するための、マシンによって読出し可能なプログラム記憶装置において、
前記方法が、
音声メッセージを記録するステップと、
音声認識システムを使用して、前記メッセージをテキストに転記するステップと、
経過時間または音声の休止に基づき、前記転記されたテキストを複数に分解するステップと、
前記分解されたテキストに従い音声を提供し、訂正のために前記メッセージを再生するステップと、
訂正されるべき前記メッセージの部分を識別するステップと、ここで前記識別するステップが、前記再生されたメッセージを聞いて、ユーザに前記音声メッセージの訂正されるべき一部分を選択するように指示するステップを含む、
前記識別された部分を再記録することによって、前記メッセージを訂正するステップと、及び
通信システムを介して、前記訂正されたテキストを出力するステップと、
を含む、前記プログラム記憶装置。
前記音声メッセージが電話によって記録される、請求項１４に記載のプログラム記憶装置。
前記診断データが、発声された各単語のために生成された尤度値、発声された各単語に関する信頼度のいずれかを含む、請求項１４又は１５のいずれかに記載のプログラム記憶装置。
前記識別された部分を再記録することによって、前記メッセージを訂正するステップが、
前記メッセージの一部を再記録するステップと、
音声認識サーバによって、前記再記録された部分を変換して、前記テキストを訂正するステップと、
前記訂正された前記テキストに従って、前記再記録された部分の音声を再生するステップと、及び
受け入れ可能であれば、前記メッセージの前記再記録された部分を承認するステップと、
を含む、請求項１４乃至１６のいずれか一に記載のプログラム記憶装置。
複数の言語の１つにより前記メッセージを記録するステップを更に含む、請求項１４乃至１７のいずれか一に記載のプログラム記憶装置。
前記通信システムを介して、複数の言語の１つにより前記テキストを出力するステップを更に含む、請求項１４乃至１８のいずれか一に記載のプログラム記憶装置。
音声認識モデルに関連付けられたユーザを識別するステップと、及び
前記音声認識モデルを適用して、前記ユーザの前記音声入力を認識するステップと、
を更に含む、請求項１４乃至１９のいずれか一に記載のプログラム記憶装置。