JP2000148182A

JP2000148182A - 電話メッセ―ジの転記のために使用される編集システム及び方法

Info

Publication number: JP2000148182A
Application number: JP11187372A
Authority: JP
Inventors: Padomanabuhan Mukundo; ムクンド・パドマナブハン; Picheny Michael; マイケル・ピチェニイ; Nahamuu David; ダヴィド・ナハムー; Rookosu Salim; サリム・ローコス
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-11-03
Filing date: 1999-07-01
Publication date: 2000-05-26
Anticipated expiration: 2019-07-01
Also published as: KR20000034881A; CN1155214C; CN1255011A; US6219638B1; JP3873131B2; KR100329894B1

Abstract

(57)【要約】【課題】音声データをテキストに変換し、転記された
テキストを音声により訂正する機能を組み込んだ対話式
システム及び方法を提供すること。【解決手段】電話機を介して音声を受信し、音声をテ
キストに変換するメッセージ・システムが、ユーザによ
り入力された音声を受信する第１のサーバと、音声をテ
キストに変換する音声認識システムと、テキストを音声
に変換し、ユーザによる訂正のために合成音声を再生す
る音声合成器と、ユーザに合成音声を訂正させ、訂正さ
れた音声を通信システムを介してテキストとして伝送す
る訂正機構とを含む。本発明に従う方法も開示される。

Description

【発明の詳細な説明】

【０００１】政府情報：米国政府は、本発明に関する払
い込み済み免許を有し、限られた状況において、特許所
有者に、ＤＡＲＰＡ（Defense and Advanced Research
Projects Agency）により裁定された合理的な譲渡条件M
DA972-97-C-0012にもとづき、他人に免許を与えるよう
に要求する権利を有する。

【０００２】

【発明の属する技術分野】本発明は音声認識のための編
集システムに関し、特に、電話の音声から転記されたメ
ッセージを編集するシステム及び方法に関する。

【０００３】

【従来の技術】最近のパーソナル通信の進歩により、音
声、マルチメディア（図及び音声）、テキスト（電子メ
ール、ページャ）などの情報が、様々なチャネルを介し
てユーザに伝送されるようになった。これらの進歩によ
り、様々な媒体を介してユーザにより受信されるメッセ
ージが、単一のレポジトリに記憶され、ユーザにより都
合がよいときに検索または探索され得るような、統一さ
れたメッセージ処理の概念が生まれた。

【０００４】更に、ユーザが自身のメッセージを検索す
るための、非常に限られた能力しか有さないパーソナル
・デジタル・アシスタント（ＰＤＡ）を有することが一
般的である。しかしながら、一般に、最も単純なＰＤＡ
は、テキストの受信はサポートするが、マルチメディア
信号の受信をサポートしない。従って、音声及びマルチ
メディア信号をテキストに変換し、これらの信号が容易
にアクセスされ得るようにすることが必要である。この
ことはまた、通信のための帯域幅要求に対しても影響を
及ぼす。なぜなら、テキスト信号は音声よりも少ない伝
送帯域幅を要求するからである。

【０００５】ボイスメールは一般に使用されるメッセー
ジ・システムであり、それにより個人の音声が記録さ
れ、続いてメッセージの受信者により再生される。従っ
て、統一されたメッセージ処理の重要な要素は、こうし
たメッセージをテキストに変換する能力である。これは
勿論、自動音声認識アルゴリズムを用いて実行される。
しかしながら、ボイスメール・メッセージは通常、未知
の電話帯域チャネルを介して記録される任意の音声を表
し（すなわち、メッセージを残している呼び出し人が、
地球の反対側にいたり、隣人であったりする）、自動音
声認識システムにとって、非常に難題である。

【０００６】結果的に、転記されたテキストが誤りだら
けで、メッセージの受信者がメッセージを全く解読でき
なかったりする。従って、メッセージを残す者が転記の
品質をチェックし、必要に応じて訂正できる、特定の形
態のフィードバック機構を組み込むことが有利である。

【０００７】

【発明が解決しようとする課題】従って、音声データを
テキストに変換し、転記されたテキストを音声により訂
正する機能を組み込んだ対話式システム及び方法が待望
される。

【０００８】

【課題を解決するための手段】音声を受信し、音声をテ
キストに変換する本発明によるメッセージ・システム
は、ユーザにより入力された音声を受信する第１のサー
バと、音声をテキストに変換する音声認識システムと、
テキストを音声に変換し、ユーザによる訂正のために合
成音声を再生する音声合成器と、ユーザに合成音声を訂
正させ、訂正された音声を通信システムを介してテキス
トとして伝送する訂正機構とを含む。

【０００９】他の実施例では、通信システムを介して伝
送されるテキストが、ページャ、電子メール及びファッ
クスの１つに伝送され得る。訂正機構はユーザに、訂正
される音声入力部分を選択するように指示し得る。訂正
される音声入力部分を示すために、音声認識サーバが診
断データを訂正機構に提供し得る。訂正機構はユーザ
に、訂正される音声入力部分を再記録するように指示し
得る。システムは更に、通信システムを介する異なる言
語での伝送のために、音声をテキストに変換する言語翻
訳サーバを含み得る。システムは更に、音声認識サーバ
による音声認識のために、ユーザを識別し、音声認識モ
デルを調整する話者識別サーバを含み得る。

【００１０】汎用メッセージ・システムにおいて、メッ
セージを訂正する方法は、音声メッセージを記録するス
テップと、音声認識システムにより、メッセージをテキ
ストに転記するステップと、転記されたテキストに従い
音声を提供し、メッセージを訂正のために再生するステ
ップと、訂正されるメッセージ部分を識別するステップ
と、識別された部分を再記録することにより、メッセー
ジを訂正するステップと、通信システムを介してテキス
トを出力するステップとを含む。

【００１１】汎用メッセージ・システムにおいて、メッ
セージを訂正する方法を実行するための、マシンにより
実行可能な命令プログラムを実現する、マシンにより読
出し可能なプログラム記憶装置において、前記方法が、
音声メッセージを記録するステップと、音声認識システ
ムにより、メッセージをテキストに転記するステップ
と、転記されたテキストに従い音声を提供し、メッセー
ジを訂正のために再生するステップと、訂正されるメッ
セージ部分を識別するステップと、識別された部分を再
記録することにより、メッセージを訂正するステップ
と、通信システムを介してテキストを出力するステップ
とを含む。

【００１２】プログラム記憶装置により実行可能な別の
方法では、音声メッセージが好適には電話により記録さ
れる。訂正されるメッセージ部分を識別するステップ
が、音声認識サーバから診断データを提供し、メッセー
ジ部分の正確さの尤度を決定するステップを含み得る。
訂正されるメッセージ部分を識別するステップはまた、
再生メッセージを聞き、訂正部分を選択するステップを
含み得る。識別された部分を再記録することにより、メ
ッセージを訂正するステップは、メッセージの一部を再
記録するステップと、音声認識サーバにより再記録部分
を変換し、テキストを訂正するステップと、訂正された
テキストに従い、再記録部分の音声を再生するステップ
と、受け入れ可能であれば、メッセージのその部分を承
認するステップとを含む。更に、複数の言語のうちの１
つによりメッセージを記録するステップ、及び通信シス
テムを介して、複数の言語のうちの１つによりテキスト
を出力するステップが含まれ得る。また、音声認識モデ
ルに関連付けられるユーザを識別するステップ、及び音
声認識モデルを適用し、ユーザの音声入力を認識するス
テップが含まれ得る。

【００１３】

【発明の実施の形態】本発明は音声認識のための編集シ
ステムに関し、特に、電話の音声から転記されたメッセ
ージを編集するシステム及び方法に関する。

【００１４】図１及び図２に示される要素は、ハードウ
ェア、ソフトウェアまたはそれらの組み合わせの様々な
形態により実現され得る。好適には、これらの要素は、
プロセッサ、メモリ及び入出力インタフェースを有す
る、適切にプログラムされた１つ以上の汎用デジタル・
コンピュータ上のソフトウェアにより実現される。添付
の図面において、同一の参照番号は同一のまたは類似の
要素を表す。最初に一般にシステム１０として示される
統一メッセージ・システム及び方法に対応するブロック
／フロー図である図１を参照する。メッセージ・サーバ
１２は、全てのメッセージを送受信及び記憶する汎用ハ
ブである。メッセージ・サーバ１２はメッセージの検索
のために、メッセージを幾つかの形式（電子メール１
８、ファックス２０、ボイスメール２２またはページ２
４）の１つにより送信するために（幾つかの電話及びパ
ーソナル・デジタル・アシスタント（ＰＤＡ）は、テキ
スト・メッセージを受信できる）、またはメッセージ・
サーバ１２上のユーザ・メッセージを消去したり、応答
するなどの操作のために、コンピュータ１４または電話
機１６を介してアクセスされ得る。更に、メッセージ・
サーバ１２はユーザのために、電子メール１８、ファッ
クス２０またはページ２４を介して、直接メッセージを
受信し得る。

【００１５】ユーザのために電話機１６を介して受信さ
れるメッセージは、メッセージ・サーバ１２上にも記憶
され得るが、電話機１６からの入来音声信号とメッセー
ジ・サーバ１２との間に、中間ブリッジとして機能する
追加の電話サーバ２６が存在し得る。別の実施例では、
電話サーバ２６はメッセージ・サーバ１２内に含まれ得
る。電話サーバ２６はまた、システム１０の構成要素間
の情報のフローを制御する。

【００１６】ここで用語"サーバ"は、同一のコンピュー
タ上、または好適にはネットワークを介してアクセス可
能な異なるコンピュータ上で実行される、プログラムま
たはコンピュータを指し示すために使用される。

【００１７】次に、ユーザが電話機１６を用いて、別の
ユーザのためにメッセージを残すシステム及び方法、並
びにこの方法に関連する様々なシステム構成要素の機能
について述べることにする。

【００１８】電話呼び出しが第１のユーザにより発せら
れ、電話サーバ２６により受信される。電話サーバ２６
は第１のユーザに対して、別のユーザのためにメッセー
ジを残すか、第１のユーザのメッセージを検索するか、
または第１のユーザのメッセージを操作するかのオプシ
ョンを与える。こうしたオプションは、電話サーバ２６
により提供されるプロンプトを介して、第１のユーザに
提供される。

【００１９】第１のユーザは１つのオプションを選択す
る権利を与えられ、これは所定のトーンで（オプション
１に対して１、オプション２に対して２を押下するな
ど）、或いは第１のユーザの音声応答を記録し、音声認
識サーバ３２により音声をテキストに変換することによ
り指定される（この音声認識サーバは、L. R. Bahlらに
よる"Performance of the IBM Large Vocabulary Conti
nuous Speech Recognition System on ARPA Wall Stree
t Journal Task"、Proceedings of the International
Acoustics Speech and Signal Processing、1995で述べ
られるシステムと同様のものでよい）。認識されたテキ
ストは、ユーザが選択したオプションを決定するために
使用される。

【００２０】第１のユーザが別のユーザのためにメッセ
ージを残したい場合、システム１０は第１のユーザに対
して、メッセージを音声メッセージとして直接残すか、
それともメッセージをテキストに変換するかのオプショ
ンを与える。ユーザは、前述のように、所定のトーンま
たは音声により指定されるオプションを選択する。

【００２１】ユーザがページを英数字ページャに送信し
たい場合、またはメッセージを異なる言語で送信したい
場合、音声をテキストに変換することが必要である。

【００２２】ユーザがこのオプションを指定する場合、
電話サーバ２６はプロンプトを発し、ユーザにメッセー
ジを記録するように指示する。一旦メッセージが記録さ
れると（メッセージの終りは、回線上の無音をチェック
することにより、またはユーザがキーを押下することに
より決定される）、記録された音声が音声認識サーバ３
２に送信される。音声認識サーバ３２は自動音声認識ア
ルゴリズム（例えば転記をフィルタリングする自然言語
処理を使用する）を用いて、音声をテキストに転記し、
転記されたテキストを特定の診断（発声された各単語に
対して生成される尤度値、発声された各単語に関する信
頼度、各単語若しくはサブ単語の期間など）と共に電話
サーバ２６に返送する。

【００２３】電話サーバ２６はテキスト及び診断を音声
合成サーバ３４に転送する。音声合成サーバ３４は合成
音声を生成し、この合成音声を電話サーバ２６に返送す
る。電話サーバ２６は本発明に従い、合成音声を電話回
線を介してユーザに再生する（この合成音声は、音声認
識サーバ３２により生成された、誤りが多く存在し得る
転記に対応する）。

【００２４】合成音声をユーザに対して再生する１つの
目的は、ユーザが受け入れ不能なまたは不正確な領域を
訂正することを可能にすることである。電話サーバ２６
は次に、ユーザにメッセージを訂正するオプションを提
供する。

【００２５】訂正機構３６に関連付けられる音声の再生
は、多数の方法により達成され得る。幾つかの例には、
i）電話サーバ２６がメッセージ全体をユーザに再生
し、もしそれが受け入れ不能または不正確な場合、ユー
ザにメッセージを再記録するように指示する、ii）電話
サーバ２６が、音声認識サーバ３２から受信される信頼
度診断により、低信頼度を有する転記領域を決定し、ユ
ーザにその領域だけを訂正するように指示する、iii）
電話サーバ２６が、例えば経過時間または音声の休止な
どの特定の測定にもとづき、転記を複数部分に分解し、
各部分をユーザに再生することにより、ユーザに各セグ
メントを個々に訂正するオプションを与える、などが含
まれる。

【００２６】他の訂正方法も同様に、本発明で使用可能
である。

【００２７】ユーザがメッセージの任意の所望の部分を
訂正する訂正機構３６も、異なる方法により達成され得
る。幾つかの例には、i）ユーザが電話機１６上のキー
を押下することにより、メッセージ（またはメッセージ
の一部）の受諾または拒絶を示し、セグメントを再記録
し、これが前述したように処理される、ii）ユーザが"
イエス"または"ＯＫ"を発声するか、無音の状態を維持
することにより、メッセージの受諾を示すか、"ノー"と
発声することにより拒絶を示す、などが含まれる。この
場合、ユーザの応答が記録されて、テキストに転記さ
れ、転記されたテキスト（イエス、ＯＫ、無音、または
ノー）が、ユーザが選択したオプションを決定する。

【００２８】ユーザが転記に満足すると、電話サーバ２
６は記録された音声と一緒に、テキストをメッセージ・
サーバ１２に送信する。また、テキストを後のアクセス
のために記憶するための命令、或いはユーザが選択した
電子メール１８、ファックス２０またはページ２４によ
り通信ネットワークまたはシステムを介して、テキスト
を送信するための命令も一緒に送信される。

【００２９】別の実施例では、ユーザがメッセージを別
の言語で送信することを希望する場合、電話サーバ２６
がテキストを言語翻訳サーバ３８に送信する。言語翻訳
サーバ３８は自動翻訳アルゴリズムを用いて、テキスト
を異なる言語に変換し、翻訳されたテキストを電話サー
バ２６に返送する。電話サーバ２６は、翻訳されたテキ
ストを別の処理のために、メッセージ・サーバ１２に送
信する。

【００３０】一般に、音声の転記において、話者固有モ
デルまたは話者適応化モデルが使用される場合、音声認
識サーバ３２の音声認識性能は改善される。従って、電
話サーバ２６は話者識別サーバ４０とも対話し、呼び出
し元のユーザの識別を決定するか、或いはユーザが自身
の名前を発声するように指示され、話者独立のモデルを
有する音声認識サーバ３２により音声を転記し、その転
記を用いてユーザの識別を決定する。一旦ユーザの識別
が決定されると、音声認識サーバ３２は、特定のユーザ
またはユーザのクラスに適合化されたモデルを使用し、
ユーザの音声を転記する。

【００３１】他の実施例では、メッセージ・サーバ１２
に記憶されるメッセージが、複数のアカウント、アドレ
スまたは装置に配送され得る。

【００３２】例えば、保管された転記済みメッセージ
が、第１のユーザ・グループのページャに送信され、第
２のユーザ・グループに電子メールにより配送され、ま
た第３のユーザにファックスされ得る。システム１０は
更に、例えばページ及びファックスなどの異なる媒体を
用いて、同一のメッセージを単一のユーザに送信するた
めに使用され得る。

【００３３】更に、音声合成サーバ３４はテキスト・メ
ッセージを合成し、それを電話またはボイスメール・シ
ステムに配送するために使用され得る。更に別の実施例
では、各ユーザが、メッセージがそのユーザのために転
記されるときに、自動的に更新されるパーソナル・ウェ
ブページ４２を有する。ウェブページ４２は、インター
ネットなどの通信ネットワークを介してアクセスされ
る。

【００３４】図２を参照すると、ユーザがメッセージの
記録を指定すると、ブロック１０２で、プロンプトがユ
ーザにメッセージを記録するように指示する。メッセー
ジはブロック１０４で、電話機または他の音響入力装置
に発声することにより記録され（メッセージの終りは、
好適には回線上の無音をチェックすることにより、また
はユーザがキーを押下することにより決定される）、記
録された音声が音声認識サーバ３２（図１）に送信され
る。ブロック１０６で、音声認識サーバ３２が自動音声
認識アルゴリズム（例えば転記をフィルタリングする自
然言語処理を使用する）を用いて、音声をテキストに転
記し、転記されたテキストを特定の診断（発声された各
単語に対して生成される尤度値、発声された各単語に関
する信頼度、各単語若しくはサブ単語の期間など）と共
に、電話サーバ２６に返送する。

【００３５】ブロック１０８では、電話サーバ２６はテ
キスト及び診断を音声合成サーバ３４に転送し、音声合
成サーバ３４は合成音声を生成し、この合成音声を電話
サーバ２６に返送する。電話サーバ２６は本発明に従
い、この合成音声を電話回線を介して、ユーザに再生す
る（この合成音声は、音声認識サーバ３２により生成さ
れた、誤りが多く存在し得る転記に対応する）。

【００３６】ブロック１１０で、ユーザはメッセージ内
の受け入れ不能なまたは不正確な領域を訂正する。訂正
のための合成音声の再生は、多数の方法により達成され
得る。幾つかの例には、i）メッセージ全体がユーザに
再生され、もしそれが受け入れ不能または不正確な場
合、ユーザにメッセージを再記録するように指示する、
ii）音声認識サーバ３２から受信される信頼度診断によ
り、低信頼度を有する転記領域を決定し、ユーザにその
領域だけを訂正するように指示する、iii）例えば経過
時間または音声の休止などの特定の測定にもとづき、転
記を複数部分に分解し、各部分をユーザに再生すること
により、ユーザに各セグメントを個々に訂正するオプシ
ョンを与える、などが含まれる。他の訂正方法も同様
に、本発明で使用可能である。メッセージの一部分が個
々に訂正され得る。幾つかの例には、i）ユーザが電話
機１６上のキーを押下することにより、メッセージ（ま
たはメッセージの一部）の受諾または拒絶を示し、セグ
メントを再記録し、これが前述したように処理される、
ii）ユーザが"イエス"または"ＯＫ"を発声するか、無音
の状態を維持することにより、メッセージの受諾を示す
か、"ノー"と発声することにより拒絶を示す、などが含
まれる。この場合、ユーザの応答が記録されて、テキス
トに転記され、転記されたテキスト（イエス、ＯＫ、無
音、またはノー）が、ユーザが選択したオプションを決
定する。

【００３７】ブロック１１２では、ユーザが転記に満足
すると、電話サーバ２６は記録された音声と一緒に、テ
キストをメッセージ・サーバ１２に送信する。また、テ
キストを後のアクセスのために記憶するための命令、或
いはテキストをユーザにより選択された電子メール１
８、ファックス２０またはページ２４を介して、送信す
るための命令も一緒に送信される。メッセージはまた、
ユーザにより異なる言語で電話システムなどの通信ネッ
トワークを介して伝送されることが希望される場合、そ
の言語に変換され得る。更に、ユーザはメッセージが記
録される言語を指定し得る。これは前述の話者識別プロ
セスの一部である。

【００３８】以上、電話メッセージの転記のために使用
される編集システム及び方法の好適な実施例について述
べてきたが、当業者であれば前述の教示を鑑み、様々な
変更及び変形が可能であろう。従って、これらの変更及
び変形についても、本発明の範囲及び趣旨内に含まれる
ものである。

【図面の簡単な説明】

【図１】本発明に従う訂正機構を有する汎用メッセージ
・システムのブロック／フロー図である。

【図２】本発明に従うメッセージ訂正のフロー図であ
る。

【符号の説明】

１０システム１２メッセージ・サーバ１４コンピュータ１６電話機１８電子メール２０ファックス２２ボイスメール２４ページ２６電話サーバ３２音声認識サーバ３４音声合成サーバ３６訂正機構３８言語翻訳サーバ４０話者識別サーバ４２パーソナル・ウェブページ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 ５６１Ｄ (72)発明者マイケル・ピチェニイアメリカ合衆国ニューヨーク州ホワイト・プレーンズ、ラルフ・アベニュー118 (72)発明者ダヴィド・ナハムーアメリカ合衆国ニューヨーク州ホワイト・プレーンズ、エルムウッド・ロード12 (72)発明者サリム・ローコスアメリカ合衆国ニューヨーク州スカースデイル、ジュニファー・ロード160

Claims

【特許請求の範囲】

【請求項１】音声を受信し、該音声をテキストに変換す
るメッセージ・システムであって、ユーザにより入力された音声を受信する第１のサーバ
と、前記音声をテキストに変換する音声認識システムと、ユーザによる訂正のために前記テキストを合成音声に変
換し、該合成音声を再生する音声合成器と、ユーザに前記合成音声を訂正させ、訂正された音声を通
信システムを介してテキストとして伝送する訂正機構と
を含む、システム。
【請求項２】前記通信システムを介して伝送される前記
テキストが、テキスト読取り装置に伝送される、請求項
１記載のシステム。
【請求項３】前記訂正機構がユーザに、訂正される音声
入力部分を選択するように指示する、請求項１記載のシ
ステム。
【請求項４】音声認識サーバが診断データを前記訂正機
構に提供し、訂正される音声入力部分を示す、請求項１
記載のシステム。
【請求項５】前記訂正機構がユーザに、訂正される音声
入力部分を再記録するように指示する、請求項１記載の
システム。
【請求項６】通信システムを介する異なる言語による伝
送のために、音声入力をテキストに変換する言語翻訳サ
ーバを含む、請求項１記載のシステム。
【請求項７】音声認識サーバによる音声認識のために、
ユーザを識別し、音声認識モデルを調整する話者識別サ
ーバを含む、請求項１記載のシステム。
【請求項８】汎用メッセージ・システムにおいてメッセ
ージを訂正する方法であって、音声メッセージを記録するステップと、音声認識システムにより、前記メッセージをテキストに
転記するステップと、転記された前記テキストに従い音声を提供し、前記メッ
セージを訂正のために再生するステップと、訂正されるメッセージ部分を識別するステップと、識別された部分を再記録することにより、前記メッセー
ジを訂正するステップと、通信システムを介して、前記訂正されたテキストを出力
するステップとを含む、方法。
【請求項９】前記音声メッセージが電話により記録され
る、請求項８記載の方法。
【請求項１０】前記訂正されるメッセージ部分を識別す
るステップが、音声認識サーバから診断データを提供
し、メッセージ部分の正確さの尤度を決定するステップ
を含む、請求項８記載の方法。
【請求項１１】前記訂正されるメッセージ部分を識別す
るステップが、再生メッセージを聞き、訂正される部分
を選択するステップを含む、請求項８記載の方法。
【請求項１２】前記識別された部分を再記録することに
より、前記メッセージを訂正するステップが、前記メッセージの一部を再記録するステップと、音声認識サーバにより前記再記録部分を変換し、前記テ
キストを訂正するステップと、訂正された前記テキストに従い、前記再記録部分の音声
を再生するステップと、受け入れ可能であれば、前記メッセージの前記再記録部
分を承認するステップとを含む、請求項８記載の方法。
【請求項１３】前記メッセージを複数の言語のうちの１
つにより記録するステップを含む、請求項８記載の方
法。
【請求項１４】前記テキストを前記通信システムを介し
て、複数の言語のうちの１つにより出力するステップを
含む、請求項８記載の方法。
【請求項１５】音声認識モデルに関連付けられるユーザ
を識別するステップと、前記モデルを適用し、ユーザの音声入力を認識するステ
ップとを含む、請求項８記載の方法。
【請求項１６】汎用メッセージ・システムにおいて、メ
ッセージを訂正する方法を実行するための、マシンによ
り実行可能な命令プログラムを実現する、マシンにより
読出し可能なプログラム記憶装置であって、前記方法
が、音声メッセージを記録するステップと、音声認識システムにより、前記メッセージをテキストに
転記するステップと、転記された前記テキストに従い音
声を提供し、前記メッセージを訂正のために再生するス
テップと、訂正されるメッセージ部分を識別するステップと、識別された部分を再記録することにより、前記メッセー
ジを訂正するステップと、通信システムを介して、訂正されたテキストを出力する
ステップとを含む、プログラム記憶装置。
【請求項１７】前記音声メッセージが電話により記録さ
れる、請求項１６記載のプログラム記憶装置。
【請求項１８】前記訂正されるメッセージ部分を識別す
るステップが、音声認識サーバから診断データを提供
し、メッセージ部分の正確さの尤度を決定するステップ
を含む、請求項１６記載のプログラム記憶装置。
【請求項１９】前記訂正されるメッセージ部分を識別す
るステップが、再生メッセージを聞き、訂正される部分
を選択するステップを含む、請求項１６記載のプログラ
ム記憶装置。
【請求項２０】前記識別された部分を再記録することに
より、メッセージを訂正するステップが、前記メッセージの一部を再記録するステップと、音声認識サーバにより前記再記録部分を変換し、前記テ
キストを訂正するステップと、訂正された前記テキストに従い、前記再記録部分の音声
を再生するステップと、受け入れ可能であれば、前記メッセージの前記再記録部
分を承認するステップとを含む、請求項１６記載のプロ
グラム記憶装置。
【請求項２１】前記メッセージを複数の言語のうちの１
つにより記録するステップを含む、請求項１６記載のプ
ログラム記憶装置。
【請求項２２】前記テキストを前記通信システムを介し
て、複数の言語のうちの１つにより出力するステップを
含む、請求項１６記載のプログラム記憶装置。
【請求項２３】音声認識モデルに関連付けられるユーザ
を識別するステップと、前記モデルを適用し、ユーザの音声入力を認識するステ
ップとを含む、請求項１６記載のプログラム記憶装置。