JP2002032213A - ボイス・メール・メッセージを転記する方法およびシステム - Google Patents

ボイス・メール・メッセージを転記する方法およびシステム

Info

Publication number
JP2002032213A
JP2002032213A JP2001156784A JP2001156784A JP2002032213A JP 2002032213 A JP2002032213 A JP 2002032213A JP 2001156784 A JP2001156784 A JP 2001156784A JP 2001156784 A JP2001156784 A JP 2001156784A JP 2002032213 A JP2002032213 A JP 2002032213A
Authority
JP
Japan
Prior art keywords
speaker
voice mail
mail message
computer
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001156784A
Other languages
English (en)
Inventor
James R Lewis
ジェイムス・アール・ルイス
Kerry A Ortega
ケリー・エイ・オルテガ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2002032213A publication Critical patent/JP2002032213A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/53Centralised arrangements for recording incoming messages, i.e. mailbox systems
    • H04M3/5307Centralised arrangements for recording incoming messages, i.e. mailbox systems for recording messages comprising any combination of audio and non-audio components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2242/00Special services or facilities
    • H04M2242/22Automatic class or number identification arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42025Calling or Called party identification service
    • H04M3/42034Calling party identification service
    • H04M3/42042Notifying the called party of information on the calling party

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

(57)【要約】 【課題】 コンピュータ・ボイス・メール・メッセージ
を転記するシステムの必要性が生じている。 【解決手段】 本発明は、ボイス・メール・メッセージ
を転記する方法およびシステムに関する。本発明の方法
は、第1に、オーディオ・ファイルに格納されたコンピ
ュータ・ボイス・メール・メッセージをコンピュータ音
声認識システムに与えるステップと、第2に、コンピュ
ータ・ボイス・メール・メッセージを、音声認識システ
ム内の話者識別プロセスに処理依頼するステップとを有
する複数のステップを含む。特に、話者識別プロセス
は、登録話者をコンピュータ・ボイス・メール・メッセ
ージのソースとして識別できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識ソフトウ
ェアの分野に関し、特に、電話応答マシン・ボイス・メ
ール・メッセージを転記するシステムに関する。
【0002】
【従来の技術】常に増大する多数の人々が、ボイス・メ
ール・サービスのソースとしてパーソナル・コンピュー
タを使用し始めた。個別の電話応答マシンの要求および
費用を緩和することにより、電話回線を通してボイス・
メール・メッセージを記録するためのパーソナル・コン
ピュータの使用は、消費者が出費を節約することを可能
にする。手の届く範囲の値段で購入できるマルチメディ
ア・パーソナル・コンピュータにおいて消費者が現在利
用できる膨大な量のコンピュータ能力のために、この傾
向は続きそうである。さらに、サウンド・カードおよび
モデムのような、パーソナル・コンピュータがボイス・
メール・サービスを提供できるようにするコンポーネン
トは、大部分の高速マルチメディア・パーソナル・コン
ピュータの標準装備になった。
【0003】消費者にもたらされる節約のほかに、コン
ピュータ・ボイス・メール・システムは、消費者に、消
費者の電話応答マシン同等物に関して増大した柔軟性を
提供する。パーソナル・コンピュータのスピードおよび
記憶容量の増加は、これらのマシンが、従来の電話応答
マシンよりも長いメッセージを記録しはるかに多数のメ
ッセージを格納できるようにする。さらに、発呼者によ
って残されたボイス・メール・メッセージは、Wave
もしくはMP3ファイルのような様々な標準化されたマ
ルチメディアまたはオーディオ・ファイル・タイプのい
ずれにも記録され得る。このようなディジタル・ファイ
ルは、操作され、コピーされ、格納され、もしくは伝送
され得る。
【0004】パーソナル・コンピュータをボイス・メー
ルのために利用することの多くの利点にもかかわらず、
不利な点が存在する。このような不利な点の一つは、た
とえ現代のパーソナル・コンピュータの記憶容量が無制
限であるように見えても、オーディオ・ファイル自身
が、かなり大きいこともあり得るということである。従
って、古いボイス・メール・メッセージを格納または保
存することは、あらゆる個別のパーソナル・コンピュー
タにおいて利用できるものよりはるかに多くの記憶容量
を消費し得る。記憶容量が異常に高い額で度々取得され
るネットワーク・コンテキストにおいて、ボイス・メー
ル・オーディオ・ファイルの大きいサイズは、さらに一
層問題となり得る。
【0005】コンピュータ・ベース・ボイス・メール・
システムに固有の他の不利な点は、オーディオ・ファイ
ルの大きいサイズが、ネットワークを通したファイルの
高速伝送を妨げることがあり、ネットワーク輻輳を引き
起こし得るということである。このような輻輳は、度
々、ネットワーク性能の低下、あるいはそれどころかネ
ットワーク・サービス停止をもたらす。さらに、この問
題の一因となるのは、WaveまたはMP3ファイルの
圧縮は、典型的に、ファイル・サイズの実質的に十分な
縮小をもたらさないということである。従って、Wav
eまたはMP3ファイルとして保存された、3分から4
分間の詳細ボイス・メール・メッセージは、従来の2
8.8kpbsモデム接続を介してオーディオ・ファイ
ルをアップロードおよび伝送するために3分または4分
再生時間よりもはるかに長い時間を必要とすることがあ
る。
【0006】全てのボイス・メール・システムに固有の
他の不利な点は、そこにおいてボイス・メール・メッセ
ージのテキスト転記が便利であるとユーザが知るであろ
う機会が、明らかに生じ得るということである。ボイス
・メールがロケーションに対する指示を含む場合に、事
情は上述のとおりである。指示を含むボイス・メール・
メッセージが従来の電話応答マシン上に残されるにせ
よ、コンピュータ・ベース・ボイス・メール・システム
上に残されるにせよ、いずれにしても、ボイス・メール
・メッセージの正確な転記を得るためには、ユーザは、
手動でボイス・メール・メッセージを転記しなければな
らない。
【0007】音声認識と呼ばれる他の既知のテクノロジ
は、それにより、マイクロホンによって受信された音響
信号が、コンピュータによって一組のテキスト・ワード
へ変換されるプロセスである。これらの認識されたワー
ドは、文書作成(document preparat
ion),データ入力,およびコマンドと制御のような
目的に適した様々なコンピュータ・ソフトウェア・アプ
リケーションにおいて使用され得る。近頃、音声認識は
記録テクノロジに応用されてきた。とりわけ、ボイス・
レコーダ(voice recorders)は、テキ
ストへの変換のために音声認識エンジンへ続いて与えら
れ得るオーディオ入力を記録するよう設計されてきた。
さらに、記録されたオーディオをテキストへ変換するた
めには、第一に、音声認識エンジンは、オリジナルに記
録されたオーディオ入力を与える話者を認識するよう訓
練されなければならない。
【0008】話者認識は、音声信号に含まれた個人情報
に基づいて誰が話しているのか自動的に認識するプロセ
スである。話者認識は、話者識別と話者照合とに分ける
ことができる。話者識別は、一組の既知の話者の中か
ら、どの登録話者が一定の発音を与えるか判定する。比
べると、話者照合は、話者の一致請求(すなわち話者
が、彼らがそうであるというところの人物であるか)を
受理あるいは拒否する。話者認識テクノロジは、制限さ
れたサービスに対するアクセス、例えば、銀行,データ
ベース・サービス,ショッピングまたはボイス・メール
に対する電話アクセス、および保護された機器に対する
アクセスを制御するために話者の声を使用することの問
題に応用されてきた。双方のテクノロジは、ユーザに、
システムに登録すること、すなわちシステムに対して彼
らの音声の見本を与えることを求め、システムが彼らの
ボイス・パターンを特徴付ける(または学習する)こと
ができるようにする。話者認識方法は、テキスト依存型
(text−dependent)方法とテキスト独立
型(text−independent)方法とに分け
ることができる。
【0009】話者に独自に属し、時がたつにつれて変わ
ることがない特徴を一定の発音から抽出することは、テ
キスト独立型話者識別システム(text−indep
endent speaker identifica
tion systems)に対して主要なものであ
る。とりわけ、音声認識システムに登録データを集める
とき、話者の音声の特徴は抽出され、既知の話者と関連
付けられ、例えば名前または既知の話者と関連付けられ
たIDのようなリファレンスと一緒にデータベースに格
納され得る。典型的には、特徴抽出の際に、話者独立型
音素検出器(speaker−independent
phoneme detector)は、話者ごとに
区別の目安となる音素を認識することができる。登録デ
ータは続いて、リファレンスを用いて検索され、未知の
話者の声から抽出された特徴と比較され得る。未知の話
者の声から抽出された特徴が、検索された登録データの
特徴と適切に同程度である場合には、未知の話者は、検
索された登録データを提供した話者として識別できる。
【0010】
【発明が解決しようとする課題】話者認識テクノロジに
おける進歩にもかかわらず、ボイス・メール・システム
は、アクセス制御が及ばない話者認識テクノロジを依然
として組み込まなければならない。さらに、コンピュー
タ・ベース・ボイス・メール・システム、および話者認
識テクノロジを利用する音声認識システムが存在する
が、ユーザをさらによく満足させるためには、2つのテ
クノロジの組み合わせが依然として必要である。話者認
識テクノロジに基づくボイス・メール・メッセージの正
確かつ効率のよい転記は、コンピュータ・ベース・ボイ
ス・メール・システムの有益性を非常に高めるであろ
う。結果として、コンピュータ・ボイス・メール・メッ
セージを転記するシステムの必要性が発生した。
【0011】
【課題を解決するための手段】本発明の構成に従ってコ
ンピュータ・ボイス・メール・メッセージを転記するこ
こに開示された発明は、コンピュータ・ベース・ボイス
・メール・システムと共に話者認識テクノロジが備えら
れた音声認識システムを用いることによって、従来技術
の長く考えられていた要求を満たす。本発明は、コンピ
ュータ・ボイス・メール・システムから、オーディオ・
ファイルに格納されたボイス・メール・メッセージを受
信またはインポートすることができる。ボイス・メール
・メッセージのインポートの後、システムは、ボイス・
メール・メッセージの話者を識別することができる。識
別された話者に対応する登録データを用いて、システム
は、ボイス・メール・メッセージをテキストへ変換す
る、あるいは、オーディオ・ファイルに含まれるオーデ
ィオを転記することができる。最後に、テキストはテキ
スト・ファイルに格納され得る。従って、結果として生
じるテキスト・ファイルは、インポートされたオーディ
オ・ファイルであって、それからテキストが変換された
オーディオ・ファイルよりもサイズがはるかに小さい。
縮小されたファイル・サイズは、ストレージ・スペース
の節約およびファイルを伝送するために要求されるリソ
ースの削減に特に有益である。その上、結果として生じ
るテキスト・ファイルは、テキストをビデオ・ディスプ
レイ端末に表示する,テキストを印刷する,テキスト・
ファイルを伝送する,あるいはその後の使用のためにテ
キスト・ファイルを格納する等を含む様々な形態でユー
ザに利用可能にすることができる。
【0012】本発明は、ボイス・メール・メッセージを
転記する方法およびシステムに関する。本発明の方法
は、第1に、オーディオ・ファイルに格納されたコンピ
ュータ・ボイス・メール・メッセージをコンピュータ音
声認識システムに与えるステップと、第2に、コンピュ
ータ・ボイス・メール・メッセージを、音声認識システ
ム内の話者識別プロセスに処理依頼するステップとを有
する複数のステップを含む。とりわけ、話者識別プロセ
スは、登録話者をコンピュータ・ボイス・メール・メッ
セージのソースとして識別することができる。最後に、
登録話者の識別に応答して、コンピュータ・ボイス・メ
ール・メッセージは、音声認識システム内の音声変換プ
ロセスに処理依頼され得る。音声変換プロセスは、識別
された登録話者に対応する話者登録データを用いて、コ
ンピュータ・ボイス・メール・メッセージの音声/テキ
スト変換を実行することができる。さらに、音声/テキ
スト変換は、コンピュータ・ボイス・メール・メッセー
ジの転記を作り出すことができる。本発明の1つの実施
形態において、転記は、さらに表示可能である。
【0013】話者識別プロセスは、テキスト独立型話者
識別を用いて、話者登録データを有する登録話者を、ボ
イス・メール・メッセージのソースとして識別すること
ができる。代わりに、話者識別プロセスは、各々が対応
する登録データを有する登録話者のリストをユーザに与
えることができる。話者識別プロセスは、ユーザによ
る、リスト内の登録話者のうちの1人の選択を受信する
ことができ、続いて、選択された登録話者をボイス・メ
ール・メッセージのソースとして識別することができ
る。
【0014】話者識別プロセスは、話者識別プロセスが
登録話者をコンピュータ・ボイス・メール・メッセージ
のソースとして識別することに失敗する場合には、話者
登録を作成することができる。さらに、作成された話者
登録は、非登録話者と関連付け可能である。最後に、作
成された話者登録が非登録話者と関連付けられた時に、
関連付けられた話者は、ボイス・メール・メッセージの
ソースとして識別され得る。特に、登録を作成するステ
ップは、関連付けられた話者の監視なし登録を実行する
ステップを含むことが可能である。
【0015】とりわけ、本発明は、ボイス・メール・メ
ッセージを転記するシステムとすることが可能である。
このシステムは、発呼者によって発声されたボイス・メ
ール・メッセージを記録するボイス・メール・システム
と、記録されたボイス・メール・メッセージと関連付け
られたソース話者を識別する話者識別プロセッサと、記
録されたボイス・メール・メッセージと関連付けられた
識別されたソース話者に対応する話者登録データを用い
て、記録されたボイス・メール・メッセージの音声/テ
キスト変換を実行する音声認識システムとを含むことが
可能である。特に、音声/テキスト変換は、ボイス・メ
ール・メッセージの転記を作り出すことが可能である。
その上、システムは、転記を表示する表示手段をさらに
含むことが可能である。加えて、表示手段は、転記を印
刷するプリンタまたは前記転記を視覚的に表示するユー
ザ・インターフェースのいずれか一方とすることが可能
である。
【0016】特に、話者識別プロセッサは、テキスト独
立型話者識別を実行することができる。加えて、システ
ムは、話者識別プロセッサによって識別されないボイス
・メール・メッセージのソースと関連付けられた話者登
録データを作成する監視なし登録プロセッサを、さらに
含むことが可能である。音声認識システムは、作成され
た話者登録データを用いて、未知の話者によって発声さ
れたボイス・メール・メッセージの音声/テキスト変換
を実行することができる。
【0017】本発明は、ハードウェア,ソフトウェア,
あるいはハードウェアおよびソフトウェアの組み合わせ
において実現され得る。この中で述べられた方法を実行
することに適応したあらゆる種類のコンピュータ・シス
テムまたは他の装置が適する。ハードウェアおよびソフ
トウェアの典型的な組み合わせは、ロードされ実行され
た時に、コンピュータ・システムがこの中に述べられた
方法を実行するようにコンピュータ・システムを制御す
るコンピュータ・プログラムを備える汎用コンピュータ
・システムとすることができる。
【0018】本発明は、この中で述べられた方法の実施
を可能にする全ての特徴を含み、コンピュータ・システ
ムにロードされた時にこれらの方法を実行することがで
きるコンピュータ・プログラム製品においてさらに実施
され得る。本コンテキストにおけるコンピュータ・プロ
グラム手段またはコンピュータ・プログラムは、直接
か、あるいは以下のもの、すなわちa)他の言語,コー
ドまたは表記への変換、b)異なるマテリアル・フォー
ムでの再生のいずれか一方もしくは双方の後に、情報処
理機能を有するシステムに特定のファンクションを実行
させることが意図された一組の命令の(あらゆる言語,
コードまたは表記での)全ての表現式を意味する。
【0019】
【発明の実施の形態】好適な実施の形態が図面において
示されるが、本発明は、図示される厳密な構成および方
法に限定されないということを理解されたい。
【0020】図1は、伝統的な電話応答マシンの代わり
に本発明の構成に従ってボイス・メールを処理するよう
構成されたパーソナル・コンピュータの典型的な配置を
示す。とりわけ、図示されるように、発呼者は、電話1
を用いて、本発明にかかるユーザへ電話をかける始める
ことができる。特に、ユーザは、電話応答マシンの代わ
りに、本発明の構成に従ってボイス・メール処理システ
ム4をその中に含むことができるコンピュータ・システ
ム3を有することができる。続いて、ユーザが発呼者の
電話にでない場合には、ボイス・メール処理システム4
は、従来のボイス・メール・メッセージ記録、そして本
発明の方法に従うボイス・メール・メッセージの転記を
実行することができる。コンピュータ・システム3およ
び電話1の各々は、通信手段2を介して通信可能に接続
され得る。図1は、電話配線システムとして通信手段2
を示すが、本発明はこの点に限定されない。むしろ、通
信手段2は、例えばセルラーまたはサテライト通信シス
テムのような、2つのノードを電話によって接続するた
めのあらゆる適切な手段とすることができる。
【0021】記録されたボイス・メールからテキストを
転記するボイス・メール処理システム4は、コンピュー
タ・システム内部にディジタル・オーディオ・ファイル
として格納されたコンピュータ・ボイス・メール・メッ
セージのテキスト転記を、ユーザが自動的に取得できる
ようにする。好適な実施の形態において、このようなデ
ィジタル・オーディオ・ファイルの受信に応答して、ボ
イス・メール処理システム4は、発呼者を固有のユーザ
登録および対応する登録識別にマッチングさせることに
よって、特定発呼者をコンピュータ・ボイス・メール・
メッセージのソースとして自動的に識別することができ
る。発呼者に対応する固有のユーザ登録は、転記正確度
を増加させ、テキスト独立型話者識別(text−in
dependent speaker identif
ication)および監視なし登録(unsuper
vised enrollment)を用いて作成可能
である。いったん発呼者が識別されると、ボイス・メー
ル処理システム4は、識別された発呼者に対応する固有
のユーザ登録を用いてボイス・メール・メッセージの転
記を作り出すことができる。代わりに、ユーザは、ボイ
ス・メール・メッセージを転記する際に使用する特定ユ
ーザ登録を手動で選択できる。さら独立型話者識別を用
いることによって、ボイス・メール処理システム4は、
発呼者に対応する固有のユーザ登録なしに、ボイス・メ
ール・メッセージの転記を作り出すことができる。最後
に、ボイス・メール・メッセージの転記は、ユーザに与
えられ得る。
【0022】図2は、本発明と共同して使用されるコン
ピュータ・システム3をさらに詳細に説明する。システ
ムは、好ましくは、中央処理装置(CPU),1以上の
メモリ・デバイスおよび関連回路を有するコンピュータ
34から成る。コンピュータ・システム3は、好ましく
は電子ランダム・アクセス・メモリから成るコンピュー
タ・メモリ・デバイス27を有する。さらに、コンピュ
ータ・システム3は、磁気ハード・ディスク・ドライブ
のような大容量データ・ストレージ・メディア28を有
することができる。コンピュータ・システム3は、そこ
に操作可能に接続されたビデオ・ディスプレイ端末(V
DT)のような少なくとも1つのユーザ・インターフェ
ース・ディスプレイ装置32、およびマウス21のよう
なインターフェース・デバイスをさらに含むことができ
る。CPUは、当業者に周知のあらゆる適切なマイクロ
プロセッサまたは他の電子処理装置から成ることができ
る。このようなCPUの例は、Intel Corpo
rationから入手可能なPentiumまたはPe
ntium IIブランドのマイクロプロセッサあるい
は全ての同種のマイクロプロセッサを含み得る。
【0023】本発明の方法に従って、コンピュータ・シ
ステム3は、音声認識機能を実行することができる。そ
のようなものとして、コンピュータ・システム3は、マ
イクロホン30を経て受信されたリアルタイム・オーデ
ィオ信号、または例えばWaveもしくはMP3ファイ
ルのような固定ストレージ28に格納されたオーディオ
信号の形式のオーディオ入力を処理するオーディオ回路
29も含むことができる。オーディオ回路29は、オー
ディオ出力を処理し、オーディオ出力をスピーカ23に
提供することもできる。好適な実施の形態において、オ
ーディオ回路29は、マルチメディア・パーソナル・コ
ンピュータ・システムにおいて使用されるために設計さ
れた商業的に入手可能なサウンド・カードとすることが
できる。
【0024】最後に、コンピュータ・システム3は、コ
ンピュータを他の通信デバイスへ通信可能に接続する適
切な通信ハードウェアおよびソフトウェアを有すること
ができる。とりわけ、好適な実施の形態において、コン
ピュータ・システム3は、電話をかけ、電話を受けるモ
デム31を有することができる。好適な実施の形態にお
いて、モデム31はマルチメディア・コンピュータ・シ
ステムで使用されるHayes互換56K内部モデムで
あるが、モデム31は、全ての商業的に入手可能なモデ
ムとすることができる。さらに、本発明は、通信ハード
ウェアおよびソフトウェアに関して限定されない。むし
ろ、コンピュータ・システム3が、単にボイス・メール
・メッセージを受信し記録するという要件が、本発明に
対して主要なものである。従って、他の実施の形態にお
いて、モデムは、例えば、ボイス・メール・メッセージ
がコンピュータ・システム3においてワイヤレスに受信
されるワイヤレス・レシーバ、あるいはボイス・メール
・メッセージがネットワーク内に受信されローカル・エ
リア・ネットワークを経てコンピュータ・システム3へ
伝送され得るネットワーク・カードのような、あらゆる
適切な通信デバイスに代わられ得る。特に、この中で述
べられるコンピュータ・システムのための様々なハード
ウェア要件は、International Busi
ness Machines Corporation
によって売り出され製造されるもののような多数の商業
的に入手可能な高速マルチメディア・パーソナル・コン
ピュータのどれでもによって、大部分は満たすことがで
きる。
【0025】図3は、コンピュータ3においてボイス・
メールをテキストに変換するシステムの典型的なアーキ
テクチャを説明する。図3に示されるように、システム
は、オペレーティング・システム20および従来の音声
認識エンジン26を典型的に含む。示される例におい
て、ボイス・メール・アプリケーション22および通信
クライアント24も同様に与えられる。図3において、
音声認識エンジン26,ボイス・メール・アプリケーシ
ョン22および通信クライアント24は、個別のアプリ
ケーション・プログラムとして示される。しかし、本発
明はこの点に限定されず、これらの別々のアプリケーシ
ョン・プログラムは、単一の、より複合のアプリケーシ
ョン・プログラムとして実現可能であるということに留
意されたい。例えば、音声認識エンジン26は、ボイス
・メール・アプリケーション22と結合可能である。
【0026】ここで話題にされる好適な実施の形態にお
いて、オペレーティング・システム20は、ワシントン
州レドモンドのMicrosoft Corporat
ionから入手可能なWindows(R) NT,W
indows(R) 2000またはWindows
(R) 98のようなWindows(R)ファミリの
オペレーティング・システムの1つである。しかし、シ
ステムはこの点に限定されず、本発明は、あらゆる他の
タイプのコンピュータ・オペレーティング・システムで
も使用可能である。
【0027】図3に示されるように、コンピュータ・シ
ステム3は、ランダム・アクセス・メモリ27および固
定ストレージ28を含む。固定ストレージ28は、オペ
レーティング・システム20,ボイス・メール・アプリ
ケーション22および通信クライアント24の各々をそ
こに格納できる。コンピュータ・システム3のブートス
トラップに基づいて、オペレーティング・システム20
は、ランダム・アクセス・メモリ27にロードされ得
る。同様に、実行に基づいて、ボイス・メール・アプリ
ケーション22および通信クライアント24の各々は、
クライアント・コンピュータ3による実行のためにラン
ダム・アクセス・メモリ27にロードされ得る。特に、
ボイス・メール・アプリケーション22は、本発明の方
法を実行するうようにプログラム可能である。とりわ
け、ここで開示されるボイス・メール・アプリケーショ
ン22は、上述のオペレーティング・システムのための
商業的に入手可能な開発ツールを用いて、プログラマに
よって実現され得る。
【0028】オペレーションにおいて、発呼者の音声を
表すオーディオ信号を含むボイス・メール・メッセージ
は、コンピュータ・システム3内部のランダム・アクセ
ス・メモリ27または固定ストレージ28のどちらか一
方(あるいは双方)内のファイルにディジタルに記録さ
れ格納され得る。ディジタル・オーディオ・ファイルの
形式で存在するボイス・メール・メッセージは、Wav
eまたはMP3のような、様々な標準マルチメディアま
たはオーディオ・ファイル・フォーマットのいずれであ
ってもよい。本発明が、ボイス・メール・メッセージが
格納される特定のファイル・フォーマットによって限定
されるものではないということを理解されたい。とりわ
け、個々のファイル・フォーマットは、ユーザによって
選択されたコンピュータ・ボイス・メール・アプリケー
ション22に依存している。オペレーティング・システ
ム20の援助機能を用いて、ボイス・メール・メッセー
ジに含まれるオーディオ信号は、音声認識エンジン26
における話者識別プロセスに対して利用可能にすること
ができる。このように、話者識別プロセスは、発呼者に
よって発声され、ボイス・メール・メッセージ内部にデ
ィジタル・オーディオとして含まれたワードの話者を識
別することができる。続いて、識別された話者に対応す
る登録データは、音声認識エンジン26内の音声/テキ
スト変換プロセスにおいて使用可能であり、音声/テキ
スト変換プロセスは、登録データを用いてオーディオ信
号の音声/テキスト変換を実行することができる。その
ようなものとして、ボイス・メール・メッセージに含ま
れるオーディオ信号は、ボイス・メール・メッセージの
転記へ正確かつ効率よく変換され得る。
【0029】図4は、従来の音声認識システムを用いて
コンピュータ・ボイス・メール・メッセージからテキス
トを転記する方法およびシステムを説明するフローチャ
ートである。好適な実施の形態において、ボイス・メー
ル・メッセージを含むオーディオ・ファイルは、音声認
識システムに対して利用可能にされる。とりわけ、オー
ディオ・ファイルは、音声認識システムに対する、商業
的に入手可能なアプリケーション・プログラミング・イ
ンターフェース(API)を用いて、音声認識システム
に対して利用可能にされ得る。当業者は、普通に利用で
きる音声認識システムは、オーディオ・ファイルを処理
する音声認識システムに対してオーディオ・ファイルを
与えるあらかじめプログラムされた方法をそれとともに
含ませるAPIを有することが可能であるということを
認識できる。典型的に、このようなあらかじめプログラ
ムされた方法は、オーディオ・ファイルに対するリファ
レンスを入力として受信することができる。とりわけ、
さらに、従来の音声認識システムに対する典型的なAP
Iは、例えば、現行の登録データ、およびオーディオ・
ファイルに対して実行された音声認識オペレーションの
結果を格納するターゲット出力ファイルのような、音声
認識システム内部の構成パラメータを変更するあらかじ
めプログラムされた方法をも含むことができる。
【0030】ユーザが、発呼者の音声に対応する話者登
録データを作成した場合には、音声認識システムは、好
ましくは発呼者の一致を自動的に判定するテキスト独立
型話者識別を用いることができる。いったん識別される
と、音声認識システムは、識別された発呼者に対応する
話者登録データを用いてコンピュータ・ボイス・メール
・メッセージをテキストへ転記することができる。代わ
りに、音声認識は、ボイス・メール・システムと共同し
て、コンピュータ・ボイス・メール・メッセージを転記
するために、ユーザが、格納された話者登録データを選
択することを可能にし得る。発呼者に対応する話者登録
データが存在しない場合には、音声認識システムは、話
者独立型識別(speaker independen
t identification)を用いてコンピュ
ータ・ボイス・メール・メッセージを転記し、話者独立
型音声特徴を強調することができる。この場合には、ユ
ーザは、将来の転記で使用されるための発呼者の登録デ
ータを作成することができる。音声認識システムが、コ
ンピュータ・ボイス・メール・メッセージの転記をいっ
たん作り出すと、音声認識システムは、転記のハードコ
ピーを印刷する,転記をメモリに格納する,ボイス・メ
ール・システムにおいて転記を表示する,あるいは転記
を他のロケーションへ伝送する等を含む様々な手段のど
れでもによって、転記をユーザへ提供することができ
る。
【0031】図4において説明される方法は、ユーザ入
力を待つ連続ループにかかわっているアクティブ状態の
音声認識システムから開始する。加えて、ボイス・メー
ル・システムとして使用されるユーザのコンピュータ・
システム3は、様々な発呼者からのディジタル・オーデ
ィオ・ファイル形式のボイス・メール・メッセージを含
む。ボイス・メール・メッセージを転記するシステムは
独立のアプリケーション・プログラムとして述べられる
が、システムは、他のアプリケーション・プログラム内
部でボイス・メール・メッセージの転記を作動させるた
めのボタン,メニュー項目,あるいは音声コマンドを備
えることにより、電子メール・プログラムのような別個
のアプリケーション・プログラム内部から始動可能であ
るということを理解されたい。
【0032】どんな場合でも、ステップ50から開始
し、ボイス・メール・メッセージを転記するシステム
は、テキストへのボイス・メール・メッセージの変換と
も称されるボイス・メール・メッセージの転記を要求す
るユーザ入力を待つ。ボイス・メール・メッセージの転
記を要求するユーザ入力は、ユーザ・ボイス・コマン
ド,キーボード入力,あるいはマウス操作等を含む種々
の適切なフォームのいずれであってもよい。従って、シ
ステムが、ユーザがボイス・メール・メッセージを転記
したいということを指示する入力を受信する場合には、
システムはステップ55へ進む。そうでない場合には、
システムは、そのような入力が受信されるまで、ループ
を続ける。
【0033】ステップ55において、ボイス・メール・
メッセージを転記するシステムは、ユーザが、転記のた
めにシステムに対して特定ボイス・メール・メッセージ
を識別することを要求する。例えば、システムは、転記
されるボイス・メール・メッセージを含むコンピュータ
・メモリ内のロケーションへユーザがナビゲートできる
ようにする標準ファイル・ナビゲーション・コントロー
ルを有するグラフィカル・ユーザ・インターフェース
(GUI)をユーザに与えることができる。GUI内部
で、ユーザは、マウス,キーボード入力,あるいは発せ
られた言葉を用いてボイス・メール・メッセージを強調
表示することによってシステムに対してボイス・メール
・メッセージを識別し得る。本発明は、転記のために単
一のボイス・メール・メッセージを受信することに限定
されないということが当業者によって理解される。例え
ばGUIは、ユーザが、転記のためにシステムに対して
複数ボイス・メール・メッセージを識別または強調表示
することを可能にすることができる。代わりに、ユーザ
は、転記のためのボイス・メール・メッセージの属性を
指定することができる。例として、一連の方法で単一ボ
イス・メール・メッセージまたは複数メッセージを選択
する代わりに、ユーザは、特定の日にあるいは特定の発
呼者から発生する全てのボイス・メール・メッセージを
識別し得る。システムによって使用されるGUIの特定
フォーマットに関係なく、1以上のボイス・メール・メ
ッセージが識別される場合には、システムはステップ6
0へ進む。
【0034】ステップ60において、ユーザによって選
択されたボイス・メール・メッセージは、転記のために
音声認識システムに対してインポートされあるいは利用
可能にされる。ボイス・メール・メッセージを転記する
システムは、ボイス・メール・メッセージを音声認識シ
ステム22に含まれるディクテーション・クライアント
に再生することができる。このように、ボイス・メール
・メッセージのファイル・フォーマットは、ボイス・メ
ール・メッセージの転記を作り出す音声認識エンジンに
よって使用されるためにより適切なフォーマットに変換
され得る。代わりに、ボイス・メール・メッセージは、
ボイス・メール・メッセージ・ファイルのリファレンス
をそこへ渡すAPIコールを経て、音声認識システム2
2に与えられ得る。
【0035】ステップ65において、固有のユーザ登録
を有する発呼者に関して、システムは、発呼者によって
与えられたボイス・メール・メッセージから発呼者の一
致を判定することができる。特に、ボイス・メール・メ
ッセージを転記するシステムは、ボイス・メール・メッ
セージの最初の数秒を分析することができる。発呼者の
一致は、ボイス・メール・メッセージ内に記録された音
声を発呼者の固有の話者登録データおよび対応する話者
識別にマッチングさせることにより、判定され得る。ボ
イス・メール・メッセージを転記するシステムは、この
技術分野で周知のテクノロジであり、Internat
ional Business Machines C
orporationのような音声認識システム・メー
カーから商業的に入手可能である、ボイス・メール・メ
ッセージを分析するためのテキスト独立型話者識別を用
いることができる。
【0036】例えば、ユーザが、発呼者“Joe”から
ボイス・メール・メッセージを受信する場合、ユーザ
は、“Joe”のための登録データを作成することがで
きる。固有の登録データおよび対応する固有の話者識別
が“Joe”のためにいったん作成されると、ボイス・
メール・メッセージを転記するシステムは、“Joe”
が次に受信されるボイス・メール・メッセージのソース
であるか否か判定することができる。従って、システム
は、“Joe”と名付けられた発呼者に対応する正確な
固有の話者登録データおよび話者識別を自動的に再呼び
出しすることができる。
【0037】メモリからいったん再呼び出しされると、
識別された発呼者に対応する固有の話者登録データは、
ボイス・メール・メッセージの転記を援助するために使
用され得る。システムが、発呼者を、対応する固有のユ
ーザ登録にマッチングさせることによって、コンピュー
タ・ボイス・メール・メッセージから発呼者の一致を判
定できる場合には、システムはステップ80へ進む。そ
うでない場合には、システムはステップ70へ進む。
【0038】ステップ70において、ボイス・メール・
メッセージを転記するシステムは、システムがボイス・
メール・メッセージ内部の発呼者を識別できなかった
か、あるいは代わりに、いかなるユーザ登録も発呼者に
対応しないかをユーザに通知する。それとは関係なし
に、ボイス・メール・メッセージを転記するシステム
は、ユーザが、識別されない発呼者に対応する新しくか
つ固有のユーザ登録を作成したいか否か、ユーザにさら
に訪ねることができる。そうである場合には、システム
はステップ75へ進む。そうでない場合には、システム
はステップ80へ直接進む。
【0039】ステップ75において、システムはユーザ
をガイドして、識別されない発呼者に対応する新しくか
つ固有の話者登録データを作成するプロセスを通過させ
る。例えば、ボイス・メール・メッセージを転記するシ
ステムは、ユーザをガイドして登録プロセスを段階を追
って通過させるために、ウィザード・フォーマットを用
いることができる。ユーザは、ユーザのコンピュータに
ボイス・メール・メッセージを置くそれぞれの発呼者の
ための固有の話者登録データを作成することができると
いうことを理解されたい。
【0040】個々の発呼者に対応する話者登録は、ボイ
ス・メール・メッセージの転記正確度の増加をもたら
す。特に、ユーザは、ボイス・メール・メッセージを転
記するシステムに、対応するボイス・メール・メッセー
ジ自身の転記と一緒に先のボイス・メール・メッセージ
の転記を与えることができる。転記を、ボイス・メール
・メッセージに含まれる対応する話者の音声と比較する
ことにより、システムは、話者依存型特徴(speak
er dependent characterist
ics)を含み、特定の発呼者に固有の話者登録を構築
することができる。さらに、ユーザは、システムに、発
呼者からの、複数のボイス・メール・メッセージおよび
対応する転記を与え、より優れた正確度を達成すること
ができる。とりわけ、時がたつにつれて、ユーザがさら
に多くのボイス・メール・メッセージと対応する転記と
をシステムへ与えるにつれて、システムがユーザ登録を
構築するので、転記内のあらゆるエラーは、転記の正確
な部分によって十二分に補われる。新たに作成されたユ
ーザ登録は、特定の発呼者に同様に固有のユーザ識別を
割り当てられ得る。この手法は、典型的に、“監視あり
適応(supervised adaptatio
n)”または“監視あり登録(supervised
enrollment)”と呼ばれる。
【0041】先の例を取り上げると、ユーザが、“Jo
e”と名付けられた人物からボイス・メール・メッセー
ジを頻繁に受け取る場合には、ユーザは、登録を作成す
るためにシステム内部のオプションを選択することがで
きる。システムは、ユーザがその発呼者のために固有の
話者登録を作成したいと思う発呼者からのボイス・メー
ル・メッセージおよび対応する転記をユーザが識別する
ことを要求する。転記とボイス・メール・メッセージの
比較の後、システムは、ユーザID例えば“Joe”を
有する“Joe”に固有の話者登録を作成することがで
きる。このように、各発呼者は、対応する固有のユーザ
識別および登録を有することができる。
【0042】好適な実施の形態において、ボイス・メー
ル・メッセージを転記するシステムは、“監視なし登録
(unsupervised enrollmen
t)”としても知られる“監視なし適応(unsupe
rvised adaptation)”手法を有利に
利用することができる。監視なし適応は、本技術分野に
おいて既知であり、音声認識システム・メーカから商業
的に入手可能なテクノロジである。監視なし適応は、既
知のソースからの先在する転記の利点なしでユーザ登録
を作成するために使用可能である。本発明において、音
声の転記が、従来の監視あり登録を実行するために利用
できない時には、ボイス・メール・メッセージを転記す
るシステムは、未知の話者からのボイス・サンプルから
仮説を生成するために音声認識システムを使用すること
ができ、仮説は、適応プロセスにおいて正確な転記であ
ると推定される。話者登録プロセスの完了の後、システ
ムはステップ80に進む。
【0043】ステップ80において、ボイス・メール・
メッセージを転記するシステムは、ボイス・メール・メ
ッセージに対して音声認識を実行して、メッセージの内
容をテキストへ変換する。とりわけ、システムが、発呼
者と対応する固有のユーザ登録およびユーザ識別の一致
をあらかじめ判定した場合には、システムは、ボイス・
メール・メッセージの転記を援助するためにその登録を
用い、転記正確度の向上をもたらすことができる。この
ようなプロセスは、ボイス・メール・メッセージ内部の
音声をテキストへ変換するために、話者依存型および話
者独立型特徴を使用することを含む。しかし、いかなる
話者登録も発呼者に対応しない場合、またはユーザが発
呼者のためにユーザ登録を作成したいと思わない場合に
は、システムは、その特定のユーザに対応する固有のユ
ーザ登録の援助なしで、ボイス・メール・メッセージの
内容をテキストへ変換することができる。この場合に
は、システムは、ボイス・メール・メッセージ内部の発
呼者の音声の話者独立型特徴を用いて、ボイス・メール
・メッセージに対して音声認識を実行することができ
る。どちらの場合にも、システムはステップ85へ進
む。
【0044】ステップ85において、ボイス・メール・
メッセージを転記するシステムは、ユーザにボイス・メ
ール・メッセージの転記を与える。システムは、転記を
多数の異なる方法でユーザが利用できるようにし得る。
例えば、コンピュータは、テキスト転記をユーザのVD
Tに表示する,転記を印刷する,あるいは転記をファイ
ルとして、例えばテキスト・ファイルまたは他のユーザ
指定ワード・プロセッサ・ファイル・フォーマットとし
て、コンピュータ・メモリに保管することができる。
【0045】上述の明細書は、本発明の好適な実施の形
態を説明し述べているが、本発明は、この中に開示され
た厳密な構成に限定されないということを理解された
い。本発明は、趣旨または本質的な特質から離れること
なしに他の特定の形態で実施され得る。従って、上述の
明細書よりむしろ、本発明の範囲を示す特許請求の範囲
を参照されたい。
【0046】まとめとして、本発明の構成に関して以下
の事項を開示する。 (1)コンピュータ・ボイス・メールを転記する方法で
あって、オーディオ・ファイルに格納されたコンピュー
タ・ボイス・メール・メッセージをコンピュータ音声認
識システムに与えるステップと、前記コンピュータ・ボ
イス・メール・メッセージを、前記音声認識システム内
の話者識別プロセスに処理依頼し、前記話者識別プロセ
スが、登録話者を前記コンピュータ・ボイス・メール・
メッセージのソースとして識別するステップと、前記登
録話者の前記識別に応答して、前記コンピュータ・ボイ
ス・メール・メッセージを、前記音声認識システム内の
音声変換プロセスに処理依頼し、前記音声変換プロセス
が、前記識別された登録話者に対応する話者登録データ
を用いて、前記コンピュータ・ボイス・メール・メッセ
ージの音声/テキスト変換を実行するステップと、前記
音声/テキスト変換が、前記コンピュータ・ボイス・メ
ール・メッセージの転記を作り出すステップとを含む方
法。 (2)前記転記を表示するステップを、さらに含む上記
(1)に記載の方法。 (3)前記話者識別プロセスは、テキスト独立型話者識
別(text−independent speake
r identification)を用いて、話者登
録データを有する登録話者を、前記ボイス・メール・メ
ッセージのソースとして識別するステップを含む上記
(1)に記載の方法。 (4)前記話者識別プロセスは、前記話者識別プロセス
が登録話者を前記コンピュータ・ボイス・メール・メッ
セージのソースとして識別することに失敗する場合に
は、話者登録を作成するステップと、前記作成された話
者登録を非登録話者と関連付けるステップと、前記関連
付けられた話者を前記ボイス・メール・メッセージのソ
ースとして識別するステップとを、さらに含む上記
(1)に記載の方法。 (5)前記話者識別プロセスは、各々が対応する登録デ
ータを有する登録話者のリストをユーザに与えるステッ
プと、前記ユーザによる、前記リスト内の前記登録話者
のうちの1人の選択を受信するステップと、前記選択さ
れた登録話者を前記ボイス・メール・メッセージのソー
スとして識別するステップとを含む上記(1)に記載の
方法。 (6)前記登録を作成するステップは、前記関連付けら
れた話者の監視なし登録(unsupervised
enrollment)を実行するステップを含む上記
(4)に記載の方法。 (7)ボイス・メール・メッセージを転記するシステム
であって、発呼者によって発声されたボイス・メール・
メッセージを記録するボイス・メール・システムと、前
記記録されたボイス・メール・メッセージと関連付けら
れたソース話者を識別する話者識別プロセッサと、前記
記録されたボイス・メール・メッセージと関連付けられ
た前記識別されたソース話者に対応する話者登録データ
を用いて、前記記録されたボイス・メール・メッセージ
の音声/テキスト変換を実行する音声認識システムとを
備え、前記音声/テキスト変換は、前記ボイス・メール
・メッセージの転記を作り出すシステム。 (8)前記転記を表示する表示手段をさらに備える上記
(7)に記載のシステム。 (9)前記表示手段は、前記転記を印刷するプリンタお
よび前記転記を視覚的に表示するユーザ・インターフェ
ースのグループから選択される上記(8)に記載のシス
テム。 (10)前記話者識別プロセッサは、テキスト独立型話
者識別手法を実行する上記(7)に記載のシステム。 (11)前記話者識別プロセッサによって識別されない
前記ボイス・メール・メッセージのソースと関連付けら
れた話者登録データを作成する監視なし登録プロセッサ
と、前記作成された話者登録データを用いて、前記未知
の話者によって発声されたボイス・メール・メッセージ
の前記音声/テキスト変換を実行する前記音声認識シス
テムとを、さらに備える上記(7)に記載のシステム。 (12)ボイス・メール・メッセージ転記するコンピュ
ータ・プログラムを格納したマシン読み取り可能なスト
レージであって、前記コンピュータ・プログラムは、オ
ーディオ・ファイルに格納されたコンピュータ・ボイス
・メール・メッセージをコンピュータ音声認識システム
に与えるステップと、前記コンピュータ・ボイス・メー
ル・メッセージを、前記音声認識システム内の話者識別
プロセスに処理依頼し、前記話者識別プロセスが、登録
話者を前記コンピュータ・ボイス・メール・メッセージ
のソースとして識別するステップと、前記登録話者の前
記識別に応答して、前記コンピュータ・ボイス・メール
・メッセージを、前記音声認識システム内の音声変換プ
ロセスに処理依頼し、前記音声変換プロセスが、前記識
別された登録話者に対応する話者登録データを用いて、
前記コンピュータ・ボイス・メール・メッセージの音声
/テキスト変換を実行するステップと、前記音声/テキ
スト変換が、前記コンピュータ・ボイス・メール・メッ
セージの転記を作り出すステップとをマシンに実行させ
る、前記マシンによって実行可能な複数のコード・セク
ションを有するマシン読み取り可能なストレージ。 (13)前記コンピュータ・プログラムは、前記転記を
表示するステップを前記マシンにさらに実行させる、マ
シンによって実行可能な複数のコード・セクションをさ
らに有する上記(12)に記載のマシン読み取り可能な
ストレージ。 (14)前記話者識別プロセスは、テキスト独立型話者
識別を用いて、話者登録データを有する登録話者を、前
記ボイス・メール・メッセージのソースとして識別する
ステップを含む上記(12)に記載のマシン読み取り可
能なストレージ。 (15)前記話者識別プロセスは、前記話者識別プロセ
スが登録話者を前記コンピュータ・ボイス・メール・メ
ッセージのソースとして識別することに失敗する場合に
は、話者登録を作成するステップと、前記作成された話
者登録を非登録話者と関連付けるステップと、前記関連
付けられた話者を前記ボイス・メール・メッセージのソ
ースとして識別するステップとを、さらに含む上記(1
2)に記載のマシン読み取り可能なストレージ。 (16)前記話者識別プロセスは、各々が対応する登録
データを有する登録話者のリストをユーザに与えるステ
ップと、前記ユーザによる、前記リスト内の前記登録話
者のうちの1人の選択を受信するステップと、前記選択
された登録話者を前記ボイス・メール・メッセージのソ
ースとして識別するステップとを含む上記(12)に記
載のマシン読み取り可能なストレージ。 (17)前記登録を作成するステップは、前記関連付け
られた話者の監視なし登録を実行するステップを含む上
記(15)に記載のマシン読み取り可能なストレージ。
【図面の簡単な説明】
【図1】伝統的な電話応答マシンの代わりに、ボイス・
メールを受信するように構成されたコンピュータ・シス
テムのオペレーションを示す概要図である。
【図2】本発明の方法に従ってボイス・メールを受信す
るように構成されたコンピュータ・システムを説明する
ブロック図である。
【図3】図2のコンピュータ・システムのための典型的
なハイレベル・アーキテクチャ示すブロック図である。
【図4】コンピュータ・ボイス・メール・メッセージか
らテキストを転記する方法を説明するフローチャートで
ある。
【符号の説明】
1 電話 2 通信手段 3 コンピュータ・システム 4 ボイス・メール処理システム 20 オペレーティング・システム 21 マウス 22 ボイス・メール・アプリケーション 23 スピーカ 24 通信クライアント 26 音声認識エンジン 27 ランダム・アクセス・メモリ 28 固定ストレージ 29 オーディオ回路 30 マイクロホン 31 モデム 32 ユーザ・インターフェース・ディスプレイ装置 34 コンピュータ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジェイムス・アール・ルイス アメリカ合衆国 33445 フロリダ州 デ ルレイ ビーチ マジェスティック パー ム ウェイ 4000 (72)発明者 ケリー・エイ・オルテガ アメリカ合衆国 27614 ノースカロライ ナ州 ラレイ ウッドマノアー ドライブ 1329 Fターム(参考) 5K101 KK05 NN08 NN15

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】コンピュータ・ボイス・メールを転記する
    方法であって、 オーディオ・ファイルに格納されたコンピュータ・ボイ
    ス・メール・メッセージをコンピュータ音声認識システ
    ムに与えるステップと、 前記コンピュータ・ボイス・メール・メッセージを、前
    記音声認識システム内の話者識別プロセスに処理依頼
    し、前記話者識別プロセスが、登録話者を前記コンピュ
    ータ・ボイス・メール・メッセージのソースとして識別
    するステップと、 前記登録話者の前記識別に応答して、前記コンピュータ
    ・ボイス・メール・メッセージを、前記音声認識システ
    ム内の音声変換プロセスに処理依頼し、前記音声変換プ
    ロセスが、前記識別された登録話者に対応する話者登録
    データを用いて、前記コンピュータ・ボイス・メール・
    メッセージの音声/テキスト変換を実行するステップ
    と、 前記音声/テキスト変換が、前記コンピュータ・ボイス
    ・メール・メッセージの転記を作り出すステップとを含
    む方法。
  2. 【請求項2】前記転記を表示するステップを、さらに含
    む請求項1に記載の方法。
  3. 【請求項3】前記話者識別プロセスは、 テキスト独立型話者識別(text−independ
    ent speaker identificatio
    n)を用いて、話者登録データを有する登録話者を、前
    記ボイス・メール・メッセージのソースとして識別する
    ステップを含む請求項1に記載の方法。
  4. 【請求項4】前記話者識別プロセスは、 前記話者識別プロセスが登録話者を前記コンピュータ・
    ボイス・メール・メッセージのソースとして識別するこ
    とに失敗する場合には、話者登録を作成するステップ
    と、 前記作成された話者登録を非登録話者と関連付けるステ
    ップと、 前記関連付けられた話者を前記ボイス・メール・メッセ
    ージのソースとして識別するステップとを、さらに含む
    請求項1に記載の方法。
  5. 【請求項5】前記話者識別プロセスは、 各々が対応する登録データを有する登録話者のリストを
    ユーザに与えるステップと、 前記ユーザによる、前記リスト内の前記登録話者のうち
    の1人の選択を受信するステップと、 前記選択された登録話者を前記ボイス・メール・メッセ
    ージのソースとして識別するステップとを含む請求項1
    に記載の方法。
  6. 【請求項6】前記登録を作成するステップは、前記関連
    付けられた話者の監視なし登録(unsupervis
    ed enrollment)を実行するステップを含
    む請求項4に記載の方法。
  7. 【請求項7】ボイス・メール・メッセージを転記するシ
    ステムであって、 発呼者によって発声されたボイス・メール・メッセージ
    を記録するボイス・メール・システムと、 前記記録されたボイス・メール・メッセージと関連付け
    られたソース話者を識別する話者識別プロセッサと、 前記記録されたボイス・メール・メッセージと関連付け
    られた前記識別されたソース話者に対応する話者登録デ
    ータを用いて、前記記録されたボイス・メール・メッセ
    ージの音声/テキスト変換を実行する音声認識システム
    とを備え、 前記音声/テキスト変換は、前記ボイス・メール・メッ
    セージの転記を作り出すシステム。
  8. 【請求項8】前記転記を表示する表示手段をさらに備え
    る請求項7に記載のシステム。
  9. 【請求項9】前記表示手段は、前記転記を印刷するプリ
    ンタおよび前記転記を視覚的に表示するユーザ・インタ
    ーフェースのグループから選択される請求項8に記載の
    システム。
  10. 【請求項10】前記話者識別プロセッサは、テキスト独
    立型話者識別手法を実行する請求項7に記載のシステ
    ム。
  11. 【請求項11】前記話者識別プロセッサによって識別さ
    れない前記ボイス・メール・メッセージのソースと関連
    付けられた話者登録データを作成する監視なし登録プロ
    セッサと、 前記作成された話者登録データを用いて、前記未知の話
    者によって発声されたボイス・メール・メッセージの前
    記音声/テキスト変換を実行する前記音声認識システム
    とを、さらに備える請求項7に記載のシステム。
  12. 【請求項12】ボイス・メール・メッセージ転記するコ
    ンピュータ・プログラムを格納したマシン読み取り可能
    なストレージであって、前記コンピュータ・プログラム
    は、 オーディオ・ファイルに格納されたコンピュータ・ボイ
    ス・メール・メッセージをコンピュータ音声認識システ
    ムに与えるステップと、 前記コンピュータ・ボイス・メール・メッセージを、前
    記音声認識システム内の話者識別プロセスに処理依頼
    し、前記話者識別プロセスが、登録話者を前記コンピュ
    ータ・ボイス・メール・メッセージのソースとして識別
    するステップと、 前記登録話者の前記識別に応答して、前記コンピュータ
    ・ボイス・メール・メッセージを、前記音声認識システ
    ム内の音声変換プロセスに処理依頼し、前記音声変換プ
    ロセスが、前記識別された登録話者に対応する話者登録
    データを用いて、前記コンピュータ・ボイス・メール・
    メッセージの音声/テキスト変換を実行するステップ
    と、 前記音声/テキスト変換が、前記コンピュータ・ボイス
    ・メール・メッセージの転記を作り出すステップとをマ
    シンに実行させる、前記マシンによって実行可能な複数
    のコード・セクションを有するマシン読み取り可能なス
    トレージ。
  13. 【請求項13】前記コンピュータ・プログラムは、前記
    転記を表示するステップを前記マシンにさらに実行させ
    る、マシンによって実行可能な複数のコード・セクショ
    ンをさらに有する請求項12に記載のマシン読み取り可
    能なストレージ。
  14. 【請求項14】前記話者識別プロセスは、テキスト独立
    型話者識別を用いて、話者登録データを有する登録話者
    を、前記ボイス・メール・メッセージのソースとして識
    別するステップを含む請求項12に記載のマシン読み取
    り可能なストレージ。
  15. 【請求項15】前記話者識別プロセスは、 前記話者識別プロセスが登録話者を前記コンピュータ・
    ボイス・メール・メッセージのソースとして識別するこ
    とに失敗する場合には、話者登録を作成するステップ
    と、 前記作成された話者登録を非登録話者と関連付けるステ
    ップと、 前記関連付けられた話者を前記ボイス・メール・メッセ
    ージのソースとして識別するステップとを、さらに含む
    請求項12に記載のマシン読み取り可能なストレージ。
  16. 【請求項16】前記話者識別プロセスは、 各々が対応する登録データを有する登録話者のリストを
    ユーザに与えるステップと、 前記ユーザによる、前記リスト内の前記登録話者のうち
    の1人の選択を受信するステップと、 前記選択された登録話者を前記ボイス・メール・メッセ
    ージのソースとして識別するステップとを含む請求項1
    2に記載のマシン読み取り可能なストレージ。
  17. 【請求項17】前記登録を作成するステップは、前記関
    連付けられた話者の監視なし登録を実行するステップを
    含む請求項15に記載のマシン読み取り可能なストレー
    ジ。
JP2001156784A 2000-05-26 2001-05-25 ボイス・メール・メッセージを転記する方法およびシステム Pending JP2002032213A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/579985 2000-05-26
US09/579,985 US6775651B1 (en) 2000-05-26 2000-05-26 Method of transcribing text from computer voice mail

Publications (1)

Publication Number Publication Date
JP2002032213A true JP2002032213A (ja) 2002-01-31

Family

ID=24319168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001156784A Pending JP2002032213A (ja) 2000-05-26 2001-05-25 ボイス・メール・メッセージを転記する方法およびシステム

Country Status (3)

Country Link
US (1) US6775651B1 (ja)
JP (1) JP2002032213A (ja)
GB (1) GB2362745A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003289387A (ja) * 2002-03-15 2003-10-10 Microsoft Corp ボイスメッセージ処理システムおよび方法
JP2005062874A (ja) * 2003-08-11 2005-03-10 Microsoft Corp 音声認識で機能強化された発信者識別

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689416B1 (en) 1999-09-29 2010-03-30 Poirier Darrell A System for transferring personalize matter from one computer to another
US7664636B1 (en) 2000-04-17 2010-02-16 At&T Intellectual Property Ii, L.P. System and method for indexing voice mail messages by speaker
US7565680B1 (en) * 2000-06-30 2009-07-21 Comcast Ip Holdings I, Llc Advanced set top terminal having a video call feature
US6944591B1 (en) * 2000-07-27 2005-09-13 International Business Machines Corporation Audio support system for controlling an e-mail system in a remote computer
US7253919B2 (en) 2000-11-30 2007-08-07 Ricoh Co., Ltd. Printer with embedded retrieval and publishing interface
US8213910B2 (en) * 2001-02-09 2012-07-03 Harris Technology, Llc Telephone using a connection network for processing data remotely from the telephone
US7225126B2 (en) * 2001-06-12 2007-05-29 At&T Corp. System and method for processing speech files
US6873687B2 (en) * 2001-09-07 2005-03-29 Hewlett-Packard Development Company, L.P. Method and apparatus for capturing and retrieving voice messages
US7418381B2 (en) * 2001-09-07 2008-08-26 Hewlett-Packard Development Company, L.P. Device for automatically translating and presenting voice messages as text messages
US7346505B1 (en) * 2001-09-28 2008-03-18 At&T Delaware Intellectual Property, Inc. System and method for voicemail transcription
JP2003143256A (ja) 2001-10-30 2003-05-16 Nec Corp 端末装置と通信制御方法
US7861169B2 (en) 2001-11-19 2010-12-28 Ricoh Co. Ltd. Multimedia print driver dialog interfaces
US7415670B2 (en) * 2001-11-19 2008-08-19 Ricoh Co., Ltd. Printer with audio/video localization
US7314994B2 (en) * 2001-11-19 2008-01-01 Ricoh Company, Ltd. Music processing printer
US7747655B2 (en) * 2001-11-19 2010-06-29 Ricoh Co. Ltd. Printable representations for time-based media
US7310517B2 (en) * 2002-04-03 2007-12-18 Ricoh Company, Ltd. Techniques for archiving audio information communicated between members of a group
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
US7376139B1 (en) * 2002-09-17 2008-05-20 At&T Delaware Intellectual Property, Inc. Inter-switch voicemail analysis tool
US7539086B2 (en) * 2002-10-23 2009-05-26 J2 Global Communications, Inc. System and method for the secure, real-time, high accuracy conversion of general-quality speech into text
US7739583B2 (en) 2003-03-31 2010-06-15 Ricoh Company, Ltd. Multimedia document sharing method and apparatus
US7703002B2 (en) * 2003-03-31 2010-04-20 Ricoh Company, Ltd. Method and apparatus for composing multimedia documents
US7509569B2 (en) * 2003-03-31 2009-03-24 Ricoh Co., Ltd. Action stickers for nested collections
US7536638B2 (en) * 2003-03-31 2009-05-19 Ricoh Co., Ltd. Action stickers for identifying and processing stored documents
US7757162B2 (en) * 2003-03-31 2010-07-13 Ricoh Co. Ltd. Document collection manipulation
KR101166930B1 (ko) 2003-04-22 2012-07-23 스핀복스 리미티드 무선 정보 장치에 음성 메일을 제공하는 방법
US7519042B2 (en) 2003-09-12 2009-04-14 Motorola, Inc. Apparatus and method for mixed-media call formatting
US7864352B2 (en) 2003-09-25 2011-01-04 Ricoh Co. Ltd. Printer with multimedia server
JP2005108230A (ja) 2003-09-25 2005-04-21 Ricoh Co Ltd オーディオ/ビデオコンテンツ認識・処理機能内蔵印刷システム
US8077341B2 (en) 2003-09-25 2011-12-13 Ricoh Co., Ltd. Printer with audio or video receiver, recorder, and real-time content-based processing logic
US20050137872A1 (en) * 2003-12-23 2005-06-23 Brady Corey E. System and method for voice synthesis using an annotation system
US7603615B2 (en) * 2004-03-30 2009-10-13 Ricoh Co., Ltd. Multimedia projector-printer
US8274666B2 (en) 2004-03-30 2012-09-25 Ricoh Co., Ltd. Projector/printer for displaying or printing of documents
KR100617826B1 (ko) * 2004-05-11 2006-08-28 삼성전자주식회사 음성메시지를 문자메시지로 변환하는 이동단말기 및 방법
US7302048B2 (en) * 2004-07-23 2007-11-27 Marvell International Technologies Ltd. Printer with speech transcription of a recorded voice message
US8107609B2 (en) 2004-12-06 2012-01-31 Callwave, Inc. Methods and systems for telephony call-back processing
JP2006189626A (ja) * 2005-01-06 2006-07-20 Fuji Photo Film Co Ltd 記録装置及び音声記録プログラム
US7917178B2 (en) * 2005-03-22 2011-03-29 Sony Ericsson Mobile Communications Ab Wireless communications device with voice-to-text conversion
US8265930B1 (en) * 2005-04-13 2012-09-11 Sprint Communications Company L.P. System and method for recording voice data and converting voice data to a text file
US20060293890A1 (en) * 2005-06-28 2006-12-28 Avaya Technology Corp. Speech recognition assisted autocompletion of composite characters
US8249873B2 (en) * 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US8976944B2 (en) * 2006-02-10 2015-03-10 Nuance Communications, Inc. Mass-scale, user-independent, device-independent voice messaging system
ES2420559T3 (es) * 2006-02-10 2013-08-23 Spinvox Limited Un sistema a gran escala, independiente del usuario e independiente del dispositivo de conversión del mensaje vocal a texto
US11128745B1 (en) * 2006-03-27 2021-09-21 Jeffrey D. Mullen Systems and methods for cellular and landline text-to-audio and audio-to-text conversion
GB2451371B (en) 2006-04-17 2011-02-23 Vovision Llc Method and systems for correcting transcribed audio files
WO2009073768A1 (en) * 2007-12-04 2009-06-11 Vovision, Llc Correcting transcribed audio files with an email-client interface
US8121626B1 (en) 2006-06-05 2012-02-21 Callwave, Inc. Method and systems for short message forwarding services
US8102986B1 (en) 2006-11-10 2012-01-24 Callwave, Inc. Methods and systems for providing telecommunications services
US7415409B2 (en) * 2006-12-01 2008-08-19 Coveo Solutions Inc. Method to train the language model of a speech recognition system to convert and index voicemails on a search engine
US20080317226A1 (en) * 2007-01-09 2008-12-25 Freescale Semiconductor, Inc. Handheld device for transmitting a visual format message
WO2008084211A2 (en) 2007-01-09 2008-07-17 Spinvox Limited Method of generating useful, related links from a text based message
US8077839B2 (en) * 2007-01-09 2011-12-13 Freescale Semiconductor, Inc. Handheld device for dialing of phone numbers extracted from a voicemail
US8447285B1 (en) * 2007-03-26 2013-05-21 Callwave Communications, Llc Methods and systems for managing telecommunications and for translating voice messages to text messages
US8325886B1 (en) 2007-03-26 2012-12-04 Callwave Communications, Llc Methods and systems for managing telecommunications
US8214338B1 (en) * 2007-05-01 2012-07-03 Callwave, Inc. Methods and systems for media storage
US8583746B1 (en) 2007-05-25 2013-11-12 Callwave Communications, Llc Methods and systems for web and call processing
US20090307870A1 (en) * 2008-06-16 2009-12-17 Steven Randolph Smith Advertising housing for mass transit
US8180644B2 (en) 2008-08-28 2012-05-15 Qualcomm Incorporated Method and apparatus for scrolling text display of voice call or message during video display session
US20100111270A1 (en) * 2008-10-31 2010-05-06 Vonage Holdings Corp. Method and apparatus for voicemail management
US20100121641A1 (en) * 2008-11-11 2010-05-13 Aibelive Co., Ltd External voice identification system and identification process thereof
US8199888B2 (en) * 2008-12-04 2012-06-12 At&T Intellectual Property I, L.P. System and method for automatically transcribing voicemail
US8688445B2 (en) * 2008-12-10 2014-04-01 Adobe Systems Incorporated Multi-core processing for parallel speech-to-text processing
US8204486B2 (en) * 2008-12-19 2012-06-19 Cox Communications, Inc. Dynamic messaging routing and audio-to-text linking for visual voicemail
US8345832B2 (en) * 2009-01-09 2013-01-01 Microsoft Corporation Enhanced voicemail usage through automatic voicemail preview
US9871916B2 (en) * 2009-03-05 2018-01-16 International Business Machines Corporation System and methods for providing voice transcription
US9270828B2 (en) * 2010-07-01 2016-02-23 At&T Mobility Ii Llc. System and method for voicemail to text conversion
US20140074465A1 (en) * 2012-09-11 2014-03-13 Delphi Technologies, Inc. System and method to generate a narrator specific acoustic database without a predefined script
US9230542B2 (en) * 2014-04-01 2016-01-05 Zoom International S.R.O. Language-independent, non-semantic speech analytics
WO2016165135A1 (zh) * 2015-04-17 2016-10-20 华为技术有限公司 联系人信息添加方法及用户设备
US9830903B2 (en) * 2015-11-10 2017-11-28 Paul Wendell Mason Method and apparatus for using a vocal sample to customize text to speech applications
US9917939B1 (en) 2017-03-01 2018-03-13 Sorenson Ip Holdings, Llc Automatically delaying playback of a voice message at a captioning device
US11961524B2 (en) 2021-05-27 2024-04-16 Honeywell International Inc. System and method for extracting and displaying speaker information in an ATC transcription

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63110496A (ja) * 1986-10-29 1988-05-14 日本電気株式会社 話者確認装置
JPH09198084A (ja) * 1996-01-16 1997-07-31 Nippon Telegr & Teleph Corp <Ntt> モデル更新を伴う話者認識方法及びその装置
JPH10261018A (ja) * 1997-03-18 1998-09-29 Masataka Kusunoki カルテ記載サポート装置
JPH1175044A (ja) * 1997-08-27 1999-03-16 Casio Comput Co Ltd 画像中継伝送方法、音声中継伝送方法、画像中継伝送装置及び音声中継伝送装置
JPH11205376A (ja) * 1998-01-09 1999-07-30 Victor Co Of Japan Ltd メディア変換システム及びメディア変換プログラムを記録した記録媒体
JPH11231895A (ja) * 1998-02-17 1999-08-27 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及びその装置
JPH11282856A (ja) * 1998-03-27 1999-10-15 Animo:Kk 音声処理装置および記録媒体
JP2000056794A (ja) * 1998-08-11 2000-02-25 Fujitsu Ltd 音声認識システム及び記録媒体
JP2000089788A (ja) * 1999-09-13 2000-03-31 Seiko Epson Corp 音声認識装置における連続単語認識方法および音声認識装置における連続単語認識処理プログラムを記録した記録媒体
JP2000099087A (ja) * 1998-09-15 2000-04-07 Koninkl Philips Electronics Nv 言語音声モデルを適応させる方法及び音声認識システム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5199062A (en) * 1988-01-20 1993-03-30 Phone Base Systems Inc. Telephone communications system including a digital telephone switch, a voice response unit and a stored program sequence for controlling both the switch and the voice response unit
GB8809898D0 (en) 1988-04-27 1988-06-02 British Telecomm Voice-operated service
WO1993007562A1 (en) * 1991-09-30 1993-04-15 Riverrun Technology Method and apparatus for managing information
US5568540A (en) * 1993-09-13 1996-10-22 Active Voice Corporation Method and apparatus for selecting and playing a voice mail message
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5696879A (en) * 1995-05-31 1997-12-09 International Business Machines Corporation Method and apparatus for improved voice transmission
US5771276A (en) * 1995-10-10 1998-06-23 Ast Research, Inc. Voice templates for interactive voice mail and voice response system
US5822405A (en) * 1996-09-16 1998-10-13 Toshiba America Information Systems, Inc. Automated retrieval of voice mail using speech recognition
GB2323693B (en) * 1997-03-27 2001-09-26 Forum Technology Ltd Speech to text conversion
GB2323694B (en) 1997-03-27 2001-07-18 Forum Technology Ltd Adaptation in speech to text conversion
US6067516A (en) 1997-05-09 2000-05-23 Siemens Information Speech and text messaging system with distributed speech recognition and speaker database transfers
US6219407B1 (en) * 1998-01-16 2001-04-17 International Business Machines Corporation Apparatus and method for improved digit recognition and caller identification in telephone mail messaging
US6327343B1 (en) * 1998-01-16 2001-12-04 International Business Machines Corporation System and methods for automatic call and data transfer processing
US6216104B1 (en) * 1998-02-20 2001-04-10 Philips Electronics North America Corporation Computer-based patient record and message delivery system
US6415256B1 (en) * 1998-12-21 2002-07-02 Richard Joseph Ditzik Integrated handwriting and speed recognition systems
US6167376A (en) * 1998-12-21 2000-12-26 Ditzik; Richard Joseph Computer system with integrated telephony, handwriting and speech recognition functions
US6442242B1 (en) * 1999-06-25 2002-08-27 Verizon Services Corporation Multifunction autoattendant system and method of operation thereof
US6401063B1 (en) * 1999-11-09 2002-06-04 Nortel Networks Limited Method and apparatus for use in speaker verification

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63110496A (ja) * 1986-10-29 1988-05-14 日本電気株式会社 話者確認装置
JPH09198084A (ja) * 1996-01-16 1997-07-31 Nippon Telegr & Teleph Corp <Ntt> モデル更新を伴う話者認識方法及びその装置
JPH10261018A (ja) * 1997-03-18 1998-09-29 Masataka Kusunoki カルテ記載サポート装置
JPH1175044A (ja) * 1997-08-27 1999-03-16 Casio Comput Co Ltd 画像中継伝送方法、音声中継伝送方法、画像中継伝送装置及び音声中継伝送装置
JPH11205376A (ja) * 1998-01-09 1999-07-30 Victor Co Of Japan Ltd メディア変換システム及びメディア変換プログラムを記録した記録媒体
JPH11231895A (ja) * 1998-02-17 1999-08-27 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及びその装置
JPH11282856A (ja) * 1998-03-27 1999-10-15 Animo:Kk 音声処理装置および記録媒体
JP2000056794A (ja) * 1998-08-11 2000-02-25 Fujitsu Ltd 音声認識システム及び記録媒体
JP2000099087A (ja) * 1998-09-15 2000-04-07 Koninkl Philips Electronics Nv 言語音声モデルを適応させる方法及び音声認識システム
JP2000089788A (ja) * 1999-09-13 2000-03-31 Seiko Epson Corp 音声認識装置における連続単語認識方法および音声認識装置における連続単語認識処理プログラムを記録した記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003289387A (ja) * 2002-03-15 2003-10-10 Microsoft Corp ボイスメッセージ処理システムおよび方法
JP4619623B2 (ja) * 2002-03-15 2011-01-26 マイクロソフト コーポレーション ボイスメッセージ処理システムおよび方法
JP2005062874A (ja) * 2003-08-11 2005-03-10 Microsoft Corp 音声認識で機能強化された発信者識別

Also Published As

Publication number Publication date
US6775651B1 (en) 2004-08-10
GB2362745A (en) 2001-11-28
GB0112299D0 (en) 2001-07-11

Similar Documents

Publication Publication Date Title
JP2002032213A (ja) ボイス・メール・メッセージを転記する方法およびシステム
US9437192B2 (en) Method and device of matching speech input to text
US20180197545A1 (en) Methods and apparatus for hybrid speech recognition processing
US6327343B1 (en) System and methods for automatic call and data transfer processing
US6366882B1 (en) Apparatus for converting speech to text
US8064573B2 (en) Computer generated prompting
JP3397372B2 (ja) 音声認識方法及び装置
US7092496B1 (en) Method and apparatus for processing information signals based on content
US7496510B2 (en) Method and apparatus for the automatic separating and indexing of multi-speaker conversations
US20090013255A1 (en) Method and System for Supporting Graphical User Interfaces
US20060004570A1 (en) Transcribing speech data with dialog context and/or recognition alternative information
JP5731998B2 (ja) 対話支援装置、対話支援方法および対話支援プログラム
US20100178956A1 (en) Method and apparatus for mobile voice recognition training
KR19980070329A (ko) 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
US20060271365A1 (en) Methods and apparatus for processing information signals based on content
CN107624177B (zh) 用于提高用户效率和交互性能的可听呈现的选项的自动视觉显示
CN110807093A (zh) 语音处理方法、装置及终端设备
JP2009175630A (ja) 音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラム、および該プログラムを記録したコンピュータ読み取り可能な記録媒体
US7844459B2 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
TW521263B (en) Automatic speech recognition to control integrated communication devices
JP5591428B2 (ja) 自動記録装置
JP2002524777A (ja) ボイス・ダイアリング方法およびシステム
JP6322125B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US6662157B1 (en) Speech recognition system for database access through the use of data domain overloading of grammars
US6212499B1 (en) Audible language recognition by successive vocabulary reduction

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041130

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20050221

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20050224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050526

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050526

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20050526

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060411

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060705

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060705

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070910

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070921

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20070921