JP2002032213A

JP2002032213A - ボイス・メール・メッセージを転記する方法およびシステム

Info

Publication number: JP2002032213A
Application number: JP2001156784A
Authority: JP
Inventors: James R Lewis; ジェイムス・アール・ルイス; Kerry A Ortega; ケリー・エイ・オルテガ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-05-26
Filing date: 2001-05-25
Publication date: 2002-01-31
Also published as: GB2362745A; GB0112299D0; US6775651B1

Abstract

(57)【要約】【課題】コンピュータ・ボイス・メール・メッセージ
を転記するシステムの必要性が生じている。【解決手段】本発明は、ボイス・メール・メッセージ
を転記する方法およびシステムに関する。本発明の方法
は、第１に、オーディオ・ファイルに格納されたコンピ
ュータ・ボイス・メール・メッセージをコンピュータ音
声認識システムに与えるステップと、第２に、コンピュ
ータ・ボイス・メール・メッセージを、音声認識システ
ム内の話者識別プロセスに処理依頼するステップとを有
する複数のステップを含む。特に、話者識別プロセス
は、登録話者をコンピュータ・ボイス・メール・メッセ
ージのソースとして識別できる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識ソフトウ
ェアの分野に関し、特に、電話応答マシン・ボイス・メ
ール・メッセージを転記するシステムに関する。

【０００２】

【従来の技術】常に増大する多数の人々が、ボイス・メ
ール・サービスのソースとしてパーソナル・コンピュー
タを使用し始めた。個別の電話応答マシンの要求および
費用を緩和することにより、電話回線を通してボイス・
メール・メッセージを記録するためのパーソナル・コン
ピュータの使用は、消費者が出費を節約することを可能
にする。手の届く範囲の値段で購入できるマルチメディ
ア・パーソナル・コンピュータにおいて消費者が現在利
用できる膨大な量のコンピュータ能力のために、この傾
向は続きそうである。さらに、サウンド・カードおよび
モデムのような、パーソナル・コンピュータがボイス・
メール・サービスを提供できるようにするコンポーネン
トは、大部分の高速マルチメディア・パーソナル・コン
ピュータの標準装備になった。

【０００３】消費者にもたらされる節約のほかに、コン
ピュータ・ボイス・メール・システムは、消費者に、消
費者の電話応答マシン同等物に関して増大した柔軟性を
提供する。パーソナル・コンピュータのスピードおよび
記憶容量の増加は、これらのマシンが、従来の電話応答
マシンよりも長いメッセージを記録しはるかに多数のメ
ッセージを格納できるようにする。さらに、発呼者によ
って残されたボイス・メール・メッセージは、Ｗａｖｅ
もしくはＭＰ３ファイルのような様々な標準化されたマ
ルチメディアまたはオーディオ・ファイル・タイプのい
ずれにも記録され得る。このようなディジタル・ファイ
ルは、操作され、コピーされ、格納され、もしくは伝送
され得る。

【０００４】パーソナル・コンピュータをボイス・メー
ルのために利用することの多くの利点にもかかわらず、
不利な点が存在する。このような不利な点の一つは、た
とえ現代のパーソナル・コンピュータの記憶容量が無制
限であるように見えても、オーディオ・ファイル自身
が、かなり大きいこともあり得るということである。従
って、古いボイス・メール・メッセージを格納または保
存することは、あらゆる個別のパーソナル・コンピュー
タにおいて利用できるものよりはるかに多くの記憶容量
を消費し得る。記憶容量が異常に高い額で度々取得され
るネットワーク・コンテキストにおいて、ボイス・メー
ル・オーディオ・ファイルの大きいサイズは、さらに一
層問題となり得る。

【０００５】コンピュータ・ベース・ボイス・メール・
システムに固有の他の不利な点は、オーディオ・ファイ
ルの大きいサイズが、ネットワークを通したファイルの
高速伝送を妨げることがあり、ネットワーク輻輳を引き
起こし得るということである。このような輻輳は、度
々、ネットワーク性能の低下、あるいはそれどころかネ
ットワーク・サービス停止をもたらす。さらに、この問
題の一因となるのは、ＷａｖｅまたはＭＰ３ファイルの
圧縮は、典型的に、ファイル・サイズの実質的に十分な
縮小をもたらさないということである。従って、Ｗａｖ
ｅまたはＭＰ３ファイルとして保存された、３分から４
分間の詳細ボイス・メール・メッセージは、従来の２
８．８ｋｐｂｓモデム接続を介してオーディオ・ファイ
ルをアップロードおよび伝送するために３分または４分
再生時間よりもはるかに長い時間を必要とすることがあ
る。

【０００６】全てのボイス・メール・システムに固有の
他の不利な点は、そこにおいてボイス・メール・メッセ
ージのテキスト転記が便利であるとユーザが知るであろ
う機会が、明らかに生じ得るということである。ボイス
・メールがロケーションに対する指示を含む場合に、事
情は上述のとおりである。指示を含むボイス・メール・
メッセージが従来の電話応答マシン上に残されるにせ
よ、コンピュータ・ベース・ボイス・メール・システム
上に残されるにせよ、いずれにしても、ボイス・メール
・メッセージの正確な転記を得るためには、ユーザは、
手動でボイス・メール・メッセージを転記しなければな
らない。

【０００７】音声認識と呼ばれる他の既知のテクノロジ
は、それにより、マイクロホンによって受信された音響
信号が、コンピュータによって一組のテキスト・ワード
へ変換されるプロセスである。これらの認識されたワー
ドは、文書作成（ｄｏｃｕｍｅｎｔｐｒｅｐａｒａｔ
ｉｏｎ），データ入力，およびコマンドと制御のような
目的に適した様々なコンピュータ・ソフトウェア・アプ
リケーションにおいて使用され得る。近頃、音声認識は
記録テクノロジに応用されてきた。とりわけ、ボイス・
レコーダ（ｖｏｉｃｅｒｅｃｏｒｄｅｒｓ）は、テキ
ストへの変換のために音声認識エンジンへ続いて与えら
れ得るオーディオ入力を記録するよう設計されてきた。
さらに、記録されたオーディオをテキストへ変換するた
めには、第一に、音声認識エンジンは、オリジナルに記
録されたオーディオ入力を与える話者を認識するよう訓
練されなければならない。

【０００８】話者認識は、音声信号に含まれた個人情報
に基づいて誰が話しているのか自動的に認識するプロセ
スである。話者認識は、話者識別と話者照合とに分ける
ことができる。話者識別は、一組の既知の話者の中か
ら、どの登録話者が一定の発音を与えるか判定する。比
べると、話者照合は、話者の一致請求（すなわち話者
が、彼らがそうであるというところの人物であるか）を
受理あるいは拒否する。話者認識テクノロジは、制限さ
れたサービスに対するアクセス、例えば、銀行，データ
ベース・サービス，ショッピングまたはボイス・メール
に対する電話アクセス、および保護された機器に対する
アクセスを制御するために話者の声を使用することの問
題に応用されてきた。双方のテクノロジは、ユーザに、
システムに登録すること、すなわちシステムに対して彼
らの音声の見本を与えることを求め、システムが彼らの
ボイス・パターンを特徴付ける（または学習する）こと
ができるようにする。話者認識方法は、テキスト依存型
（ｔｅｘｔ−ｄｅｐｅｎｄｅｎｔ）方法とテキスト独立
型（ｔｅｘｔ−ｉｎｄｅｐｅｎｄｅｎｔ）方法とに分け
ることができる。

【０００９】話者に独自に属し、時がたつにつれて変わ
ることがない特徴を一定の発音から抽出することは、テ
キスト独立型話者識別システム（ｔｅｘｔ−ｉｎｄｅｐ
ｅｎｄｅｎｔｓｐｅａｋｅｒｉｄｅｎｔｉｆｉｃａ
ｔｉｏｎｓｙｓｔｅｍｓ）に対して主要なものであ
る。とりわけ、音声認識システムに登録データを集める
とき、話者の音声の特徴は抽出され、既知の話者と関連
付けられ、例えば名前または既知の話者と関連付けられ
たＩＤのようなリファレンスと一緒にデータベースに格
納され得る。典型的には、特徴抽出の際に、話者独立型
音素検出器（ｓｐｅａｋｅｒ−ｉｎｄｅｐｅｎｄｅｎｔ
ｐｈｏｎｅｍｅｄｅｔｅｃｔｏｒ）は、話者ごとに
区別の目安となる音素を認識することができる。登録デ
ータは続いて、リファレンスを用いて検索され、未知の
話者の声から抽出された特徴と比較され得る。未知の話
者の声から抽出された特徴が、検索された登録データの
特徴と適切に同程度である場合には、未知の話者は、検
索された登録データを提供した話者として識別できる。

【００１０】

【発明が解決しようとする課題】話者認識テクノロジに
おける進歩にもかかわらず、ボイス・メール・システム
は、アクセス制御が及ばない話者認識テクノロジを依然
として組み込まなければならない。さらに、コンピュー
タ・ベース・ボイス・メール・システム、および話者認
識テクノロジを利用する音声認識システムが存在する
が、ユーザをさらによく満足させるためには、２つのテ
クノロジの組み合わせが依然として必要である。話者認
識テクノロジに基づくボイス・メール・メッセージの正
確かつ効率のよい転記は、コンピュータ・ベース・ボイ
ス・メール・システムの有益性を非常に高めるであろ
う。結果として、コンピュータ・ボイス・メール・メッ
セージを転記するシステムの必要性が発生した。

【００１１】

【課題を解決するための手段】本発明の構成に従ってコ
ンピュータ・ボイス・メール・メッセージを転記するこ
こに開示された発明は、コンピュータ・ベース・ボイス
・メール・システムと共に話者認識テクノロジが備えら
れた音声認識システムを用いることによって、従来技術
の長く考えられていた要求を満たす。本発明は、コンピ
ュータ・ボイス・メール・システムから、オーディオ・
ファイルに格納されたボイス・メール・メッセージを受
信またはインポートすることができる。ボイス・メール
・メッセージのインポートの後、システムは、ボイス・
メール・メッセージの話者を識別することができる。識
別された話者に対応する登録データを用いて、システム
は、ボイス・メール・メッセージをテキストへ変換す
る、あるいは、オーディオ・ファイルに含まれるオーデ
ィオを転記することができる。最後に、テキストはテキ
スト・ファイルに格納され得る。従って、結果として生
じるテキスト・ファイルは、インポートされたオーディ
オ・ファイルであって、それからテキストが変換された
オーディオ・ファイルよりもサイズがはるかに小さい。
縮小されたファイル・サイズは、ストレージ・スペース
の節約およびファイルを伝送するために要求されるリソ
ースの削減に特に有益である。その上、結果として生じ
るテキスト・ファイルは、テキストをビデオ・ディスプ
レイ端末に表示する，テキストを印刷する，テキスト・
ファイルを伝送する，あるいはその後の使用のためにテ
キスト・ファイルを格納する等を含む様々な形態でユー
ザに利用可能にすることができる。

【００１２】本発明は、ボイス・メール・メッセージを
転記する方法およびシステムに関する。本発明の方法
は、第１に、オーディオ・ファイルに格納されたコンピ
ュータ・ボイス・メール・メッセージをコンピュータ音
声認識システムに与えるステップと、第２に、コンピュ
ータ・ボイス・メール・メッセージを、音声認識システ
ム内の話者識別プロセスに処理依頼するステップとを有
する複数のステップを含む。とりわけ、話者識別プロセ
スは、登録話者をコンピュータ・ボイス・メール・メッ
セージのソースとして識別することができる。最後に、
登録話者の識別に応答して、コンピュータ・ボイス・メ
ール・メッセージは、音声認識システム内の音声変換プ
ロセスに処理依頼され得る。音声変換プロセスは、識別
された登録話者に対応する話者登録データを用いて、コ
ンピュータ・ボイス・メール・メッセージの音声／テキ
スト変換を実行することができる。さらに、音声／テキ
スト変換は、コンピュータ・ボイス・メール・メッセー
ジの転記を作り出すことができる。本発明の１つの実施
形態において、転記は、さらに表示可能である。

【００１３】話者識別プロセスは、テキスト独立型話者
識別を用いて、話者登録データを有する登録話者を、ボ
イス・メール・メッセージのソースとして識別すること
ができる。代わりに、話者識別プロセスは、各々が対応
する登録データを有する登録話者のリストをユーザに与
えることができる。話者識別プロセスは、ユーザによ
る、リスト内の登録話者のうちの１人の選択を受信する
ことができ、続いて、選択された登録話者をボイス・メ
ール・メッセージのソースとして識別することができ
る。

【００１４】話者識別プロセスは、話者識別プロセスが
登録話者をコンピュータ・ボイス・メール・メッセージ
のソースとして識別することに失敗する場合には、話者
登録を作成することができる。さらに、作成された話者
登録は、非登録話者と関連付け可能である。最後に、作
成された話者登録が非登録話者と関連付けられた時に、
関連付けられた話者は、ボイス・メール・メッセージの
ソースとして識別され得る。特に、登録を作成するステ
ップは、関連付けられた話者の監視なし登録を実行する
ステップを含むことが可能である。

【００１５】とりわけ、本発明は、ボイス・メール・メ
ッセージを転記するシステムとすることが可能である。
このシステムは、発呼者によって発声されたボイス・メ
ール・メッセージを記録するボイス・メール・システム
と、記録されたボイス・メール・メッセージと関連付け
られたソース話者を識別する話者識別プロセッサと、記
録されたボイス・メール・メッセージと関連付けられた
識別されたソース話者に対応する話者登録データを用い
て、記録されたボイス・メール・メッセージの音声／テ
キスト変換を実行する音声認識システムとを含むことが
可能である。特に、音声／テキスト変換は、ボイス・メ
ール・メッセージの転記を作り出すことが可能である。
その上、システムは、転記を表示する表示手段をさらに
含むことが可能である。加えて、表示手段は、転記を印
刷するプリンタまたは前記転記を視覚的に表示するユー
ザ・インターフェースのいずれか一方とすることが可能
である。

【００１６】特に、話者識別プロセッサは、テキスト独
立型話者識別を実行することができる。加えて、システ
ムは、話者識別プロセッサによって識別されないボイス
・メール・メッセージのソースと関連付けられた話者登
録データを作成する監視なし登録プロセッサを、さらに
含むことが可能である。音声認識システムは、作成され
た話者登録データを用いて、未知の話者によって発声さ
れたボイス・メール・メッセージの音声／テキスト変換
を実行することができる。

【００１７】本発明は、ハードウェア，ソフトウェア，
あるいはハードウェアおよびソフトウェアの組み合わせ
において実現され得る。この中で述べられた方法を実行
することに適応したあらゆる種類のコンピュータ・シス
テムまたは他の装置が適する。ハードウェアおよびソフ
トウェアの典型的な組み合わせは、ロードされ実行され
た時に、コンピュータ・システムがこの中に述べられた
方法を実行するようにコンピュータ・システムを制御す
るコンピュータ・プログラムを備える汎用コンピュータ
・システムとすることができる。

【００１８】本発明は、この中で述べられた方法の実施
を可能にする全ての特徴を含み、コンピュータ・システ
ムにロードされた時にこれらの方法を実行することがで
きるコンピュータ・プログラム製品においてさらに実施
され得る。本コンテキストにおけるコンピュータ・プロ
グラム手段またはコンピュータ・プログラムは、直接
か、あるいは以下のもの、すなわちａ）他の言語，コー
ドまたは表記への変換、ｂ）異なるマテリアル・フォー
ムでの再生のいずれか一方もしくは双方の後に、情報処
理機能を有するシステムに特定のファンクションを実行
させることが意図された一組の命令の（あらゆる言語，
コードまたは表記での）全ての表現式を意味する。

【００１９】

【発明の実施の形態】好適な実施の形態が図面において
示されるが、本発明は、図示される厳密な構成および方
法に限定されないということを理解されたい。

【００２０】図１は、伝統的な電話応答マシンの代わり
に本発明の構成に従ってボイス・メールを処理するよう
構成されたパーソナル・コンピュータの典型的な配置を
示す。とりわけ、図示されるように、発呼者は、電話１
を用いて、本発明にかかるユーザへ電話をかける始める
ことができる。特に、ユーザは、電話応答マシンの代わ
りに、本発明の構成に従ってボイス・メール処理システ
ム４をその中に含むことができるコンピュータ・システ
ム３を有することができる。続いて、ユーザが発呼者の
電話にでない場合には、ボイス・メール処理システム４
は、従来のボイス・メール・メッセージ記録、そして本
発明の方法に従うボイス・メール・メッセージの転記を
実行することができる。コンピュータ・システム３およ
び電話１の各々は、通信手段２を介して通信可能に接続
され得る。図１は、電話配線システムとして通信手段２
を示すが、本発明はこの点に限定されない。むしろ、通
信手段２は、例えばセルラーまたはサテライト通信シス
テムのような、２つのノードを電話によって接続するた
めのあらゆる適切な手段とすることができる。

【００２１】記録されたボイス・メールからテキストを
転記するボイス・メール処理システム４は、コンピュー
タ・システム内部にディジタル・オーディオ・ファイル
として格納されたコンピュータ・ボイス・メール・メッ
セージのテキスト転記を、ユーザが自動的に取得できる
ようにする。好適な実施の形態において、このようなデ
ィジタル・オーディオ・ファイルの受信に応答して、ボ
イス・メール処理システム４は、発呼者を固有のユーザ
登録および対応する登録識別にマッチングさせることに
よって、特定発呼者をコンピュータ・ボイス・メール・
メッセージのソースとして自動的に識別することができ
る。発呼者に対応する固有のユーザ登録は、転記正確度
を増加させ、テキスト独立型話者識別（ｔｅｘｔ−ｉｎ
ｄｅｐｅｎｄｅｎｔｓｐｅａｋｅｒｉｄｅｎｔｉｆ
ｉｃａｔｉｏｎ）および監視なし登録（ｕｎｓｕｐｅｒ
ｖｉｓｅｄｅｎｒｏｌｌｍｅｎｔ）を用いて作成可能
である。いったん発呼者が識別されると、ボイス・メー
ル処理システム４は、識別された発呼者に対応する固有
のユーザ登録を用いてボイス・メール・メッセージの転
記を作り出すことができる。代わりに、ユーザは、ボイ
ス・メール・メッセージを転記する際に使用する特定ユ
ーザ登録を手動で選択できる。さら独立型話者識別を用
いることによって、ボイス・メール処理システム４は、
発呼者に対応する固有のユーザ登録なしに、ボイス・メ
ール・メッセージの転記を作り出すことができる。最後
に、ボイス・メール・メッセージの転記は、ユーザに与
えられ得る。

【００２２】図２は、本発明と共同して使用されるコン
ピュータ・システム３をさらに詳細に説明する。システ
ムは、好ましくは、中央処理装置（ＣＰＵ），１以上の
メモリ・デバイスおよび関連回路を有するコンピュータ
３４から成る。コンピュータ・システム３は、好ましく
は電子ランダム・アクセス・メモリから成るコンピュー
タ・メモリ・デバイス２７を有する。さらに、コンピュ
ータ・システム３は、磁気ハード・ディスク・ドライブ
のような大容量データ・ストレージ・メディア２８を有
することができる。コンピュータ・システム３は、そこ
に操作可能に接続されたビデオ・ディスプレイ端末（Ｖ
ＤＴ）のような少なくとも１つのユーザ・インターフェ
ース・ディスプレイ装置３２、およびマウス２１のよう
なインターフェース・デバイスをさらに含むことができ
る。ＣＰＵは、当業者に周知のあらゆる適切なマイクロ
プロセッサまたは他の電子処理装置から成ることができ
る。このようなＣＰＵの例は、ＩｎｔｅｌＣｏｒｐｏ
ｒａｔｉｏｎから入手可能なＰｅｎｔｉｕｍまたはＰｅ
ｎｔｉｕｍＩＩブランドのマイクロプロセッサあるい
は全ての同種のマイクロプロセッサを含み得る。

【００２３】本発明の方法に従って、コンピュータ・シ
ステム３は、音声認識機能を実行することができる。そ
のようなものとして、コンピュータ・システム３は、マ
イクロホン３０を経て受信されたリアルタイム・オーデ
ィオ信号、または例えばＷａｖｅもしくはＭＰ３ファイ
ルのような固定ストレージ２８に格納されたオーディオ
信号の形式のオーディオ入力を処理するオーディオ回路
２９も含むことができる。オーディオ回路２９は、オー
ディオ出力を処理し、オーディオ出力をスピーカ２３に
提供することもできる。好適な実施の形態において、オ
ーディオ回路２９は、マルチメディア・パーソナル・コ
ンピュータ・システムにおいて使用されるために設計さ
れた商業的に入手可能なサウンド・カードとすることが
できる。

【００２４】最後に、コンピュータ・システム３は、コ
ンピュータを他の通信デバイスへ通信可能に接続する適
切な通信ハードウェアおよびソフトウェアを有すること
ができる。とりわけ、好適な実施の形態において、コン
ピュータ・システム３は、電話をかけ、電話を受けるモ
デム３１を有することができる。好適な実施の形態にお
いて、モデム３１はマルチメディア・コンピュータ・シ
ステムで使用されるＨａｙｅｓ互換５６Ｋ内部モデムで
あるが、モデム３１は、全ての商業的に入手可能なモデ
ムとすることができる。さらに、本発明は、通信ハード
ウェアおよびソフトウェアに関して限定されない。むし
ろ、コンピュータ・システム３が、単にボイス・メール
・メッセージを受信し記録するという要件が、本発明に
対して主要なものである。従って、他の実施の形態にお
いて、モデムは、例えば、ボイス・メール・メッセージ
がコンピュータ・システム３においてワイヤレスに受信
されるワイヤレス・レシーバ、あるいはボイス・メール
・メッセージがネットワーク内に受信されローカル・エ
リア・ネットワークを経てコンピュータ・システム３へ
伝送され得るネットワーク・カードのような、あらゆる
適切な通信デバイスに代わられ得る。特に、この中で述
べられるコンピュータ・システムのための様々なハード
ウェア要件は、ＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉ
ｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎ
によって売り出され製造されるもののような多数の商業
的に入手可能な高速マルチメディア・パーソナル・コン
ピュータのどれでもによって、大部分は満たすことがで
きる。

【００２５】図３は、コンピュータ３においてボイス・
メールをテキストに変換するシステムの典型的なアーキ
テクチャを説明する。図３に示されるように、システム
は、オペレーティング・システム２０および従来の音声
認識エンジン２６を典型的に含む。示される例におい
て、ボイス・メール・アプリケーション２２および通信
クライアント２４も同様に与えられる。図３において、
音声認識エンジン２６，ボイス・メール・アプリケーシ
ョン２２および通信クライアント２４は、個別のアプリ
ケーション・プログラムとして示される。しかし、本発
明はこの点に限定されず、これらの別々のアプリケーシ
ョン・プログラムは、単一の、より複合のアプリケーシ
ョン・プログラムとして実現可能であるということに留
意されたい。例えば、音声認識エンジン２６は、ボイス
・メール・アプリケーション２２と結合可能である。

【００２６】ここで話題にされる好適な実施の形態にお
いて、オペレーティング・システム２０は、ワシントン
州レドモンドのＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔ
ｉｏｎから入手可能なＷｉｎｄｏｗｓ（Ｒ）ＮＴ，Ｗ
ｉｎｄｏｗｓ（Ｒ）２０００またはＷｉｎｄｏｗｓ
（Ｒ）９８のようなＷｉｎｄｏｗｓ（Ｒ）ファミリの
オペレーティング・システムの１つである。しかし、シ
ステムはこの点に限定されず、本発明は、あらゆる他の
タイプのコンピュータ・オペレーティング・システムで
も使用可能である。

【００２７】図３に示されるように、コンピュータ・シ
ステム３は、ランダム・アクセス・メモリ２７および固
定ストレージ２８を含む。固定ストレージ２８は、オペ
レーティング・システム２０，ボイス・メール・アプリ
ケーション２２および通信クライアント２４の各々をそ
こに格納できる。コンピュータ・システム３のブートス
トラップに基づいて、オペレーティング・システム２０
は、ランダム・アクセス・メモリ２７にロードされ得
る。同様に、実行に基づいて、ボイス・メール・アプリ
ケーション２２および通信クライアント２４の各々は、
クライアント・コンピュータ３による実行のためにラン
ダム・アクセス・メモリ２７にロードされ得る。特に、
ボイス・メール・アプリケーション２２は、本発明の方
法を実行するうようにプログラム可能である。とりわ
け、ここで開示されるボイス・メール・アプリケーショ
ン２２は、上述のオペレーティング・システムのための
商業的に入手可能な開発ツールを用いて、プログラマに
よって実現され得る。

【００２８】オペレーションにおいて、発呼者の音声を
表すオーディオ信号を含むボイス・メール・メッセージ
は、コンピュータ・システム３内部のランダム・アクセ
ス・メモリ２７または固定ストレージ２８のどちらか一
方（あるいは双方）内のファイルにディジタルに記録さ
れ格納され得る。ディジタル・オーディオ・ファイルの
形式で存在するボイス・メール・メッセージは、Ｗａｖ
ｅまたはＭＰ３のような、様々な標準マルチメディアま
たはオーディオ・ファイル・フォーマットのいずれであ
ってもよい。本発明が、ボイス・メール・メッセージが
格納される特定のファイル・フォーマットによって限定
されるものではないということを理解されたい。とりわ
け、個々のファイル・フォーマットは、ユーザによって
選択されたコンピュータ・ボイス・メール・アプリケー
ション２２に依存している。オペレーティング・システ
ム２０の援助機能を用いて、ボイス・メール・メッセー
ジに含まれるオーディオ信号は、音声認識エンジン２６
における話者識別プロセスに対して利用可能にすること
ができる。このように、話者識別プロセスは、発呼者に
よって発声され、ボイス・メール・メッセージ内部にデ
ィジタル・オーディオとして含まれたワードの話者を識
別することができる。続いて、識別された話者に対応す
る登録データは、音声認識エンジン２６内の音声／テキ
スト変換プロセスにおいて使用可能であり、音声／テキ
スト変換プロセスは、登録データを用いてオーディオ信
号の音声／テキスト変換を実行することができる。その
ようなものとして、ボイス・メール・メッセージに含ま
れるオーディオ信号は、ボイス・メール・メッセージの
転記へ正確かつ効率よく変換され得る。

【００２９】図４は、従来の音声認識システムを用いて
コンピュータ・ボイス・メール・メッセージからテキス
トを転記する方法およびシステムを説明するフローチャ
ートである。好適な実施の形態において、ボイス・メー
ル・メッセージを含むオーディオ・ファイルは、音声認
識システムに対して利用可能にされる。とりわけ、オー
ディオ・ファイルは、音声認識システムに対する、商業
的に入手可能なアプリケーション・プログラミング・イ
ンターフェース（ＡＰＩ）を用いて、音声認識システム
に対して利用可能にされ得る。当業者は、普通に利用で
きる音声認識システムは、オーディオ・ファイルを処理
する音声認識システムに対してオーディオ・ファイルを
与えるあらかじめプログラムされた方法をそれとともに
含ませるＡＰＩを有することが可能であるということを
認識できる。典型的に、このようなあらかじめプログラ
ムされた方法は、オーディオ・ファイルに対するリファ
レンスを入力として受信することができる。とりわけ、
さらに、従来の音声認識システムに対する典型的なＡＰ
Ｉは、例えば、現行の登録データ、およびオーディオ・
ファイルに対して実行された音声認識オペレーションの
結果を格納するターゲット出力ファイルのような、音声
認識システム内部の構成パラメータを変更するあらかじ
めプログラムされた方法をも含むことができる。

【００３０】ユーザが、発呼者の音声に対応する話者登
録データを作成した場合には、音声認識システムは、好
ましくは発呼者の一致を自動的に判定するテキスト独立
型話者識別を用いることができる。いったん識別される
と、音声認識システムは、識別された発呼者に対応する
話者登録データを用いてコンピュータ・ボイス・メール
・メッセージをテキストへ転記することができる。代わ
りに、音声認識は、ボイス・メール・システムと共同し
て、コンピュータ・ボイス・メール・メッセージを転記
するために、ユーザが、格納された話者登録データを選
択することを可能にし得る。発呼者に対応する話者登録
データが存在しない場合には、音声認識システムは、話
者独立型識別（ｓｐｅａｋｅｒｉｎｄｅｐｅｎｄｅｎ
ｔｉｄｅｎｔｉｆｉｃａｔｉｏｎ）を用いてコンピュ
ータ・ボイス・メール・メッセージを転記し、話者独立
型音声特徴を強調することができる。この場合には、ユ
ーザは、将来の転記で使用されるための発呼者の登録デ
ータを作成することができる。音声認識システムが、コ
ンピュータ・ボイス・メール・メッセージの転記をいっ
たん作り出すと、音声認識システムは、転記のハードコ
ピーを印刷する，転記をメモリに格納する，ボイス・メ
ール・システムにおいて転記を表示する，あるいは転記
を他のロケーションへ伝送する等を含む様々な手段のど
れでもによって、転記をユーザへ提供することができ
る。

【００３１】図４において説明される方法は、ユーザ入
力を待つ連続ループにかかわっているアクティブ状態の
音声認識システムから開始する。加えて、ボイス・メー
ル・システムとして使用されるユーザのコンピュータ・
システム３は、様々な発呼者からのディジタル・オーデ
ィオ・ファイル形式のボイス・メール・メッセージを含
む。ボイス・メール・メッセージを転記するシステムは
独立のアプリケーション・プログラムとして述べられる
が、システムは、他のアプリケーション・プログラム内
部でボイス・メール・メッセージの転記を作動させるた
めのボタン，メニュー項目，あるいは音声コマンドを備
えることにより、電子メール・プログラムのような別個
のアプリケーション・プログラム内部から始動可能であ
るということを理解されたい。

【００３２】どんな場合でも、ステップ５０から開始
し、ボイス・メール・メッセージを転記するシステム
は、テキストへのボイス・メール・メッセージの変換と
も称されるボイス・メール・メッセージの転記を要求す
るユーザ入力を待つ。ボイス・メール・メッセージの転
記を要求するユーザ入力は、ユーザ・ボイス・コマン
ド，キーボード入力，あるいはマウス操作等を含む種々
の適切なフォームのいずれであってもよい。従って、シ
ステムが、ユーザがボイス・メール・メッセージを転記
したいということを指示する入力を受信する場合には、
システムはステップ５５へ進む。そうでない場合には、
システムは、そのような入力が受信されるまで、ループ
を続ける。

【００３３】ステップ５５において、ボイス・メール・
メッセージを転記するシステムは、ユーザが、転記のた
めにシステムに対して特定ボイス・メール・メッセージ
を識別することを要求する。例えば、システムは、転記
されるボイス・メール・メッセージを含むコンピュータ
・メモリ内のロケーションへユーザがナビゲートできる
ようにする標準ファイル・ナビゲーション・コントロー
ルを有するグラフィカル・ユーザ・インターフェース
（ＧＵＩ）をユーザに与えることができる。ＧＵＩ内部
で、ユーザは、マウス，キーボード入力，あるいは発せ
られた言葉を用いてボイス・メール・メッセージを強調
表示することによってシステムに対してボイス・メール
・メッセージを識別し得る。本発明は、転記のために単
一のボイス・メール・メッセージを受信することに限定
されないということが当業者によって理解される。例え
ばＧＵＩは、ユーザが、転記のためにシステムに対して
複数ボイス・メール・メッセージを識別または強調表示
することを可能にすることができる。代わりに、ユーザ
は、転記のためのボイス・メール・メッセージの属性を
指定することができる。例として、一連の方法で単一ボ
イス・メール・メッセージまたは複数メッセージを選択
する代わりに、ユーザは、特定の日にあるいは特定の発
呼者から発生する全てのボイス・メール・メッセージを
識別し得る。システムによって使用されるＧＵＩの特定
フォーマットに関係なく、１以上のボイス・メール・メ
ッセージが識別される場合には、システムはステップ６
０へ進む。

【００３４】ステップ６０において、ユーザによって選
択されたボイス・メール・メッセージは、転記のために
音声認識システムに対してインポートされあるいは利用
可能にされる。ボイス・メール・メッセージを転記する
システムは、ボイス・メール・メッセージを音声認識シ
ステム２２に含まれるディクテーション・クライアント
に再生することができる。このように、ボイス・メール
・メッセージのファイル・フォーマットは、ボイス・メ
ール・メッセージの転記を作り出す音声認識エンジンに
よって使用されるためにより適切なフォーマットに変換
され得る。代わりに、ボイス・メール・メッセージは、
ボイス・メール・メッセージ・ファイルのリファレンス
をそこへ渡すＡＰＩコールを経て、音声認識システム２
２に与えられ得る。

【００３５】ステップ６５において、固有のユーザ登録
を有する発呼者に関して、システムは、発呼者によって
与えられたボイス・メール・メッセージから発呼者の一
致を判定することができる。特に、ボイス・メール・メ
ッセージを転記するシステムは、ボイス・メール・メッ
セージの最初の数秒を分析することができる。発呼者の
一致は、ボイス・メール・メッセージ内に記録された音
声を発呼者の固有の話者登録データおよび対応する話者
識別にマッチングさせることにより、判定され得る。ボ
イス・メール・メッセージを転記するシステムは、この
技術分野で周知のテクノロジであり、Ｉｎｔｅｒｎａｔ
ｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣ
ｏｒｐｏｒａｔｉｏｎのような音声認識システム・メー
カーから商業的に入手可能である、ボイス・メール・メ
ッセージを分析するためのテキスト独立型話者識別を用
いることができる。

【００３６】例えば、ユーザが、発呼者“Ｊｏｅ”から
ボイス・メール・メッセージを受信する場合、ユーザ
は、“Ｊｏｅ”のための登録データを作成することがで
きる。固有の登録データおよび対応する固有の話者識別
が“Ｊｏｅ”のためにいったん作成されると、ボイス・
メール・メッセージを転記するシステムは、“Ｊｏｅ”
が次に受信されるボイス・メール・メッセージのソース
であるか否か判定することができる。従って、システム
は、“Ｊｏｅ”と名付けられた発呼者に対応する正確な
固有の話者登録データおよび話者識別を自動的に再呼び
出しすることができる。

【００３７】メモリからいったん再呼び出しされると、
識別された発呼者に対応する固有の話者登録データは、
ボイス・メール・メッセージの転記を援助するために使
用され得る。システムが、発呼者を、対応する固有のユ
ーザ登録にマッチングさせることによって、コンピュー
タ・ボイス・メール・メッセージから発呼者の一致を判
定できる場合には、システムはステップ８０へ進む。そ
うでない場合には、システムはステップ７０へ進む。

【００３８】ステップ７０において、ボイス・メール・
メッセージを転記するシステムは、システムがボイス・
メール・メッセージ内部の発呼者を識別できなかった
か、あるいは代わりに、いかなるユーザ登録も発呼者に
対応しないかをユーザに通知する。それとは関係なし
に、ボイス・メール・メッセージを転記するシステム
は、ユーザが、識別されない発呼者に対応する新しくか
つ固有のユーザ登録を作成したいか否か、ユーザにさら
に訪ねることができる。そうである場合には、システム
はステップ７５へ進む。そうでない場合には、システム
はステップ８０へ直接進む。

【００３９】ステップ７５において、システムはユーザ
をガイドして、識別されない発呼者に対応する新しくか
つ固有の話者登録データを作成するプロセスを通過させ
る。例えば、ボイス・メール・メッセージを転記するシ
ステムは、ユーザをガイドして登録プロセスを段階を追
って通過させるために、ウィザード・フォーマットを用
いることができる。ユーザは、ユーザのコンピュータに
ボイス・メール・メッセージを置くそれぞれの発呼者の
ための固有の話者登録データを作成することができると
いうことを理解されたい。

【００４０】個々の発呼者に対応する話者登録は、ボイ
ス・メール・メッセージの転記正確度の増加をもたら
す。特に、ユーザは、ボイス・メール・メッセージを転
記するシステムに、対応するボイス・メール・メッセー
ジ自身の転記と一緒に先のボイス・メール・メッセージ
の転記を与えることができる。転記を、ボイス・メール
・メッセージに含まれる対応する話者の音声と比較する
ことにより、システムは、話者依存型特徴（ｓｐｅａｋ
ｅｒｄｅｐｅｎｄｅｎｔｃｈａｒａｃｔｅｒｉｓｔ
ｉｃｓ）を含み、特定の発呼者に固有の話者登録を構築
することができる。さらに、ユーザは、システムに、発
呼者からの、複数のボイス・メール・メッセージおよび
対応する転記を与え、より優れた正確度を達成すること
ができる。とりわけ、時がたつにつれて、ユーザがさら
に多くのボイス・メール・メッセージと対応する転記と
をシステムへ与えるにつれて、システムがユーザ登録を
構築するので、転記内のあらゆるエラーは、転記の正確
な部分によって十二分に補われる。新たに作成されたユ
ーザ登録は、特定の発呼者に同様に固有のユーザ識別を
割り当てられ得る。この手法は、典型的に、“監視あり
適応（ｓｕｐｅｒｖｉｓｅｄａｄａｐｔａｔｉｏ
ｎ）”または“監視あり登録（ｓｕｐｅｒｖｉｓｅｄ
ｅｎｒｏｌｌｍｅｎｔ）”と呼ばれる。

【００４１】先の例を取り上げると、ユーザが、“Ｊｏ
ｅ”と名付けられた人物からボイス・メール・メッセー
ジを頻繁に受け取る場合には、ユーザは、登録を作成す
るためにシステム内部のオプションを選択することがで
きる。システムは、ユーザがその発呼者のために固有の
話者登録を作成したいと思う発呼者からのボイス・メー
ル・メッセージおよび対応する転記をユーザが識別する
ことを要求する。転記とボイス・メール・メッセージの
比較の後、システムは、ユーザＩＤ例えば“Ｊｏｅ”を
有する“Ｊｏｅ”に固有の話者登録を作成することがで
きる。このように、各発呼者は、対応する固有のユーザ
識別および登録を有することができる。

【００４２】好適な実施の形態において、ボイス・メー
ル・メッセージを転記するシステムは、“監視なし登録
（ｕｎｓｕｐｅｒｖｉｓｅｄｅｎｒｏｌｌｍｅｎ
ｔ）”としても知られる“監視なし適応（ｕｎｓｕｐｅ
ｒｖｉｓｅｄａｄａｐｔａｔｉｏｎ）”手法を有利に
利用することができる。監視なし適応は、本技術分野に
おいて既知であり、音声認識システム・メーカから商業
的に入手可能なテクノロジである。監視なし適応は、既
知のソースからの先在する転記の利点なしでユーザ登録
を作成するために使用可能である。本発明において、音
声の転記が、従来の監視あり登録を実行するために利用
できない時には、ボイス・メール・メッセージを転記す
るシステムは、未知の話者からのボイス・サンプルから
仮説を生成するために音声認識システムを使用すること
ができ、仮説は、適応プロセスにおいて正確な転記であ
ると推定される。話者登録プロセスの完了の後、システ
ムはステップ８０に進む。

【００４３】ステップ８０において、ボイス・メール・
メッセージを転記するシステムは、ボイス・メール・メ
ッセージに対して音声認識を実行して、メッセージの内
容をテキストへ変換する。とりわけ、システムが、発呼
者と対応する固有のユーザ登録およびユーザ識別の一致
をあらかじめ判定した場合には、システムは、ボイス・
メール・メッセージの転記を援助するためにその登録を
用い、転記正確度の向上をもたらすことができる。この
ようなプロセスは、ボイス・メール・メッセージ内部の
音声をテキストへ変換するために、話者依存型および話
者独立型特徴を使用することを含む。しかし、いかなる
話者登録も発呼者に対応しない場合、またはユーザが発
呼者のためにユーザ登録を作成したいと思わない場合に
は、システムは、その特定のユーザに対応する固有のユ
ーザ登録の援助なしで、ボイス・メール・メッセージの
内容をテキストへ変換することができる。この場合に
は、システムは、ボイス・メール・メッセージ内部の発
呼者の音声の話者独立型特徴を用いて、ボイス・メール
・メッセージに対して音声認識を実行することができ
る。どちらの場合にも、システムはステップ８５へ進
む。

【００４４】ステップ８５において、ボイス・メール・
メッセージを転記するシステムは、ユーザにボイス・メ
ール・メッセージの転記を与える。システムは、転記を
多数の異なる方法でユーザが利用できるようにし得る。
例えば、コンピュータは、テキスト転記をユーザのＶＤ
Ｔに表示する，転記を印刷する，あるいは転記をファイ
ルとして、例えばテキスト・ファイルまたは他のユーザ
指定ワード・プロセッサ・ファイル・フォーマットとし
て、コンピュータ・メモリに保管することができる。

【００４５】上述の明細書は、本発明の好適な実施の形
態を説明し述べているが、本発明は、この中に開示され
た厳密な構成に限定されないということを理解された
い。本発明は、趣旨または本質的な特質から離れること
なしに他の特定の形態で実施され得る。従って、上述の
明細書よりむしろ、本発明の範囲を示す特許請求の範囲
を参照されたい。

【００４６】まとめとして、本発明の構成に関して以下
の事項を開示する。（１）コンピュータ・ボイス・メールを転記する方法で
あって、オーディオ・ファイルに格納されたコンピュー
タ・ボイス・メール・メッセージをコンピュータ音声認
識システムに与えるステップと、前記コンピュータ・ボ
イス・メール・メッセージを、前記音声認識システム内
の話者識別プロセスに処理依頼し、前記話者識別プロセ
スが、登録話者を前記コンピュータ・ボイス・メール・
メッセージのソースとして識別するステップと、前記登
録話者の前記識別に応答して、前記コンピュータ・ボイ
ス・メール・メッセージを、前記音声認識システム内の
音声変換プロセスに処理依頼し、前記音声変換プロセス
が、前記識別された登録話者に対応する話者登録データ
を用いて、前記コンピュータ・ボイス・メール・メッセ
ージの音声／テキスト変換を実行するステップと、前記
音声／テキスト変換が、前記コンピュータ・ボイス・メ
ール・メッセージの転記を作り出すステップとを含む方
法。（２）前記転記を表示するステップを、さらに含む上記
（１）に記載の方法。（３）前記話者識別プロセスは、テキスト独立型話者識
別（ｔｅｘｔ−ｉｎｄｅｐｅｎｄｅｎｔｓｐｅａｋｅ
ｒｉｄｅｎｔｉｆｉｃａｔｉｏｎ）を用いて、話者登
録データを有する登録話者を、前記ボイス・メール・メ
ッセージのソースとして識別するステップを含む上記
（１）に記載の方法。（４）前記話者識別プロセスは、前記話者識別プロセス
が登録話者を前記コンピュータ・ボイス・メール・メッ
セージのソースとして識別することに失敗する場合に
は、話者登録を作成するステップと、前記作成された話
者登録を非登録話者と関連付けるステップと、前記関連
付けられた話者を前記ボイス・メール・メッセージのソ
ースとして識別するステップとを、さらに含む上記
（１）に記載の方法。（５）前記話者識別プロセスは、各々が対応する登録デ
ータを有する登録話者のリストをユーザに与えるステッ
プと、前記ユーザによる、前記リスト内の前記登録話者
のうちの１人の選択を受信するステップと、前記選択さ
れた登録話者を前記ボイス・メール・メッセージのソー
スとして識別するステップとを含む上記（１）に記載の
方法。（６）前記登録を作成するステップは、前記関連付けら
れた話者の監視なし登録（ｕｎｓｕｐｅｒｖｉｓｅｄ
ｅｎｒｏｌｌｍｅｎｔ）を実行するステップを含む上記
（４）に記載の方法。（７）ボイス・メール・メッセージを転記するシステム
であって、発呼者によって発声されたボイス・メール・
メッセージを記録するボイス・メール・システムと、前
記記録されたボイス・メール・メッセージと関連付けら
れたソース話者を識別する話者識別プロセッサと、前記
記録されたボイス・メール・メッセージと関連付けられ
た前記識別されたソース話者に対応する話者登録データ
を用いて、前記記録されたボイス・メール・メッセージ
の音声／テキスト変換を実行する音声認識システムとを
備え、前記音声／テキスト変換は、前記ボイス・メール
・メッセージの転記を作り出すシステム。（８）前記転記を表示する表示手段をさらに備える上記
（７）に記載のシステム。（９）前記表示手段は、前記転記を印刷するプリンタお
よび前記転記を視覚的に表示するユーザ・インターフェ
ースのグループから選択される上記（８）に記載のシス
テム。（１０）前記話者識別プロセッサは、テキスト独立型話
者識別手法を実行する上記（７）に記載のシステム。（１１）前記話者識別プロセッサによって識別されない
前記ボイス・メール・メッセージのソースと関連付けら
れた話者登録データを作成する監視なし登録プロセッサ
と、前記作成された話者登録データを用いて、前記未知
の話者によって発声されたボイス・メール・メッセージ
の前記音声／テキスト変換を実行する前記音声認識シス
テムとを、さらに備える上記（７）に記載のシステム。（１２）ボイス・メール・メッセージ転記するコンピュ
ータ・プログラムを格納したマシン読み取り可能なスト
レージであって、前記コンピュータ・プログラムは、オ
ーディオ・ファイルに格納されたコンピュータ・ボイス
・メール・メッセージをコンピュータ音声認識システム
に与えるステップと、前記コンピュータ・ボイス・メー
ル・メッセージを、前記音声認識システム内の話者識別
プロセスに処理依頼し、前記話者識別プロセスが、登録
話者を前記コンピュータ・ボイス・メール・メッセージ
のソースとして識別するステップと、前記登録話者の前
記識別に応答して、前記コンピュータ・ボイス・メール
・メッセージを、前記音声認識システム内の音声変換プ
ロセスに処理依頼し、前記音声変換プロセスが、前記識
別された登録話者に対応する話者登録データを用いて、
前記コンピュータ・ボイス・メール・メッセージの音声
／テキスト変換を実行するステップと、前記音声／テキ
スト変換が、前記コンピュータ・ボイス・メール・メッ
セージの転記を作り出すステップとをマシンに実行させ
る、前記マシンによって実行可能な複数のコード・セク
ションを有するマシン読み取り可能なストレージ。（１３）前記コンピュータ・プログラムは、前記転記を
表示するステップを前記マシンにさらに実行させる、マ
シンによって実行可能な複数のコード・セクションをさ
らに有する上記（１２）に記載のマシン読み取り可能な
ストレージ。（１４）前記話者識別プロセスは、テキスト独立型話者
識別を用いて、話者登録データを有する登録話者を、前
記ボイス・メール・メッセージのソースとして識別する
ステップを含む上記（１２）に記載のマシン読み取り可
能なストレージ。（１５）前記話者識別プロセスは、前記話者識別プロセ
スが登録話者を前記コンピュータ・ボイス・メール・メ
ッセージのソースとして識別することに失敗する場合に
は、話者登録を作成するステップと、前記作成された話
者登録を非登録話者と関連付けるステップと、前記関連
付けられた話者を前記ボイス・メール・メッセージのソ
ースとして識別するステップとを、さらに含む上記（１
２）に記載のマシン読み取り可能なストレージ。（１６）前記話者識別プロセスは、各々が対応する登録
データを有する登録話者のリストをユーザに与えるステ
ップと、前記ユーザによる、前記リスト内の前記登録話
者のうちの１人の選択を受信するステップと、前記選択
された登録話者を前記ボイス・メール・メッセージのソ
ースとして識別するステップとを含む上記（１２）に記
載のマシン読み取り可能なストレージ。（１７）前記登録を作成するステップは、前記関連付け
られた話者の監視なし登録を実行するステップを含む上
記（１５）に記載のマシン読み取り可能なストレージ。

【図面の簡単な説明】

【図１】伝統的な電話応答マシンの代わりに、ボイス・
メールを受信するように構成されたコンピュータ・シス
テムのオペレーションを示す概要図である。

【図２】本発明の方法に従ってボイス・メールを受信す
るように構成されたコンピュータ・システムを説明する
ブロック図である。

【図３】図２のコンピュータ・システムのための典型的
なハイレベル・アーキテクチャ示すブロック図である。

【図４】コンピュータ・ボイス・メール・メッセージか
らテキストを転記する方法を説明するフローチャートで
ある。

【符号の説明】

１電話２通信手段３コンピュータ・システム４ボイス・メール処理システム２０オペレーティング・システム２１マウス２２ボイス・メール・アプリケーション２３スピーカ２４通信クライアント２６音声認識エンジン２７ランダム・アクセス・メモリ２８固定ストレージ２９オーディオ回路３０マイクロホン３１モデム３２ユーザ・インターフェース・ディスプレイ装置３４コンピュータ

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジェイムス・アール・ルイスアメリカ合衆国 33445 フロリダ州デルレイビーチマジェスティックパームウェイ 4000 (72)発明者ケリー・エイ・オルテガアメリカ合衆国 27614 ノースカロライナ州ラレイウッドマノアードライブ 1329 Ｆターム(参考） 5K101 KK05 NN08 NN15

Claims

【特許請求の範囲】

【請求項１】コンピュータ・ボイス・メールを転記する
方法であって、オーディオ・ファイルに格納されたコンピュータ・ボイ
ス・メール・メッセージをコンピュータ音声認識システ
ムに与えるステップと、前記コンピュータ・ボイス・メール・メッセージを、前
記音声認識システム内の話者識別プロセスに処理依頼
し、前記話者識別プロセスが、登録話者を前記コンピュ
ータ・ボイス・メール・メッセージのソースとして識別
するステップと、前記登録話者の前記識別に応答して、前記コンピュータ
・ボイス・メール・メッセージを、前記音声認識システ
ム内の音声変換プロセスに処理依頼し、前記音声変換プ
ロセスが、前記識別された登録話者に対応する話者登録
データを用いて、前記コンピュータ・ボイス・メール・
メッセージの音声／テキスト変換を実行するステップ
と、前記音声／テキスト変換が、前記コンピュータ・ボイス
・メール・メッセージの転記を作り出すステップとを含
む方法。
【請求項２】前記転記を表示するステップを、さらに含
む請求項１に記載の方法。
【請求項３】前記話者識別プロセスは、テキスト独立型話者識別（ｔｅｘｔ−ｉｎｄｅｐｅｎｄ
ｅｎｔｓｐｅａｋｅｒｉｄｅｎｔｉｆｉｃａｔｉｏ
ｎ）を用いて、話者登録データを有する登録話者を、前
記ボイス・メール・メッセージのソースとして識別する
ステップを含む請求項１に記載の方法。
【請求項４】前記話者識別プロセスは、前記話者識別プロセスが登録話者を前記コンピュータ・
ボイス・メール・メッセージのソースとして識別するこ
とに失敗する場合には、話者登録を作成するステップ
と、前記作成された話者登録を非登録話者と関連付けるステ
ップと、前記関連付けられた話者を前記ボイス・メール・メッセ
ージのソースとして識別するステップとを、さらに含む
請求項１に記載の方法。
【請求項５】前記話者識別プロセスは、各々が対応する登録データを有する登録話者のリストを
ユーザに与えるステップと、前記ユーザによる、前記リスト内の前記登録話者のうち
の１人の選択を受信するステップと、前記選択された登録話者を前記ボイス・メール・メッセ
ージのソースとして識別するステップとを含む請求項１
に記載の方法。
【請求項６】前記登録を作成するステップは、前記関連
付けられた話者の監視なし登録（ｕｎｓｕｐｅｒｖｉｓ
ｅｄｅｎｒｏｌｌｍｅｎｔ）を実行するステップを含
む請求項４に記載の方法。
【請求項７】ボイス・メール・メッセージを転記するシ
ステムであって、発呼者によって発声されたボイス・メール・メッセージ
を記録するボイス・メール・システムと、前記記録されたボイス・メール・メッセージと関連付け
られたソース話者を識別する話者識別プロセッサと、前記記録されたボイス・メール・メッセージと関連付け
られた前記識別されたソース話者に対応する話者登録デ
ータを用いて、前記記録されたボイス・メール・メッセ
ージの音声／テキスト変換を実行する音声認識システム
とを備え、前記音声／テキスト変換は、前記ボイス・メール・メッ
セージの転記を作り出すシステム。
【請求項８】前記転記を表示する表示手段をさらに備え
る請求項７に記載のシステム。
【請求項９】前記表示手段は、前記転記を印刷するプリ
ンタおよび前記転記を視覚的に表示するユーザ・インタ
ーフェースのグループから選択される請求項８に記載の
システム。
【請求項１０】前記話者識別プロセッサは、テキスト独
立型話者識別手法を実行する請求項７に記載のシステ
ム。
【請求項１１】前記話者識別プロセッサによって識別さ
れない前記ボイス・メール・メッセージのソースと関連
付けられた話者登録データを作成する監視なし登録プロ
セッサと、前記作成された話者登録データを用いて、前記未知の話
者によって発声されたボイス・メール・メッセージの前
記音声／テキスト変換を実行する前記音声認識システム
とを、さらに備える請求項７に記載のシステム。
【請求項１２】ボイス・メール・メッセージ転記するコ
ンピュータ・プログラムを格納したマシン読み取り可能
なストレージであって、前記コンピュータ・プログラム
は、オーディオ・ファイルに格納されたコンピュータ・ボイ
ス・メール・メッセージをコンピュータ音声認識システ
ムに与えるステップと、前記コンピュータ・ボイス・メール・メッセージを、前
記音声認識システム内の話者識別プロセスに処理依頼
し、前記話者識別プロセスが、登録話者を前記コンピュ
ータ・ボイス・メール・メッセージのソースとして識別
するステップと、前記登録話者の前記識別に応答して、前記コンピュータ
・ボイス・メール・メッセージを、前記音声認識システ
ム内の音声変換プロセスに処理依頼し、前記音声変換プ
ロセスが、前記識別された登録話者に対応する話者登録
データを用いて、前記コンピュータ・ボイス・メール・
メッセージの音声／テキスト変換を実行するステップ
と、前記音声／テキスト変換が、前記コンピュータ・ボイス
・メール・メッセージの転記を作り出すステップとをマ
シンに実行させる、前記マシンによって実行可能な複数
のコード・セクションを有するマシン読み取り可能なス
トレージ。
【請求項１３】前記コンピュータ・プログラムは、前記
転記を表示するステップを前記マシンにさらに実行させ
る、マシンによって実行可能な複数のコード・セクショ
ンをさらに有する請求項１２に記載のマシン読み取り可
能なストレージ。
【請求項１４】前記話者識別プロセスは、テキスト独立
型話者識別を用いて、話者登録データを有する登録話者
を、前記ボイス・メール・メッセージのソースとして識
別するステップを含む請求項１２に記載のマシン読み取
り可能なストレージ。
【請求項１５】前記話者識別プロセスは、前記話者識別プロセスが登録話者を前記コンピュータ・
ボイス・メール・メッセージのソースとして識別するこ
とに失敗する場合には、話者登録を作成するステップ
と、前記作成された話者登録を非登録話者と関連付けるステ
ップと、前記関連付けられた話者を前記ボイス・メール・メッセ
ージのソースとして識別するステップとを、さらに含む
請求項１２に記載のマシン読み取り可能なストレージ。
【請求項１６】前記話者識別プロセスは、各々が対応する登録データを有する登録話者のリストを
ユーザに与えるステップと、前記ユーザによる、前記リスト内の前記登録話者のうち
の１人の選択を受信するステップと、前記選択された登録話者を前記ボイス・メール・メッセ
ージのソースとして識別するステップとを含む請求項１
２に記載のマシン読み取り可能なストレージ。
【請求項１７】前記登録を作成するステップは、前記関
連付けられた話者の監視なし登録を実行するステップを
含む請求項１５に記載のマシン読み取り可能なストレー
ジ。