JP2002032213A - ボイス・メール・メッセージを転記する方法およびシステム - Google Patents
ボイス・メール・メッセージを転記する方法およびシステムInfo
- Publication number
- JP2002032213A JP2002032213A JP2001156784A JP2001156784A JP2002032213A JP 2002032213 A JP2002032213 A JP 2002032213A JP 2001156784 A JP2001156784 A JP 2001156784A JP 2001156784 A JP2001156784 A JP 2001156784A JP 2002032213 A JP2002032213 A JP 2002032213A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice mail
- mail message
- computer
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 100
- 230000008569 process Effects 0.000 claims abstract description 57
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000013518 transcription Methods 0.000 claims description 54
- 230000035897 transcription Effects 0.000 claims description 54
- 238000006243 chemical reaction Methods 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 14
- 238000004891 communication Methods 0.000 description 14
- 230000006978 adaptation Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/53—Centralised arrangements for recording incoming messages, i.e. mailbox systems
- H04M3/5307—Centralised arrangements for recording incoming messages, i.e. mailbox systems for recording messages comprising any combination of audio and non-audio components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/60—Medium conversion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2242/00—Special services or facilities
- H04M2242/22—Automatic class or number identification arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42025—Calling or Called party identification service
- H04M3/42034—Calling party identification service
- H04M3/42042—Notifying the called party of information on the calling party
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
Abstract
を転記するシステムの必要性が生じている。 【解決手段】 本発明は、ボイス・メール・メッセージ
を転記する方法およびシステムに関する。本発明の方法
は、第1に、オーディオ・ファイルに格納されたコンピ
ュータ・ボイス・メール・メッセージをコンピュータ音
声認識システムに与えるステップと、第2に、コンピュ
ータ・ボイス・メール・メッセージを、音声認識システ
ム内の話者識別プロセスに処理依頼するステップとを有
する複数のステップを含む。特に、話者識別プロセス
は、登録話者をコンピュータ・ボイス・メール・メッセ
ージのソースとして識別できる。
Description
ェアの分野に関し、特に、電話応答マシン・ボイス・メ
ール・メッセージを転記するシステムに関する。
ール・サービスのソースとしてパーソナル・コンピュー
タを使用し始めた。個別の電話応答マシンの要求および
費用を緩和することにより、電話回線を通してボイス・
メール・メッセージを記録するためのパーソナル・コン
ピュータの使用は、消費者が出費を節約することを可能
にする。手の届く範囲の値段で購入できるマルチメディ
ア・パーソナル・コンピュータにおいて消費者が現在利
用できる膨大な量のコンピュータ能力のために、この傾
向は続きそうである。さらに、サウンド・カードおよび
モデムのような、パーソナル・コンピュータがボイス・
メール・サービスを提供できるようにするコンポーネン
トは、大部分の高速マルチメディア・パーソナル・コン
ピュータの標準装備になった。
ピュータ・ボイス・メール・システムは、消費者に、消
費者の電話応答マシン同等物に関して増大した柔軟性を
提供する。パーソナル・コンピュータのスピードおよび
記憶容量の増加は、これらのマシンが、従来の電話応答
マシンよりも長いメッセージを記録しはるかに多数のメ
ッセージを格納できるようにする。さらに、発呼者によ
って残されたボイス・メール・メッセージは、Wave
もしくはMP3ファイルのような様々な標準化されたマ
ルチメディアまたはオーディオ・ファイル・タイプのい
ずれにも記録され得る。このようなディジタル・ファイ
ルは、操作され、コピーされ、格納され、もしくは伝送
され得る。
ルのために利用することの多くの利点にもかかわらず、
不利な点が存在する。このような不利な点の一つは、た
とえ現代のパーソナル・コンピュータの記憶容量が無制
限であるように見えても、オーディオ・ファイル自身
が、かなり大きいこともあり得るということである。従
って、古いボイス・メール・メッセージを格納または保
存することは、あらゆる個別のパーソナル・コンピュー
タにおいて利用できるものよりはるかに多くの記憶容量
を消費し得る。記憶容量が異常に高い額で度々取得され
るネットワーク・コンテキストにおいて、ボイス・メー
ル・オーディオ・ファイルの大きいサイズは、さらに一
層問題となり得る。
システムに固有の他の不利な点は、オーディオ・ファイ
ルの大きいサイズが、ネットワークを通したファイルの
高速伝送を妨げることがあり、ネットワーク輻輳を引き
起こし得るということである。このような輻輳は、度
々、ネットワーク性能の低下、あるいはそれどころかネ
ットワーク・サービス停止をもたらす。さらに、この問
題の一因となるのは、WaveまたはMP3ファイルの
圧縮は、典型的に、ファイル・サイズの実質的に十分な
縮小をもたらさないということである。従って、Wav
eまたはMP3ファイルとして保存された、3分から4
分間の詳細ボイス・メール・メッセージは、従来の2
8.8kpbsモデム接続を介してオーディオ・ファイ
ルをアップロードおよび伝送するために3分または4分
再生時間よりもはるかに長い時間を必要とすることがあ
る。
他の不利な点は、そこにおいてボイス・メール・メッセ
ージのテキスト転記が便利であるとユーザが知るであろ
う機会が、明らかに生じ得るということである。ボイス
・メールがロケーションに対する指示を含む場合に、事
情は上述のとおりである。指示を含むボイス・メール・
メッセージが従来の電話応答マシン上に残されるにせ
よ、コンピュータ・ベース・ボイス・メール・システム
上に残されるにせよ、いずれにしても、ボイス・メール
・メッセージの正確な転記を得るためには、ユーザは、
手動でボイス・メール・メッセージを転記しなければな
らない。
は、それにより、マイクロホンによって受信された音響
信号が、コンピュータによって一組のテキスト・ワード
へ変換されるプロセスである。これらの認識されたワー
ドは、文書作成(document preparat
ion),データ入力,およびコマンドと制御のような
目的に適した様々なコンピュータ・ソフトウェア・アプ
リケーションにおいて使用され得る。近頃、音声認識は
記録テクノロジに応用されてきた。とりわけ、ボイス・
レコーダ(voice recorders)は、テキ
ストへの変換のために音声認識エンジンへ続いて与えら
れ得るオーディオ入力を記録するよう設計されてきた。
さらに、記録されたオーディオをテキストへ変換するた
めには、第一に、音声認識エンジンは、オリジナルに記
録されたオーディオ入力を与える話者を認識するよう訓
練されなければならない。
に基づいて誰が話しているのか自動的に認識するプロセ
スである。話者認識は、話者識別と話者照合とに分ける
ことができる。話者識別は、一組の既知の話者の中か
ら、どの登録話者が一定の発音を与えるか判定する。比
べると、話者照合は、話者の一致請求(すなわち話者
が、彼らがそうであるというところの人物であるか)を
受理あるいは拒否する。話者認識テクノロジは、制限さ
れたサービスに対するアクセス、例えば、銀行,データ
ベース・サービス,ショッピングまたはボイス・メール
に対する電話アクセス、および保護された機器に対する
アクセスを制御するために話者の声を使用することの問
題に応用されてきた。双方のテクノロジは、ユーザに、
システムに登録すること、すなわちシステムに対して彼
らの音声の見本を与えることを求め、システムが彼らの
ボイス・パターンを特徴付ける(または学習する)こと
ができるようにする。話者認識方法は、テキスト依存型
(text−dependent)方法とテキスト独立
型(text−independent)方法とに分け
ることができる。
ることがない特徴を一定の発音から抽出することは、テ
キスト独立型話者識別システム(text−indep
endent speaker identifica
tion systems)に対して主要なものであ
る。とりわけ、音声認識システムに登録データを集める
とき、話者の音声の特徴は抽出され、既知の話者と関連
付けられ、例えば名前または既知の話者と関連付けられ
たIDのようなリファレンスと一緒にデータベースに格
納され得る。典型的には、特徴抽出の際に、話者独立型
音素検出器(speaker−independent
phoneme detector)は、話者ごとに
区別の目安となる音素を認識することができる。登録デ
ータは続いて、リファレンスを用いて検索され、未知の
話者の声から抽出された特徴と比較され得る。未知の話
者の声から抽出された特徴が、検索された登録データの
特徴と適切に同程度である場合には、未知の話者は、検
索された登録データを提供した話者として識別できる。
おける進歩にもかかわらず、ボイス・メール・システム
は、アクセス制御が及ばない話者認識テクノロジを依然
として組み込まなければならない。さらに、コンピュー
タ・ベース・ボイス・メール・システム、および話者認
識テクノロジを利用する音声認識システムが存在する
が、ユーザをさらによく満足させるためには、2つのテ
クノロジの組み合わせが依然として必要である。話者認
識テクノロジに基づくボイス・メール・メッセージの正
確かつ効率のよい転記は、コンピュータ・ベース・ボイ
ス・メール・システムの有益性を非常に高めるであろ
う。結果として、コンピュータ・ボイス・メール・メッ
セージを転記するシステムの必要性が発生した。
ンピュータ・ボイス・メール・メッセージを転記するこ
こに開示された発明は、コンピュータ・ベース・ボイス
・メール・システムと共に話者認識テクノロジが備えら
れた音声認識システムを用いることによって、従来技術
の長く考えられていた要求を満たす。本発明は、コンピ
ュータ・ボイス・メール・システムから、オーディオ・
ファイルに格納されたボイス・メール・メッセージを受
信またはインポートすることができる。ボイス・メール
・メッセージのインポートの後、システムは、ボイス・
メール・メッセージの話者を識別することができる。識
別された話者に対応する登録データを用いて、システム
は、ボイス・メール・メッセージをテキストへ変換す
る、あるいは、オーディオ・ファイルに含まれるオーデ
ィオを転記することができる。最後に、テキストはテキ
スト・ファイルに格納され得る。従って、結果として生
じるテキスト・ファイルは、インポートされたオーディ
オ・ファイルであって、それからテキストが変換された
オーディオ・ファイルよりもサイズがはるかに小さい。
縮小されたファイル・サイズは、ストレージ・スペース
の節約およびファイルを伝送するために要求されるリソ
ースの削減に特に有益である。その上、結果として生じ
るテキスト・ファイルは、テキストをビデオ・ディスプ
レイ端末に表示する,テキストを印刷する,テキスト・
ファイルを伝送する,あるいはその後の使用のためにテ
キスト・ファイルを格納する等を含む様々な形態でユー
ザに利用可能にすることができる。
転記する方法およびシステムに関する。本発明の方法
は、第1に、オーディオ・ファイルに格納されたコンピ
ュータ・ボイス・メール・メッセージをコンピュータ音
声認識システムに与えるステップと、第2に、コンピュ
ータ・ボイス・メール・メッセージを、音声認識システ
ム内の話者識別プロセスに処理依頼するステップとを有
する複数のステップを含む。とりわけ、話者識別プロセ
スは、登録話者をコンピュータ・ボイス・メール・メッ
セージのソースとして識別することができる。最後に、
登録話者の識別に応答して、コンピュータ・ボイス・メ
ール・メッセージは、音声認識システム内の音声変換プ
ロセスに処理依頼され得る。音声変換プロセスは、識別
された登録話者に対応する話者登録データを用いて、コ
ンピュータ・ボイス・メール・メッセージの音声/テキ
スト変換を実行することができる。さらに、音声/テキ
スト変換は、コンピュータ・ボイス・メール・メッセー
ジの転記を作り出すことができる。本発明の1つの実施
形態において、転記は、さらに表示可能である。
識別を用いて、話者登録データを有する登録話者を、ボ
イス・メール・メッセージのソースとして識別すること
ができる。代わりに、話者識別プロセスは、各々が対応
する登録データを有する登録話者のリストをユーザに与
えることができる。話者識別プロセスは、ユーザによ
る、リスト内の登録話者のうちの1人の選択を受信する
ことができ、続いて、選択された登録話者をボイス・メ
ール・メッセージのソースとして識別することができ
る。
登録話者をコンピュータ・ボイス・メール・メッセージ
のソースとして識別することに失敗する場合には、話者
登録を作成することができる。さらに、作成された話者
登録は、非登録話者と関連付け可能である。最後に、作
成された話者登録が非登録話者と関連付けられた時に、
関連付けられた話者は、ボイス・メール・メッセージの
ソースとして識別され得る。特に、登録を作成するステ
ップは、関連付けられた話者の監視なし登録を実行する
ステップを含むことが可能である。
ッセージを転記するシステムとすることが可能である。
このシステムは、発呼者によって発声されたボイス・メ
ール・メッセージを記録するボイス・メール・システム
と、記録されたボイス・メール・メッセージと関連付け
られたソース話者を識別する話者識別プロセッサと、記
録されたボイス・メール・メッセージと関連付けられた
識別されたソース話者に対応する話者登録データを用い
て、記録されたボイス・メール・メッセージの音声/テ
キスト変換を実行する音声認識システムとを含むことが
可能である。特に、音声/テキスト変換は、ボイス・メ
ール・メッセージの転記を作り出すことが可能である。
その上、システムは、転記を表示する表示手段をさらに
含むことが可能である。加えて、表示手段は、転記を印
刷するプリンタまたは前記転記を視覚的に表示するユー
ザ・インターフェースのいずれか一方とすることが可能
である。
立型話者識別を実行することができる。加えて、システ
ムは、話者識別プロセッサによって識別されないボイス
・メール・メッセージのソースと関連付けられた話者登
録データを作成する監視なし登録プロセッサを、さらに
含むことが可能である。音声認識システムは、作成され
た話者登録データを用いて、未知の話者によって発声さ
れたボイス・メール・メッセージの音声/テキスト変換
を実行することができる。
あるいはハードウェアおよびソフトウェアの組み合わせ
において実現され得る。この中で述べられた方法を実行
することに適応したあらゆる種類のコンピュータ・シス
テムまたは他の装置が適する。ハードウェアおよびソフ
トウェアの典型的な組み合わせは、ロードされ実行され
た時に、コンピュータ・システムがこの中に述べられた
方法を実行するようにコンピュータ・システムを制御す
るコンピュータ・プログラムを備える汎用コンピュータ
・システムとすることができる。
を可能にする全ての特徴を含み、コンピュータ・システ
ムにロードされた時にこれらの方法を実行することがで
きるコンピュータ・プログラム製品においてさらに実施
され得る。本コンテキストにおけるコンピュータ・プロ
グラム手段またはコンピュータ・プログラムは、直接
か、あるいは以下のもの、すなわちa)他の言語,コー
ドまたは表記への変換、b)異なるマテリアル・フォー
ムでの再生のいずれか一方もしくは双方の後に、情報処
理機能を有するシステムに特定のファンクションを実行
させることが意図された一組の命令の(あらゆる言語,
コードまたは表記での)全ての表現式を意味する。
示されるが、本発明は、図示される厳密な構成および方
法に限定されないということを理解されたい。
に本発明の構成に従ってボイス・メールを処理するよう
構成されたパーソナル・コンピュータの典型的な配置を
示す。とりわけ、図示されるように、発呼者は、電話1
を用いて、本発明にかかるユーザへ電話をかける始める
ことができる。特に、ユーザは、電話応答マシンの代わ
りに、本発明の構成に従ってボイス・メール処理システ
ム4をその中に含むことができるコンピュータ・システ
ム3を有することができる。続いて、ユーザが発呼者の
電話にでない場合には、ボイス・メール処理システム4
は、従来のボイス・メール・メッセージ記録、そして本
発明の方法に従うボイス・メール・メッセージの転記を
実行することができる。コンピュータ・システム3およ
び電話1の各々は、通信手段2を介して通信可能に接続
され得る。図1は、電話配線システムとして通信手段2
を示すが、本発明はこの点に限定されない。むしろ、通
信手段2は、例えばセルラーまたはサテライト通信シス
テムのような、2つのノードを電話によって接続するた
めのあらゆる適切な手段とすることができる。
転記するボイス・メール処理システム4は、コンピュー
タ・システム内部にディジタル・オーディオ・ファイル
として格納されたコンピュータ・ボイス・メール・メッ
セージのテキスト転記を、ユーザが自動的に取得できる
ようにする。好適な実施の形態において、このようなデ
ィジタル・オーディオ・ファイルの受信に応答して、ボ
イス・メール処理システム4は、発呼者を固有のユーザ
登録および対応する登録識別にマッチングさせることに
よって、特定発呼者をコンピュータ・ボイス・メール・
メッセージのソースとして自動的に識別することができ
る。発呼者に対応する固有のユーザ登録は、転記正確度
を増加させ、テキスト独立型話者識別(text−in
dependent speaker identif
ication)および監視なし登録(unsuper
vised enrollment)を用いて作成可能
である。いったん発呼者が識別されると、ボイス・メー
ル処理システム4は、識別された発呼者に対応する固有
のユーザ登録を用いてボイス・メール・メッセージの転
記を作り出すことができる。代わりに、ユーザは、ボイ
ス・メール・メッセージを転記する際に使用する特定ユ
ーザ登録を手動で選択できる。さら独立型話者識別を用
いることによって、ボイス・メール処理システム4は、
発呼者に対応する固有のユーザ登録なしに、ボイス・メ
ール・メッセージの転記を作り出すことができる。最後
に、ボイス・メール・メッセージの転記は、ユーザに与
えられ得る。
ピュータ・システム3をさらに詳細に説明する。システ
ムは、好ましくは、中央処理装置(CPU),1以上の
メモリ・デバイスおよび関連回路を有するコンピュータ
34から成る。コンピュータ・システム3は、好ましく
は電子ランダム・アクセス・メモリから成るコンピュー
タ・メモリ・デバイス27を有する。さらに、コンピュ
ータ・システム3は、磁気ハード・ディスク・ドライブ
のような大容量データ・ストレージ・メディア28を有
することができる。コンピュータ・システム3は、そこ
に操作可能に接続されたビデオ・ディスプレイ端末(V
DT)のような少なくとも1つのユーザ・インターフェ
ース・ディスプレイ装置32、およびマウス21のよう
なインターフェース・デバイスをさらに含むことができ
る。CPUは、当業者に周知のあらゆる適切なマイクロ
プロセッサまたは他の電子処理装置から成ることができ
る。このようなCPUの例は、Intel Corpo
rationから入手可能なPentiumまたはPe
ntium IIブランドのマイクロプロセッサあるい
は全ての同種のマイクロプロセッサを含み得る。
ステム3は、音声認識機能を実行することができる。そ
のようなものとして、コンピュータ・システム3は、マ
イクロホン30を経て受信されたリアルタイム・オーデ
ィオ信号、または例えばWaveもしくはMP3ファイ
ルのような固定ストレージ28に格納されたオーディオ
信号の形式のオーディオ入力を処理するオーディオ回路
29も含むことができる。オーディオ回路29は、オー
ディオ出力を処理し、オーディオ出力をスピーカ23に
提供することもできる。好適な実施の形態において、オ
ーディオ回路29は、マルチメディア・パーソナル・コ
ンピュータ・システムにおいて使用されるために設計さ
れた商業的に入手可能なサウンド・カードとすることが
できる。
ンピュータを他の通信デバイスへ通信可能に接続する適
切な通信ハードウェアおよびソフトウェアを有すること
ができる。とりわけ、好適な実施の形態において、コン
ピュータ・システム3は、電話をかけ、電話を受けるモ
デム31を有することができる。好適な実施の形態にお
いて、モデム31はマルチメディア・コンピュータ・シ
ステムで使用されるHayes互換56K内部モデムで
あるが、モデム31は、全ての商業的に入手可能なモデ
ムとすることができる。さらに、本発明は、通信ハード
ウェアおよびソフトウェアに関して限定されない。むし
ろ、コンピュータ・システム3が、単にボイス・メール
・メッセージを受信し記録するという要件が、本発明に
対して主要なものである。従って、他の実施の形態にお
いて、モデムは、例えば、ボイス・メール・メッセージ
がコンピュータ・システム3においてワイヤレスに受信
されるワイヤレス・レシーバ、あるいはボイス・メール
・メッセージがネットワーク内に受信されローカル・エ
リア・ネットワークを経てコンピュータ・システム3へ
伝送され得るネットワーク・カードのような、あらゆる
適切な通信デバイスに代わられ得る。特に、この中で述
べられるコンピュータ・システムのための様々なハード
ウェア要件は、International Busi
ness Machines Corporation
によって売り出され製造されるもののような多数の商業
的に入手可能な高速マルチメディア・パーソナル・コン
ピュータのどれでもによって、大部分は満たすことがで
きる。
メールをテキストに変換するシステムの典型的なアーキ
テクチャを説明する。図3に示されるように、システム
は、オペレーティング・システム20および従来の音声
認識エンジン26を典型的に含む。示される例におい
て、ボイス・メール・アプリケーション22および通信
クライアント24も同様に与えられる。図3において、
音声認識エンジン26,ボイス・メール・アプリケーシ
ョン22および通信クライアント24は、個別のアプリ
ケーション・プログラムとして示される。しかし、本発
明はこの点に限定されず、これらの別々のアプリケーシ
ョン・プログラムは、単一の、より複合のアプリケーシ
ョン・プログラムとして実現可能であるということに留
意されたい。例えば、音声認識エンジン26は、ボイス
・メール・アプリケーション22と結合可能である。
いて、オペレーティング・システム20は、ワシントン
州レドモンドのMicrosoft Corporat
ionから入手可能なWindows(R) NT,W
indows(R) 2000またはWindows
(R) 98のようなWindows(R)ファミリの
オペレーティング・システムの1つである。しかし、シ
ステムはこの点に限定されず、本発明は、あらゆる他の
タイプのコンピュータ・オペレーティング・システムで
も使用可能である。
ステム3は、ランダム・アクセス・メモリ27および固
定ストレージ28を含む。固定ストレージ28は、オペ
レーティング・システム20,ボイス・メール・アプリ
ケーション22および通信クライアント24の各々をそ
こに格納できる。コンピュータ・システム3のブートス
トラップに基づいて、オペレーティング・システム20
は、ランダム・アクセス・メモリ27にロードされ得
る。同様に、実行に基づいて、ボイス・メール・アプリ
ケーション22および通信クライアント24の各々は、
クライアント・コンピュータ3による実行のためにラン
ダム・アクセス・メモリ27にロードされ得る。特に、
ボイス・メール・アプリケーション22は、本発明の方
法を実行するうようにプログラム可能である。とりわ
け、ここで開示されるボイス・メール・アプリケーショ
ン22は、上述のオペレーティング・システムのための
商業的に入手可能な開発ツールを用いて、プログラマに
よって実現され得る。
表すオーディオ信号を含むボイス・メール・メッセージ
は、コンピュータ・システム3内部のランダム・アクセ
ス・メモリ27または固定ストレージ28のどちらか一
方(あるいは双方)内のファイルにディジタルに記録さ
れ格納され得る。ディジタル・オーディオ・ファイルの
形式で存在するボイス・メール・メッセージは、Wav
eまたはMP3のような、様々な標準マルチメディアま
たはオーディオ・ファイル・フォーマットのいずれであ
ってもよい。本発明が、ボイス・メール・メッセージが
格納される特定のファイル・フォーマットによって限定
されるものではないということを理解されたい。とりわ
け、個々のファイル・フォーマットは、ユーザによって
選択されたコンピュータ・ボイス・メール・アプリケー
ション22に依存している。オペレーティング・システ
ム20の援助機能を用いて、ボイス・メール・メッセー
ジに含まれるオーディオ信号は、音声認識エンジン26
における話者識別プロセスに対して利用可能にすること
ができる。このように、話者識別プロセスは、発呼者に
よって発声され、ボイス・メール・メッセージ内部にデ
ィジタル・オーディオとして含まれたワードの話者を識
別することができる。続いて、識別された話者に対応す
る登録データは、音声認識エンジン26内の音声/テキ
スト変換プロセスにおいて使用可能であり、音声/テキ
スト変換プロセスは、登録データを用いてオーディオ信
号の音声/テキスト変換を実行することができる。その
ようなものとして、ボイス・メール・メッセージに含ま
れるオーディオ信号は、ボイス・メール・メッセージの
転記へ正確かつ効率よく変換され得る。
コンピュータ・ボイス・メール・メッセージからテキス
トを転記する方法およびシステムを説明するフローチャ
ートである。好適な実施の形態において、ボイス・メー
ル・メッセージを含むオーディオ・ファイルは、音声認
識システムに対して利用可能にされる。とりわけ、オー
ディオ・ファイルは、音声認識システムに対する、商業
的に入手可能なアプリケーション・プログラミング・イ
ンターフェース(API)を用いて、音声認識システム
に対して利用可能にされ得る。当業者は、普通に利用で
きる音声認識システムは、オーディオ・ファイルを処理
する音声認識システムに対してオーディオ・ファイルを
与えるあらかじめプログラムされた方法をそれとともに
含ませるAPIを有することが可能であるということを
認識できる。典型的に、このようなあらかじめプログラ
ムされた方法は、オーディオ・ファイルに対するリファ
レンスを入力として受信することができる。とりわけ、
さらに、従来の音声認識システムに対する典型的なAP
Iは、例えば、現行の登録データ、およびオーディオ・
ファイルに対して実行された音声認識オペレーションの
結果を格納するターゲット出力ファイルのような、音声
認識システム内部の構成パラメータを変更するあらかじ
めプログラムされた方法をも含むことができる。
録データを作成した場合には、音声認識システムは、好
ましくは発呼者の一致を自動的に判定するテキスト独立
型話者識別を用いることができる。いったん識別される
と、音声認識システムは、識別された発呼者に対応する
話者登録データを用いてコンピュータ・ボイス・メール
・メッセージをテキストへ転記することができる。代わ
りに、音声認識は、ボイス・メール・システムと共同し
て、コンピュータ・ボイス・メール・メッセージを転記
するために、ユーザが、格納された話者登録データを選
択することを可能にし得る。発呼者に対応する話者登録
データが存在しない場合には、音声認識システムは、話
者独立型識別(speaker independen
t identification)を用いてコンピュ
ータ・ボイス・メール・メッセージを転記し、話者独立
型音声特徴を強調することができる。この場合には、ユ
ーザは、将来の転記で使用されるための発呼者の登録デ
ータを作成することができる。音声認識システムが、コ
ンピュータ・ボイス・メール・メッセージの転記をいっ
たん作り出すと、音声認識システムは、転記のハードコ
ピーを印刷する,転記をメモリに格納する,ボイス・メ
ール・システムにおいて転記を表示する,あるいは転記
を他のロケーションへ伝送する等を含む様々な手段のど
れでもによって、転記をユーザへ提供することができ
る。
力を待つ連続ループにかかわっているアクティブ状態の
音声認識システムから開始する。加えて、ボイス・メー
ル・システムとして使用されるユーザのコンピュータ・
システム3は、様々な発呼者からのディジタル・オーデ
ィオ・ファイル形式のボイス・メール・メッセージを含
む。ボイス・メール・メッセージを転記するシステムは
独立のアプリケーション・プログラムとして述べられる
が、システムは、他のアプリケーション・プログラム内
部でボイス・メール・メッセージの転記を作動させるた
めのボタン,メニュー項目,あるいは音声コマンドを備
えることにより、電子メール・プログラムのような別個
のアプリケーション・プログラム内部から始動可能であ
るということを理解されたい。
し、ボイス・メール・メッセージを転記するシステム
は、テキストへのボイス・メール・メッセージの変換と
も称されるボイス・メール・メッセージの転記を要求す
るユーザ入力を待つ。ボイス・メール・メッセージの転
記を要求するユーザ入力は、ユーザ・ボイス・コマン
ド,キーボード入力,あるいはマウス操作等を含む種々
の適切なフォームのいずれであってもよい。従って、シ
ステムが、ユーザがボイス・メール・メッセージを転記
したいということを指示する入力を受信する場合には、
システムはステップ55へ進む。そうでない場合には、
システムは、そのような入力が受信されるまで、ループ
を続ける。
メッセージを転記するシステムは、ユーザが、転記のた
めにシステムに対して特定ボイス・メール・メッセージ
を識別することを要求する。例えば、システムは、転記
されるボイス・メール・メッセージを含むコンピュータ
・メモリ内のロケーションへユーザがナビゲートできる
ようにする標準ファイル・ナビゲーション・コントロー
ルを有するグラフィカル・ユーザ・インターフェース
(GUI)をユーザに与えることができる。GUI内部
で、ユーザは、マウス,キーボード入力,あるいは発せ
られた言葉を用いてボイス・メール・メッセージを強調
表示することによってシステムに対してボイス・メール
・メッセージを識別し得る。本発明は、転記のために単
一のボイス・メール・メッセージを受信することに限定
されないということが当業者によって理解される。例え
ばGUIは、ユーザが、転記のためにシステムに対して
複数ボイス・メール・メッセージを識別または強調表示
することを可能にすることができる。代わりに、ユーザ
は、転記のためのボイス・メール・メッセージの属性を
指定することができる。例として、一連の方法で単一ボ
イス・メール・メッセージまたは複数メッセージを選択
する代わりに、ユーザは、特定の日にあるいは特定の発
呼者から発生する全てのボイス・メール・メッセージを
識別し得る。システムによって使用されるGUIの特定
フォーマットに関係なく、1以上のボイス・メール・メ
ッセージが識別される場合には、システムはステップ6
0へ進む。
択されたボイス・メール・メッセージは、転記のために
音声認識システムに対してインポートされあるいは利用
可能にされる。ボイス・メール・メッセージを転記する
システムは、ボイス・メール・メッセージを音声認識シ
ステム22に含まれるディクテーション・クライアント
に再生することができる。このように、ボイス・メール
・メッセージのファイル・フォーマットは、ボイス・メ
ール・メッセージの転記を作り出す音声認識エンジンに
よって使用されるためにより適切なフォーマットに変換
され得る。代わりに、ボイス・メール・メッセージは、
ボイス・メール・メッセージ・ファイルのリファレンス
をそこへ渡すAPIコールを経て、音声認識システム2
2に与えられ得る。
を有する発呼者に関して、システムは、発呼者によって
与えられたボイス・メール・メッセージから発呼者の一
致を判定することができる。特に、ボイス・メール・メ
ッセージを転記するシステムは、ボイス・メール・メッ
セージの最初の数秒を分析することができる。発呼者の
一致は、ボイス・メール・メッセージ内に記録された音
声を発呼者の固有の話者登録データおよび対応する話者
識別にマッチングさせることにより、判定され得る。ボ
イス・メール・メッセージを転記するシステムは、この
技術分野で周知のテクノロジであり、Internat
ional Business Machines C
orporationのような音声認識システム・メー
カーから商業的に入手可能である、ボイス・メール・メ
ッセージを分析するためのテキスト独立型話者識別を用
いることができる。
ボイス・メール・メッセージを受信する場合、ユーザ
は、“Joe”のための登録データを作成することがで
きる。固有の登録データおよび対応する固有の話者識別
が“Joe”のためにいったん作成されると、ボイス・
メール・メッセージを転記するシステムは、“Joe”
が次に受信されるボイス・メール・メッセージのソース
であるか否か判定することができる。従って、システム
は、“Joe”と名付けられた発呼者に対応する正確な
固有の話者登録データおよび話者識別を自動的に再呼び
出しすることができる。
識別された発呼者に対応する固有の話者登録データは、
ボイス・メール・メッセージの転記を援助するために使
用され得る。システムが、発呼者を、対応する固有のユ
ーザ登録にマッチングさせることによって、コンピュー
タ・ボイス・メール・メッセージから発呼者の一致を判
定できる場合には、システムはステップ80へ進む。そ
うでない場合には、システムはステップ70へ進む。
メッセージを転記するシステムは、システムがボイス・
メール・メッセージ内部の発呼者を識別できなかった
か、あるいは代わりに、いかなるユーザ登録も発呼者に
対応しないかをユーザに通知する。それとは関係なし
に、ボイス・メール・メッセージを転記するシステム
は、ユーザが、識別されない発呼者に対応する新しくか
つ固有のユーザ登録を作成したいか否か、ユーザにさら
に訪ねることができる。そうである場合には、システム
はステップ75へ進む。そうでない場合には、システム
はステップ80へ直接進む。
をガイドして、識別されない発呼者に対応する新しくか
つ固有の話者登録データを作成するプロセスを通過させ
る。例えば、ボイス・メール・メッセージを転記するシ
ステムは、ユーザをガイドして登録プロセスを段階を追
って通過させるために、ウィザード・フォーマットを用
いることができる。ユーザは、ユーザのコンピュータに
ボイス・メール・メッセージを置くそれぞれの発呼者の
ための固有の話者登録データを作成することができると
いうことを理解されたい。
ス・メール・メッセージの転記正確度の増加をもたら
す。特に、ユーザは、ボイス・メール・メッセージを転
記するシステムに、対応するボイス・メール・メッセー
ジ自身の転記と一緒に先のボイス・メール・メッセージ
の転記を与えることができる。転記を、ボイス・メール
・メッセージに含まれる対応する話者の音声と比較する
ことにより、システムは、話者依存型特徴(speak
er dependent characterist
ics)を含み、特定の発呼者に固有の話者登録を構築
することができる。さらに、ユーザは、システムに、発
呼者からの、複数のボイス・メール・メッセージおよび
対応する転記を与え、より優れた正確度を達成すること
ができる。とりわけ、時がたつにつれて、ユーザがさら
に多くのボイス・メール・メッセージと対応する転記と
をシステムへ与えるにつれて、システムがユーザ登録を
構築するので、転記内のあらゆるエラーは、転記の正確
な部分によって十二分に補われる。新たに作成されたユ
ーザ登録は、特定の発呼者に同様に固有のユーザ識別を
割り当てられ得る。この手法は、典型的に、“監視あり
適応(supervised adaptatio
n)”または“監視あり登録(supervised
enrollment)”と呼ばれる。
e”と名付けられた人物からボイス・メール・メッセー
ジを頻繁に受け取る場合には、ユーザは、登録を作成す
るためにシステム内部のオプションを選択することがで
きる。システムは、ユーザがその発呼者のために固有の
話者登録を作成したいと思う発呼者からのボイス・メー
ル・メッセージおよび対応する転記をユーザが識別する
ことを要求する。転記とボイス・メール・メッセージの
比較の後、システムは、ユーザID例えば“Joe”を
有する“Joe”に固有の話者登録を作成することがで
きる。このように、各発呼者は、対応する固有のユーザ
識別および登録を有することができる。
ル・メッセージを転記するシステムは、“監視なし登録
(unsupervised enrollmen
t)”としても知られる“監視なし適応(unsupe
rvised adaptation)”手法を有利に
利用することができる。監視なし適応は、本技術分野に
おいて既知であり、音声認識システム・メーカから商業
的に入手可能なテクノロジである。監視なし適応は、既
知のソースからの先在する転記の利点なしでユーザ登録
を作成するために使用可能である。本発明において、音
声の転記が、従来の監視あり登録を実行するために利用
できない時には、ボイス・メール・メッセージを転記す
るシステムは、未知の話者からのボイス・サンプルから
仮説を生成するために音声認識システムを使用すること
ができ、仮説は、適応プロセスにおいて正確な転記であ
ると推定される。話者登録プロセスの完了の後、システ
ムはステップ80に進む。
メッセージを転記するシステムは、ボイス・メール・メ
ッセージに対して音声認識を実行して、メッセージの内
容をテキストへ変換する。とりわけ、システムが、発呼
者と対応する固有のユーザ登録およびユーザ識別の一致
をあらかじめ判定した場合には、システムは、ボイス・
メール・メッセージの転記を援助するためにその登録を
用い、転記正確度の向上をもたらすことができる。この
ようなプロセスは、ボイス・メール・メッセージ内部の
音声をテキストへ変換するために、話者依存型および話
者独立型特徴を使用することを含む。しかし、いかなる
話者登録も発呼者に対応しない場合、またはユーザが発
呼者のためにユーザ登録を作成したいと思わない場合に
は、システムは、その特定のユーザに対応する固有のユ
ーザ登録の援助なしで、ボイス・メール・メッセージの
内容をテキストへ変換することができる。この場合に
は、システムは、ボイス・メール・メッセージ内部の発
呼者の音声の話者独立型特徴を用いて、ボイス・メール
・メッセージに対して音声認識を実行することができ
る。どちらの場合にも、システムはステップ85へ進
む。
メッセージを転記するシステムは、ユーザにボイス・メ
ール・メッセージの転記を与える。システムは、転記を
多数の異なる方法でユーザが利用できるようにし得る。
例えば、コンピュータは、テキスト転記をユーザのVD
Tに表示する,転記を印刷する,あるいは転記をファイ
ルとして、例えばテキスト・ファイルまたは他のユーザ
指定ワード・プロセッサ・ファイル・フォーマットとし
て、コンピュータ・メモリに保管することができる。
態を説明し述べているが、本発明は、この中に開示され
た厳密な構成に限定されないということを理解された
い。本発明は、趣旨または本質的な特質から離れること
なしに他の特定の形態で実施され得る。従って、上述の
明細書よりむしろ、本発明の範囲を示す特許請求の範囲
を参照されたい。
の事項を開示する。 (1)コンピュータ・ボイス・メールを転記する方法で
あって、オーディオ・ファイルに格納されたコンピュー
タ・ボイス・メール・メッセージをコンピュータ音声認
識システムに与えるステップと、前記コンピュータ・ボ
イス・メール・メッセージを、前記音声認識システム内
の話者識別プロセスに処理依頼し、前記話者識別プロセ
スが、登録話者を前記コンピュータ・ボイス・メール・
メッセージのソースとして識別するステップと、前記登
録話者の前記識別に応答して、前記コンピュータ・ボイ
ス・メール・メッセージを、前記音声認識システム内の
音声変換プロセスに処理依頼し、前記音声変換プロセス
が、前記識別された登録話者に対応する話者登録データ
を用いて、前記コンピュータ・ボイス・メール・メッセ
ージの音声/テキスト変換を実行するステップと、前記
音声/テキスト変換が、前記コンピュータ・ボイス・メ
ール・メッセージの転記を作り出すステップとを含む方
法。 (2)前記転記を表示するステップを、さらに含む上記
(1)に記載の方法。 (3)前記話者識別プロセスは、テキスト独立型話者識
別(text−independent speake
r identification)を用いて、話者登
録データを有する登録話者を、前記ボイス・メール・メ
ッセージのソースとして識別するステップを含む上記
(1)に記載の方法。 (4)前記話者識別プロセスは、前記話者識別プロセス
が登録話者を前記コンピュータ・ボイス・メール・メッ
セージのソースとして識別することに失敗する場合に
は、話者登録を作成するステップと、前記作成された話
者登録を非登録話者と関連付けるステップと、前記関連
付けられた話者を前記ボイス・メール・メッセージのソ
ースとして識別するステップとを、さらに含む上記
(1)に記載の方法。 (5)前記話者識別プロセスは、各々が対応する登録デ
ータを有する登録話者のリストをユーザに与えるステッ
プと、前記ユーザによる、前記リスト内の前記登録話者
のうちの1人の選択を受信するステップと、前記選択さ
れた登録話者を前記ボイス・メール・メッセージのソー
スとして識別するステップとを含む上記(1)に記載の
方法。 (6)前記登録を作成するステップは、前記関連付けら
れた話者の監視なし登録(unsupervised
enrollment)を実行するステップを含む上記
(4)に記載の方法。 (7)ボイス・メール・メッセージを転記するシステム
であって、発呼者によって発声されたボイス・メール・
メッセージを記録するボイス・メール・システムと、前
記記録されたボイス・メール・メッセージと関連付けら
れたソース話者を識別する話者識別プロセッサと、前記
記録されたボイス・メール・メッセージと関連付けられ
た前記識別されたソース話者に対応する話者登録データ
を用いて、前記記録されたボイス・メール・メッセージ
の音声/テキスト変換を実行する音声認識システムとを
備え、前記音声/テキスト変換は、前記ボイス・メール
・メッセージの転記を作り出すシステム。 (8)前記転記を表示する表示手段をさらに備える上記
(7)に記載のシステム。 (9)前記表示手段は、前記転記を印刷するプリンタお
よび前記転記を視覚的に表示するユーザ・インターフェ
ースのグループから選択される上記(8)に記載のシス
テム。 (10)前記話者識別プロセッサは、テキスト独立型話
者識別手法を実行する上記(7)に記載のシステム。 (11)前記話者識別プロセッサによって識別されない
前記ボイス・メール・メッセージのソースと関連付けら
れた話者登録データを作成する監視なし登録プロセッサ
と、前記作成された話者登録データを用いて、前記未知
の話者によって発声されたボイス・メール・メッセージ
の前記音声/テキスト変換を実行する前記音声認識シス
テムとを、さらに備える上記(7)に記載のシステム。 (12)ボイス・メール・メッセージ転記するコンピュ
ータ・プログラムを格納したマシン読み取り可能なスト
レージであって、前記コンピュータ・プログラムは、オ
ーディオ・ファイルに格納されたコンピュータ・ボイス
・メール・メッセージをコンピュータ音声認識システム
に与えるステップと、前記コンピュータ・ボイス・メー
ル・メッセージを、前記音声認識システム内の話者識別
プロセスに処理依頼し、前記話者識別プロセスが、登録
話者を前記コンピュータ・ボイス・メール・メッセージ
のソースとして識別するステップと、前記登録話者の前
記識別に応答して、前記コンピュータ・ボイス・メール
・メッセージを、前記音声認識システム内の音声変換プ
ロセスに処理依頼し、前記音声変換プロセスが、前記識
別された登録話者に対応する話者登録データを用いて、
前記コンピュータ・ボイス・メール・メッセージの音声
/テキスト変換を実行するステップと、前記音声/テキ
スト変換が、前記コンピュータ・ボイス・メール・メッ
セージの転記を作り出すステップとをマシンに実行させ
る、前記マシンによって実行可能な複数のコード・セク
ションを有するマシン読み取り可能なストレージ。 (13)前記コンピュータ・プログラムは、前記転記を
表示するステップを前記マシンにさらに実行させる、マ
シンによって実行可能な複数のコード・セクションをさ
らに有する上記(12)に記載のマシン読み取り可能な
ストレージ。 (14)前記話者識別プロセスは、テキスト独立型話者
識別を用いて、話者登録データを有する登録話者を、前
記ボイス・メール・メッセージのソースとして識別する
ステップを含む上記(12)に記載のマシン読み取り可
能なストレージ。 (15)前記話者識別プロセスは、前記話者識別プロセ
スが登録話者を前記コンピュータ・ボイス・メール・メ
ッセージのソースとして識別することに失敗する場合に
は、話者登録を作成するステップと、前記作成された話
者登録を非登録話者と関連付けるステップと、前記関連
付けられた話者を前記ボイス・メール・メッセージのソ
ースとして識別するステップとを、さらに含む上記(1
2)に記載のマシン読み取り可能なストレージ。 (16)前記話者識別プロセスは、各々が対応する登録
データを有する登録話者のリストをユーザに与えるステ
ップと、前記ユーザによる、前記リスト内の前記登録話
者のうちの1人の選択を受信するステップと、前記選択
された登録話者を前記ボイス・メール・メッセージのソ
ースとして識別するステップとを含む上記(12)に記
載のマシン読み取り可能なストレージ。 (17)前記登録を作成するステップは、前記関連付け
られた話者の監視なし登録を実行するステップを含む上
記(15)に記載のマシン読み取り可能なストレージ。
メールを受信するように構成されたコンピュータ・シス
テムのオペレーションを示す概要図である。
るように構成されたコンピュータ・システムを説明する
ブロック図である。
なハイレベル・アーキテクチャ示すブロック図である。
らテキストを転記する方法を説明するフローチャートで
ある。
Claims (17)
- 【請求項1】コンピュータ・ボイス・メールを転記する
方法であって、 オーディオ・ファイルに格納されたコンピュータ・ボイ
ス・メール・メッセージをコンピュータ音声認識システ
ムに与えるステップと、 前記コンピュータ・ボイス・メール・メッセージを、前
記音声認識システム内の話者識別プロセスに処理依頼
し、前記話者識別プロセスが、登録話者を前記コンピュ
ータ・ボイス・メール・メッセージのソースとして識別
するステップと、 前記登録話者の前記識別に応答して、前記コンピュータ
・ボイス・メール・メッセージを、前記音声認識システ
ム内の音声変換プロセスに処理依頼し、前記音声変換プ
ロセスが、前記識別された登録話者に対応する話者登録
データを用いて、前記コンピュータ・ボイス・メール・
メッセージの音声/テキスト変換を実行するステップ
と、 前記音声/テキスト変換が、前記コンピュータ・ボイス
・メール・メッセージの転記を作り出すステップとを含
む方法。 - 【請求項2】前記転記を表示するステップを、さらに含
む請求項1に記載の方法。 - 【請求項3】前記話者識別プロセスは、 テキスト独立型話者識別(text−independ
ent speaker identificatio
n)を用いて、話者登録データを有する登録話者を、前
記ボイス・メール・メッセージのソースとして識別する
ステップを含む請求項1に記載の方法。 - 【請求項4】前記話者識別プロセスは、 前記話者識別プロセスが登録話者を前記コンピュータ・
ボイス・メール・メッセージのソースとして識別するこ
とに失敗する場合には、話者登録を作成するステップ
と、 前記作成された話者登録を非登録話者と関連付けるステ
ップと、 前記関連付けられた話者を前記ボイス・メール・メッセ
ージのソースとして識別するステップとを、さらに含む
請求項1に記載の方法。 - 【請求項5】前記話者識別プロセスは、 各々が対応する登録データを有する登録話者のリストを
ユーザに与えるステップと、 前記ユーザによる、前記リスト内の前記登録話者のうち
の1人の選択を受信するステップと、 前記選択された登録話者を前記ボイス・メール・メッセ
ージのソースとして識別するステップとを含む請求項1
に記載の方法。 - 【請求項6】前記登録を作成するステップは、前記関連
付けられた話者の監視なし登録(unsupervis
ed enrollment)を実行するステップを含
む請求項4に記載の方法。 - 【請求項7】ボイス・メール・メッセージを転記するシ
ステムであって、 発呼者によって発声されたボイス・メール・メッセージ
を記録するボイス・メール・システムと、 前記記録されたボイス・メール・メッセージと関連付け
られたソース話者を識別する話者識別プロセッサと、 前記記録されたボイス・メール・メッセージと関連付け
られた前記識別されたソース話者に対応する話者登録デ
ータを用いて、前記記録されたボイス・メール・メッセ
ージの音声/テキスト変換を実行する音声認識システム
とを備え、 前記音声/テキスト変換は、前記ボイス・メール・メッ
セージの転記を作り出すシステム。 - 【請求項8】前記転記を表示する表示手段をさらに備え
る請求項7に記載のシステム。 - 【請求項9】前記表示手段は、前記転記を印刷するプリ
ンタおよび前記転記を視覚的に表示するユーザ・インタ
ーフェースのグループから選択される請求項8に記載の
システム。 - 【請求項10】前記話者識別プロセッサは、テキスト独
立型話者識別手法を実行する請求項7に記載のシステ
ム。 - 【請求項11】前記話者識別プロセッサによって識別さ
れない前記ボイス・メール・メッセージのソースと関連
付けられた話者登録データを作成する監視なし登録プロ
セッサと、 前記作成された話者登録データを用いて、前記未知の話
者によって発声されたボイス・メール・メッセージの前
記音声/テキスト変換を実行する前記音声認識システム
とを、さらに備える請求項7に記載のシステム。 - 【請求項12】ボイス・メール・メッセージ転記するコ
ンピュータ・プログラムを格納したマシン読み取り可能
なストレージであって、前記コンピュータ・プログラム
は、 オーディオ・ファイルに格納されたコンピュータ・ボイ
ス・メール・メッセージをコンピュータ音声認識システ
ムに与えるステップと、 前記コンピュータ・ボイス・メール・メッセージを、前
記音声認識システム内の話者識別プロセスに処理依頼
し、前記話者識別プロセスが、登録話者を前記コンピュ
ータ・ボイス・メール・メッセージのソースとして識別
するステップと、 前記登録話者の前記識別に応答して、前記コンピュータ
・ボイス・メール・メッセージを、前記音声認識システ
ム内の音声変換プロセスに処理依頼し、前記音声変換プ
ロセスが、前記識別された登録話者に対応する話者登録
データを用いて、前記コンピュータ・ボイス・メール・
メッセージの音声/テキスト変換を実行するステップ
と、 前記音声/テキスト変換が、前記コンピュータ・ボイス
・メール・メッセージの転記を作り出すステップとをマ
シンに実行させる、前記マシンによって実行可能な複数
のコード・セクションを有するマシン読み取り可能なス
トレージ。 - 【請求項13】前記コンピュータ・プログラムは、前記
転記を表示するステップを前記マシンにさらに実行させ
る、マシンによって実行可能な複数のコード・セクショ
ンをさらに有する請求項12に記載のマシン読み取り可
能なストレージ。 - 【請求項14】前記話者識別プロセスは、テキスト独立
型話者識別を用いて、話者登録データを有する登録話者
を、前記ボイス・メール・メッセージのソースとして識
別するステップを含む請求項12に記載のマシン読み取
り可能なストレージ。 - 【請求項15】前記話者識別プロセスは、 前記話者識別プロセスが登録話者を前記コンピュータ・
ボイス・メール・メッセージのソースとして識別するこ
とに失敗する場合には、話者登録を作成するステップ
と、 前記作成された話者登録を非登録話者と関連付けるステ
ップと、 前記関連付けられた話者を前記ボイス・メール・メッセ
ージのソースとして識別するステップとを、さらに含む
請求項12に記載のマシン読み取り可能なストレージ。 - 【請求項16】前記話者識別プロセスは、 各々が対応する登録データを有する登録話者のリストを
ユーザに与えるステップと、 前記ユーザによる、前記リスト内の前記登録話者のうち
の1人の選択を受信するステップと、 前記選択された登録話者を前記ボイス・メール・メッセ
ージのソースとして識別するステップとを含む請求項1
2に記載のマシン読み取り可能なストレージ。 - 【請求項17】前記登録を作成するステップは、前記関
連付けられた話者の監視なし登録を実行するステップを
含む請求項15に記載のマシン読み取り可能なストレー
ジ。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/579985 | 2000-05-26 | ||
US09/579,985 US6775651B1 (en) | 2000-05-26 | 2000-05-26 | Method of transcribing text from computer voice mail |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002032213A true JP2002032213A (ja) | 2002-01-31 |
Family
ID=24319168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001156784A Pending JP2002032213A (ja) | 2000-05-26 | 2001-05-25 | ボイス・メール・メッセージを転記する方法およびシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US6775651B1 (ja) |
JP (1) | JP2002032213A (ja) |
GB (1) | GB2362745A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003289387A (ja) * | 2002-03-15 | 2003-10-10 | Microsoft Corp | ボイスメッセージ処理システムおよび方法 |
JP2005062874A (ja) * | 2003-08-11 | 2005-03-10 | Microsoft Corp | 音声認識で機能強化された発信者識別 |
Families Citing this family (72)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7689416B1 (en) | 1999-09-29 | 2010-03-30 | Poirier Darrell A | System for transferring personalize matter from one computer to another |
US7664636B1 (en) | 2000-04-17 | 2010-02-16 | At&T Intellectual Property Ii, L.P. | System and method for indexing voice mail messages by speaker |
US7565680B1 (en) * | 2000-06-30 | 2009-07-21 | Comcast Ip Holdings I, Llc | Advanced set top terminal having a video call feature |
US6944591B1 (en) * | 2000-07-27 | 2005-09-13 | International Business Machines Corporation | Audio support system for controlling an e-mail system in a remote computer |
US7253919B2 (en) | 2000-11-30 | 2007-08-07 | Ricoh Co., Ltd. | Printer with embedded retrieval and publishing interface |
US8213910B2 (en) * | 2001-02-09 | 2012-07-03 | Harris Technology, Llc | Telephone using a connection network for processing data remotely from the telephone |
US7225126B2 (en) * | 2001-06-12 | 2007-05-29 | At&T Corp. | System and method for processing speech files |
US7418381B2 (en) * | 2001-09-07 | 2008-08-26 | Hewlett-Packard Development Company, L.P. | Device for automatically translating and presenting voice messages as text messages |
US6873687B2 (en) * | 2001-09-07 | 2005-03-29 | Hewlett-Packard Development Company, L.P. | Method and apparatus for capturing and retrieving voice messages |
US7346505B1 (en) * | 2001-09-28 | 2008-03-18 | At&T Delaware Intellectual Property, Inc. | System and method for voicemail transcription |
JP2003143256A (ja) | 2001-10-30 | 2003-05-16 | Nec Corp | 端末装置と通信制御方法 |
US7747655B2 (en) * | 2001-11-19 | 2010-06-29 | Ricoh Co. Ltd. | Printable representations for time-based media |
US7415670B2 (en) * | 2001-11-19 | 2008-08-19 | Ricoh Co., Ltd. | Printer with audio/video localization |
US7861169B2 (en) | 2001-11-19 | 2010-12-28 | Ricoh Co. Ltd. | Multimedia print driver dialog interfaces |
US7314994B2 (en) * | 2001-11-19 | 2008-01-01 | Ricoh Company, Ltd. | Music processing printer |
US7310517B2 (en) * | 2002-04-03 | 2007-12-18 | Ricoh Company, Ltd. | Techniques for archiving audio information communicated between members of a group |
DE10220522B4 (de) * | 2002-05-08 | 2005-11-17 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
US7376139B1 (en) * | 2002-09-17 | 2008-05-20 | At&T Delaware Intellectual Property, Inc. | Inter-switch voicemail analysis tool |
US7539086B2 (en) * | 2002-10-23 | 2009-05-26 | J2 Global Communications, Inc. | System and method for the secure, real-time, high accuracy conversion of general-quality speech into text |
US7757162B2 (en) * | 2003-03-31 | 2010-07-13 | Ricoh Co. Ltd. | Document collection manipulation |
US7739583B2 (en) | 2003-03-31 | 2010-06-15 | Ricoh Company, Ltd. | Multimedia document sharing method and apparatus |
US7703002B2 (en) * | 2003-03-31 | 2010-04-20 | Ricoh Company, Ltd. | Method and apparatus for composing multimedia documents |
US7509569B2 (en) * | 2003-03-31 | 2009-03-24 | Ricoh Co., Ltd. | Action stickers for nested collections |
US7536638B2 (en) * | 2003-03-31 | 2009-05-19 | Ricoh Co., Ltd. | Action stickers for identifying and processing stored documents |
GB2411551B (en) | 2003-04-22 | 2006-05-03 | Spinvox Ltd | A method of providing voicemails to a wireless information device |
US7519042B2 (en) | 2003-09-12 | 2009-04-14 | Motorola, Inc. | Apparatus and method for mixed-media call formatting |
US7864352B2 (en) | 2003-09-25 | 2011-01-04 | Ricoh Co. Ltd. | Printer with multimedia server |
US8077341B2 (en) | 2003-09-25 | 2011-12-13 | Ricoh Co., Ltd. | Printer with audio or video receiver, recorder, and real-time content-based processing logic |
JP2005108230A (ja) | 2003-09-25 | 2005-04-21 | Ricoh Co Ltd | オーディオ/ビデオコンテンツ認識・処理機能内蔵印刷システム |
US20050137872A1 (en) * | 2003-12-23 | 2005-06-23 | Brady Corey E. | System and method for voice synthesis using an annotation system |
US7603615B2 (en) * | 2004-03-30 | 2009-10-13 | Ricoh Co., Ltd. | Multimedia projector-printer |
US8274666B2 (en) | 2004-03-30 | 2012-09-25 | Ricoh Co., Ltd. | Projector/printer for displaying or printing of documents |
KR100617826B1 (ko) * | 2004-05-11 | 2006-08-28 | 삼성전자주식회사 | 음성메시지를 문자메시지로 변환하는 이동단말기 및 방법 |
US7302048B2 (en) * | 2004-07-23 | 2007-11-27 | Marvell International Technologies Ltd. | Printer with speech transcription of a recorded voice message |
US8107609B2 (en) | 2004-12-06 | 2012-01-31 | Callwave, Inc. | Methods and systems for telephony call-back processing |
JP2006189626A (ja) * | 2005-01-06 | 2006-07-20 | Fuji Photo Film Co Ltd | 記録装置及び音声記録プログラム |
US7917178B2 (en) * | 2005-03-22 | 2011-03-29 | Sony Ericsson Mobile Communications Ab | Wireless communications device with voice-to-text conversion |
US8265930B1 (en) * | 2005-04-13 | 2012-09-11 | Sprint Communications Company L.P. | System and method for recording voice data and converting voice data to a text file |
US20060293890A1 (en) * | 2005-06-28 | 2006-12-28 | Avaya Technology Corp. | Speech recognition assisted autocompletion of composite characters |
US8249873B2 (en) * | 2005-08-12 | 2012-08-21 | Avaya Inc. | Tonal correction of speech |
US8976944B2 (en) * | 2006-02-10 | 2015-03-10 | Nuance Communications, Inc. | Mass-scale, user-independent, device-independent voice messaging system |
US8903053B2 (en) * | 2006-02-10 | 2014-12-02 | Nuance Communications, Inc. | Mass-scale, user-independent, device-independent voice messaging system |
US11128745B1 (en) * | 2006-03-27 | 2021-09-21 | Jeffrey D. Mullen | Systems and methods for cellular and landline text-to-audio and audio-to-text conversion |
WO2007121441A2 (en) | 2006-04-17 | 2007-10-25 | Vovision Llc | Methods and systems for correcting transcribed audio files |
US8121626B1 (en) | 2006-06-05 | 2012-02-21 | Callwave, Inc. | Method and systems for short message forwarding services |
US8102986B1 (en) | 2006-11-10 | 2012-01-24 | Callwave, Inc. | Methods and systems for providing telecommunications services |
US7415409B2 (en) * | 2006-12-01 | 2008-08-19 | Coveo Solutions Inc. | Method to train the language model of a speech recognition system to convert and index voicemails on a search engine |
WO2008084209A2 (en) | 2007-01-09 | 2008-07-17 | Spinvox Limited | A mobile telephone programmed to allow a user to speak a message which is then remotely automatically converted to text |
US20080317226A1 (en) * | 2007-01-09 | 2008-12-25 | Freescale Semiconductor, Inc. | Handheld device for transmitting a visual format message |
US8077839B2 (en) * | 2007-01-09 | 2011-12-13 | Freescale Semiconductor, Inc. | Handheld device for dialing of phone numbers extracted from a voicemail |
US8325886B1 (en) | 2007-03-26 | 2012-12-04 | Callwave Communications, Llc | Methods and systems for managing telecommunications |
US8447285B1 (en) | 2007-03-26 | 2013-05-21 | Callwave Communications, Llc | Methods and systems for managing telecommunications and for translating voice messages to text messages |
US8214338B1 (en) * | 2007-05-01 | 2012-07-03 | Callwave, Inc. | Methods and systems for media storage |
US8583746B1 (en) | 2007-05-25 | 2013-11-12 | Callwave Communications, Llc | Methods and systems for web and call processing |
US20110022387A1 (en) * | 2007-12-04 | 2011-01-27 | Hager Paul M | Correcting transcribed audio files with an email-client interface |
US20090307870A1 (en) * | 2008-06-16 | 2009-12-17 | Steven Randolph Smith | Advertising housing for mass transit |
US8180644B2 (en) * | 2008-08-28 | 2012-05-15 | Qualcomm Incorporated | Method and apparatus for scrolling text display of voice call or message during video display session |
US20100111270A1 (en) * | 2008-10-31 | 2010-05-06 | Vonage Holdings Corp. | Method and apparatus for voicemail management |
US20100121641A1 (en) * | 2008-11-11 | 2010-05-13 | Aibelive Co., Ltd | External voice identification system and identification process thereof |
US8199888B2 (en) | 2008-12-04 | 2012-06-12 | At&T Intellectual Property I, L.P. | System and method for automatically transcribing voicemail |
US8688445B2 (en) * | 2008-12-10 | 2014-04-01 | Adobe Systems Incorporated | Multi-core processing for parallel speech-to-text processing |
US8244221B2 (en) * | 2008-12-19 | 2012-08-14 | Cox Communications, Inc. | Visual voicemail messages and unique directory number assigned to each for accessing corresponding audio voicemail message |
US8345832B2 (en) * | 2009-01-09 | 2013-01-01 | Microsoft Corporation | Enhanced voicemail usage through automatic voicemail preview |
US9871916B2 (en) * | 2009-03-05 | 2018-01-16 | International Business Machines Corporation | System and methods for providing voice transcription |
US9270828B2 (en) * | 2010-07-01 | 2016-02-23 | At&T Mobility Ii Llc. | System and method for voicemail to text conversion |
US20140074465A1 (en) * | 2012-09-11 | 2014-03-13 | Delphi Technologies, Inc. | System and method to generate a narrator specific acoustic database without a predefined script |
US9230542B2 (en) * | 2014-04-01 | 2016-01-05 | Zoom International S.R.O. | Language-independent, non-semantic speech analytics |
CN108028867B (zh) * | 2015-04-17 | 2020-11-03 | 华为技术有限公司 | 联系人信息添加方法及用户设备 |
US9830903B2 (en) * | 2015-11-10 | 2017-11-28 | Paul Wendell Mason | Method and apparatus for using a vocal sample to customize text to speech applications |
US9917939B1 (en) | 2017-03-01 | 2018-03-13 | Sorenson Ip Holdings, Llc | Automatically delaying playback of a voice message at a captioning device |
US11961524B2 (en) | 2021-05-27 | 2024-04-16 | Honeywell International Inc. | System and method for extracting and displaying speaker information in an ATC transcription |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63110496A (ja) * | 1986-10-29 | 1988-05-14 | 日本電気株式会社 | 話者確認装置 |
JPH09198084A (ja) * | 1996-01-16 | 1997-07-31 | Nippon Telegr & Teleph Corp <Ntt> | モデル更新を伴う話者認識方法及びその装置 |
JPH10261018A (ja) * | 1997-03-18 | 1998-09-29 | Masataka Kusunoki | カルテ記載サポート装置 |
JPH1175044A (ja) * | 1997-08-27 | 1999-03-16 | Casio Comput Co Ltd | 画像中継伝送方法、音声中継伝送方法、画像中継伝送装置及び音声中継伝送装置 |
JPH11205376A (ja) * | 1998-01-09 | 1999-07-30 | Victor Co Of Japan Ltd | メディア変換システム及びメディア変換プログラムを記録した記録媒体 |
JPH11231895A (ja) * | 1998-02-17 | 1999-08-27 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及びその装置 |
JPH11282856A (ja) * | 1998-03-27 | 1999-10-15 | Animo:Kk | 音声処理装置および記録媒体 |
JP2000056794A (ja) * | 1998-08-11 | 2000-02-25 | Fujitsu Ltd | 音声認識システム及び記録媒体 |
JP2000089788A (ja) * | 1999-09-13 | 2000-03-31 | Seiko Epson Corp | 音声認識装置における連続単語認識方法および音声認識装置における連続単語認識処理プログラムを記録した記録媒体 |
JP2000099087A (ja) * | 1998-09-15 | 2000-04-07 | Koninkl Philips Electronics Nv | 言語音声モデルを適応させる方法及び音声認識システム |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5199062A (en) * | 1988-01-20 | 1993-03-30 | Phone Base Systems Inc. | Telephone communications system including a digital telephone switch, a voice response unit and a stored program sequence for controlling both the switch and the voice response unit |
GB8809898D0 (en) | 1988-04-27 | 1988-06-02 | British Telecomm | Voice-operated service |
WO1993007562A1 (en) * | 1991-09-30 | 1993-04-15 | Riverrun Technology | Method and apparatus for managing information |
US5568540A (en) * | 1993-09-13 | 1996-10-22 | Active Voice Corporation | Method and apparatus for selecting and playing a voice mail message |
US5615296A (en) * | 1993-11-12 | 1997-03-25 | International Business Machines Corporation | Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors |
US5696879A (en) * | 1995-05-31 | 1997-12-09 | International Business Machines Corporation | Method and apparatus for improved voice transmission |
US5771276A (en) * | 1995-10-10 | 1998-06-23 | Ast Research, Inc. | Voice templates for interactive voice mail and voice response system |
US5822405A (en) * | 1996-09-16 | 1998-10-13 | Toshiba America Information Systems, Inc. | Automated retrieval of voice mail using speech recognition |
GB2323694B (en) | 1997-03-27 | 2001-07-18 | Forum Technology Ltd | Adaptation in speech to text conversion |
GB2323693B (en) * | 1997-03-27 | 2001-09-26 | Forum Technology Ltd | Speech to text conversion |
US6067516A (en) | 1997-05-09 | 2000-05-23 | Siemens Information | Speech and text messaging system with distributed speech recognition and speaker database transfers |
US6327343B1 (en) * | 1998-01-16 | 2001-12-04 | International Business Machines Corporation | System and methods for automatic call and data transfer processing |
US6219407B1 (en) * | 1998-01-16 | 2001-04-17 | International Business Machines Corporation | Apparatus and method for improved digit recognition and caller identification in telephone mail messaging |
US6216104B1 (en) * | 1998-02-20 | 2001-04-10 | Philips Electronics North America Corporation | Computer-based patient record and message delivery system |
US6167376A (en) * | 1998-12-21 | 2000-12-26 | Ditzik; Richard Joseph | Computer system with integrated telephony, handwriting and speech recognition functions |
US6415256B1 (en) * | 1998-12-21 | 2002-07-02 | Richard Joseph Ditzik | Integrated handwriting and speed recognition systems |
US6442242B1 (en) * | 1999-06-25 | 2002-08-27 | Verizon Services Corporation | Multifunction autoattendant system and method of operation thereof |
US6401063B1 (en) * | 1999-11-09 | 2002-06-04 | Nortel Networks Limited | Method and apparatus for use in speaker verification |
-
2000
- 2000-05-26 US US09/579,985 patent/US6775651B1/en not_active Expired - Lifetime
-
2001
- 2001-05-21 GB GB0112299A patent/GB2362745A/en not_active Withdrawn
- 2001-05-25 JP JP2001156784A patent/JP2002032213A/ja active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63110496A (ja) * | 1986-10-29 | 1988-05-14 | 日本電気株式会社 | 話者確認装置 |
JPH09198084A (ja) * | 1996-01-16 | 1997-07-31 | Nippon Telegr & Teleph Corp <Ntt> | モデル更新を伴う話者認識方法及びその装置 |
JPH10261018A (ja) * | 1997-03-18 | 1998-09-29 | Masataka Kusunoki | カルテ記載サポート装置 |
JPH1175044A (ja) * | 1997-08-27 | 1999-03-16 | Casio Comput Co Ltd | 画像中継伝送方法、音声中継伝送方法、画像中継伝送装置及び音声中継伝送装置 |
JPH11205376A (ja) * | 1998-01-09 | 1999-07-30 | Victor Co Of Japan Ltd | メディア変換システム及びメディア変換プログラムを記録した記録媒体 |
JPH11231895A (ja) * | 1998-02-17 | 1999-08-27 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及びその装置 |
JPH11282856A (ja) * | 1998-03-27 | 1999-10-15 | Animo:Kk | 音声処理装置および記録媒体 |
JP2000056794A (ja) * | 1998-08-11 | 2000-02-25 | Fujitsu Ltd | 音声認識システム及び記録媒体 |
JP2000099087A (ja) * | 1998-09-15 | 2000-04-07 | Koninkl Philips Electronics Nv | 言語音声モデルを適応させる方法及び音声認識システム |
JP2000089788A (ja) * | 1999-09-13 | 2000-03-31 | Seiko Epson Corp | 音声認識装置における連続単語認識方法および音声認識装置における連続単語認識処理プログラムを記録した記録媒体 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003289387A (ja) * | 2002-03-15 | 2003-10-10 | Microsoft Corp | ボイスメッセージ処理システムおよび方法 |
JP4619623B2 (ja) * | 2002-03-15 | 2011-01-26 | マイクロソフト コーポレーション | ボイスメッセージ処理システムおよび方法 |
JP2005062874A (ja) * | 2003-08-11 | 2005-03-10 | Microsoft Corp | 音声認識で機能強化された発信者識別 |
Also Published As
Publication number | Publication date |
---|---|
GB2362745A (en) | 2001-11-28 |
GB0112299D0 (en) | 2001-07-11 |
US6775651B1 (en) | 2004-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002032213A (ja) | ボイス・メール・メッセージを転記する方法およびシステム | |
US10971157B2 (en) | Methods and apparatus for hybrid speech recognition processing | |
US6327343B1 (en) | System and methods for automatic call and data transfer processing | |
US6366882B1 (en) | Apparatus for converting speech to text | |
US8064573B2 (en) | Computer generated prompting | |
JP3397372B2 (ja) | 音声認識方法及び装置 | |
US7496510B2 (en) | Method and apparatus for the automatic separating and indexing of multi-speaker conversations | |
US20140379335A1 (en) | Method and device of matching speech input to text | |
US20090013255A1 (en) | Method and System for Supporting Graphical User Interfaces | |
JP5731998B2 (ja) | 対話支援装置、対話支援方法および対話支援プログラム | |
US20100178956A1 (en) | Method and apparatus for mobile voice recognition training | |
KR19980070329A (ko) | 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 | |
CN107624177B (zh) | 用于提高用户效率和交互性能的可听呈现的选项的自动视觉显示 | |
CN110807093A (zh) | 语音处理方法、装置及终端设备 | |
JP2009175630A (ja) | 音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラム、および該プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US7844459B2 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
TW521263B (en) | Automatic speech recognition to control integrated communication devices | |
JP5591428B2 (ja) | 自動記録装置 | |
JP2002524777A (ja) | ボイス・ダイアリング方法およびシステム | |
JP6322125B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
US6662157B1 (en) | Speech recognition system for database access through the use of data domain overloading of grammars | |
US11632345B1 (en) | Message management for communal account | |
US6212499B1 (en) | Audible language recognition by successive vocabulary reduction | |
JP2008216461A (ja) | 音声認識・キーワード抽出・知識ベース検索連携装置 | |
JP2001024781A (ja) | 発呼者により生成された音声メッセージを分類する方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041130 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20050221 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20050224 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050526 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20050526 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20050526 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20050526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060411 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060705 Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060705 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070910 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20070921 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20070921 |