JP3873131B2 - 電話メッセージの転記のために使用される編集システム及び方法 - Google Patents
電話メッセージの転記のために使用される編集システム及び方法 Download PDFInfo
- Publication number
- JP3873131B2 JP3873131B2 JP18737299A JP18737299A JP3873131B2 JP 3873131 B2 JP3873131 B2 JP 3873131B2 JP 18737299 A JP18737299 A JP 18737299A JP 18737299 A JP18737299 A JP 18737299A JP 3873131 B2 JP3873131 B2 JP 3873131B2
- Authority
- JP
- Japan
- Prior art keywords
- message
- text
- speech
- user
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 36
- 238000012937 correction Methods 0.000 claims description 41
- 238000004891 communication Methods 0.000 claims description 25
- 230000007246 mechanism Effects 0.000 claims description 20
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000013519 translation Methods 0.000 claims description 7
- 238000013518 transcription Methods 0.000 description 11
- 230000035897 transcription Effects 0.000 description 11
- 238000003745 diagnosis Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M11/00—Telephonic communication systems specially adapted for combination with other electrical systems
- H04M11/10—Telephonic communication systems specially adapted for combination with other electrical systems with dictation recording and playback systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/53—Centralised arrangements for recording incoming messages, i.e. mailbox systems
- H04M3/533—Voice mail systems
- H04M3/53366—Message disposing or creating aspects
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/53—Centralised arrangements for recording incoming messages, i.e. mailbox systems
- H04M3/5307—Centralised arrangements for recording incoming messages, i.e. mailbox systems for recording messages comprising any combination of audio and non-audio components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/60—Medium conversion
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
政府情報:
米国政府は、本発明に関する払い込み済み免許を有し、限られた状況において、特許所有者に、DARPA(Defense and Advanced Research Projects Agency)により裁定された合理的な譲渡条件MDA972-97-C-0012にもとづき、他人に免許を与えるように要求する権利を有する。
【0002】
【発明の属する技術分野】
本発明は音声認識のための編集システムに関し、特に、電話の音声から転記されたメッセージを編集するシステム及び方法に関する。
【0003】
【従来の技術】
最近のパーソナル通信の進歩により、音声、マルチメディア(図及び音声)、テキスト(電子メール、ページャ)などの情報が、様々なチャネルを介してユーザに伝送されるようになった。これらの進歩により、様々な媒体を介してユーザにより受信されるメッセージが、単一のレポジトリに記憶され、ユーザにより都合がよいときに検索または探索され得るような、統一されたメッセージ処理の概念が生まれた。
【0004】
更に、ユーザが自身のメッセージを検索するための、非常に限られた能力しか有さないパーソナル・デジタル・アシスタント(PDA)を有することが一般的である。しかしながら、一般に、最も単純なPDAは、テキストの受信はサポートするが、マルチメディア信号の受信をサポートしない。従って、音声及びマルチメディア信号をテキストに変換し、これらの信号が容易にアクセスされ得るようにすることが必要である。このことはまた、通信のための帯域幅要求に対しても影響を及ぼす。なぜなら、テキスト信号は音声よりも少ない伝送帯域幅を要求するからである。
【0005】
ボイスメールは一般に使用されるメッセージ・システムであり、それにより個人の音声が記録され、続いてメッセージの受信者により再生される。従って、統一されたメッセージ処理の重要な要素は、こうしたメッセージをテキストに変換する能力である。これは勿論、自動音声認識アルゴリズムを用いて実行される。しかしながら、ボイスメール・メッセージは通常、未知の電話帯域チャネルを介して記録される任意の音声を表し(すなわち、メッセージを残している呼び出し人が、地球の反対側にいたり、隣人であったりする)、自動音声認識システムにとって、非常に難題である。
【0006】
結果的に、転記されたテキストが誤りだらけで、メッセージの受信者がメッセージを全く解読できなかったりする。従って、メッセージを残す者が転記の品質をチェックし、必要に応じて訂正できる、特定の形態のフィードバック機構を組み込むことが有利である。
【0007】
【発明が解決しようとする課題】
従って、音声データをテキストに変換し、転記されたテキストを音声により訂正する機能を組み込んだ対話式システム及び方法が待望される。
【0008】
【課題を解決するための手段】
音声を受信し、前記音声をテキストに変換するためのメッセージ・システは、ユーザにより入力された音声を受信するための第1のサーバと、前記音声をテキストに変換するための音声認識サーバ(ここで前記音声認識サーバが診断データを訂正機構に提供して、訂正されるべき前記音声入力の一部分を示す)と、ユーザによる訂正のために、前記テキストを合成音声に変換して、前記合成音声を再生するための音声合成器と、及び訂正された音声が通信システムを介する伝送のためにテキストとして提供されるように、前記ユーザが前記合成音声を訂正することを可能にするための訂正機構(ここで前記訂正機構がユーザに、訂正のために前記音声入力の一部分を選択するように指示する)とを含む。
【0009】
他の実施例では、通信システムを介して伝送されるテキストが、ページャ、電子メール及びファックスの1つに伝送され得る。訂正機構はユーザに、訂正のために音声入力の一部分を選択するように指示し得る。訂正される音声入力部分を示すために、音声認識サーバが診断データを訂正機構に提供して、訂正されるべき前記音声入力の一部分を示し得る。訂正機構はユーザに、訂正のために音声入力部分を再記録するように指示し得る。システムは更に、前記通信システムを介して異なる言語の伝送のために、前記音声入力をテキストに変換するための言語翻訳サーバを含み得る。システムは更に、音声認識サーバによる音声認識のために、ユーザを識別し、かつ音声認識モデルを調整するための話者識別サーバを含み得る。
【0010】
汎用メッセージ・システムにおいて、メッセージを訂正するための方法は、音声メッセージを記録するステップと、音声認識システムを使用して、前記メッセージをテキストに転記するステップ(ここで前記転記するステップにおいて、前記テキストは、訂正のために、前記音声メッセージの一部分を示すための診断データを含む)と、前記転記されたテキストに従い音声を提供し、訂正のために前記メッセージを再生するステップと、訂正されるべき前記メッセージの部分を識別するステップ(ここで前記識別するステップが、前記再生されたメッセージを聞いて、前記音声メッセージの訂正されるべき一部分を選択するようにユーザに指示するステップを含む)と、前記識別された部分を再記録することによって、前記メッセージを訂正するステップと、及び通信システムを介して、前記訂正されたテキストを出力するステップとを含む。
【0011】
汎用メッセージ・システムにおいて、メッセージを訂正するための方法を実行するために、マシンによって実行可能な命令プログラムを実現するための、マシンによって読出し可能なプログラム記憶装置は、前記方法が、音声メッセージを記録するステップと、音声認識システムを使用して、前記メッセージをテキストに転記するステップ(ここで前記転記するステップにおいて、前記テキストは、訂正のために、前記音声メッセージの一部分を示すための診断データを含む)と、前記転記されたテキストに従い音声を提供し、訂正のために前記メッセージを再生するステップと、訂正されるべき前記メッセージの部分を識別するステップ(ここで前記識別するステップが、前記再生されたメッセージを聞いて、前記音声メッセージの訂正されるべき一部分を選択するようにユーザに指示するステップを含む)と、前記識別された部分を再記録することによって、前記メッセージを訂正するステップと、及び通信システムを介して、前記訂正されたテキストを出力するステップとを含む。
【0012】
プログラム記憶装置により実行可能な別の方法では、音声メッセージが好適には電話によって記録される。訂正されるべきメッセージ部分を識別するステップが、音声認識サーバから診断データを提供し、メッセージ部分の正確さの尤度を決定するステップを含み得る。訂正されるメッセージ部分を識別するステップはまた、再生されたメッセージを聞いて、ユーザに前記音声メッセージの訂正されるべき一部分を選択するステップを含み得る。識別された部分を再記録することによって、メッセージを訂正するステップは、メッセージの一部を再記録するステップと、音声認識サーバによって、前記再記録された部分を変換して、テキストを訂正するステップと、訂正されたテキストに従って、再記録された部分の音声を再生するステップと、受け入れ可能であれば、メッセージの再記録された部分を承認するステップとを含む。更に、複数の言語のうちの1つによりメッセージを記録するステップを含み、更に通信システムを介して、複数の言語の1つによりテキストを出力するステップが含まれ得る。また、音声認識モデルに関連付けられたユーザを識別するステップと、及び音声認識モデルを適用して、ユーザの音声入力を認識するステップが含まれ得る。
【0013】
【発明の実施の形態】
本発明は音声認識のための編集システムに関し、特に、電話の音声から転記されたメッセージを編集するシステム及び方法に関する。
【0014】
図1及び図2に示される要素は、ハードウェア、ソフトウェアまたはそれらの組み合わせの様々な形態により実現され得る。好適には、これらの要素は、プロセッサ、メモリ及び入出力インタフェースを有する、適切にプログラムされた1つ以上の汎用デジタル・コンピュータ上のソフトウェアにより実現される。添付の図面において、同一の参照番号は同一のまたは類似の要素を表す。最初に一般にシステム10として示される統一メッセージ・システム及び方法に対応するブロック/フロー図である図1を参照する。メッセージ・サーバ12は、全てのメッセージを送受信及び記憶する汎用ハブである。メッセージ・サーバ12はメッセージの検索のために、メッセージを幾つかの形式(電子メール18、ファックス20、ボイスメール22またはページ24)の1つにより送信するために(幾つかの電話及びパーソナル・デジタル・アシスタント(PDA)は、テキスト・メッセージを受信できる)、またはメッセージ・サーバ12上のユーザ・メッセージを消去したり、応答するなどの操作のために、コンピュータ14または電話機16を介してアクセスされ得る。更に、メッセージ・サーバ12はユーザのために、電子メール18、ファックス20またはページ24を介して、直接メッセージを受信し得る。
【0015】
ユーザのために電話機16を介して受信されるメッセージは、メッセージ・サーバ12上にも記憶され得るが、電話機16からの入来音声信号とメッセージ・サーバ12との間に、中間ブリッジとして機能する追加の電話サーバ26が存在し得る。別の実施例では、電話サーバ26はメッセージ・サーバ12内に含まれ得る。電話サーバ26はまた、システム10の構成要素間の情報のフローを制御する。
【0016】
ここで用語"サーバ"は、同一のコンピュータ上、または好適にはネットワークを介してアクセス可能な異なるコンピュータ上で実行される、プログラムまたはコンピュータを指し示すために使用される。
【0017】
次に、ユーザが電話機16を用いて、別のユーザのためにメッセージを残すシステム及び方法、並びにこの方法に関連する様々なシステム構成要素の機能について述べることにする。
【0018】
電話呼び出しが第1のユーザにより発せられ、電話サーバ26により受信される。電話サーバ26は第1のユーザに対して、別のユーザのためにメッセージを残すか、第1のユーザのメッセージを検索するか、または第1のユーザのメッセージを操作するかのオプションを与える。こうしたオプションは、電話サーバ26により提供されるプロンプトを介して、第1のユーザに提供される。
【0019】
第1のユーザは1つのオプションを選択する権利を与えられ、これは所定のトーンで(オプション1に対して1、オプション2に対して2を押下するなど)、或いは第1のユーザの音声応答を記録し、音声認識サーバ32により音声をテキストに変換することにより指定される(この音声認識サーバは、L. R. Bahlらによる"Performance of the IBM Large Vocabulary Continuous Speech Recognition System on ARPA Wall Street Journal Task"、Proceedings of the International Acoustics Speech and Signal Processing、1995で述べられるシステムと同様のものでよい)。認識されたテキストは、ユーザが選択したオプションを決定するために使用される。
【0020】
第1のユーザが別のユーザのためにメッセージを残したい場合、システム10は第1のユーザに対して、メッセージを音声メッセージとして直接残すか、それともメッセージをテキストに変換するかのオプションを与える。ユーザは、前述のように、所定のトーンまたは音声により指定されるオプションを選択する。
【0021】
ユーザがページを英数字ページャに送信したい場合、またはメッセージを異なる言語で送信したい場合、音声をテキストに変換することが必要である。
【0022】
ユーザがこのオプションを指定する場合、電話サーバ26はプロンプトを発し、ユーザにメッセージを記録するように指示する。一旦メッセージが記録されると(メッセージの終りは、回線上の無音をチェックすることにより、またはユーザがキーを押下することにより決定される)、記録された音声が音声認識サーバ32に送信される。音声認識サーバ32は自動音声認識アルゴリズム(例えば転記をフィルタリングする自然言語処理を使用する)を用いて、音声をテキストに転記し、転記されたテキストを訂正されるべき音声入力の部分を示すための診断データ(発声された各単語のために生成された尤度値、発声された各単語に関する信頼度、各単語若しくはサブ単語の期間など)と共に電話サーバ26に返送する。
【0023】
電話サーバ26はテキスト及び診断データを音声合成サーバ34に転送する。音声合成サーバ34は合成音声を生成し、この合成音声を電話サーバ26に返送する。電話サーバ26は本発明に従い、合成音声を電話回線を介してユーザに再生する(この合成音声は、音声認識サーバ32により生成された、誤りが多く存在し得る転記に対応する)。
【0024】
合成音声をユーザに対して再生する1つの目的は、ユーザが受け入れ不能なまたは不正確な領域を訂正することを可能にすることである。電話サーバ26は次に、ユーザにメッセージを訂正するオプションを提供する。
【0025】
訂正機構36に関連付けられる音声の再生は、多数の方法により達成され得る。幾つかの例には、i)電話サーバ26がメッセージ全体をユーザに再生し、もしそれが受け入れ不能または不正確な場合、ユーザにメッセージを再記録するように指示する、ii)電話サーバ26が、音声認識サーバ32から受信される信頼度診断データにより、低信頼度を有する転記領域を決定し、ユーザにその領域だけを訂正するように指示する、iii)電話サーバ26が、例えば経過時間または音声の休止などの特定の測定にもとづき、転記を複数部分に分解し、各部分をユーザに再生することにより、ユーザに各セグメントを個々に訂正するオプションを与える、などが含まれる。
【0026】
他の訂正方法も同様に、本発明で使用可能である。
【0027】
ユーザがメッセージの任意の所望の部分を訂正する訂正機構36も、異なる方法により達成され得る。幾つかの例には、i)ユーザが電話機16上のキーを押下することにより、メッセージ(またはメッセージの一部)の受諾または拒絶を示し、セグメントを再記録し、これが前述したように処理される、ii)ユーザが"イエス"または"OK"を発声するか、無音の状態を維持することにより、メッセージの受諾を示すか、"ノー"と発声することにより拒絶を示す、などが含まれる。この場合、ユーザの応答が記録されて、テキストに転記され、転記されたテキスト(イエス、OK、無音、またはノー)が、ユーザが選択したオプションを決定する。
【0028】
ユーザが転記に満足すると、電話サーバ26は記録された音声と一緒に、テキストをメッセージ・サーバ12に送信する。また、テキストを後のアクセスのために記憶するための命令、或いはユーザが選択した電子メール18、ファックス20またはページ24により通信ネットワークまたはシステムを介して、テキストを送信するための命令も一緒に送信される。
【0029】
別の実施例では、ユーザがメッセージを別の言語で送信することを希望する場合、電話サーバ26がテキストを言語翻訳サーバ38に送信する。言語翻訳サーバ38は自動翻訳アルゴリズムを用いて、テキストを異なる言語に変換し、翻訳されたテキストを電話サーバ26に返送する。電話サーバ26は、翻訳されたテキストを別の処理のために、メッセージ・サーバ12に送信する。
【0030】
一般に、音声の転記において、話者固有モデルまたは話者適応化モデルが使用される場合、音声認識サーバ32の音声認識性能は改善される。従って、電話サーバ26は話者識別サーバ40とも対話し、呼び出し元のユーザの識別を決定するか、或いはユーザが自身の名前を発声するように指示され、話者独立のモデルを有する音声認識サーバ32により音声を転記し、その転記を用いてユーザの識別を決定する。一旦ユーザの識別が決定されると、音声認識サーバ32は、特定のユーザまたはユーザのクラスに適合化されたモデルを使用し、ユーザの音声を転記する。
【0031】
他の実施例では、メッセージ・サーバ12に記憶されるメッセージが、複数のアカウント、アドレスまたは装置に配送され得る。
【0032】
例えば、保管された転記済みメッセージが、第1のユーザ・グループのページャに送信され、第2のユーザ・グループに電子メールにより配送され、また第3のユーザにファックスされ得る。システム10は更に、例えばページ及びファックスなどの異なる媒体を用いて、同一のメッセージを単一のユーザに送信するために使用され得る。
【0033】
更に、音声合成サーバ34はテキスト・メッセージを合成し、それを電話またはボイスメール・システムに配送するために使用され得る。更に別の実施例では、各ユーザが、メッセージがそのユーザのために転記されるときに、自動的に更新されるパーソナル・ウェブページ42を有する。ウェブページ42は、インターネットなどの通信ネットワークを介してアクセスされる。
【0034】
図2を参照すると、ユーザがメッセージの記録を指定すると、ブロック102で、プロンプトがユーザにメッセージを記録するように指示する。メッセージはブロック104で、電話機または他の音響入力装置に発声することにより記録され(メッセージの終りは、好適には回線上の無音をチェックすることにより、またはユーザがキーを押下することにより決定される)、記録された音声が音声認識サーバ32(図1)に送信される。ブロック106で、音声認識サーバ32が自動音声認識アルゴリズム(例えば転記をフィルタリングする自然言語処理を使用する)を用いて、音声をテキストに転記し、転記されたテキストを特定の診断(発声された各単語に対して生成される尤度値、発声された各単語に関する信頼度、各単語若しくはサブ単語の期間など)と共に、電話サーバ26に返送する。
【0035】
ブロック108では、電話サーバ26はテキスト及び診断を音声合成サーバ34に転送し、音声合成サーバ34は合成音声を生成し、この合成音声を電話サーバ26に返送する。電話サーバ26は本発明に従い、この合成音声を電話回線を介して、ユーザに再生する(この合成音声は、音声認識サーバ32により生成された、誤りが多く存在し得る転記に対応する)。
【0036】
ブロック110で、ユーザはメッセージ内の受け入れ不能なまたは不正確な領域を訂正する。訂正のための合成音声の再生は、多数の方法により達成され得る。幾つかの例には、i)メッセージ全体がユーザに再生され、もしそれが受け入れ不能または不正確な場合、ユーザにメッセージを再記録するように指示する、ii)音声認識サーバ32から受信される信頼度診断により、低信頼度を有する転記領域を決定し、ユーザにその領域だけを訂正するように指示する、iii)例えば経過時間または音声の休止などの特定の測定にもとづき、転記を複数部分に分解し、各部分をユーザに再生することにより、ユーザに各セグメントを個々に訂正するオプションを与える、などが含まれる。他の訂正方法も同様に、本発明で使用可能である。メッセージの一部分が個々に訂正され得る。幾つかの例には、i)ユーザが電話機16上のキーを押下することにより、メッセージ(またはメッセージの一部)の受諾または拒絶を示し、セグメントを再記録し、これが前述したように処理される、ii)ユーザが"イエス"または"OK"を発声するか、無音の状態を維持することにより、メッセージの受諾を示すか、"ノー"と発声することにより拒絶を示す、などが含まれる。この場合、ユーザの応答が記録されて、テキストに転記され、転記されたテキスト(イエス、OK、無音、またはノー)が、ユーザが選択したオプションを決定する。
【0037】
ブロック112では、ユーザが転記に満足すると、電話サーバ26は記録された音声と一緒に、テキストをメッセージ・サーバ12に送信する。また、テキストを後のアクセスのために記憶するための命令、或いはテキストをユーザにより選択された電子メール18、ファックス20またはページ24を介して、送信するための命令も一緒に送信される。メッセージはまた、ユーザにより異なる言語で電話システムなどの通信ネットワークを介して伝送されることが希望される場合、その言語に変換され得る。更に、ユーザはメッセージが記録される言語を指定し得る。これは前述の話者識別プロセスの一部である。
【0038】
以上、電話メッセージの転記のために使用される編集システム及び方法の好適な実施例について述べてきたが、当業者であれば前述の教示を鑑み、様々な変更及び変形が可能であろう。従って、これらの変更及び変形についても、本発明の範囲及び趣旨内に含まれるものである。
まとめとして、本発明の構成に関して以下の事項を開示する。
(1) 音声を受信し、前記音声をテキストに変換するためのメッセージ・システムであって、
ユーザにより入力された音声を受信するための第1のサーバと、
前記音声をテキストに変換するための音声認識サーバと、前記音声認識サーバが各単語の期間を含む診断データを訂正機構に提供して、訂正されるべき前記音声入力の一部分を示す、
ユーザによる訂正のために、訂正機構によって分解されたテキストを合成音声に変換して、前記合成音声を再生するための音声合成器と、及び
訂正された音声が通信システムを介する伝送のためにテキストとして提供されるように、前記ユーザが前記合成音声を訂正することを可能にするための訂正機構と、ここで前記訂正機構が、経過時間または音声の休止に基づき前記変換されたテキストを複数に分解して、ユーザに訂正のために前記変換された合成音声の一部分を選択するように指示する、
を含む、前記システム。
(2) 前記通信システムを介して伝送される前記テキストが、テキスト読取り装置に伝送されることを含む、(1)に記載のシステム。
(3) 前記診断データが、発声された各単語のために生成された尤度値、発声された各単語に関する信頼度のいずれかを含む、(1)又は(2)のいずれかに記載のシステム。
(4) 前記訂正機構がユーザに、訂正のために前記音声入力の前記一部分を再記録するように指示する、(1)乃至(3)のいずれか一に記載のシステム。
(5) 前記通信システムを介して異なる言語の伝送のために、前記音声入力をテキストに変換するための言語翻訳サーバを更に含む、(1)乃至(4)のいずれか一に記載のシステム。
(6) 前記音声認識サーバによる音声認識のために、ユーザを認識し、かつ音声認識モデルを調整するための話者識別サーバを更に含む、(1)乃至(5)のいずれか一に記載のシステム。
(7) 汎用メッセージ・システムにおいて、メッセージを訂正するための方法であって、
音声メッセージを記録するステップと、
音声認識システムを使用して、前記メッセージをテキストに転記するステップと、
経過時間または音声の休止に基づき、前記転記されたテキストを複数に分解するステップと、
前記分解されたテキストに従い音声を提供し、訂正のために前記メッセージを再生するステップと、
訂正されるべき前記メッセージの部分を識別するステップと、ここで前記識別するステップが、前記再生されたメッセージを聞いて、ユーザに前記音声メッセージの訂正されるべき一部分を選択するように指示するステップを含む、
前記識別された部分を再記録することによって、前記メッセージを訂正するステップと、及び
通信システムを介して、前記訂正されたテキストを出力するステップと、
を含む、前記方法。
(8) 前記音声メッセージが電話によって記録される、(7)に記載の方法。
(9) 前記診断データが、発声された各単語のために生成された尤度値、発声された各単語に関する信頼度のいずれかを含む、(7)又は(8)のいずれかに記載の方法。
(10) 前記識別された部分を再記録することによって、前記メッセージを訂正するステップが、
前記メッセージの一部を再記録するステップと、
音声認識サーバによって、前記再記録された部分を変換して、前記テキストを訂正するステップと、
前記訂正された前記テキストに従って、前記再記録された部分の音声を再生するステップと、及び
受け入れ可能であれば、前記メッセージの前記再記録された部分を承認するステップと、
を含む、(7乃至9のいずれか一に記載の方法。
(11) 複数の言語の1つにより前記メッセージを記録するステップを更に含む、(7)乃至(10)のいずれか一に記載の方法。
(12) 前記通信システムを介して、複数の言語の1つにより前記テキストを出力するステップを更に含む、(7)乃至(11)のいずれか一に記載の方法。
(13) 音声認識モデルに関連付けられたユーザを識別するステップと、及び
前記音声認識モデルを適用して、前記ユーザの前記音声入力を認識するステップと、
を更に含む、(7)乃至(12)のいずれか一に記載の方法。
(14) 汎用メッセージ・システムにおいて、メッセージを訂正するための方法を実行するために、マシンによって実行可能な命令プログラムを実現するための、マシンによって読出し可能なプログラム記憶装置において、
前記方法が、
音声メッセージを記録するステップと、
音声認識システムを使用して、前記メッセージをテキストに転記するステップと、
経過時間または音声の休止に基づき、前記転記されたテキストを複数に分解するステップと、
前記分解されたテキストに従い音声を提供し、訂正のために前記メッセージを再生するステップと、
訂正されるべき前記メッセージの部分を識別するステップと、ここで前記識別するステップが、前記再生されたメッセージを聞いて、ユーザに前記音声メッセージの訂正されるべき一部分を選択するように指示するステップを含む、
前記識別された部分を再記録することによって、前記メッセージを訂正するステップと、及び
通信システムを介して、前記訂正されたテキストを出力するステップと、
を含む、前記プログラム記憶装置。
(15) 前記音声メッセージが電話によって記録される、(14)に記載のプログラム記憶装置。
(16) 前記診断データが、発声された各単語のために生成された尤度値、発声された各単語に関する信頼度のいずれかを含む、(14)又は(15)のいずれかに記載のプログラム記憶装置。
(17) 前記識別された部分を再記録することによって、前記メッセージを訂正するステップが、
前記メッセージの一部を再記録するステップと、
音声認識サーバによって、前記再記録された部分を変換して、前記テキストを訂正するステップと、
前記訂正された前記テキストに従って、前記再記録された部分の音声を再生するステップと、及び
受け入れ可能であれば、前記メッセージの前記再記録された部分を承認するステップと、
を含む、(14)乃至(16)のいずれか一に記載のプログラム記憶装置。
(18) 複数の言語の1つにより前記メッセージを記録するステップを更に含む、(14)乃至(17)のいずれか一に記載のプログラム記憶装置。
(19) 前記通信システムを介して、複数の言語の1つにより前記テキストを出力するステップを更に含む、(14)乃至(18)のいずれか一に記載のプログラム記憶装置。
(20) 音声認識モデルに関連付けられたユーザを識別するステップと、及び
前記音声認識モデルを適用して、前記ユーザの前記音声入力を認識するステップと、
を更に含む、(14)乃至(19)のいずれか一に記載のプログラム記憶装置。
【図面の簡単な説明】
【図1】本発明に従う訂正機構を有する汎用メッセージ・システムのブロック/フロー図である。
【図2】本発明に従うメッセージ訂正のフロー図である。
【符号の説明】
10 システム
12 メッセージ・サーバ
14 コンピュータ
16 電話機
18 電子メール
20 ファックス
22 ボイスメール
24 ページ
26 電話サーバ
32 音声認識サーバ
34 音声合成サーバ
36 訂正機構
38 言語翻訳サーバ
40 話者識別サーバ
42 パーソナル・ウェブページ
Claims (20)
- 音声を受信し、前記音声をテキストに変換するためのメッセージ・システムであって、
ユーザにより入力された音声を受信するための第1のサーバと、
前記音声をテキストに変換するための音声認識サーバと、前記音声認識サーバが各単語の期間を含む診断データを訂正機構に提供して、訂正されるべき前記音声入力の一部分を示す、
ユーザによる訂正のために、訂正機構によって分解されたテキストを合成音声に変換して、前記合成音声を再生するための音声合成器と、及び
訂正された音声が通信システムを介する伝送のためにテキストとして提供されるように、前記ユーザが前記合成音声を訂正することを可能にするための訂正機構と、ここで前記訂正機構が、経過時間または音声の休止に基づき前記変換されたテキストを複数に分解して、ユーザに訂正のために前記変換された合成音声の一部分を選択するように指示する、
を含む、前記システム。 - 前記通信システムを介して伝送される前記テキストが、テキスト読取り装置に伝送されることを含む、請求項1に記載のシステム。
- 前記診断データが、発声された各単語のために生成された尤度値、発声された各単語に関する信頼度のいずれかを含む、請求項1又は2のいずれかに記載のシステム。
- 前記訂正機構がユーザに、訂正のために前記音声入力の前記一部分を再記録するように指示する、請求項1乃至3のいずれか一に記載のシステム。
- 前記通信システムを介して異なる言語の伝送のために、前記音声入力をテキストに変換するための言語翻訳サーバを更に含む、請求項1乃至4のいずれか一に記載のシステム。
- 前記音声認識サーバによる音声認識のために、ユーザを認識し、かつ音声認識モデルを調整するための話者識別サーバを更に含む、請求項1乃至5のいずれか一に記載のシステム。
- 汎用メッセージ・システムにおいて、メッセージを訂正するための方法であって、
音声メッセージを記録するステップと、
音声認識システムを使用して、前記メッセージをテキストに転記するステップと、
経過時間または音声の休止に基づき、前記転記されたテキストを複数に分解するステップと、
前記分解されたテキストに従い音声を提供し、訂正のために前記メッセージを再生するステップと、
訂正されるべき前記メッセージの部分を識別するステップと、ここで前記識別するステップが、前記再生されたメッセージを聞いて、ユーザに前記音声メッセージの訂正されるべき一部分を選択するように指示するステップを含む、
前記識別された部分を再記録することによって、前記メッセージを訂正するステップと、及び
通信システムを介して、前記訂正されたテキストを出力するステップと、
を含む、前記方法。 - 前記音声メッセージが電話によって記録される、請求項7に記載の方法。
- 前記診断データが、発声された各単語のために生成された尤度値、発声された各単語に関する信頼度のいずれかを含む、請求項7又は8のいずれかに記載の方法。
- 前記識別された部分を再記録することによって、前記メッセージを訂正するステップが、
前記メッセージの一部を再記録するステップと、
音声認識サーバによって、前記再記録された部分を変換して、前記テキストを訂正するステップと、
前記訂正された前記テキストに従って、前記再記録された部分の音声を再生するステップと、及び
受け入れ可能であれば、前記メッセージの前記再記録された部分を承認するステップと、
を含む、請求項7乃至9のいずれか一に記載の方法。 - 複数の言語の1つにより前記メッセージを記録するステップを更に含む、請求項7乃至10のいずれか一に記載の方法。
- 前記通信システムを介して、複数の言語の1つにより前記テキストを出力するステップを更に含む、請求項7乃至11のいずれか一に記載の方法。
- 音声認識モデルに関連付けられたユーザを識別するステップと、及び
前記音声認識モデルを適用して、前記ユーザの前記音声入力を認識するステップと、
を更に含む、請求項7乃至12のいずれか一に記載の方法。 - 汎用メッセージ・システムにおいて、メッセージを訂正するための方法を実行するために、マシンによって実行可能な命令プログラムを実現するための、マシンによって読出し可能なプログラム記憶装置において、
前記方法が、
音声メッセージを記録するステップと、
音声認識システムを使用して、前記メッセージをテキストに転記するステップと、
経過時間または音声の休止に基づき、前記転記されたテキストを複数に分解するステップと、
前記分解されたテキストに従い音声を提供し、訂正のために前記メッセージを再生するステップと、
訂正されるべき前記メッセージの部分を識別するステップと、ここで前記識別するステップが、前記再生されたメッセージを聞いて、ユーザに前記音声メッセージの訂正されるべき一部分を選択するように指示するステップを含む、
前記識別された部分を再記録することによって、前記メッセージを訂正するステップと、及び
通信システムを介して、前記訂正されたテキストを出力するステップと、
を含む、前記プログラム記憶装置。 - 前記音声メッセージが電話によって記録される、請求項14に記載のプログラム記憶装置。
- 前記診断データが、発声された各単語のために生成された尤度値、発声された各単語に関する信頼度のいずれかを含む、請求項14又は15のいずれかに記載のプログラム記憶装置。
- 前記識別された部分を再記録することによって、前記メッセージを訂正するステップが、
前記メッセージの一部を再記録するステップと、
音声認識サーバによって、前記再記録された部分を変換して、前記テキストを訂正するステップと、
前記訂正された前記テキストに従って、前記再記録された部分の音声を再生するステップと、及び
受け入れ可能であれば、前記メッセージの前記再記録された部分を承認するステップと、
を含む、請求項14乃至16のいずれか一に記載のプログラム記憶装置。 - 複数の言語の1つにより前記メッセージを記録するステップを更に含む、請求項14乃至17のいずれか一に記載のプログラム記憶装置。
- 前記通信システムを介して、複数の言語の1つにより前記テキストを出力するステップを更に含む、請求項14乃至18のいずれか一に記載のプログラム記憶装置。
- 音声認識モデルに関連付けられたユーザを識別するステップと、及び
前記音声認識モデルを適用して、前記ユーザの前記音声入力を認識するステップと、
を更に含む、請求項14乃至19のいずれか一に記載のプログラム記憶装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/185332 | 1998-11-03 | ||
US09/185,332 US6219638B1 (en) | 1998-11-03 | 1998-11-03 | Telephone messaging and editing system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000148182A JP2000148182A (ja) | 2000-05-26 |
JP3873131B2 true JP3873131B2 (ja) | 2007-01-24 |
Family
ID=22680552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP18737299A Expired - Lifetime JP3873131B2 (ja) | 1998-11-03 | 1999-07-01 | 電話メッセージの転記のために使用される編集システム及び方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6219638B1 (ja) |
JP (1) | JP3873131B2 (ja) |
KR (1) | KR100329894B1 (ja) |
CN (1) | CN1155214C (ja) |
Families Citing this family (142)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8734339B2 (en) | 1996-12-16 | 2014-05-27 | Ip Holdings, Inc. | Electronic skin patch for real time monitoring of cardiac activity and personal health management |
US6169789B1 (en) * | 1996-12-16 | 2001-01-02 | Sanjay K. Rao | Intelligent keyboard system |
US6606373B1 (en) * | 1997-12-31 | 2003-08-12 | Weblink Wireless, Inc. | Controller for use with communications systems for generating a condensed text message index |
US6483899B2 (en) * | 1998-06-19 | 2002-11-19 | At&T Corp | Voice messaging system |
US20030078989A1 (en) * | 1999-02-10 | 2003-04-24 | David J. Ladd | System and method for transmission and delivery of travel instructions to informational appliances |
GB2352933A (en) * | 1999-07-31 | 2001-02-07 | Ibm | Speech encoding in a client server system |
JP3879323B2 (ja) * | 1999-09-06 | 2007-02-14 | ヤマハ株式会社 | 電話端末装置 |
AU1473401A (en) * | 1999-11-10 | 2001-06-06 | Global Market Insite, Inc. | Reporting and analyzing data from a multi-region research survey |
US6999565B1 (en) * | 2000-02-01 | 2006-02-14 | Envoyworldwide, Inc. | Multi-mode message routing and management |
DE10018143C5 (de) * | 2000-04-12 | 2012-09-06 | Oerlikon Trading Ag, Trübbach | DLC-Schichtsystem sowie Verfahren und Vorrichtung zur Herstellung eines derartigen Schichtsystems |
US6687689B1 (en) | 2000-06-16 | 2004-02-03 | Nusuara Technologies Sdn. Bhd. | System and methods for document retrieval using natural language-based queries |
FR2810548A1 (fr) * | 2000-06-26 | 2001-12-28 | Oreal | Utilisation d'ergothioneine et/ou de ses derives comme agent anti-glycation |
US7200555B1 (en) * | 2000-07-05 | 2007-04-03 | International Business Machines Corporation | Speech recognition correction for devices having limited or no display |
DE10045081A1 (de) * | 2000-09-12 | 2002-03-28 | Mende Speech Solutions Gmbh & | Vorrichtung und Verfahren zum graphischen Darstellen und zum Übertragen von Informationen |
US7075671B1 (en) * | 2000-09-14 | 2006-07-11 | International Business Machines Corp. | System and method for providing a printing capability for a transcription service or multimedia presentation |
US8715177B2 (en) | 2000-10-06 | 2014-05-06 | Ip Holdings, Inc. | Intelligent drug delivery appliance |
US6990452B1 (en) | 2000-11-03 | 2006-01-24 | At&T Corp. | Method for sending multi-media messages using emoticons |
US6963839B1 (en) * | 2000-11-03 | 2005-11-08 | At&T Corp. | System and method of controlling sound in a multi-media communication application |
US7091976B1 (en) | 2000-11-03 | 2006-08-15 | At&T Corp. | System and method of customizing animated entities for use in a multi-media communication application |
US7203648B1 (en) | 2000-11-03 | 2007-04-10 | At&T Corp. | Method for sending multi-media messages with customized audio |
US6976082B1 (en) | 2000-11-03 | 2005-12-13 | At&T Corp. | System and method for receiving multi-media messages |
US20080040227A1 (en) | 2000-11-03 | 2008-02-14 | At&T Corp. | System and method of marketing using a multi-media communication system |
US7035803B1 (en) | 2000-11-03 | 2006-04-25 | At&T Corp. | Method for sending multi-media messages using customizable background images |
EP1215659A1 (en) * | 2000-12-14 | 2002-06-19 | Nokia Corporation | Locally distibuted speech recognition system and method of its operation |
JP2002197081A (ja) * | 2000-12-26 | 2002-07-12 | Kobelco Systems Corp | 音声・文字変換転送サービスシステム |
US7412525B2 (en) * | 2001-01-24 | 2008-08-12 | Microsoft Corporation | System verifying if an email request passed a policy check before initiating an interactive telephony session |
US7225126B2 (en) * | 2001-06-12 | 2007-05-29 | At&T Corp. | System and method for processing speech files |
US6782086B2 (en) * | 2001-08-02 | 2004-08-24 | Intel Corporation | Caller ID lookup |
WO2003019528A1 (fr) * | 2001-08-22 | 2003-03-06 | International Business Machines Corporation | Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal |
US8583430B2 (en) * | 2001-09-06 | 2013-11-12 | J. Albert Avila | Semi-automated intermodal voice to data transcription method and apparatus |
US7346505B1 (en) * | 2001-09-28 | 2008-03-18 | At&T Delaware Intellectual Property, Inc. | System and method for voicemail transcription |
US7441016B2 (en) * | 2001-10-03 | 2008-10-21 | Accenture Global Services Gmbh | Service authorizer |
AU2002347406B2 (en) * | 2001-10-03 | 2007-07-05 | Accenture Global Services Limited | Multi-modal messaging and callback with service authorizer and virtual customer database |
US7254384B2 (en) | 2001-10-03 | 2007-08-07 | Accenture Global Services Gmbh | Multi-modal messaging |
US7472091B2 (en) * | 2001-10-03 | 2008-12-30 | Accenture Global Services Gmbh | Virtual customer database |
EP1708470B1 (en) * | 2001-10-03 | 2012-05-16 | Accenture Global Services Limited | Multi-modal callback system |
US7640006B2 (en) * | 2001-10-03 | 2009-12-29 | Accenture Global Services Gmbh | Directory assistance with multi-modal messaging |
AU2007216929C1 (en) * | 2001-10-03 | 2011-05-26 | Accenture Global Services Limited | Multi-modal callback |
US7233655B2 (en) * | 2001-10-03 | 2007-06-19 | Accenture Global Services Gmbh | Multi-modal callback |
ATE325413T1 (de) * | 2001-10-31 | 2006-06-15 | Koninkl Philips Electronics Nv | Verfahren und vorrichtung zur wandlung gesprochener in geschriebene texte und korrektur der erkannten texte |
US7671861B1 (en) | 2001-11-02 | 2010-03-02 | At&T Intellectual Property Ii, L.P. | Apparatus and method of customizing animated entities for use in a multi-media communication application |
DE50104036D1 (de) * | 2001-12-12 | 2004-11-11 | Siemens Ag | Spracherkennungssystem und Verfahren zum Betrieb eines solchen |
US7296057B2 (en) * | 2002-01-08 | 2007-11-13 | International Business Machines Corporation | Method for user-specified error correction in an instant messaging system |
US7593990B2 (en) * | 2002-01-16 | 2009-09-22 | International Business Machines Corporation | Automatically sending a URL by e-mail or telephone |
GB0204056D0 (en) | 2002-02-21 | 2002-04-10 | Mitel Knowledge Corp | Voice activated language translation |
US7092884B2 (en) | 2002-03-01 | 2006-08-15 | International Business Machines Corporation | Method of nonvisual enrollment for speech recognition |
US7464035B2 (en) * | 2002-07-24 | 2008-12-09 | Robert Bosch Corporation | Voice control of home automation systems via telephone |
DE10251112A1 (de) * | 2002-11-02 | 2004-05-19 | Philips Intellectual Property & Standards Gmbh | Verfahren und System zur Spracherkennung |
DE60224409T2 (de) * | 2002-11-15 | 2008-12-24 | Sony Deutschland Gmbh | Verfahren zur Anpassung eines Spracherkennungssystems |
US7822612B1 (en) * | 2003-01-03 | 2010-10-26 | Verizon Laboratories Inc. | Methods of processing a voice command from a caller |
US7379872B2 (en) | 2003-01-17 | 2008-05-27 | International Business Machines Corporation | Method, apparatus, and program for certifying a voice profile when transmitting text messages for synthesized speech |
DE10304229A1 (de) | 2003-01-28 | 2004-08-05 | Deutsche Telekom Ag | Kommunikationssystem, Kommunikationsendeinrichtung und Vorrichtung zum Erkennen fehlerbehafteter Text-Nachrichten |
JP4714694B2 (ja) * | 2003-11-05 | 2011-06-29 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声−テキストトランスクリプションシステムの誤り検出 |
US7398215B2 (en) * | 2003-12-24 | 2008-07-08 | Inter-Tel, Inc. | Prompt language translation for a telecommunications system |
US7764771B2 (en) * | 2003-12-24 | 2010-07-27 | Kimberly-Clark Worldwide, Inc. | Method of recording invention disclosures |
TWI232431B (en) * | 2004-01-13 | 2005-05-11 | Benq Corp | Method of speech transformation |
US20050221142A1 (en) * | 2004-03-23 | 2005-10-06 | Narayanan Sekharipuram R | Composite polymer electrolytes based on organosilica hybrid proton conductors for fuel cells |
US7570636B2 (en) * | 2004-06-29 | 2009-08-04 | Damaka, Inc. | System and method for traversing a NAT device for peer-to-peer hybrid communications |
US8050272B2 (en) | 2004-06-29 | 2011-11-01 | Damaka, Inc. | System and method for concurrent sessions in a peer-to-peer hybrid communications network |
US20070078720A1 (en) * | 2004-06-29 | 2007-04-05 | Damaka, Inc. | System and method for advertising in a peer-to-peer hybrid communications network |
US7623476B2 (en) * | 2004-06-29 | 2009-11-24 | Damaka, Inc. | System and method for conferencing in a peer-to-peer hybrid communications network |
US7933260B2 (en) | 2004-06-29 | 2011-04-26 | Damaka, Inc. | System and method for routing and communicating in a heterogeneous network environment |
US20060206310A1 (en) * | 2004-06-29 | 2006-09-14 | Damaka, Inc. | System and method for natural language processing in a peer-to-peer hybrid communications network |
US7778187B2 (en) * | 2004-06-29 | 2010-08-17 | Damaka, Inc. | System and method for dynamic stability in a peer-to-peer hybrid communications network |
US7656870B2 (en) * | 2004-06-29 | 2010-02-02 | Damaka, Inc. | System and method for peer-to-peer hybrid communications |
US8009586B2 (en) | 2004-06-29 | 2011-08-30 | Damaka, Inc. | System and method for data transfer in a peer-to peer hybrid communication network |
US20060095365A1 (en) * | 2004-06-29 | 2006-05-04 | Damaka, Inc. | System and method for conducting an auction in a peer-to peer network |
US7623516B2 (en) * | 2004-06-29 | 2009-11-24 | Damaka, Inc. | System and method for deterministic routing in a peer-to-peer hybrid communications network |
US20070036290A1 (en) * | 2005-03-02 | 2007-02-15 | Warner Bros. Entertainment Inc. | Voicemail system and related method |
CN100375087C (zh) * | 2005-03-09 | 2008-03-12 | 邱聪智 | 实时翻译系统 |
US8542803B2 (en) * | 2005-08-19 | 2013-09-24 | At&T Intellectual Property Ii, L.P. | System and method for integrating and managing E-mail, voicemail, and telephone conversations using speech processing techniques |
US20070099783A1 (en) * | 2005-10-27 | 2007-05-03 | Rennco, Inc. | Bag forming device |
US8379821B1 (en) | 2005-11-18 | 2013-02-19 | At&T Intellectual Property Ii, L.P. | Per-conference-leg recording control for multimedia conferencing |
US7657006B2 (en) | 2005-12-15 | 2010-02-02 | At&T Intellectual Property I, L.P. | Messaging translation services |
EP1821553B1 (en) * | 2006-02-16 | 2012-04-11 | Imerj, Limited | Method and system for converting a voice message into a text message |
US9037466B2 (en) * | 2006-03-09 | 2015-05-19 | Nuance Communications, Inc. | Email administration for rendering email on a digital audio player |
US8849895B2 (en) | 2006-03-09 | 2014-09-30 | International Business Machines Corporation | Associating user selected content management directives with user selected ratings |
US9092542B2 (en) * | 2006-03-09 | 2015-07-28 | International Business Machines Corporation | Podcasting content associated with a user account |
US9361299B2 (en) * | 2006-03-09 | 2016-06-07 | International Business Machines Corporation | RSS content administration for rendering RSS content on a digital audio player |
US8510277B2 (en) * | 2006-03-09 | 2013-08-13 | International Business Machines Corporation | Informing a user of a content management directive associated with a rating |
US9436951B1 (en) | 2007-08-22 | 2016-09-06 | Amazon Technologies, Inc. | Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof |
US20090124272A1 (en) * | 2006-04-05 | 2009-05-14 | Marc White | Filtering transcriptions of utterances |
US8510109B2 (en) * | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US8117268B2 (en) * | 2006-04-05 | 2012-02-14 | Jablokov Victor R | Hosted voice recognition system for wireless devices |
US7860995B1 (en) | 2007-11-29 | 2010-12-28 | Saynow Corporation | Conditional audio content delivery method and system |
US8000456B2 (en) | 2006-04-20 | 2011-08-16 | Cisco Technology, Inc. | Techniques for marking and manipulating voice message segments through a telephone user interface |
US20070274496A1 (en) * | 2006-04-20 | 2007-11-29 | Ujjwal Singh | Method and system for multimodal communication using a phone number |
US20070255554A1 (en) * | 2006-04-26 | 2007-11-01 | Lucent Technologies Inc. | Language translation service for text message communications |
US8204185B1 (en) * | 2006-04-28 | 2012-06-19 | At&T Intellectual Property Ii, L.P. | Method and apparatus for retrieving voicemail messages via customer premise equipment |
US8300781B1 (en) * | 2006-04-28 | 2012-10-30 | At&T Intellectual Property Ii, L.P. | Method and apparatus for retrieving all voicemail messages at the same time |
US20070282613A1 (en) * | 2006-05-31 | 2007-12-06 | Avaya Technology Llc | Audio buddy lists for speech communication |
WO2007140023A2 (en) * | 2006-06-01 | 2007-12-06 | Voxpixel, Inc. | Methods and systems for incorporating a voice-attached, tagged rich media package from a wireless camera-equipped handheld mobile device into a collaborative workflow |
US8521510B2 (en) * | 2006-08-31 | 2013-08-27 | At&T Intellectual Property Ii, L.P. | Method and system for providing an automated web transcription service |
WO2008030608A2 (en) * | 2006-09-08 | 2008-03-13 | James Siminoff | System and method for automatic caller transcription (act) |
US8131556B2 (en) * | 2007-04-03 | 2012-03-06 | Microsoft Corporation | Communications using different modalities |
US8983051B2 (en) * | 2007-04-03 | 2015-03-17 | William F. Barton | Outgoing call classification and disposition |
US9973450B2 (en) * | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US8352264B2 (en) * | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
US20090076917A1 (en) * | 2007-08-22 | 2009-03-19 | Victor Roditis Jablokov | Facilitating presentation of ads relating to words of a message |
US8352261B2 (en) * | 2008-03-07 | 2013-01-08 | Canyon IP Holdings, LLC | Use of intermediate speech transcription results in editing final speech transcription results |
US8611871B2 (en) | 2007-12-25 | 2013-12-17 | Canyon Ip Holdings Llc | Validation of mobile advertising from derived information |
US8326636B2 (en) * | 2008-01-16 | 2012-12-04 | Canyon Ip Holdings Llc | Using a physical phenomenon detector to control operation of a speech recognition engine |
DE102007027363A1 (de) * | 2007-06-11 | 2008-12-24 | Avaya Gmbh & Co. Kg | Verfahren zum Betreiben eines Voice-Mail-Systems |
US8335830B2 (en) * | 2007-08-22 | 2012-12-18 | Canyon IP Holdings, LLC. | Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof |
US9053489B2 (en) | 2007-08-22 | 2015-06-09 | Canyon Ip Holdings Llc | Facilitating presentation of ads relating to words of a message |
WO2009032854A2 (en) | 2007-09-03 | 2009-03-12 | Damaka, Inc. | Device and method for maintaining a communication session during a network transition |
US8862164B2 (en) * | 2007-09-28 | 2014-10-14 | Damaka, Inc. | System and method for transitioning a communication session between networks that are not commonly controlled |
WO2009070718A1 (en) | 2007-11-28 | 2009-06-04 | Damaka, Inc. | System and method for endpoint handoff in a hybrid peer-to-peer networking environment |
US8676577B2 (en) | 2008-03-31 | 2014-03-18 | Canyon IP Holdings, LLC | Use of metadata to post process speech recognition output |
US20090281833A1 (en) * | 2008-05-09 | 2009-11-12 | Tele Video Md, Inc. | System and method for secure multi-party medical conferencing |
US8301454B2 (en) | 2008-08-22 | 2012-10-30 | Canyon Ip Holdings Llc | Methods, apparatuses, and systems for providing timely user cues pertaining to speech recognition |
EP2196989B1 (en) * | 2008-12-10 | 2012-06-27 | Nuance Communications, Inc. | Grammar and template-based speech recognition of spoken utterances |
JP5471106B2 (ja) * | 2009-07-16 | 2014-04-16 | 独立行政法人情報通信研究機構 | 音声翻訳システム、辞書サーバ装置、およびプログラム |
US8217251B2 (en) * | 2009-09-28 | 2012-07-10 | Lawrence E Anderson | Interactive display |
EP2485212A4 (en) * | 2009-10-02 | 2016-12-07 | Nat Inst Inf & Comm Tech | LANGUAGE TRANSLATION SYSTEM, FIRST END DEVICE, VOICE RECOGNITION SERVER, TRANSLATION SERVER AND LANGUAGE SYNTHESIS SERV |
US20110142208A1 (en) * | 2009-12-10 | 2011-06-16 | Lawrence Anderson | Interactive answering system and method |
US8874785B2 (en) | 2010-02-15 | 2014-10-28 | Damaka, Inc. | System and method for signaling and data tunneling in a peer-to-peer environment |
US8725895B2 (en) | 2010-02-15 | 2014-05-13 | Damaka, Inc. | NAT traversal by concurrently probing multiple candidates |
US8892646B2 (en) | 2010-08-25 | 2014-11-18 | Damaka, Inc. | System and method for shared session appearance in a hybrid peer-to-peer environment |
US8689307B2 (en) * | 2010-03-19 | 2014-04-01 | Damaka, Inc. | System and method for providing a virtual peer-to-peer environment |
US9043488B2 (en) * | 2010-03-29 | 2015-05-26 | Damaka, Inc. | System and method for session sweeping between devices |
US9191416B2 (en) | 2010-04-16 | 2015-11-17 | Damaka, Inc. | System and method for providing enterprise voice call continuity |
US8352563B2 (en) | 2010-04-29 | 2013-01-08 | Damaka, Inc. | System and method for peer-to-peer media routing using a third party instant messaging system for signaling |
US8446900B2 (en) | 2010-06-18 | 2013-05-21 | Damaka, Inc. | System and method for transferring a call between endpoints in a hybrid peer-to-peer network |
US8611540B2 (en) | 2010-06-23 | 2013-12-17 | Damaka, Inc. | System and method for secure messaging in a hybrid peer-to-peer network |
US8468010B2 (en) | 2010-09-24 | 2013-06-18 | Damaka, Inc. | System and method for language translation in a hybrid peer-to-peer environment |
US8743781B2 (en) | 2010-10-11 | 2014-06-03 | Damaka, Inc. | System and method for a reverse invitation in a hybrid peer-to-peer environment |
US8407314B2 (en) | 2011-04-04 | 2013-03-26 | Damaka, Inc. | System and method for sharing unsupported document types between communication devices |
US8694587B2 (en) | 2011-05-17 | 2014-04-08 | Damaka, Inc. | System and method for transferring a call bridge between communication devices |
US8478890B2 (en) | 2011-07-15 | 2013-07-02 | Damaka, Inc. | System and method for reliable virtual bi-directional data stream communications with single socket point-to-multipoint capability |
US8583431B2 (en) * | 2011-08-25 | 2013-11-12 | Harris Corporation | Communications system with speech-to-text conversion and associated methods |
CN104854852B (zh) * | 2012-12-06 | 2018-04-20 | 萨罗尼科斯贸易与服务一人有限公司 | 用于为电话通话的语音到文本转录确定语言的方法和设备 |
US9027032B2 (en) | 2013-07-16 | 2015-05-05 | Damaka, Inc. | System and method for providing additional functionality to existing software in an integrated manner |
US9357016B2 (en) | 2013-10-18 | 2016-05-31 | Damaka, Inc. | System and method for virtual parallel resource management |
CA2956617A1 (en) | 2014-08-05 | 2016-02-11 | Damaka, Inc. | System and method for providing unified communications and collaboration (ucc) connectivity between incompatible systems |
JP2016177782A (ja) * | 2015-03-19 | 2016-10-06 | パナソニックIpマネジメント株式会社 | ウェアラブル装置及び翻訳システム |
US10091025B2 (en) | 2016-03-31 | 2018-10-02 | Damaka, Inc. | System and method for enabling use of a single user identifier across incompatible networks for UCC functionality |
CN106383902A (zh) * | 2016-09-29 | 2017-02-08 | 安徽声讯信息技术有限公司 | 一种现场访问新闻即时存储发布方法及系统 |
CN111177353B (zh) * | 2019-12-27 | 2023-06-09 | 赣州得辉达科技有限公司 | 文本记录生成方法、装置、计算机设备及存储介质 |
CN113763920B (zh) * | 2020-05-29 | 2023-09-08 | 广东美的制冷设备有限公司 | 空调器及其语音生成方法、语音生成装置和可读存储介质 |
US11902343B1 (en) | 2021-04-19 | 2024-02-13 | Damaka, Inc. | System and method for highly scalable browser-based audio/video conferencing |
US11770584B1 (en) | 2021-05-23 | 2023-09-26 | Damaka, Inc. | System and method for optimizing video communications based on device capabilities |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5051924A (en) * | 1988-03-31 | 1991-09-24 | Bergeron Larry E | Method and apparatus for the generation of reports |
DE4331710A1 (de) * | 1993-09-17 | 1995-03-23 | Sel Alcatel Ag | Verfahren und Vorrichtung zum Erstellen und Bearbeiten von Textdokumenten |
US5875448A (en) * | 1996-10-08 | 1999-02-23 | Boys; Donald R. | Data stream editing system including a hand-held voice-editing apparatus having a position-finding enunciator |
-
1998
- 1998-11-03 US US09/185,332 patent/US6219638B1/en not_active Expired - Lifetime
-
1999
- 1999-07-01 JP JP18737299A patent/JP3873131B2/ja not_active Expired - Lifetime
- 1999-07-02 CN CNB991109899A patent/CN1155214C/zh not_active Expired - Lifetime
- 1999-07-05 KR KR1019990026971A patent/KR100329894B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR20000034881A (ko) | 2000-06-26 |
CN1155214C (zh) | 2004-06-23 |
CN1255011A (zh) | 2000-05-31 |
US6219638B1 (en) | 2001-04-17 |
JP2000148182A (ja) | 2000-05-26 |
KR100329894B1 (ko) | 2002-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3873131B2 (ja) | 電話メッセージの転記のために使用される編集システム及び方法 | |
US6775651B1 (en) | Method of transcribing text from computer voice mail | |
US6651042B1 (en) | System and method for automatic voice message processing | |
US6327343B1 (en) | System and methods for automatic call and data transfer processing | |
US8423363B2 (en) | Identifying keyword occurrences in audio data | |
JP4558308B2 (ja) | 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム | |
US6535848B1 (en) | Method and apparatus for transcribing multiple files into a single document | |
US9210263B2 (en) | Audio archive generation and presentation | |
US20050222843A1 (en) | System for permanent alignment of text utterances to their associated audio utterances | |
JP3527401B2 (ja) | ボイスメッセージの明瞭度を向上する方法 | |
US20100020948A1 (en) | Method and Apparatus For Voice Interactive Messaging | |
US6148285A (en) | Allophonic text-to-speech generator | |
US7308407B2 (en) | Method and system for generating natural sounding concatenative synthetic speech | |
JP2006330170A (ja) | 記録文書作成支援システム | |
US20060233319A1 (en) | Automatic messaging system | |
US20080167879A1 (en) | Speech delimiting processing system and method | |
US7092884B2 (en) | Method of nonvisual enrollment for speech recognition | |
US7653181B2 (en) | Method of creating and managing a customized recording of audio data relayed over a phone network | |
JP3698050B2 (ja) | 音声応答方法および音声応答システム | |
KR100382827B1 (ko) | 텍스트투스피치를 이용한 음성 자동 생성 장치 및 방법 | |
JP2010141754A (ja) | 留守番電話システム、留守番電話サービスサーバ、受話者端末及び留守番電話サービス方法 | |
JPH04176244A (ja) | 音声情報処理装置 | |
JPH05344214A (ja) | ガイダンス出力装置 | |
WO2002061729A1 (fr) | Procede et systeme pour l'interaction vocale personne/ordinateur | |
JPH05108094A (ja) | 音声収録装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20031127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20040218 Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040218 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040617 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040806 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20040806 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040811 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20040924 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060830 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060922 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20060922 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060929 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3873131 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091102 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111102 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131102 Year of fee payment: 7 |
|
EXPY | Cancellation because of completion of term |