JP4601177B2 - 2つの音声変換インスタンス及びコンピュータ補助訂正を用いる自動転記システム及び方法 - Google Patents
2つの音声変換インスタンス及びコンピュータ補助訂正を用いる自動転記システム及び方法 Download PDFInfo
- Publication number
- JP4601177B2 JP4601177B2 JP2000600262A JP2000600262A JP4601177B2 JP 4601177 B2 JP4601177 B2 JP 4601177B2 JP 2000600262 A JP2000600262 A JP 2000600262A JP 2000600262 A JP2000600262 A JP 2000600262A JP 4601177 B2 JP4601177 B2 JP 4601177B2
- Authority
- JP
- Japan
- Prior art keywords
- file
- variables
- speech
- text
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 58
- 238000013518 transcription Methods 0.000 title claims description 28
- 230000035897 transcription Effects 0.000 title claims description 28
- 238000000034 method Methods 0.000 title claims description 22
- 238000012937 correction Methods 0.000 title description 4
- 238000012549 training Methods 0.000 claims description 27
- 230000009466 transformation Effects 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 12
- 230000001360 synchronised effect Effects 0.000 claims description 9
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- TVZRAEYQIKYCPH-UHFFFAOYSA-N 3-(trimethylsilyl)propane-1-sulfonic acid Chemical compound C[Si](C)(C)CCCS(O)(=O)=O TVZRAEYQIKYCPH-UHFFFAOYSA-N 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 241000233805 Phoenix Species 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003187 abdominal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- UFULAYFCSOUIOV-UHFFFAOYSA-N cysteamine Chemical compound NCCS UFULAYFCSOUIOV-UHFFFAOYSA-N 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000010813 municipal solid waste Substances 0.000 description 1
- 230000000399 orthopedic effect Effects 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000013522 software testing Methods 0.000 description 1
- 238000012421 spiking Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Description
発明の背景
1.発明の分野
本発明は、コンピュータ音声認識システムに関し、特に種々のエンド・ユーザによる音声口述のテキスト転記を自動化するためのシステム及び方法に関する。
【0002】
2.背景技術
音声認識プログラムは、当技術において周知である。これらプログラムは音声をテキストへ自動的に変換することにおいて究極的に有効であるが、これらプログラムはそれぞれの著しく多くのシステム・トレーニング時間を費やすことをユーザに要求するゆえ、多くのユーザにこのようなプログラムの使用を躊躇させている。通常、このようなトレーニングは、各ユーザに一連の予め選択された素材をおよそ20分間読み上げさせることから始まる。次いで、ユーザがプログラムを使用し続ける際に、単語が不適正に転記されると、ユーザはプログラムを止め、プログラムを意図した単語について訓練することが期待され、これにより音響モデルの最終的な精度を向上させる。不都合なことに、大半の専門家(医者、歯医者、獣医、弁護士)及び会社の管理職は、自動化された転記から真に利益を得るのに必要な音響モデルの生成に時間を費やすことを好まない。
【0003】
従って、本発明の目的は、エンド・ユーザに対する音声認識プログラムの平明なトレーニングを提供するシステムを提供することである。
エンド・ユーザのグループからの転記をルーティングするためのコンピュータを用いるシステムが存在する。しばしば大半のかかるシステムは、病院などの大がかりなマルチユーザ設定において用いられる。これらのシステムにおいては、音声ユーザは、汎用コンピュータその他の録音装置に対して口述し、結果として得たファイルが人間の転記者へ自動的に転送される。人間の転記者はファイルを転記し、次いで該ファイルは元の「著者」へ検査のため戻される。これらのシステムは、全ての口述ファイルを転記するのに充分な数の人間の転記者を用いる永続的なオーバーヘッドを有する。
【0004】
従って、本発明の別の目的は、システムに入る音声ファイルを転記するのに必要な人間の転記者数を最小限に抑えるのに適する、音声をテキストへ転記する自動化手段を提供することである。
【0005】
システムの音声認識部分に対するユーザの音響モデルを訓練するため逐語テキスト・ファイルを提供する簡単な手段を提供することが、関連する目的である。
本発明の別の関連する目的は、予め存在する音声認識プログラムを、システムの動作に必要なオペレータ数を更に最小化するように自動化することである。
【0006】
上記及び他の目的については、当業者には、図面、本文及び請求の範囲を参照すれば明らかとなろう。
開示の概要
本文の開示は、1人以上の音声ユーザに対する転記作業を実質的に自動化するためのシステム及び方法に関するものである。特に、当該システムは、2つの音声変換インスタンスを用いて、最小限の人的転記で逐語的な転記テキストの確立を容易にすることを含む。
【0007】
当該システムは、音声口述ファイルを現ユーザから受取るための手段を備える。この音声口述ファイルは、音声口述ファイルを第1の文字テキストへ自動的に変換する第1の手段と、音声口述ファイルを第2の文字テキストへ自動的に変換する第2の手段とへ供給される。この第1の手段は第1の組の変換変数を有し、第2の手段は第2の組の変換変数を有する。これら第1及び第2の組の変換変数は、少なくとも1つの相違点を有する。
【0008】
例えば、第1及び第2の自動音声変換手段がそれぞれ既存の音声認識プログラムを含む場合は、このプログラム自体は相互に異なるものである。種々の音声認識プログラムは、それぞれ独自の異なる音声−テキスト変換手法を備えており、このため異なる音声発声時に異なる変換を生じる結果となり、逐語テキストを確立するのに用いることができる。利用可能な現存する音声変換手段は、Dragon Systemsの「Naturally Speaking」、IBM社の「Via Voice」及びPhlips社の「MagicSpeech」である。
【0009】
別のアプローチにおいては、第1及び第2の組の変換変数はそれぞれ、言語モデル(すなわち、汎用の又は特殊化された言語モデル)を含み得、これも異なる発声に対して異なる変換を生じる結果となるので、逐語テキストを容易に確立することができる。或いはまた、使用されている既存の音声認識プログラムと関連する1つ以上の設定を修正することができる。
【0010】
更に別のアプローチにおいては、音声口述ファイルを自動変換手段の一方又は両方への入力に先立って予め処理することができる。このようにして、変換変数(例えば、ディジタル単語サイズ、サンプリング・レート及び特定の高調波レンジの除去)を音声変換インスタンス間で異ならせることができる。
【0011】
当該システムは更に、音声口述ファイルの逐語テストを生成するように前記の第1及び第2の文字テストのコピーをマニュアル編集する手段を備える。1つのアプローチにおいては、前記第1の文字テキストは音声口述ファイルと少なくとも時間的に同期させられる。この場合、マニュアル編集手段は、前記第1及び第2の文字テキストのコピーを順次比較して、第1の文字テキストから収集された不一致単語の順次リストを生じるための手段を備える。マニュアル編集手段は更に、第1の文字テキストを含む第1の自動変換手段に関連する第1のバッファ内及び前記順次リストに関連する第2のバッファ内で同時に、その時の不一致単語を増分的に検索するための手段を含む。マニュアル編集手段はまた、第2のバッファにおけるその時の不一致単語を訂正する手段を備える。この訂正手段は、第1の文字テキストにおける他のテキストとは実質的に視覚的に分離されるように、その時の不一致単語を表示する手段と、その時の不一致単語に関連する第1のバッファから前記の同期された音声口述録音の一部を再生する手段とを含む。一つの実施の形態では、この編集手段は更に、第1の文字テキストのコピー内のコンテキストにおいて前記のその時の不一致単語を二者択一的に観察する手段を含む。
【0012】
当該システムはまた、音声認識プログラムの精度を向上させるトレーニング手段をも備えている。
本願は、少なくとも1つの音声認識プログラムを含むシステムにおける一人以上の音声ユーザに対する転記作業を自動化する方法をも開示する。この方法は、(1)現音声ユーザから音声口述を受取り、(2)第1の組の変換変数を用いて、音声認識プログラムにより音声口述ファイルから第1の文字テキストを自動的に生成し、(3)第2の組の変換変数を用いて、音声認識プログラムにより音声口述ファイルから第2の文字テキストを自動的に生成し、(4)第1及び第2の文字テキストの比較により逐語ファイルをマニュアルで確立し、(5)現ユーザへ逐語ファイルを戻すことを含む。逐語ファイルを確立することは、(6)第1の文字テキストのコピーを第2の文字テキストと逐次比較して、第1の文字テキストのコピーから収集された不一致単語の順次リストを生じ、該順次リストは初めと、終りと、その時の不一致単語を含み、その時の不一致単語は初めから終わりへ順次進められ、(7)第1の文字テキストを含み且つ少なくとも1つの音声認識プログラムと関連する第1のバッファ内及び順次リストに関連する第2のバッファ内で同時に、その時の不一致単語を増分的に検索し、(8)第1の文字テキストのコピーにおける他のテキストから実質的に視覚的に分離されるように、その時の不一致単語を表示し、その時の不一致単語に関連する第1のバッファから、同期された音声口述録音の一部を再生し、(9)その時の不一致単語を、同期された音声口述録音の一部の逐語的表示であるように訂正することを含む。
【0013】
発明の最善の実施の形態
本発明は多くの異なる形態で具現されるが、本文の開示は発明の原理の例示のみと見なされるべきであり、発明を図示した実施の形態に限定する意図はないとの理解の下で、幾つかの特定の実施形態が図示され本文に記述される。
【0014】
図1は、一人以上の音声ユーザに対する転記作業を実質的に自動化するためのシステムの一つの実施の形態を全体的に示している。当該システムは、現ユーザから音声口述ファイルを受取る手段を備える。この音声口述ファイル受取り手段は、ディジタル・オーディオ・レコーダ、アナログ・オーディオ・レコーダ、又は磁気媒体上で或いはデータ接続を介してコンピュータ・ファイルを受取る標準的手段でよい。
【0015】
図示のように、一つの実施の形態においては、システム100は複数のディジタル録音ステーション10、11、12及び13を含んでいる。各ディジタル録音ステーションは、少なくとも1つのディジタル・オーディオ・レコーダと現ユーザを識別する手段とを備える。
【0016】
これらのディジタル録音ステーションの各々は、汎用コンピュータ(コンピュータ20のような)に実現されることが望ましいが、このような特定の目的のため特殊コンピュータを開発することもできる。しかし、汎用コンピュータは、システム100内で動作することに加え、色々な用途に適合し得るという更なる利点を有する。一般に、汎用コンピュータは、なかんずく、マイクロプロセッサ(インテル社のPENTIUM(登録商標)、CyrixのK6、或いはモトローラ社の68000シリーズ、など)、揮発性及び不揮発性のメモリ、1つ以上の大容量記憶装置(すなわち、HDD(図示せず))、フロッピ・ディスク・ドライブ21、及び、CD−ROMドライブ、DITTO、ZIP又はJAZドライブ(Iomega社製)などの他の取り出し可能な媒体装置22、マウス23、キーボード24或いはマイクロフォン25などの種々のユーザ入力装置、及びビデオ・ディスプレイ・システム26を備えなければならない。一つの実施の形態においては、汎用コンピュータはWINDOWS(登録商標)9.xオペレーティング・システムによって制御される。しかし、当該システムはMACINTOSHコンピュータ或いは更に、幾つかを挙げれば、WINDOWS(登録商標) CE、UNIX(登録商標)或いはJAVA(登録商標)ベースのオペレーティング・システムなどの別のオペレーティング・システムを用いても同様に働くものである。
【0017】
使用される特定のコンピュータ・プラットフォームとは無関係に、アナログ・オーディオ入力(マイクロフォン25を介する)を用いる実施の形態においては、汎用コンピュータは、サウンド・カード(図示せず)を備えなければならない。無論、ディジタル入力を備える実施の形態では、サウンド・カードは不要となる。
【0018】
図1に示される実施の形態では、ディジタル・オーディオ録音ステーション10、11、12、13が、ディジタル・オーディオ録音ソフトウエアを、WINDOWS(登録商標)9.xの下で動作するペンティアム(登録商標)型のコンピュータ・システム上で走らせるようにロードされ且つ構成される。このようなディジタル・オーディオ録音ソフトウエアは、WINDOWS(登録商標)9.xオペレーティング・システムにおける1つのユーティリティとして、或いは米国バージニア州オークトンのThe Programmers’ Consortium社(VOICEDOC)、米国アリゾナ州フェニックスのSyntrilium社(COOL EDIT)、或いはDragon Systems社(Dragon Naturally Speaking Professional Edition)のような色々な第三者のベンダから入手可能である。これらの種々のソフトウエア・プログラムは、「.WAV」ファイルの形態の音声口述ファイルを生成する。しかし、当業者に知られるように、MP3又はDSSなどの他のオーディオ・ファイル・フォーマットもまた、本発明の趣旨から逸脱することなく、音声口述ファイルをフォーマット化するために使用できる。VOICEDOCソフトウエアが用いられる一つの実施の形態では、このソフトウエアもファイル・ハンドルを「.WAV」ファイルへ自動的に割当てるが、標準的なオペレーティング・システムの管理メソッドを用いてオーディオ・ファイルをコンピュータ・システムにセーブすることは当業者に公知である。
【0019】
音声口述ファイルを受取る別の手段は、オリンパス社製の「オリンパス・ディジタル・ボイス・レコーダD−1000」のような専用のディジタル・レコーダ14である。このため、現音声ユーザは、更に在来型の口述装置の方が快適であるならば、専用のディジタル・レコーダ14を使用し続けることができる。ディジタル・オーディオ・テキスト・ファイルを取得するために、録音の終了時に、専用のディジタル・レコーダ14は、汎用コンピュータへディジタル・オーディオ・ファイルをダウンロードするよう、ディジタル・オーディオ録音ステーションの1つ、例えば13に接続される。このような手法により、例えばオーディオ・カードは必要でなくなる。
【0020】
音声口述ファイルを受取るための別の代替策は、予め録音されたオーディオ・ファイルを含む種々の形態の取り出し可能な磁気媒体を使用することからなる。このような代替策により、オペレータは、オーディオ・ファイルをシステムへアップロードするために、取り出し可能な磁気媒体をディジタル・オーディオ録音ステーションの1つへ入力する。
【0021】
場合によっては、オーディオ・ファイルを音声認識ソフトウエアによる処理に受け入れられるものにするよう予め処理することが必要である。例えば、DSSファイル・フォーマットは.WAVファイル・フォーマットへ変更されなければならず、或いは、ディジタル・オーディオ・ファイルのサンプリング・レートがアップロード又はダウンロードされなければならない。例えば、Dragon Naturally Speakingでオリンパス・ディジタル・ボイス・レコーダを使用するには、オリンパス社の8MHzのサンプリング・レートは11MHzへアップされる必要がある。このような予備処理を行うソフトウエアは、Syntrillium社及びオリンパス社を含む種々のソースから入手可能である。
【0022】
ディジタル・オーディオ録音ステーションの他の特質は、現ユーザを識別するための手段である。この識別手段は、ユーザ(或いは別個のオペレータ)が現ユーザの一義的な識別コードを入力することができるキーボード24を含む。無論、ユーザの識別は、数例を挙げれば、ポインティング・デバイス(例えば、マウス23)、タッチ・スクリーン(図示せず)、ライト・ペン(図示せず)、バーコード・リーダ(図示せず)、或いはマイクロフォン25を介するオーディオ・キューなどの多くのコンピュータ入力装置を用いて入力することができる。
【0023】
初めてのユーザの場合は、当該識別手段は、ユーザから(1)名前、(2)住所、(3)職業、(4)音声におけるなまり又はアクセントなどを含む潜在的な識別情報を受取った後に、識別番号を当該ユーザに割当てる。制御手段に関連して述べるように、この入力情報に基いて、音声ユーザのプロフィールと制御手段内のサブディレクトリとが確立される。このように、使用される特定の識別手段とは無関係に、各音声ユーザごとにユーザの識別が確立され、その後、ユーザ識別は、制御手段が適正なルーティングを行い且つシステムが最終的にオーディオ・ファイルを転記するように、使用毎に、対応するディジタル・オーディオ・ファイルが提供されなければならない。
【0024】
本発明の一つの実施の形態においては、当該識別手段は、専門語彙のマニュアルによる選択をシークする。専門語彙の組は、医療(すなわち、放射線学、整形外科手術、婦人科学)及び法律(すなわち、会社法、特許法、訴訟)のような種々のユーザに対しては汎用であり得、或いは、各専門分野内で語彙パラメータが特定の口述ファイルの特定の状況に基いて更に限定され得るように特殊であり得る。例えば、現ユーザが腹部のCATスキャンの読みを口述する放射線学者であるならば、術語は非常に専門的であり、腎臓の超音波学に対する術語とは異なるものである。それぞれの選択可能な語彙の組を狭く区分することによって、自動音声コンバータの精度の向上は可能である。
【0025】
図1に示されるように、ディジタル・オーディオ録音ステーションは、コンピュータ・ネットワーク30の一部としてシステム100へ接続され、或いは、これらステーションはインターネット・ホスト15を介してシステムに接続される。図1bに示されるように、汎用コンピュータを回路網ジャック27と電話ジャックとに接続することができる。インターネット・ホストの使用により、接続は、インターネットを介してオーディオ・ファイルを電子メールすることによって行われる。このような接続を完成する別の方法は、米国カルフォルニァ州クパーチノのSymantec社から入手可能であるPC ANYWHEREのような遠隔制御ソフトウエアを介する直接モデム接続による。ディジタル・オーディオ録音ステーション10又はインターネット・ホスト15のIPアドレスが判るならば、基本ファイル転送プロトコルを用いてオーディオ・ファイルを転送することもできる。このように、前述のことから判るように、当該システムは、音声ユーザがオーディオ入力をシステムへ提供する上で大きな柔軟性を許容する。
【0026】
制御手段200は、音声ユーザのトレーニング状態に基いて音声口述ファイルの流れを制御する。図2a、図2b、図2c、図2dに示されるように、制御手段200は、汎用コンピュータ40で動作するソフトウエア・プログラムを含む。特に、このプログラムはステップ201において初期化され、ここでは、変数が設定され、バッファがクリヤされ、制御手段のこの特定のインストールに対する特定の構成がロードされる。制御手段は、目標のディレクトリ(例えば、図3に示される「現」)を継続的に監視し、新たなファイルが目標ディレクトリへ移動されたかどうかを判定する(ステップ202)。いったん(図3に示される「6723.id」のような)新たなファイルが見出されると、(図1に示す)現ユーザ5が新たなユーザかどうかについて判定が行われる(ステップ203)。
【0027】
(「現」サブディレクトリにおける「.pro」ファイルの存在により示される)新たなユーザ毎に、(図3に示す「usern」サブディレクトリのような)新たなサブディレクトリが確立される(ステップ204)。このサブディレクトリは、オーディオ・ファイル(「xxxx.wav」)、文字テキスト(「xxx.wrt」)、逐語テキスト(「xxxx.vb」)、転記テキスト(「xxxx.txt」)、及び当該特定ユーザに対するユーザ・プロフィール(「usern.pro」)を記憶するのに使用される。特定の各ジョブには一義的な番号「xxxx」が割当てられ、ジョブと関連する全てのファイルは当該番号で連想できる。このようなディレクトリ構造により、ユーザ数は、実際には汎用コンピュータ40内の記憶スペースによってのみ制限される。
【0028】
ユーザ・サブディレクトリが確立されると、ユーザ・プロフィールがこのサブディレクトリへ移動される(ステップ205)。このユーザ・プロフィールの内容はシステム間で変わる。1つの潜在的なユーザ・プロフィールの内容は、ユーザの名前、アドレス、職業及びトレーニング状態を含むものとして図3に示される。必要とされるトレーニング状態変数とは別に、他のデータはオーディオ・ファイルのルーティング及び転記に有効である。
【0029】
1組のファイルをハンドルにより選択した制御手段は、「.id」ファイルをその「user.tbl」と比較することによって、現ユーザの同一性を判定する(ステップ206)。ユーザが判ると、ユーザ・プロフィールがそのユーザのサブディレクトリから構文解析され、現トレーニング状態が判定される(ステップ207)。ステップ208〜211は、登録、トレーニング、自動化及び自動化停止のうちの1つにおける現トレーニング状態の優先順位付けである。
【0030】
登録は、転記作業の第1の段階である。図2bに示されるように、オーディオ・ファイルは転記へ送られる(ステップ301)。特に、「xxxx.wav」ファイルは転記者のステーション50、51へ転送される。望ましい実施の形態においては、両ステーションは汎用コンピュータであり、これがオーディオ・プレヤとマニュアル入力手段を動作させる。オーディオ・プレヤはディジタル・オーディオ・プレヤであり得るが、アナログ・オーディオ・ファイルをステーションへ転送することも可能である。WINDOWS(登録商標)9.xオペレーティング・システムや他の米国バージニア州オークトンのThe Programmers’Consortium社のVOICESCRIBEのような種々のサードパーティにおけるユーティリティを含む種々のオーディオ・プレヤが一般に利用可能である。オーディオ・ファイルの再生に用いられるオーディオ・プレヤとは無関係に、マニュアル入力手段が同時にコンピュータ上で走っている。このようなマニュアル入力手段は、キーボード、マウス或いは他のユーザ・インターフェース装置と組合わせて、テキスト・エディタ又はワードプロセッサ(MS WORD、WordPerfect、AmiPro又はWordPad)のいずれかを含む。本発明の一つの実施の形態において、このマニュアル入力手段自体が、米国マサチューセッツ州ニュートンのDragon Systems社からのNaturally Speaking、米国ニューヨーク州アーモンクのIBM社からのVia Voice、或いは米国ジョージア州アトランタのPhilips社からのSpeech Magicのような音声認識ソフトウエアでもある。人間の転記者6は、現ユーザ5により生成されるオーディオ・ファイルを聴き取り、周知のように、この録音されたテキストの認識された内容をマニュアル入力し、これにより、転記されたファイルを確立する(ステップ302)。人間であるから、人間の転記者6はテキストに経験、教育及び性癖を反映しがちであり、オーディオ・ファイルの逐語的転記を入力しない傾向にある。人間による転記の完成時に、人間の転記者6はこのファイルをセーブし、現ユーザのサブディレクトリに「xxxx.txt」として転送する準備ができていることを表示する(ステップ303)。
【0031】
現ユーザが登録段階のみにある限り、人間のオペレータはオーディオ・ファイルを聴き、これを転記されたファイルとマニュアルで対比して逐語ファイルを作らなければならない(ステップ304)。この逐語ファイル「xxxx.vb」も現ユーザのサブディレクトリへ転送される(ステップ305)。逐語テキストが利用可能になると、制御手段200は自動音声変換手段を始動させる(ステップ306)。この自動音声変換手段は、数例を挙げれば、Dragon SystemsのNaturally Speaking、IBMのVia Voice或いはPhilipsのSpeech Magicのような既存のプログラムであり得る。或いはまた、これは、自動音声認識を特に行うため設計された独自プログラムでもよい。
【0032】
望ましい実施の形態においては、Dragon SystemsのNaturally Speakingが用いられた。これは、実際には制御手段200により制御されてはいてもNaturally Speakingが人間と対話していると見えるように、実行可能プログラムを、WIN32APIにより仮想キーストローク及びマウス操作を供給するNaturally Speakingと同時に走らせることによって行われる。このような手法は、コンピュータ・ソフトウエア・テスト技術では周知であり、従って詳細には記述しない。音声認識プログラムのアプリケーション・フローを観察することにより、対話的なマニュアル・ステップを模倣する実行可能プログラムを生成することができると言えば充分であろう。
【0033】
現ユーザが新たなユーザであれば、音声認識プログラムは新たなユーザを確立する必要がある(ステップ307)。制御手段は、現ユーザのサブディレクトリで見出されたユーザ・プロフィールから、必要な情報を提供する。全ての音声認識は、特定ユーザの音響モデルを確立するのに充分なトレーニングを必要とする。Dragonの場合、最初に、プログラムはユーザがDragon Systemsにより提供される既定のテキストを読むことによって得られる音響について約20分間シークする。Dragonには、「移動トレーニング」を可能にする機能もまた組込まれている。この特徴を用いると、逐語ファイル及びオーディオ・ファイルが音声認識プログラムへ送られ、当該ユーザに対する音響モデルのトレーニングが開始される(ステップ308)。オーディオ・ファイルの長さとは無関係に、制御手段200はファイルの終了時に音声認識プログラムを閉じる(ステップ309)。
【0034】
自動生成されたテキストを使用するには登録ステップが早すぎるので、ユーザのプロフィールに含まれるアドレス情報を用いて、転記されたファイルのコピーが現ユーザへ送られる(ステップ310)。このアドレスは、実際の所番地でも電子メール・アドレスでもよい。この送信後に、プログラムは図2aの主ループへ戻る。
【0035】
特定のユーザに対して数分間のトレーニングが行われた後、このユーザのトレーニング状態は登録からトレーニングへ変更される。この変更に対する境界は主観的であるが、おそらく、経験則はDragonが80%以上の精度で文字テキストを生成するようならば状態の切換えを行うことができるということである。つまり、このようなユーザに対しては、次の転記イベントは制御手段200をトレーニング状態へ入るよう促す。図2cに示されるように、ステップ401〜403は、登録段階におけるステップ301〜303と同じ人的転記ステップである。転記ファイルがいったん確立されると、制御手段200は自動音声変換手段(或いは音声認識プログラム)を始動させて現ユーザを選択する(ステップ404)。オーディオ・ファイルは音声認識プログラムへ送られ、プログラム・バッファ内で文字テキストが確立される(ステップ405)。Dragonの場合、このバッファにはプログラムのインスタンスにおける同じファイル・ハンドルが与えられる。このように、当該バッファは標準的なオペレーティング・システムの指令を用いて容易にコピーされ得、マニュアル編集が開始される(ステップ406)。
【0036】
米国バージニア州オークトンのThe Programmers’ Consortium社からのVOICEWAREシステムを用いる特定の一つの実施の形態においては、ユーザはオーディオをVOICEWAREシステムのVOICEDOCプログラムへ入力し、これにより「.wav」ファイルを生成する。更に、この「.wav」ファイルをVOICEWAREサーバへリリースする前に、ユーザは「転記者」を選択する。この「転記者」は特定の人間の転記者であっても、「コンピュータ化された転記者」であってもよい。ユーザは、「コンピュータ化された転記者」を選択すると、当該転記が局所的と遠隔的とのいずれで扱われるかを選択する。このファイルにはVOICEWAREサーバによりジョブ番号が割当てられ、このサーバはジョブをシステムのVOICESCRIBE部分へ送る。通常、VOICESCRIBEは、ジョブのオーディオ(「.wav」)ファイルを受取って再生するために人間の転記者により用いられる。更に、オーディオ・ファイルは自動音声変換手段により取り込まれる。このVOICEWAREシステムの実施の形態においては、VOICESCRIBEを「自動モード」に置くことにより、新たなジョブ(すなわち、VOICEDOCにより新たに生成されるオーディオ・ファイル)が、VOICEWAREサーバ及び現「.wav」ファイルのジョブ番号により形成されたウインドウ・タイトルを有するVOICESCRIBEウインドウから自動的にダウンロードされる。バックグラウンドで走る実行可能ファイルは、VOICESCRIBEウインドウが開いていることを「確かめ」、WIN32APIを用いてVOICESCRIBEウインドウ・タイトルからジョブ番号を決定する。この実行可能ファイルは自動音声変換手段を起動する。例えば、Dragon SystemsのNaturally Speakingにおいては、既存の「.wav」ファイル上で音声認識を実施するための機能が組込まれている。実行可能プログラムは仮想キーストロークをNaturally Speakingへ供給し、現ジョブのジョブ番号を持つ「現」ディレクトリ(図3参照)から「.wav」ファイルを開く。
【0037】
この実施の形態においては、Naturally Speakingが「.wav」ファイルのコンテキストの自動転記を完了した後、実行可能ファイルは、開いているNaturally Speakingのウインドウにおける全てのテキストを選択してこれをWINDOWS(登録商標)9.xオペレーティング・システムのクリップボードへコピーすることによって動作を再開し、次いで、クリップボード・ユーティリティを用いて、添え字「dmt」を持つ現ジョブ番号を用いてクリップボードをテキスト・ファイルとしてセーブする。次いで、実行可能ファイルはVOICESCRIBEにおける「完了」ボタンを「クリック」し、「dmt」ファイルをVOICEWAREサーバへ戻す。当業者には理解されるように、他のディジタル録音ソフトウエア及び他の自動音声変換手段を用いて前記の手順を行うことができる。更に、WINDOWS(登録商標)クリップボードと似た機能が他のオペレーティング・システムに存在する。また、1つ以上の前記ステップを作動させ又は促すのに人間の介在を必要とすることもあり得る。更に、このような種々のステップを実行する種々のプログラムが(LAN、WAN、インターネット・コネクティビティ、電子メール等を介して)多数の相互接続されたコンピュータ上で走り得るけれども、全ての必要なソフトウエアを1つのコンピュータ上で走らせることもできるものとする。
【0038】
ユーザが直接に自動音声変換手段へ口述し、VOICEWAREサーバがコピーを逆方向にピックアップする別の代替的なアプローチもまた考えられる。このアプローチは以下のとおり働く。実際に音声の録音をすることなく、ユーザはVOICEDOCの「完了」ボタンをクリックし、これにより空の「.wav」ファイルを生成する。それにも拘わらず、この空のファイルに、VOICEWAREサーバによって一義的なジョブ番号が割当てられる。次いで、ユーザ(又は、バックグラウンドで走る実行可能ファイル)は自動音声変換手段を始動させ、このような自動音声変換手段に関して前に用いられた同じ方法で直接にプログラムに口述を行う。口述の完了時に、ユーザが(バックグラウンド実行可能ファイルにより生成される)「リターン」ボタンを押すと、実行可能ファイルは現ジョブ番号をVOICEWAREから(先に述べた方法で)取得するマクロを開始させ、ドキュメントにおける全てのテキストを選択し、これをクリップボードにコピーする。次に、クリップボードは、先に述べたように、ファイル「<jobnumber>.dmt」へセーブされる。次に、実行可能ファイルはVOICESCRIBEにおける「完了」ボタンを(WIN32APIを介して)クリックし、これによって、自動的に転記されたテキスト・ファイルが有効にVOICEWAREサーバへ戻され、VOICEWAREサーバは完了した転記をVOICESCRIBEユーザへ戻す。特に、この種々のステップを実行する種々のプログラムは(LAN、WAN、インターネット・コネクティビティ、電子メールなどを介して)多数の相互接続されたコンピュータ上で走ることができるけれども、全ての必要なソフトウエアを1つのコンピュータ上で走らせることも考えられる。当業者には理解されるように、他のディジタル録音ソフトウエア及び他の自動音声変換手段を用いて上記の手順を行うことができる。更に、WINDOWS(登録商標)クリップボードに似た機能が他のオペレーティング・システムに存在する。上記のステップの1つ以上を作動させ又は促すのに人間の介在を必要とすることもまた可能である。
【0039】
マニュアル編集は容易な作業ではない。人間は誤りを犯しがちである。このため、本発明は、前記のタスクを改善する手段をも含む。図4に示すように、転記されたファイル(「3333.txt」)と文字テキスト(「3333.wrt」)のコピーとは、文字テキストのコピーから収集された不一致単語406bの順次リストの確立のため、単語406b単位で逐次比較される。このリストは、初めと、終りと、その時の不一致単語に対するポインタ406cとを有する。この順次リストの基礎をなすのは、元の不一致単語と、不一致単語の直前及び直後の単語と、不一致単語406bの順次リストにおける各不一致単語のメモリにおける開始場所と、不一致単語の長さとを含む他のオブジェクト・リストである。
【0040】
図5に示すように、リスト406bからのポインタ406cにより指示される不一致単語は、標準的なコンピュータ・モニター500のアクティブ・ウインドウ501において、他のテキストから実質的に視覚的に分離された状態で文字テキストのコピーに表示される。図5に示すように、不一致単語のコンテキストは、該単語が存在する文章内に単語毎に又は句のコンテキストにおいて示されるように、ボタン514、515、516をクリックすることによってオペレータにより選択される。
【0041】
アクティブ・ウインドウ501と関連するのは、文字テキスト・ファイルのコピーを含むバックグラウンド・ウインドウ502である。バックグラウンド・ウインドウ502に示されるように、増分的サーチがその時の不一致単語「CASH」の次の発生を発見した(ポインタ503参照)。これと同時に、音声認識プログラムからのバッファを含むウインドウ505内では、同じ増分的サーチがその時の不一致単語の次の発生を発見した(ポインタ506参照)。人間のユーザは、ポインタ506におけるテキストと同期されたオーディオを再生する「再生」ボタン510をクリックすることによってアクティブ・ウインドウ501が音声認識プログラムからオーディオ再生を作動させるのを見ているだけである。再生ボタンのクリックにより繰返し再生できる音声の断片に基いて、人間のユーザは、キーボードやマウスの操作によってマニュアルで、又は恐らくは音響キューによっても、ウインドウ内で走る別の音声認識プログラムへその時の不一致単語に対する訂正を入力することができる。
【0042】
当例では、分離されたコンテキストの選択がボタン514、515、516により生じたとしても、コンテキストから正しい逐語的な単語を決定することは依然として難しい。従って、文字テキストのコピー内の現ロケーションを示す可視ポインタ503によりバックグラウンド・ウインドウ502をフォアグラウンドへ移動させる切換えウインドウ・ボタン513が設けられる。ユーザは、アクティブ・ウインドウへ戻り、正しい単語「TRASH」を入力することができる。この変更は、バックグラウンド・ウインドウ502に表示された文字テキストのコピーに影響を及ぼすのみである。
【0043】
オペレータが次の不一致単語に対して準備ができたとき、オペレータは前進ボタン511をクリックし、これによりポインタ406cは不一致単語のリスト上を前進し、両ウインドウ502、505における増分的サーチが活性化される。この不一致単語は分離して表示され、オペレータは音声認識プログラムから同期した音声を再生でき、この単語を訂正することもできる。動作の任意の点においてオペレータが前の不一致単語へ戻ることを希望するならば、オペレータは後退ボタン512をクリックし、これによってポインタ406cは再びリスト中の単語へ戻り、後退方向の増分サーチを生じさせる。これは、元の不一致単語を含むオブジェクトの基礎リストを用いることによって達成される。このリストはオブジェクト単位で移動されるが、代わりに、リストの両方向移動を助けるように各アイテムが同じ単語サイズを持つように、各レコードを埋め込むこともできる。この基礎リストにおける不一致単語は読出されるのみであるから、異なる訂正がなされるべきであったか否かをオペレータが決定できるように、元の不一致単語へ戻ることが可能である。
【0044】
最後に、文字テキストのコピーは最終的に訂正されて逐語コピーを生じ、このコピーはユーザのサブディレクトリにセーブされる。また、この逐語ファイルはトレーニングのため音声認識プログラムへ送られる(ステップ407)。新たな(かつ改善された)音響モデルがセーブされ(ステップ408)、音声認識プログラムが閉じられる(ステップ409)。システムはまだトレーニング中であるから、転記されたファイルは登録段階からステップ310におけるようにユーザへ戻される。
【0045】
図4に示されるように、システムは、逐次比較手段の出力から精度率を決定する手段をも含む。特に、文字テキストにおける単語数とリスト406bにおける単語数とをカウントすることにより、文字テキストにおける単語に対する順次リストにおける単語の比を決定することができ、これにより精度率が提供される。前と同じように、ユーザを1つの段階から別の段階へ何時進めるかは選択の問題である。いったん目標に達すると、ユーザのプロフィールが次の段階へ変更される(ステップ211)。
【0046】
1つの潜在的な強化機能又は派生機能は、精度の比率の決定により提供される。一つの実施の形態では、この比率は人間の転記者の技能を評価するために用いることもできる。特に、公知の逐語ファイル又は習熟したユーザを用いると、関連の「.wav」ファイルが人間の転記者に対して再生され、上記の比較は、転記されたテキストと上記プロセスにより生成された逐語ファイルとに対して行われる。このようにして、更なる機能を当該システムによって提供することができる。
【0047】
理解されるように、現在では、音声認識プログラムの製造者は、外国語や言葉使いなどの録音をマニュアルで確立された逐語ファイルと共に用いて、音声モデルをプログラムする。明らかなように、逐語テキストを確立する上記の方法を、このプロセスを大幅に簡素化するこれらの音声ファイルの初期開発において用いることができる。
【0048】
ユーザが自動化段階に到達すると、当該システムの最大の利点を達成することができる。音声認識ソフトウエアが始動され(ステップ600)、現ユーザが選択される(ステップ601)。必要に応じて、特殊化された語彙が選定される(ステップ602)。次いで、現ユーザにより録音されたディジタル・オーディオ・ファイルの自動変換が開始される(ステップ603)。完了すると、ユーザ・プロフィールに含まれる情報に基いて文字ファイルがユーザへ送られ(ステップ604)、プログラムは主ループへ戻される。
【0049】
不都合なことに、音響モデルは一時的に(或いは更に長い間)変更されているので、音声ユーザが或る期間(病気中や歯の治療後など)自動転記を使用できない場合があり得る。このような場合、システム管理者は、トレーニング状態変数を、ステップ301、302、303、305及び310(図2b参照)のみが実行されるステップである自動化停止状態へ設定することができる。
【0050】
図6は、本発明と関連する種々の要素の別の可能な構成を示している。この構成においては、前と同様に、ユーザは転記すべきドキュメントを口述し、先に述べた方法の1つで音声口述ファイル700としてセーブする。この実施の形態では、転記されたファイルを人間の転記者に生成してもらうのではなく、音声口述ファイルが自動的に文字テキストへ少なくとも2回変換される。
【0051】
この2回の自動テキスト変換後に、その結果として生じた第1及び第2の文字テキスト・ファイルが(図4及び図5に関して先に述べたように)マニュアル・コピー編集手段を用いて相互に比較され、人間のオペレータが第2の文字テキスト・ファイルを敏速に且つマニュアルにより訂正するのを容易にする。
【0052】
このようにして、人間の転記者のずっと少ない労力で転記作業を提供することができる。エンド・ユーザへの分配のために充分に正確な文字テキストを取得する秘訣は、1回目の実行と2回目の実行とで音声/テキスト変換を少々異ならせることである。特に、1回目と2回目の変換ステップの間で、システムは下記のうちの1つ以上を変更することができる。
【0053】
(1)音声認識プログラム(例えば、Dragon SystemsのNaturally Speaking、IBMのVia Voice又はPhilips社のMagic Speech)、
(2)特定の音声認識プログラム内の言語モデル(例えば、一般英語に対する専門語彙(例えば、医学、法律))、
(3)特定の音声認識プログラム内の設定(例えば、「最も精確」に対する「速度」)、及び(又は)
(4)ディジタル単語サイズやサンプリング・レートの変更、特定の高調波レンジ除去、その他のあり得る修正によって音声口述ファイルをディジタル信号プロセッサ(米国アリゾナ州フェニックスのSyntrillium社のCool Edit、或いはMotorola社からのプログラムされたDSP56000ICなど)により予め処理することによる音声口述ファイル。
【0054】
1つ以上の上記「変換変数」を変更することにより、2回目の音声/テキスト変換が1回目の音声/テキスト変換から少し異なる文字テキストを生成することができ、また、結果として生じた2つの文字テキストをここに開示した新規なマニュアル編集手段を用いて比較することにより、人間のオペレータは上記の方法で差異を調べ、エンド・ユーザへ分配するための逐語テキストを迅速に生成することができる。このように、他の開示されたアプローチにおけるよりも少ない人間の介在により、完全に自動化された転記が達成できる。
【0055】
このシステム及びその基礎となる方法が図6に示される。2つの自動音声変換手段702、703が示されるが、1つのコンピュータ上で走るけれども音声口述ファイルの変換の反復間で異なる変換変数を用いる音声認識プログラムの単一のインスタンスが存在し得ることに注意すべきである。無論、当業者には周知のように、1つのマシン上で走る、或いは、コンピュータ化されたネットワーク(LAN、WAN、ピアツーピアなど)により相互接続された個別のマシン上で走る音声認識プログラムの複数のインスタンスを持つことも同様に可能である。
【0056】
同様に、マニュアル編集手段705が自動音声変換手段とは別個であるように示されるが、自動的音声変換手段の1つ又は両方のインスタンスと同じコンピュータで実現することもできる。同様に、マニュアル編集手段は、コンピュータ化されたネットワーク上の他のコンピュータと相互接続されたコンピュータ上で実現され得る。
【0057】
最後に、ディジタル信号プロセッサ701が示されているのは、変換変数を変更する1つのアプローチが自動音声変換手段の1つ又は両方のインスタンスに入力される音声口述ファイルを変更することであることを図示するためである。このディジタル信号プロセッサも、上記の機能ブロックの1つ又は全てと同じコンピュータ上で、或いは、他のコンピュータとコンピュータ化ネットワークを介して相互接続された別個のコンピュータ上で実現され得る。
【0058】
音声からテキストへの変換の2回の反復が用いられる上記のケースは、変換変数の種々の組をそれぞれ用い、テキストの比較が文字テキスト出力の一義的な対間で、その後は相互間で行われ、その結果、自動転記の精度を向上させてマニュアル編集において考慮されるべき単語を少なくする、更に多くの回の反復が行われるケースに対して外挿され得る。
【0059】
先の記述及び図面は本発明を単に説明し図示するものであり、本発明はこれに限定されるものではない。本文の開示を参照した当業者は、本発明の範囲から逸脱することなくその修正及び変更を行うことができる。例えば、音声ユーザと転記者と音声認識プログラムとの間でマシンを実質的に時分割することにより、当該システムの要素の全てを1つの汎用コンピュータで実現することが可能である。その結果生じるコストの節減は、当該システムを大きな診療所、病院、法律事務所その他の大きな施設だけでなく更に多くのオフィスの諸状況に対しアクセス可能にする。
【図面の簡単な説明】
【図1】 図1は、一人以上の音声ユーザに対する実質的に自動化された転記作業のための本システムの一つの実施の形態のブロック図である。
図1bは、本システム内部の口述ステーション、転記ステーション及び制御手段として使用される汎用コンピュータのブロック図である。
【図2】 図2aは、本システムの制御手段の主ループのフロー図である。
図2bは、本システムの制御手段の登録段階部分のフロー図である。
図2cは、本システムの制御手段のトレーニング段階部分のフロー図である。
図2dは、本システムの制御手段の自動化段階部分のフロー図である。
【図3】 本システムにおける制御手段により使用されるディレクトリ構造である。
【図4】 マニュアル編集手段の望ましい実施の形態の一部を示すブロック図である。
【図5】 マニュアル編集手段の望ましい実施の形態の残部を示す立面図である。
【図6】 2つの音声変換インスタンス及びコンピュータ補助訂正を用いる自動転記システム及び方法のシステムの構成を示す図である。
Claims (21)
- 一人以上の音声ユーザに対する転記作業を実質的に自動化するシステムであって、
一人以上の前記音声ユーザの一人である現ユーザから音声口述ファイルを受取る手段と、
第1の組の変換変数を有し、前記音声口述ファイルを第1の文字テキストへ自動的に変換する第1の自動変換手段と、
第2の変換変数組を有し、前記音声口述ファイルを第2の文字テキストへ自動的に変換する第2の自動変換手段であって、前記の第1及び第2の組の変換変数が少なくとも1つの相違を有する第2の自動変換手段と、
前記音声口述ファイルの逐語テキストを生成するため前記の第1及び第2の文字テキストのコピーをマニュアル編集する手段と、
を具備し、
前記第1の文字テキストが前記音声口述ファイルと少なくとも一時的に同期され、
前記マニュアル編集手段が、
前記第1の文字テキストのコピーを前記第2の文字テキストと逐次比較して、前記第1の文字テキストの前記コピーから収集される不一致単語の順次リストであって、初めと終りと前記初めから前記終りへ順次進められるその時の不一致単語とを持つ順次リストを得る手段と、
前記第1の文字テキストを含む前記第1の自動変換手段に関連する第1のバッファ内と前記順次リストに関連する第2のバッファ内とで同時に、前記その時の不一致単語を増分的に検索する手段と、
前記その時の不一致単語を、前記第1の文字テキストの前記コピーにおける他のテキストから実質的に視覚的に分離されるように表示する手段と、前記その時の不一致単語に関連する前記第1のバッファから前記の同期された音声口述録音の一部を再生する手段とを備え、前記第2のバッファにおける前記その時の不一致単語を訂正する手段と、
を備えるシステム。 - 前記編集手段が更に、前記第1の文字テキストの前記コピー内のコンテキストにおける前記その時の不一致単語を二者択一的に調べる手段を含む、請求項1記載のシステム。
- 前記の第1及び第2の自動音声変換手段がそれぞれ、人間の対話的な使用のため意図された既存の音声認識プログラムを含み、前記の第1及び第2の自動音声変換手段の各々が、前記の既存の音声認識プログラムからの一連の対話的な照会に対する応答を自動化する手段を含む、請求項1記載のシステム。
- 前記の第1及び第2の組の変換変数間の前記相違が、前記の第1及び第2の自動音声変換手段を含む前記の既存の音声認識プログラムである、請求項3載のシステム。
- 前記の第1及び第2の組の変換変数間の前記相違が、前記の既存の音声認識プログラムに関連して用いられる言語モデルを含む、請求項3記載のシステム。
- 汎用の言語モデルが前記第1の組の変換変数において用いられ、特殊な言語モデルが前記第2の組の変換変数において用いられる、請求項5記載のシステム。
- 前記の第1及び第2の組の変換変数間の前記相違が、前記の既存の音声認識プログラムに関連する少なくとも1つの設定を含む、請求項3記載のシステム。
- 前記の第1及び第2の組の変換変数間の前記相違が、前記第1の自動変換手段への入力に先立ちオーディオを事前処理する手段を含む、請求項3記載のシステム。
- 前記の第1及び第2の組の変換変数間の前記相違が、前記第2の自動変換手段への入力に先立ちオーディオを事前処理する手段を含み、前記した第1及び第2の事前処理の変数が異なる、請求項8記載のシステム。
- 前記事前処理の変数が、実質的にディジタル単語サイズ、サンプリング・レート及び特定の高調波レンジの除去からなるグループから選択される、請求項9記載のシステム。
- 前記の第1及び第2の組の変換変数間の前記相違が、前記の既存の音声認識プログラムとの関連付けに用いられる言語モデルを含む、請求項1記載のシステム。
- 汎用言語モデルが前記第1の組の変換変数において用いられ、特殊言語モデルが前記第2の組の変換変数において用いられる、請求項11記載のシステム。
- 前記の第1及び第2の組の変換変数間の前記相違が、前記第1の自動変換手段への入力に先立ちオーディオを事前処理する手段を含む、請求項1記載のシステム。
- 前記の第1及び第2の組の変換変数間の前記相違が、前記第2の自動変換手段への入力に先立ちオーディオを事前処理する手段を含み、前記の第1及び第2の事前処理の変数が異なる、請求項11記載のシステム。
- 現ユーザの前記音声口述ファイルに高精度を達成するため前記自動音声変換手段をトレーニングする手段を更に備える、請求項1記載のシステム。
- 前記トレーニング手段が、人間の対話的使用のため意図された既存の音声認識プログラムの既存のトレーニング部分を含み、該トレーニング手段が、前記の既存の音声認識プログラムの前記の既存トレーニング部分からの一連の対話的照会に対する応答を自動的化する手段を含む、請求項15記載のシステム。
- 少なくとも1つの音声認識プログラムを含むシステムにおいて一人以上の音声ユーザに対する転記作業を自動化する方法であって、
現音声ユーザから音声口述ファイルを受取るステップと、
第1の組の変換変数を用いて音声認識プログラムにより前記音声口述ファイルから第1の文字テキストを自動的に生成するステップと、
第2の組の変換変数を用いて音声認識プログラムにより前記音声口述ファイルから第2の文字テキストを自動的に生成するステップと、
前記の第1及び第2の文字テキストの比較により逐語ファイルをマニュアルで確立するステップと、
前記逐語ファイルを前記現ユーザへ戻すステップと、
を備え、
逐語ファイルをマニュアルで確立する前記ステップが、
前記第1の文字テキストのコピーを前記第2の文字テキストと逐次比較し、前記第1の文字テキストのコピーから収集される不一致単語の順次リストを得るステップであって、該順次リストが初めと終りとその時の不一致単語とを有し、前記その時の不一致単語が前記初めから前記終りへ順次進められるステップと、
前記第1の文字テキストを含む少なくとも1つの音声認識プログラムに関連する第1のバッファ内と前記順次リストに関連する第2のバッファ内とで同時に前記その時の不一致単語を増分的に検索するステップと、
前記第1の文字テキストのコピーにおける他のテキストから実質的に視覚的に分離されるように前記その時の不一致単語を表示し、前記その時の不一致単語に関連する前記第1のバッファから前記の同期された音声口述録音の一部を再生するステップと、
前記の同期された音声口述録音の一部の逐語表示であるように前記その時の不一致単語を訂正するステップと、
を含む方法。 - 利用可能な既存の音声認識プログラムから第1の組の変換変数を選択するステップと、
利用可能な既存の音声認識プログラムから前記第2の組の変換変数を別に選択するステップと、
を更に含む、請求項17記載の方法。 - 利用可能な言語モデルから前記第1の組の変換変数を選択するステップと、
利用可能な言語モデルから前記第2の組の変換変数を別に選択するステップと、
を更に含む、請求項17記載の方法。 - 第1の文字テキストを自動的に生成する前に前記音声口述ファイルを事前処理するステップであって、該事前処理が前記第1の組の変換変数の少なくとも一部を形成するステップを更に含む、請求項17記載の方法。
- 第2の文字テキストを自動的に生成する前に前記第1の組の変換変数の事前処理とは異なる方法で前記音声口述ファイルを事前処理するステップであって、該事前処理が前記第2の組の変換変数の少なくとも一部を形成するステップを更に含む、請求項20記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12099799P | 1999-02-19 | 1999-02-19 | |
US60/120,997 | 1999-02-19 | ||
PCT/US2000/004210 WO2000049601A1 (en) | 1999-02-19 | 2000-02-18 | Automated transcription system and method using two speech converting instances and computer-assisted correction |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002542501A JP2002542501A (ja) | 2002-12-10 |
JP4601177B2 true JP4601177B2 (ja) | 2010-12-22 |
Family
ID=22393818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000600262A Expired - Fee Related JP4601177B2 (ja) | 1999-02-19 | 2000-02-18 | 2つの音声変換インスタンス及びコンピュータ補助訂正を用いる自動転記システム及び方法 |
Country Status (24)
Country | Link |
---|---|
EP (1) | EP1183680B1 (ja) |
JP (1) | JP4601177B2 (ja) |
KR (1) | KR20010102280A (ja) |
CN (1) | CN1144176C (ja) |
AP (1) | AP2001002243A0 (ja) |
AT (1) | ATE341810T1 (ja) |
AU (1) | AU3368900A (ja) |
BR (1) | BR0008346A (ja) |
CA (1) | CA2363561C (ja) |
CZ (1) | CZ299508B6 (ja) |
DE (1) | DE60031113T2 (ja) |
EA (1) | EA004352B1 (ja) |
ES (1) | ES2276674T3 (ja) |
HK (1) | HK1046186B (ja) |
IL (2) | IL144557A0 (ja) |
MX (1) | MXPA01008301A (ja) |
NO (1) | NO20014019L (ja) |
NZ (1) | NZ513571A (ja) |
PL (1) | PL349929A1 (ja) |
PT (1) | PT1183680E (ja) |
TR (1) | TR200102364T2 (ja) |
UA (1) | UA73495C2 (ja) |
WO (1) | WO2000049601A1 (ja) |
ZA (1) | ZA200106118B (ja) |
Families Citing this family (120)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6603835B2 (en) | 1997-09-08 | 2003-08-05 | Ultratec, Inc. | System for text assisted telephony |
US7689416B1 (en) | 1999-09-29 | 2010-03-30 | Poirier Darrell A | System for transferring personalize matter from one computer to another |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8416925B2 (en) | 2005-06-29 | 2013-04-09 | Ultratec, Inc. | Device independent text captioned telephone service |
KR100834363B1 (ko) * | 2003-06-02 | 2008-06-02 | 인터내셔널 비지네스 머신즈 코포레이션 | 음성 응답 시스템, 음성 응답 방법, 음성 서버, 음성 파일 처리 방법 및 기록 매체 |
EP1719114A2 (en) | 2004-02-18 | 2006-11-08 | Philips Intellectual Property & Standards GmbH | Method and system for generating training data for an automatic speech recogniser |
US8515024B2 (en) | 2010-01-13 | 2013-08-20 | Ultratec, Inc. | Captioned telephone service |
US20060111917A1 (en) * | 2004-11-19 | 2006-05-25 | International Business Machines Corporation | Method and system for transcribing speech on demand using a trascription portlet |
US11258900B2 (en) | 2005-06-29 | 2022-02-22 | Ultratec, Inc. | Device independent text captioned telephone service |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8457946B2 (en) * | 2007-04-26 | 2013-06-04 | Microsoft Corporation | Recognition architecture for generating Asian characters |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010129714A2 (en) * | 2009-05-05 | 2010-11-11 | NoteVault, Inc. | System and method for multilingual transcription service with automated notification services |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
CN102236645B (zh) * | 2010-05-06 | 2016-03-30 | 上海五和际软件信息有限公司 | 基于语义逻辑的类自然语言人机对话装置 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
TWI488174B (zh) * | 2011-06-03 | 2015-06-11 | Apple Inc | 自動地建立文字資料與音訊資料間之映射 |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8930189B2 (en) * | 2011-10-28 | 2015-01-06 | Microsoft Corporation | Distributed user input to text generated by a speech to text transcription service |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10389876B2 (en) | 2014-02-28 | 2019-08-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US10878721B2 (en) | 2014-02-28 | 2020-12-29 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US20180270350A1 (en) | 2014-02-28 | 2018-09-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US20180034961A1 (en) | 2014-02-28 | 2018-02-01 | Ultratec, Inc. | Semiautomated Relay Method and Apparatus |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
CN105827417A (zh) * | 2016-05-31 | 2016-08-03 | 安徽声讯信息技术有限公司 | 一种用于会议记录并可随时修改的语音速记装置 |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN109949813A (zh) * | 2017-12-20 | 2019-06-28 | 北京君林科技股份有限公司 | 一种将语音转换为文字的方法、装置及系统 |
CN108573707B (zh) * | 2017-12-27 | 2020-11-03 | 北京金山云网络技术有限公司 | 一种语音识别结果的处理方法、装置、设备及介质 |
CN110471659B (zh) * | 2019-08-16 | 2023-07-21 | 珠海格力电器股份有限公司 | 多语言实现方法和系统、人机界面组态软件端和设备端 |
CN113077807B (zh) * | 2019-12-17 | 2023-02-28 | 北京搜狗科技发展有限公司 | 一种语音数据的处理方法、装置及电子设备 |
US11539900B2 (en) | 2020-02-21 | 2022-12-27 | Ultratec, Inc. | Caption modification and augmentation systems and methods for use by hearing assisted user |
CN113808576A (zh) * | 2020-06-16 | 2021-12-17 | 阿里巴巴集团控股有限公司 | 语音转换方法、装置及计算机系统 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4430726A (en) * | 1981-06-18 | 1984-02-07 | Bell Telephone Laboratories, Incorporated | Dictation/transcription method and arrangement |
JPS6191700A (ja) * | 1984-10-11 | 1986-05-09 | 株式会社日立製作所 | 音声入力装置 |
JP2647234B2 (ja) * | 1990-06-14 | 1997-08-27 | シャープ株式会社 | 音声認識装置 |
IT1256823B (it) * | 1992-05-14 | 1995-12-21 | Olivetti & Co Spa | Calcolatore portatile con annotazioni verbali. |
ZA948426B (en) * | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
JPH07152787A (ja) * | 1994-01-13 | 1995-06-16 | Sony Corp | 情報アクセスシステムおよび記録媒体 |
JP2655086B2 (ja) * | 1994-06-21 | 1997-09-17 | 日本電気株式会社 | 電話回線音声入力システム |
DE19530663C2 (de) * | 1995-08-21 | 2001-05-03 | Inova Gmbh Tech Entwicklungen | Höhenversteller für einen Fahrzeugsicherheitsgurt |
GB2303955B (en) * | 1996-09-24 | 1997-05-14 | Allvoice Computing Plc | Data processing method and apparatus |
US5875448A (en) * | 1996-10-08 | 1999-02-23 | Boys; Donald R. | Data stream editing system including a hand-held voice-editing apparatus having a position-finding enunciator |
US6122613A (en) * | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
US5995936A (en) * | 1997-02-04 | 1999-11-30 | Brais; Louis | Report generation system and method for capturing prose, audio, and video by voice command and automatically linking sound and image to formatted text locations |
GB2323693B (en) * | 1997-03-27 | 2001-09-26 | Forum Technology Ltd | Speech to text conversion |
JPH10282990A (ja) * | 1997-04-04 | 1998-10-23 | Sony Corp | テキスト入力方法及び装置 |
-
2000
- 2000-02-18 NZ NZ513571A patent/NZ513571A/xx unknown
- 2000-02-18 TR TR2001/02364T patent/TR200102364T2/xx unknown
- 2000-02-18 PL PL00349929A patent/PL349929A1/xx not_active Application Discontinuation
- 2000-02-18 EA EA200100901A patent/EA004352B1/ru not_active IP Right Cessation
- 2000-02-18 IL IL14455700A patent/IL144557A0/xx active IP Right Grant
- 2000-02-18 EP EP00911864A patent/EP1183680B1/en not_active Expired - Lifetime
- 2000-02-18 CN CNB008039712A patent/CN1144176C/zh not_active Expired - Fee Related
- 2000-02-18 AP APAP/P/2001/002243A patent/AP2001002243A0/en unknown
- 2000-02-18 BR BR0008346-1A patent/BR0008346A/pt not_active IP Right Cessation
- 2000-02-18 CZ CZ20012936A patent/CZ299508B6/cs not_active IP Right Cessation
- 2000-02-18 UA UA2001096424A patent/UA73495C2/uk unknown
- 2000-02-18 CA CA002363561A patent/CA2363561C/en not_active Expired - Fee Related
- 2000-02-18 MX MXPA01008301A patent/MXPA01008301A/es active IP Right Grant
- 2000-02-18 KR KR1020017010591A patent/KR20010102280A/ko active IP Right Grant
- 2000-02-18 AT AT00911864T patent/ATE341810T1/de not_active IP Right Cessation
- 2000-02-18 AU AU33689/00A patent/AU3368900A/en not_active Abandoned
- 2000-02-18 PT PT00911864T patent/PT1183680E/pt unknown
- 2000-02-18 JP JP2000600262A patent/JP4601177B2/ja not_active Expired - Fee Related
- 2000-02-18 ES ES00911864T patent/ES2276674T3/es not_active Expired - Lifetime
- 2000-02-18 WO PCT/US2000/004210 patent/WO2000049601A1/en active IP Right Grant
- 2000-02-18 DE DE60031113T patent/DE60031113T2/de not_active Expired - Fee Related
-
2001
- 2001-07-25 ZA ZA200106118A patent/ZA200106118B/en unknown
- 2001-07-25 IL IL144557A patent/IL144557A/en not_active IP Right Cessation
- 2001-08-17 NO NO20014019A patent/NO20014019L/no not_active Application Discontinuation
-
2002
- 2002-09-06 HK HK02106586.5A patent/HK1046186B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
JP2002542501A (ja) | 2002-12-10 |
PT1183680E (pt) | 2007-01-31 |
CZ299508B6 (cs) | 2008-08-20 |
AU3368900A (en) | 2000-09-04 |
EP1183680B1 (en) | 2006-10-04 |
EP1183680A1 (en) | 2002-03-06 |
WO2000049601A1 (en) | 2000-08-24 |
EP1183680A4 (en) | 2002-04-17 |
TR200102364T2 (tr) | 2002-06-21 |
UA73495C2 (en) | 2005-08-15 |
CN1144176C (zh) | 2004-03-31 |
MXPA01008301A (es) | 2002-06-04 |
NO20014019L (no) | 2001-10-18 |
CZ20012936A3 (cs) | 2002-02-13 |
ATE341810T1 (de) | 2006-10-15 |
KR20010102280A (ko) | 2001-11-15 |
IL144557A (en) | 2006-04-10 |
CA2363561A1 (en) | 2000-08-24 |
BR0008346A (pt) | 2002-01-29 |
EA200100901A1 (ru) | 2001-12-24 |
DE60031113T2 (de) | 2007-05-10 |
CA2363561C (en) | 2009-08-18 |
ZA200106118B (en) | 2003-01-15 |
DE60031113D1 (de) | 2006-11-16 |
IL144557A0 (en) | 2002-05-23 |
CN1341255A (zh) | 2002-03-20 |
NO20014019D0 (no) | 2001-08-17 |
PL349929A1 (en) | 2002-10-21 |
ES2276674T3 (es) | 2007-07-01 |
EA004352B1 (ru) | 2004-04-29 |
HK1046186B (zh) | 2008-05-09 |
AP2001002243A0 (en) | 2001-09-30 |
NZ513571A (en) | 2004-01-30 |
HK1046186A1 (en) | 2002-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4601177B2 (ja) | 2つの音声変換インスタンス及びコンピュータ補助訂正を用いる自動転記システム及び方法 | |
US6961699B1 (en) | Automated transcription system and method using two speech converting instances and computer-assisted correction | |
CA2351705C (en) | System and method for automating transcription services | |
US7006967B1 (en) | System and method for automating transcription services | |
US6704709B1 (en) | System and method for improving the accuracy of a speech recognition program | |
US6961700B2 (en) | Method and apparatus for processing the output of a speech recognition engine | |
JP4237915B2 (ja) | ユーザが文字列の発音を設定することを可能にするためにコンピュータ上で実行される方法 | |
GB2303955A (en) | Text processing | |
ZA200200904B (en) | System and method for improving the accuracy of a speech recognition program. | |
US20110113357A1 (en) | Manipulating results of a media archive search | |
CA2362462A1 (en) | System and method for automating transcription services | |
AU2004233462B2 (en) | Automated transcription system and method using two speech converting instances and computer-assisted correction | |
GB2390930A (en) | Foreign language speech recognition | |
US20050125236A1 (en) | Automatic capture of intonation cues in audio segments for speech applications | |
AU776890B2 (en) | System and method for improving the accuracy of a speech recognition program | |
JP2024027395A (ja) | 辞書登録プログラム、辞書登録方法及び情報処理装置 | |
Dahlstrom | A system for wizard of oz studies in natural language programming | |
Masoodian et al. | TRAED: Speech audio editing using imperfect transcripts | |
WO2001093058A1 (en) | System and method for comparing text generated in association with a speech recognition program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091215 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100312 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100319 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100414 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100421 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100517 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100524 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100615 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100830 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100928 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131008 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |