JP4601177B2 - 2つの音声変換インスタンス及びコンピュータ補助訂正を用いる自動転記システム及び方法 - Google Patents

2つの音声変換インスタンス及びコンピュータ補助訂正を用いる自動転記システム及び方法 Download PDF

Info

Publication number
JP4601177B2
JP4601177B2 JP2000600262A JP2000600262A JP4601177B2 JP 4601177 B2 JP4601177 B2 JP 4601177B2 JP 2000600262 A JP2000600262 A JP 2000600262A JP 2000600262 A JP2000600262 A JP 2000600262A JP 4601177 B2 JP4601177 B2 JP 4601177B2
Authority
JP
Japan
Prior art keywords
file
variables
speech
text
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000600262A
Other languages
English (en)
Other versions
JP2002542501A (ja
Inventor
カーン,ジョナサン
フリン,トーマス・ピー
チン,チャールズ
Original Assignee
カスタム・スピーチ・ユーエスエイ・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by カスタム・スピーチ・ユーエスエイ・インコーポレーテッド filed Critical カスタム・スピーチ・ユーエスエイ・インコーポレーテッド
Publication of JP2002542501A publication Critical patent/JP2002542501A/ja
Application granted granted Critical
Publication of JP4601177B2 publication Critical patent/JP4601177B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

【0001】
発明の背景
1.発明の分野
本発明は、コンピュータ音声認識システムに関し、特に種々のエンド・ユーザによる音声口述のテキスト転記を自動化するためのシステム及び方法に関する。
【0002】
2.背景技術
音声認識プログラムは、当技術において周知である。これらプログラムは音声をテキストへ自動的に変換することにおいて究極的に有効であるが、これらプログラムはそれぞれの著しく多くのシステム・トレーニング時間を費やすことをユーザに要求するゆえ、多くのユーザにこのようなプログラムの使用を躊躇させている。通常、このようなトレーニングは、各ユーザに一連の予め選択された素材をおよそ20分間読み上げさせることから始まる。次いで、ユーザがプログラムを使用し続ける際に、単語が不適正に転記されると、ユーザはプログラムを止め、プログラムを意図した単語について訓練することが期待され、これにより音響モデルの最終的な精度を向上させる。不都合なことに、大半の専門家(医者、歯医者、獣医、弁護士)及び会社の管理職は、自動化された転記から真に利益を得るのに必要な音響モデルの生成に時間を費やすことを好まない。
【0003】
従って、本発明の目的は、エンド・ユーザに対する音声認識プログラムの平明なトレーニングを提供するシステムを提供することである。
エンド・ユーザのグループからの転記をルーティングするためのコンピュータを用いるシステムが存在する。しばしば大半のかかるシステムは、病院などの大がかりなマルチユーザ設定において用いられる。これらのシステムにおいては、音声ユーザは、汎用コンピュータその他の録音装置に対して口述し、結果として得たファイルが人間の転記者へ自動的に転送される。人間の転記者はファイルを転記し、次いで該ファイルは元の「著者」へ検査のため戻される。これらのシステムは、全ての口述ファイルを転記するのに充分な数の人間の転記者を用いる永続的なオーバーヘッドを有する。
【0004】
従って、本発明の別の目的は、システムに入る音声ファイルを転記するのに必要な人間の転記者数を最小限に抑えるのに適する、音声をテキストへ転記する自動化手段を提供することである。
【0005】
システムの音声認識部分に対するユーザの音響モデルを訓練するため逐語テキスト・ファイルを提供する簡単な手段を提供することが、関連する目的である。
本発明の別の関連する目的は、予め存在する音声認識プログラムを、システムの動作に必要なオペレータ数を更に最小化するように自動化することである。
【0006】
上記及び他の目的については、当業者には、図面、本文及び請求の範囲を参照すれば明らかとなろう。
開示の概要
本文の開示は、1人以上の音声ユーザに対する転記作業を実質的に自動化するためのシステム及び方法に関するものである。特に、当該システムは、2つの音声変換インスタンスを用いて、最小限の人的転記で逐語的な転記テキストの確立を容易にすることを含む。
【0007】
当該システムは、音声口述ファイルを現ユーザから受取るための手段を備える。この音声口述ファイルは、音声口述ファイルを第1の文字テキストへ自動的に変換する第1の手段と、音声口述ファイルを第2の文字テキストへ自動的に変換する第2の手段とへ供給される。この第1の手段は第1の組の変換変数を有し、第2の手段は第2の組の変換変数を有する。これら第1及び第2の組の変換変数は、少なくとも1つの相違点を有する。
【0008】
例えば、第1及び第2の自動音声変換手段がそれぞれ既存の音声認識プログラムを含む場合は、このプログラム自体は相互に異なるものである。種々の音声認識プログラムは、それぞれ独自の異なる音声−テキスト変換手法を備えており、このため異なる音声発声時に異なる変換を生じる結果となり、逐語テキストを確立するのに用いることができる。利用可能な現存する音声変換手段は、Dragon Systemsの「Naturally Speaking」、IBM社の「Via Voice」及びPhlips社の「MagicSpeech」である。
【0009】
別のアプローチにおいては、第1及び第2の組の変換変数はそれぞれ、言語モデル(すなわち、汎用の又は特殊化された言語モデル)を含み得、これも異なる発声に対して異なる変換を生じる結果となるので、逐語テキストを容易に確立することができる。或いはまた、使用されている既存の音声認識プログラムと関連する1つ以上の設定を修正することができる。
【0010】
更に別のアプローチにおいては、音声口述ファイルを自動変換手段の一方又は両方への入力に先立って予め処理することができる。このようにして、変換変数(例えば、ディジタル単語サイズ、サンプリング・レート及び特定の高調波レンジの除去)を音声変換インスタンス間で異ならせることができる。
【0011】
当該システムは更に、音声口述ファイルの逐語テストを生成するように前記の第1及び第2の文字テストのコピーをマニュアル編集する手段を備える。1つのアプローチにおいては、前記第1の文字テキストは音声口述ファイルと少なくとも時間的に同期させられる。この場合、マニュアル編集手段は、前記第1及び第2の文字テキストのコピーを順次比較して、第1の文字テキストから収集された不一致単語の順次リストを生じるための手段を備える。マニュアル編集手段は更に、第1の文字テキストを含む第1の自動変換手段に関連する第1のバッファ内及び前記順次リストに関連する第2のバッファ内で同時に、その時の不一致単語を増分的に検索するための手段を含む。マニュアル編集手段はまた、第2のバッファにおけるその時の不一致単語を訂正する手段を備える。この訂正手段は、第1の文字テキストにおける他のテキストとは実質的に視覚的に分離されるように、その時の不一致単語を表示する手段と、その時の不一致単語に関連する第1のバッファから前記の同期された音声口述録音の一部を再生する手段とを含む。一つの実施の形態では、この編集手段は更に、第1の文字テキストのコピー内のコンテキストにおいて前記のその時の不一致単語を二者択一的に観察する手段を含む。
【0012】
当該システムはまた、音声認識プログラムの精度を向上させるトレーニング手段をも備えている。
本願は、少なくとも1つの音声認識プログラムを含むシステムにおける一人以上の音声ユーザに対する転記作業を自動化する方法をも開示する。この方法は、(1)現音声ユーザから音声口述を受取り、(2)第1の組の変換変数を用いて、音声認識プログラムにより音声口述ファイルから第1の文字テキストを自動的に生成し、(3)第2の組の変換変数を用いて、音声認識プログラムにより音声口述ファイルから第2の文字テキストを自動的に生成し、(4)第1及び第2の文字テキストの比較により逐語ファイルをマニュアルで確立し、(5)現ユーザへ逐語ファイルを戻すことを含む。逐語ファイルを確立することは、(6)第1の文字テキストのコピーを第2の文字テキストと逐次比較して、第1の文字テキストのコピーから収集された不一致単語の順次リストを生じ、該順次リストは初めと、終りと、その時の不一致単語を含み、その時の不一致単語は初めから終わりへ順次進められ、(7)第1の文字テキストを含み且つ少なくとも1つの音声認識プログラムと関連する第1のバッファ内及び順次リストに関連する第2のバッファ内で同時に、その時の不一致単語を増分的に検索し、(8)第1の文字テキストのコピーにおける他のテキストから実質的に視覚的に分離されるように、その時の不一致単語を表示し、その時の不一致単語に関連する第1のバッファから、同期された音声口述録音の一部を再生し、(9)その時の不一致単語を、同期された音声口述録音の一部の逐語的表示であるように訂正することを含む。
【0013】
発明の最善の実施の形態
本発明は多くの異なる形態で具現されるが、本文の開示は発明の原理の例示のみと見なされるべきであり、発明を図示した実施の形態に限定する意図はないとの理解の下で、幾つかの特定の実施形態が図示され本文に記述される。
【0014】
図1は、一人以上の音声ユーザに対する転記作業を実質的に自動化するためのシステムの一つの実施の形態を全体的に示している。当該システムは、現ユーザから音声口述ファイルを受取る手段を備える。この音声口述ファイル受取り手段は、ディジタル・オーディオ・レコーダ、アナログ・オーディオ・レコーダ、又は磁気媒体上で或いはデータ接続を介してコンピュータ・ファイルを受取る標準的手段でよい。
【0015】
図示のように、一つの実施の形態においては、システム100は複数のディジタル録音ステーション10、11、12及び13を含んでいる。各ディジタル録音ステーションは、少なくとも1つのディジタル・オーディオ・レコーダと現ユーザを識別する手段とを備える。
【0016】
これらのディジタル録音ステーションの各々は、汎用コンピュータ(コンピュータ20のような)に実現されることが望ましいが、このような特定の目的のため特殊コンピュータを開発することもできる。しかし、汎用コンピュータは、システム100内で動作することに加え、色々な用途に適合し得るという更なる利点を有する。一般に、汎用コンピュータは、なかんずく、マイクロプロセッサ(インテル社のPENTIUM(登録商標)、CyrixのK6、或いはモトローラ社の68000シリーズ、など)、揮発性及び不揮発性のメモリ、1つ以上の大容量記憶装置(すなわち、HDD(図示せず))、フロッピ・ディスク・ドライブ21、及び、CD−ROMドライブ、DITTO、ZIP又はJAZドライブ(Iomega社製)などの他の取り出し可能な媒体装置22、マウス23、キーボード24或いはマイクロフォン25などの種々のユーザ入力装置、及びビデオ・ディスプレイ・システム26を備えなければならない。一つの実施の形態においては、汎用コンピュータはWINDOWS(登録商標)9.xオペレーティング・システムによって制御される。しかし、当該システムはMACINTOSHコンピュータ或いは更に、幾つかを挙げれば、WINDOWS(登録商標) CE、UNIX(登録商標)或いはJAVA(登録商標)ベースのオペレーティング・システムなどの別のオペレーティング・システムを用いても同様に働くものである。
【0017】
使用される特定のコンピュータ・プラットフォームとは無関係に、アナログ・オーディオ入力(マイクロフォン25を介する)を用いる実施の形態においては、汎用コンピュータは、サウンド・カード(図示せず)を備えなければならない。無論、ディジタル入力を備える実施の形態では、サウンド・カードは不要となる。
【0018】
図1に示される実施の形態では、ディジタル・オーディオ録音ステーション10、11、12、13が、ディジタル・オーディオ録音ソフトウエアを、WINDOWS(登録商標)9.xの下で動作するペンティアム(登録商標)型のコンピュータ・システム上で走らせるようにロードされ且つ構成される。このようなディジタル・オーディオ録音ソフトウエアは、WINDOWS(登録商標)9.xオペレーティング・システムにおける1つのユーティリティとして、或いは米国バージニア州オークトンのThe Programmers’ Consortium社(VOICEDOC)、米国アリゾナ州フェニックスのSyntrilium社(COOL EDIT)、或いはDragon Systems社(Dragon Naturally Speaking Professional Edition)のような色々な第三者のベンダから入手可能である。これらの種々のソフトウエア・プログラムは、「.WAV」ファイルの形態の音声口述ファイルを生成する。しかし、当業者に知られるように、MP3又はDSSなどの他のオーディオ・ファイル・フォーマットもまた、本発明の趣旨から逸脱することなく、音声口述ファイルをフォーマット化するために使用できる。VOICEDOCソフトウエアが用いられる一つの実施の形態では、このソフトウエアもファイル・ハンドルを「.WAV」ファイルへ自動的に割当てるが、標準的なオペレーティング・システムの管理メソッドを用いてオーディオ・ファイルをコンピュータ・システムにセーブすることは当業者に公知である。
【0019】
音声口述ファイルを受取る別の手段は、オリンパス社製の「オリンパス・ディジタル・ボイス・レコーダD−1000」のような専用のディジタル・レコーダ14である。このため、現音声ユーザは、更に在来型の口述装置の方が快適であるならば、専用のディジタル・レコーダ14を使用し続けることができる。ディジタル・オーディオ・テキスト・ファイルを取得するために、録音の終了時に、専用のディジタル・レコーダ14は、汎用コンピュータへディジタル・オーディオ・ファイルをダウンロードするよう、ディジタル・オーディオ録音ステーションの1つ、例えば13に接続される。このような手法により、例えばオーディオ・カードは必要でなくなる。
【0020】
音声口述ファイルを受取るための別の代替策は、予め録音されたオーディオ・ファイルを含む種々の形態の取り出し可能な磁気媒体を使用することからなる。このような代替策により、オペレータは、オーディオ・ファイルをシステムへアップロードするために、取り出し可能な磁気媒体をディジタル・オーディオ録音ステーションの1つへ入力する。
【0021】
場合によっては、オーディオ・ファイルを音声認識ソフトウエアによる処理に受け入れられるものにするよう予め処理することが必要である。例えば、DSSファイル・フォーマットは.WAVファイル・フォーマットへ変更されなければならず、或いは、ディジタル・オーディオ・ファイルのサンプリング・レートがアップロード又はダウンロードされなければならない。例えば、Dragon Naturally Speakingでオリンパス・ディジタル・ボイス・レコーダを使用するには、オリンパス社の8MHzのサンプリング・レートは11MHzへアップされる必要がある。このような予備処理を行うソフトウエアは、Syntrillium社及びオリンパス社を含む種々のソースから入手可能である。
【0022】
ディジタル・オーディオ録音ステーションの他の特質は、現ユーザを識別するための手段である。この識別手段は、ユーザ(或いは別個のオペレータ)が現ユーザの一義的な識別コードを入力することができるキーボード24を含む。無論、ユーザの識別は、数例を挙げれば、ポインティング・デバイス(例えば、マウス23)、タッチ・スクリーン(図示せず)、ライト・ペン(図示せず)、バーコード・リーダ(図示せず)、或いはマイクロフォン25を介するオーディオ・キューなどの多くのコンピュータ入力装置を用いて入力することができる。
【0023】
初めてのユーザの場合は、当該識別手段は、ユーザから(1)名前、(2)住所、(3)職業、(4)音声におけるなまり又はアクセントなどを含む潜在的な識別情報を受取った後に、識別番号を当該ユーザに割当てる。制御手段に関連して述べるように、この入力情報に基いて、音声ユーザのプロフィールと制御手段内のサブディレクトリとが確立される。このように、使用される特定の識別手段とは無関係に、各音声ユーザごとにユーザの識別が確立され、その後、ユーザ識別は、制御手段が適正なルーティングを行い且つシステムが最終的にオーディオ・ファイルを転記するように、使用毎に、対応するディジタル・オーディオ・ファイルが提供されなければならない。
【0024】
本発明の一つの実施の形態においては、当該識別手段は、専門語彙のマニュアルによる選択をシークする。専門語彙の組は、医療(すなわち、放射線学、整形外科手術、婦人科学)及び法律(すなわち、会社法、特許法、訴訟)のような種々のユーザに対しては汎用であり得、或いは、各専門分野内で語彙パラメータが特定の口述ファイルの特定の状況に基いて更に限定され得るように特殊であり得る。例えば、現ユーザが腹部のCATスキャンの読みを口述する放射線学者であるならば、術語は非常に専門的であり、腎臓の超音波学に対する術語とは異なるものである。それぞれの選択可能な語彙の組を狭く区分することによって、自動音声コンバータの精度の向上は可能である。
【0025】
図1に示されるように、ディジタル・オーディオ録音ステーションは、コンピュータ・ネットワーク30の一部としてシステム100へ接続され、或いは、これらステーションはインターネット・ホスト15を介してシステムに接続される。図1bに示されるように、汎用コンピュータを回路網ジャック27と電話ジャックとに接続することができる。インターネット・ホストの使用により、接続は、インターネットを介してオーディオ・ファイルを電子メールすることによって行われる。このような接続を完成する別の方法は、米国カルフォルニァ州クパーチノのSymantec社から入手可能であるPC ANYWHEREのような遠隔制御ソフトウエアを介する直接モデム接続による。ディジタル・オーディオ録音ステーション10又はインターネット・ホスト15のIPアドレスが判るならば、基本ファイル転送プロトコルを用いてオーディオ・ファイルを転送することもできる。このように、前述のことから判るように、当該システムは、音声ユーザがオーディオ入力をシステムへ提供する上で大きな柔軟性を許容する。
【0026】
制御手段200は、音声ユーザのトレーニング状態に基いて音声口述ファイルの流れを制御する。図2a、図2b、図2c、図2dに示されるように、制御手段200は、汎用コンピュータ40で動作するソフトウエア・プログラムを含む。特に、このプログラムはステップ201において初期化され、ここでは、変数が設定され、バッファがクリヤされ、制御手段のこの特定のインストールに対する特定の構成がロードされる。制御手段は、目標のディレクトリ(例えば、図3に示される「現」)を継続的に監視し、新たなファイルが目標ディレクトリへ移動されたかどうかを判定する(ステップ202)。いったん(図3に示される「6723.id」のような)新たなファイルが見出されると、(図1に示す)現ユーザ5が新たなユーザかどうかについて判定が行われる(ステップ203)。
【0027】
(「現」サブディレクトリにおける「.pro」ファイルの存在により示される)新たなユーザ毎に、(図3に示す「usern」サブディレクトリのような)新たなサブディレクトリが確立される(ステップ204)。このサブディレクトリは、オーディオ・ファイル(「xxxx.wav」)、文字テキスト(「xxx.wrt」)、逐語テキスト(「xxxx.vb」)、転記テキスト(「xxxx.txt」)、及び当該特定ユーザに対するユーザ・プロフィール(「usern.pro」)を記憶するのに使用される。特定の各ジョブには一義的な番号「xxxx」が割当てられ、ジョブと関連する全てのファイルは当該番号で連想できる。このようなディレクトリ構造により、ユーザ数は、実際には汎用コンピュータ40内の記憶スペースによってのみ制限される。
【0028】
ユーザ・サブディレクトリが確立されると、ユーザ・プロフィールがこのサブディレクトリへ移動される(ステップ205)。このユーザ・プロフィールの内容はシステム間で変わる。1つの潜在的なユーザ・プロフィールの内容は、ユーザの名前、アドレス、職業及びトレーニング状態を含むものとして図3に示される。必要とされるトレーニング状態変数とは別に、他のデータはオーディオ・ファイルのルーティング及び転記に有効である。
【0029】
1組のファイルをハンドルにより選択した制御手段は、「.id」ファイルをその「user.tbl」と比較することによって、現ユーザの同一性を判定する(ステップ206)。ユーザが判ると、ユーザ・プロフィールがそのユーザのサブディレクトリから構文解析され、現トレーニング状態が判定される(ステップ207)。ステップ208〜211は、登録、トレーニング、自動化及び自動化停止のうちの1つにおける現トレーニング状態の優先順位付けである。
【0030】
登録は、転記作業の第1の段階である。図2bに示されるように、オーディオ・ファイルは転記へ送られる(ステップ301)。特に、「xxxx.wav」ファイルは転記者のステーション50、51へ転送される。望ましい実施の形態においては、両ステーションは汎用コンピュータであり、これがオーディオ・プレヤとマニュアル入力手段を動作させる。オーディオ・プレヤはディジタル・オーディオ・プレヤであり得るが、アナログ・オーディオ・ファイルをステーションへ転送することも可能である。WINDOWS(登録商標)9.xオペレーティング・システムや他の米国バージニア州オークトンのThe Programmers’Consortium社のVOICESCRIBEのような種々のサードパーティにおけるユーティリティを含む種々のオーディオ・プレヤが一般に利用可能である。オーディオ・ファイルの再生に用いられるオーディオ・プレヤとは無関係に、マニュアル入力手段が同時にコンピュータ上で走っている。このようなマニュアル入力手段は、キーボード、マウス或いは他のユーザ・インターフェース装置と組合わせて、テキスト・エディタ又はワードプロセッサ(MS WORD、WordPerfect、AmiPro又はWordPad)のいずれかを含む。本発明の一つの実施の形態において、このマニュアル入力手段自体が、米国マサチューセッツ州ニュートンのDragon Systems社からのNaturally Speaking、米国ニューヨーク州アーモンクのIBM社からのVia Voice、或いは米国ジョージア州アトランタのPhilips社からのSpeech Magicのような音声認識ソフトウエアでもある。人間の転記者6は、現ユーザ5により生成されるオーディオ・ファイルを聴き取り、周知のように、この録音されたテキストの認識された内容をマニュアル入力し、これにより、転記されたファイルを確立する(ステップ302)。人間であるから、人間の転記者6はテキストに経験、教育及び性癖を反映しがちであり、オーディオ・ファイルの逐語的転記を入力しない傾向にある。人間による転記の完成時に、人間の転記者6はこのファイルをセーブし、現ユーザのサブディレクトリに「xxxx.txt」として転送する準備ができていることを表示する(ステップ303)。
【0031】
現ユーザが登録段階のみにある限り、人間のオペレータはオーディオ・ファイルを聴き、これを転記されたファイルとマニュアルで対比して逐語ファイルを作らなければならない(ステップ304)。この逐語ファイル「xxxx.vb」も現ユーザのサブディレクトリへ転送される(ステップ305)。逐語テキストが利用可能になると、制御手段200は自動音声変換手段を始動させる(ステップ306)。この自動音声変換手段は、数例を挙げれば、Dragon SystemsのNaturally Speaking、IBMのVia Voice或いはPhilipsのSpeech Magicのような既存のプログラムであり得る。或いはまた、これは、自動音声認識を特に行うため設計された独自プログラムでもよい。
【0032】
望ましい実施の形態においては、Dragon SystemsのNaturally Speakingが用いられた。これは、実際には制御手段200により制御されてはいてもNaturally Speakingが人間と対話していると見えるように、実行可能プログラムを、WIN32APIにより仮想キーストローク及びマウス操作を供給するNaturally Speakingと同時に走らせることによって行われる。このような手法は、コンピュータ・ソフトウエア・テスト技術では周知であり、従って詳細には記述しない。音声認識プログラムのアプリケーション・フローを観察することにより、対話的なマニュアル・ステップを模倣する実行可能プログラムを生成することができると言えば充分であろう。
【0033】
現ユーザが新たなユーザであれば、音声認識プログラムは新たなユーザを確立する必要がある(ステップ307)。制御手段は、現ユーザのサブディレクトリで見出されたユーザ・プロフィールから、必要な情報を提供する。全ての音声認識は、特定ユーザの音響モデルを確立するのに充分なトレーニングを必要とする。Dragonの場合、最初に、プログラムはユーザがDragon Systemsにより提供される既定のテキストを読むことによって得られる音響について約20分間シークする。Dragonには、「移動トレーニング」を可能にする機能もまた組込まれている。この特徴を用いると、逐語ファイル及びオーディオ・ファイルが音声認識プログラムへ送られ、当該ユーザに対する音響モデルのトレーニングが開始される(ステップ308)。オーディオ・ファイルの長さとは無関係に、制御手段200はファイルの終了時に音声認識プログラムを閉じる(ステップ309)。
【0034】
自動生成されたテキストを使用するには登録ステップが早すぎるので、ユーザのプロフィールに含まれるアドレス情報を用いて、転記されたファイルのコピーが現ユーザへ送られる(ステップ310)。このアドレスは、実際の所番地でも電子メール・アドレスでもよい。この送信後に、プログラムは図2aの主ループへ戻る。
【0035】
特定のユーザに対して数分間のトレーニングが行われた後、このユーザのトレーニング状態は登録からトレーニングへ変更される。この変更に対する境界は主観的であるが、おそらく、経験則はDragonが80%以上の精度で文字テキストを生成するようならば状態の切換えを行うことができるということである。つまり、このようなユーザに対しては、次の転記イベントは制御手段200をトレーニング状態へ入るよう促す。図2cに示されるように、ステップ401〜403は、登録段階におけるステップ301〜303と同じ人的転記ステップである。転記ファイルがいったん確立されると、制御手段200は自動音声変換手段(或いは音声認識プログラム)を始動させて現ユーザを選択する(ステップ404)。オーディオ・ファイルは音声認識プログラムへ送られ、プログラム・バッファ内で文字テキストが確立される(ステップ405)。Dragonの場合、このバッファにはプログラムのインスタンスにおける同じファイル・ハンドルが与えられる。このように、当該バッファは標準的なオペレーティング・システムの指令を用いて容易にコピーされ得、マニュアル編集が開始される(ステップ406)。
【0036】
米国バージニア州オークトンのThe Programmers’ Consortium社からのVOICEWAREシステムを用いる特定の一つの実施の形態においては、ユーザはオーディオをVOICEWAREシステムのVOICEDOCプログラムへ入力し、これにより「.wav」ファイルを生成する。更に、この「.wav」ファイルをVOICEWAREサーバへリリースする前に、ユーザは「転記者」を選択する。この「転記者」は特定の人間の転記者であっても、「コンピュータ化された転記者」であってもよい。ユーザは、「コンピュータ化された転記者」を選択すると、当該転記が局所的と遠隔的とのいずれで扱われるかを選択する。このファイルにはVOICEWAREサーバによりジョブ番号が割当てられ、このサーバはジョブをシステムのVOICESCRIBE部分へ送る。通常、VOICESCRIBEは、ジョブのオーディオ(「.wav」)ファイルを受取って再生するために人間の転記者により用いられる。更に、オーディオ・ファイルは自動音声変換手段により取り込まれる。このVOICEWAREシステムの実施の形態においては、VOICESCRIBEを「自動モード」に置くことにより、新たなジョブ(すなわち、VOICEDOCにより新たに生成されるオーディオ・ファイル)が、VOICEWAREサーバ及び現「.wav」ファイルのジョブ番号により形成されたウインドウ・タイトルを有するVOICESCRIBEウインドウから自動的にダウンロードされる。バックグラウンドで走る実行可能ファイルは、VOICESCRIBEウインドウが開いていることを「確かめ」、WIN32APIを用いてVOICESCRIBEウインドウ・タイトルからジョブ番号を決定する。この実行可能ファイルは自動音声変換手段を起動する。例えば、Dragon SystemsのNaturally Speakingにおいては、既存の「.wav」ファイル上で音声認識を実施するための機能が組込まれている。実行可能プログラムは仮想キーストロークをNaturally Speakingへ供給し、現ジョブのジョブ番号を持つ「現」ディレクトリ(図3参照)から「.wav」ファイルを開く。
【0037】
この実施の形態においては、Naturally Speakingが「.wav」ファイルのコンテキストの自動転記を完了した後、実行可能ファイルは、開いているNaturally Speakingのウインドウにおける全てのテキストを選択してこれをWINDOWS(登録商標)9.xオペレーティング・システムのクリップボードへコピーすることによって動作を再開し、次いで、クリップボード・ユーティリティを用いて、添え字「dmt」を持つ現ジョブ番号を用いてクリップボードをテキスト・ファイルとしてセーブする。次いで、実行可能ファイルはVOICESCRIBEにおける「完了」ボタンを「クリック」し、「dmt」ファイルをVOICEWAREサーバへ戻す。当業者には理解されるように、他のディジタル録音ソフトウエア及び他の自動音声変換手段を用いて前記の手順を行うことができる。更に、WINDOWS(登録商標)クリップボードと似た機能が他のオペレーティング・システムに存在する。また、1つ以上の前記ステップを作動させ又は促すのに人間の介在を必要とすることもあり得る。更に、このような種々のステップを実行する種々のプログラムが(LAN、WAN、インターネット・コネクティビティ、電子メール等を介して)多数の相互接続されたコンピュータ上で走り得るけれども、全ての必要なソフトウエアを1つのコンピュータ上で走らせることもできるものとする。
【0038】
ユーザが直接に自動音声変換手段へ口述し、VOICEWAREサーバがコピーを逆方向にピックアップする別の代替的なアプローチもまた考えられる。このアプローチは以下のとおり働く。実際に音声の録音をすることなく、ユーザはVOICEDOCの「完了」ボタンをクリックし、これにより空の「.wav」ファイルを生成する。それにも拘わらず、この空のファイルに、VOICEWAREサーバによって一義的なジョブ番号が割当てられる。次いで、ユーザ(又は、バックグラウンドで走る実行可能ファイル)は自動音声変換手段を始動させ、このような自動音声変換手段に関して前に用いられた同じ方法で直接にプログラムに口述を行う。口述の完了時に、ユーザが(バックグラウンド実行可能ファイルにより生成される)「リターン」ボタンを押すと、実行可能ファイルは現ジョブ番号をVOICEWAREから(先に述べた方法で)取得するマクロを開始させ、ドキュメントにおける全てのテキストを選択し、これをクリップボードにコピーする。次に、クリップボードは、先に述べたように、ファイル「<jobnumber>.dmt」へセーブされる。次に、実行可能ファイルはVOICESCRIBEにおける「完了」ボタンを(WIN32APIを介して)クリックし、これによって、自動的に転記されたテキスト・ファイルが有効にVOICEWAREサーバへ戻され、VOICEWAREサーバは完了した転記をVOICESCRIBEユーザへ戻す。特に、この種々のステップを実行する種々のプログラムは(LAN、WAN、インターネット・コネクティビティ、電子メールなどを介して)多数の相互接続されたコンピュータ上で走ることができるけれども、全ての必要なソフトウエアを1つのコンピュータ上で走らせることも考えられる。当業者には理解されるように、他のディジタル録音ソフトウエア及び他の自動音声変換手段を用いて上記の手順を行うことができる。更に、WINDOWS(登録商標)クリップボードに似た機能が他のオペレーティング・システムに存在する。上記のステップの1つ以上を作動させ又は促すのに人間の介在を必要とすることもまた可能である。
【0039】
マニュアル編集は容易な作業ではない。人間は誤りを犯しがちである。このため、本発明は、前記のタスクを改善する手段をも含む。図4に示すように、転記されたファイル(「3333.txt」)と文字テキスト(「3333.wrt」)のコピーとは、文字テキストのコピーから収集された不一致単語406bの順次リストの確立のため、単語406b単位で逐次比較される。このリストは、初めと、終りと、その時の不一致単語に対するポインタ406cとを有する。この順次リストの基礎をなすのは、元の不一致単語と、不一致単語の直前及び直後の単語と、不一致単語406bの順次リストにおける各不一致単語のメモリにおける開始場所と、不一致単語の長さとを含む他のオブジェクト・リストである。
【0040】
図5に示すように、リスト406bからのポインタ406cにより指示される不一致単語は、標準的なコンピュータ・モニター500のアクティブ・ウインドウ501において、他のテキストから実質的に視覚的に分離された状態で文字テキストのコピーに表示される。図5に示すように、不一致単語のコンテキストは、該単語が存在する文章内に単語毎に又は句のコンテキストにおいて示されるように、ボタン514、515、516をクリックすることによってオペレータにより選択される。
【0041】
アクティブ・ウインドウ501と関連するのは、文字テキスト・ファイルのコピーを含むバックグラウンド・ウインドウ502である。バックグラウンド・ウインドウ502に示されるように、増分的サーチがその時の不一致単語「CASH」の次の発生を発見した(ポインタ503参照)。これと同時に、音声認識プログラムからのバッファを含むウインドウ505内では、同じ増分的サーチがその時の不一致単語の次の発生を発見した(ポインタ506参照)。人間のユーザは、ポインタ506におけるテキストと同期されたオーディオを再生する「再生」ボタン510をクリックすることによってアクティブ・ウインドウ501が音声認識プログラムからオーディオ再生を作動させるのを見ているだけである。再生ボタンのクリックにより繰返し再生できる音声の断片に基いて、人間のユーザは、キーボードやマウスの操作によってマニュアルで、又は恐らくは音響キューによっても、ウインドウ内で走る別の音声認識プログラムへその時の不一致単語に対する訂正を入力することができる。
【0042】
当例では、分離されたコンテキストの選択がボタン514、515、516により生じたとしても、コンテキストから正しい逐語的な単語を決定することは依然として難しい。従って、文字テキストのコピー内の現ロケーションを示す可視ポインタ503によりバックグラウンド・ウインドウ502をフォアグラウンドへ移動させる切換えウインドウ・ボタン513が設けられる。ユーザは、アクティブ・ウインドウへ戻り、正しい単語「TRASH」を入力することができる。この変更は、バックグラウンド・ウインドウ502に表示された文字テキストのコピーに影響を及ぼすのみである。
【0043】
オペレータが次の不一致単語に対して準備ができたとき、オペレータは前進ボタン511をクリックし、これによりポインタ406cは不一致単語のリスト上を前進し、両ウインドウ502、505における増分的サーチが活性化される。この不一致単語は分離して表示され、オペレータは音声認識プログラムから同期した音声を再生でき、この単語を訂正することもできる。動作の任意の点においてオペレータが前の不一致単語へ戻ることを希望するならば、オペレータは後退ボタン512をクリックし、これによってポインタ406cは再びリスト中の単語へ戻り、後退方向の増分サーチを生じさせる。これは、元の不一致単語を含むオブジェクトの基礎リストを用いることによって達成される。このリストはオブジェクト単位で移動されるが、代わりに、リストの両方向移動を助けるように各アイテムが同じ単語サイズを持つように、各レコードを埋め込むこともできる。この基礎リストにおける不一致単語は読出されるのみであるから、異なる訂正がなされるべきであったか否かをオペレータが決定できるように、元の不一致単語へ戻ることが可能である。
【0044】
最後に、文字テキストのコピーは最終的に訂正されて逐語コピーを生じ、このコピーはユーザのサブディレクトリにセーブされる。また、この逐語ファイルはトレーニングのため音声認識プログラムへ送られる(ステップ407)。新たな(かつ改善された)音響モデルがセーブされ(ステップ408)、音声認識プログラムが閉じられる(ステップ409)。システムはまだトレーニング中であるから、転記されたファイルは登録段階からステップ310におけるようにユーザへ戻される。
【0045】
図4に示されるように、システムは、逐次比較手段の出力から精度率を決定する手段をも含む。特に、文字テキストにおける単語数とリスト406bにおける単語数とをカウントすることにより、文字テキストにおける単語に対する順次リストにおける単語の比を決定することができ、これにより精度率が提供される。前と同じように、ユーザを1つの段階から別の段階へ何時進めるかは選択の問題である。いったん目標に達すると、ユーザのプロフィールが次の段階へ変更される(ステップ211)。
【0046】
1つの潜在的な強化機能又は派生機能は、精度の比率の決定により提供される。一つの実施の形態では、この比率は人間の転記者の技能を評価するために用いることもできる。特に、公知の逐語ファイル又は習熟したユーザを用いると、関連の「.wav」ファイルが人間の転記者に対して再生され、上記の比較は、転記されたテキストと上記プロセスにより生成された逐語ファイルとに対して行われる。このようにして、更なる機能を当該システムによって提供することができる。
【0047】
理解されるように、現在では、音声認識プログラムの製造者は、外国語や言葉使いなどの録音をマニュアルで確立された逐語ファイルと共に用いて、音声モデルをプログラムする。明らかなように、逐語テキストを確立する上記の方法を、このプロセスを大幅に簡素化するこれらの音声ファイルの初期開発において用いることができる。
【0048】
ユーザが自動化段階に到達すると、当該システムの最大の利点を達成することができる。音声認識ソフトウエアが始動され(ステップ600)、現ユーザが選択される(ステップ601)。必要に応じて、特殊化された語彙が選定される(ステップ602)。次いで、現ユーザにより録音されたディジタル・オーディオ・ファイルの自動変換が開始される(ステップ603)。完了すると、ユーザ・プロフィールに含まれる情報に基いて文字ファイルがユーザへ送られ(ステップ604)、プログラムは主ループへ戻される。
【0049】
不都合なことに、音響モデルは一時的に(或いは更に長い間)変更されているので、音声ユーザが或る期間(病気中や歯の治療後など)自動転記を使用できない場合があり得る。このような場合、システム管理者は、トレーニング状態変数を、ステップ301、302、303、305及び310(図2b参照)のみが実行されるステップである自動化停止状態へ設定することができる。
【0050】
図6は、本発明と関連する種々の要素の別の可能な構成を示している。この構成においては、前と同様に、ユーザは転記すべきドキュメントを口述し、先に述べた方法の1つで音声口述ファイル700としてセーブする。この実施の形態では、転記されたファイルを人間の転記者に生成してもらうのではなく、音声口述ファイルが自動的に文字テキストへ少なくとも2回変換される。
【0051】
この2回の自動テキスト変換後に、その結果として生じた第1及び第2の文字テキスト・ファイルが(図4及び図5に関して先に述べたように)マニュアル・コピー編集手段を用いて相互に比較され、人間のオペレータが第2の文字テキスト・ファイルを敏速に且つマニュアルにより訂正するのを容易にする。
【0052】
このようにして、人間の転記者のずっと少ない労力で転記作業を提供することができる。エンド・ユーザへの分配のために充分に正確な文字テキストを取得する秘訣は、1回目の実行と2回目の実行とで音声/テキスト変換を少々異ならせることである。特に、1回目と2回目の変換ステップの間で、システムは下記のうちの1つ以上を変更することができる。
【0053】
(1)音声認識プログラム(例えば、Dragon SystemsのNaturally Speaking、IBMのVia Voice又はPhilips社のMagic Speech)、
(2)特定の音声認識プログラム内の言語モデル(例えば、一般英語に対する専門語彙(例えば、医学、法律))、
(3)特定の音声認識プログラム内の設定(例えば、「最も精確」に対する「速度」)、及び(又は)
(4)ディジタル単語サイズやサンプリング・レートの変更、特定の高調波レンジ除去、その他のあり得る修正によって音声口述ファイルをディジタル信号プロセッサ(米国アリゾナ州フェニックスのSyntrillium社のCool Edit、或いはMotorola社からのプログラムされたDSP56000ICなど)により予め処理することによる音声口述ファイル。
【0054】
1つ以上の上記「変換変数」を変更することにより、2回目の音声/テキスト変換が1回目の音声/テキスト変換から少し異なる文字テキストを生成することができ、また、結果として生じた2つの文字テキストをここに開示した新規なマニュアル編集手段を用いて比較することにより、人間のオペレータは上記の方法で差異を調べ、エンド・ユーザへ分配するための逐語テキストを迅速に生成することができる。このように、他の開示されたアプローチにおけるよりも少ない人間の介在により、完全に自動化された転記が達成できる。
【0055】
このシステム及びその基礎となる方法が図6に示される。2つの自動音声変換手段702、703が示されるが、1つのコンピュータ上で走るけれども音声口述ファイルの変換の反復間で異なる変換変数を用いる音声認識プログラムの単一のインスタンスが存在し得ることに注意すべきである。無論、当業者には周知のように、1つのマシン上で走る、或いは、コンピュータ化されたネットワーク(LAN、WAN、ピアツーピアなど)により相互接続された個別のマシン上で走る音声認識プログラムの複数のインスタンスを持つことも同様に可能である。
【0056】
同様に、マニュアル編集手段705が自動音声変換手段とは別個であるように示されるが、自動的音声変換手段の1つ又は両方のインスタンスと同じコンピュータで実現することもできる。同様に、マニュアル編集手段は、コンピュータ化されたネットワーク上の他のコンピュータと相互接続されたコンピュータ上で実現され得る。
【0057】
最後に、ディジタル信号プロセッサ701が示されているのは、変換変数を変更する1つのアプローチが自動音声変換手段の1つ又は両方のインスタンスに入力される音声口述ファイルを変更することであることを図示するためである。このディジタル信号プロセッサも、上記の機能ブロックの1つ又は全てと同じコンピュータ上で、或いは、他のコンピュータとコンピュータ化ネットワークを介して相互接続された別個のコンピュータ上で実現され得る。
【0058】
音声からテキストへの変換の2回の反復が用いられる上記のケースは、変換変数の種々の組をそれぞれ用い、テキストの比較が文字テキスト出力の一義的な対間で、その後は相互間で行われ、その結果、自動転記の精度を向上させてマニュアル編集において考慮されるべき単語を少なくする、更に多くの回の反復が行われるケースに対して外挿され得る。
【0059】
先の記述及び図面は本発明を単に説明し図示するものであり、本発明はこれに限定されるものではない。本文の開示を参照した当業者は、本発明の範囲から逸脱することなくその修正及び変更を行うことができる。例えば、音声ユーザと転記者と音声認識プログラムとの間でマシンを実質的に時分割することにより、当該システムの要素の全てを1つの汎用コンピュータで実現することが可能である。その結果生じるコストの節減は、当該システムを大きな診療所、病院、法律事務所その他の大きな施設だけでなく更に多くのオフィスの諸状況に対しアクセス可能にする。
【図面の簡単な説明】
【図1】 図1は、一人以上の音声ユーザに対する実質的に自動化された転記作業のための本システムの一つの実施の形態のブロック図である。
図1bは、本システム内部の口述ステーション、転記ステーション及び制御手段として使用される汎用コンピュータのブロック図である。
【図2】 図2aは、本システムの制御手段の主ループのフロー図である。
図2bは、本システムの制御手段の登録段階部分のフロー図である。
図2cは、本システムの制御手段のトレーニング段階部分のフロー図である。
図2dは、本システムの制御手段の自動化段階部分のフロー図である。
【図3】 本システムにおける制御手段により使用されるディレクトリ構造である。
【図4】 マニュアル編集手段の望ましい実施の形態の一部を示すブロック図である。
【図5】 マニュアル編集手段の望ましい実施の形態の残部を示す立面図である。
【図6】 2つの音声変換インスタンス及びコンピュータ補助訂正を用いる自動転記システム及び方法のシステムの構成を示す図である。

Claims (21)

  1. 一人以上の音声ユーザに対する転記作業を実質的に自動化するシステムであって、
    一人以上の前記音声ユーザの一人である現ユーザから音声口述ファイルを受取る手段と、
    第1の組の変換変数を有し、前記音声口述ファイルを第1の文字テキストへ自動的に変換する第1の自動変換手段と、
    第2の変換変数組を有し、前記音声口述ファイルを第2の文字テキストへ自動的に変換する第2の自動変換手段であって、前記の第1及び第2の組の変換変数が少なくとも1つの相違を有する第2の自動変換手段と、
    前記音声口述ファイルの逐語テキストを生成するため前記の第1及び第2の文字テキストのコピーをマニュアル編集する手段と、
    を具備し、
    前記第1の文字テキストが前記音声口述ファイルと少なくとも一時的に同期され、
    前記マニュアル編集手段が、
    前記第1の文字テキストのコピーを前記第2の文字テキストと逐次比較して、前記第1の文字テキストの前記コピーから収集される不一致単語の順次リストであって、初めと終りと前記初めから前記終りへ順次進められるその時の不一致単語とを持つ順次リストを得る手段と、
    前記第1の文字テキストを含む前記第1の自動変換手段に関連する第1のバッファ内と前記順次リストに関連する第2のバッファ内とで同時に、前記その時の不一致単語を増分的に検索する手段と、
    前記その時の不一致単語を、前記第1の文字テキストの前記コピーにおける他のテキストから実質的に視覚的に分離されるように表示する手段と、前記その時の不一致単語に関連する前記第1のバッファから前記の同期された音声口述録音の一部を再生する手段とを備え、前記第2のバッファにおける前記その時の不一致単語を訂正する手段と、
    を備えるシステム。
  2. 前記編集手段が更に、前記第1の文字テキストの前記コピー内のコンテキストにおける前記その時の不一致単語を二者択一的に調べる手段を含む、請求項1記載のシステム。
  3. 前記の第1及び第2の自動音声変換手段がそれぞれ、人間の対話的な使用のため意図された既存の音声認識プログラムを含み、前記の第1及び第2の自動音声変換手段の各々が、前記の既存の音声認識プログラムからの一連の対話的な照会に対する応答を自動化する手段を含む、請求項記載のシステム。
  4. 前記の第1及び第2の組の変換変数間の前記相違が、前記の第1及び第2の自動音声変換手段を含む前記の既存の音声認識プログラムである、請求項載のシステム。
  5. 前記の第1及び第2の組の変換変数間の前記相違が、前記の既存の音声認識プログラムに関連して用いられる言語モデルを含む、請求項記載のシステム。
  6. 汎用の言語モデルが前記第1の組の変換変数において用いられ、特殊な言語モデルが前記第2の組の変換変数において用いられる、請求項5記載のシステム。
  7. 前記の第1及び第2の組の変換変数間の前記相違が、前記の既存の音声認識プログラムに関連する少なくとも1つの設定を含む、請求項記載のシステム。
  8. 前記の第1及び第2の組の変換変数間の前記相違が、前記第1の自動変換手段への入力に先立ちオーディオを事前処理する手段を含む、請求項記載のシステム。
  9. 前記の第1及び第2の組の変換変数間の前記相違が、前記第2の自動変換手段への入力に先立ちオーディオを事前処理する手段を含み、前記した第1及び第2の事前処理の変数が異なる、請求項8記載のシステム。
  10. 前記事前処理の変数が、実質的にディジタル単語サイズ、サンプリング・レート及び特定の高調波レンジの除去からなるグループから選択される、請求項記載のシステム。
  11. 前記の第1及び第2の組の変換変数間の前記相違が、前記の既存の音声認識プログラムとの関連付けに用いられる言語モデルを含む、請求項記載のシステム。
  12. 汎用言語モデルが前記第1の組の変換変数において用いられ、特殊言語モデルが前記第2の組の変換変数において用いられる、請求項11記載のシステム。
  13. 前記の第1及び第2の組の変換変数間の前記相違が、前記第1の自動変換手段への入力に先立ちオーディオを事前処理する手段を含む、請求項1記載のシステム。
  14. 前記の第1及び第2の組の変換変数間の前記相違が、前記第2の自動変換手段への入力に先立ちオーディオを事前処理する手段を含み、前記の第1及び第2の事前処理の変数が異なる、請求項11記載のシステム。
  15. 現ユーザの前記音声口述ファイルに高精度を達成するため前記自動音声変換手段をトレーニングする手段を更に備える、請求項1記載のシステム。
  16. 前記トレーニング手段が、人間の対話的使用のため意図された既存の音声認識プログラムの既存のトレーニング部分を含み、該トレーニング手段が、前記の既存の音声認識プログラムの前記の既存トレーニング部分からの一連の対話的照会に対する応答を自動的化する手段を含む、請求項15記載のシステム。
  17. 少なくとも1つの音声認識プログラムを含むシステムにおいて一人以上の音声ユーザに対する転記作業を自動化する方法であって、
    現音声ユーザから音声口述ファイルを受取るステップと、
    第1の組の変換変数を用いて音声認識プログラムにより前記音声口述ファイルから第1の文字テキストを自動的に生成するステップと、
    第2の組の変換変数を用いて音声認識プログラムにより前記音声口述ファイルから第2の文字テキストを自動的に生成するステップと、
    前記の第1及び第2の文字テキストの比較により逐語ファイルをマニュアルで確立するステップと、
    前記逐語ファイルを前記現ユーザへ戻すステップと、
    を備え、
    逐語ファイルをマニュアルで確立する前記ステップが、
    前記第1の文字テキストのコピーを前記第2の文字テキストと逐次比較し、前記第1の文字テキストのコピーから収集される不一致単語の順次リストを得るステップであって、該順次リストが初めと終りとその時の不一致単語とを有し、前記その時の不一致単語が前記初めから前記終りへ順次進められるステップと、
    前記第1の文字テキストを含む少なくとも1つの音声認識プログラムに関連する第1のバッファ内と前記順次リストに関連する第2のバッファ内とで同時に前記その時の不一致単語を増分的に検索するステップと、
    前記第1の文字テキストのコピーにおける他のテキストから実質的に視覚的に分離されるように前記その時の不一致単語を表示し、前記その時の不一致単語に関連する前記第1のバッファから前記の同期された音声口述録音の一部を再生するステップと、
    前記の同期された音声口述録音の一部の逐語表示であるように前記その時の不一致単語を訂正するステップと、
    を含む方法。
  18. 利用可能な既存の音声認識プログラムから第1の組の変換変数を選択するステップと、
    利用可能な既存の音声認識プログラムから前記第2の組の変換変数を別に選択するステップと、
    を更に含む、請求項17記載の方法
  19. 利用可能な言語モデルから前記第1の組の変換変数を選択するステップと、
    利用可能な言語モデルから前記第2の組の変換変数を別に選択するステップと、
    を更に含む、請求項17記載の方法。
  20. 第1の文字テキストを自動的に生成する前に前記音声口述ファイルを事前処理するステップであって、該事前処理が前記第1の組の変換変数の少なくとも一部を形成するステップを更に含む、請求項17記載の方法。
  21. 第2の文字テキストを自動的に生成する前に前記第1の組の変換変数の事前処理とは異なる方法で前記音声口述ファイルを事前処理するステップであって、該事前処理が前記第2の組の変換変数の少なくとも一部を形成するステップを更に含む、請求項20記載の方法。
JP2000600262A 1999-02-19 2000-02-18 2つの音声変換インスタンス及びコンピュータ補助訂正を用いる自動転記システム及び方法 Expired - Fee Related JP4601177B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12099799P 1999-02-19 1999-02-19
US60/120,997 1999-02-19
PCT/US2000/004210 WO2000049601A1 (en) 1999-02-19 2000-02-18 Automated transcription system and method using two speech converting instances and computer-assisted correction

Publications (2)

Publication Number Publication Date
JP2002542501A JP2002542501A (ja) 2002-12-10
JP4601177B2 true JP4601177B2 (ja) 2010-12-22

Family

ID=22393818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000600262A Expired - Fee Related JP4601177B2 (ja) 1999-02-19 2000-02-18 2つの音声変換インスタンス及びコンピュータ補助訂正を用いる自動転記システム及び方法

Country Status (24)

Country Link
EP (1) EP1183680B1 (ja)
JP (1) JP4601177B2 (ja)
KR (1) KR20010102280A (ja)
CN (1) CN1144176C (ja)
AP (1) AP2001002243A0 (ja)
AT (1) ATE341810T1 (ja)
AU (1) AU3368900A (ja)
BR (1) BR0008346A (ja)
CA (1) CA2363561C (ja)
CZ (1) CZ299508B6 (ja)
DE (1) DE60031113T2 (ja)
EA (1) EA004352B1 (ja)
ES (1) ES2276674T3 (ja)
HK (1) HK1046186B (ja)
IL (2) IL144557A0 (ja)
MX (1) MXPA01008301A (ja)
NO (1) NO20014019L (ja)
NZ (1) NZ513571A (ja)
PL (1) PL349929A1 (ja)
PT (1) PT1183680E (ja)
TR (1) TR200102364T2 (ja)
UA (1) UA73495C2 (ja)
WO (1) WO2000049601A1 (ja)
ZA (1) ZA200106118B (ja)

Families Citing this family (120)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6603835B2 (en) 1997-09-08 2003-08-05 Ultratec, Inc. System for text assisted telephony
US7689416B1 (en) 1999-09-29 2010-03-30 Poirier Darrell A System for transferring personalize matter from one computer to another
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8416925B2 (en) 2005-06-29 2013-04-09 Ultratec, Inc. Device independent text captioned telephone service
KR100834363B1 (ko) * 2003-06-02 2008-06-02 인터내셔널 비지네스 머신즈 코포레이션 음성 응답 시스템, 음성 응답 방법, 음성 서버, 음성 파일 처리 방법 및 기록 매체
EP1719114A2 (en) 2004-02-18 2006-11-08 Philips Intellectual Property & Standards GmbH Method and system for generating training data for an automatic speech recogniser
US8515024B2 (en) 2010-01-13 2013-08-20 Ultratec, Inc. Captioned telephone service
US20060111917A1 (en) * 2004-11-19 2006-05-25 International Business Machines Corporation Method and system for transcribing speech on demand using a trascription portlet
US11258900B2 (en) 2005-06-29 2022-02-22 Ultratec, Inc. Device independent text captioned telephone service
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8457946B2 (en) * 2007-04-26 2013-06-04 Microsoft Corporation Recognition architecture for generating Asian characters
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010129714A2 (en) * 2009-05-05 2010-11-11 NoteVault, Inc. System and method for multilingual transcription service with automated notification services
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102236645B (zh) * 2010-05-06 2016-03-30 上海五和际软件信息有限公司 基于语义逻辑的类自然语言人机对话装置
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
TWI488174B (zh) * 2011-06-03 2015-06-11 Apple Inc 自動地建立文字資料與音訊資料間之映射
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8930189B2 (en) * 2011-10-28 2015-01-06 Microsoft Corporation Distributed user input to text generated by a speech to text transcription service
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US10878721B2 (en) 2014-02-28 2020-12-29 Ultratec, Inc. Semiautomated relay method and apparatus
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
US20180034961A1 (en) 2014-02-28 2018-02-01 Ultratec, Inc. Semiautomated Relay Method and Apparatus
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
CN105827417A (zh) * 2016-05-31 2016-08-03 安徽声讯信息技术有限公司 一种用于会议记录并可随时修改的语音速记装置
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN109949813A (zh) * 2017-12-20 2019-06-28 北京君林科技股份有限公司 一种将语音转换为文字的方法、装置及系统
CN108573707B (zh) * 2017-12-27 2020-11-03 北京金山云网络技术有限公司 一种语音识别结果的处理方法、装置、设备及介质
CN110471659B (zh) * 2019-08-16 2023-07-21 珠海格力电器股份有限公司 多语言实现方法和系统、人机界面组态软件端和设备端
CN113077807B (zh) * 2019-12-17 2023-02-28 北京搜狗科技发展有限公司 一种语音数据的处理方法、装置及电子设备
US11539900B2 (en) 2020-02-21 2022-12-27 Ultratec, Inc. Caption modification and augmentation systems and methods for use by hearing assisted user
CN113808576A (zh) * 2020-06-16 2021-12-17 阿里巴巴集团控股有限公司 语音转换方法、装置及计算机系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4430726A (en) * 1981-06-18 1984-02-07 Bell Telephone Laboratories, Incorporated Dictation/transcription method and arrangement
JPS6191700A (ja) * 1984-10-11 1986-05-09 株式会社日立製作所 音声入力装置
JP2647234B2 (ja) * 1990-06-14 1997-08-27 シャープ株式会社 音声認識装置
IT1256823B (it) * 1992-05-14 1995-12-21 Olivetti & Co Spa Calcolatore portatile con annotazioni verbali.
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
JPH07152787A (ja) * 1994-01-13 1995-06-16 Sony Corp 情報アクセスシステムおよび記録媒体
JP2655086B2 (ja) * 1994-06-21 1997-09-17 日本電気株式会社 電話回線音声入力システム
DE19530663C2 (de) * 1995-08-21 2001-05-03 Inova Gmbh Tech Entwicklungen Höhenversteller für einen Fahrzeugsicherheitsgurt
GB2303955B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5875448A (en) * 1996-10-08 1999-02-23 Boys; Donald R. Data stream editing system including a hand-held voice-editing apparatus having a position-finding enunciator
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US5995936A (en) * 1997-02-04 1999-11-30 Brais; Louis Report generation system and method for capturing prose, audio, and video by voice command and automatically linking sound and image to formatted text locations
GB2323693B (en) * 1997-03-27 2001-09-26 Forum Technology Ltd Speech to text conversion
JPH10282990A (ja) * 1997-04-04 1998-10-23 Sony Corp テキスト入力方法及び装置

Also Published As

Publication number Publication date
JP2002542501A (ja) 2002-12-10
PT1183680E (pt) 2007-01-31
CZ299508B6 (cs) 2008-08-20
AU3368900A (en) 2000-09-04
EP1183680B1 (en) 2006-10-04
EP1183680A1 (en) 2002-03-06
WO2000049601A1 (en) 2000-08-24
EP1183680A4 (en) 2002-04-17
TR200102364T2 (tr) 2002-06-21
UA73495C2 (en) 2005-08-15
CN1144176C (zh) 2004-03-31
MXPA01008301A (es) 2002-06-04
NO20014019L (no) 2001-10-18
CZ20012936A3 (cs) 2002-02-13
ATE341810T1 (de) 2006-10-15
KR20010102280A (ko) 2001-11-15
IL144557A (en) 2006-04-10
CA2363561A1 (en) 2000-08-24
BR0008346A (pt) 2002-01-29
EA200100901A1 (ru) 2001-12-24
DE60031113T2 (de) 2007-05-10
CA2363561C (en) 2009-08-18
ZA200106118B (en) 2003-01-15
DE60031113D1 (de) 2006-11-16
IL144557A0 (en) 2002-05-23
CN1341255A (zh) 2002-03-20
NO20014019D0 (no) 2001-08-17
PL349929A1 (en) 2002-10-21
ES2276674T3 (es) 2007-07-01
EA004352B1 (ru) 2004-04-29
HK1046186B (zh) 2008-05-09
AP2001002243A0 (en) 2001-09-30
NZ513571A (en) 2004-01-30
HK1046186A1 (en) 2002-12-27

Similar Documents

Publication Publication Date Title
JP4601177B2 (ja) 2つの音声変換インスタンス及びコンピュータ補助訂正を用いる自動転記システム及び方法
US6961699B1 (en) Automated transcription system and method using two speech converting instances and computer-assisted correction
CA2351705C (en) System and method for automating transcription services
US7006967B1 (en) System and method for automating transcription services
US6704709B1 (en) System and method for improving the accuracy of a speech recognition program
US6961700B2 (en) Method and apparatus for processing the output of a speech recognition engine
JP4237915B2 (ja) ユーザが文字列の発音を設定することを可能にするためにコンピュータ上で実行される方法
GB2303955A (en) Text processing
ZA200200904B (en) System and method for improving the accuracy of a speech recognition program.
US20110113357A1 (en) Manipulating results of a media archive search
CA2362462A1 (en) System and method for automating transcription services
AU2004233462B2 (en) Automated transcription system and method using two speech converting instances and computer-assisted correction
GB2390930A (en) Foreign language speech recognition
US20050125236A1 (en) Automatic capture of intonation cues in audio segments for speech applications
AU776890B2 (en) System and method for improving the accuracy of a speech recognition program
JP2024027395A (ja) 辞書登録プログラム、辞書登録方法及び情報処理装置
Dahlstrom A system for wizard of oz studies in natural language programming
Masoodian et al. TRAED: Speech audio editing using imperfect transcripts
WO2001093058A1 (en) System and method for comparing text generated in association with a speech recognition program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091215

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100312

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100319

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100414

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100421

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100517

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100830

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100928

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees