JP4601177B2

JP4601177B2 - ２つの音声変換インスタンス及びコンピュータ補助訂正を用いる自動転記システム及び方法

Info

Publication number: JP4601177B2
Application number: JP2000600262A
Authority: JP
Inventors: カーン，ジョナサン; フリン，トーマス・ピー; チン，チャールズ
Original assignee: カスタム・スピーチ・ユーエスエイ・インコーポレーテッド
Priority date: 1999-02-19
Filing date: 2000-02-18
Publication date: 2010-12-22
Anticipated expiration: 2020-02-18
Also published as: JP2002542501A; PT1183680E; CZ299508B6; AU3368900A; EP1183680B1; EP1183680A1; WO2000049601A1; EP1183680A4; TR200102364T2; UA73495C2; CN1144176C; MXPA01008301A; NO20014019L; CZ20012936A3; ATE341810T1; KR20010102280A; IL144557A; CA2363561A1; BR0008346A; EA200100901A1

Description

【０００１】
発明の背景
１．発明の分野
本発明は、コンピュータ音声認識システムに関し、特に種々のエンド・ユーザによる音声口述のテキスト転記を自動化するためのシステム及び方法に関する。
【０００２】
２．背景技術
音声認識プログラムは、当技術において周知である。これらプログラムは音声をテキストへ自動的に変換することにおいて究極的に有効であるが、これらプログラムはそれぞれの著しく多くのシステム・トレーニング時間を費やすことをユーザに要求するゆえ、多くのユーザにこのようなプログラムの使用を躊躇させている。通常、このようなトレーニングは、各ユーザに一連の予め選択された素材をおよそ２０分間読み上げさせることから始まる。次いで、ユーザがプログラムを使用し続ける際に、単語が不適正に転記されると、ユーザはプログラムを止め、プログラムを意図した単語について訓練することが期待され、これにより音響モデルの最終的な精度を向上させる。不都合なことに、大半の専門家（医者、歯医者、獣医、弁護士）及び会社の管理職は、自動化された転記から真に利益を得るのに必要な音響モデルの生成に時間を費やすことを好まない。
【０００３】
従って、本発明の目的は、エンド・ユーザに対する音声認識プログラムの平明なトレーニングを提供するシステムを提供することである。
エンド・ユーザのグループからの転記をルーティングするためのコンピュータを用いるシステムが存在する。しばしば大半のかかるシステムは、病院などの大がかりなマルチユーザ設定において用いられる。これらのシステムにおいては、音声ユーザは、汎用コンピュータその他の録音装置に対して口述し、結果として得たファイルが人間の転記者へ自動的に転送される。人間の転記者はファイルを転記し、次いで該ファイルは元の「著者」へ検査のため戻される。これらのシステムは、全ての口述ファイルを転記するのに充分な数の人間の転記者を用いる永続的なオーバーヘッドを有する。
【０００４】
従って、本発明の別の目的は、システムに入る音声ファイルを転記するのに必要な人間の転記者数を最小限に抑えるのに適する、音声をテキストへ転記する自動化手段を提供することである。
【０００５】
システムの音声認識部分に対するユーザの音響モデルを訓練するため逐語テキスト・ファイルを提供する簡単な手段を提供することが、関連する目的である。
本発明の別の関連する目的は、予め存在する音声認識プログラムを、システムの動作に必要なオペレータ数を更に最小化するように自動化することである。
【０００６】
上記及び他の目的については、当業者には、図面、本文及び請求の範囲を参照すれば明らかとなろう。
開示の概要
本文の開示は、１人以上の音声ユーザに対する転記作業を実質的に自動化するためのシステム及び方法に関するものである。特に、当該システムは、２つの音声変換インスタンスを用いて、最小限の人的転記で逐語的な転記テキストの確立を容易にすることを含む。
【０００７】
当該システムは、音声口述ファイルを現ユーザから受取るための手段を備える。この音声口述ファイルは、音声口述ファイルを第１の文字テキストへ自動的に変換する第１の手段と、音声口述ファイルを第２の文字テキストへ自動的に変換する第２の手段とへ供給される。この第１の手段は第１の組の変換変数を有し、第２の手段は第２の組の変換変数を有する。これら第１及び第２の組の変換変数は、少なくとも１つの相違点を有する。
【０００８】
例えば、第１及び第２の自動音声変換手段がそれぞれ既存の音声認識プログラムを含む場合は、このプログラム自体は相互に異なるものである。種々の音声認識プログラムは、それぞれ独自の異なる音声−テキスト変換手法を備えており、このため異なる音声発声時に異なる変換を生じる結果となり、逐語テキストを確立するのに用いることができる。利用可能な現存する音声変換手段は、ＤｒａｇｏｎＳｙｓｔｅｍｓの「ＮａｔｕｒａｌｌｙＳｐｅａｋｉｎｇ」、ＩＢＭ社の「ＶｉａＶｏｉｃｅ」及びＰｈｌｉｐｓ社の「ＭａｇｉｃＳｐｅｅｃｈ」である。
【０００９】
別のアプローチにおいては、第１及び第２の組の変換変数はそれぞれ、言語モデル（すなわち、汎用の又は特殊化された言語モデル）を含み得、これも異なる発声に対して異なる変換を生じる結果となるので、逐語テキストを容易に確立することができる。或いはまた、使用されている既存の音声認識プログラムと関連する１つ以上の設定を修正することができる。
【００１０】
更に別のアプローチにおいては、音声口述ファイルを自動変換手段の一方又は両方への入力に先立って予め処理することができる。このようにして、変換変数（例えば、ディジタル単語サイズ、サンプリング・レート及び特定の高調波レンジの除去）を音声変換インスタンス間で異ならせることができる。
【００１１】
当該システムは更に、音声口述ファイルの逐語テストを生成するように前記の第１及び第２の文字テストのコピーをマニュアル編集する手段を備える。１つのアプローチにおいては、前記第１の文字テキストは音声口述ファイルと少なくとも時間的に同期させられる。この場合、マニュアル編集手段は、前記第１及び第２の文字テキストのコピーを順次比較して、第１の文字テキストから収集された不一致単語の順次リストを生じるための手段を備える。マニュアル編集手段は更に、第１の文字テキストを含む第１の自動変換手段に関連する第１のバッファ内及び前記順次リストに関連する第２のバッファ内で同時に、その時の不一致単語を増分的に検索するための手段を含む。マニュアル編集手段はまた、第２のバッファにおけるその時の不一致単語を訂正する手段を備える。この訂正手段は、第１の文字テキストにおける他のテキストとは実質的に視覚的に分離されるように、その時の不一致単語を表示する手段と、その時の不一致単語に関連する第１のバッファから前記の同期された音声口述録音の一部を再生する手段とを含む。一つの実施の形態では、この編集手段は更に、第１の文字テキストのコピー内のコンテキストにおいて前記のその時の不一致単語を二者択一的に観察する手段を含む。
【００１２】
当該システムはまた、音声認識プログラムの精度を向上させるトレーニング手段をも備えている。
本願は、少なくとも１つの音声認識プログラムを含むシステムにおける一人以上の音声ユーザに対する転記作業を自動化する方法をも開示する。この方法は、（１）現音声ユーザから音声口述を受取り、（２）第１の組の変換変数を用いて、音声認識プログラムにより音声口述ファイルから第１の文字テキストを自動的に生成し、（３）第２の組の変換変数を用いて、音声認識プログラムにより音声口述ファイルから第２の文字テキストを自動的に生成し、（４）第１及び第２の文字テキストの比較により逐語ファイルをマニュアルで確立し、（５）現ユーザへ逐語ファイルを戻すことを含む。逐語ファイルを確立することは、（６）第１の文字テキストのコピーを第２の文字テキストと逐次比較して、第１の文字テキストのコピーから収集された不一致単語の順次リストを生じ、該順次リストは初めと、終りと、その時の不一致単語を含み、その時の不一致単語は初めから終わりへ順次進められ、（７）第１の文字テキストを含み且つ少なくとも１つの音声認識プログラムと関連する第１のバッファ内及び順次リストに関連する第２のバッファ内で同時に、その時の不一致単語を増分的に検索し、（８）第１の文字テキストのコピーにおける他のテキストから実質的に視覚的に分離されるように、その時の不一致単語を表示し、その時の不一致単語に関連する第１のバッファから、同期された音声口述録音の一部を再生し、（９）その時の不一致単語を、同期された音声口述録音の一部の逐語的表示であるように訂正することを含む。
【００１３】
発明の最善の実施の形態
本発明は多くの異なる形態で具現されるが、本文の開示は発明の原理の例示のみと見なされるべきであり、発明を図示した実施の形態に限定する意図はないとの理解の下で、幾つかの特定の実施形態が図示され本文に記述される。
【００１４】
図１は、一人以上の音声ユーザに対する転記作業を実質的に自動化するためのシステムの一つの実施の形態を全体的に示している。当該システムは、現ユーザから音声口述ファイルを受取る手段を備える。この音声口述ファイル受取り手段は、ディジタル・オーディオ・レコーダ、アナログ・オーディオ・レコーダ、又は磁気媒体上で或いはデータ接続を介してコンピュータ・ファイルを受取る標準的手段でよい。
【００１５】
図示のように、一つの実施の形態においては、システム１００は複数のディジタル録音ステーション１０、１１、１２及び１３を含んでいる。各ディジタル録音ステーションは、少なくとも１つのディジタル・オーディオ・レコーダと現ユーザを識別する手段とを備える。
【００１６】
これらのディジタル録音ステーションの各々は、汎用コンピュータ（コンピュータ２０のような）に実現されることが望ましいが、このような特定の目的のため特殊コンピュータを開発することもできる。しかし、汎用コンピュータは、システム１００内で動作することに加え、色々な用途に適合し得るという更なる利点を有する。一般に、汎用コンピュータは、なかんずく、マイクロプロセッサ（インテル社のＰＥＮＴＩＵＭ（登録商標）、ＣｙｒｉｘのＫ６、或いはモトローラ社の６８０００シリーズ、など）、揮発性及び不揮発性のメモリ、１つ以上の大容量記憶装置（すなわち、ＨＤＤ（図示せず））、フロッピ・ディスク・ドライブ２１、及び、ＣＤ−ＲＯＭドライブ、ＤＩＴＴＯ、ＺＩＰ又はＪＡＺドライブ（Ｉｏｍｅｇａ社製）などの他の取り出し可能な媒体装置２２、マウス２３、キーボード２４或いはマイクロフォン２５などの種々のユーザ入力装置、及びビデオ・ディスプレイ・システム２６を備えなければならない。一つの実施の形態においては、汎用コンピュータはＷＩＮＤＯＷＳ（登録商標）９．ｘオペレーティング・システムによって制御される。しかし、当該システムはＭＡＣＩＮＴＯＳＨコンピュータ或いは更に、幾つかを挙げれば、ＷＩＮＤＯＷＳ（登録商標）ＣＥ、ＵＮＩＸ（登録商標）或いはＪＡＶＡ（登録商標）ベースのオペレーティング・システムなどの別のオペレーティング・システムを用いても同様に働くものである。
【００１７】
使用される特定のコンピュータ・プラットフォームとは無関係に、アナログ・オーディオ入力（マイクロフォン２５を介する）を用いる実施の形態においては、汎用コンピュータは、サウンド・カード（図示せず）を備えなければならない。無論、ディジタル入力を備える実施の形態では、サウンド・カードは不要となる。
【００１８】
図１に示される実施の形態では、ディジタル・オーディオ録音ステーション１０、１１、１２、１３が、ディジタル・オーディオ録音ソフトウエアを、ＷＩＮＤＯＷＳ（登録商標）９．ｘの下で動作するペンティアム（登録商標）型のコンピュータ・システム上で走らせるようにロードされ且つ構成される。このようなディジタル・オーディオ録音ソフトウエアは、ＷＩＮＤＯＷＳ（登録商標）９．ｘオペレーティング・システムにおける１つのユーティリティとして、或いは米国バージニア州オークトンのＴｈｅＰｒｏｇｒａｍｍｅｒｓ’ Ｃｏｎｓｏｒｔｉｕｍ社（ＶＯＩＣＥＤＯＣ）、米国アリゾナ州フェニックスのＳｙｎｔｒｉｌｉｕｍ社（ＣＯＯＬＥＤＩＴ）、或いはＤｒａｇｏｎＳｙｓｔｅｍｓ社（ＤｒａｇｏｎＮａｔｕｒａｌｌｙＳｐｅａｋｉｎｇＰｒｏｆｅｓｓｉｏｎａｌＥｄｉｔｉｏｎ）のような色々な第三者のベンダから入手可能である。これらの種々のソフトウエア・プログラムは、「．ＷＡＶ」ファイルの形態の音声口述ファイルを生成する。しかし、当業者に知られるように、ＭＰ３又はＤＳＳなどの他のオーディオ・ファイル・フォーマットもまた、本発明の趣旨から逸脱することなく、音声口述ファイルをフォーマット化するために使用できる。ＶＯＩＣＥＤＯＣソフトウエアが用いられる一つの実施の形態では、このソフトウエアもファイル・ハンドルを「．ＷＡＶ」ファイルへ自動的に割当てるが、標準的なオペレーティング・システムの管理メソッドを用いてオーディオ・ファイルをコンピュータ・システムにセーブすることは当業者に公知である。
【００１９】
音声口述ファイルを受取る別の手段は、オリンパス社製の「オリンパス・ディジタル・ボイス・レコーダＤ−１０００」のような専用のディジタル・レコーダ１４である。このため、現音声ユーザは、更に在来型の口述装置の方が快適であるならば、専用のディジタル・レコーダ１４を使用し続けることができる。ディジタル・オーディオ・テキスト・ファイルを取得するために、録音の終了時に、専用のディジタル・レコーダ１４は、汎用コンピュータへディジタル・オーディオ・ファイルをダウンロードするよう、ディジタル・オーディオ録音ステーションの１つ、例えば１３に接続される。このような手法により、例えばオーディオ・カードは必要でなくなる。
【００２０】
音声口述ファイルを受取るための別の代替策は、予め録音されたオーディオ・ファイルを含む種々の形態の取り出し可能な磁気媒体を使用することからなる。このような代替策により、オペレータは、オーディオ・ファイルをシステムへアップロードするために、取り出し可能な磁気媒体をディジタル・オーディオ録音ステーションの１つへ入力する。
【００２１】
場合によっては、オーディオ・ファイルを音声認識ソフトウエアによる処理に受け入れられるものにするよう予め処理することが必要である。例えば、ＤＳＳファイル・フォーマットは．ＷＡＶファイル・フォーマットへ変更されなければならず、或いは、ディジタル・オーディオ・ファイルのサンプリング・レートがアップロード又はダウンロードされなければならない。例えば、ＤｒａｇｏｎＮａｔｕｒａｌｌｙＳｐｅａｋｉｎｇでオリンパス・ディジタル・ボイス・レコーダを使用するには、オリンパス社の８ＭＨzのサンプリング・レートは１１ＭＨzへアップされる必要がある。このような予備処理を行うソフトウエアは、Ｓｙｎｔｒｉｌｌｉｕｍ社及びオリンパス社を含む種々のソースから入手可能である。
【００２２】
ディジタル・オーディオ録音ステーションの他の特質は、現ユーザを識別するための手段である。この識別手段は、ユーザ（或いは別個のオペレータ）が現ユーザの一義的な識別コードを入力することができるキーボード２４を含む。無論、ユーザの識別は、数例を挙げれば、ポインティング・デバイス（例えば、マウス２３）、タッチ・スクリーン（図示せず）、ライト・ペン（図示せず）、バーコード・リーダ（図示せず）、或いはマイクロフォン２５を介するオーディオ・キューなどの多くのコンピュータ入力装置を用いて入力することができる。
【００２３】
初めてのユーザの場合は、当該識別手段は、ユーザから（１）名前、（２）住所、（３）職業、（４）音声におけるなまり又はアクセントなどを含む潜在的な識別情報を受取った後に、識別番号を当該ユーザに割当てる。制御手段に関連して述べるように、この入力情報に基いて、音声ユーザのプロフィールと制御手段内のサブディレクトリとが確立される。このように、使用される特定の識別手段とは無関係に、各音声ユーザごとにユーザの識別が確立され、その後、ユーザ識別は、制御手段が適正なルーティングを行い且つシステムが最終的にオーディオ・ファイルを転記するように、使用毎に、対応するディジタル・オーディオ・ファイルが提供されなければならない。
【００２４】
本発明の一つの実施の形態においては、当該識別手段は、専門語彙のマニュアルによる選択をシークする。専門語彙の組は、医療（すなわち、放射線学、整形外科手術、婦人科学）及び法律（すなわち、会社法、特許法、訴訟）のような種々のユーザに対しては汎用であり得、或いは、各専門分野内で語彙パラメータが特定の口述ファイルの特定の状況に基いて更に限定され得るように特殊であり得る。例えば、現ユーザが腹部のＣＡＴスキャンの読みを口述する放射線学者であるならば、術語は非常に専門的であり、腎臓の超音波学に対する術語とは異なるものである。それぞれの選択可能な語彙の組を狭く区分することによって、自動音声コンバータの精度の向上は可能である。
【００２５】
図１に示されるように、ディジタル・オーディオ録音ステーションは、コンピュータ・ネットワーク３０の一部としてシステム１００へ接続され、或いは、これらステーションはインターネット・ホスト１５を介してシステムに接続される。図１ｂに示されるように、汎用コンピュータを回路網ジャック２７と電話ジャックとに接続することができる。インターネット・ホストの使用により、接続は、インターネットを介してオーディオ・ファイルを電子メールすることによって行われる。このような接続を完成する別の方法は、米国カルフォルニァ州クパーチノのＳｙｍａｎｔｅｃ社から入手可能であるＰＣＡＮＹＷＨＥＲＥのような遠隔制御ソフトウエアを介する直接モデム接続による。ディジタル・オーディオ録音ステーション１０又はインターネット・ホスト１５のＩＰアドレスが判るならば、基本ファイル転送プロトコルを用いてオーディオ・ファイルを転送することもできる。このように、前述のことから判るように、当該システムは、音声ユーザがオーディオ入力をシステムへ提供する上で大きな柔軟性を許容する。
【００２６】
制御手段２００は、音声ユーザのトレーニング状態に基いて音声口述ファイルの流れを制御する。図２ａ、図２ｂ、図２ｃ、図２ｄに示されるように、制御手段２００は、汎用コンピュータ４０で動作するソフトウエア・プログラムを含む。特に、このプログラムはステップ２０１において初期化され、ここでは、変数が設定され、バッファがクリヤされ、制御手段のこの特定のインストールに対する特定の構成がロードされる。制御手段は、目標のディレクトリ（例えば、図３に示される「現」）を継続的に監視し、新たなファイルが目標ディレクトリへ移動されたかどうかを判定する（ステップ２０２）。いったん（図３に示される「６７２３．ｉｄ」のような）新たなファイルが見出されると、（図１に示す）現ユーザ５が新たなユーザかどうかについて判定が行われる（ステップ２０３）。
【００２７】
（「現」サブディレクトリにおける「．ｐｒｏ」ファイルの存在により示される）新たなユーザ毎に、（図３に示す「ｕｓｅｒｎ」サブディレクトリのような）新たなサブディレクトリが確立される（ステップ２０４）。このサブディレクトリは、オーディオ・ファイル（「ｘｘｘｘ．ｗａｖ」）、文字テキスト（「ｘｘｘ．ｗｒｔ」）、逐語テキスト（「ｘｘｘｘ．ｖｂ」）、転記テキスト（「ｘｘｘｘ．ｔｘｔ」）、及び当該特定ユーザに対するユーザ・プロフィール（「ｕｓｅｒｎ．ｐｒｏ」）を記憶するのに使用される。特定の各ジョブには一義的な番号「ｘｘｘｘ」が割当てられ、ジョブと関連する全てのファイルは当該番号で連想できる。このようなディレクトリ構造により、ユーザ数は、実際には汎用コンピュータ４０内の記憶スペースによってのみ制限される。
【００２８】
ユーザ・サブディレクトリが確立されると、ユーザ・プロフィールがこのサブディレクトリへ移動される（ステップ２０５）。このユーザ・プロフィールの内容はシステム間で変わる。１つの潜在的なユーザ・プロフィールの内容は、ユーザの名前、アドレス、職業及びトレーニング状態を含むものとして図３に示される。必要とされるトレーニング状態変数とは別に、他のデータはオーディオ・ファイルのルーティング及び転記に有効である。
【００２９】
１組のファイルをハンドルにより選択した制御手段は、「．ｉｄ」ファイルをその「ｕｓｅｒ．ｔｂｌ」と比較することによって、現ユーザの同一性を判定する（ステップ２０６）。ユーザが判ると、ユーザ・プロフィールがそのユーザのサブディレクトリから構文解析され、現トレーニング状態が判定される（ステップ２０７）。ステップ２０８〜２１１は、登録、トレーニング、自動化及び自動化停止のうちの１つにおける現トレーニング状態の優先順位付けである。
【００３０】
登録は、転記作業の第１の段階である。図２ｂに示されるように、オーディオ・ファイルは転記へ送られる（ステップ３０１）。特に、「ｘｘｘｘ．ｗａｖ」ファイルは転記者のステーション５０、５１へ転送される。望ましい実施の形態においては、両ステーションは汎用コンピュータであり、これがオーディオ・プレヤとマニュアル入力手段を動作させる。オーディオ・プレヤはディジタル・オーディオ・プレヤであり得るが、アナログ・オーディオ・ファイルをステーションへ転送することも可能である。ＷＩＮＤＯＷＳ（登録商標）９．ｘオペレーティング・システムや他の米国バージニア州オークトンのＴｈｅＰｒｏｇｒａｍｍｅｒｓ’Ｃｏｎｓｏｒｔｉｕｍ社のＶＯＩＣＥＳＣＲＩＢＥのような種々のサードパーティにおけるユーティリティを含む種々のオーディオ・プレヤが一般に利用可能である。オーディオ・ファイルの再生に用いられるオーディオ・プレヤとは無関係に、マニュアル入力手段が同時にコンピュータ上で走っている。このようなマニュアル入力手段は、キーボード、マウス或いは他のユーザ・インターフェース装置と組合わせて、テキスト・エディタ又はワードプロセッサ（ＭＳＷＯＲＤ、ＷｏｒｄＰｅｒｆｅｃｔ、ＡｍｉＰｒｏ又はＷｏｒｄＰａｄ）のいずれかを含む。本発明の一つの実施の形態において、このマニュアル入力手段自体が、米国マサチューセッツ州ニュートンのＤｒａｇｏｎＳｙｓｔｅｍｓ社からのＮａｔｕｒａｌｌｙＳｐｅａｋｉｎｇ、米国ニューヨーク州アーモンクのＩＢＭ社からのＶｉａＶｏｉｃｅ、或いは米国ジョージア州アトランタのＰｈｉｌｉｐｓ社からのＳｐｅｅｃｈＭａｇｉｃのような音声認識ソフトウエアでもある。人間の転記者６は、現ユーザ５により生成されるオーディオ・ファイルを聴き取り、周知のように、この録音されたテキストの認識された内容をマニュアル入力し、これにより、転記されたファイルを確立する（ステップ３０２）。人間であるから、人間の転記者６はテキストに経験、教育及び性癖を反映しがちであり、オーディオ・ファイルの逐語的転記を入力しない傾向にある。人間による転記の完成時に、人間の転記者６はこのファイルをセーブし、現ユーザのサブディレクトリに「ｘｘｘｘ．ｔｘｔ」として転送する準備ができていることを表示する（ステップ３０３）。
【００３１】
現ユーザが登録段階のみにある限り、人間のオペレータはオーディオ・ファイルを聴き、これを転記されたファイルとマニュアルで対比して逐語ファイルを作らなければならない（ステップ３０４）。この逐語ファイル「ｘｘｘｘ．ｖｂ」も現ユーザのサブディレクトリへ転送される（ステップ３０５）。逐語テキストが利用可能になると、制御手段２００は自動音声変換手段を始動させる（ステップ３０６）。この自動音声変換手段は、数例を挙げれば、ＤｒａｇｏｎＳｙｓｔｅｍｓのＮａｔｕｒａｌｌｙＳｐｅａｋｉｎｇ、ＩＢＭのＶｉａＶｏｉｃｅ或いはＰｈｉｌｉｐｓのＳｐｅｅｃｈＭａｇｉｃのような既存のプログラムであり得る。或いはまた、これは、自動音声認識を特に行うため設計された独自プログラムでもよい。
【００３２】
望ましい実施の形態においては、ＤｒａｇｏｎＳｙｓｔｅｍｓのＮａｔｕｒａｌｌｙＳｐｅａｋｉｎｇが用いられた。これは、実際には制御手段２００により制御されてはいてもＮａｔｕｒａｌｌｙＳｐｅａｋｉｎｇが人間と対話していると見えるように、実行可能プログラムを、ＷＩＮ３２ＡＰＩにより仮想キーストローク及びマウス操作を供給するＮａｔｕｒａｌｌｙＳｐｅａｋｉｎｇと同時に走らせることによって行われる。このような手法は、コンピュータ・ソフトウエア・テスト技術では周知であり、従って詳細には記述しない。音声認識プログラムのアプリケーション・フローを観察することにより、対話的なマニュアル・ステップを模倣する実行可能プログラムを生成することができると言えば充分であろう。
【００３３】
現ユーザが新たなユーザであれば、音声認識プログラムは新たなユーザを確立する必要がある（ステップ３０７）。制御手段は、現ユーザのサブディレクトリで見出されたユーザ・プロフィールから、必要な情報を提供する。全ての音声認識は、特定ユーザの音響モデルを確立するのに充分なトレーニングを必要とする。Ｄｒａｇｏｎの場合、最初に、プログラムはユーザがＤｒａｇｏｎＳｙｓｔｅｍｓにより提供される既定のテキストを読むことによって得られる音響について約２０分間シークする。Ｄｒａｇｏｎには、「移動トレーニング」を可能にする機能もまた組込まれている。この特徴を用いると、逐語ファイル及びオーディオ・ファイルが音声認識プログラムへ送られ、当該ユーザに対する音響モデルのトレーニングが開始される（ステップ３０８）。オーディオ・ファイルの長さとは無関係に、制御手段２００はファイルの終了時に音声認識プログラムを閉じる（ステップ３０９）。
【００３４】
自動生成されたテキストを使用するには登録ステップが早すぎるので、ユーザのプロフィールに含まれるアドレス情報を用いて、転記されたファイルのコピーが現ユーザへ送られる（ステップ３１０）。このアドレスは、実際の所番地でも電子メール・アドレスでもよい。この送信後に、プログラムは図２ａの主ループへ戻る。
【００３５】
特定のユーザに対して数分間のトレーニングが行われた後、このユーザのトレーニング状態は登録からトレーニングへ変更される。この変更に対する境界は主観的であるが、おそらく、経験則はＤｒａｇｏｎが８０％以上の精度で文字テキストを生成するようならば状態の切換えを行うことができるということである。つまり、このようなユーザに対しては、次の転記イベントは制御手段２００をトレーニング状態へ入るよう促す。図２ｃに示されるように、ステップ４０１〜４０３は、登録段階におけるステップ３０１〜３０３と同じ人的転記ステップである。転記ファイルがいったん確立されると、制御手段２００は自動音声変換手段（或いは音声認識プログラム）を始動させて現ユーザを選択する（ステップ４０４）。オーディオ・ファイルは音声認識プログラムへ送られ、プログラム・バッファ内で文字テキストが確立される（ステップ４０５）。Ｄｒａｇｏｎの場合、このバッファにはプログラムのインスタンスにおける同じファイル・ハンドルが与えられる。このように、当該バッファは標準的なオペレーティング・システムの指令を用いて容易にコピーされ得、マニュアル編集が開始される（ステップ４０６）。
【００３６】
米国バージニア州オークトンのＴｈｅＰｒｏｇｒａｍｍｅｒｓ’ Ｃｏｎｓｏｒｔｉｕｍ社からのＶＯＩＣＥＷＡＲＥシステムを用いる特定の一つの実施の形態においては、ユーザはオーディオをＶＯＩＣＥＷＡＲＥシステムのＶＯＩＣＥＤＯＣプログラムへ入力し、これにより「．ｗａｖ」ファイルを生成する。更に、この「．ｗａｖ」ファイルをＶＯＩＣＥＷＡＲＥサーバへリリースする前に、ユーザは「転記者」を選択する。この「転記者」は特定の人間の転記者であっても、「コンピュータ化された転記者」であってもよい。ユーザは、「コンピュータ化された転記者」を選択すると、当該転記が局所的と遠隔的とのいずれで扱われるかを選択する。このファイルにはＶＯＩＣＥＷＡＲＥサーバによりジョブ番号が割当てられ、このサーバはジョブをシステムのＶＯＩＣＥＳＣＲＩＢＥ部分へ送る。通常、ＶＯＩＣＥＳＣＲＩＢＥは、ジョブのオーディオ（「．ｗａｖ」）ファイルを受取って再生するために人間の転記者により用いられる。更に、オーディオ・ファイルは自動音声変換手段により取り込まれる。このＶＯＩＣＥＷＡＲＥシステムの実施の形態においては、ＶＯＩＣＥＳＣＲＩＢＥを「自動モード」に置くことにより、新たなジョブ（すなわち、ＶＯＩＣＥＤＯＣにより新たに生成されるオーディオ・ファイル）が、ＶＯＩＣＥＷＡＲＥサーバ及び現「．ｗａｖ」ファイルのジョブ番号により形成されたウインドウ・タイトルを有するＶＯＩＣＥＳＣＲＩＢＥウインドウから自動的にダウンロードされる。バックグラウンドで走る実行可能ファイルは、ＶＯＩＣＥＳＣＲＩＢＥウインドウが開いていることを「確かめ」、ＷＩＮ３２ＡＰＩを用いてＶＯＩＣＥＳＣＲＩＢＥウインドウ・タイトルからジョブ番号を決定する。この実行可能ファイルは自動音声変換手段を起動する。例えば、ＤｒａｇｏｎＳｙｓｔｅｍｓのＮａｔｕｒａｌｌｙＳｐｅａｋｉｎｇにおいては、既存の「．ｗａｖ」ファイル上で音声認識を実施するための機能が組込まれている。実行可能プログラムは仮想キーストロークをＮａｔｕｒａｌｌｙＳｐｅａｋｉｎｇへ供給し、現ジョブのジョブ番号を持つ「現」ディレクトリ（図３参照）から「．ｗａｖ」ファイルを開く。
【００３７】
この実施の形態においては、ＮａｔｕｒａｌｌｙＳｐｅａｋｉｎｇが「．ｗａｖ」ファイルのコンテキストの自動転記を完了した後、実行可能ファイルは、開いているＮａｔｕｒａｌｌｙＳｐｅａｋｉｎｇのウインドウにおける全てのテキストを選択してこれをＷＩＮＤＯＷＳ（登録商標）９．ｘオペレーティング・システムのクリップボードへコピーすることによって動作を再開し、次いで、クリップボード・ユーティリティを用いて、添え字「ｄｍｔ」を持つ現ジョブ番号を用いてクリップボードをテキスト・ファイルとしてセーブする。次いで、実行可能ファイルはＶＯＩＣＥＳＣＲＩＢＥにおける「完了」ボタンを「クリック」し、「ｄｍｔ」ファイルをＶＯＩＣＥＷＡＲＥサーバへ戻す。当業者には理解されるように、他のディジタル録音ソフトウエア及び他の自動音声変換手段を用いて前記の手順を行うことができる。更に、ＷＩＮＤＯＷＳ（登録商標）クリップボードと似た機能が他のオペレーティング・システムに存在する。また、１つ以上の前記ステップを作動させ又は促すのに人間の介在を必要とすることもあり得る。更に、このような種々のステップを実行する種々のプログラムが（ＬＡＮ、ＷＡＮ、インターネット・コネクティビティ、電子メール等を介して）多数の相互接続されたコンピュータ上で走り得るけれども、全ての必要なソフトウエアを１つのコンピュータ上で走らせることもできるものとする。
【００３８】
ユーザが直接に自動音声変換手段へ口述し、ＶＯＩＣＥＷＡＲＥサーバがコピーを逆方向にピックアップする別の代替的なアプローチもまた考えられる。このアプローチは以下のとおり働く。実際に音声の録音をすることなく、ユーザはＶＯＩＣＥＤＯＣの「完了」ボタンをクリックし、これにより空の「．ｗａｖ」ファイルを生成する。それにも拘わらず、この空のファイルに、ＶＯＩＣＥＷＡＲＥサーバによって一義的なジョブ番号が割当てられる。次いで、ユーザ（又は、バックグラウンドで走る実行可能ファイル）は自動音声変換手段を始動させ、このような自動音声変換手段に関して前に用いられた同じ方法で直接にプログラムに口述を行う。口述の完了時に、ユーザが（バックグラウンド実行可能ファイルにより生成される）「リターン」ボタンを押すと、実行可能ファイルは現ジョブ番号をＶＯＩＣＥＷＡＲＥから（先に述べた方法で）取得するマクロを開始させ、ドキュメントにおける全てのテキストを選択し、これをクリップボードにコピーする。次に、クリップボードは、先に述べたように、ファイル「＜ｊｏｂｎｕｍｂｅｒ＞．ｄｍｔ」へセーブされる。次に、実行可能ファイルはＶＯＩＣＥＳＣＲＩＢＥにおける「完了」ボタンを（ＷＩＮ３２ＡＰＩを介して）クリックし、これによって、自動的に転記されたテキスト・ファイルが有効にＶＯＩＣＥＷＡＲＥサーバへ戻され、ＶＯＩＣＥＷＡＲＥサーバは完了した転記をＶＯＩＣＥＳＣＲＩＢＥユーザへ戻す。特に、この種々のステップを実行する種々のプログラムは（ＬＡＮ、ＷＡＮ、インターネット・コネクティビティ、電子メールなどを介して）多数の相互接続されたコンピュータ上で走ることができるけれども、全ての必要なソフトウエアを１つのコンピュータ上で走らせることも考えられる。当業者には理解されるように、他のディジタル録音ソフトウエア及び他の自動音声変換手段を用いて上記の手順を行うことができる。更に、ＷＩＮＤＯＷＳ（登録商標）クリップボードに似た機能が他のオペレーティング・システムに存在する。上記のステップの１つ以上を作動させ又は促すのに人間の介在を必要とすることもまた可能である。
【００３９】
マニュアル編集は容易な作業ではない。人間は誤りを犯しがちである。このため、本発明は、前記のタスクを改善する手段をも含む。図４に示すように、転記されたファイル（「３３３３．ｔｘｔ」）と文字テキスト（「３３３３．ｗｒｔ」）のコピーとは、文字テキストのコピーから収集された不一致単語４０６ｂの順次リストの確立のため、単語４０６ｂ単位で逐次比較される。このリストは、初めと、終りと、その時の不一致単語に対するポインタ４０６ｃとを有する。この順次リストの基礎をなすのは、元の不一致単語と、不一致単語の直前及び直後の単語と、不一致単語４０６ｂの順次リストにおける各不一致単語のメモリにおける開始場所と、不一致単語の長さとを含む他のオブジェクト・リストである。
【００４０】
図５に示すように、リスト４０６ｂからのポインタ４０６ｃにより指示される不一致単語は、標準的なコンピュータ・モニター５００のアクティブ・ウインドウ５０１において、他のテキストから実質的に視覚的に分離された状態で文字テキストのコピーに表示される。図５に示すように、不一致単語のコンテキストは、該単語が存在する文章内に単語毎に又は句のコンテキストにおいて示されるように、ボタン５１４、５１５、５１６をクリックすることによってオペレータにより選択される。
【００４１】
アクティブ・ウインドウ５０１と関連するのは、文字テキスト・ファイルのコピーを含むバックグラウンド・ウインドウ５０２である。バックグラウンド・ウインドウ５０２に示されるように、増分的サーチがその時の不一致単語「ＣＡＳＨ」の次の発生を発見した（ポインタ５０３参照）。これと同時に、音声認識プログラムからのバッファを含むウインドウ５０５内では、同じ増分的サーチがその時の不一致単語の次の発生を発見した（ポインタ５０６参照）。人間のユーザは、ポインタ５０６におけるテキストと同期されたオーディオを再生する「再生」ボタン５１０をクリックすることによってアクティブ・ウインドウ５０１が音声認識プログラムからオーディオ再生を作動させるのを見ているだけである。再生ボタンのクリックにより繰返し再生できる音声の断片に基いて、人間のユーザは、キーボードやマウスの操作によってマニュアルで、又は恐らくは音響キューによっても、ウインドウ内で走る別の音声認識プログラムへその時の不一致単語に対する訂正を入力することができる。
【００４２】
当例では、分離されたコンテキストの選択がボタン５１４、５１５、５１６により生じたとしても、コンテキストから正しい逐語的な単語を決定することは依然として難しい。従って、文字テキストのコピー内の現ロケーションを示す可視ポインタ５０３によりバックグラウンド・ウインドウ５０２をフォアグラウンドへ移動させる切換えウインドウ・ボタン５１３が設けられる。ユーザは、アクティブ・ウインドウへ戻り、正しい単語「ＴＲＡＳＨ」を入力することができる。この変更は、バックグラウンド・ウインドウ５０２に表示された文字テキストのコピーに影響を及ぼすのみである。
【００４３】
オペレータが次の不一致単語に対して準備ができたとき、オペレータは前進ボタン５１１をクリックし、これによりポインタ４０６ｃは不一致単語のリスト上を前進し、両ウインドウ５０２、５０５における増分的サーチが活性化される。この不一致単語は分離して表示され、オペレータは音声認識プログラムから同期した音声を再生でき、この単語を訂正することもできる。動作の任意の点においてオペレータが前の不一致単語へ戻ることを希望するならば、オペレータは後退ボタン５１２をクリックし、これによってポインタ４０６ｃは再びリスト中の単語へ戻り、後退方向の増分サーチを生じさせる。これは、元の不一致単語を含むオブジェクトの基礎リストを用いることによって達成される。このリストはオブジェクト単位で移動されるが、代わりに、リストの両方向移動を助けるように各アイテムが同じ単語サイズを持つように、各レコードを埋め込むこともできる。この基礎リストにおける不一致単語は読出されるのみであるから、異なる訂正がなされるべきであったか否かをオペレータが決定できるように、元の不一致単語へ戻ることが可能である。
【００４４】
最後に、文字テキストのコピーは最終的に訂正されて逐語コピーを生じ、このコピーはユーザのサブディレクトリにセーブされる。また、この逐語ファイルはトレーニングのため音声認識プログラムへ送られる（ステップ４０７）。新たな（かつ改善された）音響モデルがセーブされ（ステップ４０８）、音声認識プログラムが閉じられる（ステップ４０９）。システムはまだトレーニング中であるから、転記されたファイルは登録段階からステップ３１０におけるようにユーザへ戻される。
【００４５】
図４に示されるように、システムは、逐次比較手段の出力から精度率を決定する手段をも含む。特に、文字テキストにおける単語数とリスト４０６ｂにおける単語数とをカウントすることにより、文字テキストにおける単語に対する順次リストにおける単語の比を決定することができ、これにより精度率が提供される。前と同じように、ユーザを１つの段階から別の段階へ何時進めるかは選択の問題である。いったん目標に達すると、ユーザのプロフィールが次の段階へ変更される（ステップ２１１）。
【００４６】
１つの潜在的な強化機能又は派生機能は、精度の比率の決定により提供される。一つの実施の形態では、この比率は人間の転記者の技能を評価するために用いることもできる。特に、公知の逐語ファイル又は習熟したユーザを用いると、関連の「．ｗａｖ」ファイルが人間の転記者に対して再生され、上記の比較は、転記されたテキストと上記プロセスにより生成された逐語ファイルとに対して行われる。このようにして、更なる機能を当該システムによって提供することができる。
【００４７】
理解されるように、現在では、音声認識プログラムの製造者は、外国語や言葉使いなどの録音をマニュアルで確立された逐語ファイルと共に用いて、音声モデルをプログラムする。明らかなように、逐語テキストを確立する上記の方法を、このプロセスを大幅に簡素化するこれらの音声ファイルの初期開発において用いることができる。
【００４８】
ユーザが自動化段階に到達すると、当該システムの最大の利点を達成することができる。音声認識ソフトウエアが始動され（ステップ６００）、現ユーザが選択される（ステップ６０１）。必要に応じて、特殊化された語彙が選定される（ステップ６０２）。次いで、現ユーザにより録音されたディジタル・オーディオ・ファイルの自動変換が開始される（ステップ６０３）。完了すると、ユーザ・プロフィールに含まれる情報に基いて文字ファイルがユーザへ送られ（ステップ６０４）、プログラムは主ループへ戻される。
【００４９】
不都合なことに、音響モデルは一時的に（或いは更に長い間）変更されているので、音声ユーザが或る期間（病気中や歯の治療後など）自動転記を使用できない場合があり得る。このような場合、システム管理者は、トレーニング状態変数を、ステップ３０１、３０２、３０３、３０５及び３１０（図２ｂ参照）のみが実行されるステップである自動化停止状態へ設定することができる。
【００５０】
図６は、本発明と関連する種々の要素の別の可能な構成を示している。この構成においては、前と同様に、ユーザは転記すべきドキュメントを口述し、先に述べた方法の１つで音声口述ファイル７００としてセーブする。この実施の形態では、転記されたファイルを人間の転記者に生成してもらうのではなく、音声口述ファイルが自動的に文字テキストへ少なくとも２回変換される。
【００５１】
この２回の自動テキスト変換後に、その結果として生じた第１及び第２の文字テキスト・ファイルが（図４及び図５に関して先に述べたように）マニュアル・コピー編集手段を用いて相互に比較され、人間のオペレータが第２の文字テキスト・ファイルを敏速に且つマニュアルにより訂正するのを容易にする。
【００５２】
このようにして、人間の転記者のずっと少ない労力で転記作業を提供することができる。エンド・ユーザへの分配のために充分に正確な文字テキストを取得する秘訣は、１回目の実行と２回目の実行とで音声／テキスト変換を少々異ならせることである。特に、１回目と２回目の変換ステップの間で、システムは下記のうちの１つ以上を変更することができる。
【００５３】
（１）音声認識プログラム（例えば、ＤｒａｇｏｎＳｙｓｔｅｍｓのＮａｔｕｒａｌｌｙＳｐｅａｋｉｎｇ、ＩＢＭのＶｉａＶｏｉｃｅ又はＰｈｉｌｉｐｓ社のＭａｇｉｃＳｐｅｅｃｈ）、
（２）特定の音声認識プログラム内の言語モデル（例えば、一般英語に対する専門語彙（例えば、医学、法律））、
（３）特定の音声認識プログラム内の設定（例えば、「最も精確」に対する「速度」）、及び（又は）
（４）ディジタル単語サイズやサンプリング・レートの変更、特定の高調波レンジ除去、その他のあり得る修正によって音声口述ファイルをディジタル信号プロセッサ（米国アリゾナ州フェニックスのＳｙｎｔｒｉｌｌｉｕｍ社のＣｏｏｌＥｄｉｔ、或いはＭｏｔｏｒｏｌａ社からのプログラムされたＤＳＰ５６０００ＩＣなど）により予め処理することによる音声口述ファイル。
【００５４】
１つ以上の上記「変換変数」を変更することにより、２回目の音声／テキスト変換が１回目の音声／テキスト変換から少し異なる文字テキストを生成することができ、また、結果として生じた２つの文字テキストをここに開示した新規なマニュアル編集手段を用いて比較することにより、人間のオペレータは上記の方法で差異を調べ、エンド・ユーザへ分配するための逐語テキストを迅速に生成することができる。このように、他の開示されたアプローチにおけるよりも少ない人間の介在により、完全に自動化された転記が達成できる。
【００５５】
このシステム及びその基礎となる方法が図６に示される。２つの自動音声変換手段７０２、７０３が示されるが、１つのコンピュータ上で走るけれども音声口述ファイルの変換の反復間で異なる変換変数を用いる音声認識プログラムの単一のインスタンスが存在し得ることに注意すべきである。無論、当業者には周知のように、１つのマシン上で走る、或いは、コンピュータ化されたネットワーク（ＬＡＮ、ＷＡＮ、ピアツーピアなど）により相互接続された個別のマシン上で走る音声認識プログラムの複数のインスタンスを持つことも同様に可能である。
【００５６】
同様に、マニュアル編集手段７０５が自動音声変換手段とは別個であるように示されるが、自動的音声変換手段の１つ又は両方のインスタンスと同じコンピュータで実現することもできる。同様に、マニュアル編集手段は、コンピュータ化されたネットワーク上の他のコンピュータと相互接続されたコンピュータ上で実現され得る。
【００５７】
最後に、ディジタル信号プロセッサ７０１が示されているのは、変換変数を変更する１つのアプローチが自動音声変換手段の１つ又は両方のインスタンスに入力される音声口述ファイルを変更することであることを図示するためである。このディジタル信号プロセッサも、上記の機能ブロックの１つ又は全てと同じコンピュータ上で、或いは、他のコンピュータとコンピュータ化ネットワークを介して相互接続された別個のコンピュータ上で実現され得る。
【００５８】
音声からテキストへの変換の２回の反復が用いられる上記のケースは、変換変数の種々の組をそれぞれ用い、テキストの比較が文字テキスト出力の一義的な対間で、その後は相互間で行われ、その結果、自動転記の精度を向上させてマニュアル編集において考慮されるべき単語を少なくする、更に多くの回の反復が行われるケースに対して外挿され得る。
【００５９】
先の記述及び図面は本発明を単に説明し図示するものであり、本発明はこれに限定されるものではない。本文の開示を参照した当業者は、本発明の範囲から逸脱することなくその修正及び変更を行うことができる。例えば、音声ユーザと転記者と音声認識プログラムとの間でマシンを実質的に時分割することにより、当該システムの要素の全てを１つの汎用コンピュータで実現することが可能である。その結果生じるコストの節減は、当該システムを大きな診療所、病院、法律事務所その他の大きな施設だけでなく更に多くのオフィスの諸状況に対しアクセス可能にする。
【図面の簡単な説明】
【図１】図１は、一人以上の音声ユーザに対する実質的に自動化された転記作業のための本システムの一つの実施の形態のブロック図である。
図１ｂは、本システム内部の口述ステーション、転記ステーション及び制御手段として使用される汎用コンピュータのブロック図である。
【図２】図２ａは、本システムの制御手段の主ループのフロー図である。
図２ｂは、本システムの制御手段の登録段階部分のフロー図である。
図２ｃは、本システムの制御手段のトレーニング段階部分のフロー図である。
図２ｄは、本システムの制御手段の自動化段階部分のフロー図である。
【図３】本システムにおける制御手段により使用されるディレクトリ構造である。
【図４】マニュアル編集手段の望ましい実施の形態の一部を示すブロック図である。
【図５】マニュアル編集手段の望ましい実施の形態の残部を示す立面図である。
【図６】２つの音声変換インスタンス及びコンピュータ補助訂正を用いる自動転記システム及び方法のシステムの構成を示す図である。

Claims

一人以上の音声ユーザに対する転記作業を実質的に自動化するシステムであって、
一人以上の前記音声ユーザの一人である現ユーザから音声口述ファイルを受取る手段と、
第１の組の変換変数を有し、前記音声口述ファイルを第１の文字テキストへ自動的に変換する第１の自動変換手段と、
第２の変換変数組を有し、前記音声口述ファイルを第２の文字テキストへ自動的に変換する第２の自動変換手段であって、前記の第１及び第２の組の変換変数が少なくとも１つの相違を有する第２の自動変換手段と、
前記音声口述ファイルの逐語テキストを生成するため前記の第１及び第２の文字テキストのコピーをマニュアル編集する手段と、
を具備し、
前記第１の文字テキストが前記音声口述ファイルと少なくとも一時的に同期され、
前記マニュアル編集手段が、
前記第１の文字テキストのコピーを前記第２の文字テキストと逐次比較して、前記第１の文字テキストの前記コピーから収集される不一致単語の順次リストであって、初めと終りと前記初めから前記終りへ順次進められるその時の不一致単語とを持つ順次リストを得る手段と、
前記第１の文字テキストを含む前記第１の自動変換手段に関連する第１のバッファ内と前記順次リストに関連する第２のバッファ内とで同時に、前記その時の不一致単語を増分的に検索する手段と、
前記その時の不一致単語を、前記第１の文字テキストの前記コピーにおける他のテキストから実質的に視覚的に分離されるように表示する手段と、前記その時の不一致単語に関連する前記第１のバッファから前記の同期された音声口述録音の一部を再生する手段とを備え、前記第２のバッファにおける前記その時の不一致単語を訂正する手段と、
を備えるシステム。
前記編集手段が更に、前記第１の文字テキストの前記コピー内のコンテキストにおける前記その時の不一致単語を二者択一的に調べる手段を含む、請求項１記載のシステム。
前記の第１及び第２の自動音声変換手段がそれぞれ、人間の対話的な使用のため意図された既存の音声認識プログラムを含み、前記の第１及び第２の自動音声変換手段の各々が、前記の既存の音声認識プログラムからの一連の対話的な照会に対する応答を自動化する手段を含む、請求項１記載のシステム。
前記の第１及び第２の組の変換変数間の前記相違が、前記の第１及び第２の自動音声変換手段を含む前記の既存の音声認識プログラムである、請求項３載のシステム。
前記の第１及び第２の組の変換変数間の前記相違が、前記の既存の音声認識プログラムに関連して用いられる言語モデルを含む、請求項３記載のシステム。
汎用の言語モデルが前記第１の組の変換変数において用いられ、特殊な言語モデルが前記第２の組の変換変数において用いられる、請求項５記載のシステム。
前記の第１及び第２の組の変換変数間の前記相違が、前記の既存の音声認識プログラムに関連する少なくとも１つの設定を含む、請求項３記載のシステム。
前記の第１及び第２の組の変換変数間の前記相違が、前記第１の自動変換手段への入力に先立ちオーディオを事前処理する手段を含む、請求項３記載のシステム。
前記の第１及び第２の組の変換変数間の前記相違が、前記第２の自動変換手段への入力に先立ちオーディオを事前処理する手段を含み、前記した第１及び第２の事前処理の変数が異なる、請求項８記載のシステム。
前記事前処理の変数が、実質的にディジタル単語サイズ、サンプリング・レート及び特定の高調波レンジの除去からなるグループから選択される、請求項９記載のシステム。
前記の第１及び第２の組の変換変数間の前記相違が、前記の既存の音声認識プログラムとの関連付けに用いられる言語モデルを含む、請求項１記載のシステム。
汎用言語モデルが前記第１の組の変換変数において用いられ、特殊言語モデルが前記第２の組の変換変数において用いられる、請求項１１記載のシステム。
前記の第１及び第２の組の変換変数間の前記相違が、前記第１の自動変換手段への入力に先立ちオーディオを事前処理する手段を含む、請求項１記載のシステム。
前記の第１及び第２の組の変換変数間の前記相違が、前記第２の自動変換手段への入力に先立ちオーディオを事前処理する手段を含み、前記の第１及び第２の事前処理の変数が異なる、請求項１１記載のシステム。
現ユーザの前記音声口述ファイルに高精度を達成するため前記自動音声変換手段をトレーニングする手段を更に備える、請求項１記載のシステム。
前記トレーニング手段が、人間の対話的使用のため意図された既存の音声認識プログラムの既存のトレーニング部分を含み、該トレーニング手段が、前記の既存の音声認識プログラムの前記の既存トレーニング部分からの一連の対話的照会に対する応答を自動的化する手段を含む、請求項１５記載のシステム。
少なくとも１つの音声認識プログラムを含むシステムにおいて一人以上の音声ユーザに対する転記作業を自動化する方法であって、
現音声ユーザから音声口述ファイルを受取るステップと、
第１の組の変換変数を用いて音声認識プログラムにより前記音声口述ファイルから第１の文字テキストを自動的に生成するステップと、
第２の組の変換変数を用いて音声認識プログラムにより前記音声口述ファイルから第２の文字テキストを自動的に生成するステップと、
前記の第１及び第２の文字テキストの比較により逐語ファイルをマニュアルで確立するステップと、
前記逐語ファイルを前記現ユーザへ戻すステップと、
を備え、
逐語ファイルをマニュアルで確立する前記ステップが、
前記第１の文字テキストのコピーを前記第２の文字テキストと逐次比較し、前記第１の文字テキストのコピーから収集される不一致単語の順次リストを得るステップであって、該順次リストが初めと終りとその時の不一致単語とを有し、前記その時の不一致単語が前記初めから前記終りへ順次進められるステップと、
前記第１の文字テキストを含む少なくとも１つの音声認識プログラムに関連する第１のバッファ内と前記順次リストに関連する第２のバッファ内とで同時に前記その時の不一致単語を増分的に検索するステップと、
前記第１の文字テキストのコピーにおける他のテキストから実質的に視覚的に分離されるように前記その時の不一致単語を表示し、前記その時の不一致単語に関連する前記第１のバッファから前記の同期された音声口述録音の一部を再生するステップと、
前記の同期された音声口述録音の一部の逐語表示であるように前記その時の不一致単語を訂正するステップと、
を含む方法。
利用可能な既存の音声認識プログラムから第１の組の変換変数を選択するステップと、
利用可能な既存の音声認識プログラムから前記第２の組の変換変数を別に選択するステップと、
を更に含む、請求項１７記載の方法。
利用可能な言語モデルから前記第１の組の変換変数を選択するステップと、
利用可能な言語モデルから前記第２の組の変換変数を別に選択するステップと、
を更に含む、請求項１７記載の方法。
第１の文字テキストを自動的に生成する前に前記音声口述ファイルを事前処理するステップであって、該事前処理が前記第１の組の変換変数の少なくとも一部を形成するステップを更に含む、請求項１７記載の方法。
第２の文字テキストを自動的に生成する前に前記第１の組の変換変数の事前処理とは異なる方法で前記音声口述ファイルを事前処理するステップであって、該事前処理が前記第２の組の変換変数の少なくとも一部を形成するステップを更に含む、請求項２０記載の方法。