JP3640341B2

JP3640341B2 - 入力装置識別情報の維持

Info

Publication number: JP3640341B2
Application number: JP2000046073A
Authority: JP
Inventors: フランク・ファド; ピーター・グアスティ; アマド・ナスィフ; ロナルド・ヴァン・バスクリク; ハーヴェイ・ロバック
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1999-02-25
Filing date: 2000-02-23
Publication date: 2005-04-20
Anticipated expiration: 2020-02-23
Also published as: US6275805B1; GB2349001B; KR20000071283A; JP2000250578A; KR100349965B1; GB0002568D0; GB2349001A

Description

【０００１】
【発明の属する技術分野】
本発明は、一般に、音声入力装置をコンピュータのオーディオ・システムに接続し、最適な結果を達成するためにその音声入力装置に正しいオーディオ設定を決定する分野に関する。特に、本発明は、マイクロフォンだけでなく、すべての音声入力装置を選択し、接続し、最適化することに関する。
【０００２】
【従来の技術】
通常、コンピュータの音声入力装置とはマイクロフォンのみであった。廉価なマルチメディア・コンピュータの到来により、パーソナル・コンピュータに関連する代替入力装置の使用が人気を増している。代替入力装置は、たとえば、個人用転記装置、すなわち、口述に使用される手持ちレコーダを含む。場合によっては、これらの装置はアナログであり、録音テープを使用する。より最近、市場に到来したものは、フラッシュ・メモリ・カードを使用するデジタル・レコーダである。このようなデジタル入力装置の例は、Olympus（登録商標）D1000またはSony（登録商標）ICD-70である。このような音声入力装置および他のものをマイクロフォンに加えて使用すると、コンピュータにおける音声認識アプリケーションに音声入力を提供することができる。マイクロフォンが基本的な音声入力装置とみなされているため、代替音声入力装置は、他の入力プラグおよびポートに接続しなければならない。このようなプラグおよびポートは一般に、ラインインまたは補助プラグおよびポートとして指定されている。本明細書に使用する「入力装置」とは、音声入力信号のすべてのソース、特にマイクロフォン以外のソース、たとえばラインインまたは補助装置を包含することを意図する。
【０００３】
音声入力装置は一般に、コンピュータ、たとえばパーソナル・コンピュータの中にインストールされたサウンド・カードに接続される。サウンド・カードは、入力装置によって生成されたアナログ信号を受信し、デジタル化する。デジタル信号は、機能、たとえば音声ファイルのメモリへの記憶または他のオーディオ関連の機能を実行するため、コンピュータのプロセッサによって処理される。音声入力波形の振幅によって測定される、アナログ音声信号がデジタル化される前に記録されるときのオーディオ・レベルは、このデータを後で使用するアプリケーションにとってきわめて重要である。代替音声入力装置それぞれが特徴的に異なる出力信号を有することができ、異なる種類のジャックまたはポートを要し、サウンド・カードのセットアップに関して異なるパラメータを要することが理解されよう。これらの違いは、製造者間および各製造者のモデル間で顕著に現れる。そのうえ、異なる製造者からのサウンド・カードおよび同じ製造者によって製造される異なるサウンド・カードもまた、入力信号に対して異なる特徴的な応答を有することができる。代替入力装置およびサウンド・カードの大きな差違の潜在性にもかかわらず、各音声アプリケーションは、音声アプリケーションにおける音声認識エンジンの効率を最大にするために満たさなければならない、音声入力ソースから独立した最適な信号パラメータ要件を有している。アナログ音声信号がデジタル化される前に記録されるときのオーディオ・レベルは、このデータを使用するアプリケーションにとってきわめて重要である。これらの設定は、正しく機能するために音声信号を要するアプリケーションに悪影響を及ぼしかねない。
【０００４】
音声入力装置が不適切に接続され、オーディオ・システムが誤って構成されてしまう方法が数多くある。これらは、たとえば、間違ったサウンド・カードの選択、間違った音声入力装置の選択、プラグのゆるみ、間違ったジャックの選択、消音スイッチの不適切な設定、マイクロフォンおよびアダプタにおけるバッテリ問題、高いバックグラウンド・ノイズのある環境、オーディオ・パラメータの不適切な調節および混乱を招くオーディオ・フィードバックの存在を含む。
【０００５】
この問題に対する現在の手法（手法といえるものがある程度に）は、手動操作の使用である。手動操作は相当なユーザ介在を要し、それはひいき目にみても本質的に問題である。したがって、入力装置およびサウンド・カードならびに音声アプリケーションの差違がどのようなものであれ、入力装置の適切な接続および各オーディオ設定の構成を容易にする方法および装置の有意な必要性が存在する。その方法および装置は、高度なコンピュータ操作の知識が必要とされない限りで使いやすくなければならない。その方法または装置は、遭遇しうるすべての問題に対処すべきであり、その際、ユーザが問題を是正するために診断情報および明確な指示を表示すべきである。
【０００６】
デジタル化信号のある種の特徴を利用すると、信号を処理するアルゴリズムを強化することができる。換言するならば、よりクリーンでノイズの少ない音声入力信号が音声認識エンジンの性能を高める。デジタル化信号を処理するそのようなアルゴリズムの１クラスは、音声認識を実行するアルゴリズムである。音声認識システムの中には、ユーザがユーザ自身のスピーチのデジタル化サンプルによって音声認識エンジンを訓練することができるものもある。この訓練が、特定のユーザおよび／またはエンロールメント（登録）に対応する一つの訓練データを生成する。音声アプリケーションは、訓練中に収集されたユーザ固有の声および発話の特徴、環境ならびに対応する音声入力装置を考慮に入れるため、これが一般にシステムの性能および精度を高める。システムは、たとえば、異なる入力装置、たとえばマイクロフォンおよびラインイン装置に関して訓練することができる。システムはまた、たとえば、低いまたは高いバックグラウンド・ノイズ環境に関して訓練することもできる。このような訓練は、ユーザの特定の必要性に合わせてシステムを最適にカスタマイズする融通性をユーザに与える。しかし、音声認識エンジンが、サウンド・カードから入ってくる現在のデジタル化信号に正しく対応しない特定の訓練データを使用しているならば、データを使用するシステムの性能、たとえば音声認識の精度がひどく損なわれるおそれがある。ユーザが入力装置または環境を選択した訓練データと偶然にミスマッチさせるならば、これは簡単に起こってしまう。
【０００７】
【発明が解決しようとする課題】
したがって、ユーザの訓練データと、対応する音声入力装置との正しい関連付けをプログラム的に維持する方法および装置の必要性が存在する。
【０００８】
オーディオ・フィードバックは、対応する出力スピーカの音響場にオープンなマイクロフォンを有することによって生じる問題である。アナログ音声信号がデジタル化される前に記録されるときのオーディオ・レベルが、このデータを使用するアプリケーションにとってきわめて重要である。オーディオ設定が特定の装置に対して正しく設定されるには、その前に、その装置が、コンピュータに正しく接続され、コンピュータとの使用に備えて正しくセットアップされなければならない。しかし、誤って構成されたオーディオ・ミクサが、不愉快なだけでなく、ひどい場合には聴覚問題を生じさせかねないオーディオ・フィードバックを生じさせるおそれがある。この問題は普通、しばしば悲鳴または笛の音と表現される大きな高ピッチの音として顕著に現れる。ユーザは一般に、オーディオ・フィードバックの潜在性の概念を持たず、これが当てはまるとしても、その問題を先見的に是正する必要性をおそらく認識しない。
【０００９】
したがって、そのようなオーディオ・フィードバックが起こる前にユーザがフィードバックを防ぐために必要な措置を講じることができるよう、オーディオ・フィードバックの可能性または潜在性を認識させる必要性が存在する。
【００１０】
音声認識プログラムは、標準のマイクロフォン入力を使用して、テキストに変換するデータを得る。しかし、今や、他の種類の音声入力装置が受け入れられなければならず、ユーザが多数の音声入力ソースから選択を行うことができなければならない。これらのソースは、多数の形式で記録されたデータ・ファイルをも含む。標準のウィンドウズ音声ファイル（.WAV）をテキストに変換する能力は実証されている。それでもなお、ユーザは、別のソフトウェア・アプリケーションを使用して音声データをテキストに変換する前に、.WAV形式にある入力装置からの記録データを手動で変換しなければならない。多くの音声入力装置の選択および.WAV形式だけでなく多くのファイル形式にあるそれぞれの出力信号の処理を簡素化する方法および装置の必要性がある。
【００１１】
間違った音声入力装置、すなわちソースの使用が、多数の音声入力装置の可用性によって生じるもう一つの潜在的な問題である。間違った音声入力装置の接続がセットアップ手順を失敗させることがある。そのような場合、そのような間違った接続がセットアップ失敗の原因であると思われるとき、手順を通じてユーザを指導して音声入力装置を変更させる方法および装置の必要性がある。
【００１２】
【課題を解決するための手段】
入力装置の識別情報を維持するため、ユーザの訓練データと、対応する音声入力装置との正しい関連付けをプログラム的に維持する方法および装置の必要性は、本明細書で教示される発明によって満たされる。
【００１３】
本発明にしたがって、音声アプリケーションにおける入力装置識別情報を維持する方法は、特定のユーザに関して特定の音声入力装置および特定のオーディオ環境の少なくとも一方に関連する訓練データの音声ファイルをそれぞれが表す複数のエンロールメントを記憶するステップと、音声入力装置およびオーディオ環境の少なくとも一方のユーザ選択を促し、可能にするためのグラフィカル・ユーザ・インタフェース（ＧＵＩ）表示画面を生成するステップと、ユーザ選択に応答して、口述または転記セッションで使用するためのエンロールメントの一つを検索するステップとを含む。
【００１４】
方法はさらに、生成ステップの後かつ検索ステップの前に、複数のエンロールメントの一つがユーザ選択に対応するかどうかを決定するステップと、記憶されているエンロールメントのいずれもユーザ選択に対応しない場合、ユーザが訓練セッションを実施してユーザ選択のためのさらなるエンロールメントを生成することを促し、可能にするための、少なくとも一つのさらなるＧＵＩ表示画面を生成するステップと、さらなるエンロールメントを記憶するステップとを含むことができる。
【００１５】
方法はさらに、口述セッションで使用するためのさらなるエンロールメントを検索するステップを含むことができる。
【００１６】
方法はさらに、関連付けをシステムワイドなデータベースまたはウィンドウズのレジストリに記憶するステップを含むことができる。
【００１７】
方法はさらに、サウンド・カードおよびオーディオ・ミクサのオーディオ構成設定を表すデータを各エンロールメントとともに記憶するステップと、口述または転記セッションの起動の前に、検索した各エンロールメントのオーディオ構成設定を復元するステップとを含むことができる。
【００１８】
本発明にしたがって、音声アプリケーションにおける入力装置識別情報を維持するための、固定媒体に記憶された命令のルーチン・セットでプログラムされたコンピュータ装置は、特定のユーザに関して特定の音声入力装置および特定のオーディオ環境の少なくとも一方に関連する訓練データの音声ファイルをそれぞれが表す複数のエンロールメントを記憶するための手段と、音声入力装置およびオーディオ環境の少なくとも一方のユーザ選択を促し、可能にするためのグラフィカル・ユーザ・インタフェース（ＧＵＩ）表示画面を生成するための手段と、ユーザ選択に応答して、口述または転記セッションで使用するためのエンロールメントの一つを検索するための手段とを含む。
【００１９】
装置はさらに、生成ステップの後かつ検索ステップの前に作動することができる、複数のエンロールメントの一つがユーザ選択に対応するかどうかを決定するための手段と、記憶されているエンロールメントのいずれもユーザ選択に対応しない場合に作動することができる、ユーザが訓練セッションを実施してユーザ選択のためのさらなるエンロールメントを生成することを促し、可能にするための、少なくとも一つのさらなるＧＵＩ表示画面を生成するための手段と、さらなるエンロールメントを記憶するための手段とを含むことができる。
【００２０】
装置はさらに、口述セッションで使用するためのさらなるエンロールメントを検索するための手段を含むことができる。
【００２１】
関連付けは、システムワイドなデータベースまたはウィンドウズのレジストリに記憶することができる。
【００２２】
装置はさらに、サウンド・カードおよびオーディオ・ミクサのオーディオ構成設定を表すデータを各エンロールメントとともに記憶するための手段と、口述セッションの起動の前に、検索した各エンロールメントのオーディオ構成設定を復元するための手段とを含むことができる。
【００２３】
【発明の実施の形態】
音声アプリケーションのために音声入力装置を接続、最適化し、ユーザが音声アプリケーションの入力装置を選択することを可能にし、音声アプリケーションにおける入力装置識別情報を維持し、音声アプリケーションを先見的に実行する間のオーディオ・フィードバックを防止し、前記に関連する問題をトラブルシュートする、特に間違ったオーディオ・ソースをトラブルシュートする方法全体を、図１の流れ図１０によって示す。この方法はブロック１２で始まって、ブロック１４のステップに関連するウェルカム画面を表示することによって進む。ウェルカム画面は、プログラムへの簡単な案内を提供する。
【００２４】
ブロック１６の決定ステップにしたがって、音声アプリケーションが二つ以上のサウンド・カードにアクセスを有するかどうかを決定する。ユーザが、音声認識をサポートする二つ以上のサウンド・カードを有するならば、ユーザは、サウンド・カードの一つを選択するためのＧＵＩ画面（図示せず）を提示される。この画面は、どのサウンド・カードを入力、すなわち記録に使用し、どのサウンド・カードを出力、すなわち再生に使用するのかをユーザに選択させる。二つ以上のサウンド・カードが使用可能であるならば、方法は、経路１７を介してブロック１８のステップに分岐し、このステップにしたがってサウンド・カードを選択する。その後、ブロック２０のステップにしたがって、入力装置のタイプを、たとえばユーザ選択、コマンド・ライン・パラメータ、レジストリ項目および／またはユーザ固有データ、たとえばエンロールメント識別子からの問い合わせによって決定する。一つのサウンド・カードしかないならば、方法は、経路１９を介して直接ブロック２０のステップに分岐する。
【００２５】
入力タイプを決定したのち、ブロック２２のステップにしたがって、オーディオ再生レベルを試験し、快適な設定に調節する。ユーザは、図８に示す入力装置接続画面で、試験に備えて装置を接続するよう指示される。この画面はまた、画面上に表示される指示および／またはビットマップ・イメージに関して構成することもできる。オーディオ・フィードバックは、ブロック２４のステップにしたがって、まずオーディオ・フィードバックを防止すると予想することができる一つ以上のスイッチ設定の選択をユーザに促すことにより、先見的に防止することができる。あるいはまた、ユーザは、デフォルト設定を使用することもできる。
【００２６】
ユーザは、ブロック２６のステップにしたがって入力装置の選択を促され、その後、ステップ・ブロック２８にしたがって入力装置の接続を促される。ブロック２２、２４、２６および２８に関連する表示画面は、指示、ビットマップ・イメージおよびユーザを支援するのに有用な他の情報に関して構成することができる。表示画面の一例２００を図８に示す。画面２００は、画面を識別するタイトル（「ラインイン装置の接続」）２０２、一般的な指示２０４、装置固有のハードウェアおよび接続を示す装置固有のビットマップ２０８を有する区域２０６ならびに詳細な装置固有の指示２１２を表示するための区域２１０を有している。
【００２７】
前記各ステップが、音声入力装置を、オーディオを試験するための状態に配する。そのような試験は普通、二つの短い音声記録、すなわち、バックグラウンド・ノイズの記録と、音声選択の記録とを要する。ラインイン装置を試験するための指示は、図９に示す表示画面２２０によって提供することができる。画面２２０は、タイトル（「ラインイン装置の試験」）２２２、装置固有の試験指示２２６を表示するための区域２２４、一般的な指示２３０、すなわち、装置固有ではない指示を表示するための区域２２８、視覚的フィードバック、たとえばテープ・レコーダの絵のアイコン２３４を提供するための区域２３２ならびに一般的な指示および装置固有の指示にしたがって試験手順を起動するための少なくとも一つの起動可能なアイコン２３６、たとえばボタンを有している。
【００２８】
決定ブロックのステップ３２にしたがって試験に合格するならば、方法は、経路３３を介して分岐してステップ５０に進み、このステップにしたがって、入力装置の接続が完了したことをユーザに知らせる画面を表示する。その後、ステップ５２にしたがって入力装置のレベルを調節することができ、ステップ５４にしたがって、入力装置およびセットアップが成功したことをユーザに知らせるさらなる画面を表示することができる。
【００２９】
多数の入力装置を効率的に管理する必要性を考慮して、ステップ５６にしたがって、試験した音声入力装置と、その装置の接続、試験、および入力レベルの調節に関連するすべてのセットアップ・データとを関連付ける。ステップ５８にしたがってこの関連付けを記録すると、方法はステップ６０で終了する。
【００３０】
ステップ決定ブロック３２による入力装置の試験が不合格であるならば、方法は、経路３５を介してブロック３６のトラブルシュート・ステップに分岐する。多数の考えられる問題、たとえば間違ったサウンド・カードの選択、間違った音声入力装置の選択、プラグのゆるみ、間違ったジャックの選択、消音スイッチの不適切な設定、マイクロフォンおよびアダプタに関するバッテリ問題、高バックグラウンド・ノイズの環境、オーディオ・パラメータの不適切な調節ならびに混乱を生じさせるオーディオ・フィードバックの存在が、入力装置試験の不合格を生じさせることができる。ステップ３６にしたがって、どれくらいの数の問題が検出される、または起こりうると考えられるかに依存して、方法は、経路３５から多数のページまたは表示画面に分岐して、ユーザが問題をトラブルシュートすることを支援するために一つ以上の画面を表示することができる。
【００３１】
より具体的には、第一の適切なトラブルシュート・ページまたは画面が表示され、ユーザは、種々の調節を加えるよう促される。これらの画面はまた、画面に表示される指示およびビットマップ・イメージに関して構成することができる。各ページ後、ステップ３８にしたがって入力装置を再試験することができる。決定ステップ４０にしたがって再試験に合格しないならば、方法は、経路４３を介して決定ステップ４４に分岐する。最後のトラブルシュート・ページが処理されていないならば、方法は、経路４５を介してステップ４６に戻り、このステップにしたがって新たなトラブルシュート・ページを表示し、処理する。
【００３２】
決定ステップ４０にしたがって再試験に合格するならば、方法は、すでに説明したとおり、経路４１を介してステップ５０に分岐する。
【００３３】
決定ステップ４４にしたがって最後のページの再試験が不合格ならば、方法は、経路４７を介してステップ４８に分岐し、このステップにしたがって、入力装置接続およびセットアップが不成功に終わったことをユーザに知らせる画面を表示する。ユーザの動作、たとえば入力装置を個別に試験したり、新たな入力装置を選択し、手順をたとえばステップ２０から再開したりすることを提案することができる。
【００３４】
音声アプリケーション、特に音声認識エンジンは、異なる入力装置、たとえばマイクロフォンまたはラインイン装置に関して訓練することができる。システムはまた、異なる環境、たとえば静かな環境または騒がしい環境に関して訓練することができる。これは、自分の特定の必要性に合わせてシステムを最適にカスタマイズする融通性をユーザに与える。しかし、音声認識エンジンが、サウンド・カードによって生成される現在のデジタル化信号に正しく対応しない特定の訓練データを使用しているならば、性能および精度がひどく損なわれる。ユーザが入力装置を選択した訓練データと偶然にミスマッチさせるならば、これは簡単に起こってしまう。
【００３５】
本発明によると、特定の入力装置をユーザおよび／またはエンロールメントと関連付けることにより、ユーザの訓練データとその対応する入力装置との正しい関連付けを有利に維持することができる。エンロールメントは、一つの訓練データを表す。この関係は、多数の方法で実現することができる。一つのそのような方法は、以下に説明するように、この情報を、ユーザの音声ファイルの一つの中に埋め込むか、システムワイドなデータベース、たとえばウィンドウズのレジストリの中央に位置づける方法である。
【００３６】
ユーザが別のユーザに変わるか、その同じユーザの別のエンロールメントに変わると、システムは、関連する入力装置に合わせてプログラム的に構成される。この構成は、正しい入力ラインの選択およびその特定のユーザおよび／または環境および／または入力装置の組み合わせに最適なレベルへの入力ゲインの設定であることができるが、これらに限定されない。これは、現在のユーザ／エンロールメントに基づいて適切な入力装置が音声アプリケーションへの入力のために選択されることを保証することができる。そのうえ、たとえば消音により、他の接続された装置からの他の入力ラインが選択されないことを保証して、それらが入力信号に寄与することのないようにする措置を講じることができる。損傷および／または不適切に混合された音声信号が音声認識ソフトウェアに通されると、システムの性能および精度に悪影響が及ぶであろう。有利にも、ユーザは、ユーザ間および／またはエンロールメント間の変更の際にオーディオ・システムを構成する必要性による負担を強いられない。
【００３７】
そのような関連付けを有利に実現する方法を説明するプロセス７０を図２に示す。出発ブロック７２から、ステップ７４にしたがって口述セッションを開始する。ステップ７６にしたがって入力装置を選択する。決定ステップ７８にしたがって、選択した装置のセットアップをチェックする。セットアップがＯＫならば、方法は、経路８１を介して決定ステップ８２に分岐し、訓練セッションが、選択され、正しくセットアップされた装置と関連付けられているかどうかを決定する。関連付けがあれば、方法は、経路８５を介してステップ９０に分岐し、このステップにしたがって入力装置の関連付けを選択する。そして、ユーザは、ステップ９２にしたがって、入力装置を操作するよう促される。
【００３８】
決定ステップ７８におけるセットアップがＯＫではないならば、方法は、経路７９を介してステップ８０に分岐する。このステップは、図１に示す接続および最適化プロセス１０を表す。そして、ステップ８４にしたがって訓練セッションを実行する。決定ステップ８２で、関連する訓練セッションがないならば、方法は、経路８３を介してステップ８４の訓練セッションに分岐する。訓練セッションののち、ステップ８６にしたがって、訓練データを、選択した入力装置および装置セットアップデータと関連付ける。ステップ８８にしたがってこの関連付けを記録して、その関連付けられた入力装置を使用して口述セッションを次に開始するとき、ステップ８２での認識のために利用できるようにする。
【００３９】
ラインイン装置からの口述または転記ののち、ステップ９４にしたがって口述セッションを終了すると、プロセスはステップ９６で終了する。
【００４０】
図２の破線ブロックは経路９８を示し、この経路の各ステップは、図１９に関連して後で説明する流れ図に組み込まれる。
【００４１】
本発明にしたがって入力装置識別情報を維持する方法を理解するため、より短いプロセスをいくつか定めることができる。図３に示すアーキテクチャ・セットアップ・プロセス１１０では、一つ以上の入力装置をインストールする。ステップ１１４にしたがって、装置ごとにレコードをデータベースに加える。ステップ１１６にしたがって、加えた各レコードを装置固有の情報で満たす。
【００４２】
図４に示すプロセス１２０では、ステップ１２２にしたがって、ユーザが、装置を変更するプロセスを起動する。ステップ１２４にしたがって、アプリケーションが、利用可能な装置のリストを求めてデータベースに問い合わせる。ステップ１２６にしたがって、ユーザがそのリストから装置を選択する。ステップ１２８にしたがって、システムが、データベース情報に基づいて新たな装置のために自動的に構成される。
【００４３】
図５に示す入力装置関連付けセットアップ・プロセス１３０では、ステップ１３２にしたがってユーザ・ファイルを作成する。ステップ１３４にしたがって、レジストリ中またはユーザ・ファイルに埋め込むことにより、ユーザ・ファイルと入力装置設定との関連付けを設定する。
【００４４】
図６に示すユーザの流れプロセス１４０では、ステップ１４２にしたがって入力装置を選択する。ステップ１４４にしたがってユーザ・ファイルまたはデータベースから関係を検索する。ステップ１４６にしたがって、選択した入力装置に応じてＧＵＩを変更する。ステップ１４８にしたがってオーディオ・ミキサ入力を構成する。ステップ１５０にしたがってオーディオ・ミキサのゲインを構成する。ステップ１５２にしたがって他の装置固有情報を構成する。
【００４５】
本発明によると、装置を構成する属性を識別するデータ・ブロックにより、装置を音声アプリケーションに示すことができる。好ましい実施態様では、装置を定義するデータ・ブロックはウィンドウズのレジストリ中に存在する。表１は、レジストリ中に存在するデータ・ブロックを各属性とともに記述したものである。以下のレジストリ・キーは、装置製造者によって指定される。フル・ファイル・パス／ネームは、HKLM＼SOFTWARE＼IBM＼VOICETYPE＼AUDIO＼ DEVICES＼<Device Key Name>によって例示される。
【００４６】
【表１】

【表２】

【表３】

【００４７】
入力装置インストール方法を図７のプロセス１６０によって示す。出発ブロック１６２から、ステップ１６４にしたがって装置記述ブロックをレジストリに書き込む。装置記述ブロック属性は、新たな装置の製造者によって生成されなければならない。音声アプリケーション、たとえばViaVoiceは、装置記述ブロックを使用して、この新たな入力装置と対話し、管理する方法を決定する。レジストリ中に正しい値の装置記述ブロックを生成することは装置製造者の責任である。
【００４８】
ステップ１６６にしたがってアプリケーション・ファイルをインストールする。音声アプリケーションがインストールされると、アプリケーションはこれらの装置ブロックそれぞれを処理する。ステップ１６８にしたがって、第一のインストールされた装置記述ブロックを位置づける。ステップ１７０にしたがって、ユーザごとに現在の装置のエンロールメントを生成する。ステップ１７２にしたがって、装置が残っているかどうかを決定する。装置が残っているならば、方法は、経路１７３を介してステップ１７４に分岐し、このステップにしたがって次の装置記述ブロックを検索する。次に、ステップ１７０にしたがって、現在の装置のエンロールメントを新たに生成する。装置が残らなくなるまでループは継続する。装置が残らなくなると、方法は経路１７５を介して分岐し、ステップ１７６で終了する。
【００４９】
このプロセスは、有利には、ユーザごとにシステム中に位置する各装置を表すエンロールメントを生成する。これは、ユーザが装置に対するエンロールメントを手作業で生成することなく装置にアクセスすることを可能にする。
【００５０】
エンロールメントのプロセスは、ユーザがシステムを訓練して精度を改善することを可能にする。これは、個々の装置ごとに実施されなければならない。しかし、装置の中には、音声アプリケーションにとっては異なる装置として写ることができるが、実際には同じエンロールメントデータを使用する多数の構成を有するものもある。これらの装置は、表１〜３に掲げた装置記述ブロックのCOMPATIBLEDEVICES属性を使用してまとめられる。互いに互換性のある装置は、有利にも、ユーザにとって一つのオプションとして写る。これは、ユーザが一つの装置に関してエンロールし、それと互換性のある装置に関して同じエンロールメントを使用することを可能にする。新たなエンロールメントを生成するとき、ユーザは、選択することができる装置のリストを提示される。互換性のある装置は一つの項目としてまとめられる。ユーザが、エンロールする装置を選択、すると、その選択された装置を使用してエンロールメントが進行する。装置記述ブロックの互換性装置属性は、装置がエンロールメントを共用することができるすべての互換性装置をリストする。装置を記述するユーザに表示されるテキスト項目は、DESCRIPTIONTEXT属性から得られ、システムにインストールされている言語ごとに一意である。
【００５１】
装置を選択したのち、オーディオ設定が音声認識に最適になるよう、オーディオ・ハードウェアを構成しなければならない。これは、音声アプリケーションのオーディオ・セットアップ手順を使用して達成される。その詳細は本明細書には関連しないが、ＩＢＭ社のViaVoiceの市販バージョンに対応することができる。装置ブロック属性AUDIOSETUPFORENROLLMENTをチェックして、選択した装置に関してエンロールするためにオーディオ・セットアップが必要であるときを決定する。値が１であるならば、選択した装置に関してオーディオ・セットアップを実行する。値が０であるならば、オーディオ・セットアップを実行しない。
【００５２】
オーディオ・セットアップが完了したのち、エンロールメント・プロセスが始まる。このプロセスの一部で、選択した装置から音声データを得るために正しいオーディオＤＬＬを使用するように音声認識エンジンが構成される。構成情報は、装置記述ブロック属性ENROLLDEVICEから得られる。この属性は、装置からエンロールメント音声データを得るために必要なカスタマイズされたオーディオＤＬＬの名前を指定する。この点から、エンロールメントは、たとえばViaVoiceエンロールメント・プロセスの場合と同様、通常に進行する。エンロールメント・プロセス中に、ユーザが装置を使用するのに支援（ヘルプ）を要するならば、メニュー項目を使用して装置の支援を得ることができる。メニュー項目テキストおよび表示されるヘルプ・ファイルは、それぞれ属性HELPMENUITEMTEXTおよびHELPFILEPATHから検索される。
【００５３】
システム中の各エンロールメントは、指定の装置に属するようにタグを付される。各エンロールメント・ファイルに記憶される情報を表４に示す。
【００５４】
【表４】

【００５５】
図１０および１１の画面表示２４０は、Harvey Rubackという名前のユーザのエンロールメントを示す。この画面は、タイトル（「連続音声エンロールメント」）２４２と、ユーザのエンロールメントのリスト２４６を表示するためのデータ表示区域２４４とを有している。データ表示区域２４４は、図１０では右、図１１では左にスクロールさせると、互換性装置の個々のエンロールメントを示すことができる。リスト２４６の最初の二つのエンロールメントは、OLYMPUS D1000ラインイン装置およびDSSファイル装置の値である。車の中ではノイズ環境が異なるため、リストの最初のエンロールメントは第二のエンロールメントとは異なる。第三のエンロールメントは、サンプル装置（SAMPLE DEVICE）１および２の両方に有効である。最後に、第四のエンロールメントは、サンプル装置３だけに有効である。エンロールメントを追加し、記述し、削除し、選択したエンロールメントを開始するため、起動可能なアイコン・ボタン２４８、２５０、２５２および２５４が設けられている。
【００５６】
図１２に示す表示画面２６０はサンプル装置３のエンロールメント中のヘルプ・メニュー項目のテキストを示す。装置固有のテキストがデータベースから抽出される。したがって、他の装置に関しては異なるテキストを抽出することができ、たとえば、エンロールメントに関してはテキスト２６２を、サンプル装置３に関してはテキスト２６４を抽出することができる。
【００５７】
一般に、メニュー項目は、音声アプリケーション、たとえばSpeakPadが起動されたとき、データベースから検索される。ヘルプ/転記ヘルプ・メニューで使用される装置のメニュー・リストを作成するために、システムに登録された各装置のDESCRIPTIONTEXT属性が使用される。メニュー項目テキストは、装置記述ブロック属性DEVICEDESCRIPTIONから得られる。装置ごとに、現在のユーザの、装置と互換性のあるエンロールメントのリストが生成される。エンロールメント識別ファイルのAudioDeviceKeyの中に装置キーが見つかるとき、エンロールメントは装置と関連付けられる。装置ごとに、転記ヘルプ・メニューに項目が追加される。ヘルプ・ファイルおよびメニュー項目テキストは、それぞれ装置記述属性HELPMENUITEMTEXTおよびHELPFILEPATHから得られる。
【００５８】
ユーザが入力装置から転記することを選択すると、図１３に示す画面２７０の転記用入力装置メニュー項目から装置が選択される。ヘルプ・プルダウン・メニュー２７２が転記ヘルプ（TRANSCRIBE HELP）の項目２７４を含む。転記ヘルプ（TRANSCRIBE HELP）項目２７４の選択が第二のプルダウン・メニュー２７６の表示を起動する。メニュー２７６は、図１０および１１の画面２４０のリスト２４６にあるものに対応する５種の転記装置を含む。
【００５９】
図１４の画面２７０の別のビューが、口述（DICTATION）メニュー２７８の選択が、転記元（TRANSCRIBE FROM）メニュー項目を含むプルダウン・メニュー２８２を起動することを示す。転記元メニュー項目２８４の選択が、エンロールされた５種の転記装置をリストするメニュー２８６を起動する。OLYMPUS装置はそれぞれ、項目ごとの別のメニュー・リストを示す右向き矢印２８８によって示されるように、少なくとも二つのエンロールメントを有している。OLYMPUS DSS FILEメニュー項目２９２の選択が、その装置の二つのエンロールメントをリストするメニュー２９４を起動する。装置を選択したのち、エンロールメントを選択する。サンプル装置Ｘ、すなわち、サンプル装置１、２および３以外のサンプル装置に関しては、その装置には一つのエンロールメントしか存在しないため、エンロールメントが表示されないことに留意すること。ユーザに選択を省かせるため、項目は表示されない。
【００６０】
口述または転記セッションを実施するために実行しなければならないステップを説明する流れ図を、図１９の流れ図に示す。この方法は、ステップ２８２で始まる。音声アプリケーションは、ステップ２８４にしたがって、ユーザ選択入力装置およびエンロールメントを暗示的または明示的に受け入れる。
【００６１】
ステップ２８６にしたがって、現在の口述または転記セッションのデータを一時ファイルに保存する。このデータが、テキストを、それを口述または転記するのに使用されたオーディオと関連付ける。ステップ２８８にしたがって、現在の音声エンジンのセッションを打ち切る。ステップ２９０にしたがって、選択した装置の記述ブロック属性を使用して、音声エンジンの新たなインスタンスを構成して、転記装置からオーディオを得る。使用する属性はDICTATIONDEVICETYPEおよびDICTATIONDEVICEである。新たなエンジン接続を確立したのち、AUDIOSETUPFORDICTATION属性をチェックして、正確な転記セッションを保証するためには以前のオーディオ構成データを復元することをオーディオ・セットアップに要求しなければならないかどうかを決定する。一例は、装置が、接続されたＰＣラインを介して音声データをエンジンに供給する場合に、ライン入力ゲインを復元させることである。これらのステップは、ステップ２９２にしたがって、図２の経路９８のステップを実行することに等しい。
【００６２】
ステップ２９４にしたがって、以前の口述または転記セッションのデータをこの新たなエンジン接続に関して復元する。これは、ステップ２９６にしたがって新たな口述または転記セッションを処理するとき、新たなデータを現在のテキストに付加して、一つの連続した転記または口述ファイルを作成することを可能にする。口述または転記が完了すると、処理ステップ２９６にしたがって、最後に転記したテキストだけでなく、テキストのどの部分をも修正することができる。音声データは、装置記述ブロックによって指定されるカスタム・オーディオＤＬＬによって検索することができる。標準的な口述プロセスは、オーディオが自動的に検索されることを除き、ユーザがそれを再び繰り返すことなく進行する。すべての音声データが検索されると、プロセスは継続することができる。
【００６３】
口述または転記セッション処理が終わると、ステップ２９８にしたがって、口述または転記セッション中に現在あるデータを一時ファイルに保存する。ステップ３００にしたがってカスタム音声エンジンを切断する。ステップ３０２にしたがって、音声エンジンをデフォルト・パラメータで接続する。これは、ステップ３０４にしたがって、図２に示す経路９８のステップの実行を要する。オーディオ・セットアップを呼び出して、デフォルト・エンジン音声装置のオーディオ設定を復元する。最後に、ステップ３０６にしたがって、一つのテキストのように見える口述および／または転記セッションのデータを復元する。方法はステップ３０８で終了する。
【００６４】
セッションは今や、口述または転記を始める前のデータと、口述または転記によって入力装置から得られたばかりのデータとを含む。さらに別の画面２７０を図１５に示す。この画面は、二つの異なる装置から口述および／または転記を実行した後の状況を示す。第一の文２９６はサンプル装置１から生じたものであり、第二の文２９８はサンプル装置２から生じたものである。すべてのデータは文書中で連続しており、データのどの部分をも修正、改訂または他の方法で編集することができる。
【００６５】
オーディオ・フィードバック防止画面３００が図１６に示され、タイトル（「オーディオ・フィードバック防止」）３０１によって識別されている。画面３００は、二つの主区域、すなわちオーディオ・フィードバックに関する情報３０４を表示するための情報区域３０２と、ユーザ制御３０８およびオーディオ・ミキサ出力制御をリストするためのウィンドウ３１０を提供するためのユーザ制御区域３０６とに分割されている。この例のユーザ制御は、相互に排他的な選択サークル３１２、３１４および３１６を含む。したがって、表示画面３００は、オーディオ・フィードバックを先見的に防止するためにユーザがいくつかのオプションの一つを選択することを許す視覚的インタフェースをユーザに提示する。第一のオプションは、選択サークル３１２を起動することによる消音制御の使用である。このオプションは、セットアップおよび／または試験されている入力装置におそらくは接続されているすべての制御のためのオーディオ・ミキサ・インタフェースの出力を消す。これは、デフォルト動作であることができ、したがって、オーディオ・フィードバックが起こらないことを保証することができる。しかし、このオプションは、求められる出力をもおそらく消してしまう欠点を抱えている。第二のオプションは、選択サークル３１４を起動することによって制御をそのままにしておくことである。このオプションは、オーディオ・ミキサ・インタフェースをそのときの状態にしておく。これは、オーディオ・ミキサ・インタフェースの出力をすでに構成しており、それをそのままにしておきたい、知識のあるユーザにとって有用である。第三のオプションは、選択サークル３１６を起動することによって、選択した制御をそのままにしておくことである。このオプションは、セットアップおよび／または試験されている入力装置に関連しないことがわかっている制御を選択するオプションをユーザに与える。これは、リスト中の適切な項目を選択または選択解除することによってオーディオ・ミキサ・インタフェースの出力を構成する融通性を知識のあるユーザに与える。
【００６６】
オーディオ・フィードバックを独自かつ有利に防止するための解決方法は、潜在的なオーディオ・フィードバック問題の指示を提供したのち、どのオーディオ・ミキサ出力制御を消すべきかをユーザが選択することを許し、それにより、オーディオ・フィードバックを先見的に防止することに役立つ。本発明のこの態様は、音声アプリケーションに関連して記載するが、方法および添付の表示画面は、いかなるアプリケーション、たとえば音声入力および出力を要する音声またはマルチメディアのアプリケーションでオーディオ・フィードバックを防止するのにも有用である。
【００６７】
間違ったオーディオ・ソースをトラブルシュートするための画面３２０を図１７に示す。この画面は、四つの主な区域、すなわち、タイトル区域３２２、情報区域３２４、状態区域３２６、第一のユーザ制御区域３２８および第二のユーザ制御区域３３２に分割されている。タイトル区域３２２は、画面および／または問題のタイトル（「トラブル・シューティング−間違ったオーディオ・ソース」）を表示するための区域である。情報区域３２４は、試験に関する情報を表示するための区域である。状態区域３２６は、指示を表示し、動的フィードバックおよび状態情報を提供するための区域である。第一および第二のユーザ制御区域３２８および３３２は、ユーザ制御、たとえばボタン、選択ボックスおよびプルダウン・メニューを提供するための区域である。
【００６８】
トラブルシュート・プロセスを流れ図３５０によって示す図１８を参照すると、ステップ３５２で始まった後かつトラブルシュート画面３２０の起動の前に、ユーザはまず、ステップ３５４にしたがって、その特定の装置の第一の可能なオーディオ・ソースを試験する。試験が合格ならば、決定ステップ３５６にしたがって、さらなるトラブルシュートは不要であり、方法は、経路３５９を介してステップ３７０に分岐し、このステップにしたがって、オーディオ・ソースを、後で特定の入力装置とで使用するために保存し、プロセスは３７２で終了する。
【００６９】
第一のオーディオ・ソースが誤りであるならば、決定ステップ３５６の試験は不合格であり、方法は、経路３５７を介して分岐し、ステップ３６０にしたがってトラブルシュート画面３２０を呼び出す。ユーザは、図１７に示すトラブルシュート画面３２０の中で指導される。ユーザは、タイトル区域３２２で問題を知らされ、第一のユーザ制御区域３２８で現在選択されているオーディオ・ソースを示される。決定ステップ３６２にしたがってさらなるソースが利用可能であるならば、方法は、経路３６３を介してステップ３６４に分岐し、このステップにしたがって、ユーザは、第一のユーザ制御区域３２８を使用して、試験すべき別のオーディオ・ソースを選択することを求められる。そして、ユーザは、ステップ３６６にしたがって、第一のユーザ制御区域の選択ボックスから代替オーディオ・ソースを選択し、第二のユーザ制御区域３３２の試験／再試験ボタン３３４を起動する。ユーザが行うと考えられるものに関する情報、たとえば視覚的フィードバックおよび試験状態が状態区域３２６に表示される。そして、方法は決定ブロック３５６に戻り、再試験が合格であったかどうかを決定する。
【００７０】
再試験が合格であったならば、上で説明したように、方法は、経路３５９を介してステップ３７０に分岐する。しかし、再試験が不合格であったならば、方法は、他のソースが利用可能であるならば、経路３５７を介してステップ３６０、３６２、３６４および３６６に分岐する。他のオーディオ・ソースが残されていないならば、方法は、経路３６５を介してステップ３６８に分岐し、このステップにしたがって、さらなるトラブルシュート画面、たとえば本発明の一部を形成しないさらなるトラブルシュート画面を呼び出す。現在選択されているオーディオ・ソースに関する視覚的フィードバックが、有利にも、どのオーディオ・ソースをどの順序で試験すべきかをユーザが選択することを許す。破線のボックスは、表示画面３２０に関連して有利に実現されるすべてのステップを示す。
【００７１】
まとめとして、本発明の構成に関して以下の事項を開示する。
（１）音声アプリケーションにおける入力装置識別情報を維持する方法であって、
特定のユーザに関して特定の音声入力装置および特定のオーディオ環境の少なくとも一方に関連する訓練データの音声ファイルをそれぞれが表す複数のエンロールメントを記憶するステップと、
音声入力装置およびオーディオ環境の少なくとも一方のユーザ選択を促し、可能にするためのグラフィカル・ユーザ・インタフェース（ＧＵＩ）表示画面を生成するステップと、
前記ユーザ選択に応答して、口述または転記セッションで使用するための前記エンロールメントの一つを検索するステップと、
を含むことを特徴とする方法。
（２）前記生成ステップの後かつ前記検索ステップの前に、前記複数のエンロールメントの一つが前記ユーザ選択に対応するかどうかを決定するステップと、
前記記憶されているエンロールメントのいずれも前記ユーザ選択に対応しない場合、前記ユーザが訓練セッションを実施して前記ユーザ選択のためのさらなるエンロールメントを生成することを促し、可能にするための、少なくとも一つのさらなるＧＵＩ表示画面を生成するステップと、
前記さらなるエンロールメントを記憶するステップとをさらに含む上記（１）記載の方法。
（３）前記口述セッションで使用するための前記さらなるエンロールメントを検索するステップをさらに含む上記（２）記載の方法。
（４）サウンド・カードおよびオーディオ・ミキサのオーディオ構成設定を表すデータを前記各エンロールメントとともに記憶するステップと、
前記口述または転記セッションの起動の前に、検索した各エンロールメントの前記オーディオ構成設定を復元するステップとをさらに含む上記（１）記載の方法。
（５）音声アプリケーションにおける入力装置識別情報を維持するための、固定媒体に記憶された命令のルーチン・セットでプログラムされたコンピュータ装置であって、
特定のユーザに関して特定の音声入力装置および特定のオーディオ環境の少なくとも一方に関連する訓練データの音声ファイルをそれぞれが表す複数のエンロールメントを記憶するための手段と、
音声入力装置およびオーディオ環境の少なくとも一方のユーザ選択を促し、可能にするためのグラフィカル・ユーザ・インタフェース（ＧＵＩ）表示画面を生成するための手段と、
前記ユーザ選択に応答して、口述または転記セッションで使用するための前記エンロールメントの一つを検索するための手段と、
を含むことを特徴とする装置。
（６）前記表示画面の生成の後かつ前記検索の前に作動することができる、前記複数のエンロールメントの一つが前記ユーザ選択に対応するかどうかを決定するための手段と、
前記記憶されているエンロールメントのいずれも前記ユーザ選択に対応しない場合に作動することができる、前記ユーザが訓練セッションを実施して前記ユーザ選択のためのさらなるエンロールメントを生成することを促し、可能にするための、少なくとも一つのさらなるＧＵＩ表示画面を生成するための手段と、
前記さらなるエンロールメントを記憶するための手段とをさらに含む上記（５）記載の装置。
（７）前記口述セッションで使用するための前記さらなるエンロールメントを検索するための手段をさらに含む上記（６）記載の装置。
（８）サウンド・カードおよびオーディオ・ミキサのオーディオ構成設定を表すデータを前記各エンロールメントとともに記憶するための手段と、
前記口述セッションの起動の前に、検索した各エンロールメントの前記オーディオ構成設定を復元するための手段とをさらに含む上記（７）記載の装置。
【図面の簡単な説明】
【図１】入力装置を接続し、最適化する手順を説明する流れ図である。
【図２】訓練データと入力装置とを関係させる手順を説明する流れ図である。
【図３】入力装置識別情報を維持するためのアーキテクチャ・セットアップを説明する流れ図である。
【図４】図３に示すアーキテクチャのユーザの流れを説明する流れ図である。
【図５】入力装置関係セットアップを説明する流れ図である。
【図６】選択された入力装置のためのユーザの流れおよび自動構成を説明する流れ図である。
【図７】装置記述ブロックを使用するエンロールメントの生成を説明する流れ図である。
【図８】装置中のラインを接続する場合における、構成可能な表示画面の例である。
【図９】装置中のラインを試験する場合における、構成可能な表示画面の例である。
【図１０】エンロールメントの管理を説明するための表示画面の例を示す図である。
【図１１】エンロールメントの管理を説明するための表示画面の例を示す図である。
【図１２】エンロールメント中のヘルプ・メニュー項目テキストを説明するための表示画面の例である。
【図１３】転記ヘルプ・メニュー選択を説明するための表示画面の例である。
【図１４】口述メニュー選択を説明するための表示画面の例である。
【図１５】二つの異なる装置から転記を実行した後の表示画面の例である。
【図１６】オーディオ・フィードバックを防止するためにユーザを指導するための表示画面の例である。
【図１７】間違ったオーディオ・ソースをトラブルシュートするためにユーザを指導するための表示画面の例である。
【図１８】間違ったオーディオ・ソースをトラブルシュートする手順を説明する流れ図である。
【図１９】異なる入力装置から同じ文書中の隣接データを展開する手順を説明する流れ図である。
【符号の説明】
２００、２２０、２４０、２６０、２７０、３００、３２０表示画面
２０２、２２２、２４２、３０１、３２２タイトル
２７２、２７６、２８２、２８６プルダウン・メニュー

Claims

音声アプリケーションにおける入力装置識別情報を維持する方法であって、
特定のユーザに関連する訓練データの音声ファイルをそれぞれが表す複数のエンロールメントを、それぞれ特定の音声入力装置及びそのセットアップ・データに関連付けて記憶するステップと、
使用する音声入力装置のユーザ選択を促し、可能にするためのグラフィカル・ユーザ・インタフェース（ＧＵＩ）表示画面を生成するステップと、
前記ユーザ選択により選択された音声入力装置のセットアップが完了しているか否かを判定するステップと、
前記セットアップが完了している場合に、前記選択された音声入力装置に対応する、口述または転記セッションで使用するための前記エンロールメントの一つを検索するステップと、
を含むことを特徴とする方法。
前記判定ステップの後かつ前記検索ステップの前に、前記複数のエンロールメントの一つが前記選択された音声入力装置に対応するかどうかを決定するステップと、
前記記憶されているエンロールメントのいずれも前記選択された音声入力装置に対応しない場合、前記ユーザが訓練セッションを実施して前記選択された音声入力装置のためのさらなるエンロールメントを生成することを促し、可能にするための、少なくとも一つのさらなるＧＵＩ表示画面を生成するステップと、
前記さらなるエンロールメントを記憶するステップとをさらに含む請求項１記載の方法。
サウンド・カードおよびオーディオ・ミキサのオーディオ構成設定を表すデータを前記各エンロールメントとともに記憶するステップと、
前記口述または転記セッションの起動の前に、検索した各エンロールメントの前記オーディオ構成設定を復元するステップとをさらに含む請求項１記載の方法。
音声アプリケーションにおける入力装置識別情報を維持する方法であって、
特定のユーザに関連する訓練データの音声ファイルをそれぞれが表す複数のエンロールメントを、それぞれ特定の音声入力装置及びそのセットアップ・データに関連付けて記憶するステップと、
使用する音声入力装置のユーザ選択を促し、可能にするためのグラフィカル・ユーザ・インタフェース（ＧＵＩ）表示画面を生成するステップと、
前記ユーザ選択により選択された音声入力装置のセットアップが完了しているか否かを判定するステップと、
前記セットアップが完了していない場合に、前記選択された音声入力装置のセットアップを実施するステップと、
前記セットアップの後、前記ユーザによる訓練セッションを実施するステップと、
前記訓練セッションにより得たエンロールメントを、前記選択された音声入力装置及びそのセットアップ・データに関連付けて記憶するステップと、
を含むことを特徴とする方法。
音声アプリケーションにおける入力装置識別情報を維持するための、固定媒体に記憶された命令のルーチン・セットでプログラムされたコンピュータ装置であって、
特定のユーザに関連する訓練データの音声ファイルをそれぞれが表す複数のエンロールメントを、それぞれ特定の音声入力装置及びそのセットアップ・データに関連付けて記憶するための手段と、
使用する音声入力装置のユーザ選択を促し、可能にするためのグラフィカル・ユーザ・インタフェース（ＧＵＩ）表示画面を生成するための手段と、
前記ユーザ選択により選択された音声入力装置のセットアップが完了しているか否かを判定する手段と、
前記セットアップが完了している場合に作動することができる、前記選択された音声入力装置に対応する、口述または転記セッションで使用するための前記エンロールメントの一つを検索するための手段と、
を含むことを特徴とする装置。
前記判定の後かつ前記検索の前に作動することができる、前記複数のエンロールメントの一つが前記選択された音声入力装置に対応するかどうかを決定するための手段と、
前記記憶されているエンロールメントのいずれも前記選択された音声入力装置に対応しない場合に作動することができる、前記ユーザが訓練セッションを実施して前記選択された音声入力装置のためのさらなるエンロールメントを生成することを促し、可能にするための、少なくとも一つのさらなるＧＵＩ表示画面を生成するための手段と、
前記さらなるエンロールメントを記憶するための手段とをさらに含む請求項５記載の装置。
サウンド・カードおよびオーディオ・ミキサのオーディオ構成設定を表すデータを前記各エンロールメントとともに記憶するための手段と、
前記口述または転記セッションの起動の前に、検索した各エンロールメントの前記オーディオ構成設定を復元するための手段とをさらに含む請求項５記載の装置。
音声アプリケーションにおける入力装置識別情報を維持するための、固定媒体に記憶された命令のルーチン・セットでプログラムされたコンピュータ装置であって、
特定のユーザに関連する訓練データの音声ファイルをそれぞれが表す複数のエンロールメントを、それぞれ特定の音声入力装置及びそのセットアップ・データに関連付けて記憶するための手段と、
使用する音声入力装置のユーザ選択を促し、可能にするためのグラフィカル・ユーザ・インタフェース（ＧＵＩ）表示画面を生成するための手段と、
前記ユーザ選択により選択された音声入力装置のセットアップが完了しているか否かを判定する手段と、
前記セットアップが完了していない場合に作動することができる、前記選択された音声入力装置のセットアップを実施する手段と、
前記セットアップの後、前記ユーザによる訓練セッションを実施する手段と、
前記訓練セッションにより得たエンロールメントを、前記選択された音声入力装置及びそのセットアップ・データに関連付けて記憶する手段と、
を含むことを特徴とする装置。