JP3640341B2 - 入力装置識別情報の維持 - Google Patents
入力装置識別情報の維持 Download PDFInfo
- Publication number
- JP3640341B2 JP3640341B2 JP2000046073A JP2000046073A JP3640341B2 JP 3640341 B2 JP3640341 B2 JP 3640341B2 JP 2000046073 A JP2000046073 A JP 2000046073A JP 2000046073 A JP2000046073 A JP 2000046073A JP 3640341 B2 JP3640341 B2 JP 3640341B2
- Authority
- JP
- Japan
- Prior art keywords
- input device
- user
- audio
- setup
- enrollment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims abstract description 87
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000013518 transcription Methods 0.000 claims abstract description 19
- 230000035897 transcription Effects 0.000 claims abstract description 19
- 230000004913 activation Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 24
- 238000012360 testing method Methods 0.000 description 18
- 238000013024 troubleshooting Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 238000013102 re-test Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- TVZRAEYQIKYCPH-UHFFFAOYSA-N 3-(trimethylsilyl)propane-1-sulfonic acid Chemical compound C[Si](C)(C)CCCS(O)(=O)=O TVZRAEYQIKYCPH-UHFFFAOYSA-N 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000030279 gene silencing Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- C—CHEMISTRY; METALLURGY
- C11—ANIMAL OR VEGETABLE OILS, FATS, FATTY SUBSTANCES OR WAXES; FATTY ACIDS THEREFROM; DETERGENTS; CANDLES
- C11C—FATTY ACIDS FROM FATS, OILS OR WAXES; CANDLES; FATS, OILS OR FATTY ACIDS BY CHEMICAL MODIFICATION OF FATS, OILS, OR FATTY ACIDS OBTAINED THEREFROM
- C11C5/00—Candles
- C11C5/002—Ingredients
- C11C5/004—Ingredients dyes, pigments; products giving a coloured flame
-
- C—CHEMISTRY; METALLURGY
- C11—ANIMAL OR VEGETABLE OILS, FATS, FATTY SUBSTANCES OR WAXES; FATTY ACIDS THEREFROM; DETERGENTS; CANDLES
- C11C—FATTY ACIDS FROM FATS, OILS OR WAXES; CANDLES; FATS, OILS OR FATTY ACIDS BY CHEMICAL MODIFICATION OF FATS, OILS, OR FATTY ACIDS OBTAINED THEREFROM
- C11C5/00—Candles
- C11C5/02—Apparatus for preparation thereof
- C11C5/023—Apparatus for preparation thereof by casting or melting in a mould
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Oil, Petroleum & Natural Gas (AREA)
- Wood Science & Technology (AREA)
- Organic Chemistry (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Description
【発明の属する技術分野】
本発明は、一般に、音声入力装置をコンピュータのオーディオ・システムに接続し、最適な結果を達成するためにその音声入力装置に正しいオーディオ設定を決定する分野に関する。特に、本発明は、マイクロフォンだけでなく、すべての音声入力装置を選択し、接続し、最適化することに関する。
【0002】
【従来の技術】
通常、コンピュータの音声入力装置とはマイクロフォンのみであった。廉価なマルチメディア・コンピュータの到来により、パーソナル・コンピュータに関連する代替入力装置の使用が人気を増している。代替入力装置は、たとえば、個人用転記装置、すなわち、口述に使用される手持ちレコーダを含む。場合によっては、これらの装置はアナログであり、録音テープを使用する。より最近、市場に到来したものは、フラッシュ・メモリ・カードを使用するデジタル・レコーダである。このようなデジタル入力装置の例は、Olympus(登録商標)D1000またはSony(登録商標)ICD-70である。このような音声入力装置および他のものをマイクロフォンに加えて使用すると、コンピュータにおける音声認識アプリケーションに音声入力を提供することができる。マイクロフォンが基本的な音声入力装置とみなされているため、代替音声入力装置は、他の入力プラグおよびポートに接続しなければならない。このようなプラグおよびポートは一般に、ラインインまたは補助プラグおよびポートとして指定されている。本明細書に使用する「入力装置」とは、音声入力信号のすべてのソース、特にマイクロフォン以外のソース、たとえばラインインまたは補助装置を包含することを意図する。
【0003】
音声入力装置は一般に、コンピュータ、たとえばパーソナル・コンピュータの中にインストールされたサウンド・カードに接続される。サウンド・カードは、入力装置によって生成されたアナログ信号を受信し、デジタル化する。デジタル信号は、機能、たとえば音声ファイルのメモリへの記憶または他のオーディオ関連の機能を実行するため、コンピュータのプロセッサによって処理される。音声入力波形の振幅によって測定される、アナログ音声信号がデジタル化される前に記録されるときのオーディオ・レベルは、このデータを後で使用するアプリケーションにとってきわめて重要である。代替音声入力装置それぞれが特徴的に異なる出力信号を有することができ、異なる種類のジャックまたはポートを要し、サウンド・カードのセットアップに関して異なるパラメータを要することが理解されよう。これらの違いは、製造者間および各製造者のモデル間で顕著に現れる。そのうえ、異なる製造者からのサウンド・カードおよび同じ製造者によって製造される異なるサウンド・カードもまた、入力信号に対して異なる特徴的な応答を有することができる。代替入力装置およびサウンド・カードの大きな差違の潜在性にもかかわらず、各音声アプリケーションは、音声アプリケーションにおける音声認識エンジンの効率を最大にするために満たさなければならない、音声入力ソースから独立した最適な信号パラメータ要件を有している。アナログ音声信号がデジタル化される前に記録されるときのオーディオ・レベルは、このデータを使用するアプリケーションにとってきわめて重要である。これらの設定は、正しく機能するために音声信号を要するアプリケーションに悪影響を及ぼしかねない。
【0004】
音声入力装置が不適切に接続され、オーディオ・システムが誤って構成されてしまう方法が数多くある。これらは、たとえば、間違ったサウンド・カードの選択、間違った音声入力装置の選択、プラグのゆるみ、間違ったジャックの選択、消音スイッチの不適切な設定、マイクロフォンおよびアダプタにおけるバッテリ問題、高いバックグラウンド・ノイズのある環境、オーディオ・パラメータの不適切な調節および混乱を招くオーディオ・フィードバックの存在を含む。
【0005】
この問題に対する現在の手法(手法といえるものがある程度に)は、手動操作の使用である。手動操作は相当なユーザ介在を要し、それはひいき目にみても本質的に問題である。したがって、入力装置およびサウンド・カードならびに音声アプリケーションの差違がどのようなものであれ、入力装置の適切な接続および各オーディオ設定の構成を容易にする方法および装置の有意な必要性が存在する。その方法および装置は、高度なコンピュータ操作の知識が必要とされない限りで使いやすくなければならない。その方法または装置は、遭遇しうるすべての問題に対処すべきであり、その際、ユーザが問題を是正するために診断情報および明確な指示を表示すべきである。
【0006】
デジタル化信号のある種の特徴を利用すると、信号を処理するアルゴリズムを強化することができる。換言するならば、よりクリーンでノイズの少ない音声入力信号が音声認識エンジンの性能を高める。デジタル化信号を処理するそのようなアルゴリズムの1クラスは、音声認識を実行するアルゴリズムである。音声認識システムの中には、ユーザがユーザ自身のスピーチのデジタル化サンプルによって音声認識エンジンを訓練することができるものもある。この訓練が、特定のユーザおよび/またはエンロールメント(登録)に対応する一つの訓練データを生成する。音声アプリケーションは、訓練中に収集されたユーザ固有の声および発話の特徴、環境ならびに対応する音声入力装置を考慮に入れるため、これが一般にシステムの性能および精度を高める。システムは、たとえば、異なる入力装置、たとえばマイクロフォンおよびラインイン装置に関して訓練することができる。システムはまた、たとえば、低いまたは高いバックグラウンド・ノイズ環境に関して訓練することもできる。このような訓練は、ユーザの特定の必要性に合わせてシステムを最適にカスタマイズする融通性をユーザに与える。しかし、音声認識エンジンが、サウンド・カードから入ってくる現在のデジタル化信号に正しく対応しない特定の訓練データを使用しているならば、データを使用するシステムの性能、たとえば音声認識の精度がひどく損なわれるおそれがある。ユーザが入力装置または環境を選択した訓練データと偶然にミスマッチさせるならば、これは簡単に起こってしまう。
【0007】
【発明が解決しようとする課題】
したがって、ユーザの訓練データと、対応する音声入力装置との正しい関連付けをプログラム的に維持する方法および装置の必要性が存在する。
【0008】
オーディオ・フィードバックは、対応する出力スピーカの音響場にオープンなマイクロフォンを有することによって生じる問題である。アナログ音声信号がデジタル化される前に記録されるときのオーディオ・レベルが、このデータを使用するアプリケーションにとってきわめて重要である。オーディオ設定が特定の装置に対して正しく設定されるには、その前に、その装置が、コンピュータに正しく接続され、コンピュータとの使用に備えて正しくセットアップされなければならない。しかし、誤って構成されたオーディオ・ミクサが、不愉快なだけでなく、ひどい場合には聴覚問題を生じさせかねないオーディオ・フィードバックを生じさせるおそれがある。この問題は普通、しばしば悲鳴または笛の音と表現される大きな高ピッチの音として顕著に現れる。ユーザは一般に、オーディオ・フィードバックの潜在性の概念を持たず、これが当てはまるとしても、その問題を先見的に是正する必要性をおそらく認識しない。
【0009】
したがって、そのようなオーディオ・フィードバックが起こる前にユーザがフィードバックを防ぐために必要な措置を講じることができるよう、オーディオ・フィードバックの可能性または潜在性を認識させる必要性が存在する。
【0010】
音声認識プログラムは、標準のマイクロフォン入力を使用して、テキストに変換するデータを得る。しかし、今や、他の種類の音声入力装置が受け入れられなければならず、ユーザが多数の音声入力ソースから選択を行うことができなければならない。これらのソースは、多数の形式で記録されたデータ・ファイルをも含む。標準のウィンドウズ音声ファイル(.WAV)をテキストに変換する能力は実証されている。それでもなお、ユーザは、別のソフトウェア・アプリケーションを使用して音声データをテキストに変換する前に、.WAV形式にある入力装置からの記録データを手動で変換しなければならない。多くの音声入力装置の選択および.WAV形式だけでなく多くのファイル形式にあるそれぞれの出力信号の処理を簡素化する方法および装置の必要性がある。
【0011】
間違った音声入力装置、すなわちソースの使用が、多数の音声入力装置の可用性によって生じるもう一つの潜在的な問題である。間違った音声入力装置の接続がセットアップ手順を失敗させることがある。そのような場合、そのような間違った接続がセットアップ失敗の原因であると思われるとき、手順を通じてユーザを指導して音声入力装置を変更させる方法および装置の必要性がある。
【0012】
【課題を解決するための手段】
入力装置の識別情報を維持するため、ユーザの訓練データと、対応する音声入力装置との正しい関連付けをプログラム的に維持する方法および装置の必要性は、本明細書で教示される発明によって満たされる。
【0013】
本発明にしたがって、音声アプリケーションにおける入力装置識別情報を維持する方法は、特定のユーザに関して特定の音声入力装置および特定のオーディオ環境の少なくとも一方に関連する訓練データの音声ファイルをそれぞれが表す複数のエンロールメントを記憶するステップと、音声入力装置およびオーディオ環境の少なくとも一方のユーザ選択を促し、可能にするためのグラフィカル・ユーザ・インタフェース(GUI)表示画面を生成するステップと、ユーザ選択に応答して、口述または転記セッションで使用するためのエンロールメントの一つを検索するステップとを含む。
【0014】
方法はさらに、生成ステップの後かつ検索ステップの前に、複数のエンロールメントの一つがユーザ選択に対応するかどうかを決定するステップと、記憶されているエンロールメントのいずれもユーザ選択に対応しない場合、ユーザが訓練セッションを実施してユーザ選択のためのさらなるエンロールメントを生成することを促し、可能にするための、少なくとも一つのさらなるGUI表示画面を生成するステップと、さらなるエンロールメントを記憶するステップとを含むことができる。
【0015】
方法はさらに、口述セッションで使用するためのさらなるエンロールメントを検索するステップを含むことができる。
【0016】
方法はさらに、関連付けをシステムワイドなデータベースまたはウィンドウズのレジストリに記憶するステップを含むことができる。
【0017】
方法はさらに、サウンド・カードおよびオーディオ・ミクサのオーディオ構成設定を表すデータを各エンロールメントとともに記憶するステップと、口述または転記セッションの起動の前に、検索した各エンロールメントのオーディオ構成設定を復元するステップとを含むことができる。
【0018】
本発明にしたがって、音声アプリケーションにおける入力装置識別情報を維持するための、固定媒体に記憶された命令のルーチン・セットでプログラムされたコンピュータ装置は、特定のユーザに関して特定の音声入力装置および特定のオーディオ環境の少なくとも一方に関連する訓練データの音声ファイルをそれぞれが表す複数のエンロールメントを記憶するための手段と、音声入力装置およびオーディオ環境の少なくとも一方のユーザ選択を促し、可能にするためのグラフィカル・ユーザ・インタフェース(GUI)表示画面を生成するための手段と、ユーザ選択に応答して、口述または転記セッションで使用するためのエンロールメントの一つを検索するための手段とを含む。
【0019】
装置はさらに、生成ステップの後かつ検索ステップの前に作動することができる、複数のエンロールメントの一つがユーザ選択に対応するかどうかを決定するための手段と、記憶されているエンロールメントのいずれもユーザ選択に対応しない場合に作動することができる、ユーザが訓練セッションを実施してユーザ選択のためのさらなるエンロールメントを生成することを促し、可能にするための、少なくとも一つのさらなるGUI表示画面を生成するための手段と、さらなるエンロールメントを記憶するための手段とを含むことができる。
【0020】
装置はさらに、口述セッションで使用するためのさらなるエンロールメントを検索するための手段を含むことができる。
【0021】
関連付けは、システムワイドなデータベースまたはウィンドウズのレジストリに記憶することができる。
【0022】
装置はさらに、サウンド・カードおよびオーディオ・ミクサのオーディオ構成設定を表すデータを各エンロールメントとともに記憶するための手段と、口述セッションの起動の前に、検索した各エンロールメントのオーディオ構成設定を復元するための手段とを含むことができる。
【0023】
【発明の実施の形態】
音声アプリケーションのために音声入力装置を接続、最適化し、ユーザが音声アプリケーションの入力装置を選択することを可能にし、音声アプリケーションにおける入力装置識別情報を維持し、音声アプリケーションを先見的に実行する間のオーディオ・フィードバックを防止し、前記に関連する問題をトラブルシュートする、特に間違ったオーディオ・ソースをトラブルシュートする方法全体を、図1の流れ図10によって示す。この方法はブロック12で始まって、ブロック14のステップに関連するウェルカム画面を表示することによって進む。ウェルカム画面は、プログラムへの簡単な案内を提供する。
【0024】
ブロック16の決定ステップにしたがって、音声アプリケーションが二つ以上のサウンド・カードにアクセスを有するかどうかを決定する。ユーザが、音声認識をサポートする二つ以上のサウンド・カードを有するならば、ユーザは、サウンド・カードの一つを選択するためのGUI画面(図示せず)を提示される。この画面は、どのサウンド・カードを入力、すなわち記録に使用し、どのサウンド・カードを出力、すなわち再生に使用するのかをユーザに選択させる。二つ以上のサウンド・カードが使用可能であるならば、方法は、経路17を介してブロック18のステップに分岐し、このステップにしたがってサウンド・カードを選択する。その後、ブロック20のステップにしたがって、入力装置のタイプを、たとえばユーザ選択、コマンド・ライン・パラメータ、レジストリ項目および/またはユーザ固有データ、たとえばエンロールメント識別子からの問い合わせによって決定する。一つのサウンド・カードしかないならば、方法は、経路19を介して直接ブロック20のステップに分岐する。
【0025】
入力タイプを決定したのち、ブロック22のステップにしたがって、オーディオ再生レベルを試験し、快適な設定に調節する。ユーザは、図8に示す入力装置接続画面で、試験に備えて装置を接続するよう指示される。この画面はまた、画面上に表示される指示および/またはビットマップ・イメージに関して構成することもできる。オーディオ・フィードバックは、ブロック24のステップにしたがって、まずオーディオ・フィードバックを防止すると予想することができる一つ以上のスイッチ設定の選択をユーザに促すことにより、先見的に防止することができる。あるいはまた、ユーザは、デフォルト設定を使用することもできる。
【0026】
ユーザは、ブロック26のステップにしたがって入力装置の選択を促され、その後、ステップ・ブロック28にしたがって入力装置の接続を促される。ブロック22、24、26および28に関連する表示画面は、指示、ビットマップ・イメージおよびユーザを支援するのに有用な他の情報に関して構成することができる。表示画面の一例200を図8に示す。画面200は、画面を識別するタイトル(「ラインイン装置の接続」)202、一般的な指示204、装置固有のハードウェアおよび接続を示す装置固有のビットマップ208を有する区域206ならびに詳細な装置固有の指示212を表示するための区域210を有している。
【0027】
前記各ステップが、音声入力装置を、オーディオを試験するための状態に配する。そのような試験は普通、二つの短い音声記録、すなわち、バックグラウンド・ノイズの記録と、音声選択の記録とを要する。ラインイン装置を試験するための指示は、図9に示す表示画面220によって提供することができる。画面220は、タイトル(「ラインイン装置の試験」)222、装置固有の試験指示226を表示するための区域224、一般的な指示230、すなわち、装置固有ではない指示を表示するための区域228、視覚的フィードバック、たとえばテープ・レコーダの絵のアイコン234を提供するための区域232ならびに一般的な指示および装置固有の指示にしたがって試験手順を起動するための少なくとも一つの起動可能なアイコン236、たとえばボタンを有している。
【0028】
決定ブロックのステップ32にしたがって試験に合格するならば、方法は、経路33を介して分岐してステップ50に進み、このステップにしたがって、入力装置の接続が完了したことをユーザに知らせる画面を表示する。その後、ステップ52にしたがって入力装置のレベルを調節することができ、ステップ54にしたがって、入力装置およびセットアップが成功したことをユーザに知らせるさらなる画面を表示することができる。
【0029】
多数の入力装置を効率的に管理する必要性を考慮して、ステップ56にしたがって、試験した音声入力装置と、その装置の接続、試験、および入力レベルの調節に関連するすべてのセットアップ・データとを関連付ける。ステップ58にしたがってこの関連付けを記録すると、方法はステップ60で終了する。
【0030】
ステップ決定ブロック32による入力装置の試験が不合格であるならば、方法は、経路35を介してブロック36のトラブルシュート・ステップに分岐する。多数の考えられる問題、たとえば間違ったサウンド・カードの選択、間違った音声入力装置の選択、プラグのゆるみ、間違ったジャックの選択、消音スイッチの不適切な設定、マイクロフォンおよびアダプタに関するバッテリ問題、高バックグラウンド・ノイズの環境、オーディオ・パラメータの不適切な調節ならびに混乱を生じさせるオーディオ・フィードバックの存在が、入力装置試験の不合格を生じさせることができる。ステップ36にしたがって、どれくらいの数の問題が検出される、または起こりうると考えられるかに依存して、方法は、経路35から多数のページまたは表示画面に分岐して、ユーザが問題をトラブルシュートすることを支援するために一つ以上の画面を表示することができる。
【0031】
より具体的には、第一の適切なトラブルシュート・ページまたは画面が表示され、ユーザは、種々の調節を加えるよう促される。これらの画面はまた、画面に表示される指示およびビットマップ・イメージに関して構成することができる。各ページ後、ステップ38にしたがって入力装置を再試験することができる。決定ステップ40にしたがって再試験に合格しないならば、方法は、経路43を介して決定ステップ44に分岐する。最後のトラブルシュート・ページが処理されていないならば、方法は、経路45を介してステップ46に戻り、このステップにしたがって新たなトラブルシュート・ページを表示し、処理する。
【0032】
決定ステップ40にしたがって再試験に合格するならば、方法は、すでに説明したとおり、経路41を介してステップ50に分岐する。
【0033】
決定ステップ44にしたがって最後のページの再試験が不合格ならば、方法は、経路47を介してステップ48に分岐し、このステップにしたがって、入力装置接続およびセットアップが不成功に終わったことをユーザに知らせる画面を表示する。ユーザの動作、たとえば入力装置を個別に試験したり、新たな入力装置を選択し、手順をたとえばステップ20から再開したりすることを提案することができる。
【0034】
音声アプリケーション、特に音声認識エンジンは、異なる入力装置、たとえばマイクロフォンまたはラインイン装置に関して訓練することができる。システムはまた、異なる環境、たとえば静かな環境または騒がしい環境に関して訓練することができる。これは、自分の特定の必要性に合わせてシステムを最適にカスタマイズする融通性をユーザに与える。しかし、音声認識エンジンが、サウンド・カードによって生成される現在のデジタル化信号に正しく対応しない特定の訓練データを使用しているならば、性能および精度がひどく損なわれる。ユーザが入力装置を選択した訓練データと偶然にミスマッチさせるならば、これは簡単に起こってしまう。
【0035】
本発明によると、特定の入力装置をユーザおよび/またはエンロールメントと関連付けることにより、ユーザの訓練データとその対応する入力装置との正しい関連付けを有利に維持することができる。エンロールメントは、一つの訓練データを表す。この関係は、多数の方法で実現することができる。一つのそのような方法は、以下に説明するように、この情報を、ユーザの音声ファイルの一つの中に埋め込むか、システムワイドなデータベース、たとえばウィンドウズのレジストリの中央に位置づける方法である。
【0036】
ユーザが別のユーザに変わるか、その同じユーザの別のエンロールメントに変わると、システムは、関連する入力装置に合わせてプログラム的に構成される。この構成は、正しい入力ラインの選択およびその特定のユーザおよび/または環境および/または入力装置の組み合わせに最適なレベルへの入力ゲインの設定であることができるが、これらに限定されない。これは、現在のユーザ/エンロールメントに基づいて適切な入力装置が音声アプリケーションへの入力のために選択されることを保証することができる。そのうえ、たとえば消音により、他の接続された装置からの他の入力ラインが選択されないことを保証して、それらが入力信号に寄与することのないようにする措置を講じることができる。損傷および/または不適切に混合された音声信号が音声認識ソフトウェアに通されると、システムの性能および精度に悪影響が及ぶであろう。有利にも、ユーザは、ユーザ間および/またはエンロールメント間の変更の際にオーディオ・システムを構成する必要性による負担を強いられない。
【0037】
そのような関連付けを有利に実現する方法を説明するプロセス70を図2に示す。出発ブロック72から、ステップ74にしたがって口述セッションを開始する。ステップ76にしたがって入力装置を選択する。決定ステップ78にしたがって、選択した装置のセットアップをチェックする。セットアップがOKならば、方法は、経路81を介して決定ステップ82に分岐し、訓練セッションが、選択され、正しくセットアップされた装置と関連付けられているかどうかを決定する。関連付けがあれば、方法は、経路85を介してステップ90に分岐し、このステップにしたがって入力装置の関連付けを選択する。そして、ユーザは、ステップ92にしたがって、入力装置を操作するよう促される。
【0038】
決定ステップ78におけるセットアップがOKではないならば、方法は、経路79を介してステップ80に分岐する。このステップは、図1に示す接続および最適化プロセス10を表す。そして、ステップ84にしたがって訓練セッションを実行する。決定ステップ82で、関連する訓練セッションがないならば、方法は、経路83を介してステップ84の訓練セッションに分岐する。訓練セッションののち、ステップ86にしたがって、訓練データを、選択した入力装置および装置セットアップデータと関連付ける。ステップ88にしたがってこの関連付けを記録して、その関連付けられた入力装置を使用して口述セッションを次に開始するとき、ステップ82での認識のために利用できるようにする。
【0039】
ラインイン装置からの口述または転記ののち、ステップ94にしたがって口述セッションを終了すると、プロセスはステップ96で終了する。
【0040】
図2の破線ブロックは経路98を示し、この経路の各ステップは、図19に関連して後で説明する流れ図に組み込まれる。
【0041】
本発明にしたがって入力装置識別情報を維持する方法を理解するため、より短いプロセスをいくつか定めることができる。図3に示すアーキテクチャ・セットアップ・プロセス110では、一つ以上の入力装置をインストールする。ステップ114にしたがって、装置ごとにレコードをデータベースに加える。ステップ116にしたがって、加えた各レコードを装置固有の情報で満たす。
【0042】
図4に示すプロセス120では、ステップ122にしたがって、ユーザが、装置を変更するプロセスを起動する。ステップ124にしたがって、アプリケーションが、利用可能な装置のリストを求めてデータベースに問い合わせる。ステップ126にしたがって、ユーザがそのリストから装置を選択する。ステップ128にしたがって、システムが、データベース情報に基づいて新たな装置のために自動的に構成される。
【0043】
図5に示す入力装置関連付けセットアップ・プロセス130では、ステップ132にしたがってユーザ・ファイルを作成する。ステップ134にしたがって、レジストリ中またはユーザ・ファイルに埋め込むことにより、ユーザ・ファイルと入力装置設定との関連付けを設定する。
【0044】
図6に示すユーザの流れプロセス140では、ステップ142にしたがって入力装置を選択する。ステップ144にしたがってユーザ・ファイルまたはデータベースから関係を検索する。ステップ146にしたがって、選択した入力装置に応じてGUIを変更する。ステップ148にしたがってオーディオ・ミキサ入力を構成する。ステップ150にしたがってオーディオ・ミキサのゲインを構成する。ステップ152にしたがって他の装置固有情報を構成する。
【0045】
本発明によると、装置を構成する属性を識別するデータ・ブロックにより、装置を音声アプリケーションに示すことができる。好ましい実施態様では、装置を定義するデータ・ブロックはウィンドウズのレジストリ中に存在する。表1は、レジストリ中に存在するデータ・ブロックを各属性とともに記述したものである。以下のレジストリ・キーは、装置製造者によって指定される。フル・ファイル・パス/ネームは、HKLM\SOFTWARE\IBM\VOICETYPE\AUDIO\ DEVICES\<Device Key Name>によって例示される。
【0046】
【表1】
【表2】
【表3】
【0047】
入力装置インストール方法を図7のプロセス160によって示す。出発ブロック162から、ステップ164にしたがって装置記述ブロックをレジストリに書き込む。装置記述ブロック属性は、新たな装置の製造者によって生成されなければならない。音声アプリケーション、たとえばViaVoiceは、装置記述ブロックを使用して、この新たな入力装置と対話し、管理する方法を決定する。レジストリ中に正しい値の装置記述ブロックを生成することは装置製造者の責任である。
【0048】
ステップ166にしたがってアプリケーション・ファイルをインストールする。音声アプリケーションがインストールされると、アプリケーションはこれらの装置ブロックそれぞれを処理する。ステップ168にしたがって、第一のインストールされた装置記述ブロックを位置づける。ステップ170にしたがって、ユーザごとに現在の装置のエンロールメントを生成する。ステップ172にしたがって、装置が残っているかどうかを決定する。装置が残っているならば、方法は、経路173を介してステップ174に分岐し、このステップにしたがって次の装置記述ブロックを検索する。次に、ステップ170にしたがって、現在の装置のエンロールメントを新たに生成する。装置が残らなくなるまでループは継続する。装置が残らなくなると、方法は経路175を介して分岐し、ステップ176で終了する。
【0049】
このプロセスは、有利には、ユーザごとにシステム中に位置する各装置を表すエンロールメントを生成する。これは、ユーザが装置に対するエンロールメントを手作業で生成することなく装置にアクセスすることを可能にする。
【0050】
エンロールメントのプロセスは、ユーザがシステムを訓練して精度を改善することを可能にする。これは、個々の装置ごとに実施されなければならない。しかし、装置の中には、音声アプリケーションにとっては異なる装置として写ることができるが、実際には同じエンロールメントデータを使用する多数の構成を有するものもある。これらの装置は、表1〜3に掲げた装置記述ブロックのCOMPATIBLEDEVICES属性を使用してまとめられる。互いに互換性のある装置は、有利にも、ユーザにとって一つのオプションとして写る。これは、ユーザが一つの装置に関してエンロールし、それと互換性のある装置に関して同じエンロールメントを使用することを可能にする。新たなエンロールメントを生成するとき、ユーザは、選択することができる装置のリストを提示される。互換性のある装置は一つの項目としてまとめられる。ユーザが、エンロールする装置を選択、すると、その選択された装置を使用してエンロールメントが進行する。装置記述ブロックの互換性装置属性は、装置がエンロールメントを共用することができるすべての互換性装置をリストする。装置を記述するユーザに表示されるテキスト項目は、DESCRIPTIONTEXT属性から得られ、システムにインストールされている言語ごとに一意である。
【0051】
装置を選択したのち、オーディオ設定が音声認識に最適になるよう、オーディオ・ハードウェアを構成しなければならない。これは、音声アプリケーションのオーディオ・セットアップ手順を使用して達成される。その詳細は本明細書には関連しないが、IBM社のViaVoiceの市販バージョンに対応することができる。装置ブロック属性AUDIOSETUPFORENROLLMENTをチェックして、選択した装置に関してエンロールするためにオーディオ・セットアップが必要であるときを決定する。値が1であるならば、選択した装置に関してオーディオ・セットアップを実行する。値が0であるならば、オーディオ・セットアップを実行しない。
【0052】
オーディオ・セットアップが完了したのち、エンロールメント・プロセスが始まる。このプロセスの一部で、選択した装置から音声データを得るために正しいオーディオDLLを使用するように音声認識エンジンが構成される。構成情報は、装置記述ブロック属性ENROLLDEVICEから得られる。この属性は、装置からエンロールメント音声データを得るために必要なカスタマイズされたオーディオDLLの名前を指定する。この点から、エンロールメントは、たとえばViaVoiceエンロールメント・プロセスの場合と同様、通常に進行する。エンロールメント・プロセス中に、ユーザが装置を使用するのに支援(ヘルプ)を要するならば、メニュー項目を使用して装置の支援を得ることができる。メニュー項目テキストおよび表示されるヘルプ・ファイルは、それぞれ属性HELPMENUITEMTEXTおよびHELPFILEPATHから検索される。
【0053】
システム中の各エンロールメントは、指定の装置に属するようにタグを付される。各エンロールメント・ファイルに記憶される情報を表4に示す。
【0054】
【表4】
【0055】
図10および11の画面表示240は、Harvey Rubackという名前のユーザのエンロールメントを示す。この画面は、タイトル(「連続音声エンロールメント」)242と、ユーザのエンロールメントのリスト246を表示するためのデータ表示区域244とを有している。データ表示区域244は、図10では右、図11では左にスクロールさせると、互換性装置の個々のエンロールメントを示すことができる。リスト246の最初の二つのエンロールメントは、OLYMPUS D1000ラインイン装置およびDSSファイル装置の値である。車の中ではノイズ環境が異なるため、リストの最初のエンロールメントは第二のエンロールメントとは異なる。第三のエンロールメントは、サンプル装置(SAMPLE DEVICE)1および2の両方に有効である。最後に、第四のエンロールメントは、サンプル装置3だけに有効である。エンロールメントを追加し、記述し、削除し、選択したエンロールメントを開始するため、起動可能なアイコン・ボタン248、250、252および254が設けられている。
【0056】
図12に示す表示画面260はサンプル装置3のエンロールメント中のヘルプ・メニュー項目のテキストを示す。装置固有のテキストがデータベースから抽出される。したがって、他の装置に関しては異なるテキストを抽出することができ、たとえば、エンロールメントに関してはテキスト262を、サンプル装置3に関してはテキスト264を抽出することができる。
【0057】
一般に、メニュー項目は、音声アプリケーション、たとえばSpeakPadが起動されたとき、データベースから検索される。ヘルプ/転記ヘルプ・メニューで使用される装置のメニュー・リストを作成するために、システムに登録された各装置のDESCRIPTIONTEXT属性が使用される。メニュー項目テキストは、装置記述ブロック属性DEVICEDESCRIPTIONから得られる。装置ごとに、現在のユーザの、装置と互換性のあるエンロールメントのリストが生成される。エンロールメント識別ファイルのAudioDeviceKeyの中に装置キーが見つかるとき、エンロールメントは装置と関連付けられる。装置ごとに、転記ヘルプ・メニューに項目が追加される。ヘルプ・ファイルおよびメニュー項目テキストは、それぞれ装置記述属性HELPMENUITEMTEXTおよびHELPFILEPATHから得られる。
【0058】
ユーザが入力装置から転記することを選択すると、図13に示す画面270の転記用入力装置メニュー項目から装置が選択される。ヘルプ・プルダウン・メニュー272が転記ヘルプ(TRANSCRIBE HELP)の項目274を含む。転記ヘルプ(TRANSCRIBE HELP)項目274の選択が第二のプルダウン・メニュー276の表示を起動する。メニュー276は、図10および11の画面240のリスト246にあるものに対応する5種の転記装置を含む。
【0059】
図14の画面270の別のビューが、口述(DICTATION)メニュー278の選択が、転記元(TRANSCRIBE FROM)メニュー項目を含むプルダウン・メニュー282を起動することを示す。転記元メニュー項目284の選択が、エンロールされた5種の転記装置をリストするメニュー286を起動する。OLYMPUS装置はそれぞれ、項目ごとの別のメニュー・リストを示す右向き矢印288によって示されるように、少なくとも二つのエンロールメントを有している。OLYMPUS DSS FILEメニュー項目292の選択が、その装置の二つのエンロールメントをリストするメニュー294を起動する。装置を選択したのち、エンロールメントを選択する。サンプル装置X、すなわち、サンプル装置1、2および3以外のサンプル装置に関しては、その装置には一つのエンロールメントしか存在しないため、エンロールメントが表示されないことに留意すること。ユーザに選択を省かせるため、項目は表示されない。
【0060】
口述または転記セッションを実施するために実行しなければならないステップを説明する流れ図を、図19の流れ図に示す。この方法は、ステップ282で始まる。音声アプリケーションは、ステップ284にしたがって、ユーザ選択入力装置およびエンロールメントを暗示的または明示的に受け入れる。
【0061】
ステップ286にしたがって、現在の口述または転記セッションのデータを一時ファイルに保存する。このデータが、テキストを、それを口述または転記するのに使用されたオーディオと関連付ける。ステップ288にしたがって、現在の音声エンジンのセッションを打ち切る。ステップ290にしたがって、選択した装置の記述ブロック属性を使用して、音声エンジンの新たなインスタンスを構成して、転記装置からオーディオを得る。使用する属性はDICTATIONDEVICETYPEおよびDICTATIONDEVICEである。新たなエンジン接続を確立したのち、AUDIOSETUPFORDICTATION属性をチェックして、正確な転記セッションを保証するためには以前のオーディオ構成データを復元することをオーディオ・セットアップに要求しなければならないかどうかを決定する。一例は、装置が、接続されたPCラインを介して音声データをエンジンに供給する場合に、ライン入力ゲインを復元させることである。これらのステップは、ステップ292にしたがって、図2の経路98のステップを実行することに等しい。
【0062】
ステップ294にしたがって、以前の口述または転記セッションのデータをこの新たなエンジン接続に関して復元する。これは、ステップ296にしたがって新たな口述または転記セッションを処理するとき、新たなデータを現在のテキストに付加して、一つの連続した転記または口述ファイルを作成することを可能にする。口述または転記が完了すると、処理ステップ296にしたがって、最後に転記したテキストだけでなく、テキストのどの部分をも修正することができる。音声データは、装置記述ブロックによって指定されるカスタム・オーディオDLLによって検索することができる。標準的な口述プロセスは、オーディオが自動的に検索されることを除き、ユーザがそれを再び繰り返すことなく進行する。すべての音声データが検索されると、プロセスは継続することができる。
【0063】
口述または転記セッション処理が終わると、ステップ298にしたがって、口述または転記セッション中に現在あるデータを一時ファイルに保存する。ステップ300にしたがってカスタム音声エンジンを切断する。ステップ302にしたがって、音声エンジンをデフォルト・パラメータで接続する。これは、ステップ304にしたがって、図2に示す経路98のステップの実行を要する。オーディオ・セットアップを呼び出して、デフォルト・エンジン音声装置のオーディオ設定を復元する。最後に、ステップ306にしたがって、一つのテキストのように見える口述および/または転記セッションのデータを復元する。方法はステップ308で終了する。
【0064】
セッションは今や、口述または転記を始める前のデータと、口述または転記によって入力装置から得られたばかりのデータとを含む。さらに別の画面270を図15に示す。この画面は、二つの異なる装置から口述および/または転記を実行した後の状況を示す。第一の文296はサンプル装置1から生じたものであり、第二の文298はサンプル装置2から生じたものである。すべてのデータは文書中で連続しており、データのどの部分をも修正、改訂または他の方法で編集することができる。
【0065】
オーディオ・フィードバック防止画面300が図16に示され、タイトル(「オーディオ・フィードバック防止」)301によって識別されている。画面300は、二つの主区域、すなわちオーディオ・フィードバックに関する情報304を表示するための情報区域302と、ユーザ制御308およびオーディオ・ミキサ出力制御をリストするためのウィンドウ310を提供するためのユーザ制御区域306とに分割されている。この例のユーザ制御は、相互に排他的な選択サークル312、314および316を含む。したがって、表示画面300は、オーディオ・フィードバックを先見的に防止するためにユーザがいくつかのオプションの一つを選択することを許す視覚的インタフェースをユーザに提示する。第一のオプションは、選択サークル312を起動することによる消音制御の使用である。このオプションは、セットアップおよび/または試験されている入力装置におそらくは接続されているすべての制御のためのオーディオ・ミキサ・インタフェースの出力を消す。これは、デフォルト動作であることができ、したがって、オーディオ・フィードバックが起こらないことを保証することができる。しかし、このオプションは、求められる出力をもおそらく消してしまう欠点を抱えている。第二のオプションは、選択サークル314を起動することによって制御をそのままにしておくことである。このオプションは、オーディオ・ミキサ・インタフェースをそのときの状態にしておく。これは、オーディオ・ミキサ・インタフェースの出力をすでに構成しており、それをそのままにしておきたい、知識のあるユーザにとって有用である。第三のオプションは、選択サークル316を起動することによって、選択した制御をそのままにしておくことである。このオプションは、セットアップおよび/または試験されている入力装置に関連しないことがわかっている制御を選択するオプションをユーザに与える。これは、リスト中の適切な項目を選択または選択解除することによってオーディオ・ミキサ・インタフェースの出力を構成する融通性を知識のあるユーザに与える。
【0066】
オーディオ・フィードバックを独自かつ有利に防止するための解決方法は、潜在的なオーディオ・フィードバック問題の指示を提供したのち、どのオーディオ・ミキサ出力制御を消すべきかをユーザが選択することを許し、それにより、オーディオ・フィードバックを先見的に防止することに役立つ。本発明のこの態様は、音声アプリケーションに関連して記載するが、方法および添付の表示画面は、いかなるアプリケーション、たとえば音声入力および出力を要する音声またはマルチメディアのアプリケーションでオーディオ・フィードバックを防止するのにも有用である。
【0067】
間違ったオーディオ・ソースをトラブルシュートするための画面320を図17に示す。この画面は、四つの主な区域、すなわち、タイトル区域322、情報区域324、状態区域326、第一のユーザ制御区域328および第二のユーザ制御区域332に分割されている。タイトル区域322は、画面および/または問題のタイトル(「トラブル・シューティング−間違ったオーディオ・ソース」)を表示するための区域である。情報区域324は、試験に関する情報を表示するための区域である。状態区域326は、指示を表示し、動的フィードバックおよび状態情報を提供するための区域である。第一および第二のユーザ制御区域328および332は、ユーザ制御、たとえばボタン、選択ボックスおよびプルダウン・メニューを提供するための区域である。
【0068】
トラブルシュート・プロセスを流れ図350によって示す図18を参照すると、ステップ352で始まった後かつトラブルシュート画面320の起動の前に、ユーザはまず、ステップ354にしたがって、その特定の装置の第一の可能なオーディオ・ソースを試験する。試験が合格ならば、決定ステップ356にしたがって、さらなるトラブルシュートは不要であり、方法は、経路359を介してステップ370に分岐し、このステップにしたがって、オーディオ・ソースを、後で特定の入力装置とで使用するために保存し、プロセスは372で終了する。
【0069】
第一のオーディオ・ソースが誤りであるならば、決定ステップ356の試験は不合格であり、方法は、経路357を介して分岐し、ステップ360にしたがってトラブルシュート画面320を呼び出す。ユーザは、図17に示すトラブルシュート画面320の中で指導される。ユーザは、タイトル区域322で問題を知らされ、第一のユーザ制御区域328で現在選択されているオーディオ・ソースを示される。決定ステップ362にしたがってさらなるソースが利用可能であるならば、方法は、経路363を介してステップ364に分岐し、このステップにしたがって、ユーザは、第一のユーザ制御区域328を使用して、試験すべき別のオーディオ・ソースを選択することを求められる。そして、ユーザは、ステップ366にしたがって、第一のユーザ制御区域の選択ボックスから代替オーディオ・ソースを選択し、第二のユーザ制御区域332の試験/再試験ボタン334を起動する。ユーザが行うと考えられるものに関する情報、たとえば視覚的フィードバックおよび試験状態が状態区域326に表示される。そして、方法は決定ブロック356に戻り、再試験が合格であったかどうかを決定する。
【0070】
再試験が合格であったならば、上で説明したように、方法は、経路359を介してステップ370に分岐する。しかし、再試験が不合格であったならば、方法は、他のソースが利用可能であるならば、経路357を介してステップ360、362、364および366に分岐する。他のオーディオ・ソースが残されていないならば、方法は、経路365を介してステップ368に分岐し、このステップにしたがって、さらなるトラブルシュート画面、たとえば本発明の一部を形成しないさらなるトラブルシュート画面を呼び出す。現在選択されているオーディオ・ソースに関する視覚的フィードバックが、有利にも、どのオーディオ・ソースをどの順序で試験すべきかをユーザが選択することを許す。破線のボックスは、表示画面320に関連して有利に実現されるすべてのステップを示す。
【0071】
まとめとして、本発明の構成に関して以下の事項を開示する。
(1)音声アプリケーションにおける入力装置識別情報を維持する方法であって、
特定のユーザに関して特定の音声入力装置および特定のオーディオ環境の少なくとも一方に関連する訓練データの音声ファイルをそれぞれが表す複数のエンロールメントを記憶するステップと、
音声入力装置およびオーディオ環境の少なくとも一方のユーザ選択を促し、可能にするためのグラフィカル・ユーザ・インタフェース(GUI)表示画面を生成するステップと、
前記ユーザ選択に応答して、口述または転記セッションで使用するための前記エンロールメントの一つを検索するステップと、
を含むことを特徴とする方法。
(2)前記生成ステップの後かつ前記検索ステップの前に、前記複数のエンロールメントの一つが前記ユーザ選択に対応するかどうかを決定するステップと、
前記記憶されているエンロールメントのいずれも前記ユーザ選択に対応しない場合、前記ユーザが訓練セッションを実施して前記ユーザ選択のためのさらなるエンロールメントを生成することを促し、可能にするための、少なくとも一つのさらなるGUI表示画面を生成するステップと、
前記さらなるエンロールメントを記憶するステップとをさらに含む上記(1)記載の方法。
(3)前記口述セッションで使用するための前記さらなるエンロールメントを検索するステップをさらに含む上記(2)記載の方法。
(4)サウンド・カードおよびオーディオ・ミキサのオーディオ構成設定を表すデータを前記各エンロールメントとともに記憶するステップと、
前記口述または転記セッションの起動の前に、検索した各エンロールメントの前記オーディオ構成設定を復元するステップとをさらに含む上記(1)記載の方法。
(5)音声アプリケーションにおける入力装置識別情報を維持するための、固定媒体に記憶された命令のルーチン・セットでプログラムされたコンピュータ装置であって、
特定のユーザに関して特定の音声入力装置および特定のオーディオ環境の少なくとも一方に関連する訓練データの音声ファイルをそれぞれが表す複数のエンロールメントを記憶するための手段と、
音声入力装置およびオーディオ環境の少なくとも一方のユーザ選択を促し、可能にするためのグラフィカル・ユーザ・インタフェース(GUI)表示画面を生成するための手段と、
前記ユーザ選択に応答して、口述または転記セッションで使用するための前記エンロールメントの一つを検索するための手段と、
を含むことを特徴とする装置。
(6)前記表示画面の生成の後かつ前記検索の前に作動することができる、前記複数のエンロールメントの一つが前記ユーザ選択に対応するかどうかを決定するための手段と、
前記記憶されているエンロールメントのいずれも前記ユーザ選択に対応しない場合に作動することができる、前記ユーザが訓練セッションを実施して前記ユーザ選択のためのさらなるエンロールメントを生成することを促し、可能にするための、少なくとも一つのさらなるGUI表示画面を生成するための手段と、
前記さらなるエンロールメントを記憶するための手段とをさらに含む上記(5)記載の装置。
(7)前記口述セッションで使用するための前記さらなるエンロールメントを検索するための手段をさらに含む上記(6)記載の装置。
(8)サウンド・カードおよびオーディオ・ミキサのオーディオ構成設定を表すデータを前記各エンロールメントとともに記憶するための手段と、
前記口述セッションの起動の前に、検索した各エンロールメントの前記オーディオ構成設定を復元するための手段とをさらに含む上記(7)記載の装置。
【図面の簡単な説明】
【図1】 入力装置を接続し、最適化する手順を説明する流れ図である。
【図2】 訓練データと入力装置とを関係させる手順を説明する流れ図である。
【図3】 入力装置識別情報を維持するためのアーキテクチャ・セットアップを説明する流れ図である。
【図4】 図3に示すアーキテクチャのユーザの流れを説明する流れ図である。
【図5】 入力装置関係セットアップを説明する流れ図である。
【図6】 選択された入力装置のためのユーザの流れおよび自動構成を説明する流れ図である。
【図7】 装置記述ブロックを使用するエンロールメントの生成を説明する流れ図である。
【図8】 装置中のラインを接続する場合における、構成可能な表示画面の例である。
【図9】 装置中のラインを試験する場合における、構成可能な表示画面の例である。
【図10】 エンロールメントの管理を説明するための表示画面の例を示す図である。
【図11】 エンロールメントの管理を説明するための表示画面の例を示す図である。
【図12】 エンロールメント中のヘルプ・メニュー項目テキストを説明するための表示画面の例である。
【図13】 転記ヘルプ・メニュー選択を説明するための表示画面の例である。
【図14】 口述メニュー選択を説明するための表示画面の例である。
【図15】 二つの異なる装置から転記を実行した後の表示画面の例である。
【図16】 オーディオ・フィードバックを防止するためにユーザを指導するための表示画面の例である。
【図17】 間違ったオーディオ・ソースをトラブルシュートするためにユーザを指導するための表示画面の例である。
【図18】 間違ったオーディオ・ソースをトラブルシュートする手順を説明する流れ図である。
【図19】 異なる入力装置から同じ文書中の隣接データを展開する手順を説明する流れ図である。
【符号の説明】
200、220、240、260、270、300、320 表示画面
202、222、242、301、322 タイトル
272、276、282、286 プルダウン・メニュー
Claims (8)
- 音声アプリケーションにおける入力装置識別情報を維持する方法であって、
特定のユーザに関連する訓練データの音声ファイルをそれぞれが表す複数のエンロールメントを、それぞれ特定の音声入力装置及びそのセットアップ・データに関連付けて記憶するステップと、
使用する音声入力装置のユーザ選択を促し、可能にするためのグラフィカル・ユーザ・インタフェース(GUI)表示画面を生成するステップと、
前記ユーザ選択により選択された音声入力装置のセットアップが完了しているか否かを判定するステップと、
前記セットアップが完了している場合に、前記選択された音声入力装置に対応する、口述または転記セッションで使用するための前記エンロールメントの一つを検索するステップと、
を含むことを特徴とする方法。 - 前記判定ステップの後かつ前記検索ステップの前に、前記複数のエンロールメントの一つが前記選択された音声入力装置に対応するかどうかを決定するステップと、
前記記憶されているエンロールメントのいずれも前記選択された音声入力装置に対応しない場合、前記ユーザが訓練セッションを実施して前記選択された音声入力装置のためのさらなるエンロールメントを生成することを促し、可能にするための、少なくとも一つのさらなるGUI表示画面を生成するステップと、
前記さらなるエンロールメントを記憶するステップとをさらに含む請求項1記載の方法。 - サウンド・カードおよびオーディオ・ミキサのオーディオ構成設定を表すデータを前記各エンロールメントとともに記憶するステップと、
前記口述または転記セッションの起動の前に、検索した各エンロールメントの前記オーディオ構成設定を復元するステップとをさらに含む請求項1記載の方法。 - 音声アプリケーションにおける入力装置識別情報を維持する方法であって、
特定のユーザに関連する訓練データの音声ファイルをそれぞれが表す複数のエンロールメントを、それぞれ特定の音声入力装置及びそのセットアップ・データに関連付けて記憶するステップと、
使用する音声入力装置のユーザ選択を促し、可能にするためのグラフィカル・ユーザ・インタフェース(GUI)表示画面を生成するステップと、
前記ユーザ選択により選択された音声入力装置のセットアップが完了しているか否かを判定するステップと、
前記セットアップが完了していない場合に、前記選択された音声入力装置のセットアップを実施するステップと、
前記セットアップの後、前記ユーザによる訓練セッションを実施するステップと、
前記訓練セッションにより得たエンロールメントを、前記選択された音声入力装置及びそのセットアップ・データに関連付けて記憶するステップと、
を含むことを特徴とする方法。 - 音声アプリケーションにおける入力装置識別情報を維持するための、固定媒体に記憶された命令のルーチン・セットでプログラムされたコンピュータ装置であって、
特定のユーザに関連する訓練データの音声ファイルをそれぞれが表す複数のエンロールメントを、それぞれ特定の音声入力装置及びそのセットアップ・データに関連付けて記憶するための手段と、
使用する音声入力装置のユーザ選択を促し、可能にするためのグラフィカル・ユーザ・インタフェース(GUI)表示画面を生成するための手段と、
前記ユーザ選択により選択された音声入力装置のセットアップが完了しているか否かを判定する手段と、
前記セットアップが完了している場合に作動することができる、前記選択された音声入力装置に対応する、口述または転記セッションで使用するための前記エンロールメントの一つを検索するための手段と、
を含むことを特徴とする装置。 - 前記判定の後かつ前記検索の前に作動することができる、前記複数のエンロールメントの一つが前記選択された音声入力装置に対応するかどうかを決定するための手段と、
前記記憶されているエンロールメントのいずれも前記選択された音声入力装置に対応しない場合に作動することができる、前記ユーザが訓練セッションを実施して前記選択された音声入力装置のためのさらなるエンロールメントを生成することを促し、可能にするための、少なくとも一つのさらなるGUI表示画面を生成するための手段と、
前記さらなるエンロールメントを記憶するための手段とをさらに含む請求項5記載の装置。 - サウンド・カードおよびオーディオ・ミキサのオーディオ構成設定を表すデータを前記各エンロールメントとともに記憶するための手段と、
前記口述または転記セッションの起動の前に、検索した各エンロールメントの前記オーディオ構成設定を復元するための手段とをさらに含む請求項5記載の装置。 - 音声アプリケーションにおける入力装置識別情報を維持するための、固定媒体に記憶された命令のルーチン・セットでプログラムされたコンピュータ装置であって、
特定のユーザに関連する訓練データの音声ファイルをそれぞれが表す複数のエンロールメントを、それぞれ特定の音声入力装置及びそのセットアップ・データに関連付けて記憶するための手段と、
使用する音声入力装置のユーザ選択を促し、可能にするためのグラフィカル・ユーザ・インタフェース(GUI)表示画面を生成するための手段と、
前記ユーザ選択により選択された音声入力装置のセットアップが完了しているか否かを判定する手段と、
前記セットアップが完了していない場合に作動することができる、前記選択された音声入力装置のセットアップを実施する手段と、
前記セットアップの後、前記ユーザによる訓練セッションを実施する手段と、
前記訓練セッションにより得たエンロールメントを、前記選択された音声入力装置及びそのセットアップ・データに関連付けて記憶する手段と、
を含むことを特徴とする装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/257673 | 1999-02-25 | ||
US09/257,673 US6275805B1 (en) | 1999-02-25 | 1999-02-25 | Maintaining input device identity |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000250578A JP2000250578A (ja) | 2000-09-14 |
JP3640341B2 true JP3640341B2 (ja) | 2005-04-20 |
Family
ID=22977263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000046073A Expired - Fee Related JP3640341B2 (ja) | 1999-02-25 | 2000-02-23 | 入力装置識別情報の維持 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6275805B1 (ja) |
JP (1) | JP3640341B2 (ja) |
KR (1) | KR100349965B1 (ja) |
GB (1) | GB2349001B (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6477493B1 (en) * | 1999-07-15 | 2002-11-05 | International Business Machines Corporation | Off site voice enrollment on a transcription device for speech recognition |
US6490558B1 (en) * | 1999-07-28 | 2002-12-03 | Custom Speech Usa, Inc. | System and method for improving the accuracy of a speech recognition program through repetitive training |
US7689416B1 (en) | 1999-09-29 | 2010-03-30 | Poirier Darrell A | System for transferring personalize matter from one computer to another |
KR20010091116A (ko) * | 2000-03-13 | 2001-10-23 | 심윤태 | 음성 녹음/재생 장치를 위한 컴퓨터 프로그램의 수행 방법 |
KR20020002888A (ko) * | 2000-06-30 | 2002-01-10 | 심윤태 | 음성 녹음/재생 장치를 위한 컴퓨터 프로그램의 수행 방법 |
US20020152076A1 (en) * | 2000-11-28 | 2002-10-17 | Jonathan Kahn | System for permanent alignment of text utterances to their associated audio utterances |
JP2002304196A (ja) * | 2001-04-03 | 2002-10-18 | Sony Corp | オーディオ信号記録制御方法、プログラムおよび記録媒体、オーディオ信号再生制御方法、プログラムおよび記録媒体、オーディオ信号入力制御方法、プログラムおよび記録媒体 |
US7552389B2 (en) * | 2003-08-20 | 2009-06-23 | Polycom, Inc. | Computer program and methods for automatically initializing an audio controller |
US20050138617A1 (en) * | 2003-12-19 | 2005-06-23 | Friedman Lee G. | Adaptive discovery and configuration of a user-selected input/output device |
US20070055520A1 (en) * | 2005-08-31 | 2007-03-08 | Microsoft Corporation | Incorporation of speech engine training into interactive user tutorial |
US20070112563A1 (en) * | 2005-11-17 | 2007-05-17 | Microsoft Corporation | Determination of audio device quality |
USD733181S1 (en) * | 2012-10-09 | 2015-06-30 | Shenzhen Mindray Bio-Medical Electronics Co. Ltd. | Anesthesia machine with animated graphical user interface |
US9691377B2 (en) * | 2013-07-23 | 2017-06-27 | Google Technology Holdings LLC | Method and device for voice recognition training |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
US10554486B2 (en) * | 2014-09-26 | 2020-02-04 | Microsoft Technology Licensing, Llc | Multi-enrollments of a computing device into configuration sources |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8911152D0 (en) | 1989-05-16 | 1989-09-20 | Smiths Industries Plc | Speech recognition |
US5974383A (en) * | 1997-10-29 | 1999-10-26 | International Business Machines Corporation | Configuring an audio mixer in an audio interface |
US5943649A (en) * | 1997-10-29 | 1999-08-24 | International Business Machines Corporation | Configuring an audio interface for different microphone types |
US6067084A (en) * | 1997-10-29 | 2000-05-23 | International Business Machines Corporation | Configuring microphones in an audio interface |
US6016136A (en) * | 1997-10-29 | 2000-01-18 | International Business Machines Corporation | Configuring audio interface for multiple combinations of microphones and speakers |
-
1999
- 1999-02-25 US US09/257,673 patent/US6275805B1/en not_active Expired - Lifetime
-
2000
- 2000-01-24 KR KR1020000003157A patent/KR100349965B1/ko not_active IP Right Cessation
- 2000-02-03 GB GB0002568A patent/GB2349001B/en not_active Expired - Fee Related
- 2000-02-23 JP JP2000046073A patent/JP3640341B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US6275805B1 (en) | 2001-08-14 |
GB2349001B (en) | 2003-08-06 |
KR20000071283A (ko) | 2000-11-25 |
JP2000250578A (ja) | 2000-09-14 |
KR100349965B1 (ko) | 2002-08-23 |
GB0002568D0 (en) | 2000-03-29 |
GB2349001A (en) | 2000-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6342903B1 (en) | User selectable input devices for speech applications | |
US6067084A (en) | Configuring microphones in an audio interface | |
US6492999B1 (en) | Connecting and optimizing audio input devices | |
JP3640341B2 (ja) | 入力装置識別情報の維持 | |
US5943649A (en) | Configuring an audio interface for different microphone types | |
US6009519A (en) | Method and apparatus for providing audio utility software for use in windows applications | |
US6016136A (en) | Configuring audio interface for multiple combinations of microphones and speakers | |
US6731993B1 (en) | Computer telephony audio configuration | |
US6014428A (en) | Voice templates for interactive voice mail and voice response system | |
US8126716B2 (en) | Method and system for collecting audio prompts in a dynamically generated voice application | |
JP3827704B1 (ja) | オペレータ業務支援システム | |
US20040006481A1 (en) | Fast transcription of speech | |
US20060235944A1 (en) | Method and system for a home screen editor in smartphone devices | |
EP2725494A1 (en) | Automatic testing apparatus for embedded software, automatic testing method thereof and test scenario composing method | |
JP4769299B2 (ja) | 操作確認情報提供装置およびそのような装置を備えた電子機器 | |
US6674451B1 (en) | Preventing audio feedback | |
US6266571B1 (en) | Adaptively configuring an audio interface according to selected audio output device | |
CN112231021A (zh) | 软件新功能的引导方法和装置 | |
US5974383A (en) | Configuring an audio mixer in an audio interface | |
US5974382A (en) | Configuring an audio interface with background noise and speech | |
US5995933A (en) | Configuring an audio interface contingent on sound card compatibility | |
US6504553B2 (en) | Trouble shooting a wrong audio source | |
JPWO2019155717A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
CN113674769A (zh) | 语音系统测试方法、装置、设备、介质及程序产品 | |
US6041301A (en) | Configuring an audio interface with contingent microphone setup |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040127 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20040213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20040213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040416 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040721 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20041021 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20041027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050105 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20050105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050114 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080128 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090128 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090128 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100128 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100128 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110128 Year of fee payment: 6 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110128 Year of fee payment: 6 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110128 Year of fee payment: 6 |
|
S202 | Request for registration of non-exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R315201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110128 Year of fee payment: 6 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120128 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130128 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140128 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |