JP3703502B2 - 音声入力操作装置 - Google Patents

音声入力操作装置 Download PDF

Info

Publication number
JP3703502B2
JP3703502B2 JP20070693A JP20070693A JP3703502B2 JP 3703502 B2 JP3703502 B2 JP 3703502B2 JP 20070693 A JP20070693 A JP 20070693A JP 20070693 A JP20070693 A JP 20070693A JP 3703502 B2 JP3703502 B2 JP 3703502B2
Authority
JP
Japan
Prior art keywords
operation command
status
vtr
operated device
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP20070693A
Other languages
English (en)
Other versions
JPH0757336A (ja
Inventor
秀雄 中屋
哲二郎 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP20070693A priority Critical patent/JP3703502B2/ja
Publication of JPH0757336A publication Critical patent/JPH0757336A/ja
Application granted granted Critical
Publication of JP3703502B2 publication Critical patent/JP3703502B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【産業上の利用分野】
この発明は、音声入力によって被操作機器、例えばVTRを操作する音声入力操作装置に関する。
【0002】
【従来の技術】
従来、図9に示すように、音声入力によってVTR等の情報記録再生装置を操作する音声入力操作装置が提案されている。
【0003】
図9において、1は音声認識手段を有してなる音声入力操作装置である。この音声入力操作装置1では、マイクロホン2より供給される音声信号S1に基づいて操作コマンドの認識が行なわれる。そして、音声入力操作装置1からは、その認識された操作コマンドS2がVTR等の情報記録再生装置3に供給される。
【0004】
【発明が解決しようとする課題】
ところが、VTR等の情報記録再生装置3は多様な動作モードをもっており、現在の動作モードから直接切り換えてはならない禁止モードがある。この禁止モードが無視されて異常な操作コマンドS2が情報記録再生装置3に供給される場合には、情報記録再生装置3に混乱が生じて異常動作をするおそれがある。
【0005】
情報記録再生装置3に異常な操作コマンドS2が供給される原因として次のような場合がある。例えば、音声信号S1が音声入力操作装置1に供給される際に雑音が混入し、音声入力操作装置1で音声認識を誤る場合である。また例えば、音声入力による操作に不慣れなオペレータが誤った内容の操作コマンドを音声入力する場合である。
【0006】
これらの理由により、音声入力による情報記録再生装置3の操作には実用上信頼性が不充分であった。
【0007】
そこで、本出願人は先に、操作コマンドが現在の情報記録再生装置のステータス(動作モード)からみて不適切である場合はこれを排除し、情報記録再生装置を動作させないようにすることで、信頼性を向上できるものを提案した(特開昭61−172239号公報参照)。これによれば、情報記録再生装置の誤動作は防止できるが、操作コマンドの認識率を向上させることには寄与していない。
【0008】
そこで、この発明では、操作コマンドの認識率を向上させ、信頼性の向上を図るものである。
【0009】
【課題を解決するための手段】
請求項1の発明に係る音声入力操作装置は、音声入力による操作コマンドを認識して被操作機器に対する所定個数の操作コマンド候補を得る音声認識手段と、被操作機器のステータスを得るステータス取得手段と、被操作機器のステータスと次に実行される操作コマンドとの対応を示す度数分布データを格納するメモリ手段と、音声認識手段で得られる操作コマンド候補の中からメモリ手段に格納されているステータス取得手段で取得された被操作機器のステータスに対応する度数分布データに従って確率の高い操作コマンドを優先的に選択する操作コマンド選択手段とを備え、操作コマンド選択手段で選択される操作コマンドを被操作機器に供給するものである。
【0010】
請求項2の発明に係る音声入力操作装置は、音声入力による操作コマンドを認識して被操作機器に対する所定個数の操作コマンド候補を得る音声認識手段と、被操作機器のステータスを得るステータス取得手段と、被操作機器のステータスと次に実行される操作コマンドとの対応を示す度数分布データを格納するメモリ手段と、音声認識手段で得られる操作コマンド候補の中からメモリ手段に格納されているステータス取得手段で取得された被操作機器のステータスに対応する度数分布データに従って確率の高い操作コマンドを優先的に選択する操作コマンド選択手段と、被操作機器のステータスを操作コマンド選択手段で選択された操作コマンドに対応するステータスに変更することが適切か否かを判断する操作コマンド適否判断手段とを備え、操作コマンド適否判断手段で適切であると判断された操作コマンドを上記被操作機器に供給するものである。
【0011】
請求項3の発明に係る音声入力操作装置は、請求項1または2の発明において、被操作機器に操作コマンドが供給される毎に、メモリ手段の度数分布データを自動的に更新するものである。
【0012】
【作用】
請求項1の発明においては、音声認識によって所定個数の操作コマンド候補を得ると共に被操作機器のステータスを取得し、取得した被操作機器のステータスに対応する度数分布データに従って操作コマンド候補の中から確率の高い操作コマンドを優先的に選択するものであり、操作コマンドの認識率を上げることができ、信頼性を向上させることが可能となる。
【0013】
請求項2の発明においては、音声認識によって所定個数の操作コマンド候補を得ると共に被操作機器のステータスを取得し、取得した被操作機器のステータスに対応する度数分布データに従って操作コマンド候補の中から確率の高い操作コマンドを優先的に選択するものであり、操作コマンドの認識率を上げることができ、信頼性を向上させることが可能となる。また、被操作機器のステータスを選択された操作コマンドに対応するステータスに変更することが適切でないときは、その操作コマンドを被操作機器に供給しないため、被操作機器の誤動作を防止でき、これによっても信頼性を向上させることが可能となる。
【0014】
請求項3の発明においては、被操作機器に操作コマンドが供給される毎にメモリ手段の度数分布データが自動的に更新されるため、オペレータによる偏りをなくすことが可能となる。
【0015】
【実施例】
以下、図1を参照しながら、この発明の一実施例について説明する。本例は、VTRを操作するようにした例である。
【0016】
図において、11は音声入力操作装置である。マイクロホン12からの音声信号S11は音声認識システム13を構成する音声認識ボード14に供給される。音声認識ボード14にはCPU(中央処理ユニット)ボード15よりコントロールコマンドが供給され、音声信号S11で指定される操作コマンドの認識が行なわれ、その認識データはCPUボード15に取り込まれる。
【0017】
また、CPUボード15では、VTR17よりVTRインタフェース16を介して供給されるステータスデータを参照しながら、認識データを処理し、その処理結果に基づいてVTR17に対するコントロールコマンドを発生する。このコントロールコマンドは、VTRインタフェース16を介してVTR17に供給される。これにより、VTR17はマイクロホン12より音声入力された操作コマンドに応じた動作モードに制御される。
【0018】
これと同時に、CPUボード15はオペレータがなすべき操作等についてのメッセージデータを発生する。このメッセージデータはLCDインタフェース18を介して表示手段としてのLCD(液晶表示素子)モジュール19に供給され、LCDモジュール19にオペレータがなすべき操作等のメッセージが表示される。これにより、音声入力操作装置11は、オペレータがLCDモジュール19に表示されるメッセージを読み取って対話しながら、VTR17に対する操作コマンドを次々に音声入力し得るようにされる。
【0019】
なお、20はキーボードであり、このキーボード20を用いて1つのプログラムが終了するごとに確認動作をするためのデータを入力し、またはプログラムの途中でインターラプトを入力し得るようになされている。
【0020】
図2は、音声認識ボード14の構成を示している。
【0021】
図において、マイクロホン12から供給される音声信号S11はアナログインタフェース14Aを介して演算プロセッサ14Bに供給される。ここで、アナログインタフェース14Aは、システムコントローラ14Cから供給される制御データS12によって音声信号S11のレベルを制御すると共に、この音声信号S11をディジタル音声信号S13に変換してシリアルデータとして演算プロセッサ14Bに供給する。
【0022】
演算プロセッサ14Bは、アナログインタフェース14Aより供給されるディジタル音声信号S13を、ディジタルフィルタによって複数、例えば8チャネルに分けて周波数分析することによって音声パターンを形成すると共に、音声の発生速度の変動による音声パターンの時間的な歪みを修正する(これを「時間軸正規化」と呼ぶ)。そして、演算プロセッサ14Bは、この時間軸正規化された検出音声パターンを標準パターン登録メモリ14Dに登録されている全ての標準パターンと比較してパターン間のマッチング距離(時間軸正規化距離)を算出するマッチング処理をし、マッチング距離が最も小さい標準パターンの登録番号データを最有力操作コマンド候補CNO1として抽出し、マッチング距離が2番目に小さい標準パターンの登録番号データが準有力操作コマンド候補CNO2として抽出する。
【0023】
ここで、標準パターン登録メモリ14Dには、オペレータがVTR17に対する操作コマンドをマイクロホン12より音声入力したとき、その音声信号S11をディジタル周波数分析して、その結果を標準パターンとして登録番号を付して格納する。標準パターン登録メモリ14Dへの標準パターンの登録処理は、VTR17に対する制御動作に入る前に、マイクロホン12、アナログインタフェース14A、演算プロセッサ14Bを用いて実行される。
【0024】
システムコントローラ14Cは、この標準パターン登録メモリ14Dへの標準パターンの格納処理動作および演算プロセッサ14Bにおけるマッチング処理動作を、CPUボード15の制御の下に、クロック発生回路14Eにおいて発生されるクロックのタイミングで制御する。
【0025】
上述したように演算プロセッサ14Bで実行されたマッチング処理で抽出された最有力操作コマンド候補CNO1および準有力操作コマンド候補CNO2の登録番号データは、例えばシリアル入出力装置でなるインタフェース14Fを介して、CPUボード15のバス15Aに供給される。
【0026】
ここで、システムコントローラ14Cは、CPUボード15のCPU15B(図6参照)をホストプロセッサとして、コントロールコマンドデータを受けると共に、現在の動作状態を表すステータスコードデータをCPUボード15のCPU15Bに送出する。
【0027】
なお、音声認識ボード14としては、例えば日本電気株式会社から市販されている「音声認識LSIセット」を使用し得る。
【0028】
図3は、VTRインタフェース16の構成を示している。
【0029】
VTRインタフェース16は、CPUボード15のバス15Aにプロセッサ入出力装置(PIO)16Aを介して結合されたデコーダ16Bおよびエンコーダ16Cを有する。
【0030】
デコーダ16Bには、CPUボード15からコントロールコマンドCMDに対応するコードデータCODE1がプロセッサ入出力装置16Aを介して供給される。コントロールコマンドCMDは、図4に示すように19種類ある。デコーダ16BはコードデータCODE1をラッチ回路16B1に取り込み、そのラッチ出力をデコード回路16B2に供給する。
【0031】
デコード回路16B2はROMでなり、図4のコードデータCODE1をドライバ駆動データDRDに変換してドライバ16B3に供給する。これにより、ドライバ16B3からVTR17に対して、その動作モードを切り換え制御できる信号形式の駆動コマンドデータDRVが送出される。
【0032】
また、エンコーダ16Cは、VTR17の現在の動作モードを示すステータスデータSTATUSをレシーバ16C1に受けて、ROM構成のエンコード回路16C2に供給する。エンコード回路16C2は、図5に示すように12種類のステータスデータSTATUSを対応するコードデータCODE2に変換するものである。このエンコード回路16C2より出力されるコードデータCODE2はラッチ回路16C3でラッチされ、されにプロセッサ入出力装置16Aを介してCPUボード15のバス15Aに出力される。
【0033】
また、VTRインタフェース16は、VTR17においてテープから再生された制御パルス信号CTLを制御パルスレシーバ16Dに受けて、そのタイミングに同期するインターラプト信号INTをプロセッサ入出力装置16Aを介してCPUボード15のバス15Aに供給すると共に、制御パルスレシーバ16Dの出力をエンコーダ16Cのラッチ回路16C3にラッチ信号として供給することによって、ステータス信号STATUSに対応するコードデータCODE2をVTR17の再生動作と同期させながらCPUボード15側に取り込ませるようになされている。
【0034】
図6は、CPUボード15の構成を示している。
【0035】
CPUボード15は、音声認識ボード14からバス15Aに転送されてきたデータをCPU15Bを介してメモリ15Cに格納し、またVTRインタフェース16からバス15Aに転送されてきたデータを、CPU15Bを介してメモリ15Cに格納する。メモリ15Cは、音声認識ボード用メモリ部15C1、VTR用メモリ部15C2、メッセージメモリ部15C3および度数分布メモリ部15C4を有する。
【0036】
音声認識ボード用メモリ部15C1は、ROMおよびRAMで構成され、音声認識ボード14を駆動制御するために必要なコントロールコマンドを予めROMに格納し、このコントロールコマンドを必要に応じ読み出して音声認識ボード14に転送するようになされている。また音声認識ボード14からその現在の動作モードを示すステータスデータおよび音声パターン登録番号データが転送されてきたとき、これをRAMに一時記憶し、このステータスデータに基づいて、その後音声認識ボード14およびVTR17に対して転送すべきコントロールコマンドを決定するようになされている。
【0037】
また、VTR用メモリ部15C2は、同様にROMおよびRAMで構成され、VTR17を駆動制御するために必要なコントロールコマンドを予めROMに格納し、このコントロールコマンドを必要に応じて読み出してVTR17に転送するようになされている。これに対して、VTR17からその現在の動作モードを表すステータスデータが転送されてきたとき、これをRAMに一時記憶する。度数分布メモリ部15C4は、バッテリでバックアップされた書き換え可能メモリで構成され、図7に示すように現在のVTR17のステータスから次に実行される操作コマンドの対応度数分布データを格納するためのものである。CPU15Bは、VTR用メモリ部15C2に格納されたステータスデータおよび度数分布メモリ部15C4に格納された度数分布データを用いて、音声認識ボード14から供給される最有力操作コマンド候補CNO1および準有力操作コマンド候補CNO2に対応する登録番号データに対応した操作コマンドをVTR17に転送すべきか否かを判断する。
【0038】
また、メッセージメモリ部15C3には、LCDモジュール19に表示すべきメッセージについてのデータが格納されており、CPU15Bが音声認識ボード14およびVTR17から転送されてきたデータに基づいて、オペレータに対して提示すべきメッセージデータをメッセージメモリ部15C3から読み出してLCDインタフェース18を介してLCDモジュール19に供給できるようになされている。
【0039】
また、キーボード20から入力された認識またはインターラプトデータは、プロセッサ入出力装置15Dを介してCPU15Bに読み込まれる。
【0040】
さらにCPUボード15には、カウンタタイマコントローラ15Eが設けられ、VTRインタフェース16から転送されてくる制御パルス信号CTLのパルス数を計数したり、音声パターン登録番号データが入力される際の継続時間を計測したりする等の機能を、CPU15Bの制御の下で、実行するようになされている。
【0041】
以上の構成において、CPUボード15のCPU15Bは、図8に示す処理手順に従って、VTR17を操作コマンド入力手段としてのマイクロホン12より供給される音声信号S11に基づいて駆動制御する。
【0042】
ステップSP1においてシステム全体に対して電源が供給されると、CPU15BはステップSP2に移り、音声認識ボード用メモリ部15C1からコントロールコマンドを読み出して音声認識ボード14のシステムコントローラ14Cに転送することによって音声入力レベルの調整を実行させる。システムコントローラ14Cは、ステップSP3において、マイクロホン12から操作コマンド1語分の音声信号S11が入力されたとき、アナログインタフェース14Aによって音声信号S11の信号レベルを制御し、次のステップSP4において、その出力信号S13の信号レベルが基準レベルと一致しているか否かの判断をする。否定結果が得られると、CPU15BはステップSP2に戻って、再度アナログインタフェース14Aのレベル調整動作を実行させ、以後当該1語分の音声信号S11の信号レベルが基準レベルになるまでかかる動作が繰り返される。その結果、アナログインタフェース14Aの出力信号S13の信号レベルか基準レベルになると、ステップSP4において肯定結果が得られることにより、次のステップSP5に移る。
【0043】
このようにして、CPU15Bは、マイクロホン12から入力される音声信号S11の信号レベルを所定の基準レベルに合わせるように正規化し、これによりオペレータによる操作コマンドの音声入力レベルの差異の影響を除去するようになされている。
【0044】
次に、CPU15Bは、ステップSP5において、音声認識ボード14のシステムコントローラ14Cを標準パターン登録モードに制御する。このときシステムコントローラ14Cは、ステップSP6において現在マイクロホン12から入力されている音声信号S11の1語分のデータを演算プロセッサ14Bに取り込ませてその周波数成分の分析を行わせることにより標準パターンデータを検出させる。CPU15Bは、音声認識ボード14から転送されてくるステータスデータに基づき、ステップSP7において、この1語分の操作コマンドの検出動作が終了したか否かを確認し、検出動作が終了していない間は、再度ステップSP5に戻って標準パターンの検出動作を引続き実行させる。
【0045】
このようにして、1語分の標準パターンデータの検出が終了すると、当該検出された音声パターンに一連の登録番号を付して登録パターンとして標準パターン登録メモリ14Dに格納する。その結果、CPU15BはステップSP7において肯定結果を得ることによってステップSP8に移り、全ての操作命令についての標準パターンの登録が終了したか否かを判断する。
【0046】
ここで、否定結果が得られると、CPU15Bは再度ステップSP5に戻って、次の操作コマンドについての音声信号S11によって操作コマンド1語分の標準パターンの検出動作を実行させ、これに登録番号を付して標準パターン登録メモリ14Dに格納する。
【0047】
以下同様にして、CPU15Bは、全ての操作コマンドについてマイクロホン12から入力される音声信号S11に基づいて標準パターンを検出し、この標準パターンデータを標準パターン登録メモリ14Dに登録番号を付して格納する。この処理が終了するとCPU15Bは、ステップSP8において肯定結果を得ることができることにより、標準パターン登録モードについての処理動作を終了して次の操作コマンド認識モードに入る。なお、標準パターンが登録されたROMを標準パターン登録メモリ14Dとして内蔵し、上述した登録処理を省略してもよい。
【0048】
本例の場合、図4に示すようにVTR17に対して与えることができるコントロールコマンドCMDは19種類であり、これに応じてマイクロホン12を介して標準パターン登録メモリ14Dに登録できる操作コマンドは、図4のコントロールコマンドCMDと同じ内容をもち、「STOP」、「PLAY」、・・・、「RS4(×1/20)」と音声入力することで、各オペレータについての標準パターンが検出され、登録番号「1」、「2」・・・「19」が付されて登録されることになる。
【0049】
またステップSP5〜SP8における音声認識ボード14の動作状態および登録番号データはステータスデータとしてCPU15Bに転送され、音声認識ボード14の動作状態が逐次LCDモジュール19に表示されると共に、標準パターン登録メモリ14Dに登録された操作コマンドの内容および登録番号がLCDモジュール19に表示される。
【0050】
CPU15Bは、操作コマンド認識モードに入ると、ステップSP9において、システムコントローラ14Cに対し操作コマンド認識モードを実行すべきことを内容とするコントロールコマンドを転送する。そして、次のステップSP10においてマイクロホン12を介して音声信号S11が操作コマンド1語分だけ入力されたとき、CPU15Bはシステムコントローラ14Cによって音声信号S11をアナログインタフェース14Aを介して演算プロセッサ14Bに取り込ませ、周波数分析を実行することによって入力音声パターンを検出させ、その後当該検出音声パターンと標準パターン登録メモリ14Dに登録されている全ての標準パターンとのマッチング処理を実行する。
【0051】
この結果、マッチング距離が最も小さい標準パターンの登録番号データが最有力操作コマンド候補CNO1として抽出されると共に、マッチング距離が2番目に小さい標準パターンの登録番号データが準有力操作コマンド候補CNO2として抽出され、これらの登録番号データが現在実行されている操作コマンド認識モードにおいて入力された操作コマンドを示すデータとしてCPUボード15のCPU15Bに転送され、メモリ15Cの音声認識ボード用メモリ部15C1に格納される。
【0052】
この状態になると、CPU15Bは、上述した抽出動作の終了をステップSP11において確認し、ステップSP11において肯定結果を得ることができたとき、次のステップSP12に移る。
【0053】
なお、ステップSP11では、上述したように操作コマンド候補CNO1,CNO2を抽出する前に、例えば音声信号S11の信号レベルが所定のレベル範囲に入っているか、またはマイクロホン12に音声入力された操作コマンドの語調が所定の長さ例えば2秒以内であるか等も判定され、これにより音声信号S11が図4に示すようなコントロールコマンドCMDに対応するものであることを確認する。これにより、音声入力の認識精度を高めることができる。
【0054】
ステップSP11で音声入力レベルおよび語調に関して否定結果が得られた場合には、CPU15Bは当該音声入力データを無視し、ステップSP9に戻って操作コマンド認識プログラムをやり直すようにされている。
【0055】
このようにして、操作コマンド候補CNO1,CNO2を確認すると、CPU15Bは、ステップSP12においてVTRインタフェース16を介してVTR17からステータスデータを読み取って、VTR用メモリ部15C2に取り込む。そして当該取り込んだステータスデータに基づいて、最有力操作コマンド候補CNO1または準有力操作コマンド候補CNO2をVTR17に実行させるかどうかの判断をする。
【0056】
CPU15Bは、まずステップSP13において、次の3つの事項についてVTR17のステータス、すなわち現在の動作モードを確認する。
【0057】
CPU15Bは、第1にステップSP13において、「VTR17の電源が入っているか」を確認し、否定結果が得られたときステップSP15に移って「Power ON the VTR」というメッセージをLCDモジュール19に表示させた後、ステップSP9に戻って音声入力をやり直させる。
【0058】
また、CPU15Bは、第2にステップSP13において、「テープがセットされているか」を確認し、否定結果が得られたときステップSP15に移って「Stand by the Cassette」というメッセージをLCDモジュール19に表示させた後、ステップSP9に戻って音声入力をやり直させる。
【0059】
また、CPU15Bは、第3にステップSP13において、「コネクタが接続されているか」を確認し、否定結果が得られたときはステップSP15に移って「Connect with the VTR」というメッセージをLCDモジュール19に表示させた後、ステップSP9に戻って音声入力をやり直させる。
【0060】
これに対して、ステップSP13において、肯定結果が得られると、CPU15Bは次のステップSP20に移る。ステップSP20では、今回入力された操作コマンドに応じて操作コマンド認識モードで認識された最有力操作コマンド候補CNO1と準有力操作コマンド候補CNO2に対して、現在のVTR17のステータス(あるいは前回実行した操作コマンド)を考慮し、以下のように総合判断をする。
【0061】
図7に示すような現在のVTR17のステータスから次に実行される操作コマンドの対応度数分布表(TBL)が予め作成されているものとする。これは、CPUボード15の度数分布メモリ部15C4に格納されている。例えば、現在「REC」コマンドが実行されていて、VTR17のステータスが「REC」状態になっているとき、次に指示される操作コマンドは、通常「STOP」が一番度数が多く他の操作コマンドはほとんど0度数を示している。図7の度数分布表を参照し、現在のVTR17のステータスに関連して最も度数の多い操作コマンドが、最有力操作コマンド候補CNO1または準有力操作コマンド候補CNO2と一致しているかどうか判断する。
【0062】
このとき、最も度数の多い操作コマンドが最有力操作コマンド候補CNO1または準有力操作コマンド候補CNO2と一致している場合は、これを実行操作コマンドEXECとし、ステップSP14に移り、後述する禁止モードの判断が行なわれる。なお、現在のVTR17のステータスが「STOP」の場合は、次の操作コマンドが特定できないため、最有力操作コマンド候補CNO1を実行操作コマンドEXECとする。
【0063】
ステップSP20において、最有力操作コマンド候補CNO1または準有力操作コマンド候補CNO2が共に不適切と判断された場合は、「Speak Another Command」というメッセージをLCDモジュール19に表示させた後、ステップSP9に戻って新たな操作コマンド認識プログラムに入る。
【0064】
ステップSP20における処理は、例えば入力された操作コマンドが不明瞭、または誤って別の操作コマンドを発生した場合において、認識されるべき候補を2つ挙げると共に統計データからより確率的に正しそうな操作コマンド候補を選択することによって、音声入力の認識率の積極的な向上が可能となる。
【0065】
ステップSP20において肯定結果が得られると、CPU15Bは次のステップSP14に移って、VTR17が前回に実行したコマンドと、ステップSP20で選択された実行操作コマンドEXECとの関係をチェックし、これによりステップSP20で判断された実行操作コマンドEXECの内容がVTR17の動作モードから考えて適切であるか否かの判断をする。つまり、下記の禁止モードのような場合に対して、実行操作コマンドEXECを実行するかどうかの判断をする。
【0066】
実際上、VTR17のシステムコントローラは、VTR17の現在の動作モードから次の動作モードに切り換える際に、切り換えてはならない禁止モードをもっており、かくしてVTR17が異常動作をしないようになされている。CPU15Bは、かかるVTR17のシステムコントローラとの関係を考慮して、以下に述べる場合のように不適切な操作コマンドが入力されたときには、これをステップSP14において判断することによって、当該不適切な操作コマンドにVTR17が応動しないようになされている。
(1)VTR17のステータスが巻戻しモードである場合
CPU15Bは、VTR17のステータスが巻戻しモード(REW)である場合において、実行操作コマンドEXECが「PLAY」であるとき、前回の実行操作コマンドEXECを参照し、その内容が「PLAY」であれば、ステップSP14において否定結果を得て、ステップSP15に移って「Wait For A While」というメッセージをLCDモジュール19に表示してステップSP9に戻る。
【0067】
このようにするのは、前回の実行操作コマンドEXECが「PLAY」で、かつVTR17のステータスが「REW」であるということは、VTR17が前回の「PLAY」の実行操作コマンドEXECによって再生モード状態に入って磁気テープが最後まで再生された後、VTR17のシステムコントローラが自動巻戻しモードに入ったことを意味している。自動巻戻し動作は、VTR17のシステムコントローラの判断によって実行されているもので、システムコントローラの動作を混乱させないためには、この巻戻し動作が終了するまで新たなコントロールコマンドをVTR17に供給しないようにすることが必要である。
(2)「STOP」モードが必要な場合
VTR17のシステムコントローラは、その動作を確実にするため、「PLAY」、「REC」、「FF」、「REW」、「EJECT」モードに入るには、VTRが「STOP」モードになっていることを必要条件としてVTR17を制御している。
【0068】
CPU15Bは、操作コマンドが入力されたとき、VTR17がかかる必要条件を満足しないようなステータスにあるときには、これをステップSP14において判断して否定結果を得る。そしてステップSP15において「Speak Another Command」というメッセージをLCDモジュール19に表示した後ステップSP9に戻って新たな操作コマンド認識プログラムに戻る。
(3)同じ操作コマンドが音声入力された場合
CPU15Bは、ステップSP14において、VTR17から転送されてきたステータスデータと、実行操作コマンドEXECとが同一であることを判断すると、VTR17のステータスに対して操作コマンドが不適切であるので、否定結果を発生してステップSP15に移り、「Speak Another Command」のメッセージをLCDモジュール19に表示した後、ステップSP9に戻って新たな操作コマンド認識プログラムに入る。
(4)実行し得ない操作コマンドが音声入力された場合
VTR17は、「FF」または「REW」動作モードから、直接「REC」、「EJECT」動作モードに切り換えることができないように、システムコントローラによって制御されており、VTR17は、「FF」または「REW」モードにあるとき、一旦「STOP」モードに切り換えた後、「REW」、「EJECT」モードに切り換え操作しなければならない。
【0069】
したがって、CPU15Bは、VTR17が「FF」または「REW」ステータスにあるとき、実行操作コマンドEXECが「REC」、「EJECT」であるときには、これをステップSP14において判断して、否定結果を発生し、ステップSP15において「Speak Another Command」のメッセージをLCDモジュール19上に表示させた後、ステップSP9に戻って新たな操作コマンド認識プログラムに入る。
【0070】
ステップSP14において、適切な実行操作コマンドEXECと判断された場合は、ステップSP16に移り、入力された操作コマンドに対応するコントロールコマンドをVTR用メモリ部15C2より読み出してVTRインタフェース16を介してVTR17に転送する。その結果、VTR17は当該操作モードに切り替わる。
【0071】
ステップSP21では、図7の度数分布の更新が行なわれる。つまり、度数分布メモリ部15C4の当該ステータスおよび当該操作コマンドに対応する部分の度数に1が加算される。なお、このとき度数分布メモリ部15C4の当該部分がオーバーフローしそうな場合、当該ステータスの中で当該部分以外の部分の度数に−1が加算される(アンダーフローは0にクリップする)。このようにして、常に度数分布メモリ部15C4の度数分布データは更新され、オペレータまたは使用環境での操作の偏りを充分考慮できるようになっている。
【0072】
CPU15Bは、ステップSP17において肯定結果が得られると、ステップSP18に移って当該プログラムを終了する。ここで、ステップSP17においてプログラムの終了を判断させる方法としては、図5の登録番号「9」の「END」コントロールコマンドを送出させるように、マイクロホン12から「END」操作コマンドを音声入力するか、キーボード20を用いてCPU15Bに対してインタラプトをかけるようにすればよい。
【0073】
なお、上述実施例においては、最有力操作コマンド候補CNO1および準有力操作コマンド候補CNO2の2つの候補の中から度数分布に従って実行操作コマンドEXECを選択するようにしたものであるが、候補は1つでもよく、また3つ以上であってもよい。
【0074】
また、上述せずも、複数のオペレータの個々の度数分布を度数分布メモリ部15C4に用意しておき、各々のオペレータは自分の度数分布を選択的に使用できるようにしてもよい。
【0075】
また、上述実施例においては、この発明をVTRに適用した場合について述べたが、これに限らず広く情報記録再生装置に適用することができる。またLCDモジュール19に表示させるメッセージは、必要に応じて変更し得ることは勿論である。
【0076】
【発明の効果】
請求項1の発明によれば、音声認識によって所定個数の操作コマンド候補を得ると共に被操作機器のステータスを取得し、取得した被操作機器のステータスに対応する度数分布データに従って操作コマンド候補の中から確率の高い操作コマンドを優先的に選択するものであり、操作コマンドの認識率を上げることができ、信頼性を向上させることができる。
【0077】
請求項2の発明によれば、音声認識によって所定個数の操作コマンド候補を得ると共に被操作機器のステータスを取得し、取得した被操作機器のステータスに対応する度数分布データに従って操作コマンド候補の中から確率の高い操作コマンドを優先的に選択するものであり、操作コマンドの認識率を上げることができ、信頼性を向上させることができる。また、被操作機器のステータスを選択された操作コマンドに対応するステータスに変更することが適切でないときは、その操作コマンドを被操作機器に供給しないため、被操作機器の誤動作を防止でき、これによっても信頼性を向上させることができる。
【0078】
請求項3の発明によれば、被操作機器に操作コマンドが供給される毎にメモリ手段の度数分布データが自動的に更新されるため、オペレータによる偏りをなくすことができる。
【図面の簡単な説明】
【図1】この発明に係る音声入力操作装置の一実施例の構成を示すブロック図である。
【図2】音声認識ボードの構成例を示すブロック図である。
【図3】VTRインタフェースの構成例を示すブロック図である。
【図4】VTRインタフェースで処理されるコントロールコマンドを示す図である。
【図5】VTRインタフェースで処理されるステータスデータを示す図である。
【図6】CPUボードの構成例を示すブロック図である。
【図7】度数分布データ例を示す図である。
【図8】実施例の処理手順を示すフローチャートである。
【図9】従来の音声入力操作装置を示す図である。
【符号の説明】
11 音声入力操作装置
12 マイクロホン
13 音声認識システム
14 音声認識ボード
15 CPUボード
16 VTRインタフェース
17 VTR
18 LCDインタフェース
19 LCDモジュール
15C4 度数分布メモリ部

Claims (3)

  1. 音声入力による操作コマンドを認識して被操作機器に対する所定個数の操作コマンド候補を得る音声認識手段と、
    上記被操作機器のステータスを得るステータス取得手段と、
    上記被操作機器のステータスと次に実行される操作コマンドとの対応を示す度数分布データを格納するメモリ手段と、
    上記音声認識手段で得られる操作コマンド候補の中から上記メモリ手段に格納されている上記ステータス取得手段で取得された上記被操作機器のステータスに対応する度数分布データに従って確率の高い操作コマンドを優先的に選択する操作コマンド選択手段とを備え、
    上記操作コマンド選択手段で選択される操作コマンドを上記被操作機器に供給することを特徴とする音声入力操作装置。
  2. 音声入力による操作コマンドを認識して被操作機器に対する所定個数の操作コマンド候補を得る音声認識手段と、
    上記被操作機器のステータスを得るステータス取得手段と、
    上記被操作機器のステータスと次に実行される操作コマンドとの対応を示す度数分布データを格納するメモリ手段と、
    上記音声認識手段で得られる操作コマンド候補の中から上記メモリ手段に格納されている上記ステータス取得手段で取得された上記被操作機器のステータスに対応する度数分布データに従って確率の高い操作コマンドを優先的に選択する操作コマンド選択手段と、
    上記被操作機器のステータスを上記操作コマンド選択手段で選択された操作コマンドに対応するステータスに変更することが適切か否かを判断する操作コマンド適否判断手段とを備え、
    上記操作コマンド適否判断手段で適切であると判断された操作コマンドを上記被操作機器に供給することを特徴とする音声入力操作装置。
  3. 上記被操作機器に操作コマンドが供給される毎に、上記メモリ手段の度数分布データを自動的に更新することを特徴とする請求項1または2記載の音声入力操作装置。
JP20070693A 1993-08-12 1993-08-12 音声入力操作装置 Expired - Lifetime JP3703502B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20070693A JP3703502B2 (ja) 1993-08-12 1993-08-12 音声入力操作装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20070693A JP3703502B2 (ja) 1993-08-12 1993-08-12 音声入力操作装置

Publications (2)

Publication Number Publication Date
JPH0757336A JPH0757336A (ja) 1995-03-03
JP3703502B2 true JP3703502B2 (ja) 2005-10-05

Family

ID=16428879

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20070693A Expired - Lifetime JP3703502B2 (ja) 1993-08-12 1993-08-12 音声入力操作装置

Country Status (1)

Country Link
JP (1) JP3703502B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4628803B2 (ja) * 2005-01-25 2011-02-09 本田技研工業株式会社 音声認識型機器制御装置

Also Published As

Publication number Publication date
JPH0757336A (ja) 1995-03-03

Similar Documents

Publication Publication Date Title
US5666555A (en) Audio output method and apparatus in multi-window system
JP3703502B2 (ja) 音声入力操作装置
JP3244203B2 (ja) 情報処理装置
JP2002278591A (ja) 情報処理装置および情報処理方法、並びに、プログラム記録媒体
JPH0828005B2 (ja) 音声入力操作装置
KR920002944B1 (ko) Vtr의 화면 앙코르 재생방법
KR100491753B1 (ko) 음성처리보드의 음성신호 검출 방법
US5355495A (en) Control system for a recording and/or reproducing apparatus
JPH1115490A (ja) マイクロフォン装置および音声認識システム
KR100239144B1 (ko) 카세트 플레이어용 문자정보 표시장치 및 표시방법
JPS5834578Y2 (ja) デ−タ書込み装置
JPS59198551A (ja) テ−プレコ−ダ
KR0186214B1 (ko) 프로그램 편집제어장치 및 그 방법
KR960011286B1 (ko) 캡션 데이타를 이용한 자동 반복 재생장치 및 방법
KR0157521B1 (ko) 선형 시간카운터를 이용한 색인 기록방법
KR100213088B1 (ko) 디지탈 비디오 카메라의 녹화 안전장치 및 방법
US20040243399A1 (en) Computer system and method of controlling the same
JP3018790B2 (ja) プログラマブルコントローラ
JP3104146U (ja) 記録再生装置
JPH1186581A (ja) 制御装置
JPH07122044A (ja) 磁気記録再生装置
JPS61218235A (ja) 信号判定回路
JPH0778095A (ja) プログラム異常原因解析装置
JPH09134214A (ja) 記録再生装置
JPS6047269A (ja) 情報記録・読出し装置

Legal Events

Date Code Title Description
A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050720

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080729

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090729

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090729

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100729

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100729

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110729

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120729

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130729

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term