JP2006330576A

JP2006330576A - 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体

Info

Publication number: JP2006330576A
Application number: JP2005157300A
Authority: JP
Inventors: Hirohito Morioka; 宏仁森岡
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2005-05-30
Filing date: 2005-05-30
Publication date: 2006-12-07

Abstract

【課題】音声認識に際し、ユーザ毎の事前の声紋登録が不要で、且つ膨大な辞書データを必要とせず、音声認識率を向上させることが可能な、音声認識技術を用いた機器操作システムを提供する。
【解決手段】ユーザが行った所定操作に応じて所定処理を実行する電子機器（画像形成装置１０で例示）を備える。画像形成装置１０又はそれに接続された情報処理装置は、音声入力手段１４と、画像形成装置１０において現在実行可能な操作内容に関する単語のみに限定した限定辞書データ１５ａを用いて、音声入力手段１４で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段１５と、その認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段１２ａとを備える。画像形成装置１０は、コマンド生成手段１２ａで生成されたコマンドにより所定処理を実行する。
【選択図】図１

Description

本発明は、音声認識技術を用いた機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体に関する。

従来から、音声認識技術は、キー操作などの代替手段として、電子機器を音声入力により操作するためにも利用されている。このような電子機器は、マイクロフォンで入力した音声を認識する音声認識装置を備え、音声認識データに基づき操作が行えることから、健常者だけでなく弱視の人などにとっても、操作性が向上する。

このような電子機器の一つとして、操作性の向上並びに弱視の人などでも容易に操作することを目的とした複写機が開示されている（例えば、特許文献１を参照）。特許文献１に記載の複写機は、音声信号を入力するための音声入力手段と、音声信号に対応する複写動作信号及び音声応答信号を出力する音声認識手段と、複写動作信号に応答して複写動作を制御し、運転状態を表す信号を出力する動作制御手段と、音声応答信号及び運転状態を表す信号に対応する音声信号を出力する音声出力手段とを備えている。

また、簡単な操作により動作モードの選択、さらにはタイマ設定等を行うことを目的としたファクシミリ装置も開示されている（例えば、特許文献２を参照）。特許文献２に記載のファクシミリ装置は、音声情報を入力する入力手段と、入力手段により入力された音声情報を認識する音声認識手段と、複数の動作モードの各々を特定するための複数の動作モード特定情報を記憶する動作モード特定情報記憶手段と、音声認識手段によって認識された音声情報が、複数の前記動作モード特定情報の少なくとも一つと一致するか否かを判断し、一致すると判断された場合にその動作モード特定情報に対応する動作モードを選択するように制御する制御手段とを備えている。
特開昭５８−１４８４６号公報特開２０００−９２２５９号公報

しかしながら、特許文献１，２をはじめとする従来の音声認識技術は、音声認識の精度に問題があり、認識精度を上げようとすると予めユーザ毎に声紋登録をしておく必要がある。このような事前にユーザ毎に声紋登録をする必要がある電子機器では、音声認識を行いたいときに直ぐに利用できず、不便である。また、音声認識率を高くしようとする他の方法としては、単語や文節などの辞書データを膨大に登録しておく方法が考えられるが、このような方法や予めユーザ毎の声紋登録を行う方法を採用すると、高価な装置になってしまう。

本発明は、上述のごとき実情に鑑みてなされたものであり、音声認識に際し、ユーザ毎の事前の声紋登録が不要で、且つ膨大な辞書データを必要とせず、音声認識率を向上させることが可能な、音声認識技術を用いた機器操作システム、音声認識装置、該装置を備えた電子機器、該装置を備えて電子機器を操作する情報処理装置、音声認識プログラム、及び該プログラムを記録したコンピュータ読み取り可能な記録媒体を提供することをその目的とする。

本発明は、上述のごとき課題を解決するために、以下の各技術手段でそれぞれ構成される。

第１の技術手段は、ユーザが行った所定操作に応じて所定処理を実行する電子機器を備え、該電子機器を音声により操作するための機器操作システムであって、音声を入力する音声入力手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段と、該音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段とを備え、該コマンド生成手段で生成されたコマンドにより、前記電子機器に対し所定処理を実行させることを特徴としたものである。

第２の技術手段は、第１の技術手段において、前記音声認識手段は、前記音声入力手段で入力した音声を辞書データにより音声認識して中間データを生成し、その後、該中間データに対し、前記限定辞書データを用いたデータ認識を実行し、前記認識データを生成することを特徴としたものである。

第３の技術手段は、電子機器に搭載又は接続するための音声認識装置であって、音声を入力する音声入力手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段と、該音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段と、該コマンド生成手段で生成されたコマンドを前記電子機器の本体側に出力するコマンド出力手段とを備えたことを特徴としたものである。

第４の技術手段は、ユーザが行った所定操作に応じて所定のコマンドを発生させるコマンド発生手段と、該コマンド発生手段で発生させたコマンドに従って所定処理を実行するコマンド実行手段とを備えた電子機器において、音声を入力する音声入力手段と、当該電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段とを備え、前記コマンド発生手段は、前記音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段を有することを特徴としたものである。

第５の技術手段は、第４の技術手段において、前記コマンド実行手段の一手段として、ユーザが前記所定操作を行うことを支援するためのユーザインターフェース画面を表示する表示手段を備えたことを特徴としたものである。

第６の技術手段は、第５の技術手段において、階層的に複数のユーザインターフェース画面を記憶する記憶手段を備え、前記表示手段は、前記コマンド発生手段で発生されたコマンドが示す次の階層の所定のユーザインターフェース画面を、前記記憶手段から読み出して順次表示する手段を有することを特徴としたものである。

第７の技術手段は、電子機器にネットワークを介して接続可能な情報処理装置であって、前記電子機器で入力された音声のデータを、ネットワークを介して受信する音声受信手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声受信手段で受信した音声のデータに対し音声認識を施して、認識した結果である認識データを生成する音声認識手段と、前記音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段と、該コマンド生成手段で生成されたコマンドを前記電子機器に送信するコマンド返信手段とを備えたことを特徴としたものである。

第８の技術手段は、第７の技術手段における情報処理装置にネットワークを介して接続可能な電子機器であって、ユーザが行った所定操作に応じて所定のコマンドを発生させるコマンド発生手段と、該コマンド発生手段で発生させたコマンドに従って所定処理を実行するコマンド実行手段と、音声を入力する音声入力手段と、該音声入力手段で入力された音声のデータを前記情報処理装置に送信する音声送信手段と、該音声送信手段で送信した音声に対する応答として、前記情報処理装置における前記コマンド返信手段で送信されたコマンドを受信するコマンド受信手段とを備え、前記コマンド実行手段は、前記コマンド受信手段でコマンドを受信した場合、受信したコマンドに従って所定処理を実行することを特徴としたものである。

第９の技術手段は、第７の技術手段において、前記限定辞書データを、前記電子機器からネットワークを介して受信する限定辞書データ受信手段を備え、前記音声認識手段は、前記限定辞書データ受信手段で受信した限定辞書データを音声認識に用いることを特徴としたものである。

第１０の技術手段は、第８の技術手段において、第９の技術手段における情報処理装置に対し、ネットワークを介して前記限定辞書データを送信する限定辞書データ送信手段を備えたことを特徴としたものである。

第１１の技術手段は、電子機器にネットワークを介して接続可能な情報処理装置であって、音声を入力する音声入力手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段と、前記音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段と、該コマンド生成手段で生成されたコマンドを前記電子機器に送信するコマンド送信手段とを備えたことを特徴としたものである。

第１２の技術手段は、第１１の技術手段における情報処理装置にネットワークを介して接続可能な電子機器であって、ユーザが行った所定操作に応じて所定のコマンドを発生させるコマンド発生手段と、該コマンド発生手段で発生させたコマンドに従って所定処理を実行するコマンド実行手段と、前記情報処理装置における前記コマンド送信手段で送信されたコマンドを受信するコマンド受信手段とを備え、前記コマンド実行手段は、前記コマンド受信手段でコマンドを受信した場合、受信したコマンドに従って所定処理を実行することを特徴としたものである。

第１３の技術手段は、電子機器にネットワークを介して接続可能な情報処理装置であって、音声を入力する音声入力手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段と、該音声認識手段で生成された認識データを前記電子機器に送信する認識データ送信手段とを備えたことを特徴としたものである。

第１４の技術手段は、第１３の技術手段における情報処理装置にネットワークを介して接続可能な電子機器であって、ユーザが行った所定操作に応じて所定のコマンドを発生させるコマンド発生手段と、該コマンド発生手段で発生させたコマンドに従って所定処理を実行するコマンド実行手段と、前記情報処理装置における前記認識データ送信手段で送信された認識データを受信する認識データ受信手段とを備え、前記コマンド発生手段は、前記認識データ受信手段で受信された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段を有し、前記コマンド実行手段は、前記コマンド生成手段で生成されたコマンドを実行することを特徴としたものである。

第１５の技術手段は、電子機器、又は該電子機器とネットワーク接続された情報処理装置に組み込んで、入力された音声を認識するための音声認識用プログラムであって、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、入力された音声を認識する処理を、前記電子機器の演算処理装置又は情報処理装置の演算処理装置に実行させることを特徴としたものである。

第１６の技術手段は、電子機器に組み込んで、入力された音声を認識するための音声認識用プログラムであって、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、入力された音声を認識して、認識した結果である認識データを生成する音声認識ステップと、該生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成ステップとを、前記電子機器の演算処理装置に実行させることを特徴としたものである。

第１７の技術手段は、電子機器と接続可能な情報処理装置に組み込んで、入力された音声を認識するための音声認識用プログラムであって、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、入力された音声を認識して、認識した結果である認識データを生成する音声認識ステップと、該生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成ステップとを、前記電子機器の演算処理装置に実行させることを特徴としたものである。

第１８の技術手段は、第１５乃至第１７のいずれかのプログラムを記録したコンピュータ読み取り可能な記録媒体である。

本発明によれば、音声認識に際し、ユーザ毎の事前の声紋登録が不要で、且つ膨大な辞書データを必要とせず、音声認識率を向上させることが可能となり、その音声認識により精度よく電子機器の操作が可能となる。

本発明は、ユーザが行った所定操作に応じて所定処理を実行する電子機器に対し、ユーザが音声により操作するためのものである。本発明に係る機器操作システム（以下、本システムという）は、音声入力手段、音声認識手段、及びコマンド生成手段を備え、コマンド生成手段で生成されたコマンドにより、電子機器本体に対し所定処理を実行させる。なお、この電子機器は、ユーザが所定操作を支援するためのユーザインターフェース画面を表示する表示手段を備えたものであって、且つ画面毎に操作内容が階層的に変化していくものであることが好ましい。

音声入力手段は、ユーザが発した音声を入力する。音声認識手段は、その電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する。この限定辞書データは、現在実行可能の操作内容に応じて単語数がシェープアップされているので、認識率を上げることが可能となる。また、音声認識手段では、まず、現在実行可能な操作内容（電子機器で現在入力可能な設定条件）を判断手段によって判断し、その判断に従った限定辞書データを用いて音声認識することにより、現在実行可能な操作内容（設定条件）のみを音声で受け付けることを可能にしている。

コマンド生成手段は、音声認識手段で生成された認識データに基づき、その認識データが示す操作内容を実行するためのコマンドを生成する。ここで生成するコマンドは、通常、電子機器において、コマンド発生手段がユーザがキー入力などにより行った所定操作に応じて発生させる所定のコマンドである。そして、電子機器におけるコマンド実行手段は、キー入力によるものや本発明の特徴である音声入力によるものに拘わらず、ユーザ操作に応じて、コマンド発生手段（コマンド生成手段を含む）で発生させたコマンドに従って、所定処理を実行する。ここで実行される所定処理には、例えば電子機器が画像形成装置であれば「２部コピー」など、その電子機器で実行可能な処理が該当する。

上述のごとき本システムを構築するためには、その一形態として、入力された音声を認識するための音声認識用プログラムを、電子機器又は電子機器とネットワーク接続された情報処理装置に組み込むことでも実現できる。このような音声認識用プログラムは、電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、入力された音声を認識する処理を、電子機器の演算処理装置又は情報処理装置の演算処理装置に実行させるものである。このプログラムは、通常、記憶装置に実行可能に格納され、演算処理装置によってＲＡＭ等の作業領域に読み出されて実行される。

また、音声認識手段は、音声入力手段で入力した音声を辞書データにより音声認識して中間データを生成し、その後、その中間データに対し、限定辞書データを用いた認識を実行し、認識データを生成するようにしてもよい。本システムを、上述のごとき音声認識用プログラムとして組み込む場合、この中間データ生成のステップを実行するプログラムは、マイクロソフト社のＭＳ−ＩＭＥ等、既存の音声認識プログラムで代用でき、特に認識精度を問われるものではない。そして、本システムではこの音声認識プログラムの出力結果を元に、限定辞書データによって候補の絞り込み又は変更を行えばよい。

上述のごとき構成により、本発明に係る機器操作システムでは、例えば、ユーザが画像形成装置を操作する際に「ニブ」と発声した場合、通常の辞書データでは「イブ」，「イプ」などと誤認識してしまうこともあったが、現時点で操作可能な単語に絞った限定辞書データを用いているので「２部」であるとの精確な判定ができ、それに伴った処理も可能となる。

このように、本発明によれば、音声認識に際し、ユーザ毎の事前の声紋登録が不要で、且つ膨大な辞書データを必要とせず、音声認識率を向上させることが可能となり、その音声認識により精度よく電子機器の操作が可能となる。また、本発明に係る電子機器において、ユーザを認証するユーザ認証手段を備えた構成を採用する場合であっても、限定辞書データによる音声認識はユーザ別の音声認識ではないので、ユーザ認証結果を必要とせずに高精度な音声認識を可能とする。

以下、本システムのいくつかの構築例について、図面を参照しながら説明する。以下の説明においては、操作によって処理を行う対象となる電子機器の例として多機能プリンタ（ＭＦＰ）等の画像形成装置を挙げる。なお、操作により処理を行う対象となる電子機器としては、画像形成装置だけでなく、キー入力等によってユーザ操作可能な一般的な電子機器であればよく、その中にはＰＣ等の情報処理装置も含まれるものとする。また、このような電子機器に対し、ＰＣやサーバ等の情報処理装置（上述の情報処理装置とは役割が異なる）で音声認識の全部又は一部を行い、接続された電子機器の処理を実行させるといった形態についても、ＰＣが画像形成装置に接続されてなるシステム、並びにサーバが画像形成装置に接続されてなるシステムを挙げて説明する。

図１は、本発明の一実施形態に係る音声認識装置を備えた画像形成装置の構成例を示す図で、図２は、図１の画像形成装置における操作画面の一例を示す図である。図１において、１０は音声認識装置を備えた画像形成装置、１１はキー入力手段、１２はコマンド発生手段、１３はコマンド実行手段、１３ａは表示手段、１３ｂは音声出力手段、１３ｃは辞書切換手段、１４は音声入力手段、１５は音声認識手段、１５ａは限定辞書データの記憶部（しばしば単に「限定辞書データ」を表す）である。また、図２において、１１ａは一般入力ボタン、１１ｂは操作パネル、１４ａはマイクロフォンである。

画像形成装置１０は、タッチパネルやボタンスイッチなどで構成されたキー入力手段１１と、キー入力手段１１で入力された操作内容に対応するコマンドを発生させるコマンド発生手段１２と、コマンド発生手段１２で発生したコマンドを実行するコマンド実行手段１３とを備えるものとする。キー入力手段１１、コマンド発生手段１２、及びコマンド実行手段１３自体は、通常の画像形成装置に具備されたものである。

そして、図１で例示する画像形成装置１０は、本発明に係る音声認識装置として、音声入力手段１４、音声認識手段１５（限定辞書データ１５ａを含む）、及びコマンド生成手段１２ａを備えるものとする。この音声認識装置は、画像形成装置１０等の電子機器に搭載又は接続するためのものであり、図１の例では、画像形成装置１０に搭載された状態を例示している。

音声入力手段１４は、マイクロフォン等で構成され、音声を入力する手段である。音声認識手段１５は、画像形成装置１０において現在実行可能な操作内容に関する単語のみに限定した限定辞書データ１５ａを用いて、音声入力手段１４で入力した音声を認識して、認識した結果である認識データを生成する手段であり、例えば画像形成装置１０のファームウェアとしての音声認識用プログラム（及びそれを実行するためのＣＰＵ，ＲＡＭ等）によって構成される。この音声認識用プログラムは、入力された音声データに対し音声認識処理を施す音声認識ステップ、及び、後述するコマンドを生成するコマンド生成ステップとを、画像形成装置１０の演算処理装置に実行させるプログラムである。

また、音声認識装置を画像形成装置１０に組み込んだこの形態にあっても、通常の辞書データにより中間データを生成してから限定辞書データを用いて、認識データを生成（中間データの各候補を限定）するようにしてもよい。このような構成により、汎用的な音声認識処理により音声操作可能な既存の画像形成装置に対して、より精確な音声認識結果を得るための認識率強化オプションとして、本発明を適用することができる。さらに、本発明の音声認識処理を限られた操作でのマッチングにのみ（例えばコマンド処理のときのみ）利用し、メール文の音声による入力などは、通常の音声認識処理に切り換えるといったことも可能となる。

コマンド生成手段１２ａは、音声認識手段１５で生成された認識データに基づき、その認識データが示す操作内容を実行するためのコマンドを生成する手段である。コマンド生成手段１２ａで生成されたコマンドは、画像形成装置１０の本体側、すなわちコマンド発生手段１２を介して又は直接、コマンド実行手段１３に出力される。このように、コマンド生成手段１２ａは、コマンド発生手段１２の一部であり、音声入力に基づいてキー入力のときと同様のコマンドを発生させることが可能であればよい。

音声認識処理からコマンド生成処理までの一例としては、入力された音声のデータに対し、画像形成装置１０において現在実行可能な操作内容に対応する単語の中から該当するテキストデータを選出することで音声認識処理を施し、選出されたテキストデータに基づき、そのテキストデータが示す操作内容を実行するためのコマンドを生成する。

また、図１においてコマンド実行手段１３としては、画像形成装置であれば、印字手段や画像読取手段やファイル転送手段など様々な処理を実行する手段が挙げられるが、その他、キー入力や音声入力によるユーザ操作に関わるものとしては、例えば表示手段１３ａ、音声出力手段１３ｂ、及び辞書切換手段１３ｃが挙げられる。但し、辞書切換手段１３ｃは、本発明に係る音声認識処理を行うために付加したコマンド実行手段の一つであり、音声認識手段１５に含まれるものである。また、音声出力手段１３ｂは、本発明に係る音声認識処理を行う際にユーザ補助を行うために付加したコマンド実行手段の一つである。

表示手段１３ａは、ユーザが所定操作を行うことを支援するためのユーザインターフェース画面を表示する手段であって、通常、キー入力手段１１がタッチパネルで構成される形態などのときにキー入力手段１１と連携し、キー入力を補助するための画面表示を行う。このような画面は階層的に用意されていることが多く、その際には、階層的に複数のユーザインターフェース画面を記憶する記憶手段を備えておき、表示手段１３ａが、コマンド生成手段１２ａを含むコマンド発生手段１２で発生されたコマンドが示す次の階層の所定のユーザインターフェース画面を、この記憶手段から読み出して順次表示する。

図２（Ａ）を参照すると、画像形成装置１０の操作部には、キー入力手段１１及び表示手段１３ａの一例として、タッチパネルでなる操作パネル１１ｂをはじめ、文書ファイリングボタン、ＦＡＸ／イメージ送信ボタン、コピーボタン、及びユーザ設定ボタンなどの専用ボタン、さらにはテンキー及びスタートボタン等の一般入力ボタン１１ａが設けられている。操作パネル１１ｂには、コピーに関する複数の設定ボタン１１ｃが表示されており、例えば用紙選択ボタン１１ｄ、原稿種類選択ボタン、コピー濃度設定ボタン、変倍率設定ボタン等が、押下可能に表示されている。また、操作パネル１１ｂには、コピーに関する複数の機能（可能な操作）等も表示されており、例えば、両面コピー設定領域、仕上げ設定領域、及びファイリング設定領域が押下可能に表示されている。さらに、操作部には、音声入力手段１４の一例としてマイクロフォン１４ａが設けられている。

このような画像形成装置１０に対し、例えば、初めに図２（Ａ）に示すような機能一覧の画面を表示する。次に、ユーザが、その中から用紙選択ボタン１１ｄの領域を押下した場合には、図２（Ｂ）に示すような下層の「Ａ４」選択ボタン１１ｆの領域や他の用紙を選択する領域を含んだ選択領域１１ｅが操作パネル１１ｂ上に表示される。

音声出力手段１３ｂは、音声入力を補助するために、例えば選択可能な項目を読み上げるなどの音声出力を行う手段で、表示手段１３ａと同様、ユーザ補助を行うためのものである。

辞書切換手段１３ｃは、現在実行可能な操作内容に応じて、限定辞書データ１５ａを切り換える手段である。例えば、図２（Ａ）に示すような機能一覧を示す操作内容の単語群の限定辞書データから、図２（Ｂ）に示すような下層の操作内容の単語群の限定辞書データへと切り換える。なお、現在実行可能な操作内容は、表示手段１３ａで表示する画面で表示されているものが多く、その他としては、タッチパネル以外の操作ボタンでの操作が存在している。

図３は、本発明の他の実施形態に係る機器操作システムの構成例を示す図で、図中、２０はサーバやＰＣ等の情報処理装置（以下、サーバで説明）、２１は音声受信手段、２２は音声認識手段、２２ａは限定辞書データの記憶部、２３はコマンド生成手段、２４はコマンド返信手段、３０は画像形成装置、３１は音声入力手段、３２は音声送信手段、３３はコマンド受信手段、３４はコマンド実行手段である。

なお、画像形成装置３０でも、図１で示したようなキー入力手段１１やコマンド発生手段１２を備えるが（コマンド生成手段は画像形成装置３０側には含まない）、図示並びにその説明を省略する。さらに、図３においては、コマンド実行手段３４にも図１の表示手段１３ａや音声出力手段１３ｂをはじめ様々な手段が含まれるが（但し、辞書切換手段１３ｃは不要である）、図示並びにその説明を省略する。

本実施形態に係る機器操作システムは、画像形成装置３０を音声で操作する際に、音声認識をサーバ２０で行うものであり、そのため、画像形成装置３０はサーバ２０にネットワーク経由で接続されているものとする。勿論、サーバ２０に複数の画像形成装置３０を接続し、複数の画像形成装置の操作内容に、さらには複数の機種の操作内容に対応した音声認識処理を実行可能としてもよい。ここでは、簡略化のため一台の画像形成装置３０に注目して説明する。

画像形成装置３０は、音声入力手段３１、音声送信手段３２、コマンド受信手段３３、及びコマンド実行手段３４を備える。画像形成装置３０では、まず、ユーザによって音声入力手段３１で音声が入力されると、その音声を音声送信手段３２がネットワークを介してサーバ２０側に送信する。音声入力手段３１及び音声送信手段３２の構成例としては、通常のマイクロフォン及びデータ送信手段であればよく、例えば、画像形成装置に具備されたファクシミリ通信用のハンドセットで通話することで、音声をそのままネットワーク（電話回線のネットワークも含む）経由で送信可能なよう構成してもよい。

一方、サーバ２０は、音声受信手段２１、限定辞書データの記憶部２２ａを備えた音声認識手段２２、コマンド生成手段２３、及びコマンド返信手段２４を備える。サーバ２０では、まず音声受信手段２１により、画像形成装置３０で入力された音声のデータをネットワーク（電話回線のネットワークも含む）経由で受信する。

次に、音声認識手段２２が画像形成装置３０において現在実行可能な操作内容に関する単語のみに限定した限定辞書データ２２ａを用いて、音声受信手段２１で受信した音声のデータに対し音声認識を施して、認識した結果である認識データを生成する。ここで、本実施形態にあっても、通常の辞書データにより中間データを生成してから限定辞書データを用いて、最終的な認識データを生成するようにしてもよい。

コマンド生成手段２３は、音声認識手段で生成された認識データに基づき、認識データが示す操作内容を実行するためのコマンドを生成する。コマンド返信手段２４は、コマンド生成手段２３で生成されたコマンドを画像形成装置に送信する。

画像形成装置３０側では、コマンド受信手段３３が、音声送信手段３２で送信した音声に対する応答として、サーバ２０におけるコマンド返信手段で返信されたコマンドを受信する。コマンド実行手段３４は、コマンド受信手段３３でコマンドを受信した場合、受信したコマンドに従って所定処理を実行する。

上述のごときシステムにおいて、音声認識処理に係わる各手段は、例えば画像形成装置１０のファームウェアとしての音声認識要求用のプログラム、及びサーバ２０に組み込むソフトウェアとしての音声認識用プログラム（及びそれを実行するためのＣＰＵ，ＲＡＭ等）によって構成すればよい。

図４は、本発明の他の実施形態に係る機器操作システムの構成例を示す図で、図中、４０はサーバやＰＣ等の情報処理装置（以下、ＰＣで説明）、４１は音声受信手段、４２は限定辞書データ受信手段、４３は音声認識手段、４４はコマンド生成手段、４５はコマンド返信手段、５０は画像形成装置、５１は音声入力手段、５２は音声送信手段、５３は限定辞書データ送信手段、５４はコマンド受信手段、５５はコマンド実行手段である。

図３で説明したシステムでは、情報処理装置（サーバ２０で説明）に画像形成装置の限定辞書データ２２ａを保持していたのに対し、本実施形態に係る機器操作システムは、限定辞書データを情報処理装置（ＰＣ４０で説明）側が記憶しておかなくても、画像形成装置５０から取得可能としたシステムである。以下、本実施形態について、図３のシステムとの差異のみを説明する。

限定辞書データ送信手段５３は、ネットワークを介して限定辞書データを送信する手段である。限定辞書データ受信手段４２は、限定辞書データ（少なくとも現在の操作画面の内容に相当するもの）を、画像形成装置からネットワークを介して受信する（或いは要求して受信する）。音声認識手段４３は、限定辞書データ受信手段４２で受信した限定辞書データを音声認識に用いる。

限定辞書データは、音声入力手段５１又は音声送信手段５２の処理を契機として、画像形成装置５０が自機の限定辞書データを保持しているか否かをＰＣ４０側に問い合わせて、保持していない場合のみ送信するようにしてもよい。また、ＰＣ４０からのネットワークを介した限定辞書データの要求に対し、画像形成装置５０が限定辞書データを送信するといった方法を採用してもよい。

また、限定辞書データの送受信の単位としては、画像形成装置５０の全ての画面用の限定辞書データを一度に送受するようにしてもよいし、各画面毎に（すなわち現在実行可能な操作の画面のみの）限定辞書データを送受するようにしてもよい。限定辞書データを一度に送受する場合（及び図３のシステムのごとくサーバ側に保持している場合）、例えば、現在実行可能な操作を示す画面ＩＤを、画像形成装置５０からＰＣ４０に送信し、ＰＣ４０（サーバ２０）は、その画面ＩＤに応じた限定辞書データを用いて音声認識を実行すればよい。

また、図３の画像形成装置３０及び図４の画像形成装置５０で例示した電子機器としては、コマンド発生手段及びコマンド実行手段に加え、コマンド発生手段で発生させるコマンドと同じコマンド（受け付け可能な設定内容）を、外部から受信する手段を備えるだけの形態も有用である。すなわち、音声入力機能や音声認識機能が具備されていなくても、電子機器が外部からコマンド（設定内容）を受信して受信したコマンドに従って所定処理を実行できるような構成の電子機器も有用である。この場合も、限定辞書データの送受方法と同様に、例えば外部装置（ＰＣ）からコマンドを受け付け可能な画像形成装置において、ＰＣから受信したコマンド（要求コマンド）に応じて、次に受付可能な設定内容をＰＣに送出するようにしてもよい。ここで、ＰＣは、受け付け可能な設定内容のみ画像形成装置に送出するように構成してもよい。本発明の特徴である音声認識によって形成されたコマンドは、ここでの外部からのコマンドの一例に相当するものであり、この形態を採用した画像形成装置について、図５を参照して次に説明する。

図５は、本発明の他の実施形態に係る機器操作システムの構成例を示す図で、図中、６０はＰＣ等の情報処理装置（以下、ＰＣで説明）、６１は音声入力手段、６２は音声認識手段、６２ａは限定辞書データの記憶部、６３はコマンド生成手段、６４はコマンド送信手段、７０は画像形成装置、７１はコマンド受信手段、７２はコマンド実行手段、７３はコマンド発生手段、７４はキー入力手段である。

なお、画像形成装置７０に具備されたキー入力手段７４、コマンド発生手段７３、及びコマンド実行手段７２は、図１で示したキー入力手段１１、コマンド発生手段１２（コマンド生成手段は画像形成装置７０側には含まない）、及びコマンド実行手段１３と同様であり、その説明を省略する。また、この形態においても、限定辞書データの送受を行う形態を採用可能である。

本実施形態に係る機器操作システムは、画像形成装置７０を音声で操作する際に、音声入力及び音声認識をＰＣ６０で行うものであり、そのため、画像形成装置７０はＰＣ６０にネットワーク経由で接続され、且つ画像形成装置７０とＰＣとが近くに設置されているものとする。勿論、ＰＣ６０に複数の画像形成装置７０を接続し、複数の画像形成装置の操作内容に、さらには複数の機種の操作内容に対応した音声認識処理を実行可能としてもよい。ここでは、簡略化のため一台の画像形成装置７０に注目して説明する。

ＰＣ６０は、音声入力手段６１、音声認識手段６２、コマンド生成手段６３、及びコマンド送信手段６４を備える。そして、ＰＣ６０では、音声入力手段６１で入力された音声を音声認識手段６２で限定辞書データ６２ａを用いて音声認識し、コマンド生成手段６３が生成された認識データに基づき、認識データが示す操作内容を実行するためのコマンドを生成する。コマンド送信手段６４は、コマンド生成手段６３で生成されたコマンドを画像形成装置７０に送信する。

一方、画像形成装置７０はコマンド受信手段７１を備え、コマンド受信手段７１がＰＣ６０のコマンド送信手段６４で送信されたコマンドを受信して、コマンド実行手段７２が、受信したコマンドに従って所定処理を実行する。

図６は、本発明の他の実施形態に係る機器操作システムの構成例を示す図で、図中、８０はＰＣ等の情報処理装置（以下、ＰＣで説明）、８１は音声入力手段、８２は音声認識手段、８２ａは限定辞書データの記憶部、８３は認識データ送信手段、９０は画像形成装置、９１は認識データ受信手段、９２はコマンド生成手段、９３はコマンド実行手段、９４はコマンド発生手段、９５はキー入力手段である。

図５で説明したシステムでは、情報処理装置（ＰＣ６０で説明）と画像形成装置７０とでコマンドの送受を行っていたのに対し、本実施形態に係る機器操作システムは、情報処理装置（ＰＣ８０で説明）側では認識データの生成までを行い、その認識データを画像形成装置９０側に送信するシステムである。また、この形態においても、限定辞書データの送受を行う形態を採用可能である。以下、本実施形態について、図５のシステムとの差異のみを説明する。

認識データ送信手段８３は、音声認識手段８２で生成された認識データを画像形成装置９０に送信する。一方、画像形成装置９０は、ＰＣ８０から送信された認識データを受信する認識データ受信手段９１を備え、コマンド発生手段９４は、認識データ受信手段９１で受信された認識データに基づき、認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段９２（図６ではコマンド発生手段９４と別構成として図示）を有する。このような構成により、画像形成装置９０では、認識データ受信手段９１で受信した認識データに対し、コマンド生成手段９２がコマンドを生成し、コマンド実行手段９３がそのコマンドを実行する。

以上、本発明の様々な実施形態について説明したが、次に、具体例として、様々な情報処理装置（ＰＣ、ＦＡＸ、及びサーバ）と接続されたデジタル複合機を、音声により操作する機器操作システムについて説明する。なお、ここで説明する具体例は、上述した各実施形態に係る機器操作システム（音声認識機能付きの電子機器単体も含む）が実現可能なものとして説明する。

図７は、本発明に係る機器操作システムの一構成例を示す図で、１はデジタル複合機、２ａ，２ｂは端末ＰＣ、２Ａはマイクロフォン、３はネットワーク（ＬＡＮ等）、４は電話回線網、５はインターネット網、６は外部ＦＡＸ、７はインターネットＦＡＸ、８は外部ＰＣ、９は外部サーバ、１００は画像読み取り部、１０１は音声入力部、１０２は操作部、１０３は画像形成部、１０４は機器制御部、１０５はＦＡＸモデム、１０６は通信部、１０７は記憶装置の一例としてのハードディスク（ＨＤ）、１０８は消去処理部、１０９は管理部、１１０はタイマである。

デジタル複合機１には、電話回線網４により例えば外部ＦＡＸ６が接続されていると共に、ＬＡＮやＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）等のネットワーク３を介して、複数の端末ＰＣ２ａ，２ｂ，．．．及びさらにインターネット網５経由でネットワーク３外部にあるインターネットＦＡＸ７や外部ＰＣ８や外部サーバ９などに接続されている。これらのネットワーク構成により、各種データの送受信が可能となっている。

デジタル複合機１は、画像読み取り部１００，音声入力部１０１，操作部１０２，画像形成部１０３，機器制御部１０４，ＦＡＸモデム１０５，通信部１０６，ＨＤ１０７，消去処理部１０８，管理部１０９，タイマ１１０などで構成される。なお、本発明に係るデジタル複合機１の構成や外部機器との接続形態は、この例に限ったものではない。各手段は、全てがハードウェアで構成される必要はなく、デジタル複合機１をそれらの手段として機能させるプログラムを機器制御部１０４等の制御部などに組み込み（或いは音声認識プログラムの全部又は一部を管理部１０９に組み込み）、演算装置に実行させることでも容易に実装できる。また、上述のごときプログラムは、例えばデジタル複合機１の機器制御部１０４や管理部１０９などに、ファームウェアとして実装されることが多く、機器制御部１０４内の演算処理装置（主として中央演算処理装置）に実行させるためのものである。

音声入力部１０１は、マイクロフォン等でなる。操作部１０２は、操作画面の表示を行う出力部１０２ｂとその表示を元に利用者に各種設定及び操作内容を入力させる入力部１０２ａとを備えるタッチパネル等でなる。本発明では音声操作を行うために音声入力部１０１が備えられており、音声入力部１０１も操作部の一つといえる。画像読み取り部１００は、操作部１０２での操作に基づき、原稿検知センサ１００ｂによって原稿の有無を検知しＣＣＤ（電荷結合素子）１００ａでその原稿を読み取り画像データとして出力する。出力先は、ファイリング処理を実行する場合には、画像形成部１０３を介したＨＤ１０７或いは直接ＨＤ１０７となり、印字の場合には画像形成部１０３となり、データ送信の場合には通信部１０６等となる。ＦＡＸモデム１０５は外部ＦＡＸ６とのファクシミリ通信を行うためのモデムである。通信部１０６は、ネットワーク３経由で接続されたデジタル複合機１の外部機器との通信を制御する。

画像形成部１０３は、画像読み取り部１００で読み取った画像データやＦＡＸモデム１０５或いは通信部１０６で受け取った受信データ（受信ファイル）などをメモリ１０３ｂに一時記憶し、レーザスキャナユニット（ＬＳＵ）を搭載した印字部１０３ａから用紙等の媒体に画像を形成する。画像形成部１０３では、暗号処理部１０３ｃにてメモリ１０３ｂに記憶された画像データ等のデータを暗号化してＨＤ１０７に記憶することも可能となっており、逆に、ＨＤ１０７に記憶された暗号化データを復号化してメモリ１０３ｂを介してネットワーク３等を経由して外部機器に出力することや印字部１０３ａで媒体として印字出力することも可能となっている。消去処理部１０８は、ＨＤ１０７に記憶されたデータを、セキュリティ保持や記憶容量確保などのために消去する処理を行う。

機器制御部１０４は、上述した各部に接続された主制御部であり、管理部１０９の管理データ及びタイマ１１０からのタイマ時間を参照しながら、デジタル複合機１の各部間のデータのやり取りをはじめとしてデジタル複合機１の動作を統括的に制御する。管理部１０９は、例えばＨＤ１０７に格納されたフォルダ情報や保存条件の情報、自機１のＩＰアドレスなどを管理する。タイマ１１０は、デジタル複合機１の待機状態の時間を計時し、この時間を機器制御部１０４に通知する。機器制御部１０４における制御の一例を挙げると、操作部１０２は、利用者の操作入力により指示された複写要求や各種の記録条件等を機器制御部１０４に通知し、機器制御部１０４は、デジタル複合機１の動作状態等を操作部１０２の表示部１０２ｂの表示画面に表示すると共に、画像形成部１０３に印字処理等を指示する。また、機器制御部１０４は、音声操作に対応した処理も実行する。例えばデジタル複合機１に音声認識処理まで実行させる形態にあってはその処理も実行させるなど、本発明に係る音声入力、音声認識、及びコマンド生成などの処理を複合機１側で行うのか外部接続された他の情報処理装置で行うのかによって、機器制御部１０４に組み込まれるファームウェアは異なる。

図８は、図７におけるＰＣの構成例を示す図で、図中、２ａはＰＣ、１２１はＣＰＵ、１２２は表示部、１２３はＲＡＭ等のメモリ、１２４はオペレーションシステムや他の制御プログラムを格納したＲＯＭ、１２５は印刷管理部、１２６はメール管理部、１２７は音声認識部、１２８は操作部、１２９はモデム部、１３０は通信部、１３１は管理部、１３２は記憶部、１３３は音声入力部である。

ＰＣ２ａは、本発明に係る音声操作を実行するための音声入力部１３３（マイクロフォン２Ａ等）及び音声認識部１２７を備える。ＰＣ２ａは、さらに、各種情報を入力するためのキーボード，マウス等の操作部１２８、ハードディスク，外部記録媒体読取装置等の記憶部１３２、他の機器からの入力用のネットワーク機器などでなる通信部１３０、電話回線を介したファクシミリ通信を行うモデムなどでなるモデム部１２９、報知情報やその他の情報を表示するためのＣＲＴ，ＬＣＤなどのディスプレイである表示部１２２、ＰＣ２ａに接続された印刷装置での印刷を制御するプリンタドライバ及びコネクタ等でなる印刷管理部１２５、通信部１３０やモデム部１２９を介してメールの送受信を行うメーラなどでなるメール管理部１２６、ログ管理や転送処理などを行うプログラムなどでなる管理部１３１、さらには、制御プログラムを記録したハードディスクやＲＯＭ（書き換え可能なＲＯＭでもよい）１２４、そこに格納された制御プログラムや各部のプログラムを実行するためのＣＰＵ１２１、及びその実行領域としてのメモリ１２３をその主要な構成要素とし、それらがバスにより接続されているものとして例示している。なお、音声認識部１２７は、制御プログラムの一つとして組み込んでもよい。

ＰＣ２ａに搭載されるこれらのプログラムは、ＣＰＵ１２１に実行させるためのプログラムであって、装置ユーザがキー入力を行う際に容易となるように、表示部１２２用のグラフィカルユーザインターフェース（ＧＵＩ）を備えるようにするとよい。そして、これら装置で取り扱われる情報は、その処理時に一時的にメモリ１２３に蓄積され、その後、各種ＲＯＭ１２４やハードディスクに格納され、必要に応じて、ＣＰＵ１２１によって読み出し、修正・書き込みが行われる。

本発明では、上述のごとくデジタル複合機（以下、ＭＦＰという）１上、或いはＭＦＰ１に接続した外部ＰＣ２ａ上に、音声認識モジュールとＭＦＰコマンド制御ソフトとを搭載することで、ＭＦＰ１の音声操作を可能とする。この機器操作方法（機器制御方法）について、ＰＣ２ａ側には、音声入力部１３３、音声認識部１２７（コマンド変換部を含む）、及びインターフェース部（モデム部１２９及び通信部１３０）を備え、ＭＦＰ１側には、インターフェース部（ＦＡＸモデム１０５及び通信部１０６）及びコマンド変換部（機器制御部１０４内に実装）を備えた場合について、説明する。

音声入力部は、ＰＣ２ａに接続されたマイクロフォン２Ａ及びその入力端子等でなる。音声認識部は、認識用の辞書データを含む音声認識モジュールでなる。コマンド変換部は、テキスト化された音声から該当するＭＦＰ１へのコマンド（ＭＦＰコマンド）を生成する。インターフェース部は、ＭＦＰ１とのデータの入出力を行うＥｔｈｅｒｎｅｔ（登録商標）等のネットワーク機器でなる。一方、ＭＦＰ１側において、インターフェース部は、ＰＣ２ａとのデータの入出力を行うＥｔｈｅｒｎｅｔ（登録商標）等のネットワーク機器でなる。コマンド変換部は、ＰＣ２ａから送出された汎用形式のコマンドを、自機で実行可能なコマンド形式に変換し、コマンド処理部に出力する。

ＭＦＰ１の外部にあるＰＣ２ａに音声入力部を設けたことを前提として、処理の流れを説明する。まず、ユーザは、画面上の操作したいボタン名をマイクに向かって発声する。音声入力部としては、ＰＣ２ａに接続されたマイクを用いるか、或いは、ＭＦＰ１に接続されたマイク、或いはＦＡＸ用のハンドセット等のＭＦＰ１内蔵のマイクを用いる。ＭＦＰ１から音声入力する場合の伝達方法としては、電話回線でアナログ音声のまま伝送するか、或いはデジタル化してＵＳＢ，ＬＡＮ等で伝送するか、デジタル化したものをＩＰ電話プロトコルを用いて伝送すればよい。

次に、ＰＣ２ａ上の音声認識モジュールが、入力された音声をテキスト化する。その際に用いるモジュールは、ＭＦＰ１のメニューコマンドに特化した調整を行っておく。

ＰＣ２ａ内のコマンド解析部は、変換されたテキストがその画面で有効なコマンドテーブルに合致するかを照合する。テキストをＭＦＰコマンドに置き換えるこのコマンド解析部は、各画面で有効なコマンドが何かを予め認識している必要がある。この情報を解析部に与える方法は幾つか考えられ、目的や機能に応じて適切な方法を採用するとよい。

解析部は個々の画面で受け付けるコマンドを認識する方法としては、例えば、（１）予め画面毎のコマンド列を定義したデータを解析ソフトに与えておく方法、（２）画面が切り替わる度に、受付可能なコマンド情報をＭＦＰ１がＰＣ２ａ上の解析部に通知する方法などを採用するとよい。上記（１）の方法は、ＰＣ２ａ側に画面とコマンド情報の定義を登録すればよく、ＭＦＰ１側からデータを送ってもらう必要が無いので、ＭＦＰ１側での対応が不要であり、また、ＭＦＰ１から画面情報を受け取らないので通信負荷が掛からない。一方、上記（２）の方法は、ユーザが入力した情報（例えばファイル名等）も取り扱える。さらに、ＭＦＰ１の操作画面が拡張やカスタマイズ可能な場合も、新規画面に応じたコマンドテーブルを同時に用意しておけば対応できる。さらに、ＰＣ２ａ側で全てのコマンド情報を常に保持しておく必要が無い。また、上記（２）の方法において、伝送データ量を削減する方法としては、コマンド情報と一緒に画面ＩＤを通知しておく。そして、ＰＣ２ａ側ではＩＤとコマンド情報を保存しておき、２回目以降はＩＤだけを通知するだけで済むようにしておくとよい。

ＰＣ２ａ及びＭＦＰ１におけるインターフェース部は、合致したコマンドをＭＦＰ１が実行可能な形式でＭＦＰ１側に送信する。ＭＦＰ１は、受け取ったコマンドを実行する。ユーザは所望の結果が得られるまで、これらの音声操作を繰り返す。

直接方式として、本体が当該コマンドを内部で扱う際のデータと同じ形式に変換してから通知する。発生させるコマンドとしては、簡単なもので、操作キーに対応付けられたコマンド（コード）と同じものを送るとよい。このコードの例としては１６進数のコードを用いればよく、例えば「Ａ０」がスタートキー、「Ｃ０」がキャンセルキーなどと、それぞれ操作キーに対応させておくとよい。この直接方式では、ＭＦＰ１はそのコマンドを直接実行できるので、特別な処理が不要となる。

また、アプリケーションを汎用的なものとするために、中間形式の方式を採用してもよい。独自の形式を規定しておき、その形式に則ってＭＦＰ１への通知を行う。インタプリタを搭載したＭＦＰ１が、そのコマンドを解析し、必要な動作を行う。この場合、異なるコマンドを持つ機器に対して、１つの音声操作サービスで対応させることが可能となるので、汎用性が向上する。

本発明によれば、不特定話者の対応が可能となるだけでなく、認識精度も向上し、安価で拡張性のあるシステムを構築することが可能となる。実際、自然言語認識では話者の発声の特徴を予め学習させておかないと認識率が低下するが、本発明では認識すべき語を限定したことで、事前に学習させておかなくても十分高い認識率が期待でき、コピーサービスやプリントサービスなどのキオスク端末などとしても、利用可能となる。また、一つの画面で有効なコマンド数が極めて少ないので、画面毎に認識辞書を特化することで、ラフな話し方をしたユーザに対しても、ユーザの発声の認識精度を向上させることができる。例えば、そのとき押下されるべきボタン（キー）が５つしか無かった場合には、５つの単語しか認識する必要が無くなる。また、ＭＦＰ１本体に音声認識処理部を持たせなくてもよいため（勿論、持たせてもよい）、機器自体を安価に提供できる。さらに、認識部をＭＦＰ１の外部に設けることで、機器自体のソフト（ファームウェア）を変更せずに、他の言語での音声入力にも対応できる。

その他の動作について説明すると、音声操作モードへの移行処理としては、（１）ＭＦＰ１で常時音声コマンドを受け付けるようにする、（２）特定のキー操作によって音声受付モード（音声操作モード）に切り換える、（３）ＭＦＰ１のユーザ認証によってユーザが特定され、そのユーザが音声入力を必要とするユーザとして設定されていた場合に、自動的に音声入力を有効にして音声操作モードに移行する、といった処理が採用できる。

また、コマンド変換テーブル部を置き換えれば、本体の変更無しに多言語対応が容易に行える。また、画面上の表示言語が切り換えられた場合には、コマンド解析部に現在の言語設定情報を通知し、解析に使用する音声認識処理部と変換テーブルとを選択された言語用に切り換えるようにしてもよい。さらに、画面に無いコマンドを音声入力できるように拡張してもよく、その場合、例えば省略形で受け付けたり、複数の操作を１つの音声コマンドにまとめて同時に受け付けたりしてもよい。

発声の例として「よーし」と発音した場合、一般の音声認識処理では音声単語辞書から「ようし（用紙）」，「よし（良し）」，「よしい（吉井）」，「ひょうし（表紙）」，「ようじ（用事）」などの複数の候補が抽出される。しかし、本発明を適用することで、発声されたのが「基本画面」上であれば、基本画面コマンドテーブルとそれぞれをつき合わせる。例えば、「基本画面」に対して、原稿，濃度，用紙，両面，仕上げ，特別機能，スタート，リセット，クリア，１〜９，システム設定，ログアウトの操作が可能であり、「表紙挿入設定画面」に対して、表紙，裏表紙，．．．といった操作が受付可能であるコマンドテーブルが用いられていると仮定する。この場合、読みが一致する単語として、「用紙」が採用できる。一方、全く同じ発音を「表紙挿入設定画面」が表示されているときに行った場合には、表紙挿入画面コマンドテーブルと照合されるので、今度は「表紙」が選出される。このようにして、曖昧な発声であっても、各画面でユーザの意図したコマンドが確実に選択される。

このように、図７及び図８で例示したシステムは、本発明に係る音声操作を可能とするために、図１乃至図６で説明した構成、すなわち複写機に入力可能な言葉を予め予測（限定）し、その予測した言葉だけを受け付ける構成としている。このような構成により、音声認識する言葉の数が限定されるので、声紋登録が不要となり音声認識率を向上させることができるので、操作者にとって操作性の良い画像形成装置を安価に構成して提供することが可能となる。また、ネットワークや専用ケーブルで接続されたＰＣ（市販の音声認識ソフト、例えばＭＳ−ＩＭＥ等）によって音声認識されたコマンドを受け付けることによって画像形成に必要な設定条件を入力することを可能とすることで、現在の画像形成装置にも容易に対応することが可能となる。

以上、図１乃至図８を参照しながら、本発明の音声認識装置、電子機器、情報処理装置、機器操作システム、プログラムを中心に各実施形態を説明してきたが、本発明は、上述した各実施形態で処理手順として説明したように、音声認識方法や機器操作方法としての形態も採用でき、さらに、上述のごときプログラムを記録したコンピュータ読み取り可能な記録媒体としての形態も採用可能である。

本発明による音声認識の機能を実現するためのプログラムやデータを記憶した記録媒体の実施形態を説明する。記録媒体としては、具体的には、ＣＤ−ＲＯＭ、光磁気ディスク、ＤＶＤ−ＲＯＭ、ＦＤ、フラッシュメモリ、及びその他各種ＲＯＭやＲＡＭ等が想定でき、上述したプログラムを、これら記録媒体に記録して流通させることにより、当機能の実現を容易にする。そして、図７で例示したような画像形成装置に、或いは図８で例示したようなコンピュータ等の情報処理装置が備えている記録媒体に、当プログラムを記憶させておき、必要に応じて読み出すことにより、本発明に係わる音声認識の機能を実行することができる。

本発明の一実施形態に係る音声認識装置を備えた画像形成装置の構成例を示す図である。図１の画像形成装置における操作画面の一例を示す図である。本発明の他の実施形態に係る機器操作システムの構成例を示す図である。本発明の他の実施形態に係る機器操作システムの構成例を示す図である。本発明の他の実施形態に係る機器操作システムの構成例を示す図である。本発明の他の実施形態に係る機器操作システムの構成例を示す図である。本発明に係る機器操作システムの一構成例を示す図である。図７におけるＰＣの構成例を示す図である。

符号の説明

１…デジタル複合機、２ａ，２ｂ…情報処理装置（ＰＣ）、２Ａ…マイクロフォン、３…ネットワーク（ＬＡＮ）、４…電話回線網、５…インターネット網、６…外部ＦＡＸ、７…インターネットＦＡＸ、８…外部ＰＣ、９…外部サーバ、１０，３０，５０，７０，９０…画像形成装置、１１，７４，９５…キー入力手段、１２，７３，９４…コマンド発生手段、１３，３４，５５，７２，９３…コマンド実行手段、１３ａ…表示手段、１３ｂ…音声出力手段、１３ｃ…辞書切換手段、１４，３１，５１，６１，８１…音声入力手段、１５，２２，４３，６２，８２…音声認識手段、１５ａ，２２ａ，６２ａ，８２ａ…限定辞書データの記憶部（限定辞書データ）、２０…サーバ、２１，４１…音声受信手段、１２ａ，２３，４４，６３，９２…コマンド生成手段、２４，４５，６４…コマンド返信手段、３２，５２…音声送信手段、３３，５４，７１…コマンド受信手段、４０，６０，８０…ＰＣ、４２…限定辞書データ受信手段、５３…限定辞書データ送信手段、８３…認識データ送信手段、９１…認識データ受信手段、１００…画像読み取り部、１０１…音声入力部、１０２…操作部、１０３…画像形成部、１０４…機器制御部、１０５…ＦＡＸモデム、１０６…通信部、１０７…ハードディスク（ＨＤ）、１０８…消去処理部、１０９…管理部、１１０…タイマ、１２１…ＣＰＵ、１２２…表示部、１２３…メモリ、１２４…ＲＯＭ、１２５…印刷管理部、１２６…メール管理部、１２７…音声認識部、１２８…操作部、１２９…モデム部、１３０…通信部、１３１…管理部、１３２…記憶部、１３３…音声入力部。

Claims

ユーザが行った所定操作に応じて所定処理を実行する電子機器を備え、該電子機器を音声により操作するための機器操作システムであって、音声を入力する音声入力手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段と、該音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段とを備え、該コマンド生成手段で生成されたコマンドにより、前記電子機器に対し所定処理を実行させることを特徴とする機器操作システム。
前記音声認識手段は、前記音声入力手段で入力した音声を辞書データにより音声認識して中間データを生成し、その後、該中間データに対し、前記限定辞書データを用いたデータ認識を実行し、前記認識データを生成することを特徴とする請求項１に記載の機器操作システム。
電子機器に搭載又は接続するための音声認識装置であって、音声を入力する音声入力手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段と、該音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段と、該コマンド生成手段で生成されたコマンドを前記電子機器の本体側に出力するコマンド出力手段とを備えたことを特徴とする音声認識装置。
ユーザが行った所定操作に応じて所定のコマンドを発生させるコマンド発生手段と、該コマンド発生手段で発生させたコマンドに従って所定処理を実行するコマンド実行手段とを備えた電子機器において、音声を入力する音声入力手段と、当該電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段とを備え、前記コマンド発生手段は、前記音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段を有することを特徴とする電子機器。
前記コマンド実行手段の一手段として、ユーザが前記所定操作を行うことを支援するためのユーザインターフェース画面を表示する表示手段を備えたことを特徴とする請求項４に記載の電子機器。
階層的に複数のユーザインターフェース画面を記憶する記憶手段を備え、前記表示手段は、前記コマンド発生手段で発生されたコマンドが示す次の階層の所定のユーザインターフェース画面を、前記記憶手段から読み出して順次表示する手段を有することを特徴とする請求項５に記載の電子機器。
電子機器にネットワークを介して接続可能な情報処理装置であって、前記電子機器で入力された音声のデータを、ネットワークを介して受信する音声受信手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声受信手段で受信した音声のデータに対し音声認識を施して、認識した結果である認識データを生成する音声認識手段と、前記音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段と、該コマンド生成手段で生成されたコマンドを前記電子機器に送信するコマンド返信手段とを備えたことを特徴とする情報処理装置。
請求項７に記載の情報処理装置にネットワークを介して接続可能な電子機器であって、ユーザが行った所定操作に応じて所定のコマンドを発生させるコマンド発生手段と、該コマンド発生手段で発生させたコマンドに従って所定処理を実行するコマンド実行手段と、音声を入力する音声入力手段と、該音声入力手段で入力された音声のデータを前記情報処理装置に送信する音声送信手段と、該音声送信手段で送信した音声に対する応答として、前記情報処理装置における前記コマンド返信手段で送信されたコマンドを受信するコマンド受信手段とを備え、前記コマンド実行手段は、前記コマンド受信手段でコマンドを受信した場合、受信したコマンドに従って所定処理を実行することを特徴とする電子機器。
前記限定辞書データを、前記電子機器からネットワークを介して受信する限定辞書データ受信手段を備え、前記音声認識手段は、前記限定辞書データ受信手段で受信した限定辞書データを音声認識に用いることを特徴とする請求項７に記載の情報処理装置。
請求項９に記載の情報処理装置に対し、ネットワークを介して前記限定辞書データを送信する限定辞書データ送信手段を備えたことを特徴とする請求項８に記載の電子機器。
電子機器にネットワークを介して接続可能な情報処理装置であって、音声を入力する音声入力手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段と、前記音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段と、該コマンド生成手段で生成されたコマンドを前記電子機器に送信するコマンド送信手段とを備えたことを特徴とする情報処理装置。
請求項１１に記載の情報処理装置にネットワークを介して接続可能な電子機器であって、ユーザが行った所定操作に応じて所定のコマンドを発生させるコマンド発生手段と、該コマンド発生手段で発生させたコマンドに従って所定処理を実行するコマンド実行手段と、前記情報処理装置における前記コマンド送信手段で送信されたコマンドを受信するコマンド受信手段とを備え、前記コマンド実行手段は、前記コマンド受信手段でコマンドを受信した場合、受信したコマンドに従って所定処理を実行することを特徴とする電子機器。
電子機器にネットワークを介して接続可能な情報処理装置であって、音声を入力する音声入力手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段と、該音声認識手段で生成された認識データを前記電子機器に送信する認識データ送信手段とを備えたことを特徴とする情報処理装置。
請求項１３に記載の情報処理装置にネットワークを介して接続可能な電子機器であって、ユーザが行った所定操作に応じて所定のコマンドを発生させるコマンド発生手段と、該コマンド発生手段で発生させたコマンドに従って所定処理を実行するコマンド実行手段と、前記情報処理装置における前記認識データ送信手段で送信された認識データを受信する認識データ受信手段とを備え、前記コマンド発生手段は、前記認識データ受信手段で受信された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段を有し、前記コマンド実行手段は、前記コマンド生成手段で生成されたコマンドを実行することを特徴とする電子機器。
電子機器、又は該電子機器とネットワーク接続された情報処理装置に組み込んで、入力された音声を認識するための音声認識用プログラムであって、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、入力された音声を認識する処理を、前記電子機器の演算処理装置又は情報処理装置の演算処理装置に実行させることを特徴とするプログラム。
電子機器に組み込んで、入力された音声を認識するための音声認識用プログラムであって、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、入力された音声を認識して、認識した結果である認識データを生成する音声認識ステップと、該生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成ステップとを、前記電子機器の演算処理装置に実行させることを特徴とするプログラム。
電子機器と接続可能な情報処理装置に組み込んで、入力された音声を認識するための音声認識用プログラムであって、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、入力された音声を認識して、認識した結果である認識データを生成する音声認識ステップと、該生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成ステップとを、前記電子機器の演算処理装置に実行させることを特徴とするプログラム。
請求項１５乃至１７のいずれか１項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。