JP2006330576A - 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体 - Google Patents

機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体 Download PDF

Info

Publication number
JP2006330576A
JP2006330576A JP2005157300A JP2005157300A JP2006330576A JP 2006330576 A JP2006330576 A JP 2006330576A JP 2005157300 A JP2005157300 A JP 2005157300A JP 2005157300 A JP2005157300 A JP 2005157300A JP 2006330576 A JP2006330576 A JP 2006330576A
Authority
JP
Japan
Prior art keywords
command
recognition
voice
data
electronic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005157300A
Other languages
English (en)
Inventor
Hirohito Morioka
宏仁 森岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2005157300A priority Critical patent/JP2006330576A/ja
Publication of JP2006330576A publication Critical patent/JP2006330576A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声認識に際し、ユーザ毎の事前の声紋登録が不要で、且つ膨大な辞書データを必要とせず、音声認識率を向上させることが可能な、音声認識技術を用いた機器操作システムを提供する。
【解決手段】ユーザが行った所定操作に応じて所定処理を実行する電子機器(画像形成装置10で例示)を備える。画像形成装置10又はそれに接続された情報処理装置は、音声入力手段14と、画像形成装置10において現在実行可能な操作内容に関する単語のみに限定した限定辞書データ15aを用いて、音声入力手段14で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段15と、その認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段12aとを備える。画像形成装置10は、コマンド生成手段12aで生成されたコマンドにより所定処理を実行する。
【選択図】図1

Description

本発明は、音声認識技術を用いた機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体に関する。
従来から、音声認識技術は、キー操作などの代替手段として、電子機器を音声入力により操作するためにも利用されている。このような電子機器は、マイクロフォンで入力した音声を認識する音声認識装置を備え、音声認識データに基づき操作が行えることから、健常者だけでなく弱視の人などにとっても、操作性が向上する。
このような電子機器の一つとして、操作性の向上並びに弱視の人などでも容易に操作することを目的とした複写機が開示されている(例えば、特許文献1を参照)。特許文献1に記載の複写機は、音声信号を入力するための音声入力手段と、音声信号に対応する複写動作信号及び音声応答信号を出力する音声認識手段と、複写動作信号に応答して複写動作を制御し、運転状態を表す信号を出力する動作制御手段と、音声応答信号及び運転状態を表す信号に対応する音声信号を出力する音声出力手段とを備えている。
また、簡単な操作により動作モードの選択、さらにはタイマ設定等を行うことを目的としたファクシミリ装置も開示されている(例えば、特許文献2を参照)。特許文献2に記載のファクシミリ装置は、音声情報を入力する入力手段と、入力手段により入力された音声情報を認識する音声認識手段と、複数の動作モードの各々を特定するための複数の動作モード特定情報を記憶する動作モード特定情報記憶手段と、音声認識手段によって認識された音声情報が、複数の前記動作モード特定情報の少なくとも一つと一致するか否かを判断し、一致すると判断された場合にその動作モード特定情報に対応する動作モードを選択するように制御する制御手段とを備えている。
特開昭58−14846号公報 特開2000−92259号公報
しかしながら、特許文献1,2をはじめとする従来の音声認識技術は、音声認識の精度に問題があり、認識精度を上げようとすると予めユーザ毎に声紋登録をしておく必要がある。このような事前にユーザ毎に声紋登録をする必要がある電子機器では、音声認識を行いたいときに直ぐに利用できず、不便である。また、音声認識率を高くしようとする他の方法としては、単語や文節などの辞書データを膨大に登録しておく方法が考えられるが、このような方法や予めユーザ毎の声紋登録を行う方法を採用すると、高価な装置になってしまう。
本発明は、上述のごとき実情に鑑みてなされたものであり、音声認識に際し、ユーザ毎の事前の声紋登録が不要で、且つ膨大な辞書データを必要とせず、音声認識率を向上させることが可能な、音声認識技術を用いた機器操作システム、音声認識装置、該装置を備えた電子機器、該装置を備えて電子機器を操作する情報処理装置、音声認識プログラム、及び該プログラムを記録したコンピュータ読み取り可能な記録媒体を提供することをその目的とする。
本発明は、上述のごとき課題を解決するために、以下の各技術手段でそれぞれ構成される。
第1の技術手段は、ユーザが行った所定操作に応じて所定処理を実行する電子機器を備え、該電子機器を音声により操作するための機器操作システムであって、音声を入力する音声入力手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段と、該音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段とを備え、該コマンド生成手段で生成されたコマンドにより、前記電子機器に対し所定処理を実行させることを特徴としたものである。
第2の技術手段は、第1の技術手段において、前記音声認識手段は、前記音声入力手段で入力した音声を辞書データにより音声認識して中間データを生成し、その後、該中間データに対し、前記限定辞書データを用いたデータ認識を実行し、前記認識データを生成することを特徴としたものである。
第3の技術手段は、電子機器に搭載又は接続するための音声認識装置であって、音声を入力する音声入力手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段と、該音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段と、該コマンド生成手段で生成されたコマンドを前記電子機器の本体側に出力するコマンド出力手段とを備えたことを特徴としたものである。
第4の技術手段は、ユーザが行った所定操作に応じて所定のコマンドを発生させるコマンド発生手段と、該コマンド発生手段で発生させたコマンドに従って所定処理を実行するコマンド実行手段とを備えた電子機器において、音声を入力する音声入力手段と、当該電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段とを備え、前記コマンド発生手段は、前記音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段を有することを特徴としたものである。
第5の技術手段は、第4の技術手段において、前記コマンド実行手段の一手段として、ユーザが前記所定操作を行うことを支援するためのユーザインターフェース画面を表示する表示手段を備えたことを特徴としたものである。
第6の技術手段は、第5の技術手段において、階層的に複数のユーザインターフェース画面を記憶する記憶手段を備え、前記表示手段は、前記コマンド発生手段で発生されたコマンドが示す次の階層の所定のユーザインターフェース画面を、前記記憶手段から読み出して順次表示する手段を有することを特徴としたものである。
第7の技術手段は、電子機器にネットワークを介して接続可能な情報処理装置であって、前記電子機器で入力された音声のデータを、ネットワークを介して受信する音声受信手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声受信手段で受信した音声のデータに対し音声認識を施して、認識した結果である認識データを生成する音声認識手段と、前記音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段と、該コマンド生成手段で生成されたコマンドを前記電子機器に送信するコマンド返信手段とを備えたことを特徴としたものである。
第8の技術手段は、第7の技術手段における情報処理装置にネットワークを介して接続可能な電子機器であって、ユーザが行った所定操作に応じて所定のコマンドを発生させるコマンド発生手段と、該コマンド発生手段で発生させたコマンドに従って所定処理を実行するコマンド実行手段と、音声を入力する音声入力手段と、該音声入力手段で入力された音声のデータを前記情報処理装置に送信する音声送信手段と、該音声送信手段で送信した音声に対する応答として、前記情報処理装置における前記コマンド返信手段で送信されたコマンドを受信するコマンド受信手段とを備え、前記コマンド実行手段は、前記コマンド受信手段でコマンドを受信した場合、受信したコマンドに従って所定処理を実行することを特徴としたものである。
第9の技術手段は、第7の技術手段において、前記限定辞書データを、前記電子機器からネットワークを介して受信する限定辞書データ受信手段を備え、前記音声認識手段は、前記限定辞書データ受信手段で受信した限定辞書データを音声認識に用いることを特徴としたものである。
第10の技術手段は、第8の技術手段において、第9の技術手段における情報処理装置に対し、ネットワークを介して前記限定辞書データを送信する限定辞書データ送信手段を備えたことを特徴としたものである。
第11の技術手段は、電子機器にネットワークを介して接続可能な情報処理装置であって、音声を入力する音声入力手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段と、前記音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段と、該コマンド生成手段で生成されたコマンドを前記電子機器に送信するコマンド送信手段とを備えたことを特徴としたものである。
第12の技術手段は、第11の技術手段における情報処理装置にネットワークを介して接続可能な電子機器であって、ユーザが行った所定操作に応じて所定のコマンドを発生させるコマンド発生手段と、該コマンド発生手段で発生させたコマンドに従って所定処理を実行するコマンド実行手段と、前記情報処理装置における前記コマンド送信手段で送信されたコマンドを受信するコマンド受信手段とを備え、前記コマンド実行手段は、前記コマンド受信手段でコマンドを受信した場合、受信したコマンドに従って所定処理を実行することを特徴としたものである。
第13の技術手段は、電子機器にネットワークを介して接続可能な情報処理装置であって、音声を入力する音声入力手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段と、該音声認識手段で生成された認識データを前記電子機器に送信する認識データ送信手段とを備えたことを特徴としたものである。
第14の技術手段は、第13の技術手段における情報処理装置にネットワークを介して接続可能な電子機器であって、ユーザが行った所定操作に応じて所定のコマンドを発生させるコマンド発生手段と、該コマンド発生手段で発生させたコマンドに従って所定処理を実行するコマンド実行手段と、前記情報処理装置における前記認識データ送信手段で送信された認識データを受信する認識データ受信手段とを備え、前記コマンド発生手段は、前記認識データ受信手段で受信された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段を有し、前記コマンド実行手段は、前記コマンド生成手段で生成されたコマンドを実行することを特徴としたものである。
第15の技術手段は、電子機器、又は該電子機器とネットワーク接続された情報処理装置に組み込んで、入力された音声を認識するための音声認識用プログラムであって、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、入力された音声を認識する処理を、前記電子機器の演算処理装置又は情報処理装置の演算処理装置に実行させることを特徴としたものである。
第16の技術手段は、電子機器に組み込んで、入力された音声を認識するための音声認識用プログラムであって、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、入力された音声を認識して、認識した結果である認識データを生成する音声認識ステップと、該生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成ステップとを、前記電子機器の演算処理装置に実行させることを特徴としたものである。
第17の技術手段は、電子機器と接続可能な情報処理装置に組み込んで、入力された音声を認識するための音声認識用プログラムであって、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、入力された音声を認識して、認識した結果である認識データを生成する音声認識ステップと、該生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成ステップとを、前記電子機器の演算処理装置に実行させることを特徴としたものである。
第18の技術手段は、第15乃至第17のいずれかのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によれば、音声認識に際し、ユーザ毎の事前の声紋登録が不要で、且つ膨大な辞書データを必要とせず、音声認識率を向上させることが可能となり、その音声認識により精度よく電子機器の操作が可能となる。
本発明は、ユーザが行った所定操作に応じて所定処理を実行する電子機器に対し、ユーザが音声により操作するためのものである。本発明に係る機器操作システム(以下、本システムという)は、音声入力手段、音声認識手段、及びコマンド生成手段を備え、コマンド生成手段で生成されたコマンドにより、電子機器本体に対し所定処理を実行させる。なお、この電子機器は、ユーザが所定操作を支援するためのユーザインターフェース画面を表示する表示手段を備えたものであって、且つ画面毎に操作内容が階層的に変化していくものであることが好ましい。
音声入力手段は、ユーザが発した音声を入力する。音声認識手段は、その電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する。この限定辞書データは、現在実行可能の操作内容に応じて単語数がシェープアップされているので、認識率を上げることが可能となる。また、音声認識手段では、まず、現在実行可能な操作内容(電子機器で現在入力可能な設定条件)を判断手段によって判断し、その判断に従った限定辞書データを用いて音声認識することにより、現在実行可能な操作内容(設定条件)のみを音声で受け付けることを可能にしている。
コマンド生成手段は、音声認識手段で生成された認識データに基づき、その認識データが示す操作内容を実行するためのコマンドを生成する。ここで生成するコマンドは、通常、電子機器において、コマンド発生手段がユーザがキー入力などにより行った所定操作に応じて発生させる所定のコマンドである。そして、電子機器におけるコマンド実行手段は、キー入力によるものや本発明の特徴である音声入力によるものに拘わらず、ユーザ操作に応じて、コマンド発生手段(コマンド生成手段を含む)で発生させたコマンドに従って、所定処理を実行する。ここで実行される所定処理には、例えば電子機器が画像形成装置であれば「2部コピー」など、その電子機器で実行可能な処理が該当する。
上述のごとき本システムを構築するためには、その一形態として、入力された音声を認識するための音声認識用プログラムを、電子機器又は電子機器とネットワーク接続された情報処理装置に組み込むことでも実現できる。このような音声認識用プログラムは、電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、入力された音声を認識する処理を、電子機器の演算処理装置又は情報処理装置の演算処理装置に実行させるものである。このプログラムは、通常、記憶装置に実行可能に格納され、演算処理装置によってRAM等の作業領域に読み出されて実行される。
また、音声認識手段は、音声入力手段で入力した音声を辞書データにより音声認識して中間データを生成し、その後、その中間データに対し、限定辞書データを用いた認識を実行し、認識データを生成するようにしてもよい。本システムを、上述のごとき音声認識用プログラムとして組み込む場合、この中間データ生成のステップを実行するプログラムは、マイクロソフト社のMS−IME等、既存の音声認識プログラムで代用でき、特に認識精度を問われるものではない。そして、本システムではこの音声認識プログラムの出力結果を元に、限定辞書データによって候補の絞り込み又は変更を行えばよい。
上述のごとき構成により、本発明に係る機器操作システムでは、例えば、ユーザが画像形成装置を操作する際に「ニブ」と発声した場合、通常の辞書データでは「イブ」,「イプ」などと誤認識してしまうこともあったが、現時点で操作可能な単語に絞った限定辞書データを用いているので「2部」であるとの精確な判定ができ、それに伴った処理も可能となる。
このように、本発明によれば、音声認識に際し、ユーザ毎の事前の声紋登録が不要で、且つ膨大な辞書データを必要とせず、音声認識率を向上させることが可能となり、その音声認識により精度よく電子機器の操作が可能となる。また、本発明に係る電子機器において、ユーザを認証するユーザ認証手段を備えた構成を採用する場合であっても、限定辞書データによる音声認識はユーザ別の音声認識ではないので、ユーザ認証結果を必要とせずに高精度な音声認識を可能とする。
以下、本システムのいくつかの構築例について、図面を参照しながら説明する。以下の説明においては、操作によって処理を行う対象となる電子機器の例として多機能プリンタ(MFP)等の画像形成装置を挙げる。なお、操作により処理を行う対象となる電子機器としては、画像形成装置だけでなく、キー入力等によってユーザ操作可能な一般的な電子機器であればよく、その中にはPC等の情報処理装置も含まれるものとする。また、このような電子機器に対し、PCやサーバ等の情報処理装置(上述の情報処理装置とは役割が異なる)で音声認識の全部又は一部を行い、接続された電子機器の処理を実行させるといった形態についても、PCが画像形成装置に接続されてなるシステム、並びにサーバが画像形成装置に接続されてなるシステムを挙げて説明する。
図1は、本発明の一実施形態に係る音声認識装置を備えた画像形成装置の構成例を示す図で、図2は、図1の画像形成装置における操作画面の一例を示す図である。図1において、10は音声認識装置を備えた画像形成装置、11はキー入力手段、12はコマンド発生手段、13はコマンド実行手段、13aは表示手段、13bは音声出力手段、13cは辞書切換手段、14は音声入力手段、15は音声認識手段、15aは限定辞書データの記憶部(しばしば単に「限定辞書データ」を表す)である。また、図2において、11aは一般入力ボタン、11bは操作パネル、14aはマイクロフォンである。
画像形成装置10は、タッチパネルやボタンスイッチなどで構成されたキー入力手段11と、キー入力手段11で入力された操作内容に対応するコマンドを発生させるコマンド発生手段12と、コマンド発生手段12で発生したコマンドを実行するコマンド実行手段13とを備えるものとする。キー入力手段11、コマンド発生手段12、及びコマンド実行手段13自体は、通常の画像形成装置に具備されたものである。
そして、図1で例示する画像形成装置10は、本発明に係る音声認識装置として、音声入力手段14、音声認識手段15(限定辞書データ15aを含む)、及びコマンド生成手段12aを備えるものとする。この音声認識装置は、画像形成装置10等の電子機器に搭載又は接続するためのものであり、図1の例では、画像形成装置10に搭載された状態を例示している。
音声入力手段14は、マイクロフォン等で構成され、音声を入力する手段である。音声認識手段15は、画像形成装置10において現在実行可能な操作内容に関する単語のみに限定した限定辞書データ15aを用いて、音声入力手段14で入力した音声を認識して、認識した結果である認識データを生成する手段であり、例えば画像形成装置10のファームウェアとしての音声認識用プログラム(及びそれを実行するためのCPU,RAM等)によって構成される。この音声認識用プログラムは、入力された音声データに対し音声認識処理を施す音声認識ステップ、及び、後述するコマンドを生成するコマンド生成ステップとを、画像形成装置10の演算処理装置に実行させるプログラムである。
また、音声認識装置を画像形成装置10に組み込んだこの形態にあっても、通常の辞書データにより中間データを生成してから限定辞書データを用いて、認識データを生成(中間データの各候補を限定)するようにしてもよい。このような構成により、汎用的な音声認識処理により音声操作可能な既存の画像形成装置に対して、より精確な音声認識結果を得るための認識率強化オプションとして、本発明を適用することができる。さらに、本発明の音声認識処理を限られた操作でのマッチングにのみ(例えばコマンド処理のときのみ)利用し、メール文の音声による入力などは、通常の音声認識処理に切り換えるといったことも可能となる。
コマンド生成手段12aは、音声認識手段15で生成された認識データに基づき、その認識データが示す操作内容を実行するためのコマンドを生成する手段である。コマンド生成手段12aで生成されたコマンドは、画像形成装置10の本体側、すなわちコマンド発生手段12を介して又は直接、コマンド実行手段13に出力される。このように、コマンド生成手段12aは、コマンド発生手段12の一部であり、音声入力に基づいてキー入力のときと同様のコマンドを発生させることが可能であればよい。
音声認識処理からコマンド生成処理までの一例としては、入力された音声のデータに対し、画像形成装置10において現在実行可能な操作内容に対応する単語の中から該当するテキストデータを選出することで音声認識処理を施し、選出されたテキストデータに基づき、そのテキストデータが示す操作内容を実行するためのコマンドを生成する。
また、図1においてコマンド実行手段13としては、画像形成装置であれば、印字手段や画像読取手段やファイル転送手段など様々な処理を実行する手段が挙げられるが、その他、キー入力や音声入力によるユーザ操作に関わるものとしては、例えば表示手段13a、音声出力手段13b、及び辞書切換手段13cが挙げられる。但し、辞書切換手段13cは、本発明に係る音声認識処理を行うために付加したコマンド実行手段の一つであり、音声認識手段15に含まれるものである。また、音声出力手段13bは、本発明に係る音声認識処理を行う際にユーザ補助を行うために付加したコマンド実行手段の一つである。
表示手段13aは、ユーザが所定操作を行うことを支援するためのユーザインターフェース画面を表示する手段であって、通常、キー入力手段11がタッチパネルで構成される形態などのときにキー入力手段11と連携し、キー入力を補助するための画面表示を行う。このような画面は階層的に用意されていることが多く、その際には、階層的に複数のユーザインターフェース画面を記憶する記憶手段を備えておき、表示手段13aが、コマンド生成手段12aを含むコマンド発生手段12で発生されたコマンドが示す次の階層の所定のユーザインターフェース画面を、この記憶手段から読み出して順次表示する。
図2(A)を参照すると、画像形成装置10の操作部には、キー入力手段11及び表示手段13aの一例として、タッチパネルでなる操作パネル11bをはじめ、文書ファイリングボタン、FAX/イメージ送信ボタン、コピーボタン、及びユーザ設定ボタンなどの専用ボタン、さらにはテンキー及びスタートボタン等の一般入力ボタン11aが設けられている。操作パネル11bには、コピーに関する複数の設定ボタン11cが表示されており、例えば用紙選択ボタン11d、原稿種類選択ボタン、コピー濃度設定ボタン、変倍率設定ボタン等が、押下可能に表示されている。また、操作パネル11bには、コピーに関する複数の機能(可能な操作)等も表示されており、例えば、両面コピー設定領域、仕上げ設定領域、及びファイリング設定領域が押下可能に表示されている。さらに、操作部には、音声入力手段14の一例としてマイクロフォン14aが設けられている。
このような画像形成装置10に対し、例えば、初めに図2(A)に示すような機能一覧の画面を表示する。次に、ユーザが、その中から用紙選択ボタン11dの領域を押下した場合には、図2(B)に示すような下層の「A4」選択ボタン11fの領域や他の用紙を選択する領域を含んだ選択領域11eが操作パネル11b上に表示される。
音声出力手段13bは、音声入力を補助するために、例えば選択可能な項目を読み上げるなどの音声出力を行う手段で、表示手段13aと同様、ユーザ補助を行うためのものである。
辞書切換手段13cは、現在実行可能な操作内容に応じて、限定辞書データ15aを切り換える手段である。例えば、図2(A)に示すような機能一覧を示す操作内容の単語群の限定辞書データから、図2(B)に示すような下層の操作内容の単語群の限定辞書データへと切り換える。なお、現在実行可能な操作内容は、表示手段13aで表示する画面で表示されているものが多く、その他としては、タッチパネル以外の操作ボタンでの操作が存在している。
図3は、本発明の他の実施形態に係る機器操作システムの構成例を示す図で、図中、20はサーバやPC等の情報処理装置(以下、サーバで説明)、21は音声受信手段、22は音声認識手段、22aは限定辞書データの記憶部、23はコマンド生成手段、24はコマンド返信手段、30は画像形成装置、31は音声入力手段、32は音声送信手段、33はコマンド受信手段、34はコマンド実行手段である。
なお、画像形成装置30でも、図1で示したようなキー入力手段11やコマンド発生手段12を備えるが(コマンド生成手段は画像形成装置30側には含まない)、図示並びにその説明を省略する。さらに、図3においては、コマンド実行手段34にも図1の表示手段13aや音声出力手段13bをはじめ様々な手段が含まれるが(但し、辞書切換手段13cは不要である)、図示並びにその説明を省略する。
本実施形態に係る機器操作システムは、画像形成装置30を音声で操作する際に、音声認識をサーバ20で行うものであり、そのため、画像形成装置30はサーバ20にネットワーク経由で接続されているものとする。勿論、サーバ20に複数の画像形成装置30を接続し、複数の画像形成装置の操作内容に、さらには複数の機種の操作内容に対応した音声認識処理を実行可能としてもよい。ここでは、簡略化のため一台の画像形成装置30に注目して説明する。
画像形成装置30は、音声入力手段31、音声送信手段32、コマンド受信手段33、及びコマンド実行手段34を備える。画像形成装置30では、まず、ユーザによって音声入力手段31で音声が入力されると、その音声を音声送信手段32がネットワークを介してサーバ20側に送信する。音声入力手段31及び音声送信手段32の構成例としては、通常のマイクロフォン及びデータ送信手段であればよく、例えば、画像形成装置に具備されたファクシミリ通信用のハンドセットで通話することで、音声をそのままネットワーク(電話回線のネットワークも含む)経由で送信可能なよう構成してもよい。
一方、サーバ20は、音声受信手段21、限定辞書データの記憶部22aを備えた音声認識手段22、コマンド生成手段23、及びコマンド返信手段24を備える。サーバ20では、まず音声受信手段21により、画像形成装置30で入力された音声のデータをネットワーク(電話回線のネットワークも含む)経由で受信する。
次に、音声認識手段22が画像形成装置30において現在実行可能な操作内容に関する単語のみに限定した限定辞書データ22aを用いて、音声受信手段21で受信した音声のデータに対し音声認識を施して、認識した結果である認識データを生成する。ここで、本実施形態にあっても、通常の辞書データにより中間データを生成してから限定辞書データを用いて、最終的な認識データを生成するようにしてもよい。
コマンド生成手段23は、音声認識手段で生成された認識データに基づき、認識データが示す操作内容を実行するためのコマンドを生成する。コマンド返信手段24は、コマンド生成手段23で生成されたコマンドを画像形成装置に送信する。
画像形成装置30側では、コマンド受信手段33が、音声送信手段32で送信した音声に対する応答として、サーバ20におけるコマンド返信手段で返信されたコマンドを受信する。コマンド実行手段34は、コマンド受信手段33でコマンドを受信した場合、受信したコマンドに従って所定処理を実行する。
上述のごときシステムにおいて、音声認識処理に係わる各手段は、例えば画像形成装置10のファームウェアとしての音声認識要求用のプログラム、及びサーバ20に組み込むソフトウェアとしての音声認識用プログラム(及びそれを実行するためのCPU,RAM等)によって構成すればよい。
図4は、本発明の他の実施形態に係る機器操作システムの構成例を示す図で、図中、40はサーバやPC等の情報処理装置(以下、PCで説明)、41は音声受信手段、42は限定辞書データ受信手段、43は音声認識手段、44はコマンド生成手段、45はコマンド返信手段、50は画像形成装置、51は音声入力手段、52は音声送信手段、53は限定辞書データ送信手段、54はコマンド受信手段、55はコマンド実行手段である。
図3で説明したシステムでは、情報処理装置(サーバ20で説明)に画像形成装置の限定辞書データ22aを保持していたのに対し、本実施形態に係る機器操作システムは、限定辞書データを情報処理装置(PC40で説明)側が記憶しておかなくても、画像形成装置50から取得可能としたシステムである。以下、本実施形態について、図3のシステムとの差異のみを説明する。
限定辞書データ送信手段53は、ネットワークを介して限定辞書データを送信する手段である。限定辞書データ受信手段42は、限定辞書データ(少なくとも現在の操作画面の内容に相当するもの)を、画像形成装置からネットワークを介して受信する(或いは要求して受信する)。音声認識手段43は、限定辞書データ受信手段42で受信した限定辞書データを音声認識に用いる。
限定辞書データは、音声入力手段51又は音声送信手段52の処理を契機として、画像形成装置50が自機の限定辞書データを保持しているか否かをPC40側に問い合わせて、保持していない場合のみ送信するようにしてもよい。また、PC40からのネットワークを介した限定辞書データの要求に対し、画像形成装置50が限定辞書データを送信するといった方法を採用してもよい。
また、限定辞書データの送受信の単位としては、画像形成装置50の全ての画面用の限定辞書データを一度に送受するようにしてもよいし、各画面毎に(すなわち現在実行可能な操作の画面のみの)限定辞書データを送受するようにしてもよい。限定辞書データを一度に送受する場合(及び図3のシステムのごとくサーバ側に保持している場合)、例えば、現在実行可能な操作を示す画面IDを、画像形成装置50からPC40に送信し、PC40(サーバ20)は、その画面IDに応じた限定辞書データを用いて音声認識を実行すればよい。
また、図3の画像形成装置30及び図4の画像形成装置50で例示した電子機器としては、コマンド発生手段及びコマンド実行手段に加え、コマンド発生手段で発生させるコマンドと同じコマンド(受け付け可能な設定内容)を、外部から受信する手段を備えるだけの形態も有用である。すなわち、音声入力機能や音声認識機能が具備されていなくても、電子機器が外部からコマンド(設定内容)を受信して受信したコマンドに従って所定処理を実行できるような構成の電子機器も有用である。この場合も、限定辞書データの送受方法と同様に、例えば外部装置(PC)からコマンドを受け付け可能な画像形成装置において、PCから受信したコマンド(要求コマンド)に応じて、次に受付可能な設定内容をPCに送出するようにしてもよい。ここで、PCは、受け付け可能な設定内容のみ画像形成装置に送出するように構成してもよい。本発明の特徴である音声認識によって形成されたコマンドは、ここでの外部からのコマンドの一例に相当するものであり、この形態を採用した画像形成装置について、図5を参照して次に説明する。
図5は、本発明の他の実施形態に係る機器操作システムの構成例を示す図で、図中、60はPC等の情報処理装置(以下、PCで説明)、61は音声入力手段、62は音声認識手段、62aは限定辞書データの記憶部、63はコマンド生成手段、64はコマンド送信手段、70は画像形成装置、71はコマンド受信手段、72はコマンド実行手段、73はコマンド発生手段、74はキー入力手段である。
なお、画像形成装置70に具備されたキー入力手段74、コマンド発生手段73、及びコマンド実行手段72は、図1で示したキー入力手段11、コマンド発生手段12(コマンド生成手段は画像形成装置70側には含まない)、及びコマンド実行手段13と同様であり、その説明を省略する。また、この形態においても、限定辞書データの送受を行う形態を採用可能である。
本実施形態に係る機器操作システムは、画像形成装置70を音声で操作する際に、音声入力及び音声認識をPC60で行うものであり、そのため、画像形成装置70はPC60にネットワーク経由で接続され、且つ画像形成装置70とPCとが近くに設置されているものとする。勿論、PC60に複数の画像形成装置70を接続し、複数の画像形成装置の操作内容に、さらには複数の機種の操作内容に対応した音声認識処理を実行可能としてもよい。ここでは、簡略化のため一台の画像形成装置70に注目して説明する。
PC60は、音声入力手段61、音声認識手段62、コマンド生成手段63、及びコマンド送信手段64を備える。そして、PC60では、音声入力手段61で入力された音声を音声認識手段62で限定辞書データ62aを用いて音声認識し、コマンド生成手段63が生成された認識データに基づき、認識データが示す操作内容を実行するためのコマンドを生成する。コマンド送信手段64は、コマンド生成手段63で生成されたコマンドを画像形成装置70に送信する。
一方、画像形成装置70はコマンド受信手段71を備え、コマンド受信手段71がPC60のコマンド送信手段64で送信されたコマンドを受信して、コマンド実行手段72が、受信したコマンドに従って所定処理を実行する。
図6は、本発明の他の実施形態に係る機器操作システムの構成例を示す図で、図中、80はPC等の情報処理装置(以下、PCで説明)、81は音声入力手段、82は音声認識手段、82aは限定辞書データの記憶部、83は認識データ送信手段、90は画像形成装置、91は認識データ受信手段、92はコマンド生成手段、93はコマンド実行手段、94はコマンド発生手段、95はキー入力手段である。
図5で説明したシステムでは、情報処理装置(PC60で説明)と画像形成装置70とでコマンドの送受を行っていたのに対し、本実施形態に係る機器操作システムは、情報処理装置(PC80で説明)側では認識データの生成までを行い、その認識データを画像形成装置90側に送信するシステムである。また、この形態においても、限定辞書データの送受を行う形態を採用可能である。以下、本実施形態について、図5のシステムとの差異のみを説明する。
認識データ送信手段83は、音声認識手段82で生成された認識データを画像形成装置90に送信する。一方、画像形成装置90は、PC80から送信された認識データを受信する認識データ受信手段91を備え、コマンド発生手段94は、認識データ受信手段91で受信された認識データに基づき、認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段92(図6ではコマンド発生手段94と別構成として図示)を有する。このような構成により、画像形成装置90では、認識データ受信手段91で受信した認識データに対し、コマンド生成手段92がコマンドを生成し、コマンド実行手段93がそのコマンドを実行する。
以上、本発明の様々な実施形態について説明したが、次に、具体例として、様々な情報処理装置(PC、FAX、及びサーバ)と接続されたデジタル複合機を、音声により操作する機器操作システムについて説明する。なお、ここで説明する具体例は、上述した各実施形態に係る機器操作システム(音声認識機能付きの電子機器単体も含む)が実現可能なものとして説明する。
図7は、本発明に係る機器操作システムの一構成例を示す図で、1はデジタル複合機、2a,2bは端末PC、2Aはマイクロフォン、3はネットワーク(LAN等)、4は電話回線網、5はインターネット網、6は外部FAX、7はインターネットFAX、8は外部PC、9は外部サーバ、100は画像読み取り部、101は音声入力部、102は操作部、103は画像形成部、104は機器制御部、105はFAXモデム、106は通信部、107は記憶装置の一例としてのハードディスク(HD)、108は消去処理部、109は管理部、110はタイマである。
デジタル複合機1には、電話回線網4により例えば外部FAX6が接続されていると共に、LANやWAN(Wide Area Network)等のネットワーク3を介して、複数の端末PC2a,2b,...及びさらにインターネット網5経由でネットワーク3外部にあるインターネットFAX7や外部PC8や外部サーバ9などに接続されている。これらのネットワーク構成により、各種データの送受信が可能となっている。
デジタル複合機1は、画像読み取り部100,音声入力部101,操作部102,画像形成部103,機器制御部104,FAXモデム105,通信部106,HD107,消去処理部108,管理部109,タイマ110などで構成される。なお、本発明に係るデジタル複合機1の構成や外部機器との接続形態は、この例に限ったものではない。各手段は、全てがハードウェアで構成される必要はなく、デジタル複合機1をそれらの手段として機能させるプログラムを機器制御部104等の制御部などに組み込み(或いは音声認識プログラムの全部又は一部を管理部109に組み込み)、演算装置に実行させることでも容易に実装できる。また、上述のごときプログラムは、例えばデジタル複合機1の機器制御部104や管理部109などに、ファームウェアとして実装されることが多く、機器制御部104内の演算処理装置(主として中央演算処理装置)に実行させるためのものである。
音声入力部101は、マイクロフォン等でなる。操作部102は、操作画面の表示を行う出力部102bとその表示を元に利用者に各種設定及び操作内容を入力させる入力部102aとを備えるタッチパネル等でなる。本発明では音声操作を行うために音声入力部101が備えられており、音声入力部101も操作部の一つといえる。画像読み取り部100は、操作部102での操作に基づき、原稿検知センサ100bによって原稿の有無を検知しCCD(電荷結合素子)100aでその原稿を読み取り画像データとして出力する。出力先は、ファイリング処理を実行する場合には、画像形成部103を介したHD107或いは直接HD107となり、印字の場合には画像形成部103となり、データ送信の場合には通信部106等となる。FAXモデム105は外部FAX6とのファクシミリ通信を行うためのモデムである。通信部106は、ネットワーク3経由で接続されたデジタル複合機1の外部機器との通信を制御する。
画像形成部103は、画像読み取り部100で読み取った画像データやFAXモデム105或いは通信部106で受け取った受信データ(受信ファイル)などをメモリ103bに一時記憶し、レーザスキャナユニット(LSU)を搭載した印字部103aから用紙等の媒体に画像を形成する。画像形成部103では、暗号処理部103cにてメモリ103bに記憶された画像データ等のデータを暗号化してHD107に記憶することも可能となっており、逆に、HD107に記憶された暗号化データを復号化してメモリ103bを介してネットワーク3等を経由して外部機器に出力することや印字部103aで媒体として印字出力することも可能となっている。消去処理部108は、HD107に記憶されたデータを、セキュリティ保持や記憶容量確保などのために消去する処理を行う。
機器制御部104は、上述した各部に接続された主制御部であり、管理部109の管理データ及びタイマ110からのタイマ時間を参照しながら、デジタル複合機1の各部間のデータのやり取りをはじめとしてデジタル複合機1の動作を統括的に制御する。管理部109は、例えばHD107に格納されたフォルダ情報や保存条件の情報、自機1のIPアドレスなどを管理する。タイマ110は、デジタル複合機1の待機状態の時間を計時し、この時間を機器制御部104に通知する。機器制御部104における制御の一例を挙げると、操作部102は、利用者の操作入力により指示された複写要求や各種の記録条件等を機器制御部104に通知し、機器制御部104は、デジタル複合機1の動作状態等を操作部102の表示部102bの表示画面に表示すると共に、画像形成部103に印字処理等を指示する。また、機器制御部104は、音声操作に対応した処理も実行する。例えばデジタル複合機1に音声認識処理まで実行させる形態にあってはその処理も実行させるなど、本発明に係る音声入力、音声認識、及びコマンド生成などの処理を複合機1側で行うのか外部接続された他の情報処理装置で行うのかによって、機器制御部104に組み込まれるファームウェアは異なる。
図8は、図7におけるPCの構成例を示す図で、図中、2aはPC、121はCPU、122は表示部、123はRAM等のメモリ、124はオペレーションシステムや他の制御プログラムを格納したROM、125は印刷管理部、126はメール管理部、127は音声認識部、128は操作部、129はモデム部、130は通信部、131は管理部、132は記憶部、133は音声入力部である。
PC2aは、本発明に係る音声操作を実行するための音声入力部133(マイクロフォン2A等)及び音声認識部127を備える。PC2aは、さらに、各種情報を入力するためのキーボード,マウス等の操作部128、ハードディスク,外部記録媒体読取装置等の記憶部132、他の機器からの入力用のネットワーク機器などでなる通信部130、電話回線を介したファクシミリ通信を行うモデムなどでなるモデム部129、報知情報やその他の情報を表示するためのCRT,LCDなどのディスプレイである表示部122、PC2aに接続された印刷装置での印刷を制御するプリンタドライバ及びコネクタ等でなる印刷管理部125、通信部130やモデム部129を介してメールの送受信を行うメーラなどでなるメール管理部126、ログ管理や転送処理などを行うプログラムなどでなる管理部131、さらには、制御プログラムを記録したハードディスクやROM(書き換え可能なROMでもよい)124、そこに格納された制御プログラムや各部のプログラムを実行するためのCPU121、及びその実行領域としてのメモリ123をその主要な構成要素とし、それらがバスにより接続されているものとして例示している。なお、音声認識部127は、制御プログラムの一つとして組み込んでもよい。
PC2aに搭載されるこれらのプログラムは、CPU121に実行させるためのプログラムであって、装置ユーザがキー入力を行う際に容易となるように、表示部122用のグラフィカルユーザインターフェース(GUI)を備えるようにするとよい。そして、これら装置で取り扱われる情報は、その処理時に一時的にメモリ123に蓄積され、その後、各種ROM124やハードディスクに格納され、必要に応じて、CPU121によって読み出し、修正・書き込みが行われる。
本発明では、上述のごとくデジタル複合機(以下、MFPという)1上、或いはMFP1に接続した外部PC2a上に、音声認識モジュールとMFPコマンド制御ソフトとを搭載することで、MFP1の音声操作を可能とする。この機器操作方法(機器制御方法)について、PC2a側には、音声入力部133、音声認識部127(コマンド変換部を含む)、及びインターフェース部(モデム部129及び通信部130)を備え、MFP1側には、インターフェース部(FAXモデム105及び通信部106)及びコマンド変換部(機器制御部104内に実装)を備えた場合について、説明する。
音声入力部は、PC2aに接続されたマイクロフォン2A及びその入力端子等でなる。音声認識部は、認識用の辞書データを含む音声認識モジュールでなる。コマンド変換部は、テキスト化された音声から該当するMFP1へのコマンド(MFPコマンド)を生成する。インターフェース部は、MFP1とのデータの入出力を行うEthernet(登録商標)等のネットワーク機器でなる。一方、MFP1側において、インターフェース部は、PC2aとのデータの入出力を行うEthernet(登録商標)等のネットワーク機器でなる。コマンド変換部は、PC2aから送出された汎用形式のコマンドを、自機で実行可能なコマンド形式に変換し、コマンド処理部に出力する。
MFP1の外部にあるPC2aに音声入力部を設けたことを前提として、処理の流れを説明する。まず、ユーザは、画面上の操作したいボタン名をマイクに向かって発声する。音声入力部としては、PC2aに接続されたマイクを用いるか、或いは、MFP1に接続されたマイク、或いはFAX用のハンドセット等のMFP1内蔵のマイクを用いる。MFP1から音声入力する場合の伝達方法としては、電話回線でアナログ音声のまま伝送するか、或いはデジタル化してUSB,LAN等で伝送するか、デジタル化したものをIP電話プロトコルを用いて伝送すればよい。
次に、PC2a上の音声認識モジュールが、入力された音声をテキスト化する。その際に用いるモジュールは、MFP1のメニューコマンドに特化した調整を行っておく。
PC2a内のコマンド解析部は、変換されたテキストがその画面で有効なコマンドテーブルに合致するかを照合する。テキストをMFPコマンドに置き換えるこのコマンド解析部は、各画面で有効なコマンドが何かを予め認識している必要がある。この情報を解析部に与える方法は幾つか考えられ、目的や機能に応じて適切な方法を採用するとよい。
解析部は個々の画面で受け付けるコマンドを認識する方法としては、例えば、(1)予め画面毎のコマンド列を定義したデータを解析ソフトに与えておく方法、(2)画面が切り替わる度に、受付可能なコマンド情報をMFP1がPC2a上の解析部に通知する方法などを採用するとよい。上記(1)の方法は、PC2a側に画面とコマンド情報の定義を登録すればよく、MFP1側からデータを送ってもらう必要が無いので、MFP1側での対応が不要であり、また、MFP1から画面情報を受け取らないので通信負荷が掛からない。一方、上記(2)の方法は、ユーザが入力した情報(例えばファイル名等)も取り扱える。さらに、MFP1の操作画面が拡張やカスタマイズ可能な場合も、新規画面に応じたコマンドテーブルを同時に用意しておけば対応できる。さらに、PC2a側で全てのコマンド情報を常に保持しておく必要が無い。また、上記(2)の方法において、伝送データ量を削減する方法としては、コマンド情報と一緒に画面IDを通知しておく。そして、PC2a側ではIDとコマンド情報を保存しておき、2回目以降はIDだけを通知するだけで済むようにしておくとよい。
PC2a及びMFP1におけるインターフェース部は、合致したコマンドをMFP1が実行可能な形式でMFP1側に送信する。MFP1は、受け取ったコマンドを実行する。ユーザは所望の結果が得られるまで、これらの音声操作を繰り返す。
直接方式として、本体が当該コマンドを内部で扱う際のデータと同じ形式に変換してから通知する。発生させるコマンドとしては、簡単なもので、操作キーに対応付けられたコマンド(コード)と同じものを送るとよい。このコードの例としては16進数のコードを用いればよく、例えば「A0」がスタートキー、「C0」がキャンセルキーなどと、それぞれ操作キーに対応させておくとよい。この直接方式では、MFP1はそのコマンドを直接実行できるので、特別な処理が不要となる。
また、アプリケーションを汎用的なものとするために、中間形式の方式を採用してもよい。独自の形式を規定しておき、その形式に則ってMFP1への通知を行う。インタプリタを搭載したMFP1が、そのコマンドを解析し、必要な動作を行う。この場合、異なるコマンドを持つ機器に対して、1つの音声操作サービスで対応させることが可能となるので、汎用性が向上する。
本発明によれば、不特定話者の対応が可能となるだけでなく、認識精度も向上し、安価で拡張性のあるシステムを構築することが可能となる。実際、自然言語認識では話者の発声の特徴を予め学習させておかないと認識率が低下するが、本発明では認識すべき語を限定したことで、事前に学習させておかなくても十分高い認識率が期待でき、コピーサービスやプリントサービスなどのキオスク端末などとしても、利用可能となる。また、一つの画面で有効なコマンド数が極めて少ないので、画面毎に認識辞書を特化することで、ラフな話し方をしたユーザに対しても、ユーザの発声の認識精度を向上させることができる。例えば、そのとき押下されるべきボタン(キー)が5つしか無かった場合には、5つの単語しか認識する必要が無くなる。また、MFP1本体に音声認識処理部を持たせなくてもよいため(勿論、持たせてもよい)、機器自体を安価に提供できる。さらに、認識部をMFP1の外部に設けることで、機器自体のソフト(ファームウェア)を変更せずに、他の言語での音声入力にも対応できる。
その他の動作について説明すると、音声操作モードへの移行処理としては、(1)MFP1で常時音声コマンドを受け付けるようにする、(2)特定のキー操作によって音声受付モード(音声操作モード)に切り換える、(3)MFP1のユーザ認証によってユーザが特定され、そのユーザが音声入力を必要とするユーザとして設定されていた場合に、自動的に音声入力を有効にして音声操作モードに移行する、といった処理が採用できる。
また、コマンド変換テーブル部を置き換えれば、本体の変更無しに多言語対応が容易に行える。また、画面上の表示言語が切り換えられた場合には、コマンド解析部に現在の言語設定情報を通知し、解析に使用する音声認識処理部と変換テーブルとを選択された言語用に切り換えるようにしてもよい。さらに、画面に無いコマンドを音声入力できるように拡張してもよく、その場合、例えば省略形で受け付けたり、複数の操作を1つの音声コマンドにまとめて同時に受け付けたりしてもよい。
発声の例として「よーし」と発音した場合、一般の音声認識処理では音声単語辞書から「ようし(用紙)」,「よし(良し)」,「よしい(吉井)」,「ひょうし(表紙)」,「ようじ(用事)」などの複数の候補が抽出される。しかし、本発明を適用することで、発声されたのが「基本画面」上であれば、基本画面コマンドテーブルとそれぞれをつき合わせる。例えば、「基本画面」に対して、原稿,濃度,用紙,両面,仕上げ,特別機能,スタート,リセット,クリア,1〜9,システム設定,ログアウトの操作が可能であり、「表紙挿入設定画面」に対して、表紙,裏表紙,...といった操作が受付可能であるコマンドテーブルが用いられていると仮定する。この場合、読みが一致する単語として、「用紙」が採用できる。一方、全く同じ発音を「表紙挿入設定画面」が表示されているときに行った場合には、表紙挿入画面コマンドテーブルと照合されるので、今度は「表紙」が選出される。このようにして、曖昧な発声であっても、各画面でユーザの意図したコマンドが確実に選択される。
このように、図7及び図8で例示したシステムは、本発明に係る音声操作を可能とするために、図1乃至図6で説明した構成、すなわち複写機に入力可能な言葉を予め予測(限定)し、その予測した言葉だけを受け付ける構成としている。このような構成により、音声認識する言葉の数が限定されるので、声紋登録が不要となり音声認識率を向上させることができるので、操作者にとって操作性の良い画像形成装置を安価に構成して提供することが可能となる。また、ネットワークや専用ケーブルで接続されたPC(市販の音声認識ソフト、例えばMS−IME等)によって音声認識されたコマンドを受け付けることによって画像形成に必要な設定条件を入力することを可能とすることで、現在の画像形成装置にも容易に対応することが可能となる。
以上、図1乃至図8を参照しながら、本発明の音声認識装置、電子機器、情報処理装置、機器操作システム、プログラムを中心に各実施形態を説明してきたが、本発明は、上述した各実施形態で処理手順として説明したように、音声認識方法や機器操作方法としての形態も採用でき、さらに、上述のごときプログラムを記録したコンピュータ読み取り可能な記録媒体としての形態も採用可能である。
本発明による音声認識の機能を実現するためのプログラムやデータを記憶した記録媒体の実施形態を説明する。記録媒体としては、具体的には、CD−ROM、光磁気ディスク、DVD−ROM、FD、フラッシュメモリ、及びその他各種ROMやRAM等が想定でき、上述したプログラムを、これら記録媒体に記録して流通させることにより、当機能の実現を容易にする。そして、図7で例示したような画像形成装置に、或いは図8で例示したようなコンピュータ等の情報処理装置が備えている記録媒体に、当プログラムを記憶させておき、必要に応じて読み出すことにより、本発明に係わる音声認識の機能を実行することができる。
本発明の一実施形態に係る音声認識装置を備えた画像形成装置の構成例を示す図である。 図1の画像形成装置における操作画面の一例を示す図である。 本発明の他の実施形態に係る機器操作システムの構成例を示す図である。 本発明の他の実施形態に係る機器操作システムの構成例を示す図である。 本発明の他の実施形態に係る機器操作システムの構成例を示す図である。 本発明の他の実施形態に係る機器操作システムの構成例を示す図である。 本発明に係る機器操作システムの一構成例を示す図である。 図7におけるPCの構成例を示す図である。
符号の説明
1…デジタル複合機、2a,2b…情報処理装置(PC)、2A…マイクロフォン、3…ネットワーク(LAN)、4…電話回線網、5…インターネット網、6…外部FAX、7…インターネットFAX、8…外部PC、9…外部サーバ、10,30,50,70,90…画像形成装置、11,74,95…キー入力手段、12,73,94…コマンド発生手段、13,34,55,72,93…コマンド実行手段、13a…表示手段、13b…音声出力手段、13c…辞書切換手段、14,31,51,61,81…音声入力手段、15,22,43,62,82…音声認識手段、15a,22a,62a,82a…限定辞書データの記憶部(限定辞書データ)、20…サーバ、21,41…音声受信手段、12a,23,44,63,92…コマンド生成手段、24,45,64…コマンド返信手段、32,52…音声送信手段、33,54,71…コマンド受信手段、40,60,80…PC、42…限定辞書データ受信手段、53…限定辞書データ送信手段、83…認識データ送信手段、91…認識データ受信手段、100…画像読み取り部、101…音声入力部、102…操作部、103…画像形成部、104…機器制御部、105…FAXモデム、106…通信部、107…ハードディスク(HD)、108…消去処理部、109…管理部、110…タイマ、121…CPU、122…表示部、123…メモリ、124…ROM、125…印刷管理部、126…メール管理部、127…音声認識部、128…操作部、129…モデム部、130…通信部、131…管理部、132…記憶部、133…音声入力部。

Claims (18)

  1. ユーザが行った所定操作に応じて所定処理を実行する電子機器を備え、該電子機器を音声により操作するための機器操作システムであって、音声を入力する音声入力手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段と、該音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段とを備え、該コマンド生成手段で生成されたコマンドにより、前記電子機器に対し所定処理を実行させることを特徴とする機器操作システム。
  2. 前記音声認識手段は、前記音声入力手段で入力した音声を辞書データにより音声認識して中間データを生成し、その後、該中間データに対し、前記限定辞書データを用いたデータ認識を実行し、前記認識データを生成することを特徴とする請求項1に記載の機器操作システム。
  3. 電子機器に搭載又は接続するための音声認識装置であって、音声を入力する音声入力手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段と、該音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段と、該コマンド生成手段で生成されたコマンドを前記電子機器の本体側に出力するコマンド出力手段とを備えたことを特徴とする音声認識装置。
  4. ユーザが行った所定操作に応じて所定のコマンドを発生させるコマンド発生手段と、該コマンド発生手段で発生させたコマンドに従って所定処理を実行するコマンド実行手段とを備えた電子機器において、音声を入力する音声入力手段と、当該電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段とを備え、前記コマンド発生手段は、前記音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段を有することを特徴とする電子機器。
  5. 前記コマンド実行手段の一手段として、ユーザが前記所定操作を行うことを支援するためのユーザインターフェース画面を表示する表示手段を備えたことを特徴とする請求項4に記載の電子機器。
  6. 階層的に複数のユーザインターフェース画面を記憶する記憶手段を備え、前記表示手段は、前記コマンド発生手段で発生されたコマンドが示す次の階層の所定のユーザインターフェース画面を、前記記憶手段から読み出して順次表示する手段を有することを特徴とする請求項5に記載の電子機器。
  7. 電子機器にネットワークを介して接続可能な情報処理装置であって、前記電子機器で入力された音声のデータを、ネットワークを介して受信する音声受信手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声受信手段で受信した音声のデータに対し音声認識を施して、認識した結果である認識データを生成する音声認識手段と、前記音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段と、該コマンド生成手段で生成されたコマンドを前記電子機器に送信するコマンド返信手段とを備えたことを特徴とする情報処理装置。
  8. 請求項7に記載の情報処理装置にネットワークを介して接続可能な電子機器であって、ユーザが行った所定操作に応じて所定のコマンドを発生させるコマンド発生手段と、該コマンド発生手段で発生させたコマンドに従って所定処理を実行するコマンド実行手段と、音声を入力する音声入力手段と、該音声入力手段で入力された音声のデータを前記情報処理装置に送信する音声送信手段と、該音声送信手段で送信した音声に対する応答として、前記情報処理装置における前記コマンド返信手段で送信されたコマンドを受信するコマンド受信手段とを備え、前記コマンド実行手段は、前記コマンド受信手段でコマンドを受信した場合、受信したコマンドに従って所定処理を実行することを特徴とする電子機器。
  9. 前記限定辞書データを、前記電子機器からネットワークを介して受信する限定辞書データ受信手段を備え、前記音声認識手段は、前記限定辞書データ受信手段で受信した限定辞書データを音声認識に用いることを特徴とする請求項7に記載の情報処理装置。
  10. 請求項9に記載の情報処理装置に対し、ネットワークを介して前記限定辞書データを送信する限定辞書データ送信手段を備えたことを特徴とする請求項8に記載の電子機器。
  11. 電子機器にネットワークを介して接続可能な情報処理装置であって、音声を入力する音声入力手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段と、前記音声認識手段で生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段と、該コマンド生成手段で生成されたコマンドを前記電子機器に送信するコマンド送信手段とを備えたことを特徴とする情報処理装置。
  12. 請求項11に記載の情報処理装置にネットワークを介して接続可能な電子機器であって、ユーザが行った所定操作に応じて所定のコマンドを発生させるコマンド発生手段と、該コマンド発生手段で発生させたコマンドに従って所定処理を実行するコマンド実行手段と、前記情報処理装置における前記コマンド送信手段で送信されたコマンドを受信するコマンド受信手段とを備え、前記コマンド実行手段は、前記コマンド受信手段でコマンドを受信した場合、受信したコマンドに従って所定処理を実行することを特徴とする電子機器。
  13. 電子機器にネットワークを介して接続可能な情報処理装置であって、音声を入力する音声入力手段と、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、前記音声入力手段で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段と、該音声認識手段で生成された認識データを前記電子機器に送信する認識データ送信手段とを備えたことを特徴とする情報処理装置。
  14. 請求項13に記載の情報処理装置にネットワークを介して接続可能な電子機器であって、ユーザが行った所定操作に応じて所定のコマンドを発生させるコマンド発生手段と、該コマンド発生手段で発生させたコマンドに従って所定処理を実行するコマンド実行手段と、前記情報処理装置における前記認識データ送信手段で送信された認識データを受信する認識データ受信手段とを備え、前記コマンド発生手段は、前記認識データ受信手段で受信された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段を有し、前記コマンド実行手段は、前記コマンド生成手段で生成されたコマンドを実行することを特徴とする電子機器。
  15. 電子機器、又は該電子機器とネットワーク接続された情報処理装置に組み込んで、入力された音声を認識するための音声認識用プログラムであって、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、入力された音声を認識する処理を、前記電子機器の演算処理装置又は情報処理装置の演算処理装置に実行させることを特徴とするプログラム。
  16. 電子機器に組み込んで、入力された音声を認識するための音声認識用プログラムであって、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、入力された音声を認識して、認識した結果である認識データを生成する音声認識ステップと、該生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成ステップとを、前記電子機器の演算処理装置に実行させることを特徴とするプログラム。
  17. 電子機器と接続可能な情報処理装置に組み込んで、入力された音声を認識するための音声認識用プログラムであって、前記電子機器において現在実行可能な操作内容に関する単語のみに限定した限定辞書データを用いて、入力された音声を認識して、認識した結果である認識データを生成する音声認識ステップと、該生成された認識データに基づき、該認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成ステップとを、前記電子機器の演算処理装置に実行させることを特徴とするプログラム。
  18. 請求項15乃至17のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2005157300A 2005-05-30 2005-05-30 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体 Pending JP2006330576A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005157300A JP2006330576A (ja) 2005-05-30 2005-05-30 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005157300A JP2006330576A (ja) 2005-05-30 2005-05-30 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体

Publications (1)

Publication Number Publication Date
JP2006330576A true JP2006330576A (ja) 2006-12-07

Family

ID=37552296

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005157300A Pending JP2006330576A (ja) 2005-05-30 2005-05-30 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体

Country Status (1)

Country Link
JP (1) JP2006330576A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011049705A (ja) * 2009-08-25 2011-03-10 Konica Minolta Business Technologies Inc 画像処理システム、画像処理装置及び情報処理装置
JP5233989B2 (ja) * 2007-03-14 2013-07-10 日本電気株式会社 音声認識システム、音声認識方法、および音声認識処理プログラム
JP2015076038A (ja) * 2013-10-11 2015-04-20 Necパーソナルコンピュータ株式会社 情報処理方法、情報処理装置、及びプログラム
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、系统及存储介质
CN108877791A (zh) * 2018-05-23 2018-11-23 百度在线网络技术(北京)有限公司 基于视图的语音交互方法、装置、服务器、终端和介质
CN110060670A (zh) * 2017-12-28 2019-07-26 夏普株式会社 操作辅助装置、操作辅助系统以及操作辅助方法
JP2019128374A (ja) * 2018-01-22 2019-08-01 トヨタ自動車株式会社 情報処理装置、及び情報処理方法
JP2019161636A (ja) * 2018-03-09 2019-09-19 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド スマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータプログラム
JP2020181527A (ja) * 2019-04-26 2020-11-05 シャープ株式会社 画像形成装置、画像形成方法及びプログラム
JP2021502167A (ja) * 2017-11-09 2021-01-28 チボ ゲーエムベーハー 飲料調製マシンによって製品を製造するための方法、この方法を実行するためのシステム、および飲料調製マシンのためのマシンバックエンド
JP2021073567A (ja) * 2018-04-11 2021-05-13 百度在線網絡技術(北京)有限公司 音声制御方法、端末機器、クラウドサーバ及びシステム
US11425271B2 (en) 2019-09-24 2022-08-23 Konica Minolta, Inc. Process condition setting system, process condition setting method, and program
JP2023063318A (ja) * 2018-03-30 2023-05-09 株式会社リコー 情報処理システム、情報処理装置、情報処理方法及び情報処理プログラム
JP7392498B2 (ja) 2020-01-31 2023-12-06 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5233989B2 (ja) * 2007-03-14 2013-07-10 日本電気株式会社 音声認識システム、音声認識方法、および音声認識処理プログラム
JP2011049705A (ja) * 2009-08-25 2011-03-10 Konica Minolta Business Technologies Inc 画像処理システム、画像処理装置及び情報処理装置
US8209621B2 (en) 2009-08-25 2012-06-26 Konica Minolta Business Technologies, Inc. Image processing system, image processing apparatus and information processing apparatus
JP2015076038A (ja) * 2013-10-11 2015-04-20 Necパーソナルコンピュータ株式会社 情報処理方法、情報処理装置、及びプログラム
JP7029613B2 (ja) 2017-08-29 2022-03-04 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、系统及存储介质
JP2019046468A (ja) * 2017-08-29 2019-03-22 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム
US10803866B2 (en) 2017-08-29 2020-10-13 Baidu Online Network Technology (Beijing) Co., Ltd. Interface intelligent interaction control method, apparatus and system, and storage medium
JP2021009701A (ja) * 2017-08-29 2021-01-28 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム
JP7402793B2 (ja) 2017-11-09 2023-12-21 チボ ゲーエムベーハー 飲料調製マシンによって製品を製造するための方法、この方法を実行するためのシステム、および飲料調製マシンのためのマシンバックエンド
US11694283B2 (en) 2017-11-09 2023-07-04 Tchibo Gmbh Method for producing a product by way of a drinks preparation machine, a system for carrying out the method and a machine backend for a drinks preparation machine
JP2021502167A (ja) * 2017-11-09 2021-01-28 チボ ゲーエムベーハー 飲料調製マシンによって製品を製造するための方法、この方法を実行するためのシステム、および飲料調製マシンのためのマシンバックエンド
CN110060670A (zh) * 2017-12-28 2019-07-26 夏普株式会社 操作辅助装置、操作辅助系统以及操作辅助方法
JP2019128374A (ja) * 2018-01-22 2019-08-01 トヨタ自動車株式会社 情報処理装置、及び情報処理方法
JP2019161636A (ja) * 2018-03-09 2019-09-19 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド スマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータプログラム
JP2023063318A (ja) * 2018-03-30 2023-05-09 株式会社リコー 情報処理システム、情報処理装置、情報処理方法及び情報処理プログラム
JP7487807B2 (ja) 2018-03-30 2024-05-21 株式会社リコー 情報処理システム、サーバ、情報処理方法及び情報処理プログラム
JP2021073567A (ja) * 2018-04-11 2021-05-13 百度在線網絡技術(北京)有限公司 音声制御方法、端末機器、クラウドサーバ及びシステム
CN108877791A (zh) * 2018-05-23 2018-11-23 百度在线网络技术(北京)有限公司 基于视图的语音交互方法、装置、服务器、终端和介质
JP2020181527A (ja) * 2019-04-26 2020-11-05 シャープ株式会社 画像形成装置、画像形成方法及びプログラム
JP7430034B2 (ja) 2019-04-26 2024-02-09 シャープ株式会社 画像形成装置、画像形成方法及びプログラム
US11425271B2 (en) 2019-09-24 2022-08-23 Konica Minolta, Inc. Process condition setting system, process condition setting method, and program
JP7392498B2 (ja) 2020-01-31 2023-12-06 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Similar Documents

Publication Publication Date Title
JP2006330576A (ja) 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体
JP5146429B2 (ja) 画像処理装置、音声認識処理装置、音声認識処理装置の制御方法、およびコンピュータプログラム
EP2437141B1 (en) Character input apparatus equipped with auto-complete function, method of controlling the character input apparatus, and storage medium
US7844458B2 (en) Speech recognition for detecting setting instructions
JP2009194577A (ja) 画像形成装置、音声案内方法及び音声案内プログラム
JP2007193138A (ja) 画像形成装置
CN111263023A (zh) 信息处理系统和方法、计算机装置以及存储介质
US20200193991A1 (en) Image processing system, image forming apparatus, voice input inhibition determination method, and recording medium
JP7192220B2 (ja) 画像処理装置、情報処理装置及びプログラム
US20230254421A1 (en) Image processing system, setting control method, image processing apparatus, and storage medium
JP2020131478A (ja) 画像形成装置、画像形成方法およびプログラム
JP5343652B2 (ja) 操作画面制御装置、画像形成装置、およびコンピュータプログラム
US11792338B2 (en) Image processing system for controlling an image forming apparatus with a microphone
US11036441B1 (en) System and method for creation and invocation of predefined print settings via speech input
US20060293896A1 (en) User interface apparatus and method
EP3716040A1 (en) Image forming apparatus and job execution method
US11838460B2 (en) Information processing system, information processing apparatus, and information processing method
JP7286321B2 (ja) 情報処理システム、情報処理装置、制御方法、プログラム
JP7131350B2 (ja) 画像処理システム、画像処理装置及びプログラム
JP2020038348A (ja) 音声対話装置及びその制御方法、並びにプログラム
US11700338B2 (en) Information processing system that receives audio operations on multifunction peripheral, as well as image processing apparatus and control method therefor
US11368593B2 (en) Image forming system allowing voice operation, control method therefor, and storage medium storing control program therefor
JP2006181874A (ja) 画像形成装置及び画像処理方法
JP7327939B2 (ja) 情報処理システム、情報処理装置、制御方法、プログラム
JP2022096305A (ja) 情報処理システム、画像処理装置、情報処理システムの制御方法、及びプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060919