JP7192220B2

JP7192220B2 - 画像処理装置、情報処理装置及びプログラム

Info

Publication number: JP7192220B2
Application number: JP2018038691A
Authority: JP
Inventors: 恵三浦
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2022-12-20
Anticipated expiration: 2038-03-05
Also published as: JP2019153146A

Description

本発明は、画像処理装置、情報処理装置及びプログラムに関し、特に音声操作時に表示部において表示される操作画面を生成するための技術に関する。

従来、ＭＦＰ（Multifunction Peripheral）などと呼ばれる画像処理装置は、スキャン機能、プリント機能、コピー機能、ＦＡＸ機能などの複数の機能を備えており、ユーザーによって指定されたジョブを実行する。画像処理装置は、ユーザーが操作可能な操作パネルを備えており、操作パネルにユーザーが操作可能な操作画面を表示すると共に、操作画面に対するユーザーの手動操作を受け付ける。例えば操作パネルに表示される操作画面は階層構造となっている。そのため、ユーザーは、最上層の操作画面から下位層の操作画面に対して順に操作を行っていくことにより、ジョブに関する所望の設定操作を行うことができる。

ところで、近年、上記のような画像処理装置において、操作パネルに対する手動操作のみならず、ユーザーが発する音声を解析して音声操作を行うことを可能にした装置も普及しつつある。音声操作を行うことが可能な画像処理装置は、ユーザーの音声を解析することにより、ユーザーが操作しようとしている操作項目を特定することができる。そのため、ユーザーは、下位層の操作画面において操作可能な操作項目に対応する音声を発することにより、その操作項目に対する設定をダイレクトに行うことが可能である。つまり、音声操作の場合は、階層構造の操作画面に対する手動操作を順に行っていく必要がないため、操作効率に優れている。

このような音声操作をさらにユーザーにとって利用しやすいものとするために、ユーザーによって行われた音声操作と連動した操作画面を操作パネルに表示させる技術が知られている（例えば、特許文献１）。このような従来の画像処理装置は、ユーザーが操作可能な全ての操作項目に対応する画像コンテンツ（操作ボタンなど）を予め１つの操作画面内に一覧表示しておき、ユーザーによって１つの操作項目に対応する音声が発せられる度に、その操作項目に対応する画像コンテンツを１つずつハイライト表示に変更していくように構成される。

しかし、従来の画像処理装置では、１つの操作画面に多数の画像コンテンツが一覧表示されるため、ユーザーの音声操作に対応する画像コンテンツがハイライト表示されたとしても、多くの画像コンテンツの中からハイライト表示された画像コンテンツを探し出すのに時間がかかるという問題がある。またユーザーが操作可能な操作項目の数が多く、１つの操作画面内に全ての操作項目に対応する画像コンテンツを配置することができない場合、ユーザーは、ハイライト表示された画像コンテンツを探し出すのに画面遷移のための手動操作を行わなければならないこともあり、操作が煩雑になるという問題もある。さらに、ユーザーが自身で発した操作項目に対応する画像コンテンツを簡単に確認することができない場合には、ジョブの設定漏れなどが生じる可能性があり、問題となる。

特開２００７－１０２０１２号公報

本発明は、上記課題を解決するためになされたものであり、ユーザーが発声した操作項目に対応する画像コンテンツを１つの操作画面に集約させて表示することにより、ジョブの設定操作などを簡単に行えるようにした画像処理装置、情報処理装置及びプログラムを提供することを目的とする。

上記目的を達成するため、請求項１に係る発明は、画像処理装置であって、ユーザーが操作可能な操作画面を表示する表示手段と、前記操作画面において表示可能な複数の操作項目のそれぞれに対応する複数の画像コンテンツを記憶する記憶手段と、ユーザーによる音声入力を受け付ける音声入力手段と、前記音声入力手段によって受け付けられる音声入力を解析し、前記複数の操作項目のうちから該音声入力に対応する操作項目を特定する音声解析手段と、前記複数の画像コンテンツのうちから、前記音声解析手段によって特定される操作項目に対応する第１画像コンテンツを抽出する画像コンテンツ抽出手段と、前記画像コンテンツ抽出手段によって抽出される前記第１画像コンテンツを所定の表示領域に集約させるように配置した第１操作画面を生成する画面生成手段と、前記画面生成手段によって生成される第１操作画面を前記表示手段に表示させる表示制御手段と、前記表示手段に表示される操作画面に対するユーザーの操作を検知する操作検知手段と、を備え、前記画像コンテンツ抽出手段は、前記複数の画像コンテンツのうちから、前記第１画像コンテンツと変更可能な第２画像コンテンツを抽出し、前記画面生成手段は、前記操作検知手段によって前記第１画像コンテンツに対する操作が検知された場合、前記所定の表示領域に前記第２画像コンテンツを表示することを特徴としている。

請求項２に係る発明は、画像処理装置であって、ユーザーが操作可能な操作画面を表示する表示手段と、前記操作画面において表示可能な複数の操作項目のそれぞれに対応する複数の画像コンテンツを記憶する記憶手段と、ユーザーによる音声入力を受け付ける音声入力手段と、前記音声入力手段によって受け付けられる音声入力を解析し、前記複数の操作項目のうちから該音声入力に対応する操作項目を特定する音声解析手段と、前記複数の画像コンテンツのうちから、前記音声解析手段によって特定される操作項目に対応する第１画像コンテンツを抽出する画像コンテンツ抽出手段と、前記画像コンテンツ抽出手段によって抽出される前記第１画像コンテンツを所定の表示領域に集約させるように配置した第１操作画面を生成する画面生成手段と、前記画面生成手段によって生成される第１操作画面を前記表示手段に表示させる表示制御手段と、を備え、前記画像コンテンツ抽出手段は、前記複数の画像コンテンツのうちから、前記音声解析手段によって特定される操作項目に関連する第３画像コンテンツを更に抽出し、前記画面生成手段は、前記画像コンテンツ抽出手段によって抽出される前記第１画像コンテンツ及び前記第３画像コンテンツを前記所定の表示領域に配置した前記第１操作画面を生成することを特徴としている。

請求項３に係る発明は、請求項２に記載の画像処理装置において、前記画面生成手段は、前記画像コンテンツ抽出手段によって抽出される前記第３画像コンテンツが所定数以上である場合、前記第３画像コンテンツを配置しない前記第１操作画面を生成すると共に、前記第３画像コンテンツを配置した第２操作画面を生成し、前記表示制御手段は、前記第２操作画面を前記表示手段に表示させることを特徴としている。

請求項４に係る発明は、請求項２又は３に記載の画像処理装置において、前記画像コンテンツ抽出手段によって抽出される前記第３画像コンテンツに関する通知を行う通知手段を更に備えることを特徴としている。

請求項５に係る発明は、請求項１乃至４のいずれかに記載の画像処理装置において、前記画像コンテンツ抽出手段は、前記複数の画像コンテンツのうちから、ユーザーが選択したジョブに応じた第４画像コンテンツを更に抽出し、前記画面生成手段は、前記画像コンテンツ抽出手段によって抽出される前記第４画像コンテンツを前記所定の表示領域とは異なる表示領域に配置した前記第１操作画面を生成することを特徴としている。

請求項６に係る発明は、請求項１乃至５のいずれかに記載の画像処理装置において、前記画面生成手段は、前記画像コンテンツ抽出手段によって抽出されなかった画像コンテンツが配置された第３操作画面を生成し、前記表示制御手段は、前記第３操作画面を表示させることを特徴としている。

請求項７に係る発明は、画像処理装置であって、ユーザーが操作可能な操作画面を表示する表示手段と、前記操作画面において表示可能な複数の操作項目のそれぞれに対応する複数の画像コンテンツを記憶する記憶手段と、ユーザーによる音声入力を受け付ける音声入力手段と、前記音声入力手段によって受け付けられる音声入力を解析し、前記複数の操作項目のうちから該音声入力に対応する操作項目を特定する音声解析手段と、前記複数の画像コンテンツのうちから、前記音声解析手段によって特定される操作項目に対応する第１画像コンテンツを抽出する画像コンテンツ抽出手段と、前記画像コンテンツ抽出手段によって抽出される前記第１画像コンテンツを所定の表示領域に集約させるように配置した第１操作画面を生成する画面生成手段と、前記画面生成手段によって生成される第１操作画面を前記表示手段に表示させる表示制御手段と、を備え、前記音声入力手段は、ユーザーによる複数の音声入力を順に受け付け、前記音声解析手段は、前記音声入力手段によって順次受け付けられる複数の音声入力を解析し、前記複数の操作項目のうちから該複数の音声入力のそれぞれに対応する複数の操作項目を順次特定し、前記画像コンテンツ抽出手段は、前記音声解析手段によって順次特定される複数の操作項目のそれぞれに対応する複数の前記第１画像コンテンツを順次抽出し、前記画面生成手段は、前記画像コンテンツ抽出手段によって順次抽出された複数の前記第１画像コンテンツを、ユーザーの利用頻度が高い順に並び替えて前記所定の表示領域に配置した前記第１操作画面を生成することを特徴としている。

請求項８に係る発明は、請求項７に記載の画像処理装置において、前記音声解析手段によって特定される複数の操作項目のうちに両立することができない操作項目の組み合わせが存在するか否かを判定する組合せ判定手段を更に備え、前記画面生成手段は、前記組合せ判定手段によって、両立することができない操作項目の組み合わせが存在すると判定された場合に、両立することができない操作項目の組み合わせが存在することを通知することを特徴としている。

請求項９に係る発明は、請求項８に記載の画像処理装置において、前記画面生成手段による制御に基づいて音声出力を行う音声出力手段を更に備え、前記画面生成手段は、前記組合せ判定手段によって、両立することができない操作項目の組み合わせが存在すると判定された場合に、両立することができない操作項目の組み合わせが存在することを通知する音声出力を前記音声出力手段に実行させる制御を行うことを特徴としている。

請求項１０に係る発明は、請求項８又は９に記載の画像処理装置において、前記画面生成手段は、前記組合せ判定手段によって、両立することができない操作項目の組み合わせが存在すると判定された場合に、両立することができない操作項目の組み合わせとなる複数の操作項目のうち、いずれの操作項目を有効にするかをユーザーに選択させ、ユーザーの選択を前記第１操作画面に反映させることを特徴としている。

請求項１１に係る発明は、請求項８乃至１０のいずれかに記載の画像処理装置において、前記画面生成手段は、前記組合せ判定手段によって、両立することができない操作項目の組み合わせが存在すると判定された場合に、両立することができない操作項目の組み合わせとなる複数の操作項目のそれぞれに対応する複数の画像コンテンツを前記所定の表示領域において互いに隣接する位置に配置した操作画面を生成することを特徴としている。

請求項１２に係る発明は、請求項７に記載の画像処理装置において、前記音声解析手段によって特定される複数の操作項目のうちに両立することができない操作項目の組み合わせが存在するか否かを判定する組合せ判定手段と、前記組合せ判定手段によって、両立することができない操作項目の組み合わせが存在すると判定された場合に、両立することができない操作項目の組み合わせとなる複数の操作項目のうちいずれか１つの操作項目を有効にして確認プリントを行う画像形成手段と、を備えることを特徴としている。

請求項１３に係る発明は、請求項１乃至１２のいずれかに記載の画像処理装置において、前記画面生成手段は、前記音声解析手段によって特定される操作項目を有効にするか無効にするかをユーザーに選択させる画像を前記所定の表示領域に配置した前記第１操作画面を生成することを特徴としている。

請求項１４に係る発明は、請求項１乃至１３のいずれかに記載の画像処理装置において、前記画面生成手段は、前記音声解析手段によって特定される操作項目が、前記画像処理装置において実装されていない機能に関する操作項目である場合に、前記音声解析手段によって特定される操作項目が前記画像処理装置において実装されていない機能に関する操作項目であることを通知する前記第１操作画面を生成することを特徴としている。

請求項１５に係る発明は、ユーザーが操作可能な操作画面を表示する表示手段と、ユーザーによる音声入力を受け付ける音声入力手段と、を備える画像処理装置と通信を行う情報処理装置であって、前記操作画面において表示可能な複数の操作項目のそれぞれに対応する複数の画像コンテンツを記憶する記憶手段と、前記音声入力手段が入力した音声データを、前記画像処理装置から受信する音声データ受信手段と、前記音声データ受信手段が受信する音声データを解析し、前記複数の操作項目のうちから該音声データに対応する操作項目を特定する音声解析手段と、前記複数の画像コンテンツのうちから、前記音声解析手段によって特定される操作項目に対応した画像コンテンツを抽出する画像コンテンツ抽出手段と、前記画像コンテンツ抽出手段によって抽出される画像コンテンツを所定の表示領域に集約させるように配置した操作画面を生成する画面生成手段と、前記画面生成手段が生成する操作画面を前記画像処理装置に送信する操作画面送信手段と、を備えることを特徴としている。
請求項１６に係る発明は、ユーザーが操作可能な操作画面を表示する表示手段と、ユーザーによる音声入力を受け付ける音声入力手段と、を備える画像処理装置と通信を行う情報処理装置であって、前記操作画面において表示可能な複数の操作項目のそれぞれに対応する複数の画像コンテンツを記憶する記憶手段と、前記音声入力手段が入力した音声データを、前記画像処理装置から受信する音声データ受信手段と、前記音声データ受信手段が受信する音声データを解析し、前記複数の操作項目のうちから該音声データに対応する操作項目を特定する音声解析手段と、前記複数の画像コンテンツのうちから、前記音声解析手段によって特定される操作項目に対応した第１画像コンテンツを抽出する画像コンテンツ抽出手段と、前記画像コンテンツ抽出手段によって抽出される前記第１画像コンテンツを所定の表示領域に集約させるように配置した操作画面を生成する画面生成手段と、前記画面生成手段が生成する操作画面を前記画像処理装置に送信する操作画面送信手段と、を備え、前記画像コンテンツ抽出手段は、前記複数の画像コンテンツのうちから、前記音声解析手段によって特定される操作項目に関連する第３画像コンテンツを更に抽出し、前記画面生成手段は、前記画像コンテンツ抽出手段によって抽出される前記第１画像コンテンツ及び前記第３画像コンテンツを前記所定の表示領域に配置した前記操作画面を生成することを特徴としている。
請求項１７に係る発明は、ユーザーが操作可能な操作画面を表示する表示手段と、ユーザーによる音声入力を受け付ける音声入力手段と、を備える画像処理装置と通信を行う情報処理装置であって、前記操作画面において表示可能な複数の操作項目のそれぞれに対応する複数の画像コンテンツを記憶する記憶手段と、前記音声入力手段が入力した音声データを、前記画像処理装置から受信する音声データ受信手段と、前記音声データ受信手段が受信する音声データを解析し、前記複数の操作項目のうちから該音声データに対応する操作項目を特定する音声解析手段と、前記複数の画像コンテンツのうちから、前記音声解析手段によって特定される操作項目に対応した画像コンテンツを抽出する画像コンテンツ抽出手段と、前記画像コンテンツ抽出手段によって抽出される前記画像コンテンツを所定の表示領域に集約させるように配置した操作画面を生成する画面生成手段と、前記画面生成手段が生成する操作画面を前記画像処理装置に送信する操作画面送信手段と、を備え、前記音声入力手段は、ユーザーによる複数の音声入力を順に受け付け、前記音声解析手段は、前記音声入力手段によって順次受け付けられる複数の音声入力を解析し、前記複数の操作項目のうちから該複数の音声入力のそれぞれに対応する複数の操作項目を順次特定し、前記画像コンテンツ抽出手段は、前記音声解析手段によって順次特定される複数の操作項目のそれぞれに対応する複数の前記画像コンテンツを順次抽出し、前記画面生成手段は、前記画像コンテンツ抽出手段によって順次抽出された複数の前記画像コンテンツを、ユーザーの利用頻度が高い順に並び替えて前記所定の表示領域に配置した前記操作画面を生成することを特徴としている。

請求項１８に係る発明は、プログラムであって、コンピュータに、音声データを入力する音声データ入力ステップと、前記音声データ入力ステップによって受け付けられる音声データを解析し、操作画面において表示可能な複数の操作項目のうちから該音声データに対応する操作項目を特定する音声解析ステップと、所定の記憶手段に記憶されている複数の画像コンテンツのうちから、前記音声解析ステップによって特定される操作項目に対応した第１画像コンテンツを抽出する画像コンテンツ抽出ステップと、前記画像コンテンツ抽出ステップによって抽出される前記第１画像コンテンツを所定の表示領域に集約させるように配置した操作画面を生成する画面生成ステップと、前記画面生成ステップによって生成される前記操作画面のデータを出力する操作画面出力ステップと、ユーザーによる前記操作画面に対する操作を検知する操作検知ステップと、を実行させ、前記画像コンテンツ抽出ステップは、前記複数の画像コンテンツのうちから、前記第１画像コンテンツと変更可能な第２画像コンテンツを抽出し、前記画面生成ステップは、前記操作検知ステップによって前記第１画像コンテンツに対する操作が検知された場合、前記所定の表示領域に前記第２画像コンテンツを表示することを特徴としている。
請求項１９に係る発明は、プログラムであって、コンピュータに、音声データを入力する音声データ入力ステップと、前記音声データ入力ステップによって受け付けられる音声データを解析し、操作画面において表示可能な複数の操作項目のうちから該音声データに対応する操作項目を特定する音声解析ステップと、所定の記憶手段に記憶されている複数の画像コンテンツのうちから、前記音声解析ステップによって特定される操作項目に対応した第１画像コンテンツを抽出する画像コンテンツ抽出ステップと、前記画像コンテンツ抽出ステップによって抽出される前記第１画像コンテンツを所定の表示領域に集約させるように配置した操作画面を生成する画面生成ステップと、前記画面生成ステップによって生成される前記操作画面のデータを出力する操作画面出力ステップと、を実行させ、前記画像コンテンツ抽出ステップは、前記複数の画像コンテンツのうちから、前記音声解析ステップによって特定される操作項目に関連する第３画像コンテンツを更に抽出し、前記画面生成ステップは、前記画像コンテンツ抽出ステップによって抽出される前記第１画像コンテンツ及び前記第３画像コンテンツを前記所定の表示領域に配置した前記操作画面を生成することを特徴としている。
請求項２０に係る発明は、プログラムであって、コンピュータに、音声データを入力する音声データ入力ステップと、前記音声データ入力ステップによって受け付けられる音声データを解析し、操作画面において表示可能な複数の操作項目のうちから該音声データに対応する操作項目を特定する音声解析ステップと、所定の記憶手段に記憶されている複数の画像コンテンツのうちから、前記音声解析ステップによって特定される操作項目に対応した画像コンテンツを抽出する画像コンテンツ抽出ステップと、前記画像コンテンツ抽出ステップによって抽出される前記画像コンテンツを所定の表示領域に集約させるように配置した操作画面を生成する画面生成ステップと、前記画面生成ステップによって生成される前記操作画面のデータを出力する操作画面出力ステップと、を実行させ、前記音声データ入力ステップは、ユーザーによる複数の音声入力を順に受け付け、前記音声解析ステップは、前記音声入力ステップによって順次受け付けられる複数の音声入力を解析し、前記複数の操作項目のうちから該複数の音声入力のそれぞれに対応する複数の操作項目を順次特定し、前記画像コンテンツ抽出ステップは、前記音声解析ステップによって順次特定される複数の操作項目のそれぞれに対応する複数の前記第１画像コンテンツを順次抽出し、前記画面生成ステップは、前記画像コンテンツ抽出ステップによって順次抽出された複数の前記第１画像コンテンツを、ユーザーの利用頻度が高い順に並び替えて前記所定の表示領域に配置した前記操作画面を生成することを特徴としている。

本発明によれば、ユーザーが発した音声に対応する画像コンテンツを１つの画面に集約表示した操作画面を生成することができるようになり、ユーザーにとって、音声操作により行ったジョブ設定を容易に確認することが可能な操作画面を表示することができる。

画像処理装置の外観構成の一例を示す斜視図である。階層的な手動操作用の操作画面の一構成例を示す図である。手動操作用の操作画面の一例を示す図である。音声入力用の操作画面の一例を示す図である。画像処理装置のハードウェア構成及び機能構成の一例を示す図である。グループ情報の一構成例を示す図である。音声入力用の操作画面の一例を示す図である。音声入力用の操作画面の一例を示す図である。音声入力用の操作画面の一例を示す図である。音声入力用の操作画面の一例を示す図である。音声入力用の操作画面の一例を示す図である。利用履歴情報の一構成例を示す図である。音声入力用の操作画面の一例を示す図である。音声入力用の操作画面の一例を示す図である。画像処理装置において行われる処理手順の一例を示すフローチャートである。画面生成処理の詳細な処理手順の一例を示すフローチャートである。画面更新処理の詳細な処理手順の一例を示すフローチャートである。第２実施形態における画像処理装置及び情報処理装置のハードウェア構成及び機能構成の一例を示す図である。第２実施形態における画像処理装置と情報処理装置との動作プロセスの例を示す図である。第２実施形態における情報処理装置において行われる処理手順の一例を示すフローチャートである。

以下、本発明に関する好ましい実施形態について図面を参照しつつ詳細に説明する。尚、以下に説明する実施形態において互いに共通する要素には同一符号を付しており、それらについての重複する説明は省略する。

（第１実施形態）
図１は、本実施形態における画像処理装置１の外観構成の一例を示す斜視図である。画像処理装置１は、例えばＭＦＰによって構成され、スキャン機能、プリンタ機能、コピー機能、ＦＡＸ機能、ＢＯＸ機能などの複数の機能を備えており、ユーザーによって指定されたジョブを実行する。例えば、画像処理装置１は、ＬＡＮ（Local Area Network）などのネットワークに接続可能であり、スキャン機能によって原稿から読み取った画像データをネットワーク経由で他のコンピュータに出力したり、或いは、ネットワーク経由で他のコンピュータから画像データを受信すると、プリント機能によって画像データに基づく印刷出力を行うことが可能である。また画像処理装置１は電話回線などの通信網にも接続可能であり、通信網を介してＦＡＸデータの送受信を行うことも可能である。尚、ＢＯＸ機能とは、ストレージ機能の一種であり、画像処理装置１の内部の記憶領域（ＢＯＸ）に文書などの画像データを保存する機能である。

この画像処理装置１は、装置本体の正面側（前面側）に、ユーザーが操作可能な操作パネル１０を備えている。ユーザーはこの操作パネル１０を操作することにより、画像処理装置１の複数の機能のうちから使用する機能を選択し、その選択した機能に関する各種の設定操作を行うと共に、画像処理装置１に対してジョブの実行を指示することができるようになっている。

操作パネル１０は、カラー液晶ディスプレイなどで構成される表示部１１と、ユーザーによる手動操作を受け付ける操作部１２とを備えている。表示部１１は、ユーザーに対して各種の操作画面を表示するものである。操作部１２は、例えば表示部１１の表示画面上に配置されるタッチパネルキーと、表示部１１の表示画面の周囲に配置されるハードキーとを備えて構成される。したがって、ユーザーは表示部１１に表示される操作画面を参照しながら、操作部１２を指先などで手動操作することにより、画像処理装置１に対して各種の入力操作を行うことができる。

また操作パネル１０の側方には、マイクなどの音声入力部１４が設けられている。音声入力部１４は、ユーザーによる音声入力を受け付ける。画像処理装置１は、音声入力モードがオンであるときに音声入力部１４を介してユーザーの音声を入力した場合、その入力した音声に基づいて表示部１１に表示する操作画面を更新するように構成される。

ここで画像処理装置１において操作パネル１０の表示部１１に表示される手動操作時の操作画面の構成例について説明する。画像処理装置１は、ユーザーが手動操作を行うための操作画面として、複数の操作画面を階層構造で保持している。図２は、ユーザーによってコピー機能が選択された場合のコピーモードにおける手動操作用の操作画面の一構成例を示す図である。図２に示すように画像処理装置１は、コピーモードにおいて複数の操作画面が階層構造で保持されている。例えば、ユーザーによってコピー機能が選択されると、画像処理装置１は、コピーモードの最上層の操作画面Ａ１０を操作パネル１０の表示部１１に表示する。

このコピーモードでは、最上層の操作画面Ａ１０に対して１階層下の第１中間層に、操作画面Ａ１０から遷移する複数の操作画面Ａ２１，Ａ２２，…が設けられている。これら複数の操作画面Ａ２１，Ａ２２，…は、最上層の操作画面Ａ１０に含まれる操作項目の画像コンテンツ（操作ボタンなど）がユーザーによって操作された場合に、最上層の操作画面Ａ１０から遷移する画面であり、ユーザーによって操作された操作項目に対応する画面である。また操作画面Ａ２１に対して１階層下の第２中間層には、操作画面Ａ２１から遷移する複数の操作画面Ａ３１，Ａ３２，…が設けられている。これら複数の操作画面Ａ３１，Ａ３２，…は、第１中間層の操作画面Ａ２１に含まれる操作項目の画像コンテンツ（操作ボタンなど）がユーザーによって操作された場合に、第１中間層の操作画面Ａ２１から遷移する画面であり、ユーザーによって操作された操作項目に対応する画面である。さらに操作画面Ａ３１に対して１階層下の最下層には、操作画面Ａ３１から遷移する複数の操作画面Ａ４１，Ａ４２，…が設けられている。これら複数の操作画面Ａ４１，Ａ４２，…は、第２中間層の操作画面Ａ３１に含まれる操作項目の画像コンテンツ（操作ボタンなど）がユーザーによって操作された場合に、第２中間層の操作画面Ａ３１から遷移する画面であり、ユーザーによって操作された操作項目に対応する画面である。尚、第１中間層の他の操作画面Ａ２２，…の下位層にも複数の操作画面が設けられ、第２中間層の他の操作画面Ａ３２，…の下位層にも複数の操作画面が設けられるが、これらについては図示を省略している。また図２では、ユーザーによってコピー機能が選択された場合のコピーモードの操作画面の構成のみを示しているが、ユーザーによって他の機能が選択された他の機能モードにおいても同様の画面構成となっている。さらに図２では、コピーモードにおける操作画面が４階層である場合を例示しているが、２階層以上であれば階層数は特に限定されるものではない。また図２では省略しているが、コピーモードの操作画面の更に上位の操作画面として、ユーザーが機能を選択可能な機能選択画面が操作パネル１０の表示される操作画面のトップ画面として存在している。

上記のような画面構成において、例えばコピーモードにおける最上層の操作画面Ａ１０が表示されている状態でユーザーが操作画面Ａ１０に含まれる操作項目の画像コンテンツを手動操作すれば、図中矢印で示すように表示部１１の操作画面は、ユーザーによって選択された操作項目に応じて第１中間層の操作画面Ａ２１，Ａ２２，…に遷移する。また操作パネル１０の表示部１１に第１中間層の操作画面Ａ２１が表示されている状態でユーザーが操作画面Ａ２１に含まれる操作項目の画像コンテンツを手動操作すれば、図中矢印で示すように表示部１１の操作画面は、ユーザーによって選択された操作項目に応じて第２中間層の操作画面Ａ３１，Ａ３２，…に遷移する。さらに操作パネル１０の表示部１１に第２中間層の操作画面Ａ３１が表示されている状態でユーザーが操作画面Ａ３１に含まれる操作項目の画像コンテンツを手動操作すれば、図中矢印で示すように表示部１１の操作画面は、ユーザーによって選択された項目に応じて最下層の操作画面Ａ４１，Ａ４２，…に遷移する。このように画像処理装置１は、ユーザーが操作部１２を直接手動操作した場合には、表示部１１の操作画面を階層構造に従って１階層ずつ下位層の操作画面に遷移させ、ユーザーによる更に詳細な設定操作を受け付ける。

このような階層構造の操作画面に対し、ユーザーは、所望の操作項目の画像コンテンツ（操作ボタンなど）が表示された階層に辿り着くまで操作画面に対する操作を行い、所望の操作項目に対応する画像コンテンツが表示された階層において、その画像コンテンツに対する操作を行うことで、所望のジョブ設定をすることができるのである。

一方、ユーザーが音声入力モードをオンにして音声入力部１４に対して音声を入力した場合、画像処理装置１は音声認識処理を行い、その認識した音声に基づいて、ユーザーが操作しようとしている操作項目をダイレクトに特定し、その特定した操作項目に対応する画像コンテンツを表示部１１に表示することができる。また、ユーザーがジョブの設定値を発声した場合には、その設定値をダイレクトに画像処理装置１に反映させることもできる。つまり、ユーザーが画像処理装置１に対して音声操作を行う場合には、上述した手動操作のような画面遷移を伴わないため、ユーザーは効率的にジョブ設定を行うことができるのである。以下、本実施形態における、ユーザーの音声入力に関連した操作画面について説明する。尚、以下の説明において、「操作項目」は、ジョブの設定項目、その設定項目における具体的な設定値やパラメータなどを含むものとする。

図３は、表示部１１に表示される手動操作用の操作画面のトップ画面の一例を示す図である。この操作画面は、ユーザーによって機能が選択される前に表示部１１に表示されるトップ画面であり、例えば画像処理装置１に電源が投入された場合に最初に表示される画面である。例えば図３（ａ）に示すように、トップ画面は、機能選択画面となっており、コピー機能、スキャン機能、ＦＡＸ機能及びＢＯＸ機能のうちからユーザーが所望の機能を選択することができる画面である。このトップ画面には、ユーザーが操作可能な操作ボタンとして、コピー、スキャン、ＦＡＸ及びＢＯＸのそれぞれに対応する画像コンテンツＢ２～Ｂ５が配置されている。またトップ画面には、ユーザーが操作可能な操作ボタンとして、音声入力モードをオンにするための画像コンテンツＢ１も配置されている。

表示部１１にトップ画面が表示されているとき、ユーザーは画像コンテンツＢ１をタッチ操作することより、画像処理装置１における音声入力モードをオン状態とすることができる。これにより、図３（ａ）に示す画面が、図３（ｂ）に示す画面に遷移する。すなわち、画像処理装置１において音声入力モードがオンになると、トップ画面には、音声入力モードがオン状態であることが表示される。このように画像処理装置１は、ユーザーによる指示に基づいて音声入力モードをオンにする。ただし、これに限られるものではなく、画像処理装置１は、常時、音声入力モードをオンにしているものであっても構わない。

音声入力モードがオンになると、画像処理装置１は、ユーザーによる音声入力を受け付ける。音声入力を受け付けると、画像処理装置１は、ユーザーによって発せられた音声を解析し、ユーザーが音声で操作しようとしている操作項目を特定する。例えば、図３（ｂ）に示すトップ画面が表示されているときに、ユーザーによって「コピー」と発話されると、表示部１１に表示される画面は、音声入力モードにおけるコピーモードの初期状態における操作画面（以下、「初期画面」と称する。）に遷移する。その後、画像処理装置１は、コピーモードにおいてユーザーの音声入力を受け付けるようになり、ユーザーの音声に基づいて、ユーザーが操作可能な操作項目をダイレクトに特定する状態となる。

図４は、音声入力モードにおいて表示部１１に表示されるコピーモードの操作画面の一例を示す図であり、図４（ａ）は、初期画面Ｇ０を示しており、図４（ｂ）は、初期画面Ｇ０が更新されて表示される第１操作画面Ｇ１を示している。まず図４（ａ）に示すように、コピーモードの初期画面Ｇ０は、画面の略中央に、ユーザーの音声に基づいて抽出される画像コンテンツを表示するための表示領域ＡＲ１を有している。初期画面Ｇ０が表示されるときにユーザーによる音声が検知されていなければ、図４（ａ）に示すように、表示領域ＡＲ１には画像コンテンツが表示されず、ブランク状態となる。

図４（ａ）に示すような初期画面Ｇ０が表示部１１に表示されているとき、例えばユーザーが、「ツーインワン」という音声を発すると、初期画面Ｇ０が、図４（ｂ）に示す第１操作画面Ｇ１に遷移する。第１操作画面Ｇ１では、表示領域ＡＲ１に、ユーザーが発した「ツーインワン」という音声に対応する「２ｉｎ１」という画像コンテンツＢ９が表示された状態となる。このように、ユーザーが発した音声に対応する画像コンテンツが表示領域ＡＲ１に表示されることで、ユーザーは、自身で発した音声によって、画像処理装置１でどのような操作項目が特定されたのかを容易に確認することできる。特に、表示領域ＡＲ１には、ユーザーの音声に基づいて特定された操作項目に対応する画像コンテンツＢ９だけが表示されることにより、ユーザーは、自身の音声によって所望の設定項目を選択することができたか否かを容易に確認することができる。ただし、後述するように、表示領域ＡＲ１には、ユーザーが発した音声に対応する画像コンテンツだけでなく、それに関連する他の画像コンテンツなどを表示することもできる。これにより、ユーザーは、多数の画像コンテンツの中から自身の音声に基づいて特定された操作項目に対応する画像コンテンツを探し出す手間を省くことができ、操作効率が向上すると共に、ジョブの設定漏れなどを減らすことができる。

次に、このような画像処理装置１の詳細について説明する。図５は、画像処理装置１のハードウェア構成及び機能構成の一例を示す図である。画像処理装置１は、そのハードウェア構成として、操作パネル１０と、通信部１３と、音声入力部１４と、記憶部１５と、スキャナ部１６と、プリンタ部１７と、ＦＡＸ部１８と、制御部１９と、音声出力部２０とを備えている。

通信部１３は、画像処理装置１をＬＡＮ（Local Area Network）などのネットワークに接続するためのインタフェースである。画像処理装置１は、この通信部１３を介して、サーバーやパーソナルコンピュータなどの他の外部機器と通信を行う。

音声入力部１４は、例えば内部に振動板を備えており、ユーザーの音声による振動板の振動を電気信号に変換する。音声入力部１４は、その電気信号を音声データとして制御部１９へ出力する。例えば、音声入力部１４は、音声入力モードがオン状態となった場合に音声データを制御部１９へ出力するように構成される。

記憶部１５は、ハードディスクドライブ（ＨＤＤ）やソリッドステートドライブ（ＳＳＤ）などによって構成される不揮発性の記憶装置である。この記憶部１５は、様々なプログラムやデータなどを記憶しておくものである。例えば記憶部１５には、図５に示すように画像処理装置１において実行されるプログラム２１と、音声入力データベース（以下、「音声入力ＤＢ」という。）３０と、画像コンテンツデータベース（以下、「画像コンテンツＤＢ」という。）３１と、操作画面データベース（以下、「操作画面ＤＢ」という。）３２と、グループ情報３３と、組合せ情報３４と、利用履歴情報３５とが記憶される。

音声入力ＤＢ３０は、画像処理装置１においてユーザーが操作可能な操作項目と、その操作項目に対応する文字列データとを予め関連付けた情報を蓄積したデータベースである。この音声入力ＤＢ３０は、ユーザーが発した音声に対応する操作項目を特定するために利用される。例えば、「２ｉｎ１」の操作項目には、「ツーインワン」という文字列データが関連付けられる。また「両面」の操作項目には、「リョウメン」という文字列データが関連付けられる。１つの操作項目に関連付けられる文字列データは必ずしも１つに限られない。すなわち、１つの操作項目に複数の文字列データが関連付けられたものであっても良い。例えば、「２ｉｎ１」の操作項目には、「ツーインワン」という文字列データの他に、「ツーページ」という文字列データが関連付けられていても良い。このように１つの操作項目に複数の文字列データを予め関連付けておくことにより、ユーザーは、複数の文字列データのうちのいずれか１つの文字列データに対応する音声を発することにより、所望の操作項目を音声操作で選択することができるようになる。

画像コンテンツＤＢ３１は、表示部１１に表示するための操作ボタンなどの画像コンテンツであって、ユーザーが操作可能な操作項目に対応する画像コンテンツを蓄積したデータベースである。画像コンテンツＤＢ３１は、ユーザーが操作可能な操作項目と、その操作項目に対応する画像コンテンツとを１対１で相互に関連付けて記憶する。音声入力モードがオンのときには、この画像コンテンツＤＢ３１から表示領域ＡＲ１に表示すべき画像コンテンツが読み出され、第１操作画面Ｇ１などが生成される。

操作画面ＤＢ３２は、手動操作用の操作画面を蓄積したデータベースであり、複数の操作画面を上述した階層構造で管理するデータベースである。音声入力モードがオフの状態でユーザーが操作パネル１０に対して手動操作を行った場合、表示部１１に表示される操作画面は、この操作画面ＤＢ３２から読み出されて操作後の画面に更新される。

グループ情報３３は、ユーザーが操作可能な操作項目のうち、相互に設定変更可能な複数の操作項目を１つのグループに纏めた情報である。例えば、「２ｉｎ１」の操作項目の場合、設定変更可能な他の操作項目として「４ｉｎ１」、「８ｉｎ１」、「１６ｉｎ１」がある。そのため、グループ情報３３においては、「２ｉｎ１」、「４ｉｎ１」、「８ｉｎ１」及び「１６ｉｎ１」の４つの操作項目が互いに設定変更可能な操作項目として１つのグループを形成する。つまり、グループ情報３３は、１つの設定項目ごとにグループを形成し、その設定項目においてユーザーが選択可能な複数の設定値を１つに纏めたものである。

また１つのグループに含まれる操作項目が他のグループに含まれる操作項目と関連性が有することがある。例えば、１つの操作項目と、その操作項目の詳細設定項目に対応する操作項目とは、互いに別のグループに属する場合であっても相互に関連性を有する。そのような場合、グループ情報３３には、１つのグループに含まれる操作項目と、他のグループに含まれる操作項目とを相互に関連付ける情報が含まれる。

図６は、グループ情報３３の一例を示す図である。図６に示すように、例えば割付グループＧＤ１には、「２ｉｎ１」、「４ｉｎ１」、「８ｉｎ１」及び「１６ｉｎ１」の４つの操作項目Ｄ１～Ｄ４が含まれる。また第１順序グループＧＤ２には、「左から右」及び「右から左」の２つの操作項目Ｄ５，Ｄ６が含まれる。さらに第２順序グループＧＤ３には、「左上から横方向」、「左上から縦方向」、「右上から横方向」及び「右上から縦方向」の４つの操作項目Ｄ７～Ｄ１０が含まれる。第１順序グループＧＤ２に含まれる２つ操作項目Ｄ５，Ｄ６は、「２ｉｎ１」の操作項目Ｄ１に対する詳細設定項目に該当し、「２ｉｎ１」の操作項目Ｄ１と関連性を有している。そのため、グループ情報３３では、「２ｉｎ１」の操作項目Ｄ１と、第１順序グループＧＤ２に含まれる２つの操作項目Ｄ５，Ｄ６とが相互に関連付けられる。また第２順序グループＧＤ３に含まれる４つの操作項目Ｄ７～Ｄ１０は、「４ｉｎ１」、「８ｉｎ１」及び「１６ｉｎ１」の３つの操作項目Ｄ２～Ｄ４の詳細設定項目に該当し、３つの操作項目Ｄ２～Ｄ４のそれぞれと関連性を有している。そのため、グループ情報３３では、「４ｉｎ１」、「８ｉｎ１」及び「１６ｉｎ１」の３つの操作項目Ｄ２～Ｄ４のそれぞれと、第２順序グループＧＤ３に含まれる４つの操作項目Ｄ７～Ｄ１０とが相互に関連付けられる。このような複数のグループ間の関連付けにより、ユーザーが操作可能な複数の操作項目が有機的に関連付けられることになる。したがって、割付グループＧＤ１に含まれる１つの操作項目が特定された場合、グループ情報３３を参照することにより、特定された１つの操作項目に関連する他のグループの操作項目を更に特定することができる。

組合せ情報３４は、画像処理装置１において両立させることができない設定となる操作項目の組み合わせが登録された情報である。すなわち、組合せ情報３４には、グループ情報３３において同一グループに含まれる複数の操作項目の組み合わせが登録されると共に、グループ情報３３において互いに異なるグループに含まれる複数の操作項目の組み合わせのうち、画像処理装置１において両立させた状態に設定することができない組み合わせが登録される。例えば、上述した割付グループＧＤ１に含まれる、「２ｉｎ１」、「４ｉｎ１」、「８ｉｎ１」及び「１６ｉｎ１」の４つの操作項目Ｄ１～Ｄ４の組み合わせは、それぞれ画像処理装置１において両立させた状態に設定することができない。そのため、組合せ情報３４には、それら４つの操作項目Ｄ１～Ｄ４の組み合わせが予め登録される。

利用履歴情報３５は、音声入力モードにおいてユーザーによって行われたジョブの設定に関する履歴をユーザー毎に記録した情報である。

スキャナ部１６は、ユーザーによってコピー機能、スキャン機能、ＦＡＸ送信機能などが選択された場合に動作し、ユーザーによってセットされた原稿の画像を光学的に読み取って画像データを生成するものである。プリンタ部１７は、ユーザーによってコピー機能又はプリント機能が選択された場合、或いは、ＦＡＸ部１８が公衆電話回線からＦＡＸデータを受信した場合に動作し、入力する画像データに基づいて印刷用紙などに画像形成を行って印刷出力するものである。ＦＡＸ部１８は、公衆電話回線を介してＦＡＸデータの送受信を行うものである。

音声出力部２０は、例えばスピーカーによって構成され、音声信号に基づく音声出力を行う。例えば、音声出力部２０は、表示部１１に表示される操作画面に関する音声ガイダンスを出力するためのものである。この音声ガイダンスは、操作画面に対する操作を補助するための音声を出力したり、ユーザーによる操作内容をユーザーに対して確認するための音声を出力する。

制御部１９は、図示を省略するＣＰＵやメモリなどを備えて構成され、ＣＰＵがプログラム２１を実行することにより、音声解析部２３、画像コンテンツ抽出部２４、組合せ判定部２５、画面生成部２６、表示制御部２７、ジョブ制御部２８及び操作検知部２９として機能する。これら各部は、画像処理装置１において音声入力モードがオンとなった場合に、ユーザーによって発せられる音声の入力を受け付け、ユーザーの音声に対応する操作項目を特定すると共に、その特定した操作項目に関連付けられている画像コンテンツを１つの操作画面に集約させて表示部１１に表示するように機能する。以下、これら各部の詳細について説明する。

音声解析部２３は、音声入力部１４から出力される音声データを解析して、ユーザーの音声入力に対応する操作項目を特定する処理部である。まず音声解析部２３は、音声入力部１４から入力する音声データに対してＡ／Ｄ変換やフィルタリングなどを行い、ユーザーの音声成分のみを抽出し、ユーザーの音声を文字列データに変換する。次に音声解析部２３は、音声入力ＤＢ３０を参照し、文字列データに対応する操作項目を特定する。これにより、ユーザーが発した音声に対応する１つの操作項目が特定されることになる。例えば、ユーザーによって「ツーインワン」という音声が発せられた場合、音声解析部２３は、「２ｉｎ１」の操作項目を特定する。音声解析部２３は、音声データに対応する操作項目を特定すると、特定した操作項目（以下、「特定操作項目」と称する。）を画像コンテンツ抽出部２４及び組合せ判定部２５に通知する。音声解析部２３は、音声入力モードにおいて、ユーザーによる音声を検知する度に、上記のような処理を行う。

画像コンテンツ抽出部２４は、音声入力モードにおいて操作画面に表示すべき操作ボタンなどの画像コンテンツを画像コンテンツＤＢ３１から抽出する処理部である。画像コンテンツ抽出部２４は、音声解析部２３によってユーザーの発した音声に対応する操作項目が特定された場合に画像コンテンツを抽出する処理を行う。また、画像コンテンツ抽出部２４は、ユーザーによってコピー機能などの機能操作が行われた場合にも画像コンテンツを抽出する処理を行う。

まず音声解析部２３によってユーザーの音声に対応する操作項目が特定された場合の画像コンテンツ抽出処理について説明する。画像コンテンツ抽出部２４は、音声解析部２３から特定操作項目が通知されると、画像コンテンツＤＢ３１から、その特定操作項目に対応する画像コンテンツを第１画像コンテンツとして抽出する。例えば、音声解析部２３によって「２ｉｎ１」の操作項目が特定された場合、画像コンテンツ抽出部２４は、「２ｉｎ１」の操作項目に対応する画像コンテンツを第１画像コンテンツとして抽出する。そして画像コンテンツ抽出部２４は、特定操作項目に対応する第１画像コンテンツを画面生成部２６へ出力する。

また、画像コンテンツ抽出部２４は、特定操作項目に対応する第１画像コンテンツを抽出するとき、グループ情報３３を参照し、特定操作項目と同じグループに含まれる他の操作項目を特定する。そして画像コンテンツ抽出部２４は、画像コンテンツＤＢ３１から、特定操作項目と同じグループに含まれる他の操作項目に対応する画像コンテンツを第２画像コンテンツとして抽出する。つまり、画像コンテンツ抽出部２４は、特定操作項目と相互に設定変更可能な他の操作項目に対応する第２画像コンテンツをさらに抽出するのである。例えば、音声解析部２３によって「２ｉｎ１」の操作項目が特定された場合、画像コンテンツ抽出部２４は、「４ｉｎ１」、「８ｉｎ１」及び「１６ｉｎ１」といった他の操作項目に対応する画像コンテンツを第２画像コンテンツとして抽出する。そして画像コンテンツ抽出部２４は、他の操作項目に対応する第２画像コンテンツを、図示を省略するメモリなどに一時的に記憶させておく。

また、画像コンテンツ抽出部２４は、グループ情報３３を参照し、特定操作項目が別のグループと関連付けられているか否かを判断する。特定操作項目が別のグループと関連付けられている場合、特定操作項目には詳細設定項目が存在することになる。そのため、特定操作項目が別のグループと関連付けられている場合、画像コンテンツ抽出部２４は、その別のグループに含まれる操作項目を全て特定し、その特定した操作項目の画像コンテンツを第３画像コンテンツとして画像コンテンツＤＢ３１から抽出する。例えば特定操作項目が「２ｉｎ１」の操作項目Ｄ１である場合、画像コンテンツ抽出部２４は、グループ情報３３を参照し、第１順序グループＧＤ２に含まれる「左から右」の操作項目Ｄ５及び「右から左」の操作項目Ｄ６に対応する画像コンテンツを第３画像コンテンツとして抽出する。そして画像コンテンツ抽出部２４は、抽出した第３画像コンテンツを画面生成部２６へ出力する。

次に、ユーザーによってコピー機能などの機能選択が行われた場合の画像コンテンツ抽出処理について説明する。画像コンテンツ抽出部２４は、音声入力モードにおいてユーザーによってコピー機能などの機能選択が行われた場合、ユーザーによって選択された機能における基本的な操作項目を特定し、その操作項目に対応する画像コンテンツを第４画像コンテンツとして画像コンテンツＤＢ３１から抽出する。例えば、「モノクロ」や「カラー」などのカラー設定を変更するための操作項目はコピー機能における基本的な操作項目である。そのため、ユーザーによってコピー機能が選択された場合、画像コンテンツ抽出部２４は、「モノクロ」や「カラー」などの基本的な操作項目に対応する画像コンテンツを第４画像コンテンツとして抽出する。さらにこのとき、画像コンテンツ抽出部２４は、図４（ａ）に示す追加ボタンに対応する画像コンテンツＢ８も第４画像コンテンツとして抽出する。そして画像コンテンツ抽出部２４は、抽出した第４画像コンテンツを画面生成部２６へ出力する。尚、このような第４画像コンテンツは、ユーザーによって発せられた音声とは関係しない場合であっても画像コンテンツ抽出部２４によって抽出される。

組合せ判定部２５は、音声解析部２３によって特定された特定操作項目が複数ある場合に、それら複数の特定操作項目のうちに、画像処理装置１において互いに両立させた状態に設定することができない組み合わせとなる操作項目が存在するか否かを判定する処理部である。ユーザーによって操作項目に対応する音声が順次発せられ、音声解析部２３においてそれらの音声が順次解析されていくと、特定操作項目が次第に増加していく。組合せ判定部２５は、音声解析部２３によって特定操作項目が特定される度に、既に特定されている特定操作項目との関係において互いに両立させた状態に設定することができない組み合わせとなる操作項目が存在するか否かを判定する。すなわち、組合せ判定部２５は、特定操作項目が複数ある場合、組合せ情報３４を参照することにより、それら複数の特定操作項目の中に互いに両立しない設定となる組み合わせとなるものが存在するか否かを判定するのである。例えば、特定操作項目として、「２ｉｎ１」の操作項目と、「４ｉｎ１」の操作項目とは、画像処理装置１において互いに両立させた状態に設定することができない。そのため、「２ｉｎ１」の操作項目及び「４ｉｎ１」の操作項目の双方がユーザーの音声に基づいて特定された特定操作項目に含まれる場合、組合せ判定部２５は、それら２つの操作項目を互いに両立させることができない組み合わせとなる操作項目として判定する。そして既に特定されている複数の操作項目の中に互いに両立させることができない組み合わせとなる操作項目がある場合、組合せ判定部２５は、両立することができない組み合わせが存在することを示す両立不可情報をジョブ制御部２８及び画面生成部２６へ出力する。

表示制御部２７は、表示部１１における表示画面を制御する処理部である。表示制御部２７は、画面生成部２６から出力される操作画面データ６に基づき、画面生成部２６によって生成される操作画面を表示部１１に表示させる制御を行う。例えば、画面生成部２６によって操作画面が更新されると、表示制御部２７は、それに応じて表示部１１に表示している操作画面も更新する。

ジョブ制御部２８は、画像処理装置１におけるジョブの実行を制御する処理部である。ジョブ制御部２８は、ユーザーによってジョブの実行開始指示が与えられた場合に機能し、スキャナ部１６、プリンタ部１７及びＦＡＸ部１８のそれぞれを駆動し、ユーザーによって指定されたジョブの実行を制御する。ジョブ制御部２８は、ユーザーの手動操作又は音声操作によって指定されたジョブ設定を反映させたうえでジョブの実行を開始する。

また、ジョブ制御部２８は、ジョブの実行開始時に組合せ判定部２５から両立不可情報を入力している場合、互いに両立させることができない組み合わせである複数の特定操作項目のうちのいずれか１つの操作項目を有効にジョブ設定に反映させたうえでジョブを実行する。このとき、互いに両立させることができない複数の特定操作項目の中に、画像処理装置１におけるデフォルト設定に対応する操作項目が含まれていれば、そのデフォルト設定に対応する操作項目をジョブ設定に反映させることが好ましい。またユーザーによって指定されたジョブがプリントジョブである場合、ジョブ制御部２８は、互いに両立させることができない複数の特定操作項目のうちのいずれか１つの操作項目を有効に反映させてジョブを実行するとき、複数枚の印刷出力を行う場合であっても、最初の１枚のみを印刷出力する確認プリントとしてプリントジョブを実行する。これにより、ユーザーは、最初の１枚のプリント結果を見て、続きを印刷するかどうかを決定することができる。万一、ジョブ設定を誤っていたと気付いた場合には続きを印刷する必要がないため、印刷用紙の無駄を削減することができる。

操作検知部２９は、操作画面に対して行われるユーザーの手動操作を検知する処理部である。例えば、操作検知部２９は、ユーザーによってジョブの実行指示操作が行われた場合は、ジョブ制御部２８に対してジョブの実行を指示する。また、操作画面に表示されている画像コンテンツがユーザーによって操作された場合、操作検知部２９は、ユーザーによって操作された画像コンテンツを特定し、その特定した画像コンテンツに基づき、画面生成部２６及びジョブ制御部２８などに対して操作情報を出力する。これにより、表示部１１に表示される操作画面が更新されたり、或いは、画像処理装置１においてジョブの実行が開始されたりする。

画面生成部２６は、表示部１１に表示される操作画面を生成する処理部である。例えば音声入力モードがオフのとき、画面生成部２６は、操作画面ＤＢ３２から表示部１１に表示すべき操作画面を読み出して表示部１１に表示する。

また音声入力モードがオンになると、画面生成部２６は、上述した初期画面Ｇ０を生成して表示制御部２７へ出力する。これにより、表示部１１には、音声入力モードにおける初期画面Ｇ０が表示されるようになる。このとき、ユーザーによって既にコピー機能などの機能が選択されていれば、画面生成部２６は、画像コンテンツ抽出部２４によって抽出される第４画像コンテンツを取得する。そのため、画面生成部２６は、図４（ａ）に示すようにユーザーによって選択された機能における基本的な操作項目に対応する画像コンテンツＢ７、及び、追加ボタンに対応する画像コンテンツＢ８を、表示領域ＡＲ１とは異なる表示領域に配置した初期画面Ｇ０を生成する。尚、画面生成部２６は、ユーザーによって選択された機能における基本的な操作項目に対応する画像コンテンツＢ７を表示するとき、画像処理装置１におけるデフォルト設定に対応する画像コンテンツＢ７を表示する。例えば、第４画像コンテンツとして「モノクロ」と「カラー」の画像コンテンツが抽出されており、画像処理装置１のデフォルト設定が「モノクロ」である場合、画面生成部２６は、「モノクロ」の画像コンテンツを配置した初期画面Ｇ０を生成する。このように、ユーザーによって選択された機能における基本的な操作項目に対応する画像コンテンツＢ７を予め初期画面Ｇ０に表示しておくことにより、ユーザーは、その基本的な設定を行うために自身で音声を発する必要がないことを把握することができる。上記のようにして、表示部１１には、図４（ａ）に示すような初期画面Ｇ０が表示されるようになる。

画面生成部２６は、上記のような初期画面Ｇ０を生成した後、画像コンテンツ抽出部２４から第１画像コンテンツを取得すると、その第１画像コンテンツを表示領域ＡＲ１に配置した操作画面を生成する。つまり、図４（ａ）に示す初期画面Ｇ０を図４（ｂ）に示す第１操作画面Ｇ１に更新するのである。そして画面生成部２６は、第１画像コンテンツを配置した第１操作画面Ｇ１を表示制御部２７へ出力する。これにより、表示部１１に表示される画面は、図４（ａ）の初期画面Ｇ０から図４（ｂ）に示す第１操作画面Ｇ１に更新される。

また図４（ｂ）に示すように第１画像コンテンツを表示領域ＡＲ１に配置した第１操作画面Ｇ１を表示するとき、画面生成部２６は、音声出力部２０を介して、特定操作項目に対応する文字列データに応じた音声ガイダンスを出力するようにしても良い。特定操作項目に対応する文字列データに応じた音声ガイダンスを出力することにより、ユーザーは、自身で発した音声と同一音声であるか否かを確認することができ、画像処理装置１において正しい特定操作項目が認識されたか否かを把握することができる。

図４（ｂ）に示す第１操作画面Ｇ１が表示部１１に表示されているとき、ユーザーによって表示領域ＡＲ１内の画像コンテンツＢ９に対する操作がなされると、画面生成部２６は、操作検知部２９から出力される操作情報により、画像コンテンツＢ９が操作されたことを把握することができる。そして画面生成部２６は、ユーザーによる操作に基づき、第１操作画面Ｇ１を更新する。

図７は、第１操作画面Ｇ１の更新例を示す図である。例えば、上述したようにユーザーによって表示領域ＡＲ１内の画像コンテンツＢ９に対する操作がなされた場合、画面生成部２６は、画像コンテンツ抽出部２４によって予め抽出されている画像コンテンツＢ９に関連する第２画像コンテンツをメモリなどから読み出す。すなわち、画面生成部２６は、画像コンテンツＢ９と相互に設定変更可能な第２画像コンテンツを読み出すのである。そして画面生成部２６は、画像コンテンツＢ９と相互に設定変更可能な第２画像コンテンツを配置したプルダウンメニューＢ９ａを生成し、そのプルダウンメニューＢ９ａをユーザーによって操作された画像コンテンツＢ９の近傍位置に配置することにより第１操作画面Ｇ１を更新する。これにより、表示部１１に表示される第１操作画面Ｇ１は、図７（ａ）に示すような画面に更新される。したがって、ユーザーは、自身の発声によって表示されている画像コンテンツＢ９を、プルダウンメニューＢ９ａの中に含まれる第２画像コンテンツに変更することができる。例えば、ユーザーがプルダウンメニューＢ９ａの中から「４ｉｎ１」の画像コンテンツを選択したとすると、操作検知部２９は、ユーザーによって「４ｉｎ１」が選択されたことを示す操作情報を画面生成部２６に出力する。その操作情報に基づき、画面生成部２６は、「２ｉｎ１」の第１画像コンテンツＢ９を「４ｉｎ１」の第２画像コンテンツＢ９ｂに変更し、第１操作画面Ｇ１を新たに生成する。その結果、表示部１１に表示される第１操作画面Ｇ１は、図７（ａ）に示すような画面から、図７（ｂ）に示すような画面に更新される。すなわち、ユーザーは、第１操作画面Ｇ１に対して所定の操作を行うことにより、第１画像コンテンツと第２画像コンテンツとを変更することができるのである。尚、ユーザーの操作によって第１操作画面Ｇ１を図７（ａ）に示す状態から図７（ｂ）に示す状態へ更新すると、画面生成部２６は、「２ｉｎ１」の画像コンテンツＢ９を第２画像コンテンツとして管理し、「４ｉｎ１」の画像コンテンツＢ９ｂを第１画像コンテンツとして管理するようになる。

また画面生成部２６は、画像コンテンツ抽出部２４によって特定操作項目の詳細設定項目に対応する第３画像コンテンツが抽出されている場合、その第３画像コンテンツを、表示領域ＡＲ１内の位置であって、特定操作項目に対応する第１画像コンテンツの近傍位置に配置した操作画面を生成する。例えば、ユーザーの音声に対応する特定操作項目として「２ｉｎ１」の操作項目が特定された場合、上述したように画像コンテンツ抽出部２４によって、第１順序グループＧＤ２に含まれる「左から右」の操作項目Ｄ５及び「右から左」の操作項目Ｄ６に対応する画像コンテンツが第３画像コンテンツとして抽出される。これらの操作項目Ｄ５，Ｄ６はグループ情報３３において同一グループに含まれており、画像処理装置１において互いに両立させた状態に設定することができない項目である。そのため、画面生成部２６は、複数の第３画像コンテンツが抽出されている場合、それら複数の第３画像コンテンツの中から、画像処理装置１におけるデフォルト設定に対応する第３画像コンテンツを、特定操作項目に対応する第１画像コンテンツの近傍位置に配置した操作画面を生成する。

図８は、第３画像コンテンツが抽出されている場合に画面生成部２６によって生成される第１操作画面Ｇ１の例を示す図である。例えば、第１順序グループＧＤ２に含まれる「左から右」の操作項目Ｄ５及び「右から左」の操作項目Ｄ６のうち、画像処理装置１におけるデフォルト設定が「左から右」の操作項目Ｄ５である場合、画面生成部２６は、図８（ａ）に示すように、「２ｉｎ１」の特定操作項目に対応する画像コンテンツＢ９の近傍位置に、操作項目Ｄ５に対応する「順序：左から右」という第３画像コンテンツＢ１０を配置した第１操作画面Ｇ１を生成する。尚、ここでは、画像処理装置１のデフォルト設定に基づいて複数の第３画像コンテンツのうちから１つの第３画像コンテンツを選択する場合を例示したが、１つの第３画像コンテンツを選択する方法はこれに限られない。例えば、画面生成部２６は、利用履歴情報３５を参照し、複数の第３画像コンテンツのうち、ジョブの設定に反映された実績が最も多いコンテンツ、すなわち、利用頻度が最も高いコンテンツを選択するものであってもよい。

図８（ａ）に示すように、特定操作項目に対応する第１画像コンテンツＢ９の近傍位置に、特定操作項目の詳細設定項目に対応する第３画像コンテンツＢ１０が表示されると、ユーザーは、第３画像コンテンツＢ１０に対する操作を行うことにより、詳細設定項目の設定変更を行うことができる。図８（ｂ）は、そのような設定変更を行う例を示している。画面生成部２６は、操作検知部２９から出力される操作情報に基づき、第３画像コンテンツＢ１０が操作されたことを検知すると、第３画像コンテンツＢ１０と相互に設定変更可能な他の第３画像コンテンツを配置したプルダウンメニューＢ１０ａを生成し、そのプルダウンメニューＢ１０ａをユーザーによって操作された画像コンテンツＢ１０の近傍位置に配置することにより第１操作画面Ｇ１を更新する。これにより、表示部１１に表示される第１操作画面Ｇ１は、図８（ｂ）に示すような画面に更新される。ユーザーは、プルダウンメニューＢ１０ａの中に含まれる他の第３画像コンテンツを選択する操作を行えば、第３画像コンテンツＢ１０を別の第３画像コンテンツに変更することが可能であり、特定操作項目の詳細設定項目を設定変更することができる。そして画面生成部２６は、ユーザーの操作に基づき、ユーザーによって選択された他の第３画像コンテンツを配置した第１操作画面Ｇ１を新たに生成する。これにより、表示部１１に表示される画面は、ユーザーの操作に基づいて更新される。

ところで、グループ情報３３において、複数のグループが、特定操作項目と関連性を有するグループとして登録されていることがある。つまり、特定操作項目に対応する詳細設定項目として、複数種類の項目が存在することがある。そのような場合、画面生成部２６は、特定操作項目に対応する第１画像コンテンツの近傍位置に、複数種類の詳細設定項目のそれぞれに対応した第３画像コンテンツを配置した第１操作画面を生成する。ただし、特定操作項目と関連性を有する他のグループの数が所定数以上である場合、各グループから１つの第３画像コンテンツを選択して表示するとしても、表示領域ＡＲ１内に全ての第３画像コンテンツを表示させることが困難になる。また特定操作項目に対応する詳細設定目の数が増加すると、操作画面において表示される個々の画像コンテンツの視認性が低下する可能もある。

そこで、画面生成部２６は、特定操作項目と関連性を有する他のグループの数が所定数以上である場合、特定操作項目に対応する第１画像コンテンツの近傍位置に、詳細設定ボタンに対応する画像コンテンツを配置し、ユーザーによって詳細設定ボタンが操作されると、操作画面を詳細設定画面に遷移させるようにしても良い。図９は、詳細設定画面に遷移させる例を示す図である。例えば図９（ａ）に示すように、ユーザーによって「リョウメン」という音声が発せられ、表示領域ＡＲ１に「両面」の特定操作項目に対応する第１画像コンテンツＢ１１が表示されることを仮定する。この場合、「両面」の特定操作項目と関連性を有する他のグループとして、所定数以上のグループが存在する場合、画面生成部２６は、「両面」の特定操作項目に対応する第１画像コンテンツＢ１１の近傍位置に、詳細設定ボタンに対応する画像コンテンツＢ１２を配置した第１操作画面Ｇ１を生成する。これにより、表示部１１には、図９（ａ）に示すような第１操作画面Ｇ１が表示されるようになる。

図９（ａ）に示す第１操作画面Ｇ１が表示されているとき、ユーザーによって詳細設定ボタンに対応する画像コンテンツＢ１２が操作されると、画面生成部２６は、図９（ｂ）に示すような、「両面」の特定操作項目に対応する詳細設定画面を、第２操作画面Ｇ２として生成する。そして、画面生成部２６は、生成した第２操作画面Ｇ２を表示制御部２７へ出力する。これにより、表示部１１には、図９（ｂ）に示す第２操作画面Ｇ２が表示されるようになる。ユーザーは、第２操作画面Ｇ２に配置された第３画像コンテンツに対する操作を行うことで、これらの操作項目に対する設定操作を行うことができる。このような第２操作画面Ｇ２が生成されることにより、第１操作画面Ｇ１における所定の表示領域ＡＲ１に配置される画像コンテンツの数が膨大になることを防ぐことができると共に、視認性に優れた第２操作画面Ｇ２を表示することができるのである。

尚、上記のように特定操作項目の詳細設定項目に相当する第３画像コンテンツが抽出されている場合には、ユーザーに対して詳細設定項目に対する操作を促すため、詳細設定項目が存在することをユーザーに通知するようにすることが好ましい。このような通知の一態様として、例えば、画面生成部２６が第３画像コンテンツを配置した画面を生成することに伴い、音声出力部に対して音声信号を出力し、音声ガイダンスによって通知するようにしても良い。

また画像処理装置１の利用頻度が比較的少ないユーザーにとっては、画像処理装置１に対して所望のジョブ設定を反映させるためにどのような音声を発すれば良いか分からないことがある。そのような場合、ユーザーは、初期画面Ｇ０又は第１操作画面Ｇ１において表示される追加ボタンに対応する画像コンテンツＢ８を操作することにより、ユーザーの音声によって認識された操作項目とは関係しない他の操作項目の設定操作を行うことができるようになる。すなわち、ユーザーによって追加ボタンに対応する画像コンテンツＢ８が操作されたことが検知されると、画像コンテンツ抽出部２４は、現在の機能において、未だ抽出していない他の画像コンテンツを抽出し、画面生成部２６へ出力する。そして画面生成部２６は、画像コンテンツ抽出部２４から出力される画像コンテンツだけを配置した第３操作画面Ｇ３を生成し、表示制御部２７へ出力する。これにより、表示部１１には、ユーザーの音声入力が検知されたタイミングで抽出されなかった画像コンテンツだけを集約させた第３操作画面Ｇ３が表示されるようになる。

図１０は、第３操作画面Ｇ３の一例を示す図である。例えば図９（ａ）に示す第１操作画面Ｇ１が表示されているときに、ユーザーによって追加ボタンに対応する画像コンテンツＢ８が操作されると、画面生成部２６は、図１０に示すような第３操作画面Ｇ３を生成する。この第３操作画面Ｇ３では、第１操作画面Ｇ１において表示されていなかった画像コンテンツであって、ユーザーによって選択されているコピー機能の他の操作項目に関する画像コンテンツが表示される。そのため、ユーザーは、それら他の操作項目に関する設定操作を行うことができるようになる。これにより、ユーザーによるジョブの設定操作時に設定漏れなどが生じることを防止することができるようになる。尚、第３操作画面Ｇ３に複数の画像コンテンツを配置する際、画面生成部２６は、例えば利用履歴情報３５を参照することにより、ユーザーによって過去に設定変更がなされた操作項目に対応する画像コンテンツから順に配置することが好ましい。

次に、画面生成部２６によって生成される他の画面例について説明する。画面生成部２６は、特定操作項目に対応する第１画像コンテンツを配置した第１操作画面Ｇ１を生成するとき、ユーザーがワンタッチで特定操作項目の設定を無効にすることが可能な画面を生成することもできる。図１１は、ユーザーが簡単に無効操作を行うことができる第１操作画面Ｇ１の例を示す図である。例えば音声入力モードにおいて、ユーザーが「ツーインワン」・「リョウメン」・「ニブ」と連続的に発声すると、画面生成部２６は、図１１（ａ）に示すような第１操作画面Ｇ１を生成する。この第１操作画面Ｇ１は、第１画像コンテンツＢ９，Ｂ１１，Ｂ１３の左側の近傍位置にチェックボックスＢ２０が配置された画面構成となっている。すなわち、上記の例では、３つの特定操作項目が特定され、３つの特定操作項目のそれぞれに対応する第１画像コンテンツＢ９，Ｂ１１，Ｂ１３が表示される。そのため、画面生成部２６は、それら３つの第１画像コンテンツＢ９，Ｂ１１，Ｂ１３のそれぞれの近傍位置に対して個別にチェックボックスＢ２０を配置する。特定操作項目は、ユーザーによる音声が検知された時点では、ユーザーによる設定が有効な状態として表示される。そのため、チェックボックスＢ２０には、チェックマークが表示される。ユーザーは、特定操作項目の設定を無効にしたい場合、その特定操作項目に対応するチェックボックスＢ２０をワンタッチ操作すれば良い。この場合、画面生成部２６は、ユーザーの操作に基づいてチェックボックスＢ２０からチェックマークを外した第１操作画面Ｇ１に更新し、ユーザーがワンタッチ操作を行った特定操作項目の設定が無効になったことを表示する。したがって、特定操作項目の近傍にチェックボックスＢ２０が配置されることにより、ユーザーは手軽に設定内容を変更することができるのである。

また、画面生成部２６は、特定操作項目についての設定機能が画像処理装置１に実装されていない場合であっても、その特定操作項目に対応する第１画像コンテンツを第１操作画面に表示することができる。ただし、特定操作項目についての設定機能が画像処理装置１に実装されていない場合、画面生成部２６は、その特定操作項目に対応する第１画像コンテンツを表示領域ＡＲ１に配置するときには、通常とは異なる表示態様に変更して配置することが好ましい。例えば、画像処理装置１にステープル機能が実装されていない場合、ユーザーの「ステープル」という音声が検知されると、画面生成部２６は、図１１（ｂ）に示すように、「ステープル」の特定操作項目に対応する第１画像コンテンツＢ２１を通常とは異なる表示態様に変更して配置する。表示態様の変更例としては、例えばグレーアウトさせた態様に変更するものなどがある。このように、画像処理装置１に実装されていない設定機能に対応する音声が検知された場合、画面生成部２６が、特定操作項目に対応する第１画像コンテンツの表示態様を変更することにより、ユーザーは、自身で指定した設定機能が使用できないことを一見して把握することができるという利点がある。また画面生成部２６は、図１１（ｂ）に示す第１操作画面Ｇ１を生成することに伴い、音声出力部２０を介して、ステープル機能が実装されていないことを音声出力することにより、ユーザーに通知するようにしても良い。

また、画面生成部２６は、ユーザーの音声に基づいて複数の特定操作項目が特定された場合、それら複数の特定操作項目のそれぞれに対応する第１画像コンテンツの配置順序をユーザーの利用頻度に応じて変更し、第１操作画面Ｇ１を逐次更新するようにしても良い。例えば、複数の第１画像コンテンツを、ユーザーの利用頻度が高い順に並べ替えて表示領域ＡＲ１に配置するのである。この場合、画面生成部２６は、利用履歴情報３５を参照することができる、ユーザーの利用頻度を特定することができる。

図１２は、利用履歴情報３５の一例を示す図である。図１２に示すように、利用履歴情報３５には、ユーザーによって各操作項目が操作された利用回数が記録されている。尚、この利用回数は、音声入力モードがオンの場合に限らず、オフの場合の利用回数を含むものであっても構わない。したがって、利用履歴情報２５を参照すれば、ユーザーが各操作項目を操作した回数を把握することができる。

画面生成部２６は、上記のような利用履歴情報３５を参照することにより、複数の特定操作項目のそれぞれに対応する第１画像コンテンツを、ユーザーの利用頻度に応じて並べ替えるのである。例えば、ユーザーの音声が「ツーインワン」、「リョウメン」、「ニブ」という順で発せられた場合において、画面生成部２６がユーザーの発声順に第１画像コンテンツを配置すると、図１３（ａ）のような第１操作画面Ｇ１が生成される。これに対し、複数の特定操作項目の配置順序をユーザーの利用頻度に応じて変更する場合、画面生成部２６は、利用履歴情報３５を参照し、「２ｉｎ１」、「両面」及び「２部」の操作項目がユーザーによって操作された利用回数が多い順に、第１画像コンテンツの配置順序を入れ替える。この場合、画面生成部２６は、図１３（ｂ）に示すような第１操作画面Ｇ１を生成する。つまり、表示領域ＡＲ１において、ユーザーの利用回数が多い特定操作項目の第１画像コンテンツが利用回数の少ない特定操作項目の第１画像コンテンツよりも上位に表示されるのである。これにより、ユーザーの利用頻度の高い画像コンテンツを見やすい位置に配置することができるため、ユーザーにとって操作しやすい操作画面が提供されるようになる。

また、複数の特定操作項目の中に、画像処理装置１において互いに両立させた状態に設定することができない組み合わせが存在する場合、画面生成部２６は、それら特定操作項目の組み合わせの中から１つの特定操作項目をユーザーが選択できる画面を生成する。図１４は、ユーザーが複数の特定操作項目の中から１つの特定操作項目を選択できるようにした画面例を示す図である。例えば図１４（ａ）に示すように、画面生成部２６は、画像処理装置１において互いに両立させた状態に設定することができない複数の特定操作項目の第１画像コンテンツＢ３１，Ｂ１１を表示領域ＡＲ１に配置するとき、表示領域ＡＲ１において第１画像コンテンツＢ３１，Ｂ１１を互いに隣接する位置に並べて配置する。これにより、ユーザーにとって、互いに両立させた状態に設定することができない複数の特定操作項目を確認しやすくなるという利点がある。また画面生成部２６は、互いに隣接する位置に配置した第１画像コンテンツＢ３１，Ｂ１１の近傍位置に、ユーザーが択一的操作を行うことが可能なラジオボタンなどの画像コンテンツＢ３２を配置する。図１４（ａ）に示すような第１操作画面Ｇ１が表示されることにより、ユーザーは、「片面」と「両面」とを同時に有効な設定とすることができないことを把握することができる。そしてユーザーは、ラジオボタンなどの画像コンテンツＢ３２に対する操作を行うことにより、複数の操作項目のうちのいずれか一方を有効に設定し、他方を無効に設定することができ、第１操作画面Ｇ１に操作の結果を反映させることができる。またこの他にも、例えば図１４（ｂ）に示すように、画面生成部２６は、第１操作画面Ｇ１とは別に、画像処理装置１において互いに両立させた状態に設定することができない複数の特定操作項目のうちからユーザーにいずれか一方を選択させる選択画面Ｇ４を生成し、選択画面Ｇ４を表示部１１に表示させるようにしても良い。尚、画面生成部２６は、画像処理装置１において互いに両立させた状態に設定することができない組み合わせが存在することを検知した場合に、音声出力部２０を介して、そのような組み合わせが存在することを音声ガイダンスで出力することにより、ユーザーに通知するようにしても良い。

次に画像処理装置１における具体的な動作の一例について説明する。図１５は、画像処理装置１において行われる処理手順の一例を示すフローチャートである。この処理は、音声入力モードがオンとなることによって開始される処理である。画像処理装置１は、この処理を開始すると、まず音声入力モードがオン状態となった否かを判断する（ステップＳ１）。音声入力モードがオン状態となっていない場合（ステップＳ１でＮＯ）、画像処理装置１による処理が終了する。一方、音声入力モードがオン状態となった場合（ステップＳ１でＹＥＳ）、画像処理装置１は、画面生成部２６を機能させて音声入力モードにおける初期画面Ｇ０を生成し、表示制御部２７を機能させて初期画面Ｇ０を表示部１１に表示させる（ステップＳ２）。つまり、表示領域ＡＲ１がブランク状態の初期画面Ｇ０を表示するのである。

次に、画像処理装置１はユーザーによる音声入力があったかどうかを判断する（ステップＳ３）。音声入力がない場合（ステップＳ３でＮＯ）、ステップＳ１０までの処理をスキップする。一方、音声入力があった場合（ステップＳ３でＹＥＳ）、画像処理装置１は、音声解析部２３を機能させて音声解析を行い（ステップＳ４）、ユーザーの音声に対応する操作項目（特定操作項目）を特定する（ステップＳ５）。次に、画像処理装置１は画像コンテンツ抽出部２４を機能させる。画像コンテンツ抽出部２４は、画像コンテンツＤＢ３１から特定操作項目に対応する第１画像コンテンツを抽出する。また画像コンテンツ抽出部２４は、グループ情報３３を参照し、特定操作項目と相互に設定変更することが可能な第２画像コンテンツを抽出すると共に、特定操作項目と関連性を有する別のグループに含まれている操作項目に対応した第３画像コンテンツを抽出する（ステップＳ７）。次に、画像処理装置１は、画面生成部２６を機能させ、ユーザーの音声入力に応じた画面生成処理を行わせる（ステップＳ８）。

図１６は、画面生成部２６によって実行される画面生成処理（ステップＳ８）の詳細な処理手順の一例を示すフローチャートである。画面生成部２６は、画面生成処理を開始すると、現在の表示画面が初期画面Ｇ０であるか否かを判断する（ステップＳ２０）。初期画面Ｇ０でない場合は（ステップＳ２０でＮＯ）、処理はステップＳ２１に進む。すなわち、初期画面Ｇ０でない場合は、既に表示領域ＡＲ１において少なくとも１つの特定操作項目に対応する第１画像コンテンツが表示されていることになる。そのため、今回新たに表示しようとする第１画像コンテンツと合わせると、表示領域ＡＲ１には、複数の第１画像コンテンツが表示されることなる。そのため、画像処理装置１は、組合せ判定部２５を機能させ、既に表示されている第１画像コンテンツと、今回表示しようとしている第１画像コンテンツのそれぞれに対応する操作項目が画像処理装置１において互いに両立させて設定することが可能であるか否かを判断する（ステップＳ２１）。両立可能である場合（ステップＳ２１でＹＥＳ）、画像処理装置１による処理は、ステップＳ２３へ進む。一方、両立不可能である場合（ステップＳ２１でＮＯ）、画面生成部２６は、両立することができない操作項目のいずれか一方をユーザーに選択させるためのラジオボタンなどの画像コンテンツを表示領域ＡＲ１に配置する（ステップＳ２２）。次に、画面生成部２６は、表示領域ＡＲ１に、今回の表示対象である、第１画像コンテンツを配置する（ステップＳ２３）。

画面生成部２６は、今回特定された特定操作項目に対応する設定機能が画像処理装置１に実装されているか否かを判断し（ステップＳ２４）、未実装であれば（ステップＳ２４でＮＯ）、ステップＳ２３で配置した第１画像コンテンツの表示態様を通常とは異なる態様に変更する（ステップＳ２５）。尚、今回特定された特定操作項目に対応する設定機能が画像処理装置１に実装されている場合には（ステップＳ２４でＹＥＳ）、第１画像コンテンツの表示態様を通常の表示態様のままで維持する。

次に画面生成部２６は、利用履歴情報３５を参照して、表示領域ＡＲ１に配置されている第１画像コンテンツの配置順序を利用頻度が高い順に並び替える（ステップＳ２６）。尚、表示領域ＡＲ１に配置されている第１画像コンテンツの数が１つだけの場合、ステップＳ２６の処理は行う必要がない。

次に、画面生成部２６は、画像コンテンツ抽出部２４によって第３画像コンテンツが抽出されているか否かを判断する（ステップＳ２７）。第３画像コンテンツが抽出されていなければ（ステップＳ２７でＮＯ）、ステップＳ３１へ進む。これに対し、第３画像コンテンツが抽出されている場合（ステップＳ２７でＹＥＳ）、画面生成部２６は、所定数以上の第３画像コンテンツが抽出されたか否かを判断する（ステップＳ２８）。画面生成部２６は、第３画像コンテンツが所定数以上抽出されていれば（ステップＳ２８でＹＥＳ）、詳細設定ボタンに対応する画像コンテンツＢ１２を配置する（ステップＳ２９）。これに対し、所定数以上抽出されていない場合（ステップＳ２８でＮＯ）、画面生成部２６は、特定操作項目の近傍位置に、第３画像コンテンツを配置する（ステップＳ３０）。このようにして第１操作画面Ｇ１が生成される。その後、画面生成部２６は、画像コンテンツを配置した第１操作画面Ｇ１の操作画面データを生成し、表示制御部２７へ出力する（ステップＳ３１）。以上で、画面生成処理（ステップＳ８）が終了する。

図１５に戻り、画像処理装置１は、表示制御部２７を機能させ、画面生成部２６によって生成された第１操作画面Ｇ１を表示部１１に表示させる（ステップＳ９）。次に、画像処理装置１は、操作検知部２９によってユーザーによる操作が検知されたかどうかを確認する（ステップＳ１０）。ユーザーの操作が検知されていない場合（ステップＳ１０でＮＯ）、画像処理装置１による処理はステップＳ３に戻る。そのため、ユーザーが音声入力を連続的に行った場合には、上述したステップＳ３～Ｓ９の処理が繰り返し行われることとなる。その結果、第１操作画面Ｇ１に表示される第１画像コンテンツが次第に増加していく。

一方、操作検知部２９によってユーザーの操作が検知されている場合（ステップＳ１０でＹＥＳ）、画像処理装置１は、その操作が画面更新を必要とする操作であるか否かを確認する（ステップＳ１１）。画面更新を必要とする操作である場合（ステップＳ１１でＹＥＳ）、画像処理装置１は、画面生成部２６を機能させて画面更新処理を実行させる（ステップＳ１２）。

図１７は、画面生成部２６によって実行される画面更新処理（ステップＳ１２）の詳細な処理手順の一例を示すフローチャートである。画面生成部２６は、画面更新処理を開始すると、ユーザーによって行われた操作が第１画像コンテンツに対する操作であるか否かを確認する（ステップＳ４０）。ユーザーによって行われた操作が第１画像コンテンツに対する操作であり、プルダウンメニューに表示された第２画像コンテンツを選択する操作である場合は（ステップＳ４０でＹＥＳ）、画面生成部２６は、第１画像コンテンツをユーザーによって選択された第２画像コンテンツに変更する（ステップＳ４１）。一方、ユーザーによって行われた操作が第１画像コンテンツに対する操作でない場合は（ステップＳ４０でＮＯ）、画面生成部２６は、その操作が第３画像コンテンツに対する操作であるか否かを確認する（ステップＳ４２）。ユーザーによって行われた操作が第３画像コンテンツに対する操作であり、プルダウンメニューに表示された他の第３画像コンテンツを選択する操作である場合（ステップＳ４２でＹＥＳ）、画面生成部２６は、第３画像コンテンツをユーザーによって選択された他の第３画像コンテンツに変更する（ステップＳ４３）。一方、ユーザーによって行われた操作が第３画像コンテンツに対する操作でない場合は（ステップＳ４２でＮＯ）、画面生成部２６は、その操作が詳細設定ボタンに対応する画像コンテンツＢ１２に対する操作であるか否かを確認する（ステップＳ４４）。ユーザーによって行われた操作が画像コンテンツＢ１２に対する操作である場合（ステップＳ４４でＹＥＳ）、画面生成部２６は、複数の第３画像コンテンツを配置した第２操作画面Ｇ２を生成する（ステップ４５）。一方、ユーザーによって行われた操作が画像コンテンツＢ１２に対する操作でない場合（ステップＳ４４でＮＯ）、画面生成部２６は、追加ボタンに対応する画像コンテンツＢ８に対する操作であると判定する（ステップＳ４６）。画面生成部２６は、画像コンテンツ抽出部２４によって抽出されていない画像コンテンツを配置した第３操作画面Ｇ３を生成する（ステップＳ４７）。その後、画面生成部２６は、上記のようにして生成した操作画面の操作画面データ６を表示制御部２７に出力する（ステップＳ４８）。以上で、画面更新処理（ステップＳ１２）が終了する。

再び図１５に戻り、画像処理装置１は、表示制御部２７を機能させて画面生成部２６によって生成された操作画面を表示部１１に表示させる（ステップＳ１３）。これにより、表示部１１に表示される操作画面は、ユーザーの操作に応じて更新されることになる。

次に、画像処理装置１は、ユーザーによる操作がジョブの実行を指示するものであるか否かを判断する（ステップＳ１４）。ユーザーによる操作がジョブの実行を指示するものでない場合（ステップＳ１４でＮＯ）、画像処理装置１による処理はステップＳ３に戻る。そして上述した処理を繰り返す。

一方、ユーザーによる操作がジョブの実行を指示するものである場合（ステップＳ１４でＹＥＳ）、画像処理装置１は、ジョブ制御部２８を機能させて各操作項目における設定をジョブ設定に反映させる（ステップＳ１５）。ジョブ制御部２８は、ユーザーによって選択された画像コンテンツに対応する設定値をジョブ設定に反映させるのである。その後、ジョブ制御部２８はスキャナ部１６、プリンタ部１７及びＦＡＸ部１８のそれぞれを駆動し、ユーザーによって指定されたジョブの実行を制御する。（ステップＳ１６）。ジョブの実行が完了すると、画像処理装置１は音声入力モードがオン状態となったことに伴う処理を終了させる。

以上のように本実施形態の画像処理装置１は、ユーザーが操作可能な操作画面を表示する表示部１１と、画像コンテンツＤＢ３１を記憶する記憶部１５と、ユーザーによる音声入力を受け付ける音声入力部１４と、音声入力部１４によって受け付けられる音声入力を解析し、複数の操作項目のうちから該音声入力に対応する操作項目を特定する音声解析部２３と、画像コンテンツＤＢ３１から特定操作項目に対応する第１画像コンテンツを抽出する画像コンテンツ抽出部２４と、画像コンテンツ抽出部２４によって抽出される第１画像コンテンツを所定の表示領域ＡＲ１に配置した第１操作画面Ｇ１を生成する画面生成部２６と、画面生成部２６によって生成される第１操作画面Ｇ１を表示部１１に表示させる表示制御部２７と、を備えている。したがって、ユーザーが発した音声に対応する第１画像コンテンツを１つの画面に集約した第１操作画面Ｇ１を表示部１１に表示することが可能である。そのため、ユーザーは第１操作画面Ｇ１を確認することで、自身の設定したジョブ設定の確認・変更が容易になり、ジョブ設定の漏れを減らすことができるのである。このとき、ユーザーが発した操作項目とは関係しない画像コンテンツは表示されないため、ユーザーは、自身で発声した操作項目に対応する画像コンテンツを簡単に確認することが可能である。それ故、操作効率が向上すると共に、ジョブの設定漏れなどが生じることを未然に防止することができるようになる。

すなわち、本実施形態の画像処理装置１は、音声入力モードになると、操作画面における所定の表示領域ＡＲ１をブランク状態にして表示しておき、その後、ユーザーの音声に対応する操作項目が特定される度に、その特定された操作項目に対応する第１画像コンテンツを表示領域ＡＲ１に対して追加的に表示させていくのである。このような表示形態とすることにより、ユーザーは、自身の音声によって順次追加されていく操作項目が正しく認識されているかを１つずつ簡単に確認してくことが可能であり、ジョブの設定を音声操作で行う場合に、誤設定や設定漏れなどが生じ難くなるのである。

（第２実施形態）
次に本発明の第２実施形態について説明する。上記第１実施形態では、画像処理装置１において、ユーザーの音声に対応する第１画像コンテンツを配置した第１操作画面Ｇ１を生成する例について説明した。これに対し、本実施形態では、音声入力モードにおいて表示部１１に表示する画面を、画像処理装置１とは異なる情報処理装置１００において生成する例について説明する。

図１８は、本実施形態における画像処理システム２００の一構成例を示す図である。この画像処理システム２００は、画像処理装置１ａと、情報処理装置１００とを備えており、これらが互いに通信可能な構成である。

画像処理装置１ａは、第１実施形態と同様に、ＭＦＰによって構成される装置である。この画像処理装置１ａが第１実施形態で説明した画像処理装置１と異なる点は、ユーザーの音声に基づく音声データを情報処理装置１００へ送信し、情報処理装置１００から第１操作画面Ｇ１などの操作画面データを取得して表示部１１に表示するように構成されている点にある。そのため、画像処理装置１ａは、情報処理装置１００と通信を行う通信部１３に対して音声入力部１４を接続した構成であり、音声入力部１４においてユーザーの音声に基づく音声データが生成されると、その音声データを、通信部１３を介して情報処理装置１００へ送信するように構成される。また画像処理装置１ａは、制御部１９ｂを通信部１３に接続しており、情報処理装置１００から送信される操作画面データを制御部１９ｂが受信できるようにしている。尚、本実施形態における制御部１９ｂは、第１実施形態において説明した、音声解析部２３、組合せ判定部２５、画像コンテンツ抽出部２４及び画面生成部２６を備えていない構成として良い。

情報処理装置１００は、画像処理装置１ａと通信を行うことにより、画像処理装置１ａから受信する音声データに基づいて画像処理装置１ａにおいて表示すべき操作画面を生成し、その操作画面に関する操作画面データを画像処理装置１ａへ送信するように構成される。情報処理装置１００は、１つの画像処理装置１ａだけでなく、他の画像処理装置とも通信を行うことが可能である。すなわち、情報処理装置１００は、複数の画像処理装置のそれぞれから音声データを受信し、各画像処理装置に対して操作画面データを送信することが可能である。このような情報処理装置１００は、そのハードウェア構成として、通信部１０１と、制御部１９ａと、記憶部１５とを備えている。

通信部１０１は、画像処理装置１ａと通信を行うためのインタフェースである。情報処理装置１００は、この通信部１０１を介して、複数の画像処理装置のそれぞれと通信を行うことが可能である。

記憶部１５は、ハードディスクドライブ（ＨＤＤ）やソリッドステートドライブ（ＳＳＤ）などによって構成される不揮発性の記憶装置である。この記憶部１５は、様々なプログラムやデータなどを記憶しておくものである。例えば記憶部１５には、第１実施形態で説明した、音声入力ＤＢ３０、画像コンテンツＤＢ３１、操作画面ＤＢ３２、グループ情報３３、組合せ情報３４及び利用履歴情報３５を記憶する。また記憶部１５は、これ以外にも、例えば、図１８に示すように情報処理装置１００において実行されるプログラム２１と、装置情報１０３とを記憶している。装置情報１０３には、例えば、複数の画像処理装置のそれぞれに関する識別情報、ＩＰアドレス、機能情報などが記憶される。識別情報は、複数の画像処理装置のそれぞれを識別するための情報である。ＩＰアドレスは、複数の画像処理装置のそれぞれと通信を行う際の宛先となる情報である。機種情報は、複数の画像処理装置のそれぞれにおいて実装されている設定機能などが予め登録された情報である。

制御部１９ａは、図示を省略するＣＰＵやメモリなどを備えて構成され、ＣＰＵがプログラム２１を実行することにより、装置判別部１０２、音声解析部２３、画像コンテンツ抽出部２４、組合せ判定部２５、画面生成部２６及び表示制御部２７として機能する。

装置判別部１０２は、音声入力モードがオン状態となった画像処理装置１ａと通信を開始する時に、装置情報１０３を参照して、通信相手である画像処理装置１ａを特定し、画像処理装置１ａにおいて実装されている設定機能などを特定する処理部である。

尚、音声解析部２３、画像コンテンツ抽出部２４、組合せ判定部２５、画面生成部２６及び表示制御部２７は、それぞれ、第１実施形態において説明したものと同様である。

次に、上記のような情報処理装置１００と画像処理装置１ａで行われる動作について説明する。図１９は、情報処理装置１００及び画像処理装置１ａで行われる動作プロセスを示す図である。まず、画像処理装置１ａに対するユーザーの操作によって、画像処理装置１ａが音声入力モードに移行する（プロセスＰ１）。画像処理装置１ａは、音声入力モードに移行すると、情報処理装置１００との接続状態ＣＮを確立させる。接続状態ＣＮが確立されると、情報処理装置１００は、画像処理装置１ａの表示部１１に表示させる画面として初期画面Ｇ０を生成し（プロセスＰ２）、初期画面Ｇ０の操作画面データ６を画像処理装置１ａへ送信する（プロセスＰ３）。操作画面データ６を受信した画像処理装置１ａは、操作画面データ６に基づく初期画面Ｇ０を表示部１１に表示する（プロセスＰ４）。表示部１１に初期画面Ｇ０を表示した状態の画像処理装置１ａは、ユーザーによる音声入力を受け付ける（プロセスＰ５）。ユーザーの音声入力を検知すると、画像処理装置１ａは、ユーザーの音声に対応する音声データ５を生成し、その音声データ５を情報処理装置１００へ送信する（プロセスＰ６）。音声データ５を受信した情報処理装置１００は、音声解析部２３を機能させて音声データ５の解析を行い、音声データ５に対応する操作項目を特定する（プロセスＰ７）。このとき、音声解析部２３は、音声入力ＤＢ３０に基づいて音声解析を行う。

情報処理装置１００は、音声データ５を解析することによって特定した操作項目（特定操作項目）に対応する第１画像コンテンツを画像コンテンツＤＢ３１から抽出し（プロセスＰ８）、第１画像コンテンツを配置した第１操作画面Ｇ１を生成する（プロセスＰ９）。このとき、情報処理装置１００は、画像コンテンツ抽出部２４及び画面生成部２６などを機能させる。そして第１実施形態と同様の第１操作画面Ｇ１を生成する。つまり、情報処理装置１００は、特定操作項目に対応する第１画像コンテンツを表示領域ＡＲ１に配置した第１操作画面Ｇ１を生成するのである。また情報処理装置１００は、第１操作画面Ｇ１を生成するとき、第１実施形態で説明したように第３画像コンテンツなどを配置するようにしても良い。

また、情報処理装置１００は、装置情報１０３を参照し、特定操作項目に対応する設定機能が画像処理装置１ａに実装されているか否かを判断し、特定操作項目に対応する設定機能が画像処理装置１ａに実装されていない場合には、第１画像コンテンツの表示態様を通常とは異なる態様に変更した第１操作画面Ｇ１を生成する。

その後、情報処理装置１００は、第１操作画面Ｇ１の操作画面データ６を画像処理装置１ａに送信する（プロセスＰ１０）。第１操作画面Ｇ１の操作画面データ６を受信した画像処理装置１ａは、操作画面データ６に基づき、第１操作画面Ｇ１を表示部１１に表示する（プロセスＰ１１）。尚、画像処理装置１ａにおいてユーザーによる音声入力が連続的に行われる場合には、上述した処理（プロセスＰ５～Ｐ１１）の処理が繰り返し行われる。

次に、表示部１１に第１操作画面Ｇ１を表示している状態において、画像処理装置１ａは、ユーザーによる操作を検知すると（プロセスＰ１２）、ユーザーによって行われた操作を示す操作情報７を情報処理装置１００へ送信する。情報処理装置１００は、操作情報７を受信すると、その操作情報７に基づく操作画面を生成する（プロセスＰ１４）。つまり、ユーザーの操作を反映させた操作画面を生成するのである。尚、この場合に生成される具体的な操作画面は、第１実施形態で説明したものと同様である。そして情報処理装置１００は、操作情報７に基づいて生成した操作画面の操作画面データ６を画像処理装置１ａに送信する（プロセスＰ１５）。画像処理装置１ａは、操作情報７を送信した後、情報処理装置１００から新たな操作画面データ６を受信すると、その操作画面データ６に基づく操作画面を表示部１１に表示する（プロセスＰ１６）。これにより、画像処理装置１ａの表示部１１において表示される操作画面は、ユーザーの操作を反映させた画面に更新される。

次に情報処理装置１００における具体的な動作の一例について説明する。図２０は、情報処理装置１００において行われる処理手順の一例を示すフローチャートである。この処理は、情報処理装置１００が画像処理装置１ａとの接続状態を確立することに伴って開始される処理である。情報処理装置１００は、この処理を開始すると、まず画像処理装置１ａとの接続状態ＣＮを確立させたかどうかを判断する（ステップＳ１００）。画像処理装置１ａとの接続状態ＣＮを確立させた場合（ステップＳ１００でＹＥＳ）、情報処理装置１００は、画面生成部２６を機能させて初期画面Ｇ０を生成する（ステップＳ１０１）。情報処理装置１００は、初期画面Ｇ０を生成すると、初期画面Ｇ０の操作画面データ６を画像処理装置１ａに送信する（ステップＳ１０２）。

次に情報処理装置１００は、画像処理装置１ａから音声データ５を受信したか否かを判断する（ステップＳ１０３）。画像処理装置１ａから音声データ５を受信していない場合（ステップＳ１０３でＮＯ）、情報処理装置１００による処理はステップＳ１０５に進む。一方、画像処理装置１ａから音声データ５を受信している場合（ステップＳ１０３でＹＥＳ）、情報処理装置１００は、音声解析部２３を機能させて音声解析を行い（ステップＳ４）、ユーザーが発した音声に対応する操作項目（特定操作項目）を特定する（ステップＳ５）。次に、画像処理装置１は、画像コンテンツ抽出部２４を機能させ、特定操作項目に基づいて画像コンテンツを抽出する（ステップＳ７）。このとき、情報処理装置１００は、グループ情報３３を適宜参照し、特定操作項目に対応する第１画像コンテンツだけでなく、第２画像コンテンツや第３画像コンテンツも抽出する。次に、情報処理装置１００は、画面生成部２６を機能させて画面生成処理を行わせる（ステップＳ８）。尚、この画面生成処理の詳細は、図１６に示したものと同様である。

情報処理装置１００は、第１操作画面Ｇ１を生成すると、その第１操作画面Ｇ１の操作画面データ６を生成し、画像処理装置１ａへ送信する（ステップＳ１０４）。次に、情報処理装置１００は、画像処理装置１ａから操作情報７を受信したかどうかを判断する（ステップＳ１０５）。画像処理装置１ａから操作情報７を受信していない場合（ステップＳ１０５でＮＯ）、情報処理装置１００による処理はステップＳ１０３に戻る。したがって、ユーザーが音声入力を連続的に行えば、第１操作画面Ｇ１において表示される特定操作項目が順次増加していく。

一方、画像処理装置１ａから操作情報７を受信している場合（ステップＳ１０５でＹＥＳ）、情報処理装置１００は、操作情報７を解析し、画面更新を必要とする操作であるか否かを確認する（ステップＳ１１）。ユーザーの操作が画面更新を必要とする操作である場合（ステップＳ１１でＹＥＳ）、情報処理装置１００は、画面生成部２６を機能させ、画面更新処理を実行させる（ステップＳ１２）。この画面更新処理の詳細は、図１７に示したものと同様である。

情報処理装置１００は、操作画面を更新すると、その更新した操作画面の操作画面データ６を画像処理装置１ａへ送信する（ステップＳ１０６）次に、情報処理装置１００は、操作情報７を解析し、ユーザーの操作がジョブの実行を指示するものであるか否かを確認する（ステップＳ１４）。ユーザーの操作がジョブの実行を指示するものでない場合（ステップＳ１４でＮＯ）、情報処理装置１００による処理はステップＳ１０３に戻る。一方、ユーザーの操作がジョブの実行を指示するものである場合（ステップＳ１４でＹＥＳ）、情報処理装置１００は、画像処理装置１ａとの接続状態ＣＮを切断し、画像処理装置１ａと連携して行う処理を終了する。

以上のように本実施形態の情報処理装置１００は、画像コンテンツＤＢ３１を記憶する記憶部１５と、画像処理装置１ａが入力した音声データ５を画像処理装置１ａから受信し、画面生成部２６が生成した第１操作画面Ｇ１の操作画面データ６を送信する通信部１０１と、画像処理装置１ａから受信する音声データ５を解析し、複数の操作項目のうちから音声データ５に対応する操作項目を特定する音声解析部２３と、画像コンテンツＤＢ３１から特定操作項目に対応する第１画像コンテンツを抽出する画像コンテンツ抽出部２４と、画像コンテンツ抽出部２４によって抽出される第１画像コンテンツを所定の表示領域ＡＲ１に配置した第１操作画面Ｇ１を生成する画面生成部２６と、を備えている。したがって、情報処理装置１００は、画像処理装置１ａに対してユーザーが発した音声に対応する第１画像コンテンツを１つの画面に集約した第１操作画面Ｇ１を生成し、その第１操作画面Ｇ１の操作画面データ６を画像処理装置１ａに送信することが可能である。そのため、このような第１操作画面Ｇ１を生成することができない画像処理装置１ａであっても、本実施形態の情報処理装置１００と通信を行うことにより、このような第１操作画面Ｇ１を表示部１１に表示することが可能である。そのため、ユーザーは第１操作画面Ｇ１を確認することで、容易に自身の所望するジョブ設定の確認・変更が可能となり、ジョブ設定の漏れを減らすことができるのである。

（変形例）
以上、本発明に関する幾つかの実施形態について説明した。しかし、本発明は、上記各実施形態において説明した内容のものに限られるものではなく、種々の変形例が適用可能である。

上記実施形態では、プログラム２１が画像処理装置１又は情報処理装置１００に予めインストールされている場合を例示した。しかし、プログラム２１は、画像処理装置１又は情報処理装置１００に予めインストールされているものに限られず、それ単独で取引の対象となるものであっても構わない。この場合、プログラム２１は、インターネットなどを介してユーザー自身がダウンロードする形態で画像処理装置１又は情報処理装置１００に提供されるものであっても良いし、ＣＤ－ＲＯＭなどのコンピュータ読み取り可能な記録媒体に記録された状態で画像処理装置１又は情報処理装置１００に提供されるものであっても構わない。

１画像処理装置
５音声データ
６操作画面データ
７操作情報
１１表示部（表示手段）
１４音声入力部（音声入力手段）
１５記憶部（記憶手段）
１７プリンタ部（画像形成手段）
２０音声出力部（音声出力手段）
２１プログラム
２３音声解析部（音声解析手段）
２４画像コンテンツ抽出部（画像コンテンツ抽出手段）
２５組合せ判定部（組合せ判定手段）
２６画面生成部（画面生成手段）
２７表示制御部（表示制御手段）
２８ジョブ制御部
２９操作検知部（操作検知手段）
３１画像コンテンツＤＢ
１００情報処理装置
１０１通信部（音声データ受信手段、操作画面送信手段）

Claims

ユーザーが操作可能な操作画面を表示する表示手段と、
前記操作画面において表示可能な複数の操作項目のそれぞれに対応する複数の画像コンテンツを記憶する記憶手段と、
ユーザーによる音声入力を受け付ける音声入力手段と、
前記音声入力手段によって受け付けられる音声入力を解析し、前記複数の操作項目のうちから該音声入力に対応する操作項目を特定する音声解析手段と、
前記複数の画像コンテンツのうちから、前記音声解析手段によって特定される操作項目に対応する第１画像コンテンツを抽出する画像コンテンツ抽出手段と、
前記画像コンテンツ抽出手段によって抽出される前記第１画像コンテンツを所定の表示領域に集約させるように配置した第１操作画面を生成する画面生成手段と、
前記画面生成手段によって生成される第１操作画面を前記表示手段に表示させる表示制御手段と、
前記表示手段に表示される操作画面に対するユーザーの操作を検知する操作検知手段と、
を備え、
前記画像コンテンツ抽出手段は、前記複数の画像コンテンツのうちから、前記第１画像コンテンツと変更可能な第２画像コンテンツを抽出し、
前記画面生成手段は、前記操作検知手段によって前記第１画像コンテンツに対する操作が検知された場合、前記所定の表示領域に前記第２画像コンテンツを表示することを特徴とする画像処理装置。
ユーザーが操作可能な操作画面を表示する表示手段と、
前記操作画面において表示可能な複数の操作項目のそれぞれに対応する複数の画像コンテンツを記憶する記憶手段と、
ユーザーによる音声入力を受け付ける音声入力手段と、
前記音声入力手段によって受け付けられる音声入力を解析し、前記複数の操作項目のうちから該音声入力に対応する操作項目を特定する音声解析手段と、
前記複数の画像コンテンツのうちから、前記音声解析手段によって特定される操作項目に対応する第１画像コンテンツを抽出する画像コンテンツ抽出手段と、
前記画像コンテンツ抽出手段によって抽出される前記第１画像コンテンツを所定の表示領域に集約させるように配置した第１操作画面を生成する画面生成手段と、
前記画面生成手段によって生成される第１操作画面を前記表示手段に表示させる表示制御手段と、
を備え、
前記画像コンテンツ抽出手段は、前記複数の画像コンテンツのうちから、前記音声解析手段によって特定される操作項目に関連する第３画像コンテンツを更に抽出し、
前記画面生成手段は、前記画像コンテンツ抽出手段によって抽出される前記第１画像コンテンツ及び前記第３画像コンテンツを前記所定の表示領域に配置した前記第１操作画面を生成することを特徴とする画像処理装置。
前記画面生成手段は、前記画像コンテンツ抽出手段によって抽出される前記第３画像コンテンツが所定数以上である場合、前記第３画像コンテンツを配置しない前記第１操作画面を生成すると共に、前記第３画像コンテンツを配置した第２操作画面を生成し、
前記表示制御手段は、前記第２操作画面を前記表示手段に表示させることを特徴とする請求項２に記載の画像処理装置。
前記画像コンテンツ抽出手段によって抽出される前記第３画像コンテンツに関する通知を行う通知手段を更に備えることを特徴とする請求項２又は３に記載の画像処理装置。
前記画像コンテンツ抽出手段は、前記複数の画像コンテンツのうちから、ユーザーが選択したジョブに応じた第４画像コンテンツを更に抽出し、
前記画面生成手段は、前記画像コンテンツ抽出手段によって抽出される前記第４画像コンテンツを前記所定の表示領域とは異なる表示領域に配置した前記第１操作画面を生成することを特徴とする請求項１乃至４のいずれかに記載の画像処理装置。
前記画面生成手段は、前記画像コンテンツ抽出手段によって抽出されなかった画像コンテンツが配置された第３操作画面を生成し、
前記表示制御手段は、前記第３操作画面を表示させることを特徴とする請求項１乃至５のいずれかに記載の画像処理装置。
ユーザーが操作可能な操作画面を表示する表示手段と、
前記操作画面において表示可能な複数の操作項目のそれぞれに対応する複数の画像コンテンツを記憶する記憶手段と、
ユーザーによる音声入力を受け付ける音声入力手段と、
前記音声入力手段によって受け付けられる音声入力を解析し、前記複数の操作項目のうちから該音声入力に対応する操作項目を特定する音声解析手段と、
前記複数の画像コンテンツのうちから、前記音声解析手段によって特定される操作項目に対応する第１画像コンテンツを抽出する画像コンテンツ抽出手段と、
前記画像コンテンツ抽出手段によって抽出される前記第１画像コンテンツを所定の表示領域に集約させるように配置した第１操作画面を生成する画面生成手段と、
前記画面生成手段によって生成される第１操作画面を前記表示手段に表示させる表示制御手段と、
を備え、
前記音声入力手段は、ユーザーによる複数の音声入力を順に受け付け、
前記音声解析手段は、前記音声入力手段によって順次受け付けられる複数の音声入力を解析し、前記複数の操作項目のうちから該複数の音声入力のそれぞれに対応する複数の操作項目を順次特定し、
前記画像コンテンツ抽出手段は、前記音声解析手段によって順次特定される複数の操作項目のそれぞれに対応する複数の前記第１画像コンテンツを順次抽出し、
前記画面生成手段は、前記画像コンテンツ抽出手段によって順次抽出された複数の前記第１画像コンテンツを、ユーザーの利用頻度が高い順に並び替えて前記所定の表示領域に配置した前記第１操作画面を生成することを特徴とする画像処理装置。
前記音声解析手段によって特定される複数の操作項目のうちに両立することができない操作項目の組み合わせが存在するか否かを判定する組合せ判定手段を更に備え、
前記画面生成手段は、前記組合せ判定手段によって、両立することができない操作項目の組み合わせが存在すると判定された場合に、両立することができない操作項目の組み合わせが存在することを通知することを特徴とする請求項７に記載の画像処理装置。
前記画面生成手段による制御に基づいて音声出力を行う音声出力手段を更に備え、
前記画面生成手段は、前記組合せ判定手段によって、両立することができない操作項目の組み合わせが存在すると判定された場合に、両立することができない操作項目の組み合わせが存在することを通知する音声出力を前記音声出力手段に実行させる制御を行うことを特徴とする請求項８に記載の画像処理装置。
前記画面生成手段は、前記組合せ判定手段によって、両立することができない操作項目の組み合わせが存在すると判定された場合に、両立することができない操作項目の組み合わせとなる複数の操作項目のうち、いずれの操作項目を有効にするかをユーザーに選択させ、ユーザーの選択を前記第１操作画面に反映させることを特徴とする請求項８又は９に記載の画像処理装置。
前記画面生成手段は、前記組合せ判定手段によって、両立することができない操作項目の組み合わせが存在すると判定された場合に、両立することができない操作項目の組み合わせとなる複数の操作項目のそれぞれに対応する複数の画像コンテンツを前記所定の表示領域において互いに隣接する位置に配置した操作画面を生成することを特徴とする請求項８乃至１０のいずれかに記載の画像処理装置。
前記音声解析手段によって特定される複数の操作項目のうちに両立することができない操作項目の組み合わせが存在するか否かを判定する組合せ判定手段と、
前記組合せ判定手段によって、両立することができない操作項目の組み合わせが存在すると判定された場合に、両立することができない操作項目の組み合わせとなる複数の操作項目のうちいずれか１つの操作項目を有効にして確認プリントを行う画像形成手段と、
を備えることを特徴とする請求項７に記載の画像処理装置。
前記画面生成手段は、前記音声解析手段によって特定される操作項目を有効にするか無効にするかをユーザーに選択させる画像を前記所定の表示領域に配置した前記第１操作画面を生成することを特徴とする請求項１乃至１２のいずれかに記載の画像処理装置。
前記画面生成手段は、前記音声解析手段によって特定される操作項目が、前記画像処理装置において実装されていない機能に関する操作項目である場合に、前記音声解析手段によって特定される操作項目が前記画像処理装置において実装されていない機能に関する操作項目であることを通知する前記第１操作画面を生成することを特徴とする請求項１乃至１３のいずれかに記載の画像処理装置。
ユーザーが操作可能な操作画面を表示する表示手段と、ユーザーによる音声入力を受け付ける音声入力手段と、を備える画像処理装置と通信を行う情報処理装置であって、
前記操作画面において表示可能な複数の操作項目のそれぞれに対応する複数の画像コンテンツを記憶する記憶手段と、
前記音声入力手段が入力した音声データを、前記画像処理装置から受信する音声データ受信手段と、
前記音声データ受信手段が受信する音声データを解析し、前記複数の操作項目のうちから該音声データに対応する操作項目を特定する音声解析手段と、
前記複数の画像コンテンツのうちから、前記音声解析手段によって特定される操作項目に対応した第１画像コンテンツを抽出する画像コンテンツ抽出手段と、
前記画像コンテンツ抽出手段によって抽出される前記第１画像コンテンツを所定の表示領域に集約させるように配置した操作画面を生成する画面生成手段と、
前記画面生成手段が生成する操作画面を前記画像処理装置に送信する操作画面送信手段と、
前記表示手段に表示される操作画面に対するユーザーの操作を検知する操作検知手段と、
を備え、
前記画像コンテンツ抽出手段は、前記複数の画像コンテンツのうちから、前記第１画像コンテンツと変更可能な第２画像コンテンツを抽出し、
前記画面生成手段は、前記操作検知手段によって前記第１画像コンテンツに対する操作が検知された場合、前記所定の表示領域に前記第２画像コンテンツを表示することを特徴とする情報処理装置。
ユーザーが操作可能な操作画面を表示する表示手段と、ユーザーによる音声入力を受け付ける音声入力手段と、を備える画像処理装置と通信を行う情報処理装置であって、
前記操作画面において表示可能な複数の操作項目のそれぞれに対応する複数の画像コンテンツを記憶する記憶手段と、
前記音声入力手段が入力した音声データを、前記画像処理装置から受信する音声データ受信手段と、
前記音声データ受信手段が受信する音声データを解析し、前記複数の操作項目のうちから該音声データに対応する操作項目を特定する音声解析手段と、
前記複数の画像コンテンツのうちから、前記音声解析手段によって特定される操作項目に対応した第１画像コンテンツを抽出する画像コンテンツ抽出手段と、
前記画像コンテンツ抽出手段によって抽出される前記第１画像コンテンツを所定の表示領域に集約させるように配置した操作画面を生成する画面生成手段と、
前記画面生成手段が生成する操作画面を前記画像処理装置に送信する操作画面送信手段と、
を備え、
前記画像コンテンツ抽出手段は、前記複数の画像コンテンツのうちから、前記音声解析手段によって特定される操作項目に関連する第３画像コンテンツを更に抽出し、
前記画面生成手段は、前記画像コンテンツ抽出手段によって抽出される前記第１画像コンテンツ及び前記第３画像コンテンツを前記所定の表示領域に配置した前記操作画面を生成することを特徴とする情報処理装置。
ユーザーが操作可能な操作画面を表示する表示手段と、ユーザーによる音声入力を受け付ける音声入力手段と、を備える画像処理装置と通信を行う情報処理装置であって、
前記操作画面において表示可能な複数の操作項目のそれぞれに対応する複数の画像コンテンツを記憶する記憶手段と、
前記音声入力手段が入力した音声データを、前記画像処理装置から受信する音声データ受信手段と、
前記音声データ受信手段が受信する音声データを解析し、前記複数の操作項目のうちから該音声データに対応する操作項目を特定する音声解析手段と、
前記複数の画像コンテンツのうちから、前記音声解析手段によって特定される操作項目に対応した画像コンテンツを抽出する画像コンテンツ抽出手段と、
前記画像コンテンツ抽出手段によって抽出される前記画像コンテンツを所定の表示領域に集約させるように配置した操作画面を生成する画面生成手段と、
前記画面生成手段が生成する操作画面を前記画像処理装置に送信する操作画面送信手段と、
を備え、
前記音声入力手段は、ユーザーによる複数の音声入力を順に受け付け、
前記音声解析手段は、前記音声入力手段によって順次受け付けられる複数の音声入力を解析し、前記複数の操作項目のうちから該複数の音声入力のそれぞれに対応する複数の操作項目を順次特定し、
前記画像コンテンツ抽出手段は、前記音声解析手段によって順次特定される複数の操作項目のそれぞれに対応する複数の前記画像コンテンツを順次抽出し、
前記画面生成手段は、前記画像コンテンツ抽出手段によって順次抽出された複数の前記画像コンテンツを、ユーザーの利用頻度が高い順に並び替えて前記所定の表示領域に配置した前記操作画面を生成することを特徴とする情報処理装置。
コンピュータに、
音声データを入力する音声データ入力ステップと、
前記音声データ入力ステップによって受け付けられる音声データを解析し、操作画面において表示可能な複数の操作項目のうちから該音声データに対応する操作項目を特定する音声解析ステップと、
所定の記憶手段に記憶されている複数の画像コンテンツのうちから、前記音声解析ステップによって特定される操作項目に対応した第１画像コンテンツを抽出する画像コンテンツ抽出ステップと、
前記画像コンテンツ抽出ステップによって抽出される前記第１画像コンテンツを所定の表示領域に集約させるように配置した操作画面を生成する画面生成ステップと、
前記画面生成ステップによって生成される前記操作画面のデータを出力する操作画面出力ステップと、
ユーザーによる前記操作画面に対する操作を検知する操作検知ステップと、
を実行させ、
前記画像コンテンツ抽出ステップは、前記複数の画像コンテンツのうちから、前記第１画像コンテンツと変更可能な第２画像コンテンツを抽出し、
前記画面生成ステップは、前記操作検知ステップによって前記第１画像コンテンツに対する操作が検知された場合、前記所定の表示領域に前記第２画像コンテンツを表示することを特徴とするプログラム。
コンピュータに、
音声データを入力する音声データ入力ステップと、
前記音声データ入力ステップによって受け付けられる音声データを解析し、操作画面において表示可能な複数の操作項目のうちから該音声データに対応する操作項目を特定する音声解析ステップと、
所定の記憶手段に記憶されている複数の画像コンテンツのうちから、前記音声解析ステップによって特定される操作項目に対応した第１画像コンテンツを抽出する画像コンテンツ抽出ステップと、
前記画像コンテンツ抽出ステップによって抽出される前記第１画像コンテンツを所定の表示領域に集約させるように配置した操作画面を生成する画面生成ステップと、
前記画面生成ステップによって生成される前記操作画面のデータを出力する操作画面出力ステップと、
を実行させ、
前記画像コンテンツ抽出ステップは、前記複数の画像コンテンツのうちから、前記音声解析ステップによって特定される操作項目に関連する第３画像コンテンツを更に抽出し、
前記画面生成ステップは、前記画像コンテンツ抽出ステップによって抽出される前記第１画像コンテンツ及び前記第３画像コンテンツを前記所定の表示領域に配置した前記操作画面を生成することを特徴とするプログラム。
コンピュータに、
音声データを入力する音声データ入力ステップと、
前記音声データ入力ステップによって受け付けられる音声データを解析し、操作画面において表示可能な複数の操作項目のうちから該音声データに対応する操作項目を特定する音声解析ステップと、
所定の記憶手段に記憶されている複数の画像コンテンツのうちから、前記音声解析ステップによって特定される操作項目に対応した画像コンテンツを抽出する画像コンテンツ抽出ステップと、
前記画像コンテンツ抽出ステップによって抽出される前記画像コンテンツを所定の表示領域に集約させるように配置した操作画面を生成する画面生成ステップと、
前記画面生成ステップによって生成される前記操作画面のデータを出力する操作画面出力ステップと、
を実行させ、
前記音声データ入力ステップは、ユーザーによる複数の音声入力を順に受け付け、
前記音声解析ステップは、前記音声入力ステップによって順次受け付けられる複数の音声入力を解析し、前記複数の操作項目のうちから該複数の音声入力のそれぞれに対応する複数の操作項目を順次特定し、
前記画像コンテンツ抽出ステップは、前記音声解析ステップによって順次特定される複数の操作項目のそれぞれに対応する複数の前記第１画像コンテンツを順次抽出し、
前記画面生成ステップは、前記画像コンテンツ抽出ステップによって順次抽出された複数の前記第１画像コンテンツを、ユーザーの利用頻度が高い順に並び替えて前記所定の表示領域に配置した前記操作画面を生成することを特徴とするプログラム。