JP2021052261A

JP2021052261A - 画像形成装置

Info

Publication number: JP2021052261A
Application number: JP2019172782A
Authority: JP
Inventors: 石黒　和宏; Kazuhiro Ishiguro; 和宏石黒
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2021-04-01

Abstract

【課題】音声認識機能を備える画像形成装置において、音声認識機能によって得られた機能候補が複数存在した場合のユーザーの利便性が向上する。【解決手段】画像形成装置１００は、音声指示を認識する音声認識処理部１５０と、音声指示が処理対象の画像に対する画像処理についての指示を含み、音声認識処理部１００が１つの画像処理機能を特定できない場合に、複数の画像処理機能から複数の候補機能を選択する候補機能選択部１５２と、処理対象の画像に対して複数の候補機能の処理をそれぞれ実行することによって複数の検証用画像を生成する画像検証部１５６と、複数の検証用画像を相互に比較する画像比較部１５８と、比較の結果に基づいて、複数の候補機能から１つの画像処理機能を自動的に決定するか、またはユーザーへ追加情報を求めるかを判断する制御部１６０とを備える。【選択図】図３

Description

本開示は画像形成装置に関し、より特定的には音声認識機能を有する画像形成装置に関する。

音声認識技術の進歩に伴い、音声によるユーザー操作が急激に普及してきている。ＭＦＰ（Multi Functional Peripheral）等の事務機器においても、音声操作を可能にした製品が市場に出てきている。

例えば、特開２０００−０９２２５９号公報（特許文献１）は、音声認識機能を備えたファクシミリ装置を開示している。当該ファクシミリ装置は、音声認識結果が複数のキーワードの組み合わせからなる場合には、それらが１つの動作モードに対応すれば、一致と判定する。一方、当該ファクシミリ装置は、音声認識結果に含まれる複数のキーワードに複数の動作モードが対応する場合には不一致と判定し、ユーザーにキーワードの再入力を促す。

特開２０００−０９２２５９号公報

ユーザーが音声認識を搭載したＭＦＰに対して音声指示を行う場合には、ＭＦＰが備える各機能の違いについてユーザー自身が理解していない場合がある。そのため、ユーザーの音声指示が曖昧になり、音声指示に含まれる１つの言葉がＭＦＰにおける複数の機能に対応することがある。そのような場合には、ＭＦＰは、訂正情報または追加情報をユーザーに要求して、当該複数の機能からどの機能を実行すべきかユーザーに問い合わせる必要がある。そのため、音声認識機能を使う場合におけるユーザーの利便性は、必ずしも良好とはいえなかった。

本開示は、上記のような課題を解決するためのものであって、ある局面に従うと、音声認識機能を備える画像形成装置におけるユーザーの利便性を向上する技術が開示される。

一実施形態の画像形成装置は、上記画像形成装置の操作に関する音声指示を認識する音声認識処理部を備える。上記音声認識処理部は、上記音声指示が処理対象の画像に対する画像処理についての指示を含む場合に、上記画像形成装置が備える複数の画像処理機能から上記音声指示に対応する機能を特定する。上記画像形成装置は、さらに、上記音声指示に対応する１つの画像処理機能を上記音声認識処理部が特定できない場合に、上記複数の画像処理機能から複数の候補機能を選択する候補機能選択部と、上記処理対象の画像に対して上記複数の候補機能の処理をそれぞれ実行することによって複数の検証用画像を生成する画像検証部と、上記複数の検証用画像を相互に比較する画像比較部と、上記比較の結果に基づいて、上記複数の候補機能から１つの画像処理機能を自動的に決定するか、又はユーザーへ追加情報を求めるかを判断する制御部とを備える。

ある局面において、上記画像比較部は、上記複数の検証用画像を相互に比較するときに、上記複数の検証用画像のうちの２個の検証用画像の組み合わせごとに、上記２個の検証用画像の違いの程度を表す評価値を算出し、上記評価値を閾値と比較する。

ある局面において、上記制御部は、上記２個の検証用画像の組み合わせごとに算出された全ての評価値が上記閾値未満のとき、上記複数の候補機能のうちのいずれか１つの処理を自動的に決定し、上記自動的に決定した画像処理を上記処理対象の画像に対して実行する。

ある局面において、上記制御部は、上記２個の検証用画像の組み合わせごとに算出された評価値のうちの少なくとも１つが上記閾値以上のとき、ユーザーへ追加情報を求め、上記ユーザーから得られた追加情報に基づいて上記複数の候補機能のうちの１つを決定し、上記追加情報に基づいて決定した画像処理を上記処理対象の画像に対して実行する。

ある局面において、上記画像比較部は、第１の検証用画像における各画素の画素値と、当該画素に対応する第２の検証用画像における画素の画素値との差分に基づいて、上記第１の検証用画像と上記第２の検証用画像との違いの程度を表す上記評価値を算出する。

ある局面において、上記画像比較部は、上記複数の検証用画像の各々をブロック単位に分割して各ブロックごとに画素値の平均値を求めるブロック分割処理を実行する。上記画像比較部は、上記ブロック分割処理後の第１の検証用画像における各ブロックの画素値の平均値と、当該ブロックに対応する上記ブロック分割処理後の第２の検証用画像におけるブロックの画素値の平均値との差分に基づいて、上記第１の検証用画像と上記第２の検証用画像との違いの程度を表す上記評価値を算出する。

ある局面において、上記画像比較部は、上記複数の検証用画像の各々に対して解像度を下げる解像度変換処理を実行する。上記画像比較部は、上記解像度変換処理後の第１の検証用画像における各画素の画素値と、当該画素に対応する上記解像度変換処理後の第２の検証用画像における画素の画素値との差分に基づいて、上記第１の検証用画像と上記第２の検証用画像との違いの程度を表す上記評価値を算出する。

ある局面において、上記画素値は、ＲＧＢ階調値、明度、濃度、色相、彩度、及び輝度の少なくとも１つを含む。

ある局面において、上記画像比較部は、上記音声指示が上記処理対象の画像の明度、濃度、又はコントラストに関する指示を含む場合に、上記評価値を上記複数の検証用画像の各々の明度又は濃度を用いて算出する。

ある局面において、上記画像比較部は、上記音声指示が上記処理対象の画像のＭＴＦ（Modulation Transfer Function）又は周波数特性に関する指示を含む場合に、上記評価値を上記複数の検証用画像の各々のエッジ量又は周波数特性を用いて算出する。

ある局面において、上記画像比較部は、上記音声指示が上記処理対象の画像の色相又は彩度に関する指示を含む場合に、上記評価値を上記複数の検証用画像の各々の色相、彩度、及び上記複数の検証用画像のうち２つの画像のうち一方における画素又はブロックと、当該画素又はブロックに対応する、上記複数の検証用画像のうち２つの画像のうち他方における画素又はブロックとの色差の少なくとも１つを用いて算出する。

ある局面において、上記複数の検証用画像は、第１の候補機能、第２の候補機能、および第３の候補機能にそれぞれ対応する第１の検証用画像、第２の検証用画像、および第３の検証用画像を含む。上記画像比較部は、上記第１の検証用画像と上記第２の検証用画像とから第１の評価値を算出し、上記第１の検証用画像と上記第３の検証用画像とから第２の評価値を算出し、上記第２の検証用画像と上記第３の検証用画像とから第３の評価値を算出する。上記制御部は、上記第１の評価値及び上記第２の評価値が上記閾値未満でありかつ上記第３の評価値が上記閾値以上である場合に、上記第１の候補機能及び上記第２の候補機能の一方のみと、上記第３の候補機能についてユーザーに追加情報を求める。

ある局面において、上記音声指示は、上記処理対象の画像を補正する指示を含む。上記音声認識処理部は、上記音声指示に基づいて上記処理対象の補正量の大きさを決定する。上記制御部は、上記複数の候補機能の各々に対して上記補正量に基づいて上記閾値を決定する。

ある局面において、上記制御部は、上記複数の検証用画像のうち、２個の検証用画像の組み合わせごとに算出された全ての上記評価値が上記閾値未満のとき、上記複数の候補機能のうちのいずれか１つの処理を自動的に決定した後に、上記自動的に決定した画像処理を上記ユーザーに通知する。

ある局面において、上記制御部は、上記複数の検証用画像のうち、２個の検証用画像の組み合わせごとに算出された全ての上記評価値が上記閾値未満のとき、上記複数の候補機能のうちのいずれか１つの処理を自動的に決定し、上記自動的に決定した処理を実行してよいかユーザーに許可を求める。

ある局面において、上記画像形成装置は、上記処理対象の画像を第１領域と上記第１領域を除く領域とに区分する領域区分部をさらに備える。上記画像検証部は、上記処理対象の画像の上記第１領域に対してのみ上記複数の候補機能の処理をそれぞれ実行することによって上記複数の検証用画像を生成する。

ある局面において、上記領域区分部は、上記処理対象の画像に対して上記複数の候補機能の処理を実行した場合に、元の上記処理対象の画像に対する変化が、他の領域に比べて大きい領域を上記第１領域に設定する。

ある局面において、上記領域区分部は、上記音声指示が上記処理対象の画像における特定の領域に対する画像処理を含む場合に、上記特定の領域を上記第１領域に設定する。

ある局面において、上記画像比較部は、上記複数の検証用画像の上記第１領域のみを相互に比較する。

ある局面において、上記制御部は、上記複数の検証用画像の少なくとも２つを表示することによって、ユーザーへの追加情報を求める。

ある局面において、上記制御部は、上記複数の候補機能のうち少なくとも２つの設定画面を表示することによって、ユーザーへ追加情報を求める。

ある局面において、上記音声指示は、第１番目から第ｎ番目までのｎ個の処理対象の画像（ｎは２以上の整数）に対する画像処理についての指示を含む。上記制御部は、上記音声認識処理部が上記音声指示に対応する１つの画像処理を特定できた場合に、上記ｎ個の処理対象の画像の各々に対して上記特定した１つの画像処理を実行する。上記制御部は、上記音声認識処理部が上記音声指示に対応する１つの画像処理を特定できない場合に、フラグを第１の値に初期設定する。上記画像検証部は、上記第１番目の処理対象の画像から順番に上記フラグが第２の値に変更されるまで、上記ｎ個の処理対象の画像のうち現在の処理順番の画像に対して上記複数の候補機能の処理を実行することにより、上記現在の処理順番の画像に対応する複数の検証用画像を生成する。上記画像比較部は、上記画像検証部によって上記複数の検証用画像が生成される度に、２個の検証用画像の組み合わせごとに、上記２個の検証用画像の違いの程度を表す評価値を算出する。上記制御部は、上記画像比較部によって算出された全ての評価値が閾値未満の場合に、上記複数の候補機能のうちのいずれか１つの処理を自動的に決定し、上記自動的に決定した画像処理を上記現在の処理順番の画像に対して実行する。上記制御部は、上記画像比較部によって算出された評価値の少なくとも１つが上記閾値以上の場合に、ユーザーへ追加情報を求め、上記ユーザーから得られた追加情報に基づいて上記複数の候補機能のうちの１つを決定し、上記追加情報に基づいて決定した画像処理を上記現在の処理順番の画像に対して実行し、上記フラグを上記第２の値に変更する。上記制御部は、上記フラグを上記第２の値に変更した後は、上記ｎ個の処理対象の画像のうち残余の画像に対して上記追加情報に基づいて決定した画像処理を実行する。

ある局面において、上記処理対象の画像は、スキャナーによる対象原稿の走査、ファクシミリによる受信、外部ネットワークとの通信、内部メモリへのアクセス、又は補助記憶装置へのアクセスによって取得したデータに基づく画像データである。

ある局面に従うと、音声認識機能を備える画像形成装置におけるユーザーの利便性が向上し得る。

この発明の上記および他の目的、特徴、局面並びに利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。

画像形成装置１００の外観を示す図である。画像形成装置１００の詳細なハードウェア構成の一例を示すブロック図である。ある局面における画像形成装置１００の機能構成を表わすブロック図である。画像処理部１６６が備える画像処理機能と、その機能の各々に対応する番号である機能番号との対応を表すリスト１１０の一例を示す図である。ユーザーが音声指示を画像形成装置１００に与えている一例を示す図である。画像形成装置１００が備える「明度調整」等の画像処理機能と、音声認識処理装置１４８によって得られたテキストデータとを結びつけるためのキーワードを含むデータテーブル１７０を示す図である。「明度調整」、「濃度調整」、および「下地調整」機能の入出力特性の一例を示す図である。画像比較部１５８が検証用画像の各々をブロック単位に分割し、各ブロックごとに画素値の平均値を算出することにより、複数の検証用画像の各々を相互に比較する処理を示す図である。明度調整前（原稿）の検証用画像のブロックごとの明度値と、明度調整前後の検証用画像のブロックごとの明度値の差分とを示す図である。音声指示に基づいてユーザーが所望する画像処理機能を特定するために画像形成装置１００が実行する処理の一部を示すフローチャートである。音声指示に基づいて制御部１６０が機能を特定する処理（図１０のステップＳ３００）を示すフローチャートである。制御部１６０が候補機能ごとの画像処理結果をユーザーに対してプレビュー表示する画面の一例を示す図である。制御部１６０が自動選択した機能、および当該機能における補正値を推奨設定として、当該設定で動作を継続してよいかユーザーに許可を求める表示画面の一例を示す図である。ステップＳ３３５において制御部１６０が表示する、候補機能の各々についての設定画面の一例を示す図である。実施形態２に従う画像形成装置１００が実行する処理の一部を示すフローチャートである。

以下、各実施形態における画像形成装置について、図面を参照して詳しく説明する。以下に説明する実施形態において個数または量等に言及する場合には、特に記載がある場合を除き、本開示の範囲は、必ずしもその個数または量等に限定されない。

図面においては、実際の寸法の比率に従って図示しておらず、構造の理解を容易にするために、構造が明確となるように比率を変更して図示している場合がある。また、同一または相当する部分には同一の参照符号を付して、その説明を繰り返さない。なお、以下で説明される各実施形態は、適宜選択的に組み合わされてもよい。

＜実施形態１＞
［ハードウェア構成］
図１および図２を参照して、本実施形態における、音声認識機能を備える画像形成装置１００のハードウェア構成について説明する。図１は、画像形成装置１００の外観を示す図である。

ある局面において、画像形成装置１００は、ＭＦＰとしての複合機として実現される。本実施形態における画像形成装置１００は、スキャナー機能、コピー機能、ファクシミリ機能、ネットワーク機能、およびボックス機能その他の機能を有する。画像形成装置１００は、操作パネル装置１０１と、画像読み取り装置１０２と、ドキュメントフィーダー（以下、ＤＦ（Document Feeder）と表わす）１０４と、プリンターエンジン１０６と、トレー１０８と、複数の給紙部１０９と、音声入力装置１３６と、音声出力装置１３８とを備える。

操作パネル装置１０１は、画像形成装置１００の本体の上面の前面側（すなわち、ユーザーが操作のために画像形成装置１００に対向する側）に配置され、画像形成装置１００への操作を受け付ける。操作パネル装置１０１は、後述するように、ユーザーからの各種の指示、または、数字、文字、記号若しくはその他の入力操作を受け付けるための複数のキーと、表示装置１３４とを含む。表示装置１３４は、タッチパネルを含む。操作パネル装置１０１は、ユーザー操作に応答した各種情報および／または各種操作を受け付けるためのメニュー画面等をユーザーに対して表示する。また、操作パネル装置１０１は、ユーザーによってタッチ操作された位置を検出し、当該取得した位置に応じた入力情報を取得する。

ある局面において、タッチパネル型の入力装置１３２を搭載する操作パネル装置１０１は、ユーザーが画像形成装置１００の前に立った状態で操作しやすいように、その操作面が斜めになるように傾斜が与えられて、画像形成装置１００の本体に取り付けられる。他の局面において、操作パネル装置１０１は、着脱可能であってもよい。

画像読み取り装置１０２は、原稿を光学的に読み取って画像データを取得する。ＤＦ１０４は、画像形成装置１００の本体の上面に配置され、画像読み取り装置１０２に原稿を送る。

プリンターエンジン１０６は、取得された画像データに基づいて、用紙その他の媒体の上に画像を印刷する。トレー１０８は、画像形成装置１００の中央部に配置され、プリンターエンジン１０６によって画像形成されて排出される用紙その他の媒体を受ける。複数の給紙部１０９は、画像形成装置１００の本体の下部に配置され、プリンターエンジン１０６に用紙その他の媒体を供給する。

図２は、画像形成装置１００の詳細なハードウェア構成の一例を示すブロック図である。図２に示されるように、画像形成装置１００は、ＣＰＵ１２０（Central Processing Unit）と、ＲＡＭ１２２（Random Access Memory）と、ＲＯＭ１２４（Read Only Memory）と、補助記憶装置１２６とを備える。画像形成装置１００は、通信処理装置１２８と、画像処理装置１３０と、入力装置１３２と、表示装置１３４と、音声入力装置１３６と、音声出力装置１３８とを備える。画像形成装置１００は、音声入力用のＡ／Ｄ（Analog-to-digital）変換装置１４０と、音声出力用のＤ／Ａ（Digital-to-Analog）変換装置１４２と、画像読み取り装置１０２と、画像出力装置１４６と、音声認識処理装置１４８とを備える。

ＣＰＵ１２０は、画像形成装置１００の動作を制御する。ある局面において、ＣＰＵ１２０は、ＲＯＭ１２４に記憶された制御プログラムを実行することにより、様々な機能を実現する。

ＲＡＭ１２２は、ＣＰＵ１２０が制御プログラムを実行するときに必要なデータおよび画像データを一時的に記憶するための作業メモリとして使用される。

ＲＯＭ１２４は、画像形成装置１００に所定の動作を実行させるための各種プログラム、および画像形成装置１００の製造事業者によって予め準備された各種データ等を記憶している。

補助記憶装置１２６は、画像形成装置１００の動作に関する各種データ等を不揮発的に記憶する。例えば補助記憶装置１２６は、画像形成装置１００の表示装置１３４に表示する画面の画像データを保持する。補助記憶装置１２６は、例えばＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、ＤＶＤ（Digital Versatile Disk-Read Only Memory）、ＲＯＭ１２４、磁気ディスク、光ディスク、およびＵＳＢ（Universal Serial Bus）メモリ等より実現される。

通信処理装置１２８は、ＣＰＵ１２０からの指示に従って、外部ネットワーク（不図示）を介して外部機器と通信する。外部ネットワークは、イントラネットおよびインターネットのいずれでも良い。通信の形式は、特に限定されない。

画像処理装置１３０は、画像処理を実行する。また、画像処理装置１３０は、処理対象の画像において特定の領域とそれ以外の領域を判別または区分する。また、画像処理装置１３０は、画像を印刷する場合等には、その画像のデータの形式を印刷データの形式に変換する。また、画像処理装置１３０は、画像読み取り装置１０２による画像の読み取りに応じて出力される画像データの形式を、ＴＩＦＦ（Tagged Image File Format）、ＪＰＥＧ（Joint Photographic Experts Group）、ＰＤＦ（Portable Document Format）、またはその他の指定された形式に変換する。

操作パネル装置１０１は、ある局面において、ユーザーからの各種入力のための入力装置１３２としてのタッチパッドと、各種表示のための表示装置１３４としての液晶パネルまたは有機ＥＬ（Electro-Luminescence）ディスプレイ等とを含む、所謂タッチパネルであってもよい。ユーザーは、このような構成を有する操作パネル装置１０１の画面に直接触れることで画像形成装置１００を操作できる。

なお、操作パネル装置１０１に代えて、例えばボタン入力式等の入力装置１３２と、ディスプレイパネルとしての表示装置１３４とが、個別に設けられていてもよい。

音声入力装置１３６は、ユーザーの音声指示を受け付ける装置として機能する。例えば、音声入力装置１３６は、マイクによって実現される。他の局面において、音声入力装置１３６は、無線接続されたスマートフォンまたは対話が可能なスマートスピーカーによっても実現され得る。

Ａ／Ｄ変換装置１４０は、音声入力装置１３６によって入力された音声をデジタルデータである音声データに変換する。Ｄ／Ａ変換装置１４２は、ＣＰＵ１２０から出力するように命令された音声データをアナログデータに変換する。

音声出力装置１３８は、Ｄ／Ａ変換装置１４２によってアナログデータに変換された音声データを外部へ出力する。例えば、音声出力装置１３８は、スピーカー等によって実現される。スピーカーは、画像形成装置１００に内蔵されたもの、または、スマートフォン若しくはスマートスピーカーによっても実現され得る。

画像読み取り装置１０２は、ＤＦ１０４または原稿台にセットされた原稿を光学的に読み取ることにより、原稿に記録された文字、記号、画像等を所定の形式の画像データに変換する。

画像出力装置１４６は、画像処理装置１３０によって処理された印刷データに基づいて、用紙その他の印刷媒体に対する印刷処理を実行する。

音声認識処理装置１４８は、通信処理装置１２８を介してネットワーク経由により送信されてきた音声データ、または音声入力装置１３６を介して入力された音声データを認識する。一般に、音声認識機能とは、例えばコンピューターが人間による音声指示をテキストデータに変換することで、当該音声指示を識別および判断する機能である。他の局面において、音声認識処理装置１４８は、上記の方法とは別の公知の方法により音声を認識してもよい。

ある局面において、画像処理装置１３０および音声認識処理装置１４８は、当該処理を実行するように構成されたＡＳＩＣ（Application Specific Integrated Circuit）等の集積回路により実現されてもよい。他の局面において、上記構成要素は、ＦＰＧＡ（Field-Programmable Gate Array）等により実現されてもよいし、ＣＰＵ１２０がＲＯＭ１２４に記憶されたプログラムを実行することにより実現されてもよい。さらに他の局面において、上記構成要素は、専用の回路素子等により実現されてもよいし、同様の機能を提供する所謂クラウドサービス等によって実現されてもよい。

［機能構成］
図３および図４を参照して、画像形成装置１００の機能構成および画像処理機能について説明する。図３は、ある局面における画像形成装置１００の機能構成を表わすブロック図である。

画像形成装置１００は、音声認識処理部１５０と、候補機能選択部１５２と、画像取得部１５４と、領域判別処理部（領域区分部）１５５と、画像検証部１５６と、画像比較部１５８と、制御部１６０と、記憶部１６２と、入力部１６４と、画像処理部１６６と、出力部１６８とを備える。

音声認識処理部１５０は、画像形成装置の操作に関する音声指示を認識する。音声認識処理部１５０は、ユーザーから入力された音声による入力信号を画像形成装置１００において対応可能な命令に変換する。音声認識処理部１５０は、例えば、読み取る原稿の場所、カラーまたはモノクロのいずれで印刷するのか、動作、出力用紙サイズ、画像処理における補正値および補正対象、並びに出力部数等について、ユーザーからの音声指示に基づいて音声認識を行う。その後、音声認識処理部１５０は、上記情報を制御部１６０へ送信する。

入力部１６４は、ユーザーからの操作パネル装置１０１による入力および音声指示等を受け付ける。入力部１６４は、音声指示を音声データに変換し、制御部１６０へ当該音声データを送信する。ある局面において、入力部１６４は、入力装置１３２により、または音声入力装置１３６およびＡ／Ｄ変換装置１４０の組み合わせにより実現される。

音声認識処理部１５０は、音声指示が処理対象の画像に対する画像処理を含む場合に、画像形成装置１００が備える複数の画像処理機能から対応する機能を特定する。

例えば「明度を調整して」という音声指示が画像形成装置１００に与えられる場合、１種類の画像処理機能が指定されているので、音声認識処理部１５０は、画像処理機能を唯一に特定できる。この場合には、音声認識処理部１５０は、音声指示に含まれる、処理対象の画像に対する画像処理に関する情報を制御部１６０へ送信する。

音声認識処理部１５０は、画像処理機能を唯一に特定できない場合には、処理対象の画像に対する画像処理に関する情報を候補機能選択部１５２へ送信する。

候補機能選択部１５２は、音声認識処理部１５０が１つの画像処理機能を特定できない場合に、複数の画像処理機能からユーザーにより選択される可能性のある複数の候補機能を選択する。

画像取得部１５４は、制御部１６０からの指示に基づいて、画像読み取り装置１０２から又は通信処理装置１２８により、処理対象の画像を取得する。

画像取得部１５４が取得する画像は、画像読み取り装置１０２により読み取った原稿画像、パソコンおよびサーバー等の外部機器から外部ネットワークを介して送信される印字用の画像、ファクシミリの受信画像、本体記憶部１６２に記憶された画像、およびＵＳＢメモリ等の外部接続メモリ内の画像等のデータを含む。ある局面において、画像取得部１５４は、補助記憶装置１２６、通信処理装置１２８、または画像読み取り装置１０２等により実現される。

領域判別処理部１５５は、画像取得部１５４が取得した画像から、ＡＩ（Artificial intelligence）技術により予め決められた、またはユーザーにより指定された特定の領域を判別する。ＡＩ技術は、深層学習等の機械学習を用いたアルゴリズムによる領域判別の技術、例えばある種の物体が画像中のどこに存在するかを求める技術である物体検出の技術を含む。領域判別処理部１５５は、領域判別処理を行った後、判別した領域に関する情報および処理対象の画像を画像検証部１５６へ送信する。

領域判別処理部１５５が行う処理は、微分フィルタを用いることでエッジを検出し「文字領域」を判別する処理、および孤立点を検出し周期性と孤立点数を確認することで「網点領域」を判別する処理を含む。領域判別処理部１５５が行う処理は、非文字領域において、階調の変化度合いから「図形領域」と「写真領域」とを判別する処理、および階調のヒストグラム分布から「下地領域」を判別する処理を含む。

領域判別処理部１５５は、領域判別処理を行った後、判別した領域に関する情報および処理対象の画像を、画像検証部１５６へ送信する。

画像検証部１５６は、処理対象の画像に対して、候補機能選択部１５２が選択した複数の候補機能の各々に対する画像処理を実行することによって、複数の検証用画像を生成する。画像検証部１５６は、複数の検証用画像を画像比較部１５８へ送信する。

画像比較部１５８は、複数の検証用画像の各々を相互に比較し、候補機能選択部１５２が選択した複数の検証用画像のうち２個の検証用画像の組み合わせごとに、その違いの程度を示す評価値を算出する。画像比較部１５８は、算出した評価値を制御部１６０へ送信する。

上記評価値は、例えば２個の検証用画像のうち一方の画像における各画素の画素値と、他方の画像における対応する画素の画素値との差分に基づくものであってもよい。例えば、上記評価値は、２個の検証用画像のうち一方の画像における各画素の画素値と、他方の画像における対応する画素の画素値との差分の絶対値の最大値であってもよい。また、上記評価値は、画像比較部１５８が各画像をブロック単位に分割し、各ブロックごとに画素値の平均値を求めたときの、一方の画像における各ブロック内の画素値の平均値と、他方の画像における対応するブロック内の画素値の平均値との差分に基づくものであってもよい。

他の局面において、上記評価値は、２個の検証用画像の対応する画素間の色差に基づいてもよい。色差は、２つの色の間に定義される指標の一つであり、色空間内の対応する２点間の距離を含む。上記色空間は、ＲＧＢ（Red, Blue, Green）色空間、ＨＳＶ（Hue, Lightness, Value）色空間、ＨＬＳ（Hue, Lightness , Saturation）色空間、Ｌ＊ａ＊ｂ＊色空間等を含む。したがって、２個の検証用画像がＲＧＢ画像である場合には、上記評価値は、対応する画素間のＲＧＢ階調差に基づくものであってもよいし、ＲＧＢ色空間における距離に基づくものであってもよい。

制御部１６０は、画像形成装置１００の全体の動作を制御する。制御部１６０は、例えば画像読み取りジョブ、コピージョブ、メール送信ジョブ、画像処理ジョブ、および印刷ジョブ等の各種ジョブを制御する。ある局面において、制御部１６０は、ＣＰＵ１２０によって実現される。

記憶部１６２は、画像形成装置１００に予め定められた処理を実行させるための制御用プログラムおよびデータ等を記憶する。記憶部１６２は、画像形成装置１００において生成された画像を記憶し、また、画像読み取り装置１０２にて読み取られた画像を一時的に記憶する。記憶部１６２は、制御部１６０から受信したデータを記憶し、記憶部１６２にて保存されたデータは、制御部１６０により読み出される。記憶部１６２は、例えば、ＲＯＭ１２４、ＲＡＭ１２２、または補助記憶装置１２６等により実現される。

画像処理部１６６は、音声認識処理部１５０が１つの機能を認識した場合には、制御部１６０から受信した画像に対して、画像処理機能を実行する。また、画像処理部１６６は、ユーザーによって操作パネル装置１０１を介して画像処理の命令があった場合においても、処理対象の画像に対して画像処理機能を実行する。

図４は、画像処理部１６６が備える画像処理機能と、その機能の各々に対応する番号である機能番号との対応を表すリスト１１０の一例を示す図である。例えば「下地調整」の機能番号は「１」であり、「明度調整」の機能番号は「１０」である。他の局面において、画像処理部１６６は、図４に示される機能以外の機能を備えていてもよい。図４に示されるリスト１１０は、記憶部１６２において記憶されている。ある局面において、画像処理部１６６は、画像処理装置１３０によって実現される。

出力部１６８は、表示装置１３４に情報を表示し、画像の用紙その他の媒体に画像またはテキストデータ等を印刷し、外部に音声あるいは信号を出力する。ある局面において、出力部１６８は、表示装置１３４、音声出力装置１３８およびＤ／Ａ変換装置１４２、または画像出力装置１４６により実現される。

ある局面において、音声認識処理部１５０および候補機能選択部１５２は、音声認識処理装置１４８により実現される。

ある局面において、領域判別処理部１５５、画像検証部１５６、画像比較部１５８、および画像処理部１６６は、画像処理装置１３０により実現される。

［動作の具体例］
以下、図５〜図９を参照して、音声指示が与えられた場合における画像形成装置１００の具体的な動作について説明する。

図５（Ａ）は、ユーザーが「ＤＦにセットした原稿の写真を少し明るくして５部コピー。」という音声指示を画像形成装置１００に与えている一例を示す図である。図５（Ｂ）は、図５（Ａ）に示される音声指示に対する画像形成装置１００の処理内容を示す図である。

音声認識処理部１５０は、上記音声指示の「ＤＦ」というキーワードから、画像形成装置１００が読み取る原稿がＤＦ１０４にあるとを判断する。

また、上記音声指示において、画像形成装置１００が原稿をカラーで読み取るのか、またはモノクロで読み取るのかを示す情報が不足している。本実施形態においては、音声認識処理部１５０は、画像形成装置１００がデフォルトの設定であるＡＣＳ（Automatic Color Selection）機能を使用すると判断する。

ＡＣＳ機能とは、原稿がモノクロまたはカラーのいずれであるのかを自動的に判別する機能である。他の局面において、音声認識処理部１５０は、モノクロ若しくはカラーにて、またはユーザーによる設定に基づいて画像形成装置１００が原稿を読み取ると判断してもよい。

また、音声認識処理部１５０は、「コピー」という音声指示から、画像処理装置１３０がコピーの動作を行うことを判断する。

上記の指示が音声により画像形成装置１００に与えられた場合には、出力用紙サイズを示す情報が不足しているが、本実施形態においては、画像形成装置１００は、出力用紙サイズを原稿サイズに合わせる。他の局面において、画像形成装置１００は、他の情報を参考に出力用紙サイズを自動で決定してもよい。

また、音声認識処理部１５０は、「明るく」という音声指示から画像形成装置１００が「明るく」という言葉に対応する画像処理機能を実行することを認識する。しかし、この場合には、「明るく」という言葉に対応する複数の画像処理機能が存在し、音声認識処理部１５０は、１つの画像処理機能を特定することができない。

また、音声認識処理部１５０は、「少し」というテキストデータから、画像処理機能における処理の度合い、即ち補正値についてユーザーから指定があったと認識する。上記のような指示が音声により画像形成装置１００に与えられた場合には、具体的な補正値の情報が不足することになる。本実施形態においては、音声認識処理部１５０は、「少し」というテキストデータから予め定められた基準に従って、補正値を、例えば「＋１」と設定する。

他の局面において、音声認識処理部１５０は、例えば「少し」と同様の意味を持つ「ちょっと」等のテキストデータが含まれていた場合にも、上記予め定められた基準に従って、補正値を「＋１」と設定してもよい。

さらに他の局面において、音声認識処理部１５０は、ユーザーからの音声指示において画像処理機能における補正値に関して特に指示が無かった場合には、または「普通」というテキストデータが含まれていた場合等には、補正値を中程度に、例えば「＋２」と設定してもよい。

さらに他の局面において、音声認識処理部１５０は、音声指示において「かなり」、「凄く」、および「とても」等のようなテキストデータが含まれている場合には、補正値を大きく、例えば「＋３」と設定してもよい。

さらに他の局面において、音声認識処理部１５０は、『明るさを「＋１」』等のようにユーザーから補正値を数値により直接指定される場合には、その指定に応じて補正値を「＋１」と設定してもよい。

上記記載において、音声認識処理部１５０は、例えば「少し」という音声指示に対して補正値を「＋１」、「普通」という音声指示に対して補正値を「＋２」、「かなり」という音声指示に対して補正値を「＋３」と設定しているが、これは一例であって、設定の態様はこれに限られない。例えば、音声認識処理部１５０は、「かなり」という音声指示に対して、補正値を「＋４」と設定してもよい。

また、音声認識処理部１５０は、「写真」というテキストデータから、画像処理の補正対象が写真であると判断する。さらにまた、音声認識処理部１５０は、「５部」というテキストデータから、出力部数が５部であると判断する。

音声認識処理部１５０は、上記の処理を完了すると、音声認識処理部１５０から「ＤＦ」、「コピー」、「少し」、「写真」および「５部」という情報を制御部１６０へ送信する。また、音声認識処理部１５０は、「明るく」という情報から１つの機能を特定できなかったので、「明るく」というテキストデータを候補機能選択部１５２へ送信する。

図６を参照して、音声認識処理部１５０がユーザーの所望する画像処理機能を特定できない場合において候補機能選択部１５２が当該機能の候補を選択する方法の一例について説明する。図６は、画像形成装置１００が備える「明度調整」等の画像処理機能と、音声認識処理装置１４８によって得られたテキストデータとを結びつけるためのキーワードを含むデータテーブル１７０を示す図である。

候補機能選択部１５２は、音声認識処理部１５０が音声指示を変換したテキストデータが、データテーブル１７０に含まれるキーワードと一致するか否かを判断することで、ユーザーが所望している可能性がある候補機能を選択する。データテーブル１７０は、記憶部１６２に記憶されている。なお、データテーブル１７０は、一例であり、他の局面において、データテーブル１７０とは異なるデータテーブルが用いられていてもよい。さらに、他の局面において、候補機能選択部１５２は、機械学習などのＡＩ技術により音声指示に対応する画像処理の候補機能を認識してもよい。

候補機能選択部１５２は、「明るく」というキーワードから、候補機能が「明度調整」、「コピー濃度」（以下、「濃度調整」とも称する）、または「下地調整」のうちいずれかであることを判断する。上記各機能は、処理内容が異なるが、広義には画像を明るくする動作を行う。また、「下地調整」とは、処理対象の画像のうち少なくとも一部の領域について、例えば文字、写真、図形以外の、ユーザーにとって重要な情報が記載されていない「下地領域」について画像処理を行う機能である。

候補機能選択部１５２は、この場合には３種類の画像処理機能が存在し、１つの機能を決定することができないので、選択した画像処理機能を表す情報、即ち当該候補機能の機能番号である「１０」、「６」および「１」を制御部１６０へ送信する。また、このとき「下地調整」が候補機能の１つであるので、制御部１６０は、領域判別処理部１５５に「下地領域」を判別するように命令する。

以下、図７（Ａ）〜図７（Ｃ）を参照して、本実施形態における画像処理機能の一例である「明度調整」、「濃度調整」、および「下地調整」機能の入出力特性について説明する。

図７（Ａ）、図７（Ｂ）、および図７（Ｃ）は、それぞれ「明度調整」、「濃度調整」、および「下地調整」機能の入出力特性の一例を示す図である。上記の各図において、上記機能の各々において補正値が正であるときには、画像処理は図中の「＋」の入出力特性により行われる。また、補正値が負であるときには、画像処理は図中の「−」の入出力特性により行われる。図７（Ａ）〜図７（Ｃ）において、便宜的に入出力を百分率で表している。

図７（Ａ）において、横軸および横軸は、入出力画素の明度を表す。「明度調整」は、明度が「０」および「１００」の各々である入力画素に対しては、その画素値を変化させない。つまり「明度調整」は、例えばグレースケール画像において、対象の白と黒を変更せず、中間領域の明るさを変化させる機能である。「明度調整」は、この場合、白および黒の画素から構成される文字領域の明度を変化させない。

図７（Ｂ）において、横軸および縦軸は、入出力画素の濃度を表す。濃度調整は、例えばグレースケール画像において、対象の白を基準として全体の明るさを変化させる機能である。他の局面において、「濃度調整」は、図７（Ａ）に示される入出力特性のように白と黒の領域を変化させず、中間領域を変化させる機能であってもよい。

他の局面において、図７（Ｂ）において入出力画像がＲＧＢカラー画像である場合には、「濃度調整」における入出力は、赤（Ｒ）、緑（Ｇ）、および青（Ｂ）の各チャンネルごとの濃度値であってもよい。上記の場合には、画像検証部１５６は、ＲＧＢの各チャンネルごとに同じトーンカーブの入出力特性による画像処理を行ってもよいし、ＲＧＢの各チャンネルごとにそれぞれトーンカーブの異なる入出力特性による画像処理を行ってもよい。

図７（Ｃ）において、横軸および横軸は、「下地領域」における入出力画素の明度を表す。下地調整は、濃度調整とは逆に、対象の黒を基準として全体の明るさを変化させる機能である。

再び図５および図６を参照して、候補機能選択部１５２が選択する各機能と、音声認識処理部１５０において決定される補正値とは、互いに連動していてもよい。例えば、音声認識処理部１５０は、音声指示において「かなり」というキーワードがもし含まれていたならば、候補機能の１つである「明度調整」に対しては補正値を「＋３」と設定し、同じく候補機能の１つである「濃度調整」に対しては補正値を「＋４」と設定してもよい。

さらに他の局面において、ユーザーが「明るく」、「暗く」、「濃く」、または「薄く」等の、原稿の明るさを変更する指示を画像形成装置１００に与えた場合には、候補機能選択部１５２は、明度、濃度、下地、輝度、またはコントラストに影響を与える複数の機能を選択する。このとき、候補機能選択部１５２は、画像検証部１５６における画素値を明度値、濃度値、または輝度と設定するように制御部１６０に命令を送信する。

さらに他の局面において、ユーザーが、「くっきり」、「はっきり」、「シャープ」、「なめらかに」、または「ぼかす」等、例えば原稿画像における輪郭に影響を与える指示を画像形成装置１００に与えた場合には、候補機能選択部１５２は、「シャープネス」、「スムージング」、および「文字再現調整」等、ＭＴＦまたは周波数特性に影響を与える機能から複数の機能を選択する。このとき、候補機能選択部１５２は、画像比較部１５８においてエッジ量を用いて差分を算出する旨を表す情報を制御部１６０に送信してもよい。ここで、エッジ量は、隣接した画素値の階調差、即ち微分フィルタの出力値である。

さらに他の局面において、上記差分量は、候補機能選択部１５２が選択した機能について画像検証部１５６が生成する複数の検証用画像の各々をフーリエ変換することによって求めた周波数特性差であってもよい。

さらに他の局面において、ユーザーが、「鮮やかに」、「赤く」、「赤色で再現」等の、原稿の色に影響を与える指示を画像形成装置１００に与えた場合には、候補機能選択部１５２は、複数の画像処理機能から色相または彩度等に影響を与える複数の機能を選択する。このとき、候補機能選択部１５２は、画像検証部１５６における画素値として、画像の色相または彩度のうち少なくとも一つを用いるように制御部１６０に命令を送信してもよい。他の局面において、候補機能選択部１５２は、画像比較部１５８において算出する差分として色差を用いるように制御部１６０に命令を送信してもよい。

領域判別処理部１５５は、制御部１６０からの命令に基づいて、処理対象の画像を「下地領域」と「下地領域以外の領域」とに区分する。領域判別処理部１５５は、区分した領域に関する情報および処理対象の画像を、画像検証部１５６へ送信する。

画像検証部１５６は、処理対象の画像に対して「明度調整」、「濃度調整」および「下地調整」をそれぞれ実行することによって、３種類の検証用画像を生成する。なお、このとき「下地調整」後の検証用画像は、「下地領域」について画像処理がされた領域と「下地領域以外の領域」とからなる検証用画像である。画像検証部１５６は、３種類の検証用画像を画像比較部１５８へ送信する。

画像比較部１５８は、３種類の検証用画像を相互に比較するとき、３種類の検証用画像のうち１つの検証用画像における各画素の画素値と、当該画素に対応する３種類の検証用画像のうち他の検証用画像の画素値との差分を算出する。

しかし、画像比較部１５８が２つの検証用画像の対応する画素ごとの差分を算出すると、メモリ消費量が多くなる場合も考えられる。そのため、画像比較部１５８は、以下のような方法により２つの検証用画像を比較してもよい。

そこで、図８を参照して、画像比較部１５８が検証用画像の各々をブロック単位に分割し、各ブロックごとに画素値の平均値を算出することにより、複数の検証用画像の各々を相互に比較する処理について説明する。図８は、画像比較部１５８が検証用画像の各々をブロック単位に分割し、各ブロックごとに画素値の平均値を算出することにより、複数の検証用画像の各々を相互に比較する処理を示す図である。

画像比較部１５８は、図８に示されるように、複数の検証用画像の各々、例えば「明度調整」後の検証用画像４１０と「下地調整」後の検証用画像４４０とをブロック単位に分割し、ブロック分割後の検証用画像４２０，４５０を生成する。その後、画像比較部１５８は、ブロック分割後の検証用画像４２０，４５０におけるブロックごとの明度値の平均値４３０，４６０を算出する。以下、「ブロックごとの明度値の平均値」を「ブロックごとの明度値」とも称する。

他の局面において、画像比較部１５８は、明度値に限らず濃度値、ＲＧＢ各チャンネルの階調値、色相、彩度、それらのエッジ量、または各画像のフーリエ変換から求めた、空間周波数特性若しくはＭＴＦ等の各ブロックごとの平均値を算出してもよい。あるいは、エッジ量は、隣接するブロック同士のエッジ量であってもよい。

さらに他の局面において、画像比較部１５８は、複数の検証用画像の各々の解像度を下げる処理を実行し、当該処理の後の検証用画像の各々において対応する画素ごとの画素値の差分を算出することで、複数の検証用画像の各々を相互に比較してもよい。

これにより、画像比較部１５８は、後述する複数の検証用画像の各々を比較するときのデータ処理量を削減できる。

画像比較部１５８は、「明度調整」後の検証用画像４１０と、「濃度調整」後の検証用画像と、「下地調整」後の検証用画像４４０とを２個の検証用画像の組み合わせごとに相互に比較する。

例えば、画像比較部１５８は、「明度調整」後のブロック分割後の検証用画像４２０と、「下地調整」後のブロック分割後の検証用画像４５０とを相互に比較し、「明度調整」後のブロックごとの明度値４３０と、「下地調整」後のブロックごとの明度値４６０との差分４７０を算出する。なお、画像比較部１５８は、他の検証用画像の組み合わせについても同様に差分を算出する。

差分４７０においては、最大でも明度差が５階調程度であり、人間の目で判断できる階調差が３階調以上である場合が多いことを考えると、５階調はバラツキの範囲と考えられる。以下、「閾値」を「６」として、議論を進める。

制御部１６０は、差分４７０における各ブロックの全ての絶対値が「６」未満であることから、「明度調整」および「下地調整」後の検証用画像は、実質的に同じであると判断する。同様に、制御部１６０は、他の検証用画像の組み合わせについても同様に比較した結果、３種類の検証用画像が実質的に同じであると判断したとして以下議論を進める。他の局面において、画像検証部１５６が、解像度を下げた検証用画像の各々を相互に比較する場合にも、検証用画像の対応する画素ごとに画素値の差分を算出する場合にも、上記の議論は適用される。

図８において、「明度調整」後のブロックごとの明度値４３０および「下地調整」後のブロックごとの明度値４６０における分割されたブロックのうち上から４段目までの領域については、「明度調整」後も「下地調整」後も明度値の差が殆どない領域が多い。そのため、「明度調整後」の検証用画像と、「下地調整」後の検証用画像とを比較したときに、階調の変化している領域が全体として実質的に一番下の段だけであり、その領域は画像全体の１／５程度である。よって、「下地調整」後と「明度調整」後の見た目の印象はほぼ変わらない。

以下、図９（Ａ）および図９（Ｂ）を参照して、上記の例における対象原稿の特性について説明する。図９（Ａ）は、明度調整前（原稿）の検証用画像のブロックごとの明度値を示す図である。図９（Ｂ）は、明度調整前の検証用画像のブロックごとの明度値と、明度調整後の検証用画像のブロックごとの明度値との差分を示す図である。

上記の例における原稿画像においては、上から３段目までのブロックにおいては文字領域が多い領域である。そのため、中間階調を持つ領域を変化させる機能である「明度調整」、「下地調整」、または「濃度調整」は、当該画素を変化させないことがある。このように、一般に、画像処理は、対象原稿の特性によって画像処理後の結果が変化する。その為、上記の例においては、複数の候補機能の各々について検証用画像を作成してシミュレーションを行うことにより、いずれの候補機能を選択しても、ユーザーにとっては全体として得られる結果は同じであることが分かる。

なお、「閾値」は、ユーザーにより予め定められていてもよいし、音声指示に基づいて音声認識処理部１５０が決定した補正値に応じて決められてもよい。例えば、画像処理における補正量が小さいと推定される場合は、検証用画像の各々を相互に比較したときに細かな差があるときに、ユーザーがその差を気にする場合も考えられる。そのため、「閾値」を小さく設定するようにしてもよい。一方、補正値が大きいと推定される場合は、検証用画像の各々を相互に比較したときに細かな画質の差があったとしても、ユーザーが気にしない場合があると思われるため、「閾値」を大きく設定するようにしてもよい。

［制御構造］
以下、図１０および図１１を参照して、画像形成装置１００の制御構造について説明する。図１０は、音声指示に基づいてユーザーが所望する画像処理機能を特定するために画像形成装置１００が実行する処理の一部を示すフローチャートである。図１１は、音声指示に基づいて制御部１６０が機能を特定する処理（図１０のステップＳ３００）を示すフローチャートである。

図１０に示されるように、ステップＳ２１０において、音声認識処理部１５０は、ユーザーから音声指示が入力されたと認識した場合には（ステップＳ２１０でＹＥＳ）、ユーザーからの音声を音声データに変換する。そうでない場合には（ステップＳ２１０でＮＯ）、音声認識処理部１５０は、音声指示が入力されるまで待機する。

ステップＳ２１５において、制御部１６０は、「ＦＬＡＧ＝０」と設定する。

ステップＳ２２０において、音声認識処理部１５０は、ユーザーの音声指示の内容を判断する。音声認識処理部１５０は、画像処理機能を音声指示から唯一に特定できた場合には、特定した画像処理機能の機能番号を制御部１６０へ送信する。そうでない場合には、音声認識処理部１５０は、候補機能選択部１５２へ当該音声指示に対する画像処理に関するテキストデータを送信する。

ステップＳ２２５において、制御部１６０は、入力された音声から機能を特定できる場合には「ＦＬＡＧ＝１」と設定する。制御部１６０は、そうでない場合には「ＦＬＡＧ＝０」に設定する。音声認識処理部１５０は、設定した「ＦＬＡＧ」の値を制御部１６０へ送信する。

ステップＳ２３０において、制御部１６０は、「ＦＬＡＧ＝１」である場合には（ステップＳ２３０でＹＥＳ）、処理をステップＳ２４０に進める。そうでない場合には（ステップＳ２３０でＮＯ）、制御部１６０は、機能を特定するために処理をステップＳ３００に進める。

ステップＳ２４０において、制御部１６０は、特定された機能に基づいて印刷を実行する。

ステップＳ２４５において、制御部１６０は、他の印刷原稿があるか否かを判断する。この判断は、例えば、ステップＳ２２０において音声認識処理部１５０が音声指示の内容から判断した出力部数に基づいて行なわれる。他の印刷原稿がある場合には（ステップＳ２４５でＹＥＳ）、制御部１６０は処理をステップＳ２３０に戻す。そうでない場合には（ステップＳ２４５でＮＯ）、制御部１６０は一連の処理を終了する。

図１１を参照して、ステップＳ３１０において、候補機能選択部１５２は、音声指示に基づいたテキストデータ（ステップＳ２２０）から機能の候補を選択する。候補機能選択部１５２は、選択した機能番号を制御部１６０へ送信する。

ステップＳ３１５において、画像取得部１５４は、制御部１６０からの命令に基づいて処理対象の画像を取得する。制御部１６０は、画像取得部１５４が取得した処理対象の画像を領域判別処理部１５５へ送信する。領域判別処理部１５５は、処理対象の画像に対して領域判別処理を行った後に、または処理を行なわずに、処理対象の画像を画像検証部１５６へ送信する。制御部１６０は、候補機能選択部１５２から受信した機能番号を画像検証部１５６へ転送する。

ステップＳ３２０において、画像検証部１５６は、画像取得部１５４が取得した画像を候補機能選択部１５２が選択した機能候補ごとに画像処理し、複数の検証用画像を生成する。その後、画像検証部１５６は、複数の検証用画像を画像比較部１５８へ送信する。

ステップＳ３２５において、画像比較部１５８は、検証用画像を相互に比較し、差分を算出する。

ステップＳ３３０において、制御部１６０は、算出した全ての差分が「閾値」未満であるか否かを判断する。

ステップＳ３３０において、制御部１６０は、算出した全ての差分が「閾値」未満であると判断した場合には（ステップＳ３３０でＹＥＳ）、処理をステップＳ３３２へ進める。制御部１６０は、この場合には、複数の検証用画像が実質的に同じであると判断することになる。そうでない場合には（ステップＳ３３０でＮＯ）、制御部１６０は、処理をステップＳ３３５に進める。制御部１６０は、この場合には、複数の検証用画像が実質的に同じではないと判断していることになる。

ステップＳ３３２において、制御部１６０は、候補機能選択部１５２が選択した複数の候補機能からいずれか１つの画像処理機能を自動的に特定する。そのとき、候補機能から１つの画像処理機能を自動的に選択したという情報をユーザーに通知するためにパネルに表示し、動作を継続してもよい。その後、制御部１６０は、処理をメイン処理に戻す。

ステップＳ３３５において、制御部１６０は、機能を特定するための追加情報をユーザーに要求する。追加情報は、画像形成装置１００から音声若しくは操作パネル装置１０１またはその両方によりユーザーへ問い合わされる情報である。ユーザーは、制御部１６０から追加情報を要求されたことに対して、入力部１６４に追加情報を入力する。入力部１６４は、ユーザーから入力された追加情報を制御部１６０へ送信する。

ここで、図１２を参照して、制御部１６０が追加情報をユーザーに要求する場合の表示画面の一例であるプレビュー表示画面について以下に説明する。図１２は、制御部１６０が候補機能ごとの画像処理結果をユーザーに対してプレビュー表示する画面の一例を示す図である。ユーザーは、プレビュー表示からどの機能を実行するか決めてもよい。例えば、ユーザーは、原稿画像６００に画像処理機能が実行された、「明度調整」後の検証用画像６１０と、「濃度調整」後の検証用画像６２０と、「下地調整」後の検証用画像６３０のうち所望の１つの画像をタッチしてもよい。ユーザーは、２つ以上の候補機能が存在した場合でも、このようにして、画像形成装置１００がどの画像処理機能を実行するか決定する。

図１１を再び参照して、ステップＳ３３５において、制御部１６０は、機能を特定するための追加情報をユーザーに要求する。

ステップＳ３４０において、制御部１６０は、ステップＳ３３５においてユーザーから音声若しくは表示装置１３４またはそれらの両方により入力された追加情報の内容を判断する。例えば、ステップＳ３３５においてユーザーから音声指示がされた場合には、その後、制御部１６０は、当該音声指示に対して音声認識処理部１５０および候補機能選択部１５２が選択した機能を判断する。制御部１６０は、音声認識処理部１５０が当該音声から生成したテキストデータから候補機能選択部１５２が選択した機能の機能番号に基づいてこの判断を行う。

ステップＳ３４５において、制御部１６０は、複数の候補機能から１つの機能を特定できるか否かを判断する。制御部１６０は、１つの機能を特定できると判断した場合には（ステップＳ３４５でＹＥＳ）、処理をステップＳ３４８に進める。そうでない場合には（ステップＳ３４５でＮＯ）、制御部１６０は、処理をステップＳ３３５に戻す。このとき、制御部１６０は、機能を特定できない場合には、機能を特定するまで追加情報をユーザーに要求する。

ステップＳ３４８において、制御部１６０はユーザーが所望する機能を特定する。

ステップＳ３５０において、制御部１６０は、「ＦＬＡＧ＝１」と設定し、処理を図１０におけるメイン処理へ戻す。

以下、図１０および図１１を再び参照して「ＦＬＡＧ」を用いた制御についてさらに詳しく説明する。

制御部１６０は、ステップＳ２２５において音声指示に基づいて１つの機能を特定できたために「ＦＬＡＧ＝１」と設定した場合には、ステップＳ２３０においてＹＥＳと処理を進める。その後、制御部１６０は、ステップＳ２４０において、ステップＳ２２５にて特定した機能を実行する。制御部１６０は、それ以降、他の印刷原稿がある（ステップＳ２４５においてＹＥＳと判断する）限り、ステップＳ２４５→ステップＳ２３０→ステップＳ２４０の処理を繰り返す。

制御部１６０は、ステップＳ２２５において音声指示に基づいて１つの機能を特定できないために「ＦＬＡＧ＝０」と設定した場合には、ステップＳ２３０においてＮＯと処理を進める。その後、制御部１６０は、ステップＳ２３０→ステップＳ３００→ステップＳ３１０→…（中略）…→ステップＳ３３０と処理を進める。このとき、制御部１６０がステップＳ２２５において設定した通り「ＦＬＡＧ＝０」のままである。

制御部１６０は、ステップＳ３３０において「ＮＯ」と判断した場合には、ステップＳ３３５→…（中略）…→ステップＳ３５０にて追加情報をユーザーに要求して機能を特定し、「ＦＬＡＧ＝１」と変更する。制御部１６０は、処理をメイン処理に戻した後は、ステップＳ２４０において、ステップＳ３４８にて特定した機能を実行する。制御部１６０は、それ以降に他の印刷原稿がある（ステップＳ２４５にてＹＥＳと判断する）限り、「ＦＬＡＧ＝１」であることから、ステップＳ２４５→ステップＳ２３０→ステップＳ２４０の処理を繰り返す。すなわち、制御部１６０は、ユーザーに追加情報を一度要求して機能を特定した以降は、ユーザーに追加情報を再度要求することなく、特定した当該機能を、後続する他の印刷原稿に対しても実行する。

一方、制御部１６０は、ステップＳ３３０において「ＹＥＳ」と判断した場合には、ステップＳ３３２にて１つの機能を自動的に特定した後に処理をメイン処理に戻し、当該機能をステップＳ２４０にて実行する。制御部１６０は、次の印刷原稿がある（ステップＳ２４５にてＹＥＳと判断する）ときには、ステップＳ２３０に処理を進める。このとき、制御部１６０は、以前にステップＳ２２５にて「ＦＬＡＧ＝０」と設定したことから、ステップＳ２３０→ステップＳ３００→ステップＳ３１０→…（中略）…→ステップＳ３３０まで処理を進め、再び判断を行うことになる。

つまり、制御部１６０は、ステップＳ３３０にて「ＹＥＳ」と判断し、かつ他の印刷原稿がある（ステップＳ２４５にてＹＥＳと判断する）限り、ステップＳ３３０→ステップＳ３３２→ステップＳ２４０→ステップＳ２４５→ステップＳ２３０→ステップＳ３００→ステップＳ３１０→…（中略）…→ステップＳ３３０の処理を繰り返す。このとき、制御部１６０は、ステップＳ３３２にて自動的に特定した機能をステップＳ２４０にて実行する。すなわち、制御部１６０は、原稿データが連続して入力される場合には、音声認識処理部１５０がステップＳ２２５において機能を特定できなかったとき、ユーザーに追加情報を要求することがあるまで、原稿一枚ごとにステップＳ３３０における判断を行う。

以上のように、制御部１６０は、「ＦＬＡＧ」を用いた制御により、「ＦＬＡＧ＝０」である間は対処の原稿ごとにステップＳ３３０における判断を行う。それに対して、制御部１６０は、一度「ＦＬＡＧ＝１」と設定した以降には、その際に特定した機能を後続する他の印刷原稿に対しても実行することで、対処の原稿ごとに追加情報をユーザーに要求するという手間を省くことができる。

［実施形態１の効果］
従来のＭＦＰにおいては、ユーザーからの音声指示に対して複数の候補機能が存在した場合には、ＭＦＰがどの機能を実行すべきかユーザーに問い合わせる必要があった。しかし、ユーザーは、多くの場合、ＭＦＰが問い合わせた機能の各々の違いについて理解しておらず、ＭＦＰはそれらの違いをユーザーに説明する必要があり、複数の候補機能から１つの機能を絞り込むことに非常に時間が掛かっていた。また、従来のＭＦＰは、ユーザーが選択した画像処理機能を実際に実行しないと当該機能による結果が分からなかった。そのため、対象原稿が各画像処理の特徴を反映しにくい特性となっており、どの機能を選択してもＭＦＰの画像処理結果がほぼ同じであったとしても、ＭＦＰからユーザーへの問い合わせにより時間が無駄にかかっていた。しかし、それぞれの機能の実行後の結果に違いが無いのであれば、ＭＦＰは、それぞれの候補機能のうちいずれかを実行するのかをユーザーに問い合わせなくてもよい。つまり、ＭＦＰは、候補選択からランダムに機能を選択しても、実用上問題は生じない。

これに対して、ある実施形態に従う画像形成装置１００は、ユーザーからの音声指示に対して候補機能が複数存在する場合には、事前に画像処理の結果をシミュレーションすることで、画像形成装置１００からユーザーへの無駄な問い合わせを無くすことができる。そのため、本発明によりユーザーの負担を軽減することが可能となり、音声認識機能を備えるＭＦＰの利便性を向上させることができる。

［変形例１］
図１１および図１３を参照して、本実施形態の変形例１について説明する。本変形例１においては、制御部１６０が候補機能から１つの機能を自動的に選択した場合にユーザーに提示する表示画面が、前述の実施形態と異なる。図１３は、制御部１６０が自動選択した機能、および当該機能における補正値を推奨設定として、当該設定で動作を継続してよいかユーザーに許可を求める表示画面の一例を示す図である。

実施形態１においては、制御部１６０は、図１１におけるステップＳ３３２にて、候補機能選択部１５２が選択した複数の候補機能から１つの機能を自動的に選択したという情報をユーザーに通知するためにパネルに表示し、動作を継続していた。

これに対して、変形例１においては、制御部１６０は、図１１におけるステップＳ３３２の後に動作を継続せずに、ユーザーに当該機能を実行してもよいか一度確認を求めるステップをステップＳ３３２の処理の後に実行し得る。

より具体的には、制御部１６０は、図１３に示される表示画面５００において、ユーザーからの音声指示に基づいて選択した機能が「明度調整」であり、当該機能における補正値が「＋１」である設定により動作を継続してよいか否かを問い合わせる確認メッセージ５０２を表示して、ユーザーに許可を求める。ユーザーは、当該設定に同意した場合にはボタン５０４をタッチして動作を継続させ、同意しない場合にはボタン５０６をタッチすることで設定をキャンセルしてもよい。

［変形例１の効果］
本変形例１に係る制御部１６０は、ユーザーからの音声指示が複数の候補機能に対応し、当該複数の候補機能のうちどの機能を実行しても実用上問題はないと判断したときにも、ユーザーに実行する機能について一度確認を求める。このようにすると、ユーザーが所望する画像処理を確実に実現することができる。

［変形例２］
以下、図１１および図１４を参照して、変形例２について説明する。変形例２においては、制御部１６０が機能を特定するための追加情報をユーザーに要求する場合の表示画面（ステップＳ３３５）が、前述の実施形態１の表示画面と異なる。図１４は、ステップＳ３３５において制御部１６０が表示する、候補機能の各々についての設定画面の一例を示す図である。

実施形態１においては、制御部１６０は、ステップＳ３３５にて機能を特定するための追加情報をユーザーに要求する場合には、複数の検証用画像をユーザーにプレビュー表示し、ユーザーは、当該プレビュー表示からどの機能を実行するか決めていた。

これに対して、変形例２においては、制御部１６０は、ステップＳ３３５において機能を特定するための追加情報をユーザーに要求する場合には、実施形態１の画面とは異なる種類の画面をユーザーに表示する。

より具体的には、図１４においては、制御部１６０は、「明度調整」についての設定画面５１０を表示している。ユーザーは、画面を例えばスワイプすることにより「濃度調整」および「下地調整」などの他の候補機能についての設定画面を表示してもよい。他の局面において、制御部１６０は、全ての候補機能についての設定画面を同時に表示画面５００に表示してもよい。

設定画面５１０において、ユーザーは、「明度調整」をさらに実行する場合には、ボタン５１６，５１８，５２０，５２２，および５２６等にタッチすることより明度を調整し得る。そして、ユーザーは、ボタン５１２または５１４等をタッチすることより調整を決定またはキャンセルし得る。なお、他の機能、例えば「濃度調整」および「下地調整」についても同様である。

［変形例２の効果］
ユーザーからの音声命令が２つ以上の候補機能に対応し、複数の検証用画像が実質的に同一ではない場合にも、ユーザーは、当該候補機能および当該候補機能における補正値を詳細に設定することができ、ユーザーが所望する画像を実現することができる。

［変形例３］
以下、図１１を再び参照して実施形態１の変形例３について説明する。変形例３に従う画像形成装置１００の制御構造は、実施形態１に従う画像形成装置１００の制御構造と異なる。

図１１に示されるフローチャートにおけるステップＳ３３０にて、制御部１６０は、複数の検証用画像から算出した全ての差分が「閾値」未満ではない場合には、機能を特定するための追加情報をユーザーに要求していた。

しかし、図１１におけるステップＳ３００の分岐がＮＯであっても、複数の検証用画像のうちの１つと当該検証用画像を除く他の検証用画像の１つとが実質的に同じである場合も考えられる。この場合には、制御部１６０は、それらの実質的に同じ検証用画像に対応する機能同士を同じグループにおける同一の機能として扱う。その結果、ステップＳ３３５において機能を特定するための追加情報をユーザーに要求するときに、ユーザーによる選択の対象となる候補機能の数を減らすこともできる。

例えば、図１１のステップＳ３３０において「明度調整」、「濃度調整」、および「下地調整」による３種類の検証用画像のうち２つから算出した全ての差分が「閾値」未満ではないが（ステップＳ３３０においてＮＯ）、例えば「明度調整」後の検証用画像と「濃度調整」後の検証用画像との差分が「閾値」未満である場合があり得る。つまり、この場合において、「明度調整」後の検証用画像と「下地調整」後の検証用画像との差分、および「濃度調整」後の検証用画像と「下地調整」後の検証用画像との差分が「閾値」以上である。

上記の場合には、３種類の検証用画像の全てが互いに同じではないが、制御部１６０は、「明度調整」および「濃度調整」後の画像が実質的に同一であると判断している。そこで、制御部１６０は、ステップＳ３３５以降の処理において、「明度調整」および「濃度調整」を同じグループ（ここでは「グループＡ」と称する）における同一の機能として扱う。制御部１６０は、グループＡ内の代表的な機能（例えば「明度調整」）を自動で選択し、「グループＡの機能」および「下地調整」の２つの候補機能のうちいずれを選択するかについての追加情報をユーザーに要求してもよい。ここで、グループＡ内の代表的な機能は、「明度調整」であっても、「濃度調整」であってもよい。

同様に、例えば候補機能選択部１５２が「機能ａ」、「機能ｂ」、「機能ｃ」、「機能ｄ」、「機能ｅ」、「機能ｆ」、および「機能ｇ」の７種類の候補機能を選択したとする。ここで、制御部１６０は、「機能ａ」および「機能ｂ」が実質的に同じ機能とみなせる場合に、これらの機能を「グループＡの機能」とグループ化してもよい。制御部１６０は、同様に「機能ｃ」および「機能ｄ」が実質的に同じ機能とみなせる場合には、これらの機能を「グループＢの機能」とグループ化してもよい。制御部１６０は、同様に「機能ｅ」、「機能ｆ」、および「機能ｇ」が実質的に同じ機能とみなせる場合には、これらの機能を「グループＣの機能」とグループ化してもよい。上記の場合には、制御部１６０は、ステップＳ３３５以降の処理において「機能ａ」、「機能ｂ」、「機能ｃ」、「機能ｄ」、「機能ｅ」、「機能ｆ」、および「機能ｇ」の７種類の機能のうちから１つの機能を特定するための追加情報をユーザーに要求しなくてもよい。すなわち、制御部１６０は、「グループＡの機能」「グループＢの機能」「グループＣの機能」の３つのグループの機能のうちから１つのグループの機能を特定するための追加情報をユーザーに要求しても、実用上問題は生じない。

［変形例３の効果］
ユーザーからの音声命令が複数の候補機能に対応する場合、複数の検証用画像のうちの一部が実質的に同一であるときには、当該実質的に同一である検証用画像に対応する候補機能を同じ機能として扱うことで、ユーザーに要求する追加情報を減らすことができる。その結果、ユーザーにとって当該追加情報に対して応答する負担が少なくなるので、利便性の低下が抑制され得る。

＜実施形態２＞
次に、実施形態２について説明する。実施形態２に従う画像形成装置１００においては、画像検証部１５６が、候補機能が最も影響を与える領域のみに画像処理を行う点で、前述の実施形態に係る画像形成装置１００と異なる。なお、実施形態２における画像形成装置１００のハードウェア構成は、実施形態１における画像形成装置１００のハードウェア構成と同様であるため、これらの説明を繰り返さない。また、前述の処理と同じ処理には同一のステップ番号を付してある。したがって、同じ処理の説明は繰り返さない。

実施形態２においては、領域判別処理部１５５は、候補機能選択部１５２が選択した機能が最も影響を与える領域とそれ以外の領域とに処理対象の画像を区分する。この場合には、領域判別処理部１５５は、処理対象の画像に対して複数の候補機能の処理を実行したときに、元の処理対象の画像に対する変化が他の領域に比べて大きい領域を、候補機能が最も影響を与える領域として設定する。

［制御構造］
図１０、図１１および図１５を参照して、実施形態２における画像形成装置１００の制御処理の一部について説明する。図１５は、実施形態２に従う画像形成装置１００が実行する処理の一部を示すフローチャートである。

実施形態２におけるメイン処理は、図１０に示される処理と同じであるので、詳細な説明は繰り返さない。実施形態２におけるステップＳ３００における処理（図１５）は、図１１に示される処理と比べて、ステップＳ３１７およびステップＳ３１８の処理が追加されている点で異なる。

ステップＳ３１０において、候補機能選択部１５２は、音声指示に対応する機能の候補を選択する。

ステップＳ３１５において、画像取得部１５４は、制御部１６０からの命令に基づいて処理対象の画像を取得する。制御部１６０は、画像取得部１５４が取得した処理対象の画像を領域判別処理部１５５へ送信する。

ステップＳ３１７において、領域判別処理部１５５は、画像取得部１５４が取得した画像の対象となる領域を判別する。すなわち、領域判別処理部１５５は、候補機能選択部１５２により選択された機能が最も影響を与える領域を判別する。その後、領域判別処理部１５５は、処理対象の画像と判別した領域の情報とを画像検証部１５６へ送信する。

ステップＳ３１８において、画像検証部１５６は、領域判別処理部１５５が判別した領域についてのみ候補機能ごとに画像処理を実行し、複数の検証用画像を作成する。画像検証部１５６は、作成した複数の検証用画像を画像比較部１５８へ送信する。この場合、処理時間短縮のために、画像比較部１５８は、複数の検証用画像について領域判別処理部１５５が判別した領域についてのみ比較してもよい。

［動作の具体例］
以下、画像検証部１５６が、候補機能が最も影響を与える領域のみに画像処理を行う場合の動作の具体例について説明する。また、この具体例では、図５に示される音声指示が与えられる場合が例示されるが、音声指示はこれに限られない。

候補機能選択部１５２は、ユーザーの音声指示が「明るく」というキーワードを含むことから「明度調整」、「濃度調整」、および「下地調整」を候補機能として選択したとする。候補機能選択部１５２は、上記の機能の機能番号を制御部１６０へ送信する。制御部１６０は、「下地調整」が候補機能の１つであるので、領域判別処理部１５５に「下地領域」を判別するように命令する。

ここで、「明度調整」、「濃度調整」、および「下地調整」は、画像全体のうち「白」または「黒」の文字のみが印刷された文字領域等を変化させず、中間階調を持つ画像領域を変化させる画像処理機能である。そのため、画像検証部１５６は、例えばそのような文字領域に対して当該画像処理を実行しても、当該領域は変化しない。このとき、画像検証部１５６は、処理対象の画像に対して当該機能が最も影響を与える領域、すなわち中間階調を持つ画像領域についてのみ画像処理を行ってもよい。

そこで、本実施形態に従う領域判別処理部１５５は、画像取得部１５４が処理対象の画像を取得した後、処理対象の画像を、中間階調を持つ画像領域とその他の領域とに区分する。また、この場合には「下地調整」が候補機能の１つであるので、領域判別処理部１５５は、処理対象の画像を「下地領域」と「下地領域以外領域」に区分する。

他の局面において、領域判別処理部１５５は、候補機能選択部１５２が選択した機能が色相または彩度に影響を与える機能である場合には、画像取得部１５４が処理対象の画像を取得した後、当該処理対象の画像をカラー画像領域とその他の領域とに区分する。

さらに他の局面において、領域判別処理部１５５は、候補機能選択部１５２が選択した機能がコントラストに影響を与える機能である場合には、画像取得部１５４が処理対象の画像を取得した後、当該処理対象の画像を階調が一定のダイナミックレンジを持つ画像領域とその他の領域とに区分する。

なお、コントラストとは、明度または輝度のヒストグラムの分布の広がりのことである。例えばコントラストが高い画像は、ヒストグラムが広い範囲に分布し、画像中の明暗差が大きい画像である。一方、コントラストが低い画像は、ヒストグラムが狭い範囲に分布し、画像中の明暗差が小さい画像である。ダイナミックレンジとは、画像における最小画素値と最大画素値との比である。

さらに他の局面において、候補機能選択部１５２が選択した機能がＭＴＦまたは周波数特性に影響を与える機能である場合には、画像取得部１５４が処理対象の画像を取得した後、領域判別処理部１５５は、当該処理対象の画像を一定以上の高い周波数特性を持つ画像領域とその他の領域とに区分する。

さらに他の局面において、候補機能選択部１５２が選択した機能が文字再現調整（図６）に影響を与える場合には、画像取得部１５４が処理対象の画像を取得した後、領域判別処理部１５５は、当該処理対象の画像を文字領域とその他の領域とに区分する。領域判別処理部１５５は、処理対象の画像と区分した領域の情報とを画像検証部１５６へ送信する。

その後、画像検証部１５６は、処理対象の画像に対して、「明度調整」または「濃度調整」に対しては中間階調を持つ画像領域のみに対して、「下地調整」については下地領域のみに対して画像処理を行い、複数の検証用画像を作成する。

画像比較部１５８は、画像検証部１５６が生成した複数の検証用画像の各々を相互に比較する。以降の処理については、実施形態１と同じであるので、説明を繰り返さない。

［実施形態２の効果］
以上詳述したように、実施形態２に係る画像形成装置１００によれば、画像検証部１５６は、候補機能が最も影響を与える領域のみに基づいて複数の検証用画像を作成することで、メモリの消費量を削減することができる。その結果、画像形成装置１００の処理速度が向上し得る。

＜実施形態３＞
以下、実施形態３について説明する。実施形態３に従う画像形成装置１００は、領域判別処理部１５５がユーザーにより指定された特定の領域を判別する点において、前述の実施形態に従う画像形成装置と異なる。一例として、ユーザーによる音声指示が特定の領域に対する画像処理を含む場合における画像形成装置１００の動作について説明する。例えば、ユーザーが人の顔、海、森、棒グラフ等の言葉で判別可能な領域を指定した場合が本実施形態に該当する。なお、実施形態３の画像形成装置１００のハードウェア構成は、前述の実施形態と同様であるので、これらの説明を繰り返さない。また、前述の処理と同じ処理には同一のステップ番号を付してある。したがって、同じ処理の説明は繰り返さない。

［制御構造］
実施形態３に従う領域判別処理部１５５は、処理対象の画像を、ユーザーにより指定された特定の領域と、その他の領域とに区分する。また、画像検証部１５６は、処理対象の画像のユーザーにより指定された領域に対してのみ複数の候補機能の処理をそれぞれ実行することによって複数の検証用画像を生成する。画像比較部１５８は、当該複数の検証用画像の各々を相互に比較する。

そこで、図１０および図１５を参照して、実施形態３における画像形成装置１００の制御構造について説明する。

ステップＳ２１０において、音声認識処理部１５０は、ユーザーから音声指示が入力されたか否かを判断する。音声認識処理部１５０は、ユーザーから音声指示が入力されたと認識した場合には（ステップＳ２１０でＹＥＳ）、処理をステップＳ２１５に進める。そうでない場合には（ステップＳ２１０でＮＯ）、音声認識処理部１５０は音声が入力されるまで待機する。

ステップＳ２２０において、音声認識処理部１５０は、ユーザーの音声指示の内容を判断して、特定の領域のみについて画像処理の指示があることを認識し、その旨を制御部１６０へ送信する。制御部１６０は、音声認識処理部１５０から受信した情報を、領域判別処理部１５５へ転送する。

音声認識処理部１５０は、画像処理機能を音声指示から唯一に特定できた場合には、特定した画像処理機能を表わす番号を制御部１６０へ送信する。そうでない場合には、音声認識処理部１５０は、音声指示における画像処理機能に対応するテキストデータを候補機能選択部１５２へ送信する。

ステップＳ２２５において、制御部１６０は、入力された音声から機能を特定できた場合には「ＦＬＡＧ＝１」と設定する。制御部１６０は、そうでない場合には「ＦＬＡＧ＝０」に設定する。音声認識処理部１５０は、設定した「ＦＬＡＧ」の値を制御部１６０へ送信する。

ステップＳ２３０において、制御部１６０は、「ＦＬＡＧ＝１」である場合には（ステップＳ２３０でＹＥＳ）、処理をステップＳ２４０に進める。そうでない場合には（ステップＳ２３０でＮＯ）、制御部１６０は処理をステップＳ３００に進める。

ステップＳ３１７において、領域判別処理部１５５は、制御部１６０からの命令に基づいて画像取得部１５４が取得した画像の対象となる領域を判別する。すなわち、領域判別処理部１５５は、ユーザーから指定があった領域を判別する。その後、領域判別処理部１５５は、処理対象の画像と判別した領域の情報とを画像検証部１５６へ送信する。

ステップＳ３１８において、画像検証部１５６は、領域判別処理部１５５が判別した領域についてのみ候補機能ごとに画像処理を実行し、複数の検証用画像を作成する。なお、この場合において、検証用画像は、処理対象の画像において画像検証部１５６が当該領域のみに対して画像処理を実行した画像であり、当該領域のみからなる画像ではない。画像検証部１５６は、複数の検証用画像を画像比較部１５８へ送信する。

ステップＳ３１８において、画像比較部１５８は、検証用画像を相互に比較し、評価値を算出する。他の局面において、画像比較部１５８は、領域判別処理部１５５が判別し、画像検証部１５６が画像処理を行った領域についてのみ相互に比較し、評価値を算出してもよい。

［動作の具体例］
以下、例えばユーザーから「ＤＦにセットされた原稿の写真を、顔の部分のみを少し明るくして５部コピー。」という音声指示が与えられる例に挙げて説明する。

音声認識処理部１５０は、「顔の部分を」という音声指示から、ユーザーから「顔の部分のみ」という特定の領域の指定があったことを認識し、制御部１６０へその旨を表す情報を送信する。また、音声認識処理部１５０は、「明るく」という音声指示から画像処理に関する指示がユーザーから与えられたと認識するが、対応する１つの画像処理機能を特定できない。音声認識処理部１５０は、「明るく」というテキストデータを候補機能選択部１５２へ送信する。候補機能選択部１５２は、「明るく」というテキストデータから「明度調整」、「濃度調整」、および「下地調整」を特定する機能番号を制御部１６０へ送信する。しかし、この場合には、制御部１６０は、画像処理が「顔の部分のみ」という特定に領域についてのみ行われることから、上記の３種類の機能のうち「下地領域」について画像処理を行う「下地調整」を候補機能から除外する。制御部１６０は、画像の中から「顔の部分のみ」を判別するように領域判別処理部１５５に命令する。

画像取得部１５４は、音声指示に基づいて処理対象の画像を取得し、制御部１６０は、処理対象の画像を領域判別処理部１５５へ送信する。

領域判別処理部１５５は、制御部１６０の命令に基づいて、画像取得部１５４が取得した画像のうち「顔の部分」を判別する。領域判別処理部１５５は、判別した領域と処理対象の画像とを、画像検証部１５６へ送信する。

画像検証部１５６は、処理対象の画像において「顔の部分」のみに対して「明度調整」および「濃度調整」を行い、複数の検証用画像を作成する。画像検証部１５６は、それらを画像比較部１５８へ送信する。

このように、制御部１６０は、音声指示に基づいて領域判別処理部１５５に特定の領域を判別させ、その特定の領域のみ対象として画像検証部１５６に画像処理を行わせた後、画像比較部１５８に複数の検証用画像を相互に比較させてもよい。

［実施形態３の効果］
本実施形態に従う画像形成装置１００によれば、ユーザーからの音声指示が特定の領域について画像処理の指示を含む場合においても、ユーザーの所望の画像品質の実現を可能にした上で、追加情報を要求する手間を減らすことができる。

今回開示された実施形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した説明ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１００画像形成装置、１０１操作パネル装置、１０２画像読み取り装置、１２２ＲＡＭ、１２４ＲＯＭ、１２６補助記憶装置、１２８通信処理装置、１３０画像処理装置、１３２入力装置、１３４表示装置、１３６音声入力装置、１３８音声出力装置、１４０Ａ／Ｄ変換装置、１４２Ｄ／Ａ変換装置、１４６画像出力装置、１４８音声認識処理装置、１５０音声認識処理部、１５２候補機能選択部、１５４画像取得部、１５５領域判別処理部、１５６画像検証部、１５８画像比較部、１６０制御部、１６２記憶部、１６４入力部、１６６画像処理部、１６８出力部、１７０データテーブル、５００表示画面、５１０設定画面、６１０，６２０，６３０検証用画像。

Claims

画像形成装置であって、
前記画像形成装置の操作に関する音声指示を認識する音声認識処理部を備え、
前記音声認識処理部は、前記音声指示が処理対象の画像に対する画像処理についての指示を含む場合に、前記画像形成装置が備える複数の画像処理機能から前記音声指示に対応する機能を特定し、
前記画像形成装置は、さらに、
前記音声指示に対応する１つの画像処理機能を前記音声認識処理部が特定できない場合に、前記複数の画像処理機能から複数の候補機能を選択する候補機能選択部と、
前記処理対象の画像に対して前記複数の候補機能の処理をそれぞれ実行することによって複数の検証用画像を生成する画像検証部と、
前記複数の検証用画像を相互に比較する画像比較部と、
前記比較の結果に基づいて、前記複数の候補機能から１つの画像処理機能を自動的に決定するか、又はユーザーへ追加情報を求めるかを判断する制御部とを備える、画像形成装置。
前記画像比較部は、前記複数の検証用画像を相互に比較するときに、前記複数の検証用画像のうちの２個の検証用画像の組み合わせごとに、前記２個の検証用画像の違いの程度を表す評価値を算出し、前記評価値を閾値と比較する、請求項１に記載の画像形成装置。
前記制御部は、前記２個の検証用画像の組み合わせごとに算出された全ての評価値が前記閾値未満のとき、前記複数の候補機能のうちのいずれか１つの処理を自動的に決定し、前記自動的に決定した画像処理を前記処理対象の画像に対して実行する、請求項２に記載の画像形成装置。
前記制御部は、前記２個の検証用画像の組み合わせごとに算出された評価値のうちの少なくとも１つが前記閾値以上のとき、ユーザーへ追加情報を求め、前記ユーザーから得られた追加情報に基づいて前記複数の候補機能のうちの１つを決定し、前記追加情報に基づいて決定した画像処理を前記処理対象の画像に対して実行する、請求項２または３に記載の画像形成装置。
前記画像比較部は、第１の検証用画像における各画素の画素値と、当該画素に対応する第２の検証用画像における画素の画素値との差分に基づいて、前記第１の検証用画像と前記第２の検証用画像との違いの程度を表す前記評価値を算出する、請求項２〜４のいずれか１項に記載の画像形成装置。
前記画像比較部は、前記複数の検証用画像の各々をブロック単位に分割して各ブロックごとに画素値の平均値を求めるブロック分割処理を実行し、
前記画像比較部は、前記ブロック分割処理後の第１の検証用画像における各ブロックの画素値の平均値と、当該ブロックに対応する前記ブロック分割処理後の第２の検証用画像におけるブロックの画素値の平均値との差分に基づいて、前記第１の検証用画像と前記第２の検証用画像との違いの程度を表す前記評価値を算出する、請求項２〜４のいずれか１項に記載の画像形成装置。
前記画像比較部は、前記複数の検証用画像の各々に対して解像度を下げる解像度変換処理を実行し、
前記画像比較部は、前記解像度変換処理後の第１の検証用画像における各画素の画素値と、当該画素に対応する前記解像度変換処理後の第２の検証用画像における画素の画素値との差分に基づいて、前記第１の検証用画像と前記第２の検証用画像との違いの程度を表す前記評価値を算出する、請求項２〜４のいずれか１項に記載の画像形成装置。
前記画素値は、ＲＧＢ階調値、明度、濃度、色相、彩度、及び輝度の少なくとも１つを含む、請求項５〜７のいずれか１項に記載の画像形成装置。
前記画像比較部は、前記音声指示が前記処理対象の画像の明度、濃度、又はコントラストに関する指示を含む場合に、前記評価値を前記複数の検証用画像の各々の明度又は濃度を用いて算出する、請求項８に記載の画像形成装置。
前記画像比較部は、前記音声指示が前記処理対象の画像のＭＴＦ（Modulation Transfer Function）又は周波数特性に関する指示を含む場合に、前記評価値を前記複数の検証用画像の各々のエッジ量又は周波数特性を用いて算出する、請求項８に記載の画像形成装置。
前記画像比較部は、前記音声指示が前記処理対象の画像の色相又は彩度に関する指示を含む場合に、前記評価値を前記複数の検証用画像の各々の色相、彩度、及び前記複数の検証用画像のうち２つの画像のうち一方における画素又はブロックと、当該画素又はブロックに対応する、前記複数の検証用画像のうち２つの画像のうち他方における画素又はブロックとの色差の少なくとも１つを用いて算出する、請求項８に記載の画像形成装置。
前記複数の検証用画像は、第１の候補機能、第２の候補機能、および第３の候補機能にそれぞれ対応する第１の検証用画像、第２の検証用画像、および第３の検証用画像を含み、
前記画像比較部は、前記第１の検証用画像と前記第２の検証用画像とから第１の評価値を算出し、前記第１の検証用画像と前記第３の検証用画像とから第２の評価値を算出し、前記第２の検証用画像と前記第３の検証用画像とから第３の評価値を算出し、
前記制御部は、前記第１の評価値及び前記第２の評価値が前記閾値未満でありかつ前記第３の評価値が前記閾値以上である場合に、前記第１の候補機能及び前記第２の候補機能の一方のみと、前記第３の候補機能についてユーザーに追加情報を求める、請求項２〜１１のいずれか１項に記載の画像形成装置。
前記音声指示は、前記処理対象の画像を補正する指示を含み、
前記音声認識処理部は、前記音声指示に基づいて前記処理対象の画像の補正量の大きさを決定し、
前記制御部は、前記複数の候補機能の各々に対して前記補正量に基づいて前記閾値を決定する、請求項２〜１２のいずれか１項に記載の画像形成装置。
前記制御部は、前記複数の検証用画像のうち、２個の検証用画像の組み合わせにごとに算出された全ての前記評価値が前記閾値未満のとき、前記複数の候補機能のうちのいずれか１つの処理を自動的に決定した後に、前記自動的に決定した画像処理を前記ユーザーに通知する、請求項２〜１３のいずれか１項に記載の画像形成装置。
前記制御部は、前記複数の検証用画像のうち、２個の検証用画像の組み合わせごとに算出された全ての前記評価値が前記閾値未満のとき、前記複数の候補機能のうちのいずれか１つの処理を自動的に決定し、前記自動的に決定した処理を実行してよいかユーザーに許可を求める、請求項２〜１４のいずれか１項に記載の画像形成装置。
前記画像形成装置は、前記処理対象の画像を第１領域と前記第１領域を除く領域とに区分する領域区分部をさらに備え、
前記画像検証部は、前記処理対象の画像の前記第１領域に対してのみ前記複数の候補機能の処理をそれぞれ実行することによって前記複数の検証用画像を生成する、請求項１〜１５のいずれか１項に記載の画像形成装置。
前記領域区分部は、前記処理対象の画像に対して前記複数の候補機能の処理を実行した場合に、元の前記処理対象の画像に対する変化が、他の領域に比べて大きい領域を前記第１領域に設定する、請求項１６に記載の画像形成装置。
前記領域区分部は、前記音声指示が前記処理対象の画像における特定の領域に対する画像処理を含む場合に、前記特定の領域を前記第１領域に設定する、請求項１６に記載の画像形成装置。
前記画像比較部は、前記複数の検証用画像の前記第１領域のみを相互に比較する、請求項１６〜１８のいずれか１項に記載の画像形成装置。
前記制御部は、前記複数の検証用画像の少なくとも２つを表示することによって、ユーザーへの追加情報を求める、請求項１〜１９のいずれか１項に記載の画像形成装置。
前記制御部は、前記複数の候補機能のうち少なくとも２つの設定画面を表示することによって、ユーザーへ追加情報を求める、請求項１〜２０のいずれか１項に記載の画像形成装置。
前記音声指示は、第１番目から第ｎ番目までのｎ個の処理対象の画像（ｎは２以上の整数）に対する画像処理についての指示を含み、
前記制御部は、前記音声認識処理部が前記音声指示に対応する１つの画像処理を特定できた場合に、前記ｎ個の処理対象の画像の各々に対して前記特定した１つの画像処理を実行し、
前記制御部は、前記音声認識処理部が前記音声指示に対応する１つの画像処理を特定できない場合に、フラグを第１の値に初期設定し、
前記画像検証部は、前記第１番目の処理対象の画像から順番に前記フラグが第２の値に変更されるまで、前記ｎ個の処理対象の画像のうち現在の処理順番の画像に対して前記複数の候補機能の処理を実行することにより、前記現在の処理順番の画像に対応する複数の検証用画像を生成し、
前記画像比較部は、前記画像検証部によって前記複数の検証用画像が生成される度に、２個の検証用画像の組み合わせごとに、前記２個の検証用画像の違いの程度を表す評価値を算出し、
前記制御部は、前記画像比較部によって算出された評価値が全て閾値未満の場合に、前記複数の候補機能のうちのいずれか１つの処理を自動的に決定し、前記自動的に決定した画像処理を前記現在の処理順番の画像に対して実行し、
前記制御部は、前記画像比較部によって算出された評価値の少なくとも１つが前記閾値以上の場合に、ユーザーへ追加情報を求め、前記ユーザーから得られた追加情報に基づいて前記複数の候補機能のうちの１つを決定し、前記追加情報に基づいて決定した画像処理を前記現在の処理順番の画像に対して実行し、前記フラグを前記第２の値に変更し、
前記制御部は、前記フラグを前記第２の値に変更した後は、前記ｎ個の処理対象の画像のうち残余の画像に対して前記追加情報に基づいて決定した画像処理を実行する、請求項１〜２１のいずれか１項に記載の画像形成装置。
前記処理対象の画像は、スキャナーによる対象原稿の走査、ファクシミリによる受信、外部ネットワークとの通信、内部メモリへのアクセス、又は補助記憶装置へのアクセスによって取得したデータに基づく画像データである、請求項１〜２２のいずれか１項に記載の画像形成装置。