図1は、本発明にかかる画像処理装置の第1実施形態を用いた印刷システムを示す図である。この印刷システムは、デジタルカメラ200の撮影により取得された画像データを、メモリカードM、USB(Universal Serial Bus)ケーブルや無線LAN(Local Area Network)等によって印刷装置100に転送し、印刷装置100で印刷するものである。すなわち、ここではユーザーがデジタルカメラ200で画像を撮影して画像データを生成し、その画像データをそのまま印刷装置100で読み込んで印刷する、いわゆるダイレクト印刷を想定しているが、本発明を適用可能な印刷システムはこれに限定されるものではない。つまり、デジタルカメラ200で生成した画像データをパーソナルコンピューターや携帯電話などに取り込み、パーソナルコンピューターから印刷装置100に画像データを送信して印刷する印刷システムにも本発明を適用することは可能である。
デジタルカメラ200では、同図に示すように、CPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、CCD(Charge Coupled Device)204、GP(Graphic Processor)205およびI/F(Interface)206がバス207を介して相互に接続され、これらの間で情報の授受が可能となっている。そして、CPU201はROM202に格納されているプログラムに応じて各種演算処理を実行しながらデジタルカメラ200の制御を行う。このとき一時的に必要となるデータはRAM203に格納される。また、CCD204は、光学系208によって集光された被写体からの光学像を電気信号に変換して出力する。この光学系208は、複数のレンズおよびアクチュエータによって構成されており、アクチュエータによってフォーカス等を調整しながら被写体の光学像を複数のレンズによってCCD204の受光面に結像する。さらに、GP205は、CPU201から供給される表示命令に基づいて表示用の画像処理を実行し、得られた表示用画像データをLCD(Liquid Crystal Display)209に供給して表示させる。
I/F206はデジタルカメラ200の入出力機能を提供するものであり、操作ボタン210、ジャイロセンサー211およびカードI/F回路212の間で情報を授受する際に、データの表現形式を適宜変換する装置である。I/F206に接続される操作ボタン210には、電源、モード切替え、シャッターなどのボタンや、各種機能を設定できる入力手段があり、これらによってユーザーはデジタルカメラ200を任意に制御して動作させることが可能となっている。また、ジャイロセンサー211はデジタルカメラ200によって被写体を撮影した際のカメラ本体の角度(水平面に対する角度)を示す信号を生成して出力する。デジタルカメラ200は、上記したカメラ本体の角度を含め、撮影時における種々の情報(例えば、露光、被写体等に関する情報)を生成する。それらの情報の一つである撮影情報に後述する顔情報が含まれる。なお、本実施形態では、デジタルカメラ200は、撮影情報をExif(Exchangeable Image File Format)情報に記載し、画像データに付加した画像ファイルを生成することができる構造となっている。
また、カードI/F回路212はカードスロット213に挿入されたメモリカードMとの間で情報を読み書きするためのインタフェースである。さらに、I/F206は図示を省略するUSB、無線LANなどの外部機器との接続機能も有しており、有線または無線にて印刷装置100との間で画像ファイルの授受が可能となっている。なお、デジタルカメラ200で作成され、印刷装置100に与えられる画像ファイル(画像データ+Exif情報)については、後で詳述する。
印刷装置100はデジタルカメラ200で撮像された画像を印刷する装置であり、次のように構成されている。印刷装置100では、CPU101、ROM102、RAM103、EEPROM(Electrically Erasable and Programmable ROM)104、GP105およびI/F106がバス107を介して相互に接続され、これらの間で情報の授受が可能となっている。CPU101はROM102およびEEPROM104に格納されているプログラムに応じて各種演算処理を実行するとともに印刷装置100の各部を制御し、本発明の「顔情報検出部」および「顔情報付加判別部」として機能する。また、CPU101が実行対象とするプログラムやデータについてはRAM103に一時的に格納される一方、印刷装置の電源が切断された後も保持しておくデータ等についてはEEPROM104に格納される。さらに、CPU101は必要に応じてGP105に対して表示命令を与え、この表示命令に応じてGP105が表示用の画像処理を実行し、その処理結果をLCD108に供給して表示させる。
I/F106は、操作ボタン109、カードI/F回路110およびプリンターエンジンコントローラー111の間で情報を授受する際に、データの表現形式を適宜変換する装置である。印刷装置100では、操作ボタン109は印刷装置100のメニュー選択等を行う時に押されるように構成されている。また、カードI/F回路110は、カードスロット112と接続されており、このカードスロット112に挿入されたメモリカードMからデジタルカメラ200によって生成された画像ファイルを読み出す。なお、I/F106は、図示を省略するUSB、無線LANなどの外部機器との接続機能も有しており、有線通信または無線通信にてデジタルカメラ200との間で画像ファイルの授受が可能となっている。
そして、印刷装置100は、メモリカードMを介して、あるいはデータ通信により画像データを受け取ると、CPU101により種々の処理を行うとともにプリンターエンジンコントローラー111によりプリンターエンジン113を制御し、これによって画像データに対応する画像を印刷する。以下、図2ないし図4に基づき画像ファイルの構成を説明した上で、本実施形態における画像処理動作および印刷動作について詳述する。
図2は上記のように構成されたデジタルカメラで作成される画像ファイルの一例を示す図である。また、図3は図2の部分拡大図である。この実施形態では、デジタルカメラ200はCCD204で撮像された画像データをRAM203に格納する。また、デジタルカメラ200は、被写体に人物が含まれているときには顔認識処理を行う(なお、顔認識方式については従来より数多く提案されており、それらのうちいずれの方式を採用してもよい)。なお、本実施形態では、顔認識結果は、図4に示すような座標情報が顔位置の情報、つまり顔情報として表現される。すなわち、同図に示すように、画像データは所定の画像幅(Width)と画像高さ(Height)の画素で構成されており、Xが横軸、Yが縦軸を表しており、左上が原点(0,0)である。そして、画像データから顔が検出されると、その顔領域FRを左上(LT)、左下(LB)、右上(RT)、右下(RB)の4点の座標で囲まれる領域で表し、顔領域FRを示す座標、つまり顔座標(顔位置)を、認識した顔の個数(つまり顔個数)NcとともにRAM203に格納する。また、本明細書では、後で説明するように、印刷装置100においてもデジタルカメラ200での顔認識と同様に顔認識を行って顔座標を求めるため、デジタルカメラ200での顔認識により得られる顔座標を「カメラ顔座標」と称し、左上(LTc)、左下(LBc)、右上(RTc)、右下(RBc)で示す。また、顔認識処理により複数個の顔が検出される場合もあるため、第n番目のカメラ顔座標を左上(LTnc)、左下(LBnc)、右上(RTnc)、右下(RBnc)で示す。なお、後述するように印刷装置100の顔認識で得られる顔座標については「プリンター顔座標」と称し、第n番目のプリンター顔座標については、左上(LTnp)、左下(LBnp)、右上(RTnp)、右下(RBnp)で示す。
また、この実施形態では、上記のように画像データ、顔個数および顔座標などをRAM203に格納しているが、その記録方式としてディジタルスチルカメラ用画像ファイルフォーマット規格Exif Ver.2.2.1を使用している。このExif画像ファイルの構造は、基本的には通常のJPEG(Joint Photographic Experts Group)画像形式そのものであり、その中にサムネイル画像や撮影関連データ等のデータをJPEGの規約に準拠した形で埋め込んだものである。
本実施形態で使用する画像ファイルは、図2の左側部分に示すように、最初にSOI(Start of image)301がある。その後に、APP1(アプリケーション・マーカーセグメント)302、DQT(Define Quantization Table)303、DHT(Define Huffman Table)304の順となっている。さらにその後に、SOF(Start of Frame)305、SOS(Start of Stream)マーカー306、圧縮データ(Compress Data)307の順となっている。最後にEOI(End of Image)308がある。これらのうちAPP1はアプリケーションプログラムで使用するためのデータ領域として図2の中央部分に示す構造を有している。APP1の構造は、先頭にAPP1 Marker領域302aがある。そして、その次にLength領域302bがある。
Length領域302bに続くデータの最初の6バイトの領域302cでは、識別子としてASCII文字の“Exif"が、その次に2バイトの0x00が続く。そこからTiff(Tagged Image File Format)形式でデータが格納されている。Tiff形式の最初の8バイトはTiffヘッダー(Header)領域302dである。
また、Tiffヘッダー領域302dの次の0th IFD(IFD of main image)領域302eに、同図の右側部分に示すように、画像幅、画像高さ等の画像関連情報(あるは、単に画像情報とも呼ぶ)が格納される。そして、0th IFDの次に0th IFD Value領域302fがある。さらに、その次にExif IFD領域302gが設けられ、露出時間、Fナンバー、撮影シーンタイプなどの撮影関連情報(あるいは、単に撮影情報とも呼ぶ)が格納される。また、Exif IFD領域302gにExif IFD Value領域302hがある。なお、現在のところ、顔認識処理により検出される顔個数NcとNc個の顔座標をExifタグに書き込む規格は規定されていないが、本実施形態では顔個数NcがExif IFD領域302gに書き込まれ、Nc個の顔座標がExif IFD Value領域302hに書き込まれるとともに該書込位置をポイントする情報がExif IFD領域302gに書き込まれると仮定して説明を続ける。もちろん、これらの情報をメーカーに依存する領域に書き込むように構成してもよい。このように、顔位置(顔座標)の情報である顔情報はExif情報に記載され、画像データに添付されている。したがって、Exif情報に顔情報が含まれる場合には、顔個数Ncなどとともに画像データの補正に利用される。一方、Exif情報に顔情報が含まれていない場合、顔情報がないと判断される。
次に、上記のようなデータ構造(図2)を有する画像ファイルがメモリカードMに保存されており、そのメモリカードMから画像ファイルを読み出し、印刷装置100により画像ファイルに含まれる各種情報に基づき所定の画像処理を実行して印刷する動作について、図5ないし図7を参照しつつ説明する。
図5および図6は図1の印刷装置で実行される画像処理および印刷動作を示すフローチャートである。また、図7はカメラ顔領域、検索領域および検索範囲の関係を示す模式図である。さらに、図8は座標リストを示す図である。ユーザーが印刷装置100のカードスロット112にメモリカードMを挿入し、操作ボタン109を操作して印刷指令を与えると、CPU101がROM102に格納されているプログラムにしたがって装置各部を制御して以下の画像処理および印刷動作を実行する。
まず、CPU101は、印刷の対象となる画像ファイルをメモリカードMから取得し、ハフマン解凍処理を実行し、量子化DCT(Discrete Cosine Transform)係数を得る(ステップS10)。より具体的には、CPU101は、図2に示す画像ファイルからエントロピー符号化テーブルを取得し、圧縮データ307に含まれているY(輝度)成分、Cr(色差成分)、および、Cb(色差成分)のそれぞれのブロックのDC係数と、AC係数とを復号する。なお、この際、最小符号化単位であるMCU(Minimum Coded Unit)単位で復号を行う。
また、CPU101は、ステップS10において得られた量子化DCT係数を逆量子化する(ステップS11)。具体的には、CPU101は、図2に示す画像ファイルから量子化テーブルを取得し、ステップS10において得られた量子化DCT係数に乗じることにより(逆量子化することにより)、DCT係数を得る。
次に、CPU101は、画像を回転させるために必要な情報を、例えばRAM103にキャッシュする(ステップS12)。具体的には、JPEG方式によって圧縮された画像を回転させる場合、MCUのDC成分(直流成分)とAC成分(交流成分)のそれぞれを一度ハフマン展開しなければならない。ここで、DC成分については隣接するDC成分値の差分をハフマン符号化することから、隣接するMCUとの相関関係が問題となる。また、AC成分ではハフマン符号化処理によりそのデータ長が各MCUで一定にならず、JPEGデータのビットストリーム中のどのデータが求めるMCUのAC成分値であるかが不明となることが問題となる。そこで、ステップS12では、各MCUのDC成分値とAC成分のアドレスを求めてキャッシュしておくことにより、ローテート処理を可能とする。
そして、CPU101はステップS11で得られたDCT係数に対して逆DCT演算を施すことによりもとの画素値を得る(ステップS13)。また、CPU101は、ステップS13の処理によって得られたYCC空間の画像をRGB(Red Green Blue)空間の画像と、HSB(Hue Saturation Brightness)空間の画像に変換する(ステップS14)。
そして、CPU101はステップS13およびステップS14の処理において得られたYCC,RGB,HSBのそれぞれの画像をRAM103に格納して保持する。なお、このとき、データ量を削減するために画素を所定の割合で間引きした後にRAM103に格納してもよい(ステップS15)。
また、CPU101は、ステップS15においてRAM103に格納されたYCC,RGB,HSBそれぞれの画像の成分について、ヒストグラムを計算する(ステップS16)。具体的には、RGB画像については、R,G,Bそれぞれの画像についてヒストグラムを計算する。その結果、画像を構成する各成分の分布を得る。
上記したように、本実施形態では、ステップS10〜16の処理はMCU単位で行われており、CPU101は、全てのMCUについての処理が終了したことを確認するまで、ステップS10に戻って処理を繰り返して実行する。一方、全てのMCUについての処理が終了した場合には、次のステップS17に進む。
このステップS17では、CPU101は、図2の画像ファイル中のExifタグから顔情報としてカメラ顔座標を読み込み、さらにQVGA(Quarter Video Graphics Array)サイズに規格化する。そして、CPU101はカメラ顔座標をRAM103に格納する(ステップS18)。なお、本実施形態では、例えば図8(a)に示すように予め10個の顔座標を記憶するためのメモリ空間がRAM103に準備されており、このメモリ空間にステップS17で規格化されたカメラ顔座標や次に説明する印刷装置100での顔認識処理により得られるプリンター顔座標が登録顔情報No.1、2、…の順序で記憶される。こうして、10個の登録顔情報を記憶する座標リストが生成される。例えば2個のカメラ顔座標が画像データに付加されている場合には、図8(b)に示すようにQVGAサイズに規格化されたカメラ顔座標(LT1c、LB1c、RT1c、RB1c)が座標リストの登録顔情報No.1のアドレスに登録される。また、2つ目のカメラ顔座標(LT2c、LB2c、RT2c、RB2c)が座標リストの登録顔情報No.2のアドレスに登録される。また、該当する顔座標がない登録顔情報のアドレスにはゼロを登録する。なお、本実施形態では、最大10個の顔座標を登録することが可能となっているが、登録可能個数はこれに限定されるものではなく、任意である。
次のステップS19〜S34で、CPU101は、テンプレート(検索領域)を用いた顔認識処理を行うとともに、顔認識処理により検出されるプリンター顔座標を座標リストに登録する。すなわち、CPU101は、顔認識に用いるテンプレートの顔サイズSを最大顔サイズ(240ピクセル)に設定し(ステップS19)、そのテンプレートを原点(0,0)に位置させる(ステップS20、S21)。そして、CPU101は、テンプレートをΔX(この実施形態では、ΔX=S/2)単位でX方向にステップ移動させながら原点位置および各移動位置でステップS22〜S28の処理を実行する。すなわち、CPU101は、テンプレート内、つまり検索領域にカメラ顔や既に検出したプリンター顔が含まれているか否かを判別する(ステップS22、S23)。具体的には、CPU101は、例えば図7(a)に示すようにテンプレートTP内に座標リストに登録されているカメラ顔座標で特定されるカメラ顔の全部または一部が含まれるか否かを判別しており、含まれると判別する場合には、ステップS23の判定ステップおよび顔認識処理(ステップS24〜S28)を省略している。また、テンプレート(検索領域)TPにカメラ顔が含まれていないものの、当該テンプレートTP内にプリンター顔が含まれていることが既に検出されている場合(ステップS23で「YES」)も、顔認識処理(ステップS24〜S28)を省略している。
このような判別処理(ステップS22、S23)は、カメラ顔と同じ顔をわざわざ印刷装置100側でも重複して検出するのを回避して印刷装置100における顔認識処理に要する時間を短縮することを狙ったものである。つまり、本実施形態では、画像データから人物の顔を検出する検索範囲を、画像領域全体に設定するのではなく、例えば図7(b)に示すようにカメラ顔領域FRを除いた範囲に設定している。
一方、これらのステップS22、S23のいずれかで「NO」と判別すると、CPU101はステップS17で保持した画像データに対してテンプレートを適用して顔認識処理を行う(ステップS24)。また、CPU101は、保持した画像データを90゜、180゜および270゜回転させて顔認識処理を行う(ステップS25〜S27)。このようなテンプレートを用いた顔認識処理(ステップS24〜S27)については、従来より多用されているもので用いることができ、例えば45゜単位で回転させながら顔認識を行ってもよい。
このような顔認識処理によって顔を検出した場合には、CPU101は、テンプレート(顔領域)に含まれるプリンター顔の位置情報、つまりプリンター顔座標を座標リストに登録する(ステップS28)。例えば顔認識処理によってプリンター顔座標(LT1p、LB1p、RT1p、RB1p)が検出されると、そのプリンター顔座標が図8(c)に示すようにカメラ顔座標(LT1c、LB1c、RT1c、RB1c)、(LT2c、LB2c、RT2c、RB2c)に続いて、座標リストの登録顔情報No.3のアドレスに登録される。
また、X方向の1ラインについて顔認識処理およびプリンター顔座標の登録処理が完了する(ステップS30で「YES」)と、CPU101はテンプレートTPをY方向にΔY(この実施形態では、ΔY=S/2)だけ移動させる(ステップS31)。そして、テンプレートがY方向の端部に位置するまでの間(ステップS32で「NO」の間)、上記したステップS21〜S31を繰り返して行う。これにより、画像データ全体に対して顔サイズSのテンプレートを用いた顔認識処理およびプリンター顔座標の登録処理が実行される。
なお、CPU101は、上記した一連の顔認識処理(ステップS20〜S32)が完了する毎にテンプレートの顔サイズSをΔS(この実施形態では10ピクセルに設定)だけ小さくし(ステップS34)、顔サイズSが最小顔サイズ(20ピクセル)を下回るまでステップS20に戻って上記した一連の顔認識処理およびプリンター顔座標の登録処理(ステップS20〜S34)を繰り返して行う。
こうして、印刷装置100による顔認識処理およびプリンター顔座標の登録処理が行われると、次のステップS35で、CPU101は座標リストにカメラ顔座標および/またはプリンター顔座標が登録されている否かを判別する。そして、カメラ顔座標かプリンター顔座標かを問わず、顔座標が登録されている場合(ステップS35で「YES」)には、CPU101は、座標リストに登録された顔座標に基づいて全ての顔位置を計算し、さらに顔の平均顔色を取得した(ステップS36)後、顔色が最適になるようにエンハンスパラメータを計算する(ステップS37)。なお、エンハンスパラメータ計算の詳細については省略するが、RAM103に記憶したRGBヒストグラムに基づきコントラスト、明度、彩度、シャープネスなどの各画質パラメータの特徴量を抽出し、抽出した特徴量が所定の画質パラメータの特徴量に近づくようエンハンスのパラメータを設定する。
一方、座標リストにカメラ顔座標もプリンター顔座標も登録されていない場合(ステップS35で「NO」)、CPU101は、画像全体が最適になるようにエンハンスパラメータを計算する(ステップS38)。
次のステップS39では、CPU101は、印刷対象となる画像ファイルにおいて、解凍処理の対象となる位置を示すファイルポインタをリセットし、処理位置を画像ファイルの先頭に復元する。そして、CPU101は、以下のステップS40〜S47を繰り返して画像データに基づいて画像を印刷する。
CPU101は、RAM103にキャッシュされた1MCUライン分の画像データにハフマン解凍処理を施し、量子化DCT係数を得る(ステップS40)。ここで、1MCUラインとは、画像を回転させる場合には、画像を構成する列方向に1列のMCU群をいい、回転させない場合には、画像を構成する行方向に1列のMCU群をいう。そして、CPU101は、ステップS29の処理において得られた量子化DCT係数を逆量子化し(ステップS41)、さらにステップS41で得られたDCT係数に対して逆DCT演算を施すことによりもとのデータを得る(ステップS42)。
こうして得られたYCC空間の画像を、CPU101はRGB空間の画像に変換する(ステップS43)。そして、CPU101は、RGB空間の画像を構成する各画素に対してステップS37、S38において算出したエンハンスパラメータを適用することにより、印刷される画像を最適な色合いに補正する(ステップS44)。
CPU101は、こうして補正された画像データに対して、リサイズ、回転などのレイアウト処理を施し(ステップS45)、プリンターエンジンコントローラー111の図示せぬバンドバッファに供給する。これを受けたプリンターエンジンコントローラー111は、プリンターエンジン113の各部を制御して画像データに対応する画像を印刷する(ステップS46)。そして、印刷処理が完了すると、CPU101はRAM103のキャッシュ状態を更新する(ステップS47)。そして、全MCUライン分について上記ステップS40〜S47が完了すると、一連の処理を終了する。
以上のように、本実施形態によれば、画像データに対して顔認識処理を実行してプリンター顔座標を検出しているが、画像データにカメラ顔情報が付加されている場合には、画像データに含まれる画像領域全体を検索範囲として顔認識処理を実行するのではなく、同画像領域のうち画像データに付加されたカメラ顔情報で特定される顔領域FRを除いた領域を検索範囲とし、顔認識処理を実行している。このように、画像データに付加されたカメラ顔情報で特定されるカメラ顔領域以外の領域に写り込んでいる人物の顔情報を検出することができ、デジタルカメラ200側で認識できなかった人物の顔を認識し、デジタルカメラ200での顔認識を補完することができる。しかも、印刷装置100で顔認識処理を行う検索範囲が、カメラ顔領域の分だけ狭まっていることから顔認識処理に要する時間を短縮することができる。
また、画像データにカメラ顔情報が付加されていない場合には、画像データに含まれる画像領域全体を検索範囲として顔認識処理を行うため、印刷装置100により画像データから画像処理に必要な顔情報を検出することが可能となる。
ところで、上記実施形態では、QVGAサイズに規格化したことに対応してテンプレート(検索領域)TPのサイズを240ピクセルから20ピクセルまでの範囲内で変化させながら顔認識処理を実行しているが、当該サイズ変更範囲については、これに限定されるものではなく、任意であり、例えばデジタルカメラ200で検出されたカメラ顔領域の顔サイズに基づき上記サイズ変更範囲の最大値、最小値または両者を設定してもよい。すなわち、CPU101は、画像データに付加されたカメラ顔情報で特定されるカメラ顔領域の顔サイズ(顔サイズ情報)を取得し、その顔サイズに基づき変更範囲を顔認識処理で用いる検索パラメータとして変更するように構成してもよい。これは、画像データに複数の人物の顔画像が含まれる場合、顔画像や顔領域が人物間で極端に相違することは少なく、カメラ顔の顔サイズよりも大幅に大きな顔サイズを有する人物の顔がデジタルカメラ200で認識されなかった可能性が低く、またカメラ顔の顔サイズよりも大幅に小さい顔サイズの人物については注目度や重要度が低いことを考慮したものである。このようにカメラ顔領域の顔サイズ(顔サイズ情報)に応じてテンプレートTPのサイズを変更することで顔認識処理に要する時間をさらに短縮することができる。この実施形態では、CPU101は本発明の「サイズ情報取得部」としても機能する。
なお、本発明は上記した実施形態に限定されるものではなく、その趣旨を逸脱しない限りにおいて上述したもの以外に種々の変更を行うことが可能である。例えば、上記実施形態では、画像データに顔情報およびシーン情報を付加した画像ファイルをメモリカードMに記録し、当該メモリカードMを介して印刷装置100に供給して印刷しているが、有線または無線通信により画像ファイルが印刷装置100に供給される場合も、本発明を適用することで上記した実施形態と同様の作用効果が得られる。
また、上記実施形態では、本発明にかかる画像処理装置および方法を印刷装置100に適用しているが、複数の電子機器から構成される印刷システムにも、また印刷装置以外の1つの電子機器(例えば複合機、ファクシミリ装置など)にも適用可能である。
また、上記実施形態にかかる画像処理方法を実行するプログラムを、CD−ROM、光ディスク、光磁気ディスク、不揮発性メモリカードなどの記憶媒体に記憶させ、この記憶媒体からプログラムをコードとして読み出し、コンピューターにおいて実行してもよい。つまり、上記プログラムを記憶した記憶媒体、コンピュータープログラム自体も本発明の一実施形態に含まれる。