JP2012118896A - 画像処理方法、制御プログラムおよび画像処理装置 - Google Patents
画像処理方法、制御プログラムおよび画像処理装置 Download PDFInfo
- Publication number
- JP2012118896A JP2012118896A JP2010270017A JP2010270017A JP2012118896A JP 2012118896 A JP2012118896 A JP 2012118896A JP 2010270017 A JP2010270017 A JP 2010270017A JP 2010270017 A JP2010270017 A JP 2010270017A JP 2012118896 A JP2012118896 A JP 2012118896A
- Authority
- JP
- Japan
- Prior art keywords
- image
- area
- search area
- face
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
【課題】画像データから人の顔に相当する領域を検出する顔認識処理を行う画像処理方法および装置において、顔認識処理を効率よく短時間で行うことのできる技術を提供する。
【解決手段】画像ファイルに含まれる画像の方向に関する方向情報を取得する情報取得工程と、方向情報に基づいて画像のうちの一部領域を検索領域として設定する検索領域設定工程と、検索領域設定工程において設定された検索領域内で、所定の適合条件に適合する領域を顔領域として検出する顔認識処理を実行する顔認識処理工程とを備え、検索領域設定工程では、画像の方向に応じて検索領域を異ならせる。
【選択図】図2
【解決手段】画像ファイルに含まれる画像の方向に関する方向情報を取得する情報取得工程と、方向情報に基づいて画像のうちの一部領域を検索領域として設定する検索領域設定工程と、検索領域設定工程において設定された検索領域内で、所定の適合条件に適合する領域を顔領域として検出する顔認識処理を実行する顔認識処理工程とを備え、検索領域設定工程では、画像の方向に応じて検索領域を異ならせる。
【選択図】図2
Description
この発明は、画像処理方法および画像処理装置に関するものであり、特に画像から人の顔に相当する領域を検出する顔認識技術に関する。
被写体を撮影して画像データを生成するデジタルカメラや、該画像データを表示または印刷するプリンターなどの出力装置では、画像内に含まれる人の顔に相当する領域を検出する顔認識機能を持つものが実用化されている。例えば、特許文献1に記載の技術においては、デジタルカメラ等で撮影された画像のExif(Exchangeable Image File Format)ファイルから当該画像が縦長か横長かを判定し、その判定結果に基づき顔認識に用いる認識パラメータを設定する。より具体的には、横長画像では複数の人物が含まれるケースが多いことから顔の検索サイズを小さく、認識する顔の数を多くする一方、縦長画像では被写体が1人であるケースが多いことから顔の検索サイズを大きく、認識数を少なくするように、認識パラメータを設定している。
本願発明者の調査によれば、縦長画像(いわゆるポートレート画像)と横長画像(いわゆるランドスケープ画像)とでは、上記のような被写体人物の数やサイズのみでなく、人物の顔の位置分布にもそれぞれ特有の傾向があることがわかってきた。しかしながら、上記従来技術では、このような顔の位置分布を考慮していないため、顔認識処理に長い時間を要する場合があった。
この発明にかかるいくつかの態様は、画像データから人の顔に相当する領域を検出する顔認識処理を行う画像処理方法および装置において、上記課題を解決し、顔認識処理をより効率よく短時間で行うことのできる技術を提供するものである。
この発明の一の態様は、画像ファイルに含まれる画像から人の顔に相当する顔領域を検索する顔認識処理を実行する画像処理方法であって、上記課題を解決するため、前記画像ファイルに含まれる前記画像の方向に関する方向情報を取得する情報取得工程と、前記方向情報に基づいて、前記画像のうちの一部領域を検索領域として設定する検索領域設定工程と、前記検索領域設定工程において設定された前記検索領域内で、所定の適合条件に適合する領域を前記顔領域として検出する前記顔認識処理を実行する顔認識処理工程とを備え、前記検索領域設定工程では、前記画像の方向に応じて前記検索領域を異ならせることを特徴としている。
また、この発明の他の態様は、上記各工程をコンピューターに実行させることを特徴とする制御プログラムである。
これらの発明では、画像内の全領域を検索対象とするのではなく、画像の方向に応じて設定した一部領域を検索領域としているので、検索範囲が限定されており、より短時間で顔認識処理を行うことが可能である。ここで、検索領域については一義的に決めるのではなく画像の方向に応じて設定するようにしているので、上記のような顔の位置分布の傾向を反映させてより効率よく短時間で顔認識処理を行うことが可能となっている。
ここで、検索領域設定工程では、例えば、検索領域の位置を画像の方向に応じて設定するようにしてもよい。また例えば、検索領域のサイズを画像の方向に応じて設定するようにしてもよい。例えば画像の方向が縦長画像に対応するものであるとき、画像の方向が横長画像に対応するものであるときよりも検索領域を狭くするようにすると、次のような作用効果が得られる。すなわち、本願発明者の知見によれば、ポートレート画像に代表される縦長画像では、被写体人物の顔が左右方向において画像の中央部かつ上下方向において中央よりやや上寄りの位置にある場合が多い。したがって、このような位置を中心にした比較的狭い領域について顔認識処理を行うことにより、画像内の顔を効率よく短時間で検出することができる。これに対して、ランドスケープ画像に代表される横長画像では、被写体人物の顔はより広い範囲に分散する傾向がある。そこで、より広い領域について顔認識処理を行うことにより、本来顔として検出すべき領域を見落とすという誤認識を低減させることができる。
また、例えば、検索領域設定工程では、所定の第1適合条件に対応する検索領域を第1検索領域として、また第1適合条件よりも適合範囲の狭い第2適合条件に対応する検索領域を第2検索領域としてそれぞれ設定し、該第1検索領域および第2検索領域の少なくとも一方を、画像の方向に応じて異ならせるようにしてもよい。顔が含まれる可能性の高い領域においては比較的緩やかな適合条件(第1適合条件)で顔認識処理を行う一方、顔が含まれる可能性がより低い領域のみについてより厳しい適合条件(第2適合条件)を適用することで、短時間で効率よく、しかも誤検出の少ない顔認識を行うことができる。そして、前記したように、画像内における顔の位置分布は画像の方向ごとに一定の傾向がみられるから、このような異なる適合条件を適用する領域を画像の方向に応じて設定することで、顔の位置分布に関する知見を反映させてさらに効率よく顔認識を行うことが可能である。
この場合において、第2検索領域が第1検索領域の周囲を取り囲むように設定されてもよい。一般的には、画像の中央部分に顔が含まれる確率が高く、周辺部ほどその確率は低下すると考えられる。そこで、顔が含まれる可能性が高いとみられる第1検索領域の周囲をより厳しい適合条件を適用する第2検索領域とすることで、効率よく顔認識を行うことができる。
より具体的には、顔認識処理工程では、例えば検索領域内において適合条件に対する適合度の高い領域を候補領域として検出するとともに当該候補領域の画像が人の顔である確率を算出し、該確率が所定の閾値よりも大きいときに当該候補領域を顔領域とし、しかも、第1検索領域に対応する閾値よりも第2検索領域に対応する閾値を高く設定することができる。このようにすると、第1検索領域ではより低い閾値が設定されて比較的緩やかな条件で顔領域が検出される一方、第2検索領域ではより厳しい条件で顔領域の検出が行われることになり、上記した顔の位置分布に関する知見を反映させた顔認識処理を行うことができる。
また、この発明にかかる他の態様は、画像を取得する画像取得手段と、前記画像の方向に関する方向情報を取得する方向情報取得手段と、前記画像から人の顔に相当する顔領域を検索する顔認識処理を実行する処理手段とを備え、前記処理手段は、前記方向情報に基づいて、前記画像のうち前記画像の方向に応じた一部領域を検索領域として、該検索領域内で人の顔に対応する所定の適合条件に適合する領域を顔領域として検出する処理を、前記顔認識処理として実行することを特徴とする画像処理装置である。
このように構成された発明では、上記した画像処理方法の発明と同様に、画像の方向に応じて設定した一部領域を検索領域としているので、短時間で顔認識処理を行うことが可能である。検索領域を画像の方向に応じて設定することで、顔の位置分布の傾向に関する知見を反映させた顔認識処理を効率よく短時間で行うことが可能である。
図1は、本発明にかかる画像処理装置の一実施形態を用いた印刷システムを示す図である。この印刷システムは、デジタルカメラ200の撮影により取得された画像データを、メモリカードM、USB(Universal Serial Bus)ケーブルや無線LAN(Local Area Network)等によって印刷装置100に転送し、印刷装置100で印刷するものである。すなわち、ここではユーザーがデジタルカメラ200で画像を撮影して画像データを生成し、その画像データをそのまま印刷装置100で読み込んで印刷する、いわゆるダイレクト印刷を想定しているが、本発明を適用可能な印刷システムはこれに限定されるものではない。つまり、デジタルカメラ200で生成した画像データをパーソナルコンピューターや携帯電話などに取り込み、パーソナルコンピューターから印刷装置100に画像データを送信して印刷する印刷システムにも本発明を適用することが可能である。さらに、このような印刷装置100を備えるシステムに限定されず、画像データに対して種々の処理を施す画像処理装置全般に対して、本発明を適用可能である。
デジタルカメラ200では、同図に示すように、CPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、CCD(Charge Coupled Device)204、グラフィックプロセッサー(Graphic Processor;GP)205およびインターフェース(Interface;I/F)206がバス207を介して相互に接続され、これらの間で情報の授受が可能となっている。そして、CPU201はROM202に格納されているプログラムに応じて各種演算処理を実行しながらデジタルカメラ200の制御を行う。このとき一時的に必要となるデータはRAM203に格納される。また、CCD204は、光学系208によって集光された被写体からの光学像を電気信号に変換して出力する。この光学系208は、複数のレンズおよびアクチュエータによって構成されており、アクチュエータによってフォーカス等を調整しながら被写体の光学像を複数のレンズによってCCD204の受光面に結像する。さらに、GP205は、CPU201から供給される表示命令に基づいて表示用の画像処理を実行し、得られた表示用画像データを液晶ディスプレイ(Liquid Crystal Display;LCD)209に供給して表示させる。
I/F206はデジタルカメラ200の入出力機能を提供するものであり、操作ボタン210、ジャイロセンサー211およびカードI/F回路212の間で情報を授受する際に、データの表現形式を適宜変換する装置である。I/F206に接続される操作ボタン210には、電源、モード切替え、シャッターなどのボタンや、各種機能を設定できる入力手段があり、これらによってユーザーはデジタルカメラ200を任意に制御して動作させることが可能となっている。また、ジャイロセンサー211はデジタルカメラ200によって被写体を撮影した際のカメラ本体の角度(水平面に対する角度)を示す信号を生成して出力する。デジタルカメラ200は、上記したカメラ本体の角度を含め、撮影時における種々の情報(例えば、露光、被写体等に関する情報)を生成する。
なお、本実施形態では、デジタルカメラ200は、撮影情報をExif(Exchangeable Image File Format)情報に記載し、画像データに付加した画像ファイルを生成することができる構造となっている。このExif画像ファイルの構造は、基本的には通常のJPEG(Joint Photographic Experts Group)画像形式そのものであり、その中にサムネイル画像や撮影関連データ等のデータをJPEGの規約に準拠した形で埋め込んだものである。これらのデータ規格はいずれも公開されたものであるので、ここでは詳しい説明を省略する。
また、カードI/F回路212はカードスロット213に挿入されたメモリカードMとの間で情報を読み書きするためのインタフェースである。さらに、I/F206は図示を省略するUSB、無線LANなどの外部機器との接続機能も有しており、有線または無線にて印刷装置100との間で画像ファイルの授受が可能となっている。
印刷装置100はデジタルカメラ200で撮像された画像を印刷する装置であり、次のように構成されている。印刷装置100では、CPU101、ROM102、RAM103、EEPROM(Electrically Erasable and Programmable ROM)104、GP105およびI/F106がバス107を介して相互に接続され、これらの間で情報の授受が可能となっている。CPU101はROM102およびEEPROM104に格納されているプログラムに応じて各種演算処理を実行するとともに印刷装置100の各部を制御する。また、CPU101が実行対象とするプログラムやデータについてはRAM103に一時的に格納される一方、印刷装置の電源が切断された後も保持しておくデータ等についてはEEPROM104に格納される。さらに、CPU101は必要に応じてGP105に対して表示命令を与え、この表示命令に応じてGP105が表示用の画像処理を実行し、その処理結果をLCD108に供給して表示させる。
I/F106は、操作ボタン109、カードI/F回路110およびプリンターエンジンコントローラー111の間で情報を授受する際に、データの表現形式を適宜変換する装置である。印刷装置100では、操作ボタン109は印刷装置100のメニュー選択等を行う時に押されるように構成されている。また、カードI/F回路110は、カードスロット112と接続されており、このカードスロット112に挿入されたメモリカードMからデジタルカメラ200によって生成された画像ファイルを読み出す。なお、I/F106は、図示を省略するUSB、無線LANなどの外部機器との接続機能も有しており、有線通信または無線通信にてデジタルカメラ200との間で画像ファイルの授受が可能となっている。
そして、印刷装置100は、メモリカードMを介して、あるいはデータ通信により画像データを受け取ると、CPU101により種々の処理を行うとともにプリンターエンジンコントローラー111によりプリンターエンジン113を制御し、これによって画像データに対応する画像を印刷する。以下、本実施形態における画像処理動作および印刷動作について、図2ないし図7を参照しつつ詳述する。
図2および図3は図1の印刷装置で実行される画像処理および印刷動作を示すフローチャートである。ユーザーが印刷装置100のカードスロット112にメモリカードMを挿入し、操作ボタン109を操作して印刷指令を与えると、CPU101がROM102に格納されているプログラムにしたがって装置各部を制御して以下の画像処理および印刷動作を実行する。
まず、CPU101は、印刷の対象となる画像ファイルをメモリカードMから取得し、ハフマン解凍処理を実行し、量子化DCT(Discrete Cosine Transform)係数を得る(ステップS10)。より具体的には、CPU101は、メモリカードMから取得した画像ファイルからエントロピー符号化テーブルを取得し、圧縮データに含まれているY(輝度)成分、Cr(色差成分)、および、Cb(色差成分)のそれぞれのブロックのDC係数と、AC係数とを復号する。なお、この際、最小符号化単位であるMCU(Minimum Coded Unit)単位で復号を行う。
また、CPU101は、ステップS10において得られた量子化DCT係数を逆量子化する(ステップS11)。具体的には、CPU101は、画像ファイルから量子化テーブルを取得し、ステップS10において得られた量子化DCT係数に乗じることにより(逆量子化することにより)、DCT係数を得る。
次に、CPU101は、画像を回転させるために必要な情報(ローテート情報)を、例えばRAM103にキャッシュする(ステップS12)。具体的には、JPEG方式によって圧縮された画像を回転させる場合、MCUのDC成分(直流成分)とAC成分(交流成分)のそれぞれを一度ハフマン展開しなければならない。ここで、DC成分については隣接するDC成分値の差分をハフマン符号化することから、隣接するMCUとの相関関係が問題となる。また、AC成分ではハフマン符号化処理によりそのデータ長が各MCUで一定にならず、JPEGデータのビットストリーム中のどのデータが求めるMCUのAC成分値であるかが不明となることが問題となる。そこで、ステップS12では、各MCUのDC成分値とAC成分のアドレスを求めてキャッシュしておくことにより、ローテート処理を可能とする。
そして、CPU101はステップS11で得られたDCT係数に対して逆DCT演算を施すことによりもとの画素値を得る(ステップS13)。また、CPU101は、ステップS13の処理によって得られたYCC空間の画像をRGB(Red Green Blue)空間の画像と、HSB(Hue Saturation Brightness)空間の画像に変換する(ステップS14)。
そして、CPU101はステップS13およびステップS14の処理において得られたYCC,RGB,HSBのそれぞれの画像をRAM103に格納して保持する。なお、このとき、データ量を削減するために画素を所定の割合で間引きし画像を縮小した後にRAM103に格納してもよい(ステップS15)。ここでは、元の画像サイズに関わらず、QVGA(Quarter Video Graphics Array)サイズに相当する(320×240)ピクセルの画像に正規化するものとする。
また、CPU101は、ステップS15においてRAM103に格納されたYCC,RGB,HSBそれぞれの画像の成分について、ヒストグラムを計算する(ステップS16)。具体的には、RGB画像については、R,G,Bそれぞれの画像についてヒストグラムを計算する。その結果、画像を構成する各成分の分布を得る。
上記したように、本実施形態では、ステップS10〜16の処理はMCU単位で行われており、CPU101は、全てのMCUについての処理が終了したことを確認するまで、ステップS10に戻って処理を繰り返して実行する。一方、全てのMCUについての処理が終了した場合には、次のステップS17に進み、顔認識処理の主要部に相当する処理を実行する。
ステップS17では、メモリカードMから取得した画像ファイルに含まれる、当該画像撮像時のデジタルカメラ200のオリエンテーション情報を読み出し(ステップS17)、当該画像が横長画像であるか縦長画像であるかを判別する(ステップS18)。デジタルカメラ200では、ジャイロセンサー211からの出力に基づき、撮像時のカメラの水平方向に対する向きを把握することが可能であり、例えば光軸周りのカメラの回転角に応じて0°、90°、180°、270°の4段階に分けて表すことができる。本来横長であるJPEG方式の画像データでは、回転角0°および180°の画像は横方向を長辺とする画像であり「横長画像」であると言える。一方、回転角90°および270°の画像は縦方向を長辺とする「縦長画像」である。Exif画像ファイルでは、このような画像方向(オリエンテーション)に関するタグがヘッダ情報として記録されており、上記したオリエンテーション情報としてはこのタグを用いることが可能である。
続く処理では、画像が横長画像であるか縦長画像であるかに応じて、顔認識のための以下の認識パラメータ、すなわち検索上端Ymin、検索下端Ymax、検索左端Xmin、検索右端Xmax、閾値上端TYmin、閾値下端TYmax、閾値左端TXmin、閾値右端TXmaxの値をそれぞれ個別に設定する。これらのパラメータの意味について、次に説明する。
図4は人物を含む横長画像および縦長画像の例を示す図である。図4(a)に示すように、被写体として人物を含む横長画像ITは、人物と共に風景を含んだいわゆるランドスケープ画像であったり、多数の人物が並んだ画像である場合が多い。すなわち、画像に含まれる顔の1つ1つは比較的小さく、数が多い。これに対して、図4(b)に示すように、人物を含む縦長画像ILでは、少人数で各人の顔を比較的大きく撮ったポートレート画像であることが多い。すなわち、画像に含まれる顔の1つ1つが大きく、数が少ない。前掲の特許文献1では、この点に着目して、画像方向に応じて、顔認識におけるテンプレートのサイズおよび認識する顔の数を異ならせていた。一方、本願発明者は人物を含む種々の画像をさらに解析して次のような知見を得た。
図5は横長画像および縦長画像における顔検出頻度の統計を示す図である。より具体的には、図5(a)は種々の横長画像について顔認識を行ったときに、画像内のどの位置で顔が検出されたかを統計的に示している。また、図5(b)は縦長画像で同様の統計を取った結果を示している。横長画像ITでは、図5(a)に示すように、顔が検出された位置は概ね中央付近やや上寄りに分布の盛り上がりがみられるが比較的ばらつきが大きい。これに対して、縦長画像ILでは、図5(b)に示すように、中央上寄りの位置により明確な分布のピークが見られる。上記した特許文献1の技術では、このような統計的な顔位置の分布に対する知見は考慮されていなかったため、十分に効率的な処理を行えず、顔認識処理に時間がかかってしまう可能性があった。
これに対して、本実施形態では、上記知見に鑑みて次のような顔認識処理を行うことにより、より短時間で効率よく顔認識を行えるようにしている。すなわち、画像全体を処理対象とするのではなく、上記知見から顔認識を行う蓋然性が低い領域を除外して顔認識を行うことにより、処理対象領域を限定して処理時間を短縮する。ここでいう「蓋然性が低い領域」とは、統計的にみて顔がある確率が低く、主要な顔はこれ以外の領域にあると考えられるような領域であり(つまり、この領域に顔があったとしても顔認識における重要度が低い)、画像の端部付近が該当する。
また、上記したように顔検出頻度は画像の中央付近で高く、この領域において検出される「顔に似た領域」が実際に顔である確率は、周辺部よりも高い。このことから、テンプレートとのマッチングによる顔の検索においては、このように顔検出頻度の高い領域では比較的緩やかな適合条件を用いることで処理時間を短縮することができる。その一方、より周辺部に近い領域では、顔と紛らわしい他の画像を顔として誤検出することがないように比較的厳しい適合条件を適用することが考えられる。このように、画像の顔検出頻度に応じてマッチングにおける適合条件に差をつけることで、誤認識の確率を低く抑えながら、短時間で効率よく顔認識を行うことができる。
より具体的には、画像内で顔の検索を行う処理対象領域(検索領域)を設定するに当たって、比較的緩やかな適合条件(第1適合条件)でテンプレートとのマッチングを行う領域(第1検索領域)と、より厳しい適合条件(第2適合条件)でマッチングを行う領域(第2検索領域)とをそれぞれ設定して顔認識を行う。そして、上記したように画像が横長であるか縦長であるかによって顔検出頻度の分布が異なるから、この実施形態では、第1検索領域および第2検索領域を画像方向に応じて個別に設定するようにしている。
図6はこの実施形態における検索領域を示す図である。QVGAサイズ(320×240ピクセル)で表現された処理対象画像IM内に、上記した2種類の検索領域を設定する。図6において二点鎖線で囲まれた領域R2が上記した「第2検索領域」であり、これよりも外側の領域R3は顔の検索が行われない「非検索領域」である。また、第2検索領域R2の内部で一点鎖線で囲まれた領域R1が「第1検索領域」であり、第1検索領域R1はその周囲を第2検索領域R2に囲まれており、後述するように第2検索領域R2よりも緩やかな適合条件で検索が行われる。
先に挙げた各認識パラメータは、画像内における第1および第2検索領域の外縁を規定するパラメータである。具体的には、図6に示すように、画像の左上を原点として、検索上端Yminおよび検索下端Ymaxは、第2検索領域R2のY方向における上端(Yの値が小さい側の端部)および下端(Yの値が大きい側の端部)をそれぞれ表している。また、検索左端Xminおよび検索右端Xmaxは、第2検索領域R2の左端(Xの値が小さい側の端部)および右端(Xの値が大きい側の端部)をそれぞれ表している。さらに、閾値上端TYminおよび閾値下端TYmaxは第1検索領域R1のY方向における上端および下端を、閾値左端TXminおよび閾値右端TXmaxは第1検索領域R1のX方向における左端および右端を、それぞれ表している。なお、以下においては、これらの各値はQVGAサイズ画像におけるピクセル数によって表される。
図2のステップS19に示すように、画像が横長画像であった場合には、各認識パラメータの値をそれぞれ、
検索上端Ymin=0、
検索下端Ymax=210、
検索左端Xmin=30、
検索右端Xmax=290、
閾値上端TYmin=30、
閾値下端TYmax=140、
閾値左端TXmin=60、
閾値右端TXmax=260、
に設定する。一方、画像が縦長画像であった場合には(ステップS20)、
検索上端Ymin=0、
検索下端Ymax=230、
検索左端Xmin=30、
検索右端Xmax=210、
閾値上端TYmin=30、
閾値下端TYmax=160、
閾値左端TXmin=60、
閾値右端TXmax=180、
に設定する。
検索上端Ymin=0、
検索下端Ymax=210、
検索左端Xmin=30、
検索右端Xmax=290、
閾値上端TYmin=30、
閾値下端TYmax=140、
閾値左端TXmin=60、
閾値右端TXmax=260、
に設定する。一方、画像が縦長画像であった場合には(ステップS20)、
検索上端Ymin=0、
検索下端Ymax=230、
検索左端Xmin=30、
検索右端Xmax=210、
閾値上端TYmin=30、
閾値下端TYmax=160、
閾値左端TXmin=60、
閾値右端TXmax=180、
に設定する。
図7は横長画像および縦長画像における検索領域の設定例を示す図である。図7(a)は、横長画像において上記した数値例により設定される第1および第2検索領域R1,R2の位置および大きさを示しており、図7(b)は縦長画像において上記した数値例により設定される第1および第2検索領域R1,R2の位置および大きさを示している。これらの設定値には、図5に示す顔の位置分布に関する知見が反映されている。
すなわち、図7(a)に示すように、画像の長辺方向(X方向)を横方向とする横長画像では、第1検索領域R1、第2検索領域R2が比較的広く設定される。また、第1検索領域R1は画像の上下方向において中央よりやや上寄りで、しかも左右方向には比較的広い範囲に設定され、第2検索領域はこれを取り囲むように設定される。一方、図7(b)に示すように、画像の長辺方向(X方向)を縦方向とする縦長画像では、第1検索領域R1、第2検索領域R2がより狭く、特に第1検索領域R1は画像の中央上寄り位置に絞って設定される。
図2に戻って、こうして検索領域を設定して行う顔認識処理の具体的内容について説明する。なお、以下において単に「検索領域」という場合、当該語句は第1領域R1と第2検索領域R2とを合わせた領域を示すものとする。CPU101は、顔認識に用いるテンプレートの顔サイズSを所定の初期値、この例では240に設定して(ステップS21)、そのテンプレートをQVGAサイズに縮小された処理対象画像内の検索領域の左上隅(X=Xmin,Y=Ymin)に位置させる(ステップS22、S23)。
そして、CPU101は、テンプレートを検索領域内で適宜に移動設定しながら、当該検索領域内に人の顔としての特徴を備える領域があるか否かを判定することにより顔認識を行う。なお、顔認識アルゴリズムとしては公知のものを適用可能であるので、ここでは詳しい説明を省略する。
ここで、CPU101は、保持した画像データを90゜、180゜および270゜回転させて顔認識処理を行う(ステップS24〜S26)。顔認識アルゴリズムにおいて、テンプレートに対して回転角度±45°の範囲で顔認識を行えるようにしておけば、このように90度ずつ画像を回転させてその都度テンプレートとのマッチングによる顔認識を行うことで、任意の角度を向いた顔を検出することが可能となる。なお、本実施形態では画像データを回転させて顔認識を行っているが、テンプレートを回転させて顔認識を行ってもよい。
テンプレートとのマッチングの結果、現在テンプレートのある領域が人の顔である可能性が高いと判断されたときには、当該領域を候補領域として、その候補領域がどの程度の確率で人の顔であるかを示す「顔信頼度」を算出する。ここではその確率を0〜1000の数値で表し、数値が大きいほど確率が高いものとする。この顔信頼度に対して所定の閾値を設定しておき、候補領域の顔信頼度がその閾値よりも大きければ、当該候補領域を人の顔である可能性が極めて高い「顔領域」であると判定する。
ここで、顔信頼度に対して設定される閾値が、第1検索領域R1と第2検索領域R2とで異なるようにする。すなわち、第2検索領域R2に対して適用する閾値を、第1検索領域R1に対して適用する閾値よりも大きな値とする。これにより、第2検索領域R2においては第1検索領域R1よりも厳しい適合条件が与えられることになる。具体的には次のような処理を行う。
ステップS28では、現在テンプレートのある位置が第1検索領域R1内であるか否かを、その座標位置(X,Y)から判断する。ステップS28の条件、
TYmin<Y<TYmax、かつ、TXmin<X<TXmax
が成立するとき、テンプレートは第1検索領域R1内にある。そこで、この条件が成立するときには(ステップS28において「YES」)、顔信頼度に対する閾値を比較的低い値、例えば400に設定し(第1検索条件)、これより高い顔信頼度であれば当該領域が顔であると判断する(ステップS29)。一方、上記条件が成立しなければ(ステップS28において「NO」)、テンプレートは第2検索領域R2内にある。そこで、このとき顔信頼度の閾値をより大きな値、例えば800に設定し(第2検索条件)、これより高い顔信頼度であれば当該領域が顔であると判断する(ステップS30)。
TYmin<Y<TYmax、かつ、TXmin<X<TXmax
が成立するとき、テンプレートは第1検索領域R1内にある。そこで、この条件が成立するときには(ステップS28において「YES」)、顔信頼度に対する閾値を比較的低い値、例えば400に設定し(第1検索条件)、これより高い顔信頼度であれば当該領域が顔であると判断する(ステップS29)。一方、上記条件が成立しなければ(ステップS28において「NO」)、テンプレートは第2検索領域R2内にある。そこで、このとき顔信頼度の閾値をより大きな値、例えば800に設定し(第2検索条件)、これより高い顔信頼度であれば当該領域が顔であると判断する(ステップS30)。
当該領域が顔であると判断されたときには(ステップS29またはS30において「YES」)、当該領域の位置およびサイズに関する情報、例えば矩形領域の4つの頂点座標を顔情報として、例えばRAM103に設けた顔登録リストに登録する(ステップS31)。そして、テンプレートをX方向に所定量ΔXだけ移動させて(ステップS32)、テンプレートがX方向における画像の端部に到達するまで(ステップS33)、上記したステップS23〜S31の処理を繰り返す。
X方向の1ラインの顔認識が完了すると、CPU101はテンプレートをY方向にΔYだけ移動させる(ステップS34)。そして、テンプレートがY方向の端部まで移動するまでの間(ステップS35)、上記したステップS23〜S33の処理を繰り返して行う。これにより、処理対象画像の全体について、顔サイズSのテンプレートを用いた顔認識処理が実行される。
なお、CPU101は、上記した一連の顔認識処理(ステップS22〜S35)が完了する毎にテンプレートの顔サイズSをΔSだけ小さくし(ステップS36)、顔サイズSが所定の有効最小顔サイズ、例えば20を下回るまでステップS22に戻って上記した一連の顔認識処理を繰り返して行う(ステップS37)。こうすることで、画像内の種々のサイズの顔を検出することが可能となる。
こうして、印刷装置100による顔認識処理が行われると、次のステップS40(図3)では、CPU101は顔登録リストに顔情報が登録されている否かを判別する。そして、顔情報が登録されている場合(ステップS40で「YES」)には、CPU101は、顔登録リストに登録された顔情報に基づいて全ての顔位置を計算し、さらに顔の平均顔色を取得した(ステップS41)後、顔色が最適になるようにエンハンスパラメータを計算する(ステップS42)。なお、エンハンスパラメータ計算の詳細については省略するが、RAM103に記憶したRGBヒストグラムに基づきコントラスト、明度、彩度、シャープネスなどの各画質パラメータの特徴量を抽出し、抽出した特徴量が所定の画質パラメータの特徴量に近づくようエンハンスのパラメータを設定する。
一方、顔登録リストに顔情報が登録されていない場合(ステップS40で「NO」)、つまり当該画像内で人の顔が検出されなかった場合には、CPU101は画像全体が最適になるようにエンハンスパラメータを計算する(ステップS43)。
続いて、CPU101は、印刷対象となる画像ファイルにおいて、解凍処理の対象となる位置を示すファイルポインタをリセットし(ステップS44)、処理位置を画像ファイルの先頭に復元する。そして、CPU101は、以下のステップS45〜S52を繰り返して画像データに基づいて画像を印刷する。
CPU101は、RAM103にキャッシュされた1MCUライン分の画像データにハフマン解凍処理を施し、量子化DCT係数を得る(ステップS45)。ここで、1MCUラインとは、画像を回転させる場合には、画像を構成する列方向に1列のMCU群をいい、回転させない場合には、画像を構成する行方向に1列のMCU群をいう。そして、CPU101は、ステップS45の処理において得られた量子化DCT係数を逆量子化し(ステップS46)、さらにステップS45で得られたDCT係数に対して逆DCT演算を施すことによりもとのデータを得る(ステップS47)。
こうして得られたYCC空間の画像を、CPU101はRGB空間の画像に変換する(ステップS48)。そして、CPU101は、RGB空間の画像を構成する各画素に対してステップS42またはS43において算出したエンハンスパラメータを適用することにより、印刷される画像を最適な色合いに補正し(ステップS49)、次のステップS50に進む。
CPU101は、こうして補正された画像データに対して、リサイズ、回転などのレイアウト処理を施し(ステップS50)、プリンターエンジンコントローラー111の図示せぬバンドバッファに供給する。これを受けたプリンターエンジンコントローラー111は、プリンターエンジン113の各部を制御して画像データに対応する画像を印刷する(ステップS51)。そして、印刷処理が完了すると、CPU101はRAM103のキャッシュ状態を更新する(ステップS52)。そして、全MCUライン分について上記ステップS45〜S52が完了すると、一連の処理を終了する。
以上のように、本実施形態によれば、画像から人の顔に相当する顔領域を検索するのに際して、画像のうちの一部領域を検索領域として当該検索領域内のみ検索を行い、しかも、検索領域については画像の方向に応じてその設定を異ならせている。こうすることにより、画像方向と顔の位置分布との相関性に関する知見を処理に反映させて、短時間で効率よく顔認識処理を行うことが可能となっている。
より具体的には、画像が横長画像であるときには顔の位置が比較的広い範囲に分散する傾向がある一方、縦長画像であるときには顔の位置が中央付近に集中しているという統計的知見に基づき、横長画像では比較的広い検索領域を設定する一方、縦長画像ではより狭い検索領域を設定している。またそれぞれの検索領域の位置についても、統計的に顔検出頻度が高かった位置に設定されるようにしている。
また、統計的には顔の検出頻度が画像の中央部分で特に高くなっていることに鑑み、画像の中央部分では比較的緩い適合条件を適用して顔認識を行うことで、処理時間の短縮を図っている。一方、周辺部分ではより厳しい適合条件を適用することで、「顔に似た特徴を有するが顔ではない」領域を顔として誤認識する確率を低減させている。こうすることで、誤認識を抑えながら、短時間で効率よく顔認識を行うことができる。
以上説明したように、上記実施形態の印刷システムにおいては、印刷装置100が本発明の「画像処理装置」として機能しており、CPU101が本発明の「処理手段」に相当している。また、デジタルカメラ200からメモリカードMを介して画像ファイルを受け取るカードI/F回路110およびインターフェース106が、本発明の「画像取得手段」および「方向情報取得手段」として機能している。すなわち、この実施形態では、画像ファイルに含まれるオリエンテーション情報(Exifにおけるオリエンテーションタグ)が、本発明の「方向情報」に相当している。
また、この実施形態の画像処理動作(図2)においては、ステップS17が本発明の「情報取得工程」に相当し、ステップS18〜S20が本発明の「検索領域設定工程」に相当している。さらに、この処理では、ステップS21〜S37が本発明の「顔認識処理工程」に相当している。
なお、本発明は上記した実施形態に限定されるものではなく、その趣旨を逸脱しない限りにおいて上述したもの以外に種々の変更を行うことが可能である。例えば、上記実施形態では、画像データに方向座標などを付加した画像ファイルをメモリカードMに記録し、当該メモリカードMを介して印刷装置100に供給して印刷しているが、有線または無線通信により画像ファイルが印刷装置100に供給される場合も、本発明を適用することで上記した実施形態と同様の作用効果が得られる。
また、上記実施形態において設定される第1検索領域および第2検索領域のサイズや位置は単なる一例を開示したものにすぎず、これらのサイズおよび位置については上記したものに限定されず適宜に設定してよい。また、サイズおよび位置のうち一方のみを画像方向に応じて変更するようにしてもよい。
また、上記実施形態では、画像内に2段階の検索領域(第1検索領域,第2検索領域)を設定し、それぞれの領域において異なる適合条件を適用して顔認識を行っているが、このように2段階の適合条件を用いることは必須の要件というわけではない。また、例えば中央付近で顔が検出される蓋然性の高い縦長画像においては上記実施形態のように2段階の適合条件に基づく顔認識を行う一方、顔の位置が分散する傾向のある横長画像については単一の適合条件に基づく顔認識を行うようにしてもよい。また、上記実施形態では画像の方向に応じて第1検索領域、第2検索領域とも変更しているが、いずれか一方のみを変更しても構わない。
また、上記実施形態では、本発明にかかる画像処理装置および方法を印刷装置100に適用しているが、複数の電子機器から構成される印刷システムにも、また印刷装置以外の1つの電子機器(例えば複合機、ファクシミリ装置など)にも適用可能である。
またデジタルカメラ200に上記のような画像処理機能を設け、デジタルカメラ200を本発明の「画像処理装置」として機能させるようにしてもよい。この場合、CCD204から出力される画像信号から所定フォーマット(例えばExif)の画像ファイルが作成されるよりも前の処理工程にも本発明を適用することが可能であり、例えば、ジャイロセンサー211を本発明の「方向情報取得手段」として機能させ、該センサーからの出力自体、あるいは該出力に基づき得られる当該カメラの方向に関する情報を本発明の「方向情報」として用いることが可能である。この場合には、CCD204が本発明の「画像取得手段」として機能することとなる。
また、上記実施形態にかかる画像処理方法を実行する制御プログラムを、CD−ROM、光ディスク、光磁気ディスク、不揮発性メモリカードなどの記憶媒体に記憶させ、この記憶媒体からプログラムをコードとして読み出し、コンピューターにおいて実行してもよい。つまり、上記プログラムを記憶した記憶媒体、制御プログラム自体も本発明の一実施形態に含まれる。例えば、デジタルカメラで撮像された画像をパーソナルコンピューターもしくはワークステーション上で編集処理するためのアプリケーションソフトウェアにも、本発明を適用することが可能である。
100…印刷装置(画像処理装置)、 101…CPU(処理手段)、 102…ROM、 103…RAM、 104…EEPROM、 106…インターフェース(画像取得手段、方向情報取得手段)、 200…デジタルカメラ、 M…メモリカード
Claims (7)
- 画像ファイルに含まれる画像から人の顔に相当する顔領域を検索する顔認識処理を実行する画像処理方法において、
前記画像ファイルに含まれる前記画像の方向に関する方向情報を取得する情報取得工程と、
前記方向情報に基づいて、前記画像のうちの一部領域を検索領域として設定する検索領域設定工程と、
前記検索領域設定工程において設定された前記検索領域内で、所定の適合条件に適合する領域を前記顔領域として検出する前記顔認識処理を実行する顔認識処理工程と
を備え、
前記検索領域設定工程では、前記画像の方向に応じて前記検索領域を異ならせる
ことを特徴とする画像処理方法。 - 前記検索領域設定工程では、前記画像の方向が縦長画像に対応するものであるとき、前記画像の方向が横長画像に対応するものであるときよりも前記検索領域を狭くする請求項1に記載の画像処理方法。
- 前記検索領域設定工程では、前記適合条件としての第1適合条件に対応する前記検索領域を第1検索領域として、前記第1適合条件よりも適合範囲の狭い前記適合条件としての第2適合条件に対応する前記検索領域を第2検索領域としてそれぞれ設定し、前記第1検索領域および前記第2検索領域の少なくとも一方を、前記画像の方向に応じて異ならせる請求項1または2に記載の画像処理方法。
- 前記第2検索領域が前記第1検索領域の周囲を取り囲むように設定される請求項3に記載の画像処理方法。
- 前記顔認識処理工程では、前記検索領域内において前記適合条件に対する適合度の高い領域を候補領域として検出するとともに当該候補領域の画像が人の顔である確率を算出し、該確率が所定の閾値よりも大きいときに当該候補領域を前記顔領域とし、しかも、前記第1検索領域に対応する前記閾値よりも、前記第2検索領域に対応する前記閾値を高く設定する請求項3または4に記載の画像処理方法。
- 画像ファイルに含まれる画像の方向に関する方向情報を取得する情報取得工程と、
前記方向情報に基づき、前記画像のうち前記画像の方向に応じた一部領域を検索領域として設定する検索領域設定工程と、
前記画像のうち前記検索領域設定工程において設定された前記検索領域内で、人の顔に対応する所定の適合条件に適合する領域を顔領域として検出する顔認識処理を実行する顔認識処理工程と
をコンピューターに実行させることを特徴とする制御プログラム。 - 画像を取得する画像取得手段と、
前記画像の方向に関する方向情報を取得する方向情報取得手段と、
前記画像から人の顔に相当する顔領域を検索する顔認識処理を実行する処理手段と
を備え、
前記処理手段は、前記方向情報に基づいて、前記画像のうち前記画像の方向に応じた一部領域を検索領域として、該検索領域内で人の顔に対応する所定の適合条件に適合する領域を顔領域として検出する処理を、前記顔認識処理として実行する
ことを特徴とする画像処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010270017A JP2012118896A (ja) | 2010-12-03 | 2010-12-03 | 画像処理方法、制御プログラムおよび画像処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010270017A JP2012118896A (ja) | 2010-12-03 | 2010-12-03 | 画像処理方法、制御プログラムおよび画像処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012118896A true JP2012118896A (ja) | 2012-06-21 |
Family
ID=46501609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010270017A Withdrawn JP2012118896A (ja) | 2010-12-03 | 2010-12-03 | 画像処理方法、制御プログラムおよび画像処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012118896A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070037A (zh) * | 2019-04-22 | 2019-07-30 | 深圳力维智联技术有限公司 | 人脸识别模型的平滑升级方法、装置和可读存储介质 |
-
2010
- 2010-12-03 JP JP2010270017A patent/JP2012118896A/ja not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070037A (zh) * | 2019-04-22 | 2019-07-30 | 深圳力维智联技术有限公司 | 人脸识别模型的平滑升级方法、装置和可读存储介质 |
CN110070037B (zh) * | 2019-04-22 | 2022-11-01 | 深圳力维智联技术有限公司 | 人脸识别模型的平滑升级方法、装置和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4556813B2 (ja) | 画像処理装置、及びプログラム | |
JP2007074578A (ja) | 画像処理装置、撮影装置、及びプログラム | |
JP2012027687A (ja) | 画像処理装置及びプログラム | |
JP2004023158A (ja) | 画像撮像装置 | |
JP6564136B2 (ja) | 画像処理装置、画像処理方法、および、プログラム | |
JP5609555B2 (ja) | 画像処理装置、プログラムおよび画像処理方法 | |
JP5819378B2 (ja) | 画像判定装置、画像処理システム、プログラム及び記録媒体 | |
JP2012175500A (ja) | 画像処理方法、制御プログラムおよび画像処理装置 | |
US20090324063A1 (en) | Image processing method and apparatus for correcting specific part | |
JP2006279460A (ja) | 画像処理装置、印刷装置、画像処理方法、および、画像処理プログラム | |
JP2012118896A (ja) | 画像処理方法、制御プログラムおよび画像処理装置 | |
JP4222013B2 (ja) | 画像修正装置、文字認識方法及び画像修正プログラム | |
JP5830851B2 (ja) | 画像処理装置、画像処理プログラムおよび画像処理方法 | |
JP5644578B2 (ja) | 画像処理装置、画像処理方法および画像処理のためのコンピュータープログラム | |
JP4742642B2 (ja) | 画像処理装置、印刷装置、画像処理方法、および、画像処理プログラム | |
JP5625832B2 (ja) | 画像処理装置および画像処理方法 | |
JP2012146164A (ja) | 画像処理方法、制御プログラムおよび画像処理装置 | |
JP2011118944A (ja) | 画像処理装置、印刷装置、画像処理方法、及びコンピュータープログラム | |
JP5500048B2 (ja) | 画像処理方法および画像処理装置 | |
JP6600090B2 (ja) | 画像処理装置、画像処理方法、および、プログラム | |
JP2006048223A (ja) | 画像処理装置及び画像処理方法及びコンピュータプログラム | |
JP2005202834A (ja) | 文字認識システム、文字認識方法及び文字認識プログラム | |
JP2012108763A (ja) | 画像処理方法および画像処理装置 | |
JP2012099897A (ja) | 画像処理方法および画像処理装置 | |
JP6624106B2 (ja) | 画像読取装置、画像形成システム、画像読取方法及び画像読取プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140204 |