JP2011103561A

JP2011103561A - 画像処理システム、画像処理装置、画像処理方法、およびプログラム

Info

Publication number: JP2011103561A
Application number: JP2009257666A
Authority: JP
Inventors: Yuichi Hasegawa; 雄一長谷川; Jun Yokono; 順横野; Keisuke Yamaoka; 啓介山岡
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-11-11
Filing date: 2009-11-11
Publication date: 2011-05-26
Anticipated expiration: 2029-11-11
Also published as: US20150199563A1; US9547791B2; JP5553141B2; CN102073974B; CN102073974A; EP2339536A2; US20110110594A1; EP2339536A3; EP2339536B1; US9020210B2

Abstract

【課題】画像中の人物の位置および姿勢に適した画像処理を自動的に行う。
【解決手段】メモリ１４には、人物の特定の姿勢を表現する特定姿勢データと、画像に施す加工を指定する演出加工データとが対応付けられて登録されているデータベースが記憶されている。人物領域検出エンジン２４は、画像処理の対象とされる画像において人物が写されている領域である人物領域を検出し、人物姿勢認識エンジン２５は、その人物領域内の人物の姿勢を認識する。そして、マッチングエンジン２６は、メモリ１４に記憶されているデータベースを参照し、人物領域検出エンジン２４により認識された姿勢に適合する特定姿勢データを求め、画像加工エンジン２７は、マッチングエンジン２６により求められた特定姿勢データに対応付けられている演出加工データに基づいて、画像に対する加工を施す。本発明は、例えば、デジタルカメラに適用できる。
【選択図】図３

Description

本発明は、画像処理システム、画像処理装置、画像処理方法、およびプログラムに関し、特に、画像中の人物の位置および姿勢に適した画像処理を自動的に行うことができるようにした画像処理システム、画像処理装置、画像処理方法、およびプログラムに関する。

一般的に、人物が写っている画像に画像処理を施し、その人物に対する演出（特殊効果の加工）を行う作業においては、画像処理を行う作業者が、画像のどこに人物が写っているのか、どの人物にどのような演出を施すべきなのかということを判断する必要がある。例えば、疾走している人物が写っている画像に、より強い疾走感を持たせる演出を行う場合には、画像中の人物の位置を特定する工程や、人物の姿勢に応じた演出を選択する工程などが必要であり、従来、それらの工程が作業者の手作業により行われている。

一方、コンピュータグラフィックスによるアニメーションの画像は、カメラワークやキャラクタの動作などが記述されたシナリオ情報に基づいて画像が構築されている。従って、そのシナリオ情報を利用することで、コンピュータグラフィックスによるアニメーションの画像に対して半自動的に演出を施すことができる（例えば、特許文献１参照）。しかしながら、実際に撮像装置で撮像されたいわゆる実写画像は、そのようなシナリオ情報に基づいた画像ではないので、実写画像に対して、半自動的に演出を施すことは困難である。

また、顔認識技術を応用して、画像から認識された顔領域に加工を施す技術がある。顔認識技術を応用した加工では、加工対象は顔領域のみであることが多いが、例えば、顔領域の下方に身体が存在するというルールを適用することで、身体部分に対して加工を施すことができる。しかしながら、このような顔認識技術を応用した加工では、人物の姿勢に応じて加工結果が不自然になることがある。

例えば、図１を参照して、顔認識技術を応用して、画像中の人物に衣装を着せる演出例について説明する。

図１Ａに示すように、縦向き姿勢の人物が写されている入力画像Ｐ１に対して、顔領域の下方に身体が存在するというルールを適用して、衣装画像Ｐ２を重畳させる演出を行った出力画像Ｐ３では、比較的に自然な加工結果が得られる。これに対し、図１Ｂに示すように、横向き姿勢の人物が写されている入力画像Ｐ１’に対して、顔領域の下方に身体が存在するというルールを適用して、衣装画像Ｐ２を重ね合わせる演出を行った出力画像Ｐ３’は、不自然な加工結果となる。

このように、顔認識技術を応用して、画像中の人物に適した演出を施す画像処理を行っても、画像中の人物の位置および姿勢に適した結果を得ることは困難である。

特許第４２４５４３３号

上述したように、画像中の人物に対する演出を行う画像処理では、画像処理を行う作業者の手作業により、画像中の人物の位置を特定したり、人物の姿勢に応じた演出を選択したりする工程が必要であり、画像中の人物の位置および姿勢に適した画像処理を自動的に行うことは困難であった。

本発明は、このような状況に鑑みてなされたものであり、画像中の人物の位置および姿勢に適した画像処理を自動的に行うことができるようにするものである。

本発明の一側面の画像処理システムまたは画像処理装置は、人物の特定の姿勢を表現する特定姿勢データと、画像に施す加工を指定する演出加工データとが対応付けられて登録されているデータベースを記憶する記憶手段と、画像処理の対象とされる画像において人物が写されている領域である人物領域を検出する人物領域検出手段と、前記人物領域検出手段により検出された人物領域内の人物の姿勢を認識する人物姿勢認識手段と、前記記憶手段に記憶されているデータベースを参照して、前記人物姿勢認識手段により認識された姿勢に適合する前記特定姿勢データを求めるマッチング手段と、前記マッチング手段により求められた前記特定姿勢データに対応付けられている前記演出加工データに基づいて、前記画像に対する加工を施す加工手段とを備える。

本発明の一側面の画像処理方法またはプログラムは、画像処理の対象とされる画像において人物が写されている領域である人物領域を検出し、検出された前記人物領域内の人物の姿勢を認識し、人物の特定の姿勢を表現する特定姿勢データと、画像に施す加工を指定する演出加工データとが対応付けられて登録されているデータベースを記憶する記憶手段に記憶されているデータベースを参照して、認識された前記姿勢に適合する前記特定姿勢データを求め、求められた前記特定姿勢データに対応付けられている前記演出加工データに基づいて、前記画像に対する加工を施すステップを含む。

本発明の一側面においては、画像処理の対象とされる画像において人物が写されている領域である人物領域が検出され、その人物領域内の人物の姿勢が認識される。そして、人物の特定の姿勢を表現する特定姿勢データと、画像に施す加工を指定する演出加工データとが対応付けられて登録されているデータベースを参照して、認識された姿勢に適合する特定姿勢データが求められ、求められた特定姿勢データに対応付けられている演出加工データに基づいて、画像に対する加工が施される。

本発明の一側面によれば、画像中の人物の位置および姿勢に適した画像処理を自動的に行うことができる。

顔認識技術を応用して、画像中の人物に衣装を着せる演出例について説明する図である。画像中の人物に適した演出を行う画像処理について説明する図である。本発明を適用したデジタルカメラの一実施の形態の構成例を示すブロック図である。画像中の人物に演出を行う画像処理を説明するフローチャートである。画像処理が施された演出例を示す図である。画像処理が施された演出例を示す図である。人物姿勢データに用いられる１０個のパーツを示す図である。演出加工データの一例を示す図である。画像処理の工程を説明する図である。画像処理の工程を説明する図である。画像処理の工程を説明する図である。複数の人物が写されている画像に対する画像処理について説明する図である。デジタルカメラの表示部の表示例を示す図である。本発明を適用した画像処理システムの一実施の形態の構成例を示すブロック図である。本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

まず、図２を参照して、画像中の人物に適した演出を行う画像処理について説明する。

図２には、画像処理の対象となる入力画像Ｐ１１、入力画像Ｐ１１から人物領域および人物姿勢を検出した処理中画像Ｐ１２、および、入力画像Ｐ１１に対して画像処理が施された結果得られる出力画像Ｐ１３が示されている。

入力画像Ｐ１１には疾走している人物が映されており、入力画像Ｐ１１に対して人物が写されている領域を検出する処理が行われ、処理中画像Ｐ１２に示すように、点線で囲われた領域が人物領域として検出される。そして、入力画像Ｐ１１中の人物領域に対して、人物の姿勢を認識する処理が行われ、処理中画像Ｐ１２に示すような太線で表現される形状が人物姿勢として検出される。

そして、このような人物姿勢にマッチングする演出として、より強い疾走感を表現する効果のある加工画像（例えば、人物により切り裂かれる風を表現する画像）が選択され、その加工画像を入力画像Ｐ１１に重畳する画像処理が施される。これにより、画像中の人物に適した演出（人物の動作や心情などを強調する特殊効果のある加工）が行われた出力画像Ｐ１３を得ることができる。

次に、図３は、本発明を適用したデジタルカメラの一実施の形態の構成例を示すブロック図である。

図３において、デジタルカメラ１１は、撮像部１２、信号処理部１３、メモリ１４、表示部１５、および入力部１６から構成され、デジタルカメラ１１に対し、記録メディア１７が着脱可能とされている。

撮像部１２は、レンズおよび絞りなどからなる光学系と、CCD（Charge Coupled Device）やCMOS（Complementary Metal-Oxide Semiconductor）センサなどからなるイメージャとを備えて構成される。撮像部１２は、光学系によりイメージャの受光部に結像された光学的な被写体の画像を電気信号に変換して、変換により得られた画像の電気信号を信号処理部１３に供給する。

信号処理部１３は、複数の電子部品が設けられた基板として構成されるか、またはシステムIC（Integrated Circuit）などとして構成される。信号処理部１３は、撮像部１２から供給された画像の電気信号に各種の信号処理を適用して、画像データを生成する。また、撮像部１２は、画像データに各種の画像処理を適用する。

メモリ１４は、ROM(Read Only Memory)，RAM(Random Access Memory)、およびEEPROM（Electronically Erasable and Programmable Read Only Memory）などのフラッシュメモリから構成される。メモリ１４は、信号処理部１３における信号処理において必要となる各種のデータ（データベース）を格納したり、信号処理の対象となる画像データを一時的に記憶する。

表示部１５は、LCD（Liquid Crystal Display）や有機EL（Electro Luminescence）ディスプレイなどからなり、信号処理部１３の制御に応じて、各種の画像を表示する。

入力部１６は、ボタン、スイッチ、または表示部１５に重ねて設けられるタッチパネルなどからなり、ユーザの操作に応じた信号を信号処理部１３に供給する。

記録メディア１７は、不揮発性の半導体メモリなどを内蔵するメモリカードなどの媒体であり、デジタルカメラ１１または他のデジタルカメラで撮像された画像の画像データが記憶（記録）されている。なお、記録メディア１７は、半導体メモリなどを内蔵するメモリカードに限らず、ハードディスクなどの磁気ディスク、またはDVD（Digital Versatile Disc）などの光ディスク若しくは光磁気ディスクなどであってもよい。また、記録メディア１７は、着脱可能なものの他、デジタルカメラ１１に内蔵されているものであってもよい。

信号処理部１３は、カメラ信号処理エンジン２１、JPEG（Joint Photographic Experts Group）エンジン２２、解像度変換エンジン２３、人物領域検出エンジン２４、人物姿勢認識エンジン２５、マッチングエンジン２６、画像加工エンジン２７、画像表示用エンジン２８、制御用CPU（Central Processing Unit）２９、画像信号用バス３０、制御信号用バス３１、外部メディアコントローラ３２、入力インタフェース３３、およびデータバス３４から構成される。

カメラ信号処理エンジン２１、JPEGエンジン２２、解像度変換エンジン２３、人物領域検出エンジン２４、人物姿勢認識エンジン２５、マッチングエンジン２６、画像加工エンジン２７、画像表示用エンジン２８、制御用CPU２９、データバス３４、およびメモリ１４は、画像データの信号である画像信号が伝送される画像信号用バス３０によって相互に接続されている。

カメラ信号処理エンジン２１、JPEGエンジン２２、解像度変換エンジン２３、人物領域検出エンジン２４、人物姿勢認識エンジン２５、マッチングエンジン２６、画像加工エンジン２７、および画像表示用エンジン２８は、それぞれ、画像データを画像信号用バス３０を介してメモリ１４に供給し、画像データをメモリ１４に一時的に記憶させるか、またはメモリ１４に一時的に記憶されている画像データを、画像信号用バス３０を介してメモリ１４から読み出す。

また、カメラ信号処理エンジン２１、JPEGエンジン２２、解像度変換エンジン２３、人物領域検出エンジン２４、人物姿勢認識エンジン２５、マッチングエンジン２６、画像加工エンジン２７、画像表示用エンジン２８、および制御用CPU２９は、制御信号が伝送される制御信号用バス３１によって相互に接続されている。

制御用CPU２９は、制御信号用バス３１を介して制御信号を取得し供給することで、カメラ信号処理エンジン２１、JPEGエンジン２２、解像度変換エンジン２３、人物領域検出エンジン２４、人物姿勢認識エンジン２５、マッチングエンジン２６、画像加工エンジン２７、および画像表示用エンジン２８のそれぞれを制御する。

さらに、制御用CPU２９、外部メディアコントローラ３２、および入力インタフェース３３は、データバス３４によって相互に接続されている。

制御用CPU２９は、データバス３４を介して外部メディアコントローラ３２を制御し、外部メディアコントローラ３２に、画像信号用バス３０およびデータバス３４を介して供給された画像データを記録メディア１７に記憶させる。また、制御用CPU２９は、外部メディアコントローラ３２に、記録メディア１７に記憶されている画像データを記録メディア１７から読み出させる。

カメラ信号処理エンジン２１は、制御信号用バス３１を介した制御用CPU２９の制御の基に、撮像部１２から供給された画像の電気信号に、デジタル信号への変換、ノイズ除去、またはホワイトバランスの調整などの各種の信号処理を適用する。カメラ信号処理エンジン２１は、信号処理を適用して得られた画像データをメモリ１４に一時的に記憶させる。

JPEGエンジン２２は、制御信号用バス３１を介した制御用CPU２９の制御の基に、カメラ信号処理エンジン２１から供給され、メモリ１４に一時的に記憶されている画像データを、メモリ１４から読み出して、JPEG方式で符号化する。JPEGエンジン２２は、符号化された画像データを画像信号用バス３０およびデータバス３４を介して、外部メディアコントローラ３２に供給する。この場合、外部メディアコントローラ３２は、JPEG方式で符号化された画像データを記録メディア１７に記憶（記録）させる。

また、JPEGエンジン２２は、制御信号用バス３１を介した制御用CPU２９の制御の基に、外部メディアコントローラ３２によって、記録メディア１７から読み出された、JPEG方式で符号化されている画像データを画像信号用バス３０およびデータバス３４を介して取得して、JPEG方式で符号化されている画像データを復号する。JPEGエンジン２２は、復号された画像データをメモリ１４に一時的に記憶させる。

解像度変換エンジン２３は、制御信号用バス３１を介した制御用CPU２９の制御の基に、メモリ１４に一時的に記憶されている画像データを、画像信号用バス３０を介してメモリ１４から読み出して、画像の解像度を変換する処理を画像データに適用する。解像度変換エンジン２３は、解像度が変換された画像の画像データを、画像信号用バス３０を介してメモリ１４に供給し、メモリ１４に一時的に記憶させる。

人物領域検出エンジン２４は、制御信号用バス３１を介した制御用CPU２９の制御の基に、メモリ１４に一時的に記憶されている画像データを、画像信号用バス３０を介してメモリ１４から読み出して、読み出された画像データによる画像中で人物が写されている領域である人物領域を検出する処理を行う。

例えば、人物領域検出エンジン２４は、読み出した画像から異なるスケール係数の画像を生成し、それらのスケール係数の異なる画像ごとに特徴点を抽出して、特徴点に対しフィルタ処理を施して特徴量を算出し、特徴量を用いた統計学習により、人物領域を検出するする方法により、人物領域を検出する処理を行う。なお、例えば、人物領域を検出する方法としては、このような方法に限られるものではなく、例えば、論文「Navneet Dalal and Bill Triggs,“Histograms of Oriented Gradients for Human Detection”,CVPR,2005」で紹介された方法など、他の方法を採用してもよい。

人物姿勢認識エンジン２５は、人物領域を検出する処理を行った結果、画像中の人物領域を指定する人物領域データを取得し、画像信号用バス３０または制御信号用バス３１を介して、人物姿勢認識エンジン２５に人物領域データを供給する。

人物姿勢認識エンジン２５は、制御用CPU２９の制御の基に、メモリ１４に一時的に記憶されている画像データを、画像信号用バス３０を介してメモリ１４から読み出して、人物姿勢認識エンジン２５からの人物領域データにより指定される領域内おいて人物姿勢を認識する処理を行う。

人物姿勢を認識する処理では、図７を参照して後述するように、画像に写されている人物の姿勢が、例えば、１０個のパーツで表現される。人物姿勢認識エンジン２５は、人物姿勢を認識する処理を行った結果、人物姿勢を表現する各パーツの位置からなる人物姿勢データを取得し、画像信号用バス３０または制御信号用バス３１を介してマッチングエンジン２６に供給する。

マッチングエンジン２６は、制御用CPU２９の制御の基に、メモリ１４に格納されている演出データベースを参照して、人物姿勢認識エンジン２５からの人物姿勢データにより表現される姿勢に適した演出加工データを決定する。メモリ１４には、例えば、様々な特定の姿勢を表現する特定姿勢データと、各特定姿勢データに適した演出加工データとが対応付けられた演出データベースが格納されている。

マッチングエンジン２６は、メモリ１４の演出データベースに登録されている全ての特定姿勢データにより表現される姿勢と、人物姿勢認識エンジン２５により認識された姿勢とのマッチングを行い、マッチングスコア（後述する式（１０）の距離Ｄ）を算出する。そして、マッチングエンジン２６は、最も高い値のマッチングスコアが得られた特定姿勢データに対応付けられている演出加工データを、画像中の人物の姿勢に適した演出加工データとして決定する。

画像加工エンジン２７は、制御用CPU２９の制御の基に、メモリ１４に一時的に記憶されている画像データを、画像信号用バス３０を介してメモリ１４から読み出して、マッチングエンジン２６により決定された演出加工データを用いて画像を加工する処理を行う。例えば、画像加工エンジン２７は、図９乃至１１を参照して後述するように、加工画像を重畳したり、フィルタを施す加工を行う。

画像表示用エンジン２８は、制御信号用バス３１を介した制御用CPU２９の制御の基に、メモリ１４に一時的に記憶されている画像データを、画像信号用バス３０を介してメモリ１４から読み出して、読み出された画像データに応じた画像を表示部１５に表示させる。また、画像表示用エンジン２８は、制御用CPU２９の制御に応じて、GUI（Graphical User Interface）の画像を表示部１５に表示させる。

制御用CPU２９は、組み込み型のCPUから構成されるか、またはシステムICに内蔵されているCPUとして構成される。制御用CPU２９は、内蔵されているROMまたはRAMに記憶されているプログラムを実行して、入力インタフェース３３およびデータバス３４を介して供給される使用者の操作に応じた入力部１６からの信号に応じて、制御信号用バス３１を介して制御信号を取得し供給することで、カメラ信号処理エンジン２１、JPEGエンジン２２、解像度変換エンジン２３、人物領域検出エンジン２４、人物姿勢認識エンジン２５、マッチングエンジン２６、画像加工エンジン２７、画像表示用エンジン２８、外部メディアコントローラ３２、および入力インタフェース３３を制御する。

外部メディアコントローラ３２は、画像データを含む各種のデータの、装着された記録メディア１７への記憶（記録）を制御すると共に、装着された記録メディア１７に記憶（記録）されている各種のデータの読み出しを制御する。なお、記録メディア１７が磁気ディスクまたは光ディスクなどである場合、図示せぬドライブが設けられ、外部メディアコントローラ３２は、そのドライブによる記録メディア１７へのデータの記録または読み出しを制御する。

入力インタフェース３３は、入力部１６からの信号を入力して、入力した信号を整形し、所定の方式にするなどして、入力部１６からの信号を、データバス３４を介して制御用CPU２９に供給する。

このように構成される信号処理部１３では、例えば、撮像部１２により撮像されて記録メディア１７に記憶された画像を処理の対象として、画像中の人物に演出を行う画像処理が行われる。

図４は、図１の信号処理部１３が、画像中の人物に演出を行う画像処理を説明するフローチャートである。

例えば、ユーザが、人物が映されている画像を指定して画像処理を行うように、デジタルカメラ１１の入力部１６に対して操作を行うと処理が開始される。ステップＳ１１において、制御用CPU２９は、外部メディアコントローラ３２を制御して、ユーザにより指定された画像の画像データを記録メディア１７から読み出させ、その画像データを、画像信号用バス３０を介してメモリ１４に記憶させる。

ステップＳ１１の処理後、処理はステップＳ１２に進み、人物領域検出エンジン２４は、ステップＳ１１でメモリ１４に記憶された画像データに対応する画像（以下、適宜、入力画像と称する）に対して人物領域を検出する処理を行い、入力画像中で人物が写されている領域である人物領域を検出する。そして、人物領域検出エンジン２４は、入力画像中の人物領域を指定する人物領域データを人物姿勢認識エンジン２５に供給し、処理はステップＳ１３に進む。

ステップＳ１３において、人物姿勢認識エンジン２５は、人物領域検出エンジン２４からの人物領域データによって指定される人物領域に対して人物姿勢を認識する処理を行う。人物姿勢認識エンジン２５は、人物姿勢を表現する各パーツの位置からなる人物姿勢データを取得し、マッチングエンジン２６に供給して、処理はステップＳ１４に進む。

ステップＳ１４において、マッチングエンジン２６は、メモリ１４に格納されている演出データベースに登録されている特定姿勢データにより表現される姿勢と、人物姿勢認識エンジン２５からの人物姿勢データにより表現される姿勢とのマッチングを行って、マッチングスコアを算出する。

ステップＳ１５において、マッチングエンジン２６は、ステップＳ１４で算出したマッチングスコアに基づいて、ステップＳ１３で検出された人物姿勢と合致する特定姿勢があるか否かを判定する。例えば、マッチングエンジン２６は、所定の閾値以上のマッチングスコアが算出された場合、ステップＳ１３において検出された人物姿勢と合致する特定姿勢があると判定し、処理はステップＳ１６に進む。

ステップＳ１６において、マッチングエンジン２６は、所定の閾値以上のマッチングスコアが算出された特定姿勢のうちの、最も高い値のマッチングスコアが算出された特定姿勢に対応付けられている演出加工データを、入力画像中の人物の姿勢に適した演出加工データとして決定する。

ステップＳ１７において、画像加工エンジン２７は、ステップＳ１６で決定された演出加工データに従って入力画像を加工し、加工した結果得られる画像（以下、適宜、出力画像と称する）に応じた画像データをメモリ１４に記憶させる。

ステップＳ１８において、画像表示用エンジン２８は、メモリ１４に記憶されている出力画像の画像データを読み出して、その画像データに応じた画像を表示部１５に表示させ、処理は終了する。

一方、ステップＳ１５において、マッチングエンジン２６が、ステップＳ１３で検出された人物姿勢と合致する特定姿勢がないと判定した場合、例えば、ステップＳ１４で算出された全てのマッチングスコアが所定の閾値未満であった場合、処理はステップＳ１９に進む。

ステップＳ１９において、制御用CPU２９は、画像表示用エンジン２８を制御して、指定された画像中の人物の姿勢に適した演出を施すことができない旨のメッセージを表示部１５に表示させ、処理は終了する。

以上のように、信号処理部１３では、人物領域検出エンジン２４により検出された人物領域における人物姿勢が人物姿勢認識エンジン２５により認識され、マッチングエンジン２６によりその人物姿勢に適合（一致、またはある程度で略一致）する演出加工データが決定され、その演出加工データに従って画像が加工される。従って、信号処理部１３では、入力画像中の人物の位置および姿勢に適した、より自然な演出を行う画像処理を自動的に施すことができる。

例えば、図５および図６に、信号処理部１３により画像処理が施された演出例を示す。

例えば、図５に示すように、両手を挙げてガッツポーズをしている人物が写されている入力画像Ｐ２１が画像処理の対象とされると、人物領域検出エンジン２４は、入力画像Ｐ２１に対して人物領域を検出する処理（図４のステップＳ１２）を行う。その結果、人物領域検出エンジン２４は、処理中画像Ｐ２２に示されている点線で囲われた領域を人物領域として検出する。

そして、人物姿勢認識エンジン２５は、この人物領域に対して人物姿勢を認識する処理（図４のステップＳ１３）を行って、処理中画像Ｐ２２に示すような太線で表現される形状を人物姿勢として認識する。

その後、マッチングエンジン２６は、人物姿勢認識エンジン２５により認識された人物姿勢に合致する特定姿勢を求め、その特定姿勢に対応付けられている演出加工データを決定する（図４のステップＳ１６）。例えば、両手を挙げてガッツポーズをしている人物に適した演出加工データとして、人物を中心として広がる効果線と、立体的に飛び出す「ヤッター！！」という文字とを含む加工画像からなる演出加工データが決定される。そして、画像加工エンジン２７が、入力画像Ｐ２１に対して演出加工データに基づいた加工を施す（図４のステップＳ１７）ことにより、出力画像Ｐ２３が得られる。

また、図６に示すように、両手および両膝を地面に付いた姿勢の人物が写されている入力画像Ｐ３１が画像処理の対象とされると、人物領域検出エンジン２４は、入力画像Ｐ３１に対して人物領域を検出する処理（図４のステップＳ１２）を行う。その結果、人物領域検出エンジン２４は、処理中画像Ｐ３２に示されている点線で囲われた領域を人物領域として検出する。

そして、人物姿勢認識エンジン２５は、この人物領域に対して人物姿勢を認識する処理（図４のステップＳ１３）を行って、処理中画像Ｐ３２に示すような太線で表現される形状を人物姿勢として認識する。

その後、マッチングエンジン２６は、人物姿勢認識エンジン２５により認識された人物姿勢に合致する特定姿勢を求め、その特定姿勢に対応付けられている演出加工データを決定する（図４のステップＳ１６）。例えば、両手および両膝を地面に付いた姿勢の人物に適した演出加工データとして、人物の上方からスポットライトを浴びせたような領域以外を暗くするフィルタと、斜めになった「がっかり」という文字の加工画像からなる演出加工データが決定される。そして、画像加工エンジン２７が、入力画像Ｐ３１に対して演出加工データに基づいた加工を施す（図４のステップＳ１７）ことにより、出力画像Ｐ３３が得られる。

次に、人物姿勢認識エンジン２５による人物姿勢を検出する処理、および、マッチングエンジン２６がマッチングを行う処理について説明する。

図７には、人物姿勢認識エンジン２５が人物姿勢を検出する処理を行った結果得られる人物姿勢データに用いられる１０個のパーツが示されている。

人物姿勢認識エンジン２５は、図７に示すような１０個のパーツParts１乃至Parts１０により、画像中の人物の姿勢を検出する。パーツParts１は頭部に対応し、パーツParts２は体部に対応し、パーツParts３は右上腕部に対応し、パーツParts４は左上腕部に対応し、パーツParts５は右下腕部に対応し、パーツParts６は左下腕部に対応し、パーツParts７は右上脚部に対応し、パーツParts８は左上脚部に対応し、パーツParts９は右下脚部に対応し、パーツParts１０は左下脚部に対応する。

人物姿勢認識エンジン２５は、画像から検出したパーツPartsi（i＝１，２，・・・，１０）の両端の座標を、パーツPartsiの位置情報ｐ_i＝（ｘ_i1，ｙ_i1，ｘ_i2，ｙ_i2）として求め、画像中の人物の姿勢を示す姿勢データＬ＝｛ｐ₁，ｐ₂，・・・，ｐ₁₀｝を取得する。また、例えば、人物姿勢認識エンジン２５は、人物の上半身だけが画像に写されている場合には、上半身のパーツParts１乃至Parts６から求められる人物の上半身の姿勢を示す姿勢データＬ＝｛ｐ₁，ｐ₂，・・・，ｐ₆｝を取得する。

上述したように、メモリ１４には、様々な特定の姿勢を表現する特定姿勢データと、各姿勢データに適した演出加工データとが対応付けられた演出データベースが格納されており、マッチングエンジン２６は、それらの特定姿勢データごとに、画像から検出した姿勢データＬとのマッチングを行う。即ち、メモリ１４に登録されている特定姿勢データをＬｏとすると、マッチングエンジン２６は、特定姿勢データＬｏと姿勢データＬとについてパーツごとに位置の差を求める。

まず、マッチングエンジン２６は、特定姿勢データＬｏと姿勢データＬとの大きさを揃えるために、特定姿勢データＬｏのパーツPartsiの長さ｜Ｌｏ_i｜と、姿勢データＬのパーツPartsiの長さ｜Ｌ_i｜とを、次の式（１）および式（２）を演算して求める。

・・・（１）

・・・（２）

但し、ｘｏ_i2は、特定姿勢データＬｏのパーツPartsiの下端のｘ座標であり、ｘｏ_i1は、特定姿勢データＬｏのパーツPartsiの上端のｘ座標であり、ｙｏ_i2は、特定姿勢データＬｏのパーツPartsiの下端のｙ座標であり、ｙｏ_i1は、特定姿勢データＬｏのパーツPartsiの上端のｙ座標である。また、ｘ_i2は、姿勢データＬのパーツPartsiの下端のｘ座標であり、ｘ_i1は、姿勢データＬのパーツPartsiの上端のｘ座標であり、ｙ_i2は、姿勢データＬのパーツPartsiの下端のｙ座標であり、ｙ_i1は、姿勢データＬのパーツPartsiの上端のｙ座標である。

なお、例えば、特定姿勢データＬｏと姿勢データＬとの大きさを揃える処理では、頭部（パーツParts１）の大きさや、体部（パーツParts２）の大きさに基づいて処理を行うことで、より確実なマッチング結果を得ることができる。

そして、マッチングエンジン２６は、特定姿勢データＬｏと姿勢データＬとの大きさを揃えるためのスケール係数ｓを、次の式（３）を演算して求める。

・・・（３）

次に、マッチングエンジン２６は、姿勢データＬの全体的な傾きを特定姿勢データＬｏの全体的な傾きに揃えるために、特定姿勢データＬｏの任意のパーツPartsiに対する、姿勢データＬの任意のパーツPartsiの傾きθ_iを、次の式（４）から求める。例えば、マッチングエンジン２６は、特定姿勢データＬｏの体部（パーツParts２）に対して姿勢データＬの体部の傾きを揃えることで、姿勢データＬの全体的な傾きを特定姿勢データＬｏの全体的な傾きに揃えることができる。

・・・（４）

但し、ａｒｇ（ｐｏ_i）は、特定姿勢データＬｏのパーツPartsiの角度を表し、ａｒｇ（ｐ_i）は、姿勢データＬのパーツPartsiの角度を表しており、例えば、角度ａｒｇ（ｐ_i）は、次の式（５）に基づいて、パーツPartsiの位置情報ｐ_i＝（ｘ_i1，ｙ_i1，ｘ_i2，ｙ_i2）から求められる。

・・・（５）

そして、次の式（６）に示す回転行列Ｒ（θ_i）を用いて、パーツPartsiの位置情報ｐ_i＝（ｘ_i1，ｙ_i1，ｘ_i2，ｙ_i2）、傾きθ_i、およびスケール係数ｓ（上述の式（３））から、次の式（７）により、特定姿勢データＬｏに傾きおよび大きさが揃えられた姿勢データＬ’を構成するパーツPartsiの位置情報ｐ’_i＝（ｘ_i1’，ｙ_i1’，ｘ_i2’，ｙ_i2’）が求められる。

・・・（６）

・・・（７）

マッチングエンジン２６は、このようにして求めたパーツPartsiの位置情報ｐ’_iから、特定姿勢データＬｏの傾きおよび大きさに合わされた姿勢データＬ’（Ｌ’＝｛ｐ₁’，ｐ₂’，・・・，ｐ₁₀’｝）を算出する。

さらに、マッチングエンジン２６は、特定姿勢データＬｏと姿勢データＬ’とのパーツごとに、次の式（８）または式（９）のいずれかを演算することで、パーツごとに位置の差Ｄ_i（i＝１，２，・・・，１０）を求める。

・・・（８）

・・・（９）

そして、マッチングエンジン２６は、式（８）または式（９）により求められた差Ｄ_iの総数の和を求めることで、即ち、次の式（１０）を演算することで、特定姿勢データＬｏと姿勢データＬとの距離Ｄを算出する。

・・・（１０）

マッチングエンジン２６は、このような距離Ｄを算出する処理を、メモリ１４に登録されている全ての特定姿勢データを対象として行う。距離Ｄは、マッチングスコアであり、距離Ｄが小さい値となる特定姿勢データＬｏほど、画像中の人物の人物姿勢に似た姿勢となる。

なお、メモリ１４に格納されている演出データベースでは、人物の姿勢に応じて特定姿勢データが分類され、例えば、縦向き姿勢の特定姿勢データと、横向き姿勢の特定姿勢データとが分類されている。従って、マッチングエンジン２６は、人物姿勢認識エンジン２５により認識された人物姿勢が縦向きであるか横向きであるかに応じて（例えば、パーツParts２の向きに応じて）、それぞれ対応する特定姿勢データとのマッチングを行う。

即ち、マッチングエンジン２６は、人物姿勢認識エンジン２５により認識された人物姿勢が縦向きであれば、メモリ１４に格納されている演出データベースで縦向きの姿勢で分類されている特定姿勢データとのマッチングを行い、人物姿勢認識エンジン２５により認識された人物姿勢が横向きであれば、メモリ１４に格納されている演出データベースで横向きの姿勢で分類されている特定姿勢データとのマッチングを行う。このように人物の向きに応じて分類された特定姿勢データとのマッチングを行うことで、マッチングに要する時間を短縮することができる。

さらに、メモリ１４に格納される演出データベースでは、縦向き姿勢と横向き姿勢とで特定姿勢データが分類されているだけでなく、姿勢の傾き度合いに応じてさらに細かく特定姿勢データが分類されていてもよい。この場合、マッチングエンジン２６は、人物姿勢認識エンジン２５により認識された人物姿勢の傾き度合いに応じて、メモリ１４に格納されている演出データベースで、その傾き度合いに分類されている特定姿勢データとのマッチングを行うことができる。これにより、人物姿勢の複数の傾き度合いにそれぞれ適した特定姿勢データを、短時間で求めることができる。

このように、人物姿勢認識エンジン２５が姿勢データＬ＝｛ｐ₁，ｐ₂，・・・，ｐ₁₀｝を求め、マッチングエンジン２６が距離Ｄを求めることにより、画像中の人物の姿勢（腕や脚の位置など）に適合する特定姿勢データを決定することができる。

なお、例えば、人物姿勢を認識する方法としては、上述したような方法に限られるものではなく、例えば、論文「Deva Ramanan,“Learning to parse images of articulated bodies”,NIPS,2006」で紹介された方法など、他の方法を採用してもよい。この論文で紹介された方法では、人物の姿勢とともに背景と人物領域との差を、より詳細に得ることができる。

そして、画像加工エンジン２７が、マッチングエンジン２６により決定された特定姿勢データに対応付けられている演出加工データに基づいて画像を加工することにより、画像中の人物の姿勢に適した演出を施す画像処理を行うことができる。また、画像加工エンジン２７は、画像中の人物の大きさおよび位置（例えば、人物領域検出エンジン２４により検出された人物領域の大きさおよび位置）に従って、演出を施す大きさおよび位置を調整し、画像中の人物の大きさおよび位置に適した演出を施す画像処理が行われる。

次に、図８には、メモリ１４に記憶される演出加工データの一例が示されている。

演出加工データは、パーツＩＤ（Identification）、アルファマスク、加工方法ＩＤ、および回転情報から構成される。

パーツＩＤは、演出加工データによる加工の対象となる人物のパーツを指定するデータであり、例えば、頭部、体部、左上腕部、右上腕部、左下腕部、右下腕部の６つの部分を指定する。画像加工エンジン２７では、パーツＩＤにより指定されるパーツごとに、演出加工データに基づく加工が行われる。例えば、頭部の演出加工データではパーツＩＤが１に設定され、体部の演出加工データではパーツＩＤが２に設定され、左上腕部の演出加工データではパーツＩＤが３に設定され、右上腕部の演出加工データではパーツＩＤが４に設定され、左下腕部の演出加工データではパーツＩＤが５に設定され、右下腕部の演出加工データではパーツＩＤが６に設定される。

アルファマスクは、パーツＩＤにより指定されるパーツの位置に対する相対位置として、加工を施す領域を表現する加工度データである。例えば、アルファマスクの値が100である場合、出力画像におけるアルファマスクに対応する領域は、100％の割合で加工画像に置き換えられる。また、アルファマスクの値がαである場合、出力画像におけるアルファマスクに対応する領域は、出力画像の画素値＝入力画像の画素値×（1.0−α／100）＋加工画像の画素値×α／100の割合で、加工画像に置き換えられる。

加工方法ＩＤは、加工画像を重畳する加工方法と、フィルタを施す加工方法とのいずれかを指定するデータである。加工画像を重畳する加工方法は、予め用意された加工画像を入力画像に重畳して出力画像を得る方法であり、フィルタを施す加工方法は、入力画像に対してフィルタをかけることにより出力画像を得る方法である。

回転情報は、入力画像に対する、アルファマスクで表現された加工領域の回転に関するデータである。例えば、入力画像に写されている人物の傾きに依存せず、常に入力画像の向きに合わせて加工をする演出加工データにおいては、回転しない旨を示すデータが回転情報に保持される。

また、加工画像を重畳する加工方法は、画像パターンおよび画像パラメタを有し、フィルタを施す加工方法は、フィルタ係数およびフィルタパラメタを有している。

画像パターンは、ＲＧＢαの４チャンネルで表される加工画像を保持する。例えば、加工方法ＩＤが、加工画像を重畳する加工方法を指定している場合、画像パターンに保持されている加工画像が、アルファマスクに基づいて入力画像に重畳される。

画像パラメタは、加工画像を入力画像に重畳させる際の各種のパラメタを保持する。例えば、画像パラメタに保持されるパラメタには、入力画像に対して加工画像をどのように回転させるかを指定する情報が保持される。例えば、加工の対象となるパーツの向きに応じて加工するような加工画像に対しては、「回転しない」という情報が画像パラメタに保持される。また、例えば、火炎を表す加工画像に対しては、火炎は常に画像上方に立ち上がるように表示されることが望ましく、「画像上方を向く」という情報が画像パラメタに保持される。

また、画像パラメタには、加工画像をより効果的に入力画像に加工する場合に、その効果を指定する情報が保持される。例えば、火炎を表す加工画像に対しては、加工画像に対して揺らめくような処理を施して入力画像に加工することを指定する情報が画像パラメタに保持される。

フィルタ係数は、入力画像に施す空間フィルタの係数を保持する。例えば、加工方法ＩＤが、フィルタを施す加工方法を指定している場合、フィルタ係数に保持されている係数のフィルタが、アルファマスクに基づいて入力画像に施される。

フィルタパラメタは、入力画像にフィルタを施す際の各種のパラメタを保持する。フィルタパラメタに保持されるパラメタとしては、平滑化フィルタによるモザイク処理において、モザイク処理の間隔（Ｎ画素おき）を指定する数値や、画像を暗くするフィルタにおいて、入力画像の明るさに対する割合（例えば、２０％など）を指定する数値などがある。

図９乃至図１１を参照して、演出加工データに基づく画像処理の工程について説明する。

図９には、両手を挙げてガッツポーズをしている人物が写された入力画像Ｐ４１に対し、演出加工データに基づいて、右下腕パーツ（パーツＩＤ：６）に対する画像処理が行われる例が示されている。

図９の例における演出加工データには、アルファマスクαＭ１１に示すように、太線で示されている右下腕パーツの近傍における斜線のハッチングで示されている領域に加工度１００が指定され、他の領域に加工度０が指定されるデータが保持されている。また、演出加工データの加工方法ＩＤでは、フィルタを施す加工方法が指定されている。フィルタ係数には、フィルタ係数ｆ１１に示すようなＮ×Ｎの平滑フィルタが保持されており、フィルタパラメタには、Ｎ画素おきに適用するという情報が保持されている。

このような演出加工データに基づく画像処理において、処理中画像Ｐ４２に示すように、入力画像Ｐ４１で認識された右下腕パーツに、アルファマスクαＭ１１の右下腕パーツが重なるように、アルファマスクαＭ１１の大きさ、向き、および位置が調整される。このように入力画像Ｐ４１に重ねられたアルファマスクαＭ１１の加工度１００で指定された領域に対し、モザイク加工（Ｎ×Ｎの平滑化フィルタをＮ画素おきに施す加工）が施されて、その領域における入力画像Ｐ４１のデータが、モザイク加工が施されたデータに置き換えられる。この結果、右下腕部にモザイク加工が施された出力画像Ｐ４３が取得される。

次に、図１０には、図９の例とは異なる演出加工データに基づいて、両手を挙げてガッツポーズをしている人物が写された入力画像Ｐ５１に対し、右下腕パーツ（パーツＩＤ：６）に対する画像処理が行われる例が示されている。

図１０の例における演出加工データには、アルファマスクαＭ１２に示すように、太線で示されている右下腕パーツの先端部分において円形の斜線のハッチングで示されている領域に加工度１００が指定され、他の領域に加工度０が指定されるデータが保持されている。また、演出加工データの加工方法ＩＤでは、加工画像を重畳する加工方法が指定されている。画像パターンには、画像パターンPTN１１に示すような火炎の加工画像が保持されており、画像パラメタには、画像上方を向くという情報が保持されている。

このような演出加工データに基づく画像処理において、処理中画像Ｐ５２に示すように、入力画像Ｐ５１で認識された右下腕パーツに、アルファマスクαＭ１２の右下腕パーツが重なるように、アルファマスクαＭ１２の大きさ、向き、および位置が調整される。このように入力画像Ｐ５１に重ねられたアルファマスクαＭ１２の加工度１００で指定された領域において画像パターンPTN１１が重畳される。このとき、画像パラメタに従って、画像パターンPTN１１の上方が、入力画像Ｐ５１の上方に一致するように、アルファマスクαＭ１２の傾きに対して画像パターンPTN１１が回転される。即ち、画像パターンPTN１１の向きが、入力画像Ｐ５１の向きと同じ向きになる。この結果、右下腕部の先端、即ち、右手の拳に火炎の加工画像を重畳した出力画像Ｐ５３が取得される。

次に、図１１には、両手および両膝を地面に付いた姿勢の人物が写された入力画像Ｐ６１に対し、演出加工データに基づいて、体部パーツ（パーツＩＤ：２）に対する画像処理が行われる例が示されている。

図１１の例における演出加工データには、アルファマスクαＭ１３に示すように、太線で示されている体部パーツを中心とした台形の領域に加工度０が指定され、その台形の領域以外の斜線のハッチングで示されている領域に加工度７０が指定されている。また、演出加工データの加工方法ＩＤでは、フィルタを施す加工方法が指定されている。フィルタ係数には、フィルタ係数ｆ１２に示すような１×１の明るさを落とすフィルタが保持されており、フィルタパラメタには、画像上方を向くという情報が保持されている。

このような演出加工データに基づく画像処理において、処理中画像Ｐ６２−１に示すように、入力画像Ｐ６１で認識された体部パーツに、アルファマスクαＭ１３の体部パーツが重なるように、アルファマスクαＭ１３の大きさ、向き、および位置が調整される。さらに、フィルタパラメタ従って、アルファマスクαＭ１３が回転されて、処理中画像Ｐ６２−２に示すように、アルファマスクαＭ１３の上方が入力画像Ｐ６１の上方に一致する。即ち、アルファマスクαＭ１３の向きが、入力画像Ｐ６１の向きと同じ向きになる。

このように設置されたアルファマスクαＭ１３の加工度７０で指定された領域に対し、明るさを落とすフィルタ、即ち、上述したアルファマスクの値がαである場合の数式に従ってフィルタが施される。この結果、人物の身体全体を残して背景を暗くするフィルタが施された出力画像Ｐ６３が取得される。

以上のように、画像加工エンジン２７は、マッチングエンジン２６により決定された演出加工データを用いて画像を加工する処理を行い、演出加工データに従った演出が施された出力画像を出力することができる。

なお、デジタルカメラ１１では、複数の人物が写されている画像に対して、画像中の人物に適した演出を行う画像処理を行うことができる。この場合、複数の人物それぞれに対して演出が施されるようにしてもよいし、所定の条件に従って演出を施す人物を特定し、その人物に対して演出が施されるようにしてもよい。演出を施す人物を特定する条件としては、例えば、中央の人物（主役と思われる人物）や、大きく映っている人物（手前に居て被写体と思われる人物）などがある。

例えば、図１２Ａに示すように、３人の人物が並んで写っている画像において、それぞれの人物領域が検出されたとしても、人物領域検出エンジン２４は、中央の人物に演出を施すという条件に従って、それらの人物領域のうちの中央の人物領域（図１２Ａにおいて太線で示されている人物領域）の人物領域データだけを人物姿勢認識エンジン２５に供給する。これにより、中央の人物に対してのみ演出が施されるようにすることができる。

また、図１２Ｂに示すように、手前の人物の後に複数の人物が写っている画像において、それぞれの人物領域が検出されたとしても、人物領域検出エンジン２４は、大きく映っている人物に演出を施すという条件に従って、それらの人物領域のうちの最も大きな人物領域（図１２Ｂにおいて太線で示されている人物領域）の人物領域データだけを人物姿勢認識エンジン２５に供給する。これにより、大きく映っている人物に対してのみ演出が施されるようにすることができる。

また、デジタルカメラ１１では、画像中の人物に適した複数の演出をユーザに提示して、それらの演出のうちの１つをユーザにより選択させることができる。

図１３は、デジタルカメラ１１の表示部１５の表示例を示す図である。

例えば、ユーザは、処理の対象とする画像を表示部１５に表示させた後、メニュー画面から、画像中の人物に適した演出を行う画像処理を行うように入力部１６を操作する。このとき、例えば、マッチングスコアが閾値以上であった特定姿勢データが複数あれば、マッチングエンジン２６は、それらの複数の特定姿勢データに対応付けられている演出加工データに基づいた加工を表すアイコン（GUI）を、画像表示用エンジン２８を介して表示部１５に表示させる。

例えば、マッチングスコアが閾値以上であった特定姿勢データが３つであった場合、図１３に示すように、表示部１５の右端に、３つの演出加工データに基づいた加工を表すアイコンが表示される。そして、ユーザが、入力部１６の上下キーを操作して１つのアイコンを選択すると、そのアイコンに対応する演出加工データに基づいて演出が施された画像のプレビューが表示部１５に表示される。その後、ユーザが入力部１６の決定キーを操作すると、表示部１５に表示されたプレビューの画像が記録メディア１７（図３）に記録される。

なお、本発明は、デジタルカメラの他、例えば、ネットワークを介して接続された複数の装置により構成される画像処理システムに適用することができる。

図１４は、本発明を適用した画像処理システムの一実施の形態の構成例を示すブロック図である。

図１４に示すように、画像処理システムは、インタネットやローカルエリアネットワークなどのネットワーク５１を介して、パーソナルコンピュータ５２、アプリケーションサーバ５３、およびデータサーバ５４が接続されて構成される。

ユーザは、パーソナルコンピュータ５２を操作し、画像処理の対象とする画像データを指定して、ネットワーク５１を介してアプリケーションサーバ５３に対して画像処理の実行を指示するコマンドを送信する。

アプリケーションサーバ５３は、図３の人物領域検出エンジン２４、人物姿勢認識エンジン２５、マッチングエンジン２６、および画像加工エンジン２７の機能を備えており、パーソナルコンピュータ５２からのコマンドに従って、指定された画像データに対する画像処理を行う。

データサーバ５４は、メモリ１４と同様に、演出データベースを格納しており、アプリケーションサーバ５３は、データサーバ５４に格納されている演出データベースを参照して画像処理を行うことができる。また、データサーバ５４には、メモリ１４よりも大量のデータが登録された演出データベースを格納することができ、より多くの特定姿勢データとのマッチングを行うことができる。

アプリケーションサーバ５３により画像処理が施された画像データは、パーソナルコンピュータ５２に送信されてユーザに提示される他、データサーバ５４に送信されて、他のユーザに公開されるようにしてもよい。また、ユーザは、パーソナルコンピュータ５２に記憶されている画像データの他、データサーバ５４に蓄積されている画像データを指定してアプリケーションサーバ５３に画像処理を実行させることができる。

なお、上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図１５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）１０１，ROM（Read Only Memory）１０２，RAM（Random Access Memory）１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウス、マイクロホンなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１１１を駆動するドライブ１１０が接続されている。

以上のように構成されるコンピュータでは、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを、入出力インタフェース１０５及びバス１０４を介して、RAM１０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU１０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア１１１に記録して、あるいは、ローカルエリアネットワーク、インタネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア１１１をドライブ１１０に装着することにより、入出力インタフェース１０５を介して、記憶部１０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１０９で受信し、記憶部１０８にインストールすることができる。その他、プログラムは、ROM１０２や記憶部１０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。また、プログラムは、１つのCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１１デジタルカメラ，１２撮像部，１３信号処理部，１４メモリ，１５表示部，１６入力部，１７記録メディア，２１カメラ信号処理エンジン，２２ JPEGエンジン，２３解像度変換エンジン，２４人物領域検出エンジン，２５人物姿勢認識エンジン，２６マッチングエンジン，２７画像加工エンジン，２８画像表示用エンジン，２９制御用CPU，３０画像信号用バス，３１制御信号用バス，３２外部メディアコントローラ，３３入力インタフェース，３４データバス，５１ネットワーク，５２パーソナルコンピュータ，５３アプリケーションサーバ，５４データサーバ

Claims

人物の特定の姿勢を表現する特定姿勢データと、画像に施す加工を指定する演出加工データとが対応付けられて登録されているデータベースを記憶する記憶手段と、
画像処理の対象とされる画像において人物が写されている領域である人物領域を検出する人物領域検出手段と、
前記人物領域検出手段により検出された人物領域内の人物の姿勢を認識する人物姿勢認識手段と、
前記記憶手段に記憶されているデータベースを参照して、前記人物姿勢認識手段により認識された姿勢に適合する前記特定姿勢データを求めるマッチング手段と、
前記マッチング手段により求められた前記特定姿勢データに対応付けられている前記演出加工データに基づいて、前記画像に対する加工を施す加工手段と
を備える画像処理システム。
前記人物領域検出手段は、画像処理の対象とされる画像に複数の人物が写されているとき、所定の条件に従って処理の対象となる人物を特定し、
前記加工手段は、前記人物領域検出手段により特定された人物に対する加工を施す
請求項１に記載の画像処理システム。
前記人物姿勢認識手段は、人物の姿勢を複数のパーツの前記画像における位置により表現し、
前記マッチング手段は、前記人物姿勢認識手段により認識された人物のパーツごとの、前記特定姿勢データにおいて対応するパーツとの位置の差から求められるマッチングスコアにより、前記特定姿勢データを求める
請求項１に記載の画像処理システム。
前記データベースでは、姿勢の傾き度合いに応じて人物の特定姿勢が分類されており、
前記マッチング手段は、前記人物姿勢認識手段により認識された人物の姿勢の傾き度合いに応じて、それぞれ対応する分類の特定姿勢とのマッチングを行う
請求項１に記載の画像処理システム。
人物の特定の姿勢を表現する特定姿勢データと、画像に施す加工を指定する演出加工データとが対応付けられて登録されているデータベースを記憶する記憶手段と、
画像処理の対象とされる画像において人物が写されている領域である人物領域を検出する人物領域検出手段と、
前記人物領域検出手段により検出された人物領域内の人物の姿勢を認識する人物姿勢認識手段と、
前記記憶手段に記憶されているデータベースを参照して、前記人物姿勢認識手段により認識された姿勢に適合する前記特定姿勢データを求めるマッチング手段と、
前記マッチング手段により求められた前記特定姿勢データに対応付けられている前記演出加工データに基づいて、前記画像に対する加工を施す加工手段と
を備える画像処理装置。
画像処理の対象とされる画像において人物が写されている領域である人物領域を検出し、
検出された前記人物領域内の人物の姿勢を認識し、
人物の特定の姿勢を表現する特定姿勢データと、画像に施す加工を指定する演出加工データとが対応付けられて登録されているデータベースを記憶する記憶手段に記憶されているデータベースを参照して、認識された前記姿勢に適合する前記特定姿勢データを求め、
求められた前記特定姿勢データに対応付けられている前記演出加工データに基づいて、前記画像に対する加工を施す
ステップを含む画像処理方法。
画像処理の対象とされる画像において人物が写されている領域である人物領域を検出し、
検出された前記人物領域内の人物の姿勢を認識し、
人物の特定の姿勢を表現する特定姿勢データと、画像に施す加工を指定する演出加工データとが対応付けられて登録されているデータベースを記憶する記憶手段に記憶されているデータベースを参照して、認識された前記姿勢に適合する前記特定姿勢データを求め、
求められた前記特定姿勢データに対応付けられている前記演出加工データに基づいて、前記画像に対する加工を施す
ステップを含む画像処理処理をコンピュータに実行させるプログラム。