JP6036447B2

JP6036447B2 - 画像回転装置、画像回転方法、およびプログラム

Info

Publication number: JP6036447B2
Application number: JP2013059427A
Authority: JP
Inventors: 聡田端; 萌子桃原; 靖寿松葉; 小川　隆; 隆小川
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2013-03-22
Filing date: 2013-03-22
Publication date: 2016-11-30
Anticipated expiration: 2033-03-22
Also published as: JP2014187451A

Description

本発明は、撮影された画像を正しい向きに回転させる画像回転装置等に関するものである。

近年、デジタルカメラやデジタルカメラを搭載したスマートフォンなどの携帯端末が普及し、ユーザが撮影した画像をブログに投稿したり、ＳＮＳ（Social Networking Service）などで共有したりするような場面が増えている。そのため、ユーザは、ネットワーク上にアップロードする都合上、高解像度で撮影した画像を容量の小さい画像に加工したりする作業を行っている。

一般に、ユーザは、被写体と周りの風景に応じて、撮影したい被写体が効果的に画角に収まるように、デジタルカメラを縦向きにしたり、横向きにしたりして撮影する。

しかしながら、ユーザは、撮影した画像をパーソナルコンピュータなどに取り込む際、デジタルカメラを横にして撮影した画像を、正しい向きに回転させる作業が生じ、画像点数が膨大になると、その作業負荷も非常に高くなってしまう。

そこで、例えば、特許文献１には、デジタルカメラの姿勢を姿勢検出センサで検出し、撮影画像を自動的に回転する技術が提案されている。

特開２０１１−１３９４９１号公報

特許文献１に記載の技術は、いわゆる、Exif（Exchangeable image file format）という形式の撮影時の条件情報をメタデータに記録することができる仕組みを搭載したデジタルカメラでなければ、自動的に回転することはできない課題があった。

本発明は、前述した問題点に鑑みてなされたもので、その目的とすることは、撮影時の条件情報が存在しなくても、撮影画像を、正しい向きに回転させることが可能な画像回転装置などを提供することである。

前述した目的を達成するための第１の発明は、入力画像を回転する画像回転装置であって、前記入力画像を複数の方向に回転し、複数の入力画像を得る画像入力手段と、前記複数の入力画像内の人物が含まれる領域をそれぞれ検出する検出手段と、前記検出手段により、１人の人物に対して検出された複数の前記領域から、領域密度が極値となる人物領域を推定する推定手段と、前記複数の入力画像のうち、前記推定手段により推定された前記人物領域の数が最も多い入力画像を選択し、選択した前記入力画像の回転方向を判定する第１の判定手段と、前記第１の判定手段により、前記人物領域の数が最も多い入力画像を選択することができなかった場合、前記検出手段により検出された複数の前記領域の数が最も多い入力画像を選択し、選択した前記入力画像の回転方向を判定する第２の判定手段と、前記第１の判定手段または前記第２の判定手段による判定結果に基づいて、前記入力画像を回転する画像回転手段と、を備えることを特徴とする画像回転装置である。
第１の発明によって、撮影時の条件情報が存在しなくても、撮影画像を、正しい向きに回転させることが可能となる。

前記複数の方向は、予め規定した第１の方向、前記第１の方向から左に９０度回転した第２の方向、前記第１の方向から左に１８０度回転した第３の方向、前記第１の方向から左に２７０度回転した第４の方向である。
これによって、撮影時の条件情報が存在しなくても、４方向に回転された入力画像を用いて撮影の向きを判定することができる。

前記第２の判定手段は、前記第１の判定手段が、前記推定手段により推定された前記人物領域の数が１つであると判定した場合にも、前記検出手段により検出された複数の前記領域の数が最も多い入力画像を選択し、選択した前記入力画像の回転方向を判定する。
これによって、精度良く画像の向きを判定することが可能となる。

前記検出手段は、前記複数の入力画像内の人物の顔または人体が含まれる領域を検出する。
また、前記検出手段は、Haar-like特徴量またはHOG（Histograms
of Oriented Gradient）特徴量を用い、前記推定手段は、Mean Shiftクラスタリングを用いる。
これによって、入力画像中の顔領域または人体領域を検出し、その検出領域から画像の向きを判定することが可能となる。

第２の発明は、入力画像を回転する画像回転装置で行われる画像回転方法であって、前記入力画像を複数の方向に回転し、複数の入力画像を得る画像入力ステップと、前記複数の入力画像内の人物が含まれる領域をそれぞれ検出する検出ステップと、前記検出ステップで、１人の人物に対して検出された複数の前記領域から、領域密度が極値となる人物領域を推定する推定ステップと、前記複数の入力画像のうち、前記推定ステップで推定された前記人物領域の数が最も多い入力画像を選択し、選択した前記入力画像の回転方向を判定する第１の判定ステップと、前記第１の判定ステップで、前記人物領域の数が最も多い入力画像を選択することができなかった場合、前記検出ステップで検出された複数の前記領域の数が最も多い入力画像を選択し、選択した前記入力画像の回転方向を判定する第２の判定ステップと、前記第１の判定ステップまたは前記第２の判定ステップによる判定結果に基づいて、前記入力画像を回転する画像回転ステップと、を含むことを特徴とする画像回転方法である。
第２の発明によって、撮影時の条件情報が存在しなくても、撮影画像を、正しい向きに回転させることが可能となる。

第３の発明は、コンピュータを、入力画像を回転する画像回転装置として機能させるためのプログラムであって、コンピュータを、前記入力画像を複数の方向に回転し、複数の入力画像を得る画像入力手段、前記複数の入力画像内の人物が含まれる領域をそれぞれ検出する検出手段、前記検出手段により、１人の人物に対して検出された複数の前記領域から、領域密度が極値となる人物領域を推定する推定手段、前記複数の入力画像のうち、前記推定手段により推定された前記人物領域の数が最も多い入力画像を選択し、選択した前記入力画像の回転方向を判定する第１の判定手段、前記第１の判定手段により、前記人物領域の数が最も多い入力画像を選択することができなかった場合、前記検出手段により検出された複数の前記領域の数が最も多い入力画像を選択し、選択した前記入力画像の回転方向を判定する第２の判定手段、前記第１の判定手段または前記第２の判定手段による判定結果に基づいて、前記入力画像を回転する画像回転手段、として機能させるためのプログラムである。
第３の発明のプログラムを汎用のコンピュータにインストールすることによって、第１の発明の画像回転装置を得ることができる。

本発明により、撮影時の条件情報が存在しなくても、撮影画像を、正しい向きに回転させることが可能となる。

本発明の実施の形態に係る画像回転装置のハードウェアの構成例を示す図である。画像回転装置の機能構成例を示すブロック図である。 Haar-like特徴量を用いた顔検出の手法について説明する図である。 HOG特徴量を用いた人体検出の手法について説明する図である。 Mean Shiftクラスタリングの手法について説明する図である。入力画像の画像回転処理を説明するフローチャートである。図６のステップＳ１の４方向顔検出処理の詳細を説明するフローチャートである。４方向に回転された入力画像の例を示す図である。顔検出部による各回転パターンにおける顔領域の検出結果例を示す図である。重心推定部による各回転パターンにおける顔領域の検出結果例を示す図である。図６のステップＳ２の顔領域の第１次判定処理の詳細を説明するフローチャートである。図１１の処理の説明に用いる入力画像の例を示す図である。第１次判定処理部による各回転パターンにおける顔領域の検出結果例を示す図である。入力画像を回転させる様子を示す図である。図６のステップＳ４の顔領域の第２次判定処理の詳細を説明するフローチャートである。図１５の処理の説明に用いる入力画像の例を示す図である。第２次判定処理部による各回転パターンにおける顔領域の検出結果例を示す図である。入力画像を回転させる様子を示す図である。第１の具体例の説明に用いる入力画像の例を示す図である。第１の具体例での第１次判定処理部による顔領域の検出結果例を示す図である。第１の具体例での第２次判定処理部による顔領域の検出結果例を示す図である。入力画像を回転させる様子を示す図である。第２の具体例での第１次判定処理部による顔領域の検出結果例を示す図である。第２の具体例での第２次判定処理部による顔領域の検出結果例を示す図である。画像回転処理における表示例を示す図である。

以下、図面に基づいて、本発明の実施の形態を詳細に説明する。

［本発明の実施の形態］
図１は、本発明の実施の形態に係る画像回転装置１のハードウェアの構成例を示す図である。尚、図１のハードウェア構成は一例であり、用途、目的に応じて様々な構成を採ることが可能である。

画像回転装置１は、制御部１１、記憶部１２、メディア入出力部１３、通信制御部１４、入力部１５、表示部１６、周辺機器Ｉ／Ｆ部１７等が、バス１８を介して接続される。

制御部１１は、CPU（Central Processing Unit）、ROM（Read Only Memory）、RAM（Random Access Memory）等で構成される。CPUは、記憶部１２、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス１８を介して接続された各装置を駆動制御し、画像回転装置１が行う後述する処理を実現する。ROMは、不揮発性メモリであり、画像回転装置１のブートプログラムやBIOS（Basic Input/Output System）等のプログラム、データ等を恒久的に保持している。RAMは、揮発性メモリであり、記憶部１２、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部１１が各種処理を行う為に使用するワークエリアを備える。

記憶部１２は、HDD（ハードディスクドライブ）等であり、制御部１１が実行するプログラム、プログラム実行に必要なデータ、ＯＳ（オペレーティングシステム）等が格納される。プログラムに関しては、ＯＳに相当する制御プログラムや、後述する処理を画像回転装置１に実行させるためのアプリケーションプログラムが格納されている。これらの各プログラムコードは、制御部１１により必要に応じて読み出されてRAMに移され、CPUに読み出されて各種の手段として実行される。

メディア入出力部１３（ドライブ装置）は、データの入出力を行い、例えば、ＣＤドライブ（−ROM、−Ｒ、−ＲＷ等）、DVDドライブ（−ROM、−Ｒ、−ＲＷ等）等のメディア入出力装置を有する。

通信制御部１４は、通信制御装置、通信ポート等を有し、画像回転装置１とネットワーク間の通信を媒介する通信インターフェイスであり、ネットワークを介して、他の装置間との通信制御を行う。ネットワークは、有線、無線を問わない。

入力部１５は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。入力部１５を介して、画像回転装置１に対して、操作指示、動作指示、データ入力等を行うことができる。

表示部１６は、CRTモニタ、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携して画像回転装置１のビデオ機能を実現するための論理回路等（ビデオアダプタ等）を有する。

周辺機器Ｉ／Ｆ（インターフェイス）部１７は、画像回転装置１に周辺機器を接続させるためのポートであり、周辺機器Ｉ／Ｆ部１７を介して画像回転装置１は周辺機器とのデータの送受信を行う。周辺機器Ｉ／Ｆ部１７は、USB（Universal Serial Bus）やIEEE（The
Institute of Electrical and Electronics Engineers）１３９４やＲＳ−２３５Ｃ等で構成されており、通常複数の周辺機器Ｉ／Ｆを有する。周辺機器との接続形態は有線、無線を問わない。

バス１８は、各装置間の制御信号、データ信号等の授受を媒介する経路である。

図２は、画像回転装置１の機能構成例を示すブロック図である。図２に示す機能部のうちの少なくとも一部は、図１の制御部１１により所定のプログラムが実行されることによって実現される。

画像入力部２１は、メディア入出力部１３、通信制御部１４、または周辺機器Ｉ／Ｆ（インターフェイス）部１７を介して、撮影画像を入力し、入力画像を４方向（予め規定した方向（０度）、予め規定した方向から左に９０度回転した方向、予め規定した方向から左に１８０度回転した方向、予め規定した方向から左に２７０度回転した方向）に回転し、４パターンの入力画像を得る。

顔検出部２２は、予め、膨大な学習データ（サンプル画像）のHaar-like特徴量（サンプル画像の局所的な白黒パターン）をブースティング手法で学習させ、識別器を作成する。顔検出部２２は、画像入力部２１で４方向に回転された入力画像をHaar-like特徴量に変換し、予め作成した識別器に適用することで、画像中における顔を含む特徴領域（ウィンドウ）をそれぞれ検出する。なお、１人の人物に対して、検出される顔の特徴領域は、誤検出も含めて複数存在する。

図３は、Haar-like特徴量を用いた顔検出の手法について説明する図である。なお、Haar-Like特徴量を用いた顔検出の手法は、公知の技術であり、例えば、「An Extended Set of Haar-like Features for Rapid Object Detection（ICIP2002）」などに記載されているため、ここでは概略を説明する。

顔検出部２２は、顔画像を含む有効データ（positive data）Ｄ１１、顔画像を含まない無効データ（negative
data）Ｄ１２からなる学習データＤ１を準備し、学習データＤ１の画像サイズと同じサイズの探索窓を設定する。顔検出部２２は、設定した探索窓の中で計算対象である矩形中の黒色の領域のピクセル値の和の値から白色の領域のピクセル値の和の値を引いたHaar-Like特徴量を算出する。

顔検出部２２は、矢印Ａ１の先に示すように、矩形領域をブースティング手法で学習する。つまり、顔検出部２２は、計算対象の矩形の位置は探索窓中に数万通りの候補があるが、ブースティングにより探索窓内の各弱識別器（特徴選択器）の重みづけ（強識別器全体の認識率が高くなるための各弱識別器の重要度）を学習で決定しておく。

顔検出部２２は、計算した数万通りあるHaar-Like特徴量の弱識別器の中から、重要度が低いものは強識別全体の性能に影響が出ないので使わないことにし、重要度が上位の数十個の弱識別器のみを選択する。例えば、矢印Ａ２の先に示すように、（ａ）〜（ｄ）のEdge features、（ａ）〜（ｈ）のLine features、（ａ）、（ｂ）のCenter-surround featuresの弱識別器のみが選択される。顔検出部２２は、これらの弱識別器を用いて、強識別器を作成する。

図２の説明に戻る。人体検出部２３は、予め、膨大な学習データ（サンプル画像）のHOG（Histograms of Oriented Gradient）特徴量を用いたブースティング手法で識別器を作成する。人体検出部２３は、画像入力部２１で４方向に回転された入力画像からHOG特徴量を算出し、予め作成した識別器に適用することで、画像中における人体を含む特徴領域をそれぞれ検出する。１人の人物に対して検出される人体の特徴領域は、誤検出も含めて複数存在する。

図４は、HOG特徴量を用いた人体検出の手法について説明する図である。なお、HOG特徴量を用いた人体検出の手法は、公知の技術であり、例えば、「Histograms of Oriented Gradients for Human Detection」（CVPR2005)」などに記載されているため、ここでは概略を説明する。

人体検出部２３は、サンプル画像Ｐ１から、矢印Ａ１１の先に示すように、各ピクセルの輝度勾配を算出し、５×５のピクセルからなるセル領域（局所領域）に分割し、さらに、３×３のセル領域を１ブロックとして設定する。人体検出部２３は、各セル領域に含まれるピクセルのエッジ方向、エッジ強度から、矢印Ａ１２の先に示すように、勾配方向ヒストグラムを作成する。このヒストグラムはエッジ方向２０度毎の９次元ベクトルとして表される。

人体検出部２３は、セル領域において求めた９方向の勾配方向ヒストグラムの正規化を行い、さらにブロック毎に勾配方向ヒストグラムの正規化を行うことでHOG特徴量を算出する。

人体検出部２３は、矢印Ａ１３の先に示すように、様々な学習サンプルを準備し、それぞれのHOG特徴量を算出し、ブースティング手法で学習する。つまり、人体検出部２３は、人物が含まれる正例のサンプル数と人物が含まれない負例のサンプル数からサンプルの重みを初期化し、その重みの総和が１となるように正規化し、各弱識別器（特徴選択器）の学習データに対するエラー率を算出する。人体検出部２３は、矢印Ａ１４の先に示すように、算出したエラー率が最小の弱識別器を選出し、重みを更新し、学習ループ処理を行う。そして、人体検出部２３は、弱識別器の出力にαで重み付けて結合することで、最終的な強識別器を作成する。

図２の説明に戻る。重心推定部２４は、顔検出部２２で検出された複数の顔の特徴領域、または人体検出部２３で検出された複数の人体の特徴領域から、Mean Shiftクラスタリングにより、領域の密度が極値となる位置に移動し、極値へ移動後、Nearest Neighborにより、近隣の検出領域と統合する。

図５は、Mean Shiftクラスタリングの手法について説明する図である。なお、Mean Shiftクラスタリングの手法は、公知の技術であり、ここでは概略を説明する。

図５（ａ）に示すように、１人の人物に対して、複数の特徴領域が検出されるため、重心推定部２４は、図５（ｂ）に示すように、検出された複数の特徴領域の左上座標の点群から、１つの点を初期点とし、半径Ｒの円Ｃを考え、初期点からその半径Ｒの円Ｃ内にある点の平均を求め、初期点から、求めた平均の点へと円Ｃの中心Ｏを移動させるという動作を繰り返し、極大点を推定（探索）する。これにより、図５（ｃ）に示すように、１つの特徴領域に収束される。

図２の説明に戻る。第１次判定処理部２５は、顔検出部２２または人体検出部２３で検出され、重心推定部２４で１人の人物に対し１つに推定された特徴領域に基づいて、顔または人体の向きを判定し、その判定結果に基づいて、画像入力部２１からの入力画像を回転する。

第２次判定処理部２６は、第１次判定処理部２５で顔または人体の向きを判定することができなかった場合、顔検出部２２または人体検出部２３で、１人の人物に対し検出された複数の特徴領域に基づいて、顔または人体の向きを判定し、その判定結果に基づいて、画像入力部２１からの入力画像を回転する。

（画像回転処理）
図６は、画像回転装置１が実行する入力画像の画像回転処理を説明するフローチャートである。

ステップＳ１において、画像入力部２１は、通信制御部１４、または周辺機器Ｉ／Ｆ（インターフェイス）部１７を介して入力された入力画像を４方向に回転させる。顔検出部２２は、画像入力部２１で４方向に回転された入力画像中の顔が含まれる特徴領域を検出する。

（４方向顔検出処理）
図７は、ステップＳ１の４方向顔検出処理の詳細を説明するフローチャートである。なお、図７の説明に当たり、図８〜図１０を参照し、具体的な処理内容も説明する。

ステップＳ２１において、画像入力部２１は、入力画像を、図８（ａ）〜図８（ｄ）に示すように、０度（予め規定した方向）、予め規定した方向から左に９０度、予め規定した方向から左に１８０度、予め規定した方向から左に２７０度にそれぞれ回転させ、入力画像Ｐ１１〜Ｐ１４を得る。

本実施の形態においては、０度（何もしない）を「パターン１」の回転方向と定義し、予め規定した方向から左に９０度の回転を「パターン２」の回転方向と定義し、予め規定した方向から左に１８０度の回転を「パターン３」の回転方向と定義し、予め規定した方向から左に２７０度の回転を「パターン４」の回転方向と定義する。

ステップＳ２２において、顔検出部２２は、ステップＳ２１の処理で４方向に回転された入力画像Ｐ１１〜Ｐ１４を、Haar-like特徴量に変換し、予め作成した識別器に適用することで、入力画像中における顔を含む特徴領域を、それぞれ検出する。

これにより、図８（ａ）に示した入力画像Ｐ１１からは、図９（ａ）に示すように、特徴領域Ｗ１〜Ｗ１４が検出され、図８（ｂ）に示した入力画像Ｐ１２からは、図９（ｂ）に示すように、特徴領域Ｗ２１〜Ｗ２３が検出され、図８（ｃ）に示した入力画像Ｐ１３からは、図９（ｃ）に示すように、特徴領域Ｗ３１〜Ｗ３５が検出され、図８（ｄ）に示した入力画像Ｐ１４からは、図９（ｄ）に示すように、特徴領域Ｗ４１〜Ｗ４４が検出される。

ステップＳ２３において、重心推定部２４は、ステップＳ２２の処理で検出された複数の特徴領域から、Mean Shiftクラスタリングにより、領域の密度が極値となる点を推定（探索）する。これにより、正しい向きの１人の人物に対し、１つの特徴領域（顔領域）が推定される。

従って、図９（ａ）に示した特徴領域Ｗ１〜Ｗ１４からは、図１０(ａ)に示すように、特徴領域Ｗ５１、Ｗ５２が推定される。これに対し、図９（ｂ）に示した特徴領域Ｗ２１〜Ｗ２３、図９（ｃ）に示した特徴領域Ｗ３１〜Ｗ３５、および図９（ｄ）に示した特徴領域Ｗ４１〜Ｗ４４からは、図１０（ｂ）〜図１０（ｄ）に示すように、それぞれ特徴領域は推定されない。

図６の説明に戻る。ステップＳ２において、第１次判定処理部２５は、ステップＳ１の処理結果に基づいて、顔領域の向きを判定し、その判定結果に基づいて、入力画像を回転するか否かの第１次判定処理を行う。

（顔領域の第１次判定処理）
図１１は、ステップＳ２の顔領域の第１次判定処理の詳細を説明するフローチャートである。なお、図１１の説明に当たり、図１２に示すような入力画像Ｐ２１を用い、さらに、図１３、図１４を参照し、具体的な処理内容も説明する。

ステップＳ３１において、第１次判定処理部２５は、図６のステップＳ１（図７のステップＳ２３）の処理結果に基づいて、１人の人物に対して１つに推定された顔領域の検出結果個数が最大の回転パターンを選択する。

図１３は、各回転パターンにおける顔領域の検出結果例を示す図である。

図１３に示すように、入力画像Ｐ２１をパターン１〜パターン３の回転方向（０度、左に９０度、左に１８０度）に回転させた場合の顔領域の検出個数は、それぞれ「０」であり、入力画像Ｐ２１をパターン４の回転方向（左に２７０度）に回転させた場合の顔領域Ｗ６１、Ｗ６２の検出個数は、「２」である。従って、図１３の検出結果例では、パターン４が選択される。

ステップＳ３２において、第１次判定処理部２５は、ステップＳ３１の処理で選択した、顔領域の検出結果個数が２以上であるか否かを判定し、２以上ではない、つまり１であると判定した場合、図６のステップＳ３の処理に戻る。一方、第１次判定処理部２５は、顔領域の検出結果個数が２以上であると判定した場合、ステップＳ３３に進む。

ステップＳ３３において、第１次判定処理部２５は、顔領域の検出結果個数が最大となる回転パターンが複数あると判定した場合、図６のステップＳ３の処理に戻る。一方、ステップＳ３３において、第１次判定処理部２５は、顔領域の検出結果個数が最大となる回転パターンが、パターン１（０度）であると判定した場合、ステップＳ３４に進み、入力画像Ｐ２１に対して何も処理を行わず、図６のステップＳ３の処理に戻る。

ステップＳ３３において、第１次判定処理部２５は、顔領域の検出結果個数が最大となる回転パターンが、パターン２（左に９０度回転）であると判定した場合、ステップＳ３５に進み、入力画像Ｐ２１を左に９０度回転させた後、図６のステップＳ３の処理に戻る。

ステップＳ３３において、第１次判定処理部２５は、顔領域の検出結果個数が最大となる回転パターンが、パターン３（左に１８０度回転）であると判定した場合、ステップＳ３６に進み、入力画像Ｐ２１を左に１８０度回転させた後、図６のステップＳ３の処理に戻る。

ステップＳ３３において、第１次判定処理部２５は、顔領域の検出結果個数が最大となる回転パターンが、パターン４（左に２７０度回転）であると判定した場合、ステップＳ３７に進み、入力画像Ｐ２１を左に２７０度回転させた後、図６のステップＳ３の処理に戻る。

なお、図１３の検出結果例では、ステップＳ３１においてパターン４が選択されているため、ステップＳ３７に進み、図１４に示すように、入力画像Ｐ２１が左に２７０度回転される。

図６の説明に戻る。ステップＳ３において、第１次判定処理部２５は、処理終了であるか否か、つまり、図１１のステップＳ３４〜Ｓ３７のいずれかの回転処理が行われたか否かを判定し、処理終了であると判定した場合、画像回転処理を終了する。一方、ステップＳ３において、第１次判定処理部２５は、処理終了ではない、つまり、図１１のステップＳ３２において顔領域の検出結果個数が２以上ではないと判定された場合、または、図１１のステップＳ３３において、顔領域の検出結果個数が最大となる回転パターンが複数あると判定された場合、ステップＳ４に進む。

ステップＳ４において、第２次判定処理部２６は、ステップＳ１の処理結果に基づいて、顔領域の向きを判定し、その判定結果に基づいて、入力画像を回転するか否かの第２次判定処理を行う。

（顔領域の第２次判定処理）
図１５は、ステップＳ４の顔領域の第２次判定処理の詳細を説明するフローチャートである。なお、図１５の説明に当たり、図１６に示すような入力画像Ｐ３１を用い、さらに、図１７、図１８を参照し、具体的な処理内容も説明する。

ステップＳ４１において、第２次判定処理部２６は、図６のステップＳ１（図７のステップＳ２２）の処理結果に基づいて、１人の人物に対して検出された複数の顔領域の検出結果個数が最大の回転パターンを選択する。

図１７は、各回転パターンにおける顔領域の検出結果例を示す図である。

図１７に示すように、入力画像Ｐ３１をパターン１の回転方向（０度）に回転させた場合の顔領域Ｗ７１〜Ｗ７３の検出個数は、「３」であり、入力画像Ｐ３１をパターン２の方向（左に９０度）に回転させた場合の顔領域Ｗ８１〜Ｗ９２（なお、図１７において、顔領域Ｗ８９〜Ｗ９２は図示せず）の検出個数は、「１２」であり、入力画像Ｐ３１をパターン３の方向（左に１８０度）に回転させた場合の顔領域Ｗ１０１、Ｗ１０２の検出個数は、「２」であり、入力画像Ｐ３１をパターン４の方向（左に２７０度）に回転させた場合の顔領域Ｗ１１１〜１１４の検出個数は、「４」である。従って、図１７の検出結果例では、パターン２が選択される。

ステップＳ４２において、第２次判定処理部２６は、ステップＳ４１の処理で選択した、顔領域の検出結果個数が閾値以上であるか否かを判定し、閾値以上ではないと判定した場合、図６のステップＳ５の処理に戻る。一方、第２次判定処理部２６は、顔領域の検出結果個数が閾値以上であると判定した場合、ステップＳ４３に進む。

ステップＳ４３において、第２次判定処理部２６は、顔領域の検出結果個数が最大となる回転パターンが複数あると判定した場合、図６のステップＳ５の処理に戻る。一方、ステップＳ４３において、第２次判定処理部２６は、顔領域の検出結果個数が最大となる回転パターンが、パターン１（０度）であると判定した場合、ステップＳ４４に進み、入力画像Ｐ３１に対して何も処理を行わず、図６のステップＳ５の処理に戻る。

ステップＳ４３において、第２次判定処理部２６は、顔領域の検出結果個数が最大となる回転パターンが、パターン２（左に９０度回転）であると判定した場合、ステップＳ４５に進み、入力画像Ｐ３１を左に９０度回転させた後、図６のステップＳ５の処理に戻る。

ステップＳ４３において、第２次判定処理部２６は、顔領域の検出結果個数が最大となる回転パターンが、パターン３（左に１８０度回転）であると判定した場合、ステップＳ４６に進み、入力画像Ｐ３１を左に１８０度回転させた後、図６のステップＳ５の処理に戻る。

ステップＳ４３において、第２次判定処理部２６は、顔領域の検出結果個数が最大となる回転パターンが、パターン４（左に２７０度回転）であると判定した場合、ステップＳ４７に進み、入力画像Ｐ３１を左に２７０度回転させた後、図６のステップＳ５の処理に戻る。

なお、図１７の検出結果では、ステップＳ４１においてパターン２が選択されているため、ステップＳ４５に進み、図１８に示すように、入力画像Ｐ３１が左に９０度回転される。

図６の説明に戻る。ステップＳ５において、第２次判定処理部２６は、処理終了であるか否か、つまり、図１５のステップＳ４４〜Ｓ４７のいずれかの回転処理が行われたか否かを判定し、処理終了であると判定した場合、画像回転処理を終了する。一方、ステップＳ５において、第２次判定処理部２６は、処理終了ではない、つまり、図１５のステップＳ４２において顔領域の検出結果個数が閾値以上ではないと判定された場合、または、図１５のステップＳ４３において、顔領域の検出結果個数が最大となる回転パターンが複数あると判定された場合、ステップＳ６に進む。

ステップＳ６において、画像入力部２１は、入力画像を４方向に回転させる。なお、ステップＳ１の処理で４方向に回転されているため、それらの入力画像を用いるようにしてもよい。人体検出部２３は、画像入力部２１で４方向に回転された入力画像中の人体が含まれる特徴領域を検出する。

（４方向人体検出処理）
再び、図７のフローチャートを参照して、ステップＳ６の４方向人体検出処理について説明する。

ステップＳ２１において、画像入力部２１は、入力画像を、０度（予め規定した方向）、予め規定した方向から左に９０度、左に１８０度、左に２７０度にそれぞれ回転させる。

ステップＳ２２において、人体検出部２３は、ステップＳ２１の処理で４方向に回転された入力画像からHOG特徴量を算出し、予め作成した識別器に適用することで、入力画像中における人体を含む特徴領域を、それぞれ検出する。

ステップＳ２３において、重心推定部２４は、ステップＳ２２の処理で検出された複数の特徴領域から、Mean Shiftクラスタリングにより、領域の密度が極値となる点を推定（探索）する。これにより、正しい向きの１人の人物に対し、１つの特徴領域（人体領域）が推定される。

図６の説明に戻る。ステップＳ７において、第１次判定処理部２５は、ステップＳ６の処理結果に基づいて、人体領域の向きを判定し、その判定結果に基づいて、入力画像を回転するか否かの第１次判定処理を行う。

（人体領域の第１次判定処理）
再び、図１１のフローチャートを参照して、ステップＳ７の人体領域の第１次判定処理について説明する。

ステップＳ３１において、第１次判定処理部２５は、図６のステップＳ６（図７のステップＳ２３）の処理結果に基づいて、１人の人物に対して１つに推定された人体領域の検出結果個数が最大の回転パターンを選択する。

ステップＳ３２において、第１次判定処理部２５は、ステップＳ３１の処理で選択した、人体領域の検出結果個数が２以上であるか否かを判定し、２以上ではない、つまり１であると判定した場合、図６のステップＳ８の処理に戻る。一方、第１次判定処理部２５は、人体領域の検出結果個数が２以上であると判定した場合、ステップＳ３３に進む。

ステップＳ３３において、第１次判定処理部２５は、人体領域の検出結果個数が最大となる回転パターンが複数あると判定した場合、図６のステップＳ８の処理に戻る。一方、ステップＳ３３において、第１次判定処理部２５は、人体領域の検出結果個数が最大となる回転パターンが、パターン１（０度）であると判定した場合、ステップＳ３４に進み、入力画像に対して何も処理を行わず、図６のステップＳ８の処理に戻る。

ステップＳ３３において、第１次判定処理部２５は、人体領域の検出結果個数が最大となる回転パターンが、パターン２（左に９０度回転）であると判定した場合、ステップＳ３５に進み、入力画像を左に９０度回転させた後、図６のステップＳ８の処理に戻る。

ステップＳ３３において、第１次判定処理部２５は、人体領域の検出結果個数が最大となる回転パターンが、パターン３（左に１８０度回転）であると判定した場合、ステップＳ３６に進み、入力画像を左に１８０度回転させた後、図６のステップＳ８の処理に戻る。

ステップＳ３３において、第１次判定処理部２５は、人体領域の検出結果個数が最大となる回転パターンが、パターン４（左に２７０度回転）であると判定した場合、ステップＳ３７に進み、入力画像を左に２７０度回転させた後、図６のステップＳ８の処理に戻る。

図６の説明に戻る。ステップＳ８において、第１次判定処理部２５は、処理終了であるか否か、つまり、図１１のステップＳ３４〜Ｓ３７のいずれかの回転処理が行われたか否かを判定し、処理終了であると判定した場合、画像回転処理を終了する。一方、ステップＳ７において、第１次判定処理部２５は、処理終了ではない、つまり、図１１のステップＳ３２において人体領域の検出結果個数が２以上ではないと判定された場合、または、図１１のステップＳ３３において、人体領域の検出結果個数が最大となる回転パターンが複数あると判定された場合、ステップＳ９に進む。

ステップＳ９において、第２次判定処理部２６は、ステップＳ６の処理結果に基づいて、人体領域の向きを判定し、その判定結果に基づいて、入力画像を回転するか否かの第２次判定処理を行う。

（人体領域の第２次判定処理）
再び、図１５のフローチャートを参照して、ステップＳ９の人体領域の第２次判定処理について説明する。

ステップＳ４１において、第２次判定処理部２６は、図６のステップＳ６（図７のステップＳ２２）の処理結果に基づいて、１人の人物に対して検出された複数の人体領域の検出結果個数が最大の回転パターンを選択する。

ステップＳ４２において、第２次判定処理部２６は、ステップＳ４１の処理で選択した、人体領域の検出結果個数が閾値以上であるか否かを判定し、閾値以上ではないと判定した場合、図６のステップＳ１０の処理に戻る。一方、第２次判定処理部２６は、人体領域の検出結果個数が閾値以上であると判定した場合、ステップＳ４３に進む。

ステップＳ４３において、第２次判定処理部２６は、人体領域の検出結果個数が最大となる回転パターンが複数あると判定した場合、図６のステップＳ１０の処理に戻る。一方、ステップＳ４３において、第２次判定処理部２６は、人体領域の検出結果個数が最大となる回転パターンが、パターン１（０度）であると判定した場合、ステップＳ４４に進み、入力画像に対して何も処理を行わず、図６のステップＳ１０の処理に戻る。

ステップＳ４３において、第２次判定処理部２６は、人体領域の検出結果個数が最大となる回転パターンが、パターン２（左に９０度回転）であると判定した場合、ステップＳ４５に進み、入力画像を左に９０度回転させた後、図６のステップＳ１０の処理に戻る。

ステップＳ４３において、第２次判定処理部２６は、人体領域の検出結果個数が最大となる回転パターンが、パターン３（左に１８０度回転）であると判定した場合、ステップＳ４６に進み、入力画像を左に１８０度回転させた後、図６のステップＳ１０の処理に戻る。

ステップＳ４３において、第２次判定処理部２６は、人体領域の検出結果個数が最大となる回転パターンが、パターン４（左に２７０度回転）であると判定した場合、ステップＳ４７に進み、入力画像を左に２７０度回転させた後、図６のステップＳ１０の処理に戻る。

図６の説明に戻る。ステップＳ１０において、第２次判定処理部２６は、処理終了であるか否か、つまり、図１５のステップＳ４４〜Ｓ４７のいずれかの回転処理が行われたか否かを判定し、処理終了であると判定した場合、画像回転処理を終了する。一方、ステップＳ１０において、第２次判定処理部２６は、処理終了ではない、つまり、図１５のステップＳ４２において人体領域の検出結果個数が閾値以上ではないと判定された場合、または、図１５のステップＳ４３において、人体領域の検出結果個数が最大となる回転パターンが複数あると判定された場合、ステップＳ１１に進む。

ステップＳ１１において、第２次判定処理部２６は、顔領域の第１次判定処理および第２次判定処理、並びに、人体領域の第１次判定処理および第２次判定処理のいずれの処理でも入力画像の向きを判定することができなかったため、入力画像を対象外データ（人物が含まれていない）とする。

以上のように、顔検出部２２および人体検出部２３の２つの検出手段を用いることにより、撮影画像に複数の人物が写っていたり、あるいは、撮影画像にノイズがあるような場合にも画像方向を検出し、正しい向きに画像を回転させることができる。

（第１の具体例）
次に、図１９〜図２２を参照し、図６のステップＳ２の第１次判定処理で、同じ数の特徴領域が検出され、画像の向きを判定することができなかった場合に、図６のステップＳ４の第２次判定処理で正しく画像の向きを判定することができる場合の具体例について説明する。

まず、画像入力部２１は、図１９に示すような入力画像Ｐ４１を、０度（予め規定した方向）、予め規定した方向から左に９０度、左に１８０度、左に２７０度にそれぞれ回転させ（図７のステップＳ２１）、顔検出部２２は、４方向に回転された入力画像中における顔を含む特徴領域をそれぞれ検出し（図７のステップＳ２２）、重心推定部２４は、顔検出部２２で検出された複数の顔の特徴領域から、Mean Shiftクラスタリングにより、１つの顔領域を推定する（図７のステップＳ２３）。次に、第１次判定処理部２５は、１人の人物に対して１つに推定された顔領域の検出結果個数が最大の回転パターンを選択する（図１１のステップＳ３１）。

図２０は、各回転パターンにおける顔領域の検出結果例を示す図である。

図２０に示すように、入力画像Ｐ４１をパターン１、パターン３の回転方向（０度、左に１８０度）に回転させた場合の顔領域の検出個数は、それぞれ「０」であり、入力画像Ｐ４１をパターン２、パターン４の回転方向（左に９０度、左に２７０度）に回転させた場合の顔領域Ｗ１２１、Ｗ１３１の検出個数は、それぞれ「１」である。従って、図２０の検出結果例では、パターン２およびパターン４が選択される。しかしながら、第１次判定処理部２５は、顔領域の検出結果個数が最大となる回転パターンが複数あると判定するため（図１１のステップＳ３３）、第２次判定処理部２６の処理に移行する。

第２次判定処理部２６は、４方向に回転された入力画像中における複数の顔領域の検出結果（図７のステップＳ２２）に基づいて、１人の人物に対して検出された複数の顔領域の検出結果個数が最大の回転パターンを選択する。

図２１は、各回転パターンにおける顔領域の検出結果例を示す図である。

図２１に示すように、入力画像Ｐ４１をパターン１の回転方向（０度）に回転させた場合の顔領域Ｗ１４１〜Ｗ１４３の検出個数は、「３」であり、入力画像４１をパターン２の方向（左に９０度）に回転させた場合の顔領域Ｗ１５１〜Ｗ１６２（なお、図２１において、顔領域Ｗ１５６〜Ｗ１６２は図示せず）の検出個数は、「１２」であり、入力画像４１をパターン３の方向（左に１８０度）に回転させた場合の顔領域Ｗ１７１、Ｗ１７２の検出個数は、「２」であり、入力画像４１をパターン４の方向（左に２７０度）に回転させた場合の顔領域Ｗ１８１〜１８４の検出個数は、「４」である。従って、図２１の検出結果例では、パターン２が選択される。

第２次判定処理部２６は、選択した顔領域の検出結果個数が閾値以上であると判定し（図１５のステップＳ４２）、その回転パターンが、パターン２（左に９０度回転）であると判定するため（図１５のステップＳ４３）、図２２に示すように、入力画像Ｐ４１を左に９０度回転させる（図１５のステップＳ４５）。

以上のように、第１次判定処理部２５が、異なる回転方向の入力画像において同じ数の顔領域を検出し、画像の向きを判定することができなくなってしまった場合にも、第２次判定処理部２６が、正しい顔領域を検出することで、正しい向きに画像回転することができる。

（第２の具体例）
次に、図２３、図２４を参照し、図６のステップＳ２の第１次判定処理で、Mean Shiftクラスタリング処理の影響で、誤認識された領域が最終結果となってしまった場合に、図６のステップＳ４の第２次判定処理で正しく画像の向きを判定することができる場合の具体例について説明する。

第１の具体例と同様に、図１９に示したような入力画像Ｐ４１が４方向に回転され、４方向に回転された入力画像中における顔を含む特徴領域が検出され、Mean Shiftクラスタリングにより、１つの顔領域が推定され（図７のステップＳ２１〜Ｓ２３）、１人の人物に対して１つに推定された顔領域の検出結果個数が最大の回転パターンが選択される（図１１のステップＳ３１）。

図２３は、各回転パターンにおける顔領域の検出結果例を示す図である。

図２３に示すように、入力画像Ｐ４１をパターン１〜パターン３の回転方向（０度、左に９０度、左に１８０度）に回転させた場合の顔領域の検出個数は、それぞれ「０」であり、入力画像Ｐ４１をパターン４の回転方向（左に２７０度）に回転させた場合の顔領域Ｗ１９１の検出個数は、「１」である。従って、図２３の検出結果では、パターン４が選択される。しかしながら、第１次判定処理部２５は、顔領域の検出結果個数が１であると判定するため（図１１のステップＳ３２）、第２次判定処理部２６の処理に移行する。

図２４は、各回転パターンにおける顔領域の検出結果例を示す図である。

図２４に示すように、入力画像Ｐ４１をパターン１の回転方向（０度）に回転させた場合の顔領域Ｗ２０１〜Ｗ２０３の検出個数は、「３」であり、入力画像４１をパターン２の方向（左に９０度）に回転させた場合の顔領域Ｗ２１１〜Ｗ２２２（なお、図２４において、Ｗ２１６〜Ｗ２２２は図示せず）の検出個数は、「１２」であり、入力画像４１をパターン３の方向（左に１８０度）に回転させた場合の顔領域Ｗ２３１、Ｗ２３２の検出個数は、「２」であり、入力画像４１をパターン４の方向（左に２７０度）に回転させた場合の特徴領域Ｗ２４１〜２４３の検出個数は、「３」である。従って、図２４の検出結果例では、パターン２が選択される。

第２次判定処理部２６は、選択した顔領域の検出結果個数が閾値以上であると判定し（図１５のステップＳ４２）、その回転パターンが、パターン２（左に９０度回転）であると判定するため（図１５のステップＳ４３）、図２２に示したように、入力画像Ｐ４１を左に９０度回転させる（図１５のステップＳ４５）。

以上のように、第１次判定処理部２５が、Mean Shiftクラスタリング処理の影響で、誤認識された領域を最終結果と判定してしまった場合にも、第２次判定処理部２６が、正しい顔領域を検出することで、正しい向きに画像回転することができる。

（第３の具体例）
図２５は、画像回転処理における表示例を示す図である。

画像入力部２１に入力された画像は、図２５に示すように、撮影時に保存された向きのままの画像一覧画面１０１が表示される。図２５の例では、画像一覧画面１０１に、画像Ｐ１０１〜Ｐ１１２が表示されており、そのうち、画像Ｐ１０２、画像Ｐ１０３、画像Ｐ１０６〜Ｐ１１２は、正しい向きで表示されていない。

ユーザは、入力部１５を用いて、画像回転処理実行を指示すると、制御部１１は、その指示に基づいて、図６を用いて上述したような画像回転処理を実行する。これにより、矢印Ａ２１の先に示すように、画像Ｐ１０２、画像Ｐ１０３、画像Ｐ１０６〜Ｐ１１２が正しい向きに回転され、画像一覧画面１０１に表示される。

［本発明の実施の形態における効果］
１．以上のように、入力画像を４方向に回転させ、４方向に回転された各入力画像に含まれる顔領域を検出することで、正しい画像の向きを判定することができる。
２．顔領域で正しい画像の向きを判定することができなかった場合、４方向に回転された各入力画像に含まれる人体領域を検出することで、正しい画像の向きを判定することができる。

以上、添付図面を参照しながら、本発明に係る画像回転装置等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

１………画像回転装置
１１………制御部
２２………顔検出部
２３………人体検出部
２４………重心推定部
２５………第１次判定処理部
２６………第２次判定処理部

Claims

入力画像を回転する画像回転装置であって、
前記入力画像を複数の方向に回転し、複数の入力画像を得る画像入力手段と、
前記複数の入力画像内の人物が含まれる領域をそれぞれ検出する検出手段と、
前記検出手段により、１人の人物に対して検出された複数の前記領域から、領域密度が極値となる人物領域を推定する推定手段と、
前記複数の入力画像のうち、前記推定手段により推定された前記人物領域の数が最も多い入力画像を選択し、選択した前記入力画像の回転方向を判定する第１の判定手段と、
前記第１の判定手段により、前記人物領域の数が最も多い入力画像を選択することができなかった場合、前記検出手段により検出された複数の前記領域の数が最も多い入力画像を選択し、選択した前記入力画像の回転方向を判定する第２の判定手段と、
前記第１の判定手段または前記第２の判定手段による判定結果に基づいて、前記入力画像を回転する画像回転手段と、
を備えることを特徴とする画像回転装置。
前記複数の方向は、予め規定した第１の方向、前記第１の方向から左に９０度回転した第２の方向、前記第１の方向から左に１８０度回転した第３の方向、前記第１の方向から左に２７０度回転した第４の方向である
ことを特徴とする請求項１に記載の画像回転装置。
前記第２の判定手段は、前記第１の判定手段が、前記推定手段により推定された前記人物領域の数が１つであると判定した場合にも、前記検出手段により検出された複数の前記領域の数が最も多い入力画像を選択し、選択した前記入力画像の回転方向を判定する
ことを特徴とする請求項１または請求項２に記載の画像回転装置。
前記検出手段は、前記複数の入力画像内の人物の顔または人体が含まれる領域を検出する
ことを特徴とする請求項１乃至請求項３のいずれかに記載の画像回転装置。
前記検出手段は、Haar-like特徴量またはHOG（Histograms
of Oriented Gradient）特徴量を用い、
前記推定手段は、Mean Shiftクラスタリングを用いる
ことを特徴とする請求項１乃至請求項４のいずれかに記載の画像回転装置。
入力画像を回転する画像回転装置で行われる画像回転方法であって、
前記入力画像を複数の方向に回転し、複数の入力画像を得る画像入力ステップと、
前記複数の入力画像内の人物が含まれる領域をそれぞれ検出する検出ステップと、
前記検出ステップで、１人の人物に対して検出された複数の前記領域から、領域密度が極値となる人物領域を推定する推定ステップと、
前記複数の入力画像のうち、前記推定ステップで推定された前記人物領域の数が最も多い入力画像を選択し、選択した前記入力画像の回転方向を判定する第１の判定ステップと、
前記第１の判定ステップで、前記人物領域の数が最も多い入力画像を選択することができなかった場合、前記検出ステップで検出された複数の前記領域の数が最も多い入力画像を選択し、選択した前記入力画像の回転方向を判定する第２の判定ステップと、
前記第１の判定ステップまたは前記第２の判定ステップによる判定結果に基づいて、前記入力画像を回転する画像回転ステップと、
を含むことを特徴とする画像回転方法。
コンピュータを、入力画像を回転する画像回転装置として機能させるためのプログラムであって、
コンピュータを、
前記入力画像を複数の方向に回転し、複数の入力画像を得る画像入力手段、
前記複数の入力画像内の人物が含まれる領域をそれぞれ検出する検出手段、
前記検出手段により、１人の人物に対して検出された複数の前記領域から、領域密度が極値となる人物領域を推定する推定手段、
前記複数の入力画像のうち、前記推定手段により推定された前記人物領域の数が最も多い入力画像を選択し、選択した前記入力画像の回転方向を判定する第１の判定手段、
前記第１の判定手段により、前記人物領域の数が最も多い入力画像を選択することができなかった場合、前記検出手段により検出された複数の前記領域の数が最も多い入力画像を選択し、選択した前記入力画像の回転方向を判定する第２の判定手段、
前記第１の判定手段または前記第２の判定手段による判定結果に基づいて、前記入力画像を回転する画像回転手段、
として機能させるためのプログラム。