JP2023152671A

JP2023152671A - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP2023152671A
Application number: JP2022212106A
Authority: JP
Inventors: 孝嗣牧田; Takatsugu Makita; 英生野呂; Hideo Noro
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-03-30
Filing date: 2022-12-28
Publication date: 2023-10-17

Abstract

【課題】本発明は、画像から人物の顔が写る画像を抽出する精度を向上することを目的とする。【解決手段】画像処理装置であって、画像から第一の顔検出器を用いて顔の候補領域を検出する検出手段と、前記顔の候補領域として検出された第一の領域の画像から、顔器官検出器を用いて顔器官の位置を取得する取得手段と、前記第一の領域の画像を、前記顔器官の位置に基づいて変換した変換画像を生成する生成手段と、前記変換画像から第二の顔検出器を用いて顔を検出した検出結果に基づいて、前記第一の領域の画像を出力するか否かを制御する制御手段と、を備える。【選択図】図１

Description

本発明は、画像処理装置、画像処理方法、及びプログラムに関する。

従来、画像から人物の顔を検出する方法として、人物の顔領域を画像上で探索し、尤度が一定値以上である顔候補領域を検出結果として出力する方法がある。この方法で検出した顔候補領域に顔が存在しない場合があるため、尤度が高い顔候補領域が顔領域であるか否かを更に判定することが行われている。また、顔検出方法及び顔認証方法等を機械学習モデルに学習させるための画像及び顔認証システムに用いられる画像を作成する場合、人物の顔が写っていない低品質な画像を排除する必要がある。

上記の問題点を踏まえて、特許文献１は、尤度が高い顔候補領域から両目の目頭や口の中央部等の顔器官を検出し、顔器官の検出数に基づいて、尤度が高い顔候補領域が顔領域であるか否かを判定する方法を提案している。

特許第４８８４２５１号

しかしながら、特許文献１の方法は、尤度が高い顔候補領域に人物の顔が存在しないが、顔器官の検出数が多い場合、尤度が高い顔候補領域を顔領域であると判定する。一方、特許文献１の方法は、尤度が低い顔候補領域に人物の顔が写っているが、顔器官の検出数が少ない場合、尤度が低い顔候補領域を顔領域ではないと判定する。このように、特許文献１の技術は、顔候補領域が顔領域であるか否かを判定する判定精度が低いため、顔が写っていない画像を作成してしまうという課題がある。

そこで、本発明は、画像から人物の顔が写る画像を抽出する精度を向上することを目的とする。

本発明の目的を達成するために、本発明の一実施形態に係る画像処理装置は、以下の構成を備える。すなわち、画像処理装置は、画像から第一の顔検出器を用いて顔の候補領域を検出する検出手段と、前記顔の候補領域として検出された第一の領域の画像から、顔器官検出器を用いて顔器官の位置を取得する取得手段と、前記第一の領域の画像を、前記顔器官の位置に基づいて変換した変換画像を生成する生成手段と、前記変換画像から第二の顔検出器を用いて顔を検出した検出結果に基づいて、前記第一の領域の画像を出力するか否かを制御する制御手段と、を備える。

本発明によれば、画像から人物の顔が写る画像を抽出する精度を向上することができる。

第１実施形態に係る、画像処理システムのハードウェア構成の一例を示す図。第１実施形態に係る、画像処理装置のハードウェア構成の一例を示す図。第１実施形態に係る、画像処理装置の機能構成の一例を示すブロック図。第１実施形態に係る、画像処理の対象となる画像の一例を示す図。第１実施形態に係る、顔候補領域の検出結果の一例を示す図。第１実施形態に係る、顔候補領域から検出した顔器官の検出結果の一例を示す図。第１実施形態に係る、変換画像を生成する処理の流れを説明するフローチャート。第１実施形態に係る、顔器官の位置の対応関係を説明するための図。第１実施形態に係る、画像から変換画像を生成する際の概要を示す図。第１実施形態に係る、画像処理の流れを説明するフローチャート。第２実施形態に係る、画像処理装置の機能構成の一例を示すブロック図。第２実施形態に係る、画像処理の流れを説明するフローチャート。第２実施形態に係る、画像処理の流れを説明するフローチャート。第２実施形態に係る、画像処理の流れを説明するフローチャート。第２実施形態に係る、画像処理の流れを説明するフローチャート。第２実施形態に係る、画像処理の流れを説明するフローチャート。第２実施形態に係る、画像処理の流れを説明するフローチャート。第２実施形態に係る、画像処理の流れを説明するフローチャート。第３実施形態に係る、画像処理装置の機能構成の一例を示すブロック図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

（第１実施形態）
本実施形態は、撮像装置と、画像処理装置とを組み合わせた画像処理システムとして用いることができる。

図１は、第１実施形態に係る、画像処理システムのハードウェア構成の一例を示す図である。

画像処理システム１０は、撮像装置１００、画像処理装置１１０、及びネットワーク１２０を含む。

撮像装置１００は、被写体を撮像するカメラであり、例えば、デジタルカメラ及びネットワークカメラである。撮像装置１００は、１つのカメラであるが、２つ以上のカメラであっても良い。

画像処理装置１１０は、画像から人物の顔候補領域及び顔器官の位置等を検出する装置であり、例えば、デスクトップコンピュータ及びラップトップコンピュータであるが、これに限られることはない。画像処理装置１１０は、例えば、スマートフォン及びタブレット端末等であってもよい。

ネットワーク１２０は、撮像装置１００及び画像処理装置１１０を接続する。ネットワーク１２０は、例えば、有線ＬＡＮ及び無線ＬＡＮである。

図２は、第１実施形態に係る、画像処理装置のハードウェア構成の一例を示すブロック図である。

画像処理装置１１０は、入力部２０１、表示部２０２、Ｉ／Ｆ２０３、ＣＰＵ２０４、ＲＡＭ２０５、ＲＯＭ２０６、記憶部２０７、及びデータバス２０８を備える。

入力部２０１は、ユーザが各種データを入力する装置であり、例えば、キーボード、マウス、及びタッチパネル等を含む。

表示部２０２は、各種データを表示する装置であり、例えば、液晶ディスプレイ（ＬＣＤ）を含む。

Ｉ／Ｆ２０３は、インターネット等のネットワーク１２０を介して、画像処理装置１１０と他の装置（不図示）との間で各種情報を送受信する。

ＣＰＵ２０４は、画像処理装置１１０内の各部を統括的に制御するプロセッサである。ＣＰＵ２０４は、ＲＯＭ２０６内の制御用プログラムを読み出して、ＲＡＭ２０５にロードし、プログラムを実行することで、各種制御を行う。ＣＰＵ２０４がＲＯＭ２０６及び記憶部２０７内の画像処理プログラムを実行することで、画像データに対する画像処理が実現される。

ＲＡＭ２０５は、ＣＰＵ２０４により実行されるプログラム及びワークメモリ等の一時記憶領域である。

ＲＯＭ２０６は、画像処理装置１１０内の各部を制御するための制御用プログラムを記憶する。

記憶部２０７は、各種データを記憶する装置であり、例えば、画像データ、設定パラメータ、及び各種プログラム等を記憶する。また、記憶部２０７は、Ｉ／Ｆ２０３を介して外部装置（不図示）からのデータを記憶することも可能である。

データバス２０８は、データを伝送するための伝送路であり、Ｉ／Ｆ２０３を介して外部装置から受信した画像データ等をＣＰＵ２０４、ＲＡＭ２０５、及びＲＯＭ２０６に送信する。また、データバス２０８は、画像処理装置１１０から外部装置へ画像データ等を送信する。

図３は、第１実施形態に係る、画像処理装置の機能構成の一例を示すブロック図である。

画像処理装置１１０は、顔領域検出部３００、顔器官検出部３０１、生成部３０２、顔検出部３０３、判定部３０４、ＤＮＮ＿Ａ３０５、ＤＮＮ＿Ｂ３０６、及びＤＮＮ＿Ｃ３０７を備える。ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）は、ディープニューラルネットワークの略である。

顔領域検出部３００は、記憶部２０７等から画像を取得する。画像は、撮像装置１００により撮像された画像及び予め記憶部２０７等に記憶した画像の少なくともいずれかである。顔領域検出部３００は、ＤＮＮ＿Ａ３０５を用いて画像の人物の顔候補領域を検出し、顔候補領域を含む画像を生成する。顔領域検出部３００は、顔候補領域を含む画像を顔器官検出部３０１に送信する。

顔器官検出部３０１は、顔領域検出部３００から顔候補領域を含む画像を受信する。顔器官検出部３０１は、ＤＮＮ＿Ｂ３０６を用いて画像の顔候補領域から顔器官を検出する。さらに、顔器官検出部３０１は、顔候補領域から検出した顔器官の情報を、生成部３０２に送信する。顔器官の情報は、例えば、顔器官の位置（二次元座標）、大きさ、及び向き等の情報を含む。

生成部３０２は、顔器官検出部３０１から顔候補領域から検出した顔器官の情報を受信する。生成部３０２は、顔器官の情報に基づく幾何的な変換（例えば、アフィン変換）により画像を変換し、変換画像を生成する。さらに、生成部３０２は、変換画像を顔検出部３０３に送信する。

顔検出部３０３は、生成部３０２から変換画像を受信する。顔検出部３０３は、ＤＮＮ＿Ｃ３０７を用いて変換画像から人物の顔を検出する。さらに、顔検出部３０３は、検出結果を判定部３０４に送信する。

判定部３０４は、生成部３０２から変換画像を受信する。判定部３０４は、顔検出部３０３から変換画像内で検出された人物の顔の検出結果を受信する。そして、判定部３０４は、変換画像における人物の顔の検出結果に基づいて、元の画像から顔候補領域として検出された検出領域を示す情報を顔の領域を示す情報として出力するか否かを判定する。さらに、判定部３０４は、判定結果に基づいて、顔領域であると判定された元の画像の検出領域を記憶部２０７等に出力する。

本実施形態では、顔領域検出部３００のＤＮＮ＿Ａ３０５、顔器官検出部３０１のＤＮＮ＿Ｂ３０６、及び顔検出部３０３のＤＮＮ＿Ｃ３０７は、互いに異なるが、これに限られない。例えば、顔領域検出部３００のＤＮＮと顔検出部３０３のＤＮＮは、同一であっても良い。また、顔候補領域と顔器官を同時に検出可能なＤＮＮが利用可能である場合、顔領域検出部３００、顔器官検出部３０１、及び顔検出部３０３のそれぞれのＤＮＮは、全て同一であっても良い。ここで、顔領域検出部３００のＤＮＮは「第一の顔検出器」、顔器官検出部３０１のＤＮＮは「顔器官検出器」、及び顔検出部３０３のＤＮＮは「第二の顔検出器」と定義する。

一般的に、処理対象である画像のサイズ、画像に写る人物の顔の大きさ及び向きなどの人物に対する様々な撮影条件で撮像した画像を用いてＤＮＮの学習が行われる。これにより、顔領域検出部３００と顔検出部３０３のそれぞれは、様々な撮影条件で人物を撮影した画像を用いて学習したＤＮＮを用いて、画像から顔候補領域と顔領域をそれぞれ高精度で検出できる。また、顔器官検出部３０１は、顔領域検出部３００が様々な撮影条件で人物を撮影した画像から検出した顔候補領域の画像（第一の領域の画像に相当）を用いて学習したＤＮＮを用いて、画像から顔器官の位置を高精度で検出できる。以下では、顔領域検出部３００と顔検出部３０３のそれぞれに、それぞれ異なるＤＮＮを適用することで顔候補領域及び顔領域の検出精度向上に効果的である例１～３について説明する。なお、例１～３の方法はそれぞれ独立した方法であるが、例１～３の組み合わせによる方法を利用しても良い。

（例１）
顔領域検出部３００の入力画像の大きさは任意であり、かつ顔検出部３０３の入力画像の大きさが固定である場合、顔領域検出部３００のＤＮＮと顔検出部３０３のＤＮＮは互いに異なっていても良い。例えば、顔領域検出部３００のＤＮＮは、画像の大きさに関わらず動作可能な汎用ＤＮＮである。一方で、顔検出部３０３のＤＮＮは、画像の大きさを固定した学習データで汎用ＤＮＮを追加学習させたＤＮＮである。

（例２）
顔領域検出部３００の入力画像に写る人物の顔の大きさ及び向きなどのばらつきは大きい。一方で、顔検出部３０３の入力画像、すなわち生成部３０２によって生成（変換）される変換画像に写る人物の顔の大きさ及び向きなどのばらつきは、顔領域検出部３００の入力画像に写る人物の顔の大きさ及び向きなどのばらつきよりも小さい。この場合、顔領域検出部３００のＤＮＮと顔検出部３０３のＤＮＮは、互いに異なっていても良い。例えば、顔領域検出部３００のＤＮＮは、顔の大きさと向きに関わらず動作可能な汎用ＤＮＮである。一方で、顔検出部３０３のＤＮＮは、生成部３０２による変換方法を用いて作成した学習データ（すなわち、変換画像）により汎用ＤＮＮを追加学習したＤＮＮである。なお、汎用ＤＮＮに対する追加学習は、画像処理装置１１０とは別のソフトウェア及び学習装置等を用いて予め実施されても良い。あるいは、後述の第３実施形態のように、画像処理装置１１０に接続された学習部１９０５と画像処理装置１１０の入力画像とを用いて、汎用ＤＮＮの学習を実施しても良い。

（例３）
実時間（リアルタイム）で高速動作が要求される顔認証システム、及び、ハードウェアの物理的なサイズが小さく、かつ処理性能が低いコンピュータ等（例えば、カメラ、スマートフォン）で動作する顔認証システムなどでは、低計算量での顔検出処理が要求される。この場合、ＤＮＮの層数が小さく、かつ正検出率の低いＤＮＮ＿１と、ＤＮＮの層数が大きく、かつ正検出率の高いＤＮＮ＿２との組み合わせを顔認証システムに適用すると良い。一般的には、画像の大きさが大きいほど、ＤＮＮの計算量が多くなる。そのため、例えば、顔領域検出部３００の入力画像が顔検出部３０３の入力画像よりも大きい場合、顔領域検出部３００にＤＮＮ＿１を、顔検出部３０３にＤＮＮ＿２をそれぞれ適用すると良い。また、顔領域検出部３００の入力画像が顔検出部３０３の入力画像よりも小さい場合、顔領域検出部３００にＤＮＮ＿２を、顔検出部３０３にＤＮＮ＿１をそれぞれ適用すると良い。一方で、例えば、顔認証システムの計算リソースの割り当てなどの設計上の制約により、ＤＮＮの計算量をなるべく小さくする要求がある場合、顔領域検出部３００と顔検出部３０３のそれぞれに、最も少ない計算リソースで動作可能なＤＮＮ＿１を適用すると良い。また、顔認証システムに割り当て可能な計算リソースが多い場合、顔認証システムの認証精度を最大限に高める観点から、顔領域検出部３００と顔検出部３０３のそれぞれに、最も多い計算リソースで動作可能なＤＮＮ＿２を適用すると良い。なお、上記のＤＮＮ＿１とＤＮＮ＿２の例に限らず、ＤＮＮ＿１とＤＮＮ＿２の中間の計算リソースで動作可能なＤＮＮ＿３を設けることも可能である。つまり、顔認証システムの全体の計算リソース、様々な計算リソースで動作可能なＤＮＮ、及び運用環境に基づいて、顔領域検出部３００と顔検出部３０３それぞれに割り当てるＤＮＮを適宜選択することが可能である。

図４は、第１実施形態に係る、画像処理の対象となる画像の一例を示す図である。画像４００上に３人の人物が写っている。画像４００上の人物数は、３人に限られず、２人以下及び４人以上であっても良い。

図５は、第１実施形態に係る、顔候補領域の検出結果の一例を示す図である。

図５は、顔領域検出部３００が画像４００から検出した５つの顔候補領域の一例を示す。画像４００は、領域５１０、領域５２０、領域５３０、領域５４０、及び領域５５０を含む。

領域５１０は、人物の顔を含む領域である。領域５２０は、人物の一部の領域として、人物の右側の一部を含む領域である。領域５３０は、人物の顔を含む領域である。領域５４０は、人物の顔を含まない領域である。領域５５０は、人物の顔を含まない領域である。領域５５０の一部は、画像４００の外側にはみ出して位置する。この際、顔領域検出部３００は、画像４００の外側に位置する領域５５０の一部の領域に対し、輝度値０の画素で補完する。なお、顔領域検出部３００は、例えば、０以外の輝度値で領域５５０の一部の領域を補完しても良く、元画像の部分領域ないし部分領域を反転した輝度値で領域５５０の一部の領域を補完しても良い。

図６は、第１実施形態に係る、顔候補領域から検出した顔器官の検出結果の一例を示す図である。

図６は、顔器官検出部３０１が領域５１０から５つの顔器官を検出した一例を示す。領域５１０は、顔器官６１０、顔器官６２０、顔器官６３０、顔器官６４０、及び顔器官６５０を含む。

このように、領域５１０が顔器官６１０～６５０の全てを含む場合、生成部３０２は領域５１０を変換することにより、後述の部分画像を生成する。一方で、領域５１０が４個以下の顔器官を含む場合、又は、顔器官の位置が領域５１０の外側に位置する場合、生成部３０２は領域５１０から部分画像を生成することなく、処理を終了する。

図７は、第１実施形態に係る、変換画像を生成する処理の流れを説明するフローチャートである。生成部３０２は、顔器官の情報（例えば、位置）に基づいて画像に対し幾何的な画像変換を行い、変換画像を生成する。以下、生成部３０２による変換画像の生成処理について説明する。

Ｓ７００で生成部３０２は、変換画像の領域を生成する。変換画像の領域は、所望の画像の大きさ及び形に基づいて設定される領域のことをいう。例えば、生成部３０２は、１１２ｘ１１２画素の正方領域を変換画像の領域として生成する。

Ｓ７０１で生成部３０２は、変換画像の領域において、５つの顔器官６１０～６５０に対応する顔器官の基準位置８１０～８５０（図８）を設定する。顔器官の基準位置は、変換画像の領域における顔器官の位置として予め規定した位置のことをいう。

生成部３０２は、変換画像を生成する際に、５つの顔器官６１０～６５０の位置が、基準位置８１０～８５０にできるだけ近づくように、画像を変換する。例えば、図８における基準位置８１０～８５０は、多数の人物を正面から撮影した顔画像から求めた顔器官の平均的な位置とする。

基準位置８１０～８５０の一例について説明する。まず、１１２ｘ１１２画素の正方領域の左上を原点とした場合、画像の右方向を正のＸ方向、画像の下方向を正のＹ方向とする。次に、左目の中心、右目の中心、鼻の頭、口の左端点、口の右端点のそれぞれの位置は、二次元座標（Ｘ，Ｙ）で表される。これにより、生成部３０２は、基準位置８１０～８５０にそれぞれ対応する二次元座標（４０、６０）、（７３、６０）、（５５、８０）、（４２、１００）、（８１、１００）を設定する。

Ｓ７０２で生成部３０２は、変換画像を生成するための変換行列を算出する。例えば、生成部３０２は、画像の変換処理により、５つの顔器官６１０～６５０の位置が、基準位置８１０～８５０にできるだけ近づくような変換行列Ｍを算出する。

図８は、第１実施形態に係る、顔器官の位置の対応関係を説明するための図である。

図８は、５つの顔器官６１０～６５０の位置と、基準位置８１０～８５０との対応を示す。一般的には、顔器官の位置と基準位置との間で４組以上の対応関係が存在する場合、顔器官の位置と基準位置との間の差分が全て０となる変換行列Ｍは存在しない。そのため、生成部３０２は、顔器官の位置と基準位置との間の差分の収束計算により、差分ができるだけ小さくなるような変換行列Ｍを算出する。

なお、生成部３０２は、顔器官６１０～６５０の位置と、基準位置８１０～８５０との差分の合計を差分の大きさとして算出するが、これに限られない。生成部３０２は、特定の点同士の間の距離を低く評価することで傾斜配分した差分の合計値を算出しても良い。例えば、鼻の頭（顔器官６３０）は顔表面からの距離が大きいため、顔の向きの変化に対して位置のずれが大きくなる場合がある。そこで、生成部３０２は、鼻の頭の点（顔器官６３０）と基準位置８３０との間の位置の差分に対して０．５を乗じて算出しても良い。

Ｓ７０３で生成部３０２は、Ｓ７０２で算出した変換行列Ｍを用いて、元の画像４００を変換した変換画像を生成する。

ここで、図９は、第１実施形態に係る、画像から変換画像を生成する際の概要を示す図である。

図９は、変換処理前の画像４００、画像４００を変換処理した後の変換画像９００を示す。画像４００は、領域５１０を含む。変換画像９００は、画像４００を反時計回りに回転処理した画像であり、部分画像９１０を含む。

Ｓ７０４で生成部３０２は、変換画像９００から部分画像９１０を切り出し、部分画像９１０を記憶部２０７に記憶する。

図１０は、第１実施形態に係る、画像処理の流れを説明するフローチャートである。

Ｓ１０００でユーザは人物の顔が写った画像を準備する。例えば、ユーザは一般的なデジタルカメラで人物を撮影した画像を準備する。以下、画像処理装置１１０が１枚の画像から人物の顔を検出する場合について説明する。なお、画像処理装置１１０は２枚以上の画像から人物の顔を検出する場合に、１枚の画像から人物の顔を検出する処理を画像枚数に応じて順次実施する。これにより、画像処理装置１１０は、画像枚数に依存することなく人物の顔を検出できる。

Ｓ１００１で顔領域検出部３００は、記憶部２０７等から取得した画像から人物の顔候補領域を検出する。ここで、顔領域検出部３００は、画像の縦方向と横方向に平行な線分で囲まれた矩形領域を顔候補領域として検出する。顔候補領域は、矩形領域に限られず、例えば、顔の中心部を中心とした楕円領域であっても良い。

Ｓ１００２で顔器官検出部３０１は、顔候補領域から顔器官の位置を検出する。顔器官は、左目の中心、右目の中心、鼻の頭、口の左端点、及び口の右端点を含む５つの器官であるが、これに限らず、別の器官であっても良い。顔器官は、例えば、目又は口の上下左右の４つの端点等であっても良い。

Ｓ１００３で生成部３０２は、顔器官検出部３０１から受信した顔候補領域における顔器官の情報に基づいて、５つの顔器官が顔候補領域に位置するか否かを判定する。生成部３０２は、５つの顔器官が顔候補領域に位置すると判定した場合（Ｓ１００３でＹｅｓ）、処理はＳ１００４に進む。生成部３０２は、５つの顔器官が顔候補領域に位置しないと判定した場合（Ｓ１００３でＮｏ）、処理は終了する。

Ｓ１００４で生成部３０２は、顔器官の位置情報に基づいて、画像に対し幾何的な画像変換（例えば、アフィン変換）を行うことで、変換画像を生成する。

例えば、生成部３０２は、変換画像で５つの顔器官に対応する座標を予め設定する。生成部３０２は、変換前の画像における５つの顔器官の位置（座標）と、変換画像の５つの顔器官の位置（座標）と、の差分が最小となる変換行列Ｍを算出する。生成部３０２は、変換行列Ｍを用いて画像に対し幾何的な画像変換を行うことで、変換画像を生成する。なお、画像の変換方法は、変換行列Ｍを用いる方法に限られず、例えば、左目と右目が水平になるように画像を回転する方法であっても良い。

Ｓ１００５で顔検出部３０３は、変換画像から顔領域を検出する。ここで、顔検出部３０３は、変換画像から顔領域のみを検出し、顔器官の位置を検出しない。

Ｓ１００６で判定部３０４は、変換画像から顔領域が検出されたか否かを判定する。判定部３０４は、変換画像から顔領域が検出されたと判定した場合（Ｓ１００６でＹｅｓ）、処理はＳ１００７に進む。判定部３０４は、変換画像から顔領域が検出されなかったと判定した場合（Ｓ１００６でＮｏ）、処理は終了する。

Ｓ１００７で判定部３０４は、Ｓ１００１で検出された顔候補領域を含む画像（部分画像）を外部装置（例えば、記憶部２０７）へ出力する。

なお、判定部３０４は、変換画像から顔領域が検出されたか否かに基づいて、顔候補領域が顔領域であるか否かをさらに判定しているが、別の判定方法を用いて上記の判定をしても良い。例えば、判定部３０４は、変換画像からある大きさ以上の顔領域が検出された場合、顔候補領域が顔領域であると判定しても良い。また、判定部３０４は、変換画像から検出された顔領域がある大きさ以上であり、かつ、変換画像の中心と顔領域の中心との間の距離が閾値以内である場合、顔候補領域が顔領域であると判定しても良い。

一般的に、顔検出部３０３は、変換画像９００から顔領域を容易に検出できる。つまり、顔検出部３０３が、変換画像９００から顔領域を検出できない場合、元の画像４００から検出された領域５１０又は顔器官６１０～６５０の位置の検出精度が低いことが推察される。そのため、生成部３０２は、元の画像４００から検出された領域５１０を、顔器官の位置に基づいて幾何的に変換した変換画像９００を生成する。そして、判定部３０４は、変換画像９００から顔領域を検出したか否かに基づいて、複数の顔候補領域が顔領域であるか否かをそれぞれ判定できる。これにより、画像から顔が写っていない顔候補領域を排除できる。

以上の通り、第１実施形態によれば、画像の顔候補領域の顔器官の位置に基づいて変換した変換画像から顔領域を検出できたか否かに基づいて、顔候補領域が顔領域であるか否かを判定する。これにより、顔候補領域から顔領域を判定する際の判定精度が向上するため、画像から顔が写る画像（部分画像）を抽出する精度を向上させることができる。

（第２実施形態）
第１実施形態は、変換画像から顔領域が検出されなかった場合、顔候補領域を含む画像（部分画像）を出力しないと判定した。しかし、画像の用途に応じて部分画像に要求される品質が異なることがある。このように、画像の用途に応じた品質の部分画像となるように、顔候補領域が顔領域であるか否かを判定するための判定条件（以下、顔候補領域に対する判定条件）が変更されても良い。第２実施形態は、画像の用途に応じて、顔候補領域に対する判定条件を変更する。以下、第２実施形態は、第１実施形態との差分について説明する。

例えば、顔検出用、顔器官検出用、又は顔認証用のＤＮＮを学習させるための学習データを作成する場合、及び、顔認証システムに予め登録する登録画像を作成する場合、画像処理装置は顔候補領域に対する判定条件を厳しく設定する。一方で、顔認証システムの運用時に撮像装置によって撮像される画像から顔を検出する場合、画像処理装置は、顔候補領域に対する判定条件を緩く設定する。以下、画像処理装置が、画像の用途に応じた、顔候補領域に対する判定条件に基づいて、顔候補領域が顔領域であるか否かを判定する一例を説明する。

ＤＮＮを学習させるための学習データを作成する場合、及び、顔認証システムに予め登録する登録画像を作成する場合、低品質な画像（ボケが大きい等）でＤＮＮを学習させることにより、ＤＮＮの性能低下及び顔認証システムの性能低下を引き起こす。しかし、ＤＮＮの学習用又は顔認証システム用の画像は、事前に時間を費やして準備され得る。そのため、画像処理装置は、顔候補領域に対する判定条件を厳しく設定しても良い。

顔認証システムは、２種類の認証方式を備える。認証方式は、積極認証及び非積極認証である。積極認証は、ユーザが自らの意思で撮像装置の前に位置した状態でユーザの認証を行う方式のことをいう。この場合、画像処理装置は、顔候補領域に対する判定条件を厳しく設定することで、適切な画像データを生成できる。

非積極認証は、ユーザが自らの意思で認証を望んでいない状態でユーザの認証を顔認証システムが自律的に行う方式のことをいう。そのため、撮像装置がユーザを撮像する際に、ユーザは撮像装置の撮像範囲外に移動してしまうことがある。また、撮像装置（カメラ）に対するユーザの顔の向きも様々である。このように、非積極認証時において撮像される画像の枚数及び品質は、撮像環境及び撮像装置の設定等に大きく依存する。そのため、非積極認証時には、ユーザの顔が写る十分な画像枚数及び品質の高い画像が得られにくい。この場合、画像処理装置は、顔候補領域に対する判定条件を緩く設定することで、適切な画像データの量を確保できる。

図１１は、第２実施形態に係る、画像処理装置の機能構成の一例を示すブロック図である。

用途入力部１１０１は、ユーザから画像データの用途を受信し、画像データの用途を制御部１１０２に送信する。画像データの用途は、「学習」、「登録」、及び「認証」である。学習は、画像を学習するモデル（ＤＮＮ）に対し画像の特徴を学習させることをいう。登録は、画像に写る人物の特徴と、人物の名前と、をリストに登録することをいう。認証は、画像に写る人物が誰であるかを特定し、対応する人物の名前を出力することをいう。

制御部１１０２は、用途入力部１１０１から画像データの用途を受信する。制御部１１０２は、画像データの用途に応じて、顔領域検出部３００、顔器官検出部３０１、生成部３０２、顔検出部３０３、及び判定部３０４に処理させる内容を制御する。例えば、制御部１１０２は、画像データの用途が「学習」又は「登録」である場合、顔候補領域に対する判定条件を厳しく設定する。一方で、制御部１１０２は、学習データの用途が「認証」である場合、顔候補領域に対する判定条件を緩く設定する。

図１２は、第２実施形態に係る、画像処理の流れを説明するフローチャートである。Ｓ１０００～Ｓ１００７までの処理は、第１実施形態と同様であるので説明を省略する。

Ｓ１２０１で制御部１１０２は、用途入力部１１０１から受信した画像データの用途に基づいて、顔候補領域に対する判定条件を厳しく設定するか否かを判定する。制御部１１０２は、顔候補領域に対する判定条件を厳しく設定すると判定した場合（Ｓ１２０１でＹｅｓ）、処理はＳ１２０２に進む。制御部１１０２は、顔候補領域に対する判定条件を厳しく設定しないと判定した場合（Ｓ１２０１でＮｏ）、処理はＳ１００２に進む。

Ｓ１２０２で判定部３０４は、画像からはみ出している顔候補領域の一部が顔候補領域に占める割合が閾値以下であるか否かに基づいて、顔候補領域から顔器官の位置を検出するか否かを判定する。例えば、判定部３０４は、図５において画像４００からはみ出している領域５５０の一部が領域５５０に占める割合を算出する。そして、判定部３０４は、算出した割合が閾値以下ではない場合、領域５５０から顔器官の位置を検出しないと判定し、処理を終了する。

図１３は、第２実施形態に係る、画像処理の流れを説明するフローチャートである。Ｓ１０００～Ｓ１００７までの処理は、第１実施形態と同様であるので説明を省略する。

Ｓ１３０１で制御部１１０２は、用途入力部１１０１から受信した画像データの用途に基づいて、顔候補領域に対する判定条件を厳しく設定するか否かを判定する。制御部１１０２は、顔候補領域に対する判定条件を厳しく設定すると判定した場合（Ｓ１３０１でＹｅｓ）、処理はＳ１３０２に進む。制御部１１０２は、顔候補領域に対する判定条件を厳しく設定しないと判定した場合（Ｓ１３０１でＮｏ）、処理はＳ１００５に進む。

Ｓ１３０２で判定部３０４は、顔候補領域における顔器官の位置と変換画像における基準位置との間の差分が閾値以内であるか否かに基づいて、変換画像から顔領域を検出するか否かを判定する。判定部３０４は、顔候補領域における顔器官の位置と変換画像における基準位置との間の差分が閾値以内であると判定した場合（Ｓ１３０２でＹｅｓ）、処理はＳ１００５に進む。判定部３０４は、顔候補領域における顔器官の位置と変換画像における基準位置との間の差分が閾値以内ではないと判定した場合（Ｓ１３０２でＮｏ）、処理は終了する。

図１４は、第２実施形態に係る、画像処理の流れを説明するフローチャートである。Ｓ１０００～Ｓ１００７までの処理は、第１実施形態と同様であるので説明を省略する。処理の開始時に変数ｉ＝０とする。なお、変数ｉの数字は、変換画像から人物の顔領域を検出した回数を表すものとする。

Ｓ１４０１で制御部１１０２は、変数ｉに１を足し、処理はＳ１４０２に進む。

Ｓ１４０２で判定部３０４は、変数ｉが閾値以上であるか否かを判定する。制御部１１０２は、変数ｉが閾値以上であると判定した場合（Ｓ１４０１でＹｅｓ）、処理はＳ１００７に進む。判定部３０４は、変数ｉが閾値以上ではないと判定した場合（Ｓ１４０１でＮｏ）、処理はＳ１４０３に進む。

Ｓ１４０３で制御部１１０２は、Ｓ１００４で生成した変換画像から１つ顔候補領域を検出し、処理はＳ１００２に進む。ここで、制御部１１０２は、顔候補領域に対する判定条件を厳しく設定する場合、Ｓ１４０２における閾値を「２」以上の値に設定する。顔候補領域に対する判定条件は、閾値の値が大きいほど厳しい設定であることを表す。一方で、制御部１１０２は、顔候補領域に対する判定条件を緩く設定する場合、Ｓ１４０２における閾値を「１」に設定する。

図１５は、第２実施形態に係る、画像処理の流れを説明するフローチャートである。Ｓ１０００、Ｓ１００３～Ｓ１００７までの処理は、第１実施形態と同様であるので説明を省略する。

Ｓ１５０１で顔領域検出部３００は、画像から検出した顔候補領域の尤度を算出する。

Ｓ１５０２で顔器官検出部３０１は、顔候補領域から検出した顔器官位置の尤度を算出する。

Ｓ１５０３で制御部１１０２は、用途入力部１１０１から受信した画像データの用途に基づいて、顔候補領域に対する判定条件を厳しく設定するか否かを判定する。制御部１１０２は、顔候補領域に対する判定条件を厳しく設定すると判定した場合（Ｓ１５０３でＹｅｓ）、処理はＳ１００４に進む。制御部１１０２は、顔候補領域に対する判定条件を厳しく設定しないと判定した場合（Ｓ１５０３でＮｏ）、処理はＳ１５０４に進む。

図１６は、第２実施形態に係る、画像処理の流れを説明するフローチャートである。Ｓ１０００～Ｓ１００７までの処理は、第１実施形態と同様であるので説明を省略する。

Ｓ１６０１で制御部１１０２は、用途入力部１１０１から受信した画像データの用途に基づいて、顔候補領域に対する判定条件を厳しく設定するか否かを判定する。制御部１１０２は、顔候補領域に対する判定条件を厳しく設定すると判定した場合（Ｓ１６０１でＹｅｓ）、処理はＳ１００２に進む。制御部１１０２は、顔候補領域に対する判定条件を厳しく設定しないと判定した場合（Ｓ１６０１でＮｏ）、処理はＳ１００７に進む。

図１７は、第２実施形態に係る、画像処理の流れを説明するフローチャートである。Ｓ１０００～Ｓ１００７までの処理は、第１実施形態と同様であるので説明を省略する。

Ｓ１７０１で制御部１１０２は、用途入力部１１０１から受信した画像データの用途に基づいて、顔候補領域に対する判定条件を厳しく設定するか否かを判定する。制御部１１０２は、顔候補領域に対する判定条件を厳しく設定すると判定した場合（Ｓ１７０１でＹｅｓ）、処理はＳ１７０２に進む。制御部１１０２は、顔候補領域に対する判定条件を厳しく設定しないと判定した場合（Ｓ１７０１でＮｏ）、処理はＳ１００７に進む。

Ｓ１７０２で判定部３０４は、Ｓ１００６で検出した変換画像の顔領域の大きさが閾値以上であるか否かを判定する。判定部３０４は、Ｓ１００６で検出した変換画像の顔領域の大きさが閾値以上であると判定した場合（Ｓ１７０２でＹｅｓ）、処理はＳ１００７に進む。判定部３０４は、Ｓ１００６で検出した変換画像の顔領域の大きさが閾値以上ではないと判定した場合（Ｓ１７０２でＮｏ）、処理は終了する。

図１８は、第２実施形態に係る、画像処理の流れを説明するフローチャートである。Ｓ１０００～Ｓ１００７までの処理は、第１実施形態と同様であるので説明を省略する。

Ｓ１８０１で制御部１１０２は、用途入力部１１０１から受信した画像データの用途に基づいて、顔候補領域に対する判定条件を厳しく設定するか否かを判定する。制御部１１０２は、顔候補領域に対する判定条件を厳しく設定すると判定した場合（Ｓ１８０１でＹｅｓ）、処理はＳ１８０２に進む。制御部１１０２は、顔候補領域に対する判定条件を厳しく設定しないと判定した場合（Ｓ１８０１でＮｏ）、処理はＳ１００７に進む。

Ｓ１８０２で顔器官検出部３０１は、Ｓ１００６で検出した変換画像の顔領域から顔器官位置を検出し、処理はＳ１８０３に進む。

Ｓ１８０３で判定部３０４は、変換画像の顔領域における顔器官の位置と変換画像における基準位置との間の差分が閾値以内であるか否かを判定する。判定部３０４は、変換画像の顔画像領域における顔器官の位置と変換画像における基準位置との間の差分が閾値以内である場合（Ｓ１８０３でＹｅｓ）、処理はＳ１００７に進む。判定部３０４は、変換画像の顔画像領域における顔器官の位置と基準位置との間の差分が閾値以内ではない場合（Ｓ１８０３でＮｏ）、処理は終了する。

以上の通り、第２実施形態によれば、画像の用途に基づいて顔候補領域に対する判定条件を変更することにより、画像の用途に応じた品質の部分画像を生成できる。

（第３実施形態）
第３実施形態は、画像の顔候補領域における顔器官位置に基づいて画像に対し幾何的な変換（例えば、アフィン変換）を行う。第３実施形態は、変換画像から顔領域を検出した結果に基づいて、顔候補領域を示す情報を顔の領域を示す情報として出力するか否かを判定する。また、第３実施形態は、部分画像の用途に応じて、部分画像の登録、認証、又は学習の処理を行う。以下、第３実施形態は、第１及び第２実施形態との差分について説明する。

図１９は、第３実施形態に係る、画像処理装置の機能構成の一例を示すブロック図である。

画像処理装置１１０は、特徴抽出部１９０１、特徴照合部１９０２、登録部１９０３、認証部１９０４、学習部１９０５、及び氏名入力部１９０６を備える。

（画像の用途が登録である場合）
以下、用途入力部１１０１からの入力が登録である場合における上記各部の機能について説明する。

特徴抽出部１９０１は、判定部３０４により変換画像から顔領域が検出されたと判定された場合、生成部３０２から部分画像を受信する。次に、特徴抽出部１９０１は、部分画像から特徴を抽出する。例えば、特徴抽出部１９０１は、部分画像の特徴として数値ベクトルを部分画像から抽出する。なお、部分画像の特徴は、数値ベクトルに限られず、別の特徴であっても良い。そして、特徴抽出部１９０１は、部分画像から抽出した特徴を、登録部１９０３に送信する。

登録部１９０３は、特徴抽出部１９０１から受信した部分画像の特徴を、記憶部２０７等のリストに登録する。また、登録部１９０３は、記憶部２０７等のリストに登録した特徴に対応する氏名を氏名入力部１９０６から受信し、記憶部２０７等のリストに登録する。

氏名入力部１９０６は、登録部１９０３によって登録された部分画像の特徴に対応する氏名を入力するユーザ・インターフェース（ＵＩ）を備える。ユーザは、画像処理装置１１０に入力した部分画像に写る人物の名前を、氏名入力部１９０６を用いて入力する。

（画像の用途が認証である場合）
以下、用途入力部１１０１からの入力が認証である場合における上記各部の機能について説明する。

特徴抽出部１９０１は、判定部３０４により変換画像から顔領域が検出されたと判定された場合、生成部３０２から部分画像を受信する。次に、特徴抽出部１９０１は、部分画像から特徴を抽出する。例えば、特徴抽出部１９０１は、部分画像の特徴として数値ベクトルを、部分画像から抽出する。なお、部分画像の特徴は、数値ベクトルに限られず、登録部１９０３に登録済みの特徴と同じ形式を備える特徴であっても良い。

特徴照合部１９０２は、特徴抽出部１９０１から受信した部分画像の特徴と、登録部１９０３に登録済みの部分画像の特徴と、を照合する。特徴照合部１９０２は、照合結果を認証部１９０４に送信する。ここで、特徴照合部１９０２は、部分画像から抽出された特徴と、登録部１９０３に登録済みの特徴と、の差分を算出する。例えば、差分は、２つの数値ベクトルのコサイン類似度、Ｌ１距離、及びＬ２距離等である。

認証部１９０４は、特徴照合部１９０２から照合結果として部分画像の特徴の差分を受信する。次に、認証部１９０４は、部分画像の特徴の差分のうち最も小さい差分が閾値以内である場合、最も小さい差分に対応する部分画像に写る人物の名前を認証結果として出力する。一方で、認証部１９０４は、受信した部分画像の特徴の差分のうち最も小さい差分が閾値以内ではない場合、「該当人物なし」を示す認証結果を出力する。

（画像の用途が学習である場合）
以下、用途入力部１１０１からの入力が学習である場合における上記各部の機能について説明する。

氏名入力部１９０６は、登録部１９０３によって登録された部分画像の特徴に対応する氏名を入力するユーザ・インターフェース（ＵＩ）を備える。ユーザは、画像処理装置１１０に入力した画像に写る人物の名前を、氏名入力部１９０６を用いて入力する。

判定部３０４は、変換画像から顔領域が検出されたと判定した場合、部分画像を学習部１９０５に送信する。さらに、判定部３０４は、部分画像に写る人物の氏名を氏名入力部１９０６から受信し、部分画像と部分画像に写る人物の氏名とを学習部１９０５に送信する。

学習部１９０５は、判定部３０４から受信した部分画像と部分画像に写る人物の氏名とを学習する。例えば、学習部１９０５は、部分画像から特徴を抽出するＤＮＮであるが、これに限らず、例えば、部分画像から顔を検出するためのＤＮＮであっても良い。

以上の通り、第３実施形態によれば、部分画像の用途に応じて、部分画像の登録、認証、又は学習の処理を制御できる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

本明細書の開示は、以下の画像情報処理、画像処理方法、及びプログラムを含む。
（項目１）
画像から第一の顔検出器を用いて顔の候補領域を検出する検出手段と、
前記顔の候補領域として検出された第一の領域の画像から、顔器官検出器を用いて顔器官の位置を取得する取得手段と、
前記第一の領域の画像を、前記顔器官の位置に基づいて変換した変換画像を生成する生成手段と、
前記変換画像から第二の顔検出器を用いて顔を検出した検出結果に基づいて、前記第一の領域の画像を出力するか否かを制御する制御手段と、
を備えることを特徴とする画像処理装置。
（項目２）
前記第一の顔検出器は、前記第二の顔検出器とは異なるニューラルネットワークで構成される、
ことを特徴とする項目１に記載の画像処理装置。
（項目３）
前記第一の顔検出器は、人物の顔が写る画像を用いて学習されたニューラルネットワークであり、
前記顔器官検出器は、前記第一の領域の画像を用いて学習されたニューラルネットワークであり、
前記第二の顔検出器は、前記変換画像を用いて学習されたニューラルネットワークである、
ことを特徴とする項目１又は２に記載の画像処理装置。
（項目４）
前記第一の顔検出器は、前記第二の顔検出器よりもニューラルネットワークの規模が小さく、かつ正検出率の低いニューラルネットワークであり、
前記第二の顔検出器は、前記第一の顔検出器よりもニューラルネットワークの規模が大きく、かつ正検出率の高いニューラルネットワークである、
ことを特徴とする項目１から３のいずれか一項目に記載の画像処理装置。
（項目５）
前記第一の顔検出器は、前記第二の顔検出器と同一のニューラルネットワークで構成される、
ことを特徴とする項目１に記載の画像処理装置。
（項目６）
前記制御手段は、前記変換画像から前記顔が検出された場合、前記第一の領域の画像を顔画像として出力する、
ことを特徴とする項目１から５のいずれか一項目に記載の画像処理装置。
（項目７）
前記制御手段は、前記変換画像から前記顔が検出されなかった場合、前記第一の領域の画像を顔画像として出力することを抑制する、
ことを特徴とする項目６に記載の画像処理装置。
（項目８）
前記生成手段は、前記第一の領域の画像から検出された前記顔器官の位置と、前記変換画像において前記顔器官の位置を規定した基準位置と、の差分に基づいて、前記第一の領域の画像を変換した変換画像を生成する、
ことを特徴とする項目１から７のいずれか一項目に記載の画像処理装置。
（項目９）
前記画像の用途を入力する入力手段と、
前記画像の用途に基づいて、前記第一の領域の画像から前記顔器官の位置を検出する条件、前記変換画像から前記顔を検出する条件、前記第一の領域の画像から検出された前記顔器官の位置に基づいて変換した前記変換画像を生成する条件、及び前記第一の領域の画像を出力する条件のうち少なくともいずれかを変更する変更手段と、
を備えることを特徴とする項目１から８のいずれか一項目に記載の画像処理装置。
（項目１０）
前記制御手段は、前記第一の領域の画像から前記顔器官の位置を検出する条件が前記変更手段によって変更される場合、前記画像の外側にはみ出している前記第一の領域の部分が前記第一の領域に占める割合が閾値以下であるか否かに基づいて、前記第一の領域の画像から前記顔器官の位置を検出するか否かを判定する、
ことを特徴とする項目９に記載の画像処理装置。
（項目１１）
前記制御手段は、前記変換画像から前記顔を検出する条件が前記変更手段によって変更される場合、前記第一の領域の画像から検出された前記顔器官の位置と、前記変換画像における顔器官の位置を規定した基準位置と、の差分が閾値以下であるか否かに基づいて、前記変換画像から前記顔を検出するか否かを判定する、
ことを特徴とする項目９又は１０に記載の画像処理装置。
（項目１２）
前記制御手段は、前記第一の領域を示す情報を前記顔の領域を示す情報として出力する条件が前記変更手段によって変更される場合、前記変換画像から前記顔を検出した回数が閾値以上であるか否かに基づいて、前記第一の領域の画像を出力するか否かを判定する、
ことを特徴とする項目９から１１のいずれか一項目に記載の画像処理装置。
（項目１３）
前記制御手段は、前記第一の領域で検出された前記顔器官の位置に基づいて変換した前記変換画像を生成する条件が前記変更手段によって変更されない場合、前記第一の領域の尤度が閾値以下であるか否か、及び、前記第一の領域で検出された前記顔器官の位置の尤度が閾値以下であるか否かに基づいて、前記第一の領域の画像から検出された前記顔器官の位置に基づいて変換した前記変換画像を生成するか否かを判定する、
ことを特徴とする項目９から１２のいずれか一項目に記載の画像処理装置。
（項目１４）
前記制御手段は、前記第一の領域の画像から前記顔器官の位置を検出する条件が前記変更手段によって変更される場合、前記第一の領域の画像から前記顔器官の位置を検出すると判定する、
ことを特徴とする項目９から１３のいずれか一項目に記載の画像処理装置。
（項目１５）
前記制御手段は、前記第一の領域を示す情報を顔の領域を示す情報として出力する条件が前記変更手段によって変更される場合、前記変換画像から検出された前記顔の大きさが閾値以上であるか否かに基づいて、前記第一の領域の画像を出力するか否かを判定する、
ことを特徴とする項目９から１４のいずれか一項目に記載の画像処理装置。
（項目１６）
前記制御手段は、前記第一の領域を示す情報を顔の領域を示す情報として出力する条件が前記変更手段によって変更される場合、前記変換画像から顔の候補領域として検出された第一の領域における顔器官の位置と、前記変換画像において前記顔器官の位置を規定した基準位置と、の差分が閾値以下であるか否かに基づいて、前記第一の領域の画像を出力するか否かを判定する、
ことを特徴とする項目９から１５のいずれか一項目に記載の画像処理装置。
（項目１７）
前記変換画像から前記顔が検出された場合、前記変換画像から特徴を抽出する抽出手段と、
前記変換画像の特徴と、前記変換画像の特徴に対応する人物の名前と、を登録する登録手段と、
前記抽出手段によって抽出された前記変換画像の特徴と、前記登録手段に登録された前記変換画像の特徴と、の照合結果に基づいて前記変換画像内の人物の名前を出力する出力手段と、
を備えることを特徴とする項目１に記載の画像処理装置。
（項目１８）
前記変換画像の用途は、画像を学習するモデルに対し前記変換画像を学習させる学習と、前記変換画像の特徴と前記変換画像の特徴に対応する人物の名前を登録する登録と、前記変換画像内の人物の名前を出力する認証と、のうち少なくともいずれかを含む
ことを特徴とする項目９に記載の画像処理装置。
（項目１９）
前記変換画像の特徴と、前記変換画像の特徴に対応する人物の名前と、を登録する登録手段と、
前記変換画像から抽出された前記変換画像の特徴と、前記登録手段に登録された前記変換画像の特徴と、の照合結果に基づいて前記変換画像内の人物の名前を出力する出力手段と、を備え、
前記登録手段は、前記変換画像の用途が前記登録である場合、前記変換画像から抽出された前記変換画像の特徴を登録する、
ことを特徴とする項目１８に記載の画像処理装置。
（項目２０）
前記出力手段は、前記変換画像の用途が認証であり、かつ、前記変換画像から抽出された前記変換画像の特徴と、前記登録手段に登録された前記変換画像の特徴と、の差分のうち最も小さい差分が閾値以内である場合、前記最も小さい差分に対応する人物の名前を出力する、
ことを特徴とする項目１９に記載の画像処理装置。
（項目２１）
前記変換画像の用途が学習である場合、前記変換画像を学習する学習手段を備える、
ことを特徴とする項目１８又は１９に記載の画像処理装置。
（項目２２）
前記学習手段は、前記第一の領域の画像に基づいて前記第二の顔検出器を学習する、
ことを特徴とする項目２１に記載の画像処理装置。
（項目２３）
前記学習手段は、さらに
前記画像から顔の候補領域を検出する第１検出手段と、
前記顔の候補領域から顔器官の位置を検出する第２検出手段と、
前記変換画像から前記顔を検出する第３検出手段と、
を備えることを特徴とする項目２１に記載の画像処理装置。
（項目２４）
画像処理装置が実行する画像処理方法であって、
画像から第一の顔検出器を用いて顔の候補領域を検出する検出工程と、
前記顔の候補領域として検出された第一の領域の画像から、顔器官検出器を用いて顔器官の位置を取得する取得工程と、
前記第一の領域の画像を、前記顔器官の位置に基づいて変換した変換画像を生成する生成工程と、
前記変換画像から第二の顔検出器を用いて顔を検出した検出結果に基づいて、前記第一の領域の画像を出力するか否かを制御する制御工程と、
を備えることを特徴とする画像処理方法。
（項目２５）
コンピュータを、項目１から２３のうちいずれか一項目に記載の画像処理装置の各手段として機能させるためのプログラム。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１０：画像処理システム、１００：撮像装置、１１０：画像処理装置、１２０：ネットワーク、１０１：入力部、１０２：表示部、１０３：Ｉ／Ｆ、１０４：ＣＰＵ、１０５：ＲＡＭ、１０６：ＲＯＭ、１０７：記憶部、１０８：データバス

本発明の目的を達成するために、本発明の一実施形態に係る画像処理装置は、以下の構成を備える。すなわち、画像処理装置は、画像から顔検出器を用いて顔の候補領域を検出する検出手段と、前記検出手段により検出された前記顔の候補領域の画像から、顔器官検出器を用いて顔器官の位置を取得する取得手段と、前記顔の候補領域の画像を、前記顔器官の位置に基づいて変換した変換画像を生成する生成手段と、前記変換画像に対して顔の検出処理を行った結果に基づいて、前記顔の候補領域の画像を顔画像として出力するか否かを制御する制御手段と、を備える。

Claims

画像から第一の顔検出器を用いて顔の候補領域を検出する検出手段と、
前記顔の候補領域として検出された第一の領域の画像から、顔器官検出器を用いて顔器官の位置を取得する取得手段と、
前記第一の領域の画像を、前記顔器官の位置に基づいて変換した変換画像を生成する生成手段と、
前記変換画像から第二の顔検出器を用いて顔を検出した検出結果に基づいて、前記第一の領域の画像を出力するか否かを制御する制御手段と、
を備えることを特徴とする画像処理装置。
前記第一の顔検出器は、前記第二の顔検出器とは異なるニューラルネットワークで構成される、
ことを特徴とする請求項１に記載の画像処理装置。
前記第一の顔検出器は、人物の顔が写る画像を用いて学習されたニューラルネットワークであり、
前記顔器官検出器は、前記第一の領域の画像を用いて学習されたニューラルネットワークであり、
前記第二の顔検出器は、前記変換画像を用いて学習されたニューラルネットワークである、
ことを特徴とする請求項１に記載の画像処理装置。
前記第一の顔検出器は、前記第二の顔検出器よりもニューラルネットワークの規模が小さく、かつ正検出率の低いニューラルネットワークであり、
前記第二の顔検出器は、前記第一の顔検出器よりもニューラルネットワークの規模が大きく、かつ正検出率の高いニューラルネットワークである、
ことを特徴とする請求項２に記載の画像処理装置。
前記第一の顔検出器は、前記第二の顔検出器と同一のニューラルネットワークで構成される、
ことを特徴とする請求項１に記載の画像処理装置。
前記制御手段は、前記変換画像から前記顔が検出された場合、前記第一の領域の画像を顔画像として出力する、
ことを特徴とする請求項１に記載の画像処理装置。
前記制御手段は、前記変換画像から前記顔が検出されなかった場合、前記第一の領域の画像を顔画像として出力することを抑制する、
ことを特徴とする請求項６に記載の画像処理装置。
前記生成手段は、前記第一の領域の画像から検出された前記顔器官の位置と、前記変換画像において前記顔器官の位置を規定した基準位置と、の差分に基づいて、前記第一の領域の画像を変換した変換画像を生成する、
ことを特徴とする請求項１に記載の画像処理装置。
前記画像の用途を入力する入力手段と、
前記画像の用途に基づいて、前記第一の領域の画像から前記顔器官の位置を検出する条件、前記変換画像から前記顔を検出する条件、前記第一の領域の画像から検出された前記顔器官の位置に基づいて変換した前記変換画像を生成する条件、及び前記第一の領域の画像を出力する条件のうち少なくともいずれかを変更する変更手段と、
を備えることを特徴とする請求項１に記載の画像処理装置。
前記制御手段は、前記第一の領域の画像から前記顔器官の位置を検出する条件が前記変更手段によって変更される場合、前記画像の外側にはみ出している前記第一の領域の部分が前記第一の領域に占める割合が閾値以下であるか否かに基づいて、前記第一の領域の画像から前記顔器官の位置を検出するか否かを判定する、
ことを特徴とする請求項９に記載の画像処理装置。
前記制御手段は、前記変換画像から前記顔を検出する条件が前記変更手段によって変更される場合、前記第一の領域の画像から検出された前記顔器官の位置と、前記変換画像における顔器官の位置を規定した基準位置と、の差分が閾値以下であるか否かに基づいて、前記変換画像から前記顔を検出するか否かを判定する、
ことを特徴とする請求項９に記載の画像処理装置。
前記制御手段は、前記第一の領域を示す情報を前記顔の領域を示す情報として出力する条件が前記変更手段によって変更される場合、前記変換画像から前記顔を検出した回数が閾値以上であるか否かに基づいて、前記第一の領域の画像を出力するか否かを判定する、
ことを特徴とする請求項１１に記載の画像処理装置。
前記制御手段は、前記第一の領域で検出された前記顔器官の位置に基づいて変換した前記変換画像を生成する条件が前記変更手段によって変更されない場合、前記第一の領域の尤度が閾値以下であるか否か、及び、前記第一の領域で検出された前記顔器官の位置の尤度が閾値以下であるか否かに基づいて、前記第一の領域の画像から検出された前記顔器官の位置に基づいて変換した前記変換画像を生成するか否かを判定する、
ことを特徴とする請求項９に記載の画像処理装置。
前記制御手段は、前記第一の領域の画像から前記顔器官の位置を検出する条件が前記変更手段によって変更される場合、前記第一の領域の画像から前記顔器官の位置を検出すると判定する、
ことを特徴とする請求項９に記載の画像処理装置。
前記制御手段は、前記第一の領域を示す情報を顔の領域を示す情報として出力する条件が前記変更手段によって変更される場合、前記変換画像から検出された前記顔の大きさが閾値以上であるか否かに基づいて、前記第一の領域の画像を出力するか否かを判定する、
ことを特徴とする請求項９に記載の画像処理装置。
前記制御手段は、前記第一の領域を示す情報を顔の領域を示す情報として出力する条件が前記変更手段によって変更される場合、前記変換画像から顔の候補領域として検出された第一の領域における顔器官の位置と、前記変換画像において前記顔器官の位置を規定した基準位置と、の差分が閾値以下であるか否かに基づいて、前記第一の領域の画像を出力するか否かを判定する、
ことを特徴とする請求項９に記載の画像処理装置。
前記変換画像から前記顔が検出された場合、前記変換画像から特徴を抽出する抽出手段と、
前記変換画像の特徴と、前記変換画像の特徴に対応する人物の名前と、を登録する登録手段と、
前記抽出手段によって抽出された前記変換画像の特徴と、前記登録手段に登録された前記変換画像の特徴と、の照合結果に基づいて前記変換画像内の人物の名前を出力する出力手段と、
を備えることを特徴とする請求項１に記載の画像処理装置。
前記変換画像の用途は、画像を学習するモデルに対し前記変換画像を学習させる学習と、前記変換画像の特徴と前記変換画像の特徴に対応する人物の名前を登録する登録と、前記変換画像内の人物の名前を出力する認証と、のうち少なくともいずれかを含む
ことを特徴とする請求項９に記載の画像処理装置。
前記変換画像の特徴と、前記変換画像の特徴に対応する人物の名前と、を登録する登録手段と、
前記変換画像から抽出された前記変換画像の特徴と、前記登録手段に登録された前記変換画像の特徴と、の照合結果に基づいて前記変換画像内の人物の名前を出力する出力手段と、を備え、
前記登録手段は、前記変換画像の用途が前記登録である場合、前記変換画像から抽出された前記変換画像の特徴を登録する、
ことを特徴とする請求項１８に記載の画像処理装置。
前記出力手段は、前記変換画像の用途が認証であり、かつ、前記変換画像から抽出された前記変換画像の特徴と、前記登録手段に登録された前記変換画像の特徴と、の差分のうち最も小さい差分が閾値以内である場合、前記最も小さい差分に対応する人物の名前を出力する、
ことを特徴とする請求項１９に記載の画像処理装置。
前記変換画像の用途が学習である場合、前記変換画像を学習する学習手段を備える、
ことを特徴とする請求項１８に記載の画像処理装置。
前記学習手段は、前記第一の領域の画像に基づいて前記第二の顔検出器を学習する、
ことを特徴とする請求項２１に記載の画像処理装置。
前記学習手段は、さらに
前記画像から顔の候補領域を検出する第１検出手段と、
前記顔の候補領域から顔器官の位置を検出する第２検出手段と、
前記変換画像から前記顔を検出する第３検出手段と、
を備えることを特徴とする請求項２１に記載の画像処理装置。
画像処理装置が実行する画像処理方法であって、
画像から第一の顔検出器を用いて顔の候補領域を検出する検出工程と、
前記顔の候補領域として検出された第一の領域の画像から、顔器官検出器を用いて顔器官の位置を取得する取得工程と、
前記第一の領域の画像を、前記顔器官の位置に基づいて変換した変換画像を生成する生成工程と、
前記変換画像から第二の顔検出器を用いて顔を検出した検出結果に基づいて、前記第一の領域の画像を出力するか否かを制御する制御工程と、
を備えることを特徴とする画像処理方法。
コンピュータを、請求項１から２３のうちいずれか一項に記載の画像処理装置の各手段として機能させるためのプログラム。