JP2023152671A - 画像処理装置、画像処理方法、及びプログラム - Google Patents

画像処理装置、画像処理方法、及びプログラム Download PDF

Info

Publication number
JP2023152671A
JP2023152671A JP2022212106A JP2022212106A JP2023152671A JP 2023152671 A JP2023152671 A JP 2023152671A JP 2022212106 A JP2022212106 A JP 2022212106A JP 2022212106 A JP2022212106 A JP 2022212106A JP 2023152671 A JP2023152671 A JP 2023152671A
Authority
JP
Japan
Prior art keywords
image
face
region
converted
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022212106A
Other languages
English (en)
Inventor
孝嗣 牧田
Takatsugu Makita
英生 野呂
Hideo Noro
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to PCT/JP2023/007942 priority Critical patent/WO2023189195A1/ja
Publication of JP2023152671A publication Critical patent/JP2023152671A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

【課題】本発明は、画像から人物の顔が写る画像を抽出する精度を向上することを目的とする。【解決手段】画像処理装置であって、画像から第一の顔検出器を用いて顔の候補領域を検出する検出手段と、前記顔の候補領域として検出された第一の領域の画像から、顔器官検出器を用いて顔器官の位置を取得する取得手段と、前記第一の領域の画像を、前記顔器官の位置に基づいて変換した変換画像を生成する生成手段と、前記変換画像から第二の顔検出器を用いて顔を検出した検出結果に基づいて、前記第一の領域の画像を出力するか否かを制御する制御手段と、を備える。【選択図】図1

Description

本発明は、画像処理装置、画像処理方法、及びプログラムに関する。
従来、画像から人物の顔を検出する方法として、人物の顔領域を画像上で探索し、尤度が一定値以上である顔候補領域を検出結果として出力する方法がある。この方法で検出した顔候補領域に顔が存在しない場合があるため、尤度が高い顔候補領域が顔領域であるか否かを更に判定することが行われている。また、顔検出方法及び顔認証方法等を機械学習モデルに学習させるための画像及び顔認証システムに用いられる画像を作成する場合、人物の顔が写っていない低品質な画像を排除する必要がある。
上記の問題点を踏まえて、特許文献1は、尤度が高い顔候補領域から両目の目頭や口の中央部等の顔器官を検出し、顔器官の検出数に基づいて、尤度が高い顔候補領域が顔領域であるか否かを判定する方法を提案している。
特許第4884251号
しかしながら、特許文献1の方法は、尤度が高い顔候補領域に人物の顔が存在しないが、顔器官の検出数が多い場合、尤度が高い顔候補領域を顔領域であると判定する。一方、特許文献1の方法は、尤度が低い顔候補領域に人物の顔が写っているが、顔器官の検出数が少ない場合、尤度が低い顔候補領域を顔領域ではないと判定する。このように、特許文献1の技術は、顔候補領域が顔領域であるか否かを判定する判定精度が低いため、顔が写っていない画像を作成してしまうという課題がある。
そこで、本発明は、画像から人物の顔が写る画像を抽出する精度を向上することを目的とする。
本発明の目的を達成するために、本発明の一実施形態に係る画像処理装置は、以下の構成を備える。すなわち、画像処理装置は、画像から第一の顔検出器を用いて顔の候補領域を検出する検出手段と、前記顔の候補領域として検出された第一の領域の画像から、顔器官検出器を用いて顔器官の位置を取得する取得手段と、前記第一の領域の画像を、前記顔器官の位置に基づいて変換した変換画像を生成する生成手段と、前記変換画像から第二の顔検出器を用いて顔を検出した検出結果に基づいて、前記第一の領域の画像を出力するか否かを制御する制御手段と、を備える。
本発明によれば、画像から人物の顔が写る画像を抽出する精度を向上することができる。
第1実施形態に係る、画像処理システムのハードウェア構成の一例を示す図。 第1実施形態に係る、画像処理装置のハードウェア構成の一例を示す図。 第1実施形態に係る、画像処理装置の機能構成の一例を示すブロック図。 第1実施形態に係る、画像処理の対象となる画像の一例を示す図。 第1実施形態に係る、顔候補領域の検出結果の一例を示す図。 第1実施形態に係る、顔候補領域から検出した顔器官の検出結果の一例を示す図。 第1実施形態に係る、変換画像を生成する処理の流れを説明するフローチャート。 第1実施形態に係る、顔器官の位置の対応関係を説明するための図。 第1実施形態に係る、画像から変換画像を生成する際の概要を示す図。 第1実施形態に係る、画像処理の流れを説明するフローチャート。 第2実施形態に係る、画像処理装置の機能構成の一例を示すブロック図。 第2実施形態に係る、画像処理の流れを説明するフローチャート。 第2実施形態に係る、画像処理の流れを説明するフローチャート。 第2実施形態に係る、画像処理の流れを説明するフローチャート。 第2実施形態に係る、画像処理の流れを説明するフローチャート。 第2実施形態に係る、画像処理の流れを説明するフローチャート。 第2実施形態に係る、画像処理の流れを説明するフローチャート。 第2実施形態に係る、画像処理の流れを説明するフローチャート。 第3実施形態に係る、画像処理装置の機能構成の一例を示すブロック図。
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
(第1実施形態)
本実施形態は、撮像装置と、画像処理装置とを組み合わせた画像処理システムとして用いることができる。
図1は、第1実施形態に係る、画像処理システムのハードウェア構成の一例を示す図である。
画像処理システム10は、撮像装置100、画像処理装置110、及びネットワーク120を含む。
撮像装置100は、被写体を撮像するカメラであり、例えば、デジタルカメラ及びネットワークカメラである。撮像装置100は、1つのカメラであるが、2つ以上のカメラであっても良い。
画像処理装置110は、画像から人物の顔候補領域及び顔器官の位置等を検出する装置であり、例えば、デスクトップコンピュータ及びラップトップコンピュータであるが、これに限られることはない。画像処理装置110は、例えば、スマートフォン及びタブレット端末等であってもよい。
ネットワーク120は、撮像装置100及び画像処理装置110を接続する。ネットワーク120は、例えば、有線LAN及び無線LANである。
図2は、第1実施形態に係る、画像処理装置のハードウェア構成の一例を示すブロック図である。
画像処理装置110は、入力部201、表示部202、I/F203、CPU204、RAM205、ROM206、記憶部207、及びデータバス208を備える。
入力部201は、ユーザが各種データを入力する装置であり、例えば、キーボード、マウス、及びタッチパネル等を含む。
表示部202は、各種データを表示する装置であり、例えば、液晶ディスプレイ(LCD)を含む。
I/F203は、インターネット等のネットワーク120を介して、画像処理装置110と他の装置(不図示)との間で各種情報を送受信する。
CPU204は、画像処理装置110内の各部を統括的に制御するプロセッサである。CPU204は、ROM206内の制御用プログラムを読み出して、RAM205にロードし、プログラムを実行することで、各種制御を行う。CPU204がROM206及び記憶部207内の画像処理プログラムを実行することで、画像データに対する画像処理が実現される。
RAM205は、CPU204により実行されるプログラム及びワークメモリ等の一時記憶領域である。
ROM206は、画像処理装置110内の各部を制御するための制御用プログラムを記憶する。
記憶部207は、各種データを記憶する装置であり、例えば、画像データ、設定パラメータ、及び各種プログラム等を記憶する。また、記憶部207は、I/F203を介して外部装置(不図示)からのデータを記憶することも可能である。
データバス208は、データを伝送するための伝送路であり、I/F203を介して外部装置から受信した画像データ等をCPU204、RAM205、及びROM206に送信する。また、データバス208は、画像処理装置110から外部装置へ画像データ等を送信する。
図3は、第1実施形態に係る、画像処理装置の機能構成の一例を示すブロック図である。
画像処理装置110は、顔領域検出部300、顔器官検出部301、生成部302、顔検出部303、判定部304、DNN_A305、DNN_B306、及びDNN_C307を備える。DNN(Deep Neural Network)は、ディープニューラルネットワークの略である。
顔領域検出部300は、記憶部207等から画像を取得する。画像は、撮像装置100により撮像された画像及び予め記憶部207等に記憶した画像の少なくともいずれかである。顔領域検出部300は、DNN_A305を用いて画像の人物の顔候補領域を検出し、顔候補領域を含む画像を生成する。顔領域検出部300は、顔候補領域を含む画像を顔器官検出部301に送信する。
顔器官検出部301は、顔領域検出部300から顔候補領域を含む画像を受信する。顔器官検出部301は、DNN_B306を用いて画像の顔候補領域から顔器官を検出する。さらに、顔器官検出部301は、顔候補領域から検出した顔器官の情報を、生成部302に送信する。顔器官の情報は、例えば、顔器官の位置(二次元座標)、大きさ、及び向き等の情報を含む。
生成部302は、顔器官検出部301から顔候補領域から検出した顔器官の情報を受信する。生成部302は、顔器官の情報に基づく幾何的な変換(例えば、アフィン変換)により画像を変換し、変換画像を生成する。さらに、生成部302は、変換画像を顔検出部303に送信する。
顔検出部303は、生成部302から変換画像を受信する。顔検出部303は、DNN_C307を用いて変換画像から人物の顔を検出する。さらに、顔検出部303は、検出結果を判定部304に送信する。
判定部304は、生成部302から変換画像を受信する。判定部304は、顔検出部303から変換画像内で検出された人物の顔の検出結果を受信する。そして、判定部304は、変換画像における人物の顔の検出結果に基づいて、元の画像から顔候補領域として検出された検出領域を示す情報を顔の領域を示す情報として出力するか否かを判定する。さらに、判定部304は、判定結果に基づいて、顔領域であると判定された元の画像の検出領域を記憶部207等に出力する。
本実施形態では、顔領域検出部300のDNN_A305、顔器官検出部301のDNN_B306、及び顔検出部303のDNN_C307は、互いに異なるが、これに限られない。例えば、顔領域検出部300のDNNと顔検出部303のDNNは、同一であっても良い。また、顔候補領域と顔器官を同時に検出可能なDNNが利用可能である場合、顔領域検出部300、顔器官検出部301、及び顔検出部303のそれぞれのDNNは、全て同一であっても良い。ここで、顔領域検出部300のDNNは「第一の顔検出器」、顔器官検出部301のDNNは「顔器官検出器」、及び顔検出部303のDNNは「第二の顔検出器」と定義する。
一般的に、処理対象である画像のサイズ、画像に写る人物の顔の大きさ及び向きなどの人物に対する様々な撮影条件で撮像した画像を用いてDNNの学習が行われる。これにより、顔領域検出部300と顔検出部303のそれぞれは、様々な撮影条件で人物を撮影した画像を用いて学習したDNNを用いて、画像から顔候補領域と顔領域をそれぞれ高精度で検出できる。また、顔器官検出部301は、顔領域検出部300が様々な撮影条件で人物を撮影した画像から検出した顔候補領域の画像(第一の領域の画像に相当)を用いて学習したDNNを用いて、画像から顔器官の位置を高精度で検出できる。以下では、顔領域検出部300と顔検出部303のそれぞれに、それぞれ異なるDNNを適用することで顔候補領域及び顔領域の検出精度向上に効果的である例1~3について説明する。なお、例1~3の方法はそれぞれ独立した方法であるが、例1~3の組み合わせによる方法を利用しても良い。
(例1)
顔領域検出部300の入力画像の大きさは任意であり、かつ顔検出部303の入力画像の大きさが固定である場合、顔領域検出部300のDNNと顔検出部303のDNNは互いに異なっていても良い。例えば、顔領域検出部300のDNNは、画像の大きさに関わらず動作可能な汎用DNNである。一方で、顔検出部303のDNNは、画像の大きさを固定した学習データで汎用DNNを追加学習させたDNNである。
(例2)
顔領域検出部300の入力画像に写る人物の顔の大きさ及び向きなどのばらつきは大きい。一方で、顔検出部303の入力画像、すなわち生成部302によって生成(変換)される変換画像に写る人物の顔の大きさ及び向きなどのばらつきは、顔領域検出部300の入力画像に写る人物の顔の大きさ及び向きなどのばらつきよりも小さい。この場合、顔領域検出部300のDNNと顔検出部303のDNNは、互いに異なっていても良い。例えば、顔領域検出部300のDNNは、顔の大きさと向きに関わらず動作可能な汎用DNNである。一方で、顔検出部303のDNNは、生成部302による変換方法を用いて作成した学習データ(すなわち、変換画像)により汎用DNNを追加学習したDNNである。なお、汎用DNNに対する追加学習は、画像処理装置110とは別のソフトウェア及び学習装置等を用いて予め実施されても良い。あるいは、後述の第3実施形態のように、画像処理装置110に接続された学習部1905と画像処理装置110の入力画像とを用いて、汎用DNNの学習を実施しても良い。
(例3)
実時間(リアルタイム)で高速動作が要求される顔認証システム、及び、ハードウェアの物理的なサイズが小さく、かつ処理性能が低いコンピュータ等(例えば、カメラ、スマートフォン)で動作する顔認証システムなどでは、低計算量での顔検出処理が要求される。この場合、DNNの層数が小さく、かつ正検出率の低いDNN_1と、DNNの層数が大きく、かつ正検出率の高いDNN_2との組み合わせを顔認証システムに適用すると良い。一般的には、画像の大きさが大きいほど、DNNの計算量が多くなる。そのため、例えば、顔領域検出部300の入力画像が顔検出部303の入力画像よりも大きい場合、顔領域検出部300にDNN_1を、顔検出部303にDNN_2をそれぞれ適用すると良い。また、顔領域検出部300の入力画像が顔検出部303の入力画像よりも小さい場合、顔領域検出部300にDNN_2を、顔検出部303にDNN_1をそれぞれ適用すると良い。一方で、例えば、顔認証システムの計算リソースの割り当てなどの設計上の制約により、DNNの計算量をなるべく小さくする要求がある場合、顔領域検出部300と顔検出部303のそれぞれに、最も少ない計算リソースで動作可能なDNN_1を適用すると良い。また、顔認証システムに割り当て可能な計算リソースが多い場合、顔認証システムの認証精度を最大限に高める観点から、顔領域検出部300と顔検出部303のそれぞれに、最も多い計算リソースで動作可能なDNN_2を適用すると良い。なお、上記のDNN_1とDNN_2の例に限らず、DNN_1とDNN_2の中間の計算リソースで動作可能なDNN_3を設けることも可能である。つまり、顔認証システムの全体の計算リソース、様々な計算リソースで動作可能なDNN、及び運用環境に基づいて、顔領域検出部300と顔検出部303それぞれに割り当てるDNNを適宜選択することが可能である。
図4は、第1実施形態に係る、画像処理の対象となる画像の一例を示す図である。画像400上に3人の人物が写っている。画像400上の人物数は、3人に限られず、2人以下及び4人以上であっても良い。
図5は、第1実施形態に係る、顔候補領域の検出結果の一例を示す図である。
図5は、顔領域検出部300が画像400から検出した5つの顔候補領域の一例を示す。画像400は、領域510、領域520、領域530、領域540、及び領域550を含む。
領域510は、人物の顔を含む領域である。領域520は、人物の一部の領域として、人物の右側の一部を含む領域である。領域530は、人物の顔を含む領域である。領域540は、人物の顔を含まない領域である。領域550は、人物の顔を含まない領域である。領域550の一部は、画像400の外側にはみ出して位置する。この際、顔領域検出部300は、画像400の外側に位置する領域550の一部の領域に対し、輝度値0の画素で補完する。なお、顔領域検出部300は、例えば、0以外の輝度値で領域550の一部の領域を補完しても良く、元画像の部分領域ないし部分領域を反転した輝度値で領域550の一部の領域を補完しても良い。
図6は、第1実施形態に係る、顔候補領域から検出した顔器官の検出結果の一例を示す図である。
図6は、顔器官検出部301が領域510から5つの顔器官を検出した一例を示す。領域510は、顔器官610、顔器官620、顔器官630、顔器官640、及び顔器官650を含む。
このように、領域510が顔器官610~650の全てを含む場合、生成部302は領域510を変換することにより、後述の部分画像を生成する。一方で、領域510が4個以下の顔器官を含む場合、又は、顔器官の位置が領域510の外側に位置する場合、生成部302は領域510から部分画像を生成することなく、処理を終了する。
図7は、第1実施形態に係る、変換画像を生成する処理の流れを説明するフローチャートである。生成部302は、顔器官の情報(例えば、位置)に基づいて画像に対し幾何的な画像変換を行い、変換画像を生成する。以下、生成部302による変換画像の生成処理について説明する。
S700で生成部302は、変換画像の領域を生成する。変換画像の領域は、所望の画像の大きさ及び形に基づいて設定される領域のことをいう。例えば、生成部302は、112x112画素の正方領域を変換画像の領域として生成する。
S701で生成部302は、変換画像の領域において、5つの顔器官610~650に対応する顔器官の基準位置810~850(図8)を設定する。顔器官の基準位置は、変換画像の領域における顔器官の位置として予め規定した位置のことをいう。
生成部302は、変換画像を生成する際に、5つの顔器官610~650の位置が、基準位置810~850にできるだけ近づくように、画像を変換する。例えば、図8における基準位置810~850は、多数の人物を正面から撮影した顔画像から求めた顔器官の平均的な位置とする。
基準位置810~850の一例について説明する。まず、112x112画素の正方領域の左上を原点とした場合、画像の右方向を正のX方向、画像の下方向を正のY方向とする。次に、左目の中心、右目の中心、鼻の頭、口の左端点、口の右端点のそれぞれの位置は、二次元座標(X,Y)で表される。これにより、生成部302は、基準位置810~850にそれぞれ対応する二次元座標(40、60)、(73、60)、(55、80)、(42、100)、(81、100)を設定する。
S702で生成部302は、変換画像を生成するための変換行列を算出する。例えば、生成部302は、画像の変換処理により、5つの顔器官610~650の位置が、基準位置810~850にできるだけ近づくような変換行列Mを算出する。
図8は、第1実施形態に係る、顔器官の位置の対応関係を説明するための図である。
図8は、5つの顔器官610~650の位置と、基準位置810~850との対応を示す。一般的には、顔器官の位置と基準位置との間で4組以上の対応関係が存在する場合、顔器官の位置と基準位置との間の差分が全て0となる変換行列Mは存在しない。そのため、生成部302は、顔器官の位置と基準位置との間の差分の収束計算により、差分ができるだけ小さくなるような変換行列Mを算出する。
なお、生成部302は、顔器官610~650の位置と、基準位置810~850との差分の合計を差分の大きさとして算出するが、これに限られない。生成部302は、特定の点同士の間の距離を低く評価することで傾斜配分した差分の合計値を算出しても良い。例えば、鼻の頭(顔器官630)は顔表面からの距離が大きいため、顔の向きの変化に対して位置のずれが大きくなる場合がある。そこで、生成部302は、鼻の頭の点(顔器官630)と基準位置830との間の位置の差分に対して0.5を乗じて算出しても良い。
S703で生成部302は、S702で算出した変換行列Mを用いて、元の画像400を変換した変換画像を生成する。
ここで、図9は、第1実施形態に係る、画像から変換画像を生成する際の概要を示す図である。
図9は、変換処理前の画像400、画像400を変換処理した後の変換画像900を示す。画像400は、領域510を含む。変換画像900は、画像400を反時計回りに回転処理した画像であり、部分画像910を含む。
S704で生成部302は、変換画像900から部分画像910を切り出し、部分画像910を記憶部207に記憶する。
図10は、第1実施形態に係る、画像処理の流れを説明するフローチャートである。
S1000でユーザは人物の顔が写った画像を準備する。例えば、ユーザは一般的なデジタルカメラで人物を撮影した画像を準備する。以下、画像処理装置110が1枚の画像から人物の顔を検出する場合について説明する。なお、画像処理装置110は2枚以上の画像から人物の顔を検出する場合に、1枚の画像から人物の顔を検出する処理を画像枚数に応じて順次実施する。これにより、画像処理装置110は、画像枚数に依存することなく人物の顔を検出できる。
S1001で顔領域検出部300は、記憶部207等から取得した画像から人物の顔候補領域を検出する。ここで、顔領域検出部300は、画像の縦方向と横方向に平行な線分で囲まれた矩形領域を顔候補領域として検出する。顔候補領域は、矩形領域に限られず、例えば、顔の中心部を中心とした楕円領域であっても良い。
S1002で顔器官検出部301は、顔候補領域から顔器官の位置を検出する。顔器官は、左目の中心、右目の中心、鼻の頭、口の左端点、及び口の右端点を含む5つの器官であるが、これに限らず、別の器官であっても良い。顔器官は、例えば、目又は口の上下左右の4つの端点等であっても良い。
S1003で生成部302は、顔器官検出部301から受信した顔候補領域における顔器官の情報に基づいて、5つの顔器官が顔候補領域に位置するか否かを判定する。生成部302は、5つの顔器官が顔候補領域に位置すると判定した場合(S1003でYes)、処理はS1004に進む。生成部302は、5つの顔器官が顔候補領域に位置しないと判定した場合(S1003でNo)、処理は終了する。
S1004で生成部302は、顔器官の位置情報に基づいて、画像に対し幾何的な画像変換(例えば、アフィン変換)を行うことで、変換画像を生成する。
例えば、生成部302は、変換画像で5つの顔器官に対応する座標を予め設定する。生成部302は、変換前の画像における5つの顔器官の位置(座標)と、変換画像の5つの顔器官の位置(座標)と、の差分が最小となる変換行列Mを算出する。生成部302は、変換行列Mを用いて画像に対し幾何的な画像変換を行うことで、変換画像を生成する。なお、画像の変換方法は、変換行列Mを用いる方法に限られず、例えば、左目と右目が水平になるように画像を回転する方法であっても良い。
S1005で顔検出部303は、変換画像から顔領域を検出する。ここで、顔検出部303は、変換画像から顔領域のみを検出し、顔器官の位置を検出しない。
S1006で判定部304は、変換画像から顔領域が検出されたか否かを判定する。判定部304は、変換画像から顔領域が検出されたと判定した場合(S1006でYes)、処理はS1007に進む。判定部304は、変換画像から顔領域が検出されなかったと判定した場合(S1006でNo)、処理は終了する。
S1007で判定部304は、S1001で検出された顔候補領域を含む画像(部分画像)を外部装置(例えば、記憶部207)へ出力する。
なお、判定部304は、変換画像から顔領域が検出されたか否かに基づいて、顔候補領域が顔領域であるか否かをさらに判定しているが、別の判定方法を用いて上記の判定をしても良い。例えば、判定部304は、変換画像からある大きさ以上の顔領域が検出された場合、顔候補領域が顔領域であると判定しても良い。また、判定部304は、変換画像から検出された顔領域がある大きさ以上であり、かつ、変換画像の中心と顔領域の中心との間の距離が閾値以内である場合、顔候補領域が顔領域であると判定しても良い。
一般的に、顔検出部303は、変換画像900から顔領域を容易に検出できる。つまり、顔検出部303が、変換画像900から顔領域を検出できない場合、元の画像400から検出された領域510又は顔器官610~650の位置の検出精度が低いことが推察される。そのため、生成部302は、元の画像400から検出された領域510を、顔器官の位置に基づいて幾何的に変換した変換画像900を生成する。そして、判定部304は、変換画像900から顔領域を検出したか否かに基づいて、複数の顔候補領域が顔領域であるか否かをそれぞれ判定できる。これにより、画像から顔が写っていない顔候補領域を排除できる。
以上の通り、第1実施形態によれば、画像の顔候補領域の顔器官の位置に基づいて変換した変換画像から顔領域を検出できたか否かに基づいて、顔候補領域が顔領域であるか否かを判定する。これにより、顔候補領域から顔領域を判定する際の判定精度が向上するため、画像から顔が写る画像(部分画像)を抽出する精度を向上させることができる。
(第2実施形態)
第1実施形態は、変換画像から顔領域が検出されなかった場合、顔候補領域を含む画像(部分画像)を出力しないと判定した。しかし、画像の用途に応じて部分画像に要求される品質が異なることがある。このように、画像の用途に応じた品質の部分画像となるように、顔候補領域が顔領域であるか否かを判定するための判定条件(以下、顔候補領域に対する判定条件)が変更されても良い。第2実施形態は、画像の用途に応じて、顔候補領域に対する判定条件を変更する。以下、第2実施形態は、第1実施形態との差分について説明する。
例えば、顔検出用、顔器官検出用、又は顔認証用のDNNを学習させるための学習データを作成する場合、及び、顔認証システムに予め登録する登録画像を作成する場合、画像処理装置は顔候補領域に対する判定条件を厳しく設定する。一方で、顔認証システムの運用時に撮像装置によって撮像される画像から顔を検出する場合、画像処理装置は、顔候補領域に対する判定条件を緩く設定する。以下、画像処理装置が、画像の用途に応じた、顔候補領域に対する判定条件に基づいて、顔候補領域が顔領域であるか否かを判定する一例を説明する。
DNNを学習させるための学習データを作成する場合、及び、顔認証システムに予め登録する登録画像を作成する場合、低品質な画像(ボケが大きい等)でDNNを学習させることにより、DNNの性能低下及び顔認証システムの性能低下を引き起こす。しかし、DNNの学習用又は顔認証システム用の画像は、事前に時間を費やして準備され得る。そのため、画像処理装置は、顔候補領域に対する判定条件を厳しく設定しても良い。
顔認証システムは、2種類の認証方式を備える。認証方式は、積極認証及び非積極認証である。積極認証は、ユーザが自らの意思で撮像装置の前に位置した状態でユーザの認証を行う方式のことをいう。この場合、画像処理装置は、顔候補領域に対する判定条件を厳しく設定することで、適切な画像データを生成できる。
非積極認証は、ユーザが自らの意思で認証を望んでいない状態でユーザの認証を顔認証システムが自律的に行う方式のことをいう。そのため、撮像装置がユーザを撮像する際に、ユーザは撮像装置の撮像範囲外に移動してしまうことがある。また、撮像装置(カメラ)に対するユーザの顔の向きも様々である。このように、非積極認証時において撮像される画像の枚数及び品質は、撮像環境及び撮像装置の設定等に大きく依存する。そのため、非積極認証時には、ユーザの顔が写る十分な画像枚数及び品質の高い画像が得られにくい。この場合、画像処理装置は、顔候補領域に対する判定条件を緩く設定することで、適切な画像データの量を確保できる。
図11は、第2実施形態に係る、画像処理装置の機能構成の一例を示すブロック図である。
用途入力部1101は、ユーザから画像データの用途を受信し、画像データの用途を制御部1102に送信する。画像データの用途は、「学習」、「登録」、及び「認証」である。学習は、画像を学習するモデル(DNN)に対し画像の特徴を学習させることをいう。登録は、画像に写る人物の特徴と、人物の名前と、をリストに登録することをいう。認証は、画像に写る人物が誰であるかを特定し、対応する人物の名前を出力することをいう。
制御部1102は、用途入力部1101から画像データの用途を受信する。制御部1102は、画像データの用途に応じて、顔領域検出部300、顔器官検出部301、生成部302、顔検出部303、及び判定部304に処理させる内容を制御する。例えば、制御部1102は、画像データの用途が「学習」又は「登録」である場合、顔候補領域に対する判定条件を厳しく設定する。一方で、制御部1102は、学習データの用途が「認証」である場合、顔候補領域に対する判定条件を緩く設定する。
図12は、第2実施形態に係る、画像処理の流れを説明するフローチャートである。S1000~S1007までの処理は、第1実施形態と同様であるので説明を省略する。
S1201で制御部1102は、用途入力部1101から受信した画像データの用途に基づいて、顔候補領域に対する判定条件を厳しく設定するか否かを判定する。制御部1102は、顔候補領域に対する判定条件を厳しく設定すると判定した場合(S1201でYes)、処理はS1202に進む。制御部1102は、顔候補領域に対する判定条件を厳しく設定しないと判定した場合(S1201でNo)、処理はS1002に進む。
S1202で判定部304は、画像からはみ出している顔候補領域の一部が顔候補領域に占める割合が閾値以下であるか否かに基づいて、顔候補領域から顔器官の位置を検出するか否かを判定する。例えば、判定部304は、図5において画像400からはみ出している領域550の一部が領域550に占める割合を算出する。そして、判定部304は、算出した割合が閾値以下ではない場合、領域550から顔器官の位置を検出しないと判定し、処理を終了する。
図13は、第2実施形態に係る、画像処理の流れを説明するフローチャートである。S1000~S1007までの処理は、第1実施形態と同様であるので説明を省略する。
S1301で制御部1102は、用途入力部1101から受信した画像データの用途に基づいて、顔候補領域に対する判定条件を厳しく設定するか否かを判定する。制御部1102は、顔候補領域に対する判定条件を厳しく設定すると判定した場合(S1301でYes)、処理はS1302に進む。制御部1102は、顔候補領域に対する判定条件を厳しく設定しないと判定した場合(S1301でNo)、処理はS1005に進む。
S1302で判定部304は、顔候補領域における顔器官の位置と変換画像における基準位置との間の差分が閾値以内であるか否かに基づいて、変換画像から顔領域を検出するか否かを判定する。判定部304は、顔候補領域における顔器官の位置と変換画像における基準位置との間の差分が閾値以内であると判定した場合(S1302でYes)、処理はS1005に進む。判定部304は、顔候補領域における顔器官の位置と変換画像における基準位置との間の差分が閾値以内ではないと判定した場合(S1302でNo)、処理は終了する。
図14は、第2実施形態に係る、画像処理の流れを説明するフローチャートである。S1000~S1007までの処理は、第1実施形態と同様であるので説明を省略する。処理の開始時に変数i=0とする。なお、変数iの数字は、変換画像から人物の顔領域を検出した回数を表すものとする。
S1401で制御部1102は、変数iに1を足し、処理はS1402に進む。
S1402で判定部304は、変数iが閾値以上であるか否かを判定する。制御部1102は、変数iが閾値以上であると判定した場合(S1401でYes)、処理はS1007に進む。判定部304は、変数iが閾値以上ではないと判定した場合(S1401でNo)、処理はS1403に進む。
S1403で制御部1102は、S1004で生成した変換画像から1つ顔候補領域を検出し、処理はS1002に進む。ここで、制御部1102は、顔候補領域に対する判定条件を厳しく設定する場合、S1402における閾値を「2」以上の値に設定する。顔候補領域に対する判定条件は、閾値の値が大きいほど厳しい設定であることを表す。一方で、制御部1102は、顔候補領域に対する判定条件を緩く設定する場合、S1402における閾値を「1」に設定する。
図15は、第2実施形態に係る、画像処理の流れを説明するフローチャートである。S1000、S1003~S1007までの処理は、第1実施形態と同様であるので説明を省略する。
S1501で顔領域検出部300は、画像から検出した顔候補領域の尤度を算出する。
S1502で顔器官検出部301は、顔候補領域から検出した顔器官位置の尤度を算出する。
S1503で制御部1102は、用途入力部1101から受信した画像データの用途に基づいて、顔候補領域に対する判定条件を厳しく設定するか否かを判定する。制御部1102は、顔候補領域に対する判定条件を厳しく設定すると判定した場合(S1503でYes)、処理はS1004に進む。制御部1102は、顔候補領域に対する判定条件を厳しく設定しないと判定した場合(S1503でNo)、処理はS1504に進む。
図16は、第2実施形態に係る、画像処理の流れを説明するフローチャートである。S1000~S1007までの処理は、第1実施形態と同様であるので説明を省略する。
S1601で制御部1102は、用途入力部1101から受信した画像データの用途に基づいて、顔候補領域に対する判定条件を厳しく設定するか否かを判定する。制御部1102は、顔候補領域に対する判定条件を厳しく設定すると判定した場合(S1601でYes)、処理はS1002に進む。制御部1102は、顔候補領域に対する判定条件を厳しく設定しないと判定した場合(S1601でNo)、処理はS1007に進む。
図17は、第2実施形態に係る、画像処理の流れを説明するフローチャートである。S1000~S1007までの処理は、第1実施形態と同様であるので説明を省略する。
S1701で制御部1102は、用途入力部1101から受信した画像データの用途に基づいて、顔候補領域に対する判定条件を厳しく設定するか否かを判定する。制御部1102は、顔候補領域に対する判定条件を厳しく設定すると判定した場合(S1701でYes)、処理はS1702に進む。制御部1102は、顔候補領域に対する判定条件を厳しく設定しないと判定した場合(S1701でNo)、処理はS1007に進む。
S1702で判定部304は、S1006で検出した変換画像の顔領域の大きさが閾値以上であるか否かを判定する。判定部304は、S1006で検出した変換画像の顔領域の大きさが閾値以上であると判定した場合(S1702でYes)、処理はS1007に進む。判定部304は、S1006で検出した変換画像の顔領域の大きさが閾値以上ではないと判定した場合(S1702でNo)、処理は終了する。
図18は、第2実施形態に係る、画像処理の流れを説明するフローチャートである。S1000~S1007までの処理は、第1実施形態と同様であるので説明を省略する。
S1801で制御部1102は、用途入力部1101から受信した画像データの用途に基づいて、顔候補領域に対する判定条件を厳しく設定するか否かを判定する。制御部1102は、顔候補領域に対する判定条件を厳しく設定すると判定した場合(S1801でYes)、処理はS1802に進む。制御部1102は、顔候補領域に対する判定条件を厳しく設定しないと判定した場合(S1801でNo)、処理はS1007に進む。
S1802で顔器官検出部301は、S1006で検出した変換画像の顔領域から顔器官位置を検出し、処理はS1803に進む。
S1803で判定部304は、変換画像の顔領域における顔器官の位置と変換画像における基準位置との間の差分が閾値以内であるか否かを判定する。判定部304は、変換画像の顔画像領域における顔器官の位置と変換画像における基準位置との間の差分が閾値以内である場合(S1803でYes)、処理はS1007に進む。判定部304は、変換画像の顔画像領域における顔器官の位置と基準位置との間の差分が閾値以内ではない場合(S1803でNo)、処理は終了する。
以上の通り、第2実施形態によれば、画像の用途に基づいて顔候補領域に対する判定条件を変更することにより、画像の用途に応じた品質の部分画像を生成できる。
(第3実施形態)
第3実施形態は、画像の顔候補領域における顔器官位置に基づいて画像に対し幾何的な変換(例えば、アフィン変換)を行う。第3実施形態は、変換画像から顔領域を検出した結果に基づいて、顔候補領域を示す情報を顔の領域を示す情報として出力するか否かを判定する。また、第3実施形態は、部分画像の用途に応じて、部分画像の登録、認証、又は学習の処理を行う。以下、第3実施形態は、第1及び第2実施形態との差分について説明する。
図19は、第3実施形態に係る、画像処理装置の機能構成の一例を示すブロック図である。
画像処理装置110は、特徴抽出部1901、特徴照合部1902、登録部1903、認証部1904、学習部1905、及び氏名入力部1906を備える。
(画像の用途が登録である場合)
以下、用途入力部1101からの入力が登録である場合における上記各部の機能について説明する。
特徴抽出部1901は、判定部304により変換画像から顔領域が検出されたと判定された場合、生成部302から部分画像を受信する。次に、特徴抽出部1901は、部分画像から特徴を抽出する。例えば、特徴抽出部1901は、部分画像の特徴として数値ベクトルを部分画像から抽出する。なお、部分画像の特徴は、数値ベクトルに限られず、別の特徴であっても良い。そして、特徴抽出部1901は、部分画像から抽出した特徴を、登録部1903に送信する。
登録部1903は、特徴抽出部1901から受信した部分画像の特徴を、記憶部207等のリストに登録する。また、登録部1903は、記憶部207等のリストに登録した特徴に対応する氏名を氏名入力部1906から受信し、記憶部207等のリストに登録する。
氏名入力部1906は、登録部1903によって登録された部分画像の特徴に対応する氏名を入力するユーザ・インターフェース(UI)を備える。ユーザは、画像処理装置110に入力した部分画像に写る人物の名前を、氏名入力部1906を用いて入力する。
(画像の用途が認証である場合)
以下、用途入力部1101からの入力が認証である場合における上記各部の機能について説明する。
特徴抽出部1901は、判定部304により変換画像から顔領域が検出されたと判定された場合、生成部302から部分画像を受信する。次に、特徴抽出部1901は、部分画像から特徴を抽出する。例えば、特徴抽出部1901は、部分画像の特徴として数値ベクトルを、部分画像から抽出する。なお、部分画像の特徴は、数値ベクトルに限られず、登録部1903に登録済みの特徴と同じ形式を備える特徴であっても良い。
特徴照合部1902は、特徴抽出部1901から受信した部分画像の特徴と、登録部1903に登録済みの部分画像の特徴と、を照合する。特徴照合部1902は、照合結果を認証部1904に送信する。ここで、特徴照合部1902は、部分画像から抽出された特徴と、登録部1903に登録済みの特徴と、の差分を算出する。例えば、差分は、2つの数値ベクトルのコサイン類似度、L1距離、及びL2距離等である。
認証部1904は、特徴照合部1902から照合結果として部分画像の特徴の差分を受信する。次に、認証部1904は、部分画像の特徴の差分のうち最も小さい差分が閾値以内である場合、最も小さい差分に対応する部分画像に写る人物の名前を認証結果として出力する。一方で、認証部1904は、受信した部分画像の特徴の差分のうち最も小さい差分が閾値以内ではない場合、「該当人物なし」を示す認証結果を出力する。
(画像の用途が学習である場合)
以下、用途入力部1101からの入力が学習である場合における上記各部の機能について説明する。
氏名入力部1906は、登録部1903によって登録された部分画像の特徴に対応する氏名を入力するユーザ・インターフェース(UI)を備える。ユーザは、画像処理装置110に入力した画像に写る人物の名前を、氏名入力部1906を用いて入力する。
判定部304は、変換画像から顔領域が検出されたと判定した場合、部分画像を学習部1905に送信する。さらに、判定部304は、部分画像に写る人物の氏名を氏名入力部1906から受信し、部分画像と部分画像に写る人物の氏名とを学習部1905に送信する。
学習部1905は、判定部304から受信した部分画像と部分画像に写る人物の氏名とを学習する。例えば、学習部1905は、部分画像から特徴を抽出するDNNであるが、これに限らず、例えば、部分画像から顔を検出するためのDNNであっても良い。
以上の通り、第3実施形態によれば、部分画像の用途に応じて、部分画像の登録、認証、又は学習の処理を制御できる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本明細書の開示は、以下の画像情報処理、画像処理方法、及びプログラムを含む。
(項目1)
画像から第一の顔検出器を用いて顔の候補領域を検出する検出手段と、
前記顔の候補領域として検出された第一の領域の画像から、顔器官検出器を用いて顔器官の位置を取得する取得手段と、
前記第一の領域の画像を、前記顔器官の位置に基づいて変換した変換画像を生成する生成手段と、
前記変換画像から第二の顔検出器を用いて顔を検出した検出結果に基づいて、前記第一の領域の画像を出力するか否かを制御する制御手段と、
を備えることを特徴とする画像処理装置。
(項目2)
前記第一の顔検出器は、前記第二の顔検出器とは異なるニューラルネットワークで構成される、
ことを特徴とする項目1に記載の画像処理装置。
(項目3)
前記第一の顔検出器は、人物の顔が写る画像を用いて学習されたニューラルネットワークであり、
前記顔器官検出器は、前記第一の領域の画像を用いて学習されたニューラルネットワークであり、
前記第二の顔検出器は、前記変換画像を用いて学習されたニューラルネットワークである、
ことを特徴とする項目1又は2に記載の画像処理装置。
(項目4)
前記第一の顔検出器は、前記第二の顔検出器よりもニューラルネットワークの規模が小さく、かつ正検出率の低いニューラルネットワークであり、
前記第二の顔検出器は、前記第一の顔検出器よりもニューラルネットワークの規模が大きく、かつ正検出率の高いニューラルネットワークである、
ことを特徴とする項目1から3のいずれか一項目に記載の画像処理装置。
(項目5)
前記第一の顔検出器は、前記第二の顔検出器と同一のニューラルネットワークで構成される、
ことを特徴とする項目1に記載の画像処理装置。
(項目6)
前記制御手段は、前記変換画像から前記顔が検出された場合、前記第一の領域の画像を顔画像として出力する、
ことを特徴とする項目1から5のいずれか一項目に記載の画像処理装置。
(項目7)
前記制御手段は、前記変換画像から前記顔が検出されなかった場合、前記第一の領域の画像を顔画像として出力することを抑制する、
ことを特徴とする項目6に記載の画像処理装置。
(項目8)
前記生成手段は、前記第一の領域の画像から検出された前記顔器官の位置と、前記変換画像において前記顔器官の位置を規定した基準位置と、の差分に基づいて、前記第一の領域の画像を変換した変換画像を生成する、
ことを特徴とする項目1から7のいずれか一項目に記載の画像処理装置。
(項目9)
前記画像の用途を入力する入力手段と、
前記画像の用途に基づいて、前記第一の領域の画像から前記顔器官の位置を検出する条件、前記変換画像から前記顔を検出する条件、前記第一の領域の画像から検出された前記顔器官の位置に基づいて変換した前記変換画像を生成する条件、及び前記第一の領域の画像を出力する条件のうち少なくともいずれかを変更する変更手段と、
を備えることを特徴とする項目1から8のいずれか一項目に記載の画像処理装置。
(項目10)
前記制御手段は、前記第一の領域の画像から前記顔器官の位置を検出する条件が前記変更手段によって変更される場合、前記画像の外側にはみ出している前記第一の領域の部分が前記第一の領域に占める割合が閾値以下であるか否かに基づいて、前記第一の領域の画像から前記顔器官の位置を検出するか否かを判定する、
ことを特徴とする項目9に記載の画像処理装置。
(項目11)
前記制御手段は、前記変換画像から前記顔を検出する条件が前記変更手段によって変更される場合、前記第一の領域の画像から検出された前記顔器官の位置と、前記変換画像における顔器官の位置を規定した基準位置と、の差分が閾値以下であるか否かに基づいて、前記変換画像から前記顔を検出するか否かを判定する、
ことを特徴とする項目9又は10に記載の画像処理装置。
(項目12)
前記制御手段は、前記第一の領域を示す情報を前記顔の領域を示す情報として出力する条件が前記変更手段によって変更される場合、前記変換画像から前記顔を検出した回数が閾値以上であるか否かに基づいて、前記第一の領域の画像を出力するか否かを判定する、
ことを特徴とする項目9から11のいずれか一項目に記載の画像処理装置。
(項目13)
前記制御手段は、前記第一の領域で検出された前記顔器官の位置に基づいて変換した前記変換画像を生成する条件が前記変更手段によって変更されない場合、前記第一の領域の尤度が閾値以下であるか否か、及び、前記第一の領域で検出された前記顔器官の位置の尤度が閾値以下であるか否かに基づいて、前記第一の領域の画像から検出された前記顔器官の位置に基づいて変換した前記変換画像を生成するか否かを判定する、
ことを特徴とする項目9から12のいずれか一項目に記載の画像処理装置。
(項目14)
前記制御手段は、前記第一の領域の画像から前記顔器官の位置を検出する条件が前記変更手段によって変更される場合、前記第一の領域の画像から前記顔器官の位置を検出すると判定する、
ことを特徴とする項目9から13のいずれか一項目に記載の画像処理装置。
(項目15)
前記制御手段は、前記第一の領域を示す情報を顔の領域を示す情報として出力する条件が前記変更手段によって変更される場合、前記変換画像から検出された前記顔の大きさが閾値以上であるか否かに基づいて、前記第一の領域の画像を出力するか否かを判定する、
ことを特徴とする項目9から14のいずれか一項目に記載の画像処理装置。
(項目16)
前記制御手段は、前記第一の領域を示す情報を顔の領域を示す情報として出力する条件が前記変更手段によって変更される場合、前記変換画像から顔の候補領域として検出された第一の領域における顔器官の位置と、前記変換画像において前記顔器官の位置を規定した基準位置と、の差分が閾値以下であるか否かに基づいて、前記第一の領域の画像を出力するか否かを判定する、
ことを特徴とする項目9から15のいずれか一項目に記載の画像処理装置。
(項目17)
前記変換画像から前記顔が検出された場合、前記変換画像から特徴を抽出する抽出手段と、
前記変換画像の特徴と、前記変換画像の特徴に対応する人物の名前と、を登録する登録手段と、
前記抽出手段によって抽出された前記変換画像の特徴と、前記登録手段に登録された前記変換画像の特徴と、の照合結果に基づいて前記変換画像内の人物の名前を出力する出力手段と、
を備えることを特徴とする項目1に記載の画像処理装置。
(項目18)
前記変換画像の用途は、画像を学習するモデルに対し前記変換画像を学習させる学習と、前記変換画像の特徴と前記変換画像の特徴に対応する人物の名前を登録する登録と、前記変換画像内の人物の名前を出力する認証と、のうち少なくともいずれかを含む
ことを特徴とする項目9に記載の画像処理装置。
(項目19)
前記変換画像の特徴と、前記変換画像の特徴に対応する人物の名前と、を登録する登録手段と、
前記変換画像から抽出された前記変換画像の特徴と、前記登録手段に登録された前記変換画像の特徴と、の照合結果に基づいて前記変換画像内の人物の名前を出力する出力手段と、を備え、
前記登録手段は、前記変換画像の用途が前記登録である場合、前記変換画像から抽出された前記変換画像の特徴を登録する、
ことを特徴とする項目18に記載の画像処理装置。
(項目20)
前記出力手段は、前記変換画像の用途が認証であり、かつ、前記変換画像から抽出された前記変換画像の特徴と、前記登録手段に登録された前記変換画像の特徴と、の差分のうち最も小さい差分が閾値以内である場合、前記最も小さい差分に対応する人物の名前を出力する、
ことを特徴とする項目19に記載の画像処理装置。
(項目21)
前記変換画像の用途が学習である場合、前記変換画像を学習する学習手段を備える、
ことを特徴とする項目18又は19に記載の画像処理装置。
(項目22)
前記学習手段は、前記第一の領域の画像に基づいて前記第二の顔検出器を学習する、
ことを特徴とする項目21に記載の画像処理装置。
(項目23)
前記学習手段は、さらに
前記画像から顔の候補領域を検出する第1検出手段と、
前記顔の候補領域から顔器官の位置を検出する第2検出手段と、
前記変換画像から前記顔を検出する第3検出手段と、
を備えることを特徴とする項目21に記載の画像処理装置。
(項目24)
画像処理装置が実行する画像処理方法であって、
画像から第一の顔検出器を用いて顔の候補領域を検出する検出工程と、
前記顔の候補領域として検出された第一の領域の画像から、顔器官検出器を用いて顔器官の位置を取得する取得工程と、
前記第一の領域の画像を、前記顔器官の位置に基づいて変換した変換画像を生成する生成工程と、
前記変換画像から第二の顔検出器を用いて顔を検出した検出結果に基づいて、前記第一の領域の画像を出力するか否かを制御する制御工程と、
を備えることを特徴とする画像処理方法。
(項目25)
コンピュータを、項目1から23のうちいずれか一項目に記載の画像処理装置の各手段として機能させるためのプログラム。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
10:画像処理システム、100:撮像装置、110:画像処理装置、120:ネットワーク、101:入力部、102:表示部、103:I/F、104:CPU、105:RAM、106:ROM、107:記憶部、108:データバス
本発明の目的を達成するために、本発明の一実施形態に係る画像処理装置は、以下の構成を備える。すなわち、画像処理装置は、画像から顔検出器を用いて顔の候補領域を検出する検出手段と、前記検出手段により検出された前記顔の候補領域の画像から、顔器官検出器を用いて顔器官の位置を取得する取得手段と、前記顔の候補領域の画像を、前記顔器官の位置に基づいて変換した変換画像を生成する生成手段と、前記変換画像に対して検出処理を行った結果に基づいて、前記顔の候補領域の画像を顔画像として出力するか否かを制御する制御手段と、を備える。

Claims (25)

  1. 画像から第一の顔検出器を用いて顔の候補領域を検出する検出手段と、
    前記顔の候補領域として検出された第一の領域の画像から、顔器官検出器を用いて顔器官の位置を取得する取得手段と、
    前記第一の領域の画像を、前記顔器官の位置に基づいて変換した変換画像を生成する生成手段と、
    前記変換画像から第二の顔検出器を用いて顔を検出した検出結果に基づいて、前記第一の領域の画像を出力するか否かを制御する制御手段と、
    を備えることを特徴とする画像処理装置。
  2. 前記第一の顔検出器は、前記第二の顔検出器とは異なるニューラルネットワークで構成される、
    ことを特徴とする請求項1に記載の画像処理装置。
  3. 前記第一の顔検出器は、人物の顔が写る画像を用いて学習されたニューラルネットワークであり、
    前記顔器官検出器は、前記第一の領域の画像を用いて学習されたニューラルネットワークであり、
    前記第二の顔検出器は、前記変換画像を用いて学習されたニューラルネットワークである、
    ことを特徴とする請求項1に記載の画像処理装置。
  4. 前記第一の顔検出器は、前記第二の顔検出器よりもニューラルネットワークの規模が小さく、かつ正検出率の低いニューラルネットワークであり、
    前記第二の顔検出器は、前記第一の顔検出器よりもニューラルネットワークの規模が大きく、かつ正検出率の高いニューラルネットワークである、
    ことを特徴とする請求項2に記載の画像処理装置。
  5. 前記第一の顔検出器は、前記第二の顔検出器と同一のニューラルネットワークで構成される、
    ことを特徴とする請求項1に記載の画像処理装置。
  6. 前記制御手段は、前記変換画像から前記顔が検出された場合、前記第一の領域の画像を顔画像として出力する、
    ことを特徴とする請求項1に記載の画像処理装置。
  7. 前記制御手段は、前記変換画像から前記顔が検出されなかった場合、前記第一の領域の画像を顔画像として出力することを抑制する、
    ことを特徴とする請求項6に記載の画像処理装置。
  8. 前記生成手段は、前記第一の領域の画像から検出された前記顔器官の位置と、前記変換画像において前記顔器官の位置を規定した基準位置と、の差分に基づいて、前記第一の領域の画像を変換した変換画像を生成する、
    ことを特徴とする請求項1に記載の画像処理装置。
  9. 前記画像の用途を入力する入力手段と、
    前記画像の用途に基づいて、前記第一の領域の画像から前記顔器官の位置を検出する条件、前記変換画像から前記顔を検出する条件、前記第一の領域の画像から検出された前記顔器官の位置に基づいて変換した前記変換画像を生成する条件、及び前記第一の領域の画像を出力する条件のうち少なくともいずれかを変更する変更手段と、
    を備えることを特徴とする請求項1に記載の画像処理装置。
  10. 前記制御手段は、前記第一の領域の画像から前記顔器官の位置を検出する条件が前記変更手段によって変更される場合、前記画像の外側にはみ出している前記第一の領域の部分が前記第一の領域に占める割合が閾値以下であるか否かに基づいて、前記第一の領域の画像から前記顔器官の位置を検出するか否かを判定する、
    ことを特徴とする請求項9に記載の画像処理装置。
  11. 前記制御手段は、前記変換画像から前記顔を検出する条件が前記変更手段によって変更される場合、前記第一の領域の画像から検出された前記顔器官の位置と、前記変換画像における顔器官の位置を規定した基準位置と、の差分が閾値以下であるか否かに基づいて、前記変換画像から前記顔を検出するか否かを判定する、
    ことを特徴とする請求項9に記載の画像処理装置。
  12. 前記制御手段は、前記第一の領域を示す情報を前記顔の領域を示す情報として出力する条件が前記変更手段によって変更される場合、前記変換画像から前記顔を検出した回数が閾値以上であるか否かに基づいて、前記第一の領域の画像を出力するか否かを判定する、
    ことを特徴とする請求項11に記載の画像処理装置。
  13. 前記制御手段は、前記第一の領域で検出された前記顔器官の位置に基づいて変換した前記変換画像を生成する条件が前記変更手段によって変更されない場合、前記第一の領域の尤度が閾値以下であるか否か、及び、前記第一の領域で検出された前記顔器官の位置の尤度が閾値以下であるか否かに基づいて、前記第一の領域の画像から検出された前記顔器官の位置に基づいて変換した前記変換画像を生成するか否かを判定する、
    ことを特徴とする請求項9に記載の画像処理装置。
  14. 前記制御手段は、前記第一の領域の画像から前記顔器官の位置を検出する条件が前記変更手段によって変更される場合、前記第一の領域の画像から前記顔器官の位置を検出すると判定する、
    ことを特徴とする請求項9に記載の画像処理装置。
  15. 前記制御手段は、前記第一の領域を示す情報を顔の領域を示す情報として出力する条件が前記変更手段によって変更される場合、前記変換画像から検出された前記顔の大きさが閾値以上であるか否かに基づいて、前記第一の領域の画像を出力するか否かを判定する、
    ことを特徴とする請求項9に記載の画像処理装置。
  16. 前記制御手段は、前記第一の領域を示す情報を顔の領域を示す情報として出力する条件が前記変更手段によって変更される場合、前記変換画像から顔の候補領域として検出された第一の領域における顔器官の位置と、前記変換画像において前記顔器官の位置を規定した基準位置と、の差分が閾値以下であるか否かに基づいて、前記第一の領域の画像を出力するか否かを判定する、
    ことを特徴とする請求項9に記載の画像処理装置。
  17. 前記変換画像から前記顔が検出された場合、前記変換画像から特徴を抽出する抽出手段と、
    前記変換画像の特徴と、前記変換画像の特徴に対応する人物の名前と、を登録する登録手段と、
    前記抽出手段によって抽出された前記変換画像の特徴と、前記登録手段に登録された前記変換画像の特徴と、の照合結果に基づいて前記変換画像内の人物の名前を出力する出力手段と、
    を備えることを特徴とする請求項1に記載の画像処理装置。
  18. 前記変換画像の用途は、画像を学習するモデルに対し前記変換画像を学習させる学習と、前記変換画像の特徴と前記変換画像の特徴に対応する人物の名前を登録する登録と、前記変換画像内の人物の名前を出力する認証と、のうち少なくともいずれかを含む
    ことを特徴とする請求項9に記載の画像処理装置。
  19. 前記変換画像の特徴と、前記変換画像の特徴に対応する人物の名前と、を登録する登録手段と、
    前記変換画像から抽出された前記変換画像の特徴と、前記登録手段に登録された前記変換画像の特徴と、の照合結果に基づいて前記変換画像内の人物の名前を出力する出力手段と、を備え、
    前記登録手段は、前記変換画像の用途が前記登録である場合、前記変換画像から抽出された前記変換画像の特徴を登録する、
    ことを特徴とする請求項18に記載の画像処理装置。
  20. 前記出力手段は、前記変換画像の用途が認証であり、かつ、前記変換画像から抽出された前記変換画像の特徴と、前記登録手段に登録された前記変換画像の特徴と、の差分のうち最も小さい差分が閾値以内である場合、前記最も小さい差分に対応する人物の名前を出力する、
    ことを特徴とする請求項19に記載の画像処理装置。
  21. 前記変換画像の用途が学習である場合、前記変換画像を学習する学習手段を備える、
    ことを特徴とする請求項18に記載の画像処理装置。
  22. 前記学習手段は、前記第一の領域の画像に基づいて前記第二の顔検出器を学習する、
    ことを特徴とする請求項21に記載の画像処理装置。
  23. 前記学習手段は、さらに
    前記画像から顔の候補領域を検出する第1検出手段と、
    前記顔の候補領域から顔器官の位置を検出する第2検出手段と、
    前記変換画像から前記顔を検出する第3検出手段と、
    を備えることを特徴とする請求項21に記載の画像処理装置。
  24. 画像処理装置が実行する画像処理方法であって、
    画像から第一の顔検出器を用いて顔の候補領域を検出する検出工程と、
    前記顔の候補領域として検出された第一の領域の画像から、顔器官検出器を用いて顔器官の位置を取得する取得工程と、
    前記第一の領域の画像を、前記顔器官の位置に基づいて変換した変換画像を生成する生成工程と、
    前記変換画像から第二の顔検出器を用いて顔を検出した検出結果に基づいて、前記第一の領域の画像を出力するか否かを制御する制御工程と、
    を備えることを特徴とする画像処理方法。
  25. コンピュータを、請求項1から23のうちいずれか一項に記載の画像処理装置の各手段として機能させるためのプログラム。
JP2022212106A 2022-03-30 2022-12-28 画像処理装置、画像処理方法、及びプログラム Pending JP2023152671A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2023/007942 WO2023189195A1 (ja) 2022-03-30 2023-03-03 画像処理装置、画像処理方法、及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022057091 2022-03-30
JP2022057091 2022-03-30

Publications (1)

Publication Number Publication Date
JP2023152671A true JP2023152671A (ja) 2023-10-17

Family

ID=88349404

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022212106A Pending JP2023152671A (ja) 2022-03-30 2022-12-28 画像処理装置、画像処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2023152671A (ja)

Similar Documents

Publication Publication Date Title
US11928800B2 (en) Image coordinate system transformation method and apparatus, device, and storage medium
US11074714B2 (en) Eye tracking method and system
JP6942488B2 (ja) 画像処理装置、画像処理システム、画像処理方法、及びプログラム
US10949649B2 (en) Real-time tracking of facial features in unconstrained video
JP6798183B2 (ja) 画像解析装置、画像解析方法およびプログラム
WO2015139574A1 (zh) 一种静态物体重建方法和系统
CN103425964B (zh) 图像处理设备和图像处理方法
JP2019028843A (ja) 人物の視線方向を推定するための情報処理装置及び推定方法、並びに学習装置及び学習方法
WO2022156626A1 (zh) 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN111062263A (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
JP2021174554A (ja) 画像深度確定方法及び生き物認識方法、回路、装置、記憶媒体
JP2018120283A (ja) 情報処理装置、情報処理方法及びプログラム
WO2022052782A1 (zh) 图像的处理方法及相关设备
US10600202B2 (en) Information processing device and method, and program
CN114445633A (zh) 图像处理方法、装置和计算机可读存储介质
CN111273772A (zh) 基于slam测绘方法的增强现实交互方法、装置
CN111566700A (zh) 用于借助多任务学习确定对象在对象的周围环境中的姿势的方法和控制设备
CN117372604B (zh) 一种3d人脸模型生成方法、装置、设备及可读存储介质
KR20120020711A (ko) 물체 인식 시스템 및 그 물체 인식 방법
JP6202938B2 (ja) 画像認識装置および画像認識方法
US11080920B2 (en) Method of displaying an object
CN111915676B (zh) 图像生成方法、装置、计算机设备和存储介质
CN112699784A (zh) 一种人脸朝向估计方法、装置、电子设备及存储介质
CN115620016B (zh) 一种骨架检测模型的构建方法、图像数据识别方法
WO2023189195A1 (ja) 画像処理装置、画像処理方法、及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230925

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230925