JP2023114304A

JP2023114304A - 情報処理装置及びその制御方法及びプログラム

Info

Publication number: JP2023114304A
Application number: JP2022016600A
Authority: JP
Inventors: 充輝本田; Mitsuteru Honda
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-02-04
Filing date: 2022-02-04
Publication date: 2023-08-17

Abstract

【課題】人物等の被写体が完全に重なるシーンでの弊害を抑制しながら、被写体が部分的に重なるシーンにおいてもそれぞれの被写体に適した領域抽出を行うことが可能となる。
【解決手段】画像を当該画像内の被写体ごとに分割する画像処理装置であって、画像内の被写体の主要部を検出する検出部と、画像中の被写体を表す領域を判定する第１のセグメンテーション部と、画像中の被写体を表す領域を判定する第２のセグメンテーション部と、第１のセグメンテーション部で検出した１つの領域に、検出部で検出した主要部が１つ存在する場合は、領域について第１のセグメンテーション部の判定による分割を利用し、第１のセグメンテーション部で検出した１つの領域内に、検出部で検出した主要部が２以上が存在する場合は、領域に対して第２のセグメンテーション部の判定による分割を利用するように決定する制御部とを有する。
【選択図】図１

Description

本発明は、画像中の複数の被写体の領域を認識する技術に関する

従来から、画像中の特定の被写体の領域を検出する方法が知られている。被写体の領域を検出する方法としては、同じ種類の物体が複数写っている場合にそれぞれの物体を識別するインスタンスセグメンテーションと呼ばれる手法（非特許文献１）と、それぞれの物体を識別せず一つのカテゴリとして出力するセマンテイックセグメンテーションと呼ばれる手法（非特許文献２）が知られている。

また従来から、撮影後の画像中の被写体の領域を検出して、その被写体の領域に仮想的な光源からの光を照射し、リライティング処理する技術が知られている。リライティング処理により、環境光によって生じた影などの暗部領域を明るくし、好ましい画像を得ることが可能となる。例えば特許文献１には、複数人のシーンにおいては、それぞれの人物を検出して、被写体毎それぞれに被写体検出された被写体毎の陰影の状態を検出し、各々の被写体に適した仮想光源の特性を決定可能とする技術が開示されている。このようにすることで、それぞれの被写体に距離差がある場合でも、それぞれ適切な仮想光源の特性を決定することが可能となる。

特開２０１６－７２６９４号公報

"Mask r-cnn", K.He, G.Gkioxari, P.Dollar, and R.Girshick, Proc. IEEE int. conf. on computer vision, 2017. "Semantic image segmentation with deep convolutional nets and fully connected crfs",L.C.Chen, G.Papandreou, I.Kokkinos, K.Murphy, and A.I.Yuille, ICLR2015. "YOLO9000：Better,Faster,Stronger",J.Redmon, A.Farhadi, CVPR2017.

しかしながら、インスタンスセグメンテーションを使った場合、非特許文献１でも使われているNonMaximumSuppressionと呼ばれる多重検出抑制処理の影響により完全に重なっている人物（大きい人物の中に手前の小さい人物が完全に含まれてしまう場合）で正しく人物領域が抽出できないという問題がある。

一方、セマンテイックセグメンテーションを使った場合、複数人が重なりあう場合にそれぞれの人物を識別することができない。そのため、例えば、それぞれの人物に適した画像処理の特性を決定することができないという問題がある。

本発明は、上記問題点を鑑みてなされたものであり、適切な領域抽出を行うことが可能な技術を提供しようとするものである。

この課題を解決するため、例えば本発明の画像処理装置は以下の構成を備える。すなわち、
画像を当該画像内の被写体ごとに分割する画像処理装置であって、
画像内の被写体の主要部を検出する検出手段と、
前記画像中の前記被写体を表す領域を判定する第１のセグメンテーション手段と、
前記画像中の前記被写体を表す領域を判定する第２のセグメンテーション手段と、
前記第１のスセグメンテーション手段で検出した１つの領域に、前記検出手段で検出した主要部が１つの場合は、前記領域について前記第１のセグメンテーション手段の判定による分割を利用し、
前記第１のセグメンテーション手段で検出した１つの領域内に、前記検出手段で検出した主要部が２以上の場合は、前記領域に対して前記第２のセグメンテーション手段の判定による分割を利用するように決定する制御手段とを有する。

本発明によれば、適切な領域抽出を行うことが可能となる。

実施形態における画像処理装置の構成図。実施形態における画像処理装置の機能ブロック構成図。実施形態における画像処理の手順を示すフローチャート。画像の一例を示す図。実施形態における画像処理を説明するための図。実施形態における画像処理を説明するための図。実施形態における被写体の状態例を示す図。実施形態における画像処理の説明するための図。第１の実施形態における画像処理装置の構成図。第２の実施形態における画像処理の手順を示すフローチャート。第３の実施形態における画像処理を説明するための図。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１の実施形態］
図１は、第１の実施形態における画像処理装置１００の構成例を示すブロック図である。実施形態では、撮像して得た画像の人間を被写体、その顔を主要部とし、設定した仮想光源から光を主要部に照射することで、適度な明るさを持つ主要部（顔）の画像を生成する例を説明する。

図示において、制御部１０１は、例えばＣＰＵで構成される。制御部１０１は、各ブロックの動作プログラムを後述のＲＯＭ１０２より読み出し、ＲＡＭ１０３に展開して実行することにより、撮像装置１００が備える各ブロックの動作を制御する。ＲＯＭ１０２は、電気的に消去・記録可能な不揮発性メモリであり、画像処理装置１００が備える各ブロックの動作プログラムに加え、各ブロックの動作に必要なパラメータ等を記憶する。ＲＡＭ１０３は、書き換え可能な揮発性メモリであり、画像処理装置１００が備える各ブロックの動作において出力されたデータの一時的な記憶領域として用いられる。

光学系１０４は、ズームレンズ、フォーカスレンズを含むレンズ群で構成され、被写体像を後述の撮像部１０５に結像する。撮像部１０５は、例えばＣＣＤやＣＭＯＳセンサ等の撮像素子であり、光学系１０４により撮像部１０５に結像された光学像を光電変換し、得られたアナログ画像信号をＡ／Ｄ変換部１０６に出力する。本実施形態の撮像素子は、原色ＲＧＢフィルタがベイヤー配列となっているものとする。Ａ／Ｄ変換部１０６は、入力されたアナログ画像信号をデジタル画像信号に変換し、得られたデジタル画像データをＲＡＭ１０３に出力する。

画像処理部１０７は、ＲＡＭ１０３に記憶されている画像データに対して、ホワイトバランス調整、ノイズ低減、色補間（ディベイヤー）、ガンマ処理など、様々な画像処理を適用する。画像処理部１０７は、本画像（メイン画像）とともに、サムネイル表示用に解像度の低い(例えばＶＧＡサイズ)画像（以下サムネイル画像）も同時に生成するようにしてもよい。

記録部１０８は、例えば不図示の着脱可能なメモリカード等に、画像処理部１０７で処理された画像を、ＲＡＭ１０３を介し、記録画像ファイルとして記録する。

表示部１０９は、ＬＣＤ等の表示デバイスであり、ＲＡＭ１０３及び記録部１０８に記録した画像やユーザーからの指示を受け付けるための操作ユーザーインターフェイスを表示する。

リライティング処理部１１０は、画像処理部１０７で処理された画像データに対して、仮想光源を当てて明るさを補正するリライティング処理（再照明処理）を行う。なお、リライティング処理部１１０により行われるリライティング処理の詳細については、後述する。

領域抽出部１１１は、画像処理部１０７で処理された本画像またはサムネイル画像に対して、機械学習等の手法により、人物の領域を尤度マップにて出力する。

顔検出部１１２は、画像処理部１０７で処理された本画像またはサムネイル画像に対して、機械学習等の公知の手法により、人物の顔を内包する領域（顔を内接する矩形領域）を検出する。

距離マップ算出部１１３は、不図示の測距センサ等により取得した被写体の距離情報から公知の距離マップ生成方法に基づいて距離マップを算出する。距離マップとは、撮影画像の画素単位で得られる、画像処理装置１００（の撮像部１０５）と被写体間との２次元の距離情報のことである。また、撮像部１０５がステレオ撮影することで、測距センサとしても機能するようにしても良い。

以上、画像処理装置１００の構成と基本動作について説明した。

次に、実施形態におけるリライティング処理部１１０の動作を、図２を参照して説明する。

図２はリライティング処理部１１０の構成を示すブロック図である。なお、リライティング処理部１１０は、画像処理部１０７で処理された画像データを入力画像信号とするが、ＲＧＢ信号であるという前提で後述する。

まず、リライティング処理部１１０は、領域抽出部１１１（後述）から出力された被写体領域情報と、距離マップ算出部１１４から出力された距離マップを入力する。法線算出部２０１は、被写体領域情報と距離マップとから、被写体の形状を表す形状情報として法線マップを算出する。

距離マップから法線マップを生成する方法に関しては、公知の技術を用いるものとするが、具体的な処理例について図５を用いて説明する。

図５は、カメラ撮影座標と被写体の関係を示す図である。例えば、図５に示すようにある被写体５０１に対して、撮影画像の水平方向の差分ΔＨに対する、距離Ｄの差分ΔＤＨと、不図示ではあるが、垂直方向（図５の紙面に対して垂直な方向）の差分ΔＶに対す距離Ｄの差分ΔＤＶとから、被写体の一部分における勾配情報を算出する。そして、求めた被写体の一部分における勾配情報から法線Ｎを算出することが可能である。撮影した各画素に対して上記の処理を行うことで、撮影画像の各画素に対応する法線Ｎを算出することが可能である。法線算出部２０１は、撮影画像の各画素に対応する法線Ｎの情報を法線マップとして仮想光源反射成分算出部２０３に出力する。

仮想光源設定部２０２は、領域抽出部１１１から出力された被写体領域情報を基に、仮想光源のパラメータを設定する。例えば、顔全体が暗い被写体に対して顔の明るさを全体的に明るくしたい場合においては、顔全体が仮想光源の照射範囲に含まれるように、仮想光源の位置、照射範囲、強度などのパラメータを制御する。

ここで、被写体が１人である場合を例に取って、仮想光源に設定するパラメータについて、図６を用いて説明する。図６（ａ）は、被写体と仮想光源の位置関係を表した斜視図、図６（ｂ）は、被写体と仮想光源の位置関係を表した平面図である。仮想光源の位置に関しては、仮想光源と被写体までの距離を短く設定すれば仮想光源の光は被写体に強く当たるようになり、逆に被写体までの距離を長く設定すれば仮想光源の光は被写体に弱く当たるようになる。仮想光源の照射範囲に関しては、仮想光源の照射範囲を広く設定すれば被写体全体に光を当てることができ、逆に照射範囲を狭く設定すれば被写体の一部にだけ光を当てることができる。また、仮想光源の強度に関しては、仮想光源の強度を強く設定すれば、被写体に強く光を当てることになり、逆に強度を弱く設定すれば、被写体に弱く光を当てることになる。

次に、図８を用いて、被写体が２人の場合の撮影画像の例を示す。図８（ａ）は、リライティング処理前の撮影画像、図８（ｂ）は、撮影画像に対し、仮想光源の位置と照射範囲を示したイメージ図、図８（ｃ）は、仮想光源反射成分算出部２０３により算出された仮想光の反射成分算出結果のイメージ図、図８（ｄ）は、リライティング処理後の画像の例である。図８（ｂ）に示すように仮想光源の数は被写体の数に対応して設定されるもので、例えば顔検出１１２の結果が使われる。図８（ａ）に示すように暗かった２人の被写体が、独立に仮想光を当ててリライティング処理をすることで、図８（ｄ）に示すように各被写体に適した明るさに補正される。

ここで、領域抽出部１１１の動作について説明を行う。複数の被写体それぞれに独立に仮想光を当てるためには、それぞれの被写体を独立に検出する必要がある。同じカテゴリの被写体を識別（分割）することが可能な手法として、非特許文献１に記載されたインスタンスセグメンテーションが一般的に使用される。非特許文献１では、まず画像中の物体検出を行い、検出された物体領域を入力としてＣＮＮ（Convolutional Neural Network）の処理を行い、各画素が人物か否かを判別して人体領域の尤度マップを生成する。この物体検出の際に多数の物体検出枠の候補が出てくるが、この数を抑制して正しい物体検出の候補を抽出するために多重検出抑制処理が使われる。

多重検出抑制処理の動作について、非特許文献１でも使用されている公知のNonMaximumSuppression（以降ＮＭＳ）を例に説明を行う。ＮＭＳは、同じクラスとして認識された場合に、スコア（候補としての確からしさ）が最も大きい領域を基準として、IoU値という画像の重なり具合を表す値が大きい場合にその領域を排除するものである。具体的な動作を、図７を参照して説明する。ここではＮＭＳへの入力が領域７００と７０１で、領域７００のスコアが領域７０１に対してスコアが大きく、領域７００を基準として用いる場合を例として説明する。図７（ａ）の場合は、IoUの値が大きいので、領域７０１はＮＭＳで抑制される。図７（ｂ）の場合は、IoUの値が小さいので領域７０１の枠は抑制されずに２つの枠が出力される。そのため、不要な枠を抑制しながら、人物の重なりが小さい場合は独立の人物と判定することが可能となる。

ここで図４を用いて本実施形態の概要を説明する。図４は、画像内に例えば親と子どもである人物４００と人物４０１の２人が映っている例を示している。図示では、人物４０１のサイズが人物４００に対して小さいために、人物４００の内側に含まれてしまう場合を想定している。人物４００のスコア値が人物４０１のスコア値よりも大きい場合は、人物４０１はＮＭＳにより抑制され枠は出なくなる。一方、人物４０１のスコア値が人物４００のスコア値よりも大きい場合は、両方の枠が出ることになる。このように、人体検出結果が不安定な結果となり、人体領域抽出の結果も不安定となる。このような場合は、人物を分けて検出せずに、人物という一つのカテゴリで検出する非特許文献２のセマンティックセグメンテーションを用いたほうが安定した人体領域抽出の結果を得ることが可能となる。ここで人物４００の領域の中には、人物４００の顔領域である４１０と、人物４０１の顔領域である４１１が含まれることに注目する。顔領域４１０と顔領域４１１はそれぞれ離れた位置にあるため、顔検出部１１２により独立な顔として検出することが可能となる。このとき、人物４００の中に対応する顔４１０以外の顔領域４１１が含まれる場合は、インスタンスセグメンテーションではなくセマンティックセグメンテーションを使うことで、人物が重なった場合も安定した人体領域の尤度マップを出力することが可能となる。

図３のフローチャートを参照し、領域抽出部１１１による処理を説明する。

Ｓ３０１にて、領域抽出部１１１は、顔検出部１１２による顔検出の結果を入力する。顔検出部１１２は、例えば図４の顔領域４１０、４１１を検出し、その領域を示す情報を領域抽出部１１１に出力するものとする。次にＳ３０２にて、領域抽出部１１１は、インスタンスセグメンテーションを行い、それぞれ独立に人物検出枠と検出枠に対応する人体領域の尤度マップを得る。

次にＳ３０３にて、領域抽出部１１１は、人体検出枠内にＳ３０１で検出した顔検出の枠が２つ以上含まれるかどうかを判定する。領域抽出部１１１は、顔検出枠が１つであった場合は処理をＳ３０５に進める。一方、領域抽出部１１１は、顔検出の枠が２つ以上含まれていると判定した場合は処理をＳ３０４に進める。このＳ３０４にて、領域抽出部１１１は、セマンティックセグメンテーションを行う。

次にＳ３０５にて、領域抽出部１１１は、人体検出枠内の人体領域の尤度マップはセマンティックセグメンテーションの結果を採用する。またＳ３０３で顔検出の枠が１つの場合は、領域抽出部１１１は、Ｓ３０５にて、人体検出枠内の人体領域の尤度マップはインスタンスセグメンテーションの結果を採用する。

次に、Ｓ３０６にて、領域抽出部１１１は、Ｓ３０２で出力したインスタンスセグメンテーションの人体検出枠が別にあるか否かを判定する。領域抽出部１１１は、更なる人体検出枠が存在すると判定した場合は処理をＳ３０３に戻し、Ｓ３０３～Ｓ３０５の工程を繰り返す。また、Ｓ３０６にて、領域抽出部１１１は、Ｓ３０２で出力したインスタンスセグメンテーションの人体検出枠が最後であったと判定した場合は本処理を終える。領域抽出部１１１は、上記セグメンテーションの結果得られた人体領域を被写体領域情報として、リライティング処理部１１０に供給することになる。

上記説明したように人体検出枠の中に顔検出の結果が２つ以上ある場合は、インスタンスセグメンテーションではなくてセマンティックセグメンテーションを使うようにする。このようにすることで、人物が完全に重なる場合での人物領域を安定して抽出することができるとともに、人物が重なっていない場合や重なりが小さい場合はインスタンスセグメンテーションにより独立に人物領域を検出することが可能となる。

なお本実施形態では、顔検出の結果を使ったがこれに限られるものではなく、人体領域全体よりも小さく検出できるもの、例えば顔の器官検出、人体の頭部全体を検出する頭部検出等を用いてもよい。

図２の説明に戻る。仮想光源反射成分算出部２０３は、光源と被写体の距離Ｋ、法線情報Ｎ及び仮想光源設定部２０２が設定した仮想光源のパラメータに基づき、設定した仮想光源から仮想的に照射された光のうち、被写体により反射される成分を算出する。以下、仮想光源から仮想的に照射された光を「仮想光」と呼ぶ。具体的には、仮想光源と各画素に対応する被写体の部分との距離Ｋの二乗に反比例し、法線Ｎのベクトルと光源方向Ｌのベクトルの内積に比例するように、撮影画像の座標位置に対応する被写体の部分における仮想光の反射成分を算出する。

ここで、仮想光の反射成分の一般的な算出方法について、図５を参照して説明する。なお、図５では、説明の簡略化のために撮影画像の水平方向についてのみ示しているが、上述したように、紙面に対して垂直な方向が撮影画像の垂直方向となる。以下の説明では、撮影画像における水平画素位置Ｈ１と不図示の垂直画素位置Ｖ１に対応する、被写体５０１上の点Ｐ１における仮想光の反射成分の算出方法について説明する。図５において、仮想光源５０２は、被写体５０１に対して設定した仮想光源である。カメラ１００で撮影された撮影画像の位置（Ｈ１，Ｖ１）における仮想光の反射成分は、被写体５０１上の点Ｐ１における法線ベクトルＮ１と仮想光源５０２の光源方向ベクトルＬ１との内積に比例し、仮想光源５０２と点Ｐ１との距離Ｋ１の二乗に反比例する値となる。なお、法線ベクトルＮ１と光源方向ベクトルＬ１は、水平方向、垂直方向、及び奥行き方向（図５の距離Ｄで示す方向）からなる３次元のベクトルである。この関係を数式で表現すると、仮想光の被写体５０１上の点Ｐ１における反射成分（Ｒａ、Ｇａ、Ｂａ）は下記の式（１）に示す通りとなる。
Ｒａ＝α×（－Ｌ１・Ｎ１）／Ｋ１²×Ｒｔ
Ｇａ＝α×（－Ｌ１・Ｎ１）／Ｋ１²×Ｇｔ …（１）
Ｂａ＝α×（－Ｌ１・Ｎ１）／Ｋ１²×Ｂｔ
ここで、αは仮想光源の光の強度を示す。また、（Ｒｔ、Ｇｔ、Ｂｔ）は入力画像信号である。
仮想光源反射成分算出部２０３は、上記のようにして算出された仮想光の反射成分（Ｒａ、Ｇａ、Ｂａ）を、仮想光源付加処理部２０４へ供給する。仮想光源付加処理部２０４は、仮想光の反射成分（Ｒａ、Ｇａ、Ｂａ）を、入力画像ＲＧＢ信号に付加する、下記の式（２）に示す処理を行う。
Ｒｏｕｔ＝Ｒｔ＋Ｒａ
Ｇｏｕｔ＝Ｇｔ＋Ｇａ …（２）
Ｂｏｕｔ＝Ｂｔ＋Ｂａ

仮想光源付加処理部２０４は、上式（２）で示す処理で得た画像を、リライティング処理後の画像を表すＲＧＢ信号｛Ｒｏｕｔ、Ｇｏｕｔ、Ｂｏｕｔ｝として出力する。

［第２の実施形態］
第２の実施形態では、最初にインスタンスセグメンテーションを行う代わりに、最初にに人体検出を行う方法を説明する。一般的に人体検出の処理時間は、インスタンスセグメンテーションの処理時間よりも短くできるため、人体検出枠内に顔が２つ以上ある場合は高速に処理を行うことができる。

以下、第２の実施形態の画像処理装置について説明する。図９は、第２の実施形態における画像処理装置１００の構成例を示すブロック図である。図９の参照符号１０１～１１３は、第１の実施形態における図１と同じであり、その詳細な説明は省略する。人体検出部１１４は、画像処理部１０７で処理された本画像またはサムネイル画像に対して、例えば非特許文献３のような公知の機械学習等の手法により、人物全体を内包する枠を検出する。

なお、図２のリライティング処理部１１０の構成は、第１の実施形態と同等のため詳細な説明は省略する。

次に、領域抽出部１１１の動作について、図１０のフローチャートを用いて説明する。

Ｓ１００１にて、領域抽出部１１１は、顔検出部１１２による顔検出の結果（顔を内包する矩形枠）を入力する。

次に、Ｓ１００２にて、領域抽出部１１１は、人体検出部１１４による人体検出結果（人体を内包する矩形枠）を入力する。人体検出部１１４は、例えば非特許文献３のような処理を行い、それぞれ独立に人体検出枠を出力する。

次にＳ１００３にて、領域抽出部１１１は、人体検出枠内にＳ１００１で検出した顔検出の枠が２つ以上含まれるかどうかを判定する。領域抽出部１１１は、人体検出枠内に２以上の顔検出枠が含まれると判定した場合はＳ１００４に、そうでない場合（顔検出の枠が１つの場合）はＳ１００５に処理を分岐する。

Ｓ１００４にて、領域抽出部１１１は、セマンティックセグメンテーションを行う。そして、Ｓ１００６にて、領域抽出部１１１は、人体検出枠内の人体領域の尤度マップとしてセマンティックセグメンテーションの結果を採用する。

また、処理がＳ１００５に進んだ場合、領域抽出部１１１は、インスタンスセグメンテーションを行う。そして、Ｓ１００６にて、領域抽出部１１１は、人体検出枠内の人体領域の尤度マップとして、インスタンスセグメンテーションの結果を採用する。

次に、Ｓ１００７にて、領域抽出部１１１は、Ｓ１００２で入力した人体検出枠の中で未処理の枠があるか否かを判定する。領域抽出部１１１は、未処理の人体枠があると判定した場合、処理をＳ１００３に戻し、Ｓ１００３～Ｓ１００６の工程を繰り返す。一方、Ｓ１００６にて、未処理の人体枠が無くなったと判定した場合は、本処理を終了する。

以上説明したように人体検出枠の中に顔検出の結果が２つ以上ある場合は、インスタンスセグメンテーションではなくてセマンティックセグメンテーションを使うようにする。このようにすることで、人物が完全に重なる場合での人物領域を安定して抽出することができるとともに、人物が重なっていない場合や重なりが小さい場合はインスタンスセグメンテーションにより独立に人物領域を検出することが可能となる。

また人体検出はインスタンスセグメンテーションよりも高速に処理することができるので、人体検出枠内に顔が２つ以上ある場合は、第１の実施形態よりも高速に処理することができる。

［第３の実施形態］
第３の実施形態は、人体検出枠の中に顔検出の結果が２つ以上ある場合に、仮想光源の距離に応じた照射強度設定を緩やかに変更するようにするものである。人体検出枠の中に顔が１つある場合、同一被写体内であれば光源中心である顔中心からの距離が離れるほど照射強度は単調に減少する。ところが、図４のように人体検出枠の中に顔が２つある場合、仮想光源は人物４００の顔中心を包含する領域４１０と、人物４０１の顔中心を包含する領域４１１の２つに設定されることになる。そのため、図４に示す、大きい方の人物４００では、照射強度は単調に減少せずに途中で増加するような現象も現れる。このような場合は距離に応じた照射強度設定を緩やかに変更することでリライティングの不自然さを解消することができる。

以下、第３の実施形態における画像処理装置について説明する。本第３の実施形態における画像処理装置の構成は、第１の実施形態で示した図１と同じであるものとする。また、リライティング処理部１１０の構成も図２、領域抽出部１１１の巣織も図３と同じであるものとし、それらについての詳述は省略する。

本第３の実施形態では、第１の実施形態に対して、図２の仮想光源設定部２０２の詳細動作が異なる。それ故、その異なる部分について図１１を参照して説明する。

仮想光源設定部２０２は、領域抽出部１１１から出力された被写体領域情報を基に、仮想光源のパラメータを設定する。図３のフローチャートを用いて説明したが、領域抽出部１１１から出力された被写体領域情報は、人体検出枠の中に顔検出の結果が２以上ある場合は、セマンティックセグメンテーションの領域情報が、それ以外の場合は、インスタンスセグメンテーションの領域情報が使われている。

ここで、図１１を参照して、本第３の実施形態の仮想光源設定部２０２の動作について説明する。図１１（ａ）は、一人の人物Ａのみが存在する場合で、人物Ａの人体検出枠が参照符号４００、顔検出枠が参照符号４１０である。図１１（ｂ）は、二人の人物Ａ，Ｂが存在する場合で、一方の人物Ａの人体検出枠４００，顔検出枠４１０は同（ａ）と同じである。そして、図１１（ｂ）には、もう一人の人物Ｂの顔検出枠が参照符号４１１である。図１１（ａ）、（ｂ）において大きい方の人物（人体枠４１０が示す人物）の顔中心座標は（ｘ１，ｙ２）である。また、図１１（ｂ）において、小さい方の人物の顔中心座標は（ｘ１，ｙ４）である。

図１１（ｃ）は、人物Ａのみ、人物Ａおよび人物Ｂがいる場合の両方のｘ座標ｘ１の位置における照射強度曲線を示した図である。水平軸がｙ座標、垂直が照射強度を示しており、参照符号１１０１が図１１（ａ）の人物Ａのみがいる場合の照射強度曲線であり、参照符号１１０２が図１１（ｂ）の人物Ａ，Ｂがいる場合の照射強度曲線である。

どちらの照射強度曲線１１０１，１１０２でも、人物Ａの顔中心位置であるｙ座標が“ｙ２”の照射強度のピークである。その後、照射強度曲線１１０１は、ｙ座標“ｙ５”に向けて単調減少していく。

一方、照射強度曲線１１０２は、ｙ座標が「ｙ２～ｙ３」の範囲では単調減少していくが、「ｙ３～ｙ４」の間は、ｙ座標“ｙ４”の位置に人物Ｂの顔中心があるため、単調増加していく。そして、ｙ座標ｙ４以降は座標ｙ５に向けて単調減少していく。また照射強度曲線１１０２は、人物Ａに対する照射強度と人物Ｂに対する照射強度は同一であることを示している。

照射強度曲線１１０１と１１０２に関して、ｙ座標「ｙ２～ｙ３」の範囲を見ると、照射強度曲線１１０２が傾きの急峻度は、照射強度曲線１１０１より小さく設定している。

つまり、照射強度曲線１１０１の照射の急峻度をＰ１、照射強度曲線１１０２の照射の急峻度をＰ２とすると、Ｐ２の急峻度はＰ１よりも穏やかな急峻度に設定するようにする。このように人体検出枠の中に顔検出の結果が２つある場合は傾きの急峻度を小さくすることで、照射強度が急激に変化しないように設定し、リライティング時の不自然さを解消することができる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１００…画像処理装置、１０１…制御部、１０２…ＲＯＭ、１０３…ＲＡＭ、１０４…光学系、１０５…撮像部、１０６…Ａ／Ｄ変換部、１０７…画像処理部、１０８…記録部、１０９…表示部、１１０…リライティング処理部、１１１…領域抽出部、１１２…顔検出部、１１３…距離マップ算出部、１１４…人体検出部

Claims

画像を当該画像内の被写体ごとに分割する画像処理装置であって、
画像内の被写体の主要部を検出する検出手段と、
前記画像中の前記被写体を表す領域を判定する第１のセグメンテーション手段と、
前記画像中の前記被写体を表す領域を判定する第２のセグメンテーション手段と、
前記第１のスセグメンテーション手段で検出した１つの領域に、前記検出手段で検出した主要部が１つの場合は、前記領域について前記第１のセグメンテーション手段の判定による分割を利用し、
前記第１のセグメンテーション手段で検出した１つの領域内に、前記検出手段で検出した主要部が２以上の場合は、前記領域に対して前記第２のセグメンテーション手段の判定による分割を利用するように決定する制御手段と
を有する画像処理装置。
画像を当該画像内の被写体ごとに分割する画像処理装置であって、
画像内の被写体全体を包含する領域を検出する第１の検出手段と、
画像内の被写体の主要部を検出する第２の検出手段と、
画像中の被写体を表す領域を判定する第１のセグメンテーション手段と、
画像中の被写体を表す領域を判定する第２のセグメンテーション手段と、
前記第１の検出手段で検出した領域内に、前記第２の検出手段で検出した主要部が１つの場合は、前記領域に対して前記第１のセグメンテーション手段の判定による分割を利用し、
前記第１の検出手段で検出した領域内に、前記第２の検出手段で検出した主要部が２以上の場合は、前記領域に対して前記第２のセグメンテーション手段の判定による分割を利用するように決定する制御手段と
を有することを特徴とする画像処理装置。
前記第１のセグメンテーション手段はインスタンスセグメンテーションであり、前記第２のセグメンテーション手段はセマンティックセグメンテーションである
ことを特徴とする請求項１又は２に記載の画像処理装置。
前記第１のセグメンテーション手段は多重検出を抑制する機能を有し、前記第２のセグメンテーション手段は多重検出を抑制する機能を含まないことを特徴とする請求項１乃至３のいずれか１項に記載の画像処理装置。
前記被写体は人間であって、前記主要部は人間の顔であることを特徴とする請求項１乃至４のいずれか１項に記載の画像処理装置。
仮想光源を設定する設定手段と、
該設定手段が設定した仮想光源を用いて、被写体の前記主要部の領域ごとに、明るさを補正する明るさ補正手段を有し、
前記設定手段は、検出した被写体の主要部の位置に基づいて仮想光源の照射範囲および強度を決定し、
前記補正手段は、
前記第第２のセグメンテーション手段で求めた、１つの領域に存在する複数の主要部との間の照射強度の傾きを、前記第１のセグメンテーション手段で求めた領域内の主要部から当該主要部の外にかけての照射強度の傾きよりも小さくするように補正する
ことを特徴とする請求項１乃至５のいずれか１項に記載の画像処理装置。
前記補正手段は、前記第２のセグメンテーション手段で求めた、１つの領域に存在する複数の主要部それぞれの照射強度を同じになるように補正する
ことを特徴とする請求項６に記載の画像処理装置。
画像を当該画像内の被写体ごとに分割する画像処理装置の制御方法であって、
画像内の被写体の主要部を検出する検出工程と、
前記画像中の前記被写体を表す領域を判定する検出する第１のセグメンテーション工程と、
前記画像中の前記被写体を表す領域を検出する第２のセグメンテーション工程と、
前記第１のセグメンテーション工程で検出した１つの領域に、前記検出工程で検出した主要部が１つの場合は、前記領域について前記第１のセグメンテーション工程による分割を利用し、
前記第１のセグメンテーション工程で検出した１つの領域内に、前記検出工程で検出した主要部が２以上の場合は、前記領域に対して前記第２のセグメンテーション工程による分割を利用するように決定する制御手段と
を有する画像処理装置の制御方法。
画像を当該画像内の被写体ごとに分割する画像処理装置の制御方法であって、
画像内の被写体全体を包含する領域を検出する第１の検出工程と、
画像内の被写体の主要部を検出する第２の検出工程と、
画像中の被写体を表す領域を判定する第１のセグメンテーション工程と、
画像中の被写体を表す領域を判定する第２のセグメンテーション工程と、
前記第１の検出工程で検出した領域内に、前記第２の検出工程で検出した主要部が１つの場合は、前記領域に対して前記第１のセグメンテーション工程の判定による分割を利用し、
前記第１の検出工程で検出した領域内に、前記第２の検出工程で検出した主要部が２以上の場合は、前記領域に対して前記第２のセグメンテーション工程の判定による分割を利用するように決定する制御工程と
を有することを特徴とする画像処理装置の制御方法。
コンピュータが読み込み実行することで、前記コンピュータに、請求項８又は９に記載の方法の各工程を実行させるためのプログラム。