JP2023114304A - 情報処理装置及びその制御方法及びプログラム - Google Patents
情報処理装置及びその制御方法及びプログラム Download PDFInfo
- Publication number
- JP2023114304A JP2023114304A JP2022016600A JP2022016600A JP2023114304A JP 2023114304 A JP2023114304 A JP 2023114304A JP 2022016600 A JP2022016600 A JP 2022016600A JP 2022016600 A JP2022016600 A JP 2022016600A JP 2023114304 A JP2023114304 A JP 2023114304A
- Authority
- JP
- Japan
- Prior art keywords
- image
- segmentation
- region
- subject
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 37
- 230000010365 information processing Effects 0.000 title 1
- 238000001514 detection method Methods 0.000 claims abstract description 92
- 238000012545 processing Methods 0.000 claims abstract description 78
- 230000011218 segmentation Effects 0.000 claims abstract description 72
- 238000005286 illumination Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 abstract description 21
- 230000002411 adverse Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 14
- 210000000746 body region Anatomy 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 10
- 238000003384 imaging method Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 7
- 230000007423 decrease Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000001678 irradiating effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 201000005569 Gout Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Studio Devices (AREA)
Abstract
【課題】 人物等の被写体が完全に重なるシーンでの弊害を抑制しながら、被写体が部分的に重なるシーンにおいてもそれぞれの被写体に適した領域抽出を行うことが可能となる。
【解決手段】 画像を当該画像内の被写体ごとに分割する画像処理装置であって、画像内の被写体の主要部を検出する検出部と、画像中の被写体を表す領域を判定する第1のセグメンテーション部と、画像中の被写体を表す領域を判定する第2のセグメンテーション部と、第1のセグメンテーション部で検出した1つの領域に、検出部で検出した主要部が1つ存在する場合は、領域について第1のセグメンテーション部の判定による分割を利用し、第1のセグメンテーション部で検出した1つの領域内に、検出部で検出した主要部が2以上が存在する場合は、領域に対して第2のセグメンテーション部の判定による分割を利用するように決定する制御部とを有する。
【選択図】 図1
【解決手段】 画像を当該画像内の被写体ごとに分割する画像処理装置であって、画像内の被写体の主要部を検出する検出部と、画像中の被写体を表す領域を判定する第1のセグメンテーション部と、画像中の被写体を表す領域を判定する第2のセグメンテーション部と、第1のセグメンテーション部で検出した1つの領域に、検出部で検出した主要部が1つ存在する場合は、領域について第1のセグメンテーション部の判定による分割を利用し、第1のセグメンテーション部で検出した1つの領域内に、検出部で検出した主要部が2以上が存在する場合は、領域に対して第2のセグメンテーション部の判定による分割を利用するように決定する制御部とを有する。
【選択図】 図1
Description
本発明は、画像中の複数の被写体の領域を認識する技術に関する
従来から、画像中の特定の被写体の領域を検出する方法が知られている。被写体の領域を検出する方法としては、同じ種類の物体が複数写っている場合にそれぞれの物体を識別するインスタンスセグメンテーションと呼ばれる手法(非特許文献1)と、それぞれの物体を識別せず一つのカテゴリとして出力するセマンテイックセグメンテーションと呼ばれる手法(非特許文献2)が知られている。
また従来から、撮影後の画像中の被写体の領域を検出して、その被写体の領域に仮想的な光源からの光を照射し、リライティング処理する技術が知られている。リライティング処理により、環境光によって生じた影などの暗部領域を明るくし、好ましい画像を得ることが可能となる。例えば特許文献1には、複数人のシーンにおいては、それぞれの人物を検出して、被写体毎それぞれに被写体検出された被写体毎の陰影の状態を検出し、各々の被写体に適した仮想光源の特性を決定可能とする技術が開示されている。このようにすることで、それぞれの被写体に距離差がある場合でも、それぞれ適切な仮想光源の特性を決定することが可能となる。
"Mask r-cnn", K.He, G.Gkioxari, P.Dollar, and R.Girshick, Proc. IEEE int. conf. on computer vision, 2017.
"Semantic image segmentation with deep convolutional nets and fully connected crfs",L.C.Chen, G.Papandreou, I.Kokkinos, K.Murphy, and A.I.Yuille, ICLR2015.
"YOLO9000:Better,Faster,Stronger",J.Redmon, A.Farhadi, CVPR2017.
しかしながら、インスタンスセグメンテーションを使った場合、非特許文献1でも使われているNonMaximumSuppressionと呼ばれる多重検出抑制処理の影響により完全に重なっている人物(大きい人物の中に手前の小さい人物が完全に含まれてしまう場合)で正しく人物領域が抽出できないという問題がある。
一方、セマンテイックセグメンテーションを使った場合、複数人が重なりあう場合にそれぞれの人物を識別することができない。そのため、例えば、それぞれの人物に適した画像処理の特性を決定することができないという問題がある。
本発明は、上記問題点を鑑みてなされたものであり、適切な領域抽出を行うことが可能な技術を提供しようとするものである。
この課題を解決するため、例えば本発明の画像処理装置は以下の構成を備える。すなわち、
画像を当該画像内の被写体ごとに分割する画像処理装置であって、
画像内の被写体の主要部を検出する検出手段と、
前記画像中の前記被写体を表す領域を判定する第1のセグメンテーション手段と、
前記画像中の前記被写体を表す領域を判定する第2のセグメンテーション手段と、
前記第1のスセグメンテーション手段で検出した1つの領域に、前記検出手段で検出した主要部が1つの場合は、前記領域について前記第1のセグメンテーション手段の判定による分割を利用し、
前記第1のセグメンテーション手段で検出した1つの領域内に、前記検出手段で検出した主要部が2以上の場合は、前記領域に対して前記第2のセグメンテーション手段の判定による分割を利用するように決定する制御手段とを有する。
画像を当該画像内の被写体ごとに分割する画像処理装置であって、
画像内の被写体の主要部を検出する検出手段と、
前記画像中の前記被写体を表す領域を判定する第1のセグメンテーション手段と、
前記画像中の前記被写体を表す領域を判定する第2のセグメンテーション手段と、
前記第1のスセグメンテーション手段で検出した1つの領域に、前記検出手段で検出した主要部が1つの場合は、前記領域について前記第1のセグメンテーション手段の判定による分割を利用し、
前記第1のセグメンテーション手段で検出した1つの領域内に、前記検出手段で検出した主要部が2以上の場合は、前記領域に対して前記第2のセグメンテーション手段の判定による分割を利用するように決定する制御手段とを有する。
本発明によれば、適切な領域抽出を行うことが可能となる。
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
[第1の実施形態]
図1は、第1の実施形態における画像処理装置100の構成例を示すブロック図である。実施形態では、撮像して得た画像の人間を被写体、その顔を主要部とし、設定した仮想光源から光を主要部に照射することで、適度な明るさを持つ主要部(顔)の画像を生成する例を説明する。
図1は、第1の実施形態における画像処理装置100の構成例を示すブロック図である。実施形態では、撮像して得た画像の人間を被写体、その顔を主要部とし、設定した仮想光源から光を主要部に照射することで、適度な明るさを持つ主要部(顔)の画像を生成する例を説明する。
図示において、制御部101は、例えばCPUで構成される。制御部101は、各ブロックの動作プログラムを後述のROM102より読み出し、RAM103に展開して実行することにより、撮像装置100が備える各ブロックの動作を制御する。ROM102は、電気的に消去・記録可能な不揮発性メモリであり、画像処理装置100が備える各ブロックの動作プログラムに加え、各ブロックの動作に必要なパラメータ等を記憶する。RAM103は、書き換え可能な揮発性メモリであり、画像処理装置100が備える各ブロックの動作において出力されたデータの一時的な記憶領域として用いられる。
光学系104は、ズームレンズ、フォーカスレンズを含むレンズ群で構成され、被写体像を後述の撮像部105に結像する。撮像部105は、例えばCCDやCMOSセンサ等の撮像素子であり、光学系104により撮像部105に結像された光学像を光電変換し、得られたアナログ画像信号をA/D変換部106に出力する。本実施形態の撮像素子は、原色RGBフィルタがベイヤー配列となっているものとする。A/D変換部106は、入力されたアナログ画像信号をデジタル画像信号に変換し、得られたデジタル画像データをRAM103に出力する。
画像処理部107は、RAM103に記憶されている画像データに対して、ホワイトバランス調整、ノイズ低減、色補間(ディベイヤー)、ガンマ処理など、様々な画像処理を適用する。画像処理部107は、本画像(メイン画像)とともに、サムネイル表示用に解像度の低い(例えばVGAサイズ)画像(以下サムネイル画像)も同時に生成するようにしてもよい。
記録部108は、例えば不図示の着脱可能なメモリカード等に、画像処理部107で処理された画像を、RAM103を介し、記録画像ファイルとして記録する。
表示部109は、LCD等の表示デバイスであり、RAM103及び記録部108に記録した画像やユーザーからの指示を受け付けるための操作ユーザーインターフェイスを表示する。
リライティング処理部110は、画像処理部107で処理された画像データに対して、仮想光源を当てて明るさを補正するリライティング処理(再照明処理)を行う。なお、リライティング処理部110により行われるリライティング処理の詳細については、後述する。
領域抽出部111は、画像処理部107で処理された本画像またはサムネイル画像に対して、機械学習等の手法により、人物の領域を尤度マップにて出力する。
顔検出部112は、画像処理部107で処理された本画像またはサムネイル画像に対して、機械学習等の公知の手法により、人物の顔を内包する領域(顔を内接する矩形領域)を検出する。
距離マップ算出部113は、不図示の測距センサ等により取得した被写体の距離情報から公知の距離マップ生成方法に基づいて距離マップを算出する。距離マップとは、撮影画像の画素単位で得られる、画像処理装置100(の撮像部105)と被写体間との2次元の距離情報のことである。また、撮像部105がステレオ撮影することで、測距センサとしても機能するようにしても良い。
以上、画像処理装置100の構成と基本動作について説明した。
次に、実施形態におけるリライティング処理部110の動作を、図2を参照して説明する。
図2はリライティング処理部110の構成を示すブロック図である。なお、リライティング処理部110は、画像処理部107で処理された画像データを入力画像信号とするが、RGB信号であるという前提で後述する。
まず、リライティング処理部110は、領域抽出部111(後述)から出力された被写体領域情報と、距離マップ算出部114から出力された距離マップを入力する。法線算出部201は、被写体領域情報と距離マップとから、被写体の形状を表す形状情報として法線マップを算出する。
距離マップから法線マップを生成する方法に関しては、公知の技術を用いるものとするが、具体的な処理例について図5を用いて説明する。
図5は、カメラ撮影座標と被写体の関係を示す図である。例えば、図5に示すようにある被写体501に対して、撮影画像の水平方向の差分ΔHに対する、距離Dの差分ΔDHと、不図示ではあるが、垂直方向(図5の紙面に対して垂直な方向)の差分ΔVに対す距離Dの差分ΔDVとから、被写体の一部分における勾配情報を算出する。そして、求めた被写体の一部分における勾配情報から法線Nを算出することが可能である。撮影した各画素に対して上記の処理を行うことで、撮影画像の各画素に対応する法線Nを算出することが可能である。法線算出部201は、撮影画像の各画素に対応する法線Nの情報を法線マップとして仮想光源反射成分算出部203に出力する。
仮想光源設定部202は、領域抽出部111から出力された被写体領域情報を基に、仮想光源のパラメータを設定する。例えば、顔全体が暗い被写体に対して顔の明るさを全体的に明るくしたい場合においては、顔全体が仮想光源の照射範囲に含まれるように、仮想光源の位置、照射範囲、強度などのパラメータを制御する。
ここで、被写体が1人である場合を例に取って、仮想光源に設定するパラメータについて、図6を用いて説明する。図6(a)は、被写体と仮想光源の位置関係を表した斜視図、図6(b)は、被写体と仮想光源の位置関係を表した平面図である。仮想光源の位置に関しては、仮想光源と被写体までの距離を短く設定すれば仮想光源の光は被写体に強く当たるようになり、逆に被写体までの距離を長く設定すれば仮想光源の光は被写体に弱く当たるようになる。仮想光源の照射範囲に関しては、仮想光源の照射範囲を広く設定すれば被写体全体に光を当てることができ、逆に照射範囲を狭く設定すれば被写体の一部にだけ光を当てることができる。また、仮想光源の強度に関しては、仮想光源の強度を強く設定すれば、被写体に強く光を当てることになり、逆に強度を弱く設定すれば、被写体に弱く光を当てることになる。
次に、図8を用いて、被写体が2人の場合の撮影画像の例を示す。図8(a)は、リライティング処理前の撮影画像、図8(b)は、撮影画像に対し、仮想光源の位置と照射範囲を示したイメージ図、図8(c)は、仮想光源反射成分算出部203により算出された仮想光の反射成分算出結果のイメージ図、図8(d)は、リライティング処理後の画像の例である。図8(b)に示すように仮想光源の数は被写体の数に対応して設定されるもので、例えば顔検出112の結果が使われる。図8(a)に示すように暗かった2人の被写体が、独立に仮想光を当ててリライティング処理をすることで、図8(d)に示すように各被写体に適した明るさに補正される。
ここで、領域抽出部111の動作について説明を行う。複数の被写体それぞれに独立に仮想光を当てるためには、それぞれの被写体を独立に検出する必要がある。同じカテゴリの被写体を識別(分割)することが可能な手法として、非特許文献1に記載されたインスタンスセグメンテーションが一般的に使用される。非特許文献1では、まず画像中の物体検出を行い、検出された物体領域を入力としてCNN(Convolutional Neural Network)の処理を行い、各画素が人物か否かを判別して人体領域の尤度マップを生成する。この物体検出の際に多数の物体検出枠の候補が出てくるが、この数を抑制して正しい物体検出の候補を抽出するために多重検出抑制処理が使われる。
多重検出抑制処理の動作について、非特許文献1でも使用されている公知のNonMaximumSuppression(以降NMS)を例に説明を行う。NMSは、同じクラスとして認識された場合に、スコア(候補としての確からしさ)が最も大きい領域を基準として、IoU値という画像の重なり具合を表す値が大きい場合にその領域を排除するものである。具体的な動作を、図7を参照して説明する。ここではNMSへの入力が領域700と701で、領域700のスコアが領域701に対してスコアが大きく、領域700を基準として用いる場合を例として説明する。図7(a)の場合は、IoUの値が大きいので、領域701はNMSで抑制される。図7(b)の場合は、IoUの値が小さいので領域701の枠は抑制されずに2つの枠が出力される。そのため、不要な枠を抑制しながら、人物の重なりが小さい場合は独立の人物と判定することが可能となる。
ここで図4を用いて本実施形態の概要を説明する。図4は、画像内に例えば親と子どもである人物400と人物401の2人が映っている例を示している。図示では、人物401のサイズが人物400に対して小さいために、人物400の内側に含まれてしまう場合を想定している。人物400のスコア値が人物401のスコア値よりも大きい場合は、人物401はNMSにより抑制され枠は出なくなる。一方、人物401のスコア値が人物400のスコア値よりも大きい場合は、両方の枠が出ることになる。このように、人体検出結果が不安定な結果となり、人体領域抽出の結果も不安定となる。このような場合は、人物を分けて検出せずに、人物という一つのカテゴリで検出する非特許文献2のセマンティックセグメンテーションを用いたほうが安定した人体領域抽出の結果を得ることが可能となる。ここで人物400の領域の中には、人物400の顔領域である410と、人物401の顔領域である411が含まれることに注目する。顔領域410と顔領域411はそれぞれ離れた位置にあるため、顔検出部112により独立な顔として検出することが可能となる。このとき、人物400の中に対応する顔410以外の顔領域411が含まれる場合は、インスタンスセグメンテーションではなくセマンティックセグメンテーションを使うことで、人物が重なった場合も安定した人体領域の尤度マップを出力することが可能となる。
図3のフローチャートを参照し、領域抽出部111による処理を説明する。
S301にて、領域抽出部111は、顔検出部112による顔検出の結果を入力する。顔検出部112は、例えば図4の顔領域410、411を検出し、その領域を示す情報を領域抽出部111に出力するものとする。次にS302にて、領域抽出部111は、インスタンスセグメンテーションを行い、それぞれ独立に人物検出枠と検出枠に対応する人体領域の尤度マップを得る。
次にS303にて、領域抽出部111は、人体検出枠内にS301で検出した顔検出の枠が2つ以上含まれるかどうかを判定する。領域抽出部111は、顔検出枠が1つであった場合は処理をS305に進める。一方、領域抽出部111は、顔検出の枠が2つ以上含まれていると判定した場合は処理をS304に進める。このS304にて、領域抽出部111は、セマンティックセグメンテーションを行う。
次にS305にて、領域抽出部111は、人体検出枠内の人体領域の尤度マップはセマンティックセグメンテーションの結果を採用する。またS303で顔検出の枠が1つの場合は、領域抽出部111は、S305にて、人体検出枠内の人体領域の尤度マップはインスタンスセグメンテーションの結果を採用する。
次に、S306にて、領域抽出部111は、S302で出力したインスタンスセグメンテーションの人体検出枠が別にあるか否かを判定する。領域抽出部111は、更なる人体検出枠が存在すると判定した場合は処理をS303に戻し、S303~S305の工程を繰り返す。また、S306にて、領域抽出部111は、S302で出力したインスタンスセグメンテーションの人体検出枠が最後であったと判定した場合は本処理を終える。領域抽出部111は、上記セグメンテーションの結果得られた人体領域を被写体領域情報として、リライティング処理部110に供給することになる。
上記説明したように人体検出枠の中に顔検出の結果が2つ以上ある場合は、インスタンスセグメンテーションではなくてセマンティックセグメンテーションを使うようにする。このようにすることで、人物が完全に重なる場合での人物領域を安定して抽出することができるとともに、人物が重なっていない場合や重なりが小さい場合はインスタンスセグメンテーションにより独立に人物領域を検出することが可能となる。
なお本実施形態では、顔検出の結果を使ったがこれに限られるものではなく、人体領域全体よりも小さく検出できるもの、例えば顔の器官検出、人体の頭部全体を検出する頭部検出等を用いてもよい。
図2の説明に戻る。仮想光源反射成分算出部203は、光源と被写体の距離K、法線情報N及び仮想光源設定部202が設定した仮想光源のパラメータに基づき、設定した仮想光源から仮想的に照射された光のうち、被写体により反射される成分を算出する。以下、仮想光源から仮想的に照射された光を「仮想光」と呼ぶ。具体的には、仮想光源と各画素に対応する被写体の部分との距離Kの二乗に反比例し、法線Nのベクトルと光源方向Lのベクトルの内積に比例するように、撮影画像の座標位置に対応する被写体の部分における仮想光の反射成分を算出する。
ここで、仮想光の反射成分の一般的な算出方法について、図5を参照して説明する。なお、図5では、説明の簡略化のために撮影画像の水平方向についてのみ示しているが、上述したように、紙面に対して垂直な方向が撮影画像の垂直方向となる。以下の説明では、撮影画像における水平画素位置H1と不図示の垂直画素位置V1に対応する、被写体501上の点P1における仮想光の反射成分の算出方法について説明する。図5において、仮想光源502は、被写体501に対して設定した仮想光源である。カメラ100で撮影された撮影画像の位置(H1,V1)における仮想光の反射成分は、被写体501上の点P1における法線ベクトルN1と仮想光源502の光源方向ベクトルL1との内積に比例し、仮想光源502と点P1との距離K1の二乗に反比例する値となる。なお、法線ベクトルN1と光源方向ベクトルL1は、水平方向、垂直方向、及び奥行き方向(図5の距離Dで示す方向)からなる3次元のベクトルである。この関係を数式で表現すると、仮想光の被写体501上の点P1における反射成分(Ra、Ga、Ba)は下記の式(1)に示す通りとなる。
Ra=α×(-L1・N1)/K12×Rt
Ga=α×(-L1・N1)/K12×Gt …(1)
Ba=α×(-L1・N1)/K12×Bt
ここで、αは仮想光源の光の強度を示す。また、(Rt、Gt、Bt)は入力画像信号である。
仮想光源反射成分算出部203は、上記のようにして算出された仮想光の反射成分(Ra、Ga、Ba)を、仮想光源付加処理部204へ供給する。仮想光源付加処理部204は、仮想光の反射成分(Ra、Ga、Ba)を、入力画像RGB信号に付加する、下記の式(2)に示す処理を行う。
Rout=Rt+Ra
Gout=Gt+Ga …(2)
Bout=Bt+Ba
Ra=α×(-L1・N1)/K12×Rt
Ga=α×(-L1・N1)/K12×Gt …(1)
Ba=α×(-L1・N1)/K12×Bt
ここで、αは仮想光源の光の強度を示す。また、(Rt、Gt、Bt)は入力画像信号である。
仮想光源反射成分算出部203は、上記のようにして算出された仮想光の反射成分(Ra、Ga、Ba)を、仮想光源付加処理部204へ供給する。仮想光源付加処理部204は、仮想光の反射成分(Ra、Ga、Ba)を、入力画像RGB信号に付加する、下記の式(2)に示す処理を行う。
Rout=Rt+Ra
Gout=Gt+Ga …(2)
Bout=Bt+Ba
仮想光源付加処理部204は、上式(2)で示す処理で得た画像を、リライティング処理後の画像を表すRGB信号{Rout、Gout、Bout}として出力する。
[第2の実施形態]
第2の実施形態では、最初にインスタンスセグメンテーションを行う代わりに、最初にに人体検出を行う方法を説明する。一般的に人体検出の処理時間は、インスタンスセグメンテーションの処理時間よりも短くできるため、人体検出枠内に顔が2つ以上ある場合は高速に処理を行うことができる。
第2の実施形態では、最初にインスタンスセグメンテーションを行う代わりに、最初にに人体検出を行う方法を説明する。一般的に人体検出の処理時間は、インスタンスセグメンテーションの処理時間よりも短くできるため、人体検出枠内に顔が2つ以上ある場合は高速に処理を行うことができる。
以下、第2の実施形態の画像処理装置について説明する。図9は、第2の実施形態における画像処理装置100の構成例を示すブロック図である。図9の参照符号101~113は、第1の実施形態における図1と同じであり、その詳細な説明は省略する。人体検出部114は、画像処理部107で処理された本画像またはサムネイル画像に対して、例えば非特許文献3のような公知の機械学習等の手法により、人物全体を内包する枠を検出する。
なお、図2のリライティング処理部110の構成は、第1の実施形態と同等のため詳細な説明は省略する。
次に、領域抽出部111の動作について、図10のフローチャートを用いて説明する。
S1001にて、領域抽出部111は、顔検出部112による顔検出の結果(顔を内包する矩形枠)を入力する。
次に、S1002にて、領域抽出部111は、人体検出部114による人体検出結果(人体を内包する矩形枠)を入力する。人体検出部114は、例えば非特許文献3のような処理を行い、それぞれ独立に人体検出枠を出力する。
次にS1003にて、領域抽出部111は、人体検出枠内にS1001で検出した顔検出の枠が2つ以上含まれるかどうかを判定する。領域抽出部111は、人体検出枠内に2以上の顔検出枠が含まれると判定した場合はS1004に、そうでない場合(顔検出の枠が1つの場合)はS1005に処理を分岐する。
S1004にて、領域抽出部111は、セマンティックセグメンテーションを行う。そして、S1006にて、領域抽出部111は、人体検出枠内の人体領域の尤度マップとしてセマンティックセグメンテーションの結果を採用する。
また、処理がS1005に進んだ場合、領域抽出部111は、インスタンスセグメンテーションを行う。そして、S1006にて、領域抽出部111は、人体検出枠内の人体領域の尤度マップとして、インスタンスセグメンテーションの結果を採用する。
次に、S1007にて、領域抽出部111は、S1002で入力した人体検出枠の中で未処理の枠があるか否かを判定する。領域抽出部111は、未処理の人体枠があると判定した場合、処理をS1003に戻し、S1003~S1006の工程を繰り返す。一方、S1006にて、未処理の人体枠が無くなったと判定した場合は、本処理を終了する。
以上説明したように人体検出枠の中に顔検出の結果が2つ以上ある場合は、インスタンスセグメンテーションではなくてセマンティックセグメンテーションを使うようにする。このようにすることで、人物が完全に重なる場合での人物領域を安定して抽出することができるとともに、人物が重なっていない場合や重なりが小さい場合はインスタンスセグメンテーションにより独立に人物領域を検出することが可能となる。
また人体検出はインスタンスセグメンテーションよりも高速に処理することができるので、人体検出枠内に顔が2つ以上ある場合は、第1の実施形態よりも高速に処理することができる。
[第3の実施形態]
第3の実施形態は、人体検出枠の中に顔検出の結果が2つ以上ある場合に、仮想光源の距離に応じた照射強度設定を緩やかに変更するようにするものである。人体検出枠の中に顔が1つある場合、同一被写体内であれば光源中心である顔中心からの距離が離れるほど照射強度は単調に減少する。ところが、図4のように人体検出枠の中に顔が2つある場合、仮想光源は人物400の顔中心を包含する領域410と、人物401の顔中心を包含する領域411の2つに設定されることになる。そのため、図4に示す、大きい方の人物400では、照射強度は単調に減少せずに途中で増加するような現象も現れる。このような場合は距離に応じた照射強度設定を緩やかに変更することでリライティングの不自然さを解消することができる。
第3の実施形態は、人体検出枠の中に顔検出の結果が2つ以上ある場合に、仮想光源の距離に応じた照射強度設定を緩やかに変更するようにするものである。人体検出枠の中に顔が1つある場合、同一被写体内であれば光源中心である顔中心からの距離が離れるほど照射強度は単調に減少する。ところが、図4のように人体検出枠の中に顔が2つある場合、仮想光源は人物400の顔中心を包含する領域410と、人物401の顔中心を包含する領域411の2つに設定されることになる。そのため、図4に示す、大きい方の人物400では、照射強度は単調に減少せずに途中で増加するような現象も現れる。このような場合は距離に応じた照射強度設定を緩やかに変更することでリライティングの不自然さを解消することができる。
以下、第3の実施形態における画像処理装置について説明する。本第3の実施形態における画像処理装置の構成は、第1の実施形態で示した図1と同じであるものとする。また、リライティング処理部110の構成も図2、領域抽出部111の巣織も図3と同じであるものとし、それらについての詳述は省略する。
本第3の実施形態では、第1の実施形態に対して、図2の仮想光源設定部202の詳細動作が異なる。それ故、その異なる部分について図11を参照して説明する。
仮想光源設定部202は、領域抽出部111から出力された被写体領域情報を基に、仮想光源のパラメータを設定する。図3のフローチャートを用いて説明したが、領域抽出部111から出力された被写体領域情報は、人体検出枠の中に顔検出の結果が2以上ある場合は、セマンティックセグメンテーションの領域情報が、それ以外の場合は、インスタンスセグメンテーションの領域情報が使われている。
ここで、図11を参照して、本第3の実施形態の仮想光源設定部202の動作について説明する。図11(a)は、一人の人物Aのみが存在する場合で、人物Aの人体検出枠が参照符号400、顔検出枠が参照符号410である。図11(b)は、二人の人物A,Bが存在する場合で、一方の人物Aの人体検出枠400,顔検出枠410は同(a)と同じである。そして、図11(b)には、もう一人の人物Bの顔検出枠が参照符号411である。図11(a)、(b)において大きい方の人物(人体枠410が示す人物)の顔中心座標は(x1,y2)である。また、図11(b)において、小さい方の人物の顔中心座標は(x1,y4)である。
図11(c)は、人物Aのみ、人物Aおよび人物Bがいる場合の両方のx座標x1の位置における照射強度曲線を示した図である。水平軸がy座標、垂直が照射強度を示しており、参照符号1101が図11(a)の人物Aのみがいる場合の照射強度曲線であり、参照符号1102が図11(b)の人物A,Bがいる場合の照射強度曲線である。
どちらの照射強度曲線1101,1102でも、人物Aの顔中心位置であるy座標が“y2”の照射強度のピークである。その後、照射強度曲線1101は、y座標“y5”に向けて単調減少していく。
一方、照射強度曲線1102は、y座標が「y2~y3」の範囲では単調減少していくが、「y3~y4」の間は、y座標“y4”の位置に人物Bの顔中心があるため、単調増加していく。そして、y座標y4以降は座標y5に向けて単調減少していく。また照射強度曲線1102は、人物Aに対する照射強度と人物Bに対する照射強度は同一であることを示している。
照射強度曲線1101と1102に関して、y座標「y2~y3」の範囲を見ると、照射強度曲線1102が傾きの急峻度は、照射強度曲線1101より小さく設定している。
つまり、照射強度曲線1101の照射の急峻度をP1、照射強度曲線1102の照射の急峻度をP2とすると、P2の急峻度はP1よりも穏やかな急峻度に設定するようにする。このように人体検出枠の中に顔検出の結果が2つある場合は傾きの急峻度を小さくすることで、照射強度が急激に変化しないように設定し、リライティング時の不自然さを解消することができる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
100…画像処理装置、101…制御部、102…ROM、103…RAM、104…光学系、105…撮像部、106…A/D変換部、107…画像処理部、108…記録部、109…表示部、110…リライティング処理部、111…領域抽出部、112…顔検出部、113…距離マップ算出部、114…人体検出部
Claims (10)
- 画像を当該画像内の被写体ごとに分割する画像処理装置であって、
画像内の被写体の主要部を検出する検出手段と、
前記画像中の前記被写体を表す領域を判定する第1のセグメンテーション手段と、
前記画像中の前記被写体を表す領域を判定する第2のセグメンテーション手段と、
前記第1のスセグメンテーション手段で検出した1つの領域に、前記検出手段で検出した主要部が1つの場合は、前記領域について前記第1のセグメンテーション手段の判定による分割を利用し、
前記第1のセグメンテーション手段で検出した1つの領域内に、前記検出手段で検出した主要部が2以上の場合は、前記領域に対して前記第2のセグメンテーション手段の判定による分割を利用するように決定する制御手段と
を有する画像処理装置。 - 画像を当該画像内の被写体ごとに分割する画像処理装置であって、
画像内の被写体全体を包含する領域を検出する第1の検出手段と、
画像内の被写体の主要部を検出する第2の検出手段と、
画像中の被写体を表す領域を判定する第1のセグメンテーション手段と、
画像中の被写体を表す領域を判定する第2のセグメンテーション手段と、
前記第1の検出手段で検出した領域内に、前記第2の検出手段で検出した主要部が1つの場合は、前記領域に対して前記第1のセグメンテーション手段の判定による分割を利用し、
前記第1の検出手段で検出した領域内に、前記第2の検出手段で検出した主要部が2以上の場合は、前記領域に対して前記第2のセグメンテーション手段の判定による分割を利用するように決定する制御手段と
を有することを特徴とする画像処理装置。 - 前記第1のセグメンテーション手段はインスタンスセグメンテーションであり、前記第2のセグメンテーション手段はセマンティックセグメンテーションである
ことを特徴とする請求項1又は2に記載の画像処理装置。 - 前記第1のセグメンテーション手段は多重検出を抑制する機能を有し、前記第2のセグメンテーション手段は多重検出を抑制する機能を含まないことを特徴とする請求項1乃至3のいずれか1項に記載の画像処理装置。
- 前記被写体は人間であって、前記主要部は人間の顔であることを特徴とする請求項1乃至4のいずれか1項に記載の画像処理装置。
- 仮想光源を設定する設定手段と、
該設定手段が設定した仮想光源を用いて、被写体の前記主要部の領域ごとに、明るさを補正する明るさ補正手段を有し、
前記設定手段は、検出した被写体の主要部の位置に基づいて仮想光源の照射範囲および強度を決定し、
前記補正手段は、
前記第第2のセグメンテーション手段で求めた、1つの領域に存在する複数の主要部との間の照射強度の傾きを、前記第1のセグメンテーション手段で求めた領域内の主要部から当該主要部の外にかけての照射強度の傾きよりも小さくするように補正する
ことを特徴とする請求項1乃至5のいずれか1項に記載の画像処理装置。 - 前記補正手段は、前記第2のセグメンテーション手段で求めた、1つの領域に存在する複数の主要部それぞれの照射強度を同じになるように補正する
ことを特徴とする請求項6に記載の画像処理装置。 - 画像を当該画像内の被写体ごとに分割する画像処理装置の制御方法であって、
画像内の被写体の主要部を検出する検出工程と、
前記画像中の前記被写体を表す領域を判定する検出する第1のセグメンテーション工程と、
前記画像中の前記被写体を表す領域を検出する第2のセグメンテーション工程と、
前記第1のセグメンテーション工程で検出した1つの領域に、前記検出工程で検出した主要部が1つの場合は、前記領域について前記第1のセグメンテーション工程による分割を利用し、
前記第1のセグメンテーション工程で検出した1つの領域内に、前記検出工程で検出した主要部が2以上の場合は、前記領域に対して前記第2のセグメンテーション工程による分割を利用するように決定する制御手段と
を有する画像処理装置の制御方法。 - 画像を当該画像内の被写体ごとに分割する画像処理装置の制御方法であって、
画像内の被写体全体を包含する領域を検出する第1の検出工程と、
画像内の被写体の主要部を検出する第2の検出工程と、
画像中の被写体を表す領域を判定する第1のセグメンテーション工程と、
画像中の被写体を表す領域を判定する第2のセグメンテーション工程と、
前記第1の検出工程で検出した領域内に、前記第2の検出工程で検出した主要部が1つの場合は、前記領域に対して前記第1のセグメンテーション工程の判定による分割を利用し、
前記第1の検出工程で検出した領域内に、前記第2の検出工程で検出した主要部が2以上の場合は、前記領域に対して前記第2のセグメンテーション工程の判定による分割を利用するように決定する制御工程と
を有することを特徴とする画像処理装置の制御方法。 - コンピュータが読み込み実行することで、前記コンピュータに、請求項8又は9に記載の方法の各工程を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022016600A JP2023114304A (ja) | 2022-02-04 | 2022-02-04 | 情報処理装置及びその制御方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022016600A JP2023114304A (ja) | 2022-02-04 | 2022-02-04 | 情報処理装置及びその制御方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023114304A true JP2023114304A (ja) | 2023-08-17 |
Family
ID=87569079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022016600A Pending JP2023114304A (ja) | 2022-02-04 | 2022-02-04 | 情報処理装置及びその制御方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023114304A (ja) |
-
2022
- 2022-02-04 JP JP2022016600A patent/JP2023114304A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10997696B2 (en) | Image processing method, apparatus and device | |
EP3757890A1 (en) | Method and device for image processing, method and device for training object detection model | |
US10304164B2 (en) | Image processing apparatus, image processing method, and storage medium for performing lighting processing for image data | |
US20190130169A1 (en) | Image processing method and device, readable storage medium and electronic device | |
EP3480784B1 (en) | Image processing method, and device | |
JP4078334B2 (ja) | 画像処理装置および画像処理方法 | |
EP3709266A1 (en) | Human-tracking methods, apparatuses, systems, and storage media | |
JP5949331B2 (ja) | 画像生成装置、画像生成方法及びプログラム | |
JP5779089B2 (ja) | エッジ検出装置、エッジ検出プログラム、およびエッジ検出方法 | |
JP6157165B2 (ja) | 視線検出装置及び撮像装置 | |
US11710343B2 (en) | Image processing device, image processing method, and storage medium for correcting brightness | |
JP5504990B2 (ja) | 撮像装置、画像処理装置及びプログラム | |
JP2007312206A (ja) | 撮像装置及び、画像再生装置 | |
JP6098133B2 (ja) | 顔構成部抽出装置、顔構成部抽出方法及びプログラム | |
JP7312026B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP7292905B2 (ja) | 画像処理装置及び画像処理方法、及び撮像装置 | |
US8824734B2 (en) | Device, method and recording to determine depressed portions of image regions using shortcut line analysis | |
JP2014006604A (ja) | 画像生成装置、画像生成方法及びプログラム | |
JP2023114304A (ja) | 情報処理装置及びその制御方法及びプログラム | |
JP7326965B2 (ja) | 画像処理装置、画像処理プログラム、及び画像処理方法 | |
JP7110657B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
WO2021142711A1 (zh) | 图像处理方法、装置、存储介质及电子设备 | |
JP6070098B2 (ja) | 閾値設定装置、閾値設定方法及びプログラム | |
JP3927979B2 (ja) | 画像処理装置及び方法 | |
JP7400196B2 (ja) | 電子機器、画像処理方法、及び画像処理プログラム |