JP2013120498A

JP2013120498A - シルエット補正方法及びシルエット補正システム

Info

Publication number: JP2013120498A
Application number: JP2011268287A
Authority: JP
Inventors: Katsuhiko Ueda; 勝彦植田; Yoshiaki Shirai; 良明白井; Nobutaka Shimada; 伸敬島田
Original assignee: Sumitomo Rubber Industries Ltd; Dunlop Sports Co Ltd
Current assignee: Sumitomo Rubber Industries Ltd; Dunlop Sports Co Ltd
Priority date: 2011-12-07
Filing date: 2011-12-07
Publication date: 2013-06-17
Anticipated expiration: 2031-12-07
Also published as: JP5816069B2

Abstract

【課題】人物と背景とのラベル付けを補正して精度の良い人物のシルエットを得る。
【解決手段】人物又は背景にラベル付けされて人物のシルエットが抽出されたフレームについて、対象領域のピクセルのラベル付けを変更してシルエットを補正する方法である。対象領域に含まれるピクセルのうち、人物にラベル付けされたピクセルを用いて人物ヒストグラムを作成するステップと、背景にラベル付けされたピクセルを用いて背景ヒストグラムを作成するステップと、各ピクセルの人物の色情報に対する類似度及び背景の色情報に対する類似度をそれぞれ表す第１の接続コストを計算するステップと、対象領域の各ピクセルについて、隣接するピクセルとの差分値を用いて隣接ピクセル間の色情報の連続性を表す第２の接続コストを計算するステップと、第１及び第２の接続コストの和が最小となるカットに基づいて対象領域のピクセルのラベル付けをやり直す補正ステップとを含む。
【選択図】図１

Description

本発明は、人物と背景とが撮影されたフレームの各ピクセルを、人物又は背景のいずれかに正しくラベル付けして精度の良い人物のシルエットを抽出するのに役立つシルエット補正方法及びシルエット補正システムに関する。

ゴルフの技量向上のためには、適切なゴルフスイングの習得が重要である。このような目的のために、ゴルフスイングする人物の動画を撮影し、この動画から例えばアドレスやトップの状態のフレーム（静止画）を取り出し、各フレームを画像処理してゴルファのシルエットを抽出し、該シルエットに基づいてスイング診断する試みがなされている。この例のように、人物と背景とが撮影されたフレームから、人物のシルエットだけを抽出したい場合が多々ある。

人物と背景とが撮影されたフレームから人物のシルエットだけを抽出する場合、フレーム中の各ピクセルが、人物又は背景にラベル付けされる。そして、人物にラベル付けされたピクセルだけを表示することにより、前記シルエットを得ることができる。このような方法について、本件出願人は、すでに下記特許文献１を提案している。

特開２０１１−７８０６９号公報

上記特許文献の技術では、それなりの精度が確保されてはいるが、人物のシルエットにノイズが含まれているという問題がある。

本発明は、以上のような問題点に鑑み案出されたもので、ラベル付けされたピクセルを補正することにより、シルエット等に含まれるノイズを減らすことができるシルエット補正方法及びシルエット補正システムを提供することを主たる目的としている。

本発明のうち請求項１記載の発明は、人物と背景とが撮影されたフレームの各ピクセルが、人物又は背景のいずれかにラベル付けされて前記人物のシルエットが抽出されたフレームについて、前記フレームの少なくとも一部の対象領域のピクセルの前記ラベル付けを変更してシルエットを補正するシルエット補正方法であって、前記対象領域に含まれるピクセルのうち、人物にラベル付けされたピクセルを用いて、頻度をピクセル数としかつ階級をピクセルの色情報とした人物ヒストグラムを作成するステップと、前記対象領域に含まれるピクセルのうち、背景にラベル付けされたピクセルを用いて、頻度をピクセル数としかつ階級をピクセルの色情報とした背景ヒストグラムを作成するステップと、前記対象領域の各ピクセルの色情報と、前記人物ヒストグラム及び背景ヒストグラムとを用いて、各ピクセルの人物の色情報に対する類似度及び背景の色情報に対する類似度をそれぞれ表す第１の接続コストを計算するステップと、前記対象領域の各ピクセルについて、隣接するピクセルとの差分値を用いて隣接ピクセル間の色情報の連続性を表す第２の接続コストを計算するステップと、前記各ピクセルを節点としかつ前記第１の接続コスト及び第２の接続コストを枝として生成されたグラフを、第１の接続コスト及び第２の接続コストの和が最小となるように２分割するカットを計算し、該カットに基づいて前記対象領域のピクセルのラベル付けをやり直す補正ステップとを含むことを特徴とする。

また請求項２記載の発明は、前記第１の接続コストは、下式で計算されることを特徴とする。
Ｐｈ_{（I）（x,y）}＝ｎｈ_（I）（Ｃ_{（I）（x,y）}）×λ／ｔｈ
Ｐｂ_{（I）（x,y）}＝ｎｂ_（I）（Ｃ_{（I）（x,y）}）×λ／ｔｂ
ただし、符号は、次の通りである。
Ｐｈ_{（I）（x,y）}：座標x,yかつ色情報（I）を有するピクセルの人物の色情報に対する第１の接続コスト
ｎｈ_（I）（Ｃ_{（I）（x,y）}）：人物ヒストグラムにおいて対象ピクセルの色情報Ｃ_{（I）（x,y）}を有するピクセルの頻度
ｔｈ：対象領域内で人物にラベル付けされたピクセルの総数
Ｐｂ_{（I）（x,y）}：座標x,yかつ色情報（I）を有するピクセルの背景の色情報に対する第１の接続コスト
ｎｂ_（I）（Ｃ_{（I）（x,y）}）：背景ヒストグラムにおいて対象ピクセルの色情報Ｃ_{（I）（x,y）}を有するピクセルの頻度
ｔｂ：対象領域内で背景にラベル付けされたピクセルの総数
λ：定数

また請求項３記載の発明は、前記第２の接続コストは、下式で計算されることを特徴とする。
Ｐｄ＝ｋ×ε／Ｄｐ
Ｐｄ：対象のピクセルの第２の接続コスト
ｋ：定数
ε：定数であり、対象のピクセルが人物のシルエットの境界に位置するピクセルである場合は０よりも大かつ１よりも小の数、それ以外のピクセルである場合は１
Ｄｐ：対象のピクセルとその周囲のピクセルとの差分値

また請求項４記載の発明は、背景から人物にラベル付けが変更されたピクセルについては、前記ピクセルの頻度ｎｂ_（I）（Ｃ_{（I）（x,y）}）に１よりも大きい定数を乗じて背景の色情報に対する類似度を高めて、再度、第１及び第２の接続コストを計算して前記補正ステップを行うことを特徴とする。

また請求項５記載の発明は、前記補正ステップ前のシルエットと、前記補正ステップ後のシルエットとの論理積画像を表示するステップをさらに含むことを特徴とする。

また請求項６記載の発明は、人物と背景とが撮影されたフレームの各ピクセルが、人物又は背景のいずれかにラベル付けされて前記人物のシルエットが抽出されたフレームについて、前記フレームの少なくとも一部の対象領域のピクセルの前記ラベル付けを変更してシルエットを補正するシルエット補正システムであって、前記フレームのピクセル情報を記憶するメモリ、及び、演算部を具え、前記演算部は、前記対象領域に含まれるピクセルのうち、人物にラベル付けされたピクセルを用いて、頻度をピクセル数としかつ階級をピクセルの色情報とした人物ヒストグラムを作成する人物ヒストグラム作成部と、前記対象領域に含まれるピクセルのうち、背景にラベル付けされたピクセルを用いて、頻度をピクセル数としかつ階級をピクセルの色情報とした背景ヒストグラムを作成する背景ヒストグラム作成部と、前記対象領域の各ピクセルの色情報と、前記人物ヒストグラム及び背景ヒストグラムとを用いて、各ピクセルの人物の色情報に対する類似度及び背景の色情報に対する類似度をそれぞれ表す第１の接続コストを計算する第１の接続コスト計算部と、前記対象領域の各ピクセルについて、隣接するピクセルとの差分値を用いて隣接ピクセル間の色情報の連続性を表す第２の接続コストを計算する第２の接続コスト計算部と、前記各ピクセルを節点としかつ前記第１の接続コスト及び第２の接続コストを枝として生成されたグラフを、第１の接続コスト及び第２の接続コストの和が最小となるように２分割するカットを計算し、該カットに基づいて前記対象領域のピクセルのラベル付けをやり直す補正部とを含むことを特徴とする。

本発明では、人物と背景とが撮影されたフレームの各ピクセルが、人物又は背景のいずれかにラベル付けされて前記人物のシルエットが抽出された後、前記フレームの少なくとも一部の対象領域のピクセルの前記ラベル付けを変更してシルエットを補正する補正ステップが行われる。

前記補正ステップに先立ち、各ピクセルについて、２つの接続コストを計算するステップが行われる。前記２つの接続コストは、各ピクセルの人物の色情報に対する類似度及び背景の色情報に対する類似度をそれぞれ表す第１の接続コストと、隣接ピクセル間の色情報の連続性を表す第２の接続コストとを含んでいる。そして、補正ステップでは、各ピクセルを節点としかつ第１の接続コスト及び第２の接続コストを枝としてグラフを生成し、前記グラフを、２分割するカットが計算される。該カットは、前記グラフにおいて、第１の接続コスト及び第２の接続コストの和を最小とするものである。そして、該カットに基づいて前記対象領域のピクセルのラベル付けがやり直される。

以上の処理により、本発明では、人物の色情報に対する類似度が低く、かつ、隣接するピクセル間で連続性が低いピクセルが一方のカットへ、背景の色情報に対する類似度が低く、かつ、隣接するピクセル間で連続性が低いピクセルが他方のカットへと区分される。従って、本発明によれば、先に得られたラベル付けに含まれていたノイズを低減させ、シルエット抽出の正確性が高められる。

人物と背景とが撮影されたフレームの一例を示す。図１のフレームを前処理して得られた人物のシルエットの一例である。本実施形態のシルエット抽出システムの概念図である。演算部のブロック図である。本実施形態のシルエット抽出方法のフローチャートである。フレームの対象領域を説明する線図である。本実施形態の人物ヒストグラムである。本実施形態の背景ヒストグラムである。第１の接続コストを説明するヒストグラムである。フレーム内のピクセルの平面配列図である。第２の接続コストを説明するための３×３のピクセル配列図を用いたグラフである。グラフのカットを説明する線図である。最終処理のフローチャートである。実施例１の原画像である。図１４の人物のシルエットであり、（ａ）は前処理だけをしたもの、（ｂ）はその補正後のものである。実施例２の原画像である。図１６の人物のシルエットであり、（ａ）は前処理だけをしたもの、（ｂ）は補正後のものである。

以下、本発明の実施の一形態が図面に基づき説明される。
図１には、ゴルフクラブを持ってアドレスした状態にある人物ｈと、ゴルフ練習場の背景ｂとが一緒に撮影された二次元の画像のフレームＦ１が示されている。このフレームＦ１は、例えば、デジタルスチルカメラによる撮像、又は動画からのフレーム出力によって作成される。

前記フレームＦ１は、各々色情報を持ったピクセルの集合体である。このようなフレームＦ１に対して、例えば、前記特許文献１に記載されるシルエット抽出方法のような画像処理が施される（以下、このような画像処理を「前処理」ということがある。）。これにより、フレームＦ１の各ピクセルは、人物ｈ又は背景ｂのいずれかのラベルが付される。

図２には、人物ｈにラベル付けされたピクセルのみを黒で表示したフレームＦ２が示される。このように、人物ｈと背景ｂとが一緒に撮影されたフレームＦ１から、アドレス状態の人物ｈのシルエットＳを抽出することができる。この人物のシルエットＳは、例えばスイング診断などに用いられる。なお、前処理は、上記特許文献１の方法のみならず、種々の方法が採用され得る。

図２に例示されるように、前記シルエットＳには、背景ｂの一部がノイズＮとして含まれ得る。また、人物ｈとしてラベル付けされるべきピクセルが、背景ｂにラベル付けされる場合もあり、これもノイズである。本発明では、人物のシルエットＳが抽出されたフレームＦ２について、該フレームＦの少なくとも一部の対象領域のピクセルの前記ラベル付けを変更してシルエットを正しい形に補正するものである。

本発明を実施するシルエット補正システムは、図３に示されるように、本質的にはコンピュータ１で構成され、演算部２、メモリ３、及び記憶部４を含む。

前記メモリ３は、例えばＲＡＭ等が用いられる。前記記憶部には、磁気ディスク等の不揮発性の記憶媒体が用いられる。

前記演算部２は、各種の計算を行うもので、例えばＣＰＵが用いられる。また、図４に示されるように、演算部２は、人物ヒストグラム作成部２ａ、背景ヒストグラム作成部２ｂ、第１の接続コスト計算部２ｃ、第２の接続コスト計算部２ｄ、及び、補正部２ｅを含む。

図５には、本実施形態のシステム１によって行われるシルエット補正方法の処理手順が記載される。なお、先に説明されたように、前処理として、フレームの各ピクセルについて、人物又は背景の一回目のラベル付けが既に完了しているものとする。また、本実施形態では、スイング診断のために、より精度の高いゴルファのシルエットを得ることを目的としている。

本実施形態では、先ず、対象となるフレームＦ２に、補正を行う対象領域が設定される（ステップＳ１）。本実施形態では、図６に示されるように、３つの対象領域Ａ乃至Ｃが設定される。これらの３つの対象領域Ａ乃至Ｃは、概ね、ピクセルの輝度や色相といった色情報が類似しているものをまとめて一つの領域として決定されるのが望ましい。この設定は、ユーザによって適宜入力される。

本実施形態において、前記対象領域Ａは、フレームの上側の領域である。この領域Ａは、フレームのｙ座標値が一定値以下（この実施形態ではｙａ以下）のピクセルが対象となる。この対象領域Ａは、人物ｈの上半身と、背景ｂのうちの遠視野部分とを多く含む。

本実施形態において、前記対象領域Ｂは、対象領域Ａの下方の領域かつ対象領域Ｃを除く部分である。この領域は、背景Ｂの近視野部分をより多く含む領域である。

前記対象領域Ｃは、人物ｈの足元周辺を含む矩形の領域である。該領域は、ピクセルの座標を指定することにより設定される。

そして、上記各対象領域Ａ乃至Ｃについて、以降の処理がそれぞれ独立して行われる。なお、対象領域をどのように設定するかは、任意であり、上記の例以外にも、フレームに表れるシルエットＳに応じて種々設定されるのは言うまでもない。また、対象領域は、補正したい範囲として、フレームＦ２の全域であっても良いし、ノイズＮが多く含まれる特定の領域だけであっても良い。

次に、演算部２の人物ヒストグラム作成部２ａが、前記対象領域Ａ乃至Ｃそれぞれについて、人物ｈにラベル付けされたピクセルだけを用いて、人物ヒストグラムＮｈを作成する（ステップＳ２）。

図７には、人物ヒストグラムＮｈの一例が示される。この人物ヒストグラムＮｈは、頻度をピクセル数とし、かつ、階級をピクセルの色情報としたものである。ヒストグラムの色情報（Ｉ）には、輝度、ＨＳＶ又はＲＧＢなど、色を定量化しうる種々のパラメータが用いられる。なお、フレームＦ２のピクセルには、このような色情報が含まれていない。従って、人物ヒストグラムは、図１に示したように、シルエットＳが抽出された元のフレームＦ１の原画像のピクセルの色情報を用いて作成される。また、図７から明らかなように、人物ヒストグラムＮｈは、各対象領域Ａ乃至Ｃそれぞれについて作成される。即ち、図７の曲線Ａは対象領域Ａの人物ヒストグラム、曲線Ｂは対象領域Ｂの人物ヒストグラム、曲線Ｃは対象領域Ｃの人物ヒストグラムをそれぞれ示す。

次に、演算部２の背景ヒストグラム作成部２ｂが、前記対象領域Ａ乃至Ｃそれぞれについて、背景ｂにラベル付けされたピクセルだけを用いて、背景ヒストグラムＮｂを作成する（ステップＳ２）。

図８には、背景ヒストグラムＮｂの一例が示される。この背景ヒストグラムＮｂは、人物ヒストグラムＮｈ同様、頻度をピクセル数とし、かつ、階級をピクセルの色情報としたものである。また、背景ヒストグラムの色情報（Ｉ）には、輝度、ＨＳＶ又はＲＧＢ、など、種々のパラメータが用いられる。なお、フレームＦ２のピクセルには、このような色情報が含まれていない。従って、背景ヒストグラムＮｈも、シルエットＳが抽出された元のフレームＦ１の原画像のピクセルの色情報を用いて作成される。また、図８から明らかなように、背景ヒストグラムＮｈも、各対象領域Ａ乃至Ｃそれぞれについて作成される。即ち、図８の曲線Ａは対象領域Ａの背景ヒストグラム、曲線Ｂは対象領域Ｂの背景ヒストグラム、曲線Ｃは対象領域Ｃの背景ヒストグラムをそれぞれ示す。

なお、図７及び図８の人物ヒストグラムＮｈ及び背景ヒストグラムＮｂは、いずれも平滑化処理が施されているが、この処理は任意である。また、ヒストグラムの階級の色情報（I）としてＨＳＶ等の色情報（H,S,V）が採用された場合、ヒストグラムの曲線は、その構成要素であるＨ（色相）、Ｓ（彩度）、Ｖ（明度）のパラメータ毎に作成される。

次に、演算部２の第１の接続コスト計算部２ｃにより、対象領域の各ピクセルについて、第１の接続コストＰｈ及びＰｂが計算される（ステップＳ３）。

第１の接続コストＰｈ及びＰｂとは、対象領域の各ピクセルの色情報（Ｉ）と、人物ヒストグラムＮｈ及び背景ヒストグラムＮｂとを用い、各ピクセルの人物の色情報に対する類似度及び背景の色情報に対する類似度をそれぞれ表すパラメータである。つまり、一つのピクセルについて２つの第１の接続コストＰｈ及びＰｂが計算される。該第１の接続コストは、本実施形態では、下式を用いて計算される。

Ｐｈ_{（I）（x,y）}＝ｎｈ_（I）（Ｃ_{（I）（x,y）}）×λ／ｔｈ
Ｐｂ_{（I）（x,y）}＝ｎｂ_（I）（Ｃ_{（I）（x,y）}）×λ／ｔｂ
ただし、符号は、次の通りである。
Ｐｈ_{（I）（x,y）}：座標x,yかつ色情報（I）を有するピクセルの人物の色情報に対する第１の接続コスト
ｎｈ_（I）（Ｃ_{（I）（x,y）}）：人物ヒストグラムにおいて対象ピクセルの色情報Ｃ_{（I）（x,y）}を有するピクセルの頻度
ｔｈ：対象領域内で人物にラベル付けされたピクセルの総数
Ｐｂ_{（I）（x,y）}：座標x,yかつ色情報（I）を有するピクセルの背景の色情報に対する第１の接続コスト
ｎｂ_（I）（Ｃ_{（I）（x,y）}）：背景ヒストグラムにおいて対象ピクセルの色情報Ｃ_{（I）（x,y）}を有するピクセルの頻度
ｔｂ：対象領域内で背景にラベル付けされたピクセルの総数
λ：定数で本実施形態では１００００

図９には、このような第１の接続コストを解説するための人物又は背景ヒストグラムが示される。判定対象となっているピクセルの階級がａ、その頻度がｂの場合、そのピクセルの第１の接続コストは、人物の色情報に対するものではＰｈ＝ｂ・λ／ｔｈで、背景の色情報に対するものではＰｂ＝ｂ・λ／ｔｂでそれぞれ計算される。階級がｃの場合、頻度はｂ_maxとなり、第１の接続コストは最大値をとる。

第１の接続コストは、任意のピクセルについて、人物（又は背景）の色情報との類似度を表す。つまり、第１の接続コストが大きいほど、そのピクセルの色情報が、人物（又は背景）のヒストグラムにおいて最頻度の色に近くなる。逆に言えば、第１の接続コストが小さいピクセルほど、人物（又は背景）のヒストグラムにおいて最頻度の色から遠ざかり、人物又は背景）、ノイズの可能性が高まる。なお、計算された第１の接続コストの各値は、例えば、メモリ３又は記憶部４に記憶される。

次に、演算部２の第２の接続コスト計算部２ｄにより、対象領域の各ピクセルについて、第２の接続コストＰｄが計算される（ステップＳ４乃至Ｓ７）。

第２の接続コストＰｄは、対象領域の各ピクセルについて、隣接するピクセルとの差分値を用いて隣接ピクセル間の色情報の連続性を表すパラメータである。本実施形態では、対象ピクセルの第２の接続コストＰｄは、下式で計算される（ステップＳ６、Ｓ７）。
Ｐｄ＝ｋ×ε／Ｄｐ …（３）
Ｄｐ：対象のピクセルと隣接するピクセルとの色の差分値（≠０）
ｋ：定数で本実施形態では１００００
ε：定数であり、対象のピクセルが人物のシルエットの境界に位置するピクセルである場合は０よりも大かつ１よりも小の数で本実施形態では０．５、それ以外のピクセルである場合は１とする

前記隣接するピクセルとの色の差分値Ｄｐは、隣接するピクセル間の色距離で計算される。図１０に示されるように、対象ピクセルがＣ０の場合、該対象ピクセルＣ０と上、右、下及び左で隣接する４つのピクセルＣ１乃至Ｃ４についての差分値Ｄｐ１乃至Ｄｐ４の４つが計算される。
Ｄｐ１（Ｃ０、Ｃ１）
Ｄｐ２（Ｃ０、Ｃ２）
Ｄｐ３（Ｃ０、Ｃ３）
Ｄｐ４（Ｃ０、Ｃ４）

例えば、ピクセルの色情報（Ｉ）がＨＳＶである場合、一方のピクセルの色相Ｈ₁、彩度Ｓ₁、明度Ｖ₁の色ベクトルをＣ₁とし、他方のピクセルの色相Ｈ₂、彩度Ｓ₂、明度Ｖ₂の色ベクトルをＣ₂とすると、それらの色距離Ｄ（Ｃ₁，Ｃ₂）は、下式で計算される。
Ｄ（Ｃ₁，Ｃ₂）＝ａΔＨ’＋ｂΔＳ’＋ｃΔＶ’

上記式において、符号は次の通りである。
ａ，ｂ，ｃ：定数で、本実施形態ではａ＝５．１、ｂ＝２．２５及びｃ＝２．６５
ΔＨ’＝ΔＨ／４．０
ΔＳ’＝ΔＳ／２．０
ΔＶ’＝ΔＶ／２．０
ΔＨ＝√｛（Ｘ₁−Ｘ₂）²＋（Ｙ₁−Ｙ₂）²｝
ΔＳ＝｜Ｓ₁／１００−Ｓ₂／１００｜
ΔＶ＝｜Ｖ₁／１００−Ｖ₂／１００｜
Ｘ₁＝Ｓ'_avgｃｏｓ（Ｈ₁×３．６）
Ｙ₁＝Ｓ'_avgｓｉｎ（Ｈ₁×３．６）
Ｘ₂＝Ｓ'_avgｃｏｓ（Ｈ₂×３．６）
Ｙ₂＝Ｓ'_avgｓｉｎ（Ｈ₂×３．６）
Ｓ'_avg＝（Ｓ₁'＋Ｓ₂'）／２
Ｓ₁'＝log₁₀（Ｓ₁／１００×９９＋１．０）
Ｓ₂'＝log₁₀（Ｓ₂／１００×９９＋１．０）

また、本発明では、背景と人物との境界を計算するステップ（カットを計算するステップ）を含んでいる（後述）。このため、第２の接続コストは、色の連続性が低いほど、その値が小さくなるように調整されることが計算上望ましい。本実施形態においては、このような観点より、第２の接続コストの計算には、前記色距離が逆数として用いられる。これにより、隣接するピクセルとの色距離が大きいピクセル、換言すれば、人物と背景との境目にあると考えられるピクセルほど、第２の接続コストが小さくなるように見積もられる。

なお、前処理において、人物にラベル付けされたピクセルの中でも背景と隣設している「境目」のピクセルの周辺のピクセルに対する色距離は、境目以外のピクセルのそれよりも大きくなり、ひいては第２の接続コストが小さくなる可能性が高い。本実施形態では、このような境目のピクセルについては、人物と背景との可能性が高いと考えられるので、１未満の定数εを掛けてさらに第２の接続コストを小さく見積もっている（ステップＳ６）。

次に、演算部２の補正部２ｅは、第１の接続コストＰｈ、Ｐｂ及び第２の接続コストＰｄを用いてグラフを生成する（ステップＳ８）。

図１１には、全体の一部である３×３のピクセルについての生成されたグラフの一例が示されている。図１２は、そのフロー図（ネットワーク図）である。図１１において、各ピクセルは四角のセルで示され、グラフにおいて節点を構成する。

また、節点である各ピクセルは、人物ヒストグラムを用いて計算された人物の色情報に対する第１の接続コストＰｈ（破線）、背景ヒストグラムを用いて計算された背景の色情報に対する第１の接続コストＰｂ（ジグザグ線）、及び、隣接するピクセルとの連続性を示す第２の接続コストＰｄ（二重線）で接続される。これらの接続コストＰｈ、Ｐｂ及びＰｄは、グラフ上において、各節点を接続する枝に相当する。つまり、グラフは、各ピクセルを節点としかつ第１の接続コストＰｈ、Ｐｂ及び第２の接続コストＰｄを枝として生成される。

また、補正部２ｅは、前記グラフに対して、第１の接続コストＰｈ、Ｐｂ及び第２の接続コストＰｄの和が最小となるカットを計算し、該最小カットに基づいて前記対象領域のピクセルのラベル付けを行う（ステップＳ８）。

上記グラフ（全節点集合）を、ソースｔを含む節点集合（例えば、人物としてラベル付けされるピクセル群）と、シンクｓを含む節点集合（例えば、背景としてラベル付けされるピクセル群）の２つに分割したものがカット（Ｓ，Ｔ）である。ソースｔの点からシンクｓの点に流れるフローの合計を、そのカットの容量といい、存在しうるカットの中で容量が最小のものは、その容量と最大フローが一致する。これがフローネットワークにおける最適化問題での最大フロー最小カット理論である。

本実施形態では、下式のようなエネルギ関数Ｅ（Ｌ）を定義し、このエネルギ関数が最小となるフローが求められる。
Ｅ（Ｌ）＝ΣＰｈ_i＋ΣＰｂ_j＋ΣＰｄ_（m,n）
ただし、符号は次の通りである。
Ｐｈ_i：節点ｉでの人物の色情報に対する第１の接続コスト
Ｐｂ_j：節点ｊでの背景の色情報に対する第１の接続コスト
ｉ，ｊ∈Ｐであり、ｉ≠ｊ
Ｐ：全節点集合
Ｐｄ_（m,n）：：節点ｍとｎの対象ピクセルの第２の接続コスト
ｍ，ｎ∈Ｐであり、ｍ≠ｎ
（Ｐｄは全ての組合せでカットされるとは限らない）

図１２には、上記エネルギ関数を説明するためのグラフをさらに簡略化したフロー図が示されている。ソースｓの節点からシンクｔの節点までのフローにおいて、例えば、実線で表されるカット１では枝Ｖ_i（Ｌ_i＝０）を３つ、枝Ｖ_i（Ｌ_i＝１）を４つ、及び、枝Ｖ₂（Ｌ_i,Ｌ_j）を３つ通る。他方、二点鎖線で表されるカット２では、枝Ｖi（Ｌi＝０）を６つ、枝Ｖ_i（Ｌ_i＝１）を１つ、及び、枝Ｖ_i（Ｌ_i,Ｌ_j）を１つ通る。

各枝には、それぞれ接続コストが割り当てられている。この例では、枝Ｖ_i（Ｌ_i＝１）には人物の第１の接続コストＰｈが、枝Ｖ_i（Ｌ_i＝０）には背景の第１の接続コストＰｂが、枝Ｖ_i（Ｌ_i,Ｌ_j）には第２の接続コストＰｄがそれぞれ割り当てられており、その値も枝毎に異なっている。従って、カット１及びカット２のエネルギ関数の値は、各枝Ｖ_i（Ｌ_i＝０）、Ｖ_i（Ｌ_i＝１）及びＶ_i（Ｌ_i,Ｌ_j）が持っている接続コストの値によって異なったものになる。本発明では、このエネルギ関数の値が最小となるカットが、例えば最大フロー最小カットアルゴリズムを用いて計算される。

前記グラフから、前記エネルギ関数が最小となるカットを求めることにより、対象領域について、人物にラベル付けされるピクセルと、背景にラベル付けされるピクセルとの境界を生成することができる。即ち、ステップＳ８により、人物の色情報に対する類似度が低く、かつ、隣接するピクセル間で連続性が低いピクセルが例えばソースｔのカットへ、背景の色情報に対する類似度が低く、かつ、隣接するピクセル間で連続性が低いピクセルが例えばシンクｓのカットへと区分される。

次に、補正部２ｅは、前記カットに基づいて、各ピクセルのラベル付けをやり直す。具体的には、前記カットによって、ソースｔ（人物）に含まれるピクセルを人物にラベル付けする（ステップＳ１０）。他方、シンクｓ（背景）に含まれるピクセルを背景にラベル付けする（ステップＳ１１）。これにより、対象領域のピクセルのラベル付けがやり直されるシルエットが補正される。

次に、補正部２ｅは、最終処理を行う（ステップＳ１１）。最終処理の手順は、図１３に示される。本実施形態の最終処理は、各ピクセルについて、補正ステップ前のラベルと、補正ステップ後のラベルとが比較される（ステップＳ１１１乃至Ｓ１１４）。補正ステップの前後において、各ピクセルのラベル付けに関して、次のパターンがある。
ケース１補正前：人物 → 補正後：人物
ケース２補正前：背景 → 補正後：背景
ケース３補正前：人物 → 補正後：背景
ケース４補正前：背景 → 補正後：人物

補正部２ｅは、上記ケース１及び２の場合（ステップＳ１１１、Ｓ１１２）、ピクセルのラベル付けの変更は行わない（ステップＳ１１５及び１１６）。

また、補正部２ｅは、上記ケース３の場合（ステップＳ１１３）、ピクセルのラベルを、人物から背景に変更する（ステップＳ１１７）。

さらに、補正部２ｅは、上記ケース４の場合、ピクセルのラベルを、人物には変更せず、背景のままとする（ステップＳ１１８）。

本発明のシルエット補正方法に先立って行われる前処理は、上記特許文献１にも記載されているように、例えば、人体を確実に含んだ広い範囲にマスク処理を施し、その外側の領域の明らかに背景と考えられるピクセルに基づいて「背景」のラベル付けが行われる。そして、この背景と同じような情報を持ったピクセルを検索して、マスク内にラベル付けが行われている。従って、前処理では、背景のラベル付けは、人物のラベル付けよりも正確である可能性が高い。そこで、本実施形態では、この前処理の信頼性を優先し、前処理で背景にラベル付けされていたピクセルが、補正ステップによって人物にラベル付けされた場合でも、先の前処理の結果を優先し、ラベル付けの変更は行わないものとしている。

次に、補正部２ｅは、全てのピクセルについての処理が終えたか否かを判断し（ステップＳ１１９）、終えていない場合には、全てが処理されるまでステップＳ１１１乃至１１８を繰り返す。

ステップＳ１１９で全てのピクセルが処理されたと判定された場合、補正部２ｅは、補正前の人物のシルエットと、補正後の人物のシルエットとの論理積画像を表示することが望ましい（ステップＳ１２０）。これによって、双方の判断結果を考慮して、より精度の高いシルエット抽出が可能になる。

本発明は、上記実施形態以外にも、種々の実施形態で実施されうる。例えば、ラベル付けが変更されたピクセルの中に、前処理で背景にラベル付けされていたピクセルが、補正ステップによって人物にラベル付けされたピクセルが含まれている場合、再度、補正ステップを実行させ、その結果を最終のラベル付けとすることもできる。この場合、補正部２ｅは、新たに人物にラベルが変更されたピクセルについてのみ、背景の色情報に対する第１の接続コストＰｂの計算に際して、ピクセルの頻度ｎｂ_（I）（Ｃ_{（I）（x,y）}）に１よりも大きい定数（この実施形態では２）を乗じて背景の色情報に対する類似度を高めて、第１及び第２の接続コストを計算し直して前記補正ステップを行うことが望ましい。これは、先の前処理の信頼性を尊重すべく、背景の色情報に対する類似度を高めるためである。

以上、本発明について種々説明したが、本発明のシルエット補正方法及びシステムは、上記実施形態に限定されることなく、種々の態様に変更して実施することができるのは言うまでもない。

［実施例１：図１４〜図１５］
図１４は、背景とスイングのインパクト状態にある人物とを含む画像フレーム（６４０×３２０）の原画像である。図１５（ａ）は、先の特許文献１に記載された前処理で人物のシルエット抽出したものである。図１５（ａ）のシルエットでは、背中や腰付近に、背景の一部がノイズＮとなって人物にラベル付けされているのが分かる。図１５（ｂ）には、本発明に従うシルエット補正処理を施したものである。この実施例１では、上記ノイズが綺麗に取り除かれているのが分かる。

［実施例２：図１６〜図１７］
図１６は、背景とスイングのテークバック状態の人物とを含む画像フレーム（６４０×３２０）の原画像である。図１７（ａ）は、上記同様、先の特許文献１に記載された前処理で人物のシルエット抽出したものである。図１７（ａ）のシルエットでは、背中及び腹付近に、背景の一部がノイズＮとなって人物にラベル付けされているのが分かる。図１７（ｂ）には、本発明に従うシルエット補正処理を施したものである。この実施例２では、上記ノイズが綺麗に取り除かれているのが分かる。

１シルエット抽出システム
２携帯電話機
３サーバー
４カメラ
５、８メモリ
７演算部

Claims

人物と背景とが撮影されたフレームの各ピクセルが、人物又は背景のいずれかにラベル付けされて前記人物のシルエットが抽出されたフレームについて、前記フレームの少なくとも一部の対象領域のピクセルの前記ラベル付けを変更してシルエットを補正するシルエット補正方法であって、
前記対象領域に含まれるピクセルのうち、人物にラベル付けされたピクセルを用いて、頻度をピクセル数としかつ階級をピクセルの色情報とした人物ヒストグラムを作成するステップと、
前記対象領域に含まれるピクセルのうち、背景にラベル付けされたピクセルを用いて、頻度をピクセル数としかつ階級をピクセルの色情報とした背景ヒストグラムを作成するステップと、
前記対象領域の各ピクセルの色情報と、前記人物ヒストグラム及び背景ヒストグラムとを用いて、各ピクセルの人物の色情報に対する類似度及び背景の色情報に対する類似度をそれぞれ表す第１の接続コストを計算するステップと、
前記対象領域の各ピクセルについて、隣接するピクセルとの差分値を用いて隣接ピクセル間の色情報の連続性を表す第２の接続コストを計算するステップと、
前記各ピクセルを節点としかつ前記第１の接続コスト及び第２の接続コストを枝として生成されたグラフを、第１の接続コスト及び第２の接続コストの和が最小となるように２分割するカットを計算し、該カットに基づいて前記対象領域のピクセルのラベル付けをやり直す補正ステップとを含むことを特徴とするシルエット補正方法。
前記第１の接続コストは、下式で計算される請求項１記載のシルエット補正方法。
Ｐｈ_{（I）（x,y）}＝ｎｈ_（I）（Ｃ_{（I）（x,y）}）×λ／ｔｈ
Ｐｂ_{（I）（x,y）}＝ｎｂ_（I）（Ｃ_{（I）（x,y）}）×λ／ｔｂ
ただし、符号は、次の通りである。
Ｐｈ_{（I）（x,y）}：座標x,yかつ色情報（I）を有するピクセルの人物の色情報に対する第１の接続コスト
ｎｈ_（I）（Ｃ_{（I）（x,y）}）：人物ヒストグラムにおいて対象ピクセルの色情報Ｃ_{（I）（x,y）}を有するピクセルの頻度
ｔｈ：対象領域内で人物にラベル付けされたピクセルの総数
Ｐｂ_{（I）（x,y）}：座標x,yかつ色情報（I）を有するピクセルの背景の色情報に対する第１の接続コスト
ｎｂ_（I）（Ｃ_{（I）（x,y）}）：背景ヒストグラムにおいて対象ピクセルの色情報Ｃ_{（I）（x,y）}を有するピクセルの頻度
ｔｂ：対象領域内で背景にラベル付けされたピクセルの総数
λ：定数
前記第２の接続コストは、下式で計算される請求項１又は２記載のシルエット補正方法。
Ｐｄ＝ｋ×ε／Ｄｐ
Ｐｄ：対象のピクセルの第２の接続コスト
ｋ：定数
ε：定数であり、対象のピクセルが人物のシルエットの境界に位置するピクセルである場合は０よりも大かつ１よりも小の数、それ以外のピクセルである場合は１
Ｄｐ：対象のピクセルとその周囲のピクセルとの差分値
背景から人物にラベル付けが変更されたピクセルについては、前記ピクセルの頻度ｎｂ_（I）（Ｃ_{（I）（x,y）}）に１よりも大きい定数を乗じて背景の色情報に対する類似度を高めて、再度、第１及び第２の接続コストを計算して前記補正ステップを行うことを特徴とする請求項２に記載のシルエット補正方法。
前記補正ステップ前のシルエットと、前記補正ステップ後のシルエットとの論理積画像を表示するステップをさらに含む請求項１乃至４のいずれかに記載のシルエット補正方法。
人物と背景とが撮影されたフレームの各ピクセルが、人物又は背景のいずれかにラベル付けされて前記人物のシルエットが抽出されたフレームについて、前記フレームの少なくとも一部の対象領域のピクセルの前記ラベル付けを変更してシルエットを補正するシルエット補正システムであって、
前記フレームのピクセル情報を記憶するメモリ、及び、演算部を具え、
前記演算部は、前記対象領域に含まれるピクセルのうち、人物にラベル付けされたピクセルを用いて、頻度をピクセル数としかつ階級をピクセルの色情報とした人物ヒストグラムを作成する人物ヒストグラム作成部と、
前記対象領域に含まれるピクセルのうち、背景にラベル付けされたピクセルを用いて、頻度をピクセル数としかつ階級をピクセルの色情報とした背景ヒストグラムを作成する背景ヒストグラム作成部と、
前記対象領域の各ピクセルの色情報と、前記人物ヒストグラム及び背景ヒストグラムとを用いて、各ピクセルの人物の色情報に対する類似度及び背景の色情報に対する類似度をそれぞれ表す第１の接続コストを計算する第１の接続コスト計算部と、
前記対象領域の各ピクセルについて、隣接するピクセルとの差分値を用いて隣接ピクセル間の色情報の連続性を表す第２の接続コストを計算する第２の接続コスト計算部と、
前記各ピクセルを節点としかつ前記第１の接続コスト及び第２の接続コストを枝として生成されたグラフを、第１の接続コスト及び第２の接続コストの和が最小となるように２分割するカットを計算し、該カットに基づいて前記対象領域のピクセルのラベル付けをやり直す補正部とを含むことを特徴とするシルエット補正システム。