JP2010511241A5

JP2010511241A5 -

Info

Publication number: JP2010511241A5
Application number: JP2009538761A
Authority: JP
Filing date: 2006-12-01
Publication date: 2010-10-28
Anticipated expiration: 2026-12-01

Description

画像処理方法及び画像処理装置

本発明は、複数枚の画像から背景画像と少なくとも２つ以上の被写体画像と各被写体画像の形状と各被写体画像の動きとを同時に抽出する画像処理方法及び画像処理装置に関する。

複数枚の画像から背景画像と前景である被写体画像とを抽出する技術の１つとして、３次元情報を利用した方法がある。ステレオカメラやレンジファインダ等を用いて、画像シーンの３次元情報を取得し、これをもとに背景画像と被写体画像を分離することができる。しかしながら、このような技術は３次元情報を計測するための装置が必要となる。

一方で、３次元情報を用いずに背景画像と前景である被写体画像とを抽出する技術も提案されている。例えば、非特許文献１では、画素の時間的変動を確率的にモデル化することによって、画素の時間変動に柔軟に対応可能な背景差分を行うことができる。これによって、背景画像と被写体画像とを安定に分離することが可能である。

また、非特許文献２と３では、複数枚の画像から隠れパラメータとして定義された背景画像と１つの被写体画像と１つの被写体画像の形状と被写体画像の動きとを同時に抽出する技術が提案されている。この技術は、画像を入力として、隠れパラメータとして定義された複数のパラメータを同時最適化により抽出するものである。そのため、ノイズや被写体の変形が起きた場合にも複数の隠れパラメータが相補的に作用するため、ロバストな抽出が可能である。また、背景差分処理における閾値設定やエネルギー関数の重み付けなどのパラメータチューニングを必要としない点が利点である。

Chris Stauffer and Eric Grimson, "Adaptive Background Mixture Models for Real-time Tracking", IEEE ComputerSociety Conference ComputerVision and Pattern Recognition, pp.246-252, 1999 John Winn and Andrew Blake, "Generative Affine Localisationand Tracking", Neural Information Processing Systems, No.17, pp.1505-1512,2004 John Winn and Christopher Bishop, "Variational Message Passing", Journal of Machine Learning Research, Vol. 6, pp. 661-694, 2005

しかしながら、上記非特許文献１〜３の技術では、複数の被写体とそれぞれの被写体の動きを同時に安定に抽出することができないという問題がある。

非特許文献１に代表される画像処理手法は、背景画像とそれ以外の被写体とを分離する技術であるために、画像中に複数の被写体が存在する時に、それぞれの被写体を別々の被写体として抽出することはできない。そうするためには、別途、被写体の色や動き等の情報を用いたセグメンテーション技術を必要とする。

また、非特許文献２および３に代表される画像処理手法では、画像情報のみから複数の隠れパラメータを同時に抽出することができる。しかしながら、画像中に含まれる被写体数が増加すると、解くべき隠れパラメータ数も増加する。さらに隠れパラメータ数が増加する状況は他にもある。例えば、カメラ動き、動きの複雑さに対応するための動きパラメータ、画質を上げるために画質劣化を仮定する画像劣化パラメータ等も隠れパラメータ数が増加する要因となる。これらは、解空間がさらに広くなることを意味する。その結果、局所解に陥り所望の解を得られない危険性が高くなる。例えば、この技術を用いて２つ以上の被写体画像の抽出を行うと、しばしば局所解として複数の物体が１つの物体として抽出される。そのため、局所解の回避が必要となる。そのためには、隠れパラメータで構成される広大な解空間に対し拘束を与えることが一つの重要な手段となる。しかし、拘束条件として、画像シーンに対する知識をあらかじめ与えることは、局所解を回避する有効な手段ではあるが、適用できる画像シーンを限定する欠点がある。そのため、事前知識を用いる教師あり学習を行うことは好ましくない。

そこで、本発明は、局所解に陥ることなく、つまり、安定して、複数枚の画像から背景画像と少なくとも２つ以上の被写体画像と各被写体画像の形状と各被写体画像の動きとを同時にして抽出することができる画像処理方法及び画像処理装置を提供することを目的とする。

この課題を解決するために本発明は、複数枚の画像から隠れパラメータとして定義された背景画像と少なくとも２つ以上の被写体画像と前記各被写体画像の形状と前記各被写体画像の動きとを同時に抽出する画像処理方法であって、時系列に並んだ複数枚の画像の入力を受け付ける画像入力ステップと、繰り返し学習法を用いて、前記複数枚の画像と前記隠れパラメータの少なくとも１つの条件を示す拘束条件パラメータとから隠れパラメータを推定する隠れパラメータ推定ステップと、前記隠れパラメータ推定ステップでの推定結果を教師信号として、前記隠れパラメータに関する前記拘束条件パラメータの学習を行う拘束条件パラメータ学習ステップと、前記拘束条件パラメータ学習ステップによる前記拘束条件パラメータの学習結果を用いた前記隠れパラメータ推定ステップによる前記隠れパラメータの推定と、前記隠れパラメータ推定ステップによる前記隠れパラメータの推定結果を用いた前記拘束条件パラメータ学習ステップによる前記拘束条件パラメータの学習とを繰り返す制御をする相補学習ステップと、前記相補学習ステップによる学習の繰り返し後において前記隠れパラメータ推定ステップで推定された隠れパラメータを出力する出力ステップと、前記出力ステップで出力された隠れパラメータである背景画像と被写体画像と前記被写体画像の形状と前記被写体の動きとを受け取り、受け取った前記背景画像と前記被写体画像と前記被写体画像の形状と前記被写体の動きから、入力画像間の中間時間における前記被写体画像を生成し、中間時間における被写体画像をその時間における背景画像に上書きすることによって中間時間画像を生成する中間時間画像生成ステップとを含むことを特徴とする。

なお、本発明は、上記画像処理方法として実現できるだけでなく、上記各ステップを構成要素とする画像処理装置、上記各ステップをコンピュータに実行させるプログラム、そのプログラムを格納したＣＤ−ＲＯＭ等のコンピュータ読み取り可能な記録媒体等として実現することもできる。

上記の方法及び装置等により、局所解を回避しながら、つまり、安定して、複数枚の画像から背景画像と少なくとも２つ以上の被写体画像と各被写体画像の形状と各被写体画像の動きとを同時に抽出することが可能である。さらに、局所解を回避できるためカメラ動き等、他の隠れパラメータを追加的に導入する事も可能である。

本発明の実施の形態１における画像処理装置の基本構成を示す図本発明の実施の形態１における画像処理装置の基本動作を示すフローチャート本発明の実施の形態１における隠れパラメータ推定部の処理例を示す図本発明の実施の形態１における隠れパラメータ推定部の処理例を示す図本発明の実施の形態１における相補学習部の処理例を示す図本発明の実施の形態１における隠れパラメータの推定結果を示す図本発明の実施の形態１の第１変形例における画像処理装置の構成例を示す図本発明の実施の形態１の第１変形例における画像処理装置の動作を示すフローチャート本発明の実施の形態１の第２変形例における画像処理装置の構成を示す図本発明の実施の形態１の第２変形例における画像処理装置の動作を示すフローチャート本発明の実施の形態１の第３変形例における画像処理装置の構成例を示す図本発明の実施の形態１の第３変形例における合成画像の生成例を示す図本発明の実施の形態２における画像処理装置の構成を示す図本発明の実施の形態２における画像処理装置の動作を示すフローチャート本発明の実施の形態２における中間時間画像生成部の構成を示す図本発明の実施の形態２における中間時間画像生成例を示す図本発明の実施の形態３における画像処理装置の構成を示す図本発明の実施の形態３における画像処理装置の動作を示すフローチャート本発明の実施の形態３における不要被写体消去の例を示す図本発明の実施の形態４における画像処理装置の構成を示す図本発明の実施の形態４における画像処理装置の動作を示すフローチャート本発明の実施の形態５における隠れパラメータ推定部の処理例を示す図本発明の実施の形態６における相補学習部の処理例を示す図

本発明の一実施形態は、複数枚の画像から隠れパラメータとして定義された背景画像と少なくとも２つ以上の被写体画像と前記各被写体画像の形状と前記各被写体画像の動きとを同時に抽出する画像処理方法であって、複数枚の画像の入力を受け付ける画像入力ステップと、繰り返し学習法を用いて、前記複数枚の画像と前記隠れパラメータの少なくとも１つの条件を示す拘束条件パラメータとから隠れパラメータを推定する隠れパラメータ推定ステップと、前記隠れパラメータ推定ステップでの推定結果を教師信号として、前記隠れパラメータに関する前記拘束条件パラメータの学習を行う拘束条件パラメータ学習ステップと、前記拘束条件パラメータ学習ステップによる前記拘束条件パラメータの学習結果を用いた前記隠れパラメータ推定ステップによる前記隠れパラメータの推定と、前記隠れパラメータ推定ステップによる前記隠れパラメータの推定結果を用いた前記拘束条件パラメータ学習ステップによる前記拘束条件パラメータの学習とを繰り返す制御をする相補学習ステップと、前記相補学習ステップによる学習の繰り返し後において前記隠れパラメータ推定ステップで推定された隠れパラメータを出力する出力ステップとを含む画像処理方法としたものであり、隠れパラメータの少なくとも１つの条件を示す拘束条件パラメータを用いて隠れパラメータを推定するので、局所解を回避しながら、複数枚の画像から背景画像と少なくとも２つ以上の被写体画像と各被写体画像の形状と各被写体画像の動きとを同時に抽出することが可能である。

本発明のより好ましい形態は、前記拘束条件パラメータは、各被写体画像領域の大きさ、各被写体画像の色、各被写体画像に含まれる画素の動きのうち、少なくともいずれか１つの条件に関するパラメータであることを特徴とする画像処理方法としたものであり、各被写体画像領域の大きさ、各被写体画像の色、各被写体画像に含まれる画素の動きに関する情報が隠れパラメータ推定に対して良い制約条件となり局所解回避に有効に作用する。

本発明のより好ましい形態は、前記拘束条件パラメータ学習ステップでは、画像からペアとなる近傍画素を選択し、それぞれの画素が背景画像領域もしくは各被写体画像領域のいずれに属するかを判定し、それぞれの画素が異なる領域に属する場合と同じ領域に属する場合に、それぞれ異なる拘束を隠れパラメータに与えることを特徴とする画像処理方法としたものであり、画素が異なる領域に属する場合と同じ領域に属する場合で異なる拘束が隠れパラメータに与えられるので、複数の被写体をより効率よく分離して抽出することが可能になる。

本発明のより好ましい形態は、前記拘束条件パラメータ学習ステップでは、隠れパラメータ推定ステップの推定結果を教師信号として、エネルギー極小化法を用いて拘束条件パラメータを学習することを特徴とする画像処理方法としたものであり、隠れパラメータ推定ステップの推定結果を教師信号とすることで、拘束条件パラメータを自動的かつ隠れパラメータと同時に抽出することが可能である。

本発明のより好ましい形態は、前記隠れパラメータは確率分布で表現されることを特徴とする画像処理方法としたものであり、それぞれの隠れパラメータが確率分布で表現されることによって、被写体の変形や被写体の複雑な動きへの許容度が大きくなる。

本発明のより好ましい形態は、前記出力ステップで出力された隠れパラメータである背景画像と各被写体画像とを受け取り、受け取った前記背景画像に対して前記各被写体画像を上書きすることによって新たに画像を生成する合成画像生成ステップと、前記合成画像生成ステップで生成された画像と前記入力画像との誤差を算出する誤差算出ステップと、前記誤差算出ステップで算出された誤差が規定値以上の場合に入力画像枚数を増やして前記隠れパラメータ推定ステップと前記拘束条件パラメータ学習ステップとの繰り返しによる再度の処理を行うかもしくはユーザに対して入力画像枚数が不足していることを提示する画像枚数判定ステップとをさらに含む画像処理方法としたものであり、隠れパラメータの適切な抽出に必要な入力画像枚数を決定することができる。

本発明のより好ましい形態は、前記出力ステップは、前記隠れパラメータである背景画像と各被写体画像を、それぞれ別々に保存もしくは出力する画像データ分割ステップをさらに含むことを特徴とする画像処理方法としたものであり、抽出した背景画像と各被写体画像をそれぞれ別々に保持することによって、前記背景画像と各被写体画像の中から必要な画像のみを選択して保存したり、外部に出力することによって、図形要素として効率的な保存および出力が可能になる。

本発明の一実施形態は、前記画像入力ステップでは、時系列に並んだ複数枚の画像の入力を受け付け、前記出力ステップで出力された隠れパラメータである背景画像と被写体画像と前記被写体画像の形状と前記被写体の動きとを受け取り、受け取った前記背景画像と前記被写体画像と前記被写体画像の形状と前記被写体の動きから、入力画像間の中間時間における前記被写体画像を生成し、中間時間における被写体画像をその時間における背景画像に上書きすることによって中間時間画像を生成する中間時間画像生成ステップをさらに含む画像処理方法としたものであり、抽出した背景画像と被写体画像と被写体画像の形状と被写体の動きから中間時間画像を生成することが可能である。これによって、入力画像シーケンスよりもさらに時間解像度を高めた画像を生成することが可能である。

本発明のより好ましい形態は、前記隠れパラメータ推定ステップでは、さらに、前記隠れパラメータの１つとして、画像の劣化過程を表現する点拡がり関数（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）のパラメータを保持し、その逆関数を推定することによって入力画像よりも高画質化された前記背景画像と前記被写体画像を生成することを特徴とする画像処理方法としたものであり、背景画像と被写体画像を入力画像よりも高画質にて抽出することが可能である。

本発明のより好ましい形態は、前記出力ステップで出力された隠れパラメータである背景画像と各被写体画像とを受け取り、受け取った前記背景画像と前記各被写体画像の画素値の信頼性が小さい場合に、その画素値を近傍領域の画素値を用いて補間する画素値補間ステップをさらに含むことを特徴とする画像処理方法としたものであり、抽出すべき背景画像と各被写体画像の画素値が不定である場合に、近傍の画素値を用いて補間することで、よりノイズの少ない背景画像と各被写体画像を抽出することが可能である。

本発明の一実施形態は、前記出力ステップで出力された隠れパラメータである前記被写体画像もしくは前記被写体画像の形状をモニタ等に表示し、表示された前記被写体のうち少なくとも１つをユーザが選択することができるようにした被写体表示ステップと、背景画像にユーザが選択した前記被写体画像もしくは前記被写体画像の形状に該当しない被写体画像を上書きすることによって、ユーザが選択した被写体を消去し、消去した被写体領域を背景画像で埋めた画像を生成する画像生成ステップとをさらに含む画像処理方法としたものであり、ユーザが選択した不要な被写体をワンタッチで消去するだけでなく、消去した領域を背景画像で埋めた画像を生成することが可能である。

本発明の一実施形態は、前記隠れパラメータとしてカメラの動きに起因する背景画像の動きをさらに含む画像処理方法としたものであり、カメラ動きに対応した背景画像と少なくとも２つ以上の被写体画像と前記各被写体画像の形状と前記各被写体画像の動きとを同時に抽出することが可能となる。

以下、本発明の実施の形態について、図面を用いて説明する。

（実施の形態１）
図１は、実施の形態１における画像処理装置の構成を示す図である。図１の画像処理装置は、複数枚の画像から隠れパラメータとして定義された背景画像と少なくとも２つ以上の被写体画像と各被写体画像の形状と各被写体画像の動きとを同時かつ安定に抽出する装置であり、画像入力部１０１、隠れパラメータ推定部１０２、拘束条件パラメータ学習部１０３、相補学習部１０４及び出力部１０５を備える。

画像入力部１０１は、複数枚の画像の入力を受け付ける処理部である。ここで、複数枚の画像は必ずしも時系列に並んでいる必要はない。

隠れパラメータ推定部１０２は、入力された複数枚の画像から背景画像と少なくとも２つ以上の被写体画像と各被写体画像の形状と各被写体画像の動きを隠れパラメータとして定義し、繰り返し学習法を用いて複数枚の画像と隠れパラメータの少なくとも１つの条件を示す拘束条件パラメータとから隠れパラメータを推定する処理部である。

拘束条件パラメータ学習部１０３は、隠れパラメータ推定部１０２での推定結果を教師信号として、隠れパラメータに関する拘束条件パラメータの学習を行う処理部であり、本実施の形態では、各被写体画像領域の大きさ、各被写体画像の色、各被写体画像に含まれる画素の動き等の被写体に関する拘束条件パラメータを学習する。前記隠れパラメータにおける推定結果を教師信号として拘束条件パラメータを学習するため、教師信号を別途与える必要が無く自動的に学習することができる。そのため、あらかじめシーンに対する知識を与える必要が無く、適用可能なシーンが限定されない。

相補学習部１０４は、拘束条件パラメータ学習部１０３による拘束条件パラメータの学習結果を用いた隠れパラメータ推定部１０２による隠れパラメータの推定と、隠れパラメータ推定部１０２による隠れパラメータの推定結果を用いた拘束条件パラメータ学習部１０３による拘束条件パラメータの学習とを繰り返す制御をする処理部である。具体的には、相補学習部１０４は、拘束条件パラメータ学習部１０３で学習した被写体に関する拘束条件パラメータを隠れパラメータ推定部１０２へ送る。そして、隠れパラメータ推定部１０２では、相補学習部１０４から受け付けた拘束条件パラメータを用いて、再度隠れパラメータを抽出する。この動作を繰り返すことによって、局所解を回避しながら、隠れパラメータとして定義された背景画像と少なくとも２つ以上の被写体画像と各被写体画像の形状と各被写体画像の動きとを同時に抽出することが可能である。

出力部１０５は、相補学習部１０４による学習の繰り返し後において隠れパラメータ推定部１０２で推定された隠れパラメータを出力する処理部である。つまり、この出力部１０５は、本画像処理装置によって同時に抽出された背景画像と少なくとも２つ以上の被写体画像と前記各被写体画像の形状と前記各被写体画像の動きとを、本画像処理装置の処理結果として、外部に出力する。

なお、この画像処理装置を構成する各構成要素（画像入力部１０１、隠れパラメータ推定部１０２、拘束条件パラメータ学習部１０３、相補学習部１０４及び出力部１０５）は、ＣＰＵ、ＲＡＭ、ＲＯＭ、Ｉ／Ｏポート、ハードディスク、ディスプレイ等を備えるコンピュータ上で実行されるプログラム等のソフトウェアで実現されてもよいし、電子回路等のハードウェアで実現されてもよい。以下、他の実施の形態における画像処理装置についても同様である。

以下に、本発明の画像処理方法について、図２のフローチャートを用いて２つの被写体を抽出する例について詳細に説明する。もちろん、３つ以上の被写体へも容易に拡張可能である。

まず、Ｓ２０１にて、画像入力部１０１は、複数枚の入力画像を受け付ける。
次に、Ｓ２０２にて、、隠れパラメータ推定部１０２は、隠れパラメータを推定する。ここで、隠れパラメータについて図３を用いて説明する。入力画像ｘ３０１は、ノイズβ３０２、背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５、被写体１の動きＴ₁３０６、被写体２の動きＴ₂３０７、被写体１らしさπ₁３０８、被写体１らしさπ₂３０９、被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１によって構成されていると仮定する。すなわち、ノイズβ３０２、背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５、被写体１の動きＴ₁３０６、被写体２の動きＴ₂３０７、被写体１らしさπ₁３０８、被写体１らしさπ₂３０９、被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１は、それぞれ隠れパラメータである。また、３つ以上の被写体へ拡張するには、被写体画像ｆ_i、被写体らしさπ_i、被写体の動きＴ_i、被写体の形状ｍ_iを追加すれば良い。また、カメラの動きを考慮する場合には、被写体数が増えた時と同様に考えることができる。図４に示すように、図３の構造に加えてカメラ動きＴ_b４０１、背景らしさπ_b４０２、背景形状ｍ_b４０３を隠れパラメータとして加えれば良い。次に、隠れパラメータを求める方法について図３に沿って詳しく説明する。ここでは、変分近似手法の一つである、非特許文献２の手法を用いて隠れパラメータを推定する方法について説明するが、隠れパラメータを推定する途中段階の結果が得られれば良いため、繰り返し学習法を用いた隠れパラメータ推定方法であれば何でも良い。

図３の構造を確率表現すると（式１）から（式３）のように表すことができる。

ここで、入力画像ｘ３０１がガウス分布であると仮定すると

のように表すことができる。ここでＮはガウス分布、δ（ｍ＝ｉ）はデルタ関数を示す。

被写体の形状ｍは、形状情報のみを保持するのでバイナリで表現する。

ここで、δ（ｍ＝ｉ）はデルタ関数である。ここでは、被写体２の形状ｍ₂３１１が最もカメラに近い位置に存在していることを示している。

また、ノイズβ３０２はガンマ分布、背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５はガウス分布、被写体１の動きＴ₁３０６、被写体２の動きＴ₂３０７、被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１はディスクリート分布、被写体１らしさπ₁３０８、被写体2らしさπ₂３０９はベータ分布を仮定した場合について説明するが、それぞれの分布は上記に限定されるものではなく、仮定した分布の種類に応じた更新式を導けば良い。

非特許文献２の３ページに記載の方法では、求めたい隠れパラメータの分布を

とし隠れパラメータをまとめてＨで表して、以下の関係式を定義している。

ここで、

は、自身の分布に関連する

を除いた状態におけるｌｎＰ（Ｈ，ｘ）の期待値である。なお、ｌｎＰ（Ｈ，ｘ）は、（式１）の対数を取ったものと同じであるので、（式２）と（式３）を用いて次式のように展開できる。

そして、（式４）と（式５）の関係から、各隠れパラメータを求めるための更新式を導くことができる。以下に示す（式６）から（式２６）の更新を一回の更新として、それを繰り返し行うことによって、各隠れパラメータを推定することが可能である。

まず、ノイズβ３０２の推定方法について述べる。ここでは、背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５のそれぞれに個別のノイズを仮定した場合について説明する。ノイズβ３０２はガンマ分布を仮定したので、背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５について、求めたいガンマ分布のパラメータ（ｕ，ｖ）をそれぞれ（ｕβ_{_b}，ｖβ_{_b}），（ｕβ_{_f1}，ｖβ_{_f1}），（ｕβ_{_f2}，ｖβ_{_f2}）とする。これらのパラメータを求めることが、すなわち隠れパラメータを推定することに相当する。また、（ｕβ_{_b}，ｖβ_{_b}），（ｕβ_{_f1}，ｖβ_{_f1}），（ｕβ_{_f2}，ｖβ_{_f2}）は、それぞれ入力画像１枚に対して１セットのパラメータ値を持つ。すなわち、ノイズβ３０２に関する入力枚数分の隠れパラメータセットが得られる。背景ｂ３０３のノイズβ３０２については、次の更新式によってパラメータを推定する。なお、以下の説明において

は、

の期待値である。

また、被写体１画像ｆ₁３０４のノイズβ３０２については、

のように表すことができる。

被写体２画像ｆ₂３０５のノイズβ３０２については、次の更新式によってパラメータを推定する。

以上のように、（式６）から（式１１）のパラメータ更新を繰り返すことによって、ノイズβ３０２のパラメータが求められる。

次に、隠れパラメータ推定部１０２による背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５の推定方法について述べる。ここでは、背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５はガウス分布を仮定し、それぞれ求めたいガウス分布のパラメータ（ｕ，ｖ）を（ｕ_f2，ｖ_f2），（ｕ_f1，ｖ_f1），（ｕ_b，ｖ_b）とする。また、（ｕ_f2，ｖ_f2），（ｕ_f1，ｖ_f1），（ｕ_b，ｖ_b）は、それぞれ１画素に対応し、それを画像サイズ分計算することによって、複数枚の入力画像から、それぞれ１枚の背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５を推定する。

背景ｂ３０３については、次の更新式によってパラメータを推定する。

背景ｂ３０３のガウス分布パラメータ（ｕ_b，ｖ_b）は（式１２）と（式１３）からそれぞれ求めることができる。

被写体１画像ｆ₁３０４については、次の更新式によってパラメータを推定する。

から同様に求めることができる。被写体２画像ｆ₂３０５についても同様に

である。

以上のように（式１２）から（式１７）の更新を繰り返すことによって、背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５の各隠れパラメータが求められる。

次に、隠れパラメータ推定部１０２による被写体１の動きＴ₁３０６、被写体２の動きＴ₂３０７の推定方法について述べる。ここでは、被写体１の動きＴ₁３０６、被写体２の動きＴ₂３０７はディスクリート分布を仮定する。ここでＴ₁およびＴ₂は、被写体１画像ｆ₁３０４および被写体２画像ｆ₂３０５の各画素がどの画素に動くかを示すものである。すなわち、入力画像枚数分に対応する動きを推定する。更新は次式のように行う。

このように、（式１８）と（式１９）の更新を繰り返すことによって、被写体１の動きＴ₁３０６、被写体２の動きＴ₂３０７の推定ができる。

次に、隠れパラメータ推定部１０２による被写体１らしさπ₁３０８、被写体２らしさπ₂３０９の推定方法について述べる。ここでは、被写体１らしさπ₁３０８、被写体２らしさπ₂３０９としてベータ分布を仮定し、それぞれ求めたいベータ分布のパラメータ（ｕ，ｖ）を（ｕπ₂，ｖπ₂），（ｕπ₁，ｖπ₁）とする。また、（ｕπ₂，ｖπ₂），（ｕπ₁，ｖπ₁）は、それぞれ１画素に対応し画像サイズ分計算することによってそれぞれ画像１枚のサイズに対応する被写体１らしさπ₁３０８および被写体２らしさπ₂３０９を推定する。

被写体１らしさπ₁３０８については、次の更新式によってパラメータを推定する。

被写体２らしさπ₂３０９についても同様に推定できる。

以上のように、（式２０）から（式２３）の更新を繰り返すことによって、被写体１らしさπ₁３０８、被写体２らしさπ₂３０９の各パラメータが求められる。

次に、隠れパラメータ推定部１０２による被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１の推定方法について述べる。被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１としてディスクリート分布を仮定する。ここで、被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１は、入力画像枚数分の被写体形状情報を保持する。更新は以下のように行う。

ここで、（式２４）と（式２５）から被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１を求めても良いし、（式２６）を用いて

の拘束のもとに正規化を行った後に被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１を求めても良い。

以上のようにして、（式６）から（式２６）に示したように、変分近似に基づく繰り返し学習法を用いて、各隠れパラメータを推定することができる。

次に、Ｓ２０３にて、隠れパラメータ推定部１０２は、図５に示すようにＳ２０２で推定した隠れパラメータ推定結果を拘束条件パラメータ学習部１０３に送信する。ここでは、隠れパラメータである被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１を拘束条件パラメータの学習に用いる例について説明するが、拘束条件パラメータの学習は、被写体の形状に限定されるものではなく前述の隠れパラメータであればよい。

次に、Ｓ２０４にて、拘束条件パラメータ学習部１０３は、Ｓ２０３で送信した隠れパラメータの推定結果を教師信号として拘束条件パラメータを学習する。ここでは、被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１の隠れパラメータ推定結果を

として、被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１に関する拘束条件パラメータを学習する例について説明する。まず、拘束条件パラメータとして、被写体１の形状ｍ₁３１０である確率ｐ_c（ｍ＝１｜ｘ）、被写体２の形状ｍ₂３１１である確率ｐ_c（ｍ＝２｜ｘ）を新たに定義する。すなわち、拘束条件パラメータ学習部では、隠れパラメータ推定部の隠れパラメータ推定とは別に、拘束条件パラメータｐ_c（ｍ_i｜ｘ）を学習する。

拘束条件パラメータｐ_c（ｍ_i｜ｘ）を被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１について表現するとそれぞれ以下のようになる。

ここで、ｐ_c（ｍ＝０｜ｘ）は背景に関するものである。また、Ｚは正規化定数であり
次式のように表せる。

ここで、Ψは拘束条件パラメータを求める時に用いる入力ベクトルである。例えば、被写体の大きさを表現するためのピクセル位置情報、被写体の色を表現するピクセル色情報、被写体の動きを表現するためのピクセル動き情報等がこれに当たる。詳細は後述する。

次に、（式２８）から（式３０）より、

と表すことができ、その対数を取って次式のように表すことができる。

ここで、

は、Ｓ２０３で隠れパラメータ推定部１０２より送信された隠れパラメータ推定結果である。そして、拘束条件パラメータ学習部１０３は、（式３３）を最小化するｗ₁，ｗ₂を求めることで、（式２８）から（式３０）に示した拘束条件パラメータを学習する。例として、ｗ₁を求める方法を説明する。

（式３４）が０となるｗ₁を算出することは、拘束条件パラメータｐ_c（ｍ_i｜ｘ）５０２が隠れパラメータ推定部で推定した

と同じとなることを意味する。すなわち、

を教師信号として拘束条件パラメータｐ_c（ｍ_i｜ｘ）５０２を学習することになる。さらに、（式３４）の利点は、あらかじめ画像シーンに対する知識を与えることなく、自動的に拘束条件パラメータを学習できることにある。すなわち、利用できる画像シーンを限定しない。

具体的なｗ₁の算出例を以下に示す。ここでは、ニュートン・ラフソン法を用いる例について説明するが、（式３４）を最小化する他のエネルギー極小化法を用いることもできる。

また、拘束条件パラメータ学習部１０３において、学習すべき拘束条件パラメータを隠れパラメータ推定部１０２と同様に隠れパラメータとして記述し、それを学習することもできる。これについては、実施の形態６で説明する。

最小化すべき関数を次式で表し、画像サイズをＭ×Ｎとすると、

ニュートン・ラフソン法により、

を導くことができる。これにより、ｗ₁を算出可能である。なお、ｇ（ｗ₁ ^t）は１階微分、Ｈ（ｗ₁ ^t）はヘシアンである。以上によって、（式２８）から（式３０）の拘束条件パラメータｐ_c（ｍ_i｜ｘ）５０２を推定することが可能となる。

もちろん、ｗ₂についても同様であるので説明を省略する。
ここで、（式２８）および（式２９）において、拘束条件パラメータを求める時に用いる入力ベクトルΨの具体例について説明する。例えば、被写体の大きさを表現するためのピクセル位置情報を用いる場合は、次式のように表せる。

ここで、１はバイアス項、ａ，ｂはそれぞれ入力画像より得られるピクセル座標値である。

次に、被写体のピクセル色情報を用いる場合は、次式のように表せる。

ここでは、ｃ₁，ｃ₂，…ｃ_Kは、入力画像より得られる各画素のカラー値をそのまま入力しても良いし、入力画像より得られたカラー値をＫ個の多次元ガウス分布で張られる空間に射影して、各ガウス分布の平均値との距離を入力ベクトルとしても良い。これについては、非特許文献４のＰ３７２に詳しい。
ＡｎｄｒｅｗＷｅｂｂ "ＳｔａｔｉｓｔｉｃａｌＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎＳｅｃｏｎｄＥｄｉｔｉｏｎ" ＪＯＨＮＷＩＬＥＹ＆ＳＯＮＳ，ＬＴＤ

次に、ピクセル動き情報を用いる場合は次のように表せる。

ｆ_x1，ｆ_y1，…ｆ_xK，ｆ_yKは、画像の各画素における動きベクトルである。また、非特許文献５のトラッキング技術を用いて抽出した動きベクトルを用いても良い。
ＪｉａｎｂｏＳｈｉａｎｄＣａｒｌｏＴｏｍａｓｉ， "ＧｏｏｄＦｅａｔｕｒｅｓｔｏＴｒａｃｋ"，ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，ｐ５９３−６００，１９９４

また、拘束条件パラメータを学習する場合に、上記複数の情報を組み合わせて使うことも可能である。例えば、（式３８）から（式４０）に挙げた複数の入力ベクトルを１つのベクトルに繋げて処理しても良いし、入力情報の種類ごとに（式２８）から（式３０）を定義してそれぞれ推定しても良いし、入力情報の種類ごとに拘束条件パラメータに重み付けをしても良い。

ここで、（式２８）および（式２９）の変形例について説明する。拘束条件パラメータ学習部１０３は、画像からペアとなる２画素を選択し、それぞれの画素が被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１、それ以外の背景のいずれに属するかを判定し、それぞれの画素が異なる領域に属する場合と同じ領域に属する場合とによって、それぞれ異なる拘束条件パラメータを学習する。

ここで、拘束条件パラメータをｐ'_c（ｍ_i｜ｘ）とすると、

ここで、ｊは画素ｉの近傍である。

近傍画素が属する被写体情報を用いることによって、画素間の独立性を減らすことができるため複数の被写体をより効率よく分離して抽出することが可能になる。

以下、拘束条件パラメータｐ_c（ｍ_i｜ｘ）を用いた例で説明するが、ｐ_c（ｍ_i｜ｘ）の代わりにｐ'_c（ｍ_i｜ｘ）を用いても構わない。

次に、Ｓ２０５にて、相補学習部１０４は、図５に示したように拘束条件パラメータｐ_c（ｍ_i｜ｘ）５０２を隠れパラメータ推定部１０２へ送信する。そして、Ｓ２０２と同様の処理を行う。この時、拘束条件パラメータｐ_c（ｍ_i｜ｘ）は、被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１を求めるための拘束条件として作用する。具体的には、（式２４）、（式２５）の代わりに次式を用いる。

これによって、隠れパラメータ推定部１０２は、局所解を回避しながら隠れパラメータを推定可能である。ここでは、被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１について、拘束条件パラメータを学習する場合について説明したが、他の隠れパラメータについても（式４３）、（式４４）と同様に拘束条件パラメータを付加することが可能である。さらに、隠れパラメータ推定部１０２では、すべての隠れパラメータを同時に最適化するために、被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１のみに制約条件パラメータを付加した場合であっても、他の隠れパラメータに局所解回避の効力を及ぼすことができる。そのため、求めたい隠れパラメータである背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５、被写体１の動きＴ₁３０６、被写体２の動きＴ₂３０７に対して、直接的に拘束条件パラメータを付加しなくとも、局所解を回避した隠れパラメータ推定が可能である。

最後に、相補学習部１０４による制御の下で、隠れパラメータ推定部１０２と拘束条件パラメータ学習部１０３とが、Ｓ２０２からＳ２０５を規定回数Ｎ回繰り返した後、出力部１０５は、Ｓ２０６にて、隠れパラメータ推定部１０２で推定された結果を画像として出力する。図６に入力画像から得られた背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５の例を示す。背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５は、（式１２）から（式１７）の計算により画素ごとに得られたガウス分布のパラメータ（ｕ_f2，ｖ_f2），（ｕ_f1，ｖ_f1），（ｕ_b，ｖ_b）から決定する。具体的には、ガウス分布の平均値であるｕ_f2，ｕ_f1，ｕ_bをそれぞれの画素値として用いる。

ここで、図６に示すように背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５は複数枚の入力画像から１枚生成されるものである。そのため、各入力画像に対応した被写体１画像シーケンス６０１、被写体２画像シーケンス６０２は、Ｔｆにより生成する。具体的には、生成された被写体１画像ｆ₁３０４と被写体２画像ｆ₂３０５の各画素を、それぞれ被写体１の動きＴ₁３０６、被写体２の動きＴ₂３０７を用いて動かすことによって生成する。なお、Ｔｆによって生成した画像に対して、推定した被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１をかけても良い。この場合、形状情報でマスクをかけたことになるため、ノイズ除去の効果が期待できる。

以上によって、局所解を回避しながら、複数枚の画像から背景画像と少なくとも２つ以上の被写体画像と各被写体画像の形状と各被写体画像の動きとを同時に推定することが可能である。

さらに、上述の構成に加えて、図７に示される本発明の実施の形態１の第１変形例における画像処理装置のように、出力部１０５内に、画像データ分割部７０１を付加することによって、出力部１０５は、背景ｂ３０３、被写体１画像シーケンス６０１、被写体２画像シーケンス６０２を別々に保存したり、別々に外部に出力（転送）することも可能である。図８のフローチャートで説明すると、出力部１０５は、Ｓ８０１にて１枚の背景ｂ３０３と、被写体１画像シーケンス６０１と被写体２画像シーケンス６０２とを別々に転送する。これによって、カメラが固定の場合は、入力画像枚数をＮ枚とするとＮ−１枚の背景領域分の情報を削減することができる。さらに、運動の解析装置や監視装置等、被写体の動作のみが重要な場合においては、被写体１画像シーケンス６０１と被写体２画像シーケンス６０２のみを転送することもできる。以上のように、効率的な保存および転送が可能になる。

次に、実施の形態１において入力画像枚数を決定する機能を付加した本発明の実施の形態１の第２変形例における画像処理装置について説明する。

実施の形態１で説明した画像処理方法において、適切に隠れパラメータを抽出可能な入力画像枚数は画像シーンに大きく依存する。そのため、あらかじめ入力画像枚数を決定しておくことは難しい。例えば、被写体がほとんど動かない画像を複数枚入力しても、適切な背景画像は抽出できない。そのため、入力画像に応じて適切な画像枚数を決定する必要がある。

図９に実施の形態１の第２変形例による処理の概略を示す。この画像処理装置は、実施の形態１の画像処理装置の機能に加えて、入力画像に応じて適切な画像枚数を決定する機能をもつ装置であり、画像入力部１０１、隠れパラメータ推定部１０２、拘束条件パラメータ学習部１０３、相補学習部１０４、出力部１０５、合成画像生成部９０１、誤差算出部９０２及び画像枚数判定部９０３を備える。画像入力部１０１から出力部１０５までは実施の形態１と同じであるため省略する。

隠れパラメータ推定部１０２において、図６に示したように隠れパラメータとして抽出した背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５と、被写体１の動きＴ₁３０６、被写体２の動きＴ₂３０７から、各入力画像に対応した被写体１画像シーケンス６０１、被写体２画像シーケンス６０２を生成する。もちろん、生成した画像に対して隠れパラメータ推定部１０２で推定した被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１を用いても良い。

合成画像生成部９０１は、隠れパラメータ推定部１０２から出力部１０５を介して出力された隠れパラメータである背景画像と各被写体画像とを受け取り、受け取った背景画像に対して各被写体画像を上書きすることによって新たに画像を生成する処理部であり、本実施の形態では、背景ｂ３０３と被写体１画像シーケンス６０１、被写体２画像シーケンス６０２を用いて入力画像と同じ枚数の合成画像を生成する。

誤差算出部９０２は、入力画像と合成画像生成部９０１で生成された合成画像との誤差を算出する処理部である。

画像枚数判定部９０３は、誤差算出部９０２で算出された誤差が規定値以上の場合に入力画像枚数を増やして隠れパラメータ推定部１０２と拘束条件パラメータ学習部１０３での繰り返し処理を行わせる制御をする処理部であり、誤差値を設定した値と比較し、誤差値が設定した値よりも大きい場合には、画像枚数を増やして再度処理を実行する信号を画像入力部１０１に送信する。また、誤差値が設定した値よりも小さい場合は、そこで処理を終了する。

また、図１１に示す本発明の実施の形態１の第３変形例における画像処理装置のように、ユーザ入力部１１０１を追加して、入力画像枚数が足りない旨をユーザに通知し、ユーザーに入力画像枚数を増やして再度処理を実行するように促すことも可能である。

以下に、本発明の画像処理方法における入力画像枚数を決定する例について、本発明の実施の形態１の第２変形例における画像処理装置の動作を示す図１０のフローチャートを用いて詳細に説明する。

Ｓ２０１からＳ２０６までは、実施の形態１と同様であるので説明を省略する。
次に、Ｓ１００１にて、合成画像生成部９０１は、背景ｂ３０３と被写体１画像シーケンス６０１、被写体２画像シーケンス６０２から次のように合成画像ｓ^tを生成する。図１２に示すように、背景ｂ３０３に、被写体１画像シーケンス６０１を用いて上書きすることで合成画像シーケンスＡ１２０１を生成する。ここで上書きとは、背景画像と被写体１画像シーケンス６０１の１枚の画像において同じ位置にあるピクセルは、被写体１画像シーケンス６０１の画像の画素値で置き換えることを意味する。次に、被写体２画像シーケンス６０２を用いて上書きすることで、合成画像シーケンスＢ１２０２を生成する。ここでの上書きは、合成画像シーケンスＡ１２０１と被写体２画像シーケンス６０２のそれぞれ１枚の画像において、同じ一にあるピクセルは被写体２画像シーケンス６０２の画像の画素値で置き換えられることを意味する。なお、上書きの順番は、（式３）の定義に従う。また、被写体数が増えた場合や図４のようにカメラ動きを含む場合も同様に取り扱うことが可能である。

次に、Ｓ１００２にて、誤差算出部９０２は、合成画像シーケンスＢ１２０２ｓ^tと入力画像ｘ^tとの誤差を以下のように計算する。

ここで、ｔは入力画像と合成画像の番号を示す。ただし、入力画像と合成画像との対応が取れていればよく、時間順に並んでいる必要は無い。Ｍ，Ｎは画像サイズである。もちろん、合成画像と入力画像との誤差計算はＳ／Ｎ等、他の計算方法を用いても良い。

次に、画像枚数判定部９０３は、Ｅｒｒ値と設定した値とを比較し、Ｅｒｒ値が設定した値を超えている場合は、Ｓ１００３にて画像入力部１０１に入力画像を追加する信号を送信する。そして、画像枚数判定部９０３は、入力画像を増やした後に、再度Ｓ２０１から処理を行う。また、図１１に示すように、ユーザ入力部１１０１で画像枚数が不足する旨の情報をユーザに表示しても構わない。

以上のようにして、適切に隠れパラメータを抽出可能な入力画像枚数を決定することができる。

（実施の形態２）
本実施の形態では、実施の形態１で説明した画像処理方法を用いて、隠れパラメータとして抽出した被写体画像と被写体画像の形状と被写体の動きから、入力画像間の中間時間における被写体画像を生成し、中間時間における被写体画像をその時間における背景画像に上書きすることによって、中間時間画像を生成する方法について説明する。

図１３は、実施の形態２における画像処理装置の構成を示す図である。
この画像処理装置は、実施の形態１の画像処理装置の機能に加えて、中間時間画像を生成する機能をもつ装置であり、画像入力部１０１、隠れパラメータ推定部１０２、拘束条件パラメータ学習部１０３、相補学習部１０４、出力部１０５及び中間時間画像生成部１３０１を備える。画像入力部１０１は、時系列に並んだ複数枚の画像を受け付ける。なお、隠れパラメータ推定部１０２から相補学習部１０４までは実施の形態１と同じであるため省略する。

中間時間画像生成部１３０１は、出力部１０５から出力された隠れパラメータである背景画像と被写体画像と前記被写体画像の形状と前記被写体の動きとを受け取り、受け取った前記背景画像と前記被写体画像と前記被写体画像の形状と前記被写体の動きから、入力画像間の中間時間における前記被写体画像を生成し、中間時間における被写体画像をその時間における背景画像に上書きすることによって中間時間画像を生成する処理部であり、本実施の形態では、隠れパラメータ推定部１０２において、隠れパラメータとして抽出した背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５と、被写体１の動きＴ₁３０６、被写体２の動きＴ₂３０７を用いて、中間時間における被写体の画像を生成し背景画像に上書きすることによって、少なくとも２枚以上の入力画像の中間時間に相当する画像を生成する。なお、カメラ動きを考慮する場合には、図４に示すように背景ｂ３０３も動きのある被写体の１つと見なすことによって、カメラ動きに基づいた中間時間画像の生成が可能である。

この中間時間画像生成部１３０１は、図１５に示されるように、被写体中間時間画像生成部１５０１と被写体画像上書き部１５０２で構成される。被写体中間時間画像生成部１５０１は、出力部１０５から出力された隠れパラメータである背景画像と被写体画像と前記被写体画像の形状と前記被写体の動きとを受け取り、受け取った前記背景画像と前記被写体画像と前記被写体画像の形状と前記被写体の動きから、入力画像間の中間時間における前記被写体画像を生成する処理部である。被写体画像上書き部１５０２は、被写体中間時間画像生成部１５０１によって生成された中間時間における被写体画像をその時間における背景画像に上書きすることによって中間時間画像を生成する処理部である。

以下に、本発明の画像処理方法について、図１４のフローチャートを用いて詳しく説明する。

まず、Ｓ２０１にて、画像入力部１０１は、時系列に並んだ複数枚の入力画像を受け付ける。ここでは、各画像が時間に関する情報を保持しているものとする。

Ｓ２０２からＳ２０６までは、実施の形態１と同様であるので説明を省略する。
次にＳ１４０１にて、図１５に示すように、被写体中間時間画像生成部１５０１は、Ｓ２０６にて得られた背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５、被写体１の動きＴ₁３０６、被写体２の動きＴ₂３０７を用いて中間時間における被写体画像を生成する。ここでは、図１６に示すように、時間解像度をｎ倍するための被写体１の中間時間画像ｆ'₁ ^t+i、ｆ'₁ ^t+jを生成する方法について説明する。なお、時間的に隣り合う入力画像に対応する被写体画像をｆ₁ ^t、ｆ₁ ^t+n、ｆ₁ ^t+2nと表記することとする。まず、時刻ｔにおける被写体画像ｆ₁ ^t１６０１と時刻ｔ＋ｎにおける被写体画像ｆ₁ ^t+n１６０２と時刻ｔ＋２ｎにおける被写体画像ｆ₁ ^t+2n１６０３は、実施の形態１の図６で説明したとおり、被写体１画像ｆ₁３０４の各画素を被写体１の動きＴ₁３０６を用いて動かすことによって生成することができる。そして、被写体１の中間時間画像ｆ'₁ ^t+i１６０４は、次式のように中間時間における被写体１の動きＴ'₁ ^t+iを推定し、推定した被写体１の動きＴ'₁ ^t+iと被写体１画像ｆ₁３０４とを用いて被写体画像ｆ₁ ^t１６０１等の生成と同様の方法で生成可能である。

なお、中間時間画像ｆ'₁ ^t+j１６０５についても同様であるため、説明を省略する。

さらに、

とすることによって、加速度を考慮した被写体１の動きＴ'₁ ^t+iを推定することも可能である。被写体の動きに変化がある場合に特に有効である。もちろん、この場合も被写体１画像ｆ₁３０４と推定した被写体１の動きＴ'₁ ^t+iを用いて被写体画像ｆ₁ ^t１６０１と同様の方法で被写体１の中間時間画像ｆ'₁ ^t+i１６０４を生成可能である。もちろん被写体２の中間時間画像の生成も同様である。

次に、Ｓ１４０２では、被写体画像上書き部１５０２は、生成した中間時間における被写体画像を背景画像に上書きすることによって中間時間画像を生成する。まず、入力画像と同じ時刻における画像については、入力画像をそのまま用いるか、もしくは、図９の合成画像生成部９０１における合成画像の生成処理と同様の処理を行うことで生成できる。そして、被写体１の中間時間画像ｆ'₁ ^t+i１６０４の場合も合成画像生成部９０１と同様に、背景ｂ３０３に対して、生成した中間時間における被写体１の中間時間画像ｆ'₁ ^t+i１６０４およびｆ'₁ ^t+j１６０５を用いて上書きする。

被写体２画像については、被写体１画像を用いて生成した合成画像に対して、同様に上書きを行う。なお、上書きの順番は、（式３）の定義に従う。また、被写体数が増えた場合や図４のようにカメラ動きを含む場合も同様に取り扱うことが可能である。

以上のように、抽出した背景画像と被写体画像と被写体画像の形状と被写体の動きから中間時間画像を生成することが可能である。これによって、入力画像シーケンスよりもさらに時間解像度を高めた画像を生成することが可能である。また、この画像処理方法をビデオカメラやＴＶ等のＡＶ機器に内蔵することによって、撮影した映像や記録した映像から時間解像度を高めた映像を生成することも可能である。

（実施の形態３）
本実施の形態では、実施の形態１で説明した画像処理方法を用いて、隠れパラメータとして抽出した前記被写体画像もしくは前記被写体画像の形状をモニタ等に表示し、表示された前記被写体をユーザが選択することができるようにして、ユーザが選択した前記被写体画像を消去し、消去した被写体領域を背景画像で埋めた画像を生成する方法について説明する。

図１７は、実施の形態３における画像処理装置の構成を示す図である。この画像処理装置は、実施の形態１の画像処理装置の機能に加えて、ユーザが選択した被写体画像を消去する機能をもつ装置であり、画像入力部１０１、隠れパラメータ推定部１０２、拘束条件パラメータ学習部１０３、相補学習部１０４、出力部１０５、被写体表示部１７０１、ユーザ入力部１７０２及び画像生成部１７０３を備える。画像入力部１０１から相補学習部１０４までは実施の形態１と同じであるため省略する。

被写体表示部１７０１は、出力部１０５から出力された隠れパラメータである被写体画像もしくは被写体画像の形状をモニタ等に表示する処理部であり、本実施の形態では、隠れパラメータ推定部１０２において、隠れパラメータとして抽出した背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５から、少なくとも１枚の合成画像を生成し、被写体１画像ｆ₁３０４と被写体２画像ｆ₂３０５を識別可能なように表示する。

ユーザ入力部１７０２は、被写体表示部１７０１によって表示された被写体のうち少なくとも１つの選択をユーザから取得する処理部であり、本実施の形態では、ユーザーが被写体表示部１７０１で表示された被写体画像から不要な被写体画像を選択する操作を受け付ける。

画像生成部１７０３は、背景画像にユーザが選択した被写体画像もしくは被写体画像の形状に該当しない被写体画像を上書きすることによって、ユーザが選択した被写体を消去し、消去した被写体領域を背景画像で埋めた画像を生成する処理部であり、本実施の形態では、背景画像に対して、ユーザが選択しなかった被写体画像を上書きすることによってユーザが選択した被写体を消去し、消去した被写体領域を背景画像で埋めた画像を生成する。

以下に、本発明の画像処理方法について、図１８のフローチャートを用いて詳しく説明する。Ｓ２０１からＳ２０６までは、実施の形態１と同様であるので説明を省略する。

次に、Ｓ１８０１にて、隠れパラメータ推定部１０２は、隠れパラメータとして抽出した背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５から、少なくとも１枚の合成画像を生成する。具体的には、背景ｂ３０３に被写体１画像ｆ₁３０４を用いて上書きする。ここで上書きとは、画像において同じ位置にある画素値を、被写体１画像ｆ₁３０４の画素値で置き換えることを意味する。次に、前記上書きされた画像に対して、被写体２画像ｆ₂３０５を用いて上書きする。この時、被写体１画像ｆ₁３０４と被写体２画像ｆ₂３０５とができるだけ重ならないように合成することが望ましい。そして、被写体表示部１７０１は、隠れパラメータ推定部１０２で生成された画像を、出力部１０５を介して受け取り、図１９の表示画像Ａ１９０１、表示画像Ｂ１９０２に示すようにユーザが被写体１画像１９０３、被写体２画像１９０４を識別しやすいように色分けする等してモニタ等に表示する。

次に、Ｓ１８０２では、ユーザ入力部１７０２は、モニタ等に表示された合成画像から、ユーザが不要な被写体画像を選択する操作を受け付ける。この時、ビデオカメラやＴＶ等のＡＶ機器、もしくはそのリモートコントローラー等に装備されたダイヤル等を回すことによって特定の被写体画像のみを選択できるようにしても良いし、マウスでクリックすることで選択できるようにしても良いし、モニタやビデオカメラに装備されたタッチパネルで直接選択できるようにしても良い。また、不要な被写体画像の数は限定されない。例えば、すべての被写体画像を不要な被写体として選択することによって、背景画像だけを得ることも可能である。

次に、Ｓ１８０３では、画像生成部１７０３は、ユーザが選択した被写体を消去し、消去した被写体領域を背景画像で埋めた画像を生成する。図１９にユーザが不要被写体として被写体２画像１９０４を選択した場合に生成される不要被写体消去画像シーケンス１９０５の例を挙げる。具体的には、ユーザが選択しなかった被写体画像を用いて被写体画像シーケンスを生成し、その被写体画像シーケンスを背景ｂ３０３に順次上書きする。この画像生成の手順については、合成画像生成部９０１と同様であるので説明を省略する。なお、上書きの順番は、（式３）の定義に従うが、ユーザーが選択した被写体画像に対しては上書き処理を行わないものとする。また、被写体数が増えた場合や図４のようにカメラ動きを含む場合も同様に取り扱うことが可能である。

ここで、隠れパラメータとして抽出された背景画像やそれぞれの被写体画像は、物体が物体を隠すことで背景や被写体の一部の画素情報が欠落するオクルージョンの影響を排除した画像である。そのため、消去した被写体画像が背景の一部や他の被写体の一部を隠していた場合においても、その隠れの影響を排除した画像シーケンスを生成することが可能である。

これにより、少なくとも１枚の画像からユーザが選択した不要な被写体をワンタッチで消去するだけでなく、消去した領域を背景画像で埋めた画像シーケンスを生成することが可能である。これによって、ビデオ撮影等で不要な被写体が撮影されてしまった場合に、後にその被写体を消去した映像を再生成することができる。

（実施の形態４）
本実施の形態では、実施の形態１から３において、抽出した背景画像と各被写体画像の画素値が不定である場合や信頼性が低い場合に、その画素値を近傍領域の画素値を用いて補間することによって、よりノイズの少ない背景画像と各被写体画像を抽出したり、中間時間画像を生成することが可能な手法について説明する。ここでは、中間時間画像の生成を例に説明するが、実施の形態１から３のすべての例において適用可能である。

図２０は、実施の形態４における画像処理装置の構成を示す図である。この画像処理装置は、実施の形態１の画像処理装置の機能に加えて、画素補間によって中間時間画像を生成する機能をもつ装置であり、画像入力部１０１、隠れパラメータ推定部１０２、拘束条件パラメータ学習部１０３、相補学習部１０４、出力部１０５及び中間時間画像生成部１３０１ａを備える。この中間時間画像生成部１３０１ａは、画素値補間部２００１と被写体中間時間画像生成部１５０１と被写体画像上書き部１５０２で構成される。画素値補間部２００１は、出力部１０５から出力された隠れパラメータである背景画像と各被写体画像とを受け取り、受け取った背景画像と各被写体画像の画素値の信頼性が小さい場合に、その画素値を近傍領域の画素値を用いて補間する処理部であり、本実施の形態では、隠れパラメータ推定部１０２において抽出した背景画像と各被写体画像のガウス分布パラメータのプレシジョンに基づいて、信頼性の低い画素値を近傍領域の画素値を用いて補間する。なお、被写体中間時間画像生成部１５０１と被写体画像上書き部１５０２では、隠れパラメータ推定部１０２で抽出した画像の画素値の代わりに画素値補間部で補間した画素値を用いて中間時間画像を生成する。

以下に、本発明の画像処理方法について、図２１のフローチャートを用いて詳しく説明する。Ｓ２０１からＳ２０５までは、実施の形態１と同様であるので説明を省略する。

次に、Ｓ２１０１では、画素値補間部２００１は、Ｓ２０６にて、隠れパラメータ推定部１０２で（式１２）から（式１７）の計算により得られた、背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５のガウス分布パラメータ（ｕ_f2，ｖ_f2），（ｕ_f1，ｖ_f1），（ｕ_b，ｖ_b）から、画素値の信頼性を判断する。具体的には、ｖ_f2，ｖ_f1，ｖ_bを画素値の信頼性判断基準として用いる。なお、ｖ_f2，ｖ_f1，ｖ_bは、分散の逆数であるプレシジョンであり画素ごとに得られる。そして、各画素の信頼性は、ｖ_f2，ｖ_f1，ｖ_bとあらかじめ設定した閾値ＴＨ＿Ｐとの関係により判定する。

次に、Ｓ２１０２では、画素値補間部２００１は、閾値ＴＨ＿Ｐより小さいプレシジョンを持つ画素を近傍の画素値とプレシジョンを用いて補間する。

ここで、ｊは補間する画素の４近傍もしくは８近傍画素である。また、ｕ_{f1_new}、ｕ_{b_new}も同様に計算できるため説明を省略する。

また、画素値の補間方法は（式５０）に限らず、画素値の信頼性に関する情報を利用したものであれば何でも良い。

そして、Ｓ２１０３では、被写体中間時間画像生成部１５０１と被写体画像上書き部１５０２は、背景ｂ３０３、被写体１画像ｆ₁３０４、被写体２画像ｆ₂３０５の代わりにそれぞれ補間処理を行った画像を用いて合成画像（ここでは、中間時間画像）を生成する。合成画像の生成については、実施の形態１のＳ１００１、実施の形態２のＳ１４０２、実施の形態３のＳ１８０１等と同じであるので説明を省略する。

以上のように、隠れパラメータとして抽出した各画像における画素値の信頼性が低い場合に、その画素値を近傍領域の画素値の信頼性に応じて補間することによって、よりノイズの少ない背景画像と各被写体画像を抽出することができる。さらに、これによって、よりノイズの少ない中間時間画像を生成することも可能である。

（実施の形態５）
本実施の形態では、実施の形態１から４において、隠れパラメータの１つとして画像のボケ具合を表す点拡がり関数（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）のパラメータを定義し、入力画像の画質を復元した背景画像と各被写体画像を抽出する方法について説明する。

本実施の形態の画像処理装置は、実施の形態１〜４の画像処理装置の機能に加えて、点拡がり関数を用いて入力画像の画質を改善した背景画像と各被写体画像を抽出する機能をもつ装置であり、実施の形態１〜４の画像処理装置が備える隠れパラメータ推定部１０２に代えて、隠れパラメータ推定部１０２ａを備える。

ここでは、実施の形態１から４とは、隠れパラメータ推定部１０２ａのみが異なるため、隠れパラメータ推定部１０２ａについて説明する。

隠れパラメータ推定部１０２ａは、実施の形態１〜４における隠れパラメータ推定部１０２の機能に加えて、隠れパラメータの１つとして、画像の劣化過程を表現する点拡がり関数のパラメータを保持し、その逆関数を推定することによって入力画像よりも高画質化された背景画像と被写体画像を生成する機能を有する。

図３の代わりに図２２の処理例を用いて説明する。ここでは、図３に示した隠れパラメータに加えて、背景ｂ３０３の点拡がり関数（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）φ_b２２０１、被写体１画像ｆ₁３０４の点拡がり関数（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）φ_f1２２０２、被写体２画像ｆ₂３０５の点拡がり関数（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）φ_f2２２０３で構成されていると仮定する。

ここで、背景ｂ３０３の点拡がり関数（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）は次式のように２次元ガウス分布で定義する。

ここで、（ｘ_b，ｙ_b）は背景画像の各画素位置、（ｓ_{x_b}，ｓ_{y_b}）は、ガウス分布の平均値である。

次式は、点拡がり関数に基づいた画像の劣化を表す。

ここで、ｂ（ｘ_b，ｙ_b）は劣化画像、ｂ_new（ｘ_b，ｙ_b）は劣化前の高画質画像、φ_b（ｘ_b，ｙ_b）は、ｂ_new（ｘ_b，ｙ_b）を劣化させる点拡がり関数（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）を示している。さらに次のように、ｂ_new（ｘ_b，ｙ_b）は推定したい高画質化された画像であり、ｂ（ｘ_b，ｙ_b）は実施の形態１から４で得られる画像と同じ画像であると考えることによって、（式５２）の画像劣化式を高画質化に適用することができる。すなわち、点拡がり関数（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）φ_b（ｘ_b，ｙ_b）の逆関数を求めることにより、ｂ（ｘ_b，ｙ_b）を入力画像として、高画質化された画像ｂ_new（ｘ_b，ｙ_b）を得ることができる。（式５２）右辺のコンボリューション演算は、（式５３）に示す様に、周波数領域では単なる乗算となるので、

となる。ここで、B、Bnew、Φｂは、それぞれ、ｂ、ｂnew、φｂのフーリエ変換出力である。これより、Bnewは、

として求められ、これを逆フーリエ変換することにより、ｂ_new（ｘ_b，ｙ_b）を得ることができる。

隠れパラメータ推定部１０２ａは、背景ｂ３０３は、背景ｂ_newとして、ボケの影響を修復した画像を得ることができる。被写体１画像ｆ₁３０４の点拡がり関数（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）、被写体２画像ｆ₂３０５の点拡がり関数（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）も同様に定義できる。

以下に、隠れパラメータ推定部１０２において、高画質化された画像ｂ_new（ｘ_b，ｙ_b）と点拡がり関数（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）φ_b（ｘ_b，ｙ_b）と隠れパラメータとして求める方法について説明する。

（式１）と（式２）は点拡がり関数φ_b，φ_f1，φ_f2，を用いて以下のように書き換えられる。

この関係より、高画質化された背景画像ｂ_new２２０４、高画質化された被写体１画像ｆ_1new２２０５、高画質化された被写体２画像ｆ_2new２２０６の更新式は、（式１２）と（式１３）から点拡がり関数φ_bの逆関数を用いて、（式５７）、（式５８)のように書き換えることができる。なお、高画質化された背景ｂ_new２２０４、高画質化された被写体１画像ｆ_1new２２０５、高画質化された被写体２画像ｆ_2new２２０６はガウス分布と仮定し、それぞれ求めたいガウス分布のパラメータを（ｕ_{new_b}，ｖ_{new_b}），（ｕ_{new_f2}，ｖ_{new_f2}），（ｕ_{new_f1}，ｖ_{new_f1}）とする例について説明する。

高画質化された被写体１画像ｆ_1new２２０５のガウス分布パラメータ（ｕ_{new_f1}，ｖ_{new_f1}）、高画質化された被写体２画像ｆ_2new２２０６のガウス分布パラメータ（ｕ_{new_f2}，ｖ_{new_f2}）についても同様に、（式１４）から（式１７）に対して点拡がり関数φ_bの逆関数を用いて表すことができる。

次に、背景ｂ３０３の点拡がり関数（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）パラメータφ_b２２０１、被写体１画像ｆ₁３０４の点拡がり関数（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）パラメータφ_f1２２０２、被写体２画像ｆ₂３０５の点拡がり関数（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）パラメータφ_f2２２０３は、ノイズβ３０２と同様に、画像１枚につき１セットのパラメータが得られる。すなわち、画像枚数分の隠れパラメータが得られる。そして、（式５１）はガウス分布のパラメータで表現できるため、（式１２）から（式１７）と同様にガウス分布のパラメータを推定する更新式で以下のように隠れパラメータの推定が可能である。

ここで、σ_{x_b}は（式５１）におけるΣ_bのｘ方向成分である。また、（式５９）、（式６０）と同様にｙ方向成分も計算する。

もちろん、被写体１画像ｆ₁３０４の点拡がり関数（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）パラメータφ_f1２２０２、被写体２画像ｆ₂３０５の点拡がり関数（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）パラメータφ_f2２２０３についても、同様に求めることができる。

なお、ここでは点拡がり関数を（式５１）のようにガウス分布で表現する場合について説明したが、実施の形態１で説明した被写体の動きＴ₁, Ｔ₂のように、ディスクリート分布を仮定しても構わない。

以上の処理によって、局所解を回避しながら、複数枚の画像から背景画像と少なくとも２つ以上の被写体画像と各被写体画像の形状と各被写体画像の動きとを同時に推定することが可能であることに加えて、背景画像と各被写体画像の点拡がり関数（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）のパラメータを推定しながら、入力画像より高画質化した背景画像と各被写体画像を抽出することが可能である。

さらに、実施の形態２で説明した方法と組み合わせることで、入力画像シーケンスよりも時間解像度を高めつつ、高画質化することができる。また、この画像処理方法をビデオカメラやＴＶ等のＡＶ機器に内蔵することによって、撮影した映像や記録した映像から時間解像度を高めつつ、高画質化した映像を生成することも可能である。

（実施の形態６）
本実施の形態では、実施の形態１で説明したS２０４における拘束条件パラメータ学習部１０３の学習を実施の形態１とは異なる方法を用いて行う例について説明する。

本実施の形態の画像処理装置は、実施の形態１の画像処理装置が備える拘束条件パラメータ学習部１０３に代えて拘束条件パラメータ学習部１０３ａを備える。

拘束条件パラメータ学習部１０３ａは、画像からペアとなる近傍画素を選択し、それぞれの画素が背景画像領域もしくは各被写体画像領域のいずれに属するかを判定し、それぞれの画素が異なる領域に属する場合と同じ領域に属する場合に、それぞれ異なる拘束を隠れパラメータに与える処理部である。以下、図２３を用いて、拘束条件パラメータ学習部１０３ａの動作を説明する。

Ｓ２０３にて、隠れパラメータ推定部１０２は、図２３に示すようにＳ２０２で推定した隠れパラメータ推定結果を拘束条件パラメータ学習部１０３ａに送信する。ここでは、隠れパラメータである被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１を拘束条件パラメータの学習に用いる例について説明するが、拘束条件パラメータの学習は、被写体の形状に限定されるものではなく前述の隠れパラメータであればよい。

次に、Ｓ２０４にて、拘束条件パラメータ学習部１０３ａは、Ｓ２０３で送信した隠れパラメータの推定結果を教師信号として拘束条件パラメータを学習する。ここでは、被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１の隠れパラメータ推定結果を

として、被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１に関する拘束条件パラメータを学習する例について説明する。拘束条件パラメータ学習部１０３ａについて、図２３を用いて説明する。拘束条件パラメータ学習部ａでは、画素位置情報Ｌ２３０１と２画素間情報ｄ_ij２３０２と物体の大きさパラメータｗ_L２３０３とペアワイズパラメータｗ_d２３０４とで構成される。ここで、画素位置情報Ｌ２３０１は、入力画像から得られる画素の位置情報を保持する。そして、２画素間情報ｄ_ij２３０２は、入力画像における２画素間の輝度情報に関する情報を保持する。また、物体の大きさパラメータｗ_L２３０３では、画素位置情報Ｌ２３０１に基づいて物体の大きさを表す拘束条件パラメータを学習する。ペアワイズパラメータｗ_d２３０４は、２画素間情報ｄ_ij２３０２におけるそれぞれの画素が背景画像領域もしくは各被写体画像領域のいずれに属するかを判定し、それぞれの画素が異なる領域に属する場合と同じ領域に属する場合に、それぞれ異なる拘束条件パラメータを学習する。

ここで、拘束条件パラメータ学習部１０３ａでは、物体の大きさパラメータｗ_L２３０３とペアワイズパラメータｗ_d２３０４を学習することで、拘束条件パラメータを学習する。もちろん、実施の形態１で述べたようにピクセル動き情報を用いることもできる。

ここで、画素位置情報Ｌ２３０１と物体の大きさパラメータｗ_L２３０３との関係から拘束条件パラメータを次式のように表す。

ここで、Ｌは各画素の位置である。物体の大きさパラメータ（ｗ_L1，…ｗ_L4）２３０３を求めることが、拘束条件パラメータを学習することとなる。

次に、２画素間情報ｄ_ij２３０２とペアワイズパラメータｗ_d２３０４との関係を次式のように表す。

すなわち、ペアワイズパラメータｗ_d1２３０４を求めることが、拘束条件パラメータを学習することとなる。

以上のように（式６１）から（式６３）のように表した拘束条件パラメータは、平均値とプレシジョンをパラメータとするガウス分布と考えることができる。すなわち、ガウス分布の場合の更新式である（式１２）〜（式１７）と同様の更新式によって、拘束条件パラメータを学習できる。

次に、Ｓ２０５にて、相補学習部１０４は、図２３に示したように拘束条件パラメータｐ_c（ｍ_i｜ｘ）５０２を隠れパラメータ推定部１０２へ送信する。そして、Ｓ２０２と同様の処理を行う。この時、拘束条件パラメータｐ_c（ｍ_i｜ｘ）は、被写体１の形状ｍ₁３１０、被写体２の形状ｍ₂３１１を求めるための拘束条件として作用する。具体的には、（式４３）、（式４３）と同様に、隠れパラメータ推定部１０２の更新式に拘束条件パラメータｐ_c（ｍ_i｜ｘ）を加えることによって処理を行う。

次に、Ｓ２０２からＳ２０５を規定回数Ｎ回繰り返した後、Ｓ２０６にて、出力部１０５は、隠れパラメータ推定部１０２で推定された結果を画像として出力する。以降は、実施の形態１と同様であるため、説明を省略する。

以上、本発明に係る画像処理方法及び画像処理装置について、実施の形態及びその変形例に基づいて説明したが、本発明は、これらの実施の形態及び変形例に限定されるものではない。当業者が思いつく各種変形を、本発明の趣旨を逸脱しない範囲で各実施の形態に施して実現される形態も本発明に含まれる。

また、各実施の形態における特徴的な構成要素を任意に組み合わせて実現される形態も本発明に含まれる。たとえば、実施の形態２と実施の形態３とを組み合わせることで、中間時間画像生成部１３０１によって生成された中間時間画像に対してユーザが選択した被写体画像を消去する編集機能をもった画像処理装置が実現されるが、このような画像処理装置も本発明に含まれる。

本発明は、複数枚の画像から背景画像と被写体画像とを同時に抽出する画像処理装置として、特に、局所解を回避しながら、複数枚の画像から背景画像と少なくとも２つ以上の被写体画像と各被写体画像の形状と各被写体画像の動きとを同時に抽出する画像処理装置として、例えば、運動解析装置、監視装置、ビデオカメラやＴＶ等のＡＶ機器に内蔵させる画像処理装置等として利用することが可能である。

Claims

複数枚の画像から隠れパラメータとして定義された背景画像と少なくとも２つ以上の被写体画像と前記各被写体画像の形状と前記各被写体画像の動きとを同時に抽出する画像処理方法であって、
時系列に並んだ複数枚の画像の入力を受け付ける画像入力ステップと、
繰り返し学習法を用いて、前記複数枚の画像と前記隠れパラメータの少なくとも１つの条件を示す拘束条件パラメータとから隠れパラメータを推定する隠れパラメータ推定ステップと、
前記隠れパラメータ推定ステップでの推定結果を教師信号として、前記隠れパラメータに関する前記拘束条件パラメータの学習を行う拘束条件パラメータ学習ステップと、
前記拘束条件パラメータ学習ステップによる前記拘束条件パラメータの学習結果を用いた前記隠れパラメータ推定ステップによる前記隠れパラメータの推定と、前記隠れパラメータ推定ステップによる前記隠れパラメータの推定結果を用いた前記拘束条件パラメータ学習ステップによる前記拘束条件パラメータの学習とを繰り返す制御をする相補学習ステップと、
前記相補学習ステップによる学習の繰り返し後において前記隠れパラメータ推定ステップで推定された隠れパラメータを出力する出力ステップと、
前記出力ステップで出力された隠れパラメータである背景画像と被写体画像と前記被写体画像の形状と前記被写体の動きとを受け取り、受け取った前記背景画像と前記被写体画像と前記被写体画像の形状と前記被写体の動きから、入力画像間の中間時間における前記被写体画像を生成し、中間時間における被写体画像をその時間における背景画像に上書きすることによって中間時間画像を生成する中間時間画像生成ステップと
を含む画像処理方法。
請求項１に記載の方法において、
前記拘束条件パラメータは、各被写体画像領域の大きさ、各被写体画像の色、各被写体画像に含まれる画素の動きのうち、少なくともいずれか１つの条件に関するパラメータであることを特徴とする画像処理方法。
請求項１に記載の方法において、
前記拘束条件パラメータ学習ステップでは、画像からペアとなる空間的に近傍な画素を選択し、それぞれの画素が背景画像領域もしくは各被写体画像領域のいずれに属するかを判定し、それぞれの画素が異なる領域に属する場合と同じ領域に属する場合に、それぞれ異なる拘束を隠れパラメータに与えることを特徴とする画像処理方法。
請求項１に記載の方法において、
前記拘束条件パラメータ学習ステップでは、隠れパラメータ推定ステップの推定結果を教師信号として、エネルギー極小化法を用いて拘束条件パラメータを学習することを特徴とする画像処理方法。
請求項１に記載の方法において、
前記隠れパラメータは確率分布で表現されることを特徴とする画像処理方法。
請求項１に記載の方法において、
前記隠れパラメータとしてカメラの動きに起因する背景画像の動きをさらに含む画像処理方法。
複数枚の画像から隠れパラメータとして定義された背景画像と少なくとも２つ以上の被写体画像と前記各被写体画像の形状と前記各被写体画像の動きとを同時に抽出する画像処理装置であって、
時系列に並んだ複数枚の画像の入力を受け付ける画像入力部と、
繰り返し学習法を用いて、前記複数枚の画像と前記隠れパラメータの少なくとも１つの条件を示す拘束条件パラメータとから隠れパラメータを推定する隠れパラメータ推定部と、
前記隠れパラメータ推定部での推定結果を教師信号として、前記隠れパラメータに関する前記拘束条件パラメータの学習を行う拘束条件パラメータ学習部と、
前記拘束条件パラメータ学習部による前記拘束条件パラメータの学習結果を用いた前記隠れパラメータ推定部による前記隠れパラメータの推定と、前記隠れパラメータ推定部による前記隠れパラメータの推定結果を用いた前記拘束条件パラメータ学習部による前記拘束条件パラメータの学習とを繰り返す制御をする相補学習部と、
前記相補学習部による学習の繰り返し後において前記隠れパラメータ推定部で推定された隠れパラメータを出力する出力部と、
前記出力部で出力された隠れパラメータである背景画像と被写体画像と前記被写体画像の形状と前記被写体の動きとを受け取り、受け取った前記背景画像と前記被写体画像と前記被写体画像の形状と前記被写体の動きから、入力画像間の中間時間における前記被写体画像を生成し、中間時間における被写体画像をその時間における背景画像に上書きすることによって中間時間画像を生成する中間時間画像生成部と
を備える画像処理装置。
複数枚の画像から隠れパラメータとして定義された背景画像と少なくとも２つ以上の被写体画像と前記各被写体画像の形状と前記各被写体画像の動きとを同時に抽出する画像処理プログラムであって、
時系列に並んだ複数枚の画像の入力を受け付ける画像入力ステップと、
繰り返し学習法を用いて、前記複数枚の画像と前記隠れパラメータの少なくとも１つの条件を示す拘束条件パラメータとから隠れパラメータを推定する隠れパラメータ推定ステップと、
前記隠れパラメータ推定ステップでの推定結果を教師信号として、前記隠れパラメータに関する前記拘束条件パラメータの学習を行う拘束条件パラメータ学習ステップと、
前記拘束条件パラメータ学習ステップによる前記拘束条件パラメータの学習結果を用いた前記隠れパラメータ推定ステップによる前記隠れパラメータの推定と、前記隠れパラメータ推定ステップによる前記隠れパラメータの推定結果を用いた前記拘束条件パラメータ学習ステップによる前記拘束条件パラメータの学習とを繰り返す制御をする相補学習ステップと、
前記相補学習ステップによる学習の繰り返し後において前記隠れパラメータ推定ステップで推定された隠れパラメータを出力する出力ステップと、
前記出力ステップで出力された隠れパラメータである背景画像と被写体画像と前記被写体画像の形状と前記被写体の動きとを受け取り、受け取った前記背景画像と前記被写体画像と前記被写体画像の形状と前記被写体の動きから、入力画像間の中間時間における前記被写体画像を生成し、中間時間における被写体画像をその時間における背景画像に上書きすることによって中間時間画像を生成する中間時間画像生成ステップと
をコンピュータに実行させる画像処理プログラム。