JP2023117149A

JP2023117149A - 画像処理方法および画像処理装置

Info

Publication number: JP2023117149A
Application number: JP2022019701A
Authority: JP
Inventors: 訓史鵜飼; Norifumi Ukai
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2022-02-10
Filing date: 2022-02-10
Publication date: 2023-08-23
Also published as: US20230254569A1; CN116579915A; EP4227888A1

Abstract

【課題】違和感無く特定の対象物以外を出力しないようにする画像処理方法を提供する。【解決手段】画像処理方法は、カメラから第１入力画像を取得し、前記第１入力画像に基づいて背景画像を生成し、前記第１入力画像に特定の対象物が含まれるか否かを判定し、前記第１入力画像に前記特定の対象物が含まれる場合、該特定の対象物が所定の位置条件を満たすか否かを判断し、前記所定の位置条件を満たす前記特定の対象物を前記背景画像に置き換える。【選択図】図３

Description

本発明の一実施形態は、カメラから入力した画像を処理する画像処理方法および画像処理装置に関する。

特許文献１には、人物を認識し、認識した人物以外の画像をぼかす、プライバシー画像生成システムが開示されている。

特開２０１２－２９２０９号公報

特許文献１のシステムは、背景をぼかしているため、利用者に違和感を与える。また、特許文献１のシステムは、参加者（特定の対象物）以外の人物をぼかすことなく出力してしまう場合もある。

以上の事情を考慮して、本開示のひとつの態様は、違和感無く特定の対象物を出力しないようにする画像処理方法を提供することを目的とする。

画像処理方法は、カメラから第１入力画像を取得し、前記第１入力画像に基づいて背景画像を生成し、前記第１入力画像に特定の対象物が含まれるか否かを判定し、前記第１入力画像に前記特定の対象物が含まれる場合、該特定の対象物が所定の位置条件を満たすか否かを判断し、前記所定の位置条件を満たす前記特定の対象物を前記背景画像に置き換える。

本発明の一実施形態によれば、違和感無く特定の対象物以外を出力しないようにできる。

画像処理装置１の構成を示すブロック図である。画像処理装置１の機能的ブロック図である。画像処理方法の動作を示すフローチャートである。背景画像生成部１０２の動作の一例を示すフローチャートである。カメラ１１で撮影した画像の一例を示す図である。対象物判定部１０３の出力の一例を示す図である。置換後の画像の一例を示す図である。カメラ１１で撮影した画像の一例を示す図である。図８（Ａ）は、表示器２０に表示されるＧＵＩの一例を示す図であり、図８（Ｂ）はカメラ１１で撮影した画像の一例を示す図である。図９（Ａ）は、表示器２０に表示されるＧＵＩの一例を示す図であり、図９（Ｂ）はカメラ１１で撮影した画像の一例を示す図である。

図１は、画像処理装置１の構成を示すブロック図である。画像処理装置１は、カメラ１１、ＣＰＵ１２、ＤＳＰ１３、フラッシュメモリ１４、ＲＡＭ１５、ユーザインタフェース（Ｉ／Ｆ）１６、スピーカ１７、マイク１８、通信部１９、および表示器２０を備えている。

カメラ１１、スピーカ１７、およびマイク１８は、例えば表示器２０に向かって上下左右のいずれかの位置に配置される。カメラ１１は、表示器２０の前に居る利用者の画像を取得する。マイク１８は、表示器２０の前に居る利用者の音声を取得する。スピーカ１７は、表示器２０の前に居る利用者に対して、音声を出力する。

ＣＰＵ１２は、フラッシュメモリ１４から動作用のプログラムをＲＡＭ１５に読み出すことにより、画像処理装置１の動作を統括的に制御する制御部として機能する。なお、プログラムは自装置のフラッシュメモリ１４に記憶しておく必要はない。ＣＰＵ１２は、例えばサーバ等から都度ダウンロードしてＲＡＭ１５に読み出してもよい。

ＤＳＰ１３は、ＣＰＵ１２の制御に従って、カメラ１１で取得した画像に様々な処理を施す。また、ＤＳＰ１３は、マイク１８で取得した音声にも様々な処理を施す。ただし、音声の処理を行うことは、本発明において必須の構成ではない。

通信部１９は、ＤＳＰ１３により処理された後の画像に係る映像信号を他の装置に送信する。また、通信部１９は、ＤＳＰ１３により処理された後の音信号を他の装置に送信する。他の装置とは、例えばインターネット等を介して接続される遠端側のＰＣ等の情報処理装置である。また、通信部１９は、他の装置から映像信号および音信号を受信する。通信部１９は、受信した映像信号を表示器２０に出力する。通信部１９は、受信した音信号をスピーカ１７に出力する。表示器２０は、他の装置のカメラで取得した画像を表示する。スピーカ１７は、他の装置のマイクで取得した話者の音声を出力する。これにより、画像処理装置１は、遠隔地との音声会話を行うためのコミュニケーションシステムとして機能する。

図２は、ＣＰＵ１２およびＤＳＰ１３により構成される画像処理機能の構成を示すブロック図である。画像処理機能は、画像取得部１０１、背景画像生成部１０２、対象物判定部１０３、条件判断部１０４、および置換部１０５を備えている。

図３は、画像処理方法の動作を示すフローチャートである。画像取得部１０１は、カメラ１１で撮影した画像（第１入力画像）を取得する（Ｓ１１）。背景画像生成部１０２は、第１入力画像に基づいて背景画像を生成する（Ｓ１２）。対象物判定部１０３は、第１入力画像に特定の対象物（人物）が含まれるか否かを判定する（Ｓ１３）。条件判断部１０４は、第１入力画像に人物が含まれる場合に、該人物が所定の位置条件を満たすか否かを判断する（Ｓ１４）。置換部１０５は、所定の位置条件を満たす人物を背景画像に置き換える（Ｓ１５）。

図４は、背景画像生成部１０２の動作の一例を示すフローチャートである。背景画像生成部１０２は、まず背景画像を初期化する（Ｓ２１）。その後、背景画像生成部１０２は、第１入力画像のピクセル毎に時間的な変化の有無を判断する（Ｓ２２）。すなわち、背景画像生成部１０２は、ある第１のタイミングで取得した第１入力画像と、第１のタイミングとは異なる第２のタイミングで取得した第２入力画像と、を比較する。背景画像生成部１０２は、第１入力画像および第２入力画像で変化のないピクセルを、背景画像として生成する（Ｓ２３）。生成した背景画像は、置換部１０５に出力される。

背景画像生成部１０２は、第１入力画像と第２入力画像で変化のあるピクセルがあると判断した場合、さらに全てのピクセルの画像が変化したか否かを判断する（Ｓ２４）。背景画像生成部１０２は、全てのピクセルの画像が変化したと判断した場合には、背景画像を初期化に戻る（Ｓ２４：Ｙｅｓ→Ｓ２１）。背景画像生成部１０２は、全てのピクセルの画像が変化していないと判断した場合には、Ｓ２２の判断に戻る。なお、Ｓ２４の処理は、全てのピクセルではなく、例えば５０％等、全ピクセル数に対して変化したピクセル数が所定値（所定の割合）を超えるか否かで判断してもよい。

これにより、時間的に変化のない領域が背景画像となる。人物は移動するため、あるタイミングにおいて人物に対応するピクセルは背景画像にはならなくとも、当該ピクセルにおける人物は異なるピクセルに移動するため、時間経過とともに全ピクセルについて背景画像が生成される。

なお、第１入力画像および第２入力画像は、それぞれ１フレームの画像に限らない。また、第１のタイミングと第２のタイミングは時間的に連続している必要はない。背景画像生成部１０２は、例えば複数フレームを平均化した画像を第１入力画像および第２入力画像として用いてもよい。無論、平均化した画像であっても、第１入力画像および第２入力画像は、それぞれ時間的に異なるタイミングで取得した画像に対応する。

次に、対象物判定部１０３について説明する。対象物判定部１０３は、第１入力画像に特定の対象物（人物）が含まれるか否かを判定する。対象物判定部１０３は、例えば画像セグメンテーション処理を行なうことにより、１つの人物を描画している複数のピクセルを特定する。画像セグメンテーション処理は、例えばニューラルネットワーク等を用いた所定のアルゴリズムを用いることにより、人物と背景の境界を認識する処理である。

図５Ａは、カメラ１１が撮影した画像の一例を示す図である。図５Ａの例では、カメラ１１は、机の長手方向（奥行き方向）に沿って居る複数の人物の顔画像を撮影している。カメラ１１は、机を短手方向に挟んで左側および右側に居る４人の人物、および机よりも遠い位置に居る人物を撮影している。

対象物判定部１０３は、この様なカメラ１１の撮影した画像から人物のピクセルを認識する。カメラ１１の撮影した画像が図５Ａに示す画像である場合、対象物判定部１０３は、５人の人物Ａ１～Ａ５の体と背景の境界を認識する。対象物判定部１０３は、図５Ｂに示す通り、各ピクセルに対して、そのピクセルを人物Ａ１～Ａ５、あるいは、背景に対応させるラベル（Ｃ１～Ｃ５、Ｃ６）を生成し、置換部１０５に出力する。ラベルＣ１～Ｃ５は、人物Ａ１～Ａ５に対応するラベルである。ラベルＣ６は背景に対応するラベルである。なお、対象物判定部１０３は、認識した人物の顔の位置に図中のＢ１～Ｂ５の四角で示す様な境界ボックス（ＢｏｕｎｄｉｎｇＢｏｘ）を設定してもよい。対象物判定部１０３は、境界ボックスの位置情報を置換部１０５に出力してもよい。

さらに、対象物判定部１０３は、境界ボックスの大きさに基づいて各人物との距離を求める。フラッシュメモリ１４には、予め境界ボックスの大きさと距離との関係を示したテーブルまたは関数等が記憶されている。対象物判定部１０３は、設定した境界ボックスの大きさと、フラッシュメモリ１４に記憶されているテーブルを比較し、人物との距離を求める。

なお、対象物判定部１０３は、特定の人物を示すラベルを持つピクセルの総数や、特定の人物を示すラベルを持つピクセルが縦に連続する最大数や、横に連続する最大数からその人物の距離を推定してもよい。なお、対象物判定部１０３は、カメラ１１の撮影した画像から人物の身体を推定し、人物の位置を推定してもよい。対象物判定部１０３は、ニューラルネットワーク等の所定のアルゴリズムにより、カメラ１１の撮影した画像から人の骨格（ボーン）を求める。ボーンは、目、鼻、首、肩、および手足等を含む。フラッシュメモリ１４には、予めボーンの大きさと距離との関係を示したテーブルまたは関数等が記憶されている。対象物判定部１０３は、認識したボーンの大きさと、フラッシュメモリ１４に記憶されているテーブルを比較し、人物との距離を求めてもよい。

また、距離の推定手法は、上記例に限らない。例えば、カメラ１１がステレオカメラである（２つ以上のカメラを備える）場合、対象物判定部１０３は、２つのカメラの距離および２つの画像の視差に基づいて、各人物の距離を求めることができる。また、対象物判定部１０３は、ＬｉＤＡＲ（Light Detection and Ranging）等の測距機構を用いて各人物の距離を求めてもよい。

対象物判定部１０３は、各ピクセルの識別情報（例えばＡ１，Ａ２等のラベル情報）を置換部１０５に出力し、各人物の２次元角度とカメラの距離を示す情報を条件判断部１０４に出力する。すなわち、この例では、対象物判定部１０３は、各人物の位置情報として、３次元の位置情報を条件判断部１０４へ出力する。

条件判断部１０４は、各人物の位置情報が所定の位置条件を満たすか否かを判断する。所定の位置条件とは、例えば距離の値が所定値以上の場合である。図５Ａの例では、人物Ａ１，Ａ２，Ａ４，Ａ５は、カメラ１１に近く、所定の位置条件を満たさない。人物Ａ３は、カメラ１１よりも遠く、所定の位置条件を満たす。

したがって、条件判断部１０４は、人物Ａ３を所定の位置条件を満たすと判断し、人物Ａ３が位置条件を満たす旨を示す情報を置換部１０５に出力する。

置換部１０５は、位置条件を満たす人物の画像を背景画像に置き換える。図５Ａの例では、人物Ａ３が位置条件を満たすため、人物Ａ３に対応するラベルＣ３を持つピクセルを、背景画像生成部１０２で生成した背景画像のピクセルに置換する。これにより、図６に示す様に、人物Ａ３に対応するラベルを持つピクセルＣ３が、背景画像のピクセルに置き換わる。なお、置換部１０５は、置換対象のピクセルにおいて背景画像の生成が完了していない場合には、カメラ１１の画像をそのまま出力してもよいし、特定の色に置換してもよい。置換部１０５は、置換対象のピクセルの周囲のピクセルの色情報を平均化して、平均値の色に置き換えてもよい。これにより、置換部１０５は、仮に背景画像が生成されていない状態でも違和感の無い画像に置き換えることができる。

以上の様に、本実施形態の画像処理装置１は、遠方の人物を背景画像に置き換えるため、違和感無く、会議参加者以外の人物の画像を出力しないようにできる。

上述の例では、背景画像生成部１０２は、時間的に変化の無いピクセルを用いて背景画像を生成した。しかし、背景画像生成部１０２は、対象物判定部１０３の判定結果を用いて背景画像を生成してもよい。背景画像生成部１０２は、第１入力画像および第２入力画像においてともに人物が含まれない領域を特定し、該特定した領域の画像を背景画像として生成する。この場合、背景画像生成部１０２は、第１入力画像のピクセルを用いてもよいし、第２入力画像のピクセルを用いてもよい。

あるいは、背景画像生成部１０２は、第１入力画像に人物が含まれる領域であっても、第２入力画像において人物が存在しない領域がある場合、第２入力画像のうち当該領域のピクセルを用いて背景画像を生成してもよい。あるいは逆に、背景画像生成部１０２は、第１入力画像において人物が存在せず、第２入力画像において人物が存在する領域がある場合、第１入力画像のうち当該領域のピクセルを用いて背景画像を生成してもよい。

上記実施形態では、「所定の位置条件」として距離を含む３次元位置の条件を示した。しかし、「所定の位置条件」とは距離を含む３次元位置の条件に限らない。条件判断部１０４は、例えば、画角が所定角度以内であることを所定の位置条件としてもよい。この場合、条件判断部１０４は、ユーザから画角の設定を受け付けてもよい。例えば、ユーザは、カメラ１１の正面を０度とした場合に、カメラ１１から向かって左側３０度（－３０度）～右側３０度（＋３０度）の範囲を指定する。この場合、条件判断部１０４は、カメラ１１の画像から、画角－３０度～＋３０度に対応するピクセル内の人物を所定の位置条件を満たさないと判断する。また、条件判断部１０４は、カメラ１１の画像から、画角－３０度～＋３０度の範囲外に対応するピクセルの人物を所定の位置条件を満たすと判断する。

あるいは、条件判断部１０４は、カメラ１１の画像の中から、ピクセル範囲の指定を受け付けてもよい。例えば、図７に示す様に、ユーザは、カメラ１１の画像から、あるピクセル範囲Ｓ１を指定する。条件判断部１０４は、カメラ１１の画像から、ピクセル範囲Ｓ１内の人物を所定の位置条件を満たさないと判断する。また、条件判断部１０４は、カメラ１１の画像から、ピクセル範囲Ｓ１の範囲外に対応するピクセルの人物を所定の位置条件を満たすと判断する。図７の例では、条件判断部１０４は、人物Ａ２，Ａ３，Ａ４が位置条件を満たす旨を示す情報を置換部１０５に出力する。その結果、置換部１０５は、人物Ａ２，Ａ３，Ａ４に対応するピクセルを背景画像に置換する。

この様に、本実施形態の画像処理装置１は、利用者から位置条件の指定を受け付けてもよい。さらに、本実施形態の画像処理装置１は、表示器２０に所定の空間を表示し、該所定の空間に対する位置条件の指定を受け付けてもよい。

図８（Ａ）は、表示器２０に表示されるＧＵＩの一例を示す図である。画像処理装置１のＣＰＵ１２は、表示器２０に図８（Ａ）に示す様な所定の空間を表示する。この場合、ＣＰＵ１２は、表示処理部として機能する。図８（Ａ）の例では、ＣＰＵ１２は、表示器２０に、室内を模した２次元平面画像を表示している。また、ＣＰＵ１２は、机および椅子を模した平面画像も表示している。

ＣＰＵ１２は、ユーザＩ／Ｆ１６を介して、２次元平面画像に対する位置条件の指定を受け付ける。ユーザＩ／Ｆ１６は、マウス、キーボード、あるいは表示器２０に重畳されたタッチパネルからなり、受付部の一例である。ユーザが図８（Ａ）に示す２次元平面画像の任意の位置を選択すると、ＣＰＵ１２は、選択された位置に対応するピクセル座標（２次元座標）および距離情報を「位置条件」として受け付ける。また、ＣＰＵ１２は、選択された位置を示す画像（図８（Ａ）の例ではハッチング画像）を重畳して表示する。

図８（Ａ）に示す２次元平面画像の左右の位置は、ピクセル座標のＸ座標に対応する。図８（Ａ）に示す２次元平面画像の上下の位置は、距離情報に対応する。ピクセル座標のＹ座標は、全ピクセルが選択されたものとして受け付ける。あるいは、ピクセル座標のＹ座標は、ユーザから所定の位置条件を満たすための高さ範囲の数値（例えば０．７～２ｍ等の数値）を受け付けてもよい。あるいは、図８（Ｂ）に示す様に、ＣＰＵ１２は、表示器２０に表示した所定の空間に、位置条件に対応する画像（ボックスＳ２）を重畳して表示してもよい。この場合、ＣＰＵ１２は、ボックスＳ２の上下の大きさを変更する操作を受け付けてもよい。ＣＰＵ１２は、ボックスＳ２の上下の大きさを高さ情報（ピクセル座標のＹ座標範囲）に対応させる。

条件判断部１０４は、カメラ１１の画像から、図８（Ａ）の２次元平面画像で受け付けた位置条件に応じて、各人物が所定の位置条件を満たすか否かを判断する。図８（Ａ）の例では、条件判断部１０４は、人物Ａ３を所定の位置条件を満たすと判断し、人物Ａ３が位置条件を満たす旨を示す情報を置換部１０５に出力する。その結果、置換部１０５は、人物Ａ３に対応するピクセルを背景画像に置換する。

図９（Ａ）は、表示器２０に表示されるＧＵＩの別の例を示す図である。画像処理装置１のＣＰＵ１２は、図８（Ａ）と同様に、表示器２０に所定の空間を表示する。

ＣＰＵ１２は、ユーザＩ／Ｆ１６を介して、２次元平面画像に対する位置条件の指定を受け付ける。図９（Ａ）の例では、ＣＰＵ１２は、位置条件に対応する扇形の画像を２次元平面画像に重畳して表示器２０に表示する。ユーザは、扇形のサイズを変更する操作を行う。例えば、ユーザは、扇形の円弧をタッチしてスワイプ操作を行うと、扇形の半径を変更することができる。ユーザは、扇形の直線部をタッチしてスワイプ操作を行うと、扇形の内角を変更することができる。

ＣＰＵ１２は、扇型の大きさに対応する画角および距離情報を「位置条件」として受け付ける。図９（Ａ）に示す扇形画像の半径は、距離情報に対応する。図９（Ａ）に示す扇形画像の左右の開き角は、画角に対応し、ピクセル座標のＸ座標に対応する。ピクセル座標のＹ座標は、全ピクセルが選択されたものとして受け付ける。あるいは、ピクセル座標のＹ座標は、ユーザから高さ情報の数値（例えば０．７～２ｍｍ等の数値）を受け付けてもよい。あるいは、図９（Ｂ）に示す様に、ＣＰＵ１２は、表示器２０に表示した所定の空間に、扇形に対応する画像（ボックスＳ３）を重畳して表示してもよい。この場合、ＣＰＵ１２は、ボックスＳ３の上下の大きさを変更する操作を受け付けてもよい。ＣＰＵ１２は、ボックスＳ３の上下の大きさを高さ情報（ピクセル座標のＹ座標）に対応させる。

この場合も、条件判断部１０４は、カメラ１１の画像から、図９（Ａ）の２次元平面画像で受け付けた位置条件に応じて、各人物が所定の位置条件を満たすか否かを判断する。図９（Ａ）の例では、条件判断部１０４は、人物Ａ１，Ａ３，Ａ５を所定の位置条件を満たすと判断し、人物Ａ１，Ａ３，Ａ５が位置条件を満たす旨を示す情報を置換部１０５に出力する。その結果、置換部１０５は、人物Ａ１，Ａ３，Ａ５に対応するピクセルを背景画像に置換する。

なお、条件判断部１０４は、各人物の画像に対応する境界ボックスの全ての範囲が所定の位置条件を満たしているか否かを判定してもよいし、境界ボックスの一部が所定の位置条件を満たしているか否かを判定してもよい。条件判断部１０４は、境界ボックスの一部が所定の位置条件を満たしているか否かを判定する場合、例えば５０％等、境界ボックスの全ピクセル数に対して、位置条件を満たすピクセル数が所定値（所定の割合）を超える場合に、当該境界ボックスの人物が所定の位置条件を満たすと判断してもよい。

本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。

例えば、特定の画像は、人物に限らない。特定の画像は、例えば、動物であってもよいし、ＰＣの画面、あるいは紙資料等であってもよい。例えば、ＰＣの画面や紙資料において会議に関係の無い機密情報が記載されている場合でも、本実施形態の画像処理装置は、これらの機密情報が記載された特定の画像を背景画像に置き換える。これにより、本実施形態の画像処理装置は、プライバシーを保ちながら違和感の無い画像を出力することができる。

１…画像処理装置
１１…カメラ
１２…ＣＰＵ
１３…ＤＳＰ
１４…フラッシュメモリ
１５…ＲＡＭ
１６…ユーザＩ／Ｆ
１７…スピーカ
１８…マイク
１９…通信部
２０…表示器
１０１…画像取得部
１０２…背景画像生成部
１０３…対象物判定部
１０４…条件判断部
１０５…置換部

Claims

カメラから第１入力画像を取得し、
前記第１入力画像に基づいて背景画像を生成し、
前記第１入力画像に特定の対象物が含まれるか否かを判定し、
前記第１入力画像に前記特定の対象物が含まれる場合、該特定の対象物が所定の位置条件を満たすか否かを判断し、
前記所定の位置条件を満たす前記特定の対象物を前記背景画像に置き換える、
画像処理方法。
前記第１入力画像を第１のタイミングで取得し、前記第１のタイミングとは異なる第２のタイミングで第２入力画像を取得し、
前記第１入力画像および前記第２入力画像を比較して、変化が無い領域を用いて前記背景画像を生成する、
請求項１に記載の画像処理方法。
前記第１入力画像を第１のタイミングで取得し、前記第１のタイミングとは異なる第２のタイミングで第２入力画像を取得し、以下の（ｉ）～（iii）のいずれかで前記背景画像を生成する請求項１に記載の画像処理方法。
（ｉ）前記第１入力画像かつ前記第２入力画像においてともに前記特定の画像が含まれない領域を特定し、前記第１入力画像または前記第２入力画像のいずれかのうち前記特定した領域を用いる。
（ii）前記第１入力画像において前記特定の画像が含まれ、かつ、前記第２入力画像において前記特定の画像が含まれない領域を特定し、前記第２入力画像のうち前記特定した領域を用いる。
（iii）前記第１入力画像において前記特定の画像が含まれず、かつ、前記第２入力画像において前記特定の画像が含まる領域を特定し、前記第１入力画像のうち前記特定した領域を用いる。
前記所定の位置条件は、距離を含む３次元位置の条件である、
請求項１乃至請求項３のいずれか１項に記載の画像処理方法。
前記距離が所定値を超える場合に、前記位置条件を満たすと判断する、
請求項４に記載の画像処理方法。
前記特定の画像は人物の画像を含む、
請求項１乃至請求項５のいずれか１項に記載の画像処理方法。
前記特定の画像の大きさに基づいて、前記特定の位置条件を満たすか否かを判断する、
請求項１乃至請求項５のいずれか１項に記載の画像処理方法。
利用者から前記位置条件の指定を受け付ける、
請求項１乃至請求項７のいずれか１項に記載の画像処理方法。
表示器に所定の空間を表示し、
前記所定の空間に対する前記位置条件の指定を受け付ける、
請求項８に記載の画像処理方法。
前記所定の空間に、前記位置条件に対応する画像を重畳して表示する、
請求項９に記載の画像処理方法。
カメラから第１入力画像を取得する画像取得部と、
前記第１入力画像に基づいて背景画像を生成する背景画像生成部と、
前記第１入力画像に特定の対象物が含まれるか否かを判定する対象物判定部と、
前記第１入力画像に前記特定の対象物が含まれる場合、該特定の対象物が所定の位置条件を満たすか否かを判断する条件判断部と、
前記所定の位置条件を満たす前記特定の対象物を前記背景画像に置き換える置換部と、
を備えた画像処理装置。
前記画像取得部は、前記第１入力画像を第１のタイミングで取得し、前記第１のタイミングとは異なる第２のタイミングで第２入力画像を取得し、
前記背景画像生成部は、前記第１入力画像および前記第２入力画像を比較して、変化が無い領域を用いて前記背景画像を生成する、
請求項１１に記載の画像処理装置。
前記画像取得部は、前記第１入力画像を第１のタイミングで取得し、前記第１のタイミングとは異なる第２のタイミングで第２入力画像を取得し、
前記背景画像生成部は、以下の（ｉ）～（iii）のいずれかで前記背景画像を生成する請求項１１に記載の画像処理装置。
（ｉ）前記第１入力画像かつ前記第２入力画像においてともに前記特定の画像が含まれない領域を特定し、前記第１入力画像または前記第２入力画像のいずれかのうち特定した領域を用いる。
（ii）前記第１入力画像において前記特定の画像が含まれ、かつ、前記第２入力画像において前記特定の画像が含まれない領域を特定し、前記第２入力画像のうち前記特定した領域を用いる。
（iii）前記第１入力画像において前記特定の画像が含まれず、かつ、前記第２入力画像において前記特定の画像が含まる領域を特定し、前記第１入力画像のうち前記特定した領域を用いる。
前記所定の位置条件は、距離を含む３次元位置の条件である、
請求項１１乃至請求項１３のいずれか１項に記載の画像処理装置。
前記条件判断部は、前記距離が所定値を超える場合に、前記位置条件を満たすと判断する、
請求項１４に記載の画像処理装置。
前記特定の画像は人物の画像を含む、
請求項１１乃至請求項１５のいずれか１項に記載の画像処理装置。
前記条件判断部は、前記特定の画像の大きさに基づいて、前記特定の位置条件を満たすか否かを判断する、
請求項１１乃至請求項１５のいずれか１項に記載の画像処理装置。
利用者から前記位置条件の指定を受け付ける受付部を備えた、
請求項１１乃至請求項１７のいずれか１項に記載の画像処理装置。
表示器に所定の空間を表示する表示処理部を備え、
前記受付部は、前記所定の空間に対する前記位置条件の指定を受け付ける、
請求項１８に記載の画像処理装置。
前記表示処理部は、前記所定の空間に、前記位置条件に対応する画像を重畳して表示する、
請求項１９に記載の画像処理装置。