JP6004978B2

JP6004978B2 - 被写体画像抽出装置および被写体画像抽出・合成装置

Info

Publication number: JP6004978B2
Application number: JP2013063944A
Authority: JP
Inventors: 菅野　勝; 勝菅野; 内藤　整; 整内藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2013-03-26
Filing date: 2013-03-26
Publication date: 2016-10-12
Anticipated expiration: 2033-03-26
Also published as: JP2014192557A

Description

本発明は、被写体画像抽出装置および被写体画像抽出・合成装置に関し、特に、モバイル端末に搭載されたカメラにより撮影された画像から、カメラの動きを相殺することで除去すべき背景画像を生成し、背景画像を除去して被写体画像を抽出する被写体画像抽出装置、および被写体画像を抽出して任意の背景画像に合成する被写体画像抽出・合成装置に関する。

遠隔地拠点間でインターネットを介して互いに画像や音声を送受信することによりWeb会議を行うことができる。ここで、カメラを搭載したモバイル端末を端末として利用できるようにすれば、自宅などの適宜の場所を拠点として、簡単な構成で簡便にWeb会議に参加できるようになる。しかし、その場合、通信で使用し得る帯域制限の問題や自宅などのプライバシー保護の問題を解消する必要がある。

特許文献１には、撮像カメラで撮像された画像から人物画像の領域を抽出して関心領域とし、全体画像のうち関心領域の圧縮率のみを低く抑えることで人物画像を高画質にしながら、全体として圧縮率を高めて圧縮処理後の画像の全体容量を低減する人物画像圧縮装置が記載されている。

特許文献２には、背景のように一見変化がない動画像の場合に、演算量と通信データ量を削減し、かつ、閲覧者に異常と感じさせない動画像通信システムを実現するため、動画像に動きがないと判定された場合、動画像の符号化と動画像符号化データの送信を停止すること、動画像データ上の画素(観察点)の変化から動画像の動きの有無を判定すること、また、カメラと連動したセンサによって被写体人物の動きを検知してもよいこと、が記載されている。

非特許文献１には、広視野なCCDカメラから算出した顔領域の移動量を基にしてPTZ(パン・チルト・ズーム)カメラを制御し、背景差分により顔領域を抽出・追跡する方式が記載されている。

特開２００１−１４５１０１号公報特開２０１０−８７５５９号公報

舟橋ら、「顔・顔部品の階層的トラッキング技術開発とアイコンタクト顔メディア創出の研究」、情報科学技術フォーラム２００７

従来、通信におけるデータ量や使用帯域を低減するため、画像から人物などの被写体領域の画像を抽出し、被写体領域の画像だけを伝送することが行われている。例えば、背景は動かないのに対し人物などの被写体は動くという点に着目し、フレーム画像間の差分を求めることにより人物などの被写体領域の画像を抽出できる。これでは、カメラが固定されていて、画像中の背景が動かないということを前提としている。しかし、カメラを搭載したモバイル端末をWeb会議の端末として利用する場合のように、カメラが動く場合、上記技術を利用して被写体画像を抽出できない。カメラが動くと、画像中の背景も変化するので、フレーム画像間の差分を求めるという手法で被写体領域の画像を抽出できないからである。

また、特許文献１に記載されているように、被写体領域の画像特徴によって被写体領域の画像を抽出することもできる。特許文献１には、人物画像の特徴を抽出することによる画像認識の手法を用いて関心領域を決定することが記載され、さらに、カメラ制御装置を用いて撮像カメラの撮像位置の変更(パンおよびチルト)やズーミングを行い、人物画像の特徴を元に決定した関心領域を受信側に送信するとともに、人物識別センサで検出した人物画像の領域(推定位置情報)を併せて受信側に送信し、受信側で、人物画像の領域に一致するように関心領域を変更することも記載されている。

しかし、これでは、人物画像の特徴を抽出することによる画像認識の手法を用いて関心領域を決定することを基本としているので、撮像カメラが大きく動く場合、画像が歪むなどして人物画像の特徴を抽出することが困難となるため、関心領域を正確に抽出するのが困難になる。また、人物画像の領域(推定位置情報)を検出するために、感温センサや焦点距離測定センサといった人物識別センサが必要となる。

特許文献２に記載の動画像通信システムでは、動画像に動きがないと判定された場合に、動画像の符号化と動画像符号化データの送信を停止して、演算量と通信データ量を削減する。しかし、ここで、モバイル端末に搭載されたカメラを用いると、カメラの動きによって常に動画像や被写体人物に動きがあると判定されてしまうので、演算量と通信データ量の削減は達成されない。

非特許文献１に記載の方式では、PTZカメラを制御するために別途広い視野を確保するCCDカメラが必要となり、装置構成が複雑になるという課題がある。

本発明の目的は、モバイル端末に搭載されたカメラにより撮影された画像から、カメラの動きを相殺することで除去すべき背景画像を生成し、背景画像を除去して被写体画像を正確に抽出できる被写体画像抽出装置、および被写体画像を抽出して任意の背景画像に合成する被写体画像抽出・合成装置を提供することにある。

上記課題を解決するため、本発明は、モバイル端末に装備された被写体画像抽出装置であって、ある空間における背景を撮影し、また、被写体を含む、前記空間と同じ空間を撮影するカメラと、前記カメラの動きを測定してセンサ情報を出力するセンサと、異なる位置で撮影された背景の画像を繋ぎ合わせて、前記カメラが被写体を含む空間を撮影するときに動くことが予測される最大範囲まで含む広範囲の背景画像を生成し、この広範囲の背景画像の部分とセンサ情報を対応付けて背景モデルを生成する背景モデル生成手段と、背景モデルを蓄積する背景モデル蓄積手段と、被写体を含む空間が撮影されたとき、センサ情報に応じて、背景モデルから撮影領域に対応する背景画像の部分を切り出し、加工する背景モデル加工手段と、被写体を含む画像と前記背景モデル加工手段からの背景画像の部分の差分を求めることにより被写体画像を抽出する背景差分手段を具備する点に第１の特徴がある。

また、本発明は、前記背景モデル加工手段が、センサ情報に加えてパン、チルト、ズームの少なくとも１つを含むカメラパラメータに応じて背景画像の部分を切り出し、加工する点に第２の特徴がある。

また、本発明は、前記背景モデル加工手段における背景画像の部分の加工が、幾何変換を含む点に第３の特徴がある。

また、本発明は、前記幾何変換が、アフィン変換であり、そのアフィンパラメータは、センサ情報から算出される点に第４の特徴がある。

また、本発明は、さらに、前記カメラの動きを評価する評価手段を具備し、前記カメラの動きが既定値を超えた場合には被写体画像の抽出を中断してその直前に抽出された被写体画像を出力し、前記カメラの動きが既定値を下回った場合に被写体画像の抽出を再開する点に第５の特徴がある。

また、本発明は、上記被写体画像抽出装置のいずれか１つと、再生装置を具備し、前記再生装置は、被写体画像を任意の背景画像に合成する合成手段を具備する点に第６の特徴がある。

また、本発明は、前記任意の背景画像が、センサ情報に応じて遂次生成される点に第７の特徴がある。

また、本発明は、上記第５の特徴を有する被写体画像抽出装置と、再生装置を具備し、前記再生装置は、被写体抽出の中断の有無を判断する判断手段と、被写体抽出が中断されてから再開されるまでの間の被写体画像を線形補間により生成する手段と、線形補間された被写体画像を含めて被写体画像を任意の背景画像に合成する合成手段を具備する点に第８の特徴がある。

本発明によれば、モバイル端末に搭載されたカメラにより撮影された画像から、カメラの動きを相殺することで除去すべき背景画像を生成し、背景画像を除去して被写体画像を正確に抽出でき、通信におけるデータ量や使用帯域を低減できる。そして、本発明では、予め背景画像を生成して蓄積し、それから背景画像部分を切り出し、加工して被写体を含む画像との差分を求めるという手法を用いるので、簡単な構成でそれを実現できる。また、本発明は、モバイル端末に装備されるので、自宅などの適宜の場所を拠点として被写体画像を伝送できる。さらに、背景を除去して被写体画像だけを伝送できるので、自宅の状況などを他の拠点に知らせることもなく、プライバシー保護の点の問題が生じない。これにより、簡単な構成で利便性のよいWeb会議などを可能にすることができる。

本発明に係る被写体画像抽出装置の一実施形態を示すブロック図である。背景モデル生成部で生成される背景画像の具体例を示す説明図である。本発明が被写体画像抽出・合成装置とされてWeb会議システムに適用された場合のシステム構成を概略的に示すブロック図である。図３の被写体抽出装置30と再生装置31′の構成を詳細に示すブロック図である。本発明に係る被写体画像抽出・合成装置における動作を概略的に示す説明図である。

以下、図面を参照して本発明を説明する。図１は、本発明に係る被写体画像抽出装置の一実施形態を示すブロック図である。

本実施形態の被写体画像抽出装置は、カメラ部11、カメラ動き測定部12、背景モデル生成部13、背景モデル蓄積部14、背景モデル加工部15および被写体画像抽出部16を備え、背景モデル加工部15は、切出位置特定部15-1、背景画像切出部15-2、幾何変換パラメータ算出部15-3および幾何変換部15-4を備える。

カメラ部11は、タブレットなどのモバイル端末に搭載されたカメラであり、カメラ動き測定部12、背景モデル生成部13、背景モデル蓄積部14、背景モデル加工部15および被写体画像抽出部16は、モバイル端末に内蔵される。なお、背景モデル生成部13、背景モデル加工部15および被写体画像抽出部16は、プロセッサのソフトウエアあるいはハードウエアで実現できる。

カメラ部11は、ある拠点における空間の画像を撮影する。これには、ある空間における背景を撮影する場合と、これと同じ空間で、人物などの被写体を含む空間を撮影する場合がある。背景は、空間内の異なる位置で、全体として広範囲の背景を含むように撮影され、それらの画像は、背景モデル生成部13に入力される。一方、被写体を含む空間の画像は、被写体画像抽出部16に入力される。

カメラ動き測定部12は、例えば、加速度、方位、ジャイロ、近接、地磁気などのセンサを適宜組み合わせることにより構成され、カメラ部11での撮影と同時に、カメラ部11の動き(位置・姿勢)を測定する。この動きは、予め定められた位置・姿勢を基準としている。

背景モデル生成部13は、背景の画像(フレーム画像)を元に広範囲の1枚の背景画像を生成する。カメラ部11は、モバイル端末に搭載されたものであるので、その撮影領域が変化する。そこで、ある空間における背景の画像を、カメラ部11を水平方向および垂直方向に平行移動させつつ撮影し、これらの画像をスティッチング機能などにより繋ぎ合わせることにより、カメラ部11が被写体を含む空間を撮影するときに、その撮影領域が被写体の動きとともに動くことが予測される最大範囲まで含む広範囲の背景画像を生成する。

このとき同時に、カメラ動き測定部12でカメラ部11の動きを測定し、カメラ部11の動き(位置・姿勢)とそれに対する背景画像部分を対応付け、その対応付けをも含めて背景モデルとする。カメラ部11の動きに対する背景画像部分は、例えば、水平方向および垂直方向のサイズとその左上端位置で指定できる。カメラ部11の水平方向および垂直方向の平行移動に対してだけでなく、カメラ部11の斜め方向の平行移動や前後運動や回転運動などに対しても、カメラ部11の動きとそれに対する背景画像部分を対応付けておく。カメラ部11の複雑な動きの場合の対応付けは、実際にカメラ部11を動かして背景を撮影しなくても可能である。なお、カメラ部11の動きに対する背景画像部分は、後述するように、大まかに定めればよい。

図２は、背景モデル生成部13で生成された広範囲の背景画像の一具体例を示す。ここで、破線は、1フレーム分のサイズを示し、この背景画像は、フレーム8枚分のサイズとなっている。背景画像は、被写体を含む空間が撮影されるときに被写体の動きとともに変化するカメラ部11の撮影領域に対応できる範囲のものである。この背景画像には自宅内の様子が含まれているので、それをそのまま他の拠点に送ると、プライバシー保護の点で問題が生じる。

背景モデル蓄積部14は、背景モデル生成部13により生成された背景モデルを蓄積する。背景モデル蓄積部14は、モバイル端末が元々備えている記録装置でよい。背景モデル蓄積部14からの背景画像部分の切り出しは、水平方向および垂直方向の走査で行われる。

カメラ部11の動きが、そのままの姿勢での水平方向および垂直方向(斜め方向を含む)の平行移動だけであり、カメラ動き測定部12により測定されるセンサ情報の精度が十分高ければ、カメラ部11の現在の撮影領域(フレーム)に背景画像部分を正確に対応付けることができる。しかし、一般的に、カメラ動き測定部12により測定されるセンサ情報の精度は、カメラ部11の現在の撮影領域に背景画像部分を正確に対応付けることができるほど高くない。また、カメラ部11の動きは、水平方向および垂直方向の平行移動だけでなく、前後運動や回転運動など、複雑な動きを含む場合もある。

そこで、背景モデル蓄積部14への背景モデルの蓄積に際しては、カメラ部11の動きに対する背景画像部分を大まかに定め、それらを対応付ける。この対応付けは、カメラ部11の現在の撮影領域に対応する背景画像部分が、後述する幾何変換などを行った後でも含まれるように、所定のマージを含めて行えばよい。なお、カメラ動き測定部12で得られるセンサ情報の精度が十分高く、カメラ部11の動きが、そのままの姿勢での水平方向および垂直方向の平行移動だけに限られれば、所定のマージは不要である。

背景モデル加工部15の切出位置特定部15-1は、カメラ動き測定部12で測定されたカメラ部11の動きを用い、背景モデル蓄積部14から切り出すべき背景画像部分(切出位置)を特定する。背景モデル蓄積部14の背景モデルにおいてカメラ部11の動きに対応付けられている背景画像部分が切り出すべき背景画像部分である。カメラ部11の動きを、背景モデル加工部15を通して背景モデル蓄積部14に与えることにより、カメラ部11の動きに対して切り出すべき背景画像部分を特定できる。

背景画像切出部15-2は、切出位置特定部15-1で特定された背景画像部分を背景モデル蓄積部14から切り出す。ここで切り出される背景画像部分は、カメラ部11の現在の撮影領域に大まかに対応するものであるが、カメラ部11の現在の撮影領域に正確に対応する背景画像部分は、以下に説明するように、テンプレートマッチングを利用して求めることができ、これにより求められた背景画像部分を、最終的に、カメラ部11の現在の撮影領域に対応する背景画像部分とする。なお、テンプレートマッチングは、一例であり、ハリス法により抽出されるコーナーなどの特徴点のマッチングも利用できる。

カメラ部11の動きが水平方向および垂直方向に平行移動だけの場合には、切り出された背景画像部分からカメラ部11の現在の撮影画像が最もよくマッチングする部分を求めれば、カメラ部11の現在の撮影領域に正確に対応する背景画像部分を求めることができる。したがって、この場合には、切り出された背景画像部分をそのまま用いて、カメラ部11の現在の撮影領域に正確に対応する背景画像部分を求めることができる。なお、撮影画像中の被写体領域の画像に一致する背景画像部分はないが、被写体領域を除く背景領域の画像が一致したときにマッチングが最もよくなるので問題はない。また、照明の変動や自然光の変化の影響は、一定閾値を設けてマッチングを判定することで吸収できる。

また、カメラの動きが、水平方向および垂直方向に平行移動に加え、前後運動を含む場合には、切り出された背景画像部分に対して間引きや補間などで縮小/拡大処理を施してからカメラ部11の現在の撮影画像が最もよくマッチングする部分を求めれば、カメラ部11の現在の撮影領域に正確に対応する背景画像部分を求めることができる。したがって、この場合には、切り出された背景画像部分に縮小/拡大処理を施した上でのマッチングにより、カメラ部11の現在の撮影領域に正確に対応する背景画像部分を求めることができる。

また、カメラの動きが、前後運動や回転運動などの複雑な動きを含む場合、切り出された背景画像部分に対してカメラ部11の動きに応じた幾何変換を施した後、カメラ部11の現在の撮影画像が最もよくマッチングする部分を求めれば、カメラ部11の現在の撮影領域に正確に対応する背景画像部分を求めることができる。したがって、この場合には、切り出された背景画像部分に幾何変換を施した上でのマッチングにより、カメラ部11の現在の撮影領域に正確に対応する背景画像部分を求めることができる。

背景モデル加工部15の幾何変換パラメータ算出部15-3および幾何変換部15-4は、切り出された背景画像部分に対して幾何変換を施すためのものである。ここでの幾何変換にはアフィン変換を利用でき、その変換の際のアフィンパラメータは、カメラ部11の動きから算出できる。なお、カメラ部11の動きに応じた背景画像の加工には、射影変換などの他の幾何変換も利用できる。

例えば、カメラ動き測定部12によって、カメラ部11が角度θだけ回転していることが検知された場合、切り出された背景画像部分に対し、以下の式による幾何変換を施せばよい。

ここで、x y平面上での回転中心の座標を(0,0)とし、x, yは、幾何変換前の画像中の座標、x′, y′は、幾何変換後の画像中の座標である。上記所定のマージは、この幾何変換後でも背景画像部分がカメラ部11の現在の撮影領域を含むように設定される。

以上のように、まず、カメラ動き測定部12で測定されたカメラ部11の動きを用いて、カメラ部11の現在の撮影領域に大まかに対応する背景画像部分を切り出し、次に、マッチングなどにより、カメラ部11の現在の撮影領域に正確に対応する背景画像部分を求める。カメラ部11の現在の撮影領域に大まかに対応する背景画像部分を切り出してから幾何変換やマッチングを行うことは、それらの処理で対象とする画像部分を限定するので、演算量の削減の点からも有利である。

被写体画像抽出部16は、カメラ部11により撮影された被写体を含む空間の画像と背景モデル加工部15からの背景画像部分を用いて被写体領域の画像を抽出する。カメラ部11により撮影された被写体を含む空間の画像と背景モデル加工部15からの背景画像部分は、被写体領域を除く部分の背景領域において一致するので、ここでは、差分を求めるという簡単な手法で被写体領域を特定し、被写体領域の画像を抽出できる。すなわち、被写体を含む空間の画像と背景画像部分の差分を求めると、背景領域はキャンセルされるのに対し、被写体領域はキャンセルされない。照明の変動や自然光の変化の影響により背景領域でも完全にキャンセルされるとは限らないが、その残差が一定閾値以下の領域を背景領域とすることにより被写体領域を特定できる。カメラ部11で撮影された被写体を含む空間の画像からこの被写体領域の画像を抽出すれば、それが被写体画像となる。なお、当該画素が被写体領域に属するか背景領域に属するかを周囲の画素値との連続性や特異性などを考慮して判定すれば、孤立するノイズや特異点を排除できる。

本発明に係る被写体画像抽出装置は、Web会議などの遠隔地コミュニケーションに適用できる。遠隔地コミュニケーションシステムでは、送信側端末で、被写体画像を抽出して受信側端末に送信し、受信側端末は、送信側端末から送られた被写体画像を受信して任意の背景画像に合成する。したがって、送信側と受信側を含む構成は、被写体画像抽出・合成装置となる。本発明は、そのような被写体画像抽出・合成装置としても実現できる。

以下、本発明が適用されたWeb会議システムについて説明する。しかし、本発明は、以下の実施形態に限定されない。

図３は、本発明が被写体画像抽出・合成装置とされてWeb会議システムに適用された場合のシステム構成を概略的に示すブロック図である。

本Web会議システムは、双方向コミュニケーションの拠点を1,2とし、拠点1は、被写体画像抽出装置30および再生装置31を備え、拠点2は、被写体画像抽出装置30′および再生装置31′を備える。この場合、被写体は、拠点1,2における会議参加者である。被写体画像抽出装置30, 30′は、会議参加者の画像を抽出して送信する。この会議参加者の画像は、Webサーバを通して再生装置31, 31′に配信される。再生装置31, 31′は、会議参加者の画像を受信して任意の背景画像に合成する。

図４は、図３の被写体画像抽出装置30と再生装置31′の構成を詳細に示すブロック図であり、図１、図３と同一あるいは同等部分には同じ符号を付している。なお、図４では、被写体画像抽出装置30と再生装置31′を示しているが、被写体画像抽出装置30′と再生装置31も同様に構成される。

まず、送信側の被写体画像抽出装置30について説明する。被写体画像抽出装置30は、図１と同様に、カメラ部11、カメラ動き測定部12、背景モデル生成部13、背景モデル蓄積部14、背景モデル加工部15および被写体画像抽出部16を備え、さらに、被写体画像送信部41を備える。

カメラ部11、カメラ動き測定部12、背景モデル生成部13、背景モデル蓄積部14、背景モデル加工部15および被写体画像抽出部16の動作は、図１と同様である。以下では、Web会議開始までの流れに沿ってその動作を説明する。

拠点1における会議参加者(参加者Aとする)は、まず、Web会議参加前に拠点1の空間の背景をモバイル端末に装備されたカメラ部11によって撮影する。ここでは、Web会議開催中にカメラ部11が動くことを想定して、カメラ部11を水平方向および垂直方向に平行移動させつつ空間の背景を撮影し、背景モデル生成部13において、スティッチング機能などを用いて広範囲の1枚の背景画像を生成する。この背景画像は、カメラ動き測定部12により撮影と同時に測定されたカメラ動き情報の集合とともに背景モデルとして背景モデル蓄積部14に蓄積される。背景モデル蓄積部14は、カメラ部11の動きとそれに対する背景画像部分を対応付けて蓄積する。背景画像部分は、カメラ部11が動いたときの撮影領域に大まかに対応する。以上は会議参加前の動作である。

参加者AがWeb会議に参加する場合、参加者Aは、被写体としての自分を含む空間をカメラ部11で撮影する。この画像は、被写体画像抽出部16に入力される。この画像には参加者Aとともにその周囲の背景も含まれている。

一方、背景モデル加工部15は、カメラ動き測定部12により撮影と同時に測定されたカメラ動きを用いて、カメラ部11の現在の撮影領域に大まかに対応する背景画像部分を背景モデル蓄積部14から切り出す。そして、カメラ部11の動きが斜め方向の平行移動や前後運動や回転運動などの複雑な動きを含む場合には、その動きに応じて、背景画像部分に、さらにアフィン変換などの加工を施す。その後、カメラ部11の現在の撮影画像と背景画像部分のマッチングにより、カメラ部11の現在の撮影領域に正確に対応する背景画像部分を求める。

被写体画像抽出部16は、カメラ部11により撮影された参加者Aを含む空間の画像と背景モデル加工部15からの背景画像部分の差分により参加者Aの画像領域を特定し、参加者Aの画像(テクスチャデータ)を抽出する。

被写体画像送信部41は、被写体画像抽出部16により抽出された参加者Aの画像を連続的あるいは一定時間ごとに送信する。参加者Aの画像は、Web会議サーバを経由して拠点2に配信される。参加者Aの画像は、圧縮符号化されて送信されるのが普通であるので、被写体画像送信部41は、エンコーダを備える。ここで、エンコーダが任意形状のテクスチャの圧縮符号化(例えば、MPEG4)をサポートしていれば、テクスチャ領域のみを圧縮符号化することができる。一方、エンコーダが矩形のテクスチャの圧縮符号化(例えば、H264やH265)のみをサポートしていれば、被写体領域以外の背景領域を任意の単色、例えば、(R,G,B)=(0,0,0)(黒色)などで塗りつぶした上で、圧縮符号化すればよい。これにより、実際に伝送されるデータ量を削減できる。

次に、受信側の再生装置31′について説明する。再生装置31′は、被写体画像受信部42、背景画像入力部43、被写体画像合成部44および表示部(ディスプレイ)45を備える。

被写体画像受信部42は、送信側の被写体画像送信部41からWebサーバを経由して配信された参加者Aの画像を受信し、その画像が圧縮符号化されていれば伸張して元の画像に復号する。

背景画像入力部43は、背景画像を入力する。ここで入力される背景画像は、任意の画像でよく、会議室の画像に限らず、風景などの事前に用意された静止画像でもよい。

被写体画像合成部44は、背景画像入力部43により入力された背景画像に、被写体画像受信部42により受信された参加者Aの画像を合成する。参加者Aの画像を合成するときの背景画像上の位置は、背景画像入力部43により入力される背景画像にもよるが、例えば、背景画像の中央に固定的に設定することができ、適宜に位置に可変設定できるようにしてもよい。また、参加者Aの画像は、そのままのサイズで背景画像に合成してもよいが、例えば、背景画像内の人物や特定オブジェクトの大きさとの関係が自然になるように、それらの大きさとの関係に基づいて自動でサイズ変更したり、手動でサイズ変更したりした上で背景画像に合成することもできる。

表示部(ディスプレイ)45は、被写体画像合成部44により生成された合成画像を表示する。これにより、背景画像内に参加者Aが存在するような合成画像を再現できる。

図５は、本発明に係る被写体画像抽出・合成装置における動作を概略的に示す説明図である。

上述したように、拠点1では、まず、事前準備の段階で広範囲の背景画像を生成し、背景モデルを生成して背景モデル蓄積部14に蓄積する。

次に、Web会議などの開催時、カメラ部11で被写体を含む空間を撮影する(S1)。カメラ部11は、モバイル端末に搭載されているので、ユーザがモバイル端末を動かすと、カメラ部11の撮影領域が変わり、撮影される背景も変わる。図５では、カメラ部11が角度θだけ回転して被写体が撮影された場合の画像(フレーム画像)を示している。なお、被写体領域の画像は、実際にはテクスチャを持っているが、黒く塗りつぶして示している。

次に、被写体を含む空間の画像に大まかに対応する背景画像部分を背景モデル蓄積部14に蓄積されている広範囲の背景画像から切り出し(S2)、さらに、回転角度θに応じた幾何変換を施す(S3)。これらの処理では、カメラ動き測定部12で測定されたカメラ部11の動きを用いる。

次に、幾何変換が施された背景画像部分の中で、被写体を含む空間の画像(フレーム画像)に正確に対応する部分を求め、その部分の背景画像部分と被写体を含む空間の画像の差分から被写体領域を特定する。そして、被写体を含む空間の画像から被写体領域の画像を抽出し、被写体画像としてWebサーバを通して拠点2に配信する。

拠点2では、任意の背景画像を生成し、この背景画像に拠点1から配信された被写体領域の画像を合成する(S5)。

以上説明したように、本発明では、カメラ部11の現在の撮影領域に対応する背景画像部分を動的に特定して切り出すので、カメラ部11の動きが所定値以上(単位時間当たりの動き量が大)となると、装置処理能力によっては、背景画像部分の切り出しが困難になる。これに対しては以下の手法を講じればよい。

被写体抽出装置では、カメラ部11の動きが所定値以上になった場合、その直前の被写体画像を保持して被写体画像の抽出処理を中断し、保持している被写体画像をエンコーダに渡して圧縮符号化し、送信する。その後、カメラ部11の動きが所定値未満になった場合、被写体画像の抽出処理を再開し、抽出された被写体画像をエンコーダに渡して圧縮符号化し、送信する。

被写体抽出装置側で被写体画像が連続的に抽出され、それが連続的に送信されれば問題はないが、上述したように、被写体画像の抽出処理が中断し、再開された場合、再生装置側で、受信した被写体画像をそのまま再生すると、被写体抽出が中断してから再開されるまでの間、カメラ部11の動きが所定値以上になる直前の画像が継続して静止状態で表示され、再開時に、被写体が急変したように見える。この被写体が急変したように見える再生は、被写体画像の抽出処理が再開されたときに被写体の状態(位置や大きさ)が既定値より大きく変わっていれば、再開後の被写体画像を直ちに表示せず1秒程度バッファリングし、その後、受信した被写体画像における被写体の状態とバッファリングした被写体画像における被写体の状態の間を線形補間したものを表示し、線形補間した被写体の状態と最新の被写体の状態との差異が既定値以下となったとき、線形補間の処理を終了して受信した被写体画像そのものに再生を切り替えることで、防ぐことができる。これによって、画面上の突発的かつ不自然な変化を回避することができる。なお、被写体抽出が中断していることは、その旨の情報が拠点1からWeb会議サーバへ通知されていれば、その情報により判断できるが、その情報が通知されていない、またはその情報を利用できない場合には、拠点2において、例えば、特定点の位置や特定部分の大きさの変化から被写体画像の変化を計測し、その変化が圧縮符号化ノイズを考慮したレベルの差分量しかない場合には、被写体画像の抽出処理が中断されていると判断できる。なお、上記の再生手法は、被写体画像抽出装置から被写体画像が一定時間ごとに送信される場合にも有効である。

以上実施形態について説明したが、本発明は、上記実施形態に限定されず、種々に変形することができる。例えば、カメラ部11がパン、チルト、ズームなどの機能を有していて、そのカメラパラメータを取得できる場合、背景モデル加工部15において、カメラパラメータも利用して背景画像部分の切出位置特定や幾何変換、間引きや補間などを行うようにすれば、カメラパラメータが変わる場合でも、被写体画像を正確に抽出できるようになる。

また、カメラ部11の動き(センサ情報)やカメラパラメータを拠点1から拠点2に送信し、それに応じて背景画像部分を移動させるなど、遂次加工した被写体画像と合成すれば、拠点1での被写体の動きに対して拠点2で合成される背景の動きを自然なものにすることができる。

本発明は、カメラおよび被写体の双方が動くような環境において、カメラ画像から被写体画像を抽出するに有効なものであり、一対一だけでなく、一対多や多対多のWeb会議(インターネットを利用したソフトウェアベースの簡易テレビ会議)や種々の映像伝送などに適用できる。

11・・・カメラ部、12・・・カメラ動き測定部、13・・・背景モデル生成部、14・・・背景モデル蓄積部、15・・・背景モデル加工部、15-1・・・切出位置特定部、15-2・・・背景画像切出部、15-3・・・幾何変換パラメータ算出部、15-4・・・幾何変換部、16・・・被写体画像抽出部、30,30′・・・被写体画像抽出装置、31,31′・・・再生装置、41・・・被写体画像送信部、42・・・被写体画像受信部、43・・・背景画像入力部、44・・・被写体画像合成部、45・・・表示部(ディスプレイ)

Claims

モバイル端末に装備された被写体画像抽出装置であって、
ある空間における背景を撮影し、また、被写体を含む、前記空間と同じ空間を撮影するカメラと、
前記カメラの動きを測定してセンサ情報を出力するセンサと、
異なる位置で撮影された背景の画像を繋ぎ合わせて、前記カメラが被写体を含む空間を撮影するときに動くことが予測される最大範囲まで含む広範囲の背景画像を生成し、この広範囲の背景画像の部分とセンサ情報を対応付けて背景モデルを生成する背景モデル生成手段と、
背景モデルを蓄積する背景モデル蓄積手段と、
被写体を含む空間が撮影されたとき、センサ情報に応じて、背景モデルから撮影領域に対応する背景画像の部分を切り出し、加工する背景モデル加工手段と、
被写体を含む画像と前記背景モデル加工手段からの背景画像の部分の差分を求めることにより被写体画像を抽出する背景差分手段を具備することを特徴とする被写体画像抽出装置。
前記背景モデル加工手段は、センサ情報に加えてパン、チルト、ズームの少なくとも１つを含むカメラパラメータに応じて背景画像の部分を切り出し、加工することを特徴とする請求項１に記載の被写体画像抽出装置。
前記背景モデル加工手段における背景画像の部分の加工は、幾何変換を含むことを特徴とする請求項１または２に記載の被写体画像抽出装置。
前記幾何変換は、アフィン変換であり、そのアフィンパラメータは、センサ情報から算出されることを特徴とする請求項３に記載の被写体画像抽出装置。
さらに、前記カメラの動きを評価する評価手段を具備し、前記カメラの動きが既定値を超えた場合には被写体画像の抽出を中断してその直前に抽出された被写体画像を出力し、前記カメラの動きが既定値を下回った場合に被写体画像の抽出を再開することを特徴とする請求項１ないし４のいずれか１つに記載の被写体画像抽出装置。
請求項１ないし５のいずれか１つに記載の被写体画像抽出装置と、
再生装置を具備し、
前記再生装置は、被写体画像を任意の背景画像に合成する合成手段を具備することを特徴とする被写体画像抽出および合成装置。
前記任意の背景画像は、センサ情報に応じて遂次生成されることを特徴とする請求項６に記載の被写体画像抽出および合成装置。
請求項５に記載の被写体画像抽出装置と、
再生装置を具備し、
前記再生装置は、被写体抽出の中断の有無を判断する判断手段と、被写体抽出が中断されてから再開されるまでの間の被写体画像を線形補間により生成する手段と、線形補間された被写体画像を含めて被写体画像を任意の背景画像に合成する合成手段を具備することを特徴とする被写体画像抽出および合成装置。