JP2017033256A

JP2017033256A - 画像処理装置、コミュニケーションシステム、画像処理方法、及びプログラム

Info

Publication number: JP2017033256A
Application number: JP2015152092A
Authority: JP
Inventors: 裕介村松; Yusuke Murakami
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-07-31
Filing date: 2015-07-31
Publication date: 2017-02-09

Abstract

【課題】撮像画像から人物領域の画像の抽出を行う際の精度をより良くすることを目的とする。
【解決手段】制御サーバ３０１には、画像を撮像する撮像センサと被写体までの距離を赤外線を用いて検出する距離センサとを含む前面カメラ１０３が配置されている。ＣＰＵ３０２は、撮像センサによって取得された画像から人物領域の画像を抽出する際に、距離センサによって検出された距離を示すマスク画像（Ｓ６０２）と、撮像センサによって取得された画像の各画素の色情報を示すマスク画像（Ｓ７０２〜Ｓ７０４）とに基づいて、人物領域の画像を抽出する。
【選択図】図６

Description

本発明は、撮像手段によって撮像された画像から人物領域の画像を抽出する画像処理装置、コミュニケーションシステム、画像処理方法、及びプログラムに関する。

従来、離れた場所（遠隔地）に居る相手とコミュニケーションを取るためのシステムが知られている。例えば特許文献１には、離れた場所に居る相手と会議を行うための遠隔会議システムが開示されている。特許文献１に開示されたシステムには、人物を含むシーンを撮像するためのカメラと、画像を投影するためのプロジェクタと、プロジェクタによって投影された画像を映し出すスクリーンが含まれる。

特許文献１のシステムでは、ある会議室に備えられたカメラで撮像した人物を含む画像が相手側（遠隔地）のプロジェクタによってスクリーンに投影される。その一方で、相手側のカメラで撮像された人物を含む画像が会議室のプロジェクタによってスクリーンに投影される。

また、撮像画像から人物領域の画像を抽出する方法として、特許文献２の画像処理装置では、距離センサを用いて検出した距離に基づいて撮像画像に含まれる人物の領域と背景の領域を分離し、人物の領域のみを抽出する方法が開示されている。

特開２００８−１９１６１３号公報特開２００１−１６７２７６号公報

距離センサによる距離の検出方式として、赤外線を用いる方式がある。例えば、赤外線の照射光と反射光の位相差から、赤外線が被写体により反射するまでの時間を算出し、被写体と距離を検出する方法がある。また、赤外線照射素子により赤外線のドットパターンを空間に投影し、当該投影されたドットパターンを赤外線カメラで読み取って、被写体に投影されたドットパターンを元に距離を検出する方法がある。

しかしながら、黒い服や黒髪などの表面反射率の低い領域に関しては、赤外線がうまく反射（又は投影）されず、距離を正しく検出できない場合がある。

従って、距離センサを用いて検出した距離に基づいて人物領域の画像を抽出する際に、距離が正しく検出できなかった一部の領域が欠けてしまうことがある。

本発明は、上記の課題に鑑みなされたものであり、撮像画像から人物領域の画像を抽出する場合に、人物領域の一部が欠けることを抑制する仕組みを提供することを目的とする。

上記の目的を達成するために本発明の画像処理装置は、撮像手段と、前記撮像手段によって取得される画像の各画素について、被写体までの距離を赤外線を用いて検出する検出手段と、前記検出手段によって検出された距離と前記撮像手段によって取得された画像の各画素の色情報とに基づいて、前記撮像手段によって取得された画像から人物領域の画像を抽出する抽出手段と、ことを特徴とする。

また、本発明のコミュニケーションシステムは、遠隔地から送信された画像を第１の投影面に投影する第１の投影手段と、撮像手段と、前記撮像手段によって取得される画像の各画素について、被写体までの距離を赤外線を用いて検出する検出手段と、前記検出手段によって検出された距離と前記撮像手段によって取得された画像の各画素の色情報とに基づいて、前記撮像手段によって取得された画像から人物領域の画像を抽出する抽出手段と、前記抽出手段による抽出がなされた人物領域の画像を、前記遠隔地に備えられた第２の投影面に投影する第２の投影手段と、を備えることを特徴とする。

本発明によれば、撮像画像から人物領域の画像を抽出する場合に、人物領域の一部が欠けないようにすることができる。

コミュニケーションシステムの構成を示す図である。コミュニケーションシステムの構成を示す図である。コミュニケーションシステムのハードウェア構成を示す図である。距離画像のみに基づいた人物領域の画像の抽出を説明する図である。コミュニケーションシステムの制御処理を示すフローチャートである。人物領域の画像の抽出処理を示すフローチャートである。頭部領域の補完処理を示すフローチャートである。マスク画像の生成を説明する図である。マスク画像に基づいた人物領域の画像の抽出を説明する図である。コミュニケーションシステムの制御処理を示すフローチャートである。画像処理装置の構成を示す図である。

以下、図面を参照して本発明の実施の形態を詳しく説明する。なお、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。

図１は、本発明が適用されるコミュニケーションシステムの断面図である。このコミュニケーションシステムを用いることにより、本社内に設けられたオフィス１と支社Ａに設けられたオフィス２の間でコミュニケーションを取ることが可能となっている。なお、ここでは２箇所のオフィスを例にしているが、３以上のオフィス間でコミュニケーションを取ることが可能な構成であってもよい。

また、ここで説明する各オフィスは、移動に数時間を要するほど離れたものであっても良いし、同一のビルに設けられた別の会議室であっても良い。即ち、「遠隔」という表現は、物理的な空間が別であることを示すものであり、物理的な距離や移動にかかる時間の長さを定義するものではない。

図１（ａ）に示すオフィス１には、プロジェクタ１０１、スクリーン１０２、前面カメラ１０３、背面カメラ１０４が備えられている。プロジェクタ１０１は、他のオフィスで撮像された画像をスクリーン１０２に投影する投影装置である。本実施形態の場合、前面カメラ１０３や背面カメラ１０４が撮像する画像、及び、スクリーン１０２に投影される画像は動画を想定しているが、静止画であってもよい。

また、本実施形態のプロジェクタ１０１は後述する会議資料もスクリーン１０２に投影するが、会議資料を投影するプロジェクタとして別のプロジェクタを用意してもよい。また、投影する画像から人物領域の画像を抽出し、抽出した人物領域の画像と背景画像を合成した合成画像をプロジェクタ１０１によってスクリーン１０２に投影してもよい。背景画像として、予め用意されている固定の背景画像を利用してもよいし、オフィス１の背景を撮像するための背景カメラを別途用意することでリアルタイムの背景画像を取得してもよい。

スクリーン１０２は、プロジェクタ１０１によって投影される画像を映し出す投影面である。なお、スクリーン１０２は、他のオフィスとのコミュニケーションを取るときに一時的に設置するものであっても良いし、オフィスの壁がスクリーン１０２の役割を兼ねても良い。また、本実施形態では画像を表示する手段としてプロジェクタとスクリーンを使用する例を示すが、大型の液晶ディスプレイを用いて画像を表示するようにしても良い。

前面カメラ１０３は、人物１０５を撮像するための撮像装置であり、スクリーン１０２に埋め込まれている。前面カメラ１０３は、スクリーン１０２の前に立つ人物１０５の前面を、投影面側であるスクリーン１０２側から撮像するためのカメラである。人物１０５がスクリーン１０２の方を向いている場合に人物１０５の前面を撮像できるように、前面カメラ１０３は図１（ａ）に示す位置に設置される。

背面カメラ１０４は、人物１０５を撮像するための撮像装置である。背面カメラ１０４は、スクリーン１０２の前に立つ人物１０５の背面や、スクリーン１０２に映し出された画像を撮像するためのカメラである。人物１０５がスクリーン１０２の方を向いている場合に人物１０５の背面（背中側）を撮像できるように、背面カメラ１０４は図１（ａ）に示す位置（人物１０５に対してスクリーン１０２の反対側）に設置される。

前面カメラ１０３には、カラー画像を撮像するための撮像センサと、赤外線を用いて被写体までの距離を検出するための距離センサが含まれる。前面カメラ１０３によって得られる画像には、ＲＧＢで８ビット３チャネルの情報からなるカラー画像と、８ビット１チャネルの情報からなる距離画像が含まれる。距離画像を用いることで、前面カメラ１０３は、スクリーン１０２と人物１０５との間の距離を検出することができる。前面カメラは例えば所定範囲ｄ２内にある被写体までの距離を検出可能であり、所定範囲ｄ２外にある被写体までの距離は検出できない。そのうち所定範囲ｄ１（例えば前面カメラ１０３を基準として０．５メートル〜２．５メートルの範囲）の範囲内にある人物に相当する領域をカラー画像から抽出する。ここでの「人物に相当する領域」とは、人物のみならず、人物が手に持っている指示棒や、商品サンプルなども含まれる。

またカラー画像と距離画像は、それぞれを取得するセンサの物理的な位置が異なるため、同じ被写体を撮影しても画素のズレが生じる。この距離画像とカラー画像の画素のズレは距離センサと撮像センサの物理的な位置関係やセンサの特性などに基づいて予め計算された変換行列によって補正されるものとする。本実施形態では、距離センサにより得られた距離画像の座標（各ピクセル）をカラー画像の座標系に変換する。この処理により距離画像とカラー画像の位置合わせを行うことができる。

また、オフィス１にはコミュニケーションシステムを構成する各構成に加えて、オフィス１で使用するテーブル１０６やラック１０７などが配置されているものとする。テーブル１０６やラック１０７は、コミュニケーションシステム外に配置されたオブジェクトの一例を示している。

また、人物１１５が居るオフィス２（図１（ｂ））にも、オフィス１と同様の設備（プロジェクタ１１１、スクリーン１１２、前面カメラ１１３、背面カメラ１１４）からなるコミュニケーションシステムが備えられている。

図２（ａ）は、コミュニケーションシステムの外観図であり、オフィス１の人物１０５がオフィス２の人物１１５とコミュニケーションを取っている様子を示している。スクリーン１０２には、オフィス２の前面カメラ１１３によって撮像された人物１１５（図２（ａ）の場合は人物１１５の前面）が投影されている。

オフィス１には、送信器２０１ａと受信器２０１ｂから成るデジタイザが備えられている。デジタイザは、スクリーン１０２に対してなされるユーザの動作を検知するための検知装置である。デジタイザは、送信器２０１ａが投射した赤外光が人物１０５の体の一部、或いは人物１０５が持っている指示棒等によって遮られた場合に、その位置を示す座標を出力する。なお、ここでは送信器２０１ａと受信器２０１ｂをそれぞれスクリーン１０２の左右に配置する例を示したが、スクリーン１０２の上下に配置しても良い。また、ユーザの動作を検知する方法はデジタイザに限らず、スクリーン１０２にタッチパネル機能を備えるようにし、スクリーン１０２が押圧された位置を検知するようにしても良い。

また、図２（ａ）は、オフィス２の前面カメラ１１３によって撮像された人物１１５をスクリーン１０２に投影する例を示しているが、オフィス２の背面カメラ１１４によって撮像された人物１１５をスクリーン１０２に投影することもできる。

図２（ｂ）は、オフィス２の様子を示している。オフィス２のスクリーン１１２には、オフィス１の前面カメラ１０３によって撮像された人物１０５（図２（ｂ）の場合は人物１０５の前面）が投影されている。また、オフィス２も、オフィス１と同様に送信器２１１ａと受信器２１１ｂから成るデジタイザが備えられている。また、オフィス２も、オフィス１の背面カメラ１０４によって撮像された人物１０５をスクリーン１０２に投影することもできる。

次に図３を用いて、コミュニケーションシステムのハードウェア構成を説明する。図１及び２には示していないが、オフィス１には制御サーバ３０１が備えられている。制御サーバ３０１に含まれるＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０２は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）３０４に記憶された制御プログラムを読み出して、オフィス１内に備えられた各装置を制御する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３０３は、ＣＰＵ３０２の主メモリ、ワークエリア等の一時記憶領域として用いられる。また、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）３０５は、各種データを記憶する記憶媒体として使用される。なお、オフィス１では、１つのＣＰＵ３０２が１つのメモリ（ＲＡＭ３０３）を用いて後述するフローチャートに示す各処理を実行するものとするが、他の態様であっても構わない。例えば、各カメラやプロジェクタ、デジタイザのそれぞれに対して個別にＣＰＵを備えるようにするなど、複数のＣＰＵや複数のＲＡＭ、或いはＨＤＤやＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）を協働させて各処理を実行するようにすることもできる。また、後述する処理の一部をＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などのハードウェア回路を用いて実行するようにしてもよい。また、後述する画像処理の一部をＤＳＰ（ＤｅｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）を用いて実行するようにしてもよい。

ネットワーク３００は、各オフィスを繋ぐネットワークである。ネットワーク３００の種類は、有線、無線、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、公衆回線、専用回線など、環境に合わせて適宜選択すればよい。ネットワークインタフェース（Ｉ／Ｆ）３１０は、オフィス１をネットワーク３００に接続するためのインターフェースである。

図１及び２には示していないが、各オフィスにはマイクとスピーカーが設置されている。オフィス内の人物が発する言葉はマイクによって音声信号に変換され、遠隔地のスピーカーから出力される。オフィス１には、マイク３１１とスピーカー３１２が備えられており、音声Ｉ／Ｆ３０７は、マイク３１１による音声の入力及びスピーカー３１２による音声の出力を制御するためのインターフェースである。

プロジェクタＩ／Ｆ３０８は、プロジェクタ１０１による画像の投影を制御するためのインターフェースである。本実施形態では、１つのプロジェクタを用いてスクリーンへの画像の投影を行っているが、スクリーンの幅が大きい場合等、複数のプロジェクタを用いてスクリーンへの投影を行ってもよい。

デジタイザＩ／Ｆ３０９は、送信器２０１ａと受信器２０１ｂから成るデジタイザによるユーザの動作の検知を制御するためのインターフェースである。カメラＩ／Ｆ３０６は、前面カメラ１０３、背面カメラ１０４による撮像を制御するためのインターフェースである。

また、オフィス２には、オフィス１と同様に制御サーバ３２１が備えられている。制御サーバ３２１が備える各構成はオフィス１の制御サーバ３０１と同様であるため、詳細な説明は省略する。

また、図３で説明した各インターフェースには、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）やＨＤＭＩ（登録商標）（ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）、有線ＬＡＮ、無線ＬＡＮなどが適宜適用できる。

次に図４を用いて、距離画像のみに基づいて人物領域の画像を抽出する従来の方法について説明する。図４（ａ）は、前面カメラ１０３によって取得されたカラー画像を示す図である。カラー画像には、抽出したい人物１０５の画像の他に、コミュニケーションシステムを構成する背面カメラ１０４の画像が含まれている。また、オフィス１に配置されているテーブル１０６の画像やラック１０７の画像が含まれている。

また、図４（ｂ）は、距離画像に基づいて生成される人物を抽出するためのマスク画像１を示す図である。本実施形態では、人物１０５は、スクリーン１０２（前面カメラ１０３）から０．５メートル以上且つ２．５メートル以内の距離に立つことを想定している。そこで、前面カメラ１０３から被写体までの距離の最小値を０．５メートルと設定し、最大値を２．５メートルとして所定範囲を設定する。そして、距離画像の各画素に対して、値が上記所定範囲内に含まれる画素の値を２５５に変更し、それ以外の画素の値を０に変更したマスク画像１を生成する。

領域４１０は、マスク画像１における人物の頭部領域を示している。また、図４（ｃ）は領域４１０に示す画像を拡大した図である。図４（ｃ）に示すように黒髪などの表面反射率の低い領域は、距離センサで距離を正しく検出できない場合がある。また、被写体のエッジ部分（例えば、頭部の曲線部分、洋服と背景との境界部分、洋服がしわになっている部分など）では、距離センサで距離を正しく検出できない場合がある。

従って、距離センサに基づいて人物の領域を抽出する場合に、被写体のエッジ部分且つ反射率の低い部分である黒髪の一部が欠けてしまう場合がある。図４（ｄ）は、図４（ａ）のカラー画像から図４（ｂ）のマスク画像１に基づいて抽出された人物領域の画像の一例を示している。図４（ｄ）の領域４２０に示すように、距離画像のみに基づいて人物領域の画像を抽出する場合は、黒髪の一部分（特に頭部の曲線部分）が欠けてしまうことになる。髪の毛の形状（ヘアスタイル）は人物の特徴をよく表す部分である。従って、人物領域の画像から髪の毛の一部分が欠けてしまうと、コミュニケーションに違和感を与える恐れがある。また、人物が髪の毛を補う人工物を装着している場合も考えられる。この場合、人工物の素材の反射率によっては、人工物までの距離を正しく検出できるケースが考えられる。この場合、自毛と人工物の間の画像が欠けることにより人物の自毛と人工物の境界が強調されてしまうことが考えられる。人物領域の画像で自毛と人工物の境界が強調されてしまうと、コミュニケーションに違和感を与える恐れがある。

これを鑑みて、本実施形態では、撮像画像から人物領域の画像を抽出する際に、頭部領域の補完処理を行うことについて説明する。図５乃至図７は、オフィス１の制御サーバ３０１が実行する処理を示すフローチャートである。図５乃至図７のフローチャートに示す各動作（ステップ）は、オフィス１のＣＰＵ３０２がＲＯＭ３０４又はＨＤＤ３０５に記憶された制御プログラムを実行することにより実現される。また、図８及び図９は、頭部領域の補完処理を説明するための図である。

ステップＳ５０１では、ＣＰＵ３０２は、前面カメラ１０３に人物１０５を撮像させる。ステップＳ５０２では、前面カメラ１０３によって得られた撮像画像から人物領域の画像を抽出する。

図６は、ステップＳ５０２の処理を詳細に説明するフローチャートである。ステップＳ６０１では、ＣＰＵ３０２は、前面カメラ１０３で得られた撮像画像に含まれる距離画像を前述の射影変換行列を用いて射影変換する。この処理は、距離画像とカラー画像の画素のズレを補正するための処理である。

ステップＳ６０２では、ステップＳ６０１で補正した距離画像を二値化し、人物領域をマスクするためのマスク画像１を生成する。本実施形態では、人物１０５は、スクリーン１０２（前面カメラ１０３）から０．５メートル以上且つ２．５メートル以内の距離に立つことを想定している。そこで、前面カメラ１０３から被写体までの距離の最小値を０．５メートルと設定し、最大値を２．５メートルとして所定範囲ｄ１を設定する。そして、距離画像の各画素に対して、値が上記所定範囲ｄ１内に含まれる画素の値を２５５に変更し、それ以外の画素の値を０に変更する。

Ｓ６０３では、ＣＰＵ３０２は、Ｓ６０２で得られたマスク画像１の頭部領域を補完する補完処理を行う。

図７は、ステップＳ６０３の頭部領域の補完処理を詳細に説明するフローチャートである。ステップＳ７０１では、カラー画像と距離画像のどちらか、或いは両方を解析して、人物の頭部全体が含まれる領域（以下、頭部領域）を推定する。例えばパターンマッチングを用いて頭部領域を推定したり、パターンマッチングとトラッキングを組み合わせて、頭部領域を推定したりすることができる。また、人物のサンプルデータに基づいて、人体の骨格情報を推定し、当該推定された骨格情報から頭部領域を推定するようにしてもよい。

なお、サンプルデータに基づいて骨格情報を推定する場合は、予めサンプルデータに基づいて学習した決定木に基づいて各画素がどのパーツに属するかを識別し、識別した各パーツに基づいて骨格情報を推定するものとする。予め学習した決定木に基づいてパーツの識別を行うことにより、計算コストの低い骨格情報の推定を行うことができる。

ステップＳ７０２では、カラー画像から、輝度画像を生成する。輝度は物体の明るさを示すパラメータであり、０から２５５までの数値で表現される。値が小さいほどその物体は暗く、大きいほど明るいことを表している。

ステップＳ７０３では、ステップＳ７０２で生成した輝度画像を二値化し、マスク画像２を生成する。本実施形態では、画像中の暗い部分の輝度が小さくなることに着目する。輝度の値が所定の閾値以下の画素を２５５に変更し、所定の閾値より大きい画素を０に変更したマスク画像２を生成する。この処理により、輝度の小さい黒い髪の毛の領域が２５５となる。また、人物が髪の毛を補う人工物を装着している場合には、人物の自毛の部分と人工物の部分とを含む領域が２５５となる。

なお、本実施形態のコミュニケーションシステムでは、オフィスの床や壁は白を基調としており、図８（ａ）に示すマスク画像２において、背景部分（即ち、所定範囲ｄ２内のオブジェクト以外）の大半の画素は０になることを想定している。しかしながら、想定外のノイズが髪の毛の領域として認識されることできるかぎり避けるため、Ｓ７０２で推定した頭部領域の部分に絞って補完処理を行うものとする（詳細は後述する。）
また、所定の閾値は、固定値（例えば４０など）であってもよいし、コミュニケーションシステムが設置される環境によって適宜変更できるようにしてもよい。また、所定の閾値を変更する場合は、抽出した人物領域の画像をスクリーン１１２などに表示し、頭部領域の補完状況をリアルタイムで確認しながら調整できるようにしてもよい。図８（ａ）に示す画像はＳ７０３の処理によって得られた輝度画像を二値化したマスク画像２を例示するものである。また、領域８０１は、ステップＳ７０１の処理によって得られた頭部領域の範囲を示している。

なお、ステップＳ７０２乃至Ｓ７０３の処理では、カラー画像の色情報に応じた髪の毛領域の補完処理に輝度情報を用いる場合を例示したが、輝度情報以外の色情報を用いてもよい。例えば、輝度情報に加えて彩度（色のあざやかさ）に関する色情報を用いるようにしてもよい。

ステップＳ７０４では、マスク画像２の頭部領域８０１内の画像に対してノイズ除去を行う。注目画素の周辺に１画素でも値が２５５の画素があれば値を２５５に変更する膨張処理を複数回実行することで光の反射等で生じる明るい領域（値が２５５の画素の近辺に生じる値が０の孤立点）を除去する。

ところで、ステップＳ７０４で取得したマスク画像２は、図８（ａ）及び（ｂ）に示すように黒髪を示す領域に対応する画素の値が２５５となっている。しかしながら、所定範囲ｄ１の範囲外に配置された背面カメラ１０４、テーブル１０６、及びラック１０７などに基づく輝度の小さい領域（カラー画像中の暗い部分）に対応する画素の値も２５５となっている。これらの所定範囲ｄ１の外にある輝度の低い画素を除去するために、ステップＳ７０５及びＳ７０６の処理を実行する。

ステップＳ７０５では、距離画像に基づいて、検出された距離が所定範囲ｄ１に含まれないと判断できる画素を輝度の二値化画像から除去するために使用するマスク画像３を生成する。本実施形態では、人物１０５は、スクリーン１０２（前面カメラ１０３）から０．５メートル以上且つ２．５メートル以内の距離に立つことを想定している。従って、前面カメラ１０３から２．５メートルより離れている画素及び前面カメラから０．５メートル未満の画素の値を０に変更し、それ以外の画素の値を２５５に変更すればよい。なお、この処理では距離が検出できなかった領域（画素の値としてＮＵＬＬを示す値（例えば−１など）が格納されている領域）の値は２５５に変更されるものとする。この処理により、０．５メートル以上且つ２．５メートル以内の領域と距離センサにより距離が取れなかった領域の値が２５５のマスク画像が得られる。従って、距離センサで距離が検出できなかった黒髪の領域の値は２５５となる。

図８（ｃ）に示す画像は、Ｓ７０５の処理で得られた距離画像に基づくマスク画像３を例示するものである。また、図８（ｄ）はマスク画像３における頭部領域８０１に対応する画素を拡大したものである。図８（ｄ）において黒色の塗りつぶしで示している領域８０３ａ及び領域８０３ｂは、値が０の領域であり、マスク画像２から除去すべき領域を示している。

ステップＳ７０６では、ステップＳ７０３で得られたマスク画像２とステップＳ７０５の処理で得られたマスク画像３の各画素とのＡＮＤを取り、マスク画像４を生成する。この処理により、図８（ｃ）及び図８（ｄ）の両方で画素の値が２５５の領域が２５５となり、図８（ｃ）及び図８（ｄ）の少なくともいずれかの画素の値が０の領域が０となったマスク画像が得られる。図８（ｅ）は、Ｓ７０６で生成される頭部領域８０１を補完するマスク画像４を示すものである。また、図８（ｆ）はマスク画像４における頭部領域８０１に対応する画素を拡大したものである。

ステップＳ７０７では、ＣＰＵ３０２は、ステップＳ６０２で生成されたマスク画像１（図４（ｂ））に、ステップＳ７０５で得られたマスク画像４の頭部領域８０１内の各画素とのＯＲで加えたマスク画像５を生成する。この処理により、髪の毛の領域を追加（補完）したマスク画像を生成することができる。図９（ａ）は、Ｓ７０７で得られた頭部領域を補完したマスク画像５の一例を示すものである。Ｓ７０７の処理では、頭部領域８０１の部分だけをマスク画像１に適用するため、図８（ｅ）に示すような頭部領域８０１の外に現れる周囲のノイズの影響を抑えることができる。

なお、本実施形態では、マスク画像２〜４の生成（Ｓ７０３〜Ｓ７０６）を、カメラで取得した画像全体に対して行う場合に例示して説明したがこれに限定されるものではない。例えば、マスク画像２〜４の生成は、Ｓ７０１で推定した頭部領域内の各画素のみに対して行うようにすることもできる。この場合、計算量を少なくすることができる。

マスク画像５の生成が完了すると、頭部領域の補完処理を終了し、Ｓ６０４に進む。

図６の説明に戻り、ステップＳ６０４では、Ｓ６０３で生成したマスク画像５に対してノイズ除去の処理を行う。注目画素の周辺に１画素でも値が０の画素があれば周辺画素の値を０に変更する収縮処理、及び注目画素の周辺に１画素でも値が２５５の画素があれば周辺画素の値を２５５に変更する膨張処理を、複数回ずつ交互に実行することで孤立点ノイズを除去する。

ステップＳ６０５では、Ｓ６０４でノイズ除去がなされたマスク画像５に平滑化フィルタ（例えば、ガウシアンフィルタ）の処理を実行することにより、値が２５５となっている画素が連続している領域の輪郭を平滑化する。

ステップＳ６０６では、マスク画像５を用いたマスク処理を実行することにより、値が２５５であるマスク画像５の画素に対応するカラー画像の画素を非透明とし、値が０であるマスク画像５の画素に対応するカラー画像の画素を全透明とする。この処理により、前面カメラ１０３によって得られた撮像画像から人物領域の画像が抽出される。人物領域の画像の抽出が完了すると、Ｓ５０３の処理に進む。図９（ｂ）は、Ｓ６０６で得られる人物領域の画像の一例を示している。領域９２０に示すように、従来の手法（図４（ｂ））で欠けてしまっていた髪の毛の領域を補完した人物領域の画像を抽出することができる。

このように、距離画像に基づく人物領域の画像を抽出するマスクに加えて、頭部領域を補完するマスクを適用することで、人物領域の画像の抽出時に髪の毛の領域が欠けてしまうことを抑制できる。

図５の説明に戻り、ステップＳ５０３では、ステップＳ５０２の一連の処理で得られた人物領域の画像を接続先のオフィス２に送信する。ステップＳ５０４では、コミュニケーションの終了が指示されたか否かを判定し、終了が指示されたと判定すると処理を終了する。一方、終了が指示されなかったと判定するとステップＳ５０１に戻り、ステップＳ５０１以降の処理を再び実行する。

なお、ここではステップＳ５０２の人物領域の画像の抽出処理を撮像側（被写体である人物が居る方のオフィス１）で実行する例を示したが、投影側（撮像された画像を投影する方のオフィス）や中継サーバ（不図示）で実行するようにしても良い。更に、背面カメラ１０４によって得られた画像に対しても、図５乃至図７に示した処理と同様の人物領域の画像の抽出を行い、前面の人物領域の画像の送信と同期させて、又は非同期で接続先のオフィス２に送信するようにすることもできる。

次に、オフィス１において、送信された人物領域の画像を投影する処理について説明する。図１０は、接続先のオフィス２から送信された画像を投影する処理を説明するフローチャートである。図１０のフローチャートに示す各動作（ステップ）は、オフィス１のＣＰＵ３０２がＲＯＭ３０４に記憶された制御プログラムを実行することにより実現される。なお、ここではオフィス２の制御サーバ３０１のＣＰＵ３２２によって図５乃至図７で説明した処理が同様に実行され、その結果としてオフィス２から送信されてきた人物領域の画像をオフィス１側で投影する処理について説明する。

ステップＳ１００１では、ＣＰＵ３０２はオフィス２の前面カメラ１１３によって得られた前面の人物領域の画像を受信する。ステップＳ１００２では、オフィス２の背面カメラ１１４によって得られた人物領域の画像を受信する。

ステップＳ１００３では、人物の前面を表示するか、人物の背面を表示するかを判定する。例えば、人物の前面と背面のいずれかを表示するかは、例えば、不図示のキーを押下することで切り替えることができるものとする。なお、前面と背面のいずれを表示するか判定はこれに限定されるものではない。例えば、スクリーン１１２とスクリーン１０２に同じ会議資料が提示されている場合には、資料の指差し位置が分かりやすいように人物の背面を表示すると判定するようにしてもよい。人物の前面を表示する場合は、ステップＳ１００５に進み、人物の背面を表示する場合は、ステップＳ１００６に進む。

ステップＳ１００５では、プロジェクタ１０１を制御し受信した前面の人物領域の画像をスクリーン１０２のいずれかの位置に表示する。一方、ステップＳ１００６では、プロジェクタ１０１を制御し背面の人物領域の画像をスクリーン１０２のいずれかの位置に表示する。

ステップＳ１００７では、遠隔コミュニケーションの終了が指示されたか否かを判定し、終了が指示されたと判定すると処理を終了する。一方、終了が指示されなかったと判定するとステップＳ１００１に戻り、ステップＳ１００１以降の処理を再び実行する。なお、図４に示すフローチャートと図１０に示すフローチャートは、遠隔コミュニケーションが行われている間、継続的に並行して実行されるものとする。

以上説明した通り、本実施形態のコミュニケーションシステムは、人物同士が近い距離で向かい合っているような感覚で遠隔地とコミュニケーションを取ることを可能としている。またこの際、人物領域の画像の作成にあたって、頭部領域の補完処理（Ｓ６０３）を行うことで髪の毛の領域が欠損することなく、人物の領域を抽出することができる。

なお、本実施形態では、人物の頭部領域の補完処理を行うことを例示したがこれに限定されるものではない。例えば、カメラで取得した画像全体や人物が含まれる領域全体に対して輝度情報に基づく補完処理を行うようにしてもよい。この場合、人物領域の画像を抽出する際に、人物領域の一部が欠けてしまうことを抑制することができる。

従って、コミュニケーションシステムにおいて抽出した人物領域の画像を投影する際に、人物領域の画像の抽出時に人物領域の一部が欠けることを抑制することができ、遠隔地の人物と違和感の少ないコミュニケーションを取ることを可能としている。

また、本実施形態では頭部領域を推定し、頭部領域に絞った補完処理を行うことができる。従って、補完処理によるノイズの影響を抑制することができる。

更に、Ｓ７０１〜Ｓ７０７に示す輝度画像の生成処理、二値化処理、及びマスク画像の生成処理は、画素ごとの単純な演算処理で実現できるため、処理時間を大幅に増やすことにはならない。従って、コミュニケーションシステムのリアルタイム性に大きく影響を与えることなく人物領域の画像中の黒い領域が欠けてしまうことを抑制することができる。

＜変形例＞
なお、第１の実施形態では遠隔コミュニケーションシステムにおいて相手先に表示する人物領域の画像の抽出を行う場合を例として説明したが、これに限定されるものではない。例えば、仮想空間などに抽出した人物領域の画像をオーバレイして表示する画像処理装置にも適用することができる。図１１は、画像処理装置の構成の一例を示すものである。画像処理装置は制御部３４１と、ユーザに仮想空間などを提示するための表示部３４９と、カラー画像と距離画像を含む撮像画像を取得するカメラ３４７とを備えている。なお、制御部３４１は、ＣＰＵ３４２、ＲＡＭ３４３、ＲＯＭ３４４、ＨＤＤ３４５及び、表示部３４９やカメラ３４７と通信するためのＩ／Ｆを含むものとする。この場合、ＣＰＵ３４２は、第１の実施形態で説明したＳ５０３の送信処理に代えて、仮想空間に人物領域の画像を重畳表示した画像を表示部３４９に表示する処理を行うようにすればよい。

このように、単体の画像処理装置に適用する場合は、仮想空間などに重畳表示する人物領域の画像の一部が欠けることを抑制することができる。従って、人物領域の画像を違和感なく仮想空間などに重畳することができる。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００プロジェクタ
１０１スクリーン
１０３前面カメラ
１０４背面カメラ
３０１制御サーバ
３０２ＣＰＵ
３４１制御部
３４７カメラ

Claims

撮像手段と、
前記撮像手段によって取得される画像の各画素について、被写体までの距離を赤外線を用いて検出する検出手段と、
前記検出手段によって検出された距離と前記撮像手段によって取得された画像の各画素の色情報とに基づいて、前記撮像手段によって取得された画像から人物領域の画像を抽出する抽出手段と、
を備えることを特徴とする画像処理装置。
前記抽出手段は、前記検出手段によって検出された距離に基づいて決定した第１の領域と、前記撮像手段によって取得された画像の各画素の色情報に基づいて決定した第２の領域の少なくともいずれかに含まれる領域を前記人物領域として決定することを特徴とする請求項１に記載の画像処理装置。
前記抽出手段は、前記検出手段によって検出された距離が所定の範囲内である画素に対応する領域を前記第１の領域として決定することを特徴とする請求項２に記載の画像処理装置。
前記色情報は、各画素の輝度を示す輝度情報を含み、
前記抽出手段は、前記撮像手段によって取得された画像の各画素の輝度に基づいて前記第２の領域を決定することを特徴とする請求項２又は３に記載の画像処理装置。
前記抽出手段は、輝度の値が所定の閾値以下である画素に対応する領域を前記第２の領域として決定することを特徴とする請求項４に記載の画像処理装置。
前記所定の閾値を変更する変更手段を更に備えることを特徴とする請求項５に記載の画像処理装置。
前記抽出手段は、輝度の値が前記所定の閾値以下であっても、前記検出手段により検出された距離に基づいて前記人物領域に含まれないと判断できた場合は、当該画素を前記第２の領域に加えないことを特徴とする請求項５又は６に記載の画像処理装置。
少なくとも前記検出手段によって検出された距離又は前記撮像手段によって撮像された画像に基づいて人物の頭部領域を推定する推定手段を更に備え、
前記抽出手段は、輝度の値が前記所定の閾値以下であっても、前記推定手段によって推定された頭部領域に含まれない場合は、当該画素を前記第２の領域に加えないことを特徴とする請求項５乃至７のいずれか１項に記載の画像処理装置。
画像処理方法であって、
撮像工程と、
前記撮像工程で取得される画像の各画素について、被写体までの距離を赤外線を用いて検出する検出工程と、
前記検出工程で検出された距離と前記撮像工程で取得された画像の各画素の色情報とに基づいて、前記撮像工程で取得された画像から人物領域の画像を抽出する抽出工程と、
を備えることを特徴とする画像処理方法。
請求項９に記載の画像処理方法をコンピュータに実行させるためのプログラム。
遠隔地から送信された画像を第１の投影面に投影する第１の投影手段と、
撮像手段と、
前記撮像手段によって取得される画像の各画素について、被写体までの距離を赤外線を用いて検出する検出手段と、
前記検出手段によって検出された距離と前記撮像手段によって取得された画像の各画素の色情報とに基づいて、前記撮像手段によって取得された画像から人物領域の画像を抽出する抽出手段と、
前記抽出手段による抽出がなされた人物領域の画像を、前記遠隔地に備えられた第２の投影面に投影する第２の投影手段と、
を備えることを特徴とするコミュニケーションシステム。