JP2006054830A

JP2006054830A - 画像圧縮通信方法及び装置

Info

Publication number: JP2006054830A
Application number: JP2004236812A
Authority: JP
Inventors: Yasunari Hatasawa; 泰成畠澤; Kazuhiko Ueda; 和彦上田; Masami Ogata; 昌美緒形
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-08-16
Filing date: 2004-08-16
Publication date: 2006-02-23

Abstract

【課題】参加者の表示画面に対する興味領域を含む視線位置をリアルタイムに検出し、映像画質の劣化を参加者に意識させることない、かつ通信の低コスト化を図る。
【解決手段】視線領域予測手段１１６により通信相手からの過去の視線注視領域に対する視線位置データを基に現時刻における通信相手である参加者Ｂ，Ｃの表示画面に対する視線領域の変化を予測して視線領域予測データを求め、この視線領域予測データに基づいて圧縮率設定手段１１７により参加者Ｂ，Ｃの視線が注がれると予測される視線領域の映像の圧縮率が他の領域の映像の圧縮率より低い値になるように圧縮率を領域毎に設定し、映像圧縮手段により、上記領域の映像を設定された圧縮率で圧縮して送信手段１１４に出力する構成にした。
【選択図】図１

Description

本発明は、テレビ会議システムのように相互に映像を送り合ってコミュニケーションを成立させるシステムにおいて、参加者の視線が表示画面中のどの映像領域を注がれているか表す視線位置情報を参加者毎に検出し、この視線位置情報を映像信号に共に通信相手である送信側と受信側との相互間で送信し合い、この受信した視線位置情報に基づいて、送信側から送信される注視領域の映像の圧縮率を変更し、もしくは必要に応じて参加者の注視領域がどこかを明示可能に映像編集できるようにした画像圧縮通信方法及び装置に関する。

２地点間またはそれ以上の地点間を通信回線で接続し、参加者相互に映像を送り合ってコミュニケーションを可能にしたテレビ会議システムは、一般的に各参加者の顔画像をそれぞれ伝送し合い、相手の様子をモニタの表示画面に表示するとともに、この表示画面を見ながら双方でコミュニケーションが行い得るように構成される。特に、多地点間のテレビ会議システムでは、参加した複数の相手の顔画像をモニタ画面に同時に表示して、参加者全員が互いの様子を見ながら会議ができるように構成されている（例えば非特許文献１参照）。

また、従来においては、参加者の体感画質を低下させることなく高い圧縮率を実現し、通信経路の転送負荷を軽減させるために、参加者の視線データを抽出し、この視線データに基づいて視線近傍である中心視野の画像データは低圧縮率に、視野から遠ざかるほど高圧縮率になるように圧縮処理を施す画像圧縮通信システムが知られている（例えば特許文献１参照）。
電子情報通信学会技術報告ＩＥ９０−４９、１９９０年発行、「Ｂ−ＩＳＤＮ用多地点間マルチメディア通信会議システムＰＭＴＣ」特許第３２６３２７８号

しかし、非特許文献１に示すようなテレビ会議システムでは、可能な限り高速かつ確実に音声と映像を送受信する必要があるため、画質をある程度落とした（圧縮率を上げた）映像を一律に作成して送信するようにしている。その結果、高い解像度の映像を得ることができない。また、資料等を画面全体に表示する場合、相手が画面の何処を見ているのかが分からないため、常に相手の声に合わせて資料を見ていかなければならず、自分のペースで見ることができないなどの問題がある。
また、通常のテレビ会議システムの場合、カメラで映した映像をMPEG形式などで圧縮して送信する。このMPEG形式における圧縮は、映像を基準として行うため（映像中で、動きがあるかないかなど）、映像を受信する映像受信者が映像中の何処を見ているかなどといった情報が圧縮過程で考慮されることはない。

また、機密性の高い資料など、電子メールを介して相手に送信したくない資料を参加者相互で利用する場合は、カメラを使って資料を撮影し映像で送信するようにしている。ところが、リアルタイム性が要求される会議システムの場合、映像の送信量をできるだけ小さく押さえるために、比較的高い圧縮率で映像を圧縮し送信するようにしている。そのため、資料の文字などが読みにくいといった問題があった。さらに、映像のサイズを小さくするために、資料のみを映像として送信することが多い。そのため、映像送信者が、今資料の何処を説明しているかが解かりにくいなどの問題も生じる。
また、特許文献１に示すような画像圧縮通信システムでは、次に述べるような問題がある。
すなわち、人の興味領域に応じて圧縮率を変化させる場合でも、人の興味はある領域を暫く注目した後で、まったく違う領域に向くことがしばしばある。このような場合、表示画面上での人の興味領域は突然変わる場合があるため、興味の向いている領域の映像だけを低圧縮にしていると、人の興味領域の変化速度に、システムの興味領域変化の把握速度が追いつかなくなる。その結果、興味の移った先の画質が劣化してしまい、参加者は劣化した画像を認知することになり、強いストレスを感じてしまう。

本発明は、このような従来の問題を解決するためになされたもので、参加者の表示画面に対する興味領域を含めた視線位置をリアルタイムに検出可能にし、かつ映像送信側参加者が見ている映像領域を通信相手に明示可能にし、併せて映像画質の劣化を参加者に意識させることない、かつ通信の低コスト化が可能な画像圧縮通信方法及び装置を提供することを目的とする。

上記目的を達成するために本発明は、少なくとも参加者自身の映像を含む映像信号を圧縮して参加者相互間で送受し合うことによりコミュニケーションを可能にする画像圧縮通信方法であって、参加者毎に設けられた映像表示手段及び参加者映像取得用カメラを有し、参加者注視領域検出手段が、前記参加者映像取得用カメラで取得された映像信号を基にして参加者の視線が前記映像表示手段の表示画面中のどの領域に注がれているか表す視線位置データを検出するステップと、送信手段が、前記参加者映像取得用カメラで取得された映像信号に前記参加者注視領域検出手段で検出された視線位置データを付加して通信相手へ送信するステップと、受信手段が、前記通信相手から送信されてくる映像信号及び該映像信号に付加された視線位置データを受信するステップと、視線領域予測手段が、前記受信手段で受信された通信相手からの視線位置データを現時刻ｔより所定時間手前の時刻ｔ−１における過去の視線注視領域に対する視線位置データとし、該過去の視線位置データを基に現時刻ｔにおける通信相手である参加者の表示画面に対する視線注視領域の変化を予測して視線領域予測データを求めるステップと、圧縮率設定手段が、前記視線領域予測データに基づいて前記参加者の視線が注がれると予測される視線注視領域の映像の圧縮率が他の領域の映像の圧縮率より低い値になるように圧縮率を領域毎に設定するステップと、映像圧縮手段が、前記各領域の映像を前記圧縮率設定手段で設定された圧縮率で圧縮して前記送信手段に出力するステップとを有することを特徴とする。

また、本発明は、少なくとも参加者自身の映像を含む映像信号を圧縮して参加者相互間で送受し合うことによりコミュニケーションを可能にする画像圧縮通信装置であって、参加者毎に設けられ通信相手である参加者から送信されてくる映像を表示する映像表示手段と、参加者毎に設けられ、少なくとも参加者自身を撮影する少なくとも１つの参加者映像取得用カメラと、前記参加者映像取得用カメラで取得された映像信号を基にして参加者の視線が前記映像表示手段の表示画面中のどの領域に注がれているか表す視線位置データを検出する参加者注視領域検出手段と、前記参加者映像取得用カメラで取得された映像信号に前記参加者注視領域検出手段で検出された視線位置データを付加して通信相手へ送信する送信手段と、前記通信相手から送信されてくる映像信号及び該映像信号に付加された視線位置データを受信する受信手段と、前記受信手段で受信された通信相手からの視線位置データを現時刻ｔより所定時間手前の時刻ｔ−１における過去の視線注視領域に対する視線位置データとし、該過去の視線位置データを基に現時刻ｔにおける通信相手である参加者の表示画面に対する視線注視領域の変化を予測して視線領域予測データを求める視線領域予測手段と、前記視線領域予測データに基づいて前記参加者の視線が注がれると予測される視線注視領域の映像の圧縮率が他の領域の映像の圧縮率より低い値になるように圧縮率を領域毎に設定する圧縮率設定手段と、前記各領域の映像を前記圧縮率設定手段で設定された圧縮率で圧縮して前記送信手段に出力する映像圧縮手段とを備えることを特徴とする。

本発明の画像圧縮通信方法及び装置によれば、視線領域予測手段により、受信手段で受信された通信相手からの視線位置データを現時刻ｔより所定時間手前の時刻ｔ−１における過去の視線注視領域に対する視線位置データとし、この過去の視線位置データを基に現時刻ｔにおける通信相手である参加者の表示画面に対する視線注視領域の変化を予測して視線領域予測データを求め、圧縮率設定手段により、視線領域予測データに基づいて参加者の視線が注がれると予測される視線注視領域の映像の圧縮率が他の領域の映像の圧縮率より低い値になるように圧縮率を領域毎に設定し、そして、映像圧縮手段により、上記領域の映像を圧縮率設定手段で設定された圧縮率で圧縮して送信手段に出力する構成にしたので、参加者の表示画面に対する興味領域を含めた視線位置をリアルタイムに検出することが可能になるとともに、映像画質の劣化を参加者に意識させることない、かつ通信の低コスト化が可能な画像圧縮通信を実現できる。

また、本発明によれば、映像編集手段により、視線位置情報更新手段で更新された視線位置データに基づいて参加者注視領域検出手段で検出された送信側参加者の表示画面に対する視線位置をマーキング用の映像情報に編集し、このメーキング情報に基づいて受信側参加者の表示画面の送信側参加者の視線位置を映像的に指示するように構成したので、映像送信側参加者が見ている映像領域を通信相手に明示することができる。

参加者の視線位置(興味領域) をリアルタイムに検出可能にし、併せて通信相手同士が自分の見ている領域を相手に明示でき、かつ画質の劣化を参加者に意識させることない画像圧縮通信方法及び装置を提供するという目的は、映像の送信側参加者が映像を圧縮する際に、映像を受信する参加者が、送信側参加者の送信した映像のどの領域を注目しているかの視線位置データを取得し、この視線位置データ及び過去の視線位置データと画像の特徴から現在の視線位置データを予測し、この予測視線位置データに基づいて上記注目している領域に対する映像の圧縮率が下げられるように設定し、また、送信側参加者の映像に対する受信側参加者の興味が向きやすい領域を予め求めておき、この興味領域に対する映像の圧縮率を中程度とし、それ以外の領域の映像の圧縮率は高め、そして、参加者自身が受信した映像の何処を見ているかという情報を、参加者自身が送信する映像に付加して送信することによって実現した。

以下、本発明の実施例１について図１〜図８を参照して説明する。
図１は本発明の画像圧縮通信方法を適用したテレビ会議システムの全体の構成を示す概略説明図、図２は本実施例におけるテレビ会議しステムの参加者毎に設けられる画像圧縮通信装置の一例を示す機能ブロック図、図３は本実施例における参加者と映像表示装置と参加者映像取得用カメラとの位置関係を示す説明図、図４は本実施例における映像表示装置の表示画面に対する参加者の顔領域の位置関係を求めるための説明図、図５は本実施例における映像表示装置の表示画面中で見ている参加者の視線位置を表す説明図、図６は本実施例における映像表示装置の表示画面に対する視線領域の位置データを模式的に示した説明図、図７は本実施例における映像表示装置の表示画面での視線位置をマーキングした場合の映像編集例を示す説明図、図８は本実施例における画像圧縮通信装置の動作を説明するためのフローチャートである。

図１において、テレビ会議システムは参加者Ａ，Ｂ，Ｃ・・・毎に設けられた画像圧縮通信装置１１Ａ，１１Ｂ，１１Ｃ・・・を備えている。そして、この各画像圧縮通信装置１１Ａ，１１Ｂ，１１Ｃ・・・は、図２に示すように、映像表示装置（請求項の映像表示手段に相当する）１１１、一対の参加者映像取得用カメラ１１２、参加者注視領域検出手段１１３、送信手段１１４、受信手段１１５、視線領域予測手段１１６、圧縮率設定手段１１７、映像圧縮手段１１８、視線位置データ更新手段１１９、興味領域検出手段１２０、映像編集手段１２１を備えている。
なお、各参加者Ａ，Ｂ，Ｃ・・・で送受信し合う情報には、参加者映像取得用カメラ１１２で撮影された映像のみに限らず、音声なども同時に送受信し合う構成になっている。

映像表示装置１１１は、参加者Ａ，Ｂ，Ｃ・・・毎に設けられ、参加者自身を除く通信相手である他の参加者から送信されてくる映像を表示するものである。また、参加者映像取得用カメラ１１２は参加者自身及び映像で送信したい機密性の高い資料やグラフなどを撮影するもので、参加者Ａ，Ｂ，Ｃ・・・毎に一対ずつ設けられている。即ち、図１及び図３に示すように、映像表示装置１１１の表示画面上における上端の左右個所に、参加者に向けて配置され、そして、この左右両参加者映像取得用カメラ１１２の間隔は、参加者の表示画面に対する視線の位置を正確に求めるために表示画面のＸ軸方向の寸法に相当する距離Ｌに設定されている。

参加者注視領域検出手段１１３は、参加者映像取得用カメラ１１２で取得された映像信号を基にして参加者の視線が映像表示装置１１１の表示画面中のどの領域に注がれているか表す視線注視領域の視線位置データを検出するものである。
送信手段１１４は、参加者映像取得用カメラ１１２で取得された映像信号に参加者注視領域検出手段１１３で検出された視線位置データを付加して通信相手である参加者へ送信するものである。
受信手段１１５は、通信相手からである参加者送信されてくる映像信号及び該映像信号に付加された視線位置データを受信するものである。

視線領域予測手段１１６は、受信手段１１５で受信された通信相手からの視線位置データを現時刻ｔより所定時間手前の時刻ｔ−１における過去の視線注視領域に対する視線位置データとし、この過去の視線位置データを基に現時刻ｔにおける通信相手の表示画面に対する視線領域の変化を予測して視線領域予測データを求めるものである。
圧縮率設定手段１１７は、視線領域予測手段１１６からの視線領域予測データに基づいて参加者の視線が注がれると予測される視線領域の映像の圧縮率が他の領域の映像の圧縮率より低い値になるように圧縮率を領域毎に別々に設定するものである。
映像圧縮手段１１８は、予測される視線領域の映像を圧縮率設定手段１１７で設定された圧縮率で圧縮して送信手段１１４に出力するものである。

視線位置データ更新手段１１９は、参加者注視領域検出手段１１３で視線位置データが検出される毎に送信手段１１４により通信相手へ送信される映像信号に付加される視線位置データを更新するものであり、この更新される視線位置データは、通信相手である参加者からの映像信号を受信して映像表示装置１１１に映像を表示した時に映像表示装置１１１の表示画面を見る参加者自身を参加者映像取得用カメラ１１２で撮影し、この映像信号を基にして現在時刻における参加者の表示画面に対する注視領域の視線位置データを示している。
興味領域検出手段１２０は、参加者注視領域検出手段１１３で検出した視線位置データと参加者映像取得用カメラ１１２で撮影された映像信号を基にして参加者の興味を引きそうな領域の映像を興味領域として検出するものである。また、この興味領域検出手段１２０で検出された興味領域の映像は、画質の劣化が参加者に意識させることない中程度の圧縮率になるように映像圧縮手段１１８により圧縮されて送信手段１１４に出力される。
映像編集手段１２１は、視線位置データ更新手段１１９で更新された視線位置データに基づいて参加者注視領域検出手段１１３で検出された送信側参加者の表示画面に対する視線位置をマーキング用の映像情報に編集するものである。また、この映像編集手段１２１で編集されたマーキング用情報は映像圧縮手段１１８で圧縮されて送信手段１１４に出力される。

次に、本実施例１の動作について説明する。
図１に示すように、参加者Ａには参加者Ｂ，Ｃ・・・からの映像信号が通信回線１４を通して送信されてきており、この映像信号を受信手段１１５で受信した参加者Ａの映像表示装置１１１には参加者Ｂ，Ｃ・・・から送られてきた映像、例えば参加者Ａを除く参加者Ｂ，Ｃ・・・の顔画像が表示されている。そして、この表示映像を見ている参加者Ａの映像を、左右の参加者映像取得用カメラ１１２を用いて撮影する。この時、参加者映像取得用カメラ１１２と映像表示装置１１１の位置関係は既知であるものとする。また、参加者Ａの参加者映像取得用カメラ１１２で撮影された映像信号は送信手段１１４から通信相手である参加者Ｂ，Ｃ・・・に通信回線１４を通して送信され、その映像表示装置１１１には自身を除く顔画像が同様に表示される。

まず、参加者映像取得用カメラ１１２から得られた映像信号に対し、参加者注視領域検出手段１１３により以下に述べる処理を施し、参加者Ａが受信した参加者Ｂ，Ｃ・・・の映像の何処に視線を向けているか(注目しているか)を検出する。
すなわち、参加者映像取得用カメラ１１２で撮影した映像信号を用いてＳＶＭ等の手法により顔画像認識を行い、そして、参加者映像取得用カメラ１１２で撮影した映像信号から、参加者Ａの顔にあたる領域を認識する。システムの性格上、映像送信者は映像表示装置１１１に対して常にほぼ正面を向いているため、論文等で報告されている顔画像認識手法をそのまま利用しても比較的容易に顔領域の認識が可能である。

次いで、映像表示装置１１１の表示画面上における参加者Ａの顔領域を求める。このとき、二つの参加者映像取得用カメラ１１２の光軸１１２Ａは、図４に示すように、お互いに平行であり、そして、参加者映像取得用カメラ１１２を構成するレンズを結ぶ線分（Ｘ−Ｙ平面）は光軸１１２Ａと直交し、さらに、参加者映像取得用カメラ１１２を構成する撮像素子面は光軸１１２Ａと直交する同一平面内に存在し、レンズの焦点距離ｆ（＝Ｈ）は等しい。
参加者映像取得用カメラ１１２のレンズの中心から対応する顔領域が二つの参加者映像取得用カメラにおいてずれている距離をそれぞれＸ^ｉ _Ｌ＝（_X ^ｉ _Ｌ，ｙ^ｉ _Ｌ，−Ｈ_)，Ｘ^ｉ _Ｒ＝（_X ^ｉ _Ｒ，ｙ^ｉ _Ｒ，−Ｈ）とする。ここで、ｉは、参加者Ａ，Ｂ，Ｃ・・・を表しているとする。以下の文章中では、例として参加者Ａでの処理について説明しているが、実際には、参加者Ｂ，Ｃ・・・についても同様に適用される。
このテレビ会議システムにおいて、参加者Ａの顔領域の映像表示画面上での位置は、数１で与えられる。

参加者Ａの視線方向を求める手法として、ここでは画像認識による手法を用いる。すなわち、二つの参加者映像取得用カメラ１１２で撮影した映像信号を基にして参加者注視領域検出手段１１３から得た顔領域から三次元顔画像モデルを作成し、三次元顔データベースとマッチングを取ることにより顔の方向を求め、さらに顔画像の内眼球部分に当たる領域において、黒目と白目の位置関係から眼球の方向を求める。顔の方向と眼球の方向から視線の方向を得る。
映像送信側参加者が映像表示装置１１１の表示画面中で見ている座標（Ｖ^ｉ _Ｘ，Ｖ^ｉ _Ｙ，0）
は、数２で与えられる。

図４は、この時の表示画面に対する参加者の視線位置を表している。
ここで、参加者の視線位置は（Ｖ^ｉ _Ｘ，Ｖ^ｉ _Ｙ，0）一点ではなく、（Ｖ^ｉ _Ｘ，Ｖ^ｉ _Ｙ，0）を中心にして半径ｒの円内部に視線が向いているとする。現時刻ｔで視線が向いているかどうかを表すＸ×Ｙの行列Ｖ^ｉ（ｔ）を数３で示すように作成する。

この行列は図３で示した表示画面上の座標（０，０，０）〜（Ｘ，Ｙ，０）の位置と対応しており、行列の要素v₁₁が映像表示画面の左上を示し、要素v_xyが右下を示している。現時刻ｔにおいてｔ−1以前の映像受信者側からの映像信号を受信しているとする。視線位置データを時刻ｔ−Ｔから現時刻ｔまで加算する式は数４で与えられ、この数４から参加者Ａの視線位置メタ情報Ｖ^ｉ _meta（ｔ）が得られる。この視線位置メタ情報は、請求項及び実施例で述べた視線位置データに相当する。

この時の参加者Ａの視線位置メタ情報を映像表示装置１１１の表示画面での視線領域として模式的に表すと図６に示すようになる。すなわち、要素Ｖ_ｉｊの値が大きいほど表示画面上での視線領域が白くなり、小さいほど視線領域が黒くなる。

次に、参加者Ａが参加者Ｂ，Ｃ・・・の視線位置メタ情報を受け取ったものとし、複数の視線位置メタ情報をどのように処理するかについて述べる。
視線位置メタ情報Ｖ^ｉ _meta（ｔ）は、参加者Ａが時刻ｔまでに受信した映像において、視線が何処に向いていたかを表している。しかし、参加者Ａの映像表示装置１１１に表示された参加者Ｂ，Ｃ・・・の映像は、参加者Ｂ，Ｃ・・・が送信した時刻から、少し遅れた時刻に参加者Ａが受信する（ネットワークを通じて送信するため、ネットワークの状況などによって、必ず遅延が生じるため）。つまり、参加者Ｂ，Ｃ・・・の参加者Ａの過去の映像に対する視線位置メタ情報であることになる。そのため、現在参加者Ａが送信しようとする映像では、興味がそれ、異なる領域に興味が向いている可能性がある。
そこで、参加者Ａの映像送信側では、視線領域予測手段１１６により参加者Ｂ，Ｃ・・・から受信した、参加者Ｂ，Ｃ・・・の過去の視線位置メタ情報を用いて時刻ｔでの参加者Ｂ，Ｃ・・・の視線領域(興味領域)を予測する。

まず、参加者Ｂ，Ｃ・・・それぞれの興味領域を視線領域予測手段１１６により別個に予測する。すなわち参加者Ｂ，Ｃ・・・それぞれから受信した視線位置メタ情報を基にして、視線のパターンを次のように分類する。
（１）視線が一定時間ある領域に留まっている。注目している領域に動きが無い(注視)。
（２）視線が一定時間ある領域に留まっている。注目している領域に動きがある(追従初期)。
（３）視線が一定の速度で動いている。注目している領域に動きがある(追従中)。
（４）視線が一定の速度で動いている。注目している領域の動きが止まった、もしくは画面外に出た(追従終了)。
（５）視線がランダムな方向に動いている(探索中)。
（６）視線が向いていない。
この場合、映像中で動きがないかは、時刻ｔ−1と時刻ｔの両画像において、時刻ｔ−1の画像で参加者Ｂ，Ｃ・・・の注目している領域を、対応する時刻ｔでの領域近傍においてブロックマッチングを行い、動きベクトルを求めて判断する。

上記（１）の場合、参加者Ｂ，Ｃ・・・は時刻t−1まで、ある領域を注目していると考えられる。また、現時刻ｔにおいても、その領域に特に動きはない。そのため、現時刻ｔにおいても注目領域が変動することはまれなため、現時刻ｔでの視線位置は時刻ｔ−1での視線位置から変化が無いものとする。
上記（２）の場合、参加者Ｂ，Ｃ・・・は時刻t−1まで、ある領域を注目していると考えられる。しかし、現時刻ｔにおいて、その領域に動きが生じている。そのため、参加者Ｂ，Ｃ・・・はその動きを追従視すると予想されるので、参加者Ｂ，Ｃ・・・の現時刻ｔでの視線位置は、時刻ｔ−１での視線位置から動きベクトル分ずれた先とする。
上記（３）の場合、参加者Ｂ，Ｃ・・・は動きのある物体を追従視中と考えられる。そのため、参加者Ｂ，Ｃ・・・は引き続き、追従視を行うと予想されるので、現時刻ｔの参加者Ｂ，Ｃ・・・の視線位置は、時刻ｔ−１での視線位置から動きベクトル分ずれた先とする。
上記（４）の場合、参加者Ｂ，Ｃ・・・は動きのある物体を追従視中と考えられる。しかしながら、物体の動きは止まったか画面外に出てしまっているので、視線位置は時刻ｔ−1での視線位置から変化がないものとする。
また、上記（５）、（６）の場合、参加者Ｂ，Ｃ・・・は視点が定まっていないか注目していないので、この場合映像を見ていないものとする。
このようにして予測した時刻ｔでの視線位置データに基づいて情報視線位置データ更新手段１１９により参加者Ｂ，Ｃ・・・の視線領域メタ情報Ｖ^ｉ _meta（ｔ-1）をＶ^ｉ _meta（ｔ）
に更新する。
また、このようにして作成した参加者Ｂ，Ｃ・・・の視線領域メタ情報を重ね合わせ、単一の視線位置メタ情報を作成する。この単一の視線位置メタ情報に基づき、視線位置メタ情報の値がある閾値を超えている領域を注目領域と定める。

次に、参加者Ａの映像から、参加者Ｂ，Ｃ・・・の興味領域が移りそうな領域を求める場合について説明する。この場合の興味領域が移りそうな領域の具体的な例は以下の領域となる。
（ａ）動領域
（ｂ）映像送信者特徴領域（顔、手、視線位置）
（ｃ）映像送信者動作による指定領域（指の指し示す先）

映像信号中、動領域に関しては例えば複数フレーム間のフレーム差分により求める。この際、ノイズなどの影響によって、導出されるフレームには微小な動領域が多数含まれることになるので、動領域の導出結果において、伸縮処理等を行って微小な動領域を除去する必要がある。
また、映像信号中、参加者Ａの特徴のうち、顔領域に関しては、参加者Ａの視線情報を取得する際に求めた顔領域をそのまま利用する。手などの領域に関しては輝度信号をニューラルネットワーク等を用いて検出し、手の候補領域を求める。その後で、肌色検出を行い手の領域を判定する。また、視線位置検出の段階において、参加者Ａの見ている領域が画面中に含まれていた場合、その領域も候補とする。
また、映像信号中、参加者Ａの手領域でジェスチャー認識を行い、何かを指し示す動作をしていた場合は、その指し示す先を参加者Ａの動作による指定領域とする。

次に、参加者Ａから参加者Ｂ，Ｃ・・・に送信される映像が機密性の高い資料やグラフなどであった場合、参加者Ｂ，Ｃ・・・の映像表示装置１１１の表示画面全体に資料が表示されると参加者Ａが説明している箇所が参加者Ｂ，Ｃ・・・に伝わりにくい。このような場合、参加者Ａの視線位置Ｖ⁰ _meta（ｔ）を表示画面上でマーキングするなどの映像編集処理する場合について説明する。
すなわち、参加者Ａが表示画面上で注視している視線位置データを映像編集手段１２１により、参加者Ａの説明箇所を明確に指し示す図７に示すようなマーキング画像７１に編集する。これにより、映像送信側参加者が見ている映像領域を通信相手に明示することができるとともに資料中、今説明している領域が何処なのかの把握が容易になる。

上記のようにして、必要であれば映像に対して編集を行った映像を、先に求めた参加者Ｂ，Ｃ・・・の視線位置予測情報、動領域情報、参加者Ａの特徴領域情報、参加者Ａの動作による指定領域情報、参加者Ａの視線位置情報とで圧縮処理を行う。
また、参加者Ｂ，Ｃ・・・の視線位置予測情報の要素の値が大きい領域は、映像受信者の視線が向いている可能性が高いので、その視線領域の映像の圧縮率を低めに設定し、また、動領域、参加者Ａの特徴領域、参加者Ａの動作による指定領域、参加者Ａの視線位置領域は、次に参加者Ｂ，Ｃ・・・の興味が向く可能性が高いので、その視線領域の映像の圧縮率を中程度に設定し、それ以外の領域の映像の圧縮率を高めに設定する。
このような処理により、高圧縮による映像の劣化を参加者Ｂ，Ｃ・・・に意識させることなしに、通信帯域の節約が可能になる。そして、圧縮した映像のヘッダーの参加者データ欄などに参加者Ａの視線位置メタ情報を付加して送信する。以下、この送受信を繰り返し行う。

次に、図８に示すフローチャートについて説明する。この図８は参加者Ａの画像圧縮通信装置１１Ａの動作手順を説明するものであるが、参加者Ｂ，Ｃ・・・の画像圧縮通信装置１１Ｂ，１１Ｃ・・・についても同様である。
図８において、参加者Ｂ，Ｃ・・・から通信回線を通して送信されてくる映像信号と、この映像信号に付加された視線位置データは受信手段１１５で受信される（ステップＳ１１）。受信手段１１５で受信された参加者Ｂ，Ｃ・・・からの各映像信号は映像表示装置１１２に出力され、参加者Ｂ，Ｃ・・・の顔画像などを映像表示装置１１２に図１に示すように表示する（ステップＳ１２）。
次いで、映像表示装置１１１の表示画面を見ている参加者Ａを２つの参加者映像取得用カメラ１１２で撮影して、参加者Ａの映像信号を取得する（ステップＳ１３）。次いで、参加者注視領域検出手段１１３により、参加者映像取得用カメラ１１２で取得された映像信号を基にして参加者Ａの視線が映像表示装置１１１の表示画面中のどの領域に注がれているか表す視線位置データを検出し取得する（ステップＳ１４）。その後、視線位置データ更新手段１１９により、参加者注視領域検出手段１１３で視線位置データが検出される毎に参加者Ｂ，Ｃ・・・へ送信される映像信号に付加される視線位置データを更新する（ステップＳ１５）。

一方、視線領域予測手段１１６では、受信手段１１５で受信された参加者Ｂ，Ｃ・・・からの視線位置データを現時刻ｔより所定時間手前の時刻ｔ−１における過去の視線注視領域に対する視線位置データとし、この過去の視線位置データを基に現時刻ｔにおける参加者Ｂ，Ｃ・・・の表示画面に対する視線領域の変化を予測して視線領域予測データを求める（ステップＳ１６）。
圧縮率設定手段１１７では、視線領域予測手段１１６からの視線領域予測データに基づいて参加者の視線が注がれると予測される視線領域の映像の圧縮率を領域毎に設定する（ステップＳ１７）。その後、映像圧縮手段１１８では、予測される視線領域の映像を圧縮率設定手段１１７で設定された圧縮率で圧縮する（ステップＳ１８）。この映像圧縮手段１１８により圧縮された送信側参加者Ａからの映像信号には視線位置データ更新手段１１９で更新された視線位置データが付加される（ステップＳ１９）。そして、この送信側参加者Ａの映像信号と視線位置データ（視線位置メタ情報）は送信手段１１４から通信回線１４を通して参加者Ｂ，Ｃ・・・へ送信される（ステップＳ２０）。

また、映像編集手段１２１では、視線位置データ更新手段１１９で更新された視線位置データに基づいて参加者注視領域検出手段１１３で検出された送信側参加者Ａの表示画面に対する視線位置がマーキング用の映像情報に編集され（ステップＳ２１）、このマーキング用映像情報はステップＳ１８で示す映像圧縮手段１１８で圧縮された後、送信手段１１４から通信回線１４を通して参加者Ｂ，Ｃ・・・へ送信される（ステップＳ２０）。

このような本実施例によれば、次のような効果が得られる。
画質の劣化を参加者に意識させずに、通信の低コスト化が実現できる。
２．視線情報は映像に付加されているので、今までの通信環境をそのまま利用できる。
３．自分の見ている領域を相手に明示できる。
４．視線位置の予測を行うことで、リアルタイムでの参加者の視線位置(興味領域)が求めることができる。
５．次に参加者の視線が移りそうな領域を予め求め、その領域の圧縮率を中程度に下げておくことで、参加者の興味領域がそれた初期の段階においても、画質の劣化を参加者に意識させることがない。
６．視線位置のメタ情報を用いることで、脇見などに対して頑強なテレビ会議システムを構築することができる。

本発明の画像圧縮通信方法を適用したテレビ会議しステムの全体の構成を示す概略説明図である。本実施例におけるテレビ会議しステムの参加者毎に設けられる画像圧縮通信装置の一例を示す機能ブロック図である。本実施例における参加者と映像表示装置と参加者映像取得用カメラとの位置関係を示す説明図である。本実施例における映像表示装置の表示画面に対する参加者の顔領域の位置関係を求めるための説明図である。本実施例における映像表示装置の表示画面中で見ている参加者の視線位置を表す説明図である。本実施例における映像表示装置の表示画面に対する視線領域の位置データを模式的に示した説明図である。本実施例における映像表示装置の表示画面での視線位置をマーキングした場合の映像編集例を示す説明図である。本実施例における画像圧縮通信装置の動作を説明するためのフローチャートである。

符号の説明

Ａ，Ｂ，Ｃ……参加者、１１Ａ，１１Ｂ，１１Ｃ……画像圧縮通信装置、１１１……映像表示装置、１１２……参加者映像取得用カメラ、１１３……参加者注視領域検出手段、１１４……送信手段、１１５……受信手段、１１６……視線領域予測手段、１１７……圧縮率設定手段、１１８……映像圧縮手段、１１９……視線位置データ更新手段、１２０……興味領域検出手段、１２１……映像編集手段。

Claims

少なくとも参加者自身の映像を含む映像信号を圧縮して参加者相互間で送受し合うことによりコミュニケーションを可能にする画像圧縮通信方法であって、
参加者毎に設けられた映像表示手段及び参加者映像取得用カメラを有し、
参加者注視領域検出手段が、前記参加者映像取得用カメラで取得された映像信号を基にして参加者の視線が前記映像表示手段の表示画面中のどの領域に注がれているか表す視線注視領域の視線位置データを検出するステップと、
送信手段が、前記参加者映像取得用カメラで取得された映像信号に前記参加者注視領域検出手段で検出された視線位置データを付加して通信相手へ送信するステップと、
受信手段が、前記通信相手から送信されてくる映像信号及び該映像信号に付加された視線位置データを受信するステップと、
視線領域予測手段が、前記受信手段で受信された通信相手からの視線位置データを現時刻ｔより所定時間手前の時刻ｔ−１における過去の視線注視領域に対する視線位置データとし、該過去の視線位置データを基に現時刻ｔにおける通信相手である参加者の表示画面に対する視線注視領域の変化を予測して視線領域予測データを求めるステップと、
圧縮率設定手段が、前記視線領域予測データに基づいて前記参加者の視線が注がれると予測される視線注視領域の映像の圧縮率が他の領域の映像の圧縮率より低い値になるように圧縮率を領域毎に設定するステップと、
映像圧縮手段が、前記各領域の映像を前記圧縮率設定手段で設定された圧縮率で圧縮して前記送信手段に出力するステップと、
を有することを特徴とする画像圧縮通信方法。
前記参加者注視領域検出手段が、通信相手からの映像信号を受信して前記映像表示手段に映像を表示した時に該映像表示手段の表示画面を見る参加者自身を前記参加者映像取得用カメラで撮影するとともに該参加者映像取得用カメラで撮影された映像信号を基にして現在時刻における参加者の前記表示画面に対する視線注視領域の視線位置データを検出するステップと、視線位置データ更新手段が、前記視線位置データが検出される毎に前記送信手段により通信相手へ送信される映像信号に付加される視線位置データを更新するステップを有することを特徴とする請求項１記載の画像圧縮通信方法。
前記参加者注視領域検出手段が、通信相手からの映像信号を受信して前記映像表示手段に映像を表示した時に該映像表示手段の表示画面を見る参加者自身を前記参加者映像取得用カメラで撮影するとともに該参加者映像取得用カメラで撮影された映像信号を基にして現在時刻における参加者の前記表示画面に対する視線注視領域の視線位置データを検出するステップと、興味領域検出手段が、前記視線位置データと前記参加者映像取得用カメラで撮影された映像信号を基にして参加者の興味を引きそうな領域の映像を興味領域として検出するステップと、前記映像圧縮手段が、前記興味領域検出手段で検出された興味領域の映像を、画質の劣化が参加者に意識させることない中程度の圧縮率になるように圧縮して前記送信手段に出力するステップと有することを特徴とする請求項１記載の画像圧縮通信方法。
前記参加者注視領域検出手段が、通信相手からの映像信号を受信して前記映像表示手段に映像を表示した時に該映像表示手段の表示画面を見る参加者自身を前記参加者映像取得用カメラで撮影するとともに該参加者映像取得用カメラで撮影された映像信号を基にして現在時刻における参加者の前記表示画面に対する視線注視領域の視線位置情報を検出するステップと、視線位置データ更新手段が、前記視線位置データが検出される毎に前記送信手段により通信相手へ送信される映像信号に付加された視線位置データを更新するステップと、映像編集手段が、前記視線位置データ更新手段で更新された視線位置データに基づいて前記参加者視線注視領域検出手段で検出された送信側参加者の表示画面に対する視線位置をマーキング用の映像情報に編集するステップと、前記映像圧縮手段が、前記映像編集手段で編集されたマーキング用映像情報を圧縮して前記送信手段に出力するステップを有することを特徴とする請求項１記載の画像圧縮通信方法。
少なくとも参加者自身の映像を含む映像信号を圧縮して参加者相互間で送受し合うことによりコミュニケーションを可能にする画像圧縮通信装置であって、
参加者毎に設けられ通信相手である参加者から送信されてくる映像を表示する映像表示手段と、
参加者毎に設けられ、少なくとも参加者自身を撮影する少なくとも１つの参加者映像取得用カメラと、
前記参加者映像取得用カメラで取得された映像信号を基にして参加者の視線が前記映像表示手段の表示画面中のどの領域に注がれているか表す視線注視領域の視線位置データを検出する参加者注視領域検出手段と、
前記参加者映像取得用カメラで取得された映像信号に前記参加者注視領域検出手段で検出された視線位置データを付加して通信相手へ送信する送信手段と、
前記通信相手から送信されてくる映像信号及び該映像信号に付加された視線位置データを受信する受信手段と、
前記受信手段で受信された通信相手からの視線位置データを現時刻ｔより所定時間手前の時刻ｔ−１における過去の視線注視領域に対する視線位置データとし、該過去の視線位置データを基に現時刻ｔにおける通信相手である参加者の表示画面に対する視線注視領域の変化を予測して視線領域予測データを求める視線領域予測手段と、
前記視線領域予測データに基づいて前記参加者の視線が注がれると予測される視線注視領域の映像の圧縮率が他の領域の映像の圧縮率より低い値になるように圧縮率を領域毎に設定する圧縮率設定手段と、
前記各領域の映像を前記圧縮率設定手段で設定された圧縮率で圧縮して前記送信手段に出力する映像圧縮手段と、
を備えることを特徴とする画像圧縮通信装置。
通信相手からの映像信号を受信して前記映像表示手段に映像を表示した時に該映像表示手段の表示画面を見る参加者自身を前記参加者映像取得用カメラで撮影するとともに該参加者映像取得用カメラで撮影された映像信号を基にして現在時刻における参加者の前記表示画面に対する視線注視領域の視線位置データを前記参加者注視領域検出手段で検出し、この視線位置データが検出される毎に前記送信手段により通信相手へ送信される映像信号に付加される視線位置データを更新する視線位置データ更新手段を備えることを特徴とする請求項５記載の画像圧縮通信装置。
通信相手からの映像信号を受信して前記映像表示手段に映像を表示した時に該映像表示手段の表示画面を見る参加者自身を前記参加者映像取得用カメラで撮影するとともに該参加者映像取得用カメラで撮影された映像信号を基にして現在時刻における参加者の前記表示画面に対する視線注視領域の視線位置データを前記参加者注視領域検出手段で検出し、この視線位置データと前記参加者映像取得用カメラで撮影された映像信号を基にして参加者の興味を引きそうな領域の映像を興味領域として検出する興味領域検出手段を備え、前記興味領域検出手段で検出された興味領域の映像を、画質の劣化が参加者に意識させることない中程度の圧縮率になるように前記映像圧手段で圧縮して前記送信手段に出力することを特徴とする請求項５記載の画像圧縮通信装置。
通信相手からの映像信号を受信して前記映像表示手段に映像を表示した時に該映像表示手段の表示画面を見る参加者自身を前記参加者映像取得用カメラで撮影するとともに該参加者映像取得用カメラで撮影された映像信号を基にして前記参加者注視領域検出手段により現在時刻における参加者の前記表示画面に対する注視領域の視線位置データを検出し、この視線位置データが検出される毎に前記送信手段により通信相手へ送信される映像信号に付加された視線位置データを更新する視線位置データ更新手段と、前記視線位置データ更新手段で更新された視線位置データに基づいて前記参加者注視領域検出手段で検出された送信側参加者の表示画面に対する視線位置をマーキング用の映像情報に編集する映像編集手段を備え、前記映像編集手段で編集されたマーキング用映像情報を前記映像圧縮手段で圧縮して前記送信手段に出力するように構成されていることを特徴とする請求項５記載の画像圧縮通信装置。