JP2017130046A

JP2017130046A - 視線一致顔画像合成方法、テレビ会議システム、及びプログラム

Info

Publication number: JP2017130046A
Application number: JP2016009000A
Authority: JP
Inventors: 隆行黒住; Takayuki Kurozumi; 邦夫柏野; Kunio Kashino; 卓弥井上; Takuya Inoue; 友和高橋; Tomokazu Takahashi; 高嗣平山; Takatsugu Hirayama; 大輔出口; Daisuke Deguchi; 一郎井手; Ichiro Ide; 洋村瀬; Hiroshi Murase
Original assignee: Nagoya University NUC; Nippon Telegraph and Telephone Corp
Current assignee: Nagoya University NUC; Nippon Telegraph and Telephone Corp
Priority date: 2016-01-20
Filing date: 2016-01-20
Publication date: 2017-07-27

Abstract

【課題】視線の一致を精度よく判定して、視線が一致した画像を生成することができる。
【解決手段】特徴抽出部３４が、カメラ入力画像から特徴を抽出し、目開閉判定部３６が、カメラ入力画像の特徴を用いて目の開閉を判定する。目が開いていると判定している場合、対話相手注視判定部３８が、学習された識別器に基づいて、カメラ入力画像が表す対話者が、対話相手を注視しているか否かを判定する。合成部４２が、対話相手を注視していると判定された場合において、カメラ入力画像が表す対話者の目領域に、カメラを注視したときの画像を合成する。
【選択図】図１

Description

本発明は、視線一致顔画像合成方法、テレビ会議システム、及びプログラムに関する。

従来、視線一致顔画像合成方法に関しては、テレビ会議における対話者間の視線一致のための目領域変換手法として、学習を用いずに、目領域を変換する方法が知られている（非特許文献１）。

井上卓弥，高橋友和，平山高嗣，出口大輔，井手一郎，村瀬洋，黒住隆行，柏野邦夫. "テレビ会議における対話者間の視線一致のための目領域変換手法に関する検討". 信学技報, No. PRMU2014-60, pp. 33-38, October 2014.

しかし、上記の非特許文献１の方法では、十分な精度で視線の一致を判定できないという欠点があった。

本発明は、上記の事情を鑑みてなされたもので、視線の一致を精度よく判定して、視線が一致した画像を生成することができる視線一致顔画像合成方法、テレビ会議システム、及びプログラムを提供することを目的とする。

上記の目的を達成するために第１の発明の視線一致顔画像合成方法は、テレビ会議システムにおける視線一致顔画像合成方法であって、対話者を表すカメラ入力画像から特徴を抽出する特徴抽出過程と、前記カメラ入力画像の特徴を用いて目の開閉を判定する目開閉判定過程と、目が開いていると判定している場合において、対話相手を注視しているか否かが既知の顔画像から予め学習された、対話相手を注視しているか否かを識別する識別器と、前記カメラ入力画像の特徴とに基づいて、前記カメラ入力画像が表す対話者が、対話相手を注視しているか否かを判定する対話相手注視判定過程と、前記対話相手を注視していると判定された場合において、前記カメラ入力画像が表す対話者の目領域に、カメラを注視したときの画像を合成する合成過程と、を含んで構成されている。

第２の発明のテレビ会議システムは、対話者を表すカメラ入力画像から特徴を抽出する特徴抽出部と、前記カメラ入力画像の特徴を用いて目の開閉を判定する目開閉判定部と、目が開いていると判定している場合において、対話相手を注視しているか否かが既知の顔画像から予め学習された、対話相手を注視しているか否かを識別する識別器と、前記カメラ入力画像の特徴とに基づいて、前記カメラ入力画像が表す対話者が、対話相手を注視しているか否かを判定する対話相手注視判定部と、前記対話相手を注視していると判定された場合において、前記カメラ入力画像が表す対話者の目領域に、カメラを注視したときの画像を合成する合成部と、を含んで構成されている。

第３の発明の視線一致顔画像合成方法は、テレビ会議システムにおける視線一致顔画像合成方法であって、対話者を表すカメラ入力画像から特徴を抽出する特徴抽出過程と、前記カメラ入力画像の特徴を用いて目の開閉を判定する目開閉判定過程と、目が開いていると判定している場合において、対話者側のディスプレイ上の注視点が既知の顔画像から予め学習された、対話者側のディスプレイ上の各位置について前記位置を注視しているか否かを識別する識別器と、前記カメラ入力画像の特徴とに基づいて、対話者側のディスプレイ上の注視点を判定するディスプレイ上注視点判定過程と、前記対話者側のディスプレイ上の注視点に基づいて、前記カメラ入力画像が表す対話者が対話相手を注視しているか否かを判定する注視相手判定過程と、前記対話相手を注視していると判定された場合において、前記カメラ入力画像が表す対話者の目領域に、前記対話相手に対応する位置を注視したときの画像を合成する合成過程と、を含む。

第４の発明のテレビ会議システムは、対話者を表すカメラ入力画像から特徴を抽出する特徴抽出部と、前記カメラ入力画像の特徴を用いて目の開閉を判定する目開閉判定部と、目が開いていると判定している場合において、対話者側のディスプレイ上の注視点が既知の顔画像から予め学習された、対話者側のディスプレイ上の各位置について前記位置を注視しているか否かを識別する識別器と、前記カメラ入力画像の特徴とに基づいて、対話者側のディスプレイ上の注視点を判定するディスプレイ上注視点判定部と、前記対話者側のディスプレイ上の注視点に基づいて、前記カメラ入力画像が表す対話者が対話相手を注視しているか否かを判定する注視相手判定部と、前記対話相手を注視していると判定された場合において、前記カメラ入力画像が表す対話者の目領域に、前記対話相手に対応する位置を注視したときの画像を合成する合成部と、を含んで構成されている。

本発明のプログラムは、コンピュータに、本発明の視線一致顔画像合成方法の各ステップを実行させるためのプログラムである。

以上説明したように、本発明の視線一致顔画像合成方法、テレビ会議システム、及びプログラムによれば、予め学習された識別器に基づいて、対話相手を注視しているか否か、又は対話者側のディスプレイ上の注視点を判定し、カメラ入力画像が表す対話者の目領域に、カメラ、又は対話相手に対応する位置を注視したときの画像を合成することにより、視線の一致を精度よく判定して、視線が一致した画像を生成することができる、という効果が得られる。

本発明の第１の実施の形態のテレビ会議システムの一構成例を示すブロック図である。カメラとウィンドウの配置を説明するための図である。目領域画像を抽出する方法を説明するための図である。目領域画像の一例を示す図である。本発明の第１の実施の形態のテレビ会議システムにおける学習処理ルーチンの内容を示すフローチャートである。本発明の第１の実施の形態のテレビ会議システムにおける視線一致顔画像合成処理ルーチンの内容を示すフローチャートである。学習用カメラ入力画像を撮像する際に、ディスプレイ上に表示した点の配置を示す図である。実験結果を示す図である。境界付近のデータを除外した場合の実験結果を示す図である。本発明の第２の実施の形態のテレビ会議システムの一構成例を示すブロック図である。カメラとウィンドウの配置を説明するための図である。本発明の第２の実施の形態のテレビ会議システムにおける視線一致顔画像合成処理ルーチンの内容を示すフローチャートである。本発明の第３の実施の形態のテレビ会議システムの一構成例を示すブロック図である。カメラとウィンドウの配置を説明するための図である。本発明の第３の実施の形態のテレビ会議システムにおける画像送信側視線一致顔画像合成処理ルーチンの内容を示すフローチャートである。本発明の第３の実施の形態のテレビ会議システムにおける画像受信側視線一致顔画像合成処理ルーチンの内容を示すフローチャートである。

＜本発明の実施の形態の概要＞
まず、本発明の実施の形態の概要について説明する。本発明の実施の形態は、テレビ会議システムにおいて視線の一致する顔画像を生成するものである。複数の対話者のテレビ会議において、ウィンドウがさまざまな場所に配置してある場合においても、会議参加者に誰が誰に向かって対話しているかをわかりやすく提示するものである。

本発明の実施の形態は、非特許文献１に記載の、テレビ会議における対話者間の視線一致のための目領域変換手法に比べて、視線の一致が既知のデータを使って学習することを可能とした点が主眼である。

＜第１の実施の形態＞

＜テレビ会議システムの構成＞
以下、図面を参照して本発明の第１の実施の形態を詳細に説明する。図１は、本発明の第１の実施の形態のテレビ会議システム１００を示すブロック図である。テレビ会議システム１００は、ＣＰＵと、ＲＡＭと、学習処理ルーチン、及び視線一致顔画像合成処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータを用いて構成され、機能的には次に示すように構成されている。

本実施の形態のテレビ会議システム１００は、図１に示すように、カメラ１０と、演算部２０と、通信部８０と、ディスプレイ９０とを備えている。

図２に示すように、カメラ１０は、対話者の顔を撮像し、カメラ入力画像を、演算部２０へ出力する。ディスプレイ９０は、対話相手の画像を表示したウィンドウ９２を表示し、対話者は、ウィンドウ９２を見ながら対話を行う。

演算部２０は、学習用画像ＤＢ２２、目領域画像抽出部２４、３２、特徴抽出部２６、３４、識別器構築部２８、識別器記憶部３０、目開閉判定部３６、対話相手注視判定部３８、注視画像記憶部４０、合成部４２、及び画面出力部４４を備えている。

学習用画像ＤＢ２２は、ディスプレイ９０上の各位置について、当該位置に配置された１点を対話者が注視しているときにカメラ１０により撮像された学習用カメラ入力画像が記憶されている。ディスプレイ９０上のウィンドウ９２の表示範囲が予め定められており、各学習用カメラ入力画像の注視点が、ウィンドウ９２の表示範囲内であるか否かに応じて、対話者が対話相手を注視しているか否かを示す情報が予め付与されている。

目領域画像抽出部２４は、学習用カメラ入力画像の各々から、以下のように目領域画像を抽出する。

例えば、図３に示すような左右それぞれの目領域の輪郭部分から４点の特徴点を抽出する。次に、４点の特徴点の外接矩形で目領域を抽出し、左右の目を連結して、目領域画像とする。図４に抽出した目領域画像の例を示す。この際、抽出した特徴点に、平行移動や拡縮などの摂動を加えることで、目領域画像のパターンを増やしている。この処理をすべての学習用カメラ入力画像について行ない、すべての目領域画像の外接矩形の大きさの中央値で、すべての目領域画像をリサイズする。

特徴抽出部２６は、学習用カメラ入力画像の各々から抽出された目領域画像について、以下のように特徴量を抽出する。

例えば、抽出した目領域画像からCannyによりエッジを検出し、エッジがあるか否かの特徴量とする。次に、目領域画像をグレースケールに変換し、ヒストグラム均等化を行なう。その後、輝度値を連結して特徴量とする。最後に、輝度値とエッジの特徴量を連結して最終的な特徴量とする。

識別器構築部２８は、学習用カメラ入力画像の各々から抽出された特徴量と、学習用カメラ入力画像の各々に付与されている、対話者が対話相手を注視しているか否かを示す情報とに基づいて、対話者が対話相手を注視しているか否かを識別するための識別器を構築する。本実施の形態では、識別器として、一般的に２クラス識別問題に対して高い性能を持つとされる SVM(Suport Vector Machine) 識別器を用いる。

識別器記憶部３０は、識別器構築部２８によって学習された識別器が記憶されている。

目領域画像抽出部３２は、カメラ入力画像から、目領域画像抽出部２４と同様に、目領域画像を抽出する。

特徴抽出部３４は、カメラ入力画像から抽出された目領域画像について、特徴抽出部２６と同様に、特徴量を抽出する。

目開閉判定部３６は、カメラ入力画像について抽出された特徴量と、目の開閉度が既知の参照画像から予め抽出された特徴量とに基づいて、目の開閉度を計算し、目の開閉度が閾値より大きい場合に、目が開いていると判定する。

対話相手注視判定部３８は、目が開いていると判定された場合、識別器記憶部３０に記憶されている識別器と、カメラ入力画像について抽出された特徴量と、に基づいて、対話者が対話相手を注視しているか否かを判定する。

注視画像記憶部４０は、予め撮像された、対話者がカメラ１０を注視しているときのカメラ入力画像から抽出された、目を表す画像が記憶されている。

合成部４２は、対話者が対話相手を注視していると判定された場合、カメラ入力画像の目領域に、注視画像記憶部４０に記憶されている、目を表す画像を合成した合成画像を生成し、合成画像を、通信部８０により対話相手側のテレビ会議システム（図示省略）へ送信する。

画面出力部４４は、対話相手側のテレビ会議システムから通信部８０により受信した画像を、ディスプレイ９０のウィンドウ９２上に表示する。

なお、対話相手側のテレビ会議システムも、対話者側のテレビ会議システム１００と同様の構成となっており、インターネットなどのネットワークを介して、対話相手側のテレビ会議システムと、対話者側のテレビ会議システム１００とは接続されている。

＜テレビ会議システムの作用＞
次に、第１の実施の形態のテレビ会議システム１００の作用について説明する。まず、前処理として、ディスプレイ９０上の各位置について、当該位置に配置された１点を対話者が注視しているときに、カメラ１０により学習用カメラ入力画像が撮像され、学習用画像ＤＢ２２に、各学習用カメラ入力画像が、対話者が対話相手を注視しているか否かを示す情報と共に格納される。

そして、テレビ会議システム１００によって、図５に示す学習処理ルーチンが実行される。

まず、ステップＳ１００において、学習用画像ＤＢ２２から、各学習用カメラ入力画像が取得される。ステップＳ１０２では、各学習用カメラ入力画像から、目領域画像が抽出される。

そして、ステップＳ１０４において、各学習用カメラ入力画像の目領域画像から、特徴量が抽出される。ステップＳ１０６では、上記ステップＳ１０４で各学習用カメラ入力画像について抽出された特徴量と、各学習用カメラ入力画像に付与されている、対話者が対話相手を注視しているか否かを示す情報とに基づいて、識別器を構築し、識別器記憶部３０に格納して、学習処理ルーチンを終了する。

また、対話相手とのテレビ会議が開始され、ディスプレイ９０のウィンドウ９２上に、対話相手側のテレビ会議システムから送信された画像を表示しているときに、カメラ１０からカメラ入力画像が入力される度に、テレビ会議システム１００によって、図６に示す視線一致顔画像合成処理ルーチンが繰り返し実行される。

まず、ステップＳ１１０において、カメラ入力画像から、目領域画像が抽出される。ステップＳ１１２では、目領域画像から、特徴量を抽出する。

そして、ステップＳ１１４では、上記ステップＳ１１２で抽出された特徴量に基づいて、目が開いているか否かを判定する。目が開いていると判定された場合には、ステップＳ１１６へ進み、目が開いていないと判定された場合には、ステップＳ１２２へ進む。

ステップＳ１１６では、上記ステップＳ１１２で抽出された特徴量と、識別器記憶部３０に記憶されている識別器とに基づいて、対話者が対話相手を注視している否かを判定する。対話相手を注視していると判定された場合には、ステップＳ１１８へ進み、対話相手を注視していないと判定された場合には、ステップＳ１２２へ進む。

ステップＳ１１８では、カメラ入力画像の目領域に、注視画像記憶部４０に記憶されている、目を表す画像を合成した合成画像を生成し、ステップＳ１２０において、上記ステップＳ１１８で生成した合成画像を、通信部８０により対話相手側のテレビ会議システムへ送信し、視線一致顔画像合成処理ルーチンを終了する。

ステップＳ１２２では、カメラ入力画像をそのまま通信部８０により対話相手側のテレビ会議システムへ送信し、視線一致顔画像合成処理ルーチンを終了する。

＜実験例＞
本実施の形態における、対話相手を注視しているか否かの識別精度について調査した実験について述べる。

実験を行なうにあたり、データセットを作成した。解像度が１９２０×１２００である２４インチのディスプレイの上部にウェブカメラを設置し、ディスプレイから被撮影者が５０ｃｍ離れたところで１２８０×９８０画素の解像度で撮影をした。被撮影者には顔は固定したまま視線だけを動かし、図７に示すような点を１点ずつディスプレイ上に表示し、順に注視してもらった。撮影したカメラ入力画像において、点線の矩形内を注視している画像をＰｏｓｉｔｉｖｅ、それ以外の画像をＮｅｇａｔｉｖｅとして識別器の学習を行なった。点線の矩形の大きさは実験により決定した。実験は５分割交差検定で行ない、比較手法として、輝度値のみを特徴量とする手法を用いた。評価には最大Ｆ値を用いた。

表１にそれぞれの手法における最大Ｆ値の比較を示す。

輝度値のみを利用した特徴よりも輝度値とエッジを利用した手法のほうが精度が高いことがわかる。図８に最大Ｆ値となった識別結果を示す。黒抜きの白丸がＰｏｓｉｔｉｖｅ、灰色の丸がＮｅｇａｔｉｖｅと識別された注視点である。この図より、境界付近での不正解が多いことがわかる。表２に他の被撮影者での結果を示す。

被撮影者Ｂ,Ｃは比較的目の細い方であったが、良好な結果が得られたと考えられる。

ＰｏｓｉｔｉｖｅとＮｅｇａｔｉｖｅの境界付近では、アピアランスの違いがほとんど見られないため、決定境界を引くことが困難であると考えられる。そこで、境界付近にＰｏｓｉｔｉｖｅとＮｅｇａｔｉｖｅのどちらに判定されても良いとする範囲を設け、評価から除外する。図９にその結果を示す。白色の領域がどちらに判定されても良いとする範囲である。これにより、最大Ｆ値は、０．６９１から０．７２７に向上した。

以上説明したように、第１の実施の形態に係るテレビ会議システムは、予め学習された識別器に基づいて、対話相手を注視しているか否かを判定し、カメラ入力画像が表す対話者の目領域に、カメラを注視したときの画像を合成することにより、視線の一致を精度よく判定して、視線が一致した画像を生成することができる。

＜第２の実施の形態＞
＜テレビ会議システムの構成＞
次に、第２の実施の形態のテレビ会議システムについて説明する。なお、第１の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第２の実施の形態では、ディスプレイに、複数の対話相手を表す複数のウィンドウが表示されている点と、対話者が注視している対話相手を判定して目の領域の画像を合成している点とが、第１の実施の形態と異なっている。

図１０に示すように、第２の実施の形態のテレビ会議システム２００の演算部２２０は、学習用画像ＤＢ２２、目領域画像抽出部２４、３２、特徴抽出部２６、３４、識別器構築部２２８、識別器記憶部２３０、目開閉判定部３６、ディスプレイ上注視点判定部２３８、注視相手判定部２３９、注視画像記憶部２４０、合成部２４２、及び画面出力部４４を備えている。

図１１に示すように、カメラ１０は、対話者の顔を撮像し、カメラ入力画像を、演算部２２０へ出力する。ディスプレイ９０は、複数の対話相手の画像を表示した複数のウィンドウ９２を表示し、対話者は、複数のウィンドウ９２を見ながら対話を行う。

識別器構築部２２８は、ディスプレイ９０上の各位置について、学習用カメラ入力画像の各々から抽出された特徴量に基づいて、対話者がディスプレイ９０上の当該位置を注視しているか否かを識別するための識別器を各々構築する。
ここで、ディスプレイ９０上の各位置とは、例えば、縦方向、横方向に予め設定したスキップ幅でサンプリングした位置とする。各々の位置の識別器を構築するための学習用カメラ入力画像を注視しているか否かに分ける境界は、当該位置が中心となるような図７と同様の大きさの矩形とする。なお、図７の例では、矩形の周辺が高密度になるように学習用カメラ入力画像の注視点を設定したが、ディスプレイ９０上一様に注視点を識別する場合は、学習用カメラ入力画像の注視点の密度はディスプレイ９０上一様としてもよい。

識別器記憶部２３０は、識別器構築部２８によってディスプレイ９０上の各位置について学習された識別器が記憶されている。

ディスプレイ上注視点判定部２３８は、目が開いていると判定された場合、ディスプレイ９０上の各位置について、識別器記憶部２３０に記憶されている当該位置についての識別器と、カメラ入力画像について抽出された特徴量と、に基づいて、対話者がディスプレイ９０上の当該位置を注視しているか否かを各々判定する。

注視相手判定部２３９は、ディスプレイ上注視点判定部２３８によるディスプレイ９０上の各位置についての判定結果に基づいて、対話者がどの対話相手を注視しているかを判定する。例えば、対話者が注視していると判定されたディスプレイ９０上の位置の各々について、当該位置を含むウィンドウ９２に投票し、投票数が最も多いウィンドウ９２が表示している対話相手を、対話者が注視している対話相手として判定する。なお、投票数が最も多いウィンドウ９２が複数存在する場合には、投票数が最も多い複数のウィンドウ９２の中心位置の平均位置を注視していると判断すればよい。

注視画像記憶部２４０は、予め撮像された、対話者が、複数のウィンドウ９２に対応する複数の合成用注視点２９０の各々を注視しているときのカメラ入力画像から抽出された、目を表す画像が記憶されている（上記図１１参照）。

合成部２４２は、対話者が対話相手を注視していると判定された場合、カメラ入力画像の目領域に、対話者が注視している対話相手に対応して注視画像記憶部２４０に記憶されている、目を表す画像を合成した合成画像を生成し、合成画像を、通信部８０により画像受信側のテレビ会議システムへ送信する。

なお、画像受信側のテレビ会議システムも、対話者側のテレビ会議システム２００と同様の構成となっており、インターネットなどのネットワークを介して、画像受信側のテレビ会議システムと、対話者側のテレビ会議システム２００とは接続されている。

＜テレビ会議システムの作用＞
次に、第２の実施の形態のテレビ会議システム２００の作用について説明する。まず、前処理として、ディスプレイ９０上の各位置について、当該位置に配置された１点を対話者が注視しているときに、カメラ１０により学習用カメラ入力画像が撮像され、学習用画像ＤＢ２２に格納される。

そして、テレビ会議システム２００によって、上記第１の実施の形態と同様に、学習処理ルーチンが実行される。なお、第２の実施の形態では、ディスプレイ９０上の各位置について、学習用カメラ入力画像の各々から抽出された特徴量に基づいて、対話者がディスプレイ９０上の当該位置を注視しているか否かを識別するための識別器が各々構築される。

また、対話相手とのテレビ会議が開始され、ディスプレイ９０の複数のウィンドウ９２上に、対話相手側の複数のテレビ会議システムから送信された画像を各々表示しているときに、カメラ１０からカメラ入力画像が入力される度に、テレビ会議システム２００によって、図１２に示す視線一致顔画像合成処理ルーチンが繰り返し実行される。なお、第１の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。

そして、ステップＳ１１４では、上記ステップＳ１１２で抽出された特徴量に基づいて、目が開いているか否かを判定する。目が開いていると判定された場合には、ステップＳ２００へ進み、目が開いていないと判定された場合には、ステップＳ１２２へ進む。

ステップＳ２００では、上記ステップＳ１１２で抽出された特徴量と、識別器記憶部２３０に記憶されている識別器とに基づいて、ディスプレイ９０上の各位置について、対話者が当該位置を注視している否かを判定する。そして、ステップＳ２０２では、上記ステップＳ２００の判定結果に基づいて、対話者が注視している対話相手を判定する。

そして、ステップＳ２０４では、上記ステップＳ２０２の判定結果に基づいて、対話者が注視している対話相手がいるか否かを判定する。注視している対話相手がいる判定された場合には、ステップＳ２０６へ進み、注視している対話相手がいないと判定された場合には、ステップＳ１２２へ進む。

ステップＳ２０６では、上記ステップＳ２０２の判定結果に基づいて、カメラ入力画像の目領域に、対話者が注視している対話相手に対応して注視画像記憶部２４０に記憶されている、目を表す画像を合成した合成画像を生成し、ステップＳ１２０において、上記ステップＳ２０６で生成した合成画像を、通信部８０により画像受信側のテレビ会議システムへ送信し、視線一致顔画像合成処理ルーチンを終了する。

ステップＳ１２２では、カメラ入力画像をそのまま通信部８０により画像受信側のテレビ会議システムへ送信し、視線一致顔画像合成処理ルーチンを終了する。

以上説明したように、第２の実施の形態に係るテレビ会議システムは、ディスプレイ上の各位置について予め学習された識別器に基づいて、対話者側のディスプレイ上の注視点を判定して、注視している対話相手を判定し、カメラ入力画像が表す対話者の目領域に、対話相手に対応する位置を注視したときの画像を合成することにより、視線の一致を精度よく判定して、視線が一致した画像を生成することができる。

また、複数の対話者のテレビ会議において、ディスプレイ上に複数のウィンドウが配置してある場合においても、会議参加者に誰が誰に向かって対話しているかをわかりやすく提示することができる。

＜第３の実施の形態＞
＜テレビ会議システムの構成＞
次に、第３の実施の形態のテレビ会議システムについて説明する。なお、第１の実施の形態、第２の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第３の実施の形態では、画像受信側のテレビ会議システムで、画像を合成している点が、第２の実施の形態と異なっている。

図１３に示すように、第３の実施の形態では、画像送信側のテレビ会議システム３００と画像受信側のテレビ会議システム４００とが、ネットワーク５００を介して接続されている。

図１４に示すように、画像送信側のテレビ会議システム３００と画像受信側のテレビ会議システム４００とにおいて、ディスプレイ９０は、複数の対話相手の画像を表示した複数のウィンドウ９２を表示し、対話者は、複数のウィンドウ９２を見ながら対話を行う。本実施の形態では、画像送信側のテレビ会議システム３００と画像受信側のテレビ会議システム４００との各々で、ディスプレイ９０上の複数のウィンドウ９２の配置が変更可能となっている。以下では、画像送信側のテレビ会議システム３００と画像受信側のテレビ会議システム４００とで、ディスプレイ９０上の複数のウィンドウ９２の配置が異なっている場合を例に説明する。

画像送信側のテレビ会議システム３００の演算部３２０は、学習用画像ＤＢ２２、目領域画像抽出部２４、３２、特徴抽出部２６、３４、識別器構築部２２８、識別器記憶部２３０、目開閉判定部３６、ディスプレイ上注視点判定部２３８、注視相手判定部２３９、及び画面出力部４４を備えている。

画像送信側のテレビ会議システム３００の通信部８０は、目開閉判定部３６により目が開いていないと判定された場合には、目開閉判定部３６による判定結果と、カメラ入力画像とを、画像受信側のテレビ会議システム４００へ送信する。また、目開閉判定部３６により目が開いていると判定された場合には、目開閉判定部３６による判定結果と、注視相手判定部２３９による判定結果と、カメラ入力画像とを、画像受信側のテレビ会議システム４００へ送信する

画像受信側のテレビ会議システム４００の演算部４２０は、目開閉判定部４２２、注視対象計算部４２４、注視画像記憶部２４０、及び合成部２４２を備えている。

目開閉判定部４２２は、通信部８０により受信した、目の開閉の判定結果に基づいて、画像送信側の対話者の目が開いているか否かを判定する。

注視対象計算部４２４は、画像送信側の対話者の目が開いていると判定された場合、通信部８０により受信した、注視している対話相手の情報に基づいて、画像送信側の対話者が対話相手を注視しているか否かを判定する。また、注視対象計算部４２４は、画像送信側の対話者が対話相手を注視していると判定された場合、通信部８０により受信した、注視している対話相手の情報に基づいて、ディスプレイ９０上のどのウィンドウ９２の対話者を注視しているかを計算する。例えば、ディスプレイ９０上の複数のウィンドウ９２のうち、通信部８０により受信した、注視している対話相手の情報に対応するウィンドウ９２を特定し、特定されたウィンドウ９２が表示している対話相手を、画像送信側の対話者が注視している対話相手として計算する。

注視画像記憶部２４０は、予め撮像された、対話者が、上記図１４に示すような複数のウィンドウ９２に対応する複数の合成用注視点２９０の各々を注視しているときのカメラ入力画像から抽出された、目を表す画像が記憶されている。

合成部２４２は、画像送信側の対話者が対話相手を注視していると判定された場合、注視対象計算部４２４による計算結果に基づいて、画像送信側のテレビ会議システム３００から受信したカメラ入力画像の目領域に、画像送信側の対話者が注視している対話相手に対応して注視画像記憶部２４０に記憶されている、目を表す画像を合成した合成画像を生成し、合成画像を、ディスプレイ９０の該当するウィンドウ９２に表示する。

なお、画像送信側のテレビ会議システム３００は、画像受信側のテレビ会議システム４００と同様の構成を更に有しており、画像受信側のテレビ会議システム４００は、画像送信側のテレビ会議システム３００と同様の構成を更に有しているが、簡単のため、図示を省略している。

＜テレビ会議システムの作用＞
次に、第３の実施の形態の画像送信側のテレビ会議システム３００の作用について説明する。まず、前処理として、ディスプレイ９０上の各位置について、当該位置に配置された１点を対話者が注視しているときに、カメラ１０により学習用カメラ入力画像が撮像され、学習用画像ＤＢ２２に格納される。

そして、画像送信側のテレビ会議システム３００によって、上記第２の実施の形態と同様に、学習処理ルーチンが実行される。

また、対話相手とのテレビ会議が開始され、ディスプレイ９０の複数のウィンドウ９２上に、画像受信側のテレビ会議システム４００の各々から送信された画像を表示しているときに、カメラ１０からカメラ入力画像が入力される度に、テレビ会議システム３００によって、図１５に示す画像送信側視線一致顔画像合成処理ルーチンが繰り返し実行される。なお、第１の実施の形態、第２の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。

そして、ステップＳ１１４では、上記ステップＳ１１２で抽出された特徴量に基づいて、目が開いているか否かを判定する。目が開いていると判定された場合には、ステップＳ２００へ進み、目が開いていないと判定された場合には、ステップＳ３００へ進む。

そして、ステップＳ３０２では、上記ステップＳ１１４の判定結果と、上記ステップＳ２０２の判定結果と、カメラ入力画像とを、通信部８０により画像受信側のテレビ会議システム４００へ送信し、画像送信側視線一致顔画像合成処理ルーチンを終了する。

一方、ステップＳ３００では、上記ステップＳ１１４の判定結果と、カメラ入力画像とを通信部８０により画像受信側のテレビ会議システム４００へ送信し、画像送信側視線一致顔画像合成処理ルーチンを終了する。

画像送信側のテレビ会議システム３００から、各種判定結果及びカメラ入力画像を受信する度に、テレビ会議システム４００によって、図１６に示す画像受信側視線一致顔画像合成処理ルーチンが繰り返し実行される。

まず、ステップＳ４００では、画像送信側のテレビ会議システム３００から受信した判定結果に基づいて、画像送信側の対話者の目が開いているか否かを判定する。目が開いていると判定された場合には、ステップＳ４０２へ進み、目が開いていないと判定された場合には、ステップＳ４０４へ進む。

ステップＳ４０２では、画像送信側のテレビ会議システム３００から受信した判定結果に基づいて、画像送信側の対話者が注視している対話相手がいるか否かを判定する。注視している対話相手がいる判定された場合には、ステップＳ４０６へ進み、注視している対話相手がいないと判定された場合には、ステップＳ４０４へ進む。

ステップＳ４０６では、画像送信側のテレビ会議システム３００から受信した判定結果に基づいて、画像送信側の対話者が、ディスプレイ９０上のどのウィンドウ９２の対話者を注視しているかを計算する。

そして、ステップＳ４０８では、上記ステップＳ４０６の計算結果に基づいて、画像送信側のテレビ会議システム３００から受信したカメラ入力画像の目領域に、画像送信側の対話者が注視している対話相手に対応して注視画像記憶部２４０に記憶されている、目を表す画像を合成した合成画像を生成し、ステップＳ４１０において、上記ステップＳ４０８で生成した合成画像を、合成画像を、ディスプレイ９０の該当するウィンドウ９２に表示して、画像受信側視線一致顔画像合成処理ルーチンを終了する。

ステップＳ４０４では、画像送信側のテレビ会議システム３００から受信したカメラ入力画像をそのまま、ディスプレイ９０の該当するウィンドウ９２に表示して、画像受信側視線一致顔画像合成処理ルーチンを終了する。

以上説明したように、第３の実施の形態に係るテレビ会議システムは、ディスプレイ上の各位置について予め学習された識別器に基づいて、画像送信側のディスプレイ上の注視点を判定して、注視している対話相手を判定し、画像受信側において、カメラ入力画像が表す対話者の目領域に、対話相手に対応する位置を注視したときの画像を合成することにより、視線の一致を精度よく判定して、視線が一致した画像を生成することができる。

また、複数の対話者のテレビ会議において、テレビ会議システム毎に、複数のウィンドウがさまざまな場所に配置してある場合においても、会議参加者に誰が誰に向かって対話しているかをわかりやすく提示することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述のテレビ会議システムは、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０カメラ
２０、２２０、３２０、４２０演算部
２４目領域画像抽出部
２６特徴抽出部
２８、２２８識別器構築部
３０、２３０識別器記憶部
３２目領域画像抽出部
３４特徴抽出部
３６、４２２目開閉判定部
３８対話相手注視判定部
４０、２４０注視画像記憶部
４２、２４２合成部
４４画面出力部
８０通信部
９０ディスプレイ
９２ウィンドウ
１００、２００、３００、４００テレビ会議システム
２３８ディスプレイ上注視点判定部
２３９注視相手判定部
２９０合成用注視点
４２４注視対象計算部
５００ネットワーク

Claims

テレビ会議システムにおける視線一致顔画像合成方法であって、
対話者を表すカメラ入力画像から特徴を抽出する特徴抽出過程と、
前記カメラ入力画像の特徴を用いて目の開閉を判定する目開閉判定過程と、
目が開いていると判定している場合において、対話相手を注視しているか否かが既知の顔画像から予め学習された、対話相手を注視しているか否かを識別する識別器と、前記カメラ入力画像の特徴とに基づいて、前記カメラ入力画像が表す対話者が、対話相手を注視しているか否かを判定する対話相手注視判定過程と、
前記対話相手を注視していると判定された場合において、前記カメラ入力画像が表す対話者の目領域に、カメラを注視したときの画像を合成する合成過程と、
を含む視線一致顔画像合成方法。
テレビ会議システムにおける視線一致顔画像合成方法であって、
対話者を表すカメラ入力画像から特徴を抽出する特徴抽出過程と、
前記カメラ入力画像の特徴を用いて目の開閉を判定する目開閉判定過程と、
目が開いていると判定している場合において、対話者側のディスプレイ上の注視点が既知の顔画像から予め学習された、対話者側のディスプレイ上の各位置について前記位置を注視しているか否かを識別する識別器と、前記カメラ入力画像の特徴とに基づいて、対話者側のディスプレイ上の注視点を判定するディスプレイ上注視点判定過程と、
前記対話者側のディスプレイ上の注視点に基づいて、前記カメラ入力画像が表す対話者が対話相手を注視しているか否かを判定する注視相手判定過程と、
前記対話相手を注視していると判定された場合において、前記カメラ入力画像が表す対話者の目領域に、前記対話相手に対応する位置を注視したときの画像を合成する合成過程と、
を含む視線一致顔画像合成方法。
前記合成過程では、前記対話相手を注視していると判定された場合において、画像受信側の合成部が、前記カメラ入力画像が表す対話者の目領域に、前記注視したときの画像を合成する請求項１又は請求項２に記載の視線一致顔画像合成方法。
対話者を表すカメラ入力画像から特徴を抽出する特徴抽出部と、
前記カメラ入力画像の特徴を用いて目の開閉を判定する目開閉判定部と、
目が開いていると判定している場合において、対話相手を注視しているか否かが既知の顔画像から予め学習された、対話相手を注視しているか否かを識別する識別器と、前記カメラ入力画像の特徴とに基づいて、前記カメラ入力画像が表す対話者が、対話相手を注視しているか否かを判定する対話相手注視判定部と、
前記対話相手を注視していると判定された場合において、前記カメラ入力画像が表す対話者の目領域に、カメラを注視したときの画像を合成する合成部と、
を含むテレビ会議システム。
対話者を表すカメラ入力画像から特徴を抽出する特徴抽出部と、
前記カメラ入力画像の特徴を用いて目の開閉を判定する目開閉判定部と、
目が開いていると判定している場合において、対話者側のディスプレイ上の注視点が既知の顔画像から予め学習された、対話者側のディスプレイ上の各位置について前記位置を注視しているか否かを識別する識別器と、前記カメラ入力画像の特徴とに基づいて、対話者側のディスプレイ上の注視点を判定するディスプレイ上注視点判定部と、
前記対話者側のディスプレイ上の注視点に基づいて、前記カメラ入力画像が表す対話者が対話相手を注視しているか否かを判定する注視相手判定部と、
前記対話相手を注視していると判定された場合において、前記カメラ入力画像が表す対話者の目領域に、前記対話相手に対応する位置を注視したときの画像を合成する合成部と、
を含むテレビ会議システム。
コンピュータに、請求項１〜請求項３の何れか１項に記載の視線一致顔画像合成方法の各ステップを実行させるためのプログラム。