JP2017130046A - 視線一致顔画像合成方法、テレビ会議システム、及びプログラム - Google Patents

視線一致顔画像合成方法、テレビ会議システム、及びプログラム Download PDF

Info

Publication number
JP2017130046A
JP2017130046A JP2016009000A JP2016009000A JP2017130046A JP 2017130046 A JP2017130046 A JP 2017130046A JP 2016009000 A JP2016009000 A JP 2016009000A JP 2016009000 A JP2016009000 A JP 2016009000A JP 2017130046 A JP2017130046 A JP 2017130046A
Authority
JP
Japan
Prior art keywords
image
camera input
input image
conversation
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016009000A
Other languages
English (en)
Inventor
隆行 黒住
Takayuki Kurozumi
隆行 黒住
邦夫 柏野
Kunio Kashino
邦夫 柏野
卓弥 井上
Takuya Inoue
卓弥 井上
友和 高橋
Tomokazu Takahashi
友和 高橋
高嗣 平山
Takatsugu Hirayama
高嗣 平山
大輔 出口
Daisuke Deguchi
大輔 出口
一郎 井手
Ichiro Ide
一郎 井手
洋 村瀬
Hiroshi Murase
洋 村瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nagoya University NUC
Nippon Telegraph and Telephone Corp
Original Assignee
Nagoya University NUC
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nagoya University NUC, Nippon Telegraph and Telephone Corp filed Critical Nagoya University NUC
Priority to JP2016009000A priority Critical patent/JP2017130046A/ja
Publication of JP2017130046A publication Critical patent/JP2017130046A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

【課題】視線の一致を精度よく判定して、視線が一致した画像を生成することができる。
【解決手段】特徴抽出部34が、カメラ入力画像から特徴を抽出し、目開閉判定部36が、カメラ入力画像の特徴を用いて目の開閉を判定する。目が開いていると判定している場合、対話相手注視判定部38が、学習された識別器に基づいて、カメラ入力画像が表す対話者が、対話相手を注視しているか否かを判定する。合成部42が、対話相手を注視していると判定された場合において、カメラ入力画像が表す対話者の目領域に、カメラを注視したときの画像を合成する。
【選択図】図1

Description

本発明は、視線一致顔画像合成方法、テレビ会議システム、及びプログラムに関する。
従来、視線一致顔画像合成方法に関しては、テレビ会議における対話者間の視線一致のための目領域変換手法として、学習を用いずに、目領域を変換する方法が知られている(非特許文献1)。
井上 卓弥,高橋 友和,平山 高嗣,出口 大輔,井手 一郎,村瀬 洋,黒住 隆行,柏野 邦夫. "テレビ会議における対話者間の視線一致のための目領域変換手法に関する検討". 信学技報, No. PRMU2014-60, pp. 33-38, October 2014.
しかし、上記の非特許文献1の方法では、十分な精度で視線の一致を判定できないという欠点があった。
本発明は、上記の事情を鑑みてなされたもので、視線の一致を精度よく判定して、視線が一致した画像を生成することができる視線一致顔画像合成方法、テレビ会議システム、及びプログラムを提供することを目的とする。
上記の目的を達成するために第1の発明の視線一致顔画像合成方法は、テレビ会議システムにおける視線一致顔画像合成方法であって、対話者を表すカメラ入力画像から特徴を抽出する特徴抽出過程と、前記カメラ入力画像の特徴を用いて目の開閉を判定する目開閉判定過程と、目が開いていると判定している場合において、対話相手を注視しているか否かが既知の顔画像から予め学習された、対話相手を注視しているか否かを識別する識別器と、前記カメラ入力画像の特徴とに基づいて、前記カメラ入力画像が表す対話者が、対話相手を注視しているか否かを判定する対話相手注視判定過程と、前記対話相手を注視していると判定された場合において、前記カメラ入力画像が表す対話者の目領域に、カメラを注視したときの画像を合成する合成過程と、を含んで構成されている。
第2の発明のテレビ会議システムは、対話者を表すカメラ入力画像から特徴を抽出する特徴抽出部と、前記カメラ入力画像の特徴を用いて目の開閉を判定する目開閉判定部と、目が開いていると判定している場合において、対話相手を注視しているか否かが既知の顔画像から予め学習された、対話相手を注視しているか否かを識別する識別器と、前記カメラ入力画像の特徴とに基づいて、前記カメラ入力画像が表す対話者が、対話相手を注視しているか否かを判定する対話相手注視判定部と、前記対話相手を注視していると判定された場合において、前記カメラ入力画像が表す対話者の目領域に、カメラを注視したときの画像を合成する合成部と、を含んで構成されている。
第3の発明の視線一致顔画像合成方法は、テレビ会議システムにおける視線一致顔画像合成方法であって、対話者を表すカメラ入力画像から特徴を抽出する特徴抽出過程と、前記カメラ入力画像の特徴を用いて目の開閉を判定する目開閉判定過程と、目が開いていると判定している場合において、対話者側のディスプレイ上の注視点が既知の顔画像から予め学習された、対話者側のディスプレイ上の各位置について前記位置を注視しているか否かを識別する識別器と、前記カメラ入力画像の特徴とに基づいて、対話者側のディスプレイ上の注視点を判定するディスプレイ上注視点判定過程と、前記対話者側のディスプレイ上の注視点に基づいて、前記カメラ入力画像が表す対話者が対話相手を注視しているか否かを判定する注視相手判定過程と、前記対話相手を注視していると判定された場合において、前記カメラ入力画像が表す対話者の目領域に、前記対話相手に対応する位置を注視したときの画像を合成する合成過程と、を含む。
第4の発明のテレビ会議システムは、対話者を表すカメラ入力画像から特徴を抽出する特徴抽出部と、前記カメラ入力画像の特徴を用いて目の開閉を判定する目開閉判定部と、目が開いていると判定している場合において、対話者側のディスプレイ上の注視点が既知の顔画像から予め学習された、対話者側のディスプレイ上の各位置について前記位置を注視しているか否かを識別する識別器と、前記カメラ入力画像の特徴とに基づいて、対話者側のディスプレイ上の注視点を判定するディスプレイ上注視点判定部と、前記対話者側のディスプレイ上の注視点に基づいて、前記カメラ入力画像が表す対話者が対話相手を注視しているか否かを判定する注視相手判定部と、前記対話相手を注視していると判定された場合において、前記カメラ入力画像が表す対話者の目領域に、前記対話相手に対応する位置を注視したときの画像を合成する合成部と、を含んで構成されている。
本発明のプログラムは、コンピュータに、本発明の視線一致顔画像合成方法の各ステップを実行させるためのプログラムである。
以上説明したように、本発明の視線一致顔画像合成方法、テレビ会議システム、及びプログラムによれば、予め学習された識別器に基づいて、対話相手を注視しているか否か、又は対話者側のディスプレイ上の注視点を判定し、カメラ入力画像が表す対話者の目領域に、カメラ、又は対話相手に対応する位置を注視したときの画像を合成することにより、視線の一致を精度よく判定して、視線が一致した画像を生成することができる、という効果が得られる。
本発明の第1の実施の形態のテレビ会議システムの一構成例を示すブロック図である。 カメラとウィンドウの配置を説明するための図である。 目領域画像を抽出する方法を説明するための図である。 目領域画像の一例を示す図である。 本発明の第1の実施の形態のテレビ会議システムにおける学習処理ルーチンの内容を示すフローチャートである。 本発明の第1の実施の形態のテレビ会議システムにおける視線一致顔画像合成処理ルーチンの内容を示すフローチャートである。 学習用カメラ入力画像を撮像する際に、ディスプレイ上に表示した点の配置を示す図である。 実験結果を示す図である。 境界付近のデータを除外した場合の実験結果を示す図である。 本発明の第2の実施の形態のテレビ会議システムの一構成例を示すブロック図である。 カメラとウィンドウの配置を説明するための図である。 本発明の第2の実施の形態のテレビ会議システムにおける視線一致顔画像合成処理ルーチンの内容を示すフローチャートである。 本発明の第3の実施の形態のテレビ会議システムの一構成例を示すブロック図である。 カメラとウィンドウの配置を説明するための図である。 本発明の第3の実施の形態のテレビ会議システムにおける画像送信側視線一致顔画像合成処理ルーチンの内容を示すフローチャートである。 本発明の第3の実施の形態のテレビ会議システムにおける画像受信側視線一致顔画像合成処理ルーチンの内容を示すフローチャートである。
<本発明の実施の形態の概要>
まず、本発明の実施の形態の概要について説明する。本発明の実施の形態は、テレビ会議システムにおいて視線の一致する顔画像を生成するものである。複数の対話者のテレビ会議において、ウィンドウがさまざまな場所に配置してある場合においても、会議参加者に誰が誰に向かって対話しているかをわかりやすく提示するものである。
本発明の実施の形態は、非特許文献1に記載の、テレビ会議における対話者間の視線一致のための目領域変換手法に比べて、視線の一致が既知のデータを使って学習することを可能とした点が主眼である。
<第1の実施の形態>
<テレビ会議システムの構成>
以下、図面を参照して本発明の第1の実施の形態を詳細に説明する。図1は、本発明の第1の実施の形態のテレビ会議システム100を示すブロック図である。テレビ会議システム100は、CPUと、RAMと、学習処理ルーチン、及び視線一致顔画像合成処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータを用いて構成され、機能的には次に示すように構成されている。
本実施の形態のテレビ会議システム100は、図1に示すように、カメラ10と、演算部20と、通信部80と、ディスプレイ90とを備えている。
図2に示すように、カメラ10は、対話者の顔を撮像し、カメラ入力画像を、演算部20へ出力する。ディスプレイ90は、対話相手の画像を表示したウィンドウ92を表示し、対話者は、ウィンドウ92を見ながら対話を行う。
演算部20は、学習用画像DB22、目領域画像抽出部24、32、特徴抽出部26、34、識別器構築部28、識別器記憶部30、目開閉判定部36、対話相手注視判定部38、注視画像記憶部40、合成部42、及び画面出力部44を備えている。
学習用画像DB22は、ディスプレイ90上の各位置について、当該位置に配置された1点を対話者が注視しているときにカメラ10により撮像された学習用カメラ入力画像が記憶されている。ディスプレイ90上のウィンドウ92の表示範囲が予め定められており、各学習用カメラ入力画像の注視点が、ウィンドウ92の表示範囲内であるか否かに応じて、対話者が対話相手を注視しているか否かを示す情報が予め付与されている。
目領域画像抽出部24は、学習用カメラ入力画像の各々から、以下のように目領域画像を抽出する。
例えば、図3に示すような左右それぞれの目領域の輪郭部分から4点の特徴点を抽出する。次に、4点の特徴点の外接矩形で目領域を抽出し、左右の目を連結して、目領域画像とする。図4に抽出した目領域画像の例を示す。この際、抽出した特徴点に、平行移動や拡縮などの摂動を加えることで、目領域画像のパターンを増やしている。この処理をすべての学習用カメラ入力画像について行ない、すべての目領域画像の外接矩形の大きさの中央値で、すべての目領域画像をリサイズする。
特徴抽出部26は、学習用カメラ入力画像の各々から抽出された目領域画像について、以下のように特徴量を抽出する。
例えば、抽出した目領域画像からCannyによりエッジを検出し、エッジがあるか否かの特徴量とする。次に、目領域画像をグレースケールに変換し、ヒストグラム均等化を行なう。その後、輝度値を連結して特徴量とする。最後に、輝度値とエッジの特徴量を連結して最終的な特徴量とする。
識別器構築部28は、学習用カメラ入力画像の各々から抽出された特徴量と、学習用カメラ入力画像の各々に付与されている、対話者が対話相手を注視しているか否かを示す情報とに基づいて、対話者が対話相手を注視しているか否かを識別するための識別器を構築する。本実施の形態では、識別器として、一般的に2クラス識別問題に対して高い性能を持つとされる SVM(Suport Vector Machine) 識別器を用いる。
識別器記憶部30は、識別器構築部28によって学習された識別器が記憶されている。
目領域画像抽出部32は、カメラ入力画像から、目領域画像抽出部24と同様に、目領域画像を抽出する。
特徴抽出部34は、カメラ入力画像から抽出された目領域画像について、特徴抽出部26と同様に、特徴量を抽出する。
目開閉判定部36は、カメラ入力画像について抽出された特徴量と、目の開閉度が既知の参照画像から予め抽出された特徴量とに基づいて、目の開閉度を計算し、目の開閉度が閾値より大きい場合に、目が開いていると判定する。
対話相手注視判定部38は、目が開いていると判定された場合、識別器記憶部30に記憶されている識別器と、カメラ入力画像について抽出された特徴量と、に基づいて、対話者が対話相手を注視しているか否かを判定する。
注視画像記憶部40は、予め撮像された、対話者がカメラ10を注視しているときのカメラ入力画像から抽出された、目を表す画像が記憶されている。
合成部42は、対話者が対話相手を注視していると判定された場合、カメラ入力画像の目領域に、注視画像記憶部40に記憶されている、目を表す画像を合成した合成画像を生成し、合成画像を、通信部80により対話相手側のテレビ会議システム(図示省略)へ送信する。
画面出力部44は、対話相手側のテレビ会議システムから通信部80により受信した画像を、ディスプレイ90のウィンドウ92上に表示する。
なお、対話相手側のテレビ会議システムも、対話者側のテレビ会議システム100と同様の構成となっており、インターネットなどのネットワークを介して、対話相手側のテレビ会議システムと、対話者側のテレビ会議システム100とは接続されている。
<テレビ会議システムの作用>
次に、第1の実施の形態のテレビ会議システム100の作用について説明する。まず、前処理として、ディスプレイ90上の各位置について、当該位置に配置された1点を対話者が注視しているときに、カメラ10により学習用カメラ入力画像が撮像され、学習用画像DB22に、各学習用カメラ入力画像が、対話者が対話相手を注視しているか否かを示す情報と共に格納される。
そして、テレビ会議システム100によって、図5に示す学習処理ルーチンが実行される。
まず、ステップS100において、学習用画像DB22から、各学習用カメラ入力画像が取得される。ステップS102では、各学習用カメラ入力画像から、目領域画像が抽出される。
そして、ステップS104において、各学習用カメラ入力画像の目領域画像から、特徴量が抽出される。ステップS106では、上記ステップS104で各学習用カメラ入力画像について抽出された特徴量と、各学習用カメラ入力画像に付与されている、対話者が対話相手を注視しているか否かを示す情報とに基づいて、識別器を構築し、識別器記憶部30に格納して、学習処理ルーチンを終了する。
また、対話相手とのテレビ会議が開始され、ディスプレイ90のウィンドウ92上に、対話相手側のテレビ会議システムから送信された画像を表示しているときに、カメラ10からカメラ入力画像が入力される度に、テレビ会議システム100によって、図6に示す視線一致顔画像合成処理ルーチンが繰り返し実行される。
まず、ステップS110において、カメラ入力画像から、目領域画像が抽出される。ステップS112では、目領域画像から、特徴量を抽出する。
そして、ステップS114では、上記ステップS112で抽出された特徴量に基づいて、目が開いているか否かを判定する。目が開いていると判定された場合には、ステップS116へ進み、目が開いていないと判定された場合には、ステップS122へ進む。
ステップS116では、上記ステップS112で抽出された特徴量と、識別器記憶部30に記憶されている識別器とに基づいて、対話者が対話相手を注視している否かを判定する。対話相手を注視していると判定された場合には、ステップS118へ進み、対話相手を注視していないと判定された場合には、ステップS122へ進む。
ステップS118では、カメラ入力画像の目領域に、注視画像記憶部40に記憶されている、目を表す画像を合成した合成画像を生成し、ステップS120において、上記ステップS118で生成した合成画像を、通信部80により対話相手側のテレビ会議システムへ送信し、視線一致顔画像合成処理ルーチンを終了する。
ステップS122では、カメラ入力画像をそのまま通信部80により対話相手側のテレビ会議システムへ送信し、視線一致顔画像合成処理ルーチンを終了する。
<実験例>
本実施の形態における、対話相手を注視しているか否かの識別精度について調査した実験について述べる。
実験を行なうにあたり、データセットを作成した。解像度が1920×1200である24インチのディスプレイの上部にウェブカメラを設置し、ディスプレイから被撮影者が50cm離れたところで1280×980画素の解像度で撮影をした。被撮影者には顔は固定したまま視線だけを動かし、図7に示すような点を1点ずつディスプレイ上に表示し、順に注視してもらった。撮影したカメラ入力画像において、点線の矩形内を注視している画像をPositive、それ以外の画像をNegativeとして識別器の学習を行なった。点線の矩形の大きさは実験により決定した。実験は5分割交差検定で行ない、比較手法として、輝度値のみを特徴量とする手法を用いた。評価には最大F値を用いた。
表1にそれぞれの手法における最大F値の比較を示す。
輝度値のみを利用した特徴よりも輝度値とエッジを利用した手法のほうが精度が高いことがわかる。図8に最大F値となった識別結果を示す。黒抜きの白丸がPositive、灰色の丸がNegativeと識別された注視点である。この図より、境界付近での不正解が多いことがわかる。表2に他の被撮影者での結果を示す。

被撮影者B,Cは比較的目の細い方であったが、良好な結果が得られたと考えられる。
PositiveとNegativeの境界付近では、アピアランスの違いがほとんど見られないため、決定境界を引くことが困難であると考えられる。そこで、境界付近にPositiveとNegativeのどちらに判定されても良いとする範囲を設け、評価から除外する。図9にその結果を示す。白色の領域がどちらに判定されても良いとする範囲である。これにより、最大F値は、0.691から0.727に向上した。
以上説明したように、第1の実施の形態に係るテレビ会議システムは、予め学習された識別器に基づいて、対話相手を注視しているか否かを判定し、カメラ入力画像が表す対話者の目領域に、カメラを注視したときの画像を合成することにより、視線の一致を精度よく判定して、視線が一致した画像を生成することができる。
<第2の実施の形態>
<テレビ会議システムの構成>
次に、第2の実施の形態のテレビ会議システムについて説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第2の実施の形態では、ディスプレイに、複数の対話相手を表す複数のウィンドウが表示されている点と、対話者が注視している対話相手を判定して目の領域の画像を合成している点とが、第1の実施の形態と異なっている。
図10に示すように、第2の実施の形態のテレビ会議システム200の演算部220は、学習用画像DB22、目領域画像抽出部24、32、特徴抽出部26、34、識別器構築部228、識別器記憶部230、目開閉判定部36、ディスプレイ上注視点判定部238、注視相手判定部239、注視画像記憶部240、合成部242、及び画面出力部44を備えている。
図11に示すように、カメラ10は、対話者の顔を撮像し、カメラ入力画像を、演算部220へ出力する。ディスプレイ90は、複数の対話相手の画像を表示した複数のウィンドウ92を表示し、対話者は、複数のウィンドウ92を見ながら対話を行う。
識別器構築部228は、ディスプレイ90上の各位置について、学習用カメラ入力画像の各々から抽出された特徴量に基づいて、対話者がディスプレイ90上の当該位置を注視しているか否かを識別するための識別器を各々構築する。
ここで、ディスプレイ90上の各位置とは、例えば、縦方向、横方向に予め設定したスキップ幅でサンプリングした位置とする。各々の位置の識別器を構築するための学習用カメラ入力画像を注視しているか否かに分ける境界は、当該位置が中心となるような図7と同様の大きさの矩形とする。なお、図7の例では、矩形の周辺が高密度になるように学習用カメラ入力画像の注視点を設定したが、ディスプレイ90上一様に注視点を識別する場合は、学習用カメラ入力画像の注視点の密度はディスプレイ90上一様としてもよい。
識別器記憶部230は、識別器構築部28によってディスプレイ90上の各位置について学習された識別器が記憶されている。
ディスプレイ上注視点判定部238は、目が開いていると判定された場合、ディスプレイ90上の各位置について、識別器記憶部230に記憶されている当該位置についての識別器と、カメラ入力画像について抽出された特徴量と、に基づいて、対話者がディスプレイ90上の当該位置を注視しているか否かを各々判定する。
注視相手判定部239は、ディスプレイ上注視点判定部238によるディスプレイ90上の各位置についての判定結果に基づいて、対話者がどの対話相手を注視しているかを判定する。例えば、対話者が注視していると判定されたディスプレイ90上の位置の各々について、当該位置を含むウィンドウ92に投票し、投票数が最も多いウィンドウ92が表示している対話相手を、対話者が注視している対話相手として判定する。なお、投票数が最も多いウィンドウ92が複数存在する場合には、投票数が最も多い複数のウィンドウ92の中心位置の平均位置を注視していると判断すればよい。
注視画像記憶部240は、予め撮像された、対話者が、複数のウィンドウ92に対応する複数の合成用注視点290の各々を注視しているときのカメラ入力画像から抽出された、目を表す画像が記憶されている(上記図11参照)。
合成部242は、対話者が対話相手を注視していると判定された場合、カメラ入力画像の目領域に、対話者が注視している対話相手に対応して注視画像記憶部240に記憶されている、目を表す画像を合成した合成画像を生成し、合成画像を、通信部80により画像受信側のテレビ会議システムへ送信する。
なお、画像受信側のテレビ会議システムも、対話者側のテレビ会議システム200と同様の構成となっており、インターネットなどのネットワークを介して、画像受信側のテレビ会議システムと、対話者側のテレビ会議システム200とは接続されている。
<テレビ会議システムの作用>
次に、第2の実施の形態のテレビ会議システム200の作用について説明する。まず、前処理として、ディスプレイ90上の各位置について、当該位置に配置された1点を対話者が注視しているときに、カメラ10により学習用カメラ入力画像が撮像され、学習用画像DB22に格納される。
そして、テレビ会議システム200によって、上記第1の実施の形態と同様に、学習処理ルーチンが実行される。なお、第2の実施の形態では、ディスプレイ90上の各位置について、学習用カメラ入力画像の各々から抽出された特徴量に基づいて、対話者がディスプレイ90上の当該位置を注視しているか否かを識別するための識別器が各々構築される。
また、対話相手とのテレビ会議が開始され、ディスプレイ90の複数のウィンドウ92上に、対話相手側の複数のテレビ会議システムから送信された画像を各々表示しているときに、カメラ10からカメラ入力画像が入力される度に、テレビ会議システム200によって、図12に示す視線一致顔画像合成処理ルーチンが繰り返し実行される。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。
まず、ステップS110において、カメラ入力画像から、目領域画像が抽出される。ステップS112では、目領域画像から、特徴量を抽出する。
そして、ステップS114では、上記ステップS112で抽出された特徴量に基づいて、目が開いているか否かを判定する。目が開いていると判定された場合には、ステップS200へ進み、目が開いていないと判定された場合には、ステップS122へ進む。
ステップS200では、上記ステップS112で抽出された特徴量と、識別器記憶部230に記憶されている識別器とに基づいて、ディスプレイ90上の各位置について、対話者が当該位置を注視している否かを判定する。そして、ステップS202では、上記ステップS200の判定結果に基づいて、対話者が注視している対話相手を判定する。
そして、ステップS204では、上記ステップS202の判定結果に基づいて、対話者が注視している対話相手がいるか否かを判定する。注視している対話相手がいる判定された場合には、ステップS206へ進み、注視している対話相手がいないと判定された場合には、ステップS122へ進む。
ステップS206では、上記ステップS202の判定結果に基づいて、カメラ入力画像の目領域に、対話者が注視している対話相手に対応して注視画像記憶部240に記憶されている、目を表す画像を合成した合成画像を生成し、ステップS120において、上記ステップS206で生成した合成画像を、通信部80により画像受信側のテレビ会議システムへ送信し、視線一致顔画像合成処理ルーチンを終了する。
ステップS122では、カメラ入力画像をそのまま通信部80により画像受信側のテレビ会議システムへ送信し、視線一致顔画像合成処理ルーチンを終了する。
以上説明したように、第2の実施の形態に係るテレビ会議システムは、ディスプレイ上の各位置について予め学習された識別器に基づいて、対話者側のディスプレイ上の注視点を判定して、注視している対話相手を判定し、カメラ入力画像が表す対話者の目領域に、対話相手に対応する位置を注視したときの画像を合成することにより、視線の一致を精度よく判定して、視線が一致した画像を生成することができる。
また、複数の対話者のテレビ会議において、ディスプレイ上に複数のウィンドウが配置してある場合においても、会議参加者に誰が誰に向かって対話しているかをわかりやすく提示することができる。
<第3の実施の形態>
<テレビ会議システムの構成>
次に、第3の実施の形態のテレビ会議システムについて説明する。なお、第1の実施の形態、第2の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第3の実施の形態では、画像受信側のテレビ会議システムで、画像を合成している点が、第2の実施の形態と異なっている。
図13に示すように、第3の実施の形態では、画像送信側のテレビ会議システム300と画像受信側のテレビ会議システム400とが、ネットワーク500を介して接続されている。
図14に示すように、画像送信側のテレビ会議システム300と画像受信側のテレビ会議システム400とにおいて、ディスプレイ90は、複数の対話相手の画像を表示した複数のウィンドウ92を表示し、対話者は、複数のウィンドウ92を見ながら対話を行う。本実施の形態では、画像送信側のテレビ会議システム300と画像受信側のテレビ会議システム400との各々で、ディスプレイ90上の複数のウィンドウ92の配置が変更可能となっている。以下では、画像送信側のテレビ会議システム300と画像受信側のテレビ会議システム400とで、ディスプレイ90上の複数のウィンドウ92の配置が異なっている場合を例に説明する。
画像送信側のテレビ会議システム300の演算部320は、学習用画像DB22、目領域画像抽出部24、32、特徴抽出部26、34、識別器構築部228、識別器記憶部230、目開閉判定部36、ディスプレイ上注視点判定部238、注視相手判定部239、及び画面出力部44を備えている。
画像送信側のテレビ会議システム300の通信部80は、目開閉判定部36により目が開いていないと判定された場合には、目開閉判定部36による判定結果と、カメラ入力画像とを、画像受信側のテレビ会議システム400へ送信する。また、目開閉判定部36により目が開いていると判定された場合には、目開閉判定部36による判定結果と、注視相手判定部239による判定結果と、カメラ入力画像とを、画像受信側のテレビ会議システム400へ送信する
画像受信側のテレビ会議システム400の演算部420は、目開閉判定部422、注視対象計算部424、注視画像記憶部240、及び合成部242を備えている。
目開閉判定部422は、通信部80により受信した、目の開閉の判定結果に基づいて、画像送信側の対話者の目が開いているか否かを判定する。
注視対象計算部424は、画像送信側の対話者の目が開いていると判定された場合、通信部80により受信した、注視している対話相手の情報に基づいて、画像送信側の対話者が対話相手を注視しているか否かを判定する。また、注視対象計算部424は、画像送信側の対話者が対話相手を注視していると判定された場合、通信部80により受信した、注視している対話相手の情報に基づいて、ディスプレイ90上のどのウィンドウ92の対話者を注視しているかを計算する。例えば、ディスプレイ90上の複数のウィンドウ92のうち、通信部80により受信した、注視している対話相手の情報に対応するウィンドウ92を特定し、特定されたウィンドウ92が表示している対話相手を、画像送信側の対話者が注視している対話相手として計算する。
注視画像記憶部240は、予め撮像された、対話者が、上記図14に示すような複数のウィンドウ92に対応する複数の合成用注視点290の各々を注視しているときのカメラ入力画像から抽出された、目を表す画像が記憶されている。
合成部242は、画像送信側の対話者が対話相手を注視していると判定された場合、注視対象計算部424による計算結果に基づいて、画像送信側のテレビ会議システム300から受信したカメラ入力画像の目領域に、画像送信側の対話者が注視している対話相手に対応して注視画像記憶部240に記憶されている、目を表す画像を合成した合成画像を生成し、合成画像を、ディスプレイ90の該当するウィンドウ92に表示する。
なお、画像送信側のテレビ会議システム300は、画像受信側のテレビ会議システム400と同様の構成を更に有しており、画像受信側のテレビ会議システム400は、画像送信側のテレビ会議システム300と同様の構成を更に有しているが、簡単のため、図示を省略している。
<テレビ会議システムの作用>
次に、第3の実施の形態の画像送信側のテレビ会議システム300の作用について説明する。まず、前処理として、ディスプレイ90上の各位置について、当該位置に配置された1点を対話者が注視しているときに、カメラ10により学習用カメラ入力画像が撮像され、学習用画像DB22に格納される。
そして、画像送信側のテレビ会議システム300によって、上記第2の実施の形態と同様に、学習処理ルーチンが実行される。
また、対話相手とのテレビ会議が開始され、ディスプレイ90の複数のウィンドウ92上に、画像受信側のテレビ会議システム400の各々から送信された画像を表示しているときに、カメラ10からカメラ入力画像が入力される度に、テレビ会議システム300によって、図15に示す画像送信側視線一致顔画像合成処理ルーチンが繰り返し実行される。なお、第1の実施の形態、第2の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。
まず、ステップS110において、カメラ入力画像から、目領域画像が抽出される。ステップS112では、目領域画像から、特徴量を抽出する。
そして、ステップS114では、上記ステップS112で抽出された特徴量に基づいて、目が開いているか否かを判定する。目が開いていると判定された場合には、ステップS200へ進み、目が開いていないと判定された場合には、ステップS300へ進む。
ステップS200では、上記ステップS112で抽出された特徴量と、識別器記憶部230に記憶されている識別器とに基づいて、ディスプレイ90上の各位置について、対話者が当該位置を注視している否かを判定する。そして、ステップS202では、上記ステップS200の判定結果に基づいて、対話者が注視している対話相手を判定する。
そして、ステップS302では、上記ステップS114の判定結果と、上記ステップS202の判定結果と、カメラ入力画像とを、通信部80により画像受信側のテレビ会議システム400へ送信し、画像送信側視線一致顔画像合成処理ルーチンを終了する。
一方、ステップS300では、上記ステップS114の判定結果と、カメラ入力画像とを通信部80により画像受信側のテレビ会議システム400へ送信し、画像送信側視線一致顔画像合成処理ルーチンを終了する。
画像送信側のテレビ会議システム300から、各種判定結果及びカメラ入力画像を受信する度に、テレビ会議システム400によって、図16に示す画像受信側視線一致顔画像合成処理ルーチンが繰り返し実行される。
まず、ステップS400では、画像送信側のテレビ会議システム300から受信した判定結果に基づいて、画像送信側の対話者の目が開いているか否かを判定する。目が開いていると判定された場合には、ステップS402へ進み、目が開いていないと判定された場合には、ステップS404へ進む。
ステップS402では、画像送信側のテレビ会議システム300から受信した判定結果に基づいて、画像送信側の対話者が注視している対話相手がいるか否かを判定する。注視している対話相手がいる判定された場合には、ステップS406へ進み、注視している対話相手がいないと判定された場合には、ステップS404へ進む。
ステップS406では、画像送信側のテレビ会議システム300から受信した判定結果に基づいて、画像送信側の対話者が、ディスプレイ90上のどのウィンドウ92の対話者を注視しているかを計算する。
そして、ステップS408では、上記ステップS406の計算結果に基づいて、画像送信側のテレビ会議システム300から受信したカメラ入力画像の目領域に、画像送信側の対話者が注視している対話相手に対応して注視画像記憶部240に記憶されている、目を表す画像を合成した合成画像を生成し、ステップS410において、上記ステップS408で生成した合成画像を、合成画像を、ディスプレイ90の該当するウィンドウ92に表示して、画像受信側視線一致顔画像合成処理ルーチンを終了する。
ステップS404では、画像送信側のテレビ会議システム300から受信したカメラ入力画像をそのまま、ディスプレイ90の該当するウィンドウ92に表示して、画像受信側視線一致顔画像合成処理ルーチンを終了する。
以上説明したように、第3の実施の形態に係るテレビ会議システムは、ディスプレイ上の各位置について予め学習された識別器に基づいて、画像送信側のディスプレイ上の注視点を判定して、注視している対話相手を判定し、画像受信側において、カメラ入力画像が表す対話者の目領域に、対話相手に対応する位置を注視したときの画像を合成することにより、視線の一致を精度よく判定して、視線が一致した画像を生成することができる。
また、複数の対話者のテレビ会議において、テレビ会議システム毎に、複数のウィンドウがさまざまな場所に配置してある場合においても、会議参加者に誰が誰に向かって対話しているかをわかりやすく提示することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述のテレビ会議システムは、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 カメラ
20、220、320、420 演算部
24 目領域画像抽出部
26 特徴抽出部
28、228 識別器構築部
30、230 識別器記憶部
32 目領域画像抽出部
34 特徴抽出部
36、422 目開閉判定部
38 対話相手注視判定部
40、240 注視画像記憶部
42、242 合成部
44 画面出力部
80 通信部
90 ディスプレイ
92 ウィンドウ
100、200、300、400 テレビ会議システム
238 ディスプレイ上注視点判定部
239 注視相手判定部
290 合成用注視点
424 注視対象計算部
500 ネットワーク

Claims (6)

  1. テレビ会議システムにおける視線一致顔画像合成方法であって、
    対話者を表すカメラ入力画像から特徴を抽出する特徴抽出過程と、
    前記カメラ入力画像の特徴を用いて目の開閉を判定する目開閉判定過程と、
    目が開いていると判定している場合において、対話相手を注視しているか否かが既知の顔画像から予め学習された、対話相手を注視しているか否かを識別する識別器と、前記カメラ入力画像の特徴とに基づいて、前記カメラ入力画像が表す対話者が、対話相手を注視しているか否かを判定する対話相手注視判定過程と、
    前記対話相手を注視していると判定された場合において、前記カメラ入力画像が表す対話者の目領域に、カメラを注視したときの画像を合成する合成過程と、
    を含む視線一致顔画像合成方法。
  2. テレビ会議システムにおける視線一致顔画像合成方法であって、
    対話者を表すカメラ入力画像から特徴を抽出する特徴抽出過程と、
    前記カメラ入力画像の特徴を用いて目の開閉を判定する目開閉判定過程と、
    目が開いていると判定している場合において、対話者側のディスプレイ上の注視点が既知の顔画像から予め学習された、対話者側のディスプレイ上の各位置について前記位置を注視しているか否かを識別する識別器と、前記カメラ入力画像の特徴とに基づいて、対話者側のディスプレイ上の注視点を判定するディスプレイ上注視点判定過程と、
    前記対話者側のディスプレイ上の注視点に基づいて、前記カメラ入力画像が表す対話者が対話相手を注視しているか否かを判定する注視相手判定過程と、
    前記対話相手を注視していると判定された場合において、前記カメラ入力画像が表す対話者の目領域に、前記対話相手に対応する位置を注視したときの画像を合成する合成過程と、
    を含む視線一致顔画像合成方法。
  3. 前記合成過程では、前記対話相手を注視していると判定された場合において、画像受信側の合成部が、前記カメラ入力画像が表す対話者の目領域に、前記注視したときの画像を合成する請求項1又は請求項2に記載の視線一致顔画像合成方法。
  4. 対話者を表すカメラ入力画像から特徴を抽出する特徴抽出部と、
    前記カメラ入力画像の特徴を用いて目の開閉を判定する目開閉判定部と、
    目が開いていると判定している場合において、対話相手を注視しているか否かが既知の顔画像から予め学習された、対話相手を注視しているか否かを識別する識別器と、前記カメラ入力画像の特徴とに基づいて、前記カメラ入力画像が表す対話者が、対話相手を注視しているか否かを判定する対話相手注視判定部と、
    前記対話相手を注視していると判定された場合において、前記カメラ入力画像が表す対話者の目領域に、カメラを注視したときの画像を合成する合成部と、
    を含むテレビ会議システム。
  5. 対話者を表すカメラ入力画像から特徴を抽出する特徴抽出部と、
    前記カメラ入力画像の特徴を用いて目の開閉を判定する目開閉判定部と、
    目が開いていると判定している場合において、対話者側のディスプレイ上の注視点が既知の顔画像から予め学習された、対話者側のディスプレイ上の各位置について前記位置を注視しているか否かを識別する識別器と、前記カメラ入力画像の特徴とに基づいて、対話者側のディスプレイ上の注視点を判定するディスプレイ上注視点判定部と、
    前記対話者側のディスプレイ上の注視点に基づいて、前記カメラ入力画像が表す対話者が対話相手を注視しているか否かを判定する注視相手判定部と、
    前記対話相手を注視していると判定された場合において、前記カメラ入力画像が表す対話者の目領域に、前記対話相手に対応する位置を注視したときの画像を合成する合成部と、
    を含むテレビ会議システム。
  6. コンピュータに、請求項1〜請求項3の何れか1項に記載の視線一致顔画像合成方法の各ステップを実行させるためのプログラム。
JP2016009000A 2016-01-20 2016-01-20 視線一致顔画像合成方法、テレビ会議システム、及びプログラム Pending JP2017130046A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016009000A JP2017130046A (ja) 2016-01-20 2016-01-20 視線一致顔画像合成方法、テレビ会議システム、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016009000A JP2017130046A (ja) 2016-01-20 2016-01-20 視線一致顔画像合成方法、テレビ会議システム、及びプログラム

Publications (1)

Publication Number Publication Date
JP2017130046A true JP2017130046A (ja) 2017-07-27

Family

ID=59395619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016009000A Pending JP2017130046A (ja) 2016-01-20 2016-01-20 視線一致顔画像合成方法、テレビ会議システム、及びプログラム

Country Status (1)

Country Link
JP (1) JP2017130046A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019146118A (ja) * 2018-02-23 2019-08-29 沖電気工業株式会社 コミュニケーション装置、コミュニケーション方法、コミュニケーションプログラム及びコミュニケーションシステム
WO2020204000A1 (ja) 2019-04-01 2020-10-08 住友電気工業株式会社 コミュニケーション支援システム、コミュニケーション支援方法、コミュニケーション支援プログラム、および画像制御プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009089324A (ja) * 2007-10-03 2009-04-23 Nippon Telegr & Teleph Corp <Ntt> テレビ会議システムおよびプログラム、記録媒体
JP2013183421A (ja) * 2012-03-05 2013-09-12 Hitachi Consumer Electronics Co Ltd 送受信端末、送信端末、受信端末及び送受信方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009089324A (ja) * 2007-10-03 2009-04-23 Nippon Telegr & Teleph Corp <Ntt> テレビ会議システムおよびプログラム、記録媒体
JP2013183421A (ja) * 2012-03-05 2013-09-12 Hitachi Consumer Electronics Co Ltd 送受信端末、送信端末、受信端末及び送受信方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
井上 卓弥 TAKUYA INOUE: "テレビ会議話者間の視線一致知覚範囲を考慮した目領域画像合成型視線補正法 A method for gaze correction", 電子情報通信学会技術研究報告 VOL.115 NO.415 IEICE TECHNICAL REPORT, vol. 第115巻 第415号, JPN6019001129, 14 January 2016 (2016-01-14), JP *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019146118A (ja) * 2018-02-23 2019-08-29 沖電気工業株式会社 コミュニケーション装置、コミュニケーション方法、コミュニケーションプログラム及びコミュニケーションシステム
JP7035613B2 (ja) 2018-02-23 2022-03-15 沖電気工業株式会社 コミュニケーション装置、コミュニケーション方法、コミュニケーションプログラム及びコミュニケーションシステム
WO2020204000A1 (ja) 2019-04-01 2020-10-08 住友電気工業株式会社 コミュニケーション支援システム、コミュニケーション支援方法、コミュニケーション支援プログラム、および画像制御プログラム

Similar Documents

Publication Publication Date Title
WO2020224457A1 (zh) 图像处理方法及装置、电子设备和存储介质
EP3553465B1 (en) Information processing device and information processing method
CN107408205B (zh) 用红外成像区分前景和背景
US9600898B2 (en) Method and apparatus for separating foreground image, and computer-readable recording medium
JP6499583B2 (ja) 画像処理装置及び画像表示装置
JP5843751B2 (ja) 情報処理装置、情報処理システム、および情報処理方法
US10110868B2 (en) Image processing to determine center of balance in a digital image
WO2020134238A1 (zh) 活体检测方法、装置以及存储介质
CN111291885A (zh) 近红外图像的生成方法、生成网络的训练方法和装置
US20150206354A1 (en) Image processing apparatus and image display apparatus
CN106981078B (zh) 视线校正方法、装置、智能会议终端及存储介质
CN105141841B (zh) 摄像设备及其方法
JP5438601B2 (ja) 人物動作判定装置およびそのプログラム
JP2017204673A (ja) 画像処理装置、画像処理方法及びプログラム
CN110741377A (zh) 人脸图像处理方法、装置、存储介质及电子设备
CN110827193A (zh) 基于多通道特征的全景视频显著性检测方法
CN108388889B (zh) 用于分析人脸图像的方法和装置
WO2016165614A1 (zh) 一种即时视频中的表情识别方法和电子设备
KR102009130B1 (ko) 실시간 메이크업 진단 및 질의응답 서비스 제공 시스템
CN111246106A (zh) 图像处理方法、电子设备及计算机可读存储介质
CN112351325B (zh) 基于手势的显示终端控制方法、终端和可读存储介质
JP2017130046A (ja) 視線一致顔画像合成方法、テレビ会議システム、及びプログラム
JP2018084861A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN111553865B (zh) 图像修复方法及装置、电子设备和存储介质
CN112866801A (zh) 视频封面的确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160121

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20160209

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180228

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20180228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191011

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200218