JP2015517239A - ビデオインターフェースを制御するための方法、ビデオインターフェースを動作させるための方法、顔向き検出器、およびビデオ会議サーバ - Google Patents

ビデオインターフェースを制御するための方法、ビデオインターフェースを動作させるための方法、顔向き検出器、およびビデオ会議サーバ Download PDF

Info

Publication number
JP2015517239A
JP2015517239A JP2014561363A JP2014561363A JP2015517239A JP 2015517239 A JP2015517239 A JP 2015517239A JP 2014561363 A JP2014561363 A JP 2014561363A JP 2014561363 A JP2014561363 A JP 2014561363A JP 2015517239 A JP2015517239 A JP 2015517239A
Authority
JP
Japan
Prior art keywords
video
face
orientation
user
focus area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014561363A
Other languages
English (en)
Other versions
JP2015517239A5 (ja
Inventor
ファガダル−コスマ,ミハイ
カサス−サンチェス,ミゲル
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2015517239A publication Critical patent/JP2015517239A/ja
Publication of JP2015517239A5 publication Critical patent/JP2015517239A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals

Abstract

本発明は、ユーザ(12)を出所とするビデオストリームのフレーム(11)をキャプチャするステップと、そのビデオフレーム(11)内でユーザ(12)の顔(10)を認識するステップと、そのビデオフレーム(11)内でユーザ(12)の顔(10)の向きを検出するステップと、顔(10)の向きを示す制御信号をもたらすステップとを備える、会議状況などにおいて使用するためのユーザ(12)に関連付けられたビデオインターフェース(4)を制御するための方法に関する。本発明は、前述の制御方法のステップと、制御信号に基づく顔(10)の向きをビデオインターフェース(4)のフォーカス領域(15)にマップするステップと、そのフォーカス領域(15)を強調表示するステップとを備える、ビデオインターフェース(4)を動作させるための方法にさらに関する。本発明は、前述の方法を実行するように構成された顔向き検出器(6)およびビデオ会議サーバ(5)にさらに関する。

Description

本発明は、会議状況などにおいて使用するためのユーザに関連付けられたビデオインターフェースを制御するための方法に関する。また、本発明は、会議状況などにおいて使用するためのユーザに関連付けられたビデオインターフェースを動作させるための方法にも関する。本発明は、ビデオストリームを受け取るためのビデオ入力と、そのビデオストリーム内の顔の向きを示す制御信号をもたらすように構成されたシグナリング出力とを備える顔向き検出器にさらに関係し、この顔向き検出器は、前述の方法を実行するように構成される。また、本発明は、ユーザにユーザインターフェースを提供するためのビデオ会議サーバにも関し、このビデオ会議サーバは、その方法を実行するように構成される。
局地的に互いに離れた個人の通信がますます必要とされている。通信、および情報の交換を円滑にするために、ユーザが互いに話すこと、互いを見ること、および/または任意の種類の情報を交換することを可能にするビデオ会議が、ますます重要になっている。会議結果を向上させるために、ユーザが、互いに自然に対話することができる会議様の状況において任意の事案を議論できることが所望される。
ビデオ会議は、或る参加者から別の参加者に情報を転送するのに使用される、様々なユーザの間のIP接続に、通常、基づく。この情報は、通常、ユーザを見ること、および聴くことを可能にするオーディオ/ビデオストリームを備え、さらに会議参加者の間で共有されるべき任意の種類のデジタル文書を備える。したがって、ビデオ会議の各ユーザは、その他のユーザに供給されるユーザのオーディオ/ビデオストリームをローカルで生成するためのビデオカメラを有し、さらにユーザのオーディオ/ビデオストリーム、および会議で使用される任意の種類のデータを再現するためにインターフェースデバイス上にローカルで表示されるビデオインターフェースを使用する。
ビデオ会議のすべてのユーザの間で情報を配信するビデオ会議サーバが、提供される。したがって、ビデオ会議サーバは、ビデオ会議に参加するための任意の種類のインターフェースデバイス、例えば、オーディオ/ビデオ情報を再現するための画面とスピーカの組み合わせを使用することが可能なユーザに、ビデオインターフェースを与える。その情報は、例えば、それらのユーザのオーディオ/ビデオストリームに関する個々のストリームの形態で、または個別のストリームを備え、適宜、さらなる文書を備える単一のストリームとして供給され得る。
そのような会議状況などにおいて、ビデオインターフェースとのユーザの対話が、受信される情報の表現を向上させるのに使用される。1つの可能性は、ビデオインターフェースデバイスに接続された入力デバイス、例えば、マウスの対話に依拠する。マウスは、パーソナルコンピュータで知られているとおり、ユーザが注目しているビデオインターフェースの部分を強調表示し、操作する、またはビデオ会議自体を構成するヒューマンマシンインターフェースとして使用され得る。没入型会議の場合、このことは、自然な対話の感覚を中断するので、満足の行くものではない。このことは、ユーザが、所望される対話を実現するために対話デバイスの操作に一瞬、注目することを要求し、ユーザの注目を、会議様の状況の実際の会議の流れから逸らす。ビデオ会議サーバは、ユーザから制御入力を受信し、それに相応してユーザのそれぞれのビデオインターフェースを更新する。
会議状況における対話に関する別のアプローチは、視線制御に基づく。視線制御とは、ユーザが注目している画面の領域を特定するために人間の目の位置を監視することを指す。視線制御は、ユーザの目を監視することに依拠し、このことは、没入型ビデオ会議状況およびそれに類する状況に関してこの制御を一般的に使用することを妨げるいくつかの欠点を有する。第1に、視線制御は、高解像度カメラを要求し、したがって、今日、使用される多くの一般的なカメラに適しておらず、例えば、一般的なラップトップまたはスマートフォンにはビデオカメラが付いているが、視線制御のための十分な解像度をもたらさない。さらに、ビデオカメラのビデオストリームは、通常、IP接続を介して伝送されるように符号化される。特に、低帯域幅の接続または待ち時間の大きい接続において、ビデオストリームの品質が低下する可能性があり、このことが、視線制御の精度およびパフォーマンスに悪影響を及ぼす。さらに、眼鏡またはサングラスなどの眼鏡類の使用が、視線制御の使用を妨げる可能性もある。視線制御は、高品質ビデオ情報を要求するので、この情報を処理するための高い計算能力も要求する。したがって、視線制御は、要求される計算能力をもたらす特定のハードウェアでしか実行され得ない。
したがって、本発明の目的は、前述した欠点および限界を克服する、ビデオインターフェースを制御するための方法、およびビデオインターフェースを動作させるための方法、顔向き検出器、ならびにビデオ会議サーバを提供することである。
この目的が、独立請求項によって実現される。有利な実施形態が、従属請求項において与えられる。
詳細には、ユーザを出所とするビデオストリームのフレームをキャプチャするステップと、そのビデオフレーム内でユーザの顔を認識するステップと、そのビデオフレーム内でユーザの顔の向きを検出するステップと、顔の向きを示す制御信号をもたらすステップとを備える、会議状況などにおいて使用するためのユーザに関連付けられたビデオインターフェースを制御するための方法が、提供される。
前述したとおりビデオインターフェースを制御するための方法を実行するステップと、制御信号に基づく顔の向きをビデオインターフェースのフォーカス領域にマップするステップと、そのフォーカス領域を強調表示するステップとを備える、会議状況などにおいて使用するためのユーザに関連付けられたビデオインターフェースを動作させるための方法が、さらに提供される。
ビデオストリームを受け取るためのビデオ入力と、そのビデオストリーム内の顔の向きを示す制御信号をもたらすように構成されたシグナリング出力とを備える顔向き検出器も提供され、この顔向き検出器は、前述の方法を実行するように構成される。
さらに、ユーザにユーザインターフェースを提供するためのビデオ会議サーバが提供され、このビデオ会議サーバは、前述の方法を実行するように構成される。
基本的な考え方は、ビデオインターフェースを制御するため、および動作させるために顔の向きを検出することである。顔の向きの検出は、例えば、特定の解像度を有するビデオストリームを生成するため、または特定の計算能力をもたらすための強力なハードウェア要件の必要性なしに実行され得る。顔の向きの検出は、ほとんどのラップトップ、スマートフォン、または他のデータ処理デバイスの一部である低解像度カメラに基づいて行われ得る。このことは、顔検出器に供給されるビデオストリームが符号化されている場合でさえ、適用され得る。会議状況などにおいて、個人は、カメラの前に位置しているものと想定され、したがって、データ低品質ビデオストリームさえ、顔の向きを検出するための十分な詳細を示す。眼鏡類または他のフェイスウェアの使用は、顔を部分的にしか覆わず、このことが、眼鏡類または他のフェイスウェアによって覆われていない顔の部分に基づく顔の向きの検出を可能にする。この方法は、そのビデオストリームが、顔の向きの検出を実行するために低データレートで供給され得るので、クラウド内の、またはインターネットに配置されたサーバによる使用に適している。そのビデオストリームの伝送に関して高帯域幅要件は、全く存在しない。
顔向き検出器は、ユーザ側にローカルで、例えば、顔向き検出器にビデオストリームを直接に送るためにビデオカメラと一体化して、接続され提供され得るデバイスである。したがって、そのビデオカメラが、ビデオカメラのビデオストリームと一緒に顔の向きを示す制御信号をもたらすことが可能である。さらに、顔向き検出器は、ユーザから遠隔に、例えば、インターネットに配置されたネットワークデバイスとして配置され得る。顔向き検出器は、クラウドサーバとして実装され得る。
顔向き検出器は、任意の種類の適切な入力であり得る、ビデオストリームを受け取るためのビデオ入力を要求する。ビデオストリームは、例えば、ビデオカメラから直接に知られているアナログビデオコネクタ経由で、またはビデオカメラからIP接続経由でデジタルビデオストリームとして、アナログビデオストリームまたはデジタルビデオストリームとして供給され得る。
ビデオ会議サーバは、前述したとおり、ビデオインターフェースを生成する。このビデオインターフェースの動作が、ユーザの顔の向きによって制御される。ユーザは、例えば、ビデオ画面、またはビデオ画面の投写であり得るビデオインターフェースを示すディスプレイの前に、通常、位置している。ビデオカメラは、通常、ビデオインターフェースのところに配置されて、ユーザに面しており、したがって、ユーザのローカルビデオストリームは、ビデオ会議サーバに供給され得る。この想定で、制御信号は、例えば、顔の向きを、例えば、事前定義された座標系において、単に一種のベクトルとして、または位置として示すことが可能である。顔の向きを示す制御信号は、ビデオ会議サーバによって、フォーカス領域と呼ばれるビデオインターフェースの領域に対する顔の向きのマッピングをもたらすのに使用される。
フォーカス領域は、ユーザが最も関心のある領域であると考えられ、それに相応して、この領域に表示される情報の受け取りを円滑にするように強調表示される。フォーカス領域は、単に、ディスプレイの点によって、または任意の形態を有するディスプレイの領域によって表され得る。例えば、フォーカス領域は、或る直径を有する円形領域、または正方形もしくは長方形の領域であることが可能である。また、フォーカス領域は、ビデオインターフェース上に示されるビデオ会議のアイテムによって定義されることも可能である。そのようなアイテムが、例えば、ビデオ会議のユーザらのビデオストリームの表現、またはローカルユーザを含む、ビデオ会議のユーザらによって供給される任意の種類の情報の再現である。この場合、顔の向きは、顔の向きに最もよく合致するアイテムにマップされる。
顔検出は、例えば、ビデオストリームのビデオフレームに適用される、HAARクラシファイアを使用して実行され得る。HAARクラシファイアは、ビデオフレーム内の複数の顔の検出にラベルを付け、顔の識別として境界ボックスをもたらす。好ましくは、最大のサイズを有する境界ボックスが、さらなる処理のためにユーザの顔として選択される。したがって、ビデオストリームの中で見えるユーザと複数の個人が一緒にいる場合でさえ、ユーザの顔の向きは、確実に検出され得る。顔特徴の識別は、好ましくは、輪郭線演算子、例えば、ソーベル輪郭線演算子またはキャニー輪郭線演算子を使用し、さらにSIFT特徴検出器または「グッドフィーチャーズトゥトラック」アルゴリズムを適用する。
好ましい実施形態は、ビデオフレーム内で少なくとも1つの顔の識別を検証するために肌認識を実行するさらなるステップを備える。好ましくは、色ベースの肌セグメント化が、例えば、HAARクラシファイアによって、認識された顔のもっともらしさ検査を実行するためにフレームに適用される。認識された顔の出現は、肌の色スペクトルと合致するはずであるので、顔の偽の出現が棄却されることが可能である。
好ましい実施形態によれば、ビデオフレーム内でユーザの顔の向きを検出するステップは、そのビデオフレーム内の認識された顔の少なくとも1つの顔特徴を識別するステップと、そのビデオフレーム内のその少なくとも1つの顔特徴の現在の位置を、前のビデオフレームにおけるその顔特徴の位置と比較するステップと、そのビデオフレーム内の少なくとも1つの顔特徴と前のビデオフレームにおけるその顔特徴の位置の比較から顔の向きを導き出すステップとを備える。顔特徴とは、容易に追跡される顔の部分、例えば、鼻の先、顎先、口の端、またはその他を指す。この方法のために使用されるべき顔特徴の数および種類は、例えば、ビデオストリーム品質、または利用可能な処理能力に依存して、自由に選択され得る。原則として、この方法は、単一の顔特徴で既に機能する。それでも、より多数の顔特徴が、顔の向きの検出の信頼性および精度を高める。顔の向きを検出するために、これらの顔特徴の位置は、異なるビデオフレームの間で追跡される。それらのビデオフレームは、連続するビデオフレームであることも、遅延を伴って取られたビデオフレームであることも可能である。処理されるビデオフレームが少ないほど、計算労力が小さくなる一方で、連続するビデオフレームの処理は、顔の向きの検出の信頼性を高める。様々な顔特徴の位置の差に基づいて、顔の向きが導き出され得る。複数の顔特徴が評価される際、顔の向きが、その様々な顔特徴の向きの変化の平均値として与えられることが可能である。
好ましい実施形態が、認識された顔の向きを初期設定するさらなるステップを備える。この初期設定は、ビデオ会議の始めに、または会議中の任意の時点で実行されることが可能である。さらに、この初期設定は、ビデオ会議中に顔の検出が失われた際に実行されることも可能である。この初期設定は、ユーザの顔の信頼できる検出を可能にするとともに、ユーザの顔の向きを事前定義された値、例えば、中心領域に対する顔の向きであるヌル値指示に設定する。
好ましい実施形態によれば、ビデオフレーム内の少なくとも1つの顔特徴の現在の位置を、前のビデオフレームにおけるその顔特徴の位置と比較するステップは、オプティカルフロー推定法の適用を備える。好ましくは、オプティカルフロー推定法は、ピラミッド型Lukas−Kanadeオプティカルフロー推定法である。この方法は、異なるプラットフォームに容易に移植可能であり、GPUベースの実行にさらに適しており、したがって、この方法は、クラウドベースの実施例において良好なパフォーマンスを示す。
好ましい実施形態によれば、ビデオフレーム内の少なくとも1つの顔特徴と前のビデオフレームにおけるその顔特徴の位置の比較から顔の向きを導き出すステップは、各顔特徴につき1つのベクトルを包含する少なくとも1つのベクトル場に基づいて向きベクトルを計算することを備える。ベクトル場は、好ましくは、顔の回転を表す回転成分と、カメラに近づく、またはカメラから遠ざかる顔の動きを表す発散成分と、ビデオカメラの平面に平行な平行移動を表す放射成分とを包含する。好ましくは、この3つの成分は、顔特徴のオプティカルフローセットのヘルムホルツ−ホッジ分解によって得られる。さらに好ましくは、カルマンフィルタが、ノイズ効果を低減するのに使用される。
好ましい実施形態によれば、顔の向きをフォーカス領域にマップするステップは、ビデオインターフェースに従って仮想グリッドをもたらすこと、およびその仮想グリッドの少なくとも1つのメッシュをフォーカス領域にマップすることを備える。仮想グリッドは、ビデオインターフェースを再現するためにユーザによって使用されるディスプレイについての知識さえ有さずに、もたらされ、計算のために使用されることが可能である。フォーカス領域を強調表示することは、好ましくは、グリッドの少なくとも1つのメッシュを強調表示することを備える。したがって、制御信号は、1つのメッシュを識別することによって向きを示すことが可能である。仮想グリッドのメッシュは、ビデオ会議のアイテムに応じて設計され得る。
好ましい実施形態において、フォーカス領域を強調表示するステップは、フォーカス領域のアップスケーリング動作を実行することを備える。アップスケーリングまたはズームインは、フォーカス領域自体に対して、またはフォーカス領域と周囲の領域に対して実行され得る。好ましくは、アップスケーリング動作は、ビデオインターフェース上に示されるビデオ会議のアイテム全体に関して実行される。
好ましい実施形態によれば、フォーカス領域を強調表示するステップは、フォーカス領域を除外した領域のダウンスケーリング動作を実行することを備える。アップスケーリング動作によれば、ダウンスケーリング動作は、フォーカス領域自体の周りで、またはフォーカス領域と周囲の領域の周りで実行されることが可能である。好ましくは、ダウンスケーリングもまた、ビデオインターフェース上に示されるアイテムに基づく。ダウンスケーリングは、局所的に、例えば、フォーカス領域の周りの境界領域において実行されることも、フォーカス領域を除く、ビデオインターフェースの残りの領域全体の上で実行されることも可能である。好ましくは、アップスケーリングとダウンスケーリングが、フォーカス領域の効率的な強調表示のために組み合わされる。
好ましい実施形態において、フォーカス領域を強調表示するステップは、ビデオインターフェースの強調表示領域においてフォーカス領域の内容を示すことを備える。アップスケーリングによれば、フォーカス領域自体、またはフォーカス領域と周囲の領域が、強調表示領域において示され得る。強調表示領域は、ビデオインターフェースの主要な部分を変更することなしにビデオインターフェースの動作を許す。例えば、ビデオインターフェースの少なくとも一部分、例えば、ビデオインターフェースの境界領域またはフレームが、ビデオ会議のすべてのアイテムを示すことが可能であり、さらにビデオインターフェースの別の部分、例えば、ビデオインターフェースの中心領域が、フォーカス領域に対応するアイテムを示す。代替の実施形態において、フォーカス領域の内容が、強調表示領域に移動される。
好ましい実施形態によれば、ビデオ会議サーバは、前述の顔向き検出器をさらに備える。
次に、本発明による装置および/または方法のいくつかの実施形態を、単に例として、添付の図面を参照して説明する。
或る実施形態によるビデオインターフェースを制御するため、および動作させるための方法を示す流れ図である。 前述の方法による顔の向きの検出を例示する図である。 前述の方法によるフォーカス領域に対応するビデオインターフェースのアイテムの強調表示を例示する図である。 前述の方法によるベクトル場に基づく顔の向きを導き出すことを例示する図である。 前述の方法によるフォーカス領域に対応するビデオインターフェースのアイテムの強調表示を例示するさらなる図である。 第1の実施形態によるビデオカメラと、ビデオ会議サーバと、顔向き検出器とを備えるビデオ会議システムを示す概略図である。
図6は、第1の実施形態によるビデオ会議システム1の概略図を示す。ビデオ会議システム1は、この実施形態では、ビデオインターフェースデバイス2と、デジタルビデオカメラ3とを備える。この実施形態ではLCDディスプレイであるビデオインターフェースデバイス2は、ビデオ会議サーバ5から提供されるビデオインターフェース4を再現する。ビデオ会議システム1は、顔向き検出器6をさらに備える。ビデオインターフェースデバイス2、デジタルビデオカメラ3、ビデオ会議サーバ5、および顔向き検出器6は、IP接続7を介して接続される。代替の実施形態において、顔向き検出器6は、ビデオ会議サーバ5と一体化して与えられる。
顔向き検出器6は、IPコネクタ8を介して、デジタルビデオカメラ3からビデオストリームを受け取る。顔向き検出器6は、後段で詳細に説明されるとおり、顔10の向きを検出し、IPコネクタ8を介して、顔の向きを示す制御信号をビデオ会議サーバ5に供給する。したがって、顔検出器6のIPコネクタ8は、デジタルビデオカメラ3からデジタルビデオストリームを受け取るためのビデオ入力、およびビデオフレーム内で示される顔10の向きを示す制御信号をもたらすためのシグナリング出力の役割をする。
ビデオ会議サーバ5は、ビデオインターフェース4、すなわち、会議ストリーム内のビデオ会議の再現を生成し、その再現を、IP接続7を介して、ビデオインターフェース4の再現が示されるビデオインターフェースデバイス2に供給する。
図1は、或る実施形態による方法の流れ図を示す。この方法は、ステップS100で始まる。ステップS100は、後段で詳細に説明されるとおり、ビデオストリームにおいて示される顔10の顔認識および向きを初期設定することを備える、方法の初期設定を備える。
初期設定ステップS100で、例えば、インテル社のOpenCVライブラリを備えた、正面顔HAARクラシファイアが、デジタルビデオカメラ3のビデオフレーム11に適用される。時刻tおよびtに対応する個々のビデオフレーム11が、図2に示される。ビデオフレーム11は、デジタルビデオカメラ3の前に位置付けられ、ビデオインターフェースデバイス2においてビデオインターフェース2と向かい合う、会議状況におけるデジタルビデオカメラ3によって供給されるビデオ会議のローカルユーザ12を示す。初期設定は、ユーザ12の顔10の検出と、顔10の初期位置とを備える。顔検出は、正面顔HAARクラシファイアを使用して実施される。通常の正面顔HARRクラシファイアが訓練される様態は、ユーザ12の顔10が、検出が行われるためにデジタルビデオカメラ3に真っ直ぐに向いていなければならないことを要求する。
各ビデオフレーム11に関して、HAARクラシファイアは、顔出現のリストを、i=1..nであり、ただし、nは、検出された顔出現の回数を表す、境界ボックスのセットBBiとしてもたらす。各BBiは、4つ組<X,Y,W,H>として表され、ただし、<X,Y>は、フレームにおけるBB中心の座標を表し、<W,H>は、BBのサイズを画像ピクセル数<幅,高さ>で表す。図2は、ビデオフレーム11内のユーザ12の顔10を示す境界ボックスBBを示す。
さらに、色ベースの肌認識および肌セグメント化が、ビデオフレーム11に適用され、さらに肌パッチが、連結成分解析を介して決定される。次に、最大境界ボックスBBmaxが、以下の式に従って選択される:
BBmax=arg maxBB{A(BB)|SR>TSR},i=1..n (1)
ただし:
− SRi=肌比=肌というラベルが付けられたピクセルの数/ボックス領域内のピクセルの総数であり、
− A(BBi)=BBi.W×BBi.H=境界ボックス領域関数であり、
− TSR=アプリケーション特有の肌比閾値(例えば、0.8)であり、
− arg max=その関数を最大化する引数である。
このことは、複数の個人がデジタルビデオカメラ3と向かい合って場面にいる場合、デジタルビデオカメラ3に最も近い個人だけが、さらなる処理のために選択されることを確実にする。Haarクラシファイアからの偽陽性認識による偽の出現は、出現が肌の色スペクトルと合致しなければならないので、棄却される。したがって、肌認識は、ビデオフレーム11内の少なくとも1つの顔10の識別の検証をもたらす。
BBmaxがビデオフレーム11内で見出された場合、顔向きベクトルVが、以下のとおり初期設定される:
− 原点=<BBmax.X,BBmax.Y>
− 向き=フレーム平面に対して垂直
− 大きさ=BBmax.H/ピクセル単位のフレーム高
ステップS110で、方法は、初期設定に関連して前述したとおり、ビデオフレーム11内の最大の顔10の検出に進む。
ステップS120で、顔特徴14の追跡が実行される。したがって、図2にIとしても表される、初期顔検出が行われるビデオフレーム11が、輪郭線演算子(例えば、ソーベルまたはキャニー)によって処理されて、やはりIと呼ばれる、初期顔検出が行われたビデオフレーム11の輪郭線画像Eがもたらされる。輪郭線画像Eは、輪郭線のセット13を備える。初期顔検出後の任意の時点tで、現在のビデオフレーム11は、Iと呼ばれ、Eが、そのフレームに対応する輪郭線画像である。
追跡され得る顔特徴14の特徴セットFが、図2に示されるとおり、BBmaxによって定義される関心領域(ROI)内のEに、SIFT特徴検出器、またはShiおよびTomasiの「グッドフィーチャーズトゥトラック」アルゴリズムと呼ばれるアルゴリズムを適用することによって得られる。
次に、特徴セットFが、オプティカルフローアルゴリズム、例えば、ピラミッド型Lukas−Kanadeフロー推定法を使用することによって、次の画像E内で追跡される。一般に、輪郭線画像Eに関する特徴セットFが、オプティカルフローアルゴリズムを使用することによってセットFt−1から各顔特徴14の位置を推定することによって生成される。
特徴セットFは、以下のとおり数学的に表される:
={f|i=1..n} (2)
であり、fとも呼ばれる、追跡される各顔特徴14が、4つ組<x,y,x’,y’>として表され、ただし、<x,y>は、セットFt−1の中の顔特徴14の前の位置を表し、さらに<x’,y’>は、新たに推定された位置を表す。Δx=x’−xおよびΔy=y’−yを考慮すると、顔特徴14は:
− 原点=<x,y>であり、
− 向き=arctg(Δy/Δx)であり、
− 速度=sqrt((Δx)+(Δy))である、
ベクトルV の形態で表され得ることが直ちに明白である。
このアルゴリズムは、いくつかのビデオフレーム11の後に追跡される顔特徴14が、ユーザ12の顔10に依然として属することを確実にしなければならない。このことは、ノイズまたは累積誤差によってもたらされた、誤った推定がされた特徴である異常値を取り除き、さらに特徴セットFを周期的に再生成して、異常値を取り除いた後の特徴セットF濃度の低下を回避することによって実現される。
異常値は、フレーム差ΔI=ΔI−It−1を基準として特徴セットFを制約することによって取り除かれる。特徴セットFの中の顔特徴14は、
={f|ΔI(f.x’,f.y’)≠0} (3)
であるようにフィルタリングされる。
特徴セットFは、以下のアルゴリズムに従って周期的に再生成される(或る数Nのフレームの後に):
− tがNの倍数である特徴セットFに関して、凸多角形C(F)が計算され、
− C(F)が、輪郭線画像Eに関するROIとして設定され、
− 追跡され得る顔特徴14のセットF’が、前に考慮されたROI内のEに関して再計算され、
− t+1で、追跡が、F’から開始して計算される。
GPUベースの実行に関するピラミッド型Lukas−Kanadeフロー推定法の移植性のため、この方法は、非常に高速のパフォーマンスを示し、サーバ側の実装に適している。
ステップS130で、追跡される顔特徴14のセットFが、ユーザ12の顔10がデジタルビデオカメラ3のカバーする領域の外に移動したことにより、失われたかどうかが検証される。追跡される顔特徴14のセットFが失われた場合、方法は、最大の顔10を検出するためのステップS110に戻る。失われていない場合、方法は、ステップS140に進む。
ステップS140で、顔向きベクトルVが、現在、解析されているビデオフレーム11に応じて更新される。
オプティカルフローアルゴリズムの出力が、以下、
Figure 2015517239
に従って、ドメインΩ(ほとんどいたるところでリプシッツ連続である)内でベクトル場uとしてモデル化され、追跡可能な特徴のセットFが、このベクトル場uに例えられる。
このシナリオにおいて、ドメインΩは、境界ボックスBBによって規定される関心領域によって与えられ、ここでオプティカルフローが計算される。すべてのベクトル場uは、以下のとおり3つのベクトル場に分割されることが可能であり(この場合は満たされる或る一そろいの状況の下で)、このことは、図4にも示される:
u=d+r+h
ただし、
d=カールのない成分であり(すなわち、非回転場であり)、
r=発散のない(純回転)場であり、さらに
h=調和的場である(すなわち、勾配である)。
式(3)によって与えられる、追跡される顔特徴4のオプティカルフローセットFのヘルムホルツ−ホッジ分解が実行される。ヘルムホルツ−ホッジ分解は、以下の3つの成分をもたらす:
− 顔10の回転を表す回転成分、
− デジタルビデオカメラ3に近づく、またはデジタルビデオカメラ3から遠ざかる顔10の動きを表す発散成分、および
− カメラ平面に平行である純粋な平行移動を表す勾配成分。
ヘルムホルツ−ホッジ分解は、線形システムを解く流体力学からヒントを得たメッシュレスアルゴリズムを使用して実行される。
次に、ベクトル場Fの回転成分、発散成分、および調和的成分が、頭部中心の基準フレームワークを回る回転として投影される。これらの回転は、すなわち:
− ロール:x軸の周りの回転
− ピッチ、y軸の周りの回転
− ヨー、z軸の周りの回転
であり、既に知られている顔向きVt−1からの角度差を格納する{Δp,Δq,Δr}3つ組として表現される。Vt−1をこれらの値で更新することが、{p,q,r}3つ組として、やはり角度形態で表される現在の頭部姿勢をもたらす。
これら3つの回転成分を頭部姿勢の指標(すなわち、ユーザ12の顔10が注目しているポイント)として直接に使用することが、ノイズの影響を減らすように改良され得る。ノイズは、ピクセルベースの表現の不正確さ、およびビデオカメラ3の非線形性から生じる。
ノイズ効果を取り除くのに、カルマンフィルタが使用される。頭部姿勢ベクトルを直接に追跡するカルマンフィルタは、特異点({p,q,r}3つ組の角度表現に起因する)を有するので、したがって、表式は、四元数を用いたものとなる。この四元数は、頭部中心の基準フレームワークを回る回転を表すR={q,q,q,q}におけるベクトルである。四元数と従来のRベクトルの間の変換は、単純であり、当業者に知られている。
カルマン表記法は、重要なのは、頭部の絶対位置ではなく、頭部の姿勢ベクトルだけであるという単純化する想定を適用することによって、飛行力学から採用され、適用させられることが可能である。このため、離散カルマンフィルタの内部状態が、単に四元数の向きによってモデル化される。行列、[A]、[B]が、剛体の力学から採用されて、適用させられ、さらに誤差行列、[Q]、[P]、および[R](プロセス誤差共分散もしくはプロセスノイズ、推定誤差共分散もしくは推定ノイズ、および測定誤差共分散もしくは測定ノイズ)が、[Q]=σI4×4であると定義され、[P]は、t=0の場合にだけ必要とされ、対角要素の値の大きい(例えば、10)行列であるように、数学的に述べると、測定が、例えば、状態追跡においてではなく、初期のトラッカにおいて非常に重要であるように選択される。行列[R]は、
Figure 2015517239
であり、
ただし、σは、実験によって決定される。
このステップの最終部分において、カルマンフィルタから得られる結果が、3DスペースにおけるVベクトルの向きを与える一方で、顔10の境界ボックスBBとビデオフレーム11のサイズの比が、Vベクトルの大きさ|V|を与える。このようにして得られたベクトルVは、顔検出器6から制御信号によってビデオ会議サーバ5に供給され得る、ユーザ12の顔10の向きに関する指示である。
ステップS150で、ディスプレイ4のフォーカス領域15が決定される。フォーカス領域15は、ユーザ12が注目しているビデオインターフェース4上の位置に対応する。したがって、顔中心の向きベクトルVが、メッシュとも呼ばれる、N×Mセル17の仮想グリッド16上に投影される。仮想グリッド16は、図2に示されるとおり、ビデオフレーム11の上に重ね合わされる。この投影を計算することは、ベクトルのX軸成分およびY軸成分、V およびV だけを考慮に入れることにより、単純である。
XY平面上にVを投影することによってポイントされるメッシュ17は、ビデオインターフェース4上のフォーカス領域15を表す。さらに、A が、図3および図5に示され、後段でさらに詳細に説明されるとおり、ビデオインターフェース4上に示される没入型通信対話場面20におけるアイテム18、19を決定するのに使用される。
没入型ビデオ会議において、各ユーザ12または各参加者Pに、カスタマイズされることが可能な、Sとしても表される、各ユーザ12の対話場面20が提示される。対話場面20は、他のユーザら12のビデオストリーム画面18と、{P,j=1..n,j<>i}としても表される、共有される文書19と、各ユーザ12自身のビデオストリーム画面18とを備えるアイテム18、19を示す。各ビデオストリームは、背景からユーザ12のシルエットを分離し、それをビデオストリーム内にレンダリングする、カットアウトアルゴリズムにかけられる。このレイアウトの目的は、各ユーザ12に、同一の部屋の中にいて、その他の出席者と向かい合っているという印象を与えることである。すべての処理は、クラウドにおいてビデオ会議サーバ5上で実行される。処理パイプライン(PPL)が、境界ボックスBBとして表される、各対話場面20、Sにおける各ユーザ12、Pの位置を有する記録を保持する。
前述したアルゴリズムを介して各ユーザ12、Pの顔の向きを監視することによって、PPLは、フォーカス領域15、A を計算し、図3に示されるとおり、対話場面20、Sの上にフォーカス領域A を重ね合わせる。ユーザ12は、ユーザ12の顔を、顔10の向きの変化として登録されるように、フォーカス領域15の方向に或る時間間隔Tにわたって向けなければならない。顔10の向きが登録されると、PPLが、対話場面20におけるアイテム18、19の境界ボックスとの最大交差を調べる。
BB=arg maxBB{∩(BB)=A ∩BB|j≠i}
BBで表される、注目されるアイテム18、19が、次に、ステップS170で強調表示される。したがって、注目されるアイテム18、19が、ビデオストリーム画面18である場合、ビデオストリーム画面18が、それぞれのユーザ12、Pの顔向きベクトルの大きさ|V|に比例して拡大される。この拡大縮小には、図3に示されるとおり、滑らかで短い遷移アニメーションを介して、その他のユーザら12のスケールを縮小すること、および場面20、Sにおいてその他のユーザら12を並べ替えることが伴うことが可能である。PPLは、|V|を常時、監視するので、注目されるビデオストリーム画面18のスケールは、カメラの前のローカルユーザ12(P)がビデオインターフェースデバイス2に、より近づくにつれ、またはビデオインターフェースデバイス2から、より遠ざかるにつれ、調整されることが可能である。注目される項目18、19が文書19である場合、図5に示されるとおり、対話場面20における文書19の位置が、文書19が対話場面20全体を占有するまで、|V|に比例して拡大される。|V|が、文書19が全場面サイズにまで拡大された後に、依然として増大し(Piが、ビデオインターフェースデバイス2に非常に近づき)、|V|>Tzoom(ただし、Tzoomは、アプリケーション特有の閾値である)となる場合、図5にさらに示されるとおり、文書19の内容に対するズームが、実行される。
フォーカス領域15に関するアイテム18、19の強調表示の後、方法は、ステップ120に戻る。
本発明は、他の特定の装置および/または方法として実現され得る。説明される実施形態は、すべての点で、限定するものではなく、単に例示的であると見なされるべきである。詳細には、本発明の範囲は、本明細書の説明および図によってではなく、添付の特許請求の範囲によって示される。特許請求の範囲と均等の趣旨および範囲に含まれるすべての変更が、特許請求の範囲に包含されるものとする。

Claims (14)

  1. 会議状況などにおいて使用するためのユーザ(12)に関連付けられたビデオインターフェース(4)を制御するための方法であって、
    ユーザ(12)を出所とするビデオストリームのフレーム(11)をキャプチャするステップと、
    ビデオフレーム(11)内でユーザ(12)の顔(10)を認識するステップと、
    ビデオフレーム(11)内でユーザ(12)の顔(10)の向きを検出するステップと、
    顔(10)の向きを示す制御信号をもたらすステップとを備える、方法。
  2. ビデオフレーム(11)内で少なくとも1つの顔(10)の識別を検証するために肌認識を実行するさらなるステップを備える、請求項1に記載の方法。
  3. ビデオフレーム(11)内でユーザ(12)の顔(10)の向きを検出するステップが、
    ビデオフレーム(11)内の認識された顔(10)の少なくとも1つの顔特徴(14)を識別するステップと、
    ビデオフレーム(11)内の少なくとも1つの顔特徴(14)の現在の位置を、前のビデオフレーム(11)における顔特徴の位置と比較するステップと、
    ビデオフレーム(11)内の少なくとも1つの顔特徴(14)と前のビデオフレーム(11)における顔特徴の位置の比較から顔の向きを導き出すステップとを備える、請求項1に記載の方法。
  4. 認識された顔(10)の顔の向きを初期設定するさらなるステップを備える、請求項3に記載の方法。
  5. ビデオフレーム(11)内の少なくとも1つの顔特徴(14)の現在の位置を、前のビデオフレーム(11)における顔特徴の位置と比較するステップが、オプティカルフロー推定法の適用を備える、請求項3に記載の方法。
  6. ビデオフレーム(11)内の少なくとも1つの顔特徴(14)と前のビデオフレーム(11)における顔特徴の位置の比較から顔の向きを導き出すステップが、各顔特徴(14)につき1つのベクトルを包含する少なくとも1つのベクトル場に基づいて向きベクトル(V)を計算するステップを備える、請求項3に記載の方法。
  7. 会議状況などにおいて使用するためのユーザ(12)に関連付けられたビデオインターフェース(4)を動作させるための方法であって、
    請求項1から6のいずれかに記載のビデオインターフェース(4)を制御するための方法を実行するステップと、
    制御信号に基づく顔(10)の向きをビデオインターフェース(4)のフォーカス領域(15)にマップするステップと、
    フォーカス領域(15)を強調表示するステップとを備える、方法。
  8. 顔(10)の向きをフォーカス領域(15)にマップするステップが、
    ビデオインターフェース(2)に従って仮想グリッド(16)をもたらすステップと、
    仮想グリッド(16)の少なくとも1つのメッシュ(17)をフォーカス領域(15)にマップするステップとを備える、請求項7に記載の方法。
  9. フォーカス領域(15)を強調表示するステップが、フォーカス領域(15)のアップスケーリング動作を実行するステップを備える、請求項7に記載の方法。
  10. フォーカス領域(15)を強調表示するステップが、フォーカス領域(15)を除外した領域のダウンスケーリング動作を実行するステップを備える、請求項7に記載の方法。
  11. フォーカス領域(15)を強調表示するステップは、ビデオインターフェース(2)の強調表示領域においてフォーカス領域(15)の内容を示すステップを備える、請求項7に記載の方法。
  12. ビデオストリームを受け取るためのビデオ入力(8)と、ビデオストリーム内の顔(10)の向きを示す制御信号をもたらすように構成されたシグナリング出力(8)とを備える、顔向き検出器(6)であって、
    請求項1から6のいずれかに記載の方法を実行するように構成された、顔向き検出器(6)。
  13. ユーザ(12)にユーザインターフェース(4)を提供するためのビデオ会議サーバ(5)であって、
    請求項1から11のいずれかに記載の方法を実行するように構成された、ビデオ会議サーバ(5)。
  14. 請求項12に記載の顔向き検出器(6)をさらに備える、請求項13に記載のビデオ会議サーバ(5)。
JP2014561363A 2012-03-12 2013-03-05 ビデオインターフェースを制御するための方法、ビデオインターフェースを動作させるための方法、顔向き検出器、およびビデオ会議サーバ Pending JP2015517239A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP12290086.3 2012-03-12
EP12290086.3A EP2639674B1 (en) 2012-03-12 2012-03-12 Method for control of a video interface, face orientation detector, and video conferencing server
PCT/EP2013/054331 WO2013135523A1 (en) 2012-03-12 2013-03-05 Method for control of a video interface, method for operation of a video interface, face orientation detector, and video conferencing server

Publications (2)

Publication Number Publication Date
JP2015517239A true JP2015517239A (ja) 2015-06-18
JP2015517239A5 JP2015517239A5 (ja) 2016-05-26

Family

ID=47780079

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014561363A Pending JP2015517239A (ja) 2012-03-12 2013-03-05 ビデオインターフェースを制御するための方法、ビデオインターフェースを動作させるための方法、顔向き検出器、およびビデオ会議サーバ

Country Status (6)

Country Link
US (1) US9402053B2 (ja)
EP (1) EP2639674B1 (ja)
JP (1) JP2015517239A (ja)
KR (1) KR20140122275A (ja)
CN (1) CN104169842B (ja)
WO (1) WO2013135523A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2602692A1 (en) * 2011-12-05 2013-06-12 Alcatel Lucent Method for recognizing gestures and gesture detector
US10531048B2 (en) 2016-12-15 2020-01-07 Motorola Solutions, Inc. System and method for identifying a person, object, or entity (POE) of interest outside of a moving vehicle
US10726602B2 (en) * 2017-02-03 2020-07-28 Sony Corporation Apparatus and method to generate realistic three-dimensional (3D) model animation
US10423821B2 (en) * 2017-10-25 2019-09-24 Microsoft Technology Licensing, Llc Automated profile image generation based on scheduled video conferences
CN112995495A (zh) * 2019-12-17 2021-06-18 佛山市云米电器科技有限公司 显示设备的摄像头调节方法、显示设备及存储介质
WO2022000158A1 (en) * 2020-06-29 2022-01-06 Plantronics, Inc Videoconference user interface layout based on face detection
KR20220126107A (ko) * 2021-03-08 2022-09-15 삼성전자주식회사 화상 회의를 제공하는 전자 장치 및 그 방법
KR20230142194A (ko) 2022-04-01 2023-10-11 주식회사 네트워크전자 비디오 인터페이스 방법
CN117372322A (zh) * 2022-06-30 2024-01-09 武汉联影智融医疗科技有限公司 人脸朝向的确定方法及装置、人脸图像的重建方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003015816A (ja) * 2001-06-29 2003-01-17 Honda Motor Co Ltd ステレオカメラを使用した顔・視線認識装置
JP2005018654A (ja) * 2003-06-27 2005-01-20 Nissan Motor Co Ltd 脇見状態検出装置
JP2005130251A (ja) * 2003-10-24 2005-05-19 Sony Corp 映像配信システム
JP2006139028A (ja) * 2004-11-11 2006-06-01 Nippon Telegr & Teleph Corp <Ntt> 遷移支援方法及び映像音声通信システム
JP2008299737A (ja) * 2007-06-01 2008-12-11 Sky Kk 操作画像再生装置及び操作画像再生プログラム
JP2009080573A (ja) * 2007-09-25 2009-04-16 E Compute Kk 表示手法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004053795A2 (en) * 2002-12-11 2004-06-24 Koninklijke Philips Electronics N.V. Method and apparatus for correcting a head pose in a video phone image
US7710450B2 (en) * 2006-04-20 2010-05-04 Cisco Technology, Inc. System and method for dynamic control of image capture in a video conference system
US8174558B2 (en) * 2007-04-30 2012-05-08 Hewlett-Packard Development Company, L.P. Automatically calibrating a video conference system
WO2010101697A2 (en) * 2009-02-06 2010-09-10 Oculis Labs, Inc. Video-based privacy supporting system
JP2010224677A (ja) * 2009-03-19 2010-10-07 Seiko Epson Corp 画像評価方法、画像評価プログラムおよび印刷装置
US8179417B2 (en) * 2009-07-22 2012-05-15 Hewlett-Packard Development Company, L.P. Video collaboration
CN101808220A (zh) 2010-02-05 2010-08-18 苏州科达科技有限公司 一种视频会议系统中控制视频模式的控制方法及相应装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003015816A (ja) * 2001-06-29 2003-01-17 Honda Motor Co Ltd ステレオカメラを使用した顔・視線認識装置
JP2005018654A (ja) * 2003-06-27 2005-01-20 Nissan Motor Co Ltd 脇見状態検出装置
JP2005130251A (ja) * 2003-10-24 2005-05-19 Sony Corp 映像配信システム
JP2006139028A (ja) * 2004-11-11 2006-06-01 Nippon Telegr & Teleph Corp <Ntt> 遷移支援方法及び映像音声通信システム
JP2008299737A (ja) * 2007-06-01 2008-12-11 Sky Kk 操作画像再生装置及び操作画像再生プログラム
JP2009080573A (ja) * 2007-09-25 2009-04-16 E Compute Kk 表示手法

Also Published As

Publication number Publication date
CN104169842A (zh) 2014-11-26
CN104169842B (zh) 2017-04-05
KR20140122275A (ko) 2014-10-17
US9402053B2 (en) 2016-07-26
EP2639674A1 (en) 2013-09-18
EP2639674B1 (en) 2016-06-01
US20150077504A1 (en) 2015-03-19
WO2013135523A1 (en) 2013-09-19

Similar Documents

Publication Publication Date Title
JP2015517239A (ja) ビデオインターフェースを制御するための方法、ビデオインターフェースを動作させるための方法、顔向き検出器、およびビデオ会議サーバ
US9947141B2 (en) Method of image processing for an augmented reality application
CN108229284B (zh) 视线追踪及训练方法和装置、系统、电子设备和存储介质
US10157477B2 (en) Robust head pose estimation with a depth camera
Gorodnichy et al. Nouse ‘use your nose as a mouse’perceptual vision technology for hands-free games and interfaces
US10013805B2 (en) Control of enhanced communication between remote participants using augmented and virtual reality
US20160358383A1 (en) Systems and methods for augmented reality-based remote collaboration
US10755438B2 (en) Robust head pose estimation with a depth camera
US9348422B2 (en) Method for recognizing gestures and gesture detector
US20170316582A1 (en) Robust Head Pose Estimation with a Depth Camera
US11165992B1 (en) System and method for generating a composited video layout of facial images in a video conference
WO2016149579A1 (en) Emotion recognition in video conferencing
AU2015253557A1 (en) Facial expression tracking
US11048464B2 (en) Synchronization and streaming of workspace contents with audio for collaborative virtual, augmented, and mixed reality (xR) applications
JP2013504918A (ja) 画像処理システム
WO2022110591A1 (zh) 基于连麦直播的直播画面处理方法、装置及电子设备
US20200404078A1 (en) Adaptive backchannel synchronization for virtual, augmented, or mixed reality (xr) applications in edge cloud architectures
US20230231983A1 (en) System and method for determining directionality of imagery using head tracking
Gelb et al. Augmented reality for immersive remote collaboration
JP7395855B2 (ja) 360度ビデオへのデジタルストリームの自動検出及び挿入のためのシステム、方法及びプログラム
Funes Mora et al. Eyediap database: Data description and gaze tracking evaluation benchmarks
Kumano et al. Collective first-person vision for automatic gaze analysis in multiparty conversations
EP4113982A1 (en) Method for sensing and communicating visual focus of attention in a video conference
KR101844367B1 (ko) 부분 포즈 추정에 의하여 개략적인 전체 초기설정을 사용하는 머리 포즈 추정 방법 및 장치
Yip Face and eye rectification in video conference using artificial neural network

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151020

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160401

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20160401

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160906