JP2015517239A

JP2015517239A - ビデオインターフェースを制御するための方法、ビデオインターフェースを動作させるための方法、顔向き検出器、およびビデオ会議サーバ

Info

Publication number: JP2015517239A
Application number: JP2014561363A
Authority: JP
Inventors: ファガダル−コスマ，ミハイ; カサス−サンチェス，ミゲル
Original assignee: アルカテル−ルーセント
Priority date: 2012-03-12
Filing date: 2013-03-05
Publication date: 2015-06-18
Also published as: CN104169842A; CN104169842B; KR20140122275A; US9402053B2; EP2639674A1; EP2639674B1; US20150077504A1; WO2013135523A1

Abstract

本発明は、ユーザ（１２）を出所とするビデオストリームのフレーム（１１）をキャプチャするステップと、そのビデオフレーム（１１）内でユーザ（１２）の顔（１０）を認識するステップと、そのビデオフレーム（１１）内でユーザ（１２）の顔（１０）の向きを検出するステップと、顔（１０）の向きを示す制御信号をもたらすステップとを備える、会議状況などにおいて使用するためのユーザ（１２）に関連付けられたビデオインターフェース（４）を制御するための方法に関する。本発明は、前述の制御方法のステップと、制御信号に基づく顔（１０）の向きをビデオインターフェース（４）のフォーカス領域（１５）にマップするステップと、そのフォーカス領域（１５）を強調表示するステップとを備える、ビデオインターフェース（４）を動作させるための方法にさらに関する。本発明は、前述の方法を実行するように構成された顔向き検出器（６）およびビデオ会議サーバ（５）にさらに関する。

Description

本発明は、会議状況などにおいて使用するためのユーザに関連付けられたビデオインターフェースを制御するための方法に関する。また、本発明は、会議状況などにおいて使用するためのユーザに関連付けられたビデオインターフェースを動作させるための方法にも関する。本発明は、ビデオストリームを受け取るためのビデオ入力と、そのビデオストリーム内の顔の向きを示す制御信号をもたらすように構成されたシグナリング出力とを備える顔向き検出器にさらに関係し、この顔向き検出器は、前述の方法を実行するように構成される。また、本発明は、ユーザにユーザインターフェースを提供するためのビデオ会議サーバにも関し、このビデオ会議サーバは、その方法を実行するように構成される。

局地的に互いに離れた個人の通信がますます必要とされている。通信、および情報の交換を円滑にするために、ユーザが互いに話すこと、互いを見ること、および／または任意の種類の情報を交換することを可能にするビデオ会議が、ますます重要になっている。会議結果を向上させるために、ユーザが、互いに自然に対話することができる会議様の状況において任意の事案を議論できることが所望される。

ビデオ会議は、或る参加者から別の参加者に情報を転送するのに使用される、様々なユーザの間のＩＰ接続に、通常、基づく。この情報は、通常、ユーザを見ること、および聴くことを可能にするオーディオ／ビデオストリームを備え、さらに会議参加者の間で共有されるべき任意の種類のデジタル文書を備える。したがって、ビデオ会議の各ユーザは、その他のユーザに供給されるユーザのオーディオ／ビデオストリームをローカルで生成するためのビデオカメラを有し、さらにユーザのオーディオ／ビデオストリーム、および会議で使用される任意の種類のデータを再現するためにインターフェースデバイス上にローカルで表示されるビデオインターフェースを使用する。

ビデオ会議のすべてのユーザの間で情報を配信するビデオ会議サーバが、提供される。したがって、ビデオ会議サーバは、ビデオ会議に参加するための任意の種類のインターフェースデバイス、例えば、オーディオ／ビデオ情報を再現するための画面とスピーカの組み合わせを使用することが可能なユーザに、ビデオインターフェースを与える。その情報は、例えば、それらのユーザのオーディオ／ビデオストリームに関する個々のストリームの形態で、または個別のストリームを備え、適宜、さらなる文書を備える単一のストリームとして供給され得る。

そのような会議状況などにおいて、ビデオインターフェースとのユーザの対話が、受信される情報の表現を向上させるのに使用される。１つの可能性は、ビデオインターフェースデバイスに接続された入力デバイス、例えば、マウスの対話に依拠する。マウスは、パーソナルコンピュータで知られているとおり、ユーザが注目しているビデオインターフェースの部分を強調表示し、操作する、またはビデオ会議自体を構成するヒューマンマシンインターフェースとして使用され得る。没入型会議の場合、このことは、自然な対話の感覚を中断するので、満足の行くものではない。このことは、ユーザが、所望される対話を実現するために対話デバイスの操作に一瞬、注目することを要求し、ユーザの注目を、会議様の状況の実際の会議の流れから逸らす。ビデオ会議サーバは、ユーザから制御入力を受信し、それに相応してユーザのそれぞれのビデオインターフェースを更新する。

会議状況における対話に関する別のアプローチは、視線制御に基づく。視線制御とは、ユーザが注目している画面の領域を特定するために人間の目の位置を監視することを指す。視線制御は、ユーザの目を監視することに依拠し、このことは、没入型ビデオ会議状況およびそれに類する状況に関してこの制御を一般的に使用することを妨げるいくつかの欠点を有する。第１に、視線制御は、高解像度カメラを要求し、したがって、今日、使用される多くの一般的なカメラに適しておらず、例えば、一般的なラップトップまたはスマートフォンにはビデオカメラが付いているが、視線制御のための十分な解像度をもたらさない。さらに、ビデオカメラのビデオストリームは、通常、ＩＰ接続を介して伝送されるように符号化される。特に、低帯域幅の接続または待ち時間の大きい接続において、ビデオストリームの品質が低下する可能性があり、このことが、視線制御の精度およびパフォーマンスに悪影響を及ぼす。さらに、眼鏡またはサングラスなどの眼鏡類の使用が、視線制御の使用を妨げる可能性もある。視線制御は、高品質ビデオ情報を要求するので、この情報を処理するための高い計算能力も要求する。したがって、視線制御は、要求される計算能力をもたらす特定のハードウェアでしか実行され得ない。

したがって、本発明の目的は、前述した欠点および限界を克服する、ビデオインターフェースを制御するための方法、およびビデオインターフェースを動作させるための方法、顔向き検出器、ならびにビデオ会議サーバを提供することである。

この目的が、独立請求項によって実現される。有利な実施形態が、従属請求項において与えられる。

詳細には、ユーザを出所とするビデオストリームのフレームをキャプチャするステップと、そのビデオフレーム内でユーザの顔を認識するステップと、そのビデオフレーム内でユーザの顔の向きを検出するステップと、顔の向きを示す制御信号をもたらすステップとを備える、会議状況などにおいて使用するためのユーザに関連付けられたビデオインターフェースを制御するための方法が、提供される。

前述したとおりビデオインターフェースを制御するための方法を実行するステップと、制御信号に基づく顔の向きをビデオインターフェースのフォーカス領域にマップするステップと、そのフォーカス領域を強調表示するステップとを備える、会議状況などにおいて使用するためのユーザに関連付けられたビデオインターフェースを動作させるための方法が、さらに提供される。

ビデオストリームを受け取るためのビデオ入力と、そのビデオストリーム内の顔の向きを示す制御信号をもたらすように構成されたシグナリング出力とを備える顔向き検出器も提供され、この顔向き検出器は、前述の方法を実行するように構成される。

さらに、ユーザにユーザインターフェースを提供するためのビデオ会議サーバが提供され、このビデオ会議サーバは、前述の方法を実行するように構成される。

基本的な考え方は、ビデオインターフェースを制御するため、および動作させるために顔の向きを検出することである。顔の向きの検出は、例えば、特定の解像度を有するビデオストリームを生成するため、または特定の計算能力をもたらすための強力なハードウェア要件の必要性なしに実行され得る。顔の向きの検出は、ほとんどのラップトップ、スマートフォン、または他のデータ処理デバイスの一部である低解像度カメラに基づいて行われ得る。このことは、顔検出器に供給されるビデオストリームが符号化されている場合でさえ、適用され得る。会議状況などにおいて、個人は、カメラの前に位置しているものと想定され、したがって、データ低品質ビデオストリームさえ、顔の向きを検出するための十分な詳細を示す。眼鏡類または他のフェイスウェアの使用は、顔を部分的にしか覆わず、このことが、眼鏡類または他のフェイスウェアによって覆われていない顔の部分に基づく顔の向きの検出を可能にする。この方法は、そのビデオストリームが、顔の向きの検出を実行するために低データレートで供給され得るので、クラウド内の、またはインターネットに配置されたサーバによる使用に適している。そのビデオストリームの伝送に関して高帯域幅要件は、全く存在しない。

顔向き検出器は、ユーザ側にローカルで、例えば、顔向き検出器にビデオストリームを直接に送るためにビデオカメラと一体化して、接続され提供され得るデバイスである。したがって、そのビデオカメラが、ビデオカメラのビデオストリームと一緒に顔の向きを示す制御信号をもたらすことが可能である。さらに、顔向き検出器は、ユーザから遠隔に、例えば、インターネットに配置されたネットワークデバイスとして配置され得る。顔向き検出器は、クラウドサーバとして実装され得る。

顔向き検出器は、任意の種類の適切な入力であり得る、ビデオストリームを受け取るためのビデオ入力を要求する。ビデオストリームは、例えば、ビデオカメラから直接に知られているアナログビデオコネクタ経由で、またはビデオカメラからＩＰ接続経由でデジタルビデオストリームとして、アナログビデオストリームまたはデジタルビデオストリームとして供給され得る。

ビデオ会議サーバは、前述したとおり、ビデオインターフェースを生成する。このビデオインターフェースの動作が、ユーザの顔の向きによって制御される。ユーザは、例えば、ビデオ画面、またはビデオ画面の投写であり得るビデオインターフェースを示すディスプレイの前に、通常、位置している。ビデオカメラは、通常、ビデオインターフェースのところに配置されて、ユーザに面しており、したがって、ユーザのローカルビデオストリームは、ビデオ会議サーバに供給され得る。この想定で、制御信号は、例えば、顔の向きを、例えば、事前定義された座標系において、単に一種のベクトルとして、または位置として示すことが可能である。顔の向きを示す制御信号は、ビデオ会議サーバによって、フォーカス領域と呼ばれるビデオインターフェースの領域に対する顔の向きのマッピングをもたらすのに使用される。

フォーカス領域は、ユーザが最も関心のある領域であると考えられ、それに相応して、この領域に表示される情報の受け取りを円滑にするように強調表示される。フォーカス領域は、単に、ディスプレイの点によって、または任意の形態を有するディスプレイの領域によって表され得る。例えば、フォーカス領域は、或る直径を有する円形領域、または正方形もしくは長方形の領域であることが可能である。また、フォーカス領域は、ビデオインターフェース上に示されるビデオ会議のアイテムによって定義されることも可能である。そのようなアイテムが、例えば、ビデオ会議のユーザらのビデオストリームの表現、またはローカルユーザを含む、ビデオ会議のユーザらによって供給される任意の種類の情報の再現である。この場合、顔の向きは、顔の向きに最もよく合致するアイテムにマップされる。

顔検出は、例えば、ビデオストリームのビデオフレームに適用される、ＨＡＡＲクラシファイアを使用して実行され得る。ＨＡＡＲクラシファイアは、ビデオフレーム内の複数の顔の検出にラベルを付け、顔の識別として境界ボックスをもたらす。好ましくは、最大のサイズを有する境界ボックスが、さらなる処理のためにユーザの顔として選択される。したがって、ビデオストリームの中で見えるユーザと複数の個人が一緒にいる場合でさえ、ユーザの顔の向きは、確実に検出され得る。顔特徴の識別は、好ましくは、輪郭線演算子、例えば、ソーベル輪郭線演算子またはキャニー輪郭線演算子を使用し、さらにＳＩＦＴ特徴検出器または「グッドフィーチャーズトゥトラック」アルゴリズムを適用する。

好ましい実施形態は、ビデオフレーム内で少なくとも１つの顔の識別を検証するために肌認識を実行するさらなるステップを備える。好ましくは、色ベースの肌セグメント化が、例えば、ＨＡＡＲクラシファイアによって、認識された顔のもっともらしさ検査を実行するためにフレームに適用される。認識された顔の出現は、肌の色スペクトルと合致するはずであるので、顔の偽の出現が棄却されることが可能である。

好ましい実施形態によれば、ビデオフレーム内でユーザの顔の向きを検出するステップは、そのビデオフレーム内の認識された顔の少なくとも１つの顔特徴を識別するステップと、そのビデオフレーム内のその少なくとも１つの顔特徴の現在の位置を、前のビデオフレームにおけるその顔特徴の位置と比較するステップと、そのビデオフレーム内の少なくとも１つの顔特徴と前のビデオフレームにおけるその顔特徴の位置の比較から顔の向きを導き出すステップとを備える。顔特徴とは、容易に追跡される顔の部分、例えば、鼻の先、顎先、口の端、またはその他を指す。この方法のために使用されるべき顔特徴の数および種類は、例えば、ビデオストリーム品質、または利用可能な処理能力に依存して、自由に選択され得る。原則として、この方法は、単一の顔特徴で既に機能する。それでも、より多数の顔特徴が、顔の向きの検出の信頼性および精度を高める。顔の向きを検出するために、これらの顔特徴の位置は、異なるビデオフレームの間で追跡される。それらのビデオフレームは、連続するビデオフレームであることも、遅延を伴って取られたビデオフレームであることも可能である。処理されるビデオフレームが少ないほど、計算労力が小さくなる一方で、連続するビデオフレームの処理は、顔の向きの検出の信頼性を高める。様々な顔特徴の位置の差に基づいて、顔の向きが導き出され得る。複数の顔特徴が評価される際、顔の向きが、その様々な顔特徴の向きの変化の平均値として与えられることが可能である。

好ましい実施形態が、認識された顔の向きを初期設定するさらなるステップを備える。この初期設定は、ビデオ会議の始めに、または会議中の任意の時点で実行されることが可能である。さらに、この初期設定は、ビデオ会議中に顔の検出が失われた際に実行されることも可能である。この初期設定は、ユーザの顔の信頼できる検出を可能にするとともに、ユーザの顔の向きを事前定義された値、例えば、中心領域に対する顔の向きであるヌル値指示に設定する。

好ましい実施形態によれば、ビデオフレーム内の少なくとも１つの顔特徴の現在の位置を、前のビデオフレームにおけるその顔特徴の位置と比較するステップは、オプティカルフロー推定法の適用を備える。好ましくは、オプティカルフロー推定法は、ピラミッド型Ｌｕｋａｓ−Ｋａｎａｄｅオプティカルフロー推定法である。この方法は、異なるプラットフォームに容易に移植可能であり、ＧＰＵベースの実行にさらに適しており、したがって、この方法は、クラウドベースの実施例において良好なパフォーマンスを示す。

好ましい実施形態によれば、ビデオフレーム内の少なくとも１つの顔特徴と前のビデオフレームにおけるその顔特徴の位置の比較から顔の向きを導き出すステップは、各顔特徴につき１つのベクトルを包含する少なくとも１つのベクトル場に基づいて向きベクトルを計算することを備える。ベクトル場は、好ましくは、顔の回転を表す回転成分と、カメラに近づく、またはカメラから遠ざかる顔の動きを表す発散成分と、ビデオカメラの平面に平行な平行移動を表す放射成分とを包含する。好ましくは、この３つの成分は、顔特徴のオプティカルフローセットのヘルムホルツ−ホッジ分解によって得られる。さらに好ましくは、カルマンフィルタが、ノイズ効果を低減するのに使用される。

好ましい実施形態によれば、顔の向きをフォーカス領域にマップするステップは、ビデオインターフェースに従って仮想グリッドをもたらすこと、およびその仮想グリッドの少なくとも１つのメッシュをフォーカス領域にマップすることを備える。仮想グリッドは、ビデオインターフェースを再現するためにユーザによって使用されるディスプレイについての知識さえ有さずに、もたらされ、計算のために使用されることが可能である。フォーカス領域を強調表示することは、好ましくは、グリッドの少なくとも１つのメッシュを強調表示することを備える。したがって、制御信号は、１つのメッシュを識別することによって向きを示すことが可能である。仮想グリッドのメッシュは、ビデオ会議のアイテムに応じて設計され得る。

好ましい実施形態において、フォーカス領域を強調表示するステップは、フォーカス領域のアップスケーリング動作を実行することを備える。アップスケーリングまたはズームインは、フォーカス領域自体に対して、またはフォーカス領域と周囲の領域に対して実行され得る。好ましくは、アップスケーリング動作は、ビデオインターフェース上に示されるビデオ会議のアイテム全体に関して実行される。

好ましい実施形態によれば、フォーカス領域を強調表示するステップは、フォーカス領域を除外した領域のダウンスケーリング動作を実行することを備える。アップスケーリング動作によれば、ダウンスケーリング動作は、フォーカス領域自体の周りで、またはフォーカス領域と周囲の領域の周りで実行されることが可能である。好ましくは、ダウンスケーリングもまた、ビデオインターフェース上に示されるアイテムに基づく。ダウンスケーリングは、局所的に、例えば、フォーカス領域の周りの境界領域において実行されることも、フォーカス領域を除く、ビデオインターフェースの残りの領域全体の上で実行されることも可能である。好ましくは、アップスケーリングとダウンスケーリングが、フォーカス領域の効率的な強調表示のために組み合わされる。

好ましい実施形態において、フォーカス領域を強調表示するステップは、ビデオインターフェースの強調表示領域においてフォーカス領域の内容を示すことを備える。アップスケーリングによれば、フォーカス領域自体、またはフォーカス領域と周囲の領域が、強調表示領域において示され得る。強調表示領域は、ビデオインターフェースの主要な部分を変更することなしにビデオインターフェースの動作を許す。例えば、ビデオインターフェースの少なくとも一部分、例えば、ビデオインターフェースの境界領域またはフレームが、ビデオ会議のすべてのアイテムを示すことが可能であり、さらにビデオインターフェースの別の部分、例えば、ビデオインターフェースの中心領域が、フォーカス領域に対応するアイテムを示す。代替の実施形態において、フォーカス領域の内容が、強調表示領域に移動される。

好ましい実施形態によれば、ビデオ会議サーバは、前述の顔向き検出器をさらに備える。

次に、本発明による装置および／または方法のいくつかの実施形態を、単に例として、添付の図面を参照して説明する。

或る実施形態によるビデオインターフェースを制御するため、および動作させるための方法を示す流れ図である。前述の方法による顔の向きの検出を例示する図である。前述の方法によるフォーカス領域に対応するビデオインターフェースのアイテムの強調表示を例示する図である。前述の方法によるベクトル場に基づく顔の向きを導き出すことを例示する図である。前述の方法によるフォーカス領域に対応するビデオインターフェースのアイテムの強調表示を例示するさらなる図である。第１の実施形態によるビデオカメラと、ビデオ会議サーバと、顔向き検出器とを備えるビデオ会議システムを示す概略図である。

図６は、第１の実施形態によるビデオ会議システム１の概略図を示す。ビデオ会議システム１は、この実施形態では、ビデオインターフェースデバイス２と、デジタルビデオカメラ３とを備える。この実施形態ではＬＣＤディスプレイであるビデオインターフェースデバイス２は、ビデオ会議サーバ５から提供されるビデオインターフェース４を再現する。ビデオ会議システム１は、顔向き検出器６をさらに備える。ビデオインターフェースデバイス２、デジタルビデオカメラ３、ビデオ会議サーバ５、および顔向き検出器６は、ＩＰ接続７を介して接続される。代替の実施形態において、顔向き検出器６は、ビデオ会議サーバ５と一体化して与えられる。

顔向き検出器６は、ＩＰコネクタ８を介して、デジタルビデオカメラ３からビデオストリームを受け取る。顔向き検出器６は、後段で詳細に説明されるとおり、顔１０の向きを検出し、ＩＰコネクタ８を介して、顔の向きを示す制御信号をビデオ会議サーバ５に供給する。したがって、顔検出器６のＩＰコネクタ８は、デジタルビデオカメラ３からデジタルビデオストリームを受け取るためのビデオ入力、およびビデオフレーム内で示される顔１０の向きを示す制御信号をもたらすためのシグナリング出力の役割をする。

ビデオ会議サーバ５は、ビデオインターフェース４、すなわち、会議ストリーム内のビデオ会議の再現を生成し、その再現を、ＩＰ接続７を介して、ビデオインターフェース４の再現が示されるビデオインターフェースデバイス２に供給する。

図１は、或る実施形態による方法の流れ図を示す。この方法は、ステップＳ１００で始まる。ステップＳ１００は、後段で詳細に説明されるとおり、ビデオストリームにおいて示される顔１０の顔認識および向きを初期設定することを備える、方法の初期設定を備える。

初期設定ステップＳ１００で、例えば、インテル社のＯｐｅｎＣＶライブラリを備えた、正面顔ＨＡＡＲクラシファイアが、デジタルビデオカメラ３のビデオフレーム１１に適用される。時刻ｔ_０およびｔ_１に対応する個々のビデオフレーム１１が、図２に示される。ビデオフレーム１１は、デジタルビデオカメラ３の前に位置付けられ、ビデオインターフェースデバイス２においてビデオインターフェース２と向かい合う、会議状況におけるデジタルビデオカメラ３によって供給されるビデオ会議のローカルユーザ１２を示す。初期設定は、ユーザ１２の顔１０の検出と、顔１０の初期位置とを備える。顔検出は、正面顔ＨＡＡＲクラシファイアを使用して実施される。通常の正面顔ＨＡＲＲクラシファイアが訓練される様態は、ユーザ１２の顔１０が、検出が行われるためにデジタルビデオカメラ３に真っ直ぐに向いていなければならないことを要求する。

各ビデオフレーム１１に関して、ＨＡＡＲクラシファイアは、顔出現のリストを、ｉ＝１．．ｎであり、ただし、ｎは、検出された顔出現の回数を表す、境界ボックスのセットＢＢｉとしてもたらす。各ＢＢｉは、４つ組＜Ｘ，Ｙ，Ｗ，Ｈ＞として表され、ただし、＜Ｘ，Ｙ＞は、フレームにおけるＢＢ中心の座標を表し、＜Ｗ，Ｈ＞は、ＢＢのサイズを画像ピクセル数＜幅，高さ＞で表す。図２は、ビデオフレーム１１内のユーザ１２の顔１０を示す境界ボックスＢＢを示す。

さらに、色ベースの肌認識および肌セグメント化が、ビデオフレーム１１に適用され、さらに肌パッチが、連結成分解析を介して決定される。次に、最大境界ボックスＢＢ_ｍａｘが、以下の式に従って選択される：
ＢＢ_ｍａｘ＝ａｒｇｍａｘ_ＢＢ｛Ａ（ＢＢ_ｉ）｜ＳＲ_ｉ＞Ｔ_ＳＲ｝，ｉ＝１．．ｎ（１）
ただし：
− ＳＲｉ＝肌比＝肌というラベルが付けられたピクセルの数／ボックス領域内のピクセルの総数であり、
− Ａ（ＢＢｉ）＝ＢＢｉ．Ｗ×ＢＢｉ．Ｈ＝境界ボックス領域関数であり、
− ＴＳＲ＝アプリケーション特有の肌比閾値（例えば、０．８）であり、
− ａｒｇｍａｘ＝その関数を最大化する引数である。

このことは、複数の個人がデジタルビデオカメラ３と向かい合って場面にいる場合、デジタルビデオカメラ３に最も近い個人だけが、さらなる処理のために選択されることを確実にする。Ｈａａｒクラシファイアからの偽陽性認識による偽の出現は、出現が肌の色スペクトルと合致しなければならないので、棄却される。したがって、肌認識は、ビデオフレーム１１内の少なくとも１つの顔１０の識別の検証をもたらす。

ＢＢ_ｍａｘがビデオフレーム１１内で見出された場合、顔向きベクトルＶ_０が、以下のとおり初期設定される：
− 原点＝＜ＢＢ_ｍａｘ．Ｘ，ＢＢ_ｍａｘ．Ｙ＞
− 向き＝フレーム平面に対して垂直
− 大きさ＝ＢＢ_ｍａｘ．Ｈ／ピクセル単位のフレーム高
ステップＳ１１０で、方法は、初期設定に関連して前述したとおり、ビデオフレーム１１内の最大の顔１０の検出に進む。

ステップＳ１２０で、顔特徴１４の追跡が実行される。したがって、図２にＩ_０としても表される、初期顔検出が行われるビデオフレーム１１が、輪郭線演算子（例えば、ソーベルまたはキャニー）によって処理されて、やはりＩ_０と呼ばれる、初期顔検出が行われたビデオフレーム１１の輪郭線画像Ｅ_０がもたらされる。輪郭線画像Ｅ_０は、輪郭線のセット１３を備える。初期顔検出後の任意の時点ｔで、現在のビデオフレーム１１は、Ｉ_ｔと呼ばれ、Ｅ_ｔが、そのフレームに対応する輪郭線画像である。

追跡され得る顔特徴１４の特徴セットＦ_０が、図２に示されるとおり、ＢＢ_ｍａｘによって定義される関心領域（ＲＯＩ）内のＥ_０に、ＳＩＦＴ特徴検出器、またはＳｈｉおよびＴｏｍａｓｉの「グッドフィーチャーズトゥトラック」アルゴリズムと呼ばれるアルゴリズムを適用することによって得られる。

次に、特徴セットＦ_Ｃが、オプティカルフローアルゴリズム、例えば、ピラミッド型Ｌｕｋａｓ−Ｋａｎａｄｅフロー推定法を使用することによって、次の画像Ｅ_１内で追跡される。一般に、輪郭線画像Ｅ_ｔに関する特徴セットＦ_ｔが、オプティカルフローアルゴリズムを使用することによってセットＦ_ｔ−１から各顔特徴１４の位置を推定することによって生成される。

特徴セットＦ_ｔは、以下のとおり数学的に表される：
Ｆ_ｔ＝｛ｆ_ｉ｜ｉ＝１．．ｎ_ｔ｝（２）
であり、ｆ_ｉとも呼ばれる、追跡される各顔特徴１４が、４つ組＜ｘ，ｙ，ｘ’，ｙ’＞として表され、ただし、＜ｘ，ｙ＞は、セットＦ_ｔ−１の中の顔特徴１４の前の位置を表し、さらに＜ｘ’，ｙ’＞は、新たに推定された位置を表す。Δｘ＝ｘ’−ｘおよびΔｙ＝ｙ’−ｙを考慮すると、顔特徴１４は：
− 原点＝＜ｘ，ｙ＞であり、
− 向き＝ａｒｃｔｇ（Δｙ／Δｘ）であり、
− 速度＝ｓｑｒｔ（（Δｘ）^２＋（Δｙ）^２）である、
ベクトルＶ^ｆ _ｉの形態で表され得ることが直ちに明白である。

このアルゴリズムは、いくつかのビデオフレーム１１の後に追跡される顔特徴１４が、ユーザ１２の顔１０に依然として属することを確実にしなければならない。このことは、ノイズまたは累積誤差によってもたらされた、誤った推定がされた特徴である異常値を取り除き、さらに特徴セットＦ_ｔを周期的に再生成して、異常値を取り除いた後の特徴セットＦ_ｔ濃度の低下を回避することによって実現される。

異常値は、フレーム差ΔＩ＝ΔＩ_ｔ−Ｉ_ｔ−１を基準として特徴セットＦ_ｔを制約することによって取り除かれる。特徴セットＦ_ｔの中の顔特徴１４は、
Ｆ_ｔ＝｛ｆ_ｉ｜ΔＩ_ｔ（ｆ_ｉ．ｘ’，ｆ_ｉ．ｙ’）≠０｝（３）
であるようにフィルタリングされる。

特徴セットＦ_ｔは、以下のアルゴリズムに従って周期的に再生成される（或る数Ｎ_ｆのフレームの後に）：
− ｔがＮ_ｆの倍数である特徴セットＦ_ｔに関して、凸多角形Ｃ（Ｆ_ｔ）が計算され、
− Ｃ（Ｆ_ｔ）が、輪郭線画像Ｅ_ｔに関するＲＯＩとして設定され、
− 追跡され得る顔特徴１４のセットＦ_ｔ’が、前に考慮されたＲＯＩ内のＥ_ｔに関して再計算され、
− ｔ＋１で、追跡が、Ｆ_ｔ’から開始して計算される。

ＧＰＵベースの実行に関するピラミッド型Ｌｕｋａｓ−Ｋａｎａｄｅフロー推定法の移植性のため、この方法は、非常に高速のパフォーマンスを示し、サーバ側の実装に適している。

ステップＳ１３０で、追跡される顔特徴１４のセットＦ_ｔが、ユーザ１２の顔１０がデジタルビデオカメラ３のカバーする領域の外に移動したことにより、失われたかどうかが検証される。追跡される顔特徴１４のセットＦ_ｔが失われた場合、方法は、最大の顔１０を検出するためのステップＳ１１０に戻る。失われていない場合、方法は、ステップＳ１４０に進む。

ステップＳ１４０で、顔向きベクトルＶ_ｔが、現在、解析されているビデオフレーム１１に応じて更新される。

オプティカルフローアルゴリズムの出力が、以下、

に従って、ドメインΩ（ほとんどいたるところでリプシッツ連続である）内でベクトル場ｕとしてモデル化され、追跡可能な特徴のセットＦ_ｔが、このベクトル場ｕに例えられる。

このシナリオにおいて、ドメインΩは、境界ボックスＢＢによって規定される関心領域によって与えられ、ここでオプティカルフローが計算される。すべてのベクトル場ｕは、以下のとおり３つのベクトル場に分割されることが可能であり（この場合は満たされる或る一そろいの状況の下で）、このことは、図４にも示される：
ｕ＝ｄ＋ｒ＋ｈ
ただし、
ｄ＝カールのない成分であり（すなわち、非回転場であり）、
ｒ＝発散のない（純回転）場であり、さらに
ｈ＝調和的場である（すなわち、勾配である）。

式（３）によって与えられる、追跡される顔特徴４のオプティカルフローセットＦ_ｔのヘルムホルツ−ホッジ分解が実行される。ヘルムホルツ−ホッジ分解は、以下の３つの成分をもたらす：
− 顔１０の回転を表す回転成分、
− デジタルビデオカメラ３に近づく、またはデジタルビデオカメラ３から遠ざかる顔１０の動きを表す発散成分、および
− カメラ平面に平行である純粋な平行移動を表す勾配成分。

ヘルムホルツ−ホッジ分解は、線形システムを解く流体力学からヒントを得たメッシュレスアルゴリズムを使用して実行される。

次に、ベクトル場Ｆ_ｔの回転成分、発散成分、および調和的成分が、頭部中心の基準フレームワークを回る回転として投影される。これらの回転は、すなわち：
− ロール：ｘ軸の周りの回転
− ピッチ、ｙ軸の周りの回転
− ヨー、ｚ軸の周りの回転
であり、既に知られている顔向きＶ_ｔ−１からの角度差を格納する｛Δｐ，Δｑ，Δｒ｝３つ組として表現される。Ｖ_ｔ−１をこれらの値で更新することが、｛ｐ，ｑ，ｒ｝３つ組として、やはり角度形態で表される現在の頭部姿勢をもたらす。

これら３つの回転成分を頭部姿勢の指標（すなわち、ユーザ１２の顔１０が注目しているポイント）として直接に使用することが、ノイズの影響を減らすように改良され得る。ノイズは、ピクセルベースの表現の不正確さ、およびビデオカメラ３の非線形性から生じる。

ノイズ効果を取り除くのに、カルマンフィルタが使用される。頭部姿勢ベクトルを直接に追跡するカルマンフィルタは、特異点（｛ｐ，ｑ，ｒ｝３つ組の角度表現に起因する）を有するので、したがって、表式は、四元数を用いたものとなる。この四元数は、頭部中心の基準フレームワークを回る回転を表すＲ^４＝｛ｑ_１，ｑ_２，ｑ_３，ｑ_４｝におけるベクトルである。四元数と従来のＲ^３ベクトルの間の変換は、単純であり、当業者に知られている。

カルマン表記法は、重要なのは、頭部の絶対位置ではなく、頭部の姿勢ベクトルだけであるという単純化する想定を適用することによって、飛行力学から採用され、適用させられることが可能である。このため、離散カルマンフィルタの内部状態が、単に四元数の向きによってモデル化される。行列、［Ａ］、［Ｂ］が、剛体の力学から採用されて、適用させられ、さらに誤差行列、［Ｑ］、［Ｐ］、および［Ｒ］（プロセス誤差共分散もしくはプロセスノイズ、推定誤差共分散もしくは推定ノイズ、および測定誤差共分散もしくは測定ノイズ）が、［Ｑ］＝σＩ_４×４であると定義され、［Ｐ］は、ｔ＝０の場合にだけ必要とされ、対角要素の値の大きい（例えば、１０^５）行列であるように、数学的に述べると、測定が、例えば、状態追跡においてではなく、初期のトラッカにおいて非常に重要であるように選択される。行列［Ｒ］は、

であり、
ただし、σは、実験によって決定される。

このステップの最終部分において、カルマンフィルタから得られる結果が、３ＤスペースにおけるＶ_ｔベクトルの向きを与える一方で、顔１０の境界ボックスＢＢとビデオフレーム１１のサイズの比が、Ｖ_ｔベクトルの大きさ｜Ｖ_ｔ｜を与える。このようにして得られたベクトルＶ_ｔは、顔検出器６から制御信号によってビデオ会議サーバ５に供給され得る、ユーザ１２の顔１０の向きに関する指示である。

ステップＳ１５０で、ディスプレイ４のフォーカス領域１５が決定される。フォーカス領域１５は、ユーザ１２が注目しているビデオインターフェース４上の位置に対応する。したがって、顔中心の向きベクトルＶ_ｔが、メッシュとも呼ばれる、Ｎ×Ｍセル１７の仮想グリッド１６上に投影される。仮想グリッド１６は、図２に示されるとおり、ビデオフレーム１１の上に重ね合わされる。この投影を計算することは、ベクトルのＸ軸成分およびＹ軸成分、Ｖ^Ｘ _ｔおよびＶ^Ｙ _ｔだけを考慮に入れることにより、単純である。

ＸＹ平面上にＶ_ｔを投影することによってポイントされるメッシュ１７は、ビデオインターフェース４上のフォーカス領域１５を表す。さらに、Ａ^ｆ _ｉが、図３および図５に示され、後段でさらに詳細に説明されるとおり、ビデオインターフェース４上に示される没入型通信対話場面２０におけるアイテム１８、１９を決定するのに使用される。

没入型ビデオ会議において、各ユーザ１２または各参加者Ｐ_ｉに、カスタマイズされることが可能な、Ｓ_ｉとしても表される、各ユーザ１２の対話場面２０が提示される。対話場面２０は、他のユーザら１２のビデオストリーム画面１８と、｛Ｐ_ｊ，ｊ＝１．．ｎ，ｊ＜＞ｉ｝としても表される、共有される文書１９と、各ユーザ１２自身のビデオストリーム画面１８とを備えるアイテム１８、１９を示す。各ビデオストリームは、背景からユーザ１２のシルエットを分離し、それをビデオストリーム内にレンダリングする、カットアウトアルゴリズムにかけられる。このレイアウトの目的は、各ユーザ１２に、同一の部屋の中にいて、その他の出席者と向かい合っているという印象を与えることである。すべての処理は、クラウドにおいてビデオ会議サーバ５上で実行される。処理パイプライン（ＰＰＬ）が、境界ボックスＢＢ_ｊとして表される、各対話場面２０、Ｓ_ｉにおける各ユーザ１２、Ｐ_ｊの位置を有する記録を保持する。

前述したアルゴリズムを介して各ユーザ１２、Ｐ_ｉの顔の向きを監視することによって、ＰＰＬは、フォーカス領域１５、Ａ^ｆ _ｉを計算し、図３に示されるとおり、対話場面２０、Ｓ_ｉの上にフォーカス領域Ａ^ｆ _ｉを重ね合わせる。ユーザ１２は、ユーザ１２の顔を、顔１０の向きの変化として登録されるように、フォーカス領域１５の方向に或る時間間隔Ｔにわたって向けなければならない。顔１０の向きが登録されると、ＰＰＬが、対話場面２０におけるアイテム１８、１９の境界ボックスとの最大交差を調べる。
ＢＢ_ｆ＝ａｒｇｍａｘ_ＢＢ｛∩（ＢＢ_ｊ）＝Ａ^ｆ _ｉ∩ＢＢ_ｊ｜ｊ≠ｉ｝
ＢＢ_ｆで表される、注目されるアイテム１８、１９が、次に、ステップＳ１７０で強調表示される。したがって、注目されるアイテム１８、１９が、ビデオストリーム画面１８である場合、ビデオストリーム画面１８が、それぞれのユーザ１２、Ｐ_ｉの顔向きベクトルの大きさ｜Ｖ^ｉ｜に比例して拡大される。この拡大縮小には、図３に示されるとおり、滑らかで短い遷移アニメーションを介して、その他のユーザら１２のスケールを縮小すること、および場面２０、Ｓ_ｉにおいてその他のユーザら１２を並べ替えることが伴うことが可能である。ＰＰＬは、｜Ｖ^ｉ｜を常時、監視するので、注目されるビデオストリーム画面１８のスケールは、カメラの前のローカルユーザ１２（Ｐ_ｉ）がビデオインターフェースデバイス２に、より近づくにつれ、またはビデオインターフェースデバイス２から、より遠ざかるにつれ、調整されることが可能である。注目される項目１８、１９が文書１９である場合、図５に示されるとおり、対話場面２０における文書１９の位置が、文書１９が対話場面２０全体を占有するまで、｜Ｖ^ｉ｜に比例して拡大される。｜Ｖ^ｉ｜が、文書１９が全場面サイズにまで拡大された後に、依然として増大し（Ｐｉが、ビデオインターフェースデバイス２に非常に近づき）、｜Ｖ^ｉ｜＞Ｔ_ｚｏｏｍ（ただし、Ｔ_ｚｏｏｍは、アプリケーション特有の閾値である）となる場合、図５にさらに示されるとおり、文書１９の内容に対するズームが、実行される。

フォーカス領域１５に関するアイテム１８、１９の強調表示の後、方法は、ステップ１２０に戻る。

本発明は、他の特定の装置および／または方法として実現され得る。説明される実施形態は、すべての点で、限定するものではなく、単に例示的であると見なされるべきである。詳細には、本発明の範囲は、本明細書の説明および図によってではなく、添付の特許請求の範囲によって示される。特許請求の範囲と均等の趣旨および範囲に含まれるすべての変更が、特許請求の範囲に包含されるものとする。

Claims

会議状況などにおいて使用するためのユーザ（１２）に関連付けられたビデオインターフェース（４）を制御するための方法であって、
ユーザ（１２）を出所とするビデオストリームのフレーム（１１）をキャプチャするステップと、
ビデオフレーム（１１）内でユーザ（１２）の顔（１０）を認識するステップと、
ビデオフレーム（１１）内でユーザ（１２）の顔（１０）の向きを検出するステップと、
顔（１０）の向きを示す制御信号をもたらすステップとを備える、方法。
ビデオフレーム（１１）内で少なくとも１つの顔（１０）の識別を検証するために肌認識を実行するさらなるステップを備える、請求項１に記載の方法。
ビデオフレーム（１１）内でユーザ（１２）の顔（１０）の向きを検出するステップが、
ビデオフレーム（１１）内の認識された顔（１０）の少なくとも１つの顔特徴（１４）を識別するステップと、
ビデオフレーム（１１）内の少なくとも１つの顔特徴（１４）の現在の位置を、前のビデオフレーム（１１）における顔特徴の位置と比較するステップと、
ビデオフレーム（１１）内の少なくとも１つの顔特徴（１４）と前のビデオフレーム（１１）における顔特徴の位置の比較から顔の向きを導き出すステップとを備える、請求項１に記載の方法。
認識された顔（１０）の顔の向きを初期設定するさらなるステップを備える、請求項３に記載の方法。
ビデオフレーム（１１）内の少なくとも１つの顔特徴（１４）の現在の位置を、前のビデオフレーム（１１）における顔特徴の位置と比較するステップが、オプティカルフロー推定法の適用を備える、請求項３に記載の方法。
ビデオフレーム（１１）内の少なくとも１つの顔特徴（１４）と前のビデオフレーム（１１）における顔特徴の位置の比較から顔の向きを導き出すステップが、各顔特徴（１４）につき１つのベクトルを包含する少なくとも１つのベクトル場に基づいて向きベクトル（Ｖ_ｔ）を計算するステップを備える、請求項３に記載の方法。
会議状況などにおいて使用するためのユーザ（１２）に関連付けられたビデオインターフェース（４）を動作させるための方法であって、
請求項１から６のいずれかに記載のビデオインターフェース（４）を制御するための方法を実行するステップと、
制御信号に基づく顔（１０）の向きをビデオインターフェース（４）のフォーカス領域（１５）にマップするステップと、
フォーカス領域（１５）を強調表示するステップとを備える、方法。
顔（１０）の向きをフォーカス領域（１５）にマップするステップが、
ビデオインターフェース（２）に従って仮想グリッド（１６）をもたらすステップと、
仮想グリッド（１６）の少なくとも１つのメッシュ（１７）をフォーカス領域（１５）にマップするステップとを備える、請求項７に記載の方法。
フォーカス領域（１５）を強調表示するステップが、フォーカス領域（１５）のアップスケーリング動作を実行するステップを備える、請求項７に記載の方法。
フォーカス領域（１５）を強調表示するステップが、フォーカス領域（１５）を除外した領域のダウンスケーリング動作を実行するステップを備える、請求項７に記載の方法。
フォーカス領域（１５）を強調表示するステップは、ビデオインターフェース（２）の強調表示領域においてフォーカス領域（１５）の内容を示すステップを備える、請求項７に記載の方法。
ビデオストリームを受け取るためのビデオ入力（８）と、ビデオストリーム内の顔（１０）の向きを示す制御信号をもたらすように構成されたシグナリング出力（８）とを備える、顔向き検出器（６）であって、
請求項１から６のいずれかに記載の方法を実行するように構成された、顔向き検出器（６）。
ユーザ（１２）にユーザインターフェース（４）を提供するためのビデオ会議サーバ（５）であって、
請求項１から１１のいずれかに記載の方法を実行するように構成された、ビデオ会議サーバ（５）。
請求項１２に記載の顔向き検出器（６）をさらに備える、請求項１３に記載のビデオ会議サーバ（５）。