JP2016503631A

JP2016503631A - 手ぶれ検出付きビデオ会議サーバー

Info

Publication number: JP2016503631A
Application number: JP2015544423A
Authority: JP
Inventors: ファガダル−コスマ，ミハイ; アンリ・ドービニー・デミャール，ポール
Original assignee: アルカテル−ルーセント
Priority date: 2012-11-29
Filing date: 2013-11-25
Publication date: 2016-02-04
Anticipated expiration: 2033-11-25
Also published as: KR101697495B1; US9762856B2; EP2739044A1; CN104813656B; EP2739044B1; US20150304606A1; CN104813656A; WO2014082941A1; JP6159816B2; KR20150102985A

Abstract

ビデオ会議サーバー（１００）は、複数のビデオクライアント（１０１）のカメラにより撮像されたビデオストリームを受信および結合し、これらのビデオクライアント（１０１）へ配信され再生出力される没入型ビデオストリーム（１２４、１２５）を生成する。ビデオ会議サーバー（１００）の切り抜きモジュール（１０２）は、会議クライアント（１０１）から受信されるビデオフレーム（１２１）に対する前景マスク（１２２）を生成する。手ぶれ検出器（１０３）は、ビデオフレーム（１２１）の特徴の部分集合に対する変位ベクトル（１２３）を決定する。変位ベクトル（１２３）は、背景マスクと、同じ会議クライアント（１０１）から受信された以前のビデオフレームに対する以前の背景マスクとの間の特徴の部分集合の２次元の動きを表す。手ぶれ補正モジュール（１０２、１０４）は、前景マスク（１２２）に、会議クライアント（１０１）のための没入型ビデオストリーム（１２４、１２５）におけるその使用の前に、変位ベクトル（１２３）とは逆の変位を適用し、報知ユニット（１０４）は、ぶれ表示（３１１、３１２）を、カメラがぶれている会議クライアント（１０１）へ配信される没入型ビデオストリーム（１２４）内へ生成する。

Description

本発明は一般的に、没入型ビデオ会議、すなわち、会議に参加している複数のクライアントからのビデオストリームが処理および結合されて、全参加者の仮想的な存在を１つの会議室内に確立するビデオ会議に関する。典型的には、各ビデオクライアントは、自身のカメラを通してビデオストリームを生成する。前景抽出により、背景および前景が異なるビデオストリームに分離され、異なるクライアントの前景画像が結合されて、各クライアントにより再生出力（ｐｌａｙ−ｏｕｔ）される没入型ビデオストリームを生成する。典型的には、没入型ビデオストリームは個別化され、各ユーザーに対して、没入型ストリームが個別化されるユーザーの視点から見た１つの会議室またはテーブルを全参加者が共有しているかのような外観および音声の環境（ｌｏｏｋ−ａｎｄ−ｓｏｕｎｄｅｎｖｉｒｏｎｍｅｎｔ）を生成する。個々のユーザーに対して生成された没入型ビデオストリームにおいて、仮想の会議室またはテーブルがそのユーザーの背後の視点から見られているかのように、そのユーザーの影が統合され得る。本発明は、特に、そのような没入型ビデオ会議システムを改良するために、手ぶれまたはカメラジッタ現象を検出および補償することに関する。

手ぶれまたはカメラジッタの問題は、たとえば、マイクロソフトのビデオＫｉｎｅｃｔ、またはタイムオブフライト（ＴＯＦ）カメラに基づくシステムのような、クライアント側の専用のビデオ撮像デバイスを用いて、軽減され得る。しかしながら、そのようなシステムは持ち運びできず、没入型ビデオ会議へのユビキタスアクセス、すなわち任意の時刻の任意の場所からのアクセスを可能にしない専用の設定手順を含む。

モバイルデバイスを用いることで、ビデオ会議へのユビキタスアクセスは可能となった。しかしながら、ビデオ会議でのモバイルデバイスの使用が増えたことにより、一般的に、前景抽出処理の出力品質を劣化させ、結果として、抽出された前景画像から生成された没入型ビデオストリームの品質もまた劣化させる、手ぶれまたはカメラジッタの問題が引き起こされる。したがって、没入型ビデオの品質を改善する適切な補正のおよび／または予防の措置を取ることを可能にするために手ぶれを確実に検出することが望まれる。

解決方法の１つのカテゴリは、手ぶれを検出するために、特定の携帯電話、タブレットＰＣなどに存在する加速度計のようなデバイス固有のハードウェアを利用する。しかしながら、これらの解決方法は専用のハードウェアの存在に依存するので、デバイス非依存ではない。さらに、これらの解決方法は、たとえばラップトップのような、そのようなハードウェアを通常備えていない様々なポータブルデバイスを対象外のままにする。

解決方法の他のカテゴリは、画像を撮像するクライアントデバイスにおける手ぶれを検出および補正するソフトウェアアルゴリズムに依存する。そのようなアルゴリズムの例が、たとえば、論文「ＵｓｉｎｇＯｐｔｉｃａｌＦｌｏｗｆｏｒＳｔａｂｉｌｉｚｉｎｇＩｍａｇｅＳｅｑｕｅｎｃｅｓ」Ｐ．Ｏ’Ｄｏｎｏｖａｎ著、および、論文「ＦｉｘａｔｉｏｎａｓａＭｅｃｈａｎｉｓｍｆｏｒＳｔａｂｉｌｉｚａｔｉｏｎｏｆＳｈｏｒｔＩｍａｇｅＳｅｑｕｅｎｃｅｓ」Ｋ．Ｐａｕｗｅｌｓ、Ｍ．Ｌａｐｐｅ、Ｍ．Ｍ．ＶａｎＨｕｌｌｅ著に記載されている。これらのアルゴリズムはクライアント側でビデオストリーム処理を行うため、これらの解決方法はデバイス非依存ではなく、そのため、全デバイスにわたるユビキタスで、整合のとれたビデオ会議体験を保証できない。さらに、これらのアルゴリズムは、通常は、会議参加者のクライアントデバイスにおいてかなりの処理能力とメモリリソースを占有する。

本発明の目的は、従来の解決方法の上述の欠点を解決する没入型ビデオ会議のための方法および道具を提供することである。より具体的には、本発明の目的は、会議参加者により用いられるクライアントデバイスに非依存の方法で手ぶれを検出し、報知し、補正することにより、没入型ビデオ会議の全体の品質を改良することを可能とし、処理能力およびメモリの使用に関して制限された要件で実施され得る、没入型ビデオ会議の解決方法を開示することである。

本発明によれば、上記で定義した目的が、請求項１により定義された没入型ビデオ会議のためのビデオ会議サーバーであって、複数のビデオクライアントのカメラにより撮像されたビデオストリームを受信および結合し、複数のビデオクライアントへ配信され再生出力される没入型ビデオストリームを生成するように構成され、ビデオ会議サーバーは：
− 会議クライアントから受信されるビデオフレームに対する前景マスクを生成するように構成された切り抜きモジュールと、
− 前記ビデオフレームの特徴の部分集合に対する変位ベクトルを決定するように構成された手ぶれ検出器であって、変位ベクトルが、前景マスクを反転させることで得られる背景マスクと、会議クライアントから受信された以前のビデオフレームに対して生成された以前の背景マスクとの間の特徴の部分集合の２次元の動きを表す、手ぶれ検出器と、
− 前景マスクに、没入型ビデオストリームにおけるその使用の前に、変位ベクトルとは逆の変位を適用して、会議クライアントの手ぶれ効果を補正するように構成された手ぶれ補正モジュールと、
− ぶれ表示を、会議クライアントへ配信される没入型ビデオストリーム内へ生成するように構成された報知ユニットと
を備える、ビデオ会議サーバーにより実現される。

したがって、本発明はサーバー側で実施され、ビデオストリームを撮像するために用いられるクライアントデバイスに非依存であることを保証する。本発明はたとえば、クラウド環境、すなわち、ビデオ会議の当事者とは異なる第三者により運用保守される、遠隔の記憶および処理環境におけるプロセッサで動作するソフトウェアプログラムとして実施され得る。本発明はさらに、没入型ビデオ会議システムにおいて利用可能である技術、すなわち前景抽出を利用する。本発明は、実際には、クライアントから受信したビデオストリームの背景および前景を分離する切り抜きモジュールに依存する。そして、本発明は、背景の特徴の部分集合の変位を定量化することで、ビデオストリームの背景の大域的な動きを計算する。手ぶれがない場合、背景は安定しているはずであり、背景の特徴の変位はほぼゼロであるはずである。反対に、変位が特定の閾値を超える大きさを有する場合、本発明は、手ぶれ現象が検出されたとみなす。そして、サーバーは、カメラがぶれているクライアントデバイスへ、そのユーザーが予防措置を取ることを可能にするために、手ぶれを報知する。システムはさらに、ぶれ現象が検出されたビデオストリームの前景画像に対して、他のクライアントに対して生成される没入型ビデオストリームにおいてこれらの前景画像が用いられる前に、変位を適用することで、補正措置を取る。要約すれば、本発明は、ユーザーに不要な手ぶれ現象をユーザー側で意識させ、抽出された前景画像において検出されたぶれ現象に対して補正措置を取る。このように、本発明は、画像を撮像するために用いられるクライアントデバイスの種類にかかわらず、そのようなクライアントデバイスにおける処理および記憶リソースの使用へ悪影響なく、没入型ビデオ会議の品質に大きく貢献する。

請求項２により定義された本発明によるビデオ会議サーバーの好ましい実施形態において、手ぶれ検出器は：
− ビデオフレームおよび以前のビデオフレーム内の特徴の集合を選択するためのビデオストリームプロセッサと、
− ビデオフレームの背景マスクと、以前のフレームの以前の背景マスクとに属する特徴の部分集合を得るために、特徴の集合をフィルタリングするためのフィルタリングロジックと、
− ピラミッド型ルーカスカンデ（Ｌｕｋａｓ−Ｋａｎａｄｅ）アルゴリズムにより、特徴の部分集合に対する疎なオプティックフローを計算するための処理ロジックと
を備える。

実際には、本発明による手ぶれ検出器は、画像背景に属する特徴の部分集合を選択し、ピラミッド型ルーカスカンデ（Ｌｕｋａｓ−Ｋａｎａｄｅ（ＬＫ））アルゴリズムによる疎なオプティックフロー、すなわち、あるフレームから他のフレームへのこれらの特徴の変位を計算する。これは、大域的変位ベクトル、すなわち２フレーム間の手ぶれを定量化する２次元の動きがそれに基づいて様々な統計手法により計算され得る、特徴の部分集合に対する速度ベクトルの集合をもたらす。

請求項３により定義された本発明によるビデオ会議サーバーのさらなる態様によれば、手ぶれ検出器は：
− 特徴の部分集合に対する疎なオプティカルフローから、統計的平均化により、変位ベクトルを形成する動きの大きさおよび動きの方向を計算するための統計ロジック
を備える。

実際には、背景の特徴の部分集合に対して計算された速度ベクトルを平均化することで、手ぶれを定量化する、大きさおよび向きまたは方向が、決定され得る。平均値、中央値、加重和、極値などのような、いくつかの平均化技法が適用され得る。

請求項４により定義された本発明によるビデオ会議サーバーの任意の態様によれば、手ぶれ検出器は：
− 特徴の部分集合内の各特徴に対して、疎なオプティカルフローの大きさを所定の閾値と比較するように構成され、疎なオプティカルフローの大きさが所定の閾値より小さい場合に、変位ベクトルの計算から特徴を破棄するように構成された処理ロジック
をさらに備える。

したがって、本発明による手ぶれ検出器は、好ましくは、手ぶれの大きさおよび主要な方向を定量化するために用いられる特徴をフィルタリングする。特徴の変位が特定の閾値よりも大きさが小さいままである場合、大域的変位ベクトルの推定において誤差を引き起こす可能性があるので、ノイズとみなされ、したがってその後の計算から除去される。したがって、手ぶれを検出するために用いられる背景の特徴をフィルタリングすることによって、精度および信頼性が向上する。

請求項５により定義された本発明によるビデオ会議サーバーの好ましい実施形態では、手ぶれ検出器は：
− 特徴の部分集合内の各特徴を、その疎なオプティカルフローの方向に応じて、各々が３６０度／ｎの範囲をカバーする第１のｎ個のヒストグラムビンの組の中の第１のビンと、各々が３６０度／ｎの範囲をカバーする第２のｎ個のヒストグラムビンの組の中の第２のビンとに割り当てるように構成された処理ロジックであって、ｎは正の整数値であり、第２のｎ個のビンの組は、第１のｎ個のビンの組に対して１８０度／ｎだけ回転されている、処理ロジックと、
− 第１のｎ個のビンの組および第２のｎ個のビンの組の中の、最大量の特徴を含む主要なビンを、特徴の部分集合から選択するように構成された処理ロジックと、
− 主要なビンに属さない全ての特徴を、変位ベクトルの計算から破棄するように構成された処理ロジックと
をさらに備える。

実際には、手ぶれの主要な方向を決定するために、２つのｎ個のビンのヒストグラムが考慮され得る。これらのビンにおいて、部分集合の特徴は、それらの変位の向きに応じてグループ化される。各ビンは、３６０°／ｎの範囲をカバーする。第１のヒストグラムは、たとえば、０°から開始する。第２のｎ個のビンのヒストグラムは、第１のビンに対して１８０°／ｎだけ回転される。２つのヒストグラムのうち最大数の特徴を含むビンが選択される。このビンに属さない特徴は、主要な方向の計算から破棄される。第２のヒストグラムは、主要な方向が２つのビン間の境界線と一致しないことを保証するために必要である。さらに、２つのビンのヒストグラムに基づく主要な方向の計算のために用いられる特徴をフィルタリングする仕組みにより、本発明の精度および信頼性が向上する。

請求項１により定義されたビデオ会議サーバーに加えて、本発明はまた、請求項６により定義されたビデオ会議サーバーにおける手ぶれ検出のための対応する方法であって、ビデオ会議サーバーは、複数のビデオクライアントのカメラにより撮像されたビデオストリームを受信および結合し、複数のビデオクライアントへ配信され再生出力される没入型ビデオストリームを生成するように構成され、方法は：
− 会議クライアントから受信されるビデオフレームに対する前景マスクを生成することと、
− ビデオフレームの特徴の部分集合に対する変位ベクトルを決定することであって、変位ベクトルが、前景マスクを反転させることで得られる背景マスクと、会議クライアントから受信された以前のビデオフレームに対して生成された以前の背景マスクとの間の特徴の部分集合の２次元の動きを表す、決定することと、
− 前景マスクに、没入型ビデオストリームにおけるその使用の前に、変位ベクトルとは逆の変位を適用することであって、それにより前記会議クライアントの手ぶれ効果を補正する、適用することと、
− ぶれ表示を、会議クライアントへ配信される没入型ビデオストリーム内へ生成することと
を備える、方法に関する。

本発明はまた、方法を実行するための手段を備える、請求項７により定義された対応するデータ処理システムに関する。

本発明はさらに、方法を実施するように構成されたソフトウェアコードを備える、請求項８により定義された対応するコンピュータプログラムと、コンピュータプログラムを備える、請求項９により定義されたコンピュータ可読記憶媒体とに関する。

本発明によるビデオ会議サーバー１００の実施形態の機能ブロック図である。本発明の実施形態における手ぶれ決定に用いられる特徴の部分集合をフィルタリングするためのヒストグラムの使用を例示する図である。本発明の実施形態におけるぶれ表示による手ぶれの報知を例示する図である。

図１に、没入型ビデオ会議サーバー１００に接続されたビデオクライアント、１０１またはクライアント１を示す。没入型ビデオ会議サーバー１００は、たとえば、クラウド環境で動作する、すなわち、システムを利用するクライアントとは異なる第三者によりホストされおよび保守される処理およびメモリリソースを用いる、ソフトウェアアプリケーションでもよい。

没入型ビデオ会議サーバー１００は、ビデオストリーム送受信チャンネル、１１１またはビデオストリーム１、１１２またはビデオストリーム２、１１３またはビデオストリーム３、１１ｉまたはビデオストリームｉ、切り抜きモジュール１０２またはＣＭ、ぶれ検出器１０３またはＳＤ、およびシーン合成器１０４またはＳＣを備える。切り抜きモジュール１０２、ぶれ検出器１０３およびシーン合成器１０４は、没入型ビデオ会議プラットフォームのビデオ処理パイプラインを共同して形成する。

ビデオストリーム送受信チャンネル１１１は、ビデオ会議クライアント１０１に統合または接続されたカメラにより撮像されたビデオストリームを受信する。ビデオストリーム送受信チャンネル１１１は、ビデオストリーム１２１を、切り抜きモジュール１０２、ぶれ検出器１０３およびシーン合成器１０４に供給する。切り抜きモジュール１０２は、各ビデオフレームにおいて、最新の前景抽出技術を用いて前景を背景から分離する。前景マスク１２２は、本発明の主要な要素を表すぶれ検出器１０３に供給される。ぶれ検出器１０３は、切り抜きモジュール１０２から受信された前景マスク１２２と、ビデオ会議クライアント１０１からのオリジナルビデオフレーム１２１とを用いて、手ぶれの方向および大きさを表す２次元画像座標における変位ベクトルを引数として有するぶれ検出結果を生成する。

本発明の根底にある原理は３次元手ぶれ検出に適用可能であるが、手ぶれ補正アルゴリズムを簡単化し、ロバスト性と応答時間を向上させるために、ぶれ検出器１０３は、好ましくは、画像のＸ軸およびＹ軸に沿った、すなわち２次元の手ぶれ移動のみを扱うことに注意されたい。

ぶれ検出器１０３は、手ぶれ変位ベクトルを決定するために以下のアルゴリズムを実施する。現在のビデオフレームＦ_ｔおよび以前のビデオフレームＦ_ｔ−１から開始して、疎なオプティックフローが、ピラミッド型ルーカスカンデ（Ｌｕｋａｓ−Ｋａｎａｄｅ（ＬＫ））法を用いて計算される。オプティックフロー推定の信頼性と精度を向上し、疎な特徴のより大きな集合を得るために、Ｃａｎｎｙオペレータを適用することで得られるフレームのエッジ画像∇Ｆ_ｔおよび∇Ｆ_ｔ−１間で、オプティックフローが計算される。偽の特徴を除去するため、ＬＫアルゴリズムにより生成された、その結果の疎な特徴の集合は、各特徴ｆに対して、その点における絶対フレーム差分が所与の閾値Ｔ_ｄｉｆｆを超えなければならないという条件：
｜Ｆ_ｔ（ｆ）−Ｆ_ｔ−１（ｆ）｜＞Ｔ_ｄｉｆｆ
を課すことでフィルタリングされる。

その結果は、疎な特徴を、あるフレームから他のフレームへと計算されるその変位ベクトルと共に含む特徴の集合Φである。

切り抜きモジュール１０２により生成された前景マスク１２２は、背景マスクを得るために、ぶれ検出器１０３により反転される。この背景マスクは、画像背景に属する特徴の部分集合φを生成するために、特徴の集合Φに適用される。その後、ぶれ検出器１０３は、シーン合成器１０４に転送され、切り抜きモジュール１０２にフィードバックされる２次元ベクトル１２３の形式の背景の大域的な動きを決定するために、特徴の部分集合φに画像統計を適用する。

手ぶれに起因する動きのある特徴のみを考慮するため、閾値Ｔ_ｖが各特徴の変位の大きさに対して適用される。特徴の変位の大きさが閾値Ｔｖより小さい場合、大域的変位ベクトルの推定に誤差を生じるので、ノイズとみなされ、除去されることになる。

さらに、各々がｎ個のビンを有する２つのヒストグラム、すなわち図２のヒストグラム１およびヒストグラム２は、特徴を、それらの向きに応じてグループ化するために用いられる。各ビン、すなわち、ヒストグラム１の２１１．．．２１Ｎおよびヒストグラム２の２２１．．．２２ｎは、３６０°／ｎの範囲をカバーする。第１のヒストグラムは０°で始まり、第２のヒストグラムは、第１のヒストグラムに対して１８０°／ｎの角度だけ回転している。特徴、たとえば図２の２０１などは、２フレーム間のそれらの個々の変位の向きに応じて、ヒストグラム１のビンおよびヒストグラム２のビンに全て割り当てられる。両ヒストグラムの中で最大数の特徴を有するビンが選択され、このビンに属さない全ての特徴は、大域的変位の計算から破棄される。図２において、最大数の特徴を含むビンは２２ｎである。このヒストグラムに基づく特徴のフィルタリングにより、オプティックフロー推定誤差に起因する偽の動きが除去され、主要な方向が選択されることが保証される。互いに対して回転された２つのヒストグラムを用いることで、主要な方向に沿って変位する特徴が２つのビン上に広がることになり、最大量の特徴を有するビンを探すアルゴリズムが全く異なるビンおよび誤った主要な方向を導き出すことになる、２つのビンの間の境界に、主要な方向が一致しないことが保証される。

その後、ぶれ検出器１０３は、残りの特徴にわたる平均的な向きθを計算する。標準偏差σ_θにより、抽出された前景画像の手ぶれ効果を補正するために、この結果が切り抜きアルゴリズムにより使用可能かどうかを推定することが可能になる。向きの標準偏差σ_θが事前定義されたマージンσ_ｍａｘより小さい場合、クライアントにおける手ぶれ効果の結果である変位が、十分な精度で決定される。そして、特徴変位の平均角度θおよび平均的な大きさは、他のクライアントに対してシーン合成器１０４により生成される没入型ビデオストリーム１２５と、カメラがぶれているクライアント１０１に対してシーン合成器１０４により生成される没入型ビデオストリーム１２４とにおいて用いられる前景画像の手ぶれ効果を補正するために切り抜きモジュールにより確実に用いられ得る２次元変位ベクトルを表す。

ぶれ検出器１０３は、変位ベクトル情報１２３を切り抜きモジュール１０２に送信する。変位ベクトルの大きさが適用閾値Ｔ_{ｓｈａｋｅ}を越える場合、安定した切り抜き前景マスクを得るために、補正措置が適用される。これらの補正措置により、変位ベクトルと同じ大きさであるが反対方向すなわちθ＋１８０°に向けられた変位を用いて、現在の前景マスクの各画素が移動される。

さらに、ぶれ検出器１０３は、変位ベクトル情報１２３をシーン合成器１０４にも送信する。シーン合成器１０４は、自然な意思疎通の感覚を刺激し共通の仮想空間の共有を促すように各ユーザーの切り抜きが統合される、没入型シーンの生成を担当する。シーンは、ビデオ会議の各参加者へカスタマイズされる。図３は、たとえば、第１の参加者の視点からの光景を示し、その光景では、彼自身の切り抜き３０１が影として出現し、第２の参加者の切り抜き３０２および第２の参加者の切り抜き３０３が、自然な会話中のように彼に対面している。第１の参加者は、たとえば、図１のビデオクライアント１０１のユーザーでもよい。

クライアント１０１に対して手ぶれが検出されたとみなしたとき、シーン合成器１０４は、現象の存在を報知するために、図３の視覚的なぶれ標識３１２を参加者の影の描写に挿入する。ぶれ標識３１２は、クライアント側で実施される従来のダイアログボックスまたは通知メッセージを用いる必要なくユーザーにメッセージを配信するために、参加者の影の境界３１０の変位ベクトルの方向に沿って、わずかな揺れ効果３１１を伴う。

さらに、シーン合成器１０４は、参加者の切り抜きを安定させるために、補正された切り抜きマスクを適用する前に、切り抜きモジュール１０２と同じ移動をビデオフレーム１２１に適用する。この手法の利点は、シーン合成器１０４がサーバー側において新たな効果で更新可能であり、これらの効果がクライアントにより、どのように描画が行われなければならないかを知る必要なく表示されることである。これは、ほとんど処理能力を要せず、ブラウザ等でホストされ得るシンクライアントを考慮に入れる。

本発明の方法は、典型的には、クラウドサービス事業者等の制御下で、データ処理システムまたはコンピューティングデバイス上で、コンピュータ実施される（ｃｏｍｐｕｔｅｒ−ｉｍｐｌｅｍｅｎｔｅｄ）。当業者によって理解されるように、本発明によって動作するデータ処理システムまたはコンピューティングデバイスは、ワークステーション、サーバー、ラップトップ、デスクトップ、ハンドヘルドデバイス、モバイルデバイス、タブレットコンピュータ、またはその他のコンピューティングデバイスを含み得る。

データ処理システムまたはコンピューティングデバイスは、数個のコンポーネント間の直接または間接接続性のためのバスまたはネットワーク、メモリまたはデータベース、１つまたは複数のプロセッサ、入力／出力ポート、電源などを含み得る。バスまたはネットワークは、アドレスバス、データバス、またはそれらの任意の組合せのような、１つまたは複数のバスを含み得る、または、１つまたは複数のネットワークリンクを含み得ることを、当業者は理解するだろう。特定の実施形態の意図された応用および使用に応じて、これらのコンポーネントのうちの複数が単一のデバイスにより実装され得ることを、当業者はさらに理解するだろう。同様に、一部の例において、単一のコンポーネントは複数のデバイスにより実装され得る。

データ処理システムまたはコンピューティングデバイスは、本発明による方法を実行可能とするコンピュータプログラムを保持する様々なコンピュータ可読媒体を含みまたは相互作用し得る。たとえば、コンピュータ可読媒体は、情報を符号化するために使用可能であって、データ処理システムまたはコンピューティングデバイスによりアクセス可能である、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、電気的消去可能プログラマブルリードオンリーメモリ（ＥＥＰＲＯＭ）、フラッシュメモリまたはその他のメモリ技術、ＣＤＲＯＭ、デジタル多用途ディスク（ＤＶＤ）またはその他の光学またはホログラフィック媒体、磁気カセット、磁気テープ、磁気ディスクストレージまたはその他の磁気記憶装置を含み得る。メモリは、揮発性および／または不揮発性メモリの形式のコンピュータ記憶媒体を含み得る。メモリは、リムーバブル、非リムーバブル、またはそれらの任意の組合せでもよい。例示のハードウェアデバイスは、ハードドライブ、固体素子メモリ、光ディスクドライブなどのようなデバイスである。データ処理システムまたはコンピューティングデバイスは、メモリのようなコンポーネント、様々なＩ／Ｏコンポーネント等からデータを読み取る１つまたは複数のプロセッサを含み得る。

本発明は特定の実施形態を参照して示されたが、本発明は上述の例示の実施形態の詳細に限定されないこと、および、本発明はその範囲から逸脱することなく様々な変更および修正により具現化され得ることは、当業者にとって明らかであろう。したがって、本実施形態は、全ての観点において例示的であり限定的でないとみなされるべきであり、本発明の範囲は上述の説明によってではなく添付の特許請求の範囲に示され、したがって、特許請求の範囲の均等物の意味および範囲内に入る全ての変更は、その中に含まれるものとする。言い換えれば、基本的な根本原理の範囲内に入り、また、その本質的な属性が本特許出願において請求される、任意のおよび全ての修正、変形、または均等物を網羅するものとする。「備えている（ｃｏｍｐｒｉｓｉｎｇ）」または「備える（ｃｏｍｐｒｉｓｅ）」という用語はその他の要素またはステップを排除しないこと、「１つの（ａ）」または「１つの（ａｎ）」という用語は複数を排除しないこと、および、コンピュータシステム、プロセッサ、または他の統合ユニットのような単一の要素は特許請求の範囲に列挙されるいくつかの手段の機能を実施し得ることは、本特許出願の読者によってさらに理解されよう。特許請求の範囲の任意の参照符号は、関連するそれぞれの請求項を限定するものとして解釈されるべきではない。「第１の（ｆｉｒｓｔ）」、「第２の（ｓｅｃｏｎｄ）」、「第３の（ｔｈｉｒｄ）」、「ａ」、「ｂ」、「ｃ」などの用語は、説明または特許請求の範囲内で用いられる場合、類似の要素またはステップを区別するために導入され、必ずしも順次的または経時的順序を説明しているわけではない。同様に、「上部（ｔｏｐ）」、「底部（ｂｏｔｔｏｍ）」、「の上（ｏｖｅｒ）」、「の下（ｕｎｄｅｒ）」などの用語は、説明の目的で導入され、必ずしも相対的な位置を示すわけではない。そのように使用される用語は適切な状況下で交換可能であり、本発明の実施形態は、または上記で説明または例示されたものとは他の順番で、または異なる方向で、本発明によって動作可能であることは理解されたい。

Claims

没入型ビデオ会議のためのビデオ会議サーバー（１００）であって、複数のビデオクライアント（１０１）のカメラにより撮像されたビデオストリームを受信および結合し、前記複数のビデオクライアント（１０１）へ配信され再生出力される没入型ビデオストリーム（１２４、１２５）を生成するように構成され、
会議クライアント（１０１）から受信されるビデオフレーム（１２１）に対する前景マスク（１２２）を生成するように構成された切り抜きモジュール（１０２）と、
前記ビデオフレーム（１２１）の特徴の部分集合に対する変位ベクトル（１２３）を決定するように構成された手ぶれ検出器（１０３）であって、前記変位ベクトル（１２３）が、前記前景マスク（１２２）を反転させることで得られる背景マスクと、前記会議クライアント（１０１）から受信された以前のビデオフレームに対して生成された以前の背景マスクとの間の前記特徴の部分集合の２次元の動きを表す、手ぶれ検出器（１０３）と、
前記前景マスク（１２２）に、前記没入型ビデオストリーム（１２４、１２５）におけるその使用の前に、前記変位ベクトル（１２３）とは逆の変位を適用して、前記会議クライアント（１０１）の手ぶれ効果を補正するように構成された手ぶれ補正モジュール（１０２、１０４）と、
ぶれ表示（３１１、３１２）を、前記会議クライアントへ配信される没入型ビデオストリーム（１２４）内へ生成するように構成された報知ユニット（１０４）と
を備える、ビデオ会議サーバー（１００）。
前記手ぶれ検出器（１０３）が、
前記ビデオフレームおよび前記以前のビデオフレーム内の特徴の集合を選択するためのビデオストリームプロセッサと、
前記ビデオフレームの前記背景マスクと、前記以前のフレームの前記以前の背景マスクとに属する特徴の部分集合を得るために、前記特徴の集合をフィルタリングするためのフィルタリングロジックと、
ピラミッド型ルーカスカンデ（Ｌｕｋａｓ−Ｋａｎａｄｅ）アルゴリズムにより、前記特徴の部分集合に対する疎なオプティックフローを計算するための処理ロジックと
を備える、請求項１に記載のビデオ会議サーバー（１００）。
前記手ぶれ検出器（１０３）が、
前記特徴の部分集合に対する前記疎なオプティカルフローから、統計的平均化により、前記変位ベクトル（１２３）を形成する動きの大きさおよび動きの方向を計算するための統計ロジック
をさらに備える、請求項２に記載のビデオ会議サーバー（１００）。
前記手ぶれ検出器（１０３）が、
前記特徴の部分集合内の各特徴に対して、前記疎なオプティカルフローの大きさを所定の閾値と比較するように構成され、前記疎なオプティカルフローの前記大きさが前記所定の閾値より小さい場合に、前記変位ベクトルの計算から前記特徴を破棄するように構成された処理ロジック
をさらに備える、請求項２に記載のビデオ会議サーバー（１００）。
前記手ぶれ検出器（１０３）が、
前記特徴の部分集合内の各特徴（２０１）を、その疎なオプティカルフローの方向に応じて、各々が３６０度／ｎの範囲をカバーする第１のｎ個のヒストグラムビンの組の中の第１のビン（２１１．．．２１ｎ）と、各々が３６０度／ｎの範囲をカバーする第２のｎ個のヒストグラムビンの組の中の第２のビン（２２１．．．２２ｎ）とに割り当てるように構成された処理ロジックであって、ｎは正の整数値であり、前記第２のｎ個のビンの組は、前記第１のｎ個のビンの組に対して１８０度／ｎだけ回転されている、処理ロジックと、
前記第１のｎ個のビンの組および前記第２のｎ個のビンの組の中の、最大量の特徴を含む主要なビン（２２ｎ）を、前記特徴の部分集合から選択するように構成された処理ロジックと、
前記主要なビン（２２ｎ）に属さない全ての特徴を、前記変位ベクトル（１２３）の計算から破棄するように構成された処理ロジックと
をさらに備える、請求項２に記載のビデオ会議サーバー（１００）。
複数のビデオクライアント（１０１）のカメラにより撮像されたビデオストリームを受信および結合し、前記複数のビデオクライアント（１０１）へ配信され再生出力される没入型ビデオストリーム（１２４、１２５）を生成するように構成されたビデオ会議サーバー（１００）における手ぶれ検出のための方法であって、
会議クライアント（１０１）から受信されるビデオフレーム（１２１）に対する前景マスク（１２２）を生成することと、
前記ビデオフレーム（１２１）の特徴の部分集合に対する変位ベクトル（１２３）を決定することであって、前記変位ベクトル（１２３）が、前記前景マスク（１２２）を反転させることで得られる背景マスクと、前記会議クライアント（１０１）から受信された以前のビデオフレームに対して生成された以前の背景マスクとの間の前記特徴の部分集合の２次元の動きを表す、決定することと、
前記前景マスク（１２２）に、前記没入型ビデオストリーム（１２４、１２５）におけるその使用の前に、前記変位ベクトル（１２３）とは逆の変位を適用することであって、それにより前記会議クライアント（１０１）の手ぶれ効果を補正する、適用することと、
ぶれ表示（３１１、３１２）を、前記会議クライアント（１０１）へ配信される没入型ビデオストリーム（１２４）内へ生成することと
を備える、方法。
請求項６に記載の方法を実行するための手段を備える、データ処理システム。
請求項６に記載の方法を実施するように構成されたソフトウェアコードを備える、コンピュータプログラム。
請求項８に記載のコンピュータプログラムを備える、コンピュータ可読記憶媒体。