JP2016503631A - 手ぶれ検出付きビデオ会議サーバー - Google Patents

手ぶれ検出付きビデオ会議サーバー Download PDF

Info

Publication number
JP2016503631A
JP2016503631A JP2015544423A JP2015544423A JP2016503631A JP 2016503631 A JP2016503631 A JP 2016503631A JP 2015544423 A JP2015544423 A JP 2015544423A JP 2015544423 A JP2015544423 A JP 2015544423A JP 2016503631 A JP2016503631 A JP 2016503631A
Authority
JP
Japan
Prior art keywords
video
features
subset
displacement vector
camera shake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015544423A
Other languages
English (en)
Other versions
JP6159816B2 (ja
Inventor
ファガダル−コスマ,ミハイ
アンリ・ドービニー・デミャール,ポール
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2016503631A publication Critical patent/JP2016503631A/ja
Application granted granted Critical
Publication of JP6159816B2 publication Critical patent/JP6159816B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/765Media network packet handling intermediate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/681Motion detection
    • H04N23/6811Motion detection based on the image signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/682Vibration or motion blur correction
    • H04N23/683Vibration or motion blur correction performed by a processor, e.g. controlling the readout of an image memory
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Devices (AREA)
  • Telephonic Communication Services (AREA)

Abstract

ビデオ会議サーバー(100)は、複数のビデオクライアント(101)のカメラにより撮像されたビデオストリームを受信および結合し、これらのビデオクライアント(101)へ配信され再生出力される没入型ビデオストリーム(124、125)を生成する。ビデオ会議サーバー(100)の切り抜きモジュール(102)は、会議クライアント(101)から受信されるビデオフレーム(121)に対する前景マスク(122)を生成する。手ぶれ検出器(103)は、ビデオフレーム(121)の特徴の部分集合に対する変位ベクトル(123)を決定する。変位ベクトル(123)は、背景マスクと、同じ会議クライアント(101)から受信された以前のビデオフレームに対する以前の背景マスクとの間の特徴の部分集合の2次元の動きを表す。手ぶれ補正モジュール(102、104)は、前景マスク(122)に、会議クライアント(101)のための没入型ビデオストリーム(124、125)におけるその使用の前に、変位ベクトル(123)とは逆の変位を適用し、報知ユニット(104)は、ぶれ表示(311、312)を、カメラがぶれている会議クライアント(101)へ配信される没入型ビデオストリーム(124)内へ生成する。

Description

本発明は一般的に、没入型ビデオ会議、すなわち、会議に参加している複数のクライアントからのビデオストリームが処理および結合されて、全参加者の仮想的な存在を1つの会議室内に確立するビデオ会議に関する。典型的には、各ビデオクライアントは、自身のカメラを通してビデオストリームを生成する。前景抽出により、背景および前景が異なるビデオストリームに分離され、異なるクライアントの前景画像が結合されて、各クライアントにより再生出力(play−out)される没入型ビデオストリームを生成する。典型的には、没入型ビデオストリームは個別化され、各ユーザーに対して、没入型ストリームが個別化されるユーザーの視点から見た1つの会議室またはテーブルを全参加者が共有しているかのような外観および音声の環境(look−and−sound environment)を生成する。個々のユーザーに対して生成された没入型ビデオストリームにおいて、仮想の会議室またはテーブルがそのユーザーの背後の視点から見られているかのように、そのユーザーの影が統合され得る。本発明は、特に、そのような没入型ビデオ会議システムを改良するために、手ぶれまたはカメラジッタ現象を検出および補償することに関する。
手ぶれまたはカメラジッタの問題は、たとえば、マイクロソフトのビデオKinect、またはタイムオブフライト(TOF)カメラに基づくシステムのような、クライアント側の専用のビデオ撮像デバイスを用いて、軽減され得る。しかしながら、そのようなシステムは持ち運びできず、没入型ビデオ会議へのユビキタスアクセス、すなわち任意の時刻の任意の場所からのアクセスを可能にしない専用の設定手順を含む。
モバイルデバイスを用いることで、ビデオ会議へのユビキタスアクセスは可能となった。しかしながら、ビデオ会議でのモバイルデバイスの使用が増えたことにより、一般的に、前景抽出処理の出力品質を劣化させ、結果として、抽出された前景画像から生成された没入型ビデオストリームの品質もまた劣化させる、手ぶれまたはカメラジッタの問題が引き起こされる。したがって、没入型ビデオの品質を改善する適切な補正のおよび/または予防の措置を取ることを可能にするために手ぶれを確実に検出することが望まれる。
解決方法の1つのカテゴリは、手ぶれを検出するために、特定の携帯電話、タブレットPCなどに存在する加速度計のようなデバイス固有のハードウェアを利用する。しかしながら、これらの解決方法は専用のハードウェアの存在に依存するので、デバイス非依存ではない。さらに、これらの解決方法は、たとえばラップトップのような、そのようなハードウェアを通常備えていない様々なポータブルデバイスを対象外のままにする。
解決方法の他のカテゴリは、画像を撮像するクライアントデバイスにおける手ぶれを検出および補正するソフトウェアアルゴリズムに依存する。そのようなアルゴリズムの例が、たとえば、論文「Using Optical Flow for Stabilizing Image Sequences」P.O’Donovan著、および、論文「Fixation as a Mechanism for Stabilization of Short Image Sequences」K.Pauwels、M.Lappe、M.M.Van Hulle著に記載されている。これらのアルゴリズムはクライアント側でビデオストリーム処理を行うため、これらの解決方法はデバイス非依存ではなく、そのため、全デバイスにわたるユビキタスで、整合のとれたビデオ会議体験を保証できない。さらに、これらのアルゴリズムは、通常は、会議参加者のクライアントデバイスにおいてかなりの処理能力とメモリリソースを占有する。
本発明の目的は、従来の解決方法の上述の欠点を解決する没入型ビデオ会議のための方法および道具を提供することである。より具体的には、本発明の目的は、会議参加者により用いられるクライアントデバイスに非依存の方法で手ぶれを検出し、報知し、補正することにより、没入型ビデオ会議の全体の品質を改良することを可能とし、処理能力およびメモリの使用に関して制限された要件で実施され得る、没入型ビデオ会議の解決方法を開示することである。
本発明によれば、上記で定義した目的が、請求項1により定義された没入型ビデオ会議のためのビデオ会議サーバーであって、複数のビデオクライアントのカメラにより撮像されたビデオストリームを受信および結合し、複数のビデオクライアントへ配信され再生出力される没入型ビデオストリームを生成するように構成され、ビデオ会議サーバーは:
− 会議クライアントから受信されるビデオフレームに対する前景マスクを生成するように構成された切り抜きモジュールと、
− 前記ビデオフレームの特徴の部分集合に対する変位ベクトルを決定するように構成された手ぶれ検出器であって、変位ベクトルが、前景マスクを反転させることで得られる背景マスクと、会議クライアントから受信された以前のビデオフレームに対して生成された以前の背景マスクとの間の特徴の部分集合の2次元の動きを表す、手ぶれ検出器と、
− 前景マスクに、没入型ビデオストリームにおけるその使用の前に、変位ベクトルとは逆の変位を適用して、会議クライアントの手ぶれ効果を補正するように構成された手ぶれ補正モジュールと、
− ぶれ表示を、会議クライアントへ配信される没入型ビデオストリーム内へ生成するように構成された報知ユニットと
を備える、ビデオ会議サーバーにより実現される。
したがって、本発明はサーバー側で実施され、ビデオストリームを撮像するために用いられるクライアントデバイスに非依存であることを保証する。本発明はたとえば、クラウド環境、すなわち、ビデオ会議の当事者とは異なる第三者により運用保守される、遠隔の記憶および処理環境におけるプロセッサで動作するソフトウェアプログラムとして実施され得る。本発明はさらに、没入型ビデオ会議システムにおいて利用可能である技術、すなわち前景抽出を利用する。本発明は、実際には、クライアントから受信したビデオストリームの背景および前景を分離する切り抜きモジュールに依存する。そして、本発明は、背景の特徴の部分集合の変位を定量化することで、ビデオストリームの背景の大域的な動きを計算する。手ぶれがない場合、背景は安定しているはずであり、背景の特徴の変位はほぼゼロであるはずである。反対に、変位が特定の閾値を超える大きさを有する場合、本発明は、手ぶれ現象が検出されたとみなす。そして、サーバーは、カメラがぶれているクライアントデバイスへ、そのユーザーが予防措置を取ることを可能にするために、手ぶれを報知する。システムはさらに、ぶれ現象が検出されたビデオストリームの前景画像に対して、他のクライアントに対して生成される没入型ビデオストリームにおいてこれらの前景画像が用いられる前に、変位を適用することで、補正措置を取る。要約すれば、本発明は、ユーザーに不要な手ぶれ現象をユーザー側で意識させ、抽出された前景画像において検出されたぶれ現象に対して補正措置を取る。このように、本発明は、画像を撮像するために用いられるクライアントデバイスの種類にかかわらず、そのようなクライアントデバイスにおける処理および記憶リソースの使用へ悪影響なく、没入型ビデオ会議の品質に大きく貢献する。
請求項2により定義された本発明によるビデオ会議サーバーの好ましい実施形態において、手ぶれ検出器は:
− ビデオフレームおよび以前のビデオフレーム内の特徴の集合を選択するためのビデオストリームプロセッサと、
− ビデオフレームの背景マスクと、以前のフレームの以前の背景マスクとに属する特徴の部分集合を得るために、特徴の集合をフィルタリングするためのフィルタリングロジックと、
− ピラミッド型ルーカスカンデ(Lukas−Kanade)アルゴリズムにより、特徴の部分集合に対する疎なオプティックフローを計算するための処理ロジックと
を備える。
実際には、本発明による手ぶれ検出器は、画像背景に属する特徴の部分集合を選択し、ピラミッド型ルーカスカンデ(Lukas−Kanade(LK))アルゴリズムによる疎なオプティックフロー、すなわち、あるフレームから他のフレームへのこれらの特徴の変位を計算する。これは、大域的変位ベクトル、すなわち2フレーム間の手ぶれを定量化する2次元の動きがそれに基づいて様々な統計手法により計算され得る、特徴の部分集合に対する速度ベクトルの集合をもたらす。
請求項3により定義された本発明によるビデオ会議サーバーのさらなる態様によれば、手ぶれ検出器は:
− 特徴の部分集合に対する疎なオプティカルフローから、統計的平均化により、変位ベクトルを形成する動きの大きさおよび動きの方向を計算するための統計ロジック
を備える。
実際には、背景の特徴の部分集合に対して計算された速度ベクトルを平均化することで、手ぶれを定量化する、大きさおよび向きまたは方向が、決定され得る。平均値、中央値、加重和、極値などのような、いくつかの平均化技法が適用され得る。
請求項4により定義された本発明によるビデオ会議サーバーの任意の態様によれば、手ぶれ検出器は:
− 特徴の部分集合内の各特徴に対して、疎なオプティカルフローの大きさを所定の閾値と比較するように構成され、疎なオプティカルフローの大きさが所定の閾値より小さい場合に、変位ベクトルの計算から特徴を破棄するように構成された処理ロジック
をさらに備える。
したがって、本発明による手ぶれ検出器は、好ましくは、手ぶれの大きさおよび主要な方向を定量化するために用いられる特徴をフィルタリングする。特徴の変位が特定の閾値よりも大きさが小さいままである場合、大域的変位ベクトルの推定において誤差を引き起こす可能性があるので、ノイズとみなされ、したがってその後の計算から除去される。したがって、手ぶれを検出するために用いられる背景の特徴をフィルタリングすることによって、精度および信頼性が向上する。
請求項5により定義された本発明によるビデオ会議サーバーの好ましい実施形態では、手ぶれ検出器は:
− 特徴の部分集合内の各特徴を、その疎なオプティカルフローの方向に応じて、各々が360度/nの範囲をカバーする第1のn個のヒストグラムビンの組の中の第1のビンと、各々が360度/nの範囲をカバーする第2のn個のヒストグラムビンの組の中の第2のビンとに割り当てるように構成された処理ロジックであって、nは正の整数値であり、第2のn個のビンの組は、第1のn個のビンの組に対して180度/nだけ回転されている、処理ロジックと、
− 第1のn個のビンの組および第2のn個のビンの組の中の、最大量の特徴を含む主要なビンを、特徴の部分集合から選択するように構成された処理ロジックと、
− 主要なビンに属さない全ての特徴を、変位ベクトルの計算から破棄するように構成された処理ロジックと
をさらに備える。
実際には、手ぶれの主要な方向を決定するために、2つのn個のビンのヒストグラムが考慮され得る。これらのビンにおいて、部分集合の特徴は、それらの変位の向きに応じてグループ化される。各ビンは、360°/nの範囲をカバーする。第1のヒストグラムは、たとえば、0°から開始する。第2のn個のビンのヒストグラムは、第1のビンに対して180°/nだけ回転される。2つのヒストグラムのうち最大数の特徴を含むビンが選択される。このビンに属さない特徴は、主要な方向の計算から破棄される。第2のヒストグラムは、主要な方向が2つのビン間の境界線と一致しないことを保証するために必要である。さらに、2つのビンのヒストグラムに基づく主要な方向の計算のために用いられる特徴をフィルタリングする仕組みにより、本発明の精度および信頼性が向上する。
請求項1により定義されたビデオ会議サーバーに加えて、本発明はまた、請求項6により定義されたビデオ会議サーバーにおける手ぶれ検出のための対応する方法であって、ビデオ会議サーバーは、複数のビデオクライアントのカメラにより撮像されたビデオストリームを受信および結合し、複数のビデオクライアントへ配信され再生出力される没入型ビデオストリームを生成するように構成され、方法は:
− 会議クライアントから受信されるビデオフレームに対する前景マスクを生成することと、
− ビデオフレームの特徴の部分集合に対する変位ベクトルを決定することであって、変位ベクトルが、前景マスクを反転させることで得られる背景マスクと、会議クライアントから受信された以前のビデオフレームに対して生成された以前の背景マスクとの間の特徴の部分集合の2次元の動きを表す、決定することと、
− 前景マスクに、没入型ビデオストリームにおけるその使用の前に、変位ベクトルとは逆の変位を適用することであって、それにより前記会議クライアントの手ぶれ効果を補正する、適用することと、
− ぶれ表示を、会議クライアントへ配信される没入型ビデオストリーム内へ生成することと
を備える、方法に関する。
本発明はまた、方法を実行するための手段を備える、請求項7により定義された対応するデータ処理システムに関する。
本発明はさらに、方法を実施するように構成されたソフトウェアコードを備える、請求項8により定義された対応するコンピュータプログラムと、コンピュータプログラムを備える、請求項9により定義されたコンピュータ可読記憶媒体とに関する。
本発明によるビデオ会議サーバー100の実施形態の機能ブロック図である。 本発明の実施形態における手ぶれ決定に用いられる特徴の部分集合をフィルタリングするためのヒストグラムの使用を例示する図である。 本発明の実施形態におけるぶれ表示による手ぶれの報知を例示する図である。
図1に、没入型ビデオ会議サーバー100に接続されたビデオクライアント、101またはクライアント1を示す。没入型ビデオ会議サーバー100は、たとえば、クラウド環境で動作する、すなわち、システムを利用するクライアントとは異なる第三者によりホストされおよび保守される処理およびメモリリソースを用いる、ソフトウェアアプリケーションでもよい。
没入型ビデオ会議サーバー100は、ビデオストリーム送受信チャンネル、111またはビデオストリーム1、112またはビデオストリーム2、113またはビデオストリーム3、11iまたはビデオストリームi、切り抜きモジュール102またはCM、ぶれ検出器103またはSD、およびシーン合成器104またはSCを備える。切り抜きモジュール102、ぶれ検出器103およびシーン合成器104は、没入型ビデオ会議プラットフォームのビデオ処理パイプラインを共同して形成する。
ビデオストリーム送受信チャンネル111は、ビデオ会議クライアント101に統合または接続されたカメラにより撮像されたビデオストリームを受信する。ビデオストリーム送受信チャンネル111は、ビデオストリーム121を、切り抜きモジュール102、ぶれ検出器103およびシーン合成器104に供給する。切り抜きモジュール102は、各ビデオフレームにおいて、最新の前景抽出技術を用いて前景を背景から分離する。前景マスク122は、本発明の主要な要素を表すぶれ検出器103に供給される。ぶれ検出器103は、切り抜きモジュール102から受信された前景マスク122と、ビデオ会議クライアント101からのオリジナルビデオフレーム121とを用いて、手ぶれの方向および大きさを表す2次元画像座標における変位ベクトルを引数として有するぶれ検出結果を生成する。
本発明の根底にある原理は3次元手ぶれ検出に適用可能であるが、手ぶれ補正アルゴリズムを簡単化し、ロバスト性と応答時間を向上させるために、ぶれ検出器103は、好ましくは、画像のX軸およびY軸に沿った、すなわち2次元の手ぶれ移動のみを扱うことに注意されたい。
ぶれ検出器103は、手ぶれ変位ベクトルを決定するために以下のアルゴリズムを実施する。現在のビデオフレームFおよび以前のビデオフレームFt−1から開始して、疎なオプティックフローが、ピラミッド型ルーカスカンデ(Lukas−Kanade(LK))法を用いて計算される。オプティックフロー推定の信頼性と精度を向上し、疎な特徴のより大きな集合を得るために、Cannyオペレータを適用することで得られるフレームのエッジ画像∇Fおよび∇Ft−1間で、オプティックフローが計算される。偽の特徴を除去するため、LKアルゴリズムにより生成された、その結果の疎な特徴の集合は、各特徴fに対して、その点における絶対フレーム差分が所与の閾値Tdiffを超えなければならないという条件:
|F(f)−Ft−1(f)|>Tdiff
を課すことでフィルタリングされる。
その結果は、疎な特徴を、あるフレームから他のフレームへと計算されるその変位ベクトルと共に含む特徴の集合Φである。
切り抜きモジュール102により生成された前景マスク122は、背景マスクを得るために、ぶれ検出器103により反転される。この背景マスクは、画像背景に属する特徴の部分集合φを生成するために、特徴の集合Φに適用される。その後、ぶれ検出器103は、シーン合成器104に転送され、切り抜きモジュール102にフィードバックされる2次元ベクトル123の形式の背景の大域的な動きを決定するために、特徴の部分集合φに画像統計を適用する。
手ぶれに起因する動きのある特徴のみを考慮するため、閾値Tが各特徴の変位の大きさに対して適用される。特徴の変位の大きさが閾値Tvより小さい場合、大域的変位ベクトルの推定に誤差を生じるので、ノイズとみなされ、除去されることになる。
さらに、各々がn個のビンを有する2つのヒストグラム、すなわち図2のヒストグラム1およびヒストグラム2は、特徴を、それらの向きに応じてグループ化するために用いられる。各ビン、すなわち、ヒストグラム1の211...21Nおよびヒストグラム2の221...22nは、360°/nの範囲をカバーする。第1のヒストグラムは0°で始まり、第2のヒストグラムは、第1のヒストグラムに対して180°/nの角度だけ回転している。特徴、たとえば図2の201などは、2フレーム間のそれらの個々の変位の向きに応じて、ヒストグラム1のビンおよびヒストグラム2のビンに全て割り当てられる。両ヒストグラムの中で最大数の特徴を有するビンが選択され、このビンに属さない全ての特徴は、大域的変位の計算から破棄される。図2において、最大数の特徴を含むビンは22nである。このヒストグラムに基づく特徴のフィルタリングにより、オプティックフロー推定誤差に起因する偽の動きが除去され、主要な方向が選択されることが保証される。互いに対して回転された2つのヒストグラムを用いることで、主要な方向に沿って変位する特徴が2つのビン上に広がることになり、最大量の特徴を有するビンを探すアルゴリズムが全く異なるビンおよび誤った主要な方向を導き出すことになる、2つのビンの間の境界に、主要な方向が一致しないことが保証される。
その後、ぶれ検出器103は、残りの特徴にわたる平均的な向きθを計算する。標準偏差σθにより、抽出された前景画像の手ぶれ効果を補正するために、この結果が切り抜きアルゴリズムにより使用可能かどうかを推定することが可能になる。向きの標準偏差σθが事前定義されたマージンσmaxより小さい場合、クライアントにおける手ぶれ効果の結果である変位が、十分な精度で決定される。そして、特徴変位の平均角度θおよび平均的な大きさは、他のクライアントに対してシーン合成器104により生成される没入型ビデオストリーム125と、カメラがぶれているクライアント101に対してシーン合成器104により生成される没入型ビデオストリーム124とにおいて用いられる前景画像の手ぶれ効果を補正するために切り抜きモジュールにより確実に用いられ得る2次元変位ベクトルを表す。
ぶれ検出器103は、変位ベクトル情報123を切り抜きモジュール102に送信する。変位ベクトルの大きさが適用閾値Tshakeを越える場合、安定した切り抜き前景マスクを得るために、補正措置が適用される。これらの補正措置により、変位ベクトルと同じ大きさであるが反対方向すなわちθ+180°に向けられた変位を用いて、現在の前景マスクの各画素が移動される。
さらに、ぶれ検出器103は、変位ベクトル情報123をシーン合成器104にも送信する。シーン合成器104は、自然な意思疎通の感覚を刺激し共通の仮想空間の共有を促すように各ユーザーの切り抜きが統合される、没入型シーンの生成を担当する。シーンは、ビデオ会議の各参加者へカスタマイズされる。図3は、たとえば、第1の参加者の視点からの光景を示し、その光景では、彼自身の切り抜き301が影として出現し、第2の参加者の切り抜き302および第2の参加者の切り抜き303が、自然な会話中のように彼に対面している。第1の参加者は、たとえば、図1のビデオクライアント101のユーザーでもよい。
クライアント101に対して手ぶれが検出されたとみなしたとき、シーン合成器104は、現象の存在を報知するために、図3の視覚的なぶれ標識312を参加者の影の描写に挿入する。ぶれ標識312は、クライアント側で実施される従来のダイアログボックスまたは通知メッセージを用いる必要なくユーザーにメッセージを配信するために、参加者の影の境界310の変位ベクトルの方向に沿って、わずかな揺れ効果311を伴う。
さらに、シーン合成器104は、参加者の切り抜きを安定させるために、補正された切り抜きマスクを適用する前に、切り抜きモジュール102と同じ移動をビデオフレーム121に適用する。この手法の利点は、シーン合成器104がサーバー側において新たな効果で更新可能であり、これらの効果がクライアントにより、どのように描画が行われなければならないかを知る必要なく表示されることである。これは、ほとんど処理能力を要せず、ブラウザ等でホストされ得るシンクライアントを考慮に入れる。
本発明の方法は、典型的には、クラウドサービス事業者等の制御下で、データ処理システムまたはコンピューティングデバイス上で、コンピュータ実施される(computer−implemented)。当業者によって理解されるように、本発明によって動作するデータ処理システムまたはコンピューティングデバイスは、ワークステーション、サーバー、ラップトップ、デスクトップ、ハンドヘルドデバイス、モバイルデバイス、タブレットコンピュータ、またはその他のコンピューティングデバイスを含み得る。
データ処理システムまたはコンピューティングデバイスは、数個のコンポーネント間の直接または間接接続性のためのバスまたはネットワーク、メモリまたはデータベース、1つまたは複数のプロセッサ、入力/出力ポート、電源などを含み得る。バスまたはネットワークは、アドレスバス、データバス、またはそれらの任意の組合せのような、1つまたは複数のバスを含み得る、または、1つまたは複数のネットワークリンクを含み得ることを、当業者は理解するだろう。特定の実施形態の意図された応用および使用に応じて、これらのコンポーネントのうちの複数が単一のデバイスにより実装され得ることを、当業者はさらに理解するだろう。同様に、一部の例において、単一のコンポーネントは複数のデバイスにより実装され得る。
データ処理システムまたはコンピューティングデバイスは、本発明による方法を実行可能とするコンピュータプログラムを保持する様々なコンピュータ可読媒体を含みまたは相互作用し得る。たとえば、コンピュータ可読媒体は、情報を符号化するために使用可能であって、データ処理システムまたはコンピューティングデバイスによりアクセス可能である、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、電気的消去可能プログラマブルリードオンリーメモリ(EEPROM)、フラッシュメモリまたはその他のメモリ技術、CDROM、デジタル多用途ディスク(DVD)またはその他の光学またはホログラフィック媒体、磁気カセット、磁気テープ、磁気ディスクストレージまたはその他の磁気記憶装置を含み得る。メモリは、揮発性および/または不揮発性メモリの形式のコンピュータ記憶媒体を含み得る。メモリは、リムーバブル、非リムーバブル、またはそれらの任意の組合せでもよい。例示のハードウェアデバイスは、ハードドライブ、固体素子メモリ、光ディスクドライブなどのようなデバイスである。データ処理システムまたはコンピューティングデバイスは、メモリのようなコンポーネント、様々なI/Oコンポーネント等からデータを読み取る1つまたは複数のプロセッサを含み得る。
本発明は特定の実施形態を参照して示されたが、本発明は上述の例示の実施形態の詳細に限定されないこと、および、本発明はその範囲から逸脱することなく様々な変更および修正により具現化され得ることは、当業者にとって明らかであろう。したがって、本実施形態は、全ての観点において例示的であり限定的でないとみなされるべきであり、本発明の範囲は上述の説明によってではなく添付の特許請求の範囲に示され、したがって、特許請求の範囲の均等物の意味および範囲内に入る全ての変更は、その中に含まれるものとする。言い換えれば、基本的な根本原理の範囲内に入り、また、その本質的な属性が本特許出願において請求される、任意のおよび全ての修正、変形、または均等物を網羅するものとする。「備えている(comprising)」または「備える(comprise)」という用語はその他の要素またはステップを排除しないこと、「1つの(a)」または「1つの(an)」という用語は複数を排除しないこと、および、コンピュータシステム、プロセッサ、または他の統合ユニットのような単一の要素は特許請求の範囲に列挙されるいくつかの手段の機能を実施し得ることは、本特許出願の読者によってさらに理解されよう。特許請求の範囲の任意の参照符号は、関連するそれぞれの請求項を限定するものとして解釈されるべきではない。「第1の(first)」、「第2の(second)」、「第3の(third)」、「a」、「b」、「c」などの用語は、説明または特許請求の範囲内で用いられる場合、類似の要素またはステップを区別するために導入され、必ずしも順次的または経時的順序を説明しているわけではない。同様に、「上部(top)」、「底部(bottom)」、「の上(over)」、「の下(under)」などの用語は、説明の目的で導入され、必ずしも相対的な位置を示すわけではない。そのように使用される用語は適切な状況下で交換可能であり、本発明の実施形態は、または上記で説明または例示されたものとは他の順番で、または異なる方向で、本発明によって動作可能であることは理解されたい。

Claims (9)

  1. 没入型ビデオ会議のためのビデオ会議サーバー(100)であって、複数のビデオクライアント(101)のカメラにより撮像されたビデオストリームを受信および結合し、前記複数のビデオクライアント(101)へ配信され再生出力される没入型ビデオストリーム(124、125)を生成するように構成され、
    会議クライアント(101)から受信されるビデオフレーム(121)に対する前景マスク(122)を生成するように構成された切り抜きモジュール(102)と、
    前記ビデオフレーム(121)の特徴の部分集合に対する変位ベクトル(123)を決定するように構成された手ぶれ検出器(103)であって、前記変位ベクトル(123)が、前記前景マスク(122)を反転させることで得られる背景マスクと、前記会議クライアント(101)から受信された以前のビデオフレームに対して生成された以前の背景マスクとの間の前記特徴の部分集合の2次元の動きを表す、手ぶれ検出器(103)と、
    前記前景マスク(122)に、前記没入型ビデオストリーム(124、125)におけるその使用の前に、前記変位ベクトル(123)とは逆の変位を適用して、前記会議クライアント(101)の手ぶれ効果を補正するように構成された手ぶれ補正モジュール(102、104)と、
    ぶれ表示(311、312)を、前記会議クライアントへ配信される没入型ビデオストリーム(124)内へ生成するように構成された報知ユニット(104)と
    を備える、ビデオ会議サーバー(100)。
  2. 前記手ぶれ検出器(103)が、
    前記ビデオフレームおよび前記以前のビデオフレーム内の特徴の集合を選択するためのビデオストリームプロセッサと、
    前記ビデオフレームの前記背景マスクと、前記以前のフレームの前記以前の背景マスクとに属する特徴の部分集合を得るために、前記特徴の集合をフィルタリングするためのフィルタリングロジックと、
    ピラミッド型ルーカスカンデ(Lukas−Kanade)アルゴリズムにより、前記特徴の部分集合に対する疎なオプティックフローを計算するための処理ロジックと
    を備える、請求項1に記載のビデオ会議サーバー(100)。
  3. 前記手ぶれ検出器(103)が、
    前記特徴の部分集合に対する前記疎なオプティカルフローから、統計的平均化により、前記変位ベクトル(123)を形成する動きの大きさおよび動きの方向を計算するための統計ロジック
    をさらに備える、請求項2に記載のビデオ会議サーバー(100)。
  4. 前記手ぶれ検出器(103)が、
    前記特徴の部分集合内の各特徴に対して、前記疎なオプティカルフローの大きさを所定の閾値と比較するように構成され、前記疎なオプティカルフローの前記大きさが前記所定の閾値より小さい場合に、前記変位ベクトルの計算から前記特徴を破棄するように構成された処理ロジック
    をさらに備える、請求項2に記載のビデオ会議サーバー(100)。
  5. 前記手ぶれ検出器(103)が、
    前記特徴の部分集合内の各特徴(201)を、その疎なオプティカルフローの方向に応じて、各々が360度/nの範囲をカバーする第1のn個のヒストグラムビンの組の中の第1のビン(211...21n)と、各々が360度/nの範囲をカバーする第2のn個のヒストグラムビンの組の中の第2のビン(221...22n)とに割り当てるように構成された処理ロジックであって、nは正の整数値であり、前記第2のn個のビンの組は、前記第1のn個のビンの組に対して180度/nだけ回転されている、処理ロジックと、
    前記第1のn個のビンの組および前記第2のn個のビンの組の中の、最大量の特徴を含む主要なビン(22n)を、前記特徴の部分集合から選択するように構成された処理ロジックと、
    前記主要なビン(22n)に属さない全ての特徴を、前記変位ベクトル(123)の計算から破棄するように構成された処理ロジックと
    をさらに備える、請求項2に記載のビデオ会議サーバー(100)。
  6. 複数のビデオクライアント(101)のカメラにより撮像されたビデオストリームを受信および結合し、前記複数のビデオクライアント(101)へ配信され再生出力される没入型ビデオストリーム(124、125)を生成するように構成されたビデオ会議サーバー(100)における手ぶれ検出のための方法であって、
    会議クライアント(101)から受信されるビデオフレーム(121)に対する前景マスク(122)を生成することと、
    前記ビデオフレーム(121)の特徴の部分集合に対する変位ベクトル(123)を決定することであって、前記変位ベクトル(123)が、前記前景マスク(122)を反転させることで得られる背景マスクと、前記会議クライアント(101)から受信された以前のビデオフレームに対して生成された以前の背景マスクとの間の前記特徴の部分集合の2次元の動きを表す、決定することと、
    前記前景マスク(122)に、前記没入型ビデオストリーム(124、125)におけるその使用の前に、前記変位ベクトル(123)とは逆の変位を適用することであって、それにより前記会議クライアント(101)の手ぶれ効果を補正する、適用することと、
    ぶれ表示(311、312)を、前記会議クライアント(101)へ配信される没入型ビデオストリーム(124)内へ生成することと
    を備える、方法。
  7. 請求項6に記載の方法を実行するための手段を備える、データ処理システム。
  8. 請求項6に記載の方法を実施するように構成されたソフトウェアコードを備える、コンピュータプログラム。
  9. 請求項8に記載のコンピュータプログラムを備える、コンピュータ可読記憶媒体。
JP2015544423A 2012-11-29 2013-11-25 手ぶれ検出付きビデオ会議サーバー Expired - Fee Related JP6159816B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP12290418.8A EP2739044B1 (en) 2012-11-29 2012-11-29 A video conferencing server with camera shake detection
EP12290418.8 2012-11-29
PCT/EP2013/074528 WO2014082941A1 (en) 2012-11-29 2013-11-25 A videoconferencing server with camera shake detection

Publications (2)

Publication Number Publication Date
JP2016503631A true JP2016503631A (ja) 2016-02-04
JP6159816B2 JP6159816B2 (ja) 2017-07-05

Family

ID=47326002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015544423A Expired - Fee Related JP6159816B2 (ja) 2012-11-29 2013-11-25 手ぶれ検出付きビデオ会議サーバー

Country Status (6)

Country Link
US (1) US9762856B2 (ja)
EP (1) EP2739044B1 (ja)
JP (1) JP6159816B2 (ja)
KR (1) KR101697495B1 (ja)
CN (1) CN104813656B (ja)
WO (1) WO2014082941A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017174296A (ja) * 2016-03-25 2017-09-28 隆夫 西谷 画像処理装置および画像処理方法
US12034785B2 (en) 2021-01-27 2024-07-09 Tmrw Foundation Ip S.Àr.L. System and method enabling interactions in virtual environments with virtual presence

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9071740B1 (en) * 2011-10-28 2015-06-30 Google Inc. Modular camera system
EP2602692A1 (en) * 2011-12-05 2013-06-12 Alcatel Lucent Method for recognizing gestures and gesture detector
US9374532B2 (en) * 2013-03-15 2016-06-21 Google Inc. Cascaded camera motion estimation, rolling shutter detection, and camera shake detection for video stabilization
CA3001480C (en) 2015-10-16 2019-06-18 Tribune Broadcasting Company, Llc Video-production system with dve feature
JP6904843B2 (ja) * 2017-08-03 2021-07-21 キヤノン株式会社 撮像装置およびその制御方法
CN110245688B (zh) * 2019-05-21 2024-05-28 中国平安财产保险股份有限公司 一种数据处理的方法及相关装置
CN114640754B (zh) * 2022-03-08 2024-06-14 京东科技信息技术有限公司 视频抖动检测方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11289524A (ja) * 1998-04-01 1999-10-19 Nippon Telegr & Teleph Corp <Ntt> 仮想空間会議方法およびこの方法を記録した記録媒体
JP2004206320A (ja) * 2002-12-25 2004-07-22 Matsushita Electric Ind Co Ltd 画像認識装置および方法
JP2011160423A (ja) * 2010-01-29 2011-08-18 Sharp Corp 非接触スキャンシステムおよび非接触スキャン方法
EP2525573A1 (en) * 2011-05-17 2012-11-21 Alcatel Lucent Method and system for conducting a video conference

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101189870A (zh) * 2005-04-28 2008-05-28 德州仪器公司 运动稳定
US20070076982A1 (en) * 2005-09-30 2007-04-05 Petrescu Doina I System and method for video stabilization
WO2007077614A1 (ja) * 2005-12-28 2007-07-12 Fujitsu Limited Tv電話機能の撮影画像処理切り替え装置
JP2008124850A (ja) * 2006-11-14 2008-05-29 Matsushita Electric Ind Co Ltd 画像動き補正装置、レンズ装置および撮像装置
JP4274233B2 (ja) * 2006-11-30 2009-06-03 ソニー株式会社 撮影装置、画像処理装置、および、これらにおける画像処理方法ならびに当該方法をコンピュータに実行させるプログラム
US8345921B1 (en) * 2009-03-10 2013-01-01 Google Inc. Object detection with false positive filtering
US8466952B2 (en) * 2009-10-27 2013-06-18 Hewlett-Packard Development Company, L.P. Analysis of video composition of participants in a video conference
US20110096137A1 (en) * 2009-10-27 2011-04-28 Mary Baker Audiovisual Feedback To Users Of Video Conferencing Applications
US8731152B2 (en) 2010-06-18 2014-05-20 Microsoft Corporation Reducing use of periodic key frames in video conferencing
JP2012165338A (ja) * 2011-02-09 2012-08-30 Canon Inc 画像処理装置、画像処理方法及びプログラム
CN102693545A (zh) * 2012-04-19 2012-09-26 浙江师范大学 高速ccd图像序列的任意运动模糊图像复原方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11289524A (ja) * 1998-04-01 1999-10-19 Nippon Telegr & Teleph Corp <Ntt> 仮想空間会議方法およびこの方法を記録した記録媒体
JP2004206320A (ja) * 2002-12-25 2004-07-22 Matsushita Electric Ind Co Ltd 画像認識装置および方法
JP2011160423A (ja) * 2010-01-29 2011-08-18 Sharp Corp 非接触スキャンシステムおよび非接触スキャン方法
EP2525573A1 (en) * 2011-05-17 2012-11-21 Alcatel Lucent Method and system for conducting a video conference

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017174296A (ja) * 2016-03-25 2017-09-28 隆夫 西谷 画像処理装置および画像処理方法
US12034785B2 (en) 2021-01-27 2024-07-09 Tmrw Foundation Ip S.Àr.L. System and method enabling interactions in virtual environments with virtual presence

Also Published As

Publication number Publication date
KR101697495B1 (ko) 2017-01-18
US9762856B2 (en) 2017-09-12
EP2739044A1 (en) 2014-06-04
CN104813656B (zh) 2018-03-27
EP2739044B1 (en) 2015-08-12
US20150304606A1 (en) 2015-10-22
CN104813656A (zh) 2015-07-29
WO2014082941A1 (en) 2014-06-05
JP6159816B2 (ja) 2017-07-05
KR20150102985A (ko) 2015-09-09

Similar Documents

Publication Publication Date Title
JP6159816B2 (ja) 手ぶれ検出付きビデオ会議サーバー
US10425582B2 (en) Video stabilization system for 360-degree video data
US9282285B2 (en) Providing user video having a virtual curtain to an online conference
US9886622B2 (en) Adaptive facial expression calibration
US20230088433A1 (en) Arbitrary view generation
JP2017507557A (ja) 高解像度の動画ストリームを自身の端末で視聴するユーザの体感品質を向上するためのプロセス
US20210056747A1 (en) Puppeteering Remote Avatar by Facial Expressions
WO2018102880A1 (en) Systems and methods for replacing faces in videos
US20170127039A1 (en) Ultrasonic proximity detection system
JP2015517239A (ja) ビデオインターフェースを制御するための方法、ビデオインターフェースを動作させるための方法、顔向き検出器、およびビデオ会議サーバ
JP2021526693A (ja) ポーズ補正
CN107733874B (zh) 信息处理方法、装置、计算机设备和存储介质
WO2015050795A1 (en) Image mastering systems and methods
JP2019512781A (ja) 特徴追跡及びモデル登録により三次元多視点を再構成するための方法。
US10282633B2 (en) Cross-asset media analysis and processing
KR20160062665A (ko) 동작 인식 장치 및 방법
US10832425B2 (en) Image registration method and apparatus for terminal, and terminal
US9361540B2 (en) Fast image processing for recognition objectives system
CN111095922B (zh) 电子设备及其操作方法
US20130286289A1 (en) Image processing apparatus, image display apparatus, and image processing method
CN111314627A (zh) 用于处理视频帧的方法和装置
CN111179310A (zh) 视频数据处理方法、装置、电子设备及计算机可读介质
JP2016070891A (ja) 映像データ処理装置及び映像データ処理プログラム
KR20150090540A (ko) 홀로그램 생성 장치 및 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160830

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170612

R150 Certificate of patent or registration of utility model

Ref document number: 6159816

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees