JP5959748B2 - オーケストレーション・モデルを実施するビデオ会議システム - Google Patents

オーケストレーション・モデルを実施するビデオ会議システム Download PDF

Info

Publication number
JP5959748B2
JP5959748B2 JP2015528911A JP2015528911A JP5959748B2 JP 5959748 B2 JP5959748 B2 JP 5959748B2 JP 2015528911 A JP2015528911 A JP 2015528911A JP 2015528911 A JP2015528911 A JP 2015528911A JP 5959748 B2 JP5959748 B2 JP 5959748B2
Authority
JP
Japan
Prior art keywords
display state
video
orchestration
probability
video stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015528911A
Other languages
English (en)
Other versions
JP2015532807A (ja
Inventor
マリリー,エマニュエル
ミオウブ,アラディーヌ
オウタガーツ,アブデルカデル
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2015532807A publication Critical patent/JP2015532807A/ja
Application granted granted Critical
Publication of JP5959748B2 publication Critical patent/JP5959748B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1083In-session procedures
    • H04L65/1093In-session procedures by adding participants; by removing participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • H04L65/4038Arrangements for multi-party communication, e.g. for conferences with floor control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、とりわけ、複数の参加者のビデオ会議システムにおける、複数の人についての、複数のソースからの没入型ビデオ(immersive video)を生成するための方法に関する。
通信システムにおける帯域幅能力の増大と共に、ビデオ通信システムは、ビジネス・アプリケーションと、住宅用アプリケーションとの両方において、ますます人気のあるものになってきている。実際に、地理的に分散されたチームの協力の場合には、これらのシステムは、チーム協力者の移動を回避させ、また柔軟性を増大させている。
ビデオ通信システムは、オーディオ電気通信と、ビデオ電気通信とを使用して、異なるサイトにいる人々を一緒にする。これは、複数の個人のオフィスの中の人々の間の会話のように簡単にすることができ、または複数のロケーションにある大きな部屋の中のいくつかのマルチポイントのサイトを伴う可能性がある。それらのシステムは、ポイント・ツー・ポイント通信と、マルチポイント通信とを管理することができる。
知られているシステムにおいては、ユーザは、リモート・コントロールを用いて、眺められるべきソース(ビデオ・ストリームまたはビデオ・カメラ)を選択する。いくつかのシステムは、この静的動作を改善し、また自動的にアクティブなスピーカのスイッチをオンにする。この動的動作は、各参加者のオーディオ情報に基づいている。インビュー・ソリューション(Inview solution)を用いて、インターコール(InterCall)は、ユーザのニーズに最もよく適合する多数のフォーマットのうちの1つからテンプレートを選択するようにユーザに対して提案する新しい能力を導入した。それらのテンプレートは、静的であり、またビデオ会議中にユーザの没入/注意を増大させることを可能にするオーケストレーションにおけるどのようなダイナミシティも提供してはいない。ユーザのためのビデオ・オーケストレーションのプログラム可能性、またはどのテンプレートが、ユーザのニーズによく適合するかを自動的に選択することを可能にするインテリジェントなメカニズムは、存在していない。シスコ・ソリューション(Cisco solutions)(ウェブエックス(Webex)およびテレプレゼンス(Telepresence)TX9000)においては、アクティブなユーザが、主要ウィンドウの中に表示される。固定された数のテンプレートが、ビデオ・オーケストレーションのために使用可能である。それらのうちの1つが、ユーザによって選択される。ビデオ・スイッチング動作は、オーディオ・イベント検出によって管理される。研究が示唆しているように、有用な情報のうちの約70パーセントが、オーディオ・イベントから失われている。
没入型通信を改善するために、新しい技法は、ルール・エンジンと、ルール・テンプレートとに基づいたオーケストレータ(orchestrator)を含んでいる。第1のステップにおいて、ルール・テンプレート・セットは、専門家によって作り出され、また単一のユーザによっては修正され、または強化される可能性がない。例えば、MANOLIS FALELAKIS ET AL.、「Reasoning for video−mediated group communication」、MULTIMEDIA AND EXPO (ICME)、2011 IEEE INTERNATIONAL CONFERENCE ON、IEEE1、2011年7月11日、1〜4頁、XP031964795、DOI: 10.1109/ICME.2011.6012119、ISBN:978−1−61284−348−3という文書は、そのような技法について説明している。
MANOLIS FALELAKIS ET AL.、「Reasoning for video−mediated group communication」、MULTIMEDIA AND EXPO (ICME)、2011 IEEE INTERNATIONAL CONFERENCE ON、IEEE1、2011年7月11日、1〜4頁、XP031964795、DOI: 10.1109/ICME.2011.6012119、ISBN:978−1−61284−348−3
一実施形態においては、本発明は、ビデオ会議において出力ビデオ・ストリームを生成するための方法であって、
− ビデオ会議の複数の入力ビデオ・ストリームを受信するステップと、
− ビデオ会議の参加者によって行われるアクションに対応する複数の観測可能なアクションに属する一連の観測イベントを受信するステップと、
− 各モデルが、
○ 各表示状態が、各スクリーン・テンプレートが入力ビデオ・ストリームの選択されたサブセットを含む、所定のスクリーン・テンプレートに関連する表示状態の組と、
○ 表示状態の間の遷移確率と、
○ 表示状態の関数として観測可能なアクションの条件付き確率を表す観測確率と
を含む複数のオーケストレーション・モデルを提供するステップと、
− オーケストレーション・モデルのおのおのについて、受信された一連の観測イベントの確率を決定するステップと、
− 最高の確率に対応するオーケストレーション・モデルを選択するステップと、
− 選択されたオーケストレーション・モデルを使用するステップであって、
○ オーケストレーション・モデルの各表示状態について、候補表示状態として表示状態を選択するステップと、
○ 過去の表示状態と、現在の表示状態とを含む表示状態のシーケンスを考慮に入れる受信された一連の観測イベントについての候補表示状態の条件付き確率を決定するステップと、
○ アップデートされた表示状態として最高の条件付き確率を提供する候補表示状態を決定するステップと、
○ 現在の表示状態に関連するスクリーン・テンプレートを表す画像の第1のシーケンスと、アップデートされた表示状態に関連するスクリーン・テンプレートを表す画像の第2のシーケンスとを順々に含むビデオ・ストリームを生成するステップと
を実行するために、選択されたオーケストレーション・モデルを使用するステップと
を含む方法を提供している。
実施形態によれば、そのような方法は、以下の特徴のうちの1つまたは複数を含むことができる。
本方法の実施形態においては、観測可能なアクションは、ジェスチャ、頭の動き、顔の表情、オーディオ・アクション、キーワードの発音、プレゼンテーション・スライドに関連したアクションから成るアクション・カテゴリの群の中で選択される。
本方法の実施形態においては、観測可能なアクションは、
− 指を立てること、手を挙げること、
− 頭を上下に動かすこと、頭を左右に動かすこと、
− スピーキング、またはスリーピングに対応する顔の表情を作ること、
− 物音を立てること、沈黙を守ること、チューターによるスピーキング、参加者によるスピーキング、
− 視聴者、またはサブタイトルの名前を発音すること、
− スライドを切り替えること、ポインタを移動させること、
− 質問を開始すること、質問を終了すること
から成る群の中で選択される。
本方法の実施形態においては、入力ビデオ・ストリームは、個々の参加者のビューと、話者のビューと、会議室のビューと、プレゼンテーション・スライドのビューとから成る群の中で選択される。
本方法の実施形態においては、スクリーン・テンプレートは、対応するサブセットに属する入力ビデオ・ストリームの所定の構成を含んでいる。
本方法の実施形態においては、遷移確率は、遷移マトリクスとして、配列される。
本方法の実施形態においては、観測確率は、出力マトリクスとして、配列される。
一実施形態においては、本発明は、ビデオ会議において出力ビデオ・ストリームを生成するためのビデオ会議制御デバイスであって、
− ビデオ会議の複数の入力ビデオ・ストリームを受信するための手段と、
− ビデオ会議の参加者によって行われるアクションに対応する複数の観測可能なアクションに属する一連の観測イベントを受信するための手段と、
− 各モデルが、
○ 各表示状態が、各スクリーン・テンプレートが入力ビデオ・ストリームの選択されたサブセットを含む、所定のスクリーン・テンプレートに関連する表示状態の組と、
○ 表示状態の間の遷移確率と、
○ 表示状態の関数として観測可能なアクションの条件付き確率を表す観測確率と
を含む複数のオーケストレーション・モデルを記憶するデータ・リポジトリと、
− オーケストレーション・モデルのおのおのについて、受信された一連の観測イベントの確率を決定するための手段と、
− 最高の確率に対応するオーケストレーション・モデルを選択するための手段と、
− 選択されたオーケストレーション・モデルを使用するための手段であって、
○ オーケストレーション・モデルの各表示状態について、候補表示状態として表示状態を選択するステップと、
○ 過去の表示状態と、現在の表示状態とを含む表示状態のシーケンスを考慮に入れる受信された一連の観測イベントについての候補表示状態の条件付き確率を決定するステップと、
○ アップデートされた表示状態として最高の条件付き確率を提供する候補表示状態を決定するステップと、
○ 現在の表示状態に関連するスクリーン・テンプレートを表す画像の第1のシーケンスと、アップデートされた表示状態に関連するスクリーン・テンプレートを表す画像の第2のシーケンスとを順々に含むビデオ・ストリームを生成するステップと
を実行するために、選択されたオーケストレーション・モデルを使用するための手段と
を備えるビデオ会議制御デバイスも提供している。
実施形態によれば、そのようなビデオ会議制御デバイスは、以下の特徴のうちの1つまたは複数を備えることができる。
本ビデオ会議制御デバイスの実施形態においては、観測可能なアクションは、ジェスチャ、頭の動き、顔の表情、オーディオ・アクション、キーワードの発音、プレゼンテーション・スライドに関連したアクションから成るアクション・カテゴリの群の中で選択される。
本ビデオ会議制御デバイスの実施形態においては、観測可能なアクションは、
− 指を立てること、手を挙げること、
− 頭を上下に動かすこと、頭を左右に動かすこと、
− スピーキング、またはスリーピングに対応する顔の表情を作ること、
− 物音を立てること、沈黙を守ること、チューターによるスピーキング、参加者によるスピーキング、
− 視聴者、またはサブタイトルの名前を発音すること、
− スライドを切り替えること、ポインタを移動させること、
− 質問を開始すること、質問を終了すること
から成る群の中で選択される。
本ビデオ会議制御デバイスの実施形態においては、入力ビデオ・ストリームは、個々の参加者のビューと、話者のビューと、会議室のビューと、プレゼンテーション・スライドのビューとから成る群の中で選択される。
本ビデオ会議制御デバイスの実施形態においては、スクリーン・テンプレートは、対応するサブセットに属する入力ビデオ・ストリームの所定の構成を含んでいる。
本ビデオ会議制御デバイスの実施形態においては、遷移確率は、遷移マトリクスとして、配列される。
本ビデオ会議制御デバイスの実施形態においては、観測確率は、出力マトリクスとして、配列される。
実施形態においては、本発明はまた、複数の端末に対して通信ネットワークによって接続されるビデオ会議制御デバイスを備えるビデオ会議システムを提供しており、そこでは各端末は、入力ビデオ・ストリームを生成するための手段を備えており、また通信ネットワークは、端末から制御デバイスへとビデオ・ストリームを送信し、また端末に対して、制御デバイスによって生成される出力ビデオ・ストリームを送信するように適合されている。
一実施形態においては、本発明は、複数の入力ビデオ・ストリームと、一連の入力観測イベントとを含むビデオ会議において、ビデオ・ストリームのオーケストレーション・モデルを生成するための方法も提供しており、前記観測イベントは、複数の観測可能なアクションに属しており、オーケストレーション・モデルは、
○ 各表示状態が、各スクリーン・テンプレートがビデオ会議の入力ビデオ・ストリームの選択されたサブセットを含む所定のスクリーン・テンプレートに関連する表示状態の組と、
○ 表示状態の間の遷移確率と、
○ 表示状態の関数として観測可能なアクションの条件付き確率を表す観測確率と
を含んでおり、本方法は、
− ユーザ入力インターフェースを提供するステップであって、そのユーザ入力インターフェースは、
○ モデルの表示状態に関連するスクリーン・テンプレートに従って配列される前記ビデオ・ストリームを表示するためのスクリーン・テンプレート表示手段と、
○ 現在の観測イベントを表示するための観測イベント表示手段と、
○ ユーザが、表示される所定のスクリーン・テンプレートのうちからスクリーン・テンプレートを選択することを可能にするためのユーザ選択手段と
を備える、提供するステップと、
− 同期させられるようにして、スクリーン・テンプレート表示手段を用いて所定のスクリーン・テンプレートに従って配列される入力ビデオ・ストリームを表示するステップと、
− 入力ビデオ・ストリームと同期させられるようにして、観測イベント表示手段を用いて現在の観測イベントを表示するステップと、
− 入力ビデオ・ストリームと同期させられるようにして、逐次的瞬間にユーザによって選択される現在のスクリーン・テンプレートに従って、入力ビデオ・ストリームの表示中に、前記逐次的瞬間に現在の表示状態のシーケンスを記録するステップと、
− 異なっている、または同一である2つの逐次的表示状態の間でおのおの発生した遷移の発生の数を決定するステップと、
− 遷移の発生の数からすべての表示状態の間の遷移確率を決定するステップと、
− 入力ビデオ・ストリームの表示中に観測可能なアクションのおのおのについて発生した観測イベントの数を決定するステップであって、異なるイベント・カウンタは、おのおのの観測可能なアクションと、各表示状態とについて使用されており、発生カウンタは、観測イベントが、観測イベントが発生するときに、選択される現在の表示状態の関数として発生するたびごとに、選択され、また増分されている、決定するステップと、
− 観測イベントの数の関数として観測確率を決定するステップと、
− オーケストレーション・モデルをデータ・リポジトリに記憶するステップと
を含む。
実施形態によれば、そのような方法は、以下の特徴のうちの1つまたは複数を含む可能性がある。
本方法の実施形態においては、状態iと状態jとの間の遷移確率aijは、式
Figure 0005959748
を計算することによって、決定され、式中で、aijは、表示状態iから表示状態jへの遷移の確率であり、occijは、表示状態iから表示状態jへの遷移の発生の数であり、またoccihは、状態iから状態hへの遷移の発生の数であり、またNは、表示状態の総数である。
本方法の実施形態においては、観測確率bikは、式
Figure 0005959748
を計算することによって、決定され、式中で、bikは、表示状態iを仮定した観測可能なアクションkの確率であり、occObsikは、表示状態iにおいて発生している観測可能なアクションkに属している観測イベントの数であり、occObsihは、表示状態iにおいて発生している観測可能なアクションhに属している観測イベントの数であり、またMは、観測可能なアクションの総数である。
本方法の実施形態においては、本方法は、
− 生成されたオーケストレーション・モデルと、データ・リポジトリに記憶される所定のオーケストレーション・モデルとの間の距離を測定するステップと、
− その距離をしきい値と比較するステップと
をさらに含んでおり、
− そこでは、生成されたオーケストレーション・モデルの記憶は、距離が、前記しきい値よりも高い場合に、行われるだけである。
本方法の実施形態においては、観測可能なアクションは、ジェスチャ、頭の動き、顔の表情、オーディオ・アクション、キーワードの発音、プレゼンテーション・スライドに関連したアクションから成るアクション・カテゴリの群の中で選択される。
本方法の実施形態においては、観測可能なアクションは、
− 指を立てること、手を挙げること、
− 頭を上下に動かすこと、頭を左右に動かすこと、
− スピーキング、またはスリーピングに対応する顔の表情を作ること、
− 物音を立てること、沈黙を守ること、チューターによるスピーキング、参加者によるスピーキング、
− 視聴者、またはサブタイトルの名前を発音すること、
− スライドを切り替えること、ポインタを移動させること、
− 質問を開始すること、質問を終了すること
から成る群の中で選択される。
本方法の実施形態においては、入力ビデオ・ストリームは、個々の参加者のビューと、話者のビューと、会議室のビューと、プレゼンテーション・スライドのビューとから成る群の中で選択される。
本方法の実施形態においては、スクリーン・テンプレートは、対応するサブセットに属する入力ビデオ・ストリームの所定の構成を含んでいる。
本方法の実施形態においては、遷移確率は、遷移マトリクスとして、配列される。
本方法の実施形態においては、観測確率は、出力マトリクスとして、配列される。
一実施形態においては、本発明は、複数の入力ビデオ・ストリームと、一連の入力観測イベントとを含むビデオ会議において、ビデオ・ストリームのオーケストレーション・モデルを生成するためのビデオ会議学習モジュールも提供しており、前記観測イベントは、複数の観測可能なアクションに属しており、オーケストレーション・モデルは、
○ 各表示状態が、各スクリーン・テンプレートがビデオ会議の入力ビデオ・ストリームの選択されたサブセットを含む所定のスクリーン・テンプレートに関連する表示状態の組と、
○ 表示状態の間の遷移確率と、
○ 表示状態の関数として観測可能なアクションの条件付き確率を表す観測確率と
を含んでおり、本ビデオ会議学習モジュールは、
− ユーザ入力インターフェースであって、そのユーザ入力インターフェースは、
○ 同期させられるようにして、表示状態に関連するスクリーン・テンプレートに従って配列される前記ビデオ・ストリームを表示するためのスクリーン・テンプレート表示手段と、
○ 入力ビデオ・ストリームと同期させられるようにして、現在の観測イベントを表示するための観測イベント表示手段と、
○ ユーザが、表示される所定のスクリーン・テンプレートのうちからスクリーン・テンプレートを選択することを可能にするためのユーザ選択手段と
を備える、ユーザ入力インターフェースと、
− 入力ビデオ・ストリームと同期させられるようにして、逐次的瞬間にユーザ選択手段を用いてユーザによって選択される現在のスクリーン・テンプレートに従って、入力ビデオ・ストリームの表示中に、前記逐次的瞬間に現在の表示状態のシーケンスを記録するための手段と、
− 異なっている、または同一である2つの逐次的表示状態の間でおのおの発生した遷移の発生の数を決定するための手段と、
− 遷移の発生の数からすべての表示状態の間の遷移確率を決定するための手段と、
− 入力ビデオ・ストリームの表示中に観測可能なアクションのおのおのについて発生した観測イベントの数を決定するための手段であって、異なるイベント・カウンタは、おのおのの観測可能なアクションと、各表示状態とについて使用されており、発生カウンタは、観測イベントが、観測イベントが発生するときに、選択される現在の表示状態の関数として発生するたびごとに、選択され、また増分されている、決定するための手段と、
− 観測イベントの数の関数として観測確率を決定するための手段と、
− オーケストレーション・モデルを記憶するためのデータ・リポジトリと
を備えている。
実施形態によれば、そのようなビデオ会議学習モジュールは、以下の特徴のうちの1つまたは複数を含む可能性がある。
本ビデオ会議学習モジュールの実施形態においては、状態iと、状態jとの間の遷移確率aijは、式
Figure 0005959748
を計算することによって、決定され、式中で、aijは、表示状態iから表示状態jへの遷移の確率であり、occijは、表示状態iから表示状態jへの遷移の発生の数であり、またoccihは、状態iから状態hへの遷移の発生の数であり、またNは、表示状態の総数である。
本ビデオ会議学習モジュールの実施形態においては、観測確率bikは、式
Figure 0005959748
を計算することによって、決定され、式中で、bikは、表示状態iを仮定した観測可能なアクションkの確率であり、occObsikは、表示状態iにおいて発生している観測可能なアクションkに属している観測イベントの数であり、occObsihは、表示状態iにおいて発生している観測可能なアクションhに属している観測イベントの数であり、またMは、観測可能なアクションの総数である。
本ビデオ会議学習モジュールの実施形態においては、本モジュールは、
− 生成されたオーケストレーション・モデルと、データ・リポジトリに記憶される所定のオーケストレーション・モデルとの間の距離を測定するための手段と、
− その距離をしきい値と比較するための手段と
をさらに備えており、
− そこでは、データ・リポジトリ(37)は、距離が、前記しきい値よりも高い場合だけに、生成されたオーケストレーション・モデルを記憶する。
本ビデオ会議学習モジュールの実施形態においては、ユーザ入力インターフェースは、妥当性確認ボタンの作動に応じて、遷移確率と、観測確率との決定をトリガする妥当性確認ボタンをさらに備えている。
本ビデオ会議学習モジュールの実施形態においては、観測可能なアクションは、ジェスチャ、頭の動き、顔の表情、オーディオ・アクション、キーワードの発音、プレゼンテーション・スライドに関連したアクションから成るアクション・カテゴリの群の中で選択される。
本発明のこれらの態様および他の態様は、例として、図面を参照して、以下で説明される実施形態から明らかになり、また実施形態に関連して明らかにされるであろう。
ビデオ会議システムの概略的な機能表現を示す図である。 図1のシステムにおいて使用され得るユーザ端末の概略的表現を示す図である。 図1のシステムにおいて使用され得るHMMオーケストレータの概略的な機能表現を示す図である。 HMMモデルの一実施形態における状態と、状態遷移との概略的表現を示す図である。 観測可能なアクションを示してもいる、図4のHMMモデルのさらなる図である。 HMMオーケストレータの別の実施形態の概略図である。 ユーザ学習インターフェースの機能表現を示す図である。 HMMオーケストレータの別の実施形態の概略図である。 HMMオーケストレータの別の実施形態の概略図である。
以下で説明されるビデオ会議システムは、強化された没入型通信経験を提供するために、複数のソースに対応することができる。
ビデオ会議システムは、少なくとも2つのロケーションの間のオーディオ通信およびビデオ通信を共用することが可能な電気通信システムである。別々のロケーションの中の人々の間のこのライブの接続は、社会的相互作用を増大させる。図1を参照すると、ビデオ会議システムの一実施形態は、この説明においてオーケストレータと名付けられるビデオ制御装置1と、複数の端末2とを備えている。これらの端末は、通信ネットワーク10によってオーケストレータに接続される。通信ネットワークは、オーディオ・ストリームと、ビデオ・ストリームとを送信するように適合されている。この文脈においては、オーケストレータは、端末2によって送信される異なるライブの入力ビデオ・ストリーム11を管理することができる。出力ビデオを生成するためには、異なる混合方法が、存在している。この開示は、オーケストレータによって実施される動的混合方法を提案している。問題解決手法は、入力として、ビデオ会議に参加している人々についての異なるカメラからやって来るマルチメディア・ストリームと、異なるビデオ・アナライザ32sとメタデータ・アグリゲータとからやって来るビデオ・イベント・メタデータとを受信する。オーケストレータは、オーケストレーション・モデルと、スクリーン・テンプレート44とに従って入力ビデオ・ストリーム11を混合し、またそのオーケストレータが端末2に対して送信する1つまたは複数の出力ビデオ・ストリーム12を生成する。
ビデオ会議システムにおいては、端末2は、同じ建物の中の、または世界中の異なる場所に、位置している。没入型ビデオ会議を作り出すことができるようにするために、各端末2は、いくつかの取込手段を含んでいる。図2を参照すると、端末2は、カメラ21と、マイクロフォン22とのようなオーディオ取込手段と、ビデオ取込手段とを備えている。これらの手段を使用して、各入力ビデオ・ストリーム11を生成する。端末2は、オーケストレータ1によって生成される出力ビデオ・ストリーム12を眺めるディスプレイ23も含んでいる。
図3を参照すると、オーケストレータ1は、隠れマルコフ・モデル(HMM:Hidden Markov Models)に基づいて、特定の機能(例えば、学習メカニズム、シナリオ認識)を実行する。
オーケストレータ1は、入力として、
− 例えば、カメラ/ウェブカメラからやって来るビデオ・ストリーム11と、
− 例えば、ビデオ・アナライザ32およびオーディオ・アナライザ32の出力、またはメタデータ・アグリゲータからやって来るビデオ・イベント・メタデータおよびオーディオ・イベント・メタデータと
を獲得する。
入力ビデオ・ストリーム11もまた、アナライザ32に対して送信される。ビデオ・アナライザ32は、ジェスチャ、姿勢、顔などのビデオ・イベントを検出する。オーディオ・アナライザ32は、誰が話しているか、キーワード、沈黙、ノイズ・レベルなどのオーディオ・イベントを検出する。
オーケストレータによって生成される出力ビデオ・ストリーム12は、ビデオ・ミキサー34によって混合される。ビデオ・ミキサー34は、さらに以下で説明されることになるように、HMMエンジン35の結果を使用して、所定のスクリーン・テンプレートに従って受信される入力ビデオ・ストリーム11の形で混合する。スクリーン・テンプレート44は、スクリーン・テンプレート・リポジトリ38に記憶される。HMMエンジン35によって実行されるプロセスは、次に、図4および5を参照して説明されるであろう。
図4を参照すると、スクリーン・テンプレート44は、スクリーンの上の少なくとも1つの入力ビデオ・ストリームの所定の配置である。テンプレート44は、情報の異なるソースの間で、組織化し、また時にはスクリーンを分割するように作られる。図4の例においては、ビデオ会議のコンテキストは、仮想的なクラスルームである。3つのスクリーン・テンプレート44が、すなわち、チューターの単一の図を示しているチューター・スクリーン・テンプレート701と、参加者の図のモザイクを有する仮想クラス・スクリーン・テンプレート702と、例えば、質問をしたいと思う参加者を示している学習者スクリーン・テンプレート703とが、存在している。HMMにおいては、各スクリーン・テンプレート44は、表示状態とリンクされる。図4のこのHMMの例においては、3つの表示状態(チューター・スクリーン状態40と、クラス・スクリーン状態41と、学習者スクリーン状態42と)が、存在している。HMMモデルの遷移マトリクスAは、これらの状態の間の遷移43を規定する。
モデルのさらなる詳細を提供するために、図5は、初期スクリーン状態57と、上記で述べられた状態40、41、42とを表してもいる。この図はまた、複数の観測可能なアクション、すなわち、
− チューターが、話しているアクション53
− 手を挙げているアクション54
を示している。これらは、アナライザ32によって検出され得る観測可能なアクションについての例である。
一実施形態においては、HMMエンジン35は、16個の観測可能なアクションに対応する。これらの観測可能なアクションは、2つのジェスチャ(指を立てること、手を挙げること)と、2つの動き(頭を上下に動かすこと、頭を左右に動かすこと)と、2つの顔の表情(スピーキング(顔+スピーチ/唇が動いている)、またはスリーピング(眼球が見えない/閉じられた目/顔がスクリーンの背後にない)に対応する顔の表情を作ること)と、2つのキーワード・アクション(視聴者またはサブタイトルの名前を発音すること)と、4つのオーディオ・アクション(チューターによるスピーキング、学習者によるスピーキング、物音を立てること、沈黙を守ること)と、2つのスライド・アクション(スライドを切り替えること、ポインタを移動させること)と、2つのサブイベント(質問を開始すること、質問を終了すること)とを行う。
図5は、決定された表示状態において発生する観測イベントの確率55を示すものでもある。各対[観測イベント、表示状態]ごとに1つの確率が存在している。図5はまた、2つの状態の間の各遷移43に関連する確率58と、初期化確率56とを示してもいる。
隠れマルコフ・モデル(HMM)は、初期化マトリクス50と、遷移マトリクス51と、出力マトリクス52とを用いて表される。この離散的HMM方法は、動的混合動作の基礎を提供している。HMM方法を説明するために、以下の表記法が、すなわち、
Q={q,q,...,q}:各状態が、スクリーン・テンプレートを表す表示状態の組
N=表示状態の数
V={v,v,...,v}:観測可能なアクションの組
M=観測可能なアクションの数
T=観測シーケンスの長さ
O={o,o,...,o}:観測イベントの観測されたシーケンス
S={s}時刻tにおいて表示状態sを有する
が、規定される。
モデルは、式:λ=(A,B,π)によって完全に規定され、またオーケストレーション・モデルとも名付けられる。
Aは、遷移マトリクスであり、Bは、出力マトリクスであり、πは、初期化マトリクスである。我々のモデルにおいては、Aは、表示状態、すなわち、多様なカメラ図の間の遷移確率を含んでおり、Bは、現在の表示状態を知っているおのおのの観測可能なアクションの出力確率を含んでおり、πは、表示状態が、第1の場所において示されることになる確率を含んでいる。3つのマトリクスは、数学的には、以下のように記述される。
A={aij|aij=Pr(st+1=q|s=q)} (1)
B={bjk|bjk=Pr(o=v|s=q)} (2)
π={π|π=Pr(s=q)} (3)
上記で説明されるオーケストレーション・モデルは、図3を用いて説明されるオーケストレータ1のHMMエンジン35によって使用される。HMMエンジン35の目標は、オーケストレーション・モデルλと、観測シーケンスOとを使用して、最も適切なスクリーン・テンプレートを予測することである。観測シーケンスOは、アナライザ32によって提供される。HMMエンジン35の機能は、復号機能である。この機能は、観測シーケンスと、HMMモデルとを仮定して表示状態の最も可能性の高いシーケンスを獲得することから成る。最もよい表示状態シーケンスQ最適を見出すために、以下の式が、解かれる。
最適=arg maxPr(Q|λ,0) (4)
式(4)を解くために、HMMエンジン35は、ビタビ・アルゴリズムを使用する。時が経過するにつれて、復号化は、HMMエンジン35により、与えられたクロック・レートで行われる。復号化は、時が経過するにつれて、状態のシーケンスをもたらす。HMMエンジン35は、ビデオ・ミキサー34を通してビデオをオーケストレートする(orchestrates)。
上記の復号化プロセスにおいては、図4および5において示されるような単一のHMMモデルが、活用された。別の実施形態においては、オーケストレータ1は、複数のオーケストレーション・モデルを有している。
より多くの柔軟性を追加するために、その目的のために、オーケストレータ1は、HMMモデル・リポジトリ37を含んでいる。このリポジトリ37は、複数の所定のオーケストレーション・モデルを記憶する。一実施形態においては、ユーザが、現在のビデオ会議セッションにおいて、HMMエンジン35によって使用されるオーケストレーション・モデルλを選択することが、可能である。
没入型知覚を増大させるために、オーケストレータ1のさらなる実施形態は、HMMエンジン35によって使用されるオーケストレーション・モデルの動的選択を提案してもいる。オーケストレータ1は、ビデオ会議のコンテキストまたはシナリオと、ユーザ・プロファイルとに最もよく適合するビデオ・オーケストレーション・モデルを認識することができる。これは、HMMリポジトリ37の中で使用可能である、どのオーケストレーション・モデルλが、現在の使用の場合に最も適合しているかを動的に識別すべき分類器36の目標である。
最初に、第1の受信ビデオ観測イベントと受信オーディオ観測イベントとに基づいて、分類器36は、観測イベントの時間的シーケンスに最もよく適合するHMMオーケストレーション・モデルを選択する。ビデオ会議セッション中に、分類器36は、別のモデルが、観測イベントの時間的シーケンスによりよく適合している場合に、HMMモデルを変更することができる。
正しいモデルを選択するこの機能は、認識機能であり、すなわち、観測シーケンスと、異なるHMMモデルとを仮定すると、分類器36は、これらの観測に最もよくマッチするHMMオーケストレーション・モデルを選択する。n個のモデル(λi,i=1..n)では、分類器36は、最適なモデルλ最適を選択し、ここで、
λ最適=arg maxPr(0|λ) (5)
である。
分類器36は、順方向アルゴリズムまたは逆方向アルゴリズムを用いてこの機能を実施する。
この実施形態においては、オーケストレータ1は、スマート・ビデオ・オーケストレーション能力を提供することができる。本システムは、より柔軟性があり、またより動的である。
さらなる一実施形態においては、新しいオーケストレーション・モデルを生成することにより、オーケストレーション能力を豊富にすることも可能である。ユーザが、新しいオーケストレーション・モデルを作り出すことを可能にするために、図6の上に示されるオーケストレータ1の別の実施形態は、学習機能を備えている。
学習プロセスは、非専門家ユーザが、どのような技術的スキルもなしに、彼らの用途に基づいて、彼ら自身のオーケストレーション・モデルを作り出すことを可能にする。それは、3つのモジュール、すなわち、ユーザ学習者インターフェース700と、ユーザ・アクティビティ・レコーダ602と、HMMジェネレータ603とによって実施される。
ライブで、また観測イベントに応じて、ユーザは、どの主要ビデオ・ストリームが、オーケストレータ1によって表示される必要があるかを選択する。学習モジュール601は、時が経過するにつれてユーザによって選択される表示状態と、観測イベントとを記録し、また新しいHMMモデルを生成し、またはユーザの選択に基づいて関連する確率を有する既存のモデルをアップデートする。
図7を参照すると、グラフィカル・ユーザ学習者インターフェース700の一例は、異なる入力ビデオ・ストリーム11を示す異なるスクリーン・テンプレートを表示する。この例は、3つの表示状態、すなわち、チューター・スクリーン701と、クラスの一般的な図のスクリーン702と、特定の学習者についてのスクリーン703とを提案している。観測イベント・ウィンドウ704は、時が経過するにつれて現在の観測イベントを表示する。
ユーザ学習インターフェース700は、ユーザが、異なるスクリーンの間で選択を行うことを可能にするボタン705のような何らかの入力手段も含んでいる。ボタン706は、新しいレコーディング・シーケンスを開始する働きをする。ボタン707は、レコーディング・シーケンスを終了させ、またレコーディング・シーケンスの妥当性を検証する働きをする。ボタン707の作動は、学習モジュール601が、ユーザによって行われる選択肢を記録し、また次いで対応するオーケストレーション・モデルを生成するようにさせる。
トレーニング・プロセスにおいては、発生する各観測イベントごとに、ユーザは、スクリーン・テンプレートを選択するように、すなわち、実際に、生成されるべきHMMモデルの対応する表示状態を選択するように、招待される。
ユーザが、レコーディング・シーケンスを開始するときに、ビデオ・ストリームは、表示される。観測イベントが、発生するときに、ユーザは、スクリーン・ボタン705を用いてスクリーンを選択するように招待され、また最終的に、ユーザは、ボタン707を用いてユーザの選択肢の妥当性を検証する。ユーザ入力は、HMMリポジトリ37に記憶され得るHMMオーケストレーション・モデルλへと記録され、また変換される。学習モジュール601はまた、既存のモデルをアップデートすることもできる。
モデル生成機能は、没入型通信品質の結果を改善するために非常に興味深いものである。しかしながら、既存のモデルに非常に類似しているモデルを記憶することは、有用ではない可能性がある。一実施形態においては、学習モジュール601は、新しいモデルと、HMMリポジトリ37にすでに記憶されているモデルとの間の距離を測定することができる。学習モジュール601は、カルバック・ライプナー距離(Kullback Leibner distance)を用いて、異なるHMMモデルの間の相違点を測定する。要約すれば、ユーザは、既存のオーケストレーション・モデルを個人向けのものにすることができる。しかし、ユーザは、新しいオーケストレータ・モデルを作り出すこともでき、モジュールは、ユーザによって行われる選択を記録し、またこれらの観測から新しいHMMモデルを作り出す。次いで、カルバック・ライプナー距離を使用して、このテンプレートが、保存され、妥当性が検証されるようにするために、既存のテンプレートから十分に異なっているかどうかを決定する。
上記で説明されるように、それを生成するためにモデル・パラメータλ=(A,B,π)を初期化することが、必要である。学習モジュール601によって実施されるプロセスは、以下のステップを含んでいる。
1.初期化マトリクス・トレーニング
初期化マトリクスπのトレーニングは、初期化確率を用いて行われ、すなわち、ユーザによって選択される第1の状態は、1に設定され、また他方は、0に設定される。
2.遷移マトリクス・トレーニング
トレーニング・プロセスにおいては、各観測ごとに、ユーザは、スクリーン・テンプレートの間で選択するように招待されることになる。結果として、表示状態のシーケンスが、記録されることになる。
遷移マトリクスAのトレーニングのアルゴリズムは、4つのステップから成る。すなわち、
ステップ1:入力されるHMMについての表示状態の数を獲得する。
ステップ2:表示状態の間のすべての可能性のある遷移を含む比較マトリクスを生成する。
ステップ3:状態シーケンスをブラウズし、また発生マトリクスの中のカウンタを増分する。発生マトリクスは、2つの状態iと、jとの間の各遷移についての発生を含むマトリクスである。比較マトリクスと、発生マトリクスと、遷移マトリクスAとは、同じ次元N×Nを有する。
ステップ4:発生マトリクス、遷移マトリクスは、以下のように計算され、各ラインごとに、我々は、このラインの合計によって各値を除算する。
これは、この式、すなわち
Figure 0005959748
によって要約される。Occは、発生マトリクス係数である。
3.出力マトリクス・トレーニング
各状態ごとに、モジュールは、おのおのの観測可能なアクションの観測イベントを別々にカウントする。次いで、この数は、同じ表示状態において発生される観測イベントの総数によって除算される。それは、式
Figure 0005959748
によって要約され、occObsは、次元N×Mを有する、おのおのの観測可能なアクションと、各表示状態とについての発生マトリクスを表している。
図6を参照して、次に、本発明者らは、学習モジュール601と、ユーザ学習インターフェース700と、ユーザ・アクティビティ・レコーダ602と、HMMジェネレータ603とを含む一実施形態について説明する。学習モジュール601は、ユーザ学習インターフェース700を通してユーザ入力を受信し、ユーザ・アクティビティ・レコーダ602を用いてこのユーザの決定を記録し、またHMMジェネレータ603を用いてHMMモデルを計算する。結果は、HMMモデル・リポジトリ37に記憶される。図6の上に示されるオーケストレータ1の他のモジュールは、図3のこれらに類似している。
図8を参照すると、オーケストレータ1の別の実施形態は、学習モジュール601と、いくつかのインスタンス80をサポートする集中化されたビデオ・ミキサー34とを一体化している。図6の実施形態と対照的に、ビデオ・ミキサー34のモジュールは、集中化された方法で、表示するビデオの異なるインスタンス80をサポートする。各ユーザは、ユーザ自身のビデオ・オーケストレーションを作り出し、また個人用のものにすることができ、また個人用のものにされたオーケストレートされたビデオ・ストリームを受信することができる。ビデオ・オーケストレーションは、いくつかのビデオ・ミキサー・インスタンス80において行われる。ユーザは、ただそれらを調べる必要があるだけである(すなわち、ユーザ・デバイスの上のビデオ・オーケストレーションはない)。「ユーザ・リポジトリ」81のモジュールを使用して、異なるユーザ(id、プロファイル、オーケストレーション・モデルなど)を管理する。
図9を参照して、オーケストレータ1の一実施形態は、学習モジュール601を備えているのに対して、ビデオ・ミキサー34と、HMMエンジン35とは、リモート端末2の中に分散される。この実装形態は、ユーザの近くでオーケストレーションを実施して、サーバの上でのあまりにも多い処理を回避することを可能にしている。オーケストレータ1によって選択されるHMMオーケストレーション・モデルは、ユーザ端末2の上にアップロードされる。ローカル・ビデオ・オーケストレータ902は、このオーケストレーション・モデルを使用して、サーバからやって来るビデオ・ストリームを構成する。ローカル・ビデオ・オーケストレータ902は、ローカル・ビデオ・ミキサー934と、HMMエンジン935とを備えている。ローカル・ビデオ・オーケストレータ902はまた、図2の上に示されている。ローカル・ビデオ・オーケストレータによって必要とされるビデオ・ストリームだけが、中央ビデオ・ミキサー34によって送信される。ユーザは、それ自身のモデルをローカルに個人用のものとし、または規定し、また中央サーバの上にそれらを記憶し、または共用することができる。その場合には、ローカル・オーケストレータは、中央HMMマネージャと、エンジンと、ミキサーと、テンプレートと、学習者と相互作用する。
制御ユニットなどの要素は、例えば、ASICのような、例えば、ハードウェア手段、またはハードウェア手段とソフトウェア手段との、例えば、ASICとFPGAとの組合せ、あるいは少なくとも1つのマイクロプロセッサと、その中にソフトウェア・モジュールが位置している少なくとも1つのメモリとすることができる。
本発明は、説明された実施形態だけに限定されるものではない。添付の特許請求の範囲は、当業者には、思い付く可能性があるすべての修正形態と代替的な構成とを実施するように解釈されるべきであり、これらの修正形態と代替的な構成とは、ここで説明される基本的な教示に適正に含まれる。
動詞「備えること/含むこと」または「含むこと」と、その結合との使用は、請求項において述べられる要素またはステップ以外の要素またはステップの存在を除外するものではない。さらに、ある要素またはステップに先行する冠詞「1つの(a)」または「1つの(an)」の使用は、複数のそのような要素またはステップの存在を除外するものではない。
特許請求の範囲においては、括弧の間に配置されるどのような参照符号も、特許請求の範囲についての範囲を限定するように解釈されるべきではない。

Claims (15)

  1. ビデオ会議において出力ビデオ(12)ストリームを生成するための方法であって、
    − 前記ビデオ会議の複数の入力ビデオ・ストリーム(11)を受信するステップと、
    − 前記ビデオ会議の参加者によって行われるアクションに対応する複数の観測可能なアクションに属する一連の観測イベント(33)を受信するステップと、
    − 各モデルが、
    ○ 各表示状態が、各スクリーン・テンプレートが前記入力ビデオ・ストリームの選択されたサブセットを含む、所定のスクリーン・テンプレートに関連する表示状態(51)の組と、
    ○ 前記表示状態の間の遷移確率(43)と、
    ○ 前記表示状態の関数として前記観測可能なアクションの条件付き確率を表す観測確率(55)と
    を含む複数のオーケストレーション・モデルを提供するステップと、
    − 前記オーケストレーション・モデルのおのおのについて、受信される前記一連の観測イベントの確率を決定するステップと、
    − 最高の確率に対応するオーケストレーション・モデルを選択するステップと、
    − 前記選択されたオーケストレーション・モデルを使用するステップであって、
    ○ 前記オーケストレーション・モデルの各表示状態(51)について、候補表示状態として前記表示状態を選択するステップと、
    ○ 過去の表示状態と、現在の表示状態とを含む表示状態のシーケンスを考慮に入れる前記受信された一連の観測イベントについての前記候補表示状態の条件付き確率を決定するステップと、
    ○ アップデートされた表示状態として最高の条件付き確率を提供する前記候補表示状態を決定するステップと、
    ○ 前記現在の表示状態に関連する前記スクリーン・テンプレートを表す画像の第1のシーケンスと、前記アップデートされた表示状態に関連する前記スクリーン・テンプレートを表す画像の第2のシーケンスとを順々に含むビデオ・ストリーム(12)を生成するステップと
    を実行するために、前記選択されたオーケストレーション・モデルを使用するステップと
    を含む方法。
  2. 前記観測可能なアクションは、ジェスチャ、頭の動き、顔の表情、オーディオ・アクション、キーワードの発音、プレゼンテーション・スライドに関連したアクションから成るアクション・カテゴリの群の中で選択される、請求項1に記載の方法。
  3. 前記観測可能なアクションは、
    − 指を立てること、手を挙げること、
    − 頭を上下に動かすこと、頭を左右に動かすこと、
    − スピーキング、またはスリーピングに対応する顔の表情を作ること、
    − 物音を立てること、沈黙を守ること、チューターによるスピーキング、参加者によるスピーキング、
    − 視聴者、またはサブタイトルの名前を発音すること、
    − スライドを切り替えること、ポインタを移動させること、
    − 質問を開始すること、質問を終了すること
    から成る群の中で選択される、請求項1に記載の方法。
  4. 前記入力ビデオ・ストリームは、個々の参加者のビュー(703)と、話者のビュー(701)と、会議室のビュー(702)と、プレゼンテーション・スライドのビューとから成る群の中で選択される、請求項1に記載の方法。
  5. スクリーン・テンプレート(44)は、前記対応するサブセットに属する前記入力ビデオ・ストリームの所定の構成を含んでいる、請求項1に記載の方法。
  6. 前記遷移確率は、遷移マトリクスとして、配列される、請求項1に記載の方法。
  7. 観測確率は、出力マトリクスとして、配列される、請求項1に記載の方法。
  8. ビデオ会議において出力ビデオ・ストリームを生成するためのビデオ会議制御デバイスであって、
    − 前記ビデオ会議の複数の入力ビデオ・ストリーム(11)を受信するための手段と、
    − 前記ビデオ会議の参加者によって行われるアクションに対応する複数の観測可能なアクション(52)に属する一連の観測イベント(33)を受信するための手段と、
    − 各モデルが、
    ○ 各表示状態が、各スクリーン・テンプレートが前記入力ビデオ・ストリームの選択されたサブセットを含む、所定のスクリーン・テンプレートに関連する表示状態(51)の組と、
    ○ 前記表示状態の間の遷移確率(43)と、
    ○ 前記表示状態の関数として前記観測可能なアクションの条件付き確率を表す観測確率(55)と
    を含む複数のオーケストレーション・モデルを記憶するデータ・リポジトリ(37)と、
    − 前記オーケストレーション・モデルのおのおのについて、受信される前記一連の観測イベントの確率を決定するための手段と、
    − 最高の確率に対応するオーケストレーション・モデルを選択するための手段と、
    − 前記選択されたオーケストレーション・モデルを使用するための手段であって、
    ○ 前記オーケストレーション・モデルの各表示状態(51)について、候補表示状態として前記表示状態を選択するステップと、
    ○ 過去の表示状態と、現在の表示状態とを含む表示状態のシーケンスを考慮に入れる前記受信された一連の観測イベントについての前記候補表示状態の条件付き確率を決定するステップと、
    ○ アップデートされた表示状態として最高の条件付き確率を提供する前記候補表示状態を決定するステップと、
    ○ 前記現在の表示状態に関連する前記スクリーン・テンプレートを表す画像の第1のシーケンスと、前記アップデートされた表示状態に関連する前記スクリーン・テンプレートを表す画像の第2のシーケンスとを順々に含むビデオ・ストリーム(12)を生成するステップと
    を実行するために、前記選択されたオーケストレーション・モデルを使用するための手段と
    を備えるビデオ会議制御デバイス。
  9. 前記観測可能なアクションは、ジェスチャ、頭の動き、顔の表情、オーディオ・アクション、キーワードの発音、プレゼンテーション・スライドに関連したアクションから成るアクション・カテゴリの群の中で選択される、請求項8に記載のビデオ会議制御デバイス。
  10. 前記観測可能なアクションは、
    − 指を立てること、手を挙げること、
    − 頭を上下に動かすこと、頭を左右に動かすこと、
    − スピーキング、またはスリーピングに対応する顔の表情を作ること、
    − 物音を立てること、沈黙を守ること、チューターによるスピーキング、参加者によるスピーキング、
    − 視聴者、またはサブタイトルの名前を発音すること、
    − スライドを切り替えること、ポインタを移動させること、
    − 質問を開始すること、質問を終了すること
    から成る群の中で選択される、請求項8に記載のビデオ会議制御デバイス。
  11. 前記入力ビデオ・ストリームは、個々の参加者のビュー(703)と、話者のビュー(701)と、会議室のビュー(702)と、プレゼンテーション・スライドのビューとから成る群の中で選択される、請求項8に記載のビデオ会議制御デバイス。
  12. スクリーン・テンプレート(44)は、前記対応するサブセットに属する前記入力ビデオ・ストリームの所定の構成を含んでいる、請求項8に記載のビデオ会議制御デバイス。
  13. 前記遷移確率は、遷移マトリクスとして、配列される、請求項8に記載のビデオ会議制御デバイス。
  14. 観測確率は、出力マトリクスとして、配列される、請求項8に記載のビデオ会議制御デバイス。
  15. 複数の端末(2)に対して通信ネットワーク(10)によって接続される、請求項8乃至14のいずれか1項に記載のビデオ会議制御デバイス(1)を備えており、各端末(2)は、入力ビデオ・ストリーム(11)を生成するための手段を備えており、また前記通信ネットワークは、前記端末から前記制御デバイスへと前記ビデオ・ストリームを送信し、また端末に対して、前記制御デバイスによって生成される前記出力ビデオ・ストリーム(12)を送信するように適合されている、ビデオ会議システム。
JP2015528911A 2012-08-29 2013-06-05 オーケストレーション・モデルを実施するビデオ会議システム Expired - Fee Related JP5959748B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP12182267.0 2012-08-29
EP12182267.0A EP2704429B1 (en) 2012-08-29 2012-08-29 Video conference systems implementing orchestration models
PCT/EP2013/061544 WO2014032823A1 (en) 2012-08-29 2013-06-05 Video conference systems implementing orchestration models

Publications (2)

Publication Number Publication Date
JP2015532807A JP2015532807A (ja) 2015-11-12
JP5959748B2 true JP5959748B2 (ja) 2016-08-02

Family

ID=46754339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015528911A Expired - Fee Related JP5959748B2 (ja) 2012-08-29 2013-06-05 オーケストレーション・モデルを実施するビデオ会議システム

Country Status (7)

Country Link
US (1) US9369666B2 (ja)
EP (1) EP2704429B1 (ja)
JP (1) JP5959748B2 (ja)
KR (1) KR20150040981A (ja)
CN (1) CN104704813A (ja)
IN (1) IN2015DN01262A (ja)
WO (1) WO2014032823A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IN2013MU04124A (ja) * 2013-12-30 2015-08-07 Tata Consultancy Services Ltd
US9443192B1 (en) 2015-08-30 2016-09-13 Jasmin Cosic Universal artificial intelligence engine for autonomous computing devices and software applications
US9582762B1 (en) 2016-02-05 2017-02-28 Jasmin Cosic Devices, systems, and methods for learning and using artificially intelligent interactive memories
US9864933B1 (en) 2016-08-23 2018-01-09 Jasmin Cosic Artificially intelligent systems, devices, and methods for learning and/or using visual surrounding for autonomous object operation
US10452974B1 (en) 2016-11-02 2019-10-22 Jasmin Cosic Artificially intelligent systems, devices, and methods for learning and/or using a device's circumstances for autonomous device operation
US10607134B1 (en) 2016-12-19 2020-03-31 Jasmin Cosic Artificially intelligent systems, devices, and methods for learning and/or using an avatar's circumstances for autonomous avatar operation
US11568609B1 (en) 2017-07-25 2023-01-31 Meta Platforms Technologies, Llc Image sensor having on-chip compute circuit
CN107959876B (zh) * 2017-11-20 2021-03-16 中央电视台 一种节目编排的方法、装置及电子设备
US10102449B1 (en) 2017-11-21 2018-10-16 Jasmin Cosic Devices, systems, and methods for use in automation
US10474934B1 (en) 2017-11-26 2019-11-12 Jasmin Cosic Machine learning for computing enabled systems and/or devices
US10402731B1 (en) 2017-12-15 2019-09-03 Jasmin Cosic Machine learning for computer generated objects and/or applications
US11637989B2 (en) 2020-12-23 2023-04-25 Motorola Mobility Llc Methods, systems, and devices for presenting an audio difficulties user actuation target in an audio or video conference
US11558212B2 (en) * 2021-03-04 2023-01-17 Microsoft Technology Licensing, Llc Automatically controlling participant indication request for a virtual meeting

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751354B2 (en) * 1999-03-11 2004-06-15 Fuji Xerox Co., Ltd Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
US7433327B2 (en) * 2003-10-09 2008-10-07 Hewlett-Packard Development Company, L.P. Method and system for coordinating communication devices to create an enhanced representation of an ongoing event
JP2006033657A (ja) * 2004-07-21 2006-02-02 Ics:Kk 議長主導形テレビ会議システムおよび方法
US20070157228A1 (en) * 2005-12-30 2007-07-05 Jason Bayer Advertising with video ad creatives
CN101159843A (zh) * 2007-10-29 2008-04-09 中兴通讯股份有限公司 在视频会议中改进视频切换效果的图像切换方法及系统
CN101626482B (zh) * 2008-07-11 2011-11-09 华为技术有限公司 视频会议实现方法、设备及系统
JP2011199847A (ja) * 2010-02-25 2011-10-06 Ricoh Co Ltd 会議システムの端末装置、会議システム
US8248448B2 (en) * 2010-05-18 2012-08-21 Polycom, Inc. Automatic camera framing for videoconferencing
JP5012968B2 (ja) * 2010-07-15 2012-08-29 コニカミノルタビジネステクノロジーズ株式会社 会議システム

Also Published As

Publication number Publication date
EP2704429B1 (en) 2015-04-15
CN104704813A (zh) 2015-06-10
US9369666B2 (en) 2016-06-14
EP2704429A1 (en) 2014-03-05
US20150264306A1 (en) 2015-09-17
IN2015DN01262A (ja) 2015-07-03
KR20150040981A (ko) 2015-04-15
WO2014032823A1 (en) 2014-03-06
JP2015532807A (ja) 2015-11-12

Similar Documents

Publication Publication Date Title
JP5959748B2 (ja) オーケストレーション・モデルを実施するビデオ会議システム
US11785180B2 (en) Management and analysis of related concurrent communication sessions
US9521364B2 (en) Ambulatory presence features
CN110099039B (zh) 一种在线协作会议的录制和回放的方法及系统
JP6734852B2 (ja) イベントを追跡し、仮想会議のフィードバックを提供するシステム及び方法
Kirk et al. Home video communication: mediating'closeness'
CN106063255B (zh) 显示视频会议期间的演讲者的方法和系统
TWI530191B (zh) 管理多媒體會議事件之媒體內容的技術
US10917613B1 (en) Virtual object placement in augmented reality environments
US10163077B2 (en) Proxy for asynchronous meeting participation
WO2018236562A1 (en) SYSTEM AND METHOD FOR EVOLUTIVE INTERACTIVE VIRTUAL CONFERENCE
US20150049162A1 (en) Panoramic Meeting Room Video Conferencing With Automatic Directionless Heuristic Point Of Interest Activity Detection And Management
Ebner Negotiation via videoconferencing
WO2022137547A1 (ja) コミュニケーション支援システム
EP2704430B1 (en) Orchestration models learning for video conference systems
US20040107251A1 (en) System and method for communicating expressive images for meetings
WO2021245759A1 (ja) 音声会議装置、音声会議システム及び音声会議方法
CHRISTEN et al. CHAPTER NINE VIDEOCONFERENCING
US11503090B2 (en) Remote audience feedback mechanism
US11949727B2 (en) Organic conversations in a virtual group setting
JP6823367B2 (ja) 画像表示システム、画像表示方法、および画像表示プログラム
WO2023074898A1 (ja) 端末、情報処理方法、プログラム、および記録媒体
Zito Jr Video Collaboration: Copresence and Performance
CN115428466A (zh) 在相机上模拟针对表演者的观众反应
Kaiser et al. The Case for Virtual Director Technology-Enabling Individual Immersive Media Experiences via Live Content Selection and Editing.

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160621

R150 Certificate of patent or registration of utility model

Ref document number: 5959748

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350