JP5959748B2

JP5959748B2 - オーケストレーション・モデルを実施するビデオ会議システム

Info

Publication number: JP5959748B2
Application number: JP2015528911A
Authority: JP
Inventors: マリリー，エマニュエル; ミオウブ，アラディーヌ; オウタガーツ，アブデルカデル
Original assignee: アルカテル−ルーセント
Priority date: 2012-08-29
Filing date: 2013-06-05
Publication date: 2016-08-02
Anticipated expiration: 2033-06-05
Also published as: EP2704429B1; CN104704813A; US9369666B2; EP2704429A1; US20150264306A1; IN2015DN01262A; KR20150040981A; WO2014032823A1; JP2015532807A

Description

本発明は、とりわけ、複数の参加者のビデオ会議システムにおける、複数の人についての、複数のソースからの没入型ビデオ（ｉｍｍｅｒｓｉｖｅｖｉｄｅｏ）を生成するための方法に関する。

通信システムにおける帯域幅能力の増大と共に、ビデオ通信システムは、ビジネス・アプリケーションと、住宅用アプリケーションとの両方において、ますます人気のあるものになってきている。実際に、地理的に分散されたチームの協力の場合には、これらのシステムは、チーム協力者の移動を回避させ、また柔軟性を増大させている。

ビデオ通信システムは、オーディオ電気通信と、ビデオ電気通信とを使用して、異なるサイトにいる人々を一緒にする。これは、複数の個人のオフィスの中の人々の間の会話のように簡単にすることができ、または複数のロケーションにある大きな部屋の中のいくつかのマルチポイントのサイトを伴う可能性がある。それらのシステムは、ポイント・ツー・ポイント通信と、マルチポイント通信とを管理することができる。

知られているシステムにおいては、ユーザは、リモート・コントロールを用いて、眺められるべきソース（ビデオ・ストリームまたはビデオ・カメラ）を選択する。いくつかのシステムは、この静的動作を改善し、また自動的にアクティブなスピーカのスイッチをオンにする。この動的動作は、各参加者のオーディオ情報に基づいている。インビュー・ソリューション（Ｉｎｖｉｅｗｓｏｌｕｔｉｏｎ）を用いて、インターコール（ＩｎｔｅｒＣａｌｌ）は、ユーザのニーズに最もよく適合する多数のフォーマットのうちの１つからテンプレートを選択するようにユーザに対して提案する新しい能力を導入した。それらのテンプレートは、静的であり、またビデオ会議中にユーザの没入／注意を増大させることを可能にするオーケストレーションにおけるどのようなダイナミシティも提供してはいない。ユーザのためのビデオ・オーケストレーションのプログラム可能性、またはどのテンプレートが、ユーザのニーズによく適合するかを自動的に選択することを可能にするインテリジェントなメカニズムは、存在していない。シスコ・ソリューション（Ｃｉｓｃｏｓｏｌｕｔｉｏｎｓ）（ウェブエックス（Ｗｅｂｅｘ）およびテレプレゼンス（Ｔｅｌｅｐｒｅｓｅｎｃｅ）ＴＸ９０００）においては、アクティブなユーザが、主要ウィンドウの中に表示される。固定された数のテンプレートが、ビデオ・オーケストレーションのために使用可能である。それらのうちの１つが、ユーザによって選択される。ビデオ・スイッチング動作は、オーディオ・イベント検出によって管理される。研究が示唆しているように、有用な情報のうちの約７０パーセントが、オーディオ・イベントから失われている。

没入型通信を改善するために、新しい技法は、ルール・エンジンと、ルール・テンプレートとに基づいたオーケストレータ（ｏｒｃｈｅｓｔｒａｔｏｒ）を含んでいる。第１のステップにおいて、ルール・テンプレート・セットは、専門家によって作り出され、また単一のユーザによっては修正され、または強化される可能性がない。例えば、ＭＡＮＯＬＩＳＦＡＬＥＬＡＫＩＳＥＴＡＬ．、「Ｒｅａｓｏｎｉｎｇｆｏｒｖｉｄｅｏ−ｍｅｄｉａｔｅｄｇｒｏｕｐｃｏｍｍｕｎｉｃａｔｉｏｎ」、ＭＵＬＴＩＭＥＤＩＡＡＮＤＥＸＰＯ（ＩＣＭＥ）、２０１１ＩＥＥＥＩＮＴＥＲＮＡＴＩＯＮＡＬＣＯＮＦＥＲＥＮＣＥＯＮ、ＩＥＥＥ１、２０１１年７月１１日、１〜４頁、ＸＰ０３１９６４７９５、ＤＯＩ：１０．１１０９／ＩＣＭＥ．２０１１．６０１２１１９、ＩＳＢＮ：９７８−１−６１２８４−３４８−３という文書は、そのような技法について説明している。

ＭＡＮＯＬＩＳＦＡＬＥＬＡＫＩＳＥＴＡＬ．、「Ｒｅａｓｏｎｉｎｇｆｏｒｖｉｄｅｏ−ｍｅｄｉａｔｅｄｇｒｏｕｐｃｏｍｍｕｎｉｃａｔｉｏｎ」、ＭＵＬＴＩＭＥＤＩＡＡＮＤＥＸＰＯ（ＩＣＭＥ）、２０１１ＩＥＥＥＩＮＴＥＲＮＡＴＩＯＮＡＬＣＯＮＦＥＲＥＮＣＥＯＮ、ＩＥＥＥ１、２０１１年７月１１日、１〜４頁、ＸＰ０３１９６４７９５、ＤＯＩ：１０．１１０９／ＩＣＭＥ．２０１１．６０１２１１９、ＩＳＢＮ：９７８−１−６１２８４−３４８−３

一実施形態においては、本発明は、ビデオ会議において出力ビデオ・ストリームを生成するための方法であって、
− ビデオ会議の複数の入力ビデオ・ストリームを受信するステップと、
− ビデオ会議の参加者によって行われるアクションに対応する複数の観測可能なアクションに属する一連の観測イベントを受信するステップと、
− 各モデルが、
○ 各表示状態が、各スクリーン・テンプレートが入力ビデオ・ストリームの選択されたサブセットを含む、所定のスクリーン・テンプレートに関連する表示状態の組と、
○ 表示状態の間の遷移確率と、
○ 表示状態の関数として観測可能なアクションの条件付き確率を表す観測確率と
を含む複数のオーケストレーション・モデルを提供するステップと、
− オーケストレーション・モデルのおのおのについて、受信された一連の観測イベントの確率を決定するステップと、
− 最高の確率に対応するオーケストレーション・モデルを選択するステップと、
− 選択されたオーケストレーション・モデルを使用するステップであって、
○ オーケストレーション・モデルの各表示状態について、候補表示状態として表示状態を選択するステップと、
○ 過去の表示状態と、現在の表示状態とを含む表示状態のシーケンスを考慮に入れる受信された一連の観測イベントについての候補表示状態の条件付き確率を決定するステップと、
○ アップデートされた表示状態として最高の条件付き確率を提供する候補表示状態を決定するステップと、
○ 現在の表示状態に関連するスクリーン・テンプレートを表す画像の第１のシーケンスと、アップデートされた表示状態に関連するスクリーン・テンプレートを表す画像の第２のシーケンスとを順々に含むビデオ・ストリームを生成するステップと
を実行するために、選択されたオーケストレーション・モデルを使用するステップと
を含む方法を提供している。

実施形態によれば、そのような方法は、以下の特徴のうちの１つまたは複数を含むことができる。

本方法の実施形態においては、観測可能なアクションは、ジェスチャ、頭の動き、顔の表情、オーディオ・アクション、キーワードの発音、プレゼンテーション・スライドに関連したアクションから成るアクション・カテゴリの群の中で選択される。

本方法の実施形態においては、観測可能なアクションは、
− 指を立てること、手を挙げること、
− 頭を上下に動かすこと、頭を左右に動かすこと、
− スピーキング、またはスリーピングに対応する顔の表情を作ること、
− 物音を立てること、沈黙を守ること、チューターによるスピーキング、参加者によるスピーキング、
− 視聴者、またはサブタイトルの名前を発音すること、
− スライドを切り替えること、ポインタを移動させること、
− 質問を開始すること、質問を終了すること
から成る群の中で選択される。

本方法の実施形態においては、入力ビデオ・ストリームは、個々の参加者のビューと、話者のビューと、会議室のビューと、プレゼンテーション・スライドのビューとから成る群の中で選択される。

本方法の実施形態においては、スクリーン・テンプレートは、対応するサブセットに属する入力ビデオ・ストリームの所定の構成を含んでいる。

本方法の実施形態においては、遷移確率は、遷移マトリクスとして、配列される。

本方法の実施形態においては、観測確率は、出力マトリクスとして、配列される。

一実施形態においては、本発明は、ビデオ会議において出力ビデオ・ストリームを生成するためのビデオ会議制御デバイスであって、
− ビデオ会議の複数の入力ビデオ・ストリームを受信するための手段と、
− ビデオ会議の参加者によって行われるアクションに対応する複数の観測可能なアクションに属する一連の観測イベントを受信するための手段と、
− 各モデルが、
○ 各表示状態が、各スクリーン・テンプレートが入力ビデオ・ストリームの選択されたサブセットを含む、所定のスクリーン・テンプレートに関連する表示状態の組と、
○ 表示状態の間の遷移確率と、
○ 表示状態の関数として観測可能なアクションの条件付き確率を表す観測確率と
を含む複数のオーケストレーション・モデルを記憶するデータ・リポジトリと、
− オーケストレーション・モデルのおのおのについて、受信された一連の観測イベントの確率を決定するための手段と、
− 最高の確率に対応するオーケストレーション・モデルを選択するための手段と、
− 選択されたオーケストレーション・モデルを使用するための手段であって、
○ オーケストレーション・モデルの各表示状態について、候補表示状態として表示状態を選択するステップと、
○ 過去の表示状態と、現在の表示状態とを含む表示状態のシーケンスを考慮に入れる受信された一連の観測イベントについての候補表示状態の条件付き確率を決定するステップと、
○ アップデートされた表示状態として最高の条件付き確率を提供する候補表示状態を決定するステップと、
○ 現在の表示状態に関連するスクリーン・テンプレートを表す画像の第１のシーケンスと、アップデートされた表示状態に関連するスクリーン・テンプレートを表す画像の第２のシーケンスとを順々に含むビデオ・ストリームを生成するステップと
を実行するために、選択されたオーケストレーション・モデルを使用するための手段と
を備えるビデオ会議制御デバイスも提供している。

実施形態によれば、そのようなビデオ会議制御デバイスは、以下の特徴のうちの１つまたは複数を備えることができる。

本ビデオ会議制御デバイスの実施形態においては、観測可能なアクションは、ジェスチャ、頭の動き、顔の表情、オーディオ・アクション、キーワードの発音、プレゼンテーション・スライドに関連したアクションから成るアクション・カテゴリの群の中で選択される。

本ビデオ会議制御デバイスの実施形態においては、観測可能なアクションは、
− 指を立てること、手を挙げること、
− 頭を上下に動かすこと、頭を左右に動かすこと、
− スピーキング、またはスリーピングに対応する顔の表情を作ること、
− 物音を立てること、沈黙を守ること、チューターによるスピーキング、参加者によるスピーキング、
− 視聴者、またはサブタイトルの名前を発音すること、
− スライドを切り替えること、ポインタを移動させること、
− 質問を開始すること、質問を終了すること
から成る群の中で選択される。

本ビデオ会議制御デバイスの実施形態においては、入力ビデオ・ストリームは、個々の参加者のビューと、話者のビューと、会議室のビューと、プレゼンテーション・スライドのビューとから成る群の中で選択される。

本ビデオ会議制御デバイスの実施形態においては、スクリーン・テンプレートは、対応するサブセットに属する入力ビデオ・ストリームの所定の構成を含んでいる。

本ビデオ会議制御デバイスの実施形態においては、遷移確率は、遷移マトリクスとして、配列される。

本ビデオ会議制御デバイスの実施形態においては、観測確率は、出力マトリクスとして、配列される。

実施形態においては、本発明はまた、複数の端末に対して通信ネットワークによって接続されるビデオ会議制御デバイスを備えるビデオ会議システムを提供しており、そこでは各端末は、入力ビデオ・ストリームを生成するための手段を備えており、また通信ネットワークは、端末から制御デバイスへとビデオ・ストリームを送信し、また端末に対して、制御デバイスによって生成される出力ビデオ・ストリームを送信するように適合されている。

一実施形態においては、本発明は、複数の入力ビデオ・ストリームと、一連の入力観測イベントとを含むビデオ会議において、ビデオ・ストリームのオーケストレーション・モデルを生成するための方法も提供しており、前記観測イベントは、複数の観測可能なアクションに属しており、オーケストレーション・モデルは、
○ 各表示状態が、各スクリーン・テンプレートがビデオ会議の入力ビデオ・ストリームの選択されたサブセットを含む所定のスクリーン・テンプレートに関連する表示状態の組と、
○ 表示状態の間の遷移確率と、
○ 表示状態の関数として観測可能なアクションの条件付き確率を表す観測確率と
を含んでおり、本方法は、
− ユーザ入力インターフェースを提供するステップであって、そのユーザ入力インターフェースは、
○ モデルの表示状態に関連するスクリーン・テンプレートに従って配列される前記ビデオ・ストリームを表示するためのスクリーン・テンプレート表示手段と、
○ 現在の観測イベントを表示するための観測イベント表示手段と、
○ ユーザが、表示される所定のスクリーン・テンプレートのうちからスクリーン・テンプレートを選択することを可能にするためのユーザ選択手段と
を備える、提供するステップと、
− 同期させられるようにして、スクリーン・テンプレート表示手段を用いて所定のスクリーン・テンプレートに従って配列される入力ビデオ・ストリームを表示するステップと、
− 入力ビデオ・ストリームと同期させられるようにして、観測イベント表示手段を用いて現在の観測イベントを表示するステップと、
− 入力ビデオ・ストリームと同期させられるようにして、逐次的瞬間にユーザによって選択される現在のスクリーン・テンプレートに従って、入力ビデオ・ストリームの表示中に、前記逐次的瞬間に現在の表示状態のシーケンスを記録するステップと、
− 異なっている、または同一である２つの逐次的表示状態の間でおのおの発生した遷移の発生の数を決定するステップと、
− 遷移の発生の数からすべての表示状態の間の遷移確率を決定するステップと、
− 入力ビデオ・ストリームの表示中に観測可能なアクションのおのおのについて発生した観測イベントの数を決定するステップであって、異なるイベント・カウンタは、おのおのの観測可能なアクションと、各表示状態とについて使用されており、発生カウンタは、観測イベントが、観測イベントが発生するときに、選択される現在の表示状態の関数として発生するたびごとに、選択され、また増分されている、決定するステップと、
− 観測イベントの数の関数として観測確率を決定するステップと、
− オーケストレーション・モデルをデータ・リポジトリに記憶するステップと
を含む。

実施形態によれば、そのような方法は、以下の特徴のうちの１つまたは複数を含む可能性がある。

本方法の実施形態においては、状態ｉと状態ｊとの間の遷移確率ａ_ｉｊは、式

を計算することによって、決定され、式中で、ａ_ｉｊは、表示状態ｉから表示状態ｊへの遷移の確率であり、ｏｃｃ_ｉｊは、表示状態ｉから表示状態ｊへの遷移の発生の数であり、またｏｃｃ_ｉｈは、状態ｉから状態ｈへの遷移の発生の数であり、またＮは、表示状態の総数である。

本方法の実施形態においては、観測確率ｂ_ｉｋは、式

を計算することによって、決定され、式中で、ｂ_ｉｋは、表示状態ｉを仮定した観測可能なアクションｋの確率であり、ｏｃｃＯｂｓ_ｉｋは、表示状態ｉにおいて発生している観測可能なアクションｋに属している観測イベントの数であり、ｏｃｃＯｂｓ_ｉｈは、表示状態ｉにおいて発生している観測可能なアクションｈに属している観測イベントの数であり、またＭは、観測可能なアクションの総数である。

本方法の実施形態においては、本方法は、
− 生成されたオーケストレーション・モデルと、データ・リポジトリに記憶される所定のオーケストレーション・モデルとの間の距離を測定するステップと、
− その距離をしきい値と比較するステップと
をさらに含んでおり、
− そこでは、生成されたオーケストレーション・モデルの記憶は、距離が、前記しきい値よりも高い場合に、行われるだけである。

一実施形態においては、本発明は、複数の入力ビデオ・ストリームと、一連の入力観測イベントとを含むビデオ会議において、ビデオ・ストリームのオーケストレーション・モデルを生成するためのビデオ会議学習モジュールも提供しており、前記観測イベントは、複数の観測可能なアクションに属しており、オーケストレーション・モデルは、
○ 各表示状態が、各スクリーン・テンプレートがビデオ会議の入力ビデオ・ストリームの選択されたサブセットを含む所定のスクリーン・テンプレートに関連する表示状態の組と、
○ 表示状態の間の遷移確率と、
○ 表示状態の関数として観測可能なアクションの条件付き確率を表す観測確率と
を含んでおり、本ビデオ会議学習モジュールは、
− ユーザ入力インターフェースであって、そのユーザ入力インターフェースは、
○ 同期させられるようにして、表示状態に関連するスクリーン・テンプレートに従って配列される前記ビデオ・ストリームを表示するためのスクリーン・テンプレート表示手段と、
○ 入力ビデオ・ストリームと同期させられるようにして、現在の観測イベントを表示するための観測イベント表示手段と、
○ ユーザが、表示される所定のスクリーン・テンプレートのうちからスクリーン・テンプレートを選択することを可能にするためのユーザ選択手段と
を備える、ユーザ入力インターフェースと、
− 入力ビデオ・ストリームと同期させられるようにして、逐次的瞬間にユーザ選択手段を用いてユーザによって選択される現在のスクリーン・テンプレートに従って、入力ビデオ・ストリームの表示中に、前記逐次的瞬間に現在の表示状態のシーケンスを記録するための手段と、
− 異なっている、または同一である２つの逐次的表示状態の間でおのおの発生した遷移の発生の数を決定するための手段と、
− 遷移の発生の数からすべての表示状態の間の遷移確率を決定するための手段と、
− 入力ビデオ・ストリームの表示中に観測可能なアクションのおのおのについて発生した観測イベントの数を決定するための手段であって、異なるイベント・カウンタは、おのおのの観測可能なアクションと、各表示状態とについて使用されており、発生カウンタは、観測イベントが、観測イベントが発生するときに、選択される現在の表示状態の関数として発生するたびごとに、選択され、また増分されている、決定するための手段と、
− 観測イベントの数の関数として観測確率を決定するための手段と、
− オーケストレーション・モデルを記憶するためのデータ・リポジトリと
を備えている。

実施形態によれば、そのようなビデオ会議学習モジュールは、以下の特徴のうちの１つまたは複数を含む可能性がある。

本ビデオ会議学習モジュールの実施形態においては、状態ｉと、状態ｊとの間の遷移確率ａ_ｉｊは、式

本ビデオ会議学習モジュールの実施形態においては、観測確率ｂ_ｉｋは、式

本ビデオ会議学習モジュールの実施形態においては、本モジュールは、
− 生成されたオーケストレーション・モデルと、データ・リポジトリに記憶される所定のオーケストレーション・モデルとの間の距離を測定するための手段と、
− その距離をしきい値と比較するための手段と
をさらに備えており、
− そこでは、データ・リポジトリ（３７）は、距離が、前記しきい値よりも高い場合だけに、生成されたオーケストレーション・モデルを記憶する。

本ビデオ会議学習モジュールの実施形態においては、ユーザ入力インターフェースは、妥当性確認ボタンの作動に応じて、遷移確率と、観測確率との決定をトリガする妥当性確認ボタンをさらに備えている。

本ビデオ会議学習モジュールの実施形態においては、観測可能なアクションは、ジェスチャ、頭の動き、顔の表情、オーディオ・アクション、キーワードの発音、プレゼンテーション・スライドに関連したアクションから成るアクション・カテゴリの群の中で選択される。

本発明のこれらの態様および他の態様は、例として、図面を参照して、以下で説明される実施形態から明らかになり、また実施形態に関連して明らかにされるであろう。

ビデオ会議システムの概略的な機能表現を示す図である。図１のシステムにおいて使用され得るユーザ端末の概略的表現を示す図である。図１のシステムにおいて使用され得るＨＭＭオーケストレータの概略的な機能表現を示す図である。ＨＭＭモデルの一実施形態における状態と、状態遷移との概略的表現を示す図である。観測可能なアクションを示してもいる、図４のＨＭＭモデルのさらなる図である。ＨＭＭオーケストレータの別の実施形態の概略図である。ユーザ学習インターフェースの機能表現を示す図である。ＨＭＭオーケストレータの別の実施形態の概略図である。ＨＭＭオーケストレータの別の実施形態の概略図である。

以下で説明されるビデオ会議システムは、強化された没入型通信経験を提供するために、複数のソースに対応することができる。

ビデオ会議システムは、少なくとも２つのロケーションの間のオーディオ通信およびビデオ通信を共用することが可能な電気通信システムである。別々のロケーションの中の人々の間のこのライブの接続は、社会的相互作用を増大させる。図１を参照すると、ビデオ会議システムの一実施形態は、この説明においてオーケストレータと名付けられるビデオ制御装置１と、複数の端末２とを備えている。これらの端末は、通信ネットワーク１０によってオーケストレータに接続される。通信ネットワークは、オーディオ・ストリームと、ビデオ・ストリームとを送信するように適合されている。この文脈においては、オーケストレータは、端末２によって送信される異なるライブの入力ビデオ・ストリーム１１を管理することができる。出力ビデオを生成するためには、異なる混合方法が、存在している。この開示は、オーケストレータによって実施される動的混合方法を提案している。問題解決手法は、入力として、ビデオ会議に参加している人々についての異なるカメラからやって来るマルチメディア・ストリームと、異なるビデオ・アナライザ３２ｓとメタデータ・アグリゲータとからやって来るビデオ・イベント・メタデータとを受信する。オーケストレータは、オーケストレーション・モデルと、スクリーン・テンプレート４４とに従って入力ビデオ・ストリーム１１を混合し、またそのオーケストレータが端末２に対して送信する１つまたは複数の出力ビデオ・ストリーム１２を生成する。

ビデオ会議システムにおいては、端末２は、同じ建物の中の、または世界中の異なる場所に、位置している。没入型ビデオ会議を作り出すことができるようにするために、各端末２は、いくつかの取込手段を含んでいる。図２を参照すると、端末２は、カメラ２１と、マイクロフォン２２とのようなオーディオ取込手段と、ビデオ取込手段とを備えている。これらの手段を使用して、各入力ビデオ・ストリーム１１を生成する。端末２は、オーケストレータ１によって生成される出力ビデオ・ストリーム１２を眺めるディスプレイ２３も含んでいる。

図３を参照すると、オーケストレータ１は、隠れマルコフ・モデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ）に基づいて、特定の機能（例えば、学習メカニズム、シナリオ認識）を実行する。

オーケストレータ１は、入力として、
− 例えば、カメラ／ウェブカメラからやって来るビデオ・ストリーム１１と、
− 例えば、ビデオ・アナライザ３２およびオーディオ・アナライザ３２の出力、またはメタデータ・アグリゲータからやって来るビデオ・イベント・メタデータおよびオーディオ・イベント・メタデータと
を獲得する。

入力ビデオ・ストリーム１１もまた、アナライザ３２に対して送信される。ビデオ・アナライザ３２は、ジェスチャ、姿勢、顔などのビデオ・イベントを検出する。オーディオ・アナライザ３２は、誰が話しているか、キーワード、沈黙、ノイズ・レベルなどのオーディオ・イベントを検出する。

オーケストレータによって生成される出力ビデオ・ストリーム１２は、ビデオ・ミキサー３４によって混合される。ビデオ・ミキサー３４は、さらに以下で説明されることになるように、ＨＭＭエンジン３５の結果を使用して、所定のスクリーン・テンプレートに従って受信される入力ビデオ・ストリーム１１の形で混合する。スクリーン・テンプレート４４は、スクリーン・テンプレート・リポジトリ３８に記憶される。ＨＭＭエンジン３５によって実行されるプロセスは、次に、図４および５を参照して説明されるであろう。

図４を参照すると、スクリーン・テンプレート４４は、スクリーンの上の少なくとも１つの入力ビデオ・ストリームの所定の配置である。テンプレート４４は、情報の異なるソースの間で、組織化し、また時にはスクリーンを分割するように作られる。図４の例においては、ビデオ会議のコンテキストは、仮想的なクラスルームである。３つのスクリーン・テンプレート４４が、すなわち、チューターの単一の図を示しているチューター・スクリーン・テンプレート７０１と、参加者の図のモザイクを有する仮想クラス・スクリーン・テンプレート７０２と、例えば、質問をしたいと思う参加者を示している学習者スクリーン・テンプレート７０３とが、存在している。ＨＭＭにおいては、各スクリーン・テンプレート４４は、表示状態とリンクされる。図４のこのＨＭＭの例においては、３つの表示状態（チューター・スクリーン状態４０と、クラス・スクリーン状態４１と、学習者スクリーン状態４２と）が、存在している。ＨＭＭモデルの遷移マトリクスＡは、これらの状態の間の遷移４３を規定する。

モデルのさらなる詳細を提供するために、図５は、初期スクリーン状態５７と、上記で述べられた状態４０、４１、４２とを表してもいる。この図はまた、複数の観測可能なアクション、すなわち、
− チューターが、話しているアクション５３
− 手を挙げているアクション５４
を示している。これらは、アナライザ３２によって検出され得る観測可能なアクションについての例である。

一実施形態においては、ＨＭＭエンジン３５は、１６個の観測可能なアクションに対応する。これらの観測可能なアクションは、２つのジェスチャ（指を立てること、手を挙げること）と、２つの動き（頭を上下に動かすこと、頭を左右に動かすこと）と、２つの顔の表情（スピーキング（顔＋スピーチ／唇が動いている）、またはスリーピング（眼球が見えない／閉じられた目／顔がスクリーンの背後にない）に対応する顔の表情を作ること）と、２つのキーワード・アクション（視聴者またはサブタイトルの名前を発音すること）と、４つのオーディオ・アクション（チューターによるスピーキング、学習者によるスピーキング、物音を立てること、沈黙を守ること）と、２つのスライド・アクション（スライドを切り替えること、ポインタを移動させること）と、２つのサブイベント（質問を開始すること、質問を終了すること）とを行う。

図５は、決定された表示状態において発生する観測イベントの確率５５を示すものでもある。各対［観測イベント、表示状態］ごとに１つの確率が存在している。図５はまた、２つの状態の間の各遷移４３に関連する確率５８と、初期化確率５６とを示してもいる。

隠れマルコフ・モデル（ＨＭＭ）は、初期化マトリクス５０と、遷移マトリクス５１と、出力マトリクス５２とを用いて表される。この離散的ＨＭＭ方法は、動的混合動作の基礎を提供している。ＨＭＭ方法を説明するために、以下の表記法が、すなわち、
Ｑ＝｛ｑ_１，ｑ_２，．．．，ｑ_Ｎ｝：各状態が、スクリーン・テンプレートを表す表示状態の組
Ｎ＝表示状態の数
Ｖ＝｛ｖ_１，ｖ_２，．．．，ｖ_Ｍ｝：観測可能なアクションの組
Ｍ＝観測可能なアクションの数
Ｔ＝観測シーケンスの長さ
Ｏ＝｛ｏ_１，ｏ_２，．．．，ｏ_Ｔ｝：観測イベントの観測されたシーケンス
Ｓ＝｛ｓ_ｔ｝時刻ｔにおいて表示状態ｓ_ｔを有する
が、規定される。

モデルは、式：λ＝（Ａ，Ｂ，π）によって完全に規定され、またオーケストレーション・モデルとも名付けられる。

Ａは、遷移マトリクスであり、Ｂは、出力マトリクスであり、πは、初期化マトリクスである。我々のモデルにおいては、Ａは、表示状態、すなわち、多様なカメラ図の間の遷移確率を含んでおり、Ｂは、現在の表示状態を知っているおのおのの観測可能なアクションの出力確率を含んでおり、πは、表示状態が、第１の場所において示されることになる確率を含んでいる。３つのマトリクスは、数学的には、以下のように記述される。
Ａ＝｛ａ_ｉｊ｜ａ_ｉｊ＝Ｐｒ（ｓ_ｔ＋１＝ｑ_ｉ｜ｓ_ｔ＝ｑ_ｊ）｝（１）
Ｂ＝｛ｂ_ｊｋ｜ｂ_ｊｋ＝Ｐｒ（ｏ_ｔ＝ｖ_ｋ｜ｓ_ｔ＝ｑ_ｊ）｝（２）
π＝｛π_ｉ｜π_ｉ＝Ｐｒ（ｓ_１＝ｑ_ｉ）｝（３）

上記で説明されるオーケストレーション・モデルは、図３を用いて説明されるオーケストレータ１のＨＭＭエンジン３５によって使用される。ＨＭＭエンジン３５の目標は、オーケストレーション・モデルλと、観測シーケンスＯとを使用して、最も適切なスクリーン・テンプレートを予測することである。観測シーケンスＯは、アナライザ３２によって提供される。ＨＭＭエンジン３５の機能は、復号機能である。この機能は、観測シーケンスと、ＨＭＭモデルとを仮定して表示状態の最も可能性の高いシーケンスを獲得することから成る。最もよい表示状態シーケンスＱ_最適を見出すために、以下の式が、解かれる。
Ｑ_最適＝ａｒｇｍａｘ_ＱＰｒ（Ｑ｜λ，０）（４）

式（４）を解くために、ＨＭＭエンジン３５は、ビタビ・アルゴリズムを使用する。時が経過するにつれて、復号化は、ＨＭＭエンジン３５により、与えられたクロック・レートで行われる。復号化は、時が経過するにつれて、状態のシーケンスをもたらす。ＨＭＭエンジン３５は、ビデオ・ミキサー３４を通してビデオをオーケストレートする（ｏｒｃｈｅｓｔｒａｔｅｓ）。

上記の復号化プロセスにおいては、図４および５において示されるような単一のＨＭＭモデルが、活用された。別の実施形態においては、オーケストレータ１は、複数のオーケストレーション・モデルを有している。

より多くの柔軟性を追加するために、その目的のために、オーケストレータ１は、ＨＭＭモデル・リポジトリ３７を含んでいる。このリポジトリ３７は、複数の所定のオーケストレーション・モデルを記憶する。一実施形態においては、ユーザが、現在のビデオ会議セッションにおいて、ＨＭＭエンジン３５によって使用されるオーケストレーション・モデルλを選択することが、可能である。

没入型知覚を増大させるために、オーケストレータ１のさらなる実施形態は、ＨＭＭエンジン３５によって使用されるオーケストレーション・モデルの動的選択を提案してもいる。オーケストレータ１は、ビデオ会議のコンテキストまたはシナリオと、ユーザ・プロファイルとに最もよく適合するビデオ・オーケストレーション・モデルを認識することができる。これは、ＨＭＭリポジトリ３７の中で使用可能である、どのオーケストレーション・モデルλが、現在の使用の場合に最も適合しているかを動的に識別すべき分類器３６の目標である。

最初に、第１の受信ビデオ観測イベントと受信オーディオ観測イベントとに基づいて、分類器３６は、観測イベントの時間的シーケンスに最もよく適合するＨＭＭオーケストレーション・モデルを選択する。ビデオ会議セッション中に、分類器３６は、別のモデルが、観測イベントの時間的シーケンスによりよく適合している場合に、ＨＭＭモデルを変更することができる。

正しいモデルを選択するこの機能は、認識機能であり、すなわち、観測シーケンスと、異なるＨＭＭモデルとを仮定すると、分類器３６は、これらの観測に最もよくマッチするＨＭＭオーケストレーション・モデルを選択する。ｎ個のモデル（λ_{ｉ，ｉ＝１．．ｎ}）では、分類器３６は、最適なモデルλ_最適を選択し、ここで、
λ_最適＝ａｒｇｍａｘ_ｉＰｒ（０｜λ_ｉ）（５）
である。

分類器３６は、順方向アルゴリズムまたは逆方向アルゴリズムを用いてこの機能を実施する。

この実施形態においては、オーケストレータ１は、スマート・ビデオ・オーケストレーション能力を提供することができる。本システムは、より柔軟性があり、またより動的である。

さらなる一実施形態においては、新しいオーケストレーション・モデルを生成することにより、オーケストレーション能力を豊富にすることも可能である。ユーザが、新しいオーケストレーション・モデルを作り出すことを可能にするために、図６の上に示されるオーケストレータ１の別の実施形態は、学習機能を備えている。

学習プロセスは、非専門家ユーザが、どのような技術的スキルもなしに、彼らの用途に基づいて、彼ら自身のオーケストレーション・モデルを作り出すことを可能にする。それは、３つのモジュール、すなわち、ユーザ学習者インターフェース７００と、ユーザ・アクティビティ・レコーダ６０２と、ＨＭＭジェネレータ６０３とによって実施される。

ライブで、また観測イベントに応じて、ユーザは、どの主要ビデオ・ストリームが、オーケストレータ１によって表示される必要があるかを選択する。学習モジュール６０１は、時が経過するにつれてユーザによって選択される表示状態と、観測イベントとを記録し、また新しいＨＭＭモデルを生成し、またはユーザの選択に基づいて関連する確率を有する既存のモデルをアップデートする。

図７を参照すると、グラフィカル・ユーザ学習者インターフェース７００の一例は、異なる入力ビデオ・ストリーム１１を示す異なるスクリーン・テンプレートを表示する。この例は、３つの表示状態、すなわち、チューター・スクリーン７０１と、クラスの一般的な図のスクリーン７０２と、特定の学習者についてのスクリーン７０３とを提案している。観測イベント・ウィンドウ７０４は、時が経過するにつれて現在の観測イベントを表示する。

ユーザ学習インターフェース７００は、ユーザが、異なるスクリーンの間で選択を行うことを可能にするボタン７０５のような何らかの入力手段も含んでいる。ボタン７０６は、新しいレコーディング・シーケンスを開始する働きをする。ボタン７０７は、レコーディング・シーケンスを終了させ、またレコーディング・シーケンスの妥当性を検証する働きをする。ボタン７０７の作動は、学習モジュール６０１が、ユーザによって行われる選択肢を記録し、また次いで対応するオーケストレーション・モデルを生成するようにさせる。

トレーニング・プロセスにおいては、発生する各観測イベントごとに、ユーザは、スクリーン・テンプレートを選択するように、すなわち、実際に、生成されるべきＨＭＭモデルの対応する表示状態を選択するように、招待される。

ユーザが、レコーディング・シーケンスを開始するときに、ビデオ・ストリームは、表示される。観測イベントが、発生するときに、ユーザは、スクリーン・ボタン７０５を用いてスクリーンを選択するように招待され、また最終的に、ユーザは、ボタン７０７を用いてユーザの選択肢の妥当性を検証する。ユーザ入力は、ＨＭＭリポジトリ３７に記憶され得るＨＭＭオーケストレーション・モデルλへと記録され、また変換される。学習モジュール６０１はまた、既存のモデルをアップデートすることもできる。

モデル生成機能は、没入型通信品質の結果を改善するために非常に興味深いものである。しかしながら、既存のモデルに非常に類似しているモデルを記憶することは、有用ではない可能性がある。一実施形態においては、学習モジュール６０１は、新しいモデルと、ＨＭＭリポジトリ３７にすでに記憶されているモデルとの間の距離を測定することができる。学習モジュール６０１は、カルバック・ライプナー距離（ＫｕｌｌｂａｃｋＬｅｉｂｎｅｒｄｉｓｔａｎｃｅ）を用いて、異なるＨＭＭモデルの間の相違点を測定する。要約すれば、ユーザは、既存のオーケストレーション・モデルを個人向けのものにすることができる。しかし、ユーザは、新しいオーケストレータ・モデルを作り出すこともでき、モジュールは、ユーザによって行われる選択を記録し、またこれらの観測から新しいＨＭＭモデルを作り出す。次いで、カルバック・ライプナー距離を使用して、このテンプレートが、保存され、妥当性が検証されるようにするために、既存のテンプレートから十分に異なっているかどうかを決定する。

上記で説明されるように、それを生成するためにモデル・パラメータλ＝（Ａ，Ｂ，π）を初期化することが、必要である。学習モジュール６０１によって実施されるプロセスは、以下のステップを含んでいる。

１．初期化マトリクス・トレーニング
初期化マトリクスπのトレーニングは、初期化確率を用いて行われ、すなわち、ユーザによって選択される第１の状態は、１に設定され、また他方は、０に設定される。

２．遷移マトリクス・トレーニング
トレーニング・プロセスにおいては、各観測ごとに、ユーザは、スクリーン・テンプレートの間で選択するように招待されることになる。結果として、表示状態のシーケンスが、記録されることになる。

遷移マトリクスＡのトレーニングのアルゴリズムは、４つのステップから成る。すなわち、
ステップ１：入力されるＨＭＭについての表示状態の数を獲得する。
ステップ２：表示状態の間のすべての可能性のある遷移を含む比較マトリクスを生成する。
ステップ３：状態シーケンスをブラウズし、また発生マトリクスの中のカウンタを増分する。発生マトリクスは、２つの状態ｉと、ｊとの間の各遷移についての発生を含むマトリクスである。比較マトリクスと、発生マトリクスと、遷移マトリクスＡとは、同じ次元Ｎ×Ｎを有する。
ステップ４：発生マトリクス、遷移マトリクスは、以下のように計算され、各ラインごとに、我々は、このラインの合計によって各値を除算する。

これは、この式、すなわち

によって要約される。Ｏｃｃは、発生マトリクス係数である。

３．出力マトリクス・トレーニング
各状態ごとに、モジュールは、おのおのの観測可能なアクションの観測イベントを別々にカウントする。次いで、この数は、同じ表示状態において発生される観測イベントの総数によって除算される。それは、式

によって要約され、ｏｃｃＯｂｓは、次元Ｎ×Ｍを有する、おのおのの観測可能なアクションと、各表示状態とについての発生マトリクスを表している。

図６を参照して、次に、本発明者らは、学習モジュール６０１と、ユーザ学習インターフェース７００と、ユーザ・アクティビティ・レコーダ６０２と、ＨＭＭジェネレータ６０３とを含む一実施形態について説明する。学習モジュール６０１は、ユーザ学習インターフェース７００を通してユーザ入力を受信し、ユーザ・アクティビティ・レコーダ６０２を用いてこのユーザの決定を記録し、またＨＭＭジェネレータ６０３を用いてＨＭＭモデルを計算する。結果は、ＨＭＭモデル・リポジトリ３７に記憶される。図６の上に示されるオーケストレータ１の他のモジュールは、図３のこれらに類似している。

図８を参照すると、オーケストレータ１の別の実施形態は、学習モジュール６０１と、いくつかのインスタンス８０をサポートする集中化されたビデオ・ミキサー３４とを一体化している。図６の実施形態と対照的に、ビデオ・ミキサー３４のモジュールは、集中化された方法で、表示するビデオの異なるインスタンス８０をサポートする。各ユーザは、ユーザ自身のビデオ・オーケストレーションを作り出し、また個人用のものにすることができ、また個人用のものにされたオーケストレートされたビデオ・ストリームを受信することができる。ビデオ・オーケストレーションは、いくつかのビデオ・ミキサー・インスタンス８０において行われる。ユーザは、ただそれらを調べる必要があるだけである（すなわち、ユーザ・デバイスの上のビデオ・オーケストレーションはない）。「ユーザ・リポジトリ」８１のモジュールを使用して、異なるユーザ（ｉｄ、プロファイル、オーケストレーション・モデルなど）を管理する。

図９を参照して、オーケストレータ１の一実施形態は、学習モジュール６０１を備えているのに対して、ビデオ・ミキサー３４と、ＨＭＭエンジン３５とは、リモート端末２の中に分散される。この実装形態は、ユーザの近くでオーケストレーションを実施して、サーバの上でのあまりにも多い処理を回避することを可能にしている。オーケストレータ１によって選択されるＨＭＭオーケストレーション・モデルは、ユーザ端末２の上にアップロードされる。ローカル・ビデオ・オーケストレータ９０２は、このオーケストレーション・モデルを使用して、サーバからやって来るビデオ・ストリームを構成する。ローカル・ビデオ・オーケストレータ９０２は、ローカル・ビデオ・ミキサー９３４と、ＨＭＭエンジン９３５とを備えている。ローカル・ビデオ・オーケストレータ９０２はまた、図２の上に示されている。ローカル・ビデオ・オーケストレータによって必要とされるビデオ・ストリームだけが、中央ビデオ・ミキサー３４によって送信される。ユーザは、それ自身のモデルをローカルに個人用のものとし、または規定し、また中央サーバの上にそれらを記憶し、または共用することができる。その場合には、ローカル・オーケストレータは、中央ＨＭＭマネージャと、エンジンと、ミキサーと、テンプレートと、学習者と相互作用する。

制御ユニットなどの要素は、例えば、ＡＳＩＣのような、例えば、ハードウェア手段、またはハードウェア手段とソフトウェア手段との、例えば、ＡＳＩＣとＦＰＧＡとの組合せ、あるいは少なくとも１つのマイクロプロセッサと、その中にソフトウェア・モジュールが位置している少なくとも１つのメモリとすることができる。

本発明は、説明された実施形態だけに限定されるものではない。添付の特許請求の範囲は、当業者には、思い付く可能性があるすべての修正形態と代替的な構成とを実施するように解釈されるべきであり、これらの修正形態と代替的な構成とは、ここで説明される基本的な教示に適正に含まれる。

動詞「備えること／含むこと」または「含むこと」と、その結合との使用は、請求項において述べられる要素またはステップ以外の要素またはステップの存在を除外するものではない。さらに、ある要素またはステップに先行する冠詞「１つの（ａ）」または「１つの（ａｎ）」の使用は、複数のそのような要素またはステップの存在を除外するものではない。

特許請求の範囲においては、括弧の間に配置されるどのような参照符号も、特許請求の範囲についての範囲を限定するように解釈されるべきではない。

Claims

ビデオ会議において出力ビデオ（１２）ストリームを生成するための方法であって、
− 前記ビデオ会議の複数の入力ビデオ・ストリーム（１１）を受信するステップと、
− 前記ビデオ会議の参加者によって行われるアクションに対応する複数の観測可能なアクションに属する一連の観測イベント（３３）を受信するステップと、
− 各モデルが、
○ 各表示状態が、各スクリーン・テンプレートが前記入力ビデオ・ストリームの選択されたサブセットを含む、所定のスクリーン・テンプレートに関連する表示状態（５１）の組と、
○ 前記表示状態の間の遷移確率（４３）と、
○ 前記表示状態の関数として前記観測可能なアクションの条件付き確率を表す観測確率（５５）と
を含む複数のオーケストレーション・モデルを提供するステップと、
− 前記オーケストレーション・モデルのおのおのについて、受信される前記一連の観測イベントの確率を決定するステップと、
− 最高の確率に対応するオーケストレーション・モデルを選択するステップと、
− 前記選択されたオーケストレーション・モデルを使用するステップであって、
○ 前記オーケストレーション・モデルの各表示状態（５１）について、候補表示状態として前記表示状態を選択するステップと、
○ 過去の表示状態と、現在の表示状態とを含む表示状態のシーケンスを考慮に入れる前記受信された一連の観測イベントについての前記候補表示状態の条件付き確率を決定するステップと、
○ アップデートされた表示状態として最高の条件付き確率を提供する前記候補表示状態を決定するステップと、
○ 前記現在の表示状態に関連する前記スクリーン・テンプレートを表す画像の第１のシーケンスと、前記アップデートされた表示状態に関連する前記スクリーン・テンプレートを表す画像の第２のシーケンスとを順々に含むビデオ・ストリーム（１２）を生成するステップと
を実行するために、前記選択されたオーケストレーション・モデルを使用するステップと
を含む方法。
前記観測可能なアクションは、ジェスチャ、頭の動き、顔の表情、オーディオ・アクション、キーワードの発音、プレゼンテーション・スライドに関連したアクションから成るアクション・カテゴリの群の中で選択される、請求項１に記載の方法。
前記観測可能なアクションは、
− 指を立てること、手を挙げること、
− 頭を上下に動かすこと、頭を左右に動かすこと、
− スピーキング、またはスリーピングに対応する顔の表情を作ること、
− 物音を立てること、沈黙を守ること、チューターによるスピーキング、参加者によるスピーキング、
− 視聴者、またはサブタイトルの名前を発音すること、
− スライドを切り替えること、ポインタを移動させること、
− 質問を開始すること、質問を終了すること
から成る群の中で選択される、請求項１に記載の方法。
前記入力ビデオ・ストリームは、個々の参加者のビュー（７０３）と、話者のビュー（７０１）と、会議室のビュー（７０２）と、プレゼンテーション・スライドのビューとから成る群の中で選択される、請求項１に記載の方法。
スクリーン・テンプレート（４４）は、前記対応するサブセットに属する前記入力ビデオ・ストリームの所定の構成を含んでいる、請求項１に記載の方法。
前記遷移確率は、遷移マトリクスとして、配列される、請求項１に記載の方法。
観測確率は、出力マトリクスとして、配列される、請求項１に記載の方法。
ビデオ会議において出力ビデオ・ストリームを生成するためのビデオ会議制御デバイスであって、
− 前記ビデオ会議の複数の入力ビデオ・ストリーム（１１）を受信するための手段と、
− 前記ビデオ会議の参加者によって行われるアクションに対応する複数の観測可能なアクション（５２）に属する一連の観測イベント（３３）を受信するための手段と、
− 各モデルが、
○ 各表示状態が、各スクリーン・テンプレートが前記入力ビデオ・ストリームの選択されたサブセットを含む、所定のスクリーン・テンプレートに関連する表示状態（５１）の組と、
○ 前記表示状態の間の遷移確率（４３）と、
○ 前記表示状態の関数として前記観測可能なアクションの条件付き確率を表す観測確率（５５）と
を含む複数のオーケストレーション・モデルを記憶するデータ・リポジトリ（３７）と、
− 前記オーケストレーション・モデルのおのおのについて、受信される前記一連の観測イベントの確率を決定するための手段と、
− 最高の確率に対応するオーケストレーション・モデルを選択するための手段と、
− 前記選択されたオーケストレーション・モデルを使用するための手段であって、
○ 前記オーケストレーション・モデルの各表示状態（５１）について、候補表示状態として前記表示状態を選択するステップと、
○ 過去の表示状態と、現在の表示状態とを含む表示状態のシーケンスを考慮に入れる前記受信された一連の観測イベントについての前記候補表示状態の条件付き確率を決定するステップと、
○ アップデートされた表示状態として最高の条件付き確率を提供する前記候補表示状態を決定するステップと、
○ 前記現在の表示状態に関連する前記スクリーン・テンプレートを表す画像の第１のシーケンスと、前記アップデートされた表示状態に関連する前記スクリーン・テンプレートを表す画像の第２のシーケンスとを順々に含むビデオ・ストリーム（１２）を生成するステップと
を実行するために、前記選択されたオーケストレーション・モデルを使用するための手段と
を備えるビデオ会議制御デバイス。
前記観測可能なアクションは、ジェスチャ、頭の動き、顔の表情、オーディオ・アクション、キーワードの発音、プレゼンテーション・スライドに関連したアクションから成るアクション・カテゴリの群の中で選択される、請求項８に記載のビデオ会議制御デバイス。
前記観測可能なアクションは、
− 指を立てること、手を挙げること、
− 頭を上下に動かすこと、頭を左右に動かすこと、
− スピーキング、またはスリーピングに対応する顔の表情を作ること、
− 物音を立てること、沈黙を守ること、チューターによるスピーキング、参加者によるスピーキング、
− 視聴者、またはサブタイトルの名前を発音すること、
− スライドを切り替えること、ポインタを移動させること、
− 質問を開始すること、質問を終了すること
から成る群の中で選択される、請求項８に記載のビデオ会議制御デバイス。
前記入力ビデオ・ストリームは、個々の参加者のビュー（７０３）と、話者のビュー（７０１）と、会議室のビュー（７０２）と、プレゼンテーション・スライドのビューとから成る群の中で選択される、請求項８に記載のビデオ会議制御デバイス。
スクリーン・テンプレート（４４）は、前記対応するサブセットに属する前記入力ビデオ・ストリームの所定の構成を含んでいる、請求項８に記載のビデオ会議制御デバイス。
前記遷移確率は、遷移マトリクスとして、配列される、請求項８に記載のビデオ会議制御デバイス。
観測確率は、出力マトリクスとして、配列される、請求項８に記載のビデオ会議制御デバイス。
複数の端末（２）に対して通信ネットワーク（１０）によって接続される、請求項８乃至１４のいずれか１項に記載のビデオ会議制御デバイス（１）を備えており、各端末（２）は、入力ビデオ・ストリーム（１１）を生成するための手段を備えており、また前記通信ネットワークは、前記端末から前記制御デバイスへと前記ビデオ・ストリームを送信し、また端末に対して、前記制御デバイスによって生成される前記出力ビデオ・ストリーム（１２）を送信するように適合されている、ビデオ会議システム。