JP2017098957A

JP2017098957A - 複数のビデオを提示するユーザインターフェイスを生成する方法

Info

Publication number: JP2017098957A
Application number: JP2016222134A
Authority: JP
Inventors: エリエ，ピエール; Hellier Pierre; ヴァレリー，アリエ; Allie Valerie; ブラガ，アルトゥール; Braga Artur
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2015-11-19
Filing date: 2016-11-15
Publication date: 2017-06-01
Also published as: CN107018439A; KR20170066227A; EP3171599A1; US20170147170A1; EP3171600A1

Abstract

【課題】表示デバイスのために複数の時間的に同期されたビデオを提示するユーザインターフェイスを生成する方法が開示される。【解決手段】ユーザインターフェイスは、ビデオを供給する複数のビデオグラフィカルユニットを有する。方法は、複数のビデオの各ビデオからビデオ品質を表す値を得ることと、ビデオユニットの夫々での表示のために複数のビデオの中からビデオ品質を表す値が最も高いビデオを選択することとを有する。他の特徴に従って、ビデオは、既に表示されているビデオとのビデオ類似性を表す値に、又はビデオコントリビュータフレームを表す値に応じて、選択される。また、方法は、その変形例のいずれかにおいて、ユーザインターフェイスを生成する方法を実装するグラフィクス処理ユニット及びコンピュータ可読媒体にも関係がある。【選択図】図３

Description

本原理は、同じイベントに関する複数のビデオからのビデオの提示の分野に概して関係がある。より具体的には、本原理は、表示デバイスにおいて複数の同期されたビデオを提示するユーザインターフェイスを生成する方法及びその方法を実装するデバイスに関係がある。

本項目は、以下で記載及び／又は請求される本原理の様々な態様に関係があり得る、当該技術の様々な態様を読者に紹介することを目的とする。この議論は、本原理の様々な態様のより良い理解を助ける背景情報を読者に提供するのに有益であると信じられる。然るに、そのような記述は、先行技術の承認としてではなく、この観点で読まれるべきであることが理解されるべきである。

今日、ますます多くのデジタルデバイスの利用可能性により、ますます多くのビデオフィルムが人々によって捕捉されている。ソーシャルネットワークでのビデオ共有のこの急増に加えて、多数のユーザは、同じイベントの膨大化する可能性を秘めているビデオを提供する。ビデオコンテンツの全てのそれらの断片は、生のビデオ素材が多数であるデータベースを構成する。よって、クラウドメディア作成によって生じたビデオコンテンツのそれらの断片を提示することは、表示デバイスでビデオを見るユーザの能力が限られていることから、難問である。

ビデオを提示するための第１の技術は、表示画面がビデオソースと同じ数のユニットに分けられているモザイクを生成することである。しかし、この技術は、提示及びユーザによる異なるビデオソースへの切り替えを容易にするために、限られた数のビデオに適応される。サムネイル画像表示から着想されたこの技術は、データベースのサイズが大きくなる場合に大規模に実現可能でない。これは、ユーザが膨大なデータベースを徹底的に調べるべきであり、且つ、表示画面が拡張可能でないからである。

ビデオを提示するための第２の技術は、ビデオ合成インターフェイスで通常使用されている技術であって、同時に捕捉されたビデオが表示されるフィルムストリップを生成することである。そのために、絶対時間スタンプが定義される。これはイベントの開始であってよい。そして、ビデオは、この時間スタンプに沿って同期される。第２の技術における表示されるビデオの数は、よって、第１の技術と比較して低減される。同じ時点であるが視点が異なる同じ場面を捕捉するビデオのみが、表示される。しかし、決定された時間スタンプについてのビデオの数は動的に変動し、依然として非常に多数であり得る。

本原理は、多数の寄与が処理される場合及び実際の複数の視点が最良のビューイング経験を確かにするようユーザに提示されるべき場合に同時の同期されたビデオのレンダリングの問題を解消する傾向がある。

本原理は、表示デバイスにおいて同じイベントの複数の時間的に同期されたビデオを提示するユーザインターフェイスを提供する。ユーザインターフェイスは、ビデオがそれらの品質に応じて配置されている増減可能な数のビデオユニットを有する。そのために、表示デバイスにおいて同じイベントの複数の時間的に同期されたビデオをレンダリングするユーザインターフェイスを生成する、処理デバイスによって実行される方法であって、前記ユーザインターフェイスは増減可能な数のビデオユニットを有する方法が開示される。方法は、
前記複数のビデオの夫々からビデオ品質を表す値を得るステップと、
前記ビデオユニットの夫々での表示のために、前記複数のビデオの中から、ビデオ品質を表す値が最も高いビデオを選択するステップと
を有する。

有利なことに、品質ランクに基づく動的な同期されたビデオウォール（video wall）は、最良のビューイング経験を提供する。

単独で又は組み合わせて取られる様々な特徴に従って、
ビデオユニットは、それらのサイズに応じてソートされ、ビデオ品質を表す値が最も高いビデオは、最大サイズのビデオユニットで表示され、
ビデオは、ビデオコントリビュータ（contributor）フレームを表す最も高い値に従って更に選択され、
ビデオは、表示されているビデオ間のビデオ類似性を表す最も低い値に従って更に選択され、
ビデオユニットの夫々でのビデオ品質を表す値が最も高いビデオの選択は、第１のビデオユニットで表示すべき新しいリファレンスビデオのユーザ選択時に、又はリファレンスビデオの終わりに、又はいずれかの表示されているビデオの終わりに、更新される。

有利なことに、複数のビデオユニットは、第１（又はメイン）のビデオユニット及び第２のビデオユニットを有する。複数のビデオの中でビデオ品質を表す値が最も高いビデオであるリファレンスビデオ、又はユーザによって選択されたビデオは、第１のビデオユニットで表示され、例えば、ビデオの時間アライメントのための及びコンテンツ類似度のための基準となる。次いで、第２（又は補助）のビデオは、それらの品質、コントリビュータフレーム、類似度に応じて、第２のビデオユニットで表示される。有利なことに、１つのメインビデオウィンドウ及び補助ビデオ（又は静止画）ウィンドウのおかげで、そのような実施形態は、より容易なコンテンツ閲覧を可能にする。

第２の態様に従って、表示デバイスのためにビデオ提示ユーザインターフェイス（ＵＩ；user interface）を生成するよう構成されるプロセッサを有するデバイスが開示される。

変形例において、デバイスは、
表示デバイスにおいて同じイベントの複数の時間的に同期されたビデオをレンダリングするユーザインターフェイスを生成する手段であり、前記ユーザインターフェイスは増減可能な数のビデオユニットを有する手段と、
前記複数のビデオの夫々からビデオ品質を表す値を得る解析モジュールと、
前記ビデオユニットの夫々での表示のために、前記複数のビデオの中から、ビデオ品質を表す値が最も高いビデオを選択する手段と
を有する。

具体的な実施形態に従って、デバイスは、
モバイルデバイス
通信デバイス、
ゲーム機、
タブレット（又はタブレットコンピュータ）、
ラップトップ、
静止画カメラ、
ビデオカメラ、
ビデオサーバ（例えば、ウェブサーバ）、及び
ビデオ共有プラットフォーム
を有する組に属する。

他の態様に従って、本原理は、上記の方法を実施するコード命令を実行する手段を有するグラフィクス処理ユニットを対象とする。

第３の態様に従って、コンピュータで実行される場合にＵＩ生成方法のステップをその変形例のいずれかにおいて実行するプログラムコード命令を有するコンピュータプログラム製品が開示される。

第４の態様に従って、プロセッサに、表示デバイスにおいて同じイベントの複数の時間的に同期されたビデオをレンダリングするユーザインターフェイスを生成し、前記ユーザインターフェイスは複数のビデオユニットを有し、前記複数のビデオの各ビデオについてビデオ品質を表す値を得、前記ビデオユニットの夫々での表示のために、前記複数のビデオの中から、ビデオ品質を表す値が最も高いビデオを選択することを少なくとも実行させる命令を記憶しているプロセッサ可読媒体が開示される。

第５の態様に従って、少なくとも、表示デバイスにおいて同じイベントの複数の時間的に同期されたビデオをレンダリングするユーザインターフェイスを生成し、前記ユーザインターフェイスは複数のビデオユニットを有し、前記複数のビデオの各ビデオについてビデオ品質を表す値を得、前記ビデオユニットの夫々での表示のために、前記複数のビデオの中から、ビデオ品質を表す値が最も高いビデオを選択する方法を実施するようコンピュータによって実行可能な命令のプログラムを有形に具現する、コンピュータによって読み取り可能な非一時的なプログラム記憶デバイスが開示される。

明示的には記載されていないが、本実施形態は、如何なる組み合わせ又は部分組み合わせにおいても使用されてよい。例えば、本実施形態は、ビデオユニットの記載されている配置に制限されない。

その上、ＵＩ生成方法について記載されている如何なる特徴又は実施形態も、開示されている方法を処理するよう意図されたデバイスに、及びプログラム命令を記憶しているコンピュータ可読記憶媒体に適合する。

本原理の好適な特徴は、これより、制限されない例として、添付の図面を参照して記載される。
本原理の具体的な且つ制限されない実施形態に従って、複数の時間的に同期されたビデオを提示するユーザインターフェイスを生成する処理デバイスを表す。具体的な且つ制限されない実施形態に従って、図１の処理デバイスのアーキテクチャの例を表す。本原理の具体的な且つ制限されない実施形態に従って、複数の同期されたビデオを提示するユーザインターフェイスを生成する方法のフローチャートを表す。本原理に従って、データベースＤの同期されたビデオを表す。本原理の具体的な実施形態に従って、複数の同期されたビデオを表示するユーザインターフェイスを表す。

本原理の主たる考えは、ビデオウォールにおいて時間的に同期されたビデオのサブセットを提示することであり、サブセットは、光、動き又は顕著性（saliency）のようなビデオパラメータに関してビデオ品質を表す情報に従って選択される。

図１は、本原理の具体的な且つ制限されない実施形態に従って、空間的及び時間的な接続性に関して複数のビデオを表示する処理デバイス１を表す。処理デバイス１は、例えば遠隔のデータベースに記憶されているビデオの集合から複数のビデオを受けるよう構成される入力部１０を有する。ビデオの集合の中のビデオは、ソースから取得されてよい。本原理の別の実施形態に従って、ソースは、
ローカルメモリ、例えば、ビデオメモリ、ＲＡＭ、フラッシュメモリ、ハードディスク；
記憶インターフェイス、例えば、大容量記憶装置、ＲＯＭ、光ディスク又は磁気担体とのインターフェイス；
通信インターフェイス、例えば、サーバに接続されている有線インターフェイス（例えば、バスインターフェイス、ワイドエリアネットワークインターフェイス、ローカルエリアネットワークインターフェイス）又は無線インターフェイス（例えば、ＩＥＥＥ８０２．１１インターフェイス若しくはＢｌｕｅｔｏｏｔｈ（登録商標）インターフェイス）；及び
ピクチャ捕捉回路（例えば、ＣＣＤ（すなわち、電荷結合デバイス（Charge-Coupled Device））又はＣＭＯＳ（すなわち、相補型金属酸化膜半導体（Complementary Metal-Oxide-Semiconductor）））
を有する組に属する。

入力部１０は、ビデオユニットでの表示のためにビデオを復号するよう構成される少なくとも１つのビデオ復号器１２へ接続されている。入力部１０は、各ビデオについての時間情報とともに、品質情報、類似性情報又はコントリビュータフレームを計算するために使用されるパラメータを取得するよう構成される解析モジュール１４へ更に接続されている。解析モジュール１４は、後述されるように、品質情報、類似性情報、コントリビュータフレーム又はそれらの組み合わせのいずれかを表す値をビデオパラメータから計算するよう更に構成される。変形例に従って、解析モジュール１４は処理デバイス１の外部にあり、ビデオパラメータ又は代表値は、入力部１０を通じて処理デバイスへ入力される。モジュール１４の出力は、複数のビデオユニットを有するユーザインターフェイスを生成するよう、且つ、夫々の時間的に同期されたビデオの品質情報に従って表示のためのビデオを選択するよう構成されるモジュール１６へ接続されている。また、モジュール１６は、選択されたビデオを復号するために少なくとも１つのビデオ復号器１２へも接続されている。ビデオ復号器１２及びモジュール１６は、グラフィカル情報を表示デバイスへ送るために、出力部２０へ接続されている。制限されない変形例では、表示デバイスはデバイス１の部分であるか、あるいは、デバイス１の外部にある。

図２は、本原理の具体的な且つ制限されない実施形態に従って、処理デバイス１のアーキテクチャの例を表す。処理デバイス１は、内部メモリ１２０（例えば、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ）とともに、１つ以上のプロセッサ１１０を有する。プロセッサ１１０は、例えば、ＣＰＵ、ＧＰＵ及び／又はＤＳＰ（Digital Signal Processor（デジタル信号プロセッサ）の英語の頭文字）である。処理デバイス１は、出力情報を表示するよう、且つ／あるいは、ユーザがコマンド及び／又はデータを入力することを可能にするよう構成される１つ又は複数の入力／出力インターフェイス１３０（例えば、キーボード、マウス、タッチパッド、ウェブカム、ディスプレイ）と、処理デバイス１の外部であってよい電源１４０とを有する。処理デバイス１はネットワークインターフェイス（図示せず。）を更に有してよい。

本原理の例となる制限されない実施形態に従って、処理デバイス１は、メモリ１２０に記憶されているコンピュータプログラムを更に有する。コンピュータプログラムは、処理デバイス１によって、特にプロセッサ１１０によって、実行される場合に、図３を参照して記載される処理方法を処理デバイス１に実施させる命令を有する。変形例に従って、コンピュータプログラムは、処理デバイス１の外部で、非一時的なデジタルデータ担体において、例えば、ＨＤＤ、ＣＤ−ＲＯＭ、ＤＶＤ、リードオンリー及び／又はＤＶＤドライブ及び／又はＤＶＤリード／ライトドライブ（全て当該技術で知られている。）のような外部記憶媒体において、記憶されている。よって、処理デバイス１は、コンピュータプログラムを読み出すインターフェイスを有する。更に、処理デバイス１は、対応するＵＳＢポート（図示せず。）を通じて１つ以上のユニバーサルシリアルバス（ＵＳＢ；Universal Serial Bus）タイプの記憶デバイス（例えば、“メモリスティック”）にアクセスしてよい。

例となる制限されない実施形態に従って、処理デバイス１は、
モバイルデバイス、
通信デバイス、
ゲーム機、
タブレット（又はタブレットコンピュータ）、
ラップトップ、
静止画カメラ、
ビデオカメラ、
ビデオサーバ（例えば、ウェブサーバ）、及び
ビデオ共有プラットフォーム
を有する組に属するデバイスである。

当業者に明らかなように、好適な実施形態において記載されている本原理は、例えば、復号器に又はビデオパラメータを得ることに関して、グラフィクス処理ボード上のグラフィクス処理ユニット（ＧＰＵ；graphics processing unit）を用いて有利に計算される。

図３は、本原理の具体的な且つ制限されない実施形態に従って、表示デバイスのために複数の時間的に同期されたビデオを表示するユーザインターフェイスを生成する方法のフローチャートを表す。

記載されている方法は、有利なことに、同じイベントの様々なビデオの取り込みを可能にするシステム又はサービスにうまく適応する。上述されたように、ビデオは、複数の視点を有する多数のビデオの場合でさえ最良のビューイング経験を確かにするために、ユーザにディスプレイ上で同時にレンダリングされる。

本原理に従って、表示のためのビデオは時間的に同期される。図４は、本原理に従って、データベースＤの同期されたビデオを表す。例えば、第１のビデオ捕捉デバイスＧｏＰｒｏ１は、セグメントＧｏＰｒｏ１＿１及びＧｏＰｒｏ１＿２によって夫々表される２つのビデオを捕捉した。第１のセグメントＧｏＰｒｏ１＿１は、時間基準０に対して時間０からおよそ時間１６００までにアライメントされ、第２のセグメントＧｏＰｒｏ１＿２は、時間基準０に対して時間１６００から時間１７００までにアライメントされる。その上、同じイベントの、第２のデバイスＧｏＰｒｏ２によって捕捉されたビデオを表すセグメントＧｏＰｒｏ２＿１、ＧｏＰｒｏ２＿２、及び第３のデバイスＧｏＰｒｏ３によって捕捉されたビデオを表すセグメントＧｏＰｒｏ３＿１、ＧｏＰｒｏ３＿２も、時間基準０に対して時間的にアライメントされる。絶対捕捉時間（すなわち、時間基準０）に対する時間アライメントのような、ビデオ同期化情報は、図３では表されていない予備的な同期化ステップから得られるか、あるいは、ビデオとともに入力される。絶対捕捉開始時間を表す値及び絶対捕捉終了時間を表す値は、図４で示されるように、複数のビデオの各ビデオにおいて得られる。例えば、そのような絶対捕捉時間は、時間スタンプとも呼ばれ、ビデオ捕捉デバイスが同じ内部クロック（例えば、通信ネットワークによってアライメントされる。）を有する場合において、ビデオ捕捉デバイスＧｏＰｒｏ１、ＧｏＰｒｏ２、ＧｏＰｒｏ３でのビデオの生成時に取得される。例えば、国際公開第２０１４／０８２８１２号で開示されている変形例では、同じビデオイベントの絶対捕捉時間は、捕捉されたビデオに関連するオーディオの顕著なメル周波数ケプストラム（mel-frequency cepstrum）係数を解析するによって取得される。更なる他の変形例では、時間レジストレーションは、リファレンスビデオのフレームに対してビデオの最初のフレームについて計算された空間フィンガープリントの解析に基づく。図４で表されるようなセグメントによるビデオの表現の変形例では、夫々のビデオＧｏＰｒｏ１＿１、ＧｏＰｒｏ１＿２、ＧｏＰｒｏ２＿１、ＧｏＰｒｏ２＿２、ＧｏＰｒｏ３＿１、ＧｏＰｒｏ３＿２は、それらの絶対捕捉時間、又は時間スタンプ及び何らかの他の情報（例えば、ソース）とともに、テーブルにおいて記憶される。テーブルの入力は、例えば：

GoPro1_1 GoPro1 Start_TS＝0 Stop_TS=1600

である。

更なる他の変形例では、ビデオは、等しい時間長さの時間的にアライメントされたチャンクに分けられ、時間スタンプ（例えば、０、２００、４００）は、ビデオを表す各セグメントについて得られる。以下で、ビデオの如何なる細分も、ビデオとして扱われる。例えば、時間長さ２００のチャンクを考えると、ビデオＧｏＰｒｏ１＿１は：

GoPro1_1_1 GoPro1 Start_TS=0 Stop_TS=200

GoPro1_1_2 GoPro1 Start_TS=200 Stop_TS=400

GoPro1_1_3 GoPro1 Start_TS=400 Stop_TS=600

・・・

GoPro1_1_8 GoPro1 Start_TS=1400 Stop_TS=1600

GoPro1_2 GoPro1 Start_TS=1600 Stop_TS=1800

に分けられる。

第１のステップＳ１０で、ビデオ品質を表す値は、複数のビデオの各ビデオから得られる。そのために、データベースＤの各ビデオは、複数のビデオパラメータを抽出するよう処理される。例となる制限されない実施形態に従って、パラメータは、
・光；
・安定化；
・動き又はアクション（動きメトリクスの抽出は、Viola, Jones & Snowによって“Detecting pedestrians using patterns of motion and appearance”（International Journal of Computer Vision 2005，pp.153-161）において又はCedras, C., & Shah, M.によって“Motion-based recognition a survey”（Image and Vision Computing 2005，pp.129-155）において記載されている。）；
・顕著性（saliency）（Cerf, Harel, Einhauser & Kochによって“Predicting human gaze using low-level saliency combined with face detection”（Advances in neural information processing systems 2008，pp.241-248）において又はJudd, Ehinger, Durand & Torralbaによって“Learning to predict where humans look”（IEEE 12th international conference on Computer Vision，2009，pp.2106-2113）において記載されている。）；
・ブラー（blur）（ブラー測定は、例えば、Fang, Shen, Guo, Jacquemin, Zhou & Huangによって“A consistent pixel-wise blur measure for partially blurred images”（IEEE International Conference on Image Processing，2014，pp.496-500）において開示されている。）；
・コントラスト（コントラスト測定は、例えば、Arici, Dikbas & Altunbasakによって“A histogram modification framework and its application for image contrast enhancement”（IEEE Transactions on Image processing 2009 vol18，pp.1921-1935）において開示されている。）；
・顔のようなセマンティックオブジェクトの存在（そのような情報は自動的に又はユーザによって定義される。）；
・空間分解能；
・色ボリューム（色域（color gamut）マッピングは、例えば、Stone, Cowan & Beattyによって“Color gamut mapping and the printing of digital color images”（ACM Transactions on Graphics 1998 vol7，pp.249-292）において記載されている。）；
・彩度（colorfulness）（Hasler, D., & Suesstrunk, S. E.によって“Measuring colorfulness in natural images”（Electronic Imaging 2003，pp.87-95）において記載されている。）
を有する組に属する。

異なるパラメータに従って、パラメータ値は、ビデオのフレームについて（例えば、ブラー）、あるいは、ビデオシーケンスについて全体的に（例えば、捕捉のために設定される空間分解能又は動き）、取得される。よって、制限されない例では、パラメータは、ビデオ、又はビデオの各フレーム、又はビデオの規則的なフレームインターバル、又はビデオを表すフレーム（最初のフレーム又はキーフレームである。）、のいずれかについて決定される。他の例では、顕著性のような所与のパラメータについて、値の組は、ビデオ全体について規則的な時間インターバルで定義される。有利なことに、所与のビデオパラメータについての広域値は、その場合に、例えば、ビデオの時間長さに沿った各値の平均値を用いて求められる。言い換えれば、（１つの）値は、オンザフライでＮ個のフレームの夫々について求められ、（複数の）値は、Ｐ／Ｎ個のフレームについての平均パラメータを計算することによってビデオ全体のＰ個のフレームについて積分される。

制限されない上記の例で開示されているようなパラメータ抽出の詳細な動作は、本原理の適用範囲外である。その上、当業者に明らかなように、そのようなパラメータ値は、オフラインで予め処理され、ビデオ及び時間情報とともにデータベースＤにおいて記憶されてよい。

特に有利な特徴に従って、ビデオ品質を表す値は、いくつかのビデオパラメータの値を積分する加重平均値である。異なるパラメータの値として、ビデオ品質値は、ビデオ全体について（又はビデオの各時間チャンクについて）定義される。変形例に従って、ビデオ品質値を生成するための異なるビデオパラメータの重み付けは、システム値として定義される。他の変形例では、重み付けは、プリファレンス（preference）設定を通じてユーザによって定義される。好適な変形例では、品質が高ければ高いほど、定義されたパラメータ及び重みに対してビデオの品質はますます高くなる。

他の特定の特徴に従って、ビデオコントリビュータフレームを表す値は、複数のビデオの各ビデオについて得られる。ビデオに付随する代替又は補足情報は、コントリビュータの名称及びそのフレームであることができる。彼のフレームが回復されたシステム情報であると言うことは、ユーザフィードバック又はソーシャルネットワークデータをサービングするようにお願いする。その場合に、最良のビデオは、最も有名なコントリビュータによってアップロードされたものと見なされる。他の変形例では、フレームはユーザによってローカルで定義される。ユーザがリファレンスとしてビデオを選択するたびに、コントリビュータローカルフレーム値はインクリメントされる。好適な変形例では、コントリビュータフレーム値が高ければ高いほど、ビデオが表示のために選択される可能性はますます高くなる。

他の特定の特徴に従って、ビデオ類似性を表す値は、複数のビデオの中の２つのビデオから得られる。この場合の目標は、非常に類似した視点を有するビデオから成るウォールを有することを回避することである。これは、以降に記載されるように、ユーザが様々な視点の豊かさを利用したいと望み得るからである。有利なことに、ビデオ類似性の値は、第１のビデオのフレームと第２のビデオの対応するフレームとの間の幾何学的変換を決定することによって得られる。このとき、２つの対応するフレームは、時間基準に対して時間的にアライメントされる。当業者に知られるように、幾何学的変換は、両方のフレームにおいて関心のある点を抽出し、ＳＩＦＴ（Lowe, D. G.によって“Distinctive image features from scale-invariant keypoints”（International journal of computer vision 2004，vol60，pp.91-110）において記載されている。）のような画像記述子を計算し、Ｒａｎｓａｃ回帰（regression）を通じてフレーム間の幾何学的ホモグラフィを推定することによって、古典的に決定される。ホモグラフィは、通常、３×３行列によって表される。ビデオｉのフレームＸ_ｉとビデオｊのフレームＸ_ｊとの間の変換を表す行列ＨはＨ_ｉｊと記される。フレームＸ_ｊの点ｘ_ｊに対応するフレームＸ_ｉの点ｘ_ｉは、次の式

ｘ_ｉ＝Ｈ_ｉｊ×ｘ_ｊ

によって表される。次いで、ホモグラフィが推定される場合において、類似性メトリックの値は、例えば、変換行列のフロベニウスノルム（frobenius norm）の逆数として定義される。なお、本原理は、行列に適用される如何なる他のノルムとも適合する。変換が大きければ大きいほど、類似性の値はますます低くなるということである。ホモグラフィが推定され得ないほどフレームが相異なる場合において、類似性の値はゼロに設定される。特定の変形例に従って、変換行列は、規則的なインターバルで第１及び第２のビデオのフレームについて得られ、類似性の値は、ビデオ全体についての類似性の値を（品質パラメータに関して）積分することによって得られる。

以下で、このメトリックは、幾何学的相似メトリック又は類似性メトリックと呼ばれる。このメトリックは、類似性テーブルにおいて実際に格納される。例えば、類似性テーブルは、行及び列においてビデオＧｏＰｒｏ１＿１、ＧｏＰｒｏ１＿２、ＧｏＰｒｏ２＿１、ＧｏＰｒｏ２＿２、ＧｏＰｒｏ３＿１、ＧｏＰｒｏ３＿２を有し、時間的に同期している対ＧｏＰｒｏ１＿２、ＧｏＰｒｏ１＿１の類似性の値は（ＧｏＰｒｏ１＿２，ＧｏＰｒｏ１＿１）でテーブルにおいて格納される。有利なことに、アライメントされていないビデオの又は同じビデオについての類似性の値は０に設定される。変形例において、アライメントされていないビデオの又は同じビデオについての類似性の値は負の値（例えば、−１）に設定される。

このとき、Ｈ_{ｗｘ−ｙｚ}は、考えられているビデオの間の類似性の値を表す。Ｈ_{２１−１１}＝Ｈ_{１１−２１}、すなわち、類似性は可換であるから、有利なことに、テーブルの半分は上述されたように満たされる。

有利なことに、ビデオは、記載された値（品質、類似性、コントリビュータフレーム）を得るよう予め処理され、値は、データベースＤにおいてビデオとともに記憶される。

第２のステップＳ２０で、ユーザインターフェイスは生成される。ユーザインターフェイスは、表示デバイス上で複数のビデオを提示するために設計される。ユーザインターフェイスは、図５で提示されるように、増減可能な数のビデオユニットを有する。そのようなユーザインターフェイスは、ウォール・オブ・ディスプレイ（wall of display）又はビデオウォールと呼ばれる。

ビデオユニットの数、サイズ、アスペクト比及び位置は、表示デバイス上で最大限のビューイング経験を確かにするようレンダリングデバイスの能力に応じて定義される。好適な特徴に従って、ビデオウォールのレンダリングは、図５で表されるように、１つのメインユニット１及び一連のより小さいビデオユニット２〜１８から成る。ビデオユニットは、それらのサイズ及び位置に応じて、最も魅力的なユニットである数１から始まってＮ（Ｎは、ビデオユニットの数を表す整数である。すなわち、図５で表されるようにＮ＝１８。）まで昇順に番号付けされる。第１の特徴に従って、最も魅力的なビデオグラフィカルユニットは、最大サイズのビデオグラフィカルユニットであり、よって、ビデオユニットは、それらのサイズに応じてソートされ、大きい順に番号付けされる。他の特徴において、グラフィカルユニットは、ユーザの読み込みの自然な順序に応じて番号付けされ、よって、ユーザインターフェイスの左上にある１つのグラフィカルユニットは、４〜９の番号を付されたユニットについて示されるように、ユーザにとって当然に最も魅力的なものとして、より低い番号を与えられる（よって、より高い品質のビデオを表示する。）。

変形例において、ウォールのビデオユニットは、全てがビデオを供給される。他の変形例では、より低い番号（図５における１〜１７）を有するビデオユニットはビデオを供給され、一方、より大きい番号（図５における１８）を有するユニットに対応する最後のビデオユニットは静止画しか表示しない。静止画は、例えば、ビデオを代表するキーフレーム又はビデオの最初のフレームである。有利なことに、そのような変形例は、ユーザインターフェイス提示するのに必要とされるデコーダの数及び処理パワーを削減する。更なる他の変形例では、最後のビデオユニットは、全ての表示されていない同期したビデオから抽出された一連のキーフレームを表示する。このビデオユニットは、システムによって又はプリファレンス設定を通じてユーザによって定義された周波数で連続的にリフレッシュされる。

第３のステップＳ３０で、複数のビデオの中で最も高い品質値を有するビデオは、ビデオユニットの夫々での表示のために選択される。基準時間に対する所与の時間スタンプでの品質値は、降順に順位付けされる。

品質及びコントリビュータフレームメトリクスが組み合わされる変形例では、選択は、所与の時間スタンプでの利用可能なビデオの組の中から、ビデオ品質を表す値が最も高く且つビデオコントリビュータフレームを表す値が最も高いビデオを選択することによって、実施される。加重線形結合（weighted linear combination）は、ビデオ品質を表す値及びビデオコントリビュータフレームを表す値から計算される。例えば、ビデオＧｏＰｒｏ１＿１、ＧｏＰｒｏ１＿２、ＧｏＰｒｏ２＿１、ＧｏＰｒｏ２＿２、ＧｏＰｒｏ３＿１、ＧｏＰｒｏ３＿２の中でVideoCurrent_iについて

Score_i＝QalityMetric(VideoCurrent_i)＋αFrameMetric(VideoCurrent_i)

このとき、αは、システムによって又はプリファレンス設定インターフェイスを通じてユーザによって定義された重みである。この重みは、ウォールの最終的な構成において品質に対するコントリビュータの重要性を明示的に制御する。変形例において、同じコントリビュータのアップロードをより容易に追うことを可能にするために、同じビデオユニット内でコントリビュータの継続を考えることが有利である。よって、例えば、同じデバイス（ここでは、あるコントリビュータに関連する。）によって捕捉されたＧｏＰｒｏ１＿１、ＧｏＰｒｏ１＿２は、同じビデオユニット（例えば、ビデオユニット１）で提示されるべきである。

品質及び類似性メトリクスが組み合わされる他の変形例では、選択は、ビデオが時間的に同期しているので、所与の時間スタンプでの利用可能なビデオの組の中から、同じシーンの異なる視点を選択するように、それほど似ていない最も高い品質のビデオを選択することによって実施される。それら２つの因子の加重線形結合は、以下の反復過程により、決定するために使用され得る：
ａ）最も高い品質のビデオが最初に選択され、VideoCurrent₀と表される。
ｂ）ビデオの数ＮがＮ個のビデオユニットの夫々のために選択されるまで、ｉの繰り返しについて反復的に実施する：
VideoCurrent_iと名付けられた夫々の残りのビデオについて、スコアが計算され、
として定義される。このとき、βは、システムによって又はプリファレンス設定インターフェイスを通じてユーザによって定義された重みである。この重みは、システム／ユーザがウォールの最終の構成において期待する品質基準に対する類似性基準の重要性を明示的に制御する。言い換えれば、視点が既に表示されているビデオと似ている場合に、ビデオの品質メトリックに不利な条件が適用される。

次いで、ビデオVideoCurrent_iは表示のために選択される。ビデオVideoCurrent_iは、表示のために未だ選択されていないビデオの中で最も高いスコアを有する。

当然、このメカニズムは、他のメトリクス組み合わせが例えばコントリビュータフレームにより考えられる場合に当てはまる。固有品質メトリック、フレームメトリック及び場合により類似性メトリックを組み合わせるスコアにおいてコントリビュータフレームを制御する他の重みが定義される。

表示すべきビデオがＳ３０で選択されると、任意のレンダリングステップ（図示せず。）で、テクニカラービデオリフレーミング技術は、ビデオを自動的に適応させ、ビデオウォールのサイズ及びアスペクト比にクロッピングするために、適用される。

その上、ステップＳ３０は、ビデオウォールの動的なレンダリングのために繰り返される。

第１の変形例に従って、レンダリングは、リファレンスビデオが変化するたびに更新される。実際に、メインビデオユニット１で表示されるリファレンスビデオは、それが終了するまで、又はユーザが上述されたようにウォール内で１つのビデオを選択するまで、変化しない。リファレンスビデオが変化する場合に、ステップＳ３０のビデオ選択プロセス全体は繰り返され、表示すべき、リファレンスビデオを含むビデオの新しい分配が定義され、ユーザインターフェイスを通じて提示される。その上、固定存続期間のチャンクによる変形例では、レンダリングは、リファレンスビデオＧｏＰｒｏ１＿１の新しいチャンクＧｏＰｒｏ１＿１＿１に達するたびに更新される。リファレンスビデオのセグメント周波数は補助的なユニットの更新を制御する。これは、同期した補助的なビデオのメトリクスが変化して、表示すべき新しいビデオ分配を生成し得るからである。有利なことに、上述されたように、同じコントリビュータのビデオアップロードのモニタリングを増強するために、同じビデオユニット内でのコントリビュータの継続を考えることができる。最後のビデオユニットが一連の静止キーフレームを表示する場合に、そのユニットは、システムによって定義された周波数（通常は、セグメント長さ）で、又はプリファレンスパラメータを通じてユーザによって定義された周波数で、連続的にリフレッシュされる。

動的なレンダリングの第２の変形例に従って、レンダリングは、補助的なビデオが終了するたびに更新される。１つの補助的なビデオが終了する場合に、分配全体は、リファレンスビデオを除いて更新される。先と同じく、同じビデオユニット内でのコントリビュータの継続は、補助的なビデオが終了したユニットの更新のみが起こるようにする興味深い変形例を構成する。

動的レンダリングの第３の変形例に従って、ユーザインターフェイスは、ユーザが補助的なビデオの中からリファレンスビデオを選択することができるように構成される。レンダリングは、その場合に、ユーザがリファレンスビデオを変更するたびに更新される。

第４のステップＳ４０で、生成されたユーザインターフェイス及び選択されたビデオは、ユーザへのレンダリングのために表示デバイスへ出力又は送出される。

図５は、本原理の具体的な実施形態に従って、ビデオ品質メトリックに基づき複数のビデオを表示するユーザインターフェイスを表す。図５は、１〜１８と番号付けされた１８個のビデオユニットを示す。夫々のビデオユニットは、ビデオを表示するよう適応される。図５で表されているビデオに関して、ビデオデバイスＧｏＰｒｏ１、ＧｏＰｒｏ２、ＧｏＰｒｏ３によって捕捉された同じシーンの３つの異なったビューは、１、２及び３と番号付けされたビデオユニットで提示されている。有利なことに、提示されている３つのビデオはＧｏＰｒｏ１＿１、ＧｏＰｒｏ２＿１、ＧｏＰｒｏ３＿１である。当然に、本原理は、大規模なビデオデータベースにうまく適応し、３つのデバイス及び６つのビデオを有する記載された例は、説明の目的で与えられており、決して限定ではない。

本願で記載されている実施は、例えば、方法若しくはプロセス、装置、ソフトウェアプログラム、データストリーム、又は信号において実装されてよい。単一の実施形態に関してしか論じられていない（例えば、方法又はデバイスとしてしか論じられていない）としても、論じられている特徴の実施は他の形態（例えば、プログラム）でも実装されてよい。装置は、例えば、適切なハードウェア、ソフトウェア、及びファームウェアにおいて実装されてよい。方法は、例えば、処理デバイス全般を指すプロセッサのような装置において実装されてよい。プロセッサは、例えば、コンピュータ、マイクロプロセッサ、集積回路、又はプログラム可能論理デバイスを含む。プロセッサは、例えば、コンピュータ、携帯電話機、ポータブル／パーソナルデジタルアシスタント（“ＰＤＡ”）、及びエンドユーザ間の情報のやり取りを助ける他のデバイスのような通信デバイスも含む。

本願で記載されている様々なプロセス及び特徴の実施は、多種多様な機器又は用途、特に、例えば機器又は用途、において具現されてよい。そのような機器の例は、符号器、復号器、復号器からの出力を処理するポストプロセッサ、符号器へ入力を供給するプリプロセッサ、ビデオコーダ、ビデオデコーダ、ビデオコーデック、ウェブサーバ、セットトップボックス、ラップトップ、パーソナルコンピュータ、携帯電話機、ＰＤＡ、及び他の通信デバイスを含む。当然ながら、機器は、モバイルであってよく、移動車両に設置されてさえよい。

加えて、方法は、プロセッサによって実行される命令によって実施されてよく、そのような命令（及び／又は実施によって生成されたデータ値）は、例えば、集積回路、ソフトウェア担体、又は他の記憶デバイス（例えば、ハードディスク、コンパクトディスケット（“ＣＤ”）、光ディスク（例えば、デジタルバーサタイルディスク若しくはデジタルビデオディスクとしばしば呼ばれるＤＶＤ）、ランダムアクセスメモリ（“ＲＡＭ”）、又はリードオンリーメモリ（“ＲＯＭ”））のようなプロセッサ可読媒体に記憶されてよい。命令は、プロセッサ可読媒体において実体的に具現されたアプリケーションプログラムを形成してよい。命令は、例えば、ハードウェア、ファームウェア、ソフトウェア、又は組み合わせにあってよい。命令は、例えば、オペレーティングシステム、別個のアプリケーション、又は両者の組み合わせにおいて見られ得る。プロセッサは、従って、例えば、プロセスを実行するよう構成されたデバイス、及びプロセスを実行するための命令を有するプロセッサ可読媒体（例えば、記憶デバイス）を含むデバイス、の両方と見なされてよい。更に、プロセッサ可読媒体は、命令に加えて又はそれに代えて、実施によって生成されたデータ値を記憶してよい。

当業者に明らかなように、実施は、例えば、記憶又は送信され得る情報を運ぶようフォーマット化された様々な信号を生成してよい。情報は、例えば、方法を実行するための命令、又は記載されている実施のうちの１つによって生成されたデータを含んでよい。例えば、信号は、記載されている実施形態のシンタックスを書き込む又は読み込むための規則をデータとして運ぶよう、あるいは、記載されている実施形態によって書き込まれた実際のシンタックス値をデータとして運ぶよう、フォーマット化されてよい。そのような信号は、例えば、電磁波（例えば、スペクトルの無線周波数部分を使用する。）として、あるいは、バースバンド信号として、フォーマット化されてよい。フォーマッティングは、例えば、データストリームを符号化し、符号化されたデータストリームによりキャリアを変調することを含んでよい。信号が運ぶ情報は、例えば、アナログ又はデジタル情報であってよい。信号は、知られているように、多種多様な有線又は無線リンクにわたって送信されてよい。信号は、プロセッサ可読媒体において記憶されてよい。

多数の実施が記載されてきた。それでもなお、様々な変更が行われてよいことが理解されるだろう。例えば、異なる実施の要素は、他の実施を生成するよう組み合わされ、置換され、変更され、又は削除されてよい。加えて、当業者であれば、他の構造及びプロセスは、開示されている構造及びプロセスに取って替えられてよく、結果として現れる実施は、開示されている実施と少なくとも実質的に同じ結果を達成するよう、少なくとも実質的に同じ方法において、少なくとも実質的に同じ機能を実行すると理解するだろう。然るに、それら及び他の実施は、本願によって考えられている。

１処理デバイス
１０入力部
１２ビデオ復号器
１４解析モジュール
１６モジュール
２０出力部
１１０プロセッサ
Ｄデータベース

Claims

表示デバイスにおいて同じイベントの複数の時間的に同期されたビデオをレンダリングするユーザインターフェイスを生成する、処理デバイスによって実行される方法であって、前記ユーザインターフェイスは複数のビデオユニットを有する方法において、
前記複数のビデオの各ビデオについてビデオ品質を表す値を得るステップと、
前記ビデオユニットの夫々での表示のために、前記複数のビデオの中から、ビデオ品質を表す値が最も高いビデオを選択するステップと、
前記表示デバイスへの出力のために、前記ビデオユニットの夫々で前記選択されたビデオを同時にレンダリングする前記ユーザインターフェイスを生成するステップと
を有する、ことを特徴とする方法。
ビデオユニットは、それらのサイズに応じてソートされ、
ビデオ品質を表す値が最も高いビデオは、最大サイズのビデオユニットで表示される、
請求項１に記載の方法。
前記複数のビデオの各ビデオからビデオコントリビュータフレームを表す値を得るステップと、
前記ビデオユニットの夫々での表示のために、前記複数のビデオの中から、ビデオ品質を表す値が最も高く且つビデオコントリビュータフレームを表す値が最も高いビデオを選択するステップと
を更に有する請求項１又は２に記載の方法。
前記複数のビデオの中の一対のビデオ間のビデオ類似性を表す値を得るステップと、
前記ビデオユニットの夫々での表示のために、ビデオ品質を表す値が最も高く且つ対を成す表示されているビデオ間のビデオ類似性を表す値が最も低いビデオを選択するステップと
を更に有する請求項１乃至３のうちいずれか一項に記載の方法。
前記ビデオユニットの夫々での表示のためにビデオ品質を表す値が最も高いビデオを選択する前記ステップは、第１のビデオユニットで表示すべきリファレンスビデオのユーザ選択に従って更新される、
請求項１乃至４のうちいずれか一項に記載の方法。
前記ビデオユニットの夫々での表示のためにビデオ品質を表す値が最も高いビデオを選択する前記ステップは、第１のビデオユニットで表示されているリファレンスビデオの終わりに更新される、
請求項１乃至５のうちいずれか一項に記載の方法。
前記ビデオユニットの夫々での表示のためにビデオ品質を表す値が最も高いビデオを選択する前記ステップは、表示されているビデオの終わりに更新される、
請求項１乃至６のうちいずれか一項に記載の方法。
表示デバイスにおいて同じイベントの複数の時間的に同期されたビデオをレンダリングするユーザインターフェイスを生成するデバイスであって、前記ユーザインターフェイスは複数のビデオユニットを有するデバイスにおいて、
前記複数のビデオの各ビデオについてビデオ品質を表す値を得る解析モジュールと、
前記ビデオユニットの夫々での表示のために、前記複数のビデオの中から、ビデオ品質を表す値が最も高いビデオを選択する手段と、
前記表示デバイスへの出力のために、前記ビデオユニットの夫々で前記選択されたビデオを同時にレンダリングする前記ユーザインターフェイスを生成する手段と
を有するデバイス。
ビデオユニットは、それらのサイズに応じてソートされ、
ビデオ品質を表す値が最も高いビデオは、最大サイズのビデオユニットで表示される、
請求項８に記載のデバイス。
前記複数のビデオの各ビデオからビデオコントリビュータフレームを表す値を得る手段と、
前記ビデオユニットの夫々での表示のために、前記複数のビデオの中から、ビデオ品質を表す値が最も高く且つビデオコントリビュータフレームを表す値が最も高いビデオを選択する手段と
を更に有する請求項８又は９に記載のデバイス。
前記ビデオユニットの夫々での表示のためにビデオ品質を表す値が最も高いビデオを選択する前記手段は、第１のビデオユニットで表示すべきリファレンスビデオのユーザ選択に従って前記選択を更新する手段を更に有する、
請求項８乃至１０のうちいずれか一項に記載のデバイス。
前記ビデオユニットの夫々での表示のためにビデオ品質を表す値が最も高いビデオを選択する前記手段は、第１のビデオユニットで表示されているリファレンスビデオの終わりに前記選択を更新する手段を更に有する、
請求項８乃至１１のうちいずれか一項に記載のデバイス。
表示デバイスにおいて同じイベントの複数の時間的に同期されたビデオをレンダリングするユーザインターフェイスを生成し、前記ユーザインターフェイスは複数のビデオユニットを有し、
前記複数のビデオの各ビデオについてビデオ品質を表す値を得、
前記ビデオユニットの夫々での表示のために、前記複数のビデオの中から、ビデオ品質を表す値が最も高いビデオを選択する
方法を実施するコード命令を実行する手段を有するグラフィクス処理ユニット。
表示デバイスにおいて同じイベントの複数の時間的に同期されたビデオをレンダリングするユーザインターフェイスを生成するステップであり、前記ユーザインターフェイスは複数のビデオユニットを有する前記ステップと、
前記複数のビデオの各ビデオについてビデオ品質を表す値を得るステップと、
前記ビデオユニットの夫々での表示のために、前記複数のビデオの中から、ビデオ品質を表す値が最も高いビデオを選択するステップと
を実行するプログラムコード命令を有するコンピュータプログラム製品。
プロセッサに、少なくとも、
表示デバイスにおいて同じイベントの複数の時間的に同期されたビデオをレンダリングするユーザインターフェイスを生成し、前記ユーザインターフェイスは複数のビデオユニットを有し、
前記複数のビデオの各ビデオについてビデオ品質を表す値を得、
前記ビデオユニットの夫々での表示のために、前記複数のビデオの中から、ビデオ品質を表す値が最も高いビデオを選択する
ことを実行させる命令を記憶している、開示されているプロセッサ可読媒体。