JP2022017369A

JP2022017369A - 角度分離されたサブシーンの合成およびスケーリング

Info

Publication number: JP2022017369A
Application number: JP2021172415A
Authority: JP
Inventors: シュニットマン，マーク・スティーブン; Steven Schnittman Mark; マケエフ，マクシム; Makeev Maksim
Original assignee: Owl Labs Inc
Current assignee: Owl Labs Inc
Priority date: 2015-04-01
Filing date: 2021-10-21
Publication date: 2022-01-25
Also published as: AU2016242980B2; JP6966421B2; EP3995892A1; SG11201708060YA; US20160292884A1; IL282492A; AU2019261804B2; EP3278180A4; IL282492B1; US10991108B2; US10636154B2; IL254812B; IL282492B2; AU2019261804A1; CN107980221A; AU2022202258A1; CN107980221B; EP3278180B1; WO2016161288A1; IL302194A

Abstract

【課題】画像キャプチャ及び強調のための装置並びに方法を提供する。【解決手段】デバイス１００によって収集されたワイドシーン内の角度分離されたサブシーンおよび／または対象サブシーンを合成するモバイルデバイス４０による方法であって、高密度に合成された単一カメラ信号は、ワイドカメラからキャプチャされた、実質的に２．４：１以上のアスペクト比を有するパノラマビデオ信号から形成される。２つ以上のサブシーンビデオ信号が各自の対象方位においてサブサンプリングされ、並べて合成されて、実質的に２：１以下のアスペクト比を有するステージシーンビデオ信号を形成する。ステージシーンビデオ信号の領域の８０％以上がパノラマビデオ信号からサブサンプリングされる。【選択図】図１Ａ

Description

関連出願の相互参照
本願は、２０１５年４月１日に出願された米国仮特許出願連続番号第６２／１４１，８２２号に基づく利益を米国特許法第１１９条（ｅ）に従って主張し、上記仮特許出願の開示全体を本明細書に引用により援用する。

分野
局面は、画像キャプチャおよび強調のための装置および方法に関する。

背景
マルチパーティ遠隔会議、ビデオチャット、およびテレビ会議は、同じ会議室にいる複数の参加者が少なくとも１人のリモートパーティと接続された状態で行なわれることが多い。

ビデオ会議ソフトウェアの個人対個人モードの場合、水平視野が限られている（たとえば７０度）ことが多い１つのローカルカメラのみが利用可能である。この単一カメラが１人の参加者の前に位置決めされるか、すべての参加者に向けられてテーブルの頭に位置決めされるかにかかわらず、当該単一カメラから遠い、または当該カメラに対して鋭角をなしている会議室内のそれらの参加者によって与えられる音声、ボディランゲージ、および非言語的合図をリモートパーティが理解することは困難である（たとえば、人の顔ではなく輪郭を見ている）。

ビデオ会議ソフトウェアの多人数モードの場合、同じ会議室内にある２つ以上のモバイルデバイス（ラップトップ、タブレット、または携帯電話）のカメラが利用可能であるため、いくつかの異なる問題が追加される。会議にログインする会議室参加者が多いほど、音声フィードバックおよびクロストークが大きくなり得る。カメラパースペクティブは、単一カメラの場合と同じぐらい参加者から離れているか、または歪んでいる場合がある。ローカル参加者は、同じ部屋にいるにもかかわらず、自身らのモバイルデバイスを介して他の参加者と交流する（それによって、リモートパーティと同じボディランゲージおよび非言語的合図の弱点を受け継ぐ）傾向があり得る。

セットアップを同室の参加者にとって非常に容易にする、または経験をリモート参加者の視点から自動でシームレスにするように、ワイドシーン（たとえば２人以上の会議参加者のワイドシーン）内の角度分離されたサブシーンおよび／または対象サブシーンを合成する、追跡する、および／または表示するための公知の商業技術または実験技術はない。

概要
本実施形態の一局面において、高密度に合成された単一カメラ信号を出力するプロセスは、実質的に９０度以上の水平画角を有するワイドカメラからキャプチャされた、実質的に２．４：１以上のアスペクト比を有するパノラマビデオ信号を記録し得る。ワイドカメラから各自の対象方位において、少なくとも２つのサブシーンビデオ信号がサブサンプリングされ得る。２つ以上のサブシーンビデオ信号は並べて合成されて、実質的に２：１以下のアスペクト比を有するステージシーンビデオ信号を形成し得る。任意に、ステージシーンビデオ信号の領域の８０％よりも大きい領域がパノラマビデオ信号からサブサンプリ
ングされる。ステージシーンビデオ信号は単一カメラビデオ信号としてフォーマットされ得る。任意に、パノラマビデオ信号は実質的に８：１以上のアスペクト比を有し、実質的に３６０度の水平画角を有するワイドカメラからキャプチャされる。

本実施形態の関連局面において、会議カメラは、高密度に合成された単一カメラ信号を出力するように構成される。会議カメラの撮像素子またはワイドカメラは、実質的に２．４：１以上のアスペクト比を有するパノラマビデオ信号をキャプチャするおよび／または記録するように構成され得、ワイドカメラは実質的に９０度以上の水平画角を有する。撮像素子またはワイドカメラに動作可能に接続されたプロセッサは、ワイドカメラから各自の対象方位において２つ以上のサブシーンビデオ信号をサブサンプリングするように構成され得る。当該プロセッサは、２つ以上のサブシーンビデオ信号を並んだビデオ信号としてメモリ（たとえばバッファおよび／またはビデオメモリ）に合成して、実質的に２：１以下のアスペクト比を有するステージシーンビデオ信号を形成するように構成され得る。当該プロセッサは、ステージシーンビデオ信号の領域の８０％を超える領域がパノラマビデオ信号からサブサンプリングされるように、サブシーンビデオ信号をメモリ（たとえばバッファおよび／またはビデオメモリ）に合成するように構成され得る。当該プロセッサはさらに、ステージシーンビデオ信号を、たとえばＵＳＢ上でトランスポートされる単一カメラビデオ信号としてフォーマットするように構成され得る。

上記の局面のいずれか一方において、当該プロセッサは、パノラマビデオ信号からの各自の対象方位において追加のサブシーンビデオ信号をサブサンプリングすることと、２つ以上のサブシーンビデオ信号を、１つ以上の追加のサブシーンビデオ信号とともに合成して、複数の並んだサブシーンビデオ信号を含む、実質的に２：１以下のアスペクト比を有するステージシーンビデオ信号を形成することとを実行するように構成され得る。任意に、２つ以上のサブシーンビデオ信号を１つ以上の追加のサブシーンビデオ信号とともに合成してステージシーンビデオ信号を形成することは、２つ以上のサブシーンビデオ信号の少なくとも１つを置換して実質的に２：１以下のアスペクト比を有するステージシーンビデオ信号を形成することによって、１つ以上の追加のサブシーンビデオ信号をステージシーンビデオ信号に移行させることを含む。

さらに任意に、各サブシーンビデオ信号には最小幅が割当てられ得、ステージシーンビデオ信号への各自の移行が完了すると、各サブシーンビデオ信号は実質的にその最小幅以上で並べて合成されてステージシーンビデオ信号を形成し得る。代わりに、またはさらに、移行中の各自のサブシーンビデオ信号の合成幅は、合成幅が実質的にその対応する各自の最小幅以上になるまで、移行全体にわたって増加し得る。さらに代わりに、またはさらに、サブシーンビデオ信号は、実質的にその最小幅以上で並べて合成され得、各々は、すべての合成されたサブシーンビデオ信号の合計がステージシーンビデオ信号の幅と実質的に等しい各自の幅で合成され得る。

いくつかの場合、ステージシーンビデオ信号内のサブシーンビデオ信号の幅は、サブシーンビデオ信号に対応する１つ以上の対象方位において検出されたアクティビティ基準に従って変化するように合成され得るのに対して、ステージシーンビデオ信号の幅は一定に保たれる。他の場合、２つ以上のサブシーンビデオ信号を１つ以上の追加のサブシーンビデオ信号とともに合成してステージシーンビデオ信号を形成することは、２つ以上のサブシーンビデオ信号の少なくとも１つの幅を、１つ以上の追加のサブシーンビデオ信号の幅に対応する量だけ縮小することによって、１つ以上の追加のサブシーンビデオ信号をステージシーンビデオ信号に移行させることを含む。

さらに任意に、各サブシーンビデオ信号には各自の最小幅が割当てられ得、各サブシーンビデオ信号は、実質的にその対応する各自の最小幅以上で並べて合成されてステージシ
ーンビデオ信号を形成し得る。１つ以上の追加のサブシーンビデオ信号とともに、２つ以上のサブシーンビデオ信号の各自の最小幅の合計がステージシーンビデオ信号の幅を超えると、２つ以上のサブシーンビデオ信号の少なくとも１つがステージシーンビデオ信号から除去されるように移行し得る。任意に、ステージシーンビデオ信号から除去されるように移行するサブシーンビデオ信号は、アクティビティ基準が最も以前に満たされた各自の対象方位に対応する。

上記の局面のいずれか一方において、２つ以上のサブシーンビデオ信号および１つ以上の追加のサブシーンビデオ信号の各自の対象方位間のワイドカメラに対する左から右への順序は、２つ以上のサブシーンビデオ信号が１つ以上の追加のサブシーンビデオ信号とともに合成されてステージシーンビデオ信号を形成する際に保存され得る。

さらに上記の局面のいずれか一方において、パノラマビデオ信号からの各自の対象方位は、ワイドカメラに対する各自の対象方位において検出された選択基準に依存して選択され得る。選択基準が真でなくなった後、その対応するサブシーンビデオ信号は、ステージシーンビデオ信号から除去されるように移行し得る。代わりに、またはさらに、選択基準は、各自の対象方位において満たされたアクティビティ基準の存在を含み得る。この場合、当該プロセッサは、各自の対象方位においてアクティビティ基準が満たされてからの時間をカウントし得る。各自の対象方位においてアクティビティ基準が満たされた後の予め定められた期間、各自のサブシーン信号はステージシーンビデオ信号から除去されるように移行し得る。

上記の局面のさらなる変形において、当該プロセッサは、実質的に８：１以上のアスペクト比の縮小したパノラマビデオ信号をパノラマビデオ信号からサブサンプリングすることと、２つ以上のサブシーンビデオ信号を縮小したパノラマビデオ信号とともに合成して、複数の並んだサブシーンビデオ信号とパノラマビデオ信号とを含む、実質的に２：１以下のアスペクト比を有するステージシーンビデオ信号を形成することとを実行し得る。任意に、２つ以上のサブシーンビデオ信号は、縮小したパノラマビデオ信号とともに合成されて、複数の並んだサブシーンビデオ信号と、複数の並んだサブシーンビデオ信号よりも高いパノラマビデオ信号とを含む、実質的に２：１以下のアスペクト比を有するステージシーンビデオ信号を形成し得、パノラマビデオ信号は、ステージシーンビデオ信号の領域の１／５以下であり、ステージシーンビデオ信号の幅を実質的に横切って延びる。

上記の局面のさらなる変形において、当該プロセッサまたは関連のプロセッサは、テキストドキュメントからテキストビデオ信号をサブサンプリングし、２つ以上のサブシーンビデオ信号の少なくとも１つをテキストビデオ信号に置換することによって、テキストビデオ信号をステージシーンビデオ信号に移行させ得る。

任意に、当該プロセッサは、保持基準に基づいて、２つ以上のサブシーンビデオ信号の少なくとも１つを、移行から保護される保護サブシーンビデオ信号として設定し得る。この場合、当該プロセッサは、２つ以上のサブシーンビデオ信号の少なくとも１つを置換することによって、および／または保護サブシーン以外のサブシーンビデオ信号を移行させることによって、１つ以上の追加のサブシーンビデオ信号をステージシーンビデオ信号に移行させ得る。

いくつかの場合、当該プロセッサは、代わりに、またはさらに、強調基準に基づいてサブシーン強調動作を設定し得、２つ以上のサブシーンビデオ信号の少なくとも１つは、対応する強調基準に基づいてサブシーン強調動作に従って強調される。任意に、当該プロセッサは、センサから検知された基準に基づいてサブシーン参加者通知動作を設定し得、ローカルリマインダ指標（たとえばライト、ブリンキング、または音）が、対応する検知さ
れた基準に基づいて通知動作に従って起動される。

本実施形態の一局面において、ワイドビデオ信号内の対象方位においてサブシーンを追跡するためのプロセスは、音響センサアレイと実質的に９０度以上の視野を観察するワイドカメラとを用いてある角度範囲を監視することを含み得る。角度範囲内に検出された音響認識および視覚認識の少なくとも一方の局所化に沿って、第１の対象方位が識別され得る。第１の対象方位に沿って、ワイドカメラから第１のサブシーンビデオ信号がサブサンプリングされ得る。音響認識および視覚認識の少なくとも一方の信号特性に従って、第１のサブシーンビデオ信号の幅が設定され得る。

本実施形態の関連局面において、会議カメラは、広角シーンからサブサンプリングされてスケーリングされたサブシーンを含むビデオ信号を出力し、ワイドビデオ信号内のサブシーンおよび／または対象方位を追跡するように構成され得る。会議カメラおよび／またはそのプロセッサは、音響センサアレイと実質的に９０度以上の視野を観察するワイドカメラとを用いてある角度範囲を監視するように構成され得る。当該プロセッサは、角度範囲内に検出された音響認識および視覚認識の少なくとも一方の局所化に沿って第１の対象方位を識別するように構成され得る。当該プロセッサはさらに、第１の対象方位に沿ってワイドカメラから第１のサブシーンビデオ信号をメモリ（バッファまたはビデオ）にサブサンプリングするように構成され得る。当該プロセッサはさらに、音響認識および視覚認識の少なくとも一方の信号特性に従って第１のサブシーンビデオ信号の幅を設定するように構成され得る。

上記の局面のいずれかにおいて、信号特性は、音響認識または視覚認識の一方または両方の信頼レベルを表わし得る。任意に、信号特性は、音響認識または視覚認識の一方または両方内に認識された特徴の幅を表わし得る。さらに任意に、信号特性は、第１の対象方位に沿って認識された人間の顔の概算幅に対応し得る。

代わりに、またはさらに、視覚認識の信号特性に従って幅が設定されない場合、予め定められた幅が、角度範囲内に検出された音響認識の局所化に沿って設定され得る。さらに任意に、第１の対象方位は視覚認識によって求められ得、第１のサブシーンビデオ信号の幅は次に視覚認識の信号特性に従って設定される。さらに任意に、第１の対象方位は、角度範囲内に検出された音響認識に向けて方向付けられて識別され得る。この場合、当該プロセッサは、音響認識に近接した視覚認識を識別し得、第１のサブシーンビデオ信号の幅は次に、音響認識に近接した視覚認識の信号特性に従って設定され得る。

本実施形態の別の局面において、プロセッサは、ワイドビデオ信号内の対象方位においてサブシーンを追跡するプロセスを実行するように構成され得、当該プロセスは、実質的に９０度以上のワイドカメラ視野に対応する動画ビデオ信号を通してサブサンプリングウィンドウをスキャンすることを含む。当該プロセッサは、サブサンプリングウィンドウ内の候補方位を識別するように構成され得、各対象方位は、サブサンプリングウィンドウ内に検出された視覚認識の局所化に対応する。当該プロセッサは次に、候補方位を空間マップに記録し得、音響認識のための音響センサアレイを用いて、ワイドカメラ視野に対応する角度範囲を監視し得る。

任意に、空間マップに記録された１つの候補方位に近接して音響認識が検出されると、当該プロセッサはさらに、実質的に１つの候補方位に対応するように第１の対象方位をスナップし得、第１の対象方位に沿ってワイドカメラから第１のサブシーンビデオ信号をサブサンプリングし得る。任意に、当該プロセッサはさらに、音響認識の信号特性に従って第１のサブシーンビデオ信号の幅を設定するように構成され得る。さらに任意に、信号特性は音響認識の信頼レベルを表わし得るか、または、音響認識もしくは視覚認識の一方も
しくは両方内に認識された特徴の幅を表わし得る。信号特性は、代わりに、またはさらに、第１の対象方位に沿って認識された人間の顔の概算幅に対応し得る。任意に、視覚認識の信号特性に従って幅が設定されない場合、予め定められた幅が、角度範囲内に検出された音響認識の局所化に沿って設定され得る。

本実施形態の別の局面において、プロセッサは、対象方位においてサブシーンを追跡するように構成され得、これは、実質的に９０度以上のワイドカメラ視野に対応する動画ビデオ信号を記録することを含む。当該プロセッサは、音響認識のための音響センサアレイを用いて、ワイドカメラ視野に対応する角度範囲を監視し、角度範囲内に検出された音響認識に向けて方向付けられている第１の対象方位を識別するように構成され得る。第１の対象方位に従って動画ビデオ信号内にサブサンプリングウィンドウが位置付けられ得、視覚認識がサブサンプリングウィンドウ内に検出され得る。任意に、当該プロセッサは、実質的に視覚認識を中心とするワイドカメラからキャプチャされた第１のサブシーンビデオ信号をサブサンプリングし、視覚認識の信号特性に従って第１のサブシーンビデオ信号の幅を設定するように構成され得る。

本実施形態のさらなる局面において、プロセッサは、ワイドビデオ信号内の対象方位においてサブシーンを追跡するように構成され得、これは、音響センサアレイと実質的に９０度以上の視野を観察するワイドカメラとを用いてある角度範囲を監視することを含む。複数の対象方位が識別され得、各々が角度範囲内の局所化に向けて方向付けられている。当該プロセッサは、対象方位に対応する記録された特性の空間マップを維持し、１つ以上の対象方位に実質的に沿ってワイドカメラからサブシーンビデオ信号をサブサンプリングするように構成され得る。少なくとも１つの対象方位に対応する記録された特性に従って、サブシーンビデオ信号の幅が設定され得る。

本実施形態のさらなる局面において、プロセッサは、ワイドビデオ信号内の対象方位においてサブシーンを追跡するプロセスを実行するように構成され得、当該プロセスは、音響センサアレイと実質的に９０度以上の視野を観察するワイドカメラとを用いてある角度範囲を監視することと、各々が角度範囲内の局所化に向けて方向付けられている複数の対象方位を識別することとを含む。少なくとも１つの対象方位に実質的に沿ってワイドカメラからサブシーンビデオ信号がサンプリングされ得、少なくとも１つの認識基準に基づく閾値が満たされるまでサブシーンビデオ信号を拡大することによって、サブシーンビデオ信号の幅が設定され得る。任意に、局所化に対応する記録された特性の速度および方向の一方の変更に基づいて、各対象方位についての変更ベクトルが予測され得、予測に基づいて対象方位の位置が更新され得る。任意に、局所化に対応する記録された特性の直近の位置に基づいて、局所化のための検索領域が予測され得、予測に基づいて局所化の位置が更新され得る。

デバイス１００によって収集されたワイドシーン内の角度分離されたサブシーンおよび／または対象サブシーンを合成する、追跡する、および／または表示するのに好適なデバイスの実施形態の概略ブロック図である。デバイス１００によって収集されたワイドシーン内の角度分離されたサブシーンおよび／または対象サブシーンを合成する、追跡する、および／または表示するのに好適なデバイスの実施形態の概略ブロック図である。図１Ａおよび図１Ｂのデバイス１００のための、ワイドシーンおよび／またはパノラマシーンを収集するのに好適な会議カメラ１４またはカメラタワー１４配列の実施形態の概略図である。図１Ａおよび図１Ｂのデバイス１００のための、ワイドシーンおよび／またはパノラマシーンを収集するのに好適な会議カメラ１４またはカメラタワー１４配列の実施形態の概略図である。図１Ａおよび図１Ｂのデバイス１００のための、ワイドシーンおよび／またはパノラマシーンを収集するのに好適な会議カメラ１４またはカメラタワー１４配列の実施形態の概略図である。図１Ａおよび図１Ｂのデバイス１００のための、ワイドシーンおよび／またはパノラマシーンを収集するのに好適な会議カメラ１４またはカメラタワー１４配列の実施形態の概略図である。図１Ａおよび図１Ｂのデバイス１００のための、ワイドシーンおよび／またはパノラマシーンを収集するのに好適な会議カメラ１４またはカメラタワー１４配列の実施形態の概略図である。図１Ａおよび図１Ｂのデバイス１００のための、ワイドシーンおよび／またはパノラマシーンを収集するのに好適な会議カメラ１４またはカメラタワー１４配列の実施形態の概略図である。図１Ａおよび図１Ｂのデバイス１００のための、ワイドシーンおよび／またはパノラマシーンを収集するのに好適な会議カメラ１４またはカメラタワー１４配列の実施形態の概略図である。図１Ａおよび図１Ｂのデバイス１００のための、ワイドシーンおよび／またはパノラマシーンを収集するのに好適な会議カメラ１４またはカメラタワー１４配列の実施形態の概略図である。図１Ａおよび図１Ｂのデバイス１００のための、ワイドシーンおよび／またはパノラマシーンを収集するのに好適な会議カメラ１４またはカメラタワー１４配列の実施形態の概略図である。図１Ａおよび図１Ｂのデバイス１００のための、ワイドシーンおよび／またはパノラマシーンを収集するのに好適な会議カメラ１４またはカメラタワー１４配列の実施形態の概略図である。図１Ａおよび図１Ｂのデバイス１００のための、ワイドシーンおよび／またはパノラマシーンを収集するのに好適な会議カメラ１４またはカメラタワー１４配列の実施形態の概略図である。３人の参加者を示す、会議カメラの使用事例を上から見下ろした図である。３人の参加者を示す、会議カメラパノラマ画像信号を上から見下ろした図である。３人の参加者を示し、顔幅設定またはサブシーンの識別の描写を含む、会議テーブルを示す会議カメラの使用事例を上から見下ろした図である。３人の参加者を示し、顔幅設定またはサブシーンの識別の描写を含む、会議カメラパノラマ画像信号を上から見下ろした図である。３人の参加者を示し、肩幅設定またはサブシーンの識別の描写を含む、会議テーブルを示す会議カメラの使用事例を上から見下ろした図である。３人の参加者を示し、肩幅設定またはサブシーンの識別の描写を含む、会議カメラパノラマ画像信号を上から見下ろした図である。３人の参加者およびホワイトボードを示し、より広いサブシーンの識別の描写を含む、会議テーブルを示す会議カメラの使用事例を上から見下ろした図である。３人の参加者およびホワイトボードを示し、より広いサブシーンの識別の描写を含む、会議カメラパノラマ画像信号を上から見下ろした図である。５人の参加者を示し、視覚最小幅および方位ならびに音響最小幅および方位の識別の描写を含む、１０人掛けの会議テーブルを示す会議カメラの使用事例を上から見下ろした図である。５人の参加者を示し、視覚最小幅および方位ならびに音響最小幅および方位の識別の描写を含む、会議カメラパノラマ画像信号を上から見下ろした図である。会議カメラビデオ信号と、最小幅と、ステージシーンビデオ信号に合成すべきサブシーンビデオ信号およびパノラマビデオ信号の抽出との概略図である。ステージシーンビデオ信号に合成すべきサブシーンビデオ信号およびパノラマビデオ信号の概略図である。可能な合成出力またはステージシーンビデオ信号を示す図である。可能な合成出力またはステージシーンビデオ信号を示す図である。可能な合成出力またはステージシーンビデオ信号を示す図である。会議カメラビデオ信号と、最小幅と、ステージシーンビデオ信号に合成すべき代替のサブシーンビデオ信号および代替のパノラマビデオ信号の抽出との概略図である。ステージシーンビデオ信号に合成すべき代替のサブシーンビデオ信号および代替のパノラマビデオ信号の概略図である。可能な代替の合成出力またはステージシーンビデオ信号を示す図である。可能な代替の合成出力またはステージシーンビデオ信号を示す図である。可能な代替の合成出力またはステージシーンビデオ信号を示す図である。会議テーブル画像がより自然で快適なビューに配列されるように調整されたパノラマビデオ信号の概略図である。可能な合成出力またはステージシーンビデオ信号の概略図である。可能な合成出力またはステージシーンビデオ信号の概略図である。ビデオ会議ソフトウェアが合成出力またはステージシーンビデオ信号を表示し得る代替方法の概略図である。ビデオ会議ソフトウェアが合成出力またはステージシーンビデオ信号を表示し得る代替方法の概略図である。ステージシーン（ビデオ信号）ビデオ信号を合成するためのステップを含むフローチャートの図である。対象方位に基づいてサブシーン（サブシーンビデオ信号）を合成して生成するためのステップを含む詳細なフローチャートの図である。サブシーンをステージシーンビデオ信号に合成するためのステップを含む詳細なフローチャートの図である。合成されたステージシーンビデオ信号を単一カメラ信号として出力するためのステップを含む詳細なフローチャートの図である。局所化および／または対象方位および／またはサブシーンの幅を設定するためのステップを実行する第１のモードを含む詳細なフローチャートの図である。局所化および／または対象方位および／またはサブシーンの幅を設定するためのステップを実行する第２のモードを含む詳細なフローチャートの図である。局所化および／または対象方位および／またはサブシーンの幅を設定するためのステップを実行する第３のモードを含む詳細なフローチャートの図である。図３Ａ～図５Ｂに実質的に対応する、単一カメラ信号を受信するビデオ会議クライアントを有するローカルＰＣに取付けられた会議カメラを含む実施形態の動作を示す図であり、ＰＣは次いでインターネットに接続されており、２つのリモートＰＣなどもビデオ会議ディスプレイ内で単一カメラ信号を受信する。図３Ａ～図５Ｂに実質的に対応する、単一カメラ信号を受信するビデオ会議クライアントを有するローカルＰＣに取付けられた会議カメラを含む実施形態の動作を示す図であり、ＰＣは次いでインターネットに接続されており、２つのリモートＰＣなどもビデオ会議ディスプレイ内で単一カメラ信号を受信する。図３Ａ～図５Ｂに実質的に対応する、単一カメラ信号を受信するビデオ会議クライアントを有するローカルＰＣに取付けられた会議カメラを含む実施形態の動作を示す図であり、ＰＣは次いでインターネットに接続されており、２つのリモートＰＣなどもビデオ会議ディスプレイ内で単一カメラ信号を受信する。ビデオ会議クライアントが個別の隣接しているビューの代わりにオーバーラップしているビデオビューを使用する、図１９～図２１のシステムの変形を示す図である。実質的に図６Ａ～図６Ｂに対応し、ホワイトボード用の高解像度カメラビューを含む、図１９～図２１のシステムの変形を示す図である。高解像度テキストドキュメントビュー（たとえばテキストエディタ、ワードプロセッシング、プレゼンテーション、またはスプレッドシート）を含む、図１９～図２１のシステムの変形を示す図である。図１Ｂの構成と同様の構成を用いて、ビデオ会議クライアントがサブシーンごとにインスタンス化される配列の概略図である。図１～図２６全体にわたって用いられているいくつかの例示的な図像および記号の概略図である。

詳細な説明
会議カメラ
図１Ａおよび図１Ｂは、会議カメラ１００であるデバイスによって収集されたワイドシーン内の角度分離されたサブシーンおよび／または対象サブシーンを合成する、追跡する、および／または表示するのに好適なデバイスの実施形態の概略ブロック図である。

図１Ａは、会議カメラ１００または会議「ウェブカム」として、たとえば、接続されたラップトップ、タブレット、またはモバイルデバイス４０のＵＳＢホストもしくはハブに接続されたＵＳＢ周辺装置として通信するように、かつ、「グーグルハングアウト（Google（登録商標）Hangout）」、「スカイプ（Skype）」または「フェイスタイム（Facetime）」といった既成のビデオチャットまたはビデオ会議ソフトウェアによって一般に用いられているアスペクト比、画素数、および比率の単一のビデオ画像を提供するように構築されたデバイスを示す。デバイス１００は、たとえば、２人以上の出席者をキャプチャ可能な、出席者または参加者Ｍ１，Ｍ２…Ｍｎの会議を見渡すように方向付けられたカメラなどの、「ワイドカメラ」２，３または５を含む。カメラ２，３または５は、１つのデジタル撮像装置もしくはレンズ、または２つ以上のデジタル撮像装置もしくはレンズ（たとえばソフトウェアにスティッチングされているかまたはその他）を含み得る。会議内のデバイス１００の場所に応じて、ワイドカメラ２，３または５の視野は７０度以下であり得ることに留意すべきである。しかし、１つ以上の実施形態では、ワイドカメラ２，３，５は会議の中央で有用であり、この場合、ワイドカメラは実質的に９０度の、または１４０度よりも大きい（必ずしも連続的ではない）、または最大で３６０度の水平視野を有し得る。

大きい会議室（たとえば８人以上を収容するように設計された会議室）では、広い視野（たとえば実質的に９０度以上）を記録し、非常に広いシーンを共同して互いにスティッチングして最も心地よい角度をキャプチャする複数の広角カメラデバイスを有することが有用であり得る。たとえば、長い（１０′～２０′）テーブルの遠端における広角カメラではスピーカーＳＰＫＲの満足のいかない遠いビューがもたらされ得るが、テーブル全体に分散した複数のカメラ（たとえば５席ごとに１つ）を有すると、少なくとも１つの満足のいくまたは心地よいビューが与えられ得る。カメラ２，３，５は（たとえばＨ：Ｖ水平－垂直比率である、たとえば２．４：１から１０：１のアスペクト比の）パノラマシーンを撮像もしくは記録し、および／またはこの信号をＵＳＢ接続を介して利用可能にし得る。

図２Ａ～図２Ｌに関して述べるように、会議カメラ１００のベースからのワイドカメラ２，３，５の高さは好ましくは８インチよりも大きいため、カメラ２，３，５は会議において典型的なラップトップスクリーンよりも高く、それによって会議出席者Ｍ１，Ｍ２…Ｍｎへの遮られていないおよび／またはほぼ目の高さのビューを有し得る。マイクアレイ
４は少なくとも２つのマイクを含み、当該技術において公知であるようにビーム形成、相対的飛行時間、局所化、または受信した信号強度差によって、近くの音または発話への対象方位を得ることができる。マイクアレイ４は、ワイドカメラ２の視野と少なくとも実質的に同じ角度範囲をカバーするように方向付けられた複数のマイクペアを含み得る。

マイクアレイ４は、８インチよりも高い高さでワイドカメラ２，３，５とともに任意に配列されているため、出席者Ｍ１，Ｍ２…Ｍｎの発言中にアレイ４と当該出席者との間に直接的な「見通し線」がやはり存在し、典型的なラップトップスクリーンによって遮られない。計算およびグラフィカルイベントを処理するためのＣＰＵおよび／またはＧＰＵ（ならびにカメラ回路などの関連付けられた回路）６が、ワイドカメラ２，３，５の各々およびマイクアレイ４に接続されている。ＲＯＭおよびＲＡＭ８が、実行可能コードを保持して受信するためにＣＰＵおよびＧＰＵ６に接続されている。ネットワークインターフェイスおよびスタック１０が、ＣＰＵ６に接続されたＵＳＢ、イーサネット（登録商標）、および／またはＷｉＦｉのために設けられている。１つ以上のシリアルバスがこれら電子部品を相互に接続しており、それらはＤＣ、ＡＣ、またはバッテリパワーによって電力が供給される。

カメラ２，３，５のカメラ回路は、処理されたまたはレンダリングされた画像またはビデオストリームを、１．２５：１から２．４：１または２．５：１の「Ｈ：Ｖ」水平－垂直比率またはアスペクト比（たとえば４：３，１６：１０，１６：９の比率を含む）の風景画方向の単一カメラ画像信号、ビデオ信号またはストリームとして、および／または上述のように、好適なレンズおよび／またはスティッチング回路を用いて、パノラマ画像またはビデオストリームを、実質的に２．４：１以上の単一カメラ画像信号として出力し得る。図１Ａの会議カメラ１００は通常はＵＳＢ周辺装置として、ラップトップ、タブレット、またはモバイルデバイス４０（少なくとも１つのバスによって相互に接続されたディスプレイ、ネットワークインターフェイス、コンピューティングプロセッサ、メモリ、カメラおよびマイク部を有する）に接続され得、接続されると、マルチパーティテレビ会議、ビデオ会議、またはビデオチャットソフトウェアがホストされて、インターネット６０を介してリモートクライアント５０とテレビ会議するために接続可能となる。

図１Ｂは、図１Ａのデバイス１００およびテレビ会議デバイス４０の両方が統合されている図１Ａの変形である。単一カメラ画像信号、ビデオ信号またはビデオストリームとしてのカメラ回路出力はＣＰＵ、ＧＰＵ、関連付けられた回路およびメモリ５，６が直接利用可能であり、テレビ会議ソフトウェアは代わりに当該ＣＰＵ、ＧＰＵならびに関連付けられた回路およびメモリ５，６によってホストされる。デバイス１００は、インターネット６０またはＩＮＥＴを介してリモートクライアント５０とテレビ会議するために（たとえばＷｉＦｉまたはイーサネットを介して）直接接続可能である。ディスプレイ１２は、テレビ会議ソフトウェアを操作するための、かつ本明細書に記載のテレビ会議ビューおよびグラフィックスを会議出席者Ｍ１，Ｍ２…Ｍ３に見せるためのユーザインターフェイスを提供する。図１Ａのデバイスまたは会議カメラ１００は、代わりにインターネット６０に直接接続され、それによって、リモートクライアント５０によってビデオをリモートサーバに直接記録すること、またはリモートクライアント５０によってそのようなサーバからビデオにライブでアクセスすることを可能にしてもよい。

図２Ａから図２Ｌは、図１Ａおよび図１Ｂのデバイスまたは会議カメラ１００のための、ワイドシーンおよび／またはパノラマシーンを収集するのに好適な会議カメラ１４またはカメラタワー１４配列の実施形態の概略図である。「カメラタワー」１４および「会議カメラ」１４は本明細書中では実質的に交換可能に用いられ得るが、会議カメラはカメラタワーでなくてもよい。図２Ａ～図２Ｌにおけるデバイス１００のベースからのワイドカメラ２，３，５の高さは、好ましくは８インチよりも大きく１５インチよりも小さい。

図２Ａのカメラタワー１４配列では、複数のカメラがカメラタワー１４のカメラレベル（８から１５インチ）で周囲に配列され、等角度に離間している。カメラの数はカメラの視野およびスパンすべき角度によって決定され、パノラマのスティッチングされたビューを形成する場合は、スパンする累積角度は個々のカメラ間のオーバーラップを有するべきである。たとえば、図２Ａの場合、各々が１００～１１０度の視野（破線で示す）である４つのカメラ２ａ，２ｂ，２ｃ，２ｄ（２ａ～２ｄとラベル付けされている）が互いに９０度に配列されて、カメラタワー１４の周りの３６０度の累積ビューまたはスティッチング可能なもしくはスティッチングされたビューを提供する。

たとえば、図２Ｂの場合、各々が１３０度以上の視野（破線で示す）である３つのカメラ２ａ，２ｂ，２ｃ（２ａ～２ｃとラベル付けされている）が互いに１２０度に配列されて、やはり、タワー１４の周りの３６０度の累積ビューまたはスティッチング可能なビューを提供する。カメラ２ａ～２ｄの垂直視野は水平視野よりも小さく、たとえば８０度未満である。各カメラ２ａ～２ｄからの画像、ビデオまたはサブシーンは、スティッチング、デワープ、または歪み補償といった公知の光学補正の前後に処理されて対象方位またはサブシーンが識別され得るが、典型的には出力前にそのように補正されることになる。

図２Ｃのカメラタワー１４配列では、上向きに方向付けられた単一の魚眼カメラまたはほぼ魚眼のカメラ３ａが、カメラタワー１４のカメラレベル（８から１５インチ）の頂上に配列されている。この場合、魚眼カメラレンズは３６０度の連続する水平ビュー、および約２１５（たとえば１９０～２３０）度の垂直視野（破線で示す）を有して配列される。代わりに、たとえば図２Ｄに示すような円筒形の透過性シェル、上部放物面鏡、黒い中央ポスト、テレセントリックレンズ構成を有する単一の反射屈折「円筒画像」カメラまたはレンズ３ｂが、３６０度の連続する水平ビューを有して、約４０～８０度の垂直視野を有して配列され、水平線上にほぼ中心付けられている。魚眼カメラおよび円筒画像カメラの各々の場合、会議テーブルから８～１５インチ上に位置決めされる垂直視野は水平線の下を延びて、会議テーブルの周りの出席者Ｍ１，Ｍ２…Ｍｎを腰の高さ以下まで撮像することを可能にする。各カメラ３ａまたは３ｂからの画像、ビデオまたはサブシーンは、デワープまたは歪み補償といった魚眼レンズまたは反射屈折レンズについての公知の光学補正の前後に処理されて対象方位またはサブシーンが識別され得るが、典型的には出力前にそのように補正されることになる。

図２Ｌのカメラタワー１４配列では、複数のカメラがカメラタワー１４のカメラレベル（８から１５インチ）で周囲に配列され、等角度に離間している。カメラの数は、この場合、完全に連続的なパノラマのスティッチングされたビューを形成することを意図しておらず、スパンする累積角度は個々のカメラ間のオーバーラップ有していない。たとえば、図２Ｌの場合、各々が１３０度以上の視野（破線で示す）である２つのカメラ２ａ，２ｂが互いに９０度に配列されて、カメラタワー１４の両側の約２６０度以上を含む別個のビューを提供する。この配列は、長い会議テーブルＣＴの場合に有用となる。たとえば、図２Ｅの場合、２つのカメラ２ａ～２ｂがパンしており、および／または縦軸の周りを回転可能であり、本明細書に記載の対象方位Ｂ１，Ｂ２…Ｂｎをカバーしている。各カメラ２ａ～２ｂからの画像、ビデオまたはサブシーンは、光学補正の前後に本明細書に記載のようにスキャンまたは分析され得る。

図２Ｆおよび図２Ｇでは、テーブルの頭および端の配列が示されており、すなわち、図２Ｆおよび図２Ｇに示すカメラタワー１４の各々は、会議テーブルＣＴの頭に有利に置かれるよう意図されている。図３Ａ～図６Ａに示すように、プレゼンテーションおよびビデオ会議用の大型フラットパネルディスプレイＦＰが会議テーブルＣＴの頭または端に置かれることが多く、図２Ｆおよび図２Ｇの配列は、代わりにフラットパネルＦＰの真正面に
近接して置かれる。図２Ｆのカメラタワー１４配列では、約１３０度の視野の２つのカメラが互いに１２０度に置かれて、長い会議テーブルＣＴの２辺をカバーしている。ディスプレイおよびタッチインターフェイス１２がテーブル上に方向付けられており（壁にフラットパネルＦＰがない場合に特に有用である）、ビデオ会議ソフトウェアのためにクライアントを表示する。このディスプレイ１２は接続された、接続可能なまたは取外し可能なタブレットまたはモバイルデバイスであり得る。図２Ｇのカメラタワー配列では、１つの高解像度の、任意に傾いているカメラ７（自身の独立したテレビ会議クライアントソフトウェアまたはインスタンスに任意に接続されている）が対象オブジェクト（ホワイトボードＷＢまたはテーブルＣＴ面上のページもしくは紙など）に方向付け可能であり、たとえば１００～１１０度の視野の２つの独立してパンしている／または傾いているカメラ５ａ，５ｂが対象方位をカバーするように方向付けられるか方向付け可能である。

各カメラ２ａ，２ｂ，５ａ，５ｂ，７からの画像、ビデオまたはサブシーンは、光学補正の前後に本明細書に記載のようにスキャンまたは分析され得る。図２Ｈは、９０度に分離して配列された１００～１３０度の２つのカメラ２ａ～２ｂまたは２ｃ～２ｄを各々が有する２つの同一ユニットが、テーブルＣＴの頭または端において＞１８０度のビューユニットとして独立して用いられ得るが、さらに任意に、背中合わせに組合されて、部屋全体をスパンする会議テーブルＣＴの中央に適切に置かれた４つのカメラ２ａ～２ｄを有する図２Ａのユニットと実質的に同一のユニットを形成し得る変形を示す。図２Ｈのタワーユニット１４，１４の各々には、組合されたユニットを形成するためのネットワークインターフェイスおよび／または物理インターフェイスが設けられることになる。当該２つのユニットは、代わりに、またはさらに、自由に配列されてもよく、または以下の図２Ｋ、図６Ａ、図６Ｂおよび図１４に関して述べるように協調して配列されてもよい。

図２Ｊでは、図２ｃのカメラと同様の魚眼カメラまたはレンズ３ａ（反射屈折レンズ３ｂと物理的におよび／または概念的に交換可能である）がカメラタワー１４のカメラレベル（８から１５インチ）の頂上に配列されている。１つの回転可能な、高解像度の、任意に傾いているカメラ７（自身の独立したテレビ会議クライアントソフトウェアまたはインスタンスに任意に接続されている）が対象オブジェクト（ホワイトボードＷＢまたはテーブルＣＴ面上のページもしくは紙など）に方向付け可能である。図６Ａ、図６Ｂおよび図１４に示すように、この配列が有利に働くのは、第１のテレビ会議クライアントが（図１４では「会議室（ローカル）ディスプレイ上でまたはこれに接続されると）、たとえば第１の物理または仮想ネットワークインターフェイスまたはチャネル１０ａを介して、合成されたサブシーンをシーンＳＣカメラ３ａ，３ｂから単一カメラ画像または合成出力ＣＯとして受信し、第２のテレビ会議クライアント（図１４ではデバイス１００内に存在しており、第２の物理または仮想ネットワークインターフェイスまたはチャネル１０ｂを介してインターネットに接続されている）が独立した高解像度画像をカメラ７から受信するときである。

図２Ｋは、同様にカメラ３ａ，３ｂおよび７からの画像のための別個のビデオ会議チャネルが有利であり得る同様の配列を示しているが、図２Ｋの配列では、各カメラ３ａ，３ｂ対７が各自のタワー１４を有しており、インターフェイス１５（有線でも無線でもよい）を介してタワー１４の残りに任意に接続されている。図２Ｋの配列では、シーンＳＣカメラ３ａ，３ｂを有するパノラマタワー１４が会議テーブルＣＴの中央に置かれてもよく、方向付けられた高解像度タワー１４がテーブルＣＴの頭に、または、方向付けられた、高解像度の、別個のクライアント画像もしくはビデオストリームが対象となる任意の場所に置かれてもよい。各カメラ３ａ，７からの画像、ビデオまたはサブシーンは、光学補正の前後に本明細書に記載のようにスキャンまたは分析され得る。

会議カメラの使用
図３Ａ、図３Ｂおよび図１２を参照して、写真撮影シーンを合成して出力する本方法の実施形態によると、デバイスまたは会議カメラ１００（または２００）が、たとえば円形または矩形の会議テーブルＣＴの上に置かれる。デバイス１００は、会議参加者Ｍ１，Ｍ２，Ｍ３…Ｍｎの利便性または意図に従って配置されてもよい。

任意の典型的な会議では、参加者Ｍ１，Ｍ２…Ｍｎはデバイス１００に対して角度的に分散することになる。デバイス１００が参加者Ｍ１，Ｍ２…Ｍｎの中央に置かれる場合、参加者は、本明細書に記載のように、パノラマカメラでキャプチャされ得る。逆に、デバイス１００が参加者の片側に置かれる（たとえばテーブルの一端に置かれる、またはフラットパネルＦＰに装着される）場合は、参加者Ｍ１，Ｍ２…Ｍｎをスパンするのにワイドカメラ（たとえば９０度以上）で十分であり得る。

図３Ａに示すように、参加者Ｍ１，Ｍ２…Ｍｎの各々は、たとえば説明のために起点ＯＲから測定された、デバイス１００からの各自の方位Ｂ１，Ｂ２…Ｂｎを有することになる。各方位Ｂ１，Ｂ２…Ｂｎはある範囲の角度または公称角度であり得る。図３Ｂに示すように、「ロールされていない」、投影された、またはデワープされた魚眼、パノラマまたはワイドシーンＳＣは、予期される各自の方位Ｂ１，Ｂ２…Ｂｎに配列された各参加者Ｍ１，Ｍ２…Ｍｎの画像を含む。特に、矩形のテーブルＣＴおよび／またはテーブルＣＴの片側のデバイス１００の配列の場合、各参加者Ｍ１，Ｍ２…Ｍｎの画像は参加者の対向角度に従って短縮されているか遠近法の歪みを含み得る（図３Ｂにおいておよび図面全体にわたって、予期される短縮方向を用いて概略的に描かれている）。当業者に周知であるような遠近法および／または視覚幾何学的補正が、短縮されたまたは遠近法の歪みを有する画像、サブシーン、またはシーンＳＣに適用され得るが、不要な場合もある。

顔検出および拡幅
一例として、共通のアルゴリズムを使用する現代の顔検出ライブラリおよびＡＰＩ（５０個を超える利用可能なＡＰＩおよびＳＤＫのうち、たとえば、AndroidのFaceDetector.
Faceクラス、オブジェクティブＣのCIDetectorクラスおよびCIFaceFeatureオブジェクト、Haarカスケードを用いるOpenCVのCascadeClassifierクラス）は通常、瞳孔間距離、な
らびに顔特徴および顔ポーズの空間的位置を返す。参加者Ｍｎの耳を範囲に含めるべきである場合は、顔幅推定の大まかな下限は瞳孔間距離／角度の約２倍であり得、大まかな上限は瞳孔間距離／角度の３倍であり得る。肖像画幅推定（すなわち頭部にいくらかの肩幅を加えたもの）の大まかな下限は顔幅／角度の２倍であり得、大まかな上限は顔幅／角度の４倍であり得る。代わりに、サブシーン幅の固定角度または他のより直接的な設定が用いられてもよい。

図４Ａ～図４Ｂおよび図５Ａ～図５Ｂは、顔幅および肩幅の両方（そのいずれか一方は当初のサブシーン幅を設定するために本明細書に記載のような最小幅であり得る）の１つの例示的な二段階のおよび／または別個の識別を示す。図４Ａおよび図４Ｂに示すように、瞳孔間距離または顔特徴（特徴、クラス、色、セグメント、パッチ、テクスチャ、訓練された分類子、もしくは他の特徴）の他の寸法分析に従って設定された顔幅ＦＷ１，ＦＷ２…ＦＷｎがパノラマシーンＳＣから得られる。対照的に、図５Ａ、図５Ｂ、図６Ａおよび図６Ｂでは、肩幅ＳＷ１，ＳＷ２…ＳＷｎが同一の分析に従って設定され、約３倍もしくは４倍だけ、またはデフォルト音声分解もしくは幅に従ってスケーリングされる。

角度分離されたサブシーンの合成
図７Ａおよび図７Ｂは、５人の参加者Ｍ１，Ｍ２，Ｍ３，Ｍ４およびＭ５を示し、視覚最小幅Ｍｉｎ.２および対応する角度範囲対象方位Ｂ５と、音響最小幅Ｍｉｎ.５および対応するベクトル対象方位Ｂ２との識別の描写を含む、約１０人掛けの会議テーブルＣＴ、および会議カメラパノラマ画像信号ＳＣをそれぞれ示す、会議カメラ１００の使用事例を
上から見下ろした図である。

図７Ａでは、会議カメラ１００は１０人掛けの長い会議テーブルＣＴの中央に配置されている。したがって、テーブルＣＴの中央側の参加者Ｍ１，Ｍ２，Ｍ３は最も短縮が小さく、カメラ１００の最大画像域および角度ビューを占めているのに対して、テーブルＣＴの端側の参加者Ｍ５およびＭ４は最も短縮が大きく、最小画像域を占めている。

図７Ｂでは、全体のシーンビデオ信号ＳＣは、たとえば３６０度ビデオ信号であり、参加者Ｍ１…Ｍ５全員を含んでいる。会議テーブルＣＴはシーンＳＣにおいてパノラマビューの歪んだ「Ｗ」形状の特性を有して現れるのに対して、参加者Ｍ１…Ｍ５は会議カメラ１００からの自身の位置および距離に応じて異なるサイズで異なる短縮アスペクトを有して現れる（矩形の体および楕円形の頭で単純に概略的に表わされている）。図７Ａおよび図７Ｂに示すように、各参加者Ｍ１…Ｍ５は各自の方位Ｂ１…Ｂ５によってメモリ８内に表わされ、音、動作、または特徴の音響または視覚またはセンサ局所化によって求められ得る。図７Ａおよび図７Ｂに描かれているように、参加者Ｍ２は顔の検出によって局所化されている（かつ、対応するベクトル状の方位Ｂ２および最小幅Ｍｉｎ．２がメモリに記録されており、顔検出ヒューリスティックから得られた顔幅に比例して求められる）場合があり、参加者Ｍ５はビーム形成、相対的信号強度、および／または発話のような音声信号の飛行時間によって局所化されている（かつ、対応するセクタ状の方位Ｂ５および最小幅Ｍｉｎ．５がメモリに記録されており、音響アレイ４の概算解像度に比例して求められる）場合がある。

図８Ａは、会議カメラ１００ビデオ信号と、最小幅Ｍｉｎ．ｎと、ステージシーンビデオ信号ＳＴＧ，ＣＯに合成すべきサブシーンビデオ信号ＳＳ２，ＳＳ５およびパノラマビデオ信号ＳＣ．Ｒの抽出との概略図を示す。図８Ａの上部は本質的に図７Ｂを再現している。図８Ａに示すように、図７Ｂからの全体のシーンビデオ信号ＳＣが対象方位（この例では方位Ｂ２およびＢ５に限定される）ならびに幅（この例では幅Ｍｉｎ．２およびＭｉｎ．５に限定される）に従ってサブサンプリングされ得る。サブシーンビデオ信号ＳＳ２は、（視覚的に求められた）顔幅限界Ｍｉｎ．２と少なくとも同じ幅であるが、ステージＳＴＧの幅、高さ、および／もしくは利用可能な領域、または合成出力ＣＯのアスペクト比および利用可能な領域に対してより広くなってもよいし、またはより広くスケーリングされてもよい。サブシーンビデオ信号ＳＳ５は、（音響的に求められた）音響概算Ｍｉｎ．５と少なくとも同じ幅であるが、同様により広くなってもよいし、またはより広くスケーリングされてもよく、かつ限定されてもよい。このキャプチャ内の縮小したパノラマシーンＳＣ．Ｒは全体のシーンＳＣの上下がクロップされたバージョンであり、この場合、１０：１のアスペクト比にクロップされる。代わりに、縮小したパノラマシーンＳＣ．Ｒは、比例的スケーリングまたはアナモフィックスケーリングによって全体のパノラマシーンビデオ信号ＳＣから得られてもよい（たとえば上部および下部は残るが、中央部よりも圧縮される）。いずれの場合も、図８Ａおよび図８Ｂの例では、３つの異なるビデオ信号源ＳＳ２，ＳＳ５およびＳＣ．ＲがステージＳＴＧまたは合成出力ＣＯに合成されるように利用可能である。

図８Ｂは本質的に図８Ａの下部を再現しており、ステージシーンビデオ信号ＳＴＧまたはＣＯに合成すべきサブシーンビデオ信号ＳＳ２，ＳＳ５およびパノラマビデオ信号ＳＣ．Ｒの概略図を示す。図８Ｃから図８Ｅは、可能な３つの合成出力またはステージシーンビデオ信号ＳＴＧまたはＣＯを示す。

図８Ｃに示す合成出力ＣＯまたはステージシーンビデオ信号ＳＴＧでは、縮小したパノラマビデオ信号ＳＣ．ＲがステージＳＴＧの上部全体を横切って合成されており、この場合はステージ領域の１／５または２０％未満を占めている。サブシーンＳＳ５は少なくと
もその最小領域を占めるように合成されており、全体的にスケーリングされていないが、ステージ幅の約１／２を満たすように拡幅されている。サブシーンＳＳ２も、少なくともその（大幅に小さい）最小領域を占めるように合成されており、全体的にスケーリングされておらず、やはりステージ幅の約１／２を満たすように拡幅されている。この合成出力ＣＯでは、２つのサブシーンにほぼ同じ面積が与えられているが、参加者はカメラ１００からの自身の距離に対応する異なる見掛けのサイズである。また、合成された２つのサブシーンの左右のまたは時計回りの順序は、室内の参加者またはカメラ１００からの対象方位の（かつ、縮小したパノラマビューＳＣ．Ｒに現われているような）順序と同じであることに留意すべきである。さらに、本明細書に記載の移行のいずれかが、サブシーンビデオ信号ＳＳ２，ＳＳ５をステージビデオ信号ＳＴＧに合成する際に用いられ得る。たとえば、両方のサブシーンがステージＳＴＧを単純に瞬時に満たしてもよく、または、一方が、その対応する左右のステージ方向からスライドインしてステージ全体を満たした後、他方がその対応する左右のステージ方向からスライドインすることによって漸進的に幅が狭くなる、などでもよく、いずれの場合も、サブシーンウインドウ、フレーム、アウトラインなどが移行全体にわたってそのビデオストリームを表示している。

図８Ｄに示す合成出力ＣＯまたはステージシーンビデオ信号ＳＴＧでは、縮小したパノラマビデオ信号ＳＣ．Ｒは同様にシーンＳＴＧに合成されているが、信号ＳＳ５およびＳＳ２の各々は、参加者Ｍ５，Ｍ２がステージＳＴＧのより大きい領域を占めるように比例してスケーリングまたはズームされている。各信号ＳＳ５およびＳＳ２の最小幅もズームされて描かれており、信号ＳＳ５およびＳＳ２は依然として各自の最小幅以上を占めているが、各々はステージの約１／２を満たすように拡幅されている（ＳＳ５の場合、最小幅はステージの１／２を占めている）。参加者Ｍ５，Ｍ３はステージＳＴＧ上で、または合成出力信号ＣＯ内で実質的に同等のサイズである。

図８Ｅに示す合成出力ＣＯまたはステージシーンビデオ信号ＳＴＧでは、縮小したパノラマビデオ信号ＳＣ．Ｒは同様にシーンＳＴＧに合成されているが、信号ＳＳ５およびＳＳ２の各々は状況に応じてスケーリングまたはズームされている。サブシーン信号ＳＳ５およびＳＳ２は依然として各自の最小幅以上を占めているが、各々はステージの異なる量を満たすように拡幅されている。この場合、サブシーン信号ＳＳ５はスケールアップまたはズームされていないが、より広い最小幅を有しており、ステージＳＧの２／３よりも多い領域を占めている。一方、信号ＳＳ２の最小幅はズームされて描かれており、その最小幅の約３倍を占めている。図８Ｅの相対的比率および状態が起こる１つの状況は、参加者Ｍ５に対して視覚的な局所化が行われず、広く不確実な（低い信頼レベル）対象方位および広い最小幅が与えられ得る場合、およびさらに、参加者Ｍ５が長い間発言し続けて、ステージＳＴＧのサブシーンＳＳ５の占有率を任意に増加させる場合であり得る。同時に、参加者Ｍ２は信頼性の高い顔幅検出を有し、サブシーンＳＳ２がスケーリングおよび／または拡幅されてその最小幅よりも大きい領域を消費することを可能にし得る。

図９Ａも、会議カメラ１００ビデオ信号と、最小幅Ｍｉｎ．ｎと、ステージシーンビデオ信号に合成すべき代替のサブシーンビデオ信号ＳＳｎおよび代替のパノラマビデオ信号ＳＣ．Ｒの抽出との概略図を示す。図９Ａの上部は、参加者Ｍ１が最新のスピーカーになっており、対応するサブシーンＳＳ１が対応する最小幅Ｍｉｎ．１を有している以外は、本質的に図７Ｂを再現している。図９Ａに示すように、図７Ｂからの全体のシーンビデオ信号ＳＣは、対象方位（ここでは方位Ｂ１，Ｂ２およびＢ５）ならびに幅（ここでは幅Ｍｉｎ．１，Ｍｉｎ．２およびＭｉｎ．５）に従ってサブサンプリングされ得る。サブシーンビデオ信号ＳＳ１，ＳＳ２およびＳＳ５の各々は、（視覚的に、音響的に、またはセンサで求められた）各自の最小幅Ｍｉｎ．１，Ｍｉｎ．２およびＭｉｎ．５と少なくとも同じ幅であるが、ステージＳＴＧの幅、高さ、および／もしくは利用可能な領域または合成出力ＣＯのアスペクト比および利用可能な領域に対してより広くなってもよいし、または
より広くスケーリングされてもよい。このキャプチャ内の縮小したパノラマシーンＳＣ．Ｒは全体のシーンＳＣの上下および側部がクロップされたバージョンであり、この場合、約７．５：１のアスペクト比で、最も関連している／直近のスピーカーＭ１，Ｍ２およびＭ５のみをスパンするようにクロップされる。図９Ａおよび図９Ｂの例では、４つの異なるビデオ信号源ＳＳ１，ＳＳ２，ＳＳ５およびＳＣ．ＲがステージＳＴＧまたは合成出力ＣＯに合成されるように利用可能である。

図９Ｂは本質的に図９Ａの下部を再現しており、ステージシーンビデオ信号に合成すべきサブシーンビデオ信号およびパノラマビデオ信号の概略図を示す。図９Ｃから図９Ｅは、可能な３つの合成出力またはステージシーンビデオ信号を示す。

図９Ｃに示す合成出力ＣＯまたはステージシーンビデオ信号ＳＴＧでは、縮小したパノラマビデオ信号ＳＣ．ＲがステージＳＴＧの上部をほぼ完全に横切って合成されており、この場合はステージ領域の１／４未満を占めている。サブシーンＳＳ５はここでも、少なくともその最小領域を占めるように合成されており、全体的にスケーリングされていないが、ステージ幅の約１／３を満たすように拡幅されている。サブシーンＳＳ２およびＳＳ１も、少なくともそれらのより小さい最小領域を占めるように合成されており、全体的にスケーリングされておらず、さらに、各々がステージ幅の約１／３を満たすように拡幅されている。この合成出力ＣＯでは、３つのサブシーンにほぼ同じ面積が与えられているが、参加者はカメラ１００からの自身の距離に対応する異なる見掛けのサイズである。合成されたまたは移行した２つのサブシーンの左右のまたは時計回りの順序は、室内の参加者またはカメラ１００からの対象方位の（かつ、縮小したパノラマビューＳＣ．Ｒに現われているような）順序と同じままである。さらに、本明細書に記載の移行のいずれかが、サブシーンビデオ信号ＳＳ１，ＳＳ２，ＳＳ５をステージビデオ信号ＳＴＧに合成する際に用いられ得る。特に、移行は、縮小したパノラマビューＳＣ．Ｒと同じ左右の順序でまたは当該順序から近づくスライド式移行としてより快適である（たとえば、Ｍ１およびＭ２が既にステージ上にある場合は、Ｍ５がステージの右からスライドインして、Ｍ１およびＭ５が既にステージ上にある場合は、Ｍ２がそれらの間で上または下からスライドインして、Ｍ２およびＭ５が既にステージ上にある場合は、Ｍ１がステージの左からスライドインして、パノラマビューＳＣ．ＲのＭ１，Ｍ２，Ｍ５の順序を保存すべきである）。

図９Ｄに示す合成出力ＣＯまたはステージシーンビデオ信号ＳＴＧでは、縮小したパノラマビデオ信号ＳＣ．Ｒは同様にシーンＳＴＧに合成されているが、信号ＳＳ１，ＳＳ２およびＳＳ５の各々は、参加者Ｍ１，Ｍ２，Ｍ５がステージＳＴＧのより大きい領域を占めるように比例してスケーリングまたはズームされている。各信号ＳＳ１，ＳＳ２，ＳＳ５の最小幅もズームされて描かれており、信号ＳＳ１，ＳＳ２，ＳＳ５は依然として各自のズームされた最小幅以上を占めているが、サブシーンＳＳ５はステージ上でそのズームされた最小幅よりも若干大きい領域を満たすように拡幅されており、ＳＳ５はステージの幅の６０パーセントを占めており、ＳＳ２は１５パーセントを占めているに過ぎず、ＳＳ３が残りの２５パーセントを占めている。参加者Ｍ１，Ｍ２，Ｍ５はステージＳＴＧ上で、または合成出力信号ＣＯ内で実質的に同等の高さまたは顔サイズであるが、参加者Ｍ２およびサブシーンＳＳ２は頭部および／または体幅よりも少し大きい領域のみを示すように実質的にクロップされてもよい。

図９Ｅに示す合成出力ＣＯまたはステージシーンビデオ信号ＳＴＧでは、縮小したパノラマビデオ信号ＳＣ．Ｒは同様にシーンＳＴＧに合成されているが、信号ＳＳ１，ＳＳ２，ＳＳ５の各々は状況に応じてスケーリングまたはズームされている。サブシーン信号ＳＳ１，ＳＳ２，ＳＳ５は依然として各自の最小幅以上を占めているが、各々はステージの異なる量を満たすように拡幅されている。この場合、サブシーン信号ＳＳ１，ＳＳ２，ＳＳ５のいずれもスケールアップまたはズームされていないが、直近のまたは最も関連して
いるスピーカーＭ１を有するサブシーンＳＳ１はステージＳＧの１／２よりも大きい領域を占めている。一方、サブシーンＳＳ２およびＳＳ５の各々はステージＳＴＧのより小さいまたは減少した占有率を占めているが、サブシーンＳＳ５が最小幅を有しているため、ステージＳＴＧの占有率のさらなる減少はサブシーンＳＳ２またはＳＳ１から取られる。図９Ｅの相対的比率および状態が起こる１つの状況は、参加者Ｍ１に対して視覚的な局所化が行われ得るが、参加者Ｍ１が長時間発言し続けて、ステージＳＴＧのサブシーンＳＳ１の占有率を他の２つのサブシーンに対して任意に増加させる場合であり得る。

図９Ｆに描かれているパノラマシーンＳＣまたは縮小したパノラマシーンＳＣ．Ｒでは、会議カメラ１０００はテーブルＣＴの中央ではなく、代わりに（たとえば図７Ａの右側に破線位置によって示すように）テーブルＣＴの一端側に置かれており、フラットパネルＦＰは遠隔会議参加者を示している。この場合、会議テーブルＣＴはやはり大きく歪んだ「Ｗ」形状で現れる。図９Ｆの上部に示すように、会議カメラ１００またはパノラマシーンＳＣのインデックス方向もしくは起点ＯＲが、高アスペクト比パノラマシーンＳＣの限界が会議テーブルＣＴを「割る」ように向けられている場合、テーブルＣＴの周りの人物の位置を参照することは非常に困難である。しかし、会議カメラ１００またはパノラマシーンのインデックス方向もしくは起点ＯＲが、テーブルＣＴが連続的であるようにおよび／または全員が片側を向いて位置決めされるように配列される場合は、シーンはより自然になる。本実施形態によると、プロセッサ６は画像分析を実行してパノラマ画像のインデックス位置または起点位置を変更し得る。一例では、パノラマ画像のインデックス位置または起点位置は、テーブル領域に対応する画像パッチの単一の連続的なセグメント化の面積が最大化される（たとえばテーブルが割れない）ように「回転」させられ得る。別の例では、パノラマ画像のインデックス位置または起点位置は、２つの最も近いまたは最大の顔認識が互いに最も離れている（たとえばテーブルが割れない）ように「回転」させられ得る。第３の例では、別の例では、パノラマ画像のインデックス位置または起点位置は、テーブル領域に対応する画像パッチの最低高さセグメント化がパノラマエッジに位置する（たとえば「Ｗ」形状が回転して、会議カメラ１００に最も近いテーブルエッジをパノラマエッジに置く）ように「回転」させられ得る。

図１０Ａは、可能な合成出力ＣＯまたはステージシーンビデオ信号ＳＴＧの概略図を示しており、図９Ｄの合成出力信号ＣＯまたはステージビデオ信号ＳＴＧを実質的に再現しており、縮小したパノラマ信号がステージＳＴＧの上部の１／４未満を占めるように合成されており、３つの異なるサブシーンビデオ信号がステージＳＴＧの残りの異なる量を占めるように合成されている。図１０Ｂは、可能な合成出力またはステージシーンビデオ信号の代替概略図を示しており、互いに隣接した３つの異なるサブシーンビデオ信号が、ステージＳＴＧまたは合成出力信号ＣＯの異なる量を占めるように合成されている。

図１１Ａおよび図１１Ｂは、ビデオ会議ソフトウェアが合成出力またはステージシーンビデオ信号を表示し得る２つの代替方法の概略図を示す。図１１Ａおよび図１１Ｂでは、合成出力信号ＣＯは添付の音声（現在のスピーカーの声を強調するように任意に混合および／またはビーム形成される）とともに単一カメラ信号として（たとえばＵＳＢポートを介して）受信され、単一カメラ信号としてビデオ会議アプリケーションに統合されている。図１１Ａに示すように、各々の単一カメラ信号には別個のウインドウが与えられており、合成出力信号ＣＯなどの選択信号またはアクティブ信号または前景信号がサムネイルとして再現される。対照的に、図１１Ｂに示す例では、選択された単一カメラ信号には実用的な限り最大の面積がディスプレイ上に与えられており、合成出力信号ＣＯなどの選択信号またはアクティブ信号または前景信号が網掛けしたサムネイルまたはグレー表示したサムネイルとして提示される。

サブシーン識別および合成
図１２に示すように、ステップＳ１０において、新たなサブシーンＳＳ１，ＳＳ２…ＳＳｎが、たとえばパノラマビデオ信号ＳＣ内で認識されると、シーンに応じて生成されて追跡され得る。その後、ステップＳ３０において、サブシーンＳＳ１，ＳＳ２…ＳＳｎは、本明細書に記載の対象方位、条件、および認識に従って合成され得る。合成出力またはステージシーンＳＴＧ，ＣＯが次にステップ５０において出力され得る。

図１３に示す付加的な詳細において、かつ図３Ａから図７Ｂ（図３Ａおよび図７Ｂを含む）に示すように、ステップＳ１２において、デバイス１００は、１つ以上の少なくとも部分的にパノラマのカメラ２または２ａ…２ｎから少なくとも９０度の画角の広角（たとえば９０～３６０度の角度）シーンＳＣをキャプチャする。

追跡およびサブシーン識別のためのその後の処理は、ネイティブの、歪みのない、もしくはスティッチングされていないシーンＳＣに対して実行されてもよいし、またはロールされていない、歪み補正された、もしくはスティッチングされたシーンＳＣに対して実行されてもよい。

ステップＳ１４において、新たな対象方位Ｂ１，Ｂ２…Ｂｎが、ビーム形成、認識、識別、ベクトル化、またはホーミング技術の１つ以上を用いて広角ビューＳＣから得られる。

ステップＳ１６において、１つ以上の新たな方位が、当初の角度範囲（たとえば０～５度）から、典型的な人間の頭部、および／または典型的な人間の肩、または他のデフォルト幅（たとえば画素もしくは角度範囲で測定される）をスパンするのに十分な角度範囲まで拡幅される。分析の順序は逆であってもよいことに留意すべきであり、たとえば、まず顔を検出してから当該顔への方位を求めてもよい。拡幅は１つ、２つ、またはそれ以上のステップで行なわれてもよく、本明細書に記載の２つのステップは例に過ぎない。また、「拡幅」は漸進的な拡幅処理を必要とせず、たとえば、「拡幅」は検出、認識、閾値、または値に基づいて角度範囲を直接設定することを意味し得る。サブシーンの角度範囲を設定するのに異なる方法が用いられてもよい。２つ以上の顔が互いに近接しているなどのいくつかの場合、「拡幅」は、正確な対象方位Ｂ１に１つの顔しかなくても、これらの顔のすべてを含むように選択され得る。

ステップＳ１６において、（かつ図５Ａおよび図５Ｂに示すように）、肩幅サブシーンＳＳ１，ＳＳ２…ＳＳｎが、瞳孔間距離または他の顔、頭部、胴体もしくは他の可視的な特徴（特徴、クラス、色、セグメント、パッチ、テクスチャ、訓練された分類子、または他の特徴）から取られた測定に従ってステップＳ１８のように設定または調整され得、シーンＳＣから得られ得る。サブシーンＳＳ１，ＳＳ２…ＳＳｎの幅は、肩幅に従って（代わりに顔幅ＦＷに従って）、または代わりに、音声マイクアレイ４の角度分解能に関連する予め定められた幅として設定され得る。

代わりに、ステップＳ１６において、各々のまたはすべての対象方位についてのサブシーン幅に対する上限および／または下限が、たとえば、それぞれピーク、平均、または代表的な肩幅ＳＷおよび顔幅ＦＷとして、ステップＳ１８において設定または調整され得る。ＦＷおよびＳＷの表記は本明細書において、「顔幅」ＦＷまたは「肩幅」ＳＷ（すなわち、サブシーンとして角度的にキャプチャすべき顔もしくは肩のスパン）、および顔幅ＦＷまたは肩幅ＳＷを表わす結果的な顔幅または肩幅サブシーンＳＳ（すなわち、ワイドシーンＳＣから識別され、得られ、調整され、選択されたまたはキャプチャされた画素のブロックもしくは対応する幅のサブシーン）として交換可能に用いられることに留意すべきである。

ステップＳ１６において、またはステップＳ１６～Ｓ１８において代わりにもしくは加えて、少なくとも２０度の画角（たとえばＦＷ１および／またはＳＷ１）の第１の個別のサブシーンが、第１の対象方位Ｂ１，Ｂ２…Ｂｎにおいて広角シーンＳＣから得られる。少なくとも２０度の画角（たとえばＦＷ１および／またはＳＷ１）設定の代わりにまたは当該設定に加えて、第１の個別のサブシーンＦＷ１および／またはＳＷ１は、（たとえばＭ１に特有であるかＭ１，Ｍ２…Ｍｎを表わす）瞳孔間距離の少なくとも２倍から１２倍をスパンする画角として、または、代わりに、もしくはさらに、（たとえばＭ１に特有であるかＭ１，Ｍ２…Ｍｎを表わす）瞳孔間距離と（たとえばＭ１に特有であるかＭ１，Ｍ２…Ｍｎを表わす）肩幅との間の幅をキャプチャするようにスケーリングされた画角として、広角シーンＳＣから得られ得る。より広いまたは肩幅ＳＷｎのサブシーンキャプチャは、より狭い顔幅ＦＷｎを後の参照用に記録し得る。

第２の対象方位Ｂ１，Ｂ２…Ｂｎが利用可能である場合、ステップＳ１６において、またはステップＳ１６～Ｓ１８において代わりにもしくは加えて、第２の個別のサブシーン（たとえばＦＷ２および／またはＳＳ２）が、たとえばＢ２である第２の対象方位において広角ビューＳＣから同様に得られる。逐次の対象方位Ｂ３…Ｂｎが利用可能である場合、逐次の個別のサブシーン（たとえばＦＷ３…ｎおよび／またはＳＳ３…ｎ）が、逐次の対象方位Ｂ３…Ｂｎにおいて広角ビューＳＣから同様に得られる。

第１および第２の対象方位Ｂ１，Ｂ２（およびその後の対象方位Ｂ３…Ｂｎ）は、異なるカメラ画像のスティッチングによって得られるか、単一パノラマカメラから得られるかにかかわらず、同一のデバイス１００から得られるので、第１の対象方位に対して実質的に共通の角度起点を有し得る。任意に、異なる角度起点からの１つ以上の追加の対象方位Ｂｎが、デバイス１００の別のカメラ５もしくは７から、または接続されたデバイス（たとえば、接続されたラップトップ、タブレット、もしくは図１Ａのモバイルデバイス４０、または図２Ｋの衛星タワー１４ｂ上の接続された衛星カメラ７）上のカメラから得られ得る。

上述のように、幅ＦＷまたはＳＷを表わす、設定された、得られた、または拡幅されたサブシーンＳＳは、たとえば、（ｉ）他のサブシーンと同等のもしくは一致するサイズであるように、（ｉｉ）任意に上述の幅の下限未満でないまたは上限を超えない、出力画像もしくはストリーム信号のアスペクト比に対して均一に分割されるか分割可能である（たとえば２個、３個もしくは４個のセグメントに分割される）ように、（ｉｉｉ）近くの対象方位において他のサブシーンとのオーバーラップを回避するように、および／または（ｉｖ）他のサブシーンと輝度、コントラスト、もしくは他のビデオ特性が一致するように、ステップＳ１８において調整され得る。

ステップＳ２０（図１６～図１８からモード１、２、もしくは３のステップを合理的で動作可能な組合せで含み得る）において、識別された対象方位Ｂ１，Ｂ２…ＢｎならびにサブシーンＦＷ１，ＦＷ２…ＦＷｎおよび／またはＳＳ１，ＳＳ２…ＳＳｎに関するデータおよび／またはメタデータが追跡目的で記録され得る。たとえば、起点ＯＲからの相対的位置（たとえばセンサもしくは計算によって求められる）、幅、高さ、および／または上述のいずれかの調整されたパラメータが記録され得る。

代わりに、ステップＳ２０において、サブシーンと関連付けられた特性データ、予測データまたは追跡データが記録され、たとえば、ステップＳ２０においてサブシーン、方位、または他の特徴追跡データベースに追加され得る。たとえば、サブシーンＦＷ１，ＦＷ２…ＦＷｎおよび／またはＳＳ１，ＳＳ２…ＳＳｎは、画像またはビデオシーンＳＣ内に識別された、瞬間的な画像、画像ブロック、またはビデオブロックであり得る。ビデオの場合、ビデオの圧縮／解凍アプローチに応じて、予測データがシーンまたはサブシーンと
関連付けられ得、サブシーンと関連付けられたデータまたはメタデータとして記録され得るが、追跡する追加の新たなサブシーンの一部である傾向がある。

追跡データまたは他の対象データの記録に続いて、処理はメインルーチンに戻る。
状況ごとのサブシーンの合成
図１２のステップＳ３０において、プロセッサ６は状況ごとに（たとえば、ステップＳ２０において追跡データとしてまたはシーンデータとして記録されたデータ、フラッグ、指標、設定、または他のアクションパラメータごとに）サブシーンＳＳｎを合成し得、すなわち、異なる幅ＦＷ１，ＦＷ２…ＦＷｎおよび／またはＳＷ１，ＳＷ２…ＳＷｎに対応する第１の、任意に第２の、および任意にその後の個別のサブシーンＳＳｎを、合成シーンまたは単一カメラ画像またはビデオ信号ＳＴＧまたはＣＯに組合わせる。本明細書において、単一カメラ画像またはビデオ信号ＳＴＧ，ＣＯは、単一のＵＳＢ（または他の周辺バスもしくはネットワーク）カメラに対応するＵＳＢ（または他の周辺バスもしくはネットワーク）周辺画像またはビデオ信号またはストリームを表わす単一のビデオフレームまたは単一の合成ビデオフレームを指し得る。

ステップＳ３２において、デバイス１００、その回路、および／またはその実行可能コードは、合成されて組合わされた画像またはビデオストリームＳＴＧまたはＣＯとして配列すべき関連しているサブシーンＳＳｎを識別し得る。「関連している」とは、ステップＳ１４における識別ならびに／またはステップＳ２０における更新および追跡に関して述べた基準に従って判断され得る。たとえば、１つの関連しているサブシーンは直近のスピーカーのサブシーンであり、第２の関連しているサブシーンは２番目に直近のスピーカーのサブシーンであり得る。これら２人の直近のスピーカーは、３番目のスピーカーが発言することによってさらに関連するようになるまで、最も関連し続け得る。本明細書中の実施形態は、合成シーン内のサブシーン内に３人のスピーカーを収容し、その各々が等しい幅のセグメント、または自身の頭部および／もしくは肩を保持するのに十分広いセグメントを有している。しかし、２人のスピーカーまたは４人のスピーカーまたはそれ以上のスピーカーも、合成されたスクリーン幅のそれぞれより広いまたは狭い占有率で容易に収容され得る。

高さおよび幅のみにおいて顔をカプセル化するサブシーンＳＳｎを選択することによって、最大で８人のスピーカーが合理的に収容され得（たとえば合成シーンの上段に４人、下段に４人）、４人から８人のスピーカーの配列が、適切なスクリーンおよび／またはウインドウ（ウインドウに対応するサブシーン）のバッファリングおよび合成（たとえば、サブシーンを、オーバーラップしている１デックのカードとして、またはより関連しているスピーカーが大きく手前にあり、あまり関連していないスピーカーが小さく奥にあるビューの短縮されたリングとして提示する）によって収容され得る。図６Ａおよび図６Ｂを参照して、（たとえば図６Ａに描かれているように第２のカメラ７によって撮像された場合に）表示すべき最も関連しているシーンはＷＢであるとシステムが判断した場合はいつでも、シーンＳＳｎはホワイトボードコンテンツＷＢをさらに含み得る。ホワイトボードまたはホワイトボードシーンＷＢは目立って提示され、シーンの大半または大部分を占め得るのに対して、スピーカーＭ１，Ｍ２…ＭｎまたはＳＰＫＲはホワイトボードＷＢコンテンツとともにピクチャーインピクチャーで任意に提示され得る。

ステップＳ３４において、関連しているサブシーンセットＳＳ１，ＳＳ２…ＳＳｎが以前に関連していたサブシーンＳＳｎと比較される。ステップＳ３４およびＳ３２は逆の順序で実行されてもよい。この比較によって、以前に関連していたサブシーンＳＳｎが利用可能であるか、ステージＳＴＧもしくはＣＯ上に残り続けるべきであるか、ステージＳＴＧもしくはＣＯから除去されるべきであるか、より小さいもしくは大きいサイズもしくはパースペクティブに再構成されるべきであるか、またはそうでなければ以前に合成された
シーンもしくはステージＳＴＧもしくはＣＯから変更される必要があるかが判断される。新たなサブシーンＳＳｎを表示すべきである場合、シーン変更の候補サブシーンＳＳｎが多すぎる場合がある。たとえば、ステップＳ３６において、シーン変更の閾値が確認され得る（このステップはステップＳ３２およびＳ３４の前または間に実行され得る）。たとえば、個別のサブシーンＳＳｎの数が閾値数（たとえば３）よりも大きくなると、広角シーンＳＣ全体または縮小したパノラマシーンＳＣ．Ｒを（たとえばそのまま、またはＵＳＢ周辺装置カメラのアスペクト比内に収まるようにセグメント化してスタックして）出力することが好ましい場合がある。代わりに、複数のサブシーンＳＳｎの合成シーンの代わりに、または合成出力ＣＯとして、単一カメラシーンを提示することが最良な場合がある。

ステップＳ３８において、デバイス１００、その回路、および／またはその実行可能コードは、サブシーンメンバーＳＳ１，ＳＳ２…ＳＳｎと、それらが合成出力ＣＯに移行するおよび／または合成される順序とを設定し得る。言い換えれば、ステージＳＴＧまたはＣＯとして出力すべきサブシーン補数ＳＳ１，ＳＳ２…ＳＳｎの候補メンバー、およびシーン変更のための任意の規則または閾値が満たされているか超えられているかが判断されると、シーンＳＳｎの順序およびそれらが追加される、除去される、切替えられる、または再配列される移行がステップＳ３８において決定され得る。ステップＳ３８は、以前のステップおよびスピーカーＳＰＫＲまたはＭ１，Ｍ２…Ｍｎの履歴に応じて、より重要であるかそれほど重要でないことに留意すべきである。２人または３人のスピーカーＭ１，Ｍ２…ＭｎまたはＳＰＫＲが識別され、デバイス１００が動作し始めるのと同時に表示されるべきである場合、ステップＳ３８は白紙の状態で開始し、デフォルトの関連規則に従う（たとえば、スピーカーＳＰＫＲを時計回りに提示する、合成出力ＣＯにおいて３人以下のスピーカーで開始する）。同じ３人のスピーカーＭ１，Ｍ２…Ｍｎが関連し続けている場合は、サブシーンメンバー、順序、および合成はステップＳ３８において変更しなくてもよい。

上述のように、ステップＳ１８に関して述べた識別、およびステップＳ２０に関して述べた予測／更新によって、ステップＳ３２～Ｓ４０において合成出力ＣＯが変更され得る。ステップＳ４０において、実行すべき移行および合成が決定される。

たとえば、デバイス１００は、その後の対象方位においてその後の（たとえば第３の、第４の、またはその後の）個別のサブシーンＳＳｎを広角またはパノラマシーンＳＣから得ることができる。ステップＳ３２～Ｓ３８において、その後のサブシーンＳＳｎは、合成シーンまたは合成出力ＣＯに合成されるか組合されるように設定され得る。さらに、ステップＳ３２～Ｓ３８において、その後のサブシーン以外の別のサブシーンＳＳｎ（たとえば、以前のまたはあまり関連していないサブシーン）が、合成シーンから（合成移行によって）除去されるように設定され得る（そして、ステップＳ５０において単一カメラシーンとしてフォーマットされる合成シーンまたは合成出力ＣＯとして合成されて出力される）。

追加例または代替例として、デバイス１００はステップＳ３２～Ｓ３８において、ステップＳ１８および／またはＳ２０を参照して述べたような追加基準（たとえば、発言の時間、発言の周波数、可聴周波数の咳／くしゃみ／戸口のベル、音の振幅、発話角度と顔認識との一致）の設定に従って、合成シーンまたは合成出力ＣＯに合成もしくは組合せるべき、または合成シーンもしくは合成出力ＣＯから除去すべきサブシーンＳＳｎを設定し得る。ステップＳ３２～Ｓ３８において、追加基準を満たすその後のサブシーンＳＳｎのみが合成シーンＣＯに組合されるように設定され得る。ステップＳ４０において、実行すべき移行および合成ステップが決定される。ステージシーンは次にステップＳ５０において、単一カメラシーンとしてフォーマットされる合成出力ＣＯとして合成されて出力される
。

追加例または代替例として、デバイス１００はステップＳ３２～Ｓ３８において、ステップＳ１８および／またはＳ２０を参照して述べたような保持基準（たとえば、音声／発言の時間、音声／発言の周波数、最後の発言からの時間、保持用にタグ付けされている）に基づいて、サブシーンＳＳｎを除去から保護される保護サブシーンとして設定し得る。ステップＳ３２～Ｓ３８において、その後のサブシーン以外のサブシーンＳＳｎを除去することは、保護サブシーンを、合成シーンから除去されるように設定しない。ステップＳ４０において、実行すべき移行および合成が決定される。合成シーンは次にステップＳ５０において、単一カメラシーンとしてフォーマットされる合成出力ＣＯとして合成されて出力される。

追加例または代替例として、デバイス１００はステップＳ３２～Ｓ３８において、強調基準（たとえば、繰り返しのスピーカー、指定されたプレゼンター、直近のスピーカー、最も声の大きいスピーカー、手の中で／シーン変更において回転するオブジェクト、周波数領域内の高周波数シーンアクティビティ、挙手）に基づいて、ステップＳ１８および／またはＳ２０を参照して述べたようなサブシーンＳＳｎ強調動作（たとえば、スケーリング、ブリンキング、ジニー、バウンシング、カードソーティング、オーダリング、コーナリング）を設定し得る。ステップＳ３２～Ｓ３８において、個別のサブシーンＳＳｎの少なくとも１つが、各自のまたは対応する強調基準に基づいてサブシーン強調動作に従って強調されるように設定され得る。ステップＳ４０において、実行すべき移行および合成が決定される。合成シーンは次にステップＳ５０において、単一カメラシーンとしてフォーマットされる合成出力ＣＯとして合成されて出力される。

追加例または代替例として、デバイス１００はステップＳ３２～Ｓ３８において、センサまたは検知された基準（たとえば、静か過ぎる、リモートポーク）に基づいて、ステップＳ１８および／またはＳ２０を参照して述べたようなサブシーン参加者通知またはリマインダ動作（たとえば、サブシーンの側にいる人物に光をブリンクさせる）を設定し得る。ステップＳ３２～Ｓ３８において、ローカルリマインダ指標が、各自のまたは対応する検知された基準に基づいて通知またはリマインダ動作に従って起動されるように設定され得る。ステップＳ４０において、実行すべき移行および合成が決定される。合成シーンは次にステップＳ５０において、単一カメラシーンとしてフォーマットされる合成出力ＣＯとして合成されて出力される。

ステップＳ４０において、デバイス１００、その回路、および／またはその実行可能コードは、合成画像のサブシーン補数を円滑に変更するための移行および合成を生成する。追跡データまたは他の対象データの合成出力ＣＯの合成に続いて、処理はメインルーチンに戻る。

合成出力
図１５のステップＳ５２～Ｓ５６において、（任意に逆の順序で）、合成シーンＳＴＧまたはＣＯは、単一カメラシーンとして送信または受信されるようにフォーマットされ、すなわち合成され、および／または移行はバッファ、スクリーンもしくはフレームにレンダリングもしくは合成される（この場合、「バッファ」、「スクリーン」または「フレーム」は単一カメラビュー出力に対応する）。デバイス１００、その回路、および／またはその実行可能コードは、合成ウインドウまたはスクリーンマネージャを、任意にＧＰＵ加速と共に用い、サブシーンごとにオフスクリーンバッファを提供し、バッファを、周辺グラフィックスおよび移行グラフィックスとともに、単一カメラビューを表わす単一カメラ画像に合成し得、その結果を出力またはディスプレイメモリに書込む。合成ウインドウまたはサブスクリーンマネージャ回路は、ブレンディング、フェージング、スケーリング、
回転、複製、曲げ、捩じれ、シャフリング、ブラーリング、もしくは他の処理をバッファリングされたウインドウに対して実行するか、またはフリップ切替、スタック切替、カバー切替、リング切替、グルーピング、タイリングといったドロップシャドウおよびアニメーションをレンダリングし得る。合成ウインドウマネージャは、合成シーンに入るサブシーンが移行効果で追加される、除去される、または切替えられるように合成され得る視覚的な移行を提供し得る。サブシーンはフェードインまたはフェードアウトし、可視的にシュリンクインまたはシュリンクアウトし、内向きにまたは外向きに滑らかに放射状に広がる。合成中または移行中のすべてのシーンはビデオシーンであり得、たとえば、各々が、パノラマシーンＳＣからサブサンプリングされた進行中のビデオストリームを含む。

ステップＳ５２において、移行または合成は（必要に応じて、繰返して、漸進的に、または連続的に）フレーム、バッファ、またはビデオメモリにレンダリングされる（なお、移行および合成は個々のフレームまたはビデオストリームに適用され得、シーンＳＴＧ，ＣＯ全体および個々の構成サブシーンＳＳ１，ＳＳ２…ＳＳｎのビデオの多くのフレームを介して進行中のプロセスであり得る。

ステップＳ５４において、デバイス１００、その回路、および／またはその実行可能コードは音声ストリームを選択して移行させ得る。ウインドウ、シーン、ビデオ、またはサブシーン合成マネージャと同様に、音声ストリームは、特にアレイ４を形成するビームの場合、合成中のサブシーンを強調するように強調されてもよいし、強調されなくてもよい。同様に、音声を合成ビデオシーンに同期させることが行なわれてもよい。

ステップＳ５６において、デバイス１００、その回路、および／またはその実行可能コードは、単一カメラビデオおよび音声のシミュレーションを合成出力ＣＯとして出力する。上述のように、この出力は、たとえば２：１未満のアスペクト比および典型的に１．７８：１未満のアスペクト比などの、周辺ＵＳＢ装置の単一の、たとえばウェブカムビューをシミュレートしているアスペクト比および画素数であり、グループテレビ会議ソフトウェアによって外部ウェブカム入力として用いられ得る。ウェブカム入力を表示ビューとしてレンダリングする場合、テレビ会議ソフトウェアは合成出力ＣＯをその他のＵＳＢカメラとして扱い、ホストデバイス４０（または図１Ｂの直接接続されたデバイス１００のバージョン）と対話しているすべてのクライアントが、合成出力ＣＯを、ホストデバイス（または図１Ｂの直接接続されたデバイス１００のバージョン）に対応するすべてのメインビューおよびサムネイルビュー内に提示する。

サブシーン合成の例
図１２～図１６を参照して述べたように、会議カメラ１００およびプロセッサ６は、単一カメラビデオ信号ＳＴＧ，ＣＯを（ステップＳ３０において）合成し、（ステップＳ５０において）出力し得る。ＲＯＭ／ＲＡＭ８に動作可能に接続されたプロセッサ６は、実質的に９０度以上の水平画角を有するワイドカメラ２，３，５からキャプチャされた、実質的に２．４：１以上のアスペクト比を有するパノラマビデオ信号ＳＣを（ステップＳ１２において）記録し得る。１つの任意のバージョンでは、当該パノラマビデオ信号は実質的に８：１以上のアスペクト比を有し、実質的に３６０度の水平画角を有するワイドカメラからキャプチャされる。

プロセッサ６は、（たとえばステップＳ１４において）ワイドカメラ１００から各自の対象方位Ｂ１，Ｂ２…Ｂｎにおいて少なくとも２つのサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎ（たとえば図８Ｃ～図８Ｅおよび図９Ｃ～図９ＥではＳＳ２およびＳＳ５）を（たとえばステップＳ３２～Ｓ４０において）サブサンプリングし得る。プロセッサ６は、２つ以上のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎ（たとえば図８Ｃ～図８Ｅおよび図９Ｃ～図９ＥではＳＳ２およびＳＳ５）を並べて（ステップＳ３２～Ｓ４０におい
てバッファ、フレーム、またはビデオメモリに）合成して、実質的に２：１以下のアスペクト比を有するステージシーンビデオ信号ＣＯ，ＳＴＧを（ステップＳ５２～Ｓ５６において）形成し得る。任意に、単一カメラビデオ信号のできる限り多くを高密度に満たす（参加者のより大きいビューに繋がる）ために、ステージシーンビデオ信号ＣＯ，ＳＴＧの領域の実質的に８０％以上がパノラマビデオ信号ＳＣからサブサンプリングされ得る。ＵＳＢ／ＬＡＮインターフェイス１０に動作可能に接続されたプロセッサ６は、（ステップＳ５２～Ｓ５６のように）単一カメラビデオ信号としてフォーマットされるステージシーンビデオ信号ＣＯ，ＳＴＧを出力し得る。

最適には、プロセッサ６は、パノラマビデオ信号ＳＣからの（ならびに／または任意に、たとえばＧＰＵ６および／もしくはＲＯＭ／ＲＡＭ８において、バッファ、フレームもしくはビデオメモリからの、ならびに／またはワイドカメラ２，３，５から直接の）各自の対象方位Ｂ１，Ｂ２…Ｂｎにおいて追加の（たとえば第３の、第４の、またはその後の）サブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳ３（たとえば図９Ｃ～図９ＥではＳＳ１）をサブサンプリングし得る。プロセッサは次に、ステージＳＴＧ，ＣＯ上に当初合成された２つ以上のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳ３（たとえば図９Ｃ～図９ＥではＳＳ２およびＳＳ５）を、１つ以上の追加のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎ（たとえば図９Ｃ～図９ＥではＳＳ１）とともに合成して、実質的に２：１以下のアスペクト比を有する、かつ複数の並んだサブシーンビデオ信号（たとえば１列に、または格子状に合成された２つ、３つ、４つまたはそれ以上のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎ）を含む、ステージシーンビデオ信号ＳＴＧ，ＣＯを形成し得る。プロセッサ６は、１つ以上の対象方位またはサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎについての１つ以上の追加基準をメモリ内に設定または記憶し得る。この場合、たとえば、追加基準（たとえば十分な品質、十分な照度など）を満たすそれらの追加のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎのみがステージシーンビデオ信号ＳＴＧ，ＣＯに移行し得る。

代わりに、またはさらに、追加のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎは、ステージＳＴＧ，ＣＯに既に合成されている可能性があるサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎの１つ以上を置換して、依然として実質的に２：１以下のアスペクト比を有するステージシーンビデオ信号ＳＴＧ，ＣＯを形成することによって、プロセッサ６によってステージシーンビデオ信号ＳＴＧ，ＣＯに合成され得る。合成すべき各サブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎには最小幅Ｍｉｎ．１，Ｍｉｎ．２…Ｍｉｎ．ｎが割当てられ得、ステージシーンビデオ信号ＳＴＧ，ＣＯへの各自の移行が完了すると、各サブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎは実質的にその最小幅Ｍｉｎ．１，Ｍｉｎ．２…Ｍｉｎ．ｎ以上で並べて合成されてステージシーンビデオ信号ＳＴＧ，ＣＯを形成し得る。

いくつかの場合、たとえばステップＳ１６～Ｓ１８において、プロセッサ６は、移行中の各自のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎの合成幅を、合成幅が実質的にその対応する各自の最小幅Ｍｉｎ．１，Ｍｉｎ．２…Ｍｉｎ．ｎ以上になるまで、移行全体にわたって増加するように増加させ得る。代わりに、またはさらに、各サブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎは、実質的にその最小幅Ｍｉｎ．１，Ｍｉｎ．２…Ｍｉｎ．ｎ以上で、かつ、各ＳＳ１，ＳＳ２…ＳＳｎが、すべての合成されたサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎの合計がステージシーンビデオ信号または合成出力ＳＴＧ，ＣＯの幅と実質的に等しい各自の幅で、プロセッサ６によって並べて合成され得る。

代わりに、またはさらに、ステージシーンビデオ信号ＳＴＧ，ＣＯ内のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎの幅は、サブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎに対応する１つ以上の対象方位Ｂ１，Ｂ２…Ｂｎにおいて検出された１つ以上のアクティビ
ティ基準（たとえば、視覚動作、検知された動作、発話の音響検出など）に従って（たとえばステップＳ１６～Ｓ１８のように）変化するようにプロセッサ６によって合成されるのに対して、ステージシーンビデオ信号または合成出力ＳＴＧ，ＣＯの幅は一定に保たれる。

任意に、プロセッサ６は、１つ以上のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎ（たとえば図９Ｃ～図９ＥではＳＳ２およびＳＳ５）を１つ以上の追加のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎ（たとえば図９Ｃ～図９ＥではＳＳ１）とともに合成して、１つまたは２つまたはそれ以上のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎ（たとえば図９Ｃ～図９ＥではＳＳ２およびＳＳ５）の幅を、１つ以上の追加されたまたはその後のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎ（たとえば図９Ｃ～図９ＥではＳＳ１）の幅に対応する量だけ縮小することによって１つ以上の追加のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎ（たとえば図９Ｃ～図９ＥではＳＳ１）をステージシーンビデオ信号ＳＴＧ，ＣＯに移行させることによって、ステージシーンビデオ信号を形成し得る。

いくつかの場合、プロセッサ６は各サブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎに各自の最小幅Ｍｉｎ．１，Ｍｉｎ．２…Ｍｉｎ．ｎを割当て得、各サブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎを実質的にその対応する各自の最小幅Ｍｉｎ．１，Ｍｉｎ．２…Ｍｉｎ．ｎ以上で並べて合成して、ステージシーンビデオ信号または合成出力ＳＴＧ，ＣＯを形成し得る。１つ以上の追加のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎとともに、２つ以上のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎの各自の最小幅Ｍｉｎ．１，Ｍｉｎ．２…Ｍｉｎ．ｎの合計がステージシーンビデオ信号ＳＴＧ，ＣＯの幅を超えると、２つのサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎの１つ以上が、ステージシーンビデオ信号または合成出力ＳＴＧ，ＣＯから除去されるようにプロセッサ６によって移行し得る。

別の代替例では、プロセッサ９は、１つ以上のアクティビティ基準（たとえば、視覚動作、検知された動作、発話の音響検出、最後の発話からの時間など）が最も以前に満たされた各自の対象方位Ｂ１，Ｂ２…Ｂｎに対応するように、ステージシーンビデオ信号ＳＴＧ，ＣＯから除去されるように移行すべき２つ以上のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎの少なくとも１つを選択し得る。

多くの場合、図８Ｂ～図８Ｅおよび図９Ｂ～図９Ｅに示すように、プロセッサ６は、２つ以上のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎ（たとえば図９Ｃ～図９ＥではＳＳ２およびＳＳ５）ならびに１つ以上の追加のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎ（たとえば図９Ｃ～図９ＥではＳＳ１）の各自の対象方位Ｂ１，Ｂ２…Ｂｎ間のワイドカメラ２，３，５に対する左から右への（見下ろした場合、時計回りの）順序を、２つ以上のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎが少なくとも１つのその後のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎとともに合成されてステージシーンビデオ信号または合成出力ＳＴＧ，ＣＯを形成する際に保存し得る。

代わりに、またはさらに、プロセッサ６は、ワイドカメラ２，３，５に対する各自の対象方位Ｂ１，Ｂ２…Ｂｎにおいて検出された１つ以上の選択基準（たとえば、視覚動作、検知された動作、発話の音響検出、最後の発話からの時間など）に依存して、パノラマビデオ信号ＳＣからの各自の対象方位Ｂ１，Ｂ２…Ｂｎを選択し得る。１つ以上の選択基準が真でなくなった後、プロセッサ６は、その対応するサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎをステージシーンビデオ信号または合成出力ＳＴＧ，ＣＯから除去するように移行させ得る。選択基準は、各自の対象方位Ｂ１，Ｂ２…Ｂｎにおいて満たされたアクティビティ基準の存在を含み得る。プロセッサ９は、各自の対象方位Ｂ１，Ｂ２…Ｂｎにおいて１つ以上のアクティビティ基準が満たされてからの時間をカウントし得る。各自の対
象方位Ｂ１，Ｂ２…Ｂｎにおいて１つ以上のアクティビティ基準が満たされた後の予め定められた期間、プロセッサ６は、各自のサブシーン信号ＳＳ１，ＳＳ２…ＳＳｎをステージシーンビデオ信号ＳＴＧから除去するように移行させ得る。

図８Ａ～図８Ｃ、図９Ａ～図９Ｃ、図１０Ａ、図１Ｂ、図１１Ａ、図１１Ｂ、および図２２に示す縮小したパノラマビデオ信号ＳＣ．Ｒに関して、プロセッサ６は、パノラマビデオ信号ＳＣから、実質的に８：１以上のアスペクト比の縮小したパノラマビデオ信号ＳＣ．Ｒをサブサンプリングし得る。プロセッサ６は次に、２つ以上のサブシーンビデオ信号（たとえば図８Ｃ～図８Ｅおよび図９Ｃ～図９ＥではＳＳ２およびＳＳ５）を縮小したパノラマビデオ信号ＳＣ．Ｒとともに合成して、複数の並んだサブシーンビデオ信号（たとえば図８Ｃ～図８ＥではＳＳ２およびＳＳ５、図９Ｃ～図９ＥではＳＳ１，ＳＳ２およびＳＳ５）とパノラマビデオ信号ＳＣ．Ｒとを含む、実質的に２：１以下のアスペクト比を有するステージシーンビデオ信号ＳＴＧ，ＣＯを形成し得る。

この場合、プロセッサ６は、２つ以上のサブシーンビデオ信号（たとえば図８Ｃ～図８ＥではＳＳ２およびＳＳ５、図９Ｃ～図９ＥではＳＳ１，ＳＳ２およびＳＳ５）を縮小したパノラマビデオ信号ＳＣ．Ｒとともに合成して、複数の並んだサブシーンビデオ信号（たとえば図８Ｃ～図８ＥではＳＳ２およびＳＳ５、図９Ｃ～図９ＥではＳＳ１，ＳＳ２およびＳＳ５）と、複数の並んだサブシーンビデオ信号よりも高いパノラマビデオ信号ＳＣ．Ｒとを含む、実質的に２：１以下のアスペクト比を有するステージシーンビデオ信号を形成し得、パノラマビデオ信号は、ステージシーンビデオ信号または合成出力ＳＴＧまたはＣＯの領域の１／５以下であり、ステージシーンビデオ信号または合成出力ＳＴＧまたはＣＯの幅を実質的に横切って延びる。

代替例では、図２４に示すように、プロセッサ６は、テキストドキュメントから（たとえば、テキストエディタ、ワードプロセッサ、スプレッドシート、プレゼンテーション、またはテキストをレンダリングするその他のドキュメントから）テキストビデオ信号ＴＤ１からサブサンプルをサブサンプリングし得るか、またはプロセッサ６に当該サブサンプルが提供され得る。プロセッサ６は次に、２つ以上のサブシーンビデオ信号の少なくとも１つをテキストビデオ信号ＴＤ１または同等物ＴＤ１．Ｒに置換することによって、テキストビデオ信号ＴＤ１またはそのレンダリングされたもしくは縮小されたバージョンＴＤ１．Ｒをステージシーンビデオ信号ＳＴＧ，ＣＯに移行させ得る。

任意に、プロセッサ６は、１つ以上の保持基準（たとえば、視覚動作、検知された動作、発話の音響検出、最後の発話からの時間など）に基づいて、２つのサブシーンビデオ信号の１つ以上を、移行から保護される保護サブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎとして設定し得る。この場合、プロセッサ６は、２つ以上のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎの少なくとも１つを置換することによって、しかし特に、保護されるサブシーン以外のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎを移行させることによって、１つ以上の追加のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎをステージシーンビデオ信号に移行させ得る。

代わりに、プロセッサ６は、１つ以上の強調基準（たとえば、視覚動作、検知された動作、発話の音響検出、最後の発話からの時間など）に基づいてサブシーン強調動作（たとえばブリンキング、ハイライト表示、アウトライン表示、アイコンオーバーレイ等）を設定し得る。この場合、１つ以上のサブシーンビデオ信号が、サブシーン強調動作に従って、対応する強調基準に基づいて強調される。

追加の変形では、プロセッサ６は、センサから検知された基準（たとえば、ＲＦ素子、受動型赤外線素子または距離認識素子といったセンサによって検出される音波、振動、電
磁放射、熱、ＵＶ照射、無線、マイクロ波、電気特性、または深度／範囲の検出）に基づいてサブシーン参加者通知動作を設定し得る。プロセッサ６は、対応する検知された基準に基づいて、通知動作に従って１つ以上のローカルリマインダ指標を起動し得る。

対象方位の例
たとえば、対象方位は、たとえば、発言している参加者Ｍ１，Ｍ２…Ｍｎ、たとえば、ビーム形成、局所化、または比較的な受信信号強度、または少なくとも２つのマイクを用いる比較的な飛行時間によって、マイクアレイ４によって角度認識される、ベクトル化される、または、識別される参加者Ｍ１，Ｍ２…Ｍｎなどの、１つ以上の音声信号または検出に対応するそれらの方位であってもよい。音声信号が十分に強いまたは十分に明瞭であるか否かを決定するために閾値処理または周波数領域分析が用いられてもよく、一致しないペア、マルチパス、および／または冗長を捨てるために、少なくとも３つのマイクを用いてフィルタリングが行なわれてもよい。３つのマイクには、比較用に３ペアを形成するという利点がある。

別の例として、代わりに、またはさらに、対象方位は、カメラ２からの画像もしくは動画ビデオもしくはＲＧＢＤをスキャン可能な特徴、画像、パターン、クラス、およびまたは動作検出回路もしくは実行可能コードによって、動作がシーン内に検出される、角度認識される、ベクトル化される、または識別されるそれらの方位であってもよい。

別の例として、代わりに、またはさらに、対象方位は、カメラ２からの画像もしくは動画ビデオもしくはＲＧＢＤ信号をスキャン可能な顔検出回路または実行可能コードによって、顔構造がシーン内に検出される、角度認識される、ベクトル化される、または識別されるそれらの方位であってもよい。骨格構造もこのように検出され得る。

別の例として、代わりに、またはさらに、対象方位は、カメラ２からの画像もしくは動画ビデオもしくはＲＧＢＤ信号をスキャン可能なエッジ検出、コーナー検出、ブロブ検出もしくはセグメント化、極値検出、および／または特徴検出回路もしくは実行可能コードによって、色、テクスチャ、および／またはパターンが実質的に連続的な構造がシーン内に検出される、角度認識される、ベクトル化される、または識別されるそれらの方位であってもよい。認識は、以前に記録した、学習した、または訓練した画像パッチ、色、テクスチャ、またはパターンを参照してもよい。

別の例として、代わりに、またはさらに、対象方位は、カメラ２からの画像もしくは動画ビデオもしくはＲＧＢＤ信号をスキャン可能な差分および／または変更検出回路もしくは実行可能コードによって、公知の環境との差分がシーン内に検出される、角度認識される、ベクトル化される、または識別されるそれらの方位であってもよい。たとえば、デバイス１００は当該デバイスが配置されている空の会議室の１つ以上の視覚マップを維持し、人物などの十分に妨げとなるエンティティがマップ内の既知の特徴または領域を妨げていることを検出し得る。

別の例として、代わりに、またはさらに、対象方位は、カメラ２からの画像もしくは動画ビデオもしくはＲＧＢＤをスキャン可能な特徴、画像、パターン、クラス、およびまたは動作検出回路もしくは実行可能コードによって、「ホワイトボード」形状、ドア形状、または椅子の背中の形状を含む矩形などの規則的形状が識別される、角度認識される、ベクトル化される、または識別されるそれらの方位であってもよい。

別の例として、代わりに、またはさらに、対象方位は、能動型もしくは受動型音響エミッタもしくはトランスデューサ、および／または受動型もしくは能動型光学もしくは視覚基準マーカ、および／またはＲＦＩＤもしくはその他の電磁的に検出可能なものを含む、
人工ランドマークとして認識可能な基準オブジェクトまたは特徴がデバイス１００を用いる人物によって置かれるそれらの方位であってもよく、これらは上記の１つ以上の技術によって角度認識され、ベクトル化され、または識別される。

当初のまたは新たな対象方位がこのように得られない（たとえばどの参加者Ｍ１，Ｍ２…Ｍｎもまだ発言していないため）場合、合成シーンの代わりにデフォルトビューが単一カメラシーンとして出力されるように設定され得る。たとえば、１つのデフォルトビューとして、（たとえば２：１から１０：１のＨ：Ｖ水平－垂直比率の）パノラマシーン全体がフラグメント化され、出力される単一カメラ比率に配列され得る（たとえば、一般に風景画方向では１．２５：１から２．４：１もしくは２．５：１のＨ：Ｖアスペクト比または水平－垂直比率であるが、対応する「逆向きの」肖像画方向比率も可能である）。別の例として、対象方位の前のデフォルトビューが最初に得られ、出力シーン比率に対応する「ウインドウ」が、たとえばゆっくりとパンしているカメラのシミュレーションとして、たとえばシーンＳＣ全体にわたって固定レートで追跡され得る。別の例として、デフォルトビューは各会議出席者Ｍ１，Ｍ２…Ｍｎの「顔写真」（マージン内に５～２０％の付加的な幅を含む）で構成されてもよく、マージンは利用可能な表示領域を最適化するように調整される。

アスペクト比の例
実施形態および発明の局面はいずれの角度範囲またはアスペクト比でも有用であり得るが、利点が任意に大きくなるのは、サブシーンが、実質的に２．４：１以上のアスペクト比（アスペクト比はフレームまたは画素寸法のいずれかを表わす）を有するパノラマビデオ信号を提供するカメラから形成され、ほとんどのラップトップまたはテレビディスプレイ（通常は１．７８：１以下）において見られるように、実質的に２：１以下（たとえば１６：９，１６：１０または４：３など）の全アスペクト比を有する複数参加者ステージビデオ信号に合成され、さらに、任意に、ステージビデオ信号サブシーンが合成された全体のフレームの８０％を超える領域を満たす場合、および／またはステージビデオ信号サブシーンとパノラマビデオ信号で形成されたいずれかの付加的に合成されたサムネイルとが合成された全体のフレームの９０％を超える領域を満たす場合である。このように、示される各参加者は、実用的に可能な限りほぼ最大にスクリーンを満たす。

ビューの垂直角度と水平角度との対応する比はα＝２逆正接からの比（ｄ／２ｆ）として求めることができ、式中ｄはセンサの垂直または水平寸法であり、ｆはレンズの実効焦点距離である。会議用の異なる広角カメラは単一レンズから９０度、１２０度、または１８０度の視野を有し得るが、各カメラは、アスペクト比１．７８：１の１０８０ｐ画像（たとえば１９２０ｘ１０８０画像）またはアスペクト比３．５：１、もしくは他のアスペクト比のはるかに広い画像を出力し得る。会議シーンを観察する際、１２０度または１８０度のワイドカメラと組合されたより小さいアスペクト比（たとえば２：１以下）は、所望され得るよりも多くの天井、壁、またはテーブルを示し得る。したがって、シーンまたはパノラマビデオ信号ＳＣのアスペクト比、およびカメラ１００の画角ＦＯＶは独立していてもよいが、よりワイドなカメラ１００（９０度以上）をより広いアスペクト比（たとえば２．４：１以上）のビデオ信号と一致させ、さらに任意に、最大ワイドカメラ（たとえば３６０度パノラマビュー）が最も広いアスペクト比（たとえば８：１以上）と一致していることが本実施形態に任意に有利である。

サブシーンまたは方位の追跡の例
図１２～図１８、特に図１６～図１８に示すような、図１Ａおよび図１Ｂのデバイスによって実行されるプロセスは、ワイドビデオ信号ＳＣ内の対象方位Ｂ１，Ｂ２…ＢｎにおいてサブシーンＦＷ、ＳＳを追跡することを含み得る。図１６に示すように、音響センサまたはマイクアレイ４（任意のビーム形成回路を有する）およびワイドカメラ２，３，５
に動作可能に接続されたプロセッサ６は、ステップＳ２０２において、任意にまたは好ましくは実質的に９０度以上である実質的に共通の角度範囲を監視する。

プロセッサ６は、ステップＳ２０４およびステップＳ２０６においてワイドカメラ２，３，５の角度範囲内の音響認識（たとえば周波数、パターン、もしくは他の音声認識）または視覚認識（たとえば動作検出、顔検出、骨格検出、色ブロブセグメント化もしくは検出）の一方または両方の局所化（たとえば、デカルト座標もしくは極座標内の、またはある方向における位置を表わす測定など）に沿って第１の対象方位Ｂ１，Ｂ２…Ｂｎを識別するコードを実行するか、または当該識別する回路を含むか当該回路に動作可能に接続され得る。ステップＳ１０のように、かつステップＳ１２およびＳ１４のように、サブシーンビデオ信号ＳＳが、ステップＳ１４において識別された対象方位Ｂ１，Ｂ２…Ｂｎに沿ってワイドカメラ２，３，５からサブサンプリングされる（たとえば、ワイドカメラ２，３，５の撮像素子から新たにサンプリングされるか、またはステップＳ１２においてキャプチャされたパノラマシーンＳＣからサブサンプリングされる）。サブシーンビデオ信号ＳＳの幅（たとえば、最小幅Ｍｉｎ．１，Ｍｉｎ．２…Ｍｉｎ．ｎ、またはサブシーン表示幅ＤＷｉｄ．１，ＤＷｉｄ．２…ＤＷｉｄ．ｎ）が、ステップＳ２１０において音響認識および視覚／視覚認識の一方または両方の信号特性に従ってプロセッサ６によって設定され得る。信号特性は、さまざまな音響認識または視覚認識の品質または信頼レベルを表わし得る。本明細書において使用する「音響認識」は、ドップラー分析といった波形の周波数分析を含む、音波または振動に基づいた任意の認識（たとえば、測定閾値を満たす、ディスクリプタと一致するなど）を含み得るのに対して、「視覚認識」は、ＲＦ素子、受動型赤外線素子または距離認識素子といったセンサによって検出される熱またはＵＶ照射、無線またはマイクロ波、電気特性認識または深度／範囲といった、電磁放射に対応する任意の認識（たとえば、測定閾値を満たす、ディスクリプタと一致するなど）を含み得る。

たとえば、ステップＳ１４において識別される対象方位Ｂ１，Ｂ２…Ｂｎは、異なる順序でそのような音響認識と視覚認識との組合せによって求めることができ、当該順序のいくつかは図１６～図１８においてモード１，２または３（互いに合理的かつ論理的に組合され得る）として示されている。たとえば図１８のステップＳ２２０のように、１つの順序では、音響認識の方位がまず記録される（しかしこの順序は反復および／または変更され得る）。任意に、そのような方位Ｂ１，Ｂ２…Ｂｎは、ある角度、許容差を有するある角度、または概算範囲もしくは角度範囲の方位（図７Ａの方位Ｂ５など）であり得る。図１８のステップＳ２２８～Ｓ２３２に示すように、記録された音響認識方位は、十分に信頼性のある視覚認識が、記録された音響認識の閾値角度範囲内に実質的にある場合、視覚認識（たとえば顔認識）に基づいて精製され（狭められるか再評価され）得る。同じモードにおいて、またはたとえば図１７のステップＳ２１８のように別のモードと組合されて、視覚認識と関連付けられていない任意の音響認識は候補対象方位Ｂ１，Ｂ２…Ｂｎのままであり得る。

任意に、図１６のステップＳ２１０のように、信号特性は音響認識および視覚認識の一方または両方の信頼レベルを表わしている。「信頼レベル」は公式の確率的定義を満たす必要はないが、ある程度の信頼性（たとえば、閾値振幅を超える、信号品質、信号／雑音比もしくは同等物、または成功基準）を確立する任意の比較測定を意味し得る。代わりに、またはさらに、図１６のステップＳ２１０のように、信号特性は、音響認識（たとえば音が発生し得る角度範囲）または視覚認識（たとえば瞳孔間距離、顔幅、体幅）の一方または両方内に認識された特徴の幅を表わし得る。たとえば、信号特性は、対象方位Ｂ１，Ｂ２…Ｂｎに沿って認識された（たとえば視覚認識によって求められた）人間の顔の概算幅に対応し得る。第１のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎの幅は視覚認識の信号特性に従って設定され得る。

たとえば図１８のステップＳ２２８のように、いくつかの場合、幅が視覚認識の信号特性に従って設定されない（たとえば、幅規定特徴を認識できない場合に確実に設定できないなど）場合は、図１８のステップＳ２３０のように、予め定められた幅が、角度範囲内に検出された音響認識の局所化に沿って設定され得る。たとえば、図１８のステップＳ２２８およびＳ２３２のように、人間の発話を示す音響信号を有していると評価された対象方位Ｂ１，Ｂ２…Ｂｎに沿って画像分析によって顔が認識され得ない場合、サブシーンＳＳを規定するための音響方位に沿って、たとえばステップＳ２３０のように、デフォルト幅（たとえばシーンＳＣ全体の幅の１／１０から１／４と同等の幅を有するサブシーン）が維持または設定され得る。たとえば、図７Ａは、出席者Ｍ５の顔が出席者Ｍ４の方向を向いており、Ｍ５が発言中である出席者およびスピーカーのシナリオを示す。この場合、会議カメラ１００の音響マイクアレイ４は対象方位Ｂ５に沿ってスピーカーＭ５を局所化可能であり得る（ここで、対象方位Ｂ５はベクトルではなく方位範囲として描かれている）が、ワイドカメラ２，３，５ビデオ信号のパノラマシーンＳＣの画像分析は顔または他の視覚認識を分解不可能であり得る。そのような場合、デフォルト幅Ｍｉｎ．５が、対象方位Ｂ５に沿ってサブシーンＳＳ５を最初に規定する、限定する、またはレンダリングするため最小幅として設定され得る。

別の実施形態では、対象方位Ｂ１，Ｂ２…Ｂｎは、会議カメラ１００の角度範囲内に検出された音響認識に向けて方向付けられて識別され得る。この場合、プロセッサ６は、任意に図１６のステップＳ２０９のように音響認識に近接した（たとえば、対象方位Ｂ１，Ｂ２…Ｂｎ内の、当該方位にオーバーラップしている、または当該方位の隣の、たとえば、対象方位Ｂ１，Ｂ２…Ｂｎの円弧の５～２０度内の）視覚認識を識別し得る。この場合、第１のサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎの幅は、音響認識に近接していた（もしくはしている）または他の方法で音響認識と一致していた（もしくはしている）視覚認識の信号特性に従って設定され得る。これが起こり得るのは、たとえば、対象方位Ｂ１，Ｂ２…Ｂｎがまず音響マイクアレイ４で識別され、その後、ワイドカメラ１００からのビデオ画像を用いて十分に近いまたはその他の方法で一致している顔認識で妥当性を検証されるまたは確認される場合である。

ある変形では、図１７および図１６を参照して述べたように、会議またはワイドカメラ１００を含むシステムは、潜在的な視覚認識または音響認識を用いて図１７のステップＳ２１８のように空間マップを作成し、次に図１６のステップＳ２０９のように、この空間マップに依拠して、後の、関連付けられている、一致している、近接した、または「スナップされた」認識の妥当性を同一のまたは異なるまたは他の認識アプローチによって検証し得る。たとえば、いくつかの場合、全体のパノラマシーンＳＣは、顔認識などのためにフレーム単位で効果的にスキャンするには大き過ぎる場合がある。この場合、人々は、特に会議のために自分の席に座った後は、カメラ１００を用いる会議状況において場所を著しく移動しないため、全体のパノラマシーンＳＣの一部のみが、たとえばビデオフレームごとにスキャンされ得る。

たとえば、図１７のステップＳ２１２のように、ワイドビデオ信号内の対象方位Ｂ１，Ｂ２…ＢｎにおいてサブシーンＳＳ１，ＳＳ２…ＳＳｎを追跡するために、プロセッサ６は、実質的に９０度以上のワイドカメラ１００視野に対応する動画ビデオ信号ＳＣを通してサブサンプリングウインドウをスキャンし得る。プロセッサ６またはそれに関連付けられた回路は、たとえば図１７のステップＳ２１４のように、候補対象方位Ｂ１，Ｂ２…Ｂｎについての好適な信号品質を規定するための閾値を実質的に満たすことによって、サブサンプリングウインドウ内の候補対象方位Ｂ１，Ｂ２…Ｂｎを識別し得る。各対象方位Ｂ１，Ｂ２…Ｂｎは、たとえば図１７のステップＳ２１６のように、サブサンプリングウインドウ内に検出された視覚認識の局所化に対応し得る。図１７のステップＳ２１８のよう
に、候補方位Ｂ１，Ｂ２…Ｂｎは空間マップ（たとえば、候補方位の位置、場所、および／もしくは方向を追跡し続けるメモリまたはデータベース構造）に記録され得る。たとえばこのようにして、その方位において音響検出がまだ起こっていなくても、顔認識または他の視覚認識（たとえば動作）が空間マップに記憶され得る。その後、ワイドカメラ１００の角度範囲が、音響認識のための音響センサまたはマイクアレイ４を用いてプロセッサ６によって監視され得る（これは候補対象方位Ｂ１，Ｂ２…Ｂｎの妥当性を検証するために用いられ得る）。

たとえば図７Ａを参照して、会議カメラ１００のプロセッサ６は、視覚認識（たとえば顔、色、動作など）のためにパノラマシーンＳＣ全体の異なるサブサンプリングされたウインドウをスキャンし得る。照明、動作、顔の向きなどに応じて、図７において、出席者Ｍ１…Ｍ５の顔、動作または同様の検出に対応する潜在的な対象方位が空間マップに記憶され得る。しかし、図７Ａに示すシナリオでは、出席者Ｍａｐ．１側の潜在的な対象方位は、発言中でない出席者に対応する場合は、音響信号によって後で妥当性を検証されない場合がある（かつ、この出席者はサブシーン内にまったくキャプチャされず、パノラマシーン内にのみキャプチャされ得る）。出席者Ｍ１…Ｍ５が発言したか発言し始めると、これらの出席者を含むまたはこれらの出席者側の潜在的な対象方位の妥当性が検証され、対象方位Ｂ１，Ｂ２…Ｂ５として記録され得る。

任意に、図１６のステップＳ２０９のように、空間マップに記録された１つの候補方位に近接して（実質的に隣接して、隣に、または＋／－５～２０度の円弧内に）音響認識が検出されると、プロセッサ６は、その１つの候補方位と実質的に対応するように対象方位Ｂ１，Ｂ２…Ｂｎをスナップし得る。図１６のステップＳ２０９は、対象方位が相当する空間マップと一致していることを示しており、「一致」は対象方位値を関連付ける、置換するまたは変更することを含み得る。たとえば、ウインドウおよび／またはパノラマシーンＳＣ内の顔認識または動作認識は、音響アレイまたはマイクアレイ４よりも良い解像度を有し得るが、検出の頻度または信頼度が低いため、音響認識に起因する検出された対象方位Ｂ１，Ｂ２…Ｂｎは視覚認識に従って変更され、記録され、または他の方法で補正もしくは調整され得る。この場合、音響認識から得られた明白な対象方位Ｂ１，Ｂ２…Ｂｎに沿ってサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎをサブサンプリングする代わりに、プロセッサ６は、たとえば、以前にマッピングされた視覚認識を用いて音響対象方位Ｂ１，Ｂ２…Ｂｎが補正された後にワイドカメラ１００および／またはパノラマシーンＳＣから、スナップ動作に続いて対象方位Ｂ１，Ｂ２…Ｂｎに沿ってサブシーンビデオ信号をサブサンプリングし得る。この場合、図１６のステップＳ２１０のように、サブシーンビデオ信号ＳＳの幅は、検出された顔幅もしくは動作幅に従って、または代わりに、音響認識の信号特性（たとえば、デフォルト幅、アレイ４の解像度、信頼レベル、音響認識もしくは視覚認識の一方もしくは両方内に認識された特徴の幅、対象方位に沿って認識された人間の顔の概算幅）に従って設定され得る。図１６のステップＳ２１０または図１８のステップＳ２３０のように、サブシーンＳＳ幅が、顔幅または動作範囲といった視覚認識の信号特性に従って設定されていない場合、予め定められた幅（たとえば図７Ａのようなデフォルト幅Ｍｉｎ.５など）が音響認識に従って設定され得る。

図１８の例では、会議カメラ１００およびプロセッサ６は、実質的に９０度以上のワイドカメラ１００の視野ＦＯＶに対応する動画ビデオ信号を記録することによって、対象方位Ｂ１，Ｂ２…Ｂｎにおいてサブシーンを追跡し得る。プロセッサは、ステップＳ２２０において、音響認識のための音響センサアレイ４を用いて、ワイドカメラ１００の視野ＦＯＶに対応する角度範囲を監視し得、ステップＳ２２２において音響認識の範囲が検出されると、ステップＳ２２４において、当該角度範囲内に検出された音響認識に向けて方向付けられている対象方位Ｂ１，Ｂ２…Ｂｎを識別し得る。プロセッサ６および関連付けられた回路はステップＳ２２６において、次に（たとえば図７Ａの対象方位Ｂ５の範囲と同
様の）対象方位Ｂ１，Ｂ２…Ｂｎの対応する範囲に従って、パノラマシーンＳＣの動画ビデオ信号内にサブサンプリングウインドウを位置付け得る。プロセッサは次に、ステップＳ２２８のように当該範囲内に視覚認識が検出されると、サブサンプリングウインドウ内に検出された視覚認識を局所化し得る。その後、プロセッサ６は、任意に実質的に視覚認識を中心とするワイドカメラ１００から（カメラ１００から直接、またはパノラマシーン記録ＳＣから）キャプチャされたサブシーンビデオ信号ＳＳをサブサンプリングし得る。ステップＳ２３２のように、プロセッサ６は次に、視覚認識の信号特性に従ってサブシーンビデオ信号ＳＳの幅を設定し得る。図１８のステップＳ２２８のように、視覚認識が可能でない、好適でない、検出されない、または選択されない場合、プロセッサ６は図１８のステップＳ２３０のように、音響最小幅を維持または選択し得る。

代わりに、会議カメラ１００およびプロセッサ６は、図１６～図１８のように、たとえば図１７のステップＳ２１２のように、音響センサアレイ４と実質的に９０度以上の視野を観察するワイドカメラ２，３，５とを用いてある角度範囲を監視することによって、パノラマシーンＳＣなどのワイドビデオ信号内の対象方位Ｂ１，Ｂ２…Ｂｎにおいてサブシーンを追跡し得る。プロセッサ６は、各々が当該角度範囲内の（ステップＳ２１６のように音響または視覚またはセンサベースの）局所化に向けて方向付けられている複数の対象方位Ｂ１，Ｂ２…Ｂｎを識別し得、対象方位Ｂ１，Ｂ２…Ｂｎ、対応する認識、対応する局所化、またはそれを表わすデータが図１７のステップＳ２１８のように逐次記憶されるにつれて、対象方位Ｂ１，Ｂ２…Ｂｎに対応する記録された特性の空間マップを維持し得る。その後、たとえば図１６のステップＳ２１０のように、プロセッサ６は、少なくとも１つの対象方位Ｂ１，Ｂ２…Ｂｎに実質的に沿って、ワイドカメラ１００からサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎをサブサンプリングし、少なくとも１つの対象方位Ｂ１，Ｂ２…Ｂｎに対応する記録された特性に従ってサブシーンビデオ信号ＳＳ１，ＳＳ２…ＳＳｎの幅を設定し得る。

予測追跡の例
新たな対象方位を識別するための構造、装置、方法および技術の上記の説明では、そのような新たな対象方位を識別するためのさまざまな検出、認識、誘発、または他の原因を説明している。以下の説明では、対象方位およびサブシーンの方位、方向、場所、ポーズ、幅、または他の特性の変更の更新、追跡、または予測について述べるが、この更新、追跡、および予測は上記の説明にも当てはまり得る。新たな対象方位を識別し、方位またはサブシーンの変更を更新または予測するための方法の説明は、対象方位またはサブシーンの再獲得が追跡または予測によって容易になるという点で関連している。本明細書に記載の方法および技術は、ステップＳ２０，Ｓ３２，Ｓ５４またはＳ５６において方位および／またはサブシーンをスキャンする、識別する、更新する、追跡する、記録する、または再獲得するために用いることができ、逆もまた同様である。

たとえば、予測ＨＥＶＣ、Ｈ．２６４、ＭＰＥＧ－４、他のＭＰＥＧＩスライス、Ｐスライス、およびＢスライス（またはフレーム、またはマクロブロック）；他のフレーム内およびフレーム間、写真、マクロブロック、またはスライス；Ｈ．２６４または他のＳＩフレーム／スライス、ＳＰフレーム／スライス（スイッチングＰ）、および／またはマルチフレーム動き予測；ＶＰ９またはＶＰ１０スーパーブロック、ブロック、マクロブロックまたはスーパーフレーム、フレーム内およびフレーム間予測、成分予測、動き補償、動きベクトル予測、および／またはセグメント化に従って符号化されるかこれらに関連しているデータなど、予測ビデオデータがサブシーンごとに記録され得る。

たとえば、マイクアレイに関する音声動作から得られた動きベクトル、または直接的なもしくは画素ベースの方法（たとえばブロックマッチング、位相相関、周波数領域相関、画素再帰、オプティカルフロー）および／または間接的なもしくは特徴ベースの方法（サ
ブシーンもしくはシーン領域上に適用されるＲＡＮＳＡＣといった統計関数を用いるコーナー検出などの特徴検出）から得られた動きベクトルなど、ビデオ標準または動き補償ＳＰＩとは独立した上述のような他の予測または追跡データが記録され得る。

さらに、または代わりに、サブシーンごとの更新または追跡は、たとえば、振幅、発声の周波数、発声の長さ、関連の出席者Ｍ１，Ｍ２…Ｍｎ（相互のトラフィックを有する２つのサブシーン）、司会役または調整役の出席者Ｍ．Ｌｅａｄ（定期的に短く音声を差し挟むサブシーン）、認識された信号位相（たとえば、拍手、「私にカメラを向け続けて下さい」ならびに他の表現および発話認識といった、得られた音声パラメータなどの関連の指標またはそれを表わすデータもしくは情報を記録し、識別し、またはスコア付けし得る。これらのパラメータまたは指標は、追跡ステップとは独立して、または追跡ステップ時の異なる時間に記録され得る。また、サブシーンごとの追跡は、たとえば、咳またはくしゃみを表わす音声；機械、風、または点滅を表わす定期的または周期的な動作またはビデオ；過渡的動作または過渡的であるのに十分高い周波数での動作などの、エラーまたは無関係の指標を記録し、識別し、またはスコア付けし得る。

さらに、または代わりに、サブシーンごとの更新または追跡は、たとえば、保持基準（たとえば、音声／発言の時間、音声／発言の周波数、最後の発言からの時間、保持用にタグ付けされている）に基づいて、サブシーンを設定するおよび／またはサブシーンを除去から保護するための指標またはそれを表わすデータもしくは情報を記録し、識別し、またはスコア付けし得る。合成のためのその後の処理において、新たなまたはその後のサブシーン以外のサブシーンを除去することは、保護サブシーンを合成シーンから除去しない。言い換えれば、保護サブシーンは合成シーンから除去される優先度が低いことになる。

さらに、または代わりに、サブシーンごとの更新または追跡は、追加基準を設定するための指標またはそれを表わすデータもしくは情報（たとえば、発言の時間、発言の周波数、可聴周波数の咳／くしゃみ／戸口のベル、音の振幅、発話角度と顔認識との一致）を記録し、識別し、またはスコア付けし得る。コンパイルのための処理では、追加基準を満たすその後のサブシーンのみが合成シーンに組合される。

さらに、または代わりに、サブシーンごとの更新または追跡は、強調基準（たとえば、繰り返しのスピーカー、指定されたプレゼンター、直近のスピーカー、最も声の大きいスピーカー、手の中で／シーン変更において回転するオブジェクトの動作検出、周波数領域内の高周波数シーンアクティビティ、挙手の動作または骨格認識）に基づいて、たとえば、音声、ＣＧＩ、画像、ビデオ、もしくは合成効果などのサブシーン強調動作を設定するための指標またはそれを表わすデータもしくは情報を記録し、識別し、またはスコア付けし得る（たとえば、１つのサブシーンをより大きくスケーリングする、１つのサブシーンの境界をブリンクさせるかパルス化する、ジニーエフェクトで新たなサブシーンを挿入する（小から大に増大させる）、バウンス効果でサブシーンを強調または挿入する、カードソーティングまたはシャッフル効果で１つ以上のサブシーンを配列すること、オーバーラップ効果でサブシーンをオーダリングする、「折り重なった」グラフィックコーナーの外見でサブシーンをコーナリングする）。コンパイル処理では、個別のサブシーンの少なくとも１つが、各自のまたは対応する強調基準に基づいてサブシーン強調動作に従って強調される。

さらに、または代わりに、サブシーンごとの更新または追跡は、センサまたは検知された基準（たとえば、静か過ぎる、ソーシャルメディアからのリモートポーク）に基づいて、サブシーン参加者通知もしくはリマインダ動作を設定するための指標またはそれを表わすデータもしくは情報を記録し、識別し、またはスコア付けし得る（たとえば、出席者Ｍ１，Ｍ２…Ｍｎに対してデバイス１００上のライトを、任意にサブシーンと同じ側のライ
トをブリンクさせる）。コンパイル処理またはその他の処理において、ローカルリマインダ指標が、各自のまたは対応する検知された基準に基づいて通知またはリマインダ動作に従って起動される。

さらに、または代わりに、サブシーンごとの更新または追跡は、たとえば、各認識または局所化の記録された特性（たとえばステップＳ１４またはＳ２０に関して本明細書に記載したような色ブロブ、顔、音声）の速度または方向の変更に基づいて、各自の角度セクタＦＷ１，ＦＷ２…ＦＷｎもしくはＳＷ１，ＳＷ２…ＳＷｎについての変更ベクトルを予測もしくは設定するための、および／または当該予測もしくは設定に基づいて各自の角度セクタＦＷ１，ＦＷ２…ＦＷｎもしくはＳＷ１，ＳＷ２…ＳＷｎの方向を更新するための指標またはそれを表わすデータもしくは情報を記録し、識別し、またはスコア付けし得る。

さらに、または代わりに、サブシーンごとの更新または追跡は、たとえば、各認識または局所化の記録された特性（たとえば色ブロブ、顔、音声）の直近の位置に基づいて、失われた認識もしくは局所化の再取込もしくは再獲得のために検索領域を予測もしくは設定するための、および／または当該予測もしくは設定に基づいて各自の角度セクタの方向を更新するための指標またはそれを表わすデータもしくは情報を記録し、識別し、またはスコア付けし得る。記録された特性は、皮膚および／または衣服を表わす少なくとも１つの色ブロブ、セグメント化、またはブロブオブジェクトであり得る。

さらに、または代わりに、サブシーンごとの更新または追跡は、記録された特性の（たとえば、シーンＳＣ内の起点ＯＲからの方位Ｂ１，Ｂ２…Ｂｎまたは角度、およびシーンＳＣ内の角度セクタＦＷ，ＳＷに対応するサブシーンＳＳ１，ＳＳ２…ＳＳｎなどの角度範囲に基づく）デカルトマップまたは特にもしくは任意に極マップを維持し得、記録された特性の各々は、記録された特性の方位Ｂ１，Ｂ２…Ｂｎを表わす少なくとも１つのパラメータを有する。

したがって、代わりに、またはさらに、デバイス１００、その回路、ならびに／またはＲＯＭ／ＲＡＭ８および／もしくはＣＰＵ／ＧＰＵ６内に記憶されて実行される実行可能コードの実施形態は、標的角度範囲（たとえばシーンＳＣを形成するカメラ２ｎ，３ｎ，５もしくは７の水平範囲、またはこのサブセット）を、音響センサアレイ４および光センサアレイ２，３，５および／または７を用いて監視することによって、広角シーンＳＣ内の幅ＦＷおよび／またはＳＷに対応する対象サブシーンＳＳ１，ＳＳ２…ＳＳｎを追跡し得る。デバイス１００、その回路、および／またはその実行可能コードは、たとえば図８のステップＳ１４（新たな対象方位の識別）および／またはステップＳ２０（方位／サブシーンのための追跡および特性情報）に関して本明細書に記載したように、認識基準（たとえば音、顔）を探して標的角度範囲ＳＣをスキャンし得る。デバイス１００、その回路、および／またはその実行可能コードは、音響センサアレイ４ならびに光センサアレイ２，３，５および／または７の少なくとも１つによって第１の認識（たとえば検出、識別、誘発、または他の原因）および局所化（たとえば角度、ベクトル、ポーズ、または場所）に基づいて第１の対象方位Ｂ１を識別し得る。デバイス１００、その回路、および／またはその実行可能コードは、音響センサアレイ４ならびに光センサアレイ２，３，５および／または７の少なくとも１つによって第２の認識および局所化（ならびに任意に第３のおよびその後の認識および局所化）に基づいて第２の対象方位Ｂ２（ならびに任意に第３のおよびその後の対象方位Ｂ３…Ｂｎ）を識別し得る。

デバイス１００、その回路、および／またはその実行可能コードは、各自の対象方位Ｂ１，Ｂ２…Ｂｎを含む角度サブシーン（たとえば当初の小さい角度範囲または顔ベースのサブシーンＦＷ）を、少なくとも１つの認識基準（たとえば、設定または再設定された角
度スパンが瞳孔間距離よりも広い、この２倍である、またはそれ以上である；設定または再設定された角度スパンが頭と壁のコントラスト、距離、エッジ、差分、または動作移行よりも広い）に基づく閾値（たとえば、図１３のステップＳ１６～Ｓ１８を参照して述べたような幅閾値）が満たされるまで拡大、拡幅、設定または再設定することによって、各対象方位Ｂ１，Ｂ２…Ｂｎについての各自の角度セクタ（たとえばＦＷ，ＳＷまたは他のもの）を設定し得る。

デバイス１００、その回路、および／またはその実行可能コードは、各認識および／もしくは局所化内のまたは各認識および／もしくは局所化を表わす記録された特性（たとえば色ブロブ、顔、音声）の方向または方位Ｂ１，Ｂ２…Ｂｎの変化に基づいて、各自の角度セクタＦＷ１，ＦＷ２…ＦＷｎおよび／またはＳＷ１，ＳＷ２…ＳＷｎの方向または方位Ｂ１，Ｂ２…Ｂｎを更新または追跡（これらの用語は本明細書中で交換可能に用いられる）し得る。任意に、本明細書に記載のように、デバイス１００、その回路、および／またはその実行可能コードは、各自の角度セクタＦＷ１，ＦＷ２…ＦＷｎおよび／またはＳＷ１，ＳＷ２…ＳＷｎを更新または追跡して、第１の、第２の、および／または第３の、および／またはその後の対象方位Ｂ１，Ｂ２…Ｂｎの角度変化に従い得る。

合成出力例（ビデオ会議の場合）
図８Ａ～図８Ｄ、図１０Ａ～図１０Ｂ、および図１９～図２４において、「合成出力ＣＯ」、すなわち、合成されてレンダリングされた／合成されたカメラビューとしての組合されたまたは合成されたサブシーンが、リモートディスプレイＲＤ１のメインビュー（会議室ローカルディスプレイＬＤから受信したシーンを表わす）、およびネットワークインターフェイス１０または１０ａの両方への引出線とともに示されており、会議室（ローカル）ディスプレイＬＤのテレビ会議クライアントは、ＵＳＢ周辺装置１００から受信したビデオ信号を単一カメラビューとして「透過的に」取扱い、合成出力ＣＯをリモートクライアントまたはリモートディスプレイＲＤ１およびＲＤ２に伝えることを表わしている。すべてのサムネイルビューも合成出力ＣＯを示し得ることに留意すべきである。一般に、図１９、図２０および図２２は図３Ａ～図５Ｂに示す出席者の配列に対応しており、さらにもう１人の出席者が図２１において図３Ａ～図５Ｂに示す空席に座って参加している。

例示的な移行間で、縮小したパノラマビデオ信号ＳＣ．Ｒ（垂直スクリーンの約２５％を占めている）は、（たとえば図９Ａ～図９Ｅに示すように）パノラマシーンビデオ信号ＳＣの「ズームイン」した部分を示し得る。ズームレベルは、この約２５％に含まれている画素の数によって決定され得る。人物／オブジェクトＭ１，Ｍ２…Ｍｎが関連するようになると、対応するサブシーンＳＳ１，ＳＳ２…ＳＳｎが（たとえばスライドするビデオパネルを合成することによって）ステージシーンＳＴＧまたは合成出力ＣＯに移行し、参加者Ｍ１，Ｍ２…Ｍｎ間のその時計回りのまたは左から右への位置が維持される。同時に、プロセッサは、ＧＰＵ６メモリまたはＲＯＭ／ＲＡＭ８を用いて、現在の対象方位Ｂ１，Ｂ２…Ｂｎをスクリーンの中央に表示するために、縮小したパノラマビデオ信号ＳＣ．Ｒを左または右にゆっくりスクロールし得る。現在の対象方位はハイライト表示され得る。新たな関連しているサブシーンＳＳ１，ＳＳ２…ＳＳｎが識別されると、縮小したパノラマビデオ信号ＳＣ．Ｒは、直近のサブシーンＳＳ１，ＳＳ２…ＳＳｎがハイライト表示されて、縮小したパノラマビデオ信号ＳＣ．Ｒの中央に配置されるように、回転またはパンし得る。この構成によって、会議中、縮小したパノラマビデオ信号ＳＣ．Ｒが連続的に再レンダリングされて実質的にパンされて、部屋の関連部分が示される。

図１９に示すように、典型的なビデオ会議ディスプレイにおいて、各出席者のディスプレイはマスタビューおよび複数のサムネイルビューを示し、各々はウェブカメラの出力信号によって実質的に決定される。マスタビューは典型的にリモート出席者のうちの１人であり、サムネイルビューは他の出席者を表わす。ビデオ会議であるかチャットシステムで
あるかに応じて、マスタビューは出席者の中で活発なスピーカーを示すように選択され得るか、または、しばしばサムネイルの選択によって、いくつかの場合ではローカルシーンを含む別の出席者に切替えられ得る。いくつかのシステムでは、ローカルシーンサムネイルは、各出席者が自身をカメラに対して位置決めして有用なシーンを提示し得るように、常に全体のディスプレイ内にあり続ける（この例を図１９に示す）。

図１９に示すように、本発明に係る実施形態は、単一カメラシーンの代わりに、複数の出席者の合成されたステージビューを提供する。たとえば、図１９では、（アイコン図Ｍ１，Ｍ２およびＭ３によって表わされる）出席者Ｍ１，Ｍ２およびＭ２への潜在的な対象方位Ｂ１，Ｂ２およびＢ３を会議カメラ１００が利用可能である。本明細書に記載のように、局所化されるまたはその他の方法で識別される可能な３人の出席者Ｍ１，Ｍ２，Ｍ３がおり、１人のＳＰＫＲが発言中であるため、ステージＳＴＧ（合成出力ＣＯと同等）は当初、図１９では出席者Ｍ２である活発なスピーカーＳＰＫＲのサブシーンを含む、デフォルト数（この場合は２つ）の関連したサブシーンでポピュレートされ得る。

図１９には３人の参加者のディスプレイが、すなわち、たとえば、会議カメラ１００に、かつインターネットＩＮＥＴに接続されたパーソナルコンピュータなどのローカルディスプレイＬＤと、第１のリモート出席者Ａ．ｈｅｘの第１のパーソナルコンピュータ（「ＰＣ」）またはタブレットディスプレイリモートディスプレイＲＤ１と、第２のリモート出席者Ａ．ｄｉａｍｏｎｄの第２のＰＣまたはタブレットディスプレイＲＤ２とが示されている。ビデオ会議の文脈において予期されるように、ローカルディスプレイＬＤは、ローカルディスプレイＰＣのオペレータまたはビデオ会議ソフトウェア（図１９ではＡ．ｈｅｘ）によって選択されたリモートスピーカーを最も顕著に示すのに対して、２つのリモートディスプレイＲＤ１，ＲＤ２は、リモートオペレータまたはソフトウェアによって選択されたビュー（たとえば、活発なスピーカーのビュー、会議カメラ１００の合成ビューＣＯ）を示す。

マスタビューおよびサムネイルビュー内の出席者の配列は、ビデオ会議またはビデオチャットシステム内のユーザ選択およびさらには自動選択にある程度依存するが、図１９の例では、ローカルディスプレイＬＤは、典型的であるように、最後に選択されたリモート出席者（たとえば、リモートディスプレイＲＤ１を有するＰＣまたはラップトップで作業している出席者であるＡ．ｈｅｘ）が示されているマスタビューと、本質的にすべての出席者が表わされているサムネイル列（ローカル会議カメラ１００からの合成されたステージビューを含む）とを示している。リモートディスプレイＲＤ１およびＲＤ２の各々は、対照的に、（スピーカーＳＰＫＲが現在発言中であるため）合成されたステージビューＣＯ、ＳＴＧを含むマスタビューを示しており、サムネイル列はここでも残りの出席者のビューを含んでいる。

図１９は、出席者Ｍ３が既に発言したか、またはステージＳＴＧのデフォルト占有者として以前に選択されており、最も関連しているサブシーンをすでに占めている（たとえば直近に関連していたサブシーンであった）と仮定している。図１９に示すように、スピーカーＭ２（アイコン図Ｍ２、およびリモートディスプレイ２では口が開いているシルエットＭ２）に対応するサブシーンＳＳ１が、（ブロック矢印によって表わされる）スライド移行で単一カメラビューに合成される。好ましいスライド移行はゼロまたは無視できるほどの幅で開始し、真ん中の、すなわち、対応するサブシーンＳＳ１，ＳＳ２…ＳＳｎの対象方位Ｂ１，Ｂ２…Ｂｎがステージ上にスライドし、次に、合成された対応するサブシーンＳＳ１，ＳＳ２…ＳＳｎの幅を少なくとも最小幅に達するまで成長させ、ステージ全体が満たされるまで、合成された対応するサブシーンＳＳ１，ＳＳ２…ＳＳｎの幅を成長させ続け得る。合成（中間移行）および合成シーンはカメラビューとして会議室（ローカル）ディスプレイＬＤのテレビ会議クライアントに提供されるので、合成および合成シーン
は、ローカルクライアントディスプレイＬＤおよび２つのリモートクライアントディスプレイＲＤ１，ＲＤ２のメインビューおよびサムネイルビュー内に実質的に同時に提示（すなわち現在のビューとして提示）され得る。

図２０において、図１９の後、出席者Ｍ１が直近のおよび／または最も関連しているスピーカーになる（たとえば、先の状況は、出席者Ｍ２が直近のおよび／または最も関連しているスピーカーであった図１９の状況である）。出席者Ｍ３およびＭ２についてのサブシーンＳＳ３およびＳＳ２は追跡および識別基準に従って関連し続けており、（スケーリング、またはクロッピングによって、瞳孔間距離の２～１２倍の幅限界および本明細書に記載のような他の方法によって任意に限定されて）必要に応じてより小さい幅に再構成され得る。サブシーンＳＳ２は同様に互換性のあるサイズに合成された後、（ここでもブロック矢印によって表わされる）スライド移行でステージＳＴＧ上に構成される。図９、図１０Ａ～図１０Ｂ、および図１１Ａ～図１１Ｂに関して本明細書中に述べたように、新たなスピーカーＳＰＫＲは、既に表示された出席者Ｍ２の方位の（見下ろした図において、時計回りに）右側にいる出席者Ｍ１であるため、任意にサブシーンＳＳ１を、左右像または左から右への順序（Ｍ３，Ｍ２，Ｍ１）、この場合は右からの移行を保存するようにステージ上に移行させてもよい。

図２１において、図２０の後、部屋に到着した新たな出席者Ｍ４が直近の最も関連しているスピーカーになる。スピーカーＭ２およびＭ１についてのサブシーンＳＳ２およびＳＳ１は追跡および識別基準に従って関連し続けており、「３対１」の幅に合成されたままである。スピーカーＭ３に対応するサブシーンは「エージアウト」し、もはや直近のスピーカーほど関連していない（しかし、多くの他の優先度および関連性が本明細書に記載される）。スピーカーＭ４に対応するサブシーンＳＳ４は互換性のあるサイズに合成された後、（ここでもブロック矢印によって表わされる）フリップ移行でカメラ出力に合成され、サブシーンＳＳ３は除去としてフリップアウトされている。これは、スライド移行または代替の移行であってもよい。図示していないが、代替として、新たなスピーカーＳＰＫＲは既に表示された出席者Ｍ２およびＭ１の方位の（見下ろした図において、時計回りに）左側にいる出席者Ｍ４であるため、任意にサブシーンＳＳ４を、左右像または左から右への順序（Ｍ４，Ｍ２，Ｍ１）、この場合は左からの移行を保存するようにステージ上に移行させてもよい。この場合、サブシーンＳＳ２，ＳＳ１の各々は右に１つ場所が移行してもよく、サブシーンＭ３はステージの右に（スライド移行で離れるように）出てもよい。

本明細書に記載のように、図１９～図２１は、合成された、追跡された、および／または表示された合成シーンが受信されて単一カメラシーンとして表示される、例としてモバイルデバイス上の例示的なローカルおよびリモートビデオ会議モードを示している。これらは前の段落の文脈において参照されて記載されている。

全体的な情報は同様であるが、図２２は、図１９の形態の変形であるビデオ会議を表示する形態を提示している。特に、図１９ではサムネイルビューはマスタビューにオーバーラップしておらず、マスタビューと一致するサムネイルビューはサムネイル列内に保持されているが、図２２の形態ではサムネイルがマスタビューにオーバーラップしており（たとえば、マスタビュー上に重畳されるように合成されており）、現在のマスタビューは（たとえば減光などによって）サムネイル列内で強調されていない。

図２３は、高解像度の、クローズアップの、または同様の別個のカメラ７に対応する第４のクライアントが自身のクライアントをネットワークインターフェイス１０ｂを介してテレビ会議グループに接続しているのに対して、合成出力ＣＯおよびその移行がネットワークインターフェイス１０ａを介して会議室（ローカル）ディスプレイＬＤに提示される
、図１９～図２２の変形を示す。

図２４は、テキストレビューウインドウを有する、コードまたはドキュメントをレビューしているクライアントがローカル無線接続を介して会議カメラ１００に接続する、図１９～図２２の変形を示す（しかし、ある変形では、コードまたはドキュメントをレビューしているクライアントはリモートステーションからのインターネットを介して接続してもよい）。一例では、第１のデバイスまたはクライアント（ＰＣまたはタブレット）が出席者をパノラマビューで示すビデオ会議またはチャットクライアントを実行し、第２のクライアントまたはデバイス（ＰＣまたはタブレット）がコードまたはドキュメントレビュークライアントを実行し、それをウェブカメラと同じ形態のビデオ信号として会議カメラ１００に提供する。会議カメラ１００は、コードまたはドキュメントレビュークライアントのドキュメントウインドウ／ビデオ信号をフルフレームサブシーンＳＳｎとしてステージＳＴＧまたはＣＯに合成し、任意にさらに、たとえばステージＳＴＧまたはＣＯよりも高い、会議出席者を含むローカルパノラマシーンを合成する。このように、個々の出席者サブシーンの代わりに、ビデオ信号内に示されるテキストをすべての出席者が利用可能であるが、出席者はやはりパノラマビューＳＣを参照することによって確認されてもよい。図示していないが、会議カメラ１００デバイスは、代わりに、第２のビデオ会議クライアントを作成、インスタンス化、または実行してドキュメントビューをホストしてもよい。代わりに、高解像度の、クローズアップの、または単に別個のカメラ７が自身のクライアントをネットワークインターフェイス１０ｂを介してテレビ会議グループに接続しているのに対して、合成出力ＣＯおよびその移行がネットワークインターフェイス１０ａを介して会議室（ローカル）ディスプレイに提示される。

少なくとも一実施形態において、会議出席者Ｍ１，Ｍ２…Ｍｎは、常にステージシーンビデオ信号または合成出力ＳＴＧ，ＣＯ内に示され得る。たとえば図２５に示すように、少なくとも顔幅検出に基づいて、プロセッサ６は顔を顔のみのサブシーンＳＳ１，ＳＳ２…ＳＳｎとしてクロップし、それらをステージシーンビデオ信号または合成出力ＳＴＧ，ＣＯの上部または下部に沿って整列させ得る。この場合、リモートデバイスＲＤ１などのデバイスを使用する参加者が、クロップされた顔のみのサブシーンＳＳ１，ＳＳ２…ＳＳｎをクリックしてまたは（タッチスクリーンの場合は）触れてローカルディスプレイＬＤと通信し、その人物に集中したステージシーンビデオ信号ＳＴＧを作成できることが望ましい場合がある。１つの例示的な解決では、図１Ｂと同様の、インターネットＩＮＥＴに直接接続された構成を用いて、会議カメラ１００は適切な数の仮想ビデオ会議クライアントを作成もしくはインスタンス化し、および／または各々に仮想カメラを割当て得る。

図２６は、図１～図２６全体にわたって用いられているいくつかの図像および記号を示す。特に、カメラレンズの中心から延びる矢印は、当該矢印がさまざまな図においてそのようにラベル付けされているか否かにかかわらず、対象方位Ｂ１，Ｂ２…Ｂｎに対応し得る。カメラレンズから開いた「Ｖ」字状の角度に延びる破線は、当該破線がさまざまな図においてそのようにラベル付けされているか否かにかかわらず、レンズの視野に対応し得る。楕円形の頭および矩形または台形の体を有する人物の概略的な「棒線画」の描写は、この概略的な人物がさまざまな図においてそのようにラベル付けされているか否かにかかわらず、会議参加者に対応し得る。この概略的な人物の開いた口の描写は、口が開いているこの概略的な人物がさまざまな図においてそのようにラベル付けされているか否かにかかわらず、現在のスピーカーＳＰＫＲを描き得る。左から右に、右から左に、上から下に、または螺旋状に延びる太い矢印は、当該矢印がさまざまな図においてそのようにラベル付けされているか否かにかかわらず、進行中の移行または移行の合成を示し得る。

本開示において、「広角カメラ」および「ワイドシーン」は視野および対象からの距離に依存しており、肩を並べていない異なる２人の人物を会議においてキャプチャするのに
十分広い視野を有する任意のカメラを含む。

「視野」は、垂直視野が特定されていない限り、カメラの水平視野である。本明細書において使用する「シーン」は、カメラによってキャプチャされたシーンの画像（静止画または動画）を意味する。一般に、例外を含むが、パノラマ「シーン」ＳＣは、その信号が単一カメラによってキャプチャされるか複数のカメラからスティッチングされるかにかかわらず、システムが取扱う最大画像またはビデオストリームまたは信号の１つである。本明細書中で言及される、最もよく言及されるシーン「ＳＣ」は、魚眼レンズに結合されたカメラ、パノラマ光学部品に結合されたカメラ、または重なり合っているカメラの等角分布によってキャプチャされたパノラマシーンＳＣであるシーンＳＣを含む。パノラマ光学部品は、カメラにパノラマシーンを実質的に直接提供してもよく、魚眼レンズの場合、パノラマシーンＳＣは、魚眼ビューの周囲または水平バンドが分離されており、長い、高アスペクト比の矩形画像にデワープされている水平バンドであってもよく、重なり合っているカメラの場合、パノラマシーンは、個々のオーバーラップしているビューからスティッチングされてクロップされ（かつ場合によってはデワープされ）てもよい。「サブシーン」は、たとえば、連続的な、通常はシーン全体よりも小さい矩形の画素ブロックである、シーンのサブ部分を意味する。パノラマシーンは３６０度未満にクロップされても、その中でサブシーンが取扱われる全体のシーンＳＣと称され得る。

本明細書において使用する「アスペクト比」はＨ：Ｖ水平：垂直比として記載され、「より大きい」アスペクト比は垂直に対して水平比率を（広く短く）増加させる。１：１よりも大きいアスペクト比（たとえば、１．１：１，２：１，１０：１）は「風景画書式」と見なされ、本開示のために、１：１以下のアスペクトは「肖像画書式」（たとえば、１：１．１，１：２，１：３）と見なされる。「単一カメラ」ビデオ信号は、その各々の全体が引用により本明細書に援用されている（すなわち、同じＵＲＬにおけるhttp://www.usb.org/developers/docs/devclass_docs/USB_Video_Class_1_5.zip USB_Video_Class_1_1_090711.zip参照）、USB Implementers Forum による「USB Device Class Definition for Video Devices」１．１または１．５としても公知の、たとえばＵＶＣといった単一カメラに対応するビデオ信号としてフォーマットされる。ＵＶＣ内に記載される信号のいずれも、当該信号がＵＳＢを介してトランスポートされるか、搬送されるか、送信されるか、トンネルされるかにかかわらず、「単一カメラビデオ信号」であり得る。

「ディスプレイ」は、任意の直接ディスプレイスクリーンまたは投影ディスプレイを意味する。「カメラ」はデジタル撮像装置を意味し、これは、ＣＣＤもしくはＣＭＯＳカメラ、熱画像カメラ、またはＲＧＢＤ深度もしくは飛行時間カメラであってもよい。当該カメラは、２つ以上のスティッチングされたカメラビューによって形成される、および／または広いアスペクト、パノラマ、広角、魚眼、もしくは反射屈折パースペクティブの仮想カメラであってもよい。

「参加者」は、グループビデオ会議セッションに接続されてウェブカメラからのビューを表示している人物、デバイス、または場所であり、ほとんどの場合「出席者」は参加者であるだけでなく、会議カメラ１００と同じ部屋にいる。「スピーカー」は、発言中であるか、または会議カメラ１００もしくは関連のリモートサーバが当該スピーカーを識別するのに十分最近に発言した出席者であるが、いくつかの説明では、発言中であるか、またはビデオ会議クライアントもしくは関連のリモートサーバが当該スピーカーを識別するのに十分最近に発言した参加者であってもよい。

「合成」は一般に、当該技術において公知であるようなデジタル合成、すなわち、複数のビデオ信号（および／または画像もしくは他のメディアオブジェクト）をデジタル的にアセンブルして最終ビデオ信号を作成することを意味し、これは、アルファ合成およびブ
レンディング、アンチエイリアシング、ノードベースの合成、キーフレーミング、レイヤベースの合成、ネスティング合成または複合、ディープ画像合成（機能ベースであるかサンプルベースであるかにかかわらず、色、不透明度、およびディープデータを用いる深度を用いる）といった技術を含む。合成は、各々がビデオストリームを含むサブシーンの動作および／またはアニメーションを含む進行中のプロセスであり、たとえば、全体のステージシーン内のさまざまなフレーム、ウインドウ、およびサブシーンの各々が、それらが全体のステージシーンとして移動し、移行し、ブレンドされ、または他の方法で合成されるにつれて異なる進行中のビデオストリームを表示し得る。本明細書において使用する合成は、１つ以上のウインドウのための１つ以上のオフスクリーンバッファを有する合成ウインドウマネージャ、またはスタッキングウインドウマネージャを使用してもよい。任意のオフスクリーンバッファまたはディスプレイメモリコンテンツが二重もしくは三重にバッファリングされてもよいし、またはその他の方法でバッファリングされてもよい。合成はさらに、２Ｄおよび３Ｄアニメーション効果の適用、ブレンディング、フェージング、スケーリング、ズーミング、回転、複製、曲げ、捩じれ、シャフリング、ブラーリング、ドロップシャドー、グロー、プレビュー、およびアニメーションの追加といった、バッファリングされたウインドウまたはディスプレイメモリウインドウの一方または両方に対する処理を含み得る。合成はさらに、ベクトル指向のグラフィカル要素またはピクセルもしくはボクセル指向のグラフィカル要素にこれらを適用することを含み得る。合成は、タッチ、マウスオーバー、ホバーまたはクリックするとポップアッププレビューをレンダリングすること、背景に対していくつかのウインドウを再配列してタッチ、マウスオーバー、ホバーまたはクリックによって選択を可能にすることによるウインドウ切替、およびフリップ切替、カバー切替、リング切替、露光切替などを含み得る。本明細書に記載のように、フェージング、スライディング、成長または縮小、およびこれらの組合せなどのさまざまな視覚移行が当該ステージ上で用いられ得る。本明細書において使用する「移行」は、必要な合成ステップを含む。

本明細書に開示される実施形態に関連して記載される方法またはアルゴリズムのステップは、ハードウェアにおいて、プロセッサによって実行されるソフトウェアモジュールにおいて、またはこれら２つの組合せにおいて直接具体化されてもよい。ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ－ＲＯＭ、または当該技術において公知のその他の形態の記憶媒体内に存在していてもよい。例示的な記憶媒体が、プロセッサが当該記憶媒体から情報を読出し、かつ当該記憶媒体に情報を書込むことができるように、当該プロセッサに結合されてもよい。代わりに、記憶媒体はプロセッサと一体であってもよい。プロセッサおよび記憶媒体はＡＳＩＣ内に存在していてもよい。ＡＳＩＣはユーザ端末内に存在していてもよい。代わりに、プロセッサおよび記憶媒体は個別の部品としてユーザ端末内に存在していてもよい。

上述のプロセスのすべては、１つ以上の汎用または専用コンピュータまたはプロセッサによって実行されるソフトウェアコードモジュールにおいて具体化され、かつ当該ソフトウェアコードモジュールを介して完全に自動化されてもよい。コードモジュールは、任意の種類のコンピュータ読取可能媒体、または他のコンピュータ記憶装置もしくは記憶装置の集合上に記憶されてもよい。代わりに、当該方法の一部またはすべては、特化したコンピュータハードウェアにおいて具体化されてもよい。

本明細書に記載の方法およびタスクのすべては、コンピュータシステムによって実行されて完全に自動化されてもよい。コンピュータシステムは、いくつかの場合、ネットワーク上で通信して相互運用して上述の機能を実行する複数の個別のコンピュータまたはコンピューティングデバイス（たとえば物理サーバ、ワークステーション、ストレージアレイ等）を含んでいてもよい。そのようなコンピューティングデバイスの各々は典型的に、プ
ログラム命令を実行するプロセッサ（もしくは複数のプロセッサもしくは回路もしくは回路の集合、たとえばモジュール）、またはメモリもしくは他の非一時的なコンピュータ読取可能記憶媒体に記憶されたモジュールを含む。本明細書に開示されるさまざまな機能はそのようなプログラム命令において具体化されてもよいが、開示される機能の一部またはすべては代わりにコンピュータシステムの特定用途向け回路（たとえばＡＳＩＣまたはＦＰＧＡ）において実現されてもよい。コンピュータシステムが複数のコンピューティングデバイスを含む場合、これらのデバイスは同じ場所に配置されてもよいが、そのように配置されなくてもよい。開示される方法およびタスクの結果は、ソリッドステートメモリチップおよび／または磁気ディスクといった物理的記憶装置を異なる状態に変換することによって永続的に記憶されてもよい。

図２Ａ～図２Ｌに関して述べるように、会議カメラ１００のベースからのワイドカメラ２，３，５の高さは好ましくは８インチ（２０．３２センチメートル）よりも大きいため、カメラ２，３，５は会議において典型的なラップトップスクリーンよりも高く、それによって会議出席者Ｍ１，Ｍ２…Ｍｎへの遮られていないおよび／またはほぼ目の高さのビューを有し得る。マイクアレイ４は少なくとも２つのマイクを含み、当該技術において公知であるようにビーム形成、相対的飛行時間、局所化、または受信した信号強度差によって、近くの音または発話への対象方位を得ることができる。マイクアレイ４は、ワイドカメラ２の視野と少なくとも実質的に同じ角度範囲をカバーするように方向付けられた複数のマイクペアを含み得る。

マイクアレイ４は、８インチ（２０．３２センチメートル）よりも高い高さでワイドカメラ２，３，５とともに任意に配列されているため、出席者Ｍ１，Ｍ２…Ｍｎの発言中にアレイ４と当該出席者との間に直接的な「見通し線」がやはり存在し、典型的なラップトップスクリーンによって遮られない。計算およびグラフィカルイベントを処理するためのＣＰＵおよび／またはＧＰＵ（ならびにカメラ回路などの関連付けられた回路）６が、ワイドカメラ２，３，５の各々およびマイクアレイ４に接続されている。ＲＯＭおよびＲＡＭ８が、実行可能コードを保持して受信するためにＣＰＵおよびＧＰＵ６に接続されている。ネットワークインターフェイスおよびスタック１０が、ＣＰＵ６に接続されたＵＳＢ、イーサネット（登録商標）、および／またはＷｉＦｉのために設けられている。１つ以上のシリアルバスがこれら電子部品を相互に接続しており、それらはＤＣ、ＡＣ、またはバッテリパワーによって電力が供給される。

図２Ａから図２Ｌは、図１Ａおよび図１Ｂのデバイスまたは会議カメラ１００のための、ワイドシーンおよび／またはパノラマシーンを収集するのに好適な会議カメラ１４またはカメラタワー１４配列の実施形態の概略図である。「カメラタワー」１４および「会議カメラ」１４は本明細書中では実質的に交換可能に用いられ得るが、会議カメラはカメラタワーでなくてもよい。図２Ａ～図２Ｌにおけるデバイス１００のベースからのワイドカメラ２，３，５の高さは、好ましくは８インチ（２０．３２センチメートル）よりも大きく１５インチ（３８．１センチメートル）よりも小さい。

図２Ａのカメラタワー１４配列では、複数のカメラがカメラタワー１４のカメラレベル（８から１５インチ（２０．３２から３８．１センチメートル））で周囲に配列され、等角度に離間している。カメラの数はカメラの視野およびスパンすべき角度によって決定され、パノラマのスティッチングされたビューを形成する場合は、スパンする累積角度は個々のカメラ間のオーバーラップを有するべきである。たとえば、図２Ａの場合、各々が１００～１１０度の視野（破線で示す）である４つのカメラ２ａ，２ｂ，２ｃ，２ｄ（２ａ～２ｄとラベル付けされている）が互いに９０度に配列されて、カメラタワー１４の周りの３６０度の累積ビューまたはスティッチング可能なもしくはスティッチングされたビューを提供する。

図２Ｃのカメラタワー１４配列では、上向きに方向付けられた単一の魚眼カメラまたはほぼ魚眼のカメラ３ａが、カメラタワー１４のカメラレベル（８から１５インチ（２０．３２から３８．１センチメートル））の頂上に配列されている。この場合、魚眼カメラレンズは３６０度の連続する水平ビュー、および約２１５（たとえば１９０～２３０）度の垂直視野（破線で示す）を有して配列される。代わりに、たとえば図２Ｄに示すような円筒形の透過性シェル、上部放物面鏡、黒い中央ポスト、テレセントリックレンズ構成を有する単一の反射屈折「円筒画像」カメラまたはレンズ３ｂが、３６０度の連続する水平ビューを有して、約４０～８０度の垂直視野を有して配列され、水平線上にほぼ中心付けられている。魚眼カメラおよび円筒画像カメラの各々の場合、会議テーブルから８～１５インチ（２０．３２～３８．１センチメートル）上に位置決めされる垂直視野は水平線の下を延びて、会議テーブルの周りの出席者Ｍ１，Ｍ２…Ｍｎを腰の高さ以下まで撮像することを可能にする。各カメラ３ａまたは３ｂからの画像、ビデオまたはサブシーンは、デワープまたは歪み補償といった魚眼レンズまたは反射屈折レンズについての公知の光学補正の前後に処理されて対象方位またはサブシーンが識別され得るが、典型的には出力前にそのように補正されることになる。

図２Ｌのカメラタワー１４配列では、複数のカメラがカメラタワー１４のカメラレベル（８から１５インチ（２０．３２から３８．１センチメートル））で周囲に配列され、等角度に離間している。カメラの数は、この場合、完全に連続的なパノラマのスティッチングされたビューを形成することを意図しておらず、スパンする累積角度は個々のカメラ間のオーバーラップ有していない。たとえば、図２Ｌの場合、各々が１３０度以上の視野（破線で示す）である２つのカメラ２ａ，２ｂが互いに９０度に配列されて、カメラタワー１４の両側の約２６０度以上を含む別個のビューを提供する。この配列は、長い会議テーブルＣＴの場合に有用となる。たとえば、図２Ｅの場合、２つのカメラ２ａ～２ｂがパンしており、および／または縦軸の周りを回転可能であり、本明細書に記載の対象方位Ｂ１，Ｂ２…Ｂｎをカバーしている。各カメラ２ａ～２ｂからの画像、ビデオまたはサブシーンは、光学補正の前後に本明細書に記載のようにスキャンまたは分析され得る。

図２Ｊでは、図２ｃのカメラと同様の魚眼カメラまたはレンズ３ａ（反射屈折レンズ３ｂと物理的におよび／または概念的に交換可能である）がカメラタワー１４のカメラレベル（８から１５インチ（２０．３２から３８．１センチメートル））の頂上に配列されている。１つの回転可能な、高解像度の、任意に傾いているカメラ７（自身の独立したテレビ会議クライアントソフトウェアまたはインスタンスに任意に接続されている）が対象オブジェクト（ホワイトボードＷＢまたはテーブルＣＴ面上のページもしくは紙など）に方向付け可能である。図６Ａ、図６Ｂおよび図１４に示すように、この配列が有利に働くのは、第１のテレビ会議クライアントが（図１４では「会議室（ローカル）ディスプレイ上でまたはこれに接続されると）、たとえば第１の物理または仮想ネットワークインターフェイスまたはチャネル１０ａを介して、合成されたサブシーンをシーンＳＣカメラ３ａ，３ｂから単一カメラ画像または合成出力ＣＯとして受信し、第２のテレビ会議クライアント（図１４ではデバイス１００内に存在しており、第２の物理または仮想ネットワークインターフェイスまたはチャネル１０ｂを介してインターネットに接続されている）が独立した高解像度画像をカメラ７から受信するときである。

ステップＳ１６において、またはステップＳ１６～Ｓ１８において代わりにもしくは加えて、少なくとも２０度の画角（たとえばＦＷ１および／またはＳＷ１）の第１の個別のサブシーンが、第１の対象方位Ｂ１，Ｂ２…Ｂｎにおいて広角シーンＳＣから得られる。少なくとも２０度の画角（たとえばＦＷ１および／またはＳＷ１）設定の代わりにまたは当該設定に加えて、第１の個別のサブシーンＦＷ１および／またはＳＷ１は、（たとえばＭ１に特有であるかＭ１，Ｍ２…Ｍｎを表わす）瞳孔間距離の少なくとも２倍から１２倍をスパンする画角として、または、代わりに、もしくはさらに、（たとえばＭ１に特有であるかＭ１，Ｍ２…Ｍｎを表わす）瞳孔間距離と（たとえばＭ１に特有であるかＭ１，Ｍ２…Ｍｎを表わす）肩幅との間の幅をキャプチャするようにスケーリングされた画角として、広角シーンＳＣから得られ得る。より広い肩幅ＳＷｎのサブシーンキャプチャは、より狭い顔幅ＦＷｎを後の参照用に記録し得る。

図１９に示すように、本発明に係る実施形態は、単一カメラシーンの代わりに、複数の出席者の合成されたステージビューを提供する。たとえば、図１９では、（アイコン図Ｍ１，Ｍ２およびＭ３によって表わされる）出席者Ｍ１，Ｍ２およびＭ３への潜在的な対象方位Ｂ１，Ｂ２およびＢ３を会議カメラ１００が利用可能である。本明細書に記載のように、局所化されるまたはその他の方法で識別される可能な３人の出席者Ｍ１，Ｍ２，Ｍ３がおり、１人のＳＰＫＲが発言中であるため、ステージＳＴＧ（合成出力ＣＯと同等）は当初、図１９では出席者Ｍ２である活発なスピーカーＳＰＫＲのサブシーンを含む、デフォルト数（この場合は２つ）の関連したサブシーンでポピュレートされ得る。

Claims

ビデオ信号を合成して出力する方法であって、
実質的に９０度以上の水平画角を有するワイドカメラからキャプチャされた、実質的に２．４：１以上のアスペクト比を有するパノラマビデオ信号を記録することと、
前記ワイドカメラから各自の対象方位において少なくとも２つのサブシーンビデオ信号をサブサンプリングすることと、
前記少なくとも２つのサブシーンビデオ信号を並べて合成して、実質的に２：１以下のアスペクト比を有するステージシーンビデオ信号を形成することとを備え、前記ステージシーンビデオ信号の領域の８０％よりも大きい領域が前記パノラマビデオ信号からサブサンプリングされ、さらに、
単一カメラビデオ信号としてフォーマットされる前記ステージシーンビデオ信号を出力することを備える、方法。
前記パノラマビデオ信号からの各自の対象方位において追加のサブシーンビデオ信号をサブサンプリングすることと、
前記少なくとも２つのサブシーンビデオ信号を、少なくとも１つの前記追加のサブシーンビデオ信号とともに合成して、複数の並んだサブシーンビデオ信号を含む、実質的に２：１以下のアスペクト比を有するステージシーンビデオ信号を形成することとをさらに備える、請求項１に記載の方法。
少なくとも２つのサブシーンビデオ信号を少なくとも１つの前記追加のサブシーンビデオ信号とともに合成してステージシーンビデオ信号を形成することは、
前記少なくとも２つのサブシーンビデオ信号の少なくとも１つを置換することによって少なくとも１つの前記追加のサブシーンビデオ信号を前記ステージシーンビデオ信号に移行させて、実質的に２：１以下のアスペクト比を有するステージシーンビデオ信号を形成することを含む、請求項２に記載の方法。
各サブシーンビデオ信号には最小幅が割当てられ、前記ステージシーンビデオ信号への各自の移行が完了すると、各サブシーンビデオ信号は実質的にその最小幅以上で並べて合成されて前記ステージシーンビデオ信号を形成する、請求項３に記載の方法。
移行中の各自のサブシーンビデオ信号の合成幅は、前記合成幅が実質的にその対応する各自の最小幅以上になるまで、前記移行全体にわたって増加する、請求項４に記載の方法。
各サブシーンビデオ信号は、実質的にその最小幅以上で、かつ、各々が、すべての合成されたサブシーンビデオ信号の合計が前記ステージシーンビデオ信号の幅と実質的に等しい各自の幅で、並べて合成される、請求項４に記載の方法。
前記ステージシーンビデオ信号内のサブシーンビデオ信号の幅は、サブシーンビデオ信号に対応する少なくとも１つの対象方位において検出されたアクティビティ基準に従って変化するように合成されるのに対して、前記ステージシーンビデオ信号の幅は一定に保たれる、請求項６に記載の方法。
前記少なくとも２つのサブシーンビデオ信号を少なくとも１つの前記追加のサブシーンビデオ信号とともに合成してステージシーンビデオ信号を形成することは、
前記少なくとも２つのサブシーンビデオ信号の少なくとも１つの幅を、少なくとも１つの前記追加のサブシーンビデオ信号の幅に対応する量だけ縮小することによって、少なくとも１つの前記追加のサブシーンビデオ信号を前記ステージシーンビデオ信号に移行させ
ることを含む、請求項２に記載の方法。
各サブシーンビデオ信号には各自の最小幅が割当てられ、各サブシーンビデオ信号は、実質的にその対応する各自の最小幅以上で並べて合成されて前記ステージシーンビデオ信号を形成し、少なくとも１つの前記追加のサブシーンビデオ信号とともに、前記少なくとも２つのサブシーンビデオ信号の前記各自の最小幅の合計が前記ステージシーンビデオ信号の幅を超えると、前記少なくとも２つのサブシーンビデオ信号の少なくとも１つが前記ステージシーンビデオ信号から除去されるように移行する、請求項８に記載の方法。
前記ステージシーンビデオ信号から除去されるように移行する前記２つのサブシーンビデオ信号の前記少なくとも１つは、アクティビティ基準が最も以前に満たされた各自の対象方位に対応する、請求項９に記載の方法。
前記少なくとも２つのサブシーンビデオ信号および少なくとも１つの前記追加のサブシーンビデオ信号の各自の対象方位間の前記ワイドカメラに対する左から右への順序は、前記少なくとも２つのサブシーンビデオ信号が少なくとも１つの前記追加のサブシーンビデオ信号とともに合成されて前記ステージシーンビデオ信号を形成する際に保存される、請求項９に記載の方法。
前記パノラマビデオ信号からの各自の対象方位は、前記ワイドカメラに対する前記各自の対象方位において検出された選択基準に依存して選択され、さらに、
選択基準が真でなくなった後、その対応するサブシーンビデオ信号を前記ステージシーンビデオ信号から除去するように移行させることを備える、請求項１に記載の方法。
前記選択基準は、前記各自の対象方位において満たされたアクティビティ基準の存在を含み、さらに、
前記各自の対象方位において前記アクティビティ基準が満たされてからの時間をカウントすることを備え、前記各自の対象方位において前記アクティビティ基準が満たされた後の予め定められた期間、各自のサブシーン信号は前記ステージシーンビデオ信号から除去されるように移行する、請求項１２に記載の方法。
前記パノラマビデオ信号から、実質的に８：１以上のアスペクト比の縮小したパノラマビデオ信号をサブサンプリングすることと、
前記少なくとも２つのサブシーンビデオ信号を前記縮小したパノラマビデオ信号とともに合成して、複数の並んだサブシーンビデオ信号と前記パノラマビデオ信号とを含む、実質的に２：１以下のアスペクト比を有するステージシーンビデオ信号を形成することとをさらに備える、請求項１に記載の方法。
前記少なくとも２つのサブシーンビデオ信号を前記縮小したパノラマビデオ信号とともに合成して、複数の並んだサブシーンビデオ信号と、前記複数の並んだサブシーンビデオ信号よりも高い前記パノラマビデオ信号とを含む、実質的に２：１以下のアスペクト比を有するステージシーンビデオ信号を形成することをさらに備え、前記パノラマビデオ信号は、前記ステージシーンビデオ信号の領域の１／５以下であり、前記ステージシーンビデオ信号の幅を実質的に横切って延びる、請求項１４に記載の方法。
テキストドキュメントからテキストビデオ信号をサブサンプリングすることと、
前記少なくとも２つのサブシーンビデオ信号の少なくとも１つを前記テキストビデオ信号に置換することによって、前記テキストビデオ信号を前記ステージシーンビデオ信号に移行させることとをさらに備える、請求項１４に記載の方法。
保持基準に基づいて、前記少なくとも２つのサブシーンビデオ信号の少なくとも１つを、移行から保護される保護サブシーンビデオ信号として設定することをさらに備え、前記少なくとも２つのサブシーンビデオ信号の少なくとも１つを置換することによって少なくとも１つの前記追加のサブシーンビデオ信号を前記ステージシーンビデオ信号に移行させることは、保護されるサブシーン以外のサブシーンビデオ信号を移行させる、請求項３に記載の方法。
強調基準に基づいてサブシーン強調動作を設定することをさらに備え、前記少なくとも２つのサブシーンビデオ信号の少なくとも１つは、対応する強調基準に基づいて前記サブシーン強調動作に従って強調される、請求項１に記載の方法。
センサから検知された基準に基づいてサブシーン参加者通知動作を設定することをさらに備え、ローカルリマインダ指標が、対応する検知された基準に基づいて前記通知動作に従って起動される、請求項１に記載の方法。
前記パノラマビデオ信号は実質的に８：１以上のアスペクト比を有し、実質的に３６０度の水平画角を有するワイドカメラからキャプチャされる、請求項１に記載の方法。
ワイドビデオ信号内の対象方位においてサブシーンを追跡する方法であって、
音響センサアレイと実質的に９０度以上の視野を観察するワイドカメラとを用いて、ある角度範囲を監視することと、
前記角度範囲内に検出された音響認識および視覚認識の少なくとも一方の局所化に沿って、第１の対象方位を識別することと、
前記第１の対象方位に沿って、前記ワイドカメラから第１のサブシーンビデオ信号をサブサンプリングすることと、
前記音響認識および前記視覚認識の少なくとも一方の信号特性に従って、前記第１のサブシーンビデオ信号の幅を設定することとを備える、方法。
前記信号特性は、前記音響認識および前記視覚認識の少なくとも一方の信頼レベルを表わしている、請求項２１に記載の方法。
前記信号特性は、前記音響認識および前記視覚認識の少なくとも一方内に認識された特徴の幅を表わしている、請求項２１に記載の方法。
前記信号特性は、前記第１の対象方位に沿って認識された人間の顔の概算幅に対応する、請求項２３に記載の方法。
前記視覚認識の信号特性に従って幅が設定されない場合、予め定められた幅が、前記角度範囲内に検出された音響認識の局所化に沿って設定される、請求項２３に記載の方法。
前記第１の対象方位は視覚認識によって求められ、前記第１のサブシーンビデオ信号の幅は前記視覚認識の信号特性に従って設定される、請求項２１に記載の方法。
前記第１の対象方位は、前記角度範囲内に検出された音響認識に向けて方向付けられて識別され、さらに、
前記音響認識に近接した視覚認識を識別することを備え、前記第１のサブシーンビデオ信号の幅は、前記音響認識に近接した前記視覚認識の信号特性に従って設定される、請求項２１に記載の方法。
ワイドビデオ信号内の対象方位においてサブシーンを追跡する方法であって、
実質的に９０度以上のワイドカメラ視野に対応する動画ビデオ信号を通してサブサンプリングウィンドウをスキャンすることと、
前記サブサンプリングウィンドウ内の候補方位を識別することとを備え、各対象方位は、前記サブサンプリングウィンドウ内に検出された視覚認識の局所化に対応しており、さらに、
前記候補方位を空間マップに記録することと、
音響認識のための音響センサアレイを用いて、前記ワイドカメラ視野に対応する角度範囲を監視することとを備える、方法。
前記空間マップに記録された１つの候補方位に近接して音響認識が検出されると、さらに、
実質的に前記１つの候補方位に対応するように第１の対象方位をスナップすることと、
前記第１の対象方位に沿って、前記ワイドカメラから第１のサブシーンビデオ信号をサブサンプリングすることとを備える、請求項２８に記載の方法。
前記音響認識の信号特性に従って前記第１のサブシーンビデオ信号の幅を設定することをさらに備える、請求項２９に記載の方法。
前記信号特性は、前記音響認識の信頼レベルを表わしている、請求項３０に記載の方法。
前記信号特性は、前記音響認識および前記視覚認識の少なくとも一方内に認識された特徴の幅を表わしている、請求項３０に記載の方法。
前記信号特性は、前記第１の対象方位に沿って認識された人間の顔の概算幅に対応する、請求項３０に記載の方法。
前記視覚認識の信号特性に従って幅が設定されない場合、予め定められた幅が、前記角度範囲内に検出された音響認識の局所化に沿って設定される、請求項３０に記載の方法。
対象方位においてサブシーンを追跡する方法であって、
実質的に９０度以上のワイドカメラ視野に対応する動画ビデオ信号を記録することと、
音響認識のための音響センサアレイを用いて、前記ワイドカメラ視野に対応する角度範囲を監視することと、
前記角度範囲内に検出された音響認識に向けて方向付けられている第１の対象方位を識別することと、
前記第１の対象方位に従って、前記動画ビデオ信号内にサブサンプリングウィンドウを位置付けることと、
前記サブサンプリングウィンドウ内に検出された視覚認識を局所化することとを備える、方法。
実質的に前記視覚認識を中心とする前記ワイドカメラからキャプチャされた第１のサブシーンビデオ信号をサブサンプリングすることと、
前記視覚認識の信号特性に従って前記第１のサブシーンビデオ信号の幅を設定することとをさらに備える、請求項３５に記載の方法。
ワイドビデオ信号内の対象方位においてサブシーンを追跡する方法であって、
音響センサアレイと実質的に９０度以上の視野を観察するワイドカメラとを用いて、ある角度範囲を監視することと、
各々が前記角度範囲内の局所化に向けて方向付けられている複数の対象方位を識別する
ことと、
前記対象方位に対応する記録された特性の空間マップを維持することと、
少なくとも１つの対象方位に実質的に沿って、前記ワイドカメラからサブシーンビデオ信号をサブサンプリングすることと、
前記少なくとも１つの対象方位に対応する記録された特性に従って、前記サブシーンビデオ信号の幅を設定することとを備える、方法。
ワイドビデオ信号内の対象方位においてサブシーンを追跡する方法であって、
音響センサアレイと実質的に９０度以上の視野を観察するワイドカメラとを用いて、ある角度範囲を監視することと、
各々が前記角度範囲内の局所化に向けて方向付けられている複数の対象方位を識別することと、
少なくとも１つの対象方位に実質的に沿って、前記ワイドカメラからサブシーンビデオ信号をサブサンプリングすることと、
少なくとも１つの認識基準に基づく閾値が満たされるまで前記サブシーンビデオ信号を拡大することによって、前記サブシーンビデオ信号の幅を設定することとを備える、方法。
局所化に対応する記録された特性の速度および方向の一方の変更に基づいて、各対象方位についての変更ベクトルを予測することと、
前記予測に基づいて各対象方位の位置を更新することとをさらに備える、請求項３８に記載の方法。
局所化に対応する記録された特性の直近の位置に基づいて、局所化のための検索領域を予測することと、
前記予測に基づいて前記局所化の位置を更新することとをさらに備える、請求項３８に記載の方法。