JP4219682B2 - 自動マルチカメラ映像合成 - Google Patents
自動マルチカメラ映像合成 Download PDFInfo
- Publication number
- JP4219682B2 JP4219682B2 JP2002550724A JP2002550724A JP4219682B2 JP 4219682 B2 JP4219682 B2 JP 4219682B2 JP 2002550724 A JP2002550724 A JP 2002550724A JP 2002550724 A JP2002550724 A JP 2002550724A JP 4219682 B2 JP4219682 B2 JP 4219682B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- audio
- source
- video source
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/268—Signal distribution or switching
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/142—Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Studio Devices (AREA)
- Studio Circuits (AREA)
- Transforming Electric Information Into Light Information (AREA)
Description
発明の技術分野
本発明は、一般に、マルチカメラ映像システムに関し、より詳細には、自動マルチカメラ映像合成システム及びその操作方法に関する。
【0002】
発明の背景技術
映像伝送及び記録の一般的な分野では、複数のビューポイントあるいは位置から同時に映像をキャプチャーする(取り込む)ことが普通である。一般的な一例は、スポーツの放送である。例えば、野球では、複数の視野角からその動きをキャプチャーするために、5台以上のカメラを用いている。一人以上の技術者がカメラを切り替えて、うまくいったのならば、そのゲームのその瞬間に何が起きているかを示す最高の視点から構成するテレビ信号を供給する。もう一つの例は映画である。しかしながら、映画編集は、選択された合成シーケンスにおける種々のカメラショットを用いてほとんどのシーンでイベントが記録されたずっと後になされる。
【0003】
おそらくスポーツコンテンツや映画よりも興奮しないであろうが、マルチカメラ映像データの他の多くの応用法が存在する。例えば、カメラアングルの選択は、ほとんどあらゆるテープに記録された又は放送イベントのずっと豊かな記録を提供することができる。いくつかの例を示せば、そのイベントは、ミーティング、プレゼンテーション、テレビ会議、あるいは電子教室である。
【0004】
一組のリサーチャーは、話し手の行動パターンに基づいて、テレビ会議に適用する自動カメラ切替方法を提案した。1984年11月26〜29日に開催されたIEEE世界遠距離通信会議(Proc. IEEE Global Telecommunications Conf.)におけるF. Canavesio及びG. Castagneriの「テレビ会議における行動パターンに対する自動カメラ切替のストラテジー」を参照されたい。このペーパーに記述されたシステムは、6人のビデオ会議参加者のそれぞれのために1つのマイクロホン及び1つのカメラを有する。2つの追加のカメラがすべての参加者を示す分割スクリーンオーバービュー用の入力を提供する。マイクロプロセッサは、参加者全員のうち誰が話しているかを決定し、6つの「話している(talk)/話していない(no talk)」値からなる二進数活動パターンを生成する「活動話し手識別処理」を周期的に実行する。
【0005】
多くの時間ベースの閾値がそのシステムに入力される。マイクロプロセッサは、7つのカメラビュー(6つの個人用+1つのオーバービュー用)のいずれが各二進数活動パターンに用いられるかを決定する音声切替アルゴリズムを実行する。本質的に、そのアルゴリズムは、誰が話しているか、いずれのカメラが現在選択されているか、及び、現在選択されているカメラビューが最小時間保持されていたかに基づいて、新しい評価インターバルでいずれのカメラビューを用いるかを決定する。一人以上の同時に話す話し手が検出されるか、誰も話していないならば、システムは、プリセット時間後会議オーバービューに切り替える。一般的に、一人の話し手が検出されるとき、そのシステムは、彼らが話し続け、又は小休止を取る限りは、その話し手のクローズアップビューを連続的に選択する。
【0006】
好ましい実施の形態の詳細な記述
本開示は、いくつかの同時発生の映像入力の一つを映像出力として自動選択(オートセレクト)するシステム及びその方法を含む。一般に、カメラ位置についての特殊な知識や映像ストリームから情報へのアクセスは、切替を決定するために要求されない。その代わりに、記述の実施形態は、音声入力及び映像出力選択ヒストリを用いて、映像出力を選択し得る。このアプローチは、表面上自然な種々の映像入力選択を提供するので、システム較正及び処理能力の要求を著しく緩和することができる。
【0007】
多くの映像シナリオ(特に、会話のシナリオ)では、いくつかの利用可能なカメラアングルのうち「最良(best)」のものが活動的話し手(又は他の音源)の位置に最も直接的に相関するアングルであることがここでは述べられる。記述の実施形態は、音声活動の位置に基づいて映像源(video source)を選択し、この観察を利用することができる。また、記述の実施形態は、多数の音声入力のそれぞれを少なくとも一つの映像入力に関連付ける結合マトリクス(結合行列)を用いる。特定の音声入力として、音声活動の増加は、その音声入力に関連付けられた映像入力が現在の映像出力として選択されることがより有望になることを示している。
【0008】
開示の実施形態が映像出力選択を音声活動に一部基づかせているが、好ましくは、他の要素は、選択処理に入力される。これらの他の要素における顕著な例としては、音声源選択のタイムヒストリがある。例えば、一人の人が、延長された期間、合成映像でキャプチャーされたダイアログ(対話又は会話)を支配してもよい。この延長されたインターバルに渡って一つのカメラアングルが大体「最良」であり得るけれども、「最良」の合成映像ストリームは、例えば、より広いアングルビュー、最適よりもわずかに劣る見地からの話し手、あるいは静かな参加者の光景を時々見せてもよい。タイムヒストリを用いることにより、開示の実施形態は、たとえ一つの「最良」の音声チャンネルが優位に立つことを可能にしても、カメラアングルの混合を選択することができる。あるいは、もう一つの例として、タイムヒストリは、例えば、各時間に新しいカメラアングルが選択されることを提供することによって、円滑基準(smoothness criteria)を実行するために用いられ得る。そのアングルは、いくつかの初期期間に選択された残りの増加確率を受け入れる。
【0009】
記述の実施形態は、Canavesio及びCastagneriのシステムにはないいくつかの特徴を提供する。例えば、本システムでは、音声スコアリングは、二進数処理に限定されず、複数のマイクロホンが一つのカメラに関連付けられてもよく、あるいはその逆でもよいので、カメラ/マイクロホン結合には柔軟性がある。このことは、映像切替のタイミングにランダムな一面を導入し、先行技術には欠如している(所定の音声活動パターンに基づいて)種々の可能な切替条件を導入する。また、少なくとも一つの実施形態では、各位置が他の位置よりも映像セッションの異なるビューを潜在的に受信する状態で、その映像供給は、異なる遠隔地において発生させることができる。
【0010】
おそらくさらにいっそう重要なことには、記述の実施形態は、カメラがくどい(長たらしい)話し手のクローズアップビューを示すとしても、長い間1つのカメラが連続して選択されることに強い阻害要因を供給することができる。これは、一人が会話を独占しているときでさえ、他の参加者の短いビュー及び/又はオーバービューを散在させることによって、映像出力に視覚的おもしろさを加える。
【0011】
これらの原理をさらに示すために、図1の会議室配置20を参照して第1実施形態を記述する。この配置20では、3つのマイクロホンA1、A2、A3が会議テーブルの周りに置かれている。同様に、3つのビデオカメラ(以下、単に「カメラ」ともいう)C1、C2、C3が会議テーブルの周りに配置されている。カメラC1の視野は、マイクロホンA1を含み、カメラC2の視野は、マイクロホンA2を含み、カメラC3の視野は、マイクロホンA3を含む。
【0012】
図2は、図1の配置20のようなマイクロホン/カメラ配置で用いられる映像切替システム30の構成を示す。映像オートセレクタ(映像切替装置)40は、各マイクロホンA1、A2及びA3から音声入力を受信する。映像スイッチ50は、各カメラC1、C2及びC3から映像入力を受信する。映像オートセレクタ40は、音声出力及び切替コマンドを生成する。映像スイッチ50は、切替コマンドを用いて、映像源(カメラ)C1、C2、C3の一つからの映像を映像出力に切り替える。
【0013】
図3は、映像オートセレクタ40のより詳細なブロック図を示す。図3の各ブロックを順次記述する。
【0014】
パラメータインターフェース42は、切替ロジック44に操作パラメータを供給する。好ましくは、これらのパラメータの少なくともいくつかは、個別的に又はプリセットモードのグループとして、ユーザによって調整され得る。各パラメータの意味は、その用い方の説明と関連して以下において論じられる。
【0015】
音声スコアラー45は、音声入力A1、A2及びA3を受け取る。(パラメータインターフェース42からの)イグザミネーションインターバル(examination interval)長入力パラメータは、音声スコアが計算されている時間長を決定する。切替ロジック44は、新しいイグザミネーションインターバルが始められるとき、音声スコアラー45にリセット信号を供給する。音声スコアラー45は、各音声入力A1、A2、A3用の音声スコアを形成する。それは、イグザミネーションインターバルのその音声入力における音声活動存在のレベルを表現する。そのインターバルの終わりに、音声スコアは、切替ロジック44に伝送される。
【0016】
切替ロジック44は、所定のイグザミネーションインターバルの現在の映像源としていずれの映像源が選択されるかを実際に決定する。この決定は、そのイグザミネーションインターバルの音声スコアに部分的に基づいている。また、その決定は、パラメータインターフェース42によって供給されるパラメータを用いて解釈されるように、状態メモリ46に格納された変数に基づいている。
【0017】
状態メモリ46は、少なくとも映像源選択の部分的なタイムヒストリを格納する。1つの簡単なケースでは、このヒストリは、最後に選択された映像源と、関連する映像セグメント長(最後に選択された映像源が選択されたままの時間長を表す)とから構成される。また、このヒストリは、タイプにより映像セグメントを分類してもよい。さらに、選択されていない各映像源が最後に選択されてからの時間長や最後のn映像セグメントのヒストリなどの他の項目は、そのヒストリに有用であろう。
【0018】
任意に、映像オートセレクタ40は、音声ミキサー48を含むことができる。切替ロジック44は、現在の映像選択と一致するために、音声制御を音声ミキサー48に供給することができる。あるいは、音声ミキサー48は、例えば、音声出力を形成するのと同時にすべての音声入力をミックスするために設置され得る。
【0019】
映像オートセレクタ40の一操作方法は以下のようである。システムは、映像チャンネル/音声センサ結合パラメータで指定された映像チャンネルと音声センサとを考慮する。この結合は、手動で(ユーザによって設定)されてもよく、(例えば、指向性マイクロホンが各ビデオカメラに取り付けられて)固定されてもよく、あるいは、物理的配置情報(例えば、基地のマイクロホン位置及びカメラ視野)に基づいて自動的に設定されてもよい。その結合は、1:1、すなわち、各映像入力のために1つの音声入力であってもよい。他の実施形態では、1つの音声入力が多くの映像入力に位置してもよく、その逆でもよい。図1、2及び3の第1の例では、A1はC1に位置し(マッピングし)、A2はC2に位置し、そして、A3はC3に位置する。このマッピングは、N×M行列として表現され得る。ここで、Nは音声入力数であり、Mは映像入力数である。マッピングが1:1(すなわち、N=M)のとき、2つの長さN数列が用いられ得る。ここで、A[i]は音声入力を表し、V[i]は対応する映像入力を表す。
【0020】
図5は、1つの映像源選択処理の反復ステップを含むフローチャート60である。そのシステムは、いくつかの方法で映像源選択のタイムヒストリを用いている。これらの一番目(一回目)は、決定ブロック62において各映像源選択の繰り返し(反復)の始めに発生し得る。システムが異なる映像源に切り替えるときはいつでも、そのシステムは、少なくとも最小映像セグメント長(例えば、図示の例では4秒)の間その映像源にとどまることを強要され得る。最初のインターバルの間、システムは、ブロック62及び64を繰り返しループして、最小映像セグメント長に到達するまでのカウント時間以上何もしなくてもよい。
【0021】
セグメント長が最終的に最小セグメント長に到達すると、ブロック62からブロック66に移行する。ブロック66では、音声イグザミネーションインターバルが開始する。イグザミネーションインターバルは、システムモードに依存して、いくつかの方法の1つにおける映像切替ポイントに関連することができる。リアルタイム(実時間)配置モード及び後方(例えば、記録保管(archival))配置モードの少なくとも2つのモードが可能である。リアルタイム配置モードでは、映像切替は、前の音声サンプルからなる音声イグザミネーションインターバルを用いる。例えば、tsが潜在的切替ポイントであり、イグザミネーションインターバルの長さがTEであるならば、切替ポイントtsのイグザミネーションインターバルはts−TEに始まる。リアルタイムの制約がないので、後方配置モードは、近い将来誰が話しているかを判断するために、音声サンプルにおいて「先を見越す」ことができ、もしかすると、新しい話し手が話し始めるときにその視野にいるように、映像源を切り替えることができる。例えば、後方配置モードでは、映像切替ポイントtsのイグザミネーションインターバルは、ts−TE/5において始め、ts+4TE/5まで続けることができる。従って、切替ポイントの直前に話している誰かにいくらかの重み付けをし、切替ポイント直後に話すであろう誰かにその重みの大部分を与えることができる。
【0022】
音声スコアラー45は、イグザミネーションインターバルの始めに各音声入力の音声スコアをリセットする。各音声入力がパルスコード変調サンプルストリームであるデジタルでの実行を考慮すると、サンプルはグループで考慮される。例えば、8kHzでサンプリングされた音声ストリームでは、サンプルは、50の連続的なサンプル(例えば、6.25m秒の時間サブウィンドウ)のグループで考慮され得る。
【0023】
各時間サブウィンドウと音声入力のために、最大及び最小サンプル値が決定される。これら2つのサンプル値の差が計算され、それは、(ほぼ)そのサブウィンドウの音声入力の最大ピーク間振幅を表す。
【0024】
サブウィンドウの終わりに、音声入力用に計算された差がそのサブウィンドウ用に各他の音声入力のために計算された差と比較される。最高計算差を持つ入力は、サブウィンドウを勝ち取り、1だけインクリメントされた音声スコアを持つ。1つの選択肢は、最高計算差を持つそのスコアによってすべての計算差が標準化され、その標準化差だけ各スコアをインクリメントすることである。
【0025】
その処理は、イグザミネーションインターバルにおける各サブウィンドウのために継続する。イグザミネーションインターバルの終わりに、各音声スコアは、対応する音声入力が最高の最大計算差を有するサブウィンドウ数を表す。
【0026】
この実施形態では、現在の映像セグメントが2つのタイプ、すなわち、規則的な(regular)映像セグメント及び一時的な(temporary)映像セグメントの1つとして分類され得る。規則的映像セグメントは、音声スコアの重み付けされた比較の結果として選択されるものである(以下で論じる)。一時的映像セグメントは、前の規則的セグメントが、スイッチ(切替)が起こる可能性を増加するために追加の計測が取られる長さに到達したので選択されるものである。
【0027】
ブロック68では、現在のセグメントタイプに基づいて切り替えている。セグメントタイプが一時的であると、スコアリングは、重み関数をバイパスして、ブロック72に移行する。しかし、ブロック72は、一時的セグメントのセグメントタイプを規則的に設定する。なぜならば、そのセグメントがこの反復を過ぎて継続するならば、このことは、そのセグメントがスコアの直接重み付けしていない比較において選択されることを意味するからである。
【0028】
現在の映像セグメントが既に規則的セグメントであると、そのセグメントの音声スコアは、ブロック70において重み付けされる。音声スコアに割り当てられた重みは、そのセグメントの長さの関数である。
【0029】
図4は、1つの可能な重み関数を示す。新しいセグメントの始めに、その映像源は、すべての他の映像源と同じく重み付けされる。しかしながら、セグメント長が増加し続けるにつれて、現在の映像源の重みは、段階的に減少する。それにより、いくつかの他の映像源が代わりに選択される可能性を増加する。
【0030】
なめらかな重み関数を用いることができるけれども、図4の階段状(ステップ状)の関数は、その重みがセグメント長に基づくルックアップ演算から決定されることを可能にする。整数nが計算される。ここで、TLは現在のセグメント長であり、TPは好ましい映像セグメント長であり、Cは図4のx軸のスケールに調整する定数である:
n=min([C*TL/TP],8)
整数nは、0〜8で示される数列Wから重みを選択するために用いられる。ここで、
W={1.0,1.0,0.9,0.85,0.8,0.5,0.375,0.2,0.1}
である。
【0031】
上記W値を含む一構成例では、TP=9及びC=5である。現在のセグメントに割り当てられた重みは、好ましいセグメント長(9秒)に到達するまでゆっくりと低下し、数列要素0〜4にステップする。セグメントが9秒の長さに到達すると、その関連する音声スコアは、重みW[5]=0.5を受け取る。これは、最初の9秒間に選択されないときもう一つの映像源が選択されるであろう可能性を極めて増加する。
【0032】
さらに、ブロック74は、現在の映像源が延長された期間継続したときもう一つの映像源が選択される可能性を増加することができる。ブロック74では、現在のセグメント長は、好ましいセグメント長の複数倍(ここでは、3倍に設定)と比較される。この例では、セグメント長が好ましいセグメント長の3倍を越えると、ブロック76に移行する。ブロック76では、現在の映像源のスコアは、0.5の追加の重みを課される。また、「would-beタイプ(WBT)」は一時的に設定される。would-beタイプは、この反復中に一つが選択されるならば新しいセグメントに割り当てられるセグメントタイプである。従って、WBT=一時的は、現在のセグメントが、いくつかの他の映像源が介入するインセンティブ(誘因)を引き起こす延長されたセグメント長に到達した後、新しい映像源が選択されることを示す。なお、ブロック76への枝が取られないならば、ブロック78への枝は、あらゆる新しい映像源がブロック76のペナルティの助けなく選択されたことを示すために、WBT=規則的に設定する。
【0033】
ブロック80は、現在のイグザミネーションインターバルのために重み付けされた音声スコアを比較する。例えば、示された数列v[i]に格納された重み付けされたスコアで、ブロック80は、最大スコアの指数iを決定する。そして、ブロック82は、最大スコアの指数を現在の映像スコアの指数と比較する。その指数が等しいならば、最後に選択された映像源が再び選択され、現在のセグメントが継続する。この場合、ブロック84は、現在のセグメント長をインクリメントする。
【0034】
最大スコアの指数が現在の映像源の指数と一致しないと、新しい映像源で新しいセグメントが始まる。ブロック86は、現在の指数を最大スコアの指数に設定し、セグメント長を0にリセットし、WBTと同じセグメントタイプに設定する。ブロック84及び86はともに、次の反復を始めるためにブロック62にループバックする(最初に戻る)。
【0035】
音声及び映像源の多くの他の構成が本発明の実施形態で処理され得る。例えば、図6は、3つの主要カメラ(C1、C2及びC3)と4つのマイクロホンを用いる配置90を示す。カメラC1は2つのマイクA1−L及びA1−Rと結び付けられる。すなわち、両方のマイクはカメラC1の視野内にある。この結合はいくつかの方法で処理され得る。
【0036】
複数の音声入力を1つの映像源と結合する1つの方法は、各音声源を別々に考慮し、対応する映像源の生スコアとしてその映像源の最高値を取ることである。これは、映像源に対応する音声源のベクトルの無限大ノルム(infinity-norm)を取ることに対応する。また、1−ノルム(2つのスコアの平均)や2−ノルム(2つのスコアの二乗平均平方根)などの他のノルムが用いられてもよい。
【0037】
複数のカメラを複数の音声入力と結合するもう一つの方法は、結合行列を指定するというものである。このことは、多数の音声センサが1つの映像源に関連付けられるのを可能にするのみならず、多数の映像源が1つの音声源に関連付けられるのを可能にする。例えば、図6では、第4のカメラC4も示している。カメラC4は、会議テーブル全体のワイドアングルビューを示す。1つの可能な結合行列としては以下のものがある:
【表1】
【0038】
この行列で、カメラC4のワイドアングルビューは、各音声入力のスコアの一部を受け取り、一人が延長された期間話しているときシステムが時折ワイドアングルビューを選択するのが見込まれる。また、音声センサA3及びカメラC2のための小さい重み付けも示される。カメラC2は、音声センサA3の周りの領域の近い側面ビューを示し、このことは、音声センサA3近くの話し手が延長された期間話すとき時折選択されるために、代わりのビューになることを可能にする。
【0039】
前述の実施形態は1つの会議室における多数のカメラ配置を示したが、本発明の実施形態における映像自動選択(オートセレクション)は、この適用に限定されない。例えば、図7は、通信ネットワーク96(例えば、回路切替ネットワーク、パケット切替ネットワーク、あるいはその2つの組み合わせ)を介して処理される実施形態92を示す。
【0040】
図7は、3つの「会議ポイント」100、200及び300を示す。これらのポイントは、3方向ビデオ会議を示すことができるが、セキュリティー、賭博、電子教室などの他の適用にも適している。各会議ポイントは、少なくとも一台のカメラ(例えば、C1)と、音声センサ(例えば、A1)と、ディスプレイ(例えば、D1)とを含む。これらすべては、コーダー(例えば、102)によって接続されている。各コーダー102、202、302は、ネットワーク96を介して映像オートセレクタ94と通信する。
【0041】
一処理方法では、コーダー102は、カメラC1からの映像及び音声センサA1からの音声をエンコード(符号化)し、符号化された映像及び音声ストリームを映像オートセレクタ94に送信する。コーダー202及び302は、それらの映像及び音声ストリームを同様に処理する。各コーダーは、公知の映像及び/又は音声符号化/圧縮/パケット化アルゴリズムに応じて処理することができる。そして、映像オートセレクタ94は、いずれの映像ストリームを各会議ポイントに供給するかを選択するために、音声ストリーム(及び選択タイムヒストリ)を用いることができる。この関数は、各会議ポイントが他の会議ポイントが受けるよりも異なる映像源を随時受信してもよい点を除き、上述の一部屋の例のように処理可能である。映像オートセレクタ94内部では、切替ロジックの別の例が、各端点で一致させることができ、各例は、その端点の選択タイムヒストリを保持する。切り替えられた映像ストリームは、目的の端点に到達する。そこでは、各コーダーがそれらを復号し、据え付けのディスプレイにそれらを表示する。音声は、映像オートセレクタ94により混合され、又は切り替えられ得る。あるいは、各端点は、各他の端点からの音声ストリームを受信することができる。
【0042】
演算(処理)はいくつかの方法に拡張され得る。オートセレクタが映像ストリームの実際の処理を行わないと、映像ストリームがオートセレクタを通過する必要がなくてもよい。その代わりに、映像オートセレクタ94は、出力映像ストリームを供給するとき(及びいずれの他の端点に供給するか)について端点に信号を送り、その映像ストリームは、ネットワーク96を介して端点から端点に直接送ることができる。選択されていない映像源用の帯域幅を減少することは、この拡張の1つの利点である。また、映像オートセレクタ94は、必要に応じて架橋又は変換機能を提供してもよく、会議の共通の接続ポイントとしての役割を果たすことができる。
【0043】
図7の一般的な図は、いろいろな方法で変更され得る。オートセレクタは、端点の一つに物理的に配置されてもよい。いくつかの端点が音声のみ又は受信のみでもよい。また、1つの端点が多数の音声及び/又は映像センサを有していてもよい。この場合、端点のコーダーは、多数のストリームを符号化できるか、(上述の一部屋の例のような)追加のオートセレクタがその端点の1つの出力ストリームを選択するために用いられ得る。
【0044】
記述の実施形態は、特に、プログラム可能なデジタル処理システム、例えば、オートセレクションタスク専用の専門的なデジタル信号プロセッサ、又はオートセレクションタスクを実行するようにプログラムされた汎用コンピュータで実行するのに適している。例えば、汎用コンピュータでは、音声入力は、そのコンピュータに接続された1枚以上のサウンドカードに供給され得る。サウンドカードは、音声信号をデジタル化し、デジタル音声信号をコンピュータのCPU(Central Processing Unit)及び付属のメモリに供給する。そのコンピュータは、デジタル音声信号を検索し、音声スコアを計算し、前述に従って周期的な映像切替決定をするソフトウェア処理を実行するよう構成される(その代わりに、音声スコアリング又はその一部がサウンドカード上で実行され得る)。そのソフトウェア処理は、例えば、映像切替を実行する別の処理又は装置、ビデオカード、あるいはもう一つのコンピュータへのネットワーク信号として、映像切替信号を生成する。
【0045】
プログラムされたコンピュータ実施形態に応じて、一面では、本発明は、実行されると、1つ以上のプロセッサに映像源をオートセレクト(自動選択)する方法に従って処理させるコンピュータ命令(計算機命令)を含むコンピュータに読み取り可能な媒体を備える装置を含む。例えば、上述のコンピュータの例では、ソフトウェア処理は、磁気又は光メディア上に、半導体メモリに、あるいはネットワークを介してアクセス可能な遠隔地に格納され得る。
【0046】
特定の計算方法が音声スコアリング及び映像源選択のために含まれたけれども、これらは単に例示しただけである。当業者は、この開示内容を読むことで、多くの代替物が開示の実施形態と同様の機能を発揮するために工夫され得ることを認識するであろう。例えば、現在の映像源を下方に重み付けする代わりに、選択されていない映像源がそのまま(選択されないまま)にならないように上方に重み付けされ得る。最小セグメント長は、一時的なセグメントのために規則的なセグメントと異なってもよく、及び/又は異なる重み関数が用いられ得る。また、ある映像源がT秒毎に少なくとも一度選択されなければならないというルールのような他のルールが組み合わせられ得る。さらに、各話し手を短く、多数の主要な話し手を含むやりとりより、1人の主要な話し手を含むやりとりの異なる重み関数又はイグザミネーションインターバルのような異なるルールが、より複雑なシナリオのために考案され得る。
【0047】
また、音声スコアリングは、システムからシステムへ顕著に変更することができる。スコアリングの開示された方法は、落下物や咳のような大きな瞬間的な騒音を除くことにおいてうまく働く傾向があるが、音声認識及び話し手認識を含むより精巧なスコアリング方法が同様に使用され得る。また、音声スコアリングへの入力も単純化され得る。すなわち、アナログ又はパルスコード変調音声ストリームを受信するオートセレクタの代わりに、他の何かを受信することができる。その他の何かは、自らの音声活動検出を実行する端点からの周期的な音声活動検出(VAD)信号であり得る。また、その他の何かは、例えば、サブバンドコード化音声信号であり得る。後者の場合には、音声スコアラーは、音声を評点するためにPCMストリームを再生することなく、スコアリングを実行するサブバンドにおけるエネルギー分配を検査(調査)してもよい。
【0048】
当業者は、ここに教示される概念が多くの他の有利な方法で特定の適用に調整され得ることを認識するであろう。特に、当業者は、例示の実施形態がこの開示内容を読むことにおいて明らかになる多くの代替的実行の単なる1つであることを認識するであろう。また、音声ストリームは、映像ストリームに埋め込まれ得る。一実施形態の他の構成要素と同様に、音声スコアラーは、デジタルである必要はない。映像ストリームは、従来のアナログビデオカメラと結び付けられる必要はない。例えば、映像ストリームは、ビデオカメラのデジタル出力信号、デジタル圧縮映像信号、記録された映像信号、コンピュータによって生成された映像信号などであり得る。そのような比較的重要でない改良(変更)は、本発明に包含され、添付の特許請求の範囲内に属するように意図される。
【0049】
前述の実施形態は例示的である。この明細書では、いくつかの位置における「ある」、「一つの」、「もう一つの」。又は「いくつかの」実施形態を参照しているけれども、このことは、それぞれのそのような参照が同一の実施形態に対するものであること、あるいはその特徴が一つの実施形態だけに適用することを必ずしも意味しない。
【図面の簡単な説明】
本発明は、添付図面を参照してその開示を読むことにより最も理解されるであろう。
【図1】 本発明の一実施形態における典型的なカメラ/マイクロホン配置を示す。
【図2】 本発明の一実施形態における自動マルチカメラ映像合成システムのためのハイレベルなブロック図を示す。
【図3】 本発明の一実施形態における映像オートセレクタのブロック図を示す。
【図4】 本発明の一実施形態で有用な音声スコア重み付けステップのためのプロットを示す。
【図5】 本発明の一実施形態における映像源自動選択のためのフローチャートである。
【図6】 本発明の一実施形態のカメラ/マイクロホン配置を示す。
【図7】 本発明の一実施形態における映像オートセレクタを用いたネットワーク型のビデオ会議構成を示す。
Claims (22)
- 自動映像切替システムであって、
それぞれが少なくとも1つの対応する映像源に関連付けられた複数の音声入力と、
前記複数の音声入力の各音声入力の音声スコアを計算することができるようになっており、所定の音声入力に対する音声スコアがイグザミネーションインターバルに当該所定の音声入力で受信された音声信号に対応するようになっている音声スコアラーと、
映像源選択の少なくとも部分的なタイムヒストリを格納する状態メモリと、
所定のイグザミネーションインターバルに対して現在の映像源を選択する切替ロジックと、を有し
前記切換ロジックによる選択は、前記所定のイグザミネーションインターバルにおける複数の映像源のそれぞれと関連付けられた複数の音声スコアに対する重み付けされた比較に基づいて行われ、この重み付けは前記映像源選択の部分的なタイムヒストリに基づいてなされることを特徴とする自動映像切替システム。 - 前記システムは、前記切替ロジックが前記所定のイグザミネーションインターバルの終わりに概ね対応する映像ストリームにおけるあるポイントで現在の映像源を選択するリアルタイムモードで作動する能力を有する請求項1に記載のシステム。
- 前記システムは、前記切替ロジックが映像ストリームにおける所定の一時的映像切替ポイントで現在の映像源を選択する後方配置モードで作動する能力を有しており、当該後方配置モードでは、前記選択は、前記一時的映像切替ポイント後の前記映像ストリームにおけるあるポイントに対応する音声入力を含むイグザミネーションインターバルに基づいて行われるようになっている請求項1に記載のシステム。
- 前記音声入力に対応する映像源からの映像信号を受け入れるとともに、前記切替ロジックの現在の映像源選択に応じてそれらの映像源の一つを映像出力に切り替える映像切替装置を更に備える請求項1に記載のシステム。
- 前記各映像源は、アナログビデオカメラ出力信号と、ビデオカメラデジタル出力信号と、デジタル圧縮映像信号と、記録された映像信号と、コンピュータにより生成された映像信号とを含む映像源のグループから選択される請求項1に記載のシステム。
- 前記システムは、遠隔地から前記音声入力の一つを受信するための少なくとも一つのネットワーク接続を備える請求項1に記載のシステム。
- 前記切替ロジックは、いくつかの遠隔地のそれぞれの異なる現在の映像源を選択する能力を有する請求項1に記載のシステム。
- 多数の利用可能な映像源から1つの映像源を自動的に選択する方法であって、
少なくとも一つの音声源を前記多数の映像源のそれぞれに関連付けるステップと、
イグザミネーションインターバルに渡って、各音声源から受信される音声信号を評価し、それによって前記イグザミネーションインターバルにおける各音声源に対する音声スコアを形成するステップであって、該音声スコアは前記イグザミネーションインターバルにおける各音声源の音声活動のレベルを表現ようにうなっているステップと、
映像源選択の少なくとも部分的なタイムヒストリを保存するステップと、
前記イグザミネーションインターバルにおける前記各映像源に関連付けられた複数の音声スコアに対して重み付けされた比較を実行するステップであって、該重み付けは、前記映像源選択の部分的なタイムヒストリに基づいているステップと、
前記重み付けされた比較に基づいて現在の映像源を選択するステップと、
を有することを特徴とする前記方法。 - 複数の音声スコアが所定の一つの映像源に関連付けられている場合には、当該映像源に関連付けられた複数の音声スコアのうち最大のものを前記イグザミネーションインターバルにおける重み付けされた比較用のスコアとして選択する請求項8に記載の方法。
- 複数の音声スコアが所定の一つの映像源に関連付けられている場合には、それらの音声スコアのノルムを用いて当該映像源に関連付けられた前記複数の音声スコアを結合させる請求項8に記載の方法。
- 前記少なくとも一つの音声源を前記多数の映像源のそれぞれに関連付けるステップは、音声源と映像源の各組み合わせの重みを示す行列としてそれらの関連付けを表現するステップを含み、前記重み付けされた比較を実行するステップは、各映像源に対し、前記行列において対応する重みにより前記音声スコアを重み付けすることによって結合スコアを生成するステップを含む請求項8に記載の方法。
- 前記重み付けされた比較を実行するステップは、重み関数に従って最後に選択された現在の映像源に関連付けられた音声スコアを重み付けするステップを含み、前記重み関数は、前記最後に選択された現在の映像源が選択されていた時間の長さに応じて変化するようになっている請求項8に記載の方法。
- 前記最後に選択された現在の映像源は、延長された期間選択されたままであり、前記映像源が選択されたままでいる可能性を減少するために、該映像源に関連付けられた音声スコアをわずかな重みだけ更に重み付けする請求項8に記載の方法。
- 前記音声スコアを形成するステップは、前記イグザミネーションインターバルを多数の一時的なサブウィンドウに分割するステップを含むとともに、各サブウィンドウに対し、
そのサブウィンドウ中の各音声信号における変数を決定するステップと、
そのサブウィンドウの最大変数を有する音声源の音声スコアをインクリメントするステップとを含む請求項8に記載の方法。 - 前記方法は、前記音声源の一つ及び対応する映像源が前記現在の映像源が選択された位置から離れた遠隔位置にあるとき、通信ネットワークを介して前記音声信号を受信するステップと、その映像源が現在の映像源として選択されたとき前記遠隔位置に映像を送信する旨を通知するステップと、を更に有する請求項8に記載の方法。
- 前記現在の映像源の選択は、イグザミネーションインターバルの概ね終わりにリアルタイムで発生する請求項8に記載の方法。
- 前記現在の映像源の選択を前記イグザミネーションインターバルの終わりより前の時点に対応する前記映像ストリームのあるポイントに関連させる請求項8に記載の方法。
- コンピュータ上で実行されるとき、多数の利用可能な映像源から一つの映像源を自動的に選択する方法を当該コンピュータに実行させるコンピュータ命令を含むコンピュータプログラムであって、前記方法は、
少なくとも一つの音声源を前記多数の映像源のそれぞれに関連付けるステップと、
イグザミネーションインターバルに渡って、各音声源から受信される音声信号を評価し、それによって、前記イグザミネーションインターバルにおける当該音声源の音声活動のレベルを表現する各音声源に対する音声スコアを形成するステップと、
映像源選択の少なくとも部分的なタイムヒストリを保存するステップと、
前記イグザミネーションインターバルにおける前記多数の映像源のそれぞれに関連付けられた複数の音声スコアに対して重み付けされた比較を実行するステップであって、該重み付けは、前記映像源選択の部分的なタイムヒストリに基づく、実行ステップと、
前記重み付けされた比較に基づいて現在の映像源を選択するステップと、
を有することを特徴とする前記コンピュータプログラム。 - 前記少なくとも一つの音声源を前記多数の映像源のそれぞれに関連付けるステップは、音声源と映像源の各組み合わせの重みを示す行列としてそれらの関連付けを表現するステップを含み、前記重み付けされた比較を実行するステップは、各映像源に対し、前記行列における対応する重みにより前記音声スコアを重み付けすることによって結合スコアを生成するステップを含む請求項18に記載のコンピュータプログラム。
- 前記重み付けされた比較を実行するステップは、重み関数に従って最後に選択された現在の映像源に関連付けられた音声スコアを重み付けするステップを含み、前記重み関数は、前記最後に選択された現在の映像源が選択されていた時間の長さに応じて変化するようになっている請求項18に記載のコンピュータプログラム。
- 前記音声スコアを形成するステップは、前記イグザミネーションインターバルを多数の一時的なサブウィンドウに分割するステップを含むとともに、各サブウィンドウのために、
そのサブウィンドウ中の各音声信号における変数を決定するステップと、
そのサブウィンドウの最大変数を有する音声源の音声スコアをインクリメントするステップとを含む請求項18に記載のコンピュータプログラム。 - 前記方法は、前記音声源の一つ及び対応する映像源が前記現在の映像源が選択された位置から離れた遠隔位置にあるとき、通信ネットワークを介して前記音声信号を受信するステップと、その映像源が現在の映像源として選択されたとき前記遠隔位置に映像を送信する旨を通知するステップと、を更に有する請求項18に記載のコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/735,716 US6577333B2 (en) | 2000-12-12 | 2000-12-12 | Automatic multi-camera video composition |
PCT/US2001/049900 WO2002049356A2 (en) | 2000-12-12 | 2001-11-09 | Automatic multi-camera video composition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004516723A JP2004516723A (ja) | 2004-06-03 |
JP4219682B2 true JP4219682B2 (ja) | 2009-02-04 |
Family
ID=24956888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002550724A Expired - Fee Related JP4219682B2 (ja) | 2000-12-12 | 2001-11-09 | 自動マルチカメラ映像合成 |
Country Status (9)
Country | Link |
---|---|
US (1) | US6577333B2 (ja) |
EP (1) | EP1352521B1 (ja) |
JP (1) | JP4219682B2 (ja) |
KR (1) | KR100511226B1 (ja) |
CN (2) | CN1248502C (ja) |
AU (1) | AU2002235244A1 (ja) |
BR (1) | BR0116089A (ja) |
HK (1) | HK1043493A2 (ja) |
WO (1) | WO2002049356A2 (ja) |
Families Citing this family (121)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6885989B2 (en) * | 2001-04-02 | 2005-04-26 | International Business Machines Corporation | Method and system for collaborative speech recognition for small-area network |
US6937266B2 (en) * | 2001-06-14 | 2005-08-30 | Microsoft Corporation | Automated online broadcasting system and method using an omni-directional camera system for viewing meetings over a computer network |
WO2003015407A1 (en) * | 2001-08-07 | 2003-02-20 | Polycom, Inc. | System and method for high resolution videoconferencing |
US7668907B1 (en) * | 2001-08-16 | 2010-02-23 | Microsoft Corporation | Method and system for selectively viewing participants of a multimedia network conference |
US6812956B2 (en) * | 2001-12-21 | 2004-11-02 | Applied Minds, Inc. | Method and apparatus for selection of signals in a teleconference |
US7023965B2 (en) * | 2002-07-17 | 2006-04-04 | Avaya Technology Corp. | Apparatus and method for displaying a name of a speaker on a telecommunication conference call |
US7349008B2 (en) * | 2002-11-30 | 2008-03-25 | Microsoft Corporation | Automated camera management system and method for capturing presentations using videography rules |
US7428000B2 (en) * | 2003-06-26 | 2008-09-23 | Microsoft Corp. | System and method for distributed meetings |
GB2404297B (en) * | 2003-07-24 | 2007-12-05 | Hewlett Packard Development Co | Editing multiple camera outputs |
US7499531B2 (en) * | 2003-09-05 | 2009-03-03 | Emc Corporation | Method and system for information lifecycle management |
US7457396B2 (en) * | 2003-09-05 | 2008-11-25 | Emc Corporation | Automated call management |
US8103873B2 (en) | 2003-09-05 | 2012-01-24 | Emc Corporation | Method and system for processing auditory communications |
US8209185B2 (en) * | 2003-09-05 | 2012-06-26 | Emc Corporation | Interface for management of auditory communications |
US7092002B2 (en) * | 2003-09-19 | 2006-08-15 | Applied Minds, Inc. | Systems and method for enhancing teleconferencing collaboration |
US8229904B2 (en) * | 2004-07-01 | 2012-07-24 | Emc Corporation | Storage pools for information management |
US8180742B2 (en) | 2004-07-01 | 2012-05-15 | Emc Corporation | Policy-based information management |
US9268780B2 (en) * | 2004-07-01 | 2016-02-23 | Emc Corporation | Content-driven information lifecycle management |
US8244542B2 (en) | 2004-07-01 | 2012-08-14 | Emc Corporation | Video surveillance |
US8180743B2 (en) * | 2004-07-01 | 2012-05-15 | Emc Corporation | Information management |
US20060004579A1 (en) * | 2004-07-01 | 2006-01-05 | Claudatos Christopher H | Flexible video surveillance |
US20060004818A1 (en) * | 2004-07-01 | 2006-01-05 | Claudatos Christopher H | Efficient information management |
US7444287B2 (en) * | 2004-07-01 | 2008-10-28 | Emc Corporation | Efficient monitoring system and method |
US7707037B2 (en) * | 2004-07-01 | 2010-04-27 | Emc Corporation | Archiving of surveillance data |
US8456506B2 (en) | 2004-08-03 | 2013-06-04 | Applied Minds, Llc | Systems and methods for enhancing teleconferencing collaboration |
US8626514B2 (en) * | 2004-08-31 | 2014-01-07 | Emc Corporation | Interface for management of multiple auditory communications |
US20060212148A1 (en) * | 2005-03-18 | 2006-09-21 | Critech Enterprises Inc. | Systems and methods for the evaluation of artistic performances |
US7664246B2 (en) * | 2006-01-13 | 2010-02-16 | Microsoft Corporation | Sorting speakers in a network-enabled conference |
CN101496387B (zh) | 2006-03-06 | 2012-09-05 | 思科技术公司 | 用于移动无线网络中的接入认证的系统和方法 |
JP4371133B2 (ja) * | 2006-09-12 | 2009-11-25 | ソニー株式会社 | 映像切替装置及びその入力設定方法 |
US8208024B2 (en) * | 2007-11-30 | 2012-06-26 | Target Brands, Inc. | Communication and surveillance system |
CN101470533B (zh) * | 2007-12-26 | 2011-02-16 | 宏正自动科技股份有限公司 | 多计算机切换系统及视频切换系统 |
US8797377B2 (en) | 2008-02-14 | 2014-08-05 | Cisco Technology, Inc. | Method and system for videoconference configuration |
JP5288827B2 (ja) * | 2008-02-22 | 2013-09-11 | キヤノン株式会社 | 表示処理装置及びその制御方法並びに表示処理システム、プログラム |
US10229389B2 (en) * | 2008-02-25 | 2019-03-12 | International Business Machines Corporation | System and method for managing community assets |
US8319819B2 (en) | 2008-03-26 | 2012-11-27 | Cisco Technology, Inc. | Virtual round-table videoconference |
US8390667B2 (en) | 2008-04-15 | 2013-03-05 | Cisco Technology, Inc. | Pop-up PIP for people not in picture |
US8316089B2 (en) * | 2008-05-06 | 2012-11-20 | Microsoft Corporation | Techniques to manage media content for a multimedia conference event |
US8284231B2 (en) * | 2008-06-25 | 2012-10-09 | Google Inc. | Video selector |
US8694658B2 (en) | 2008-09-19 | 2014-04-08 | Cisco Technology, Inc. | System and method for enabling communication sessions in a network environment |
US8358328B2 (en) * | 2008-11-20 | 2013-01-22 | Cisco Technology, Inc. | Multiple video camera processing for teleconferencing |
US8659637B2 (en) | 2009-03-09 | 2014-02-25 | Cisco Technology, Inc. | System and method for providing three dimensional video conferencing in a network environment |
GB0907870D0 (en) | 2009-05-07 | 2009-06-24 | Univ Catholique Louvain | Systems and methods for the autonomous production of videos from multi-sensored data |
US8659639B2 (en) | 2009-05-29 | 2014-02-25 | Cisco Technology, Inc. | System and method for extending communications between participants in a conferencing environment |
US9082297B2 (en) | 2009-08-11 | 2015-07-14 | Cisco Technology, Inc. | System and method for verifying parameters in an audiovisual environment |
EP2352312B1 (en) * | 2009-12-03 | 2013-07-31 | Oticon A/S | A method for dynamic suppression of surrounding acoustic noise when listening to electrical inputs |
US8660842B2 (en) * | 2010-03-09 | 2014-02-25 | Honda Motor Co., Ltd. | Enhancing speech recognition using visual information |
US9225916B2 (en) | 2010-03-18 | 2015-12-29 | Cisco Technology, Inc. | System and method for enhancing video images in a conferencing environment |
US9313452B2 (en) | 2010-05-17 | 2016-04-12 | Cisco Technology, Inc. | System and method for providing retracting optics in a video conferencing environment |
US9723260B2 (en) | 2010-05-18 | 2017-08-01 | Polycom, Inc. | Voice tracking camera with speaker identification |
US8395653B2 (en) | 2010-05-18 | 2013-03-12 | Polycom, Inc. | Videoconferencing endpoint having multiple voice-tracking cameras |
US8842161B2 (en) | 2010-05-18 | 2014-09-23 | Polycom, Inc. | Videoconferencing system having adjunct camera for auto-framing and tracking |
US8248448B2 (en) | 2010-05-18 | 2012-08-21 | Polycom, Inc. | Automatic camera framing for videoconferencing |
US8896655B2 (en) | 2010-08-31 | 2014-11-25 | Cisco Technology, Inc. | System and method for providing depth adaptive video conferencing |
US8599934B2 (en) | 2010-09-08 | 2013-12-03 | Cisco Technology, Inc. | System and method for skip coding during video conferencing in a network environment |
US8599865B2 (en) | 2010-10-26 | 2013-12-03 | Cisco Technology, Inc. | System and method for provisioning flows in a mobile network environment |
US9459754B2 (en) | 2010-10-28 | 2016-10-04 | Edupresent, Llc | Interactive oral presentation display system |
US8699457B2 (en) | 2010-11-03 | 2014-04-15 | Cisco Technology, Inc. | System and method for managing flows in a mobile network environment |
US8730297B2 (en) | 2010-11-15 | 2014-05-20 | Cisco Technology, Inc. | System and method for providing camera functions in a video environment |
US9338394B2 (en) | 2010-11-15 | 2016-05-10 | Cisco Technology, Inc. | System and method for providing enhanced audio in a video environment |
US8902244B2 (en) | 2010-11-15 | 2014-12-02 | Cisco Technology, Inc. | System and method for providing enhanced graphics in a video environment |
US9143725B2 (en) | 2010-11-15 | 2015-09-22 | Cisco Technology, Inc. | System and method for providing enhanced graphics in a video environment |
US8542264B2 (en) | 2010-11-18 | 2013-09-24 | Cisco Technology, Inc. | System and method for managing optics in a video environment |
US8723914B2 (en) | 2010-11-19 | 2014-05-13 | Cisco Technology, Inc. | System and method for providing enhanced video processing in a network environment |
US9111138B2 (en) | 2010-11-30 | 2015-08-18 | Cisco Technology, Inc. | System and method for gesture interface control |
USD682854S1 (en) | 2010-12-16 | 2013-05-21 | Cisco Technology, Inc. | Display screen for graphical user interface |
US8856212B1 (en) | 2011-02-08 | 2014-10-07 | Google Inc. | Web-based configurable pipeline for media processing |
US8692862B2 (en) | 2011-02-28 | 2014-04-08 | Cisco Technology, Inc. | System and method for selection of video data in a video conference environment |
US8670019B2 (en) | 2011-04-28 | 2014-03-11 | Cisco Technology, Inc. | System and method for providing enhanced eye gaze in a video conferencing environment |
US8681866B1 (en) | 2011-04-28 | 2014-03-25 | Google Inc. | Method and apparatus for encoding video by downsampling frame resolution |
US8786631B1 (en) | 2011-04-30 | 2014-07-22 | Cisco Technology, Inc. | System and method for transferring transparency information in a video environment |
US9106787B1 (en) | 2011-05-09 | 2015-08-11 | Google Inc. | Apparatus and method for media transmission bandwidth control using bandwidth estimation |
US8934026B2 (en) | 2011-05-12 | 2015-01-13 | Cisco Technology, Inc. | System and method for video coding in a dynamic environment |
US8823765B2 (en) * | 2011-09-30 | 2014-09-02 | Verizon Patent And Licensing Inc. | Method and apparatus for device peer resource pooling |
US8947493B2 (en) | 2011-11-16 | 2015-02-03 | Cisco Technology, Inc. | System and method for alerting a participant in a video conference |
US8682087B2 (en) | 2011-12-19 | 2014-03-25 | Cisco Technology, Inc. | System and method for depth-guided image filtering in a video conference environment |
US8805158B2 (en) * | 2012-02-08 | 2014-08-12 | Nokia Corporation | Video viewing angle selection |
US9185429B1 (en) | 2012-04-30 | 2015-11-10 | Google Inc. | Video encoding and decoding using un-equal error protection |
CN102857732B (zh) * | 2012-05-25 | 2015-12-09 | 华为技术有限公司 | 一种多画面视讯会议中的画面控制方法、设备及系统 |
US9083844B2 (en) * | 2012-06-01 | 2015-07-14 | Nintendo Co., Ltd. | Computer-readable medium, information processing apparatus, information processing system and information processing method |
US9681154B2 (en) | 2012-12-06 | 2017-06-13 | Patent Capital Group | System and method for depth-guided filtering in a video conference environment |
US9129640B2 (en) * | 2012-12-12 | 2015-09-08 | Crowdflik, Inc. | Collaborative digital video platform that enables synchronized capture, curation and editing of multiple user-generated videos |
US9172740B1 (en) | 2013-01-15 | 2015-10-27 | Google Inc. | Adjustable buffer remote access |
US9311692B1 (en) | 2013-01-25 | 2016-04-12 | Google Inc. | Scalable buffer remote access |
US9225979B1 (en) | 2013-01-30 | 2015-12-29 | Google Inc. | Remote access encoding |
US8957940B2 (en) | 2013-03-11 | 2015-02-17 | Cisco Technology, Inc. | Utilizing a smart camera system for immersive telepresence |
CN103237178B (zh) * | 2013-03-26 | 2017-06-16 | 小米科技有限责任公司 | 切换视频画面的方法、装置和设备 |
US10373470B2 (en) | 2013-04-29 | 2019-08-06 | Intelliview Technologies, Inc. | Object detection |
US9843621B2 (en) | 2013-05-17 | 2017-12-12 | Cisco Technology, Inc. | Calendaring activities based on communication processing |
KR102282366B1 (ko) * | 2013-06-03 | 2021-07-27 | 삼성전자주식회사 | 음성 향상 방법 및 그 장치 |
CN103391403B (zh) * | 2013-08-23 | 2017-08-25 | 北京奇艺世纪科技有限公司 | 一种实现多镜头视频拍摄的实时编辑方法及装置 |
US9418703B2 (en) | 2013-10-09 | 2016-08-16 | Mindset Systems Incorporated | Method of and system for automatic compilation of crowdsourced digital media productions |
EP3100464B1 (en) | 2014-01-29 | 2020-11-18 | Koninklijke KPN N.V. | Establishing a streaming presentation of an event |
US11831692B2 (en) | 2014-02-06 | 2023-11-28 | Bongo Learn, Inc. | Asynchronous video communication integration system |
US10191647B2 (en) | 2014-02-06 | 2019-01-29 | Edupresent Llc | Collaborative group video production system |
CN104935866B (zh) * | 2014-03-19 | 2018-07-20 | 华为技术有限公司 | 实现视频会议的方法、合成设备和系统 |
CA2847707C (en) | 2014-03-28 | 2021-03-30 | Intelliview Technologies Inc. | Leak detection |
US10943357B2 (en) | 2014-08-19 | 2021-03-09 | Intelliview Technologies Inc. | Video based indoor leak detection |
CN107003600A (zh) | 2014-09-15 | 2017-08-01 | 德米特里·戈里洛夫斯基 | 包括观察大场景的多个数字照相机的系统 |
CN104301780A (zh) * | 2014-09-26 | 2015-01-21 | 四川长虹电器股份有限公司 | 智能电视上频繁切换视频播放的方法 |
EP3207682B1 (en) | 2014-10-14 | 2019-07-31 | Koninklijke KPN N.V. | Managing concurrent streaming of media streams |
US9693137B1 (en) | 2014-11-17 | 2017-06-27 | Audiohand Inc. | Method for creating a customizable synchronized audio recording using audio signals from mobile recording devices |
US10950140B2 (en) | 2017-06-22 | 2021-03-16 | Visyn Inc. | Video practice systems and methods |
WO2016112194A1 (en) * | 2015-01-07 | 2016-07-14 | Visyn Inc. | System and method for visual-based training |
US9819902B2 (en) | 2015-03-19 | 2017-11-14 | Microsoft Technology Licensing, Llc | Proximate resource pooling in video/audio telecommunications |
CN104954730B (zh) * | 2015-05-29 | 2019-01-18 | 华为技术有限公司 | 一种播放视频的方法及装置 |
WO2017030985A1 (en) | 2015-08-14 | 2017-02-23 | Pcms Holdings, Inc. | System and method for augmented reality multi-view telepresence |
US10291845B2 (en) | 2015-08-17 | 2019-05-14 | Nokia Technologies Oy | Method, apparatus, and computer program product for personalized depth of field omnidirectional video |
US9930270B2 (en) | 2015-10-15 | 2018-03-27 | Microsoft Technology Licensing, Llc | Methods and apparatuses for controlling video content displayed to a viewer |
US9888174B2 (en) | 2015-10-15 | 2018-02-06 | Microsoft Technology Licensing, Llc | Omnidirectional camera with movement detection |
US10277858B2 (en) * | 2015-10-29 | 2019-04-30 | Microsoft Technology Licensing, Llc | Tracking object of interest in an omnidirectional video |
US10762712B2 (en) | 2016-04-01 | 2020-09-01 | Pcms Holdings, Inc. | Apparatus and method for supporting interactive augmented reality functionalities |
US10726270B2 (en) | 2016-10-21 | 2020-07-28 | Xinova, LLC | Selecting media from mass social monitoring devices |
JP2018170678A (ja) * | 2017-03-30 | 2018-11-01 | 株式会社ライブ・アース | ライブ映像処理システム、ライブ映像処理方法及びプログラム |
WO2018226508A1 (en) | 2017-06-09 | 2018-12-13 | Pcms Holdings, Inc. | Spatially faithful telepresence supporting varying geometries and moving users |
US10891665B2 (en) | 2018-04-16 | 2021-01-12 | Edupresent Llc | Reduced bias submission review system |
CN110536097A (zh) * | 2018-05-25 | 2019-12-03 | 中兴通讯股份有限公司 | 一种视频控制方法、视频会议终端和多点控制单元mcu |
US10951859B2 (en) | 2018-05-30 | 2021-03-16 | Microsoft Technology Licensing, Llc | Videoconferencing device and method |
CN110248151B (zh) * | 2018-11-20 | 2023-03-17 | 浙江大华技术股份有限公司 | 一种音视频合成的方法和设备 |
IT201900021399A1 (it) * | 2019-11-18 | 2021-05-18 | Telecom Italia Spa | Metodo e sistema per lo stitching video |
US20230343369A1 (en) * | 2022-04-25 | 2023-10-26 | AutoPod LLC | Post-capture multi-camera editor from audio waveforms and camera layout |
CN116668626B (zh) * | 2023-08-02 | 2023-10-20 | 北京市应急指挥保障中心 | 一种多路视频预监方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69222479T2 (de) | 1991-07-15 | 1998-04-09 | Hitachi Ltd | Telekonferenzendstellengerät |
JPH0715711A (ja) | 1993-06-21 | 1995-01-17 | Canon Inc | 発言者自動撮影装置 |
CA2148631C (en) * | 1994-06-20 | 2000-06-13 | John J. Hildin | Voice-following video system |
US5508734A (en) | 1994-07-27 | 1996-04-16 | International Business Machines Corporation | Method and apparatus for hemispheric imaging which emphasizes peripheral content |
WO1996007177A1 (en) | 1994-08-31 | 1996-03-07 | Picturetel Corporation | Apparatus and method for detecting speech in the presence of other sounds |
FR2761562B1 (fr) * | 1997-03-27 | 2004-08-27 | France Telecom | Systeme de visioconference |
US6593956B1 (en) | 1998-05-15 | 2003-07-15 | Polycom, Inc. | Locating an audio source |
JP2000270304A (ja) * | 1999-03-17 | 2000-09-29 | Nec Corp | 多地点テレビ会議システム |
-
2000
- 2000-12-12 US US09/735,716 patent/US6577333B2/en not_active Expired - Lifetime
-
2001
- 2001-11-09 AU AU2002235244A patent/AU2002235244A1/en not_active Abandoned
- 2001-11-09 KR KR10-2003-7007882A patent/KR100511226B1/ko not_active IP Right Cessation
- 2001-11-09 CN CNB018204465A patent/CN1248502C/zh not_active Expired - Fee Related
- 2001-11-09 EP EP01985609.5A patent/EP1352521B1/en not_active Expired - Lifetime
- 2001-11-09 BR BR0116089-3A patent/BR0116089A/pt not_active IP Right Cessation
- 2001-11-09 JP JP2002550724A patent/JP4219682B2/ja not_active Expired - Fee Related
- 2001-11-09 CN CNB2005100820904A patent/CN100474919C/zh not_active Expired - Fee Related
- 2001-11-09 WO PCT/US2001/049900 patent/WO2002049356A2/en active IP Right Grant
- 2001-12-12 HK HK01108724A patent/HK1043493A2/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
CN1248502C (zh) | 2006-03-29 |
EP1352521A2 (en) | 2003-10-15 |
WO2002049356A2 (en) | 2002-06-20 |
HK1043493A2 (en) | 2002-08-30 |
KR20040011443A (ko) | 2004-02-05 |
AU2002235244A1 (en) | 2002-06-24 |
WO2002049356A3 (en) | 2002-11-28 |
US6577333B2 (en) | 2003-06-10 |
BR0116089A (pt) | 2003-12-23 |
KR100511226B1 (ko) | 2005-08-30 |
US20020105598A1 (en) | 2002-08-08 |
CN100474919C (zh) | 2009-04-01 |
CN1479998A (zh) | 2004-03-03 |
EP1352521B1 (en) | 2013-10-16 |
CN1728815A (zh) | 2006-02-01 |
JP2004516723A (ja) | 2004-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4219682B2 (ja) | 自動マルチカメラ映像合成 | |
JP6075884B2 (ja) | 画像を捕捉する方法及び装置 | |
US7113201B1 (en) | Image processing apparatus | |
US8487956B2 (en) | Communication terminal, system and display method to adaptively update a displayed image | |
US10264210B2 (en) | Video processing apparatus, method, and system | |
CN103155548A (zh) | 对用户接口进行控制来自动对焦地显示呼叫参与者 | |
CN105376515B (zh) | 用于视频通讯的通讯信息的呈现方法、装置及系统 | |
TWI280481B (en) | A device for dialog control and a method of communication between a user and an electric apparatus | |
US20080298796A1 (en) | Camera configurable for autonomous operation | |
KR20020062325A (ko) | 텔레비전 상에 디스플레이되는 가상 생물 | |
JP4638183B2 (ja) | 複数のカメラ出力の編集装置及びその編集方法 | |
JP2005094713A (ja) | データ表示システム、データ表示方法、プログラムおよび記録媒体 | |
JPH05122689A (ja) | テレビ会議システム | |
JP5151970B2 (ja) | 通信端末装置、通信制御方法、通信制御プログラム | |
JP2003528548A (ja) | ハンドフリー家庭用映像製作カムコーダ | |
CN115734007B (zh) | 视频剪辑方法、装置、介质及视频处理系统 | |
US20030160871A1 (en) | Automatically switched camera system with indicator for notifying the next subject of the camera system | |
JP2005295431A (ja) | 番組生成システム、コマンド生成装置、及び番組生成プログラム | |
EP0837588A2 (en) | Teleconferencing system | |
Strubbe et al. | UI for a videoconference camera | |
JP2006221253A (ja) | 画像処理装置および画像処理プログラム | |
US20090167874A1 (en) | Audio visual tracking with established environmental regions | |
JP2003125391A (ja) | 画面切替出力制御装置及びその方法と、画面切替出力制御プログラム及びそのプログラムの記録媒体 | |
JP2006064973A (ja) | 制御システム | |
JP2666317B2 (ja) | 多地点間映像会議システムの映像画面切替え方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060911 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060922 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20061214 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20061226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080624 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080722 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080912 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081014 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081112 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111121 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121121 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121121 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131121 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |