JP7353015B2

JP7353015B2 - 方法、装置、およびカメラ

Info

Publication number: JP7353015B2
Application number: JP2017254815A
Authority: JP
Inventors: アルドビョルン; ピルフレードリク
Original assignee: アクシスアーベー
Priority date: 2016-12-30
Filing date: 2017-12-28
Publication date: 2023-09-29
Anticipated expiration: 2037-12-28
Also published as: US10123020B2; TWI767972B; US20180192057A1; TW201830973A; CN108271021B; CN108271021A; KR20180079188A; EP3343916A1; JP2018110399A; KR102505462B1

Description

本発明は、方法、装置、およびカメラに関する。

ビデオ監視システムは、１以上のカメラによって生成されたビデオストリームを配信するときに、大量のデータを生成する可能性がある。ビデオ監視システム内のコンポーネントは、ネットワークを介して相互接続されている可能性があるため、ビデオストリームの配信は、かなりの量のネットワークリソースを消費する可能性がある。１人のオペレータは、ディスプレイ上に多数のビデオストリームが提示された場合、一度に１つのビデオストリームにのみ注意を集中することができる。したがって、従来のビデオ監視システムでは、オペレータが見ていないビデオストリームの配信によって、かなりの量のネットワークリソースが消費される。

１つの実施形態では、注視検出に基づいてビデオデータを復号する方法が開示される。本方法は、カメラに関連付けられたエンコーダから受信された符号化されたビデオストリームを復号することと、復号されたビデオストリームを装置のディスプレイ上に提示することと、を含んでもよい。本方法は、ディスプレイを見ているオペレータの注視点を検出することと、注視点に基づいて、復号されたビデオストリームに関連付けられた位置をスキップブロック挿入点として指定することと、を含んでもよい。本方法は、エンコーダに位置を送信することと、を含み、エンコーダは、カメラによって生成されたビデオデータを符号化する際に、スキップブロック挿入点に対応するインターフレーム（フレーム間）符号化ブロックの更新レートを低減させてもよい。

注視検出に基づいて符号化中のブロックの更新レートを低減させることによって、オペレータの周辺視野内のビデオストリームのビットレートを、オペレータの完全な焦点（focus）を有するものから低減させることができ、こうしてネットワークの利用および効率を改善することができる。さらに、より低い更新レートを有するブロックを有するビデオストリームを復号することは、エンコーダおよびデコーダの両方における計算負荷を低減し、したがって、ビデオストリームを符号化するカメラおよびビデオストリームを復号する監視ステーションにおける電力消費を節約する。

１つの実施形態では、本方法は、装置のディスプレイ上にオペレータの主焦点を有するウィンドウ内の復号されたビデオストリームを提示することと、オペレータの注視点が、オペレータの主焦点を有するウィンドウの境界内にあることを判定することと、を含んでもよい。本方法は、オペレータの主焦点を有するウィンドウ内に中心窩視野エリアを決定することと、中心窩視野エリアの外側の復号されたビデオストリームに関連付けられた位置をスキップブロック挿入点として指定することと、を含んでもよい。本方法は、オペレータの注視に基づいて、オペレータの主焦点を有するウィンドウ内に提示されるビデオの品質を改善することができる。

１つの実施形態では、本方法は、少なくとも１つの追加の符号化されたビデオストリームを復号することと、復号されたビデオストリームおよび少なくとも１つの追加の復号されたビデオストリームを、装置のディスプレイ上または装置の別のディスプレイ上の複数のウィンドウから別々のウィンドウにそれぞれ提示することと、を含んでもよい。本方法は、注視点に基づいて、オペレータの主焦点を有する複数のウィンドウから１つのウィンドウを決定することと、オペレータの主焦点を有さない少なくとも１つのウィンドウに関連付けられた復号されたビデオストリーム内の位置をスキップブロック挿入点として指定することと、を含んでもよい。したがって、本方法は、ユーザの主焦点を有さないウィンドウ内のビデオの１以上の部分において計算リソース、電力リソース、およびネットワークリソースを浪費することを回避することができる。

１つの実施形態では、本方法は、注視点に基づいて、オペレータの主焦点を有するウィンドウ内に中心窩視野エリアを決定することと、中心窩視野エリアの外側の位置を、オペレータの主焦点を有するウィンドウに関連付けられた復号されたビデオストリーム内のスキップブロック挿入点として指定することと、を含んでもよい。したがって、本方法は、ユーザの主焦点を有するウィンドウ内のビデオの１以上の部分において計算リソース、電力リソース、およびネットワークリソースを浪費することを回避することができる。

１つの実施形態では、本方法は、オペレータの主焦点を有するウィンドウに関連付けられた復号されたビデオストリームに対するＧＯＰ（group of pictures）長より大きい、オペレータの主焦点を有さない少なくとも１つのウィンドウに関連付けられた二次的な復号されたビデオストリームに対するＧＯＰの長さを決定することを含んでもよい。本方法は、オペレータの主焦点を有さない少なくとも１つのウィンドウに関連付けられたビデオを符号化するために、二次的な復号されたビデオストリームに関連付けられたエンコーダに決定されたＧＯＰ長を送信することを含んでもよい。ＧＯＰ長さは、計算リソース、ネットワークリソース、および電力リソースを効率的に割り当てるために適切に決定することができる。

１つの実施形態では、本方法は、注視点からオペレータの主焦点を有さない少なくとも１つのウィンドウまでの距離を決定することを含んでもよい。本方法は、注視点とオペレータの主焦点を有さない少なくとも１つのウィンドウとの間の距離が増加するにつれて、決定されたＧＯＰ長を増加させることを含んでもよい。

１つの実施形態では、本方法は、注視点がオペレータの主焦点を有するウィンドウ内を移動するにつれて、ある時間間隔の間または所定の閾値を超える距離に対して注視点を追跡することと、注視点の動きと復号されたビデオ内の移動する物体とを相関させることと、を含んでもよい。本方法は、移動する物体を関心のある物体として指定することと、復号されたビデオストリーム内の関心のある物体に関連付けられた位置に対してスキップブロック挿入点としての位置の指定を防止することと、を含んでもよい。注視に基づいて物体を追跡することは、オペレータが関心のある物体を指定するための効率的かつ自然な方法を提供する。

１つの実施形態では、本方法は、指定された関心のある物体を表す識別子を生成することと、復号されたビデオストリームのメタデータを含むデータベースに識別子を保存することと、を含んでもよい。注視に基づいて識別子を生成することは、オペレータが関心のある物体を指定するための効率的かつ自然な方法を提供する。

１つの実施形態では、本方法は、注視点が所定の閾値を超える時間の間、ディスプレイ上で実質的に同じ位置に維持されていると判定することと、注視点の周囲の所定のエリア内の復号されたビデオストリームの倍率を増加させることと、を含んでもよい。注視に基づいて倍率を制御することは、オペレータがビデオ内の関心領域内の詳細を特定するのに効率的で自然な方法を提供する。

１つの実施形態では、本方法は、注視点が、オペレータの主焦点を有するウィンドウ上の所定の閾値を超える時間間隔の間、維持されていると判定することと、オペレータの主焦点を有するウィンドウの倍率を増加させることと、を含んでもよい。注視に基づいて倍率を制御することは、オペレータがビデオ内の関心領域内の詳細を特定するのに効率的で自然な方法を提供する。

１つの実施形態では、本方法は、ディスプレイ上で実質的に同じ位置を維持しながら、注視点が所定時間内に所定回数消えて再び現れることを、オペレータによるまばたきの結果として判定することと、注視点の周りのエリアの復号されたビデオストリームに関連付けられたコマンドを実行することと、を含んでもよい。注視およびまばたきに基づいてコマンドを入力することによって、オペレータがビデオ監視システムにコマンドを入力するための効率的かつ自然な方法が提供される。

１つの実施形態では、コマンドを実行することは、注視点の周りのエリア内の復号されたビデオストリームの倍率を変更すること、または注視点の周りのエリア内の復号されたビデオストリームをタグ付けするデータベース内の識別子を保存することを含んでもよい。注視点の周りのエリア内の倍率を制御することによって、オペレータがビデオ内の関心領域内の詳細を特定するのに効率的で自然な方法が提供される。

１つの実施形態では、本方法は、ある時間間隔にわたって注視点の位置を追跡することと、注視点の追跡された位置に基づいて注視点の次の位置を予測することと、を含んでもよい。注視点の将来の位置を予測することによって、注視制御に基づいてビデオストリームのビットレートを調整する際の待ち時間を短縮することができる。

１つの実施形態では、本方法は、スキップブロックを含むインターフレームを有する第１のコンポーネントビデオストリームと、第１のコンポーネントビデオストリームシーケンスよりも低いピクセル密度を有する第２のコンポーネントビデオストリームとを含む統合された符号化されたビデオストリームを受信することを含んでもよく、第２のコンポーネントビデオストリームは、第１のコンポーネントビデオストリームに時間的および空間的に関連付けられている。本方法は、第１のコンポーネントビデオストリームのインターフレーム内のスキップブロックを特定し、スキップブロックではないブロック内の第１のコンポーネントビデオストリームのインターフレームを復号することを含んでもよい。本方法は、第２のコンポーネントビデオストリームのインターフレームを復号し、復号された第２のコンポーネントビデオストリームのインターフレームをアップスケールして、復号された第１のコンポーネントビデオストリームのインターフレームのピクセル密度に一致させることを含んでもよい。本方法は、復号された第１のコンポーネントビデオストリーム内のスキップブロック位置に対応するアップスケールされた復号された第２のコンポーネントビデオストリーム内のピクセルを特定することを含んでもよい。本方法は、復号された第２のコンポーネントビデオストリーム内の特定されたピクセルを抽出することと、抽出されたピクセルを復号された第１の符号化されたビットストリーム内のスキップブロックの対応する位置に挿入することと、を含んでもよい。上述の方法は、スキップブロックの挿入を通してビデオデータ処理量を低減させる。

１つの実施形態では、注視検出に基づいてビデオデータを符号化する方法が開示される。本方法は、少なくとも１つのセンサアレイによって取り込まれたビデオデータを受信することと、受信されたビデオデータを符号化するためのスキップブロック挿入点を指定するために復号されたビデオストリームに関連付けられ、装置において決定された注視点に基づく位置を受信することと、を含んでもよい。本方法は、受信された位置に基づいて、受信されたビデオデータを符号化する前に、更新レートが低減されたインターフレーム内のブロックを指定するスキップブロック挿入点を特定することを含んでもよい。本方法は、特定されたスキップブロック挿入点に対して、低減された更新レートのための周波数を決定することと、決定された周波数に基づいて、特定されたスキップブロック挿入点に関連付けられたブロックを有するインターフレームを符号化することと、を含んでもよい。注視に基づいてスキップブロック挿入点を決定することによって、計算リソース、電力リソース、およびネットワークリソースを効率的に使用できる。

１つの実施形態では、本方法は、受信されたビデオデータから第１のビデオシーケンスを生成することと、第１のビデオシーケンスよりも低いピクセル密度を有する受信されたビデオデータから第２のビデオシーケンスを生成することを含んでもよい。第２のビデオシーケンスは、第１のビデオシーケンスと時間的にも空間的にも類似していてもよい。本方法は、第１のビデオシーケンス内の関連性のあるピクセルを示すことであって、特定されたスキップブロック挿入点は、関連性がないものとして指定されることと、第１の符号化されたビデオストリームを生成するために、第１のビデオシーケンス内の関連性を示されたピクセルを符号化することであって、関連性がないものとして指定されたピクセルはスキップブロックを用いて符号化されることと、を含んでもよい。本方法は、第２の符号化されたビデオストリームを生成するために第２のビデオシーケンスを符号化することと、第１の符号化されたビデオストリームと第２の符号化されたビデオストリームとを統合することと、を含んでもよい。本方法は、統合された符号化されたビデオストリームを装置へ送信することを含んでもよい。注視に基づいてスキップブロック挿入点を決定することによって、計算リソース、電力リソース、およびネットワークリソースを効率的に使用できる。

１つの実施形態では、第２のビデオシーケンスを生成することは、第１のビデオシーケンスを二次元でデジタルダウンサンプリングすることを含んでもよい。二次元のダウンサンプリングは、ビデオ符号化の処理速度を改善することができる。

１つの実施形態では、関連性のあるピクセルを示すことは、第１のビデオシーケンスに対してマスクを生成することをさらに含んでもよい。マスクを生成することは、ビデオの符号化の量を減らすことによって効率を改善することができる。

１つの実施形態では、注視検出に基づいてビデオデータを復号するように構成された装置が開示される。装置は、ディスプレイと、ネットワークを介してデータを交換するように構成された通信インターフェースと、ディスプレイおよび通信インターフェースに結合されたプロセッサと、プロセッサに結合され命令を格納するメモリとを含んでもよい。命令は、プロセッサに、カメラに関連付けられたエンコーダから受信された符号化されたビデオストリームを復号させ、復号されたビデオストリームを装置のディスプレイ上に提示させ、ディスプレイを見ているオペレータの注視点を検出させ、注視点に基づいて、復号されたビデオストリームに関連付けられた位置をスキップブロック挿入点として指定させ、エンコーダに位置を送信させる。エンコーダは、カメラによって生成されたビデオデータを符号化する際に、スキップブロック挿入点に対応するインターフレーム符号化ブロックの更新レートを低減させる。注視に基づいてスキップブロック挿入点を決定することによって、計算リソース、電力リソース、およびネットワークリソースを効率的に使用できる。

１つの実施形態では、メモリは、プロセッサにさらに、装置のディスプレイ上にオペレータの主焦点を有するウィンドウ内の復号されたビデオストリームを提示させ、オペレータの注視点が、オペレータの主焦点を有するウィンドウの境界内にあることを判定させ、オペレータの主焦点を有するウィンドウ内の中心窩視野エリアを決定させ、中心窩視野エリア外の復号されたビデオストリームに関連付けられた位置をスキップブロック挿入点として指定させる命令を含んでもよい。注視に基づいてスキップブロック挿入点を決定することによって、計算リソース、電力リソース、およびネットワークリソースを効率的に使用できる。

１つの実施形態では、メモリは、プロセッサに、少なくとも１つの追加の符号化されたビデオストリームを復号させ、復号されたビデオストリームおよび少なくとも１つの追加の復号されたビデオストリームを、ディスプレイ上の複数のウィンドウからそれぞれ別々のウィンドウ内に提示させ、注視点に基づいて、オペレータの主焦点を有する複数のウィンドウからの１つのウィンドウを決定させ、オペレータの主焦点を有さない少なくとも１つのウィンドウに関連付けられた復号されたビデオストリーム内にスキップブロック挿入点としての位置を指定させる命令を含んでもよい。注視に基づいてスキップブロック挿入点を決定することによって、計算リソース、電力リソース、およびネットワークリソースを効率的に使用できる。

１つの実施形態では、メモリは、プロセッサに、注視点に基づいて、オペレータの主焦点を有するウィンドウ内の中心窩視界エリアを決定させ、中心窩視野エリア外の位置をオペレータの主焦点を有するウィンドウに関連付けられた復号されたビデオストリーム内のスキップブロック挿入点として指定させる命令を含んでもよい。注視に基づいてスキップブロック挿入点を決定することによって、計算リソース、電力リソース、およびネットワークリソースを効率的に使用できる。

１つの実施形態では、注視検出に基づいてビデオデータを符号化するカメラが開示される。カメラは、センサアレイと、ネットワークを介してデータを交換するように構成された通信インターフェースと、センサアレイおよび通信インターフェースに結合された、コントローラ、画像プロセッサ、およびビデオエンコーダと、コントローラ、画像プロセッサ、およびビデオエンコーダに結合されたメモリとを含んでもよい。メモリは、コントローラ、画像プロセッサ、またはビデオエンコーダに、センサアレイによって取り込まれたビデオデータを受信させ、復号されたビデオストリームに関連付けられた位置を受信させて、受信したビデオデータを符号化するためのスキップブロック挿入点を指定させる命令を格納する。位置は、クライアント装置で決定された注視点に基づくことができ、受信した位置に基づいて、受信したビデオデータを符号化する前にスキップブロック挿入点を特定することができ、スキップブロック挿入点は、低減された更新レートを有するインターフレーム内のブロックを指定し、特定されたスキップブロック挿入点に対して、低減された更新レートに対する周波数を決定し、決定された周波数に基づいて、特定されたスキップブロック挿入点に関連付けられたブロックを有するインターフレームを符号化する。注視に基づいてスキップブロック挿入点を決定することによって、計算リソース、電力リソース、およびネットワークリソースを効率的に使用できる。

１つの実施形態では、メモリは、コントローラ、画像プロセッサ、またはビデオエンコーダの少なくとも１つに、さらに、受信したビデオデータから第１のビデオシーケンスを生成させ、受信したビデオデータから第１のビデオシーケンスよりも低いピクセル密度を有する第２のビデオシーケンスを生成させ、第２のビデオシーケンスは第１のビデオシーケンスと時間的かつ空間的に類似しており、第１のビデオシーケンスに関連性のあるピクセルを示させ、特定されたスキップブロック挿入点は関連性のないものとして指定され、特定されたスキップブロック挿入点は、第１のビデオシーケンス内の指定された関連性のあるピクセルを符号化して、第１の符号化されたビデオストリームを生成させ、関連性のないものとして指定されたピクセルは、スキップブロックを用いて符号化され、第２の符号化されたビデオストリームを生成するために第２のビデオシーケンスを符号化させ、第１の符号化されたビデオストリームと第２の符号化されたビデオストリームとを統合し、統合された符号化されたビデオストリームをクライアント装置へ送信させる命令を含んでもよい。注視に基づいてスキップブロック挿入点を決定することによって、計算リソース、電力リソース、およびネットワークリソースを効率的に使用できる。

１つの実施形態における注視追跡を含む例示的な環境を示すブロック図である。１つの実施形態におけるカメラの例示的なコンポーネントを示すブロック図である。１つの実施形態におけるコンピューティングモジュールの例示的なコンポーネントを示すブロック図である。１つの実施形態においてオペレータがアイトラッカーを有するディスプレイを見ている環境を示す。２つの実施形態におけるオペレータの視点からのディスプレイを示す。２つの実施形態におけるオペレータの視点からのディスプレイを示す。注視検出に基づいてビデオデータを復号するための例示的なプロセスを示すフローチャートである。注視検出に基づいてビデオデータを符号化するための例示的なプロセスのフローチャートである。

以下の詳細な説明は、添付図面を参照する。異なる図面における同じ参照番号は、同一または類似の要素を特定する。

ビデオ監視システムが任意の時間間隔にわたって生成する大量のデータを考慮すると、収集されたデータの処理、配信、および取得は、（特に、処理および／またはネットワークリソースの利用に関して）リソースを集約的にすることができる。オペレータがネットワークを介して複数のビデオストリームを監視する場合、監視ステーションのディスプレイ上に提示されるデータの多くは、オペレータに注目されない可能性がある。

ビデオ監視システム内で処理および／またはネットワークリソースをより効率的に使用するために、以下で説明される実施形態は、アイトラッキングを使用してオペレータの焦点（focus）を決定し、オペレータが集中していないビデオストリーム内のブロックの更新レートを低くするプロセスおよびシステムに関する。したがって、オペレータの注視（gaze）を検出することによって、オペレータの周辺視野にある単一のビデオストリームの部分は、ブロックの更新レートを減少させることができる。追加的または代替的に、複数のストリームが別々のウィンドウでユーザに提示されているとき、オペレータの周辺視野にあるビデオストリームは、ビデオストリームが符号化されるときにブロックの更新レートを低減させることができる。

注視検出（gaze sensing）に基づいて符号化中にブロックの更新レートを低減させることによって、オペレータの周辺視野内のビデオストリームのビットレートは、オペレータの完全な焦点を有するものと比較して低減させることができる。さらに、より低い更新レートを有するブロックを有するビデオストリームを復号することは、エンコーダおよびデコーダの両方における計算負荷を低減し、したがって、ビデオストリームを符号化するカメラおよびビデオストリームを復号する監視ステーションにおける電力消費を節約する。

ブロックの更新レートを低減させることは、例えば、ＡｘｉｓＡＢに譲渡された２０１５年２月５日に公開された「統合されたデジタルビデオシーケンスを生成するための方法、装置およびシステム（Method, Device and System for Producing A Merged Digital Video Sequence）」という名称の米国特許出願公開第２０１５／００３６７３６号に記載されている技術を使用して実行することができ、これは本明細書に参照によって援用される。

例えば、ブロックの更新レートを低減させることは、インターフレームを符号化するときにエンコーダにビデオのフレーム内のスキップ（ＳＫＩＰ）ブロックを送信させることによって達成することができる。ビデオの一部に対してスキップブロックが指示されると、たとえ入力画像がそのエリア内の前の画像から変化したとしても、ビデオのその部分に対して画像データは送信されない。

本明細書に提示された実施形態は、ビデオ符号化／復号規格（例えば、ＩＳＯ／ＭＰＥＧファミリー（ＭＰＥＧ－１、ＭＰＥＧ－２、ＭＰＥＧ－４）など）およびＩＴＵ－Ｈ．２６Ｘファミリー（Ｈ．２６１、Ｈ．２６３および拡張（extension）、Ｈ．２６４、およびＨ．２６５規格としても知られているＨＥＶＣ）のビデオ勧告（recommendation）に適用することができる。本明細書に提示される実施形態はまた、他のタイプのビデオ符号化規格（例えば、ＷＭＶファミリーに属するＭｉｃｒｏｓｏｆｔコーデック、Ｏｎ２コーデック（例えば、ＶＰ６、ＶＰ６－Ｅ、ＶＰ６－Ｓ、ＶＰ７またはＶＰ８）またはＷｅｂＭ）に適用することもできる。

ビットレートを低減させるためにビデオ符号化を実行する場合、符号化されるフレームは、圧縮および符号化されることができるより小さい符号化単位（ブロック、マクロブロックなど）に分割することができる。インターフレームの符号化では、ブロックの各々に１つまたはいくつかの動きベクトルを割り当てることができる。フレームの予測は、動きベクトルのセットに従って過去および／または未来のフレームからピクセルブロックを移動することによって構成することができる。その後、前のフレーム内の動きベクトルによって移動させられたブロックを現在のフレームと比較することができ、符号化される現在のフレームとその動き補償された予測との間の残差信号と呼ばれる差が、同様に変換符号化を使用することによってイントラ符号化されたフレームにエントロピー符号化される。

前述のインターフレーム符号化は、「スキップブロック」を使用することによって防止することができる。言い換えると、スキップブロックは、残差誤差または動きベクトルを送信することなく「符号化」することができる。その代わりに、エンコーダは、インターフレーム内の特定のブロック位置に対してスキップブロックが指定されたことだけを記録することができ、デコーダは、既に復号された他のブロックから画像情報を推定することができる。一実施形態では、スキップブロックの画像情報は、デジタルビデオデータの同じフレームのブロックまたは前のフレーム内のブロックから推定することができる。

本明細書で使用される場合、イントラフレームは、過去または将来のフレームへのいかなる参照もなしに符号化されることができ、Ｉフレームと呼ばれる。インターフレームは、Ｐフレームと呼ばれる単方向予測フレーム、またはＢフレームと呼ばれる双方向予測フレームのいずれかを使用して符号化することができる。ＰフレームとＢフレームの両方には、以前のフレームのどこにも見つからない新しいデータを符号化するブロックが含まれている可能性があるが、それらは稀であるかもしれない。Ｉフレームは、シーン変化に対応するフレームの新しいグループの先頭に配置され、時間的冗長性が利用できないシーン変化フレーム、または他の位置に配置され、時間的冗長性が利用可能なリフレッシュフレームのいずれかを含んでもよい。Ｉフレームは通常、新しいストリームエンコーダのためのリフレッシュ点を有するように、または伝送エラーのリカバリ点として、一定間隔または不規則間隔で挿入される。

Ｉフレームは、ＧＯＰ（group of pictures）と呼ばれるものの中で、多数のＰフレームおよびＢフレーム、またはいくつかの実施形態では、多数のＰフレームのみを境界付けることができる。ＧＯＰの長さは、毎秒３０フレームでサンプリングされたビデオの３０フレームを含むことができ、これは、１つのＩフレームの後に２９のＰフレームが続くことを意味する。他の実施形態では、ＧＯＰは動的であり、シーンコンテンツ、ビデオ品質、および／またはアイトラッカー（アイトラッキングシステム）によって提供される注視情報（gaze information）に基づいて変化することができる。

図１は、一実施形態におけるアイトラッキングを含む例示的な環境１００を示すブロック図である。環境１００は、例えば、エリアを保守するため、または公共安全を提供するための監視システムとすることができる。図１に示すように、環境１００は、カメラ１１０－１～１１０－Ｍ、ネットワーク１２０、ビデオ管理システム（ＶＭＳ）１５０、監視ステーション１２５－１～１２５－Ｎ、アイトラッカー１４０－１～１４０－Ｎ、および／またはディスプレイ１３０－１～１３０－Ｎを含んでもよい。環境１００はまた、様々な非画像検出器（例えば、動作検出器、温度検出器、煙検出器など（図示せず））などを含んでもよい。

カメラ１１０－１～１１０－Ｍ（「カメラ１１０」、複数で「カメラ１１０」、具体的に「カメラ１１０－ｘ」と呼ぶ）は、監視エリア１０６の画像および／またはビデオを取り込む。監視エリア１０６は、１以上のカメラ１１０によって監視することができる。物体１０２は、任意の物体（例えば、ドア、人、動物、車両、車両上のナンバープレートなど）を含んでもよい。

カメラ１１０は、可視光、赤外光、および／または他の非可視電磁放射線（例えば、紫外光、遠赤外光、テラヘルツ放射線、マイクロ波放射線など）を使用して画像データを取り込むことができる。カメラ１１０は、レーダ撮像のための熱カメラおよび／またはレーダ装置を含んでもよい。取り込まれた画像データは、連続画像シーケンス（例えば、ビデオ）、限定された画像シーケンス、静止画像、および／またはそれらの組み合わせを含んでもよい。カメラ１１０は、画像を取り込みデジタル化するためのデジタルカメラおよび／または画像を取り込んでアナログ形式で画像データを格納するためのアナログカメラを含んでもよい。

カメラ１１０は、１以上の２次元アレイ（例えば、画像データまたはビデオデータ）に配列されたデータを生成するセンサを含んでもよい。本明細書で使用される場合、「ビデオデータ」および「ビデオ」は、より一般的にそれぞれ「画像データ」および「画像」と呼ぶことができる。したがって、「画像データ」または「画像」は、特に明記しない限り、「ビデオデータ」および「ビデオ」を含むことを意味する。同様に、「ビデオデータ」または「ビデオ」は、特に明記しない限り、静止画像を含み得る。

他の監視装置またはセンサは、監視エリア１０６からの情報を取り込むことができる。例えば、動作検出器（例えば、カメラ以外の何か）がエリア１０６－１の動きを検出することができる。動作検出器は、近接センサ、磁気センサ、侵入センサ、圧力センサ、赤外線センサ、レーダセンサ、および／または放射線センサを含んでもよい。別の一例として、煙検出器は、エリア１０６－１内の煙を検出することができる。煙検出器はまた、熱センサを含んでもよい。

監視ステーション１２５－１～１２５－Ｎは、ディスプレイ１３０－１～１３０－Ｎ（それぞれ個別に「監視ステーション１２５」および「ディスプレイ１３０」）に結合される。一実施形態では、監視ステーション１２５－１～１２５－Ｎはまた、アイトラッカー１４０－１～１４０－Ｎ（個別に「アイトラッカー１４０」）に結合される。監視ステーション１２５およびディスプレイ１３０は、オペレータ（図１には図示せず）がカメラ１１０によって生成された画像を見ることを可能にする。アイトラッカー１４０は、ディスプレイ１３０を見ているオペレータの注視を追跡する。監視ステーション１２５－ｘ、ディスプレイ１３０－ｘ、およびアイトラッカー１４０－ｘの各々は、オペレータが環境１００内に示される監視システムとインタラクトするための「クライアント」とすることができる。

ディスプレイ１３０は、１以上のカメラ１１０からのビデオストリームを受信して表示する。１つのディスプレイ１３０は、単一のカメラ１１０または複数のカメラ１１０からの画像を（例えば、ディスプレイ１３０上の複数のフレームまたはウィンドウ内に）示すことができる。単一のディスプレイ１３０はまた、単一のカメラからの異なるフレームの画像を表示することもできる。すなわち、単一のカメラは、例えば、広角レンズまたは魚眼レンズを含んでもよく、複数のエリア１０６の画像を提供することができる。異なるエリア１０６からの画像は、異なるウィンドウおよび／またはフレームで別々にディスプレイ１３０上に分離して表示させることができる。ディスプレイ１３０は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、有機ＬＥＤ（ＯＬＥＤ）ディスプレイ、陰極線管（ＣＲＴ）ディスプレイ、プラズマディスプレイ、レーザビデオディスプレイ、電気泳動ディスプレイ、量子ドットディスプレイ、ビデオプロジェクタ、および／または任意の他のタイプのディスプレイ装置を含んでもよい。

アイトラッカー１４０は、ＶＭＳ１５０（または環境１００内の任意の装置）がオペレータの目がどこに集中しているかを判定することを可能にするセンサ（例えば、カメラ）を含む。例えば、一組の近赤外光ビームは、オペレータの目に向けられ、オペレータの角膜で反射を引き起こすことができる。反射は、アイトラッカー１４０に含まれるカメラによって追跡され、オペレータの注視エリアを決定することができる。注視エリアは、注視点および中心窩の焦点（focus）のエリアを含んでもよい。例えば、オペレータは、監視ステーション１２５のディスプレイ１３０の前に座ることができる。アイトラッカー１４０は、ディスプレイ１３０のどの部分にオペレータが焦点を合わせているかを決定する。各ディスプレイ１３０は、単一のアイトラッカー１４０に関連付けることができる。あるいはまた、アイトラッカー１４０は、複数のディスプレイ１３０に対応することができる。この場合、アイトラッカー１４０は、オペレータがどのディスプレイに、および／またはそのディスプレイ１３０のどの部分に焦点を合わせているかを判定することができる。

アイトラッカー１４０はまた、ユーザの存在、注意のレベル、焦点、眠気、意識、および／または他の状態を判定することもできる。アイトラッカー１４０はまた、ユーザの身元を判定することもできる。アイトラッカー１４０からの情報は、経時的なオペレータの行動内に洞察を得るために、またはオペレータの現在の状態を判定するために使用することができる。いくつかの実装では、ディスプレイ１３０およびアイトラッカー１４０は、オペレータが着用するバーチャルリアリティ（ＶＲ）ヘッドセット内に実装することができる。オペレータは、ＶＲヘッドセットへの入力として１以上のカメラ１１０を使用してエリア１０６の仮想検査を実行することができる。

ネットワーク１２０は、１以上の回線交換ネットワークおよび／またはパケット交換ネットワークを含んでもよい。例えば、ネットワーク１２０は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、ＰＳＴＮ（Public Switched Telephone Network）、アドホックネットワーク、イントラネット、インターネット、光ファイバベースのネットワーク、無線ネットワーク、および／またはこれらのまたは他のタイプのネットワークの組み合わせを含んでもよい。

ＶＭＳ１５０は、カメラ１１０、ディスプレイ１３０、および／またはアイトラッカー１４０の動作を統合する１以上のコンピュータ装置（例えば、サーバ装置など）を含んでもよい。ＶＭＳ１５０は、カメラ１１０からの画像データを受信して格納することができる。ＶＭＳ１５０はまた、ＶＭＳ１５０に格納された画像データまたはカメラ１１０からストリーミングされた画像データを見るための、監視ステーション１２５のオペレータのためのユーザインターフェースを、提供することもできる。

いくつかの実施形態では、環境１００は別個のＶＭＳ１５０を含まない。その代わりに、ＶＭＳ１５０によって提供されるサービスは、監視ステーション１２５および／またはカメラ１１０自体によって、または環境１００内の装置間で分散されて提供される。同様に、ＶＭＳ１５０は、カメラ１１０によって実行されるように説明された動作を実行することができる。例えば、ＶＭＳ１５０は、カメラ１１０ではなく動きを検出するために画像データを解析することができる。

図１は、環境１００の例示的なコンポーネントを示しているが、他の実装では、環境１００は、図１に示されたものよりも少ないコンポーネント、異なるコンポーネント、異なる配置のコンポーネント、または追加的なコンポーネントを含んでもよい。追加的または代替的に、任意の１つの装置（または装置の任意のグループ）は、１以上の他の装置によって実行されるように記載された機能を実行することができる。

図２は、１つの実施形態におけるカメラの例示的なコンポーネントを示すブロック図である。図２に示すように、カメラ１１０は、光学チェーン２１０、センサアレイ２２０、バス２２５、画像プロセッサ２３０、コントローラ２４０、メモリ２４５、ビデオエンコーダ２５０、および／または通信インターフェース２６０を含んでもよい。１つの実施形態では、カメラ１１０は、カメラ１１０をパン、チルト、ズームするための１以上のモータコントローラ２７０（例えば、３つ）と１以上のモータ２７２（例えば、３つ）とを含んでもよい。

光学チェーン２１０は、入射放射線（例えば、光、可視光、赤外線波、ミリ波など）をセンサアレイ２２０に導き、入射放射線に基づいて画像を取り込むエンクロージャを含む。光学チェーン２１０は、入射放射線を監視エリアからセンサアレイ２２０上に収集して集束させる１以上のレンズ２１２を含む。

センサアレイ２２０は、センサアレイ２２０上に入射するまたは降り注ぐ放射線（例えば、光）を検知、検出、および測定するためのセンサのアレイを含んでもよい。放射線は、可視光波長範囲、赤外線波長範囲、または他の波長範囲とすることができる。

センサアレイ２２０は、例えば、電荷結合素子（ＣＣＤ）アレイおよび／またはアクティブピクセルアレイ（例えば、相補型金属酸化物半導体（ＣＭＯＳ）センサアレイ）を含んでもよい。センサアレイ２２０はまた、（例えば、カメラ１１０が熱カメラまたは検出器を含む場合）マイクロボロメータを含むこともできる。

センサアレイ２２０は、センサアレイ２２０に入射する放射線（例えば、光）を示す（例えば、特性または特徴を記述する）データを出力する。例えば、センサアレイ２２０から出力されるデータは、センサアレイ２２０内の１以上のピクセルに入射する情報（例えば、光の強度（例えば、照度）、色など）を含んでもよい。センサアレイ２２０に入射する光は、光学チェーン２１０内のレンズの結果として光が集束させられ得る「画像」であり得る。

センサアレイ２２０は、センサアレイ２２０上に降り注ぐ画像を検出するので、「画像センサ」と考えることができる。この用語が本明細書で使用される場合、「画像」は、センサアレイ２２０上に入射する（例えば、光の特性または特徴を記述する）放射線を示すデータを含む。したがって、「画像」という用語はまた、「画像センサデータ」または画像を記述する任意のデータまたはデータセットを意味するために使用することもできる。さらに、「ピクセル」は、放射線の測定（例えば、センサアレイ２２０上に入射する光を示す測定）が行われるセンサアレイ２２０の任意の領域またはエリアを意味することができる。ピクセルは、センサアレイ２２０内の１以上（１未満）のセンサに対応することができる。代替の一実施形態では、センサアレイ２２０は、走査ハードウェア（例えば、回転ミラー）を使用して画像を形成することができるリニアアレイ、または画像プロセッサ２３０および／またはコントローラ２４０に依存して画像センサデータを生成する非アレイセンサとすることができる。ビデオエンコーダ２５０は、環境１００内の他の装置（例えば、ステーション１２５および／またはＶＭＳ１５０）への伝送のために画像センサデータを符号化することができる。ビデオエンコーダ２５０は、ビデオ符号化技術（例えば、ＩＳＯ／ＭＰＥＧまたはＩＴＵ－Ｈ．２６Ｘファミリーのビデオ符号化規格）を使用することができる。

バス２２５は、カメラ１１０内のコンポーネントが互いに通信することを可能にする通信経路である。コントローラ２４０は、カメラ１１０の動作を制御および統合することができる。コントローラ２４０および／または画像プロセッサ２３０は、センサアレイ２２０によって取り込まれた画像データ上で信号処理動作を実行する。コントローラ２４０および／または画像プロセッサ２３０は、命令を解釈して実行する任意のタイプのシングルコアまたはマルチコアプロセッサ、マイクロプロセッサ、ラッチベースのプロセッサ、および／または処理ロジック（またはプロセッサ、マイクロプロセッサ、および／または処理ロジックのファミリ）を含んでもよい。コントローラ２４０および／または画像プロセッサ２３０は、ハードウェアアクセラレータ（例えば、グラフィックス処理ユニット（ＧＰＵ）、汎用グラフィックス処理ユニット（ＧＰＧＰＵ）、セル（Ｃｅｌｌ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、および／または別のタイプの集積回路または処理ロジック）を含むか、またはそれに結合することができる。

コントローラ２４０はまた、カメラ１１０の所望の焦点および位置（例えば、チルトおよびズーム）を決定および制御することができる。そうするために、コントローラ２４０は、１以上のモータコントローラ２７０にコマンドを送信して、カメラ１１０をチルトおよび／またはパンするための１以上のモータ２７２または光学式ズームレンズ２１２を駆動する。

メモリ２４５は、情報および／または命令を格納する任意のタイプの揮発性および／または不揮発性の記憶装置を含んでもよい。メモリ２４５は、ランダムアクセスメモリ（ＲＡＭ）または任意のタイプの動的記憶装置、リードオンリーメモリ（ＲＯＭ）デバイス、または任意のタイプの静的記憶装置、磁気または光記録メモリデバイスおよびその対応するドライブ、またはリムーバブルメモリデバイスを含んでもよい。メモリ２４５は、カメラ１１０によって使用される情報および命令（例えば、アプリケーションおよび／またはオペレーティングシステム）およびデータ（例えば、アプリケーションデータ）を格納することができる。

メモリ２４５は、コントローラ２４０および／または画像プロセッサ２３０による実行のための命令を格納することができる。ソフトウェア命令は、別のコンピュータ可読媒体または別の装置からメモリ２４５に読み込むことができる。ソフトウェア命令は、コントローラ２４０、ビデオエンコーダ２５０、および／または画像プロセッサ２３０に、本明細書に記載のプロセスを実行させることができる。例えば、カメラ１１０は、メモリ２４５内に格納されたソフトウェア命令を実行する、コントローラ２４０、ビデオエンコーダ２５０、および／または画像プロセッサ２３０に応答して、画像処理（例えば、符号化、トランスコード、物体の検出など）に関する動作を実行することができる。あるいはまた、配線結合された回路（例えば、ロジック）をソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて使用して、本明細書に記載のプロセスを実施することができる。

通信インターフェース２６０は、入力および／または出力ポート、入力および／または出力システム、および／または他の装置へのデータの送信を促進する他の入力および出力コンポーネントを含む回路および論理回路を含む。例えば、通信インターフェース２６０は、有線通信のためのネットワークインターフェースカード（例えば、イーサネット（登録商標）カード）または無線通信のための無線ネットワークインターフェース（例えば、ＷｉＦｉ）カードを含んでもよい。

図２は、カメラ１１０の例示的なコンポーネントを示しているが、他の実施形態では、カメラ１１０は、図２に示されているものよりも少ないコンポーネント、異なるコンポーネント、異なる配置のコンポーネント、または追加のコンポーネントを含んでもよい。追加的または代替的に、カメラ１１０の１以上のコンポーネントは、カメラ１１０の１以上の他のコンポーネントによって実行されるように説明された機能を実行することができる。例えば、コントローラ２４０は、画像プロセッサ２３０によって実行されるように説明された機能を実行することができ、その逆も可能である。代替的または追加的に、カメラ１１０は、図３に関して以下に説明されるようなコンピューティングモジュールを含んでもよい。

図３は、一実施形態におけるコンピューティングモジュールの例示的なコンポーネントを示すブロック図である。装置（例えば、ＶＭＳ１５０、アイトラッカー１４０、および／またはディスプレイ装置１３０）は、１以上のコンピューティングモジュール３００を含んでもよい。図３に示すように、コンピューティングモジュール３００は、バス３１０、プロセッサ３２０、メモリ３３０、および／または通信インターフェース３６０を含んでもよい。いくつかの実施形態では、コンピューティングモジュール３００はまた、入力装置３４０および／または出力装置３５０をも含み得る。

バス３１０は、コンピューティングモジュール３００のコンポーネントまたは他の装置の間の通信を可能にする経路を含む。プロセッサ３２０は、命令を解釈して実行する任意のタイプのシングルコアプロセッサ、マルチコアプロセッサ、マイクロプロセッサ、ラッチベースのプロセッサ、および／または処理ロジック（またはプロセッサ、マイクロプロセッサ、および／または処理ロジックのファミリ）を含んでもよい。プロセッサ３２０は、特定用途向け集積回路（ＡＳＩＣ）、ＦＰＧＡ、および／または別のタイプの集積回路または処理ロジックを含んでもよい。プロセッサ３２０は、ハードウェアアクセラレータ（例えば、ＧＰＵ、ＧＰＧＰＵ、Ｃｅｌｌ、ＦＰＧＡ、ＡＳＩＣ、および／または別のタイプの集積回路または処理ロジック）を含むか、またはそれに結合することができる。

メモリ３３０は、情報および／または命令を格納する任意のタイプの揮発性および／または不揮発性記憶装置を含んでもよい。メモリ３３０は、ＲＡＭまたは任意のタイプの動的記憶装置、ＲＯＭまたは任意のタイプの静的記憶装置、磁気または光記録メモリデバイスおよびその対応するドライブ、またはリムーバブルメモリデバイスを含んでもよい。メモリ３３０は、プロセッサ３２０によって使用される情報および命令（例えば、アプリケーションおよびオペレーティングシステム）およびデータ（例えば、アプリケーションデータ）を格納することができる。

メモリ３３０は、プロセッサ３２０によって実行するための命令を格納することができる。ソフトウェア命令は、別のコンピュータ可読媒体または別の装置からメモリ３３０に読み込むことができる。ソフトウェア命令は、プロセッサ３２０に、本明細書に記載のプロセスを実行させることができる。あるいはまた、配線接続された回路（例えば、ロジック）をソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて使用して、本明細書に記載のプロセスを実行することができる。

オペレーティングシステムは、コンピューティングモジュール３００のハードウェアおよびソフトウェアリソースを管理するためのソフトウェア命令を含む。例えば、オペレーティングシステムは、Ｌｉｎｕｘ（登録商標）、Ｗｉｎｄｏｗｓ、ＯＳＸ、Ａｎｄｒｏｉｄ、組み込みオペレーティングシステムなどを含んでもよい。アプリケーションおよびアプリケーションデータは、特定のコンピューティングモジュール３００が内部に見つかる装置に応じて、ネットワークサービスを提供する、またはアプリケーションを含んでもよい。

通信インターフェース３６０は、コンピューティングモジュール３００が他のコンポーネント、装置、および／またはシステムと通信することを可能にする送信機および／または受信機（例えば、トランシーバ）を含んでもよい。通信インターフェース３６０は、無線通信（例えば、高周波、赤外線など）、有線通信、またはそれらの組み合わせを介して通信することができる。通信インターフェース３６０は、ベースバンド信号を高周波（ＲＦ）信号に変換する、またはその逆を行うトランシーバを含むことができ、アンテナに結合することができる。

通信インターフェース３６０は、入力および／または出力ポート、入力および／または出力システム、および／または他の装置へのデータの送信を促進する他の入力および出力コンポーネントを含む論理コンポーネントを含んでもよい。例えば、通信インターフェース３６０は、有線通信のためのネットワークインターフェースカード（例えば、イーサネットカード）または無線通信のための無線ネットワークインターフェース（例えば、ＷｉＦｉ）カードを含んでもよい。

いくつかの装置はまた、入力装置３４０および出力装置３５０を含んでもよい。入力装置３４０は、ユーザが情報をコンピューティングモジュール３００に入力することを可能にすることができる。入力装置３４０は、キーボード、マウス、ペン、マイクロフォン、カメラ、タッチスクリーンディスプレイなどを含んでもよい。

出力装置３５０は、情報をユーザへ出力することができる。出力装置３５０は、ディスプレイ、プリンタ、スピーカなどを含んでもよい。入力装置３４０および出力装置３５０は、ユーザがコンピューティングモジュール３００によって実行されるアプリケーションとインタラクトすることを可能にすることができる。「ヘッドレス」装置（例えば、配備されたリモートカメラ）の場合、入力および出力は、主として入力装置３４０および出力装置３５０ではなく通信インターフェース３６０を介して行われる。

コンピューティングモジュール３００は、データの受信、送信、および／または処理を支援する他のコンポーネント（図示せず）を含んでもよい。さらに、コンピューティングモジュール３００内のコンポーネントの他の構成も可能である。他の実装では、コンピューティングモジュール３００は、図３で示されたものよりも少ないコンポーネント、異なるコンポーネント、追加のコンポーネント、または異なる配置のコンポーネントを含んでもよい。追加的または代替的に、コンピューティングモジュール３００の１以上のコンポーネントは、コンピューティングモジュール３００の１以上の他のコンポーネントによって実行されるものとして説明された１以上のタスクを実行することができる。

図４は、アイトラッカー１４０を有するディスプレイ１３０を見ているオペレータ４０２の例示的な環境４００を示す。ディスプレイ１３０は、オペレータ４０２に情報を表示するための任意のタイプのディスプレイを含んでもよい。オペレータ４０２は、ディスプレイ１３０を見て、監視ステーション１２５上で動作しているアプリケーションを介してＶＭＳ１５０とインタラクトすることができる。例えば、オペレータ４０２はエリア１０６のビデオを見ることができる。監視ステーション１２５は、ルールに従って、エリア１０６に動きがあるときにアラームを鳴らすことができる。その後、オペレータ４０２は、監視ステーション１２５上で動作しているアプリケーションとインタラクトするキーボードを介して警報を静めることによって応答することができる。

アイトラッカー１４０は、オペレータ４０２の目が集中している位置を監視ステーション１２５が決定することを可能にするセンサ（例えば、カメラ）を含む。図４では、例えば、オペレータ４０２は、ディスプレイ１３０の前に座っており、アイトラッカー１４０内のセンサがオペレータ４０２の目を検出する。例えば、アイトラッカー１４０は、ディスプレイ１３０上の位置（例えば、ピクセル値）として表すことができる注視点４１０を決定することができる。オペレータとディスプレイ１３０の相対的な位置に基づいて、オペレータ４０２の中心窩視野に対応する中心窩視野エリア４２０（または「エリア４２０」）を見積もることができる。中心窩視野は、目の詳細な視覚知覚に対応し、およそ１～２球面度に対応する。したがって、ディスプレイ１３０上のエリア４２０は計算され、完全な視力を有するオペレータ４０２の視野の一部に対応すると理解することができる。別の一実施形態では、エリア４２０は、特定のオペレータ４０２の設定手順中に実験的に決定することができる。エリア４２０は、オペレータ４０２の周辺視野に対応する、中心窩視野エリア４２０の外側の周辺視野エリア４３０とは対照的である。注視点４１０は概ね、エリア４２０の中心にあり、注視点４１０からオペレータ４０２の目までの視線に対応する。１つの実施形態では、注視点４１０を特定する情報をビデオ管理システム１５０へ送信することができる。

図５Ａは、オペレータ４０２の始点からのディスプレイ１３０を示している。図５Ａに示されるように、ディスプレイ１３０は、注視点４１０、中心窩視野エリア４２０、および周辺視野エリア４３０を含む。ディスプレイ１３０はまた、ビデオフレーム５２０を含み、ビデオフレーム５２０内においてビデオストリームがオペレータ４０２に提示される。この例では、フレーム５２０は、エリア１０６－１のカメラ１１０－１からのビデオストリームを示し、これは、ドアと、移動しているように見える個人とをたまたま含んでいる。オペレータ４０２の中心窩視野エリア４２０は、個人を包含し、注視点４１０は個人の顔面上に直接存在する。他方、フレーム５２０に表示されるドアは、オペレータ４０２の周辺視野エリア４３０に現れる。以下でより詳細に説明する１つの例では、エリア１０６－１で動きが検出されると、ステーション１２５－１は、ディスプレイ１３０のウィンドウ５２２Ａに以下の警告を表示する：「エリア１０６－１内で動作警告」。

注視点４１０の位置および／またはエリア４２０に基づいて、アイトラッカー１４０によって生成された情報が（場合によってはビデオ管理システム１５０を介して）カメラ１１０へのユーザ入力として解釈されるように、ビデオストリームを符号化するときに、インターフレーム内のブロックに対して異なる更新レートを指定することができる。例えば、アイトラッカー１４０－１は、オペレータ４０２が図５Ａに示すように人の上部を見ていると判断した場合、図５Ａに示すように、エリア４２０内にあるビデオデータ（例えば、ブロック）は、符号化中にインターフレームを生成するときに動きおよび／または空間の詳細を保存するように更新することができる。他方、エリア４２０の外側に位置するビデオデータは、インターフレームのすべてまたは一部を生成するときに使用されるスキップブロックを有するように指定することができ、したがって、ビットレートを低減させるためにブロックは頻繁に更新されない。

図５Ｂはまた、オペレータ４０２の視点からのディスプレイ１３０を示している。しかしながら、図５Ａのディスプレイ１３０とは対照的に、図５Ｂのディスプレイ１３０は、多数のフレーム５２０－１～５２０－Ｎ（個別に「フレーム５２０－ｘ」、複数で「フレーム５２０」）を示す。各フレーム５２０－１～５２０－Ｎは、異なるビデオストリームを提示することができ、オペレータ４０２は複数のエリアを監視することができる。異なるストリームは、異なるカメラ１１０－１～１１０－Ｍによって生成することができる。代替的または追加的に、フレーム５２０－１～５２０－Ｎの各々は、共通のカメラ１１０－ｘによって生成された異なるストリームを表示してもよい。例えば、カメラ１１０－ｘは、「魚眼」レンズを使用し、拡張された角度エリアからビデオを取り込むことができる。ビデオは、魚眼レンズによって導入された歪みを低減し、フレーム５２０－１から５２０－Ｎに別々に提示することができる異なるエリアに対応する別々のビデオストリームに拡張された角度エリアを分離するように処理することができる。図５Ａと同様に、図５Ｂ内のディスプレイ１３０は、注視点４１０、中心窩視野エリア４２０、および周辺視野エリア４３０を含む。

この例では、フレーム５２０－１は、エリア１０６－１のカメラ１１０－１からのビデオストリームを示すことができ、ビデオフレーム５２０－２は、エリア１０６－２（図示せず）のカメラ１１０－２（図示せず）からのビデオストリームを示すことができる。図５Ｂ内のオペレータ４０２の中心窩視野エリア４２０は、フレーム５２０－１の大部分を包含し、注視点４１０は個人の顔に近い。フレーム５２０内に表示されるドアはまた、中心窩視野エリア４２０内にある。他方、他のフレーム５２０－２～５２０－Ｎは、オペレータ４０２の周辺視野エリア４３０内にある。

注視点４１０および／または中心窩視野エリア４２０の位置は、他のフレーム５２０とは異なる可能性のある後続の処理のために特定のフレーム５２０－ｘを選択および／または指定するために使用することができる。例えば、図５Ｂに示すように、注視点４１０を使用して、フレーム５２０－１がオペレータにとって関心のあるフレームであることを示すことができる。したがって、ビデオ監視システムは、フレーム５２０－１内のビデオストリームの提示を改善するために、フレーム５２０－１により多くのリソース（例えば、帯域幅および／または処理リソース）を割り当て、オペレータが集中していない（例えば、周辺視野にある）フレームに対応する他のストリームに割り当てられたリソースを低減させることができる。具体的には、アイトラッカー１４０－１は、オペレータ４０２が図５Ｂに示すようにフレーム５２０－１を見ていると判断した場合、エリア４２０内にあるビデオデータは、符号化中にインターフレームを生成するときに動きおよび／または空間の詳細を保存するように更新することができる。他方、エリア４２０の外側にある他のフレーム５２０－２～５２０－Ｎに対するビデオデータは、インターフレームを生成するために使用されるスキップブロックを有するように指定することができ、こうしてフレーム５２０－２～５２０－Ｎのビットレートを低減させるために、ブロックは頻繁には更新されない。

図６は、注視検出に基づいてビデオデータを復号するための例示的なプロセス６００を示すフローチャートである。一実施形態では、プロセス６００は、プロセッサ３２０が命令を実行することによって、クライアント装置（例えば、監視ステーション１２５－ｘ、アイトラッカー１４０－ｘ、およびディスプレイ１３０－ｘ）によって実行され得る。命令は、メモリ３３０内に格納されてもよい。別の一実施形態では、プロセス６００は、ＶＭＳ１５０によって実行されてもよい。

一実施形態では、プロセス６００は、最初に、カメラ１１０に関連付けられたエンコーダ（例えば、ビデオエンコーダ２５０）から受信された符号化されたビデオストリームを復号することを含んでもよい（ブロック６１０）。ネットワーク１２０を介して監視ステーション１２５で受信することができる符号化されたビデオストリームは、監視エリア１０６－ｘ内の物体１０２－ｘを映すカメラ１１０－ｘによって生成することができる。プロセス６００は、監視ステーション１２５のディスプレイ１３０上に復号されたビデオストリームを提示することをさらに含んでもよく（ブロック６１５）、ディスプレイ１３０を見ているオペレータ４０２の注視点４１０を検出することを含む（ブロック６２０）。プロセス６００は、注視点４１０に基づいて、復号されたビデオストリームに関連付けられた位置をスキップブロック挿入点として指定すること（ブロック６２５）と、その位置をビデオエンコーダ２５０へ送信することであって、ビデオエンコーダ２５０は、カメラ１１０によって生成されたビデオデータを符号化するときに、スキップブロック挿入点に対応するインターフレーム符号化ブロックの更新レートを低減させることができること（ブロック６３０）と、を含んでもよい。

プロセス６００は、監視ステーション１２５のディスプレイ１３０上のオペレータ４０２の主焦点を有するウィンドウ５２０内に復号されたビデオストリームを提示することと、オペレータ４０２の注視点４１０がオペレータ４０２の主焦点を有するウィンドウ５２０の境界内にあると判定することと、をさらに含んでもよい。プロセス６００は、オペレータ４０２の主焦点を有するウィンドウ内に中心窩視野エリア４２０を決定することをさらに含んでもよい。ディスプレイ１３０上のエリア４２０は、オペレータ４０２とディスプレイ１３０との間の距離に基づいて計算することができる。プロセス６００は、中心窩視野エリア４２０の外側の復号されたビデオストリームに関連付けられた位置をスキップブロック挿入点として指定することをさらに含んでもよい。

別の一実施形態では、監視ステーション１２５は、ディスプレイ１３０上に提示するために、１以上のカメラ１１０から複数のビデオストリームを受信することができる。１つの例では、複数のストリームは、魚眼レンズを有する同一のカメラ１１０－ｘから来てもよく、魚眼レンズは、広い視野（例えば、３６０度）からビデオを収集し、その後、視野の異なる部分の歪みを取り除き、
複数の別々の歪みのないビデオストリームを生成する。追加的または代替的に、複数のビデオストリームは、監視エリア１０６の異なる部分を収集することができる複数のカメラ１１０によって生成することができる。したがって、プロセス６００は、１以上の追加の符号化されたビデオストリームを復号することと、監視ステーション１２５のディスプレイ１３０上の複数のウィンドウ５２０とは別個のウィンドウ内にそれぞれ復号されたビデオストリームおよび追加の復号されたビデオストリームを提示することと、をさらに含んでもよい。あるいはまた、追加のビデオストリームを監視ステーション１２５の追加のディスプレイ上に提示することができる。プロセス６００は、注視点４１０に基づいて、オペレータ４０２の主焦点を有する複数のウィンドウ５２０からウィンドウ５２０－１を決定することと、オペレータ４０２の主焦点を有さない少なくとも１つのウィンドウ５２０－２～５２０－Ｎに関連付けられた復号されたビデオストリーム内の位置をスキップブロック挿入点として指定することと、を含んでもよい。プロセス６００は、注視点４１０に基づいて、オペレータ４０２の主焦点を有するウィンドウ５２０－１内の中心窩視野エリア４２０を決定することと、オペレータ４０２の主焦点を有するウィンドウ５２０－１に関連付けられた復号されたビデオストリーム内のスキップブロック挿入点として中心窩視野エリア４２０の外側の位置を指定することと、をさらに含んでもよい。

プロセス６００は、オペレータ４０２の主焦点を有さない少なくとも１つのウィンドウ（５２０－２～５２０－Ｎ）に関連付けられた二次的な復号されたビデオストリームに対するＧＯＰ（group of pictures）の長さを決定することであって、このＧＯＰの長さは、オペレータの主焦点を有するウィンドウ５２０－１に関連付けられた復号されたビデオストリームに対するＧＯＰの長さよりも大きいことと、決定されたＧＯＰの長さをオペレータの主焦点を有さないウィンドウ５２０－２～５２０－Ｎに関連付けられたビデオを符号化するための二次的な復号されたビデオストリームに関連付けられたビデオエンコーダ２５０へ送信することと、をさらに含んでもよい。プロセス６００は、注視点４１０から、オペレータの主焦点を有さない少なくとも１つのウィンドウ（例えば、５２０－２から５２０－Ｎ）までの距離を決定することと、注視点４１０と、オペレータ４０２の主焦点を有さない少なくとも１つのウィンドウ（例えば、５２０－２から５２０－Ｎ）との間の距離が増加するにつれて、決定されたＧＯＰの長さを増加させることと、をさらに含んでもよい。

ＧＯＰの長さに関して、典型的なビデオ収集シナリオは、３０フレーム／秒で３０画像のＧＯＰの長さを有するＩフレームおよびＰフレームのみを使用することができる。これは、１つのＩフレームの後に２９のＰフレームが続くことを意味する。そのような場合、オペレータ４０２によって見られないエリアのマクロブロックは、毎秒１回の更新に下げられ、一方、見られているマクロブロックは、毎秒３０回の完全な更新とすることができる。より低い更新レートはまた、安定した更新レートを維持しながら、１秒当たり２、３、または５回の更新に設定することもできる。更新レートが完全に安定している必要がない場合は、更新は１秒間に１～３０の間のいずれかとすることができる。一実施形態では、ＧＯＰ長さは、アイトラッカー１４０によって決定されるときのオペレータ４０２の焦点に基づいて動的であってもよい。

プロセス６００は、注視点４１０がオペレータ４０２の主焦点を有するウィンドウ５２０－１内を移動しながら、所定の閾値を超える時間間隔または距離の間、注視点４１０を追跡することと、注視点４１０の動きと復号されたビデオ内で移動する物体とを相関させること（correlating）と、移動する物体を関心のある物体として指定することと、復号されたビデオストリーム内の関心のある物体に関連付けられた位置に対してスキップブロック挿入点としての位置を指定するのを防止することと、をさらに含んでもよい。プロセス６００はまた、指定された関心のある物体を表す識別子を生成することと、復号されたビデオストリームのメタデータを含むデータベースに識別子を保存することと、を含んでもよい。

プロセス６００は、所定の閾値を超える時間間隔の間、注視点４１０が、ディスプレイ１３０上の実質的に同じ位置に維持されていることを判定することと、次いで、注視点４１０の周囲の所定のエリア内の復号されたビデオストリームの倍率を増加させることと、をさらに含んでもよい。あるいはまた、プロセス６００は、注視点４１０が、オペレータ４０２の主焦点を有するウィンドウ５２０－１上の所定の閾値を超える時間間隔の間、維持されていることを判定することと、次いで、オペレータ４０２の主焦点を有さない他のウィンドウ（５２０－２～５２０－Ｎ）と関連して、オペレータの主焦点を有するウィンドウ５２０－１の倍率を増加させることと、を含んでもよい。

プロセス６００はまた、ディスプレイ１３０上の実質的に同じ位置を維持しながら、注視点４１０が、所定の時間内に所定の回数、消えて再び現れることを、オペレータ４０２によるまばたきの結果として判定することを含んでもよい。プロセス６００は、注視点４１０の周囲のエリア内で復号されたビデオストリームに関連付けられたコマンドを実行することをさらに含んでもよい。プロセス６００はまた、注視点の周囲のエリア内の復号されたビデオストリームの倍率を変更すること、または、注視点の周りのエリア内の復号されたビデオストリームにタグ付けする識別子をデータベース内に保存することを含んでもよい。

プロセス６００は、ある時間間隔にわたって注視点４１０の位置を追跡することと、注視点の追跡された位置に基づいて注視点の次の位置を予測することと、をさらに含んでもよい。予測は、既知の追跡技術および／または統計的推定技術を用いて行うことができる。したがって、プロセス６００は、注視点４１０がシフトされるときと、その位置に関連付けられたインターフレームの完全な更新レートが達成されるときとの間の遅延を最小限にするか、または少なくとも低減することができる。例えば、カジノで使用されるカメラ１１０は、非常に低い待ち時間を有することが要求される可能性がある。そのような場合、注視点４１０が移動されるたびに完全な更新レートを待たなければならないことによって、オペレータ４０２が影響を受けないように遅延を非常に遅くすることができる。カメラ１１０が十分迅速に反応しない場合、前述の注視点４１０の予測が使用され得る。

スキップブロック挿入点を有するビデオストリームを復号するために、プロセス６００は、スキップブロックを含むインターフレームを有する第１のコンポーネントビデオストリームと、第１のコンポーネントビデオストリームシーケンスよりも低いピクセル密度を有する第２のコンポーネントビデオストリームとを含む統合された符号化されたビデオストリームを受信することをさらに含んでもよく、第２のコンポーネントビデオストリームは、第１のコンポーネントビデオストリームに時間的および空間的に関連付けられている。プロセス６００は、第１のコンポーネントビデオストリームのインターフレーム内のスキップブロックを特定することと、スキップブロックではないブロック内の第１のコンポーネントビデオストリームのインターフレームを復号することと、をさらに含んでもよい。プロセス６００は、第２のコンポーネントビデオストリームのインターフレームを復号することと、復号された第２のコンポーネントビデオストリーム内のインターフレームをアップスケールして、復号された第１のコンポーネントビデオストリーム内のインターフレームのピクセル密度を一致させることと、復号された第１のコンポーネントビデオストリーム内のスキップブロック位置に対応するアップスケールされた復号された第２のコンポーネントビデオストリーム内のピクセルを特定することと、復号された第２のコンポーネントビデオストリーム内の特定されたピクセルを抽出することと、復号された第１の符号化されたビットストリーム内のスキップブロックの対応する位置に抽出されたピクセルを挿入することと、をさらに含んでもよい。

図７は、注視検出に基づいてビデオデータを符号化するための例示的なプロセス７００を示すフローチャートである。一実施形態では、プロセス７００は、コントローラ２４０、画像プロセッサ２３０、またはビデオエンコーダ２５０、またはそれらの任意の組み合わせ上で命令を実行することによって、カメラ１１０内で実行することができる。命令は、共通のメモリ２４５に格納される、および／またはコントローラ２４０、画像プロセッサ２３０、およびビデオエンコーダ２５０に専用の個々のメモリに少なくとも部分的に格納され得る。

プロセス７００は、少なくとも１つのセンサアレイ２２０によって取り込まれたビデオデータを受信すること（ブロック７１０）を含んでもよい。取り込まれたビデオデータは、カメラ１１０に関連付けられた監視エリア１０６に対応する。プロセス７００は、受信されたビデオデータを符号化するためのスキップブロック挿入点を指定するために、復号されたビデオストリームに関連付けられた位置を受信すること（ブロック７１５）をさらに含んでもよく、位置は、アイトラッカー１４０によって決定された注視点４１０に基づいている。プロセス７００は、受信した位置に基づいて、受信したビデオデータを符号化する前にスキップブロック挿入点を特定すること（ブロック７２０）をさらに含む。スキップブロック挿入点は、更新レートが低減されたインターフレーム内のブロックを指定することができる。プロセス７００は、特定されたスキップブロック挿入点に対して、低減された更新レートのための周波数を決定すること（ブロック７２５）を含んでもよい。周波数は、特定のブロックがＧＯＰ内のインターフレーム内で１秒間に何回更新されるかを表すことができる。プロセス７００は、決定された周波数に基づいて、特定されたスキップブロック挿入点に関連付けられたブロックを有するインターフレームを符号化すること（ブロック７３０）をさらに含んでもよい。

スキップブロック挿入点を有するビデオストリームを符号化するために、プロセス７００は、受信されたビデオデータから第１のビデオシーケンスを生成することと、第１のビデオシーケンスよりも低いピクセル密度を有する受信されたビデオデータから第２のビデオシーケンスを生成することと、を含んでもよい。第２のビデオシーケンスは、時間的および空間的に第１のビデオシーケンスと同様とすることができる。プロセス７００は、第１のビデオシーケンスに関連性のあるピクセルを示すことであって、特定されたスキップブロック挿入点は関連性がないものとして指定されることと、第１のビデオシーケンス内で関連性のある示されたピクセルを符号化して、第１の符号化されたビデオストリームを生成することと、をさらに含んでもよい。関連性がないと指定されたピクセルは、スキップブロックを使用して符号化することができる。プロセス７００は、第２のビデオシーケンスを符号化して、第２の符号化されたビデオストリームを生成することと、第１の符号化されたビデオストリームと第２の符号化されたビデオストリームとを統合することと、次いで統合された符号化されたビデオストリームを監視ステーション１２５へ送信することと、をさらに含んでもよい。

一実施形態では、第２のビデオシーケンスを生成することは、第１のビデオシーケンスを二次元でデジタルダウンサンプリングすることを含んでもよい。別の一実施形態では、関連性のあるピクセルを示すことは、第１のビデオシーケンスに対してマスクを生成することを含んでもよい。

以上、様々な実施形態について、添付図面を参照して説明してきた。しかしながら、特許請求の範囲に記載された本発明のより広い範囲から逸脱することなく、様々な修正および変更を行うことができ、追加の実施形態が実施可能であることは明らかであろう。したがって、本明細書および図面は、限定的ではなく例示的な意味で考慮されるべきである。

例えば、信号および／またはロジックのある順序が、図６および図７に関して説明されているが、ブロック、論理フロー、および／または信号フローの順序は、他の実装において変更することができる。さらに、非依存のブロックおよび／または信号フローを並行して実行することができる。

本出願は、本特許出願と同日に出願された以下の特許出願を参照として本明細書に援用する。２０１６年１２月３０日に出願された「注視ヒートマップ（Gaze Heat Map）」と題された米国特許出願第１５／３９５，８９３号（代理人整理番号Ｐ１６００８５（００９０－００１８）、２０１６年１２月３０日に出願された「注視制御されたビットレート（Gaze Controlled Bitrate）」と題された米国特許出願第１５／３９５，８５６号（代理人整理番号Ｐ１６００６９（００９０－００２２）、２０１６年１２月３０日に出願された「ビデオ管理システムにおける注視に基づく警報マスキング（Alarm Masking Based on Gaze in Video Management System）」と題された米国特許出願第１５／３９５，４０３号（代理人整理番号Ｐ１６０１９１（００９０－００２３））。

上述したようなシステムおよび／またはプロセスは、図に示されている実装において、ソフトウェア、ファームウェア、およびハードウェアの多くの異なる形態で実施することができることは明らかであろう。これらのシステムおよびプロセスを実施するために使用される実際のソフトウェアコードまたは特殊化された制御ハードウェアは、本実施形態を限定するものではない。したがって、システムおよびプロセスの動作および挙動は、特定のソフトウェアコードを参照することなく説明された。すなわち、ソフトウェアおよび制御ハードウェアは、本明細書の記載に基づいてシステムおよびプロセスを実施するように設計可能であることが理解される。

さらに、上述の特定の部分は、１以上の機能を実行するコンポーネントとして実装されてもよい。本明細書で使用されるコンポーネントは、ハードウェア（例えば、プロセッサ、ＡＳＩＣ、またはＦＰＧＡ）またはハードウェアとソフトウェアの組み合わせ（例えば、ソフトウェアを実行するプロセッサ）を含んでもよい。本明細書で使用される「例示的」という用語は、「例示のための一例として」を意味する。

本明細書中で使用される場合、用語「含む（comprises）」および「含む（comprising）」は、記載された構成、整数、工程、またはコンポーネントの存在を特定するが、１以上の他の構成、整数、工程、コンポーネント、またはそれらの群の存在または追加を除外しない。「例示的」という語は、複数の例のうちの「一例、事例、または図解としての役割を果たすこと」を意味するために使用される。本明細書で「例示的」と記載されている実施形態は、他の実施形態よりも好ましいまたは有利であることを必ずしも意味しない。

本出願で使用されている要素、動作、または命令は、本実施形態にとって重大であるまたは必須であるとは、そのように明示的に記載されていない限り、解釈されるべきではない。また、本明細書で使用する場合、冠詞「ａ」は、１以上の項目を含むことを意図している。さらに、「に基づいて」というフレーズは、特に断りのない限り、「少なくとも部分的に基づいて」を意味することを意図している。

１１０カメラ
１３０ディスプレイ
２４０コントローラ
２５０ビデオエンコーダ
３２０プロセッサ
３３０メモリ
３６０通信インターフェース
４０２オペレータ

Claims

注視検出に基づいてビデオデータを復号する方法であって、
カメラに関連付けられたエンコーダから受信された符号化されたビデオストリームであって、監視エリアと移動する物体とを表す前記カメラにより取り込まれたビデオデータを含むビデオストリームを、復号することと、
前記復号されたビデオストリームを装置のディスプレイ上に提示することと、
前記ディスプレイを見ているオペレータの注視点を検出し、前記注視点の移動を追跡することと、
前記注視点の前記移動と前記ビデオデータ内の前記移動する物体の移動との間に相関があると決定されたときに、前記ビデオデータ内の前記移動する物体を、関心のある物体として指定することと、
前記注視点に基づいて、前記ビデオデータのフレーム内の位置をスキップブロック挿入点として指定することであって、前記関心のある物体に関連付けられた前記フレーム内の位置に対してスキップブロック挿入点の前記指定を防止することを含む、指定することと、
前記エンコーダに前記スキップブロック挿入点を送信することと、を含み、
前記エンコーダは、前記カメラによって生成されたビデオデータを符号化する際に、前記スキップブロック挿入点に対応するインターフレーム符号化ブロックの更新レートを低減させる、方法。
前記装置の前記ディスプレイ上の前記オペレータの主焦点を有するウィンドウ内に、前記復号されたビデオストリームを提示することと、
前記オペレータの前記注視点が、前記オペレータの前記主焦点を有する前記ウィンドウの境界内にあることを判定することと、
前記オペレータの前記主焦点を有する前記ウィンドウ内に中心窩視野エリアを決定することと、
前記中心窩視野エリアの外側の前記復号されたビデオストリームに関連付けられた位置をスキップブロック挿入点として指定することと、をさらに含む請求項１に記載の方法。
少なくとも１つの追加の符号化されたビデオストリームを復号することと、
前記復号されたビデオストリームおよび前記少なくとも１つの追加の復号されたビデオストリームを、前記装置の前記ディスプレイ上または前記装置の別のディスプレイ上の複数のウィンドウからの別々のウィンドウにそれぞれ提示することと、
前記注視点に基づいて、前記オペレータの主焦点を有する前記複数のウィンドウからの１つのウィンドウを決定することと、
前記オペレータの前記主焦点を有さない少なくとも１つのウィンドウに関連付けられたビデオデータのフレーム内の位置を、スキップブロック挿入点として指定することと、
をさらに含む請求項１に記載の方法。
前記注視点に基づいて、前記オペレータの前記主焦点を有する前記ウィンドウ内に中心窩視野エリアを決定することと、
前記中心窩視野エリアの外側の、前記オペレータの前記主焦点を有する前記ウィンドウに関連付けられた前記ビデオデータの前記フレーム内の位置を、スキップブロック挿入点として指定することと、をさらに含む請求項３に記載の方法。
前記オペレータの前記主焦点を有さない前記少なくとも１つのウィンドウに関連付けられた二次的な復号されたビデオストリームに対するＧＯＰ（group of pictures）の長さを決定することと、
前記オペレータの前記主焦点を有さない前記少なくとも１つのウィンドウに関連付けられたビデオを符号化するために、前記二次的な復号されたビデオストリームに関連付けられたエンコーダに前記決定されたＧＯＰの長さを送信することと、をさらに含み、
前記決定されたＧＯＰの長さは、前記オペレータの前記主焦点を有する前記ウィンドウに関連付けられた前記復号されたビデオストリームに対するＧＯＰの長さよりも大きい、請求項３に記載の方法。
前記注視点から前記オペレータの前記主焦点を有さない前記少なくとも１つのウィンドウまでの距離を決定することと、
前記注視点と前記オペレータの前記主焦点を有さない前記少なくとも１つのウィンドウとの間の前記距離が増加するにつれて、前記決定されたＧＯＰの長さを増加させることと、をさらに含む請求項５に記載の方法。
前記注視点の移動を追跡することは、前記注視点が前記オペレータの前記主焦点を有する前記ウィンドウ内を移動するにつれて、ある時間間隔の間または所定の閾値を超える距離に対して前記注視点を追跡することを含み、
前記方法は、前記ビデオデータ内の前記物体を検出することをさらに含む、請求項２に記載の方法。
前記指定された関心のある物体を表す識別子を生成することと、
前記復号されたビデオストリームのメタデータを含むデータベースに前記識別子を保存することと、をさらに含む請求項７に記載の方法。
ある時間間隔にわたって前記注視点の位置を追跡することと、
前記注視点の前記追跡された位置に基づいて前記注視点の次の位置を予測することと、
をさらに含む請求項１に記載の方法。
注視検出に基づいてビデオデータを符号化する方法であって、
少なくとも１つのセンサアレイによって取り込まれたビデオデータであって、移動する物体を含む監視エリアを表すビデオデータを、受信することと、
前記ビデオデータのビデオストリームを表示装置のディスプレイ上に提示することと、
前記ディスプレイを見ているオペレータの注視点を検出し、前記注視点の移動を追跡することと、
前記注視点の前記移動と前記ビデオデータ内の前記移動する物体の移動との間に相関があると決定されたときに、前記ビデオデータ内の前記移動する物体を、関心のある物体として指定することと、
受信された前記ビデオデータのフレーム内において、前記関心のある物体に関連付けられた位置を避けて、前記ビデオデータを符号化するためのスキップブロック挿入点を特定することであって、前記スキップブロック挿入点は、更新レートが低減されたインターフレーム内のブロックを指定するものである、特定することと、
前記特定されたスキップブロック挿入点に対して、前記低減された更新レートのための周波数を決定することと、
前記決定された周波数に基づいて、前記特定されたスキップブロック挿入点に関連付けられたブロックを有するインターフレームを符号化することと、
を含む方法。
前記受信されたビデオデータから第１のビデオシーケンスを生成することと、
前記第１のビデオシーケンスよりも低いピクセル密度を有する第２のビデオシーケンスを前記受信されたビデオデータから生成することであって、前記第２のビデオシーケンスは、前記第１のビデオシーケンスと時間的にも空間的にも類似していることと、
前記第１のビデオシーケンス内の関連性のあるピクセルを示すことであって、前記特定されたスキップブロック挿入点は、関連性がないものとして指定されることと、
第１の符号化されたビデオストリームを生成するために、前記第１のビデオシーケンス内の前記関連性を示されたピクセルを符号化することであって、関連性がないものとして指定されたピクセルはスキップブロックを用いて符号化されることと、
第２の符号化されたビデオストリームを生成するために前記第２のビデオシーケンスを符号化することと、
前記第１の符号化されたビデオストリームと前記第２の符号化されたビデオストリームとを結合することと、
前記結合された符号化されたビデオストリームを前記表示装置へ送信することと、をさらに含む請求項１０に記載の方法。
前記第２のビデオシーケンスを生成することは、
前記第１のビデオシーケンスを二次元でデジタルダウンサンプリングすることをさらに含む請求項１１に記載の方法。
前記関連性のあるピクセルを示すことは、
前記第１のビデオシーケンスに対してマスクを生成することをさらに含む請求項１１に記載の方法。
注視検出に基づいてビデオデータを復号するように構成された装置であって、
ディスプレイと、
ネットワークを介してデータを交換するように構成された通信インターフェースと、
前記ディスプレイおよび前記通信インターフェースに結合されたプロセッサと、
前記プロセッサに結合され、請求項１～９のいずれか１項に記載の方法を、前記プロセッサに実行させる命令を格納するメモリと、を備える装置。
注視検出に基づいてビデオデータを符号化するように構成されたカメラであって、
センサアレイと、
ネットワークを介してデータを交換するように構成された通信インターフェースと、
前記センサアレイおよび前記通信インターフェースに結合された、コントローラ、画像プロセッサ、およびビデオエンコーダと、
前記コントローラ、前記画像プロセッサ、および前記ビデオエンコーダに結合され、請求項１０～１３のいずれか１項に記載の方法を、前記コントローラ、前記画像プロセッサ、または前記ビデオエンコーダのうちの少なくとも１つに実行させる命令を格納するメモリと、を備えたカメラ。