JP7508465B2 - ビデオ監視及びオブジェクト認識 - Google Patents

ビデオ監視及びオブジェクト認識 Download PDF

Info

Publication number
JP7508465B2
JP7508465B2 JP2021542281A JP2021542281A JP7508465B2 JP 7508465 B2 JP7508465 B2 JP 7508465B2 JP 2021542281 A JP2021542281 A JP 2021542281A JP 2021542281 A JP2021542281 A JP 2021542281A JP 7508465 B2 JP7508465 B2 JP 7508465B2
Authority
JP
Japan
Prior art keywords
video
data
camera device
image
object recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021542281A
Other languages
English (en)
Other versions
JP2022508551A (ja
Inventor
ジョン メッサ―、キーロン
バーソロミュー ランバート、ロバート
Original Assignee
デジタル バリアーズ サービシーズ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB1816018.4A external-priority patent/GB2577689B/en
Application filed by デジタル バリアーズ サービシーズ リミテッド filed Critical デジタル バリアーズ サービシーズ リミテッド
Publication of JP2022508551A publication Critical patent/JP2022508551A/ja
Application granted granted Critical
Publication of JP7508465B2 publication Critical patent/JP7508465B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、ビデオ監視システム及び、ビデオ監視システムによってモニタされているシーン中のオブジェクトの認識を容易にする、そのようなシステムにおいて使用するための装置に関する。
様々な状況において、シーンのビデオ監視を提供し、並びに、オブジェクト認識を容易にする要望がある。オブジェクト認識の実例は、顔認識及び車両登録番号認識を含む。
視覚監視を提供したいという要望とオブジェクト認識の潜在能力の両方を満たすことを試みるとき、様々な限定が適用され得る。これらは、特に、視覚監視及び/又はオブジェクト認識を提供するためのモバイル・ユニットを提供することが望まれるとき、深刻であり得る。たとえば、様々な役割における執行官(Enforcement Officer)が身体装着カメラを装着し得、そのような身体装着カメラを利用する間、ビデオ監視と、オブジェクト認識、たとえば顔認識の可能性とを提供することが望ましい。
そのようなデバイスの場合、デバイスのために利用可能である通信、並びに、デバイス自体の能力の両方に関して、制限があり得る。
一般に、Wi-Fi、Bluetooth、又は4Gネットワークなどのモバイル・ネットワークなど、比較的低い帯域幅の、又は変動する品質のチャネルのみが、そのようなデバイスとの通信のために利用可能である。さらに、モバイル・デバイス、たとえば、身体装着カメラ・ユニットの処理能力及び電力は、限定され得る。
したがって、一般に、身体装着カメラがシーンのビデオを記録するために有用であり得るが、特に「リアルタイム」で顔認識機能性(functionality)を提供するために身体装着カメラを利用することは、困難である。
さらに、ライブ・ビデオ監視が身体装着カメラなどのモバイル・カメラから使用されることを可能にするために通信が整備される場合、何らかのオブジェクト認識、たとえば顔認識、アクティビティが行われる間にこれが維持され得ることは、大いに望ましい。
問題としておそらく最も重要なのは、ビデオ監視と、比較的不良な通信チャネルを用いて比較的低い電力のデバイスによってキャプチャされる視覚データに基づく顔認識の提供とをどのように可能にするか、及び、顔がそのデバイスのユーザにいつ認識されるかに関するリアルタイム指示をどのように与えるかである。したがって、たとえば、身体装着カメラの使用が、ビデオ監視、顔認識、及びそのデバイスのオペレータへのリアルタイム・フィードバックを提供することをどのように可能にするか。
モバイル・デバイスにおいて大きいウォッチ・リストにわたって顔認識を実施しようとすることは、実用的である可能性が低いが、同時に、キャプチャされ、リアルタイムで処理するために中央システムに送信され得るビデオの品質は、中央ロケーションにおける正確な顔認識を可能にするのに十分である可能性が低い。同様の考慮事項は、オブジェクト認識の異なる形式にも適用される。
本発明の目的は、これらのタイプの問題点に対処することを試みることである。
本発明の一態様によれば、シーンのビデオをキャプチャし、そのシーン内のオブジェクトの認識を可能にするためのオブジェクト認識対応ビデオ監視システムが提供され、本システムは、
中央サーバに通信チャネルを介して接続された少なくとも1つのカメラ装置
を備え、
カメラ装置は、シーンの視覚表現データをキャプチャするために構成され、視覚表現データは、シーンのビデオを備え、カメラ装置は、前記ビデオをキャプチャするためのカメラと、中央サーバに通信チャネルを介して対応するビデオ・データを送るためのビデオ・エンコーダとを備え、
カメラ装置は、前記視覚表現データに基づいてオブジェクト認識データを生成するためにさらに構成され、
ビデオ・エンコーダは、通信チャネルを介してビデオ・データとともに前記オブジェクト認識データを送るように構成される。
これは、比較的低い帯域幅の通信チャネルの使用が、遠隔ロケーションにシーンのライブ・ビデオを提供することと、遠隔ロケーションにおいて受信されたライブ・ビデオに基づく認識が実現可能でないことがあるにもかかわらず、遠隔ロケーションにおいて決定され、及び/又は示されるべきそのシーン中のオブジェクトの認識を可能にすることの両方を可能にすることができる。すなわち、通信チャネルを介して送られたビデオ・データは、その受信されたデータに基づく有効オブジェクト認識を可能にするには不十分である解像度又は別の品質ファクタを有する、遠隔ロケーションにおけるビデオの再生成のみを可能にし得る。ビデオ・データ通信チャネルをオブジェクト認識データと共有することによって、この問題点は克服され得る。
通信チャネルは、少なくとも1つのワイヤレス通信チャネル・レッグを備え得る。ワイヤレス通信チャネル・レッグは、たとえば、5G、4G、3Gネットワークなどのモバイル通信ネットワーク、或いは、wifiネットワーク、又はたとえばBluetoothなどのより短距離のリンクのうちの少なくとも1つによって提供され得る。
本監視システムは、第1のオブジェクト検出プロセスと第2のオブジェクト分類プロセスとを備える2段階オブジェクト認識プロセスを行うように構成され得る。
カメラ装置は、ビデオ・データとは別個である視覚表現データの一部に基づいてオブジェクト認識データを生成するために構成され得る。
視覚表現データは、前記ビデオ・データと補助視覚表現データとを備え得る。カメラ装置は、補助視覚表現データに基づいてオブジェクト認識データを生成するために構成され得る。補助視覚表現データは画像データを備え得る。補助視覚表現データは、前記ビデオ・データよりも高い解像度又は他の品質ファクタをもつ補助ビデオ・データを備え得る。したがって、たとえば第1の品質をもつビデオ・データは、キャプチャされ、「前記ビデオ・データ」としてサーバにストリーミングされ得、第2のより高い品質をもつビデオ・データは、オブジェクト認識データを生成する際に使用され得る。「前記ビデオ・データ」は、「1次ビデオ・データ」又は「監視ビデオ・データ」と呼ばれるか、或いは、適切な場合、「リアルタイム・ビデオ・データ」又は「ライブ・ビデオ・データ」又は「低品質ビデオ・データ」と呼ばれることもある。オブジェクト認識データはビデオ・クリップ・データ・セットを備え得、及び/又は、オブジェクト認識データはビデオ・クリップ・データ・セットから生成され得る。すなわち、一般に第2のより高い品質の、ビデオの短いセグメント、すなわちクリップが使用され得る。
視覚表現データは画像データを備え得る。前記カメラは、画像並びにビデオをキャプチャするために構成され得る。一代替形態では、画像をキャプチャするために別個のカメラが提供され得る。画像データは、キャプチャされたビデオ・データからとられる少なくとも1つのフレームを備えるか、又はそのフレームから生成され得る。
カメラ装置は、前記シーンの画像をキャプチャし、前記キャプチャされた画像に基づいてオブジェクト認識データを生成するためにさらに構成され得る。オブジェクト認識データは、キャプチャされた画像データを備え得る。
カメラ装置は、前記視覚表現データ、たとえば前記キャプチャされた画像又はビデオ・クリップ中の関心オブジェクト(object of interest)の存在を検出するためのオブジェクト検出モジュールを備え得る。
いずれか1つの画像又はクリップが2つ以上の関心オブジェクトを含み得、これらの各々は、本明細書で説明されるカメラ装置/システムによってハンドリングされ得る。
カメラ装置は、キャプチャされた画像データをオブジェクト認識データとして送るように構成され得、キャプチャされた画像データは、関心オブジェクトがオブジェクト検出モジュールによって検出された、キャプチャされた画像に対応する。
カメラ装置は、キャプチャされたビデオ・クリップ・データをオブジェクト認識データとして送るように構成され得、キャプチャされたビデオ・クリップ・データは、関心オブジェクトがオブジェクト検出モジュールによって検出された、キャプチャされたビデオ・クリップに対応する。
このようにして、カメラ装置は、関心オブジェクトがシーン中に存在するか又は存在し得るという初期決定を行い、次いで、遠隔ロケーション、たとえば、さらなる処理が行われ得るサーバに、対応する画像又はクリップを送ることができる。
カメラ装置は、シーンのキャプチャされたビデオからスチール/フレームとして画像をキャプチャするように構成され得る。カメラ装置は、キャプチャされたビデオとは無関係に、プライム画像として画像をキャプチャするように構成され得る。
カメラ装置は、キャプチャされた画像及び/又はビデオ・クリップ中のオブジェクトを分類するためのオブジェクト認識モジュールを備え得る。好ましくは、オブジェクト認識モジュールは、関心オブジェクトがオブジェクト検出モジュールによって最初に検出された、キャプチャされた画像/キャプチャされたビデオ・クリップに対応するキャプチャされた画像データ/ビデオ・クリップ・データを処理して、それにより関心オブジェクトを分類するように構成される。
したがって、いくつかの場合には、完全なオブジェクト認識が、少なくともいくつかのオブジェクトについてカメラ装置において行われ得る。これが当てはまるときでも、望まれる場合、そのようなオブジェクトに関する異議認識が、遠隔ロケーションにおいても行われ得る。一実例として、特定の画像/ビデオ・クリップ及び/又は特定のオブジェクトに関するさらなる処理が遠隔ロケーションにおいて行われ得、これは、たとえば、より高い程度の、識別の確実性、及び/又はより高い程度の、識別されたものの分類/特定性を生じるように働き得る。まさに特定の簡略化された実例として、カメラ装置において、識別されるべきアイテムは赤い車であり得るが、遠隔ロケーションにおいて、識別されるべきアイテムは、特定の種類又はモデルの赤い車であり得る。
カメラ装置におけるオブジェクト認識モジュールは、カメラ装置において保持されるオブジェクトの第1のウォッチ・リストに対してオブジェクト認識を実施するように構成され得、オブジェクト認識モジュールは、関心オブジェクトが第1のウォッチ・リスト上のオブジェクトとマッチするとわかったとき、オブジェクト認識済みアラートを生成するように構成され得る。
オブジェクト認識がカメラ装置において実施される場合、オブジェクト認識データは、関心オブジェクトが第1のウォッチ・リスト上のオブジェクトとマッチするとわかったときのオブジェクト認識済みアラートを備え得る。
いくつかの実施例では、
i)カメラ装置におけるオブジェクト認識モジュールは、カメラ装置において保持されるオブジェクトの第1のウォッチ・リストに対してオブジェクト認識を実施するように構成され、オブジェクト認識モジュールは、関心オブジェクトが第1のウォッチ・リスト上のオブジェクトとマッチするとわかったとき、オブジェクト認識済みアラートを生成するように構成され、カメラ装置は、前記オブジェクト認識済みアラートをオブジェクト認識データとして送るように構成され、
ii)カメラ装置は、キャプチャされた画像データ/キャプチャされたビデオ・クリップ・データをオブジェクト認識データとして送るように構成され、キャプチャされた画像データ/キャプチャされたビデオ・クリップ・データは、関心オブジェクトがオブジェクト検出モジュールによって検出されたが、関心オブジェクトが第1のウォッチ・リスト上のオブジェクトとマッチしないとわかった、キャプチャされた画像/ビデオ・クリップに対応する。
他の実施例では、
i)カメラ装置におけるオブジェクト認識モジュールは、カメラ装置において保持されるオブジェクトの第1のウォッチ・リストに対してオブジェクト認識を実施するように構成され、オブジェクト認識モジュールは、関心オブジェクトが第1のウォッチ・リスト上のオブジェクトとマッチするとわかったとき、オブジェクト認識済みアラートを生成するように構成され、カメラ装置は、前記オブジェクト認識済みアラートをオブジェクト認識データとして送るように構成され、
ii)カメラ装置は、キャプチャされた画像データ/キャプチャされたビデオ・クリップ・データをオブジェクト認識データとして送るように構成され、キャプチャされた画像データ/キャプチャされたビデオ・クリップ・データは、関心オブジェクトがオブジェクト検出モジュールによって検出され、関心オブジェクトが第1のウォッチ・リスト上のオブジェクトとマッチするとわかったときと、関心オブジェクトが第1のウォッチ・リスト上のオブジェクトとマッチしないとわかったときの両方のものである、キャプチャされた画像/ビデオ・クリップに対応する。
サーバは、カメラ装置から供給されるキャプチャされた画像データ及び/又はビデオ・クリップ・データに基づいて、サーバにおいて保持されるオブジェクトのメイン・ウォッチ・リストに対してオブジェクト認識を実施するように構成され得る。
一部のカメラ装置の場合、すべてのオブジェクト認識はそれぞれのカメラ装置において実施され得る。
一部のカメラ装置の場合、一部のオブジェクト認識はカメラ装置において実施され、一部はサーバにおいて実施される。上述のように、いくつかの場合には、特定の画像/ビデオ・クリップ及び/又は特定のオブジェクトに関するオブジェクト認識は、カメラ装置及びサーバにおいて行われ得る。
一部のカメラ装置の場合、すべてのオブジェクト認識はサーバにおいて実施される。
いくつかの場合には、メイン・ウォッチ・リストは唯一のウォッチ・リストであり得る。他の場合には、メイン・ウォッチ・リストは、第1のウォッチ・リストに対して補足的であるか、又はそれを含む。いくつかの場合には、第1のウォッチ・リストとメイン・ウォッチ・リストとの間に重複があり、これは、部分的な重複又は完全な重複であり得、すなわち、第1のウォッチ・リストはメイン・ウォッチ・リストのサブセットであり得る。いくつかの場合には、メイン・ウォッチ・リスト上のオブジェクトは、第1のウォッチ・リストよりも大きい程度の分類まで定義され得る。したがって、カバーされるオブジェクトに関してウォッチ・リスト中で部分的な又は完全な重複があり得るが、それらのオブジェクトのうちの少なくともいくつかについての分類の程度は、ウォッチリスト間で異なり得る。
本システムは、
メイン・ウォッチ・リストのコンテンツと、
以下のファクタ、
i)システムによって検出されるカメラ装置の少なくとも1つの能力、
ii)メイン・ウォッチ・リスト上のオブジェクトに与えられる優先度値、
iii)メイン・ウォッチ・リスト上のオブジェクトに関して保持される登録画像の品質
のうちの少なくとも1つと
に応じてカメラ装置への提供のための第1のウォッチ・リストのコンテンツを決定するために構成され得る。
このようにして、カメラ装置上に提供され、保持されるべき第1のウォッチ・リストのコンテンツは、自動的に、及び望まれる場合は動的に、決定され得る。
本システムは、カメラ装置への第1のウォッチ・リストの送出のために構成され得る。これは、前記通信チャネル上でのものであり得る。
よく知られているように、多くのオブジェクト認識システムは、関心オブジェクトの登録画像を利用し、関心オブジェクトの登録画像は、キャプチャされた画像、「プローブ画像(probe image)」の、関心オブジェクトへの可能性があるマッチに関する認識処理において使用され得る。
上記で言及されたのは、このタイプの登録画像である。
登録及び/又はプローブ画像として使用される画像についての業界標準「ISOスコア」指示品質がある。ISOスコアは、上記のステップにおいて登録画像の品質の測度として使用され得る。より高品質の登録画像をもつオブジェクトは、第1のウォッチ・リスト上に含めることについて、より低品質の登録画像をもつオブジェクトに勝る優先度を付けられ得る。これは、カメラ装置において限られたリソースがある場合、これらが、認識処理において最も良好に使用され、それが、肯定的結果をもたらす可能性があることに基づく。
カメラ装置の前記少なくとも1つの能力は、利用可能な処理電力及び/又はバッテリー電力を備え得る。
本ビデオ監視システムは、ウォッチ・リスト中のオブジェクトに関する登録画像を備えるウォッチ・リスト・データベースを備え得、ビデオ監視システムは、キャプチャされた画像又はビデオ・クリップをプローブ画像として扱い、登録画像及びプローブ画像を処理することによってオブジェクト認識を実施するために構成され得る。
本ビデオ監視システムは、各登録画像及び/又は各プローブ画像の品質を決定し、前記決定された品質を、オブジェクト認識を実施する際に使用するためにさらに構成され得る。
決定された品質は、画像についてのISOスコアであり得る。
本ビデオ監視システムは、登録画像及び/又はプローブ画像の決定された品質に応じて、プローブ画像が登録画像にマッチすることをオブジェクト認識プロセスがいつ示す(すなわち、オブジェクトが識別されたことを示す)かを制御するように構成され得る。
これは、誤アラートを最小限に抑えるのを助けるために、画像品質が低い場合にマッチの生成を回避するために使用され得る。本システムは、一方又は両方の画像の画像品質、すなわち、登録画像及び/又はプローブ画像の品質に基づいて有効なマッチであると見なされる認識プロセスの結果のしきい値を調整するように構成され得る。
その又は各しきい値は、異なるウォッチリストについて異なり得る。その又は各しきい値は、グラフィカル・インターフェースを使用してオペレータによって自動的にセットされるか、又は調整可能であり得る。
本ビデオ監視システムは、オブジェクト認識プロセスが、プローブ画像が登録画像にマッチすることを示す(すなわち、オブジェクトが識別されたことを示す)場合、監視システムのさらなる動作が登録画像及び/又はプローブ画像の決定された品質に依存するように、構成され得る。
これは、誤アラートを最小限に抑えるのを助けるために使用され得、たとえば、一方又は両方の画像の画像品質がそれぞれのしきい値を下回る場合にマッチを無視又は格下げするか、或いはマッチのさらなる検証を求める。そのような検証は、人間の介入を伴うか、或いは、システムによって、たとえば他の利用可能なデータ及び/又は他の利用可能な画像を利用することによって、行われ得る。
同様に、これは、マッチが見つけられ、一方又は両方の画像の画像品質がそれぞれのしきい値を上回る場合にアラートに優先度を付けるか又はそのアラートをフィルタ処理するために使用され得る。
本監視システムは、第1の画像を使用してマッチが見つけられたことに応答してさらなる画像/ビデオ・クリップを捕捉するようにとのプロンプトを発行するように構成され得る。
特定の実例では、本監視システムは、少なくとも1つの第1の、たとえば固定又は車両搭載、カメラ装置と、少なくとも1つのモバイル、たとえば身体装着、カメラ装置とを備え得、本システムは、オブジェクトの第2の画像/ビデオ・クリップを捕捉しようとするようにとのプロンプトをモバイル・カメラ装置のオペレータに発行するように構成され得、そのオブジェクトに関して、画像/ビデオ・クリップが第1のカメラによってすでにキャプチャされており、それにより、ウォッチ・リストに対してマッチを生じた。
本システムは、初期画像/ビデオ・クリップの決定された品質がしきい値を下回り、及び/又は、初期マッチに関連する確実性スコアがしきい値を下回る場合、そのようなプロンプトを発行するように構成され得る。本システムは、ウォッチ・リスト中のオブジェクトに関連する優先度が所定のレベルにマッチするか又はそれを超える場合、そのようなプロンプトを発行するように構成され得る。
第2の画像/ビデオ・クリップが捕捉されたとき、これは、認識プロセスのためのプローブ画像として使用され得る。これは、登録画像及び/又は第1の画像/ビデオ・クリップに対して実施され得る。これは、モバイル・カメラ装置において、又は中央において、或いは何らかの組合せで、起こり得る。
このプロセスの結果は、システムによって遠隔ユーザ又はモバイル・デバイスのオペレータに出力され得る。
出力は、登録画像の出力及び/又は第1のプローブ画像の出力及び/又は第2のプローブ画像の出力を含み得る。
本システム、及び少なくともいくつかの場合には、特にカメラ装置は、画像及び/又はビデオ・クリップのキャプチャをトリガするためのトリガ手段を備え得る。
トリガ手段は、手動で動作されるトリガ制御を備え得る。これは、画像及び/又はビデオ・クリップをキャプチャするためにユーザによって動作され得る。手動で動作されるトリガ制御は、カメラ装置上に配設され得るボタンを備え得る。
トリガ手段は、所定の条件に基づいて画像/ビデオ・クリップのキャプチャをトリガするためのトリガリング・モジュールを備え得る。カメラ装置は、トリガリング・モジュールを備え得る。
いくつかの実施例では、オブジェクト検出モジュールは、候補のキャプチャされた画像及び/又は候補のキャプチャされたビデオ・クリップ上でオブジェクト検出を行うために構成され得、トリガリング・モジュールは、オブジェクト検出モジュールがそれぞれの候補のキャプチャされた画像及び/又はビデオ・クリップ中で関心オブジェクトを検出したとき、画像及び/又はビデオ・クリップのキャプチャをトリガするように構成され得る。したがって、トリガ手段は、その又はあるオブジェクト検出モジュールを備え得る。
したがって、いくつかの場合には、オブジェクト検出モジュールは、画像及び/又はビデオ・クリップを候補のキャプチャされた画像及び/又はビデオ・クリップとして連続的にモニタしていることがあり、関心オブジェクトが検出されたとき、画像及び/又はビデオ・クリップがキャプチャされ得る。
これは、候補のキャプチャされた画像及び/又はビデオ・クリップ中の関心オブジェクトの検出に基づく画像及び/又はビデオ・クリップの別個のキャプチャを伴い得、別個のキャプチャされた画像及び/又はビデオ・クリップは、その場合、候補のキャプチャされた画像及び/又はビデオ・クリップよりも高い解像度又は他のより高い品質ファクタを有し得る。
別の代替形態では、候補のキャプチャされた画像及び/又はビデオ・クリップは、関心オブジェクトが検出された後に、キャプチャされた画像及び/又はビデオ・クリップとして扱われ得る。そのような場合、キャプチャされた画像及び/又はビデオ・クリップは、同じ特性を有し得、すなわち、対応する候補のキャプチャされた画像及び/又はビデオ・クリップと同じ画像及び/又はビデオ・クリップであり得る。
候補の画像及び/又はビデオ・クリップは、関心オブジェクトがそれぞれの画像及び/又はビデオ・クリップ中で検出されないとき、廃棄され得る。
各場合において、候補のキャプチャされた画像及び/又はビデオ・クリップは、一時的記憶域に記憶され、関心オブジェクトが検出された後に、より永続的な記憶域に移動し、並びに/或いは、キャプチャされた画像及び/又はビデオ・クリップとしてフラグを付けられ得る。
トリガ手段は、前記シーンの領域中の物理パラメータを検知するための検知手段を備え得る。トリガリング・モジュールは、検知された物理パラメータが所定の条件を満たすときに画像及び/又はビデオ・クリップのキャプチャをトリガするために構成され得る。
トリガ手段は、所定のオブジェクト、又は所定のタイプのオブジェクトが所定のロケーションに対していつ移動するかを検知するための検知手段を備え得る。特定の一実施例では、トリガ手段は、武器が格納ロケーションからいつ取り出されるかを検知するように構成された検知構成を備え得る。一実例として、これは、執行官がホルスタから武器を取り出したときに適用され得、武器及び/又はホルスタは、武器がホルスタから引き出されたかどうかを検知するための検知構成の全部又は一部を装備し得る。
トリガ手段は、前記シーンの領域中の音を検出するためのオーディオ検出手段を備え得る。トリガリング・モジュールは、検出された音が所定の条件を満たすときに画像のキャプチャをトリガするために構成され得る。所定の条件は、たとえば、検出された音のボリューム、周波数又は他の特性を含み得る。所定の条件は、音声又はボイス認識の結果を含み得る。
トリガ手段は、カメラ装置から遠い構成要素を備え得る。いくつかの実施例では、トリガリング・モジュールはカメラ装置において提供され得、所定の条件は、遠隔ロケーションからの、たとえばサーバからの信号の受信を含み得る。
これは、たとえば、カメラ装置から遠いユーザが、画像及び/又はビデオ・クリップのキャプチャをトリガすることを可能にし、並びに/或いは、遠隔ロケーションにおけるデータの処理が、画像及び/又はビデオ・クリップのキャプチャを引き起こすことを可能にすることができる。
最も一般には、カメラ装置は、キャプチャされたビデオをビデオ・エンコーダを介してライブ・ビデオとして出力するために使用され、それにより、このビデオは、遠隔ロケーションにおいてモニタ及び/又は記録され得る。したがって、オブジェクト認識データは、ライブ・ビデオとともに送られる。
カメラ装置は、ビデオを記録し、記録されたビデオを記憶手段に記憶するように構成され得る。カメラ装置は、記録されたビデオの後の再生を可能にするように構成され得、記録されたビデオを、それが再生されるとき、又はそれ以外のいずれかで、ビデオ・エンコーダを介して送ることを可能にするように構成され得る。
カメラ装置は、たとえばこれがカメラ装置における再生であるとき、このビデオからの画像及び/又はビデオ・クリップのキャプチャを可能にするように構成され得る。そのようなキャプチャされた画像及び/又はビデオ・クリップは、次いで、ライブ・ビデオがキャプチャされているときにキャプチャされる画像及び/又はビデオ・クリップと同じやり方で、上記で説明されたように扱われ/処理され得、そのようなキャプチャされた画像及び/又はビデオ・クリップに関係する対応するオブジェクト認識データは、これがビデオ・エンコーダを介して送られる場合、記録されたビデオとともに送られ得る。
サーバは、エンド・ユーザがカメラ装置から受信されたビデオを視聴することを可能にし、及び/又はエンド・ユーザがオブジェクト認識イベントを通知されることを可能にするためのデータのパッケージを、エンド・ユーザ・デバイスに送るように構成され得る。サーバは、認識されたオブジェクトに関係するメタ・データを、データの少なくともいくつかのそのようなパッケージに追加するように構成され得る。
メタ・データは、GPSデータ、画像/ビデオ分析データ、一意のIDデータ、たとえば検出された顔の、画像中の関心領域を示すロケーション・データ、タイム・スタンプ・データ、デバイス・データなどを含み得る。
ビデオ・エンコーダは、ビデオ、特にライブ・ビデオを送ることに、オブジェクト認識データに勝る優先度を付けるように構成され得る。
ビデオ・エンコーダは、ビデオ・データを圧縮するための圧縮器を備え得る。圧縮器は、調整可能な圧縮ファクタを使用してビデオ・データを圧縮するように構成され得る。
ビデオ・エンコーダは、圧縮器から圧縮されたビデオ・データを受信し、オブジェクト認識データを受信し、送信のために圧縮されたビデオ・データとオブジェクト認識データとをキューイングし、キューイングされたデータからデータ・パケットを構築し、チャネル上で構築されたデータ・パケットを送信するように設定されたパケット構築器を備え得る。
ビデオ・エンコーダは、送信されたデータ・パケットの挙動に基づいてチャネルの性能をモニタするように設定されたチャネル・モニタを備え得、圧縮器は、チャネル・モニタによって決定されたチャネルの性能に応答して調整可能な圧縮ファクタを修正するように設定され得る。
ビデオ圧縮器は、パケット構築器によって受信されたオブジェクト認識データの量に応答して圧縮ファクタを修正するように構成され得る。
ビデオ圧縮器は、チャネルの性能と、パケット構築器によって受信されたオブジェクト認識データの量とに応答して圧縮ファクタを修正するように構成され得る。
関心オブジェクトは、原則として、モニタ、検出及び認識することが望まれるものであり得る。特定の実例は、顔、すなわち人々、車両登録番号、武器を含む。オブジェクトを認識するために様々なツール及びアルゴリズムが利用可能である。これらの厳密な性質及び機能性は、本出願の範囲外であり、概念の機能にとって重要ではなく、すなわち、いくつかの市販の認識技術のいずれか1つ、たとえば顔認識技術は、本概念を具現するシステムの一部として使用され得る。同様の考慮事項は、オブジェクト検出、たとえば顔検出に適用される。
特に興味深い一実例では、関心オブジェクトは、顔、すなわち人間の顔であり得、したがって、システムは顔認識を可能にし得る。オブジェクト認識データは、顔認識データであり得る。
オブジェクト認識対応ビデオ監視システムは、シーンのビデオをキャプチャし、そのシーン内の顔の認識を可能にするための顔認識対応ビデオ監視システムであり得る。
対応して、本監視システムは、第1の顔検出プロセスと第2の顔認識プロセスとを備える2段階顔認識プロセスを行うように構成され得る。
さらに、カメラ装置は、前記キャプチャされた画像及び/又はビデオ・クリップ中の顔の存在を検出するための顔検出モジュールを備え得る。
オブジェクト認識データは、顔が検出された画像及び/又はビデオ・クリップについてのキャプチャされた画像及び/又はビデオ・クリップ・データを備え得る。
カメラ装置は、キャプチャされた画像及び/又はビデオ・クリップ・データをオブジェクト認識データとして送るように構成され得、キャプチャされた画像及び/又はビデオ・クリップ・データは、顔が顔検出モジュールによって検出された、キャプチャされた画像及び/又はビデオ・クリップに対応する。
このようにして、カメラ装置は、顔がシーン中に存在するか又は存在し得るという初期決定を行い、次いで、遠隔ロケーション、たとえば、さらなる処理が行われ得るサーバに、対応する画像又はビデオ・クリップを送ることができる。
カメラ装置は、キャプチャされた画像及び/又はビデオ・クリップ中の顔に対して顔認識を実行するための顔認識モジュールを備え得る。好ましくは、顔認識モジュールは、顔が顔検出モジュールによって最初に検出された、キャプチャされた画像及び/又はビデオ・クリップに対応するキャプチャされた画像及び/又はビデオ・クリップ・データを処理するように構成される。
カメラ装置における顔認識モジュールは、カメラ装置において保持される第1のウォッチ・リストに対して顔認識を実施するように構成され得、顔認識モジュールは、顔が第1のウォッチ・リストとマッチするとわかったとき、アラートを生成するように構成され得る。
オブジェクト認識データは、カメラ装置における顔認識の結果を表すデータを備え得る。
いくつかの場合には、完全な顔認識が、少なくともいくつかの顔についてカメラ装置において行われ得る。これが当てはまるときでも、望まれる場合、そのような顔に関する顔認識が、遠隔ロケーションにおいても行われ得る。一実例として、特定の画像/ビデオ・クリップ及び/又は特定の顔に関するさらなる処理が遠隔ロケーションにおいて行われ得、これは、たとえば、より高い程度の、識別の確実性を生じるように働き得る。
カメラ装置における顔認識モジュールは、カメラ装置において保持される第1のウォッチ・リストに対して顔認識を実施するように構成され得、顔認識モジュールは、顔が第1のウォッチ・リストとマッチするとわかったとき、アラートを生成するように構成され得る。
顔認識がカメラ装置において実施される場合、オブジェクト認識データは、顔が第1のウォッチ・リストとマッチするとわかったときの顔認識済みアラートを備え得る。
いくつかの実施例では、
i)カメラ装置における顔認識モジュールは、カメラ装置において保持される第1のウォッチ・リストに対して顔認識を実施するように構成され、顔認識モジュールは、顔が第1のウォッチ・リストとマッチするとわかったとき、顔認識済みアラートを生成するように構成され、カメラ装置は、前記顔認識済みアラートをオブジェクト認識データとして送るように構成され、
ii)カメラ装置は、キャプチャされた画像及び/又はビデオ・クリップ・データをオブジェクト認識データとして送るように構成され、キャプチャされた画像及び/又はビデオ・クリップ・データは、顔が顔検出モジュールによって検出されたが、顔が第1のウォッチ・リストとマッチしないとわかった、キャプチャされた画像及び/又はビデオ・クリップに対応する。
他の実施例では、
i)カメラ装置における顔認識モジュールは、カメラ装置において保持される第1のウォッチ・リストに対して顔認識を実施するように構成され、顔認識モジュールは、顔が第1のウォッチ・リストとマッチするとわかったとき、顔認識済みアラートを生成するように構成され、カメラ装置は、前記顔認識済みアラートをオブジェクト認識データとして送るように構成され、
ii)カメラ装置は、キャプチャされた画像及び/又はビデオ・クリップ・データをオブジェクト認識データとして送るように構成され、キャプチャされた画像及び/又はビデオ・クリップ・データは、顔が顔検出モジュールによって検出され、顔が第1のウォッチ・リストとマッチするとわかったときと、顔が第1のウォッチ・リストとマッチしないとわかったときの両方のものである、キャプチャされた画像及び/又はビデオ・クリップに対応する。
サーバは、カメラ装置から供給されるキャプチャされた画像及び/又はビデオ・クリップ・データに基づいて、サーバにおいて保持されるメイン・ウォッチ・リストに対して顔認識を実施するように構成され得る。
一部のカメラ装置の場合、すべての顔認識はそれぞれのカメラ装置において実施され得る。
一部のカメラ装置の場合、一部の顔認識はカメラ装置において実施され、一部はサーバにおいて実施される。
一部のカメラ装置の場合、すべての顔認識はサーバにおいて実施される。上述のように、いくつかの場合には、特定の画像/ビデオ・クリップ及び/又は特定の顔に関する顔認識は、カメラ装置及びサーバにおいて行われ得る。
いくつかの場合には、メイン・ウォッチ・リストは唯一のウォッチ・リストであり得る。他の場合には、メイン・ウォッチ・リストは、第1のウォッチ・リストに対して補足的であるか、又はそれを含む。いくつかの場合には、第1のウォッチ・リストとメイン・ウォッチ・リストとの間に重複があり、これは、部分的な重複又は完全な重複であり得、すなわち、第1のウォッチ・リストはメイン・ウォッチ・リストのサブセットであり得る。いくつかの場合には、メイン・ウォッチ・リスト上の顔は、第1のウォッチ・リストよりも大きい程度の分類まで定義され得る。したがって、カバーされる顔に関してウォッチ・リスト中で部分的な又は完全な重複があり得るが、それらの顔のうちの少なくともいくつかについての分類の程度は、ウォッチリスト間で異なり得る。
本システムは、
メイン・ウォッチ・リストのコンテンツと、
以下のファクタ、
i)システムによって検出されるカメラ装置の少なくとも1つの能力、
ii)メイン・ウォッチ・リスト上の顔に与えられる優先度値、
iii)メイン・ウォッチ・リスト上の顔に関して保持される登録画像の品質
のうちの少なくとも1つと
に応じてカメラ装置への提供のための第1のウォッチ・リストのコンテンツを決定するために構成され得る。
このようにして、カメラ装置上に提供され、保持されるべき第1のウォッチ・リストのコンテンツは、自動的に、及び望まれる場合は動的に、決定され得る。
本システムは、カメラ装置への第1のウォッチ・リストの送出のために構成され得る。これは、前記通信チャネル上でのものであり得る。
よく知られているように、多くの顔認識システムは、関心の人々の顔の登録画像を利用し、関心の人々の顔の登録画像は、キャプチャされた画像、「プローブ画像」の、関心の顔への可能性があるマッチに関する認識処理において使用され得る。
上記で言及されたのは、このタイプの登録画像である。
登録及び/又はプローブ画像として使用される画像についての業界標準「ISOスコア」指示品質がある。ISOスコアは、上記のステップにおいて登録画像の品質の測度として使用され得る。より高品質の登録画像をもつ顔は、第1のウォッチ・リスト上に含めることについて、より低品質の登録画像をもつ顔に勝る優先度を付けられ得る。これは、カメラ装置において限られたリソースがある場合、これらが、認識処理において最も良好に使用され、それが、肯定的結果をもたらす可能性があることに基づく。
カメラ装置の前記少なくとも1つの能力は、利用可能な処理電力及び/又はバッテリー電力を備え得る。
本ビデオ監視システムは、ウォッチ・リスト中の顔に関する登録画像を備えるウォッチ・リスト・データベースを備え得、ビデオ監視システムは、キャプチャされた画像又はビデオ・クリップをプローブ画像として扱い、登録画像及びプローブ画像を処理することによって顔認識を実施するために構成され得る。
本ビデオ監視システムは、各登録画像及び/又は各プローブ画像の品質を決定し、前記決定された品質を、顔認識を実施する際に使用するためにさらに構成され得る。
決定された品質は、画像についてのISOスコアであり得る。
本ビデオ監視システムは、登録画像及び/又はプローブ画像の決定された品質に応じて、プローブ画像が登録画像にマッチすることを顔認識プロセスがいつ示す(すなわち、顔が識別されたことを示す)かを制御するように構成され得る。
これは、誤アラートを最小限に抑えるのを助けるために、画像品質が低い場合にマッチの生成を回避するために使用され得る。本システムは、一方又は両方の画像の画像品質、すなわち、登録画像及び/又はプローブ画像の品質に基づいて有効なマッチであると見なされる認識プロセスの結果のしきい値を調整するように構成され得る。
その又は各しきい値は、異なるウォッチリストについて異なり得る。その又は各しきい値は、グラフィカル・インターフェースを使用してオペレータによって自動的にセットされるか、又は調整可能であり得る。
本ビデオ監視システムは、顔認識プロセスが、プローブ画像が登録画像にマッチすることを示す(すなわち、顔が識別されたことを示す)場合、監視システムのさらなる動作が登録画像及び/又はプローブ画像の決定された品質に依存するように、構成され得る。
これは、誤アラートを最小限に抑えるのを助けるために使用され得、たとえば、一方又は両方の画像の画像品質がそれぞれのしきい値を下回る場合にマッチを無視又は格下げするか、或いはマッチのさらなる検証を求める。そのような検証は、人間の介入を伴うか、或いは、システムによって、たとえば他の利用可能なデータ及び/又は他の利用可能な画像を利用することによって、行われ得る。
同様に、これは、マッチが見つけられ、一方又は両方の画像の画像品質がそれぞれのしきい値を上回る場合にアラートに優先度を付けるか又はそのアラートをフィルタ処理するために使用され得る。
本監視システムは、第1の画像を使用してマッチが見つけられたことに応答してさらなる画像/ビデオ・クリップを捕捉するようにとのプロンプトを発行するように構成され得る。
特定の実例では、本監視システムは、少なくとも1つの第1の、たとえば固定又は車両搭載、カメラ装置と、少なくとも1つのモバイル、たとえば身体装着、カメラ装置とを備え得、本システムは、顔の第2の画像/ビデオ・クリップを捕捉しようとするようにとのプロンプトをモバイル・カメラ装置のオペレータに発行するように構成され得、その顔に関して、画像/ビデオ・クリップが第1のカメラによってすでにキャプチャされており、それにより、ウォッチ・リストに対してマッチを生じた。
本システムは、初期画像/ビデオ・クリップの決定された品質がしきい値を下回り、及び/又は、初期マッチに関連する確実性スコアがしきい値を下回る場合、そのようなプロンプトを発行するように構成され得る。本システムは、ウォッチ・リスト中のオブジェクトに関連する優先度が所定のレベルにマッチするか又はそれを超える場合、そのようなプロンプトを発行するように構成され得る。
第2の画像/ビデオ・クリップが捕捉されたとき、これは、認識プロセスのためのプローブ画像として使用され得る。これは、登録画像及び/又は第1の画像/ビデオ・クリップに対して実施され得る。これは、モバイル・カメラ装置において、又は中央において、或いは何らかの組合せで、起こり得る。
このプロセスの結果は、システムによって遠隔ユーザ又はモバイル・デバイスのオペレータに出力され得る。
出力は、登録画像の出力及び/又は第1のプローブ画像の出力及び/又は第2のプローブ画像の出力を含み得る。
検出モジュール、認識モジュール、トリガリング手段のうちの1つ又は複数を実装する際に人工知能が使用され得る。
本システムは、シーンに関係するビデオ・データの収集、記憶、及び後の出力を可能にするように構成され得る。したがって、ライブ・ビデオ・データの提供と同様に、ビデオは、後で使用するためにキャプチャされ得る。これは、カメラ装置において記憶され、後で抽出され、及び/又はサーバなどの遠隔ロケーションにおいて記憶され得る。したがって、ユーザ(カメラ装置のオペレータ、及び/又は遠隔ユーザのいずれか)への出力は、シーンの記録されたビデオを含むことができる。
オブジェクト検出及び認識の一般的なコンテキストにおいて上記で説明されたすべての特徴は、顔検出及び認識に関連し、対応する特徴としてここで書き換えられ得ることが諒解されよう。これは、単に簡潔のために行われない。
本発明の別の態様によれば、シーンのビデオをキャプチャし、そのシーン内のオブジェクトの認識を可能にするためのオブジェクト認識対応ビデオ監視システムにおいて使用するためのカメラ装置が提供され、
本カメラ装置は、通信チャネルを介した中央サーバとの通信のために構成され、シーンの視覚表現データをキャプチャするために構成され、視覚表現データは、シーンのビデオを備え、本カメラ装置は、前記ビデオをキャプチャするためのカメラと、中央サーバに通信チャネルを介して対応するビデオ・データを送るためのビデオ・エンコーダとを備え、
本カメラ装置は、前記視覚表現データに基づいてオブジェクト認識データを生成するためにさらに構成され、
ビデオ・エンコーダは、通信チャネルを介してビデオ・データとともに前記オブジェクト認識データを送るように構成される。
一般に、本カメラ装置は、上記で定義された機能を実行するように、ソフトウェアの制御下で構成される。
本発明の別の態様によれば、シーンのビデオをキャプチャし、そのシーン内のオブジェクトの認識を可能にするためのオブジェクト認識対応ビデオ監視システムにおいて使用するための、ソフトウェアの制御下で構成された中央サーバが提供され、
本中央サーバは、通信チャネルを介した少なくとも1つのカメラ装置との通信のために構成され、
少なくとも1つのカメラから通信チャネルを介してビデオ・データを受信することと、
少なくとも1つのカメラから通信チャネルを介してビデオ・データとともにオブジェクト認識データを受信することと、
エンド・ユーザがカメラ装置から受信されたビデオを視聴することを可能にし、及び/又はエンド・ユーザがオブジェクト認識イベントを通知されることを可能にするためのデータのパッケージを、少なくとも1つのエンド・ユーザ・デバイスに出力することと
を行うためにソフトウェアの制御下で構成される。
本サーバは、認識されたオブジェクトに関係するメタ・データを、データの少なくともいくつかのそのようなパッケージに追加するように構成され得る。
本発明の別の態様によれば、シーンのビデオをキャプチャし、そのシーン内の顔の認識を可能にするための顔認識対応ビデオ監視システムが提供され、本システムは、
中央サーバに通信チャネルを介して接続された少なくとも1つのカメラ装置
を備え、
カメラ装置は、シーンのビデオをキャプチャするためのカメラと、中央サーバに通信チャネルを介して対応するビデオ・データを送るためのビデオ・エンコーダとを備え、
カメラ装置は、前記シーンの画像をキャプチャし、前記キャプチャされた画像に基づいて顔認識データを生成するためにさらに構成され、
ビデオ・エンコーダは、通信チャネルを介してビデオ・データとともに前記顔認識データを送るように構成される。
本発明の別の態様によれば、シーンのビデオをキャプチャし、そのシーン内の顔の認識を可能にするための顔認識対応ビデオ監視システムが提供され、本システムは、
中央サーバに通信チャネルを介して接続された少なくとも1つのカメラ装置
を備え、
カメラ装置は、シーンのビデオをキャプチャするためのカメラと、中央サーバに通信チャネルを介して対応するビデオ・データを送るためのビデオ・エンコーダとを備え、
カメラ装置は、前記シーンの画像及び/又はビデオ・クリップをキャプチャし、前記キャプチャされた画像及び/又はビデオ・クリップに基づいて顔認識データを生成するためにさらに構成され、
ビデオ・エンコーダは、通信チャネルを介してビデオ・データとともに前記顔認識データを送るように構成される。
上記で定義されたように、顔認識データは、顔認識が遠隔で実施され得る画像データ及び/又はビデオ・クリップ・データを備え得、並びに/或いは、カメラ装置における完全な顔認識プロセスの後に生じるデータを備え得る。
本発明の別の態様によれば、シーンのビデオをキャプチャし、そのシーン内の顔の認識を可能にするための顔認識対応ビデオ監視システムが提供され、本システムは、
中央サーバに通信チャネルを介して接続された少なくとも1つのカメラ装置
を備え、
カメラ装置は、シーンのビデオをキャプチャするためのカメラと、第1の品質におけるビデオの再構築のために、中央サーバに通信チャネルを介して対応するビデオ・データを送るためのビデオ・エンコーダとを備え、
カメラ装置は、第1の品質よりも高い第2の品質において前記シーンのビデオ・クリップをキャプチャし、前記キャプチャされたビデオ・クリップに基づいて顔認識データを生成するためにさらに構成され、
ビデオ・エンコーダは、通信チャネルを介してビデオ・データとともに前記顔認識データを送るように構成される。
顔認識データは、前記第1の品質よりも高い品質における前記ビデオ・クリップの再構築を可能にするためのビデオ・データを備え得る。
本発明の別の態様によれば、シーンのビデオをキャプチャし、そのシーン内の顔の認識を可能にするための顔認識対応ビデオ監視システムが提供され、本システムは、
中央サーバに通信チャネルを介して接続された少なくとも1つのカメラ装置
を備え、
カメラ装置は、シーンのビデオをキャプチャするためのカメラと、中央サーバに通信チャネルを介して対応するビデオ・データを送るためのビデオ・エンコーダとを備え、
カメラ装置は、前記シーンの画像をキャプチャするためにさらに構成され、前記キャプチャされた画像中の顔を検出するための顔検出モジュールを備え、
カメラ装置は、顔検出モジュールによる顔の検出に応答して、検出された顔画像データ・セットを生成するように構成され、各検出された顔画像データ・セットは、検出された顔に関する画像データを含み、
ビデオ・エンコーダは、通信チャネルを介してビデオ・データとともに前記検出された顔画像データ・セットを送るように構成される。
本発明の別の態様によれば、シーンのビデオをキャプチャし、そのシーン内の顔の認識を可能にするための顔認識対応ビデオ監視システムが提供され、本システムは、
中央サーバに通信チャネルを介して接続された少なくとも1つのカメラ装置
を備え、
カメラ装置は、シーンのビデオをキャプチャするためのカメラと、中央サーバに通信チャネルを介して対応するビデオ・データを送るためのビデオ・エンコーダとを備え、
カメラ装置は、前記シーンの画像及び/又はビデオ・クリップをキャプチャするためにさらに構成され、
前記キャプチャされた画像及び/又はビデオ・クリップ中の顔を検出するための顔検出モジュールを備え、
カメラ装置は、顔検出モジュールによる顔の検出に応答して、検出された顔画像/ビデオ・データ・セットを生成するように構成され、各検出された顔画像/ビデオ・データ・セットは、検出された顔に関する画像/ビデオ・データを含み、
ビデオ・エンコーダは、通信チャネルを介してビデオ・データとともに前記検出された顔画像/ビデオ・データ・セットを送るように構成される。
本監視システムは、検出された顔画像データ・セットを処理して、そこから顔を識別するための少なくとも1つの顔認識モジュールをさらに備え得る。
いくつかの実施例では、顔認識モジュールは、少なくとも1つのカメラ装置において提供され得る。他の実施例では、顔認識モジュールは、中央サーバにおいて提供され得る。またさらなる実施例では、顔認識モジュールは中央サーバにおいて提供され得、顔認識モジュールは少なくとも1つのカメラ装置において提供され得る。
本発明の別の態様によれば、シーンのビデオをキャプチャし、そのシーン内の顔の認識を可能にするための顔認識対応ビデオ監視システムが提供され、本システムは、
中央サーバに通信チャネルを介して接続された少なくとも1つのカメラ装置
を備え、
カメラ装置は、シーンのビデオをキャプチャするためのカメラと、中央サーバに通信チャネルを介して対応するビデオ・データを送るためのビデオ・エンコーダとを備え、
カメラ装置は、前記シーンの画像をキャプチャするためにさらに構成され、
前記キャプチャされた画像中の顔を検出するための顔検出モジュールを備え、
カメラ装置は、顔検出モジュールによる顔の検出に応答して、検出された顔画像データ・セットを生成するように構成され、各検出された顔画像データ・セットは、検出された顔に関する画像データを含み、
本監視システムは、検出された顔画像データ・セットを処理して、そこから顔を識別するための顔認識モジュールをさらに備える。
本発明の別の態様によれば、シーンのビデオをキャプチャし、そのシーン内の顔の認識を可能にするための顔認識対応ビデオ監視システムが提供され、本システムは、
中央サーバに通信チャネルを介して接続された少なくとも1つのカメラ装置
を備え、
カメラ装置は、シーンのビデオをキャプチャするためのカメラと、中央サーバに通信チャネルを介して対応するビデオ・データを送るためのビデオ・エンコーダとを備え、
カメラ装置は、前記シーンの画像及び/又はビデオ・クリップをキャプチャするためにさらに構成され、
前記キャプチャされた画像及び/又はビデオ・クリップ中の顔を検出するための顔検出モジュールを備え、
カメラ装置は、顔検出モジュールによる顔の検出に応答して、検出された顔画像/ビデオ・データ・セットを生成するように構成され、各検出された顔画像/ビデオ・データ・セットは、検出された顔に関する画像/ビデオ・データを含み、
本監視システムは、検出された顔画像/ビデオ・データ・セットを処理して、そこから顔を識別するための顔認識モジュールをさらに備える。
本発明の別の態様によれば、カメラ装置のコンピュータ、及び/又はサーバ上にロードされ、稼働されたとき、カメラ装置又はサーバ、或いはカメラ装置とサーバとを含む監視システムに、上記で定義されたカメラ装置、サーバ、又はカメラ装置と中央サーバとを含む監視システムとして動作させる、コンピュータ・プログラム又はコンピュータ・プログラムのセットが提供される。
本発明の別の態様によれば、上記で定義されたコンピュータ・プログラム又はコンピュータ・プログラムのセットを搬送する少なくとも1つの機械可読データ・キャリアが提供される。
本機械可読データ・キャリアは、物理媒体コンピュータ・プログラム製品であり得る。
概して、上記の本発明の態様において述べられたようにキャプチャされるシーンのビデオは、最小限に抑えられたレイテンシをもつライブ・ビデオとして通信され得るライブ・ビデオである。一方、ビデオ・クリップが撮られる場合、これらは、一般に、別々にハンドリングされ、ライブで/リアルタイムで送られない。そのデータの場合、送られるデータの品質が重要であり、速度はあまり肝要ではなく、したがって、そのようなクリップのデータは依然としてビデオ・データを備えるが、それは、送られる必要がなく、一般に、上記の本発明の態様において述べられた「ビデオ・データ」の一部として送られる必要がなく、それは、ビデオ・データの一部としてストリーミングされず、むしろ、このコンテキストでは、このクリップ・データは、「低品質で、ただし迅速に」ではなく「高品質で、ただしゆっくり」送られるオブジェクト認識データである。
概して、上記の本発明の態様の各々に続く随意の特徴の各々は、本発明の他の態様の各々に関する随意の特徴として等しく適用可能であり、言い回しの何らかの必要な変更を伴って、各態様の後に書き換えられ得ることに留意されたい。すべてのそのような随意の特徴が、単に簡潔のために、各態様の後に書き換えられるとは限らない。
次に、本発明の実施例が、単に実例として、添付の図面を参照しながら説明される。
オブジェクト認識対応ビデオ監視システムを概略的に示す図である。 図1に示されているシステムの一部を形成する身体装着カメラ装置を概略的に示す図である。 認識マッチに優先度を付けるためのスキーマを示す図である。 カメラ装置への提供のためにウォッチ・リスト中にどんなアイテムを含めるべきかを決定するためのスキーマを示す図である。 カメラ装置にカスタム・ウォッチ・リストを割り当てるプロセスを示す図である。 認識マッチを検証するためのプロセスを示すフロー・チャートである。
図1は、シーンのビデオをキャプチャし、そのシーン内のオブジェクト、特に顔の認識を可能にするために構成された、この実施例では顔認識対応ビデオ監視システムである、オブジェクト認識対応ビデオ監視システムを示す。
監視システムは、複数のカメラ装置1A、1Bを備え、その各々が、中央サーバ2に通信チャネルを介して接続される。中央サーバ2は、望まれる場合にシーンの記録されたビデオを記憶するための記憶設備3と、カメラ装置1A、1Bによってキャプチャされるビデオ、及び/又はオブジェクト認識、特に顔認識、イベントに関する情報を視聴することを可能にするための顧客視聴機器4とに接続される。
この実施例では、カメラ装置1A、1Bは2つの別個のカテゴリに分けられ、第1のカテゴリには身体装着カメラ装置1Aがあり、第2のカテゴリには自立型又は壁取付けカメラ装置1Bがある。本概念に関して、身体装着カメラ装置1Aの動作を機能させる構造は、自立型又は壁取付けカメラ装置1Bのものと実質的に同じであり得る。しかしながら、他の状況では、たとえば、自立型又は壁取付けカメラ装置1Bが利用可能なワイヤレス通信チャネルではなく固定通信チャネルを有し得、本線電力へのアクセス、より大きい処理速度及び能力などを有し得ることを利用し得るという差があり得る。
図1は、ある詳細レベルにおいて2つのカメラ装置1A、1Bを示す。諒解されるように、ほぼ任意の数の他のカメラ装置1A、1Bがあり得る。
カメラ装置1A、1Bの各々は、カメラ5と、中央制御ユニット6と、ビデオ・エンコーダ7とを備える。各カメラ装置1A、1Bは、中央制御ユニット6の制御下でカメラ5を使用してシーンのビデオをキャプチャするように構成され、ビデオ・エンコーダ7を利用してこのビデオをメイン・サーバ2に返送するように構成される。
さらに、以下でより詳細に説明されるように、各カメラ装置1A、1Bは、ビデオ・データとともに中央サーバ2にオブジェクト認識データを返送するように構成される。オブジェクト認識データは、ビデオ・データとは別個である。両方とも同じチャネル上で中央サーバ2に返送されるが、それらは別々にハンドリングされる。
したがって、各カメラ装置1A、1Bは、シーンのライブ・ビデオを、このライブ・ビデオを中央サーバ2に返送する際にキャプチャして、最小のレイテンシを伴うリアルタイム表示を可能にし、並びに、中央サーバ2にオブジェクト認識データを返送するために、構成される。
本実施例では、オブジェクト認識データは、顔認識データである。
本実施例では、中央サーバ2は、2つのサーバ・ユニット21、22からなる。第1のサーバ・ユニット21は、記録されたビデオをキャプチャし、送ることが望まれる場合にカメラ装置1A、1Bからこのビデオを受信するために構成されたビデオ保管(vault)サーバ211を含む。この記録されたビデオは、次いで、記憶設備3上に受け渡され得る。記録されたビデオのキャプチャと、記憶設備3にこのビデオを記憶することとは、本発明と特に関連性がなく、さらに説明されない。しかしながら、記録されたビデオのこのキャプチャとそれを送ることとが、本発明においてより関心のあるライブ・ビデオのキャプチャとそれを送ることとは別個であることに留意することは、重要である。
第1のサーバ・ユニット21は、カメラ装置1A、1Bからシーンのライブ・ビデオを受信するために構成されたEdgeVisサーバ212をも備える。このライブ・ビデオは、次いで、カメラ装置1A、1Bによってキャプチャされたシーンのライブ・ビデオが顧客視聴機器4において観測され得るように、EdgeVisサーバ212から顧客視聴機器4にフィードされ得る。
EdgeVisサーバ212は、カメラ装置1A、1Bからオブジェクト認識データを受信するためにも構成される。このデータは、EdgeVisサーバ212から中央サーバ2の第2のサーバ・ユニット22に受け渡され、このデータは、ブリッジ・ユニット221によって随意にハンドリングされ、SVFサーバ222に受け渡される。SVFサーバ222は、実際の顔認識アクティビティ及び/又は認識データに関する他の分析を含み得る顔認識処理を行い、次いで、顧客視聴機器4に、オブジェクト認識イベント及びデータ、この実施例では特に顔認識イベント及びデータを受け渡す。
したがって、顧客視聴機器4をモニタすることによって、顧客は、顔認識イベント、並びにそれぞれのカメラ装置1A、1Bからライブ・ビデオを受信することの両方に気づかされ得る。
本概念を動作させる際に、カメラ装置1A、1Bによって生成され、中央サーバ2に送られるオブジェクト認識データは、異なる形式を有し得る。
このデータは、いくつかの事例では、画像データを備えることができる。他の事例では、それはビデオ・クリップ・データを備え得、また他の事例では、それは、カメラ装置1A、1Bにおいて処理された画像データ及び/又はビデオ・クリップ・データから生じるデータを備え得る。
図2は、図1中のシステムの身体装着カメラ装置1Aを、依然として概略的に、ただしより詳細に示す。自立型又は壁取付けカメラ装置1Bは、多くの点で身体装着カメラと同様の構築及び動作を有することができ、したがって、自立型又は壁取付けカメラのさらなる詳細な説明は省略される。
図2に示されているように、カメラ装置1Aの中央ユニット6は、顔検出モジュール61と、顔認識モジュール62とを備える。
他の実施例では、これらは、より一般的には、オブジェクト検出モジュール及びオブジェクト認識モジュールであり得る。
さらに、カメラ装置1Aは、この場合はボタン8を含むトリガ機構を備え、これは、オブジェクト認識データとして使用するために、又はそれを生成する際に、画像データ及び/又はビデオ・クリップ・データをキャプチャするために使用され得る。
さらに、図2に示されているように、ビデオ・エンコーダ7はビデオ・エンコーダ中央ユニット71を備え、ビデオ・エンコーダ中央ユニット71は、カメラ装置1Aと中央サーバ2との間の通信チャネルの利用可能帯域幅及び/又は品質をモニタするためのチャネル・モニタ711を備える。ビデオ・エンコーダ7は、圧縮器71とパケット構築器73とをさらに備える。圧縮器72は、カメラ5によってキャプチャされたライブ・ビデオを受信し、中央ユニット71の制御下でこれを圧縮するために構成される。パケット構築器73は、圧縮器71から圧縮されたビデオを受信し、カメラ中央ユニット6及び/又はカメラ5自体からオブジェクト認識データを受信するために構成される。パケット構築器73は、中央サーバ2への送信のためにこのデータを出力するために、ビデオ・エンコーダ中央ユニット71の制御下で構成される。
詳細には、パケット構築器73は、圧縮器72からビデオ・データを受信し、これをオブジェクト認識データとともにキューイングし、可能な場合、オブジェクト認識データを送る間にライブ・ビデオ・データにおけるレイテンシを最小限に抑えるようにエンコーダ中央ユニット71によって制御される。これを支援するために、制御ユニット71は、キューイングされるオブジェクト認識データの量と、チャネル・モニタ711によって示される通信チャネルの品質とを考慮に入れ、帯域幅が利用可能である場合、パケット構築器2に、オブジェクト認識データを含むパケットを送らせる。さらに、適切な場合、制御ユニット71は、圧縮器72におけるライブ・ビデオ・ストリームの圧縮を、(たとえばチャネルの帯域幅が不良であるとき)ライブ・ビデオ・ストリームのレイテンシが最小限に抑えられることをまず第1に保証するように調整するが、また、オブジェクト認識データが送られるのを待っている場合、そのようなデータを送るための余地を利用可能帯域幅において作るために、圧縮を潜在的に増加させる(ライブ・ビデオ・ストリームを送るために必要とされるデータのサイズを低減する)。これは、このデータのサイズ及び/又はそれが送られるのを待っている時間に関する所定のしきい値を参照することによって制御され得る。
このようにして、オブジェクト認識データが効果的に通信されながら低レイテンシ・ライブ・ビデオがカメラ装置1Aから提供されることを保証することが可能である。
圧縮器72は、たとえば、解像度又はフレーム・レート又は詳細を低減することによって、ビデオ・ストリームの品質を変化させ得る。
上述のように、オブジェクト認識データは様々な形式をとり得るが、各場合において、ビデオ・エンコーダの機能は実質的に同じであり得る。それの役割は、ライブ・ビデオ監視データを送ることに干渉することなしにこのオブジェクト認識データが送られることを保証することである。もちろん、オブジェクト認識データが送られる必要がある間、ライブ・ビデオ監視データの品質は低減され得るが、これは、概して許容でき、ライブ・ビデオ・データのストリームを中断すること又はライブ・ビデオ・データ・ストリームにおけるレイテンシを増加させることよりはるかに好ましい。
各カメラ装置1A、1Bが複数の選択可能な動作モードを提供され得るか、又は、いずれか1つのカメラ装置が1つの動作モードのみを提供され得る。カメラ装置1Aの異なる動作モードが以下で説明される。
第1の動作モードでは、カメラ5は、中央ユニット6及びビデオ・エンコーダ7を介して中央サーバ2にライブ・ビデオ・ストリームとして送られるシーンのビデオを継続的にキャプチャする。さらに、この動作モードでは、オブジェクト認識、特に顔認識のアクティブ化は、ユーザによって駆動される。ユーザが、シーン中に現在ある顔についての顔認識結果を取得することを望むとき、ユーザはボタン8を押す。これは、カメラ5に、その顔を含む高解像度画像をキャプチャさせる。
いくつかの実例では、このキャプチャされた画像は、オブジェクト認識データとして扱われ、顔認識処理のために中央サーバ2にライブ・ビデオ・ストリームとともに送るために、ビデオ・エンコーダ7(特にパケット構築器73)に送られ得る。
しかしながら、これよりも好ましくは、画像中の顔を検出するための顔検出モジュール61が利用され得る。中央ユニット6は、次いで、画像のこの部分を抽出又はクロップし、1つ又は複数の顔に対応する画像データのこのより小さいセットを、中央サーバ2における処理のためにオブジェクト認識データとして送り得る。
またさらなる代替形態では、顔検出モジュール61は、顔を識別するために使用され得、画像中の顔の存在に関するデータが、オブジェクト認識データとして全体の画像とともに送られ得る。したがって、ここで、オブジェクト認識データは、全体の画像、並びに顔検出モジュール61からの顔検出結果を備える。
さらなる情報がオブジェクト検出データの一部として画像データとともに送られ得る。たとえば、画像が撮られた時間又はGPSデータなどのロケーション・データに関係するメタデータが、オブジェクト認識データの一部として送られ得る。
また別の代替形態では、顔検出モジュール61によって行われるプロセスの結果は、キャプチャされた画像に関して顔認識が行われ得るように、中央ユニット中に提供される顔認識モジュール62に受け渡され得る。これは、カメラ装置1Aにおいて保持される第1のウォッチ・リストに対して行われ得る。次いでマッチが見つけられた場合、カメラ装置1Aのオペレータに直接、アラートが生成され得る。
代替的に、顔認識が中央サーバ2において行われる場合、アラートは、マッチが見つけられた場合、中央サーバ2からカメラ装置1Aに返送され得る。そのような変更は、同じくオブジェクト認識データであり得る。
顔認識マッチがカメラ装置1Aにおいて見つけられた場合、オブジェクト認識データは、そのようなマッチが見つけられたことを示すデータを備え得る。いくつかの状況では、この情報は単独で送られ、他の状況では、これは、対応する画像データ及び/又はメタデータとともに送られ得る。
顔認識がカメラ装置1Aにおいて行われ、マッチが見つけられなかった状況では、画像データは中央サーバ2に受け渡され得、中央サーバ2において、より大きいウォッチ・リストに対するマッチングも行われ得る。
上記のプロセスは、画像データをキャプチャすることに関して説明されたが、同じステップのすべてが、ボタン8をアクティブ化するとビデオ・クリップがキャプチャされることに関して行われることが、等しく可能である。すなわち、ボタン8を押すと、より高い解像度のビデオの短いセグメントがキャプチャされ得る。これは、次いで、ローカルに処理され、及び/又は、画像データの場合と同様に中央サーバに送られ得る。
またさらなる同様の実例では、次いで、ボタン8のアクティブ化が、カメラの新しい動作による画像の特殊なキャプチャを引き起こすのではなく、ボタン8のアクティブ化は、中央ユニットが、画像又はビデオ・クリップを生成すること、或いは、顔認識のために有用であるものとして画像又はビデオ・クリップにフラグを付けることを引き起こし得る。この画像又はクリップは、次いで、ローカルに処理されるか、又は、中央サーバ2における処理のために転送され得る。
1つの特定の実例では、カメラ5は、ビデオ・クリップに対して又はビデオから撮られたスチールからのいずれかで顔認識を行うために十分である高品質ビデオを常に撮るように動作され得る。一方、ビデオ・エンコーダ7は、レイテンシを最小限に抑えるために通常の状況においてより低品質のビデオが中央サーバ2に送られるように動作される。この場合、ボタン8をアクティブ化すると、より高品質のクリップが、カメラ装置1Aにおける処理のために、及び/又はより低品質の一般的なライブ・ビデオ・ストリームとともにオブジェクト認識データとして送るために、キャプチャされ得る。
別の言い方をすれば、それは、カメラ装置1Aが中央ユニットに低品質ビデオ・ストリームを送るようにセット・アップされるが、カメラ装置1Aが、必要に応じて顔認識のために使用され得る高品質ビデオ・ストリームを連続的にキャプチャするようにセット・アップされるということであり得る。
より自動化された別の動作モードでは、カメラ装置1Aは、顔検出モジュール61が、カメラ5によってキャプチャされるビデオ又はカメラ5によってキャプチャされるスチールを継続的にモニタし、顔が検出された場合、これがさらなる動作をトリガするように構成され得る。したがって、たとえば、これは、高品質画像又は高品質ビデオ・クリップをキャプチャすることをトリガし得る。さらに、これは、顔認識がカメラ装置1Aにおいて行われることをトリガし得、これは顔認識モジュール62の存在によって可能にされ、並びに/或いは、これは、高品質画像及び/又は高品質ビデオ・クリップをオブジェクト認識データとして中央サーバ2に返送することをトリガし得る。
またさらなる動作モードでは、画像キャプチャ及び/又は顔認識及び/又はビデオ・クリップ・キャプチャをトリガし、並びに/或いは、より高品質の画像/ビデオ・クリップを中央サーバ2に返送するために、異なるタイプのトリガが使用され得る。このトリガは、カメラ装置1Aにおいて中央サーバ2から受信された外部制御信号であり得る。これは、場合によっては、それぞれの顧客視聴機器4を介してライブ・ビデオ・ストリームを視聴する顧客によるアクションによって開始され得る。代替的に、それは、カメラ装置1Aにおいて検出されるオーディオ・イベントによってトリガされる(そのようなセンサー入力が提供される)か、又は、位置センサー、動きセンサーなど、カメラ装置1Aにおいて提供されるセンサーによって検出される別の所定の条件によってトリガされ得る。
適宜に、オブジェクト認識データは、一意の識別ID、キャプチャされた画像、部分的な結果すなわちオブジェクト又は顔検出のロケーションを示すバウンディング・ボックス、同期タイム・スタンプ、初期結果が検出されたデバイス及びビデオ・ストリームに関する情報、カメラ装置において行われる初期分析の結果に関する任意の情報のうちのいずれか1つ又は複数を含み得る。
サーバ装置2は、オブジェクト認識データとしてサーバ2において受信されたデータが、カメラ装置1又は顧客視聴機器4のいずれかのオペレータにさらなるメッセージを送ること或いは別の自動システムにメッセージを送ることなど、さらなるアクションをトリガし得るように、一連のルールの下で動作し得る。さらに、サーバ2は、オブジェクト認識データ中に含まれる任意の画像又はビデオ・クリップを使用して、或いは、さらなる処理のためにカメラ装置から追加の高品質画像データを取り出すためにタイム・スタンプ又は(カメラIDなどの)他の識別メタデータを使用してなど、受信されたオブジェクト認識データに関するさらなる処理を行うように構成され得る。
さらに、サーバ装置2は、ライブ・ビデオ(リアルタイム又は後でのいずれか)が、生成された任意の対応するオブジェクト認識データ及び/又はそのようなオブジェクト認識データに基づいて中央において生成された任意のデータとともに視聴され得るように、元のオブジェクト認識データ並びに顧客視聴機器4における提示のために中央において行われる任意の処理の結果を互いに関連付けるように構成される。
有限のウォッチ・リストがカメラ装置1Aにおいて提供される場合、これは、たとえば、カメラ装置1Aにおいて行われる顔認識においてマッチングされる50個のターゲットを有し得、中央サーバ2上では、たとえば5,000個のターゲットの、はるかに大きいウォッチ・リストがあり得る。
身体装着カメラ1Aにおいて顔認識又は他の分析を行うための能力は、たとえばデバイスの性能、利用可能なバッテリー容量、発熱問題又は他の問題点により、自立型又は壁取付けカメラ装置1Bにおけるものよりも低くなる可能性があることに留意されたい。
大まかに言えば、現在のシステムの全体的なプロセスは、以下のステップを含むものとして説明され得る。
1.エッジ・デバイスに統合されたか又はそれに接続されたカメラから画像又はビデオ・クリップをキャプチャすること。
2.オンボード分析を使用して画像又はビデオ・クリップを処理し、初期結果及び関連するメタデータを生成すること。
3.部分的な結果を含んでいるメッセージを構築すること。このメッセージは、一意の識別ID、キャプチャされた画像、部分的な結果のロケーションを示すバウンディング・ボックス、同期タイム・スタンプ、及び初期結果が検出されたデバイスとビデオ・ストリームとに関する情報、並びに、検出された顔又はオブジェクトのタイプなど、初期分析の結果に関する任意の情報のいずれかを含み得る。
4.そのメッセージはEdgeVisメッセージ・チャネル上で送信され、それは、ライブ・ビデオと一緒(又は、ライブ・ビデオが視聴クライアントによって現在要求されていない場合は独立して)であることがある。
5.そのメッセージは、メッセージのコンテンツを読み取る、サーバ上で稼働するプロセスによって検出される。
6.サーバに組み込まれたルールに応じて、それは、オペレータ又は自動システムにさらなるメッセージを送ることなど、即時のアクションをトリガし得る。
7.同時に、それは、
- メッセージ中に埋め込まれた画像を使用して、又は
- エッジ・デバイスから、それが次いで処理する追加の高品質画像データを取り出すために、タイム・スタンプ及び(カメラIDなどの)他の識別メタデータを使用して
のいずれかでのさらなる処理のために、メッセージをサブミットし得る。それは、ライブ・ビデオ・ストリームを中断することなしに、要求によってこの高品質画像データを取り出す。
8.さらなる処理は、サーバ上で利用可能なより大きいリソースを使用して完了され、詳細の追加のカテゴリの検出又はより大きいウォッチリストに対する探索、或いは何らかの他の、エッジにおいて稼働されたものよりも詳細な分析を可能にする。
9.詳細処理が完了すると、結果は、低帯域幅チャネル上で送られた元のライブ・ビデオ・ストリームに再び関連付けられ、同じ目的のためのタイム・スタンプ及び識別メタデータ又は一意の識別IDの使用によって同期される。
10.分析の結果と、詳細な分析と、ライブ・ビデオとを組み合わせた完全な結果は、オペレータにそれらのディスプレイ上の単出力として(又は、望まれる場合は別々に)提示される。
上記で言及したように、システムはまた、シーンのビデオのキャプチャ、記憶及び後続の出力を可能にするように構成され得る。したがって、ライブ・ビデオと同様に、記憶されたビデオはユーザに出力され得、このユーザは、遠隔ユーザ又はカメラ装置のユーザである。これは、たとえば識別イベントを含む他のデータとともに送出され得る。
オブジェクト認識、特に顔認識では、低品質画像が、マッチすると間違って見つけられる可能性が高いので、使用される画像の品質は重要である。たとえば、10,000個の登録画像を含んでいるウォッチ・リスト・データベースでは、10,000個が良好な品質である場合、マッチ・レートは良好である。しかしながら、画像のうちの100個がぼやけているか又は不良に照明されている場合、それらは、画像の総数が依然として同じであるにもかかわらず、システムによって生成される「誤アラート」の数を大幅に増加させる。
不良なプローブ画像(すなわち、上記のタイプのシステムにおいてカメラ装置によってキャプチャされた不良な画像)は、関係する問題を引き起こす。この場合も、これらの低品質画像は誤アラートを生成する可能性が高い。
低品質の登録画像とプローブ画像との組合せは、特にひどい性能劣化を引き起こすことがある。
画像の品質を測定するための業界標準メトリックがある。これは、ISOスコアと呼ばれる。それは、画像中で検出されるいくつかのファクタ(照明、姿勢、焦点)を組み合わせ、画像品質の複合測度を生成する。これは、それが、大きいデータベースと、困難な条件における多数のカメラ装置上での配備の両方で使用するために設計されるので、本タイプのシステムのコンテキストにおいて特に重要である。すなわち、屋外の実世界ロケーションにおいて。したがって、画像のうちのいくつかは、ほぼ確実に低品質である。従来のシステムでは、低品質画像はただ拒否される傾向がある(及び、可能な場合、画像が再び撮られる)。しかしながら、本タイプのシステムでは、低品質画像に対処するためのより高性能のシステムを提供することが好ましい。
顔認識に適用される本システムでは、以下のプロセスに従う。
1.登録画像が、自動プロセスを使用してISO品質について等級をつけられる。
2.プローブ画像が、自動プロセスを使用してISO品質について等級をつけられる。
3.マッチが検出されたとき、ワーク・フロー・ルールに従ってそのマッチに優先度を付けるか又はそのマッチをフィルタ処理するために、登録及びプローブ品質スコアにおいて符号化された情報が使用される。高優先度スコアは、オペレータに提示されるか又は現場のユーザにアラートとして送られる可能性が高い。
図3は、優先度付けがどのように実装され得るかを概略的に表す。この場合、各登録画像は、3つのバンドA、B及びCのうちの1つにおける品質を有するものとして分類され、Aが最高品質であり、Cが最低品質である。同様に、各プローブ画像は、3つの品質バンドにカテゴリ分類され、1が最高品質であり、3が最低品質である。次いで、システム(たとえば、SVFサーバ22)が、顔認識プロセスによって見つけられたマッチをハンドリングしているとき、これらは、登録画像及びプローブ画像のこれらの決定された品質を利用して優先度を付けられ得る。
本実例では、登録品質が最高レベルAであり、プローブ品質が最高レベル1であるマッチ、並びに、登録品質が第2のレベルBにあり、プローブ品質が第1のレベル1にあるマッチ、及び登録品質が最高レベルAにあり、プローブ品質が第2のレベル2にあるマッチが、高優先度マッチとして扱われる。これらは、次いで、即時のアラートをトリガするために使用され得る。
一方、登録画像品質が最低品質Cであり、プローブ画像品質が最高品質1であるマッチ、及び登録画像品質が第2の品質カテゴリBにあり、プローブ画像が第2の品質カテゴリ2にあるマッチは、システム及びそれのオペレータによって対処されるべき即時のアラートがないとき、検討のためにキューイングされる。
この例示的な実装形態では、登録画像及び対応するプローブ画像の品質がこれらの2つのテストのうちの1つを満たさない場合、マッチは無視される。
もちろん、他の状況では、これは修正され得、プローブ画像が比較的低い品質であり、登録画像が比較的低い品質であるにもかかわらず、さらなるアクションが必要とされると判定するために、他のファクタが使用され得る。このさらなるアクションは、何らかの検証アクションであり得るか、又は、何らかの追加のファクタが作用し始めることを必要とし得る。たとえば、登録画像が、高優先度であるものとして示される誰かに関係する場合、マッチは、それが通常の品質要件を満たさなくても、考慮され得る。
登録画像の品質並びにウォッチ・リストにリストされているオブジェクト、特に人の重要性は、マッチがどのように扱われるべきかを判定する際だけでなく、1つ又は複数のカメラ装置に送られるべきであるウォッチ・リストのコンテンツを判定するためのプロセスにおいても、又は一代替形態ではそのプロセスにおいて、考慮に入れられ得る。
さらに、そのようなプロセスでは、各カメラ装置の能力又はリソースが考慮に入れられ得る。いくつかの事例では、これらの能力は、インストール時に獲得され、システムに記憶され得るが、好ましくは、これらの能力は、別個の収集プロセスが必要とされることなしに最新のデータが使用され得るように、判定実行(decision making)プロセスの一部としてシステムによって検出される。すなわち、どんなオブジェクト/顔がカメラ装置のためのウォッチ・リスト中に含められるべきであるかを判定するための中央システムにおける判定実行プロセスの一部は、それぞれのカメラ装置に問い合わせてそれの能力を決定することを含み得る。
図4は、そのような判定実行プロセスがどのように行われ得るかを概略的に示す。ここで、特定のオブジェクトに対応する各アイテム、又はより詳細にはウォッチ・リスト中の特定の顔が、重要性レベルを与えられる。ここで、2つの重要なレベル、すなわち1及び2が与えられ、ここで、重要性レベル1は、このオブジェクト/人が極めて重要であることを示す。対応して、各登録画像は、上述のように品質に関して査定され、3つのカテゴリA、B及びCのうちの1つに入れられる。次いで、どのオブジェクト/顔がカメラ装置への提供のためにウォッチ・リスト中に含められるべきであるかを決定する際に、以下の経路に従い得る。すなわち、カスタム・ウォッチ・リスト中に含められるべきであるアイテムの最大数をセットするカメラ装置において存在するリソースの知識を用いて、ウォッチ・リスト中のアイテムが以下のパターンに従って選択される。最初に、品質Aの登録画像をもつ重要性1の人に対応するメイン・ウォッチ・リスト中のアイテムが選択され、次いで、1の重要性レベル及びBの画像品質レベルをもつアイテムが選択され、次いで、2の重要性レベル及びAの画像品質レベルのアイテムが選択され、次いで、2の重要性レベル及びBの画像品質レベルをもつアイテムが選択され、次いで、これの後にのみ、重要性レベル1をもつがCの画像品質レベルをもつアイテムが選択され、次いで、最後に、2の重要性レベル及びCの画像品質をもつアイテムが選択される。
もちろん、画像品質又は重要性レベルに関するさらなるレベルが、そのような判定実行プロセスにおいて含められ得る。
それぞれのウォッチ・リストを決定するために各カメラ装置の能力を決定するとき、考慮に入れられ得るファクタは、カメラ装置の利用可能な処理電力及び/又は利用可能なバッテリー電力を含む。
いくつかの事例では、オブジェクト又は顔認識プロセスが、カメラ装置においてと、また、中央ロケーションにおいてたとえばサーバにおいてとの両方で行われ得ることに留意されたい。そのような場合、場合によっては、より高い程度の、マッチの確実性を与えるか、又は認識されたオブジェクトをさらに分類するために、サーバにおいてより深いレベルの分析が行われ得る。
図5は、中央サーバ2において複数のカメラ装置1A、1Bからリソース情報を集め、次いで、図4に関して上記で説明された判定実行プロセスを使用してそのデバイスに適したカスタム・ウォッチ・リストを各カメラ装置1A、1Bに送出するプロセスを概略的に示す。たとえば、一部のカメラ装置は、本線電力と高度処理能力とを伴う街路取付け型であり得る。他のものは、モバイル・デバイス、たとえば身体装着カメラであり得る。
上記で言及されたように、いくつかの状況では、関心のオブジェクト又は人に関して当初キャプチャされる画像は、不良な品質であり得、これは、正確な認識を困難にする。したがって、特定の実装形態では、監視システムは、より良好な画像を捕捉することを試みるようにとのプロンプトをユーザに発行するように働き得る。1つの特定の実例では、初期画像は、既知のロケーションにおいて固定カメラによって、又は、画像が捕捉された時間に決定されるロケーションにおいて車両搭載カメラから、捕捉され得る。この初期マッチは、次いで、モバイル装置のユーザにマッチを通知し、より良好な画像を取得することを試みるようにとの命令をそのユーザに提供するために、使用され得る。
図6は、監視装置がそのようなシナリオにおいて行うように構成され得るプロセスを示す。
ステップ601において、街路取付け型カメラなどの固定カメラが、関心のものであり得る対象の画像を捕捉する。ステップ602において、初期顔認識が、カメラ装置において又は中央においてのいずれかで行われ、これは、マッチの指示を与えるが、不良な信頼性レベルを伴う。
これの結果として、ステップ603において、モバイル・カメラ装置のオペレータに、関心の人がオペレータの大まかな付近内にいるというプロンプトが発行される。
このプロンプトは、元の画像が捕捉されたロケーションと、その対象についての登録画像のコピーと、その対象についてのプローブ画像のコピーとを含むことができる。
ユーザは、次いで、人の位置を特定することを試みることができ、ユーザが人の位置を特定したと仮定すると、ステップ604において、新しいプローブ画像がキャプチャされ得、ステップ605において、新しいプローブ画像に関して顔認識が行われ得る。この第2の顔認識プロセスの結果は、ステップ606においてオペレータにフィードされ得、これは、遠隔オペレータ及び/又はモバイル・カメラ装置のオペレータであり得る。これらの結果は、登録画像と、元のプローブ画像と、第2のプローブ画像とを含むことができる。これを視聴する1人又は複数のオペレータは、次いで、適切なアクションをとることができ、システムは、ステップ607において、顔認識が対象を正しく識別したようであるという確認をオペレータから受け付けるように構成される。この確認は、次いで、システムによるさらなるアクションの手はずを整えることができる。
このようにして、人間の判断が認識プロセスにもたらされ得る。もちろん、人間の判断は、他のやり方で、他の段階において、又は他のマッチング・プロセスにおいて導入され得る。
優先度付け及び検証のための上記と同様の概念及びプロセスが、他のタイプのオブジェクト認識システム、たとえば、車両認識システムにおいて使用され得る。
諒解されるように、様々な上記の概念は、ロードされたとき、カメラ装置のコンピュータ又はサーバ上で稼働し、それに、上記で説明されたように動作させる、コンピュータ・プログラム中で具現され得る。そのようなプログラムは、機械可読物理データ・キャリアに記憶され得る。
本システムは、各々について異なる1次要件がある(「低品質及び高速」はライブ・ビデオについて許容でき、「高品質ただし低速」は顔認識について許容できる)ことに留意して、ビデオ監視を提供することの問題点をオブジェクト認識の問題点から分離し、2つの差タイプのデータ、(ライブ)監視ビデオ・データ及びオブジェクト認識データを生成し、これらの通信を別々にハンドリングするが依然として同じチャネルを利用することによって、低帯域幅チャネル上での顔(又は他のオブジェクト)認識を伴うビデオ監視を容易にすることができる。さらに、少なくともいくつかの場合には、システムは、処理の一部をローカルに行い、一部を中央において行うことによって、さらに助けられる。
以下は、本タイプのシステムの全体的な動作、並びに、本タイプのシステムのいくつかの特定の使用法、又は本タイプのシステムを使用して行われ得るタスクに関するさらなるコメントである。
システムは、工業用地、又は都市、又は国であり得るエリアにわたって分散されるカメラから情報が集められるシステムであり得る。情報は、分析及び人間の検討を含み得る、様々な検討プロセスにとって利用可能である。
カメラは、固定カメラ、車両ベース・カメラ、身体装着カメラ、隠しカメラ、又は任意のタイプのカメラであり得る。システムのカメラは、しばしばモバイル又は再配備可能カメラであるが、また、固定カメラによって拡張され得る。視覚センサーから集められる情報に追加するために、様々な補助センサーから追加情報が集められ得る。
システムは、以下の3つの関係する問題に対処する。
- 画像及び他のデータを集めること、
- 処理が行われ得る場所にデータを移動すること、
- 自動判定実行に加えて必要とされる場合、人間支援型の検討及び相関の管理
システムの一般的な用途は、以下を含む。
- モニタされるエリアにわたって個人を見つけ、追跡すること。
- 関連付け、一緒に見られた人が誰であるかを調べること。
- 関連付けを通して共謀(collusion)を識別する。
- 知られている個人、又は犯罪に関連付けられた車両を見つけること。
- 車両中にいたすべての人々を見つけること。
- 誰がエリア中にいたか及び誰がエリア外にいたか、又は、誰が1つ又は複数のチェックポイントを通ったかを分析すること。
- 誰が複数の場所に行ったか、たとえばいくつかの発電所を訪れたかを分析すること。
- 複数の日にわたって同じ場所を訪れた人々を識別する。
- ロケーション・データを分析することによって、たとえば間違った道を進むことによって交通規則を破るドライバをモニタすること。これは、ナンバー・プレートを必要としない車両についてを含めて、ただしドライバの顔などの他の識別特徴が可視である場合、ロケーション分析を通してスピード違反をモニタすることを含み得る。
- 操作されている車両のクラス又はそれらが提供しているサービスについてを含めて、車両中のドライバが適切に免許を与えられているかどうかを識別すること。
- 警察が複数の私企業の監視システムに接続し、相関のためにデータを処理するためにデータを取り込むことを可能にすること。
- 行方不明の子供を見つけること。
- 不法なイベントに参加している個人、及び他のコンテキストにおいてそれらの個人が会う仲間を識別すること。
- 都市全体にわたっていくつかのタイプのオブジェクト、たとえば車両又は放棄された荷物のタイプを識別すること
- 探索されているオブジェクトに関連付けられた人々又は他のオブジェクトを識別すること。たとえば、誰が駅にアイテムを置いて行ったかを識別すること。
- 特定のオブジェクト、たとえば銃を保持していたか又はその近くにいたすべての人々を見つけること。
システムは、それが見るすべての未知の顔又はオブジェクトの自動登録によって、これらの目的を容易にし得る。システムが都市の1つの部分において容疑者又はオブジェクトの画像を記録すると、それは、次いで、ネットワーク中のすべてのカメラにおける対象又はオブジェクト、並びに、任意の他の対象又は対象に関係するオブジェクトを探索することを容易にする。
画像データを集めることは、固定リンクを圧倒するのにしばしば十分な、大量のデータを作成する。ワイヤレス・ネットワーク上でこの画像データを移動することは特に難しい。
以下の、この問題に対処するための2つの旧来の手法がある。
- あまりに多くのデータがネットワーク上で移動されなければならないことがないように、処理を分散させる。
- データのすべてがコンテキストにおいて考慮され得るように、多くのネットワーク容量を使用して中央ロケーションにおいて処理を集中化する。
前に述べた使用法は、相関が、ネットワークに入力されているすべてのデータの知識を必要とするので、中央処理から恩恵を受ける。中央処理は、ビデオ・データを移動することの困難のために実際的でないことがある。特に、高帯域幅リンク上ですべてのビデオを移動する手法は、同時にカメラ、特にモバイル・カメラからビデオ・データをもストリーミングすることに適合しない。
システムは、ビデオ・データの効率的なコーディングのために前の手法よりも効率的であり、これは、チャネルの一部が以下のために使用されることを許可する。
- 中央システムから分配され、最終分析のために中央に送られているデータをフィルタ処理するウォッチリスト。ウォッチリストは、特定のデバイスのリソース又はそれらが送られているデバイスのクラスに合わせてカスタマイズされ得る。帯域幅が利用可能である場合、システムは、詳細な処理のためにすべてのビデオ・データを中央に渡し得る。
- エッジにおいて実施される分析の結果のリターン。
結果は、次のようにオペレータに表示され得る。
- 時間ベースの表示。
- 地理的表示。
- たとえば、ルーティング・アルゴリズムを使用して最も可能性が高いルートを識別することによって人がとった可能性がある足跡(track)を示すために、地理と時間とをリンクする表示。ルーティング・アルゴリズム・オプションは、いくつかのルートをフィルタ処理するか又は促進するためのタイミング、たとえば、公共交通履歴と提携したタイミング、又はあまりに長くかかったタイミングの知識と組み合わせられ得る。
- 同様のルートをとった可能性がある人々、たとえば同様の列車にいた可能性がある人々を示す表示。
- 上記の情報の一部又は全部を地上のユーザに提供する、地上のユーザに示されるアラート。
- ユーザのプロファイルに基づいてシステムにとって利用可能なコンテキストの全部を提供するか、一部を提供するか、又はいずれも提供しない間に調査するようにとのタスク・ベース命令として送られるアラート。
- システムによって識別される人々又はオブジェクトのいずれかの履歴又はアクションを分析する報告。
ビデオ・データに加えて、他のタイプのデータ、たとえばオーディオ・データも、同じ目的のためにキャプチャされ、処理され得る。
システムは、検討のために結果を相関させるか又は結果に優先度を付けるために、他のシステム、そのようなクレジット・カード取引データ・システム、ALPRシステム、又は他のデータベースから記録を持ってくることがある。

Claims (41)

  1. シーンのビデオをキャプチャし、前記シーン内のオブジェクトの認識を可能にするためのオブジェクト認識対応ビデオ監視システムであって、前記システムが、
    中央サーバに通信チャネルを介して接続された少なくとも1つのカメラ装置
    を備え、
    前記カメラ装置が、シーンの視覚表現データをキャプチャするために構成され、前記視覚表現データが、前記シーンのビデオを備え、前記カメラ装置が、前記ビデオをキャプチャするためのカメラと、前記中央サーバに前記通信チャネルを介して対応するビデオ・データを送るためのビデオ・エンコーダとを備え、
    前記カメラ装置が、前記視覚表現データに基づいてオブジェクト認識データを生成するためにさらに構成され、
    前記ビデオ・エンコーダが、前記通信チャネルを介して前記ビデオ・データとともに前記オブジェクト認識データを送るように構成され、
    前記監視システムが、第1の画像を使用してマッチしていることが見つけられたことに応答してさらなる画像/ビデオ・クリップを捕捉するためのプロンプトを発行するようにさらに構成され、前記監視システムが、少なくとも1つの第1のカメラ、たとえば固定又は車両搭載可能なカメラ装置と、少なくとも1つのモバイル・カメラ、たとえば身体装着可能なモバイル・カメラ装置とを備え、前記システムは、ウォッチ・リストに対してマッチし前記第1のカメラによってすでにキャプチャされている画像/ビデオ・クリップに関するオブジェクトの第2の画像/ビデオ・クリップの捕捉を求めるプロンプトを前記モバイル・カメラ装置に発行するように構成されている、オブジェクト認識対応ビデオ監視システム。
  2. 前記監視システムが、第1のオブジェクト検出プロセスと第2のオブジェクト分類プロセスとを備える2段階オブジェクト認識プロセスを行うように構成された、請求項1に記載のオブジェクト認識対応ビデオ監視システム。
  3. 前記視覚表現データが、前記ビデオ・データと補助視覚表現データとを備え、前記カメラ装置が、前記補助視覚表現データに基づいてオブジェクト認識データを生成するために構成された、請求項1又は請求項2に記載のオブジェクト認識対応ビデオ監視システム。
  4. 前記補助視覚表現データが画像データを備える、請求項3に記載のオブジェクト認識対応ビデオ監視システム。
  5. 前記補助視覚表現データが、前記ビデオ・データよりも高い解像度又は他の品質ファクタをもつ補助ビデオ・データを備える、請求項3又は請求項4に記載のオブジェクト認識対応ビデオ監視システム。
  6. 前記カメラ装置が、前記シーンの画像をキャプチャし、前記キャプチャされた画像に基づいてオブジェクト認識データを生成するためにさらに構成された、請求項1から5までのいずれか一項に記載のオブジェクト認識対応ビデオ監視システム。
  7. 前記オブジェクト認識データが、キャプチャされた画像データを備える、請求項1から6までのいずれか一項に記載のオブジェクト認識対応ビデオ監視システム。
  8. 前記カメラ装置が、前記視覚表現データ中の関心オブジェクトの存在を検出するためのオブジェクト検出モジュールを備える、請求項1から7までのいずれか一項に記載のオブジェクト認識対応ビデオ監視システム。
  9. 前記カメラ装置が、キャプチャされた画像データをオブジェクト認識データとして送るように構成され、前記キャプチャされた画像データは、関心オブジェクトが前記オブジェクト検出モジュールによって検出された、キャプチャされた画像に対応する、請求項8に記載のオブジェクト認識対応ビデオ監視システム。
  10. 前記カメラ装置が、キャプチャされたビデオ・クリップ・データをオブジェクト認識データとして送るように構成され、前記キャプチャされたビデオ・クリップ・データは、関心オブジェクトが前記オブジェクト検出モジュールによって検出された、キャプチャされたビデオに対応する、請求項8に記載のオブジェクト認識対応ビデオ監視システム。
  11. 前記カメラ装置が、キャプチャされた画像及び/又はビデオ・クリップ中のオブジェクトを分類するためのオブジェクト認識モジュールを備える、請求項から10までのいずれか一項に記載のオブジェクト認識対応ビデオ監視システム。
  12. 前記カメラ装置における前記オブジェクト認識モジュールが、前記カメラ装置において保持されるオブジェクトの第1のウォッチ・リストに対してオブジェクト認識を実施するように構成され、前記オブジェクト認識モジュールは、関心オブジェクトが前記第1のウォッチ・リスト上のオブジェクトとマッチするとわかったとき、オブジェクト認識済みアラートを生成するように構成され得る、請求項11に記載のオブジェクト認識対応ビデオ監視システム。
  13. i)前記カメラ装置における前記オブジェクト認識モジュールが、前記カメラ装置において保持されるオブジェクトの第1のウォッチ・リストに対してオブジェクト認識を実施するように構成され、前記オブジェクト認識モジュールは、関心オブジェクトが前記第1のウォッチ・リスト上のオブジェクトとマッチするとわかったとき、オブジェクト認識済みアラートを生成するように構成され、前記カメラ装置が、前記オブジェクト認識済みアラートをオブジェクト認識データとして送るように構成され、
    ii)前記カメラ装置が、キャプチャされた画像データ/キャプチャされたビデオ・クリップ・データをオブジェクト認識データとして送るように構成され、前記キャプチャされた画像データ/前記キャプチャされたビデオ・クリップ・データは、関心オブジェクトが前記オブジェクト検出モジュールによって検出されたが、前記関心オブジェクトが前記第1のウォッチ・リスト上のオブジェクトとマッチしないとわかった、キャプチャされた画像/ビデオ・クリップに対応する、
    請求項12に記載のオブジェクト認識対応ビデオ監視システム。
  14. i)前記カメラ装置における前記オブジェクト認識モジュールが、前記カメラ装置において保持されるオブジェクトの第1のウォッチ・リストに対してオブジェクト認識を実施するように構成され、前記オブジェクト認識モジュールは、関心オブジェクトが前記第1のウォッチ・リスト上のオブジェクトとマッチするとわかったとき、オブジェクト認識済みアラートを生成するように構成され、前記カメラ装置が、前記オブジェクト認識済みアラートをオブジェクト認識データとして送るように構成され、
    ii)前記カメラ装置が、キャプチャされた画像データ/キャプチャされたビデオ・クリップ・データをオブジェクト認識データとして送るように構成され、前記キャプチャされた画像データ/キャプチャされたビデオ・クリップ・データは、関心オブジェクトが前記オブジェクト検出モジュールによって検出され、前記関心オブジェクトが前記第1のウォッチ・リスト上のオブジェクトとマッチするとわかったときと、前記関心オブジェクトが前記第1のウォッチ・リスト上のオブジェクトとマッチしないとわかったときの両方のものである、キャプチャされた画像/ビデオ・クリップに対応する、
    請求項12に記載のオブジェクト認識対応ビデオ監視システム。
  15. 前記システムが、
    メイン・ウォッチ・リストのコンテンツと、
    以下のファクタ、
    i)前記システムによって検出される前記カメラ装置の少なくとも1つの能力、
    ii)前記メイン・ウォッチ・リスト上のオブジェクトに与えられる優先度値、
    iii)前記メイン・ウォッチ・リスト上のオブジェクトに関して保持される登録画像の品質
    のうちの少なくとも1つと
    に応じて前記カメラ装置への提供のための前記第1のウォッチ・リストのコンテンツを決定するために構成された、請求項12から14までのいずれか一項に記載のオブジェクト認識対応ビデオ監視システム。
  16. 前記ビデオ監視システムが、前記第1のウォッチ・リスト中のオブジェクトに関する登録画像を備えるウォッチ・リスト・データベースを備え、前記ビデオ監視システムが、前記キャプチャされた画像又はビデオ・クリップをプローブ画像として扱い、前記登録画像及び前記プローブ画像を処理することによってオブジェクト認識を実施するために構成され、前記ビデオ監視システムが、各登録画像及び/又は各プローブ画像の品質を決定し、前記決定された品質を、オブジェクト認識を実施する際に使用するためにさらに構成された、請求項12から15までのいずれか一項に記載のオブジェクト認識対応ビデオ監視システム。
  17. 前記システムは、マッチが見つけられ、一方又は両方の画像の画像品質がそれぞれのしきい値を上回る結果に優先度を付けるように構成された、請求項16に記載のオブジェクト認識対応ビデオ監視システム。
  18. 前記システムが、一方又は両方の画像の前記画像品質に基づいて有効なマッチであると見なされる認識プロセスの結果のしきい値を調整するように構成された、請求項16又は17に記載のオブジェクト認識対応ビデオ監視システム。
  19. 前記システムは、
    前記第1の画像の決定された品質がしきい値を下回る場合、
    前記マッチに関する確実性スコアがしきい値を下回る場合、
    前記ウォッチ・リストのオブジェクトに関連する優先度が所定のレベルと一致するか、又は超えている場合、
    の少なくともいずれかの場合に前記プロンプトを発行するように構成されている、請求項1から18のいずれか一項に記載のオブジェクト認識対応ビデオ監視システム。
  20. 前記第2の画像/ビデオ・クリップは、さらなるオブジェクト認識のためのプローブ画像として使用される、請求項1から19のいずれか一項に記載のオブジェクト認識対応ビデオ監視システム。
  21. 前記中央サーバが、前記カメラ装置から供給されるキャプチャされた画像データ/キャプチャされたビデオ・クリップ・データに基づいて、前記中央サーバにおいて保持されるオブジェクトのメイン・ウォッチ・リストに対してオブジェクト認識を実施するように構成された、請求項1から20までのいずれか一項に記載のオブジェクト認識対応ビデオ監視システム。
  22. 画像及び/又はビデオ・クリップの前記キャプチャをトリガするためのトリガ手段を備える、請求項1から21までのいずれか一項に記載のオブジェクト認識対応ビデオ監視システム。
  23. 前記トリガ手段が、手動で動作されるトリガ制御を備える、請求項22に記載のオブジェクト認識対応ビデオ監視システム。
  24. 前記トリガ手段が、所定の条件に基づいて画像/ビデオ・クリップのキャプチャをトリガするためのトリガリング・モジュールを備え、前記オブジェクト検出モジュールが、候補のキャプチャされた画像及び/又は候補のキャプチャされたビデオ・クリップ上でオブジェクト検出を行うために構成され、前記トリガリング・モジュールは、前記オブジェクト検出モジュールがそれぞれの候補のキャプチャされた画像及び/又はビデオ・クリップ中で関心オブジェクトを検出したとき、画像及び/又はビデオ・クリップのキャプチャをトリガするように構成された、請求項22又は23に記載のオブジェクト認識対応ビデオ監視システム。
  25. ユーザへの出力が、前記第1の画像及び/又は前記第2の画像及び/又は登録画像を備え得る、請求項1から24までのいずれか一項に記載のオブジェクト認識対応ビデオ監視システム。
  26. 前記システムが、シーンに関係するビデオ・データの収集、記憶、及び後の出力を可能にするように構成された、請求項1から25までのいずれか一項に記載のオブジェクト認識対応ビデオ監視システム。
  27. 前記ビデオ・エンコーダが、ビデオ・データを圧縮するための圧縮器を備え、前記圧縮器が、調整可能な圧縮ファクタを使用してビデオ・データを圧縮するように構成された、請求項1から26までのいずれか一項に記載のオブジェクト認識対応ビデオ監視システム。
  28. 前記ビデオ・エンコーダが、前記圧縮器から圧縮されたビデオ・データを受信し、オブジェクト認識データを受信し、送信のために前記圧縮されたビデオ・データと前記オブジェクト認識データとをキューイングし、前記キューイングされたデータからデータ・パケットを構築し、前記チャネル上で前記構築されたデータ・パケットを送信するように設定されたパケット構築器を備える、請求項27に記載のオブジェクト認識対応ビデオ監視システム。
  29. 前記ビデオ・エンコーダが、送信されたデータ・パケットの挙動に基づいて前記チャネルの性能をモニタするように設定されたチャネル・モニタを備え、前記圧縮器が、前記チャネル・モニタによって決定された前記チャネルの性能に応答して前記調整可能な圧縮ファクタを修正するように設定された、請求項28に記載のオブジェクト認識対応ビデオ監視システム。
  30. 記圧縮器が、前記チャネルの性能と、前記パケット構築器によって受信されたオブジェクト認識データの量とに応答して前記圧縮ファクタを修正するように構成された、請求項29に記載のオブジェクト認識対応ビデオ監視システム。
  31. 前記オブジェクト認識対応ビデオ監視システムが、シーンのビデオをキャプチャし、前記シーン内の顔の認識を可能にするための顔認識対応ビデオ監視システムである、請求項1から30までのいずれか一項に記載のオブジェクト認識対応ビデオ監視システム。
  32. シーンのビデオをキャプチャし、前記シーン内のオブジェクトの認識を可能にするためのオブジェクト認識対応ビデオ監視システムにおいて使用するためのカメラ装置であって、
    前記カメラ装置が、通信チャネルを介した中央サーバとの通信のために構成され、シーンの視覚表現データをキャプチャするために構成され、前記視覚表現データが、前記シーンのビデオを備え、前記カメラ装置が、前記ビデオをキャプチャするためのカメラと、前記中央サーバに前記通信チャネルを介して対応するビデオ・データを送るためのビデオ・エンコーダとを備え、
    前記カメラ装置が、前記視覚表現データに基づいてオブジェクト認識データを生成するためにさらに構成され、
    前記ビデオ・エンコーダが、前記通信チャネルを介して前記ビデオ・データとともに前記オブジェクト認識データを送るように構成され、
    前記カメラ装置が、第1の画像を使用してマッチしていることが見つけられたことに応答してさらなる画像/ビデオ・クリップを捕捉するためのプロンプトを発行するようにさらに構成され、前記監視システムが、少なくとも1つの第1のカメラ、たとえば固定又は車両搭載可能なカメラ装置と、少なくとも1つのモバイル・カメラ、たとえば身体装着可能なモバイル・カメラ装置とを備え、前記システムは、ウォッチ・リストに対してマッチし前記第1のカメラによってすでにキャプチャされている画像/ビデオ・クリップに関するオブジェクトの第2の画像/ビデオ・クリップの捕捉を求めるプロンプトを前記モバイル・カメラ装置に発行するように構成されている、カメラ装置。
  33. シーンのビデオをキャプチャし、前記シーン内のオブジェクトの認識を可能にするためのオブジェクト認識対応ビデオ監視システムにおいて使用するための、ソフトウェアの制御下で構成された中央サーバであって、
    前記中央サーバが、通信チャネルを介した少なくとも1つのカメラ装置との通信のために構成され、
    前記少なくとも1つのカメラから前記通信チャネルを介してビデオ・データを受信することと、
    前記少なくとも1つのカメラから前記通信チャネルを介して前記ビデオ・データとともにオブジェクト認識データを受信することと、
    エンド・ユーザが前記カメラ装置から受信されたビデオを視聴することを可能にし、及び/又はエンド・ユーザがオブジェクト認識イベントを通知されることを可能にするためのデータのパッケージを、少なくとも1つのエンド・ユーザ・デバイスに出力することと
    を行うためにソフトウェアの制御下で構成され、
    前記中央サーバが、第1の画像を使用してマッチしていることが見つけられたことに応答してさらなる画像/ビデオ・クリップを捕捉するためのプロンプトを発行するようにさらに構成され、前記監視システムが、少なくとも1つの第1のカメラ、たとえば固定又は車両搭載可能なカメラ装置と、少なくとも1つのモバイル・カメラ、たとえば身体装着可能なモバイル・カメラ装置とを備え、前記システムは、ウォッチ・リストに対してマッチし前記第1のカメラによってすでにキャプチャされている画像/ビデオ・クリップに関するオブジェクトの第2の画像/ビデオ・クリップの捕捉を求めるプロンプトを前記モバイル・カメラ装置に発行するように構成されている、中央サーバ。
  34. シーンのビデオをキャプチャし、前記シーン内の顔の認識を可能にするための顔認識対応ビデオ監視システムであって、前記システムが、
    中央サーバに通信チャネルを介して接続された少なくとも1つのカメラ装置
    を備え、
    前記カメラ装置が、シーンのビデオをキャプチャするためのカメラと、前記中央サーバに前記通信チャネルを介して対応するビデオ・データを送るためのビデオ・エンコーダとを備え、
    前記カメラ装置が、前記シーンの画像をキャプチャし、前記キャプチャされた画像に基づいて顔認識データを生成するためにさらに構成され、
    前記ビデオ・エンコーダが、前記通信チャネルを介して前記ビデオ・データとともに前記顔認識データを送るように構成された、
    顔認識対応ビデオ監視システム。
  35. シーンのビデオをキャプチャし、前記シーン内の顔の認識を可能にするための顔認識対応ビデオ監視システムであって、前記システムが、
    中央サーバに通信チャネルを介して接続された少なくとも1つのカメラ装置
    を備え、
    前記カメラ装置が、シーンのビデオをキャプチャするためのカメラと、前記中央サーバに前記通信チャネルを介して対応するビデオ・データを送るためのビデオ・エンコーダとを備え、
    前記カメラ装置が、前記シーンの画像及び/又はビデオ・クリップをキャプチャし、前記キャプチャされた画像及び/又はビデオ・クリップに基づいて顔認識データを生成するためにさらに構成され、
    前記ビデオ・エンコーダが、前記通信チャネルを介して前記ビデオ・データとともに前記顔認識データを送るように構成された、
    顔認識対応ビデオ監視システム。
  36. シーンのビデオをキャプチャし、前記シーン内の顔の認識を可能にするための顔認識対応ビデオ監視システムであって、前記システムが、
    中央サーバに通信チャネルを介して接続された少なくとも1つのカメラ装置
    を備え、
    前記カメラ装置が、シーンのビデオをキャプチャするためのカメラと、第1の品質におけるビデオの再構築のために、前記中央サーバに前記通信チャネルを介して対応するビデオ・データを送るためのビデオ・エンコーダとを備え、
    前記カメラ装置が、前記第1の品質よりも高い第2の品質において前記シーンのビデオ・クリップをキャプチャし、前記キャプチャされたビデオ・クリップに基づいて顔認識データを生成するためにさらに構成され、
    前記ビデオ・エンコーダが、前記通信チャネルを介して前記ビデオ・データとともに前記顔認識データを送るように構成された、
    顔認識対応ビデオ監視システム。
  37. シーンのビデオをキャプチャし、前記シーン内の顔の認識を可能にするための顔認識対応ビデオ監視システムであって、前記システムが、
    中央サーバに通信チャネルを介して接続された少なくとも1つのカメラ装置
    を備え、
    前記カメラ装置が、シーンのビデオをキャプチャするためのカメラと、前記中央サーバに前記通信チャネルを介して対応するビデオ・データを送るためのビデオ・エンコーダとを備え、
    前記カメラ装置が、前記シーンの画像をキャプチャするためにさらに構成され、
    前記キャプチャされた画像中の顔を検出するための顔検出モジュールを備え、
    前記カメラ装置が、前記顔検出モジュールによる顔の検出に応答して、検出された顔画像データ・セットを生成するように構成され、各検出された顔画像データ・セットが、検出された顔に関する画像データを含み、
    前記ビデオ・エンコーダが、前記通信チャネルを介して前記ビデオ・データとともに前記検出された顔画像データ・セットを送るように構成された、
    顔認識対応ビデオ監視システム。
  38. シーンのビデオをキャプチャし、前記シーン内の顔の認識を可能にするための顔認識対応ビデオ監視システムであって、前記システムが、
    中央サーバに通信チャネルを介して接続された少なくとも1つのカメラ装置
    を備え、
    前記カメラ装置が、シーンのビデオをキャプチャするためのカメラと、前記中央サーバに前記通信チャネルを介して対応するビデオ・データを送るためのビデオ・エンコーダとを備え、
    前記カメラ装置が、前記シーンの画像及び/又はビデオ・クリップをキャプチャするためにさらに構成され、
    前記キャプチャされた画像及び/又はビデオ・クリップ中の顔を検出するための顔検出モジュールを備え、
    前記カメラ装置が、前記顔検出モジュールによる顔の検出に応答して、検出された顔画像/ビデオ・データ・セットを生成するように構成され、各検出された顔画像/ビデオ・データ・セットが、検出された顔に関する画像/ビデオ・データを含み、
    前記ビデオ・エンコーダが、前記通信チャネルを介して前記ビデオ・データとともに前記検出された顔画像/ビデオ・データ・セットを送るように構成された、
    顔認識対応ビデオ監視システム。
  39. シーンのビデオをキャプチャし、前記シーン内の顔の認識を可能にするための顔認識対応ビデオ監視システムであって、前記システムが、
    中央サーバに通信チャネルを介して接続された少なくとも1つのカメラ装置
    を備え、
    前記カメラ装置が、シーンのビデオをキャプチャするためのカメラと、前記中央サーバに前記通信チャネルを介して対応するビデオ・データを送るためのビデオ・エンコーダとを備え、
    前記カメラ装置が、前記シーンの画像をキャプチャするためにさらに構成され、前記キャプチャされた画像中の顔を検出するための顔検出モジュールを備え、
    前記カメラ装置が、前記顔検出モジュールによる顔の検出に応答して、検出された顔画像データ・セットを生成するように構成され、各検出された顔画像データ・セットが、検出された顔に関する画像データを含み、
    前記監視システムが、前記検出された顔画像データ・セットを処理して、そこから顔を識別するための顔認識モジュールをさらに備える、
    顔認識対応ビデオ監視システム。
  40. シーンのビデオをキャプチャし、前記シーン内の顔の認識を可能にするための顔認識対応ビデオ監視システムであって、前記システムが、
    中央サーバに通信チャネルを介して接続された少なくとも1つのカメラ装置
    を備え、
    前記カメラ装置が、シーンのビデオをキャプチャするためのカメラと、前記中央サーバに前記通信チャネルを介して対応するビデオ・データを送るためのビデオ・エンコーダとを備え、
    前記カメラ装置が、前記シーンの画像及び/又はビデオ・クリップをキャプチャするためにさらに構成され、
    前記キャプチャされた画像及び/又はビデオ・クリップ中の顔を検出するための顔検出モジュールを備え、
    前記カメラ装置が、前記顔検出モジュールによる顔の検出に応答して、検出された顔画像/ビデオ・データ・セットを生成するように構成され、各検出された顔画像/ビデオ・データ・セットが、検出された顔に関する画像/ビデオ・データを含み、
    前記監視システムが、前記検出された顔画像/ビデオ・データ・セットを処理して、そこから顔を識別するための顔認識モジュールをさらに備える、
    顔認識対応ビデオ監視システム。
  41. カメラ装置のコンピュータ、及び/又はサーバ上にロードされ、稼働されたとき、前記カメラ装置又は前記サーバ、或いは前記カメラ装置と前記サーバとを含む監視システムに、請求項1から40までのいずれか一項に記載のカメラ装置、サーバ、又はカメラ装置と中央サーバとを含む監視システムとして動作させる、コンピュータ・プログラム又はコンピュータ・プログラムのセット。
JP2021542281A 2018-10-01 2019-09-30 ビデオ監視及びオブジェクト認識 Active JP7508465B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GB1816018.4 2018-10-01
GB1816018.4A GB2577689B (en) 2018-10-01 2018-10-01 Video surveillance and object recognition
US16/152,631 US11138845B2 (en) 2018-10-01 2018-10-05 Video surveillance and object recognition
US16/152,631 2018-10-05
PCT/GB2019/052760 WO2020070479A1 (en) 2018-10-01 2019-09-30 Video surveillance and object recognition

Publications (2)

Publication Number Publication Date
JP2022508551A JP2022508551A (ja) 2022-01-19
JP7508465B2 true JP7508465B2 (ja) 2024-07-01

Family

ID=

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180157939A1 (en) 2016-12-05 2018-06-07 Avigilon Corporation System and method for appearance search
JP2018125841A (ja) 2016-11-14 2018-08-09 アクシス アーベー ビデオシーケンスにおける動作認識

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018125841A (ja) 2016-11-14 2018-08-09 アクシス アーベー ビデオシーケンスにおける動作認識
US20180157939A1 (en) 2016-12-05 2018-06-07 Avigilon Corporation System and method for appearance search

Similar Documents

Publication Publication Date Title
US11568723B2 (en) Video surveillance and object recognition
US20210191979A1 (en) Distributed video storage and search with edge computing
US9412026B2 (en) Intelligent video analysis system and method
US9135808B2 (en) Systems, devices and methods to communicate public safety information
RU2484529C1 (ru) Способ ранжирования видеоданных
US20160135029A1 (en) Systems, devices and methods to communicate public safety information
US20120207356A1 (en) Targeted content acquisition using image analysis
RU2632473C1 (ru) Способ обмена данными между ip видеокамерой и сервером (варианты)
WO2012142797A1 (zh) 一种视频监控系统及方法
WO2017200849A1 (en) Scene marking
WO2021180004A1 (zh) 视频分析方法、视频分析的管理方法及相关设备
JP4959592B2 (ja) ネットワーク映像モニタリングシステム及びモニタ装置
WO2019234498A1 (en) A network switching appliance, process and system for performing visual analytics for a streamng video
JP2018061213A (ja) 監視映像解析システム及び監視映像解析方法
JP2008092279A (ja) 監視システム及び監視方法
JP7508465B2 (ja) ビデオ監視及びオブジェクト認識
GB2611949A (en) Video surveillance and object recognition
JP2019159377A (ja) 監視システム、サーバ装置、監視方法、及び監視プログラム
CN110543497B (zh) 一种高实时性布控解决方法及系统
KR101527003B1 (ko) 블랙박스시스템
EP4171023A1 (en) Computer-implemented method and computer program for generating a thumbnail from a video stream or file, and video surveillance system
CN106851204B (zh) 基于svac处理视频数据的方法和装置
US20180082126A1 (en) Systems and methods of providing content differentiation between thumbnails
JP2009171415A (ja) 画像分類システム及び方法