JP2020522828A

JP2020522828A - コンピュータービジョンベースの監視システムおよび方法

Info

Publication number: JP2020522828A
Application number: JP2020510506A
Authority: JP
Inventors: ゴンチャロフ，マキシム; ダヴィドフ，ニコライ; ヴェレテニコフ，スタニスラフ; ゴリロブスキー，ドミトリー
Original assignee: チェリーラボ，インコーポレイテッド
Priority date: 2017-04-28
Filing date: 2018-04-30
Publication date: 2020-07-30
Also published as: WO2018201121A1; EP3616095A1; EP3616095A4

Abstract

監視システムには、指定された領域内のアクティビティを監視するセンサーが含まれる。センサーには、ビデオ録画を行う視覚センサーが含まれる。指定された領域内またはその近くに配置されたローカル処理システムが、センサーから信号を受信する。ローカル処理システムは、センサーからの信号を処理および分析して、センサーによって監視されたように指定された領域内のアクティビティを説明するメッセージを生成する。メッセージには、指定された領域内の人物の身元を直接明らかにする音声、視覚、またはその他の直接識別情報は含まれない。指定された領域外の監視ステーションは、ローカル処理システムによって生成されたメッセージを受信し、そのメッセージを外部監視者が利用できるようにする。【選択図】図１

Description

１．発明の分野
本発明の分野は、監視、セキュリティおよび制御のための電子システムに関する。本発明の一実装は、方法およびコンピュータービジョンシステムからのデータを表すコンピューターベースのシステムに関する。

本特許文書の開示の一部には、著作権保護の対象となる資料が含まれている。著作権所有者は、特許商標局の特許ファイルまたは記録に記載されている通りの特許文献または特許開示のいかなる者によるファクシミリ複製に異議を唱えないが、ただし、それ以外の場合はすべての著作権を留保する。

２．従来技術の説明
カメラ、追加のセンサーを備えたセキュリティ、監視、制御システムを使用して、侵入、火災、煙、洪水などのさまざまな脅威を検出できる。動き検出は、多くの場合、空いているまたは占有されている建物や家庭環境への侵入者を検出するためにも使用される。侵入者の検出により、音声またはサイレントアラームが発生し、セキュリティ担当者に連絡する場合がある。

セキュリティ分野のコンピューターベースの技術が近年急速に発展しているという事実により、カメラと追加のセンサーを備えた非常に多様なセキュリティ、監視および制御システムが存在する。従来のセキュリティ、監視、および制御システムは、ユーザーが、ユーザープロセッサ制御デバイスのディスプレイ上のカメラと追加のセンサーのセットからの情報（ビデオおよび音声信号など）を見ることができる、ユーザーインターフェースユニットを備えてもよい。

一般的なアプローチはビデオおよび音声の情報をスキャンすることであるため、現在のソリューションでは、多くの場合、ユーザーは、人々が監視下の領域で何をしているのか、監視オブジェクトの動作中にどの画面を使用するか、を理解するために、ビデオを見て、音声情報を聞く必要がある。

その結果、このようなシステムのユーザーは、疑わしいものを識別し、ＧＵＩを使用して表示された情報に基づいて監視システムに応答する機会を得るために、カメラからのすべてのデータを継続的に見る必要がある場合がある。

さらに、さまざまなカメラからのビデオストリームが、画像のグリッドとして同時にディスプレイに表示される場合がある。そのため、ユーザーはすべての情報を取得して、監視されている領域の状況の概要を受け取るために、画像から画像へ視線を移さなければならないことがよくある。

監視下のエリアで人々が何をしているのかを理解するために、ユーザーがビデオを注意深く見る必要のない、コンパクトで有益な高レベルのインターフェースが必要である。

本発明は、上記の脆弱性、および上記以外の問題にも対処する。

本発明の第１の態様は、監視システムであって、この監視システムが、
指定された領域内のアクティビティを監視するセンサーであって、このセンサーが、視覚センサーまたは画像センサー、たとえば、ビデオ録画を行うセンサーを備える、センサーと、
指定された領域内またはその近くに配置されたローカル処理システムであって、このローカル処理システムがセンサーから信号を受信し、このローカル処理システムがセンサーからの信号を処理および分析して、センサーによって監視されたように指定された領域内のアクティビティを説明するメッセージを生成し、このメッセージは、指定された領域内の人物の身元を直接明らかにする音声、視覚、またはその他の直接識別情報を含まない、ローカル処理システムと、
指定された領域外の監視ステーションであって、この監視ステーションが、ローカル処理システムによって生成されたメッセージを受信し、外部監視者が利用できるようにする、監視ステーションと、を備える監視システムである。

オプションの特徴として、次のいずれかが含まれる。
●メッセージは、指定された領域内で人物または動物が実行したアクションを十分に説明し、外部監視者が、外部介入がいつ必要かを判断できるようにする。
●監視ステーションは、メッセージが、外部介入が必要とされ得ると示す人物または動物によって実行されるアクションを説明するとき、アラームを生成する。
●センサーは、子供、障害者、病人、または老人を監視するために選択される。
●監視ステーションは、ローカル処理システムに
外部監視者からのクエリを転送し、ローカルプロセッサはメッセージで応答し、ここにおいて、メッセージの内容は、センサーからの信号を処理および分析することによって検出された、指定された領域内のアクティビティに基づく。
●メッセージがセンサーによって所定のジェスチャまたは所定のフレーズが検出されたことを示すと、監視ステーションはアラートを生成する。
●監視ステーションは、メッセージが、所定のキャンセルジェスチャまたは所定のキャンセルフレーズがセンサーによって検出されることを示すと、アラートをキャンセルする。
●ローカル処理システムは、以下の技術の少なくとも１つを使用して、ビデオデータに基づいて指定された領域内の人々および動物の身体を内部的に識別する。
顔の特徴を識別して記録する顔指標識別、身体上の衣服のタイプを検出および記録する衣服指標
識別、身体の形状を検出および記録する身体指標識別、
身体の現在のアクティビティを検出および記録するアクティビティ指標識別、ヘアカットスタイルを検出および記録するヘアカット指標識別、
保持しているか、または身体の近くにある物体を検出および記録するツール指標識別
●ローカル処理システムは、指定された領域内の身体に加えられた変更を認識し、影響を受ける指標識別を更新する。
●ローカル処理システムは、識別された身体の運動学的な動きを分析して、物理法則と一致する動きを保証し、身体を内部的に識別する際の矛盾を検出して解決する。
●ローカル処理システムはさらに、音声データを使用して、指定された領域内の人々および動物の身体を内部的に識別し、音声データには、音色の指標と相対的な音の振幅とが含まれる。
●ローカル処理システムは、以下の手法の２つ以上を使用して、ビデオデータに基づいて指定された領域内で人々および動物の身体を内部的に識別する。
顔の特徴を識別して記録する顔指標識別、
身体上の衣服のタイプを検出および記録する衣服指標識別、身体の形状を検出および記録する身体指標識別、
身体の現在のアクティビティを検出および記録するアクティビティ指標識別、ヘアカットスタイルを検出および記録するヘアカット指標識別、
保持しているか、または身体の近くにある物体を検出および記録するツール指標識別
●指定された領域には、次の少なくとも１つのエリアが含まれる。
学校、
刑務所、病院、
ショッピングモール、通り、
オフィス、
駐車場。
●指定された領域は複数の部屋を備え、ローカル処理システムはセンサーからのビデオデータを使用して、領域のレイアウト計画を構築する。
●ローカル処理システムは、さらに音声データを使用してレイアウト計画を構築する。
●領域のレイアウト計画を構築するとき、ローカル処理システムは、以下の少なくとも１つを利用する。
水平線と垂直線を検出することに基づく部屋の形状の推定値、
ビデオセンサーの視野内の主要なオブジェクトの検出、
既知の部屋タイプのデータベースに基づいて部屋タイプフォームを認識するニューラルネットワークアルゴリズム、
部屋内のユーザーの要求された構成アクティビティに基づく測定値、
音声センサーによって検出された構成音声信号。

別の態様は、指定された領域内のアクティビティを監視する方法であって、この方法が、
センサーを使用してビデオ録画を行うこと、
センサーから指定された領域内またはその近くにあるローカル処理システムに信号を転送すること、
ローカル処理システムを使用して、センサーからの信号を処理し、分析して、センサーによって監視されたように指定された領域内のアクティビティを説明するメッセージを生成することであって、ここで、メッセージが、指定された領域内の人物の身元を直接明らかにする、音声、視覚または他の直接識別情報を含まない、生成すること、
指定された領域外の監視ステーションにメッセージを送信することであって、監視ステーションが外部監視者にメッセージを使用可能にする、送信すること、を備える。

オプションのステップには、次のいずれかが含まれる。
●メッセージが、センサーによって所定のジェスチャまたは所定のフレーズが検出されたことを示すと、監視ステーションがアラートを生成すること。
●以下の１つ以上の技術を使用して、ビデオデータに基づいて指定された領域内の人々および動物の身体を内部的に識別すること。
顔の特徴を識別して記録する顔指標識別、
身体上の衣服のタイプを検出および記録する衣服指標識別、
身体の形状を検出および記録する身体指標識別、
身体の現在のアクティビティを検出および記録するアクティビティ指標識別、ヘアカットスタイルを検出および記録するヘアカット指標識別、および、
保持しているか、または身体の近くにある物体を検出および記録するツール指標識別
●センサーによって音声データを記録することであって、音声データが、指定された領域内の人々および動物の身体を内部的に識別するために使用され、音声データが、音色指標と相対的な音の振幅とを含む、記録すること。

ここで、本発明の態様を、それぞれ、本発明の特徴を示す以下の図を参照して、例として説明する。
図１は、監視システムを示す。図２は、センサーノード起動図を示す。図３は、例示的なセンサーを示す。図４は、例示的なコンピュータ処理ユニットを示す。図５は、システム較正の例示的なブロック図を示す。図６は、監視およびアラーム状態の検出を表す例示的なブロック図を示す。図７は、監視およびアラーム状態の検出を表す例示的なブロック図を示す。図８は、ビューファインダー内の識別されたオブジェクトを備えたフレームを含むユーザープロセッサ制御電子デバイスの例示的な画面を示す。図９は、ビューファインダー内の識別されたオブジェクトを備えたフレームを含むユーザープロセッサ制御電子デバイスの例示的な画面を示す。図１０は、さまざまなモードのシステム動作の例示的なブロック図を示す。図１１は、秘密信号検出の場合のシステム動作の例示的なブロック図を示す。図１２は、画面上のダッシュボードのユーザーインターフェースが動作している例示的なユーザープロセッサ制御デバイスを示す。図１３は、ミニ２マップを備えたダッシュボードの例示的なグラフィカルユーザーインターフェースと、ユーザープロセッサ制御デバイスの画面上のスライダーを備えたタイムラインとを示す。図１４は、システムとのユーザーのインタラクションの例示的なブロック図を示す。図１５は、ホームモニタリングおよびセキュリティシステムのさらなる例を示す。図１６は、単一のカメラを含むセンサーノードの主要コンポーネントを示す。図１７は、例示的なセンサーノードを示す。図１８は、例示的なセンサーノードを示す。

本明細書では、例示的な態様を監視システムの文脈で説明し、オブジェクトの方法は、識別、オブジェクトの位置検出、および、

検出されたオブジェクトのアクティビティのタイプとアクティビティの時間の認識である。特に、システムは、複数のセンサーからデータを収集し、データを処理し、処理されたデータに基づいてアラートを送信して、緊急事態を防止または緊急事態に反応することができる。

たとえば、説明されているシステムは、夜中に家の中に見知らぬ人が現れる、昼間に主寝室に見知らぬ人が現れる、窓が割れる、浴室の水の止め忘れ、暖炉に向かってハイハイしていく赤ちゃん、近くに大人のいない状態でスイミングプールに近づいていく赤ちゃん、転倒した人、床に横たわっている人、または他のあらゆる異常な場所に長時間横たわっている人、助けを求めて泣いている人、通常の時間に学校から戻らない子供などの状況に対して、自動的に反応することができる。

当業者は、以下の説明が例示にすぎず、決して限定することを意図していないことを理解するであろう。他の態様は、本開示の利益を有する当業者に容易に示唆されるであろう。次に、添付の図面に示される例示的な態様の実装について詳細に説明する。図面および以下の説明全体を通して可能な限り、同じ参照インジケータを使用して、同じまたは同様のアイテムに言及する。

本明細書における「一実施形態」または「実施形態」への言及は、実施形態に関連して説明される特定の特徴、構造、または特性が本発明の少なくとも１つの実施形態に含まれることを意味する。本明細書の様々な箇所での「一実施形態では」というフレーズの出現は、必ずしもすべてが同じ実施形態を指しているわけではなく、また、他の実施形態と相互に排他的である別個の実施形態でも代替の実施形態でもない。

さらに、いくつかの実施形態によって示され、他の実施形態によって示されない可能性があるさまざまな特徴が説明されている。同様に、他の実施形態ではなく、いくつかの実施形態の要件であり得るさまざまな要件が説明されている。本発明の文脈において、用語「ａ」および「ａｎ」は「少なくとも１つ」を意味する。

本明細書における「フレーム」という用語は、ビデオデータ、音声データ、および、特定の時間、たとえば１秒で監視システムのすべてのカメラとセンサーからキャプチャされるその他の利用可能な感覚データを指し得る。

本明細書における「オブジェクト」という用語は、監視システムによって観察される物体を指す場合がある。「オブジェクト」という用語は、アニメートオブジェクト、たとえば人物（つまり、個人、人間）、ペットなどを指す場合がある。オブジェクトは「既知」である可能性があり、-つまり、オブジェクトは、既知の人々とペットのシステム内部データベースに含まれることを意味し、言い換えると、システムのメモリ内に保存されたＩＤや特性をもっているということである、あるいはオブジェクトは「未知」である可能性があり、-つまり、オブジェクトがデータベースに含まれていないことを意味し、または監視システムにとって新しい特性であることを意味する。

本明細書における「領域」という用語は、監視システムによって監視される領域を指す場合がある。たとえば、「領域」という用語は、居住区を、アパートを、病院、学校、老人ホーム、民家の建物を、、隣接する領域などを指す場合がある。物理的および論理的な場所であり得る。

本明細書における「ユーザー」という用語は、監視システムとインタラクトする可能性のあるいかなる人物または人々のグループをも指し得る。たとえば、ユーザーは家の所有者でも、高齢者の世話をする医療従事者でもかまわない。

本明細書の「ゾーン」という用語は、少なくとも領域の一部、例えば、スイミングプール、暖炉、部屋などを指す場合がある。

本明細書の「禁止」ゾーンという用語は、特定のオブジェクトに対して許可されていない、監視システムによって監視される領域の特定の部分を指す場合がある。監視システムは、オブジェクトが禁止ゾーンの境界を越えたことを検出すると反応する場合がある。

本明細書の「許可された」ゾーンという用語は、特定のオブジェクトに対して許可されている、監視システムによって監視される領域の特定の部分を指す場合がある。本明細書における「異常事象」という用語は、監視システムが反応する可能性がある、フレーム内の事前定義されたタイプのアクティビティを指す場合がある。たとえば、事前定義されたタイプのアクティビティには、侵入に関連する動き（窓からの侵入、戦闘、武器の提示など）を含み得る。事前定義されたタイプのアクティビティは、特定の病状に典型的であり得るアクティビティ（たとえば、転倒、苦痛、目に見える血液や怪我、家具の動きなど）などに関連する場合もある。

本明細書における「アラーム状態」という用語は、通常の健康で安心な状態にとって危険なまたは安全でないと考えることができるような状況を説明する一連のルールを指す場合がある。

一実施形態では、ルールのいくつかは、監視システムによって事前定義されてもよい。別の実施形態では、所有者または他のユーザーは、ルールを作成および／または調整することができる。定義された一連のルールは、監視システムのシナリオまたはアプリケーションによって異なる。

監視システムがどのように活用され得るかについては、複数のシナリオがある。例示的な例の１つは、危険な状況から人々を保護し、異常事象を検出して生命を保護し、警官などの外部サービス、またはユーザープロセッサ制御電子デバイスにアラート通知を送信するための所与の監視システムを民家に装備することである。

たとえば、監視システムは、物理的な侵入から保護し、医療問題から人々を保護し、赤ちゃんが近くに大人のいない状態でスイミングプールに近づいている場合に反応し、誰かが倒れたり、脳卒中になった場合に反応し得る。

別の例示的な例は、病院または高齢者の自宅への装備である。監視システムは、部屋にいる対象者を監視し、監視対象者が脳卒中、意識喪失、転倒、失神などを起こした場合に反応し、アラートを発するか、または医療従事者を呼び出す。

監視対象者は、アラーム通知をトリガーするアラーム信号を提供することもできる。本明細書における「アラーム信号」という用語は、特定のジェスチャまたは特定の音信号を指す場合があり、これは、監視システムをアラームモードに切り替え、外部サービスまたはデバイスにアラーム通知を送信する手順を開始する。アラーム信号は、監視システムが自動的に問題を認識できない場合に必要であり、そこで監視対象者が問題について信号を送ることができる。

図１は、例示的な監視システム１００を示す。当業者は、

図１に示すハードウェアユニットおよびソフトウェアユニットが本開示の範囲を限定することなく変化する場合があることを理解するであろう。

一実施形態では、監視システム１００は、少なくともビデオカメラ、暗視用の赤外線照明、および複数のマイクを含むことができるセンサー１１０のセットを含む。さらに、記載されている監視システムには、ジャイロスコープ、モーション検知器、煙センサー、サーモグラフィーカメラ（熱検知器）、侵入検知器（窓またはドアから）、温度計、匂い検知器、およびその他の情報源が含まれる場合がある。センサー１１０は、領域内のアクティビティに関係するすべての情報を含む信号をキャプチャするように、監視されている領域内に割り当てられ売る。例えば、異なるタイプのセンサー１１０は、信号の高密度表現を生成し、他のセンサーから受信したデータを増強して完全なフレームを復元する。検出器のリストは例示である。

さらに、モーションセンサーを使用してカメラの位置を記録したり、交換時に調整したりすることができる。加速度計／磁力計を使用して、コンパスポイントに応じてカメラを調整できる。圧力センサーを使用して、カメラのポジショニングの高さを確認できる（ポジショニングの決定のための同じメカニックフォンの使用。複数のレンズセット（可視光や赤外線など）を使用して、立体画像の作成とともに深度画像を作成できる。

いくつかのカメラモードがあり、センサーのセット（またはセンサーノード）は、図２に示す状態遷移図を利用できる。カメラモードの例は、これに限定されるものではないが、アイドルモード（エネルギーを節約するための非常に低い電力消費）、低解像度モード（３６０ｐなど）、および最大解像度モード（最大電力消費）である。１つ以上のセンサーで動きが検出されると、カメラモードが１つのモードから別のモードに切り替わる場合がある。低品質のビデオモードでもエネルギーを節約でき、ノードの最大の潜在能力は必要な場合にのみ使用される。

センサーアレイは、低品質モードで十分に照明された期間中に、赤外線フィルターレンズを使用するため、メインカメラモードはほとんどのバッテリー寿命を提供する。たとえば、低品質モードは次を意味する場合がある。
●１秒あたり５〜３０フレーム（認識可能な事象の発生に基づいて中央コンピュータユニットによって変更可能）、
●低解像度（３６０ｐ）、
●単一レンズ−ステレオ画像なし、
●アクティブな追加のセンサーなし。

デフォルトでは、センサーノードは、アイドルモードにあり、これはビデオ録画もビデオフィードもないことを意味する。アクティブエリア内での動きにより起動されることができる。

動いているオブジェクトがモーションセンサーをトリガーすると、低品質のビデオフィードが起動される。中央演算ユニットが高品質のビデオフィードを要求すると、センサーノードが高品質モードに切り替わる。

高品質モードは、コンピュータ処理ユニット１２０によってトリガーされる。単一のレンズアレイのフル機能を利用して、１秒あたりのフレーム数を減らしてＦＵＬＬＨＤ６０ＦＰＳビデオまたはＵＨＤビデオフィードを出力できる。このモードは顔認識に自動的に使用され、緊急事態の場合にユーザーによって要求されるか、中央演算ユニットによって要求されることができる。

正しい被写界深度を確保するために、センサーノードは両方のレンズアレイを使用して、ＩＳＰ（画像信号プロセッサ）が内部ＦＰＧＡを使用する前に、立体画像を作成しそれを単一の画像に編集することができる。夜間モードでは、赤外線フィルターと赤外線照明とを備えたレンズアレイを利用する。

図３は、例示的なセンサー、特に、実装による例示的なビデオカメラ２００を示す。ビデオカメラ２００は、例えば、スピーカー２０１、赤外線ナイトライト２０２、レンズ２０３、マイク２０４、パススルーアダプター２０５、Ｗｉ−Ｆｉユニット２０６、ＡＲＭコントローラー２０７、およびバックアップバッテリー２０８を含む。

図１を参照すると、コンピュータ処理ユニット１２０は、センサー１１０のセットとインタラクトし、制御ループがそれらを管理する。例えば、コンピュータ処理ユニット１２０は、センサー１１０がアクティビティを監視する指定された領域内またはその近くに配置されたローカル処理システムである。例えば、コンピュータ処理ユニット１２０は、センサー１１０から信号を受信し、信号を処理および分析して、センサー１１０によって監視される指定された領域内のアクティビティを説明するメッセージを生成する。メッセージには、指定された領域内の人物の身元を直接明らかにする音声、視覚、またはその他のタイプのデータは含まれない。たとえば、指定された領域は、学校、刑務所、病院、ショッピングモール、通り、オフィス、駐車場のエリア、または別のタイプのエリアであり得る。

センサー１１０のセットから受信した処理されたデータは、メモリ１３０に保存されてもよい。

機械学習技術を使用して、写真とビデオを使用して計算ユニットをトレーニングすることにより、誰が家にいて、その人がその世帯のメンバーであるかどうかを判断する能力を提供することもできる。

センサーのセットは、Ｗｉ−Ｆｉ接続を介してコンピュータ処理ユニットのハブに接続される。セキュリティ上の理由から、機械学習の目的で使用される映像は、中央のハブが存在するときにその世帯を離れることはない。しかしながら、中央のハブがなくてもシステムは動作可能である。中央のハブは、機械学習アルゴリズムを実行する小さなフォームファクタＧＰＵであってもよい。

コンピュータ処理ユニットは、好ましくは以下のインターフェースを有する。
●２つのＷｉ−Ｆｉ接続モジュール−モジュールの１つはインターネットへの接続に使用され、もう１つはカメラノードのトラフィックのために個別のチャネルを作成するために使用される、
●イーサネット（登録商標）、
●Ｂｌｕｅｔｏｏｔｈ（登録商標）-設定を調整し、システムを制御する目的で、また予備の通信チャネルとして、ユーザーの電話に直接接続する。

コンピュータ処理ユニットがインストールされていない場合、システムは、クラウドが提供するサーバーベースのシステムを介して動作することができるが、ブロードバンド接続をより多く使用する。

コンピュータ処理ユニット１２０は、充電ステーションを含む。バッテリーは、充電ステーションに取り付けられている間、５０％の充電状態を維持する。センサーノードが低電力レベルを示す信号をコンピュータ処理ユニット１２０に送信する場合、バッテリーは１００％に充電され、バッテリー寿命を延長し、バッテリー寿命を最適化する。バッテリー本体にある個別のＬＥＤインジケータは、センサーノードから取り外すときにのみ充電レベルを示す。

たとえば、コンピュータ処理ユニット１２０は、顔の特徴を識別して記録する顔指標識別、身体上の衣服のタイプを検出および記録する衣服指標識別、身体の形状を検出および記録する身体指標識別、身体の現在のアクティビティを検出および記録するアクティビティ指標識別、ヘアカットスタイルを検出および記録するヘアカット指標識別保持しているか、または身体の近くにある物体を検出および記録するツール指標識別、または別の技術を使用して、ビデオデータの１つまたは組み合わせに基づいて、指定された領域内の人々および動物の身体を内部的に識別する。

たとえば、接続されているデバイスのリストを使用して、一定の人数の人々がいるときに存在するデバイスのリストと、人々が動作ゾーンに出入りする間にそのリストに加えられた変更とを調べることにより、世帯内の人々を明確に識別することができる。

例えば、コンピュータ処理ユニット１２０は、指定された領域内の身体に加えられた変更を認識し、影響を受ける指標識別を更新する。

例えば、コンピュータ処理ユニット１２０は、識別された身体の運動学的な動きを分析して、物理法則と一致する動きを保証し、身体を内部的に識別する際の矛盾を検出および解決する。たとえば、コンピュータ処理ユニット１２０はさらに、音声データを使用して、指定された領域内の人々および動物の身体を内部的に識別し、ここで、音声データは音色の指標および相対的な音の振幅を含む。

図４は、実装によるコンピュータ処理ユニット１２０の一例を提供する。処理ユニット１２０は、例えば、Ｗｉ-Ｆｉルータ２３１、バックアップバッテリー２３２、バックアップモバイルインターネットモジュール２３３、ＣＰＵボード２３４、およびＧＰＵボード２３５を含むことができる。

一実施形態では、コンピュータ処理ユニット１２０は、ローカルサーバー１４０に含まれてもよい。「ローカル」という用語は、ローカルサーバーが監視システム１００によって監視される領域内に割り当てられることを意味する。処理ユニットとローカルサーバーとの説明された割り当ては、インターネットチャネルを過負荷にせず、監視システム１００の有効性を高める。プライバシー、データ保護、およびデータセキュリティは、たとえばデータ暗号化によって保護される。さらに、監視システム１００がインターネットから独立していることにより、プライバシー、データ保護、およびデータセキュリティが強化される。このようなインターネットからの独立性により、監視システム１００はユーザーにとってより機密性が高く信頼できるものになっている。

監視システム１００は、プライベートソースデータを、クラウドストレージシステムなどの外部ストレージリソースや、領域外にある他の外部ストレージシステムに一切送信しない。

センサー１１０のセットからの信号は、中央コンピュータ処理ユニット１２０に転送され、ここで、信号が処理され分析される。コンピュータ処理ユニット１２０は、センサー１１０からの信号を処理して、ソース着信データの低レベルの説明を作成する。低レベルのビデオの説明には、階層のさまざまなレベルで認識されるオブジェクト（生物および無生物）が含まれる場合がある。たとえば、低レベルのビデオの説明には、身体、身体の部分、骨格の関節座標、体型測定値、ならびに衣服、肌の色、および身体のさまざまな部分の質感のサンプルの説明を含み得る。たとえば、低レベルのビデオの説明には、顔、顔の特徴の座標、ヘアカットのタイプ、外部オブジェクト（イヤリングなど）、ならびに唇、耳、髪、目、および歯の色と質感とのサンプルの説明も含み得る。たとえば、低レベルのビデオの説明には、手、指関節の座標、指およびつま先の爪のタイプ、ならびに指、爪、および手のひらの色と質感とのサンプルの説明も含み得る。低レベルの音声の説明には、たとえば、階層のさまざまなレベルで認識される音が含まれ得る。たとえば、低レベルの音声の説明には、単一の音または形態素、そのスペクトル、さまざまなマイクでのその相対的な振幅、または、たとえば、アラームをオンまたはオフに設定するフレーズ、または監視を有効／無効にするフレーズなど、既知と認識されるより長い持続時間のオーディオサウンドを含み得る。データの低レベルの説明１２１に基づいて、高レベルの説明１２２を生成することができる。センサー１１０から受信した処理されたデータは、正確な高レベルの説明ファイル１３５、例えばテキストログファイルのメモリ１３０に保存される。一実施形態では、高レベルの説明ファイル１３５の情報には、次の情報が含まれる場合がある。「午後１時５３分１３秒：人物ＩＤ＝「ジョン」、人物の場所＝（ｘ，ｙ）、人物のアクティビティ＝「読書」」。低レベルの説明アルゴリズムを作成するために使用されるアクティビティ検出の例については（ＳｅｒｅｎａＹｅｕｎｇ、ｅｔａｌ．「ＬｅａｒｎｉｎｇｏｆＡｃｔｉｏｎＤｅｔｅｃｔｉｏｎｆｒｏｍＦｒａｍｅＧｌｉｍｐｓｅｓｉｎＶｉｄｅｏｓ」、ａｒＸｉｖ：１５１１．０６９８４、５２０１５．を参照。）

高レベルの説明１３５は、メモリストレージから抽出され、いつでも処理され得る。例えば、高レベルの説明ファイル１３５はカスタマイズされ、任意の他の外部システムのスクリプトに転送されてもよい。たとえば、ファイル１３５からの情報は、テキストからスピーチに加工することができる。

コンピュータ処理ユニット１２０は、センサー１１０からのソース信号（ビデオ信号、音声信号、煙探知器からのデータなど）を使用して、フレーム内のオブジェクトを認識および区別し、検出されたオブジェクトのタイプおよび空間位置を識別する。コンピュータ処理ユニット１２０によって生成された結果は、正確な高レベルの説明ファイル１３５に保存される。コンピュータ処理ユニット１２０は、顔の指標、身体の指標、衣服の指標、ヘアカットの指標、姿勢および手足の座標の推定、人々およびペットの空間位置の検出、アクティビティの検出、視覚的ジェスチャと聴覚信号とを制御することの検出、特定の病状の検出、周囲のオブジェクトとの人々やペットのインタラクションの「シナリオ」の検出などに基づいて、人々およびペットの識別ならびに再識別ユニットを生成し得る。

たとえば、音声信号に基づいた空間位置確認は、相対的な振幅を使用する。つまり、オブジェクトがマイクに近づいたり離れたりすると、オブジェクトからの音に基づく音声信号の検出された振幅は、場所によって異なる。振幅は、どのマイクが音に基づく音声信号を生成するかによって異なるであろう。コンピュータ処理ユニット１２０が、オブジェクトの空間位置に関係する音声信号サンプルと、較正段階中に収集され、システム動作中にさらに更新された対応するマイク信号振幅とを受信すると、コンピュータ処理ユニット１２０は、領域上のすべてのマイクでの音声信号振幅の分布をオブジェクトの既知の空間的位置と統計的に相関させることができる。この統計的相関の結果は、聴覚振幅の空間の、領域の計画へのマッピングである。したがって、ある期間のオブジェクトがビデオカメラのいずれにも見られない場合、監視システム１００は、マイク信号と較正段階中に実行されたマッピングとを使用して、オブジェクトの空間的位置を復元することができる。

コンピュータ処理ユニット１２０は、メモリストレージユニット１３０とインタラクトして、例えば、高レベルの説明１３５の形式で、処理された情報を保存し、さらに詳細な分析のために保存された情報を抽出する。メモリストレージユニット１３０は、例えば、既知の人物４７４のデータベース、以前の目印位置の短期メモリユニット４２５、顔、身体および衣服の指標の短期メモリ４３５、幾何学的位置および個人識別の短期メモリ４８５、事前設定されたアラート条件のデータベース４９２、および音声フレームの短期メモリ８５０を含むことができる。監視システム１００の信頼性を高めるために、センサーからのソース未処理信号は、短時間だけメモリに保存されてもよい。

監視システム１００は、「ユーザー」と監視システム１００とのインタラクションの機会を提供するアプリケーションプログラミングインターフェース（ＡＰＩ）モジュール１５５を含むことができる。グラフィカルユーザーインターフェース（ＧＵＩ）１６０によるユーザープロセッサ制御電子デバイス１８０上のアプリケーションは、ソフトウェアインターフェースであるアプリケーションプログラミングインターフェース（ＡＰＩ）１５５を介してサーバー１４０にアクセスすることができる。監視システム１００とのユーザーのインタラクションは、例えば、モバイルアプリケーションを介して、またはデスクトッププログラム１８０のユーザーインターフェースを介して実行され得る。ユーザープロセッサ制御電子デバイス１８０のグラフィカルユーザーインターフェースにより、ユーザーはリクエストを監視システム１００に送信し、監視システム１００はリクエストに従ってアクションを実行し、センサー１１０から受信され、処理ユニット１２０によって処理されたデータ分析の結果に基づいてユーザーに応答を送信することができる。一実施形態は、例えば、クライアントサーバーシステムまたは要求−応答モデルで表すことができる。

ユーザープロセッサ制御デバイス１８０上のグラフィカルユーザーインターフェース（ＧＵＩ）１６０は、監視システム１００からアラートを受信し、センサーから収集、保存、分析されたデータを表示し、監視システム１００を較正する可能性をユーザーに提供して、危険な状況を説明するルールを定義し、監視システム１００のデータベースに新しいオブジェクトを追加する。

一実施形態では、センサー１１０のセットからの信号は、ユーザー制御デバイス（携帯電話、ラップトップ、スマートフォン、またはパーソナルコンピュータなど）のディスプレイを介して、一切修正を加えずにリアルタイムで表すことができる。言い換えれば、監視システム１００は、自宅で起きていることに関する情報をユーザーに提供することができる。例えば、ユーザー制御デバイス上のシステムのＧＵＩ１６０は、すべてのカメラからキャプチャされたすべてのビデオと画像を表示し、記録された音声トラックを再生することができる。ユーザーは、ＧＵＩ１６０によって表示された情報に基づいて、監視システム１００に応答することができる。例えば、ユーザーは監視システム１００に、センサー１１０からのより詳細な情報を提供し、センサー１１０からのデータの分析に基づいて報告を行い、アラートを発するか、アラートを取り消し、警察、救急車、または緊急サービスなどを呼ぶように要求することができる。言い換えれば、監視システム１００はユーザーに、情報を見るための、サーバー１４０のメモリストレージ１３０に保存されたデータへのアクセスを取得するための、および監視システム１００を制御するためのアクセスを与える。

一実施形態では、ユニット１２０のデータによって処理された情報の結果をユーザーに提供することができる。１つまたはいくつかのフレームの高レベルの説明１３５は、ユーザー制御デバイス１８０上に情報を表示するために前処理され得る。情報はいくつかの方法で表すことができる、たとえば、テキストレポートの形式、地図の形式、グラフィカルな複製または漫画の形式、あるいは要求された期間の主な事象を説明する声の形式など。

たとえば、テキストレポートには、主な事象に関するテキスト情報が含まれる場合がある。たとえば、テキストレポートには、「ジョンは午前９時に起きて、キッチンに行き、看護師と朝食をとり、学習室で２時間過ごし、スイミングプールの近くで１時間過ごした」、「看護師が午前８時３０分に朝食を調理し、部屋を掃除し、ジョンと部屋Ｂで２時間過ごした…」、「患者のメアリーＧ．は午前８時に薬を服用し、３時間本を読み、午後１時に部屋を出た…」などと書かれていてもよい。

プロセッサ制御のユーザーデバイス１８０内のユーザーのデスクトップまたはモバイルアプリケーション１６０は、監視システム１００と情報を交換する。コンピュータシステム間の電子通信には、一般に、データグラムと呼ばれ、プロセッサ制御のユーザーデバイス１８０からローカルサーバーに転送され、ローカルサーバーからプロセッサ制御のユーザーデバイス１８０に転送される情報のパケットが含まれる。システムの要素は、Ｗｉ−Ｆｉ経由で情報を交換する。

情報転送の他の可能なチャネルも使用できる。

他の既知の電子通信と比較して、監視システム１００とのユーザー／クライアントの現在のインタラクションは、監視システム１００内に情報を追加および保存して、この情報が監視システム１００が設置されている領域内に位置するローカルサーバー１４０のメモリストレージに保存されるようにすることを含む。これにより、所与のシステムのユーザーの私生活に関する情報のプライバシーが確保される。監視システム１００は、例えばスマートハウスシステム、警察システム、医療サービスなどの、外部システムまたはサービスとインタラクトすることができる。

たとえば、監視、セキュリティ、および制御用の説明されたシステム１００は、センサー１１０からのデータの分析に基づいて、外部サービスおよびシステム１７０、ユーザープロセッサ制御デバイス１８０にアラート通知を送信する。アラートは、たとえばディスプレイ上のＧＵＩを使用してユーザーに表すことができる。たとえば、外部サービスおよびシステム１７０は、コンピュータ処理ユニット１２０によって生成されたメッセージを受信し、そのメッセージを外部監視者が利用できるようにする監視ステーションである。

たとえば、メッセージには、指定された領域内で人物または動物が実行するアクションが十分に説明されており、外部監視者がいつ外部介入が必要か決定することが可能である。例えば、外部デバイスまたはサービス１７０は、コンピュータ処理ユニット１２０からのメッセージが、外部介入が必要とされる可能性があることを示す人物または動物によって実行されるアクションを説明するときに、アラームを生成する監視ステーションを含む。例えば、子供、障害者、病人または老人を監視するためにセンサー１１０が選択される。たとえば、監視ステーションはコンピュータ処理ユニット１２０に外部監視者からのクエリを転送し、コンピュータ処理ユニット１２０はメッセージで応答する、ここにおいて、メッセージの内容は、センサー１１０からの信号を処理および分析することによって検出された指定された領域内のアクティビティに基づく。

どのような所定の事象が発生した場合でも、モバイルデバイスを介して所有者に通知できる。通知には、ユーザーが定義した設定に従ってカメラが提供するビデオまたは画像を添付できる。誤検知の結果を防ぐために、ユーザーはカメラからのビデオフィードを見ることができる。各状況の後、システムは結果を記憶して、将来の誤検知を防ぐ。

較正は、未知の領域内で監視システム１００を実行する最初のステップである。較正中、監視システム１００は、領域の基本的なパラメータを特定する、領域のタイプを特定する、領域のマップを作成するなど行う。たとえば、指定された領域が複数の部屋を含む場合、ローカル処理システムは、センサーからのビデオデータを使用して領域のレイアウト計画を構築する。たとえば、ローカル処理システムはさらに、音声データも使用してレイアウト計画を構築する。たとえば、部屋の形状の推定値は、水平線と垂直線の検出に基づいている。

たとえば、ビデオセンサーの視野内の主要なオブジェクトが検出され、レイヤーの構築に使用される。たとえば、ニューラルネットワークアルゴリズムを使用して、既知の部屋タイプのデータベースに基づいて部屋タイプフォームを認識する。たとえば、測定値は、部屋内のユーザーの要求された構成アクティビティに基づくことができる。

図５は、１つ以上の態様による監視システム１００の較正方法の例示的なブロック図を示す。監視システム１００の較正方法は、ステップ３００で始まり、ステップ３７０まで進む。

ステップ３１０で、センサー１１０のセットからのソース信号が同期される。
監視システム１００の重要な特性の１つは、すべての信号の時間との同期である。時間は、さらなる分析のための追加の座標として使用される情報源である。

ステップ３２０で、監視システム１００は、領域の幾何学的パラメータを決定する。特に、監視システム１００は、監視された建物内の部屋の割り当て、部屋の大きさ、それらの機能、部屋内の家具、隣接する領域、例えば庭、ガレージ、運動場などのパラメータを特定することができる。監視システム１００はまた、窓と入り口の割り当て、光源、暖炉、階段、他の部屋との接続などを識別することができる。

領域のタイプと機能は、監視システム１００がどのように、センサーからのデータ、フレーム内の異常事象のタイプを処理するかに影響を与える可能性がある。たとえば、領域が個人の家を表す場合、そのシナリオは高齢者のための病院の監視システム１００のシナリオとは異なるであろう。領域のタイプおよび機能は、ステップ３３０でユーザーによって示されてもよい。

ステップ３２０で、監視システム１００は、特定された幾何学的パラメータに基づいて領域の計画を生成することができる。部屋の形状の推定は、水平線と垂直線の検出、ジャイロスコープの角度位置、ビデオセンサーの視野内の主要なオブジェクトの検出、および既知の部屋タイプのデータベースに基づいて部屋タイプフォームを認識するニューラルネットワークアルゴリズムに基づいている場合がある。

あるいは、本発明の範囲を限定することなく、他の可能な方法で領域の計画を生成することができる。たとえば、領域の計画はユーザーによって生成される場合がある。

センサーノードが以前に指定された位置から削除されると、センサーノードがセンサーアレイを起動し、周囲のエリアを再マップして、移動中に空間内および他のセンサーノードに対する位置を再定義する。

監視システムに新しいセンサーノードが追加された場合、そのセンサーノード自身が、（そのシステム内に含まれた）センサーノードのデータベースに一意のＩＤを追加することで自動的に構成される。中央演算ユニットによってＢＬＥおよびＷｉ−Ｆｉアクセスデータが自動的にルーティングされる。

システムを提供されるセンサーノードは同じ方法で構成されるが、唯一の違いは、一緒に販売されるセンサーノードがオンラインデータベースに書き込まれ、構成時に演算ユニットに転送されることである。

実施形態の１つにおいて、ユーザーは、較正中に１つのビデオカメラから別のビデオカメラへ、そして１つのマイクから別のマイクへ歩くように要求され、それにより監視システム１００が、ユーザーが既知の軌道に沿って移動して得た測定値に基づいて領域の計画を作成できる。監視システム１００はまた、例えば、すべてのマイクの相対的な音の振幅を領域計画上のオブジェクトの空間的位置と相関させる。設計計画には、たとえば、部屋の割り当て、その幾何学的サイズ、窓、ドア、階段、光源、部屋のタイプなどを含む、領域に関するすべての利用可能な情報が含まれる場合がある。言い換えれば、生成された計画は、領域のグラフィックイメージを表現し、監視システム１００のセンサーから受信および処理されたデータを、ユーザーに概略的に表すために作成される。

領域マップの生成は、センサー１１０からのデータに基づいて半自動で実行できる。一実施形態では、監視システム１００は、予備計画の説明を作成し、ユーザーは、ステップ３３０で作成された計画の結果を修正して、領域の特定されたパラメータの精度を高めることができる。ステップ３３０はオプションであり、スキップしてもよい。一実施形態では、監視システム１００は、オペレータの支援なしで自動的な方法での生活空間の説明を作成する。

領域の計画は、慣例的に「禁止」ゾーンと「許可」ゾーンに分けられる。一実施形態では、「禁止」および「許可」ゾーンは、すべての監視されるオブジェクトに共通であり得る。別の実施形態では、「許可」および「禁止」ゾーンは特定のオブジェクト毎に対して具体的に示されている。たとえば、子供にはスイミングプール、キッチン、階段などの「禁止ゾーン」があってもよい。看護師とメイドは、たとえば個人的な勉強部屋や寝室などのさまざまな「禁止ゾーン」を持つことがある。

ステップ３４０で、監視システム１００は、特定のオブジェクトに対する禁止ゾーンを自動的に定義することができる。たとえば、暖炉とプールは子供には禁止されていると定義できる。オペレータは、どのオブジェクトに対してどのゾーンが禁止されているかも示すことができる。たとえば、ユーザーは、監視されるオブジェクトごとに、計画で「禁止」および「許可」ゾーンにタグを付けることができる。これらのゾーンは、さらに変更または調整できる。

空間を「許可」ゾーンと「禁止」ゾーンに分割する目的は、制御と安全性である。一実施形態では、監視システム１００は、アラーム条件が満たされた場合、例えば監視システム１００が認識したときに、反応し得る。

さらに、一部のユーザー定義のルールは、子供がスイミングプールに近づく「異常な」事象を検証する手順を増強することができる。例えば、監視システム１００は、付近に数人の他のオブジェクト（大人）がいるかどうかを確認することができる。監視システム１００は、「禁止ゾーン」を認識し、これらのゾーンの境界への接近および横断に反応する。アラーム状態を検証する技術については、図６、図７、図１１でさらに説明する。

ステップ３５０で、すべての監視されるオブジェクトは、監視システム１００によって「既知」および「未知」として分類される。。この領域に住むすべての人々とペット、およびまた重要な無生物オブジェクトは、ユーザーが監視システム１００に「導入」することができ、「既知の」オブジェクト４７４のデータベースに追加することになる。ユーザーはそれらに名前を付け、「禁止」ゾーンと「許可」ゾーンへのアクセス権限を付与する。

ステップ３６０で、ユーザーは、アラーム状態を説明することができるいくつかのルールを作成および増強することができる。事前定義されたルールは、危険である可能性がある状況の説明を表す。言い換えると、次のような主要な質問の形式で文法ツールを提供するユーザープロセッサ制御デバイスのＧＵＩを使用してルールを説明できる。「誰が何をしているのか？」、「彼女／彼はどこでやっているのか？」、「いつ彼女／彼はやっているのか？」、および「彼女／彼は何をしているのか？」監視システム１００は、アラーム状態に関するいくつかのルールを既に有している場合がある。また、ユーザーは、異常事象と考えられるいくつかのタイプのアクティビティを追加する場合がある。

図６および図７は、本開示の１つ以上の態様に従って動作してアラーム状態を検証し、外部システムまたはユーザープロセッサ制御デバイスにアラート通知を送信する、コンピュータ処理ユニット１２０の例示的なブロック図を提供する。

ステップ４１０で、コンピュータ処理ユニット１２０は、少なくとも１つのセンサー、例えばカメラビューファインダー２００から、ビデオフレームのデータを受信する。フレームは、既知の画像処理技術に基づいて分析される。

ステップ４２０で、フレーム上の人体の解剖学的目印の検出および位置特定が実行される。人体の解剖学的目印には、たとえば、額、顎、右肩、左肩、右手のひら、左手のひら、右肘、右肘、右腰、左腰、右膝、左膝、右足、左足などが挙げられる。このリストは例示であり、人体の他の部分が検出されてもよい。身体部分の階層が存在し、オブジェクトの正しい検出の検証に使用できる。

図８は、一実装による、ビューファインダー内の識別されたオブジェクトを有するフレームを含むユーザープロセッサ制御電子デバイスの例示的な画面を概略的に示す。人体の、額５０１、顎５０２、右肩５０３、左肩５０４、右手のひら５０５、左手のひら５０６、右肘５０７、左肘５０８、右腰５０９、左腰５１０、右膝５１１、左膝５１２、右足５１３、左足５１４などなどの解剖学的目印がフレーム５００内で識別される。ステップ４２０で、監視システム１００は、短期メモリストレージ４２５とインタラクトして、以前の目印位置に関するデータを抽出することができる。「前の」という用語は、前に分析されたフレームから抽出された情報を指す場合がある。

特定された解剖学的目印は、人間の骨格を生成し、人間の姿勢とアクティビティを検出するための基本ポイントである。人体は、物体認識の深層学習アルゴリズムに基づいて識別される。たとえば、ＺｈｅＣａｏ、ＴｏｍａｓＳｉｍｏｎ、Ｓｈｉｈ−ＥｎＷｅｉＹａｓｅｒＳｈｅｉｋｈ、ａｒＸｉｖ：１６１１．０８０５０、２０１６のアプローチ「Ｒｅａｌ−ｔｉｍｅＭｕｌｔｉ−Ｐｅｒｓｏｎ２ＤＰｏｓｅＥｓｔｉｍａｔｉｏｎｕｓｉｎｇＰａｒｔＡｆｆｉｎｉｔｙＦｉｅｌｄｓ」を使用できる。ここでは、「長・短期記憶」（リカレントニューラルネットワーク）などの機械学習の他のいかなるアルゴリズムも使用できる。

図８を参照すると、２人の人物５００ａおよび５００ｂとペットがフレーム内で識別される。各人は、人体の解剖学的目印に基づいて設計された記述長方形に含まれている。図９は、一実装による監視システム１００の例示的なユーザーインターフェースを示す。つまり図９は、より大きなスケールでの人間の骨格の復元、個人の識別、姿勢検出の例示的な結果を示す。

人物は、彼／彼女の顔または音声の音色によって確実に識別できる。ただし、ほとんどの場合、顔はビデオカメラから見えない。実施形態の１つでは、ビデオカメラの１つは、領域への入り口に向けられているので、少なくともそれは、入ってくるすべての人の顔をキャプチャする。顔または音声の音色によって人物が識別されると、彼／彼女の今日の衣服、髪型、イヤリング、指輪、ブレスレットなどの付属物、彼女の唇の色のサンプル、体型測定値など、この人物の他のすべての指標が測定され、更新される。

そのような指標のいくつかは、監視システム１００に組み込まれている。しかし、実施形態の１つでは、自らに挑戦するかの如く監視システム１００はそれ自体に新たな指標を追加することができ、少しの手がかりさえ使用して、この領域においてさらにより良く「既知」の人々を認識するために自動的に学習する。たとえば、一定時間後、監視システム１００は、例えば、彼／彼女の手の断片のみによって人物を認識するであろう。

たとえば、顔の特徴、音声の音色、または体型測定値など、一部の指標は長期間にわたって一定であることが知られている。衣服などその他の指標は、人が衣服を着替えることができるため、短時間のみ有効である。ただし、そのような「短時間」の指標は、短期間の追跡に対しては非常に堅牢である。多くの場合、衣服は顔よりもカメラに見えやすい。他のいくつかの指標、たとえば髪型などは「中程度の持続時間」を持つことができる。

図６を参照すると、監視システム１００は、検出された人物を「既知」または「未知」と認識する。その人物は正確に識別され、その人物の識別が割り当てられる。図８はまた、識別されたオブジェクトに関する主要な情報、例えば、オブジェクトのタイプ（人物またはペット）、識別、名前、姿勢（立っている、座っている）および状態を表現している。

図６を参照すると、ステップ４３０において、顔の指標、身体の指標、および衣服の指標の読み取りが実行される。監視システム１００は、ビデオストリームのフレーム内の人間の生体パラメータを認識する。監視システム１００は、人間の体の形、ヘアカット、または衣服に基づく識別を使用してもよい。このタイプの識別は信頼性は高くないが、識別レベルの１つで使用できる。行動特性は、限定されないがタイピングリズム、歩行、および声を含む個人の行動パターンに関連している。一実施形態では、人物は声の音色に基づいて識別されてもよい。プライバシーのため、声が録音されない場合がある。監視システム１００は、音の強度および音のスペクトル特性を追跡する。行動特性は監視システム１００のメモリに保存され、分析される。

監視システム１００は、特定のオブジェクトについて典型的なアクティビティの行動、タイプ、および時間を知っている場合がある。ステップ４３０で、監視システム１００は、前のフレームで検出された、検出された顔、身体、衣服の指標に関する情報を含む短期メモリストレージ４３５顔、身体、衣服の指標とインタラクトすることができる。

ステップ４４０で、前のステップから集められ、既知の人物４７４のデータベースから抽出された情報に基づいて個人識別が実行される。

さらに、監視システム１００は、衣服を着替えたばかりの「既知の」人物の識別を可能にする。ステップ４５０で、監視システム１００は、検出された人物が衣服を着替えたかどうかを検証する。誰かが衣服を着替えた場合、監視システム１００はステップ４６０に進み、衣服の指標データを更新し、それを顔、身体、および衣服の指標の短期記憶４３５に追加する。

フレーム内の誰も衣服を着替えていない場合、監視システム１００は、ステップ４７０で、すべての人物が識別されているかどうかをチェックする。識別されたオブジェクトがない場合、監視システム１００は、人物を一意に識別する必要があるかどうか、確認する４７１。例えば、監視システム１００は要求をユーザーに送信して、新しい「未知の」人物を「既知の」人物のデータベース４７４に追加することができる４７３。使用は、リクエストを承認し、個人識別手順でさらに使用され得る検出されたオブジェクトに関する情報（名前、年齢など）を提供する。人物を識別する必要がない場合、監視システム１００は、ステップ４７２でＩＤ＝「未知」を割り当てる。緊急事態（アラーム状態）の場合、この未知の人物の生体認証日付は、外部サービス、たとえばポリシーに転送される。

図７は、図６の続きを示している。ステップ４８０で、監視システム１００は幾何学的位置と個人ＩＤの短期メモリからの情報に基づいたすべてのオブジェクトの幾何学的（空間）位置を更新する４８５。

ステップ４９０で、監視システム１００は、人々のＩＤ、彼らの空間位置、タイムスタンプおよびアクティビティタイプをアラートトリガーのリストと比較する。ここで、事前設定されたアラート条件のデータベース４９２を使用できる。事前設定されたアラート／アラーム条件のデータベース４９２は、血液や武器などの特定のオブジェクトの説明を含むことができる。ステップ４９１でアラートが生成された場合、監視システム１００は、外部システムまたはデバイスおよびユーザー制御デバイスにアラート通知４９４を送信することができる。

ステップ４９１でアラートが生成されない場合、監視システム１００は次のフレームからのデータを処理し続ける４９３。識別の改善のための技術を使用して、監視システム１００の精度を高めることができる。たとえば、そのような技術は、座っていたり、カメラに背を向けてとどまっていたり、１つの部屋から別の部屋へ移動したり、衣服を着替えたり、家具の後ろに隠れている人物を追跡するために使用できる。マイクからの音声データを使用して、人物を追跡する技術を強化することができる。識別されたオブジェクトが１つのカメラのビューファインダーから消え、別のカメラのビューファインダーに表示されない場合に人物を追跡する技術は増強され、システムはそのような識別されたオブジェクトの足跡を失わないようにするために重要である。人物の位置が既知である場合、マイクからの信号と相関している。次に、監視システム１００は、マイクからの信号のみに基づいて人物の協調を回復することができる。

提案された監視システム１００は、例えば、猫、犬などの動物を識別することができる。ペットの識別は、さらなるビデオフレーム分解および分析のために必要である。例えば、監視システム１００は、家が所有者によって一時的に去られている場合、ペットの動きに反応しない。一方、ペットが子供を噛んだ場合、監視システム１００は反応し、アラートを発したり、子供に最も近い指定された大人と接触したりする。この危険な状況を説明するそのようなルールは、ユーザーが監視システム１００に追加することができる。

説明された監視システム１００は適応的である。これは、監視システム１００がさまざまなモードで動作してエネルギーとリソースを節約できることを意味する。図１０は、一実装によるいくつかのモードでの監視システム１００を実行する例示的なブロック図を示す。ステップ７２０で、監視システム１００が起動される。監視システム１００は動作時間の大半を、省エネモードで動作する。ステップ７３０で、監視システム１００は、センサー１００から信号、すなわち低解像度低周波音声およびビデオデータを受信する。ステップ７４０で、監視システム１００は、オブジェクトのわずかなカテゴリとそれらの粗いアクティビティのみを検出する。フレーム内のステップ７５０でアクティビティが検出されない場合、監視システム１００はステップ７２０に戻る。

アクティビティがステップで検出された場合、７５０監視システム１００は、図６および図７に従って上述したように、ステップ７７０でアクティビティのタイプを正確に検出するために、全処理モード７６０に変わる。監視システム１００は、ステップ７８０でのようにいくつかの条件、たとえば、すべてのオブジェクトが領域を離れてＮ秒が経過したかどうかなどを検証してもよい。これらの条件が満たされていない場合、監視システム１００はステップ７２０に戻る。

説明された監視システム１００は、ジェスチャ、話されたフレーズ、または音声信号などの事前に定義されたアラーム信号を認識して、危険な事象の防止の精度を高めることができる。アラーム信号は、監視システム１００が問題を自動的に認識できない場合に必要であり、人が問題について合図する必要がある。図１１は、一実装による、アラーム信号を検出し、外部サービスまたはユーザープロセッサ制御デバイスにアラーム通知を送信するための例示的なブロック図を示す。

ステップ８１０で、監視システム１００は、以前に検出されたアクティビティのタイプの説明を受信する。図１１のフローチャートは、より詳細を提供する。ステップ８２０で、「アラームオン」および「アラームオフ」の秘密のジェスチャの認識が実行される。たとえば、秘密のジェスチャは、監視システム１００の較正段階中に監視システム１００に含まれる。秘密のジェスチャは、異常事象について監視システム１００に通知することを目的とする。秘密のジェスチャは、アラーム通知送信（「アラームオン」秘密のジェスチャ）をトリガーするか、監視システム１００（「アラームオフ」秘密のジェスチャ）が誤ったトリガーに基づいてアクションを実行するのを停止することができる。実施形態の１つでは、監視システム１００は、監視システム１００による認識が特に容易であることが知られているような、事前に訓練された視覚的および聴覚的アラームオン／オフジェスチャまたはフレーズの事前設定リストを有することができる。ユーザーは、このリストから１つまたはいくつかを選択する。

さらに、監視システム１００は、秘密の音声信号を認識することができる。
したがって、ステップ８３０で、監視システム１００は音声フレームを受信することができる。ステップ８４０で、「アラームオン」および「アラームオフ」秘密のフレーズの認識が実行される。例えば、音声フレームの短いメモリ８５０がこの目的のために使用される。

ステップ８６０で、「アラームオン」手動信号が受信され、「アラームオフ」手動信号を受信することにより、Ｍ秒中に「アラームオン」手動信号がキャンセルされなかったかどうかが検証される。これらの条件が満たされない場合、監視システム１００は次のフレームに進み、ステップ８８０で、監視を継続し、検出されたオブジェクトの追跡を続ける。これらの条件が満たされた場合、監視システム１００はステップ８７０でアラート通知を送信する。

次に、監視されている領域に関する情報を有益でコンパクトな方法で提供する高レベルインターフェースについて説明する。提案されている表現技術では、監視下のあるエリアで人々が何をしているのかを理解するために、ユーザーがビデオを見て音声を聞く必要はない。

提案された表現技術により、ユーザーはわずか数秒で監視されている領域の正確な概要を受け取ることができる。結果として、本開示の態様は、追跡プロセスの速度の増加を可能にし、ユーザーの認知的負荷を低減させる。さらに、本開示の態様により、ユーザーはデータを見直して、過去の任意の瞬間を選んで、過去の状況を分析することができる。システムは、過去のオブジェクトの空間的位置を示すトラックを提案する。それは、正確な時刻を選択せずに、現在の瞬間だけでなく過去の領域の状況をも確認するのに役立つ。

図１２は、本発明の一態様に従って動作する例示的なユーザープロセッサ制御デバイス１２００を示す。例示的な例では、ユーザープロセッサ制御デバイスは、ラップトップコンピュータ、パーソナルコンピュータ、スマートフォン、タブレットコンピュータなどを含む任意の電子デバイスによって表され得る。ユーザープロセッサ制御デバイスは、プロセッサ、メモリストレージ、ディスプレイ１２０１、キーボード、入力デバイスなどを含み得る。ユーザープロセッサ制御デバイスは、タッチ入力に反応するエリアによって表され得るタッチ画面入力ユニットを含み得る。ユーザープロセッサ制御デバイス１２００の画面上の、ミニマップを備えた例示的なグラフィカルユーザーインターフェースが表されている。

一実施形態では、監視システムのセンサーからの処理されたデータは、ダッシュボード上に表示され、ユーザーは監視オブジェクトの位置を追跡できる。一実施形態では、コンピュータ処理ユニット１２０によって処理されたデータは、メモリストレージ１３０から抽出されて、ユーザープロセッサ制御デバイス１５０のディスプレイ上に視覚形式で表され得る。

図１３は、ミニマップ４０５と、ユーザープロセッサ制御デバイス１５０の画面上のスライダー１３５０を備えたタイムライン１３４０とを備えたダッシュボード１３００の例示的なグラフィカルユーザーインターフェースを示す。ダッシュボード１３００は、システムのさまざまな態様に関する重要な情報をコンパクトかつ視覚的に表示するカスタマイズ可能な画面を備えている。ダッシュボード１３００は、最も重要な情報、より具体的には、すべての監視されるオブジェクト、そのアクティビティ、および領域内でのその割り当てに関する情報を収集して表す。

たとえば、ダッシュボードはミニマップ（または生成された計画）１３０５を備え得る。ミニマップ１３０５（または言い換えれば、領域の計画）は、特定された幾何学的パラメータに基づいてセキュリティシステム１０５によって生成されてもよい。領域ミニマップの生成は、センサー１１０からのデータに基づいて半自動で実行されてもよい。

たとえば、ジャイロスコープからのカメラの角度に関する情報は、領域の計画をより正確に定義できる。一実施形態では、システムは予備計画の説明を作成し、ユーザーはステップ３３０（図５）で作成された計画の結果を修正して、領域の特定されたパラメータの精度を高めることができる。別の実施形態では、システムは生活空間の説明を、オペレータ支援なしで自動的な方法で作成する。

図１３を参照すると、ＧＵＩインターフェースは、領域の生成されたミニマップ１３００を有する例示的なダッシュボード１３００を表し、監視されるオブジェクトに関する情報は特定の瞬間に示される。設計計画４０５には、すべての領域に関する利用可能な情報、すなわち部屋の割り当て、それらの幾何学的サイズ、窓、ドア、階段、光源、部屋のタイプなどが含まれる場合がある。言い換えれば、生成された計画は、領域のグラフィックイメージを表現し、かつ、監視システムのセンサーから受信および処理されたデータをユーザーに概略的に表すために生成される。たとえば、監視された領域の複数のフロアのための情報、インターフェースは複数のミニマップを互いに接続できる。

ダッシュボード１３０５は、ユーザープロセッサ制御デバイス１５０上のカスタマイズされた画面を表し、グラフィカルユーザーインターフェース（ＧＵＩ）１６０は、アプリケーションの設定を変更する可能性をユーザーに提供する。

例えば、ＧＵＩ１６０により、ユーザーはミニマップの表示モードを定義できる。本明細書では、「ビューモード」という用語は、ミニマップがディスプレイ上でユーザーに表示される方法を指す場合がある。一実施形態では、領域のミニマップは、ユーザープロセッサ制御デバイス１５０の画面上に、概略図または上からの領域の図面として表示されてもよい。本技術の主な特徴の１つは、概略図または漫画の形で情報を表すことである。既存のセキュリティ、監視および制御システムは、ユーザープロセッサ制御デバイスのディスプレイの画面にすべての完全な情報を表示するため、ユーザーの認知的負荷を増大させ、追跡プロセスの速度を低下させる。センサーからのデータの概略的なグラフィックイメージの表示により、システムは最も重要な詳細のみを表示できるため、ユーザーの注意を最も重要な情報に集中させ、追跡プロセスの時間を短縮できる。

別の実施形態では、領域のミニマップは、任意の特定の角度から表示され、ユーザーに存在感を与えることができる。ユーザーは、ミニマップ内を移動して、監視されるべき領域の状況を概観できる。

説明した発明により、ユーザーはユーザープロセッサ制御デバイス１５０の画面上に表されるべき新しい詳細を、ダッシュボードに追加できる。詳細度は、アプリケーションの設定で変更できる。例示的な一実施形態では、ミニマップは、部屋の割り当て、部屋のタイトル（例えば「子供用寝室」１３２１、「子供用浴室」１３２２、「リビングルーム」４２３、「主寝室」１３２４、「主浴室」１３２５）などを示した領域の計画のみを含んでもよい。別の例示的な実施形態では、ミニマップは、ドアおよび窓、家具、または暖炉、スイミングプール、風呂などのその他のオブジェクトの割り当てを含んでもよい。

ミニマップ１３００は、カメラ４２０、マイク、および追加のセンサーの位置に関する情報を含むことができる。

監視されるオブジェクトは、ミニマップ４００上に示され得る。既存の技術と比較して、ミニマップ内の監視されるオブジェクトは、アバター１３２０および概略図によって表され得る。アバターはデフォルトで選択されるか、システムのユーザーによって変更されてもよい。このタイプのオブジェクト表現は、所与のシステムのユーザーの私生活に関する情報のプライバシーを提供する。

さらに、ダッシュボード１３００は、ユーザーがタイムライン１３４０で、一瞬の時間を選択できるようにするスライダー１３５０を備えたタイムライン１３４０を備えてもよい。ユーザーは過去の状況を確認するために、過去のいずれの時間でも選択できる。スライダー１３５０をスクロールすることにより、ユーザーはミニマップ内の情報のグラフィックイメージ表現の動的な変更を開始する。「動的」という用語は、時間内の情報（オブジェクト、オブジェクトのアクティビティ、オブジェクトの割り当て）の変化を意味する。ユーザーは、タッチ入力またはカーソル１２０２を使用して、短時間でスライダーをスクロールして情報を概観でき、情報提供の大幅な高速化を実現する。従来のシステムでは、ユーザーはすべてのビデオデータを見る必要がある。

さらに、現在のユーザーインターフェースは、過去のオブジェクトの空間的位置を示すトラック１３５０を備えてもよい。「トラック」という用語は、オブジェクトの幾何学的パラメータに基づいて識別されるオブジェクトの跡を指す。ミニマップ１３０５内のトラック４６０の表現は、領域内の時間中のオブジェクトの割り当ておよび動きに関する視覚情報を提供する。トラック表示の期間は、例えば３０分など、デフォルトでインストールされる場合があるが、または、ユーザーによって変更されてもよい。

トラックはさまざまな方法でミニマップに表示できる。例えば、トラック１３６０は、異なる強度の色の曲線として描かれてもよい。色の強さは、領域内のオブジェクトの動きの速度を示す場合がある。高強度の色付けが、動きの速い速度を示してもよい。色付けの強度が低いことが、動きの速度が遅いことを示してもよい。

ミニマップ１３０５は、オブジェクトの検出されたアクティビティに関する短く正確な情報を提供し得る。たとえば、ＧＵＩは、例えば「リリーは手を洗っている」１３３２、「ママはソファに座っている」１３３４、「ボブは１０分前に出かけた」１３３３など、アクティビティに関するメモを提供することができる。

一実施形態では、ユーザーは、例えばタッチによってオブジェクトを示し、特定のオブジェクトに関する正確で短い情報を受け取ることができる。たとえば１つリリーアバター１３２０をユーザーが選択するのに応じて、システムは日中のリリーのアクティビティに関する完全な情報を提供できる。たとえば、テキストレポートには、主な事象に関するテキスト情報が含まれる場合がある。たとえば、「リリーは午前９時に目を覚まし、キッチンに行き、看護師と朝食をとり、学習室で２時間過ごし、スイミングプールの近くで１時間過ごした。」、「ママは午前８時３０分に朝食を作り、部屋を掃除し、子供の寝室でリリーと２時間過ごした…」、「ボブは午前８時に薬を飲んだ、本を３時間読んだ、午後１時に家を出た…」など。任意のテキスト読み上げ機能をここで使って、要求された期間の事象を再生することができる。

図１４は、本発明の一態様による、システムのグラフィカルインターフェースとユーザーがインタラクトする例示的なブロック図を示す。システム１００のグラフィカルインターフェースとユーザーをインタラクトさせる方法は、ステップ１４００で始まり、ステップ１４７０まで進む。

ステップ１４１０で、ユーザーはシステムアプリケーションウィンドウを起動し、表示モードを選択できる。次に、ステップ１４２０で、ユーザーは、ユーザープロセッサ制御デバイスのディスプレイ上のダッシュボード１３００上のミニマップ上に監視されている領域に関する情報を示す要求を送信することができる。また、ユーザーは、スライダー１３５０を備えたタイムライン１３４０によってデータ表現の期間を選択してもよい。ユーザーは、光学式マウスやタッチ画面ディスプレイなどの入力デバイスを使用して、タイムライン上に時間を示すことができる。

アプリケーションは、起動すると、セキュリティおよび監視システム１０５のセンサーから受信したユーザーの入力に応答する。一実施形態では、コンピュータ処理ユニット１２０によって処理されたデータは、メモリストレージ１３０から抽出されて、ユーザープロセッサ制御デバイス１５０のディスプレイ上に視覚的な形で表される。

識別されたオブジェクト、それらの位置、および識別されたアクティビティは、ステップ１４５０でダッシュボード１３０５のミニマップに表示される。すべての情報が表されていない場合、ユーザーは次に、ステップ１４２０で追加情報を要求することができ、例えば、ユーザーは、タイムライン１３４０上のスライダー１３５０で特定の瞬間を示す。そうでない場合、ユーザーは領域を監視したり、システムアプリケーションウィンドウを閉じたりしてもよい。

図１５は、家庭環境内に統合されたホームモニタリングおよびセキュリティ監視システムの図を含むさらなる例を提供する。このシステムには、一連のセンサーに接続された処理ユニットが含まれており、通知および緊急通報の機能を備えたインテリジェントなホームモニタリングを提供する。

図１６は、家の中の処理ユニットに接続するＷｉ−Ｆｉ／Ｂｌｕｅｔｏｏｔｈ（登録商標）経由でセンサーおよびビデオ／音声データストリームを提供し、ソフトウェア要求に従って動く、ＣｈｅｒｒｙＣａｍと呼ばれる単一のカメラを備えたセンサーノードの主要コンポーネントの例を示す。それは、次の３つの主要コンポーネントで構成される。
● メインＰＣＢ、
● カメラＰＣＢ、
● バッテリー（取り外し可能および充電可能）。

図１７および１８に、ＣｈｅｒｒｙＣａｍの設計例を示す。

メインＰＣＢに含まれるもの。
ａ．低電力３２ビットマイクロコントローラーＳＴＭ３２Ｆ４シリーズ、
ｂ．ビデオプロセッサＯＶ７９８、
ｃ．バロメーター、
ｄ．加速度計、
ｅ．ジャイロスコープ、
ｆ．磁力計、
ｇ．２ｘＭＥＭＳマイク、
ｈ．光センサー、
ｉ．ＬＥＤインジケータ、
ｊ．フラッシュメモリー、
ｋ．ＷｉＦｉ、Ｂｌｕｅｔｏｏｔｈ（登録商標）４．０、およびＦＭＲＸモジュール、
ｌ．Ｍｉｃｒｏ−ＳＤソケット、
ｍ．スピーカーと音声アンプ、
ｎ．ディスプレイモードスイッチ。

カメラＰＣＢに含まれるもの。
ａ．２ｘＣＭＯＳＲＧＢ画像センサーＯＶ４６８９：恒久的なＩＲフィルター付き
ｂ．赤外線ＬＥＤ、
ｃ．モーションセンサー（ＰＩＲ）。

取り外し可能なバッテリーに含まれるもの（３５００ｍＡｈを超える）。
ａ．マイクロコントローラーＳＴＭ３２Ｌ０シリーズ、
ｂ．ＵＳＢ−Ｃポート、
ｃ．充電およびバッテリー残量ゲージ、
ｄ．ＬＥＤインジケータ、
ｅ．Ｌｉ−Ｐｏｌ３．７Ｖバッテリー、
ｆ．ＱＩ１．２充電モジュール。

使用シナリオの例について説明する。

処理ユニットのホームＷｉ−Ｆｉネットワークへの接続。
１．ユニットを電源に接続する。ＬＥＤインジケータが白く点滅し始める。
２．携帯電話にアプリケーションをインストールする。必要に応じてサインアップしてアカウントを作成する。
３．アプリケーションはユニットを検索し、Ｂｌｕｅｔｏｏｔｈ（登録商標）経由で接続を実行する。
４．ユーザーはアプリケーションを介して必要なデータを入力する。Ｗｉ−Ｆｉネットワークを選択し、キーを入力する。
５．接続が成功した場合、ＬＥＤインジケータは点滅を停止し、白く点灯し始める。
６．イーサネット（登録商標）ケーブルを使用する場合−入力データは不要。

処理ユニットへの接続。
１．ＣｈｅｒｒｙＣａｍにバッテリーを挿入する。ＬＥＤインジケータが白く点滅し始め、音信号が発生する。
２．Ｂｌｕｅｔｏｏｔｈ（登録商標）を介した直接接続（近距離）。
ａ．Ｃｈｅｒｒｙｃａｍがユニットの近くにある場合、Ｂｌｕｅｔｏｏｔｈ（登録商標）経由で直接接続を確立できる。
ｂ．カメラはＢｌｕｅｔｏｏｔｈ（登録商標）経由でユニットを検出し、接続し、ユニットから内部Ｗｉ−Ｆｉパラメータを取得する。
３．電話機アプリケーションを介した接続（遠距離）。
ａ．Ｃｈｅｒｒｙｃａｍがユニットから遠く離れている場合、電話機アプリケーションを使用して間接的に接続を確立できる。
ｂ．電話機がＢｌｕｅｔｏｏｔｈ（登録商標）経由でカメラを検出し、接続を確立する。
ｃ．電話機はＷｉ−Ｆｉ経由でユニットとの接続を確立し、内部Ｗｉ−Ｆｉパラメータを取得して、それをＢｌｕｅｔｏｏｔｈ（登録商標）経由でＣｈｅｒｒｙＣａｍに送信する。
４．接続が成功した場合、ＬＥＤインジケータは点滅を停止し、約２０秒間白く光り始め、その後にオフになる。

スタンバイ状態またはモードが利用可能。次の事象により、スタンバイ状態を起動する場合がある。
● ユニットへの接続後のＣｈｅｒｒｙＣａｍのデフォルト状態。
● 対応するセンサーで動き／ノイズが検出されない場合、タイムアウトが開始される。
●タイムアウト満了で、待機状態が開始される。
● Ｗｉ−Ｆｉ／Ｂｌｕｅｔｏｏｔｈ（登録商標）経由の処理ユニット要求。

スタンバイ状態では、モーションセンサー、マイクセット、およびＢｌｕｅｔｏｏｔｈ（登録商標）がアクティブである。他のコンポーネントはスリープモードである。「キープアライブ」信号も処理ユニットにＷｉ−Ｆｉ／Ｂｌｕｅｔｏｏｔｈ（登録商標）経由で定期的に送信される。

限定されないが、以下のような他の状態またはモードが利用可能である。
● シングル、４８０ｐおよびデイモード。
● シングル、４８０ｐおよびナイトモード、
● シングル、７２０Ｐおよびデイモード、
● シングル、７２０ｐおよびナイトモード、
● シングル、１０８０ｐおよびナイトモード、
● ステレオ、４８０ｐおよびデイモード。
● ステレオ、４８０ｐおよびナイトモード、
● ステレオ、７２０ｐおよびデイモード、
● ステレオ、７２０ｐおよびナイトモード、
● ステレオ、１０８０ｐおよびナイトモード、

例として、「シングル、４８０ｐ、およびデイモード」は次のパラメータを有する。
●状態をアクティブにすることができる事象の例は次のとおりである。
ｏセンサーの範囲内で任意の動きが検出された場合のモーションセンサートリガー。
ｏマイクセットトリガー：マイクセットによって、任意の閾値を超えるノイズが検出された場合。
ｏ処理ユニットトリガー：起動は、Ｂｌｕｅｔｏｏｔｈ（登録商標）／Ｗｉ−Ｆｉを介して処理ユニット信号によって行われる。
ｏ光センサーコマンド、
ｏ処理ユニット要求。
● 操作：ビデオ／音声ストリーム、センサーデータをＷｉ−Ｆｉ／Ｂｌｕｅｔｏｏｔｈ（登録商標）経由で処理ユニットに転送する、および処理ユニット要求に応じた４ＭＰ静止画。４ＭＰ静止画要求があると、カメラは対応するシングルモードに切り替えられ（約１秒間）、静止画を撮影して現在のモードに戻る。

例として、「シングル、４８０ｐおよびナイトモード」は次のパラメータを有する。

● 状態をアクティブにすることができる事象の例は次のとおりである。
ｏセンサーの範囲内で任意の動きが検出された場合のモーションセンサートリガー、
ｏマイクセットトリガー：マイクセットによって、任意の閾値を超えるノイズが検出された場合、
ｏ処理ユニットトリガー：起動は、Ｂｌｕｅｔｏｏｔｈ（登録商標）／Ｗｉ−Ｆｉを介して処理ユニット信号によって行われる。
ｏ光センサーコマンド；
ｏ処理ユニット要求。
● 操作：ビデオ／音声ストリーム、センサーデータをＷｉＦｉ／Ｂｌｕｅｔｏｏｔｈ（登録商標）経由で処理ユニットに転送する。

注
上記で参照された構成は、本発明の原理の応用の例示にすぎないことを理解されたい。本発明の精神および範囲から逸脱することなく、多数の修正および代替の構成を考案することができる。本発明は図面に示されているが、現在、本発明の最も実用的で好ましい例と考えられるものに関連して、特殊性および詳細を用いて上記で十分に説明したが、当業者には、本明細書に記載される本発明の原理および概念から逸脱することなく多くの修正を行うことができることが明らかであろう。

Claims

監視システムであって、前記監視システムが、
指定された領域内のアクティビティを監視するセンサーであって、前記センサーが
ビデオ録画を行う視覚センサーを備える、前記センサーと、
前記指定された領域内またはその近くに配置されたローカル処理システムであって、前記ローカル処理システムが前記センサーから信号を受信し、前記ローカル処理システムが前記センサーからの前記信号を処理および分析して、前記センサーによって監視されたように前記指定された領域内のアクティビティを説明するメッセージを生成し、
前記メッセージが、前記指定された領域内の人物の身元を直接明らかにする音声、視覚、またはその他の直接識別情報を含まない、前記ローカル処理システムと、
前記指定された領域外の監視ステーションであって、前記監視ステーションが、前記ローカル処理システムによって生成された前記メッセージを受信し、前記メッセージを外部監視者が利用できるようにする、前記監視ステーションと、を備える前記監視システム。
前記メッセージが、前記指定された領域内の人物または動物によって実行されるアクションを十分に説明し、外部監視者が、外部介入がいつ必要かを決定できるようにする、請求項１に記載の監視システム。
前記メッセージが、外部介入が必要とされる可能性があることを示す人物または動物によって実行されるアクションを説明するときに、前記監視ステーションがアラームを生成する、請求項１または２に記載の監視システム。
前記センサーが、
子ども、障害者、病人、または老人を監視するように選択される、請求項１〜３に記載の監視システム。
前記監視ステーションが前記ローカル処理システムに外部監視者からのクエリを転送するとき、ローカルプロセッサがメッセージで応答し、前記メッセージの内容が、
前記センサーからの前記信号を処理および分析することにより検出された、前記指定された領域内のアクティビティに基づく、請求項１〜４に記載の監視システム。
前記メッセージが、前記センサーによって所定のジェスチャまたは所定のフレーズが検出されたことを示すときに、前記監視ステーションがアラートを生成する、請求項１〜５に記載の監視システム。
前記メッセージが、前記センサーによって所定のキャンセルジェスチャまたは所定のキャンセルフレーズが検出されたことを示すときに、前記監視ステーションが前記アラートをキャンセルする、請求項６に記載の監視システム。
前記ローカル処理システムが、
以下の技術、
顔の特徴を識別して記録する顔指標識別、身体上の衣服のタイプを検出および記録する衣服指標識別、
身体の形状を検出および記録する身体指標識別、
身体の現在のアクティビティを検出および記録するアクティビティ指標識別、ヘアカットスタイルを検出および記録するヘアカット指標識別、
保持しているか、または身体の近くにある物体を検出および記録するツール指標識別、のうちの少なくとも１つを使用して、ビデオデータに基づいて、前記指定された領域内の人々および動物の身体を内部的に識別する、請求項１〜７に記載の監視システム。
前記ローカル処理システムが、前記指定された領域内の身体に加えられた変更を認識し、影響を受ける指標識別を更新する、請求項８に記載の監視システム。
前記ローカル処理システムが、
識別された身体の運動学的な動きを分析して、物理法則と一致する動きを保証し、身体を内部的に識別する際の矛盾を検出および解決する、請求項８に記載の監視システム。
前記ローカル処理システムが、音声データをさらに使用して、前記指定された領域内の人々および動物の身体を内部的に識別し、
前記音声データが、音色指標と相対的な音の振幅とを含む、請求項１０に記載の監視システム。
前記ローカル処理システムが、以下の技術、
顔の特徴を識別して記録する顔指標識別、
身体上の衣服のタイプを検出および記録する衣服指標識別、身体の形状を検出および記録する身体指標識別、
身体の現在のアクティビティを検出および記録するアクティビティ指標識別、ヘアカットスタイルを検出および記録するヘアカット指標識別、
保持しているか、または身体の近くにある物体を検出および記録するツール指標識別、
のうちの２つ以上を使用して、ビデオデータに基づいて、前記指定された領域内の人々および動物の身体を内部的に識別する、請求項１〜１１に記載の監視システム。
前記指定された領域が、以下の、
学校、
刑務所、
病院、
ショッピングモール、通り、
オフィス、
駐車場、のうちの少なくとも１つのエリアを含む、請求項１〜１２に記載の監視システム
前記指定された領域が、複数の部屋を備え、前記ローカル処理システムが、前記センサーからのビデオデータを使用して前記領域のレイアウト計画を構築する、請求項１〜１３に記載の監視システム。
前記ローカル処理システムが、音声データをさらに使用して、前記レイアウト計画を構築する、請求項１４に記載の監視システム。
前記領域の前記レイアウト計画を構築するとき、
前記ローカル処理システムが、以下の、水平線と垂直線を検出することに基づく部屋の形状の推定値、ビデオセンサーの視野内の主要なオブジェクトの検出、
既知の部屋タイプのデータベースに基づいて部屋タイプフォームを認識するニューラルネットワークアルゴリズム、
ルーム、
音声センサーによって検出された構成音声信号内のユーザーの要求された構成アクティビティに基づく測定値、のうちの少なくとも１つを利用する、請求項１４に記載の監視システム。
指定された領域内のアクティビティを監視する方法であって、前記方法が、
センサーを使用してビデオ録画を行うこと、
前記センサーから前記指定された領域内またはその近くにあるローカル処理システムに信号を転送すること、
前記ローカル処理システムを使用して、前記センサーからの信号を処理し、分析して、前記センサーによって監視されたように前記指定された領域内のアクティビティを説明するメッセージを生成することであって、ここで、前記メッセージが、前記指定された領域内の人物の身元を直接明らかにする、音声、視覚または他の直接識別情報を含まない、生成すること、
前記指定された領域外の監視ステーションに前記メッセージを送信することであって、前記監視ステーションが前記メッセージを外部監視者に使用可能にする、送信すること、を備える方法。
前記メッセージが、前記センサーによって所定のジェスチャまたは所定のフレーズが検出されたことを示すとき、前記監視ステーションがアラートを生成すること、をさらに含む、請求項１７に記載の方法。
以下の技術の、
顔の特徴を識別して記録する顔指標識別、
身体上の衣服のタイプを検出および記録する衣服指標識別、身体の形状を検出および記録する身体指標識別、
身体の現在のアクティビティを検出および記録するアクティビティ指標識別、ヘアカットスタイルを検出および記録するヘアカット指標識別、および、
保持しているか、または身体の近くにある物体を検出および記録するツール指標識別、のうちの１つ以上を使用して、ビデオデータに基づいて前記指定された領域内の人々および動物の身体を内部的に識別することをさらに含む、請求項１７に記載の方法。
前記センサーによって音声データを記録することであって、前記音声データが、前記指定された領域内の人々および動物の身体を内部的に識別するために使用され、前記音声データが、音色指標と相対的な音の振幅とを含む、記録すること、をさらに含む、請求項１７に記載の方法。