JP7156655B1

JP7156655B1 - 監視システム、監視方法、及び、監視システム用の画像認識装置の学習方法

Info

Publication number: JP7156655B1
Application number: JP2022104908A
Authority: JP
Inventors: 三郎山内
Original assignee: Earth Eyes Co Ltd
Current assignee: Earth Eyes Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-10-19
Anticipated expiration: 2042-06-29
Also published as: JP2024004972A

Abstract

【課題】撮影部と、クライアントと、サーバと、からなる監視システムにおいて、ネットワーク上で伝送される通信量の増大やサーバ側での処理負担を抑えながら、個々の監視対象領域において、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視を実現する。【解決手段】クライアント２は、監視対象人物特定部２１と、監視対象人物の位置及び動作を特定可能な骨格情報を抽出して、サーバ３にアップロードする骨格情報抽出部２２と、サーバ３からダウンロードした監視対象人物の不審度を出力する不審度情報出力部２３と、を備え、サーバ３は、背景画像記憶部３１と、ディープラーニング型の画像認識装置であって、クライアント２からアップロードされた骨格情報と、背景画像記憶部３１に予め記憶されている背景画像情報と、を入力することにより、監視対象人物の不審度を判定する不審度判定部３２と、を備える、監視システム１０とする。【選択図】図１

Description

本発明は、監視システム、監視方法、及び、監視システム用の画像認識装置の学習方法に関する。本発明は、詳しくは、監視対象領域を撮影する撮影部、クライアント、及び、サーバからなる監視システム、及び、そのような構成からなる監視システムを用いて行われる監視方法、及び、そのような構成からなる監視システム用の画像認識装置の学習方法に関する。

従来、防犯や防災等の目的で監視カメラを用いた監視システムが利用されている。この種の監視システムは、一般に、監視カメラと情報処理装置とを含んで構成されており、例えば、店舗や商業施設、公共施設等の所定の監視対象領域内に設置した監視カメラによって撮影された監視画像を認識することによって監視対象領域の監視が行われている。

例えば、特許文献１、２には、監視画像内の監視対象人物の不審動作等、予め設定されている「特異的な動作」を画像認識によって認識する方法が開示されている。具体例として、「上部領域（頭部）の特異的な運動量の増加」から、当該監視対象人物の不審な動作（例えば、過剰に周辺を見回す動作等）を定型的な動作の一つとして把握することによって、不審動作を発見する技術が、既存の監視システムにおいて既に実現されている。又、最新の監視システムにおいては、例えば、特許文献３に開示されているように、監視対象の動作の不審度の判定を、ディープラーニングを用いた画像認識処理を利用して行う技術も実現されている。

ここで、ディープラーニングを用いた画像認識処理を行うためには、高い演算処理能力が必要である。そのため、従来の監視システムにおいては、監視画像から検出された監視対象の動作の不審度の判定を行うめのディープラーニングを用いた画像認識処理は、個々の監視カメラが接続されている情報処理端末（クライアント）においてではなく、ネットワーク上に接続されている大型の演算処理装置であるサーバにおいて集中的に行われることが一般的であった。但し、このように、多数の監視カメラで撮影された監視画像の画像データをネットワーク上のサーバに集積して集中的に処理する場合、ネットワーク上で伝送される画像データの通信量が膨大となり、通信効率の低下に起因する処理の遅延が発生するリスクが高まる。又、多数の監視対象領域から並行して送信されてくる膨大な画像データの画像認識の処理量が、サーバの処理能力の限界を超えてしまうこともあった。

これらの問題に対して、特許文献４においては、個々の監視カメラがディープラーニングを用いた画像認識処理による不審度の判定を行うように監視システムを構成し、尚且つ、ネットワーク上に接続されているサーバが、個々の監視カメラの処理能力に関する情報等に基づいて、個々の監視カメラの実行する処理を、個々の監視カメラ毎に最適に制御することにより、ネットワーク上の通信量の過剰な増加を抑制する監視システムが提案されている。

しかしながら、特許文献４に開示されている監視システムを導入するためには、個々の監視対象領域、即ち、個々の店舗や商業施設、公共施設等毎に、ディープラーニングを用いた画像認識処理による不審度の判定を行うことができる高性能のカメラを導入する必要がある。このような高性能のカメラの導入の要請があると、既存の監視カメラの流用は難しく、システムの導入コストが嵩むため、特に、小規模な小売店舗等においては、このコスト負担の大きさが、このようなシステム導入の妨げとなっていることが多かった。

特許第５８９９５０６号公報特許第６５８１２８０号公報特許第６５３４４９９号公報特許第６９８９２９４号公報

本発明は、上記状況に鑑み、監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムにおいて、ネットワーク上で伝送される通信量の増大やサーバ側での処理負担を抑えながら、個々の監視対象領域において、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視を実現することを目的とする。

本発明者らは、上記構成からなる監視システムを、個々のクライアントによって、監視画像から検出した監視対象の骨格情報のみを、ディープラーニング型の画像認識装置を備えるサーバに送信して、当該サーバにおいては、この骨格情報と、予め記憶されている監視対象領域の背景画像情報と、を用いて、監視対象人物の不審度を判定するシステムとすることによって上記課題が解決できることに想到し、本発明を完成させた。本発明は、具体的に以下のシステム及び方法を提供する。

（１）監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムであって、前記クライアントは、前記撮影部が撮影した監視画像から監視対象人物を検出して特定することができる監視対象人物特定部と、複数の特徴点を連接する骨格線で構成されていて前記監視対象人物の位置及び動作を特定可能な骨格情報を抽出して、前記サーバにアップロードする骨格情報抽出部と、前記サーバからダウンロードした前記監視対象人物の不審度を出力する不審度情報出力部と、を備え、前記サーバは、前記監視対象領域の背景画像情報を記憶する背景画像記憶部と、ディープラーニング型の画像認識装置であって、前記クライアントからアップロードされた前記骨格情報と、前記背景画像記憶部に予め記憶されている前記背景画像情報と、を入力することにより、前記監視対象人物の不審度を判定する不審度判定部と、を備える、監視システム。

（１）の監視システムによれば、監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムにおいて、ネットワーク上で伝送される通信量の増大やサーバ側での処理負担を抑えながら、個々の監視対象領域において、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視を実現することができる。

（２）前記サーバが、前記クライアントからアップロードされた前記骨格情報と、該骨格情報に対応する背景画像情報であって前記背景画像記憶部に記憶されている背景画像情報とを、教師データとして前記画像認識装置に入力することによって、前記画像認識装置の備える多層式ニューラルネットワークに学習をさせる学習支援部を備える、（１）に記載の監視システム。

（２）の監視システムによれば、ディープラーニング型の画像認識装置である不審度判定部により監視画像を認識することによって監視対象者の不審度を判定する監視システムにおいて、ネットワーク上で伝送される通信量の増大を抑えながら、大量の教師データを学習させることによる学習済みモデルの生成を行うことができる。

（３）複数の前記クライアントと、前記サーバと、からなり、前記学習支援部は、複数の前記クライアントからアップロードされた前記骨格情報を、前記教師データとして前記画像認識装置に入力する、（２）に記載の監視システム。

（３）の監視システムによれば、ディープラーニング型の画像認識装置である不審度判定部に教師データとして入力する画像をより多く取得することができる。これにより、（２）の監視システムにおいて享受することができる上記効果をより好ましい水準で享受することができる。

（４）前記撮影部が２次元情報のみを有する監視画像を撮影可能な単眼カメラであって、前記クライアントが、前記監視画像中の位置を前記監視対象領域である３次元空間内における実際の位置と関連付けて特定可能な座標を設定する座標設定部を、更に備え、前記骨格情報抽出部は、前記座標設定部が設定した前記座標に基づいて、前記特徴点の前記監視対象領域３次元空間内における位置及び動きを前記骨格情報として抽出する、（１）から（３）の何れかに記載の監視システム。

（４）の監視システムによれば、例えば、個々の店舗等においては、高価な３Ｄカメラ等を導入することなく廉価で取得可能な単眼カメラによって、（１）から（３）の何れかに記載の監視システムを構成することができる。これにより、個々の監視対象領域におけるシステムの導入コストを低く抑えることができるので、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視システムの普及を促進させることが期待できる。

（５）（３）に記載の監視システムにおいて、複数の前記クライアントからアップロードされた前記骨格情報を、前記教師データとして前記画像認識装置に入力して学習をさせる、監視システム用画像認識装置の学習方法。

（５）の監視システム用画像認識装置の学習方法によれば、ディープラーニング型の画像認識装置により監視画像を認識することによって監視対象者の不審度を判定する監視システムにおいて、ネットワーク上で伝送される通信量の増大を抑えながら、大量の教師データを学習させることによる学習済みモデルの生成を行うことができる。

（６）監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムを用いる監視方法であって、前記撮影部が、監視対象領域を撮影する監視撮影ステップと、前記クライアントを構成する監視対象人物特定部が、前記撮影部が撮影した監視画像から監視対象人物を検出して特定する、監視対象人物特定ステップと、前記クライアントを構成する骨格情報抽出部が、複数の特徴点を連接する骨格線で構成されていて前記監視対象人物の位置及び動作を特定可能な骨格情報を抽出する、骨格情報抽出ステップと、ディープラーニング型の画像認識装置であって前記サーバを構成する不審度判定部が、前記クライアントからアップロードされた前記骨格情報と、前記サーバを構成する背景画像記憶部に予め記憶されている背景画像情報から前記監視対象人物の不審度を判定する、不審度判定ステップと、前記クライアントを構成する不審度情報出力部が、前記サーバからダウンロードした不審度情報を出力する、不審度情報出力ステップと、を備える、監視方法。

（６）の監視方法によれば、監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムにおいて、ネットワーク上で伝送される通信量の増大やサーバ側での処理負担を抑えながら、個々の監視対象領域において、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視を実現することができる。

（７）前記サーバを構成する学習支援部が、前記クライアントからアップロードされた前記骨格情報と、該骨格情報に対応する背景画像情報であって前記背景画像記憶部に記憶されている背景画像情報とを、教師データとして前記画像認識装置に入力することによって、前記画像認識装置の備える多層式ニューラルネットワークに学習をさせる、（６）に記載の監視方法。

（７）の監視方法によれば、ディープラーニング型の画像認識装置である不審度判定部により監視画像を認識することによって監視対象者の不審度を判定する監視方法において、ネットワーク上で伝送される通信量の増大を抑えながら、大量の教師データを学習させることによる学習済みモデルの生成を行うことができる。

（８）２次元情報のみを有する監視画像を撮影可能な単眼カメラであって、前記監視撮影ステップが行われた後に、前記クライアントを構成する座標設定部が、前記監視画像中の位置を前記監視対象領域である３次元空間内における実際の位置と関連付けて特定可能な座標を設定する座標設定ステップを、更に備え、前記骨格情報抽出ステップにおいては、前記座標設定ステップにおいて設定された前記座標に基づいて、前記特徴点の前記監視対象領域３次元空間内における位置及び動きを前記骨格情報として抽出する、（６）又は（７）に記載の監視方法。

（８）の監視方法によれば、例えば、個々の監視対象領域の監視を行う個々の店舗等においては、高価な３Ｄカメラ等を導入することなく廉価で取得可能な単眼カメラによって、（６）又は（７）に記載の監視方法を実施することができる。これにより、個々の監視対象領域における監視プロセスを行うための初期コストを低く抑えることができるので、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視プロセスの普及を促進させることが期待できる。

（９）（６）又は（７）に記載の監視方法において、前記監視対象人物特定ステップ、骨格情報抽出ステップ、及び、前記不審度情報出力ステップを、前記クライアントを構成する前記監視対象人物特定部、前記骨格情報抽出部、及び、前記不審度情報出力部に実行させ、前記不審度判定ステップを、前記サーバを構成する不審度判定部に実行させる、監視システム用のプログラム。

（９）のプログラムによれば、監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムにおいて、ネットワーク上で伝送される通信量の増大やサーバ側での処理負担を抑えながら、個々の監視対象領域において、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視を実現することができる。

（１０）監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムであって、前記クライアントは、前記撮影部が撮影した監視画像から監視対象人物を検出して特定することができる監視対象人物特定部と、単色の平面図形で構成されていて前記監視対象人物の個人の特定は視認不可能に加工されていて、前記監視対象人物の位置を特定可能なアバターを生成するアバター生成部と、前記サーバからダウンロードした前記監視対象人物の不審度を出力する不審度情報出力部と、を備え、前記サーバは、前記監視対象領域の背景画像情報を記憶する背景画像記憶部と、ディープラーニング型の画像認識装置であって、前記クライアントからアップロードされた前記アバターの位置情報と、前記背景画像記憶部に予め記憶されている前記背景画像情報と、を入力することにより、前記監視対象人物の不審度を判定する不審度判定部と、を備える、監視システム。

（１０）の監視システムによれば、一例として、侵入禁止エリアが特定されていて、個々の監視対象者の位置を監視することが必要な監視対象領域の監視を行う場合において、既存の汎用的な監視カメラ等を用いて構成することが可能でありながら、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視を実現することができ、尚且つ、ネットワーク上で伝送される通信量の増大やサーバ側での処理負担を抑えて不審度の判定や伝達の遅延を回避することができる。

（１１）監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムを用いる監視方法であって、前記撮影部が、監視対象領域を撮影する監視撮影ステップと、前記クライアントを構成する監視対象人物特定部が、前記撮影部が撮影した監視画像から監視対象人物を検出して特定する、監視対象人物特定ステップと、前記クライアントを構成するアバター生成部が、単色の平面図形で構成されていて前記監視対象人物の個人の特定は視認不可能に加工されていて、前記監視対象人物の位置を特定可能なアバターを生成する、アバター生成ステップと、ディープラーニング型の画像認識装置であって前記サーバを構成する不審度判定部が、前記クライアントからアップロードされた前記アバターの位置情報及び前記監視対象領域の背景画像情報から、前記監視対象人物の不審度を判定する、不審度判定ステップと、前記クライアントを構成する不審度情報出力部が、前記サーバからダウンロードした不審度情報を出力する、不審度情報出力ステップと、を備える、監視方法。

（１１）の監視方法によれば、一例として、侵入禁止エリアが特定されていて、個々の監視対象者の位置を監視することが必要な監視対象領域の監視を行う場合において、既存の汎用的な監視カメラ等を用いて構成することが可能でありながら、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視を実現することができ、尚且つ、ネットワーク上で伝送される通信量の増大やサーバ側での処理負担を抑えて不審度の判定や伝達の遅延を回避することができる。

（１２）（１１）に記載の監視方法において、前記監視対象人物特定ステップ、アバター生成ステップ、及び、前記不審度情報出力ステップを、前記クライアントを構成する前記監視対象人物特定部、前記アバター生成部、及び、前記不審度情報出力部に実行させ、
前記不審度判定ステップを、前記サーバを構成する不審度判定部に実行させる、
監視システム用のプログラム。

（１２）のプログラムによれば、一例として、侵入禁止エリアが特定されていて、個々の監視対象者の位置を監視することが必要な監視対象領域の監視を行う場合において、既存の汎用的な監視カメラ等を用いて構成することが可能でありながら、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視を実現することができ、尚且つ、ネットワーク上で伝送される通信量の増大やサーバ側での処理負担を抑えて不審度の判定や伝達の遅延を回避することができる。

本発明によれば、監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムにおいて、ネットワーク上で伝送される通信量の増大やサーバ側での処理負担を抑えながら、個々の監視対象領域において、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視を実現することができる。

本発明の監視システムの基本構成を示すブロック図である。本発明の監視システムにおいて、ネットワークを通じてアップロード或いはダウンロードされるデータの説明に供する図面である。本発明の監視システムの実施形態の一例であり、複数のクライアントと単一のサーバとが通信可能に接続されている実施形態におけるネットワーク構成を模式的に示す図面である。本発明の監視システムが備える監視対象人物特定部によって、監視画像中の監視対象人物が特定されている状態を示す図である。本発明の監視システムが備える骨格情報抽出部によって、図４の監視対象人物から骨格情報が抽出されている状態を示す図である。本発明の監視システムが備える骨格情報抽出部によって、骨格の特徴点が、３次元情報（奥行情報）を含む座標上に重ね合わされている状態を示す図である。本発明の監視システムが備える骨格情報抽出部によって、上記の特徴点の位置の変動に係る情報に基づいて、監視対象人物の運動が認識される状態を示す図である。本発明の監視システムが備える骨格情報抽出部によって認識された、監視対象の速度ベクトルを示す図である。監視画像の背景画像であって、当該画像中に、「監視対象領域３次元空間内における位置」と関連付けされた座標が設定されている状態の一例を示す図である。本発明の監視方法の流れを示すフロー図である。本発明の監視システム用画像認識装置の学習方法の流れを模式的に示すフロー図である。本発明の監視システムの他の実施形態の構成を示すブロック図である。本発明の監視方法の他の実施態様の流れを示すフロー図である。本発明の監視システムの他の実施形態において、アバター生成部が生成するアバターの一例である。

以下、本発明を実施するための形態について、適宜図面を参照しながら詳細に説明する。以下の説明では、本発明の監視システム及び監視方法等について、その具体的な構成の一例を示して説明を行う。但し、本発明の技術的範囲は、以下の実施形態等に限定されるものではなく、本発明の技術思想の範囲内において適宜変更して実施することができる。

＜監視システム＞
本発明の監視システムは、店舗や工事現場等において監視対象領域を撮影する撮影部と、撮影部が撮影した監視画像の一次的な処理を行う情報処理端末（クライアント）と、個々のクライアントからアップロードされた画像情報を、ディープラーニング型の画像認識装置により認識することによって監視対象者の不審度を判定する処理を行うサーバとによって構成される監視システム全般に広く適用することができる技術である。

［全体構成］
図１は、本発明の監視システムの実施形態の一つである監視システム１０の基本構成を示すブロック図であり、図２は、監視システム１０の基本動作を示すシステム概念図であり、監視システム１０において、ネットワークを通じてアップロード或いはダウンロードされるデータの説明に供する図面である。これらの各図に示す通り、監視システム１０は、監視対象領域を撮影し、それによって得た監視画像の画像データをクライアント２に送信する撮影部１、監視画像の画像データから監視対象人物に係る画像データを抽出してサーバ３にアップロードするクライアント２、及び、クライアント２からアップロードされた画像データを認識して監視対象人物の不審度を判定する処理を行うサーバ３が、ネットワークを介して相互に情報通信可能に接続されてなる情報処理システムである。上記各部分間の接続は、専用の通信ケーブルを利用した有線接続、或いは、有線ＬＡＮによる接続とすることができる。又、有線接続に限らず、無線ＬＡＮや近距離無線通信、携帯電話回線等の各種無線通信を用いた接続によって監視システム１０を構成することもできる。

上記のように、撮影部１、クライアント２、及び、サーバ３の各部分を相互に情報通信可能に接続して構成される監視システム１０において、少なくとも、撮影部１は、監視対象となる監視対象領域内、或いは、当該領域を撮影可能な監視対象領域近傍に設置される。又、クライアント２（２Ａ～２Ｄ）についても撮影部１と共に監視対象領域内等に設置することが一般的な構成とはなるが、クライアント２については、必ずしも、当該監視対象領域内やその近傍に設置することが必須ではなく、ネットワークを介して上記通信が可能とされている任意の位置、例えば、監視対象領域から物理的に離れた任意の場所にある他の管理施設内等にクライアント２を配置することもできる。

監視システム１０の監視対象領域は、複数の相互に離間した場所に任意に設定することができる。各々の監視対象領域１００、２００内においては、一つのクライアント２（２Ａ～２Ｄ）に対して、複数の撮影部１（１Ａ～１Ｄ）を接続することができるし、単一の監視対象領域１００、２００内に、複数のクライアント２（２Ａ～２Ｄ）を配置することもできる（図３参照）。尚、監視システム１０においては、撮影部１とクライアント２とを一つの情報処理装置として一体化した構成、或いは、クライアント２の一部の構成のみを撮影部１内に搭載した構成とすることもできる。

サーバ３については、上述の通り、ネットワークを介してクライアント２と相互に情報通信可能に接続されている限りにおいて、当該ネットワーク上の任意の場所に設置することができる。例えば、監視システム１０において要求される、以下に説明する各部の発揮する機能を享受することができる限りにおいては、クラウド上に分散して存在する各種の情報処理装置の機能を、サーバ３として統合的に利用することによって、監視システム１０を構成することもできる。

［撮影部］
撮影部１は、各種の監視カメラによって構成することができる。具体的には、撮影した監視画像を、クライアント２で演算処理することができるようにデジタル形式の画像データに加工して、当該画像データをクライアント２に向けて出する機能を有するものであれば、既存の各種のデジタルカメラを特に制限なく撮影部１を構成する監視カメラとして用いることができる。

又、監視システム１０においては、監視画像中の位置を監視対象領域である３次元空間内における実際の位置と関連付けて特定可能な座標を設定する座標設定部（図示せず）を、システム内に更に備えることにより、撮影部１を構成する監視カメラを、監視対象領域３次元空間を２次元の画像として撮影する汎用的な単眼のカメラで構成することができる。尚、この座標設定部は撮影部１を構成する監視カメラに内蔵されていてもよいし、別途の装置としてクライアント２の追加構成として付加されていてもよい。２次元の画像情報から３次元座標を生成可能な座標設定部を設けることにより、距離測定デバイスや３Ｄカメラ等を導入することなく廉価で取得可能な単眼カメラによってのみ取得された２次元情報のみを有する画像からであっても、自動的な処理のみにより高い精度で監視対象人物の不審度の判定に必要な画像データを抽出することができる。

［クライアント（情報処理端末）］
クライアント２は、撮影部１から送信された画像データから、サーバ３での画像認識処理に用いるデータを抽出する演算処理を行う情報処理装置である。クライアント２は、少なくとも、監視対象人物特定部２１、骨格情報抽出部２２、及び、不審度情報出力部２３を備えている。又、上述の通り、座標設定部が更に備えられていてもよい。

上記の構成を備えるクライアント２は、例えば、パーソナルコンピュータやタブレット端末、スマートフォン等を利用して構成することができる。或いは、クライアント２は、監視システム１０を作動させるための機能に特化した専用の情報処理装置によって構成することもできる。これらの何れの構成においても、クライアント２は、ＣＰＵ、メモリ、通信部等のハードウェアを備えている。そして、このような構成からなるクライアント２は、下記に詳細を説明するサーバ３と連動して、本発明に係るコンピュータプログラムである「監視システム用のプログラム」を実行することにより、以下に説明する監視作業のための各種動作を具体的に実行することができる。

（監視対象人物特定部）
監視対象人物特定部２１は、一例として、図４に示すように、監視画像中の監視対象人物（人Ｈ）を自動的に検出して、これを監視対象として特定する処理を行う。このような監視対象人物の検出と特定は、例えば、背景差分によって監視領域内の「人」を検出することによって行うことができる。この背景差分は公知の技術であり、撮影部１を構成する監視カメラで取得された画像データと、事前に取得しておいた監視領域の背景画像との差分をとることで、動きのある監視対象を検出する技術である。

尚、監視対象人物特定部２１に、ディープラーニングを用いた画像認識処理を実行可能な機能を備えさせることによって、検出された監視対象人物のカテゴリー（管理者側のメンバーであるか否か等）や、パーソナリティ情報（性別・年齢等）も、自動的に特定することができる。このような特定を行うための画像認識技術としては、例えば、下記に公開されている技術を利用することができる。
「ディープラーニングと画像認識、オペレーションズ・リサーチ」
（ｈｔｔｐ：／／ｗｗｗ．ｏｒｓｊ．ｏ．ｊｐ／ａｒｃｈｉｖｅ２／ｏｒ６０－４／ｏｒ６０＿４＿１９８．ｐｄｆ）

（骨格情報抽出部）
骨格情報抽出部２２は、一例として図５～図８に示すように、監視対象人物特定部２１において特定された監視対象人物（人Ｈ）について、複数の特徴点を連接する骨格線で構成されていて、監視対象人物の監視対象領域の３次元空間内における位置及び動作を特定可能な「骨格情報」を抽出する処理が行われる。尚、抽出した「骨格情報」は、ネットワークを通じてサーバ３にアップロードされる。

本明細書において、監視対象人物の「骨格」とは、監視対象人物の複数の特徴点とこれらを連接してなる骨格線によって構成される線状の図形のことを言う。図５は、骨格情報抽出部２２によって、監視対象人物である人Ｈから「骨格」が抽出されている状態を示す図である。図５においては、監視対象人物である人Ｈの頭頂部、左手ｈ２、及び、その他の四肢の先端や主たる関節部分に対応する位置が特徴点（ｈ１、・・・、ｈｎ）として把握されており、これらの複数の特徴点と、それらを連接する線分（骨格線）とによって形成される監視対象人物である人Ｈの「骨格」が、２次元画像である監視画像内の図形として認識されている。

監視対象人物の骨格の抽出は、具体的には、従来公知の様々な手法の何れか、又は、それらを組合せて行うことができる。一例として、下記文献に開示されている「ＯｐｅｎＰｏｓｅ」と称される技術を用いることにより、２次元の監視画像から「人」の骨格を抽出することが可能である。
「ＺｈｅＣａｏ他ＲｅａｌｔｉｍｅＭｕｌｔｉ－Ｐｅｒｓｏｎ２ＤＨｕｍａｎＰｏｓｅＥｓｔｉｍａｔｉｏｎｕｓｉｎｇＰａｒｔＡｆｆｉｎｉｔｙＦｉｅｌｄｓ，ＣＶＰＲ２０１７」

そして、監視対象人物として特定された人Ｈの監視対象領域の３次元空間内における位置及び動作を特定可能な「骨格情報」は、上記のようにして抽出された骨格について、これを構成する各特徴点の「監視対象領域３次元空間内における位置と速度」を特定することによって得ることができる。図６は、監視対象人物として特定された人Ｈについて、抽出されたそれぞれの骨格の特徴点（ｈ１、ｈ２、・・・ｈ５）が、監視画像に予め設定されている３次元情報（奥行情報）を含む座標上に重ね合わされている状態を示す図である。図６に示すように、人Ｈの骨格の脚部先端近傍の特徴点（ｈ３、ｈ５）の位置が、３次元情報（奥行情報）を含む座標上におけるどの位置を占めているか（どのグリッド内にあるか）によって、人Ｈの立ち位置が斜線部分のグリッド内であることを特定することができる。又、図７、図８に示すように、監視対象人物として特定された「人Ｈ」の２次元監視画像から抽出された複数の各特徴点（ｈ１～ｈ５等で構成される複数の特徴点）の「監視対象領域３次元空間内における位置及び速度」の変動に係る情報に基づいて、監視対象領域３次元空間内での監視対象の動作を特定することができる。

尚、クライアント２において、監視対象人物と併せて監視対象となる物も同様にして検出することにより、物に対する人の動作をより正確に認識することも可能である。図７、図８においては、監視対象人物として特定された人Ｈの左手Ｈ２の位置が、監視対象領域３次元空間内において位置ｈ２_０（ｘｈ２_０、ｙｈ２_０、ｚｈ２_０）から位置ｈ２_１（ｘｈ２_１、ｙｈ２_１、ｚｈ２_１）に移動したこと、及び、物Ｍについては位置ｍ１_０（ｘｍ１_０、ｙｍ１_０、ｚｍ１_０）に静止していること、そして、「人Ｈの左手Ｈ２の移動後の位置ｈ２_１と、物Ｍの位置ｍ１_０とが、監視対象領域３次元空間内において一致していること」が、骨格情報抽出部２２によって認識されている。

（不審度情報出力部）
不審度情報出力部２３は、サーバ３において生成され、サーバ３からダウンロードした監視対象人物の不審度に係る情報である不審度情報を出力する。この情報の出力は、クライアント２が備える監視用モニタや、監視対象領域の警備を行う警備員等の所持する携帯情報端末の表示画面等である。

（座標設定部）
座標設定部は、撮影部１が撮影した監視画像中の床面又は地面に相当する位置を監視対象領域３次元空間内における実寸法と関連付けて特定可能な座標を設定する処理を行う。図９は、座標設定部が、監視画像中に設定した座標の一例を示す図である。図９では、説明のために、図４の監視画像中に、監視対象領域３次元空間内における実寸法において等間隔となるグリッドをＹ方向及びＸ方向に重ねて示した。尚、このようにグリッドで領域を分割することは、一例であって、グリッド分けをせずに連続した座標が設定されていてもよい。尚、座標設定部が設定する座標は、床面（又は地面）が無限に広がっていると仮定して設定されるので、これを説明するために、あえて壁面や陳列棚等に対してもグリッドを重ねて表示した。ここで、２次元画像である監視画像では、監視対象領域３次元空間内における実寸法が同じであっても、近くの位置よりも遠くの位置の方が小さく見える。よって、設定された座標において、上記実寸法上で等間隔のグリッドは、遠方の方が小さくなるように設定される。このように、座標設定部が設定する座標は、監視対象領域３次元空間内における実際の位置（実寸法、実距離）と関連付けられている。

座標設定部が設定する座標が、上述の通り、監視対象領域３次元空間内における実際の位置（実寸法、実距離）と関連付けられているということは、換言すれば、座標設定部が設定する上記座標上の各グリッド、或いは、各点は、撮影部１からの距離情報を含んでいるということでもある。そうすると、所定領域内の監視対象がどのグリッドに位置しているかを把握することで、当該監視対象の大きさや立体形状に係る３次元情報を取得することが可能である（特許文献２参照）。

［サーバ］
サーバ３は、クライアント２からアップロードされた監視対象人物の骨格情報と、予めサーバ内に記憶されている監視対象領域の背景画像情報から、監視対象人物の不審度を判定する処理を行う情報処理装置である。サーバ３は、少なくとも、監視対象領域の背景画像情報を記憶する背景画像記憶部３１と、ディープラーニング型の画像認識装置である不審度判定部３２を備えている。又、サーバ３には、クライアント２において抽出された大量の骨格情報を、不審度判定部３２を構成する画像認識装置に教師データとして入力することによって当該画像認識装置の備える多層式ニューラルネットワークに学習をさせる学習支援部３３が更に備えられていることが好ましい。

上記の構成からなるサーバ３は、単体の情報処理装置によって構成することもできるし、上述した通り、クラウド上にある各種の情報処理装置の機能を利用することによって、クラウド上に分散配置された情報処理システムとして構成することもできる。

（背景画像記憶部）
背景画像記憶部３１は、監視対象領域毎に異なる監視画像の背景画像情報を記憶する。監視画像の背景画像とは、例えば図４に示す監視画像における図９に示すような画像のことを言う。このように、背景画像は、監視対象領域内に恒常的に設置されている什器等の構造物を含み、監視対象領域に出入りし領域内を移動する監視対象人物を含まない背景部分の画像のことを言う。又、「背景画像情報」には、背景画像の画像データに加えて、「監視画像中の床面又は地面に相当する位置を監視対象領域３次元空間内における実寸法と関連付けて特定可能な座標」が設定されていることが好ましい。背景画像記憶部３１は、このような座標が設定されている背景画像の画像データを登録可能な各種の情報記憶装置等により構成することができる。

尚、背景画像情報は、監視対象領域の監視画像の背景が経時的に変動しない場合であれば、監視開始前に当該情報を背景画像記憶部３１に予め記憶させておけばよい。監視画像の背景が経時的に変動する場合は、当該変動に応じた複数種の背景画像情報を予め記憶させておくか、或いは、必要なタイミングで背景画像情報を更新する処理を行なえばよい。例えば、日中と夜間で背景画像情報を１日に２回切り替えること等が考えられる。本発明の監視システム１０においては、何れにしても、背景画像情報は、骨格情報のようにリアルタイムでアップデートし続ける必要はなく、これにより、ネットワーク上で伝送される通信量を大幅に削減することができる。

（不審度判定部）
不審度判定部３２は、ディープラーニング型の画像認識装置であって、クライアント２からアップロードされた骨格情報と、背景画像記憶部３１に予め記憶されている背景画像情報と、を入力することにより、監視対象人物の背景に対する動作を認識し、その不審度を判定する。

不審度判定部３２を構成する画像認識装置は、ＣＰＵ、メモリ、通信部等のハードウェアを備えるディープラーニング型の情報処理装置である。尚、本明細書において、ディープラーニング型の情報処理装置とは、多層式ニューラルネットワークを有する機械学習型の画像認識装置のことを言う。不審度判定部３２においては、このようなディープラーニング型の画像認識装置において、従来公知の各種の画像認識に係るプログラムを実行することにより、以下に説明する各動作を具体的に実行することができる。

不審度判定部３２における不審度の判定のための画像認識は、クライアント２において、監視画像中から抽出された監視対象人物の「骨格情報」と、背景画像記憶部３１に予め記憶されている「背景画像情報」（記憶されている複数の「背景画像情報」のうち、入力される「骨格情報」に対応する「背景画像情報」）とを、入力データとして、ディープラーニング型の画像認識装置による演算処理が行われる。

具体的には、クライアント２からアップロードされた骨格情報（特徴点（ｈ１_～ｈｎ））を、背景画像記憶部３１に予め記憶されている３次元情報（奥行情報）を含む座標が設定されている「背景画像」上に重ね合わすことによって、図６に示す状態とすることができる。この状態の画像において、当該背景画像に対する当該骨格の相対的な位置や動きをディープラーニング型の画像認識装置によって認識することによって、当該背景画像に対する当該骨格、即ち、監視対象人物の監視対象領域空間内における相対的な位置や動きを認識することができる。そして、更に、これらの認識結果を数値化し解析することによって、監視対象人物の動作の不審度が判定される。不審度判定部３２による監視対象人物の動作の不審度の判定は、一例として、上記のようにして特定され数値化された監視対象人物の動作に係る値と、予め規定されている所定の閾値との比較によって行うことができる。

不審度判定部３２は、上記のようにして数値化された監視対象人物の動作に係る値から、監視対象人物の移動、頭部や四肢の動き、姿勢の変化を、背景画像中における相対的な動きとして、統合的に把握し、この「動作」が不審度の高い「動作」であるか否かを判断することもできる。例えば、監視対象人物が、進入禁止の位置に浸入したことを検知したり、一定の位置に所定時間以上留まっていること、或いは、短時間のうちに一定の位置の周囲を徘徊する行動等、を検知したりした場合等に、それらの「運動」を不審度の高い運動と判断することができる。

不審度判定部３２は、例えば、図８に示すような人Ｈの速度ベクトルと、物Ｍの速度ベクトルに係るデータを取得したとき、ベクトル量の差分等を解析することにより、「人Ｈが、位置ｍ１_０に静置されていた物Ｍに左手を伸ばしてこれを把持し、そのまま物Ｍを位置ｍ１_２（ｈ１_２）まで移動させた」ことを３次元空間内で統合的に把握することができる。物Ｍが移動させられるべき物品ではないことを、予め条件付けしておくことにより、上記行動を「極めて不審度の高い行動」として検知することができる。

（学習支援部）
学習支援部３３は、図１１に示すように、クライアント２からアップロードされた骨格情報と、当該骨格情報に対応する背景画像情報であって、背景画像記憶部３１に記憶されている背景画像情報とを、「教師データ」として不審度判定部３２を構成するディープラーニング型の画像認識装置に入力することによって、当該画像認識装置の備える多層式ニューラルネットワークに学習をさせる。

学習支援部３３による上記処理によって、不審度判定部３２を構成するディープラーニング型の画像認識装置に監視画像データに含まれる監視対象人物の動作等を学習させて、画像認識に用いられるモデルパラメータ（例えば重み係数や閾値）を変更することで学習モデルを更新して、監視対象人物の動作の認識の精度を向上させることができる。又、大量にアップロードされる監視対象人物の動作にかかる画像データは、データ量の小さい骨格情報とされていて、背景画像に係るデータは予めサーバ側に記憶されている背景画像データを用いることができるので、ネットワーク上で伝送される通信量の増大を抑えながら、大量の教師データを学習させることができる。

＜監視方法＞
本発明の監視方法は、上述の監視システム１０を用いて行うことができる。この監視方法においては、以下に詳細を説明する、監視撮影ステップＳ１０、監視対象人物特定ステップＳ２０、骨格情報抽出ステップＳ３０、不審度判定ステップＳ４０、及び、不審度情報出力ステップＳ５０が、順次行われる（図１０参照）。

尚、本発明の監視方法においては、監視撮影ステップＳ１０に先行して、必要に応じて、座標設定ステップ（図示省略）が行われる。この座標設定ステップは、撮影部１が撮影した監視画像中の床面又は地面に相当する位置を監視対象領域３次元空間内における実寸法と関連付けて特定可能な座標、即ち、監視対象領域についての奥行き情報も有する３次元座標を設定する処理である。尚、この座標設定ステップは、監視領域を監視するための事前準備であって、これ以降のステップにより本稼働としての実際の監視が開始される。換言すると、座標設定ステップは、監視の本稼働の開始に先行して、撮影部１の設置後に少なくとも１回行い、その後、撮影部１の配置の変更等、監視画像の撮影条件に特段の変更がない限り、監視システムの稼働中における再度の座標設定を不要とすることができる。

［監視撮影ステップ］
監視撮影ステップＳ１０は、撮影部１が、監視対象領域の撮影を行う手順である。ここで、この撮影は、静止画の撮影を所定間隔で連続して行い、撮影される画像の連続として後述する監視動作を行うが、撮影間隔を非常に短くすることにより、実質的には、動画撮影として、監視動作を行っているものと捉えることもできる。

（監視対象人物特定ステップ）
監視対象人物特定ステップＳ２０は、クライアント２において行われる手順であり、クライアント２を構成する監視対象人物特定部２１が、撮影部１が撮影した監視画像から監視対象人物を検出して特定する処理が行われる。監視対象人物特定部２１が、撮影部１が撮影した監視画像中の監視対象人物を検出して特定したか否かについて判断が行われ、監視対象人物を検出して特定した場合（Ｓ２０、Ｙｅｓ）には、骨格情報抽出ステップＳ３０へ進み、監視対象が検出されていない場合（Ｓ２０、Ｎｏ）には、監視撮影ステップＳ１０へ戻り、監視動作を継続する。

（骨格情報抽出ステップ）
骨格情報抽出ステップＳ３０もクライアント２において行われる手順であり、クライアント２を構成する骨格情報抽出部２２が、監視対象人物特定ステップＳ２０で検出され特定された監視対象人物について、複数の特徴点とそれらの複数の特徴点を連接する骨格線とで構成されていて監視対象人物の監視画像中における位置及び動作を特定可能な骨格情報を抽出する。

（不審度判定ステップ）
不審度判定ステップＳ４０はサーバ３において行われる手順であり、サーバ３を構成する不審度判定部３２に、クライアントからアップロードされた骨格情報と、サーバ３側に予め記憶されている監視対象領域の背景画像情報と、を入力して、監視対象人物の不審度を判定する。不審度判定部３２が、監視対象の運動の不審度が高い（異常行動を行っている）と判断した場合（Ｓ４０、Ｙｅｓ）には、不審度情報出力ステップＳ５０へ進み、監視対象の運動の不審度が低い（異常行動を行っていない）と判断した場合（Ｓ４０、Ｎｏ）には、監視撮影ステップＳ１０へ戻る。

不審度判定部３２は、クライアント２からアップロードされた骨格情報に含まれる各特徴点の位置ベクトルや速度ベクトルと、背景画像情報から、監視対象人物の監視対象領域内での移動、頭部や四肢の動き、姿勢の変化を統合的に把握し、この「動作」が不審度の高い「運動」であるか否かを判断する。例えば、監視対象人物が、背景画像情報によって進入禁止範囲であることが規定されている位置に浸入したことを検知したり、一定の位置に所定時間以上留まっていること、或いは、短時間のうちに一定の位置の周囲を徘徊する行動等、を検知したりした場合等に、それらの「運動」を不審度の高い運動と判断する。

更に、不審度判定部３２は、監視対象である「人」の速度ベクトルと、「物」の速度ベクトルとの差分を入力値とし、この入力値と既定の閾値との比較により、監視対象人物の動作の不審度を判定して出力することもできる。

尚、不審度判定部３２の上記判断例は、簡単な構成を例示したに過ぎず、様々な条件の組合せによって、より高度な不審行動の検出を行うことが可能である。

（不審度情報出力ステップ）
不審度情報出力ステップＳ５０はクライアント２において行われる手順であり、サーバ３において不審度判定部３２が、不審行動を検知した場合に監視者に不審行動が検知されたことを通知する手順である。

（学習ステップ）
学習ステップは、サーバ３を構成する学習支援部３３が、クライアント２からアップロードされた骨格情報と、当該骨格情報に対応する背景画像情報であって、背景画像記憶部３１に記憶されている背景画像情報とを、教師データとして不審度判定部３２を構成するディープラーニング型の画像認識装置に入力することによって、当該画像認識装置の備える多層式ニューラルネットワークに学習をさせる手順である。このような態様で多層式ニューラルネットワークの追加学習、又は、再学習を行うことにより、ネットワーク上で伝送される通信量の増大を抑えながら、ディープラーニング型の画像認識装置の認識力の弱点を効率よく補強することができる。

＜監視システム用画像認識装置の学習方法＞
本発明に係る「監視システム用画像認識装置の学習方法」は、撮影部と、撮影部が撮影した監視画像の一次的な処理を行う情報処理端末（クライアント）と、個々のクライアントからアップロードされた画像情報を機械学習型の画像認識装置により認識することによって監視対象者の不審度を判定する処理を行うサーバとによって構成される監視システム全般において、多層式ニューラルネットワークを備えるディープラーニング型の画像認識装置の学習を行う方法として広く適用可能な学習方法である。この学習方法は、教師データとして用いる監視対象人物の動作に係る画像データがデータ量の少ない骨格情報としてアップロードされ、尚且つ、背景画像に係る情報は予めサーバ側に記憶しておく手順とされていることによって、ネットワーク上で伝送される通信量の増大を抑えながら、大量の教師データを学習させることができる。又、教師データとして用いる監視対象人物の動作に係る画像データが骨格情報の形に加工されているためプライバシー保護の観点からも好ましいプロセスとなっている。

＜監視システム・監視方法（第２の実施形態）＞
本発明の監視システムの第２の実施形態は、撮影部１、クライアント２と、サーバ３とがネットワーク上に接続されている監視システムである点、クライアント２は、少なくとも、監視対象人物特定部２１と不審度情報出力部２３とを備えている点、及び、サーバ３は、少なくとも背景画像記憶部３１と不審度判定部３２とを備えている点おいて、上述した監視システム１０（第１の実施形態）と同一の構成である。但し、この第２の実施形態に係るは、第１の実施形態における骨格情報抽出部２２に対応する構成としてアバター生成部２２Ａを備える。このアバター生成部２２Ａは、例えば、図１４に示すように、単色の平面図形で構成されていることにより、監視対象人物とされた人Ｈの個人の特定は視認不可能に加工されていて、監視対象人物の位置を特定可能な画像データであるアバターａ（ａ´ａ´´ａ´´´）を生成する。

そして、この監視システムの第２の実施形態においては、サーバ３を構成する不審度判定部３２においては、クライアント２からアップロードされたアバターの位置情報と、背景画像記憶部３１に予め記憶されている背景画像情報と、を入力することにより、監視対象人物（人Ｈ）の背景画像中における位置に基づいて、その不審度を判定する。

又、上述の本発明の監視システムの第２の実施形態を用いることにより、本発明の監視方法を第２の実施態様として実施することができる。この場合には、第１の実施態様における骨格情報抽出ステップＳ３０に対応する手順としてアバター生成ステップＳ３０Ａが行われる。

１撮影部
２クライアント
２１監視対象人物特定部
２２骨格情報抽出部
２２Ａアバター生成部
２３不審度情報出力部
３サーバ
３１背景画像記憶部
３２不審度判定部
３３学習支援部
１０監視システム
１００、２００監視対象領域
Ｓ１０監視撮影ステップ
Ｓ２０監視対象人物特定ステップ
Ｓ３０骨格情報抽出ステップ
Ｓ３０Ａアバター生成ステップ
Ｓ４０不審度判定ステップ
Ｓ５０不審度情報出力ステップ

Claims

監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムであって、
前記クライアントは、
前記撮影部が撮影した監視画像から監視対象人物を検出して特定することができる監視対象人物特定部と、
複数の特徴点を連接する骨格線で構成されていて前記監視対象人物の位置及び動作を特定可能な骨格情報を抽出して、前記監視対象領域の背景画像情報を含まない前記骨格情報を、前記サーバにリアルタイムでアップロードする骨格情報抽出部と、
前記サーバからダウンロードした前記監視対象人物の不審度を出力する不審度情報出力部と、を備え、
前記サーバは、
前記監視対象領域の背景部分の画像情報であって前記監視対象人物の画像情報を含まない前記背景画像情報が、前記骨格情報のアップロードに先行して予め記憶されている背景画像記憶部と、
ディープラーニング型の画像認識装置であって、前記クライアントからリアルタイムでアップロードされた前記骨格情報と、前記背景画像記憶部に予め記憶されている前記背景画像情報と、を入力することにより、前記監視対象人物の動作を背景画像中における相対的な動作として、統合的に把握して、当該動作の不審度を判定する不審度判定部と、を備える、
監視システム。
前記背景画像記憶部には複数種の前記背景画像情報が予め記憶されていて、
前記不審度判定部には、リアルタイムでアップロードされた不審度の判定対象である監視対象人物の前記骨格情報と、複数種の前記背景画像情報のうち、不審度の判定対象である監視対象人物の前記骨格情報に対応する背景画像情報が、入力される、
請求項１に記載の監視システム。
前記サーバが、前記クライアントからアップロードされた前記骨格情報と、該骨格情報に対応する背景画像情報であって前記背景画像記憶部に記憶されている背景画像情報とを、教師データとして前記画像認識装置に入力することによって、前記画像認識装置の備える多層式ニューラルネットワークに学習をさせる学習支援部を備える、
請求項１又は２に記載の監視システム。
複数の前記クライアントと、
前記サーバと、からなり、
前記学習支援部は、複数の前記クライアントからアップロードされた前記骨格情報を、前記教師データとして前記画像認識装置に入力する、
請求項３に記載の監視システム。
前記撮影部が２次元情報のみを有する監視画像を撮影可能な単眼カメラであって、
前記クライアントが、前記監視画像中の位置を前記監視対象領域である３次元空間内における実際の位置と関連付けて特定可能な座標を設定する座標設定部を、更に備え、
前記骨格情報抽出部は、前記座標設定部が設定した前記座標に基づいて、前記特徴点の前記監視対象領域３次元空間内における位置及び動きを前記骨格情報として抽出する、
請求項１又は２の何れかに記載の監視システム。
請求項４に記載の監視システムにおいて、
複数の前記クライアントからアップロードされた前記骨格情報を、前記教師データとして前記画像認識装置に入力して学習をさせる、監視システム用画像認識装置の学習方法。
監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムを用いる監視方法であって、
前記撮影部が、監視対象領域を撮影する監視撮影ステップと、
前記クライアントを構成する監視対象人物特定部が、前記撮影部が撮影した監視画像から監視対象人物を検出して特定する、監視対象人物特定ステップと、
前記クライアントを構成する骨格情報抽出部が、複数の特徴点を連接する骨格線で構成されていて前記監視対象人物の位置及び動作を特定可能な骨格情報を抽出して、前記監視対象領域の背景画像情報を含まない前記骨格情報を、前記サーバにリアルタイムでアップロードする、骨格情報抽出ステップと、
ディープラーニング型の画像認識装置であって前記サーバを構成する不審度判定部が、前記クライアントからリアルタイムでアップロードされた前記骨格情報と、前記サーバを構成する背景画像記憶部に予め記憶されている前記監視対象領域の背景部分の画像情報であって前記監視対象人物の画像情報を含まない背景画像情報と、を入力することにより前記監視対象人物の動作を背景画像中における相対的な動きとして、統合的に把握して、当該動きの前記監視対象人物の不審度を判定する、不審度判定ステップと、
前記クライアントを構成する不審度情報出力部が、前記サーバからダウンロードした不審度情報を出力する、不審度情報出力ステップと、を備える、
監視方法。
前記背景画像記憶部には複数種の前記背景画像情報が予め記憶されていて、
前記不審度判定部には、リアルタイムでアップロードされた不審度の判定対象である監視対象人物の前記骨格情報と、複数種の前記背景画像情報のうち、不審度の判定対象である監視対象人物の前記骨格情報に対応する背景画像情報が、入力される、
請求項７に記載の監視方法。
前記サーバを構成する学習支援部が、前記クライアントからアップロードされた前記骨格情報と、該骨格情報に対応する背景画像情報であって前記背景画像記憶部に記憶されている背景画像情報とを、教師データとして前記画像認識装置に入力することによって、前記画像認識装置の備える多層式ニューラルネットワークに学習をさせる、
請求項７又は８に記載の監視方法。
２次元情報のみを有する監視画像を撮影可能な単眼カメラであって、
前記監視撮影ステップが行われた後に、前記クライアントを構成する座標設定部が、前記監視画像中の位置を前記監視対象領域である３次元空間内における実際の位置と関連付けて特定可能な座標を設定する座標設定ステップを、更に備え、
前記骨格情報抽出ステップにおいては、前記座標設定ステップにおいて設定された前記座標に基づいて、前記特徴点の前記監視対象領域３次元空間内における位置及び動きを前記骨格情報として抽出する、
請求項７又は８に記載の監視方法。
請求項７又は８に記載の監視方法において、
前記監視対象人物特定ステップ、骨格情報抽出ステップ、及び、前記不審度情報出力ステップを、前記クライアントを構成する前記監視対象人物特定部、前記骨格情報抽出部、及び、前記不審度情報出力部に実行させ、
前記不審度判定ステップを、前記サーバを構成する不審度判定部に実行させる、
監視システム用のプログラム。
監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムであって、
前記クライアントは、
前記撮影部が撮影した監視画像から監視対象人物を検出して特定することができる監視対象人物特定部と、
単色の平面図形で構成されていて前記監視対象人物の個人の特定は視認不可能に加工されていて、前記監視対象人物の位置を特定可能なアバターを生成して、前記監視対象領域の背景画像情報を含まない前記アバターの位置情報を、前記サーバにリアルタイムでアップロードするアバター生成部と、
前記サーバからダウンロードした前記監視対象人物の不審度を出力する不審度情報出力部と、を備え、
前記サーバは、
前記監視対象領域の背景部分の画像情報であって前記監視対象人物の画像情報を含まない前記背景画像情報が、前記アバターの位置情報のアップロードに先行して予め記憶されている背景画像記憶部と、
ディープラーニング型の画像認識装置であって前記クライアントからリアルタイムでアップロードされた前記アバターの位置情報と、前記背景画像記憶部に予め記憶されている前記背景画像情報と、を入力することにより、前記監視対象人物の位置を背景画像中における相対的な位置として統合的に把握して、前記監視対象人物の不審度を判定する不審度判定部と、を備える、
監視システム。
監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムを用いる監視方法であって、
前記撮影部が、監視対象領域を撮影する監視撮影ステップと、
前記クライアントを構成する監視対象人物特定部が、前記撮影部が撮影した監視画像から監視対象人物を検出して特定する、監視対象人物特定ステップと、
前記クライアントを構成するアバター生成部が、単色の平面図形で構成されていて前記監視対象人物の個人の特定は視認不可能に加工されていて、前記監視対象人物の位置を特定可能なアバターを生成して、前記監視対象領域の背景画像情報を含まない前記アバターの位置情報を、前記サーバにリアルタイムでアップロードする、アバター生成ステップと、
ディープラーニング型の画像認識装置であって前記サーバを構成する不審度判定部が、前記クライアントからリアルタイムでアップロードされた前記アバターの位置情報及び前記サーバを構成する背景画像記憶部に予め記憶されている背景画像情報と、を入力することにより前記監視対象人物の位置を背景画像中における相対的な位置として統合的に把握して、前記監視対象人物の不審度を判定する、不審度判定ステップと、
前記クライアントを構成する不審度情報出力部が、前記サーバからダウンロードした不審度情報を出力する、不審度情報出力ステップと、を備える、
監視方法。
請求項１３に記載の監視方法において、
前記監視対象人物特定ステップ、アバター生成ステップ、及び、前記不審度情報出力ステップを、前記クライアントを構成する前記監視対象人物特定部、前記アバター生成部、及び、前記不審度情報出力部に実行させ、
前記不審度判定ステップを、前記サーバを構成する不審度判定部に実行させる、
監視システム用のプログラム。