JP2018205900A

JP2018205900A - 監視システム及び監視方法

Info

Publication number: JP2018205900A
Application number: JP2017108164A
Authority: JP
Inventors: 利章篠原; Toshiaki Shinohara; 東澤　義人; Yoshito Tosawa; 義人東澤; 徹寺田; Toru Terada
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2017-05-31
Filing date: 2017-05-31
Publication date: 2018-12-27
Anticipated expiration: 2037-05-31
Also published as: JP6989294B2

Abstract

【課題】ネットワーク上のトラフィックの増大を抑制し、複数のカメラに接続されるサーバの処理負荷の軽減を支援する。【解決手段】監視システム５では、サーバ３０と、監視エリアに設置された複数のカメラ１０Ａ，１０Ｂとが互いに通信可能に接続される。サーバ３０は、それぞれのカメラ１０の空きリソースに関する情報を保持するテーブルメモリを有する。サーバ３０は、カメラ１０の空きリソースに関する情報に基づいて、カメラ１０が実行する処理をカメラ１０ごとに決定し、決定された処理の実行指示をカメラ１０ごとに送信する。それぞれのカメラ１０は、サーバ３０から送信された処理の実行指示に基づいて、実行指示に対応する処理を実行する。【選択図】図９

Description

本開示は、サーバと監視エリアに設置された複数のカメラとが互いに通信可能に接続された監視システム及び監視方法に関する。

現在、カメラの演算処理能力は、０．３Ｔ（テラ）ｏｐｓ（オプス）と言われている。Ｔ（テラ）は、１０の１２乗を示す値である。ｏｐｓ（オプス）は、演算処理能力を示す単位として知られている。今後、ゲーム機等に搭載される高性能なＧＰＵ（Graphics Processing Unit）やＦＰＧＡ（Field Programmable Gate Array）がカメラの演算処理装置に利用されるべく採用されることが考えられている。その場合、例えば１年後には、カメラの演算処理能力が１０倍以上の約２．６Ｔｏｐｓに飛躍的に向上することが期待されている。

また、カメラが機械学習の一例としてのディープラーニングを用いて画像認識処理を行う場合、カメラの演算処理能力には、１．３Ｔｏｐｓが要求されるとの指摘がある。この演算処理能力の高さから、従来では、カメラがディープラーニングを用いて画像認識処理を行うことは難しいと考えられていたが、１年後のカメラの演算処理能力では、ディープラーニングを用いて画像認識処理を行うことが十分に可能と考えられる。

一方、カメラで撮像された高画質（例えば４Ｋ）の撮像画像データをサーバに転送し、サーバが画像認識処理を行う場合、撮像画像データのサイズの増大に伴ってネットワーク上で伝送される通信量（トラフィック）も必然的に増大し、結果的に通信効率が下がって遅延が発生するようになる。このため、高画質（例えば４Ｋ）の撮像画像データを転送することなく、カメラは、自装置でディープラーニングを用いて画像認識処理を行うことが期待される。

一般に、ディープラーニングを用いて画像認識処理を行う場合、カメラ等のデバイスは、撮像画像データに含まれる対象物（つまり、被画像認識対象物）を学習し、画像認識処理において用いられるモデルパラメータ（例えば重み係数やしきい値）を変更することで学習モデルを更新する。カメラ等のデバイスは、この更新された学習モデルを基に、撮像画像データに含まれる対象物（つまり、被画像認識対象物）を検出する精度を向上させる。

カメラにより撮像される撮像画像データを用いて物体を認識し、物体動き情報を取得する先行技術として、例えば特許文献１の物体追跡装置が提案されている。この物体追跡装置は、物体を撮影可能なカメラから取得される時系列の画像群を用いて、取得された画像に係る画像情報と、その物体の実空間での位置に係る位置情報を含む物体動き情報であって正解とされる情報とを含む教師データセットによって学習する。更に、物体追跡装置は、物体追跡対象の画像毎に、その画像に係る画像情報を入力することで少なくともその物体の実空間での正解とされる位置情報を出力する追跡用識別器を用い、その物体の実空間での刻々の位置情報を取得する。

特開２０１６−２０６７９５号公報

今後、カメラが取り扱う撮像画像データは例えば４Ｋや８Ｋ等の高精細かつ大容量となってデータサイズが増大することが予想されている。このような撮像画像データのサイズの増大に伴い、撮像画像データの検出に用いたパラメータの学習をカメラではなくサーバで行う場合、サーバにおいて処理負荷が集中してしまい、更に、大容量のデータを逐一サーバに送信することで、ネットワーク上のトラフィックが増大し、データ通信時に相応の遅延が生じるという課題が生じてしまう。このような課題に対する技術的対策について、特許文献１のような従来技術では特段の考慮はなされてはいなかった。

本開示は、上述した従来の事情に鑑みて案出され、監視エリアに設置された複数のカメラにおいて撮像されたそれぞれの撮像画像内の少なくとも１つのオブジェクトの検出に際し、その検出に用いるパラメータの学習等の処理を複数のカメラ間で分散し、ネットワーク上のトラフィックの増大を抑制し、複数のカメラに接続されるサーバの処理負荷の軽減を支援する監視システム及び監視方法を提供することを目的とする。

本開示は、サーバと、監視エリアに設置された複数のカメラとが互いに通信可能に接続された監視システムであって、前記サーバは、それぞれの前記カメラの処理能力に関する情報と、それぞれの前記カメラにより前記監視エリアの撮像により得られた撮像画像とを保持するメモリを有し、前記カメラの処理能力に関する情報に基づいて、それぞれの前記カメラにより得られる撮像画像に出現する少なくとも１つのオブジェクトの検出に関して前記カメラが実行する処理を前記カメラごとに決定し、決定された前記処理の実行指示を前記カメラごとに送信し、前記それぞれのカメラは、前記サーバから送信された前記処理の実行指示に基づいて、前記実行指示に対応する処理を実行する、監視システムを提供する。

また、本開示は、サーバと、監視エリアに設置された複数のカメラとが互いに通信可能に接続された監視システムを用いた監視方法であって、前記サーバは、それぞれの前記カメラの処理能力に関する情報と、それぞれの前記カメラにより前記監視エリアの撮像により得られた撮像画像とをメモリに保持し、前記カメラの処理能力に関する情報に基づいて、それぞれの前記カメラにより得られる撮像画像に出現する少なくとも１つのオブジェクトの検出に関して前記カメラが実行する処理を前記カメラごとに決定し、決定された前記処理の実行指示を前記カメラごとに送信し、前記それぞれのカメラは、前記サーバから送信された前記処理の実行指示に基づいて、前記実行指示に対応する処理を実行する、監視方法を提供する。

本開示によれば、監視エリアに設置された複数のカメラにおいて撮像されたそれぞれの撮像画像内の少なくとも１つのオブジェクトの検出に際し、その検出に用いるパラメータの学習等の処理を複数のカメラ間で分散し、ネットワーク上のトラフィックの増大を抑制し、複数のカメラに接続されるサーバの処理負荷の軽減を支援することができる。

実施の形態１の監視システムのシステム構成の一例を示すブロック図学習及び検出の概要例の説明図実施の形態１のカメラの内部構成の一例を詳細に示すブロック図実施の形態１のサーバの内部構成の一例を詳細に示すブロック図デバイスにおける学習の概要例の説明図カメラの検出の概要例の説明図監視システムにおける複数のカメラを用いた学習時の分散を行う時の処理概要例の説明図監視システムにおけるリソース管理の概要例の説明図実施の形態１においてサーバがカメラに処理の実行指示を行う動作手順の一例を詳細に示すシーケンス図実施の形態１においてサーバがモデルパラメータのフィードバック量を制御する動作手順の一例を詳細に示すシーケンス図監視システムにおける学習結果の共有の概要例の説明図ローカル学習時に表示されるＵＩ画面の一例を示す図統合学習時にサーバの表示部に表示されるＵＩ画面の一例を示す図実施の形態２のカメラの処理実行部の内部構成の一例を詳細に示すブロック図カメラのローカル学習の動作手順の一例を詳細に示すフローチャート監視システムにおける学習結果の共有の概要例の説明図ローカル学習時に表示されるＵＩ画面の一例を示す図統合学習時にサーバの表示部に表示されるＵＩ画面の一例を示す図

（第１の実施の形態に至る経緯）
今後、カメラが取り扱う撮像画像データは例えば４Ｋや８Ｋ等の高精細かつ大容量となってデータサイズが増大することが予想されている。このような撮像画像データのサイズの増大に伴い、撮像画像データの検出に用いたパラメータの学習をカメラではなくサーバで行う場合、サーバにおいて処理負荷が集中してしまい、更に、大容量のデータを逐一サーバに送信することで、ネットワーク上のトラフィックが増大し、データ通信時に相応の遅延が生じるという課題が生じてしまう。このような課題に対する技術的対策について、特許文献１のような従来技術では特段の考慮はなされてはいなかった。

そこで、実施の形態１では、監視エリアに設置された複数のカメラにおいて撮像されたそれぞれの撮像画像内の少なくとも１つのオブジェクトの検出に際し、その検出に用いるパラメータの学習等の処理を複数のカメラ間で分散し、ネットワーク上のトラフィックの増大を抑制し、複数のカメラに接続されるサーバの処理負荷の軽減を支援する監視システム及び監視方法の例を説明する。

（実施の形態１）
図１は、実施の形態１の監視システム５のシステム構成の一例を示すブロック図である。

監視システム５は、例えば防犯用の監視システムであって、銀行、店舗、企業、施設等の屋内、又は、駐車場や公園等の屋外に設置される。銀行、店舗、企業、施設等の屋内、又は、駐車場や公園等の屋外は、監視システム５の監視エリアとなる。本実施の形態の監視システム５は、人工知能（ＡＩ：Artificial Intelligence）技術を利用し、撮像画像に出現する少なくとも１つの対象物（言い換えると、オブジェクト）を認識する少なくとも１つのカメラ１０と、サーバ３０と、レコーダ５０とを含む構成を有する。少なくとも１つのカメラ１０と、サーバ３０と、レコーダ５０とは、ネットワークＮＷを介して互いに通信可能に接続される。

以下、複数のカメラ１０をそれぞれ区別する必要がある場合には、カメラ１０Ａ，１０Ｂ，１０Ｃ，…と表記する。複数のカメラ１０は、監視エリアとして、例えば建物内の同じ場所に設置されてもよいし、一部のカメラ１０が他のカメラ１０とは異なる場所に設置されてもよい。ここでは、監視エリアとして異なる場所に設置されたカメラ１０Ａ，１０Ｂ，１０Ｃの設置状況（例えば設置角度やカメラの画角）が同じであることを想定している。例えば、カメラ１０Ａ，１０Ｂ，１０Ｃは、いずれも自動ドアが設置された出入口の上方に位置するように壁面に取り付けられ、出入口を出入りする人物をやや上方から見下ろすように撮像する。なお、カメラ１０Ａ，１０Ｂ，１０Ｃの設置状況は、自動ドアが設置された出入口の情報に位置する場合に限定されない。

先ず始めに、人工知能（ＡＩ）技術の機械学習の一例としてのディープラーニングに用いられるニューラルネットワーク（言い換えると、学習モデル）を生成するための学習、及び学習済みの学習モデル（以下、「学習済みモデル」という）にデータを入力して結果を出力する検出（つまり、推論）について、その概要を説明する。

図２は、学習及び検出の概要例の説明図である。

学習処理（以下、単に「学習」という）は、例えば人工知能（ＡＩ）技術の機械学習の一例としてのディープラーニングによって行われる処理である。言い換えると、機械学習の１つとして、近年注目されているニューラルネットワーク（以下、「ＮＮ」と略記する）におけるディープラーニング（つまり、深層学習）を用いて学習が行われる。ディープラーニングによる機械学習では、教師データを用いた「教師有り学習」と、教師データを用いない「教師無し学習」とが行われる。機械学習の結果、学習済みモデルが生成される。一方、検出は、生成された学習済みモデルにデータを入力して結果を得る処理である。

学習は、リアルタイムで行われてもよいが、多くの演算処理を必要とするので、通常、オフライン（つまり、非同期）で行われる。一方、検出処理（以下、単に「検出」という）は、通常リアルタイムで行われる。また、学習が行われるデバイスは、例えばカメラ１０、サーバ３０、レコーダ５０のいずれであってもよく、ここでは、カメラ１０において学習される場合を示す。一方、検出は、カメラ１０において行われる。なお、カメラ１０により撮像された撮像画像データをサーバ３０やレコーダ５０に転送しても、ネットワークＮＷ上のトラフィックが発生しない場合には、サーバ３０やレコーダ５０が検出を行ってもよい。

学習時、デバイス１５０は、多くの学習データ（例えばカメラ１０で撮像された画像データ）を入力する。デバイス１５０は、入力された学習データを基に、機械学習（例えば、ディープラーニングの処理）を行い、学習モデルであるニューラルネットワーク（ＮＮ１４０）のモデルパラメータＰを更新する。モデルパラメータＰは、ＮＮ１４０を構成する複数のそれぞれのニューロンにおいて設定される重み付け係数（つまり、バイアス）やしきい値等である。デバイス１５０は、機械学習（例えばディープラーニングの処理）を行う際、教師データを用い、学習データごとに正誤を取得するか、或いは評価値（つまり、スコア）を算出する。デバイス１５０は、学習データの正誤或いはスコアの高低に応じて、モデルパラメータＰの学習度合いを変更する。学習後、ＮＮ１４０は、学習済みモデルとして、デバイス１５０における検出に用いられる。

検出時（つまり、推論時）、デバイス１５０は、入力データ（例えばカメラ１０でリアルタイムに撮像された撮像画像データ）を入力し、ＮＮ１４０において推論を実行し、その実行により得られた推論結果（つまり、検出されたオブジェクトの判定結果）を出力する。判定結果は、例えば、撮像画像データに含まれる対象物の有無に応じた正報や誤報に関する情報、及び、対象物の評価値を示すスコアに関する情報を含む。正報とは、対象物の検出時に高い確度で正しく検出されたことを示すレポートである。誤報とは、対象物の検出時に高い確度で誤って検出されたことを示すレポートである。

図３は、実施の形態１のカメラ１０の内部構成の一例を詳細に示すブロック図である。

カメラ１０は、例えば監視エリアの被写体像を撮像して撮像画像データを取得する。具体的には、カメラ１０は、レンズ１１と、イメージセンサ１２と、信号処理部１３と、処理実行部１４と、リソース監視部１５と、クロップエンコード部１７と、ネットワークＩ／Ｆ１６とを含む構成である。

カメラ１０は、監視エリアＳＡからの被写体像を入射可能に配されたレンズ１１を介して、監視エリアＳＡからの入射された被写体像をイメージセンサ１２に結像し、イメージセンサ１２において被写体像（つまり、光学像）を電気信号に変換して撮像する。少なくともレンズ１１及びイメージセンサ１２により、カメラ１０の撮像部が構成される。カメラ１０は、イメージセンサ１２において得られた電気信号を用いて、信号処理部１３においてＲＧＢ信号を生成したり、ホワイトバランスやコントラスト調整等の既定の各種の画像処理を行うことで、撮像画像データを生成して出力する。

処理実行部１４は、例えばＧＰＵ（Graphics Processing Unit）又はＦＰＧＡ（Field Programmable Gate Array）を用いて構成される。今後、高性能で演算処理能力の高いＧＰＵ又はＦＰＧＡがカメラ１０のプロセッサとして採用されてくると、カメラ１０の演算処理能力は飛躍的に向上し、カメラ１０においてディープラーニングの処理が十分に実行可能であると期待される。処理実行部１４は、ＧＰＵ又はＦＰＧＡにおける処理実行によって生成又は更新されたＮＮ１４０としての学習モデル又は学習済みモデルを含み、入力された撮像画像データに対し、撮像画像に現れる少なくとも１つの対象物（つまり、オブジェクト）の判定結果を出力する。

リソース監視部１５は、処理実行部１４内のＧＰＵ或いはＦＰＧＡやメモリ等の使用状況を基に、カメラ１０の処理能力に関する情報（例えば空きリソースの量）を監視する。

クロップエンコード部１７は、検出時、撮像画像データに現れる対象物（つまり、オブジェクト）の一部を切り出し、処理すべき撮像画像データ或いはサムネイルのデータとして出力する。

ネットワークＩ／Ｆ１６は、ネットワークＮＷとの接続を制御する。カメラ１０は、ネットワークＩ／Ｆ１６を介して、サーバ３０やレコーダ５０に対し、処理実行部１４から出力される対象物（つまり、オブジェクト）の判定結果、リソース監視部１５によって監視された空きリソースの量、サムネイルのデータ等を送信する。また、カメラ１０は、ネットワークＩ／Ｆ１６を介して、サーバ３０やレコーダ５０、他のカメラ１０から、学習の結果であるモデルパラメータＰを受信する。

図４は、実施の形態１のサーバ３０の内部構成の一例を詳細に示すブロック図である。

サーバ３０は、プロセッサ（例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）又はＤＳＰ（Digital Signal Processor））３１と、メモリ３２と、通信部３３と、操作部３６と、表示部３７と、学習用ＤＢ（データベース）３４と、テーブルメモリ３５とを含む構成である。プロセッサ３１は、メモリ３２と協働して、サーバ３０の各部の処理や制御を統括的に実行する。メモリ３２は、不揮発メモリ及び揮発メモリを有する。不揮発メモリには、例えば複数のカメラ１０Ａ，１０Ｂ，１０Ｃから通知された、それぞれのカメラ１０Ａ，１０Ｂ，１０Ｃの単価コストに関する情報（例えばカメラ１０Ａ，１０Ｂ，１０Ｃの電力コストに関する情報）が記憶される。電力コストに関する情報とは、詳細は後述するが、例えばカメラ１０Ａ，１０Ｂ，１０Ｃがどのくらい使用されれば結果的にどの程度の電力量（つまり、コスト）がかかるかを示す指標値である。

プロセッサ３１は、サーバ３０が機械学習（例えば、ディープラーニングの処理）を行う場合、不揮発メモリに記憶されたプログラムを実行し、学習モデル（ニューラルネットワーク：ＮＮ）を生成する。また、サーバ３０は、複数のカメラ１０から学習の結果であるモデルパラメータＰを受信し、監視エリアＳＡに設置されたそれぞれのカメラ１０の設置状況（つまり、設置角度や画角等の設置環境）が同一であるモデルパラメータＰを統合する。

学習用ＤＢ（データベース）３４には、複数のカメラ１０から送信されてサーバ３０において受信された学習の結果であるモデルパラメータＰ（例えば重み付け係数やしきい値）が保存される。

テーブルメモリ３５は、複数のカメラ１０の処理能力に関する情報（例えば空きリソースの量）が登録されたテーブルを記憶する。

操作部３６は、ユーザが操作可能な学習ボタンｂｔ５（例えば図１３参照）等、各種ボタンを有し、ユーザの入力操作を受け付ける。

表示部３７は、サーバ３０における統合学習の処理結果を提示するＵＩ（ユーザインタフェース）画面３１０（例えば図１２又は図１３参照）を表示する。

図５は、デバイス１５０における学習の概要例の説明図である。

ここでは、デバイス１５０が撮像画像に出現する「車」を対象物ｏｂｊとして学習する場合を例示して説明する。前述したように、学習は、通常オフライン（非同期）で行われる処理であり、カメラ１０、サーバ３０、レコーダ５０のいずれで行われてもよい。本実施の形態では、デバイス１５０の一例として、カメラ１０が学習を行う。デバイス１５０は、処理実行部１６４と、リソース監視部１６５と、ネットワークＩ／Ｆ１６６と、パラメータ勾配算出部１６８とを含む構成である。

ネットワークＩ／Ｆ１６６は、ネットワークＮＷとの接続を制御し、学習データを、ネットワークＮＷを介して受信する。ここでは、学習データは、車を対象物ｏｂｊとする撮像画像データｇｚ１，ｇｚ２である。各撮像画像データｇｚ１，ｇｚ２は、それぞれスコア（評価値）と正報或いは誤報を付加した教師データである。例えば、撮像画像データｇｚ１は、対象物となる「車」を含む撮像画像であり、高いスコア或いは正報を持つ教師データである。一方、撮像画像データｇｚ２は、対象物となる車ではない「木」の画像であり、低いスコア或いは誤報を持つ教師データである。

処理実行部１６４は、ネットワークＩ／Ｆ１６６を介して入力された、これらの教師データを基に推論を実行することで、学習モデルのモデルパラメータＰ（例えば重み付け係数やしきい値等）を更新する。また、処理実行部１６４は、更新されモデルパラメータＰを、ネットワークＩ／Ｆ１６６を介して、カメラ１０、サーバ３０、レコーダ５０等、他のデバイスに送信する。このように、「教師有り学習」を行うことで、学習能力が高まり、処理実行部１６４は、高品質な学習モデルを生成できる。

パラメータ勾配算出部１６８は、教師データの撮像画像に出現する対象物の勾配を算出する。例えば、横からカメラにより撮像された撮像画像と正面からカメラにより撮像された撮像画像とでは、同じ対象物であっても撮像画像は異なる。つまり、カメラの設置状況（例えば設置角度や画角）に応じて、同じ対象物を検出する際に用いられる学習モデルのモデルパラメータＰも異なってくる。このため、パラメータ勾配算出部１６８は、撮像方向を表す勾配（以下、「パラメータ勾配」という）を算出し、ネットワークＩ／Ｆ１６６を介して、パラメータ勾配Ｐｔをカメラ１０、サーバ３０、レコーダ５０等、他のデバイスに送信する。パラメータ勾配Ｐｔは、モデルパラメータと一緒に或いは別に送信されてもよい。いずれにせよ、カメラの設置状況は頻繁に変更されないので、パラメータ勾配Ｐｔは少なくとも１回送信されればよい。パラメータ勾配Ｐｔを用いることで、カメラの設置状況毎に異なる学習モデルが利用可能となる。

リソース監視部１６５は、処理実行部１６４内のＧＰＵやメモリ等の使用状況を基に、空きリソースの量を監視する。なお、デバイス１５０がカメラ１０である場合には、図５に示す処理実行部１６４及びパラメータ勾配算出部１６８は図３の処理実行部１４に対応し、図５に示すリソース監視部１６５は図３に示すリソース監視部１５に対応し、図５に示すネットワークＩ／Ｆ１６６は図３に示すネットワークＩ／Ｆ１６に対応する。

図６は、カメラ１０の検出の概要例の説明図である。

ここでは、カメラ１０が撮像画像に出現する「車」を対象物として検出する場合を例示して説明する。カメラ１０の処理実行部１４は、機械学習（例えばディープラーニングの処理）が行われた後の学習モデル（つまり、学習済みモデル）を有する。処理実行部１４は、レンズ１１を通して撮像された被写体の撮像画像ｏｇを入力し、学習済みモデルを用いて検出（つまり、撮像画像ｏｇに出現するオブジェクトの推論）を行い、その検出結果（つまり、推論結果）を出力する。クロップエンコード部１７は、被写体の撮像画像ｏｇに含まれる、対象物となる画像を切り出し、検出の結果として切り出し画像を出力する。

ここでは、クロップエンコード部１７によって切り出された、「車」の切り出し画像ｔｇ２と、「木」の切り出し画像ｔｇ１が出力される。「車」の切り出し画像ｔｇ２は、対象物となる車の撮像画像を含むので、高いスコアと正報を有する。一方、「木」の切り出し画像ｔｇ１は、対象物となる車の撮像画像を含まないので、低いスコアと誤報を有する。

次に、本実施の形態の監視システム５の具体的な動作について、図面を参照して説明する。

図７は、監視システム５における複数のカメラを用いた学習時の分散を行う時の処理概要例の説明図である。

前述したように、学習では、人工知能（ＡＩ）技術の機械学習の一例としてのディープラーニングの処理を用いて生成される学習モデル（つまり、ニューラルネットワーク）のモデルパラメータＰを更新する処理が行われる。一例として、学習を行うデバイスとして、３つのカメラ１０Ａ，１０Ｂ，１０Ｃが学習を行う場合を示す。なお、学習を行うデバイスは、カメラに限らず、サーバ、レコーダでもよい。各カメラ１０Ａ，１０Ｂ，１０Ｃは、それぞれ入力した撮像画像データに対し、例えば「教師なし学習」を行う。教師なし学習では、カメラ１０は、学習モデルのモデルパラメータが収束しない場合、アラームを発生する。このとき、ユーザは、アラームを解除して、「教師あり学習」を行う。教師あり学習では、ユーザは、画像データの正報或いは誤報を入力する。なお、教師データの入力では、画像データの正報或いは誤報を入力する代わりに、正報或いは誤報とともにスコア（評価値）を入力してもよい。スコアは、撮像画像データが対象物を含む撮像画像データであることを評価する値であり、例えば８０点，１０点等の点数や、５０％，２０％等の確率で表現される。

３つのカメラ１０Ａ，１０Ｂ，１０Ｃは、それぞれ学習の結果であるモデルパラメータＰをサーバ３０に送信する。また、送信されるモデルパラメータＰには、前述したパラメータ勾配Ｐｔが付加される。

サーバ３０は、３つのカメラ１０Ａ，１０Ｂ，１０Ｃから送信されたモデルパラメータＰを基に、学習モデルのモデルパラメータＰを更新する。このとき、パラメータ勾配Ｐｔが同じであるモデルパラメータ、つまり、カメラの設置状況が同じであるモデルパラメータを統合する。従って、パラメータ勾配が同じである学習モデルのモデルパラメータが更新される。ここでは、カメラ１０Ａ，１０Ｂ，１０Ｃの設置状況はいずれも同じであり、サーバ３０は、カメラ１０Ａ，１０Ｂ，１０Ｃの、更新された各モデルパラメータを統合する。

サーバ３０は、統合したモデルパラメータを３つのカメラ１０Ａ，１０Ｂ，１０Ｃにフィードバック送信する。これにより、３つのカメラ１０Ａ，１０Ｂ，１０Ｃに記憶されるモデルパラメータは、同じになる。なお、３つのカメラ１０Ａ，１０Ｂ，１０Ｃからサーバ３０へのモデルパラメータの送信は、非同期で行われる。

図８は、監視システム５におけるリソース管理の概要例の説明図である。

３つのカメラ１０Ａ，１０Ｂ，１０Ｃでは、リソース監視部１５は、それぞれ学習モデルを生成するＧＰＵ或いはＦＰＧＡ等の処理能力に対し、空きリソースの量（言い換えると、処理能力の余り度合いを示す余力）を監視している。３つのカメラ１０Ａ，１０Ｂ，１０Ｃは、リソース監視部１５によって監視された空きリソースの量を非同期で又は周期的にサーバ３０に通知する。空きリソースの量は、処理能力の百分率（％）で表される。一例として、カメラ１０Ａの空きリソースの量が９０％であり、カメラ１０Ｂの空きリソースの量が２０％であり、カメラ１０Ｃの空きリソースの量が１０％である場合、サーバ３０は、空きリソースの量が多いカメラ１０Ａに優先的に学習させるように、つまり、学習量を増やすように、このカメラ１０Ａに学習の指示を出力する。

また、サーバ３０は、ネットワークＮＷの帯域が広い、或いはネットワークＮＷが空いている場合には、空きリソースの量が１０％と少ないカメラ１０Ｃで撮像された撮像画像データ（正報或いは誤報の情報付き）を受信すると、空きリソースの量が９０％と多いカメラ１０Ａにその撮像画像データを送信して学習を指示してもよい。これにより、カメラ間で偏った処理の負荷がかかることなく、適正な学習が実現可能となる。

また、サーバ３０は、空きリソース量の少ないカメラで撮像された撮像画像データを、空きリソース量の多いカメラに直接に転送して、学習を行うように指示してもよい。これにより、監視システム内で学習を分散させることができ、特定のカメラに大きな負荷をかけることなく、効率の良い学習が可能である。

また、サーバ３０は、空きリソース量の少ないカメラで撮像された撮像画像データを、空きリソース量の多いカメラに直接に転送して、検出を行うように指示してもよい。これにより、監視システム内で検出を分散させることができ、特定のカメラに大きな負荷をかけることなく、効率の良い検出が可能である。

また、サーバ３０は、空きリソース量の少ないカメラで撮像された撮像画像データを、空きリソース量の多いカメラに直接に転送して、分析を行うように指示してもよい。ここで、分析とは、撮像画像に出現する対象物（つまり、オブジェクト）ｏｂｊを追尾する、或いは、対象物が不審人物に該当するか否かを認識する、等の処理であり、分析の内容は本実施の形態では特に限定されない。これにより、監視システム内で分析を分散させることができ、特定のカメラに大きな負荷をかけることなく、効率の良い分析が可能である。

また、サーバ３０は、監視システム５の全体の処理能力を監視し、システム全体の空きリソースの量が多い場合、各カメラ１０に対し、学習量を増やすように指示し、一方、システム全体の空きリソースの量が少ない場合、各カメラ１０に対し、学習量を減らすように指示してもよい。これにより、監視システム全体に大きな負荷をかけることなく、適正な学習が可能となる。

また、サーバ３０は、各カメラ１０による検出の結果を全てのカメラ１０に共有するように、指示してもよい。これにより、各カメラ１０に検出の結果を分散させることができ、次回以降の検出に用いることで検出精度の向上を図ることができる。

また、サーバ３０は、カメラ１０の空きリソースの量が多い場合、このカメラ１０に送信する統合学習の結果のフィードバック量（例えばフィードバック回数）を増やすように指示し、一方、カメラ１０の空きリソースの量が少ない場合、このカメラ１０に送信する、統合学習の結果のフィードバック量（例えばフィードバック回数）を減らすように指示してもよい。これにより、カメラに大きな負荷をかけることなく、適正な量の学習の結果をカメラにフィードバックする（戻す）ことができる。

また、３つのカメラ１０Ａ，１０Ｂ，１０Ｃは、それぞれ単価コストに関する情報（例えば電力コストに関する情報）をサーバ３０に通知する。電力コストは、カメラ固有の値であり、例えばワット／フレーム（Ｗ／ｆｒａｍｅ）の単位で表現される。一例として、カメラ１０Ａでは１／２００、カメラ１０Ｂでは１／２００、カメラ１０Ｃでは１／４００が挙げられる。なお、電力コストは、通常カメラの使用状況によって大きく変化しないので、１回の通知で充分である。また、電力コストの単位は、フレーム／ワット（ｆｒａｍｅ／Ｗ）で表現されてもよい。

サーバ３０は、カメラ１０Ａとカメラ１０Ｂの電力コストが同じように高い場合、電力コストの低いカメラ１０Ｃに対し、優先的に学習を割り当てる。

サーバ３０は、カメラ１０Ａ，１０Ｂ，１０Ｃの空きリソースの量が同じ或いは同程度である場合、例えばカメラ１０Ａの空きリソースの量が１０％であり、カメラ１０Ｂ，１０Ｃの空きリソースの量がいずれも４５％である場合、電力コストのかからないカメラ１０Ｃで優先的に学習するように、このカメラ１０Ｃに学習の指示を出力する。

なお、カメラの空きリソースの多寡に拘わらず、サーバ３０は、コスト優先で電力コストの低いカメラで学習を実行するように指示してもよい。また、各デバイスの空きリソース及び電力コストの管理を、サーバ３０が行っていたが、各カメラやレコーダが管理してもよく、その場合、空きリソース及び電力コストを監視システム５内の全てデバイス１５０で共有できる。従って、空きリソース及び電力コストを考慮して、各デバイスは、処理の指示実行を行うことも可能となり、多様な運用が可能となる。

図９は、実施の形態１においてサーバ３０がカメラ１０に処理の実行指示を行う動作手順の一例を詳細に示すシーケンス図である。

図９の動作手順では、サーバ３０は、カメラ１０の空きリソースの情報を基に、複数のカメラ１０の中から、分散処理の対象となるカメラ１０を決定し、該当するカメラ１０に処理実行を指示する。カメラの台数Ｎは、任意の台数でよく、ここでは、説明を簡単にするために２台（カメラ１０Ａ，１０Ｂ）を例示する。なお、サーバ３０の代わりに、レコーダ５０が処理実行を指示するカメラ１０を決定してもよい。

カメラ１０Ａは、リソース監視部１５によって監視された空きリソースの情報を繰り返し（例えば常時、又は周期的に）サーバ３０に通知する（Ｔ１）。同様に、カメラ１０Ｂは、リソース監視部１５によって監視された空きリソースの情報を繰り返し（例えば常時、又は周期的に）サーバ３０に通知する（Ｔ２）。

サーバ３０は、カメラ１０Ａ，１０Ｂの空きリソースの情報をテーブルメモリ３５に登録して管理する（Ｔ３）。サーバ３０は、所定値（例えば７０％）以上の空きリソースを有する少なくとも１台のカメラの有無を判別する（Ｔ４）。ここでは、カメラ１０Ｂだけが所定値以上の空きリソースを有すると想定する。

所定値以上の空きリソースを有するカメラがある場合（Ｔ４、ＹＥＳ）、サーバ３０は、該当するカメラに対する検出と学習との両方の実行指示を生成する（Ｔ５）。サーバ３０は、カメラ１０Ｂに対し、ネットワークＮＷを経由して、検出と学習との両方の実行指示を送信する（Ｔ６）。カメラ１０Ｂは、該当する処理を実行する（Ｔ７）。

一方、手順Ｔ４で所定値以上の空きリソースを有するカメラが無い場合（Ｔ４、ＮＯ）、サーバ３０は、全てのカメラ（ここでは、カメラ１０Ａ，１０Ｂ）に対する検出の実行指示を生成する（Ｔ８）。カメラ１０Ａ，１０Ｂは、学習を実行できる程の空きリソースを有していないので、検出のみを行うことになる。サーバ３０は、検出の実行指示を全てのカメラ（ここでは、カメラ１０Ａ，１０Ｂ）に送信する（Ｔ９）。カメラ１０Ａ，１０Ｂは、それぞれ該当する処理を実行する（Ｔ１０，Ｔ１１）。

手順Ｔ７でカメラ１０Ｂが該当する処理を実行した場合、カメラ１０Ｂは、学習結果を生成し（Ｔ１２）、生成した学習結果をサーバ３０に送信する（Ｔ１３）。

図１０は、実施の形態１においてサーバ３０がモデルパラメータのフィードバック量を制御する動作手順の一例を詳細に示すシーケンス図である。

図１０の動作手順では、サーバ３０は、カメラ１０の空きリソースの情報を基に、モデルパラメータのフィードバック量を制御する。カメラの台数Ｎは、任意の台数でよく、ここでは、説明を簡単にするために２台（カメラ１０Ａ，１０Ｂ）である。なお、サーバ３０の代わりに、レコーダ５０がモデルパラメータをフィードバックするカメラ１０を決定してもよい。

サーバ３０は、カメラ１０Ａ，１０Ｂからそれぞれ学習結果であるモデルパラメータを受信し、学習用ＤＢ３４に蓄積する（Ｔ２１）。サーバ３０は、各カメラ１０Ａ，１０Ｂの空きリソースの量に応じて、学習結果である多くのモデルパラメータの中から、推論（検出）処理時に用いる学習モデルのモデルパラメータのフィードバック量をカメラごとに算出する（Ｔ２２）。

サーバ３０は、カメラ１０Ｂに対し、算出されたフィードバック量分のモデルパラメータのデータを送信する（Ｔ２３）。同様に、サーバ３０は、カメラ１０Ａに対し、算出されたフィードバック量分のモデルパラメータのデータを送信する（Ｔ２４）。カメラ１０Ｂは、サーバ３０から受信したモデルパラメータを、処理実行部１４のメモリに追加登録して蓄積する（Ｔ２５）。同様に、カメラ１０Ａは、サーバ３０から受信したモデルパラメータを、処理実行部１４のメモリに追加登録して蓄積する（Ｔ２６）。

なお、ここでは、フィードバック量は、各カメラの空きリソースの情報を基に、サーバ３０により決定されたが、空きリソースに限らず、教師データに基づく正報検出数や教師データに基づく誤報検出数に応じて、決定されてもよい。

図１１は、監視システム５における学習結果の共有の概要例の説明図である。

各カメラ１０（１０Ａ，１０Ｂ，１０Ｃ）は、撮像により得られた撮像画像データを用いてローカル学習を行い、モデルパラメータを更新する。また、各カメラ１０は、正報が得られた撮像画像データだけを用いて学習を行うことができ、学習の結果であるモデルパラメータの精度を向上できる。また、カメラ１０は、オプションとして接続された表示器１９に、ローカル学習において、撮像画像データを評価するためのＵＩ画面３２０（図１２参照）を表示可能である。また、カメラ１０は、ローカル学習時のＵＩ画面３２０をサーバ３０の表示部３７に表示させることも可能である。

図１２は、ローカル学習時に表示されるＵＩ画面３２０を示す図である。

ＵＩ画面３２０は、例えばカメラ１０のローカル学習時に、カメラ１０と通信可能に接続されたサーバ３０の表示部３７又はＰＣ（図示略）の表示部において表示され、具体的には、撮像画像データから切り出された学習データごとに、正誤の判定、カメラＩＤ、リジェクトボタンｂｘを表示する。なお、撮像画像データのサムネイルは、カメラ１０が元の撮像画像データを記憶しているので、ここでは表示されないが、表示されるようにしてもよい。検出の対象物（オブジェクト）ｏｂｊは「人」である。

サーバ３０は、正誤の判定処理において、撮像画像データに対象物ｏｂｊを検出できた場合に正報と判定し、撮像画像データに対象物ｏｂｊを検出できなかった場合に誤報と判定する。なお、ユーザが、サーバ３０の表示部３７に表示されたＵＩ画面３２０に対して入力することで、サーバ３０は、正報或いは誤報を判定してもよい。

カメラＩＤは、学習データを得るために撮像したカメラの識別情報である。

リジェクトボタンｂｘは、ユーザにより選択され、チェックマークが表示される。リジェクトボタンｂｘにチェックマークが付加された学習データは、ユーザが学習ボタンｂｔ５を押下すると、学習に用いられなくなる。

カメラ１０は、自動的に、誤報の撮像画像データを採用する学習に用いず、正報の撮像画像データを採用する学習に用いたが、カメラ１０の代わりに、ユーザがリジェクトボタンｂｘを用いて撮像画像データを指示してもよい。例えば、ユーザは、誤報の撮像画像データを採用する学習に用いず、正報の撮像画像データを採用する学習に用いるように指示してもよい。これにより、誤報の撮像画像データを用いて学習することができる。また、カメラ１０は、正報の撮像画像データと誤報の撮像画像データとを組み合わせて学習に用いてもよい。これにより、撮像画像データの品質に照らして、学習に用いる撮像画像データを選別できる。

サーバ３０は、各カメラ１０（１０Ａ，１０Ｂ，１０Ｃ）から送信されたモデルパラメータＰを受信し、受信した各モデルパラメータＰを合算する統合学習を行い、合算したモデルパラメータＰを学習用ＤＢ３４に追加する。ここで、統合されるモデルパラメータは、設置状況が同じカメラで撮像された画像データを基に得られたモデルパラメータである。一方、設置状況が異なるカメラで撮像された画像データを基に得られるモデルパラメータは、合算されず、別々の学習モデルに対するモデルパラメータとして個別に登録される。

図１３は、統合学習時にサーバ３０の表示部３７に表示されるＵＩ画面３１０を示す図である。

サーバ３０は、表示部３７に、統合学習時のＵＩ画面３１０（図１３参照）を表示可能である。ＵＩ画面３１０は、撮像画像データから切り出された学習データごとに、正誤の判定、サムネイル、カメラＩＤ、リジェクトボタンｂｘを表示する。ここでは、検出の対象物（オブジェクト）が「人」である場合を示す。

サーバ３０は、正誤の判定処理では、撮像画像データに対象物ｏｂｊを検出できた場合に正報と判定し、撮像画像データに対象物ｏｂｊを検出できなかった場合に誤報と判定する。なお、ユーザが、サーバ３０の表示部３７に表示されたＵＩ画面３１０に対して入力することで、サーバ３０は、正報或いは誤報を判定してもよい。

サムネイルは、学習データの縮小画像である。サムネイルであるので、カメラ１０からサーバ３０に送信される際、データ転送量は抑えられる。カメラＩＤは、学習データを得るために撮像したカメラの識別情報である。

サーバ３０は、自動的に正報の撮像画像データを採用するように学習し（つまり、正報の撮像画像データの検出に用いたモデルパラメータを蓄積するように学習し）、誤報の撮像画像データを排除するように学習する（つまり、誤報の撮像画像データの検出に用いたモデルパラメータを蓄積しないように学習する）。但し、学習に用いる撮像画像データの選択について、ユーザが主体的にリジェクトボタンｂｘを用いて、学習に用いる撮像画像データが指示されてもよい。また、ユーザは、誤報の撮像画像データを排除する学習を行わず、正報の撮像画像データを採用する学習を行うように指示してもよい。

このように、サーバ３０がモデルパラメータを統合学習することで、モデルパラメータの学習の精度が向上する。サーバ３０は、統合学習の結果である更新されたモデルパラメータを、該当するカメラ１０にフィードバック送信する。これにより、各カメラ１０で得られる撮像画像データの正報が多くなるほど、カメラの検出精度が高くなる。

また、サーバ３０は、統合学習の結果である更新されたモデルパラメータＰを、各カメラ１０にフィードバック送信する際、各カメラ１０の正報の数に応じて、フィードバック量を制御する。つまり、サーバ３０は、誤報の数が多いカメラ１０に対し、フィードバック量（例えばフィードバック回数）が多くなるように、更新済みモデルパラメータを送信する。これにより、正報の数が増加し、カメラの検出精度が向上する。

一方、サーバ３０は、正報の数が多いカメラ１０に対し、フィードバック量（例えばフィードバック回数）が少なくなるように、更新済みモデルパラメータを送信する。これにより、カメラの処理負荷を軽減できる。なお、サーバ３０は、設置環境が同じであるカメラに対し、同一の更新済みのモデルパラメータを送信して共有させることは、前述した通りである。

また、サーバ３０は、各カメラ１０に対し、学習の実行指示を行う際、各カメラ１０の正報の数に応じて、学習の量を指示する。誤報の数が多いカメラ１０に対し、学習量が多くなるように、学習の実行指示を行う。これにより、正報の数が増加し、カメラの検出精度が向上する。一方、サーバ３０は、正報の数が多いカメラ１０に対し、学習量が少なくなるように、学習の実行指示を行う。これにより、カメラの処理負荷を軽減できる。

また、サーバ３０は、各カメラ１０で撮像された撮像画像に出現する対象物を検出する検出の結果を統合して管理してもよい。検出の結果を統合する場合、対象物の動きをベクトルで表し、ベクトルで検出の結果を管理してもよい。

以上により、第１の実施形態の監視システム５では、サーバ３０と、監視エリアＳＡに設置された複数のカメラ１０とが互いに通信可能に接続される。サーバ３０は、それぞれのカメラ１０の空きリソース（つまり、処理能力に関する情報）と、それぞれのカメラ１０により監視エリアＳＡの撮像により得られた撮像画像のデータとを保持するテーブルメモリ３５を有する。サーバ３０は、カメラ１０の処理能力に関する情報に基づいて、それぞれのカメラ１０により得られる撮像画像に出現する少なくとも１つの対象物（オブジェクト）ｏｂｊの検出に関してカメラ１０が実行する処理をカメラ１０ごとに決定し、決定された処理の実行指示をカメラ１０ごとに送信する。それぞれのカメラ１０は、サーバ３０から送信された処理の実行指示に基づいて、実行指示に対応する処理を実行する。

これにより、監視システム５は、監視エリアＳＡに設置された複数のカメラ１０において撮像されたそれぞれの撮像画像内の少なくとも１つのオブジェクトの検出に際し、その検出に用いるパラメータの学習等の処理を複数のカメラ１０間で分散でき、ネットワーク上のトラフィックの増大を抑制し、複数のカメラ１０に接続されるサーバ３０の処理負荷の軽減を支援することができる。

また、上述した処理は、撮像画像に出現する少なくとも１つの対象物（オブジェクト）ｏｂｊの検出に用いるモデルパラメータＰを学習する学習である。これにより、監視システム５は、負荷の大きな学習を複数のカメラ１０に分散させることができる。

また、サーバ３０は、複数のカメラ１０に対し、学習の実行指示をそれぞれ送信する。複数のカメラ１０は、それぞれ学習の実行指示に従って、学習を実行する。サーバ３０は、複数のカメラ１０により実行された学習の結果を受信する。これにより、サーバ３０は、例えば自装置で学習することなく、複数のカメラ１０から学習の結果を得ることができる。

また、サーバ３０は、自身で学習を実行するとともに、複数のカメラ１０に学習の実行指示をそれぞれ送信する。複数のカメラ１０は、それぞれ学習の実行指示に従い、学習を実行する。サーバ３０は、複数のカメラ１０により実行された学習の結果を受信する。これにより、サーバ３０は、複数のカメラ１０から得た学習の結果に、自装置の学習結果を加えることができ、次回以降の学習の効率化を図ることができる。

また、サーバ３０は、学習の結果を複数の前記カメラに送信する。複数のカメラ１０は、学習の結果を共有する。これにより、複数のカメラは、同じ学習の結果を利用できる。

また、複数のカメラ１０のうち一部の複数のカメラ１０は同一の設置状況で設置される。サーバ３０は、学習の結果を、設置状況が同じである一部の複数のカメラ１０にそれぞれ送信する。設置状況が同じである一部の複数のカメラ１０は、サーバ３０から送信された学習の結果を共有する。これにより、監視システム５は、設置状況が同じである複数のカメラ１０によるオブジェクトの検出精度を高めることができる。

また、サーバ３０は、カメラ１０により検出された対象物（オブジェクト）ｏｂｊの検出数に応じて、学習の処理量を制御する。これにより、サーバ３０は、オブジェクトの検出数が多くて、処理の負荷が大きいカメラに対し、負荷を増加させるような、学習の量を減らすことができる。一方、サーバ３０は、オブジェクトの検出数が多くて、処理の負荷が小さいカメラに対し、学習の量を増やすことができる。従って、カメラの処理の負荷を均一化に繋がる。

また、サーバ３０は、カメラ１０により検出された対象物（オブジェクト）ｏｂｊの検出の正報の数に応じて、カメラ１０における学習の処理量を制御する。これにより、サーバ３０は、正報の学習の結果を多く用いることで、学習の結果の精度（言い換えると、次回以降の検出の精度）を向上できる。

また、サーバ３０は、カメラ１０により検出された対象物（オブジェクト）ｏｂｊの検出の誤報の数に応じて、カメラ１０における学習の量を制御する。これにより、サーバ３０は、誤報の学習の結果を用いないようにすることで、結果的に学習の結果の精度（言い換えると、次回以降の検出の精度）を向上できる。

また、サーバ３０は、カメラ１０の処理能力の量に応じて、カメラ１０における学習の処理量を制御する。これにより、サーバ３０は、特定のカメラに大きな負荷をかけることなく、複数のカメラに学習を分散させることができ、効率の良い学習の実現が可能である。

また、サーバ３０は、監視システム５を構成するサーバ３０及び複数のカメラ１０のそれぞれの処理能力に関する情報をテーブルメモリ３５に保持する。サーバ３０は、サーバ３０及び複数のカメラ１０のそれぞれの処理能力の量に応じて、学習の処理量を制御する。これにより、サーバ３０は、監視システムの特定のデバイスに大きな負荷をかけることなく、複数のデバイスに学習を分散させることができ、効率の良い学習の実現が可能である。

また、上記処理は、撮像画像ｏｇに出現する少なくとも１つの対象物（オブジェクト）ｏｂｊの検出に用いるモデルパラメータＰを学習する学習と、撮像画像ｏｇに出現する少なくとも１つの対象物（オブジェクト）ｏｂｊを検出する検出と、検出によって検出された少なくとも１つの対象物（オブジェクト）ｏｂｊを分析する分析と、を含む。これにより、サーバ３０は、学習の他、検出と分析においても、複数のカメラ１０に処理を分散させることができる。

また、サーバ３０は、複数のカメラ１０のうち、他のカメラと比べて相対的に処理能力の高い少なくとも１つのカメラ１０に対し、テーブルメモリ３５に保持される撮像画像のデータを送信し、学習の実行指示を行う。これにより、サーバ３０は、ネットワークの帯域が広い場合或いはネットワークが空いている時等において、他の処理能力の高いカメラに撮像画像データを送信することも可能であり、結果的に学習のスピードを向上させることができる。

また、サーバ３０は、複数のカメラ１０のうち、他のカメラと比べて相対的に処理能力の高い少なくとも１つのカメラ１０に対し、テーブルメモリ３５に保持される撮像画像のデータを送信し、検出の実行指示を行う。これにより、サーバ３０は、ネットワークの帯域が広い場合或いはネットワークが空いている時等において、他の処理能力の高いカメラに撮像画像データを送信することも可能であり、結果的に検出のスピードを向上させることができる。

また、サーバ３０は、複数のカメラ１０のうち、他のカメラと比べて相対的に処理能力の高い少なくとも１つのカメラ１０に対し、テーブルメモリ３５に保持される撮像画像のデータを送信し、分析の実行指示を行う。これにより、サーバ３０は、ネットワークの帯域が広い場合或いはネットワークが空いている時等において、他の処理能力の高いカメラに撮像画像データを送信することも可能であり、結果的に分析のスピードを向上させることができる。

また、上記処理は、撮像画像ｏｇに出現する少なくとも１つの対象物（オブジェクト）ｏｂｊを検出する検出である。サーバ３０は、検出の結果を複数のカメラ１０にそれぞれ送信する。複数のカメラ１０は、検出の結果を共有する。これにより、サーバ３０は、特定のカメラに大きな負荷をかけることなく、複数のカメラに検出を分散させることができ、検出の効率を高めることができる。

また、サーバ３０は、複数のカメラ１０により実行された学習の結果を統合する。これにより、監視システム５は、サーバ３０における統合によって集約された学習の結果の精度を向上できる。

また、複数のカメラ１０のうち一部の複数のカメラ１０は、同一の設置状況で設置される。サーバ３０は、カメラ１０の設置状況が同じである、複数のカメラ１０により実行された学習の結果を統合する。これにより、サーバ３０は、同じ設置状況のカメラによるオブジェクトの検出精度を高めることができる。

サーバ３０は、設置状況が同一の一部の複数のカメラ１０から、それぞれのカメラの設置状況に関する情報の通知を受信し、その一部の複数のカメラ１０により実行された学習の結果を統合する。これにより、サーバ３０は、同じ設置状況のカメラによる学習の結果を統合し易くなる。

また、サーバ３０及び複数のカメラ１０が、複数のカメラ１０の処理能力に関する情報と複数のカメラ１０の単価コストに関する情報（例えば個々のカメラ１０の電力コストの情報）とを共有する。これにより、サーバ３０は、空きリソース及び電力コストを考慮して、サーバ及び複数のカメラ等の各デバイスは、処理の指示実行を行うことも可能となり、多様な運用が可能となる。

（第２の実施の形態に至る経緯）
上述した特許文献１のような従来技術では、撮像画像内において追跡対象となる物体の正解となる物体動き情報を得るために、その物体に関する評価関数のスコアを用いることは開示されている。しかし、物体の検出精度を示すスコアに応じて、物体の検出において必要なパラメータの学習量をコントロールすることについては特段の考慮がなされていなかった。このため、例えば本来学習が必要ではない、検出に用いるパラメータを学習してしまうことでパラメータの学習精度にばらつきが生じ、物体の検出精度に影響を及ぼすことが懸念される。

そこで、実施の形態２では、監視エリアに設置されたカメラにおいて撮像された撮像画像内の少なくとも１つのオブジェクトの検出に得られた、そのオブジェクトの検出精度を示すスコアに応じて、検出に用いるパラメータの学習量を適切に制御し、カメラにおける学習精度を向上する監視システム及び監視方法の例、並びに、カメラ及びパラメータ登録方法を説明する。

（実施の形態２）
実施の形態２の監視システム５のシステム構成は、上述した実施の形態１の監視システム５のシステム構成と同一であるので、同一の符号を用いることで、その説明を簡略化又は省略し、異なる内容について説明する。

図１４は、実施の形態２のカメラ１０の処理実行部１４の内部構成の一例を詳細に示すブロック図である。

カメラ１０の主要な構成である処理実行部１４は、ニューラルネットワーク（つまり、ＮＮ１４０）の他、教師データセットメモリ１５１及びパラメータメモリ１５２を含む。

ＮＮ１４０は、オブジェクト推論機能１４１と、スコア導出機能１４２と、正誤判定機能１４３と、パラメータ学習機能１４４との各機能を有する。

検出部の一例としてのオブジェクト推論機能１４１では、ＮＮ１４０は、モデルパラメータに従い、撮像画像に出現する対象物が何であるかを推論（つまり、検出）する。

導出部の一例としてのスコア導出機能１４２では、ＮＮ１４０は、推論時に対象物の検出精度を示すスコア（評価値）を、教師データセットメモリ１５１に登録された教師データを用いて導出し、そのスコアを出力する。

正誤判定機能１４３では、ＮＮ１４０は、推論時に対象物の正誤の判定を、教師データセットメモリ１５１に登録された教師データを用いて導出し、その判定結果を出力する。

パラメータ学習部の一例としてのパラメータ学習機能１４４では、ＮＮ１４０は、スコアが高い対象物の推論に用いられたモデルパラメータを採用するように学習する。また、パラメータ学習機能１４４では、ＮＮ１４０は、スコアが低い対象の推論に用いられたモデルパラメータを排除するように学習する。ＮＮ１４０は、学習したモデルパラメータをパラメータメモリ１５２に登録して蓄積する。パラメータメモリ１５２に登録された第１所定値（例えば８０点）よりスコアが高い対象物の推論に用いられたモデルパラメータは、後述する学習結果の共有において、サーバ３０に送信され、統合学習において利用される。

図１５は、カメラ１０のローカル学習の動作手順の一例を詳細に示すフローチャートである。

図１５において、カメラ１０は、イメージセンサ１２において被写体像から対象物を撮像し（Ｓ１）、撮像画像データを生成する（Ｓ２）。

処理実行部１４は、撮像画像データを入力し、撮像画像に現れる少なくとも１つの対象物（つまり、オブジェクト）を推論（検出）する（Ｓ３）。処理実行部１４は、推論（検出）時に少なくとも１つのオブジェクトのスコアリング処理を行う（Ｓ４）。このスコアリング処理では、処理実行部１４は、教師データセットメモリ１５１に登録された教師データを用いて、オブジェクトのスコア（評価値）を出力する。

処理実行部１４は、スコアリング処理の結果、第１所定値（例えば８０点）より上位スコアのオブジェクトの推論に用いたモデルパラメータ、及び第２所定値（例えば１０点）下位スコアのオブジェクトの推論に用いたモデルパラメータを用いて、ＮＮ１４０のモデルパラメータを学習する（Ｓ５）。また、ステップＳ５において、処理実行部１４は、第１所定値より上位スコアのモデルパラメータをパラメータメモリ１５２に登録して蓄積する。この後、カメラ１０は、図１５に示す処理を終了する。

上位スコアは、例えば８０点〜１００点である。下位スコアは、例えば０点〜１０点である。処理実行部１４は、例えば上位スコアのモデルパラメータを採用し、下位スコアのモデルパラメータを排除する。

上位スコアのオブジェクトは正報の可能性が高いオブジェクトであり、下位スコアのオブジェクトは誤報の可能性が高いオブジェクトである。従って、上位スコアのオブジェクトの推論（検出）に用いたモデルパラメータを採用するように学習することで、正報の可能性が高いオブジェクトの推定に適用されたモデルパラメータが用いられるようになり、モデルパラメータの学習精度を向上させることができる。

また、下位スコアのオブジェクトの推論に用いたモデルパラメータを排除するように学習することで、誤報の可能性が高いオブジェクトの推定に適用されたモデルパラメータが用いられなくなり、モデルパラメータの学習精度を向上させることができる。

また、処理実行部１４は、上位スコアのオブジェクトの推論に用いたモデルパラメータと、下位スコアのオブジェクトの推論に用いたモデルパラメータとを組み合わせて、学習してもよい。このように、上位スコアのオブジェクトの推論に用いたモデルパラメータと、下位スコアのオブジェクトの推論に用いたモデルパラメータとを組み合わせて学習することで、モデルパラメータの学習精度をより一層向上させることができる。

図１６は、監視システム５における学習結果の共有の概要例の説明図である。

各カメラ１０（１０Ａ，１０Ｂ，１０Ｃ）は、撮像により得られた撮像画像データを用いてローカル学習を行う。ローカル学習において、各カメラ１０は、撮像画像データの中で検出した対象物の検出精度に関するスコアリング処理を実行し、得られたスコアに応じて、ＮＮ１４０のモデルパラメータを学習する。また、各カメラ１０は、上位スコアのオブジェクトの推論（検出）に用いたモデルパラメータのみ採用して学習する。これにより、モデルパラメータの学習精度を向上できる。

また、ローカル学習では、撮像画像データを評価するためのＵＩ画面３４０（図１７参照）が表示可能である。例えば、カメラ１０は、カメラ１０にオプションとして接続された表示器（図示略）にＵＩ画面３４０を表示させてもよいし、サーバ３０の表示部３７に転送してＵＩ画面３４０を表示させることも可能である。

図１７は、ローカル学習時に表示されるＵＩ画面３４０の一例を示す図である。

ＵＩ３４０は、撮像画像データから切り出された学習データごとに、スコア、カメラＩＤ、リジェクトボタンｂｘを表示する。なお、画像データのサムネイルは、カメラ１０が元の撮像画像データを記憶しているので、ここでは表示されないが、表示されるようにしてもよい。検出の対象（オブジェクト）は「人」である。

スコアは、０点〜１００点の範囲で数値化される。なお、スコアは、各カメラ１０がスコアリング処理することで算出されたが、ユーザがＵＩ３２０から入力することで取得されてもよい。カメラＩＤは、学習データを得るために撮像したカメラの識別情報である。リジェクトボタンｂｘは、ユーザにより選択された場合、チェックマークが表示される。リジェクトボタンｂｘにチェックマークが付加された学習データは、ユーザが学習ボタンｂｔ５を押下すると、学習に用いられなくなる。

カメラ１０は、自動的に、下位スコアの撮像画像データを採用する学習を行わず、上位スコアの撮像画像データを採用する学習を行った。但し、例えばカメラ１０の代わりに、ユーザが、リジェクトボタンｂｘを用いて学習に用いる撮像画像データを指示してもよい。例えば、ユーザは、下位スコアの撮像画像データを排除する学習を行わず、上位スコアの撮像画像データを採用する学習を行うように指示してもよい。

また、各カメラ１０は、上位スコアの撮像画像データのみ採用する学習を行ったが、例えば下位スコアの撮像画像データのみ排除する学習を行うように指示してもよい。これにより、下位スコアの撮像画像データが排除された撮像画像データを用いて学習を行うことができる。また、上位スコアの撮像画像データと下位スコアの撮像画像データとを組み合わせて用いるように設定されてもよい。これにより、撮像画像データの品質に照らして、学習に用いる画像データを、カメラ或いはユーザが個別に選別できる。

サーバ３０は、各カメラ１０（１０Ａ，１０Ｂ，１０Ｃ）から送信されたモデルパラメータを受信し、受信した各モデルパラメータを合算する統合学習を行い、合算したモデルパラメータを学習用ＤＢ３４に追加する。ここで、統合されるモデルパラメータは、設置状況が同じカメラで撮像された画像データを基に得られたモデルパラメータである。一方、設置状況が異なるカメラで撮像された画像データを基に得られるモデルパラメータは、合算されず、別々の学習モデルに対するモデルパラメータとして個別に登録される。

図１８は、統合学習時にサーバ３０の表示部３７に表示されるＵＩ画面３５０の一例を示す図である。

サーバ３０は、表示部３７に、統合学習時のＵＩ３１０（図１８参照）を表示可能である。ＵＩ３５０は、撮像画像データから切り出された学習データ毎に、スコア、サムネイル、カメラＩＤ、リジェクトボタンｂｘを表示する。ここでは、検出の対象（オブジェクト）が「人」である場合を示す。

スコアは、０点〜１００点の範囲で数値化される。例えば、対象が「人」である場合、人が写っている画像データの点数は、８０点〜１００点と高くなる。一方、人でなく「木」が写っている画像データの点数は、１０点と低くなる。サムネイルは、学習データの縮小画像である。サムネイルであるので、カメラ１０からサーバ３０に送信される際、データ転送量は抑えられる。カメラＩＤは、学習データを得るために撮像したカメラの識別情報である。リジェクトボタンｂｘは、ユーザにより選択され、チェックマークが表示される。リジェクトボタンｂｘにチェックマークが付加された学習データは、ユーザが学習ボタンｂｔ５を押下すると、学習に用いられなくなる。

サーバ３０は、自動的に上位スコアの撮像画像データを採用する学習を行わず、下位スコアの撮像画像データを排除する学習を行う。但し、例えばユーザが、リジェクトボタンｂｘを用いて学習に用いる撮像画像データを指示してもよい。例えば、ユーザは、下位スコアの撮像画像データを排除する学習を行わず、上位スコアの撮像画像データを採用する学習を行うように指示してもよい。

このように、サーバ３０がモデルパラメータを統合学習することで、モデルパラメータの学習の精度が向上する。サーバ３０は、統合学習の結果である更新されたモデルパラメータを、該当するカメラ１０にフィードバック送信する。これにより、各カメラ１０で得られる画像データの正報が多くなるほど、カメラの検出精度が高くなる。

また、サーバ３０は、統合学習の結果である、更新されたモデルパラメータを、各カメラ１０にフィードバック送信する際、各カメラ１０の正報の数に応じて、フィードバック量を制御する。つまり、サーバ３０は、誤報の数が多いカメラ１０に対し、フィードバック量（例えばフィードバック回数）が多くなるように、更新済みモデルパラメータを送信する。これにより、正報の数が増加し、カメラの検出精度が向上する。

一方、サーバ３０は、正報の数が多いカメラ１０に対し、フィードバック量（例えばフィードバック回数）が少なくなるように、更新済みモデルパラメータを送信する。これにより、カメラの処理の負荷を軽減できる。なお、サーバ３０は、設置環境が同じであるカメラに対し、同一の更新済みのモデルパラメータを送信して共有させることは、前述した通りである。

また、サーバ３０は、各カメラ１０に対し、学習の実行指示を行う際、各カメラ１０の正報の数に応じて、学習の処理量を指示する。誤報の数が多いカメラ１０に対し、学習量が多くなるように、学習の実行指示を行う。これにより、正報の数が増加し、カメラの検出精度が向上する。一方、サーバ３０は、正報の数が多いカメラ１０に対し、学習量が少なくなるように、学習の実行指示を行う。これにより、カメラの処理の負荷を軽減できる。

また、サーバ３０は、各カメラ１０で撮像された画像に出現する対象を検出する検出の結果を統合して管理してもよい。検出の結果を統合する場合、対象の動きをベクトルで表し、ベクトルで検出の結果を管理してもよい。

以上により、実施の形態２のカメラ１０は、監視エリアＳＡに設置され、サーバ３０と互いに通信可能に接続された監視システム５に用いられるカメラである。カメラ１０は、イメージセンサ１２において、監視エリアＳＡからの被写体光を撮像する。カメラ１０は、検出部の一例としてのオブジェクト推論機能１４１において、被写体光の撮像に基づく撮像画像ｏｇを用いて、撮像画像に出現する少なくとも１つのオブジェクトを検出する。カメラ１０は、オブジェクトの種別ごとに用意された教師データセットを教師データセットメモリ１５１において保持する。カメラ１０は、導出部の一例としてのスコア導出機能１４２において、教師データセットを用いて、検出されたオブジェクトの検出精度を示すスコアを導出する。カメラ１０は、パラメータ学習部の一例としてのパラメータ学習機能１４４において、導出されたスコアに応じて、オブジェクトの検出に用いるモデルパラメータを学習する。カメラ１０は、パラメータ学習機能１４４において、モデルパラメータの学習結果をパラメータメモリ１５２に登録して蓄積する。

これにより、カメラ１０は、監視エリアに設置されたカメラにおいて撮像された撮像画像内の少なくとも１つのオブジェクトの検出によって得られた、そのオブジェクトの検出精度を示すスコアに応じて、検出に用いるパラメータの学習量を適切に制御し、カメラにおける学習精度を向上させることができる。

また、パラメータ学習機能１４４は、第１所定値より上位のスコアが導出されたモデルパラメータを採用するように学習する。このように、カメラ１０は、上位スコアのオブジェクトの推論に用いたモデルパラメータを採用するように学習することで、正報の可能性が高いオブジェクトの推定に適用されたモデルパラメータが用いられるようになり、モデルパラメータの学習精度を向上させることができる。

また、パラメータ学習機能１４４は、第２所定値より下位のスコアが導出されたモデルパラメータを排除するように学習する。このように、カメラ１０は、下位スコアのオブジェクトの推論に用いたモデルパラメータを排除するように学習することで、誤報の可能性が高いオブジェクトの推定に適用されたモデルパラメータが用いられなくなり、モデルパラメータの学習精度を向上させることができる。

また、パラメータ学習機能１４４は、第１所定値より上位のスコアが導出されたモデルパラメータを採用するように学習し、かつ、第２所定値より下位のスコアが導出されたモデルパラメータを排除するように学習する。このように、カメラ１０は、上位スコアのオブジェクトの推論に用いたモデルパラメータと、下位スコアのオブジェクトの推論に用いたモデルパラメータとを組み合わせて学習することで、モデルパラメータの学習精度をより一層向上させることができる。

以上、図面を参照しながら各種の実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述実施の形態における各構成要素を任意に組み合わせてもよい。

例えば、上述した実施の形態では、監視システムは、泥棒等の不審者を発見・追跡する、防犯用の監視システムに適用される場合を示したが、無人自動化（ＦＡ化）された製造ラインにおける製品検査用の監視システム等に適用されてもよい。

本開示は、ネットワーク上のトラフィックの増大を抑制し、複数のカメラに接続されるサーバの処理負荷の軽減を支援することができる監視システムとして有用である。

５監視システム
１０，１０Ａ，１０Ｂ，１０Ｃカメラ
１１レンズ
１２イメージセンサ
１３信号処理部
１４処理実行部
１５リソース監視部
１６ネットワークＩ／Ｆ
１７クロップエンコード部
３０サーバ
３１プロセッサ
３２メモリ
３３通信部
３４学習用ＤＢ
３５テーブルメモリ（メモリ）
３６操作部
３７表示部
５０レコーダ
１５０デバイス
ＮＷネットワーク
Ｐモデルパラメータ

Claims

サーバと、監視エリアに設置された複数のカメラとが互いに通信可能に接続された監視システムであって、
前記サーバは、
それぞれの前記カメラの処理能力に関する情報と、それぞれの前記カメラにより前記監視エリアの撮像により得られた撮像画像とを保持するメモリを有し、
前記カメラの処理能力に関する情報に基づいて、それぞれの前記カメラにより得られる撮像画像に出現する少なくとも１つのオブジェクトの検出に関して前記カメラが実行する処理を前記カメラごとに決定し、決定された前記処理の実行指示を前記カメラごとに送信し、
それぞれの前記カメラは、前記サーバから送信された前記処理の実行指示に基づいて、前記実行指示に対応する処理を実行する、
監視システム。
前記処理は、前記撮像画像に出現する少なくとも１つのオブジェクトの検出に用いるパラメータを学習する学習である、
請求項１に記載の監視システム。
前記サーバは、前記複数のカメラに対し、前記学習の実行指示をそれぞれ送信し、
前記複数のカメラは、それぞれ前記学習の実行指示に従って、前記学習を実行し、
前記サーバは、前記複数のカメラにより実行された前記学習の結果を受信する、
請求項２に記載の監視システム。
前記サーバは、前記学習を実行するとともに、前記複数のカメラに対し、前記学習の実行指示をそれぞれ送信し、
前記複数のカメラは、それぞれ前記学習の実行指示に従って、前記学習を実行し、
前記サーバは、前記複数のカメラにより実行された前記学習の結果を受信する、
請求項２に記載の監視システム。
前記サーバは、前記学習の結果を、前記複数のカメラにそれぞれ送信し、
前記複数のカメラは、前記サーバから送信された前記学習の結果を共有する、
請求項３又は４に記載の監視システム。
前記複数のカメラのうち一部の複数のカメラは、同一の設置状況で設置され、
前記サーバは、前記学習の結果を、前記一部の複数のカメラにそれぞれ送信し、
前記一部の複数のカメラは、前記サーバから送信された前記学習の結果を共有する、
請求項５に記載の監視システム。
前記サーバは、前記カメラにより検出された前記オブジェクトの検出数に応じて、前記学習の処理量を制御する、
請求項２に記載の監視システム。
前記サーバは、前記カメラにより検出された前記オブジェクトの検出の正報の数に応じて、前記カメラにおける前記学習の処理量を制御する、
請求項７に記載の監視システム。
前記サーバは、前記カメラにより検出された前記オブジェクトの検出の誤報の数に応じて、前記カメラにおける前記学習の処理量を制御する、
請求項７に記載の監視システム。
前記サーバは、前記カメラの処理能力に関する情報に応じて、前記カメラにおける前記学習の処理量を制御する、
請求項２に記載の監視システム。
前記サーバは、前記監視システムを構成する前記サーバ及び前記複数のカメラのそれぞれの処理能力に関する情報を前記メモリに保持し、前記サーバ及び前記複数のカメラのそれぞれの処理能力に関する情報に応じて、前記学習の処理量を制御する、
請求項２に記載の監視システム。
前記処理は、前記撮像画像に出現する少なくとも１つのオブジェクトの検出に用いるパラメータを学習する学習と、前記撮像画像に出現する少なくとも１つのオブジェクトを検出する検出と、前記検出によって検出された少なくとも１つのオブジェクトを分析する分析と、を含む、
請求項１に記載の監視システム。
前記サーバは、前記複数のカメラのうち、他のカメラと比べて相対的に処理能力の高い少なくとも１つのカメラに対し、前記メモリに保持される前記撮像画像を送信し、前記学習の実行指示を行う、
請求項１２に記載の監視システム。
前記サーバは、前記複数のカメラのうち、他のカメラと比べて相対的に処理能力の高い少なくとも１つのカメラに対し、前記メモリに保持される前記撮像画像を送信し、前記検出の実行指示を行う、
請求項１２に記載の監視システム。
前記サーバは、前記複数のカメラのうち、他のカメラと比べて相対的に処理能力の高い少なくとも１つのカメラに対し、前記メモリに保持される前記撮像画像を送信し、前記分析の実行指示を行う、
請求項１２に記載の監視システム。
前記処理は、前記撮像画像に出現する少なくとも１つのオブジェクトを検出する検出であり、
前記サーバは、前記検出の結果を、前記複数のカメラにそれぞれ送信し、
前記複数のカメラは、前記検出の結果を共有する、
請求項１に記載の監視システム。
前記サーバは、前記複数のカメラにより実行された学習の結果を統合する、
請求項２に記載の監視システム。
前記複数のカメラのうち一部の複数のカメラは、同一の設置状況で設置され、
前記サーバは、前記一部の複数のカメラにより実行された学習の結果を統合する、
請求項１７に記載の監視システム。
前記サーバは、前記一部の複数のカメラから、それぞれの前記カメラの設置状況に関する情報の通知を受信し、前記一部の複数のカメラにより実行された学習の結果を統合する、
請求項１８に記載の監視システム。
前記サーバ及び前記複数のカメラが、前記複数のカメラの処理能力に関する情報と前記複数のカメラの単価コストに関する情報とを共有する、
請求項１に記載の監視システム。
サーバと、監視エリアに設置された複数のカメラとが互いに通信可能に接続された監視システムを用いた監視方法であって、
前記サーバは、
それぞれの前記カメラの処理能力に関する情報と、それぞれの前記カメラにより前記監視エリアの撮像により得られた撮像画像とをメモリに保持し、
前記カメラの処理能力に関する情報に基づいて、それぞれの前記カメラにより得られる撮像画像に出現する少なくとも１つのオブジェクトの検出に関して前記カメラが実行する処理を前記カメラごとに決定し、決定された前記処理の実行指示を前記カメラごとに送信し、
それぞれの前記カメラは、前記サーバから送信された前記処理の実行指示に基づいて、前記実行指示に対応する処理を実行する、
監視方法。