JP7444284B2

JP7444284B2 - カメラデバイス制御装置、カメラデバイス制御方法、および、カメラデバイス制御プログラム

Info

Publication number: JP7444284B2
Application number: JP2022563296A
Authority: JP
Inventors: 博史野口; 卓万磯田; 誠亮新井; 昌宏宮坂
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2024-03-06
Anticipated expiration: 2040-11-18
Also published as: WO2022107231A1; JPWO2022107231A1

Description

本発明は、人物等の発見対象を認証するために、任意に設置された複数のカメラデバイスを制御する、カメラデバイス制御装置、カメラデバイス制御方法、および、カメラデバイス制御プログラムに関する。

モノのインターネットと呼ばれるＩｏＴ（Internet of Things）が急速な普及拡大をみせており2025年には100億台を超えるデバイスがインターネットに接続されると言われている。ネットワークにつながる代表的なデバイスの一つにネットワークカメラがある。2020年時点において、店舗やオフィスビルには、保安監視を目的とする多数のネットワークカメラが設置されている。これらのカメラは、特定の保安監視用途にのみ設置され、特定の事業者によってのみ使用されているが、今後、ＩｏＴのさらなる普及に伴い、事業者を跨った多様な用途への利用が想定される。

広域に設置された複数のネットワークカメラを活用するサービスの一つに、人物の認定（発見）、追跡サービスがある。これは、ネットワークカメラがリアルタイムに撮影した画像から人物を抽出し、画像分析処理を行うことで同一人物を判定して追跡するサービスである。画像分析の学術研究では、このような画像分析を、ID-ReIndentification（非特許文献１参照）と呼んでいる。

このような任意設置されたカメラの撮影画像を用いる画像解析は、データ品質の確保が問題となる。人物の顔認識のような高度な画像解析には、分析対象とするデータの品質が重要である。画像分析ソフトウェアの仕様によって詳細の条件は異なるが、一般的には、正面から顔をとらえ、目や鼻といった特徴点が隠れておらず、また、一定以上の解像度の画像が必要である。

テーマパークや空港のパスポート認証のような特定環境下のカメラを用いて人物照合を行うサービスでは、照合対象者の協力のもと、このような画像の用意が可能である。一方、前述のような任意設置されたネットワークカメラを適宜活用する場合には、偶然にこのような画像が得られることは稀である。例えば、店舗天井に設置された監視カメラを用いて無作為に撮影を行うことで得られる画像は、人物の顔が隠れている、もしくは顔領域の画像サイズが極めて小さいといった、顔認識の要件を満たさないものが大半と予想される。

このような画像を分析処理にかけたところで、正確な画像分析結果を獲得できず、また、処理にかかったコンピュータの消費電力、ネットワークカメラの稼働電力、および、ネットワークカメラからコンピュータへのデータ通信にかかる通信コストに無駄が生じる。さらに、要件を満たす画像が偶然撮影されるまで処理を実行すると、目的の画像分析結果を得るまでに長い時間を要してしまう。そして、処理に要する時間が長大になるほど、サービス品質を損なうことになり、また、システム全体のコストを増加させてしまう。

この問題に対し、従来、収集データの品質を向上させる手段の一つとして、ＰＴＺカメラを利用する手段が知られている。ＰＴＺカメラとは、パン、チルト、ズームといった可動機能を有し、特定領域の拡大画像を取得することが可能なカメラである。ＰＴＺカメラを適切に制御することで、画像分析対象の高精細なデータを取得することが可能である。例えば、発見対象である人物等を検知して、その人物等の移動に合わせて撮影範囲を自動的に移動させるカメラが販売されている（非特許文献２参照）。また、市販のデジタルカメラの中には、人物の顔を判定してその周辺を自動的にズームする機能を有するものがある（非特許文献３参照）。

Zheng, Liang, Yi Yang, and Alexander G. Hauptmann. "Person re-identification: Past, present and future." arXiv preprint arXiv:1610.02984 (2016). "BEST CAM", [online]，株式会社塚本無線，[令和2年11月10日検索]，インターネット＜ＵＲＬ：https://www.best-cam.jp/＞ "PowerShot SX70 HS 「フレーミングアシスト（オートズム）」"，[online]，キャノン株式会社，[令和2年11月10日検索]，インターネット＜ＵＲＬ：https://cweb.canon.jp/camera/dcam/lineup/powershot/sx70hs/feature-zoom.html＞

しかしながら、上記した技術は、複数の検知対象の候補の中から、特定の検知対象（例えば、特定の人物）を発見し追跡することを考慮したものではない。例えば、非特許文献２に記載した技術は、任意設置されたネットワークカメラが複数の検知対象を同時に撮影している状況下では、追跡対象を適切に選択できない。また、非特許文献３に記載した技術は、追跡対象（人物）の発見、追跡という観点でズーム対象を選択するものではなく、追跡対象となる人物を予めユーザ側が指定してからその追跡対象についてズームをするものである。つまり、これらの機能は、複数の検知対象の候補の中から、特定の検知対象の発見、追跡といった目的に利用すると、適切な検知対象を高品質（高精度）なデータとして抽出することができず、目的達成に多大な時間とコストを要してしまう。

このような点を鑑みて本発明がなされたのであり、環境内に任意設置されたネットワークカメラを用いて複数の検知対象の候補から特定の検知対象を発見する場合において、高品質データを効率的に収集することを課題とする。
具体的には、目的とする画像分析結果獲得にかける時間、ネットワークカメラの稼働電力、データ分析に要するコンピュータの消費電力、および、ネットワークカメラからコンピュータへのデータ通信にかかる通信コスト、を最小化するカメラデバイス制御を実行することを課題とする。

本発明に係るデバイス制御装置は、複数のネットワークカメラを制御するカメラデバイス制御装置であって、発見対象が撮影された画像データである発見対象画像データ、および、前記ネットワークカメラ毎の稼働に伴うコストの情報が格納されるデバイス管理情報を記憶する記憶部と、検知対象を撮影した画像データを、前記ネットワークカメラそれぞれから取得し、取得した前記画像データで示される特定の検知対象の画像と、前記発見対象画像データで示される前記発見対象の画像とについて、類似している度合いを示す類似度を算出し、前記特定の検知対象ごとに、前記画像データを、算出した前記類似度に紐付けて前記記憶部に格納する画像分析部と、前記記憶部に格納された前記特定の検知対象ごとの複数の前記画像データに基づき、複数の前記画像データそれぞれの画像サイズ、前記画像データの数、および、複数の前記画像データで示される特定の検知対象の画像のばらつきを示す分散に基づき、算出された前記類似度の確からしさを示す確信度を算出し、前記類似度および前記確信度を用いて、前記特定の検知対象と前記発見対象との一致若しくは不一致を判定する一致判定部と、前記デバイス管理情報で示される前記ネットワークカメラごとの稼働に伴うコストにより算出される撮影開始までの時間、および、前記分散の所定時間における変動率により、予想データ収集時間を算出し、算出した前記予想データ収集時間と、前記記憶部に格納された前記特定の検知対象ごとの複数の前記画像データに紐付く前記類似度のうちの最大の類似度とを用いて、行動優先度を算出し、前記行動優先度が最も小さくなる組み合わせである、撮影対象とする前記特定の検知対象、当該特定の検知対象を撮影するネットワークカメラ、および、当該ネットワークカメラにより前記特定の検知対象を撮影するための稼働制御を選択し、選択したネットワークカメラが、選択した特定の検知対象を、選択した稼働制御により撮影するように制御するデバイス制御部と、を備えることを特徴とする。

本発明によれば、環境内に任意設置されたネットワークカメラを用いて複数の検知対象の候補から特定の検知対象を発見する場合において、高品質データを効率的に収集することができる。
具体的には、目的とする画像分析結果獲得にかける時間、ネットワークカメラの稼働電力、データ分析に要するコンピュータの消費電力、および、ネットワークカメラからコンピュータへのデータ通信にかかる通信コスト、を最小化するカメラデイバス制御を実行することができる。

本実施形態に係るカメラデバイス制御装置を含むカメラデバイス制御システムの構成を示す機能ブロック図である。本実施形態に係るデバイス管理情報の一例を示す図である。本実施形態に係るデバイス管理情報の一例を示す図である。本実施形態に係るカメラデバイス制御装置が実行する処理の流れを示すフローチャートである。本実施形態に係るカメラデバイス制御装置のデバイス制御部による、ネットワークカメラ制御の処理の流れを示すフローチャートである。本実施形態に係るカメラデバイス制御装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

次に、本発明を実施するための形態（以下、「本実施形態」と称する。）について説明する。
図１は、本実施形態に係るカメラデバイス制御装置１を含むカメラデバイス制御システム１０００の構成を示す機能ブロック図である。

カメラデバイス制御システム１０００は、任意に設置された複数のネットワークカメラ５と、各ネットワークカメラ５と通信接続されるカメラデバイス制御装置１とを備える。
ネットワークカメラ５は、通信ネットワークを介して、撮影画像をカメラデバイス制御装置１に送信する機能を備えるとともに、カメラデバイス制御装置１からカメラの制御情報を受け取りその制御を実行する。ここで、ネットワークカメラ５に対する制御情報とは、例えば、そのネットワークカメラ５が撮影目的とする検知対象（後記する「注視対象」）や、パン、チルト、ズーム等の稼働制御、カメラデバイス自体の電源制御などである。
本実施形態に係るカメラデバイス制御装置１は、複数の検知対象が複数のネットワークカメラ５によって撮影されている場合において、複数の検知対象から特定の検知対象を発見するため、画像の品質および画像の収集効率の観点から、どのネットワークカメラ５において、複数の検知対象のうちのどの検知対象（注視対象）を注視するのかを選択し、その選択した検知対象（注視対象）を撮影するためのネットワークカメラ５の最適な制御を実行する。

なお、本実施形態におけるカメラデバイス制御装置１が対象とする検知対象は、人物に限定されず、ペット等の動物や、車両等でも適用可能であるが、以下の説明では、ネットワークカメラ５での検知対象を人（人物）であるものとして説明する。

このカメラデバイス制御装置１は、図１に示すように、制御部１０と、入出力部１１と、記憶部１２とを備える。

入出力部１１は、他の装置（複数のネットワークカメラ５等）との間の情報について入出力を行う。この入出力部１１は、通信回線を介して情報の送受信を行う通信インタフェースと、不図示のキーボード等の入力装置やモニタ等の出力装置との間で情報の入出力を行う入出力インタフェースとから構成される。

記憶部１２は、ハードディスクやフラッシュメモリ、ＲＡＭ（Random Access Memory）等により構成される。
この記憶部１２には、発見対象画像データ２００、分析済み画像情報ＤＢ（DataBase）２１０およびデバイス管理情報ＤＢ２２０が格納される。
また、記憶部１２には、各ネットワークカメラ５の識別情報に対応付けて、その位置情報が予め格納される。ネットワークカメラ５が撮影位置の移動が可能な装置に搭載されている場合には、そのネットワークカメラ５の現時点の位置情報がカメラデバイス制御装置１に送信されるものとする。
この記憶部１２には、さらに、制御部１０の各機能部を実行させるためのプログラム（カメラデバイス制御プログラム）や、制御部１０の処理に必要な情報（例えば、後記する「所定時間ごとに算出された画像データの分散値の実績」等）が一時的に記憶される。

発見対象画像データ２００は、発見対象となる人物等が撮影された画像データである。本実施形態においては、発見対象となる１以上の人物等の画像データが発見対象画像データ２００として記憶部１２に格納される。
この発見対象画像データ２００は、カメラデバイス制御装置１が各ネットワークカメラ５の制御を開始する前に取得し、記憶部１２に格納しておく。

分析済み画像情報ＤＢ２１０には、ネットワークカメラ５から取得した撮影画像（画像データ）に、後記する画像分析部１１０が画像分析した結果（後記する「類似度」）が紐付けられて格納される（詳細は後記）。

デバイス管理情報ＤＢ２２０には、ネットワークカメラ５ごとに、カメラの稼働にかかる制御速度の情報や、その処理を実行する際の消費電力など、デバイスの稼働に伴うコストの情報がデバイス管理情報２２として格納される。詳細は、後記する図２および図３を参照して説明する。

制御部１０は、カメラデバイス制御装置１が実行する処理の全般を司り、画像分析部１１０と、一致判定部１１１と、デバイス制御部１１２とを含んで構成される。

≪画像分析部≫
画像分析部１１０は、各ネットワークカメラ５が撮影した撮影画像を取得し、画像内に含まれる人物（特定の検知対象）が、発見対象と類似している度合いを「類似度」として算出する。
類似度とは、画像の絶対的な類似性を示す指標であり、類似度が高いほど、撮影画像内の人物と発見対象の人物とについて、同一である可能性が高いものとなる。

この類似度は、既存の画像分析ソフトウェアにより算出することができる。画像分析ソフトウェアごとに仕様差分はあるが、機械学習や画像分析による一般的な画像分析ソフトウェアや画像分析クラウドサービスを用いることにより、予め指定した比較画像（記憶部１２内の発見対象画像データ２００）から、画像の特徴が相対的に最も一致する種類（例えば、人物名等で示される画像のラベル）若しくはその類似度、またはその両方を算出することができる。

画像分析部１１０による画像分析処理は、以下の手法により実現する。
例えば、発見対象を示す複数の人物画像データに対して、それぞれの人物名をラベルとして付与したものを発見対象画像データ２００とし、ある人物の画像データと発見対象画像データ２００との類似度とを機械学習させて学習モデルを作成する。画像分析部１１０は、ネットワークカメラ５から検知対象である人物が撮影された画像データを取得した場合に、その学習モデルを用いて分類することにより、最も類似する人物のラベルとその類似度を出力する。
また、他の手法として画像分析部１１０は、単一の発見対象の人物画像のみを発見対象画像データ２００とすることもできる。この場合に、画像分析部１１０は、ネットワークカメラ５から取得した撮影画像（画像データ）に対して、発見対象画像データ２００との類似度のみを画像分析ソフトウェア等を用いて算出する。

人物を検知対象とした本実施形態の場合は、ネットワークカメラ５の撮影画像から発見対象を特定することが目的となる。よって、画像分析部１１０は、類似度を算出する対象となる画像として、服装を含む全身の特徴を用いた画像分析を行ってもよいし、より正確性の高い人物の顔画像を用いた画像分析を行ってもよい。

なお、画像分析部１１０による画像分析は、ネットワークカメラ５が撮影した画像をそのまま画像分析処理に使用することも可能であるが、画像分析結果の精度を向上させるために、撮影画像に加工を施した上で画像分析処理を行ってもよい。撮影画像の加工処理は、例えば、人物の顔周辺の部分のみを切り出すといった処理である。一般的な画像処理ソフトウェアを用いることで、撮影画像から人物の顔領域のみを抽出することは可能であり、抽出された顔画像領域のみの画像データを作成して画像解析することにより、加工前と比較して分類や類似度の精度の向上が期待できる。画像分析部１１０は、撮影画像の加工処理をした場合には、加工後の画像データについて、分類（人物のラベル判定）と類似度の算出を実行する。
そして、画像分析部１１０は、画像分析処理をした画像データを、その画像内の分析対象である一致候補人物（特定の検知対象）ごとに、算出した類似度と紐づけて、記憶部１２内の分析済み画像情報ＤＢ２１０に格納する。

≪一致判定部≫
一致判定部１１１は、画像分析部１１０によって算出された「類似度」と、この一致判定部１１１が算出する「確信度」とに基づき、画像内の分析対象（一致候補人物）である特定の検知対象が、発見対象画像データ２００（図１）の発見対象と一致する目的の人物であるかを判定する。

「確信度」とは、本実施形態に係るカメラデバイス制御装置１において、画像解析結果（「類似度」）の確からしさを示す指標であり、画像内の分析対象（特定の検知対象）である人物ごとに、どの程度の「数」（画像の量）と「品質」のデータを用いて画像分析を行ったかにより求めるものである。本実施形態では、データの「品質」を、分析したデータの「画像サイズ」と「分散」により表す。

「画像サイズ」とは、画像内において分析対象となる人物の領域を抽出した画像のサイズであり、解像度によって表される。解像度が大きいほど高品質なデータであり、画像分析の正確性に寄与するものとなる。

画像の「分散」とは、画像内の分析対象（特定の検知対象）ごとに蓄積した画像データのばらつきを表す。「分散」をデータの品質の指標とするのは以下の理由による。
動き回る検知対象を所定時間周期で撮影し分析を行う上で、データ量が多いということは、様々な角度、状況の画像を確認することができるということになる。一方、撮影される検知対象が静止している場合には、類似した画像しか取得できず、単純に数が多くても分析結果への影響は少ない。これを解消するため、画像の「数」（量）、「画像サイズ」とともに、分析した画像の「分散」を考慮する。画像の「数」「画像サイズ」「分散」がともに大きい場合には、検知対象に関する様々な種類の画像を分析できることになり、分析の確度が高まる。

一致判定部１１１は、この「分散」を次に示す手法で算出する。
例えば、画像データを画素に対応したｎ次元行列で表現し、各次元ごとに蓄積データの分散を算出した上で、最終的に全要素の分散の平均を蓄積画像データの分散とする。つまり、画像Ｘ（ｘ１，ｘ２，…，ｘｎ），画像Ｙ（ｙ１，ｙ２，…，ｙｎ），画像Ｚ（ｚ１，ｚ２，…，ｚｎ）が、分析対象である一致候補人物の画像データとして、記憶部１２内の分析済み画像情報ＤＢ２１０（図１）に蓄積されている場合に、要素１（ｘ１，ｙ１，ｚ１）の分散（Ｖ１）と、要素２（ｘ２，ｙ２，ｚ２）の分散（Ｖ２）、要素３（ｘ３，ｙ３，ｚ３）の分散（Ｖ３）を算出し、（Ｖ１＋Ｖ２＋Ｖ３）／３の計算値を最終的な分散とする。
なお、一致判定部１１１は、所定時間ごとに各画像データについて算出した分散の実績を、分析対象である一致候補人物（特定の検知対象）ごとに、記憶部１２に記憶しておく。

また、画像の「分散」は、機械学習等を利用した画像分類器によって出力される類似度によって代用することも可能である。この場合には、分析済み画像情報ＤＢ２１０に蓄積された、分析対象である一致候補人物ごとの全画像データにおける、全画像の組み合わせでの類似度を算出し、その平均を求める。つまり、画像データの数がＫの場合に、Ｋ×（Ｋ－１）／２通りの組み合わせに対して、それぞれ類似度を算出し、その平均を求める。当該平均は、画像データごとの類似の程度を反映したものであり、値が小さいほど画像データのばらつきが大きいことから、分散の代用として用いることが可能である。

上記の考え方に基づき、一致判定部１１１は、撮影画像内のある人物（特定の検知対象）に対して、複数回の画像分析を行った際の各画像データにおける、画像サイズの平均、画像の量（数）、分散を用いた、以下の式（１）に基づき「確信度」を算出する。
なお、画像サイズ、画像の量、分散は、正規化のために任意に定めた最大値で除して扱う。また、各要素が「確信度」に貢献する比率は、適用環境、状況によって適切な値が異なることが予想されるため、各要素に重み（ω）を設け、システムの設計者が任意の値を設定するものとする。

ここで、
Ｃ：確信度
Ｌ：平均画像サイズ
Ｌ_max：最大画像サイズ
Ａ：画像の量
Ａ_max：画像の最大量
Ｖ：画像の分散
Ｖ_max：画像の最大分散
ω₁、ω₂、ω₃：重み
を表す。

一致判定部１１１は、記憶部１２内の分析済み画像情報ＤＢ２１０を参照し、分析対象である一致候補人物それぞれについて、所定時間ごとに、上記式（１）による「確信度」を算出する。そして、一致判定部１１１は、「類似度」が所定の閾値Ｆｓ（所定の第１閾値）を上回る場合に、その画像内の分析対象である一致候補人物と発見対象の人物とが一致すると判定する。
この場合、一致判定部１１１は、特定人物の発見という目的が果たされたことから、デバイス制御に関する処理を終了する。
なお、従来技術を用いて、発見した人物を追跡する機能をネットワークカメラ５に備えさせることにより、対象の人物を発見したネットワークカメラ５において当該人物を追跡して撮影することができる。

また、一致判定部１１１は、「確信度」が所定の閾値Ｆｃ（所定の第２閾値）を上回り、かつ、「類似度」が所定の閾値Ｆｓを上回らなかった場合には、分析対象である一致候補人物と発見対象の人物とが不一致であると判定し、以降のネットワークカメラ５の制御における注視対象から、その分析対象画像データ内の一致候補人物を除外する。除外された一致候補人物については、それ以降、画像分析部１１０、一致判定部１１１およびデバイス制御部１１２のいずれにおいても処理を行わない。これにより、画像内に発見対象が存在しない場合に、無駄なコストをかけてデータ収集、分析を行うことを避けることができる。

さらに、一致判定部１１１は、「確信度」が所定の閾値Ｆｃを上回らず、かつ、「類似度」が所定の閾値Ｆｓを上回らかった場合に、その旨の情報を、デバイス制御部１１２に出力する。これにより、デバイス制御部１１２が、後記する各ネットワークカメラ５の制御を実行する。

なお、一致判定部１１１による「確信度」の算出手法は、上記に限定されず、データの品質指標に基づいて拡張が可能である。例えば、式（１）において、さらにカメラフォーカスの適合度合を乗ずることにより、画像の鮮明さを考慮することも可能である。

≪デバイス制御部≫
デバイス制御部１１２は、複数のネットワークカメラ５が重複して同一人物を撮影可能である場合であっても、別々のネットワークカメラ５が同一人物への制御を同時に実行することがないように、画像内の複数の一致候補人物（特定の検知対象）の中から適切な注視対象を選択するとともに、注視を行うネットワークカメラ５を決定してその制御を実行させる。
ここで、「注視」とは、ネットワークカメラ５が、ズームやパン、チルト等の可動機能を用いて、特定の人物に関する高解像度の画像を取得する行為である。

本実施形態に係るデバイス制御部１１２は、注視対象、その注視対象を撮影するネットワークカメラ５、および、そのネットワークカメラ５の制御情報（稼働制御）からなる多数の組み合わせを選択できるが、高品質データを効率的にデータ収集するため、「行動優先度」という指標を用いる。「行動優先度」は以下の式（２）～式（４）により算出する。

ここで、
ｉ：注視対象
ｊ：カメラ
ｋ：カメラの制御
Ｐ_ijk：(ｉ，ｊ，ｋの組み合わせにおける)行動優先度
Ｓ_i：注視対象ｉの分析実績上の最大類似度
Ｔc_ijk：(ｉ，ｊ，ｋの組み合わせにおける)予想データ収集時間
α：重み
Ｔa_ijk：(ｉ，ｊ，ｋの組み合わせにおける)行動基本時間
Ｖ_t：時刻tにおける画像の分散
Ｖ_max：画像の最大分散
Ｄ_ijk ：データ分散増加速度
Δt：データ分散増加速度算出周期
を表す。

行動優先度（Ｐ_ijk）は、式（２）で示すように、分析対象（注視対象）の画像分析結果である類似度の実績のうちの最大の類似度（Ｓ_i）の逆数に、応答時間（αＴc_ijk）を和したものとする。式（２）の第一項における注視対象の分析実績上の最大類似度の逆数により、複数候補の中から目的とする人物である可能性の高い人物を優先して注視することが可能となる。
また、式（２）の第二項の応答時間（αＴc_ijk）のうちの予想データ収集時間（Ｔc_ijk）により、データ取得の効率性が高い組み合わせを優先することが可能となる。予想データ収集時間（Ｔc_ijk）は、一致判定を行うためのデータ収集に要する時間の見積もりである。なお、この予想データ収集時間（Ｔc_ijk）を考慮することにより、発見対象の検出にかかる時間をより短縮することができる。また、重み（α）は、優先度を算出するため、類似度とデータ取得の効率性の比率を決定するものであり、検出対象や人数といった状況に応じて任意に設定される。

予想データ収集時間（Ｔc_ijk）は、式（３）で示すように、行動基本時間（Ｔa_ijk）と、データ収集時間(Ｖ_max－Ｖ_t) / Ｄ_ijkの和で求められる。行動基本時間（Ｔa_ijk）とは、ネットワークカメラ５などのデバイスがある行動をとりデータ収集を開始するまでに要する時間である。ズーム行動の場合には、カメラレンズの移動時間が該当し、移動行動の場合には、目標物（若しくは目標位置）まで移動するのに要する時間が該当する。この行動基本時間（Ｔa_ijk）は、後記するデバイス管理情報２２（図２、図３参照）等を用いて算出することができる。

データ収集時間(Ｖ_max－Ｖ_t) / Ｄ_ijkは、データ分散増加速度（Ｄ_ijk）を算出して求める。データ分散増加速度（Ｄ_ijk）とは、ある対象を注視するため、ある制御を実行している間に、取得した画像データの分散がどの程度増加したかを表すものである。一致判定部１１１は、所定時間ごとに算出された画像データの分散値の実績から、一定時間の分散値の変動率であるデータ分散増加速度（Ｄ_ijk）を算出する。ここで述べるデータ分散増加速度（Ｄ_ijk）とは、式（４）で示すように、単純に一定時間前後の分散の値の差(Ｖ_t－Ｖ_t-1)を、一定時間（Δt）で除したものである。データ分散増加速度（Ｄ_ijk）が大きいほど、選択した注視対象と行動の効果が大きいといえる。また、画像の最大分散（Ｖ_max）と現時点（時刻ｔ）における画像の分散（Ｖ_t）との差分を、データ分散増加速度（Ｄ_ijk）で除したものをデータ収集時間(Ｖ_max－Ｖ_t) / Ｄ_ijkとする。

デバイス制御部１１２は、この式（２）～式（４）を用いて、注視対象、ネットワークカメラ５およびその制御ごとに、行動優先度を算出し、最も行動優先度が小さい組み合わせを選択する。
また、制御対象のネットワークカメラ５が複数ある場合において、全てのネットワークカメラが同じ人物だけを注視してしまうことを防ぐため、デバイス制御部１１２は、一つの注視対象（ｉ）に対して、一つのネットワークカメラ（ｊ）だけが割り当てられるという制約を設けた上で、行動優先度の総和が最小となる組み合わせを選択する。

さらに、デバイス制御部１１２は、ネットワークカメラ５を制御することにより、最大類似度とデータ分散増加速度が更新されるため、行動優先度を所定時間ごとに常に算出して更新する。そして、デバイス制御部１１２は、行動優先度が最低となる組み合わせが変更された場合には、各ネットワークカメラ５の制御を切り替える。

なお、デバイス制御部１１２は、ネットワークカメラ５を制御する以前に注視対象を俯瞰状態で撮影し、画像分析処理を行うことで、注視対象候補（分析対象である一致候補人物）を検出するものとする。人物の特定は、顔による個人識別よりも画像に対する要件が低く、例えば、既存の画像分類ソフトウェアを用いることにより、解像度の低い俯瞰撮影画像から人物を抽出することができる。このような人物抽出によって、画像内に含まれる注視対象候補それぞれの位置を把握するとともに、注視行動における具体的なネットワークカメラ５の制御量を定める基準位置として用いることができる。

また、デバイス制御部１１２は、候補となる注視行動を、そのネットワークカメラ５ごとに規定されるデバイス管理情報２２（図２、図３参照）により管理する。
デバイス管理情報２２は、例えば図２で示すように、パン、チルト、ズームといった行動が記述され、行動優先度の算出において必要な行動基本時間を求めるための制御情報が格納される。例えば、図２に示すような各行動の制御速度が登録される。さらに、その制御を行う際の消費電力の情報が格納される。
このデバイス管理情報２２を参照することにより、デバイス制御部１１２は、注視行動の選択時に、消費電力を確認することで、予め定めた閾値以上の消費電力の制御を選択肢から除外することも可能となる。

また、このデバイス管理情報２２には、図３に示すように、ネットワークカメラ５が移動可能な装置に搭載されるデバイスであれば、注視対象へ接近するための移動という行動を記述してもよい。これにより、移動可能なネットワークカメラ５の移動時間も考慮にいれて、行動基本時間を算出することができる。

＜処理の流れ＞
次に、カメラデバイス制御装置１が実行する処理の流れについて説明する。
図４は、本実施形態に係るカメラデバイス制御装置１が実行する処理の流れを示すフローチャートである。

まず、カメラデバイス制御装置１の画像分析部１１０は、各ネットワークカメラ５から撮影画像を取得する（ステップＳ１０）。なお、各ネットワークカメラ５は、発見対象の人物がすべて発見されるまで、予め設定した（所定の）時間間隔もしくは撮影する度（リアルタイム）に、順次撮影画像をカメラデバイス制御装置１へ送信しており、カメラデバイス制御装置１の画像分析部１１０がその撮影画像を取得する。

次に、画像分析部１１０は、撮影画像に含まれる人物と、発見対象画像データ２００（図１）で示される発見対象の人物との「類似度」を算出する（ステップＳ１１）。
例えば、画像分析部１１０は、ある人物の画像データと発見対象画像データ２００との類似度を機械学習させた学習モデルを用いて、検知対象である人物を含む画像データを、その学習モデルを組み込んだ機械学習装置に入力し、最も類似する発見対象のラベルとその「類似度」とを出力させることができる。
なお、画像分析部１１０は、撮影画像に含まれる複数の検知対象の人物それぞれの顔周辺の部分を切り出すような加工処理を行った画像データを生成し、その生成した画像データを用いて人物の「類似度」を算出してもよい。

続いて、画像分析部１１０は、画像分析処理した画像データ（以下、「分析対象画像データ」と称する。）を、その画像内の分析対象（一致候補人物）である特定の検知対象ごとに、算出した「類似度」と紐付けて、記憶部１２内の分析済み画像情報ＤＢ２１０に格納する（ステップＳ１２）。
そして、画像分析部１１０は、ステップＳ１０～Ｓ１２の処理を繰り返して、「類似度」が付された分析対象画像データを、その画像内の分析対象（一致候補人物）ごとに、分析済み画像情報ＤＢ２１０に蓄積していく。

次に、カメラデバイス制御装置１の一致判定部１１１は、画像分析部１１０によって算出された「類似度」と、一致判定部１１１が算出する「確信度」とに基づき、画像内の分析対象（一致候補人物）が、発見対象画像データ２００の発見対象と一致するかを判定する。

具体的には、一致判定部１１１は、分析済み画像情報ＤＢ２１０に格納された、分析対象（一致候補人物）ごとの画像データ（分析対象画像データ）を参照し、各要素である画像サイズ、画像の量、画像の分散を用いて、上記した式（１）により、「確信度」を算出する（ステップＳ１３）。
なお、このステップＳ１３において、一致判定部１１１は、所定時間ごとに各画像データ（分析対象画像データ）について算出した分散の実績を、分析対象である一致候補人物（特定の検知対象）ごとに、記憶部１２に記憶しておく。

次に、一致判定部１１１は、画像分析処理した画像データ（分析対象画像データ）と発見対象画像データの「類似度」が所定の閾値Ｆｓ（所定の第１閾値）を上回るか否かを判定する（ステップＳ１４）。ここで「類似度」が所定の閾値Ｆｓを上回っていた場合には（ステップＳ１４→Ｙｅｓ）、分析対象画像データ内の一致候補人物と、発見対象の人物が一致するものとし、以降のネットワークカメラ５の制御を行わす、処理を終了する（ステップＳ１５）。
一方、ステップＳ１４において、「類似度」が所定の閾値Ｆｓを上回っていない場合には（ステップＳ１４→Ｎｏ）、次のステップＳ１６へ進む。

ステップＳ１６において、一致判定部１１１は、ステップＳ１３で算出した「確信度」が所定の閾値Ｆｃ（所定の第２閾値）を上回っているか否かを判定する。つまり、一致判定部１１１は、分析対象画像データについて、「類似度」が閾値Ｆｓ以下であり、かつ、「確信度」が閾値Ｆｃを上回っているか否かを判定することとなる。
ここで、「確信度」が所定の閾値Ｆｃを上回っていた場合に（ステップＳ１６→Ｙｅｓ）、一致判定部１１１は、分析対象画像データ内の一致候補人物と、発明対象の人物とが不一致であるものとし、以降のネットワークカメラ５の制御における注視対象から、その分析対象画像データ内の一致候補人物を除外する（ステップＳ１７）。

一方、ステップＳ１６において、「確信度」が所定の閾値Ｆｃを上回っていない場合（ステップＳ１６→Ｎｏ）、つまり、「類似度」が閾値Ｆｓ以下であり、かつ、「確信度」が閾値Ｆｃ以下である場合には、ネットワークカメラ５の制御を実行して（ステップＳ１８）、処理を終える。なお、ステップＳ１８のネットワークカメラ制御の詳細は、図５を参照して説明する。

≪ネットワークカメラ制御≫
図５は、本実施形態に係るカメラデバイス制御装置１のデバイス制御部１１２による、ネットワークカメラ制御の処理の流れを示すフローチャートである。
デバイス制御部１１２は、複数のネットワークカメラ５が重複して同一人物（一致候補人物）を撮影しないように注視対象を選択するとともに、その注視対象を撮影するネットワークカメラ５を選択して制御を実行させる。以下、具体的に説明する。

まず、デバイス制御部１１２は、注視対象、ネットワークカメラ５、制御の全組み合わせに、「行動優先度」の初期値を設定する（ステップＳ１８１）。
ここで、「行動優先度」は上記した、式（２）～式（４）により求まるものである。
デバイス制御部１１２は、初期値の設定の際に、注視対象候補を俯瞰した画像データを画像分析部１１０を介して取得し、各注視対象候補の位置情報を取得する。そして、デバイス制御部１１２は、ネットワークカメラ５毎のデバイス管理情報２２（例えば、図２、図３）を参照して、各行動（パン、チルト、ズーム、移動等）の制御速度等の情報から制御量を定め行動基本時間（Ｔa_ijk）等を算出し、初期値として設定する。

次に、デバイス制御部１１２は、記憶部１２に記憶された、分析対象画像データについての分散の実績に基づき、上記式（４）によりデータ分散増加速度（Ｄ_ijk）を求めた上で、上記式（３）の予想データ収集時間（Ｔc_ijk）を算出する。また、デバイス制御部１１２は、分析済み画像情報ＤＢ２１０を参照して、注視対象ｉの分析実績上の最大類似度（Ｓ_i）の情報を抽出する（ステップＳ１８２）。

続いて、デバイス制御部１１２は、注視対象、カメラデバイス、制御（稼働制御）の全組み合わせについての「行動優先度」を、上記式（２）を用いて算出する（ステップＳ１８３）。

次に、デバイス制御部１１２は、注視対象、カメラデバイス、制御の各組み合わせにおいて算出した「行動優先度」のうち、最も「行動優先度」の値が小さい組み合わせを選択する（ステップＳ１８４）。
なお、デバイス制御部１１２は、複数のネットワークカメラ５が同じ注視対象を選択することを防ぐために、一つの注視対象に対して、一つのネットワークカメラ５が割り当てられるという制約を設けた上で、各組み合わせにおいて算出した「行動優先度」の総和が最小となる組み合わせを選択する。

そして、デバイス制御部１１２は、選択された組み合わせに従い、各ネットワークカメラ５に対し制御情報を送信することにより、制御を実行させる（ステップＳ１８５）。
デバイス制御部１１２は、所定の時間間隔で、ステップＳ１８２～ステップＳ１８５の処理を繰り返すことにより、高品質データを効率的に継続して収集することができる。

＜ハードウェア構成＞
本実施形態に係るカメラデバイス制御装置１は、例えば図６に示すようなコンピュータ９００によって実現される。
図６は、本実施形態に係るカメラデバイス制御装置１の機能を実現するコンピュータ９００の一例を示すハードウェア構成図である。コンピュータ９００は、ＣＰＵ（Central Processing Unit）９０１、ＲＯＭ（Read Only Memory）９０２、ＲＡＭ９０３、ＨＤＤ（Hard Disk Drive）９０４、入出力Ｉ／Ｆ（Interface）９０５、通信Ｉ／Ｆ９０６およびメディアＩ／Ｆ９０７を有する。

ＣＰＵ９０１は、ＲＯＭ９０２またはＨＤＤ９０４に記憶されたプログラム（カメラデバイス制御プログラム）に基づき作動し、図１に示すカメラデバイス制御装置１の制御部１０による制御を行う。ＲＯＭ９０２は、コンピュータ９００の起動時にＣＰＵ９０１により実行されるブートプログラムや、コンピュータ９００のハードウェアに係るプログラム等を記憶する。

ＣＰＵ９０１は、入出力Ｉ／Ｆ９０５を介して、マウスやキーボード等の入力装置９１０、および、ディスプレイ等の出力装置９１１を制御する。ＣＰＵ９０１は、入出力Ｉ／Ｆ９０５を介して、入力装置９１０からデータを取得するとともに、生成したデータを出力装置９１１へ出力する。なお、プロセッサとしてＣＰＵ９０１とともに、ＧＰＵ（Graphics Processing Unit）等を用いても良い。

ＨＤＤ９０４は、ＣＰＵ９０１により実行されるプログラムおよび当該プログラムによって使用されるデータ等を記憶する。通信Ｉ／Ｆ９０６は、通信網（例えば、ＮＷ（Network）９２０）を介して他の装置からデータを受信してＣＰＵ９０１へ出力し、また、ＣＰＵ９０１が生成したデータを、通信網を介して他の装置へ送信する。

メディアＩ／Ｆ９０７は、記録媒体９１２に格納されたプログラムまたはデータを読み取り、ＲＡＭ９０３を介してＣＰＵ９０１へ出力する。ＣＰＵ９０１は、目的の処理に係るプログラムを、メディアＩ／Ｆ９０７を介して記録媒体９１２からＲＡＭ９０３上にロードし、ロードしたプログラムを実行する。記録媒体９１２は、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto Optical disk）等の光磁気記録媒体、磁気記録媒体、導体メモリテープ媒体又は半導体メモリ等である。

例えば、コンピュータ９００が本実施形態に係るカメラデバイス制御装置１として機能する場合、コンピュータ９００のＣＰＵ９０１は、ＲＡＭ９０３上にロードされたプログラムを実行することによりカメラデバイス制御装置１の機能を実現する。また、ＨＤＤ９０４には、ＲＡＭ９０３内のデータが記憶される。ＣＰＵ９０１は、目的の処理に係るプログラムを記録媒体９１２から読み取って実行する。この他、ＣＰＵ９０１は、他の装置から通信網（ＮＷ９２０）を介して目的の処理に係るプログラムを読み込んでもよい。

＜効果＞
以下、本発明に係るカメラデバイス制御装置１等の効果について説明する。
本発明に係るカメラデバイス制御装置は、複数のネットワークカメラ５を制御するカメラデバイス制御装置１であって、発見対象が撮影された画像データである発見対象画像データ２００、および、ネットワークカメラ５毎の稼働に伴うコストの情報が格納されるデバイス管理情報２２を記憶する記憶部１２と、検知対象を撮影した画像データを、ネットワークカメラ５それぞれから取得し、取得した画像データで示される特定の検知対象の画像と、発見対象画像データ２００で示される発見対象の画像とについて、類似している度合いを示す類似度を算出し、特定の検知対象ごとに、画像データを、算出した類似度に紐付けて記憶部１２に格納する画像分析部１１０と、記憶部１２に格納された特定の検知対象ごとの複数の画像データに基づき、複数の画像データそれぞれの画像サイズ、画像データの数、および、複数の画像データで示される特定の検知対象の画像のばらつきを示す分散に基づき、算出された類似度の確からしさを示す確信度を算出し、類似度および確信度を用いて、特定の検知対象と発見対象との一致若しくは不一致を判定する一致判定部１１１と、デバイス管理情報２２で示されるネットワークカメラ５ごとの稼働に伴うコストにより算出される撮影開始までの時間、および、分散の所定時間における変動率により、予想データ収集時間を算出し、算出した予想データ収集時間と、記憶部１２に格納された特定の検知対象ごとの複数の画像データに紐付く類似度のうちの最大の類似度とを用いて、行動優先度を算出し、行動優先度が最も小さくなる組み合わせである、撮影対象とする特定の検知対象、当該特定の検知対象を撮影するネットワークカメラ５、および、当該ネットワークカメラ５により特定の検知対象を撮影するための稼働制御を選択し、選択したネットワークカメラ５が、選択した特定の検知対象を、選択した稼働制御により撮影するように制御するデバイス制御部１１２と、を備えることを特徴とする。

このようにすることで、カメラデバイス制御装置１は、発見対象と一致する特定の検知対象を発見するため、特定の検知対象、ネットワークカメラ５およびそのネットワークカメラ５の稼働制御についての最適な組み合わせを選択して、高品質のデータを効率的に収集することができる。

また、カメラデバイス制御装置１において、一致判定部１１１が、特定の検知対象ごとの複数の画像データそれぞれに紐づく類似度のうち、少なくとも一つ以上の類似度が、所定の第１閾値を上回る場合に、特定の検知対象と発見対象とが同一であると判定することを特徴とする。

このようにすることで、カメラデバイス制御装置１は、類似度に関する所定の第１閾値を上回る画像データについての特定の検知対象を、発見対象と同一と判定することができる。よって、カメラデバイス制御装置１は、それ以降のカメラデバイス制御に関する処理を終了できるため、カメラデバイス制御装置１の消費電力や、制御対象のネットワークカメラ５の稼働電力、および、ネットワークカメラ５からカメラデバイス制御装置１への通信コストを削減することが可能となる。

また、カメラデバイス制御装置１において、一致判定部１１１が、特定の検知対象ごとの複数の画像データそれぞれに紐づく類似度において、所定の第１閾値を上回るものがなく、かつ、確信度が所定の第２閾値を上回る場合に、特定の検知対象と発見対象とが不一致であると判定することを特徴とする。

このようにすることで、カメラデバイス制御装置１は、類似度が所定の第１閾値を上回らず、かつ、確信度が所定の第２閾値を上回る画像データについての特定の検知対象を、発見対象と不一致であると判定することができる。よって、発見対象と不一致である検知対象を、ネットワークカメラ５の制御における注視対象から除外して、ネットワークカメラ５を不必要に稼働させることを防ぎ、システム全体を効率的に運用することができる。

また、カメラデバイス制御装置１において、デバイス制御部１１２は、複数の特定の検知対象が存在する場合において、一つの選択した特定の検知対象について、一つの選択したネットワークカメラ５が割り当てられる制約を設け、各組み合わせにおいて算出した行動優先度の総和が最小となる組み合わせを選択することを特徴とする。

このようにすることで、複数のネットワークカメラ５が同じ特定の検知対象を撮影することを防ぐことができ、システム全体を効率的に運用することができる。

なお、本発明は、以上説明した実施形態に限定されるものではなく、多くの変形が本発明の技術的思想内で当分野において通常の知識を有する者により可能である。

１カメラデバイス制御装置
５ネットワークカメラ
１０制御部
１１入出力部
１２記憶部
２２デバイス管理情報
１１０画像分析部
１１１一致判定部
１１２デバイス制御部
２００発見対象画像データ
２１０分析済み画像情報ＤＢ
２２０デバイス管理情報ＤＢ
１０００カメラデバイス制御システム

Claims

複数のネットワークカメラを制御するカメラデバイス制御装置であって、
発見対象が撮影された画像データである発見対象画像データ、および、前記ネットワークカメラ毎の稼働に伴うコストの情報が格納されるデバイス管理情報を記憶する記憶部と、
検知対象を撮影した画像データを、前記ネットワークカメラそれぞれから取得し、取得した前記画像データで示される特定の検知対象の画像と、前記発見対象画像データで示される前記発見対象の画像とについて、類似している度合いを示す類似度を算出し、前記特定の検知対象ごとに、前記画像データを、算出した前記類似度に紐付けて前記記憶部に格納する画像分析部と、
前記記憶部に格納された前記特定の検知対象ごとの複数の前記画像データに基づき、複数の前記画像データそれぞれの画像サイズ、前記画像データの数、および、複数の前記画像データで示される特定の検知対象の画像のばらつきを示す分散に基づき、算出された前記類似度の確からしさを示す確信度を算出し、前記類似度および前記確信度を用いて、前記特定の検知対象と前記発見対象との一致若しくは不一致を判定する一致判定部と、
前記デバイス管理情報で示される前記ネットワークカメラごとの稼働に伴うコストにより算出される撮影開始までの時間、および、前記分散の所定時間における変動率により、予想データ収集時間を算出し、算出した前記予想データ収集時間と、前記記憶部に格納された前記特定の検知対象ごとの複数の前記画像データに紐付く前記類似度のうちの最大の類似度とを用いて、行動優先度を算出し、前記行動優先度が最も小さくなる組み合わせである、撮影対象とする前記特定の検知対象、当該特定の検知対象を撮影するネットワークカメラ、および、当該ネットワークカメラにより前記特定の検知対象を撮影するための稼働制御を選択し、選択したネットワークカメラが、選択した特定の検知対象を、選択した稼働制御により撮影するように制御するデバイス制御部と、
を備えることを特徴とするカメラデバイス制御装置。
前記一致判定部は、
前記特定の検知対象ごとの複数の前記画像データそれぞれに紐づく前記類似度のうち、少なくとも一つ以上の前記類似度が、所定の第１閾値を上回る場合に、前記特定の検知対象と前記発見対象とが同一であると判定すること
を特徴とする請求項１に記載のカメラデバイス制御装置。
前記一致判定部は、
前記特定の検知対象ごとの複数の前記画像データそれぞれに紐づく前記類似度において、所定の第１閾値を上回るものがなく、かつ、前記確信度が所定の第２閾値を上回る場合に、前記特定の検知対象と前記発見対象とが不一致であると判定すること
を特徴とする請求項１または請求項２に記載のカメラデバイス制御装置。
前記デバイス制御部は、
複数の前記特定の検知対象が存在する場合において、一つの前記選択した特定の検知対象について、一つの前記選択したネットワークカメラが割り当てられる制約を設け、各前記組み合わせにおいて算出した行動優先度の総和が最小となる組み合わせを選択すること
を特徴とする請求項１に記載のカメラデバイス制御装置。
複数のネットワークカメラを制御するカメラデバイス制御装置のカメラデバイス制御方法であって、
前記カメラデバイス制御装置は、
発見対象が撮影された画像データである発見対象画像データ、および、前記ネットワークカメラ毎の稼働に伴うコストの情報が格納されるデバイス管理情報が記憶される記憶部を備えており、
検知対象を撮影した画像データを、前記ネットワークカメラそれぞれから取得し、取得した前記画像データで示される特定の検知対象の画像と、前記発見対象画像データで示される前記発見対象の画像とについて、類似している度合いを示す類似度を算出し、前記特定の検知対象ごとに、前記画像データを、算出した前記類似度に紐付けて前記記憶部に格納するステップと、
前記記憶部に格納された前記特定の検知対象ごとの複数の前記画像データに基づき、複数の前記画像データそれぞれの画像サイズ、前記画像データの数、および、複数の前記画像データで示される特定の検知対象の画像のばらつきを示す分散に基づき、算出された前記類似度の確からしさを示す確信度を算出し、前記類似度および前記確信度を用いて、前記特定の検知対象と前記発見対象との一致若しくは不一致を判定するステップと、
前記デバイス管理情報で示される前記ネットワークカメラごとの稼働に伴うコストにより算出される撮影開始までの時間、および、前記分散の所定時間における変動率により、予想データ収集時間を算出し、算出した前記予想データ収集時間と、前記記憶部に格納された前記特定の検知対象ごとの複数の前記画像データに紐付く前記類似度のうちの最大の類似度とを用いて、行動優先度を算出し、前記行動優先度が最も小さくなる組み合わせである、撮影対象とする前記特定の検知対象、当該特定の検知対象を撮影するネットワークカメラ、および、当該ネットワークカメラにより前記特定の検知対象を撮影するための稼働制御を選択し、選択したネットワークカメラが、選択した特定の検知対象を、選択した稼働制御により撮影するように制御するステップと、
を実行することを特徴とするカメラデバイス制御方法。
コンピュータを、請求項１乃至請求項４のいずれか一項に記載のカメラデバイス制御装置として機能させるためのカメラデバイス制御プログラム。