JP2023172759A

JP2023172759A - 対象物解析装置、対象物解析方法

Info

Publication number: JP2023172759A
Application number: JP2022084789A
Authority: JP
Inventors: ミナアジェイ; Minna Ajaye; 全孔; Quan Kong; 智明吉永; Tomoaki Yoshinaga
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2023-12-06

Abstract

【課題】撮影環境が時々刻々と変化する対象物の識別精度を十分に維持する。
【解決手段】対象物解析装置１００において、特徴量算出部１３０は、ＲＧＢ画像から対象物の特徴量を表す第１の特徴量を算出し、ＩＲ画像から対象物の特徴量を表す第２の特徴量を算出する。重要度算出部１４０は、ＲＧＢ画像における対象物の重要度を表す第１の重要度と、ＩＲ画像における対象物の重要度を表す第２の重要度とを算出する。類似度算出部１５０は、第１の特徴量、第２の特徴量、第１の重要度および第２の重要度に基づいて、ＲＧＢ映像２０３およびＩＲ映像２０４における対象物の類似度を算出する。同一性判定部１６０は、類似度算出部１５０により算出された類似度に基づいて、ＲＧＢ映像２０３における対象物と、ＩＲ映像２０４における対象物とが、同一であるか否かを判定する。
【選択図】図１

Description

本発明は、画像から対象物を追跡する装置および方法に関する。

近年、公共の安全に対する人々の関心の高まりに伴い、監視カメラを用いたビデオ監視システムの利用が進んでいる。例えば、空港、駅、学校、オフィスビル等のような安全確保の必要性が高い公共の場所では、こうしたビデオ監視システムの需要が大きい。しかしながら、ビデオ監視システムによって得られた多数の映像情報の解析を人力で行うと、多大な労力が必要となる。そこで、コンピュータを利用して映像解析を自動的に行う技術が求められている。

ビデオ監視システムの映像解析では、監視カメラで撮影された映像内において移動する人物等の対象物を時系列で追跡するために、映像内に存在する対象物をフレームごとに正確に識別することが重要である。しかしながら、撮影場所の明るさの変化や、対象物と周辺物との位置関係の変化などにより、監視カメラでは対象物の撮影環境が時々刻々と変化する場合がある。このような場合には、対象物の識別精度が低下してしまい、その結果、対象物を正しく追跡できなくなるという課題が存在する。

カメラで撮影された対象物の識別精度の向上に関して、例えば特許文献１、２および３の技術が提案されている。特許文献１には、各フレームの画像における物品の位置情報と種別情報に加えて、物品の深度、識別コード、重力、匂い等の情報を補助情報として取得し、位置情報および補助情報に対してマルチモーダル融合を行って物品を識別する物品識別方法が開示されている。特許文献２には、画像の様々な特徴をそれぞれ判別する複数の判別器を組み合わせて画像認識を行う画像認識方法が開示されている。特許文献３には、可視光カメラと赤外線カメラで同一の物体をそれぞれ撮影し、可視光カメラの撮影画像から人物を追跡するとともに、赤外線カメラの撮影画像から人物の領域を検出し、これらの結果を統合して人物の追跡を行う人物追跡方法が開示されている。

米国特許出願公開第２０２１／０３９７８４４号明細書米国特許第１０，９５６，７７８号明細書米国特許第９，２４５，１９６号明細書

特許文献１～３の技術は、いずれも対象物の識別精度の向上を図るものであるが、撮影中に対象物の撮影環境が変化することを前提としたものではない。したがって、撮影環境が時々刻々と変化する対象物の識別精度を十分に維持することは困難である。

本発明の第１の態様による対象物解析装置は、可視光を撮影可能な第１のカメラにより撮影された可視光映像に含まれる対象物の画像である可視光画像を取得するとともに、不可視光を撮影可能な第２のカメラにより撮影された不可視光映像に含まれ、前記可視光画像と同時刻における前記対象物の画像である不可視光画像を取得する画像取得部と、前記可視光画像から前記対象物の特徴量を表す第１の特徴量を算出し、前記不可視光画像から前記対象物の特徴量を表す第２の特徴量を算出する特徴量算出部と、前記可視光画像における前記対象物の重要度を表す第１の重要度と、前記不可視光画像における前記対象物の特徴量を表す第２の重要度とを算出する重要度算出部と、前記第１の特徴量、前記第２の特徴量、前記第１の重要度および前記第２の重要度に基づいて、前記可視光映像および前記不可視光映像における前記対象物の類似度を算出する類似度算出部と、前記類似度に基づいて、前記可視光映像における前記対象物と、前記不可視光映像における前記対象物とが、同一であるか否かを判定する同一性判定部と、を備える。
本発明の第２の態様による対象物解析装置は、可視光を撮影可能な第１のカメラにより撮影された可視光映像に含まれる対象物の画像である可視光画像を取得するとともに、不可視光を撮影可能な第２のカメラにより撮影された不可視光映像に含まれ、前記可視光画像と同時刻における前記対象物の画像である不可視光画像を取得する画像取得部と、前記可視光画像における前記対象物の重要度を表す第１の重要度と、前記不可視光画像における前記対象物の特徴量を表す第２の重要度とを算出する重要度算出部と、前記第１の重要度および前記第２の重要度に基づいて、前記対象物について時刻ごとに前記可視光画像または前記不可視光画像のいずれかを選択する画像選択部と、前記画像選択部による各時刻での前記可視光画像または前記不可視光画像の選択結果を、時系列順に並べて表示装置に表示させる表示制御部と、を備える。
本発明による対象物解析方法は、コンピュータを用いた対象物の解析方法であって、前記コンピュータにより、可視光を撮影可能な第１のカメラにより撮影された可視光映像に含まれる前記対象物の画像である可視光画像を取得し、不可視光を撮影可能な第２のカメラにより撮影された不可視光映像に含まれ、前記可視光画像と同時刻における前記対象物の画像である不可視光画像を取得し、前記可視光画像から前記対象物の特徴量を表す第１の特徴量を算出し、前記不可視光画像から前記対象物の特徴量を表す第２の特徴量を算出し、前記可視光画像における前記対象物の重要度を表す第１の重要度を算出し、前記不可視光画像における前記対象物の特徴量を表す第２の重要度を算出し、前記第１の特徴量、前記第２の特徴量、前記第１の重要度および前記第２の重要度に基づいて、前記可視光映像および前記不可視光映像における前記対象物の類似度を算出し、前記類似度に基づいて、前記可視光画像における前記対象物と、前記不可視光画像における前記対象物とが、同一であるか否かを判定する。

本発明によれば、撮影環境が時々刻々と変化する対象物の識別精度を十分に維持することができる。

本発明の一実施形態に係る対象物解析装置の構成を示すブロック図である。画像取得部の詳細を示す図である。特徴量算出部の詳細を示す図である。重要度算出部の詳細を示す図である。類似度算出部の詳細を示す図である。マッチングスコア算出部の詳細を示す図である。対象物追跡の一連の処理の流れを示すフローチャートである。ＭＭＭＳ算出処理の詳細を示すフローチャートである。画像選択部の詳細を示す図である。学習データ生成処理の流れを示すフローチャートである。学習装置の構成の一例を示す図である。

以下、図面を参照して本発明の実施形態を説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略及び簡略化がなされている。本発明が本実施形態に制限されることは無く、本発明の思想に合致するあらゆる応用例が本発明の技術的範囲に含まれる。特に限定しない限り、各構成要素は複数でも単数でも構わない。

以下の説明では、「プログラム」あるいはそのプロセスを主語として処理を説明する場合があるが、プログラムは、プロセッサ（例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ））によって実行されることで、定められた処理を、適宜に記憶資源（例えば、メモリ）及び／又は通信インタフェース装置（例えば、通信ポート）を用いながら行うため、処理の主語がプロセッサであってもよい。プロセッサは、プログラムに従って動作することによって、所定の機能を実現する機能部として動作する。プロセッサを含む装置及びシステムは、これらの機能部を含む装置及びシステムである。

以下、本発明の一実施形態について説明する。

図１は、本発明の一実施形態に係る対象物解析装置の構成を示すブロック図である。本実施形態の対象物解析装置１００は、撮影装置２００により所定の監視エリアを撮影して得られた映像から、その映像に映り込んでいる人物等の対象物を検出して追跡を行うことにより、当該対象物の行動を監視する装置である。

図１に示すように、対象物解析装置１００は、撮影装置２００、入力装置３００および表示装置４００と接続されている。対象物解析装置１００は、画像取得部１１０、追跡データベース１２０、特徴量算出部１３０、重要度算出部１４０、類似度算出部１５０、同一性判定部１６０、画像選択部１７０および表示制御部１８０を備えて構成される。対象物解析装置１００において、画像取得部１１０、特徴量算出部１３０、重要度算出部１４０、類似度算出部１５０、同一性判定部１６０、画像選択部１７０および表示制御部１８０の各機能ブロックは、例えばコンピュータが所定のプログラムを実行することにより実現され、追跡データベース１２０は、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の記憶装置を用いて実現される。なお、これらの機能ブロックの一部または全部を、ＧＰＵ（Graphics Processing Unit）やＦＰＧＡ（Field Programmable Gate Array）を用いて実現してもよい。

撮影装置２００は、ＲＧＢカメラ２０１およびＩＲカメラ２０２を備えて構成される。ＲＧＢカメラ２０１は、所定の監視エリアを撮影範囲内に含むように設置されており、当該撮影範囲内の可視光による映像であるＲＧＢ映像２０３を撮影する。ＩＲカメラ２０２は、ＲＧＢカメラ２０１と同じ監視エリアを撮影範内に含むように設置されており、当該撮影範囲内の赤外光（不可視光）による映像であるＩＲ映像２０４を撮影する。ＲＧＢ映像２０３およびＩＲ映像２０４は、時系列順に並んだ複数の画像（フレーム）を組み合わせてそれぞれ構成されるものであり、これらの各画像は、ＲＧＢカメラ２０１またはＩＲカメラ２０２が所定のフレームレートごとに監視エリアの撮影を行うことによって取得される。ＲＧＢカメラ２０１とＩＲカメラ２０２によってそれぞれ撮影されたＲＧＢ映像２０３およびＩＲ映像２０４は、撮影装置２００から対象物解析装置１００へ送信され、対象物解析装置１００に入力される。

画像取得部１１０は、撮影装置２００から入力されたＲＧＢ映像２０３およびＩＲ映像２０４に基づいて、人物等の対象物に関する画像を取得する。画像取得部１１０は、ＲＧＢカメラ２０１により撮影されたＲＧＢ映像２０３の各フレームから対象物を含む画像部分を抽出し、その画像を対象物に関するＲＧＢ画像（可視光画像）として、特徴量算出部１３０、重要度算出部１４０へ出力するとともに、追跡データベース１２０に格納する。同様に、ＩＲカメラ２０２により撮影されたＩＲ映像２０４の各フレームから対象物を含む画像部分を抽出し、その画像を対象物に関するＩＲ画像（不可視光画像）として、特徴量算出部１３０、重要度算出部１４０へ出力するとともに、追跡データベース１２０に格納する。

特徴量算出部１３０は、画像取得部１１０によってＲＧＢ映像２０３とＩＲ映像２０４からそれぞれ取得されたＲＧＢ画像およびＩＲ画像から、それぞれの画像において対象物がどの程度の特徴を有しているかを表す特徴量を算出する。特徴量算出部１３０により算出された特徴量は、その特徴量の算出に用いられた画像と関連付けて追跡データベース１２０に格納されるとともに、類似度算出部１５０へ出力される。

重要度算出部１４０は、画像取得部１１０によってＲＧＢ映像２０３とＩＲ映像２０４からそれぞれ取得されたＲＧＢ画像およびＩＲ画像から、それぞれの画像に含まれる対象物がどの程度重要であるかを表す重要度を算出する。重要度算出部１４０により算出された重要度は、その重要度の算出に用いられた画像と関連付けて追跡データベース１２０に格納されるとともに、類似度算出部１５０へ出力される。

類似度算出部１５０は、特徴量算出部１３０と重要度算出部１４０によりＲＧＢ画像とＩＲ画像からそれぞれ算出された特徴量および重要度に基づいて、ＲＧＢ映像２０３およびＩＲ映像２０４における対象物の類似度合いを表す類似度を算出する。類似度算出部１５０は、ＲＧＢ映像２０３とＩＲ映像２０４において同時刻に撮影されたフレームからそれぞれ抽出されたＲＧＢ画像とＩＲ画像をペアとして、時系列で連続する２つのペアの特徴量と重要度に基づいて類似度の算出を行う。なお、類似度算出部１５０による類似度の算出方法の詳細については後述する。

同一性判定部１６０は、類似度算出部１５０により算出された類似度に基づいて、ＲＧＢ映像２０３における対象物と、ＩＲ映像２０４における対象物とが、同一であるか否かを判定する。同一性判定部１６０は、類似度算出部１５０により類似度がそれぞれ算出された時系列で連続する２つのＲＧＢ画像とＩＲ画像のペアについて、これらの画像における対象物の同一性を表す同一性スコアを算出し、この同一性スコアの値に基づいて、ＲＧＢ映像２０３の各対象物とＩＲ映像２０４の各対象物とがそれぞれ同一であるか否かを判定する。そして、同一であると判定した対象物をＲＧＢ映像２０３およびＩＲ映像２０４内でそれぞれ追跡することにより、対象物の行動を監視する。同一性判定部１６０による対象物の追跡結果は、ＲＧＢ映像２０３およびＩＲ映像２０４と関連付けて追跡データベース１２０に格納される。

画像選択部１７０は、入力装置３００を介して入力されたユーザの指示に応じて、追跡データベース１２０に格納された各対象物のＲＧＢ画像とＩＲ画像のうち、指定された対象物のＲＧＢ画像とＩＲ画像を、ＲＧＢ映像２０３およびＩＲ映像２０４における当該対象物の追跡画像として取得する。そして、取得した各画像について、時刻ごとにＲＧＢ画像またはＩＲ画像のいずれかを選択し、その選択結果を表示制御部１８０へ出力する。このとき画像選択部１７０は、重要度算出部１４０により算出された各画像の重要度に基づいて、ＲＧＢ画像またはＩＲ画像のどちらを選択するかを決定することができる。

表示制御部１８０は、画像選択部１７０によるＲＧＢ画像またはＩＲ画像の選択結果を時系列順に並べて、表示装置４００に表示させる。ユーザは、表示装置４００に表示された画面を確認することで、ＲＧＢ映像２０３またはＩＲ映像２０４内に映っている対象物の画像を時系列順に確認し、対象物の行動を把握することができる。

入力装置３００は、例えばキーボード、マウス、タッチパネル等により構成され、ユーザの操作を検出してその操作内容を対象物解析装置１００に送信する。表示装置４００は、例えば液晶ディスプレイ等により構成され、表示制御部１８０の制御に応じて様々な画面表示を行うことにより、ユーザへの情報提供を行う。なお、通信ネットワークを介して対象物解析装置１００と接続されたコンピュータを、入力装置３００や表示装置４００として利用してもよい。

次に、画像取得部１１０、特徴量算出部１３０、重要度算出部１４０、類似度算出部１５０、同一性判定部１６０および画像選択部１７０の詳細について、図２～図９を参照して以下に説明する。

図２は、画像取得部１１０の詳細を示す図である。図２に示すように、画像取得部１１０は、対象物検出部１１１、対応付け部１１２を備える。

対象物検出部１１１は、撮影装置２００から入力されたＲＧＢ映像２０３およびＩＲ映像２０４を構成する各画像から人物等の対象物を検出し、その対象物の周囲の画像部分を抽出することで、前述のＲＧＢ画像およびＩＲ画像をそれぞれ取得する。

対応付け部１１２は、対象物検出部１１１により取得されたＲＧＢ画像とＩＲ画像において、同一の対象物を表すと想定されるものを相互に対応付ける。ここでは、例えばＲＧＢ映像２０３とＩＲ映像２０４において同時刻の画像からそれぞれ抽出されたＲＧＢ画像とＩＲ画像のうち、互いの位置関係から同一の位置に存在すると考えられるＲＧＢ画像とＩＲ画像の組み合わせを、所定のホモグラフィ行列を用いた透視変換を行うことにより特定することで、ＲＧＢ画像とＩＲ画像の対応付けを行うことができる。図２の例では、ＲＧＢ映像２０３から抽出されたＲＧＢ画像２０３ａ～２０３ｆと、ＩＲ映像２０４から抽出されたＩＲ画像２０４ａ～２０４ｆとが、対応付け部１１２によってそれぞれ対応付けられた様子を示している。なお、図２の例において、ＲＧＢ画像２０３ｇに対応するＩＲ画像はＩＲ映像２０４内に存在せず、そのためＲＧＢ画像２０３ｇにはＩＲ画像が対応付けられていない。

対応付け部１１２によるＲＧＢ画像とＩＲ画像の対応付け結果は、当該ＲＧＢ画像およびＩＲ画像とともに、画像取得部１１０から出力されて追跡データベース１２０に格納される。

図３は、特徴量算出部１３０の詳細を示す図である。図３に示すように、特徴量算出部１３０は、イントラモダリティ特徴量算出部１３１、クロスモダリティ特徴量算出部１３２を備える。なお、図３ではイントラモダリティ特徴量算出部１３１とクロスモダリティ特徴量算出部１３２の動作をＲＧＢ画像とＩＲ画像についてそれぞれ説明するために、これらのブロックを２つずつ図示しているが、実際には特徴量算出部１３０がイントラモダリティ特徴量算出部１３１とクロスモダリティ特徴量算出部１３２を１つずつ有していてもよいし、ＲＧＢ画像とＩＲ画像に対してそれぞれ有していてもよい。

イントラモダリティ特徴量算出部１３１は、ＲＧＢ画像とＩＲ画像のそれぞれに対して、同種の画像間における類似度を求めるための特徴量を算出する。イントラモダリティ特徴量算出部１３１は、例えば、ＲＧＢ画像に対して特徴量f_RGB(D_RGB)を算出し、ＩＲ画像に対して特徴量f_IR(D_IR)を算出する。

クロスモダリティ特徴量算出部１３２は、ＲＧＢ画像とＩＲ画像のそれぞれに対して、異種の画像間における類似度を求めるための特徴量を算出する。クロスモダリティ特徴量算出部１３２は、例えば、ＲＧＢ画像に対して特徴量f_CM(D_RGB)を算出し、ＩＲ画像に対して特徴量f_CM(D_IR)を算出する。

イントラモダリティ特徴量算出部１３１およびクロスモダリティ特徴量算出部１３２によりＲＧＢ画像とＩＲ画像についてそれぞれ算出された特徴量f_RGB(D_RGB)、f_CM(D_RGB)、f_IR(D_IR)およびf_CM(D_IR)は、当該ＲＧＢ画像およびＩＲ画像と対応付けて追跡データベース１２０に格納される。

なお、イントラモダリティ特徴量算出部１３１およびクロスモダリティ特徴量算出部１３２は、例えば学習済みのニューラルネットワークを用いた人工知能（ＡＩ：Artificial Intelligence）によりそれぞれ実現することができる。

図４は、重要度算出部１４０の詳細を示す図である。図４に示すように、重要度算出部１４０は、ＲＧＢ画像用重要度算出部１４１、ＩＲ画像用重要度算出部１４２を備える。

ＲＧＢ画像用重要度算出部１４１は、ＲＧＢ画像に対して０から１の間のスコア値で表される重要度IS_RGBRを算出する。ＩＲ画像用重要度算出部１４２は、ＩＲ画像に対して０から１の間のスコア値で表される重要度IS_IRを算出する。重要度IS_RGB、IS_IRは、類似度算出部１５０が類似度を正確に算出するために必要な情報を、ＲＧＢ画像とＩＲ画像がそれぞれどの程度含んでいるかを表す情報である。

ＲＧＢ画像用重要度算出部１４１およびＩＲ画像用重要度算出部１４２によりＲＧＢ画像とＩＲ画像についてそれぞれ算出された重要度IS_RGBおよびIS_IRは、当該ＲＧＢ画像およびＩＲ画像と対応付けて追跡データベース１２０に格納される。

なお、ＲＧＢ画像用重要度算出部１４１およびＩＲ画像用重要度算出部１４２は、例えば学習済みのニューラルネットワークを用いた人工知能（ＡＩ）によりそれぞれ実現することができる。

図５は、類似度算出部１５０の詳細を示す図である。図５では、ＲＧＢ映像２０３とＩＲ映像２０４において連続する時刻ｔ１、ｔ２（ｔ１＜ｔ２）にそれぞれ撮影されたフレームからそれぞれ抽出されたＲＧＢ画像とＩＲ画像の各ペアについて、特徴量算出部１３０と重要度算出部１４０が特徴量と重要度をそれぞれ算出した場合の例を示している。

図５において、特徴量f_RGB(D¹ _RGB)、f_CM(D¹ _RGB)、f_IR(D¹ _IR)およびf_CM(D¹ _IR)は、時刻ｔ１のフレームから抽出されたＲＧＢ画像とＩＲ画像に対して、特徴量算出部１３０がイントラモダリティ特徴量算出部１３１とクロスモダリティ特徴量算出部１３２によりそれぞれ算出した特徴量を表している。同様に、特徴量f_RGB(D² _RGB)、f_CM(D² _RGB)、f_IR(D² _IR)およびf_CM(D² _IR)は、時刻ｔ２のフレームから抽出されたＲＧＢ画像とＩＲ画像に対して、特徴量算出部１３０がイントラモダリティ特徴量算出部１３１とクロスモダリティ特徴量算出部１３２によりそれぞれ算出した特徴量を表している。

また、重要度IS¹ _RGBおよびIS¹ _IRは、時刻ｔ１のフレームから抽出されたＲＧＢ画像とＩＲ画像に対して、重要度算出部１４０がＲＧＢ画像用重要度算出部１４１とＩＲ画像用重要度算出部１４２によりそれぞれ算出した重要度を表している。同様に、重要度IS² _RGBおよびIS² _IRは、時刻ｔ２のフレームから抽出されたＲＧＢ画像とＩＲ画像に対して、重要度算出部１４０がＲＧＢ画像用重要度算出部１４１とＩＲ画像用重要度算出部１４２によりそれぞれ算出した重要度を表している。

図５に示すように、類似度算出部１５０は、マッチングスコア算出部１５１、重み付け乗算部１５３ａ～１５３ｄ、合計部１５４を備える。

マッチングスコア算出部１５１は、特徴量算出部１３０により算出された上記の各特徴量に基づいて、ＲＧＢ－ＲＧＢマッチングスコア１５２ａ、ＲＧＢ－ＩＲマッチングスコア１５２ｂ、ＩＲ－ＲＧＢマッチングスコア１５２ｃおよびＩＲ－ＩＲマッチングスコア１５２ｄを算出する。ＲＧＢ－ＲＧＢマッチングスコア１５２ａは、時刻ｔ１のＲＧＢ画像と時刻ｔ２のＲＧＢ画像の間の類似度を表すものであり、ＲＧＢ－ＩＲマッチングスコア１５２ｂは、時刻ｔ１のＲＧＢ画像と時刻ｔ２のＩＲ画像の間の類似度を表すものである。また、ＩＲ－ＲＧＢマッチングスコア１５２ｃは、時刻ｔ１のＩＲ画像と時刻ｔ２のＲＧＢ画像の間の類似度を表すものであり、ＩＲ－ＩＲマッチングスコア１５２ｄは、時刻ｔ１のＩＲ画像と時刻ｔ２のＩＲ画像の間の類似度を表すものである。なお、マッチングスコア算出部１５１の詳細については、後で図６を参照して説明する。

重み付け乗算部１５３ａは、ＲＧＢ－ＲＧＢマッチングスコア１５２ａに対して、時刻ｔ１のＲＧＢ画像と時刻ｔ２のＲＧＢ画像について重要度算出部１４０によりそれぞれ算出された重要度IS¹ _RGBおよびIS² _RGBを乗算し、これらの重要度に応じた重み付けを行う。重み付け乗算部１５３ｂは、ＲＧＢ－ＩＲマッチングスコア１５２ｂに対して、時刻ｔ１のＲＧＢ画像と時刻ｔ２のＩＲ画像について重要度算出部１４０によりそれぞれ算出された重要度IS¹ _RGBおよびIS² _IRを乗算し、これらの重要度に応じた重み付けを行う。重み付け乗算部１５３ｃは、ＩＲ－ＲＧＢマッチングスコア１５２ｃに対して、時刻ｔ１のＩＲ画像と時刻ｔ２のＲＧＢ画像について重要度算出部１４０によりそれぞれ算出された重要度IS¹ _IRおよびIS² _RGBを乗算し、これらの重要度に応じた重み付けを行う。重み付け乗算部１５３ｄは、ＩＲ－ＩＲマッチングスコア１５２ｄに対して、時刻ｔ１のＩＲ画像と時刻ｔ２のＩＲ画像について重要度算出部１４０によりそれぞれ算出された重要度IS¹ _IRおよびIS² _IRを乗算し、これらの重要度に応じた重み付けを行う。

合計部１５４は、重み付け乗算部１５３ａ～１５３ｄによりそれぞれ重み付けされた各マッチングスコア１５２ａ～１５２ｄを合計することで、マルチモダリティマッチングスコア（以下「ＭＭＭＳ」と称する）１５５を算出する。すなわち、合計部１５４により算出されるＭＭＭＳ１５５は、前述の特徴量f_RGB(D¹ _RGB)、f_CM(D¹ _RGB)、f_IR(D¹ _IR)、f_CM(D¹ _IR)、f_RGB(D² _RGB)、f_CM(D² _RGB)、f_IR(D² _IR)およびf_CM(D² _IR)と、重要度IS¹ _RGB、IS¹ _IR、IS² _RGBおよびIS² _IRとを用いて、以下の式（１）により表すことができる。
MMMS = (IS¹ _RGB * IS² _RGB)
* MF(f_RGB(D¹ _RGB),f_RGB(D² _RGB))
+ (IS¹ _RGB * IS² _IR) * MF(f_CM(D¹ _RGB),f_CM(D² _IR))
+ (IS¹ _IR * IS² _RGB) * MF(f_CM(D¹ _IR),f_CM(D² _RGB))
+ (IS¹ _IR * IS² _IR) * MF(f_IR(D¹ _IR),f_IR(D² _IR)) ・・・（１）

なお、式（１）の右辺において、MF(f_RGB(D¹ _RGB),f_RGB(D² _RGB))はＲＧＢ－ＲＧＢマッチングスコア１５２ａを、MF(f_CM(D¹ _RGB),f_CM(D² _IR))はＲＧＢ－ＩＲマッチングスコア１５２ｂを、MF(f_CM(D¹ _IR),f_CM(D² _RGB))はＩＲ－ＲＧＢマッチングスコア１５２ｃを、MF(f_IR(D¹ _IR),f_IR(D² _IR))はＩＲ－ＩＲマッチングスコア１５２ｄをそれぞれ表している。すなわち、式（１）の右辺において、第１項は重要度IS¹ _RGBおよびIS² _RGBによる重み付け後のＲＧＢ－ＲＧＢマッチングスコア１５２ａを、第２項は重要度IS¹ _RGBおよびIS² _IRによる重み付け後のＲＧＢ－ＩＲマッチングスコア１５２ｂを、第３項は重要度IS¹ _IRおよびIS² _RGBによる重み付け後のＩＲ－ＲＧＢマッチングスコア１５２ｃを、第４項は重要度IS¹ _IRおよびIS² _IRによる重み付け後のＩＲ－ＩＲマッチングスコア１５２ｄをそれぞれ表している。

類似度算出部１５０では、以上説明したようにして、時刻ｔ１およびｔ２のＲＧＢ画像とＩＲ画像の各組み合わせに対する対象物間の類似度をそれぞれ表すマッチングスコア１５２ａ～１５２ｄを算出し、これらのマッチングスコア１５２ａ～１５２ｄに基づいて、時刻ｔ１およびｔ２におけるＲＧＢ画像とＩＲ画像の間での対象物の類似度を表すＭＭＭＳ１５５を算出することができる。

図６は、マッチングスコア算出部１５１の詳細を示す図である。図６に示すように、マッチングスコア算出部１５１は、ＲＧＢ－ＲＧＢマッチングスコア算出部１５１ａ、ＲＧＢ－ＩＲマッチングスコア算出部１５１ｂ、ＩＲ－ＲＧＢマッチングスコア算出部１５１ｃ、ＩＲ－ＩＲマッチングスコア算出部１５１ｄを備える。

なお、図６において、特徴量算出部１３０は、ＲＧＢ映像２０３およびＩＲ映像２０４の時刻ｔ１のフレームからそれぞれ抽出されたＲＧＢ画像１０１とＩＲ画像１０２に対して、ＲＧＢ画像１０１における対象物の特徴量f_RGB(D¹ _RGB)およびf_CM(D¹ _RGB)と、ＩＲ画像１０２における対象物の特徴量f_IR(D¹ _IR)およびf_CM(D¹ _IR)とをそれぞれ算出し、時刻ｔ２のフレームからそれぞれ抽出されたＲＧＢ画像１０３とＩＲ画像１０４に対して、ＲＧＢ画像１０３における対象物の特徴量f_RGB(D² _RGB)およびf_CM(D² _RGB)と、ＩＲ画像１０４における対象物の特徴量f_IR(D² _IR)およびf_CM(D² _IR)とをそれぞれ算出するものとする。

ＲＧＢ－ＲＧＢマッチングスコア算出部１５１ａには、上記の各特徴量のうち、ＲＧＢ画像１０１の特徴量f_RGB(D¹ _RGB)と、ＲＧＢ画像１０３の特徴量f_RGB(D² _RGB)とが入力される。ＲＧＢ－ＲＧＢマッチングスコア算出部１５１ａは、これらの特徴量に基づいて、ＲＧＢ－ＲＧＢマッチングスコア１５２ａを算出する。

ＲＧＢ－ＩＲマッチングスコア算出部１５１ｂには、上記の各特徴量のうち、ＲＧＢ画像１０１の特徴量f_CM(D¹ _RGB)と、ＩＲ画像１０４の特徴量f_CM(D² _IR)とが入力される。ＲＧＢ－ＩＲマッチングスコア算出部１５１ｂは、これらの特徴量に基づいて、ＲＧＢ－ＩＲマッチングスコア１５２ｂを算出する。

ＩＲ－ＲＧＢマッチングスコア算出部１５１ｃには、上記の各特徴量のうち、ＩＲ画像１０２の特徴量f_CM(D¹ _IR)と、ＲＧＢ画像１０３の特徴量f_CM(D² _RGB)とが入力される。ＩＲ－ＲＧＢマッチングスコア算出部１５１ｃは、これらの特徴量に基づいて、ＩＲ－ＲＧＢマッチングスコア１５２ｃを算出する。

ＩＲ－ＩＲマッチングスコア算出部１５１ｄには、上記の各特徴量のうち、ＩＲ画像１０２の特徴量f_IR(D¹ _IR)と、ＩＲ画像１０４の特徴量f_IR(D² _IR)とが入力される。ＩＲ－ＩＲマッチングスコア算出部１５１ｄは、これらの特徴量に基づいて、ＩＲ－ＩＲマッチングスコア１５２ｄを算出する。

なお、上記の各マッチングスコア算出部１５１ａ～１５１ｄは、例えばカイ二乗分布、ユークリッド距離、コサイン距離メトリクス等の周知の演算手法を用いて、２つの特徴量の組み合わせ間での類似度合いを判定し、その判定結果に応じたマッチングスコアを算出することができる。

図７は、画像取得部１１０、特徴量算出部１３０、重要度算出部１４０、類似度算出部１５０および同一性判定部１６０による対象物追跡の一連の処理の流れを示すフローチャートである。本実施形態の対象物解析装置１００では、図７のフローチャートに示す処理が所定時間ごとに実行されることで、撮影装置２００により取得された映像内で対象物が追跡され、対象物の行動監視が行われる。

ステップＳ１０１では、画像取得部１１０により、撮影装置２００のＲＧＢカメラ２０１とＩＲカメラ２０２から、時系列順に並んだ複数の画像により構成されるＲＧＢ映像２０３とＩＲ映像２０４をそれぞれ取得する。そして、取得したＲＧＢ映像２０３およびＩＲ映像２０４において、対象物をそれぞれ検出する。

ステップＳ１０２では、画像取得部１１０により、ステップＳ１０１でＲＧＢ映像２０３およびＩＲ映像２０４からそれぞれ検出した対象物のうち、同一の対象物同士を互いに対応付ける。

ステップＳ１０３では、ステップＳ１０１においてＲＧＢ映像２０３とＩＲ映像２０４の両方から対象物を検出できたか否かを判定する。これら両方の映像から対象物を検出できた場合はステップＳ１０４へ進み、いずれか一方のみから対象物を検出できた場合はステップＳ１０５へ進む。なお、ＲＧＢ映像２０３とＩＲ映像２０４の両方から対象物を検出できなかった場合は、ステップＳ１０４以降の処理を実施せず、図７のフローチャートに示す処理を終了してもよい。

ステップＳ１０４では、画像取得部１１０により、ステップＳ１０１で検出した対象物に対して、ＲＧＢ映像２０３とＩＲ映像２０４から当該対象物に対応するＲＧＢ画像とＩＲ画像のペアをそれぞれ抽出する。

ステップＳ１０５では、画像取得部１１０により、ステップＳ１０１で検出した対象物に対して、ＲＧＢ映像２０３またはＩＲ映像２０４の一方から当該対象物に対応するＲＧＢ画像またはＩＲ画像を抽出する。

ステップＳ１０６では、ステップＳ１０４またはＳ１０５で画像取得部１１０により抽出されたＲＧＢ画像とＩＲ画像のペア、またはこれらの画像のいずれか一方を、追跡データベース１２０に格納する。

ステップＳ１０７では、特徴量算出部１３０と重要度算出部１４０により、ステップＳ１０４またはＳ１０５で画像取得部１１０により抽出されたＲＧＢ画像とＩＲ画像のペア、またはこれらの画像のいずれか一方に対して、特徴量と重要度をそれぞれ算出する。

ステップＳ１０８では、ステップＳ１０７で特徴量算出部１３０と重要度算出部１４０によりそれぞれ算出された特徴量と重要度を、これらが算出されたＲＧＢ画像またはＩＲ画像とそれぞれ関連付けて、追跡データベース１２０に格納する。

ステップＳ１０９では、類似度算出部１５０によるＭＭＭＳ算出処理を実施し、前述のＭＭＭＳ１５５を算出する。ここでは、時系列で連続する２つのＲＧＢ画像とＩＲ画像のペア、すなわち前述の時刻ｔ１におけるＲＧＢ画像とＩＲ画像のペアと、次の時刻ｔ２におけるＲＧＢ画像とＩＲ画像のペアとを追跡データベース１２０においてそれぞれ特定し、これらの各ペアに対する特徴量と重要度を追跡データベース１２０からそれぞれ読み込む。そして、これらの組み合わせに基づいてＭＭＭＳ１５５を算出する。なお、ステップＳ１０９で実施されるＭＭＭＳ算出処理の詳細については、図８のフローチャートを参照して後述する。

ステップＳ１１０では、ステップＳ１０９のＭＭＭＳ算出処理によって算出されたＭＭＭＳ１５５の値を、その算出に用いられた時刻ｔ１、ｔ２のＲＧＢ画像とＩＲ画像の各ペアと関連付けて、追跡データベース１２０に格納する。

ステップＳ１１１では、同一性判定部１６０により、ステップＳ１０９のＭＭＭＳ算出処理により算出されたＭＭＭＳ１５５の値に基づく対象物の追跡を実施する。ここでは、例えばＭＭＭＳ１５５の値に基づいて、時刻ｔ１のＲＧＢ画像およびＩＲ画像における対象物と、時刻ｔ２のＲＧＢ画像およびＩＲ画像における対象物とが、互いに同一のものであるか否かを判定する。その結果、同一の対象物であると判定した場合は、時刻ｔ１から時刻ｔ２までの期間において、ＲＧＢ映像２０３およびＩＲ映像２０４内で当該対象物を追跡する。

ステップＳ１１２では、ステップＳ１１１において対象物を追跡できたか否かを判定する。時刻ｔ１、ｔ２で対象物が同一と判定され、当該対象物をＲＧＢ映像２０３およびＩＲ映像２０４内で追跡できた場合はステップＳ１１３へ進み、追跡できなかった場合はステップＳ１１４へ進む。

ステップＳ１１３では、同一性判定部１６０により、ステップＳ１１１の追跡結果をこれまでに得られた対象物の追跡結果に加えることで、対象物の追跡結果を最新の内容に更新する。

ステップＳ１１４では、同一性判定部１６０により、ステップＳ１１１で追跡した対象物を新規の対象物として、その追跡を開始する。

ステップＳ１１５では、ステップＳ１１３またはＳ１１４の処理内容を追跡データベース１２０に反映し、追跡データベース１２０を更新する。ステップＳ１１５の処理を実施したら、図７のフローチャートに示す処理を終了する。

図８は、ＭＭＭＳ算出処理の詳細を示すフローチャートである。

ステップＳ２０１では、類似度算出部１５０により、別時刻でのＲＧＢ画像とＩＲ画像のペア、すなわち時刻ｔ１におけるＲＧＢ画像とＩＲ画像のペアと、次の時刻ｔ２におけるＲＧＢ画像とＩＲ画像のペアとを、追跡データベース１２０においてそれぞれ特定し、これらの各ペアに対する特徴量と重要度を追跡データベース１２０から取得する。

ステップＳ２０２では、類似度算出部１５０により、ステップＳ２０１で取得したＲＧＢ画像とＩＲ画像のそれぞれについて、特徴量算出部１３０により算出された対象物の特徴量を取得する。具体的には、時刻ｔ１のＲＧＢ画像に対する特徴量f_RGB(D¹ _RGB)およびf_CM(D¹ _RGB)と、時刻ｔ１のＩＲ画像に対する特徴量f_IR(D¹ _IR)およびf_CM(D¹ _IR)と、時刻ｔ２のＲＧＢ画像に対する特徴量f_RGB(D² _RGB)およびf_CM(D² _RGB)と、時刻ｔ２のＩＲ画像に対する特徴量f_IR(D² _IR)およびf_CM(D² _IR)とを取得する。

ステップＳ２０３では、類似度算出部１５０により、ステップＳ２０２で取得した８種類の特徴量に基づいて、各画像間での対象物の類似度を表す４種類のマッチングスコアを算出する。具体的には、上記の各特徴量に基づき、類似度算出部１５０のマッチングスコア算出部１５１を用いて、図６で説明した特徴量の組み合わせにより、ＲＧＢ－ＲＧＢマッチングスコア１５２ａ、ＲＧＢ－ＩＲマッチングスコア１５２ｂ、ＩＲ－ＲＧＢマッチングスコア１５２ｃおよびＩＲ－ＩＲマッチングスコア１５２ｄを算出する。

ステップＳ２０４では、ステップＳ２０２，Ｓ２０３と並行して、類似度算出部１５０により、ステップＳ２０１で取得したＲＧＢ画像とＩＲ画像のそれぞれについて、重要度算出部１４０により算出された対象物の重要度を取得する。具体的には、時刻ｔ１のＲＧＢ画像に対する重要度IS¹ _RGBと、時刻ｔ１のＩＲ画像に対する重要度IS¹ _IRと、時刻ｔ２のＲＧＢ画像に対する重要度IS² _RGBと、時刻ｔ２のＩＲ画像に対する重要度IS² _IRとを取得する。

ステップＳ２０５では、類似度算出部１５０により、ステップＳ２０３で算出した各マッチングスコアを、ステップＳ２０４で取得した重要度に応じて重み付けし、ＭＭＭＳを算出する。具体的には、類似度算出部１５０の重み付け乗算部１５３ａ～１５３ｄおよび合計部１５４を用いて、前述の式（１）により、時刻ｔ１およびｔ２におけるＲＧＢ画像とＩＲ画像の間での対象物の類似度を表すＭＭＭＳ１５５を算出する。

ステップＳ２０５でＭＭＭＳを算出できたら、図８のフローチャートに示す処理を終了し、図７のステップＳ１０９からステップＳ１１０へ進む。

図９は、画像選択部１７０の詳細を示す図である。図９では、画像選択部１７０がユーザの指示に応じて追跡データベース１２０に格納された画像を選択し、表示制御部１８０を介して表示装置４００に表示するときのユーザインタフェースの一例を示している。このとき表示装置４００には、例えば図９に示すように、表示対象指定ウィンドウ４０１、画像表示ウィンドウ４０２、条件設定ウィンドウ４０３を含む画面が表示される。

ユーザは、予め人物ごとに設定されたＩＤ番号のいずれかを表示対象指定ウィンドウ４０１において選択することで、ＲＧＢ映像２０３およびＩＲ映像２０４の少なくとも一方に映っている人物（対象物）のいずれかを表示対象に指定することができる。こうして表示対象とする人物（対象物）がユーザに指定されると、画像選択部１７０は、当該人物の追跡画像として、当該人物の追跡に使用されたＲＧＢ画像とＩＲ画像を追跡データベース１２０から取得する。図９の例では、ＲＧＢ画像９０２ａ～９０２ｅを含む一連のＲＧＢ画像群９０２と、ＩＲ画像９０３ａ～９０３ｅを含む一連のＩＲ画像群９０３とが、追跡画像９０１として取得された例を示している。

追跡データベース１２０から追跡画像９０１を取得すると、画像選択部１７０は、条件設定ウィンドウ４０３においてユーザに設定された条件に従って、追跡画像９０１からＲＧＢ画像またはＩＲ画像のいずれかを時刻ごとに選択する。例えば図９の例では、条件設定ウィンドウ４０３において「重要度が高い画像」のチェックボックスが選択されることにより、ＲＧＢ画像とＩＲ画像のペアのうち、重要度が高い方の画像を選択するように条件が設定されている。そのため、画像選択部１７０は、各時刻のＲＧＢ画像とＩＲ画像のペアのうち、重要度がより高い方の画像を選択する。

ここで、ＲＧＢ画像９０２ａ～９０２ｅのうち、ＲＧＢ画像９０２ｂ、９０２ｃは全体的に暗く、そのためこれらの画像に対して重要度算出部１４０により算出された重要度の値が、ペアとなるＩＲ画像９０３ｂ、９０３ｃよりも低いとする。この場合、ＲＧＢ画像９０２ａ、９０２ｄおよび９０２ｅと、ＩＲ画像９０３ｂ、９０３ｃとがそれぞれ選択される。

上記のようにしてＲＧＢ画像またはＩＲ画像のいずれかを時刻ごとに選択したら、画像選択部１７０は、選択した各画像を表示制御部１８０を介して表示装置４００に送信する。表示装置４００では、送信された各画像が画像表示ウィンドウ４０２内に表示されてユーザに提示される。

なお、上記ではＲＧＢ画像とＩＲ画像のペアのうち、重要度が高い方の画像を画像選択部１７０が選択する場合の例を説明したが、他の条件に応じた画像を選択することもできる。例えば、ＲＧＢ画像とＩＲ画像の両方を時刻ごとに選択してもよいし、ＲＧＢ画像とＩＲ画像のうち指定された一方を時刻ごとに選択してもよい。これ以外にも、画像選択部１７０は、ユーザに指定された任意の条件に従って、追跡画像に含まれるＲＧＢ画像とＩＲ画像の各ペアのうち少なくとも一方を時刻ごとに選択し、表示装置４００に表示させることができる。

次に、特徴量算出部１３０および重要度算出部１４０におけるニューラルネットワークの学習について、図１０および図１１を参照して以下に説明する。

図１０は、学習データ生成処理の流れを示すフローチャートである。図１０のフローチャートに示す処理は、例えば不図示の学習データ生成装置において、ユーザに指示されたタイミングで、または一定時間ごとに実施される。

ステップＳ３０１では、撮影装置２００のＲＧＢカメラ２０１とＩＲカメラ２０２から、時系列順に並んだ複数の画像により構成されるＲＧＢ映像２０３とＩＲ映像２０４をそれぞれ取得する。なお、ＲＧＢカメラ２０１およびＩＲカメラ２０２ではなく、これらと同等の機能を有するカメラにより撮影された映像を、ＲＧＢ映像２０３およびＩＲ映像２０４として取得してもよい。

ステップＳ３０２では、ステップＳ３０１で取得したＲＧＢ映像２０３およびＩＲ映像２０４において、対象物をそれぞれ検出する。

ステップＳ３０３では、ステップＳ３０２においてＲＧＢ映像２０３とＩＲ映像２０４の両方から対象物を検出できたか否かを判定する。これら両方の映像から対象物を検出できた場合はステップＳ３０４へ進み、少なくともいずれか一方から対象物を検出できなかった場合は図１０のフローチャートに示す学習データ生成処理を終了する。

ステップＳ３０４では、ステップＳ３０２で検出した対象物に対して、ＲＧＢ映像２０３とＩＲ映像２０４から当該対象物に対応するＲＧＢ画像とＩＲ画像のペアを時刻ごとにそれぞれ抽出する。

ステップＳ３０５では、ステップＳ３０４で抽出したＲＧＢ画像とＩＲ画像の各ペアに対して、ステップＳ０２で検出した対象物のラベル付けを行う。ここでは、例えば対象物が人物である場合に、当該人物のＩＤ番号をＲＧＢ画像とＩＲ画像の各ペアに対してそれぞれラベル付けする。なお、このラベル付けの処理は人間の判断により行ってもよいし、学習用データ生成装置が所定のアルゴリズムで自動的に行ってもよい。

ステップＳ３０６では、ステップＳ３０５でラベル付けを行ったＲＧＢ画像とＩＲ画像の各ペアの情報を、学習データとして学習データベース５００に格納する。学習データベース５００は、学習データ生成装置または他の装置が有する学習データのデータベースであり、例えばＨＤＤやＳＳＤ等の記憶装置を用いて実現される。ステップＳ３０６の処理を実施したら、図１０のフローチャートに示す処理を終了する。

本実施形態では、以上説明した処理により学習データが生成され、学習データベース５００に格納される。図１０では、学習データベース５００に格納される学習データの例として、ＲＧＢ画像とＩＲ画像のペア５０１ａ～５０１ｆを示している。これらの画像ペア５０１ａ～５０１ｆには、ステップＳ３０５で行われたラベル付けの例として、＃１～＃５のＩＤ番号のいずれかがそれぞれ付されている。

図１１は、図１０の処理によって学習データベース５００に格納された学習データを用いて、重要度算出部１４０の学習を行う学習装置の構成の一例を示す図である。

図１１に示す学習装置６００は、学習データ取得部６０１、重み付けマッチングスコア算出部６０３、損失算出部６０５、ネットワークパラメータ算出部６０６を備える。

学習データ取得部６０１は、学習データベース５００から、基準ペア６０２ａ、正解ペア６０２ｂおよび不正解ペア６０２ｃの３種類の学習データを取得する。基準ペア６０２ａと正解ペア６０２ｂは、学習データベース５００に格納された学習データのうち、同一の対象物を示すラベルが付されたＲＧＢ画像とＩＲ画像のペアであり、不正解ペア６０２ｃは、学習データベース５００に格納された学習データのうち、同一の対象物ではないことを示すラベルが付されたＲＧＢ画像とＩＲ画像のペアである。これらの学習データは、重要度算出部１４０と重み付けマッチングスコア算出部６０３にそれぞれ入力される。なお、図１１では基準ペア６０２ａ、正解ペア６０２ｂおよび不正解ペア６０２ｃのそれぞれについて重要度算出部１４０と重み付けマッチングスコア算出部６０３の動作を説明するために、重要度算出部１４０を３つ、重み付けマッチングスコア算出部６０３を２つ図示しているが、実際にはこれらはそれぞれ同一のものである。

重要度算出部１４０は、図４で説明したように、ＲＧＢ画像用重要度算出部１４１、ＩＲ画像用重要度算出部１４２としてそれぞれ機能するである２つのニューラルネットワークを有しており、これらのニューラルネットワークを用いて、基準ペア６０２ａ、正解ペア６０２ｂおよび不正解ペア６０２ｃに対する重要度をそれぞれ算出する。

重み付けマッチングスコア算出部６０３は、基準ペア６０２ａと正解ペア６０２ｂの組み合わせに対して、重要度算出部１４０により算出された重要度に基づき、これらの学習データ間の類似度合いを重要度に応じて重み付けした基準－正解マッチングスコア６０４ａを算出する。同様に、重み付けマッチングスコア算出部６０３は、基準ペア６０２ａと不正解ペア６０２ｃの組み合わせに対して、重要度算出部１４０により算出された重要度に基づき、これらの学習データ間の類似度合いを重要度に応じて重み付けした基準－不正解マッチングスコア６０４ｂを算出する。

損失算出部６０５は、重み付けマッチングスコア算出部６０３により算出された基準－正解マッチングスコア６０４ａおよび基準－不正解マッチングスコア６０４ｂに基づいて、重要度算出部１４０の各ニューラルネットワークにおける損失を算出する。具体的には、例えば以下の式（２）により、ニューラルネットワークの損失値Lossを算出することができる。

式（２）において、Aⁱ、Pⁱ、Nⁱはそれぞれｉ番目の学習データにおける基準ペア６０２ａ、正解ペア６０２ｂおよび不正解ペア６０２ｃを表す。また、MMMMS(Aⁱ, Pⁱ)はAⁱとPⁱの組み合わせに対する基準－正解マッチングスコア６０４ａを表し、MMMMS(Aⁱ, Nⁱ)はAⁱとNⁱの組み合わせに対する基準－不正解マッチングスコア６０４ｂを表す。

ネットワークパラメータ算出部６０６は、損失算出部６０５により算出された損失に基づいて、重要度算出部１４０の各ニューラルネットワークのパラメータを算出する。そして、算出したパラメータを各ニューラルネットワークに反映し、重要度算出部１４０の学習を実施する。

なお、図１１では重要度算出部１４０の学習を行う学習装置の例を説明したが、特徴量算出部１３０についても、同様の手法による学習を行うことができる。

以上説明した本発明の一実施形態によれば、以下の作用効果を奏する。

（１）対象物解析装置１００は、画像取得部１１０と、特徴量算出部１３０と、重要度算出部１４０と、類似度算出部１５０と、同一性判定部１６０とを備える。画像取得部１１０は、可視光を撮影可能なＲＧＢカメラ２０１により撮影されたＲＧＢ映像２０３に含まれる対象物の画像であるＲＧＢ画像（可視光画像）を取得するとともに、不可視光を撮影可能なＩＲカメラ２０２により撮影されたＩＲ映像２０４に含まれ、ＲＧＢ画像と同時刻における対象物の画像であるＩＲ画像（不可視光画像）を取得する。特徴量算出部１３０は、ＲＧＢ画像から対象物の特徴量を表す第１の特徴量を算出し、ＩＲ画像から対象物の特徴量を表す第２の特徴量を算出する。重要度算出部１４０は、ＲＧＢ画像における対象物の重要度を表す第１の重要度と、ＩＲ画像における対象物の重要度を表す第２の重要度とを算出する。類似度算出部１５０は、第１の特徴量、第２の特徴量、第１の重要度および第２の重要度に基づいて、ＲＧＢ映像２０３およびＩＲ映像２０４における対象物の類似度を算出する。同一性判定部１６０は、類似度算出部１５０により算出された類似度に基づいて、ＲＧＢ映像２０３における対象物と、ＩＲ映像２０４における対象物とが、同一であるか否かを判定する。このようにしたので、ＲＧＢ映像２０３とＩＲ映像２０４からそれぞれ取得された対象物の画像であるＲＧＢ画像およびＩＲ画像の画質に応じて、第１の重要度および第２の重要度を算出し、これらを用いて第１の特徴量および第２の特徴量を重み付けして、対象物の類似度を算出することができる。そして、算出された類似度に基づいて、ＲＧＢ映像２０３における対象物とＩＲ映像２０４における対象物とが同一であるか否かを判定することができる。したがって、撮影環境が時々刻々と変化する対象物の識別精度を十分に維持することができる。

（２）画像取得部１１０は、時刻ｔ１におけるＲＧＢ画像およびＩＲ画像と、時刻ｔ１とは異なる時刻ｔ２におけるＲＧＢ画像およびＩＲ画像とを取得する。特徴量算出部１３０は、時刻ｔ１におけるＲＧＢ画像およびＩＲ画像での対象物の特徴量f_RGB(D¹ _RGB)、f_CM(D¹ _RGB)、f_IR(D¹ _IR)およびf_CM(D¹ _IR)と、時刻ｔ２におけるＲＧＢ画像およびＩＲ画像での対象物の特徴量f_RGB(D² _RGB)、f_CM(D² _RGB)、f_IR(D² _IR)およびf_CM(D² _IR)とを算出する。重要度算出部１４０は、時刻ｔ１におけるＲＧＢ画像およびＩＲ画像での対象物の重要度IS¹ _RGBおよびIS¹ _IRと、時刻ｔ２におけるＲＧＢ画像およびＩＲ画像での対象物の重要度IS² _RGBおよびIS² _IRとを算出する。類似度算出部１５０は、（ａ）時刻ｔ１における特徴量f_RGB(D¹ _RGB)と、時刻ｔ２における特徴量f_RGB(D² _RGB)と、時刻ｔ１における重要度IS¹ _RGBと、時刻ｔ２における重要度IS² _RGBとに基づいて、時刻ｔ１のＲＧＢ画像における対象物と、時刻ｔ２のＲＢＧ画像における対象物との類似度を表す第１の類似度（重み付け後のＲＧＢ－ＲＧＢマッチングスコア１５２ａ）を算出し、（ｂ）時刻ｔ１における特徴量f_CM(D¹ _RGB)と、時刻ｔ２における特徴量f_CM(D² _IR)と、時刻ｔ１における重要度IS¹ _RGBと、時刻ｔ２における重要度IS² _IRとに基づいて、時刻ｔ１のＲＧＢ画像における対象物と、時刻ｔ２のＩＲ画像における対象物との類似度を表す第２の類似度（重み付け後のＲＧＢ－ＩＲマッチングスコア１５２ｂ）を算出し、（ｃ）時刻ｔ１における特徴量f_CM(D¹ _IR)と、時刻ｔ２における特徴量f_CM(D² _RGB)と、時刻ｔ１における重要度IS¹ _IRと、時刻ｔ２における重要度IS² _RGBとに基づいて、時刻ｔ１のＩＲ画像における対象物と、時刻ｔ２のＲＧＢ画像における対象物との類似度を表す第３の類似度（重み付け後のＩＲ－ＲＧＢマッチングスコア１５２ｃ）を算出し、（ｄ）時刻ｔ１における特徴量f_IR(D¹ _IR)と、時刻ｔ２における特徴量f_IR(D² _IR)と、時刻ｔ１における重要度IS¹ _IRと、時刻ｔ２における重要度IS² _IRとに基づいて、時刻ｔ１のＩＲ画像における対象物と、時刻ｔ２のＩＲ画像における対象物との類似度を表す第４の類似度（重み付け後のＩＲ－ＩＲマッチングスコア１５２ｄ）を算出し、（ｄ）これらの類似度に基づいて、時刻ｔ１および時刻ｔ２でのＲＧＢ映像２０３とＩＲ映像２０４における対象物の類似度を表すＭＭＭＳ１５５を算出する。このようにしたので、撮影環境が時々刻々と変化する場合でも、別々の時間におけるＲＧＢ映像２０３とＩＲ映像２０４の間での対象物の類似度を正確に算出することができる。

（３）対象物解析装置１００は、第１の重要度および第２の重要度に基づいて、対象物について時刻ごとにＲＧＢ画像またはＩＲ画像のいずれかを選択する画像選択部１７０と、画像選択部１７０による各時刻でのＲＧＢ画像またはＩＲ画像の選択結果を、時系列順に並べて表示装置４００に表示させる表示制御部１８０とを備える。このようにしたので、ＲＧＢ画像またはＩＲ画像の一方が暗くて見づらい場合でも、対象物の追跡結果をユーザに分かりやすく提示することができる。

なお、本発明は上記実施形態に限定されるものではなく、その要旨を逸脱しない範囲内で、任意の構成要素を用いて実施可能である。以上説明した実施形態や変形例はあくまで一例であり、発明の特徴が損なわれない限り、本発明はこれらの内容に限定されるものではない。また、上記では種々の実施形態や変形例を説明したが、本発明はこれらの内容に限定されるものではない。本発明の技術的思想の範囲内で考えられるその他の態様も本発明の範囲内に含まれる。

１００…対象物解析装置、１１０…画像取得部、１２０…追跡データベース、１３０…特徴量算出部、１４０…重要度算出部、１５０…類似度算出部、１６０…同一性判定部、１７０…画像選択部、１８０…表示制御部、２００…撮影装置、２０１…ＲＧＢカメラ、２０２…ＩＲカメラ、２０３…ＲＧＢ映像、２０４…ＩＲ映像、３００…入力装置、４００…表示装置

Claims

可視光を撮影可能な第１のカメラにより撮影された可視光映像に含まれる対象物の画像である可視光画像を取得するとともに、不可視光を撮影可能な第２のカメラにより撮影された不可視光映像に含まれ、前記可視光画像と同時刻における前記対象物の画像である不可視光画像を取得する画像取得部と、
前記可視光画像から前記対象物の特徴量を表す第１の特徴量を算出し、前記不可視光画像から前記対象物の特徴量を表す第２の特徴量を算出する特徴量算出部と、
前記可視光画像における前記対象物の重要度を表す第１の重要度と、前記不可視光画像における前記対象物の重要度を表す第２の重要度とを算出する重要度算出部と、
前記第１の特徴量、前記第２の特徴量、前記第１の重要度および前記第２の重要度に基づいて、前記可視光映像および前記不可視光映像における前記対象物の類似度を算出する類似度算出部と、
前記類似度に基づいて、前記可視光映像における前記対象物と、前記不可視光映像における前記対象物とが、同一であるか否かを判定する同一性判定部と、
を備える対象物解析装置。
請求項１に記載の対象物解析装置において、
前記画像取得部は、第１の時刻における前記可視光画像および前記不可視光画像と、前記第１の時刻とは異なる第２の時刻における前記可視光画像および前記不可視光画像とを取得し、
前記特徴量算出部は、前記第１の時刻における前記第１の特徴量および前記第２の特徴量と、前記第２の時刻における前記第１の特徴量および前記第２の特徴量とを算出し、
前記重要度算出部は、前記第１の時刻における前記第１の重要度および前記第２の重要度と、前記第２の時刻における前記第１の重要度および前記第２の重要度とを算出し、
前記類似度算出部は、
前記第１の時刻における前記第１の特徴量と、前記第２の時刻における前記第１の特徴量と、前記第１の時刻における前記第１の重要度と、前記第２の時刻における前記第１の重要度とに基づいて、前記第１の時刻の前記可視光画像における前記対象物と、前記第２の時刻の前記可視光画像における前記対象物との類似度を表す第１の類似度を算出し、
前記第１の時刻における前記第１の特徴量と、前記第２の時刻における前記第２の特徴量と、前記第１の時刻における前記第１の重要度と、前記第２の時刻における前記第２の重要度とに基づいて、前記第１の時刻の前記可視光画像における前記対象物と、前記第２の時刻の前記不可視光画像における前記対象物との類似度を表す第２の類似度を算出し、
前記第１の時刻における前記第２の特徴量と、前記第２の時刻における前記第１の特徴量と、前記第１の時刻における前記第２の重要度と、前記第２の時刻における前記第１の重要度とに基づいて、前記第１の時刻の前記不可視光画像における前記対象物と、前記第２の時刻の前記可視光画像における前記対象物との類似度を表す第３の類似度を算出し、
前記第１の時刻における前記第２の特徴量と、前記第２の時刻における前記第２の特徴量と、前記第１の時刻における前記第２の重要度と、前記第２の時刻における前記第２の重要度とに基づいて、前記第１の時刻の前記不可視光画像における前記対象物と、前記第２の時刻の前記不可視光画像における前記対象物との類似度を表す第４の類似度を算出し、
前記第１の類似度、前記第２の類似度、前記第３の類似度および前記第４の類似度に基づいて、前記第１の時刻および前記第２の時刻での前記可視光映像と前記不可視光映像における前記対象物の類似度を算出する、
対象物解析装置。
請求項１または２に記載の対象物解析装置において、
前記第１の重要度および前記第２の重要度に基づいて、前記対象物について時刻ごとに前記可視光画像または前記不可視光画像のいずれかを選択する画像選択部と、
前記画像選択部による各時刻での前記可視光画像または前記不可視光画像の選択結果を、時系列順に並べて表示装置に表示させる表示制御部と、
を備える対象物解析装置。
可視光を撮影可能な第１のカメラにより撮影された可視光映像に含まれる対象物の画像である可視光画像を取得するとともに、不可視光を撮影可能な第２のカメラにより撮影された不可視光映像に含まれ、前記可視光画像と同時刻における前記対象物の画像である不可視光画像を取得する画像取得部と、
前記可視光画像における前記対象物の重要度を表す第１の重要度と、前記不可視光画像における前記対象物の重要度を表す第２の重要度とを算出する重要度算出部と、
前記第１の重要度および前記第２の重要度に基づいて、前記対象物について時刻ごとに前記可視光画像または前記不可視光画像のいずれかを選択する画像選択部と、
前記画像選択部による各時刻での前記可視光画像または前記不可視光画像の選択結果を、時系列順に並べて表示装置に表示させる表示制御部と、
を備える対象物解析装置。
コンピュータを用いた対象物の解析方法であって、
前記コンピュータにより、
可視光を撮影可能な第１のカメラにより撮影された可視光映像に含まれる前記対象物の画像である可視光画像を取得し、
不可視光を撮影可能な第２のカメラにより撮影された不可視光映像に含まれ、前記可視光画像と同時刻における前記対象物の画像である不可視光画像を取得し、
前記可視光画像から前記対象物の特徴量を表す第１の特徴量を算出し、
前記不可視光画像から前記対象物の特徴量を表す第２の特徴量を算出し、
前記可視光画像における前記対象物の重要度を表す第１の重要度を算出し、
前記不可視光画像における前記対象物の重要度を表す第２の重要度を算出し、
前記第１の特徴量、前記第２の特徴量、前記第１の重要度および前記第２の重要度に基づいて、前記可視光映像および前記不可視光映像における前記対象物の類似度を算出し、
前記類似度に基づいて、前記可視光画像における前記対象物と、前記不可視光画像における前記対象物とが、同一であるか否かを判定する、
対象物解析方法。