JP2022180887A

JP2022180887A - 物体認識システム及び物体認識方法

Info

Publication number: JP2022180887A
Application number: JP2021087636A
Authority: JP
Inventors: 隆金丸; Takashi Kanamaru; リマサンチェスシャルル; Lima Sanches Charles
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2022-12-07
Also published as: US20220383631A1; CN115393703A

Abstract

【課題】教師データの収集に係る時間とコストを軽減しつつ、認識精度を向上させることが可能な物体認識システムを提供する。
【解決手段】本質特徴量抽出部１０５は、所定のカメラ２０にて取得された画像データに基づく対象画像データから、その対象画像データに写る被写体に関する複数の要素のそれぞれに関係する複数の特徴量のうち、カメラ２０の撮影条件から独立した要素に関係する特徴量を本質特徴量として抽出する。データベース比較部１０６は、所定のカメラ２０とは別のカメラ２０にて取得された画像データに基づく参照画像データから抽出された本質特徴量である登録特徴量とを比較し、その比較結果に基づいて、被写体を特定する。
【選択図】図１

Description

本開示は、物体認識システム及び物体認識方法に関する。

公共空間における安全を担保するために、監視カメラで取得された映像をモニタリングして、不審物又は不審者のような認識対象を特定することが行われている。従来、監視カメラで取得された映像のモニタリングは、監視員により目視で行われていたが、一度に監視できる映像の数に限界があるなどの問題がある。これに対して、近年では、機械学習などの手法を用いて、映像から所望の認識対象を自動的に認識する物体認識技術が注目されている。

機械学習を用いた物体認識技術では、既に設置されている監視カメラごとに、認識対象が写った大量の画像データを教師データ（学習用データ）として用いて学習を行った学習済みモデルを生成することで、認識対象を精度良く認識することが可能となる。しかしながら、特定の監視カメラで取得された画像データを教師データとして生成した学習済みモデルを新しく設置した監視カメラのような別の監視カメラで取得された画像データに対して適用すると、不適切な認識結果が得られてしまうことがある。

上記の問題を解消するためには、別の監視カメラで取得された画像データを教師データとして大量に収集し、それらの画像データに基づいて学習済みモデルに対する再学習を実行することが考えられる。しかしながら、この方法では、教師データの収集に時間とコストがかかるという問題がある。

特許文献１には、教師データの収集に係る時間とコストを低減することが可能な物体認識システムが開示されている。この物体認識システムは、駐車スペースを占有する車両を監視するために車両を認識するシステムであり、監視カメラの車両に対する視点が変化しても車両を適切に特定するために、視点が異なる監視カメラで取得された画像データ間の特徴量の分布を調整するドメイン適応が行われている。このため、視点が異なる画像データを教師データとして大量に収集しなくてもよくなるため、教師データの収集に係る時間とコストを軽減することが可能となる。

米国特許出願公開第２０１９／００６５８５３号明細書

しかしながら、ドメイン適応では、学習済みモデルがカメラの視点などに依存しないように、画像の特徴量の分布を補正することに主眼が置かれているため、認識対象の細かな差異を学習できる保証はない。このため、空港における手荷物の受取場所などで個人が所有する様々な鞄を認識するようなタスクなどにおいては、十分な認識精度を担保することができない恐れがある。

本開示の目的は、教師データの収集に係る時間とコストを軽減しつつ、認識精度を向上させることが可能な物体認識システム及び物体認識方法を提供することにある。

本開示の一態様に従う物体認識システムは、所定の撮影装置にて取得された画像データに基づく対象画像データに写る被写体を特定する物体認識システムであって、前記対象画像データから、当該対象画像データに写る被写体に関する複数の要素のそれぞれに関係する複数の特徴量のうち、前記撮影装置の撮影条件から独立した要素に関係する特徴量を本質特徴量として抽出する抽出部と、前記本質特徴量と、前記撮影装置とは別の撮影装置にて取得された画像データに基づく参照画像データから抽出された前記本質特徴量である登録特徴量とを比較し、当該比較結果に基づいて、前記被写体を特定する比較部と、を有する。

本発明によれば、教師データの収集に係る時間とコストを軽減しつつ、認識精度を向上させることが可能になる。

本開示の一実施形態の物体認識システムの機能的な構成を示す図である。本開示の一実施形態の物体認識システムのハードウェア構成の一例を示す図である。本開示の一実施形態の物体認識システムを運用する運用環境の一例を示す図である。認識処理の一例を説明するためのフローチャートである。ドメイン共通要素に係る処理の一例を説明するための図である。ドメイン適応ネットワークの学習方法の一例を説明するための図である。本質特徴量に係る処理の一例を説明するための図である。要素分解ネットワークの一例を示す図である。表示装置における検出結果の表示例を示す図である。表示装置における検出結果の他の表示例を示す図である。データベースを構築する構築処理を説明するためのフローチャートである。

以下、本開示の実施形態について図面を参照して説明する。

図１は、本開示の一実施形態の物体認識システムの機能的な構成を示す図である。物体認識システム１０は、画像データを取得する撮影装置であるカメラ２０と、種々の情報を表示する表示装置３０とにネットワーク４０を介して相互に通信可能に接続されている。図１の例では、カメラ２０を２つ、表示装置３０を１つ示しているが、カメラ２０及び表示装置３０の数は、この例に限定されない。また、物体認識システム１０、カメラ２０及び表示装置３０の接続方式は、有線方式でもよいし、無線方式でもよい。

物体認識システム１０は、図１に示すように、ユーザインタフェース１０１と、通信部１０２と、画像処理部１０３と、ドメイン適応部１０４と、本質特徴量抽出部１０５と、データベース比較部１０６と、モデル学習部１０７と、推定部１０８とを有する。

ユーザインタフェース１０１は、ユーザから種々の情報を受け付ける機能と、ユーザに対して種々の情報を出力する機能とを有する。

通信部１０２は、ネットワーク４０を介してカメラ２０及び表示装置３０のような外部装置と通信する。例えば、通信部１０２は、カメラ２０から画像データを受信したり、表示情報を表示装置３０に送信したりする。

画像処理部１０３は、通信部１０２にて受信された画像データに対して種々の画像処理を行う。例えば、画像処理部１０３は、画像データから、所定の被写体が写っている領域を示す部分画像データを抽出する抽出処理を行う。また、画像処理部１０３は、画像データに対して特定の被写体を強調する強調処理を行ってもよい。

ドメイン適応部１０４は、互いに異なる撮影条件（画角及び背景など）を有する複数のカメラ２０のそれぞれにて取得された画像データに基づいて学習されたドメイン適応ネットワークに対して、被写体を特定する対象となる画像データである対象画像データを入力して、対象画像データのドメイン共通要素を抽出するドメイン適応処理を実行する。対象画像データは、カメラ２０のいずれかにて取得された画像データに基づくデータであり、本実施形態では、画像処理部１０３が抽出処理にて画像データから抽出した部分画像データである。また、ドメイン共通要素は、対象画像データの各カメラ２０の撮影条件に共通した特徴を示す特徴量であり、例えば、ベクトル情報である。

本質特徴量抽出部１０５は、対象画像データから、その対象画像データに写る被写体である認識対象に関する複数の要素のそれぞれに関係する複数の特徴量のうち、その対象画像データを取得したカメラ２０の撮影条件から独立した要素に関係する特徴量を本質特徴量として抽出する抽出部である。本質特徴量は、例えば、ベクトル情報である。

データベース比較部１０６は、ドメイン共通要素及び本質特徴量に関するデータベースと、ドメイン適応部１０４及び本質特徴量抽出部１０５にて抽出されたドメイン共通要素及び本質特徴量とを比較し、その比較結果に基づいて、対象画像データに写る認識対象を特定する比較部である。

モデル学習部１０７は、所定の対象物を写した画像データを教師データとして用いて、画像データに所定の被写体が写されているか否かを推定する機能を学習した物体認識モデルを生成する。

推定部１０８は、モデル学習部１０７にて生成された物体認識モデルを用いて、所定の入力画像データに所定の対象物が写っているか否かを推定する。

図２は、物体認識システム１０のハードウェア構成の一例を示す図である。図２に示すように、物体認識システム１０は、プロセッサ１５１と、メモリ１５２と、通信装置１５３と、補助記憶装置１５４と、入力装置１５５と、出力装置１５６とを有し、各ハードウェア１５１～１５６は、システムバス１５７を介して相互に通信可能に接続されている。

プロセッサ１５１は、コンピュータプログラムを読み取り、その読み取ったコンピュータプログラムを実行することで、図１に示した各機能部１０１～１０８を実現する。メモリ１５２は、プロセッサ１５１にて実行されるコンピュータプログラム及びプロセッサ１５１にて使用される種々のデータを格納する。通信装置１５３は、図１に示したカメラ２０及び表示装置３０のような外部装置と通信を行う。補助記憶装置１５４は、ＨＤＤ(Hard Disk Drive)、ＳＳＤ（Solid State Drive）及びフラッシュメモリなどであり、種々のデータを永続的に記憶する。上述したデータベースは、例えば、補助記憶装置１５４に記憶される。入力装置１５５は、例えば、例えば、キーボード、マウス及びタッチパネルなどであり、ユーザからの操作を受け付ける。出力装置１５６は、例えば、モニタ及びプリンタなどであり、ユーザに対して種々のデータを出力する。

なお、プロセッサ１５１にて実行されるコンピュータプログラムは、コンピュータにて読み取り可能な非一時的な記録媒体１５８に記録されてもよい。記録媒体１５８の種類は特に限定されないが、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、ＳＳＤ、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ又は不揮発性のメモリカードなどである。また、コンピュータプログラムにて実現される機能の少なくとも一部が、例えば集積回路で設計するなどによりハードウェアにて実現されてもよい。

また、本システムは、物理的な計算機システム（一つ以上の物理的な計算機）でもよいし、クラウド基盤のような計算リソース群（複数の計算リソース）上に構築されたシステムでもよい。計算機システムあるいは計算リソース群は、１以上のインタフェース装置（例えば通信装置及び入出力装置を含む）、１以上の記憶装置（例えば、メモリ（主記憶）及び補助記憶装置を含む）、及び、１以上のプロセッサを含む。

図３は、物体認識システム１０を運用する運用環境の一例を示す図である。図３では、物体認識システム１０を空港における手荷物の受取場所にて運用した例が示されている。

空港における手荷物の受取場所２００には、飛行機で運搬された手荷物である鞄３００を所有者に渡すために、鞄３００をバックヤードから運搬するベルトコンベア２０１が設けられている。また、ベルトコンベア２０１の途中には、鞄３００の内容物を検査するための検査装置２０２が設けられている。検査装置２０２は、例えば、Ｘ線検査装置であり、鞄３００を開封することなく、鞄３００の内容物を写した透視画像データを取得する。

物体認識システム１０及び表示装置３０は、例えば、空港の管理部門などに設置される。また、カメラ２０は、鞄３００が画像データに写るように受取場所２００などに設置される。図３の例では、カメラ２０として、カメラ２０Ａ～２０Ｃが設置されている。カメラ２０Ａ及び２０Ｂは、ベルトコンベア２０１上の鞄３００が撮影可能なように設置される。カメラ２０Ｃは、所有者が受け取った鞄３００が撮影可能なように設置される。例えば、カメラ２０Ｃは、ベルトコンベア２０１付近における所有者による鞄３００の受け取りの様子を写したり、受取場所２００全体を俯瞰するように写したりするように設置される。なお、カメラ２０は、適宜追加さてもよい。

検査装置２０２で取得された透視画像データは表示装置３０又は物体認識システム１０の出力装置１５６に表示される。空港の監視員は、表示された透視画像データ確認し、刃物などの危険物又は不審物が鞄３００に入っていると判断すると、その鞄３００を追跡対象として指定する。追跡対象を指定する指定方法といえては、例えば、カメラ２０Ａが取得した画像データから、透視画像データにて内容物が写されている鞄３００を、入力装置１５５を介して指定する方法などが挙げられる。

この場合、物体認識システム１０は、追跡対象として指定された鞄３００を指定被写体として設定する。例えば、物体認識システムは、鞄３００を識別するＩｄに対して、指定被写体である旨の情報を設定する。なお、Ｉｄについては後述する。

また、物体認識システム１０は、カメラ２０Ｂ及び２０Ｃが取得した画像データから鞄３００を特定する認識処理を実行し、その認識処理の結果である認識結果を、ユーザインタフェース１０１を用いて出力装置１５６に出力したり、通信部１０２を用いて表示装置３０に出力したりする。このとき、特定した鞄３００が指定被写体と同一の場合、物体認識システム１０は、元の画像データに対して認識結果を重畳することで、指定された鞄３００とその所有者を容易に追跡することができる。

なお、物体認識システム１０は、監視員を介さずに検査装置２０２と直接連携してもよい。例えば、物体認識システム１０の推定部１０８は、危険物及び不審物を所定の対象物とした物体認識モデルを用いて、透視画像データに対象物が写っているか否かを推定する。対象物が写っている場合、推定部１０８は、対象物が写っている透視画像データに対応する鞄３００を指定被写体として設定する。この場合、監視員の負担又は監視員の数を低減することが可能となり、運用コストの削減が可能となる。

このように物体認識システム１０を手荷物の受取場所に適用した場合、カメラ２０Ａ及び２０Ｂにて取得される画像データのようにベルトコンベアを背景とする画像データは大量に収集することができるが、カメラ２０Ｃにて取得される画像データは、カメラ２０Ｃが設置される受取場所、及び、受取場所内の設置位置などに応じて背景及び画角などの撮影条件が変わるため、同等な画像を大量に収集することが難しい。このため、従来の機械学習の手法を用いると、例えば、空港内に新しい受取場所が設けられた場合、カメラ２０Ａ及び２０Ｂにて取得される画像と同等な画像を十分に収集できているとしても、カメラ２０Ｃにて取得される画像と同等な画像を十分に用意できないことがある。以下では、このような状況においても、認識対象を精度良く認識することが可能な物体認識システム１０の動作及び機能などについて説明する。

図４は、物体認識システム１０が認識対象を検出する認識処理の一例を説明するためのフローチャートである。

認識処理では、先ず、物体認識システム１０の画像処理部１０３は、所定のカメラ２０（図３の例では、新しく設置したカメラ２０Ｃ）にて取得された画像データを、通信部１０２を介して取得し、その画像データから所定の被写体（図３の例では、鞄３００）を写した領域を示す部分画像データを対象画像データとして抽出する（ステップＳ３０１）。なお、対象画像データを抽出する元の画像データに所定の被写体が複数写っている場合、画像処理部１０３は、その複数の被写体のそれぞれに対応する複数の対象画像データを抽出する。

続いて、ドメイン適応部１０４は、対象画像データに対してドメイン適応処理を実行して、対象画像データからドメイン共通要素を抽出する（ステップＳ３０２）。データベース比較部１０６は、ドメイン適応部１０４にて抽出されたドメイン共通要素を、ドメイン共通要素に関するデータベースである共通要素データベースと比較する（ステップＳ３０３）。

図５は、ステップＳ３０２及びＳ３０３の処理をより詳細に説明するための図である。

図５に示すように共通要素データベース５００には、所定の被写体である鞄３００を識別するＩｄ５０１ごとに、その鞄３００を示す画像データから抽出したドメイン共通要素である登録共通要素５０２が格納されている。登録共通要素５０２を抽出する画像データは、所定のカメラ２０であるカメラ２０Ｃとは別のカメラ２０Ａ及びＢの少なくとも一方にて取得された画像データに基づく参照画像データである。なお、共通要素データベース５００に対する登録共通要素５０２の登録方法については、図１２を用いて後述する。

先ず、ステップＳ３０２では、ドメイン適応部１０４は、対象画像データ５１０を、ドメイン共通要素を抽出する機能を学習したドメイン適応ネットワーク５２０に入力することで、対象画像データ５１０からドメイン共通要素５３０を抽出し、そのドメイン共通要素５３０をデータベース比較部１０６に入力する。ドメイン適応ネットワーク５２０は、カメラ２０Ａ～２０Ｃにて取得された画像データに基づいて学習した学習済みモデルである。

図６は、ドメイン適応ネットワーク５２０の学習方法の一例を説明するための図である。図６に示すようにドメイン適応ネットワーク５２０を学習させる際には、対象画像データを取得するカメラと同じカメラ２０Ｃで取得した新カメラ画像データ６０１と、カメラ２０Ａ及び２０Ｂで取得した旧カメラ画像データ６０２とを教師データとして用いる。新カメラ画像データ６０１は、少量でもよい。旧カメラ画像データ６０２は多量であることが好ましく、例えば、使用可能な画像の全てでもよい。

ドメイン適応ネットワーク６１０の学習では、新カメラ画像データ６０１及び旧カメラ画像データ６０２を学習前のドメイン適応ネットワーク６１０に入力し、ドメイン適応ネットワーク６１０から出力されたドメイン共通要素６１１に基づいて算出される３つの異なる損失関数を使用してドメイン適応ネットワーク６１０のパラメータを調整することで、学習済みのドメイン適応ネットワーク６１０を生成する。

図６の例では、３つの損失関数を、クロスエントロピーに基づく損失関数（Cross Entropy Loss）、ｄ－ＳＮＥ（T-distributed Stochastic Neighbor Embedding）に基づいて修正されたＨａｕｓｄｏｒｆｆｉａｎ距離に基づく損失関数（VAT(Virtual Adversarial Training) Loss）、及び、弁別結果に基づく損失関数（Discriminator Loss）である。クロスエントロピーに基づく損失関数及びｄ－ＳＮＥに基づいて修正されたＨａｕｓｄｏｒｆｆｉａｎ距離に基づく損失関数は、新カメラ画像データ６０１及び旧カメラ画像データ６０２のそれぞれから得られたドメイン共通要素６１１を分類器６１２で分類した分類結果ｈθ（Ｘ_ｓ）に基づいて計算される。また、弁別結果の出力に基づく損失関数は、新カメラ画像データ６０１及び旧カメラ画像データ６０２のそれぞれから得られたドメイン共通要素６１１を弁別器６１３で弁別した弁別結果に基づいて計算される。

図５の説明に戻る。データベース比較部１０６は、ステップＳ３０３において、ドメイン共通要素５３０と共通要素データベース５００に登録されている登録共通要素５０２とをＩｄ５０１ごとに比較して、ドメイン共通要素５３０と登録共通要素５０２との類似度をＩｄ５０１ごとに算出する。データベース比較部１０６は、それらの類似度をＩｄ５０２ごとに示す情報をドメイン比較結果として生成する。類似度は、例えば、ユークリッド距離のような古典的なメトリック距離である。

図４の説明に戻る。データベース比較部１０６は、ドメイン比較結果に基づいて、ドメイン共通要素５３０と、そのドメイン共通要素５３０に最も類似した登録共通要素５０２との一致率に関する所定の精度条件が満たされるか否かを判断する（ステップＳ３０４）。精度条件は、本実施形態では、ドメイン共通要素５３０に最も類似した登録共通要素５０２の類似度が第１の閾値よりも高く、ドメイン共通要素に２番目に類似した登録共通要素５０２が第２の閾値よりも低いことである。このとき、類似度は０から１の範囲の値に正規化されてもよい。正規化された類似度は、１に近いほど、類似していることを示す。この場合、第１の閾値は、例えば、０．８であり、第２の閾値は、第１の閾値よりも小さく、例えば、０．３である。

なお、精度条件は、上記の例に限らず、例えば、ドメイン共通要素５３０に最も類似した登録共通要素５０２の類似度が第１の閾値よりも高いことなどでもよい。

精度条件が満たされない場合、本質特徴量抽出部１０５は、対象画像データに対して本質特徴量抽出処理を実行して、対象画像データから本質特徴量を抽出する（ステップＳ３０５）データベース比較部１０６は、本質特徴量抽出部１０５にて抽出された本質特徴量を、本質特徴量に関するデータベースである本質特徴量データベースと比較する（ステップＳ３０６）。

図７は、ステップＳ３０５及び３０６の処理をより詳細に説明するための図である。

図７に示すように本質特徴量データベース７００には、所定の被写体である鞄３００を識別するＩｄ７０１ごとに、その鞄３００を示す画像データから抽出した本質特徴量である登録特徴量７０２が格納されている。Ｉｄ７０１は、図５に示したＩｄ５０１の共通でもよい。登録特徴量７０２を抽出する画像データは、所定のカメラ２０であるカメラ２０Ｃとは別のカメラ２０Ａ及びＢの少なくとも一方にて取得された画像データに基づく参照画像データである。なお、本質特徴量データベース７００に対する登録特徴量７０２の登録方法については、図１２を用いて後述する。

先ず、ステップＳ３０５では、本質特徴量抽出部１０５は、対象画像データ５１０を、要素分解特徴量を抽出する機能を学習した要素分解ネットワーク７２０に入力することで、対象画像データ５１０から要素分解特徴量７３０を抽出する。

要素分解ネットワーク７２０は、例えば、オートエンコーダニューラルネットワークである。オートエンコーダニューラルネットワークは、画像データに写る被写体に関する複数の要素のそれぞれに関係する特徴量のもつれを解く要素分解（Disentanglement）特性を有するように構成されており、要素別に特徴量を含む要素分解特徴量を出力することができる。要素分解ネットワーク７２０（オートエンコーダニューラルネットワーク）は、例えば、学習済みのベータＶＡＥ（Valuable Auto Encoder）の組み合わせで構成される。

図８は、学習済みのベータＶＡＥの組み合わせで構成された要素分解ネットワークの一例を示す図である。ベータＶＡＥは、要素分解特性を有することで知られており、例えば、対象画像データ５１０の特徴量を、色に関係する特徴量と他の特徴量とに分解して出力するように学習させることができる。本実施形態では、図８に示すように学習済みのベータＶＡＥの組み合わせで構成される要素分解ネットワーク７２０は、形状に関係する形状関係特徴量、色に関係する色関係特徴量、ポーズ（回転）に関係するポーズ関係特徴量、及び、他の要素に関係する他の特徴量を示す特徴量ベクトルを要素分解特徴量７３０として出力する。

本質特徴量抽出部１０５は、要素分解特徴量７３０のうち、対象画像データ５１０を取得するカメラ２０Ｃの撮影条件に応じて変化するポーズ関係特徴量と、他の特徴量とはカメラ２０Ｃの撮影条件に依存した非本質特徴量７４１として破棄し、色関係特徴量及び形状関係特徴量をカメラ２０Ｃの撮影条件から独立した、被写体に固有の特徴量である本質特徴量７４０としてデータベース比較部１０６に入力する。

図７の説明に戻る。データベース比較部１０６は、ステップＳ３０６において、本質特徴量７４０と本質特徴量データベース７００に登録されている登録特徴量７０２とをＩｄ７０１ごとに比較して、本質特徴量７４０と登録特徴量７０２との類似度をＩｄ７０１ごとに算出する。データベース比較部１０６は、それらの類似度をＩｄ７０２ごとに示す情報を本質比較結果として生成する。類似度は、例えば、ユークリッド距離のような古典的なメトリック距離である。

図４の説明に戻る。データベース比較部１０６は、ステップＳ３０３にて生成したドメイン比較結果及びステップＳ３０６にて生成した本質比較結果に基づいて、対象画像に写る認識対象が指定被写体（追跡対象）と同一か否かを判定する。ユーザインタフェース１０１又は通信部１０２である出力部は、その判定結果を認識結果として出力して（ステップＳ３０７）、処理を終了する。

具体的には、ステップＳ３０４で精度条件が満たされたと判定された場合、データベース比較部１０６は、ドメイン比較結果に基づいて、ドメイン共通要素５３０に最も類似した登録共通要素５０２に対応するＩｄ５０２にて識別される鞄３００を対象画像データに写された認識対象として特定する。一方、ステップＳ３０４で精度条件が満たされていないと判定された場合、データベース比較部１０６は、本質比較結果に基づいて、本質特徴量７４０に最も類似した登録特徴量７０２に対応するＩｄ７０２にて特定される鞄３００を対象画像データに写された認識対象として特定する。そして、データベース比較部１０６は、認識対象が設定された指定被写体と同一か否かを判定する。

判定結果の出力方法は、ユーザインタフェース１０１が出力装置１５６に表示する方法、及び、通信部１０２が表示装置３０に出力する方法などが挙げられる。また、認識対象が指定被写体と同一の場合、画像処理部１０３は、指定被写体を写した対象画像データの元の画像データに対して、指定被写体を強調する強調処理を行い、その強調処理を行った画像データを判定結果として出力してもよい。

図９及び図１０は、表示装置３０における判定結果の表示例を示す図である。

図９の例は、画像処理部１０３は、対象画像データの元となる画像データ（カメラ２０Ｃが取得した画像データ）に対して、指定被写体の鞄が写る箇所と、その指定被写体の鞄を所持する所持者が写る箇所とを囲う矩形３１を重畳することで、指定被写体を強調する強調処理を行った表示例である。この場合、監視員が容易に追跡対象（指定被写体）を特定することができる。なお、強調処理は、指定被写体以外の鞄を破線で示した矩形３２で囲み、指定被写体を実線で示した矩形３１で囲むものでもよい。

図１０の例は、カメラ２０Ｃを含む複数のカメラのそれぞれで取得された複数の画像データを同時に表示する表示例である。いずれの画像データにおいても、指定被写体の鞄の写る箇所を囲う矩形３１が重畳されている。

なお、図９で示した表示画面と図１０で示した表示画面とは、監視員などのユーザの操作に応じて切り替えられてもよい。例えば、表示装置３０にタッチパネルセンサが設けられている場合、図９に示した表示画面がタップされると、図１０に示した表示画面が表示され、図１０に示した表示画面において画像データのいずれかがタップされると、図９に示したようにタップされた画像データが表示されてもよい。

図１１は、データベースを構築する構築処理を説明するためのフローチャートである。

構築処理では、先ず、物体認識システム１０の画像処理部１０３は、カメラ２０Ａ及び２０Ｂにて取得された旧カメラ画像データを、通信部１０２を介して取得する（ステップＳ５０１）。

画像処理部１０３は、旧カメラ画像データに所定の被写体である鞄が写っているか否かを確認する（ステップＳ５０２）。

鞄が写っていない場合、画像処理部１０３は、処理を終了する。一方、鞄が写っている場合、画像処理部１０３は、旧カメラ画像データから鞄が写っている領域を示す部分画像データを参照画像データとして抽出して、ドメイン適応部１０４及び本質特徴量抽出部１０５に出力する（ステップＳ５０３）。

ドメイン適応部１０４は、図４のステップＳ３０２と同様に、参照画像データに対してドメイン適応処理を実行して、ベクトル情報であるドメイン共通要素を抽出する。また、本質特徴量抽出部１０５は、図４のステップＳ３０５と同様に、参照画像データに対して本質特徴量抽出処理を実行して、ベクトル情報である本質特徴量を抽出する（ステップＳ５０４）。

データベース比較部１０６は、ステップＳ５０４で抽出されたベクトル情報がデータベースに既に登録されているか否かを判定する（ステップＳ５０５）。本実施形態では、判定に用いるベクトル情報は、本質特徴量であるとする。この場合、本質特徴量との類似度（例えば、メトリック距離）が所定値以上の登録特徴量が本質特徴量データベースに登録されている場合、ベクトル情報がデータベースに既に登録されていると判定してもよい。なお、判定に用いるベクトル情報は、ドメイン共通要素でもよいし、ドメイン共通要素及び本質特徴量の両方でもよい。

ベクトル情報が登録されている場合、データベース比較部１０６は、処理を終了する。一方、ベクトル情報が登録されていない場合、データベース比較部１０６は、参照画像データに写る参照被写体を識別するＩｄとして、データベースに既に登録されているＩｄと重複しない新しいＩｄを生成し、その新しいＩｄと、ステップＳ５０４で抽出されたドメイン共通要素及び本質特徴量とを対応付けてデータベースに登録し（ステップＳ５０６）、処理を終了する。

なお、ステップＳ５０５の処理を行わずに、抽出したベクトル情報を全てデータベースに登録してもよい。

本実施形態では、認識対象を鞄として説明したが、認識対象は鞄に限らない。また、本質特徴量は、例えば、認識対象に応じて適宜設定することができる。例えば、認識対象が人間の場合、本質特徴量を服の色に関連する特徴量としてもよい。また、認識対象が動物の場合、本質特徴量を体の色に関連する特徴量としてもよい。

また、以上説明した本実施形態によれば、本質特徴量抽出部１０５は、カメラ２０Ｃにて取得された画像データに基づく対象画像データから、その対象画像データに写る被写体に関する複数の要素のそれぞれに関係する複数の特徴量のうち、カメラ２０Ｃの撮影条件から独立した要素に関係する特徴量を本質特徴量として抽出する。データベース比較部１０６は、カメラ２０Ｃとは別のカメラ２０Ａ及び２０Ｂにて取得された画像データに基づく参照画像データから抽出された本質特徴量である登録特徴量とを比較し、その比較結果に基づいて、被写体を特定する。したがって、カメラ２０Ｃの撮影条件から独立した要素に関係する特徴量に基づいて被写体が特定されるため、教師データの収集に係る時間とコストを軽減しつつ、認識精度を向上させることが可能になる。

また、本実施形態では、本質特徴量は、被写体の色に関する特徴量及び被写体の形状に関する特徴量の少なくとも一方である。このため、適切な特徴量を本質特徴量として抽出することが可能となる。

また、本実施形態では、データベース比較部１０６は、登録特徴量を参照画像データに写る参照被写体ごとに登録した本質特徴量データベースの中で本質特徴量との類似度が最も高い登録特徴量に対応する参照被写体を認識対象として特定する。このため、認識対象をより適切に特定することが可能になる。

また、本実施形態では、データベース比較部１０６は、類似度が最も高い登録特徴量における当該類似度が所定値よりも高い場合、当該登録特徴量に対応する参照被写体を認識対象として特定する。このため、認識対象をより適切に特定することが可能になる。

また、本実施形態では、画像処理部１０３は、認識対象が指定被写体と同一の場合、対象画像データの元となる画像データに対して指定被写体が写る領域を強調する画像処理を行う。ユーザインタフェース１０１又は通信部１０２は、画像処理が行われた画像データを出力する。この場合、指定被写体をユーザに容易に把握させることが可能となる。

また、本実施形態では、データベース比較部１０６は、参照画像データから抽出された本質特徴量を登録特徴量として本質特徴量データベースに登録していく。このため、データベースの構築及び更新をリアルタイムで行うことが可能となり、空港内の鞄を認識する場合などでも適切に被写体を特定することが可能になる。

また、本実施形態では、ドメイン適応部１０４は、対象画像データのドメイン共通要素を抽出する。データベース比較部１０６は、本質特徴量の比較結果と、ドメイン共通要素と参照画像データから抽出されたドメイン共通要素である登録共通要素とを比較したドメイン比較結果とに基づいて、認識対象を特定する。このため、被写体をより適切に特定することが可能になる。

また、本実施形態では、データベース比較部１０６は、ドメイン共通要素との類似度が最も高い登録共通要素とドメイン共通要素との一致率に関する所定の精度条件が満たされる場合、その類似度が最も高い登録共通要素に対応する参照被写体を被写体として特定し、精度条件が満たされない場合、本質特徴量の比較結果に基づいて、被写体を特定する。このため、被写体をより適切に特定することが可能になる。

また、本実施形態では、精度条件は、ドメイン共通要素との類似度が最も高い登録共通要素の類似度が第１の閾値よりも高く、ドメイン共通要素との類似度が２番目に高い登録共通要素の類似度が第１の閾値よりも小さい第２の閾値よりも低いことである。このため、被写体をより適切に特定することが可能になる。

また、本実施形態では、データベース比較部１０６は、参照画像データから抽出されたドメイン共通要素を共通要素データベースに登録していく。このため、共通要素データベースの構築及び更新をリアルタイムで行うことが可能となり、空港内の鞄を認識する場合などでも適切に認識対象を特定することが可能になる。

上述した本開示の実施形態は、本開示の説明のための例示であり、本開示の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本開示の範囲を逸脱することなしに、他の様々な態様で本開示を実施することができる。

例えば、要素の数など（個数、数値、量及び範囲などを含む）は、特に明示した場合及び原理的に明らかに特定の数に限定される場合などを除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。また、各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。また、既存の学習モデルのタイプは任意であり、例えば、深層学習モデルである。

１０：物体認識システム２０：カメラ３０：表示装置１０１：ユーザインタフェース１０２：通信部１０３：画像処理部１０４：ドメイン適応部１０５：本質特徴量抽出部１０６：データベース比較部１０７：モデル学習部１０８：推定部

Claims

所定の撮影装置にて取得された画像データに基づく対象画像データに写る被写体を特定する物体認識システムであって、
前記対象画像データから、当該対象画像データに写る被写体に関する複数の要素のそれぞれに関係する複数の特徴量のうち、前記撮影装置の撮影条件から独立した要素に関係する特徴量を本質特徴量として抽出する抽出部と、
前記本質特徴量と、前記撮影装置とは別の撮影装置にて取得された画像データに基づく参照画像データから抽出された前記本質特徴量である登録特徴量とを比較し、当該比較結果に基づいて、前記被写体を特定する比較部と、を有する物体認識システム。
前記本質特徴量は、前記被写体の色に関する特徴量及び前記被写体の形状に関する特徴量の少なくとも一方である、請求項１に記載の物体認識システム。
前記比較部は、前記登録特徴量を前記参照画像データに写る参照被写体ごとに登録した本質特徴量データベースの中で前記本質特徴量との類似度が最も高い登録特徴量に対応する参照被写体を前記被写体として特定する、請求項１に記載の物体認識システム。
前記比較部は、前記類似度が最も高い登録特徴量における当該類似度が所定値よりも高い場合、当該登録特徴量に対応する参照被写体を前記被写体として特定する、請求項３に記載の物体認識システム。
前記被写体が予め指定された前記参照被写体である指定被写体と同一の場合、前記対象画像データの元となる画像データに対して前記指定被写体が写る領域を強調する画像処理を行う画像処理部と、
前記画像処理が行われた画像データを出力する出力部と、をさらに有する、請求項３に記載の物体認識システム。
前記抽出部は、前記参照画像データごとに、当該参照画像データから前記本質特徴量を抽出し、
前記比較部は、前記参照画像データから抽出された本質特徴量を前記登録特徴量として前記本質特徴量データベースに登録する、請求項３に記載の物体認識システム。
前記撮影装置及び前記別の撮影装置のそれぞれにて取得された画像データに基づいて学習されたドメイン適応ネットワークに対して前記対象画像データを入力して、当該対象画像データの前記撮影装置及び前記別の撮影装置の撮影条件に共通した特徴を示すドメイン共通要素を抽出するドメイン適応部をさらに有し、
前記比較部は、前記比較結果と、前記ドメイン共通要素と前記参照画像データから抽出された前記ドメイン共通要素である登録共通要素とを比較したドメイン比較結果とに基づいて、前記被写体を特定する、請求項１に記載の物体認識システム。
前記比較部は、前記登録共通要素を前記参照画像データに写る参照被写体ごとに登録した共通要素データベースの中で前記ドメイン共通要素との類似度が最も高い登録共通要素と、当該ドメイン共通要素との一致率に関する所定の精度条件が満たされる場合、当該類似度が最も高い登録共通要素に対応する前記参照被写体を前記被写体として特定し、前記精度条件が満たされない場合、前記比較結果に基づいて、前記被写体を特定する、請求項７に記載の物体認識システム。
前記精度条件は、前記ドメイン共通要素との類似度が最も高い登録共通要素の類似度が第１の閾値よりも高く、前記ドメイン共通要素との類似度が２番目に高い登録共通要素の類似度が前記第１の閾値よりも小さい第２の閾値よりも低いことである、請求項８に記載の物体認識システム。
前記ドメイン適応部は、参照画像データごとに、当該参照画像データから前記ドメイン共通要素を抽出し、
前記比較部は、前記参照画像データから抽出されたドメイン共通要素を前記登録共通要素として前記共通要素データベースに登録する、請求項８に記載の物体認識システム。
所定の撮影装置にて取得された画像データに基づく対象画像データに写る被写体を特定する物体認識システムによる物体認識方法であって、
前記対象画像データから、当該対象画像データに写る被写体に関する複数の要素のそれぞれに関係する複数の特徴量のうち、前記撮影装置の撮影条件から独立した要素に関係する特徴量を本質特徴量として抽出し、
前記本質特徴量と、前記撮影装置とは別の撮影装置にて取得された画像データに基づく参照画像データから抽出された前記本質特徴量である登録特徴量とを比較し、当該比較結果に基づいて、前記被写体を特定する、物体認識方法。