JP2022180887A - 物体認識システム及び物体認識方法 - Google Patents
物体認識システム及び物体認識方法 Download PDFInfo
- Publication number
- JP2022180887A JP2022180887A JP2021087636A JP2021087636A JP2022180887A JP 2022180887 A JP2022180887 A JP 2022180887A JP 2021087636 A JP2021087636 A JP 2021087636A JP 2021087636 A JP2021087636 A JP 2021087636A JP 2022180887 A JP2022180887 A JP 2022180887A
- Authority
- JP
- Japan
- Prior art keywords
- image data
- feature amount
- subject
- registered
- common element
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 27
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 239000000284 extract Substances 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 40
- 230000006978 adaptation Effects 0.000 claims description 23
- 238000003384 imaging method Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000000354 decomposition reaction Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000007689 inspection Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 240000004050 Pentaglottis sempervirens Species 0.000 description 1
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
【課題】教師データの収集に係る時間とコストを軽減しつつ、認識精度を向上させることが可能な物体認識システムを提供する。
【解決手段】本質特徴量抽出部105は、所定のカメラ20にて取得された画像データに基づく対象画像データから、その対象画像データに写る被写体に関する複数の要素のそれぞれに関係する複数の特徴量のうち、カメラ20の撮影条件から独立した要素に関係する特徴量を本質特徴量として抽出する。データベース比較部106は、所定のカメラ20とは別のカメラ20にて取得された画像データに基づく参照画像データから抽出された本質特徴量である登録特徴量とを比較し、その比較結果に基づいて、被写体を特定する。
【選択図】図1
【解決手段】本質特徴量抽出部105は、所定のカメラ20にて取得された画像データに基づく対象画像データから、その対象画像データに写る被写体に関する複数の要素のそれぞれに関係する複数の特徴量のうち、カメラ20の撮影条件から独立した要素に関係する特徴量を本質特徴量として抽出する。データベース比較部106は、所定のカメラ20とは別のカメラ20にて取得された画像データに基づく参照画像データから抽出された本質特徴量である登録特徴量とを比較し、その比較結果に基づいて、被写体を特定する。
【選択図】図1
Description
本開示は、物体認識システム及び物体認識方法に関する。
公共空間における安全を担保するために、監視カメラで取得された映像をモニタリングして、不審物又は不審者のような認識対象を特定することが行われている。従来、監視カメラで取得された映像のモニタリングは、監視員により目視で行われていたが、一度に監視できる映像の数に限界があるなどの問題がある。これに対して、近年では、機械学習などの手法を用いて、映像から所望の認識対象を自動的に認識する物体認識技術が注目されている。
機械学習を用いた物体認識技術では、既に設置されている監視カメラごとに、認識対象が写った大量の画像データを教師データ(学習用データ)として用いて学習を行った学習済みモデルを生成することで、認識対象を精度良く認識することが可能となる。しかしながら、特定の監視カメラで取得された画像データを教師データとして生成した学習済みモデルを新しく設置した監視カメラのような別の監視カメラで取得された画像データに対して適用すると、不適切な認識結果が得られてしまうことがある。
上記の問題を解消するためには、別の監視カメラで取得された画像データを教師データとして大量に収集し、それらの画像データに基づいて学習済みモデルに対する再学習を実行することが考えられる。しかしながら、この方法では、教師データの収集に時間とコストがかかるという問題がある。
特許文献1には、教師データの収集に係る時間とコストを低減することが可能な物体認識システムが開示されている。この物体認識システムは、駐車スペースを占有する車両を監視するために車両を認識するシステムであり、監視カメラの車両に対する視点が変化しても車両を適切に特定するために、視点が異なる監視カメラで取得された画像データ間の特徴量の分布を調整するドメイン適応が行われている。このため、視点が異なる画像データを教師データとして大量に収集しなくてもよくなるため、教師データの収集に係る時間とコストを軽減することが可能となる。
しかしながら、ドメイン適応では、学習済みモデルがカメラの視点などに依存しないように、画像の特徴量の分布を補正することに主眼が置かれているため、認識対象の細かな差異を学習できる保証はない。このため、空港における手荷物の受取場所などで個人が所有する様々な鞄を認識するようなタスクなどにおいては、十分な認識精度を担保することができない恐れがある。
本開示の目的は、教師データの収集に係る時間とコストを軽減しつつ、認識精度を向上させることが可能な物体認識システム及び物体認識方法を提供することにある。
本開示の一態様に従う物体認識システムは、所定の撮影装置にて取得された画像データに基づく対象画像データに写る被写体を特定する物体認識システムであって、前記対象画像データから、当該対象画像データに写る被写体に関する複数の要素のそれぞれに関係する複数の特徴量のうち、前記撮影装置の撮影条件から独立した要素に関係する特徴量を本質特徴量として抽出する抽出部と、前記本質特徴量と、前記撮影装置とは別の撮影装置にて取得された画像データに基づく参照画像データから抽出された前記本質特徴量である登録特徴量とを比較し、当該比較結果に基づいて、前記被写体を特定する比較部と、を有する。
本発明によれば、教師データの収集に係る時間とコストを軽減しつつ、認識精度を向上させることが可能になる。
以下、本開示の実施形態について図面を参照して説明する。
図1は、本開示の一実施形態の物体認識システムの機能的な構成を示す図である。物体認識システム10は、画像データを取得する撮影装置であるカメラ20と、種々の情報を表示する表示装置30とにネットワーク40を介して相互に通信可能に接続されている。図1の例では、カメラ20を2つ、表示装置30を1つ示しているが、カメラ20及び表示装置30の数は、この例に限定されない。また、物体認識システム10、カメラ20及び表示装置30の接続方式は、有線方式でもよいし、無線方式でもよい。
物体認識システム10は、図1に示すように、ユーザインタフェース101と、通信部102と、画像処理部103と、ドメイン適応部104と、本質特徴量抽出部105と、データベース比較部106と、モデル学習部107と、推定部108とを有する。
ユーザインタフェース101は、ユーザから種々の情報を受け付ける機能と、ユーザに対して種々の情報を出力する機能とを有する。
通信部102は、ネットワーク40を介してカメラ20及び表示装置30のような外部装置と通信する。例えば、通信部102は、カメラ20から画像データを受信したり、表示情報を表示装置30に送信したりする。
画像処理部103は、通信部102にて受信された画像データに対して種々の画像処理を行う。例えば、画像処理部103は、画像データから、所定の被写体が写っている領域を示す部分画像データを抽出する抽出処理を行う。また、画像処理部103は、画像データに対して特定の被写体を強調する強調処理を行ってもよい。
ドメイン適応部104は、互いに異なる撮影条件(画角及び背景など)を有する複数のカメラ20のそれぞれにて取得された画像データに基づいて学習されたドメイン適応ネットワークに対して、被写体を特定する対象となる画像データである対象画像データを入力して、対象画像データのドメイン共通要素を抽出するドメイン適応処理を実行する。対象画像データは、カメラ20のいずれかにて取得された画像データに基づくデータであり、本実施形態では、画像処理部103が抽出処理にて画像データから抽出した部分画像データである。また、ドメイン共通要素は、対象画像データの各カメラ20の撮影条件に共通した特徴を示す特徴量であり、例えば、ベクトル情報である。
本質特徴量抽出部105は、対象画像データから、その対象画像データに写る被写体である認識対象に関する複数の要素のそれぞれに関係する複数の特徴量のうち、その対象画像データを取得したカメラ20の撮影条件から独立した要素に関係する特徴量を本質特徴量として抽出する抽出部である。本質特徴量は、例えば、ベクトル情報である。
データベース比較部106は、ドメイン共通要素及び本質特徴量に関するデータベースと、ドメイン適応部104及び本質特徴量抽出部105にて抽出されたドメイン共通要素及び本質特徴量とを比較し、その比較結果に基づいて、対象画像データに写る認識対象を特定する比較部である。
モデル学習部107は、所定の対象物を写した画像データを教師データとして用いて、画像データに所定の被写体が写されているか否かを推定する機能を学習した物体認識モデルを生成する。
推定部108は、モデル学習部107にて生成された物体認識モデルを用いて、所定の入力画像データに所定の対象物が写っているか否かを推定する。
図2は、物体認識システム10のハードウェア構成の一例を示す図である。図2に示すように、物体認識システム10は、プロセッサ151と、メモリ152と、通信装置153と、補助記憶装置154と、入力装置155と、出力装置156とを有し、各ハードウェア151~156は、システムバス157を介して相互に通信可能に接続されている。
プロセッサ151は、コンピュータプログラムを読み取り、その読み取ったコンピュータプログラムを実行することで、図1に示した各機能部101~108を実現する。メモリ152は、プロセッサ151にて実行されるコンピュータプログラム及びプロセッサ151にて使用される種々のデータを格納する。通信装置153は、図1に示したカメラ20及び表示装置30のような外部装置と通信を行う。補助記憶装置154は、HDD(Hard Disk Drive)、SSD(Solid State Drive)及びフラッシュメモリなどであり、種々のデータを永続的に記憶する。上述したデータベースは、例えば、補助記憶装置154に記憶される。入力装置155は、例えば、例えば、キーボード、マウス及びタッチパネルなどであり、ユーザからの操作を受け付ける。出力装置156は、例えば、モニタ及びプリンタなどであり、ユーザに対して種々のデータを出力する。
なお、プロセッサ151にて実行されるコンピュータプログラムは、コンピュータにて読み取り可能な非一時的な記録媒体158に記録されてもよい。記録媒体158の種類は特に限定されないが、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD、光ディスク、光磁気ディスク、CD-R、磁気テープ又は不揮発性のメモリカードなどである。また、コンピュータプログラムにて実現される機能の少なくとも一部が、例えば集積回路で設計するなどによりハードウェアにて実現されてもよい。
また、本システムは、物理的な計算機システム(一つ以上の物理的な計算機)でもよいし、クラウド基盤のような計算リソース群(複数の計算リソース)上に構築されたシステムでもよい。計算機システムあるいは計算リソース群は、1以上のインタフェース装置(例えば通信装置及び入出力装置を含む)、1以上の記憶装置(例えば、メモリ(主記憶)及び補助記憶装置を含む)、及び、1以上のプロセッサを含む。
図3は、物体認識システム10を運用する運用環境の一例を示す図である。図3では、物体認識システム10を空港における手荷物の受取場所にて運用した例が示されている。
空港における手荷物の受取場所200には、飛行機で運搬された手荷物である鞄300を所有者に渡すために、鞄300をバックヤードから運搬するベルトコンベア201が設けられている。また、ベルトコンベア201の途中には、鞄300の内容物を検査するための検査装置202が設けられている。検査装置202は、例えば、X線検査装置であり、鞄300を開封することなく、鞄300の内容物を写した透視画像データを取得する。
物体認識システム10及び表示装置30は、例えば、空港の管理部門などに設置される。また、カメラ20は、鞄300が画像データに写るように受取場所200などに設置される。図3の例では、カメラ20として、カメラ20A~20Cが設置されている。カメラ20A及び20Bは、ベルトコンベア201上の鞄300が撮影可能なように設置される。カメラ20Cは、所有者が受け取った鞄300が撮影可能なように設置される。例えば、カメラ20Cは、ベルトコンベア201付近における所有者による鞄300の受け取りの様子を写したり、受取場所200全体を俯瞰するように写したりするように設置される。なお、カメラ20は、適宜追加さてもよい。
検査装置202で取得された透視画像データは表示装置30又は物体認識システム10の出力装置156に表示される。空港の監視員は、表示された透視画像データ確認し、刃物などの危険物又は不審物が鞄300に入っていると判断すると、その鞄300を追跡対象として指定する。追跡対象を指定する指定方法といえては、例えば、カメラ20Aが取得した画像データから、透視画像データにて内容物が写されている鞄300を、入力装置155を介して指定する方法などが挙げられる。
この場合、物体認識システム10は、追跡対象として指定された鞄300を指定被写体として設定する。例えば、物体認識システムは、鞄300を識別するIdに対して、指定被写体である旨の情報を設定する。なお、Idについては後述する。
また、物体認識システム10は、カメラ20B及び20Cが取得した画像データから鞄300を特定する認識処理を実行し、その認識処理の結果である認識結果を、ユーザインタフェース101を用いて出力装置156に出力したり、通信部102を用いて表示装置30に出力したりする。このとき、特定した鞄300が指定被写体と同一の場合、物体認識システム10は、元の画像データに対して認識結果を重畳することで、指定された鞄300とその所有者を容易に追跡することができる。
なお、物体認識システム10は、監視員を介さずに検査装置202と直接連携してもよい。例えば、物体認識システム10の推定部108は、危険物及び不審物を所定の対象物とした物体認識モデルを用いて、透視画像データに対象物が写っているか否かを推定する。対象物が写っている場合、推定部108は、対象物が写っている透視画像データに対応する鞄300を指定被写体として設定する。この場合、監視員の負担又は監視員の数を低減することが可能となり、運用コストの削減が可能となる。
このように物体認識システム10を手荷物の受取場所に適用した場合、カメラ20A及び20Bにて取得される画像データのようにベルトコンベアを背景とする画像データは大量に収集することができるが、カメラ20Cにて取得される画像データは、カメラ20Cが設置される受取場所、及び、受取場所内の設置位置などに応じて背景及び画角などの撮影条件が変わるため、同等な画像を大量に収集することが難しい。このため、従来の機械学習の手法を用いると、例えば、空港内に新しい受取場所が設けられた場合、カメラ20A及び20Bにて取得される画像と同等な画像を十分に収集できているとしても、カメラ20Cにて取得される画像と同等な画像を十分に用意できないことがある。以下では、このような状況においても、認識対象を精度良く認識することが可能な物体認識システム10の動作及び機能などについて説明する。
図4は、物体認識システム10が認識対象を検出する認識処理の一例を説明するためのフローチャートである。
認識処理では、先ず、物体認識システム10の画像処理部103は、所定のカメラ20(図3の例では、新しく設置したカメラ20C)にて取得された画像データを、通信部102を介して取得し、その画像データから所定の被写体(図3の例では、鞄300)を写した領域を示す部分画像データを対象画像データとして抽出する(ステップS301)。なお、対象画像データを抽出する元の画像データに所定の被写体が複数写っている場合、画像処理部103は、その複数の被写体のそれぞれに対応する複数の対象画像データを抽出する。
続いて、ドメイン適応部104は、対象画像データに対してドメイン適応処理を実行して、対象画像データからドメイン共通要素を抽出する(ステップS302)。データベース比較部106は、ドメイン適応部104にて抽出されたドメイン共通要素を、ドメイン共通要素に関するデータベースである共通要素データベースと比較する(ステップS303)。
図5は、ステップS302及びS303の処理をより詳細に説明するための図である。
図5に示すように共通要素データベース500には、所定の被写体である鞄300を識別するId501ごとに、その鞄300を示す画像データから抽出したドメイン共通要素である登録共通要素502が格納されている。登録共通要素502を抽出する画像データは、所定のカメラ20であるカメラ20Cとは別のカメラ20A及びBの少なくとも一方にて取得された画像データに基づく参照画像データである。なお、共通要素データベース500に対する登録共通要素502の登録方法については、図12を用いて後述する。
先ず、ステップS302では、ドメイン適応部104は、対象画像データ510を、ドメイン共通要素を抽出する機能を学習したドメイン適応ネットワーク520に入力することで、対象画像データ510からドメイン共通要素530を抽出し、そのドメイン共通要素530をデータベース比較部106に入力する。ドメイン適応ネットワーク520は、カメラ20A~20Cにて取得された画像データに基づいて学習した学習済みモデルである。
図6は、ドメイン適応ネットワーク520の学習方法の一例を説明するための図である。図6に示すようにドメイン適応ネットワーク520を学習させる際には、対象画像データを取得するカメラと同じカメラ20Cで取得した新カメラ画像データ601と、カメラ20A及び20Bで取得した旧カメラ画像データ602とを教師データとして用いる。新カメラ画像データ601は、少量でもよい。旧カメラ画像データ602は多量であることが好ましく、例えば、使用可能な画像の全てでもよい。
ドメイン適応ネットワーク610の学習では、新カメラ画像データ601及び旧カメラ画像データ602を学習前のドメイン適応ネットワーク610に入力し、ドメイン適応ネットワーク610から出力されたドメイン共通要素611に基づいて算出される3つの異なる損失関数を使用してドメイン適応ネットワーク610のパラメータを調整することで、学習済みのドメイン適応ネットワーク610を生成する。
図6の例では、3つの損失関数を、クロスエントロピーに基づく損失関数(Cross Entropy Loss)、d-SNE(T-distributed Stochastic Neighbor Embedding)に基づいて修正されたHausdorffian距離に基づく損失関数(VAT(Virtual Adversarial Training) Loss)、及び、弁別結果に基づく損失関数(Discriminator Loss)である。クロスエントロピーに基づく損失関数及びd-SNEに基づいて修正されたHausdorffian距離に基づく損失関数は、新カメラ画像データ601及び旧カメラ画像データ602のそれぞれから得られたドメイン共通要素611を分類器612で分類した分類結果hθ(Xs)に基づいて計算される。また、弁別結果の出力に基づく損失関数は、新カメラ画像データ601及び旧カメラ画像データ602のそれぞれから得られたドメイン共通要素611を弁別器613で弁別した弁別結果に基づいて計算される。
図5の説明に戻る。データベース比較部106は、ステップS303において、ドメイン共通要素530と共通要素データベース500に登録されている登録共通要素502とをId501ごとに比較して、ドメイン共通要素530と登録共通要素502との類似度をId501ごとに算出する。データベース比較部106は、それらの類似度をId502ごとに示す情報をドメイン比較結果として生成する。類似度は、例えば、ユークリッド距離のような古典的なメトリック距離である。
図4の説明に戻る。データベース比較部106は、ドメイン比較結果に基づいて、ドメイン共通要素530と、そのドメイン共通要素530に最も類似した登録共通要素502との一致率に関する所定の精度条件が満たされるか否かを判断する(ステップS304)。精度条件は、本実施形態では、ドメイン共通要素530に最も類似した登録共通要素502の類似度が第1の閾値よりも高く、ドメイン共通要素に2番目に類似した登録共通要素502が第2の閾値よりも低いことである。このとき、類似度は0から1の範囲の値に正規化されてもよい。正規化された類似度は、1に近いほど、類似していることを示す。この場合、第1の閾値は、例えば、0.8であり、第2の閾値は、第1の閾値よりも小さく、例えば、0.3である。
なお、精度条件は、上記の例に限らず、例えば、ドメイン共通要素530に最も類似した登録共通要素502の類似度が第1の閾値よりも高いことなどでもよい。
精度条件が満たされない場合、本質特徴量抽出部105は、対象画像データに対して本質特徴量抽出処理を実行して、対象画像データから本質特徴量を抽出する(ステップS305)データベース比較部106は、本質特徴量抽出部105にて抽出された本質特徴量を、本質特徴量に関するデータベースである本質特徴量データベースと比較する(ステップS306)。
図7は、ステップS305及び306の処理をより詳細に説明するための図である。
図7に示すように本質特徴量データベース700には、所定の被写体である鞄300を識別するId701ごとに、その鞄300を示す画像データから抽出した本質特徴量である登録特徴量702が格納されている。Id701は、図5に示したId501の共通でもよい。登録特徴量702を抽出する画像データは、所定のカメラ20であるカメラ20Cとは別のカメラ20A及びBの少なくとも一方にて取得された画像データに基づく参照画像データである。なお、本質特徴量データベース700に対する登録特徴量702の登録方法については、図12を用いて後述する。
先ず、ステップS305では、本質特徴量抽出部105は、対象画像データ510を、要素分解特徴量を抽出する機能を学習した要素分解ネットワーク720に入力することで、対象画像データ510から要素分解特徴量730を抽出する。
要素分解ネットワーク720は、例えば、オートエンコーダニューラルネットワークである。オートエンコーダニューラルネットワークは、画像データに写る被写体に関する複数の要素のそれぞれに関係する特徴量のもつれを解く要素分解(Disentanglement)特性を有するように構成されており、要素別に特徴量を含む要素分解特徴量を出力することができる。要素分解ネットワーク720(オートエンコーダニューラルネットワーク)は、例えば、学習済みのベータVAE(Valuable Auto Encoder)の組み合わせで構成される。
図8は、学習済みのベータVAEの組み合わせで構成された要素分解ネットワークの一例を示す図である。ベータVAEは、要素分解特性を有することで知られており、例えば、対象画像データ510の特徴量を、色に関係する特徴量と他の特徴量とに分解して出力するように学習させることができる。本実施形態では、図8に示すように学習済みのベータVAEの組み合わせで構成される要素分解ネットワーク720は、形状に関係する形状関係特徴量、色に関係する色関係特徴量、ポーズ(回転)に関係するポーズ関係特徴量、及び、他の要素に関係する他の特徴量を示す特徴量ベクトルを要素分解特徴量730として出力する。
本質特徴量抽出部105は、要素分解特徴量730のうち、対象画像データ510を取得するカメラ20Cの撮影条件に応じて変化するポーズ関係特徴量と、他の特徴量とはカメラ20Cの撮影条件に依存した非本質特徴量741として破棄し、色関係特徴量及び形状関係特徴量をカメラ20Cの撮影条件から独立した、被写体に固有の特徴量である本質特徴量740としてデータベース比較部106に入力する。
図7の説明に戻る。データベース比較部106は、ステップS306において、本質特徴量740と本質特徴量データベース700に登録されている登録特徴量702とをId701ごとに比較して、本質特徴量740と登録特徴量702との類似度をId701ごとに算出する。データベース比較部106は、それらの類似度をId702ごとに示す情報を本質比較結果として生成する。類似度は、例えば、ユークリッド距離のような古典的なメトリック距離である。
図4の説明に戻る。データベース比較部106は、ステップS303にて生成したドメイン比較結果及びステップS306にて生成した本質比較結果に基づいて、対象画像に写る認識対象が指定被写体(追跡対象)と同一か否かを判定する。ユーザインタフェース101又は通信部102である出力部は、その判定結果を認識結果として出力して(ステップS307)、処理を終了する。
具体的には、ステップS304で精度条件が満たされたと判定された場合、データベース比較部106は、ドメイン比較結果に基づいて、ドメイン共通要素530に最も類似した登録共通要素502に対応するId502にて識別される鞄300を対象画像データに写された認識対象として特定する。一方、ステップS304で精度条件が満たされていないと判定された場合、データベース比較部106は、本質比較結果に基づいて、本質特徴量740に最も類似した登録特徴量702に対応するId702にて特定される鞄300を対象画像データに写された認識対象として特定する。そして、データベース比較部106は、認識対象が設定された指定被写体と同一か否かを判定する。
判定結果の出力方法は、ユーザインタフェース101が出力装置156に表示する方法、及び、通信部102が表示装置30に出力する方法などが挙げられる。また、認識対象が指定被写体と同一の場合、画像処理部103は、指定被写体を写した対象画像データの元の画像データに対して、指定被写体を強調する強調処理を行い、その強調処理を行った画像データを判定結果として出力してもよい。
図9及び図10は、表示装置30における判定結果の表示例を示す図である。
図9の例は、画像処理部103は、対象画像データの元となる画像データ(カメラ20Cが取得した画像データ)に対して、指定被写体の鞄が写る箇所と、その指定被写体の鞄を所持する所持者が写る箇所とを囲う矩形31を重畳することで、指定被写体を強調する強調処理を行った表示例である。この場合、監視員が容易に追跡対象(指定被写体)を特定することができる。なお、強調処理は、指定被写体以外の鞄を破線で示した矩形32で囲み、指定被写体を実線で示した矩形31で囲むものでもよい。
図10の例は、カメラ20Cを含む複数のカメラのそれぞれで取得された複数の画像データを同時に表示する表示例である。いずれの画像データにおいても、指定被写体の鞄の写る箇所を囲う矩形31が重畳されている。
なお、図9で示した表示画面と図10で示した表示画面とは、監視員などのユーザの操作に応じて切り替えられてもよい。例えば、表示装置30にタッチパネルセンサが設けられている場合、図9に示した表示画面がタップされると、図10に示した表示画面が表示され、図10に示した表示画面において画像データのいずれかがタップされると、図9に示したようにタップされた画像データが表示されてもよい。
図11は、データベースを構築する構築処理を説明するためのフローチャートである。
構築処理では、先ず、物体認識システム10の画像処理部103は、カメラ20A及び20Bにて取得された旧カメラ画像データを、通信部102を介して取得する(ステップS501)。
画像処理部103は、旧カメラ画像データに所定の被写体である鞄が写っているか否かを確認する(ステップS502)。
鞄が写っていない場合、画像処理部103は、処理を終了する。一方、鞄が写っている場合、画像処理部103は、旧カメラ画像データから鞄が写っている領域を示す部分画像データを参照画像データとして抽出して、ドメイン適応部104及び本質特徴量抽出部105に出力する(ステップS503)。
ドメイン適応部104は、図4のステップS302と同様に、参照画像データに対してドメイン適応処理を実行して、ベクトル情報であるドメイン共通要素を抽出する。また、本質特徴量抽出部105は、図4のステップS305と同様に、参照画像データに対して本質特徴量抽出処理を実行して、ベクトル情報である本質特徴量を抽出する(ステップS504)。
データベース比較部106は、ステップS504で抽出されたベクトル情報がデータベースに既に登録されているか否かを判定する(ステップS505)。本実施形態では、判定に用いるベクトル情報は、本質特徴量であるとする。この場合、本質特徴量との類似度(例えば、メトリック距離)が所定値以上の登録特徴量が本質特徴量データベースに登録されている場合、ベクトル情報がデータベースに既に登録されていると判定してもよい。なお、判定に用いるベクトル情報は、ドメイン共通要素でもよいし、ドメイン共通要素及び本質特徴量の両方でもよい。
ベクトル情報が登録されている場合、データベース比較部106は、処理を終了する。一方、ベクトル情報が登録されていない場合、データベース比較部106は、参照画像データに写る参照被写体を識別するIdとして、データベースに既に登録されているIdと重複しない新しいIdを生成し、その新しいIdと、ステップS504で抽出されたドメイン共通要素及び本質特徴量とを対応付けてデータベースに登録し(ステップS506)、処理を終了する。
なお、ステップS505の処理を行わずに、抽出したベクトル情報を全てデータベースに登録してもよい。
本実施形態では、認識対象を鞄として説明したが、認識対象は鞄に限らない。また、本質特徴量は、例えば、認識対象に応じて適宜設定することができる。例えば、認識対象が人間の場合、本質特徴量を服の色に関連する特徴量としてもよい。また、認識対象が動物の場合、本質特徴量を体の色に関連する特徴量としてもよい。
また、以上説明した本実施形態によれば、本質特徴量抽出部105は、カメラ20Cにて取得された画像データに基づく対象画像データから、その対象画像データに写る被写体に関する複数の要素のそれぞれに関係する複数の特徴量のうち、カメラ20Cの撮影条件から独立した要素に関係する特徴量を本質特徴量として抽出する。データベース比較部106は、カメラ20Cとは別のカメラ20A及び20Bにて取得された画像データに基づく参照画像データから抽出された本質特徴量である登録特徴量とを比較し、その比較結果に基づいて、被写体を特定する。したがって、カメラ20Cの撮影条件から独立した要素に関係する特徴量に基づいて被写体が特定されるため、教師データの収集に係る時間とコストを軽減しつつ、認識精度を向上させることが可能になる。
また、本実施形態では、本質特徴量は、被写体の色に関する特徴量及び被写体の形状に関する特徴量の少なくとも一方である。このため、適切な特徴量を本質特徴量として抽出することが可能となる。
また、本実施形態では、データベース比較部106は、登録特徴量を参照画像データに写る参照被写体ごとに登録した本質特徴量データベースの中で本質特徴量との類似度が最も高い登録特徴量に対応する参照被写体を認識対象として特定する。このため、認識対象をより適切に特定することが可能になる。
また、本実施形態では、データベース比較部106は、類似度が最も高い登録特徴量における当該類似度が所定値よりも高い場合、当該登録特徴量に対応する参照被写体を認識対象として特定する。このため、認識対象をより適切に特定することが可能になる。
また、本実施形態では、画像処理部103は、認識対象が指定被写体と同一の場合、対象画像データの元となる画像データに対して指定被写体が写る領域を強調する画像処理を行う。ユーザインタフェース101又は通信部102は、画像処理が行われた画像データを出力する。この場合、指定被写体をユーザに容易に把握させることが可能となる。
また、本実施形態では、データベース比較部106は、参照画像データから抽出された本質特徴量を登録特徴量として本質特徴量データベースに登録していく。このため、データベースの構築及び更新をリアルタイムで行うことが可能となり、空港内の鞄を認識する場合などでも適切に被写体を特定することが可能になる。
また、本実施形態では、ドメイン適応部104は、対象画像データのドメイン共通要素を抽出する。データベース比較部106は、本質特徴量の比較結果と、ドメイン共通要素と参照画像データから抽出されたドメイン共通要素である登録共通要素とを比較したドメイン比較結果とに基づいて、認識対象を特定する。このため、被写体をより適切に特定することが可能になる。
また、本実施形態では、データベース比較部106は、ドメイン共通要素との類似度が最も高い登録共通要素とドメイン共通要素との一致率に関する所定の精度条件が満たされる場合、その類似度が最も高い登録共通要素に対応する参照被写体を被写体として特定し、精度条件が満たされない場合、本質特徴量の比較結果に基づいて、被写体を特定する。このため、被写体をより適切に特定することが可能になる。
また、本実施形態では、精度条件は、ドメイン共通要素との類似度が最も高い登録共通要素の類似度が第1の閾値よりも高く、ドメイン共通要素との類似度が2番目に高い登録共通要素の類似度が第1の閾値よりも小さい第2の閾値よりも低いことである。このため、被写体をより適切に特定することが可能になる。
また、本実施形態では、データベース比較部106は、参照画像データから抽出されたドメイン共通要素を共通要素データベースに登録していく。このため、共通要素データベースの構築及び更新をリアルタイムで行うことが可能となり、空港内の鞄を認識する場合などでも適切に認識対象を特定することが可能になる。
上述した本開示の実施形態は、本開示の説明のための例示であり、本開示の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本開示の範囲を逸脱することなしに、他の様々な態様で本開示を実施することができる。
例えば、要素の数など(個数、数値、量及び範囲などを含む)は、特に明示した場合及び原理的に明らかに特定の数に限定される場合などを除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。また、各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。また、既存の学習モデルのタイプは任意であり、例えば、深層学習モデルである。
10:物体認識システム 20:カメラ 30:表示装置 101:ユーザインタフェース 102:通信部 103:画像処理部 104:ドメイン適応部 105:本質特徴量抽出部 106:データベース比較部 107:モデル学習部 108:推定部
Claims (11)
- 所定の撮影装置にて取得された画像データに基づく対象画像データに写る被写体を特定する物体認識システムであって、
前記対象画像データから、当該対象画像データに写る被写体に関する複数の要素のそれぞれに関係する複数の特徴量のうち、前記撮影装置の撮影条件から独立した要素に関係する特徴量を本質特徴量として抽出する抽出部と、
前記本質特徴量と、前記撮影装置とは別の撮影装置にて取得された画像データに基づく参照画像データから抽出された前記本質特徴量である登録特徴量とを比較し、当該比較結果に基づいて、前記被写体を特定する比較部と、を有する物体認識システム。 - 前記本質特徴量は、前記被写体の色に関する特徴量及び前記被写体の形状に関する特徴量の少なくとも一方である、請求項1に記載の物体認識システム。
- 前記比較部は、前記登録特徴量を前記参照画像データに写る参照被写体ごとに登録した本質特徴量データベースの中で前記本質特徴量との類似度が最も高い登録特徴量に対応する参照被写体を前記被写体として特定する、請求項1に記載の物体認識システム。
- 前記比較部は、前記類似度が最も高い登録特徴量における当該類似度が所定値よりも高い場合、当該登録特徴量に対応する参照被写体を前記被写体として特定する、請求項3に記載の物体認識システム。
- 前記被写体が予め指定された前記参照被写体である指定被写体と同一の場合、前記対象画像データの元となる画像データに対して前記指定被写体が写る領域を強調する画像処理を行う画像処理部と、
前記画像処理が行われた画像データを出力する出力部と、をさらに有する、請求項3に記載の物体認識システム。 - 前記抽出部は、前記参照画像データごとに、当該参照画像データから前記本質特徴量を抽出し、
前記比較部は、前記参照画像データから抽出された本質特徴量を前記登録特徴量として前記本質特徴量データベースに登録する、請求項3に記載の物体認識システム。 - 前記撮影装置及び前記別の撮影装置のそれぞれにて取得された画像データに基づいて学習されたドメイン適応ネットワークに対して前記対象画像データを入力して、当該対象画像データの前記撮影装置及び前記別の撮影装置の撮影条件に共通した特徴を示すドメイン共通要素を抽出するドメイン適応部をさらに有し、
前記比較部は、前記比較結果と、前記ドメイン共通要素と前記参照画像データから抽出された前記ドメイン共通要素である登録共通要素とを比較したドメイン比較結果とに基づいて、前記被写体を特定する、請求項1に記載の物体認識システム。 - 前記比較部は、前記登録共通要素を前記参照画像データに写る参照被写体ごとに登録した共通要素データベースの中で前記ドメイン共通要素との類似度が最も高い登録共通要素と、当該ドメイン共通要素との一致率に関する所定の精度条件が満たされる場合、当該類似度が最も高い登録共通要素に対応する前記参照被写体を前記被写体として特定し、前記精度条件が満たされない場合、前記比較結果に基づいて、前記被写体を特定する、請求項7に記載の物体認識システム。
- 前記精度条件は、前記ドメイン共通要素との類似度が最も高い登録共通要素の類似度が第1の閾値よりも高く、前記ドメイン共通要素との類似度が2番目に高い登録共通要素の類似度が前記第1の閾値よりも小さい第2の閾値よりも低いことである、請求項8に記載の物体認識システム。
- 前記ドメイン適応部は、参照画像データごとに、当該参照画像データから前記ドメイン共通要素を抽出し、
前記比較部は、前記参照画像データから抽出されたドメイン共通要素を前記登録共通要素として前記共通要素データベースに登録する、請求項8に記載の物体認識システム。 - 所定の撮影装置にて取得された画像データに基づく対象画像データに写る被写体を特定する物体認識システムによる物体認識方法であって、
前記対象画像データから、当該対象画像データに写る被写体に関する複数の要素のそれぞれに関係する複数の特徴量のうち、前記撮影装置の撮影条件から独立した要素に関係する特徴量を本質特徴量として抽出し、
前記本質特徴量と、前記撮影装置とは別の撮影装置にて取得された画像データに基づく参照画像データから抽出された前記本質特徴量である登録特徴量とを比較し、当該比較結果に基づいて、前記被写体を特定する、物体認識方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021087636A JP2022180887A (ja) | 2021-05-25 | 2021-05-25 | 物体認識システム及び物体認識方法 |
CN202210188916.9A CN115393703A (zh) | 2021-05-25 | 2022-02-28 | 物体识别系统和物体识别方法 |
US17/695,016 US20220383631A1 (en) | 2021-05-25 | 2022-03-15 | Object recognition system and object recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021087636A JP2022180887A (ja) | 2021-05-25 | 2021-05-25 | 物体認識システム及び物体認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022180887A true JP2022180887A (ja) | 2022-12-07 |
Family
ID=84115585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021087636A Pending JP2022180887A (ja) | 2021-05-25 | 2021-05-25 | 物体認識システム及び物体認識方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220383631A1 (ja) |
JP (1) | JP2022180887A (ja) |
CN (1) | CN115393703A (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6025557B2 (ja) * | 2012-12-27 | 2016-11-16 | キヤノン株式会社 | 画像認識装置、その制御方法及びプログラム |
US10497257B2 (en) * | 2017-08-31 | 2019-12-03 | Nec Corporation | Parking lot surveillance with viewpoint invariant object recognition by synthesization and domain adaptation |
FR3094115B1 (fr) * | 2019-03-22 | 2021-02-26 | Idemia Identity & Security France | Procede d’identification de bagages |
-
2021
- 2021-05-25 JP JP2021087636A patent/JP2022180887A/ja active Pending
-
2022
- 2022-02-28 CN CN202210188916.9A patent/CN115393703A/zh active Pending
- 2022-03-15 US US17/695,016 patent/US20220383631A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20220383631A1 (en) | 2022-12-01 |
CN115393703A (zh) | 2022-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6700752B2 (ja) | 位置検出装置、位置検出方法及びプログラム | |
US9462160B2 (en) | Color correction device, method, and program | |
CN104599287B (zh) | 对象跟踪方法和装置、对象识别方法和装置 | |
Gowsikhaa et al. | Suspicious Human Activity Detection from Surveillance Videos. | |
JP5459674B2 (ja) | 移動物体追跡システムおよび移動物体追跡方法 | |
CN105612533A (zh) | 活体检测方法、活体检测系统以及计算机程序产品 | |
CN109727275B (zh) | 目标检测方法、装置、系统和计算机可读存储介质 | |
EP3349142B1 (en) | Information processing device and method | |
US11023714B2 (en) | Suspiciousness degree estimation model generation device | |
WO2020195732A1 (ja) | 画像処理装置、画像処理方法、およびプログラムが格納された記録媒体 | |
JP7145622B2 (ja) | 情報処理装置、情報処理装置の制御方法、被写体検出システム、及び、プログラム | |
JP2018120283A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2019029935A (ja) | 画像処理装置およびその制御方法 | |
CN113297963A (zh) | 多人姿态的估计方法、装置、电子设备以及可读存储介质 | |
CN109889773A (zh) | 评标室人员的监控的方法、装置、设备和介质 | |
JP2022003526A (ja) | 情報処理装置、検出システム、情報処理方法、及びプログラム | |
CN110580708B (zh) | 一种快速移动检测方法、装置及电子设备 | |
JPWO2019215780A1 (ja) | 識別システム、モデル再学習方法およびプログラム | |
JP5318664B2 (ja) | 対象物検知装置 | |
JP2022180887A (ja) | 物体認識システム及び物体認識方法 | |
JP6851246B2 (ja) | 物体検出装置 | |
JP6893812B2 (ja) | 物体検出装置 | |
JP7337541B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
KR101539944B1 (ko) | 객체 식별 방법 | |
KR20210031444A (ko) | 데이터 프로그래밍에 기반한 레이블링 모델 생성 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240307 |