JP7317246B1 - 推論装置、推論方法及び推論プログラム - Google Patents

推論装置、推論方法及び推論プログラム Download PDF

Info

Publication number
JP7317246B1
JP7317246B1 JP2022562622A JP2022562622A JP7317246B1 JP 7317246 B1 JP7317246 B1 JP 7317246B1 JP 2022562622 A JP2022562622 A JP 2022562622A JP 2022562622 A JP2022562622 A JP 2022562622A JP 7317246 B1 JP7317246 B1 JP 7317246B1
Authority
JP
Japan
Prior art keywords
image
feature
inference
unit
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022562622A
Other languages
English (en)
Other versions
JPWO2023074075A1 (ja
Inventor
友哉 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2023074075A1 publication Critical patent/JPWO2023074075A1/ja
Application granted granted Critical
Publication of JP7317246B1 publication Critical patent/JP7317246B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

学習用画像と画像のドメインが異なる場合と、事前学習したタスクと認識タスクの異なる場合とのうち、1つ以上が異なる場合において、検知対象物体が映っている画像である推論対象画像を示す画像信号を取得する画像信号取得部(11)と、画像信号取得部(11)により取得された画像信号を、学習用画像の学習が済んでいる学習モデル(1a)に与えて、学習モデル(1a)から、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である推論時特徴量を取得する特徴量抽出部(12)とを備えるように、推論装置(3)を構成した。また、推論装置(3)は、推論対象画像と画像のドメイン及び認識タスクのそれぞれが同じ対象である変換用画像に映っている検知対象物体の登録済みの特徴量である代表特徴量と特徴量抽出部(12)により取得された推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体を認識する物体認識部(15)を備えている。

Description

本開示は、推論装置、推論方法及び推論プログラムに関するものである。
適合ドメインの学習データが少ない場合に、効率よくニューラルネットワークを学習するものとして、多層ニューラルネットワーク(以下「多層NN」という)を学習する学習装置がある(例えば、特許文献1を参照)。ドメインは、学習データが示す画像の種類を意味し、例えば、RGB画像と赤外線カメラ画像(以下「TIR画像」という)とは、互いに画像の種類が異なる。
当該学習装置は、第1の学習手段と第1の生成手段と第2の学習手段とを備えている。第1の学習手段は、第1のデータ群を用いて第1の多層NNを学習する。第1の生成手段は、第1の多層NNにおける第1の層と、第1の層に後続する第2の層との間に第2の多層NNを生成する。第2の学習手段は、第1のデータ群と特性が異なる第2のデータ群を用いて第2の多層NNを学習する。第1のデータ群及び第2のデータ群のそれぞれは、学習データである。
特開2019-185127号公報
特許文献1に開示されている学習装置では、学習データに対応するタスクと、ニューラルネットワークの出力データを取得して推論を行う推論時のタスクとが異なることがある。例えば、学習データに対応するタスクが画像認識タスクであるとき、推論時のタスクが物体認識タスクであれば、学習データに対応するタスクと推論時のタスクとが異なる。また、学習データが示す画像のドメインと推論時の画像のドメインとが異なることがある。タスク又はドメインのいずれかが異なる場合、推論時のタスクによる推論の精度が劣化してしまうことがあるという課題があった。
本開示は、上記のような課題を解決するためになされたもので、タスク及びドメインのうち、1つ以上が異なる場合でも、推論精度の劣化を抑えることができる推論装置を得ることを目的とする。
本開示に係る推論装置は、学習用画像と画像のドメインが異なる場合と、事前学習したタスクと認識タスクの異なる場合とのうち、1つ以上が異なる場合において、検知対象物体が映っている画像である推論対象画像を示す画像信号を取得する画像信号取得部と、画像信号取得部により取得された画像信号を、学習用画像の学習が済んでいる学習モデルに与えて、学習モデルから、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である推論時特徴量を取得する特徴量抽出部とを備えている。また、推論装置は、推論対象画像と画像のドメイン及び認識タスクのそれぞれが同じ対象である変換用画像に映っている検知対象物体の登録済みの特徴量である代表特徴量と特徴量抽出部により取得された推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体を認識する物体認識部を備えている。
本開示によれば、タスク及びドメインのうち、1つ以上が異なる場合でも、推論精度の劣化を抑えることができる。
実施の形態1に係る推論装置3を示す構成図である。 実施の形態1に係る推論装置3のハードウェアを示すハードウェア構成図である。 推論装置3が、ソフトウェア又はファームウェア等によって実現される場合のコンピュータのハードウェア構成図である。 学習装置6を示す構成図である。 学習装置6のハードウェアを示すハードウェア構成図である。 学習装置6が、ソフトウェア又はファームウェア等によって実現される場合のコンピュータのハードウェア構成図である。 ドメイン変換時の推論装置3の処理手順を示すフローチャートである。 物体認識時の推論装置3の処理手順である推論方法を示すフローチャートである。 実施の形態2に係る推論装置3を示す構成図である。 実施の形態2に係る推論装置3のハードウェアを示すハードウェア構成図である。 実施の形態3に係る推論装置3を示す構成図である。 実施の形態3に係る推論装置3のハードウェアを示すハードウェア構成図である。 実施の形態4に係る推論装置3を示す構成図である。 実施の形態4に係る推論装置3のハードウェアを示すハードウェア構成図である。
以下、本開示をより詳細に説明するために、本開示を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、実施の形態1に係る推論装置3を示す構成図である。
図2は、実施の形態1に係る推論装置3のハードウェアを示すハードウェア構成図である。
図1において、モデル記憶部1は、例えば、ハードディスク、又は、RAM(Random Access Memory)によって実現される。
モデル記憶部1は、学習モデル1aを記憶している。
学習モデル1aは、例えば、多層ニューラルネットワーク(Deep Neural Networks:DNNs)によって実現される。DNNsの中には、畳み込みニューラルネットワークであるCNNs(Convolutional Neural Networks)が含まれる。
学習モデル1aは、学習時に、学習データとして、学習用画像を示す画像信号が与えられて、学習用画像の学習が済んでいる。学習用画像は、例えば、画像認識タスクに用いられる画像である。
学習用画像のドメインである画像の種類は、どのようなものでもよく、学習用画像は、例えば、RGB画像、TIR画像、又は、CGシミュレータによって生成された画像のいずれかである。
図1に示す推論装置3では、説明の便宜上、学習用画像がRGB画像であるものとして説明する。学習モデル1aは、大量のRGB画像が与えられて、RGB画像を学習しているものである。
学習モデル1aは、後述する特徴量抽出部12から、学習用画像と画像のドメイン及び認識タスクのそれぞれが異なる場合において、検知対象物体が映っている画像である変換用画像を示す画像信号が与えられたとき、変換用画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量を示す特徴ベクトルを特徴量抽出部12に出力する。
変換用画像は、学習用画像と画像のドメイン及び認識タスクのうち、1つ以上が異なる画像であればよい。図1に示す推論装置3では、説明の便宜上、変換用画像がTIR画像であるものとして説明する。
学習モデル1aを実現するCNNsは、非常にディープなCNNsである。非常にディープなCNNsとしては、例えば、101層あるResNetがある。このため、例えば物体認識時において、学習モデル1aの入力層に画像信号が与えられたときに、学習モデル1aの出力層から出力される特徴ベクトルが示す特徴量は、高次元特徴量である。高次元特徴量は、複数の次元の特徴量を含むものであり、高次元特徴量を示す特徴ベクトルとしては、例えば、Tensorが用いられる。
学習モデル1aに含まれている複数段の隠れ層のうち、浅い層から出力される低次元特徴量は、例えば、色、輝度、又は、方向を示すものである。このため、低次元特徴量は、入力層に与えられる画像信号が示す画像のドメインに依存する。つまり、RGB画像の画像信号が学習モデル1aの入力層に与えられたときに、学習モデル1aの浅い層から出力される特徴ベクトルが示す特徴量と、TIR画像の画像信号が学習モデル1aの入力層に与えられたときに、学習モデル1aの浅い層から出力される特徴ベクトルが示す特徴量とは、大きく異なることがある。
一方、学習モデル1aの十分に深い中間層から出力される高次元特徴量は、検知対象物体を表現する概念的な特徴を示すものである。このため、高次元特徴量は、入力層に与えられる画像信号が示す画像のドメインへの依存度が極めて低い概念的な情報となる。また、より深い層の高次元特徴を採用することで、タスクへの依存度の低い汎用的な情報を取得することが可能となる。概念的な物体の特徴は、例えば、“Objectness”、又は、“Informativeness”が知られている。
つまり、RGB画像の画像信号が学習モデル1aの入力層に与えられたときに、学習モデル1aの出力層から出力される特徴ベクトルが示す高次元特徴量と、TIR画像の画像信号が学習モデル1aの入力層に与えられたときに、学習モデル1aの出力層から出力される特徴ベクトルが示す高次元特徴量との差異は小さい。
したがって、学習モデル1aがCNNsによって実現されて、推論装置3が、CNNsの十分に深い中間層から出力される特徴ベクトルが示す高次元特徴量を用いる場合、入力層に与えられる画像信号が示す画像のドメインへの依存性と認識タスクへの依存性とが軽減される。
検知対象物体は、例えば、正常又は異常の判別のほか、異常が生じている位置の検出が行われる製品が該当する。具体的には、検知対象物体としては、例えば、回路基板、圧延板、又は、プラスティック成型品がある。
カメラ2は、例えば、赤外線カメラによって実現される。
カメラ2は、検知対象物体を撮影する。
推論装置3が学習時とは異なるドメインの画像を登録する際(以下「ドメイン変換時」という)には、カメラ2は、検知対象物体が映っている変換用画像を示す画像信号として、例えば検知対象物体が映っているTIR画像を示す画像信号を推論装置3に出力する。
推論装置3が検知対象物体を認識する際(以下「物体認識時」という)には、カメラ2は、検知対象物体が映っている推論対象画像を示す画像信号として、例えば検知対象物体が映っているTIR画像を示す画像信号を推論装置3に出力する。
図1では、カメラ2が、変換用画像を示す画像信号を推論装置3に出力している。しかし、これは一例に過ぎず、検知対象物体が映っている変換用画像を示す画像信号を記憶している図示せぬ記憶部から、当該画像信号が推論装置3に出力されるものであってもよい。
推論装置3は、画像信号取得部11、特徴量抽出部12、代表特徴量登録部13、代表特徴量記憶部14及び物体認識部15を備えている。
図1に示す推論装置3では、モデル記憶部1が推論装置3の外部に設けられている。しかし、これは一例に過ぎず、例えば、モデル記憶部1が推論装置3の内部に設けられていてもよいし、学習モデル1aが特徴量抽出部12に内蔵されていてもよい。
画像信号取得部11は、例えば、図2に示す画像信号取得回路21によって実現される。
ドメイン変換時には、画像信号取得部11は、カメラ2から、検知対象物体が映っている変換用画像を示す画像信号を取得する。
そして、画像信号取得部11は、変換用画像を示す画像信号を特徴量抽出部12に出力する。
物体認識時には、画像信号取得部11は、カメラ2から、検知対象物体が映っている推論対象画像を示す画像信号を取得する。
そして、画像信号取得部11は、推論対象画像を示す画像信号を特徴量抽出部12に出力する。
変換用画像と推論対象画像とは、画像のドメインが同じであり、例えば共にTIR画像である。
特徴量抽出部12は、例えば、図2に示す特徴量抽出回路22によって実現される。
ドメイン変換時には、特徴量抽出部12は、画像信号取得部11により取得された画像信号を学習モデル1aに与えて、学習モデル1aから、変換用画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である代表特徴量を示す特徴ベクトルを取得する。
特徴量抽出部12は、特徴ベクトルを代表特徴量登録部13に出力する。
物体認識時には、特徴量抽出部12は、画像信号取得部11により取得された画像信号を学習モデル1aに与えて、学習モデル1aから、推論対象画像に映っている検知対象物体の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である推論時特徴量を示す特徴ベクトルを取得する。
特徴量抽出部12は、特徴ベクトルを物体認識部15に出力する。
複数の特徴量のそれぞれをぼかす処理としては、“Pooling Operation”が知られている。
代表特徴量登録部13は、例えば、図2に示す代表特徴量登録回路23によって実現される。
代表特徴量登録部13は、特徴量抽出部12により取得された代表特徴量を登録する。
即ち、代表特徴量登録部13は、特徴量抽出部12から、代表特徴量を示す特徴ベクトルを取得し、特徴ベクトルを代表特徴量記憶部14に記憶させる。
代表特徴量記憶部14は、例えば、図2に示す代表特徴量記憶回路24によって実現される。
代表特徴量記憶部14は、代表特徴量を示す特徴ベクトルを記憶する。
物体認識部15は、例えば、図2に示す物体認識回路25によって実現される。
物体認識部15は、特徴量抽出部12から、推論対象画像に映っている検知対象物体の推論時特徴量を示す特徴ベクトルを取得し、代表特徴量記憶部14から、代表特徴量を示す特徴ベクトルを取得する。
物体認識部15は、代表特徴量と推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体を認識する。
具体的には、物体認識部15は、代表特徴量を示す特徴ベクトルと推論時特徴量を示す特徴ベクトルとの類似度を算出して、類似度に基づいて、推論対象画像に映っている検知対象物体を認識する。さらに、具体的には、物体認識部15は、類似度と閾値とを比較する。そして、物体認識部15は、類似度と閾値との比較結果に基づいて、検知対象物体の認識として、例えば、推論対象画像に映っている検知対象物体が正常であるのか異常であるのかを認識する。また、物体認識部15は、検知対象物体の認識として、例えば、検知対象物体を複数のクラスに分類する。
物体認識部15は、検知対象物体の認識結果を示す表示データを生成し、表示データを表示装置4に出力する。
表示装置4は、物体認識部15から出力された表示データに従って、検知対象物体の認識結果を図示せぬディスプレイに表示させる。
図1では、推論装置3の構成要素である画像信号取得部11、特徴量抽出部12、代表特徴量登録部13、代表特徴量記憶部14及び物体認識部15のそれぞれが、図2に示すような専用のハードウェアによって実現されるものを想定している。即ち、推論装置3が、画像信号取得回路21、特徴量抽出回路22、代表特徴量登録回路23、代表特徴量記憶回路24及び物体認識回路25によって実現されるものを想定している。
代表特徴量記憶回路24は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)等の不揮発性又は揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、あるいは、DVD(Digital Versatile Disc)が該当する。
画像信号取得回路21、特徴量抽出回路22、代表特徴量登録回路23及び物体認識回路25のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、又は、これらを組み合わせたものが該当する。
推論装置3の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、推論装置3が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
ソフトウェア又はファームウェアは、プログラムとして、コンピュータのメモリに格納される。コンピュータは、プログラムを実行するハードウェアを意味し、例えば、CPU(Central Processing Unit)、GPU(Graphical Processing Unit)、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサ、あるいは、DSP(Digital Signal Processor)が該当する。
図3は、推論装置3が、ソフトウェア又はファームウェア等によって実現される場合のコンピュータのハードウェア構成図である。
推論装置3が、ソフトウェア又はファームウェア等によって実現される場合、代表特徴量記憶部14がコンピュータのメモリ31上に構成される。画像信号取得部11、特徴量抽出部12、代表特徴量登録部13及び物体認識部15におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムがメモリ31に格納される。そして、コンピュータのプロセッサ32がメモリ31に格納されているプログラムを実行する。
また、図2では、推論装置3の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図3では、推論装置3がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、推論装置3における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。
図4は、学習装置6を示す構成図である。
図5は、学習装置6のハードウェアを示すハードウェア構成図である。
学習データ記憶部5は、例えば、ハードディスク、又は、RAMによって実現される。
学習データ記憶部5は、学習データとして、学習用画像を示す画像信号を記憶している。
学習装置6は、学習データ取得部41及び学習処理部42を備えている。
学習データ取得部41は、例えば、図5に示す学習データ取得回路51によって実現される。
学習データ取得部41は、学習データ記憶部5から、学習データを取得する。
学習データ取得部41は、学習データを学習処理部42に出力する。
学習処理部42は、例えば、図5に示す学習処理回路52によって実現される。
学習処理部42は、学習データ取得部41から、大量の学習データを取得する。
学習処理部42は、それぞれの学習データを学習モデル1aに与えて、それぞれの学習データに含まれている画像信号が示す学習用画像を学習モデル1aに学習させる。
学習済みの学習モデル1aは、ドメイン変換時、又は、物体認識時において、画像信号が与えられたとき、当該画像信号に対応する特徴ベクトルを出力する。
図4では、学習装置6の構成要素である学習データ取得部41及び学習処理部42のそれぞれが、図5に示すような専用のハードウェアによって実現されるものを想定している。即ち、学習装置6が、学習データ取得回路51及び学習処理回路52によって実現されるものを想定している。
学習データ取得部41及び学習処理部42のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC、FPGA、又は、これらを組み合わせたものが該当する。
学習装置6の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、学習装置6が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
図6は、学習装置6が、ソフトウェア又はファームウェア等によって実現される場合のコンピュータのハードウェア構成図である。
学習装置6が、ソフトウェア又はファームウェア等によって実現される場合、学習データ取得部41及び学習処理部42におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムがメモリ61に格納される。そして、コンピュータのプロセッサ62がメモリ61に格納されているプログラムを実行する。
また、図5では、学習装置6の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図6では、学習装置6がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、学習装置6における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。
最初に、図4に示す学習装置6の動作について説明する。
学習データ記憶部5には、大量の学習データが記憶されており、それぞれの学習データには、学習用画像を示す画像信号が含まれている。
学習装置6の学習データ取得部41は、学習データ記憶部5から、大量の学習データを取得する。
学習データ取得部41は、それぞれの学習データを学習処理部42に出力する。
学習処理部42は、学習データ取得部41から、それぞれの学習データを取得する。
学習処理部42は、それぞれの学習データを学習モデル1aに与えて、それぞれの学習データに含まれている画像信号が示す学習用画像を学習モデル1aに学習させる。
学習済みの学習モデル1aは、例えば、RGB画像を示す画像信号が入力層に与えられると、出力層から、当該画像信号に対応する特徴ベクトルとして、RGB画像に映っている検知対象物体の高次元特徴量を示す特徴ベクトルを出力する。
学習モデル1aに学習に用いられている学習用画像が、例えば、RGB画像であって、TIR画像が、学習用画像として用いられていない場合、RGB画像に映っている検知対象物体とTIR画像に映っている検知対象物体とが、共に正常な同一物体であったとしても、RGB画像を示す画像信号が入力層に与えられたときに、出力層から出力される特徴ベクトルと、TIR画像を示す画像信号が入力層に与えられたときに、出力層から出力される特徴ベクトルとが相違することがある。
ただし、学習モデル1aを実現するCNNsは、非常にディープなCNNsであり、学習モデル1aの十分に深い中間層から出力される特徴ベクトルは、高次元特徴量を示すものある。このため、上記の相違は僅かなものである。
また、学習モデル1aの十分に深い中間層から出力される特徴ベクトルが示す特徴量は、上述したように、検知対象物体の、十分に深い中間層の複数の層の特徴量のそれぞれがぼかされてから複数の層の特徴量が結合された特徴量である。このため、特徴ベクトルが示す特徴量は、画像のドメインの依存性及び認識タスクの依存性のそれぞれが排除された頑健な特徴を示すものである。
次に、ドメイン変換時における推論装置3の動作について説明する。
図7は、ドメイン変換時の推論装置3の処理手順を示すフローチャートである。
カメラ2は、検知対象物体を撮影する。カメラ2により撮影される検知対象物体は、正常な検知対象物体である。
カメラ2により撮影される検知対象物体は、異常な検知対象物体であってもよい。しかしながら、例えば、工業用製造ラインにおいて、検知対象物体に異常が発生する確率は、一般的に極めて小さいため、異常な検知対象物体を撮影することが困難であることがある。このため、ここでは、カメラ2により撮影される検知対象物体は、正常な検知対象物体であるとしている。
カメラ2は、検知対象物体が映っている変換用画像を示す画像信号として、例えば、検知対象物体が映っているTIR画像を示す画像信号を推論装置3に出力する。
画像信号取得部11は、カメラ2から、検知対象物体が映っている変換用画像を示す画像信号を取得する(図7のステップST1)。
画像信号取得部11は、変換用画像を示す画像信号を特徴量抽出部12に出力する。
特徴量抽出部12は、画像信号取得部11から、変換用画像を示す画像信号を取得する。
特徴量抽出部12は、画像信号から、変換用画像に映っている検知対象物体の特徴量を抽出する(図7のステップST2)。
具体的には、特徴量抽出部12は、画像信号を学習モデル1aに与えて、学習モデル1aから、変換用画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である代表特徴量を示す特徴ベクトルを取得する(図7のステップST2)。
特徴量抽出部12は、特徴ベクトルを代表特徴量登録部13に出力する。
代表特徴量登録部13は、特徴量抽出部12から、特徴ベクトルを取得する。
代表特徴量登録部13は、特徴ベクトルが示す代表特徴量を登録する(図7のステップST3)。
具体的には、代表特徴量登録部13は、特徴ベクトルを代表特徴量記憶部14に記憶させることで、代表特徴量を登録する。
ここで、代表特徴量を示す特徴ベクトルは、Tensorで表現されている。Tensorは、Vectorよりも高次元な情報を表現できるものであり、フィーチャーマップと呼ばれることがある。
Tensorは、高次元な情報を表現できるものであるため、代表特徴量登録部13が、Tensorで表現されている特徴ベクトルをそのまま代表特徴量記憶部14に記憶させた場合、後述する物体認識部15が特徴ベクトルを照合する際に、多くの処理時間を要することがある。
物体認識部15が特徴ベクトルを照合する際に要する処理時間を短縮するために、代表特徴量登録部13が、代表特徴量を示す特徴ベクトルを、Tensorよりも次元数が少ないワンホットベクトル(One-hot-vector)に変換し、ワンホットベクトルを代表特徴量記憶部14に記憶させるようにしてもよい。
代表特徴量登録部13によって登録される特徴ベクトルが、Tensor、又は、ワンホットベクトルのいずれであっても、数百次元等の高次元の情報が表現されるものである。このため、複数の正常な検知対象物体の間に多少のばらつきがあったとしても、特徴ベクトルは、正常な検知対象物体の代表的な特徴が高次元で記述されたものになっている。
次に、物体認識時の推論装置3の動作について説明する。
図8は、物体認識時の推論装置3の処理手順である推論方法を示すフローチャートである。
カメラ2は、検知対象物体を撮影する。カメラ2により撮影される検知対象物体は、正常な物体であるのか、異常な物体であるのかが不明である。
カメラ2は、検知対象物体が映っている推論対象画像を示す画像信号として、検知対象物体が映っているTIR画像を示す画像信号を推論装置3に出力する。
画像信号取得部11は、カメラ2から、検知対象物体が映っている推論対象画像を示す画像信号を取得する(図8のステップST11)。
画像信号取得部11は、推論対象画像を示す画像信号を特徴量抽出部12に出力する。
特徴量抽出部12は、画像信号取得部11から、推論対象画像を示す画像信号を取得する。
特徴量抽出部12は、画像信号から、推論対象画像に映っている検知対象物体の特徴量を抽出する(図8のステップST12)。
具体的には、特徴量抽出部12は、画像信号を学習モデル1aに与えて、学習モデル1aから、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である推論時特徴量を示す特徴ベクトルを取得する。
特徴量抽出部12は、特徴ベクトルを物体認識部15に出力する。
物体認識部15は、特徴量抽出部12から特徴ベクトルを取得し、代表特徴量記憶部14から代表特徴量を示す特徴ベクトルを取得する。
物体認識部15は、代表特徴量と、特徴量抽出部12から出力された特徴ベクトルが示す推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体を認識する(図8のステップST13)。
具体的には、物体認識部15は、代表特徴量を示す特徴ベクトルと推論時特徴量を示す特徴ベクトルとの類似度を算出する。代表特徴量を示す特徴ベクトルと推論時特徴量を示す特徴ベクトルとの類似度は、例えば、代表特徴量を示す特徴ベクトルと、推論時特徴量を示す特徴ベクトルとの内積を求めることで算出できる。
物体認識部15は、類似度と閾値とを比較し、類似度と閾値との比較結果に基づいて、推論対象画像に映っている検知対象物体が正常であるのか異常であるのかを認識する。
即ち、物体認識部15は、類似度が閾値以上であれば、検知対象物体が正常であると判定し、類似度が閾値未満であれば、検知対象物体が異常であると判定する。
閾値は、物体認識部15の内部メモリに格納されていてもよいし、推論装置3の外部から与えられるものであってもよい。
図1に示す推論装置では、物体認識部15が、検知対象物体を2値分類するものとして、検知対象物体が正常であるのか異常であるのかを認識する例を示している。しかし、これは一例に過ぎず、検知対象物体を複数のクラスに分類するために、物体認識部15が、検知対象物体を認識するものであってもよい。検知対象物体を複数のクラスに分類する例は、実施の形態2~4に示している。
学習用画像が、例えばRGB画像であって、変換用画像及び推論対象画像のそれぞれが、例えばTIR画像である場合、学習用画像のドメインと、変換用画像及び推論対象画像におけるそれぞれのドメインとが異なっているものの、変換用画像のドメインと推論対象画像のドメインとは同じである。
このため、推論対象画像に映っている検知対象物体が正常な物体であれば、ドメイン変換時に特徴量抽出部12により取得される代表特徴量と、物体認識時に特徴量抽出部12により取得される推論時特徴量とは、概ね同じような値となる。
一方、推論対象画像に映っている検知対象物体が異常な物体であれば、ドメイン変換時に特徴量抽出部12により取得される代表特徴量と、物体認識時に特徴量抽出部12により取得される推論時特徴量とは、大きく異なる値となる。
したがって、物体認識部15が、類似度と閾値とを比較することで、高精度に検知対象物体を認識することが可能である。
物体認識部15は、検知対象物体の認識結果を示す表示データを生成する。
物体認識部15は、表示データを表示装置4に出力する。
表示装置4は、物体認識部15から出力された表示データに従って、検知対象物体の認識結果を図示せぬディスプレイに表示させる。
これにより、検査員等は、ディスプレイを見ることで、検知対象物体が正常であるのか異常であるのかを確認することができる。
以上の実施の形態1では、学習用画像と画像のドメインが異なる場合と、事前学習したタスクと認識タスクの異なる場合とのうち、1つ以上が異なる場合において、検知対象物体が映っている画像である推論対象画像を示す画像信号を取得する画像信号取得部11と、画像信号取得部11により取得された画像信号を、学習用画像の学習が済んでいる学習モデル1aに与えて、学習モデル1aから、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である推論時特徴量を取得する特徴量抽出部12とを備えるように、推論装置3を構成した。また、推論装置3は、推論対象画像と画像のドメイン及び認識タスクのそれぞれが同じ対象である変換用画像に映っている検知対象物体の登録済みの特徴量である代表特徴量と特徴量抽出部12により取得された推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体を認識する物体認識部15を備えている。したがって、推論装置3は、タスク及びドメインのうち、1つ以上が異なる場合でも、推論精度の劣化を抑えることができる。
また、実施の形態1では、画像信号取得部11が、変換用画像を示す画像信号を取得し、特徴量抽出部12が、変換用画像を示す画像信号を学習モデル1aに与えて、学習モデル1aから、変換用画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である代表特徴量を取得するように、推論装置3を構成した。また、推論装置3は、特徴量抽出部12により取得された代表特徴量を登録する代表特徴量登録部13を備えている。したがって、推論装置3は、検知対象物体の認識処理に用いることが可能な代表特徴量を登録することができる。
図1に示す推論装置3では、特徴量抽出部12が、非常にディープなCNNsによって実現されている学習モデル1aに対して画像信号を与えて、学習モデル1aから、検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量を取得している。
学習モデル1aが非常にディープなCNNsによって実現されている場合には、上述したように、学習モデル1aの入力層に与えられる画像信号が示す推論対象画像のドメインが学習用画像と異なっていても、また、検知対象物体が異なっていても、出力層から出力される特徴ベクトルの相違は僅かなものとなる。
これに対して、学習モデル1aが一般的なニューラルネットワーク等によって実現されている場合、学習モデル1aの入力層に与えられる画像信号が示す推論対象画像のドメイン、又は、推論対象画像に映っている検知対象物体が、学習用画像と異なっていれば、出力層から出力される特徴ベクトルの相違が大きくなることがある。
しかしながら、変換用画像のドメインと推論対象画像のドメインとが同じである。このため、学習モデル1aが一般的なニューラルネットワーク等によって実現されている場合でも、推論対象画像に映っている検知対象物体が正常な物体であれば、ドメイン変換時に特徴量抽出部12により取得される代表特徴量と、物体認識時に特徴量抽出部12により取得される推論時特徴量とは、概ね同じような値となる。
一方、推論対象画像に映っている検知対象物体が異常な物体であれば、ドメイン変換時に特徴量抽出部12により取得される代表特徴量と、物体認識時に特徴量抽出部12により取得される推論時特徴量とは、大きく異なる値となる。
したがって、学習モデル1aが一般的なニューラルネットワーク等によって実現されている場合でも、物体認識部15が、高精度に検知対象物体を認識することが可能である。
実施の形態2.
実施の形態2では、検知対象物体の種類を認識する物体認識部17を備える推論装置3について説明する。
図9は、実施の形態2に係る推論装置3を示す構成図である。図9において、図1と同一符号は同一又は相当部分を示すので説明を省略する。
図10は、実施の形態2に係る推論装置3のハードウェアを示すハードウェア構成図である。図10において、図2と同一符号は同一又は相当部分を示すので説明を省略する。
図9に示す推論装置3は、画像信号取得部11、特徴量抽出部12、代表特徴量登録部16、代表特徴量記憶部14及び物体認識部17を備えている。
図9に示す推論装置3では、モデル記憶部1が推論装置3の外部に設けられている。しかし、これは一例に過ぎず、例えば、モデル記憶部1が推論装置3の内部に設けられていてもよいし、学習モデル1aが特徴量抽出部12に内蔵されていてもよい。
図9に示す推論装置3では、物体認識部17により認識される検知対象物体の種類として、検知対象物体が、乗用車であるのか、トラックであるのか、又は、バスであるのかが認識される例を説明する。この場合、検知対象物体は、乗用車、トラック、又は、バスのいずれかである。この場合のタスクは、画像分類(Image Classification)のタスクである。
しかし、これは一例に過ぎず、物体認識部17により認識される検知対象物体の種類として、検知対象物体が、車種名が○○の乗用車であるのか、車種名が△△の乗用車であるのか、又は、車種名が□□の乗用車であるのかが認識されるものであってもよい。この場合、検知対象物体は、車種名が○○の乗用車、車種名が△△の乗用車、又は、車種名が□□の乗用車のいずれかである。この場合のタスクは、“Fine-grained Image Classification”と呼ばれるタスクである。
例えば、検知対象物体が、乗用車であるのか、トラックであるのか、又は、バスであるのかの認識を可能にする場合でも、学習モデル1aには、学習用画像を示す画像信号を含む学習データが与えられる。
代表特徴量登録部16は、例えば、図10に示す代表特徴量登録回路26によって実現される。
代表特徴量登録部16は、特徴量抽出部12により取得された代表特徴量を登録する。
即ち、代表特徴量登録部16は、変換用画像に映っている検知対象物体である乗用車の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である代表特徴量を示す特徴ベクトルを取得し、特徴ベクトルを代表特徴量記憶部14に記憶させる。
また、代表特徴量登録部16は、変換用画像に映っている検知対象物体であるトラックの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である代表特徴量を示す特徴ベクトルを取得し、特徴ベクトルを代表特徴量記憶部14に記憶させる。
また、代表特徴量登録部16は、変換用画像に映っている検知対象物体であるバスの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である代表特徴量を示す特徴ベクトルを取得し、特徴ベクトルを代表特徴量記憶部14に記憶させる。
物体認識部17は、例えば、図10に示す物体認識回路27によって実現される。
物体認識部17は、特徴量抽出部12から、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である推論時特徴量を示す特徴ベクトルを取得し、代表特徴量記憶部14から、代表特徴量を示す特徴ベクトルを取得する。
物体認識部17は、代表特徴量と推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体を認識する。
具体的には、物体認識部17は、種類が互いに異なる複数の検知対象物体の代表特徴量と特徴量抽出部12により抽出された推論時特徴量とを比較して、複数の検知対象物体の代表特徴量の中で、特徴量抽出部12により抽出された特徴量に対応している代表特徴量を特定する。
物体認識部17は、代表特徴量の特定結果に基づいて、推論対象画像に映っている検知対象物体の種類を認識する。
物体認識部17は、検知対象物体の認識結果を示す表示データを生成し、表示データを表示装置4に出力する。
図9では、推論装置3の構成要素である画像信号取得部11、特徴量抽出部12、代表特徴量登録部16、代表特徴量記憶部14及び物体認識部17のそれぞれが、図10に示すような専用のハードウェアによって実現されるものを想定している。即ち、推論装置3が、画像信号取得回路21、特徴量抽出回路22、代表特徴量登録回路26、代表特徴量記憶回路24及び物体認識回路27によって実現されるものを想定している。
画像信号取得回路21、特徴量抽出回路22、代表特徴量登録回路26及び物体認識回路27のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC、FPGA、又は、これらを組み合わせたものが該当する。
推論装置3の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、推論装置3が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
推論装置3が、ソフトウェア又はファームウェア等によって実現される場合、代表特徴量記憶部14が図3に示すメモリ31上に構成される。画像信号取得部11、特徴量抽出部12、代表特徴量登録部16及び物体認識部17におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムが図3に示すメモリ31に格納される。そして、図3に示すプロセッサ32がメモリ31に格納されているプログラムを実行する。
また、図10では、推論装置3の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図3では、推論装置3がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、推論装置3における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。
次に、ドメイン変換時における推論装置3の動作について説明する。
カメラ2は、検知対象物体を撮影する。カメラ2により撮影される検知対象物体は、乗用車、トラック、又は、バスのいずれかである。ただし、推論装置3は、検知対象物体を、例えば1000に分類することも可能である。このため、検知対象物体を、乗用車、トラック、又は、バスの3つに分類することは、あくまでも、一例である。
カメラ2は、検知対象物体である乗用車が映っている変換用画像を示す画像信号として、例えば、乗用車が映っているTIR画像を示す画像信号を推論装置3に出力する。
カメラ2は、検知対象物体であるトラックが映っている変換用画像を示す画像信号として、例えば、トラックが映っているTIR画像を示す画像信号を推論装置3に出力する。
また、カメラ2は、検知対象物体であるバスが映っている変換用画像を示す画像信号として、例えば、バスが映っているTIR画像を示す画像信号を推論装置3に出力する。
変換用画像は、必ずしも、TIR画像に限るものではないが、RGB画像の場合、夜間の画像認識が困難なため、検知対象物体の認識精度が劣化することがある。このため、変換用画像として、TIR画像を用いている。
画像信号取得部11は、カメラ2から、乗用車が映っている変換用画像を示す画像信号を取得し、変換用画像を示す画像信号を特徴量抽出部12に出力する。
画像信号取得部11は、カメラ2から、トラックが映っている変換用画像を示す画像信号を取得し、変換用画像を示す画像信号を特徴量抽出部12に出力する。
また、画像信号取得部11は、カメラ2から、バスが映っている変換用画像を示す画像信号を取得し、変換用画像を示す画像信号を特徴量抽出部12に出力する。
特徴量抽出部12は、画像信号取得部11から、乗用車が映っている変換用画像を示す画像信号を取得する。
特徴量抽出部12は、画像信号から、変換用画像に映っている乗用車の特徴量を抽出する。
具体的には、特徴量抽出部12は、画像信号を学習モデル1aに与えて、学習モデル1aから、変換用画像に映っている乗用車の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルFv1を取得する。
特徴量抽出部12は、特徴ベクトルFv1を代表特徴量登録部16に出力する。
また、特徴量抽出部12は、画像信号取得部11から、トラックが映っている変換用画像を示す画像信号を取得する。
特徴量抽出部12は、画像信号から、変換用画像に映っているトラックの特徴量を抽出する。
具体的には、特徴量抽出部12は、画像信号を学習モデル1aに与えて、学習モデル1aから、変換用画像に映っているトラックの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルFv2を取得する。
特徴量抽出部12は、特徴ベクトルFv2を代表特徴量登録部16に出力する。
また、特徴量抽出部12は、画像信号取得部11から、バスが映っている変換用画像を示す画像信号を取得する。
特徴量抽出部12は、画像信号から、変換用画像に映っているバスの特徴量を抽出する。
具体的には、特徴量抽出部12は、画像信号を学習モデル1aに与えて、学習モデル1aから、変換用画像に映っているバスの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルFv3を取得する。
特徴量抽出部12は、特徴ベクトルFv3を代表特徴量登録部16に出力する。
代表特徴量登録部16は、特徴量抽出部12から、特徴ベクトルFv1を取得する。
代表特徴量登録部16は、特徴ベクトルFv1を代表特徴量記憶部14に記憶させることで、代表特徴量を登録する。
また、代表特徴量登録部16は、特徴量抽出部12から、特徴ベクトルFv2を取得する。
代表特徴量登録部16は、特徴ベクトルFv2を代表特徴量記憶部14に記憶させることで、代表特徴量を登録する。
また、代表特徴量登録部16は、特徴量抽出部12から、特徴ベクトルFv3を取得する。
代表特徴量登録部16は、特徴ベクトルFv3を代表特徴量記憶部14に記憶させることで、代表特徴量を登録する。
次に、物体認識時の推論装置3の動作について説明する。
カメラ2は、検知対象物体を撮影する。カメラ2により撮影される検知対象物体は、乗用車、トラック、又は、バスのいずれであるのかが不明である。
カメラ2は、検知対象物体が映っている推論対象画像を示す画像信号として、例えば、検知対象物体が映っているTIR画像を示す画像信号を推論装置3に出力する。
この例では、推論対象画像がTIR画像である。しかしながら、推論対象画像は、ドメインが変換用画像と同じであればよく、TIR画像に限るものではない。
画像信号取得部11は、カメラ2から、検知対象物体が映っている推論対象画像を示す画像信号を取得する。
画像信号取得部11は、推論対象画像を示す画像信号を特徴量抽出部12に出力する。
特徴量抽出部12は、画像信号取得部11から、推論対象画像を示す画像信号を取得する。
特徴量抽出部12は、画像信号から、推論対象画像に映っている検知対象物体の特徴量を抽出する。
具体的には、特徴量抽出部12は、画像信号を学習モデル1aに与えて、学習モデル1aから、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された推論時特徴量を示す特徴ベクトルFvを取得する。
特徴量抽出部12は、特徴ベクトルFvを物体認識部17に出力する。
物体認識部17は、特徴量抽出部12から、特徴ベクトルFvを取得する。
また、物体認識部17は、代表特徴量記憶部14から、乗用車の代表特徴量を示す特徴ベクトルFv1、トラックの代表特徴量を示す特徴ベクトルFv2及びバスの代表特徴量を示す特徴ベクトルFv3のそれぞれを取得する。
物体認識部17は、特徴ベクトルFv1,Fv2,Fv3のそれぞれと、特徴ベクトルFvとの類似度Mr1,Mr2,Mr3のそれぞれを算出する。
物体認識部17は、類似度Mr1,Mr2,Mr3の中で、最も高い類似度を特定し、最も高い類似度に対応する代表特徴量を特定する。
例えば、最も高い類似度がMr1であれば、最も高い類似度に対応する代表特徴量は、乗用車の代表特徴量である。最も高い類似度がMr2であれば、最も高い類似度に対応する代表特徴量は、トラックの代表特徴量である。また、最も高い類似度がMr3であれば、最も高い類似度に対応する代表特徴量は、バスの代表特徴量である。
物体認識部17は、最も類似度の高い代表特徴量が、乗用車の代表特徴量であれば、推論対象画像に映っている検知対象物体の種類が乗用車であると認識する。
物体認識部17は、最も類似度の高い代表特徴量が、トラックの代表特徴量であれば、推論対象画像に映っている検知対象物体の種類がトラックであると認識する。
物体認識部17は、最も類似度の高い代表特徴量が、バスの代表特徴量であれば、推論対象画像に映っている検知対象物体の種類がバスであると認識する。
物体認識部17は、検知対象物体の認識結果を示す表示データを生成し、表示データを表示装置4に出力する。
表示装置4は、物体認識部17から出力された表示データに従って、検知対象物体の認識結果を図示せぬディスプレイに表示させる。
これにより、検査員等は、ディスプレイを見ることで、検知対象物体の種類を確認することができる。
以上の実施の形態2では、物体認識部17が、種類が互いに異なる複数の検知対象物体の代表特徴量と特徴量抽出部12により抽出された推論時特徴量とを比較して、複数の検知対象物体の代表特徴量の中で、特徴量抽出部12により抽出された推論時特徴量に対応している代表特徴量を特定し、代表特徴量の特定結果に基づいて、推論対象画像に映っている検知対象物体の種類を認識するように、推論装置3を構成した。したがって、推論装置3は、タスク及びドメインのうち、1つ以上が異なる場合でも、検知対象物体の種類の認識についての推論精度の劣化を抑えることができる。
実施の形態3.
実施の形態3では、検知対象物体が存在している領域を認識する物体認識部19を備える推論装置3について説明する。これは、物体検出(Object Detection)と呼ばれるタスクである。
図11は、実施の形態3に係る推論装置3を示す構成図である。図11において、図1と同一符号は同一又は相当部分を示すので説明を省略する。
図12は、実施の形態3に係る推論装置3のハードウェアを示すハードウェア構成図である。図12において、図2と同一符号は同一又は相当部分を示すので説明を省略する。
図11に示す推論装置3は、画像信号取得部11、特徴量抽出部12、代表特徴量登録部18、代表特徴量記憶部14及び物体認識部19を備えている。
図11に示す推論装置3では、モデル記憶部1が推論装置3の外部に設けられている。しかし、これは一例に過ぎず、例えば、モデル記憶部1が推論装置3の内部に設けられていてもよいし、学習モデル1aが特徴量抽出部12に内蔵されていてもよい。
図11に示す推論装置3では、物体認識部19により認識される検知対象物体の存在している領域を、例えば、乗用車、バス、又は、トラックのような複数のクラスの認識と同時に、検知対象物体が存在している空間的な位置として予測する例を説明する。
代表特徴量登録部18は、例えば、図12に示す代表特徴量登録回路28によって実現される。
代表特徴量登録部18は、特徴量抽出部12により取得された代表特徴量を登録する。
即ち、代表特徴量登録部18は、変換用画像に映っている、検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得し、高次元特徴における物体の存在範囲(Objectness)を含む特徴ベクトルを代表特徴量記憶部14に記憶させる。記憶させる検知対象物体の存在範囲(Objectness)は、高次元特徴をTensorとしてそのまま登録してもよく、検知対象物体の存在範囲(Objectness)のみを抽出して次元圧縮して登録してもよい。
物体認識部19は、例えば、図12に示す物体認識回路29によって実現される。
物体認識部19は、特徴量抽出部12から、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された推論時特徴量を示す特徴ベクトルを取得し、代表特徴量記憶部14から、代表特徴量を示す特徴ベクトルを取得する。
物体認識部19は、代表特徴量と推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体を認識する。
具体的には、物体認識部19は、高次元特徴における物体の存在範囲(Objectness)を含む特徴ベクトルが登録された代表特徴量記憶部14より、検知対象物体の存在範囲(Objectness)を含む代表特徴量を取得し、代表特徴量と特徴抽出部12より抽出された推論時特徴量とを比較して、複数の検知対象物体の代表特徴量の中で、特徴量抽出部12により抽出された推論時特徴量に対応している代表特徴量を特定する。最も類似した代表特徴量を持つクラスが検出対象物体の所属するクラスとなる。さらに推論時特徴量には、推論時に入力された画像に含まれる検出対象物体の存在範囲(Objectness)を含むため、推論時特徴量の高次元特徴の記述方法をTensor等から二次元空間へ変換することで空間的な物体の存在位置を表すことが可能となる。
物体認識部19は、検知対象物体の認識結果を示す表示データを生成し、表示データを表示装置4に出力する。ここで、二次元空間上に矩形として表現した場合は、物体検出(Object Detection)タスクとなり、二次元空間上に領域として表現した場合は、セグメンテーション(Sematic Segmentation)タスクとなる。
図11では、推論装置3の構成要素である画像信号取得部11、特徴量抽出部12、代表特徴量登録部18、代表特徴量記憶部14及び物体認識部19のそれぞれが、図12に示すような専用のハードウェアによって実現されるものを想定している。即ち、推論装置3が、画像信号取得回路21、特徴量抽出回路22、代表特徴量登録回路28、代表特徴量記憶回路24及び物体認識回路29によって実現されるものを想定している。
画像信号取得回路21、特徴量抽出回路22、代表特徴量登録回路28及び物体認識回路29のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC、FPGA、又は、これらを組み合わせたものが該当する。
推論装置3の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、推論装置3が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
推論装置3が、ソフトウェア又はファームウェア等によって実現される場合、代表特徴量記憶部14が図3に示すメモリ31上に構成される。画像信号取得部11、特徴量抽出部12、代表特徴量登録部18及び物体認識部19におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムが図3に示すメモリ31に格納される。そして、図3に示すプロセッサ32がメモリ31に格納されているプログラムを実行する。
また、図12では、推論装置3の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図3では、推論装置3がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、推論装置3における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。
次に、ドメイン変換時における推論装置3の動作について説明する。
カメラ2は、検知対象物体を撮影する。
カメラ2は、検知対象物体が映っている変換用画像を示す画像信号として、検知対象物体が映っているTIR画像を示す画像信号を推論装置3に出力する。
画像信号取得部11は、カメラ2から、検知対象物体が映っている変換用画像を示す画像信号を取得する。
画像信号取得部11は、認識したい対象のクラス分それぞれの変換用画像を示す画像信号を特徴量抽出部12に出力する。
特徴量抽出部12は、画像信号取得部11から、それぞれの変換用画像を示す画像信号を取得する。
特徴量抽出部12は、それぞれの画像信号から、それぞれの変換用画像に映っている検知対象物体の特徴量を抽出する。
具体的には、特徴量抽出部12は、画像信号を学習モデル1aに与えて、学習モデル1aから、検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得する。
特徴量抽出部12は、特徴ベクトルを代表特徴量登録部18に出力する。
代表特徴量登録部18は、特徴量抽出部12から、特徴ベクトルを取得する。
代表特徴量登録部18は、特徴ベクトルを代表特徴量記憶部14に記憶させることで、代表特徴量を登録する。
次に、物体認識時の推論装置3の動作について説明する。
カメラ2は、検知対象物体を撮影する。カメラ2により撮影される検知対象物体の位置は、不明である。
カメラ2は、検知対象物体が映っている推論対象画像を示す画像信号として、検知対象物体が映っているTIR画像を示す画像信号を推論装置3に出力する。
画像信号取得部11は、カメラ2から、検知対象物体が映っている推論対象画像を示す画像信号を取得する。
画像信号取得部11は、推論対象画像を示す画像信号を特徴量抽出部12に出力する。
特徴量抽出部12は、画像信号取得部11から、推論対象画像を示す画像信号を取得する。
特徴量抽出部12は、画像信号から、推論対象画像に映っている検知対象物体の特徴量を抽出する。
具体的には、特徴量抽出部12は、画像信号を学習モデル1aに与えて、学習モデル1aから、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された推論時特徴量を示す特徴ベクトルを取得する。
特徴量抽出部12は、特徴ベクトルを物体認識部19に出力する。
物体認識部19は、特徴量抽出部12から、特徴ベクトルを取得する。
また、物体認識部19は、代表特徴量記憶部14から、代表特徴量を示す特徴ベクトルを複数取得する。
物体認識部19は、複数の代表特徴量を示す特徴ベクトルと、特徴量抽出部12から取得した特徴ベクトルとの類似度をそれぞれ算出する。
物体認識部19は、認識したい対象の数だけ登録してある代表特徴量と推論時特徴量との類似度の中で、最も高い類似度を特定し、最も高い類似度に対応する代表特徴量を特定する。物体認識部19は、特定することで、どのクラスに属するのかを判別することが可能となる。
物体認識部19は、最も類似した代表特徴量を持つクラスが検出対象物体の所属するクラスとなる。例えば、代表特徴量と推論時特徴量のいずれもがTIR画像を入力とした場合、学習時のドメインを超えたクラス識別が可能となる。
さらに、推論時特徴量には推論時に入力された画像に含まれる検出対象物体の存在範囲(Objectness)を含むため、推論時特徴量の高次元特徴の記述方法をTensor等から二次元空間へ変換することで空間的な物体の存在位置を表すことが可能となる。これによって、学習時のタスクが画像識別(Image Classification)であった場合、タスクを超えた認識が可能となる。
物体認識部19は、検知対象物体の認識結果を示す表示データを生成し、表示データを表示装置4に出力する。
表示装置4は、物体認識部19から出力された表示データに従って、検知対象物体の認識結果を図示せぬディスプレイに表示させる。
これにより、検査員等は、ディスプレイを見ることで、検知対象物体の存在している領域を確認することができる。
以上の実施の形態3では、物体認識部19が、存在している領域のそれぞれが互いに異なる複数の検知対象物体の代表特徴量と特徴量抽出部12により取得された推論時特徴量とを比較して、複数の検知対象物体の代表特徴量の中で、特徴量抽出部12により取得された推論時特徴量に対応している代表特徴量を特定し、代表特徴量の特定結果に基づいて、推論対象画像に映っている検知対象物体の認識として、検知対象物体の存在している領域を認識するように、推論装置3を構成した。したがって、推論装置3は、タスク及びドメインのうち、1つ以上が異なる場合でも、検知対象物体の存在している領域の認識についての推論精度の劣化を抑えることができる。
実施の形態4.
実施の形態4では、検知対象物体の種類及び存在している領域のそれぞれを認識する物体認識部72を備える推論装置3について説明する。
図13は、実施の形態4に係る推論装置3を示す構成図である。図13において、図1と同一符号は同一又は相当部分を示すので説明を省略する。
図14は、実施の形態4に係る推論装置3のハードウェアを示すハードウェア構成図である。図14において、図2と同一符号は同一又は相当部分を示すので説明を省略する。
図13に示す推論装置3は、画像信号取得部11、特徴量抽出部12、代表特徴量登録部71、代表特徴量記憶部14及び物体認識部72を備えている。
図13に示す推論装置3では、モデル記憶部1が推論装置3の外部に設けられている。しかし、これは一例に過ぎず、例えば、モデル記憶部1が推論装置3の内部に設けられていてもよいし、学習モデル1aが特徴量抽出部12に内蔵されていてもよい。
図13に示す推論装置3では、物体認識部72により認識される検知対象物体の存在している領域が、複数のクラスの中で、検知対象物体が存在しているクラスの領域である。
また、図13に示す推論装置3では、物体認識部72により認識される検知対象物体の種類として、検知対象物体が、乗用車であるのか、トラックであるのか、又は、バスであるのかが認識される例を説明する。この場合、検知対象物体は、乗用車、トラック、又は、バスのいずれかである。
検知対象物体の種類及び存在している領域のそれぞれの認識を可能にする場合でも、学習モデル1aには、学習用画像を示す画像信号を含む学習データが与えられる。
代表特徴量登録部71は、例えば、図14に示す代表特徴量登録回路81によって実現される。
代表特徴量登録部71は、特徴量抽出部12により取得された代表特徴量を登録する。
即ち、代表特徴量登録部71は、いずれかの領域に存在している乗用車の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得し、特徴ベクトルを代表特徴量記憶部14に記憶させる。
また、代表特徴量登録部71は、いずれかの領域に存在しているトラックの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得し、特徴ベクトルを代表特徴量記憶部14に記憶させる。
また、代表特徴量登録部71は、いずれかの領域に存在しているバスの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得し、特徴ベクトルを代表特徴量記憶部14に記憶させる。
物体認識部72は、例えば、図14に示す物体認識回路82によって実現される。
物体認識部72は、特徴量抽出部12から、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された推論時特徴量を示す特徴ベクトルを取得し、代表特徴量記憶部14から、代表特徴量を示す特徴ベクトルを取得する。
物体認識部72は、代表特徴量と推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体の種類及び存在している領域のそれぞれを認識する。
具体的には、物体認識部72は、高次元特徴における物体の存在範囲(Objectness)及び物体の種類の双方を含む特徴ベクトルが登録された代表特徴量記憶部14より、検知対象物体の存在範囲(Objectness)及び物体の種類の双方を含む代表特徴量を取得し、代表特徴量と特徴抽出部12より抽出された推論時特徴量とを比較して、複数の検知対象物体の代表特徴量の中で、特徴量抽出部12により抽出された推論時特徴量に対応している代表特徴量を特定する。最も類似した代表特徴量を持つクラスが検出対象物体の所属するクラスとなる。さらに推論時特徴量には、推論時に入力された画像に含まれる検出対象物体の存在範囲(Objectness)を含むため、推論時特徴量の高次元特徴の記述方法をTensor等から二次元空間へ変換することで空間的な物体の存在位置を表すことが可能となる。
物体認識部72は、検知対象物体の認識結果を示す表示データを生成し、表示データを表示装置4に出力する。ここで、二次元空間上に矩形として表現した場合は、物体検出(Object Detection)タスクとなり、二次元空間上に領域として表現した場合は、セグメンテーション(Sematic Segmentation)タスクとなる。
図13では、推論装置3の構成要素である画像信号取得部11、特徴量抽出部12、代表特徴量登録部71、代表特徴量記憶部14及び物体認識部72のそれぞれが、図14に示すような専用のハードウェアによって実現されるものを想定している。即ち、推論装置3が、画像信号取得回路21、特徴量抽出回路22、代表特徴量登録回路81、代表特徴量記憶回路24及び物体認識回路82によって実現されるものを想定している。
画像信号取得回路21、特徴量抽出回路22、代表特徴量登録回路81及び物体認識回路82のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC、FPGA、又は、これらを組み合わせたものが該当する。
推論装置3の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、推論装置3が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
推論装置3が、ソフトウェア又はファームウェア等によって実現される場合、代表特徴量記憶部14が図3に示すメモリ31上に構成される。画像信号取得部11、特徴量抽出部12、代表特徴量登録部71及び物体認識部72におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムが図3に示すメモリ31に格納される。そして、図3に示すプロセッサ32がメモリ31に格納されているプログラムを実行する。
また、図14では、推論装置3の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図3では、推論装置3がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、推論装置3における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。
次に、ドメイン変換時における推論装置3の動作について説明する。
カメラ2は、検知対象物体を撮影する。カメラ2により撮影される検知対象物体は、乗用車、トラック、又は、バスのいずれかである。ただし、推論装置3は、検知対象物体を、例えば1000に分類することも可能である。このため、検知対象物体を、乗用車、トラック、又は、バスの3つに分類することは、あくまでも、一例である。
カメラ2により撮影される検知対象物体は、いずれかの領域に存在している。
カメラ2は、いずれかの領域に存在している検知対象物体が映っている変換用画像を示す画像信号として、例えば、検知対象物体が映っているTIR画像を示す画像信号を推論装置3に出力する。
画像信号取得部11は、カメラ2から、いずれかの領域に存在している検知対象物体が映っている変換用画像を示す画像信号を取得し、変換用画像を示す画像信号を特徴量抽出部12に出力する。
即ち、画像信号取得部11は、カメラ2から、いずれかの領域に存在している乗用車が映っている変換用画像を示す画像信号を取得し、変換用画像を示す画像信号を特徴量抽出部12に出力する。
画像信号取得部11は、カメラ2から、いずれかの領域に存在しているトラックが映っている変換用画像を示す画像信号を取得し、変換用画像を示す画像信号を特徴量抽出部12に出力する。
また、画像信号取得部11は、カメラ2から、いずれかの領域に存在しているバスが映っている変換用画像を示す画像信号を取得し、変換用画像を示す画像信号を特徴量抽出部12に出力する。
特徴量抽出部12は、画像信号取得部11から、いずれかの領域に存在している乗用車が映っている変換用画像を示す画像信号を取得する。
特徴量抽出部12は、それぞれの画像信号から、それぞれの変換用画像に映っている乗用車の特徴量を抽出する。
具体的には、特徴量抽出部12は、画像信号を学習モデル1aに与えて、学習モデル1aから、いずれかの領域に存在している乗用車の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得する。
特徴量抽出部12は、特徴ベクトルを代表特徴量登録部71に出力する。
また、特徴量抽出部12は、画像信号取得部11から、いずれかの領域に存在しているトラックが映っている変換用画像を示す画像信号を取得する。
特徴量抽出部12は、それぞれの画像信号から、それぞれの変換用画像に映っているトラックの特徴量を抽出する。
具体的には、特徴量抽出部12は、画像信号を学習モデル1aに与えて、学習モデル1aから、いずれかの領域に存在しているトラックの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得する。
特徴量抽出部12は、特徴ベクトルを代表特徴量登録部71に出力する。
また、特徴量抽出部12は、画像信号取得部11から、いずれかの領域に存在しているバスが映っている変換用画像を示す画像信号を取得する。
特徴量抽出部12は、それぞれの画像信号から、それぞれの変換用画像に映っているバスの特徴量を抽出する。
具体的には、特徴量抽出部12は、画像信号を学習モデル1aに与えて、学習モデル1aから、いずれかの領域に存在しているバスの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得する。
特徴量抽出部12は、特徴ベクトルを代表特徴量登録部71に出力する。
代表特徴量登録部71は、特徴量抽出部12から、それぞれの特徴ベクトルを取得する。
代表特徴量登録部71は、それぞれの特徴ベクトルを代表特徴量記憶部14に記憶させることで、代表特徴量を登録する。
次に、物体認識時の推論装置3の動作について説明する。
カメラ2は、検知対象物体を撮影する。カメラ2により撮影される検知対象物体は、乗用車、トラック、又は、バスのいずれであるのかが不明である。また、カメラ2により撮影される検知対象物体の存在している領域は、不明である。
カメラ2は、検知対象物体が映っている推論対象画像を示す画像信号として、検知対象物体が映っているTIR画像を示す画像信号を推論装置3に出力する。
画像信号取得部11は、カメラ2から、検知対象物体が映っている推論対象画像を示す画像信号を取得する。
画像信号取得部11は、推論対象画像を示す画像信号を特徴量抽出部12に出力する。
特徴量抽出部12は、画像信号取得部11から、推論対象画像を示す画像信号を取得する。
特徴量抽出部12は、画像信号から、推論対象画像に映っている検知対象物体の特徴量を抽出する。
具体的には、特徴量抽出部12は、画像信号を学習モデル1aに与えて、学習モデル1aから、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された推論時特徴量を示す特徴ベクトルを取得する。
特徴量抽出部12は、特徴ベクトルを物体認識部72に出力する。
物体認識部72は、特徴量抽出部12から、特徴ベクトルを取得する。
また、物体認識部72は、代表特徴量記憶部14から、代表特徴量を示す特徴ベクトルを複数取得する。
物体認識部72は、複数の代表特徴量を示す特徴ベクトルと、特徴量抽出部12から取得した特徴ベクトルとの類似度をそれぞれ算出する。
物体認識部72は、認識したい対象の数だけ登録してある代表特徴量と推論時特徴量との類似度の中で、最も高い類似度を特定し、最も高い類似度に対応する代表特徴量を特定する。物体認識部19は、特定することで、どのクラスに属するのかを判別することが可能となる。
物体認識部72は、最も類似した代表特徴量を持つクラスが検出対象物体の所属するクラスとなる。例えば、代表特徴量と推論時特徴量のいずれもがTIR画像を入力とした場合、学習時のドメインを超えたクラス識別が可能となる。
さらに、推論時特徴量には推論時に入力された画像に含まれる検出対象物体の存在範囲(Objectness)を含むため、推論時特徴量の高次元特徴の記述方法をTensor等から二次元空間へ変換することで空間的な物体の存在位置を表すことが可能となる。これによって、学習時のタスクが画像識別(Image Classification)であった場合、タスクを超えた認識が可能となる。
物体認識部72は、最も類似度の高い代表特徴量が、例えば、乗用車の代表特徴量であれば、推論対象画像に映っている検知対象物体の種類が乗用車であることを認識し、かつ、検知対象物体の存在している領域を認識する。
物体認識部72は、最も類似度の高い代表特徴量が、例えば、トラックの代表特徴量であれば、推論対象画像に映っている検知対象物体の種類がトラックあることを認識し、かつ、検知対象物体の存在している領域を認識する。
物体認識部72は、最も類似度の高い代表特徴量が、例えば、バスの代表特徴量であれば、推論対象画像に映っている検知対象物体の種類がバスであることを認識し、かつ、検知対象物体の存在している領域を認識する。
物体認識部72は、検知対象物体の認識結果を示す表示データを生成し、表示データを表示装置4に出力する。
表示装置4は、物体認識部72から出力された表示データに従って、検知対象物体の認識結果を図示せぬディスプレイに表示させる。
これにより、検査員等は、ディスプレイを見ることで、検知対象物体の種類及び存在している領域のそれぞれを確認することができる。
以上の実施の形態4では、物体認識部72が、種類及び存在している領域のそれぞれが互いに異なる複数の検知対象物体の代表特徴量と特徴量抽出部12により取得された推論時特徴量とを比較して、複数の検知対象物体の代表特徴量の中で、特徴量抽出部12により取得された推論時特徴量に対応している代表特徴量を特定し、代表特徴量の特定結果に基づいて、推論対象画像に映っている検知対象物体の認識として、検知対象物体の種類及び存在している領域のそれぞれを認識するように、推論装置3を構成した。したがって、推論装置3は、タスク及びドメインのうち、1つ以上が異なる場合でも、検知対象物体の種類及び存在している領域のそれぞれの認識についての推論精度の劣化を抑えることができる。
なお、本開示は、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
本開示は、推論装置、推論方法及び推論プログラムに適している。
1 モデル記憶部、1a 学習モデル、2 カメラ、3 推論装置、4 表示装置、5 学習データ記憶部、6 学習装置、11 画像信号取得部、12 特徴量抽出部、13 代表特徴量登録部、14 代表特徴量記憶部、15 物体認識部、16,18 代表特徴量登録部、17,19 物体認識部、21 画像信号取得回路、22 特徴量抽出回路、23 代表特徴量登録回路、24 代表特徴量記憶回路、25 物体認識回路、26,28 代表特徴量登録回路、27,29 物体認識回路、31 メモリ、32 プロセッサ、41 学習データ取得部、42 学習処理部、51 学習データ取得回路、52 学習処理回路、61 メモリ、62 プロセッサ、71 代表特徴量登録部、72 物体認識部、81 代表特徴量登録回路、82 物体認識回路。

Claims (9)

  1. 学習用画像と画像のドメインが異なる場合と、事前学習したタスクと認識タスクの異なる場合とのうち、1つ以上が異なる場合において、検知対象物体が映っている画像である推論対象画像を示す画像信号を取得する画像信号取得部と、
    前記画像信号取得部により取得された画像信号を、前記学習用画像の学習が済んでいる学習モデルに与えて、前記学習モデルから、前記推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから前記複数の特徴量が結合された特徴量である推論時特徴量を取得する特徴量抽出部と、
    前記推論対象画像と画像のドメイン及び認識タスクのそれぞれが同じ対象である変換用画像に映っている検知対象物体の登録済みの特徴量である代表特徴量と前記特徴量抽出部により取得された推論時特徴量とに基づいて、前記推論対象画像に映っている検知対象物体を認識する物体認識部と
    を備えた推論装置。
  2. 前記画像信号取得部は、
    前記変換用画像を示す画像信号を取得し、
    前記特徴量抽出部は、
    前記変換用画像を示す画像信号を前記学習モデルに与えて、前記学習モデルから、前記変換用画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから当該複数の特徴量が結合された特徴量である代表特徴量を取得し、
    前記特徴量抽出部により取得された代表特徴量を登録する代表特徴量登録部を備えたことを特徴とする請求項1記載の推論装置。
  3. 前記物体認識部は、
    前記代表特徴量を示す特徴ベクトルと前記特徴量抽出部により取得された推論時特徴量を示す特徴ベクトルとの類似度を算出し、前記類似度に基づいて、前記推論対象画像に映っている検知対象物体を認識することを特徴とする請求項1記載の推論装置。
  4. 前記物体認識部は、
    種類が互いに異なる複数の検知対象物体の代表特徴量と前記特徴量抽出部により取得された推論時特徴量とを比較して、前記複数の検知対象物体の代表特徴量の中で、前記特徴量抽出部により取得された推論時特徴量に対応している代表特徴量を特定し、前記代表特徴量の特定結果に基づいて、前記推論対象画像に映っている検知対象物体の認識として、前記検知対象物体の種類を認識することを特徴とする請求項1記載の推論装置。
  5. 前記物体認識部は、
    存在している領域が互いに異なる複数の検知対象物体の代表特徴量と前記特徴量抽出部により取得された推論時特徴量とを比較して、前記複数の検知対象物体の代表特徴量の中で、前記特徴量抽出部により取得された推論時特徴量に対応している代表特徴量を特定し、前記代表特徴量の特定結果に基づいて、前記推論対象画像に映っている検知対象物体の認識として、前記検知対象物体の存在している領域を認識することを特徴とする請求項1記載の推論装置。
  6. 前記物体認識部は、
    種類及び存在している領域のそれぞれが互いに異なる複数の検知対象物体の代表特徴量と前記特徴量抽出部により取得された推論時特徴量とを比較して、前記複数の検知対象物体の代表特徴量の中で、前記特徴量抽出部により取得された推論時特徴量に対応している代表特徴量を特定し、前記代表特徴量の特定結果に基づいて、前記推論対象画像に映っている検知対象物体の認識として、前記検知対象物体の種類及び存在している領域のそれぞれを認識することを特徴とする請求項1記載の推論装置。
  7. 前記学習モデルは、多層ニューラルネットワーク(Deep Neural Networks:DNNs)を備えるものであり、
    前記特徴量抽出部は、前記画像信号取得部により取得された画像信号を、前記DNNsに与えて、前記DNNsから、前記推論時特徴量を取得することを特徴とする請求項1記載の推論装置。
  8. 画像信号取得部が、学習用画像と画像のドメインが異なる場合と、事前学習したタスクと認識タスクの異なる場合とのうち、1つ以上が異なる場合において、検知対象物体が映っている画像である推論対象画像を示す画像信号を取得し、
    特徴量抽出部が、前記画像信号取得部により取得された画像信号を、前記学習用画像の学習が済んでいる学習モデルに与えて、前記学習モデルから、前記推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから前記複数の特徴量が結合された特徴量である推論時特徴量を取得し、
    物体認識部が、前記推論対象画像と画像のドメイン及び認識タスクのそれぞれが同じ対象である変換用画像に映っている検知対象物体の登録済みの特徴量である代表特徴量と前記特徴量抽出部により取得された推論時特徴量とに基づいて、前記推論対象画像に映っている検知対象物体を認識する
    推論方法。
  9. 画像信号取得部が、学習用画像と画像のドメインが異なる場合と、事前学習したタスクと認識タスクの異なる場合とのうち、1つ以上が異なる場合において、検知対象物体が映っている画像である推論対象画像を示す画像信号を取得する画像信号取得手順と、
    特徴量抽出部が、前記画像信号取得部により取得された画像信号を、前記学習用画像の学習が済んでいる学習モデルに与えて、前記学習モデルから、前記推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから前記複数の特徴量が結合された特徴量である推論時特徴量を取得する特徴量取得手順と、
    物体認識部が、前記推論対象画像と画像のドメイン及び認識タスクのそれぞれが同じ対象である変換用画像に映っている検知対象物体の登録済みの特徴量である代表特徴量と前記特徴量抽出部により取得された推論時特徴量とに基づいて、前記推論対象画像に映っている検知対象物体を認識する物体認識手順とをコンピュータに実行させるための推論プログラム。
JP2022562622A 2022-08-02 2022-08-02 推論装置、推論方法及び推論プログラム Active JP7317246B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/029597 WO2023074075A1 (ja) 2022-08-02 2022-08-02 推論装置、推論方法及び推論プログラム

Publications (2)

Publication Number Publication Date
JPWO2023074075A1 JPWO2023074075A1 (ja) 2023-05-04
JP7317246B1 true JP7317246B1 (ja) 2023-07-28

Family

ID=86159362

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022562622A Active JP7317246B1 (ja) 2022-08-02 2022-08-02 推論装置、推論方法及び推論プログラム

Country Status (5)

Country Link
JP (1) JP7317246B1 (ja)
KR (1) KR20240019054A (ja)
CN (1) CN116368534A (ja)
CA (1) CA3194092A1 (ja)
WO (1) WO2023074075A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019185127A (ja) * 2018-04-02 2019-10-24 キヤノン株式会社 多層ニューラルネットワークの学習装置およびその制御方法
JP2019212296A (ja) * 2018-05-31 2019-12-12 キヤノンメディカルシステムズ株式会社 医用情報処理装置、方法及びプログラム
JP2020101948A (ja) * 2018-12-20 2020-07-02 株式会社日立製作所 行動認識システム及び行動認識方法
JP2022037955A (ja) * 2020-08-26 2022-03-10 株式会社日立製作所 学習モデルを選択するシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019185127A (ja) * 2018-04-02 2019-10-24 キヤノン株式会社 多層ニューラルネットワークの学習装置およびその制御方法
JP2019212296A (ja) * 2018-05-31 2019-12-12 キヤノンメディカルシステムズ株式会社 医用情報処理装置、方法及びプログラム
JP2020101948A (ja) * 2018-12-20 2020-07-02 株式会社日立製作所 行動認識システム及び行動認識方法
JP2022037955A (ja) * 2020-08-26 2022-03-10 株式会社日立製作所 学習モデルを選択するシステム

Also Published As

Publication number Publication date
JPWO2023074075A1 (ja) 2023-05-04
CA3194092A1 (en) 2023-05-04
CN116368534A (zh) 2023-06-30
WO2023074075A1 (ja) 2023-05-04
KR20240019054A (ko) 2024-02-14

Similar Documents

Publication Publication Date Title
Lim et al. Real-time traffic sign recognition based on a general purpose GPU and deep-learning
CN108960266B (zh) 图像目标检测方法及装置
Kafai et al. Dynamic Bayesian networks for vehicle classification in video
JP6710135B2 (ja) 細胞画像の自動分析方法及びシステム
US9466000B2 (en) Dynamic Bayesian Networks for vehicle classification in video
US7680748B2 (en) Creating a model tree using group tokens for identifying objects in an image
Ciberlin et al. Object detection and object tracking in front of the vehicle using front view camera
US20220366181A1 (en) Devices, systems, and methods for anomaly detection
US20200104940A1 (en) Artificial intelligence enabled assessment of damage to automobiles
JP7392488B2 (ja) 遺留物誤検出の認識方法、装置及び画像処理装置
CN112541394A (zh) 黑眼圈及鼻炎识别方法、系统及计算机介质
Parhizkar et al. Recognizing the damaged surface parts of cars in the real scene using a deep learning framework
CN112036250B (zh) 基于邻域协同注意力的行人重识别方法、系统、介质及终端
JP7317246B1 (ja) 推論装置、推論方法及び推論プログラム
CN112287905A (zh) 车辆损伤识别方法、装置、设备及存储介质
CN114140671A (zh) 基于多尺度融合的高分辨率芯片图像的分类方法和装置
Romero Bautista et al. ICM image separation based available parking space detection.
JP7345680B2 (ja) 推論装置、推論方法及び推論プログラム
Jarraya et al. Adaptive moving shadow detection and removal by new semi-supervised learning technique
CN111814852B (zh) 图像检测方法、装置、电子设备和计算机可读存储介质
Wolf et al. Addressing bias in fine-grained classification datasets: A strategy for reliable evaluation
US20220335631A1 (en) Devices, systems, and methods for anomaly detection
WO2022190531A1 (ja) 物体検出装置、物体検出方法、およびプログラム
Deo et al. Online Monitoring of Iron Ore Pellet Size Distribution Using Lightweight Convolutional Neural Network
Park et al. Don’t Wait Until the Accident Happens: Few-Shot Classification Framework for Car Accident Inspection in a Real World

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230718

R150 Certificate of patent or registration of utility model

Ref document number: 7317246

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150