JP7317246B1

JP7317246B1 - 推論装置、推論方法及び推論プログラム

Info

Publication number: JP7317246B1
Application number: JP2022562622A
Authority: JP
Inventors: 友哉澤田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2023-07-28
Anticipated expiration: 2042-08-02
Also published as: CA3194092A1; KR20240019054A; JPWO2023074075A1; WO2023074075A1; CN116368534A

Abstract

学習用画像と画像のドメインが異なる場合と、事前学習したタスクと認識タスクの異なる場合とのうち、１つ以上が異なる場合において、検知対象物体が映っている画像である推論対象画像を示す画像信号を取得する画像信号取得部（１１）と、画像信号取得部（１１）により取得された画像信号を、学習用画像の学習が済んでいる学習モデル（１ａ）に与えて、学習モデル（１ａ）から、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である推論時特徴量を取得する特徴量抽出部（１２）とを備えるように、推論装置（３）を構成した。また、推論装置（３）は、推論対象画像と画像のドメイン及び認識タスクのそれぞれが同じ対象である変換用画像に映っている検知対象物体の登録済みの特徴量である代表特徴量と特徴量抽出部（１２）により取得された推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体を認識する物体認識部（１５）を備えている。

Description

本開示は、推論装置、推論方法及び推論プログラムに関するものである。

適合ドメインの学習データが少ない場合に、効率よくニューラルネットワークを学習するものとして、多層ニューラルネットワーク（以下「多層ＮＮ」という）を学習する学習装置がある（例えば、特許文献１を参照）。ドメインは、学習データが示す画像の種類を意味し、例えば、ＲＧＢ画像と赤外線カメラ画像（以下「ＴＩＲ画像」という）とは、互いに画像の種類が異なる。
当該学習装置は、第１の学習手段と第１の生成手段と第２の学習手段とを備えている。第１の学習手段は、第１のデータ群を用いて第１の多層ＮＮを学習する。第１の生成手段は、第１の多層ＮＮにおける第１の層と、第１の層に後続する第２の層との間に第２の多層ＮＮを生成する。第２の学習手段は、第１のデータ群と特性が異なる第２のデータ群を用いて第２の多層ＮＮを学習する。第１のデータ群及び第２のデータ群のそれぞれは、学習データである。

特開２０１９－１８５１２７号公報

特許文献１に開示されている学習装置では、学習データに対応するタスクと、ニューラルネットワークの出力データを取得して推論を行う推論時のタスクとが異なることがある。例えば、学習データに対応するタスクが画像認識タスクであるとき、推論時のタスクが物体認識タスクであれば、学習データに対応するタスクと推論時のタスクとが異なる。また、学習データが示す画像のドメインと推論時の画像のドメインとが異なることがある。タスク又はドメインのいずれかが異なる場合、推論時のタスクによる推論の精度が劣化してしまうことがあるという課題があった。

本開示は、上記のような課題を解決するためになされたもので、タスク及びドメインのうち、１つ以上が異なる場合でも、推論精度の劣化を抑えることができる推論装置を得ることを目的とする。

本開示に係る推論装置は、学習用画像と画像のドメインが異なる場合と、事前学習したタスクと認識タスクの異なる場合とのうち、１つ以上が異なる場合において、検知対象物体が映っている画像である推論対象画像を示す画像信号を取得する画像信号取得部と、画像信号取得部により取得された画像信号を、学習用画像の学習が済んでいる学習モデルに与えて、学習モデルから、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である推論時特徴量を取得する特徴量抽出部とを備えている。また、推論装置は、推論対象画像と画像のドメイン及び認識タスクのそれぞれが同じ対象である変換用画像に映っている検知対象物体の登録済みの特徴量である代表特徴量と特徴量抽出部により取得された推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体を認識する物体認識部を備えている。

本開示によれば、タスク及びドメインのうち、１つ以上が異なる場合でも、推論精度の劣化を抑えることができる。

実施の形態１に係る推論装置３を示す構成図である。実施の形態１に係る推論装置３のハードウェアを示すハードウェア構成図である。推論装置３が、ソフトウェア又はファームウェア等によって実現される場合のコンピュータのハードウェア構成図である。学習装置６を示す構成図である。学習装置６のハードウェアを示すハードウェア構成図である。学習装置６が、ソフトウェア又はファームウェア等によって実現される場合のコンピュータのハードウェア構成図である。ドメイン変換時の推論装置３の処理手順を示すフローチャートである。物体認識時の推論装置３の処理手順である推論方法を示すフローチャートである。実施の形態２に係る推論装置３を示す構成図である。実施の形態２に係る推論装置３のハードウェアを示すハードウェア構成図である。実施の形態３に係る推論装置３を示す構成図である。実施の形態３に係る推論装置３のハードウェアを示すハードウェア構成図である。実施の形態４に係る推論装置３を示す構成図である。実施の形態４に係る推論装置３のハードウェアを示すハードウェア構成図である。

以下、本開示をより詳細に説明するために、本開示を実施するための形態について、添付の図面に従って説明する。

実施の形態１．
図１は、実施の形態１に係る推論装置３を示す構成図である。
図２は、実施の形態１に係る推論装置３のハードウェアを示すハードウェア構成図である。
図１において、モデル記憶部１は、例えば、ハードディスク、又は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）によって実現される。
モデル記憶部１は、学習モデル１ａを記憶している。

学習モデル１ａは、例えば、多層ニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ：ＤＮＮｓ）によって実現される。ＤＮＮｓの中には、畳み込みニューラルネットワークであるＣＮＮｓ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）が含まれる。
学習モデル１ａは、学習時に、学習データとして、学習用画像を示す画像信号が与えられて、学習用画像の学習が済んでいる。学習用画像は、例えば、画像認識タスクに用いられる画像である。
学習用画像のドメインである画像の種類は、どのようなものでもよく、学習用画像は、例えば、ＲＧＢ画像、ＴＩＲ画像、又は、ＣＧシミュレータによって生成された画像のいずれかである。
図１に示す推論装置３では、説明の便宜上、学習用画像がＲＧＢ画像であるものとして説明する。学習モデル１ａは、大量のＲＧＢ画像が与えられて、ＲＧＢ画像を学習しているものである。
学習モデル１ａは、後述する特徴量抽出部１２から、学習用画像と画像のドメイン及び認識タスクのそれぞれが異なる場合において、検知対象物体が映っている画像である変換用画像を示す画像信号が与えられたとき、変換用画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量を示す特徴ベクトルを特徴量抽出部１２に出力する。
変換用画像は、学習用画像と画像のドメイン及び認識タスクのうち、１つ以上が異なる画像であればよい。図１に示す推論装置３では、説明の便宜上、変換用画像がＴＩＲ画像であるものとして説明する。

学習モデル１ａを実現するＣＮＮｓは、非常にディープなＣＮＮｓである。非常にディープなＣＮＮｓとしては、例えば、１０１層あるＲｅｓＮｅｔがある。このため、例えば物体認識時において、学習モデル１ａの入力層に画像信号が与えられたときに、学習モデル１ａの出力層から出力される特徴ベクトルが示す特徴量は、高次元特徴量である。高次元特徴量は、複数の次元の特徴量を含むものであり、高次元特徴量を示す特徴ベクトルとしては、例えば、Ｔｅｎｓｏｒが用いられる。
学習モデル１ａに含まれている複数段の隠れ層のうち、浅い層から出力される低次元特徴量は、例えば、色、輝度、又は、方向を示すものである。このため、低次元特徴量は、入力層に与えられる画像信号が示す画像のドメインに依存する。つまり、ＲＧＢ画像の画像信号が学習モデル１ａの入力層に与えられたときに、学習モデル１ａの浅い層から出力される特徴ベクトルが示す特徴量と、ＴＩＲ画像の画像信号が学習モデル１ａの入力層に与えられたときに、学習モデル１ａの浅い層から出力される特徴ベクトルが示す特徴量とは、大きく異なることがある。
一方、学習モデル１ａの十分に深い中間層から出力される高次元特徴量は、検知対象物体を表現する概念的な特徴を示すものである。このため、高次元特徴量は、入力層に与えられる画像信号が示す画像のドメインへの依存度が極めて低い概念的な情報となる。また、より深い層の高次元特徴を採用することで、タスクへの依存度の低い汎用的な情報を取得することが可能となる。概念的な物体の特徴は、例えば、“Ｏｂｊｅｃｔｎｅｓｓ”、又は、“Ｉｎｆｏｒｍａｔｉｖｅｎｅｓｓ”が知られている。
つまり、ＲＧＢ画像の画像信号が学習モデル１ａの入力層に与えられたときに、学習モデル１ａの出力層から出力される特徴ベクトルが示す高次元特徴量と、ＴＩＲ画像の画像信号が学習モデル１ａの入力層に与えられたときに、学習モデル１ａの出力層から出力される特徴ベクトルが示す高次元特徴量との差異は小さい。
したがって、学習モデル１ａがＣＮＮｓによって実現されて、推論装置３が、ＣＮＮｓの十分に深い中間層から出力される特徴ベクトルが示す高次元特徴量を用いる場合、入力層に与えられる画像信号が示す画像のドメインへの依存性と認識タスクへの依存性とが軽減される。

検知対象物体は、例えば、正常又は異常の判別のほか、異常が生じている位置の検出が行われる製品が該当する。具体的には、検知対象物体としては、例えば、回路基板、圧延板、又は、プラスティック成型品がある。

カメラ２は、例えば、赤外線カメラによって実現される。
カメラ２は、検知対象物体を撮影する。
推論装置３が学習時とは異なるドメインの画像を登録する際（以下「ドメイン変換時」という）には、カメラ２は、検知対象物体が映っている変換用画像を示す画像信号として、例えば検知対象物体が映っているＴＩＲ画像を示す画像信号を推論装置３に出力する。
推論装置３が検知対象物体を認識する際（以下「物体認識時」という）には、カメラ２は、検知対象物体が映っている推論対象画像を示す画像信号として、例えば検知対象物体が映っているＴＩＲ画像を示す画像信号を推論装置３に出力する。
図１では、カメラ２が、変換用画像を示す画像信号を推論装置３に出力している。しかし、これは一例に過ぎず、検知対象物体が映っている変換用画像を示す画像信号を記憶している図示せぬ記憶部から、当該画像信号が推論装置３に出力されるものであってもよい。

推論装置３は、画像信号取得部１１、特徴量抽出部１２、代表特徴量登録部１３、代表特徴量記憶部１４及び物体認識部１５を備えている。
図１に示す推論装置３では、モデル記憶部１が推論装置３の外部に設けられている。しかし、これは一例に過ぎず、例えば、モデル記憶部１が推論装置３の内部に設けられていてもよいし、学習モデル１ａが特徴量抽出部１２に内蔵されていてもよい。

画像信号取得部１１は、例えば、図２に示す画像信号取得回路２１によって実現される。
ドメイン変換時には、画像信号取得部１１は、カメラ２から、検知対象物体が映っている変換用画像を示す画像信号を取得する。
そして、画像信号取得部１１は、変換用画像を示す画像信号を特徴量抽出部１２に出力する。
物体認識時には、画像信号取得部１１は、カメラ２から、検知対象物体が映っている推論対象画像を示す画像信号を取得する。
そして、画像信号取得部１１は、推論対象画像を示す画像信号を特徴量抽出部１２に出力する。
変換用画像と推論対象画像とは、画像のドメインが同じであり、例えば共にＴＩＲ画像である。

特徴量抽出部１２は、例えば、図２に示す特徴量抽出回路２２によって実現される。
ドメイン変換時には、特徴量抽出部１２は、画像信号取得部１１により取得された画像信号を学習モデル１ａに与えて、学習モデル１ａから、変換用画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である代表特徴量を示す特徴ベクトルを取得する。
特徴量抽出部１２は、特徴ベクトルを代表特徴量登録部１３に出力する。
物体認識時には、特徴量抽出部１２は、画像信号取得部１１により取得された画像信号を学習モデル１ａに与えて、学習モデル１ａから、推論対象画像に映っている検知対象物体の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である推論時特徴量を示す特徴ベクトルを取得する。
特徴量抽出部１２は、特徴ベクトルを物体認識部１５に出力する。
複数の特徴量のそれぞれをぼかす処理としては、“ＰｏｏｌｉｎｇＯｐｅｒａｔｉｏｎ”が知られている。

代表特徴量登録部１３は、例えば、図２に示す代表特徴量登録回路２３によって実現される。
代表特徴量登録部１３は、特徴量抽出部１２により取得された代表特徴量を登録する。
即ち、代表特徴量登録部１３は、特徴量抽出部１２から、代表特徴量を示す特徴ベクトルを取得し、特徴ベクトルを代表特徴量記憶部１４に記憶させる。

代表特徴量記憶部１４は、例えば、図２に示す代表特徴量記憶回路２４によって実現される。
代表特徴量記憶部１４は、代表特徴量を示す特徴ベクトルを記憶する。

物体認識部１５は、例えば、図２に示す物体認識回路２５によって実現される。
物体認識部１５は、特徴量抽出部１２から、推論対象画像に映っている検知対象物体の推論時特徴量を示す特徴ベクトルを取得し、代表特徴量記憶部１４から、代表特徴量を示す特徴ベクトルを取得する。
物体認識部１５は、代表特徴量と推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体を認識する。
具体的には、物体認識部１５は、代表特徴量を示す特徴ベクトルと推論時特徴量を示す特徴ベクトルとの類似度を算出して、類似度に基づいて、推論対象画像に映っている検知対象物体を認識する。さらに、具体的には、物体認識部１５は、類似度と閾値とを比較する。そして、物体認識部１５は、類似度と閾値との比較結果に基づいて、検知対象物体の認識として、例えば、推論対象画像に映っている検知対象物体が正常であるのか異常であるのかを認識する。また、物体認識部１５は、検知対象物体の認識として、例えば、検知対象物体を複数のクラスに分類する。
物体認識部１５は、検知対象物体の認識結果を示す表示データを生成し、表示データを表示装置４に出力する。
表示装置４は、物体認識部１５から出力された表示データに従って、検知対象物体の認識結果を図示せぬディスプレイに表示させる。

図１では、推論装置３の構成要素である画像信号取得部１１、特徴量抽出部１２、代表特徴量登録部１３、代表特徴量記憶部１４及び物体認識部１５のそれぞれが、図２に示すような専用のハードウェアによって実現されるものを想定している。即ち、推論装置３が、画像信号取得回路２１、特徴量抽出回路２２、代表特徴量登録回路２３、代表特徴量記憶回路２４及び物体認識回路２５によって実現されるものを想定している。
代表特徴量記憶回路２４は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の不揮発性又は揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、あるいは、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）が該当する。
画像信号取得回路２１、特徴量抽出回路２２、代表特徴量登録回路２３及び物体認識回路２５のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又は、これらを組み合わせたものが該当する。

推論装置３の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、推論装置３が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
ソフトウェア又はファームウェアは、プログラムとして、コンピュータのメモリに格納される。コンピュータは、プログラムを実行するハードウェアを意味し、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサ、あるいは、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）が該当する。

図３は、推論装置３が、ソフトウェア又はファームウェア等によって実現される場合のコンピュータのハードウェア構成図である。
推論装置３が、ソフトウェア又はファームウェア等によって実現される場合、代表特徴量記憶部１４がコンピュータのメモリ３１上に構成される。画像信号取得部１１、特徴量抽出部１２、代表特徴量登録部１３及び物体認識部１５におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムがメモリ３１に格納される。そして、コンピュータのプロセッサ３２がメモリ３１に格納されているプログラムを実行する。

また、図２では、推論装置３の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図３では、推論装置３がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、推論装置３における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。

図４は、学習装置６を示す構成図である。
図５は、学習装置６のハードウェアを示すハードウェア構成図である。
学習データ記憶部５は、例えば、ハードディスク、又は、ＲＡＭによって実現される。
学習データ記憶部５は、学習データとして、学習用画像を示す画像信号を記憶している。

学習装置６は、学習データ取得部４１及び学習処理部４２を備えている。
学習データ取得部４１は、例えば、図５に示す学習データ取得回路５１によって実現される。
学習データ取得部４１は、学習データ記憶部５から、学習データを取得する。
学習データ取得部４１は、学習データを学習処理部４２に出力する。

学習処理部４２は、例えば、図５に示す学習処理回路５２によって実現される。
学習処理部４２は、学習データ取得部４１から、大量の学習データを取得する。
学習処理部４２は、それぞれの学習データを学習モデル１ａに与えて、それぞれの学習データに含まれている画像信号が示す学習用画像を学習モデル１ａに学習させる。
学習済みの学習モデル１ａは、ドメイン変換時、又は、物体認識時において、画像信号が与えられたとき、当該画像信号に対応する特徴ベクトルを出力する。

図４では、学習装置６の構成要素である学習データ取得部４１及び学習処理部４２のそれぞれが、図５に示すような専用のハードウェアによって実現されるものを想定している。即ち、学習装置６が、学習データ取得回路５１及び学習処理回路５２によって実現されるものを想定している。
学習データ取得部４１及び学習処理部４２のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ、ＦＰＧＡ、又は、これらを組み合わせたものが該当する。

学習装置６の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、学習装置６が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
図６は、学習装置６が、ソフトウェア又はファームウェア等によって実現される場合のコンピュータのハードウェア構成図である。
学習装置６が、ソフトウェア又はファームウェア等によって実現される場合、学習データ取得部４１及び学習処理部４２におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムがメモリ６１に格納される。そして、コンピュータのプロセッサ６２がメモリ６１に格納されているプログラムを実行する。

また、図５では、学習装置６の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図６では、学習装置６がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、学習装置６における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。

最初に、図４に示す学習装置６の動作について説明する。
学習データ記憶部５には、大量の学習データが記憶されており、それぞれの学習データには、学習用画像を示す画像信号が含まれている。

学習装置６の学習データ取得部４１は、学習データ記憶部５から、大量の学習データを取得する。
学習データ取得部４１は、それぞれの学習データを学習処理部４２に出力する。

学習処理部４２は、学習データ取得部４１から、それぞれの学習データを取得する。
学習処理部４２は、それぞれの学習データを学習モデル１ａに与えて、それぞれの学習データに含まれている画像信号が示す学習用画像を学習モデル１ａに学習させる。
学習済みの学習モデル１ａは、例えば、ＲＧＢ画像を示す画像信号が入力層に与えられると、出力層から、当該画像信号に対応する特徴ベクトルとして、ＲＧＢ画像に映っている検知対象物体の高次元特徴量を示す特徴ベクトルを出力する。
学習モデル１ａに学習に用いられている学習用画像が、例えば、ＲＧＢ画像であって、ＴＩＲ画像が、学習用画像として用いられていない場合、ＲＧＢ画像に映っている検知対象物体とＴＩＲ画像に映っている検知対象物体とが、共に正常な同一物体であったとしても、ＲＧＢ画像を示す画像信号が入力層に与えられたときに、出力層から出力される特徴ベクトルと、ＴＩＲ画像を示す画像信号が入力層に与えられたときに、出力層から出力される特徴ベクトルとが相違することがある。
ただし、学習モデル１ａを実現するＣＮＮｓは、非常にディープなＣＮＮｓであり、学習モデル１ａの十分に深い中間層から出力される特徴ベクトルは、高次元特徴量を示すものある。このため、上記の相違は僅かなものである。
また、学習モデル１ａの十分に深い中間層から出力される特徴ベクトルが示す特徴量は、上述したように、検知対象物体の、十分に深い中間層の複数の層の特徴量のそれぞれがぼかされてから複数の層の特徴量が結合された特徴量である。このため、特徴ベクトルが示す特徴量は、画像のドメインの依存性及び認識タスクの依存性のそれぞれが排除された頑健な特徴を示すものである。

次に、ドメイン変換時における推論装置３の動作について説明する。
図７は、ドメイン変換時の推論装置３の処理手順を示すフローチャートである。
カメラ２は、検知対象物体を撮影する。カメラ２により撮影される検知対象物体は、正常な検知対象物体である。
カメラ２により撮影される検知対象物体は、異常な検知対象物体であってもよい。しかしながら、例えば、工業用製造ラインにおいて、検知対象物体に異常が発生する確率は、一般的に極めて小さいため、異常な検知対象物体を撮影することが困難であることがある。このため、ここでは、カメラ２により撮影される検知対象物体は、正常な検知対象物体であるとしている。
カメラ２は、検知対象物体が映っている変換用画像を示す画像信号として、例えば、検知対象物体が映っているＴＩＲ画像を示す画像信号を推論装置３に出力する。

画像信号取得部１１は、カメラ２から、検知対象物体が映っている変換用画像を示す画像信号を取得する（図７のステップＳＴ１）。
画像信号取得部１１は、変換用画像を示す画像信号を特徴量抽出部１２に出力する。

特徴量抽出部１２は、画像信号取得部１１から、変換用画像を示す画像信号を取得する。
特徴量抽出部１２は、画像信号から、変換用画像に映っている検知対象物体の特徴量を抽出する（図７のステップＳＴ２）。
具体的には、特徴量抽出部１２は、画像信号を学習モデル１ａに与えて、学習モデル１ａから、変換用画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である代表特徴量を示す特徴ベクトルを取得する（図７のステップＳＴ２）。
特徴量抽出部１２は、特徴ベクトルを代表特徴量登録部１３に出力する。

代表特徴量登録部１３は、特徴量抽出部１２から、特徴ベクトルを取得する。
代表特徴量登録部１３は、特徴ベクトルが示す代表特徴量を登録する（図７のステップＳＴ３）。
具体的には、代表特徴量登録部１３は、特徴ベクトルを代表特徴量記憶部１４に記憶させることで、代表特徴量を登録する。

ここで、代表特徴量を示す特徴ベクトルは、Ｔｅｎｓｏｒで表現されている。Ｔｅｎｓｏｒは、Ｖｅｃｔｏｒよりも高次元な情報を表現できるものであり、フィーチャーマップと呼ばれることがある。
Ｔｅｎｓｏｒは、高次元な情報を表現できるものであるため、代表特徴量登録部１３が、Ｔｅｎｓｏｒで表現されている特徴ベクトルをそのまま代表特徴量記憶部１４に記憶させた場合、後述する物体認識部１５が特徴ベクトルを照合する際に、多くの処理時間を要することがある。
物体認識部１５が特徴ベクトルを照合する際に要する処理時間を短縮するために、代表特徴量登録部１３が、代表特徴量を示す特徴ベクトルを、Ｔｅｎｓｏｒよりも次元数が少ないワンホットベクトル（Ｏｎｅ－ｈｏｔ－ｖｅｃｔｏｒ）に変換し、ワンホットベクトルを代表特徴量記憶部１４に記憶させるようにしてもよい。
代表特徴量登録部１３によって登録される特徴ベクトルが、Ｔｅｎｓｏｒ、又は、ワンホットベクトルのいずれであっても、数百次元等の高次元の情報が表現されるものである。このため、複数の正常な検知対象物体の間に多少のばらつきがあったとしても、特徴ベクトルは、正常な検知対象物体の代表的な特徴が高次元で記述されたものになっている。

次に、物体認識時の推論装置３の動作について説明する。
図８は、物体認識時の推論装置３の処理手順である推論方法を示すフローチャートである。
カメラ２は、検知対象物体を撮影する。カメラ２により撮影される検知対象物体は、正常な物体であるのか、異常な物体であるのかが不明である。
カメラ２は、検知対象物体が映っている推論対象画像を示す画像信号として、検知対象物体が映っているＴＩＲ画像を示す画像信号を推論装置３に出力する。

画像信号取得部１１は、カメラ２から、検知対象物体が映っている推論対象画像を示す画像信号を取得する（図８のステップＳＴ１１）。
画像信号取得部１１は、推論対象画像を示す画像信号を特徴量抽出部１２に出力する。

特徴量抽出部１２は、画像信号取得部１１から、推論対象画像を示す画像信号を取得する。
特徴量抽出部１２は、画像信号から、推論対象画像に映っている検知対象物体の特徴量を抽出する（図８のステップＳＴ１２）。
具体的には、特徴量抽出部１２は、画像信号を学習モデル１ａに与えて、学習モデル１ａから、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である推論時特徴量を示す特徴ベクトルを取得する。
特徴量抽出部１２は、特徴ベクトルを物体認識部１５に出力する。

物体認識部１５は、特徴量抽出部１２から特徴ベクトルを取得し、代表特徴量記憶部１４から代表特徴量を示す特徴ベクトルを取得する。
物体認識部１５は、代表特徴量と、特徴量抽出部１２から出力された特徴ベクトルが示す推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体を認識する（図８のステップＳＴ１３）。
具体的には、物体認識部１５は、代表特徴量を示す特徴ベクトルと推論時特徴量を示す特徴ベクトルとの類似度を算出する。代表特徴量を示す特徴ベクトルと推論時特徴量を示す特徴ベクトルとの類似度は、例えば、代表特徴量を示す特徴ベクトルと、推論時特徴量を示す特徴ベクトルとの内積を求めることで算出できる。
物体認識部１５は、類似度と閾値とを比較し、類似度と閾値との比較結果に基づいて、推論対象画像に映っている検知対象物体が正常であるのか異常であるのかを認識する。
即ち、物体認識部１５は、類似度が閾値以上であれば、検知対象物体が正常であると判定し、類似度が閾値未満であれば、検知対象物体が異常であると判定する。
閾値は、物体認識部１５の内部メモリに格納されていてもよいし、推論装置３の外部から与えられるものであってもよい。
図１に示す推論装置では、物体認識部１５が、検知対象物体を２値分類するものとして、検知対象物体が正常であるのか異常であるのかを認識する例を示している。しかし、これは一例に過ぎず、検知対象物体を複数のクラスに分類するために、物体認識部１５が、検知対象物体を認識するものであってもよい。検知対象物体を複数のクラスに分類する例は、実施の形態２～４に示している。

学習用画像が、例えばＲＧＢ画像であって、変換用画像及び推論対象画像のそれぞれが、例えばＴＩＲ画像である場合、学習用画像のドメインと、変換用画像及び推論対象画像におけるそれぞれのドメインとが異なっているものの、変換用画像のドメインと推論対象画像のドメインとは同じである。
このため、推論対象画像に映っている検知対象物体が正常な物体であれば、ドメイン変換時に特徴量抽出部１２により取得される代表特徴量と、物体認識時に特徴量抽出部１２により取得される推論時特徴量とは、概ね同じような値となる。
一方、推論対象画像に映っている検知対象物体が異常な物体であれば、ドメイン変換時に特徴量抽出部１２により取得される代表特徴量と、物体認識時に特徴量抽出部１２により取得される推論時特徴量とは、大きく異なる値となる。
したがって、物体認識部１５が、類似度と閾値とを比較することで、高精度に検知対象物体を認識することが可能である。

物体認識部１５は、検知対象物体の認識結果を示す表示データを生成する。
物体認識部１５は、表示データを表示装置４に出力する。
表示装置４は、物体認識部１５から出力された表示データに従って、検知対象物体の認識結果を図示せぬディスプレイに表示させる。
これにより、検査員等は、ディスプレイを見ることで、検知対象物体が正常であるのか異常であるのかを確認することができる。

以上の実施の形態１では、学習用画像と画像のドメインが異なる場合と、事前学習したタスクと認識タスクの異なる場合とのうち、１つ以上が異なる場合において、検知対象物体が映っている画像である推論対象画像を示す画像信号を取得する画像信号取得部１１と、画像信号取得部１１により取得された画像信号を、学習用画像の学習が済んでいる学習モデル１ａに与えて、学習モデル１ａから、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である推論時特徴量を取得する特徴量抽出部１２とを備えるように、推論装置３を構成した。また、推論装置３は、推論対象画像と画像のドメイン及び認識タスクのそれぞれが同じ対象である変換用画像に映っている検知対象物体の登録済みの特徴量である代表特徴量と特徴量抽出部１２により取得された推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体を認識する物体認識部１５を備えている。したがって、推論装置３は、タスク及びドメインのうち、１つ以上が異なる場合でも、推論精度の劣化を抑えることができる。

また、実施の形態１では、画像信号取得部１１が、変換用画像を示す画像信号を取得し、特徴量抽出部１２が、変換用画像を示す画像信号を学習モデル１ａに与えて、学習モデル１ａから、変換用画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である代表特徴量を取得するように、推論装置３を構成した。また、推論装置３は、特徴量抽出部１２により取得された代表特徴量を登録する代表特徴量登録部１３を備えている。したがって、推論装置３は、検知対象物体の認識処理に用いることが可能な代表特徴量を登録することができる。

図１に示す推論装置３では、特徴量抽出部１２が、非常にディープなＣＮＮｓによって実現されている学習モデル１ａに対して画像信号を与えて、学習モデル１ａから、検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量を取得している。
学習モデル１ａが非常にディープなＣＮＮｓによって実現されている場合には、上述したように、学習モデル１ａの入力層に与えられる画像信号が示す推論対象画像のドメインが学習用画像と異なっていても、また、検知対象物体が異なっていても、出力層から出力される特徴ベクトルの相違は僅かなものとなる。
これに対して、学習モデル１ａが一般的なニューラルネットワーク等によって実現されている場合、学習モデル１ａの入力層に与えられる画像信号が示す推論対象画像のドメイン、又は、推論対象画像に映っている検知対象物体が、学習用画像と異なっていれば、出力層から出力される特徴ベクトルの相違が大きくなることがある。
しかしながら、変換用画像のドメインと推論対象画像のドメインとが同じである。このため、学習モデル１ａが一般的なニューラルネットワーク等によって実現されている場合でも、推論対象画像に映っている検知対象物体が正常な物体であれば、ドメイン変換時に特徴量抽出部１２により取得される代表特徴量と、物体認識時に特徴量抽出部１２により取得される推論時特徴量とは、概ね同じような値となる。
一方、推論対象画像に映っている検知対象物体が異常な物体であれば、ドメイン変換時に特徴量抽出部１２により取得される代表特徴量と、物体認識時に特徴量抽出部１２により取得される推論時特徴量とは、大きく異なる値となる。
したがって、学習モデル１ａが一般的なニューラルネットワーク等によって実現されている場合でも、物体認識部１５が、高精度に検知対象物体を認識することが可能である。

実施の形態２．
実施の形態２では、検知対象物体の種類を認識する物体認識部１７を備える推論装置３について説明する。

図９は、実施の形態２に係る推論装置３を示す構成図である。図９において、図１と同一符号は同一又は相当部分を示すので説明を省略する。
図１０は、実施の形態２に係る推論装置３のハードウェアを示すハードウェア構成図である。図１０において、図２と同一符号は同一又は相当部分を示すので説明を省略する。
図９に示す推論装置３は、画像信号取得部１１、特徴量抽出部１２、代表特徴量登録部１６、代表特徴量記憶部１４及び物体認識部１７を備えている。
図９に示す推論装置３では、モデル記憶部１が推論装置３の外部に設けられている。しかし、これは一例に過ぎず、例えば、モデル記憶部１が推論装置３の内部に設けられていてもよいし、学習モデル１ａが特徴量抽出部１２に内蔵されていてもよい。

図９に示す推論装置３では、物体認識部１７により認識される検知対象物体の種類として、検知対象物体が、乗用車であるのか、トラックであるのか、又は、バスであるのかが認識される例を説明する。この場合、検知対象物体は、乗用車、トラック、又は、バスのいずれかである。この場合のタスクは、画像分類（ＩｍａｇｅＣｌａｓｓｉｆｉｃａｔｉｏｎ）のタスクである。
しかし、これは一例に過ぎず、物体認識部１７により認識される検知対象物体の種類として、検知対象物体が、車種名が○○の乗用車であるのか、車種名が△△の乗用車であるのか、又は、車種名が□□の乗用車であるのかが認識されるものであってもよい。この場合、検知対象物体は、車種名が○○の乗用車、車種名が△△の乗用車、又は、車種名が□□の乗用車のいずれかである。この場合のタスクは、“Ｆｉｎｅ－ｇｒａｉｎｅｄＩｍａｇｅＣｌａｓｓｉｆｉｃａｔｉｏｎ”と呼ばれるタスクである。

例えば、検知対象物体が、乗用車であるのか、トラックであるのか、又は、バスであるのかの認識を可能にする場合でも、学習モデル１ａには、学習用画像を示す画像信号を含む学習データが与えられる。

代表特徴量登録部１６は、例えば、図１０に示す代表特徴量登録回路２６によって実現される。
代表特徴量登録部１６は、特徴量抽出部１２により取得された代表特徴量を登録する。
即ち、代表特徴量登録部１６は、変換用画像に映っている検知対象物体である乗用車の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である代表特徴量を示す特徴ベクトルを取得し、特徴ベクトルを代表特徴量記憶部１４に記憶させる。
また、代表特徴量登録部１６は、変換用画像に映っている検知対象物体であるトラックの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である代表特徴量を示す特徴ベクトルを取得し、特徴ベクトルを代表特徴量記憶部１４に記憶させる。
また、代表特徴量登録部１６は、変換用画像に映っている検知対象物体であるバスの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である代表特徴量を示す特徴ベクトルを取得し、特徴ベクトルを代表特徴量記憶部１４に記憶させる。

物体認識部１７は、例えば、図１０に示す物体認識回路２７によって実現される。
物体認識部１７は、特徴量抽出部１２から、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である推論時特徴量を示す特徴ベクトルを取得し、代表特徴量記憶部１４から、代表特徴量を示す特徴ベクトルを取得する。
物体認識部１７は、代表特徴量と推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体を認識する。
具体的には、物体認識部１７は、種類が互いに異なる複数の検知対象物体の代表特徴量と特徴量抽出部１２により抽出された推論時特徴量とを比較して、複数の検知対象物体の代表特徴量の中で、特徴量抽出部１２により抽出された特徴量に対応している代表特徴量を特定する。
物体認識部１７は、代表特徴量の特定結果に基づいて、推論対象画像に映っている検知対象物体の種類を認識する。
物体認識部１７は、検知対象物体の認識結果を示す表示データを生成し、表示データを表示装置４に出力する。

図９では、推論装置３の構成要素である画像信号取得部１１、特徴量抽出部１２、代表特徴量登録部１６、代表特徴量記憶部１４及び物体認識部１７のそれぞれが、図１０に示すような専用のハードウェアによって実現されるものを想定している。即ち、推論装置３が、画像信号取得回路２１、特徴量抽出回路２２、代表特徴量登録回路２６、代表特徴量記憶回路２４及び物体認識回路２７によって実現されるものを想定している。
画像信号取得回路２１、特徴量抽出回路２２、代表特徴量登録回路２６及び物体認識回路２７のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ、ＦＰＧＡ、又は、これらを組み合わせたものが該当する。

推論装置３の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、推論装置３が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
推論装置３が、ソフトウェア又はファームウェア等によって実現される場合、代表特徴量記憶部１４が図３に示すメモリ３１上に構成される。画像信号取得部１１、特徴量抽出部１２、代表特徴量登録部１６及び物体認識部１７におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムが図３に示すメモリ３１に格納される。そして、図３に示すプロセッサ３２がメモリ３１に格納されているプログラムを実行する。

また、図１０では、推論装置３の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図３では、推論装置３がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、推論装置３における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。

次に、ドメイン変換時における推論装置３の動作について説明する。
カメラ２は、検知対象物体を撮影する。カメラ２により撮影される検知対象物体は、乗用車、トラック、又は、バスのいずれかである。ただし、推論装置３は、検知対象物体を、例えば１０００に分類することも可能である。このため、検知対象物体を、乗用車、トラック、又は、バスの３つに分類することは、あくまでも、一例である。
カメラ２は、検知対象物体である乗用車が映っている変換用画像を示す画像信号として、例えば、乗用車が映っているＴＩＲ画像を示す画像信号を推論装置３に出力する。
カメラ２は、検知対象物体であるトラックが映っている変換用画像を示す画像信号として、例えば、トラックが映っているＴＩＲ画像を示す画像信号を推論装置３に出力する。
また、カメラ２は、検知対象物体であるバスが映っている変換用画像を示す画像信号として、例えば、バスが映っているＴＩＲ画像を示す画像信号を推論装置３に出力する。
変換用画像は、必ずしも、ＴＩＲ画像に限るものではないが、ＲＧＢ画像の場合、夜間の画像認識が困難なため、検知対象物体の認識精度が劣化することがある。このため、変換用画像として、ＴＩＲ画像を用いている。

画像信号取得部１１は、カメラ２から、乗用車が映っている変換用画像を示す画像信号を取得し、変換用画像を示す画像信号を特徴量抽出部１２に出力する。
画像信号取得部１１は、カメラ２から、トラックが映っている変換用画像を示す画像信号を取得し、変換用画像を示す画像信号を特徴量抽出部１２に出力する。
また、画像信号取得部１１は、カメラ２から、バスが映っている変換用画像を示す画像信号を取得し、変換用画像を示す画像信号を特徴量抽出部１２に出力する。

特徴量抽出部１２は、画像信号取得部１１から、乗用車が映っている変換用画像を示す画像信号を取得する。
特徴量抽出部１２は、画像信号から、変換用画像に映っている乗用車の特徴量を抽出する。
具体的には、特徴量抽出部１２は、画像信号を学習モデル１ａに与えて、学習モデル１ａから、変換用画像に映っている乗用車の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルＦｖ１を取得する。
特徴量抽出部１２は、特徴ベクトルＦｖ１を代表特徴量登録部１６に出力する。

また、特徴量抽出部１２は、画像信号取得部１１から、トラックが映っている変換用画像を示す画像信号を取得する。
特徴量抽出部１２は、画像信号から、変換用画像に映っているトラックの特徴量を抽出する。
具体的には、特徴量抽出部１２は、画像信号を学習モデル１ａに与えて、学習モデル１ａから、変換用画像に映っているトラックの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルＦｖ２を取得する。
特徴量抽出部１２は、特徴ベクトルＦｖ２を代表特徴量登録部１６に出力する。

また、特徴量抽出部１２は、画像信号取得部１１から、バスが映っている変換用画像を示す画像信号を取得する。
特徴量抽出部１２は、画像信号から、変換用画像に映っているバスの特徴量を抽出する。
具体的には、特徴量抽出部１２は、画像信号を学習モデル１ａに与えて、学習モデル１ａから、変換用画像に映っているバスの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルＦｖ３を取得する。
特徴量抽出部１２は、特徴ベクトルＦｖ３を代表特徴量登録部１６に出力する。

代表特徴量登録部１６は、特徴量抽出部１２から、特徴ベクトルＦｖ１を取得する。
代表特徴量登録部１６は、特徴ベクトルＦｖ１を代表特徴量記憶部１４に記憶させることで、代表特徴量を登録する。
また、代表特徴量登録部１６は、特徴量抽出部１２から、特徴ベクトルＦｖ２を取得する。
代表特徴量登録部１６は、特徴ベクトルＦｖ２を代表特徴量記憶部１４に記憶させることで、代表特徴量を登録する。
また、代表特徴量登録部１６は、特徴量抽出部１２から、特徴ベクトルＦｖ３を取得する。
代表特徴量登録部１６は、特徴ベクトルＦｖ３を代表特徴量記憶部１４に記憶させることで、代表特徴量を登録する。

次に、物体認識時の推論装置３の動作について説明する。
カメラ２は、検知対象物体を撮影する。カメラ２により撮影される検知対象物体は、乗用車、トラック、又は、バスのいずれであるのかが不明である。
カメラ２は、検知対象物体が映っている推論対象画像を示す画像信号として、例えば、検知対象物体が映っているＴＩＲ画像を示す画像信号を推論装置３に出力する。
この例では、推論対象画像がＴＩＲ画像である。しかしながら、推論対象画像は、ドメインが変換用画像と同じであればよく、ＴＩＲ画像に限るものではない。

画像信号取得部１１は、カメラ２から、検知対象物体が映っている推論対象画像を示す画像信号を取得する。
画像信号取得部１１は、推論対象画像を示す画像信号を特徴量抽出部１２に出力する。

特徴量抽出部１２は、画像信号取得部１１から、推論対象画像を示す画像信号を取得する。
特徴量抽出部１２は、画像信号から、推論対象画像に映っている検知対象物体の特徴量を抽出する。
具体的には、特徴量抽出部１２は、画像信号を学習モデル１ａに与えて、学習モデル１ａから、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された推論時特徴量を示す特徴ベクトルＦｖを取得する。
特徴量抽出部１２は、特徴ベクトルＦｖを物体認識部１７に出力する。

物体認識部１７は、特徴量抽出部１２から、特徴ベクトルＦｖを取得する。
また、物体認識部１７は、代表特徴量記憶部１４から、乗用車の代表特徴量を示す特徴ベクトルＦｖ１、トラックの代表特徴量を示す特徴ベクトルＦｖ２及びバスの代表特徴量を示す特徴ベクトルＦｖ３のそれぞれを取得する。
物体認識部１７は、特徴ベクトルＦｖ１，Ｆｖ２，Ｆｖ３のそれぞれと、特徴ベクトルＦｖとの類似度Ｍｒ１，Ｍｒ２，Ｍｒ３のそれぞれを算出する。
物体認識部１７は、類似度Ｍｒ１，Ｍｒ２，Ｍｒ３の中で、最も高い類似度を特定し、最も高い類似度に対応する代表特徴量を特定する。
例えば、最も高い類似度がＭｒ１であれば、最も高い類似度に対応する代表特徴量は、乗用車の代表特徴量である。最も高い類似度がＭｒ２であれば、最も高い類似度に対応する代表特徴量は、トラックの代表特徴量である。また、最も高い類似度がＭｒ３であれば、最も高い類似度に対応する代表特徴量は、バスの代表特徴量である。

物体認識部１７は、最も類似度の高い代表特徴量が、乗用車の代表特徴量であれば、推論対象画像に映っている検知対象物体の種類が乗用車であると認識する。
物体認識部１７は、最も類似度の高い代表特徴量が、トラックの代表特徴量であれば、推論対象画像に映っている検知対象物体の種類がトラックであると認識する。
物体認識部１７は、最も類似度の高い代表特徴量が、バスの代表特徴量であれば、推論対象画像に映っている検知対象物体の種類がバスであると認識する。
物体認識部１７は、検知対象物体の認識結果を示す表示データを生成し、表示データを表示装置４に出力する。

表示装置４は、物体認識部１７から出力された表示データに従って、検知対象物体の認識結果を図示せぬディスプレイに表示させる。
これにより、検査員等は、ディスプレイを見ることで、検知対象物体の種類を確認することができる。

以上の実施の形態２では、物体認識部１７が、種類が互いに異なる複数の検知対象物体の代表特徴量と特徴量抽出部１２により抽出された推論時特徴量とを比較して、複数の検知対象物体の代表特徴量の中で、特徴量抽出部１２により抽出された推論時特徴量に対応している代表特徴量を特定し、代表特徴量の特定結果に基づいて、推論対象画像に映っている検知対象物体の種類を認識するように、推論装置３を構成した。したがって、推論装置３は、タスク及びドメインのうち、１つ以上が異なる場合でも、検知対象物体の種類の認識についての推論精度の劣化を抑えることができる。

実施の形態３．
実施の形態３では、検知対象物体が存在している領域を認識する物体認識部１９を備える推論装置３について説明する。これは、物体検出（ＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ）と呼ばれるタスクである。

図１１は、実施の形態３に係る推論装置３を示す構成図である。図１１において、図１と同一符号は同一又は相当部分を示すので説明を省略する。
図１２は、実施の形態３に係る推論装置３のハードウェアを示すハードウェア構成図である。図１２において、図２と同一符号は同一又は相当部分を示すので説明を省略する。
図１１に示す推論装置３は、画像信号取得部１１、特徴量抽出部１２、代表特徴量登録部１８、代表特徴量記憶部１４及び物体認識部１９を備えている。
図１１に示す推論装置３では、モデル記憶部１が推論装置３の外部に設けられている。しかし、これは一例に過ぎず、例えば、モデル記憶部１が推論装置３の内部に設けられていてもよいし、学習モデル１ａが特徴量抽出部１２に内蔵されていてもよい。

図１１に示す推論装置３では、物体認識部１９により認識される検知対象物体の存在している領域を、例えば、乗用車、バス、又は、トラックのような複数のクラスの認識と同時に、検知対象物体が存在している空間的な位置として予測する例を説明する。

代表特徴量登録部１８は、例えば、図１２に示す代表特徴量登録回路２８によって実現される。
代表特徴量登録部１８は、特徴量抽出部１２により取得された代表特徴量を登録する。
即ち、代表特徴量登録部１８は、変換用画像に映っている、検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得し、高次元特徴における物体の存在範囲（Ｏｂｊｅｃｔｎｅｓｓ）を含む特徴ベクトルを代表特徴量記憶部１４に記憶させる。記憶させる検知対象物体の存在範囲（Ｏｂｊｅｃｔｎｅｓｓ）は、高次元特徴をＴｅｎｓｏｒとしてそのまま登録してもよく、検知対象物体の存在範囲（Ｏｂｊｅｃｔｎｅｓｓ）のみを抽出して次元圧縮して登録してもよい。

物体認識部１９は、例えば、図１２に示す物体認識回路２９によって実現される。
物体認識部１９は、特徴量抽出部１２から、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された推論時特徴量を示す特徴ベクトルを取得し、代表特徴量記憶部１４から、代表特徴量を示す特徴ベクトルを取得する。
物体認識部１９は、代表特徴量と推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体を認識する。
具体的には、物体認識部１９は、高次元特徴における物体の存在範囲（Ｏｂｊｅｃｔｎｅｓｓ）を含む特徴ベクトルが登録された代表特徴量記憶部１４より、検知対象物体の存在範囲（Ｏｂｊｅｃｔｎｅｓｓ）を含む代表特徴量を取得し、代表特徴量と特徴抽出部１２より抽出された推論時特徴量とを比較して、複数の検知対象物体の代表特徴量の中で、特徴量抽出部１２により抽出された推論時特徴量に対応している代表特徴量を特定する。最も類似した代表特徴量を持つクラスが検出対象物体の所属するクラスとなる。さらに推論時特徴量には、推論時に入力された画像に含まれる検出対象物体の存在範囲（Ｏｂｊｅｃｔｎｅｓｓ）を含むため、推論時特徴量の高次元特徴の記述方法をＴｅｎｓｏｒ等から二次元空間へ変換することで空間的な物体の存在位置を表すことが可能となる。
物体認識部１９は、検知対象物体の認識結果を示す表示データを生成し、表示データを表示装置４に出力する。ここで、二次元空間上に矩形として表現した場合は、物体検出（ＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ）タスクとなり、二次元空間上に領域として表現した場合は、セグメンテーション（ＳｅｍａｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ）タスクとなる。

図１１では、推論装置３の構成要素である画像信号取得部１１、特徴量抽出部１２、代表特徴量登録部１８、代表特徴量記憶部１４及び物体認識部１９のそれぞれが、図１２に示すような専用のハードウェアによって実現されるものを想定している。即ち、推論装置３が、画像信号取得回路２１、特徴量抽出回路２２、代表特徴量登録回路２８、代表特徴量記憶回路２４及び物体認識回路２９によって実現されるものを想定している。
画像信号取得回路２１、特徴量抽出回路２２、代表特徴量登録回路２８及び物体認識回路２９のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ、ＦＰＧＡ、又は、これらを組み合わせたものが該当する。

推論装置３の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、推論装置３が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
推論装置３が、ソフトウェア又はファームウェア等によって実現される場合、代表特徴量記憶部１４が図３に示すメモリ３１上に構成される。画像信号取得部１１、特徴量抽出部１２、代表特徴量登録部１８及び物体認識部１９におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムが図３に示すメモリ３１に格納される。そして、図３に示すプロセッサ３２がメモリ３１に格納されているプログラムを実行する。

また、図１２では、推論装置３の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図３では、推論装置３がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、推論装置３における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。

次に、ドメイン変換時における推論装置３の動作について説明する。
カメラ２は、検知対象物体を撮影する。
カメラ２は、検知対象物体が映っている変換用画像を示す画像信号として、検知対象物体が映っているＴＩＲ画像を示す画像信号を推論装置３に出力する。

画像信号取得部１１は、カメラ２から、検知対象物体が映っている変換用画像を示す画像信号を取得する。
画像信号取得部１１は、認識したい対象のクラス分それぞれの変換用画像を示す画像信号を特徴量抽出部１２に出力する。

特徴量抽出部１２は、画像信号取得部１１から、それぞれの変換用画像を示す画像信号を取得する。
特徴量抽出部１２は、それぞれの画像信号から、それぞれの変換用画像に映っている検知対象物体の特徴量を抽出する。
具体的には、特徴量抽出部１２は、画像信号を学習モデル１ａに与えて、学習モデル１ａから、検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得する。
特徴量抽出部１２は、特徴ベクトルを代表特徴量登録部１８に出力する。

代表特徴量登録部１８は、特徴量抽出部１２から、特徴ベクトルを取得する。
代表特徴量登録部１８は、特徴ベクトルを代表特徴量記憶部１４に記憶させることで、代表特徴量を登録する。

次に、物体認識時の推論装置３の動作について説明する。
カメラ２は、検知対象物体を撮影する。カメラ２により撮影される検知対象物体の位置は、不明である。
カメラ２は、検知対象物体が映っている推論対象画像を示す画像信号として、検知対象物体が映っているＴＩＲ画像を示す画像信号を推論装置３に出力する。

特徴量抽出部１２は、画像信号取得部１１から、推論対象画像を示す画像信号を取得する。
特徴量抽出部１２は、画像信号から、推論対象画像に映っている検知対象物体の特徴量を抽出する。
具体的には、特徴量抽出部１２は、画像信号を学習モデル１ａに与えて、学習モデル１ａから、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された推論時特徴量を示す特徴ベクトルを取得する。
特徴量抽出部１２は、特徴ベクトルを物体認識部１９に出力する。

物体認識部１９は、特徴量抽出部１２から、特徴ベクトルを取得する。
また、物体認識部１９は、代表特徴量記憶部１４から、代表特徴量を示す特徴ベクトルを複数取得する。
物体認識部１９は、複数の代表特徴量を示す特徴ベクトルと、特徴量抽出部１２から取得した特徴ベクトルとの類似度をそれぞれ算出する。
物体認識部１９は、認識したい対象の数だけ登録してある代表特徴量と推論時特徴量との類似度の中で、最も高い類似度を特定し、最も高い類似度に対応する代表特徴量を特定する。物体認識部１９は、特定することで、どのクラスに属するのかを判別することが可能となる。

物体認識部１９は、最も類似した代表特徴量を持つクラスが検出対象物体の所属するクラスとなる。例えば、代表特徴量と推論時特徴量のいずれもがＴＩＲ画像を入力とした場合、学習時のドメインを超えたクラス識別が可能となる。
さらに、推論時特徴量には推論時に入力された画像に含まれる検出対象物体の存在範囲（Ｏｂｊｅｃｔｎｅｓｓ）を含むため、推論時特徴量の高次元特徴の記述方法をＴｅｎｓｏｒ等から二次元空間へ変換することで空間的な物体の存在位置を表すことが可能となる。これによって、学習時のタスクが画像識別（ＩｍａｇｅＣｌａｓｓｉｆｉｃａｔｉｏｎ）であった場合、タスクを超えた認識が可能となる。
物体認識部１９は、検知対象物体の認識結果を示す表示データを生成し、表示データを表示装置４に出力する。
表示装置４は、物体認識部１９から出力された表示データに従って、検知対象物体の認識結果を図示せぬディスプレイに表示させる。
これにより、検査員等は、ディスプレイを見ることで、検知対象物体の存在している領域を確認することができる。

以上の実施の形態３では、物体認識部１９が、存在している領域のそれぞれが互いに異なる複数の検知対象物体の代表特徴量と特徴量抽出部１２により取得された推論時特徴量とを比較して、複数の検知対象物体の代表特徴量の中で、特徴量抽出部１２により取得された推論時特徴量に対応している代表特徴量を特定し、代表特徴量の特定結果に基づいて、推論対象画像に映っている検知対象物体の認識として、検知対象物体の存在している領域を認識するように、推論装置３を構成した。したがって、推論装置３は、タスク及びドメインのうち、１つ以上が異なる場合でも、検知対象物体の存在している領域の認識についての推論精度の劣化を抑えることができる。

実施の形態４．
実施の形態４では、検知対象物体の種類及び存在している領域のそれぞれを認識する物体認識部７２を備える推論装置３について説明する。

図１３は、実施の形態４に係る推論装置３を示す構成図である。図１３において、図１と同一符号は同一又は相当部分を示すので説明を省略する。
図１４は、実施の形態４に係る推論装置３のハードウェアを示すハードウェア構成図である。図１４において、図２と同一符号は同一又は相当部分を示すので説明を省略する。
図１３に示す推論装置３は、画像信号取得部１１、特徴量抽出部１２、代表特徴量登録部７１、代表特徴量記憶部１４及び物体認識部７２を備えている。
図１３に示す推論装置３では、モデル記憶部１が推論装置３の外部に設けられている。しかし、これは一例に過ぎず、例えば、モデル記憶部１が推論装置３の内部に設けられていてもよいし、学習モデル１ａが特徴量抽出部１２に内蔵されていてもよい。

図１３に示す推論装置３では、物体認識部７２により認識される検知対象物体の存在している領域が、複数のクラスの中で、検知対象物体が存在しているクラスの領域である。
また、図１３に示す推論装置３では、物体認識部７２により認識される検知対象物体の種類として、検知対象物体が、乗用車であるのか、トラックであるのか、又は、バスであるのかが認識される例を説明する。この場合、検知対象物体は、乗用車、トラック、又は、バスのいずれかである。

検知対象物体の種類及び存在している領域のそれぞれの認識を可能にする場合でも、学習モデル１ａには、学習用画像を示す画像信号を含む学習データが与えられる。

代表特徴量登録部７１は、例えば、図１４に示す代表特徴量登録回路８１によって実現される。
代表特徴量登録部７１は、特徴量抽出部１２により取得された代表特徴量を登録する。
即ち、代表特徴量登録部７１は、いずれかの領域に存在している乗用車の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得し、特徴ベクトルを代表特徴量記憶部１４に記憶させる。
また、代表特徴量登録部７１は、いずれかの領域に存在しているトラックの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得し、特徴ベクトルを代表特徴量記憶部１４に記憶させる。
また、代表特徴量登録部７１は、いずれかの領域に存在しているバスの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得し、特徴ベクトルを代表特徴量記憶部１４に記憶させる。

物体認識部７２は、例えば、図１４に示す物体認識回路８２によって実現される。
物体認識部７２は、特徴量抽出部１２から、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された推論時特徴量を示す特徴ベクトルを取得し、代表特徴量記憶部１４から、代表特徴量を示す特徴ベクトルを取得する。
物体認識部７２は、代表特徴量と推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体の種類及び存在している領域のそれぞれを認識する。
具体的には、物体認識部７２は、高次元特徴における物体の存在範囲（Ｏｂｊｅｃｔｎｅｓｓ）及び物体の種類の双方を含む特徴ベクトルが登録された代表特徴量記憶部１４より、検知対象物体の存在範囲（Ｏｂｊｅｃｔｎｅｓｓ）及び物体の種類の双方を含む代表特徴量を取得し、代表特徴量と特徴抽出部１２より抽出された推論時特徴量とを比較して、複数の検知対象物体の代表特徴量の中で、特徴量抽出部１２により抽出された推論時特徴量に対応している代表特徴量を特定する。最も類似した代表特徴量を持つクラスが検出対象物体の所属するクラスとなる。さらに推論時特徴量には、推論時に入力された画像に含まれる検出対象物体の存在範囲（Ｏｂｊｅｃｔｎｅｓｓ）を含むため、推論時特徴量の高次元特徴の記述方法をＴｅｎｓｏｒ等から二次元空間へ変換することで空間的な物体の存在位置を表すことが可能となる。
物体認識部７２は、検知対象物体の認識結果を示す表示データを生成し、表示データを表示装置４に出力する。ここで、二次元空間上に矩形として表現した場合は、物体検出（ＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ）タスクとなり、二次元空間上に領域として表現した場合は、セグメンテーション（ＳｅｍａｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ）タスクとなる。

図１３では、推論装置３の構成要素である画像信号取得部１１、特徴量抽出部１２、代表特徴量登録部７１、代表特徴量記憶部１４及び物体認識部７２のそれぞれが、図１４に示すような専用のハードウェアによって実現されるものを想定している。即ち、推論装置３が、画像信号取得回路２１、特徴量抽出回路２２、代表特徴量登録回路８１、代表特徴量記憶回路２４及び物体認識回路８２によって実現されるものを想定している。
画像信号取得回路２１、特徴量抽出回路２２、代表特徴量登録回路８１及び物体認識回路８２のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ、ＦＰＧＡ、又は、これらを組み合わせたものが該当する。

推論装置３の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、推論装置３が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
推論装置３が、ソフトウェア又はファームウェア等によって実現される場合、代表特徴量記憶部１４が図３に示すメモリ３１上に構成される。画像信号取得部１１、特徴量抽出部１２、代表特徴量登録部７１及び物体認識部７２におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムが図３に示すメモリ３１に格納される。そして、図３に示すプロセッサ３２がメモリ３１に格納されているプログラムを実行する。

また、図１４では、推論装置３の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図３では、推論装置３がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、推論装置３における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。

次に、ドメイン変換時における推論装置３の動作について説明する。
カメラ２は、検知対象物体を撮影する。カメラ２により撮影される検知対象物体は、乗用車、トラック、又は、バスのいずれかである。ただし、推論装置３は、検知対象物体を、例えば１０００に分類することも可能である。このため、検知対象物体を、乗用車、トラック、又は、バスの３つに分類することは、あくまでも、一例である。
カメラ２により撮影される検知対象物体は、いずれかの領域に存在している。
カメラ２は、いずれかの領域に存在している検知対象物体が映っている変換用画像を示す画像信号として、例えば、検知対象物体が映っているＴＩＲ画像を示す画像信号を推論装置３に出力する。

画像信号取得部１１は、カメラ２から、いずれかの領域に存在している検知対象物体が映っている変換用画像を示す画像信号を取得し、変換用画像を示す画像信号を特徴量抽出部１２に出力する。
即ち、画像信号取得部１１は、カメラ２から、いずれかの領域に存在している乗用車が映っている変換用画像を示す画像信号を取得し、変換用画像を示す画像信号を特徴量抽出部１２に出力する。
画像信号取得部１１は、カメラ２から、いずれかの領域に存在しているトラックが映っている変換用画像を示す画像信号を取得し、変換用画像を示す画像信号を特徴量抽出部１２に出力する。
また、画像信号取得部１１は、カメラ２から、いずれかの領域に存在しているバスが映っている変換用画像を示す画像信号を取得し、変換用画像を示す画像信号を特徴量抽出部１２に出力する。

特徴量抽出部１２は、画像信号取得部１１から、いずれかの領域に存在している乗用車が映っている変換用画像を示す画像信号を取得する。
特徴量抽出部１２は、それぞれの画像信号から、それぞれの変換用画像に映っている乗用車の特徴量を抽出する。
具体的には、特徴量抽出部１２は、画像信号を学習モデル１ａに与えて、学習モデル１ａから、いずれかの領域に存在している乗用車の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得する。
特徴量抽出部１２は、特徴ベクトルを代表特徴量登録部７１に出力する。

また、特徴量抽出部１２は、画像信号取得部１１から、いずれかの領域に存在しているトラックが映っている変換用画像を示す画像信号を取得する。
特徴量抽出部１２は、それぞれの画像信号から、それぞれの変換用画像に映っているトラックの特徴量を抽出する。
具体的には、特徴量抽出部１２は、画像信号を学習モデル１ａに与えて、学習モデル１ａから、いずれかの領域に存在しているトラックの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得する。
特徴量抽出部１２は、特徴ベクトルを代表特徴量登録部７１に出力する。

また、特徴量抽出部１２は、画像信号取得部１１から、いずれかの領域に存在しているバスが映っている変換用画像を示す画像信号を取得する。
特徴量抽出部１２は、それぞれの画像信号から、それぞれの変換用画像に映っているバスの特徴量を抽出する。
具体的には、特徴量抽出部１２は、画像信号を学習モデル１ａに与えて、学習モデル１ａから、いずれかの領域に存在しているバスの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得する。
特徴量抽出部１２は、特徴ベクトルを代表特徴量登録部７１に出力する。

代表特徴量登録部７１は、特徴量抽出部１２から、それぞれの特徴ベクトルを取得する。
代表特徴量登録部７１は、それぞれの特徴ベクトルを代表特徴量記憶部１４に記憶させることで、代表特徴量を登録する。

次に、物体認識時の推論装置３の動作について説明する。
カメラ２は、検知対象物体を撮影する。カメラ２により撮影される検知対象物体は、乗用車、トラック、又は、バスのいずれであるのかが不明である。また、カメラ２により撮影される検知対象物体の存在している領域は、不明である。
カメラ２は、検知対象物体が映っている推論対象画像を示す画像信号として、検知対象物体が映っているＴＩＲ画像を示す画像信号を推論装置３に出力する。

特徴量抽出部１２は、画像信号取得部１１から、推論対象画像を示す画像信号を取得する。
特徴量抽出部１２は、画像信号から、推論対象画像に映っている検知対象物体の特徴量を抽出する。
具体的には、特徴量抽出部１２は、画像信号を学習モデル１ａに与えて、学習モデル１ａから、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された推論時特徴量を示す特徴ベクトルを取得する。
特徴量抽出部１２は、特徴ベクトルを物体認識部７２に出力する。

物体認識部７２は、特徴量抽出部１２から、特徴ベクトルを取得する。
また、物体認識部７２は、代表特徴量記憶部１４から、代表特徴量を示す特徴ベクトルを複数取得する。
物体認識部７２は、複数の代表特徴量を示す特徴ベクトルと、特徴量抽出部１２から取得した特徴ベクトルとの類似度をそれぞれ算出する。

物体認識部７２は、認識したい対象の数だけ登録してある代表特徴量と推論時特徴量との類似度の中で、最も高い類似度を特定し、最も高い類似度に対応する代表特徴量を特定する。物体認識部１９は、特定することで、どのクラスに属するのかを判別することが可能となる。

物体認識部７２は、最も類似した代表特徴量を持つクラスが検出対象物体の所属するクラスとなる。例えば、代表特徴量と推論時特徴量のいずれもがＴＩＲ画像を入力とした場合、学習時のドメインを超えたクラス識別が可能となる。
さらに、推論時特徴量には推論時に入力された画像に含まれる検出対象物体の存在範囲（Ｏｂｊｅｃｔｎｅｓｓ）を含むため、推論時特徴量の高次元特徴の記述方法をＴｅｎｓｏｒ等から二次元空間へ変換することで空間的な物体の存在位置を表すことが可能となる。これによって、学習時のタスクが画像識別（ＩｍａｇｅＣｌａｓｓｉｆｉｃａｔｉｏｎ）であった場合、タスクを超えた認識が可能となる。
物体認識部７２は、最も類似度の高い代表特徴量が、例えば、乗用車の代表特徴量であれば、推論対象画像に映っている検知対象物体の種類が乗用車であることを認識し、かつ、検知対象物体の存在している領域を認識する。
物体認識部７２は、最も類似度の高い代表特徴量が、例えば、トラックの代表特徴量であれば、推論対象画像に映っている検知対象物体の種類がトラックあることを認識し、かつ、検知対象物体の存在している領域を認識する。
物体認識部７２は、最も類似度の高い代表特徴量が、例えば、バスの代表特徴量であれば、推論対象画像に映っている検知対象物体の種類がバスであることを認識し、かつ、検知対象物体の存在している領域を認識する。

物体認識部７２は、検知対象物体の認識結果を示す表示データを生成し、表示データを表示装置４に出力する。
表示装置４は、物体認識部７２から出力された表示データに従って、検知対象物体の認識結果を図示せぬディスプレイに表示させる。
これにより、検査員等は、ディスプレイを見ることで、検知対象物体の種類及び存在している領域のそれぞれを確認することができる。

以上の実施の形態４では、物体認識部７２が、種類及び存在している領域のそれぞれが互いに異なる複数の検知対象物体の代表特徴量と特徴量抽出部１２により取得された推論時特徴量とを比較して、複数の検知対象物体の代表特徴量の中で、特徴量抽出部１２により取得された推論時特徴量に対応している代表特徴量を特定し、代表特徴量の特定結果に基づいて、推論対象画像に映っている検知対象物体の認識として、検知対象物体の種類及び存在している領域のそれぞれを認識するように、推論装置３を構成した。したがって、推論装置３は、タスク及びドメインのうち、１つ以上が異なる場合でも、検知対象物体の種類及び存在している領域のそれぞれの認識についての推論精度の劣化を抑えることができる。

なお、本開示は、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

本開示は、推論装置、推論方法及び推論プログラムに適している。

１モデル記憶部、１ａ学習モデル、２カメラ、３推論装置、４表示装置、５学習データ記憶部、６学習装置、１１画像信号取得部、１２特徴量抽出部、１３代表特徴量登録部、１４代表特徴量記憶部、１５物体認識部、１６，１８代表特徴量登録部、１７，１９物体認識部、２１画像信号取得回路、２２特徴量抽出回路、２３代表特徴量登録回路、２４代表特徴量記憶回路、２５物体認識回路、２６，２８代表特徴量登録回路、２７，２９物体認識回路、３１メモリ、３２プロセッサ、４１学習データ取得部、４２学習処理部、５１学習データ取得回路、５２学習処理回路、６１メモリ、６２プロセッサ、７１代表特徴量登録部、７２物体認識部、８１代表特徴量登録回路、８２物体認識回路。

Claims

学習用画像と画像のドメインが異なる場合と、事前学習したタスクと認識タスクの異なる場合とのうち、１つ以上が異なる場合において、検知対象物体が映っている画像である推論対象画像を示す画像信号を取得する画像信号取得部と、
前記画像信号取得部により取得された画像信号を、前記学習用画像の学習が済んでいる学習モデルに与えて、前記学習モデルから、前記推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから前記複数の特徴量が結合された特徴量である推論時特徴量を取得する特徴量抽出部と、
前記推論対象画像と画像のドメイン及び認識タスクのそれぞれが同じ対象である変換用画像に映っている検知対象物体の登録済みの特徴量である代表特徴量と前記特徴量抽出部により取得された推論時特徴量とに基づいて、前記推論対象画像に映っている検知対象物体を認識する物体認識部と
を備えた推論装置。
前記画像信号取得部は、
前記変換用画像を示す画像信号を取得し、
前記特徴量抽出部は、
前記変換用画像を示す画像信号を前記学習モデルに与えて、前記学習モデルから、前記変換用画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから当該複数の特徴量が結合された特徴量である代表特徴量を取得し、
前記特徴量抽出部により取得された代表特徴量を登録する代表特徴量登録部を備えたことを特徴とする請求項１記載の推論装置。
前記物体認識部は、
前記代表特徴量を示す特徴ベクトルと前記特徴量抽出部により取得された推論時特徴量を示す特徴ベクトルとの類似度を算出し、前記類似度に基づいて、前記推論対象画像に映っている検知対象物体を認識することを特徴とする請求項１記載の推論装置。
前記物体認識部は、
種類が互いに異なる複数の検知対象物体の代表特徴量と前記特徴量抽出部により取得された推論時特徴量とを比較して、前記複数の検知対象物体の代表特徴量の中で、前記特徴量抽出部により取得された推論時特徴量に対応している代表特徴量を特定し、前記代表特徴量の特定結果に基づいて、前記推論対象画像に映っている検知対象物体の認識として、前記検知対象物体の種類を認識することを特徴とする請求項１記載の推論装置。
前記物体認識部は、
存在している領域が互いに異なる複数の検知対象物体の代表特徴量と前記特徴量抽出部により取得された推論時特徴量とを比較して、前記複数の検知対象物体の代表特徴量の中で、前記特徴量抽出部により取得された推論時特徴量に対応している代表特徴量を特定し、前記代表特徴量の特定結果に基づいて、前記推論対象画像に映っている検知対象物体の認識として、前記検知対象物体の存在している領域を認識することを特徴とする請求項１記載の推論装置。
前記物体認識部は、
種類及び存在している領域のそれぞれが互いに異なる複数の検知対象物体の代表特徴量と前記特徴量抽出部により取得された推論時特徴量とを比較して、前記複数の検知対象物体の代表特徴量の中で、前記特徴量抽出部により取得された推論時特徴量に対応している代表特徴量を特定し、前記代表特徴量の特定結果に基づいて、前記推論対象画像に映っている検知対象物体の認識として、前記検知対象物体の種類及び存在している領域のそれぞれを認識することを特徴とする請求項１記載の推論装置。
前記学習モデルは、多層ニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ：ＤＮＮｓ）を備えるものであり、
前記特徴量抽出部は、前記画像信号取得部により取得された画像信号を、前記ＤＮＮｓに与えて、前記ＤＮＮｓから、前記推論時特徴量を取得することを特徴とする請求項１記載の推論装置。
画像信号取得部が、学習用画像と画像のドメインが異なる場合と、事前学習したタスクと認識タスクの異なる場合とのうち、１つ以上が異なる場合において、検知対象物体が映っている画像である推論対象画像を示す画像信号を取得し、
特徴量抽出部が、前記画像信号取得部により取得された画像信号を、前記学習用画像の学習が済んでいる学習モデルに与えて、前記学習モデルから、前記推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから前記複数の特徴量が結合された特徴量である推論時特徴量を取得し、
物体認識部が、前記推論対象画像と画像のドメイン及び認識タスクのそれぞれが同じ対象である変換用画像に映っている検知対象物体の登録済みの特徴量である代表特徴量と前記特徴量抽出部により取得された推論時特徴量とに基づいて、前記推論対象画像に映っている検知対象物体を認識する
推論方法。
画像信号取得部が、学習用画像と画像のドメインが異なる場合と、事前学習したタスクと認識タスクの異なる場合とのうち、１つ以上が異なる場合において、検知対象物体が映っている画像である推論対象画像を示す画像信号を取得する画像信号取得手順と、
特徴量抽出部が、前記画像信号取得部により取得された画像信号を、前記学習用画像の学習が済んでいる学習モデルに与えて、前記学習モデルから、前記推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから前記複数の特徴量が結合された特徴量である推論時特徴量を取得する特徴量取得手順と、
物体認識部が、前記推論対象画像と画像のドメイン及び認識タスクのそれぞれが同じ対象である変換用画像に映っている検知対象物体の登録済みの特徴量である代表特徴量と前記特徴量抽出部により取得された推論時特徴量とに基づいて、前記推論対象画像に映っている検知対象物体を認識する物体認識手順とをコンピュータに実行させるための推論プログラム。