JP7345680B2

JP7345680B2 - 推論装置、推論方法及び推論プログラム

Info

Publication number: JP7345680B2
Application number: JP2022562623A
Authority: JP
Inventors: 友哉澤田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2023-09-15
Anticipated expiration: 2042-08-02
Also published as: CN116368535A; JPWO2023277201A1; CA3193358A1; WO2023277201A1; US20240046512A1; KR20240019055A

Description

本開示は、推論装置、推論方法及び推論プログラムに関するものである。

例えば、特許文献１には、自律移動装置の異常発生を検知する異常検知方法が開示されている。当該異常検知方法では、センサ群及び制御部のそれぞれを用いて、自律移動装置の異常発生を検知する。
センサ群は、自律移動装置における現在の状態を検知する。制御部は、センサ群から、検知開始時点から現時点までのセンサデータである時系列データを取得する。制御部は、時系列データを第１所定間隔毎に分割することで、複数の分割データを生成し、複数の分割データと時系列データとから複数のグラフを生成する。また、制御部は、複数のグラフを学習モデルに与えて、学習モデルから、異常発生の検知結果を取得する。異常発生の検知結果の中には、自律移動装置の異常な位置が含まれている。

特開２０２１－１１０９７３号公報

自律移動装置が飛翔体であれば、自律移動装置の航行は、自然環境の状態変化に影響される。自然環境の状態としては、例えば、風の強さ、風の向き、雨の有無、降雨量、雪の有無、又は、積雪量がある。
特許文献１に開示されている異常検知方法では、自然環境の状態がどのように変化しても、自律移動装置の異常発生を検知できるようにするには、自律移動装置の航行時に想定される、全ての自然環境の状態を考慮して、学習モデルを学習させる必要がある。しかしながら、全ての自然環境の状態を考慮して、学習モデルを学習させるには、極めて膨大な学習データを用意する必要があり、現実的には、十分な学習データを用意することができないことがある。このため、当該異常検知方法では、自然環境の状態によっては、自律移動装置の異常発生を検知できないことがあるという課題があった。

本開示は、上記のような課題を解決するためになされたもので、自然環境の状態を考慮して、学習モデルを学習させることなく、検知対象物体の３次元位置の時間的な変化を解析することができる推論装置を得ることを目的とする。

本開示に係る推論装置は、学習用画像と画像のドメインが異なる場合と、事前学習したタスクと認識タスクの異なる場合とのうち、１つ以上が異なる場合において、検知対象物体が映っている画像である推論対象画像を示す画像信号を取得する画像信号取得部と、画像信号取得部により取得された画像信号を、学習用画像の学習が済んでいる第１の学習モデルに与えて、第１の学習モデルから、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量であって、検知対象物体の３次元位置の推論に用いられる特徴量である推論時特徴量を取得する特徴量抽出部とを備えている。また、推論装置は、推論対象画像と画像のドメイン及び認識タスクのそれぞれが同じ対象である変換用画像に映っている検知対象物体の登録済みの特徴量である代表特徴量と特徴量抽出部により取得された推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体の３次元位置を推定する３次元位置推定部と、３次元位置推定部による３次元位置の推定結果に基づいて、推論対象画像に映っている検知対象物体の３次元位置の時間的な変化を解析する変化解析部とを備えている。

本開示によれば、自然環境の状態を考慮して、学習モデルを学習させることなく、検知対象物体の３次元位置の時間的な変化を解析することができる。

実施の形態１に係る推論装置４を示す構成図である。実施の形態１に係る推論装置４のハードウェアを示すハードウェア構成図である。推論装置４が、ソフトウェア又はファームウェア等によって実現される場合のコンピュータのハードウェア構成図である。学習装置７を示す構成図である。学習装置７のハードウェアを示すハードウェア構成図である。学習装置７が、ソフトウェア又はファームウェア等によって実現される場合のコンピュータのハードウェア構成図である。ドメイン変換時の推論装置４の処理手順を示すフローチャートである。位置推定時の推論装置４の処理手順である推論方法を示すフローチャートである。検知対象物体の３次元位置の時間的な変化を示す説明図である。

以下、本開示をより詳細に説明するために、本開示を実施するための形態について、添付の図面に従って説明する。

実施の形態１．
図１は、実施の形態１に係る推論装置４を示す構成図である。
図２は、実施の形態１に係る推論装置４のハードウェアを示すハードウェア構成図である。
図１において、モデル記憶部１は、例えば、ハードディスク、又は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）によって実現される。
モデル記憶部１は、第１の学習モデル１ａを記憶している。

第１の学習モデル１ａは、例えば、多層ニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ：ＤＮＮｓ）によって実現される。ＤＮＮｓの中には、畳み込みニューラルネットワークであるＣＮＮｓ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）が含まれる。
学習モデル１ａは、学習時に、学習データとして、学習用画像を示す画像信号が与えられて、学習用画像の学習が済んでいる。学習用画像は、例えば、画像認識タスクに用いられる画像である。
学習用画像のドメインである画像の種類は、どのようなものでもよく、学習用画像は、例えば、ＲＧＢ画像、ＴＩＲ画像、又は、ＣＧシミュレータによって生成された画像のいずれかである。
図１に示す推論装置４では、説明の便宜上、学習用画像がＲＧＢ画像であるものとして説明する。学習モデル１ａは、大量のＲＧＢ画像が与えられて、ＲＧＢ画像を学習しているものである。
学習モデル１ａは、後述する特徴量抽出部１２から、学習用画像と画像のドメイン及び認識タスクのそれぞれが異なる場合において、検知対象物体が映っている画像である変換用画像を示す画像信号が与えられたとき、変換用画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量であって、検知対象物体の３次元位置の推論に用いられる特徴量を示す特徴ベクトルを特徴量抽出部１２に出力する。
変換用画像は、学習用画像と画像のドメイン及び認識タスクのうち、１つ以上が異なる画像であればよい。図１に示す推論装置４では、説明の便宜上、変換用画像がＴＩＲ画像であるものとして説明する。

第１の学習モデル１ａを実現するＣＮＮｓは、非常にディープなＣＮＮｓである。非常にディープなＣＮＮｓとしては、例えば、１０１層あるＲｅｓＮｅｔがある。このため、例えば３次元位置の推定時において、第１の学習モデル１ａの入力層に画像信号が与えられたときに、第１の学習モデル１ａの出力層から出力される特徴ベクトルが示す特徴量は、高次元特徴量である。高次元特徴量は、複数の次元の特徴量を含むものであり、高次元特徴量を示す特徴ベクトルとしては、例えば、Ｔｅｎｓｏｒが用いられる。
学習モデル１ａに含まれている複数段の隠れ層のうち、浅い層から出力される低次元特徴量は、例えば、色、輝度、又は、方向を示すものである。このため、低次元特徴量は、入力層に与えられる画像信号が示す画像のドメインに依存する。つまり、ＲＧＢ画像の画像信号が学習モデル１ａの入力層に与えられたときに、学習モデル１ａの浅い層から出力される特徴ベクトルが示す特徴量と、ＴＩＲ画像の画像信号が学習モデル１ａの入力層に与えられたときに、学習モデル１ａの浅い層から出力される特徴ベクトルが示す特徴量とは、大きく異なることがある。
一方、学習モデル１ａの十分に深い中間層から出力される高次元特徴量は、検知対象物体の良否等を表現する概念的な特徴を示すものである。このため、高次元特徴量は、入力層に与えられる画像信号が示す画像のドメインへの依存度が極めて低い概念的な情報となる。また、より深い層の高次元特徴を採用することで、タスクへの依存度の低い汎用的な情報を取得することが可能となる。概念的な物体の特徴は、例えば、“Ｏｂｊｅｃｔｎｅｓｓ”、又は、“Ｉｎｆｏｒｍａｔｉｖｅｎｅｓｓ”が知られている。
つまり、ＲＧＢ画像の画像信号が学習モデル１ａの入力層に与えられたときに、学習モデル１ａの出力層から出力される特徴ベクトルが示す高次元特徴量と、ＴＩＲ画像の画像信号が学習モデル１ａの入力層に与えられたときに、学習モデル１ａの出力層から出力される特徴ベクトルが示す高次元特徴量との差異は小さい。
したがって、学習モデル１ａがＣＮＮｓによって実現されて、推論装置４が、ＣＮＮｓの十分に深い中間層から出力される特徴ベクトルが示す高次元特徴量を用いる場合、入力層に与えられる画像信号が示す画像のドメインへの依存性と認識タスクへの依存性とが軽減される。

モデル記憶部２は、例えば、ハードディスク、又は、ＲＡＭによって実現される。
モデル記憶部２は、第２の学習モデル２ａを記憶している。
第２の学習モデル２ａは、例えば、回帰型ニューラルネットワークであるＲＮＮｓ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ）によって実現される。
第２の学習モデル２ａは、自在学習の学習モデルであって、３次元位置を学習して３次元位置の時間的な変化を回帰する学習モデルである。
第２の学習モデル２ａは、後述する変化解析部１６から、後述する３次元位置推定部１５による３次元位置の推定結果が与えられたとき、検検知対象物体の３次元位置の時間的な変化を示す位置データとして、検知対象物体の将来の時刻の３次元位置を示す信号を変化解析部１６に出力する。

図１に示す推論装置４では、第１の学習モデル１ａ及び第２の学習モデル２ａのそれぞれが推論装置４の外部に設けられている。しかし、これは一例に過ぎず、例えば、第１の学習モデル１ａが特徴量抽出部１２に内蔵され、第２の学習モデル２ａが変化解析部１６に内蔵されていてもよい。

検知対象物体は、例えば、ドローン、空飛ぶクルマ、ヘリコプター、自動車、又は、船舶である。図１に示す推論装置４では、説明の便宜上、検知対象物体が、ドローン、空飛ぶクルマ、又は、ヘリコプターのいずれかに認識される例を説明する。
また、図１に示す推論装置４では、３次元位置推定部１５により認識される検知対象物体の３次元位置が、例えば、高次元特徴における物体の存在範囲（Ｏｂｊｅｃｔｎｅｓｓ）を含む特徴ベクトルが登録された代表特徴量記憶部１４より、検知対象物体の存在範囲（Ｏｂｊｅｃｔｎｅｓｓ）を含む代表特徴量を取得し、代表特徴量と特徴抽出部１２より抽出された推論時特徴量とを比較して、複数の検知対象物体の代表特徴量の中で、特徴量抽出部１２により抽出された推論時特徴量に対応している代表特徴量を特定する。最も類似した代表特徴量を持つクラスが検出対象物体の所属するクラスとなる。さらに、推論時特徴量には、推論時に入力された画像に含まれる検出対象物体の存在範囲（Ｏｂｊｅｃｔｎｅｓｓ）を含むため、推論時特徴量の高次元特徴の記述方法をＴｅｎｓｏｒ等から二次元空間へ変換することで空間的な物体の存在位置を表すことが可能となる。

検知対象物体が、ドローン、空飛ぶクルマ、又は、ヘリコプターのいずれかに認識される場合には、第１の学習モデル１ａに与えられる学習データは、学習用画像を示す画像信号を含む学習データである。学習用画像は、説明の便宜上、ＲＧＢ画像であるものとする。

第２の学習モデル２ａに与えられる学習データは、３次元位置推定部１５による３次元位置の推定結果である。
第２の学習モデル２ａは、３次元位置の推定結果が与えられると、３次元位置を学習して３次元位置の時間的な変化を回帰する。

カメラ３は、例えば、赤外線カメラによって実現される。
カメラ３は、検知対象物体を撮影する。
推論装置４が学習時とは異なるドメインの画像を登録する際（以下「ドメイン変換時」という）には、カメラ３は、検知対象物体が映っている変換用画像を示す画像信号として、例えば、検知対象物体が映っているＴＩＲ画像を示す画像信号を推論装置４に出力する。
推論装置４が検知対象物体の３次元位置を推定する位置推定時には、カメラ３は、検知対象物体が映っている推論対象画像を示す画像信号として、例えば、検知対象物体が映っているＴＩＲ画像を示す画像信号を推論装置４に出力する。
図１では、カメラ３が、変換用画像を示す画像信号を推論装置４に出力している。しかし、これは一例に過ぎず、検知対象物体が映っている変換用画像を示す画像信号を記憶している図示せぬ記憶部から、当該画像信号が推論装置４に出力されるものであってもよい。

画像信号取得部１１は、例えば、図２に示す画像信号取得回路２１によって実現される。
ドメイン変換時には、画像信号取得部１１は、カメラ３から、検知対象物体が映っている変換用画像を示す画像信号を取得する。
そして、画像信号取得部１１は、変換用画像を示す画像信号を特徴量抽出部１２に出力する。
位置推定時には、画像信号取得部１１は、カメラ３から、検知対象物体が映っている推論対象画像を示す画像信号を取得する。
そして、画像信号取得部１１は、推論対象画像を示す画像信号を特徴量抽出部１２に出力する。
変換用画像と推論対象画像とは、画像の種類が同じであり、例えば、共にＴＩＲ画像である。

特徴量抽出部１２は、例えば、図２に示す特徴量抽出回路２２によって実現される。
ドメイン変換時には、特徴量抽出部１２は、画像信号取得部１１により取得された画像信号を第１の学習モデル１ａに与えて、第１の学習モデル１ａから、変換用画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である代表特徴量を示す特徴ベクトルを取得する。代表特徴量は、検知対象物体の３次元位置の推論に用いられる特徴量である。
特徴量抽出部１２は、特徴ベクトルを代表特徴量登録部１３に出力する。
位置推定時には、特徴量抽出部１２は、画像信号取得部１１により取得された画像信号を第１の学習モデル１ａに与えて、第１の学習モデル１ａから、推論対象画像に映っている検知対象物体の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である推論時特徴量を示す特徴ベクトルを取得する。推論時特徴量は、検知対象物体の３次元位置の推論に用いられる特徴量である。
特徴量抽出部１２は、特徴ベクトルを３次元位置推定部１５に出力する。
複数の特徴量のそれぞれをぼかす処理としては、“ＰｏｏｌｉｎｇＯｐｅｒａｔｉｏｎ”が知られている。

代表特徴量登録部１３は、例えば、図２に示す代表特徴量登録回路２３によって実現される。
代表特徴量登録部１３は、特徴量抽出部１２により取得された代表特徴量を登録する。
即ち、代表特徴量登録部１３は、いずれかの領域に存在しているドローンの特徴量を示す特徴ベクトルを取得し、特徴ベクトルを代表特徴量記憶部１４に記憶させる。
また、代表特徴量登録部１３は、いずれかの領域に存在している空飛ぶクルマの特徴量を示す特徴ベクトルを取得し、特徴ベクトルを代表特徴量記憶部１４に記憶させる。
また、代表特徴量登録部１３は、いずれかの領域に存在しているヘリコプターの特徴量を示す特徴ベクトルを取得し、特徴ベクトルを代表特徴量記憶部１４に記憶させる。

代表特徴量記憶部１４は、例えば、図２に示す代表特徴量記憶回路２４によって実現される。
代表特徴量記憶部１４は、代表特徴量を示す特徴ベクトルを記憶する。

３次元位置推定部１５は、例えば、図２に示す３次元位置推定回路２５によって実現される。
３次元位置推定部１５は、特徴量抽出部１２から、推論対象画像に映っている検知対象物体の特徴量を示す特徴ベクトルを取得し、代表特徴量記憶部１４から、代表特徴量を示す特徴ベクトルを取得する。
３次元位置推定部１５は、代表特徴量と推論対象画像に映っている検知対象物体の特徴量とに基づいて、推論対象画像に映っている検知対象物体の３次元位置を推定する。
具体的には、３次元位置推定部１５は、代表特徴量と推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体の種類及び存在している領域のそれぞれを認識する。
具体的には、３次元位置推定部１５は、高次元特徴における物体の存在範囲（Ｏｂｊｅｃｔｎｅｓｓ）及び物体の種類の双方を含む特徴ベクトルが登録された代表特徴量記憶部１４より、検知対象物体の存在範囲（Ｏｂｊｅｃｔｎｅｓｓ）及び物体の種類の双方を含む代表特徴量を取得し、代表特徴量と特徴抽出部１２より抽出された推論時特徴量とを比較して、複数の検知対象物体の代表特徴量の中で、特徴量抽出部１２により抽出された推論時特徴量に対応している代表特徴量を特定する。最も類似した代表特徴量を持つクラスが検出対象物体の所属するクラスとなる。さらに推論時特徴量には、推論時に入力された画像に含まれる検出対象物体の存在範囲（Ｏｂｊｅｃｔｎｅｓｓ）を含むため、推論時特徴量の高次元特徴の記述方法をＴｅｎｓｏｒ等から二次元空間へ変換することで空間的な物体の存在位置を表すことが可能となる。
３次元位置推定部１５は、検知対象物体の認識結果を示す表示データを生成し、表示データを表示装置５に出力する。ここで、二次元空間上に矩形として表現した場合は、物体検出（ＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ）タスクとなり、二次元空間上に領域として表現した場合は、セグメンテーション（ＳｅｍａｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ）タスクとなる。

変化解析部１６は、例えば、図２に示す変化解析回路２６によって実現される。
変化解析部１６は、３次元位置推定部１５による３次元位置の推定結果に基づいて、推論対象画像に映っている検知対象物体の３次元位置の時間的な変化を解析する。
具体的には、変化解析部１６は、３次元位置推定部１５による次元位置の推定結果を第２の学習モデル２ａに与えて、第２の学習モデル２ａから、検知対象物体の３次元位置の時間的な変化を示す位置データを取得する。
また、変化解析部１６は、位置データに基づいて、検知対象物体が落下するか否かを判定する処理のほか、検知対象物体を多クラスに分類する処理として、検知対象物体が、例えば、ホバリングしているのか、上昇しているのか、下降しているのか、前進しているのか、又は、後退しているのかを判定する。
変化解析部１６は、検知対象物体の３次元位置の時間的な変化の解析結果を示す表示データを生成し、表示データを表示装置５に出力する。
また、変化解析部１６は、上記の判定処理の判定結果を示す表示データを生成し、表示データを表示装置５に出力する。

表示装置５は、３次元位置推定部１５から出力された表示データに従って、３次元位置の推定結果を図示せぬディスプレイに表示させる。
また、表示装置５は、変化解析部１６から出力された表示データに従って、検知対象物体の３次元位置の時間的な変化の解析結果と、判定処理の判定結果とを図示せぬディスプレイに表示させる。

図１では、推論装置４の構成要素である画像信号取得部１１、特徴量抽出部１２、代表特徴量登録部１３、代表特徴量記憶部１４、３次元位置推定部１５及び変化解析部１６のそれぞれが、図２に示すような専用のハードウェアによって実現されるものを想定している。即ち、推論装置４が、画像信号取得回路２１、特徴量抽出回路２２、代表特徴量登録回路２３、代表特徴量記憶回路２４、３次元位置推定回路２５及び変化解析回路２６によって実現されるものを想定している。
代表特徴量記憶回路２４は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の不揮発性又は揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、あるいは、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）が該当する。
画像信号取得回路２１、特徴量抽出回路２２、代表特徴量登録回路２３、３次元位置推定回路２５及び変化解析回路２６のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又は、これらを組み合わせたものが該当する。

推論装置４の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、推論装置４が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
ソフトウェア又はファームウェアは、プログラムとして、コンピュータのメモリに格納される。コンピュータは、プログラムを実行するハードウェアを意味し、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサ、あるいは、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）が該当する。

図３は、推論装置４が、ソフトウェア又はファームウェア等によって実現される場合のコンピュータのハードウェア構成図である。
推論装置４が、ソフトウェア又はファームウェア等によって実現される場合、代表特徴量記憶部１４がコンピュータのメモリ３１上に構成される。画像信号取得部１１、特徴量抽出部１２、代表特徴量登録部１３、３次元位置推定部１５及び変化解析部１６におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムがメモリ３１に格納される。そして、コンピュータのプロセッサ３２がメモリ３１に格納されているプログラムを実行する。

また、図２では、推論装置４の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図３では、推論装置４がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、推論装置４における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。

図４は、学習装置７を示す構成図である。
図５は、学習装置７のハードウェアを示すハードウェア構成図である。
学習データ記憶部６は、例えば、ハードディスク、又は、ＲＡＭによって実現される。
学習データ記憶部６は、学習データとして、学習用画像を示す画像信号を記憶している。

学習装置７は、学習データ取得部４１及び学習処理部４２を備えている。
学習データ取得部４１は、例えば、図５に示す学習データ取得回路５１によって実現される。
学習データ取得部４１は、学習データ記憶部６から、学習データを取得する。
学習データ取得部４１は、学習データを学習処理部４２に出力する。

学習処理部４２は、例えば、図５に示す学習処理回路５２によって実現される。
学習処理部４２は、学習データ取得部４１から、大量の学習データを取得する。
学習処理部４２は、それぞれの学習データを学習モデル１ａに与えて、それぞれの学習データに含まれている画像信号が示す学習用画像を学習モデル１ａに学習させる。
学習済みの学習モデル１ａは、ドメイン変換時、又は、位置推定時において、画像信号が与えられたとき、当該画像信号に対応する特徴ベクトルを出力する。

図４では、学習装置７の構成要素である学習データ取得部４１及び学習処理部４２のそれぞれが、図５に示すような専用のハードウェアによって実現されるものを想定している。即ち、学習装置７が、学習データ取得回路５１及び学習処理回路５２によって実現されるものを想定している。
学習データ取得部４１及び学習処理部４２のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ、ＦＰＧＡ、又は、これらを組み合わせたものが該当する。

学習装置７の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、学習装置７が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
図６は、学習装置７が、ソフトウェア又はファームウェア等によって実現される場合のコンピュータのハードウェア構成図である。
学習装置７が、ソフトウェア又はファームウェア等によって実現される場合、学習データ取得部４１及び学習処理部４２におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムがメモリ６１に格納される。そして、コンピュータのプロセッサ６２がメモリ６１に格納されているプログラムを実行する。

また、図５では、学習装置７の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図６では、学習装置７がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、学習装置７における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。

最初に、図４に示す学習装置７の動作について説明する。
学習データ記憶部６には、大量の学習データが記憶されており、それぞれの学習データには、学習用画像を示す画像信号が含まれている。

学習装置７の学習データ取得部４１は、学習データ記憶部６から、大量の学習データを取得する。
学習データ取得部４１は、それぞれの学習データを学習処理部４２に出力する。

学習処理部４２は、学習データ取得部４１から、それぞれの学習データを取得する。
学習処理部４２は、それぞれの学習データを第１の学習モデル１ａに与えて、それぞれの学習データに含まれている画像信号が示す学習用画像を学習モデル１ａに学習させる。
学習済みの学習モデル１ａは、例えば、ＲＧＢ画像を示す画像信号が入力層に与えられると、出力層から、当該画像信号に対応する特徴ベクトルとして、ＲＧＢ画像に映っている検知対象物体の高次元特徴量を示す特徴ベクトルを出力する。
学習モデル１ａに学習に用いられている学習用画像が、例えば、ＲＧＢ画像であって、ＴＩＲ画像が、学習用画像として用いられていない場合、ＲＧＢ画像に映っている検知対象物体とＴＩＲ画像に映っている検知対象物体とが、共に正常な同一物体であったとしても、ＲＧＢ画像を示す画像信号が入力層に与えられたときに、出力層から出力される特徴ベクトルと、ＴＩＲ画像を示す画像信号が入力層に与えられたときに、出力層から出力される特徴ベクトルとが相違することがある。
ただし、学習モデル１ａを実現するＣＮＮｓは、非常にディープなＣＮＮｓであり、学習モデル１ａの十分に深い中間層から出力される特徴ベクトルは、高次元特徴量を示すものある。このため、上記の相違は僅かなものである。
また、学習モデル１ａの出力層から出力される特徴ベクトルが示す特徴量は、上述したように、検知対象物体の、十分に深い中間層の複数の層の複数の特徴量のそれぞれがぼかされてから複数の層の特徴量が結合された特徴量である。このため、特徴ベクトルが示す特徴量は、画像のドメインの依存性及び認識タスクの依存性のそれぞれが排除された頑健な特徴を示すものである。

次に、ドメイン変換時における推論装置４の動作について説明する。
図７は、ドメイン変換時の推論装置４の処理手順を示すフローチャートである。
カメラ３は、検知対象物体を撮影する。カメラ３により撮影される検知対象物体は、ドローン、空飛ぶクルマ、又は、ヘリコプターのいずれかである。ただし、推論装置４は、検知対象物体を、例えば１０００に分類することも可能である。このため、検知対象物体を、ドローン、空飛ぶクルマ、又は、ヘリコプターの３つに分類することは、あくまでも、一例である。また、カメラ３により撮影される検知対象物体は、いずれかの領域に存在している。
カメラ３は、いずれかの領域に存在している検知対象物体が映っている変換用画像を示す画像信号として、例えば、検知対象物体が映っているＴＩＲ画像を示す画像信号を推論装置４に出力する。

画像信号取得部１１は、カメラ３から、検知対象物体が映っている変換用画像を示す画像信号を取得する（図７のステップＳＴ１）。
具体的には、画像信号取得部１１は、カメラ３から、いずれかの領域に存在しているドローンが映っている変換用画像を示す画像信号を取得し、変換用画像を示す画像信号を特徴量抽出部１２に出力する。
また、画像信号取得部１１は、カメラ３から、いずれかの領域に存在している空飛ぶクルマが映っている変換用画像を示す画像信号を取得し、変換用画像を示す画像信号を特徴量抽出部１２に出力する。
また、画像信号取得部１１は、カメラ３から、いずれかの領域に存在しているヘリコプターが映っている変換用画像を示す画像信号を取得し、変換用画像を示す画像信号を特徴量抽出部１２に出力する。

特徴量抽出部１２は、画像信号取得部１１から、いずれかの領域に存在している検知対象物体が映っている変換用画像を示す画像信号を取得する。
特徴量抽出部１２は、それぞれの画像信号から、それぞれの変換用画像に映っている検知対象物体の特徴量を抽出する（図７のステップＳＴ２）。
具体的には、特徴量抽出部１２は、画像信号取得部１１から、いずれかの領域に存在しているドローンが映っている変換用画像を示す画像信号を取得する。
特徴量抽出部１２は、それぞれの画像信号を第１の学習モデル１ａに与えて、第１の学習モデル１ａから、いずれかの領域に存在しているドローンの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得する。
特徴量抽出部１２は、特徴ベクトルを代表特徴量登録部１３に出力する。

また、特徴量抽出部１２は、画像信号取得部１１から、いずれかの領域に存在している空飛ぶクルマが映っている変換用画像を示す画像信号を取得する。
特徴量抽出部１２は、それぞれの画像信号を第１の学習モデル１ａに与えて、第１の学習モデル１ａから、いずれかの領域に存在している空飛ぶクルマの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得する。
特徴量抽出部１２は、特徴ベクトルを代表特徴量登録部１３に出力する。

また、特徴量抽出部１２は、画像信号取得部１１から、いずれかの領域に存在しているヘリコプターが映っている変換用画像を示す画像信号を取得する。
特徴量抽出部１２は、それぞれの画像信号を第１の学習モデル１ａに与えて、第１の学習モデル１ａから、いずれかの領域に存在しているヘリコプターの複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された代表特徴量を示す特徴ベクトルを取得する。
特徴量抽出部１２は、特徴ベクトルを代表特徴量登録部１３に出力する。

代表特徴量登録部１３は、特徴量抽出部１２から、それぞれの特徴ベクトルを取得する。
代表特徴量登録部１３は、それぞれの特徴ベクトルを代表特徴量記憶部１４に記憶させることで、代表特徴量を登録する（図７のステップＳＴ３）。

ここで、代表特徴量を示す特徴ベクトルは、Ｔｅｎｓｏｒで表現されている。Ｔｅｎｓｏｒは、Ｖｅｃｔｏｒよりも高次元な情報を表現できるものであり、フィーチャーマップと呼ばれることがある。
Ｔｅｎｓｏｒは、高次元な情報を表現できるものであるため、代表特徴量登録部１３が、Ｔｅｎｓｏｒで表現されている特徴ベクトルをそのまま代表特徴量記憶部１４に記憶させた場合、３次元位置推定部１５が特徴ベクトルを照合する際に、多くの処理時間を要することがある。
３次元位置推定部１５が特徴ベクトルを照合する際に要する処理時間を短縮するために、代表特徴量登録部１３が、代表特徴量を示す特徴ベクトルを、Ｔｅｎｓｏｒよりも次元数が少ないワンホットベクトル（Ｏｎｅ－ｈｏｔ－ｖｅｃｔｏｒ）に変換し、ワンホットベクトルを代表特徴量記憶部１４に記憶させるようにしてもよい。
代表特徴量登録部１３によって登録される特徴ベクトルが、Ｔｅｎｓｏｒ、又は、ワンホットベクトルのいずれであっても、数百次元等の高次元の情報が表現されるものである。このため、種類が同一である複数の検知対象物体の間に多少のばらつきがあったとしても、特徴ベクトルは、当該検知対象物体の代表的な特徴が高次元で記述されたものになっている。

次に、位置推定時の推論装置４の動作について説明する。
図８は、位置推定時の推論装置４の処理手順である推論方法を示すフローチャートである。
カメラ３は、検知対象物体を撮影する。カメラ３により撮影される検知対象物体は、ドローン、空飛ぶクルマ、又は、ヘリコプターのいずれであるのかが不明である。また、カメラ３により撮影される検知対象物体が存在している領域は、不明である。
カメラ３は、検知対象物体が映っている推論対象画像を示す画像信号として、例えば、検知対象物体が映っているＴＩＲ画像を示す画像信号を推論装置４に出力する。

画像信号取得部１１は、カメラ３から、検知対象物体が映っている推論対象画像を示す画像信号を取得する（図８のステップＳＴ１１）。
画像信号取得部１１は、推論対象画像を示す画像信号を特徴量抽出部１２に出力する。

特徴量抽出部１２は、画像信号取得部１１から、推論対象画像を示す画像信号を取得する。
特徴量抽出部１２は、画像信号から、推論対象画像に映っている検知対象物体の特徴量を抽出する（図８のステップＳＴ１２）。
具体的には、特徴量抽出部１２は、画像信号を第１の学習モデル１ａに与えて、第１の学習モデル１ａから、推論対象画像に映っている検知対象物体の高次元特徴量を示す特徴ベクトルを取得する。
特徴量抽出部１２は、特徴ベクトルを３次元位置推定部１５に出力する。

３次元位置推定部１５は、特徴量抽出部１２から、特徴ベクトルを取得する。
３次元位置推定部１５は、代表特徴量記憶部１４から、代表特徴量を示す特徴ベクトルを複数取得する。
３次元位置推定部１５は、複数の代表特徴量を示す特徴ベクトルと、特徴量抽出部１２から取得した特徴ベクトルとに基づいて、推論対象画像に映っている検知対象物体の３次元位置を推定する（図８のステップＳＴ１３）。

具体的には、３次元位置推定部１５は、複数の代表特徴量を示す特徴ベクトルと、特徴量抽出部１２から取得した特徴ベクトルとの類似度をそれぞれ算出する。

３次元位置推定部１５は、認識したい対象の数だけ登録してある代表特徴量と推論時特徴量との類似度の中で、最も高い類似度を特定し、最も高い類似度に対応する代表特徴量を特定する。３次元位置推定部１５は、特定することで、どのクラスに属するのかを判別することが可能となる。

３次元位置推定部１５は、最も類似した代表特徴量を持つクラスが検出対象物体の所属するクラスとなる。例えば、代表特徴量と推論時特徴量のいずれもがＴＩＲ画像を入力とした場合、学習時のドメインを超えたクラス識別が可能となる。
さらに、推論時特徴量には推論時に入力された画像に含まれる検出対象物体の存在範囲（Ｏｂｊｅｃｔｎｅｓｓ）を含むため、推論時特徴量の高次元特徴の記述方法をＴｅｎｓｏｒ等から二次元空間へ変換することで空間的な物体の存在位置を表すことが可能となる。これによって、学習時のタスクが画像識別（ＩｍａｇｅＣｌａｓｓｉｆｉｃａｔｉｏｎ）であった場合、タスクを超えた認識が可能となる。

３次元位置推定部１５は、最も類似度の高い代表特徴量が、例えば、ドローンの代表特徴量であれば、推論対象画像に映っている検知対象物体の種類がドローンであることを認識し、かつ、検知対象物体の存在している領域を認識する。
３次元位置推定部１５は、最も類似度の高い代表特徴量が、例えば、空飛ぶクルマの代表特徴量であれば、推論対象画像に映っている検知対象物体の種類が空飛ぶクルマであることを認識し、かつ、検知対象物体の存在している領域を認識する。
３次元位置推定部１５は、最も類似度の高い代表特徴量が、例えば、ヘリコプターの代表特徴量であれば、推論対象画像に映っている検知対象物体の種類がヘリコプターであることを認識し、かつ、検知対象物体の存在している領域を認識する。

３次元位置推定部１５は、３次元位置の推定結果を変化解析部１６に出力する。
また、３次元位置推定部１５は、３次元位置の推定結果を示す表示データを生成し、表示データを表示装置５に出力する。
なお、３次元位置推定部１５は、画像信号取得部１１が画像信号を取得する毎に、３次元位置の推定結果を変化解析部１６に出力する。画像信号取得部１１が画像信号を取得するサンプリング時刻がｔ_ｎであれば、３次元位置推定部１５は、サンプリング時刻ｔ_ｎにおける３次元位置の推定結果を変化解析部１６に出力する。

変化解析部１６は、３次元位置推定部１５から、サンプリング時刻ｔ_ｎにおける３次元位置の推定結果を取得し、３次元位置の推定結果を第２の学習モデル２ａに与える。
なお、変化解析部１６は、ドローンの３次元位置の時間的な変化を示す位置データを取得する必要がある場合、ドローンの３次元位置の推定結果を第２の学習モデル２ａに与える。
変化解析部１６は、空飛ぶクルマの３次元位置の時間的な変化を示す位置データを取得する必要がある場合、空飛ぶクルマの３次元位置の推定結果を第２の学習モデル２ａに与える。
変化解析部１６は、ヘリコプターの３次元位置の時間的な変化を示す位置データを取得する必要がある場合、ヘリコプターの３次元位置の推定結果を第２の学習モデル２ａに与える。

第２の学習モデル２ａは、３次元位置を学習して３次元位置の時間的な変化を回帰する学習モデルである。このため、第２の学習モデル２ａは、変化解析部１６から、サンプリング時刻ｔ_ｎにおける３次元位置の推定結果が与えられると、当該推定結果に対応する将来のサンプリング時刻における検知対象物体の３次元位置の時間的な変化を示す位置データを変化解析部１６に出力する。
変化解析部１６は、第２の学習モデル２ａから、将来のサンプリング時刻における検知対象物体の３次元位置の時間的な変化を示す位置データとして、例えば、将来のサンプリング時刻ｔ_ｎ＋１～ｔ_ｎ＋３における検知対象物体の３次元位置の時間的な変化を示す位置データを取得する。

図１に示す推論装置４では、変化解析部１６が、第２の学習モデル２ａを用いて、検知対象物体の３次元位置の時間的な変化を示す位置データを取得している。しかし、これは一例に過ぎず、変化解析部１６は、検知対象物体の３次元位置を予測するための予測関数に対して、サンプリング時刻ｔ_ｎにおける検知対象物体の３次元位置の推定結果を与えることで、検知対象物体の３次元位置の時間的な変化を示す位置データを取得するようにしてもよい。

変化解析部１６は、位置データに基づいて、検知対象物体が落下するか否かを判定する。
例えば、検知対象物体の将来の位置が、地上の位置を示していれば、変化解析部１６は、検知対象物体が落下すると判定する。検知対象物体の将来の位置が、地上の位置を示していなければ、変化解析部１６は、検知対象物体が落下しないと判定する。
また、変化解析部１６は、位置データに基づいて、検知対象物体を多クラスに分類する処理として、検知対象物体が、例えば、ホバリングしているのか、上昇しているのか、下降しているのか、前進しているのか、又は、後退しているのかを判定する。

変化解析部１６は、検知対象物体の３次元位置の時間的な変化の解析結果を示す表示データを生成し、表示データを表示装置５に出力する。
また、変化解析部１６は、上記の判定処理の判定結果を示す表示データを生成し、表示データを表示装置５に出力する。

表示装置５は、３次元位置推定部１５から出力された表示データに従って、３次元位置の推定結果を図示せぬディスプレイに表示させる。３次元位置の推定結果は、検知対象物体の種類と検知対象物体の３次元位置とを示すものである。
また、表示装置５は、図９に示すように、変化解析部１６から出力された表示データに従って、検知対象物体の３次元位置の時間的な変化の解析結果と、検知対象物体が落下するか否か等の判定結果とを図示せぬディスプレイに表示させる。
図９は、検知対象物体の３次元位置の時間的な変化を示す説明図である。
図９は、時刻ｔにおける検知対象物体のｘ方向の位置と、時刻ｔにおける検知対象物体のｙ方向の位置とを示している。
図９において、ｘ方向は、カメラ３の撮影方向と直交する方向であって、例えば、地面と水平な方向である。
ｙ方向は、カメラ３の撮影方向と平行な方向である。ｚ方向は、カメラ３の撮影方向と直交する方向であって、例えば、地面と垂直な方向である。
図９の例では、検知対象物体のｚ方向の位置が、或る時刻において、地上の位置になっているため、検知対象物体が落下する旨の判定結果を明示している。図９において、検知対象物体が落下する旨の判定結果が“メッセージ”として表示されるようにしてもよい。

以上の実施の形態１では、学習用画像と画像のドメインが異なる場合と、事前学習したタスクと認識タスクの異なる場合とのうち、１つ以上が異なる場合において、検知対象物体が映っている画像である推論対象画像を示す画像信号を取得する画像信号取得部１１と、画像信号取得部１１により取得された画像信号を、学習用画像の学習が済んでいる第１の学習モデル１ａに与えて、第１の学習モデル１ａから、推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量であって、検知対象物体の３次元位置の推論に用いられる特徴量である推論時特徴量を取得する特徴量抽出部１２とを備えるように、推論装置４を構成した。また、推論装置４は、推論対象画像と画像のドメイン及び認識タスクのそれぞれが同じ対象である変換用画像に映っている検知対象物体の登録済みの特徴量である代表特徴量と特徴量抽出部１２により取得された推論時特徴量とに基づいて、推論対象画像に映っている検知対象物体の３次元位置を推定する３次元位置推定部１５と、３次元位置推定部１５による３次元位置の推定結果に基づいて、推論対象画像に映っている検知対象物体の３次元位置の時間的な変化を解析する変化解析部１６とを備えている。したがって、推論装置４は、自然環境の状態を考慮して、第１の学習モデルを学習させることなく、検知対象物体の３次元位置の時間的な変化を解析することができる。

また、実施の形態１では、画像信号取得部１１が、変換用画像を示す画像信号を取得し、特徴量抽出部１２が、変換用画像を示す画像信号を第１の学習モデル１ａに与えて、第１の学習モデル１ａから、変換用画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量である代表特徴量を取得するように、推論装置４を構成した。また、推論装置４は、特徴量抽出部１２により取得された代表特徴量を登録する代表特徴量登録部１３を備えている。したがって、推論装置４は、検知対象物体の３次元位置の推定に用いることが可能な代表特徴量を登録することができる。

図１に示す推論装置４では、特徴量抽出部１２が、非常にディープなＣＮＮｓによって実現されている第１の学習モデル１ａに対して画像信号を与えて、第１の学習モデル１ａから、検知対象物体の複数の特徴量のそれぞれがぼかされてから複数の特徴量が結合された特徴量を取得している。
第１の学習モデル１ａが非常にディープなＣＮＮｓによって実現されている場合には、上述したように、第１の学習モデル１ａの入力層に与えられる画像信号が示す推論対象画像のドメインが学習用画像と異なっていても、また、検知対象物体が異なっていても、出力層から出力される特徴ベクトルの相違は僅かなものとなる。
これに対して、第１の学習モデル１ａが一般的なニューラルネットワーク等によって実現されている場合、第１の学習モデル１ａの入力層に与えられる画像信号が示す推論対象画像のドメイン、又は、推論対象画像に映っている検知対象物体が、学習用画像と異なっていれば、出力層から出力される特徴ベクトルの相違が大きくなることがある。
しかしながら、変換用画像のドメインと推論対象画像のドメインとが同じである。このため、第１の学習モデル１ａが一般的なニューラルネットワーク等によって実現されている場合でも、推論対象画像に映っている検知対象物体が正常な物体であれば、ドメイン変換時に特徴量抽出部１２により取得される代表特徴量と、位置推定時に特徴量抽出部１２により取得される推論時特徴量とは、概ね同じような値となる。
一方、推論対象画像に映っている検知対象物体が異常な物体であれば、ドメイン変換時に特徴量抽出部１２により取得される代表特徴量と、位置推定時に特徴量抽出部１２により取得される推論時特徴量とは、大きく異なる値となる。
したがって、第１の学習モデル１ａが一般的なニューラルネットワーク等によって実現されている場合でも、３次元位置推定部１５が、高精度に検知対象物体の３次元位置を推定することが可能である。

なお、本開示は、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。

本開示は、推論装置、推論方法及び推論プログラムに適している。

１モデル記憶部、１ａ第１の学習モデル、２モデル記憶部、２ａ第２の学習モデル、３カメラ、４推論装置、５表示装置、６学習データ記憶部、７学習装置、１１画像信号取得部、１２特徴量抽出部、１３代表特徴量登録部、１４代表特徴量記憶部、１５３次元位置推定部、１６変化解析部、２１画像信号取得回路、２２特徴量抽出回路、２３代表特徴量登録回路、２４代表特徴量記憶回路、２５３次元位置推定回路、２６変化解析回路、３１メモリ、３２プロセッサ、４１学習データ取得部、４２学習処理部、５１学習データ取得回路、５２学習処理回路、６１メモリ、６２プロセッサ。

Claims

学習用画像と画像のドメインが異なる場合と、事前学習したタスクと認識タスクの異なる場合とのうち、１つ以上が異なる場合において、検知対象物体が映っている画像である推論対象画像を示す画像信号を取得する画像信号取得部と、
前記画像信号取得部により取得された画像信号を、前記学習用画像の学習が済んでいる第１の学習モデルに与えて、前記第１の学習モデルから、前記推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから前記複数の特徴量が結合された特徴量であって、前記検知対象物体の３次元位置の推論に用いられる特徴量である推論時特徴量を取得する特徴量抽出部と、
前記推論対象画像と画像のドメイン及び認識タスクのそれぞれが同じ対象である変換用画像に映っている検知対象物体の登録済みの特徴量である代表特徴量と前記特徴量抽出部により取得された推論時特徴量とに基づいて、前記推論対象画像に映っている検知対象物体の３次元位置を推定する３次元位置推定部と、
前記３次元位置推定部による３次元位置の推定結果に基づいて、前記推論対象画像に映っている検知対象物体の３次元位置の時間的な変化を解析する変化解析部と
を備えた推論装置。
前記画像信号取得部は、
前記変換用画像を示す画像信号を取得し、
前記特徴量抽出部は、
前記変換用画像を示す画像信号を前記第１の学習モデルに与えて、前記第１の学習モデルから、前記変換用画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから当該複数の特徴量が結合された特徴量であって、前記検知対象物体の３次元位置の推論に用いられる特徴量である代表特徴量を取得し、
前記特徴量抽出部により取得された代表特徴量を登録する代表特徴量登録部を備えたことを特徴とする請求項１記載の推論装置。
前記３次元位置推定部は、
種類及び存在している領域のそれぞれが互いに異なる複数の検知対象物体の代表特徴量と前記特徴量抽出部により取得された推論時特徴量とを比較して、前記複数の検知対象物体の代表特徴量の中で、前記特徴量抽出部により取得された推論時特徴量に対応している代表特徴量を特定し、前記代表特徴量の特定結果に基づいて、前記推論対象画像に映っている検知対象物体の認識として、前記検知対象物体の種類及び存在している３次元領域のそれぞれを推定することを特徴とする請求項１記載の推論装置。
前記変化解析部は、
３次元位置を学習して３次元位置の時間的な変化を回帰する第２の学習モデルに対して、前記３次元位置推定部による３次元位置の推定結果を与えて、前記第２の学習モデルから、当該検知対象物体の３次元位置の時間的な変化を示す位置データを取得することを特徴とする請求項１記載の推論装置。
画像信号取得部が、学習用画像と画像のドメインが異なる場合と、事前学習したタスクと認識タスクの異なる場合とのうち、１つ以上が異なる場合において、検知対象物体が映っている画像である推論対象画像を示す画像信号を取得し、
特徴量抽出部が、前記画像信号取得部により取得された画像信号を、前記学習用画像の学習が済んでいる第１の学習モデルに与えて、前記第１の学習モデルから、前記推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから前記複数の特徴量が結合された特徴量であって、前記検知対象物体の３次元位置の推論に用いられる特徴量である推論時特徴量を取得し、
３次元位置推定部が、前記推論対象画像と画像のドメイン及び認識タスクのそれぞれが同じ対象である変換用画像に映っている検知対象物体の登録済みの特徴量である代表特徴量と前記特徴量抽出部により取得された推論時特徴量とに基づいて、前記推論対象画像に映っている検知対象物体の３次元位置を推定し、
変化解析部が、前記３次元位置推定部による３次元位置の推定結果に基づいて、前記推論対象画像に映っている検知対象物体の３次元位置の時間的な変化を解析する
推論方法。
画像信号取得部が、学習用画像と画像のドメインが異なる場合と、事前学習したタスクと認識タスクの異なる場合とのうち、１つ以上が異なる場合において、検知対象物体が映っている画像である推論対象画像を示す画像信号を取得する画像信号取得手順と、
特徴量抽出部が、前記画像信号取得部により取得された画像信号を、前記学習用画像の学習が済んでいる第１の学習モデルに与えて、前記第１の学習モデルから、前記推論対象画像に映っている検知対象物体の複数の特徴量のそれぞれがぼかされてから前記複数の特徴量が結合された特徴量であって、前記検知対象物体の３次元位置の推論に用いられる特徴量である推論時特徴量を取得する特徴量取得手順と、
３次元位置推定部が、前記推論対象画像と画像のドメイン及び認識タスクのそれぞれが同じ対象である変換用画像に映っている検知対象物体の登録済みの特徴量である代表特徴量と前記特徴量抽出部により取得された推論時特徴量とに基づいて、前記推論対象画像に映っている検知対象物体の３次元位置を推定する３次元位置推定手順と、
変化解析部が、前記３次元位置推定部による３次元位置の推定結果に基づいて、前記推論対象画像に映っている検知対象物体の３次元位置の時間的な変化を解析する変化解析手順とをコンピュータに実行させるための推論プログラム。