JP2024001527A

JP2024001527A - 画像認識装置および画像認識方法

Info

Publication number: JP2024001527A
Application number: JP2022100235A
Authority: JP
Inventors: 卓也小倉; Takuya Ogura
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2024-01-10
Also published as: WO2023248577A1

Abstract

【課題】画像認識処理において検出対象物の検出精度を高める。【解決手段】画像認識装置１０は、撮像画像を取得する画像取得部１２と、所定値以上の画像サイズを有する画像を入力として機械学習された第１検出モデルを用いて、撮像画像において検出対象物が含まれる第１領域を検出する第１検出部１４と、所定値未満の画像サイズを有する画像を入力として機械学習された第２検出モデルを用いて、撮像画像において検出対象物が含まれる第２領域を検出する第２検出部１６と、撮像画像において第１領域と第２領域が重なる場合、第１領域および第２領域のいずれか一方の検出を無効とする判定部１８と、を備える。【選択図】図１

Description

本発明は、画像認識装置および画像認識方法に関する。

車両の周囲を撮像した画像から歩行者などの対象物をパターンマッチング等の画像認識技術を用いて検出する技術が知られている。例えば、遠方用と近傍用を含む複数の認識辞書を用意し、複数の認識辞書を用いてパターンマッチングを行うことにより、検出精度を高める技術が提案されている（例えば、特許文献１参照）。

特開２０２２－１７８７１号公報

上記先行技術において、近傍に存在する検出対象物の一部分が遠方用の認識辞書によって検出対象物として検出されてしまい、検出対象物を適切に検出できないことがあった。

本発明は、上述の事情に鑑みてなされたものであり、認識辞書に基づく画像認識処理において検出対象物の検出精度を高める技術を提供することにある。

本発明のある態様の画像認識装置は、撮像画像を取得する画像取得部と、所定値以上の画像サイズを有する画像を入力として機械学習された第１検出モデルを用いて、撮像画像において検出対象物が含まれる第１領域を検出する第１検出部と、所定値未満の画像サイズを有する画像を入力として機械学習された第２検出モデルを用いて、撮像画像において検出対象物が含まれる第２領域を検出する第２検出部と、撮像画像において第１領域と第２領域が重なる場合、第１領域および第２領域のいずれか一方の検出を無効とする判定部と、を備える。

本発明の別の態様は、画像認識方法である。この方法は、撮像画像を取得するステップと、所定値以上の画像サイズを有する画像を入力として機械学習された第１検出モデルを用いて、撮像画像において検出対象物が含まれる第１領域を検出するステップと、所定値未満の画像サイズを有する画像を入力として機械学習された第２検出モデルを用いて、撮像画像において検出対象物が含まれる第２領域を検出するステップと、撮像画像において第１領域と第２領域が重なる場合、第１領域および第２領域のいずれか一方の検出を無効とするステップと、を備える。

本発明によれば、画像認識処理において検出対象物の検出精度を高めることができる。

第１実施形態に係る画像認識装置の機能構成を模式的に示すブロック図である。図２（ａ）～（ｄ）は、学習用画像の例を示す図である。第１領域と第２領域が重ならずに検出される撮像画像の一例を示す図である。第１領域と第２領域が重なって検出される撮像画像の一例を示す図である。付加画像を重畳した表示用画像の一例を示す図である。付加画像を重畳した表示用画像の一例を示す図である。第１実施形態に係る画像認識方法の流れを示すフローチャートである。第２実施形態に係る画像認識装置の機能構成を模式的に示すブロック図である。第１領域、第２領域および部分領域が重なって検出される撮像画像の一例を示す図である。第２実施形態に係る画像認識方法の流れを示すフローチャートである。

以下、本発明の実施の形態について、図面を参照しつつ説明する。かかる実施の形態に示す具体的な数値等は、発明の理解を容易とするための例示にすぎず、特に断る場合を除き、本発明を限定するものではない。なお、図面において、本発明に直接関係のない要素は図示を省略する。

（第１実施形態）
図１は、第１実施形態に係る画像認識装置１０の機能構成を模式的に示すブロック図である。画像認識装置１０は、画像取得部１２と、第１検出部１４と、第２検出部１６と、判定部１８と、表示制御部２０とを備える。画像認識装置１０は、例えば、車両などの移動体に搭載され、車両の周囲における歩行者などの人物を検出する。画像認識装置１０は、所定の場所に固定して設置され、装置の周囲における人物等を検出してもよい。本実施の形態では、画像認識装置１０が車両に搭載される場合について例示する。また、本実施の形態では、画像認識装置１０が歩行者などの人物を検出する場合について例示する。なお、画像認識装置１０が検出する検出対象物は、人物以外にも適用可能である。

本実施形態において示される各機能ブロックは、例えば、ハードウェアおよびソフトウェアの連携によって実現されうる。画像認識装置１０のハードウェアは、コンピュータのＣＰＵやメモリをはじめとする素子や機械装置で実現される。画像認識装置１０のソフトウェアは、コンピュータプログラム等によって実現される。

画像取得部１２は、カメラ２２が撮像した撮像画像を取得する。カメラ２２は、車両に搭載され、車両の周囲の画像を撮像する。カメラ２２は、例えば、車両の前方の画像を撮像する。カメラ２２は、車両の後方を撮像してもよいし、車両の側方を撮像してもよい。画像認識装置１０は、カメラ２２を備えてもよいし、カメラ２２を備えなくてもよい。

カメラ２２は、車両の周囲の赤外線を撮像するよう構成される。カメラ２２は、いわゆる赤外線サーモグラフィであり、車両の周辺の温度分布を画像化し、車両の周辺に存在する熱源を特定できるようにする。カメラ２２は、波長２μｍ～５μｍ程度の中赤外線を検出するよう構成されてもよいし、波長８μｍ～１４μｍ程度の遠赤外線を検出するよう構成されてもよい。なお、カメラ２２は、可視光を撮像するよう構成されてもよい。カメラ２２は、赤色、緑色および青色のカラー画像を撮像するよう構成されてもよいし、可視光のモノクロ画像を撮像するよう構成されてもよい。本実施の形態において、カメラ２２は、遠赤外線による熱画像を撮影するカメラとして説明する。カメラ２２が撮影する撮影画像は、例えば、毎秒３０フレームなどの動画像である。

第１検出部１４は、画像取得部１２が取得する撮像画像において検出対象物が含まれる第１領域を検出する。第１検出部１４は、所定値以上の画像サイズを有する画像を入力として機械学習された第１検出モデルを用いて検出対象物を検出する。第１検出モデルは、近傍に存在する検出対象物を検出するための近傍用の認識辞書である。検出対象物が歩行者の場合、第１検出モデルの機械学習に使用される入力画像のサイズの一例は、縦１６０ピクセル、横８０ピクセルである。

第２検出部１６は、画像取得部１２が取得する撮像画像において検出対象物が含まれる第２領域を検出する。第２検出部１６は、所定値未満の画像サイズを有する画像を入力として機械学習された第２検出モデルを用いて検出対象物を検出する。第２検出モデルは、遠方に存在する検出対象物を検出するための遠方用の認識辞書である。第２検出モデルの機械学習に使用される入力画像のサイズは、第１検出モデルの機械学習に使用される入力画像のサイズよりも小さい。検出対象物が歩行者の場合、第２検出モデルの機械学習に使用される入力画像のサイズの一例は、縦８０ピクセル、横４０ピクセルである。

機械学習に用いるモデルは、入力画像の画像サイズ（画素数）に対応する入力と、認識スコアを出力する出力と、入力と出力の間を接続する中間層とを含むことができる。中間層は、畳み込み層、プーリング層、全結合層などを含むことができる。中間層は、多層構造であってもよく、いわゆるディープラーニングが実行可能となるよう構成されてもよい。機械学習に用いるモデルは、畳み込みニューラルネットワーク（ＣＮＮ）を用いて構築されてもよい。なお、機械学習に用いるモデルは上記に限られず、任意の機械学習モデルが用いられてもよい。

図２（ａ）～（ｄ）は、学習用画像の例を示す図であり、歩行者用の検出モデルを生成するために用いる学習用画像の例を示す。図２（ａ），（ｂ）は、第１検出モデルを生成するための学習用画像３１～３６を示す。図２（ｃ），（ｄ）は、第２検出モデルを生成するための学習用画像４１～４６を示す。図２（ａ），（ｃ）は、正解データの一例であり、図２（ｂ），（ｄ）は、不正解データの一例である。

図示されるように、第１検出モデル用の学習用画像３１～３６は、画像サイズが相対的に大きく、相対的に高解像度である。第１検出モデル用の学習用画像３１～３６の画像サイズの一例は、１６０×８０ピクセルである。一方、第２検出モデル用の学習用画像４１～４６は、画像サイズが相対的に小さく、相対的に低解像度である。第２検出モデル用の学習用画像４１～４６の画像サイズの一例は、８０×４０でピクセルである。

判定部１８は、第１検出部１４および第２検出部１６による検出結果の有効性を判定する。判定部１８は、第１検出部１４または第２検出部１６によって、第１領域および第２領域が重ならずに、検出対象物が含まれる領域が検出された場合、その検出を有効とする。判定部１８は、第１検出部１４によって第１領域が検出される一方、第２検出部１６によって第１領域に重なった第２領域が検出されない場合、第１領域の検出を有効とする。判定部１８は、第２検出部１６によって第２領域が検出される一方、第１検出部１４によって第２領域に重なった第１領域が検出されない場合、第２領域の検出を有効とする。判定部１８は、撮像画像において第１領域と第２領域が重ならない場合、つまり、第１領域と第２領域が互いに離れている場合、第１領域および第２領域のそれぞれの検出を有効と判定する。

判定部１８は、第１検出部１４および第２検出部１６の双方によって、検出対象物が含まれる領域が重なって検出された場合、撮像画像における検出された領域の重なりに応じて検出結果の有効性を判定する。判定部１８は、撮像画像において第１領域と第２領域が重なる場合、つまり、第１検出部１４および第２検出部１６の検出対象物が重複している場合、第１領域および第２領域の一方の検出を有効とし、他方の検出を無効とする。判定部１８は、例えば、撮像画像において第１領域と第２領域が重なる場合、第１領域の検出を有効とし、第２領域の検出を無効とする。判定部１８は、撮像画像において第１領域と重なる第２領域の検出を無効とする。

判定部１８は、第１検出部１４または第２検出部１６によって検出された検出領域のリストデータを管理してもよい。判定部１８は、第１検出部１４によって検出された第１領域のデータをリストに追加する。判定部１８は、第２検出部１６によって検出された第２領域のデータをリストに追加する。判定部１８は、第１領域と第２領域が重なる場合、第１領域と重なる第２領域のデータをリストから削除する。この場合、リストに残った検出領域（第１領域または第２領域）が有効となり、リストから削除された検出領域（第１領域または第２領域）が無効となる。

図３は、第１領域５２ａと第２領域５４ａが重ならずに検出される撮像画像５０ａの一例を示す図である。第１検出部１４によって検出される第１領域５２ａは、カメラ２２から見て近くに位置するために撮像画像５０ａにおいて大きく見える歩行者を含む。第２検出部１６によって検出される第２領域５４ａは、カメラ２２から見て遠く位置するために撮像画像５０ａにおいて小さく見える歩行者を含む。

図３の場合、判定部１８は、第１領域５２ａと第２領域５４ａが重ならないため、第１領域５２ａおよび第２領域５４ａの双方の検出を有効とする。これにより、第１領域５２ａおよび第２領域５４ａのそれぞれに含まれる歩行者を適切に検出できる。言い換えれば、近傍に位置する歩行者と遠方に位置する歩行者の双方を適切に検出できる。

図４は、第１領域５２ｂと第２領域５４ｂが重なって検出される撮像画像５０ｂの一例を示す図である。第１検出部１４によって検出される第１領域５２ｂは、カメラ２２から見て近くに位置するために撮像画像５０ｂにおいて大きく見える歩行者を含む。第２検出部１６によって検出される第２領域５４ｂは、カメラ２２から見て近くに位置する歩行者の右足部分を含む。図４の場合、第２検出部１６は、近傍に位置する歩行者の部分（パーツ）を第２領域５４ｂとして誤検出している。このような誤検出は、近傍に位置する歩行者の部分的な範囲の画像サイズが遠方用の第２検出モデルの検出サイズに近く、その部分的な範囲の輝度分布（例えば熱分布）が第２検出モデルに近似しているために発生しうる。

図４の場合、判定部１８は、第１領域５２ｂと第２領域５４ｂが重なるため、第１領域５２ｂの検出を有効とする一方で、第２領域５４ｂの検出を無効とする。これにより、第２検出部１６による誤検出を無効化し、第１領域５２ｂに含まれる歩行者を適切に検出できる。

図１に戻り、表示制御部２０は、判定部１８の判定結果に基づいて表示用画像を生成し、生成した表示用画像を表示装置２４に表示させる。表示制御部２０は、判定部１８によって有効とされた領域を示すための枠画像などの付加画像を撮像画像に重畳した表示用画像を生成する。表示制御部２０は、判定部１８が無効としていない領域の表示態様と、無効とした領域の表示態様とが互いに異なるように付加画像を重畳した表示用画像を生成する。表示制御部２０は、例えば、判定部１８が無効とした領域には付加画像を重畳しないようにする。表示制御部２０は、判定部１８が無効としていない領域、つまり、有効な領域には赤色枠などの第１付加画像を重畳し、判定部１８が無効とした領域には緑色枠などの第１付加画像とは表示態様の異なる第２付加画像を重畳してもよい。

図５は、付加画像６２ａを重畳した表示用画像６０ａの一例を示す図である。図５の表示用画像６０ａは、図３の撮像画像５０ａを取得した場合に表示装置２４に表示される。付加画像６２ａは、判定部１８が無効としていない第１領域５２ａおよび第２領域５４ａ（図３参照）のそれぞれに対応する位置に重畳されている。付加画像６２ａを重畳することにより、検出対象物を強調して表示できる。

図６は、付加画像６２ｂを重畳した表示用画像６０ｂの一例を示す図である。図６の表示用画像６０ｂは、図４の撮像画像５０ｂを取得した場合に表示装置２４に表示される。付加画像６２ｂは、判定部１８が無効としていない第１領域５２ｂ（図４参照）に対応する位置に重畳されているが、判定部１８が無効とした第２領域５４ｂ（図４参照）に対応する位置に重畳されていない。付加画像６２ｂを重畳することにより、検出対象物を強調して表示できる。誤検出である第２領域５４ｂに付加画像を重畳しないことにより、ユーザに誤った情報を伝えることを防止できる。

図７は、第１実施形態に係る画像認識方法の流れを示すフローチャートである。図７に示すフローチャートは、画像認識装置１０が動作している間、または、カメラ２２によって撮像がなされている間、繰り返し実行される。画像取得部１２は、撮像画像を取得する（ステップＳ１０）。第１検出部１４は、近傍用の第１検出モデルを用いて、撮像画像において検出対象物が含まれる第１領域を検出する（ステップＳ１２）。第２検出部１６は、遠方用の第２検出モデルを用いて、撮像画像において検出対象物が含まれる第２領域を検出する（ステップＳ１４）。

判定部１８は、撮像画像において第１領域と第２領域が重なる場合（ステップＳ１６のＹｅｓ）、第１領域に重なる第２領域の検出を無効とする（ステップＳ１８）。具体的には、撮影画像において第１領域および第２領域が検出され、検出された第１領域の範囲と、検出された第２領域の範囲が重なっている場合、第１領域に重なる第２領域の検出を無効とする。判定部１８は、例えば、検出された第２領域の面積における９０％以上が、検出された第１領域に重なっている場合に、第１領域に第２領域が重なっていると判定してもよい。

判定部１８は、撮像画像において第１領域と第２領域が重ならない場合（ステップＳ１６のＮｏ）、ステップＳ１８の処理をスキップする。判定部１８は、第１領域と第２領域が重なる場合、第１領域の検出を有効とし、第２領域の検出を無効とする。判定部１８は、無効とする第２領域以外の領域の検出を有効とする。判定部１８は、第１領域と第２領域が重ならない場合、検出された第１領域および第２領域の検出を有効とする。表示制御部２０は、有効とする領域に付加画像を重畳した表示用画像を生成し、表示装置２４に表示させる（ステップＳ２０）。表示制御部２０は、有効とする領域が検出されている期間、付加画像を重畳した表示用画像を表示装置２４に表示させる。

本実施形態によれば、第１検出部１４によって検出される第１領域と、第２検出部１６によって検出される第２領域とが重なる場合に、一方の領域を無効とすることにより、誤検出を防止できる。遠方用の第２検出モデルは、近傍用の第１検出モデルに比べて低解像度の学習用画像を使用するため、誤検出の可能性が相対的に高い。本実施形態によれば、近傍用の第１検出モデルによって検出される第１領域を優先することにより、第１領域と重なって誤検出される第２領域を無効化できる。これにより、検出対象物の検出精度を高めることができる。

（第２実施形態）
図８は、第２実施形態に係る画像認識装置７０の機能構成を模式的に示すブロック図である。第２実施形態では、部分検出部７２をさらに備え、判定部７４が部分検出部７２の検出結果を用いて検出の有効性を判定する点で、第１実施形態と相違する。以下、第２実施形態について、第１実施形態との相違点を中心に説明し、共通的について説明を適宜省略する。

画像認識装置７０は、画像取得部１２と、第１検出部１４と、第２検出部１６と、部分検出部７２と、判定部７４と、表示制御部２０とを備える。画像取得部１２、第１検出部１４、第２検出部１６および表示制御部２０は、第１実施形態と同様に構成される。

部分検出部７２は、画像取得部１２が取得する撮像画像において検出対象物の部分（パーツ）が含まれる部分領域を検出する。部分検出部７２は、検出対象物の部分的な範囲の画像を入力として機械学習された部分検出モデルを用いて検出対象物の部分を検出する。部分検出モデルの学習用画像として、例えば、近傍用の第１検出モデルの学習用画像に含まれる検出対象物を部分的に切り出した画像を用いることができる。したがって、部分検出モデルの学習用画像の画像サイズは、第１検出モデルの機械学習に使用される入力画像のサイズよりも小さい。部分検出モデルの学習用画像の画像サイズは、第２検出モデルの機械学習に使用される入力画像のサイズと同程度であってもよい。

部分検出部７２は、検出対象物の複数の部分のそれぞれを検出するための複数の部分検出モデルを有してもよい。検出対象物が歩行者の場合、例えば、頭、上半身、下半身、腕、脚のそれぞれを検出するための部分検出モデルを有してもよい。

部分検出部７２は、第１検出部１４によって検出される第１領域に含まれる検出対象物の部分を検出する。第１領域において検出対象物の部分が検出される場合、第１領域に検出対象物の全体が含まれる可能性が高いため、第１検出部１４による検出が適切と考えられる。一方、第１領域において検出対象物の部分が検出されない場合、第１領域に検出対象物の全体が含まれない可能性が高いため、第１検出部１４による検出が不適切であり、第１検出部１４が誤検出していると考えられる。

判定部７４は、第１領域または第２領域が重ならずに検出された場合、その検出を有効とする。判定部７４は、第１領域および第２領域の双方が検出され、撮像画像において第１領域と第２領域が重なる場合、部分検出部７２の検出結果を用いて、第１領域および第２領域の検出の有効性を判定する。

判定部７４は、撮像画像において第１領域と第２領域が重なり、第１領域に部分領域が重なる場合、第１領域の検出を有効とし、第２領域の検出を無効とする。この場合、第１領域に含まれる検出対象物の部分が第２領域として検出されている可能性が高く、第２検出部１６が誤検出している可能性が高い。判定部７４は、撮像画像において第１領域と第２領域が重なり、第１領域と部分領域が重ならない場合、第１領域の検出を無効とし、第２領域の検出を有効とする。この場合、第１領域に検出対象物の全体が含まれる可能性が低く、第１検出部１４が誤検出している可能性が高い。

図９は、第１領域５２ｂ、第２領域５４ｂおよび部分領域５６ａ，５６ｂ，５６ｃが重なって検出される撮像画像５０ｂの一例を示す図である。図９の撮像画像５０ｂは、図４と同じであるが、部分検出部７２によって第１部分領域５６ａ、第２部分領域５６ｂおよび第３部分領域５６ｃが検出されている点で相違する。第１部分領域５６ａは、第１領域５２ｂに含まれる歩行者の頭の検出領域である。第２部分領域５６ｂは、第１領域５２ｂに含まれる歩行者の上半身の検出領域である。第３部分領域５６ｃは、第１領域５２ｂに含まれる歩行者の下半身の検出領域である。

図９の場合、判定部７４は、第１領域５２ｂと第２領域５４ｂが重なり、第１領域５２ｂと部分領域５６ａ～５６ｃが重なるため、第１領域５２ｂの検出を有効とし、第２領域５４ｂの検出を無効とする。これにより、第２検出部１６による誤検出を無効化し、第１領域５２ｂに含まれる歩行者を適切に検出できる。表示制御部２０は、図９の撮像画像５０ｂを取得した場合、図６と同様の表示用画像６０ｂを表示装置２４に表示させる。

図９において、第１領域５２ｂと部分領域５６ａ～５６ｃが重なる状態を示したが、第１領域５２ｂに、第１部分領域５６ａ、第２部分領域５６ｂおよび第３部分領域５６ｃのいずれかが重なっていることで、第１領域５２ｂの検出を有効とし、第２領域５４ｂの検出を無効としてもよい。

図９において、例えば、第１領域５２ｂの上方に、頭部を検出した第１部分領域５６ａが重なっている場合に、第１領域５２ｂの検出を有効とし、第２領域５４ｂの検出を無効としてもよい。また、図９において、第１領域５２ｂの上方に、上半身を検出した第２部分領域５６ｂが重なっている場合に、第１領域５２ｂの検出を有効とし、第２領域５４ｂの検出を無効としてもよい。さらに、図９において、第１領域５２ｂの下方に、下半身を検出した第３部分領域５６ｃが重なっている場合に、第１領域５２ｂの検出を有効とし、第２領域５４ｂの検出を無効としてもよい。他の部分検出モデルを用いた検出であっても、歩行者が検出される範囲の適切な位置に部分領域が重なっていることで、第１領域５２ｂの検出を有効とし、第２領域５４ｂの検出を無効としてもよい。

図１０は、第２実施形態に係る画像認識方法の流れを示すフローチャートである。図１０に示すフローチャートにおけるステップＳ３０からステップＳ３６、ステップＳ４２およびステップＳ４６の処理は、図７に示すフローチャートにおけるステップＳ１０からステップＳ１６、ステップＳ１８およびステップＳ２０の処理と同一であるため、説明を省略する。

部分検出部７２は、撮像画像において第１領域と第２領域が重なる場合（ステップＳ３６のＹｅｓ）、部分検出モデルを用いて、第１領域において検出対象物の部分が含まれる部分領域を検出する（ステップＳ３８）。判定部７４は、第１領域に重なる部分領域がある場合（ステップＳ４０のＹｅｓ）、第１領域に重なる第２領域の検出を無効とする（ステップＳ４２）。判定部７４は、第１領域に重なる部分領域がない場合（ステップＳ４０のＮｏ）、第２領域に重なる第１領域の検出を無効とする（ステップＳ４４）。撮像画像において第１領域と第２領域が重ならない場合（ステップＳ３６のＮｏ）、ステップＳ３８～Ｓ４４の処理をスキップする。

本実施形態によれば、第１領域と第２領域とが重なる場合に、第１領域において検出対象物の部分の有無を検出することにより、第１領域の検出の有効性をより適切に判定できる。第１領域において検出対象物の部分が検出される場合に、第１領域の検出を有効とし、第２領域の検出を無効とすることで、第１領域と重なって誤検出される第２領域を無効化できる。一方、第１領域において検出対象物の部分が検出されない場合に、第２領域の検出を有効とし、第１領域の検出を無効とすることで、第２領域と重なって誤検出される第１領域を無効化できる。これにより、検出対象物の検出精度を高めることができる。

第２実施形態において、判定部７４は、第１領域と第２領域が重なる場合に、第１領域に複数の部分領域が検出される場合に第１領域の検出を有効としてもよい。例えば、頭、上半身、下半身、腕、脚のうちのいずれか二以上の部分領域が検出される場合に第１領域の検出を有効としてもよい。

以上、本発明を上述の実施の形態を参照して説明したが、本発明は上述の実施の形態に限定されるものではなく、実施の形態に示す各構成を適宜組み合わせたものや置換したものについても本発明に含まれるものである。

１０，７０…画像認識装置、１２…画像取得部、１４…第１検出部、１６…第２検出部、１８，７４…判定部、２０…表示制御部、２２…カメラ、２４…表示装置、７２…部分検出部。

Claims

撮像画像を取得する画像取得部と、
所定値以上の画像サイズを有する画像を入力として機械学習された第１検出モデルを用いて、前記撮像画像において検出対象物が含まれる第１領域を検出する第１検出部と、
前記所定値未満の画像サイズを有する画像を入力として機械学習された第２検出モデルを用いて、前記撮像画像において前記検出対象物が含まれる第２領域を検出する第２検出部と、
前記撮像画像において前記第１領域と前記第２領域が重なる場合、前記第１領域および前記第２領域のいずれか一方の検出を無効とする判定部と、を備える画像認識装置。
前記判定部は、前記撮像画像において前記第１領域と前記第２領域が重なる場合、前記第２領域の検出を無効とする、請求項１に記載の画像認識装置。
機械学習された部分検出モデルを用いて、前記検出対象物の部分が含まれる部分領域を検出する部分検出部をさらに備え、
前記判定部は、
ａ）前記撮像画像において前記第１領域と前記第２領域が重なり、前記第１領域と前記部分領域が重なる場合、前記第２領域の検出を無効とし、
ｂ）前記撮像画像において前記第１領域と前記第２領域が重なり、前記第１領域と前記部分領域が重ならない場合、前記第１領域の検出を無効とする、
請求項１に記載の画像認識装置。
前記判定部が無効としていない前記第１領域または前記第２領域の表示態様が、前記判定部が無効とした前記第１領域または前記第２領域の表示態様と異なるように、前記撮像画像に付加画像を重畳した表示用画像を表示装置に表示させる表示制御部をさらに備える、請求項１から３のいずれか一項に記載の画像認識装置。
撮像画像を取得するステップと、
所定値以上の画像サイズを有する画像を入力として機械学習された第１検出モデルを用いて、前記撮像画像において検出対象物が含まれる第１領域を検出するステップと、
前記所定値未満の画像サイズを有する画像を入力として機械学習された第２検出モデルを用いて、前記撮像画像において前記検出対象物が含まれる第２領域を検出するステップと、
前記撮像画像において前記第１領域と前記第２領域が重なる場合、前記第１領域および前記第２領域のいずれか一方の検出を無効とするステップと、を備える画像認識方法。