JP2022103693A

JP2022103693A - 画像認識方法、画像認識装置、および画像認識プログラム

Info

Publication number: JP2022103693A
Application number: JP2020218477A
Authority: JP
Inventors: 卓哉宮本; Takuya Miyamoto; 一徳田中; Kazunori Tanaka; 加奈子森本; Kanako Morimoto; 留以濱邊; Rui HAMABE; 尚道東山; Naomichi Higashiyama
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2022-07-08
Also published as: US20220207853A1

Abstract

【課題】比較的少ない教師データ量でも独立性が高くかつ十分な精度の推論結果を出力するための特徴量を使用した画像認識の集団学習を可能とし、良好な推論結果を導出する。【解決手段】特徴量抽出ステップにおいて、入力画像から複数のベース特徴マップが生成され、推論ステップにおいて、ベース特徴マップ群に基づく複数の推論入力に対して、機械学習済みの複数の推論器１３－１～１３－Ｎをそれぞれ使用して、複数の推論結果が導出され、統合ステップにおいて、その複数の推論結果を所定の方法で統合して、最終推論結果が導出される。そして、上述の複数の推論入力は、それぞれ、上述の複数のベース特徴マップの一部または全部のベース特徴マップを有し、その複数の推論入力における各推論入力は、その複数の推論入力における他の推論入力のベース特徴マップとは一部または全部が異なるベース特徴マップを有する。【選択図】図１

Description

本発明は、画像認識方法、画像認識装置、および画像認識プログラムに関するものである。

近年、機械学習によって得られた推論器（分類器など）が実用化されている。

一般的に、そのような推論器において、十分な精度の推論結果を得るためには多くの教師データが必要になり、比較的少ない教師データの場合、教師データの偏りによって良好な推論結果が得られないことがある。

そのような教師データの偏りの影響を抑制するために、集団学習が使用されることがある。集団学習では、互いに独立性の高い複数の推論器が使用され、その複数の推論器の推論結果から、多数決などで、１つの最終的な推論結果が得られる。

他方、画像認識分野においては、ある画像処理装置は、画像認識の対象となる入力画像に対して、複数サイズおよび複数方向の特定形状（線など）を抽出する空間フィルターを適用して、入力画像に含まれるある方向を向いたあるサイズの特定形状を検出している（例えば特許文献１参照）。

また、ある検査装置は、（ａ）機械学習モデルを使用して、入力画像に異常が含まれているか否かの判定結果を導出し、（ｂ）異常が含まれている画像と入力画像との関連度、および異常が含まれていない画像と入力画像との関連度を算出し、その関連度に基づいて上述の判定結果の信用性を評価している（例えば特許文献２参照）。

特開２０１７－１３３７５号公報特開２０１９－２０１３８号公報

画像認識用の複数の推論器（分類器など）の集団学習に対して、上述のようにして検出される特定形状を示す特徴量に基づいて、各推論器の機械学習を行うことが考えられるが、画像認識用の複数の推論器のための教師データとして、集団学習に必要な、独立性が高くかつ十分な精度の推論結果を出力するための特徴量を用意することが困難である。

本発明は、上記の問題に鑑みてなされたものであり、比較的少ない教師データ量でも独立性が高くかつ十分な精度の推論結果を出力するための特徴量を使用した画像認識の集団学習を可能とし、良好な推論結果を導出する画像認識方法、画像認識装置、および画像認識プログラムを得ることを目的とする。

本発明に係る画像認識方法は、入力画像から、複数のベース特徴マップからなるベース特徴マップ群を生成する特徴量抽出ステップと、前記ベース特徴マップ群に基づく複数の推論入力に対して、機械学習済みの複数の推論器をそれぞれ使用して、複数の推論結果を導出する推論ステップと、前記複数の推論結果を所定の方法で統合して、最終推論結果を導出する統合ステップとを備える。そして、前記複数の推論入力は、それぞれ、前記複数のベース特徴マップの一部または全部のベース特徴マップを有し、前記複数の推論入力における各推論入力は、前記複数の推論入力における他の推論入力のベース特徴マップとは一部または全部が異なるベース特徴マップを有する。

本発明に係る画像認識装置は、入力画像から、複数のベース特徴マップからなるベース特徴マップ群を生成する特徴量抽出部と、前記ベース特徴マップ群に基づく複数の推論入力に対して、機械学習済みの複数の推論器をそれぞれ使用して、複数の推論結果を導出する機械学習済みの複数の推論器と、前記複数の推論結果を所定の方法で統合して、最終推論結果を導出する統合器とを備える。そして、前記複数の推論入力は、それぞれ、前記複数のベース特徴マップの一部または全部のベース特徴マップを有し、前記複数の推論入力における各推論入力は、前記複数の推論入力における他の推論入力のベース特徴マップとは一部または全部が異なるベース特徴マップを有する。

本発明に係る画像認識プログラムは、コンピューターを、上述の特徴量抽出部、上述の複数の推論器、および上述の統合器として機能させる。

本発明によれば、比較的少ない教師データ量でも独立性が高くかつ十分な精度の推論結果を出力するための特徴量を使用した画像認識の集団学習を可能とし、良好な推論結果を導出する画像認識方法、画像認識装置、および画像認識プログラムが得られる。

本発明の上記又は他の目的、特徴および優位性は、添付の図面とともに以下の詳細な説明から更に明らかになる。

図１は、本発明の実施の形態に係る画像認識装置の構成を示すブロック図である。図２は、図１における特徴量抽出部１１の構成を示すブロック図である。図３は、図２に示す特徴量抽出部１１の動作の一例について説明する図である。図４は、図１における推論入力生成部１２の動作の一例について説明する図である。図５は、図１における統合器１４により使用される重み係数の導出の一例について説明する図である。

以下、図に基づいて本発明の実施の形態を説明する。

図１は、本発明の実施の形態に係る画像認識装置の構成を示すブロック図である。図１に示す画像認識装置は、複合機、スキャナーなどといった電子機器、パーソナルコンピューターなどといった端末装置、ネットワーク上のサーバーなどであって、内蔵のコンピューターで画像認識プログラムを実行することで、そのコンピューターを、後述の処理部として機能させる。

図１に示す画像認識装置は、特徴量抽出部１１、推論入力生成部１２、複数の推論器１３－１～１３－Ｎ（Ｎ＞１）、統合器１４、重み設定器１５、および機械学習処理部１６を備える。

特徴量抽出部１１は、入力画像から、複数のベース特徴マップからなるベース特徴マップ群を生成する処理部である。

入力画像は、図示せぬスキャナーで読み取られた画像、図示せぬ通信装置で受信された画像データに基づく画像、図示せぬ記憶装置に記憶されている画像データに基づく画像などであって、画像認識の対象となる画像である。

上述の複数のベース特徴マップは、入力画像から複数の特定処理（ここでは、空間フィルター処理）でそれぞれ抽出される。例えば、数十から数百個のベース特徴マップが生成され１つのベース特徴マップ群とされる。

図２は、図１における特徴量抽出部１１の構成を示すブロック図である。図３は、図２に示す特徴量抽出部１１の動作の一例について説明する図である。

図２に示すように、特徴量抽出部１１は、フィルター部２１とフィルター出力統合部２２とを備える。フィルター部２１は、入力画像に対して、所定特性の複数の空間フィルターでフィルター処理を実行し、フィルター出力統合部２２は、入力画像の各位置におけるフィルター部２１による複数のフィルター処理結果に基づいて、ベース特徴マップを生成する。

例えば図３に示すように、特定形状（直線および曲線といった線、点、円、多角形など）を検出するためには、複数のサイズのそれぞれについて、検出感度が方向によって異なる複数の空間フィルターが使用され、複数の空間フィルターのフィルター出力の論理和の形状を含むベース特徴マップが生成される。例えばある空間フィルターのフィルター出力でのみ線形状が現れ、他のすべての空間フィルターのフィルター出力で形状が現れていない場合には、その線形状を含むベース特徴マップが生成される。また、例えば複数の空間フィルターのフィルター出力で線形状が現れている場合には、その線形状の交差する箇所の点（つまり、線形状の論理積となる点形状）を含むベース特徴マップが生成される。

この空間フィルターには、例えば２次元ガボールフィルターが使用される。その場合、検出対象のサイズに対応する空間周波数に合わせたフィルター特性の２次元ガボールフィルターが使用される。また、形状のエッジを検出する２次微分空間フィルターを、この空間フィルターとして使用してもよい。

ここでは、ベース特徴マップは、複数の特定形状の位置、サイズ、および方向を示す２次元データを有し、例えば、この複数の特定形状は、上述の特定処理としての空間フィルター処理で入力画像において検出される。また、ベース特徴マップは、入力画像の特定色（各色プレーン）の画像データでもよい。このように、形状情報を有するベース特徴マップおよび色情報を有するベース特徴マップがそれぞれ必要に応じて使用される。

推論入力生成部１２は、上述のベース特徴マップ群から複数の推論入力を生成する推論入力生成ステップを実行する処理部である。この複数の推論入力は、推論器１３－１～１３－Ｎにそれぞれ入力される入力データである。

上述の複数の推論入力は、それぞれ、上述の複数のベース特徴マップの一部または全部のベース特徴マップを有する。さらに、上述の複数の推論入力における各推論入力は、上述の複数の推論入力における他の推論入力のベース特徴マップとは一部または全部が異なるベース特徴マップを有する。

なお、上述の複数の推論入力のうちの１つは、ベース特徴マップ群のすべてのベース特徴マップを有していてもよい。

例えば、上述の複数の推論入力は、それぞれ、上述の複数の特定処理に対応してベース特徴マップ群から選択された１または複数のベース特徴マップを有する。

図４は、図１における推論入力生成部１２の動作の一例について説明する図である。例えば図４に示すように、上述の複数の推論入力は、例えば、そのサイズで分類された１または複数のベース特徴マップである。具体的には、複数のサイズ範囲が設定され、各サイズ範囲について、特定形状のサイズがそのサイズ範囲に属する１または複数のベース特徴マップ（以下、ベース特徴マップ組という）が、１つの推論入力とされる。つまり、ここでは、サイズで分類され、位置および方法では分類されない。なお、各サイズ範囲は、一部または全部が他のサイズ範囲に重なっていてもよい。

また、各推論入力は、ベース特徴マップ群から選択された１または複数のベース特徴マップ以外のデータ（推論結果に影響を与える可能性のあるパラメーターなどといったメタデータ）を含むようにしてもよい。そのようなメタデータとしては、画像取得時の環境データ（温度、湿度、時刻、撮影対象の状態情報など。例えば、入力画像がカメラで撮影された写真画像である場合におけるその撮影時の環境データ）、知見情報（注目すべき領域の位置やサイズ）などが使用される。

なお、推論器１３－ｉの機械学習に使用される教師データにおいては、特定形状の位置および方向について偏りなく全方向に分散したベース特徴マップが得られるような入力画像が使用される。

複数の推論器１３－１～１３－Ｎは、上述のベース特徴マップ群に基づく複数の推論入力に対して複数の推論結果（分類結果など）を導出する処理部であって、ディープラーニングなどといった機械学習済みの処理部である。例えば、各推論器１３－ｉ（ｉ＝１，・・・，Ｎ）は、畳み込みニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）である。例えば、複数の推論器１３－１～１３－Ｎは、３個以上の推論器とされる。

統合器１４は、複数の推論器１３－１～１３－Ｎにより得られる複数の推論結果を所定の方法（多数決、クラス所属確率など）で統合して、最終推論結果を導出する処理部である。
例えば、統合器１４は、複数の推論結果に対する多数決で最終推論結果を導出したり、複数の推論結果についての複数クラスに対するクラス所属確率の平均値や合計値に基づいて、最終推論結果を導出したりする。

この実施の形態では、統合器１４は、上述の複数の推論結果に対する重み係数を考慮して、上述の複数の推論結果を所定の方法で統合して最終推論結果を導出する。なお、重み係数を考慮せずに統合して最終推論結果を導出するようにしてもよい。信頼度の高い推論結果ほど、重み係数が大きくされる。

なお、統合器１４は、機械学習済みの統合器とされ、上述の複数の推論結果を統合して最終推論結果を導出するようにしてもよい。また、統合器１４は、他の既存の方法で上述の複数の推論結果を統合して最終推論結果を導出するようにしてもよい。

重み設定器１５は、統合器１４における上述の重み係数を導出し設定する処理部である。重み係数の値は、手動で入力された値に基づいて設定してもよいし、以下のようにして自動的に設定するようにしてもよい。

例えば、重み設定器１５は、複数の推論器１３－１～１３－Ｎのそれぞれの推論精度に基づいて上述の重み係数を導出し統合器１４に設定するようにしてもよい。

その場合、例えば、後述の機械学習処理部１６が、クロスバリデーション（教師データを分割し一部を機械学習に使用して推論結果を導出し残りをその推論結果の検証に使用する処理を、分割パターンを変更して繰り返し行う検証方法）によって、各推論器１３－ｉの推論精度を導出し、重み設定器１５は、機械学習処理部１６により導出された複数の推論器１３－１～１３－Ｎの推論精度に基づいて、複数の推論器１３－１～１３－Ｎの推論結果についての上述の重み係数を導出するようにしてもよい。

また、その場合、例えば、ＣＮＮなどを使用した画像認識アルゴリズムで、入力画像から各推論器１３－ｉの推論精度を推定するようにしてもよい。

また、例えば、重み設定器１５は、当該入力画像についての特定特徴量（形状、色など）の分布と、複数の推論器１３－１～１３－Ｎの機械学習に使用した教師データの入力画像についての特定特徴量の分布とに基づいて上述の重み係数を導出し統合器１４に設定するようにしてもよい。

図５は、図１における統合器１４により使用される重み係数の導出の一例について説明する図である。例えば図５に示すように、教師データの入力画像から得られるベース特徴マップ内のオブジェクトの形状（円、矩形、三角形など）の頻度分布、色（青色、赤色、緑色など）の頻度分布などが機械学習時に予め導出され、画像認識対象の入力画像から得られるベース特徴マップ内のオブジェクトの形状および色の、その頻度分布における頻度に対応して重み係数（の値）が決定される。つまり、その頻度が高いほど、対応する重み係数が大きく設定される。

例えば、推論器１３－１～１３－Ｎにおいて、特定形状についてのベース特徴マップが推定入力とされる推論器１３－ｉおよび色情報についてのベース特徴マップ（入力画像のＲプレーン画像、Ｇプレーン画像、Ｂプレーン画像など）が推定入力とされる推論器１３－ｊがある場合、図５に示すように、形状についての頻度が高いが、色についての頻度が低いときには、推論器１３－ｉについての重み係数は高く設定され、推論器１３－ｊについての重み係数は低く設定される。

さらに、教師データにおける各入力画像を、オートエンコーダーなどを使用した特徴抽出処理によって抽出された特徴量を示す画像に変換し、その変換後の画像に基づいて教師データの特定特徴量の分布を導出し、また、その特徴抽出処理によって、画像認識対象の入力画像についても同様に特徴量を示す画像に変換し、その変換後の画像に基づいて画像認識対象の入力画像の特定特徴量を導出し、これにより、上述のように、教師データの特定特徴量の分布および画像認識対象の入力画像の特定特徴量に基づいて重み係数を設定するようにしてもよい。

機械学習処理部１６は、推論器１３－１～１３－Ｎの演算モデル（ここでは、ＣＮＮ）に対応する既存の学習方法に従って、複数の推論器１３－１～１３－Ｎの機械学習を行う機械学習ステップを実行する処理部である。複数の推論器１３－１～１３－Ｎの機械学習では、各推論器１３－ｉの機械学習が独立して実行される。

具体的には、入力画像と最終推論結果との複数の対を含む教師データが図示せぬ記憶装置などにおいて用意され、機械学習処理部１６は、その教師データを取得し、各対の入力画像を特徴量抽出部１１に入力し、その入力画像に対応して推論器１３－１～１３－Ｎからそれぞれ出力される推論結果を取得し、出力される推論結果とその教師データの対の最終推論結果との比較結果に基づいて各推論器１３－ｉのパラメーター値（ＣＮＮの重みやバイアスの値）を他の推論器１３－ｊとは独立して調整していく。

機械学習処理部１６は、上述の機械学習に使用される教師データの入力画像においてその教師データにより指定される特定部分領域以外の領域を除外して、機械学習を行うようにしてもよい。

つまり、その場合、画像認識において注目すべき領域（機械などにおいて特定の部品が写っている領域、画像認識で検出すべき異常が発生する可能性がある領域など）が特定部分領域として指定され、それ以外の領域が除外されて機械学習が行われるため、機械学習が効率良く進行する。例えば、画像認識で検出すべき特定の異常が発生する可能性がある領域に限定して、その異常に対応する特定形状のベース特徴マップを抽出することで、比較的少ない教師データ量で機械学習が効率よく行われる。

なお、推論器１３－１～１３－Ｎの機械学習が完了している場合には、機械学習処理部１６を設けなくてもよい。

次に、図１に示す画像認識装置の動作について説明する。

（ａ）推論器１３－１～１３－Ｎの機械学習

教師データとして、入力画像と最終推論結果（つまり、正しい画像認識結果）との複数の対が図示せぬ記憶装置などにおいて用意される。そして、機械学習処理部１６は、その教師データを使用して、推論器１３－１～１３－Ｎの機械学習を行う。

機械学習では、機械学習処理部１６が１つの教師データを選択し、その教師データの１つの入力画像を特徴量抽出部１１に入力すると、特徴量抽出部１１が、その入力画像からベース特徴アップ群を生成し、推論入力生成部１２が、ベース特徴アップ群から各推論入力を生成し、各推論器１３－ｉに入力する。そして、推論器１３－１～１３－Ｎは、現時点の状態（ＣＮＮのパラメーター値など）に基づいて、それぞれ、推論入力に対する推論結果を導出する。そして、機械学習処理部１６は、教師データの入力画像に対応する推論結果と教師データの最終推論結果とを比較して所定のアルゴリズムでその比較結果に基づいて各推論器１３－１～１３－Ｎの状態を更新する。

なお、機械学習では、この一連の処理がエポック数などのハイパーパラメーターの値に応じて所定の機械学習アルゴリズムに従って繰り返し実行される。

（ｂ）画像認識対象の入力画像の画像認識

上述の機械学習後に画像認識対象の入力画像に対する画像認識が実行される。その際、図示せぬコントローラーなどによって取得された入力画像（入力画像データ）が特徴量抽出部１１に入力される。その入力画像を特徴量抽出部１１に入力されると、特徴量抽出部１１が、その入力画像からベース特徴アップ群を生成し、推論入力生成部１２が、ベース特徴アップ群から各推論入力を生成し、各推論器１３－ｉに入力する。そして、推論器１３－１～１３－Ｎは、機械学習済みの状態（ＣＮＮのパラメーター値など）に基づいて、それぞれ、推論入力に対する推論結果を導出する。そして、統合器１４は、それらの推論結果から最終推論結果を導出し出力する。

以上のように、上記実施の形態によれば、特徴量抽出ステップにおいて、入力画像から、複数のベース特徴マップからなるベース特徴マップ群が生成され、推論ステップにおいて、ベース特徴マップ群に基づく複数の推論入力に対して、機械学習済みの複数の推論器１３－１～１３－Ｎをそれぞれ使用して、複数の推論結果が導出され、統合ステップにおいて、その複数の推論結果を所定の方法で統合して、最終推論結果が導出される。そして、上述の複数の推論入力は、それぞれ、上述の複数のベース特徴マップの一部または全部のベース特徴マップを有し、その複数の推論入力における各推論入力は、その複数の推論入力における他の推論入力のベース特徴マップとは一部または全部が異なるベース特徴マップを有する。

これにより、入力画像から種々の特徴量を示す複数のベース特徴マップが生成され、複数のベース特徴マップから種々の複数のベース特徴マップの組み合わせが推論入力とされて複数の推論器１３－１～１３－Ｎで推論結果が得られ、その推論結果を統合することで最終推論結果を導出しているため、比較的少ない教師データ量でも独立性が高くかつ十分な精度の推論結果を出力するための特徴量を使用した画像認識の集団学習が可能となっており、ひいてはその集団学習された複数の推論器１３－１～１３－Ｎを使用して良好な推論結果が導出される。

さらに、比較的少ない教師データ量で良好な推論結果が得られるため、画像認識を必要とする個別的で小規模な現場において教師データが少ない場合でも、その現場に適した良好な推論結果が得られる。また、ベース特徴マップによって各推論器１３－ｉの入力が可視化され、各推論器１３－ｉの入出力関係の説明が容易となる。

なお、上述の実施の形態に対する様々な変更および修正については、当業者には明らかである。そのような変更および修正は、その主題の趣旨および範囲から離れることなく、かつ、意図された利点を弱めることなく行われてもよい。つまり、そのような変更および修正が請求の範囲に含まれることを意図している。

例えば、上記実施の形態において、推論器１３－１～１３－Ｎは、それぞれ、複数層の推論部を備え、各推論器１３－ｉは、アンサンブル学習のスタッキング法に従って、複数層の推論部を使用して推論結果を導出するようにしてもよい。

また、上記実施の形態において、推論器１３－１～１３－Ｎに上述のメタデータを入力する場合、推論器１３－１～１３－Ｎに対して同一のメタデータを入力するようにしてもよいし、推論器１３－１～１３－Ｎに対して、各推論器１３－ｉに対応する（互いに異なる）メタデータを入力するようにしてもよい。

本発明は、例えば、画像認識に適用可能である。

１１特徴量抽出部
１２推論入力生成部
１３－１～１３－Ｎ推論器
１４統合器

Claims

入力画像から、複数のベース特徴マップからなるベース特徴マップ群を生成する特徴量抽出ステップと、
前記ベース特徴マップ群に基づく複数の推論入力に対して、機械学習済みの複数の推論器をそれぞれ使用して、複数の推論結果を導出する推論ステップと、
前記複数の推論結果を所定の方法で統合して、最終推論結果を導出する統合ステップと、
を備え、
前記複数の推論入力は、それぞれ、前記複数のベース特徴マップの一部または全部のベース特徴マップを有し、
前記複数の推論入力における各推論入力は、前記複数の推論入力における他の推論入力のベース特徴マップとは一部または全部が異なるベース特徴マップを有すること、
を特徴とする画像認識方法。
前記ベース特徴マップ群から複数の推論入力を生成する推論入力生成ステップをさらに備え、
前記複数のベース特徴マップは、前記入力画像から複数の特定処理でそれぞれ抽出され、
前記推論入力は、前記複数の特定処理に対応して前記ベース特徴マップ群から選択された１または複数のベース特徴マップを有すること、
を特徴とする請求項１記載の画像認識方法。
前記ベース特徴マップは、複数の特定形状の位置、サイズ、および方向を示す２次元データを有し、
前記複数の推論入力は、前記サイズで分類された１または複数のベース特徴マップであること、
を特徴とする請求項１または請求項２記載の画像認識方法。
前記統合ステップでは、前記複数の推論結果に対する重み係数を考慮して前記所定の方法で統合して最終推論結果を導出することを特徴とする請求項１から請求項３のうちのいずれか１項記載の画像認識方法。
前記重み係数は、前記複数の推論器のそれぞれの推論精度に基づいて設定されていることを特徴とする請求項４記載の画像認識方法。
前記重み係数は、当該入力画像についての特定特徴量の分布と、前記複数の推論器の機械学習に使用した教師データの入力画像についての前記特定特徴量の分布とに基づいて設定されることを特徴とする請求項４記載の画像認識方法。
前記統合ステップでは、機械学習済みの統合器を使用して、前記複数の推論結果を統合して前記最終推論結果を導出することを特徴とする請求項４から請求項６のうちのいずれか１項記載の画像認識方法。
前記複数の推論器の機械学習を行う機械学習ステップをさらに備え、
前記機械学習に使用される教師データの入力画像において前記教師データにより指定される特定部分領域以外の領域を除外して、前記機械学習を行うこと、
を特徴とする請求項１から請求項７のうちのいずれか１項記載の画像認識方法。
前記複数の推論入力は、前記ベース特徴マップ群から選択された前記１または複数のベース特徴マップ以外のデータを含むことを特徴とする請求項１から請求項８のうちのいずれか１項記載の画像認識方法。
入力画像から、複数のベース特徴マップからなるベース特徴マップ群を生成する特徴量抽出部と、
前記ベース特徴マップ群に基づく複数の推論入力に対して複数の推論結果を導出する機械学習済みの複数の推論器と、
前記複数の推論結果を所定の方法で統合して、最終推論結果を導出する統合器と、
を備え、
前記複数の推論入力は、それぞれ、前記複数のベース特徴マップの一部または全部のベース特徴マップを有し、
前記複数の推論入力における各推論入力は、前記複数の推論入力における他の推論入力のベース特徴マップとは一部または全部が異なるベース特徴マップを有すること、
を特徴とする画像認識装置。
コンピューターを、
入力画像から、複数のベース特徴マップからなるベース特徴マップ群を生成する特徴量抽出部、
前記ベース特徴マップ群に基づく複数の推論入力に対して複数の推論結果を導出する機械学習済みの複数の推論器、および
前記複数の推論結果を所定の方法で統合して、最終推論結果を導出する統合器
として機能させ、
前記複数の推論入力は、それぞれ、前記複数のベース特徴マップの一部または全部のベース特徴マップを有し、
前記複数の推論入力における各推論入力は、前記複数の推論入力における他の推論入力のベース特徴マップとは一部または全部が異なるベース特徴マップを有すること、
を特徴とする画像認識プログラム。