JP2022103693A - 画像認識方法、画像認識装置、および画像認識プログラム - Google Patents

画像認識方法、画像認識装置、および画像認識プログラム Download PDF

Info

Publication number
JP2022103693A
JP2022103693A JP2020218477A JP2020218477A JP2022103693A JP 2022103693 A JP2022103693 A JP 2022103693A JP 2020218477 A JP2020218477 A JP 2020218477A JP 2020218477 A JP2020218477 A JP 2020218477A JP 2022103693 A JP2022103693 A JP 2022103693A
Authority
JP
Japan
Prior art keywords
inference
base feature
inputs
image recognition
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020218477A
Other languages
English (en)
Inventor
卓哉 宮本
Takuya Miyamoto
一徳 田中
Kazunori Tanaka
加奈子 森本
Kanako Morimoto
留以 濱邊
Rui HAMABE
尚道 東山
Naomichi Higashiyama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2020218477A priority Critical patent/JP2022103693A/ja
Priority to US17/563,355 priority patent/US20220207853A1/en
Publication of JP2022103693A publication Critical patent/JP2022103693A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 比較的少ない教師データ量でも独立性が高くかつ十分な精度の推論結果を出力するための特徴量を使用した画像認識の集団学習を可能とし、良好な推論結果を導出する。【解決手段】 特徴量抽出ステップにおいて、入力画像から複数のベース特徴マップが生成され、推論ステップにおいて、ベース特徴マップ群に基づく複数の推論入力に対して、機械学習済みの複数の推論器13-1~13-Nをそれぞれ使用して、複数の推論結果が導出され、統合ステップにおいて、その複数の推論結果を所定の方法で統合して、最終推論結果が導出される。そして、上述の複数の推論入力は、それぞれ、上述の複数のベース特徴マップの一部または全部のベース特徴マップを有し、その複数の推論入力における各推論入力は、その複数の推論入力における他の推論入力のベース特徴マップとは一部または全部が異なるベース特徴マップを有する。【選択図】 図1

Description

本発明は、画像認識方法、画像認識装置、および画像認識プログラムに関するものである。
近年、機械学習によって得られた推論器(分類器など)が実用化されている。
一般的に、そのような推論器において、十分な精度の推論結果を得るためには多くの教師データが必要になり、比較的少ない教師データの場合、教師データの偏りによって良好な推論結果が得られないことがある。
そのような教師データの偏りの影響を抑制するために、集団学習が使用されることがある。集団学習では、互いに独立性の高い複数の推論器が使用され、その複数の推論器の推論結果から、多数決などで、1つの最終的な推論結果が得られる。
他方、画像認識分野においては、ある画像処理装置は、画像認識の対象となる入力画像に対して、複数サイズおよび複数方向の特定形状(線など)を抽出する空間フィルターを適用して、入力画像に含まれるある方向を向いたあるサイズの特定形状を検出している(例えば特許文献1参照)。
また、ある検査装置は、(a)機械学習モデルを使用して、入力画像に異常が含まれているか否かの判定結果を導出し、(b)異常が含まれている画像と入力画像との関連度、および異常が含まれていない画像と入力画像との関連度を算出し、その関連度に基づいて上述の判定結果の信用性を評価している(例えば特許文献2参照)。
特開2017-13375号公報 特開2019-20138号公報
画像認識用の複数の推論器(分類器など)の集団学習に対して、上述のようにして検出される特定形状を示す特徴量に基づいて、各推論器の機械学習を行うことが考えられるが、画像認識用の複数の推論器のための教師データとして、集団学習に必要な、独立性が高くかつ十分な精度の推論結果を出力するための特徴量を用意することが困難である。
本発明は、上記の問題に鑑みてなされたものであり、比較的少ない教師データ量でも独立性が高くかつ十分な精度の推論結果を出力するための特徴量を使用した画像認識の集団学習を可能とし、良好な推論結果を導出する画像認識方法、画像認識装置、および画像認識プログラムを得ることを目的とする。
本発明に係る画像認識方法は、入力画像から、複数のベース特徴マップからなるベース特徴マップ群を生成する特徴量抽出ステップと、前記ベース特徴マップ群に基づく複数の推論入力に対して、機械学習済みの複数の推論器をそれぞれ使用して、複数の推論結果を導出する推論ステップと、前記複数の推論結果を所定の方法で統合して、最終推論結果を導出する統合ステップとを備える。そして、前記複数の推論入力は、それぞれ、前記複数のベース特徴マップの一部または全部のベース特徴マップを有し、前記複数の推論入力における各推論入力は、前記複数の推論入力における他の推論入力のベース特徴マップとは一部または全部が異なるベース特徴マップを有する。
本発明に係る画像認識装置は、入力画像から、複数のベース特徴マップからなるベース特徴マップ群を生成する特徴量抽出部と、前記ベース特徴マップ群に基づく複数の推論入力に対して、機械学習済みの複数の推論器をそれぞれ使用して、複数の推論結果を導出する機械学習済みの複数の推論器と、前記複数の推論結果を所定の方法で統合して、最終推論結果を導出する統合器とを備える。そして、前記複数の推論入力は、それぞれ、前記複数のベース特徴マップの一部または全部のベース特徴マップを有し、前記複数の推論入力における各推論入力は、前記複数の推論入力における他の推論入力のベース特徴マップとは一部または全部が異なるベース特徴マップを有する。
本発明に係る画像認識プログラムは、コンピューターを、上述の特徴量抽出部、上述の複数の推論器、および上述の統合器として機能させる。
本発明によれば、比較的少ない教師データ量でも独立性が高くかつ十分な精度の推論結果を出力するための特徴量を使用した画像認識の集団学習を可能とし、良好な推論結果を導出する画像認識方法、画像認識装置、および画像認識プログラムが得られる。
本発明の上記又は他の目的、特徴および優位性は、添付の図面とともに以下の詳細な説明から更に明らかになる。
図1は、本発明の実施の形態に係る画像認識装置の構成を示すブロック図である。 図2は、図1における特徴量抽出部11の構成を示すブロック図である。 図3は、図2に示す特徴量抽出部11の動作の一例について説明する図である。 図4は、図1における推論入力生成部12の動作の一例について説明する図である。 図5は、図1における統合器14により使用される重み係数の導出の一例について説明する図である。
以下、図に基づいて本発明の実施の形態を説明する。
図1は、本発明の実施の形態に係る画像認識装置の構成を示すブロック図である。図1に示す画像認識装置は、複合機、スキャナーなどといった電子機器、パーソナルコンピューターなどといった端末装置、ネットワーク上のサーバーなどであって、内蔵のコンピューターで画像認識プログラムを実行することで、そのコンピューターを、後述の処理部として機能させる。
図1に示す画像認識装置は、特徴量抽出部11、推論入力生成部12、複数の推論器13-1~13-N(N>1)、統合器14、重み設定器15、および機械学習処理部16を備える。
特徴量抽出部11は、入力画像から、複数のベース特徴マップからなるベース特徴マップ群を生成する処理部である。
入力画像は、図示せぬスキャナーで読み取られた画像、図示せぬ通信装置で受信された画像データに基づく画像、図示せぬ記憶装置に記憶されている画像データに基づく画像などであって、画像認識の対象となる画像である。
上述の複数のベース特徴マップは、入力画像から複数の特定処理(ここでは、空間フィルター処理)でそれぞれ抽出される。例えば、数十から数百個のベース特徴マップが生成され1つのベース特徴マップ群とされる。
図2は、図1における特徴量抽出部11の構成を示すブロック図である。図3は、図2に示す特徴量抽出部11の動作の一例について説明する図である。
図2に示すように、特徴量抽出部11は、フィルター部21とフィルター出力統合部22とを備える。フィルター部21は、入力画像に対して、所定特性の複数の空間フィルターでフィルター処理を実行し、フィルター出力統合部22は、入力画像の各位置におけるフィルター部21による複数のフィルター処理結果に基づいて、ベース特徴マップを生成する。
例えば図3に示すように、特定形状(直線および曲線といった線、点、円、多角形など)を検出するためには、複数のサイズのそれぞれについて、検出感度が方向によって異なる複数の空間フィルターが使用され、複数の空間フィルターのフィルター出力の論理和の形状を含むベース特徴マップが生成される。例えばある空間フィルターのフィルター出力でのみ線形状が現れ、他のすべての空間フィルターのフィルター出力で形状が現れていない場合には、その線形状を含むベース特徴マップが生成される。また、例えば複数の空間フィルターのフィルター出力で線形状が現れている場合には、その線形状の交差する箇所の点(つまり、線形状の論理積となる点形状)を含むベース特徴マップが生成される。
この空間フィルターには、例えば2次元ガボールフィルターが使用される。その場合、検出対象のサイズに対応する空間周波数に合わせたフィルター特性の2次元ガボールフィルターが使用される。また、形状のエッジを検出する2次微分空間フィルターを、この空間フィルターとして使用してもよい。
ここでは、ベース特徴マップは、複数の特定形状の位置、サイズ、および方向を示す2次元データを有し、例えば、この複数の特定形状は、上述の特定処理としての空間フィルター処理で入力画像において検出される。また、ベース特徴マップは、入力画像の特定色(各色プレーン)の画像データでもよい。このように、形状情報を有するベース特徴マップおよび色情報を有するベース特徴マップがそれぞれ必要に応じて使用される。
推論入力生成部12は、上述のベース特徴マップ群から複数の推論入力を生成する推論入力生成ステップを実行する処理部である。この複数の推論入力は、推論器13-1~13-Nにそれぞれ入力される入力データである。
上述の複数の推論入力は、それぞれ、上述の複数のベース特徴マップの一部または全部のベース特徴マップを有する。さらに、上述の複数の推論入力における各推論入力は、上述の複数の推論入力における他の推論入力のベース特徴マップとは一部または全部が異なるベース特徴マップを有する。
なお、上述の複数の推論入力のうちの1つは、ベース特徴マップ群のすべてのベース特徴マップを有していてもよい。
例えば、上述の複数の推論入力は、それぞれ、上述の複数の特定処理に対応してベース特徴マップ群から選択された1または複数のベース特徴マップを有する。
図4は、図1における推論入力生成部12の動作の一例について説明する図である。例えば図4に示すように、上述の複数の推論入力は、例えば、そのサイズで分類された1または複数のベース特徴マップである。具体的には、複数のサイズ範囲が設定され、各サイズ範囲について、特定形状のサイズがそのサイズ範囲に属する1または複数のベース特徴マップ(以下、ベース特徴マップ組という)が、1つの推論入力とされる。つまり、ここでは、サイズで分類され、位置および方法では分類されない。なお、各サイズ範囲は、一部または全部が他のサイズ範囲に重なっていてもよい。
また、各推論入力は、ベース特徴マップ群から選択された1または複数のベース特徴マップ以外のデータ(推論結果に影響を与える可能性のあるパラメーターなどといったメタデータ)を含むようにしてもよい。そのようなメタデータとしては、画像取得時の環境データ(温度、湿度、時刻、撮影対象の状態情報など。例えば、入力画像がカメラで撮影された写真画像である場合におけるその撮影時の環境データ)、知見情報(注目すべき領域の位置やサイズ)などが使用される。
なお、推論器13-iの機械学習に使用される教師データにおいては、特定形状の位置および方向について偏りなく全方向に分散したベース特徴マップが得られるような入力画像が使用される。
複数の推論器13-1~13-Nは、上述のベース特徴マップ群に基づく複数の推論入力に対して複数の推論結果(分類結果など)を導出する処理部であって、ディープラーニングなどといった機械学習済みの処理部である。例えば、各推論器13-i(i=1,・・・,N)は、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)である。例えば、複数の推論器13-1~13-Nは、3個以上の推論器とされる。
統合器14は、複数の推論器13-1~13-Nにより得られる複数の推論結果を所定の方法(多数決、クラス所属確率など)で統合して、最終推論結果を導出する処理部である。
例えば、統合器14は、複数の推論結果に対する多数決で最終推論結果を導出したり、複数の推論結果についての複数クラスに対するクラス所属確率の平均値や合計値に基づいて、最終推論結果を導出したりする。
この実施の形態では、統合器14は、上述の複数の推論結果に対する重み係数を考慮して、上述の複数の推論結果を所定の方法で統合して最終推論結果を導出する。なお、重み係数を考慮せずに統合して最終推論結果を導出するようにしてもよい。信頼度の高い推論結果ほど、重み係数が大きくされる。
なお、統合器14は、機械学習済みの統合器とされ、上述の複数の推論結果を統合して最終推論結果を導出するようにしてもよい。また、統合器14は、他の既存の方法で上述の複数の推論結果を統合して最終推論結果を導出するようにしてもよい。
重み設定器15は、統合器14における上述の重み係数を導出し設定する処理部である。重み係数の値は、手動で入力された値に基づいて設定してもよいし、以下のようにして自動的に設定するようにしてもよい。
例えば、重み設定器15は、複数の推論器13-1~13-Nのそれぞれの推論精度に基づいて上述の重み係数を導出し統合器14に設定するようにしてもよい。
その場合、例えば、後述の機械学習処理部16が、クロスバリデーション(教師データを分割し一部を機械学習に使用して推論結果を導出し残りをその推論結果の検証に使用する処理を、分割パターンを変更して繰り返し行う検証方法)によって、各推論器13-iの推論精度を導出し、重み設定器15は、機械学習処理部16により導出された複数の推論器13-1~13-Nの推論精度に基づいて、複数の推論器13-1~13-Nの推論結果についての上述の重み係数を導出するようにしてもよい。
また、その場合、例えば、CNNなどを使用した画像認識アルゴリズムで、入力画像から各推論器13-iの推論精度を推定するようにしてもよい。
また、例えば、重み設定器15は、当該入力画像についての特定特徴量(形状、色など)の分布と、複数の推論器13-1~13-Nの機械学習に使用した教師データの入力画像についての特定特徴量の分布とに基づいて上述の重み係数を導出し統合器14に設定するようにしてもよい。
図5は、図1における統合器14により使用される重み係数の導出の一例について説明する図である。例えば図5に示すように、教師データの入力画像から得られるベース特徴マップ内のオブジェクトの形状(円、矩形、三角形など)の頻度分布、色(青色、赤色、緑色など)の頻度分布などが機械学習時に予め導出され、画像認識対象の入力画像から得られるベース特徴マップ内のオブジェクトの形状および色の、その頻度分布における頻度に対応して重み係数(の値)が決定される。つまり、その頻度が高いほど、対応する重み係数が大きく設定される。
例えば、推論器13-1~13-Nにおいて、特定形状についてのベース特徴マップが推定入力とされる推論器13-iおよび色情報についてのベース特徴マップ(入力画像のRプレーン画像、Gプレーン画像、Bプレーン画像など)が推定入力とされる推論器13-jがある場合、図5に示すように、形状についての頻度が高いが、色についての頻度が低いときには、推論器13-iについての重み係数は高く設定され、推論器13-jについての重み係数は低く設定される。
さらに、教師データにおける各入力画像を、オートエンコーダーなどを使用した特徴抽出処理によって抽出された特徴量を示す画像に変換し、その変換後の画像に基づいて教師データの特定特徴量の分布を導出し、また、その特徴抽出処理によって、画像認識対象の入力画像についても同様に特徴量を示す画像に変換し、その変換後の画像に基づいて画像認識対象の入力画像の特定特徴量を導出し、これにより、上述のように、教師データの特定特徴量の分布および画像認識対象の入力画像の特定特徴量に基づいて重み係数を設定するようにしてもよい。
機械学習処理部16は、推論器13-1~13-Nの演算モデル(ここでは、CNN)に対応する既存の学習方法に従って、複数の推論器13-1~13-Nの機械学習を行う機械学習ステップを実行する処理部である。複数の推論器13-1~13-Nの機械学習では、各推論器13-iの機械学習が独立して実行される。
具体的には、入力画像と最終推論結果との複数の対を含む教師データが図示せぬ記憶装置などにおいて用意され、機械学習処理部16は、その教師データを取得し、各対の入力画像を特徴量抽出部11に入力し、その入力画像に対応して推論器13-1~13-Nからそれぞれ出力される推論結果を取得し、出力される推論結果とその教師データの対の最終推論結果との比較結果に基づいて各推論器13-iのパラメーター値(CNNの重みやバイアスの値)を他の推論器13-jとは独立して調整していく。
機械学習処理部16は、上述の機械学習に使用される教師データの入力画像においてその教師データにより指定される特定部分領域以外の領域を除外して、機械学習を行うようにしてもよい。
つまり、その場合、画像認識において注目すべき領域(機械などにおいて特定の部品が写っている領域、画像認識で検出すべき異常が発生する可能性がある領域など)が特定部分領域として指定され、それ以外の領域が除外されて機械学習が行われるため、機械学習が効率良く進行する。例えば、画像認識で検出すべき特定の異常が発生する可能性がある領域に限定して、その異常に対応する特定形状のベース特徴マップを抽出することで、比較的少ない教師データ量で機械学習が効率よく行われる。
なお、推論器13-1~13-Nの機械学習が完了している場合には、機械学習処理部16を設けなくてもよい。
次に、図1に示す画像認識装置の動作について説明する。
(a)推論器13-1~13-Nの機械学習
教師データとして、入力画像と最終推論結果(つまり、正しい画像認識結果)との複数の対が図示せぬ記憶装置などにおいて用意される。そして、機械学習処理部16は、その教師データを使用して、推論器13-1~13-Nの機械学習を行う。
機械学習では、機械学習処理部16が1つの教師データを選択し、その教師データの1つの入力画像を特徴量抽出部11に入力すると、特徴量抽出部11が、その入力画像からベース特徴アップ群を生成し、推論入力生成部12が、ベース特徴アップ群から各推論入力を生成し、各推論器13-iに入力する。そして、推論器13-1~13-Nは、現時点の状態(CNNのパラメーター値など)に基づいて、それぞれ、推論入力に対する推論結果を導出する。そして、機械学習処理部16は、教師データの入力画像に対応する推論結果と教師データの最終推論結果とを比較して所定のアルゴリズムでその比較結果に基づいて各推論器13-1~13-Nの状態を更新する。
なお、機械学習では、この一連の処理がエポック数などのハイパーパラメーターの値に応じて所定の機械学習アルゴリズムに従って繰り返し実行される。
(b)画像認識対象の入力画像の画像認識
上述の機械学習後に画像認識対象の入力画像に対する画像認識が実行される。その際、図示せぬコントローラーなどによって取得された入力画像(入力画像データ)が特徴量抽出部11に入力される。その入力画像を特徴量抽出部11に入力されると、特徴量抽出部11が、その入力画像からベース特徴アップ群を生成し、推論入力生成部12が、ベース特徴アップ群から各推論入力を生成し、各推論器13-iに入力する。そして、推論器13-1~13-Nは、機械学習済みの状態(CNNのパラメーター値など)に基づいて、それぞれ、推論入力に対する推論結果を導出する。そして、統合器14は、それらの推論結果から最終推論結果を導出し出力する。
以上のように、上記実施の形態によれば、特徴量抽出ステップにおいて、入力画像から、複数のベース特徴マップからなるベース特徴マップ群が生成され、推論ステップにおいて、ベース特徴マップ群に基づく複数の推論入力に対して、機械学習済みの複数の推論器13-1~13-Nをそれぞれ使用して、複数の推論結果が導出され、統合ステップにおいて、その複数の推論結果を所定の方法で統合して、最終推論結果が導出される。そして、上述の複数の推論入力は、それぞれ、上述の複数のベース特徴マップの一部または全部のベース特徴マップを有し、その複数の推論入力における各推論入力は、その複数の推論入力における他の推論入力のベース特徴マップとは一部または全部が異なるベース特徴マップを有する。
これにより、入力画像から種々の特徴量を示す複数のベース特徴マップが生成され、複数のベース特徴マップから種々の複数のベース特徴マップの組み合わせが推論入力とされて複数の推論器13-1~13-Nで推論結果が得られ、その推論結果を統合することで最終推論結果を導出しているため、比較的少ない教師データ量でも独立性が高くかつ十分な精度の推論結果を出力するための特徴量を使用した画像認識の集団学習が可能となっており、ひいてはその集団学習された複数の推論器13-1~13-Nを使用して良好な推論結果が導出される。
さらに、比較的少ない教師データ量で良好な推論結果が得られるため、画像認識を必要とする個別的で小規模な現場において教師データが少ない場合でも、その現場に適した良好な推論結果が得られる。また、ベース特徴マップによって各推論器13-iの入力が可視化され、各推論器13-iの入出力関係の説明が容易となる。
なお、上述の実施の形態に対する様々な変更および修正については、当業者には明らかである。そのような変更および修正は、その主題の趣旨および範囲から離れることなく、かつ、意図された利点を弱めることなく行われてもよい。つまり、そのような変更および修正が請求の範囲に含まれることを意図している。
例えば、上記実施の形態において、推論器13-1~13-Nは、それぞれ、複数層の推論部を備え、各推論器13-iは、アンサンブル学習のスタッキング法に従って、複数層の推論部を使用して推論結果を導出するようにしてもよい。
また、上記実施の形態において、推論器13-1~13-Nに上述のメタデータを入力する場合、推論器13-1~13-Nに対して同一のメタデータを入力するようにしてもよいし、推論器13-1~13-Nに対して、各推論器13-iに対応する(互いに異なる)メタデータを入力するようにしてもよい。
本発明は、例えば、画像認識に適用可能である。
11 特徴量抽出部
12 推論入力生成部
13-1~13-N 推論器
14 統合器

Claims (11)

  1. 入力画像から、複数のベース特徴マップからなるベース特徴マップ群を生成する特徴量抽出ステップと、
    前記ベース特徴マップ群に基づく複数の推論入力に対して、機械学習済みの複数の推論器をそれぞれ使用して、複数の推論結果を導出する推論ステップと、
    前記複数の推論結果を所定の方法で統合して、最終推論結果を導出する統合ステップと、
    を備え、
    前記複数の推論入力は、それぞれ、前記複数のベース特徴マップの一部または全部のベース特徴マップを有し、
    前記複数の推論入力における各推論入力は、前記複数の推論入力における他の推論入力のベース特徴マップとは一部または全部が異なるベース特徴マップを有すること、
    を特徴とする画像認識方法。
  2. 前記ベース特徴マップ群から複数の推論入力を生成する推論入力生成ステップをさらに備え、
    前記複数のベース特徴マップは、前記入力画像から複数の特定処理でそれぞれ抽出され、
    前記推論入力は、前記複数の特定処理に対応して前記ベース特徴マップ群から選択された1または複数のベース特徴マップを有すること、
    を特徴とする請求項1記載の画像認識方法。
  3. 前記ベース特徴マップは、複数の特定形状の位置、サイズ、および方向を示す2次元データを有し、
    前記複数の推論入力は、前記サイズで分類された1または複数のベース特徴マップであること、
    を特徴とする請求項1または請求項2記載の画像認識方法。
  4. 前記統合ステップでは、前記複数の推論結果に対する重み係数を考慮して前記所定の方法で統合して最終推論結果を導出することを特徴とする請求項1から請求項3のうちのいずれか1項記載の画像認識方法。
  5. 前記重み係数は、前記複数の推論器のそれぞれの推論精度に基づいて設定されていることを特徴とする請求項4記載の画像認識方法。
  6. 前記重み係数は、当該入力画像についての特定特徴量の分布と、前記複数の推論器の機械学習に使用した教師データの入力画像についての前記特定特徴量の分布とに基づいて設定されることを特徴とする請求項4記載の画像認識方法。
  7. 前記統合ステップでは、機械学習済みの統合器を使用して、前記複数の推論結果を統合して前記最終推論結果を導出することを特徴とする請求項4から請求項6のうちのいずれか1項記載の画像認識方法。
  8. 前記複数の推論器の機械学習を行う機械学習ステップをさらに備え、
    前記機械学習に使用される教師データの入力画像において前記教師データにより指定される特定部分領域以外の領域を除外して、前記機械学習を行うこと、
    を特徴とする請求項1から請求項7のうちのいずれか1項記載の画像認識方法。
  9. 前記複数の推論入力は、前記ベース特徴マップ群から選択された前記1または複数のベース特徴マップ以外のデータを含むことを特徴とする請求項1から請求項8のうちのいずれか1項記載の画像認識方法。
  10. 入力画像から、複数のベース特徴マップからなるベース特徴マップ群を生成する特徴量抽出部と、
    前記ベース特徴マップ群に基づく複数の推論入力に対して複数の推論結果を導出する機械学習済みの複数の推論器と、
    前記複数の推論結果を所定の方法で統合して、最終推論結果を導出する統合器と、
    を備え、
    前記複数の推論入力は、それぞれ、前記複数のベース特徴マップの一部または全部のベース特徴マップを有し、
    前記複数の推論入力における各推論入力は、前記複数の推論入力における他の推論入力のベース特徴マップとは一部または全部が異なるベース特徴マップを有すること、
    を特徴とする画像認識装置。
  11. コンピューターを、
    入力画像から、複数のベース特徴マップからなるベース特徴マップ群を生成する特徴量抽出部、
    前記ベース特徴マップ群に基づく複数の推論入力に対して複数の推論結果を導出する機械学習済みの複数の推論器、および
    前記複数の推論結果を所定の方法で統合して、最終推論結果を導出する統合器
    として機能させ、
    前記複数の推論入力は、それぞれ、前記複数のベース特徴マップの一部または全部のベース特徴マップを有し、
    前記複数の推論入力における各推論入力は、前記複数の推論入力における他の推論入力のベース特徴マップとは一部または全部が異なるベース特徴マップを有すること、
    を特徴とする画像認識プログラム。
JP2020218477A 2020-12-28 2020-12-28 画像認識方法、画像認識装置、および画像認識プログラム Pending JP2022103693A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020218477A JP2022103693A (ja) 2020-12-28 2020-12-28 画像認識方法、画像認識装置、および画像認識プログラム
US17/563,355 US20220207853A1 (en) 2020-12-28 2021-12-28 Image recognition method, image recognition apparatus, and non-transitory computer readable recording medium storing an image recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020218477A JP2022103693A (ja) 2020-12-28 2020-12-28 画像認識方法、画像認識装置、および画像認識プログラム

Publications (1)

Publication Number Publication Date
JP2022103693A true JP2022103693A (ja) 2022-07-08

Family

ID=82119385

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020218477A Pending JP2022103693A (ja) 2020-12-28 2020-12-28 画像認識方法、画像認識装置、および画像認識プログラム

Country Status (2)

Country Link
US (1) US20220207853A1 (ja)
JP (1) JP2022103693A (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6614198B2 (ja) * 2017-04-26 2019-12-04 カシオ計算機株式会社 画像処理装置、画像処理方法及びプログラム
GB2567155B (en) * 2017-10-02 2022-03-02 Room4 Group Ltd Histopathological image analysis
JP6988464B2 (ja) * 2017-12-26 2022-01-05 ブラザー工業株式会社 プログラム
US11928601B2 (en) * 2018-02-09 2024-03-12 Google Llc Neural network compression
KR20200072307A (ko) * 2018-12-12 2020-06-22 삼성전자주식회사 뉴럴 네트워크에서의 부하 균형을 위한 장치 및 방법
US20210011732A1 (en) * 2019-07-09 2021-01-14 MemryX Inc. Matrix Data Reuse Techniques in Processing Systems
US11731639B2 (en) * 2020-03-03 2023-08-22 GM Global Technology Operations LLC Method and apparatus for lane detection on a vehicle travel surface
CN111860155B (zh) * 2020-06-12 2022-04-29 华为技术有限公司 一种车道线的检测方法及相关设备

Also Published As

Publication number Publication date
US20220207853A1 (en) 2022-06-30

Similar Documents

Publication Publication Date Title
CN108615071B (zh) 模型测试的方法及装置
JP5546317B2 (ja) 外観検査装置、外観検査用識別器の生成装置及び外観検査用識別器生成方法ならびに外観検査用識別器生成用コンピュータプログラム
CN109781733A (zh) 缺陷检查装置、缺陷检查方法及计算机可读存储介质
JP6632288B2 (ja) 情報処理装置、情報処理方法、プログラム
JP2019087181A (ja) 画像検査装置および方法
JP2009545045A (ja) パターン分類方法
JP6179224B2 (ja) 画像処理フィルタの作成装置及びその方法
JP2018116364A (ja) 辞書生成装置、評価装置、辞書生成方法、評価方法及びプログラム
CN113537277A (zh) 确定分类的解释
WO2019176989A1 (ja) 検査システム、識別システム、及び学習データ生成装置
KR20210050168A (ko) 딥러닝 모델에 적용하기 위한 학습 데이터 확장방법, 딥러닝을 이용한 이미지 분류장치 및 그 방법
CN117495891B (zh) 点云边缘检测方法、装置和电子设备
CN111738086B (zh) 用于点云分割的构图方法、系统及点云分割系统、装置
US20230033875A1 (en) Image recognition method, image recognition apparatus and computer-readable non-transitory recording medium storing image recognition program
JP2022103693A (ja) 画像認識方法、画像認識装置、および画像認識プログラム
JP2021174438A (ja) 個体識別システム、個体識別プログラム、及び記録媒体
Talukder et al. A computer vision and deep CNN modeling for spices recognition
TWI801820B (zh) 用於製造流程之系統及方法
JP7206892B2 (ja) 画像検査装置、画像検査のための学習方法および画像検査プログラム
Michalíková et al. Classification of tire tread images by using neural networks
JP2015106408A (ja) 画像処理装置及び画像処理方法
CN117541832B (zh) 异常检测方法、系统、电子设备及存储介质
CN113610184B (zh) 一种基于迁移学习的木材纹理分类方法
US20230316718A1 (en) Learning model generating method and inspection device
Zeng et al. Face alignment refinement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231128