JP2017129990A - 画像認識装置、画像認識方法、及び画像認識プログラム - Google Patents

画像認識装置、画像認識方法、及び画像認識プログラム Download PDF

Info

Publication number
JP2017129990A
JP2017129990A JP2016008273A JP2016008273A JP2017129990A JP 2017129990 A JP2017129990 A JP 2017129990A JP 2016008273 A JP2016008273 A JP 2016008273A JP 2016008273 A JP2016008273 A JP 2016008273A JP 2017129990 A JP2017129990 A JP 2017129990A
Authority
JP
Japan
Prior art keywords
covariance
image
image recognition
local feature
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016008273A
Other languages
English (en)
Other versions
JP6713162B2 (ja
Inventor
淳司 立間
Junji Tatema
淳司 立間
青野 雅樹
Masaki Aono
雅樹 青野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyohashi University of Technology NUC
Original Assignee
Toyohashi University of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyohashi University of Technology NUC filed Critical Toyohashi University of Technology NUC
Priority to JP2016008273A priority Critical patent/JP6713162B2/ja
Publication of JP2017129990A publication Critical patent/JP2017129990A/ja
Application granted granted Critical
Publication of JP6713162B2 publication Critical patent/JP6713162B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】特定ドメインにおける高精度の画像認識装置を提供する【解決手段】画像認識装置は、複数の畳み込み層を備える畳み込みニューラルネットワークを使用し、画像から共分散記述子を抽出する演算部と、画像データセットに含まれる画像について前記演算部によって処理されて抽出された共分散記述子を記憶する記憶部と、新たに入力される画像について前記演算部によって処理されて抽出される共分散記述子を前記記憶部に記憶される共分散記述子と比較する識別処理部とを備える。演算部は、畳み込み層のうちの任意の層から出力される特徴マップから局所特徴量を演算する局所特徴量演算手段と、局所特徴量について共分散行列を導く共分散行列導出手段と、共分散行列をベクトル化するための演算を行うベクトル演算手段と、ベクトルを正規化する正規化手段とを備え、特定ドメインごとの学習なしで高精度の画像認識を実現する。【選択図】図2

Description

本発明は、画像認識装置、画像認識方法、及び画像認識プログラムに関する。とくに、ニューラルネットワークを用いて画像認識を実現するものである。
近年、畳み込みニューラルネットワーク(Convolutional Neural Networks、以下CNNと記す。たとえば、非特許文献1を参照。)が、画像認識において優れた認識性能を得ている。
ニューラルネットワークによる画像認識技術には、たとえば、特許文献1及び2がある。特許文献1では、学習結果あるいは識別結果に応じて、共分散による線形分類と、ニューラルネットワークなどによる非線形分類を切り替えることにより画像認識の性能を向上させている。
また、特許文献2では、CNNによる画像認識の精度を向上させるため、CNNの計算コストを削減し、かつ畳み込み層の複数の重みを適正に設定する装置が開示されている。
一方、料理の盛り付け写真など食事画像の認識(以下、食事画像認識ということがある。)は、食生活に関する多くのアプリケーションにとって、重要な研究課題となっている。食事画像認識のベンチマーク(非特許文献2)においても、CNNは従来手法のBag-of-Visual-Words Histogram(以下、BoVWと記す。たとえば、非特許文献3を参照。)やFisher Vector(たとえば、非特許文献4を参照。)よりも優れた認識性能を得ている。
特許第4121061号公報 特開2015-052832号公報
A. Krizhevsky, I. Sutskever, and G.E. Hinton, "ImageNet classification with deep convolutional neural networks," Advances in Neural Information Processing Systems (NIPS’12), vol.25, pp.1097-1105, 2012. L. Bossard, M. Guillaumin, and L. Van Gool, "Food-101 - Mining discriminative components with random forests," Proc. of the 13th European Conference on Computer Vision, ECCV’14, pp.446-461, 2014. S. Lazebnik, C. Schmid, and J. Ponce, "Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories," Proc. of the 2006 IEEE Conference on Computer Vision and Pattern Recognition (CVPR’06), vol.2, pp.2169-2178, 2006. J. Sanchez, F. Perronnin, T. Mensink, and J. Verbeek, "Image classification with the fisher vector: Theory and practice," International Journal of Computer Vision, vol.105, no.3, pp.222-245, 2013. X. Pennec, P. Fillard, and N. Ayache, "A riemannian framework for tensor computing," International Journal of Computer Vision, 66 (1), pp.41-66, 2006. D. Tosato, M. Spera, M. Cristani, and V. Murino, "Characterizing humans on Riemannian manifolds," IEEE Trans. Pattern Analysis and Machine Intelligence, 35 (8), pp. 1972-1984, 2013. H. Jegou and O. Chum, "Negative evidences and co-occurences in image retrieval: The benefit of PCA and whitening," Proc. of the 12th European Conference on Computer Vision (ECCV’12), 2, pp.774-787, 2012. S. Singh, A. Gupta, and A.A. Efros, "Unsupervised discovery of mid-level discriminative patches," Proc. of the 12th European Conference on Computer Vision (ECCV’12), vol.2, pp.73-86, 2012. A.S. Razavian, H. Azizpour, J. Sullivan, and S. Carlsson, "CNN features off-the-shelf: An astounding baseline for recognition," Proc. of the 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW ’14), pp.512-519, 2014.
しかしながら、CNNで優れた高い認識性能を得るためには、大規模な画像データセットでニューラルネットワークを訓練する必要がある。さらに、現実的な時間で訓練を行うためには、GPU(Graphical Processing Unit)による並列処理システムなどの高度な処理能力を必要とする。
前記の問題の解決策として、種々雑多な画像データセットで学習済みのCNNの全結合層の出力を特徴量として、Support Vector Machine(以下、SVMと記す。)などの識別器を訓練する手法が提案されている。当該手法は、大規模な画像データセットによるニューラルネットワークの訓練を必要としない一方で、食事画像認識などのドメインを限定した画像認識タスクでは、十分な認識性能が得られないという課題がある。特定のドメインの画像認識を行うためには、対象となるドメインの画像データセットを用意して、ニューラルネットワークを再度訓練する必要があり、画像認識の前処理に時間がかかる。
本発明は、上記の先行技術の課題を鑑み、なされたものである。
本発明に係る第一の画像認識装置は、複数の畳み込み層を備える畳み込みニューラルネットワークを使用する画像認識装置であって、画像から共分散記述子を抽出する演算部と、画像データセットに含まれる画像について前記演算部によって処理されて抽出された共分散記述子を記憶する記憶部と、新たに入力される画像について前記演算部によって処理されて抽出される共分散記述子を前記記憶部に記憶される共分散記述子と比較する識別処理部とを備え、前記演算部は、前記畳み込み層のうちの任意の層から出力される特徴マップから局所特徴量を演算する局所特徴量演算手段と、前記局所特徴量について共分散行列を導く共分散行列導出手段と、前記共分散行列をベクトル化するための演算を行うベクトル演算手段と、前記ベクトルを正規化する正規化手段とを備えることを特徴とする。
本発明に係る第二の画像装置は、前記本発明に係る第一の画像認識装置であって、前記局所特徴量演算手段は、前記畳み込みニューラルネットワークの全ての畳み込み層から出力される特徴マップについて局所特徴量を演算するものであることを特徴とする。
本発明に係る第三の画像認識装置は、前記本発明に係る第一または第二の画像認識装置であって、前記局所特徴量演算手段は、一つの畳み込み層からdチャンネルで大きさw×hの特徴マップが得られるとき、前記特徴マップをn=w×hの点によるd次元の局所特徴量を演算するものであることを特徴とする。
本発明に係る第四の画像認識装置は、前記本発明に係る第三の画像認識装置であって、前記演算部は、前記共分散行列の大きさをd×dとするとき、抽出される共分散記述子の次元が(d+d)/2であることを特徴とする。
本発明に係る第一の画像認識方法は、複数の畳み込み層を備える畳み込みニューラルネットワークを使用する画像認識方法であって、画像から共分散記述子を抽出する抽出ステップと、画像データセットに含まれる画像について前記抽出ステップによって処理されて抽出された共分散記述子を記憶する記憶ステップと、新たに入力される画像について前記抽出ステップによって処理されて抽出される共分散記述子を前記記憶ステップによって記憶される共分散記述子と比較する識別処理ステップとを備え、前記抽出ステップは、前記畳み込み層のうちの任意の層から出力される特徴マップから局所特徴量を演算する局所特徴量演算ステップと、前記局所特徴量について共分散行列を導く共分散行列導出ステップと、前記共分散行列をベクトル化するための演算を行うベクトル演算ステップと、前記ベクトルを正規化する正規化ステップとを含むことを特徴とする。
本発明に係る第二の画像認識方法は、前記本発明に係る第一の画像認識方法であって、前記局所特徴量演算ステップは、前記畳み込みニューラルネットワークの全ての畳み込み層から出力される特徴マップについて局所特徴量を演算するものであることを特徴とする。
本発明に係る第三の画像認識方法は、前記本発明に係る第一または第二の画像認識方法であって、前記局所特徴量演算ステップは、一つの畳み込み層からdチャンネルで大きさw×hの特徴マップが得られるとき、前記特徴マップをn=w×hの点によるd次元の局所特徴量を演算するものであることを特徴とする。
本発明に係る第四の画像認識方法は、前記本発明に係る第三の画像認識方法であって、前記抽出ステップは、前記共分散行列の大きさをd×dとするとき、抽出される共分散記述子の次元が(d+d)/2であることを特徴とする。
本発明に係る画像認識プログラムは、複数の畳み込み層を備える畳み込みニューラルネットワークを使用する画像認識のためのコンピュータプログラムであって、コンピュータを、画像から共分散記述子を抽出する演算手段と、画像データセットに含まれる画像について前記演算部によって処理されて抽出された共分散記述子を記憶する記憶手段と、新たに入力される画像について前記演算部によって処理されて抽出される共分散記述子を前記記憶部に記憶される共分散記述子と比較する識別処理手段として機能させ、さらに、前記演算手段において、前記畳み込み層のうちの任意の層から出力される特徴マップから局所特徴量を演算する局所特徴量演算手段と、前記局所特徴量について共分散行列を導く共分散行列導出手段と、前記共分散行列をベクトル化するための演算を行うベクトル演算手段と、前記ベクトルを正規化する正規化手段として機能させることを特徴とする。
CNNのもつ複数の畳み込み層のうち、第1層や第2層など低層の畳み込み層は、それぞれエッジ(edge)やコーナー(corner)といった画像の低レベルの特徴を捉えており、該画像の特徴は、ニューラルネットワークの全結合層と比較して、特定ドメインの訓練画像データセットの影響が少ない。本発明により、低レベルの特徴を用いることで、画像の抽象的な特徴を抽出することができる。
さらに、本発明では、CNNの畳み込み層の出力(特徴マップ:feature maps)の共分散を画像の特徴量とすることにより、特定ドメインの画像による該CNNの再度の訓練なしで、特定ドメインにおける画像認識を実現し、特定ドメインにおける画像認識の精度を向上させることができる。
本発明係る特徴マップ共分散記述子の概要図である。 本発明係る特徴マップ共分散記述子による画像認識装置の概要図である。 本発明係る特徴マップ共分散記述子の抽出処理のフローチャートを示す図である。
本発明係る画像認識は、対象となるドメインの画像データセットについての畳み込みニューラルネットワークの再度の訓練及びそのための訓練画像データセットを要することなく、本発明に係る特徴量、及び識別器により、精度よく実現される。前記畳み込みニューラルネットワークは種々雑多な画像で構成される画像データセットにより訓練済みである。また、前記識別器の訓練には、前記対象となるドメインの画像データセットの訓練画像データセットを用いる。
(畳み込み層の特徴マップの共分散)
図1に示すように、学習済みCNNから有効な特徴量を得るために、全結合層より以前の畳み込み層の特徴マップから特徴量を抽出する。当該畳み込み層には画像のedgeやcornerなど基礎的な特徴が含まれる。当該画像の特徴は、全結合層と比較して、学習用画像データセットの内容に影響をうけない。そこで、畳み込み層の特徴マップの共分散行列を特徴量として求める。なお、本発明では、ニューラルネットワークや識別器の学習とニューラルネットワークや識別器の訓練は同じ意味で用いている。
学習済みCNNに画像を入力すると、各層に配置されたユニットから値が出力される。畳み込み層における出力は、特徴マップと呼ばれる。特徴マップは、ユニットから出力された値が配置された、複数枚の二次元平面で構成される。一般に、特徴マップを構成する1つの二次元平面は、1チャネルと数えられる。いま、1番目の畳込み層から、dチャネルで大きさw×hの特徴マップが得られたとする。本発明では、この特徴マップをn=w×h点のd次元の局所特徴量Fとし、
Figure 2017129990
と考える。すると、局所特徴量Fの共分散行列Cは、
Figure 2017129990
で得られる。ここで、mは局所特徴量Fの平均ベクトルである。共分散行列は、多次元空間上での局所特徴量のばら付きの傾向を表すことから、画像のedgeやcornerといった特徴の傾向を捉えることができる。
共分散行列Cは、ユークリッド空間ではなく、半正定値行列のリーマン多様体上にある。多くの機械学習アルゴリズムは、入力としてユークリッド空間上のベクトルを前提としているため、このままでは識別器の学習などを行うことができない。そこで、共分散行列Cをユークリッド空間に写像する。前記写像の手段として、行列演算とベクトル操作により、正定値行列をユークリッド空間に写像し、ベクトルの形式に変換する。たとえば、非特許文献5記載のPennecらが提案した方法を用いることができる。ユークリッド空間上のベクトルに変換することで、SVMなどの一般的な識別器での学習が可能となる。
まず、共分散行列Cを接点Pにおいてリーマン多様体に接しているユークリッド空間に射影する。射影した共分散行列CのベクトルYは数3で与えられる。
Figure 2017129990
ここで、log(・)は行列対数であり、固有値分解をA=UΛU(Tは転置行列を示す)とすると、数4で求める事ができる。
Figure 2017129990
また、行列Λのような対角行列の行列対数は、その対角要素λ,・・・,λの対数を計算することで数5として得られる。
Figure 2017129990
そして、射影したベクトルの直交座標系を数6のベクトル操作により得る。
Figure 2017129990
ここで、vecは、単位行列による接空間上でのベクトル操作であり、
Figure 2017129990
で定義される。これは、Yの上三角要素を並べてベクトルとしたものである。ここで、Yの非対角要素(たとえば、y1,2やy1,3など)に2の平方根を掛けているのは、ベクトルとYのノルムを一致させるためである。
計算コストの観点から行列Pには単位行列を使用する。結果として、ベクトル化した共分散行列Cは、数8から与えられる。つまり、共分散行列Cの対数行列を求め、その上三角要素を並べてベクトルとする。
Figure 2017129990
共分散行列Cの大きさをd×dとすると、特徴量の次元数(ベクトルの要素の数)は(d+d)/2となる。
最終的な特徴量は、ベクトルcを符号付平方根正規化とl正規化することで得る。符号付平方根正規化とは、ベクトルの各要素xに以下の操作を行う。
Figure 2017129990
ここで、sign(x)は、xの符号を返す関数である。この正規化処理は、ベクトルのスパース性を緩和する効果がある(ベクトルcがスパースでない場合には必要のない処理であり、必ずしも行わなければならない処理ではない)。l正規化は、ベクトルの各要素を、ベクトルのユークリッドノルムで割ることである。ベクトルの大きさを一定にする効果がある。
(特徴マップ共分散記述子による画像認識システムの構築)
図2は、特徴マップ共分散記述子を利用した、画像認識システムの概要図である。まず、識別器を学習するためのラベルが付与された認識対象ドメインの画像で構成された訓練画像データセットと、特徴マップ共分散記述子を抽出するための学習済みCNNを用意する。
次に、訓練画像データセットに含まれる全ての画像から、特徴マップ共分散記述子を抽出し、ラベル情報とともに識別器学習部に入力する。本発明では、該識別器にSupport Vector Machineを用いる。前記該識別器学習部は、与えられた訓練画像データセットの特徴マップ共分散記述子とラベル情報から、識別モデルを学習する。得られた識別モデルを記憶装置に記憶しておく。
そして、識別段階では、識別対象画像が与えられると、訓練時と同様にして,画像から特徴マップ共分散記述子を抽出し、識別処理部に入力する。該識別処理部は入力された特徴マップ共分散記述子と、記憶装置に保存しておいた前記識別モデルから、識別画像対象の識別結果を計算し出力する。
図3は、特徴マップ共分散記述子の抽出処理の流れをフローチャートで示したものである。特徴マップ共分散記述子抽出部は、画像が与えられると、CNNのネットワーク構成に合わせて、画像のリサイズを行う(たとえば、OverFeatのaccurateネットワークであれば221×221の大きさ)。リサイズした前記画像に対して、必要であれば、平均ピクセル値を引くなどの前処理を行う。さらに、学習済みCNN内部で前処理も行われる場合がある。
次に、CNNにリサイズを含む前処理を施した前記画像を入力し、任意のl番目の畳み込み層の出力(特徴マップ)を得る。さらに、特徴マップを局所特徴量とみなしてサンプル行列の形式に変換し、行列演算ライブラリ(例えばC++であればEigen,PythonであればNumpy)を用いて、共分散行列を計算する。また、行列演算ライブラリを用いて、前記共分散行列の行列対数を計算する。
得られた、前記行列対数を計算した前記共分散行列の上三角部分に該当する要素を並べ、ベクトルの形式にする。必要であれば、得られた該ベクトルに対して、符号付平方根正規化とl正規化を行う。
以上から得られたベクトルが、特徴マップ共分散記述子である。
(実験環境)
食事画像データセットETHZ Food-101 (Food-101)(非特許文献2を参照)を用いて認識精度の評価を行った。Food-101には、101個のクラスに分類された101,000枚の食事画像が含まれている。各クラスには、750枚の訓練画像、250枚のテスト画像が含まれている。食事画像の認識を課題として選択した理由は、一般に公開されている学習済みCNNは、ImageNetから取得した種々雑多な画像で学習されている。認識対象を食事画像に絞ることで、学習に用いた画像と、認識対象となる画像の分野が異なっていても、優れた認識精度が得られるかを確認できる。
学習済みCNNには、ニューヨーク大学が提供するOverFeat (http://cilvr.nyu.edu/doku.php?id=software:overfeat:startを参照)を用いた。OverFeatではfastネットワークとaccurateネットワークの二種類が提供されているが、本実験ではaccurateネットワークを用いた。識別器にはSVMを用いて、その実装にはliblinear(https://www.csie.ntu.edu.tw/~cjlin/liblinear/を参照)を用いた。
実験に使用した計算機のスペックは、CPUがデュアルコア・プロセッサで、Intel社製 Xeon(登録商標) E5-2630 2.3GHzであり、メモリが64GBである。また、OSはDebian GNU/Linux(登録商標) 8.2である。
従来手法には、Bag-of-Visual-Wordsヒストグラム(BoVW)法(非特許文献3)、Improved Fisher Vector(IFV)法(非特許文献4)、Mid-Level Discriminative Superpixels(MLDS)法(非特許文献8)、Random Forest Discriminant Components(RFDC)法(非特許文献2)、Food-101で訓練したCNN(非特許文献1)、OverFeatの全結合層を特徴量としてSVMで分類する方法(CNN-SVM)(非特許文献9)を用いた。CNN-SVMを除いた従来手法の評価尺度の値は、Food-101が提案された非特許文献2からの引用である(表1上部)。CNN-SVMは、OverFeatの全結合層の出力によるベクトルをl正規化したものを画像の特徴量として、識別器であるSVMを訓練した。いずれの手法も実験のデータ及び条件は、本発明と同様となる。
認識精度をはかる評価尺度には、正確度(Accuracy)を用いた。全データ数をN、正しく認識されたデータ数をRとすると、正確度は以下で定義される。
Figure 2017129990
(実験結果)
本発明では、OverFeatの第1層の特徴マップを使用したもの(FMCD-L1)、第2層の特徴マップから抽出したもの(FMCD-L2)、それらの要素を並べて1つのベクトルとすることで連結したもの(FMCD-L1+FMCD-L2)、全結合層と連結したもの(FMCD-L1+FUL及びFMCD-L2+FUL)、全てを連結したもの(FMCD-L1+FMCD-L2+FUL)を用いた。識別器には全て線形SVMを用いた。
OverFeatの第1層では、96チャンネルで大きさ36×36ユニットの特徴マップが取得できる。これを、96次元で1,296(=36×36)サンプルの局所特徴と考え、特徴マップ共分散記述子を計算する。結果として、4,656(=(96+96)/2)次元の特徴マップ共分散記述子が抽出される。同様に、第2層では、256チャンネルで大きさ15×15ユニットの特徴マップが取得できる。
表1は、Food-101データセットにおける各手法の識別性能を示すものである。正確度(Accuracy)で評価した各手法の識別性能をまとめたものである。
Figure 2017129990
表1よりFMCD-L1とFMCD-L2が全結合層を特徴量とする手法CNN-SVMを上回っていることがわかる。また、FMCD-L1+FMCD-L2では、CNNと同等の識別性能を得ている。本発明と全結合層の出力を連結したFMCD-L1+FUL、FMCD-L2+FULも同様の識別性能を得ている。さらに、全てを連結したFMCD-L1+FMCD-L2+FULでは、Food-101により学習したCNNを上回っており、本発明の有効性がわかる。

Claims (9)

  1. 複数の畳み込み層を備える畳み込みニューラルネットワークを使用する画像認識装置であって、
    画像から共分散記述子を抽出する演算部と、画像データセットに含まれる画像について前記演算部によって処理されて抽出された共分散記述子を記憶する記憶部と、新たに入力される画像について前記演算部によって処理されて抽出される共分散記述子を前記記憶部に記憶される共分散記述子と比較する識別処理部とを備え、
    前記演算部は、前記畳み込み層のうちの任意の層から出力される特徴マップから局所特徴量を演算する局所特徴量演算手段と、前記局所特徴量について共分散行列を導く共分散行列導出手段と、前記共分散行列をベクトル化するための演算を行うベクトル演算手段と、前記ベクトルを正規化する正規化手段とを備えることを特徴とする画像認識装置。
  2. 前記局所特徴量演算手段は、前記畳み込みニューラルネットワークの全ての畳み込み層から出力される特徴マップについて局所特徴量を演算するものであることを特徴とする請求項1に記載の画像認識装置。
  3. 前記局所特徴量演算手段は、一つの畳み込み層からdチャンネルで大きさw×hの特徴マップが得られるとき、前記特徴マップをn=w×hの点によるd次元の局所特徴量を演算するものであることを特徴とする請求項1または2に記載の画像認識装置。
  4. 前記演算部は、前記共分散行列の大きさをd×dとするとき、抽出される共分散記述子の次元が(d+d)/2であることを特徴とする請求項3に記載の画像認識装置。
  5. 複数の畳み込み層を備える畳み込みニューラルネットワークを使用する画像認識方法であって、
    画像から共分散記述子を抽出する抽出ステップと、画像データセットに含まれる画像について前記抽出ステップによって処理されて抽出された共分散記述子を記憶する記憶ステップと、新たに入力される画像について前記抽出ステップによって処理されて抽出される共分散記述子を前記記憶ステップによって記憶される共分散記述子と比較する識別処理ステップとを備え、
    前記抽出ステップは、前記畳み込み層のうちの任意の層から出力される特徴マップから局所特徴量を演算する局所特徴量演算ステップと、前記局所特徴量について共分散行列を導く共分散行列導出ステップと、前記共分散行列をベクトル化するための演算を行うベクトル演算ステップと、前記ベクトルを正規化する正規化ステップとを含むことを特徴とする画像認識方法。
  6. 前記局所特徴量演算ステップは、前記畳み込みニューラルネットワークの全ての畳み込み層から出力される特徴マップについて局所特徴量を演算するものであることを特徴とする請求項5に記載の画像認識方法。
  7. 前記局所特徴量演算ステップは、一つの畳み込み層からdチャンネルで大きさw×hの特徴マップが得られるとき、前記特徴マップをn=w×hの点によるd次元の局所特徴量を演算するものであることを特徴とする請求項5または6に記載の画像認識方法。
  8. 前記抽出ステップは、前記共分散行列の大きさをd×dとするとき、抽出される共分散記述子の次元が(d+d)/2であることを特徴とする請求項7に記載の画像認識方法。
  9. 複数の畳み込み層を備える畳み込みニューラルネットワークを使用する画像認識のためのコンピュータプログラムであって、コンピュータを、
    画像から共分散記述子を抽出する演算手段と、画像データセットに含まれる画像について前記演算部によって処理されて抽出された共分散記述子を記憶する記憶手段と、新たに入力される画像について前記演算部によって処理されて抽出される共分散記述子を前記記憶部に記憶される共分散記述子と比較する識別処理手段として機能させ、
    さらに、前記演算手段において、前記畳み込み層のうちの任意の層から出力される特徴マップから局所特徴量を演算する局所特徴量演算手段と、前記局所特徴量について共分散行列を導く共分散行列導出手段と、前記共分散行列をベクトル化するための演算を行うベクトル演算手段と、前記ベクトルを正規化する正規化手段として機能させることを特徴とする画像認識プログラム。

JP2016008273A 2016-01-19 2016-01-19 画像認識装置、画像認識方法、及び画像認識プログラム Active JP6713162B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016008273A JP6713162B2 (ja) 2016-01-19 2016-01-19 画像認識装置、画像認識方法、及び画像認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016008273A JP6713162B2 (ja) 2016-01-19 2016-01-19 画像認識装置、画像認識方法、及び画像認識プログラム

Publications (2)

Publication Number Publication Date
JP2017129990A true JP2017129990A (ja) 2017-07-27
JP6713162B2 JP6713162B2 (ja) 2020-06-24

Family

ID=59395645

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016008273A Active JP6713162B2 (ja) 2016-01-19 2016-01-19 画像認識装置、画像認識方法、及び画像認識プログラム

Country Status (1)

Country Link
JP (1) JP6713162B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427879A (zh) * 2019-08-01 2019-11-08 齐鲁工业大学 一种基于图像处理和机器学习的人脸识别方法及系统
WO2019230666A1 (ja) * 2018-06-01 2019-12-05 日本電信電話株式会社 特徴量抽出装置、方法、及びプログラム
JP2020060838A (ja) * 2018-10-05 2020-04-16 株式会社デンソーアイティーラボラトリ 学習方法および学習システム
JP2020533725A (ja) * 2017-09-12 2020-11-19 ナントミクス,エルエルシー 組織レベルのホールスライド画像の少数ショット学習ベースの画像認識
US11682195B2 (en) 2016-10-21 2023-06-20 Nantomics, Llc Digital histopathology and microdissection

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008310796A (ja) * 2007-06-15 2008-12-25 Mitsubishi Electric Research Laboratories Inc コンピュータにより実施される、訓練データから分類器を構築し、前記分類器を用いてテストデータ中の移動物体を検出する方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008310796A (ja) * 2007-06-15 2008-12-25 Mitsubishi Electric Research Laboratories Inc コンピュータにより実施される、訓練データから分類器を構築し、前記分類器を用いてテストデータ中の移動物体を検出する方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
中山 英樹: ""深層畳み込みニューラルネットによる画像特徴抽出と転移学習"", 電子情報通信学会技術研究報告, vol. 115, no. 146, JPN6019046009, 9 July 2015 (2015-07-09), JP, pages 55 - 59, ISSN: 0004162173 *
山下 亮、外2名: ""ARCOによる顔検出を併用した人誤検出の棄却について"", 情報処理学会 画像の認識・理解シンポジウム(MIRU2011)論文集, vol. 2011, JPN6019046016, 20 July 2011 (2011-07-20), JP, pages 608 - 614, ISSN: 0004254290 *
韓 先花、陳 延偉: ""Deep Convolutional Neural Networkによる食事画像認識"", 情報処理学会 研究報告, vol. Vol.2015-CVIM-198, No.12, JPN6019046012, 7 September 2015 (2015-09-07), JP, pages 1 - 6, ISSN: 0004162174 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11682195B2 (en) 2016-10-21 2023-06-20 Nantomics, Llc Digital histopathology and microdissection
US12002262B2 (en) 2016-10-21 2024-06-04 Nantomics, Llc Digital histopathology and microdissection
JP2020533725A (ja) * 2017-09-12 2020-11-19 ナントミクス,エルエルシー 組織レベルのホールスライド画像の少数ショット学習ベースの画像認識
JP7061671B2 (ja) 2017-09-12 2022-04-28 ナントミクス,エルエルシー デジタル画像の対象領域の少なくとも1つの形状を生成する方法および装置ならびに機械学習システムを訓練するための訓練データを生成する方法
WO2019230666A1 (ja) * 2018-06-01 2019-12-05 日本電信電話株式会社 特徴量抽出装置、方法、及びプログラム
JP2020060838A (ja) * 2018-10-05 2020-04-16 株式会社デンソーアイティーラボラトリ 学習方法および学習システム
JP7208758B2 (ja) 2018-10-05 2023-01-19 株式会社デンソーアイティーラボラトリ 学習方法および学習システム
CN110427879A (zh) * 2019-08-01 2019-11-08 齐鲁工业大学 一种基于图像处理和机器学习的人脸识别方法及系统

Also Published As

Publication number Publication date
JP6713162B2 (ja) 2020-06-24

Similar Documents

Publication Publication Date Title
US8675974B2 (en) Image processing apparatus and image processing method
Tabia et al. Covariance-based descriptors for efficient 3D shape matching, retrieval, and classification
Guo et al. Local directional derivative pattern for rotation invariant texture classification
JP6713162B2 (ja) 画像認識装置、画像認識方法、及び画像認識プログラム
Gaber et al. Plant identification: Two dimensional-based vs. one dimensional-based feature extraction methods
Klein et al. Salient pattern detection using W 2 on multivariate normal distributions
Tatsuma et al. Food image recognition using covariance of convolutional layer feature maps
CN108764351B (zh) 一种基于测地距离的黎曼流形保持核学习方法及装置
Jain et al. Comparative study on SIFT and SURF face feature descriptors
Huang et al. A Novel Approach for Interest Point Detection via Laplacian‐of‐Bilateral Filter
JP2019021100A (ja) 画像探索装置、商品認識装置および画像探索プログラム
Terzić et al. Fast cortical keypoints for real-time object recognition
Ramesh et al. Multiple object cues for high performance vector quantization
Yang et al. Evaluating contour segment descriptors
Choi Spatial pyramid face feature representation and weighted dissimilarity matching for improved face recognition
Bai et al. Informative patches sampling for image classification by utilizing bottom-up and top-down information
Liang et al. Random forest with suppressed leaves for Hough voting
Estrada et al. Appearance-based keypoint clustering
Yuan et al. Research of batik image classification based on support vector machine
Shukla et al. Enhanced Bag-of-Features Method Using Grey Wolf Optimization for Automated Face Retrieval
Arulprakash et al. A study on indirect performance parameters of object detection
Kim et al. Feature scalability for a low complexity face recognition with unconstrained spatial resolution
Gao et al. Learning warps based similarity for pose-unconstrained face recognition
JP6668228B2 (ja) 被写体識別装置、方法、及びプログラム
Zhong et al. S-sift: A shorter sift without least discriminability visual orientation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200424

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200520

R150 Certificate of patent or registration of utility model

Ref document number: 6713162

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250