JP6706788B2 - 画像認識方法、画像認識装置およびプログラム - Google Patents

画像認識方法、画像認識装置およびプログラム Download PDF

Info

Publication number
JP6706788B2
JP6706788B2 JP2015255320A JP2015255320A JP6706788B2 JP 6706788 B2 JP6706788 B2 JP 6706788B2 JP 2015255320 A JP2015255320 A JP 2015255320A JP 2015255320 A JP2015255320 A JP 2015255320A JP 6706788 B2 JP6706788 B2 JP 6706788B2
Authority
JP
Japan
Prior art keywords
convolution
processing
image
recognition
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015255320A
Other languages
English (en)
Other versions
JP2017033529A (ja
Inventor
育規 石井
育規 石井
宗太郎 築澤
宗太郎 築澤
令子 羽川
令子 羽川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JP2017033529A publication Critical patent/JP2017033529A/ja
Application granted granted Critical
Publication of JP6706788B2 publication Critical patent/JP6706788B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Description

本発明は、画像認識方法、画像認識装置およびプログラムに関する。
近年、画像中のどこに何が写っているかを認識するための技術である画像認識技術を用いて、多様な物体を、高速かつ高精度に認識することが求められている。例えば特許文献1では、複数の畳み込みニューラルネットワーク分類器(以下、分類器と記載)を利用することで、高精度に画像認識を行うことのできる画像認識技術が開示されている。
特開2014−49118号公報
しかしながら、上記のような従来技術では、高精度に画像認識を行うことができるものの処理速度が遅いという課題がある。
本発明は、上記課題を解決するためになされたもので、高速かつ高精度に画像認識を行うことのできる画像認識方法、画像認識装置およびプログラムを提供することを目的とする。
本発明の一態様に係る画像認識方法は、画像認識装置のコンピュータが行う画像認識方法であって、画像の入力を行い、入力された前記画像に対して異なる畳み込みフィルタをそれぞれ用いて畳み込み処理を行い、前記画像を構成する複数の画素の各位置における前記畳み込み処理の処理結果の値を含む処理結果情報をそれぞれ取得し、前記それぞれの処理結果情報に含まれる前記複数の画素の各位置における前記畳み込み処理の処理結果の値に基づいて、前記複数の画素の各位置に対応する特徴量を1つ決定し、前記決定した複数の画素の各位置に対応する特徴量を出力し、前記出力された複数の画素の各位置に対応する特徴量に基づいて認識処理を実行し、前記認識処理を実行することで得た認識処理結果情報を出力する。
なお、これらの全般的または具体的な態様は、システム、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本発明によれば、高速かつ高精度に画像認識を行うことのできる画像認識方法等を実現できる。
図1は、実施の形態の分類システムの構成の一例を示すブロック図である。 図2は、実施の形態の分類器の構成の一例を示すブロック図である。 図3は、実施の形態の畳み込み処理部の構成の一例を示すブロック図である。 図4は、実施の形態の畳み込み処理部の処理結果の一例を示す図である。 図5は、本実施の形態のサブサンプリング部のサブサンプリングの処理の一例を示す図である。 図6は、実施の形態における分類器の動作を説明するためのフローチャートである。 図7は、図6の動作の詳細を示すフローチャートである。 図8Aは、2層目以降の畳み込み処理を説明するための図である。 図8Bは、2層目以降の畳み込み処理を説明するための図である。 図9は、比較例の分類システムの一例を示す図である。 図10は、比較例の分類器の構成を示すブロック図である。 図11は、比較例の分類システムにおける認識処理のアルゴリズム機能ブロックを示す図である。 図12は、比較例の分類システムが行う認識処理を説明するためのフローチャートである。 図13Aは、サーバを用いてサービスを提供する形態の一例を説明するための図である。 図13Bは、サーバを用いてサービスを提供する形態の一例を説明するための図である。 図13Cは、サーバを用いてサービスを提供する形態の一例を説明するための図である。 図14は、サービスの類型の一例を説明するための図である。 図15は、サービスの類型の一例を説明するための図である。 図16は、サービスの類型の一例を説明するための図である。 図17は、サービスの類型の一例を説明するための図である。
(本発明の基礎となった知見)
画像認識技術では、一般的に、1)画像から特徴量を抽出する処理と、2)特徴量から物体を判別する判別処理の2段階に分かれる。例えば、特徴抽出処理では畳み込み処理が行われ、画像中の認識対象物体から、輝度の分布や輝度の差分(エッジ)など認識に利用する特徴量を抽出する。また、例えば判別処理では、畳み込み処理において抽出した特徴量から、BoostingやSVM(Support Vector Machine)などの統計的機械学習手法によって認識対象であるか否かを判別する。
従来、畳み込み処理に用いる特徴量抽出フィルタ(畳み込みフィルタ)は、人の手によって設計されていた。近年、撮影環境の整備やインターネットを介した大量の学習データ収集が現実的になったことと、および、GPU等の大規模計算機環境のインフラが整ったことから、自動で特徴量抽出フィルタの設計を行う方式の検討が進められている。このような方式は総称してDeep Learningと呼ばれている。特に、画像認識の分野では、Deep Learning技術として、特徴量抽出フィルタを2次元画像に対する畳み込み処理とみなした畳み込みニューラルネットワークが検討されている。この畳み込みニューラルネットワークは、Deep Learning技術の中でも画像認識と相性が良く、パラメータ数を削減しながら精度を向上させることができるという特徴がある。
しかしながら、これまでの畳み込みニューラルネットワークで用いられる特徴量抽出フィルタ(以下畳み込みフィルタとも記載)の解像度は、ユーザが設定した固定値であった。そのため、学習画像の特徴的な領域の解像度とユーザが設定した解像度との違いが大きければ、学習画像中の認識対象物体から認識に利用できる有効な特徴量を抽出することが難しいという問題がある。さらに、このような問題に対する技術的な解決策については、これまで検討されていなかった。
本発明の一態様に係る画像認識方法は、画像認識装置のコンピュータが行う画像認識方法であって、画像の入力を行い、入力された前記画像に対して異なる畳み込みフィルタをそれぞれ用いて畳み込み処理を行い、前記画像を構成する複数の画素の各位置における前記畳み込み処理の処理結果の値を含む処理結果情報をそれぞれ取得し、前記それぞれの処理結果情報に含まれる前記複数の画素の各位置における前記畳み込み処理の処理結果の値に基づいて、前記複数の画素の各位置に対応する特徴量を1つ決定し、前記決定した複数の画素の各位置に対応する特徴量を出力し、前記出力された複数の画素の各位置に対応する特徴量に基づいて認識処理を実行し、前記認識処理を実行することで得た認識処理結果情報を出力する。
このように、異なる畳み込みフィルタをそれぞれ用いた畳み込み処理を並行に行うことで算出した複数の処理結果から認識に有益な情報を入力画像に含まれる複数の画素の位置毎に選択的に利用できるので、高速に画像認識ができるだけでなく画像認識精度も向上する。
それにより、高速かつ高精度に画像認識を行うことのできる画像認識方法を実現できる。
また、例えば、前記異なる畳み込みフィルタをそれぞれ用いた畳み込み処理は、解像度またはスケールパラメータの異なる複数の畳み込みフィルタをそれぞれ用いて前記入力された前記画像に対して行われる畳み込み処理であるとしてもよい。
この構成によれば、解像度またはスケールパラメータ(フィルタサイズ)が異なる畳み込みフィルタを用いて畳み込み処理を実行するので、入力画像によって特徴的な領域の解像度が異なる場合でも認識に有効な特徴量を抽出できる。
また、例えば、前記異なる畳み込みフィルタをそれぞれ用いた畳み込み処理は、第1の解像度の畳み込みフィルタを用いて前記入力された前記画像に対して行われる第1の畳み込み処理、前記第1の解像度よりも解像度の高い第2の解像度の畳み込みフィルタを用いて前記入力された前記画像に対して行われる畳み込み第2の処理を含んでもよい。
この構成によれば、少なくとも解像度が異なる2つの畳み込みフィルタを用いて畳み込み処理を実行するので、入力画像によって特徴的な領域の解像度が異なる場合でも認識に有効な特徴量を抽出できる。
また、例えば、前記異なる畳み込みフィルタをそれぞれ用いた畳み込み処理は、処理対象の色が異なる畳み込みフィルタをそれぞれ用いて前記入力された前記画像に対して行われる畳み込み処理であるとしてもよい。
この構成によれば、色の違いによって物体の違いを判別するために、処理対象の色が異なる畳み込みフィルタをそれぞれ用いて畳み込み処理を実行するので、入力画像によって特徴的な領域の色が異なる場合でも認識に有効な特徴量を抽出できる。
また、例えば、前記複数の画素の各位置に対応する特徴量の出力において、前記複数の画素の位置毎に、前記位置における前記複数の処理結果の値のうちの、最大値を前記位置における特徴量として選択することで、前記位置に対応する特徴量を1つ決定し、前記決定した前記位置に対応する特徴量を出力するとしてもよい。
また、例えば、前記複数の画素の各位置に対応する特徴量の出力において、前記複数の画素の位置毎に、前記位置における前記複数の処理結果の値の中央値または平均値を、算出し、前記算出した値を前記位置における特徴量として、決定することで、前記位置に対応する特徴量を1つ決定し、前記決定した前記位置に対応する特徴量を出力するとしてもよい。
この構成によれば、異なる畳み込みフィルタをそれぞれ用いて畳み込み処理を並行に行うことで算出した複数の処理結果情報のそれぞれに含まれる、画素の位置に対応する処理結果の値(出力値)のうち、出力が最大となる値、これらの値の中央値または平均値を画素の位置に対応する特徴量として利用することができる。それにより、入力画像中の対象に応じて適切な特徴量の選別が可能になり、画像認識精度が向上する。
また、例えば、さらに、前記各位置の特徴量の出力において、前記選択した各位置の特徴量を含む選択結果を出力し、前記選択結果の中の隣接する位置を含む領域ごと分割し、分割したしたそれぞれの領域において、当該領域に含まれる複数の特徴量のうちのいずれかを当該領域を代表する特徴量である代表特徴量を決定するサブサンプリング処理を行い、前記サブサンプリング処理を行う際に決定された前記代表特徴量に基づいて、前記認識処理を実行するとしてもよい。
この構成によれば、入力画像の位置ズレや入力画像のサイズのズレに対してさらに頑健になる。
また、例えば、前記サブサンプリング処理を行う際に、前記領域に含まれる複数の特徴量のうち最も値の大きい特徴量を前記代表特徴量に決定するとしてもよい。
前記画像の入力、前記それぞれの処理結果の取得、前記各位置の特徴量の出力および前記認識処理の実行および前記認識処理結果を出力は、画像認識装置のコンピュータが備えるプロセッサーにより行われてもよい。
また、本発明の一態様に係る画像認識装置は、前記画像の入力を行う画像入力部と、入力された前記画像に対して異なる畳み込みフィルタをそれぞれ用いて畳み込み処理を行い、前記画像を構成する複数の画素の各位置における前記畳み込み処理の処理結果の値を含む処理結果情報をそれぞれ取得し、前記それぞれの処理結果情報に含まれる前記複数の画素の各位置における前記畳み込み処理の処理結果の値に基づいて、前記複数の画素の各位置に対応する特徴量を1つ決定し、前記決定した複数の画素の各位置に対応する特徴量を出力する畳み込み処理部と、前記畳み込み処理部により出力された前記複数の画素の各位置に対応する特徴量に基づいて認識処理を実行する認識処理部と、前記認識処理部が前記認識処理を実行することで得た認識処理結果を出力する認識結果出力部と、を備える。
また、例えば、前記画像入力部、前記畳み込み処理部、前記認識処理部、および前記認識結果出力部のうちの少なくとも一つは、プロセッサーを含んでもよい。
以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態)
以下では、図面を参照しながら、まず比較例の画像認識方法等の説明を行い、その後に本実施の形態の画像認識方法等の説明を行う。
[分類システム900の構成]
図9は、比較例の分類システム900の一例を示す図である。
図9示す分類システム900は、複数の分類器(分類器90a、分類器90b、・・・、分類器90N)を備え、分類対象物(認識処理対象画像)が入力されたときに、複数の分類器を利用することで分類処理(認識処理)を実行し、その結果(分類結果、認識処理結果)を出力する。
複数の分類器はそれぞれ、同一の畳み込みニューラルネットワーク分類器である。複数の分類器はそれぞれ、畳み込みを行うための畳み込みフィルタ(特徴量抽出フィルタ)を1つ有している。これらフィルタの設定値(フィルタ係数)は、後述する学習処理により予め学習されている。
なお、図9に示す分類システム900を構成する分類器90a、分類器90b、・・・、分類器90Nは同一のものであるので、以下では、代表して、分類器90aの構成について説明する。
図10は、比較例の分類器90aの構成を示すブロック図である。
分類器90aは、図10に示すように、画像(入力画像)を読み込む画像入力部91と、読み込んだ入力画像に対する畳み込み処理を行う畳み込み処理部92と、サブサンプリング処理を行うサブサンプリング部93と、認識処理を行う認識処理部94と、認識結果を出力する認識結果出力部95と、を備える。なお、畳み込み処理とサブサンプリング処理とを行う回数は、入力画像の解像度、分類対象(認識処理対象)の種類もしくは複雑さ、または、分類数(認識対象の数)などに応じて任意の値が設定される。例えば、分類器90aが人の正面向きの顔を画像から検出する場合には、畳み込み処理を行う回数は少なくてもよいが、犬のように多様な犬種を認識する必要がある場合には、人の正面顔よりも多くの畳み込み処理が必要となる。
[分類システム900の動作]
次に、比較例の分類システム900の動作としての認識処理について説明する。
(認識処理)
図11は、分類システム900における認識処理のアルゴリズム機能ブロックを示す図である。
複数の分類器を用いた分類システム900が行う画像認識では、入力層901と、畳み込み処理層903およびサブサンプリング層904からなる中間層902と、出力層905とを用いて認識処理が行われる。入力層901には入力画像の画素値列が入力される。中間層902は1つには限らず、複数存在する場合もあるが、図11に示す例では、説明の便宜上中間層902を1つのみ記載している。畳み込み処理層903では畳み込み処理が行われ、サブサンプリング層904ではサブサンプリング処理が行われる。中間層902では、多くの場合、畳み込み処理をした後、サブサンプリング処理が行われるが、サブサンプリング処理後に畳み込み処理が行われるとしても構わない。出力層905は、認識結果のラベルを出力する。認識結果のラベルは、例えば、犬や猫など入力画像に写っている認識対象物体を示すものである。
畳み込み処理層903では、2次元画像に対する畳み込みを行う畳み込み処理が行われる。この畳み込み処理に用いられる畳み込みフィルタ(特徴量抽出フィルタ)は、後述する学習処理にて、予めフィルタ係数が学習されている。つまり、フィルタ係数は、画像とラベルとの対応が既知の集合(学習画像とラベル)を用いて学習処理にて求められた係数が使用される。
図12は、分類システム900が行う認識処理を説明するためのフローチャートである。
以下、分類システム900は、N個の分類器(分類器90a、分類器90b、・・・、分類器90N)を備えるとして説明する。
まず、分類システム900は、入力層901で入力画像を読み込み(S91)、読み込んだ入力画像に所定の前処理を施す(S92)。所定の前処理は、例えば入力画像集合の平均を当該入力画像から引くなどの入力画像のばらつきをそろえる処理である。
次に、分類システム900は、畳み込み処理層903で畳み込み処理(S93)を行う。
具体的には、分類システム900は、畳み込み処理層903での畳み込み処理(S93)を以下のように行う。すなわち、入力画像をImgとし、n番目(nは、1からNまでのいずれかの整数)の分類器90nの畳み込みフィルタをF(n)とし(畳み込みフィルタの総数はN)とすると、ある画素(i、j)における畳み込み結果(Conv(Img、F(n)、i,j)は以下の(式1)を用いて算出することができる。
Figure 0006706788
(式1)において、i、jはそれぞれ入力画像のi番目の画素、j番目の画素を示し、pはp番目の画素の色(例えば、RGBであればp=0ならR、p=1ならG、p=2ならB)を示す。分類システム900は、(式1)を用いた畳み込み処理をiとjの値を変えながら、Imgの全画素に対して実施することで、n番目の分類器90nの畳み込みフィルタであるF(n)による畳み込み処理結果を得ることができる。つまり、分類システム900は、n番目の分類器90nによる畳み込み処理結果を得ることができる。
上述したように、分類システム900は、N個の分類器(分類器90a、分類器90b・・・分類器90N)を備えるため、畳み込みフィルタはN個である。したがって、分類システム900では、1枚の画像(入力画像)に対してN個の畳み込みフィルタで畳み込み処理を行うため、N通りの畳み込み処理結果が得られる。
次に、分類システム900は、サブサンプリング層904でサブサンプリング処理(S94)を行う。サブサンプリング処理は、畳み込み処理層903の出力であるN通りの畳み込み処理結果のそれぞれに対して、特定の領域(is,js)毎に、所定の基準sbでサブサンプリングを行う処理である。例えば、ある画素(0、0)から2x2領域に対して最大値をサブサンプリングする場合、当該2x2領域の4画素の代表値として最大の画素値が選ばれる。
なお、このように最大値をサブサンプリングする方法はMax-poolingと呼ばれる。また、サンプリングする方法は最大値に限らず平均値でもよい。平均値をサブサンプリングする方法はAverage-poolingと呼ばれる。サブサンプリングを行うことで、1)情報量を減らすことができるだけでなく、2)認識時において、入力画像のxy方向の位置ズレに頑健になる。
このようにして、分類システム900は、S94(サブサンプリング処理)を行った後、S93(畳み込み処理)とS94(サブサンプリング処理)の処理回数すなわち中間層902の処理回数に応じて中間層902の処理を終了するか否かを判定する(S95)。なぜなら、S93およびS94の処理を所定回数繰り返すことで、畳み込み処理により入力画像から特徴量を抽出できるとともに、データ(特徴量)のサブサンプリングを行うことができるので、物体を識別するのに有効な特徴量を抽出できるからである。
S95において、分類システム900は、中間層902の処理を終了しないと判定した場合には(S95でNo)、S93に戻り、再度、畳み込み処理層903の畳み込み処理を行う。そして、再度、畳み込み処理層903の畳み込み処理の後にサブサンプリング層904があれば、サブサンプリング処理を行う。
一方、S95において、分類システム900は、所定回数の畳み込み処理とサブサンプリング処理を実施したため中間層902の処理を終了すると判定した場合には(S95でYes)、出力層905で認識処理を実行し(S96)、その結果(認識結果)を外部に出力する(S97)。
ここで、入力画像に写っている物体は何かを認識する認識処理(分類処理)について説明する。
(認識処理)
例えば、分類システム900は、入力画像に写っている物体が所定の10種類のうちのどれに該当するかを認識する認識処理を行う。この場合、分類システム900は、出力層905において、入力画像に応じて10個の変数(物体ラベル)のうちの一の変数を1としそれ以外の変数を0とする結果(認識結果)を外部に出力することになる。
次に、認識処理時における出力層905の具体的な出力方法について説明する。
出力層905は、中間層902で抽出(算出)した特徴量を用いて、Softmax法やSVM法によって入力画像に写っている物体に対するラベル(物体ラベル)の確からしさを出力する。
ここで、例えば、Softmax法は以下によって実現される。すなわち、k個の物体を認識する問題を例とし、真値であるk個の変数を並べたベクトルを、Tr[0]、Tr[1]、・・・、Tr[k−1]とし、出力層のk通りの出力を並べたベクトルをθ[0]、θ[1]、・・・、θ[k−1]とする。このときのラベルjのSoftmax値は以下の(式2)で算出することができる。そして、算出したSoftmax値の大きさによってどのラベルの物体として認識したかを判断できる。
Figure 0006706788
以上のようにして、分類システム900は、学習処理にて予め学習されたフィルタ係数を有する畳み込みフィルタを備える複数の分類器を用いて、入力画像に写っている物体の認識処理を行うことができる。
(学習処理)
次に、学習処理について説明する。
上述したように認識処理に用いる複数の分類器それぞれが有する畳み込みフィルタのフィルタ係数は事前に大量の学習データを用いた学習処理により学習されている。
フィルタ係数の学習方法として確率的勾配降下法(Stchastic Gradient Decent法)が知られている。
まず、確率的勾配降下法の基となる方式である勾配降下法について説明する。ある学習画像において、出力の真値はユーザによって与えられているとする。このとき、勾配降下法では、真値と認識処理による出力値との誤差に基づき、出力層に近い層のフィルタ係数から前方へ順にフィルタ係数を修正する。
一方、確率的勾配降下法では、このフィルタ係数の修正処理を画像1枚1枚に対して行うのでは無く、いくつかの画像で認識処理を行って累積誤差を求めたのち、それらの累積誤差を用いてフィルタ係数の修正を行う。画像毎にフィルタ係数を修正すると、修正値が振動する可能性があるが、複数枚の結果を用いて修正値を求めることで、学習時の偏りや振動が減るというメリットがある。
(式3)は、フィルタ係数の修正式である。累積誤差を求める関数をLoss、学習率をγ、フィルタ係数を並べたベクトルをWとし、入力を変数in、真値を変数trueとしている。誤差は、二乗誤差やクロスエントロピーによる誤差などどの方法を用いて算出しても構わない。(式3)を用いることで、フィルタ係数を、誤差とフィルタ係数の微分を用いて更新できる。なお、学習率γは、一度にどの程度誤差を更新するかを決める重みであり、学習対象によってユーザが決める値である。
Figure 0006706788
入力画像と真値を比較し、フィルタ係数の更新を繰り返すことで、入力画像を識別しやすいフィルタ係数を算出することができる。
この学習を大量の学習データを用いて行うことで、汎化性能の高いフィルタ係数を求めることができる。
以上のようにして、比較例の分類システム900すなわち従来の畳み込みニューラルネットワークは認識処理を行い。その認識処理に用いる畳み込みフィルタのフィルタ係数は予め学習処理されている。
次に、本実施の形態の画像認識方法等の説明を行う。
[分類システム1の構成]
図1は、本実施の形態の分類システム1の構成の一例を示すブロック図である。図2は、本実施の形態の分類器10の構成の一例を示すブロック図である。
図1に示す分類システム1は、1つの分類器10を備える畳み込みニューラルネットワークである。分類システム1は、分類対象物(認識処理対象画像)が入力されたときに、分類器10を利用することで分類処理(認識処理)を実行し、その結果(分類結果、認識処理結果)を出力する。
[分類器10の構成]
分類器10は、画像に対して認識処理を実行し、認識結果を出力する画像認識装置の一例である。分類器10は、図2に示すように、画像入力部11と、畳み込み処理部12と、サブサンプリング部13と、認識処理部14と、認識結果出力部15と、を備える。
なお、図2に示す分類器10は、図10に示す分類器90a等に対して、畳み込み処理部12の構成が大きく異なる。
画像入力部11は、画像の入力を行う。本実施の形態では、画像入力部11は、入力された画像(入力画像)を読み込む。
畳み込み処理部12は、同一の入力画像に対して複数の異なる畳み込みフィルタによる畳み込み処理を行う。畳み込み処理については、既に説明をしたので、ここでは、詳細な説明は省略する。入力画像に含まれる各画素に対応する位置における、畳み込み処理の処理結果情報は、畳み込みフィルタの数だけある。
それぞれの処理結果情報は、例えば、前記入力画像に含まれる複数の画素の各位置における前記畳み込み処理の処理結果の値を含む。
なお、処理結果情報に含まれる処理結果の値は、入力画像に含まれる複数の画素のいずれかの位置と対応付けられているため、処理結果情報に含まれる要素(処理結果)を画素、要素の位置を画素の位置、処理結果の値を画素値ということもある。
畳み込み処理部12は、例えば、入力画像に含まれる複数の画素の各位置における畳み込み処理の処理結果の値に基づいて、複数の画素の各位置に対応する特徴量を1つ決定し、決定した各位置の特徴量を含む出力結果情報(選択結果とも言う)を出力する。
なお、特徴量は、入力画像に含まれる複数の画素のいずれかの位置と対応付けられているため、出力結果情報に含まれる要素(特徴量)を画素、要素の位置を画素の位置、特徴量の値を画素値ということもある。
畳み込み処理部12は、例えば、入力画像に含まれる画素の位置における複数の処理結果の値のうちの、最大値を有する処理結果を選択し、選択した処理結果の値をその画素の位置における特徴量として決定し、決定したその画素の位置における特徴量を出力する処理を、複数の画素の位置毎に行う。
または、畳み込み処理部12は、例えば、入力画像に含まれる画素の位置における複数の処理結果の値のうちの、中央値または平均値を算出し、算出した値を、その画素の位置における特徴量として決定し、決定したその画素の位置における特徴量を出力する処理を、複数の画素の位置毎に行うのでもよい。
これにより、畳み込み処理部12は、入力画像に含まれる複数の画素の各位置に対応する特徴量を1つ決定し、決定した複数の画素の各位置に対応する特徴量を出力する。
本実施の形態では、畳み込み処理部12は、例えば、図2に示すように、第1畳み込み処理部121と、第2畳み込み処理部122と、第3畳み込み処理部と、出力選択部124とを備える。
第1畳み込み処理部121、第2畳み込み処理部122および第3畳み込み処理部はそれぞれ、入力画像の画素ごとの畳み込みを行うための畳み込みフィルタを1つ有しており、これらの畳み込みフィルタはそれぞれ異なる。
つまり、畳み込み処理部12は3つの異なる畳み込みフィルタを有しており、この3つの異なる畳み込みフィルタを用いて入力画像に対して畳み込み処理を行う。3つの畳み込みフィルタはそれぞれ、例えば解像度またはスケールパラメータ(フィルタサイズ)が異なっていたり、処理対象の色が異なっていたりする。
ここで、図3は、本実施の形態の畳み込み処理部12の構成の一例を示すブロック図である。図3に示す例では、畳み込み処理部12は、第1畳み込み処理部121としての低解像度畳み込み処理部121aと、第2畳み込み処理部122としての中解像度畳み込み処理部122aと、第3畳み込み処理部123としての高解像度畳み込み処理部123aとを備えている。
低解像度畳み込み処理部121aは、畳み込み処理部12が有する3つの畳み込みフィルタのうちの第1の解像度に対応する最も低い解像度(低解像度)の畳み込みフィルタを用いて入力画像に対して畳み込み処理を行う処理部である。中解像度畳み込み処理部122aは、畳み込み処理部12が有する3つの畳み込みフィルタのうち第1の解像度よりも解像度の高い第2の解像度に対応する最も低くもなく最も高くもない解像度(中解像度)の畳み込みフィルタを用いて入力画像に対して畳み込み処理を行う処理部である。高解像度畳み込み処理部123aは、畳み込み処理部12が有する3つの畳み込みフィルタのうち第2の解像度よりも解像度の高い第3の解像度に対応する最も高い解像度(高解像度)の畳み込みフィルタを用いて入力画像に対して畳み込み処理を行う処理部である。
なお、本実施の形態では3つの解像度の異なる畳み込みフィルタを用いる例を説明するが、解像度の異なる畳み込みフィルタの数は3つに限定されるものではない。
例えば、解像度の異なる畳み込みフィルタの数は2つであってもよいし、4つ以上であってもよい。つまり、解像度の異なる畳み込みフィルタの数は、少なくとも2つあればよい。
出力選択部124は、入力画像に対して第1畳み込み処理部121〜第3畳み込み処理部123で畳み込み処理が行われることにより3つの処理結果情報を得る。
3つの処理結果情報には、それぞれ、入力画像に含まれる複数の画素の各位置における対応する畳み込み処理の処理結果の値を含む。
出力選択部124は、例えば、3つの処理結果情報のそれぞれに含まれる複数の画素の各位置における畳み込み処理の処理結果の値に基づいて、複数の画素の各位置に対応する特徴量を1つ決定し、決定した各位置の特徴量を含む出力結果情報を出力する。
出力選択部124は、例えば、入力画像に含まれる画素の位置における複数の処理結果の値のうちの、最大値を有する処理結果を選択し、選択した処理結果の値をその画素の位置における特徴量として決定し、決定したその画素の位置における特徴量を出力する処理を、複数の画素の位置毎に行う。
または、出力選択部124は、例えば、入力画像に含まれる画素の位置における複数の処理結果の値のうちの、中央値または平均値を算出し、算出した値を、その画素の位置における特徴量として決定し、決定したその画素の位置における特徴量を出力する処理を、複数の画素の位置毎に行うのでもよい。
これにより、出力選択部124は、入力画像に含まれる複数の画素の各位置に対応する特徴量を1つ決定し、決定した複数の画素の各位置に対応する特徴量を出力する。
図9〜図11を用いて示した例では、3つの処理結果情報に含まれる処理結果の値を全て、出力していたのに対し、本実施の形態では、畳み込み処理部12、より具体的には、出力選択部124を備え、複数の画素の各位置に対応する特徴量を1つ出力するという点が大きく異なる。
ここで、図3で示した低解像度畳み込み処理部121a、中解像度畳み込み処理部122aおよび高解像度畳み込み処理部123aで畳み込み処理が行われることにより得た入力画像を構成する複数の画素それぞれに対する3つの畳み込み処理の処理結果の値(つまり、複数の画素値)から、出力選択部124が最大の値を選択する場合の例について説明する。
図4は、本実施の形態の畳み込み処理部12の処理結果の一例を示す図である。
低解像度畳み込み処理部121a、中解像度畳み込み処理部122aおよび高解像度畳み込み処理部123aで畳み込み処理における、入力画像は、同一の入力画像を用いる。
図4の(a)の上段には、低解像度畳み込み処理部121aにおいて、低解像度の畳み込みフィルタを用いて、4×4の入力画像に対して畳み込み処理が行われた処理結果(低解像度畳み込み処理結果)の値の一例が示されている。図4(a)の上段に示すように、入力画像に含まれる4×4の画素のそれぞれにおいて、低解像度の畳み込み処理を行った処理結果の値が示されている。本実施の形態では、入力画像に含まれる画素は、4×4=16であるため、16の処理結果の値が示されている。各処理結果の値は、入力画像に含まれる画素と対応する位置に示している。
図4の(a)の中段には、中解像度畳み込み処理部122aにおいて、中解像度の畳み込みフィルタを用いて、4×4の入力画像に対して中解像度の畳み込みフィルタを用いて、畳み込み処理が行われた処理結果(中解像度畳み込み処理結果)の値の一例が示されている。図4(a)の中段に示すように、入力画像に含まれる4×4の画素のそれぞれにおいて、中解像度の畳み込み処理を行った処理結果の値が示されている。本実施の形態では、入力画像に含まれる画素は、4×4=16であるため、16の処理結果の値が示されている。各処理結果の値は、入力画像に含まれる各画素と対応する位置に示している。
図4の(a)の下段には、高解像度畳み込み処理部123aにおいて、高解像度の畳み込みフィルタを用いて、4×4の入力画像に対して高解像度の畳み込みフィルタを用いて、畳み込み処理が行われた処理結果(高解像度畳み込み処理結果)の一例が示されている。図4(a)の下段に示すように、入力画像に含まれる4×4の画素のそれぞれにおいて、中解像度の畳み込み処理を行った処理結果の値が示されている。本実施の形態では、入力画像に含まれる画素は、4×4=16であるため、16の処理結果の値が示されている。各処理結果の値は、入力画像に含まれる各画素と対応する位置に示している。
この場合、図4の(b)で出力選択部124が最大の画素値を選択する出力選択処理を行う。
例えば、図4(a)の低解像度畳み込み処理を行ったときの処理結果情報(図4(a)に示す低解像度畳み込み処理結果)、中解像度畳み込み処理を行ったときの処理結果情報(図4(a)に示す中解像度畳み込み処理結果)、高解像度畳み込み処理を行ったときの処理結果情報(図4(a)に示す高解像度畳み込み処理結果)に含まれる、左上隅の位置の値を用いて説明をする。
この値は、入力画像の左上隅に位置する画素において、低解像度畳み込み処理、中解像度畳み込み処理、高解像度畳み込み処理をそれぞれ行ったときの処理結果の値を示す。各処理結果の値は、「1」、「3」、「3」である。
出力選択部124は、これらの処理結果の値の中からのうち最大の値を有する処理結果を選択し、選択した処理結果の値(この例では「3」)を左上隅に位置する画素に対応する特徴量として決定する。
出力選択部124は、左上隅に位置する画素に対応する特徴量として「3」を出力する。
なお、最大値の値が2つ以上ある場合、出力選択部124は、最大値に対応する2つ以上の処理結果の値のうちのいずれか1つを選択すればよい。
出力選択部124は、入力画像に含まれる他の画素についても同様の処理を行うことで出力結果情報(図4(c)に示す選択結果)を出力する。
図4(c)に示す選択結果は、例えば、畳み込み処理の処理結果と同様、入力画像に含まれる各画素の位置に対応する選択結果の値を示している。図4に示す例では、入力画像に含まれる画素が4×4=16であるため、選択結果は、各画素の位置に対応する16個の値が出力される。
図4の(c)の選択結果に含まれる値は、入力画像に含まれる各画素に対応する位置における、低解像度畳み込み処理結果〜高解像度畳み込み処理結果の値のうち最大の値(画素値)が含まれる。
このように畳み込み処理部12が低解像度畳み込み処理部121a、中解像度畳み込み処理部122a、高解像度畳み込み処理部123aおよび出力選択部124を備えることで、入力画像に含まれる各画素において、入力画像と処理結果との相関が最も高い処理結果の値(つまり、最大の画素値)のみを各画素の特徴量として含む出力結果情報(または、選択結果とも言う)を出力側(認識処理部14)に伝搬することができる。つまり、それぞれの処理結果に含まれる全ての値を出力側(認識処理部14)に伝搬しないため、分類器10のパラメータ数を削減できるので、分類システム1全体が使用するメモリ量を削減できる。
また、畳み込み処理部12は、解像度の異なる複数の畳み込みフィルタを並列に利用することにより、入力画像に写る物体の大きさや解像度が異なる場合でも、物体から特徴量を効率的に抽出することができるという効果も奏する。
サブサンプリング部13は、畳み込み処理部12(より具体的には、出力選択部124)から出力された選択結果に含まれる複数の特徴量の中から代表となる代表特徴量を決定するサブサンプリング処理を行う。
選択結果に含まれる複数の特徴量はそれぞれ、入力画像に含まれる複数の画素のいずれかの位置と対応付けられているので、選択結果に含まれる特徴量を画素値、代表特徴量を代表画素値、特徴量の位置(つまり、特徴量に対応する入力画像の画素の位置)を画素の位置ということもある。
サブサンプリング部13は、例えば、入力画像、または選択結果に含まれる複数の画素のうち隣接する複数の画素を含む大きさの領域を予め定めておき、選択結果に含まれる複数の特徴量を、上述した領域の大きさで分割し、分割した領域毎に代表特徴量を決定する。
サブサンプリング部13は、例えば、選択結果を分割し、分割した領域に含まれる複数の画素の各位置の特徴量のうち最も大きい値の特徴量を代表特徴量に決定する。なぜなら、最も大きい値の特徴量が、上記領域に対応する入力画像の領域と処理結果との相関が最も高い結果を示しているからである。そのため、サブサンプリング部13は、上述の領域ごとに、この領域に含まれる特徴量のうち、最大の値を有する特徴量を、この領域における代表特徴量に決定する。
本実施の形態では、サブサンプリング部13は、畳み込み処理部12の出力結果に対して、特定の領域(is,js)毎に、所定の基準sbでサブサンプリング処理を行う。例えば、ある画素(0、0)から2x2領域に対して最大値をサブサンプリングする場合、当該2x2領域の4画素の代表値として最大の値を有する特徴量(画素値)が選ばれる。
ここで、図4の(c)に示した選択結果を用いて、サブサンプリング部13が代表特徴量を決定する場合の例について説明する。
図5は、本実施の形態のサブサンプリング部13のサブサンプリング処理の一例を示す図である。図5では、サブサンプリング部13がある画素(0、0)から2x2領域に対して最大画素値をサブサンプリング処理した結果の一例が示されている。図5の(a)には、図4の(c)に示した選択結果が示されている。サブサンプリング部13は、この選択結果である画素毎に最大画素値が選択された画像において、左上を原点(0,0)とした場合、図5の(b)に示すように、2x2領域(4画素)をサンプリングすることで、各画素に対応する画素値3,8,6,4を得る。そして、サブサンプリング部13は、サンプリングして得た複数の画素値のうち、最大値(最大の画素値)をサンプリングすることで、4つの画素を含む領域の代表特徴量として8を選ぶ。また、サブサンプリング部13は、例えば、他の領域についても同様の処理を行う。サブサンプリング部13は、例えば、図5(a)に示す選択結果の中の、右上の画素を含む2x2領域、左下の画素を含む2x2領域、および右下の画素を含む2x2領域のそれぞれについて、サンプリングすることで代表特徴量として、8、9、9を選ぶ。
なお、畳み込み処理部12により畳み込み処理と、サブサンプリング部13のサブサンプリング処理を所定回数繰り返すことで、入力画像から畳み込み処理による特徴量抽出と、データ(特徴量)のサブサンプリングを行うことができ、物体を識別するのに有効な特徴を抽出できる。
なお、畳み込み処理部12により畳み込み処理と、サブサンプリング部13のサブサンプリング処理を所定回数繰り返す内容を例に説明をしたが、これに限定をされない。
例えば、入力画像を入力として、畳み込み処理部12により畳み込み処理を行った選択結果を認識処理部14へ出力するのでもよい。
認識処理部14は、畳み込み処理部12により出力される出力結果に基づいて認識処理を実行する。例えば、認識処理部14では、サブサンプリング部13で決定された代表特徴量に基づいて、認識処理を実行する。なお、認識処理の具体的な方法ついては比較例で説明した通りであるのでここでの説明は省略する。
認識結果出力部15は、認識処理部14が認識処理を実行することで得た認識処理結果を出力する。
[分類器10の動作]
次に、以上のように構成された分類器10の動作について説明する。
図6は、本実施の形態における分類器10の動作を説明するためのフローチャートである。図7は、図6の動作の詳細を示すフローチャートである。
まず、分類器10は、画像の入力を行う画像入力処理を行う(S1)。より詳細には、分類器10は、図7に示すように、画像(入力画像)を読み込み(S11)、読み込んだ入力画像に所定の前処理を施す(S12)。
次に、分類器10は、畳み込み処理を行う(S3)。具体的には、S3において、分類器10は、入力された同一の画像に対して複数の異なる畳み込みフィルタによる畳み込み処理を行い(S31)、畳み込み処理(S31)を行うことにより得た画像を構成する複数の画素の各位置における複数の処理結果の値から、各位置に対応する特徴量を1つ決定する(S32)。
より詳細には、図7に示すように、S31において、分類器10は、例えば低解像度畳み込み処理部121aで低解像度の畳み込みフィルタを用いて入力画像に対して畳み込み処理を行う(S311)。また、S31において、分類器10は、中解像度畳み込み処理部122aで中解像度の畳み込みフィルタを用いて入力画像に対して畳み込み処理を行い(S312)、高解像度畳み込み処理部123aで高解像度の畳み込みフィルタを用いて入力画像に対して畳み込み処理(S313)を行う。このようにして、分類器10は、同一の入力画像に含まれる各画素に対応する位置に対して様々な解像度で畳み込み処理を行ったときの処理結果の値を得ることができる。なお、S31において、S311〜S313を処理する順番は図7に示す場合に限らない。S31においてS311〜S313の処理を行えばその順番は問わない。次いで、S32において、分類器10は、図7に示すように、S31において、入力画像に含まれる各画素に対応する位置において、各解像度の畳み込みフィルタにより畳み込み処理を行った処理結果の値を、比較し、最大値のみを各位置における特徴量として出力する出力選択処理を行う。これを次のサブサンプリング層の入力として、分類器10は、サブサンプリング処理を行う(S4)。そして、サブサンプリング処理(S4)の処理結果を新たな入力として、畳み込み処理(S3)とサブサンプリング処理(S4)を繰り返し行う。この繰り返し行った回数が閾値をよりも大きいかどうかに応じて畳み込み処理(S3)を終了するか否かを判定する(S5)。S5において、分類器10は、畳み込み処理(S3)を終了しないと判定した場合には(S5でNo)、S3に戻る。S5において、分類器10は、畳み込み処理(S3)を終了する判定した場合には(S5でYes)、S6に進む。
なお、例えば、畳み込み処理(S3)とサブサンプリング処理(S4)を繰り返し行うことなく、サブサンプリング処理(S4)の後、後述する認識処理(S6)へ進んでもよい。これは、例えば、S5における閾値を1に設定すればよい。
ここで、分類器10は、複数回(多層の畳み込み処理層で)、畳み込み処理(S3)を行う場合について説明する。
図8Aおよび図8Bは、2層目以降の畳み込み処理を説明するための図である。図8Aには、1層目(サブサンプリング層)の出力をN個並べた行列が示されており、図8Bには、2層目の畳み込みフィルタ(畳み込みフィルタ)が概念的に示されている。
2回目の畳み込み処理層では、図8Aに示す1層目(サブサンプリング層)の出力をN個並べた行列と、図8Bに示す2層目の畳み込みフィルタとを用いて、3次元畳み込み処理を行う。2層目の畳み込みフィルタは、畳み込みフィルタの縦、横をそれぞれFy2、Fx2とすると、高さは1層目で出力されるフィルタ数と同じNとなる。この畳み込み処理を、2層目のフィルタ数通り行う。そして、1層目と同様に、畳み込み処理層の後にサブサンプリング層があれば、サブサンプリング処理を行う。
以上の処理を所定回数繰り返すことで、入力画像から畳み込み処理による特徴量の抽出と、データ(特徴量)のサブサンプリング処理を行うことができ、物体を識別するのに有効な特徴を抽出できる。
図6および図7に戻って説明する。S5において、分類器10は、畳み込み処理(S3)を終了する判定した場合には(S5でYes)、分類器10は、認識処理を行う(S6)。より具体的には、分類器10は、S3の畳み込み処理で選択された複数の画素の画素値に基づいて認識処理を実行する。
次に、分類器10は、S6で認識処理された結果(認識結果情報)を出力する(S8)。より具体的には、分類器10は、S6で認識処理を実行することで得た処理結果(認識処理結果情報)を出力する。
[効果等]
本実施の形態によれば、異なる畳み込みフィルタによる畳み込み処理を並行に行うことで算出した入力画像に含まれる複数の画素の各位置における複数の処理結果の値から認識に有益な情報を画素毎に選択的に利用できるので、高速に画像認識ができるだけでなく画像認識精度も向上する。それにより、高速かつ高精度に画像認識を行うことのできる画像認識方法、画像認識装置を実現できる。
また、画像認識装置を実現する本実施の形態の分類システム1は、異なる畳み込みフィルタを有する1つの分類器10を有するのみでよいので、ニューラルネットワークとしてより単純な構造となり処理速度の改善が実現できる。
また、本実施の形態の画像認識装置等では、解像度の異なる複数の畳み込みフィルタを並列に利用する。それにより、入力画像に写る物体の大きさや解像度が異なる場合でも、物体から特徴量を効率的に抽出することができる。換言すると、分類器10の1層目(の中間層)において複数の解像度に対応できるようにすると、入力される画像中の解像度が未知の場合でも、低解像度から高解像度まで多様に対応できるため、より認識に適した特徴量の抽出を行うことができる。
例えば、文字認識等において、直線に対しては多少の誤差に寛容な低解像度の畳み込みフィルタで特徴量の抽出を行い、曲線に対しては、曲がっている状態を表せるだけの高い解像度の畳み込みフィルタで特徴量の抽出を行えばよい。また、例えば、認識性能が位置ズレによる影響を受けやすい場合は、低解像度の畳み込みフィルタを用いて処理すればよく、位置ズレによる影響を受けにくい場合は、高解像度の畳み込みフィルタで処理すればよい。これにより、画像の性質に合わせて、解像度を自動で選択することができる。
なお、本実施の形態では、畳み込み処理部12が有する、異なる畳み込みフィルタとして、低解像度畳み込みフィルタ、中解像度畳み込みフィルタおよび高解像度畳み込みフィルタの3つの異なる畳み込みフィルタを用いる例を説明したが、それに限らない。畳み込みフィルタの数や畳み込みフィルタの解像度はこれに限ったものではなく、認識対象によってはより少ない畳み込みフィルタでもよい。この場合、さらにメモリ量や計算量を削減できる。また、畳み込みフィルタの解像度についても、認識対象とする画像(入力画像)の特徴的な箇所(エッジなど)の解像度がわかれば、それに応じて決めるとよい。
また、本実施の形態では、複数の畳み込みフィルタにおいて解像度またはスケールパラメータが異なる場合の例について説明したがそれに限らない。例えば、複数の畳み込みフィルタにおいて、それぞれ処理対象の色が異なるとしてもよい。より具体的には、第1畳み込み処理部121、第2畳み込み処理部122および第3畳み込み処理部は、それぞれ解像度またはスケールパラメータの異なる複数のフィルタによって入力画像に対して畳み込み処理を行うとしたが、これに限らない。例えば、第1畳み込み処理部121、第2畳み込み処理部122および第3畳み込み処理部は、それぞれ処理対象の色が異なる複数の畳み込みフィルタを用いて入力画像に対して畳み込み処理を行うとしてもよい。そして、複数の畳み込みフィルタで処理した処理結果を出力選択部124で選択処理を行ってもよい。これにより、本実施の形態の分類器10は、輝度の輪郭よりも色のバリエーション、分布に特徴があるような入力画像群において有効な特徴量を得ることができる。
以上、実施の形態において分類器10の各処理について説明したが、各処理が実施される主体や装置に関しては特に限定しない。例えば、ローカルに配置された特定の装置内に組み込まれたプロセッサーなど(以下に説明)によって処理されてもよい。またローカルの装置と異なる場所に配置されているサーバなどによって処理されてもよい。また、ローカルの装置とサーバ間で情報の連携を行うことで、本開示にて説明した各処理を分担してもよい。例えば、ローカルの装置が分類器10の一部である画像入力部11と認識結果出力部15とを備え、サーバが分類器10の他部である畳み込み処理部12とサブサンプリング部13と認識処理部14を備えていてもよい。
また、上記実施の形態において分類器10の処理の一部または全部をサーバで実現する場合には、例えば、以下のクラウドサービスの類型において実現されうる。しかし、上記実施の形態において説明された処理が実現されるクラウドサービスの類型はこれらに限られるものでない。
以下、分類器10の処理の一部また全部を実現するサーバにより提供するサービスに関する説明をする。
図13A〜図13Cは、サーバを用いてサービスを提供する形態の一例を説明するための図である。
図13Aにおいて、サーバ(1100)は、データセンタ運営会社(11001)が運営するクラウドサーバ(110011)、およびサービスプロバイダが運営するサーバ(110021)を有する構成を示している。
クラウドサーバ(110011)とは、インターネットを介して様々な機器と連携する仮想化サーバである。主に通常のデータベース管理ツール等で扱うことが困難な巨大なデータ(ビッグデータ)等を管理する。データセンタ運営会社(11001)は、データ管理やクラウドサーバ(111)の管理、それらを行うデータセンタの運営等を行っている。データセンタ運営会社(110)が行っている役務については詳細を後述する。ここで、データセンタ運営会社(110)は、データ管理やクラウドサーバ(110011)の運営等のみを行っている会社に限らない。
上記の実施の形態において説明をした分類器10や分類システム1を開発・製造しているメーカが、併せてデータ管理やクラウドサーバ(110011)の管理等を行っている場合は、メーカがデータセンタ運営会社(110)に該当する(図13B)。
また、データセンタ運営会社(11001)は一つの会社に限らない。例えばメーカ及び他の管理会社が共同もしくは分担してデータ管理やクラウドサーバ(111)の運営を行っている場合は、両者もしくはいずれか一方がデータセンタ運営会社(11001)に該当するものとする(図13C)。
サービスプロバイダ(11002)は、サーバ(110021)を保有している。ここで言うサーバ(110021)とは、その規模は問わず例えば、個人用PC、またはゲートウェイ機器で動作するものも含む。また、サービスプロバイダがサーバ(110021)を保有していない場合もある。
次に、上記サービスにおける情報の流れを説明する。
例えば図13Aに示す家A(1210)でデジカメなどの家電機器により撮影された画像が、クラウドサーバ(110011)に送信される(図13Aの矢印(a))。
クラウドサーバ(110011)は、例えば家A(1210)、他の家Bから送信される家電機器により撮影された画像を受信して格納する。
次に、データセンタ運営会社(11001)のクラウドサーバ(110011)は、格納した画像等の情報を一定の単位でサービスプロバイダ(11002)に提供する。ここで、データセンタ運営会社が格納した画像等の情報を整理してサービスプロバイダ(11002)に提供することの出来る単位でもいいし、サービスプロバイダ(11002)が要求した単位でもいい。一定の単位と記載したが一定でなくてもよく、状況に応じて提供する情報量が変化する場合もある。
データセンタ運営会社(11001)がサービスプロバイダ(11002)に提供する画像等の情報は、必要に応じてサービスプロバイダ(11002)が保有するサーバ(110021)に保存される(図13Aの矢印(b))。
そして、サービスプロバイダ(11002)は、画像等に基づいて、ユーザに提供するサービスに適合する情報(例えば分類器10の一部である畳み込み処理部12とサブサンプリング部13とで処理された処理結果の情報や、提供された画像等の情報に基づいて学習された解像度なお複数の異なる畳み込みフィルタに設定すべき設定値)を、ユーザに提供する。
提供するユーザは、1つまたは複数の家電機器を使用するユーザ(1211)でもよいし、家の外にいるユーザ(1212)でもよい。
ユーザへのサービス提供方法は、例えば、クラウドサーバ(110011)を再度経由することなく、サービスプロバイダ(11002)から直接ユーザへ提供されてもよい(図13Aの矢印(e)または(f))。
また、ユーザへのサービス提供方法は、例えば、データセンタ運営会社(110)のクラウドサーバ(110011)を再度経由して、ユーザに提供されてもよい(図13Aの矢印(c)、(d))。また、データセンタ運営会社(110)のクラウドサーバ(111)が家電機器により撮影された画像等に基づいて、ユーザに提供するサービスに適合する情報(ラウドサーバ(111)が例えば分類器10の一部である畳み込み処理部12とサブサンプリング部13とを備える場合、当該一部で処理された処理結果の情報や、提供された画像等の情報に基づいて学習された解像度なお複数の異なる畳み込みフィルタに設定すべき設定値)を、サービスプロバイダ(120)に提供してもよい。
サービスの類型に関し、以下に説明をする。
(サービスの類型1:自社データセンタ型)
図14は、サービスの類型の一例を説明するための図である。
図14は、具体的にはサービスの類型1(自社データセンタ型)を示す図である。本類型は、サービスプロバイダ(11002)が図に示す家A(1210)から画像などの情報を取得し、ユーザに対してサービスに適合する情報を提供する類型である。
本類型では、サービスプロバイダ(11002)が、データセンタ運営会社の機能を有している。即ち、サービスプロバイダが、ビッグデータの管理をするクラウドサーバ(110011)を保有している。従って、データセンタ運営会社は存在しない。
本類型では、サービスプロバイダ(11002)は、データセンタ(クラウドサーバ(110011))を運営、管理している(1100203)。また、サービスプロバイダ(11002)は、OS(1100202)及びアプリケーション(1100201)を管理する。サービスプロバイダ(120)は、サービスプロバイダ(120)が管理するOS(1100202)及びアプリケーション(1100201)を用いて例えば分類器10の一部である畳み込み処理部12とサブサンプリング部13とに相当する処理を実行し、ユーザに対してサービスに適合する情報の提供を行う(1100204)。
(サービスの類型2:IaaS利用型)
図15は、サービスの類型の一例を説明するための図である。
図15は、具体的にはサービスの類型2(IaaS利用型)を示す図である。
ここでIaaSとはインフラストラクチャー・アズ・ア・サービスの略であり、コンピュータシステムを構築および稼動させるための基盤そのものを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
本類型では、データセンタ運営会社がデータセンタ(クラウドサーバ(110011))を運営、管理している(1100103)。また、サービスプロバイダ(11002)は、OS(1100202)及びアプリケーション(1100201)を管理する。サービスプロバイダ(11002)は、サービスプロバイダ(11002)が管理するOS(1100202)及びアプリケーション(1100201)を用いて例えば分類器10の一部である畳み込み処理部12とサブサンプリング部13とに相当する処理を実行し、ユーザに対してサービスに適合する情報の提供を行う(1100204)。
(サービスの類型3:PaaS利用型)
図16は、サービスの類型の一例を説明するための図である。
図16は、具体的にはサービスの類型3(PaaS利用型)を示す図である。ここでPaaSとはプラットフォーム・アズ・ア・サービスの略であり、ソフトウェアを構築および稼動させるための土台となるプラットフォームを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
本類型では、データセンタ運営会社(11001)は、OS(1100102)を管理し、データセンタ(クラウドサーバ(110011))を運営、管理している(1100103)。また、サービスプロバイダ(11002)は、アプリケーション(1100201)を管理する。サービスプロバイダ(11002)、データセンタ運営会社が管理するOS(1100102)及びサービスプロバイダ(11002)が管理するアプリケーション(1100201)を用いて例えば分類器10の一部である畳み込み処理部12とサブサンプリング部13とに相当する処理を実行し、ユーザに対してサービスに適合する情報の提供を行う(1100204)。
(サービスの類型4:SaaS利用型)
図17は、サービスの類型の一例を説明するための図である。
図17は、具体的にはサービスの類型4(SaaS利用型)を示す図である。ここでSaaSとはソフトウェア・アズ・ア・サービスの略である。例えばデータセンタ(クラウドサーバ)を保有しているプラットフォーム提供者が提供するアプリケーションを、データセンタ(クラウドサーバ)を保有していない会社・個人(利用者)がインターネットなどのネットワーク経由で使用できる機能を有するクラウドサービス提供モデルである。
本類型では、データセンタ運営会社(11001)は、アプリケーション(1100101)を管理し、OS(1100102)を管理し、データセンタ(クラウドサーバ(110011))を運営、管理している(1100103)。また、サービスプロバイダ120は、データセンタ運営会社(11001が管理するOS(1100102)及びアプリケーション(1100101)を用いて例えば分類器10の一部である畳み込み処理部12とサブサンプリング部13とに相当する処理を実行し、ユーザに対してサービスに適合する情報の提供を行う(1100204)。
以上いずれの類型においても、サービスプロバイダ11002がユーザに対してサービスに適合する情報を提供する行為を行ったものとする。また例えば、サービスプロバイダ若しくはデータセンタ運営会社は、OS、アプリケーション若しくはビッグデータのデータベース等を自ら開発してもよいし、また、第三者に外注させてもよい。
なお、本発明は、さらに、以下のような場合も含まれる。
(1)上記の装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
(3)上記の装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
(4)本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
(5)また、本発明は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray(登録商標) Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
(6)上記実施の形態及びその変形例をそれぞれ組み合わせるとしてもよい。
本発明は、画像から、画像中に含まれる物体が何であるかを高速かつ高精度に認識することができる画像認識方法、画像認識装置およびプログラムに利用でき、特にデジタルカメラ、ムービー、監視カメラ、車載カメラ、ウェアラブルカメラなどの撮像装置により取得される画像対する画像認識方法、画像認識装置およびプログラムに利用できる。
1、900 分類システム
10、90a、90b、90N 分類器
11、91 画像入力部
12、92 畳み込み処理部
13、93 サブサンプリング部
14、94 認識処理部
15、95 認識結果出力部
901 入力層
902 中間層
903 畳み込み処理層
904 サブサンプリング層
905 出力層
121 第1畳み込み処理部
121a 低解像度畳み込み処理部
122 第2畳み込み処理部
122a 中解像度畳み込み処理部
123 第3畳み込み処理部
123a 高解像度畳み込み処理部
124 出力選択部

Claims (8)

  1. 画像認識装置のコンピュータが行う、単一の畳み込みニューラルネットワークを用いた画像認識方法であって、
    前記単一の畳み込みニューラルネットワークに画像の入力を行い、
    前記単一の畳み込みニューラルネットワークに入力された前記画像に対して解像度またはスケールパラメータまたは処理対象の色が異なる複数の畳み込みフィルタをそれぞれ用いて畳み込み処理を行い、前記画像を構成する複数の画素の各位置における前記畳み込み処理の処理結果の値を含む処理結果情報をそれぞれ取得し、
    前記複数の画素の位置毎に、前記位置における前記複数の処理結果の値のうちの、最大値を前記位置における特徴量として選択することで、前記位置に対応する特徴量を1つ決定し、前記決定した前記位置に対応する特徴量を出力し、
    前記出力された複数の画素の各位置に対応する特徴量に基づいて認識処理を実行し、
    前記認識処理を実行することで得た認識処理結果情報を出力する、
    画像認識方法。
  2. 前記異なる畳み込みフィルタをそれぞれ用いた畳み込み処理は、
    第1の解像度の畳み込みフィルタを用いて前記入力された前記画像に対して行われる第1の畳み込み処理、前記第1の解像度よりも解像度の高い第2の解像度の畳み込みフィルタを用いて前記入力された前記画像に対して行われる第2の畳み込み処理を含む、
    請求項1に記載の画像認識方法。
  3. さらに、前記複数の画素の各位置に対応する特徴量の出力において、
    前記位置が隣接する複数の画素を含む領域毎に、当該領域に含まれる複数の画素の位置に対応する特徴量のうちのいずれかを当該領域を代表するである代表特徴量として決定するサブサンプリング処理を行い、
    前記サブサンプリング処理を行う際に決定された前記代表特徴量に基づいて、前記認識処理を実行する、
    請求項1または2に記載の画像認識方法。
  4. 前記サブサンプリング処理を行う際に、
    前記領域に含まれる複数の画素の位置に対応する特徴量のうち最も値の大きい特徴量を前記代表特徴量に決定する、
    請求項3に記載の画像認識方法。
  5. 前記画像の入力、前記それぞれの処理結果情報の取得、前記複数の画素の各位置に対応する特徴量の出力、および前記認識処理の実行および前記認識処理結果情報の出力のうちの少なくとも1つは、画像認識装置のコンピュータが備えるプロセッサーにより行われる、
    請求項1に記載の画像認識方法。
  6. 単一の畳み込みニューラルネットワークを用いた画像認識装置であって、
    前記単一の畳み込みニューラルネットワークに画像の入力を行う画像入力部と、
    前記単一の畳み込みニューラルネットワークに入力された前記画像に対して解像度またはスケールパラメータまたは処理対象の色が異なる複数の畳み込みフィルタをそれぞれ用いて畳み込み処理を行い、前記画像を構成する複数の画素の各位置における前記畳み込み処理の処理結果の値を含む処理結果情報をそれぞれ取得し、
    前記複数の画素の位置毎に、前記位置における前記複数の処理結果の値のうちの、最大値を前記位置における特徴量として選択することで、前記位置に対応する特徴量を1つ決定し、前記決定した前記位置に対応する特徴量を出力する畳み込み処理部と、
    前記畳み込み処理部により出力された前記複数の画素の各位置に対応する特徴量に基づいて認識処理を実行する認識処理部と、
    前記認識処理部が前記認識処理を実行することで得た認識処理結果情報を出力する認識結果出力部と、を備える、
    画像認識装置。
  7. 前記画像入力部、前記畳み込み処理部、前記認識処理部、および前記認識結果出力部のうちの少なくとも一つは、プロセッサーを含む、
    請求項6に記載の画像認識装置。
  8. 単一の畳み込みニューラルネットワークを用いた画像認識装置のコンピュータに実行させるためのプログラムであって、
    前記単一の畳み込みニューラルネットワークに画像の入力を行い、
    前記単一の畳み込みニューラルネットワークに入力された前記画像に対して解像度またはスケールパラメータまたは処理対象の色が異なる複数の畳み込みフィルタをそれぞれ用いて畳み込み処理を行い、前記画像を構成する複数の画素の各位置における前記畳み込み処理の処理結果の値を含む処理結果情報をそれぞれ取得し、
    前記複数の画素の位置毎に、前記位置における前記複数の処理結果の値のうちの、最大値を前記位置における特徴量として選択することで、前記位置に対応する特徴量を1つ決定し、前記決定した前記位置に対応する特徴量を出力し、
    前記出力された複数の画素の各位置に対応する特徴量に基づいて認識処理を実行し、
    前記認識処理を実行することで得た認識処理結果を出力する、処理をコンピュータに実行させる、
    プログラム。
JP2015255320A 2015-03-06 2015-12-25 画像認識方法、画像認識装置およびプログラム Active JP6706788B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2015045257 2015-03-06
JP2015045257 2015-03-06
JP2015156871 2015-08-07
JP2015156871 2015-08-07

Publications (2)

Publication Number Publication Date
JP2017033529A JP2017033529A (ja) 2017-02-09
JP6706788B2 true JP6706788B2 (ja) 2020-06-10

Family

ID=55588027

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015255320A Active JP6706788B2 (ja) 2015-03-06 2015-12-25 画像認識方法、画像認識装置およびプログラム

Country Status (4)

Country Link
US (1) US9940548B2 (ja)
EP (1) EP3065084A1 (ja)
JP (1) JP6706788B2 (ja)
CN (1) CN105938557B (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10043112B2 (en) * 2014-03-07 2018-08-07 Qualcomm Incorporated Photo management
US10074042B2 (en) 2015-10-06 2018-09-11 Adobe Systems Incorporated Font recognition using text localization
US9875429B2 (en) 2015-10-06 2018-01-23 Adobe Systems Incorporated Font attributes for font recognition and similarity
JP6815743B2 (ja) * 2016-04-15 2021-01-20 キヤノン株式会社 画像処理装置及びその方法、プログラム
US10726573B2 (en) 2016-08-26 2020-07-28 Pixart Imaging Inc. Object detection method and system based on machine learning
CN107786867A (zh) * 2016-08-26 2018-03-09 原相科技股份有限公司 基于深度学习架构的图像辨识方法及系统
US10007868B2 (en) 2016-09-19 2018-06-26 Adobe Systems Incorporated Font replacement based on visual similarity
KR20180073314A (ko) * 2016-12-22 2018-07-02 삼성전자주식회사 컨볼루션 신경망 시스템 및 그것의 동작 방법
US10699184B2 (en) * 2016-12-29 2020-06-30 Facebook, Inc. Updating predictions for a deep-learning model
US11132619B1 (en) * 2017-02-24 2021-09-28 Cadence Design Systems, Inc. Filtering in trainable networks
US10261903B2 (en) 2017-04-17 2019-04-16 Intel Corporation Extend GPU/CPU coherency to multi-GPU cores
CN107333107A (zh) * 2017-07-21 2017-11-07 广东美的制冷设备有限公司 监控拍摄方法、装置及其设备
CN107480677B (zh) * 2017-08-07 2020-04-28 北京深睿博联科技有限责任公司 一种识别三维ct图像中感兴趣区域的方法及装置
US10776880B2 (en) 2017-08-11 2020-09-15 American International Group, Inc. Systems and methods for dynamic real-time analysis from multi-modal data fusion for contextual risk identification
JP2019036899A (ja) 2017-08-21 2019-03-07 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP6811965B2 (ja) * 2017-09-29 2021-01-13 株式会社Spectee 画像処理装置、画像処理方法及びプログラム
US11151669B1 (en) 2017-11-16 2021-10-19 State Farm Mutual Automobile Insurance Company Systems and methods for identifying hidden home maintenance costs
US11023985B1 (en) 2017-11-16 2021-06-01 State Farm Mutual Automobile Insurance Company Systems and methods for executing a customized home search
US10140553B1 (en) 2018-03-08 2018-11-27 Capital One Services, Llc Machine learning artificial intelligence system for identifying vehicles
CN108846419A (zh) * 2018-05-25 2018-11-20 平安科技(深圳)有限公司 单页高负载图像识别方法、装置、计算机设备及存储介质
KR20200028168A (ko) * 2018-09-06 2020-03-16 삼성전자주식회사 컨볼루셔널 뉴럴 네트워크를 이용하는 컴퓨팅 장치 및 그 동작 방법
CN109784259B (zh) * 2019-01-08 2021-04-13 江河瑞通(北京)技术有限公司 基于图像识别的水体透明度智能识别方法及塞氏盘组件
JP6801020B2 (ja) * 2019-01-11 2020-12-16 セコム株式会社 画像認識装置、画像認識方法、及び画像認識プログラム
US10950017B2 (en) 2019-07-08 2021-03-16 Adobe Inc. Glyph weight modification
US11295181B2 (en) 2019-10-17 2022-04-05 Adobe Inc. Preserving document design using font synthesis
KR20210097448A (ko) * 2020-01-30 2021-08-09 삼성전자주식회사 영상 데이터 처리 방법 및 영상 데이터 처리 방법을 수행하는 센서 장치
WO2021200199A1 (ja) * 2020-03-30 2021-10-07 ソニーグループ株式会社 情報処理装置、情報処理方法および情報処理プログラム
KR20210133084A (ko) * 2020-04-28 2021-11-05 삼성전자주식회사 뉴럴 네트워크의 학습 방법 및 장치
CN111767858B (zh) 2020-06-30 2024-03-22 北京百度网讯科技有限公司 图像识别方法、装置、设备和计算机存储介质
CN112288028A (zh) * 2020-11-06 2021-01-29 神思电子技术股份有限公司 一种基于流卷积的图像识别方法
JP7448721B2 (ja) 2021-03-08 2024-03-12 株式会社日立国際電気 撮像装置及び映像処理システム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4846924B2 (ja) * 2001-05-31 2011-12-28 キヤノン株式会社 パターン認識装置
JP5171118B2 (ja) * 2007-06-13 2013-03-27 キヤノン株式会社 演算処理装置及びその制御方法
JP5184824B2 (ja) * 2007-06-15 2013-04-17 キヤノン株式会社 演算処理装置及び方法
JP5368687B2 (ja) * 2007-09-26 2013-12-18 キヤノン株式会社 演算処理装置および方法
CN103679185B (zh) 2012-08-31 2017-06-16 富士通株式会社 卷积神经网络分类器系统、其训练方法、分类方法和用途
CN104217214B (zh) * 2014-08-21 2017-09-19 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb‑d人物行为识别方法
US9524450B2 (en) * 2015-03-04 2016-12-20 Accenture Global Services Limited Digital image processing using convolutional neural networks
WO2017031088A1 (en) * 2015-08-15 2017-02-23 Salesforce.Com, Inc Three-dimensional (3d) convolution with 3d batch normalization
CN106570564B (zh) * 2016-11-03 2019-05-28 天津大学 基于深度网络的多尺度行人检测方法

Also Published As

Publication number Publication date
JP2017033529A (ja) 2017-02-09
CN105938557A (zh) 2016-09-14
US20160259995A1 (en) 2016-09-08
US9940548B2 (en) 2018-04-10
EP3065084A1 (en) 2016-09-07
CN105938557B (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
JP6706788B2 (ja) 画像認識方法、画像認識装置およびプログラム
JP6832504B2 (ja) 物体追跡方法、物体追跡装置およびプログラム
CN106548127B (zh) 图像识别方法
CN109753885B (zh) 一种目标检测方法、装置以及行人检测方法、系统
US8509545B2 (en) Foreground subject detection
JP5923713B2 (ja) 画像処理装置、撮像装置および画像処理方法
JP2017059207A (ja) 画像認識方法
JP6798619B2 (ja) 情報処理装置、情報処理プログラム及び情報処理方法
US10140513B2 (en) Reference image slicing
US20130148853A1 (en) Image processing apparatus and image processing method
JP2010108475A (ja) 画像処理装置および方法、プログラム、並びに記録媒体
CN111008935B (zh) 一种人脸图像增强方法、装置、系统及存储介质
JP6902811B2 (ja) 視差推定システムと方法、電子機器及びコンピュータ可読記憶媒体
CN107004256A (zh) 用于噪声深度或视差图像的实时自适应滤波的方法和装置
US8948502B2 (en) Image processing method, and image processor
CN111291646A (zh) 一种人流量统计方法、装置、设备及存储介质
CN112419342A (zh) 图像处理方法、装置、电子设备和计算机可读介质
WO2014006786A1 (ja) 特徴量抽出装置および特徴量抽出方法
CN114331951A (zh) 图像检测方法、装置、计算机、可读存储介质及程序产品
CN106415606B (zh) 一种基于边缘的识别、系统和方法
JP6511950B2 (ja) 画像処理装置、画像処理方法及びプログラム
KR20080079443A (ko) 영상으로부터의 객체 검출 방법 및 장치
JP6546385B2 (ja) 画像処理装置及びその制御方法、プログラム
JP6405603B2 (ja) 情報処理装置、情報処理システム及びプログラム
JP2011053937A (ja) 画像変換パラメータ算出装置、画像変換パラメータ算出方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190621

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200218

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20200227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200424

R151 Written notification of patent or utility model registration

Ref document number: 6706788

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151