JP2020030480A - 畳み込みニューラルネットワーク並びにこれを用いた画像識別装置及び画像識別方法、並びに学習手段 - Google Patents

畳み込みニューラルネットワーク並びにこれを用いた画像識別装置及び画像識別方法、並びに学習手段 Download PDF

Info

Publication number
JP2020030480A
JP2020030480A JP2018154214A JP2018154214A JP2020030480A JP 2020030480 A JP2020030480 A JP 2020030480A JP 2018154214 A JP2018154214 A JP 2018154214A JP 2018154214 A JP2018154214 A JP 2018154214A JP 2020030480 A JP2020030480 A JP 2020030480A
Authority
JP
Japan
Prior art keywords
partial
neural network
convolutional neural
layer
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018154214A
Other languages
English (en)
Other versions
JP7257756B2 (ja
JP2020030480A5 (ja
Inventor
山本 貴久
Takahisa Yamamoto
貴久 山本
佐藤 博
Hiroshi Sato
博 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018154214A priority Critical patent/JP7257756B2/ja
Priority to US16/535,289 priority patent/US11256953B2/en
Publication of JP2020030480A publication Critical patent/JP2020030480A/ja
Publication of JP2020030480A5 publication Critical patent/JP2020030480A5/ja
Priority to US17/583,706 priority patent/US11948091B2/en
Application granted granted Critical
Publication of JP7257756B2 publication Critical patent/JP7257756B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2111Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Physiology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】必要な演算リソース又は処理時間の増加を抑えながら、入力データの識別により適した特徴量の抽出を行う。【解決手段】演算層が階層的に複数接続されて構成された畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)。特定階層より後の階層にある演算層の処理を行う複数の部分ニューラルネットワークを有し、複数の部分ニューラルネットワークのそれぞれには、特定階層の同じ演算層の出力のうち、互いに異なるデータが入力されるように構成されている。【選択図】図1

Description

本発明は、畳み込みニューラルネットワーク並びにこれを用いた画像識別装置及び画像識別方法並びに学習手段に関し、例えば、画像データに対して顔又は物体等の画像認識処理を行う技術に関する。
ディープニューラルネットワークと呼ばれる多階層のニューラルネットワーク(ディープニューラルネット又はディープラーニングとも呼ばれ、以下ではディープネットと呼ぶ)が近年大きな注目を集めている。ディープネットは、一般的には、入力データ(例えば画像)に対して、階層的な処理(ある階層の処理結果を、その後段の階層の処理の入力とする)を行うものを指す。ディープネットとしては、階層的畳み込みニューラルネットワーク(Convolutional Neural Networks:CNN)がよく知られており、これは畳み込みフィルタ演算を行う畳み込み層と、全結合演算を行う全結合層とを含む構成を有している。特に画像識別の分野では、ディープネットが主流の手法になりつつある。さらに近年では、このようなディープネットを複数用意し、それぞれのディープネットの出力を統合することで、画像認識の精度を向上させる手法が提案されている(非特許文献1)。
Y. Sun, Y. Chen, X. Wang, and X. Tang. "Deep learning face representation by joint identification-verification." In Proc. NIPS, 2014.
非特許文献1では、顔画像の異なる領域それぞれから切り出し画像が抽出され、それぞれの切り出し画像が異なるディープネットに投入される。この構成においては、切り出し画像の数と同じ数のディープネットが用いられるため、顔認証に必要な演算リソース及び処理時間が増大する。すなわち、切り出し画像の数がM枚である場合、M個のディープネットが必要となるため、必要な演算リソース及び処理時間も1つのディープネットを用いる場合と比較してM倍となる(M個のディープネットがすべて同じネットワーク構成である場合)。
本発明は、必要な演算リソース又は処理時間の増加を抑えながら、入力データの識別により適した特徴量の抽出を行うことを目的とする。
本発明の目的を達成するために、例えば、本発明の畳み込みニューラルネットワークは以下の構成を備える。すなわち、
演算層が階層的に複数接続されて構成された畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)であって、
特定階層より後の階層にある演算層の処理を行う複数の部分ニューラルネットワークを有し、前記複数の部分ニューラルネットワークのそれぞれには、前記特定階層の同じ演算層の出力のうち、互いに異なるデータが入力されるように構成されていることを特徴とする。
必要な演算リソース又は処理時間の増加を抑えながら、入力データの識別により適した特徴量の抽出を行うことができる。
一実施形態に係るCNNの構成の一例を示す図。 一実施形態に係る分岐面での部分領域の設定方法を説明する図。 一実施形態に係る顔認証システムの機能構成の一例を示すブロック図。 一実施形態に係るCNNの構成の一例を示す図。 一実施形態に係るCNNの構成の一例を示す図。 一実施形態に係るCNNの構成の一例を示す図。 一実施形態に係るCNNの構成の一例を示す図。 一実施形態に係る処理を実現するコンピュータの機能構成を示す図。
本発明の一実施形態によれば、処理対象画像の性質をよく表現した特徴量を算出できる畳み込みニューラルネットワークを実現できる。この畳み込みニューラルネットワークを用いる場合、処理対象画像中に切り出し領域が複数設けられていても、必要な演算リソース又は処理時間が切り出し領域の数に比例することなく、より少ない演算リソース又は処理時間を用いて演算を行うことができる。本発明の一実施形態に係る畳み込みニューラルネットワークは、演算層が階層的に複数接続されて構成されており、階層的畳み込みニューラルネットワークとも呼ばれる。以下では、説明を簡潔にするため、畳み込みニューラルネットワークのことをCNN(Convolutional Neural Network)と呼ぶ。
本発明の一実施形態に係るCNNは、次の2つの部分を有している。第1の部分は、入力層からある中間出力特徴面(分割対象特徴面とも呼ぶことができ、以下では分岐面と呼ぶ)までのニューラルネットワークである。第1の部分は、単一のCNNで構成されており、以降ルートニューラルネットワーク、略してルートネットワークと呼ぶ。第2の部分は、分岐面以降のニューラルネットワークである。第2の部分は、複数の部分領域ニューラルネットワーク(以下、部分ニューラルネットワーク、略して部分ネットワークと呼ぶ)で構成されている。このように、本発明の一実施形態に係るCNNは、特定階層(分岐面を出力する階層)より後の階層にある演算層の処理を行う複数の部分ニューラルネットワークを有している。ここで、複数の部分ニューラルネットワークのそれぞれには、特定階層の同じ演算層の出力(すなわち分岐面)のうち、互いに異なるデータが入力される。例えば、それぞれの部分ネットワークは、分岐面上に設定された複数の部分領域のそれぞれを入力として用いて演算を行うことができる。ここで、それぞれの部分領域は、完全には一致しないものの、一部が重複していてもよい。
CNNを以上のように構成することで、演算リソース又は処理時間が切り出し領域数に比例することなく、処理対象画像の性質をよく表現した特徴量を算出することができる。以下、本発明の実施形態を図面に基づいて説明する。ただし、本発明の範囲は以下の実施例に限定されるものではない。例えば、CNNに入力されるデータは、必ずしも画像データには限定されない。
[実施形態1]
以下ではまず、CNNを顔認証に使用する場合を例として、分岐面に部分領域を2つ設定する場合のCNNの構成例について説明する。ただし、認証するオブジェクトは顔には限定されず、本発明に係るCNNを人体又は物体の認証のために用いてもよい。
図3は、本発明の一実施形態に係る情報処理システムである、顔認証システムの機能ブロック図を示す。顔認証とは、入力画像中に存在する顔画像を識別するための処理を指し、例えば、顔画像についてのID(名前等の個人を特定する識別子)を特定するための処理である。
顔認証システム301は、入力画像を取得し、入力画像中の顔画像についてのIDを出力する。顔認証システム301は、検出部302、特徴量算出部303、格納部304、類似度算出部305、及び処理部306を有している。
検出部302は、入力画像から顔を含む顔画像を抽出する顔検出処理を行う。顔検出処理には公知の手法、例えば"Rapid Object Detection using a Boosted Cascade of Simple Features", Paul Viola, Michael Jones, Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp.511-518, (2001).に記載の手法を用いることができる。検出部302は、検出された顔を含む顔画像を出力する。
特徴量算出部303は、畳み込みニューラルネットワークに画像データを入力することにより画像の特徴量を抽出する。本実施形態において特徴量算出部303は、検出部302から取得した顔画像から特徴量(例えば特徴ベクトル)を算出する。顔認証の目的では、特徴ベクトルとして、個人の違いをよく表現する特徴ベクトルを算出することができる。本実施形態においては、特徴量算出部303はCNNを用いてこの処理を行う。具体的な処理に関しては、のちほど図1を参照して詳細に説明する。
格納部304は、登録されている画像についての特徴量を予め格納している。本実施形態において格納部304は、登録人物についての特徴量(例えば特徴ベクトルであり、以下登録特徴ベクトルと呼ぶ)を格納している。登録人物とは、顔認証システムを用いて識別したい人物であり、予め決められている。また、登録人物の顔画像(以下、登録画像と呼ぶ)については特徴ベクトルが予め算出され、登録特徴ベクトルとして格納部304に格納されている。格納部304は登録特徴ベクトルを格納することができ、例えば、複数の登録画像が複数ある場合、格納部304はそれぞれの登録画像に対応した登録特徴ベクトルを格納することができる。
類似度算出部305及び処理部306は、特徴量算出部303が抽出した特徴量に基づいて、CNNに入力された画像の識別を行う。具体的な識別の方法は特に限定されず、例えば入力された特徴量に対応する識別結果を与える識別器を用いてもよいし、抽出された特徴量と既に識別されている画像の特徴量とを比較してもよい。本実施形態においては、特徴量算出部303が抽出した特徴量と、予め識別されている画像の特徴量との比較に基づいて、画像の識別が行われる。例えば、類似度算出部305は、特徴量算出部303が抽出した特徴量と、格納部304に予め格納されている画像の特徴量との比較に基づいて、CNNに入力された画像と予め格納されている画像との類似度を算出することができる。そして、処理部306は、この類似度に基づいて、CNNに入力された画像の識別を行うことができる。
本実施形態において類似度算出部305は、特徴量算出部303が顔画像から算出した特徴量(特徴ベクトル)と、登録人物についての特徴量(登録特徴ベクトル)との類似度を算出する。特徴量算出部303が複数の特徴ベクトルを算出した場合、類似度算出部305は類似度を算出する際に複数の特徴ベクトルを組み合わせることができる。例えば本実施形態において、特徴量算出部303は、部分領域ごとに特徴ベクトル(部分領域106についての特徴ベクトル113及び部分領域107についての特徴ベクトル117)を算出する。この場合、類似度算出部305は、部分領域ごとに算出された複数の特徴ベクトルを連結することにより単一の特徴ベクトルを作成することができる。そして、類似度算出部305は、こうして作成された特徴ベクトルと、登録画像から算出された登録特徴ベクトル(格納部304に格納されている)との類似度を算出する。
類似度の算出方法は特に限定されないが、本実施形態において類似度算出部305は、特徴ベクトルと登録特徴ベクトルとの間のL2距離(ユークリッド距離)の逆数を算出する。格納部304に複数の登録特徴ベクトルが格納されている場合、類似度算出部305は、それぞれの登録特徴ベクトルについて、顔画像から算出された特徴ベクトルとの類似度を算出する。この場合、登録特徴ベクトルの数と同数の類似度が出力される。
処理部306は、類似度算出部305が算出した類似度と、予め設定された閾値とを比較し、比較結果に基づく認証結果を出力する。例えば、特徴量算出部303が算出した特徴ベクトルと、登録画像の登録特徴ベクトルとの類似度が所定の閾値より大きい場合、特徴量算出部303に入力された顔画像は、登録画像と同じIDを持つと判定される。この場合、処理部306は、登録画像(又は登録特徴ベクトル)のIDを、顔認証結果として出力することができる。また、類似度算出部305から複数の類似度を取得した場合、処理部306は、最大の類似度と閾値とを比較し、同様に認証結果を出力することができる。また、閾値を超える類似度を有する登録特徴ベクトルが存在しない場合、処理部306は、入力画像中には登録人物がいないことを示す認証結果を出力することができる。
上記の特徴量算出部303、類似度算出部305、及び処理部306の組み合わせは、本発明の一実施形態に係る画像識別装置として動作することができる。すなわち、特徴量算出部303は、上記のCNNを用いて画像の特徴量を抽出し、類似度算出部305及び処理部306は、抽出された特徴量に基づいて画像の識別を行う。また、本発明の一実施形態に係る画像識別方法は、上記のCNNを用いて画像の特徴量を抽出する工程と、抽出された特徴量に基づいて画像の識別を行う工程と、により実現できる。
続いて、特徴量算出部303について説明する。上述したように本実施形態において、特徴量算出部303はCNNを用いて処理を行う。図3を用いて説明したように、本実施形態においては、顔認証処理の対象である入力画像に対して顔検出処理を行うことにより、顔画像が抽出されている。そして、この顔画像がCNNに入力される。したがって、CNNに入力される様々な顔画像において、目、鼻、又は口等の顔に含まれる器官の位置は、概略同じ位置に存在する。
図1は、本実施形態におけるCNNの構成の一例を示す。入力された顔画像(画像101)に対しては、畳み込みフィルタ演算のフィルタカーネル102を適用することにより、畳み込みフィルタ処理が行われる。こうして、第1階層(入力層)の出力として特徴面103が得られる。一般にCNNにおいては、画像101に対して、複数のフィルタカーネル102のそれぞれを適用することにより、複数の特徴面が得られる。図1において特徴面103は、複数の特徴面を積み重ねた三次元形状で表現されている。
なお、第1階層(入力層)の出力である特徴面103は、第2階層に入力される入力参照面となる。つまり、前階層(下位階層)の出力特徴面が、次階層(上位階層)の入力参照面となることで、階層的な演算が実現される。以下では、階層間の相対的な位置関係を表現する場合、入力層に近い方を下位階層、遠い方を上位階層と呼ぶ。すなわち、演算処理は、下位階層から上位階層に向かう順序で進む。
また、一般にCNNにおいては、複数の参照面から得られる畳み込みフィルタ演算結果を加算し、加算結果に対して非線形変換を行い、さらにプーリング(間引き処理)を行うことにより得られる結果が、次階層の特徴面になる。このような処理は、複雑になるため図1には明示されていない。また、発明の本質にはかかわらないため、本明細書にも明示しない。しかしながら、本実施形態において、各階層の入力参照面から出力特徴面を得るためには、このような処理が行われるものとする。
こうして得られた特徴面103に対しては、畳み込みフィルタ演算のフィルタカーネル104を適用することにより、畳み込みフィルタ処理が行われる。こうして、第2階層の出力として特徴面105が得られる。図1において、ルートネットワークは、入力として画像101を用い、第2階層の特徴面105を出力するネットワークである。図1においては、第2階層の特徴面105が分岐面とされる。
一実施形態において、特定階層の演算層の出力(分岐面である特徴面105)は、三次元構造を有するデータとして表現される。そして、部分ニューラルネットワークには、特定階層の演算層の出力のうち、三次元構造のうち少なくとも一つの次元方向に関して限定された範囲内にあるデータが入力される。
また、一実施形態において、部分ニューラルネットワークには、特定階層の演算層の出力のうち画像領域に関して限定された範囲内にあるデータ(例えば特徴面105の部分領域106,107)が入力されることができる。
図1には、具体例として、第2階層の特徴面105についての部分領域106,107が示されている(それぞれの領域は太線で表されている)。部分領域106は特徴面105の上側の部分領域であり、部分領域107は特徴面105の下側の部分領域である。図1に示すように、複数の部分領域(例えば部分領域106と部分領域107)は重複領域を含んでいてもよい。以下では、部分領域106のみを参照面として以降の演算を行うネットワークを第1部分ネットワークと呼び、部分領域107のみを参照面として以降の演算を行うネットワークを第2部分ネットワークと呼ぶ。第1部分ネットワークは、複数の部分ニューラルネットワークのうちの第1の部分ニューラルネットワークにあたり、第2部分ネットワークは、複数の部分ニューラルネットワークのうちの第2の部分ニューラルネットワークにあたる。
第1部分ネットワークには、特定階層の演算層の出力のうち、画像の第1の領域(例えば画像101の上側)に対応するデータ(図1の例では部分領域106のデータ)が入力される。すなわち、部分領域106に対しては、畳み込みフィルタ演算のフィルタカーネル108を適用することにより、畳み込みフィルタ処理が行われる。こうして、第1部分ネットワークの第3階層の出力として特徴面110が得られる。同様に、特徴面110に対しては、畳み込みフィルタ演算のフィルタカーネル111を適用することにより、畳み込みフィルタ処理が行われる。こうして、第1部分ネットワークの第4階層の出力として特徴面112が得られる。最後に、特徴面112に対して全結合演算を行うことにより、第1部分ネットワークから出力される特徴ベクトル113が得られる。
同様に、第2部分ネットワークには、特定階層の演算層の出力のうち、画像の第2の領域(例えば画像101の下側)に対応するデータ(図1の例では部分領域107のデータ)が入力される。すなわち、部分領域107に対してフィルタカーネル109を適用することにより、畳み込みフィルタ処理が行われ、第2部分ネットワークの第3階層の出力として特徴面114が得られる。さらに、特徴面114に対してフィルタカーネル115を適用することにより、畳み込みフィルタ処理が行われ、第2部分ネットワークの第4階層の出力として特徴面116が得られる。最後に、特徴面116に対して全結合演算を行うことにより、第2部分ネットワークから出力される特徴ベクトル117が得られる。
以上のような構成のCNNを用いることにより、画像101の上側の特徴(例えば目周辺の特徴)をよく表現した特徴ベクトルを第1部分ネットワークから得ることができる。また、画像101の下側の特徴(例えば口周辺の特徴)をよく表現した特徴ベクトルを第2部分ネットワークから得ることができる。上記のとおり、分岐面である特徴面105において、部分領域106(画像の第1の領域に対応するデータ)と、部分領域107(画像の第2の領域に対応するデータ)とは部分的に重なっていてもよい。また、画像の第1の領域と第2の領域とは部分的に重なっていてもよい。一方で、別の例として、分岐面である特徴面において、部分領域106(画像の第1の領域に対応するデータ)は、部分領域107(画像の第2の領域に対応するデータ)を包含していてもよい。また、画像の第1の領域は第2の領域を包含していてもよい。
本実施形態においては、画像101から分岐面(第2階層から出力される特徴面105)を得るまでは、画像101の上側及び下側に対して同じ処理が行われる。すなわち、ルートネットワークでは、画像101の全体に対して同じ処理が適用される。一方で、それぞれの部分領域に対しては、異なる部分ネットワークを用いて、異なる処理が適用される。
一般的に、ディープネットワークにおける階層処理では、入力に近い層では低次の視覚的特徴(エッジ等)が抽出され、出力層に近づくにつれてデータセットに特化した意味的な特徴が抽出されることが知られている。本実施形態において、入力される画像101は顔画像であり、入力層に近いルートネットワーク(第1〜第2階層)では、顔画像からエッジのような低次の特徴量が抽出される。この低次の特徴量は、顔画像中の位置(領域)によらず同一の処理を用いて抽出できる。一方で部分ネットワークでは、ルートネットワークで抽出された低次の特徴量の組み合わせを用いて、部分領域ごとの特徴量が算出される。例えば、分岐面の上側を入力として用いる第1部分ネットワークは、低次の特徴量を用いて顔の上側の特徴(例えば目周辺の特徴)を抽出する。同様に、分岐面の下側を入力として用いる第2部分ネットワークは、低次の特徴量を用いて顔の下側の特徴(例えば口周辺の特徴)を抽出する。顔の上側と下側とは見た目が異なるので、顔の上側の特徴量を算出するのに適した手法と、顔の下側の特徴量を算出するのに適した手法とは異なるものと考えられる。本実施形態においては、高次の特徴量を算出する上位階層(第三階層〜第五階層)を領域ごとに分割することで、領域ごとに識別に適した特徴量を抽出することができる。
続いて、本実施形態におけるCNNを用いる際に必要な演算リソース及び処理時間に関して説明する。ここで演算リソースとは、演算するのに必要なメモリ量のことを指し、これはパラメータ量(具体的には、畳み込みフィルタ演算に用いるフィルタカーネルの量、及び全結合層で用いる結合係数の量)と密接に関連する。また、処理時間は、必要な演算量(具体的には積和演算回数)に密接に関連する。
これまで詳細に説明してきたように、本実施形態において、CNNのルートネットワークを用いた処理は、複数の部分ネットワークを用いた処理に先立って、各部分領域に共通に行われる。したがって、部分ネットワークを用いた演算に必要なパラメータ量は部分領域の数(部分ネットワークの数)に比例して増加するが、ルートネットワークを用いた演算に必要なパラメータ量は部分領域の数によらず一定である。このため、部分領域の数が増加したとしても、CNN全体としてのパラメータ量の増加を抑制することができる。
また、各部分領域についてCNNを用いた処理を行うと、部分領域の数が増加した際の演算量の増加は、分岐面に設定される複数の部分領域の間の重複領域の大きさに応じて決まる。しかしながら本実施形態においては、重複領域が大きいほど、部分ネットワークにおける演算量は大きくなるものの、ルートネットワークにおける演算量は一定である。このように、入力された画像の各部分領域に対して独立のCNNを用いる場合と比較して、本実施形態のようなルートネットワークと部分ネットワークの組み合わせを用いることにより、CNN全体としての演算量の増加を抑制することができる。
図1には、重複領域が小さい2つの部分領域106,107の例を示したが、部分領域の設定方法はこれに限定されない。例えば、図2は、分岐面における部分領域の設定方法の別の例を示す。図2(A)〜(E)には、分岐面201に設定された部分領域202〜205の位置を示している。部分領域202〜205は、それぞれ分岐面201の上側、下側、左側、及び右側にある部分領域である。図2(E)では部分領域202〜205が重ねられており、斜線でハッチングされた領域206は3つの部分領域が重なっている領域を、格子模様でハッチングされた領域207は4つの部分領域が重なっている領域を表す。なお、図2では、面数の次元方向は省略されている。すなわち、図1で特徴面105は立体として表現されているが、簡略化のために図2で分岐面201は平面で表されている。
図2のように部分領域が設定されると、分岐面の大きさに対する重複領域の大きさの割合は大きくなる。しかしながら、このような場合であっても、ルートネットワークにおける演算量は、分岐面の階層に相当する各部分領域についての特徴面を得るために必要な演算量よりも、重複領域の面積の分だけ小さくなる。このため、部分領域の数が増加したとしても、CNN全体としての演算量の増加を抑制することができる。
以上詳細に説明したように、本実施形態の構成によれば、切り出し領域(部分領域)が複数あったとしても、CNNを用いた特徴ベクトル算出処理における必要な演算リソース又は処理時間を少なくすることができる。
そして、認識しようとするオブジェクトの種類に応じて、複数の切り出し領域のそれぞれに適した特徴ベクトル抽出処理を行うことにより、認識性能を向上させることができる。例えば、顔認識処理においては、図1に関して既に説明したように、切り出し領域を目、鼻、又は口等の器官の位置に応じて設定することで、器官の特徴をよく表現できるような特徴ベクトルを抽出できるという、第1の利点を得ることもできる。また、これとは別に、顔のオクルージョン(隠れ)に対してロバストな(オクルージョンの影響を受けにくい)顔認証が実現できるという、第2の利点を得ることもできる。一般に、画像中の顔の向きは一定ではなく、また顔の向きによっては顔の片側が隠れることもある。このような場合であっても、切り出し領域ごとに特徴ベクトルを抽出する方法を用いる場合、隠れていない領域の特徴ベクトルはこの領域の特徴をよく表現することが期待できる。例えば、顔の向きの検出を行うことなどにより顔のオクルージョン領域を特定すると、隠れていない領域から抽出した特徴ベクトルのみを用いて類似度算出及び顔認識を行うことができる。このように、過オクルージョンにロバスト(頑健)な顔認証を実現することが可能となる。
別の利点として、本実施形態のように構成されたネットワークを用いる場合、複数の部分ニューラルネットワークを、中間層において互いに演算結果を交換することなく独立に処理が行うことができるように構成することができる。すなわち、ある部分領域についての部分ネットワークを用いた演算結果は、他の部分領域についての部分ネットワークを用いた演算に使用されない。このように、それぞれの部分ネットワークを用いた演算は互いに独立に行うことができるため、並列処理により処理時間を短縮することができる。
[実施形態2]
実施形態1に係るネットワークに、分岐面が1つあり、この分岐面から先が複数の部分ネットワークに分割されていた。実施形態2に係るネットワークには、複数の分岐面があり、それぞれの分岐面から先が部分ネットワークに分割されている。すなわち、少なくとも1つの部分ニューラルネットワーク(第1部分ネットワーク)は、特定階層の演算層の出力のうち一部(部分領域106)を入力として処理を行う第1部分を有している。また、第1部分ネットワークはさらに、第1部分の出力(特徴面401)のうち互いに異なるデータ(部分領域402及び403)を入力として処理を行う第2部分及び第3部分を有している。
図4は、実施形態2に係るCNNの一例についての構成図である。図4において、図1と同様の部分には同じ参照符号が付されており、それらの説明は省略する。特徴面401は、実施形態1で説明した第1部分ネットワークの第3階層の出力であり、特徴面110と同様のものである。本実施形態においては、この特徴面401も分岐面となっている。特徴面401には、右側の部分領域402及び左側の部分領域403が設定されている(図中の太線はそれぞれの領域を表す)。図4の例では、部分領域402と部分領域403とは一部が重複している。以下では、部分領域402のみを参照面として以降の演算を行うネットワークを第1−1部分ネットワークと、部分領域403のみを参照面として以降の演算を行うネットワークを第1−2部分ネットワークと呼ぶ。
以降も、実施形態1と同様、部分領域402に対して畳み込みフィルタ演算のフィルタカーネル404を適用することにより、第4階層の出力として特徴面406が得られる。さらに、特徴面406に対して全結合演算を行うことにより、第1−1部分ネットワークから出力される特徴ベクトル407が得られる。さらに、部分領域403に対して畳み込みフィルタ演算のフィルタカーネル405を適用することにより、第4階層の出力として特徴面408が得られる。さらに、特徴面408に対して全結合演算を行うことにより、第1−2部分ネットワークから出力される特徴ベクトル409が得られる。
以上、本実施形態に係るCNNの構成を説明した。なお、実施形態1において、第2階層の出力である特徴面105のみを分岐面として設定し、特徴面105に3つの部分領域を設定することにより、本実施形態と同様に3つの部分領域についての特徴ベクトルを得ることもできる。一方で、本実施形態においては、第1−1部分ネットワーク及び第1−2部分ネットワークにおける処理を、第3階層まで共通化することができる。このため、演算リソース又は処理時間の増加をさらに抑制できる。
[実施形態3]
実施形態1,2では、学習により得られたCNNのパラメータ(例えば畳み込みフィルタ演算のフィルタカーネル又は全結合層の結合係数)を用いて認識処理を行う構成について説明した。実施形態3では、各実施形態に係るCNNのパラメータの学習装置及び学習方法を説明する。
パラメータの学習は、一般的には次のような手順で行うことができる。まず、特徴ベクトルからコストを算出するコスト関数が定義される。続いて、学習データ(例えば識別結果が既に得られている画像)をCNNに入力し、CNNから出力された特徴ベクトルをコスト関数に入力することにより、コストが算出される。こうして算出されたコストが小さくなるようにパラメータを調整することで、パラメータの学習が進められる。
コストとは、顔認証の失敗に対するペナルティを表すことができる。例えば、所望の特徴ベクトルが出力されればコストが小さく、所望の特徴ベクトルが出力されなければコストは大きくなるように、コスト関数を設計することができる。顔認証の例においては、2枚の顔画像が同一人物のものか否かを判定するために、2つの顔画像から得られる特徴ベクトルの距離を用いることができる。このような場合には、同一人物についての異なる顔画像について得られる特徴ベクトルは近似していることが望ましい。つまり、同一人物についての顔画像の特徴ベクトルは、ある半径を持つ超球の範囲内に入ることが望ましい。したがって、同一人物についての顔画像の特徴ベクトルが超球の範囲内に入れば小さなコストを出力し、入らない場合には大きいコストを出力するようなコスト関数を設計することができる。同時に、異なる人物についての顔画像の特徴ベクトル同士の距離は、この半径よりも離れていることが望ましい。このため、同一人物の場合とは逆に、他人の顔画像の特徴ベクトルが超球の範囲内に入れば大きなコストを出力し、入らない場合には小さいコストを出力するようなコスト関数を設計することができる。
このようにして設計されたコスト関数に対して、大量に用意した学習画像について算出された特徴ベクトルを投入した際に、なるべく小さなコストが出力されるようにパラメータを最適化することができる。コストが小さいということは、学習画像に対する顔認証の失敗が少ないことを意味する。このようにして、パラメータの最適化を行うことができる。最適化の具体的な手法としては、例えば誤差逆伝播法が知られている。
このような方法を実施形態1,2に適用する場合、複数の部分ニューラルネットワークのそれぞれからの出力に基づいて算出されるコストを小さくするように、畳み込みニューラルネットワークのパラメータの学習を行うことができる。例えば、複数の部分ニューラルネットワークからの出力の統合結果に基づいて算出されたコストを小さくするように学習を行うことで、畳み込みニューラルネットワークのパラメータを得ることができる。一実施形態に係る学習装置は、このような処理を行う学習手段を備えている。
以上説明したような学習手法を、実施形態1に係るCNNの学習に適用する方法について説明する。図1の例では、CNNからは2つの特徴ベクトル113,117が出力される。この2つの特徴ベクトルを連結して単一の特徴ベクトルを生成し、前述のコスト関数に入力すれば、同様にコストを求めることができる。このような方法で、パラメータの最適化(学習)を行うことが可能である。
別の方法として、部分ニューラルネットワークごとに算出されたコストを統合することにより、統合コストを求めることができる。例えば、2つの特徴ベクトルのそれぞれに対するコスト関数を定義することができ、2つのコスト関数のそれぞれから出力されるコストを統合することにより全体コストを得ることができる。そして、このように得られた全体コストを小さくするように学習を行うことにより、最適化されたパラメータを得ることができる。全体コストの算出方法としては、例えば、部分ニューラルネットワークごとに算出されたコストを、部分ニューラルネットワークごとに設定された重みを用いて重み付け加算する方法が挙げられる。
全体コストの算出は、部分領域の重要度を考慮して行うこともできる。例えば、顔認証の場合、目の周辺から得られる情報は、口の周辺から得られる情報よりも、認証のために有用であるという知見が存在する。この知見をコスト算出に反映させることにより、より精度のよいCNNを実現できることが期待される。このためには、目の領域から抽出された特徴ベクトル113から算出されるコストが、口の領域から抽出された特徴ベクトル117から算出されるコストよりも重視されるように、コスト関数を設計することができる。つまり、全体コストを算出する際の重み付き加算において、特徴ベクトル113から算出されるコストに対する重みを、特徴ベクトル117から算出されるコストに対する重みよりも重くすることができる。このようにコスト関数を設計した場合、目の領域から抽出された特徴ベクトル113を算出するネットワーク(第1部分ネットワーク)のパラメータが、全体コストに大きな影響を与える。したがって、パラメータの最適化においては、第1部分ネットワークのパラメータの最適化が重点的に進むことが期待される。この結果、目の周辺から抽出される特徴ベクトルの特徴表現能力が向上し、顔認証の精度が向上することが期待される。
以上のように、認証精度に与える各部分領域の重要度を予め調べておき、この重要度を反映したコスト関数を設計することで、認証精度を向上させることができる。一例としては、部分領域iについて設定された重要度をW(i)、部分領域iについてのコストをC(i)とすると、C(i)×W(i)をすべての部分領域にわたって加算した値を与えるようにコスト関数を設計することができる。
さらには、上記の部分ニューラルネットワークごとの重みも、学習により決定することができる。すなわち、全体コストを算出する際に用いる各部分領域の重要度(例えば上記の重みW(i))を学習で得る構成を用いることにより、学習により自動的に部分領域の重要度を考慮することが可能になる。顔認証時には、学習で得られた重みを用いて、部分領域ごとに得られる類似度を重みづけることも可能であり、このような方法によってもさらに顔認証の精度が向上することが期待される。
(その他の実施形態)
上記の実施形態では、複数の部分ニューラルネットワークは、互いに同じ演算層の階層構造を有していた。すなわち、ある分岐面以降の部分ネットワークは、お互いに同じネットワーク構造を有していた。例えば、図1において、第1及び第2部分ネットワークは同じ構造を有しており、具体的にはネットワークの階層数及び各階層の特徴面の数が同じであった。一方で、学習の結果、第1及び第2部分ネットワークにおいては各演算層の演算パラメータが互いに異なっており、このために部分領域ごとに適した特徴抽出を行うことが可能であった。しかしながら、本発明はこのような構成には限定されず、複数の部分ニューラルネットワークは、互いに異なる演算層の階層構造を有していてもよい。すなわち、分岐面以降の部分ネットワークが異なる構成を有していてもよい。
図5には、分岐面以降の部分ネットワークの構造がお互いに異なっている例を示す。図5において、図1と同様の部分には同じ参照符号が付されており、それらの説明は省略する。図5においても、第2階層の出力である特徴面105(分岐面)には部分領域106,107が設定されている。そして、それぞれ部分領域106及び107のみを参照面として以降の演算を行うネットワークを、第1及び第2部分ネットワークと呼ぶ。ここで、第2部分ネットワークでは、図1と同様に特徴面114,116を経て特徴ベクトル117が得られる。一方で、第1部分ネットワークでは、特徴面112に対して畳み込みフィルタ演算のフィルタカーネル501を適用することで特徴面502が得られる。また、特徴面502に対して畳み込みフィルタ演算のフィルタカーネル503を適用することで特徴面504が得られる。そして、特徴面504に対して全結合演算を行うことにより、特徴ベクトル505が得られる。このように、第1部分ネットワークでは、特徴面114,116,502,504を経て、第1部分ネットワークから出力される特徴ベクトル117が得られる。
このように、部分領域ごとにネットワーク構造(例えばネットワークの階層数又は各階層の特徴面の数)を変更することで、部分領域ごとに適した特徴抽出を行うことができる。前述のようにディープネットワークにおける階層処理では、階層処理を経るにつれ、抽出される特徴が低次の視覚的特徴(エッジ等)から高次の意味的な特徴へと移っていくことが知られている。したがって、例えば、部分領域ごとにネットワークの階層数を調節することで、部分領域ごとに適した抽象度を有する特徴ベクトルを抽出することができる。図5の場合、第1部分ネットワークの階層数は第2部分ネットワークよりも多いので、第1部分ネットワークからはより高次の情報を持つ特徴ベクトルを抽出することができる。
また、同じ部分領域(又は部分ネットワーク)から、異なる抽象度を有する特徴を抽出することもできる。このような例を図6に示す。図6において、図1と同様の部分には同じ参照符号が付されており、それらの説明は省略する。図6に示される例では、第2階層の出力である特徴面105(分岐面)の一部分である部分領域107に対して全結合演算を行うことで得られる特徴ベクトル601が示されている。特徴ベクトル601,117は、両者とも中間特徴面である部分領域107から得られた特徴ベクトルであるが、これらの特徴ベクトルが持つ情報の抽象度は異なると考えられる。このように、同一領域から異なる抽象度の特徴ベクトルを得ることにより、画像認識の精度が向上しうる。例えば顔認証の場合には、エッジ等の低次の情報で顔中のしわの有無を認識し、高次の情報で口の形状特徴を認識することができる。このように、多元的な特徴を抽出することで、認証性能が向上することが期待される。
既に説明したように、複数の部分ネットワークから出力された特徴ベクトルを組み合わせて、最終的な特徴ベクトルを算出することができる。すなわち実施形態1では、特徴ベクトル113,117を連結したベクトルが最終的な特徴ベクトルとして用いられ、類似度算出部305は最終的な特徴ベクトルと登録特徴ベクトルとの類似度を算出した。一方で、複数の部分ネットワークから出力された特徴ベクトルに対して、さらに全結合演算を行うことにより、最終的な特徴ベクトルを算出してもよい。図7には、それぞれの部分ネットワークから出力された特徴ベクトル113,117を連結したベクトルに対して、全結合演算を行うことにより得られる特徴ベクトル701が示されている。この例においては、特徴ベクトル701のサイズを特徴ベクトル113,117を連結したベクトルよりも小さくすることで、特徴ベクトル113,117中に存在する冗長な情報又はノイズが削減された特徴ベクトル701を得ることができる。また、より小さな特徴ベクトル701を用いることにより、類似度算出処理の計算量を低減すること、及び登録特徴ベクトルを格納するために必要なメモリを削減することができる。
CNNは、複数の部分ニューラルネットワークからの出力を統合する統合演算層を有していてもよい。この統合演算層は、上記のように複数の部分ネットワークから出力された特徴ベクトルを連結してもよいし、全結合演算を行うことにより最終的な特徴ベクトルを算出してもよい。実施形態3においては、このような統合演算層からの出力に基づいて算出されたコストを小さくするように学習を行うことで、畳み込みニューラルネットワークのパラメータを得ることもできる。
各実施形態に係るCNNは、プログラムとして表現することができる。例えば、各演算層における演算を記述するプログラムと、プログラム中に又はプログラムとは別のデータとして記録されているそれぞれの演算で用いられるパラメータと、を用いることにより、CNNを用いた処理を実現することができる。また、上述の情報処理システムや画像識別装置が有する各処理部の機能も、プログラムとして表現することができる。一方で、CNN及び処理部のうち一部又は全部の機能が、専用のハードウェアを用いて実現されてもよい。
プログラムとして表現されたCNN又は処理部の機能は、通常のコンピュータを用いて実現することができる。図8はコンピュータの基本構成を示す図である。図8においてプロセッサー801は、例えばCPUであり、コンピュータ全体の動作をコントロールする。メモリ802は、例えばRAMであり、プログラム及びデータ等を一時的に記憶する。コンピュータが読み取り可能な記憶媒体803は、例えばハードディスク又はCD−ROM等であり、プログラム及びデータ等を長期的に記憶する。本実施形態においては、記憶媒体803が格納している、各部の機能を実現するプログラムが、メモリ802へと読み出される。そして、プロセッサー801が、メモリ802上のプログラムに従って動作することにより、各機能が実現される。図8において、入力インタフェース804は外部の装置から情報を取得するためのインタフェースである。また、出力インタフェース805は外部の装置へと情報を出力するためのインタフェースである。バス806は、上述の各部を接続し、データのやりとりを可能とする。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
301:顔認証システム、302:検出部、303:特徴量算出部、304:格納部、305:類似度算出部、306:処理部

Claims (15)

  1. 演算層が階層的に複数接続されて構成された畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)であって、
    特定階層より後の階層にある演算層の処理を行う複数の部分ニューラルネットワークを有し、前記複数の部分ニューラルネットワークのそれぞれには、前記特定階層の同じ演算層の出力のうち、互いに異なるデータが入力されるように構成されていることを特徴とする、畳み込みニューラルネットワーク。
  2. 前記特定階層の演算層の出力は、三次元構造を有するデータとして表現され、
    前記部分ニューラルネットワークには、前記特定階層の演算層の出力のうち、前記三次元構造のうち少なくとも一つの次元方向に関して限定された範囲内にあるデータが入力されるように構成されていることを特徴とする、請求項1に記載の畳み込みニューラルネットワーク。
  3. 前記畳み込みニューラルネットワークは画像データが入力されるように構成され、
    前記部分ニューラルネットワークは、前記特定階層の演算層の出力のうち、画像領域に関して限定された範囲内にあるデータが入力されるように構成されていることを特徴とする、請求項1又は2に記載の畳み込みニューラルネットワーク。
  4. 前記複数の部分ニューラルネットワークのうちの第1の部分ニューラルネットワークは、前記特定階層の演算層の出力のうち、画像の第1の領域に対応するデータが入力され、
    前記複数の部分ニューラルネットワークのうちの第2の部分ニューラルネットワークは、前記特定階層の演算層の出力のうち、画像の第2の領域に対応するデータが入力され、
    前記第1の領域に対応するデータと前記第2の領域に対応するデータとは部分的に重複するように構成されていることを特徴とする、請求項3に記載の畳み込みニューラルネットワーク。
  5. 前記複数の部分ニューラルネットワークは、互いに同じ演算層の階層構造を有するが、各演算層の演算パラメータが互いに異なることを特徴とする、請求項1から4のいずれか1項に記載の畳み込みニューラルネットワーク。
  6. 前記複数の部分ニューラルネットワークは、互いに異なる演算層の階層構造を有することを特徴とする、請求項1から4のいずれか1項に記載の畳み込みニューラルネットワーク。
  7. 少なくとも1つの前記部分ニューラルネットワークは、前記特定階層の演算層の出力のうち一部を入力として処理を行う第1部分と、前記第1部分の出力のうち互いに異なるデータを入力として処理を行う第2部分及び第3部分と、を有していることを特徴とする、請求項1から6のいずれか1項に記載の畳み込みニューラルネットワーク。
  8. 前記複数の部分ニューラルネットワークは、中間層において互いに演算結果を交換することなく独立に処理が行うことができるように構成されていることを特徴とする、請求項1から7のいずれか1項に記載の畳み込みニューラルネットワーク。
  9. 前記複数の部分ニューラルネットワークからの出力を統合する統合演算層を有することを特徴とする、請求項1から8のいずれか1項に記載の畳み込みニューラルネットワーク。
  10. 前記畳み込みニューラルネットワークのパラメータは、前記部分ニューラルネットワークごとに算出されたコストを、前記部分ニューラルネットワークごとに設定された重みを用いて重み付け加算することにより算出される全体コストを小さくするように学習を行うことで得られたものであることを特徴とする、請求項1から9のいずれか1項に記載の畳み込みニューラルネットワーク。
  11. 前記部分ニューラルネットワークごとの重みも前記学習により決定されることを特徴とする、請求項10に記載の畳み込みニューラルネットワーク。
  12. 前記畳み込みニューラルネットワークのパラメータは、前記複数の部分ニューラルネットワークからの出力の統合結果に基づいて算出されたコストを小さくするように学習を行うことで得られたものであることを特徴とする、請求項1から9のいずれか1項に記載の畳み込みニューラルネットワーク。
  13. 請求項1から12のいずれか1項に記載の畳み込みニューラルネットワークに画像データを入力することにより画像の特徴量を抽出する抽出手段と、
    前記抽出手段が抽出した特徴量に基づいて前記画像の識別を行う処理手段と、
    を備えることを特徴とする画像識別装置。
  14. 請求項1から12のいずれか1項に記載の畳み込みニューラルネットワークを用いて画像の特徴量を抽出する工程と、
    抽出された前記特徴量に基づいて前記画像の識別を行う処理工程と、
    を有することを特徴とする画像識別方法。
  15. 演算層が階層的に複数接続されて構成された畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)の学習を行う学習装置であって、
    前記畳み込みニューラルネットワークは、特定階層より後の階層にある演算層の処理を行う複数の部分ニューラルネットワークを有し、前記複数の部分ニューラルネットワークのそれぞれには、前記特定階層の同じ演算層の出力のうち、互いに異なるデータが入力されるように構成されており、
    前記学習装置は、前記複数の部分ニューラルネットワークのそれぞれからの出力に基づいて算出されるコストを小さくするように、前記畳み込みニューラルネットワークのパラメータを学習する学習手段を備えることを特徴とする学習装置。
JP2018154214A 2018-08-20 2018-08-20 画像識別装置、画像識別方法、学習装置、及びニューラルネットワーク Active JP7257756B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018154214A JP7257756B2 (ja) 2018-08-20 2018-08-20 画像識別装置、画像識別方法、学習装置、及びニューラルネットワーク
US16/535,289 US11256953B2 (en) 2018-08-20 2019-08-08 Image identification apparatus, image identification method, training apparatus, and neural network having sub-neural networks respectively inputted with mutually different data
US17/583,706 US11948091B2 (en) 2018-08-20 2022-01-25 Image identification apparatus, image identification method, training apparatus, and neural network having sub-neural networks respectively inputted with mutually different data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018154214A JP7257756B2 (ja) 2018-08-20 2018-08-20 画像識別装置、画像識別方法、学習装置、及びニューラルネットワーク

Publications (3)

Publication Number Publication Date
JP2020030480A true JP2020030480A (ja) 2020-02-27
JP2020030480A5 JP2020030480A5 (ja) 2021-09-30
JP7257756B2 JP7257756B2 (ja) 2023-04-14

Family

ID=69522952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018154214A Active JP7257756B2 (ja) 2018-08-20 2018-08-20 画像識別装置、画像識別方法、学習装置、及びニューラルネットワーク

Country Status (2)

Country Link
US (2) US11256953B2 (ja)
JP (1) JP7257756B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10915734B2 (en) * 2018-09-28 2021-02-09 Apple Inc. Network performance by including attributes
US20210056357A1 (en) * 2019-08-19 2021-02-25 Board Of Trustees Of Michigan State University Systems and methods for implementing flexible, input-adaptive deep learning neural networks
CN111401291B (zh) * 2020-03-24 2023-07-14 盛景智能科技(嘉兴)有限公司 陌生人的识别方法和装置
JP7486349B2 (ja) * 2020-05-28 2024-05-17 キヤノン株式会社 ニューラルネットワーク、ニューラルネットワークの学習方法、プログラム、画像処理装置
TWI815616B (zh) * 2022-08-17 2023-09-11 所羅門股份有限公司 物件偵測方法及裝置、電腦可讀取的記錄媒體
CN115114033B (zh) * 2022-08-30 2022-12-06 上海芯算极科技有限公司 一种基于层数分割的异构计算方法及装置
CN116310745B (zh) * 2023-05-10 2024-01-23 北京瑞莱智慧科技有限公司 图像处理方法、数据处理方法、相关装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03268074A (ja) * 1990-03-19 1991-11-28 Hitachi Ltd パターン認識方式および装置
JP2014229015A (ja) * 2013-05-21 2014-12-08 富士ソフト株式会社 顔認識装置、顔認識方法、およびコンピュータプログラム
JP2017538195A (ja) * 2014-10-27 2017-12-21 イーベイ インク.Ebay Inc. 階層深層畳み込みニューラルネットワーク

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105849747B (zh) * 2013-11-30 2018-08-17 北京市商汤科技开发有限公司 用于人脸图像识别的方法和系统
US10062412B2 (en) * 2015-06-05 2018-08-28 Apple Inc. Hierarchical segmentation and quality measurement for video editing
US9552520B1 (en) * 2015-07-07 2017-01-24 Disney Enterprises, Inc. Systems and methods for automatic key frame extraction and storyboard interface generation for video
JP2017102671A (ja) * 2015-12-01 2017-06-08 キヤノン株式会社 識別装置、調整装置、情報処理方法及びプログラム
CN105677735B (zh) * 2015-12-30 2020-04-21 腾讯科技(深圳)有限公司 一种视频搜索方法及装置
WO2017166019A1 (en) * 2016-03-28 2017-10-05 Xiaogang Wang Method and system for pose estimation
CN108229363A (zh) * 2017-12-27 2018-06-29 北京市商汤科技开发有限公司 关键帧调度方法和装置、电子设备、程序和介质
US11577388B2 (en) * 2019-06-27 2023-02-14 Intel Corporation Automatic robot perception programming by imitation learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03268074A (ja) * 1990-03-19 1991-11-28 Hitachi Ltd パターン認識方式および装置
JP2014229015A (ja) * 2013-05-21 2014-12-08 富士ソフト株式会社 顔認識装置、顔認識方法、およびコンピュータプログラム
JP2017538195A (ja) * 2014-10-27 2017-12-21 イーベイ インク.Ebay Inc. 階層深層畳み込みニューラルネットワーク

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZONGTAO SONG: "Deep convolutional neural networks with adaptive spatial feature for person re-identification", 2017 IEEE 2ND ADVANCED INFORMATION TECHNOLOGY, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (IAEAC), JPN6022036360, 2017, pages 2020 - 2023, XP033158880, ISSN: 0004865179, DOI: 10.1109/IAEAC.2017.8054370 *
福井 宏: "Deep Learningを用いた歩行者検出の研究動向", 電子情報通信学会技術研究報告 パターン認識・メディア理解, vol. 第116巻,第366号, JPN6022036359, December 2016 (2016-12-01), pages 37 - 46, ISSN: 0004865178 *

Also Published As

Publication number Publication date
US20200057916A1 (en) 2020-02-20
US11256953B2 (en) 2022-02-22
JP7257756B2 (ja) 2023-04-14
US11948091B2 (en) 2024-04-02
US20220148300A1 (en) 2022-05-12

Similar Documents

Publication Publication Date Title
JP7257756B2 (ja) 画像識別装置、画像識別方法、学習装置、及びニューラルネットワーク
CN113449857B (zh) 一种数据处理方法和数据处理设备
KR102068576B1 (ko) 합성곱 신경망 기반 이미지 처리 시스템 및 방법
Duan et al. 3D point cloud denoising via deep neural network based local surface estimation
Ling et al. Balancing deformability and discriminability for shape matching
KR20160061856A (ko) 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치
KR20160072768A (ko) 영상 인식 방법, 영상 검증 방법, 장치, 및 영상 인식 및 검증에 대한 학습 방법 및 장치
Liu et al. A part‐aware surface metric for shape analysis
KR20180057096A (ko) 표정 인식과 트레이닝을 수행하는 방법 및 장치
CN109993730B (zh) 3d/2d血管配准方法及装置
Jemai et al. Pyramidal hybrid approach: Wavelet network with OLS algorithm-based image classification
KR20180055070A (ko) 재질 인식 및 재질 트레이닝을 수행하는 방법 및 장치
WO2018207334A1 (ja) 画像認識装置、画像認識方法および画像認識プログラム
KR102188732B1 (ko) 기하학적 모멘트 매칭을 통한 구 위에서의 적대적 생성망을 이용하는 데이터 처리 장치 및 방법
Pérez et al. An ensemble-based convolutional neural network model powered by a genetic algorithm for melanoma diagnosis
KR102166016B1 (ko) 이미지 대 이미지의 변환을 위한 도메인 인식 기반의 변환 기법
Verma et al. Two-stage multi-view deep network for 3D human pose reconstruction using images and its 2D joint heatmaps through enhanced stack-hourglass approach
Ostonov et al. Rlss: A deep reinforcement learning algorithm for sequential scene generation
KR20200023673A (ko) 백내장 진단을 위한 토너먼트 기반의 랭킹 컨볼루셔널 뉴럴 네트워크
JP7430254B2 (ja) 場所認識のための視覚的オブジェクトインスタンス記述子
Juhl et al. Implicit neural distance representation for unsupervised and supervised classification of complex anatomies
KR102504319B1 (ko) 영상 객체 속성 분류 장치 및 방법
Chen et al. Advanced ear detection algorithm using faster r-cnn, refocus filters, and the gradient map
Alwaely et al. Ghosm: Graph-based hybrid outline and skeleton modelling for shape recognition
CN112036446A (zh) 目标识别特征融合的方法、系统、介质及装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210820

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210820

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230404

R151 Written notification of patent or utility model registration

Ref document number: 7257756

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151