JP6967201B2 - 情報処理装置 - Google Patents
情報処理装置 Download PDFInfo
- Publication number
- JP6967201B2 JP6967201B2 JP2017185476A JP2017185476A JP6967201B2 JP 6967201 B2 JP6967201 B2 JP 6967201B2 JP 2017185476 A JP2017185476 A JP 2017185476A JP 2017185476 A JP2017185476 A JP 2017185476A JP 6967201 B2 JP6967201 B2 JP 6967201B2
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- identification
- image
- data
- resolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Description
これら、画像認識技術では、何らかの手法により画像データから特徴量を抽出し、これを識別対象(例えば、人物)の特徴量と比較することにより、当該画像データに識別対象が存在するか否かを判断している。
このような画像認識を行うものに非特許文献1、及び非特許文献2の技術がある。
この他に画像から特徴量を抽出する技術には、HOG特徴量より頑健性を有するCoHOG特徴量や、更に頑健性を有するMRCoHOG特徴量などがある。
この画像認識技術が半導体チップに実装できれば、車両や航空機などの移動体に搭載したり、あるいは携帯端末やウェアラブル端末に搭載したりなど、あらゆる場面での利用が見込まれる。
しかし、ニューラルネットワークは、教師信号を使用したバックプロパゲーションなどにより学習が行われるが、この学習処理は膨大な計算処理が必要であり、入力データ数(特徴量の次元数)が多くなると、莫大な量の計算が必要になるという問題がある。
また、ニューラルネットワークをハードウェアに実装する場合にも、入力データ数の増加は、回路の複雑化・大規模化が問題となる。
を具備したことを特徴とする情報処理装置。
(2)請求項2に記載の発明では、前記識別手段は、2値化された重み付けにより前記識別対象の学習が行われている、ことを特徴とする請求項1に記載の情報処理装置を提供する。
(3)請求項3に記載の発明では、前記選択手段は、RAdBなどの識別アルゴリズムにより予め指定された部分の特徴量を前記特徴量取得手段が取得した特徴量から選択する、
ことを特徴とする請求項1、又は請求項2に記載の情報処理装置を提供する。
(4)請求項4に記載の発明では、前記選択手段は、前記識別アルゴリズムにより予め指定された、前記識別手段による識別精度が高くなる部分の特徴量を前記特徴量取得手段が取得した特徴量から選択する、ことを特徴とする請求項3に記載の情報処理装置を提供する。
(5)請求項5に記載の発明では、前記特徴量取得手段は、特徴量抽出手段が識別対象データである画像データから抽出した輝度勾配の共起の分布に基づく特徴量を取得し、前記選択手段は、前記識別アルゴリズムにより予め指定された、前記特徴量抽出手段による抽出処理又は抽出回路構成を簡略化する部分の特徴量を前記特徴量取得手段が取得した特徴量から選択する、ことを特徴とする請求項3に記載の情報処理装置を提供する。
(6)請求項6に記載の発明では、前記識別手段は、バイナリニューラルネットワークである、ことを特徴とする請求項1に記載の情報処理装置を提供する。
(7)請求項7に記載の発明では、前記バイナリニューラルネットワークは、前記部分の特徴量を2値化して加算する加算器と、前記加算器の出力を計数するカウンタを用いて構成されていることを特徴とする請求項6に記載の情報処理装置を提供する。
画像認識装置200(図1)は、カメラ84で撮像した画像から特徴量を取得する画像処理装置21と、取得した特徴量を用いて、画像に所定の識別対象が存在するか否かを判定して、これを識別する識別装置201を備えている。
画像処理装置21は、画像から特徴量として、HOG特徴量、CoHOG特徴量、MRCoHOG特徴量、Haar−like特徴量等の各種特徴量を取得する。
識別装置201は、予め識別対象を学習したBNN(バイナリニューラルネットワーク)を備えており、画像処理装置21が取得した特徴量をBNNで2値計算することにより識別処理を行う。BNNによる識別対象の学習は、画像処理装置21が画像から取得した特徴量を入力データとし、当該画像から認識されるべき結果を教師信号として、ネットワークの重み付けを最適化したものである。
カメラ84で撮像した画像は、当該画像から画像処理装置21で高次元特徴量が取得され、学習済みのBNNに入力されることで、当該画像に対する認識結果が出力される。
第1実施形態では、この学習済みのBNNに対して、画像処理装置21が出力する高次元特徴量の全てを入力対象とするのではなく、高次元特徴量のうち識別に有効な部分を選択することで、識別処理に用いる次元(入力対象データ数)を減らしている。また、第2実施形態では、画像処理装置21が出力する低次元特徴量を複製して次元(入力対象データ数)を増やしている。第3実施形態では、第1実施形態と第2実施形態を組み合わせたもので、画像処理装置21が出力する高次元の特徴量のうち識別に有利な部分を選択すると共に、選択した特徴量を複製することで増やしている。
浮動小数点を用いた乗算などを要する一般のニューラルネットワークに比べて、BNNは、2値による加算で計算を行うことができ、また、特徴量の次元を選択・複製することにより、要求される識別精度を担保しつつ、識別に用いる特徴量の次元を適度に調節できるため、識別装置201を小規模で低消費電力のハードウェア回路に実装することができる。
図1は、本実施形態に係る画像認識装置200を実装したコンピュータ80の構成の一例を示した図である。
コンピュータ80は、例えば、車両に搭載されて、自動運転やナビゲーションなどの運転支援に用いられる。
なお、以下ではコンピュータ80が画像認識処理を行う場合について説明するが、この技術は、音声認識や医療診断など、人工知能が行う識別処理に広く適用することができる。
ROM82は、CPU81がコンピュータ80を動作させるための基本的なプログラムやパラメータなどを記憶した読み取り専用のメモリである。
RAM83は、CPU81がアプリケーション機能を発揮するためのワーキングメモリを提供する読み書きが可能なメモリである。
画像認識装置200が行った画像認識の識別結果は、RAM83に記憶され、アプリケーションプログラムに従って利用される。
画像処理装置21は、半導体装置71によって半導体チップ化(ICチップ化)されており、当該ICチップは、ビデオキャプチャボード86に実装されている。画像処理装置21の回路構成の詳細については後述する(図22等を参照)。
輝度勾配分布による特徴量としては、HOG特徴量(Histograms of Oriented Gradients)が有名であり、盛んに研究されている。
そして、近年、CoHOG特徴量よりも更に頑健性を有するMRCoHOG特徴量(Multi Resolution CoHOG)が提案されている。
MRCoHOG特徴量は、極めて高い頑健性を有していることが実験により明らかになってきている。
更に、別の特徴としてHaar−like特徴量というのも存在する。
画像処理装置21には、これらの特徴量を適用することができる。一例として、本明細書の後半部分でMRCoHOG特徴量を用いた画像処理装置21のハードウェア的な構成例について説明する。
また、画像処理装置21と識別装置201を半導体装置71に一体形成し、これをビデオキャプチャボード86に実装することもできる。
また、記憶装置85は、アプリケーションプログラムの動作設定などを記憶するデータ記憶部も備えている。
この動作設定は、例えば、画像認識装置200が人物を検出した場合に、ドライバにアラームを発するか否かといった内容がユーザによってなされたものである。
出力装置88は、コンピュータ80が各種の情報を出力する装置であり、例えば、操作画面を表示したり、カメラ84が撮影した動画上で画像認識装置200が検知した人物を矩形で囲って表示したりする液晶ディスプレイなどの出力デバイスで構成されている。
識別装置201は、BNN、即ち、2値化したニューラルネットワークによって特徴量を識別する。後述するように、識別装置201は、多値化した重み付けを用いて識別対象を学習した識別手段として機能する識別部231(図5、図12、図16)を備えている。
識別装置201で、BNNを用いたのは、一般の浮動小数点を用いたニューラルネットワークでは、乗算などを行うためハードウェア回路が大面積となってしまい、半導体装置への実装が困難なためである。
後述するように、BNNは、重みを1と−1の2値とし、加算器とカウンタなどを用いて構成できるため、回路面積が、例えば、浮動小数点を用いた場合の100分の1程度になり、ハードウェアへの実装が容易であると共に消費電力も小さくなる。更に、後述するように小規模な回路構成にもかかわらず、実用に十分耐えうる識別性能を発揮する。
BNN210は、入力ユニット211−i(i=1、2、3)からなる入力層と、隠れユニットを構成する中間ユニット213−j(j=1、2)からなる中間層(隠れ層)と、出力ユニット215−k(k=1、2、3)からなる出力層を有している。
なお、入力層、中間層、出力層を構成するユニットの数は、一例であって、任意の数とすることができる。
以下では、入力ユニット211−iを特に区別しない場合は、単に入力ユニット211と記すことにし、中間ユニット213と出力ユニット215についても同様とする。
また、中間ユニット213−jから出力ユニット215−kへの出力に対しても、{−1、1}の2値の何れかの値をとる計算の重みWkjが設定されている。
また、図では、変数x、y、z、wを小文字で記しているが、明細書中では、変数と添え字の視認性をよくするために、これらをX、Y、Z、Wの大文字で記す。
中間ユニット213の活性化関数は{−1、1}に2値化されており、中間ユニット213−jの出力Yjは、{−1、1}の2値の何れかをとる。
出力ユニット215−kは、中間ユニット213の出力を合計し、その符号を{−1、1}の2値で出力する。
出力ユニット215−kの出力Zkは、k番目の識別対象に対応している。例えば、出力ユニット215−1は、人物に対応しており、人物を識別した場合は、Z1=1を出力し、人物を検出しなかった場合は、Z1=−1を出力する。他の出力ユニット215も同様である。以下に、これらの演算について説明する。
入力ユニット211−iは、入力されたXiにWjiに基づく演算f(Xi、Wji)を行って中間ユニット213−jに出力する。この演算は、Xiの符号をWjiの符号に揃えるものであって、Wjiが1ならf(Xi、Wji)=Xiとなり、Wjiが−1ならf(Xi、Wji)=−Xiとなる。
図の例では、入力ユニット211−2、211−3が、それぞれf(X2、W22)とf(X3、W23)を計算して中間ユニット213−2に出力している。
図の例では、中間ユニット213−2は、入力ユニット211−2、211−3の出力値を加算している。
中間ユニット213−jは、式226中のXnor(Yj、Wkj)従ってYjとWkjの否定排他的論理和をとり、その結果を出力ユニット215−kに出力する。
具体的には、(Yj、Wkj)が(1、1)及び(−1、−1)の場合には、中間ユニット213−jは、出力ユニット215−kに1を出力し、その他の場合には−1を出力する。
図の例では、出力ユニット215−2は、中間ユニット213−1、213−2の出力値を式226で計算している。
例えば、入力層から入力した特徴量が人物の場合は、出力ユニット215−1が1で他の出力ユニット215が−1となり、背景の場合は、出力ユニット215−2が1で他の出力ユニット215が−1となり、他の対象物(例えば猫)の場合は、出力ユニット215−3が1で他の出力ユニット215が−1となるように設定されている。
このため、BNN210は、浮動小数点を用いた乗算を行う必要がなく、加算で済むため、回路構成が単純で回路面積を小さくすることができる。
このように、バイナリニューラルネットワーク(BNN210)は、特徴量を2値化して加算する加算器と、当該加算器の出力を計数するカウンタを用いて構成されている。
また、中間層のユニット数を入力層や出力層よりも少なく設定しているが、多く設定することもできる。中間層が少ない場合は、入力された特徴量をより絞り込むことができ、多い場合は、特徴量の次元が増えて識別対象が分離しやすくなる。中間層のユニット数は、このような性質を持っており、試行錯誤などにより適正な数が求められる。
また、BNN210は、2値で計算したが、3値以上の離散値で計算するように構成することも可能である。
図5は、本実施形態に係る識別装置201を説明するための図である。
識別装置201は、選択部230と識別部231を備えている。
画像処理装置21は、動画フレームの画像データから高次元の特徴量を抽出し、これを選択部230に出力する。
このように、画像処理装置21は、識別対象データ(画像データ)の特徴量を取得する特徴量取得手段として機能している。
なお、特徴量を高次元としたのは、高次元の場合に特に画像認識装置200が有効であるためであって、高次元でない特徴量を用いることも可能である。
このように、選択部230は、抽出により取得した特徴量から識別に使用する予め指定された部分を選択する選択手段として機能している。
高次元の特徴量を選択して間引くことにより、識別に用いる特徴量の成分を少なくすることができる。これによって、識別装置201の回路が小型化され、回路面積を低減することができる。また、これに伴って消費電力も小さくなる。
そして、本実施形態では、識別精度の向上に資する特徴量の部分をReal AdaBoost(以下、RAdBという)と呼ばれる識別器のアルゴリズムを用いて決定した。
RAdBは、選択する特徴量の成分の個数を指定すると、その個数分の成分を自動的に指定して出力する。このように本願発明者は、RAdBの新たな使用方法を開拓した。
そして、選択手段は、識別アルゴリズムにより予め指定された、識別手段による識別精度が高くなる部分を特徴量から選択している。
また、選択前特徴量233の入力端子列を入力層と見なし、選択後特徴量234の出力端子列と、入力ユニット211からなる入力層を2層からなる中間層と見なすことも可能であるため、学習の一環として、選択する成分を変化させながら識別精度が高くなる部分を探索してもよい。
即ち、特徴量のある成分の集合が、画像処理装置21のある回路に依存しており、その成分の集合を選択しなくても識別性能に与える影響が小さく、かつ、その回路を省略しても画像処理装置21が他の特徴量を計算できる場合、その集合に属する成分を、これを計算する回路ごと画像処理装置21から省略することができる。
この場合、特徴量取得手段は、特徴量抽出手段が識別対象データである画像データから抽出した輝度勾配の共起の分布に基づく特徴量を取得し、選択手段は、識別アルゴリズムにより予め指定された、特徴量抽出手段による抽出処理又は抽出回路構成を簡略化する部分を特徴量から選択している。
このように、識別部231は、選択した部分を識別手段に入力する入力手段を備えており、2値化された重み付けにより識別対象(この例では、人物と背景)の学習が既に行われているバイナリニューラルネットワークで構成されている。
このように、識別部231は、入力した部分を識別手段が用いて識別した識別結果を出力する出力手段を備えている。
次に、これらの実験について説明する。何れの実験もMR−CoHOG特徴量を用いて行った。
比較のために、識別装置201をRAdBで構成した場合の識別精度も記してある。
図に示したように、RAdBの場合の識別精度は、97.59%であった。
一方、中間層のユニット数を、1024、256、64、16、4、2、1と順次減らしていった場合の識別精度は、それぞれ、98.32%、98.29%、98.41%、98.31%、98.26%、98.12%、98.29%であった。
実験結果から分かるように、中間ユニット213の数が1個でも識別精度が98%以上有り、十分実用に耐えることができる。
図に示したように、RAdBの場合の識別精度は、97.59%であった。
一方、中間層のユニット数を、1024、256、64、16、4、2、1と順次減らしていった場合の識別精度は、それぞれ、98.37%、98.37%、97.97%、97.74%、97.39%、97.39%、97.05%であった。
実験結果から分かるように、中間ユニット213の数が1個でも識別精度が97%以上有り、十分実用に耐えることができる。
図に示したように、入力次元を、500、200、100、64、32、16、8、4と減らしていった場合の識別精度は、それぞれ、97.13%、95.79%、94.52%、93.30%、91.79%、90.03%、88.57%、83.96%であった。
以上、図6〜図8を用いて実験結果について説明したが、学習は、入力次元やユニット数を変化させるごとに行った。
Resisterは小容量のメモリであって、RAdBの場合は、137個のResisterを必要とするのに対し、識別装置201の場合は16個で足りる。
RAdBの場合は、1226個のLUTsを要するのに対し、識別装置201の場合は、8個で足りる。
Block RAMは、大容量のメモリであって、RAdBの場合は、2個のBlock RAMが必要であるのに対し、識別装置201の場合は、必要ない。
以上のように、従来から識別器として使用されているRAdBに比べて識別装置201は、小規模の回路で構成することができ、半導体装置化、即ち、ICチップ化に適している。
表に示したように、RAdBは、1024キロビットを要するのに対し、識別装置201は、0.5キロビット(選択する特徴量を500次元とした場合)で済む。
以下の処理は、画像処理装置21と識別装置201のハードウェア回路が行うものである。
まず、画像処理装置21が、カメラ84が出力した動画フレームの入力を受け付ける(ステップ105)。
次に、画像処理装置21が、回路に従って動画フレームを処理し、動画フレームの選択前特徴量233を抽出して識別装置201に出力する(ステップ110)。
次に、識別装置201は、選択後特徴量234をBNN210で計算することにより識別処理を行い、計算の結果得られた識別結果を出力する(ステップ125)。
この処理を終了するか否かの判断は、例えば、図示しないメニュー画面からユーザが終了を指示したか否かにより判断する。
(1)画像認識装置200は、BNN210を用いて識別を行う際に、高次元の特徴量から識別に重要な特徴を選択し、これをBNN210の入力層へ入力することができる。
非特許文献1の従来技術では、高次元特徴量を全て用いて計算を行っているため、処理コストが大きくなってしまうが、このように入力する特徴量の選択を行うことで、計算コスト・ハードウェアリソースを削減できる。
(2)識別部231にBNN210を用い、中間層(中間層への入力と中間層からの出力)に対する重みと活性化関数を2値化することにより処理コストの低減を図ることができる。また、BNN210はハードウェアに実装する際、加算器及びカウンタで計算できるため、小コストで実装することができる。
(3)識別に重要な特徴量の選択をRAdBを用いて指定することができる。これによって識別精度に有効に作用する特徴量の部分を選択するため、次元数と中間ユニット213の大幅な削減が可能となる。
(4)特徴量を選択して入力した場合でも高い識別性能を保つことができ、回路規模においてもRAdBより軽量に実装することができる。
(5)本実施形態では、識別装置201をハードウェアで実現したが、ソフトウェアで実現する場合も構築が容易となる。
画像処理装置21によっては、低次元の特徴量を用いる場合がある。
例えば、非特許文献2の技術では、低次元な特徴量(例えば約500次元)から識別を行うため、人物の検出精度に限界がある。
より高精度な検出を行う場合、高次元の特徴量を計算する必要があるが、そのまま全ての特徴量を計算すると計算コストが増大してしまう。
しかし、特徴量を高次元化したり、ニューラルネットワークを多値化すると、回路が複雑化し、回路面積が増大してしまう。
これに対して、本願発明者は、ニューラルネットワークは2値化のままで、低次元の特徴量を複製することにより識別精度を高めることに成功した。
以下、当該複製による画像認識処理について説明する。
画像認識装置200は、画像処理装置21と識別装置201から構成されており、識別装置201は、複製部240と識別部231を備えている。
画像処理装置21は、動画フレームから抽出した特徴量を複製部240に出力する。
一例として、画像処理装置21は、動画フレームから、100次元程度の低次元のHOG特徴量(即ち、成分が100個程度存在する)を抽出して複製部240に出力するものとする。
ここで、画像処理装置21は、識別対象を記録した記録データ(動画フレームの画像データ)から当該識別対象の特徴量を取得する特徴量取得手段として機能しており、識別装置201は、当該特徴量を識別対象データとして取得する識別対象データ取得手段を備えている。
そして、特徴量取得手段は、当該画像データにおける例えばHOG特徴量による輝度勾配の共起の分布を特徴量として取得している。
このように、複製部240は、識別対象データを複製する複製手段を備えている。
また、複製前特徴量243の出力先を複数の複製後特徴量244の端子にリダイレクトすることにより、複製前特徴量243を順次出力することによって各成分を複数回識別部231に入力してもよく、この場合も複製に含まれるものとする。
このように、識別部231は、複製した識別対象データを識別手段に入力する入力手段を備えており、2値化された重み付けにより識別対象(この例では、次に述べるように人物と背景)の学習が既に行われているバイナリニューラルネットワークで構成されている。
そして、このバイナリニューラルネットワークを構成するBNN210は、複製した識別対象データを多値化して加算する加算器と、加算器の出力を計数するカウンタを用いて構成されている。
このように、識別部231は、入力した識別対象データを用いて識別した識別結果を出力する出力手段を備えている。
後の実験結果が示すように、特徴量を複製することにより次元を増やして識別部231に入力すると識別精度が向上する。
これは、複製しない場合は、図13の左図に示したように、中間層での計算を重みと活性化関数を2値化するため、特徴量の1つの成分からネットワーク内部で表現できる値が{−X、X}に限られてしまうのに対し、2倍に複製した場合は、右図に示したように、表現できる値が{−2X、0、2X}というように増えるためである。3倍以上に複製すると、更に、表現できる値が増える。
オリジナルの画像データから取得した特徴量が100次元で複製を行わない場合、これを2倍に複製(1回複製)して200次元にした場合、更に、3倍に複製(2回複製)して300次元にした場合、4倍(3回複製)に複製して400次元にした場合、5倍に複製(4回複製)して500次元にした場合、及び、特徴量が500次元で複製を行わない場合の識別精度は、それぞれ、94.52%、95.56%、95.81%、96.18%、96.09%、97.13%であった。
このように、複製の数を増やすごとに識別精度が向上し、94.5%〜96%程度の識別精度を確保できるため、十分に実用に耐えることができる。
この実験により、高次元の特徴量を用いたり、ニューラルネットワークを3値以上に多値化したりしなくても、低次元の特徴量を複製するという簡単な処理により、識別精度が向上することが分かった。
以下の処理は、画像処理装置21と識別装置201のハードウェア回路が行うものである。
まず、画像処理装置21が、カメラ84が出力した動画フレームの入力を受け付ける(ステップ105)。
次に、画像処理装置21が、回路に従って動画フレームを処理し、動画フレームの特徴量(複製前特徴量243)を抽出して識別装置201に出力する(ステップ110)。
次に、識別装置201は、入力された複製後特徴量244に対して識別部231で計算し、計算の結果得られた識別結果を出力する(ステップ125)。
この処理を終了するか否かの判断は、例えば、図示しないメニュー画面からユーザが終了を指示したか否かにより判断する。
この場合、識別データ取得手段が取得する識別対象データは、動画フレームの画像データ(記録データに相当)となる。
また、特徴量の第1成分は、2個に複製し、第2成分は4個に複製し、といったように、成分ごとに複製する個数を変化させてもよい。
(1)BNN210を用いて識別を行う際、特徴量の複製を行い、これをBNN210の入力層へ入力する。入力する特徴量の複製を行うことでネットワーク内部で表現できる値を増やし、識別部231の識別性能の向上を図ることができる。
(2)識別部231にBNN210を用い、中間層での計算を重みと活性化関数を2値化することにより処理コストの低減を図ることができる。また、BNN210はハードウェアに実装する際、加算器及びカウンタで計算できるため、小コストで実装することができる。
(3)低次元な特徴量を入力する場合においても、新規に別の特徴量を抽出することなく複製を行うため、画像処理装置21における計算コストを削減することができる。
(4)BNN210は、ハードウェアに実装する際、加算器およびカウンタで構成できるため、特徴量の複製により入力を増やしたとしても低コストで実装することができる。
(5)本実施形態では、識別装置201をハードウェアで実現したが、ソフトウェアで実現する場合も構築が容易となる。
図16は、本実施形態に係る識別装置201を説明するための図である。
本実施形態の識別装置201は、第1実施形態と第2実施形態を組み合わせたものである。
識別装置201は、選択部230、複製部240、及び識別部231を備えており、これらの構成は、上の実施形態で説明したものと同様である。
これに応じて、複製部240は、選択部230から入力された特徴量を複製して識別部231に入力する。
そして、識別部231は、複製された特徴量を計算して画像認識対象を識別する。
なお、複製後特徴量244を設けずに、識別装置201内に配線を設け、識別装置201の入力手段が複製を行ってもよい。
以下の処理は、画像処理装置21と識別装置201のハードウェア回路が行うものである。
まず、画像処理装置21が、カメラ84が出力した動画フレームの入力を受け付ける(ステップ105)。
次に、画像処理装置21が、回路に従って動画フレームを処理し、動画フレームの特徴量(選択前特徴量233)を抽出して識別装置201に出力する(ステップ110)。
複製部240は、選択部230から入力された選択後特徴量234を複製前特徴量243として受け付け、これを複製して(ステップ150)、複製後特徴量244を識別部231に入力する(ステップ120)。
次に、識別装置201は、複製された特徴量を識別部231のBNN210で計算することにより識別処理を行い、計算の結果得られた識別結果を出力する(ステップ125)。
この処理を終了するか否かの判断は、例えば、図示しないメニュー画面からユーザが終了を指示したか否かにより判断する。
以上のように、選択の後に複製を行ったが、複製部240と選択部230の順番を入れ替えて、特徴量の複製後に選択を行ってもよい。
(第11構成)
識別対象データの特徴量を取得する特徴量取得手段と、前記特徴量取得手段が取得した特徴量から、識別に使用する予め指定された部分の特徴量を選択する選択手段と、多値化した重み付けを用いて識別対象を学習した識別手段と、前記選択手段が選択した部分の特徴量を前記識別手段に入力する入力手段と、前記識別手段が、前記入力手段が入力した部分の特徴量を用いて識別した識別結果を出力する出力手段と、を具備したことを特徴とする情報処理装置。
(第12構成)
前記識別手段は、2値化された重み付けにより前記識別対象の学習が行われている、ことを特徴とする第11構成に記載の情報処理装置。
(第13構成)
前記選択手段は、RAdBなどの識別アルゴリズムにより予め指定された部分の特徴量を前記特徴量取得手段が取得した特徴量から選択する、ことを特徴とする第11構成又は第12構成に記載の情報処理装置。
(第14構成)
前記選択手段は、前記識別アルゴリズムにより予め指定された、前記識別手段による識別精度が高くなる部分の特徴量を前記特徴量取得手段が取得した特徴量から選択する、ことを特徴とする第13構成に記載の情報処理装置。
(第15構成)
前記特徴量取得手段は、特徴量抽出手段が識別対象データである画像データから抽出した輝度勾配の共起の分布に基づく特徴量を取得し、前記選択手段は、前記識別アルゴリズムにより予め指定された、前記特徴量抽出手段による抽出処理又は抽出回路構成を簡略化する部分の特徴量を前記特徴量取得手段が取得した特徴量から選択する、ことを特徴とする第13構成に記載の情報処理装置。
(第16構成)
前記識別手段は、バイナリニューラルネットワークである、ことを特徴とする第11構成から第15構成までのうちの何れか1の構成に記載の情報処理装置。
(第17構成)
前記バイナリニューラルネットワークは、前記部分の特徴量を2値化して加算する加算器と、前記加算器の出力を計数するカウンタを用いて構成されていることを特徴とする第16構成に記載の情報処理装置。
(第18構成)
前記選択手段が選択した部分の特徴量を複製する複製手段を具備し、前記入力手段は、前記選択手段が選択した部分の特徴量と前記複製手段が複製した部分の特徴量を前記識別手段に入力する、ことを特徴とする第11構成から第16構成までのうちの何れか1の構成に記載の情報処理装置。
識別対象データを取得する識別対象データ取得手段と、多値化した重み付けを用いて識別対象を学習した識別手段と、前記識別対象データ取得手段が取得した識別対象データを複製する複製手段と、前記複製手段が複製した識別対象データを前記識別手段に入力する入力手段と、前記識別手段が、前記入力手段が入力した識別対象データを用いて識別した識別結果を出力する出力手段と、を具備したことを特徴とする情報処理装置。
(第22構成)
前記識別手段は、2値化された重み付けにより前記識別対象の学習が行われている、ことを特徴とする第21構成に記載の情報処理装置。
(第23構成)
前記識別手段は、バイナリニューラルネットワークである、ことを特徴とする第21構成、又は第22構成に記載の情報処理装置。
(第24構成)
識別対象を記録した記録データから当該識別対象の特徴量を取得する特徴量取得手段を具備し、前記識別対象データ取得手段は、前記特徴量取得手段が取得した特徴量を識別対象データとして取得することを特徴とする第21構成、第22構成、又は第23構成に記載の情報処理装置。
(第25構成)
前記記録データは、画像データであり、前記特徴量取得手段は、前記画像データにおける輝度勾配の共起の分布を前記特徴量として取得することを特徴とする第24構成に記載の情報処理装置。
(第26構成)
前記バイナリニューラルネットワークは、前記複製手段が複製した識別対象データを多値化して加算する加算器と、前記加算器の出力を計数するカウンタを用いて構成されていることを特徴とする第23構成に記載の情報処理装置。
以上、識別装置201について3つの実施形態について説明したが、以下では、画像認識装置200を構成するもう一つの要素である画像処理装置21について説明する。
(1)識別装置201の概要
画像処理装置21(図22)は、高解像度画像から輝度勾配方向を抽出する3ラインバッファ25a〜バッファ28aから構成された高解像度画像用の処理ライン、中解像度画像から輝度勾配方向を抽出する中解像度部24b〜バッファ28bから構成された中解像度画像用の処理ライン、及び低解像度画像から輝度勾配方向を抽出する低解像度部24c〜バッファ28cから構成された低解像度画像用の処理ラインを並列に配設しており、これら3つの解像度の画像から並行して同時に輝度勾配方向を画素ごとに抽出する。
3つの解像度の画像を同時に処理するため、高速に処理でき、カメラから出力される動画をリアルタイムで処理することができる。
まず、HOG特徴量、CoHOG特徴量、及びMRCoHOG特徴量について簡単に説明する。
図18は、HOG特徴量の概念を説明するための図である。
HOG特徴量は、次の手順により画像から抽出される。
図18(a)左図に示した画像101は、対象を観測する観測窓などによる注目画像領域とする。
まず、画像101を矩形のセル102a、102b、・・・に分割する。
次に、図18(a)右図に示したように、セル102ごとに各画素(ピクセル)の輝度勾配方向(低輝度から高輝度に向かう方向)を例えば8方向に量子化する。
そして、セル102をいくつか集めたブロック単位でヒストグラム106の合計度数が1となるように正規化する。
このようにして正規化したヒストグラム106a、106b、・・・を図18(c)のように一列に並べたヒストグラムが画像101のHOG特徴量107である。
CoHOG特徴量は、局所領域における2画素間の勾配ペアに着目した特徴量であり、次の手順により画像から抽出される。
図19(a)に示したように、画像101を矩形のセル102a、102b、・・・に分割する。なお、セルは、ブロックとも呼ばれる。
なお、注目画素110の上と左の画素が組合せに含まれないのは、一番上の画素行の左端から右方向に向けて順に注目画素110を設定して処理していくため、既に処理が終了しているからである。
注目画素110の輝度勾配方向は、右方向で画素1aの輝度勾配方向は、右上方向である。
そこで、図19(b)の共起行列113で、(行番号、列番号)=(右方向、右上方向)の要素に一票を投じる。
図19(b)の例では、注目画素110と画素1aの輝度勾配方向の組みとして、行番号として右方向の矢印が記載された行と、列番号として右上方向の矢印が記載された列の要素に1が加算された結果、当該要素の値が10になっている。
以下、同様に注目画素110と画素1b、1c、1dとの組合せによる投票(計数)を行う。
これらについても同様に注目画素110と組合せて共起行列113に投票する。
更に、これを全てのセル102で行い、全ての共起行列の成分を図19(d)に示したように一列に並べたヒストグラムが画像101のCoHOG特徴量117である。
MRCoHOG特徴量は、同じ画像の異なる解像度間で共起をみることでオフセット数を大幅に削減する。
まず、図20(a)に示したように、元画像から解像度(画像サイズ)の異なる画像を生成することにより高解像度画像120(元画像)、中解像度画像121、低解像度画像122を得る。画像中の升目は、画素を表している。図示しないが、これら各解像度画像にもセル(ブロックとも呼ばれる)が設定されている。
そして、高解像度画像120、中解像度画像121、及び低解像度画像122のそれぞれの画素について量子化した輝度勾配方向を計算する。
この処理を、高解像度画像120のセル内の各画素に対して行い、更に、全てのセルについて行う。
これにより、高解像度画像120の画素ごとの共起行列が得られる。
また、何れか2つを組合せてもよいし、更に、解像度を増やして4種類以上の解像度画像で共起をとってもよい。
これは、解像度を低下させることによりノイズが低減することと、注目画素から離れた部分との共起を見るためではないかと推測されている。
MRCoHOG特徴量を算出するためには、平方根、除算、逆正接を計算する必要がある。
ところが、コンピュータは、加算によって平方根などの各種計算をするため、これらの演算は、負荷が大きい。
そのため、計算速度を高速化したり、ICチップ化できるように回路規模を適正なものにするためには、ハードウェアに適した計算方法を考案する必要がある。
図21(a)の式(1)のm(x、y)は、座標(x、y)にある画素の輝度勾配の勾配強度の計算式を示している。
なお、文字化け防止のために、下付の小文字は、全角文字で表す。
fx(x、y)、fy(x、y)は、数学的には、輝度をx方向、y方向に偏微分して求めるが、本実施形態では、fx(x、y)を着目画素の水平方向(左右横方向)両隣に隣接する画素の輝度の差分で表し、fy(x、y)を着目画素の垂直方向(上下縦方向)両隣に隣接する画素の輝度の差分で表す。
この置き換えは、図21(a)の右図に示したように、地点TU間のユーグリッド距離である(t自乗+u自乗)の平方根を、マンハッタン距離であるt+uで近似するものである。名称のマンハッタンは、米国都市のマンハッタンの街路が碁盤の目状であることに由来する。
勾配強度が所定の閾値に達しないものに関しては、例えば、共起を取らないなどの所定の処理を行うが、画像の識別精度に与える影響が小さいため、本実施形態では、当該処理については説明を省略する。
実験の結果、ユーグリッド距離をマンハッタン距離で置き換えても画像認識能力には、殆ど影響しないことが確認された。
式(3)は、fx(x、y)によるfy(x、y)の除算と、逆正接(arctangent)の計算が含まれているため、計算に必要な処理負荷が大きくなる。
そこで、本実施形態では、MRCoHOG特徴量の計算で必要なのは、式(3)による正確な値ではなく、量子化された輝度勾配方向であることに着目し、式(3)を用いずに、fx(x、y)とfy(x、y)の組と輝度勾配方向を対応させた対応テーブルを用意し、これによってfx(x、y)とfy(x、y)の組を量子化された輝度勾配方向に写像する。
本実施形態では、一例として、輝度勾配方向を8方向に量子化するものとする。
ここでは、図21(c)に示すように、輝度勾配方向θが0°≦θ<45°のものは0°に量子化し、45°≦θ<90°のものは45°に量子化し、他の角度も同様に、90°、135°、180°、225°、270°、315°に量子化するものとする。
分類aはfx(x、y)とfy(x、y)が共に正の場合、分類bはfx(x、y)とfy(x、y)が共に負の場合、分類cはfx(x、y)か正でfy(x、y)が負の場合、分類dは、fx(x、y)が負でfy(x、y)が正の場合である。
分類がaで、yがx以下の場合は、0°に対応させ、yがxより大きい場合は、45°に対応させる。
分類がbで、−yがx以下の場合は、90°に対応させ、−yがxより大きい場合は、135°に対応させる。
分類がdで、−yがx以上の場合は、270°に対応させ、−yがxより小さい場合は、315°に対応させる。
このように、本実施形態では、分類11、12によって構成される対応テーブルを参照することにより、逆正接や除算を使用せずに、高速に量子化された輝度勾配方向を得ることができる。
画像処理装置21は、半導体装置として、例えば、半導体チップの上に形成されている。
画像処理装置21は、3ラインバッファ25a〜バッファ28aから構成された高解像度画像処理ラインと、中解像度部24b〜バッファ28bから構成された中解像度画像処理ラインと、低解像度部24c〜バッファ28cから構成された低解像度画像処理ラインを備えている。
これらのパイプラインは、並列に配設されており、高中低解像度の画像を同時に並行処理するため、高速に処理することができる。
画像処理装置21は、クロックに同期して、これらの解像度別勾配方向出力手段を同時に動作させることにより、解像度別の勾配方向を並行して順次出力することができる。
MRCoHOG特徴量を計算するには、画像を構成する各画素の輝度データが有ればよい。
そのため、本実施形態では、YUYV形式で形成された画像から、画素のY(輝度)を抽出してこれを輝度データとして画像処理装置21に入力する。
以下では、画像のi行目j列の画素の輝度データや後述の勾配方向データを(i−j)などと対応する画素の行番号と列番号で表すことにする。
なお、本実施形態では、予めYUYV形式の画像から輝度データYを抽出し、これを画像として画像入力部23に入力するが、画像入力部23、あるいは、勾配方向算出部26a、26b、26cで画素データから輝度成分を抽出するように構成してもよい。
なお、図22では、高解像度の輝度データの配線を太線の矢線で表し、中解像度の輝度データの配線を細線の矢線で表し、低解像度の輝度データの配線を点線で示している。
これらの解像度変換回路により、画像40から解像度が1/2、1/4の画像が生成される。
なお、画像40は、解像度を変換せずにそのまま高解像度画像としても使用される。
最近隣接補間は、リサイズ前の画素を抜き出してそのまま使う方法であり、バイリニア補間は、対象画素を中心とする2×2の領域を加重平均する方法であり、バイキュビック補間は、対象画素を中心とする4×4の領域を3次関数によって補完する方法である。
画像処理装置21では、計算が単純で、更に、検出精度が高まる(後述)最近隣接補間を採用した。
中解像度部24bは、図23(a)の画像40bに示したように、画像入力部23が送信してくる画像40の輝度データのうち、斜線で示した1つおきの頻度で輝度データを読み込み、その他の輝度データを読み飛ばすことにより、垂直方向・水平方向の輝度データが1つおきとなった解像度1/2の画像データを生成する。
最近隣接補間を採用したため、不要なデータを読み飛ばし、必要なデータを拾うという計算負荷の小さい簡単な処理によって解像度を変更することができる。
これらの処理ラインは、これらの輝度データを用いて各解像度における勾配方向を出力する。
縦軸と横軸は、それぞれ再現率と誤検出率となっており、曲線の下側の面積が大きいほど識別率がよいことを示している。
このように最近隣接補間は、処理が簡単なのでハードウェア実装に向いているのに加えて、識別率も大いに向上する。
勾配方向算出部26aは、3行分の輝度データを用いて高解像度画像における注目画素の輝度勾配方向を表す勾配方向データを出力する回路である。
勾配方向算出部26bは、3行分の輝度データを用いて中解像度画像における注目画素の輝度勾配方向を表す勾配方向データを出力する回路である。
勾配方向算出部26cは、3行分の輝度データを用いて低解像度画像における注目画素の輝度勾配方向を表す勾配方向データを出力する回路である。
図24(a)を用いて先に説明したように、画像入力部23からは、高解像度画像の画像40の輝度データが(0−0)、(0−1)、・・・と出力される。
図24(b)の例では、画像40の2行目の輝度データ(1−0)、(1−1)、(1−2)、・・・と、3行目の輝度データ(2−0)、(2−1)、(2−2)、・・・と、4行目の輝度データ(2−0)、(2−1)、(2−2)、・・・を画素の列を揃えながら並行して勾配方向算出部26aに出力している場合を表している。
図に示したように、勾配方向算出部26aは、3行3列の記憶素子の配列を備えており、3ラインバッファ25aの出力に同期して3行3列分の輝度データを取り込んで、これら輝度データによる輝度を読み取る。
m(x、y)が閾値に達している場合は、fx(x、y)、fy(x、y)を対応テーブルで参照して、当該画素の量子化した輝度勾配方向を表す勾配方向データ(2−1)を出力する。
このように、勾配方向データは、輝度データと同様に画素に対応して生成される。
このように、勾配方向算出部26aは、クロックごとに勾配方向データを順次出力する。
また、勾配方向算出部26aは、最後の列に達すると、行が1つ分進み、次の行の輝度データを注目画素とする勾配方向データを出力する。
これら注目画素の位置や隣接画素の位置を通過する順序は、画像入力部23が輝度データを出力した順序によって定まる。
そして、解像度別勾配方向出力手段は、隣接画素の位置が対応づけられた配列に、当該解像度の輝度の出力順序に基づいて輝度を配置することにより、隣接画素の輝度を特定している。
この処理は、後に共起行列作成部30aなどで共起を読み取る際のタイミングを合わせるためのものである。
データ51は、データ延ばし前の勾配方向データの構成を示している。各升目が各勾配方向データを表しており、これらが対応する画素の順に並べられている。
データ51の各行を複製して、複製元の行と隣接させて配置すると、垂直方向に2倍に伸ばしたデータ52と、4倍に伸ばしたデータ53が得られる。
また、縦方向4倍部27cは、勾配方向算出部26cから出力された低解像度画像の勾配方向データを行ごとに複製して縦方向に4倍に延ばす。
タイミングコントローラ29は、これら各解像度画像の勾配方向データがバッファ28a、28b、28cに揃うまで待機し、これらが揃ったら出力する。
これにより、解像度変更によってずれてしまった各解像度画像ごとの出力タイミングを揃えることができる。
これらの配線は、それぞれ、共起行列作成部30a、30b、30cと接続しており、これによって、解像度画像別の勾配方向データが共起行列作成部30a、30b、30cに送信される。
データ列55、56、57は、それぞれ、タイミングコントローラ29が、高解像度画像、中解像度画像、低解像度画像の勾配方向データを出力するタイミングを表している。
これに対して、中解像度画像の勾配方向データに対しては、データ列56に示されるように、1番目のデータを1回、2番目のデータから15番目のデータをそれぞれ2回ずつ、16番目のデータを1回、高解像度の出力タイミングに合わせて出力する。
また、低像度画像の勾配方向データに対しては、データ列57に示されるように、1番目のデータを3回、2番目のデータから7番目のデータを4回ずつ、8番目のデータを3回、高解像度の出力タイミングに合わせて出力する。
なお、データ列55とデータ56の最初と最後における出力回数がそれぞれ2回ずつ、4回ずつでないのは、データ列55による幅と同じ幅に調整するためである。
これにより、中解像度画像、低解像度画像の勾配方向データが水平方向に、それぞれ2倍、4倍に伸ばされる。
共起行列作成部30a、30b、30cは、それぞれ、高解像度画像、中解像度画像、低解像度画像の画素を注目画素とする共起行列を作成する。
ヒストグラム作成部31は、共起行列作成部30a、30b、30cから出力される共起行列からMRCoHOG特徴量を作成する回路である。
これにより、共起行列作成部30a、30b、30cから出力される共起行列を選択するなど、より柔軟な運用が可能となり、汎用性が向上する。
共起行列作成部30aは、タイミングコントローラ29から送信されてくる勾配データを解像度別に2行に渡って記憶する、高解像度画像用の2ラインバッファ61a、中解像度画像用の2ラインバッファ61b、低解像度画像用の2ラインバッファ61cを備えている。
勾配方向データの位置を示す符号は、図20(c)の位置の符号に対応させてある(勾配方向は対応していない)。また、注目画素に対応する勾配方向データを太線の矩形で囲み、投票のためにこれと組合せる相手の画素の勾配方向データを○で囲んである。
なお、画像入力部23が輝度データを出力した順に配置するため、2ラインバッファ61a、61b、61cでの配置は、図20(c)と左右が逆になっている。
まず、共起行列作成部30aは、注目画素125の勾配方向データと画素1a〜1dの勾配方向データとの組合せに基づいて共起行列記憶部62に投票する。
これにより、共起行列作成部30aは、画素1aに対応する勾配方向データを注目画素125の位置に配置し、これを用いた投票を共起行列記憶部62に対して行う。
出力された共起行列によるヒストグラムは、ヒストグラム作成部31にて連結され、高解像度画像の画素を注目画素とした場合のMRCoHOG特徴量となる。
このようにして動画カメラから出力される画像をリアルタイムで処理することができる。
まず、画像入力部23が画像40の輝度データを出力し、中解像度部24bと低解像度部24cが、中解像度、低解像度に解像度を変換した輝度データを出力する(ステップ5)。
また、勾配方向算出部26a、26b、26cが、それぞれ、高解像度画像、中解像度画像、低解像度画像の画素の勾配方向を算出し、勾配方向データを出力する(ステップ15)。
なお、ステップ5、10、15の各処理は並行して同時に行われる。
高解像度画像の勾配方向データ、2倍に垂直に伸ばされた中解像度画像の勾配方向データ、及び4倍に垂直に伸ばされた低解像度画像の勾配方向データは、それぞれ、バッファ28a、28b、28cにバッファリングされる。
タイミングコントローラ29は、この際に、中解像度画像と低解像度画像の勾配方向データを水平方向に2倍、4倍に伸ばして出力する(ステップ25)。
更に、ヒストグラム作成部31が、作成された共起行列からヒストグラムを作成し、これをMRCoHOG特徴量として出力する(ステップ35)。
以上、各回路の動作を個別に説明したが、各回路は、クロックに同期して一斉に動作しており、左から流れてきたデータを順次(逐次)処理して右に流す流れ作業を同時に行っている。
半導体装置71は、例えば、ICチップによって構成されており、プロセッサ、RAM、MRCoHOGアクセラレータ72、アフィンアクセラレータ、ヒストグラムアクセラレータ、ビデオ入力インターフェース73、ビデオ出力インターフェース74、入出力インターフェース75などが内部に形成されている。
あるいは、ビデオ出力インターフェース74から動画データを出力すると共にMRCoHOG特徴量を入出力インターフェース75から出力して、外部機器により対象の画像認識を行ってもよい。
11、12 分類
21 画像処理装置
23 画像入力部
24b 中解像度部
24c 低解像度部
25a、25b、25c 3ラインバッファ
26a、26b、26c 勾配方向算出部
27b 縦方向2倍部
27c 縦方向4倍部
28a、28b、28c バッファ
29 タイミングコントローラ
30a、30b、30c 共起行列作成部
31 ヒストグラム作成部
40 画像
51、52、53 データ
55、56、57 データ列
61a、61b、61c 2ラインバッファ
62 共起行列記憶部
71 半導体装置
72 MRCoHOGアクセラレータ
73 ビデオ入力インターフェース
74 ビデオ出力インターフェース
75 入出力インターフェース
80 コンピュータ
81 CPU
82 ROM
83 RAM
84 カメラ
85 記憶装置
86 ビデオキャプチャボード
87 入力装置
88 出力装置
101 画像
102 セル
106 ヒストグラム
107 HOG特徴量
109a、109b、109c ベクトル
110 注目画素
113 共起行列
117 CoHOG特徴量
120 高解像度画像
121 中解像度画像
122 低解像度画像
125 注目画素
127 MRCoHOG特徴量
200 画像認識装置
201 識別装置
210 BNN
211 入力ユニット
213 中間ユニット
215 出力ユニット
220、221 部分
225、226 式
230 選択部
231 識別部
233 選択前特徴量
234 選択後特徴量
240 複製部
243 複製前特徴量
244 複製後特徴量
Claims (7)
- 識別対象データの特徴量を取得する特徴量取得手段と、
前記特徴量取得手段が取得した特徴量から、識別に使用する予め指定された部分の特徴量を選択する選択手段と、
前記選択手段が選択した部分の特徴量を複製する複製手段と、
多値化した重み付けを用いて識別対象を学習した識別手段と、
前記選択手段が選択した部分の特徴量と前記複製手段が複製した特徴量を前記識別手段に入力する入力手段と、
前記識別手段が、前記入力手段が入力した部分の特徴量を用いて識別した識別結果を出力する出力手段と、
を具備したことを特徴とする情報処理装置。 - 前記識別手段は、2値化された重み付けにより前記識別対象の学習が行われている、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記選択手段は、RAdBなどの識別アルゴリズムにより予め指定された部分の特徴量を前記特徴量取得手段が取得した特徴量から選択する、
ことを特徴とする請求項1、又は請求項2に記載の情報処理装置。 - 前記選択手段は、前記識別アルゴリズムにより予め指定された、前記識別手段による識別精度が高くなる部分の特徴量を前記特徴量取得手段が取得した特徴量から選択する、
ことを特徴とする請求項3に記載の情報処理装置。 - 前記特徴量取得手段は、特徴量抽出手段が識別対象データである画像データから抽出した輝度勾配の共起の分布に基づく特徴量を取得し、
前記選択手段は、前記識別アルゴリズムにより予め指定された、前記特徴量抽出手段による抽出処理又は抽出回路構成を簡略化する部分の特徴量を前記特徴量取得手段が取得した特徴量から選択する、
ことを特徴とする請求項3に記載の情報処理装置。 - 前記識別手段は、バイナリニューラルネットワークである、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記バイナリニューラルネットワークは、前記部分の特徴量を2値化して加算する加算器と、前記加算器の出力を計数するカウンタを用いて構成されていることを特徴とする請求項6に記載の情報処理装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017185476A JP6967201B2 (ja) | 2017-09-26 | 2017-09-26 | 情報処理装置 |
PCT/JP2018/035607 WO2019065702A1 (ja) | 2017-09-26 | 2018-09-26 | 情報処理装置 |
US16/649,830 US11481919B2 (en) | 2017-09-26 | 2018-09-26 | Information processing device |
CN201880062230.7A CN111164604B (zh) | 2017-09-26 | 2018-09-26 | 信息处理装置 |
EP18861998.5A EP3690803A4 (en) | 2017-09-26 | 2018-09-26 | INFORMATION PROCESSING DEVICE |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017185476A JP6967201B2 (ja) | 2017-09-26 | 2017-09-26 | 情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019061495A JP2019061495A (ja) | 2019-04-18 |
JP6967201B2 true JP6967201B2 (ja) | 2021-11-17 |
Family
ID=65903664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017185476A Active JP6967201B2 (ja) | 2017-09-26 | 2017-09-26 | 情報処理装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11481919B2 (ja) |
EP (1) | EP3690803A4 (ja) |
JP (1) | JP6967201B2 (ja) |
CN (1) | CN111164604B (ja) |
WO (1) | WO2019065702A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7136234B2 (ja) * | 2019-01-17 | 2022-09-13 | 日本電気株式会社 | 情報処理装置、制御方法、及びプログラム |
CN113752983B (zh) * | 2021-09-17 | 2022-11-22 | 阳光暖果(北京)科技发展有限公司 | 一种基于人脸识别/人眼识别的车辆解锁控制系统和方法 |
CN114143807B (zh) * | 2021-10-27 | 2023-08-08 | 中盈优创资讯科技有限公司 | 一种路由注册完整率评价方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1994023385A2 (en) * | 1993-03-30 | 1994-10-13 | Adrian Stafford Lewis | Data compression and decompression |
US8581937B2 (en) * | 2008-10-14 | 2013-11-12 | Adobe Systems Incorporated | Seam-based reduction and expansion of images using partial solution matrix dependent on dynamic programming access pattern |
US8861853B2 (en) * | 2010-03-19 | 2014-10-14 | Panasonic Intellectual Property Corporation Of America | Feature-amount calculation apparatus, feature-amount calculation method, and program |
CN102918831A (zh) * | 2010-06-18 | 2013-02-06 | 松下电器产业株式会社 | 分辨率判断装置、图像处理装置及图像显示装置 |
JP6266238B2 (ja) * | 2013-07-03 | 2018-01-24 | クラリオン株式会社 | 接近物検出システム、及び車両 |
US10832138B2 (en) * | 2014-11-27 | 2020-11-10 | Samsung Electronics Co., Ltd. | Method and apparatus for extending neural network |
US20170039469A1 (en) * | 2015-08-04 | 2017-02-09 | Qualcomm Incorporated | Detection of unknown classes and initialization of classifiers for unknown classes |
CN106611216A (zh) * | 2016-12-29 | 2017-05-03 | 北京旷视科技有限公司 | 基于神经网络的计算方法及装置 |
-
2017
- 2017-09-26 JP JP2017185476A patent/JP6967201B2/ja active Active
-
2018
- 2018-09-26 US US16/649,830 patent/US11481919B2/en active Active
- 2018-09-26 EP EP18861998.5A patent/EP3690803A4/en active Pending
- 2018-09-26 WO PCT/JP2018/035607 patent/WO2019065702A1/ja unknown
- 2018-09-26 CN CN201880062230.7A patent/CN111164604B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
EP3690803A1 (en) | 2020-08-05 |
EP3690803A4 (en) | 2021-06-16 |
US20200286254A1 (en) | 2020-09-10 |
US11481919B2 (en) | 2022-10-25 |
CN111164604B (zh) | 2024-03-22 |
WO2019065702A1 (ja) | 2019-04-04 |
JP2019061495A (ja) | 2019-04-18 |
CN111164604A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6923159B2 (ja) | 情報処理装置 | |
CN112446383B (zh) | 车牌识别方法及装置、存储介质、终端 | |
Hsu et al. | Adaptive fusion of multi-scale YOLO for pedestrian detection | |
CN110717851A (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
CN108292367B (zh) | 图像处理装置、半导体装置、图像识别装置、移动体装置以及图像处理方法 | |
JP6967201B2 (ja) | 情報処理装置 | |
CN106022223A (zh) | 一种高维局部二值模式人脸识别方法及系统 | |
CN111275126A (zh) | 样本数据集生成方法、装置、设备及存储介质 | |
CN117274662A (zh) | 一种改进ResNeXt神经网络的轻量级多模态医学图像分类方法 | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
WO2011037097A1 (ja) | パターン認識方法及び該方法を用いたパターン認識装置 | |
Pervej et al. | Real-time computer vision-based bangla vehicle license plate recognition using contour analysis and prediction algorithm | |
Verma et al. | Enhanced character recognition using surf feature and neural network technique | |
Huang et al. | Rotation and scale-invariant object detector for high resolution optical remote sensing images | |
CN104881877A (zh) | 基于fpga的卷积与时序优化的图像关键点检测的方法 | |
CN110348464A (zh) | 一种基于多支持区域局部亮度序的图像伪造检测算法 | |
CN116246064A (zh) | 一种多尺度空间特征增强方法及装置 | |
WO2020196917A1 (ja) | 画像認識装置、及び画像認識プログラム | |
CN114387489A (zh) | 电力设备识别方法、装置和终端设备 | |
CN114444565B (zh) | 一种图像篡改检测方法、终端设备及存储介质 | |
Zhao | Video/Image Processing on FPGA. | |
Ajuluchukwu et al. | Low-Resolution Image Enhancement using Generative Adversarial Networks | |
Codex | Advancements in Multi-Scale Feature Extraction for Object Recognition and Segmentation | |
CN118366184A (zh) | 猪只体重估算方法、装置 | |
CN116485675A (zh) | 图像校正方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210618 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210726 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20210728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210913 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211012 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6967201 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |