JP2020166342A - 画像処理装置、及び画像処理プログラム - Google Patents

画像処理装置、及び画像処理プログラム Download PDF

Info

Publication number
JP2020166342A
JP2020166342A JP2019063808A JP2019063808A JP2020166342A JP 2020166342 A JP2020166342 A JP 2020166342A JP 2019063808 A JP2019063808 A JP 2019063808A JP 2019063808 A JP2019063808 A JP 2019063808A JP 2020166342 A JP2020166342 A JP 2020166342A
Authority
JP
Japan
Prior art keywords
image
image processing
occurrence
distribution
ellipse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019063808A
Other languages
English (en)
Inventor
英夫 山田
Hideo Yamada
英夫 山田
雅聡 柴田
Masaaki Shibata
雅聡 柴田
権 田向
Ken Tamuki
権 田向
修一 榎田
Shuichi Enokida
修一 榎田
憲大 吉弘
Kazuki Yoshihiro
憲大 吉弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyushu Institute of Technology NUC
Equos Research Co Ltd
Original Assignee
Kyushu Institute of Technology NUC
Equos Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyushu Institute of Technology NUC, Equos Research Co Ltd filed Critical Kyushu Institute of Technology NUC
Priority to JP2019063808A priority Critical patent/JP2020166342A/ja
Priority to EP20778101.4A priority patent/EP3951707A4/en
Priority to US17/599,441 priority patent/US20220180546A1/en
Priority to PCT/JP2020/014637 priority patent/WO2020196918A1/ja
Priority to CN202080024604.3A priority patent/CN113678166A/zh
Publication of JP2020166342A publication Critical patent/JP2020166342A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/60Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

【課題】メモリの使用量を削減する。【解決手段】画像処理装置8は、基準GMM55の基底関数を楕円63に基づく計算式で近似する。共起対応点51による負担率は、楕円63と共起対応点51までのマンハッタン距離と、楕円63の幅を基底関数に基づく負担率の計算式に入力することにより計算で近似的に求めることができる。また、楕円63の幅は、2のn乗(nは、0以上の整数)で量子化されており、上記計算をビットシフトにて行うことができる。このように画像処理装置8は、楕円63を規定するパラメータを記憶すれば、これからビットシフトによって負担率が計算できるため、負担率のテーブルをメモリに格納する必要がなく、メモリ使用量を大幅に削減しつつ、高速に負担率を計算することができる。更に、画像処理装置8は、負担率を2のn乗で量子化することにより、更にメモリの使用を節約する。【選択図】図6

Description

本発明は、画像処理装置、及び画像処理プログラムに関し、例えば、画像から特徴量を取得するものに関する。
画像認識技術には、画像から画像特徴量として輝度の勾配方向の分布を抽出し、これを予め学習した画像の輝度の勾配方向の分布と比較することにより対象を認識するものがある。
このような技術は、各種のものが研究されているが、その中に、輝度勾配方向の共起ペアの出現分布を混合ガウスモデル(複数のガウス分布を基底関数として組み合わせることにより多峰型の分布を表したもの)で表すものがある。
この技術は、画像認識対象(例えば、歩行者)が写った画像を多数学習した結果得られた輝度勾配方向の混合ガウスモデルを基準とし、認識対象の画像の輝度勾配方向の分布を当該基準となる混合ガウスモデルと対比することにより特徴量を抽出する。
より詳細には、基準となる混合ガウスモデルの各基底関数における、認識対象の画像の輝度勾配方向の分布による負担率を特徴量としている。
例えば、非特許文献1に記載の技術は、特徴量の計算の際に、正規分布の高さと距離を元にした負担率を事前学習から得られた基底関数へ投票している。
ところで、このような画像認識アルゴリズムを計算リソースが限られた機器へ実装する場合、予め負担率をメモリのテーブルに格納し、これを参照することで特徴量の計算を行っている。
しかし、負担率を参照するテーブルのデータ量は、非常に大きいため、大規模なメモリを必要としてしまうという問題があった。
道下裕也"歩行者検出における混合正規分布を用いた状態空間の自律構成法"、電気学会論文誌C,Vol.138,No.9,2018
本発明は、メモリの使用量を削減することを目的とする。
(1)本発明は、前記目的を達成するために、請求項1に記載の発明では、画像を取得する画像取得手段と、前記取得した画像から輝度勾配方向の共起の分布を取得する共起分布取得手段と、前記共起の分布を用いて基底関数を算出し、該基底関数を用いて、前記画像の特徴量を計算する計算手段と、前記計算した特徴量を出力する出力手段と、を具備したことを特徴とする画像処理装置を提供する。
(2)請求項2に記載の発明では、画像認識の基準となる混合ガウスモデルを近似する基底関数を規定するためのパラメータを記憶するパラメータ記憶手段、を備え、前記計算手段は、前記取得した共起の分布を構成する各共起点から前記基底関数の中心までの距離と、前記記憶したパラメータを、前記基底関数式に代入することにより、前記混合ガウスモデルを用いた前記画像の特徴量を計算する、ことを特徴とする請求項1に記載の画像処理装置を提供する。
(3)請求項3に記載の発明では、前記パラメータ記憶手段は、前記混合ガウスモデルを構成するガウス分布ごとに前記パラメータを記憶し、前記計算手段は、前記ガウス分布ごとに当該ガウス分布のパラメータを用いて前記特徴量の要素となる値を計算することを特徴とする請求項1、又は請求項2に記載の画像処理装置を提供する。
(4)請求項4に記載の発明では、前記計算手段は、前記特徴量の要素の値として前記ガウス分布ごとの前記共起の分布による負担率を近似的に計算することを特徴とする請求項1、請求項2、又は請求項3に記載の画像処理装置を提供する。
(5)請求項5に記載の発明では、前記パラメータは、各々の前記ガウス分布の幅に対応する楕円を規定する定数であることを特徴とする請求項1、請求項2、請求項3、又は請求項4に記載の画像処理装置を提供する。
(6)請求項6に記載の発明では、前記楕円の最大幅の方向は、前記混合ガウスモデルを定義する直交座標軸に平行又は直角であることを特徴とする請求項5に記載の画像処理装置を提供する。
(7)請求項7に記載の発明では、前記パラメータは、2の冪乗に量子化されており、前記計算手段は、ビットシフトを用いて前記計算を行うことを特徴とする請求項1から請求項6までのうちの何れか1の請求項に記載の画像処理装置を提供する。
(8)請求項8に記載の発明では、前記出力手段が出力した特徴量を用いて前記画像を画像認識する画像認識手段を具備したことを特徴とする請求項1から請求項7までのうちの何れか1の請求項に記載の画像処理装置を提供する。
(9)請求項9に記載の発明では、画像を取得する画像取得機能と、前記取得した画像から輝度勾配方向の共起の分布を取得する共起分布取得機能と、前記共起の分布を用いて基底関数を算出し、該基底関数を用いて、前記画像の特徴量を計算する計算機能と、前記計算した特徴量を出力する出力機能と、をコンピュータで実現することを特徴とする画像処理プログラムを提供する。
本発明によれば、テーブルを参照せずに負担率を計算で求めるため、メモリの使用量を削減することができる。
基準となるGMMを作成する方法を説明するための図である。 基準GMMの近似を説明するための図である。 負担率の計算に用いるパラメータや変数について説明するための図である。 負担率の計算式を説明するための図である。 基底関数をより詳細に説明するための図である。 負担率の具体的な計算を説明するための図である。 負担率の量子化を説明するための図である。 画像処理装置のハードウェア的な構成の一例を示した図である。 画像認識処理の手順を説明するためのフローチャートである。 プロット処理の手順を説明するためのフローチャートである。 負担率計算処理を説明するためのフローチャートである。 画像認識の実験結果を示したグラフである。 各混合数での画像認識結果を重ねて表したグラフである。
(1)実施形態の概要
図6に示したように、画像処理装置8は、基準GMM55の基底関数を楕円63に基づく計算式で近似する。共起対応点51による負担率は、楕円63と共起対応点51までのマンハッタン距離と、楕円63の幅を基底関数に基づく負担率の計算式に入力することにより計算で近似的に求めることができる。
また、楕円63の幅は、2のn乗(nは、0以上の整数)で量子化されており、上記計算をビットシフトにて行うことができる。
このように画像処理装置8は、楕円63を規定するパラメータを記憶すれば、これからビットシフトによって負担率が計算できるため、負担率のテーブルをメモリに格納する必要がなく、メモリ使用量を大幅に削減しつつ、高速に負担率を計算することができる。
更に、画像処理装置8は、負担率を2のn乗で量子化することにより、更にメモリの使用を節約する。
(2)実施形態の詳細
本実施形態では、同じ画像の異なる解像度間に渡る輝度勾配方向の共起の出現頻度を特徴量とするMRCoHOG特徴量を用いる。
まず、このような輝度勾配方向から画像認識の基準となる混合ガウスモデル(Gaussian Mixture Model、以下GMMと記す)を作成する方法について説明する。
図1は、基準となるGMMを作成する方法を説明するための図である。
図1(a)に示したように、画像処理装置8は、基準となるGMMを作成するための画像2の入力を受け付け、これを複数の同じ矩形形状のブロック領域3A、3B、・・・に区分する。画像2は、例えば、画像認識対象である歩行者を写した画像である。
図では、図示しやすいように4×4に区分しているが、標準的な値は、例えば、4×8である。
なお、ブロック領域3A、3B、・・・を特に区別しない場合は、単にブロック領域3と記す。
画像処理装置8は、画像2をブロック領域3に区分すると共に、画像2の解像度を変換し、図1(b)に示したように解像度(画像サイズ)の異なる高解像度画像11、中解像度画像12、低解像度画像13を生成する。画像2の解像度が適当な場合は、画像2をそのまま高解像度画像として使用する。
図では、ブロック領域3Aの部分の高解像度画像11、中解像度画像12、低解像度画像13を示しており、升目は画素を模式的に表している。
そして、画像処理装置8は、高解像度画像11、中解像度画像12、低解像度画像13のそれぞれの画素について輝度勾配方向(低輝度から高輝度に向かう方向)を計算する。この輝度勾配方向の角度は、0°〜360°の連続値である。
なお、以下では、輝度勾配方向を単に勾配方向と記す。
画像処理装置8は、このようにして勾配方向を算出すると、基準とする画素(以下、注目画素)と、これから離れた位置にある画素(以下、オフセット画素)の勾配方向の共起を次のようにして取得する。
まず、画像処理装置8は、図1(c)に示したように、高解像度画像11に注目画素5を設定し、高解像度画像11で注目画素5からオフセット距離1(即ち、高解像度において隣接する)にあるオフセット画素1a〜1dに着目する。
なお、画素n個分の距離をオフセット距離nと呼ぶことにする。
そして、画像処理装置8は、注目画素5とオフセット画素1a〜オフセット画素3dとの各勾配方向の共起(勾配方向の組合せ)を取得し、これに対応する点を共起対応点51、51、・・・として、図1(d)に示す特徴面15(1a)〜15(3d)にプロットする。
なお、画像処理装置8は、図1(d)に示した12の特徴面15(1a)〜15(3d)を、図1(a)で区分したブロック領域3A、3B、・・・ごとに作成する。
以下、複数の特徴面全体をさす場合には特徴面15という。
例えば、図1(c)において、注目画素5とオフセット画素1aの共起をプロットする場合、注目画素5の勾配方向が26°で、オフセット画素1aの勾配方向が135°であったとすると、画像処理装置8は、オフセット画素1a用の特徴面15(1a)の横軸が26°で縦軸が135°である位置に共起対応点51をプロットする。
そして、画像処理装置8は、高解像度画像11内で、注目画素5を順次移動しながら、注目画素5とオフセット画素1aとの共起を取って特徴面15(1a)にプロットする。
このように特徴面15は、画像中にある特定のオフセット(注目画素5からの相対位置)を持つ2つの勾配方向ペアがどのような出現頻度を持つかを表現している。
なお、図1(c)で、図面に向かって注目画素5の右側の画素について共起を観察するのは、まず、注目画素5を図面に向かって左上端の画素から、順次右方向の画素に移動し、右端に達すると、1段下で左端の画素から右方向に移動させるという移動経路を設定しているので、注目画素5の移動に伴って重複する共起の組合せを取得しないようにするためである。
また、注目画素5の移動はブロック領域3A内(同一のブロック領域内)で行うが、オフセット画素の選択は、ブロック領域3Aを超える場合でも行われる。
画像2の端部では、勾配方向を算出することができないが、これについては、適当な任意の方法で処理する。
次に、画像処理装置8は、注目画素5とオフセット画素1b(図1(c)参照)との勾配方向の共起を取得して、これに対応する共起対応点51を特徴面15(1b)にプロットする。
なお、画像処理装置8は、先に注目画素5とオフセット画素1aで使用した特徴面15(1a)とは、異なる新たな特徴面15を用意し、これに投票する。このように、画像処理装置8は、注目画素5とオフセット画素の相対的な位置関係の組合せごとに特徴面15を生成する。
そして、高解像度画像11内で注目画素5を順次移動しながら、注目画素5とオフセット画素1bとの共起を取って共起対応点51を当該特徴面15(1b)にプロットする。
以下同様に画像処理装置8は、注目画素5とオフセット画素1cとの組合せ、及び注目画素5とオフセット画素1dの組合せについても、それぞれに個別の特徴面15(1c)、15(1d)を用意して勾配方向の共起をプロットする。
このようにして、画像処理装置8は、注目画素5と、注目画素5からオフセット距離1のオフセット画素1a〜1dについての4つの特徴面15を生成すると、次に、高解像度画像11における注目画素5と、オフセット距離2にある中解像度画像12のオフセット画素2a〜2dに着目する。
そして、上記の手法と同じ手法により、注目画素5とオフセット画素2aの組合せによる特徴面15(2a)、同様にオフセット画素2b、2c、2dの組合せによる特徴面15(2b)〜15(2d)を作成する。
そして、画像処理装置8は、高解像度画像11における注目画素5と、オフセット距離3にある低解像度画像13のオフセット画素3a〜3dについても同様に、注目画素5とオフセット画素3a〜3dの相対的な位置関係の組合せごとの特徴面15(3a)〜15(3d)を生成する。
画像処理装置8は、以上の処理をブロック領域3B、3C、・・・に対しても行い、画像2の特徴を抽出した複数の特徴面15を生成する。
このように画像処理装置8は、ブロック領域3A、3B、3C・・・ごとに、複数の特徴面15(1a)〜15(3d)を生成する。
そして、画像処理装置8は、これら特徴面15の各々について、以下のようにしてGMMを生成する。
なお、ここでは、説明を簡単にするため、画像2から作成した特徴面15からGMMを生成するが、より詳細には、多数の学習画像から取得した特徴面15を重ね合わせたものに対してGMMを生成する。
図1(e)は、これら複数の特徴面15のうちの1つを表しており、まず、画像処理装置8は、これらの共起対応点51を近いもの同士を組合せることにより混合数K個のクラスタ(グループ)にクラスタリングする。
混合数は、GMMを生成するに際して混合するガウス分布の個数を表しており、これを適当に指定すると、画像処理装置8は、自動的に指定された個数に共起対応点51をクラスタリングする。
本実施形態では、後述するように、一例として、K=6、K=16、K=32、K=64の場合について実験した。
図(e)では、簡単化のため、K=3とし、共起対応点51は、クラスタ60−1〜60−3にクラスタリングされている。
特徴面15にプロットされた共起対応点51、51、・・・は、画像の特徴に応じて集まる傾向があり、クラスタ60−1、60−2、・・・は、画像の特徴を反映したものとなる。
画像認識の際の特徴次元は、混合数Kに依存するため、どこまで画像の特徴を損なわずに、混合数Kを小さくできるかは、重要な事項の1つである。
後の実験結果で説明するように、本実施形態による画像認識では、K=6、K=16、K=32、K=64でほとんど差異が見られず、本実施形態による手法によると低混合数で実用的な画像認識が行えることがわかった。
図1(f)に示したように、画像処理装置8は、共起対応点51をクラスタリングした後、K個のガウス分布(ガウス分布54−1、54−2、54−3)を線形に重ね合わせた確率密度関数p(x|θ)によって、特徴面15における共起対応点51の確率密度関数53を表す。このようにガウス分布を基底関数(線形和の対象となっている関数であってGMMを構成する要素となっている関数)とし、これによる線形和で表された確率密度関数53がGMMである。
画像処理装置8は、学習した対象と被写体の類否を判断するための基準GMM55として確率密度関数53を使用する。
確率密度関数p(x|θ)の具体的な数式は、図1(g)のようになる。
ここで、xは、共起対応点51の分布を表すベクトル量でありθは母数(μj、Σj)(ただし、j=1、2、・・・、K)を表すベクトル量である。
πjは、混合係数と呼ばれ、j番目のガウス分布を選択する確率を表している。μj、Σjは、それぞれ、j番目のガウス分布の平均値と、分散共分散行列を表している。πjとθにより確率密度関数53、即ち、基準GMM55が一意的に定まる。
zは、EMアルゴリズムや負担率を計算するのに用いられる潜在パラメータであり、混合するK個のガウス分布に対応してz1、z2、・・・、zKが用いられる。xの分布から事後的にzの確率を計算したものが負担率となる。
EMアルゴリズムは、説明は省略するが、尤度を最大化するπjと母数(μj、Σj)を推定するアルゴリズムであり、画像処理装置8は、EMアルゴリズムを適用することによりπj、θを決定し、これによってp(x|θ)を求める。
基準GMM55は、クラスタ60−1、60−2、60−3の位置にあるガウス分布54−1、54−2、54−3(図示せず)を基底関数とし、これらを混合して形成される。
そして、基準GMM55を用いて各共起対応点51のガウス分布54−1、54−2、54−3に対する負担率を計算し、これをガウス分布54−1、54−2、54−3に投票したガウス分布54ごとの合計値がMRCoHOG特徴量となる。
なお、以下では、ガウス分布54−1、54−2、54−3を特に区別しない場合は、単にガウス分布54と記すことにし、他の構成要素についても同様とする。
このようにして生成したMRCoHOG特徴量を用いて画像認識を行うのであるが、基準GMM55を直接適用して負担率を計算する場合、計算能力の高い計算機を要する。
そのため、計算リソースが限られた機器へ実装する場合、従来は、基準GMM55を用いて予め作成した負担率テーブルをメモリに用意し、このテーブルを参照することにより各ガウス分布54に対する負担率を取得していた。
これには、大きなメモリ資源を要し、画像認識装置をFPGA(field−programmable gate array)やICチップなどの小型・安価な半導体装置で実現するには不向きであった。
そこで、本実施形態では、計算が容易な基準GMM55の近似式を画像処理装置8に実装することにより、負担率テーブルを参照せずに、少数のパラメータを用いたハードウェア指向の簡単な計算で負担率を計算できるようにした。以下、その方法について説明する。
図2の各図は、基準GMM55の近似を説明するための図である。
図2(a)の楕円62−1、62−2、62−3は、基準GMM55の本来の基底関数であるガウス分布54−1、54−2、54−3を適当な高さ(p(x|θ))で輪切りにして基準GMM55の定義域であるxy平面上に投影したものである。
これら楕円62−1、62−2、62−3は、クラスタ60−1、60−2、60−3の位置に対応して形成されている。
これら楕円62は、ガウス分布54から求めてもよいし、あるいは、クラスタ60をバランスよく囲む形を適当に設定してもよい。
ガウス分布54は、2変数の正規分布であるため、所定のp(x|θ)で輪切りにしたラインの幅は、これら2変数の標準偏差の幅を反映し、主軸(長軸)と副軸(短軸)が直行すると共に任意の方向に回転した楕円62となる。
本実施形態の基準GMM55は、楕円62と後述の計算式の組み合わせによってガウス分布54を近似したものを基底関数とする。
そして、xy平面上に形成された個別の楕円62を規定するパラメータを当該計算式に代入すると個別のガウス分布54を近似する個別の基底関数が形成されるようになっている。
これにより基準GMM55を用いた負担率の計算が容易になる。
楕円62は、式(1)で表され、画像処理装置8が楕円62を特定するために記憶すべきパラメータは、楕円62ごとの係数A、B、Cと楕円62の中心の座標値(x0、y0)だけである。
必要とするメモリは、1つの楕円62あたり、5×64=320bitであり、画像認識に要するメモリは、合計で39.4KB程度と少量で済む。
なお、x0などの下付文字0は、文字化けを防止するため全角文字で表してある。以下、他の数式も同様とする。
このように主軸が基準GMM55の座標軸から任意の角度だけ回転した状態の楕円62を用いて負担率を計算することも可能であるが、計算が複雑となるため、本実施形態では、図2(b)に示したように、最大幅の方向(主軸の方向)が基準GMM55の座標軸と平行、又は直角となるように楕円62−1、62−2、62−3を回転して楕円63−1、63−2、63−3を設定し、これに基づいて基準GMM55の基底関数を構成した。
最大幅の方向をx軸、y軸の何れに平行にするかは、回転角度の少ない方に合わせるが、実験によって回転方向を決定してもよい。
また、回転に伴って、楕円63を大きくしたり扁平にしたりなど、適度に整形することも可能である。
本願発明者の実験によると、楕円62を用いた場合と楕円63を用いた場合では、画像認識精度に大きな差は見られず、楕円63を用いることができることが確認された。
このように、本実施形態で使用する楕円の最大幅の方向は、混合ガウスモデルを定義する直交座標軸に平行又は直角となっている。
楕円63は、式(2)で表され、画像処理装置8が楕円63を特定するために記憶すべきパラメータは、楕円63ごとの係数A、Bと楕円62の中心の座標値(x0、y0)だけである。
必要とするメモリは、1つの楕円63あたり、4×64=256bitであり、画像認識に要するメモリは、合計で31.5KB程度である。
なお、実際に負担率の計算に使用するパラメータは、後述するように、主軸半径(主軸方向のガウス分布の幅)、副軸半径(副軸方向のガウス分布の幅)、及び中心の座標値であるが、この場合も記憶するパラメータは4個なので、メモリ消費量は同じである。
以上、楕円62、楕円63の構成について説明したが、これらは自動で生成してもよいし、あるいは手動で行ってもよい。
更には、実験結果を観察しながら試行錯誤的に補正していき、最終的な形態を求めてもよい。
次に、基底関数に用いる計算式と負担率の計算方法について説明する。
図3の各図は、負担率の計算に用いるパラメータや変数について説明するための図である。
図3(a)楕円63−i(i番目の楕円63で、楕円63−1、63−2、・・・のうちの何れか、以下、他の構成要素も同様とする)の中心をwiとし、共起対応点51とwiの距離をx軸方向の距離であるdi_xと、y軸方向の距離であるdi_yで表す。
このような座標軸に沿って計測した距離はマンハッタン距離と呼ばれ、ユーグリッド距離に比べてハードウェアでの計算が容易になる。
また、図3(b)に示したように、楕円63−iのx軸方向の半径(幅)とy軸方向の半径(幅)を2のn乗(nは0以上の整数、0以上の整数による2の冪乗とも言えるし、あるいは0乗を含む2の累乗とも言える)で表し、それぞれの幅を、2のri_x乗、2のri_y乗で量子化する。ri_xとri_yは、0、1、2、・・・となる0以上の整数である。
この量子化は、図3(c)の幅量子化テーブルに従って近似することにより得られたものである。例えば、楕円の半径はガウス分布の幅である標準偏差σに対応するが、1<σ≦2の場合は2の1乗、2<σ≦4の場合は2の2乗、・・・、などと近似する。
このように楕円63の半径を2のn乗で近似・量子化することにより後述のビットシフトによる演算(本実施形態では除算)が可能となる。
図4は、負担率の計算式を説明するための図である。
負担率とは、潜在変数zの事後分布であり(共起対応点51が与えられたときのzの分布)、p(kz=1|x)で表される。
平易に説明すると、共起対応点51の分布がガウス分布54−1、ガウス分布54−2、・・・の形成に寄与し、GMMはガウス分布の線形和であるため、これが積み重なって(その合計として)基準GMM55の確率密度関数53が構成されている。
そのとき、ある共起対応点51が、ガウス分布54−1、ガウス分布54−2、・・・に属する確率(寄与している割合)が当該共起対応点51の各ガウス分布54に対する負担率となる。
本実施形態では、コンピュータによる計算を容易にするため、図4に示した式(3)で定義されるsi_x,i_yで混合ガウス分布を構成するガウス分布を近似し、式(4)のziによる計算式によって負担率を近似した。即ち、楕円63−iのパラメータで規定されるsi_x,i_yが基底関数に相当し、ziが、当該基底関数に対応する特徴量の計算式に相当する。
この式は、本願発明者が、ある類似性の計算をハードウェアに実装するために考案したものであり、今回、負担率計算の近似式として好適にハードウェア化できることを見いだしたものである。
共起の分布とパラメータをziの式に代入することにより、混合ガウスモデルを用いた画像の特徴量であるところの負担率を近似的に容易に計算することができる。
図5は、基底関数をより詳細に説明するための図である。
式(3)、(4)は、x軸、y軸方向の2変数に対する式を1つにまとめたものとなっており、分かりやすくするためにこれを1変数にしたのが図5(a)の式(5)、(6)である。
図のグラフに示したように、ziは、共起対応点51と楕円63−iの中心の間の距離diが0のとき1となり、diが中心から離れるに従って徐々に小さくなる。そして、ziは、siが1のとき(即ち、di=2の(ri−log2a乗)のとき)、1/2となり、更にdiが大きくなると、次第に0に近づいていく。
ziの広がり具合は、楕円63−iの半径riによって規定され、riが小さいほど急峻な形状となる。
なお、2を底とするlog2aの項aは、本願発明者が先の類似性を研究する際に設定した計算精度を規定する項であり、ハードウェア化を行う場合は、通常a=8bit、又は16bitに設定される。この項を無視するなら、diが楕円63の幅に等しいときziは1/2となる。
このように、ziは、ガウス分布と似た性質を有しており、当該計算式によりガウス分布を好適に近似することができる。
また、siにおいてdiは、2の(ri−log2a)乗で除しているが、2のn乗による除算はビットシフトによりハードウェアできわめて容易にできるため、ziを用いることによりガウス分布の近似をビットシフトで行うことができる。
そこで、本実施形態では、ガウス分布54−iをziで近似し、ガウス分布54−iに属する確率を近似的に表すziを負担率として採用することとした。
以上は、負担率を計算するための計算式を式(4)で定義したが、これに限定するものではなく、楕円63に基づいて共起対応点51のガウス分布54への属する割合を割り振ることができるものであれば基底関数として適用できる。
例えば、図5(b)に示したように、0≦di<2のri乗でzi=1であり、1≦riでzi=0となる関数や(2次元の場合は半径の幅が2のri_x乗と、2のri_y乗の楕円柱となる)、図5(c)に示したように、diが0からriに増えるにつれてziが直線的に減少し、1≦2のri乗でzi=0となる関数や(2次元では、底面の半径の幅が2のri_x乗と、2のri_y乗の楕円となる楕円錐)、その他、楕円63に局在したウェーブレット型やガボール型の関数を使用することなどができる。
これらの基底関数が画像認識にどの程度利用できるかは、実験により検証される。
図6の各図は、負担率の具体的な計算を説明するための図である。
図6(a)に示したように、楕円63−iの内部にある共起対応点51を考え、この点の楕円63−iに対する負担率を求める。
図6(b)に示したように、楕円63−iのx軸方向の半径2のri_x乗を2の5乗、y軸方向の半径2のri_y乗を2の3乗とする。
また、楕円63−iの中心wiの座標値を(10、25)、共起対応点51の座標値を(25、20)とする。
図6(c)に示したように、x軸方向に関しては、di_x=15、ri_x=5である。これらを式(3)に代入して計算するとsi_x=3.75となる。
一方、図に示したようにdi_xをビット列(000000001111)で表し、これを2の2乗で割るため−2だけシフトすると(即ち、2だけ右にシフトすると)si_xに対応するビット列(000000000011)が得られる。
このビット列が表す値を10進数に変換すると、図に示したように3となり、先に計算した値の小数点以下を切り捨てた値となる。なお、本実施形態では、小数点以下の誤差は無視する。
図6(d)に示したように、y軸方向に関しては、di_y=5、ri_y=3である。これらを式(3)に代入して計算するとsi_y=5となる。
一方、図に示したようにdi_yをビット列(000000000101)で表し、これを2の0乗で割るため0だけ右にシフトすると(即ちシフトしないと)si_yに対応するビット列(000000000101)が得られる。
このビット列が表す値を10進数に変換すると、図に示したように5となり、先に計算した値と等しくなる。
このため、図6(e)に示したように、共起対応点51のガウス分布54−i(楕円63−iに対応するガウス分布54−i)に対する負担率ziは、zi_xとzi_yを加えて0.1406・・・と近似される。
同様にして、楕円63−(i+1)やその他の楕円63に対しても式(4)を適用して共起対応点51のこれらガウス分布54に対する負担率(の近似値)も計算することができる。
このようにしてある共起対応点51の各ガウス分布54に対する負担率を計算することができるが、これを全ての共起対応点51に対して計算して得られた負担率をガウス分布54ごとに集計(投票)すると共に、これを全ての特徴面15について行って連結し、更に正規化するとMRCoHOG特徴量が得られる。
以上のように、画像処理装置8は、共起の分布とパラメータを基底関数に適用することにより(即ち、基底関数に基づく負担率の計算式に代入することにより)、混合ガウスモデルを用いた画像の特徴量を計算する計算手段を備えている。具体的には、取得した共起の分布(図1(e)の60−1…)を構成する各共起点(共起対応点51)から基底関数の中心(図(3)wi)までの距離(マンハッタン距離)と、記憶したパラメータを、基底関数(図4のsi_x,i_y)に対応する特徴量の計算式(図4の(3)式、図5(5)式等)に代入することにより、混合ガウスモデルを用いた画像の特徴量(図4式(4)、図5式(6)のzi)を計算する、ことで計算手段を構成している。
そして、当該計算手段は、ガウス分布ごとに当該ガウス分布のパラメータを用いて特徴量の要素となる値として、ガウス分布ごとの共起の分布による負担率を近似的に計算している。
また、基底関数を規定するパラメータである楕円63の幅は、2の冪乗に量子化されており、当該計算手段は、ビットシフトを用いて特徴量の計算を行う。
図7は、負担率の量子化を説明するための図である。
画像処理装置8は、式(4)によって負担率を計算した後、更に、これを2のn乗に量子化することによりメモリ消費を節約する。
図7(a)は、量子化しない場合のガウス分布54−iに対する負担率の例を示している。
なお、この例では混合数K=6とし、iは1から6までの値をとる。
負担率を量子化しない場合、例えば、ガウス分布54−1における負担率が0.4、ガウス分布54−2における負担率が0.15、・・・などと64bit表現になる。
図7(b)は、負担率の量子化テーブル21の例を示している。
量子化テーブル21は、負担率の64bit表現を0.875以上の場合、0.75以上0.875未満の場合、0.625以上0.75未満の場合、・・・の8段階に区分し、これらを、それぞれ、(2の0乗)+(2の−3乗)、(2の−1乗)+(2の−2乗)、・・・のシフト加算(2のn乗の加算)による3bit表現に近似している。
画像処理装置8は、負担率を計算すると、量子化テーブル21を参照してこれを3bit表現に近似することによりメモリ消費を節約する。
なお、試算によると、例えば、64bit表現の場合は20412KBのメモリを消費するが、3bit表現の場合のメモリ消費量は319KBである。
また、負担率をシフト加算の形に量子化すると、後のハードウェアによる計算が容易となる。
以上、画像からMRCoHOG特徴量を負担率によって抽出する方法について説明したが、当該特徴量を予め対象を学習した既存のニューラルネットワークなどの識別器に入力して画像認識を行うことができる。
図8は、画像処理装置8のハードウェア的な構成の一例を示した図である。
画像処理装置8は、例えば、車両に搭載され、車両前方の歩行者などを画像認識する。
この例では、CPU81が画像の特徴量を抽出するが、特徴量抽出用の専用のハードウェアを半導体装置で形成し、これを搭載するように構成することもできる。
画像処理装置8は、CPU81、ROM82、RAM83、記憶装置84、カメラ85、入力部86、及び出力部87などがバスラインで接続されて構成されている。
CPU81は、中央処理装置であって、記憶装置84が記憶する画像認識プログラムに従って動作し、上述した画像からの特徴量を抽出する画像処理や、抽出した特徴量を用いた画像認識処理などを行う。
ROM82は、読み出し専用のメモリであって、CPU81を動作させるための基本的なプログラムやパラメータを記憶している。
RAM83は、読み書きが可能なメモリであって、CPU81が特徴量抽出処理や画像認識処理を行う際のワーキングメモリを提供する。本実施形態では、楕円63のパラメータ(中心座標値、主軸方向と副軸方向の幅)やビットシフトに用いるビット列を記憶することができる。
記憶装置84は、ハードディスクなどの大容量の記憶媒体を用いて構成されており、画像認識プログラムや、撮影した動画データ、基準GMM55、楕円63のパラメータ、量子化テーブル21などのMRCoHOG特徴量の抽出に必要なデータを記憶している。
CPU81は、画像認識プログラムに従ってこれら基準GMM55、楕円63のパラメータ、量子化テーブル21などを利用することにより画像の特徴量を抽出することができる。
ここで、記憶装置84は、楕円63ごとに当該楕円63のパラメータを記憶しており、画像認識の基準となる混合ガウスモデルを近似する基底関数を混合ガウスモデルを構成するガウス分布ごとに規定するパラメータを記憶するパラメータ記憶手段として機能している。そして、主軸方向と副軸方向の幅を規定するパラメータは、各々のガウス分布の幅に対応する楕円を規定する定数となっている。
カメラ85は、例えば、車両前方の景色を動画撮影する。撮影された動画データは、時系列的に連続する静止画像であるフレーム画像から構成されており、これら個々のフレーム画像が画像認識対象の画像となる。
入力部86は、操作担当者からの入力を受け付けるなどの入力デバイスを備えており、画像処理装置8に対する各種操作を受け付ける。
出力部87は、操作担当者に各種の情報を提示するディスプレイ、スピーカなどの出力デバイスを備えており、画像処理装置8の操作画面や画像認識結果などを出力する。
以下、画像処理装置8が行う画像認識処理の手順についてフローチャートを用いて説明する。
図9は、画像処理装置8が行う画像認識処理の手順を説明するためのフローチャートである。
ここでは、一例として、車載カメラで歩行者を追跡する場合について説明する。
画像処理装置8のカメラ85は、車外(例えば、車両前方)を被写体として動画撮影している。
車両は、画像処理装置8によって歩行者を追跡してこれを車両の制御系に出力し、制御系は、これに基づいて運転者のハンドル操作やブレーキ操作などを支援して安全性を高める。
以下の処理は、画像処理装置8が、記憶装置84の画像認識プログラムをCPU81に実行させることにより行うものである。
まず、画像処理装置8は、カメラから送信される動画データからフレーム画像を取得してRAM83に記憶する(ステップ150)。
このように、画像処理装置8は、画像を取得する画像取得手段を備えている。
次に、画像処理装置8は、RAM83に記憶したフレーム画像において、歩行者を検出するための矩形の観測領域(注目画像領域)を設定する(ステップ155)。
初回の歩行者検出では、歩行者がどこに写っているかわからないため、画像処理装置8は、例えば、適当な初期値に基づいて白色雑音による乱数(パーティクル)を発生させて、これに基づいて適当な大きさの観測領域を適当な位置に設定する。
画像処理装置8は、当該観測領域に含まれる画像を画像認識の対象に設定し、RAM83に記憶する(ステップ160)。
次に、画像処理装置8は、当該画像に対して後述のプロット処理を行い、勾配方向の共起による特徴量を当該画像から抽出してRAM83に記憶する(ステップ165)。
次に、画像処理装置8は、基準GMM55や楕円63のパラメータなどをRAM83から読み出し、これを用いて負担率を当該画像の特徴面15ごとに計算する(ステップ170)。
そして、画像処理装置8は、特徴面15ごとに計算した負担率を全ての特徴面15について連結して対象画像全体の特徴を表す特徴量とし(ステップ175)、これを正規化してRAM83に記憶する(ステップ180)。
このように画像処理装置8は、計算した特徴量を出力する出力手段を備えている。
そして、画像処理装置8は、当該正規化した特徴量をニューラルネットワークやその他の識別機構により構成された識別器に入力し、出力された値から当該フレーム画像と歩行者との類否を判断する(ステップ185)。
次いで、画像処理装置8は、その結果をRAM83に出力する(ステップ190)。
画像処理装置8は、類否の判断結果から、フレーム画像内で歩行者を当該観測領域内に認識できたか否かを判断する(ステップ195)。
すなわち、類否の判断結果が類似していない場合、画像処理装置8は、フレーム画像内で歩行者を当該観測領域内に認識できなかったと判断し(ステップ195;N)、ステップ155に戻って、更にフレーム画像に前回とは異なる観測領域を設定して、歩行者の認識を繰り返す。
一方、類似している場合、画像処理装置8は、フレーム画像内で歩行者を当該観測領域内に認識できたと判断し(ステップ195;Y)、その認識結果を車両の制御系に出力する。
このように、画像処理装置8は、特徴量を用いて画像を画像認識する画像認識手段を備えている。
そして、画像処理装置8は、更に認識対象の追跡を継続するか否かを判断する(ステップ200)。この判断は、例えば、車両が目的地に到着するなどして走行を停止した場合に追跡を継続しないと判断し、車両が走行している場合は追跡すると判断する。
追跡を継続しないと判断した場合(ステップ200;N)、画像処理装置8は、画像認識処理を終了する。
一方、追跡を継続すると判断した場合(ステップ200;Y)、画像処理装置8は、ステップ150に戻って、次のフレーム画像に対して同様の画像認識処理を行う。
なお、2回目以降の画像認識では、画像処理装置8は、ステップ155において前回の画像認識で歩行者が検出された付近に観測領域を設定する。
これは、歩行者が1つ前のフレーム画像で検出された付近に今回のフレーム画像でも存在すると考えられるからである。
これには、例えば、前回歩行者が検出された観測領域を中心に正規分布をなす乱数(パーティクル)を発生させ、当該乱数に対応して観測領域を次々に発生させて最も類似度の高い観測領域を探索するパーティクルフィルタの手法を用いると有効である。
以上のようにして、画像処理装置8は、車載カメラが撮影した車外画像から歩行者を検出し、これを追跡することができる。
なお、この手法は、車載カメラ以外に監視カメラや、その他の動く対象を動画に基づいて追跡するシステムに適用することができる。
また、認識対象を歩行者としたが、例えば、道路上の白線、信号機、標識などを走行しながら認識し、自動運転に適用することも可能である。
更に、前方を走行する車両を画像認識によって追跡して、これに追随走行する所謂コンボイ走行に適用することも可能である。
図10は、ステップ165のプロット処理の手順を説明するためのフローチャートである。
まず、画像処理装置8は、RAM83から特徴を抽出する対象となる画像(動画データから取得したフレーム画像)を読み込む(ステップ5)。
次に、画像処理装置8は、当該画像をブロック領域3に区分し、当該区分の位置をRAM83に記憶する(ステップ10)。
次に、画像処理装置8は、区分した高解像度画像11のブロック領域3のうちの1つを選択し(ステップ15)、これから共起対象の高解像度画像11の画素、中解像度画像12の画素、低解像度画像13の画素を生成してRAM83に記憶する(ステップ20)。
なお、当該画像をそのまま高解像度画像11として使用する場合は、当該画像の画素を解像度変換せずに高解像度画像11の画素として使用する。
次に、画像処理装置8は、生成した高解像度画像11、中解像度画像12、低解像度画像13の個々の画素について勾配方向を算出してRAM83に記憶する(ステップ25)。
次に、画像処理装置8は、高解像度画像11内、高解像度画像11と中解像度画像12の間、及び高解像度画像11と低解像度画像13の間で勾配方向の共起を取って特徴面15にプロットし、RAM83に記憶する(ステップ30)。これにより当該ブロック領域3Aによる特徴面15が得られる。
このように、画像処理装置8は、画像から輝度勾配方向の共起の分布を取得する共起分布取得手段を備えている。
次に、画像処理装置8は、全ての画素についてプロットしたか否かを判断する(ステップ35)。
まだ、プロットを行っていない画素がある場合(ステップ35;N)、画像処理装置8は、ステップ20に戻って次の画素を選択し、これについて特徴面15へのプロットを行う。
一方、当該ブロック領域3についての全画素についてプロットした場合(ステップ35;Y)、画像処理装置8は、全てのブロック領域3についてプロットしたか否かを判断する(ステップ40)。
まだ、プロットを行っていないブロック領域3がある場合(ステップ40;N)、画像処理装置8は、ステップ15に戻って次のブロック領域3を選択し、これについて特徴面15へのプロットを行う。
一方、全てのブロック領域3についてプロットした場合(ステップ40;Y)、画像処理装置8は、RAM83の配列から、全てのブロック領域3ごとのオフセット画素ごとに生成した特徴面15をRAM83に出力する(ステップ45)。
図11は、ステップ170の負担率計算処理を説明するためのフローチャートである。
まず、画像処理装置8は、処理対象とする特徴面15を選択し、RAM83に記憶する(ステップ205)。
次に、画像処理装置8は、RAM83の記憶した特徴面15から共起対応点51を選択してその座標値をRAM83に記憶する(ステップ210)。
次に、画像処理装置8は、楕円63−iをカウントするパラメータiを1に初期化してRAM83に記憶する(ステップ215)。
次に、画像処理装置8は、ステップ210でRAM83に記憶した共起対応点51の座標値を読み込むと共に、楕円63−iのパラメータ(中心座標値(x0、y0)、及び主軸と副軸の幅を規定するri_xとri_y)も読み込み、これらを式(3)(4)に代入して当該共起対応点51のガウス分布54−i(楕円63−iに対応するガウス分布)における負担率の近似値を計算する。
更に、画像処理装置8は、当該負担率の近似値を量子化テーブル21を参照して量子化し、最終的な負担率としてRAM83に記憶する(ステップ220)。
次に、画像処理装置8は、ガウス分布54−iの負担率の合計値に当該負担率を加算してRAM83に記憶することにより、当該負担率をガウス分布54−iに投票する(ステップ225)。
次に、画像処理装置8は、iを1だけインクリメントしてRAM83に記憶し(ステップ230)、記憶したiが混合数K以下か否かを判断する(ステップ235)。
iがK以下であった場合(ステップ235;Y)、画像処理装置8は、ステップ220に戻り、次のガウス分布54−iに対して同様の処理を繰り返す。
一方、iがKより大きい場合(ステップ235;N)、当該共起対応点51について全てのガウス分布54に対して投票したため、画像処理装置8は、特徴面15の全ての共起対応点51に対して負担率を計算したか否かを判断する(ステップ240)。
まだ、負担率を計算していない共起対応点51がある場合(ステップ240;N)、画像処理装置8は、ステップ210に戻って次の共起対応点51を選択する。
一方、全ての共起対応点51について負担率を計算した場合(ステップ240;Y)、画像処理装置8は、更に、全ての特徴面15について負担率による各ガウス分布54への投票処理を行ったか否かを判断する(ステップ245)。
まだ処理を行っていない特徴面15がある場合(ステップ245;N)、画像処理装置8は、ステップ205に戻って次の特徴面15を選択する。
一方、全ての特徴面15に対して処理を行った場合(ステップ245;Y)、画像処理装置8は、メインルーチンにリターンする。
図12は、本実施形態による画像認識の実験結果を示したグラフである。
図12(a)〜(d)は、それぞれ混合数K=6、16、32、64の場合を表している。
縦軸は正検出率を表しており、横軸は誤検出率を表している。実線は、従来の方法による画像認識結果を表しており、破線は、画像処理装置8による画像認識結果を表している。
各図に示したように、画像処理装置8による画像認識は、従来手法によるものを若干下回るものの、実用に十分耐えるだけの精度を確保することができた。
図13は、各混合数での画像処理装置8による画像認識結果を重ねて表したグラフである。
このようにK=6、16、32、64の各混合数の識別精度はほぼ同等であることがわかった。
K=6の場合、使用したメモリは、混合数×オフセット数×ブロック数×24bit(楕円のパラメータ:中心座標値2個、幅2個につき6bitずつ)で3.0KB程度であった。
そのため、混合数を増やさずに低混合数の画像処理装置8を採用することにより、実用的な精度を担保しつつ、メモリ消費や計算コストを低減することができる。
なお、以上に説明した実施形態では、同一の被写体に対する3つの解像度の画像を用意して、オフセット距離1〜3までの勾配方向の共起を取得したが、これに限定するものではなく、必要な画像認識精度が得られるのであれば、2種類の解像度、あるいは、4種類以上の解像度の画像を組合せることもできる。
更に、本実施形態では、高解像度画像11、中解像度画像12、低解像度画像13の複数の解像度間に渡って勾配方向の共起を取得したが、高解像度画像11内で共起を取り、中解像度画像12で共起を取り、低解像度画像13内で共起を取るといったように、各解像度内で共起を取ってそれぞれ別の特徴面15にプロットしてもよい。
あるいは、CoHOGで行うように単一の解像度内で共起を取って特徴面15を生成することもできる。
また、本実施形態では、基底関数の計算に幅方向が基準GMM55の座標軸と平行又は直角な楕円63を用いたが、幅方向が任意の角度の楕円62を用いることも可能である。
この場合、基準GMM55の分散共分散行列の非対角要素も含め、全ての要素を2のn乗に量子化すると基底関数による負担率の計算がビットシフトにより行うことができると思われる。
また、楕円62の角度に応じて座標系を回転させて座標変換することにより楕円63と同様の基底関数を適用することも可能であるが、このとき、回転角度も2のn乗で量子化すると、計算がビットシフトで容易に行える可能性がある。
以上に説明した実施形態には各種の変形が可能である。
例えば、説明した実施形態では、画像認識対象が写った画像を学習して基準GMM55を作成したが、画像認識対象が写った画像をポジティブ画像とし、背景だけの画像をネガティブ画像として、これらの差分から基準GMM55を作成することも可能である。
この方法の概略は、次の通りである。
まず、ポジティブ画像による確率分布p(x)と、ネガティブ画像による確率分布q(x)を作成する。
両者の差分をとると、両者が類似している部分が減算されて弱められ、異なる部分が残ることになる。
この減算される部分は、p(x)とq(x)が類似している部分であり、人であるのか背景であるのかが識別しにくい部分である。
そのため、差分により、人らしい特徴と背景らしい特徴をより明確に表す確率分布が生成される。
この確率分布に基づいて乱数を発生させることによりサンプルを配置し直して、人と背景の類似性が低い部分に特徴を有する基準GMM55を作成することができる。この手法は逆関数法と呼ばれている。
この基準GMM55を用いると、人と背景をより明確に画像認識することができる。
なお、単に差分を計算するのではなく、差分を計算するための計量空間(p(x)とq(x)と間の距離の測り方を定義した空間)を設定し、当該空間での差分を用いることもできる。
これらの計量空間で計量する情報量には、例えば、KL(Kullback−Leibler)情報量や、これに対称性を持たせたJS(Jensen−Shannon)情報量などがある。これらの情報量によってポジティブ画像とネガティブ画像の類似を判断して両者の違いに重きをおく基準GMM55を作成することもできる。
以上に説明した実施形態により、次のような効果を得ることができる。
(1)メモリ量が非常に大きい負担率テーブルをメモリへ格納するのではなく、負担率を計算するのに必要な基底関数を表現するパラメータをメモリへ格納することでメモリの使用量を大幅に削減することができる。
(2)負担率のテーブルをメモリへ格納するのではなく、基底関数のパラメータをメモリへ格納することで小規模なFPGAや半導体装置への実装が可能になった。
(3)学習画像から得られる勾配方向の共起ペアの頻度分布を表すGMMを楕円として近似して表現することができる。
(4)GMMを近似する際に、楕円の形状(幅)を制限して量子化することにより、より少ないメモリ使用量で実装可能となる。
(5)楕円の半径、即ち正規分布の幅を2のn乗で近似することで、推論の際にはビットシフトに基づくアルゴリズムを用いることができ、低コストな計算で負担率を算出することができる。
2 画像
3 ブロック領域
5 注目画素
8 画像処理装置
11 高解像度画像
12 中解像度画像
13 低解像度画像
15 特徴面
21 量子化テーブル
51 共起対応点
53 確率密度関数
54 ガウス分布
55 基準GMM
60 クラスタ
62 楕円
63 楕円
81 CPU
82 ROM
83 RAM
84 記憶装置
85 カメラ
86 入力部
87 出力部

Claims (9)

  1. 画像を取得する画像取得手段と、
    前記取得した画像から輝度勾配方向の共起の分布を取得する共起分布取得手段と、
    前記共起の分布を用いて基底関数を算出し、該基底関数を用いて、前記画像の特徴量を計算する計算手段と、
    前記計算した特徴量を出力する出力手段と、
    を具備したことを特徴とする画像処理装置。
  2. 画像認識の基準となる混合ガウスモデルを近似する基底関数を規定するためのパラメータを記憶するパラメータ記憶手段、を備え、
    前記計算手段は、前記取得した共起の分布を構成する各共起点から前記基底関数の中心までの距離と、前記記憶したパラメータを、前記基底関数式に代入することにより、前記混合ガウスモデルを用いた前記画像の特徴量を計算する、
    ことを特徴とする請求項1に記載の画像処理装置。
  3. 前記パラメータ記憶手段は、前記混合ガウスモデルを構成するガウス分布ごとに前記パラメータを記憶し、
    前記計算手段は、前記ガウス分布ごとに当該ガウス分布のパラメータを用いて前記特徴量の要素となる値を計算することを特徴とする請求項1、又は請求項2に記載の画像処理装置。
  4. 前記計算手段は、前記特徴量の要素の値として前記ガウス分布ごとの前記共起の分布による負担率を近似的に計算することを特徴とする請求項1、請求項2、又は請求項3に記載の画像処理装置。
  5. 前記パラメータは、各々の前記ガウス分布の幅に対応する楕円を規定する定数であることを特徴とする請求項1、請求項2、請求項3、又は請求項4に記載の画像処理装置。
  6. 前記楕円の最大幅の方向は、前記混合ガウスモデルを定義する直交座標軸に平行又は直角であることを特徴とする請求項5に記載の画像処理装置。
  7. 前記パラメータは、2の冪乗に量子化されており、前記計算手段は、ビットシフトを用いて前記計算を行うことを特徴とする請求項1から請求項6までのうちの何れか1の請求項に記載の画像処理装置。
  8. 前記出力手段が出力した特徴量を用いて前記画像を画像認識する画像認識手段を具備したことを特徴とする請求項1から請求項7までのうちの何れか1の請求項に記載の画像処理装置。
  9. 画像を取得する画像取得機能と、
    前記取得した画像から輝度勾配方向の共起の分布を取得する共起分布取得機能と、
    前記共起の分布を用いて基底関数を算出し、該基底関数を用いて、前記画像の特徴量を計算する計算機能と、
    前記計算した特徴量を出力する出力機能と、
    をコンピュータで実現することを特徴とする画像処理プログラム。
JP2019063808A 2019-03-28 2019-03-28 画像処理装置、及び画像処理プログラム Pending JP2020166342A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2019063808A JP2020166342A (ja) 2019-03-28 2019-03-28 画像処理装置、及び画像処理プログラム
EP20778101.4A EP3951707A4 (en) 2019-03-28 2020-03-30 IMAGE PROCESSING DEVICE AND IMAGE PROCESSING PROGRAM
US17/599,441 US20220180546A1 (en) 2019-03-28 2020-03-30 Image processing device and image processing program
PCT/JP2020/014637 WO2020196918A1 (ja) 2019-03-28 2020-03-30 画像処理装置、及び画像処理プログラム
CN202080024604.3A CN113678166A (zh) 2019-03-28 2020-03-30 图像处理装置以及图像处理程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019063808A JP2020166342A (ja) 2019-03-28 2019-03-28 画像処理装置、及び画像処理プログラム

Publications (1)

Publication Number Publication Date
JP2020166342A true JP2020166342A (ja) 2020-10-08

Family

ID=72609500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019063808A Pending JP2020166342A (ja) 2019-03-28 2019-03-28 画像処理装置、及び画像処理プログラム

Country Status (5)

Country Link
US (1) US20220180546A1 (ja)
EP (1) EP3951707A4 (ja)
JP (1) JP2020166342A (ja)
CN (1) CN113678166A (ja)
WO (1) WO2020196918A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018143278A1 (ja) * 2017-01-31 2018-08-09 株式会社エクォス・リサーチ 画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム
JP2018124963A (ja) * 2017-01-31 2018-08-09 株式会社エクォス・リサーチ 画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8311954B2 (en) * 2007-11-29 2012-11-13 Nec Laboratories America, Inc. Recovery of 3D human pose by jointly learning metrics and mixtures of experts
WO2014087506A1 (ja) * 2012-12-05 2014-06-12 三菱電機株式会社 語義推定装置、語義推定方法及び語義推定プログラム
JP6656988B2 (ja) * 2016-03-30 2020-03-04 株式会社エクォス・リサーチ 画像処理装置、半導体装置、画像認識装置、移動体装置、及び画像処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018143278A1 (ja) * 2017-01-31 2018-08-09 株式会社エクォス・リサーチ 画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム
JP2018124963A (ja) * 2017-01-31 2018-08-09 株式会社エクォス・リサーチ 画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム

Also Published As

Publication number Publication date
EP3951707A4 (en) 2022-05-18
WO2020196918A1 (ja) 2020-10-01
US20220180546A1 (en) 2022-06-09
EP3951707A1 (en) 2022-02-09
CN113678166A (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN109753885B (zh) 一种目标检测方法、装置以及行人检测方法、系统
CN108292362B (zh) 用于光标控制的手势识别
CN108108751B (zh) 一种基于卷积多特征和深度随机森林的场景识别方法
WO2023093186A1 (zh) 基于神经辐射场的行人重识别三维数据集构建方法和装置
CN109598794B (zh) 三维gis动态模型的构建方法
CN109583483B (zh) 一种基于卷积神经网络的目标检测方法和系统
JP4613994B2 (ja) 動態推定装置、動態推定方法、プログラム
Qiu et al. RGB-DI images and full convolution neural network-based outdoor scene understanding for mobile robots
CN106845341B (zh) 一种基于虚拟号牌的无牌车辆识别方法
Hoang et al. Enhanced detection and recognition of road markings based on adaptive region of interest and deep learning
CN110879994A (zh) 基于形状注意力机制的三维目测检测方法、系统、装置
CN112257605A (zh) 基于自标注训练样本的三维目标检测方法、系统及装置
CN109977834B (zh) 从深度图像中分割人手与交互物体的方法和装置
CN114463736A (zh) 一种基于多模态信息融合的多目标检测方法及装置
DE102022100360A1 (de) Framework für maschinelles lernen angewandt bei einer halbüberwachten einstellung, um instanzenverfolgung in einer sequenz von bildframes durchzuführen
CN110633640A (zh) 优化PointNet对于复杂场景的识别方法
Liu et al. Visual object tracking with partition loss schemes
US11468572B2 (en) Image processing device, image recognition device, image processing program, and image recognition program
CN113673562A (zh) 一种特征增强的方法、目标分割方法、装置和存储介质
JP2019133545A (ja) 特徴表現装置、それを含む認識システム、及び特徴表現プログラム
JP7165353B2 (ja) 画像特徴量出力装置、画像認識装置、画像特徴量出力プログラム、及び画像認識プログラム
CN116703996A (zh) 基于实例级自适应深度估计的单目三维目标检测算法
WO2018143278A1 (ja) 画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム
WO2020196918A1 (ja) 画像処理装置、及び画像処理プログラム
CN116758212A (zh) 基于自适应去噪算法的3d重建方法、装置、设备及介质

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20210728

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220819

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230227