JP4741804B2

JP4741804B2 - 画像処理装置及び画像処理方法

Info

Publication number: JP4741804B2
Application number: JP2004050489A
Authority: JP
Inventors: 高康山口; 節之本郷
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2004-02-25
Filing date: 2004-02-25
Publication date: 2011-08-10
Anticipated expiration: 2024-02-25
Also published as: JP2005242592A

Description

本発明は、撮影画像から撮影画像に含まれる未知の撮影対象を判別する画像処理装置及び画像処理方法に関する。

従来、撮影画像から当該撮影画像に含まれる撮影対象を判別する際に用いられる特徴量には様々なものがある。色の特徴量や形状（構図）の特徴量などが、その例である。近年、これら複数の画像特徴量を組み合わせて高次元特徴量を作成し、撮影対象の判別を行う方法が提案されている（例えば、特許文献１参照）。
特開２００３−２８９５５１号公報（「００８９」〜「００９１」段落、図１０）

しかしながら、複数の画像特徴量を組み合わせることにより、特徴量の次元が高くなると、その次元数に応じて計算処理量が大きくなっていた。

そこで、本発明は、上記の課題に鑑み、画像特徴量の次元数を低く抑え、計算処理量を小さくし、撮影画像から撮影画像に含まれる撮影対象を正しく判別する画像処理装置及び画像処理方法を提供することを目的とする。

上記目的を達成するため、本発明の第１の特徴は、撮影画像から撮影画像に含まれる未知の撮影対象を判別する画像処理装置であって、（イ）撮影画像の任意の領域毎に、色空間で表現された撮影画像の信号を量子化し、色空間における各軸の量子化レベルの値の頻度を色ヒストグラムとして抽出する第１の特徴量抽出手段と、（ロ）任意の領域毎の色ヒストグラムを結合し、撮影画像全体の特徴量を抽出する第２の特徴量抽出手段と、（ハ）撮影画像全体の特徴量に基づいて、未知の撮影対象を判別する判別手段とを備える画像処理装置であることを要旨とする。ここで、「色空間」には、均等色空間（Ｌ^*、ａ^*、ｂ^*空間）、ＲＧＢ色空間、ＣＭＹＫ色空間、Ｌ^*、ｕ^*、ｖ^*空間、ＹＵＶ空間、ＸＹＺ空間などの様々な色空間が含まれる。

第１の特徴に係る画像処理装置によると、画像特徴量の次元数を低く抑え、計算処理量を小さくし、撮影画像から撮影画像に含まれる撮影対象を正しく判別することができる。ここで、「次元数」とは、ベクトルである、特徴量の各要素数をいう。

又、第１の特徴に係る画像処理装置は、任意の領域毎の色ヒストグラムに、任意の重みを掛け合わせる重み付け手段を更に備え、第２の特徴量抽出手段は、重みを掛け合わされた任意の領域毎の色ヒストグラムを結合してもよい。この画像処理装置によると、各領域で抽出した特徴量のベクトルの大きさについてバランスを取ることができる。

又、任意の重みは、任意の領域毎の色ヒストグラムの次元の値の合計値の逆数であってもよい。この画像処理装置によると、ベクトルを正規化して結合を行うことができる。

又、第１の特徴に係る画像処理装置は、複数の撮影画像全体の特徴量それぞれに基づいて算出された複数の所定のパラメータを記憶する記憶手段と、所定のパラメータを算出するパラメータ算出手段とを更に備え、判別手段は、所定のパラメータを用いることにより、未知の撮影対象を判別してもよい。この画像処理装置によると、特徴量を用いて算出されたパラメータを用いて、未知の撮影対象の判別を行うことができる。

又、lを既知の撮影対象の番号、Lを既知の撮影対象の数、N^(l)をl番目の既知の撮影対象に対する撮影画像の数、vを特徴量の次元の番号、Vを特徴量の最大次元数、x^(l) _(n,v)をl番目の既知の撮影対象に属するｎ番目の撮影画像のv番目の次元の特徴量、γを任意の値、θ_(v,l)をl番目の既知の撮影対象に属する特徴量のv番目の次元における所定パラメータ、x’_(v)を未知の撮影対象が含まれる撮影画像のv番目の次元の特徴量、Ｆ_(l)を前記未知の撮影対象がl番目の既知の撮影対象に属する度合いを示す判別値として、第１の特徴に係る画像処理装置のパラメータ算出手段は、以下の式によって、所定のパラメータを算出し、

判別手段は、以下の式によって得られた判別値が最も大きい撮影画像を、撮影対象として認識してもよい。

この画像処理装置によると、特徴量を用いて算出されたパラメータを用いて、判別値を算出し、未知の撮影対象の判別を行うことができる。又、式（１）及び式（２）は、いわゆるＮＢ（ナイーブ・ベイズ）の手法であり、未知の撮影対象が既知の撮影対象に該当する確率を、複数の既知の撮影対象それぞれに算出することができ、かつ、処理速度が早いという利点を有する。

本発明の第２の特徴は、撮影画像から撮影画像に含まれる未知の撮影対象を判別する画像処理方法であって、（イ）撮影画像の任意の領域毎に、色空間で表現された撮影画像の信号を量子化し、色空間における各軸の量子化レベルの値の頻度を色ヒストグラムとして抽出する第１の特徴量抽出ステップと、（ロ）任意の領域毎の色ヒストグラムを結合し、撮影画像全体の特徴量を抽出する第２の特徴量抽出ステップと、（ハ）撮影画像全体の特徴量に基づいて、未知の撮影対象を判別するステップとを含む画像処理方法であることを要旨とする。

第２の特徴に係る画像処理方法によると、画像特徴量の次元数を低く抑え、計算処理量を小さくし、撮影画像から撮影画像に含まれる撮影対象を正しく判別することができる。

本発明によると、画像特徴量の次元数を低く抑え、計算処理量を小さくし、撮影画像から撮影画像に含まれる撮影対象を正しく判別する画像処理装置及び画像処理方法を提供することができる。

次に、図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一又は類似の部分には、同一又は類似の符号を付している。ただし、図面は模式的なものであることに留意すべきである。

（画像処理システム）
本実施形態に係る画像処理システムは、図１に示すように、ユーザの入力を受け付けて画像処理サーバ１（画像処理装置）に処理を依頼し、画像処理サーバ１での処理結果を出力する端末装置２ａ、２ｂ、２ｃと、通信ネットワーク（インターネット等）３を介して、端末装置２ａ、２ｂ、２ｃからの処理依頼を受け付けて処理を行い、端末装置２ａ、２ｂ、２ｃに処理結果を送信する画像処理サーバ１とを備える。

ユーザは、端末装置２ａ、２ｂ、２ｃを、学習モードと判別モードの２種類のモードを切り換えて使用することができる。「学習モード」とは、既知である撮影対象を撮影し、この撮影画像と撮影対象を特定する情報を画像処理サーバ１へ送信することにより、画像処理サーバ１が撮影画像を学習するモードである。一方、「判別モード」とは、未知である撮影対象を撮影し、この撮影画像を画像処理サーバ１へ送信することにより、画像処理サーバ１が撮影対象を判別し、判別結果を、端末装置２ａ、２ｂ、２ｃへ送信するモードである。

学習モードである場合、画像処理サーバ１は、端末装置２ａ、２ｂ、２ｃから受信した、撮影対象に関する情報や撮影対象を撮影した撮影画像から撮影対象のグルーピングを行い、各撮影対象情報及び画像を記憶する。

判別モードである場合、画像処理サーバ１は、端末装置２ａ、２ｂ、２ｃの位置情報と、端末装置２ａ、２ｂ、２ｃから受信した撮影画像が撮影された位置に近い、予め登録された撮影対象の情報を取り出し、撮影画像に含まれる撮影対象を確率的に判別する。又、画像処理サーバ１は、判別結果となる複数の撮影対象の候補と、各候補が撮影対象である確率と、それら撮影対象に関連する情報を端末装置２ａ、２ｂ、２ｃに送信する。

画像処理サーバ１は、図２に示すように、通信手段１１と、判別手段１２と、特徴量抽出手段１３と、登録手段１４と、学習手段１５と、演算装置１６と、記憶装置１７と、重み付け手段１８とを備える。

通信手段１１は、通信ネットワーク３（インターネット等）を介し、端末装置２ａ、２ｂ、２ｃから、撮影画像及び撮影対象の情報を受信する。又、通信手段１１は、判別モードである場合、通信ネットワーク３（インターネット等）を介し、端末装置２ａ、２ｂ、２ｃへ撮影対象の情報及び判別結果を送信する。

特徴量抽出手段１３は、撮影対象を判別する際の指標となる特徴量を抽出する。具体的には、特徴量抽出手段１３は、撮影画像の任意の領域毎に、均等色空間で表現された撮影画像の信号を量子化し、均等色空間における各軸の量子化レベルの値の頻度を色ヒストグラムとして抽出する。そして、特徴量抽出手段１３は、任意の領域毎の色ヒストグラムを結合し、撮影画像全体の特徴量を抽出する。即ち、特徴量抽出手段１３は、既知の撮影画像１枚毎に、次元数（V）分の要素を有する撮影画像全体の特徴量（x）を抽出する。特徴量（x）は、一定の要素数を有するベクトルである。以下の説明において、x、x’は、ベクトルである。

又、複数の既知の撮影対象に属する撮影画像の特徴量をXで表す。lを既知の撮影対象の番号、nを撮影画像毎に付与した番号、vを特徴量の次元の番号とすると、特徴量Xは、各要素x^(l) _(n,v)からなるマトリクスで表される。

学習手段１５（パラメータ算出手段）は、式（１）を用いて、特徴量抽出手段１３によって抽出された特徴量に基づいて、学習パラメータΘを算出する。Vを特徴量の最大次元、Lを既知の撮影対象の数とすると、学習パラメータΘは、各要素θ_(v,l)をV×L個並べたマトリクスである。

式（１）において、lは既知の撮影対象の番号、Lは既知の撮影対象の数、N^(l)はl番目の既知の撮影対象に対する撮影画像の数、vは特徴量の次元の番号、Vは特徴量の最大次元数、x^(l) _(n,v)はl番目の既知の撮影対象に属するｎ番目の撮影画像のv番目の次元の特徴量、γは任意の値、θ_(v,l)はl番目の既知の撮影対象に属する特徴量のv番目の次元における学習パラメータである。

上記の説明において、v、l、n（小文字）は変数であり、V、L、N（大文字）は固定値である。又、x、x’（小文字）は、ベクトルであり、X及びΘ（大文字）は、マトリクスである。

具体的には、学習手段１５（パラメータ算出手段）は、式（１）を用いて、l番目の既知の撮影対象に属する特徴量のv番目の次元の学習パラメータθ_(v,l)を算出する。

判別手段１２は、判別モードの際に受信した撮影画像について、式（２）を用いて、学習手段１５（パラメータ算出手段）によって算出された学習パラメータを用いることにより、未知の撮影対象を判別する。

式（２）において、x’_(v)は未知の撮影対象が含まれる撮影画像のv番目の次元の特徴量、Ｆ_(l)は前記未知の撮影対象がl番目の既知の撮影対象に属する度合いを示す判別値である。

具体的には、判別手段１２は、l番目の既知の撮影対象に属する特徴量のv番目の次元の学習パラメータθ_(v,l)を用いて、未知の撮影対象が含まれる撮影画像に属する特徴量x’が、l番目の既知の撮影対象に属する度合いを示すＦ_(l)の値を算出する。ここで、Ｆ_(l)の値が大きいほど、未知の撮影対象は、l番目の既知の撮影対象である確率が高いと判断する。

このように、式（２）によるＦ_(l)の算出をL回行えば、Ｆ_(l)の値に応じて、未知の撮影対象がL種類の撮影対象のどれに属するかを順位付けて判別することができる。

登録手段１４は、演算装置１６を介して記憶装置１７に撮影画像毎の特徴量や学習パラメータを登録する。

重み付け手段１８は、任意の領域毎の色ヒストグラムに、任意の重みを掛け合わせる。特徴量抽出手段１３は、重み付け手段１８によって、重みを掛け合わされた任意の領域毎の色ヒストグラムを結合する。任意の重みは、例えば、任意の領域毎の色ヒストグラムの次元の値の合計値の逆数とすることができる。

演算装置１６は、通信手段１１と、判別手段１２と、特徴量抽出手段１３と、登録手段１４と、学習手段１５と、記憶装置１７、重み付け手段１８の動作を制御する。

又、本発明の実施の形態に係る画像処理サーバ１は、処理制御装置（ＣＰＵ）を有し、通信手段１１、判別手段１２、特徴量抽出手段１３、登録手段１４、学習手段１５、重み付け手段１８などをモジュールとしてＣＰＵに内蔵する構成とすることができる。これらのモジュールは、パーソナルコンピュータ等の汎用コンピュータにおいて、所定のプログラム言語を利用するための専用プログラムを実行することにより実現することができる。又、記憶装置１７は、複数の撮影画像の特徴量、複数の撮影画像それぞれに基づいて算出された複数の所定の学習パラメータ、撮影画像データ、登録対象情報、登録対象関連情報、判定値などを保存する記録媒体である。記録媒体は、例えば、ＲＡＭ、ＲＯＭ、ハードディスク、フレキシブルディスク、コンパクトディスク、ＩＣチップ、カセットテープなどが挙げられる。このような記録媒体によれば、撮影画像データ、学習パラメータ、登録対象情報などの保存、運搬、販売などを容易に行うことができる。

端末装置２ａ、２ｂ、２ｃは、学習モードと判別モードの２種類のモードを切り換えることができる。

学習モードである場合、端末装置２ａ、２ｂ、２ｃは、搭載されたカメラによって、既知の撮影対象を撮影する。端末装置２ａ、２ｂ、２ｃは、予めユーザによって登録された登録対象情報と登録対象関連情報とともに、撮影画像を画像処理サーバ１に送信する。ここで、「登録対象情報」とは、撮影画像に写っている撮影対象を特定するための情報である。又、「登録対象関連情報」とは、撮影対象の位置情報、撮影対象に関連する情報（名称、ＵＲＬなど）などである。

判別モードである場合、端末装置２ａ、２ｂ、２ｃは、搭載されたカメラによって、未知の撮影対象を撮影する。端末装置２ａ、２ｂ、２ｃは、位置情報とともに、撮影画像を画像処理サーバ１に送信する。そして、端末装置２ａ、２ｂ、２ｃは、画像処理サーバ１から判別結果となる複数の撮影対象の候補と、各候補が撮影対象である確率と、それら撮影対象に関連する情報を受信し、上述したＦ_(l)の値を元に「登録対象情報」と「登録対象関連情報」を順位付けて、ユーザに提示する。ユーザは、それら順位付けされた候補の中から所望のデータを簡単に取り出すことができる。

端末装置２は、図３に示すように、入力手段２１と、通信手段２２と、出力手段２３と、撮影手段２４と、測位手段２５と、演算装置２６と、記憶装置２７とを備える。

通信手段２２は、通信ネットワーク３（インターネット）を介し、画像処理サーバ１へ、撮影画像及び撮影対象の情報を送信する。又、通信手段２２は、判別モードである場合、通信ネットワーク３（インターネット）を介し、画像処理サーバ１から、撮影対象の情報及び判別結果を受信する。

撮影手段２４は、具体的には、搭載されたカメラなどを指し、対象を撮影し、撮影画像を取得する。

測位手段２５は、端末装置２の位置や撮影対象の位置を測定する。

入力手段２１は、タッチパネル、キーボード、マウス等の機器を指す。入力手段２１から入力操作が行われると対応するキー情報が演算装置２６に伝達される。出力手段２３は、モニタなどの画面を指し、液晶表示装置（ＬＣＤ）、発光ダイオード（ＬＥＤ）パネル、エレクトロルミネッセンス（ＥＬ）パネル等が使用可能である。

演算装置２６は、入力手段２１と、通信手段２２と、出力手段２３と、撮影手段２４と、測位手段２５と、記憶装置２７の動作を制御する。又、演算装置２６は、入力手段２１から入力されたキー情報などによって、学習モードと判別モードを切り換える切換手段として動作する。

記憶装置２７は、撮影画像、登録対象情報、登録対象関連情報などを保存する記録媒体である。

（画像処理方法）
次に、本実施形態に係る画像処理方法について、図４〜９を用いて説明する。

まず、撮影画像の登録方法について、図４を用いて説明する。

（イ）まず、ステップＳ１０１において、端末装置２は、学習モードにおいて既知の登録対象を撮影し、その画像を取得する。

（ロ）次に、ステップＳ１０２において、端末装置２は、登録対象情報を入力し、ステップＳ１０３において、端末装置２は、登録対象関連情報を入力する。登録対象情報及び登録対象関連情報の入力は、撮影前に予め行っていても構わない。例えば、撮影した画像が図９に示すような洋菓子店舗の場合、「登録対象情報」として、“ケーキ屋”などを入力し、「登録対象関連情報」として、“ＡＡＡ洋菓子店”、ＡＡＡ洋菓子店の住所、ＡＡＡ洋菓子店のＵＲＬなどを入力する。

（ハ）次に、ステップＳ１０４において、端末装置２は、登録対象を撮影した地点の位置情報、測位誤差、撮影時刻、可能であれば撮影対象までの距離や方向を取得する。

（ニ）次に、ステップＳ１０５において、端末装置２は、画像処理サーバ１に登録対象情報、登録対象関連情報、位置情報、取得画像データを送信する。

（ホ）次に、ステップＳ１０６において、画像処理サーバ１は、登録対象情報、登録対象関連情報、位置情報、取得画像を送信する。そして、ステップＳ１０７において、画像処理サーバ１は、登録画像の特徴量を抽出する。この特徴量の抽出方法は、後に詳述する。

（へ）次に、ステップＳ１０８において、画像処理サーバ１は、登録対象情報、登録対象関連情報、登録対象画像、特徴量及び画像処理サーバ１での登録時刻を記憶装置１７に記憶する。

次に、撮影対象を学習する方法について、図５を用いて説明する。

（イ）まず、ステップＳ２０１において、画像処理サーバ１は、記憶装置１７から撮影対象情報、撮影対象関連情報、取得画像データ、特徴量を読み出す。

（ロ）次に、ステップＳ２０２において、画像処理サーバ１は、位置情報による対象のグルーピングを行って対象を絞り込む。後述する撮影対象の判別時に随時学習を行う場合は、端末装置２から端末装置２の位置情報を受信して、検索範囲内にある撮影対象を学習する。ここで、「検索範囲」とは、判別対象を中心として半径が（測位誤差）＋（対象までの距離）以内のエリアを指す。又、ここで用いる位置情報は、任意の位置を受け付けることが可能である。例えば、予め判別が行われそうな位置を用いて学習を行っても良いし、端末の位置情報を用いて判別する際に随時学習を行っても良い。

（ハ）次に、ステップＳ２０３において、画像処理サーバ１は、対象の学習を行う。具体的には、上述した式（１）を用いて学習パラメータの算出を行う。

（ニ）次に、ステップＳ２０４において、画像処理サーバ１は、対象の学習結果（学習パラメータ）を記憶する。

次に、撮影対象を判別する方法について、図６を用いて説明する。

（イ）まず、ステップＳ３０１において、端末装置２は、判別モードにおいて未知の判別対象を撮影し、画像を取得する。次に、ステップＳ３０２において、端末装置２は、判別対象関連情報（判別対象の位置情報、その測位誤差、対象までの距離等）を取得する。

（ロ）次に、ステップＳ３０３において、端末装置２は、画像処理サーバ１に判別対象関連情報及び判別画像を送信する。次に、ステップＳ３０４において、画像処理サーバ１は、判別対象関連情報及び判別画像を受信する。次に、ステップＳ３０５において、画像処理サーバ１は、判別画像の特徴量を抽出する。この特徴量の抽出方法は、後に詳述する。

（ハ）次に、ステップＳ３０６において、画像処理サーバ１は、判別対象の絞り込みを行う。次に、ステップＳ３０７において、画像処理サーバ１は、検索範囲の学習が完了しているか否か判断する。完了している場合は、ステップＳ３０８の処理に進み、完了していない場合は、ステップＳ３０９の処理に進む。

（ニ）ステップＳ３０９において、画像処理サーバ１は、図５のステップＳ２０３において説明した学習を行う。そして、ステップＳ３０８において、画像処理サーバ１は、判別画像の特徴量と学習パラメータを用いて対象判別を確率的に行う。具体的には、具体的には、上述した式（２）を用いて判定値を求め、判別候補となる撮影画像を求める。

（ホ）次に、ステップＳ３１０において、画像処理サーバ１は、判別結果の候補に関する撮影対象情報及び撮影対象関連情報を記憶装置１７から読み出し、撮影対象情報、撮影対象関連情報、判別結果を端末装置２に送信する。

（へ）次に、ステップＳ３１０において、端末装置２は、確率的な判別結果を元に撮影対象情報と撮影対象関連情報に優先度をつけて（例えば、確率の高い候補を画面の上部に表示するなど）ユーザに提示する。これにより、ユーザは未知の登録対象に関連したＵＲＬ等のアドレスを元にして、ネットワークからさらに対象に関連する情報を引き出すことができる。

図６に示す判別処理によると、例えば、ユーザが、端末装置２によって未知の撮影対象である店舗Ａを撮影し、その撮影画像を画像処理サーバ１へ送信すると、画像処理サーバ１が店舗Ａを判別し、店舗Ａの名称、ＵＲＬ等を端末装置２に送信することができる。このため、端末装置２は、撮影画像からその撮影対象に関する情報を容易に得ることができる。

次に、図４のステップＳ１０７及び図６のステップＳ３０５における特徴量の抽出方法の詳細について、図７を用いて説明する。

（イ）まず、ステップＳ４０１において、画像処理サーバ１は、端末装置２に搭載したカメラによって対象の撮影画像を取得する。ここでは、図９に示す画像を取得したことを例にとり説明する。この取得した画像は、カメラや端末装置２の機能によりホワイトバランス等の一般的な画像補正を行われていてもよい。

（ロ）次に、ステップＳ４０２において、画像処理サーバ１は、取得画像にノイズ除去の画像補正処理を施す。この補正画像に対して、ステップＳ４０３において、撮影画像を任意の領域に分割し、領域毎の色ヒストグラムを抽出する。各領域の色ヒストグラムは、Ｖｃ次元の特徴量（Ｖｃ個の要素を有するベクトル値）として表される。領域の分割方法として、図９では、格子状に分割したものを示したが、放射状でも円形状でもよく、分割形状はこれに限らない。又、領域は等分割されなくてもよい。色ヒストグラムの抽出方法については、後に詳述する。

（ハ）次に、ステップＳ４０４において、任意の領域毎の色ヒストグラムを結合し、撮影画像全体の特徴量を抽出する。特徴量は、一定の要素数を有するベクトル値である。例えば、各領域の色ヒストグラムがＶｃ次元、領域分割数がＳであるとき、両者の特徴量を結合した特徴量の次元ＶがＶ＝Ｓ×Ｖｃとなるように、独立の次元として結合を行う。例えば、図９に示す撮影画像は、縦４×横６＝２４領域に分割されているので、各領域の色ヒストグラムが２４次元であると、画像領域全体の特徴量は、２４×２４＝５７６次元となる。

次に、図７のステップＳ４０３における色ヒストグラムの抽出方法の詳細について、図８を用いて説明する。

（イ）まず、ステップＳ５０１において、画像処理サーバ１は、任意の領域毎に、補正画像を視覚的に均等な空間である均等色空間（Ｌ^*、ａ^*、ｂ^*）で表現する。

（ロ）次に、ステップＳ５０２において、画像処理サーバ１は、均等色空間における各軸を独立に等間隔で量子化を行う。

（ハ）次に、ステップＳ５０３において、Ｌ^*、ａ^*、ｂ^*の量子化レベルの値の頻度を色ヒストグラムとする。例えば、Ｌ^*、ａ^*、ｂ^*の３軸の量子化レベルを８とした場合には、色ヒストグラムは、２４（＝３×８）次元（上述したＶｃ次元）の特徴量となる。このとき、色ヒストグラムには、色の３原色の割合や各ピクセルの輝度値が含まれる。例えば、図９に示す撮影画像は、縦４×横６＝２４領域に分割されているので、２４個の領域毎に、２４次元の特徴量が算出される。

（ニ）次に、ステップＳ５０４において、任意の領域毎の色ヒストグラムに、任意の重みを掛け合わせる。任意の重みは、例えば、任意の領域毎の色ヒストグラムの次元の値の合計値の逆数とすることができる。各領域は等分割されているとは限らないので、重みとして、上記の合計値の逆数を掛け合わせることにより、色ヒストグラムを正規化することができる。その他、撮影画像の中心に近い領域に大きな重みを掛け合わせるなど、掛け合わせる重みは、実情に即したものを適宜選択することとする。

（作用及び効果）
本実施形態に係る画像処理装置及び画像処理方法によると、撮影画像の任意の領域毎に、色ヒストグラムを抽出し、それらを結合した特徴量に基づいて、撮影対象を判別することができる。このため、画像特徴量の次元数を低く抑え、計算処理量を小さくし、撮影画像から撮影画像に含まれる撮影対象を正しく判別することができる。

例えば、図９に示す撮影画像が１００ピクセル×１００ピクセルの画像であるとする。この撮影画像に対して、従来の輝度値及び色の特徴量を結合する処理を行う。具体的には、各ピクセルの輝度値を特徴量として、１００×１００＝１０，０００次元を算出し、色の特徴量として、Ｌ^*、ａ^*、ｂ^*の３軸の量子化レベルを８とした場合に、３×８＝２４次元を算出する。これらを結合すると、撮影画像全体の特徴量は、１０，０００＋２４＝１０，０２４次元となる。一方、本実施形態において説明したように、図９に示す撮影画像を縦４×横６＝２４領域に分割し、領域毎に色ヒストグラムを抽出すると、Ｌ^*、ａ^*、ｂ^*の３軸の量子化レベルを８とした場合には、領域毎の色ヒストグラムは、２４（＝３×８）次元となる。これらを結合すると、撮影画像全体の特徴量は、２４次元×２４領域＝５７６次元となる。このように、本実施形態によると、大幅に画像特徴量の次元数を低く抑え、計算処理量を小さくすることができる。

又、本実施形態に係る画像処理装置及び画像処理方法によると、任意の領域毎の色ヒストグラムに任意の重みを掛け合わせ、この重みを掛け合わされた色ヒストグラムを結合することにより特徴量を抽出することができる。このため、各領域で抽出した特徴量のベクトルの大きさについてバランスを取ることができる。

又、任意の重みは、任意の領域毎の色ヒストグラムの次元の値の合計値の逆数とすることができる。このため、ベクトルを正規化して結合を行うことができる。

又、本実施形態に係る画像処理装置及び画像処理方法によると、複数の撮影画像全体の特徴量それぞれに基づいて算出された複数の所定のパラメータを用いることにより、未知の撮影対象を判別することができる。このため、特徴量を用いて算出されたパラメータを用いて、未知の撮影対象の判別を行うことができる。

又、本実施形態に係る画像処理装置及び画像処理方法によると、上述した式（１）を用いて、所定のパラメータを算出し、式（２）によって得られた判別値が最も大きい撮影画像を、撮影対象として認識することができる。式（１）及び式（２）は、いわゆるＮＢ（ナイーブ・ベイズ）の手法であり、未知の撮影対象が既知の撮影対象に該当する確率を、複数の既知の撮影対象それぞれに算出することができ、かつ、処理速度が早いという利点を有する。

（その他の実施の形態）
本発明は上記の実施の形態によって記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなろう。

例えば、上述した実施形態において、ＮＢ（ナイーブ・ベイズ）の手法を用いて、学習パラメータを取得し、未知の撮影対象を判別する例を示した。しかし、ＮＢに限らず、他のベイズ手法やＳＶＭ（サポート・ベクター・マシン）、ｋＮＮ（ｋニアレスト・ネイバー）、ＬＶＱ（ラーニング・ベクター・クォンタイゼーション）などの他の学習アルゴリズムを用いて、学習パラメータを取得し、未知の撮影対象を判別しても構わない。

又、実施形態に係る画像処理サーバ１は、通信手段１１と、判別手段１２と、特徴量抽出手段１３と、登録手段１４と、学習手段１５と、重み付け手段１８とをモジュールとしてＣＰＵに内蔵する構成とすることができると説明したが、それらが二つあるいはそれ以上のＣＰＵに分かれていても構わない。その際はそれらのＣＰＵ間でデータのやりとりが行えるようにバスなどで装置間を接続しているとする。

このように、本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。

本発明の実施の形態に係る画像処理システムの構成ブロック図である。本発明の実施の形態に係る画像処理サーバの構成ブロック図である。本発明の実施の形態に係る端末装置の構成ブロック図である。本発明の実施の形態に係る登録処理を示すフローチャートである。本発明の実施の形態に係る学習処理を示すフローチャートである。本発明の実施の形態に係る判別処理を示すフローチャートである。本発明の実施の形態に係る特徴量抽出処理を示すフローチャートである。図７のステップＳ４０３の詳細を示すフローチャートである。本発明の実施の形態に係る撮影画像の一例である。

符号の説明

１画像処理サーバ
２端末装置
１１通信手段
１２対象判別手段
１３特徴量抽出手段
１４登録手段
１５学習手段
１６演算装置
１７記憶装置
１８重み付け手段
２１入力手段
２２通信手段
２３出力手段
２４撮影手段
２５測位手段
２６演算装置
２７記憶装置

Claims

撮影画像から該撮影画像に含まれる未知の撮影対象を判別する画像処理装置であって、
前記撮影画像全体を構成する複数の領域毎に、前記複数の領域のそれぞれを構成する複数のピクセルについて、色空間を構成する複数の軸毎の値を複数の量子化レベルで量子化し、前記複数の量子化レベルのそれぞれにおいて前記複数の軸毎に量子化された値の頻度を色ヒストグラムとして抽出する特徴量抽出手段と、
前記撮影画像全体について、前記複数の領域毎に抽出された前記色ヒストグラムを結合し、前記色ヒストグラムの結合である結合特徴量を抽出する第２の特徴量抽出手段と、
複数種類の既知の撮影対象に対応する前記結合特徴量と前記撮影画像全体に対応する前記結合特徴量との比較によって、前記未知の撮影対象が前記複数種類の既知の撮影対象のどれに属するかを順位付けて判別する判別手段とを備え、
前記複数種類の既知の撮影対象に対応する前記結合特徴量は、グルーピングされた撮影画像の学習によって構成されることを特徴とする画像処理装置。
前記複数の領域毎に抽出された前記色ヒストグラムに、任意の重みを掛け合わせる重み付け手段を更に備え、
前記第２の特徴量抽出手段は、前記任意の重みを掛け合わされた前記色ヒストグラムを結合することを特徴とする請求項１に記載の画像処理装置。
前記任意の重みは、前記複数の領域毎に定められており、前記色ヒストグラムの度数の合計値の逆数であり、
前記色ヒストグラムの度数の合計値は、前記複数の領域毎のピクセル数と前記複数の量子化レベルの数との乗算結果であることを特徴とする請求項２に記載の画像処理装置。
前記任意の重み付けは、前記複数の領域毎に定められており、前記撮影画像の中心に近いほど大きな値を有することを特徴とする請求項２に記載の画像処理装置。
ｌを前記複数種類の既知の撮影対象を識別する番号、Lを前記複数の既知の撮影対象の数、N^(l)をｌ番目の既知の撮影対象に対する複数の撮影画像の数、ｖを前記結合特徴量の次元を識別する番号、Ｖを前記結合特徴量の最大次元数、ｘ^(l) _(n,v)を前記l番目の既知の撮影対象に属するｎ番目の撮影画像に対応するｖ番目の結合特徴量、γ_（ｌ）を前記l番目の既知の撮影対象に対応するスムージング係数、ｘ’_(v)を前記未知の撮影対象が含まれる前記撮影画像に対応する前記ｖ番目の結合特徴量とした場合に、
前記ｌ番目の既知の撮影対象に対応する前記ｖ番目の結合特徴量θ_{（ｖ，ｌ）}は、以下の式によって算出され、

前記未知の撮影対象が前記ｌ番目の既知の撮影対象に属するかを順位付けるための判別値Ｆ_（ｌ）は、以下の式によって算出され、

前記判別手段は、前記判別値Ｆ_（ｌ）に基づいて、前記未知の撮影対象が前記複数種類の既知の撮影対象のどれに属するかを順位付けて判別することを特徴とする請求項１乃至請求項３のいずれかに記載の画像処理装置。
撮影画像に含まれる未知の撮影対象を判別する画像処理方法であって、
前記撮影画像全体を構成する複数の領域毎に、前記任意の領域のそれぞれを構成する複数のピクセルについて、色空間を構成する複数の軸毎の値を複数の量子化レベルで量子化し、前記複数の量子化レベルのそれぞれにおいて前記複数の軸毎に量子化された値の頻度を色ヒストグラムとして抽出する第１の特徴量抽出ステップと、
前記撮影画像全体について、前記色ヒストグラムを結合し、前記色ヒストグラムの結合である結合特徴量を抽出する第２の特徴量抽出ステップと、
複数種類の既知の撮影対象に対応する前記結合特徴量と前記撮影画像全体に対応する前記結合特徴量との比較によって、前記未知の撮影対象が前記複数種類の既知の撮影対象のどれに属するかを順位付けて判別する判別ステップとを備え、
前記複数種類の既知の撮影対象に対応する前記結合特徴量は、グルーピングされた撮影画像の学習によって構成されることを特徴とする画像処理方法。