JP2004287783A - Method and device for extracting feature amount of image - Google Patents

Method and device for extracting feature amount of image Download PDF

Info

Publication number
JP2004287783A
JP2004287783A JP2003078299A JP2003078299A JP2004287783A JP 2004287783 A JP2004287783 A JP 2004287783A JP 2003078299 A JP2003078299 A JP 2003078299A JP 2003078299 A JP2003078299 A JP 2003078299A JP 2004287783 A JP2004287783 A JP 2004287783A
Authority
JP
Japan
Prior art keywords
image
correlation
dimensional image
feature amount
meaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003078299A
Other languages
Japanese (ja)
Inventor
Sadataka Akahori
貞登 赤堀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Holdings Corp
Original Assignee
Fuji Photo Film Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Photo Film Co Ltd filed Critical Fuji Photo Film Co Ltd
Priority to JP2003078299A priority Critical patent/JP2004287783A/en
Publication of JP2004287783A publication Critical patent/JP2004287783A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To discriminate two-dimensional images with regular patterns mainly seen in artificial objects, from two-dimensional images with random patterns mainly seen in natural objects. <P>SOLUTION: The amount of correlation features showing the degree of regularity of variation along at least one direction of at least one kind of component signal values assigned to a plurality of pixels forming the two-dimensional image is extracted from the two-dimensional image using an interrelation function or the like. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、2次元画像の特徴を示す特徴量を抽出する方法および装置に関し、特に、2次元画像の意味を判定するのに有用な特徴量を抽出する方法および装置に関する。
【0002】
【従来の技術】
2次元のデジタル写真画像や動画の1フレームの比較や分類を行うために、それらの画像またはそれらをブロックに分割したブロック画像から、当該画像の特徴を示す特徴量を抽出することが従来から行われている。かかる特徴量としては、色相、彩度、明度等に関するヒストグラムから求めた平均値と標準偏差等の色特徴量を使用する場合(たとえば、特許文献1参照)や、さらに色特徴量と併用して、Sobelフィルター等のエッジ検出用フィルターを使用して求めた方向別のエッジ強度や勾配等のエッジ特徴量を使用する場合がある(たとえば、特許文献2参照)。
【0003】
このような特徴量の抽出は、2次元画像に含まれている撮影対象が何であるか、すなわち2次元画像の意味を判定するためにも用いることができる。意味の判定を行うことにより、特定の撮影対象に相当する画像領域のみに画像処理を施して高画質化を図ること等が可能となる。たとえば、色特徴量に基づいて人物の肌に相当する画像領域を特定し、その画像領域のみに対し雑音を取り除く処理を施し、美しい肌色に仕上げる技術等が提案されている(たとえば、特許文献3参照)。
【0004】
【特許文献1】
特開平7−29007号公報
【0005】
【特許文献2】
特開2000−353173号公報
【0006】
【特許文献3】
特公平5−62879号公報
【0007】
【発明が解決しようとする課題】
上記のような人物の肌に相当する画像領域以外にも、2次元画像中の種々の画像領域の意味を判定できれば、それぞれの画像領域に異なる条件で画像処理を施すことにより、さらなる高画質化が期待できる。また、デジタル写真画像や動画の1フレーム等の全体画像自体についても、「人物写真」、「建物の写真」、「海の風景写真」等の意味を判定できれば、より好適な分類等が行えるようになる。
【0008】
しかしながら、上記の色特徴量やエッジ特徴量等の従来の特徴量のみでは、画像の意味を効果的に判定することができない場合がある。たとえば、色特徴量のみを使用したのでは、肌の領域と砂の領域等を混同してしまう可能性がある。また、色特徴量とエッジ特徴量を併用しても、2つの画像間で、色の特徴と、当該画像に含まれるエッジ部分の全体量が類似していれば、建物の壁部分と窓部分の境界のような規則的なエッジを含む画像と、砂浜のテクスチャーのようなランダムなエッジを含む画像とを混同してしまう可能性がある。
【0009】
本発明は、かかる事情に鑑み、2次元画像の意味の判定、とりわけ、主に人工物に見られる規則的なパターンを有する画像と、主に自然物に見られるランダムなパターンを有する画像とを区別し、それらの画像の意味を判定するのに特に有用な特徴量を抽出することを目的とするものである。
【0010】
【課題を解決するための手段】
すなわち、本発明に係る画像の特徴量を抽出する方法は、2次元画像から、該2次元画像の特徴を表す1または複数の特徴量を抽出する方法であって、該2次元画像をなす複数の画素に割り当てられた少なくとも1種の成分信号値の少なくとも1方向に沿った変化の規則性の程度を示す、相関特徴量を抽出する工程を含むことを特徴とする方法である。
【0011】
また、本発明に係る画像の特徴量を抽出する装置は、2次元画像から、該2次元画像の特徴を表す1または複数の特徴量を抽出する装置であって、該2次元画像をなす複数の画素に割り当てられた少なくとも1種の成分信号値の少なくとも1方向に沿った変化の規則性の程度を示す、相関特徴量を抽出する手段を含むことを特徴とする装置である。
【0012】
ここで、「特徴量」とは、ある2次元画像の特徴を示すパラメータとなる量の総称であって、以下に説明する「相関特徴量」のほか、たとえば色の特徴、輝度の特徴、奥行情報、該画像に含まれるエッジの特徴等を示す特徴量が含まれ得る。
【0013】
また、「成分信号値」とは、2次元画像の各画素に割り当てられた当該画像の1成分の信号値であり、たとえば輝度成分の信号値や色差成分の信号値が含まれる。また、輝度成分の分布等から導出されたエッジ画像等、何らかの処理を施した画像の各画素の信号値や、それらの信号値を規格化したもの等も、「成分信号値」に含まれるものとする。
【0014】
さらに、「相関特徴量」とは、上記の特徴量のうち、少なくとも1種の成分信号値の少なくとも1方向(X方向、Y方向等)に沿った変化の規則性の程度、すなわち、規則的なまたはランダムな変化の程度を示す特徴量を指し、以下において詳細に説明するような相互相関関数を利用したもの等が含まれる。
【0015】
上記の2次元画像が、複数行および複数列の画素からなる方形の画像である場合には、上記の相関特徴量の抽出は、複数行のうちの2行からなる組合せの少なくとも一部および/または複数列のうちの2列からなる組合せの少なくとも一部について、各組合せごとに、上記の少なくとも1種の成分信号値の相互相関関数を導出し、該相互相関関数に基づいて相関特徴量を決定することにより行ってもよい。さらに、上記の相互相関関数に基づく相関特徴量の決定は、相互相関関数の各々について、最大値を特定し、行の組合せに関する全ての前記最大値の平均値および標準偏差、および列の組合せに関する全ての前記最大値の平均値および標準偏差の、少なくとも1つを相関特徴量とするものでもよい。
【0016】
なお、特徴量を抽出する対象である上記の2次元画像は、全体画像であってもよいし、全体画像を分割して得られたブロック画像であってもよい。
【0017】
ここで、「全体画像」とは、撮影したデジタル写真画像や、動画の1フレームの、1枚分全体に相当する2次元画像を指すものとする。一方、「ブロック画像」とは、全体画像をいくつかの領域(ブロック)に分割した各画像片を指し、たとえば、1024×1280画素の全体画像を32×32画素の大きさに分割したそれぞれの画像片等がこれに相当する。
【0018】
また、本発明は、上記の相関特徴量を含む抽出された1または複数の特徴量に基づいて、さらに2次元画像の意味を判定するものであってもよい。あるいは、本発明は、上記の相関特徴量に加えて、2次元画像の少なくとも1方向に関するエッジ特徴量を抽出し、相関特徴量およびエッジ特徴量を含む抽出された1または複数の特徴量に基づいて、2次元画像の意味を判定するものであってもよい。これらの場合において、上記の意味の判定は、自己組織化マップを用いて行ってもよい。
【0019】
ここで、2次元画像の「意味を判定する」とは、その画像が何を撮影した画像であるかを判定することを言い、たとえば、ブロック画像について、「空」、「建物」、「草原」等のいずれの対象が撮影されたブロックであるかを判定したり、全体画像について、「人物写真」、「建物の写真」、「海の風景写真」等のいずれであるかを判定することが含まれるものとする。
【0020】
【発明の効果】
本発明の画像の特徴量を抽出する方法および装置は、2次元画像をなす複数の画素に割り当てられた少なくとも1種の成分信号値の少なくとも1方向に沿った変化の規則性の程度を示す相関特徴量を抽出するものであるから、その相関特徴量の示す変化の規則性に基づいて、2次元画像の比較、分類、意味判定等を行うことが可能となる。とりわけ、かかる相関特徴量を画像の意味判定に利用すれば、主に人工物に見られる規則的なパターンを有する画像と、主に自然物に見られるランダムなパターンを有する画像とを区別して適切な意味判定を行うことができ、意味に基づく画像分類や、各意味に対応する画像領域ごとに区別された条件による画像処理を、より有効に行うことができる。
【0021】
また、上記の相関特徴量に加えてさらにエッジ特徴量を抽出し、相関特徴量とエッジ特徴量を併用して2次元画像の意味を判定することとすれば、成分信号値の変化の規則性に加え、2次元画像に含まれるエッジの多少やばらつきを意味判定の指標とすることができるので、たとえば、成分信号値の変化がランダムな自然物の中でもエッジの少ない「空」の画像と、エッジの多い「草原」や「花畑」の画像等を区別することができる。
【0022】
【発明の実施の形態】
以下、図面により、本発明の例示的な実施形態を詳細に説明する。
【0023】
図1は、本発明による画像の特徴量を抽出する方法または装置を利用した、2次元の全体画像に含まれる各画像領域の意味特定処理の手順を示したフローチャートである。この処理は、全体画像中の個々の画像領域、すなわち「空」、「建物」、「草原」等の撮影対象のいずれかに対応すると考えられる個々の有意な領域について、その意味を特定するものであり、その後、意味に基づく画像分類や、各意味に対応する画像領域ごとに区別された条件による画像処理を行うために有用な処理である。まず、ステップ10において処理対象である全体画像を表す画像データが読み込まれ、ステップ12において適当な画像領域が特定され、ステップ14において全体画像がブロック画像に分割され、ステップ16において各ブロック画像の意味が判定され、それに基づいて各画像領域の意味が特定される。これらの各ステップのうち、本発明は特にステップ16において使用される方法および装置に関するものであるが、他のステップについても、以下、順を追って説明していく。
【0024】
ステップ12における画像領域の特定手法の例については、図2を用いて説明する。
【0025】
図2の(a)は処理対象である原画像としての全体画像を示す。まず、この原画像を構成する各画素に関し、隣接する画素の色特徴を比較して、類似画素を統合することとする。ここで、色特徴を比較して類似画素を統合するとは、たとえば、RGB表色系で表された原画像の各成分信号値、すなわちR、GおよびBの各成分の濃度値を、隣接画素間でそれぞれ比較して、いずれの成分信号値の差もが所定の閾値を超える場合に、それらの画素を統合する等の処理を行うことである。RGB表色系に代えて、YCC表色系で表された各成分信号値を比較してもよい。この比較および統合は、上記の閾値等の所定の基準によりそれ以上の統合が起こらなくなるまで順次繰り返され、類似の色特徴を有する画素からなる区域が拡大していく。この類似画素の統合が完了した後の状態が、図2の(b)の状態であるとする。
【0026】
ここに、図2の(b)に示した画像を構成する各区域のうち、周囲長が所定の長さより短い区域を「微小区域」と呼び、周囲長が該所定の長さ以上である区域を「非微小区域」と呼ぶこととする。図2の(b)においては、区域20および22等は微小区域、区域24、26および28等は非微小区域である。
【0027】
次に、図2の(b)の画像を構成する各区域を隣接する区域と比較して、統合可能なものをさらに統合するのであるが、この区域の統合の基準は、微小区域と非微小区域で異なる。微小区域については、1の非微小区域に完全に包含されている微小区域(たとえば非微小区域26に完全に包含されている微小区域20)は、その1の非微小区域に統合されるものとする。また、2以上の非微小区域と境界を接する微小区域は、接する境界の長さが長い方の非微小区域に統合されるものとする。この基準によれば、微小区域統合後の状態は、図2の(c)のようになる。
【0028】
非微小区域については、当該非微小区域をなす画素の平均の色特徴を、隣接する各非微小区域をなす画素の平均の色特徴と比較し、類似の度合いが閾値等による所定の基準を超える隣接非微小区域がある場合は、統合が行われる。たとえば、図2の(c)における非微小区域24の平均の色特徴について、非微小区域26の平均の色特徴との類似の度合いは上記の所定の基準を超えるが、非微小区域28の平均の色特徴との類似の度合いは上記の所定の基準以下である場合は、当該非微小区域24は、非微小区域26と統合され、非微小区域28とは統合されない。かかる所定の基準による非微小区域の統合の最終的な結果は、たとえば図2の(d)のようになる。この最終的な状態の画像を構成する各領域が、「画像領域」として特定される。
【0029】
以上、図1のステップ12における画像領域への分割手法の例を図2を用いて説明したが、このステップ12における画像領域への分割が、他のいかなる周知の手法によるものでもよいことは言うまでもない。
【0030】
図1に戻って、ステップ14では、処理対象である全体画像がブロック画像に分割される。本実施形態では、全体画像は1024×1280画素のデジタル写真画像であるとし、ブロック画像は各々32×32画素の画像であるとする。分割された全体画像を、図3に示す。なお、図では、説明の便宜のため、実際よりも粗い分割で示してある。
【0031】
図3において、たとえば建物の壁部分と窓部分の境界(エッジ)を含むブロック画像30は、比較的規則的なパターンの画像となっている。一方、花や色むらのある草原の部分を含むブロック画像32は、ランダムなパターンの画像となっている。一般に、規則的なパターンは人工物の画像に現れることが多く、ランダムなパターンは自然物の画像に現れることが多い。
【0032】
続いて、図1のステップ16において、分割された各ブロック画像の意味が判定され、それに基づいて各画像領域の意味が特定される。ステップ16において行われる詳細な工程を、図4のフローチャートに示す。
【0033】
まず、図4のステップ40において、図2の(d)のように特定された複数の画像領域のうちの1の画像領域に包含されるブロック画像が特定される。ここで、1の画像領域に包含されるブロック画像とは、その画像領域に完全に包含されているブロック画像を言い、画像領域間の境界にまたがるブロック画像は含まないものとする。
【0034】
次に、ステップ42において、ステップ40で特定されたブロック画像の1つについて、色特徴量が抽出される。本実施形態では、色特徴量は、YCC表色系で表された当該ブロック画像の各成分信号値の平均値および標準偏差、すなわち、輝度成分および2つの色差成分の32×32画素分の信号値に関する平均値および標準偏差であるとする。つまり、ステップ42では、1のブロック画像から6個の色特徴量が抽出されることになる。
【0035】
続いて、ステップ44において、同じ1のブロック画像について、エッジ特徴量が抽出される。本実施形態では、32×32画素からなる当該ブロック画像のYCC表色系における輝度成分の画像に対し、図5に示すようなエッジ検出用のフィルターを適用することにより求めた縦エッジ画像および横エッジ画像について、それぞれの成分信号値の絶対値の平均値および標準偏差を求め、エッジ特徴量とするものとする。つまり、ステップ44では、4個のエッジ特徴量が抽出されることになる。
【0036】
次に、ステップ46において、同じ1のブロック画像について、相関特徴量が抽出される。本実施形態においては、相互相関関数を利用して求めた相関特徴量を使用するものとする。ステップ46において実行される相関特徴量抽出工程を、図6のフローチャートにさらに詳細に示す。
【0037】
まず、横方向に沿った変化に関する相関特徴量の抽出について説明すると、ステップ60において、相関特徴量を抽出するもととなる輝度成分の縦エッジ画像が導出される。実際には、図4のステップ44において、エッジ特徴量抽出のために既に2つのエッジ画像を導出しているので、これらのうちの縦エッジ画像をそのまま使用すればよい。
【0038】
次に、ステップ62において、縦エッジ画像の各行に沿った成分信号値の変化を規格化する。具体的には、第i行における第x画素(i=0〜31、x=0〜31)の成分信号値をF(x)とすると、規格化された成分信号値F’(x)は、F(x)からその平均値を引き、標準偏差で割ったものとなる、このように、成分信号値を規格化して相関特徴量を求めるのは、各行間における変動幅や平均値の違いを排除して、変動パターン自体の相互相関性を示す相関特徴量を導出するためである。なお、F(x)が一定値であり標準偏差が0の場合は、F’(x)=0(一定)とする。
【0039】
続いて、ステップ64において、異なる2行(第i行と第j行)の組合せについて、これら2行に関する上記の規格化された成分信号値F’(x)およびF’(x)を用いて、相互相関関数
【数1】

Figure 2004287783
を導出する。この式(1)により求める相互相関関数は、概念的に言えば、図7の(a)に示すように、2行の規格化された成分信号値F’(x)およびF’(x)をd画素分だけずらして掛け合わせ、その総和を取るものである。このようにして、図7の(b)に示すような、dの関数としての相互相関関数Gij(d)が得られる。
【0040】
次に、ステップ66において、ステップ64で求めた相互相関関数Gij(d)の最大値
【数2】
Figure 2004287783
が特定される。
【0041】
続いて、ステップ68において、まだ相互相関関数の最大値を求めていない2行の組合せがあるかどうかが確認され、全ての2行の組合せについて上記の最大値が求められるまで、ステップ64から68が繰り返される。
【0042】
全ての2行の組合せについて上記の最大値が求められると、ステップ70において、これらの最大値の平均値および標準偏差が求められ、これらが相関特徴量とされる。以上、横方向に沿った変化に関する相関特徴量の抽出に関して説明したが、縦方向に沿った変化に関する相関特徴量も、図6に示した手順によって同様に導出される。つまり、合計で4つの相関特徴量が導出されることになる。
【0043】
ここで、単にF’(x)とF’(x)の積の総和の平均値および標準偏差を相関特徴量として使用する形態も本発明の範囲に含まれるものではあるが、本実施形態においては、たとえば斜め方向に規則的な模様や波紋が撮影されたブロック画像についても、そのパターンの規則性を示す適当な相関特徴量を導出できるように、上記のとおり、相互相関関数の最大値の平均値および標準偏差を相関特徴量として用いている。
【0044】
再び図4に戻って、現在のブロック画像について各特徴量が抽出されると、ステップ48に進んで、該ブロック画像の意味の判定が行われる。本実施形態では、抽出した14個の特徴量(すなわち、6個の色特徴量、4個のエッジ特徴量および4個の相関特徴量)を成分とする「特徴ベクトル」を、「自己組織化マップ」上に写像する方法を用いて、ブロック画像の意味を判定する。
【0045】
「自己組織化マップ」とは、図8に示すように、複数の参照特徴ベクトルに対応する点が空間的に配されたマップであり、互いに類似する参照特徴ベクトルに対応する点は互いに近い位置に配置されている。この自己組織化マップには、やはり図8に示すように、対応する大きさの意味のマップが付随している。この意味のマップは、自己組織化マップ上の各参照特徴ベクトルに対応する画像が「空」の画像である確率の分布マップ、「建物」の画像である確率の分布マップ等の、複数の確率分布マップが重ね合わされたものである。この自己組織化マップおよび意味のマップは、予め、「空」や「建物」の画像であることが分かっている多数の画像の特徴ベクトルを、コンピュータに学習させることにより作成されている。
【0046】
この学習過程の例を概略的に説明すると、学習前の状態においては、自己組織化マップ上には、様々な参照特徴ベクトルが、ランダムに分布している。また、各確率分布マップの各点の初期値は、0とされている。ここに、学習対象として、まず「空」であることが分かっている1枚の画像の特徴ベクトルが入力されると、自己組織化マップ上において、この入力された特徴ベクトルに最も類似する参照特徴ベクトルが特定される。この特定は、たとえば、入力された特徴ベクトルとのユークリッド距離が最も小さい参照特徴ベクトルを探索する等により行われる。すると、自己組織化マップ上においてその特定された参照特徴ベクトル、および近傍たとえば7×7の範囲にある参照特徴ベクトルが、上記の入力された特徴ベクトルに近づくように(すなわち、学習対象である入力された特徴ベクトルとの類似度が高まるように)修正される。一方、「空」の画像である確率の分布マップ上では、上記の特定された参照特徴ベクトルに対応する点およびその7×7の範囲の近傍の点に、たとえば「1」の頻度値が加算される。次に、「建物」であることが分かっている1枚の画像の特徴ベクトルが入力されると、上記と同様に、自己組織化マップ上において、最も類似する参照特徴ベクトルの特定、および近傍の参照特徴ベクトルの修正が行われる。一方、「建物」の画像である確率の分布マップ上では、特定された参照特徴ベクトルに対応する点およびその近傍の点に、「1」の頻度値が加算される。このような学習を繰り返すと、自己組織化マップ上では、類似の特徴を示す参照特徴ベクトルが、徐々に互いに近い位置に集まってくる。一方、それぞれの確率分布マップ上でも、徐々に島状の頻度の分布が形成されていく。学習が進んで類似の参照特徴ベクトルが集合してくるにしたがって、当初7×7であった参照特徴ベクトルの修正を行う近傍の大きさは、徐々に小さくされていく。学習終了後、それぞれの確率分布マップは規格化されて重ね合わされ、図8に示すような意味のマップが形成される。
【0047】
図4のステップ48では、現在のブロック画像から抽出した特徴ベクトルは、上記のような学習により予め導出された自己組織化マップ上の、最も類似する参照特徴ベクトルに対応する点に写像される。ここでも、類似度の評価は、両ベクトル間のユークリッド距離等を指標として行われる。そして、自己組織化マップの写像先の点に対応する、意味のマップ上の点が参照され、「空」、「建物」等の「意味」のうち、その点において最も高い確率を示している意味が、現在のブロック画像の意味とされる。
【0048】
ここで、意味判定の基準となる特徴量には相関特徴量が含まれているので、主に人工物に見られる規則的なパターンを有するブロック画像と、主に自然物に見られるランダムなパターンを有するブロック画像とを区別し、より適切な意味判定を行うことができる。さらに、本実施形態では、相関特徴量と合わせてエッジ特徴量を用いているので、たとえば、成分信号値の変化がランダムな自然物の中でもエッジの少ない「空」のブロック画像と、エッジの多い「草原」や「花畑」のブロック画像等を区別することができる。
【0049】
続いて、図4のステップ50において、現在の画像領域に含まれるブロック画像がまだ残っているかどうかが確認され、現在の画像領域に含まれる全てのブロック画像の意味が判定されるまで、ステップ42から50が繰り返される。
【0050】
現在の画像領域に含まれる全てのブロック画像の意味の判定が終了すると、ステップ52において、各ブロック画像の判定された意味のうち最多のものが、現在の画像領域の意味として特定される。たとえば、図2の(d)の画像領域28に含まれるブロック画像の中には、「水」等の意味に判定されるものも混在し得るが、大半は「空」の意味に判定されるので、画像領域28は「空」の領域として特定される。
【0051】
続いて、ステップ54において、まだ意味を特定していない画像領域が残っているかどうかが確認され、全ての画像領域の意味が特定されるまで、図4に示した工程が繰り返される。
【0052】
以上説明した実施形態においては、相互相関関数を利用して求めた相関特徴量を用いたが、これに限らず、相関特徴量は、少なくとも1種の成分信号値の少なくとも1方向に沿った変化の規則性の程度を適切に表すものであれば、いかなるものでもよい。また、相互相関関数を利用する場合において、相互相関関数の求め方は上記の式(1)に示したものに限らず、クロススペクトルを逆フーリエ変換する方法を用いてもよい。
【0053】
また、上記の実施形態では、色特徴量、エッジ特徴量および相関特徴量を併用して画像の意味を判定したが、少なくとも相関特徴量を利用していれば本発明の範囲に含まれるものであり、また、上記以外の奥行情報に関する特徴量等を併用してもよい。
【0054】
さらに、上記の実施形態では、画像の意味の判定方法として自己組織化マップを用いた方法を利用したが、これに限らず他の方法を利用してもよい。たとえば、意味が分かっている多数の画像を予め特徴量空間に写像して学習し、各意味の画像の特徴量空間における重心座標とばらつき(標準偏差)を求めておいて、意味判定の対象である画像から特徴量を抽出して特徴量空間に写像し、学習で求めた各意味の画像の重心とのマハラノビス距離に基づいて意味を判定する方法等を採用してもよい。また、主成分分析により低次元化した特徴ベクトルを用いてもよい。
【0055】
また、上記では、本発明の1つの実施形態として、2次元の全体画像をブロック画像に分割し、それぞれのブロック画像の意味を判定することにより、該全体画像に含まれる各画像領域の意味を特定する処理について説明したが、本発明の別の実施形態として、全体画像の意味判定処理への適用も考えられる。この場合、たとえば、「人物写真」、「建物の写真」、「海の風景写真」等であることが分かっている全体画像を予め学習して自己組織化マップと意味のマップを作成しておき、意味判定対象である全体画像から抽出した相関特徴量を含む複数の特徴量を成分とする特徴ベクトルを、自己組織化マップ上に写像する。ここでも、意味判定方法は自己組織化マップを用いたものに限られないことは言うまでもない。
【0056】
なお、本発明による画像の特徴量を抽出する方法および装置は、上記に説明したような画像の意味判定処理への適用に特に適したものであるが、画像の比較・分類等、他の様々な画像処理にも応用できるものである。
【0057】
以上、本発明の実施形態について詳細に述べたが、これらの実施形態は例示的なものに過ぎず、本発明の技術的範囲は、本明細書中の特許請求の範囲のみによって定められるべきものであることは言うまでもない。
【図面の簡単な説明】
【図1】本発明の1つの実施形態である、2次元の全体画像に含まれる各画像領域の意味特定処理の手順を示したフローチャート
【図2】図1の意味特定処理における画像領域の特定手法の例を示した工程図
【図3】ブロック画像に分割された全体画像を示した図
【図4】図1の意味特定処理における意味特定手法の詳細な工程を示したフローチャート
【図5】エッジ画像の導出に用いられるエッジ検出用フィルターの例を示した図
【図6】図4における相関特徴量抽出工程をさらに詳細に示したフローチャート
【図7】相互相関関数の概念を示した概念図
【図8】自己組織化マップおよび対応する意味のマップの例を示した概念図[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a method and apparatus for extracting a feature amount indicating a feature of a two-dimensional image, and more particularly, to a method and apparatus for extracting a feature amount useful for determining the meaning of a two-dimensional image.
[0002]
[Prior art]
In order to compare or classify one frame of a two-dimensional digital photographic image or moving image, it has been conventionally performed to extract a feature amount indicating the feature of the image from the image or a block image obtained by dividing them into blocks. It has been broken. As such a feature amount, when using a color feature amount such as an average value and a standard deviation obtained from a histogram relating to hue, saturation, brightness, etc. (see, for example, Patent Document 1), it is used in combination with a color feature amount. In some cases, edge feature quantities such as edge strength and gradient for each direction obtained using an edge detection filter such as a Sobel filter are used (see, for example, Patent Document 2).
[0003]
Such feature amount extraction can also be used to determine what the photographing object is included in the two-dimensional image, that is, the meaning of the two-dimensional image. By determining the meaning, it is possible to improve the image quality by performing image processing only on the image region corresponding to the specific photographing target. For example, a technique has been proposed in which an image region corresponding to a person's skin is specified based on a color feature amount, a process for removing noise is performed only on the image region, and a beautiful skin color is finished (for example, Patent Document 3). reference).
[0004]
[Patent Document 1]
JP-A-7-29007 [0005]
[Patent Document 2]
Japanese Patent Laid-Open No. 2000-353173
[Patent Document 3]
Japanese Patent Publication No. 5-62879 [0007]
[Problems to be solved by the invention]
If the meaning of various image areas in the two-dimensional image can be determined in addition to the image areas corresponding to human skin as described above, further image quality can be improved by applying image processing to each image area under different conditions. Can be expected. In addition, if the meaning of “person photograph”, “building photograph”, “sea landscape photograph”, etc. can be determined for the entire image itself such as one frame of a digital photograph image or moving image, a more suitable classification or the like can be performed. become.
[0008]
However, there are cases where the meaning of an image cannot be determined effectively only with conventional feature amounts such as the above-described color feature amounts and edge feature amounts. For example, if only the color feature amount is used, there is a possibility that the skin area and the sand area may be confused. Moreover, even if the color feature amount and the edge feature amount are used together, if the color feature and the total amount of the edge portion included in the image are similar between the two images, the wall portion of the building and the window portion There is a possibility of confusion between an image including regular edges such as a boundary of the image and an image including random edges such as a sandy beach texture.
[0009]
In view of such circumstances, the present invention determines the meaning of a two-dimensional image, in particular, distinguishes between an image having a regular pattern mainly found in an artifact and an image having a random pattern mainly found in a natural object. The object of the present invention is to extract feature quantities that are particularly useful for determining the meaning of these images.
[0010]
[Means for Solving the Problems]
In other words, the method for extracting feature amounts of an image according to the present invention is a method for extracting one or more feature amounts representing features of the two-dimensional image from the two-dimensional image, and a plurality of features constituting the two-dimensional image. The method includes a step of extracting a correlation feature amount indicating a degree of regularity of change in at least one direction of at least one component signal value assigned to the pixel.
[0011]
An apparatus for extracting feature quantities of an image according to the present invention is an apparatus for extracting one or a plurality of feature quantities representing features of the two-dimensional image from a two-dimensional image, and a plurality of features constituting the two-dimensional image. And a means for extracting a correlation feature amount indicating a degree of regularity of change along at least one direction of at least one component signal value assigned to the pixel.
[0012]
Here, the “feature amount” is a general term for quantities that are parameters indicating characteristics of a certain two-dimensional image. In addition to the “correlation feature amount” described below, for example, a color feature, a luminance feature, a depth Information, a feature amount indicating a feature of an edge included in the image, and the like may be included.
[0013]
The “component signal value” is a signal value of one component of the image assigned to each pixel of the two-dimensional image, and includes, for example, a signal value of a luminance component and a signal value of a color difference component. In addition, the signal value of each pixel of an image that has undergone some processing, such as an edge image derived from the distribution of luminance components, etc., and those signal values that are standardized are also included in the “component signal value” And
[0014]
Further, the “correlation feature amount” is a degree of regularity of change along at least one direction (X direction, Y direction, etc.) of at least one component signal value among the above feature amounts, that is, regular. This refers to a feature amount indicating the degree of random or random change, and includes those using a cross-correlation function as described in detail below.
[0015]
When the two-dimensional image is a square image composed of pixels in a plurality of rows and a plurality of columns, the extraction of the correlation feature amount is performed by at least a part of a combination of two rows out of the plurality of rows and / or Alternatively, a cross-correlation function of at least one component signal value described above is derived for each combination of at least a part of combinations of two columns among a plurality of columns, and a correlation feature amount is calculated based on the cross-correlation function. It may be performed by determining. Further, the determination of the correlation feature amount based on the cross-correlation function specifies a maximum value for each of the cross-correlation functions, and relates to the average value and standard deviation of all the maximum values related to the combination of rows, and the combination of columns. At least one of the average value and standard deviation of all the maximum values may be used as the correlation feature amount.
[0016]
Note that the above-described two-dimensional image from which the feature amount is extracted may be an entire image or a block image obtained by dividing the entire image.
[0017]
Here, the “whole image” refers to a photographed digital photograph image or a two-dimensional image corresponding to the entire one frame of a moving image. On the other hand, the “block image” refers to each image piece obtained by dividing the entire image into several regions (blocks). For example, each of the entire image of 1024 × 1280 pixels divided into a size of 32 × 32 pixels. An image piece or the like corresponds to this.
[0018]
The present invention may further determine the meaning of a two-dimensional image based on one or more extracted feature quantities including the above-described correlation feature quantity. Alternatively, according to the present invention, in addition to the correlation feature amount, an edge feature amount in at least one direction of the two-dimensional image is extracted, and based on the extracted one or more feature amounts including the correlation feature amount and the edge feature amount. Thus, the meaning of the two-dimensional image may be determined. In these cases, the above-described meaning determination may be performed using a self-organizing map.
[0019]
Here, “determining the meaning” of a two-dimensional image means determining what the image is of which the image is taken. For example, for a block image, “sky”, “building”, “grass” ”, Etc., and whether the whole image is a“ person photograph ”,“ building photograph ”,“ sea landscape photograph ”, etc. Is included.
[0020]
【The invention's effect】
The method and apparatus for extracting an image feature amount according to the present invention provides a correlation indicating a degree of regularity of change along at least one direction of at least one component signal value assigned to a plurality of pixels forming a two-dimensional image. Since the feature amount is extracted, it is possible to perform comparison, classification, meaning determination, and the like of the two-dimensional images based on the regularity of the change indicated by the correlation feature amount. In particular, if such a correlation feature is used for the meaning determination of an image, it is appropriate to distinguish between an image having a regular pattern mainly found in an artifact and an image having a random pattern mainly found in a natural object. Semantic determination can be performed, and image processing based on the image classification based on the meaning and the conditions distinguished for each image area corresponding to each meaning can be performed more effectively.
[0021]
Further, if the edge feature value is further extracted in addition to the correlation feature value and the meaning of the two-dimensional image is determined by using the correlation feature value and the edge feature value together, the regularity of the change of the component signal value is determined. In addition, since the degree or variation of the edges included in the two-dimensional image can be used as an index for semantic determination, for example, an “empty” image with few edges among natural objects whose component signal values change randomly, and edges It is possible to distinguish the images of “grass” and “flower gardens” with many images.
[0022]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the drawings.
[0023]
FIG. 1 is a flowchart showing the procedure of a process for specifying meaning of each image area included in a two-dimensional whole image using a method or apparatus for extracting image feature values according to the present invention. This process specifies the meaning of individual image areas in the entire image, that is, individual significant areas that are considered to correspond to any of the shooting targets such as “sky”, “building”, “grass”, etc. After that, it is useful processing for performing image processing based on conditions classified for each image area corresponding to each classification and image classification based on the meaning. First, image data representing the entire image to be processed is read in step 10, an appropriate image area is specified in step 12, the entire image is divided into block images in step 14, and the meaning of each block image in step 16. Is determined, and the meaning of each image region is specified based on the determination. Among these steps, the present invention particularly relates to the method and apparatus used in step 16, but the other steps will be described below in order.
[0024]
An example of the image region specifying method in step 12 will be described with reference to FIG.
[0025]
FIG. 2A shows an entire image as an original image to be processed. First, for each pixel constituting the original image, the color characteristics of adjacent pixels are compared, and similar pixels are integrated. Here, the comparison of color characteristics and integration of similar pixels means, for example, that each component signal value of the original image expressed in the RGB color system, that is, the density value of each component of R, G, and B is represented by adjacent pixels. In other words, when the difference between any of the component signal values exceeds a predetermined threshold, processing such as integration of those pixels is performed. Instead of the RGB color system, each component signal value represented in the YCC color system may be compared. This comparison and integration is sequentially repeated until no further integration occurs according to a predetermined criterion such as the above-described threshold value, and an area composed of pixels having similar color characteristics is expanded. The state after the integration of similar pixels is assumed to be the state shown in FIG.
[0026]
Here, among the areas constituting the image shown in FIG. 2B, an area whose peripheral length is shorter than a predetermined length is referred to as a “micro area”, and the peripheral length is equal to or greater than the predetermined length. Will be referred to as "non-micro-areas". In FIG. 2B, the areas 20 and 22 etc. are micro areas, and the areas 24, 26 and 28 etc. are non-micro areas.
[0027]
Next, each area constituting the image of FIG. 2 (b) is compared with the adjacent area, and what can be integrated is further integrated. Varies by area. For a micro area, a micro area that is completely contained in one non-micro area (eg, a micro area 20 that is completely contained in non-micro area 26) is integrated into that one non-micro area. To do. Moreover, the micro area | region which contact | connects a boundary with two or more non-micro area | regions shall be integrated into the non-micro area | region with the longer length of the boundary which touches. According to this standard, the state after the integration of the minute areas is as shown in FIG.
[0028]
For non-micro areas, the average color characteristics of the pixels forming the non-micro areas are compared with the average color characteristics of the pixels forming each adjacent non-micro area, and the degree of similarity exceeds a predetermined criterion such as a threshold value. If there is an adjacent non-micro area, integration is performed. For example, for the average color feature of the non-micro area 24 in FIG. 2 (c), the degree of similarity of the non-micro area 26 with the average color feature exceeds the predetermined criteria, but the average of the non-micro area 28 If the degree of similarity to the color feature is less than or equal to the predetermined criterion, the non-micro area 24 is integrated with the non-micro area 26 and is not integrated with the non-micro area 28. The final result of the integration of the non-micro area according to the predetermined criteria is, for example, as shown in FIG. Each area constituting the final image is identified as an “image area”.
[0029]
The example of the method for dividing the image area in step 12 in FIG. 1 has been described with reference to FIG. 2. Needless to say, the division into the image area in step 12 may be performed by any other known method. Yes.
[0030]
Returning to FIG. 1, in step 14, the entire image to be processed is divided into block images. In the present embodiment, it is assumed that the entire image is a digital photographic image having 1024 × 1280 pixels, and the block images are images each having 32 × 32 pixels. The divided whole image is shown in FIG. In the figure, for the convenience of explanation, it is shown in a coarser division than actual.
[0031]
In FIG. 3, for example, a block image 30 including a boundary (edge) between a wall portion and a window portion of a building is an image having a relatively regular pattern. On the other hand, the block image 32 including a flower or a portion of a meadow with uneven colors is an image of a random pattern. In general, a regular pattern often appears in an image of an artifact, and a random pattern often appears in an image of a natural object.
[0032]
Subsequently, in step 16 of FIG. 1, the meaning of each divided block image is determined, and the meaning of each image region is specified based on the determined meaning. The detailed process performed in step 16 is shown in the flowchart of FIG.
[0033]
First, in step 40 of FIG. 4, a block image included in one image region among the plurality of image regions specified as shown in FIG. 2D is specified. Here, the block image included in one image region refers to a block image completely included in the image region, and does not include a block image straddling the boundary between the image regions.
[0034]
Next, in step 42, a color feature amount is extracted for one of the block images specified in step 40. In this embodiment, the color feature amount is an average value and standard deviation of each component signal value of the block image expressed in the YCC color system, that is, a signal of 32 × 32 pixels of the luminance component and the two color difference components. Let be the mean and standard deviation for the values. That is, in step 42, six color feature amounts are extracted from one block image.
[0035]
Subsequently, in step 44, edge feature amounts are extracted for the same one block image. In this embodiment, a vertical edge image and a horizontal image obtained by applying a filter for edge detection as shown in FIG. 5 to the luminance component image in the YCC color system of the block image of 32 × 32 pixels. For the edge image, the average value and the standard deviation of the absolute values of the respective component signal values are obtained and used as edge feature values. That is, in step 44, four edge feature amounts are extracted.
[0036]
Next, in step 46, the correlation feature amount is extracted for the same one block image. In this embodiment, it is assumed that a correlation feature amount obtained using a cross-correlation function is used. The correlation feature amount extraction step executed in step 46 is shown in more detail in the flowchart of FIG.
[0037]
First, the extraction of the correlation feature amount related to the change along the horizontal direction will be described. In step 60, the vertical edge image of the luminance component from which the correlation feature amount is extracted is derived. Actually, since two edge images have already been derived in step 44 of FIG. 4 for extracting edge feature values, the vertical edge image of these may be used as it is.
[0038]
Next, in step 62, the change in the component signal value along each row of the vertical edge image is normalized. Specifically, if the component signal value of the x-th pixel (i = 0 to 31, x = 0 to 31) in the i-th row is F i (x), the normalized component signal value F i ′ (x ) Is obtained by subtracting the average value from F i (x) and dividing by the standard deviation. In this way, the correlation signal is obtained by normalizing the component signal values. This is to eliminate the difference in values and derive a correlation feature amount indicating the cross-correlation of the variation pattern itself. When F i (x) is a constant value and the standard deviation is 0, F i ′ (x) = 0 (constant).
[0039]
Subsequently, in step 64, the above-described normalized component signal values F i ′ (x) and F j ′ (x) regarding these two rows are combined for two different rows (i-th row and j-th row). Use the cross-correlation function
Figure 2004287783
Is derived. Conceptually speaking, the cross-correlation function obtained by this equation (1) is represented by two rows of normalized component signal values F i ′ (x) and F j ′ ( x) is multiplied by d pixels and multiplied to obtain the sum. In this way, a cross-correlation function G ij (d) as a function of d as shown in FIG. 7B is obtained.
[0040]
Next, in step 66, the maximum value of the cross-correlation function G ij (d) obtained in step 64
Figure 2004287783
Is identified.
[0041]
Subsequently, in step 68, it is confirmed whether or not there is a combination of two rows for which the maximum value of the cross-correlation function has not yet been obtained, and steps 64 to 68 are performed until the above maximum value is obtained for all the combinations of two rows. Is repeated.
[0042]
When the above maximum values are obtained for all the combinations of the two rows, in step 70, the average value and standard deviation of these maximum values are obtained, and these are used as the correlation feature amounts. As described above, the extraction of the correlation feature amount related to the change along the horizontal direction has been described, but the correlation feature value related to the change along the vertical direction is similarly derived by the procedure shown in FIG. That is, a total of four correlation feature amounts are derived.
[0043]
Here, an embodiment in which the average value and standard deviation of the sum of the products of F i ′ (x) and F j ′ (x) is used as the correlation feature amount is also included in the scope of the present invention. In the form, as described above, the maximum of the cross-correlation function is derived so that an appropriate correlation feature amount indicating the regularity of the pattern can be derived even for a block image in which a regular pattern or ripple is photographed in an oblique direction, for example. The average value and standard deviation of the values are used as correlation feature amounts.
[0044]
Returning to FIG. 4 again, when each feature amount is extracted for the current block image, the process proceeds to step 48 where the meaning of the block image is determined. In the present embodiment, a “feature vector” having 14 extracted feature quantities (that is, 6 color feature quantities, 4 edge feature quantities, and 4 correlation feature quantities) as components is represented by “self-organization”. The meaning of the block image is determined using a method of mapping on the “map”.
[0045]
As shown in FIG. 8, the “self-organizing map” is a map in which points corresponding to a plurality of reference feature vectors are spatially arranged, and points corresponding to similar reference feature vectors are close to each other. Is arranged. As shown in FIG. 8, the self-organizing map is accompanied by a map having a meaning of a corresponding size. This meaning map has a plurality of probabilities such as a probability distribution map in which the image corresponding to each reference feature vector on the self-organizing map is an “sky” image, and a probability distribution map in which the image is a “building” image. Distribution maps are superimposed. The self-organizing map and the semantic map are created in advance by causing a computer to learn feature vectors of a large number of images that are known to be “sky” and “building” images.
[0046]
An example of this learning process will be schematically described. In a state before learning, various reference feature vectors are randomly distributed on the self-organizing map. The initial value of each point in each probability distribution map is set to 0. Here, when a feature vector of one image that is known to be “empty” is input as a learning target, a reference feature that is most similar to the input feature vector is displayed on the self-organizing map. A vector is specified. This specification is performed by, for example, searching for a reference feature vector having the smallest Euclidean distance from the input feature vector. Then, the specified reference feature vector on the self-organizing map and the reference feature vector in the vicinity of, for example, a 7 × 7 range are brought close to the input feature vector (that is, the input to be learned). Modified so as to increase the similarity with the feature vector. On the other hand, on the probability distribution map that is an image of “sky”, for example, a frequency value of “1” is added to the point corresponding to the above-described identified reference feature vector and points in the vicinity of the 7 × 7 range. Is done. Next, when a feature vector of one image known to be a “building” is input, identification of the most similar reference feature vector on the self-organizing map and a neighboring The reference feature vector is corrected. On the other hand, on the probability distribution map that is an image of “building”, a frequency value of “1” is added to a point corresponding to the identified reference feature vector and points in the vicinity thereof. When such learning is repeated, reference feature vectors indicating similar features are gradually gathered at positions close to each other on the self-organizing map. On the other hand, on each probability distribution map, an island-like frequency distribution is gradually formed. As learning progresses and similar reference feature vectors are gathered, the size of the neighborhood where the reference feature vector, which was originally 7 × 7, is corrected is gradually reduced. After completion of learning, the respective probability distribution maps are standardized and superimposed to form a meaning map as shown in FIG.
[0047]
In step 48 of FIG. 4, the feature vector extracted from the current block image is mapped to a point corresponding to the most similar reference feature vector on the self-organizing map previously derived by learning as described above. Again, the similarity is evaluated using the Euclidean distance between both vectors as an index. Then, the point on the meaning map corresponding to the point of the mapping destination of the self-organizing map is referred to, and indicates the highest probability among the “meaning” such as “sky” and “building”. The meaning is the meaning of the current block image.
[0048]
Here, since the feature quantity used as a criterion for semantic determination includes a correlation feature quantity, a block image having a regular pattern mainly found in an artifact and a random pattern mainly found in a natural object are included. It is possible to distinguish the block image from the block image and to make a more appropriate meaning determination. Furthermore, in the present embodiment, since the edge feature amount is used together with the correlation feature amount, for example, a “sky” block image with few edges and a lot of “edges” among natural objects whose component signal values change randomly. Block images of “meadow” and “flower garden” can be distinguished.
[0049]
Subsequently, in step 50 of FIG. 4, it is confirmed whether or not the block image included in the current image area still remains, and step 42 is performed until the meanings of all the block images included in the current image area are determined. To 50 are repeated.
[0050]
When the determination of the meanings of all the block images included in the current image area is completed, in step 52, the largest number of the determined meanings of each block image is specified as the meaning of the current image area. For example, some of the block images included in the image area 28 in FIG. 2D may be determined to mean “water”, but most are determined to mean “empty”. Therefore, the image area 28 is specified as an “empty” area.
[0051]
Subsequently, in step 54, it is confirmed whether or not there remains an image area whose meaning has not yet been specified, and the process shown in FIG. 4 is repeated until the meanings of all the image areas are specified.
[0052]
In the embodiment described above, the correlation feature amount obtained by using the cross-correlation function is used. However, the present invention is not limited to this, and the correlation feature amount is a change along at least one direction of at least one kind of component signal value. Any material can be used as long as it appropriately represents the degree of regularity. In the case of using the cross-correlation function, the method of obtaining the cross-correlation function is not limited to that shown in the above formula (1), and a method of performing inverse Fourier transform on the cross spectrum may be used.
[0053]
In the above-described embodiment, the meaning of the image is determined by using the color feature amount, the edge feature amount, and the correlation feature amount together. However, at least if the correlation feature amount is used, it is included in the scope of the present invention. Yes, and feature amounts related to depth information other than those described above may be used in combination.
[0054]
Furthermore, in the above embodiment, a method using a self-organizing map is used as a method for determining the meaning of an image. However, the present invention is not limited to this, and other methods may be used. For example, a large number of images whose meanings are known are mapped and learned in advance in the feature amount space, and the barycentric coordinates and variation (standard deviation) in the feature amount space of each meaning image are obtained. For example, a feature amount may be extracted from a certain image, mapped to the feature amount space, and the meaning may be determined based on the Mahalanobis distance from the center of gravity of each meaning image obtained by learning. Also, feature vectors reduced in dimension by principal component analysis may be used.
[0055]
In the above description, as one embodiment of the present invention, the two-dimensional whole image is divided into block images, and the meaning of each block image is determined to determine the meaning of each image area included in the whole image. Although the specifying process has been described, as another embodiment of the present invention, application to the meaning determination process of the entire image is also conceivable. In this case, for example, a self-organizing map and a semantic map are created by learning in advance the entire image that is known to be a “person photograph”, “building photograph”, “sea landscape photograph”, etc. Then, a feature vector including a plurality of feature amounts including correlated feature amounts extracted from the entire image that is a meaning determination target is mapped onto the self-organizing map. Again, it goes without saying that the semantic determination method is not limited to the one using the self-organizing map.
[0056]
Note that the method and apparatus for extracting image feature values according to the present invention are particularly suitable for application to the meaning determination processing of images as described above, but various other methods such as image comparison and classification, etc. It can be applied to simple image processing.
[0057]
As mentioned above, although embodiment of this invention was described in detail, these embodiment is only an illustration, The technical scope of this invention should be defined only by the claim in this specification Needless to say.
[Brief description of the drawings]
FIG. 1 is a flowchart showing a procedure of a meaning specifying process for each image area included in a two-dimensional whole image according to an embodiment of the present invention. FIG. 2 specifies an image area in the meaning specifying process of FIG. FIG. 3 is a flowchart showing an entire image divided into block images. FIG. 4 is a flowchart showing detailed steps of the meaning specifying method in the meaning specifying process of FIG. FIG. 6 is a diagram showing an example of an edge detection filter used for derivation of an edge image. FIG. 6 is a flowchart showing the correlation feature amount extraction step in FIG. 4 in more detail. FIG. 7 is a conceptual diagram showing the concept of a cross-correlation function. FIG. 8 is a conceptual diagram showing an example of a self-organizing map and a corresponding meaning map;

Claims (16)

2次元画像から、該2次元画像の特徴を表す1または複数の特徴量を抽出する方法であって、
前記2次元画像をなす複数の画素に割り当てられた少なくとも1種の成分信号値の少なくとも1方向に沿った変化の規則性の程度を示す、相関特徴量を抽出する工程を含むことを特徴とする方法。
A method for extracting one or a plurality of feature amounts representing features of a two-dimensional image from a two-dimensional image,
A step of extracting a correlation feature amount indicating a degree of regularity of change along at least one direction of at least one component signal value assigned to the plurality of pixels forming the two-dimensional image. Method.
前記2次元画像が、複数行および複数列の画素からなる方形の画像であって、
前記相関特徴量を抽出する工程が、
前記複数行のうちの2行からなる組合せの少なくとも一部および/または前記複数列のうちの2列からなる組合せの少なくとも一部について、各組合せごとに、前記少なくとも1種の成分信号値の相互相関関数を導出する工程と、
前記相互相関関数に基づいて前記相関特徴量を決定する工程を含むことを特徴とする請求項1記載の方法。
The two-dimensional image is a square image composed of a plurality of rows and columns of pixels,
The step of extracting the correlation feature amount includes:
The at least one component signal value of each of the combinations of at least a part of the combination of the two rows of the plurality of rows and / or at least a part of the combination of the two columns of the plurality of columns. Deriving a correlation function;
The method according to claim 1, further comprising: determining the correlation feature amount based on the cross-correlation function.
前記相関特徴量を決定する工程が、
前記相互相関関数の各々について、最大値を特定する工程と、
行の組合せに関する全ての前記最大値の平均値および標準偏差、および列の組合せに関する全ての前記最大値の平均値および標準偏差の、少なくとも1つを前記相関特徴量とする工程を含むことを特徴とする請求項2記載の方法。
Determining the correlation feature comprises:
Identifying a maximum value for each of the cross-correlation functions;
Including at least one of an average value and a standard deviation of all the maximum values relating to a combination of rows and an average value and a standard deviation of all the maximum values relating to a combination of columns as the correlation feature amount. The method according to claim 2.
前記2次元画像が、全体画像であることを特徴とする請求項1から3いずれか1項記載の方法。The method according to claim 1, wherein the two-dimensional image is a whole image. 前記2次元画像が、全体画像を分割して得られたブロック画像であることを特徴とする請求項1から3いずれか1項記載の方法。The method according to claim 1, wherein the two-dimensional image is a block image obtained by dividing an entire image. 前記相関特徴量を含む抽出された前記1または複数の特徴量に基づいて、前記2次元画像の意味を判定する工程をさらに含むことを特徴とする請求項1から5いずれか1項記載の方法。6. The method according to claim 1, further comprising determining a meaning of the two-dimensional image based on the one or more extracted feature quantities including the correlation feature quantity. . 前記2次元画像の少なくとも1方向に関するエッジ特徴量を抽出する工程と、
前記相関特徴量および前記エッジ特徴量を含む抽出された前記1または複数の特徴量に基づいて、前記2次元画像の意味を判定する工程をさらに含むことを特徴とする請求項1から5いずれか1項記載の方法。
Extracting an edge feature amount in at least one direction of the two-dimensional image;
6. The method according to claim 1, further comprising a step of determining the meaning of the two-dimensional image based on the one or more extracted feature quantities including the correlation feature quantity and the edge feature quantity. The method according to claim 1.
前記意味を判定する前記工程において、自己組織化マップを用いて前記意味を判定することを特徴とする請求項6または7記載の方法。The method according to claim 6 or 7, wherein, in the step of determining the meaning, the meaning is determined using a self-organizing map. 2次元画像から、該2次元画像の特徴を表す1または複数の特徴量を抽出する装置であって、
前記2次元画像をなす複数の画素に割り当てられた少なくとも1種の成分信号値の少なくとも1方向に沿った変化の規則性の程度を示す、相関特徴量を抽出する手段を含むことを特徴とする装置。
An apparatus for extracting one or a plurality of feature amounts representing features of a two-dimensional image from a two-dimensional image,
Means for extracting a correlation feature amount indicating a degree of regularity of change along at least one direction of at least one component signal value assigned to the plurality of pixels forming the two-dimensional image; apparatus.
前記2次元画像が、複数行および複数列の画素からなる方形の画像であって、
前記相関特徴量を抽出する手段が、
前記複数行のうちの2行からなる組合せの少なくとも一部および/または前記複数列のうちの2列からなる組合せの少なくとも一部について、各組合せごとに、前記少なくとも1種の成分信号値の相互相関関数を導出する手段と、
前記相互相関関数に基づいて前記相関特徴量を決定する手段を含むことを特徴とする請求項9記載の装置。
The two-dimensional image is a square image composed of a plurality of rows and columns of pixels,
The means for extracting the correlation feature amount includes:
The at least one component signal value of each of the combinations of at least a part of the combination of the two rows of the plurality of rows and / or at least a part of the combination of the two columns of the plurality of columns. Means for deriving a correlation function;
The apparatus according to claim 9, further comprising means for determining the correlation feature based on the cross-correlation function.
前記相関特徴量を決定する手段が、
前記相互相関関数の各々について、最大値を特定する手段と、
行の組合せに関する全ての前記最大値の平均値および標準偏差、および列の組合せに関する全ての前記最大値の平均値および標準偏差の、少なくとも1つを前記相関特徴量とする手段を含むことを特徴とする請求項10記載の装置。
The means for determining the correlation feature amount includes:
Means for identifying a maximum value for each of the cross-correlation functions;
Means and standard deviations of all the maximum values relating to row combinations and means and standard deviations of all the maximum values relating to column combinations are included as means for setting the correlation feature amount as at least one The apparatus according to claim 10.
前記2次元画像が、全体画像であることを特徴とする請求項9から11いずれか1項記載の装置。The apparatus according to claim 9, wherein the two-dimensional image is a whole image. 前記2次元画像が、全体画像を分割して得られたブロック画像であることを特徴とする請求項9から11いずれか1項記載の装置。The apparatus according to claim 9, wherein the two-dimensional image is a block image obtained by dividing an entire image. 前記相関特徴量を含む抽出された前記1または複数の特徴量に基づいて、前記2次元画像の意味を判定する手段をさらに含むことを特徴とする請求項9から13いずれか1項記載の装置。The apparatus according to claim 9, further comprising means for determining the meaning of the two-dimensional image based on the one or more extracted feature amounts including the correlation feature amount. . 前記2次元画像の少なくとも1方向に関するエッジ特徴量を抽出する手段と、
前記相関特徴量および前記エッジ特徴量を含む抽出された前記1または複数の特徴量に基づいて、前記2次元画像の意味を判定する手段をさらに含むことを特徴とする請求項9から13いずれか1項記載の装置。
Means for extracting an edge feature amount in at least one direction of the two-dimensional image;
14. The method according to claim 9, further comprising means for determining the meaning of the two-dimensional image based on the one or more extracted feature quantities including the correlation feature quantity and the edge feature quantity. The apparatus of claim 1.
前記意味を判定する前記手段が、自己組織化マップを用いて前記意味を判定するものであることを特徴とする請求項14または15記載の装置。16. The apparatus according to claim 14, wherein the means for determining the meaning determines the meaning using a self-organizing map.
JP2003078299A 2003-03-20 2003-03-20 Method and device for extracting feature amount of image Withdrawn JP2004287783A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003078299A JP2004287783A (en) 2003-03-20 2003-03-20 Method and device for extracting feature amount of image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003078299A JP2004287783A (en) 2003-03-20 2003-03-20 Method and device for extracting feature amount of image

Publications (1)

Publication Number Publication Date
JP2004287783A true JP2004287783A (en) 2004-10-14

Family

ID=33292821

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003078299A Withdrawn JP2004287783A (en) 2003-03-20 2003-03-20 Method and device for extracting feature amount of image

Country Status (1)

Country Link
JP (1) JP2004287783A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011939A (en) * 2005-07-04 2007-01-18 Noritsu Koki Co Ltd Image decision device and method therefor
JP2009535680A (en) * 2006-04-28 2009-10-01 トヨタ モーター ヨーロッパ ナムローゼ フェンノートシャップ Robust interest point detector and descriptor

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011939A (en) * 2005-07-04 2007-01-18 Noritsu Koki Co Ltd Image decision device and method therefor
JP2009535680A (en) * 2006-04-28 2009-10-01 トヨタ モーター ヨーロッパ ナムローゼ フェンノートシャップ Robust interest point detector and descriptor
US8165401B2 (en) 2006-04-28 2012-04-24 Toyota Motor Europe Nv Robust interest point detector and descriptor
US8670619B2 (en) 2006-04-28 2014-03-11 Toyota Motor Europe Nv Robust interest point detector and descriptor
KR101478840B1 (en) * 2006-04-28 2015-01-02 도요타 모터 유럽 Robust interest point detector and descriptor
KR101562756B1 (en) 2006-04-28 2015-10-22 도요타 모터 유럽 Robust interest point detector and descriptor

Similar Documents

Publication Publication Date Title
KR101096825B1 (en) Digital image enhancement
EP1359543B1 (en) Method for detecting subject matter regions in images
JP4623388B2 (en) Image processing apparatus and method, and program
JP4699298B2 (en) Human body region extraction method, apparatus, and program
JP2004348674A (en) Region detection method and its device
JP4098021B2 (en) Scene identification method, apparatus, and program
US20170344846A1 (en) Image processing apparatus, image processing method and program
US8718401B2 (en) Image processing device, method and program
JP2008015641A (en) Method, apparatus and program for extracting human body area
US20130342694A1 (en) Method and system for use of intrinsic images in an automotive driver-vehicle-assistance device
CN110268420A (en) In the picture detect background objects on exotic computer implemented method, in the picture detect background objects on exotic equipment and computer program product
CN106295640A (en) The object identification method of a kind of intelligent terminal and device
JP2010072699A (en) Image classification device and image processor
Soriano et al. Image classification of coral reef components from underwater color video
CN104732534B (en) Well-marked target takes method and system in a kind of image
CN110268442A (en) In the picture detect background objects on exotic computer implemented method, in the picture detect background objects on exotic equipment and computer program product
CN107491714B (en) Intelligent robot and target object identification method and device thereof
JP2007115109A (en) Image processor and processing method, program and storage medium
JP2009123234A (en) Object identification method, apparatus and program
JP2010147937A (en) Image processing apparatus
JP3860540B2 (en) Entropy filter and region extraction method using the filter
JP2004152087A (en) Method and apparatus for extracting feature vector of image
JP2004287783A (en) Method and device for extracting feature amount of image
JP2004078939A (en) Object identification method, apparatus and program
CN115705748A (en) Facial feature recognition system

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060606