JP4285640B2 - Object identification method, apparatus and program - Google Patents
Object identification method, apparatus and program Download PDFInfo
- Publication number
- JP4285640B2 JP4285640B2 JP2003282698A JP2003282698A JP4285640B2 JP 4285640 B2 JP4285640 B2 JP 4285640B2 JP 2003282698 A JP2003282698 A JP 2003282698A JP 2003282698 A JP2003282698 A JP 2003282698A JP 4285640 B2 JP4285640 B2 JP 4285640B2
- Authority
- JP
- Japan
- Prior art keywords
- block
- type
- area
- image
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000000605 extraction Methods 0.000 claims description 67
- 238000009826 distribution Methods 0.000 claims description 47
- 239000013598 vector Substances 0.000 claims description 46
- 238000013507 mapping Methods 0.000 claims description 45
- 239000000284 extract Substances 0.000 claims description 38
- 238000006243 chemical reaction Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 28
- 230000013016 learning Effects 0.000 claims description 20
- 210000002569 neuron Anatomy 0.000 claims description 19
- 238000005314 correlation function Methods 0.000 claims description 10
- 238000005520 cutting process Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 24
- 238000012545 processing Methods 0.000 description 15
- 238000004519 manufacturing process Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 7
- 238000003708 edge detection Methods 0.000 description 7
- 230000010354 integration Effects 0.000 description 6
- 101100277337 Arabidopsis thaliana DDM1 gene Proteins 0.000 description 5
- 101150051432 SOM1 gene Proteins 0.000 description 5
- 238000010304 firing Methods 0.000 description 5
- 101100367084 Caenorhabditis elegans such-1 gene Proteins 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 239000004576 sand Substances 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 101001139126 Homo sapiens Krueppel-like factor 6 Proteins 0.000 description 1
- 101000661807 Homo sapiens Suppressor of tumorigenicity 14 protein Proteins 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
本発明は、画像を構成するオブジェクトの種類を自動的に識別するオブジェクト識別方法および装置ならびにプログラムに関するものである。 The present invention relates to an object identification method, apparatus, and program for automatically identifying the types of objects constituting an image.
デジタルカメラ等で撮像した画像情報において、画像情報にどのような画像が撮像されているかが識別することができれば、たとえば画像に含まれるオブジェクトの種類毎に分類、検索もしくは画像処理などをすることができる。 If image information captured by a digital camera or the like can identify what image is captured in the image information, for example, classification, search, or image processing may be performed for each type of object included in the image. it can.
たとえば画像の分類・検索をする場合、画像に含まれる物理的特徴量を用いて類似度を判断する画像検索システムが提案されている。すなわち、入力画像の局所領域を抽出して、その局所領域が位置と大きさを変化させながら参照画像と照合されて、画像の分類・検索を行う手法がある。また上記手法において、局所領域の色ヒストグラムを利用してヒストグラムを参照画像の色ヒストグラムと照合することにより物体の位置を検出して、画像の分類・検索を効率よく行う手法がある(たとえば非特許文献1参照)。しかし、上述したいずれの方法においても、画像の物理的特徴量で類似度を識別しているため、種類的には似ていないものが物理量の類似性により似ていると判断されてしまう場合があり、検索の精度が悪いという問題がある。 For example, when classifying and searching for images, an image search system has been proposed in which similarity is determined using physical feature amounts included in images. That is, there is a technique of extracting and localizing an input image, collating the reference region with a reference image while changing the position and size of the local region, and classifying and searching for the image. Further, in the above method, there is a method for efficiently classifying and searching images by detecting the position of an object by using a color histogram of a local region and comparing the histogram with a color histogram of a reference image (for example, non-patent) Reference 1). However, in any of the above-described methods, since the similarity is identified by the physical feature amount of the image, it may be determined that what is not similar in kind is similar due to the similarity of the physical amount. There is a problem that the accuracy of the search is poor.
また、画像処理を行う場合、高画質化処理の一例として特定色領域を識別して異なる処理をする方法が知られている(たとえば特許文献1参照)。これは、雑音成分が目立ちやすい領域を色で識別して、雑音除去を行うものである。しかし、色のみに基づいて識別しているため、たとえば肌と砂等を混同してしまう場合がある。そして、砂の領域を肌の領域と誤って認識して、砂の領域に雑音除去を行ってしまうと、テクスチャが失われて不自然な画像になるおそれがある。
上述のように、画像から直接得られる情報に基づいて画像の分類、検索もしくは画像処理を行う場合、ユーザーに適切な情報を提供することができない。これを解決する手法の1つとして、オブジェクトの種類を識別した上で、画像の分類、検索もしくは画像処理を行うことが考えられる。すると、画像の分類・検索においては、識別した種類に応じて分類・検索を行うことができるため、画像の分類・検索を容易に精度よく行うことができる。また、画像処理をする場合においても、そのオブジェクトにあった画像処理条件を用いて画像処理を行うことができる。 As described above, when image classification, retrieval, or image processing is performed based on information obtained directly from an image, appropriate information cannot be provided to the user. As one method for solving this, it is conceivable to classify, search or perform image processing after identifying the type of object. Then, in the image classification / search, the image can be classified / searched according to the identified type. Therefore, the image classification / search can be easily and accurately performed. Even when image processing is performed, image processing can be performed using image processing conditions suitable for the object.
上述した画像に含まれるオブジェクトの種類の識別は、画像に含まれるオブジェクト領域を抽出して、各オブジェクト領域毎に種類を識別する必要がある。このとき、たとえばユーザーが画面を見ながら画像内のオブジェクト領域を抽出して、各オブジェクト毎に種類を入力することも考えられる。しかし、ユーザーによるオブジェクト領域の種類の付与は作業の手間がかかるという問題がある。 To identify the type of object included in the image described above, it is necessary to extract the object area included in the image and identify the type for each object area. At this time, for example, the user may extract the object area in the image while looking at the screen and input the type for each object. However, there is a problem that it takes time and effort to give the object region type by the user.
そこで、本発明は、画像に含まれるオブジェクトの種類を自動的に識別することができるオブジェクト識別方法および装置ならびにプログラムを提供することを目的とする。 Therefore, an object of the present invention is to provide an object identification method, apparatus, and program that can automatically identify the type of an object included in an image.
本発明のオブジェクト識別方法は、画像に含まれるオブジェクトの種類を識別するオブジェクト識別方法において、前記画像を前記オブジェクト毎に領域分割したオブジェクト領域と、前記画像を設定画素数からなる、前記オブジェクト領域より小さい多数の領域に分割した複数のブロック領域とを生成するステップと、生成した複数の前記各ブロック領域毎にそれぞれ種類を識別するステップと、識別した前記ブロック領域の種類を前記各オブジェクト領域毎に集計するステップと、集計した結果を用いて前記オブジェクト領域の種類を識別するステップとを有することを特徴とする。 The object identification method of the present invention is an object identification method for identifying the type of an object included in an image, the object region comprising: an object region obtained by dividing the image into regions for each object; and the image comprising a set number of pixels. Generating a plurality of block areas divided into a plurality of small areas, identifying a type for each of the plurality of generated block areas, and identifying the type of the identified block area for each object area The method includes a step of counting, and a step of identifying the type of the object region using the totaled result.
本発明のオブジェクト識別装置は、画像に含まれるオブジェクトの種類を識別するオブジェクト識別装置において、前記画像を前記オブジェクト毎に領域分割して複数のオブジェクト領域を生成するオブジェクト領域生成手段と、前記画像を設定画素数からなる、前記オブジェクト領域より小さい多数の領域に分割して複数のブロック領域を生成するブロック領域生成手段と、生成された複数の前記ブロック領域毎にそれぞれ種類を識別するブロック領域識別手段と、前記各ブロック領域毎に識別された前記ブロック領域の種類を前記オブジェクト領域毎に集計し、集計した結果を用いて前記オブジェクトの種類を識別するオブジェクト識別手段とを有することを特徴とする。 The object identification device of the present invention is an object identification device for identifying the type of an object included in an image, an object region generation means for dividing the image into regions for each object to generate a plurality of object regions, and the image A block area generating unit configured to generate a plurality of block areas by dividing the pixel area into a plurality of areas smaller than the object area, and a block area identifying unit for identifying a type for each of the generated block areas And object identifying means for totalizing the types of the block areas identified for each of the block areas for each object area and identifying the types of the objects using the totaled results.
本発明のオブジェクト識別プログラムは、コンピュータに、画像をオブジェクト毎に領域分割したオブジェクト領域と、前記画像を設定画素数からなる、前記オブジェクト領域より小さい多数の領域に分割した複数のブロック領域とを生成する手順と、生成した複数の前記各ブロック領域毎にそれぞれ種類を識別する手順と、識別した前記ブロック領域の種類を前記各オブジェクト領域毎に集計する手順と、集計した結果を用いて前記オブジェクト領域の種類を識別する手順とを実行させることを特徴とするものである。 The object identification program according to the present invention generates, on a computer, an object area obtained by dividing an image into areas for each object, and a plurality of block areas obtained by dividing the image into a plurality of areas smaller than the object area, each having a set number of pixels. A procedure for identifying the type for each of the plurality of generated block regions, a procedure for counting the types of the identified block regions for each object region, and the object region using the tabulated result And a procedure for identifying the type of the program.
ここで、「オブジェクト」はたとえば人物、空、海、木、建物等の画像に含まれる被写体を意味し、「オブジェクト領域」は被写体が画像内に占める領域を意味する。 Here, “object” means a subject included in an image such as a person, sky, sea, tree, building, etc., and “object region” means a region occupied by the subject in the image.
「オブジェクトの種類を識別する」とは、画像内のオブジェクトについてたとえば「山」、「海」、「花」、「空」等の種類であることを特定することを意味し、さらにオブジェクトの種類がわからない場合に「不明」であることを特定することも含む。 “Identify the type of object” means that the object in the image is identified as a type such as “mountain”, “sea”, “flower”, “sky”, etc. It also includes specifying “unknown” when not sure.
また、「ブロック領域識別手段」は、ブロック領域毎に種類を識別するものであればよく、ブロック領域から複数のブロック特徴量を抽出する特徴量抽出手段と、抽出された複数の前記ブロック特徴量を2次元空間上に写像する写像手段と、2次元空間上の座標毎に種類を定義した種類頻度分布マップを有し、写像された2次元空間上の座標が種類頻度分布マップ上で示す種類をブロック領域の種類として出力する種類出力手段とを有するようにしてもよい。 In addition, the “block area identifying unit” may be any unit that identifies a type for each block area, and a feature amount extracting unit that extracts a plurality of block feature amounts from the block region, and a plurality of the extracted block feature amounts. A mapping means for mapping an image on a two-dimensional space, a type frequency distribution map in which a type is defined for each coordinate in the two-dimensional space, and a type in which the mapped coordinates in the two-dimensional space are indicated on the type frequency distribution map May be provided as a type of block area.
「2次元空間」は、学習機能を有する複数のニューロンをマトリックス状に配置した自己組織化マップであってもよい。 The “two-dimensional space” may be a self-organizing map in which a plurality of neurons having a learning function are arranged in a matrix.
また、「種類出力手段」は、識別したブロック領域の種類に関する情報を出力するものであればよく、識別した1つの種類を出力するものでもよいし、自己組織化マップの座標毎に種類の頻度値を種類の指標として定めた種類頻度分布マップを種類毎に有し、写像手段により検出された座標が各種類頻度分布マップ上で示す複数の頻度値をベクトル成分とした種類ベクトルを出力するものであってもよい。 The “type output unit” may be any unit that outputs information regarding the type of the identified block area, and may output one identified type, and the frequency of the type for each coordinate of the self-organizing map. Each type has a type frequency distribution map that defines the value as a type index, and outputs a type vector whose vector component is a plurality of frequency values whose coordinates detected by the mapping means are indicated on each type frequency distribution map It may be.
なお、「種類出力手段」は、種類ベクトルのベクトル成分のうち、最も大きい最大ベクトル成分となる種類を出力するものであってもよい。 The “type output unit” may output a type that is the largest maximum vector component among the vector components of the type vector.
また、「種類出力手段」は、種類ベクトルのうちベクトル成分の大きさが最大となる最大ベクトル成分が所定の最大成分しきい値よりも小さいときには、種類が不明である旨の出力を行うようにしてもよい。 Further, the “type output means” outputs that the type is unknown when the maximum vector component having the maximum vector component size among the type vectors is smaller than a predetermined maximum component threshold value. May be.
さらに、「特徴量抽出手段」は、画像の特徴を示す複数の特徴量を抽出するものであればよく、ブロック領域の色成分と明度成分と像的特徴成分をブロック特徴量として抽出するものであってもよいし、たとえば画像の各画素に割り当てられた成分信号値の1方向に沿った変化の規則性の程度を示す相関特徴量を抽出する相関特徴量抽出手段の他に、画像のエッジの特徴を示すエッジ特徴量を抽出するエッジ特徴量抽出手段や画像の色の特徴を示す色特徴量を抽出する色特徴量抽出手段を含むものであってもよい。 Further, the “feature amount extraction means” may be any means that can extract a plurality of feature amounts indicating image features, and extracts the color component, brightness component, and image feature component of the block area as block feature amounts. For example, in addition to the correlation feature quantity extraction means for extracting the correlation feature quantity indicating the degree of regularity of change along one direction of the component signal value assigned to each pixel of the image, the edge of the image The image processing apparatus may include an edge feature amount extracting unit that extracts an edge feature amount indicating a feature of the image, and a color feature amount extracting unit that extracts a color feature amount indicating a color feature of the image.
なお、「相関特徴量抽出手段」は、たとえば画像の縦方向に沿った相関特徴量、画像の横方向に沿った相関特徴量、もしくは画像の斜め方向に沿った相関特徴量を抽出する等の画像の少なくとも1方向の相関特徴量を抽出するものであればよい。 The “correlation feature extraction means” extracts, for example, a correlation feature along the vertical direction of the image, a correlation feature along the horizontal direction of the image, or a correlation feature along the diagonal direction of the image. What is necessary is just to extract the correlation feature quantity of at least one direction of the image.
さらに、「相関特徴量抽出手段」は、画像において同一方向に形成された2つの画素ラインを構成する複数の画素の成分信号値から、2つの画素ラインの相関関係を示す相関値を出力する所定の相互相関関数を有し、2つの画素ラインのいずれか一方を1画素ずつ画素ラインの形成方向にずらしながら画素の成分信号値を相互相関関数に入力することにより複数の相関値を取得し、取得した複数の相関値から最も大きい最大相関値を算出するものであり、画像の同一方向に形成された画素ラインのすべての組み合わせについて最大相関値を算出し、算出されたすべての最大相関値の平均値および標準偏差を相関特徴量として抽出するものであってもよい。 Further, the “correlation feature amount extraction unit” outputs a correlation value indicating a correlation between two pixel lines from component signal values of a plurality of pixels constituting two pixel lines formed in the same direction in the image. A plurality of correlation values are obtained by inputting the component signal value of the pixel into the cross-correlation function while shifting one of the two pixel lines in the pixel line forming direction one pixel at a time. The largest maximum correlation value is calculated from a plurality of acquired correlation values, the maximum correlation value is calculated for all combinations of pixel lines formed in the same direction of the image, and all the calculated maximum correlation values are calculated. The average value and the standard deviation may be extracted as the correlation feature amount.
また、「ブロック領域生成手段」は、たとえば前記画像をメッシュ状に区切った複数の第1ブロック領域と、複数の第1ブロック領域とメッシュ状に区切る位相をずらした第2ブロック領域とを生成するものや、オブジェクト領域内に設定画素数からなる切取枠を走査させて、切取枠により囲まれた画像を前記ブロック領域として生成するもののような、設定画素数からなるブロック領域を生成するものであればよい。 Further, the “block region generating means” generates, for example, a plurality of first block regions obtained by dividing the image into a mesh shape and a plurality of first block regions and a second block region having a phase shifted from each other in a mesh shape. Or a block area having a set number of pixels, such as an object area that scans a cut frame having a set number of pixels and generating an image surrounded by the cut frame as the block area. That's fine.
さらに、「ブロック領域生成手段」は、画像から解像度の異なる複数の解像度変換画像を生成する機能を有し、生成した複数の解像度変換画像からそれぞれブロック領域を生成するものであってもよい。 Furthermore, the “block area generation unit” may have a function of generating a plurality of resolution conversion images having different resolutions from an image, and may generate a block area from each of the generated resolution conversion images.
本発明のオブジェクト識別装置は、画像に含まれるオブジェクトの種類を識別するオブジェクト識別装置において、前記画像を前記オブジェクト毎に領域分割して複数のオブジェクト領域を生成するオブジェクト領域生成手段と、該オブジェクト領域生成手段により生成された前記オブジェクト領域から複数のオブジェクト特徴量を抽出する特徴量抽出手段と、該特徴量抽出手段により抽出されたオブジェクト特徴量を用いて、前記オブジェクト領域の種類を識別するオブジェクト識別手段とを有することを特徴とするものである。 The object identification device of the present invention is an object identification device for identifying the type of an object included in an image, an object region generation means for generating a plurality of object regions by dividing the image into regions for each object, and the object region Feature quantity extraction means for extracting a plurality of object feature quantities from the object area generated by the generation means, and object identification for identifying the type of the object area using the object feature quantities extracted by the feature quantity extraction means Means.
さらに、オブジェクト識別装置は、オブジェクト領域の外接矩形画像を規格化した規格化オブジェクト領域を生成する規格化手段を備えるものであってもよい。 Furthermore, the object identification device may include a normalizing unit that generates a standardized object area obtained by standardizing a circumscribed rectangular image of the object area.
なお、「特徴量抽出手段」は、規格化オブジェクト領域から特徴量を抽出する機能を有するものであってもよい。 Note that the “feature amount extraction means” may have a function of extracting a feature amount from the standardized object region.
本発明のオブジェクト識別方法および装置ならびにプログラムによれば、オブジェクト領域の種類の識別にブロック領域を使用することにより、各画素毎に種類を識別する場合に比べて、像構造的特徴をオブジェクト領域の種類の判断に加えることができるため、オブジェクトの種類を正確に識別することができる。 According to the object identification method, apparatus, and program of the present invention, by using the block area for identifying the type of the object area, the image structural features are compared with those in the object area as compared with the case of identifying the type for each pixel. Since it can be added to the type determination, the type of the object can be accurately identified.
また、各ブロック領域毎にそれぞれ種類を識別し、ブロック領域の種類を各オブジェクト領域毎に集計してオブジェクト領域の種類を識別することにより、オブジェクト領域の一部のブロック領域に本来の種類に識別されなかったものがあったとしても、その誤った認識を吸収してオブジェクトの種類を正確かつ自動的に識別することができる。 In addition, by identifying the type for each block area, the block area type is aggregated for each object area and the object area type is identified to identify the original type for some block areas of the object area Even if there is something that has not been done, the erroneous recognition can be absorbed and the type of object can be accurately and automatically identified.
なお、ブロック領域識別手段が、ブロック領域から複数のブロック特徴量を抽出する特徴量抽出手段と、抽出された複数の特徴量を2次元空間上に写像する写像手段と、2次元空間上の位置毎に種類を定義した種類頻度分布マップを有し、種類頻度分布マップを用いて複数の特徴量が写像された2次元空間上の位置からブロック領域の種類を出力する種類出力手段とを有する構成にすれば、ブロック領域の種類の識別を精度よく、かつ効率的に行うことができる。 The block area identifying means extracts a feature quantity extracting means for extracting a plurality of block feature quantities from the block area, a mapping means for mapping the extracted feature quantities on the two-dimensional space, and a position on the two-dimensional space. A type output unit that has a type frequency distribution map in which a type is defined for each type, and outputs a type of block area from a position in a two-dimensional space where a plurality of feature amounts are mapped using the type frequency distribution map By doing so, the type of the block area can be identified accurately and efficiently.
また、特徴量抽出手段が、ブロック領域の色成分と明度成分と像的特徴成分をブロック特徴量として抽出するようにすれば、ブロック領域の種類の識別をより正確に行うことができる。 Further, if the feature quantity extracting means extracts the color component, brightness component, and image feature component of the block area as the block feature quantity, the type of the block area can be identified more accurately.
さらに、種類出力手段が、自己組織化マップの座標毎に種類の頻度値を種類の指標として定めた種類頻度分布マップを種類毎に有し、種類出力手段が、写像手段により検出された座標が各種類頻度分布マップ上で示す複数の頻度値をベクトル成分とした種類ベクトルを出力するようにすれば、識別された1つの種類を出力するのではなく、ブロック領域の種類として可能性のある複数の種類の中からブロック領域の種類を識別できるようになるため、種類の識別精度を向上させることができる。 Further, the type output means has for each type a type frequency distribution map in which the type frequency value is determined as a type index for each coordinate of the self-organizing map, and the type output means has coordinates detected by the mapping means. If a type vector having a plurality of frequency values shown on each type frequency distribution map as a vector component is output, a plurality of possible types of block areas may be output instead of outputting one identified type. Since the type of the block area can be identified from among the types, the type identification accuracy can be improved.
また、種類出力手段が、種類ベクトルの成分のうち、最も大きい最大ベクトル成分となる種類をブロック領域の種類であると識別すれば、複数の種類の中から確率の高い種類をブロック領域の種類することができるため、識別精度を向上させることができる。 Further, if the type output means identifies the type that is the largest maximum vector component among the types vector components as the type of the block region, the type having a high probability among the plurality of types is selected as the type of the block region. Therefore, the identification accuracy can be improved.
さらに、種類出力手段が、最大ベクトル成分が所定の最大成分しきい値よりも小さいときには、画像の種類は不明である旨の出力を行うと、最大成分が低い種類の識別の信頼度が低いものは、種類の識別を行わずに不明とすることができるため、種類識別の信頼性を高めることができる。 Furthermore, when the type output means outputs that the type of the image is unknown when the maximum vector component is smaller than the predetermined maximum component threshold value, the identification reliability of the type having the low maximum component is low. Since it can be made unknown without identifying the type, the reliability of the type identification can be improved.
さらに、ブロック領域生成手段が、画像をメッシュ状に区切った複数の第1ブロック領域と、複数の第1ブロック領域とメッシュ状に区切る位相をずらした第2ブロック領域とを生成するようにすれば、オブジェクト領域の種類を識別するのに用いられるブロック領域の数を増やすことができるため、ブロック領域の種類の識別からオブジェクト領域の種類の識別を行う際の精度を向上させることができる。 Further, the block area generation means generates a plurality of first block areas obtained by dividing the image into a mesh shape, and a second block area having a phase shifted from the plurality of first block areas and the mesh shape. Since the number of block areas used to identify the type of object area can be increased, the accuracy in identifying the type of object area from the identification of the type of block area can be improved.
また、ブロック領域生成手段が、オブジェクト領域内に設定画素数からなる切取枠を走査させて、切取枠により囲まれた画像をブロック領域として生成するようにすると、オブジェクト領域の種類を識別するのに用いられるブロック領域の数を増やすことができるため、ブロック領域の種類の識別からオブジェクト領域の種類の識別を行う際の精度を向上させることができる。 In addition, when the block area generation unit scans a cut frame having a set number of pixels in the object area and generates an image surrounded by the cut frame as a block area, the type of the object area is identified. Since the number of block areas to be used can be increased, it is possible to improve accuracy when identifying the type of object area from identifying the type of block area.
さらに、ブロック領域生成手段が、画像から解像度の異なる複数の解像度変換画像を生成する機能を有し、生成した複数の解像度変換画像からそれぞれブロック領域を生成するようにすれば、被写体との距離によりオブジェクトの写り方が画像によって違う場合であっても、精度よくオブジェクトの種類を識別することができる。 Furthermore, if the block area generation unit has a function of generating a plurality of resolution conversion images having different resolutions from the image, and each block area is generated from the generated plurality of resolution conversion images, the block area generation unit depends on the distance from the subject. Even when the way the object is captured differs depending on the image, the type of the object can be accurately identified.
また、特徴量抽出手段が、画像の各画素に割り当てられた成分信号値の1方向に沿った変化の規則性の程度を示す相関特徴量を抽出する相関特徴量抽出手段を含む構成にすれば、相関特徴量により人工物に多く見られる規則的なパターンを有する画像と、自然物に多く見られるランダムなパターンを有する画像とを区別する指標となる特徴量を抽出することができるため、適切な種類の識別を行うことができる。 In addition, if the feature amount extraction unit includes a correlation feature amount extraction unit that extracts a correlation feature amount indicating the degree of regularity of change along one direction of the component signal value assigned to each pixel of the image. Since the feature quantity can be extracted as an index for distinguishing between an image having a regular pattern often found in artifacts and an image having a random pattern often found in natural objects, the correlation feature quantity is appropriate. Type identification can be performed.
さらに、相関特徴量抽出手段が、画像の縦方向に沿った相関特徴量と、画像の横方向に沿った相関特徴量とを抽出するようにすれば、縦方向および横方向に向かって規則的なパターンが形成されたものと、縦方向もしくは横方向のいずれか一方に向かって規則的なパターンが形成されたものとを区別することができる。 Further, if the correlation feature quantity extraction means extracts the correlation feature quantity along the vertical direction of the image and the correlation feature quantity along the horizontal direction of the image, the correlation feature quantity extraction means regularly in the vertical direction and the horizontal direction. Can be distinguished from those in which a regular pattern is formed and those in which a regular pattern is formed in either the vertical direction or the horizontal direction.
また、相関特徴量抽出手段が、2つの画素ラインのいずれか一方を1画素ずつ画素ラインの形成方向にずらしながら画素の成分信号値を所定の相互相関関数に入力することにより算出される複数の相関値のうち最も大きい最大相関値を用いて相関特徴量を算出するようにすれば、画像の縦方向もしくは横方向に向かって形成された規則的なパターンのみならず、画像の斜め方向に向かって形成されている規則的なパターンについても相関特徴量として抽出することができるため、画像の縦方向、横方向および斜め方向に向かって形成される規則的なパターンを相関特徴量として抽出することができる。 Further, the correlation feature amount extraction means calculates a plurality of values calculated by inputting the component signal value of the pixel to a predetermined cross-correlation function while shifting one of the two pixel lines one pixel at a time in the pixel line formation direction. If the correlation feature value is calculated using the largest correlation value among the correlation values, not only the regular pattern formed in the vertical or horizontal direction of the image but also the diagonal direction of the image. Therefore, regular patterns formed in the vertical, horizontal, and diagonal directions of images can be extracted as correlation features. Can do.
さらに、エッジ特徴量抽出手段が、画像の縦方向および横方向のエッジ成分の平均値および標準偏差をそれぞれ算出するようにすれば、たとえば「水(波)」のように縦方向と横方向によってエッジが異なるものと、「植物(花畑等)」の縦方向と横方向とで比較的均質なエッジのものとがエッジ特徴量によって区別することができる。 Furthermore, if the edge feature quantity extraction means calculates the average value and standard deviation of the edge components in the vertical and horizontal directions of the image, respectively, for example, “water (wave)” depending on the vertical and horizontal directions. Different edges can be distinguished from those having relatively uniform edges in the vertical and horizontal directions of “plants (flower garden, etc.)” by the edge feature amount.
また、本発明のオブジェクト識別装置によれば、オブジェクト領域生成手段により生成されたオブジェクト領域から複数のオブジェクト特徴量を抽出し、オブジェクト特徴量を用いて、前記オブジェクト領域の種類を識別することにより、オブジェクト領域の形状が複雑な場合やオブジェクト領域が小さいときであっても、確実にオブジェクトの種類の識別を行うことができる。 Further, according to the object identification device of the present invention, by extracting a plurality of object feature amounts from the object region generated by the object region generation means, by using the object feature amount, identifying the type of the object region, Even when the shape of the object area is complicated or the object area is small, the type of the object can be reliably identified.
なお、オブジェクト領域の外接矩形画像を規格化した規格化オブジェクト領域を生成する規格化手段をさらに備え、特徴量抽出手段が、規格化手段により生成された規格化オブジェクト領域から特徴量を抽出するようにすれば、被写体との距離により、画像内での大きさの異なるオブジェクト領域について同一の大きさに規格化された規格化オブジェクト領域から特徴量が抽出させることになるため、自己組織化マップによる種類の識別の精度を向上させることができる。 The image processing apparatus further includes a normalization unit that generates a standardized object region obtained by normalizing a circumscribed rectangular image of the object region, and the feature amount extraction unit extracts the feature amount from the standardized object region generated by the normalization unit. In this case, the feature amount is extracted from the standardized object region that is standardized to the same size for the object regions having different sizes in the image depending on the distance from the subject. The accuracy of type identification can be improved.
以下、本発明のオブジェクト識別装置について図面を参照しながら説明していく。図1は本発明のオブジェクト識別装置の第1の実施の形態を示すブロック図である。図1のオブジェクト識別装置1は全体画像Pに含まれる各オブジェクト毎の種類を識別するものであって、ブロック領域生成手段10、オブジェクト領域生成手段20、ブロック領域識別手段30、オブジェクト識別手段70等を有する。
The object identification device of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing a first embodiment of an object identification device of the present invention. The
図1のブロック領域生成手段10は、図2(a)に示すように、全体画像Pを設定画素数毎に分割したブロック領域BRを生成する機能を有する。そして、ブロック領域生成手段10は生成したブロック領域BRをブロック領域識別手段30に送る。たとえば設定画素数が32画素×32画素である場合、全体画像Pが32×32画素からなる複数のブロック領域BRに分割されることになる。
As shown in FIG. 2A, the block
オブジェクト領域生成手段20は、図2(b)に示すように、全体画像Pを各オブジェクト毎に領域分割してオブジェクト領域ORを生成する機能を有する。そしてオブジェクト領域生成手段20は生成した各オブジェクト領域ORをオブジェクト識別手段70に送る。
As shown in FIG. 2B, the object
ブロック領域識別手段30は生成された各ブロック領域BR毎に種類を識別する機能を有する。すなわち、ブロック領域識別手段30は、画像内のオブジェクトが「山」、「海」、「花」、「空」等の種類であることを特定するようになっている。ブロック領域識別手段30は識別した種類をオブジェクト識別手段70に送るようになっている。
The block area identifying means 30 has a function of identifying the type for each generated block area BR. In other words, the block area identifying means 30 identifies that the object in the image is of a type such as “mountain”, “sea”, “flower”, “sky”. The block
オブジェクト識別手段70は、送られたブロック領域BR毎の種類を用いて、分割されたオブジェクト領域OR毎に種類情報を付与して、オブジェクト領域ORの種類を識別可能にする機能を有する。具体的には、オブジェクト識別手段70は、オブジェクト領域OR内の各ブロック領域BRの種類を集計する。そして、オブジェクト識別手段70は、あるオブジェクト領域ORにおいて集計されたブロック領域BRの種類のうち、最も多いブロック領域BRの最大種類情報をオブジェクトの種類と識別する。なお、オブジェクト識別手段70は、複数のオブジェクト領域ORにまたがっているブロック領域BRは、カウントしないようになっている。すると、図2(c)に示すように、各オブジェクト領域ORに種類が付された状態になり、オブジェクト領域ORが種類情報によって識別可能となる。
The
なお、図1のオブジェクト識別手段70において、オブジェクトの種類を多数決により決定するようにしているが、集計された種類情報のうち最も多い最大種類情報の割合(最大種類maxの数/オブジェクトを構成する全ブロック領域数)が種類情報しきい値より小さい場合、オブジェクト識別手段70がオブジェクトの種類情報として「不明」を出力する機能を有していてもよい。あるいは、最大種類情報の割合と2番目に多い種類情報の割合との差が小さい場合、オブジェクト識別手段70がオブジェクトの種類として「不明」を出力するようにしてもよい。これは、オブジェクトの種類情報を誤って識別するよりも、「不明」と判断された方がユーザーにとって好ましい場合があるためである。
In the
オブジェクト領域生成手段20は、画像を構成する各画素から複数の特徴量を抽出し、類似した画素特徴量毎に画素を分類する画像の特徴量分類手段100と、画素の分類毎に領域分割して複数のクラスタリング領域を生成する領域分割手段101と、生成されたクラスタリング領域のうち最も画素数の少ない最小クラスタリング領域を抽出する最小クラスタ領域抽出手段112と、抽出された最小クラスタリング領域と隣接する隣接クラスタリング領域を抽出する統合領域判断手段113と、生成されたクラスタリング領域を統合してオブジェクト領域を抽出する領域統合手段110とを有する。
The object
ここで、図4と図5は画像を各オブジェクト領域毎に分割する過程を示す模式図であり、図4を参照してオブジェクト領域生成手段20の動作例について説明する。まず、図4(a)に示すように、類似した特徴を有する画素が並んだ画像があると仮定する。このとき、特徴量分類手段100において、各画素から複数の特徴量が抽出されて、各特徴量を要素とした複数の特徴ベクトルが生成される。その後、図4(b)に示すように、複数の特徴ベクトルが類似する特徴ベクトル毎に分類される(クラスタリング)。
Here, FIGS. 4 and 5 are schematic diagrams showing a process of dividing an image for each object area, and an operation example of the object area generating means 20 will be described with reference to FIG. First, as shown in FIG. 4A, it is assumed that there is an image in which pixels having similar characteristics are arranged. At this time, the feature
その後、領域分割手段101により、特徴量分類手段100によりクラスタリングされた結果が実際の画像に写像される。すると、図5(a)に示すように、類似した画素からなる複数のクラスタリング領域が形成されて、ラベルを付したラベル画像としてデータベース111に記憶される。
Thereafter, the result of clustering by the feature
次に、領域統合の一例について説明する。まず、最小クラスタ領域抽出手段112により、データベースに記憶されたクラスタリング領域の中から最も小さい最小クラスタリング領域が抽出される。また、統合領域判断手段113において抽出された最小クラスタリング領域と隣接する隣接クラスタリング領域が抽出する。
Next, an example of region integration will be described. First, the smallest cluster
ここで、最小クラスタリング領域が所定の微小画素しきい値以下の画素数(たとえば全画素数の1/100)の場合、領域統合手段110において、最小クラスタリング領域が境界画素数(周囲長)の最も多い隣接クラスタリング領域と統合される。具体的には、図5(a)のクラスタリング領域Aが所定の微小画素しきい値以下の画素数を有する最小クラスタリング領域であるとする。クラスタリング領域Aは、クラスタリング領域C、Dと隣接しているため、クラスタリング領域C、Dが隣接クラスタリング領域となる。
Here, when the minimum clustering area has a number of pixels equal to or smaller than a predetermined minute pixel threshold (for example, 1/100 of the total number of pixels), in the
そこで、領域統合手段110において、最小クラスタリング領域Aとクラスタリング領域C、Dとが接している隣接画素数がそれぞれ算出される。図5(a)においては隣接クラスタリング領域Dとの境界画素数の方が隣接クラスタリング領域Cとの境界画素数よりも多い。このためクラスタリング領域Aは図5(b)のようにクラスタリング領域Dと統合する。
Therefore, the
一方、最小クラスタリング領域が所定の小画素しきい値以下の画素数(たとえば全画素数の1/10)の場合、領域統合手段110において、最小クラスタリング領域が特徴空間での距離が近い隣接クラスタリング領域と統合される。具体的には、図5(b)において、クラスタリング領域Bが所定の小画素しきい値以下の最小クラスタリング領域であるとする。すると、クラスタリング領域Bの隣接クラスタリング領域はクラスタリング領域C、Dである。そこで、たとえばテクスチャ情報を距離を基準とした場合、どちらのクラスタリング領域C、Dのテクスチャがクラスタリング領域Bのテクスチャに近いかが判断される。そして、図5(c)のように、クラスタリング領域Bが特徴空間での最も近い距離であるクラスタリング領域Dと統合される。
On the other hand, when the minimum clustering area has a number of pixels equal to or smaller than a predetermined small pixel threshold (for example, 1/10 of the total number of pixels), in the
領域統合手段110において、上述した作業がたとえば最小クラスタ領域抽出手段112により抽出される最小クラスタリング領域が所定の小画素しきい値よりも大きい画素数になるまで行われて、画像が各オブジェクト領域OR毎に領域分割される(図2(c)参照)。
In the
次に、図1を参照してブロック領域識別手段30について説明する。ブロック領域識別手段30は、特徴量抽出手段40、写像手段50、種類出力手段60等を有する。特徴量抽出手段40は、ブロック領域BRから複数のブロック特徴量を抽出する機能を有する。写像手段50は、たとえば自己組織化マップからなる2次元空間SOMを有し、複数のブロック特徴量(多次元特徴量)を二次元空間SOM上に写像するものである。種類出力手段60は、2次元空間SOM上の位置毎に種類を定義した種類頻度分布マップKDMを有する。そして、種類出力手段60は写像手段50により写像された2次元空間SOM上の座標CIから種類頻度分布マップKDMを用いてブロック領域BRの種類を出力するものである。以下にブロック領域識別手段30の各構成について具体的に説明していく。
Next, the block area identifying means 30 will be described with reference to FIG. The block
図6は特徴量抽出手段40の一例を示すブロック図であり、図6を参照して特徴量抽出手段40について説明する。特徴量抽出手段40は、色成分、明度成分および像的特徴成分からなる15個のブロック特徴量BCQを出力するものであって、Lab変換手段41、第1平均値算出手段42、第1ウェーブレット変換手段43、距離画像生成手段46、第2ウェーブレット変換手段47等を有する。
FIG. 6 is a block diagram illustrating an example of the feature
Lab変換手段41は、RGB画像からなるブロック領域BRをLab画像に変換する機能を有する。平均値算出手段42は、Lab変換されたブロック領域BRのL成分、a成分およびb成分の平均値L−ave、a−ave、b−aveをそれぞれ算出する機能を有する。そして、算出された平均値L−ave、a−ave、b−aveが色成分を抽出したブロック特徴量BCQとなる。 The Lab conversion means 41 has a function of converting a block area BR formed of RGB images into a Lab image. The average value calculating means 42 has a function of calculating average values L-ave, a-ave, and b-ave of the L component, a component, and b component of the block region BR subjected to Lab conversion. The calculated average values L-ave, a-ave, and b-ave are the block feature values BCQ from which the color components are extracted.
第1ウェーブレット変換手段43は、Lab変換されたブロック領域BRをウェーブレット変換して明度成分の高周波成分L−LH、L−HL、L−HHを算出するものである。また第1ウェーブレット変換手段43に平均値算出手段44と最大値算出手段45とが接続されている。
The first
平均値算出手段44は、第1ウェーブレット変換手段43により算出された高周波成分L−LH、L−HL、L−HHの平均値L−LH−ave、L−HL−ave、L−HH−aveを算出するものである。そして、算出された平均値L−LH−ave、L−HL−ave、L−HH−aveが明度成分を抽出したブロック特徴量BCQとなる。 The average value calculating means 44 is the average values L-LH-ave, L-HL-ave, L-HH-ave of the high frequency components L-LH, L-HL, L-HH calculated by the first wavelet transform means 43. Is calculated. The calculated average values L-LH-ave, L-HL-ave, and L-HH-ave are the block feature values BCQ from which the brightness components are extracted.
また、最大値算出手段45は、第1ウェーブレット変換手段43により算出された高周波成分L−LH、L−HL、L−HHの頻度分布において大きい方から5%の値を算出するものである。この最大値L−LH−max、L−HL−max、L−HH−maxが明度成分を抽出したブロック特徴量BCQとなる。 The maximum value calculating means 45 calculates a value of 5% from the largest in the frequency distribution of the high frequency components L-LH, L-HL, and L-HH calculated by the first wavelet transform means 43. The maximum values L-LH-max, L-HL-max, and L-HH-max become the block feature value BCQ from which the brightness component is extracted.
このように、L成分のブロック特徴量BCQとして平均値と最大値とを利用することにより、平均的に一定強度の高周波成分が分布してブロック領域BRと、一部に強い高周波成分があるブロック領域BRとを区別することができるようになり、ブロック領域BRの種類の識別を正確に行うことができるようになる。 In this way, by using the average value and the maximum value as the block feature value BCQ of the L component, a high frequency component having a constant intensity is distributed on average, and the block region BR and a block having a strong high frequency component in part. The region BR can be distinguished from the region BR, and the type of the block region BR can be accurately identified.
距離画像生成手段46は、Lab変換手段41によりLab変換されたブロック領域BRから距離画像Dを生成する機能を有する。ここで、距離画像Dは、一般的な距離画像とは異なり、図7に示すように、Lab変換した3変数のブロック領域BRと、ウェーブレット変換した際に生成したブロック領域BRの低周波成分からなるボケ画像とのユークリッド距離を画像化したものである。すなわち、Lab空間における3次元距離画像は、均等色空間における信号変動の様子を1枚の画像にしたものであり、人が知覚する変動を表現したものとして説明することができる。3次元空間での変動を扱うことにより、明度画像から得られない像構造的特徴を引き出すことができるため、種類の識別をより正確に行うことができる。
The distance
つまり、各画素毎に抽出した画素特徴量に基づいて種類を識別した場合、像構造による種類の識別を行うことができないため、たとえば「空」と「海」のように像構造は異なるが明度や色が類似した種類の識別を精度よく行うことができない。一方、ブロック領域BR毎に距離画像Dを生成した像構造により種類の抽出を行うことにより、種類の識別をより正確に行うことができる。 In other words, when the type is identified based on the pixel feature value extracted for each pixel, the type cannot be identified by the image structure. For example, the image structure is different such as “sky” and “sea”, but the brightness is different. It is not possible to accurately identify types of similar colors. On the other hand, the type can be identified more accurately by extracting the type using the image structure in which the distance image D is generated for each block region BR.
第2ウェーブレット変換手段47は生成された距離画像Dをウェーブレット変換して、その高周波成分D−LH、D−HL、D−HHを出力する機能を有する。第2ウェーブレット変換手段47に平均値算出手段48と最大値算出手段49とが接続されている。
The second
平均値算出手段48は、第2ウェーブレット変換手段47により算出された高周波成分D−LH、D−HL、D−HHの平均値D−LH−ave、D−HL−ave、D−HH−aveを算出するものである。そして、算出された平均値D−LH−ave、D−HL−ave、D−HH−aveが像的特徴成分を抽出したブロック特徴量BCQとなる。 The average value calculating means 48 is the average values D-LH-ave, D-HL-ave, D-HH-ave of the high frequency components D-LH, D-HL, D-HH calculated by the second wavelet transform means 47. Is calculated. The calculated average values D-LH-ave, D-HL-ave, and D-HH-ave are the block feature values BCQ from which the image feature components are extracted.
また、最大値算出手段49は、第1ウェーブレット変換手段43により算出された高周波成分D−LH、D−HL、D−HHの頻度分布において大きい方から5%の値を算出するものである。この最大値D−LH−max、D−HL−max、D−HH−maxが像的特徴成分を抽出したブロック特徴量BCQとなる。 The maximum value calculation means 49 calculates a value of 5% from the largest in the frequency distribution of the high frequency components D-LH, D-HL, and D-HH calculated by the first wavelet transform means 43. The maximum values D-LH-max, D-HL-max, and D-HH-max become block feature values BCQ from which image feature components are extracted.
このように、D(距離)成分のブロック特徴量BCQとして平均値と最大値とを利用することにより、平均的に一定強度の高周波成分が分布してブロック領域BRと、一部に強い高周波成分があるブロック領域BRとを区別することができるようになり、ブロック領域BRの種類の判別を正確に行うことができるようになる。 In this way, by using the average value and the maximum value as the block feature value BCQ of the D (distance) component, the high-frequency component having a constant intensity is distributed on the average, and the block region BR and the high-frequency component strong in part. This makes it possible to distinguish a certain block area BR from a certain block area BR, and to accurately determine the type of the block area BR.
次に、図8は写像手段50および種類出力手段60の一例を示す模式図であり、図1と図8を参照して写像手段50および種類出力手段60について説明する。この写像手段50および種類出力手段60には自己組織化マップを用いた修正対向伝搬ネットワーク(参考文献:徳高、岸田、藤村「自己組織化マップの応用−多次元情報の2次元可視化」海文堂、1999)が用いられている。
Next, FIG. 8 is a schematic diagram showing an example of the
写像手段50は、複数のニューロンNをマトリックス状に配置した自己組織化マップからなる2次元空間SOMを有し、複数の特徴量(多次元特徴量)を2次元空間SOM上に写像する機能を有する。各ニューロンNはそれぞれブロック特徴量BCQと同一次元のベクトル座標を有する。本実施の形態においてはブロック特徴量BCQは15個のブロック特徴量BCQからなっているため、各ニューロンは15次元の結合荷重ベクトルからなっていることになる。 The mapping means 50 has a two-dimensional space SOM composed of a self-organizing map in which a plurality of neurons N are arranged in a matrix, and has a function of mapping a plurality of feature quantities (multidimensional feature quantities) onto the two-dimensional space SOM. Have. Each neuron N has a vector coordinate in the same dimension as the block feature BCQ. In the present embodiment, since the block feature value BCQ is composed of 15 block feature values BCQ, each neuron is composed of a 15-dimensional connection weight vector.
そして、写像手段50は、1つのブロック領域BRから抽出された15個のブロック特徴量BCQを自己組織化マップSOM上のニューロンNの中から、最も近似した(たとえば最もユークリッド距離等の近い)ニューロンNi(発火要素)を選択する。これにより、複数のブロック特徴量BCQからなる多次元空間から2次元空間SOM上に写像されたことになる。そして、写像手段50は選択したニューロンNiの座標CIを種類出力手段60に送るようになっている。
The
種類出力手段60は、2次元空間SOMと同一の座標系を有する複数の種類頻度分布マップKDMを有しており、写像手段50により写像された2次元空間SOM上の座標CIから、種類頻度分布マップKDM上でその座標CIの示す部位が示す種類を出力する機能を有する。この種類頻度分布マップKDMは、図9に示すように、各種類毎に2次元空間上に様々な種類の分布が形成されており、各種類毎にそれぞれ種類頻度分布マップKDMが用意されている。たとえば、図9(a)は種類が「空」の種類頻度分布マップKDM、図9(b)は種類が「建物」の種類頻度分布マップKDM、図9(c)は種類がKIの「木」の種類頻度分布マップKDM、図9(d)は種類が「海」の種類頻度分布マップKDMをそれぞれ示している。図9において、白の範囲が0.8〜1.0の頻度値(信頼度)、グレーの範囲が0.2〜0.8の頻度値(信頼度)、黒の範囲が0.0〜0.2の頻度値(信頼度)を示している。 The kind output means 60 has a plurality of kind frequency distribution maps KDM having the same coordinate system as the two-dimensional space SOM, and the kind frequency distribution is calculated from the coordinates CI on the two-dimensional space SOM mapped by the mapping means 50. The map KDM has a function of outputting the type indicated by the part indicated by the coordinates CI. As shown in FIG. 9, in this type frequency distribution map KDM, various types of distributions are formed in the two-dimensional space for each type, and a type frequency distribution map KDM is prepared for each type. . For example, FIG. 9A shows the type frequency distribution map KDM with the type “Empty”, FIG. 9B shows the type frequency distribution map KDM with the type “Building”, and FIG. 9C shows the “Tree” with the type KI. "Type frequency distribution map KDM", and FIG. 9D shows the type frequency distribution map KDM of the type "sea". In FIG. 9, the white range is a frequency value (reliability) of 0.8 to 1.0, the gray range is a frequency value (reliability) of 0.2 to 0.8, and the black range is 0.0 to 0.0. A frequency value (reliability) of 0.2 is shown.
なお、各種類毎に種類頻度分布マップKDMが用意されている場合について例示しているが、1枚の種類頻度分布マップKDMに複数の種類の分布が形成されていてもよい。 In addition, although the case where the type frequency distribution map KDM is prepared for each type is illustrated, a plurality of types of distributions may be formed in one type frequency distribution map KDM.
ここで、上述した種類を識別する際(認識モード)に使用される自己組織化マップSOMおよび種類頻度分布マップKDMは、予め学習されたものが使用される。すなわち、2次元空間SOMおよび種類頻度分布マップKDMは学習機能を有しており、予め種類が判っているブロック領域BRから抽出されたブロック特徴量BCQからなる学習用入力データを用いて各ニューロンNおよび種類頻度分布マップKDMが学習される。 Here, as the above-described self-organizing map SOM and type frequency distribution map KDM used for identifying types (recognition mode), those learned in advance are used. That is, the two-dimensional space SOM and the type frequency distribution map KDM have a learning function, and each neuron N uses the learning input data including the block feature amount BCQ extracted from the block region BR whose type is known in advance. And the type frequency distribution map KDM is learned.
具体的には、まず自己組織化マップSOMの学習について説明する。自己組織化マップSOMのニューロンは、初期状態においてランダムな結合荷重ベクトルを有している。そして、予め種類のわかっている学習用入力データが写像手段50に入力される。すると、写像手段50により学習用入力データと最も近似したニューロンNi(発火要素)が選択される。同時に、選択されたニューロンNi(発火要素)を取り囲むたとえば3×3個のニューロンが選択される。そして、ニューロンNi(発火要素)およびその近傍にあるニューロンNの結合荷重ベクトルが学習用入力データに近づく方向に更新されて、自己組織化マップSOMのニューロンNが学習される。 Specifically, learning of the self-organizing map SOM will be described first. The neurons of the self-organizing map SOM have random connection weight vectors in the initial state. Then, learning input data whose type is known in advance is input to the mapping means 50. Then, the neuron Ni (firing element) most similar to the learning input data is selected by the mapping means 50. At the same time, for example 3 × 3 neurons surrounding the selected neuron Ni (firing element) are selected. Then, the connection weight vector of the neuron Ni (firing element) and the neuron N in the vicinity thereof is updated in a direction approaching the learning input data, and the neuron N of the self-organizing map SOM is learned.
この作業が複数の学習用入力データを用いて行われる。さらに、この学習用入力データが複数回繰り返し自己組織化マップSOMに入力される。ここで、複数の学習用入力データの入力が繰り返されるに連れて、結合荷重ベクトルが更新されるニューロンNの近傍領域の範囲が狭くなっていき、最後には選択されたニューロンNi(発火要素)のみの結合荷重ベクトルが更新される。 This operation is performed using a plurality of learning input data. Further, the learning input data is repeatedly input into the self-organizing map SOM a plurality of times. Here, as the input of a plurality of learning input data is repeated, the range of the neighborhood region of the neuron N in which the connection weight vector is updated becomes narrower, and finally the selected neuron Ni (firing element) is selected. Only the combined load vector is updated.
次に、種類頻度分布マップKDMの学習について説明する。種類頻度分布マップKDMにおいてすべての座標の初期値は0になっている。上述したように、自己組織化マップSOMに学習用入力データが写像された際に、自己組織化マップSOM上の座標CIが出力される。すると、学習用入力データの種類に対応する種類頻度分布マップKDM内の座標CIに当たる部位およびそれを取り囲む領域(たとえば3×3個)に正の整数値(たとえば「1」)が加算される。 Next, learning of the type frequency distribution map KDM will be described. In the type frequency distribution map KDM, initial values of all coordinates are zero. As described above, when the learning input data is mapped to the self-organizing map SOM, the coordinates CI on the self-organizing map SOM are output. Then, a positive integer value (for example, “1”) is added to the portion corresponding to the coordinate CI in the type frequency distribution map KDM corresponding to the type of the input data for learning and the region (for example, 3 × 3) surrounding it.
そして、学習用入力データが入力されて行くにつれて、種類頻度分布マップKDM上の特定の領域ついて学習用入力データの入力により数値が加算されて大きくなっていく。つまり、同じ種類のブロック領域BRであれば、ブロック特徴量BCQが類似していることになる。ブロック特徴量BCQが類似していれば、自己組織化マップSOM上の近くの座標に写像されることが多くなるため、種類頻度分布マップKDMにおいても特定の座標の数値が大きくなっていく。 Then, as learning input data is input, numerical values are added to a specific area on the type frequency distribution map KDM to increase as learning input data is input. That is, if the same type of block region BR, the block feature amount BCQ is similar. If the block feature values BCQ are similar, they are often mapped to nearby coordinates on the self-organizing map SOM, so that the numerical values of specific coordinates also increase in the type frequency distribution map KDM.
最後に、種類頻度分布マップKDMの各座標にある数値を全入力学習データ数×学習回数で割ると、各座標に0.0から1.0までの確率が入力された種類頻度分布マップKDMが生成される。この確率が大きければ大きいほど、その種類である確率が大きくなることを意味する。図9の種類頻度分布マップKDMにおいては、白の範囲が0.8〜1.0の信頼度(確率)、グレーの範囲が0.2〜0.8の信頼度(確率)、黒の範囲が0.0〜0.2の信頼度(確率)を示している。このように種類頻度分布マップKDMがたとえば「空」、「建物」、「木」、「海」等の種類毎にそれぞれ形成されていく。 Finally, when the numerical value at each coordinate of the type frequency distribution map KDM is divided by the total number of input learning data times the number of learnings, the type frequency distribution map KDM in which a probability of 0.0 to 1.0 is input to each coordinate is obtained. Generated. This means that the greater the probability, the greater the probability of that type. In the type frequency distribution map KDM of FIG. 9, the reliability (probability) in the white range is 0.8 to 1.0, the reliability (probability) in the gray range is 0.2 to 0.8, and the black range. Indicates a reliability (probability) of 0.0 to 0.2. In this way, the type frequency distribution map KDM is formed for each type such as “sky”, “building”, “tree”, “sea”, and the like.
そして、実際のブロック領域BRについて種類の識別をする際(認識モード)では、種類出力手段60は、複数の種類頻度分布マップKDMからそれぞれ座標CIの部位が有する信頼度を抽出する。具体的には、写像手段50から座標CIが送られてきた場合、たとえば「空」、「建物」、「木」、「海」等のそれぞれの種類頻度分布マップKDM上の座標CIに該当する部位の信頼度を抽出する。そして、種類出力手段60は、各種類頻度分布マップKDMから得られた確率をベクトル成分とする種類ベクトルを生成する。この場合、空の信頼度、建物の信頼度、木の信頼度および海の信頼度をベクトル成分とする種類ベクトルが生成される。その後、種類出力手段60は最も大きい確率を有する種類をブロック領域BRの種類情報であると識別して、種類をオブジェクト識別手段70に送る。
When identifying the type of the actual block region BR (recognition mode), the
なお、種類出力手段60において、上述した種類ベクトルを構成するベクトル成分が、所定のベクトル成分しきい値より小さい場合、ブロック領域BRの種類の識別の確信度が低いと判断して、「不明」とした種類をオブジェクト識別手段70に送るようにしてもよい。もしくは最も大きいベクトル成分と2番目に大きいベクトル成分との差が小さい場合にも同様に、ブロック領域BRの種類の識別の確信度が低いと判断して、種類を「不明」としてオブジェクト識別手段70に送るようにしてもよい。これにより、種類の識別について信頼性の低いブロック領域BRについてはオブジェクト領域ORの種類の識別に与える影響を少なくすることができるため、オブジェクト領域ORの識別の精度を向上させることができる。
In the type output means 60, when the vector component constituting the above-described type vector is smaller than the predetermined vector component threshold, it is determined that the certainty of identifying the type of the block region BR is low, and “unknown” The types may be sent to the object identification means 70. Alternatively, when the difference between the largest vector component and the second largest vector component is small, similarly, it is determined that the certainty of identifying the type of the block area BR is low, and the type is set to “unknown”, and the
さらに、写像手段50が送られた複数のブロック特徴量BCQを自己組織化マップSOMに写像する際に、最も近似したニューロンNi(発火要素)と複数のブロック特徴量BCQとの距離(たとえばユークリッド距離等)が所定の距離しきい値より大きい場合、写像手段50は種類出力手段60に対してマッチング処理を行わない旨の情報を送るようにしてもよい。その場合、種類出力手段60においても、種類を「不明」とする種類をオブジェクト識別手段70に送るようにしてもよい。この場合であっても、種類の識別について信頼性の低いブロック領域BRについてはオブジェクト領域ORの種類の識別に与える影響を少なくすることができるため、オブジェクト領域ORの識別の精度を向上させることができる。
Further, when the plurality of block feature values BCQ sent by the mapping means 50 are mapped onto the self-organizing map SOM, the distance (for example, Euclidean distance) between the most approximate neuron Ni (firing element) and the plurality of block feature values BCQ. Or the like) is larger than a predetermined distance threshold value, the
図10は本発明のオブジェクト識別方法の好ましい実施の形態を示すフローチャートであり、図1から図10を参照してオブジェクト識別方法について説明する。まず、オブジェクト領域生成手段20により入力された画像をオブジェクト毎に領域分割したオブジェクト領域ORが生成される。一方では、ブロック領域生成手段10により入力された画像を設定画素数(たとえば32×32画素)からなる、オブジェクト領域ORより小さい複数のブロック領域BRが生成される。(ステップST1)。 FIG. 10 is a flowchart showing a preferred embodiment of the object identification method of the present invention. The object identification method will be described with reference to FIGS. First, an object area OR is generated by dividing the image input by the object area generation means 20 into areas for each object. On the other hand, a plurality of block areas BR smaller than the object area OR, which are composed of a set number of pixels (for example, 32 × 32 pixels), are generated from the image input by the block area generating means 10. (Step ST1).
次に、特徴量抽出手段40により、ブロック領域BRから15個の特徴量BCQが抽出される(ステップST2)。その後、抽出した特徴量BCQが写像手段50により自己組織化マップSOMに写像されて、自己組織化マップSOMの座標CIが種類出力手段60に送られる(ステップST3)。種類出力手段60において、種類頻度分布マップKDMにおいて座標CIが示す種類を抽出して、オブジェクト識別手段70に送る(ステップST4)。この作業がすべてのブロック領域BRについて行われる(ステップST5)。
Next, the feature quantity extraction means 40 extracts 15 feature quantities BCQ from the block region BR (step ST2). Thereafter, the extracted feature value BCQ is mapped to the self-organizing map SOM by the
その後、オブジェクト識別手段70において、各オブジェクト領域OR毎に付与された種類を集計する(ステップST6)。そして、最も多い種類がそのオブジェクト領域ORの種類として出力される(ステップST7)。 Thereafter, in the object identification means 70, the types assigned to each object area OR are totaled (step ST6). The most common type is output as the type of the object area OR (step ST7).
上記実施の形態によれば、各ブロック領域BR毎にそれぞれ種類を識別し、ブロック領域BRの種類を各オブジェクト領域OR毎に集計してオブジェクト領域ORの種類を識別することにより、正確にオブジェクトの種類を自動的に識別することができる。すなわち、ブロック領域識別手段30において、各ブロック領域BRについて本来のオブジェクトの種類とは異なる種類であると識別される場合がある。たとえば、オブジェクトが「海」である場合、海のオブジェクト領域OR内のブロック領域BRに「空」と判断されるものが存在することがある。このとき、オブジェクト領域ORの種類は集計された種類のうち最も多い種類が付与されるようになっているため、一部にオブジェクトの真の種類情報と異なる種類情報が付されたブロック領域BRが存在した場合であっても、本当のオブジェクトとは異なる種類がオブジェクトに付されるのを防止することができる。よって、自動的にかつ正確にオブジェクトの種類を識別することができる。 According to the above embodiment, the type of each block area BR is identified, the type of the block area BR is counted for each object area OR, and the type of the object area OR is identified, thereby accurately identifying the object. The type can be automatically identified. That is, the block area identifying means 30 may identify each block area BR as a type different from the original object type. For example, when the object is “sea”, there is a case where a block area BR in the sea object area OR is determined to be “sky”. At this time, since the type of the object region OR is the largest of the aggregated types, the block region BR partially attached with type information different from the true type information of the object is provided. Even if it exists, it is possible to prevent the object from being given a different type from the real object. Therefore, the object type can be automatically and accurately identified.
一方、上述したように、ブロック領域BRの色成分、明度成分および像的特徴成分をブロック特徴量BCQとして抽出して、ブロック特徴量BCQを修正対向伝搬ネットワークに入力することにより、ブロック領域BR毎の種類を識別することができるようになる。つまり、画素毎に画素特徴量を抽出して種類を識別しようとした場合、種類の識別を正確に行うことができない。これは、画像から得られる画素特徴量には距離情報(像情報)が含まれておらず、明度情報もしくは色情報しか抽出することができない。よって、たとえば「海」と「空」は同一の色の場合もあるため、「海」のオブジェクトが「空」のオブジェクトと判断されてしまう場合がある。 On the other hand, as described above, the color component, the brightness component, and the image feature component of the block region BR are extracted as the block feature value BCQ, and the block feature value BCQ is input to the modified counter propagation network. The type of can be identified. That is, when trying to identify a type by extracting a pixel feature amount for each pixel, the type cannot be accurately identified. This is because pixel information obtained from an image does not include distance information (image information), and only lightness information or color information can be extracted. Therefore, for example, “sea” and “sky” may have the same color, and therefore the “sea” object may be determined to be the “sky” object.
一方、ブロック領域BR毎にブロック特徴量BCQを抽出して種類を識別するようにしているため、「海」と「空」等の色情報や明度情報が類似しているオブジェクトであっても識別することができるようになり、正確に種類の識別をすることができる。 On the other hand, since the block feature value BCQ is extracted for each block area BR and the type is identified, even objects having similar color information and brightness information such as “sea” and “sky” are identified. It is possible to identify the type accurately.
図11は本発明のオブジェクト識別装置の第2の実施の形態を示すブロック図であり、図11を参照してオブジェクト識別装置200について説明する。なお、図のオブジェクト識別装置200において、図1のオブジェクト識別装置1と同一の構成を有する部位には同一の符号を付してその説明を省略する。
FIG. 11 is a block diagram showing a second embodiment of the object identification device of the present invention. The
図11のオブジェクト識別装置200が図1のオブジェクト識別装置1と異なる点は、オブジェクト領域ORを抽出した後、そのオブジェクト領域ORをブロック領域BRに分割する点である。
The
すなわち、図11のオブジェクト識別装置200は、ブロック領域生成手段10、オブジェクト領域生成手段20、ブロック領域識別手段30、オブジェクト識別手段70等を有する。そして、オブジェクト領域生成手段20により、画像をオブジェクト領域OR毎に領域した後、ブロック領域生成手段10により、オブジェクト領域ORを各ブロック領域BR毎に分割する。そして、ブロック領域識別手段30により、各ブロック領域BR毎に種類を識別した後、オブジェクト識別手段70において、オブジェクト領域OR内のブロック領域BRを集計してオブジェクト領域ORの種類を識別する。このオブジェクト識別装置200であっても、図1のオブジェクト識別装置1と同様の効果を得ることができる。
That is, the
なお、上記各実施の形態において、図8の写像手段50においては1つの自己組織化マップSOMを有するものであるが、図12に示すように、2つの自己組織化マップを有するようにしてもよい。具体的には、写像手段150は第1自己組織化マップSOM1と第2自己組織化マップSOM2を備え、第1自己組織化マップSOM1へ複数のブロック特徴量BCQを写像するための第1写像手段151と、第1写像手段151により各ブロック領域BR毎に取得された第1自己組織化マップSOM1における第1座標CI1を取得して、複数の第1座標CI1を第2自己組織化マップSOM2に写像する第2写像手段152とを備えている。
In each of the above embodiments, the mapping means 50 in FIG. 8 has one self-organizing map SOM. However, as shown in FIG. 12, it may have two self-organizing maps. Good. Specifically, the
ここで、第1写像手段151および第1自己組織化マップSOM1は、図の写像手段50および自己組織化マップSOMと同一の構造を有している。一方、第2写像手段151は、たとえば互いに隣接する3×3個のブロック領域等の空間的に特定の位置関係にある複数のブロック領域BRについて、第1写像手段151から出力された複数の第1座標CI1を第2自己組織化マップSOM2に写像するようになっている。これにより、ブロック領域BRによる種類の識別をする際に、複数のブロック領域BRからなる大域的な特徴(構造的な特徴)を利用した種類の識別を行うことができるため、ブロック領域BRの種類の識別の精度を向上させることができる。さらに、上述した2段階の自己組織化マップSOM1、SOM2だけでなく更に多段にすることにより、より大域的構造から種類を識別することができるようになる。
Here, the first mapping means 151 and the first self-organizing map SOM1 have the same structure as the mapping means 50 and the self-organizing map SOM shown in the figure. On the other hand, the
また、上記各実施の形態において、ブロック領域生成手段10は以下に示すような機能を有していてもよい。すなわち、ブロック領域生成手段10は、図13(a)に示すように、画像をメッシュ状に区切った複数の第1ブロック領域BR1と、図13(b)に示すように、複数の第1ブロック領域BR1とメッシュ状に区切る位相をずらした第2ブロック領域BR2とを生成するようになっている。つまり、ブロック領域生成手段10はたとえば32画素×32画素からなる設定画素数のブロック領域をメッシュ状に機械的に区切って第1ブロック領域BR1を生成する(図13(a)参照)他に、さらに、図13(b)に示すような横方向および横方向に対して半ブロック分(16画素分)ずらしたメッシュ状の第2ブロック領域BR2を生成する。そして、生成された第1ブロック領域BR1および第2ブロック領域BR2を用いて種類の識別が行われることとなる。なお、この場合であっても、オブジェクト領域ORの境界を含むブロック領域BR1、BR2は種類の識別に用いられないようになっている。
In each of the above embodiments, the block
このように、オブジェクト領域ORの種類の識別に用いられるブロック領域BRの数を増やすことにより、識別の精度を向上させることができる。すなわち、上述したように、オブジェクト領域ORの境界を含むブロック領域BRは、複数の領域の特徴が混在しているとともに境界のエッジも含まれることによる識別精度の低下を防止するために、オブジェクト領域ORの種類の集計に含まれていない。したがって、オブジェクト領域ORが小さい場合には生成されるブロック領域BRの数は少なくなり、複雑な形状のオブジェクト領域ORの場合には、他のオブジェクト領域ORとの境界が多くなるため、識別に用いられるブロック領域BRの数は少なくなる。このため、識別された種類は精度が低くなってしまい、特に、少し複雑な画像になると識別ができず多くのオブジェクト領域ORが不明であると判断されてしまう。 Thus, the accuracy of identification can be improved by increasing the number of block areas BR used for identifying the type of object area OR. In other words, as described above, the block region BR including the boundary of the object region OR is the object region in order to prevent a reduction in identification accuracy due to the presence of the boundary edges and the mixed features of the plurality of regions. Not included in OR type aggregation. Therefore, when the object area OR is small, the number of block areas BR to be generated is small, and in the case of an object area OR having a complicated shape, the boundary with other object areas OR is increased. The number of block areas BR to be reduced is reduced. For this reason, the accuracy of the identified type is lowered, and in particular, if the image is a little complicated, it cannot be identified and it is determined that many object regions OR are unknown.
このとき、図13(a)、(b)に示すようなそれぞれ位相のずれたブロック領域BR1、BR2を生成すれば、オブジェクト領域ORの境界を含まないブロック領域BRの数を増やして、より正確な種類の識別を行うことができる。 At this time, if block regions BR1 and BR2 having different phases as shown in FIGS. 13A and 13B are generated, the number of block regions BR that do not include the boundary of the object region OR is increased, and more accurate. Different types of identification can be made.
なお、図13(b)においては、横方向および縦方向に対して半ブロック分ずらした第2ブロック領域BR2を生成するようにしているが、図13(c)に示すような横方向にのみ半ブロック分(16画素分)ずらした第2ブロック領域BR2を生成してもよいし、図13(d)に示すように縦方向にのみ半ブロック分ずらした第2ブロック領域BR2を生成するようにしてもよい。また、ブロック領域識別手段30において、図13(a)〜図13(d)の各ブロック領域BR1、BR2のすべてを用いてもよいし、ブロック領域BRのいずれかを組み合わせて用いるようにしてもよい。さらに、図13(a)〜図13(d)において、ブロック領域生成手段10は、半ブロック分ずらした場合について例示しているが、半ブロック分ずらす場合に限定されず、たとえば1/4ブロック分(8画素分)ずらす等の設定画素数よりも小さいピッチだけずらしたものであればよい。 In FIG. 13B, the second block region BR2 shifted by a half block with respect to the horizontal and vertical directions is generated, but only in the horizontal direction as shown in FIG. 13C. The second block region BR2 shifted by a half block (16 pixels) may be generated, or the second block region BR2 shifted by a half block only in the vertical direction as shown in FIG. It may be. Further, in the block area identification means 30, all of the block areas BR1 and BR2 of FIGS. 13A to 13D may be used, or any one of the block areas BR may be used in combination. Good. Further, in FIG. 13A to FIG. 13D, the block region generation means 10 is illustrated with respect to a case where it is shifted by a half block, but is not limited to a case where it is shifted by a half block. What is necessary is just to shift by a smaller pitch than the set number of pixels, such as shifting by minutes (for 8 pixels).
さらに、上記各実施の形態において、ブロック領域生成手段10が図14に示すように、画像から解像度の異なる複数の解像度変換画像を生成する機能を有し、生成した複数の解像度変換画像から設定画素数からなるブロック領域を生成する機能を有していてもよい。具体的には、ブロック領域生成手段10は、全体画像に対してたとえばガウシアンピラミッドもしくはウェーブレット変換等の公知の解像度変換技術を施し、複数の解像度変換画像を生成する。そして、ブロック領域生成手段10は、生成した複数の解像度変換画像についてそれぞれ設定画素数毎にメッシュ状に区切ることにより、ブロック領域BRを生成していく。そして、複数の解像度変換画像から生成されたブロック領域BR毎に種類の識別が行われるようになる。
Further, in each of the above embodiments, as shown in FIG. 14, the block
このとき、ブロック領域生成手段10は、設定画素数(たとえば32画素×32画素)の変更は行わない。これは、ブロック領域識別手段30において、特徴量に基づいて種類の識別を行う際に、学習した際のブロック領域BRの大きさと、識別する際のブロック領域BRの大きさが異なるのを防止して、自己組織化マップSOMにおける識別精度の低下を防止するためである。
At this time, the block
このように、解像度の異なる解像度変換画像を用いてブロック領域BRを生成することにより、ブロック領域BRの種類の識別の精度を向上させることができる。すなわち、通常の全体画像において、同じ被写体を近くから撮影した画像と遠くから撮影した画像とでは被写体の写り方が異なる。近くから撮影した場合には被写体の種類が識別できなくても遠くから撮影した場合には被写体の種類が識別できる場合やその逆の場合がある。そこで、解像度変換画像を用いることにより、この写り方の違いによる精度の低下を防止してブロック領域BRの種類識別の精度を向上させることができる。 Thus, by generating the block area BR using resolution-converted images having different resolutions, it is possible to improve the accuracy of identifying the type of the block area BR. That is, in a normal whole image, the way the subject is captured differs between an image obtained by photographing the same subject from near and an image obtained from far away. Even if the subject type cannot be identified when shooting from near, the subject type can be identified when shooting from a distance, or vice versa. Therefore, by using a resolution-converted image, it is possible to prevent a decrease in accuracy due to the difference in the way of capturing and improve the accuracy of identifying the type of the block region BR.
なお、図14において、ブロック領域BRは、全体画像を機械的にメッシュ状に区切ることにより生成しているが、図13に示すように半ブロック分ずらして生成するようにしてもよい。 In FIG. 14, the block region BR is generated by mechanically dividing the entire image into a mesh shape, but may be generated by being shifted by a half block as shown in FIG. 13.
図15は本発明のオブジェクト識別装置の第3の実施の形態を示すブロック図である。なお、図15のオブジェクト識別装置300において、図1のオブジェクト識別装置1と同一の構成を有する部位には同一の符号を付してその説明を省略する。図15のオブジェクト識別装置300が、図1のオブジェクト識別装置1と異なる点は、ブロック領域生成手段310におけるブロック領域BRの生成方法である。
FIG. 15 is a block diagram showing a third embodiment of the object identification device of the present invention. In the
具体的には、ブロック領域生成手段10は、図16に示すように、オブジェクト領域OR内に設定画素数からなる切取枠を走査させて、切取枠により囲まれた画像をブロック領域として生成するようになっている。図17は図15のブロック領域生成手段310の動作例を示すフローチャートであり、図15から図17を参照してブロック領域BRの生成方法の一例について説明する。
Specifically, as shown in FIG. 16, the block
まず、オブジェクト領域生成手段20により、全体画像から複数のオブジェクト領域ORが生成される(ステップST10)。その後、生成された各オブジェクト領域ORに対して領域IDが付与される(ステップST11)。そして、生成された複数のオブジェクト領域ORの中から、ブロック領域BRを生成するオブジェクト領域ORが決定され(ステップST12)、ブロック領域BRが生成されていく(ステップST13)。このブロック領域生成工程(ステップST13)が、全体画像に含まれるすべてのオブジェクト領域ORについて行われる(ステップST12〜ステップST14)。その後、生成された複数のブロック領域BRの種類がブロック領域識別手段30により識別される。
First, the object area generation means 20 generates a plurality of object areas OR from the entire image (step ST10). Thereafter, an area ID is assigned to each generated object area OR (step ST11). Then, the object area OR for generating the block area BR is determined from the plurality of generated object areas OR (step ST12), and the block area BR is generated (step ST13). This block region generation step (step ST13) is performed for all object regions OR included in the entire image (steps ST12 to ST14). Thereafter, the types of the plurality of generated block areas BR are identified by the block
図18はブロック領域生成工程(ステップST13)の一例を示すフローチャートであり、図18を参照してブロック領域BRの生成工程について説明する。まず、オブジェクト領域OR内の始点に切取枠が設置される(ステップST13−1)。具体的には、図16に示すようにオブジェクト領域ORの左上端に切取枠の左上角が位置するように切取枠が位置決めされる。そして、切取枠内のすべての領域IDが一致するか否かが判断されて(ステップST13−2)、切取枠内の領域IDがすべて一致する場合には、切取枠に囲まれた領域がブロック領域BRとして生成される(ステップST13−3)。 FIG. 18 is a flowchart showing an example of the block area generation step (step ST13). The generation process of the block area BR will be described with reference to FIG. First, a cutting frame is set at the start point in the object area OR (step ST13-1). Specifically, as shown in FIG. 16, the cutting frame is positioned so that the upper left corner of the cutting frame is positioned at the upper left corner of the object area OR. Then, it is determined whether or not all the area IDs in the cut frame match (step ST13-2). If all the area IDs in the cut frame match, the area surrounded by the cut frame is blocked. The area BR is generated (step ST13-3).
その後、切取枠が水平方向(右方向)に向かってたとえば8画素だけずらされる(ステップST13−4)。ここで、切取枠がオブジェクト領域ORの最右端まで走査したか否かが判断され(ステップST13−5)、走査していない場合には続けてブロック領域の生成が行われる(ステップST13−2〜ステップST13−5)。一方、切取枠が、オブジェクト領域ORの最右端まで走査した場合には、切取枠が垂直方向(下方向)にたとえば8画素だけずらされるとともに、水平方向にも移動してオブジェクト領域ORの左端に位置決めされる(ステップST13−6)。その後、水平方向に対してブロック領域BRが生成されていく(ステップST13−2〜ステップST13−6)。そして、切取枠がオブジェクト領域ORの最下端まで走査した場合には(ステップST13−7)、1つのオブジェクト領域ORについてブロック領域BRの生成が完了する。 Thereafter, the cut frame is shifted by, for example, 8 pixels in the horizontal direction (right direction) (step ST13-4). Here, it is determined whether or not the cutting frame has been scanned to the rightmost end of the object area OR (step ST13-5). If not, the block area is generated (step ST13-2 to ST13-2). Step ST13-5). On the other hand, when the cutting frame is scanned to the rightmost end of the object area OR, the cutting frame is shifted by, for example, 8 pixels in the vertical direction (downward), and also moved in the horizontal direction to the left end of the object area OR. Positioning is performed (step ST13-6). Thereafter, the block region BR is generated in the horizontal direction (step ST13-2 to step ST13-6). When the cut frame is scanned to the lowest end of the object area OR (step ST13-7), the generation of the block area BR for one object area OR is completed.
このように、切取枠をオブジェクト領域OR内において走査させながらブロック領域BRを生成することにより、オブジェクト領域ORの種類を識別するためのブロック領域BRの数を増やすことができるため、オブジェクト領域ORの識別の精度を向上させることができる。 In this way, by generating the block area BR while scanning the cut frame within the object area OR, the number of block areas BR for identifying the type of the object area OR can be increased. The accuracy of identification can be improved.
なお、切取枠は水平方向および垂直方向に対して8画素ずらす場合について例示しているが、2画素や4画素といったの切取枠よりも小さい画素に設定されていればよい。さらに、領域IDを変更することにより切取枠により切り取られるブロック領域BRを決定するようにしているが、機械的に切取枠をたとえば2画素等の切取枠よりも小さい画素ピッチで、縦方向および横方向に走査するようにしてもよい。このとき、切取枠内に2つの領域IDを含まれているブロック領域BRについては、種類の識別を行わないようにしてもよい。 Note that the cut frame is illustrated as being shifted by 8 pixels with respect to the horizontal direction and the vertical direction, but may be set to pixels smaller than the cut frame, such as 2 pixels or 4 pixels. Further, the block area BR to be cut out by the cut frame is determined by changing the area ID. However, the cut frame is mechanically arranged at a pixel pitch smaller than the cut frame, such as 2 pixels, in the vertical direction and the horizontal direction. You may make it scan in a direction. At this time, the type identification may not be performed for the block area BR including two area IDs in the cut frame.
図19は本発明のオブジェクト識別装置における特徴量抽出手段の別の実施の形態を示すブロック図である。図19の特徴量抽出手段140は、画像変換手段141、エッジ画像生成手段142、相関特徴量抽出手段143、エッジ特徴量抽出手段144、色特徴量抽出手段145等を有する。
FIG. 19 is a block diagram showing another embodiment of the feature quantity extraction means in the object identification device of the present invention. The feature
画像変換手段141は、RGB表色系により表現されているブロック領域をYCC表色系に変換するものである。このとき、画像変換手段141は、画像を構成する複数のブロック領域BRのうち、1つのオブジェクト領域ORに含まれるブロック領域を識別するようになっている。これは、画像を構成する複数のブロック領域BRのうち、オブジェクト領域OR間の境界にまたがるブロック領域BRは、オブジェクト領域ORの種類の判断には使用しないため、特徴量の抽出を行わないためである。
The
エッジ画像生成手段142は、画像変換手段141により生成されたY成分を用いてエッジ画像を生成する機能を有する。ここで、エッジ画像生成手段142は、図20(a)に示す縦エッジ検出用フィルターを用いて縦エッジ画像を生成するとともに、図20(b)に示す横エッジ検出用フィルターを用いて横エッジ画像を生成するようになっている。
The edge
なお、エッジ画像生成手段142は、図20に示すようなエッジ検出用フィルター(prewittフィルター)を用いているが、たとえば上下左右の画素には対角線上のものより大きな重みを与えたエッジ検出用フィルター(Sobelフィルター)を用いたエッジ検出方法やその他の公知のエッジ検出方法を用いることができる。
The edge
図19の相関特徴量抽出手段143は、ブロック領域BRの各画素に割り当てられた成分信号値の1方向に沿った変化の規則性の程度を示す相関特徴量を抽出するものである。ここで、図21は相関特徴量抽出手段143における相関特徴量の算出方法の一例を示すフローチャートを示しており、図21を参照して相関特徴量の算出方法について説明する。
The correlation feature
なお、図21において横方向に沿った変化に関する相関特徴量の抽出について説明するが、同様の手法により縦方向に沿った変化に対する相関特徴量も抽出される。また、以下に示すFi(x)は、第i行における第x画素(i=0〜31、x=0〜31)の成分信号値を示し、Fj(x)は第j行における第x画素(i=0〜31、x=0〜31)の成分信号値を示すものとする。 In addition, although extraction of the correlation feature-value regarding the change along a horizontal direction is demonstrated in FIG. 21, the correlation feature-value with respect to the change along a vertical direction is also extracted by the same method. Further, F i (x) shown below indicates the component signal value of the x-th pixel (i = 0 to 31, x = 0 to 31) in the i-th row, and F j (x) indicates the component signal value in the j-th row. The component signal value of x pixel (i = 0-31, x = 0-31) shall be shown.
最初に、エッジ画像生成手段142において生成された縦エッジ画像を用いて、縦エッジ画像の各行に沿った成分信号値Fi(x)、Fj(x)の変化を規格化する(ステップST21)。具体的には、成分信号値Fi(x)と平均値Fiとの差分を標準偏差δiで割り、規格化された成分信号値Fi’(x)が求められる。 First, using the vertical edge image generated by the edge image generation means 142, the change in the component signal values F i (x) and F j (x) along each row of the vertical edge image is normalized (step ST21). ). Specifically, the difference between the component signal value F i (x) and the average value F i is divided by the standard deviation δ i to obtain a normalized component signal value F i ′ (x).
Fi’(x)=(Fi(x)−Fi)/δi
同様に、j行の成分信号値Fj(x)と平均値Fjとの差分を標準偏差δiで割り、規格化された成分信号値Fi’(x)が求められる。
F i ′ (x) = (F i (x) −F i ) / δ i
Similarly, the difference between the component signal value F j (x) of j rows and the average value F j is divided by the standard deviation δ i to obtain a normalized component signal value F i ′ (x).
Fj’(x)=(Fj(x)−Fj)/δj
このように、成分信号値を規格化して相関特徴量を求めるのは、各行間における変動幅や平均値の違いを排除して、変動パターン自体の相互相関性を示す相関特徴量を導出するためである。なお、Fi(x)、Fj(x)が一定値であり標準偏差が0の場合は、Fi’(x)=0(一定)、Fj’(x)=0(一定)とする。
F j ′ (x) = (F j (x) −F j ) / δ j
As described above, the correlation feature value is obtained by normalizing the component signal value in order to derive the correlation feature value indicating the cross-correlation of the variation pattern itself by eliminating the difference in the fluctuation range and the average value between the rows. It is. When F i (x) and F j (x) are constant values and the standard deviation is 0, F i ′ (x) = 0 (constant) and F j ′ (x) = 0 (constant). To do.
そして、異なる2行(第i行と第j行)の組合せについて、これら2行に関する規格化された成分信号値Fi’(x)およびFj’(x)を用いて、相互相関関数
が導出される(ステップST22)。この相互相関関数は、概念的に言えば、図22(a)に示すように、2行の規格化された成分信号値Fi’(x)およびFj’(x)をd画素分だけずらして掛け合わせ、その総和を取るものである。すると、図22(b)に示すような、dの関数としての相互相関関数Gij(d)が得られる。 Is derived (step ST22). Conceptually, the cross-correlation function is obtained by converting the normalized component signal values F i ′ (x) and F j ′ (x) of two rows by d pixels as shown in FIG. Multiply by shifting and take the sum. Then, a cross-correlation function G ij (d) as a function of d as shown in FIG. 22B is obtained.
次に、算出した相互相関関数Gij(d)にd=0〜31に代入したときの相関値の中から最大相関値が算出される(ステップST23)。
この作業をすべての2行の組み合わせについて最大相関値が算出される(ステップST21〜ステップST24)。ここでは、32画素×32画素のブロック領域においては、0行〜31行のすべての組み合わせの最大相関値が算出される。そして、算出されたすべての最大相関値の平均値および標準偏差が算出されて、この平均値および標準偏差が相関特徴量とされる(ステップST25)。同様に、縦方向に沿った変化に関する最大相関値の平均値および標準偏差が相関特徴量として算出される(ステップST21〜ステップST25)。 In this operation, the maximum correlation value is calculated for all combinations of two rows (steps ST21 to ST24). Here, in the block region of 32 pixels × 32 pixels, the maximum correlation values of all combinations of the 0th to 31st rows are calculated. Then, an average value and a standard deviation of all the calculated maximum correlation values are calculated, and the average value and the standard deviation are set as correlation feature amounts (step ST25). Similarly, the average value and the standard deviation of the maximum correlation values relating to changes along the vertical direction are calculated as correlation feature amounts (steps ST21 to ST25).
上述したように算出された相関特徴量は、オブジェクトを構成するブロック領域BRに規則的なパターンがあるかどうかを示すものであり、最大相関値の平均値が大きく標準偏差の小さくなればなるほど、規則的なパターンが形成されていることを意味する。一般的に撮影された画像に含まれる自然物は規則的なパターン、連続的なパターン、周期的なパターンは少なく、ランダムなパターンにより構成されていることが多い。一方、ビルや石畳等の人工物は規則的なパターン等により構成されていることが多い。そこで、オブジェクトを構成するブロック領域BRが規則的なパターンを構成しているか否かを示す相関特徴量を抽出することにより、ブロック領域BRが人工的に作られた建造物等の画像の一部であるのか、自然物の画像の一部であるのかを判断することができる。 The correlation feature amount calculated as described above indicates whether or not there is a regular pattern in the block region BR constituting the object. The larger the average value of the maximum correlation values is and the smaller the standard deviation is, It means that a regular pattern is formed. In general, natural objects included in captured images have few regular patterns, continuous patterns, and periodic patterns, and are often composed of random patterns. On the other hand, artifacts such as buildings and cobblestones are often composed of regular patterns. Therefore, a part of an image of a building or the like in which the block region BR is artificially created by extracting a correlation feature amount indicating whether or not the block region BR constituting the object forms a regular pattern. Or a part of an image of a natural object.
なお、相関特徴量抽出手段143は、単に規格化された成分信号値Fi’(x)、Fj’(x)の積の総和の平均値および標準偏差を相関特徴量として抽出してもよいが、上述のように、相互相関関数の最大値の平均値および標準偏差を相関特徴量として用いれば、たとえば斜め方向に規則的な模様や波紋が撮影されたブロック領域BRについても、そのパターンの規則性を示す適当な相関特徴量を導出できるようになり、ブロック領域の相関に関する特徴量を正確に表した相関特徴量の抽出を行うことができる。ここで、1画素ずつ画素ライン画素ラインをずらした場合(d=0,1,2,・・・31)について言及しているが、2画素分ずらす等の複数画素ずらしながら最大相関値を算出するようにしてもよい。 Note that the correlation feature quantity extraction means 143 may simply extract the average value and standard deviation of the sum of the normalized component signal values F i ′ (x) and F j ′ (x) as the correlation feature quantity. However, as described above, if the average value and the standard deviation of the maximum value of the cross-correlation function are used as the correlation feature amount, for example, the pattern of the block region BR in which a regular pattern or ripple is photographed in an oblique direction. Accordingly, it is possible to derive an appropriate correlation feature amount indicating regularity of the block, and it is possible to extract a correlation feature amount that accurately represents the feature amount related to the correlation of the block region. Here, the case where the pixel line is shifted pixel by pixel (d = 0, 1, 2,... 31) is mentioned, but the maximum correlation value is calculated while shifting a plurality of pixels, such as shifting by two pixels. You may make it do.
エッジ特徴量抽出手段144は、ブロック領域BRのエッジ成分の特徴量を抽出するものである。具体的には、エッジ特徴量抽出手段144は、エッジ検出フィルター(図20参照)を用いて生成された縦エッジ画像および横エッジ画像について、それぞれの成分信号値の平均値および標準偏差を算出し、4個のエッジ特徴量を出力するものである。
The edge feature quantity extraction means 144 extracts the feature quantity of the edge component of the block area BR. Specifically, the edge feature
このように、エッジ成分の特徴量としてエッジ成分の平均値を用いることにより、自然物の中でもエッジの少ない「空」と自然物の中でもエッジの多い「水」や「植物」とを分類することができる。また、エッジ特徴量としてブロック領域BRの縦方向のエッジ成分と横方向のエッジ成分とを抽出することにより、たとえば「水」のように方向によってエッジ成分の特徴が異なるオブジェクトと、「植物」「花畑」等の縦方向および横方向において比較的均一なエッジを形成するオブジェクトとを分類することができる。 In this way, by using the average value of the edge component as the feature value of the edge component, it is possible to classify “sky” with few edges among natural objects and “water” and “plants” with many edges among natural objects. . Further, by extracting the vertical edge component and the horizontal edge component of the block region BR as edge feature amounts, for example, “water”, an object having different edge component characteristics depending on the direction, “plant”, “ Objects that form relatively uniform edges in the vertical and horizontal directions such as “flower garden” can be classified.
色特徴量抽出手段145は、ブロック領域BRの色特徴を示す色特徴量を抽出するものである。具体的には、色特徴量抽出手段145は、YCC表色系で表されたブロック領域BRを構成する32×32画素分の輝度成分(Y成分)および2つの色差成分(Cr、Cb)の各成分信号値の平均値および標準偏差を算出し、1のブロック領域から6個の色特徴量を抽出するものである。
The color feature
なお、色特徴量抽出手段145は、RGB表色系からYCC表色系に変換された後に色特徴量が抽出するようにしているが、たとえばRGB表色系のまま各成分(RGB)について色特徴量を抽出するようにしてもよいし、画像変換手段141において、RGB表色系のブロック領域BRをLab表色系に変換して、Labの各成分について色特徴量を抽出するようにしてもよい。また、色特徴量抽出手段145は、各成分信号値の平均値と標準偏差とを色特徴量として抽出しているが、たとえば最大値や最小値、分位点等その他の代表値を色特徴量として用いてもよい。
The color feature
そして、4つの相関特徴量と4つのエッジ特徴量と6つの色特徴量とからなる14次元のブロック特徴量が写像手段50に入力されて、種類出力手段60により種類の識別が行われるようになる。このとき、写像手段50における自己組織化マップSOMの結合荷重ベクトルは、14次元のベクトルから構成されるようになり、自己組織化マップSOMは14次元の特徴ベクトルを用いて学習された状態になっている。
Then, a 14-dimensional block feature value composed of four correlation feature values, four edge feature values, and six color feature values is input to the
なお、各特徴量は変動幅を調整した上で適当な重み付けをして使用するようにしてもよい。さらに、図19の特徴量抽出手段140が、上述した相関特徴量、エッジ特徴量、色特徴量の他に、図6における距離画像から抽出した特徴量や高周波成分の特徴量を算出する機能を有するものであってもよい。
Each feature amount may be used with appropriate weighting after adjusting the fluctuation range. Further, the feature
図23は本発明のオブジェクト識別装置の第4の実施の形態を示すブロック図であり、図23を参照してオブジェクト識別装置500について説明する。なお、図23のオブジェクト識別装置500において、図1のオブジェクト識別装置1と同一の構成を有する部位には同一の符号を付してその説明を省略する。
FIG. 23 is a block diagram showing a fourth embodiment of the object identification device of the present invention. The
オブジェクト識別装置500において、最初にオブジェクト領域生成手段20がオブジェクト領域ORを生成するようになっている。そして、特徴量抽出手段540が、生成されたオブジェクト領域ORからオブジェクト特徴量を抽出するようになっている。その後、抽出したオブジェクト特徴量を用いて写像手段50および種類出力手段60により、オブジェクト領域ORの種類が識別されるようになっている。
In the
さらに、この特徴量抽出手段540は、画像変換手段510により所定の画像変換処理が施された全体画像と生成されたオブジェクト領域ORとを用いてオブジェクト特徴量を抽出するようになっている。具体的には、画像変換手段510は、RGB表色系からなる全体画像をYCC表色系に変換し、YCC表色系の各成分毎の3つの画像を生成する機能を有する。さらに、画像変換手段510は、Y成分から生成した縦エッジ画像と横エッジ画像とを生成するようになっている。そして特徴量抽出手段40は、YCC各成分毎の3つの画像、縦エッジ画像、横エッジ画像の5つの画像からそれぞれオブジェクト特徴量を抽出するようになっている。
Further, the feature
ここで、特徴量抽出手段540は以下に示す手法によりオブジェクト特徴量を抽出するようになっている。すなわち、特徴量抽出手段540は、上述した各画像に対して領域分割結果を組み合わせることにより、各オブジェクト領域OR毎の画素値の分布(ヒストグラム)を生成する。そして、特徴量抽出手段540は、ヒストグラムから平均値および標準偏差を算出し、オブジェクト特徴量を生成するようになっている。なお、特徴量としてヒストグラムの代表点(たとえば最大値、最小値、中央値、分位点等)を用いてもよい。また、自己組織化マップSOMの学習用サンプルは、ブロック領域BRに上述した画像変換を施し、上述したヒストグラムから抽出した特徴量を用いて行われることになる。
Here, the feature quantity extraction means 540 extracts object feature quantities by the following method. That is, the feature
なお、上述した特徴量抽出手段540において、図6や図19に示すような特徴量をオブジェクト領域ORから抽出し、オブジェクト特徴量としてもよい。さらに、上述した画像変換手段510において、全体画像に多重解像度変換を施し解像度の異なる複数の解像度変換画像、全体画像をRGB表色系からLab表色系に変換した画像、モフォロジーフィルタ等を用いて特定形状の構造を抽出したフィルタリング画像等を生成するようにし、特徴量抽出手段540は、各画像から特徴量を抽出するようにしてもよい。
Note that the feature quantity extraction means 540 described above may extract feature quantities as shown in FIGS. 6 and 19 from the object region OR and use them as object feature quantities. Further, the above-described
これにより、オブジェクト領域ORの領域形状が複雑な場合や小さい場合においてもオブジェクト領域ORの種類を確実に識別することができるようになる。すなわち、全体画像をブロック領域BRに分けたときには、オブジェクト領域ORが複雑な場合にはオブジェクト領域ORが複数のブロック領域BRに分かれてしまい、オブジェクト領域ORが小さい場合には種類識別に用いるブロック領域BRの数が少なくなってしまう。 As a result, even when the area shape of the object area OR is complex or small, the type of the object area OR can be reliably identified. That is, when the entire image is divided into block areas BR, the object area OR is divided into a plurality of block areas BR when the object area OR is complicated, and the block area used for type identification when the object area OR is small. The number of BR will decrease.
これに対し、ブロック領域識別手段30による識別結果をブロック領域BRに含まれるすべての画素に割り当てるようにし、オブジェクト領域ORを構成する画素に割り当てられた種類のうち、最も画素の多い種類をオブジェクト領域ORの種類であると識別することも考えられる。しかし、オブジェクト領域ORの境界を含むブロック領域BRについても種類の識別を行う必要があり、その結果、種類の識別の精度が低下してしまうという問題がある。そこで、オブジェクト領域OR自体から特徴量を抽出して種類の識別を行うことにより、複雑な形状のオブジェクト領域ORや形状の小さいオブジェクト領域ORについても精度よく種類の識別を行うことができる。 On the other hand, the result of identification by the block area identifying means 30 is assigned to all the pixels included in the block area BR, and the type having the largest number of pixels among the types assigned to the pixels constituting the object area OR is assigned to the object area. It may be possible to identify the type of OR. However, it is necessary to identify the type of the block region BR including the boundary of the object region OR. As a result, there is a problem that the accuracy of identifying the type is lowered. Therefore, by extracting the feature amount from the object area OR itself and identifying the type, it is possible to accurately identify the type of the object area OR having a complicated shape or the object area OR having a small shape.
図24は本発明のオブジェクト識別装置の第5の実施の形態を示すブロック図であり、図24を参照してオブジェクト識別装置600について説明する。なお、図24のオブジェクト識別装置600において図1のオブジェクト識別装置1および図23のオブジェクト識別装置500と同一の構成を有する部位には同一の符号を付してその説明を省略する。図24のオブジェクト識別装置600が、図23のオブジェクト識別装置500と異なる点は、オブジェクト領域ORの外接矩形画像を規格化した規格化オブジェクト領域を生成する規格化手段630をさらに備えることである。したがって、オブジェクト特徴量を抽出する際のオブジェクト領域ORの大きさは、いずれの画像のいずれのオブジェクト領域ORであっても同一の大きさとなる。
FIG. 24 is a block diagram showing a fifth embodiment of the object identification device of the present invention. The
このように、オブジェクト領域ORを規格化してからオブジェクト特徴量を抽出することにより、全体画像に含まれるオブジェクト領域の大きさに種類の識別精度が依存されることなく、正確な識別を行うことができる。つまり、全体画像に含まれるオブジェクトの大きさは、撮影時の状況により多種多様なものとなる。そこで、各オブジェクト領域ORを規格化した後にオブジェクト特徴量を抽出し種類の識別を行うことにより、サイズの変動に対してロバスト性を持たせ、精度の高い種類の識別を行うことが可能となる。 As described above, by extracting the object feature amount after normalizing the object area OR, accurate identification can be performed without depending on the size of the object area included in the entire image and the type identification accuracy. it can. That is, the size of the object included in the entire image varies depending on the situation at the time of shooting. Therefore, by extracting the object feature amount after standardizing each object region OR and identifying the type, it is possible to make the type robust with respect to the size variation and to identify the type with high accuracy. .
なお、図1のオブジェクト識別装置1と図24のオブジェクト識別装置600とを組み合わせて使用するようにしてもよい。すると、オブジェクトの一部が遮蔽物によって隠れている場合、オブジェクト領域ORからは種類の識別精度が低くなってしまうが、ブロック領域BRによる識別の集計を用いれば、オブジェクトの種類の識別精度が低下するのを防止することができる。
Note that the
なお、本発明の実施の形態は上記各実施の形態に限定されない。たとえば、図1〜図22のオブジェクト識別装置1、300については、ブロック領域BRの種類を識別し、その識別結果を集計してオブジェクト領域ORの種類を識別し、図23および図24のオブジェクト識別装置500、600については、オブジェクト領域OR自体から種類を識別するようにしているが、両者を組み合わせるようにしてもよい。すなわち、ブロック領域識別手段30によるブロック領域BRの種類の識別と、種類出力手段によるオブジェクト領域OR自体の種類の識別とを用いて、オブジェクト識別手段において最終的なオブジェクト領域ORの種類を識別するようにしてもよい。
The embodiments of the present invention are not limited to the above embodiments. For example, for the
また、図1のブロック領域識別手段30は、種類として「空」や「海」等といった情報をオブジェクト識別手段70に送るようにしているが、上述した種類ベクトル自体を種類としてオブジェクト識別手段70に送るようにしてもよい。この場合、オブジェクト識別手段70は、オブジェクト領域ORに含まれる各ブロック領域BRの種類ベクトルを単純加算することにより、種類ベクトルのうち最大のベクトル成分となっている種類をオブジェクト領域ORの種類として識別するようにしてもよい。あるいは、最大のベクトル成分が最大しきい値よりも小さい等の場合、オブジェクト識別手段70がオブジェクト領域ORの種類を「不明」となるようにしてもよい。
1 sends information such as “sky” and “sea” as types to the
また、オブジェクト領域ORの生成およびブロック領域BRの生成は、送られる全体画像Pの有する解像度をそのまま使用している場合について例示しているが、オブジェクト領域生成手段20およびブロック領域生成手段10に入力する前に解像度を落としてから入力するようにしてもよい。解像度を落とすことにより、処理するデータ量を少なくすることができるため、処理速度の向上および処理の効率化を図ることができる。 In addition, the generation of the object area OR and the generation of the block area BR are exemplified for the case where the resolution of the whole image P to be sent is used as it is, but the input to the object area generation means 20 and the block area generation means 10 You may make it input after reducing resolution before doing. Since the amount of data to be processed can be reduced by reducing the resolution, the processing speed can be improved and the processing efficiency can be improved.
さらに、オブジェクト領域ORを生成する際の解像度と、ブロック領域BRを生成する際の解像度が同一である必要はない。たとえば、ブロック領域BRが、オブジェクト領域ORの画像よりも解像度を高くするようにしてもよい。これは、ブロック領域BRは上述したようにそれぞれ種類を識別する必要があるが、オブジェクト領域ORに分割する際には大雑把に類似した領域に分けることを目的とするため、比較的低解像度の画像を利用しても目的は達成することができるためである。 Furthermore, the resolution for generating the object area OR and the resolution for generating the block area BR do not have to be the same. For example, the block area BR may have a higher resolution than the image of the object area OR. This is because it is necessary to identify the type of each of the block regions BR as described above. However, since the purpose is to roughly divide the block region BR into regions similar to each other, the relatively low-resolution image This is because the purpose can be achieved even if is used.
また、図1において、ブロック領域生成手段10により生成されたブロック領域BRをそのままブロック領域識別手段30に送るようにしているが、ブロック領域BR毎の判定結果に対してたとえばモフォロジー処理やClosing演算等の平滑化処理を行った後にブロック領域識別手段30に送るようにしてもよい。これにより、ブロック領域BR内に含まれる孤立したノイズ的な要素が切り捨てられて、種類識別の精度の向上を図ることができる。
In FIG. 1, the block area BR generated by the block area generation means 10 is sent as it is to the block area identification means 30. For example, morphology processing, closing operation, etc. are performed on the determination result for each block area BR. After performing the smoothing process, it may be sent to the block
1、300、500、600 オブジェクト識別装置
10 ブロック領域生成手段
20 オブジェクト領域生成手段
30 ブロック領域識別手段
30 ブロック領域識別手段
30 種類識別手段
40、140 特徴量抽出手段
41 変換手段
42 平均値算出手段
43 ウェーブレット変換手段
44 平均値算出手段
45 最大値算出手段
46 距離画像生成手段
47 ウェーブレット変換手段
48 平均値算出手段
49 最大値算出手段
50 写像手段
60 種類出力手段
70 オブジェクト識別手段
100 特徴量分類手段
101 領域分割手段
110 領域統合手段
111 データベース
112 最小クラスタ領域抽出手段
113 統合領域判断手段
130 ブロック領域生成手段
140 特徴量抽出手段
141 画像変換手段
142 エッジ画像生成手段
143 相関特徴量抽出手段
144 エッジ特徴量抽出手段
145 色特徴量抽出手段
150 写像手段
200 オブジェクト識別装置
201 ブロック領域生成手段
BR ブロック領域
BR1 第1ブロック領域
BR2 第2ブロック領域
KDM 種類頻度分布マップ
KI 種類ベクトル
OR オブジェクト領域
P 画像
SOM 自己組織化マップ(2次元空間)
1, 300, 500, 600
Claims (17)
前記画像を前記オブジェクト毎に領域分割したオブジェクト領域と、前記画像を設定画素数からなる、前記オブジェクト領域より小さい多数の領域に分割した複数のブロック領域とを生成し、
生成した複数の前記各ブロック領域毎にそれぞれ種類を識別し、
識別した前記ブロック領域の種類を前記各オブジェクト領域毎に集計し、
集計した結果を用いて前記オブジェクト領域の種類を識別する
を有することを特徴とするオブジェクト識別方法。 In an object identification method for identifying the type of object included in an image,
Generating an object area obtained by dividing the image for each object, and a plurality of block areas obtained by dividing the image into a plurality of areas smaller than the object area, each having a set number of pixels;
Identify each type for each of the plurality of generated block areas,
Totalize the types of the identified block areas for each object area,
An object identification method comprising: identifying a type of the object region using a totaled result.
前記画像を前記オブジェクト毎に領域分割して複数のオブジェクト領域を生成するオブジェクト領域生成手段と、
前記画像を設定画素数からなる、前記オブジェクト領域より小さい多数の領域に分割して複数のブロック領域を生成するブロック領域生成手段と、
該ブロック領域生成手段により生成された複数の前記ブロック領域毎にそれぞれ種類を識別するブロック領域識別手段と、
前記各ブロック領域毎に識別された前記ブロック領域の種類を前記オブジェクト領域毎に集計し、集計した結果を用いて前記オブジェクトの種類を識別するオブジェクト識別手段と
を有することを特徴とするオブジェクト識別装置。 In an object identification device for identifying the type of object included in an image,
Object region generation means for dividing the image into regions for each object to generate a plurality of object regions;
A block area generating unit configured to divide the image into a plurality of areas smaller than the object area, each having a set number of pixels, and generating a plurality of block areas;
A block area identifying means for identifying a type for each of the plurality of block areas generated by the block area generating means;
Object identification apparatus comprising: object identification means that aggregates the types of the block areas identified for each of the block areas for each object area, and identifies the types of the objects using the aggregated results .
前記ブロック領域から複数のブロック特徴量を抽出する特徴量抽出手段と、
該特徴量抽出手段により抽出された複数の前記ブロック特徴量を2次元空間上に写像する写像手段と、
前記2次元空間上の座標毎に種類を定義した種類頻度分布マップを有し、前記写像手段により写像された前記2次元空間上の座標が該種類頻度分布マップ上で示す種類を前記ブロック領域の種類として出力する種類出力手段と
を有することを特徴とする請求項2に記載のオブジェクト識別装置。 The block area identification means;
Feature quantity extraction means for extracting a plurality of block feature quantities from the block region;
Mapping means for mapping a plurality of the block feature values extracted by the feature value extraction means on a two-dimensional space;
A type frequency distribution map in which a type is defined for each coordinate in the two-dimensional space, and the type in which the coordinates in the two-dimensional space mapped by the mapping unit indicate on the type frequency distribution map The object identification device according to claim 2, further comprising: a type output unit that outputs a type.
前記2つの画素ラインのいずれか一方を1画素ずつ前記画素ラインの形成方向にずらしながら前記画素の成分信号値を前記相互相関関数に入力することにより複数の前記相関値を取得し、取得した前記複数の相関値から最も大きい最大相関値を算出するものであり、
前記ブロック領域の同一方向に形成された前記画素ラインのすべての組み合わせについて前記最大相関値を算出し、算出されたすべての前記最大相関値の平均値および標準偏差を相関特徴量として抽出するものであることを特徴とする請求項12または請求項13に記載のオブジェクト識別装置。 The correlation feature quantity extraction unit outputs a correlation value indicating a correlation between the two pixel lines from component signal values of a plurality of pixels constituting the two pixel lines formed in the same direction in the block region. Having a cross-correlation function of
The plurality of correlation values are acquired by inputting the component signal value of the pixel to the cross-correlation function while shifting one of the two pixel lines pixel by pixel in the formation direction of the pixel line. The largest maximum correlation value is calculated from a plurality of correlation values,
The maximum correlation value is calculated for all combinations of the pixel lines formed in the same direction of the block region, and the average value and standard deviation of all the calculated maximum correlation values are extracted as correlation feature amounts. The object identification device according to claim 12, wherein the object identification device is provided.
画像をオブジェクト毎に領域分割したオブジェクト領域と、前記画像を設定画素数からなる、前記オブジェクト領域より小さい多数の領域に分割した複数のブロック領域とを生成する手順と、
生成した複数の前記各ブロック領域毎にそれぞれ種類を識別する手順と、
識別した前記ブロック領域の種類を前記各オブジェクト領域毎に集計する手順と、
集計した結果を用いて前記オブジェクト領域の種類を識別する手順と
を実行させるためのオブジェクト識別プログラム。 On the computer,
A procedure for generating an object area obtained by dividing an image for each object, and a plurality of block areas obtained by dividing the image into a plurality of areas smaller than the object area, each having a set number of pixels
A procedure for identifying the type for each of the plurality of generated block areas,
A procedure for totalizing the types of the identified block areas for each object area;
An object identification program for executing a procedure for identifying the type of the object area using the totaled result.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003282698A JP4285640B2 (en) | 2002-07-30 | 2003-07-30 | Object identification method, apparatus and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002221300 | 2002-07-30 | ||
JP2003282698A JP4285640B2 (en) | 2002-07-30 | 2003-07-30 | Object identification method, apparatus and program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009021749A Division JP2009123234A (en) | 2002-07-30 | 2009-02-02 | Object identification method, apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004078939A JP2004078939A (en) | 2004-03-11 |
JP4285640B2 true JP4285640B2 (en) | 2009-06-24 |
Family
ID=32032758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003282698A Expired - Fee Related JP4285640B2 (en) | 2002-07-30 | 2003-07-30 | Object identification method, apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4285640B2 (en) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7804980B2 (en) | 2005-08-24 | 2010-09-28 | Denso Corporation | Environment recognition device |
JP4595759B2 (en) * | 2005-09-09 | 2010-12-08 | 株式会社デンソー | Environment recognition device |
JP5461064B2 (en) * | 2009-05-21 | 2014-04-02 | 日機装株式会社 | Shape estimation system, shape estimation method, program, and recording medium |
JP5934653B2 (en) * | 2010-11-29 | 2016-06-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Image classification device, image classification method, program, recording medium, integrated circuit, model creation device |
CN103988204B (en) * | 2011-12-13 | 2017-05-17 | 国际商业机器公司 | Medical-image retrieval method, device, and computer program |
JP5914404B2 (en) | 2012-04-12 | 2016-05-11 | 富士フイルム株式会社 | X-ray exposure control device, X-ray image detection device, and X-ray imaging system |
US9208173B1 (en) | 2014-06-13 | 2015-12-08 | Globalfoundries Inc. | Techniques for medical image retreival |
WO2018025845A1 (en) * | 2016-08-03 | 2018-02-08 | 日本電気株式会社 | Detection device, detection method, and recording medium for storing program |
JP7206583B2 (en) * | 2016-11-25 | 2023-01-18 | 株式会社リコー | Information processing device, imaging device, device control system, moving object, information processing method and program |
JP2020122692A (en) * | 2019-01-30 | 2020-08-13 | キヤノン株式会社 | Image processor and method for processing image |
-
2003
- 2003-07-30 JP JP2003282698A patent/JP4285640B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004078939A (en) | 2004-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109154978B (en) | System and method for detecting plant diseases | |
US7983486B2 (en) | Method and apparatus for automatic image categorization using image texture | |
Sirmacek et al. | Urban-area and building detection using SIFT keypoints and graph theory | |
CN107358260B (en) | Multispectral image classification method based on surface wave CNN | |
JP6192271B2 (en) | Image processing apparatus, image processing method, and program | |
CN110309781B (en) | House damage remote sensing identification method based on multi-scale spectrum texture self-adaptive fusion | |
KR20160143494A (en) | Saliency information acquisition apparatus and saliency information acquisition method | |
JP4098021B2 (en) | Scene identification method, apparatus, and program | |
CN111125416A (en) | Image retrieval method based on multi-feature fusion | |
CN111027497B (en) | Weak and small target rapid detection method based on high-resolution optical remote sensing image | |
JP6497579B2 (en) | Image composition system, image composition method, image composition program | |
JP6341650B2 (en) | Image processing apparatus, image processing method, and program | |
US11450087B2 (en) | System and method for multimedia analytic processing and display | |
Touati et al. | A reliable mixed-norm-based multiresolution change detector in heterogeneous remote sensing images | |
CN110070545B (en) | Method for automatically extracting urban built-up area by urban texture feature density | |
Trivedi et al. | Automatic segmentation of plant leaves disease using min-max hue histogram and k-mean clustering | |
Kim et al. | Building detection in high resolution remotely sensed images based on automatic histogram-based fuzzy c-means algorithm | |
JP4285640B2 (en) | Object identification method, apparatus and program | |
US7620246B2 (en) | Method and apparatus for image processing | |
JP2009123234A (en) | Object identification method, apparatus and program | |
CN113781421A (en) | Underwater-based target identification method, device and system | |
JP4285644B2 (en) | Object identification method, apparatus and program | |
JP6334281B2 (en) | Forest phase analysis apparatus, forest phase analysis method and program | |
Rajyalakshmi et al. | Compressed High Resolution Satellite Image Processing to Detect Water Bodies with Combined Bilateral Filtering and Threshold Techniques. | |
Lopez et al. | Line-based image segmentation method: a new approach to segment VHSR remote sensing images automatically |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060303 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20061205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090317 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090318 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120403 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4285640 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120403 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130403 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130403 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140403 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |