JP2005242592A - Image processing apparatus and image processing method - Google Patents

Image processing apparatus and image processing method Download PDF

Info

Publication number
JP2005242592A
JP2005242592A JP2004050489A JP2004050489A JP2005242592A JP 2005242592 A JP2005242592 A JP 2005242592A JP 2004050489 A JP2004050489 A JP 2004050489A JP 2004050489 A JP2004050489 A JP 2004050489A JP 2005242592 A JP2005242592 A JP 2005242592A
Authority
JP
Japan
Prior art keywords
image
image processing
feature amount
target
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004050489A
Other languages
Japanese (ja)
Other versions
JP4741804B2 (en
Inventor
Takayasu Yamaguchi
高康 山口
Setsuyuki Hongo
節之 本郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2004050489A priority Critical patent/JP4741804B2/en
Publication of JP2005242592A publication Critical patent/JP2005242592A/en
Application granted granted Critical
Publication of JP4741804B2 publication Critical patent/JP4741804B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide an image processing apparatus and an image processing method that correctly distinguish a subject included in a pickup image from the pickup image while reducing the number of dimensions of an image feature value and reducing computational complexity. <P>SOLUTION: An image processing server 1 comprises feature value extracting means for quantizing signals of a pickup image represented in a uniform color space in every arbitrary area of the pickup image, extracting frequencies of quantization level values on axes in the uniform color space as a color histogram, combining the color histogram of every arbitrary area, and extracting a feature value of the entire pickup image, and identifying means for distinguishing an unknown subject according to the feature value of the entire pickup image. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、撮影画像から撮影画像に含まれる未知の撮影対象を判別する画像処理装置及び画像処理方法に関する。   The present invention relates to an image processing apparatus and an image processing method for discriminating an unknown shooting target included in a shot image from a shot image.

従来、撮影画像から当該撮影画像に含まれる撮影対象を判別する際に用いられる特徴量には様々なものがある。色の特徴量や形状(構図)の特徴量などが、その例である。近年、これら複数の画像特徴量を組み合わせて高次元特徴量を作成し、撮影対象の判別を行う方法が提案されている(例えば、特許文献1参照)。
特開2003−289551号公報(「0089」〜「0091」段落、図10)
2. Description of the Related Art Conventionally, there are various feature amounts used when determining a shooting target included in a captured image from a captured image. Examples include color feature values and shape (composition) feature values. In recent years, a method has been proposed in which a plurality of image feature amounts are combined to create a high-dimensional feature amount and a subject to be imaged is determined (see, for example, Patent Document 1).
Japanese Patent Laying-Open No. 2003-289551 (paragraphs “0089” to “0091”, FIG. 10)

しかしながら、複数の画像特徴量を組み合わせることにより、特徴量の次元が高くなると、その次元数に応じて計算処理量が大きくなっていた。  However, when the dimension of the feature quantity is increased by combining a plurality of image feature quantities, the amount of calculation processing increases according to the number of dimensions.

そこで、本発明は、上記の課題に鑑み、画像特徴量の次元数を低く抑え、計算処理量を小さくし、撮影画像から撮影画像に含まれる撮影対象を正しく判別する画像処理装置及び画像処理方法を提供することを目的とする。  In view of the above problems, the present invention is an image processing apparatus and an image processing method that can reduce the number of dimensions of an image feature amount, reduce the amount of calculation processing, and correctly determine an imaging target included in the captured image from the captured image. The purpose is to provide.

上記目的を達成するため、本発明の第1の特徴は、撮影画像から撮影画像に含まれる未知の撮影対象を判別する画像処理装置であって、(イ)撮影画像の任意の領域毎に、色空間で表現された撮影画像の信号を量子化し、色空間における各軸の量子化レベルの値の頻度を色ヒストグラムとして抽出する第1の特徴量抽出手段と、(ロ)任意の領域毎の色ヒストグラムを結合し、撮影画像全体の特徴量を抽出する第2の特徴量抽出手段と、(ハ)撮影画像全体の特徴量に基づいて、未知の撮影対象を判別する判別手段とを備える画像処理装置であることを要旨とする。ここで、「色空間」には、均等色空間(L*、a*、b*空間)、RGB色空間、CMYK色空間、L*、u*、v*空間、YUV空間、XYZ空間などの様々な色空間が含まれる。 In order to achieve the above object, a first feature of the present invention is an image processing apparatus that discriminates an unknown shooting target included in a shot image from a shot image, and (a) for each arbitrary region of the shot image, First feature amount extraction means for quantizing a signal of a captured image expressed in a color space and extracting a frequency of a quantization level value of each axis in the color space as a color histogram; and (b) for each arbitrary region An image comprising: a second feature amount extraction unit that combines color histograms to extract a feature amount of the entire captured image; and (c) a determination unit that determines an unknown shooting target based on the feature amount of the entire captured image. The gist is that it is a processing device. Here, the “color space” includes uniform color space (L * , a * , b * space), RGB color space, CMYK color space, L * , u * , v * space, YUV space, XYZ space, etc. Various color spaces are included.

第1の特徴に係る画像処理装置によると、画像特徴量の次元数を低く抑え、計算処理量を小さくし、撮影画像から撮影画像に含まれる撮影対象を正しく判別することができる。ここで、「次元数」とは、ベクトルである、特徴量の各要素数をいう。   According to the image processing apparatus according to the first feature, the number of dimensions of the image feature amount can be reduced, the amount of calculation processing can be reduced, and the shooting target included in the shot image can be correctly determined from the shot image. Here, the “number of dimensions” refers to the number of elements of the feature quantity that is a vector.

又、第1の特徴に係る画像処理装置は、任意の領域毎の色ヒストグラムに、任意の重みを掛け合わせる重み付け手段を更に備え、第2の特徴量抽出手段は、重みを掛け合わされた任意の領域毎の色ヒストグラムを結合してもよい。この画像処理装置によると、各領域で抽出した特徴量のベクトルの大きさについてバランスを取ることができる。   The image processing apparatus according to the first feature further includes a weighting unit that multiplies the color histogram for each arbitrary region by an arbitrary weight, and the second feature amount extraction unit includes an arbitrary weighted multiplying unit. You may combine the color histogram for every area | region. According to this image processing apparatus, it is possible to balance the size of the feature vector extracted in each region.

又、任意の重みは、任意の領域毎の色ヒストグラムの次元の値の合計値の逆数であってもよい。この画像処理装置によると、ベクトルを正規化して結合を行うことができる。   The arbitrary weight may be the reciprocal of the total value of the dimension values of the color histogram for each arbitrary region. According to this image processing apparatus, the vectors can be normalized and combined.

又、第1の特徴に係る画像処理装置は、複数の撮影画像全体の特徴量それぞれに基づいて算出された複数の所定のパラメータを記憶する記憶手段と、所定のパラメータを算出するパラメータ算出手段とを更に備え、判別手段は、所定のパラメータを用いることにより、未知の撮影対象を判別してもよい。この画像処理装置によると、特徴量を用いて算出されたパラメータを用いて、未知の撮影対象の判別を行うことができる。   In addition, the image processing apparatus according to the first feature includes a storage unit that stores a plurality of predetermined parameters calculated based on each feature amount of the entire plurality of captured images, and a parameter calculation unit that calculates the predetermined parameters. The determining unit may determine an unknown imaging target by using a predetermined parameter. According to this image processing apparatus, it is possible to discriminate an unknown imaging target using parameters calculated using the feature amount.

又、lを既知の撮影対象の番号、Lを既知の撮影対象の数、N(l)をl番目の既知の撮影対象に対する撮影画像の数、vを特徴量の次元の番号、Vを特徴量の最大次元数、x(l) (n,v)をl番目の既知の撮影対象に属するn番目の撮影画像のv番目の次元の特徴量、γを任意の値、θ(v,l)をl番目の既知の撮影対象に属する特徴量のv番目の次元における所定パラメータ、x’(v)を未知の撮影対象が含まれる撮影画像のv番目の次元の特徴量、F(l)を前記未知の撮影対象がl番目の既知の撮影対象に属する度合いを示す判別値として、第1の特徴に係る画像処理装置のパラメータ算出手段は、以下の式によって、所定のパラメータを算出し、

Figure 2005242592
Also, l is the number of a known object, L is the number of known objects, N (l) is the number of images taken for the l-th known object, v is the number of feature dimensions, and V is the feature number. The maximum number of dimensions of the quantity, x (l) (n, v) is the feature quantity of the vth dimension of the nth captured image belonging to the lth known imaging target, γ is an arbitrary value, θ (v, l ) Is a predetermined parameter in the v-th dimension of the feature quantity belonging to the l-th known imaging target, x ′ (v) is a feature quantity in the v-th dimension of the captured image including the unknown imaging target, F (l) As a discriminant value indicating the degree to which the unknown imaging target belongs to the l-th known imaging target, the parameter calculation means of the image processing apparatus according to the first feature calculates a predetermined parameter by the following equation:
Figure 2005242592

判別手段は、以下の式によって得られた判別値が最も大きい撮影画像を、撮影対象として認識してもよい。

Figure 2005242592
The discriminating unit may recognize a photographed image having the largest discriminant value obtained by the following expression as a subject to be photographed.
Figure 2005242592

この画像処理装置によると、特徴量を用いて算出されたパラメータを用いて、判別値を算出し、未知の撮影対象の判別を行うことができる。又、式(1)及び式(2)は、いわゆるNB(ナイーブ・ベイズ)の手法であり、未知の撮影対象が既知の撮影対象に該当する確率を、複数の既知の撮影対象それぞれに算出することができ、かつ、処理速度が早いという利点を有する。   According to this image processing apparatus, it is possible to calculate a discrimination value using a parameter calculated using a feature amount and discriminate an unknown imaging target. Equations (1) and (2) are so-called NB (Naive Bayes) techniques, and the probability that an unknown subject is a known subject is calculated for each of a plurality of known subjects. And has an advantage of high processing speed.

本発明の第2の特徴は、撮影画像から撮影画像に含まれる未知の撮影対象を判別する画像処理方法であって、(イ)撮影画像の任意の領域毎に、色空間で表現された撮影画像の信号を量子化し、色空間における各軸の量子化レベルの値の頻度を色ヒストグラムとして抽出する第1の特徴量抽出ステップと、(ロ)任意の領域毎の色ヒストグラムを結合し、撮影画像全体の特徴量を抽出する第2の特徴量抽出ステップと、(ハ)撮影画像全体の特徴量に基づいて、未知の撮影対象を判別するステップとを含む画像処理方法であることを要旨とする。   A second feature of the present invention is an image processing method for discriminating an unknown shooting target included in a shot image from a shot image, and (a) a shooting expressed in a color space for each arbitrary region of the shot image. A first feature amount extraction step for quantizing an image signal and extracting a frequency of a quantization level value of each axis in a color space as a color histogram, and (b) combining a color histogram for each arbitrary region and shooting It is an image processing method including a second feature amount extraction step for extracting a feature amount of the entire image, and (c) a step of determining an unknown shooting target based on the feature amount of the entire shot image. To do.

第2の特徴に係る画像処理方法によると、画像特徴量の次元数を低く抑え、計算処理量を小さくし、撮影画像から撮影画像に含まれる撮影対象を正しく判別することができる。   According to the image processing method according to the second feature, it is possible to suppress the number of dimensions of the image feature amount, reduce the calculation processing amount, and correctly determine the shooting target included in the shot image from the shot image.

本発明によると、画像特徴量の次元数を低く抑え、計算処理量を小さくし、撮影画像から撮影画像に含まれる撮影対象を正しく判別する画像処理装置及び画像処理方法を提供することができる。  According to the present invention, it is possible to provide an image processing apparatus and an image processing method that can suppress the number of dimensions of an image feature amount, reduce the amount of calculation processing, and correctly determine a shooting target included in the shot image from the shot image.

次に、図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一又は類似の部分には、同一又は類似の符号を付している。ただし、図面は模式的なものであることに留意すべきである。   Next, embodiments of the present invention will be described with reference to the drawings. In the following description of the drawings, the same or similar parts are denoted by the same or similar reference numerals. However, it should be noted that the drawings are schematic.

(画像処理システム)
本実施形態に係る画像処理システムは、図1に示すように、ユーザの入力を受け付けて画像処理サーバ1(画像処理装置)に処理を依頼し、画像処理サーバ1での処理結果を出力する端末装置2a、2b、2cと、通信ネットワーク(インターネット等)3を介して、端末装置2a、2b、2cからの処理依頼を受け付けて処理を行い、端末装置2a、2b、2cに処理結果を送信する画像処理サーバ1とを備える。
(Image processing system)
As illustrated in FIG. 1, the image processing system according to the present embodiment receives a user input, requests processing from the image processing server 1 (image processing apparatus), and outputs a processing result in the image processing server 1. Accepts processing requests from the terminal devices 2a, 2b, and 2c via the devices 2a, 2b, and 2c and the communication network (such as the Internet) 3, performs processing, and transmits processing results to the terminal devices 2a, 2b, and 2c. An image processing server 1.

ユーザは、端末装置2a、2b、2cを、学習モードと判別モードの2種類のモードを切り換えて使用することができる。「学習モード」とは、既知である撮影対象を撮影し、この撮影画像と撮影対象を特定する情報を画像処理サーバ1へ送信することにより、画像処理サーバ1が撮影画像を学習するモードである。一方、「判別モード」とは、未知である撮影対象を撮影し、この撮影画像を画像処理サーバ1へ送信することにより、画像処理サーバ1が撮影対象を判別し、判別結果を、端末装置2a、2b、2cへ送信するモードである。   The user can use the terminal devices 2a, 2b, and 2c by switching between two modes, a learning mode and a discrimination mode. The “learning mode” is a mode in which the image processing server 1 learns a photographed image by photographing a known photographing target and transmitting the photographed image and information specifying the photographing target to the image processing server 1. . On the other hand, in the “discrimination mode”, an unknown shooting target is shot, and this shot image is transmitted to the image processing server 1, whereby the image processing server 1 determines the shooting target, and the determination result is displayed as the terminal device 2a. 2b and 2c.

学習モードである場合、画像処理サーバ1は、端末装置2a、2b、2cから受信した、撮影対象に関する情報や撮影対象を撮影した撮影画像から撮影対象のグルーピングを行い、各撮影対象情報及び画像を記憶する。   When the learning mode is set, the image processing server 1 performs grouping of the shooting targets from the information about the shooting targets and the shot images obtained by shooting the shooting targets received from the terminal devices 2a, 2b, and 2c. Remember.

判別モードである場合、画像処理サーバ1は、端末装置2a、2b、2cの位置情報と、端末装置2a、2b、2cから受信した撮影画像が撮影された位置に近い、予め登録された撮影対象の情報を取り出し、撮影画像に含まれる撮影対象を確率的に判別する。又、画像処理サーバ1は、判別結果となる複数の撮影対象の候補と、各候補が撮影対象である確率と、それら撮影対象に関連する情報を端末装置2a、2b、2cに送信する。   When it is in the discrimination mode, the image processing server 1 is registered in advance as a photographing target that is close to the position information of the terminal devices 2a, 2b, and 2c and the position where the captured images received from the terminal devices 2a, 2b, and 2c are photographed. Information is taken out, and a shooting target included in the shot image is determined probabilistically. In addition, the image processing server 1 transmits to the terminal devices 2a, 2b, and 2c a plurality of candidates for shooting targets that are the determination results, the probability that each candidate is a shooting target, and information related to these shooting targets.

画像処理サーバ1は、図2に示すように、通信手段11と、判別手段12と、特徴量抽出手段13と、登録手段14と、学習手段15と、演算装置16と、記憶装置17と、重み付け手段18とを備える。   As shown in FIG. 2, the image processing server 1 includes a communication unit 11, a determination unit 12, a feature amount extraction unit 13, a registration unit 14, a learning unit 15, a calculation device 16, a storage device 17, Weighting means 18.

通信手段11は、通信ネットワーク3(インターネット等)を介し、端末装置2a、2b、2cから、撮影画像及び撮影対象の情報を受信する。又、通信手段11は、判別モードである場合、通信ネットワーク3(インターネット等)を介し、端末装置2a、2b、2cへ撮影対象の情報及び判別結果を送信する。   The communication unit 11 receives the captured image and the information on the imaging target from the terminal devices 2a, 2b, and 2c via the communication network 3 (Internet or the like). Further, when in the discrimination mode, the communication unit 11 transmits information on the imaging target and the discrimination result to the terminal devices 2a, 2b, and 2c via the communication network 3 (Internet or the like).

特徴量抽出手段13は、撮影対象を判別する際の指標となる特徴量を抽出する。具体的には、特徴量抽出手段13は、撮影画像の任意の領域毎に、均等色空間で表現された撮影画像の信号を量子化し、均等色空間における各軸の量子化レベルの値の頻度を色ヒストグラムとして抽出する。そして、特徴量抽出手段13は、任意の領域毎の色ヒストグラムを結合し、撮影画像全体の特徴量を抽出する。即ち、特徴量抽出手段13は、既知の撮影画像1枚毎に、次元数(V)分の要素を有する撮影画像全体の特徴量(x)を抽出する。特徴量(x)は、一定の要素数を有するベクトルである。以下の説明において、x、x’は、ベクトルである。   The feature amount extraction unit 13 extracts a feature amount that serves as an index when determining the shooting target. Specifically, the feature amount extraction unit 13 quantizes the signal of the captured image expressed in the uniform color space for each arbitrary region of the captured image, and the frequency of the quantization level value of each axis in the uniform color space. Are extracted as a color histogram. Then, the feature amount extraction means 13 combines the color histograms for each arbitrary region, and extracts the feature amount of the entire captured image. That is, the feature amount extraction unit 13 extracts the feature amount (x) of the entire captured image having elements for the number of dimensions (V) for each known captured image. The feature quantity (x) is a vector having a certain number of elements. In the following description, x and x 'are vectors.

又、複数の既知の撮影対象に属する撮影画像の特徴量をXで表す。lを既知の撮影対象の番号、nを撮影画像毎に付与した番号、vを特徴量の次元の番号とすると、特徴量Xは、各要素x(l) (n,v)からなるマトリクスで表される。 Further, X represents a feature amount of a photographed image belonging to a plurality of known photographing objects. The feature quantity X is a matrix consisting of each element x (l) (n, v), where l is the number of a known subject, n is the number assigned to each photographed image, and v is the dimension number of the feature quantity. expressed.

学習手段15(パラメータ算出手段)は、式(1)を用いて、特徴量抽出手段13によって抽出された特徴量に基づいて、学習パラメータΘを算出する。Vを特徴量の最大次元、Lを既知の撮影対象の数とすると、学習パラメータΘは、各要素θ(v,l)をV×L個並べたマトリクスである。

Figure 2005242592
The learning unit 15 (parameter calculation unit) calculates the learning parameter Θ based on the feature quantity extracted by the feature quantity extraction unit 13 using the equation (1). The learning parameter Θ is a matrix in which V × L elements θ (v, l) are arranged, where V is the maximum dimension of the feature quantity and L is the number of known shooting targets.
Figure 2005242592

式(1)において、lは既知の撮影対象の番号、Lは既知の撮影対象の数、N(l)はl番目の既知の撮影対象に対する撮影画像の数、vは特徴量の次元の番号、Vは特徴量の最大次元数、x(l) (n,v)はl番目の既知の撮影対象に属するn番目の撮影画像のv番目の次元の特徴量、γは任意の値、θ(v,l)はl番目の既知の撮影対象に属する特徴量のv番目の次元における学習パラメータである。 In Equation (1), l is the number of a known object, L is the number of known objects, N (l) is the number of images taken for the l-th known object, and v is the feature dimension number. , V is the maximum number of dimensions of the feature quantity, x (l) (n, v) is the feature quantity of the vth dimension of the nth captured image belonging to the lth known imaging target, γ is an arbitrary value, θ (v, l) is a learning parameter in the v-th dimension of the feature quantity belonging to the l-th known imaging target.

上記の説明において、v、l、n(小文字)は変数であり、V、L、N(大文字)は固定値である。又、x、x’(小文字)は、ベクトルであり、X及びΘ(大文字)は、マトリクスである。   In the above description, v, l, and n (lowercase) are variables, and V, L, and N (uppercase) are fixed values. X and x '(lower case) are vectors, and X and Θ (upper case) are matrices.

具体的には、学習手段15(パラメータ算出手段)は、式(1)を用いて、l番目の既知の撮影対象に属する特徴量のv番目の次元の学習パラメータθ (v,l)を算出する。 Specifically, the learning unit 15 (parameter calculation unit) calculates the v-th dimension learning parameter θ (v, l) of the feature quantity belonging to the l-th known imaging target using the equation (1). To do.

判別手段12は、判別モードの際に受信した撮影画像について、式(2)を用いて、学習手段15(パラメータ算出手段)によって算出された学習パラメータを用いることにより、未知の撮影対象を判別する。

Figure 2005242592
The discriminating unit 12 discriminates an unknown imaging target by using the learning parameter calculated by the learning unit 15 (parameter calculating unit) using Expression (2) for the captured image received in the discrimination mode. .
Figure 2005242592

式(2)において、x’(v)は未知の撮影対象が含まれる撮影画像のv番目の次元の特徴量、F(l)は前記未知の撮影対象がl番目の既知の撮影対象に属する度合いを示す判別値である。 In equation (2), x ′ (v) is the feature quantity of the v th dimension of the captured image including the unknown imaging target, and F (l) is the unknown imaging target belonging to the l th known imaging target. It is a discriminant value indicating the degree.

具体的には、判別手段12は、l番目の既知の撮影対象に属する特徴量のv番目の次元の学習パラメータθ (v,l)を用いて、未知の撮影対象が含まれる撮影画像に属する特徴量x’が、l番目の既知の撮影対象に属する度合いを示すF(l)の値を算出する。ここで、F(l)の値が大きいほど、未知の撮影対象は、l番目の既知の撮影対象である確率が高いと判断する。 Specifically, the determination unit 12 belongs to a photographed image including an unknown photographing target using the learning parameter θ (v, l) of the v th dimension of the feature amount belonging to the l th known photographing target. A value of F (l) indicating the degree to which the feature quantity x ′ belongs to the l-th known imaging target is calculated. Here, it is determined that the larger the value of F (l), the higher the probability that the unknown imaging target is the l-th known imaging target.

このように、式(2)によるF(l)の算出をL回行えば、F(l)の値に応じて、未知の撮影対象がL種類の撮影対象のどれに属するかを順位付けて判別することができる。 In this way, if F (l) is calculated L times according to equation (2), according to the value of F (l) , which of the L types of imaging targets the unknown imaging target belongs to is ranked. Can be determined.

登録手段14は、演算装置16を介して記憶装置17に撮影画像毎の特徴量や学習パラメータを登録する。   The registration unit 14 registers the feature amount and learning parameter for each captured image in the storage device 17 via the arithmetic device 16.

重み付け手段18は、任意の領域毎の色ヒストグラムに、任意の重みを掛け合わせる。特徴量抽出手段13は、重み付け手段18によって、重みを掛け合わされた任意の領域毎の色ヒストグラムを結合する。任意の重みは、例えば、任意の領域毎の色ヒストグラムの次元の値の合計値の逆数とすることができる。   The weighting means 18 multiplies the color histogram for each arbitrary region by an arbitrary weight. The feature amount extraction unit 13 combines the color histograms for each arbitrary region multiplied by the weight by the weighting unit 18. The arbitrary weight may be, for example, the reciprocal of the total value of the dimension values of the color histogram for each arbitrary region.

演算装置16は、通信手段11と、判別手段12と、特徴量抽出手段13と、登録手段14と、学習手段15と、記憶装置17、重み付け手段18の動作を制御する。   The arithmetic device 16 controls the operations of the communication unit 11, the determination unit 12, the feature amount extraction unit 13, the registration unit 14, the learning unit 15, the storage device 17, and the weighting unit 18.

又、本発明の実施の形態に係る画像処理サーバ1は、処理制御装置(CPU)を有し、通信手段11、判別手段12、特徴量抽出手段13、登録手段14、学習手段15、重み付け手段18などをモジュールとしてCPUに内蔵する構成とすることができる。これらのモジュールは、パーソナルコンピュータ等の汎用コンピュータにおいて、所定のプログラム言語を利用するための専用プログラムを実行することにより実現することができる。又、記憶装置17は、複数の撮影画像の特徴量、複数の撮影画像それぞれに基づいて算出された複数の所定の学習パラメータ、撮影画像データ、登録対象情報、登録対象関連情報、判定値などを保存する記録媒体である。記録媒体は、例えば、RAM、ROM、ハードディスク、フレキシブルディスク、コンパクトディスク、ICチップ、カセットテープなどが挙げられる。このような記録媒体によれば、撮影画像データ、学習パラメータ、登録対象情報などの保存、運搬、販売などを容易に行うことができる。   The image processing server 1 according to the embodiment of the present invention includes a processing control device (CPU), and includes a communication unit 11, a determination unit 12, a feature amount extraction unit 13, a registration unit 14, a learning unit 15, and a weighting unit. 18 or the like as a module can be built in the CPU. These modules can be realized by executing a dedicated program for using a predetermined program language in a general-purpose computer such as a personal computer. In addition, the storage device 17 stores feature amounts of a plurality of captured images, a plurality of predetermined learning parameters calculated based on each of the plurality of captured images, captured image data, registration target information, registration target related information, determination values, and the like. A recording medium to be stored. Examples of the recording medium include RAM, ROM, hard disk, flexible disk, compact disk, IC chip, and cassette tape. According to such a recording medium, it is possible to easily store, transport, and sell captured image data, learning parameters, registration target information, and the like.

端末装置2a、2b、2cは、学習モードと判別モードの2種類のモードを切り換えることができる。   The terminal devices 2a, 2b, and 2c can switch between two types of modes, a learning mode and a discrimination mode.

学習モードである場合、端末装置2a、2b、2cは、搭載されたカメラによって、既知の撮影対象を撮影する。端末装置2a、2b、2cは、予めユーザによって登録された登録対象情報と登録対象関連情報とともに、撮影画像を画像処理サーバ1に送信する。ここで、「登録対象情報」とは、撮影画像に写っている撮影対象を特定するための情報である。又、「登録対象関連情報」とは、撮影対象の位置情報、撮影対象に関連する情報(名称、URLなど)などである。   In the learning mode, the terminal devices 2a, 2b, and 2c photograph a known subject to be photographed using the mounted camera. The terminal devices 2a, 2b, and 2c transmit the captured image to the image processing server 1 together with registration target information and registration target related information registered in advance by the user. Here, “registration target information” is information for specifying a shooting target in a shot image. Further, “registration target related information” includes position information of a shooting target, information (name, URL, etc.) related to the shooting target, and the like.

判別モードである場合、端末装置2a、2b、2cは、搭載されたカメラによって、未知の撮影対象を撮影する。端末装置2a、2b、2cは、位置情報とともに、撮影画像を画像処理サーバ1に送信する。そして、端末装置2a、2b、2cは、画像処理サーバ1から判別結果となる複数の撮影対象の候補と、各候補が撮影対象である確率と、それら撮影対象に関連する情報を受信し、上述したF(l)の値を元に「登録対象情報」と「登録対象関連情報」を順位付けて、ユーザに提示する。ユーザは、それら順位付けされた候補の中から所望のデータを簡単に取り出すことができる。 In the discrimination mode, the terminal devices 2a, 2b, and 2c photograph an unknown photographing target using the mounted camera. The terminal devices 2a, 2b, and 2c transmit the captured image to the image processing server 1 together with the position information. Then, the terminal devices 2a, 2b, and 2c receive a plurality of shooting target candidates that are the determination results from the image processing server 1, the probability that each candidate is a shooting target, and information related to the shooting targets, and Based on the value of F (l) , “registration target information” and “registration target related information” are ranked and presented to the user. The user can easily extract desired data from the ranked candidates.

端末装置2は、図3に示すように、入力手段21と、通信手段22と、出力手段23と、撮影手段24と、測位手段25と、演算装置26と、記憶装置27とを備える。   As shown in FIG. 3, the terminal device 2 includes an input unit 21, a communication unit 22, an output unit 23, a photographing unit 24, a positioning unit 25, a calculation device 26, and a storage device 27.

通信手段22は、通信ネットワーク3(インターネット)を介し、画像処理サーバ1へ、撮影画像及び撮影対象の情報を送信する。又、通信手段22は、判別モードである場合、通信ネットワーク3(インターネット)を介し、画像処理サーバ1から、撮影対象の情報及び判別結果を受信する。   The communication unit 22 transmits the captured image and the information about the imaging target to the image processing server 1 via the communication network 3 (Internet). When the communication unit 22 is in the determination mode, the communication unit 22 receives information about the imaging target and the determination result from the image processing server 1 via the communication network 3 (Internet).

撮影手段24は、具体的には、搭載されたカメラなどを指し、対象を撮影し、撮影画像を取得する。   Specifically, the imaging unit 24 refers to a mounted camera or the like, captures an object, and acquires a captured image.

測位手段25は、端末装置2の位置や撮影対象の位置を測定する。   The positioning means 25 measures the position of the terminal device 2 and the position of the photographing target.

入力手段21は、タッチパネル、キーボード、マウス等の機器を指す。入力手段21から入力操作が行われると対応するキー情報が演算装置26に伝達される。出力手段23は、モニタなどの画面を指し、液晶表示装置(LCD)、発光ダイオード(LED)パネル、エレクトロルミネッセンス(EL)パネル等が使用可能である。   The input means 21 refers to devices such as a touch panel, a keyboard, and a mouse. When an input operation is performed from the input means 21, corresponding key information is transmitted to the arithmetic device 26. The output means 23 refers to a screen such as a monitor, and a liquid crystal display (LCD), a light emitting diode (LED) panel, an electroluminescence (EL) panel, or the like can be used.

演算装置26は、入力手段21と、通信手段22と、出力手段23と、撮影手段24と、測位手段25と、記憶装置27の動作を制御する。又、演算装置26は、入力手段21から入力されたキー情報などによって、学習モードと判別モードを切り換える切換手段として動作する。   The arithmetic device 26 controls operations of the input means 21, the communication means 22, the output means 23, the photographing means 24, the positioning means 25, and the storage device 27. The arithmetic unit 26 operates as a switching unit that switches between the learning mode and the discrimination mode based on key information input from the input unit 21.

記憶装置27は、撮影画像、登録対象情報、登録対象関連情報などを保存する記録媒体である。   The storage device 27 is a recording medium that stores captured images, registration target information, registration target related information, and the like.

(画像処理方法)
次に、本実施形態に係る画像処理方法について、図4〜9を用いて説明する。
(Image processing method)
Next, the image processing method according to the present embodiment will be described with reference to FIGS.

まず、撮影画像の登録方法について、図4を用いて説明する。   First, a method for registering captured images will be described with reference to FIG.

(イ)まず、ステップS101において、端末装置2は、学習モードにおいて既知の登録対象を撮影し、その画像を取得する。   (A) First, in step S101, the terminal device 2 captures a known registration target in the learning mode and acquires the image.

(ロ)次に、ステップS102において、端末装置2は、登録対象情報を入力し、ステップS103において、端末装置2は、登録対象関連情報を入力する。登録対象情報及び登録対象関連情報の入力は、撮影前に予め行っていても構わない。例えば、撮影した画像が図9に示すような洋菓子店舗の場合、「登録対象情報」として、“ケーキ屋”などを入力し、「登録対象関連情報」として、“AAA洋菓子店”、AAA洋菓子店の住所、AAA洋菓子店のURLなどを入力する。   (B) Next, in step S102, the terminal device 2 inputs registration target information, and in step S103, the terminal device 2 inputs registration target related information. The registration target information and registration target related information may be input in advance before shooting. For example, if the photographed image is a confectionery store as shown in FIG. 9, “cake shop” or the like is input as “registration target information”, and “AAA confectionery store” or AAA confectionery store as “registration target related information”. And the URL of the AAA pastry store.

(ハ)次に、ステップS104において、端末装置2は、登録対象を撮影した地点の位置情報、測位誤差、撮影時刻、可能であれば撮影対象までの距離や方向を取得する。   (C) Next, in step S <b> 104, the terminal device 2 acquires the position information, the positioning error, the shooting time, and the distance and direction to the shooting target if possible.

(ニ)次に、ステップS105において、端末装置2は、画像処理サーバ1に登録対象情報、登録対象関連情報、位置情報、取得画像データを送信する。   (D) Next, in step S <b> 105, the terminal device 2 transmits registration target information, registration target related information, position information, and acquired image data to the image processing server 1.

(ホ)次に、ステップS106において、画像処理サーバ1は、登録対象情報、登録対象関連情報、位置情報、取得画像を送信する。そして、ステップS107において、画像処理サーバ1は、登録画像の特徴量を抽出する。この特徴量の抽出方法は、後に詳述する。   (E) Next, in step S106, the image processing server 1 transmits registration target information, registration target related information, position information, and an acquired image. In step S107, the image processing server 1 extracts the feature amount of the registered image. This feature amount extraction method will be described in detail later.

(へ)次に、ステップS108において、画像処理サーバ1は、登録対象情報、登録対象関連情報、登録対象画像、特徴量及び画像処理サーバ1での登録時刻を記憶装置17に記憶する。   (F) Next, in step S108, the image processing server 1 stores the registration target information, the registration target related information, the registration target image, the feature amount, and the registration time in the image processing server 1 in the storage device 17.

次に、撮影対象を学習する方法について、図5を用いて説明する。   Next, a method for learning an imaging target will be described with reference to FIG.

(イ)まず、ステップS201において、画像処理サーバ1は、記憶装置17から撮影対象情報、撮影対象関連情報、取得画像データ、特徴量を読み出す。   (A) First, in step S201, the image processing server 1 reads shooting target information, shooting target related information, acquired image data, and feature amount from the storage device 17.

(ロ)次に、ステップS202において、画像処理サーバ1は、位置情報による対象のグルーピングを行って対象を絞り込む。後述する撮影対象の判別時に随時学習を行う場合は、端末装置2から端末装置2の位置情報を受信して、検索範囲内にある撮影対象を学習する。ここで、「検索範囲」とは、判別対象を中心として半径が(測位誤差)+(対象までの距離)以内のエリアを指す。又、ここで用いる位置情報は、任意の位置を受け付けることが可能である。例えば、予め判別が行われそうな位置を用いて学習を行っても良いし、端末の位置情報を用いて判別する際に随時学習を行っても良い。   (B) Next, in step S202, the image processing server 1 performs target grouping based on position information to narrow down the target. In the case where learning is performed as needed at the time of determination of an imaging target, which will be described later, position information of the terminal device 2 is received from the terminal device 2, and the imaging target within the search range is learned. Here, the “search range” refers to an area having a radius within (positioning error) + (distance to the object) with the discrimination target as the center. The position information used here can accept any position. For example, learning may be performed using a position where the determination is likely to be performed in advance, or learning may be performed as needed when performing determination using position information of the terminal.

(ハ)次に、ステップS203において、画像処理サーバ1は、対象の学習を行う。具体的には、上述した式(1)を用いて学習パラメータの算出を行う。   (C) Next, in step S203, the image processing server 1 performs target learning. Specifically, the learning parameter is calculated using the above-described equation (1).

(ニ)次に、ステップS204において、画像処理サーバ1は、対象の学習結果(学習パラメータ)を記憶する。   (D) Next, in step S204, the image processing server 1 stores the target learning result (learning parameter).

次に、撮影対象を判別する方法について、図6を用いて説明する。   Next, a method for determining an imaging target will be described with reference to FIG.

(イ)まず、ステップS301において、端末装置2は、判別モードにおいて未知の判別対象を撮影し、画像を取得する。次に、ステップS302において、端末装置2は、判別対象関連情報(判別対象の位置情報、その測位誤差、対象までの距離等)を取得する。   (A) First, in step S301, the terminal device 2 captures an unknown discrimination target in the discrimination mode and acquires an image. Next, in step S302, the terminal device 2 acquires discrimination target related information (position information of the discrimination target, its positioning error, distance to the target, etc.).

(ロ)次に、ステップS303において、端末装置2は、画像処理サーバ1に判別対象関連情報及び判別画像を送信する。次に、ステップS304において、画像処理サーバ1は、判別対象関連情報及び判別画像を受信する。次に、ステップS305において、画像処理サーバ1は、判別画像の特徴量を抽出する。この特徴量の抽出方法は、後に詳述する。   (B) Next, in step S303, the terminal device 2 transmits the discrimination target related information and the discrimination image to the image processing server 1. Next, in step S304, the image processing server 1 receives the discrimination target related information and the discrimination image. Next, in step S305, the image processing server 1 extracts the feature amount of the discrimination image. This feature amount extraction method will be described in detail later.

(ハ)次に、ステップS306において、画像処理サーバ1は、判別対象の絞り込みを行う。次に、ステップS307において、画像処理サーバ1は、検索範囲の学習が完了しているか否か判断する。完了している場合は、ステップS308の処理に進み、完了していない場合は、ステップS309の処理に進む。   (C) Next, in step S306, the image processing server 1 narrows down the discrimination target. Next, in step S307, the image processing server 1 determines whether learning of the search range is completed. If completed, the process proceeds to step S308. If not completed, the process proceeds to step S309.

(ニ)ステップS309において、画像処理サーバ1は、図5のステップS203において説明した学習を行う。そして、ステップS308において、画像処理サーバ1は、判別画像の特徴量と学習パラメータを用いて対象判別を確率的に行う。具体的には、具体的には、上述した式(2)を用いて判定値を求め、判別候補となる撮影画像を求める。   (D) In step S309, the image processing server 1 performs the learning described in step S203 in FIG. In step S308, the image processing server 1 probabilistically performs target discrimination using the feature amount of the discrimination image and the learning parameter. Specifically, a determination value is obtained using the above-described equation (2), and a captured image that is a discrimination candidate is obtained.

(ホ)次に、ステップS310において、画像処理サーバ1は、判別結果の候補に関する撮影対象情報及び撮影対象関連情報を記憶装置17から読み出し、撮影対象情報、撮影対象関連情報、判別結果を端末装置2に送信する。   (E) Next, in step S310, the image processing server 1 reads out the shooting target information and the shooting target related information related to the determination result candidate from the storage device 17, and obtains the shooting target information, the shooting target related information, and the determination result from the terminal device. 2 to send.

(へ)次に、ステップS310において、端末装置2は、確率的な判別結果を元に撮影対象情報と撮影対象関連情報に優先度をつけて(例えば、確率の高い候補を画面の上部に表示するなど)ユーザに提示する。これにより、ユーザは未知の登録対象に関連したURL等のアドレスを元にして、ネットワークからさらに対象に関連する情報を引き出すことができる。   (F) Next, in step S310, the terminal device 2 prioritizes the shooting target information and the shooting target related information based on the probabilistic discrimination result (for example, displays a high-probability candidate at the top of the screen). Present it to the user. As a result, the user can further extract information related to the target from the network based on an address such as a URL related to the unknown registration target.

図6に示す判別処理によると、例えば、ユーザが、端末装置2によって未知の撮影対象である店舗Aを撮影し、その撮影画像を画像処理サーバ1へ送信すると、画像処理サーバ1が店舗Aを判別し、店舗Aの名称、URL等を端末装置2に送信することができる。このため、端末装置2は、撮影画像からその撮影対象に関する情報を容易に得ることができる。   According to the determination processing shown in FIG. 6, for example, when the user images a store A that is an unknown image capturing object by the terminal device 2 and transmits the captured image to the image processing server 1, the image processing server 1 stores the store A. The name of the store A, the URL, etc. can be transmitted to the terminal device 2. For this reason, the terminal device 2 can easily obtain information regarding the subject to be photographed from the photographed image.

次に、図4のステップS107及び図6のステップS305における特徴量の抽出方法の詳細について、図7を用いて説明する。   Next, details of the feature amount extraction method in step S107 in FIG. 4 and step S305 in FIG. 6 will be described with reference to FIG.

(イ)まず、ステップS401において、画像処理サーバ1は、端末装置2に搭載したカメラによって対象の撮影画像を取得する。ここでは、図9に示す画像を取得したことを例にとり説明する。この取得した画像は、カメラや端末装置2の機能によりホワイトバランス等の一般的な画像補正を行われていてもよい。   (A) First, in step S 401, the image processing server 1 acquires a target captured image using a camera mounted on the terminal device 2. Here, the case where the image shown in FIG. 9 is acquired will be described as an example. The acquired image may be subjected to general image correction such as white balance by the function of the camera or the terminal device 2.

(ロ)次に、ステップS402において、画像処理サーバ1は、取得画像にノイズ除去の画像補正処理を施す。この補正画像に対して、ステップS403において、撮影画像を任意の領域に分割し、領域毎の色ヒストグラムを抽出する。各領域の色ヒストグラムは、Vc次元の特徴量(Vc個の要素を有するベクトル値)として表される。領域の分割方法として、図9では、格子状に分割したものを示したが、放射状でも円形状でもよく、分割形状はこれに限らない。又、領域は等分割されなくてもよい。色ヒストグラムの抽出方法については、後に詳述する。   (B) Next, in step S402, the image processing server 1 performs noise correction image correction processing on the acquired image. In step S403, the captured image is divided into arbitrary regions with respect to the corrected image, and a color histogram for each region is extracted. The color histogram of each region is expressed as a Vc-dimensional feature amount (vector value having Vc elements). As a method of dividing the region, FIG. 9 shows a region divided into a lattice shape, but it may be a radial shape or a circular shape, and the divided shape is not limited thereto. Further, the area may not be equally divided. The method for extracting the color histogram will be described in detail later.

(ハ)次に、ステップS404において、任意の領域毎の色ヒストグラムを結合し、撮影画像全体の特徴量を抽出する。特徴量は、一定の要素数を有するベクトル値である。例えば、各領域の色ヒストグラムがVc次元、領域分割数がSであるとき、両者の特徴量を結合した特徴量の次元VがV=S×Vcとなるように、独立の次元として結合を行う。例えば、図9に示す撮影画像は、縦4×横6=24領域に分割されているので、各領域の色ヒストグラムが24次元であると、画像領域全体の特徴量は、24×24=576次元となる。   (C) Next, in step S404, a color histogram for each arbitrary region is combined to extract a feature amount of the entire captured image. The feature amount is a vector value having a certain number of elements. For example, when the color histogram of each area is Vc dimension and the number of area divisions is S, combining is performed as an independent dimension so that the dimension V of the feature quantity obtained by combining both feature quantities is V = S × Vc. . For example, the photographed image shown in FIG. 9 is divided into 4 × vertical 6 × 24 = 24 regions. Therefore, if the color histogram of each region is 24 dimensions, the feature amount of the entire image region is 24 × 24 = 576. It becomes a dimension.

次に、図7のステップS403における色ヒストグラムの抽出方法の詳細について、図8を用いて説明する。   Next, details of the color histogram extraction method in step S403 of FIG. 7 will be described with reference to FIG.

(イ)まず、ステップS501において、画像処理サーバ1は、任意の領域毎に、補正画像を視覚的に均等な空間である均等色空間(L*、a*、b*)で表現する。 (A) First, in step S501, the image processing server 1 represents the corrected image in a uniform color space (L * , a * , b * ) that is a visually uniform space for each arbitrary region.

(ロ)次に、ステップS502において、画像処理サーバ1は、均等色空間における各軸を独立に等間隔で量子化を行う。   (B) Next, in step S502, the image processing server 1 independently quantizes each axis in the uniform color space at equal intervals.

(ハ)次に、ステップS503において、L*、a*、b*の量子化レベルの値の頻度を色ヒストグラムとする。例えば、L*、a*、b*の3軸の量子化レベルを8とした場合には、色ヒストグラムは、24(=3×8)次元(上述したVc次元)の特徴量となる。このとき、色ヒストグラムには、色の3原色の割合や各ピクセルの輝度値が含まれる。例えば、図9に示す撮影画像は、縦4×横6=24領域に分割されているので、24個の領域毎に、24次元の特徴量が算出される。 (C) Next, in step S503, the frequency of the quantization level values of L * , a * , and b * is set as a color histogram. For example, if the three-axis quantization level of L * , a * , and b * is 8, the color histogram has 24 (= 3 × 8) dimension (the Vc dimension described above). At this time, the color histogram includes the ratio of the three primary colors and the luminance value of each pixel. For example, the photographed image shown in FIG. 9 is divided into 4 × vertical 6 × horizontal = 24 areas, and therefore a 24-dimensional feature value is calculated for each of the 24 areas.

(ニ)次に、ステップS504において、任意の領域毎の色ヒストグラムに、任意の重みを掛け合わせる。任意の重みは、例えば、任意の領域毎の色ヒストグラムの次元の値の合計値の逆数とすることができる。各領域は等分割されているとは限らないので、重みとして、上記の合計値の逆数を掛け合わせることにより、色ヒストグラムを正規化することができる。その他、撮影画像の中心に近い領域に大きな重みを掛け合わせるなど、掛け合わせる重みは、実情に即したものを適宜選択することとする。   (D) Next, in step S504, the color histogram for each arbitrary region is multiplied by an arbitrary weight. The arbitrary weight may be, for example, the reciprocal of the total value of the dimension values of the color histogram for each arbitrary region. Since each region is not necessarily equally divided, the color histogram can be normalized by multiplying the reciprocal of the total value as a weight. In addition, the weights to be multiplied such as multiplying a region close to the center of the photographed image are appropriately selected according to the actual situation.

(作用及び効果)
本実施形態に係る画像処理装置及び画像処理方法によると、撮影画像の任意の領域毎に、色ヒストグラムを抽出し、それらを結合した特徴量に基づいて、撮影対象を判別することができる。このため、画像特徴量の次元数を低く抑え、計算処理量を小さくし、撮影画像から撮影画像に含まれる撮影対象を正しく判別することができる。
(Action and effect)
According to the image processing apparatus and the image processing method according to the present embodiment, it is possible to extract a color histogram for each arbitrary region of a photographed image and determine a photographing target based on a feature amount obtained by combining them. For this reason, the number of dimensions of the image feature amount can be kept low, the amount of calculation processing can be reduced, and the shooting target included in the shot image can be correctly determined from the shot image.

例えば、図9に示す撮影画像が100ピクセル×100ピクセルの画像であるとする。この撮影画像に対して、従来の輝度値及び色の特徴量を結合する処理を行う。具体的には、各ピクセルの輝度値を特徴量として、100×100=10,000次元を算出し、色の特徴量として、L*、a*、b*の3軸の量子化レベルを8とした場合に、3×8=24次元を算出する。これらを結合すると、撮影画像全体の特徴量は、10,000+24=10,024次元となる。一方、本実施形態において説明したように、図9に示す撮影画像を縦4×横6=24領域に分割し、領域毎に色ヒストグラムを抽出すると、L*、a*、b*の3軸の量子化レベルを8とした場合には、領域毎の色ヒストグラムは、24(=3×8)次元となる。これらを結合すると、撮影画像全体の特徴量は、24次元×24領域=576次元となる。このように、本実施形態によると、大幅に画像特徴量の次元数を低く抑え、計算処理量を小さくすることができる。 For example, assume that the captured image shown in FIG. 9 is an image of 100 pixels × 100 pixels. A process for combining the luminance value and the color feature amount is performed on the captured image. Specifically, 100 × 100 = 10,000 dimensions are calculated using the luminance value of each pixel as a feature quantity, and the three-axis quantization levels of L * , a * , and b * are set to 8 as the color feature quantity. In this case, 3 × 8 = 24 dimensions are calculated. When these are combined, the characteristic amount of the entire photographed image becomes 10,000 + 24 = 10,024 dimensions. On the other hand, as described in the present embodiment, when the captured image shown in FIG. 9 is divided into 4 × 6 × 24 regions and a color histogram is extracted for each region, three axes L * , a * , and b * . When the quantization level of 8 is 8, the color histogram for each region has 24 (= 3 × 8) dimensions. When these are combined, the feature amount of the entire captured image is 24 dimensions × 24 areas = 576 dimensions. As described above, according to the present embodiment, it is possible to greatly reduce the number of dimensions of the image feature amount and reduce the calculation processing amount.

又、本実施形態に係る画像処理装置及び画像処理方法によると、任意の領域毎の色ヒストグラムに任意の重みを掛け合わせ、この重みを掛け合わされた色ヒストグラムを結合することにより特徴量を抽出することができる。このため、各領域で抽出した特徴量のベクトルの大きさについてバランスを取ることができる。   Further, according to the image processing apparatus and the image processing method according to the present embodiment, a feature amount is extracted by multiplying a color histogram for each arbitrary region by an arbitrary weight and combining the weighted histograms. be able to. For this reason, it is possible to balance the size of the feature vector extracted in each region.

又、任意の重みは、任意の領域毎の色ヒストグラムの次元の値の合計値の逆数とすることができる。このため、ベクトルを正規化して結合を行うことができる。   Further, the arbitrary weight can be the reciprocal of the total value of the dimension values of the color histogram for each arbitrary region. For this reason, it is possible to perform the combination by normalizing the vectors.

又、本実施形態に係る画像処理装置及び画像処理方法によると、複数の撮影画像全体の特徴量それぞれに基づいて算出された複数の所定のパラメータを用いることにより、未知の撮影対象を判別することができる。このため、特徴量を用いて算出されたパラメータを用いて、未知の撮影対象の判別を行うことができる。   Further, according to the image processing apparatus and the image processing method according to the present embodiment, it is possible to discriminate an unknown shooting target by using a plurality of predetermined parameters calculated based on respective feature amounts of a plurality of shot images as a whole. Can do. For this reason, it is possible to determine an unknown imaging target using the parameter calculated using the feature amount.

又、本実施形態に係る画像処理装置及び画像処理方法によると、上述した式(1)を用いて、所定のパラメータを算出し、式(2)によって得られた判別値が最も大きい撮影画像を、撮影対象として認識することができる。式(1)及び式(2)は、いわゆるNB(ナイーブ・ベイズ)の手法であり、未知の撮影対象が既知の撮影対象に該当する確率を、複数の既知の撮影対象それぞれに算出することができ、かつ、処理速度が早いという利点を有する。   Further, according to the image processing apparatus and the image processing method according to the present embodiment, the predetermined parameter is calculated using the above-described equation (1), and the captured image having the largest discriminant value obtained by the equation (2) is obtained. Can be recognized as a shooting target. Expressions (1) and (2) are so-called NB (Naive Bayes) techniques, and the probability that an unknown imaging target corresponds to a known imaging object can be calculated for each of a plurality of known imaging objects. It is possible and has an advantage of high processing speed.

(その他の実施の形態)
本発明は上記の実施の形態によって記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなろう。
(Other embodiments)
Although the present invention has been described according to the above-described embodiments, it should not be understood that the descriptions and drawings constituting a part of this disclosure limit the present invention. From this disclosure, various alternative embodiments, examples and operational techniques will be apparent to those skilled in the art.

例えば、上述した実施形態において、NB(ナイーブ・ベイズ)の手法を用いて、学習パラメータを取得し、未知の撮影対象を判別する例を示した。しかし、NBに限らず、他のベイズ手法やSVM(サポート・ベクター・マシン)、kNN(kニアレスト・ネイバー)、LVQ(ラーニング・ベクター・クォンタイゼーション)などの他の学習アルゴリズムを用いて、学習パラメータを取得し、未知の撮影対象を判別しても構わない。  For example, in the above-described embodiment, an example has been shown in which learning parameters are acquired using an NB (Naive Bayes) method to determine an unknown imaging target. However, not only NB, but also learning using other Bayesian methods and other learning algorithms such as SVM (Support Vector Machine), kNN (k Nearest Neighbor), LVQ (Learning Vector Quantization) You may acquire a parameter and discriminate | determine an unknown imaging | photography object.

又、実施形態に係る画像処理サーバ1は、通信手段11と、判別手段12と、特徴量抽出手段13と、登録手段14と、学習手段15と、重み付け手段18とをモジュールとしてCPUに内蔵する構成とすることができると説明したが、それらが二つあるいはそれ以上のCPUに分かれていても構わない。その際はそれらのCPU間でデータのやりとりが行えるようにバスなどで装置間を接続しているとする。  Further, the image processing server 1 according to the embodiment incorporates a communication unit 11, a determination unit 12, a feature amount extraction unit 13, a registration unit 14, a learning unit 15, and a weighting unit 18 in a CPU as a module. Although it has been described that the configuration can be made, they may be divided into two or more CPUs. In this case, it is assumed that the devices are connected by a bus or the like so that data can be exchanged between the CPUs.

このように、本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。   As described above, the present invention naturally includes various embodiments not described herein. Therefore, the technical scope of the present invention is defined only by the invention specifying matters according to the scope of claims reasonable from the above description.

本発明の実施の形態に係る画像処理システムの構成ブロック図である。1 is a configuration block diagram of an image processing system according to an embodiment of the present invention. 本発明の実施の形態に係る画像処理サーバの構成ブロック図である。It is a block diagram of the configuration of the image processing server according to the embodiment of the present invention. 本発明の実施の形態に係る端末装置の構成ブロック図である。It is a block diagram of the configuration of a terminal device according to an embodiment of the present invention. 本発明の実施の形態に係る登録処理を示すフローチャートである。It is a flowchart which shows the registration process which concerns on embodiment of this invention. 本発明の実施の形態に係る学習処理を示すフローチャートである。It is a flowchart which shows the learning process which concerns on embodiment of this invention. 本発明の実施の形態に係る判別処理を示すフローチャートである。It is a flowchart which shows the discrimination | determination process which concerns on embodiment of this invention. 本発明の実施の形態に係る特徴量抽出処理を示すフローチャートである。It is a flowchart which shows the feature-value extraction process which concerns on embodiment of this invention. 図7のステップS403の詳細を示すフローチャートである。It is a flowchart which shows the detail of step S403 of FIG. 本発明の実施の形態に係る撮影画像の一例である。It is an example of the picked-up image which concerns on embodiment of this invention.

符号の説明Explanation of symbols

1 画像処理サーバ
2 端末装置
11 通信手段
12 対象判別手段
13 特徴量抽出手段
14 登録手段
15 学習手段
16 演算装置
17 記憶装置
18 重み付け手段
21 入力手段
22 通信手段
23 出力手段
24 撮影手段
25 測位手段
26 演算装置
27 記憶装置

DESCRIPTION OF SYMBOLS 1 Image processing server 2 Terminal device 11 Communication means 12 Object discrimination means 13 Feature quantity extraction means 14 Registration means 15 Learning means 16 Arithmetic device 17 Storage device 18 Weighting means 21 Input means 22 Communication means 23 Output means 24 Imaging means 25 Imaging means 25 Positioning means 26 Arithmetic device 27 Storage device

Claims (6)

撮影画像から該撮影画像に含まれる未知の撮影対象を判別する画像処理装置であって、
前記撮影画像の任意の領域毎に、色空間で表現された撮影画像の信号を量子化し、該色空間における各軸の量子化レベルの値の頻度を色ヒストグラムとして抽出する第1の特徴量抽出手段と、
前記任意の領域毎の色ヒストグラムを結合し、前記撮影画像全体の特徴量を抽出する第2の特徴量抽出手段と、
前記撮影画像全体の特徴量に基づいて、前記未知の撮影対象を判別する判別手段と
を備えることを特徴とする画像処理装置。
An image processing apparatus for determining an unknown shooting target included in a captured image from a captured image,
First feature amount extraction for quantizing a signal of a photographed image expressed in a color space for each arbitrary region of the photographed image and extracting a frequency of a quantization level value of each axis in the color space as a color histogram Means,
A second feature amount extracting means for combining the color histograms for each arbitrary region and extracting the feature amount of the entire captured image;
An image processing apparatus comprising: a discriminating unit that discriminates the unknown imaging target based on a feature amount of the entire captured image.
前記任意の領域毎の色ヒストグラムに、任意の重みを掛け合わせる重み付け手段を更に備え、
前記第2の特徴量抽出手段は、重みを掛け合わされた前記任意の領域毎の色ヒストグラムを結合することを特徴とする請求項1に記載の画像処理装置。
A weighting unit for multiplying the color histogram for each arbitrary region by an arbitrary weight;
The image processing apparatus according to claim 1, wherein the second feature amount extraction unit combines the color histograms of the arbitrary regions multiplied by weights.
前記任意の重みは、前記任意の領域毎の色ヒストグラムの次元の値の合計値の逆数であることを特徴とする請求項2に記載の画像処理装置。   The image processing apparatus according to claim 2, wherein the arbitrary weight is a reciprocal of a total value of dimension values of a color histogram for each arbitrary region. 複数の撮影画像全体の特徴量それぞれに基づいて算出された複数の所定のパラメータを記憶する記憶手段と、
前記所定のパラメータを算出するパラメータ算出手段とを更に備え、
前記判別手段は、前記所定のパラメータを用いることにより、前記未知の撮影対象を判別することを特徴とする請求項1〜3のいずれか1項に記載の画像処理装置。
Storage means for storing a plurality of predetermined parameters calculated based on the respective feature amounts of the plurality of captured images;
Parameter calculating means for calculating the predetermined parameter;
The image processing apparatus according to claim 1, wherein the determination unit determines the unknown imaging target by using the predetermined parameter.
lを既知の撮影対象の番号、Lを前記既知の撮影対象の数、N(l)をl番目の前記既知の撮影対象に対する撮影画像の数、vを前記特徴量の次元の番号、Vを前記特徴量の最大次元数、x(l) (n,v)をl番目の前記既知の撮影対象に属するn番目の撮影画像のv番目の次元の特徴量、γを任意の値、θ(v,l)をl番目の既知の撮影対象に属する特徴量のv番目の次元における前記所定パラメータ、x’(v)を前記未知の撮影対象が含まれる撮影画像のv番目の次元の特徴量、F(l)を前記未知の撮影対象がl番目の既知の撮影対象に属する度合いを示す判別値として、
前記パラメータ算出手段は、以下の式によって、前記所定のパラメータを算出し、
Figure 2005242592
前記判別手段は、以下の式によって得られた前記判別値に基づいて、前記未知の撮影対象を判別する
Figure 2005242592
ことを特徴とする請求項1〜4のいずれか1項に記載の画像処理装置。
l is the number of the known imaging target, L is the number of the known imaging targets, N (l) is the number of the captured images for the l-th known imaging target, v is the dimension number of the feature, and V is The maximum number of dimensions of the feature amount, x (l) (n, v) is the feature amount of the vth dimension of the nth photographed image belonging to the lth known photographed object, γ is an arbitrary value, θ ( v, l) is the predetermined parameter in the v-th dimension of the feature quantity belonging to the l-th known imaging target, and x ′ (v) is the feature quantity in the v-th dimension of the captured image including the unknown imaging target. , F (l) as a discrimination value indicating the degree to which the unknown imaging target belongs to the l-th known imaging target,
The parameter calculation means calculates the predetermined parameter according to the following equation:
Figure 2005242592
The discriminating unit discriminates the unknown imaging target based on the discriminant value obtained by the following expression.
Figure 2005242592
The image processing apparatus according to claim 1, wherein the image processing apparatus is an image processing apparatus.
撮影画像から該撮影画像に含まれる未知の撮影対象を判別する画像処理方法であって、
前記撮影画像の任意の領域毎に、色空間で表現された撮影画像の信号を量子化し、該色空間における各軸の量子化レベルの値の頻度を色ヒストグラムとして抽出する第1の特徴量抽出ステップと、
前記任意の領域毎の色ヒストグラムを結合し、前記撮影画像全体の特徴量を抽出する第2の特徴量抽出ステップと、
前記撮影画像全体の特徴量に基づいて、前記未知の撮影対象を判別するステップと
を含むことを特徴とする画像処理方法。

An image processing method for determining an unknown shooting target included in a captured image from a captured image,
First feature amount extraction for quantizing a signal of a photographed image expressed in a color space for each arbitrary region of the photographed image and extracting a frequency of a quantization level value of each axis in the color space as a color histogram Steps,
A second feature amount extraction step of combining the color histograms for each arbitrary region and extracting the feature amount of the entire captured image;
An image processing method comprising: discriminating the unknown imaging target based on a feature amount of the entire captured image.

JP2004050489A 2004-02-25 2004-02-25 Image processing apparatus and image processing method Expired - Fee Related JP4741804B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004050489A JP4741804B2 (en) 2004-02-25 2004-02-25 Image processing apparatus and image processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004050489A JP4741804B2 (en) 2004-02-25 2004-02-25 Image processing apparatus and image processing method

Publications (2)

Publication Number Publication Date
JP2005242592A true JP2005242592A (en) 2005-09-08
JP4741804B2 JP4741804B2 (en) 2011-08-10

Family

ID=35024282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004050489A Expired - Fee Related JP4741804B2 (en) 2004-02-25 2004-02-25 Image processing apparatus and image processing method

Country Status (1)

Country Link
JP (1) JP4741804B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012103865A (en) * 2010-11-09 2012-05-31 Canon Inc Image processing system, imaging device, image processing device, and control method and program thereof
JP2014085802A (en) * 2012-10-23 2014-05-12 Pioneer Electronic Corp Characteristic amount extraction device, characteristic amount extraction method and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07302343A (en) * 1994-04-29 1995-11-14 Internatl Business Mach Corp <Ibm> System and method for recognition of object
JP2002042134A (en) * 2000-07-21 2002-02-08 Ricoh Co Ltd Image characteristic quantity comparing method and image characteristic quantity comparing device
JP2005165662A (en) * 2003-12-02 2005-06-23 Ntt Docomo Inc Image processor and image processing method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07302343A (en) * 1994-04-29 1995-11-14 Internatl Business Mach Corp <Ibm> System and method for recognition of object
JP2002042134A (en) * 2000-07-21 2002-02-08 Ricoh Co Ltd Image characteristic quantity comparing method and image characteristic quantity comparing device
JP2005165662A (en) * 2003-12-02 2005-06-23 Ntt Docomo Inc Image processor and image processing method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012103865A (en) * 2010-11-09 2012-05-31 Canon Inc Image processing system, imaging device, image processing device, and control method and program thereof
JP2014085802A (en) * 2012-10-23 2014-05-12 Pioneer Electronic Corp Characteristic amount extraction device, characteristic amount extraction method and program

Also Published As

Publication number Publication date
JP4741804B2 (en) 2011-08-10

Similar Documents

Publication Publication Date Title
JP5159515B2 (en) Image processing apparatus and control method thereof
US7773828B2 (en) Method and device for stabilizing an image by applying an affine transform based on a weighted average of motion vectors
JP4902562B2 (en) Imaging apparatus, image processing apparatus, control method, and program
US20160267339A1 (en) Image processing apparatus and method of generating face image
US8488878B2 (en) Sky detection system used in image extraction device and method using sky detection system
JP5246078B2 (en) Object location program and camera
US11600003B2 (en) Image processing apparatus and control method for an image processing apparatus that extract a region of interest based on a calculated confidence of unit regions and a modified reference value
JP2011039604A (en) Device and method for tracking image, and computer program
CN103024422B (en) Image processing apparatus and image processing method
US8170332B2 (en) Automatic red-eye object classification in digital images using a boosting-based framework
CN113011450B (en) Training method, training device, recognition method and recognition system for glaucoma recognition
JP2018084861A (en) Information processing apparatus, information processing method and information processing program
JP6511950B2 (en) Image processing apparatus, image processing method and program
JP4741804B2 (en) Image processing apparatus and image processing method
JP2006222928A (en) Image processing apparatus and method, and image processing program
JP4664047B2 (en) Image processing apparatus and image processing method
JP7451465B2 (en) Learning method, program and image processing device
JP4769416B2 (en) Image processing apparatus and image processing method
US20210401327A1 (en) Imaging apparatus, information processing apparatus, image processing system, and control method
JP2020047082A (en) Information processing apparatus, information processing method, and program
JP7239002B2 (en) OBJECT NUMBER ESTIMATING DEVICE, CONTROL METHOD, AND PROGRAM
CN113284199A (en) Image gray area determination method, electronic device and server
JP2003256838A (en) Image processor and image processing method and its program and storage medium
JP2010170199A (en) Object detection device
US20220188571A1 (en) Learning method, storage medium, and image processing device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060424

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090728

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090928

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100202

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100212

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20100319

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110509

R150 Certificate of patent or registration of utility model

Ref document number: 4741804

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees