JP2012123631A - Attention area detection method, attention area detection device, and program - Google Patents

Attention area detection method, attention area detection device, and program Download PDF

Info

Publication number
JP2012123631A
JP2012123631A JP2010273899A JP2010273899A JP2012123631A JP 2012123631 A JP2012123631 A JP 2012123631A JP 2010273899 A JP2010273899 A JP 2010273899A JP 2010273899 A JP2010273899 A JP 2010273899A JP 2012123631 A JP2012123631 A JP 2012123631A
Authority
JP
Japan
Prior art keywords
attention area
low
order feature
region
visual saliency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010273899A
Other languages
Japanese (ja)
Other versions
JP5704909B2 (en
Inventor
Masao Yamanaka
正雄 山中
Masakazu Matsugi
優和 真継
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2010273899A priority Critical patent/JP5704909B2/en
Publication of JP2012123631A publication Critical patent/JP2012123631A/en
Application granted granted Critical
Publication of JP5704909B2 publication Critical patent/JP5704909B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To accurately detect a set of images significant to a person from input images as an attention area.SOLUTION: The attention area detection method includes: a first calculation step of calculating a plurality of low-level feature quantities in a predetermined area in input images; a second calculation step of calculating visual saliency based on a relationship of probability densities of each of the plurality of the low-level feature quantities; and a detection step of detecting an attention area based on statistical distribution of the visual saliency.

Description

本発明は、画像中の注目領域検出に関し、特に注目領域検出における視覚的顕著度の記述方法ならびに当該視覚的顕著度を用いた注目領域検出に関するものである。   The present invention relates to attention area detection in an image, and more particularly to a method of describing visual saliency in attention area detection and attention area detection using the visual saliency.

入力画像中から人間にとって意味のあるひと固まりの領域を検出する方法として、例えば、特許文献1では、以下のような方法が提案されている。すなわち、入力画像中から基礎特徴画像を複数種類抽出し、その多重解像度表現である多重解像度画像を抽出する。また、多重解像度画像の各種類について解像度の異なる画像の間の差分である解像度差分画像を複数抽出し、解像度差分画像の各種類について、解像度の異なる解像度差分画像を統合することにより視覚的顕著度画像を抽出する。さらに、得られた視覚的顕著度画像において顕著度がある閾値以上の領域として注目領域が検出できる。   For example, Patent Document 1 proposes the following method as a method for detecting a group of regions meaningful to a human being from an input image. That is, a plurality of types of basic feature images are extracted from the input image, and a multi-resolution image that is a multi-resolution expression is extracted. In addition, by extracting a plurality of resolution difference images, which are differences between images of different resolutions for each type of multi-resolution image, and integrating the resolution difference images of different resolutions for each type of resolution difference image, Extract images. Furthermore, a region of interest can be detected as a region having a saliency above a threshold value in the obtained visual saliency image.

特開2009−3615号公報JP 2009-3615 A

Hido,S.,Tsuboi,Y.,Kashima,H.,Sugiyama,M.,&Kanamori,T.Statistical outlier detection using diret density ratio estimation.Knowledge and Information Systems, to appear.Hido, S .; Tsuboi, Y .; , Kashima, H .; , Sugiyama, M .; , & Kanamori, T .; Statistical outer detection using directivity ratio estimation. Knowledge and Information Systems, to appear.

しかし、このような入力画像中からの基礎特徴画像を直接用いて視覚的顕著度を算出する場合、環境的、観測的要因に依るノイズの影響を受けやすく、注目領域の検出精度が低下するという問題があった。   However, when the visual saliency is calculated by directly using the basic feature image from such an input image, it is easily affected by noise due to environmental and observational factors, and the detection accuracy of the attention area is reduced. There was a problem.

上記課題を解決するために、本発明に係る注目領域検出方法は、入力画像中の所定の領域において複数の低次特徴量を算出する第1の算出工程と、前記複数の低次特徴量のそれぞれの確率密度の関係に基づいて視覚的顕著度を算出する第2の算出工程と、前記視覚的顕著度の統計的分布に基づいて注目領域を検出する検出工程とを備える。   In order to solve the above-described problem, an attention area detection method according to the present invention includes a first calculation step of calculating a plurality of low-order feature quantities in a predetermined area in an input image, and the plurality of low-order feature quantities. A second calculation step of calculating visual saliency based on the relationship between the respective probability densities; and a detection step of detecting a region of interest based on a statistical distribution of the visual saliency.

本発明によれば、注目領域の検出精度を向上させることができる。   According to the present invention, it is possible to improve the detection accuracy of a region of interest.

第1実施形態に係る注目領域検出装置の機能構成図である。It is a functional lineblock diagram of the attention field detecting device concerning a 1st embodiment. 検出部の機能を説明する図である。It is a figure explaining the function of a detection part. データ抽出領域を説明する図である。It is a figure explaining a data extraction area. 視覚的顕著度の極大値が検出された検出点を説明する図である。It is a figure explaining the detection point from which the maximum value of visual saliency was detected. 局所的注目領域群を説明する図である。It is a figure explaining a local attention area group. 設定される注目領域を説明する図である。It is a figure explaining the attention area set. 学習部の機能を説明する図である。It is a figure explaining the function of a learning part. パラメータ候補を説明する図である。It is a figure explaining a parameter candidate. 係数算出部の処理を説明する図である。It is a figure explaining the process of a coefficient calculation part. パラメータの決定を説明する図である。It is a figure explaining determination of a parameter. パラメータ候補を説明する図である。It is a figure explaining a parameter candidate. 注目領域検出装置を実現する情報処理装置のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of the information processing apparatus which implement | achieves an attention area detection apparatus.

以下、図面を参照しながら、本発明の各実施形態について説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

[第1の実施形態]
図1は、本発明の第1の実施形態に係る注目領域検出装置1の機能構成を示すブロック図である。本実施形態に係わる物体識別装置は、半導体集積回路(LSI)を用いて実現されるものとする。図1に示すように注目領域検出装置1は、学習部11、検出部12、制御部13を有する。これらの構成要素は注目領域検出装置1が果たす機能にそれぞれ対応している。
[First Embodiment]
FIG. 1 is a block diagram showing a functional configuration of a region of interest detection device 1 according to the first embodiment of the present invention. The object identification device according to the present embodiment is realized using a semiconductor integrated circuit (LSI). As illustrated in FIG. 1, the attention area detection device 1 includes a learning unit 11, a detection unit 12, and a control unit 13. These components correspond to the functions performed by the attention area detection device 1.

注目領域検出装置1が果たす機能を大別すると2つある。その1つは学習機能であり、学習部11で実行される。もう1つは検出機能であり、検出部12で実行される。ここで、学習部11では、検出部12で用いられるパラメータαを算出する。また、検出部12は、学習部11で算出したパラメータαを用いて入力画像内の注目領域を検出する。さらに、制御部13は、物体識別装置1の各構成要素の制御を行っている。   The function performed by the attention area detection device 1 is roughly divided into two. One of them is a learning function, which is executed by the learning unit 11. The other is a detection function, which is executed by the detection unit 12. Here, the learning unit 11 calculates the parameter α used by the detection unit 12. In addition, the detection unit 12 detects a region of interest in the input image using the parameter α calculated by the learning unit 11. Further, the control unit 13 controls each component of the object identification device 1.

一方、注目領域の検出結果は、注目領域検出装置1の上位階層の装置に伝達され、様々なアプリケーション(デジタルスチルカメラのオートフォーカス機能やセキュリティーカメラの異常検出機能など)に適用される。   On the other hand, the detection result of the attention area is transmitted to a higher-level device of the attention area detection device 1 and applied to various applications (such as an autofocus function of a digital still camera and an abnormality detection function of a security camera).

図2は検出部12の機能構成を示すブロック図である。図2に示すように検出部12は、第1の算出部である特徴量算出部121、第2の算出部である視覚的顕著度算出部122、極大値探索部123、統合部124から構成される。   FIG. 2 is a block diagram illustrating a functional configuration of the detection unit 12. As illustrated in FIG. 2, the detection unit 12 includes a feature amount calculation unit 121 that is a first calculation unit, a visual saliency calculation unit 122 that is a second calculation unit, a maximum value search unit 123, and an integration unit 124. Is done.

図3は、データ抽出領域を説明する図である。特徴量算出部121は、図3のように、注目領域検出装置1の外部から入力される入力画像中に、訓練データ抽出領域と検証データ抽出領域を設定する抽出領域設定を実行し、各々の領域から無作為に所定の個数の複数種類の低次特徴量抽出を行う。   FIG. 3 is a diagram for explaining the data extraction area. As shown in FIG. 3, the feature amount calculation unit 121 executes extraction region setting for setting a training data extraction region and a verification data extraction region in an input image input from the outside of the attention region detection device 1. A predetermined number of low-order feature quantities are extracted from a region at random.

ここで、訓練データ抽出領域と検証データ抽出領域は、大きさの異なる2つの円形領域で与えられる。このうちの半径の大きい方の円形領域を第1の抽出領域である検証データ抽出領域とし、半径の小さい方の円形領域を第2の抽出領域である訓練データ抽出領域とする。   Here, the training data extraction area and the verification data extraction area are given as two circular areas having different sizes. Of these, the circular area with the larger radius is set as the verification data extraction area as the first extraction area, and the circular area with the smaller radius is set as the training data extraction area as the second extraction area.

また、訓練データ抽出領域と検証データ抽出領域の半径、抽出する低次特徴量の個数、およびその種類(輝度値、エッジ強度、テクスチャなど)は、あらかじめ学習部11により決定され、制御部13により伝達される。   Further, the radius of the training data extraction region and the verification data extraction region, the number of low-order feature amounts to be extracted, and their types (luminance value, edge strength, texture, etc.) are determined in advance by the learning unit 11 and are controlled by the control unit 13. Communicated.

なお、ここで得られた低次特徴量は視覚的顕著度算出部122に出力される。   Note that the low-order feature amount obtained here is output to the visual saliency calculating unit 122.

視覚的顕著度算出部122は、特徴量算出部121で得られた低次特徴量に基づいて、入力画像内の任意の点における視覚的顕著度Sを算出する。具体的には、訓練データ抽出領域から得られた低次特徴量と、検証データ抽出領域から得られた低次特徴量とのそれぞれを用いて推定される確率密度の比に基づいて、視覚的顕著度Sを算出する。   The visual saliency calculator 122 calculates a visual saliency S at an arbitrary point in the input image based on the low-order feature obtained by the feature calculator 121. Specifically, based on the ratio of probability density estimated using the low-order feature value obtained from the training data extraction region and the low-order feature value obtained from the verification data extraction region, The saliency S is calculated.

ここで、訓練データ抽出領域における低次特徴量の確率密度ptrainと、検証データ抽出領域における低次特徴量の確率密度ptestとの密度比(ptest/ptrain)は、たとえば、非特許文献1の密度比推定手法を用いて算出できる。 Here, the density ratio (p test / p train ) between the probability density p train of the low-order feature quantity in the training data extraction region and the probability density p test of the low-order feature quantity in the verification data extraction region is, for example, non-patent It can be calculated by using the density ratio estimation method of Document 1.

これから、視覚的顕著度Sは、特徴量算出部121で抽出される低次特徴量が単一種の場合(たとえば、輝度値Yのみの場合)は、その低次特徴量による確率密度の比の標準偏差σの逆数1/σで与えられる。   From this, the visual saliency S is the ratio of the probability density of the low-order feature quantity when the low-order feature quantity extracted by the feature quantity calculation unit 121 is a single type (for example, only the luminance value Y). It is given by the reciprocal 1 / σ of the standard deviation σ.

また、視覚的顕著度Sは、特徴量算出部121で抽出される低次特徴量が複数種の場合(たとえば、輝度値Y、エッジ強度E、テクスチャTの3種類の場合)は、以下のようになる。すなわち、学習部11より入力されるパラメータα=(α,α,α)と、各々の低次特徴量による確率密度の比の標準偏差(σ,σ,σ,)の逆数(1/σ,1/σ,1/σ)による線形和を用いて、式(1)のように与えられる。 The visual saliency S is as follows when there are a plurality of types of low-order feature amounts extracted by the feature amount calculation unit 121 (for example, when there are three types of luminance value Y, edge strength E, and texture T). It becomes like this. That is, the standard deviation (σ Y , σ E , σ T ) of the ratio of the parameter α = (α Y , α E , α T ) input from the learning unit 11 and the probability density due to each low-order feature amount is calculated. Using a linear sum of reciprocals (1 / σ Y , 1 / σ E , 1 / σ T ), it is given as in equation (1).

さらに、視覚的顕著度Sは、特徴量算出部121で抽出される低次特徴量が複数種の場合(たとえば、N種類の場合)は、式(1)を容易に拡張でき、視覚的顕著度Sは式(2)のように与えられる。あるいは、より一般的に、視覚的顕著度Sは式(3)のようにσ(n=0〜N)に関する非線形関数としてもよい。 Further, the visual saliency S can be easily expanded when the number of low-order feature amounts extracted by the feature amount calculation unit 121 (for example, N types) can be easily extended. The degree S is given by equation (2). Alternatively, more generally, the visual saliency S may be a non-linear function related to σ n (n = 0 to N ) as in Expression (3).

なお、得られた視覚的顕著度Sは、極大値探索部123に出力される。   The obtained visual saliency S is output to the local maximum search unit 123.

Figure 2012123631
Figure 2012123631

Figure 2012123631
Figure 2012123631

Figure 2012123631
Figure 2012123631

極大値探索部123は、特徴量算出部121と視覚的顕著度算出部122を用いて、入力画像内のさまざまな点(x,y)における視覚的顕著度S=S(x,y)を算出し、視覚的顕著度Sの統計的分布を求めるために、極大値(または、所定閾値以上の値)を与える点を検出する。   The local maximum search unit 123 uses the feature amount calculation unit 121 and the visual saliency calculation unit 122 to calculate the visual saliency S = S (x, y) at various points (x, y) in the input image. In order to calculate and obtain a statistical distribution of the visual saliency S, a point giving a maximum value (or a value equal to or greater than a predetermined threshold) is detected.

なお、極大値(または、所定閾値以上の値)の検出された点p(k=0〜K)は、統合部124に出力される。ただし、Kは、視覚的顕著度Sの極大値(または、所定閾値以上の値)が検出された点(x,y)の個数を表す。 The point p k (k = 0 to K) at which the maximum value (or a value equal to or greater than the predetermined threshold value) is detected is output to the integration unit 124. However, K represents the number of points (x, y) at which the maximum value (or a value equal to or greater than a predetermined threshold value) of the visual saliency S is detected.

統合部124は、極大値探索部123で得られた、視覚的顕著度Sの極大値(または、所定閾値以上の値)が検出された検出点p(k=0〜K)に対応する領域を局所的注目領域として設定する局所的注目領域設定を実行する。そして、それら局所的注目領域を2つの検出点の間の距離dに基づいて統合する。 The integration unit 124 corresponds to the detection point p k (k = 0 to K) at which the maximum value of the visual saliency S (or a value equal to or greater than a predetermined threshold) obtained by the maximum value search unit 123 is detected. The local attention area setting for setting the area as the local attention area is executed. Then, these local attention areas are integrated based on the distance d between the two detection points.

例えば、図4のように、入力画像内の3点(p,p,p)において視覚的顕著度Sの極大値(または、所定閾値以上の値)が得られたとする。図4において、p,p,pは、各々の円形領域の中心であり、それぞれの半径の大きさは訓練データ抽出領域の半径の大きさに相当する。まず、点pとpに着目し、これらの点の間の距離dijが所定閾値dthより小さい場合、この2つの点(p,p)を同一グループとして統合して局所的注目領域群を生成する。次に、点pとpに着目し、これらの点の間の距離djkが所定閾値dthより小さい場合、この2つの点(p,p)を同一のグループとして統合する。同様に、点pとpに着目し、これらの点の間の距離dikが所定閾値dthより小さい場合、この2つの点を同一のグループとして統合する。ただし、上記所定閾値dthは、学習部12により決定され、制御部13により伝達される。 For example, as shown in FIG. 4, it is assumed that the maximum value of visual saliency S (or a value equal to or greater than a predetermined threshold value) is obtained at three points ( pi , pj , pk ) in the input image. In FIG. 4, p i , p j , and pk are the centers of the respective circular regions, and the size of each radius corresponds to the size of the radius of the training data extraction region. First, paying attention to the points p i and p j , if the distance d ij between these points is smaller than the predetermined threshold value d th , the two points (p i , p j ) are integrated into the same group and are locally A group of attention areas is generated. Next, paying attention to the points p j and p k , if the distance d jk between these points is smaller than the predetermined threshold value d th , the two points (p j , p k ) are integrated as the same group. Similarly, paying attention to the points p i and p k , if the distance d ik between these points is smaller than the predetermined threshold value d th , the two points are integrated as the same group. However, the predetermined threshold value d th is determined by the learning unit 12 and transmitted by the control unit 13.

これを視覚的顕著度Sの極大値(または、所定閾値以上の値)が検出された点p(k=0〜K)の、すべての組に対して実行する。これにより、点p(k=0〜K)に対応する局所的注目領域を複数のグループ(局所的注目領域群)g(m=0〜M)に統合する(図5)。さらに、グループg(m=0〜M)毎に視覚的顕著度Sの合計値S(m=0〜M)を算出し、その最大値を与えるグループgm’を包含する矩形領域を設定し(図6)、これを最終的な注目領域とする注目領域設定を実行する。ただし、上記Mは、グループ個数を表す(図5の例ではM=3)。 This is executed for all sets of points p k (k = 0 to K) at which the maximum value of visual saliency S (or a value equal to or greater than a predetermined threshold) is detected. Thereby, the local attention area corresponding to the point p k (k = 0 to K) is integrated into a plurality of groups (local attention area group) g m (m = 0 to M) (FIG. 5). Further, a total value S m (m = 0 to M) of visual saliency S is calculated for each group g m (m = 0 to M), and a rectangular region including the group g m ′ that gives the maximum value is calculated. The region of interest is set (FIG. 6), and the region-of-interest setting is executed with this as the final region of interest. However, M represents the number of groups (M = 3 in the example of FIG. 5).

なお、ここで得られた注目領域の入力画像上における位置とサイズは、制御部12に出力される。   Note that the position and size of the region of interest on the input image obtained here are output to the control unit 12.

なお、上記手段が注目領域検出装置1における検出部12の一例に相当する。   The above means corresponds to an example of the detection unit 12 in the attention area detection device 1.

図7は学習部11の機能構成を示すブロック図である。図7に示すように学習部11は、画像データベース111、係数算出部112から構成される。学習部11は、検出部12で用いられるパラメータαを、画像データベース111に格納されたGT(グランドトゥルース)画像に基づいて決定する。ここで、GT画像とは、入力画像内の予め意味のあるまとまった物体領域として、注目領域を図6の点線で示す矩形枠で定義し、その位置とサイズがあらかじめ設定された画像である。係数算出部112は、検出部12を用いて同様の注目領域検出結果が得られるように、パラメータαを学習する。   FIG. 7 is a block diagram showing a functional configuration of the learning unit 11. As shown in FIG. 7, the learning unit 11 includes an image database 111 and a coefficient calculation unit 112. The learning unit 11 determines the parameter α used in the detection unit 12 based on a GT (ground truth) image stored in the image database 111. Here, the GT image is an image in which a region of interest is defined by a rectangular frame indicated by a dotted line in FIG. 6 as a meaningful object region in the input image, and its position and size are set in advance. The coefficient calculation unit 112 learns the parameter α so that the same attention area detection result can be obtained using the detection unit 12.

具体的には、パラメータαの候補α0,m(m=0〜M)をN次元空間のランダムな点の座標で与える。ただし、Nは低次特徴量の種類数を表し、本実施例では、輝度値Y、エッジ強度E、テクスチャTの3種類(N=3)を考えることにする。また、Mはパラメータαの候補数を表す。 Specifically, the parameter α candidates α 0, m (m = 0 to M) are given by the coordinates of random points in the N-dimensional space. However, N represents the number of types of low-order feature values, and in this embodiment, three types (N = 3) of luminance value Y, edge strength E, and texture T are considered. M represents the number of candidates for parameter α.

すると、パラメータαの候補α0,m(m=0〜M)は、図8のように、3次元空間(α,α,α)における半径1の球体内のランダムな点の座標で与えられる。ここで、パラメータαの候補数Mは、学習時間を短縮したい場合は、比較的小さめ(例えば10〜50)に、注目領域の検出精度を重視したい場合は、比較的大きめ(例えば100〜500)に設定する。 Then, the parameter α candidates α 0, m (m = 0 to M) are coordinates of random points in a sphere with a radius 1 in a three-dimensional space (α Y , α E , α T ) as shown in FIG. Given in. Here, the candidate number M of the parameter α is relatively small (for example, 10 to 50) when it is desired to shorten the learning time, and is relatively large (for example, 100 to 500) when the detection accuracy of the attention area is important. Set to.

また、係数算出部112は、検出部12を用いて、パラメータαの候補α0,m(m=0〜M)の各々を用いた場合の検出精度R0,m(m=0〜M)を測定する。ここで、係数算出部112は、図9のように、画像データベース111に格納されたGT画像と、検出部12を用いて得られた注目領域検出結果を各々照らし合わせる。検出精度R0,mは、それらの重複する面積sとGT画像における注目領域の面積s’との面積比(s/s’)の平均値で与えられる。 Also, the coefficient calculation unit 112 uses the detection unit 12 to detect the detection accuracy R 0, m (m = 0 to M) when each of the parameter α candidates α 0, m (m = 0 to M) is used. Measure. Here, as shown in FIG. 9, the coefficient calculation unit 112 compares the GT image stored in the image database 111 with the attention area detection result obtained using the detection unit 12. The detection accuracy R 0, m is given by the average value of the area ratio (s / s ′) between the overlapping area s and the area s ′ of the region of interest in the GT image.

この結果、図10のように、最も良好な検出精度Rm’を与えるパラメータαの候補α0,m’が特定できたとする。次に、係数算出部112は、図11のように、新たなパラメータαの候補α1,m(m=0〜M)を、3次元空間(α,α,α)における点α0,m’を中心とする、半径1*γ(0<γ<1)の球体内のランダムな点の座標で与える。ここで同様に、係数算出部112は、検出部12を用いて、パラメータαの候補α1,m(m=0〜M)の各々を用いた場合の検出精度R1,m(m=0〜M)を算出する。 As a result, as shown in FIG. 10, it is assumed that the candidate α 0, m ′ for the parameter α that gives the best detection accuracy R m ′ can be identified. Next, as shown in FIG. 11, the coefficient calculation unit 112 converts a new parameter α candidate α 1, m (m = 0 to M) to a point α in the three-dimensional space (α Y , α E , α T ). It is given by the coordinates of a random point in the sphere having a radius of 1 * γ (0 <γ <1) with 0, m ′ as the center. Similarly, the coefficient calculation unit 112 uses the detection unit 12 to detect the detection accuracy R 1, m (m = 0) when each of the parameter α candidates α 1, m (m = 0 to M) is used. ~ M).

係数算出部112は、以下同様に上記の操作を繰り返し、球体の半径が所定閾値γthより小さくなった場合、処理を打ち切り、その時点で得られたパラメータαを制御部13に出力する。ただし、上記所定閾値γthは、非負の実数として、試行錯誤的に決定される。以上が注目領域検出装置1における学習部11の一例に相当する。 The coefficient calculation unit 112 repeats the above operation in the same manner, and when the radius of the sphere becomes smaller than the predetermined threshold γ th , the coefficient calculation unit 112 aborts the process and outputs the parameter α obtained at that time to the control unit 13. However, the predetermined threshold γ th is determined by trial and error as a non-negative real number. The above corresponds to an example of the learning unit 11 in the attention area detection device 1.

このようにして得られた注目領域検出結果は、注目領域検出装置1のさらに上位階層に伝達される。例えば、注目領域検出後にロボットアームにより注目対象物体をピックアップするような状況においては、ロボットアームと注目領域検出装置1とを制御するための装置、プログラム等に伝達され、様々なアプリケーションに適用される。   The attention area detection result obtained in this way is transmitted to a higher hierarchy of the attention area detection device 1. For example, in a situation where the target object is picked up by the robot arm after the attention area is detected, the attention is transmitted to a device, a program, or the like for controlling the robot arm and the attention area detection device 1 and applied to various applications. .

以上が注目領域検出装置1の一例に相当する。   The above corresponds to an example of the attention area detection device 1.

[他の実施形態]
第1の実施形態では、注目領域検出装置は学習機能および識別機能の両者を実行するものとしたが、学習機能および検出機能のいずれか一方のみを実行するようにしてもよい。
[Other Embodiments]
In the first embodiment, the attention area detection device executes both the learning function and the identification function. However, only one of the learning function and the detection function may be executed.

第1の実施形態では、特徴量算出部121において、訓練データ抽出領域および検証データ抽出領域は2つの円形領域としていたが、円形状のみならず、楕円形状、矩形形状など、その他の任意形状を用いてもよい。また、最終的な注目領域も矩形領域に限らず、他の形状でもよい。   In the first embodiment, in the feature amount calculation unit 121, the training data extraction region and the verification data extraction region are two circular regions, but other arbitrary shapes such as an elliptical shape and a rectangular shape are used as well as a circular shape. It may be used. Further, the final attention area is not limited to the rectangular area, but may be another shape.

第1の実施形態では、視覚的顕著度算出部122は式(2)を用いて視覚的顕著度Sを計算していたが、式(2)の代わりに、訓練データ抽出領域の面積sを用いて、式(4)を用いてもよい。また、訓練データ抽出領域の面積sの任意関数f(s)を用いて、式(5)を用いてもよい。   In the first embodiment, the visual saliency calculating unit 122 calculates the visual saliency S using Expression (2), but instead of using Expression (2), the area s of the training data extraction region is calculated. And equation (4) may be used. Moreover, you may use Formula (5) using the arbitrary function f (s) of the area s of a training data extraction area | region.

Figure 2012123631
Figure 2012123631

Figure 2012123631
Figure 2012123631

また、第1の実施形態では、視覚的顕著度算出部122は、視覚的顕著度Sを、訓練データ抽出領域における低次特徴量の確率密度と、検証データ抽出領域における低次特徴量の確率密度との関係として、両者の密度比に基づいて算出していた。これに限らず、それぞれの抽出領域の低次特徴量のヒストグラムを求め、それぞれのヒストグラムの対応するヒストグラムビン間の差分絶対値に基づいて、視覚的顕著度Sを算出するようにしてもよい。   Further, in the first embodiment, the visual saliency calculation unit 122 calculates the visual saliency S using the probability density of the low-order feature quantity in the training data extraction area and the probability of the low-order feature quantity in the verification data extraction area. As a relationship with the density, it was calculated based on the density ratio between the two. However, the visual saliency S may be calculated based on absolute differences between histogram bins corresponding to the respective histogram bins.

なお、本発明は、複数の機器(例えばホストコンピュータ、インタフェース機器、リーダ、プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置など)に適用してもよい。   Note that the present invention can be applied to a system (for example, a copier, a facsimile machine, etc.) consisting of a single device even when applied to a system composed of a plurality of devices (for example, a host computer, interface device, reader, printer, etc.). You may apply.

また、本発明は、以下の処理を実施することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)がプログラムを読み出して実行する処理である。   The present invention can also be realized by performing the following processing. That is, software (program) that realizes the functions of the above-described embodiments is supplied to a system or apparatus via a network or various storage media, and the computer (or CPU or MPU) of the system or apparatus reads out and executes the program. It is processing to do.

図12は、プログラムを実行することで上述した注目領域検出装置を実現する情報処理装置のハードウェア構成を示すブロック図である。   FIG. 12 is a block diagram illustrating a hardware configuration of an information processing apparatus that realizes the above-described attention area detection device by executing a program.

CPU201は、各種プログラムを実行し、装置各部の制御を行う。ROM202は、不揮発性のメモリであり、情報処理装置を初期動作させる際に必要なプログラムなどを記憶する。RAM203は、CPU201のワークエリアを提供し、2次記憶装置204から読み出されたプログラムなどを一時記憶する。2次記憶装置204は、CPU201が使用するプログラム210を記録し、画像データベースで利用する画像を格納する。なお、プログラム210は、OS211、アプリケーション212、モジュール213、およびデータ214から構成される。   The CPU 201 executes various programs and controls each part of the apparatus. The ROM 202 is a non-volatile memory, and stores programs and the like necessary for initial operation of the information processing apparatus. A RAM 203 provides a work area for the CPU 201 and temporarily stores a program read from the secondary storage device 204. The secondary storage device 204 records the program 210 used by the CPU 201 and stores an image used in the image database. Note that the program 210 includes an OS 211, an application 212, a module 213, and data 214.

各デバイス201〜204は、バス205を通じて情報をやり取りする。情報処理装置は、バス205を介して、ディスプレイ206、キーボード207、マウス208、I/Oデバイス209とつながっている。   Each device 201 to 204 exchanges information through the bus 205. The information processing apparatus is connected to a display 206, a keyboard 207, a mouse 208, and an I / O device 209 via a bus 205.

ディスプレイ206は、ユーザに処理結果や処理の途中経過等の情報を表示するのに用いられる。キーボード207とマウス208は、ユーザからの指示を入力するのに用いられ、特にマウス208は表示上の位置を入力するのに用いられる。I/Oデバイス209は、処理対象の画像を取り込むために用いられる。例えば、I/Oデバイス209は、対象物体を撮影する撮影装置から入力画像を取り込む。また、I/Oデバイス209は、情報処理結果として得られた注目領域を撮影装置や画像処理装置など他の情報処理装置へ出力することもできる。   A display 206 is used to display information such as a processing result and a progress of the processing to the user. A keyboard 207 and a mouse 208 are used for inputting an instruction from the user, and in particular, the mouse 208 is used for inputting a position on the display. The I / O device 209 is used for capturing an image to be processed. For example, the I / O device 209 captures an input image from a photographing apparatus that photographs a target object. Also, the I / O device 209 can output the attention area obtained as the information processing result to another information processing apparatus such as a photographing apparatus or an image processing apparatus.

Claims (8)

入力画像中の所定の領域において複数の低次特徴量を算出する第1の算出工程と、
前記複数の低次特徴量のそれぞれの確率密度の関係に基づいて視覚的顕著度を算出する第2の算出工程と、
前記視覚的顕著度の統計的分布に基づいて注目領域を検出する検出工程と
を有することを特徴とする注目領域検出方法。
A first calculation step of calculating a plurality of low-order feature quantities in a predetermined region in the input image;
A second calculation step of calculating a visual saliency based on a probability density relationship of each of the plurality of low-order feature amounts;
And a detection step of detecting the attention area based on the statistical distribution of the visual saliency.
前記第1の算出工程は、
前記所定の領域として、前記入力画像内の所定の点に対して第1の抽出領域と、該第1の抽出領域と大きさの異なる第2の抽出領域とを設定する抽出領域設定工程と、
前記複数の低次特徴量として、前記第1の抽出領域および前記第2の抽出領域のそれぞれから低次特徴量を抽出する低次特徴量抽出工程と
を有することを特徴とする請求項1に記載の注目領域検出方法。
The first calculation step includes:
An extraction region setting step of setting a first extraction region and a second extraction region having a size different from that of the first extraction region for a predetermined point in the input image as the predetermined region;
2. The low-order feature quantity extracting step of extracting a low-order feature quantity from each of the first extraction area and the second extraction area as the plurality of low-order feature quantities. The noted region of interest detection method.
前記低次特徴量抽出工程では、前記第1の抽出領域および前記第2の抽出領域のそれぞれから、複数種類の低次特徴量を抽出することを特徴とする請求項2に記載の注目領域検出方法。   The attention area detection according to claim 2, wherein, in the low-order feature quantity extraction step, a plurality of types of low-order feature quantities are extracted from each of the first extraction area and the second extraction area. Method. 前記第2の算出工程では、前記視覚的顕著度を、前記第1の抽出領域の低次特徴量のヒストグラムと前記第2の抽出領域の低次特徴量に対するヒストグラムの対応するヒストグラムビン間の差分絶対値に基づいて算出することを特徴とする請求項2に記載の注目領域検出方法。   In the second calculation step, the visual saliency is determined by calculating a difference between a histogram of the low-order feature amount of the first extraction region and a corresponding histogram bin of the histogram for the low-order feature amount of the second extraction region. The attention area detection method according to claim 2, wherein calculation is performed based on an absolute value. 前記第2の算出工程では、前記視覚的顕著度を、前記第1の抽出領域で得られた低次特徴量に対する確率密度と前記第2の抽出領域で得られた低次特徴量に対する確率密度の比に基づいて算出することを特徴とする請求項2に記載の注目領域検出方法。   In the second calculation step, the visual saliency is obtained by calculating the probability density for the low-order feature amount obtained in the first extraction region and the probability density for the low-order feature amount obtained in the second extraction region. The region-of-interest detection method according to claim 2, wherein the region of interest is calculated based on the ratio. 前記検出工程は、
前記視覚的顕著度に基づいて複数の局所的注目領域を設定する局所的注目領域設定工程と、
前記複数の局所的注目領域をそれらの距離の大きさに基づいて統合して局所的注目領域群を生成する統合工程と、
前記局所的注目領域群ごとに視覚的顕著度の合計値を算出し、その最大値を与える局所的注目領域群を特定する特定工程と、
特定された前記局所的注目領域群を包含する領域を前記注目領域として設定する注目領域設定工程と
を有することを特徴とする請求項1乃至5のいずれか1項に記載の注目領域検出方法。
The detection step includes
A local attention area setting step of setting a plurality of local attention areas based on the visual saliency,
Integrating the plurality of local attention areas based on the size of their distance to generate a group of local attention areas;
A specific step of calculating a total value of visual saliency for each local attention area group, and specifying a local attention area group that gives the maximum value;
6. The attention area detection method according to claim 1, further comprising an attention area setting step of setting an area including the specified local attention area group as the attention area.
入力画像中の所定の領域において複数の低次特徴量を算出する第1の算出手段と、
前記複数の低次特徴量のそれぞれの確率密度の関係に基づいて視覚的顕著度を算出する第2の算出手段と、
前記視覚的顕著度の統計的分布に基づいて注目領域を検出する検出手段と
を有することを特徴とする注目領域検出装置。
First calculating means for calculating a plurality of low-order feature amounts in a predetermined region in the input image;
Second calculating means for calculating a visual saliency based on a probability density relationship of each of the plurality of low-order feature quantities;
An attention area detection apparatus comprising: a detection means for detecting an attention area based on the statistical distribution of the visual saliency.
請求項1に記載の注目領域検出方法の各工程をコンピュータに実行させるためのプログラム。   The program for making a computer perform each process of the attention area detection method of Claim 1.
JP2010273899A 2010-12-08 2010-12-08 Attention area detection method, attention area detection apparatus, and program Expired - Fee Related JP5704909B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010273899A JP5704909B2 (en) 2010-12-08 2010-12-08 Attention area detection method, attention area detection apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010273899A JP5704909B2 (en) 2010-12-08 2010-12-08 Attention area detection method, attention area detection apparatus, and program

Publications (2)

Publication Number Publication Date
JP2012123631A true JP2012123631A (en) 2012-06-28
JP5704909B2 JP5704909B2 (en) 2015-04-22

Family

ID=46504999

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010273899A Expired - Fee Related JP5704909B2 (en) 2010-12-08 2010-12-08 Attention area detection method, attention area detection apparatus, and program

Country Status (1)

Country Link
JP (1) JP5704909B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999926A (en) * 2012-11-12 2013-03-27 北京交通大学 Low-level feature integration based image vision distinctiveness computing method
CN103020974A (en) * 2012-12-31 2013-04-03 哈尔滨工业大学 Significant region difference and significant density based automatic significant object detection implementation method
CN103247051A (en) * 2013-05-16 2013-08-14 北京工业大学 Expected step number-based image saliency detection method
CN103561261A (en) * 2013-10-12 2014-02-05 重庆邮电大学 Panoramic locatable video coding method based on visual attention
US10121067B2 (en) 2014-09-30 2018-11-06 Canon Kabushiki Kaisha Image processing apparatus that determines processing target area of an image based on degree of saliency, image processing method, and storage medium
WO2023095520A1 (en) * 2021-11-29 2023-06-01 富士フイルム株式会社 Training data generation device, training data generation method, program, and defect inspection device

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000207564A (en) * 1998-12-31 2000-07-28 Eastman Kodak Co Method for detecting subject of image

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000207564A (en) * 1998-12-31 2000-07-28 Eastman Kodak Co Method for detecting subject of image

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG201000880012; 藤川 哲也: '物体領域抽出による画像の識別率向上に関する検討' 映像情報メディア学会技術報告 , 20100914, p.73〜78, (社)映像情報メディア学会 *
JPN6014034679; 藤川 哲也: '物体領域抽出による画像の識別率向上に関する検討' 映像情報メディア学会技術報告 , 20100914, p.73〜78, (社)映像情報メディア学会 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999926A (en) * 2012-11-12 2013-03-27 北京交通大学 Low-level feature integration based image vision distinctiveness computing method
CN103020974A (en) * 2012-12-31 2013-04-03 哈尔滨工业大学 Significant region difference and significant density based automatic significant object detection implementation method
CN103020974B (en) * 2012-12-31 2015-05-13 哈尔滨工业大学 Significant region difference and significant density based automatic significant object detection implementation method
CN103247051A (en) * 2013-05-16 2013-08-14 北京工业大学 Expected step number-based image saliency detection method
CN103561261A (en) * 2013-10-12 2014-02-05 重庆邮电大学 Panoramic locatable video coding method based on visual attention
CN103561261B (en) * 2013-10-12 2016-10-26 重庆邮电大学 The panoramic locatable video coded method that view-based access control model notes
US10121067B2 (en) 2014-09-30 2018-11-06 Canon Kabushiki Kaisha Image processing apparatus that determines processing target area of an image based on degree of saliency, image processing method, and storage medium
WO2023095520A1 (en) * 2021-11-29 2023-06-01 富士フイルム株式会社 Training data generation device, training data generation method, program, and defect inspection device

Also Published As

Publication number Publication date
JP5704909B2 (en) 2015-04-22

Similar Documents

Publication Publication Date Title
CN108764024B (en) Device and method for generating face recognition model and computer readable storage medium
US10936911B2 (en) Logo detection
US11017210B2 (en) Image processing apparatus and method
US20180260669A1 (en) Image processing apparatus, image processing method, template generation apparatus, object recognition processor, and object recognition processing program
JP5704909B2 (en) Attention area detection method, attention area detection apparatus, and program
CN109448007B (en) Image processing method, image processing apparatus, and storage medium
JP5261501B2 (en) Permanent visual scene and object recognition
CN107679475B (en) Store monitoring and evaluating method and device and storage medium
JP6397379B2 (en) CHANGE AREA DETECTION DEVICE, METHOD, AND PROGRAM
WO2022170844A1 (en) Video annotation method, apparatus and device, and computer readable storage medium
JP5455787B2 (en) Motion analysis apparatus and motion analysis method
JP2012032370A (en) Defect detection method, defect detection apparatus, learning method, program, and recording medium
CN108573471B (en) Image processing apparatus, image processing method, and recording medium
US8542912B2 (en) Determining the uniqueness of a model for machine vision
JP6071002B2 (en) Reliability acquisition device, reliability acquisition method, and reliability acquisition program
JP5936561B2 (en) Object classification based on appearance and context in images
US20110103652A1 (en) Image processing apparatus and image processing method
CN109345460B (en) Method and apparatus for rectifying image
US10891740B2 (en) Moving object tracking apparatus, moving object tracking method, and computer program product
US8164633B2 (en) Calibration apparatus and method for imaging devices and computer program
JP6431404B2 (en) Attitude estimation model generation apparatus and attitude estimation apparatus
US8542905B2 (en) Determining the uniqueness of a model for machine vision
US20210042576A1 (en) Image processing system
JP2021026778A (en) Cross-domain metric learning system and method
US20130307976A1 (en) Imaging apparatus and imaging condition setting method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140819

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150224

R151 Written notification of patent or utility model registration

Ref document number: 5704909

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees