JP6580201B2 - Subject detection apparatus, subject detection method, and program - Google Patents
Subject detection apparatus, subject detection method, and program Download PDFInfo
- Publication number
- JP6580201B2 JP6580201B2 JP2018091270A JP2018091270A JP6580201B2 JP 6580201 B2 JP6580201 B2 JP 6580201B2 JP 2018091270 A JP2018091270 A JP 2018091270A JP 2018091270 A JP2018091270 A JP 2018091270A JP 6580201 B2 JP6580201 B2 JP 6580201B2
- Authority
- JP
- Japan
- Prior art keywords
- area
- partial region
- region
- input image
- partial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、特に、主被写体を検出するために用いて好適な被写体検出装置、被写体検出方法及びプログラムに関する。 The present invention particularly relates to a subject detection apparatus, a subject detection method, and a program suitable for use in detecting a main subject.
従来、入力画像から主被写体を検出する方法として、例えば特許文献1に記載されているような方法が提案されている。特許文献1に記載の方法では、まず、自動分割アルゴリズムを用いて入力画像を複数の部分領域に分割する。また、得られた部分領域のうちの一つとその他の部分領域との特徴量に対する差分の重み付き和に基づいて当該部分領域における顕著度を算出する。さらに、得られた顕著度に基づいて画像中の主被写体を検出する。 Conventionally, as a method for detecting a main subject from an input image, for example, a method described in Patent Document 1 has been proposed. In the method described in Patent Document 1, first, an input image is divided into a plurality of partial regions using an automatic division algorithm. Further, the degree of saliency in the partial area is calculated based on the weighted sum of the differences with respect to the feature amounts of one of the obtained partial areas and the other partial areas. Further, the main subject in the image is detected based on the obtained saliency.
また、入力画像から主被写体を検出する他の方法として、例えば非特許文献1に記載されているような方法も提案されている。非特許文献1に記載の方法では、まず、入力画像から複数種類の特徴量を抽出し、その特徴量に対する多重解像度画像を生成する。また、得られた多重解像度画像の各種類に対して大きさの異なる2つの部分領域を設定し、この2つの部分領域から抽出した特徴量に対する統計的分布の相違(カルバック−ライブラー・ダイバージェンス)に基づいて顕著度を算出する。さらに、多重解像度画像の各種類で得られた顕著度を統合して顕著度画像を生成し、最終的に、得られた顕著度画像に基づいて画像中の主被写体を検出する。 As another method for detecting the main subject from the input image, for example, a method as described in Non-Patent Document 1 has been proposed. In the method described in Non-Patent Document 1, first, a plurality of types of feature amounts are extracted from an input image, and a multi-resolution image for the feature amounts is generated. In addition, two partial areas having different sizes are set for each type of the obtained multi-resolution image, and the statistical distribution difference with respect to the feature amount extracted from the two partial areas (Calbach-Librer divergence). The saliency is calculated based on the above. Further, the saliency obtained for each type of multi-resolution image is integrated to generate a saliency image, and finally a main subject in the image is detected based on the obtained saliency image.
さらに、入力画像から主被写体(またはその部分領域)を検出するその他の方法として、例えば非特許文献2に記載されているような方法も提案されている。非特許文献2に記載の方法では、まず、入力画像から複数種類の特徴量を抽出し、その特徴量に対する多重解像度画像を生成し、多重解像度画像の各種類について大きさの異なる2つの部分領域を設定する。そして、この2つの部分領域から抽出した特徴量に対する統計的分布の相違(スケール重み付き確率分布間距離)と、2つの部分領域のうちの一方から抽出した特徴量に対する情報量(情報エントロピー)との積に基づいて顕著度を算出する。さらに、多重解像度画像の各種類で得られた顕著度を統合することにより顕著度画像を生成し、最終的に、得られた顕著度画像に基づいて画像中の主被写体(またはその部分領域)を検出する。 Furthermore, as another method for detecting the main subject (or its partial region) from the input image, for example, a method described in Non-Patent Document 2 has been proposed. In the method described in Non-Patent Document 2, first, a plurality of types of feature quantities are extracted from an input image, a multi-resolution image for the feature quantities is generated, and two partial regions having different sizes for each type of multi-resolution image Set. Then, a statistical distribution difference (distance between scale weighted probability distributions) with respect to the feature amount extracted from the two partial regions, and an information amount (information entropy) with respect to the feature amount extracted from one of the two partial regions, The saliency is calculated based on the product of. Furthermore, a saliency image is generated by integrating the saliency obtained for each type of multi-resolution image, and finally, the main subject (or its partial area) in the image based on the obtained saliency image Is detected.
前述したように、特許文献1及び非特許文献1に記載の方法では、入力画像中の特徴量に対する統計的分布の相違に基づいて顕著度を算出し、得られた顕著度に基づいて画像中の主被写体を検出する。しかしながら、画像中の主被写体が視覚的に顕著でない場合には主被写体の検出精度が低下するという問題がある。 As described above, in the methods described in Patent Document 1 and Non-Patent Document 1, the saliency is calculated based on the difference in the statistical distribution with respect to the feature amount in the input image, and the saliency is calculated based on the obtained saliency. The main subject is detected. However, when the main subject in the image is not visually noticeable, there is a problem that the detection accuracy of the main subject is lowered.
また、非特許文献2に記載の方法では、入力画像中の主被写体の含有する情報量の大きさ(情報エントロピー)を算出し、得られた情報量の大きさ(情報エントロピー)に基づいて画像中の主被写体を検出する。しかしながら、環境的または観測的要因によるノイズの影響を受けやすく、主被写体の検出精度が低下するという問題がある。 In the method described in Non-Patent Document 2, the amount of information (information entropy) contained in the main subject in the input image is calculated, and the image is calculated based on the obtained amount of information (information entropy). The main subject inside is detected. However, there is a problem that the detection accuracy of the main subject is lowered because it is easily affected by noise due to environmental or observational factors.
本発明は前述の問題点に鑑み、より頑健に画像中の主被写体を検出できるようにすることを目的としている。 An object of the present invention is to make it possible to more robustly detect a main subject in an image in view of the above-described problems.
本発明に係る被写体検出装置は、入力画像上に、第1の領域と、該第1の領域の周囲を含む第2の領域と、前記第1の領域を含む第3の領域とを設定する設定手段と、前記第1及び第2の領域のそれぞれから輝度または色に基づく同一種類の特徴量を抽出する第1の抽出手段と、前記第1及び第2の領域のそれぞれから抽出された前記同一種類の特徴量の相違に基づいて顕著度を導出する導出手段と、前記第3の領域からエッジ特徴量を抽出する第2の抽出手段と、前記顕著度と前記エッジ特徴量とに基づいて前記入力画像における主被写体を検出する検出手段と、を有することを特徴とする。 The subject detection apparatus according to the present invention sets a first area, a second area including the periphery of the first area, and a third area including the first area on the input image. Setting means; first extraction means for extracting the same type of feature quantity based on luminance or color from each of the first and second areas; and the first and second areas extracted from each of the first and second areas. Based on the derivation means for deriving the saliency based on the difference between the same type of feature quantity, the second extraction means for extracting the edge feature quantity from the third region, and the saliency and the edge feature quantity Detecting means for detecting a main subject in the input image.
本発明によれば、主被写体が視覚的に顕著でない場合や、環境的または観測的要因によるノイズが生じている場合であっても、より頑健に画像中の主被写体を検出することができる。 According to the present invention, the main subject in the image can be detected more robustly even when the main subject is not visually noticeable or when noise due to environmental or observational factors is generated.
(第1の実施形態)
以下、本発明の第1の実施形態について、図1〜図9を参照しながら説明する。
図1は、本実施形態に係る主被写体検出装置100の機能構成例を示すブロック図である。本実施形態に係る主被写体検出装置100の機能は、不図示の半導体集積回路(LSI)またはCPUが実行するプログラムにより実現される。
(First embodiment)
Hereinafter, a first embodiment of the present invention will be described with reference to FIGS.
FIG. 1 is a block diagram illustrating a functional configuration example of a main
図1に示すように、主被写体検出装置100は、第1部分領域設定部101、第2部分領域設定部102、第3部分領域設定部103、顕著度算出部104、情報量算出部105、スコア算出部106、及び識別部107を有する。これらの構成要素は主被写体検出装置100が果たす機能にそれぞれ対応している。
As shown in FIG. 1, the main
図2は、本実施形態に係る主被写体検出装置100により主被写体を識別する処理手順の一例を示すフローチャートである。以下、図1及び図2を参照しながら本実施形態に係る主被写体検出装置100による処理について説明する。
図2に示すように、主被写体検出装置100は、入力画像上のある点(画素)に対して、まず、予め定められた大きさの第1の部分領域と第2の部分領域とを設定する。また、第2の部分領域において第1の情報量を算出し、その大きさに基づいて第3の部分領域を設定する。さらに、第1の部分領域と第2の部分領域とにおける特徴量の統計的分布の相違に基づく顕著度と、第3の部分領域における特徴量が有する情報量とに基づいてスコアを算出する。最終的に、画像上の各点におけるスコアを算出し、所定の統計処理を適用することにより主被写体を検出する。以下、その詳細について説明する。
FIG. 2 is a flowchart illustrating an example of a processing procedure for identifying the main subject by the main
As shown in FIG. 2, the main
まず、入力画像が主被写体検出装置100に入力されると処理を開始し、ステップS201において、入力画像上のすべての点において、後述するステップS202〜S208の処理を終了したか否かを判定する。この判定の結果、入力画像上のすべての点において、処理が終了した場合はステップS209に進み、そうでない場合はステップS202に進む。
First, processing is started when an input image is input to the main
次に、ステップS202において、第1部分領域設定部101は、図3に示すように、主被写体検出装置100の外部から入力される入力画像の画像空間上に第1の部分領域301を設定する。具体的には、図3(a)に示すように、正方領域として第1の部分領域301を設定してもよく、図3(b)に示すように、矩形領域として第1の部分領域301を設定してもよい。また、図3(c)に示すように、円形領域として第1の部分領域301を設定してもよく、図3(d)に示すように、楕円領域として第1の部分領域301を設定してもよい。
Next, in step S202, the first partial
次に、ステップS203において、第2部分領域設定部102は、図3に示すように、入力画像の画像空間上に第2の部分領域302を設定する。具体的には、図3(a)に示すように、第1の部分領域を包含する正方領域として第2の部分領域302を設定してもよく、図3(b)に示すように、矩形の第1の部分領域を包含する矩形領域として第2の部分領域302を設定してもよい。また、図3(c)に示すように、円形の第1の部分領域を包含する円形領域として第2の部分領域302を設定してもよく、図3(d)に示すように、楕円の第1の部分領域を包含する楕円領域として第2の部分領域302を設定してもよい。
Next, in step S203, the second partial
次に、ステップS204において、第2部分領域設定部102は、第2の部分領域における特徴量(輝度値、色成分、エッジ強度など)が有する情報量(以下、第1の情報量)を算出する。ここで、第1の情報量の大きさは、例えば、以下の式(1)によりエントロピーHとして算出する。
Next, in step S204, the second partial
式(1)において、Piは、第2の部分領域における特徴量のi番目の階調の生起確率を表し、ある特徴量の階調数が256(=28)の場合、エントロピーHの最大値は8で与えられ、最小値は0で与えられる。 In Expression (1), P i represents the occurrence probability of the i-th gradation of the feature quantity in the second partial region. When the number of gradations of a certain feature quantity is 256 (= 2 8 ), the entropy H The maximum value is given by 8, and the minimum value is given by 0.
次に、ステップS205において、第3部分領域設定部103は、入力画像上の第2の部分領域における第1の情報量の大きさに基づいて、第3の部分領域を設定する。具体的には、例えば、第1の情報量が大きい場合は、図4(a)に示すように、第1の部分領域301を包含し、かつ第2の部分領域302に包含される相対的に小さな正方領域として第3の部分領域403を設定する。また、第1の情報量が小さい場合は、図4(b)に示すように、第1の部分領域301を包含し、かつ第2の部分領域302に包含される相対的に大きな正方領域として第3の部分領域403を設定すればよい。
Next, in step S205, the third partial
第1の部分領域及び第2の部分領域を正方領域として設定した場合には、第3の部分領域の一辺の長さL3は、例えば、第1の部分領域の一辺の長さL1と、第2の部分領域の一辺の長さL2とを用いて、以下の式(2)により算出する。 When the first partial region and the second partial region are set as square regions, the length L 3 of one side of the third partial region is, for example, the length L 1 of one side of the first partial region. Using the length L 2 of one side of the second partial region, the following formula (2) is used for calculation.
式(2)によれば、図4における第3の部分領域の一辺の長さL3は、エントロピーHの大きさに応じて、最小値L1から最大値L2までの実数値で与えられる。 According to Equation (2), the length L 3 of one side of the third partial region in FIG. 4 is given as a real value from the minimum value L 1 to the maximum value L 2 according to the size of the entropy H. .
なお、図3(b)に示すように第1の部分領域及び第2の部分領域を設定した場合には、以下のように設定する。第1の情報量が大きい場合は、図5(a)に示すように、第1の部分領域301を包含し、かつ第2の部分領域302に包含される相対的に小さな矩形領域として第3の部分領域403を設定する。また、第1の情報量が小さい場合は、図5(b)に示すように、第1の部分領域301を包含し、かつ第2の部分領域302に包含される相対的に大きな矩形領域として第3の部分領域403を設定する。なお、図5における第3の部分領域の長辺の長さL3は、第1の部分領域の長辺の長さL1と、第2の部分領域の長辺の長さL2とを用いて式(2)により算出することができ、短辺についても同様に算出することができる。
When the first partial region and the second partial region are set as shown in FIG. 3B, the following settings are made. When the first information amount is large, as shown in FIG. 5A, the third
また、図3(c)に示すように第1の部分領域及び第2の部分領域を設定した場合には、以下のように設定する。第1の情報量が大きい場合は、図6(a)に示すように、第1の部分領域301を包含し、かつ第2の部分領域302に包含される相対的に小さな円形領域として第3の部分領域403を設定する。また、第1の情報量が小さい場合は、図6(b)に示すように、第1の部分領域301を包含し、かつ第2の部分領域302に包含される相対的に大きな円形領域として第3の部分領域403を設定する。なお、図6における第3の部分領域の径の長さL3は、第1の部分領域の径の長さL1と、第2の部分領域の径の長さL2とを用いて式(2)により算出することができる。
In addition, when the first partial region and the second partial region are set as shown in FIG. 3C, the following settings are made. When the first information amount is large, as shown in FIG. 6A, the third
また、図3(d)に示すように第1の部分領域及び第2の部分領域を設定した場合には、以下のように設定する。第1の情報量が大きい場合は、図7(a)に示すように、第1の部分領域301を包含し、かつ第2の部分領域302に包含される相対的に小さな楕円領域として第3の部分領域403を設定する。また、第1の情報量が小さい場合は、図7(b)に示すように、第1の部分領域301を包含し、かつ第2の部分領域302に包含される相対的に大きな楕円領域として第3の部分領域403を設定する。なお、図7における第3の部分領域の長軸の長さL3は、第1の部分領域の長軸の長さL1と、第2の部分領域の長軸の長さL2とを用いて式(2)により算出することができ、短軸についても同様に算出することができる。
Further, when the first partial region and the second partial region are set as shown in FIG. 3D, the following settings are made. When the first information amount is large, as shown in FIG. 7A, the third
次に、ステップS206において、顕著度算出部104は顕著度導出手段として、第1部分領域設定部101で得られた第1の部分領域と、第2部分領域設定部102で得られた第2の部分領域とを用いて顕著度を算出する。具体的には、図8に示すように、各々の部分領域における特徴量の統計的分布の相違に基づいて視覚的な顕著度を算出する。ここで、顕著度は、例えば、以下の式(3)によりヒストグラム・インターセクションHIを用いて算出する。
Next, in step S <b> 206, the
あるいは、顕著度は、式(4)のようなピアソン・ダイバージェンスDPRを用いて算出してもよい。 Alternatively, the prominence may be calculated using a Pearson-divergence D PR of Equation (4).
また、顕著度は、以下の式(5)により相対ピアソン・ダイバージェンスDRPを用いて算出してもよい。ここでβは0以上1以下の任意の実数値である。 The saliency may be calculated using the relative Pearson divergence D RP according to the following equation (5). Here, β is an arbitrary real value between 0 and 1.
また、顕著度は、以下の式(6)によりカルバック−ライブラー・ダイバージェンスDKLを用いて算出してもよい。 Moreover, remarkable degree, Kullback by the following equation (6) - may be calculated using Leibler divergence D KL.
また、顕著度は、以下の式(7)によりバタチャリア距離DBTを用いて算出してもよい。 Further, saliency can be calculated using the Batacharia distance D BT by the following equation (7).
また、顕著度は、以下の式(8)により距離尺度Dを用いて算出してもよい。 Further, the saliency may be calculated using the distance scale D by the following equation (8).
また、顕著度は、以下の式(9)によりDabsを用いて算出してもよい。 The saliency may be calculated using D abs according to the following equation (9).
ここで、式(3)〜式(9)において、P(i)は、第1の部分領域から抽出した特徴量に対する確率密度Pのi番目の階調の確率を表し、Q(i)は、第2の部分領域から抽出した特徴量に対する確率密度Qのi番目の階調の確率を表す。 Here, in Expressions (3) to (9), P (i) represents the probability of the i-th gradation of the probability density P with respect to the feature amount extracted from the first partial region, and Q (i) is , Represents the probability of the i-th gradation of the probability density Q with respect to the feature quantity extracted from the second partial region.
次に、ステップS207において、情報量算出部105は、第3部分領域設定部103で得られた第3の部分領域における特徴量(輝度値、色成分、エッジ強度など)が有する情報量(以下、第2の情報量)を算出する。具体的には、第2の情報量は、例えば、第3の部分領域における特徴量の勾配強度を、第3の部分領域の各点で算出し、それらの合計値で与えればよい。ここで、勾配強度は、公知の画像処理フィルタ(Sobelフィルタ、Cannyフィルタ、Laplacianフィルタ、Gaborフィルタなど)を用いて算出すればよい。
Next, in step S207, the information
次に、ステップS208において、スコア算出部106は、顕著度算出部104で得られた顕著度と、情報量算出部105で得られた第2の情報量とに基づいて、入力画像上の処理対象の点におけるスコア(主被写体があるかどうかを示す尺度)を算出する。ここで、入力画像上の各点におけるスコアは、例えば、顕著度算出部104で得られた顕著度と、情報量算出部105で得られた第2の情報量との積で与えればよい。なお、顕著度算出部104で得られた顕著度と、情報量算出部105で得られた第2の情報量との和をスコアとして与えてもよい。あるいは、顕著度算出部104で得られた顕著度と、情報量算出部105で得られた情報量との積と和との組み合わせをスコアとして与えてもよい。
Next, in step S208, the score calculation unit 106 performs processing on the input image based on the saliency obtained by the
ステップS209においては、識別部107は、スコア算出部106において算出されたスコアに基づいて、入力画像中の主被写体を検出する。具体的には、まず、例えば図9(a)に示すような入力画像に対して算出された入力画像上の各点におけるスコアを入力画像上に配置したスコアマップ(図9(b)参照)を生成する。そして、得られたスコアマップに対して、非特許文献3に記載の2値化処理、具体的にはクラス内分散を最小化し、クラス間分散を最大化することにより適応的に学習して閾値を設定する手法を適用して、図9(c)に示すような主被写体の候補領域を設定する。さらに、得られた主被写体の候補領域に外接する矩形領域を設定することにより、図9(d)に示すように入力画像中の主被写体を検出し、検出結果を出力する。
In step S209, the
このようにして得られた主被写体の検出結果は、主被写体検出装置100を活用する装置に利用される。例えば、デジタルスチルカメラ内において、主被写体として検出された領域にフォーカスを合わせ、当該領域を高画質化するような想定下においては、主被写体検出装置100を制御するデジタルスチルカメラ内のCPU、プログラム等に伝達される。
The main subject detection result obtained in this way is used in an apparatus that uses the main
以上のように本実施形態によれば、視覚的な顕著度と、第3の部分領域における特徴量(輝度値、色成分、エッジ強度など)が有する情報量とに応じたスコアを算出して主被写体を検出する。これにより、主被写体が視覚的に顕著でない場合や、環境的または観測的要因によるノイズが生じている場合であっても、頑健に画像中の主被写体を検出することができる。 As described above, according to the present embodiment, a score corresponding to the visual saliency and the information amount of the feature amount (luminance value, color component, edge strength, etc.) in the third partial region is calculated. Detect the main subject. This makes it possible to robustly detect the main subject in the image even when the main subject is not visually noticeable or noise occurs due to environmental or observational factors.
(第2の実施形態)
以下、本発明の第2の実施形態について、図10及び図11を参照しながら説明する。なお、主被写体検出装置の構成及び基本的な処理の流れは第1の実施形態と同様であり、本実施形態においては、第1の実施形態との相違箇所のみ説明する。第1の実施形態では、第1の部分領域及び第2の部分領域と重心が一致するように第3の部分領域を設定した。これに対して本実施形態では、第1の部分領域及び第2の部分領域の重心と関係なく、第2の部分領域に包含され、大きさの異なる複数の部分領域として第3の部分領域を設定する点が異なっている。
(Second Embodiment)
Hereinafter, a second embodiment of the present invention will be described with reference to FIGS. 10 and 11. Note that the configuration of the main subject detection apparatus and the basic processing flow are the same as those in the first embodiment, and in this embodiment, only differences from the first embodiment will be described. In the first embodiment, the third partial region is set so that the center of gravity coincides with the first partial region and the second partial region. In contrast, in the present embodiment, the third partial region is included as a plurality of partial regions that are included in the second partial region and have different sizes regardless of the centroids of the first partial region and the second partial region. The setting points are different.
図2のステップS204においては、第2部分領域設定部102は、第2の部分領域における特徴量(輝度値、色成分、エッジ強度など)が有する情報量(以下、第1の情報量)を算出する。ここで、第1の情報量は、例えば、帯域フィルタの一種である、非特許文献4に記載されているDifference of Gaussian(DoG)を用いて算出する。具体的には、以下の式(10)により、入力画像I(x,y)に対して、ガウシアン関数G(x,y,kσ)を適用して得られた平滑化画像L(x,y,kσ)と、ガウシアン関数G(x,y,σ)を適用して得られた平滑化画像L(x,y,σ)とを算出する。そして、これらの平滑化画像の差分画像D(x,y,σ)を算出する。ここで、(x,y)は、入力画像上における水平方向および垂直方向の座標を表す。また、kはガウシアン・パラメータσの増加率を表し、主被写体検出装置100が想定アプリケーションにおいて許容される計算時間に応じて一意に決定される。
In step S204 of FIG. 2, the second partial
図2のステップS205において設定される第3の部分領域の位置及びその大きさは、例えば、以下のように与えられる。図10に示すように、差分画像D(x,y,σ)における着目画素と近傍画素とを比較する。そして、この比較により得られる極値(極大値及び極小値)又は差分画像D(x,y,σ)における閾値以上の画素値の座標(x,y)に基づき、ガウシアン・パラメータσ(又は、その所定係数倍)を直径とする円形領域を求める。この結果、第3の部分領域は、図11に示すように、第2の部分領域における複数の位置及び大きさの円形領域で与えられる。 The position and size of the third partial region set in step S205 of FIG. 2 are given as follows, for example. As shown in FIG. 10, the pixel of interest in the difference image D (x, y, σ) is compared with neighboring pixels. Then, based on the extreme value (maximum value and minimum value) obtained by this comparison or the coordinate (x, y) of the pixel value equal to or greater than the threshold value in the difference image D (x, y, σ), the Gaussian parameter σ (or A circular area whose diameter is a predetermined coefficient multiple) is obtained. As a result, the third partial region is given as a circular region having a plurality of positions and sizes in the second partial region, as shown in FIG.
あるいは、第3の部分領域の位置及びその大きさを、帯域フィルタの一種である、非特許文献5に記載されているLaplacian of Gaussian(LoG)を用いて算出してもよい。この場合、LoG画像における着目画素と近傍画素とを比較して得られる極値(極大値及び極小値)又はLoG画像における閾値以上の画素値の座標(x,y)に基づき、ガウシアン・パラメータσ(又は、その所定係数倍)を直径とする円形領域で与えられる。 Alternatively, the position and size of the third partial region may be calculated using Laplacian of Gaussian (LoG) described in Non-Patent Document 5, which is a type of bandpass filter. In this case, the Gaussian parameter σ is based on the extreme value (maximum value and minimum value) obtained by comparing the pixel of interest in the LoG image with the neighboring pixel or the coordinates (x, y) of the pixel value equal to or greater than the threshold value in the LoG image. It is given by a circular area whose diameter is (or a predetermined coefficient multiple).
また、第3の部分領域の位置及びその大きさを、帯域フィルタの一種である、公知の画像処理フィルタのガボールフィルタを用いて算出してもよい。この場合、フィルタ出力値における着目画素と周辺画素とを比較して得られた極値(極大値及び極小値)の座標(x,y)に基づき、ガウシアン・パラメータσ(又は、その所定係数倍)を直径とする円形領域で与えられる。 Further, the position and the size of the third partial region may be calculated using a Gabor filter of a known image processing filter, which is a kind of band pass filter. In this case, based on the coordinates (x, y) of the extreme value (maximum value and minimum value) obtained by comparing the target pixel and the surrounding pixels in the filter output value, the Gaussian parameter σ (or a predetermined coefficient multiple thereof) ) Is a circular area with a diameter.
以上のように第3の部分領域を設定すると、その後は第1の実施形態と同様の手順により主被写体を検出することができる。 When the third partial region is set as described above, the main subject can be detected by the same procedure as in the first embodiment.
(第3の実施形態)
以下、本発明の第3の実施形態について、図12を参照しながら説明する。なお、主被写体検出装置の構成及び基本的な処理の流れは第1の実施形態と同様であり、本実施形態においては、第1の実施形態との相違箇所のみ説明する。第1の実施形態では、第1の部分領域と第2の部分領域との間に包含関係があったのに対して、本実施形態では、第1の部分領域と第2の部分領域との間に必ずしも包含関係があるわけではない点が異なっている。
(Third embodiment)
Hereinafter, a third embodiment of the present invention will be described with reference to FIG. Note that the configuration of the main subject detection apparatus and the basic processing flow are the same as those in the first embodiment, and in this embodiment, only differences from the first embodiment will be described. In the first embodiment, there is an inclusion relationship between the first partial region and the second partial region, whereas in the present embodiment, the first partial region and the second partial region The difference is that there is not necessarily an inclusive relationship between them.
図2のステップS202において、第1部分領域設定部101は、主被写体検出装置100の外部から入力される入力画像上に第1の部分領域を設定する。具体的には、図12(a)に示すように、画像空間上に任意の大きさの円形領域(あるいは楕円領域)を等間隔で配置し、そのうちの一つ(例えば、図12(a)の円形領域A)を第1の部分領域に設定する。
In step S <b> 202 of FIG. 2, the first partial
なお、図12(b)に示すように、入力画像上に任意の大きさの円形領域(あるいは楕円領域)を部分的に重複させて等間隔に配置し、そのうちの一つ(例えば、図12(b)の円形領域A)を第1の部分領域に設定してもよい。あるいは、図12(c)に示すように、入力画像上に任意の大きさの円形領域(あるいは楕円領域)をランダムに配置し、そのうちの一つ(例えば、図12(c)の円形領域A)を第1の部分領域に設定してもよい。 As shown in FIG. 12B, circular regions (or ellipse regions) of an arbitrary size are partially overlapped and arranged at equal intervals on the input image, and one of them (for example, FIG. 12). The circular area A) in (b) may be set as the first partial area. Alternatively, as shown in FIG. 12C, a circular area (or an elliptical area) of an arbitrary size is randomly arranged on the input image, and one of them (for example, the circular area A in FIG. 12C). ) May be set as the first partial region.
あるいは、図12(d)に示すように、入力画像を複数の局所領域に分割し、そのうちの一つ(例えば、図12(d)の局所領域A)を第1の部分領域に設定してもよい。この場合、入力画像における輝度値、色成分、エッジ強度、テクスチャなど特徴量の統計的分布に基づいて複数の局所領域に分割する。ここで、統計的分布とは、例えば、領域内の前記特徴量に対するヒストグラムが単峰性なのか多峰性なのか、あるいは、領域内の前記特徴量に対する情報量が閾値以上か否かなどといった内容である。なお、非特許文献6に記載の方法を用いて入力画像を複数の局所領域に分割してもよい。 Alternatively, as shown in FIG. 12D, the input image is divided into a plurality of local regions, and one of them (for example, the local region A in FIG. 12D) is set as the first partial region. Also good. In this case, the input image is divided into a plurality of local regions based on a statistical distribution of feature values such as luminance values, color components, edge strength, and texture. Here, the statistical distribution is, for example, whether the histogram for the feature amount in the region is unimodal or multimodal, or whether the information amount for the feature amount in the region is greater than or equal to a threshold value. Content. The input image may be divided into a plurality of local regions using the method described in Non-Patent Document 6.
次に、図2のステップS203においては、第2部分領域設定部102は、入力画像上に第2の部分領域を設定する。具体的には、図12に示すように、第1部分領域設定部101で設定された第1の部分領域(図12の局所領域A)に隣接する部分領域のうちの任意の一つ(例えば、図12の局所領域B)を第2の部分領域に設定する。
Next, in step S203 of FIG. 2, the second partial
次に、図2のステップS204においては、第1部分領域設定部101は、入力画像上の第1の部分領域における特徴量(輝度値、色成分、エッジ強度など)が有する情報量を算出する。そして、第2部分領域設定部102は、同様に入力画像上の第2の部分領域における特徴量(輝度値、色成分、エッジ強度など)が有する情報量を算出する。
Next, in step S204 of FIG. 2, the first partial
次に、図2のステップS205においては、第3部分領域設定部103は、第1の部分領域における特徴量が有する情報量の大きさと、第2の部分領域における特徴量が有する情報量の大きさとに基づいて、第3の部分領域を設定する。具体的には、例えば、第1の部分領域における情報量の大きさと、第2の部分領域における情報量の大きさとを比較して、第1の部分領域における情報量の方が大きい場合、第1の部分領域を第3の部分領域として設定する。一方、第2の部分領域における情報量の方が大きい場合、第2の部分領域を第3の部分領域として設定する。
Next, in step S205 in FIG. 2, the third partial
ここで、第1の部分領域及び第2の部分領域における情報量の大きさは、例えば、前述した式(1)に示すエントロピーHで与えればよい。あるいは、各々の部分領域における情報量の大きさは、部分領域における特徴量の勾配強度をその部分領域の各点で算出し、それらの合計値で与えてもよい。また、勾配強度は、例えば、公知の画像処理フィルタ(Sobelフィルタ、Cannyフィルタ、Laplacianフィルタ、Gaborフィルタなど)を用いて算出すればよい。 Here, the magnitude of the information amount in the first partial region and the second partial region may be given by, for example, entropy H shown in the above-described equation (1). Alternatively, the magnitude of the information amount in each partial region may be given by calculating the gradient strength of the feature amount in the partial region at each point of the partial region and summing them. The gradient strength may be calculated using, for example, a known image processing filter (Sobel filter, Canny filter, Laplacian filter, Gabor filter, etc.).
ステップS209においては、識別部107は、スコア算出部106において算出されたスコアに基づいて、入力画像中の主被写体を検出する。具体的には、まず、入力画像に対して、スコア算出部106により、第1部分領域設定部101で得られた第1の部分領域と、第2部分領域設定部102で得られた第2の部分領域とのすべての組み合わせに対するスコアが算出される。
In step S209, the
第1及び第2の実施形態では、入力画像上のすべての点に対してステップS201〜S208の処理を繰り返したが、本実施形態では、第1の部分領域及び第2の部分領域のすべての組み合わせに対してステップS201〜S208の処理を繰り返す。スコアの算出方法については第1の実施形態と同様に、顕著度と第2の情報量とを用いて算出する。 In the first and second embodiments, the processes of steps S201 to S208 are repeated for all points on the input image. However, in this embodiment, all of the first partial region and the second partial region are all processed. The processes in steps S201 to S208 are repeated for the combination. The score calculation method is calculated using the saliency and the second information amount, as in the first embodiment.
そして、識別部107は、すべての組み合わせに対するスコアを画像空間上に配置したスコアマップを生成する。また、得られたスコアマップに対して、前述した非特許文献3に記載の2値化処理を適用することにより、主被写体の候補領域を設定する。さらに、得られた主被写体の候補領域に外接する矩形領域を設定することにより、入力画像中の主被写体を検出する。
Then, the identifying
以上のように本実施形態によれば、主被写体が視覚的に顕著でない場合や、環境的または観測的要因によるノイズが生じている場合であっても、頑健に画像中の主被写体を検出することができる。 As described above, according to the present embodiment, the main subject in the image is robustly detected even when the main subject is not visually noticeable or noise is generated due to environmental or observational factors. be able to.
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
(Other embodiments)
The present invention can also be realized by executing the following processing. That is, software (program) that realizes the functions of the above-described embodiments is supplied to a system or apparatus via a network or various storage media, and a computer (or CPU, MPU, or the like) of the system or apparatus reads the program. It is a process to be executed.
101 第1部分領域設定部
102 第2部分領域設定部
103 第3部分領域設定部
104 顕著度算出部
105 情報量算出部
106 スコア算出部
107 識別部
101 first partial
Claims (9)
前記第1及び第2の領域のそれぞれから輝度または色に基づく同一種類の特徴量を抽出する第1の抽出手段と、
前記第1及び第2の領域のそれぞれから抽出された前記同一種類の特徴量の相違に基づいて顕著度を導出する導出手段と、
前記第3の領域からエッジ特徴量を抽出する第2の抽出手段と、
前記顕著度と前記エッジ特徴量とに基づいて前記入力画像における主被写体を検出する検出手段と、
を有することを特徴とする被写体検出装置。 Setting means for setting a first area, a second area including the periphery of the first area, and a third area including the first area on the input image;
First extraction means for extracting the same type of feature quantity based on luminance or color from each of the first and second regions;
Derivation means for deriving saliency based on the difference between the same type of feature values extracted from each of the first and second regions;
Second extraction means for extracting edge feature values from the third region;
Detecting means for detecting a main subject in the input image based on the saliency and the edge feature amount;
A subject detection apparatus comprising:
前記検出手段は前記導出されたスコアに基づいて前記入力画像における主被写体を検出することを特徴とする請求項5に記載の被写体検出装置。 Score derivation means for deriving a score based on the saliency and the edge feature amount;
The subject detection apparatus according to claim 5, wherein the detection unit detects a main subject in the input image based on the derived score.
前記第1及び第2の領域のそれぞれから輝度または色に基づく同一種類の特徴量を抽出するステップと、
前記第1及び第2の領域のそれぞれから抽出された前記同一種類の特徴量の相違に基づいて顕著度を導出するステップと、
前記第3の領域からエッジ特徴量を抽出するステップと、
前記顕著度と前記エッジ特徴量とに基づいて前記入力画像における主被写体を検出するステップと、
を有することを特徴とする被写体検出方法。 Setting a first area, a second area including the periphery of the first area, and a third area including the first area on the input image;
Extracting the same type of feature quantity based on luminance or color from each of the first and second regions;
Deriving a saliency based on the difference between the same type of feature values extracted from each of the first and second regions;
Extracting an edge feature amount from the third region;
Detecting a main subject in the input image based on the saliency and the edge feature amount;
A method for detecting a subject characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018091270A JP6580201B2 (en) | 2018-05-10 | 2018-05-10 | Subject detection apparatus, subject detection method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018091270A JP6580201B2 (en) | 2018-05-10 | 2018-05-10 | Subject detection apparatus, subject detection method, and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014083703A Division JP6338429B2 (en) | 2014-04-15 | 2014-04-15 | Subject detection apparatus, subject detection method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018120642A JP2018120642A (en) | 2018-08-02 |
JP6580201B2 true JP6580201B2 (en) | 2019-09-25 |
Family
ID=63045392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018091270A Active JP6580201B2 (en) | 2018-05-10 | 2018-05-10 | Subject detection apparatus, subject detection method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6580201B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102215315B1 (en) * | 2018-09-07 | 2021-02-15 | (주)위지윅스튜디오 | Method of generating 3-dimensional computer graphics asset based on a single image |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3355027B2 (en) * | 1994-06-13 | 2002-12-09 | 三菱電機株式会社 | Target detection method |
JPH08297742A (en) * | 1995-04-25 | 1996-11-12 | Mitsubishi Electric Corp | Target detection method and device therefor |
JP5471130B2 (en) * | 2009-07-31 | 2014-04-16 | カシオ計算機株式会社 | Image processing apparatus and method |
JP2014016688A (en) * | 2012-07-06 | 2014-01-30 | Kddi Corp | Non-realistic conversion program, device and method using saliency map |
-
2018
- 2018-05-10 JP JP2018091270A patent/JP6580201B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018120642A (en) | 2018-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6338429B2 (en) | Subject detection apparatus, subject detection method, and program | |
JP6719457B2 (en) | Method and system for extracting main subject of image | |
US11282185B2 (en) | Information processing device, information processing method, and storage medium | |
US9047529B2 (en) | Form recognition method and device | |
US9053384B2 (en) | Feature extraction unit, feature extraction method, feature extraction program, and image processing device | |
JP6547386B2 (en) | Image processing apparatus and method | |
TW201740316A (en) | Image text identification method and apparatus | |
CN110619333B (en) | Text line segmentation method, text line segmentation device and electronic equipment | |
US20160259990A1 (en) | Region-of-interest detection apparatus, region-of-interest detection method, and recording medium | |
CN109948521B (en) | Image deviation rectifying method and device, equipment and storage medium | |
TW201432620A (en) | Image processor with edge selection functionality | |
JP5656768B2 (en) | Image feature extraction device and program thereof | |
CN111259680B (en) | Two-dimensional code image binarization processing method and device | |
CN108960247B (en) | Image significance detection method and device and electronic equipment | |
US20110052071A1 (en) | Image processing apparatus, image processing method, and program | |
WO2018058573A1 (en) | Object detection method, object detection apparatus and electronic device | |
JP2017500662A (en) | Method and system for correcting projection distortion | |
JP6580201B2 (en) | Subject detection apparatus, subject detection method, and program | |
JP4967045B2 (en) | Background discriminating apparatus, method and program | |
Munshi et al. | A rough-set based binarization technique for fingerprint images | |
JP2016081472A (en) | Image processing device, and image processing method and program | |
CN112785550A (en) | Image quality value determination method, image quality value determination device, storage medium, and electronic device | |
JP4812743B2 (en) | Face recognition device, face recognition method, face recognition program, and recording medium recording the program | |
JP6493559B2 (en) | Character recognition device and character recognition method | |
CN113971798A (en) | Image identification method and related equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180510 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190514 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190710 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190730 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190827 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6580201 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |