JP2011253354A - Image processing apparatus, method and program - Google Patents

Image processing apparatus, method and program Download PDF

Info

Publication number
JP2011253354A
JP2011253354A JP2010126779A JP2010126779A JP2011253354A JP 2011253354 A JP2011253354 A JP 2011253354A JP 2010126779 A JP2010126779 A JP 2010126779A JP 2010126779 A JP2010126779 A JP 2010126779A JP 2011253354 A JP2011253354 A JP 2011253354A
Authority
JP
Japan
Prior art keywords
image
background
feature amount
area
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010126779A
Other languages
Japanese (ja)
Inventor
Takuo Kawai
拓郎 川合
Yasutaka Hirasawa
康孝 平澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010126779A priority Critical patent/JP2011253354A/en
Publication of JP2011253354A publication Critical patent/JP2011253354A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve accuracy of recognizing category of object in an image.SOLUTION: A distance detecting section 32 acquires information on a distance of an object from an imaging device at capturing an image, which is acquired by a image acquisition section 31, per pixel unit in the image. A region dividing section 41 included in an object recognition section 36 divides the image into a foreground region which is an object and a background region other than that in the image based on the image and the distance information. A background-effect reducing feature amount extraction section 42 extracts a feature amount, which reduces an effect on category recognition of the object by the background, based on the information either one or all of the image, the distance information and the divided background regions. A recognition processing section 43 recognizes a category of the foreground of the object in the image based on the extracted feature amount. The invention is applicable to an image processing apparatus.

Description

本発明は、画像処理装置および方法、並びにプログラムに関し、特に、画像内の被写体となる物体の種別の認識精度を向上させるようにした画像処理装置および方法、並びにプログラムに関する。   The present invention relates to an image processing device, method, and program, and more particularly, to an image processing device, method, and program that improve the recognition accuracy of the type of an object that is a subject in an image.

従来において、物体認識技術として、認識対象を人の掌とし、グー、チョキ、またはパー等の手の形状を識別する技術がある。   Conventionally, as an object recognition technique, there is a technique for identifying the shape of a hand such as goo, choki, or par with a recognition target as a human palm.

また、これらの物体認識技術の物体認識精度を向上させるために、画像と併せて、特定の条件や付加情報を利用する技術があり、その一例として、肌色情報を利用することで手の領域を取得し易くし、手の形状認識の精度向上を図るようにした技術が提案されている(特許文献1参照)。   In addition, in order to improve the object recognition accuracy of these object recognition technologies, there are technologies that use specific conditions and additional information in combination with images, and as an example, the hand area can be reduced by using skin color information. A technique has been proposed that facilitates acquisition and improves the accuracy of hand shape recognition (see Patent Document 1).

特開2007−148663号公報JP 2007-148663 A

しかしながら、特許文献1の技術においては、肌色情報を用いる為に、認識処理の精度が照明等の影響を受け易い。   However, in the technique of Patent Document 1, since the skin color information is used, the accuracy of the recognition process is easily affected by lighting or the like.

本発明はこのような状況に鑑みてなされたものであり、特に、様々な環境の下で撮像された画像に対しても画像内の被写体となる物体の種別を高精度で認識できるようにするものである。   The present invention has been made in view of such circumstances, and in particular, makes it possible to recognize with high accuracy the type of an object that is a subject in an image even for images taken under various environments. Is.

本発明の一側面の画像処理装置は、画像を取得する画像取得手段と、前記画像内に撮像されている被写体の、前記画像の撮像時の撮像機器からの距離の情報を、前記画像の画素単位で取得する距離取得手段と、前記画像、および前記距離情報に基づいて、前記画像における被写体となる前景領域と、それ以外の背景領域とに領域を分割する領域分割手段と、前記画像、前記距離情報、および前記領域分割手段により分割された背景領域の情報の全て、またはそのいずれかに基づいて、前記背景による被写体の種別の認識に対する影響を低減する特徴量を抽出する背景影響低減特徴量抽出手段と、前記背景影響低減特徴量抽出手段により抽出された特徴量に基づいて、前記画像における前景となる被写体の種別を認識する認識手段とを含む。   An image processing apparatus according to an aspect of the present invention includes: an image acquisition unit configured to acquire an image; and information about a distance of an object captured in the image from an imaging device when the image is captured. A distance acquisition means for acquiring in units, an area dividing means for dividing an area into a foreground area as a subject in the image and a background area other than the image based on the image and the distance information; the image; A background influence reducing feature quantity that extracts a feature quantity that reduces the influence of the background on the recognition of the type of subject based on distance information and / or all of the background area information divided by the area dividing means Extraction means, and recognition means for recognizing the type of the subject as the foreground in the image based on the feature amount extracted by the background effect reduction feature amount extraction means.

前記背景影響低減特徴量抽出手段には、前記画像、および前記領域分割手段により分割された背景領域の情報に基づいて、前記画像のうち、前記背景領域に対応する画素を平滑化する平滑化手段を含ませるようにすることができ、前記平滑化手段により前記背景領域に対応する画素が平滑化された画像より、前記背景による被写体の種別の認識に対する影響を低減する特徴量を抽出させるようにすることができる。   The background influence reducing feature amount extraction means includes a smoothing means for smoothing pixels corresponding to the background area in the image based on the image and information on the background area divided by the area dividing means. A feature amount that reduces the influence of the background on the recognition of the type of the subject is extracted from the image in which the pixels corresponding to the background region are smoothed by the smoothing unit. can do.

前記平滑化手段には、前記領域分割手段により分割された背景領域の画素に対して、その近傍の画素の背景画素と前景画素との比率に応じた強度で画素を平滑化させるようにすることができる。   The smoothing means smoothes the pixels with the intensity corresponding to the ratio of the background pixels and foreground pixels of the neighboring pixels to the pixels in the background area divided by the area dividing means. Can do.

背景影響低減特徴量抽出手段には、前記画像の特徴量を抽出する特徴量抽出手段と、前記画像、および距離情報、前記領域分割手段により分割された背景領域の情報に基づいて、重み設定し、前記特徴量に前記重みを付する重み設定手段とを含ませるようにすることができ、前記重み設定手段により設定された重みが付された特徴量を、前記背景による被写体の種別の認識に対する影響を低減する特徴量として抽出させるようにすることができる。   The background effect reduction feature quantity extraction means sets the weight based on the feature quantity extraction means for extracting the feature quantity of the image, the image, distance information, and information on the background area divided by the area division means. A weight setting unit for adding the weight to the feature amount, and the feature amount to which the weight set by the weight setting unit is attached can be used for recognition of a subject type by the background. It can be made to extract as a feature-value which reduces influence.

前記特徴量抽出手段には、HOG特徴量を抽出させるようにすることができる。   The feature amount extraction means can extract HOG feature amounts.

本発明の一側面の画像処理方法は、画像を取得する画像取得手段と、前記画像内に撮像されている被写体の、前記画像の撮像時の撮像機器からの距離の情報を、前記画像の画素単位で取得する距離取得手段と、前記画像、および前記距離情報に基づいて、前記画像における被写体となる前景領域と、それ以外の背景領域とに領域を分割する領域分割手段と、前記画像、前記距離情報、および前記領域分割手段により分割された背景領域の情報の全て、またはそのいずれかに基づいて、前記背景による被写体の種別の認識に対する影響を低減する特徴量を抽出する背景影響低減特徴量抽出手段と、前記背景影響低減特徴量抽出手段により抽出された特徴量に基づいて、前記画像における前景となる被写体の種別を認識する認識手段とを含む画像処理装置の画像処理方法であって、前記画像取得手段における、前記画像を取得する画像取得ステップと、前記距離取得手段における、前記画像内に撮像されている被写体の、前記画像の撮像時の撮像機器からの距離の情報を、前記画像の画素単位で取得する距離取得ステップと、前記領域分割手段における、前記画像、および前記距離情報に基づいて、前記画像における被写体となる前景領域と、それ以外の背景領域とに領域を分割する領域分割ステップと、前記背景影響低減特徴量抽出手段における、前記画像、前記距離情報、および前記領域分割ステップの処理により分割された背景領域の情報の全て、またはそのいずれかに基づいて、前記背景による被写体の種別の認識に対する影響を低減する特徴量を抽出する背景影響低減特徴量抽出ステップと、前記認識手段における、前記背景影響低減特徴量抽出ステップの処理により抽出された特徴量に基づいて、前記画像における前景となる被写体の種別を認識する認識ステップとを含む。   An image processing method according to an aspect of the present invention includes: an image acquisition unit configured to acquire an image; and information on a distance of an object captured in the image from an imaging device at the time of imaging the image. A distance acquisition means for acquiring in units, an area dividing means for dividing an area into a foreground area as a subject in the image and a background area other than the image based on the image and the distance information; the image; A background influence reducing feature quantity that extracts a feature quantity that reduces the influence of the background on the recognition of the type of subject based on distance information and / or all of the background area information divided by the area dividing means An image including extraction means and recognition means for recognizing the type of the subject as the foreground in the image based on the feature amount extracted by the background effect reduction feature amount extraction means An image processing method for a physical apparatus, wherein the image acquisition unit acquires the image, and the distance acquisition unit captures an image of the subject captured in the image at the time of capturing the image. A distance acquisition step of acquiring information on the distance from the device in units of pixels of the image, the image in the region dividing means, and a foreground region that is a subject in the image based on the distance information; A region dividing step of dividing the region into background regions, and all of the image, the distance information, and the information on the background region divided by the region dividing step in the background influence reducing feature amount extraction unit, or Based on either of them, a background influence reducing feature quantity that extracts a feature quantity that reduces the influence of the background on recognition of the type of subject is extracted. And step out, in the recognition unit, on the basis of the feature value extracted by the processing of the background impact reduction feature extraction step, and a recognition step of recognizing the type of the subject to be the foreground in the image.

本発明の一側面のプログラムは、画像を取得する画像取得手段と、前記画像内に撮像されている被写体の、前記画像の撮像時の撮像機器からの距離の情報を、前記画像の画素単位で取得する距離取得手段と、前記画像、および前記距離情報に基づいて、前記画像における被写体となる前景領域と、それ以外の背景領域とに領域を分割する領域分割手段と、前記画像、前記距離情報、および前記領域分割手段により分割された背景領域の情報の全て、またはそのいずれかに基づいて、前記背景による被写体の種別の認識に対する影響を低減する特徴量を抽出する背景影響低減特徴量抽出手段と、前記背景影響低減特徴量抽出手段により抽出された特徴量に基づいて、前記画像における前景となる被写体の種別を認識する認識手段とを含む画像処理装置を制御するコンピュータに、前記画像取得手段における、前記画像を取得する画像取得ステップと、前記距離取得手段における、前記画像内に撮像されている被写体の、前記画像の撮像時の撮像機器からの距離の情報を、前記画像の画素単位で取得する距離取得ステップと、前記領域分割手段における、前記画像、および前記距離情報に基づいて、前記画像における被写体となる前景領域と、それ以外の背景領域とに領域を分割する領域分割ステップと、前記背景影響低減特徴量抽出手段における、前記画像、前記距離情報、および前記領域分割ステップの処理により分割された背景領域の情報の全て、またはそのいずれかに基づいて、前記背景による被写体の種別の認識に対する影響を低減する特徴量を抽出する背景影響低減特徴量抽出ステップと、前記認識手段における、前記背景影響低減特徴量抽出ステップの処理により抽出された特徴量に基づいて、前記画像における前景となる被写体の種別を認識する認識ステップとを含む処理を実行させる。   According to another aspect of the present invention, there is provided a program for acquiring, in pixel units of the image, image acquisition means for acquiring an image, and information on the distance of the subject imaged in the image from the imaging device at the time of imaging the image. A distance acquisition means for acquiring, an area dividing means for dividing the area into a foreground area as a subject in the image and a background area other than the image based on the image and the distance information; the image; and the distance information. And background influence reducing feature amount extraction means for extracting a feature amount that reduces the influence of the background on recognition of the type of subject based on all or one of the information of the background region divided by the region dividing means. And an image processing unit for recognizing a type of a subject as a foreground in the image based on the feature amount extracted by the background effect reduction feature amount extraction unit. An image acquisition step for acquiring the image in the image acquisition means, and a subject captured in the image in the distance acquisition means from an imaging device at the time of imaging the image to a computer that controls the apparatus A distance acquisition step of acquiring distance information in units of pixels of the image, the image in the region dividing means, and a foreground region as a subject in the image based on the distance information, and other background regions And / or all of the information of the image, the distance information, and the background region divided by the processing of the region dividing step in the background effect reducing feature amount extraction unit. Based on the above, a background influence reducing feature quantity for extracting a feature quantity for reducing the influence of the background on the recognition of the type of subject And a recognition step of recognizing the type of the subject as the foreground in the image based on the feature amount extracted by the processing of the background effect reduction feature amount extraction step in the recognition unit. .

本発明の一側面においては、画像が取得され、前記画像内に撮像されている被写体の、前記画像の撮像時の撮像機器からの距離の情報が、前記画像の画素単位で取得され、前記画像、および前記距離情報に基づいて、前記画像における被写体となる前景領域と、それ以外の背景領域とに領域が分割され、前記画像、前記距離情報、および分割された背景領域の情報の全て、またはそのいずれかに基づいて、前記背景による被写体の種別の認識に対する影響が低減される特徴量が抽出され、抽出された特徴量に基づいて、前記画像における前景となる被写体の種別が認識される。   In one aspect of the present invention, an image is acquired, and distance information of the subject captured in the image from the imaging device at the time of capturing the image is acquired in pixel units of the image. And based on the distance information, an area is divided into a foreground area as a subject in the image and a background area other than that, and all of the image, the distance information, and information of the divided background area, or Based on either of them, a feature amount that reduces the influence of the background on the recognition of the subject type is extracted, and the type of the subject that is the foreground in the image is recognized based on the extracted feature amount.

本発明の画像処理装置は、独立した装置であっても良いし、画像処理を行うブロックであっても良い。   The image processing apparatus of the present invention may be an independent apparatus or a block that performs image processing.

本発明の一側面によれば、様々な環境下で撮像された画像に含まれる被写体である物体の種別の識別精度を向上させることが可能となる。   According to one aspect of the present invention, it is possible to improve the identification accuracy of the type of an object that is a subject included in images captured under various environments.

本発明を適用した画像処理装置の一実施の形態の構成例を示すブロック図である。It is a block diagram which shows the structural example of one Embodiment of the image processing apparatus to which this invention is applied. 図1の画像処理装置による物体認識処理を説明するフローチャートである。It is a flowchart explaining the object recognition process by the image processing apparatus of FIG. 図1の画像処理装置による物体認識処理を説明する図である。It is a figure explaining the object recognition process by the image processing apparatus of FIG. 図1の画像処理装置による背景影響低減特徴量抽出処理を説明するフローチャートである。3 is a flowchart for explaining background effect reduction feature amount extraction processing by the image processing apparatus of FIG. 1; 図1の画像処理装置による画像加工処理を説明するフローチャートである。3 is a flowchart for explaining image processing by the image processing apparatus of FIG. 1. 図1の画像処理装置による特徴量抽出処理を説明するフローチャートである。It is a flowchart explaining the feature-value extraction process by the image processing apparatus of FIG. 特徴量抽出処理を説明する図である。It is a figure explaining a feature-value extraction process. 本発明を適用した画像処理装置のその他の実施の形態の構成例を示すブロック図である。It is a block diagram which shows the structural example of other embodiment of the image processing apparatus to which this invention is applied. 図8の画像処理装置による背景影響低減特徴量抽出処理を説明するフローチャートである。It is a flowchart explaining the background influence reduction feature-value extraction process by the image processing apparatus of FIG. 本発明を適用した画像処理装置のさらにその他の実施の形態の構成例を示すブロック図である。FIG. 20 is a block diagram illustrating a configuration example of still another embodiment of an image processing device to which the present invention has been applied. 図10の画像処理装置による特徴量抽出処理を説明するフローチャートである。It is a flowchart explaining the feature-value extraction process by the image processing apparatus of FIG. 汎用のパーソナルコンピュータの構成例を説明する図である。And FIG. 11 is a diagram illustrating a configuration example of a general-purpose personal computer.

以下、発明を実施するための最良の形態(以下実施の形態とする)について説明する。尚、説明は以下の順序で行う。
1.第1の実施の形態(画像加工処理と特徴量抽出処理とで認識精度低下を低減する例)
2.第2の実施の形態(特徴量抽出処理のみで認識精度低下を低減する例)
3.第3の実施の形態(画像加工処理のみで認識精度低下を低減する例)
Hereinafter, the best mode for carrying out the invention (hereinafter referred to as an embodiment) will be described. The description will be given in the following order.
1. First embodiment (example in which reduction in recognition accuracy is reduced by image processing processing and feature amount extraction processing)
2. Second embodiment (example in which a reduction in recognition accuracy is reduced only by feature amount extraction processing)
3. Third embodiment (example in which a reduction in recognition accuracy is reduced only by image processing)

<1.第1の実施の形態>
[画像処理装置の構成例]
図1は、本発明を適用した画像処理装置のハードウェアの一実施の形態の構成例を示している。図1の画像処理装置11は、様々な環境下で撮像された画像に含まれる被写体である物体の種別を認識するものである。
<1. First Embodiment>
[Configuration example of image processing apparatus]
FIG. 1 shows a configuration example of an embodiment of hardware of an image processing apparatus to which the present invention is applied. The image processing apparatus 11 in FIG. 1 recognizes the type of an object that is a subject included in images captured under various environments.

画像処理装置11は、画像取得部31、距離検出部32、目標位置検出部33、拡大縮小部34,35、および物体認識部36を備えている。   The image processing apparatus 11 includes an image acquisition unit 31, a distance detection unit 32, a target position detection unit 33, enlargement / reduction units 34 and 35, and an object recognition unit 36.

画像取得部31は、CCD(Charge Coupled Devices)やCMOS(Complementary Metal Oxide Semiconductor)などからなる撮像素子によりリアルタイムに複数の画像をステレオ画像のように撮像して、距離検出部32、および目標位置検出部33に供給する。また、画像取得部31は、リアルタイムに撮像されているステレオ画像に代えて、予め撮像された少なくとも1枚の画像を取得するようにしてもよく、この場合、取得した画像を目標位置検出部33にのみ供給する。   The image acquisition unit 31 captures a plurality of images like a stereo image in real time by an imaging device such as a charge coupled device (CCD) or a complementary metal oxide semiconductor (CMOS), and detects the distance detection unit 32 and target position detection. To the unit 33. The image acquisition unit 31 may acquire at least one image captured in advance, instead of the stereo image captured in real time. In this case, the acquired image is used as the target position detection unit 33. Supply only to.

距離検出部32は、画像取得部31によりステレオ画像などの複数の画像がリアルタイムに撮像される場合、撮像された画像間の対応点探索処理により対応点における視差を求める。そして、距離検出部32は、求められた対応点における視差により撮像された画像に含まれる被写体の画素単位での画像取得部31から被写体までの距離を求めて、距離情報として目標位置検出部33、および拡大縮小部35に供給する。また、距離検出部32は、画像取得部31よりリアルタイムでステレオ画像などが取得できず、予め撮像された画像が供給される場合、画像を用いた手法とは異なる、例えば、TOF(Time of Flight)法などにより撮像時における被写体までの距離を検出し、距離情報として目標位置検出部33、および拡大縮小部35に供給する。さらに、距離検出部32は、画像取得部31により取得された画像が撮像されるタイミングにおいて、例えば、測距センサなどにより検出された画像内の被写体までの撮像位置からの距離の情報を距離情報として取得して、目標位置検出部33、および拡大縮小部35に供給する。   When a plurality of images such as a stereo image are captured in real time by the image acquisition unit 31, the distance detection unit 32 obtains parallax at corresponding points by a corresponding point search process between the captured images. Then, the distance detection unit 32 obtains the distance from the image acquisition unit 31 to the subject in units of pixels of the subject included in the image captured by the parallax at the obtained corresponding point, and the target position detection unit 33 as distance information. And to the enlargement / reduction unit 35. In addition, the distance detection unit 32 cannot acquire a stereo image or the like in real time from the image acquisition unit 31, and is different from a method using an image when a pre-captured image is supplied, for example, TOF (Time of Flight). ) Method to detect the distance to the subject at the time of imaging, and supplies it to the target position detection unit 33 and the enlargement / reduction unit 35 as distance information. Furthermore, the distance detection unit 32 obtains distance information from the imaging position to the subject in the image detected by a distance measuring sensor or the like at the timing when the image acquired by the image acquisition unit 31 is captured, for example. And supplied to the target position detection unit 33 and the enlargement / reduction unit 35.

目標位置検出部33は、画像取得部31より供給されてくる画像、および、距離検出部32により供給されてくる距離情報に基づいて、画像内に存在する目標位置を検出し、目標位置の情報に基づいて画像内の必要領域を切り出して拡大縮小部34に供給する。ここで、目標とは、認識すべき対象となる被写体としての物体であり、目標位置とは、3次元座標空間における目標である被写体の位置を示す座標である。目標位置検出部33は、例えば、画像取得部31が撮像素子である場合、その撮像素子や測距センサから最も近い領域(若しくは点)、または、所定の距離の条件を満たす領域を、逐次モンテカルロ法等の任意の確率モデルを用いた推定等により目標位置として求める。尚、目標位置検出部33は、画像取得部31により取得された画像のうち、必要とされる領域を求めて、求められたその領域を切り出すものであるが、処理領域を特定することが目的であるため、必ずしも必要ではない。特に、取得される画像の被写体の領域が所定領域より大きいことが想定されているような場合などには、その処理は必ずしも必要ではないので、目標位置検出部33は、構成として省略するようにしてもよいものである。   The target position detection unit 33 detects a target position existing in the image based on the image supplied from the image acquisition unit 31 and the distance information supplied from the distance detection unit 32, and information on the target position The necessary area in the image is cut out based on the above and supplied to the enlargement / reduction unit 34. Here, the target is an object as a subject to be recognized, and the target position is a coordinate indicating the position of the subject as a target in the three-dimensional coordinate space. For example, when the image acquisition unit 31 is an image sensor, the target position detection unit 33 sequentially selects a region (or a point) closest to the image sensor or the distance measuring sensor, or a region that satisfies a predetermined distance condition from the Monte Carlo. The target position is obtained by estimation using an arbitrary probability model such as a method. The target position detection unit 33 obtains a required area from the image acquired by the image acquisition unit 31, and cuts out the calculated area. The purpose is to specify a processing area. Therefore, it is not always necessary. In particular, when it is assumed that the area of the subject of the acquired image is larger than the predetermined area, the processing is not necessarily required, so that the target position detection unit 33 is omitted as a configuration. It may be.

拡大縮小部34,35は、画像、および距離情報を処理の必要に応じてサイズを拡大、または縮小して物体認識部36に供給する。より詳細には、拡大縮小部34,35は、ニアレストネイバー法、バイリニア法、バイキュービック法、またはLanczosフィルタ等により画像、および距離情報を拡大、または縮小する。尚、サイズの拡大、または縮小は、必要に応じてなされる処理であるため、拡大縮小部34,35は、拡大または縮小せずにそのままのサイズで出力するようにしてもよい。   The enlargement / reduction units 34 and 35 supply the image and distance information to the object recognition unit 36 with the size enlarged or reduced according to the necessity of processing. More specifically, the enlargement / reduction units 34 and 35 enlarge or reduce the image and distance information by the nearest neighbor method, the bilinear method, the bicubic method, the Lanczos filter, or the like. Note that the enlargement or reduction of the size is a process performed as necessary, and therefore the enlargement / reduction units 34 and 35 may output the same size without enlargement or reduction.

物体認識部36は、拡大縮小部34より供給されてくる画像と、拡大縮小部35より供給されてくる距離情報とに基づいて、画像内の被写体である物体の種別を識別して認識し、認識結果として出力する。より詳細には、物体認識部36は、領域分割部41、背景影響低減特徴量抽出部42、および認識処理部43を備えている。   Based on the image supplied from the enlargement / reduction unit 34 and the distance information supplied from the enlargement / reduction unit 35, the object recognition unit 36 identifies and recognizes the type of the object that is the subject in the image, Output as recognition result. More specifically, the object recognition unit 36 includes a region division unit 41, a background effect reduction feature amount extraction unit 42, and a recognition processing unit 43.

領域分割部41は、拡大縮小部35より供給されてくる距離情報に基づいて、拡大縮小部34より供給されてくる画像を、前景領域、および背景領域に分割し、領域分割情報として背景影響低減特徴量抽出部42に供給する。より具体的には、領域分割部41は、例えば、距離情報に含まれる全画素の距離の中央値を求め、中央値よりも近い距離となる画素を前景領域とし、遠い距離となる画素を背景領域とする。ただし、前景領域および背景領域の分割は、これ以外の手法であっても良く、例えば、所定の距離より近い画素を前景領域とし、これより遠い画素を背景領域としてもよいし、画像セグメンテーション等の任意のオブジェクト抽出と距離を併せて、例えば、所定のオブジェクトの距離よりも近い距離の画素を前景領域とし、それ以外を背景領域とするようにしてもよい。また、領域分割情報は、各画素が、分割されたそれぞれ前景領域または背景領域のいずれに属するのかを示すフラグ情報となる。従って、画像の全領域が前景領域と背景領域の2つの領域に分割される場合、領域分割情報は、前景領域を示すフラグと背景領域を示すフラグで構成される情報となる。さらに、領域分割部41は、前景領域および背景領域以外に距離に応じた更に多くの領域に分割するようにしてもよく、この場合、領域分割情報は、距離に応じて分割される領域を示すフラグで構成される情報となる。   Based on the distance information supplied from the enlargement / reduction unit 35, the region division unit 41 divides the image supplied from the enlargement / reduction unit 34 into a foreground region and a background region, and reduces background influence as region division information. This is supplied to the feature quantity extraction unit 42. More specifically, for example, the region dividing unit 41 obtains the median value of the distances of all the pixels included in the distance information, sets the pixels that are closer than the median as the foreground region, and uses the pixels that are far away as the background. This is an area. However, the foreground area and the background area may be divided by other methods. For example, pixels closer than a predetermined distance may be used as the foreground area, pixels farther than this may be used as the background area, and image segmentation or the like may be used. In combination with the extraction of an arbitrary object and the distance, for example, a pixel having a distance shorter than the distance of a predetermined object may be set as the foreground area, and the other may be set as the background area. The area division information is flag information indicating whether each pixel belongs to the divided foreground area or background area. Accordingly, when the entire area of the image is divided into two areas, the foreground area and the background area, the area division information is information including a flag indicating the foreground area and a flag indicating the background area. Further, the area dividing unit 41 may divide the area into more areas according to the distance in addition to the foreground area and the background area. In this case, the area division information indicates an area to be divided according to the distance. This is information composed of flags.

背景影響低減特徴量抽出部42は、拡大縮小部34より供給される画像、拡大縮小部35より供給される距離情報、および領域分割部41より供給される領域分割情報に基づいて、背景領域の影響により前景領域である物体の種別の認識低下を低減させるための特徴量を抽出して認識処理部43に出力する。より詳細には、背景影響低減特徴量抽出部42は、画像加工部51、および特徴量抽出部52を備えている。   Based on the image supplied from the enlargement / reduction unit 34, the distance information supplied from the enlargement / reduction unit 35, and the region division information supplied from the region division unit 41, the background influence reduction feature amount extraction unit 42 A feature amount for reducing the reduction in recognition of the type of the object that is the foreground region due to the influence is extracted and output to the recognition processing unit 43. More specifically, the background influence reducing feature amount extraction unit 42 includes an image processing unit 51 and a feature amount extraction unit 52.

画像加工部51は、領域分割情報、および距離情報に基づいて、画像のうち、背景領域に属する画素に対して平滑化処理を施す。より詳細には、画像加工部51は、比率計算部61、比率強度計算部62、距離強度計算部63、および平滑化部64を備えている。比率計算部61は、背景領域に属する画素のそれぞれに対応付けて局所領域を設定し、局所領域に属する画素の背景領域に属する画素の割合を比率として求める。比率強度計算部62は、平滑化部64における平滑化の強度を比率計算部61により求められた比率に基づいて比率強度として計算する。距離強度計算部63は、距離情報に基づいて、平滑化部64における平滑化の強度を距離強度として計算する。平滑化部64は、比率強度、および距離強度に対応した強度で、背景領域に属する画素を平滑化する。   Based on the region division information and the distance information, the image processing unit 51 performs a smoothing process on the pixels belonging to the background region in the image. More specifically, the image processing unit 51 includes a ratio calculation unit 61, a ratio intensity calculation unit 62, a distance intensity calculation unit 63, and a smoothing unit 64. The ratio calculation unit 61 sets a local area in association with each pixel belonging to the background area, and obtains the ratio of the pixels belonging to the background area of the pixels belonging to the local area as the ratio. The ratio strength calculation unit 62 calculates the smoothing strength in the smoothing unit 64 as the ratio strength based on the ratio obtained by the ratio calculation unit 61. The distance strength calculation unit 63 calculates the smoothing strength in the smoothing unit 64 as the distance strength based on the distance information. The smoothing unit 64 smoothes pixels belonging to the background region with an intensity corresponding to the ratio intensity and the distance intensity.

特徴量抽出部52は、領域分割情報および距離情報に基づいて、画像加工部51により背景領域が平滑化された画像より、認識処理に必要となる特徴量としてHOG(Histogram of Oriented Gradients)特徴量を抽出する。より詳細には、特徴量抽出部52は、勾配計算部71、比率計算部72、比率重み計算部73、距離重み計算部74、ヒストグラム生成部75、および正規化部76を備えている。勾配計算部71は、画像加工部51より供給されてくる画像における各画素について勾配の大きさと方向を求める。比率計算部72は、比率計算部61と同様に、各画素のそれぞれに対応付けて局所領域を設定し、局所領域に属する画素の背景領域に属する画素の割合を比率として求める。比率重み計算部73は、比率計算部72により計算された比率に基づいて、各画素の勾配の大きさに付加する比率重みを設定する。距離重み計算部74は、距離情報に基づいて、各画素の距離に応じて、各画素の勾配の大きさに付加する距離重みを設定する。ヒストグラム生成部75は、複数の画素からなるセル単位で勾配の方向別に、勾配の大きさに比率重み、および距離重みを付加して度数を求め、求められた度数に基づいてヒストグラムを生成する。正規化部76は、複数のセルからなるブロック単位で、生成されたヒストグラムを正規化し、これをHOG特徴量として認識処理部43に供給する。尚、この例においては、特徴量としてHOG特徴量を抽出する例について説明しているが、物体の認識に利用できる特徴量であれば、これに限るものではなく、例えば、Haar-like特徴量、SIFT特徴量、またはGabor特徴量等などを利用するようにしても良い。   The feature amount extraction unit 52 uses a HOG (Histogram of Oriented Gradients) feature amount as a feature amount necessary for recognition processing from an image obtained by smoothing the background region by the image processing unit 51 based on the region division information and the distance information. To extract. More specifically, the feature amount extraction unit 52 includes a gradient calculation unit 71, a ratio calculation unit 72, a ratio weight calculation unit 73, a distance weight calculation unit 74, a histogram generation unit 75, and a normalization unit 76. The gradient calculation unit 71 obtains the magnitude and direction of the gradient for each pixel in the image supplied from the image processing unit 51. Similar to the ratio calculation unit 61, the ratio calculation unit 72 sets a local area in association with each pixel, and obtains the ratio of the pixels belonging to the background area of the pixels belonging to the local area as the ratio. The ratio weight calculation unit 73 sets a ratio weight to be added to the magnitude of the gradient of each pixel based on the ratio calculated by the ratio calculation unit 72. The distance weight calculation unit 74 sets a distance weight to be added to the gradient of each pixel according to the distance of each pixel based on the distance information. The histogram generating unit 75 obtains the frequency by adding the ratio weight and the distance weight to the magnitude of the gradient for each gradient direction in a cell unit composed of a plurality of pixels, and generates a histogram based on the obtained frequency. The normalizing unit 76 normalizes the generated histogram for each block composed of a plurality of cells, and supplies this to the recognition processing unit 43 as a HOG feature amount. In this example, an example of extracting a HOG feature value as a feature value is described. However, the feature value is not limited to this as long as the feature value can be used for object recognition. For example, a Haar-like feature value is used. SIFT feature value, Gabor feature value, or the like may be used.

認識処理部43は、背景影響低減特徴量抽出部42より供給されてくる背景影響低減特徴量に基づいて、例えば、SVM(Support Vector Machine)、またはBoostingなどにより物体の種別を識別する認識処理を実行し、認識結果を出力する。   The recognition processing unit 43 performs recognition processing for identifying the type of an object by using, for example, SVM (Support Vector Machine) or Boosting based on the background effect reduction feature amount supplied from the background effect reduction feature amount extraction unit 42. Execute and output the recognition result.

[物体認識処理]
次に、図2のフローチャートを参照して、物体認識処理について説明する。
[Object recognition processing]
Next, the object recognition process will be described with reference to the flowchart of FIG.

ステップS11において、画像取得部31は、被写体となる物体を含む画像を取得して、距離検出部32、および目標位置検出部33に供給する。   In step S <b> 11, the image acquisition unit 31 acquires an image including an object that is a subject and supplies the acquired image to the distance detection unit 32 and the target position detection unit 33.

ステップS12において、距離検出部32は、画像取得部31により取得された画像に含まれる被写体としての物体のそれぞれに対応する画素単位の距離の情報を検出し、目標位置検出部33、および拡大縮小部35に供給する。より詳細には、例えば、画像取得部31が撮像素子を備えており、リアルタイムにステレオ画像などの複数のアングルから同一の被写体を捉えるように撮像する場合、距離検出部32は、複数の画像の対応点探索処理により、その視差を用いて各画素単位で距離を求め、距離情報として検出する。   In step S <b> 12, the distance detection unit 32 detects pixel-unit distance information corresponding to each of the objects as subjects included in the image acquired by the image acquisition unit 31, the target position detection unit 33, and the enlargement / reduction processing To the unit 35. More specifically, for example, when the image acquisition unit 31 includes an image sensor and captures the same subject from a plurality of angles such as a stereo image in real time, the distance detection unit 32 captures the plurality of images. By the corresponding point search process, a distance is obtained for each pixel using the parallax and detected as distance information.

ステップS13において、目標位置検出部33は、画像取得部31より供給されてくる画像、および、距離検出部32により供給されてくる距離情報に基づいて、画像内に存在する目標位置を検出し、ステップS14において、目標位置の情報に基づいて画像内の必要領域を切り出して調整し、拡大縮小部34に供給する。   In step S13, the target position detection unit 33 detects a target position existing in the image based on the image supplied from the image acquisition unit 31 and the distance information supplied from the distance detection unit 32, In step S <b> 14, necessary areas in the image are cut out and adjusted based on the target position information, and supplied to the enlargement / reduction unit 34.

ステップS15において、拡大縮小部34,35は、それぞれ目標位置検出部33により目標位置に基づいて調整された画像、および距離情報を処理に適当なサイズに拡大、または縮小し、物体認識部36に供給する。尚、拡大縮小部34,35より供給されてくるサイズが拡大、または縮小されている画像、および距離情報については、それぞれ処理に適当な領域についてサイズが調整されているのみであるので、以降においては、単に画像、および距離情報と称するものとする。   In step S <b> 15, the enlargement / reduction units 34 and 35 enlarge or reduce the image adjusted by the target position detection unit 33 based on the target position and the distance information to a size suitable for processing, and then send the image to the object recognition unit 36. Supply. Note that the images supplied from the enlargement / reduction units 34 and 35 whose size is enlarged or reduced and the distance information are only adjusted in size for an area suitable for processing, and so on. Are simply referred to as images and distance information.

ステップS16において、物体認識部36における領域分割部41は、距離情報に基づいて、画像を画素単位で前景領域、および背景領域に分割する。より詳細には、領域分割部41は、例えば、各画素について、距離情報に基づいて、所定の距離より近い距離の画素について前景領域に分類し、その他の画素を背景領域に分類することにより、前景領域と背景領域とに分割する。すなわち、例えば、図3の画像A1で示されるような画像が取得されると共に、図3の距離情報A2が検出される場合、図3の領域分割情報A3が求められる。ここで、画像A1は、掌からなる被写体となる物体Z1が背景Z2上に存在する画像である。また、距離情報A2は、掌の物体Z1の存在する領域全体が所定の距離を示す配色Z11で描かれ、背景Z2における空間内の各画素の距離が遠くなるにつれて黒くなるように配色Z12で示されている。さらに、領域分割情報A3は、掌の物体Z1の存在する領域より僅かに背後となる所定の距離より近い掌が白色の前景領域Z21として表示されており、それ以降については、背景領域Z22として示される灰色で示されている。結果として、掌の物体Z1に対応する領域が前景領域Z21として分割され、それ以外が背景領域Z22に分割されている。   In step S16, the region dividing unit 41 in the object recognition unit 36 divides the image into a foreground region and a background region in units of pixels based on the distance information. More specifically, for example, the area dividing unit 41 classifies each pixel as a foreground area based on distance information, and classifies other pixels as background areas by classifying other pixels as background areas. Divide into foreground and background areas. That is, for example, when an image as shown by the image A1 in FIG. 3 is acquired and the distance information A2 in FIG. 3 is detected, the area division information A3 in FIG. 3 is obtained. Here, the image A1 is an image in which an object Z1 that is a subject made up of a palm exists on the background Z2. Further, the distance information A2 is drawn by a color scheme Z12 so that the entire area where the palm object Z1 exists is drawn with a color scheme Z11 indicating a predetermined distance, and becomes black as the distance of each pixel in the space in the background Z2 increases. Has been. Further, in the area division information A3, a palm slightly closer than a predetermined distance behind the area where the palm object Z1 is present is displayed as a white foreground area Z21, and the subsequent area is indicated as a background area Z22. Shown in gray. As a result, the area corresponding to the palm object Z1 is divided as the foreground area Z21, and the other area is divided into the background area Z22.

ステップS17において、背景影響低減特徴量抽出部42は、背景影響低減特徴量抽出処理を実行し、距離情報、および領域分割情報に基づいて、画像より背景影響低減特徴量を抽出する。   In step S <b> 17, the background effect reduction feature value extraction unit 42 executes background effect reduction feature value extraction processing, and extracts a background effect reduction feature value from the image based on the distance information and the region division information.

[背景影響低減特徴量抽出処理]
ここで、図4のフローチャートを参照して、背景影響低減特徴量抽出処理について説明する。背景影響低減特徴量抽出処理は、画像加工部51においてステップS31で実行される画像加工処理と、特徴量抽出部52において、ステップS32で実行される特徴量抽出処理とから構成される。
[Background effect reduction feature extraction processing]
Here, the background influence reduction feature amount extraction processing will be described with reference to the flowchart of FIG. The background effect reduction feature value extraction process includes an image processing process executed in step S31 in the image processing unit 51 and a feature value extraction process executed in step S32 in the feature value extraction unit 52.

[画像加工処理]
ここで、図5のフローチャートを参照して、画像加工処理について説明する。
[Image processing]
Here, the image processing will be described with reference to the flowchart of FIG.

ステップS51において、画像加工部51は、画像を構成する垂直方向の座標、すなわちy座標のカウンタyを0に初期化する。   In step S51, the image processing unit 51 initializes the counter y of the vertical coordinate constituting the image, that is, the y coordinate, to zero.

ステップS52において、画像加工部51は、画像を構成する水平方向の座標、すなわちx座標のカウンタxを0に初期化する。   In step S52, the image processing unit 51 initializes a horizontal coordinate constituting the image, that is, an x coordinate counter x to zero.

ステップS53において、画像加工部51は、距離情報に基づいて、画像上の処理対象である画素I(x,y)が背景領域であるか否かを判定し、例えば、背景領域を示すフラグである場合、処理は、ステップS54に進む。   In step S53, the image processing unit 51 determines whether or not the pixel I (x, y) that is the processing target on the image is a background region based on the distance information. For example, the image processing unit 51 uses a flag indicating the background region. If there is, the process proceeds to step S54.

ステップS54において、画像加工部51は、比率計算部61を制御して、画素I(x,y)に対応する局所領域を設定する。すなわち、比率制御部61は、例えば、処理対象である画素I(x,y)を中心とした6画素×6画素の方形領域を局所領域に設定する。   In step S54, the image processing unit 51 controls the ratio calculation unit 61 to set a local region corresponding to the pixel I (x, y). That is, the ratio control unit 61 sets, for example, a 6 pixel × 6 pixel square area centered on the pixel I (x, y) to be processed as a local area.

ステップS55において、比率計算部61は、局所領域に属する各画素の前景領域に属する画素数と、背景領域に属する画素数との比率qを計算する。   In step S55, the ratio calculator 61 calculates a ratio q between the number of pixels belonging to the foreground area and the number of pixels belonging to the background area of each pixel belonging to the local area.

ステップS56において、画像加工部51は、比率強度計算部62を制御して、処理対象となる画素I(x,y)の平滑化の比率qに基づいた比率強度St_qを計算する。すなわち、例えば、比率qが前景領域の割合が高いことを示している場合、処理対象となる画素I(x,y)の周辺には、物体の認識処理に影響を及ぼす背景領域の画素が少ないと考えられるため、比率強度計算部62は、比率強度St_qを弱くするように計算する。一方、比率qが背景領域の割合が高いことを示している場合、処理対象となる画素I(x,y)の周辺には、物体の認識処理に影響を及ぼす背景領域の画素が多いと考えられるため、比率強度計算部62は、比率強度St_qを強くするように計算する。   In step S56, the image processing unit 51 controls the ratio intensity calculation unit 62 to calculate the ratio intensity St_q based on the smoothing ratio q of the pixel I (x, y) to be processed. That is, for example, when the ratio q indicates that the ratio of the foreground region is high, there are few pixels in the background region that affect the object recognition processing around the pixel I (x, y) to be processed. Therefore, the ratio strength calculation unit 62 calculates the ratio strength St_q to be weak. On the other hand, when the ratio q indicates that the ratio of the background region is high, it is considered that there are many pixels in the background region that affect the object recognition processing around the pixel I (x, y) to be processed. Therefore, the ratio strength calculation unit 62 performs calculation so as to increase the ratio strength St_q.

ステップS57において、画像加工部51は、距離強度計算部63を制御して、処理対象となる画素I(x,y)の平滑化の距離情報の距離に基づいた距離強度kkを計算する。すなわち、処理対象である画素I(x,y)の距離が遠いほど背景領域であると考えられるので、距離強度計算部63は、距離強度St_dを強くするように計算し、逆に、距離が近いほど、距離強度St_dを弱くして平滑化する。   In step S57, the image processing unit 51 controls the distance intensity calculation unit 63 to calculate the distance intensity kk based on the distance of the smoothed distance information of the pixel I (x, y) to be processed. That is, as the distance of the pixel I (x, y) to be processed increases, the distance region is considered to be the background region. Therefore, the distance intensity calculation unit 63 calculates the distance intensity St_d to be stronger, and conversely, the distance is As the distance is closer, the distance strength St_d is weakened and smoothed.

ステップS58において、画像加工部51は、平滑化部64を制御して、比率強度St_qおよび距離強度St_dに対応した強度で、処理対象である画素I(x,y)を平滑化する。このように、平滑化の強度は、比率qと距離に依存することとなるため、例えば、平滑化部64は、比率強度St_qおよび距離強度St_dの乗算結果St_q×St_dに基づいて、平滑化の強度を設定するようにしてもよい。   In step S58, the image processing unit 51 controls the smoothing unit 64 to smooth the pixel I (x, y) to be processed with an intensity corresponding to the ratio intensity St_q and the distance intensity St_d. As described above, since the smoothing strength depends on the ratio q and the distance, for example, the smoothing unit 64 performs the smoothing based on the multiplication result St_q × St_d of the ratio strength St_q and the distance strength St_d. The strength may be set.

一方、ステップS53において、処理対象となる画素I(x,y)が背景領域のフラグではないと判定された場合、ステップS54乃至S58の処理はスキップされる。   On the other hand, if it is determined in step S53 that the pixel I (x, y) to be processed is not a background region flag, the processing in steps S54 to S58 is skipped.

例えば、処理対象の画素I(x,y)が、図3の分割領域情報A4における画素B1である場合、画素B1は、前景領域に属するため、ステップS53において、処理対象となる画素が背景領域のフラグではないと判定されて、ステップS54乃至S58の処理がスキップされる。   For example, when the pixel I (x, y) to be processed is the pixel B1 in the divided region information A4 in FIG. 3, the pixel B1 belongs to the foreground region, and therefore, in step S53, the pixel to be processed is the background region. It is determined that the flag is not, and the processing of steps S54 to S58 is skipped.

一方、例えば、処理対象の画素I(x,y)が、図3の分割領域情報A4における画素B2またはB3である場合、画素B2,B3は、背景領域に属すので、局所領域Z102,Z103における背景領域の割合に基づいて、それぞれが平滑化される。すなわち、局所領域Z103は、全てが背景領域であるが、局所領域Z102は、一部のみが背景領域である。このため、画素B3は、画素B2よりも、より強い強度で平滑化されることになる。   On the other hand, for example, when the pixel I (x, y) to be processed is the pixel B2 or B3 in the divided region information A4 in FIG. 3, the pixels B2 and B3 belong to the background region, and thus in the local regions Z102 and Z103. Each is smoothed based on the proportion of the background area. That is, all of the local area Z103 is a background area, but only a part of the local area Z102 is a background area. For this reason, the pixel B3 is smoothed with a stronger intensity than the pixel B2.

ステップS59において、画像加工部51は、画像を構成する水平方向の座標、すなわちx座標のカウンタxを1インクリメントする。   In step S59, the image processing unit 51 increments the horizontal coordinate constituting the image, that is, the x-coordinate counter x by one.

ステップS60において、画像加工部51は、カウンタxが画像の水平方向のサイズSxよりも小さいか否かを判定し、小さいと判定した場合、処理は、ステップS53に戻る。すなわち、カウンタxが水平方向のサイズSxよりも小さくなるまで、ステップS53乃至S60の処理が繰り返される。そして、ステップS60において、カウンタxが水平方向のサイズSxよりも小さいと判定された場合、処理は、ステップS61に進む。   In step S60, the image processing unit 51 determines whether or not the counter x is smaller than the horizontal size Sx of the image. If it is determined that the counter x is smaller, the process returns to step S53. That is, the processes in steps S53 to S60 are repeated until the counter x becomes smaller than the horizontal size Sx. If it is determined in step S60 that the counter x is smaller than the horizontal size Sx, the process proceeds to step S61.

ステップS61において、画像加工部51は、画像を構成する水平方向の座標、すなわちx座標のカウンタxを1インクリメントする。   In step S61, the image processing unit 51 increments a horizontal coordinate constituting the image, that is, an x-coordinate counter x by one.

ステップS62において、画像加工部51は、カウンタyが画像の垂直方向のサイズSyよりも小さいか否かを判定し、小さいと判定した場合、処理は、ステップS52に戻る。すなわち、カウンタyが垂直方向のサイズSyよりも小さくなるまで、ステップS52乃至S62の処理が繰り返される。そして、ステップS62において、カウンタyが垂直方向のサイズSyよりも小さいと判定された場合、処理は、終了する。   In step S62, the image processing unit 51 determines whether or not the counter y is smaller than the vertical size Sy of the image. If it is determined that the counter y is smaller, the process returns to step S52. That is, the processes in steps S52 to S62 are repeated until the counter y is smaller than the vertical size Sy. If it is determined in step S62 that the counter y is smaller than the vertical size Sy, the process ends.

すなわち、領域分割情報に基づいて、背景領域に対応する画素については、局所領域における背景領域と前景領域との比率、および距離情報の距離に対応した強度で平滑化される。この結果、物体の種別の認識に影響を与える背景領域の画素による影響が低減されることになり、後段において、認識処理に影響を与える背景領域の画素の影響が低減された画像から特徴量が抽出されることになるので、物体の種別の認識処理における認識率を向上させることが可能となる。尚、平滑化の強度については、比率のみで制御するようにしても、距離のみで制御するようにしても、背景領域による認識処理の認識精度の低減を抑制する効果を奏する事ができるので、いずれかのみで平滑化の強度を制御するようにしても良い。   That is, on the basis of the area division information, the pixels corresponding to the background area are smoothed with the intensity corresponding to the distance between the background area and the foreground area in the local area and the distance information. As a result, the influence of the pixels in the background area that affects the recognition of the object type is reduced, and in the subsequent stage, the feature amount is extracted from the image in which the influence of the pixels in the background area that affects the recognition process is reduced. As a result, the recognition rate in the object type recognition process can be improved. Note that the smoothing intensity can be controlled only by the ratio or by the distance alone, so that the effect of suppressing the reduction of the recognition accuracy of the recognition process by the background region can be achieved. You may make it control the intensity | strength of smoothing only by either.

[特徴量抽出処理]
次に、図6のフローチャートを参照して、特徴量抽出処理について説明する。
[Feature extraction processing]
Next, the feature amount extraction processing will be described with reference to the flowchart of FIG.

ステップS71において、特徴量抽出部52は、画像を構成する垂直方向の座標、すなわちy座標のカウンタyを0に初期化する。   In step S <b> 71, the feature amount extraction unit 52 initializes the counter y of the vertical coordinate constituting the image, that is, the y coordinate, to 0.

ステップS72において、特徴量抽出部52は、画像を構成する水平方向の座標、すなわちx座標のカウンタxを0に初期化する。   In step S72, the feature amount extraction unit 52 initializes a horizontal coordinate constituting the image, that is, an x coordinate counter x to zero.

ステップS73において、特徴量抽出部52は、勾配計算部71を制御して、処理対象となる画素I(x,y)について勾配の角度および大きさを計算させる。より詳細には、例えば、処理対象画素I(x,y)が、図7の画素C1である場合、勾配計算部71は、その垂直方向131に隣接する画素I(x,y+1),I(x,y−1)および水平方向132に隣接する画素I(x+1,y),I(x−1,y)を用いて、以下の式(1)を計算することにより勾配を求める。尚、図7の左上部においては、処理対象となる画素I(x,y)の勾配の配置が示されており、図7の中央上部にいては、処理対象画素C1である画素121を含むm画素×n画素からなるセル102の構成例が示されている。さらに、図7の右上部においては、セル102に対応するセル111がM個×N個からなるブロック101の構成例が示されており、下部には、セル102を構成する各画素の勾配の方向L1乃至LL毎の度数からなるヒストグラム103の例が示されている。   In step S73, the feature amount extraction unit 52 controls the gradient calculation unit 71 to calculate the angle and magnitude of the gradient for the pixel I (x, y) to be processed. More specifically, for example, when the processing target pixel I (x, y) is the pixel C1 in FIG. 7, the gradient calculating unit 71 sets the pixels I (x, y + 1) and I ( The gradient is obtained by calculating the following equation (1) using x, y−1) and the pixels I (x + 1, y) and I (x−1, y) adjacent in the horizontal direction 132. In the upper left part of FIG. 7, the gradient arrangement of the pixel I (x, y) to be processed is shown. In the upper center part of FIG. 7, the pixel 121 that is the processing target pixel C <b> 1 is included. A configuration example of the cell 102 composed of m pixels × n pixels is shown. Further, in the upper right part of FIG. 7, an example of the configuration of the block 101 having M × N cells 111 corresponding to the cell 102 is shown, and in the lower part, the gradient of each pixel constituting the cell 102 is shown. An example of the histogram 103 including the frequencies for the directions L1 to LL is shown.

Figure 2011253354
Figure 2011253354

ここで、gx(x,y),gy(x,y)は、それぞれ水平方向の勾配、および垂直方向の勾配である。   Here, gx (x, y) and gy (x, y) are a horizontal gradient and a vertical gradient, respectively.

そして、勾配計算部71は、以下の式(2),式(3)を計算することにより、それぞれ勾配の大きさ、および角度を計算する。   And the gradient calculation part 71 calculates the magnitude | size and angle of a gradient, respectively by calculating the following formula | equation (2) and Formula (3).

Figure 2011253354
Figure 2011253354
Figure 2011253354
Figure 2011253354

ここr(x,y)は、勾配の大きさであり、θ(x,y)は、勾配の角度を示している。   Here, r (x, y) is the magnitude of the gradient, and θ (x, y) indicates the angle of the gradient.

ステップS74において、特徴量抽出部52は、比率計算部72を制御して、画像上の処理対象である画素I(x,y)に対応する局所領域を設定する。すなわち、ステップS74の処理により、比率計算部72は、例えば、処理対象である画素I(x,y)を中心とした近傍のu画素×v画素の方形領域を局所領域に設定する。   In step S74, the feature amount extraction unit 52 controls the ratio calculation unit 72 to set a local region corresponding to the pixel I (x, y) that is the processing target on the image. That is, by the processing in step S74, the ratio calculation unit 72 sets, for example, a square region of neighboring u pixels × v pixels centered on the pixel I (x, y) to be processed as a local region.

ステップS75において、比率計算部72は、局所領域に属する各画素の前景領域に属する画素数と、背景領域に属する画素数との比率qを計算する。   In step S75, the ratio calculation unit 72 calculates a ratio q between the number of pixels belonging to the foreground area and the number of pixels belonging to the background area of each pixel belonging to the local area.

ステップS76において、特徴量抽出部52は、比率重み計算部73を制御して、比率qに基づいて比率重みwkを計算させる。   In step S76, the feature amount extraction unit 52 controls the ratio weight calculation unit 73 to calculate the ratio weight wk based on the ratio q.

ステップS77において、特徴量抽出部52は、距離重み計算部74を制御して、距離情報における処理対象となる画素I(x,y)の距離に基づいて、距離重みwdを計算させる。   In step S77, the feature amount extraction unit 52 controls the distance weight calculation unit 74 to calculate the distance weight wd based on the distance of the pixel I (x, y) to be processed in the distance information.

ステップS78において、特徴量抽出部52は、画像を構成する水平方向の座標、すなわちx座標のカウンタxを1インクリメントする。   In step S78, the feature quantity extraction unit 52 increments the horizontal coordinate constituting the image, that is, the x-coordinate counter x by one.

ステップS79において、特徴量抽出部52は、カウンタxが画像の水平方向のサイズSxよりも小さいか否かを判定し、小さいと判定した場合、処理は、ステップS73に戻る。すなわち、カウンタxが水平方向のサイズSxよりも小さくなるまで、ステップS73乃至S79の処理が繰り返される。そして、ステップS79において、カウンタxが水平方向のサイズSxよりも小さいと判定された場合、処理は、ステップS80に進む。   In step S79, the feature amount extraction unit 52 determines whether or not the counter x is smaller than the horizontal size Sx of the image. If it is determined that the counter x is smaller, the process returns to step S73. That is, the processes in steps S73 to S79 are repeated until the counter x becomes smaller than the horizontal size Sx. If it is determined in step S79 that the counter x is smaller than the horizontal size Sx, the process proceeds to step S80.

ステップS80において、特徴量抽出部52は、画像を構成する水平方向の座標、すなわちx座標のカウンタxを1インクリメントする。   In step S80, the feature amount extraction unit 52 increments the horizontal coordinate constituting the image, that is, the x-coordinate counter x by one.

ステップS81において、特徴量抽出部52は、カウンタyが画像の垂直方向のサイズSyよりも小さいか否かを判定し、小さいと判定した場合、処理は、ステップS72に戻る。すなわち、カウンタyが垂直方向のサイズSyよりも小さくなるまで、ステップS72乃至S81の処理が繰り返される。そして、ステップS81において、カウンタyが垂直方向のサイズSyよりも小さいと判定された場合、処理は、ステップS82に進む。   In step S81, the feature quantity extraction unit 52 determines whether or not the counter y is smaller than the size Sy in the vertical direction of the image. If it is determined that the counter y is smaller, the process returns to step S72. That is, the processes in steps S72 to S81 are repeated until the counter y is smaller than the vertical size Sy. If it is determined in step S81 that the counter y is smaller than the vertical size Sy, the process proceeds to step S82.

ステップS82において、ヒストグラム生成部75は、未処理のセルを処理対象のセルに設定する。すなわち、図7の中央上部で示されるように、複数の画素群からなるセルを画像内に設定し、そのうち、未処理のセルを処理対象のセルに設定する。尚、図7の中央上部においては、m画素×n画素のセル102が設定される例が示されている。   In step S82, the histogram generation unit 75 sets an unprocessed cell as a cell to be processed. That is, as shown in the upper center portion of FIG. 7, a cell composed of a plurality of pixel groups is set in the image, and an unprocessed cell is set as a processing target cell. In the upper center of FIG. 7, an example in which a cell 102 of m pixels × n pixels is set is shown.

ステップS83において、ヒストグラム生成部75は、処理対象となるセルにおける勾配の方向毎の比率重みwk、および距離重みwdを含めた度数を設定する。すなわち、HOG特徴量は、図7の中央上部で示されるセル102の各画素について勾配方向を方向L1乃至LLに分けて、各画素の勾配方向に属する度数から求められるヒストグラムに基づくものである。   In step S83, the histogram generation unit 75 sets the frequency including the ratio weight wk and distance weight wd for each gradient direction in the cell to be processed. That is, the HOG feature amount is based on a histogram obtained from the frequency belonging to the gradient direction of each pixel by dividing the gradient direction into directions L1 to LL for each pixel of the cell 102 shown in the upper center of FIG.

すなわち、ヒストグラム生成部75は、以下の式(4)で示されるように、各画素の勾配方向Llの度数fl’を設定する。   That is, the histogram generation unit 75 sets the frequency fl ′ in the gradient direction L1 of each pixel as represented by the following expression (4).

Figure 2011253354
Figure 2011253354

ここで、fl’は、方向Llの度数であり、wkは、ステップS76の処理で求められた各画素の局所領域における前景領域と背景領域との比率に基づいた比率重みである。また、wdは、ステップS77の処理で求められた各画素の距離情報の距離に応じて設定される距離重みであり、rl(x,y)は、勾配の大きさである。   Here, fl ′ is the frequency in the direction L1, and wk is a ratio weight based on the ratio between the foreground area and the background area in the local area of each pixel obtained in the process of step S76. Further, wd is a distance weight set according to the distance of the distance information of each pixel obtained in step S77, and rl (x, y) is the magnitude of the gradient.

すなわち、比率重みwkは、以下の式(5)で設定される前景領域と背景領域との比率bに基づいて設定されている。   That is, the ratio weight wk is set based on the ratio b between the foreground area and the background area set by the following equation (5).

Figure 2011253354
Figure 2011253354

ここで、δ(D)は、以下の式(6)で設定される領域分割情報D(x,y)を一般化した関数である。また、u,vは、局所領域がu画素×v画素の領域であることを示している。   Here, δ (D) is a generalized function of the region division information D (x, y) set by the following equation (6). U and v indicate that the local area is an area of u pixels × v pixels.

Figure 2011253354
Figure 2011253354

ここで、すなわち、関数δ(D)は、前景領域では1であり、背景領域では0となる関数である。   In other words, the function δ (D) is a function that is 1 in the foreground area and 0 in the background area.

例えば、比率重みwkをk段階設定する場合、比率重み計算部73は、これらの条件に基づいて、例えば、以下の式(7)で示されるように重みを含めた度数を設定する。   For example, when the ratio weight wk is set in k stages, the ratio weight calculator 73 sets the frequency including the weight as shown in the following formula (7) based on these conditions, for example.

Figure 2011253354
Figure 2011253354

ここで、th1,th2,・・・,thkは、k段階の重みを設定するための閾値であり、比率重みwk、および閾値thkは、以下の式(8)で示される関係となる。   Here, th1, th2,..., Thk are thresholds for setting k-stage weights, and the ratio weight wk and the threshold thk have a relationship represented by the following expression (8).

Figure 2011253354
Figure 2011253354

すなわち、比率bが大きくなるに連れて、比率重みwkも大きくなり、すなわち、前景領域の比率が大きいほど、比率重みwkは、大きく設定されて、逆に、前景領域の比率が小さいほど、比率重みwkは小さく設定される。このため、物体の識別に影響を及ぼす背景領域の画素によるヒストグラムの度数が軽減されるように比率重みwkが設定されるので、特徴量より背景領域の画素による影響を排除し、認識精度を向上させることが可能となる。   That is, as the ratio b increases, the ratio weight wk also increases. That is, as the ratio of the foreground area increases, the ratio weight wk is set larger. Conversely, as the ratio of the foreground area decreases, the ratio weight wk increases. The weight wk is set small. For this reason, the ratio weight wk is set so that the frequency of the histogram by the pixels in the background area that affects the object identification is reduced, so that the influence of the pixels in the background area is eliminated from the feature amount and the recognition accuracy is improved. It becomes possible to make it.

同様に、距離重みwdは、各画素について、距離情報に応じて、距離が大きいほど小さく設定され、逆に、距離が小さいほど大きく設定される。このため、やはり、物体の識別に影響を及ぼす背景領域の画素によるヒストグラムの度数が軽減されるように距離重みwdが設定されるので、特徴量より背景領域の画素による影響を排除し、認識精度を向上させることが可能となる。   Similarly, the distance weight wd is set to be smaller as the distance is larger for each pixel, and conversely, is set to be larger as the distance is smaller. For this reason, the distance weight wd is set so that the frequency of the histogram of the pixels in the background area that affects the object identification is reduced, so that the influence of the pixels in the background area is eliminated from the feature amount, and the recognition accuracy is reduced. Can be improved.

ステップS84において、ヒストグラム生成部75は、このようにして求められた比率重みwk、および距離重みwdを含む度数に基づいて、処理対象となるセル単位でヒストグラムを生成する。すなわち、ヒストグラムは、各画素の勾配方向を、所定数に分類し、分類される勾配方向毎の度数の和であり、例えば、以下の式(9)で示される。   In step S84, the histogram generation unit 75 generates a histogram for each cell to be processed based on the frequency including the ratio weight wk and the distance weight wd thus determined. That is, the histogram is a sum of the frequency for each gradient direction classified into a predetermined number of gradient directions of each pixel, and is represented by the following equation (9), for example.

Figure 2011253354
Figure 2011253354

ここで、Fは、各セルのヒストグラムであり、fL1,fL2、・・・fLLは、各勾配方向LL毎の度数を示している。   Here, F is a histogram of each cell, and fL1, fL2,... FLL indicates the frequency for each gradient direction LL.

ステップS85において、ヒストグラム生成部75は、未処理のセルが存在するか否かを判定し、未処理のセルが存在する場合、処理は、ステップS82に戻る。すなわち、全てのセルについてヒストグラムが生成されるまで、ステップS82乃至S85の処理が繰り返される。そして、ステップS85において、全てのセルについてヒストグラムが求められ、未処理のセルが存在しないと判定された場合、処理は、ステップS86に進む。   In step S85, the histogram generation unit 75 determines whether there is an unprocessed cell. If there is an unprocessed cell, the process returns to step S82. That is, the processes in steps S82 to S85 are repeated until histograms are generated for all cells. In step S85, histograms are obtained for all the cells, and if it is determined that there are no unprocessed cells, the process proceeds to step S86.

ステップS86において、正規化部76は、未処理のブロックを処理対象のブロックに設定する。すなわち、ブロックは、複数のセルからなる領域であり、例えば、図7の右上部のようにセルがM個×N個の領域である。   In step S86, the normalization unit 76 sets an unprocessed block as a processing target block. That is, the block is an area composed of a plurality of cells. For example, the block is an area of M × N cells as shown in the upper right part of FIG.

ステップS87において、正規化部76は、求められたセル単位で求められたヒストグラムを各セルを中心として設定される処理対象のブロック単位で正規化し、ブロック単位で正規化されたヒストグラムによりHOG特徴量を生成し、認識処理部43に出力する。すなわち、セル単位で設定されるブロック単位のヒストグラムVは、以下の式(10)となる。   In step S87, the normalizing unit 76 normalizes the obtained histogram in units of cells, in units of blocks to be processed set around each cell, and uses the normalized histogram in units of blocks to generate HOG feature values. Is output to the recognition processing unit 43. That is, the histogram V in block units set in cell units is expressed by the following equation (10).

Figure 2011253354
Figure 2011253354

正規化部76は、全てのセルに対して、セル単位で設定されるブロック内のヒストグラムVを、以下の式(11)を計算することにより正規化する。この結果、各セル毎に設定されるブロック単位の正規化結果がHOG特徴量として求められることになる。   The normalization unit 76 normalizes the histogram V in the block set in cell units for all cells by calculating the following equation (11). As a result, the normalization result in units of blocks set for each cell is obtained as the HOG feature amount.

Figure 2011253354
Figure 2011253354

ここで、Vバーは、ブロック単位のヒストグラムVが正規化されたものを示している。また、εは、ブロック単位のヒストグラムVがゼロとなって発散しないようにさせるための定数である。   Here, the V bar indicates a normalized histogram V in block units. Further, ε is a constant for preventing the histogram V in block units from becoming divergent because it becomes zero.

ステップS88において、正規化部76は、未処理のブロックが存在するか否かを判定し、未処理のブロックが存在する場合、処理は、ステップS86に戻る。すなわち、全てのブロックに対して正規化処理がなされるまで、ステップS86乃至S88の処理が繰り返される。そして、ステップS88において、全てのブロックの正規化処理が終了し、未処理のブロックが存在しないと判定された場合、処理は、終了する。   In step S88, the normalization unit 76 determines whether there is an unprocessed block. If there is an unprocessed block, the process returns to step S86. That is, the processes in steps S86 to S88 are repeated until the normalization process is performed on all blocks. If it is determined in step S88 that the normalization process for all the blocks has been completed and there are no unprocessed blocks, the process ends.

すなわち、画像内が前景領域と背景領域との2種類にしか設定されない場合、比率重みwkは、k=2であるときの処理となる。従って、前景領域および背景領域以外の領域を距離情報に基づいて設定し、k>2とするときも、距離が近い領域の比率が高いほど比率重みwkを大きくすると共に、距離が近い画素についての距離重みwdを大きくすることで、距離の遠い画素、すなわち、背景領域に属しているものとみなされる、認識処理に影響を及ぼす要素を排除することが可能となり、より高い精度で物体の種別を識別して認識することが可能となる。   That is, when only two types of foreground areas and background areas are set in the image, the ratio weight wk is a process when k = 2. Therefore, even when an area other than the foreground area and the background area is set based on the distance information and k> 2, the ratio weight wk is increased as the ratio of the areas close to each other is high, and the pixels with the short distance are set. By increasing the distance weight wd, it is possible to eliminate pixels that are far away from each other, that is, elements that are considered to belong to the background area and that affect the recognition process. It becomes possible to identify and recognize.

ここで、図2のフローチャートに戻る。   Here, it returns to the flowchart of FIG.

ステップS18において、認識処理部43は、上述した処理により供給されてきた背景影響低減特徴量に基づいて、例えば、SVM(Support Vector Machine)、またはBoostingなどにより画像に含まれる物体の種別を識別して認識し、認識結果を出力する。   In step S18, the recognition processing unit 43 identifies the type of the object included in the image by, for example, SVM (Support Vector Machine) or Boosting based on the background effect reduction feature amount supplied by the above-described processing. Recognize and output the recognition result.

以上の処理により、画像における背景領域に属する画素を、局所領域における前景領域と背景領域との比率に応じた強度で平滑化した上で、さらに、各画素について局所領域における前景領域と背景領域との比率に応じて設定される比率重みと、各画素の距離情報に基づいて設定される距離重みとを付して特徴量を抽出するようにした。この結果、物体の認識処理において、認識精度を低減させる背景領域の影響を低減させることが可能となり、物体の認識精度を向上させることが可能となる。   With the above processing, the pixels belonging to the background area in the image are smoothed with an intensity according to the ratio of the foreground area and the background area in the local area, and for each pixel, the foreground area and the background area in the local area The feature amount is extracted by adding the ratio weight set according to the ratio and the distance weight set based on the distance information of each pixel. As a result, in the object recognition process, it is possible to reduce the influence of the background region that reduces the recognition accuracy, and it is possible to improve the object recognition accuracy.

<2.第2の実施の形態>
[その他の画像処理装置の構成例]
以上においては、画像加工処理、および特徴量抽出処理の両方の処理において、物体の認識精度を低下させる要因となる背景領域の画素による影響を低減させる例について説明してきたが、いずれの処理のみであっても効果を奏するものである。従って、図8で示される画像処理装置11のように、画像加工部51を削除するような構成としても、特徴量抽出処理により背景領域の画素による影響を低減させることが可能である。その場合、背景影響低減特徴量抽出処理は、図9で示されるように、ステップS101で示される特徴量抽出処理のみとなる。尚、特徴量抽出処理については、図6のフローチャートを参照して説明した処理と同様であるので、その説明は省略するものとする。
<2. Second Embodiment>
[Other image processing apparatus configuration examples]
In the above, an example has been described in which both the image processing process and the feature amount extraction process reduce the influence of the pixels in the background region, which causes a reduction in object recognition accuracy. Even if there is, it is effective. Therefore, even if the image processing unit 51 is deleted as in the image processing apparatus 11 shown in FIG. 8, it is possible to reduce the influence of the pixels in the background area by the feature amount extraction processing. In this case, the background effect reduction feature quantity extraction process is only the feature quantity extraction process shown in step S101 as shown in FIG. Note that the feature amount extraction processing is the same as the processing described with reference to the flowchart of FIG.

<3.第3の実施の形態>
[さらにその他の画像処理装置の構成例]
また、図10で示される画像処理装置11のように、画像加工処理のみで物体の認識精度を低下させる要因となる背景領域の画素による影響を低減させるようにしてもよい。すなわち、図10における画像処理装置11においては、背景影響特徴量抽出部52における特徴量抽出部52より比率計算部72、比率重み計算部73、および距離重み計算部74が削除されている。この場合、特徴量抽出処理は、図11で示されるように、図6のステップS75乃至S77の比率重みおよび距離重みを設定する処理が含まれておらず、ステップS130において、比率重みおよび距離重みを考慮しない度数が設定される。尚、図11のフローチャートで示されるステップS121乃至S129,S131乃至S135の処理は、図6のステップS71乃至S74,S78乃至S82,S84乃至S88の処理と同様であるので、その説明は省略する。
<3. Third Embodiment>
[Further configuration example of other image processing apparatus]
Further, as in the image processing apparatus 11 shown in FIG. 10, it is possible to reduce the influence of the pixels in the background area that cause the object recognition accuracy to be lowered only by the image processing. That is, in the image processing apparatus 11 in FIG. 10, the ratio calculation unit 72, the ratio weight calculation unit 73, and the distance weight calculation unit 74 are deleted from the feature amount extraction unit 52 in the background influence feature amount extraction unit 52. In this case, as shown in FIG. 11, the feature amount extraction process does not include the process of setting the ratio weight and distance weight in steps S75 to S77 in FIG. 6, and the ratio weight and distance weight in step S130. A frequency that does not take into account is set. Note that the processing in steps S121 to S129 and S131 to S135 shown in the flowchart of FIG. 11 is the same as the processing of steps S71 to S74, S78 to S82, and S84 to S88 in FIG.

以上によれば、画像に含まれる被写体たる物体の種別を認識する認識処理における認識精度を低減させる要因となる背景領域の要素を排除して特徴量を抽出できるようにしたので、画像に含まれる被写体たる物体の種別を認識する認識精度を向上させることが可能となる。   According to the above, the feature amount can be extracted by excluding the elements of the background area that cause the recognition accuracy in the recognition process for recognizing the type of the object as the subject included in the image, and thus included in the image. It is possible to improve the recognition accuracy for recognizing the type of an object as a subject.

ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。   By the way, the series of processes described above can be executed by hardware, but can also be executed by software. When a series of processing is executed by software, a program constituting the software may execute various functions by installing a computer incorporated in dedicated hardware or various programs. For example, it is installed from a recording medium in a general-purpose personal computer or the like.

図12は、汎用のパーソナルコンピュータの構成例を示している。このパーソナルコンピュータは、CPU(Central Processing Unit)1001を内蔵している。CPU1001にはバス1004を介して、入出力インタ-フェイス1005が接続されている。バス1004には、ROM(Read Only Memory)1002およびRAM(Random Access Memory)1003が接続されている。   FIG. 12 shows a configuration example of a general-purpose personal computer. This personal computer incorporates a CPU (Central Processing Unit) 1001. An input / output interface 1005 is connected to the CPU 1001 via a bus 1004. A ROM (Read Only Memory) 1002 and a RAM (Random Access Memory) 1003 are connected to the bus 1004.

入出力インタ-フェイス1005には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部1006、処理操作画面や処理結果の画像を表示デバイスに出力する出力部1007、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部1008、LAN(Local Area Network)アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部1009が接続されている。また、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini Disc)を含む)、もしくは半導体メモリなどのリムーバブルメディア1011に対してデータを読み書きするドライブ1010が接続されている。   The input / output interface 1005 includes an input unit 1006 including an input device such as a keyboard and a mouse for a user to input an operation command, an output unit 1007 for outputting a processing operation screen and an image of the processing result to a display device, programs, and various types. A storage unit 1008 including a hard disk drive for storing data, a LAN (Local Area Network) adapter, and the like, and a communication unit 1009 for performing communication processing via a network represented by the Internet are connected. Also, a magnetic disk (including a flexible disk), an optical disk (including a CD-ROM (Compact Disc-Read Only Memory), a DVD (Digital Versatile Disc)), a magneto-optical disk (including an MD (Mini Disc)), or a semiconductor A drive 1010 for reading / writing data from / to a removable medium 1011 such as a memory is connected.

CPU1001は、ROM1002に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブルメディア1011から読み出されて記憶部1008にインストールされ、記憶部1008からRAM1003にロードされたプログラムに従って各種の処理を実行する。RAM1003にはまた、CPU1001が各種の処理を実行する上において必要なデータなども適宜記憶される。   The CPU 1001 is read from a program stored in the ROM 1002 or a removable medium 1011 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, installed in the storage unit 1008, and loaded from the storage unit 1008 to the RAM 1003. Various processes are executed according to the program. The RAM 1003 also appropriately stores data necessary for the CPU 1001 to execute various processes.

尚、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理は、もちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理を含むものである。   In this specification, the step of describing the program recorded on the recording medium is not limited to the processing performed in time series in the order described, but of course, it is not necessarily performed in time series. Or the process performed separately is included.

11 画像処理装置, 31 画像取得部, 32 距離検出部, 33 目標位置検出部, 34,35 拡大縮小部, 36 物体認識部, 41 領域分割部, 42 背景影響低減特徴量抽出部, 43 認識処理部, 51 画像加工部, 52 特徴量抽出部, 61 比率計算部, 62 比率強度計算部, 63 距離強度計算部, 64 平滑化部, 71 勾配計算部, 72 比率計算部, 73 比率重み計算部, 74 距離重み計算部, 75 ヒストグラム生成部, 76 正規化部   DESCRIPTION OF SYMBOLS 11 Image processing apparatus, 31 Image acquisition part, 32 Distance detection part, 33 Target position detection part, 34, 35 Enlarging / reducing part, 36 Object recognition part, 41 Area division part, 42 Background influence reduction feature-value extraction part, 43 Recognition processing , 51 image processing unit, 52 feature quantity extraction unit, 61 ratio calculation unit, 62 ratio intensity calculation unit, 63 distance intensity calculation unit, 64 smoothing unit, 71 gradient calculation unit, 72 ratio calculation unit, 73 ratio weight calculation unit , 74 Distance weight calculator, 75 Histogram generator, 76 Normalizer

Claims (7)

画像を取得する画像取得手段と、
前記画像内に撮像されている被写体の、前記画像の撮像時の撮像機器からの距離の情報を、前記画像の画素単位で取得する距離取得手段と、
前記画像、および前記距離情報に基づいて、前記画像における被写体となる前景領域と、それ以外の背景領域とに領域を分割する領域分割手段と、
前記画像、前記距離情報、および前記領域分割手段により分割された背景領域の情報の全て、またはそのいずれかに基づいて、前記背景による被写体の種別の認識に対する影響を低減する特徴量を抽出する背景影響低減特徴量抽出手段と、
前記背景影響低減特徴量抽出手段により抽出された特徴量に基づいて、前記画像における前景となる被写体の種別を認識する認識手段と
を含む画像処理装置。
Image acquisition means for acquiring images;
Distance acquisition means for acquiring information on the distance of the subject imaged in the image from the imaging device at the time of imaging of the image in units of pixels of the image;
Area dividing means for dividing the area into a foreground area as a subject in the image and a background area other than the image based on the image and the distance information;
A background for extracting a feature amount that reduces the influence of the background on the recognition of the type of the subject based on the image, the distance information, and / or all of the background area information divided by the area dividing unit. An influence reduction feature amount extraction means;
An image processing apparatus comprising: a recognizing unit that recognizes a type of a subject as a foreground in the image based on the feature amount extracted by the background effect reducing feature amount extracting unit.
前記背景影響低減特徴量抽出手段は、
前記画像、および前記領域分割手段により分割された背景領域の情報に基づいて、前記画像のうち、前記背景領域に対応する画素を平滑化する平滑化手段を含み、
前記平滑化手段により前記背景領域に対応する画素が平滑化された画像より、前記背景による被写体の種別の認識に対する影響を低減する特徴量を抽出する
請求項1に記載の画像処理装置。
The background influence reducing feature amount extraction means includes:
Smoothing means for smoothing pixels corresponding to the background area of the image based on the image and information on the background area divided by the area dividing means;
The image processing apparatus according to claim 1, wherein a feature amount that reduces an influence on recognition of a subject type by the background is extracted from an image obtained by smoothing pixels corresponding to the background region by the smoothing unit.
前記平滑化手段は、前記領域分割手段により分割された背景領域の画素に対して、その近傍の画素の背景画素と前景画素との比率に応じた強度で画素を平滑化する
請求項2に記載の画像処理装置。
The said smoothing means smoothes a pixel with the intensity | strength according to the ratio of the background pixel of the pixel of the vicinity, and a foreground pixel with respect to the pixel of the background area | region divided | segmented by the said area | region division means. Image processing apparatus.
背景影響低減特徴量抽出手段は、
前記画像の特徴量を抽出する特徴量抽出手段と、
前記画像、および距離情報、前記領域分割手段により分割された背景領域の情報に基づいて、重み設定し、前記特徴量に前記重みを付する重み設定手段とを含み、
前記重み設定手段により設定された重みが付された特徴量を、前記背景による被写体の種別の認識に対する影響を低減する特徴量として抽出する
請求項1に記載の画像処理装置。
The background influence reducing feature amount extraction means
Feature quantity extraction means for extracting the feature quantity of the image;
Weight setting means for setting a weight based on the image, distance information, and information on a background area divided by the area dividing means, and attaching the weight to the feature amount;
The image processing apparatus according to claim 1, wherein the feature amount to which the weight set by the weight setting unit is added is extracted as a feature amount that reduces the influence of the background on recognition of the type of subject.
前記特徴量抽出手段は、HOG特徴量を抽出する
請求項1に記載の画像処理装置。
The image processing apparatus according to claim 1, wherein the feature amount extraction unit extracts a HOG feature amount.
画像を取得する画像取得手段と、
前記画像内に撮像されている被写体の、前記画像の撮像時の撮像機器からの距離の情報を、前記画像の画素単位で取得する距離取得手段と、
前記画像、および前記距離情報に基づいて、前記画像における被写体となる前景領域と、それ以外の背景領域とに領域を分割する領域分割手段と、
前記画像、前記距離情報、および前記領域分割手段により分割された背景領域の情報の全て、またはそのいずれかに基づいて、前記背景による被写体の種別の認識に対する影響を低減する特徴量を抽出する背景影響低減特徴量抽出手段と、
前記背景影響低減特徴量抽出手段により抽出された特徴量に基づいて、前記画像における前景となる被写体の種別を認識する認識手段と
を含む画像処理装置の画像処理方法は、
前記画像取得手段における、前記画像を取得する画像取得ステップと、
前記距離取得手段における、前記画像内に撮像されている被写体の、前記画像の撮像時の撮像機器からの距離の情報を、前記画像の画素単位で取得する距離取得ステップと、
前記領域分割手段における、前記画像、および前記距離情報に基づいて、前記画像における被写体となる前景領域と、それ以外の背景領域とに領域を分割する領域分割ステップと、
前記背景影響低減特徴量抽出手段における、前記画像、前記距離情報、および前記領域分割ステップの処理により分割された背景領域の情報の全て、またはそのいずれかに基づいて、前記背景による被写体の種別の認識に対する影響を低減する特徴量を抽出する背景影響低減特徴量抽出ステップと、
前記認識手段における、前記背景影響低減特徴量抽出ステップの処理により抽出された特徴量に基づいて、前記画像における前景となる被写体の種別を認識する認識ステップと
を含む画像処理方法。
Image acquisition means for acquiring images;
Distance acquisition means for acquiring information on the distance of the subject imaged in the image from the imaging device at the time of imaging of the image in units of pixels of the image;
Area dividing means for dividing the area into a foreground area as a subject in the image and a background area other than the image based on the image and the distance information;
A background for extracting a feature amount that reduces the influence of the background on the recognition of the type of the subject based on the image, the distance information, and / or all of the background area information divided by the area dividing unit. An influence reduction feature amount extraction means;
An image processing method of an image processing apparatus, comprising: a recognition unit that recognizes a type of a subject that is a foreground in the image based on the feature amount extracted by the background effect reduction feature amount extraction unit.
An image acquisition step of acquiring the image in the image acquisition means;
A distance acquisition step of acquiring distance information from the imaging device at the time of imaging the image of the subject imaged in the image in the distance acquisition unit, in units of pixels of the image;
A region dividing step of dividing the region into a foreground region to be a subject in the image and a background region other than the image based on the image and the distance information in the region dividing unit;
Based on the background, the distance information, and / or all of the information of the background region divided by the region dividing step in the background influence reducing feature amount extraction unit, the type of the subject by the background is determined. A background effect reduction feature quantity extraction step for extracting a feature quantity that reduces the influence on recognition; and
A recognition step of recognizing the type of the subject as the foreground in the image based on the feature amount extracted by the processing of the background effect reduction feature amount extraction step in the recognition means.
画像を取得する画像取得手段と、
前記画像内に撮像されている被写体の、前記画像の撮像時の撮像機器からの距離の情報を、前記画像の画素単位で取得する距離取得手段と、
前記画像、および前記距離情報に基づいて、前記画像における被写体となる前景領域と、それ以外の背景領域とに領域を分割する領域分割手段と、
前記画像、前記距離情報、および前記領域分割手段により分割された背景領域の情報の全て、またはそのいずれかに基づいて、前記背景による被写体の種別の認識に対する影響を低減する特徴量を抽出する背景影響低減特徴量抽出手段と、
前記背景影響低減特徴量抽出手段により抽出された特徴量に基づいて、前記画像における前景となる被写体の種別を認識する認識手段と
を含む画像処理装置を制御するコンピュータに、
前記画像取得手段における、前記画像を取得する画像取得ステップと、
前記距離取得手段における、前記画像内に撮像されている被写体の、前記画像の撮像時の撮像機器からの距離の情報を、前記画像の画素単位で取得する距離取得ステップと、
前記領域分割手段における、前記画像、および前記距離情報に基づいて、前記画像における被写体となる前景領域と、それ以外の背景領域とに領域を分割する領域分割ステップと、
前記背景影響低減特徴量抽出手段における、前記画像、前記距離情報、および前記領域分割ステップの処理により分割された背景領域の情報の全て、またはそのいずれかに基づいて、前記背景による被写体の種別の認識に対する影響を低減する特徴量を抽出する背景影響低減特徴量抽出ステップと、
前記認識手段における、前記背景影響低減特徴量抽出ステップの処理により抽出された特徴量に基づいて、前記画像における前景となる被写体の種別を認識する認識ステップと
を含む処理を実行させるプログラム。
Image acquisition means for acquiring images;
Distance acquisition means for acquiring information on the distance of the subject imaged in the image from the imaging device at the time of imaging of the image in units of pixels of the image;
Area dividing means for dividing the area into a foreground area as a subject in the image and a background area other than the image based on the image and the distance information;
A background for extracting a feature amount that reduces the influence of the background on the recognition of the type of the subject based on the image, the distance information, and / or all of the background area information divided by the area dividing unit. An influence reduction feature amount extraction means;
A computer that controls an image processing apparatus including: a recognition unit that recognizes a type of a subject that is a foreground in the image based on the feature amount extracted by the background effect reduction feature amount extraction unit;
An image acquisition step of acquiring the image in the image acquisition means;
A distance acquisition step of acquiring distance information from the imaging device at the time of imaging the image of the subject imaged in the image in the distance acquisition unit, in units of pixels of the image;
A region dividing step of dividing the region into a foreground region to be a subject in the image and a background region other than the image based on the image and the distance information in the region dividing unit;
Based on the background, the distance information, and / or all of the information of the background region divided by the region dividing step in the background influence reducing feature amount extraction unit, the type of the subject by the background is determined. A background effect reduction feature quantity extraction step for extracting a feature quantity that reduces the influence on recognition; and
And a recognition step of recognizing the type of the subject as the foreground in the image based on the feature amount extracted by the processing of the background effect reduction feature amount extraction step in the recognition means.
JP2010126779A 2010-06-02 2010-06-02 Image processing apparatus, method and program Withdrawn JP2011253354A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010126779A JP2011253354A (en) 2010-06-02 2010-06-02 Image processing apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010126779A JP2011253354A (en) 2010-06-02 2010-06-02 Image processing apparatus, method and program

Publications (1)

Publication Number Publication Date
JP2011253354A true JP2011253354A (en) 2011-12-15

Family

ID=45417247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010126779A Withdrawn JP2011253354A (en) 2010-06-02 2010-06-02 Image processing apparatus, method and program

Country Status (1)

Country Link
JP (1) JP2011253354A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9378422B2 (en) 2013-10-23 2016-06-28 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
JP2021081965A (en) * 2019-11-19 2021-05-27 株式会社ARISE analytics Image processing system, image processing method, and program
CN113312943A (en) * 2020-02-27 2021-08-27 华为技术有限公司 Video motion recognition method and device
US11138464B2 (en) 2016-11-30 2021-10-05 Nec Corporation Image processing device, image processing method, and image processing program
WO2022113368A1 (en) * 2020-11-30 2022-06-02 株式会社ニコン Image conversion method, program, image conversion device, and image conversion system
WO2023195097A1 (en) * 2022-04-06 2023-10-12 日本電気株式会社 Image processing device, non-transitory computer-readable medium having program for same recorded thereon, and method
WO2024018876A1 (en) * 2022-07-19 2024-01-25 オムロン株式会社 Subject detection device, subject detection method, and subject detection program

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9378422B2 (en) 2013-10-23 2016-06-28 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
US11138464B2 (en) 2016-11-30 2021-10-05 Nec Corporation Image processing device, image processing method, and image processing program
JP2021081965A (en) * 2019-11-19 2021-05-27 株式会社ARISE analytics Image processing system, image processing method, and program
CN113312943A (en) * 2020-02-27 2021-08-27 华为技术有限公司 Video motion recognition method and device
WO2022113368A1 (en) * 2020-11-30 2022-06-02 株式会社ニコン Image conversion method, program, image conversion device, and image conversion system
WO2023195097A1 (en) * 2022-04-06 2023-10-12 日本電気株式会社 Image processing device, non-transitory computer-readable medium having program for same recorded thereon, and method
WO2024018876A1 (en) * 2022-07-19 2024-01-25 オムロン株式会社 Subject detection device, subject detection method, and subject detection program

Similar Documents

Publication Publication Date Title
US8879847B2 (en) Image processing device, method of controlling image processing device, and program for enabling computer to execute same method
Mai et al. Rule of thirds detection from photograph
JP5554984B2 (en) Pattern recognition method and pattern recognition apparatus
EP3168810B1 (en) Image generating method and apparatus
US8805077B2 (en) Subject region detecting apparatus
JP2011253354A (en) Image processing apparatus, method and program
JP2015207280A (en) target identification method and target identification device
JP2016081212A (en) Image recognition device, image recognition method, and image recognition program
JP2000105829A (en) Method and device for face parts image detection
US8923610B2 (en) Image processing apparatus, image processing method, and computer readable medium
US20230334235A1 (en) Detecting occlusion of digital ink
JP2007213377A (en) Facial feature point detection method, device and program
CN110532965B (en) Age identification method, storage medium and electronic device
JP6071002B2 (en) Reliability acquisition device, reliability acquisition method, and reliability acquisition program
JP2011053953A (en) Image processing apparatus and program
US10229498B2 (en) Image processing device, image processing method, and computer-readable recording medium
JP2012083938A (en) Learning device, learning method, identification device, identification method, and program
JP2013037539A (en) Image feature amount extraction device and program thereof
JPWO2017061106A1 (en) Information processing apparatus, image processing system, image processing method, and program
JP2011165170A (en) Object detection device and program
JP2012068948A (en) Face attribute estimating apparatus and method therefor
JP5201184B2 (en) Image processing apparatus and program
JP2014199506A (en) Object detection device, object method of detection, and program
JP2013080389A (en) Vanishing point estimation method, vanishing point estimation device, and computer program
KR101521136B1 (en) Method of recognizing face and face recognition apparatus

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20130806