JP7350208B2 - Image processing device, image processing method, and program - Google Patents
Image processing device, image processing method, and program Download PDFInfo
- Publication number
- JP7350208B2 JP7350208B2 JP2023099538A JP2023099538A JP7350208B2 JP 7350208 B2 JP7350208 B2 JP 7350208B2 JP 2023099538 A JP2023099538 A JP 2023099538A JP 2023099538 A JP2023099538 A JP 2023099538A JP 7350208 B2 JP7350208 B2 JP 7350208B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- learning
- area
- estimation
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 64
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000003384 imaging method Methods 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 description 46
- 239000013598 vector Substances 0.000 description 30
- 238000003860 storage Methods 0.000 description 28
- 239000000203 mixture Substances 0.000 description 22
- 238000013527 convolutional neural network Methods 0.000 description 21
- 238000013500 data storage Methods 0.000 description 20
- 238000011156 evaluation Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 13
- 238000012790 confirmation Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 238000003702 image correction Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Automatic Focus Adjustment (AREA)
- Studio Devices (AREA)
Description
本発明は、画像処理装置、学習装置、フォーカス制御装置、露出制御装置、画像処理方法、学習方法、及びプログラムに関する。 The present invention relates to an image processing device, a learning device, a focus control device, an exposure control device, an image processing method, a learning method, and a program.
近年、画像を領域分割する研究も広く行われている。例えば、画像から人物の領域、自動車の領域、道路の領域、建物の領域、又は空の領域等を切り出すことができる。これは意味的領域分割(Semantic Segmentation)と呼ばれ、分割結果は被写体の種類に対応した画像補正又はシーン解釈等に応用可能である。 In recent years, research on segmenting images into regions has also been widely conducted. For example, a person area, a car area, a road area, a building area, a sky area, or the like can be extracted from an image. This is called semantic segmentation, and the segmentation results can be applied to image correction or scene interpretation depending on the type of subject.
意味的領域分割方法としては、画像を事前にいくつかの領域に分割し、分割された各領域をクラス分類する方法がある。例えば、画像を複数の矩形ブロックに分割し、それぞれのブロックをクラス分類することができる。画像をクラス分類する方法としては、非特許文献1に記載のように、深層学習を用いた分類が広く研究されている。また、例えば非特許文献2に記載の方法を用いて画像を不定形の小領域(superpixel)に分割し、その領域の特徴量及び領域周辺のコンテクスト特徴量を用いて領域をクラス分類することもできる。クラス分類には、学習画像を用いて学習が行われた推定器を用いることができる。
As a semantic region division method, there is a method in which an image is divided into several regions in advance and each divided region is classified into classes. For example, an image can be divided into a plurality of rectangular blocks and each block can be classified into classes. As a method for classifying images, classification using deep learning has been widely studied, as described in Non-Patent
近年では、深層学習を利用した領域分割も研究されている。非特許文献3は、CNN(Convolutional Neural Network)の中間層出力を特徴量として利用し、複数の中間層特徴による画素ごとのクラス判定結果を統合する。この方法では、小領域分割結果を利用することなく、画素ごとに直接クラス判定を行うことができる。 In recent years, region segmentation using deep learning has also been studied. Non-Patent Document 3 uses the intermediate layer output of a CNN (Convolutional Neural Network) as a feature quantity, and integrates the class determination results for each pixel based on a plurality of intermediate layer features. With this method, class determination can be performed directly for each pixel without using the results of subregion division.
従来の方法によれば、画像上のそれぞれの小領域を、被写体の種類に基づいてクラス分類することができた。例えば、各領域の特徴量に基づいて、領域が空を表す領域であるか前景(空以外)の領域であるかを判定することができた。一方、異なる種類の被写体が混在している領域については、適切な判定を行うことが困難であった。例えば、たくさんの木の枝の隙間に空が見えるような複数の領域について判定を行うと、テクスチャが類似しているために、全ての領域について前景であると判定するか、全ての領域について空であると判定してしまう可能性が高かった。 According to the conventional method, each small area on an image could be classified into classes based on the type of subject. For example, based on the feature amount of each region, it was possible to determine whether the region represents the sky or the foreground (other than the sky). On the other hand, it has been difficult to make appropriate determinations in areas where different types of subjects coexist. For example, when determining multiple areas where the sky can be seen between the branches of many trees, it may be determined that all areas are in the foreground because the textures are similar, or all areas are determined to be empty. There was a high possibility that it would be determined that
本発明は、分類結果を用いた処理の精度を向上できるように、画像の各領域のクラス分類を行うことを目的とする。 An object of the present invention is to classify each region of an image into classes so as to improve the accuracy of processing using classification results.
本発明の目的を達成するために、例えば、本発明の画像処理装置は以下の構成を備える。すなわち、
入力画像を取得する取得手段と、
前記入力画像から特徴を抽出する抽出手段と、
前記抽出手段で抽出された前記特徴が入力されると、前記入力画像における特定のクラスに属する領域の面積に対応する情報を推定する推定手段と、を備え、
前記推定手段は、学習画像を使用して学習されたパラメータを用いて推定することを特徴とする。
In order to achieve the object of the present invention, for example, an image processing apparatus of the present invention has the following configuration. That is,
an acquisition means for acquiring an input image;
extraction means for extracting features from the input image;
an estimating means for estimating information corresponding to the area of a region belonging to a specific class in the input image when the feature extracted by the extracting means is input;
The estimation means is characterized in that the estimation is performed using parameters learned using learning images .
本発明によれば、分類結果を用いた処理の精度を向上できるように、画像の各領域のクラス分類を行うことができる。 According to the present invention, each region of an image can be classified into classes so that the accuracy of processing using classification results can be improved.
本発明の一実施形態によれば、入力画像上の識別単位となる所定領域における、複数のクラスの混ざり方(以下、混合状態と呼ぶ)を推定することができる。以下では、推定対象となる領域内の画像のことを対象画像と呼ぶことがある。より具体的には、本発明の一実施形態によれば、対象画像における、互いに異なる属性を持つ領域の混合状態が判定される。それぞれの属性の領域は、同じクラスに属する被写体が占める領域である。すなわち、この属性の領域の1つは、特定のクラスに属する被写体の領域であり、この属性の領域の別の1つは、特定のクラスとは別のクラスに属する被写体の領域である。 According to an embodiment of the present invention, it is possible to estimate how a plurality of classes are mixed (hereinafter referred to as a mixed state) in a predetermined region that is a classification unit on an input image. Below, an image within a region to be estimated may be referred to as a target image. More specifically, according to one embodiment of the present invention, a mixed state of regions having mutually different attributes in a target image is determined. The area of each attribute is an area occupied by subjects belonging to the same class. That is, one of the regions with this attribute is a region of a subject belonging to a specific class, and another one of the regions with this attribute is a region of a subject belonging to a class different from the specific class.
一実施形態によれば、例えばたくさんの木の枝(前景)の隙間に空が見えるような領域について、前景部分と空部分との混合状態(例えば面積比、エッジ面積、又は配置パターン等)を推定することができる。従来の方法で得られるような各領域のクラス情報(例えば前景領域であるか空領域であるかを示す情報)だけでなく、このような混合状態を示す情報を用いることにより、後に画像に対して行う処理の精度を向上させることができる。具体例については各実施形態において詳しく説明する。 According to one embodiment, for example, for an area where the sky is visible between many tree branches (foreground), the mixing state of the foreground part and the sky part (for example, area ratio, edge area, or placement pattern) is determined. It can be estimated. By using not only the class information of each region (for example, information indicating whether it is a foreground region or a sky region) that can be obtained with conventional methods, but also information indicating such a mixed state, it is possible to later apply information to the image. The accuracy of the processing performed can be improved. Specific examples will be described in detail in each embodiment.
以下、本発明の実施形態を図面に基づいて説明する。ただし、本発明の範囲は以下の実形態に限定されるものではない。以下の実施形態においては、図1等に示される各処理部は、コンピュータにより実現してもよいし、専用のハードウェアによって実現してもよい。 Embodiments of the present invention will be described below based on the drawings. However, the scope of the present invention is not limited to the following embodiments. In the following embodiments, each processing unit shown in FIG. 1 and the like may be realized by a computer or by dedicated hardware.
図10は、各実施形態を実現可能なコンピュータの基本構成を示す図である。図10においてプロセッサ101は、例えばCPUであり、コンピュータ全体の動作をコントロールする。メモリ102は、例えばRAMであり、プログラム及びデータ等を一時的に記憶する。コンピュータが読み取り可能な記憶媒体103は、例えばハードディスク又はCD-ROM等であり、プログラム及びデータ等を長期的に記憶する。本実施形態においては、記憶媒体103が格納している、各部の機能を実現するプログラムが、メモリ102へと読み出される。そして、プロセッサ101が、メモリ102上のプログラムに従って動作することにより、各部の機能が実現される。
FIG. 10 is a diagram showing the basic configuration of a computer that can implement each embodiment. In FIG. 10, a
図10において、入力インタフェース104は外部の装置から情報を取得するためのインタフェースである。また、出力インタフェース105は外部の装置へと情報を出力するためのインタフェースである。バス106は、上述の各部を接続し、データのやりとりを可能とする。
In FIG. 10, an
[実施形態1]
図1(A)及び(B)に沿って、実施形態1に係る画像処理装置及び学習装置の基本的な構成を説明する。
[Embodiment 1]
The basic configurations of an image processing device and a learning device according to the first embodiment will be explained along FIGS. 1(A) and 1(B).
最初に、図1(A)に従って、学習装置の装置構成の概要を説明する。本実施形態において学習装置は、後述する画像処理装置が混合状態を認識する処理を行う際に利用する推定器を、事前に用意された学習画像から生成する。学習処理の詳細については後述する。学習データ記憶部5100には、あらかじめ用意された学習データを記憶している。学習データは、学習画像と教師情報とを含む。データ取得部2100は、学習データ記憶部5100から、学習画像と教師情報とを取得する。学習部2200は、特徴抽出部610を用いて、学習画像の所定領域にある、推定器の学習に用いる識別画像の特徴量を抽出する。また、学習部2200は、特徴量から混合状態を推定する推定器の学習を、識別画像の特徴量と教師情報との組み合わせを用いて行う。例えば、学習部2200は、特徴量を入力されると混合状態を示す情報を出力する推定器の学習を行うことができる。ここで、教師情報は、識別画像における、互いに異なる属性の領域間の混合状態を示す情報である。学習により得られた推定器は、推定器記憶部5200に記憶される。具体的には、推定器記憶部5200は、学習により決定された推定器のパラメータを記憶することができる。
First, the outline of the device configuration of the learning device will be explained according to FIG. 1(A). In this embodiment, the learning device generates an estimator that is used when an image processing device (described later) performs a process of recognizing a mixed state, from a training image prepared in advance. Details of the learning process will be described later. The learning
次に、図1(B)に従って、画像処理装置の装置構成の概要を説明する。本実施形態において画像処理装置は、未知の入力画像における混合状態を推定する処理を行う。処理内容の詳細は後述する。画像取得部1100は、入力画像を取得する。推定部1200は、特徴抽出部610を用いて、入力画像の所定領域にある、混合状態の識別対象となる対象画像から特徴量を抽出する。推定部1200が用いる特徴抽出部610は、学習部2200が用いる特徴抽出部610と同様に動作できる。また、推定部1200は、特徴量に基づいて、対象画像における互いに異なる属性を持つ領域の混合状態を推定する。例えば、推定部1200は、あらかじめ学習が行われた推定器620を推定器記憶部5200から読み込み、推定器に特徴量を入力することにより得られた、対象画像における互いに異なる属性の領域間の混合状態を示す情報を、出力部1300に出力する。推定器620は、学習部2200による学習により得られたものでありうる。出力部1300は、推定部1200による推定結果を出力する。
Next, the outline of the device configuration of the image processing device will be explained according to FIG. 1(B). In this embodiment, the image processing device performs a process of estimating a mixing state in an unknown input image. The details of the processing will be described later. The
学習装置のデータ取得部2100及び学習部2200は、同じ計算機上で実現されてもよいし、それぞれ独立したモジュールとして構成されていてもよいし、計算機上で動作するプログラムとして実装されてもよい。学習装置の学習データ記憶部5100及び推定器記憶部5200は、計算機の内部又は外部にあるストレージを用いて実現することができる。
The
画像処理装置の画像取得部1100及び推定部1200は、同じ計算機上で実現されてもよいし、それぞれ独立したモジュールとして構成されていてもよいし、計算機上で動作するプログラムとして実装されてもよい。また、これらはカメラ等の撮影装置内部に回路又はプログラムとして実装されてもよい。
The
画像処理装置は、学習装置と同じ計算機上で実現されてもよいし、別々の計算機上で実現されてもよい。学習装置及び画像処理装置が備える推定器記憶部5200は、同じストレージであってもよいし、異なるストレージであってもよい。異なるストレージを用いる場合、学習装置により推定器記憶部5200に格納された推定器を、画像処理装置が備える推定器記憶部5200にコピー又は移動することができる。
The image processing device may be realized on the same computer as the learning device, or may be realized on a separate computer. The
以下に、本実施形態に係る処理を詳細に説明する。まず、学習装置が行う学習時の処理に関して図2(A)のフローに従って説明する。S2100においてデータ取得部2100は、学習データ記憶部5100から、学習画像と、混合状態の教師情報と、を学習データとして取得する。
The processing according to this embodiment will be described in detail below. First, the processing during learning performed by the learning device will be described according to the flow shown in FIG. 2(A). In S2100, the
学習データ記憶部5100には、あらかじめ複数の学習画像と混合状態の教師情報が記憶されている。学習画像とは、推定器の学習に用いられる画像のことを指す。学習画像は、例えば、デジタルカメラ等で撮影された画像データでありうる。画像データの形式は特に限定されず、例えばJPEG、PNG、又はBMP等でありうる。以下では、用意された学習画像の枚数をN枚とし、n番目の学習画像をIn(n=1・・・N)と表す。
The learning
混合状態の教師情報は、学習画像の所定領域における混合状態を示す。この教師情報は予め用意されており、例えば人間が学習画像を見ながら作成することができる。本実施形態においては、学習画像には識別単位となる複数の領域が設定されており、それぞれの領域について教師情報が用意されている。以下、1つの識別単位となる、学習画像中の所定領域の画像を、識別画像と呼ぶ。 The mixed state teacher information indicates the mixed state in a predetermined region of the learning image. This teacher information is prepared in advance and can be created, for example, by a person while looking at the learning images. In this embodiment, a plurality of regions serving as identification units are set in the learning image, and teacher information is prepared for each region. Hereinafter, an image of a predetermined area in a learning image, which serves as one identification unit, will be referred to as an identification image.
領域の設定方法は特に限定されない。例えば、所定の領域設定パターンに従って、入力画像中に複数の領域を設定することができる。具体例としては、学習画像を所定サイズ(例えば16×16ピクセル)の複数の矩形領域に分割し、それぞれの矩形領域を識別単位として扱うことができる。また、非特許文献2に記載の手法で得られた小領域を識別単位の領域として扱うことができる。一方、学習画像の一部にのみ所定サイズの矩形領域を設定してもよい。なお、学習データ記憶部5100には、所定サイズの識別画像が学習データとして記憶されていてもよい。
The method of setting the area is not particularly limited. For example, multiple regions can be set in the input image according to a predetermined region setting pattern. As a specific example, a learning image can be divided into a plurality of rectangular areas of a predetermined size (for example, 16×16 pixels), and each rectangular area can be treated as an identification unit. Further, the small area obtained by the method described in Non-Patent Document 2 can be treated as an identification unit area. On the other hand, a rectangular area of a predetermined size may be set only in a part of the learning image. Note that the learning
以下に、教師情報が示す混合状態について説明する。画像上の被写体は、複数のクラスに分類することができる。図3は、このようなクラス分類の例を示す。図3(A)には、学習画像500の例を示す。学習画像500には、空、人物、及び植物が写っており、それぞれを異なるクラスに分類することができる。すなわち、図3(B)に示すように、領域541に含まれる画素には「空」のクラスラベルを、領域542に含まれる画素には「人物」のクラスラベルを、領域543に含まれる画素には「植物」のクラスラベルを、それぞれ与えることができる。
The mixed state indicated by the teacher information will be explained below. Objects on images can be classified into multiple classes. FIG. 3 shows an example of such class classification. FIG. 3A shows an example of a
クラス及びクラスラベルの定義は様々であり、クラス分類の方法は特に限定されない。図3の例では、被写体の種類に応じてクラス分類を行った。別のクラスラベルの例としては、肌領域又は髪領域、犬又は猫等の動物、及び自動車又は建物等の人工物、等が挙げられる。工場で用いられる部品A又は部品Bといったような、特定物体を示すクラスラベルを用いることもできる。一方、各画素を主被写体領域と背景領域にクラス分類してもよい。また、光沢面又はマット面といった表面性状の違いや、金属面又はプラスチック面のような素材の違いに応じて、クラス分類を行ってもよい。以下では、クラスは全部でM種類あるものとする。 There are various definitions of classes and class labels, and the method of class classification is not particularly limited. In the example of FIG. 3, class classification was performed according to the type of subject. Examples of other class labels include skin or hair regions, animals such as dogs or cats, and man-made objects such as cars or buildings. A class label indicating a specific object, such as part A or part B used in a factory, can also be used. On the other hand, each pixel may be classified into a main subject area and a background area. Further, classification may be performed according to differences in surface properties such as glossy surfaces or matte surfaces, or differences in materials such as metal surfaces or plastic surfaces. In the following, it is assumed that there are M types of classes in total.
クラスの混合状態とは、対象画像における互いに異なる属性の領域間の混合状態のことである。それぞれの属性の領域は、同じ特定のクラスに属する被写体が占める領域である。互いに異なる属性の領域の一方は、特定のクラスに属する被写体の領域であり、他方は、特定のクラスとは別のクラスに属する被写体の領域である。以下では、あるクラスに属する被写体が占める属性の領域のことを、単にそのクラスに属する領域と呼ぶことがある。また、各画素に写っている被写体のクラスのことを、以下では画素の属性又はクラスと呼ぶことがある。 The mixed state of classes is a mixed state between regions of mutually different attributes in the target image. The area of each attribute is an area occupied by subjects belonging to the same specific class. One of the regions with mutually different attributes is a region of a subject belonging to a specific class, and the other is a region of a subject belonging to a class different from the specific class. Below, an attribute area occupied by a subject belonging to a certain class may be simply referred to as an area belonging to that class. Further, the class of the subject reflected in each pixel may be referred to as the attribute or class of the pixel below.
混合状態の定義はさまざまなものが考えられる。本実施形態では、以下のように混合状態を数値で表すものとする。一実施形態において、混合状態を示す情報は、対象画像における属性の領域の分布に依存して定まる情報である。例えば、混合状態を示す情報は、対象画像における属性の領域のそれぞれの比率を表す情報である。具体例として、混合状態を示す情報は、対象画像において各クラスに属する領域の面積比でありうる。クラスが「空」と「非空」の2クラスである場合について、図4の例を参照して説明する。図4には、学習画像510と、そのクラスラベル520が表されている。クラスラベル520は、クラスが「空」である画素を白で、クラスが「非空」である画素を黒で表す。図4には、学習画像510中の識別画像515に対応するクラスラベル520上の領域525を拡大した、拡大図(526)が示されている。拡大図(526)には、非空領域511と、空領域522とが示されている。このとき、識別画像515の混合状態を、対応する領域525における空領域と非空領域との面積比rで表すことができる。例えば、16×16pixelの矩形領域において、空領域画素が192pixel、非空領域画素が64pixelであった場合には、r=192/256=0.75となる。 There are various possible definitions of mixed state. In this embodiment, the mixed state is expressed numerically as follows. In one embodiment, the information indicating the mixed state is information determined depending on the distribution of attribute regions in the target image. For example, the information indicating the mixed state is information indicating the ratio of each attribute area in the target image. As a specific example, the information indicating the mixed state may be the area ratio of regions belonging to each class in the target image. A case where there are two classes, "empty" and "non-empty", will be described with reference to the example of FIG. 4. FIG. 4 shows a learning image 510 and its class label 520. The class label 520 represents pixels whose class is "empty" in white, and pixels whose class is "non-empty" in black. FIG. 4 shows an enlarged view (526) of an area 525 on the class label 520 corresponding to the identification image 515 in the learning image 510. The enlarged view (526) shows a non-empty area 511 and an empty area 522. At this time, the mixed state of the identification image 515 can be expressed by the area ratio r between the sky area and the non-sky area in the corresponding area 525. For example, in a rectangular area of 16×16 pixels, if the number of empty area pixels is 192 pixels and the number of non-empty area pixels is 64 pixels, r=192/256=0.75.
上の例では2クラスの面積比について説明したが、3つ以上のクラスの面積比を表すこともできる。図5には、学習画像530と、学習画像530中の識別画像535と、識別画像535についてのクラスラベル536が示されている。この例では、学習画像530の各画素は「空」、「植物」、及び「人工物」の3クラスに分類されている。この場合の混合状態は、植物領域531、空領域532、及び人工物領域533の面積比に応じて定めることができる。一例として、この場合に面積比を示す点545を、それぞれのクラスの面積比に応じて、図6(A)に示す座標空間中の単体540(図5の場合三角形)上にプロットすることができる。この点545は、単体の二つの辺を内分する内分比t1及びt2を用いて一意に表すことができるため、このときの面積比を、r=(t1,t2)というベクトルで表すことができる。これは一般M次元においても同様であるため、クラス数Mのときの面積比は、r=(t1,t2,・・・tM-1)というM-1次元のベクトルで一意に表すことができる。なお、前述のような2クラスの場合の面積比は、この一般化された形式においてM=2と設定した場合と同値である。
Although the above example describes the area ratio of two classes, it is also possible to represent the area ratio of three or more classes. FIG. 5 shows a learning image 530, an identification image 535 in the learning image 530, and a class label 536 for the identification image 535. In this example, each pixel of the learning image 530 is classified into three classes: "sky", "plant", and "artificial object". The mixed state in this case can be determined according to the area ratio of the plant area 531, the sky area 532, and the artificial object area 533. As an example, in this case, points 545 indicating the area ratio can be plotted on the simplex 540 (triangle in the case of FIG. 5) in the coordinate space shown in FIG. 6(A) according to the area ratio of each class. can. This
また、上記のように表されるMクラスの面積比を、低次の空間にマッピングして扱ってもよい。例えば、識別画像における面積比をM次元空間にプロットし、SOM(Self-Organizing Map)やLLE(Locally Linear Embedding)を用いて低次の空間にマッピングすることができる。図6(B)は、上記の3クラスの混合比の空間を1次元のSOM550で量子化した例を示す。551はSOM550の始端ノードを表し、552はSOM550の終端ノードを表す。図6(C)は、これらを1次元空間にマッピングすることにより得られる。始端ノードの位置を0、終端ノードの位置を1とし、ノードを均等に配置すると、マップ上の位置を表すスカラ値により面積比を示す点545を表現することができる。例えば、図6(B)に示す面積比を示す点545は、図6(C)上の点546として近似することができ、そして点546のマップ上の位置(この例ではr=0.37)を用いて面積比を表すことができる。マッピング後の次元数は、図6(C)に示すように1次元には限られず、一般的にMの値が大きい場合には1以上の次元RのSOMで近似することができ、その場合rはR次元のベクトルで表すことができる。例えば、クラス数M=5のとき、2次元のSOMで面積比空間を量子化した場合には、rは2次元ベクトルで表すことができる。
Furthermore, the area ratio of the M class expressed as above may be handled by being mapped to a lower-order space. For example, the area ratio in the identification image can be plotted in an M-dimensional space and mapped to a lower-order space using SOM (Self-Organizing Map) or LLE (Locally Linear Embedding). FIG. 6(B) shows an example in which the space of the above three classes of mixture ratios is quantized using a one-
また、Mクラスの面積比を、複数の基底ベクトルの合成ベクトルとして表現してもよい。例えば、さまざまな識別画像から得られたクラス面積比を、主成分分析又はスパースコーディング等を用いて複数の基底ベクトルに分解し、寄与度の大きい少数のベクトルでこれを近似することができる。この場合、面積比空間における面積比は、これら基底ベクトルの合成ベクトルとして表現することができ、そのときの各基底ベクトルに対する重み係数を用いて面積比を表すことができる。 Furthermore, the area ratio of the M class may be expressed as a composite vector of a plurality of basis vectors. For example, class area ratios obtained from various identification images can be decomposed into a plurality of basis vectors using principal component analysis, sparse coding, etc., and this can be approximated by a small number of vectors with a large degree of contribution. In this case, the area ratio in the area ratio space can be expressed as a composite vector of these basis vectors, and the area ratio can be expressed using the weighting coefficient for each basis vector at that time.
別の例として、混合状態を示す情報は、対象画像における互いに異なる属性の領域間の境界に係る情報、例えば対象画像中におけるこの境界を表す画素の比率を表す情報でありうる。一例として、各画素のクラス(例えば空領域又は非空領域)を示す二値画像に対してエッジ検出を行い、得られたエッジ画素数をカウントし、所定領域の画素数とエッジ画素数との比eを用いて混合状態を表すことができる。図4には、クラスラベル526に対するエッジ検出結果527が示されており、検出されたエッジ画素523が表されている。16×16pixelの矩形領域におけるエッジ画素のカウント結果が64である場合、エッジ画素率はe=64/256=0.25と表すことができる。 As another example, the information indicating the mixed state may be information regarding a boundary between regions of mutually different attributes in the target image, for example, information representing the ratio of pixels representing this boundary in the target image. As an example, edge detection is performed on a binary image indicating the class of each pixel (e.g. sky area or non-sky area), the number of obtained edge pixels is counted, and the number of pixels in a predetermined area is compared with the number of edge pixels. The ratio e can be used to represent the mixed state. FIG. 4 shows an edge detection result 527 for a class label 526, and a detected edge pixel 523 is represented. When the count result of edge pixels in a 16×16 pixel rectangular area is 64, the edge pixel ratio can be expressed as e=64/256=0.25.
さらなる別の例として、混合状態を示す情報は、対象画像における属性の領域の配置を表す情報でありうる。例えば、所定領域内における各クラスの画素の配置パターンに従って混合状態を表すことができる。クラス数がM、所定領域の画素数がKである場合、所定領域内の各画素のクラスを、M×K次元の二値ベクトルで表すことができる。例えば、「空」「非空」の2クラスが定義されており、所定領域のサイズが16×16pixelである場合、所定領域内のクラスラベル配置パターンを、2×16×16=512次元の二値ベクトルとして表現することができる。このように識別画像から得られたさまざまな二値ベクトルをベクトル空間上にプロットし、SOM若しくはLLE等を用いて量子化することにより、所定領域におけるクラスラベル配置パターンをベクトルpとして表現することができる。また、識別画像から得られたさまざまな二値ベクトルを主成分分析若しくはスパースコーディング等を用いて基底ベクトルで表現する方法を用いることもできる。 As yet another example, the information indicating the mixed state may be information indicating the arrangement of attribute regions in the target image. For example, a mixed state can be expressed according to the arrangement pattern of pixels of each class within a predetermined area. When the number of classes is M and the number of pixels in a predetermined region is K, the class of each pixel in the predetermined region can be represented by an M×K-dimensional binary vector. For example, if two classes "empty" and "non-empty" are defined and the size of the predetermined area is 16 x 16 pixels, the class label arrangement pattern within the predetermined area is set to a 2 x 16 x 16 = 512-dimensional It can be expressed as a value vector. By plotting various binary vectors obtained from the identification image in this way on a vector space and quantizing them using SOM, LLE, etc., it is possible to express the class label arrangement pattern in a predetermined region as a vector p. can. Alternatively, a method may be used in which various binary vectors obtained from identification images are expressed as basis vectors using principal component analysis, sparse coding, or the like.
図7は、所定領域におけるクラスラベル配置パターンを2次元のSOMを用いてマッピングすることにより得られたマップ900を示す。マップ900において、各四角形はSOMのノードであって、量子化されたクラスラベル配置パターンをそれぞれ表す。SOMの特性上、類似したパターンがマップ上で近い位置に配置される。識別画像におけるクラスラベル配置パターンを、各ノードのパターンとの近さに基づいて、マップ上の位置座標pで表すことができる。例えば図7の2次元SOMの例では、マップ上の位置をp=(p1,p2)の2次元ベクトルで表すことができる。 FIG. 7 shows a map 900 obtained by mapping the class label arrangement pattern in a predetermined area using a two-dimensional SOM. In the map 900, each rectangle is a node of the SOM and represents a quantized class label arrangement pattern. Due to the characteristics of SOM, similar patterns are placed close to each other on the map. The class label arrangement pattern in the identification image can be represented by position coordinates p on the map based on the proximity of each node to the pattern. For example, in the example of the two-dimensional SOM shown in FIG. 7, the position on the map can be represented by a two-dimensional vector p=(p 1 , p 2 ).
このように、混合状態はさまざまな方法で表現することができる。混合状態は、これらの表現のうちいずれか一つを用いて表してもよい。例えば、混合状態を面積比だけで表すのであれば、C=rと定義すればよく、エッジ画素率だけで表わすのであればC=eと表わせばよく、クラスラベル配置パターンだけで表すのであればC=pと定義すればよい。また、混合状態は複数の表現を組み合わせて表してもよい。例えば、混合状態を面積比とエッジ画素率との組み合わせC=(r,e)と定義してもよいし、面積比、エッジ画素率、及びクラスラベル配置パターンの組み合わせC=(r,e,p)と定義してもよい。本発明において、混合状態の表現方法は特に限定されない。 Thus, a mixed state can be expressed in various ways. A mixed state may be expressed using any one of these expressions. For example, if the mixed state is expressed only by the area ratio, it can be defined as C=r, if it is expressed only by the edge pixel ratio, it can be expressed as C=e, and if it is expressed only by the class label arrangement pattern, it can be defined as C=r. It is sufficient to define C=p. Further, a mixed state may be expressed by combining a plurality of expressions. For example, a mixed state may be defined as a combination of area ratio and edge pixel rate C = (r, e), or a combination of area ratio, edge pixel rate, and class label arrangement pattern C = (r, e, p). In the present invention, the method of expressing the mixed state is not particularly limited.
上記のように、混合状態Cは1つ以上の数値で表されるベクトルとして表現することができる。すなわち、一実施形態において得られる混合状態を表す情報は、所定領域における混合状態を表す特徴量であるといえる。混合状態Cを表すベクトルの次元数をLとする。以下では、画像In上の所定領域iにおける混合状態ベクトルをCniと表し、混合状態ベクトルCniのl(l=1,……,L)番目の要素をc(n,i,l)と表す。なお、混合状態は、所定領域において各クラスの画素がどのように混合されているかだけでなく、所定領域が特定の1つのクラスの画素で構成されることを示してもよい。 As mentioned above, the mixed state C can be expressed as a vector represented by one or more numerical values. That is, it can be said that the information representing the mixed state obtained in one embodiment is a feature amount representing the mixed state in a predetermined area. Let L be the number of dimensions of the vector representing the mixed state C. In the following, the mixed state vector in a predetermined area i on the image I n is expressed as C ni , and the l (l=1, ..., L)th element of the mixed state vector C ni is expressed as c (n, i, l). Expressed as Note that the mixed state may indicate not only how the pixels of each class are mixed in the predetermined region, but also that the predetermined region is composed of pixels of one specific class.
本実施形態においては、各学習画像の各画素について図3(B)に示すようにクラスラベルが与えられているものとする。そして、このクラスラベルに基づいて、学習画像から得られるそれぞれの識別画像について、上記のようにスカラ値又はベクトル値として表される混合状態Cが教師情報として予め算出され、学習データ記憶部5100に予め格納されているものとする。しかしながら、データ取得部2100は、識別画像の各画素の属性を示す情報を取得し、各画素の属性を示す情報を用いて混合状態を示す情報を生成することにより、教師情報を取得してもよい。例えば、データ取得部2100は、学習データ記憶部5100に格納されている学習画像の各画素のクラスラベルに基づいて、上記のようにそれぞれの識別画像の混合状態Cを算出することができる。さらに、各学習画像の各画素について図3(B)に示すようにクラスラベルが与えられていることは必須ではない。例えば、学習画像から得られる識別画像を見ながら作業者が入力したこの識別画像の混合状態、又は作業者が入力した情報(エッジ情報など)に基づいて自動的に算出されたこの識別画像の混合状態が、学習データ記憶部5100に予め格納されていてもよい。
In this embodiment, it is assumed that a class label is given to each pixel of each learning image as shown in FIG. 3(B). Then, based on this class label, for each identified image obtained from the learning images, the mixture state C expressed as a scalar value or a vector value as described above is calculated in advance as teacher information, and is stored in the learning
ステップS2200で、学習部2200は、データ取得部2100から識別画像及び混合状態の教師情報を取得して、混合状態を推定する推定器の学習を行う。以下では、推定器としてCNN(Convolutional Neural Network)を利用する場合について説明する。CNNの構成としては従来既知のものを用いることができる。典型的には、CNNは、畳み込み層とプーリング層とを繰り返すことにより入力信号の局所的な特徴を次第にまとめていき、変形や位置ずれに対してロバストな特徴を得ることにより、認識タスクを行うニューラルネットワークである。
In step S2200, the learning unit 2200 acquires the identification image and the teacher information of the mixture state from the
CNNを用いた推定処理の例を、図8(A)を参照しながら説明する。学習部2200は、特徴抽出部610を用いて、推定器の学習に用いる識別画像の特徴量を抽出する。また、学習部2200は、特徴量を入力されると混合状態を示す情報を出力する推定器の学習を、識別画像の特徴量と教師情報との組み合わせを用いて行う。図8(A)は、学習部2200が処理のために用いることができるCNNの一例を示す。図8(A)には、特徴抽出部610が行う処理に相当する部分が示されており、これは特徴抽出を行うCNNの畳み込み層に相当する。また、図8(A)には、学習を行う推定器620に相当する部分が示されており、これはパターン推定を行うCNNの完全結合層に相当する。 An example of estimation processing using CNN will be described with reference to FIG. 8(A). The learning unit 2200 uses the feature extraction unit 610 to extract the feature amount of the identification image used for learning the estimator. Further, the learning unit 2200 performs learning of an estimator that outputs information indicating a mixed state when a feature amount is input, using a combination of the feature amount of the identification image and the teacher information. FIG. 8A shows an example of a CNN that the learning unit 2200 can use for processing. FIG. 8A shows a portion corresponding to the processing performed by the feature extraction unit 610, which corresponds to the convolution layer of the CNN that performs feature extraction. Further, FIG. 8A shows a portion corresponding to an estimator 620 that performs learning, and this corresponds to a fully connected layer of a CNN that performs pattern estimation.
畳み込み層は、学習画像の部分画像である識別画像630の各位置における畳み込み演算結果を信号として受け取る入力層611を有する。入力層611からの信号は、畳み込み層とプーリング層とが配置され、畳み込み演算とプーリングによる信号の選択とが繰り返される複数の中間層612,613を介して、最終層615へと送られる。特徴抽出部610の最終層615からの出力信号は、推定器620へと送られる。以下では、特徴抽出部610の出力信号をXとする。完全結合層では、各層の素子が前後の層と全結合しており、特徴抽出部610から入力された信号は、重み係数を用いた積和演算を介して出力層640へと送られる。出力層640は、混合状態ベクトルCの次元数Lと同数の出力素子を有している。 The convolution layer has an input layer 611 that receives convolution calculation results at each position of the identification image 630, which is a partial image of the learning image, as a signal. The signal from the input layer 611 is sent to the final layer 615 via a plurality of intermediate layers 612 and 613, in which a convolution layer and a pooling layer are arranged, and convolution operations and signal selection by pooling are repeated. The output signal from the final layer 615 of the feature extractor 610 is sent to an estimator 620. In the following, the output signal of the feature extraction unit 610 is assumed to be X. In the fully connected layer, the elements of each layer are fully connected to the previous and succeeding layers, and the signal input from the feature extraction unit 610 is sent to the output layer 640 through a sum-of-products operation using weighting coefficients. The output layer 640 has the same number of output elements as the number of dimensions L of the mixed state vector C.
学習部2200は、推定器の学習を行う際に、学習画像Inの所定領域iから得られた識別画像をCNNに入力した際に、出力層640で得られる出力信号の値を、教師情報と比較する。ここで、学習画像Inの所定領域iを特徴抽出部610に入力して得られた特徴量をXn
i、これを推定器620に入力した結果得られた出力層640におけるl番目の素子の出力信号をyl(Xn
i)とする。また、出力層640のうちl番目の出力素子における教師信号は、混合状態Cniのl番目の要素c(n,i,l)で表される。この場合、出力信号と教師情報との誤差は下記のように計算される。
誤差逆伝搬法を用いて、このように得られた誤差を出力層から入力層へと順次逆伝搬することにより、CNNの学習を行うことができる。例えば、確率的勾配降下法等を用いてCNNにおける各層の重み係数を更新することができる。CNNの重み係数の初期値としては、ランダムな値を用いることもできるし、何らかのタスクに関する学習により得られた重み係数を用いてもよい。例えば、画像分類タスクにおいては画像ごとにクラスラベルが与えられた学習画像を用いるが、領域分割タスクにおいては画素ごとにクラスラベルが与えられた学習画像を用いるため、領域分割タスク用の学習画像を人間が用意するための負荷は大きい。一方、画像分類タスク用の学習画像は一般に公開されており、簡単に入手することができる。例えばILSVRC(ImageNet Large-scale Visual Recognition Challenge)では120万枚の画像分類タスク用の学習画像が公開されている。よって、このような画像分類タスクのためにCNNの学習を行い、この学習により得られた重み係数を初期値として用いて、本実施形態のような混合状態推定タスクのための学習を行ってもよい。 CNN learning can be performed by sequentially backpropagating the errors obtained in this way from the output layer to the input layer using the error backpropagation method. For example, the weighting coefficients of each layer in the CNN can be updated using stochastic gradient descent or the like. As the initial value of the CNN weighting coefficient, a random value may be used, or a weighting coefficient obtained by learning regarding a certain task may be used. For example, an image classification task uses a training image in which a class label is assigned to each image, but a region segmentation task uses a training image in which a class label is assigned to each pixel. The burden on humans to prepare is heavy. On the other hand, training images for image classification tasks are publicly available and can be easily obtained. For example, the ILSVRC (ImageNet Large-scale Visual Recognition Challenge) has released 1.2 million learning images for image classification tasks. Therefore, even if CNN is trained for such an image classification task and the weighting coefficients obtained by this learning are used as initial values, learning for a mixed state estimation task as in this embodiment is performed. good.
ここではCNNを用いた推定器について説明したが、推定器の構成は特に限定されない。図8(B)には、推定部1200が処理のために用いることができる構成の別の一例を示す。図8(B)には、特徴抽出部610が行う処理に相当する部分、及び推定器650が行う処理に相当する部分が示されている。推定器650は、特徴抽出部610における各層の出力信号を連結して得られた一つの特徴量に対する回帰値を与える。推定器650が用いる手法としては、例えばSVR(Support Vector Reggression)やロジスティック回帰等が挙げられるが、特に限定されない。そして、学習画像を用いて、この推定器650が用いる回帰関数の学習を行うことができる。例えば、上記の出力信号と教師情報との誤差に基づく誤差関数を最小化するように、回帰関数の学習を行うことができる。また、図8(A)のような構成を用いてCNNの学習をあらかじめ行っておき、その後にCNNの各層の出力信号に基づく特徴量を使って推定器650のみの学習を行ってもよい。ここで、推定器650を完全結合の多層ニューラルネットワークで構成すれば、図8(A)の構成と同様に、誤差逆伝搬法を用いてCNNと推定器650との学習を同時に行うこともできる。
Although an estimator using CNN has been described here, the configuration of the estimator is not particularly limited. FIG. 8B shows another example of a configuration that can be used by the
また、特徴抽出部610は、HOG又はSIFTのような別の特徴抽出手法を用いて特徴量を抽出することができる。また、推定器は、SVR、ロジスティック回帰、又は多層ニューラルネットワーク等の識別関数を用いて、混合状態の推定を行うことができる。このように、一実施形態においては、特徴抽出手法と推定手法との任意の組み合わせを用いることができる。このような場合にも、従来の方法に従って推定器の学習を行うことができる。ステップS2200における学習により得られた推定器のパラメータは、推定器記憶部5200に記憶される。
Further, the feature extraction unit 610 can extract the feature amount using another feature extraction method such as HOG or SIFT. Additionally, the estimator can perform mixed state estimation using a discriminant function such as SVR, logistic regression, or a multilayer neural network. Thus, in one embodiment, any combination of feature extraction techniques and estimation techniques may be used. Even in such a case, the estimator can be trained according to the conventional method. The estimator parameters obtained through learning in step S2200 are stored in
このようにして学習が行われた推定器を用いて、入力画像の混合状態を識別する方法について、図2(B)のフローチャートを参照して説明する。S1100において、画像取得部1100は、混合状態の識別対象となる入力画像を取得する。画像取得部1100は、撮像装置から得られた現像前の画像データを取得することもできる。
A method for identifying a mixed state of an input image using the estimator trained in this manner will be described with reference to the flowchart in FIG. 2(B). In S1100, the
以下で、入力画像の所定領域にある混合状態の推定対象となる画像を対象画像と呼ぶ。画像取得部1100は、所定の領域設定パターンに従って、入力画像中に複数の領域を設定することができる。設定された領域のそれぞれに含まれる入力画像の部分画像が、対象画像となる。対象画像は、識別単位に従う所定サイズの部分画像であり、その設定方法は特に限定されない。例えば、学習時と同様、入力画像を所定サイズ(例えば16×16ピクセル)の複数の矩形領域に分割し、それぞれの矩形領域にある複数の対象画像について判定を行うことができる。一方、入力画像の一部領域にある対象画像に対して判定を行ってもよい。
In the following, an image whose mixed state is to be estimated in a predetermined region of the input image will be referred to as a target image. The
ステップS1200において、推定部1200は、特徴抽出部610を用いて、S1100で得られた入力画像の所定領域にある対象画像から特徴量を抽出する。また、推定部1200は、学習された推定器620を推定器記憶部5200から読み込み、推定器620に特徴量を入力することにより、対象画像における互いに異なる属性の領域間の混合状態を示す情報を生成する。こうして、推定部1200は、ステップS1100で取得した入力画像中の対象画像について混合状態を推定する。図8(A)は、推定部1200が処理のために用いることができるCNNの一例を示す。図8(A)には、特徴抽出部610が行う処理に相当する部分が示されており、ここでは入力画像中の所定領域における信号が各層に順伝搬され、対象画像の特徴量Xiが抽出される。また、図8(A)には、推定器620に相当する部分が示されており、ここでは得られた特徴量Xiから、混合状態ベクトルの各要素に割り当てられた出力素子621における出力信号が生成される。各素子lの出力信号の値は、混合状態ベクトルの各要素yl(Xi)の値となる。
In step S1200, the
ステップS1300において、出力部1300は、ステップS1200で得られた推定結果を出力する。出力部1300が行う処理は、識別結果の利用方法に依存し、特に限定されない。混合状態を示す情報を用いた処理例を以下に挙げる。
In step S1300,
例えば、入力画像の各領域に対する画像処理を、その領域における混合状態に応じて変更することができる。この場合、出力部1300は画像補正アプリケーションに対して各領域の混合状態を出力することができる。
For example, image processing for each region of the input image can be changed depending on the mixing state in that region. In this case, the
また、別の例として、混合状態に応じたカメラのフォーカス制御を行うこともできる。例えば、複数の測距点を備える撮像装置のためのフォーカス制御装置は、取得部と、制御部とを備えることができる。取得部は、撮像装置により得られた画像のうち複数の測距点のそれぞれに対応する領域について、領域に占める特定の属性の領域の面積比を示す情報を取得する。そして、制御部は、面積比に応じて複数の測距点を重み付けし、撮像装置のフォーカス制御を行う。より具体的には、多点測距AFを行う場合に、フォーカスを合わせる対象となる被写体成分がより多い測距点の重みを大きくすることができる。例えば、前景に重点を置くフォーカス制御を行う場合、前景成分がより多い測距点の重みを大きくすることができ、特定の被写体に重点を置くフォーカス制御を行う場合、特定の被写体成分がより多い測距点の重みを大きくすることができる。このようなフォーカス制御装置は、上記の情報処理装置から混合状態を示す情報を取得してもよいし、上記の情報処理装置が備える上記の各構成を有していてもよいし、本実施形態とは異なる方法で生成された混合状態を示す情報を取得してもよい。 Furthermore, as another example, it is also possible to perform focus control of the camera according to the mixing state. For example, a focus control device for an imaging device including a plurality of distance measurement points can include an acquisition section and a control section. The acquisition unit acquires information indicating an area ratio of a region of a specific attribute to the region corresponding to each of the plurality of ranging points in the image obtained by the imaging device. Then, the control unit weights the plurality of distance measurement points according to the area ratio and performs focus control of the imaging device. More specifically, when performing multi-point distance measurement AF, it is possible to increase the weight of a distance measurement point that has more subject components to be focused. For example, when performing focus control that places emphasis on the foreground, you can increase the weight of the focusing point that has more foreground components, and when performing focus control that places emphasis on a specific subject, the weight of the focusing point that has more foreground components can be increased. The weight of the distance measurement point can be increased. Such a focus control device may acquire information indicating a mixed state from the above information processing device, may have each of the above configurations included in the above information processing device, or may have the above configurations included in the above information processing device. Information indicating a mixed state generated by a method different from the method may be obtained.
さらなる別の例として、混合状態に応じたカメラの露出制御を行うこともできる。例えば、撮像装置のための露出制御装置は、取得部と、算出部と、選択部と、制御部とを備えることができる。取得部は、撮像装置により得られた画像と、画像の各領域について、領域に占める特定の属性の領域の面積比を示す情報を取得することができる。算出部は、画像全体に占める特定の属性の領域の面積比を算出することができる。選択部は、算出された面積比に応じて、露出制御アルゴリズムを選択することができる。制御部は、選択された露出制御アルゴリズムを用いて、撮像装置の露出制御を行うことができる。より具体的には、視野における空の面積に応じて異なる露出制御を行う場合に、混合状態に基づいて空の面積を算出することができる。この場合、従来技術のように、空と枝が混ざっている領域について、ほとんどの領域を前景であると判定したり、ほとんどの領域について空であると判定したりすることにより、空の面積が実際の値と大きく異なってしまう可能性を減らせることが期待できる。 As yet another example, camera exposure control may be performed depending on the mixing state. For example, an exposure control device for an imaging device can include an acquisition section, a calculation section, a selection section, and a control section. The acquisition unit can acquire information indicating an area ratio of a region of a specific attribute to the image obtained by the imaging device and each region of the image. The calculation unit can calculate the area ratio of a region of a specific attribute to the entire image. The selection unit can select an exposure control algorithm according to the calculated area ratio. The control unit can control the exposure of the imaging device using the selected exposure control algorithm. More specifically, when performing different exposure controls depending on the area of the sky in the field of view, the area of the sky can be calculated based on the mixed state. In this case, as in the conventional technology, the area of the sky is reduced by determining that most of the area where the sky and branches are mixed is in the foreground or determining that most of the area is the sky. It can be expected that the possibility of the value differing greatly from the actual value can be reduced.
ここでは静止画像を学習画像及び入力画像として用いる場合について説明したが、動画像を学習画像及び入力画像として用いることもできる。この場合、混合状態の定義は時間方向に拡張される。例えば、16×16pixelの所定領域及び5フレームを識別単位とする場合、16×16×5のボクセルに関して混合状態を定義することができる。例えば、面積比を用いて混合状態を表す上記の例を拡張することにより、体積比を用いて混合状態を表すことが可能である。 Although the case where a still image is used as a learning image and an input image has been described here, a moving image can also be used as a learning image and an input image. In this case, the definition of mixed state is extended in the time direction. For example, when a 16×16 pixel predetermined area and 5 frames are used as identification units, a mixed state can be defined for 16×16×5 voxels. For example, by extending the above example of representing a mixed state using an area ratio, it is possible to represent a mixed state using a volume ratio.
本実施形態では、それぞれが複数の画素を含む複数の領域へと入力画像(及び学習画像)が分割され、この領域内の混合状態が推定された。このような処理によれば、全ての画素のそれぞれについてクラスを推定する場合と比較して、推定処理の回数が少なくなるため、処理の高速化が期待できる。一方、入力画像のそれぞれの画素について混合状態を推定することもできる。すなわち、1つの画素に異なるクラスに属する複数の被写体が写っていることがあり、この1つの画素に対応する被写体領域における、それぞれのクラスの被写体の混合状態を推定することもできる。 In this embodiment, the input image (and learning image) was divided into multiple regions each including multiple pixels, and the mixed state within this region was estimated. According to such processing, the number of times of estimation processing is reduced compared to the case where the class is estimated for each of all pixels, so it can be expected that the processing speed will be increased. On the other hand, it is also possible to estimate the mixing state for each pixel of the input image. That is, one pixel may contain a plurality of subjects belonging to different classes, and it is also possible to estimate the mixed state of subjects of each class in the subject area corresponding to this one pixel.
本実施形態では、混合状態を示す情報はスカラ値又は複数のスカラ値で構成されるベクトルとして得られた。一方で、混合状態を示す情報は、3つ以上の値から選択される情報でありうる。例えば、所定領域におけるクラス「空」及び「非空」の混合状態を示す情報は、所定領域が「空」で構成されることを示す値、所定領域が「非空」で構成されることを示す値、又は所定領域において「空」及び「非空」が混合されていることを示す値でありうる。このような混合状態を示す情報も、上述の処理例及び後述する実施形態4,5において利用可能である。 In this embodiment, the information indicating the mixed state is obtained as a scalar value or a vector composed of a plurality of scalar values. On the other hand, the information indicating the mixed state may be information selected from three or more values. For example, information indicating a mixed state of classes "empty" and "non-empty" in a predetermined area may include a value indicating that the predetermined area is composed of "empty" and a value indicating that the predetermined area is composed of "non-empty". or a value indicating that a predetermined region is a mixture of "empty" and "non-empty." Information indicating such a mixed state can also be used in the processing example described above and in the fourth and fifth embodiments described later.
[実施形態2]
実施形態1では、学習画像の各画素に対してクラスラベルが設定されていることを前提にして説明した。しかしながら、画素毎にクラスラベルを設定するには時間がかかる。実施形態2では、学習画像に対してクラスラベルを入力するユーザ作業を軽減する方法を説明する。本実施形態においては、学習画像の各領域に対して入力されたクラスラベルに基づいて、データ取得部2100は、画素ごとのクラスラベルを自動的に算出する。
[Embodiment 2]
The first embodiment has been described on the assumption that a class label is set for each pixel of a learning image. However, setting a class label for each pixel takes time. In the second embodiment, a method for reducing the user's work of inputting class labels for learning images will be described. In this embodiment, the
以下、図1(C)を参照して、本実施形態における学習装置の基本的な構成を説明する。本実施形態における画像処理装置の構成は実施形態1と同様であり、説明を省略する。本実施形態において学習データ記憶部5100には、識別画像の他に、識別画像における第1の属性の領域、第2の属性の領域、及び第1の属性の領域と第2の属性の領域とが混在している混在領域を示す情報が格納されている。例えば、学習データ記憶部5100は、学習画像と、学習画像上の各領域に対して付与されたクラスラベルと、を含む学習データが記憶する。ここで、複数のクラスが混在している領域には、混在領域であることを示すクラスラベルが与えられている。
The basic configuration of the learning device in this embodiment will be described below with reference to FIG. 1(C). The configuration of the image processing apparatus in this embodiment is the same as that in
データ取得部2100は、学習データ記憶部5100から学習データを読み込む。すなわち、データ取得部2100は、識別画像の他に、識別画像における第1の属性の領域、第2の属性の領域、及び第1の属性の領域と第2の属性の領域とが混在している混在領域を示す情報を取得する。
The
詳細化部2300は、第1の属性の領域に含まれる画素の画素値、及び前記第2の属性の領域に含まれる画素の画素値に基づいて、混在領域の各画素の属性を判定する。例えば、詳細化部2300は、混在領域であることを示すクラスラベルが与えられている領域について、混合状態を示す教師情報を算出する。詳細については後述する。学習部2200は、学習画像と混合状態の教師情報とを用いて、実施形態1と同様に推定器の学習を行う。
The detailing
本実施形態において学習装置が行う処理のフローを、図2(C)に従って説明する。ステップS2100においてデータ取得部2100は、学習データ記憶部5100から、学習画像とクラスラベルデータとを学習データとして読み込む。学習データ記憶部5100には、あらかじめ複数の学習画像とそれぞれについてのクラスラベルデータとが用意されている。
The flow of processing performed by the learning device in this embodiment will be described with reference to FIG. 2(C). In step S2100, the
ここで、本実施形態におけるクラスラベルデータについて説明する。図9(A)には学習画像500が示されており、図9(B)には学習画像500についてのクラスラベルデータ400が示されている。この例では、学習画像500は空領域410、非空領域420、及び混在領域430から構成されており、それぞれの領域の画素には「空」、「非空」、及び「混在」がそれぞれクラスラベルとして付されている。このように、学習画像500には、単一クラスの領域と、複数クラスが混在している領域と、が設定されている。
Here, class label data in this embodiment will be explained. FIG. 9(A) shows a
これらのクラスラベルは、ツール等を介して予め人間が入力することができる。例えば作業者は、学習画像の空領域及び非空領域を決定することができる。その際、前景の木の枝が細かく複雑になっている箇所においては、空領域と非空領域とを正確に切り分けることは、作業者に対する大きな作業負荷を要求する。そこで、作業者は、このように複数のクラスが混在している領域に対しては、「混在」というクラスラベルを与えることができる。 These class labels can be input in advance by a human using a tool or the like. For example, an operator can determine sky and non-sky regions of the training images. At this time, in areas where the branches of the tree in the foreground are fine and complicated, accurately separating the sky area from the non-sky area requires a large workload on the operator. Therefore, the operator can give a class label of "mixed" to an area where a plurality of classes coexist in this way.
ここでは、「空」と「非空」が混在している領域について説明したが、実施形態1で説明したように、クラス定義はこのようなものに限定されない。また、クラスが3クラス以上ある場合には、クラスの組み合わせの数だけ混在領域の種類を定義することができる。例えば、図5に示すように「空」、「植物」、「人工物」の3クラスが定義されている場合には、「空と植物の混在領域」、「空と人工物の混在領域」、「植物と人工物の混在領域」、「空と植物と人工物の混在領域」、の4種類の混在領域クラスを定義できる。以下では、「空」と「非空」の2クラスが定義されている場合を例にして説明する。 Here, a region in which "empty" and "non-empty" are mixed has been described, but as described in the first embodiment, the class definition is not limited to such a region. Furthermore, when there are three or more classes, it is possible to define as many types of mixed areas as there are combinations of classes. For example, as shown in Figure 5, if three classes are defined: "Sky", "Plant", and "Artificial Object", then "Sky and Plant Mixed Area" and "Sky and Artificial Mixed Area" are defined. Four types of mixed area classes can be defined: , "mixed area of plants and artificial objects", and "mixed area of sky, plants, and artificial objects". In the following, an example will be explained in which two classes, "empty" and "non-empty", are defined.
ステップS2300において、詳細化部2300は、混在領域に関してクラスラベルの詳細化を行う。具体的には、詳細化部2300は、混在領域の各画素についてクラスラベルを設定する。ここで、詳細化部2300は、第1の属性の領域に含まれる画素の画素値、及び第2の属性の領域に含まれる画素の画素値に基づいて、混在領域の各画素の属性を判定する。例えば、詳細化部2300は、各クラスの色情報を参考に、混在領域のクラスラベルを判定することができる。具体例として、詳細化部2300は、学習画像Inにおける、空領域と非空領域とのそれぞれについて、各画素のRGB値を抽出してRGB色空間にプロットする。混在領域以外の空領域及び非空領域は、学習データに示されている。そして、詳細化部2300は、空領域と非空領域とのそれぞれについて、混合ガウス分布を推定する。すると、混合領域の各画素について、そのRGB値及び空領域の混合ガウス分布に基づいて空領域の尤度を求めることができ、またそのRGB値及び非空領域の混合ガウス分布に基づいて非空領域にある尤度を推定することができる。詳細化部2300は、そして、「空」「非空」のうち尤度が高い方のクラスラベルを画素に割り当てることができる。こうして、詳細化部2300は、混在領域内のクラスラベルを詳細化することができる。図9(C)は、このようにして詳細化されたクラスラベルデータ450を示し、ここには詳細化された空領域460及び非空領域470が表されている。
In step S2300, the detailing
このようにして詳細化されたクラスラベルデータを基に、詳細化部2300は、識別単位となる識別領域について混合状態を表す教師情報を算出する。識別領域、並びに混合状態を示す教師情報の定義及び算出方法に関しては、実施形態1で詳しく説明したとおりであるため、ここでは詳細な説明は省く。なお、詳細化部2300がクラスラベルの詳細化を行うことは必須ではない。例えば、識別領域内の混在領域にある画素のRGB値分布と、空領域及び非空領域の混合ガウス分布とに基づいて、混在領域における混合状態を推定することが可能であり、これに基づいて識別領域における混合状態を表す教師情報を算出してもよい。
Based on the class label data detailed in this manner, the detailing
変形例として、学習データにおいて、複数のクラスが混在している領域に対しては混合状態が設定されていてもよい。例えば、作業者は、特定の領域について、「非空領域の割合は30%」というような、クラスの面積比を示す情報を入力することができる。この場合、詳細化部2300は、各画素についてのクラスラベルを推定することなく、識別単位となる識別領域について混合状態を表す教師情報を算出することができる。一方、詳細化部2300は、混合状態を参照して、入力画像の各画素のクラスラベルを推定することもできる。この場合には、後述する実施形態5と同様に、学習データから計算可能な混合状態を表す情報と、推定された各画素の属性に基づいて計算される混合状態を示す情報と、の類似度が大きいほど高くなる評価値を用いて、推定を行うことができる。
As a modification, a mixed state may be set for an area in which a plurality of classes coexist in the learning data. For example, the operator can input information indicating the area ratio of a class, such as "the ratio of non-empty areas is 30%" for a specific area. In this case, the detailing
[実施形態3]
実施形態1,2では、識別単位となる識別領域は、あらかじめ矩形領域又は小領域として設定されているという前提で説明を行った。一方で、識別領域の大きさや切り方を、さまざまな撮影情報に基づいて変えることができる。例えば、ボケの強い領域では、細かいテクスチャが情報として失われるため、より広い識別領域に対して推定を行うことにより、混合状態の推定精度を向上できる可能性がある。
[Embodiment 3]
In the first and second embodiments, the description has been made on the assumption that the identification area serving as the identification unit is set in advance as a rectangular area or a small area. On the other hand, the size and cutting method of the identification area can be changed based on various photographic information. For example, in areas with strong blur, detailed texture information is lost, so by performing estimation over a wider identification area, it is possible to improve the accuracy of estimating the mixed state.
撮影情報は、撮像装置固有の情報と、撮影された画像固有の情報を含む。撮像装置固有の情報としては、センサのサイズ若しくは許容錯乱円径、及び光学系の明るさ若しくは焦点距離等が挙げられる。撮影された画像固有の情報としては、絞り値、合焦距離、Bv値、RAW画像、露出時間、ゲイン(ISO感度)、ホワイトバランス係数、距離情報、GPS等による位置情報、日時等の時間情報、等が挙げられる。他にも、撮影された画像固有の情報としては、撮影時における、重力センサ値、加速度、地磁気方向、温度、湿度、気圧、又は高度等が挙げられる。また、可視光以外に、赤外光や紫外光の情報を得ることができる撮像系もある。撮像装置の仕様により、得られる撮影情報はそれぞれ異なる。撮影情報は、入力画像の撮影時に入力画像に関連付けて付された情報、入力画像の撮影時における撮像装置の状態を示す情報、又は入力画像の撮影時に撮像装置によって測定された情報でありうる。また、撮影情報は、入力画像の撮影時に撮像装置によって検知された入力画像の特性を表す情報でありうる。また、撮影情報は、入力画像自体のデータとは異なる情報である。 The photographing information includes information unique to the imaging device and information unique to the photographed image. Information specific to the imaging device includes the size of the sensor or the diameter of the permissible circle of confusion, the brightness or focal length of the optical system, and the like. Information unique to the photographed image includes aperture value, focusing distance, Bv value, RAW image, exposure time, gain (ISO sensitivity), white balance coefficient, distance information, location information such as GPS, and time information such as date and time. , etc. In addition, the information unique to the photographed image includes the gravity sensor value, acceleration, geomagnetic direction, temperature, humidity, atmospheric pressure, altitude, etc. at the time of photographing. There are also imaging systems that can obtain information from infrared light and ultraviolet light in addition to visible light. The obtained imaging information differs depending on the specifications of the imaging device. The photographing information may be information attached in association with the input image when the input image was photographed, information indicating the state of the imaging device at the time of photographing the input image, or information measured by the imaging device at the time of photographing the input image. Further, the photographing information may be information representing the characteristics of the input image detected by the imaging device when the input image was photographed. Further, the photographing information is information different from the data of the input image itself.
図1(D)に沿って、実施形態3に係る学習装置の基本的な構成を説明する。学習データ記憶部5100には、あらかじめ学習データが記憶されている。本実施形態において学習データは、学習画像と、各学習画像に対応する撮影情報と、学習画像上のさまざまな大きさの領域に対して付与された混合状態の教師情報と、を含む。データ取得部2100は、学習データ記憶部5100から、学習画像、撮影情報、及び教師情報を読み込む。学習部2200は、学習画像と混合状態の教師情報を用いて、混合状態を推定する推定器の学習を行い、得られた推定器を推定器記憶部5200に記憶する。ここで、学習部2200は、第1の領域設定パターンに従って設定された所定領域にある識別画像を用いた学習により第1の推定器を生成し、第2の領域設定パターンに従って設定された所定領域にある識別画像を用いた学習により第2の推定器を生成する。評価部2400は、確認データ記憶部5400から読み込んだ確認データを使って、学習により得られたそれぞれの推定器の推定精度を評価する。そして、評価部2400は、撮影情報と推定精度とに基づいて領域設定器を生成し、設定器記憶部5300に記憶する。
The basic configuration of the learning device according to the third embodiment will be explained along FIG. 1(D). The learning
次に図1(E)に沿って、画像処理装置の装置構成の概要を説明する。画像取得部1100は、入力画像と撮影情報とを取得する。領域設定部1400は、撮影情報に応じて、複数の領域設定パターンの中から、対象画像の設定に用いる領域設定パターンを選択する。本実施形態において領域設定部1400は、領域設定器を設定器記憶部5300から読み込み、撮影情報に従って識別単位となる領域を設定する。推定部1200は、推定器を推定器記憶部5200から読み込み、設定された識別単位に従って設定された所定領域にある対象画像について、推定器を使って混合状態を推定する。
Next, the outline of the device configuration of the image processing device will be explained along FIG. 1(E). The
本実施形態における処理の詳細な説明を以下に記す。まず、学習時の処理に関して図2D)のフローチャートを参照して説明する。ステップS2100において、データ取得部2100は、学習データ記憶部5100から、学習画像、撮影情報、及び混合状態の教師情報を、学習データとして読み込む。
A detailed explanation of the processing in this embodiment will be described below. First, processing during learning will be described with reference to the flowchart in FIG. 2D. In step S2100, the
ステップS2200において、学習部2200は、データ取得部2100が取得した学習画像と混合状態の教師情報とを用いて、混合状態を推定する推定器の学習を行う。上述のように、本実施形態においては複数種類の領域設定パターンのそれぞれに従って識別単位が設定される。すなわち、識別単位となる領域としては、さまざまなものが用意されている。例えば、3×3、9×9、及び15×15の矩形領域など、サイズの異なる複数パターンの識別単位を用意することができる。実施形態1でも説明したように、識別単位は矩形領域には限られない。例えば、実施形態1で説明したように、複数の領域設定パターンとして、領域分割により小領域を設定する際に用いるパラメータを複数用意することができる。
In step S2200, the learning unit 2200 uses the learning image acquired by the
領域設定パターンの違いにより、画像上の同じ位置であっても、混合状態の教師情報は変化しうる。図3(C)には、学習画像の同じ位置にあるさまざまなサイズの矩形領域551、552、及び553が示されている。最も小さい矩形領域551においては、空:非空の面積比はr=1である。一方、矩形領域552及び553は、それぞれ非空領域を含むため、面積比はそれぞれr=0.9及びr=0.8となる。
Due to differences in area setting patterns, the teacher information of the mixed state may change even at the same position on the image. FIG. 3C shows
学習部2200は、それぞれの領域設定パターンに対応する推定器の学習を行う。すなわち、学習部2200は、着目領域設定パターンに従って設定された識別領域と、この識別領域について与えられた教師情報とに基づき、着目領域設定パターンに対応する推定器の学習を行う。この結果、学習部2200は、複数の領域設定パターンのそれぞれに対応する推定器を生成する。例えば、領域設定パターンのインデックスをqとし、領域設定パターンの総数をQとすると、学習によってQ種類の推定器yqを得ることができる。推定器の学習は実施形態1と同様に行うことができる。一例として、それぞれの推定器yqは、回帰関数fq(X)(q=1,……,Q)に従って混合状態の推定を行うことができる。学習により得られた推定器は、推定器記憶部5200に記憶される。
The learning unit 2200 performs learning of an estimator corresponding to each area setting pattern. That is, the learning unit 2200 performs learning of the estimator corresponding to the region of interest setting pattern based on the identification region set according to the region of interest setting pattern and the teacher information given for this identification region. As a result, the learning unit 2200 generates an estimator corresponding to each of the plurality of area setting patterns. For example, if the index of a region setting pattern is q and the total number of region setting patterns is Q, Q types of estimators yq can be obtained by learning. Learning of the estimator can be performed in the same manner as in the first embodiment. As an example, each estimator yq may perform mixed state estimation according to a regression function fq(X) (q=1,...,Q). The estimator obtained through learning is stored in the
ステップS2300において評価部2400は、ステップS2200で得られた推定器の識別精度を、撮影情報とともに評価し、領域設定器を生成する。例えば、評価部2400は、教師情報及び撮影情報が関連付けられている検証画像を用いて、それぞれの推定器の識別精度を評価することができる。そして、評価部2400は、所定の撮影情報が関連付けられている識別画像の判定を行う際に良好な識別精度が得られるように、特定の撮影情報に対応する推定器を示す情報を生成することができる。
In step S2300, the
撮影情報の中には、学習画像の画素ごとに得られる情報がある。また、撮影情報の組み合わせにより新たな撮影情報を得ることもできる。例えば、画素位置pにおけるレンズ面から被写体までの距離Z(p)と、光学系の焦点距離fと、が撮影情報として得られた場合、像倍率S(p)を算出することができる。
また、光学系のF値、焦点距離f、撮影時の合焦距離Zf、及び画素位置pにおける被写体までの距離Z(p)が撮影情報として得られた場合、各画素位置におけるボケ量B(p)を得ることができる。
さらに、RAW画像の各画素位置pにおける値r(p)、g(p)、及びb(p)、露出時間T、ゲインG、並びに絞り量Fが撮影情報として得られた場合、画素位置pにおける入射光量BV(p)の絶対値を得ることができる。
以下、撮影情報として画素位置pにおけるボケ量B(p)を用いて、領域設定器を生成する場合について説明する。もっとも、用いる撮影情報はこれには限定されず、像倍率S(p)又は入射光量BV(p)等の他の撮影情報を用いてもよい。また、複数の撮影情報を組み合わせてもよく、例えばボケ量B(p)と入射光量BV(p)を組み合わせて用いてもよい。 Hereinafter, a case will be described in which a region setter is generated using the amount of blur B(p) at pixel position p as photographic information. However, the photographing information to be used is not limited to this, and other photographing information such as the image magnification S(p) or the amount of incident light BV(p) may be used. Further, a plurality of photographic information may be combined, for example, the amount of blur B(p) and the amount of incident light BV(p) may be used in combination.
まず、評価部2400は、ボケ量Bを複数のビンに区切り、領域設定パターンqに関するテーブルを生成する。この例では、ボケ量Bが2未満、2以上3未満、3以上4未満、4以上、の4つのビンに区切られている。また、領域設定パターンqとしては3×3、9×9、及び15×15の3種類が用いられており、3×4のテーブルが得られる。
First, the
次に、評価部2400は、確認データを確認データ記憶部5400から読み込む。確認データは、学習データと同様、複数の確認画像、それぞれの確認画像についてのクラスラベルデータ、及び撮影情報を含む。ここでは、確認画像の総枚数をNvと表し、v番目の確認画像をIv(v=1,……,Nv)と表す。
Next,
評価部2400は、領域設定パターンqのそれぞれに従って、確認画像中の識別単位となる領域iにおける特徴量を抽出し、対応する推定器に入力する。こうして、領域設定パターンqを用いた場合の確認画像Iν中の領域iの混合状態の推定値yq(Xν
i)を得ることができる。このとき、混合状態教師情報cq(ν,i)に対する二乗誤差は下記のように表すことができる。
また、ボケ量Bと領域設定パターンqとの組み合わせに対するビン(B,q)における二乗誤差平均MSE(B,q)は下記のように表される。
そして、ビン(B,q)に関する信頼度T(B,q)は、1から二乗平均平方根誤差を減じた値として定義できる。
このようにして、評価部2400は、各ビン(B,q)に対する信頼度T(B,q)のテーブルを得ることができる。こうして得られたテーブルの例を下に示す。評価部2400は、このようにして得られたテーブルを、領域設定器として設定器記憶部5300に記憶する。
本実施形態では、得られたテーブルが領域設定器として設定器記憶部5300に格納された。一方、評価部2400は、信頼度T(B,q)の値を教師情報として、ボケ量Bに対する信頼度Tを回帰値として出力する回帰関数gq(B)を各領域設定パターンqに対して生成し、これを領域設定器として用いてもよい。
In this embodiment, the obtained table is stored in the
このように得られた混合状態推定器及び領域設定器を用いて、入力画像の混合状態を推定する処理について、図2(E)のフローチャートを用いて説明する。ステップS1100において画像取得部1100は、撮像装置により得られた画像データと撮影情報とを取得する。
The process of estimating the mixture state of an input image using the mixture state estimator and region setter obtained in this way will be explained using the flowchart of FIG. 2(E). In step S1100, the
ステップS1400において領域設定部1400は、設定器記憶部5300から領域設定器を読み込み、撮影情報に従って使用する領域設定パターンを決定する。例えば、領域設定部1400は、下式に従って、入力画像Iの各領域iに対して、撮影情報として得られたボケ量B(i)から得られる信頼度Tが最も大きくなる領域設定パターンqwinを選ぶことができる。なお、ボケ量B(i)は、入力画像Iの領域iの中心位置におけるボケ量を指す。具体的な処理は特に限定されないが、例えば、1つの領域設定パターンに従って入力画像Iを複数の領域に分割し、1つの領域を別の領域設定パターンに従って細分化した方が信頼度が高くなる場合に、この細分化を行うことができる。別の例としては、ボケ量が類似している領域を連結し、それぞれの連結領域についてボケ量に従う領域設定パターンを用いて領域分割を行うことができる。
ステップS1200において、推定部1200は、推定器記憶部5200から推定器を読み込み、入力画像の各位置における混合状態を推定する。具体的には、推定部1200は、各位置pにおいて設定された所定領域の画像の特徴量を抽出し、抽出された特徴量を推定器に入力することにより、この位置pにおける混合状態を推定することができる。ここで、各位置pについての所定領域は、ステップS1400で決定された領域設定パターンqwinに従って設定される。上述のように、本実施形態においては、複数の領域設定パターンのそれぞれに対応する推定器が生成されている。したがって、推定部1200は、ステップS1400で決定された領域設定パターンに従って複数の推定器から選択された推定器を用いることができる。例えば、位置pにおける推定器としてはyqwinが選択され、位置pにおける所定領域の混合状態の推定値は、yqwin(Xi)として得られる。図3(D)は、画像上の位置によって領域設定方法を変えた場合の例を示し、それぞれの矩形が推定器に入力される1つの領域を示す。
In step S1200, the
ステップS1300に係る処理は実施形態1と同様であるため、説明は省略する。本実施形態のように、撮影情報を利用して混合状態を推定する識別単位となる領域の設定方法を変ることにより、より誤差の少ない混合状態の推定を行うことができる。 The processing related to step S1300 is the same as that in the first embodiment, so a description thereof will be omitted. As in this embodiment, by changing the method of setting the area that is the identification unit for estimating the mixed state using photographic information, it is possible to estimate the mixed state with less error.
[実施形態4]
実施形態1~3では、識別単位となる所定領域における混合状態を推定した。実施形態4では、得られた混合状態の推定結果を用いて、領域を細分化することにより、詳細な領域分割結果を得る方法について説明する。学習装置及び画像処理装置の基本的な構成は実施形態1と同様であり、説明を省略する。
[Embodiment 4]
In
以下、学習時の処理について図2(A)のフローチャートに従って説明する。ステップS2100においてデータ取得部2100は、学習データ記憶部5100から、学習画像と混合状態の教師情報と学習データとして読み込む。
The processing during learning will be described below according to the flowchart of FIG. 2(A). In step S2100, the
ステップS2200で学習部2200は、実施形態3と同様の処理を行う。すなわち、識別単位としては様々な大きさの領域が用意される。例えば、複数の領域設定パターンのそれぞれに従って、1×1、3×3、9×9、及び15×15等、異なるサイズの矩形領域を複数パターン用意することができる。そして、学習部2200は、それぞれの領域サイズに対応する推定器の学習を、実施形態3と同様にそれぞれの領域サイズについて得られた混合状態の教師情報を用いて行うことができる。すなわち、領域サイズのインデックスをqとし、領域サイズの総数をQとすると、学習によってQ種類の推定器yq(q=1,……,Q)を得る事ができる。一例として、それぞれの推定器yqは、回帰関数fq(X)に従って混合状態の推定を行うことができる。学習により得られた推定器yqは、推定器記憶部5200に書きこまれる。
In step S2200, the learning unit 2200 performs the same process as in the third embodiment. That is, areas of various sizes are prepared as identification units. For example, a plurality of patterns of rectangular areas of different sizes such as 1×1, 3×3, 9×9, and 15×15 can be prepared according to each of the plurality of area setting patterns. Then, the learning unit 2200 can perform learning of the estimator corresponding to each region size using the teacher information of the mixed state obtained for each region size, similarly to the third embodiment. That is, if the region size index is q and the total number of region sizes is Q, Q types of estimators yq (q=1, . . . , Q) can be obtained by learning. As an example, each estimator yq may perform mixed state estimation according to a regression function fq(X). The estimator yq obtained through learning is written into the
次に、判定時の処理に関して、図2(F)のフローチャートに従って説明する。ステップS1100において、画像取得部1100は入力画像を取得する。ステップS1200において、推定部1200は、推定器を用いて入力画像中の所定領域における混合状態を推定する。ここで、推定部1200は、複数の領域設定パターンのうちの第1の領域設定パターンを用いて領域設定を行う。すなわち、推定部1200は、第1の領域設定パターンに従う大きさの第1の対象画像について混合状態を判定する。本実施形態において、識別単位としては、Q種類の領域サイズのうち最も大きいサイズが用いられる。前述の例では、識別単位として15×15pixelが選択され、また推定器としては15×15pixelに対応する推定器が用いられる。
Next, the process at the time of determination will be explained according to the flowchart of FIG. 2(F). In step S1100, the
そして、推定部1200は、入力画像の第1の部分にある第1の対象画像について推定された混合状態を示す情報に従って、第1の部分の混合状態を再判定するか否かを判定する。例えば、推定部1200は、混合状態の推定を行った所定領域について混合状態の再判定を行うか否かを判定する。例えば、推定部1200は、クラス純度が閾値以上である領域については、このクラス推定結果を採用する。
Then, the
一方、推定部1200は、クラス純度が閾値よりも低い領域については、この領域について混合状態の再判定を行う。再判定を行うとの判定に応じて、推定部1200は、第1の部分にある、第2の領域設定パターンに従う大きさの第2の対象画像の混合状態を示す情報を出力する。ここで、第2の対象画像は第1の対象画像よりも小さい。すなわち、推定部1200は、クラス純度が閾値よりも低い領域について、より小さい識別単位に従って領域を再分割し、再分割された領域のそれぞれについて、再び推定器を用いて混合状態の推定を行う。推定部1200は、例えば、一段階小さい領域サイズを用いて再分割を行うことができる。上述のように、本実施形態においては、複数の領域設定パターンのそれぞれに対応する推定器が生成されている。したがって、推定部1200は、再分割に用いた領域設定パターンに従って複数の推定器から選択された推定器を用いることができる。
On the other hand, the
ここで、クラス純度とは、領域内における同一クラスラベルが割り振られている画素の割合を示す。例えば、実施形態1に示した面積比rの値が0.8以上又は0.2以下である場合に、クラス純度が高いと定義することができる。図7に示すマップを用いる場合、p1≧0.9かつp2≦0.8の場合にクラス純度が高いと定義することもできる。
Here, class purity indicates the ratio of pixels to which the same class label is assigned within a region. For example, when the value of the area ratio r shown in
このように、クラス純度が低い領域については細分化及び混合状態の再推定を行うことにより、詳細な領域分割を行うことができる。領域が細分化できなくなるか、すべての領域のクラス純度が閾値以上になると、処理はステップS1300へと進むことができる。ステップS1300における処理は実施形態1と同様であるため、説明は省略する。このようにして得られた詳細な領域分割結果は、領域別のトーンマッピング又はホワイトバランス調整等の高画質化処理に利用することができる。 In this way, detailed region segmentation can be performed by subdividing regions with low class purity and re-estimating the mixing state. If the region cannot be subdivided or the class purity of all regions exceeds the threshold, the process can proceed to step S1300. The processing in step S1300 is the same as that in the first embodiment, so a description thereof will be omitted. The detailed region division results obtained in this way can be used for high image quality processing such as tone mapping or white balance adjustment for each region.
[実施形態5]
実施形態4では、識別単位を細分化していくことによって詳細な領域分割結果を算出したが、領域分割の方法はこの方法には限定されない。実施形態5では、各領域についての混合状態の推定結果を利用して、画素単位のクラス判定を行うことにより、詳細な領域分割結果を得る方法について説明する。
[Embodiment 5]
In the fourth embodiment, detailed region division results are calculated by subdividing the identification unit, but the method of region division is not limited to this method. In the fifth embodiment, a method will be described in which detailed region segmentation results are obtained by performing class determination on a pixel-by-pixel basis using the mixed state estimation results for each region.
本実施形態に係る画像処理装置の基本構成を図1(F)に示す。画像取得部1100及び推定部1200の機能は実施形態1と同様であるため説明を省略する。判定部1500は、対象画像の各画素の属性を判定する。判定部1500は、評価値に基づいて各画素の属性を決定し、この評価値が示す評価は、各画素の属性に基づいて計算される混合状態を示す情報と、推定部1200により得られた混合状態を示す情報と、の類似度が大きいほど高くなる。本実施形態においては、判定部1500は、混合状態推定結果及び画像情報に基づいて、入力画像の各画素のクラスラベルを推定する。出力部1300は、入力画像の各画素について推定されたクラスラベルを示す情報を出力する。
The basic configuration of the image processing device according to this embodiment is shown in FIG. 1(F). The functions of the
本実施形態に係る判定処理の詳細を図2(G)に従って説明する。ステップS1100及びS1200における処理は、実施形態1と同様であるため説明を省略する。ステップS1500において判定部1500は、ステップS1200にて推定された各領域の混合状態を利用して、入力画像の各画素についてクラスを推定する。例えば、推定された各画素のクラスに従って求められる混合状態が、ステップS1200にて推定された混合状態に近くなるように、各画素のクラスの推定を行うことができる。各画素のクラスの推定には、さらに各画素の色情報を用いて、例えば同じクラスに属する画素の色が類似するように、又は異なるクラスに属する画素の色が類似しないように、行うことができる。
Details of the determination process according to this embodiment will be explained with reference to FIG. 2(G). The processing in steps S1100 and S1200 is the same as that in the first embodiment, so the description thereof will be omitted. In step S1500, the
入力画像の各画素のクラスを推定する方法の一例として、CRF(Conditional Random Field、条件付き確率場)のような繰り返し処理を利用する場合について以下説明する。CRFは、複数のノードからなるグラフに対して、対となるノード間の類似度によるpairwise potentialと、各ノードの持つunary potentialを考慮して、各ノードの状態を安定した状態まで逐次推移させていく方法である。画像の画素判別にCRFを使う場合は、各ノードが画像の各画素に対応するCRFモデルを使うことができる。 As an example of a method for estimating the class of each pixel of an input image, a case will be described below in which repetitive processing such as CRF (Conditional Random Field) is used. CRF sequentially transitions the state of each node to a stable state for a graph consisting of multiple nodes, taking into account the pairwise potential based on the similarity between paired nodes and the unary potential of each node. This is the way to go. When using CRF to discriminate pixels of an image, a CRF model can be used in which each node corresponds to each pixel of the image.
入力画像I上の画素iのクラスラベルciの条件付き確率は、下式で表すことができる。
pairwise potentialは下式で表すことができる。
unary potentialは下記で表すことができる。
Li
c(t)は、CRFに従って画素単位のクラスラベルが遷移していったときの、時刻tにおける、画素iが含まれる所定領域のクラスcの混合状態である。Li
c(t)は、推定部1200が推定する混合状態と同種の情報であり、推定部1200が時刻tにおいて所定領域内の各画素について推定されているクラスを参照して算出できる。実施形態1で説明した混合状態の例に従って、以下に具体的な例を挙げる。例えば、遷移途中の時刻tにおいて、画素iが含まれる所定領域内におけるクラスラベルcが割り当てられている画素をカウントすることにより、クラスcの面積比r(t)を求めることができる。また、所定領域内におけるクラスラベルの配置に従ってエッジ画素を抽出してカウントすることにより、エッジ画素率e(t)を求めることができる。さらに、所定領域内におけるクラスラベルの配置を、図7に示されるマップのどれに最も近いかを判定することにより、クラスラベル配置パターンp(t)を求めることができる。実施形態1で説明したように、Li
c(t)は、これら時刻tにおける混合状態の組み合わせによって表すこともできる。
L i c (t) is the mixed state of class c in a predetermined area including pixel i at time t when the class label of each pixel changes according to the CRF. L i c (t) is the same type of information as the mixed state estimated by the
このように、推移中の時刻tにおける画素レベルでのクラスラベル配置に基づいて決定された時刻tにおける所定領域内の混合状態と、所定領域についての混合状態推定値と、の類似度を、unary potentialとして表現することができる。具体的には、時刻tにおける所定領域内の混合状態と、所定領域についての混合状態推定値と、の類似度が大きいほど評価が高くなるように、unary potentialを表現することができる。 In this way, the degree of similarity between the mixed state in a predetermined region at time t determined based on the class label arrangement at the pixel level at time t during transition and the mixed state estimated value for the predetermined region is calculated as unary It can be expressed as potential. Specifically, the unary potential can be expressed such that the greater the similarity between the mixed state within the predetermined region at time t and the estimated mixed state value for the predetermined region, the higher the evaluation.
本実施形態における学習処理について、図2(A)に従って説明する。ステップS2100でデータ取得部2100は、学習画像と教師データとを取得する。ステップS2200で学習部2200は、実施形態1と同様に推定器の学習を行う。また、学習部2200は、入力画像の各画素のクラスを推定する際に用いるパラメータ(例えば上述のθψ及びθφ)の値を決定する。学習部2200は、複数の学習画像と、学習画像の各画素のクラスを示すクラスラベルのデータを用いて、この処理を行うことができる。クラスラベルのデータとしては、例えば、実施形態2に従って図9(C)のように作成されたものを用いることができる。本実施形態において学習部2200は、全学習画像に対するポテンシャルが最大となるようにθψ及びθφの値を算出することができる。すなわち、下式をそれぞれ最大化するθψとθφの値を、勾配法等によって求めることができる。
学習部2200は、得られたパラメータを、推定器とともに推定器記憶部5200に格納する。本実施形態ではθψ及びθφの値が推定器記憶部5200に記憶され、判定部1500によって上述のように用いられる。こうして得られた画素ごとのクラスラベルのデータは、実施形態4と同様にして、領域ごとに高画質化処理を行う場合等に利用することができる。
The learning unit 2200 stores the obtained parameters together with the estimator in the
混合状態の推定結果を利用して画素単位のクラス判定を行う方法は、上記の方法には限定されない。例えば、実施形態2と同様に、クラスが確定している領域を用いて求められた各クラスの混合ガウス分布と、上記の混合状態の類似度と、に基づいて、画素単位のクラス判定を行うこともできる。 The method of performing pixel-by-pixel class determination using the mixed state estimation result is not limited to the above method. For example, as in Embodiment 2, pixel-by-pixel class determination is performed based on the Gaussian mixture distribution of each class obtained using a region where the class has been determined and the similarity of the mixture state described above. You can also do that.
本実施形態に係る処理は、混合状態として、面積比、エッジ画素率、及びクラスラベル配置パターンのいずれを用いても可能であるし、利用可能な混合状態がこれらに限られるわけでもない。また、複数の表現を組み合わせて表現された混合状態を用いることにより、判定精度を向上させることができる。例えば、面積比に加えてエッジ画素率を用いることにより、建物と空との境界のように輪郭が単純な場合と、枝と空との境界のように輪郭が複雑な場合と、を区別することが可能となる。 The processing according to this embodiment can be performed using any of the area ratio, edge pixel ratio, and class label arrangement pattern as the mixed state, and the usable mixed states are not limited to these. Further, by using a mixed state expressed by combining a plurality of expressions, it is possible to improve the determination accuracy. For example, by using the edge pixel ratio in addition to the area ratio, we can distinguish between cases where the contour is simple, such as the boundary between a building and the sky, and cases where the contour is complex, such as the boundary between a branch and the sky. becomes possible.
本実施形態において、混合状態を示す情報は推定部1200の処理により得られた。しかしながら、判定部1500は、異なる方法により得られた混合状態を示す情報を取得し、同様の方法で各画素の属性を判定することもできる。
In the present embodiment, information indicating the mixed state is obtained through processing by the
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other examples)
The present invention provides a system or device with a program that implements one or more of the functions of the embodiments described above via a network or a storage medium, and one or more processors in the computer of the system or device reads and executes the program. This can also be achieved by processing. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
1100:画像取得部、1200:推定部、1300:出力部、1400:領域設定部、1500:判定部、2100:データ取得部、2200:学習部、2300:詳細化部 1100: Image acquisition unit, 1200: Estimation unit, 1300: Output unit, 1400: Area setting unit, 1500: Determination unit, 2100: Data acquisition unit, 2200: Learning unit, 2300: Detailing unit
Claims (14)
前記入力画像から特徴を抽出する抽出手段と、 extraction means for extracting features from the input image;
前記抽出手段で抽出された前記特徴が入力されると、前記入力画像における特定のクラスに属する領域の面積に対応する情報を推定する推定手段と、を備え、 an estimating means for estimating information corresponding to the area of a region belonging to a specific class in the input image when the feature extracted by the extracting means is input;
前記推定手段は、学習画像を使用して学習されたパラメータを用いて推定することを特徴とする、画像処理装置。 The image processing apparatus is characterized in that the estimation means performs estimation using parameters learned using learning images.
前記教師情報が、前記学習画像において前記特定のクラスに属する複数の領域の合計領域面積に対応する情報を表すことを特徴とする請求項1に記載の画像処理装置。 The image processing apparatus according to claim 1, wherein the teacher information represents information corresponding to a total area of a plurality of areas belonging to the specific class in the learning image.
前記分割画像から特徴を抽出する抽出手段と、 Extracting means for extracting features from the divided images;
前記抽出手段で抽出された前記特徴が入力されると、前記分割画像における特定のクラスに属する領域の面積に対応する情報を推定する推定手段と、を備え、 an estimating means for estimating information corresponding to an area of a region belonging to a specific class in the divided image when the feature extracted by the extracting means is input;
前記推定手段は、学習画像を使用して学習されたパラメータを用いて推定することを特徴とする、画像処理装置。 The image processing apparatus is characterized in that the estimation means performs estimation using parameters learned using learning images.
前記入力画像から特徴を抽出する抽出工程と、 an extraction step of extracting features from the input image;
前記抽出工程で抽出された前記特徴が入力されると、前記入力画像における特定のクラスに属する領域の面積に対応する情報を推定する推定工程と、を備え、 an estimation step of estimating information corresponding to the area of a region belonging to a specific class in the input image when the feature extracted in the extraction step is input;
前記推定工程では、学習画像を使用して学習されたパラメータを用いて推定することを特徴とする、画像処理方法。 An image processing method, wherein in the estimation step, estimation is performed using parameters learned using a learning image.
前記分割画像から特徴を抽出する抽出工程と、 an extraction step of extracting features from the divided images;
前記抽出工程で抽出された前記特徴が入力されると、前記分割画像における特定のクラスに属する領域の面積に対応する情報を推定する推定工程と、を備え、 an estimation step of estimating information corresponding to an area of a region belonging to a specific class in the divided image when the feature extracted in the extraction step is input;
前記推定工程では、学習画像を使用して学習されたパラメータを用いて推定することを特徴とする、画像処理方法。 An image processing method, wherein in the estimation step, estimation is performed using parameters learned using a learning image.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023099538A JP7350208B2 (en) | 2017-07-05 | 2023-06-16 | Image processing device, image processing method, and program |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017132259A JP7026456B2 (en) | 2017-07-05 | 2017-07-05 | Image processing device, learning device, focus control device, exposure control device, image processing method, learning method, and program |
JP2022022303A JP7300027B2 (en) | 2017-07-05 | 2022-02-16 | Image processing device, image processing method, learning device, learning method, and program |
JP2023099538A JP7350208B2 (en) | 2017-07-05 | 2023-06-16 | Image processing device, image processing method, and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022022303A Division JP7300027B2 (en) | 2017-07-05 | 2022-02-16 | Image processing device, image processing method, learning device, learning method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023115104A JP2023115104A (en) | 2023-08-18 |
JP7350208B2 true JP7350208B2 (en) | 2023-09-25 |
Family
ID=86900720
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022022303A Active JP7300027B2 (en) | 2017-07-05 | 2022-02-16 | Image processing device, image processing method, learning device, learning method, and program |
JP2023099538A Active JP7350208B2 (en) | 2017-07-05 | 2023-06-16 | Image processing device, image processing method, and program |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022022303A Active JP7300027B2 (en) | 2017-07-05 | 2022-02-16 | Image processing device, image processing method, learning device, learning method, and program |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP7300027B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116193682B (en) * | 2023-04-19 | 2023-07-04 | 江西惜能照明有限公司 | Classroom lighting lamp control method and device |
CN117349027B (en) * | 2023-12-04 | 2024-02-23 | 环球数科集团有限公司 | Multi-mode large model construction system and method for reducing calculation force demand |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110224542A1 (en) | 2010-03-12 | 2011-09-15 | Sushil Mittal | Method and System for Automatic Detection and Classification of Coronary Stenoses in Cardiac CT Volumes |
JP2013257843A (en) | 2012-06-14 | 2013-12-26 | Canon Inc | Image processing apparatus, image processing method, program, and storage medium |
KR20150018759A (en) | 2014-12-29 | 2015-02-24 | 재단법인 아산사회복지재단 | Automatic calorie caculation method using food image and feeding behavior managing system using thereof |
JP2015207212A (en) | 2014-04-22 | 2015-11-19 | サクサ株式会社 | Vehicle detection device and system, and program |
JP2015215372A (en) | 2014-05-07 | 2015-12-03 | キヤノン株式会社 | Focus adjustment unit, control method therefor, control program therefor, and storage medium |
JP2017117019A (en) | 2015-12-21 | 2017-06-29 | キヤノン株式会社 | Image processing device, image processing method, and program |
-
2022
- 2022-02-16 JP JP2022022303A patent/JP7300027B2/en active Active
-
2023
- 2023-06-16 JP JP2023099538A patent/JP7350208B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110224542A1 (en) | 2010-03-12 | 2011-09-15 | Sushil Mittal | Method and System for Automatic Detection and Classification of Coronary Stenoses in Cardiac CT Volumes |
JP2013257843A (en) | 2012-06-14 | 2013-12-26 | Canon Inc | Image processing apparatus, image processing method, program, and storage medium |
JP2015207212A (en) | 2014-04-22 | 2015-11-19 | サクサ株式会社 | Vehicle detection device and system, and program |
JP2015215372A (en) | 2014-05-07 | 2015-12-03 | キヤノン株式会社 | Focus adjustment unit, control method therefor, control program therefor, and storage medium |
KR20150018759A (en) | 2014-12-29 | 2015-02-24 | 재단법인 아산사회복지재단 | Automatic calorie caculation method using food image and feeding behavior managing system using thereof |
JP2017117019A (en) | 2015-12-21 | 2017-06-29 | キヤノン株式会社 | Image processing device, image processing method, and program |
Non-Patent Citations (1)
Title |
---|
北本朝展他,ミクセル密度を含む混合密度推定を用いたミクセルの面積占有率推定,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,1998年06月25日,第J81-D-II巻 第6号,pp.1160-1172 |
Also Published As
Publication number | Publication date |
---|---|
JP2022068282A (en) | 2022-05-09 |
JP7300027B2 (en) | 2023-06-28 |
JP2023115104A (en) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7026456B2 (en) | Image processing device, learning device, focus control device, exposure control device, image processing method, learning method, and program | |
CN108182441B (en) | Parallel multichannel convolutional neural network, construction method and image feature extraction method | |
JP7350208B2 (en) | Image processing device, image processing method, and program | |
JP7417555B2 (en) | Human body pose analysis system and method | |
JP6664163B2 (en) | Image identification method, image identification device, and program | |
CN107273905B (en) | Target active contour tracking method combined with motion information | |
JP6192271B2 (en) | Image processing apparatus, image processing method, and program | |
JP6497579B2 (en) | Image composition system, image composition method, image composition program | |
JP6397379B2 (en) | CHANGE AREA DETECTION DEVICE, METHOD, AND PROGRAM | |
CN107944403B (en) | Method and device for detecting pedestrian attribute in image | |
JP7142420B2 (en) | Image processing device, learning method, trained model, image processing method | |
CN106157330B (en) | Visual tracking method based on target joint appearance model | |
CN107767358B (en) | Method and device for determining ambiguity of object in image | |
CN114565675B (en) | Method for removing dynamic feature points at front end of visual SLAM | |
CN107622280B (en) | Modularized processing mode image saliency detection method based on scene classification | |
CN111488766A (en) | Target detection method and device | |
CN112329662B (en) | Multi-view saliency estimation method based on unsupervised learning | |
Schulz et al. | Object-class segmentation using deep convolutional neural networks | |
CN108154107B (en) | Method for determining scene category to which remote sensing image belongs | |
CN114724190A (en) | Mood recognition method based on pet posture | |
Poma et al. | Improving edge detection in RGB images by adding NIR channel | |
Riaz et al. | Visibility restoration using generalized haze-lines | |
JP2017207960A (en) | Image analysis device, image analysis method, and program | |
WO2012005242A1 (en) | Image processing device and image segmenting method | |
Shende et al. | Layout detection using computer vision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230718 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230718 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230814 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230912 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7350208 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |