JP2020038572A - Image learning program, image learning method, image recognition program, image recognition method, creation program for learning data set, creation method for learning data set, learning data set, and image recognition device - Google Patents
Image learning program, image learning method, image recognition program, image recognition method, creation program for learning data set, creation method for learning data set, learning data set, and image recognition device Download PDFInfo
- Publication number
- JP2020038572A JP2020038572A JP2018166350A JP2018166350A JP2020038572A JP 2020038572 A JP2020038572 A JP 2020038572A JP 2018166350 A JP2018166350 A JP 2018166350A JP 2018166350 A JP2018166350 A JP 2018166350A JP 2020038572 A JP2020038572 A JP 2020038572A
- Authority
- JP
- Japan
- Prior art keywords
- image
- learning
- image recognition
- recognition unit
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、画像学習プログラム、画像学習方法、画像認識プログラム、画像認識方法、学習データセットの生成プログラム、学習データセットの生成方法、学習データセット、及び画像認識装置に関する。 The present invention relates to an image learning program, an image learning method, an image recognition program, an image recognition method, a learning data set generation program, a learning data set generation method, a learning data set, and an image recognition device.
画像認識技術として、Fully Convolutional Network(FCN:全層畳み込みネットワーク)を用いたSemantic Segmentation(セマンティック・セグメンテーション)が知られている(例えば、非特許文献1参照)。セマンティック・セグメンテーションは、デジタル画像のピクセル単位でのクラス分類(クラス推論)を行っている。つまり、セマンティック・セグメンテーションは、デジタル画像の各ピクセルに対してクラス推論を行い、推論結果として、各ピクセル対してクラスをラベリングすることで、デジタル画像の領域分割を行う。 As an image recognition technology, Semantic Segmentation using a Fully Convolutional Network (FCN: full-layer convolution network) is known (for example, see Non-Patent Document 1). In semantic segmentation, a digital image is classified into pixels (class inference). That is, in the semantic segmentation, a class is inferred for each pixel of the digital image, and as a result of the inference, a class is labeled for each pixel to divide a region of the digital image.
ここで、セマンティック・セグメンテーションでは、学習データセットを用いて深層学習を行うことにより、画像認識の精度を高めている。学習データセットは、学習対象の画像となる学習画像と、学習画像に対する回答となる領域分割された教師画像とを含む。セマンティック・セグメンテーションに用いられる教師画像は、アノテーション作業により生成されるが、アノテーション作業の作業負荷が高いことから、アノテーションコストが高いものとなっている。また、様々なシーンに対して、精度よく画像認識を行うためには、セマンティック・セグメンテーションに用いられる教師画像を大量に用意する必要があり、アノテーションコストがさらに増大する。 Here, in the semantic segmentation, the accuracy of image recognition is increased by performing deep learning using a learning data set. The learning data set includes a learning image serving as a learning target image, and a region-divided teacher image serving as an answer to the learning image. The teacher image used for the semantic segmentation is generated by the annotation work. However, since the workload of the annotation work is high, the annotation cost is high. Further, in order to accurately perform image recognition on various scenes, it is necessary to prepare a large number of teacher images used for semantic segmentation, and the annotation cost further increases.
本発明は、教師画像による学習効率を向上させることができる画像学習プログラム、画像学習方法、画像認識プログラム、画像認識方法、学習データセットの生成プログラム、学習データセットの生成方法、学習データセット、及び画像認識装置を提供することを目的とする。 The present invention provides an image learning program, an image learning method, an image recognition program, an image recognition method, a learning data set generating program, a learning data set generating method, a learning data set, and a learning method that can improve the learning efficiency of a teacher image. It is an object to provide an image recognition device.
態様の1つに係る画像学習プログラムは、画像セグメンテーションを行う画像認識装置によって実行される画像学習プログラムであって、前記画像認識装置の学習に用いられる学習データセットは、前記画像認識装置の学習対象の画像となる学習画像と、前記学習画像に対応する教師画像と、を含み、前記画像認識装置は、前記学習画像の画像セグメンテーションを行う第1の画像認識部と、前記第1の画像認識部よりも緻密な領域分割となるように前記学習画像の画像セグメンテーションを行う第2の画像認識部と、を備え、前記学習画像を前記第1の画像認識部に入力し、前記第1の画像認識部により前記学習画像の画像セグメンテーションを行って、第1の出力画像を取得する第1のステップと、前記学習画像と前記第1の出力画像とを前記第2の画像認識部に入力し、前記第1の出力画像を用いて前記第2の画像認識部により前記学習画像の画像セグメンテーションを行って、第2の出力画像を取得する第2のステップと、前記教師画像に対する前記第2の出力画像の第2の誤差を取得する第3のステップと、前記第2の誤差に基づいて、前記第2の画像認識部による画像セグメンテーションの処理を修正する第4のステップと、を実行させる。 An image learning program according to one aspect is an image learning program executed by an image recognition device that performs image segmentation, wherein a learning data set used for learning of the image recognition device is a learning target set of the image recognition device. The image recognition device includes a first image recognition unit that performs image segmentation of the learning image, and a first image recognition unit that performs image segmentation of the learning image. A second image recognizing unit that performs image segmentation of the learning image so as to be more finely divided into regions, and the learning image is input to the first image recognizing unit, and the first image recognition is performed. A first step of performing image segmentation of the learning image by a unit to obtain a first output image; A second step of inputting to the second image recognizing unit and performing image segmentation of the learning image by the second image recognizing unit using the first output image to obtain a second output image And a third step of obtaining a second error of the second output image with respect to the teacher image; and correcting the image segmentation process by the second image recognition unit based on the second error. And performing the fourth step.
態様の1つに係る画像学習方法は、画像セグメンテーションを行う画像認識装置が実行する画像学習方法であって、前記画像認識装置の学習に用いられる学習データセットは、前記画像認識装置の学習対象の画像となる学習画像と、前記学習画像に対応する教師画像と、を含み、前記画像認識装置は、前記学習画像の画像セグメンテーションを行う第1の画像認識部と、前記第1の画像認識部よりも緻密な領域分割となるように前記学習画像の画像セグメンテーションを行う第2の画像認識部と、を備え、前記学習画像を前記第1の画像認識部に入力し、前記第1の画像認識部により前記学習画像の画像セグメンテーションを行って、第1の出力画像を取得する第1のステップと、前記学習画像と前記第1の出力画像とを前記第2の画像認識部に入力し、前記第1の出力画像を用いて前記第2の画像認識部により前記学習画像の画像セグメンテーションを行って、第2の出力画像を取得する第2のステップと、前記教師画像に対する前記第2の出力画像の第2の誤差を取得する第3のステップと、前記第2の誤差に基づいて、前記第2の画像認識部による画像セグメンテーションの処理を修正する第4のステップと、を含む。 An image learning method according to one aspect is an image learning method performed by an image recognition device that performs image segmentation, wherein a learning data set used for learning of the image recognition device includes a learning data set of a learning target of the image recognition device. A learning image to be an image, and a teacher image corresponding to the learning image, wherein the image recognition device includes a first image recognition unit that performs image segmentation of the learning image, and a first image recognition unit. A second image recognizing unit that performs image segmentation of the learning image so that the region is finely divided, and inputs the learning image to the first image recognizing unit. A first step of performing image segmentation of the learning image to obtain a first output image, and performing the second image recognition on the learning image and the first output image. A second step of performing image segmentation of the learning image by the second image recognition unit using the first output image to obtain a second output image; and A third step of obtaining a second error of the second output image; and a fourth step of correcting an image segmentation process by the second image recognition unit based on the second error. Including.
態様の1つに係る画像認識プログラムは、入力された入力画像の画像セグメンテーションを行う画像認識装置によって実行される画像認識プログラムであって、前記画像認識装置は、前記入力画像の画像セグメンテーションを行う第1の画像認識部と、前記第1の画像認識部よりも緻密な領域分割となるように前記入力画像の画像セグメンテーションを行う第2の画像認識部と、を備え、前記入力画像を前記第1の画像認識部に入力し、前記第1の画像認識部により前記入力画像の画像セグメンテーションを行って、第1の出力画像を取得する第8のステップと、前記入力画像と前記第1の出力画像とを前記第2の画像認識部に入力し、前記第1の出力画像を用いて前記第2の画像認識部により前記入力画像の画像セグメンテーションを行って、第2の出力画像を取得する第9のステップと、を実行させる。 An image recognition program according to one aspect is an image recognition program executed by an image recognition device that performs image segmentation of an input image that has been input, wherein the image recognition device performs image segmentation of the input image. A first image recognition unit, and a second image recognition unit that performs image segmentation of the input image so as to be more finely divided into regions than the first image recognition unit. An eighth step of inputting the input image to the image recognition unit, and performing an image segmentation of the input image by the first image recognition unit to obtain a first output image; and the input image and the first output image. Is input to the second image recognizing unit, and the second image recognizing unit performs image segmentation of the input image using the first output image. To execute a ninth step of obtaining a second output image.
態様の1つに係る画像認識方法は、入力された入力画像の画像セグメンテーションを行う画像認識装置が実行する画像認識方法であって、前記画像認識装置は、前記入力画像の画像セグメンテーションを行う第1の画像認識部と、前記第1の画像認識部よりも緻密な領域分割となるように前記入力画像の画像セグメンテーションを行う第2の画像認識部と、を備え、前記入力画像を前記第1の画像認識部に入力し、前記第1の画像認識部により前記入力画像の画像セグメンテーションを行って、第1の出力画像を取得する第8のステップと、前記入力画像と前記第1の出力画像とを前記第2の画像認識部に入力し、前記第2の画像認識部により前記第1の出力画像を用いて前記入力画像の画像セグメンテーションを行って、第2の出力画像を取得する第9のステップと、を含む。 An image recognition method according to one aspect is an image recognition method performed by an image recognition device that performs image segmentation of an input image that has been input, wherein the image recognition device performs first image segmentation that performs image segmentation of the input image. An image recognizing unit, and a second image recognizing unit that performs image segmentation of the input image so that the area is more finely divided than the first image recognizing unit. An eighth step of inputting the input image to the image recognizing unit, performing an image segmentation of the input image by the first image recognizing unit, and obtaining a first output image; Is input to the second image recognizing unit, and the second image recognizing unit performs image segmentation of the input image using the first output image, thereby obtaining a second output image. Including a ninth step of Tokusuru, the.
態様の1つに係る学習データセットの生成プログラムは、入力された入力画像の画像セグメンテーションを行う画像認識装置に実行され、前記画像認識装置で用いられる学習データセットを生成する学習データセットの生成プログラムであって、前記画像認識装置は、前記入力画像の画像セグメンテーションを行う第1の画像認識部と、前記第1の画像認識部よりも緻密な領域分割となるように前記入力画像の画像セグメンテーションを行う第2の画像認識部と、を備え、前記学習データセットは、前記第1の画像認識部が学習するための第1の学習データセットと、前記第2の画像認識部が学習するための第2の学習データセットとを有し、前記第1の学習データセットは、第1の学習画像と、前記第1の学習画像に対応する第1の教師画像と、を含み、前記第2の学習データセットは、第2の学習画像と、前記第2の学習画像に対応する第2の教師画像と、を含み、前記第2の教師画像は、前記第1の教師画像に比して緻密に領域分割された画像となっており、前記第1の学習画像と前記第1の教師画像とを前記第2の画像認識部に入力し、前記第2の画像認識部により前記第1の教師画像を用いて前記第1の学習画像の画像セグメンテーションを行って、第2の出力画像を取得する第11のステップと、前記第1の学習画像を前記第2の学習画像として取得すると共に、前記第2の出力画像を前記第2の教師画像として取得し、前記第2の学習画像と前記第2の教師画像とを含む第2の学習データセットを生成する第12のステップと、を実行させる。 A program for generating a learning data set according to one aspect is executed by an image recognition device that performs image segmentation of an input image that has been input, and generates a learning data set that is used in the image recognition device. The image recognition device may further include: a first image recognition unit that performs image segmentation of the input image; and an image segmentation of the input image that is more minutely divided than the first image recognition unit. A second image recognizing unit for performing, wherein the learning data set includes a first learning data set for learning by the first image recognizing unit, and a learning data set for learning by the second image recognizing unit. A second learning data set, wherein the first learning data set includes a first learning image and a first teacher image corresponding to the first learning image. Wherein the second learning data set includes a second learning image and a second teacher image corresponding to the second learning image, and the second teacher image includes The first learning image and the first teacher image are input to the second image recognition unit, and the second learning image and the first teacher image are input to the second image recognition unit. An eleventh step of performing image segmentation of the first learning image using the first teacher image by an image recognition unit to obtain a second output image, and converting the first learning image to the second learning image. And the second output image is obtained as the second teacher image, and a second learning data set including the second learning image and the second teacher image is generated. The twelfth step is executed.
態様の1つに係る学習データセットの生成方法は、入力された入力画像の画像セグメンテーションを行う画像認識装置が実行して、前記画像認識装置で用いられる学習データセットを生成する学習データセットの生成方法であって、前記画像認識装置は、前記入力画像の画像セグメンテーションを行う第1の画像認識部と、前記第1の画像認識部よりも緻密な領域分割となるように前記入力画像の画像セグメンテーションを行う第2の画像認識部と、を備え、前記学習データセットは、前記第1の画像認識部が学習するための第1の学習データセットと、前記第2の画像認識部が学習するための第2の学習データセットとを有し、前記第1の学習データセットは、第1の学習画像と、前記第1の学習画像に対応する第1の教師画像と、を含み、前記第2の学習データセットは、第2の学習画像と、前記第2の学習画像に対応する第2の教師画像と、を含み、前記第2の教師画像は、前記第1の教師画像に比して緻密に領域分割された画像となっており、前記第1の学習画像と前記第1の教師画像とを前記第2の画像認識部に入力し、前記第2の画像認識部により前記第1の教師画像を用いて前記第1の学習画像の画像セグメンテーションを行って、第2の出力画像を取得する第11のステップと、前記第1の学習画像を前記第2の学習画像として取得すると共に、前記第2の出力画像を前記第2の教師画像として取得し、前記第2の学習画像と前記第2の教師画像とを含む第2の学習データセットを生成する第12のステップと、を含む。 A method of generating a learning data set according to one aspect is performed by an image recognition device that performs image segmentation of an input image that has been input, and generates a learning data set that generates a learning data set used in the image recognition device. A method, comprising: a first image recognition unit for performing image segmentation of the input image; and an image segmentation of the input image so as to perform a finer region division than the first image recognition unit. And a second image recognizing unit for performing the learning. The learning data set includes a first learning data set for the first image recognizing unit to learn, and a learning data set for the second image recognizing unit to learn. A second learning data set, wherein the first learning data set includes a first learning image, and a first teacher image corresponding to the first learning image. The second learning data set includes a second learning image and a second teacher image corresponding to the second learning image, and the second teacher image is included in the first teacher image. The first learning image and the first teacher image are input to the second image recognizing unit, and the first learning image and the first teacher image are input to the second image recognizing unit. An eleventh step of performing image segmentation of the first learning image using a first teacher image to obtain a second output image, and obtaining the first learning image as the second learning image And a twelfth step of obtaining the second output image as the second teacher image and generating a second learning data set including the second learning image and the second teacher image. ,including.
態様の1つに係る画像認識装置は、入力画像の画像セグメンテーションを行う第1の画像認識部と、前記第1の画像認識部よりも緻密な領域分割となるように前記入力画像の画像セグメンテーションを行う第2の画像認識部と、を備え、前記第1の画像認識部は、前記入力画像が入力されると、前記入力画像の画像セグメンテーションを行って、第1の出力画像を生成し、生成した前記第1の出力画像を前記第2の画像認識部へ向けて出力し、前記第2の画像認識部は、前記入力画像と前記第1の出力画像とが入力されると、前記第1の出力画像を用いて前記第2の画像認識部により前記入力画像の画像セグメンテーションを行って、第2の出力画像を出力する。 An image recognition device according to one aspect includes a first image recognition unit that performs image segmentation of an input image, and performs an image segmentation of the input image so as to perform a finer region division than the first image recognition unit. A second image recognizing unit for performing, when the input image is input, the first image recognizing unit performs image segmentation of the input image to generate a first output image, and generates the first output image. The first output image is output to the second image recognition unit, and the second image recognition unit receives the first image when the input image and the first output image are input. The image segmentation of the input image is performed by the second image recognition unit using the output image of (i), and a second output image is output.
本出願に係る実施形態を、図面を参照しつつ詳細に説明する。以下の説明において、同様の構成要素について同一の符号を付すことがある。さらに、重複する説明は省略することがある。また、本出願に係る実施形態を説明する上で密接に関連しない事項は、説明及び図示を省略することがある。 An embodiment according to the present application will be described in detail with reference to the drawings. In the following description, similar components may be denoted by the same reference numerals. Further, duplicate description may be omitted. In addition, description and illustration of matters that are not closely related in describing the embodiment according to the present application may be omitted.
(実施形態)
図1は、実施形態に係る画像認識装置の概要を示す図である。画像認識装置1は、入力される入力画像Iに含まれるオブジェクトを認識し、認識した結果を出力画像Oとして出力するものである。画像認識装置1は、カメラ等の撮像装置において撮像された撮影画像が入力画像Iとして入力される。画像認識装置1は、入力画像Iに対して画像セグメンテーションを行う。画像セグメンテーションとは、デジタル画像の分割された画像領域に対してクラスをラベリングすることであり、クラス推論(クラス分類)ともいう。つまり、画像セグメンテーションとは、デジタル画像の分割された所定の画像領域が、何れのクラスであるかを判別して、画像領域が示すクラスを識別するための識別子(ラベル)を付すことである。画像認識装置1は、入力画像Iを画像セグメンテーション(クラス推論)した画像を、出力画像Oとして出力する。
(Embodiment)
FIG. 1 is a diagram illustrating an outline of an image recognition device according to the embodiment. The image recognition device 1 recognizes an object included in an input image I to be input, and outputs a recognition result as an output image O. The image recognition device 1 receives a captured image captured by an imaging device such as a camera as an input image I. The image recognition device 1 performs image segmentation on an input image I. Image segmentation refers to labeling a class with respect to a divided image region of a digital image, and is also referred to as class inference (class classification). That is, the image segmentation is to determine which class the predetermined image area obtained by dividing the digital image belongs to, and to attach an identifier (label) for identifying the class indicated by the image area. The image recognition device 1 outputs an image obtained by performing image segmentation (class inference) on the input image I as an output image O.
画像認識装置1は、例えば、車の車載認識カメラに設けられている。車載認識カメラは、車の走行状況を所定のフレームレートでリアルタイムに撮像し、撮像した撮影画像を画像認識装置1に入力する。画像認識装置1は、所定のフレームレートで入力される撮影画像を入力画像Iとして取得する。画像認識装置1は、入力画像Iに含まれるオブジェクトをクラス分類して、クラス分類された画像を出力画像Oとして、所定のフレームレートで出力する。なお、画像認識装置1は、車載認識カメラへの搭載に限定されず、他の装置に設けてもよい。 The image recognition device 1 is provided, for example, in an in-vehicle recognition camera of a car. The in-vehicle recognition camera captures the running state of the vehicle at a predetermined frame rate in real time, and inputs the captured image to the image recognition device 1. The image recognition device 1 acquires a captured image input at a predetermined frame rate as an input image I. The image recognition device 1 classifies the objects included in the input image I into classes, and outputs the classified images as output images O at a predetermined frame rate. Note that the image recognition device 1 is not limited to being mounted on a vehicle-mounted recognition camera, and may be provided in another device.
先ず、図3を参照して、入力画像Iについて説明する。図3は、画像認識装置1に入力される入力画像Iの一例を示す図である。入力画像Iは、複数の画素(ピクセル)からなるデジタル画像である。入力画像Iは、例えば、カメラ等の撮像装置に設けられる撮像素子によって生成される、撮像素子の画素数に応じた解像度の画像となっている。つまり、入力画像Iは、画像の画素数を高くするアップサンプリング処理、または、画像の画素数を低くするダウンサンプリング処理が行われていない、高解像度となるオリジナルの原画像となっている。 First, the input image I will be described with reference to FIG. FIG. 3 is a diagram illustrating an example of an input image I input to the image recognition device 1. The input image I is a digital image including a plurality of pixels. The input image I is, for example, an image generated by an imaging device provided in an imaging device such as a camera and having a resolution according to the number of pixels of the imaging device. That is, the input image I is an original high resolution original image that has not been subjected to upsampling processing for increasing the number of pixels of the image or downsampling processing for decreasing the number of pixels of the image.
次に、図4を参照して、出力画像Oについて説明する。図4は、画像認識装置1から出力される出力画像Oの一例を示す図である。出力画像Oは、クラスごとに領域分割されている。クラスは、例えば、入力画像Iに含まれるオブジェクトを含み、人、車、道、建物等である。出力画像Oは、ピクセル単位でオブジェクトごとのクラス分類がなされ、ピクセル単位ごとに分類されたクラスがラベリングされることで、クラスごとに領域分割されている。図4では、例えば、人のクラスに分類された画像領域Oaと、車のクラスに分類された画像領域Obと、道路のクラスに分類された画像領域Ocとを図示している。なお、図4の出力画像Oは一例であり、このクラス分類に、特に限定されない。また、出力画像Oは、入力画像Iと同じ解像度となっている。 Next, the output image O will be described with reference to FIG. FIG. 4 is a diagram illustrating an example of an output image O output from the image recognition device 1. The output image O is divided into regions for each class. The class includes, for example, an object included in the input image I, and is a person, a car, a road, a building, and the like. The output image O is classified into classes by each object on a pixel-by-pixel basis, and the classes classified on a pixel-by-pixel basis are labeled to classify the image into regions. FIG. 4 illustrates, for example, an image region Oa classified into a person class, an image region Ob classified into a car class, and an image region Oc classified into a road class. Note that the output image O in FIG. 4 is an example, and there is no particular limitation on this class classification. The output image O has the same resolution as the input image I.
再び図1を参照して、画像認識装置1について説明する。画像認識装置1は、制御部5と、記憶部6と、画像認識部7とを備えている。 Referring to FIG. 1 again, the image recognition device 1 will be described. The image recognition device 1 includes a control unit 5, a storage unit 6, and an image recognition unit 7.
記憶部6は、プログラム及びデータを記憶する。また、記憶部6は、制御部5の処理結果を一時的に記憶する作業領域としても利用してもよい。記憶部6は、半導体記憶デバイス、及び磁気記憶デバイス等の任意の記憶デバイスを含んでよい。また、記憶部6は、複数の種類の記憶デバイスを含んでよい。また、記憶部6は、メモリカード等の可搬の記憶媒体と、記憶媒体の読み取り装置との組み合わせを含んでよい。 The storage unit 6 stores programs and data. Further, the storage unit 6 may be used as a work area for temporarily storing a processing result of the control unit 5. The storage unit 6 may include an arbitrary storage device such as a semiconductor storage device and a magnetic storage device. Further, the storage unit 6 may include a plurality of types of storage devices. The storage unit 6 may include a combination of a portable storage medium such as a memory card and a storage medium reading device.
記憶部6は、プログラムとして、画像学習プログラムP1と、画像認識プログラムP2と、学習データセットの生成プログラムP3とを含む。画像学習プログラムP1は、画像認識部7に学習を行わせるためのプログラムである。画像認識プログラムP2は、画像認識部7に画像認識を行わせるためのプログラムである。学習データセットの生成プログラムP3は、画像認識部7の学習に用いられる学習データセットを生成するためのプログラムである。また、記憶部6は、データとして、各種画像と、学習データセットとを含む。各種画像は、画像認識装置1に入力される入力画像I、画像認識装置1から出力される出力画像O等である。学習データセットは、画像認識部7の学習に用いられるデータである。 The storage unit 6 includes, as programs, an image learning program P1, an image recognition program P2, and a learning data set generation program P3. The image learning program P1 is a program for causing the image recognition unit 7 to perform learning. The image recognition program P2 is a program for causing the image recognition unit 7 to perform image recognition. The learning data set generation program P3 is a program for generating a learning data set used for learning of the image recognition unit 7. Further, the storage unit 6 includes various images and a learning data set as data. The various images are an input image I input to the image recognition device 1, an output image O output from the image recognition device 1, and the like. The learning data set is data used for learning of the image recognition unit 7.
制御部5は、画像認識装置1の動作を統括的に制御して各種の機能を実現する。制御部5は、例えば、CPU(Central Processing Unit)等の集積回路を含んでいる。具体的に、制御部5は、記憶部6に記憶されているプログラムに含まれる命令を実行して、画像認識部7等を制御することによって各種機能を実現する。 The control unit 5 controls the operation of the image recognition device 1 comprehensively to realize various functions. The control unit 5 includes, for example, an integrated circuit such as a CPU (Central Processing Unit). Specifically, the control unit 5 executes commands included in the program stored in the storage unit 6 and controls the image recognition unit 7 and the like to realize various functions.
制御部5は、例えば、画像学習プログラムP1を実行することにより、学習データセットを用いて、画像認識部7の学習を実行させる。また、制御部5は、例えば、画像認識プログラムP2を実行することにより、画像認識部7による入力画像Iの画像認識を実行させる。さらに、制御部5は、生成プログラムP3を実行することにより、画像認識部7による学習データセットの生成を実行させる。 The control unit 5 executes the learning of the image recognition unit 7 using the learning data set, for example, by executing the image learning program P1. Further, the control unit 5 causes the image recognition unit 7 to execute the image recognition of the input image I by executing the image recognition program P2, for example. Further, the control unit 5 causes the image recognition unit 7 to generate a learning data set by executing the generation program P3.
次に、図2を参照して、画像認識部7について説明する。図2は、実施形態に係る画像認識装置の画像認識部の概要を示す図である。画像認識部7は、GPU(Graphics Processing Unit)等の集積回路を含んでいる。画像認識部7は、第1の画像認識部11と、第2の画像認識部12とを備えている。画像認識部7は、入力画像Iが入力されると、入力画像Iを第1の画像認識部11及び第2の画像認識部12にそれぞれ入力する。
Next, the image recognition unit 7 will be described with reference to FIG. FIG. 2 is a diagram illustrating an outline of an image recognition unit of the image recognition device according to the embodiment. The image recognition unit 7 includes an integrated circuit such as a GPU (Graphics Processing Unit). The image recognition section 7 includes a first
第1の画像認識部11は、入力画像Iに含まれるオブジェクトの位置を求めるタスクを実行する。第1の画像認識部11は、例えば、バウンディング・ボックス(Bounding Box)を用いた画像セグメンテーションを行っている。バウンディング・ボックスは、入力画像Iに含まれるオブジェクトを囲む矩形状の画像領域である。第1の画像認識部11は、入力画像Iが入力されると、入力画像Iから、オブジェクトを囲むバウンディング・ボックスを抽出して、バウンディング・ボックスごとにクラス分類された画像を、第1の出力画像O1として出力する。つまり、第1の画像認識部11は、入力画像Iに対して、後述する第2の画像認識部12に比してラフに(粗めに)領域分割を行い、オブジェクトの位置に関する情報が含まれる第1の出力画像O1を出力する。
The first
第1の画像認識部11は、CNN(Convolution Neural Network)またはFCN(Fully Convolutional Network)等の畳み込み層を含むニューラル・ネットワーク(以下、単にネットワークともいう)を用いた画像セグメンテーションを行っている。第1の画像認識部11は、エンコーダ22と、デコーダ23とを有している。
The first
エンコーダ22は、入力画像Iに対してエンコード処理を実行する。エンコード処理は、入力画像Iの特徴量を抽出した特徴マップ(Feature Map)を生成しつつ、特徴マップの解像度を低くするダウンサンプリング(プーリングともいう)を実行する処理である。具体的に、エンコード処理では、畳み込み層とプーリング層とにおいて入力画像Iに処理が行われる。畳み込み層では、入力画像Iの特徴量を抽出するためのカーネル(フィルタ)を、入力画像Iにおいて所定のストライドで移動させる。そして、畳み込み層では、畳み込み層の重みに基づいて、入力画像Iの特徴量を抽出するための畳み込み計算が行われ、この畳み込み計算により特徴量が抽出された特徴マップを生成する。生成される特徴マップは、カーネルのチャネル数に応じた数だけ生成される。プーリング層では、特徴量が抽出された特徴マップを縮小して、低解像度となる特徴マップを生成する。エンコード処理では、畳み込み層における処理とプーリング層における処理とを複数回繰り返し実行することで、ダウンサンプリングされた特徴量を有する特徴マップを生成する。
The
デコーダ23は、エンコード処理後の特徴マップに対してデコード処理を実行する。デコード処理は、特徴マップの解像度を高くするアップサンプリング(アンプーリングともいう)を実行する処理である。具体的に、デコード処理は、逆畳み込み層とアンプーリング層とにおいて特徴マップに処理が行われる。アンプーリング層では、特徴量を含む低解像度の特徴マップを拡大して、高解像度となる特徴マップを生成する。逆畳み込み層では、特徴マップに含まれる特徴量を、復元させるための逆畳み込み計算が、逆畳み込み層の重みに基づいて実行され、この計算により特徴量を復元させた特徴マップを生成する。そして、デコード処理では、アンプーリング層における処理と逆畳み込み層における処理とを複数回繰り返し実行することで、アップサンプリングされ、領域分割された画像である第1の出力画像O1を生成する。第1の出力画像O1は、画像認識部7に入力される入力画像Iと同じ解像度になるまで、アップサンプリングされる。
The
以上のように、第1の画像認識部11は、入力画像Iに対して、エンコード処理及びデコード処理を実行し、ピクセル単位でクラス推論(クラス分類)を行うことで、入力画像Iの画像セグメンテーションを行う。そして、第1の画像認識部11は、入力画像Iをクラスごとに領域分割した画像を、第1の出力画像O1として出力する。
As described above, the first
なお、第1の画像認識部11は、バウンディング・ボックスを用いた画像セグメンテーションに適用して説明したが、特に限定されない。第1の画像認識部11は、入力画像Iに含まれるオブジェクトの位置を求めるタスクを実行可能であれば、例えば、異なるネットワークを用いた画像セグメンテーションを実行するものであってもよい。また、第1の画像認識部11は、エンコード処理とデコード処理とを実行したが、入力画像Iに含まれるオブジェクトの位置を求めるタスクを実行可能であれば、エンコード処理に含まれるプーリング層と、デコード処理に含まれるアンプーリング層とを省いてもよい。
Note that the first
また、詳細は後述するが、第1の画像認識部11は、学習時において、多量の第1の教師画像T1を用いて学習している。このため、第1の画像認識部11は、入力画像Iに対する様々な変動要因を学習することができることから、ロバスト性を担保した画像認識を実行する。例えば、車載認識カメラにおけるロバスト性とは、逆光及び暗所などの照度変動と、気候変動と、雨滴、泥及び傷などのレンズ変動と、雪及び路面反射などの走行空間変動とを含む各種変動の変動要因に対する耐性である。
Further, as will be described in detail later, the first
第1の画像認識部11は、その出力側が、第2の画像認識部12の入力側に接続されている。このため、第1の画像認識部11は、第1の出力画像O1を、第2の画像認識部12に入力する。また、第1の画像認識部11は、第1の出力画像O1を、中間画像として外部に出力している。
The output side of the first
第2の画像認識部12は、第1の画像認識部11に比して入力画像Iの領域分割を緻密に行うタスクを実行する。第2の画像認識部12は、例えば、セマンティック・セグメンテーションを用いた画像セグメンテーションを行っている。セマンティック・セグメンテーションは、入力画像Iの各ピクセルに対してクラス推論を行い、推論結果として、各ピクセルに対してクラスをラベリングすることで、入力画像Iの領域分割を行う。第2の画像認識部12には、入力画像Iと第1の出力画像O1とが入力される。第2の画像認識部12は、入力画像Iと第1の出力画像O1とが入力されると、第1の出力画像O1を用いて、入力画像Iのピクセルごとにクラス分類された画像を、第2の出力画像O2として出力する。つまり、第2の画像認識部12は、第1の出力画像O1をヒントとして、入力画像Iに対して、第1の画像認識部11に比して緻密に領域分割を行って、第2の出力画像O2を出力する。
The second image recognizing unit 12 executes a task of performing the area division of the input image I more precisely than the first
第2の画像認識部12は、CNN(Convolution Neural Network)またはFCN(Fully Convolutional Network)等の畳み込み層を含むニューラル・ネットワーク(以下、単にネットワークともいう)を用いた画像セグメンテーションを行っている。また、第2の画像認識部12は、入力画像Iの特徴量を抽出する特徴量抽出処理を実行する。さらに、第2の画像認識部12は、第1の出力画像O1と特徴量抽出処理が行われる画像とを統合するフュージョン処理を実行して、ピクセル単位のクラス推論を行っている。 The second image recognition unit 12 performs image segmentation using a neural network including a convolutional layer such as a CNN (Convolution Neural Network) or an FCN (Fully Convolutional Network) (hereinafter, simply referred to as a network). In addition, the second image recognition unit 12 performs a feature amount extraction process of extracting a feature amount of the input image I. Further, the second image recognition unit 12 performs a fusion process for integrating the first output image O1 and the image on which the feature amount extraction process is performed, and performs class inference on a pixel-by-pixel basis.
特徴量抽出処理は、複数の畳み込み層において入力画像Iの特徴量を抽出する処理であり、エンコーダ22における畳み込み層の処理とほぼ同様である。また、特徴量抽出処理では、プーリング層を省いた処理となっている。畳み込み層では、入力画像Iの特徴量を抽出するための畳み込み計算が、畳み込み層の重みに基づいて実行され、この計算により特徴量が抽出された特徴マップを生成する。特徴量抽出処理では、入力画像Iに対して畳み込み計算が複数回実行されることで、特徴マップを生成する。
The feature amount extraction process is a process of extracting the feature amount of the input image I in a plurality of convolution layers, and is substantially the same as the processing of the convolution layer in the
フュージョン処理は、第1の出力画像O1をヒントとして、特徴量抽出処理が行われる特徴マップをマージして、クラス推論を行うことにより、クラスごとに領域分割された画像を生成し、入力画像Iと同じ解像度の第2の出力画像O2を生成する。 In the fusion process, the first output image O1 is used as a hint to merge the feature maps on which the feature amount extraction process is performed, and to perform class inference, thereby generating an image divided into regions for each class. To generate a second output image O2 having the same resolution as that of.
以上のように、第2の画像認識部12は、入力画像Iに対して、特徴量抽出処理及びフュージョン処理を実行し、第1の出力画像O1をヒントとして、ピクセル単位でクラス推論(クラス分類)を行うことで、入力画像Iの画像セグメンテーションを行う。また、第2の画像認識部12は、画像セグメンテーションされた入力画像Iを、第2の出力画像O2として出力する。 As described above, the second image recognition unit 12 performs the feature amount extraction processing and the fusion processing on the input image I, and performs class inference (class classification) on a pixel-by-pixel basis using the first output image O1 as a hint. ) To perform the image segmentation of the input image I. In addition, the second image recognition unit 12 outputs the input image I that has been subjected to the image segmentation as a second output image O2.
なお、第2の画像認識部12は、セマンティック・セグメンテーションを用いた画像セグメンテーションに適用して説明したが、特に限定されない。第2の画像認識部12は、第1の画像認識部11に比して入力画像Iの領域分割を緻密に行うタスクを実行可能であれば、例えば、異なるネットワークを用いた画像セグメンテーションを実行するものであってもよい。
The second image recognition unit 12 has been described as applied to image segmentation using semantic segmentation, but is not particularly limited. If the second image recognizing unit 12 can execute a task of performing the area division of the input image I more precisely than the first
また、詳細は後述するが、第2の画像認識部12は、学習時において、第1の出力画像O1と、緻密に領域分割された高解像度の第2の教師画像とを用いて学習している。このため、第2の画像認識部12は、入力画像Iに対する緻密な領域分割を行うことができることから、画像認識性(認識精度)を担保した画像認識を実行する。 As will be described later in detail, the second image recognition unit 12 learns at the time of learning using the first output image O1 and the high-resolution second teacher image that is finely divided into regions. I have. For this reason, since the second image recognition unit 12 can perform fine area division on the input image I, the second image recognition unit 12 performs image recognition while ensuring image recognizability (recognition accuracy).
第2の画像認識部12は、第2の出力画像O2を外部に出力する。また、第2の画像認識部12は、第2の出力画像O2の生成時に用いた第1の出力画像O1を、第2の出力画像O2に関連付けて出力可能となっている。 The second image recognition unit 12 outputs the second output image O2 to the outside. In addition, the second image recognition unit 12 can output the first output image O1 used when generating the second output image O2 in association with the second output image O2.
以上から、第1の画像認識部11は、第2の画像認識部12と比べて緻密な領域分割を行う必要がないため、難易度が低く計算負荷の低いタスクとなっている。また、第2の画像認識部12は、第1の出力画像O1を用いて入力画像Iの領域分割を行うため、入力画像Iのみからの画像セグメンテーションを行うセマンティック・セグメンテーションに比して、難易度が低く計算負荷の低いタスクとなっている。
As described above, since the first
次に、画像認識装置1の学習について説明する。画像認識装置1の学習には、学習データセットが用いられる。学習データセットは、学習対象となる画像である学習画像と、学習画像に対応する教師画像と、を含む。学習画像は、入力画像と同様に、デジタル画像である。教師画像は、学習画像に対応する画像セグメンテーションされた回答となる画像、つまり、領域分割された画像となっている。教師画像は、アノテーション作業により生成される画像となっている。 Next, learning of the image recognition device 1 will be described. The learning of the image recognition device 1 uses a learning data set. The learning data set includes a learning image, which is an image to be learned, and a teacher image corresponding to the learning image. The learning image is a digital image, like the input image. The teacher image is an image that is an answer that has been subjected to image segmentation corresponding to the learning image, that is, an image obtained by region segmentation. The teacher image is an image generated by the annotation work.
図5は、第1の学習データセットの一例を示す図である。図6は、第2の学習データセットの一例を示す図である。学習データセットは、第1の画像認識部11の学習に用いられる第1の学習データセットD1と、第2の画像認識部12の学習に用いられる第2の学習データセットD2とを含む。
FIG. 5 is a diagram illustrating an example of the first learning data set. FIG. 6 is a diagram illustrating an example of the second learning data set. The learning data set includes a first learning data set D1 used for learning of the first
図5に示すように、第1の学習データセットD1は、第1の学習画像G1と、第1の教師画像T1とを含む。第1の学習画像G1は、第1の画像認識部11の学習対象となる画像であり、入力画像と同様に、デジタル画像である。第1の教師画像T1は、バウンディング・ボックスを用いてクラスごとに領域分割された画像となっている。図5に示す第1の教師画像T1では、例えば、人のクラスに分類された矩形状の画像領域T1aと、車のクラスに分類された矩形状の画像領域T1bと含んでいる。
As shown in FIG. 5, the first learning data set D1 includes a first learning image G1 and a first teacher image T1. The first learning image G1 is an image to be learned by the first
第2の学習データセットD2は、第2の学習画像G2と、第2の教師画像T2とを含む。第2の学習画像G2は、第2の画像認識部12の学習対象となる画像であり、入力画像及び第1の学習画像G1と同様に、デジタル画像である。なお、図5及び図6では、説明を簡単にするために、第1の学習画像G1と第2の学習画像G2とを同じ画像としているが、異なる画像であってもよい。第2の教師画像T2は、ピクセル単位でクラスごとに領域分割された画像となっている。図6に示す第2の教師画像T2では、例えば、人のクラスに分類された画像領域T2aと、車のクラスに分類された画像領域T2bと、道路のクラスに分類された画像領域T2cとを含んでいる。 The second learning data set D2 includes a second learning image G2 and a second teacher image T2. The second learning image G2 is an image to be learned by the second image recognition unit 12, and is a digital image like the input image and the first learning image G1. In FIGS. 5 and 6, the first learning image G1 and the second learning image G2 are the same image for the sake of simplicity, but may be different images. The second teacher image T2 is an image that is divided into regions by pixel in units of classes. In the second teacher image T2 shown in FIG. 6, for example, an image region T2a classified into a person class, an image region T2b classified into a car class, and an image region T2c classified into a road class are included. Contains.
第1の教師画像T1は、第2の教師画像T2に比して粗い領域分割となる画像セグメンテーションが行われた画像となっている。換言すれば、第2の教師画像T2は、第1の教師画像T1に比して緻密な領域分割となる画像セグメンテーションが行われた画像となっている。第1の教師画像T1及び第2の教師画像T2は、アノテーション作業により生成される画像となっている。具体的に、第1の教師画像T1は、第1の学習画像G1に含まれるオブジェクトをバウンディング・ボックスにより囲んでクラス分類を行うアノテーション作業により生成される。第2の教師画像T2は、第1の学習画像G1のピクセル単位でクラス分類を行うアノテーション作業により生成される。このため、第1の教師画像T1は、第2の教師画像T2に比して作業負荷が低く、アノテーションコストが低いものとなっている。換言すれば、第2の教師画像T2は、第1の教師画像T1に比して作業負荷が高く、アノテーションコストが高いものとなっている。 The first teacher image T1 is an image that has been subjected to image segmentation that results in coarser area division than the second teacher image T2. In other words, the second teacher image T2 is an image that has been subjected to image segmentation that results in a finer area division than the first teacher image T1. The first teacher image T1 and the second teacher image T2 are images generated by the annotation work. Specifically, the first teacher image T1 is generated by an annotation operation of classifying the object included in the first learning image G1 by surrounding the object with a bounding box. The second teacher image T2 is generated by an annotation work of performing class classification on a pixel-by-pixel basis in the first learning image G1. Therefore, the first teacher image T1 has a lower work load and a lower annotation cost than the second teacher image T2. In other words, the second teacher image T2 has a higher work load and a higher annotation cost than the first teacher image T1.
また、画像認識装置1の学習に際し、用意される第1の教師画像T1は、第2の教師画像T2に比して多量となっている。換言すれば、用意される第2の教師画像T2は、第1の教師画像T1に比して少量となっている。つまり、アノテーションコストの低い第1の教師画像T1を含む第1の学習データセットD1を多量に用意して、第1の画像認識部11の学習を行う。また、アノテーションコストの高い第2の教師画像T2を含む第2の学習データセットD2を少量だけ用意して、第2の画像認識部12の学習を行う。
Further, the first teacher image T1 prepared for learning by the image recognition device 1 is larger than the second teacher image T2. In other words, the amount of the prepared second teacher image T2 is smaller than that of the first teacher image T1. That is, a large amount of the first learning data set D1 including the first teacher image T1 with low annotation cost is prepared, and the learning of the first
次に、図7から図9を参照して、第1の学習データセットD1及び第2の学習データセットD2を用いた画像認識装置1の学習に関する処理について説明する。図7から図9は、画像認識装置の画像学習に関する処理の一例を示す図である。画像認識装置1の学習では、第1の画像認識部11の学習を行ってから、第2の画像認識部12の学習を行っている。
Next, with reference to FIG. 7 to FIG. 9, a process related to learning of the image recognition device 1 using the first learning data set D1 and the second learning data set D2 will be described. 7 to 9 are diagrams illustrating an example of processing related to image learning of the image recognition device. In the learning of the image recognition device 1, the learning of the second image recognition unit 12 is performed after the learning of the first
図7を参照して、第1の学習データセットD1を用いて、第1の画像認識部11の学習を行う処理について説明する。第1の画像認識部11の学習を行う処理では、第1の学習画像G1を第1の画像認識部11に入力し、第1の画像認識部11により第1の学習画像G1の画像セグメンテーションを行って、第1の出力画像O1を取得するステップ(第5のステップ)を実行する。
With reference to FIG. 7, a process of performing learning of the first
具体的に、第1の学習データセットD1の第1の学習画像G1が、画像認識装置1の第1の画像認識部11に入力される(ステップS1)。第1の学習画像G1が入力されると、第1の画像認識部11は、第1の学習画像G1を入力画像として、第1の学習画像G1に対してエンコード処理を実行する(ステップS2)。第1の画像認識部11は、エンコード処理を実行することで、ダウンサンプリングされた特徴量を含む低解像度の特徴マップを生成する。第1の画像認識部11は、ダウンサンプリングされた低解像度の特徴量を含む特徴マップに対してデコード処理を実行する(ステップS3)。第1の画像認識部11は、デコード処理を実行することで、特徴量を含む特徴マップを復元しながらアップサンプリングして、第1の学習画像G1と同じ解像度とする。そして、第1の画像認識部11は、画像をピクセル単位でクラスごとに領域分割するクラス推論を実行する(ステップS4)。第1の画像認識部11は、クラス推論の結果として、第1の出力画像O1を取得する(ステップS5)。
Specifically, the first learning image G1 of the first learning data set D1 is input to the first
次に、第1の画像認識部11の学習を行う処理では、第1の教師画像T1に対する第1の出力画像O1の第1の誤差を取得するステップ(ステップS6:第6のステップ)を実行する。
Next, in the learning process of the first
具体的に、ステップS6において、第1の画像認識部11は、第1の出力画像O1を取得すると、第1の学習データセットD1の第1の教師画像T1を取得する。第1の画像認識部11は、取得した第1の教師画像T1と第1の出力画像O1とから、第1の教師画像T1と第1の出力画像O1との誤差量を第1の誤差として算出する。誤差量は、Cross Entropy関数を用いて誤差計算を行うことにより算出される。
Specifically, in step S6, when the first
そして、第1の画像認識部11の学習を行う処理では、第1の誤差に基づいて、第1の画像認識部11による画像セグメンテーションを修正するステップ(第7のステップ)を実行する。
Then, in the process of learning the first
具体的に、第1の画像認識部11は、第1の誤差を取得すると、誤差量に基づいて誤差逆伝播法によりネットワークにおける誤差が修正されるように、ネットワークの畳み込み層及び逆畳み込み層の重みを学習させ、ネットワークを更新する(ステップS7)。第1の画像認識部11は、ステップS7の実行により、第1の学習データセットD1を用いた学習を終了する。そして、第1の画像認識部11は、ステップS1からステップS7を、第1の学習データセットD1のセット数に応じて繰り返し実行する。
Specifically, when the first
次に、図8及び図9を参照して、第2の学習データセットD2を用いて、第2の画像認識部12の学習を行う処理について説明する。第2の画像認識部12の学習を行う処理では、第1の画像認識部11は学習済みとなっており、第1の画像認識部11から出力される第1の出力画像O1が用いられる。第2の画像認識部12の学習を行う処理では、第2の学習画像G2を第1の画像認識部11に入力し、第1の画像認識部11により第2の学習画像G2の画像セグメンテーションを行って、第1の出力画像O1を取得するステップ(第1のステップ)を実行する。
Next, with reference to FIGS. 8 and 9, a process of learning the second image recognition unit 12 using the second learning data set D2 will be described. In the process of learning the second image recognition unit 12, the first
具体的に、図8に示すように、第2の学習データセットD2の第2の学習画像G2が、画像認識装置1の第1の画像認識部11に入力される(ステップS11)。第2の学習画像G2が入力されると、第1の画像認識部11は、第2の学習画像G2を入力画像として、第2の学習画像G2に対してエンコード処理を実行する(ステップS12)。第1の画像認識部11は、エンコード処理を実行することで、ダウンサンプリングされた特徴量を含む低解像度の特徴マップを生成する。第1の画像認識部11は、ダウンサンプリングされた特徴量を含む特徴マップに対してデコード処理を実行する(ステップS13)。第1の画像認識部11は、デコード処理を実行することで、特徴量を含む低解像度の特徴マップを復元しながらアップサンプリングして、第2の学習画像G2と同じ解像度とする。そして、第1の画像認識部11は、画像をピクセル単位でクラスごとに領域分割するクラス推論を実行する(ステップS14)。第1の画像認識部11は、クラス推論の結果として、第1の出力画像O1を取得する(ステップS15)。
Specifically, as shown in FIG. 8, the second learning image G2 of the second learning data set D2 is input to the first
次に、第2の画像認識部12の学習を行う処理では、第2の学習画像G2と第1の出力画像O1とを第2の画像認識部12に入力し、第1の出力画像O1を用いて第2の画像認識部12により第2の学習画像G2の画像セグメンテーションを行って、第2の出力画像O2を取得するステップ(第2のステップ)を実行する。 Next, in the process of performing learning of the second image recognition unit 12, the second learning image G2 and the first output image O1 are input to the second image recognition unit 12, and the first output image O1 is processed. The second image recognizing unit 12 performs image segmentation of the second learning image G2 by using the second image recognition unit 12 to obtain a second output image O2 (second step).
具体的に、図9に示すように、第2の学習データセットD2の第2の学習画像G2が、画像認識装置1の第2の画像認識部12に入力される(ステップS21)。第2の学習画像G2が入力されると、第2の画像認識部12は、第2の学習画像G2を入力画像として、第2の学習画像G2に対して特徴量抽出処理を実行する(ステップS22)。第2の画像認識部12は、特徴量抽出処理を実行することで、特徴量を含む特徴マップを生成する。また、第2の画像認識部12は、特徴量を含む特徴マップに対してフュージョン処理を実行する(ステップS23)。第2の画像認識部12は、フュージョン処理を実行することで、第1の出力画像O1をヒントとして、特徴量抽出処理が行われる特徴マップを復元する。そして、第2の画像認識部12は、特徴マップから、ピクセル単位でクラスごとに領域分割するクラス推論を実行する(ステップS24)。第2の画像認識部12は、クラス推論の結果として、第2の出力画像O2を取得する(ステップS25)。 Specifically, as shown in FIG. 9, the second learning image G2 of the second learning data set D2 is input to the second image recognition unit 12 of the image recognition device 1 (Step S21). When the second learning image G2 is input, the second image recognition unit 12 executes a feature amount extraction process on the second learning image G2 using the second learning image G2 as an input image (Step S10). S22). The second image recognition unit 12 generates a feature map including a feature amount by executing a feature amount extraction process. In addition, the second image recognition unit 12 performs a fusion process on the feature map including the feature amount (Step S23). The second image recognizing unit 12 executes the fusion process to restore the feature map on which the feature amount extraction process is performed using the first output image O1 as a hint. Then, the second image recognizing unit 12 executes class inference that divides the area for each class on a pixel basis from the feature map (step S24). The second image recognition unit 12 acquires a second output image O2 as a result of the class inference (Step S25).
次に、第2の画像認識部12の学習を行う処理では、第2の教師画像T2に対する第2の出力画像O2の第2の誤差を取得するステップ(ステップS26:第3のステップ)を実行する。 Next, in the learning process of the second image recognition unit 12, a step of acquiring a second error of the second output image O2 with respect to the second teacher image T2 (Step S26: a third step) is executed. I do.
具体的に、ステップS26において、第2の画像認識部12は、第2の出力画像O2を取得すると、第2の学習データセットD2の第2の教師画像T2を取得する。第2の画像認識部12は、取得した第2の教師画像T2と第2の出力画像O2とから、第2の教師画像T2と第2の出力画像O2との誤差量を第2の誤差として算出する。誤差量は、Cross Entropy関数を用いて誤差計算を行うことにより算出される。 Specifically, in step S26, when acquiring the second output image O2, the second image recognition unit 12 acquires the second teacher image T2 of the second learning data set D2. The second image recognizing unit 12 sets an error amount between the second teacher image T2 and the second output image O2 as a second error based on the acquired second teacher image T2 and the second output image O2. calculate. The error amount is calculated by performing an error calculation using the Cross Entropy function.
そして、第2の画像認識部12の学習を行う処理では、第2の誤差に基づいて、第2の画像認識部12による画像セグメンテーションを修正するステップ(第4のステップ)を実行する。 Then, in the process of learning by the second image recognition unit 12, a step (fourth step) of correcting the image segmentation by the second image recognition unit 12 based on the second error is executed.
具体的に、第2の画像認識部12は、第2の誤差を取得すると、誤差量に基づいて誤差逆伝播法によりネットワークにおける誤差が修正されるように、ネットワークの畳み込み層の重みを学習させ、ネットワークを更新する(ステップS27)。ここで、ステップS27において、第2の誤差に基づく学習では、第2の画像認識部12の学習を行う一方で、第1の画像認識部11の学習を遮断している。すなわち、第2の誤差は、第2の画像認識部12へ誤差逆伝播させる一方で、第1の画像認識部11へ誤差逆伝播させない。このため、ステップS27では、第2の画像認識部12におけるネットワークが誤差修正される一方で、第1の画像認識部11におけるネットワークが誤差修正されない。第2の画像認識部12は、ステップS27の実行により、第2の学習データセットD2を用いた学習を終了する。そして、第2の画像認識部12は、ステップS21からステップS27を、第2の学習データセットD2のセット数に応じて繰り返し実行する。
Specifically, when the second image recognition unit 12 acquires the second error, the second image recognition unit 12 learns the weight of the convolutional layer of the network so that the error in the network is corrected by the error backpropagation method based on the error amount. The network is updated (step S27). Here, in step S27, in the learning based on the second error, the learning of the first
このように、画像認識装置1の学習では、アノテーションコストの低い多量の第1の学習データセットD1を用いて、第1の画像認識部11を学習させている。また、画像認識装置1の学習では、アノテーションコストの高い少量の第2の学習データセットD2を用いて、第2の画像認識部12を学習させている。
As described above, in the learning of the image recognition device 1, the first
次に、図10及び図11を参照して、学習済みの画像認識装置1による画像認識について説明する。図10及び図11は、画像認識装置の画像認識に関する処理の一例を示す図である。画像認識装置1の画像認識に関する処理では、入力画像Iを第1の画像認識部11に入力し、第1の画像認識部11により入力画像Iの画像セグメンテーションを行って、第1の出力画像O1を取得するステップ(第8のステップ)を実行する。
Next, with reference to FIGS. 10 and 11, image recognition by the learned image recognition device 1 will be described. FIG. 10 and FIG. 11 are diagrams illustrating an example of processing related to image recognition of the image recognition device. In a process related to image recognition of the image recognition device 1, the input image I is input to the first
具体的に、図9に示すように、入力画像Iが画像認識装置1に入力される(ステップS31)。入力画像Iが入力されると、第1の画像認識部11は、入力画像Iに対してエンコード処理を実行する(ステップS32)。第1の画像認識部11は、エンコード処理を実行することで、ダウンサンプリングされた特徴量を含む低解像度の特徴マップを生成する。第1の画像認識部11は、ダウンサンプリングされた特徴量を含む特徴マップに対してデコード処理を実行する(ステップS33)。第1の画像認識部11は、デコード処理を実行することで、特徴量を含む低解像度の特徴マップを復元しながらアップサンプリングして、入力画像Iと同じ解像度とする。そして、第1の画像認識部11は、画像をピクセル単位でクラスごとに領域分割するクラス推論を実行する(ステップS34)。第1の画像認識部11は、クラス推論の結果として、第1の出力画像O1を取得する(ステップS35)。
Specifically, as shown in FIG. 9, the input image I is input to the image recognition device 1 (Step S31). When the input image I is input, the first
次に、画像認識装置1の画像認識に関する処理では、入力画像Iと第1の出力画像O1とを第2の画像認識部12に入力し、第1の出力画像O1を用いて第2の画像認識部12により入力画像Iの画像セグメンテーションを行って、第2の出力画像O2を取得するステップ(第9のステップ)を実行する。 Next, in the process related to image recognition of the image recognition device 1, the input image I and the first output image O1 are input to the second image recognition unit 12, and the second image is input using the first output image O1. A step (a ninth step) of performing the image segmentation of the input image I by the recognition unit 12 to obtain the second output image O2 is executed.
具体的に、図11に示すように、入力画像Iが、画像認識装置1の第2の画像認識部12に入力される(ステップS41)。入力画像Iが入力されると、第2の画像認識部12は、入力画像Iに対して特徴量抽出処理を実行する(ステップS42)。第2の画像認識部12は、特徴量抽出処理を実行することで、入力画像Iから特徴量を含む特徴マップを生成する。また、第2の画像認識部12は、特徴量を含む特徴マップに対してフュージョン処理を実行する(ステップS43)。第2の画像認識部12は、フュージョン処理を実行することで、第1の出力画像O1をヒントとして、特徴量抽出処理が行われる特徴マップを復元する。そして、第2の画像認識部12は、特徴マップから、ピクセル単位でクラスごとに領域分割するクラス推論を実行する(ステップS44)。第2の画像認識部12は、クラス推論の結果として、第2の出力画像O2を取得する(ステップS45)。 Specifically, as shown in FIG. 11, the input image I is input to the second image recognition unit 12 of the image recognition device 1 (Step S41). When the input image I is input, the second image recognition unit 12 performs a feature amount extraction process on the input image I (Step S42). The second image recognizing unit 12 generates a feature map including the feature amount from the input image I by executing the feature amount extracting process. In addition, the second image recognition unit 12 performs a fusion process on the feature map including the feature amount (Step S43). The second image recognizing unit 12 executes the fusion process to restore the feature map on which the feature amount extraction process is performed using the first output image O1 as a hint. Then, the second image recognition unit 12 executes a class inference that divides the area for each class on a pixel-by-pixel basis from the feature map (step S44). The second image recognition unit 12 acquires the second output image O2 as a result of the class inference (Step S45).
このように、画像認識装置1の画像認識では、第1の画像認識部11においてロバスト性を担保した画像認識を行う。また、第1の画像認識部11では、第2の画像認識部12と比べて緻密な領域分割を行う必要がないため、計算負荷の低いタスクで画像認識を行う。そして、画像認識装置1の画像認識では、第2の画像認識部12において緻密な領域分割を行うため、画像認識性を担保した画像認識を行う。また、第2の画像認識部12では、第1の出力画像O1を用いて入力画像Iの領域分割を行うため、計算負荷の低いタスクで画像認識を行う。
As described above, in the image recognition of the image recognition device 1, the first
また、画像認識装置1の画像認識に関する処理として、図12に示す処理を行っている。図12は、画像認識装置の画像認識に関する処理の一例を示す図である。図12に示す処理では、画像認識により取得した第1の出力画像O1と、第1の出力画像O1に対応する第2の出力画像O2とを関連付けて取得するステップ(第10のステップ)を実行する。 In addition, the processing illustrated in FIG. 12 is performed as processing related to image recognition of the image recognition device 1. FIG. 12 is a diagram illustrating an example of a process regarding image recognition of the image recognition device. In the process shown in FIG. 12, a step (tenth step) of acquiring the first output image O1 acquired by the image recognition and the second output image O2 corresponding to the first output image O1 in association with each other is executed. I do.
具体的に、図12に示すように、第1の画像認識部11が第1の出力画像O1を中間画像として取得する(ステップS51)。また、第2の画像認識部12が第1の出力画像O1に対応する第2の出力画像O2を取得する(ステップS52)。画像認識装置1は、第1の出力画像O1と第2の出力画像O2を関連付けて取得する(ステップS53)。
More specifically, as shown in FIG. 12, the first
そして、取得された第1の出力画像O1及び第2の出力画像O2は、画像認識装置1による画像認識の評価または解析を行う場合において使用される。例えば、画像認識装置1による画像認識に誤認識等の不具合があった場合、第1の出力画像O1及び第2の出力画像O2を比較することで、第1の画像認識部11における異常があったのか、第2の画像認識部12における異常があったのかを推定することが可能となる。すなわち、第2の出力画像O2に誤認識がある場合、第1の出力画像O1に誤認識がなければ、第2の画像認識部12に異常があると推定できる。一方で、第2の出力画像O2に誤認識がある場合、第1の出力画像O1に誤認識があれば、第1の画像認識部11に異常があると推定できる。
Then, the obtained first output image O1 and second output image O2 are used when evaluating or analyzing image recognition by the image recognition device 1. For example, when there is a defect such as erroneous recognition in image recognition by the image recognition device 1, by comparing the first output image O1 and the second output image O2, an abnormality in the first
次に、図13を参照して、学習済みの画像認識装置1による学習データセットの生成について説明する。図13は、画像認識装置による学習データセットの生成に関する処理の一例を示す図である。画像認識装置1の学習データセットの生成に関する処理では、既に用意されている第1の学習データセットD1を用いて、第2の学習データセットD2を生成している。学習データセットの生成に関する処理では、第1の学習画像G1と第1の教師画像T1とを第2の画像認識部12に入力し、第2の画像認識部12により第1の教師画像T1を用いて第1の学習画像G1の画像セグメンテーションを行って、第2の出力画像O2を取得するステップ(第11のステップ)を実行する。 Next, generation of a learning data set by the learned image recognition device 1 will be described with reference to FIG. FIG. 13 is a diagram illustrating an example of a process regarding generation of a learning data set by the image recognition device. In the process regarding the generation of the learning data set of the image recognition device 1, the second learning data set D2 is generated using the first learning data set D1 that has already been prepared. In the processing related to the generation of the learning data set, the first learning image G1 and the first teacher image T1 are input to the second image recognition unit 12, and the first teacher image T1 is generated by the second image recognition unit 12. A step (eleventh step) of performing image segmentation of the first learning image G1 to obtain a second output image O2 is performed.
具体的に、図13に示すように、第1の学習画像G1が、画像認識装置1の第2の画像認識部12に入力される(ステップS61)。第1の学習画像G1が入力されると、第2の画像認識部12は、第1の学習画像G1に対して特徴量抽出処理を実行する(ステップS62)。第2の画像認識部12は、特徴量抽出処理を実行することで、第1の学習画像G1から特徴量を含む特徴マップを生成する。また、第2の画像認識部12は、特徴量を含む特徴マップに対してフュージョン処理を実行する(ステップS63)。第2の画像認識部12は、フュージョン処理を実行することで、第1の教師画像T1をヒントとして、特徴量抽出処理が行われる特徴マップを復元する。そして、第2の画像認識部12は、特徴マップから、ピクセル単位でクラスごとに領域分割するクラス推論を実行する(ステップS64)。第2の画像認識部12は、クラス推論の結果として、第2の出力画像O2を取得する(ステップS65)。 Specifically, as shown in FIG. 13, the first learning image G1 is input to the second image recognition unit 12 of the image recognition device 1 (Step S61). When the first learning image G1 is input, the second image recognition unit 12 executes a feature amount extraction process on the first learning image G1 (Step S62). The second image recognition unit 12 generates a feature map including a feature amount from the first learning image G1 by executing a feature amount extraction process. In addition, the second image recognition unit 12 performs a fusion process on the feature map including the feature amount (Step S63). The second image recognition unit 12 executes the fusion process to restore the feature map on which the feature amount extraction process is performed using the first teacher image T1 as a hint. Then, the second image recognizing unit 12 executes class inference for dividing the area for each class on a pixel-by-pixel basis from the feature map (step S64). The second image recognition unit 12 acquires a second output image O2 as a result of the class inference (Step S65).
次に、学習データセットの生成に関する処理では、画像認識装置1は、第1の学習画像G1を第2の学習画像G2として取得する。また、画像認識装置1は、第2の出力画像O2を第2の教師画像T2として取得する。そして、画像認識装置1は、第2の学習画像G2と第2の教師画像T2とを含む第2の学習データセットD2を生成する(ステップS66:第12のステップ)。画像認識装置1は、ステップS66の実行後、第2の学習データセットD2の生成を終了する。そして、画像認識装置1は、ステップS61からステップS66を、異なる第1の学習データセットD1を用いながら、複数回繰り返し実行することで、第2の学習データセットD2を複数生成する。なお、生成した複数の第2の学習データセットD2の中から、使用可能な第2の学習データセットD2を選別するステップを追加してもよい。 Next, in the process relating to the generation of the learning data set, the image recognition device 1 acquires the first learning image G1 as the second learning image G2. In addition, the image recognition device 1 acquires the second output image O2 as the second teacher image T2. Then, the image recognition device 1 generates a second learning data set D2 including the second learning image G2 and the second teacher image T2 (Step S66: twelfth step). After performing Step S66, the image recognition device 1 ends the generation of the second learning data set D2. Then, the image recognition device 1 generates a plurality of second learning data sets D2 by repeatedly executing steps S61 to S66 a plurality of times while using different first learning data sets D1. Note that a step of selecting a usable second learning data set D2 from the plurality of generated second learning data sets D2 may be added.
以上のように、実施形態に係る画像認識装置1の学習では、第1の画像認識部11の学習と、第2の画像認識部12の学習とに分けることができる。そして、第1の画像認識部11の学習では、アノテーションコストの低い多量の第1の学習データセットD1を用いて学習を行うことができる。また、第2の画像認識部12の学習では、アノテーションコストの高い少量の第2の学習データセットD2を用いて学習を行うことができる。このため、画像認識装置1の学習では、アノテーションコストの高い第2の教師画像T2が少量で済むため、アノテーションコストの削減を図ることができる。これにより、画像認識装置1の学習では、教師画像T1,T2による学習効率を向上させることができる。
As described above, learning of the image recognition device 1 according to the embodiment can be divided into learning of the first
また、第1の画像認識部11の学習では、多量の第1の学習データセットD1を用いて学習を行うことができるため、ロバスト性の高い画像認識を学習することができる。また、第2の画像認識部12の学習では、緻密な画像セグメンテーションを行うことができるため、認識精度の高い画像認識を学習することができる。よって、実施形態に係る画像認識装置1の学習では、ロバスト性が高く、認識精度の高い画像認識を学習することができる。
In the learning of the first
また、第1の画像認識部11の学習では、第1の学習データセットD1を用いて学習を行うことができるため、第1の画像認識部11に適した精度のよい学習を行うことができる。同様に、第2の画像認識部12の学習では、第2の学習データセットD2を用いて学習を行うことができるため、第2の画像認識部12に適した精度のよい学習を行うことができる。
In the learning of the first
また、第2の画像認識部12の学習では、取得した第2の誤差を、第1の画像認識部11に誤差伝播させていないことから、第2の画像認識部12の学習によって第1の画像認識部11に与える影響を排することができる。
In the learning of the second image recognition unit 12, since the acquired second error is not propagated to the first
また、実施形態に係る画像認識装置1の画像認識では、第1の画像認識部11の画像認識と、第2の画像認識部12の画像認識とに分けることができる。そして、第1の画像認識部11の画像認識では、ロバスト性の高い画像認識を行うことができる。また、第2の画像認識部12の画像認識では、認識精度の高い画像認識を行うことができる。よって、実施形態に係る画像認識装置1の画像認識では、ロバスト性が高く、認識精度の高い画像認識を行うことができる。
Further, the image recognition of the image recognition device 1 according to the embodiment can be divided into image recognition by the first
また、第1の画像認識部11の画像認識では、入力画像Iに含まれるオブジェクトの位置を求めるタスクを実行することで、計算負荷の低いタスクとして実行することができる。また、第2の画像認識部12の画像認識では、第1の出力画像O1をヒントとして用いて、入力画像Iの緻密な画像セグメンテーションを実行することで、計算負荷の低いタスクとして実行することができる。このため、実施形態に係る画像認識装置1では、計算負荷が低いことから、画像認識を高速に行うことができる。
Further, in the image recognition of the first
また、画像認識装置1の画像認識では、第1の出力画像O1と、第2の出力画像O2とを関連付けて取得することができる。このため、画像認識装置1の画像認識の評価または解析等において、第1の画像認識部11及び第2の画像認識部12の異常を推定することが可能となる。
In the image recognition performed by the image recognition device 1, the first output image O1 and the second output image O2 can be acquired in association with each other. Therefore, in the evaluation or analysis of the image recognition of the image recognition device 1, it is possible to estimate the abnormality of the first
また、画像認識装置1では、第1の学習データセットD1を用いて、第2の学習データセットD2を生成することができる。このため、画像認識装置1では、第2の学習データセットD2を自動で生成することができるため、第2の学習データセットD2を生成するためのアノテーションコストを削減することができる。 In the image recognition device 1, the second learning data set D2 can be generated using the first learning data set D1. For this reason, in the image recognition device 1, since the second learning data set D2 can be automatically generated, the annotation cost for generating the second learning data set D2 can be reduced.
なお、実施形態の第2の画像認識部12において、カーネルのチャネル数と、畳み込み層に入力される特徴マップのチャネル数とを、第1の画像認識部11に比して小さくしてもよい。カーネルのチャネル数と畳み込み層に入力される特徴マップのチャネル数との積は、画像認識の表現力である。第2の画像認識部12の表現力を、第1の画像認識部11に比して低くすることで、第2の画像認識部12の計算負荷を軽減することができる。このため、実施形態に係る画像認識装置1では、計算負荷をより低くし、画像認識をより高速に行うことができる。
Note that, in the second image recognition unit 12 of the embodiment, the number of channels of the kernel and the number of channels of the feature map input to the convolutional layer may be smaller than those of the first
1 画像認識装置
5 制御部
6 記憶部
7 画像認識部
11 第1の画像認識部
12 第2の画像認識部
22 エンコーダ
23 デコーダ
I 入力画像
O 出力画像
P1 画像学習プログラム
P2 画像認識プログラム
P3 学習データセットの生成プログラム
D1 第1の学習データセット
D2 第2の学習データセット
Reference Signs List 1 image recognition device 5 control unit 6 storage unit 7
Claims (13)
前記画像認識装置の学習に用いられる学習データセットは、
前記画像認識装置の学習対象の画像となる学習画像と、
前記学習画像に対応する教師画像と、を含み、
前記画像認識装置は、
前記学習画像の画像セグメンテーションを行う第1の画像認識部と、
前記第1の画像認識部よりも緻密な領域分割となるように前記学習画像の画像セグメンテーションを行う第2の画像認識部と、を備え、
前記学習画像を前記第1の画像認識部に入力し、前記第1の画像認識部により前記学習画像の画像セグメンテーションを行って、第1の出力画像を取得する第1のステップと、
前記学習画像と前記第1の出力画像とを前記第2の画像認識部に入力し、前記第1の出力画像を用いて前記第2の画像認識部により前記学習画像の画像セグメンテーションを行って、第2の出力画像を取得する第2のステップと、
前記教師画像に対する前記第2の出力画像の第2の誤差を取得する第3のステップと、
前記第2の誤差に基づいて、前記第2の画像認識部による画像セグメンテーションの処理を修正する第4のステップと、
を実行させる画像学習プログラム。 An image learning program executed by an image recognition device that performs image segmentation,
A learning data set used for learning of the image recognition device includes:
A learning image to be an image to be learned by the image recognition device,
And a teacher image corresponding to the learning image,
The image recognition device,
A first image recognition unit that performs image segmentation of the learning image;
A second image recognition unit that performs image segmentation of the learning image so as to be more densely divided than the first image recognition unit,
A first step of inputting the learning image to the first image recognizing unit, performing image segmentation of the learning image by the first image recognizing unit, and acquiring a first output image;
Inputting the learning image and the first output image to the second image recognition unit, performing image segmentation of the learning image by the second image recognition unit using the first output image, A second step of obtaining a second output image;
A third step of obtaining a second error of the second output image with respect to the teacher image;
A fourth step of correcting an image segmentation process by the second image recognition unit based on the second error;
An image learning program that lets you execute
前記第1の学習データセットは、第1の学習画像と、前記第1の学習画像に対応する第1の教師画像と、を含み、
前記第2の学習データセットは、第2の学習画像と、前記第2の学習画像に対応する第2の教師画像と、を含み、
前記第2の教師画像は、前記第1の教師画像に比して少ない画像枚数であり、前記第1の教師画像に比して緻密に領域分割された画像となっており、
前記第1のステップを実行する前に、前記第1の学習画像を前記第1の画像認識部に入力し、前記第1の画像認識部により前記第1の学習画像の画像セグメンテーションを行って、前記第1の出力画像を取得する第5のステップと、
前記第1の教師画像に対する前記第1の出力画像の第1の誤差を取得する第6のステップと、
前記第1の誤差に基づいて、前記第1の画像認識部による画像セグメンテーションを修正する第7のステップと、をさらに実行させ、
前記第1のステップでは、前記第2の学習画像を前記第1の画像認識部に入力して、前記第1の出力画像を取得し、
前記第2のステップでは、前記第2の学習画像と前記第1の出力画像とを前記第2の画像認識部に入力して、前記第2の出力画像を取得し、
前記第3のステップでは、前記第2の教師画像に対する前記第2の出力画像の前記第2の誤差を取得する請求項1に記載の画像学習プログラム。 The learning data set includes a first learning data set for learning by the first image recognition unit, and a second learning data set for learning by the second image recognition unit,
The first learning data set includes a first learning image and a first teacher image corresponding to the first learning image,
The second learning data set includes a second learning image and a second teacher image corresponding to the second learning image,
The second teacher image has a smaller number of images than the first teacher image, and is an image that is more precisely divided into regions than the first teacher image,
Before performing the first step, the first learning image is input to the first image recognition unit, and the first image recognition unit performs image segmentation of the first learning image, A fifth step of acquiring the first output image;
A sixth step of obtaining a first error of the first output image with respect to the first teacher image;
Correcting the image segmentation by the first image recognition unit based on the first error.
In the first step, the second learning image is input to the first image recognition unit to obtain the first output image,
In the second step, the second learning image and the first output image are input to the second image recognition unit to obtain the second output image,
The computer-readable storage medium according to claim 1, wherein in the third step, the second error of the second output image with respect to the second teacher image is obtained.
前記画像認識装置の学習に用いられる学習データセットは、
前記画像認識装置の学習対象の画像となる学習画像と、
前記学習画像に対応する教師画像と、を含み、
前記画像認識装置は、
前記学習画像の画像セグメンテーションを行う第1の画像認識部と、
前記第1の画像認識部よりも緻密な領域分割となるように前記学習画像の画像セグメンテーションを行う第2の画像認識部と、を備え、
前記学習画像を前記第1の画像認識部に入力し、前記第1の画像認識部により前記学習画像の画像セグメンテーションを行って、第1の出力画像を取得する第1のステップと、
前記学習画像と前記第1の出力画像とを前記第2の画像認識部に入力し、前記第1の出力画像を用いて前記第2の画像認識部により前記学習画像の画像セグメンテーションを行って、第2の出力画像を取得する第2のステップと、
前記教師画像に対する前記第2の出力画像の第2の誤差を取得する第3のステップと、
前記第2の誤差に基づいて、前記第2の画像認識部による画像セグメンテーションの処理を修正する第4のステップと、
を含む画像学習方法。 An image learning method performed by an image recognition device that performs image segmentation,
A learning data set used for learning of the image recognition device includes:
A learning image to be an image to be learned by the image recognition device,
And a teacher image corresponding to the learning image,
The image recognition device,
A first image recognition unit that performs image segmentation of the learning image;
A second image recognition unit that performs image segmentation of the learning image so as to be more densely divided than the first image recognition unit,
A first step of inputting the learning image to the first image recognizing unit, performing image segmentation of the learning image by the first image recognizing unit, and acquiring a first output image;
Inputting the learning image and the first output image to the second image recognition unit, performing image segmentation of the learning image by the second image recognition unit using the first output image, A second step of obtaining a second output image;
A third step of obtaining a second error of the second output image with respect to the teacher image;
A fourth step of correcting an image segmentation process by the second image recognition unit based on the second error;
An image learning method including:
前記画像認識装置は、
前記入力画像の画像セグメンテーションを行う第1の画像認識部と、
前記第1の画像認識部よりも緻密な領域分割となるように前記入力画像の画像セグメンテーションを行う第2の画像認識部と、を備え、
前記入力画像を前記第1の画像認識部に入力し、前記第1の画像認識部により前記入力画像の画像セグメンテーションを行って、第1の出力画像を取得する第8のステップと、
前記入力画像と前記第1の出力画像とを前記第2の画像認識部に入力し、前記第1の出力画像を用いて前記第2の画像認識部により前記入力画像の画像セグメンテーションを行って、第2の出力画像を取得する第9のステップと、
を実行させる画像認識プログラム。 An image recognition program executed by an image recognition device that performs image segmentation of an input image that has been input,
The image recognition device,
A first image recognition unit that performs image segmentation of the input image;
A second image recognizing unit that performs image segmentation of the input image so as to be more densely divided than the first image recognizing unit,
An eighth step of inputting the input image to the first image recognition unit, performing image segmentation of the input image by the first image recognition unit, and acquiring a first output image;
Inputting the input image and the first output image to the second image recognition unit, performing image segmentation of the input image by the second image recognition unit using the first output image, A ninth step of obtaining a second output image;
Image recognition program that executes
前記画像認識装置は、
前記入力画像の画像セグメンテーションを行う第1の画像認識部と、
前記第1の画像認識部よりも緻密な領域分割となるように前記入力画像の画像セグメンテーションを行う第2の画像認識部と、を備え、
前記入力画像を前記第1の画像認識部に入力し、前記第1の画像認識部により前記入力画像の画像セグメンテーションを行って、第1の出力画像を取得する第8のステップと、
前記入力画像と前記第1の出力画像とを前記第2の画像認識部に入力し、前記第2の画像認識部により前記第1の出力画像を用いて前記入力画像の画像セグメンテーションを行って、第2の出力画像を取得する第9のステップと、
を含む画像認識方法。 An image recognition method performed by an image recognition device that performs image segmentation of an input image that has been input,
The image recognition device,
A first image recognition unit that performs image segmentation of the input image;
A second image recognizing unit that performs image segmentation of the input image so as to be more densely divided than the first image recognizing unit,
An eighth step of inputting the input image to the first image recognition unit, performing image segmentation of the input image by the first image recognition unit, and acquiring a first output image;
Inputting the input image and the first output image to the second image recognition unit, performing image segmentation of the input image using the first output image by the second image recognition unit, A ninth step of obtaining a second output image;
An image recognition method including:
前記画像認識装置は、
前記入力画像の画像セグメンテーションを行う第1の画像認識部と、
前記第1の画像認識部よりも緻密な領域分割となるように前記入力画像の画像セグメンテーションを行う第2の画像認識部と、を備え、
前記学習データセットは、前記第1の画像認識部が学習するための第1の学習データセットと、前記第2の画像認識部が学習するための第2の学習データセットとを有し、
前記第1の学習データセットは、第1の学習画像と、前記第1の学習画像に対応する第1の教師画像と、を含み、
前記第2の学習データセットは、第2の学習画像と、前記第2の学習画像に対応する第2の教師画像と、を含み、
前記第2の教師画像は、前記第1の教師画像に比して緻密に領域分割された画像となっており、
前記第1の学習画像と前記第1の教師画像とを前記第2の画像認識部に入力し、前記第2の画像認識部により前記第1の教師画像を用いて前記第1の学習画像の画像セグメンテーションを行って、第2の出力画像を取得する第11のステップと、
前記第1の学習画像を前記第2の学習画像として取得すると共に、前記第2の出力画像を前記第2の教師画像として取得し、前記第2の学習画像と前記第2の教師画像とを含む第2の学習データセットを生成する第12のステップと、
を実行させる学習データセットの生成プログラム。 A learning data set generation program that is executed by an image recognition device that performs image segmentation of an input image that has been input, and generates a learning data set used in the image recognition device.
The image recognition device,
A first image recognition unit that performs image segmentation of the input image;
A second image recognizing unit that performs image segmentation of the input image so as to be more densely divided than the first image recognizing unit,
The learning data set includes a first learning data set for learning by the first image recognition unit, and a second learning data set for learning by the second image recognition unit,
The first learning data set includes a first learning image and a first teacher image corresponding to the first learning image,
The second learning data set includes a second learning image and a second teacher image corresponding to the second learning image,
The second teacher image is an image that is more precisely divided into regions than the first teacher image,
The first learning image and the first teacher image are input to the second image recognition unit, and the second image recognition unit uses the first teacher image to generate the first learning image. An eleventh step of performing image segmentation to obtain a second output image;
Acquiring the first learning image as the second learning image, acquiring the second output image as the second teacher image, and combining the second learning image with the second teacher image. A twelfth step of generating a second training data set comprising:
A program for generating a training data set to execute.
前記画像認識装置は、
前記入力画像の画像セグメンテーションを行う第1の画像認識部と、
前記第1の画像認識部よりも緻密な領域分割となるように前記入力画像の画像セグメンテーションを行う第2の画像認識部と、を備え、
前記学習データセットは、前記第1の画像認識部が学習するための第1の学習データセットと、前記第2の画像認識部が学習するための第2の学習データセットとを有し、
前記第1の学習データセットは、第1の学習画像と、前記第1の学習画像に対応する第1の教師画像と、を含み、
前記第2の学習データセットは、第2の学習画像と、前記第2の学習画像に対応する第2の教師画像と、を含み、
前記第2の教師画像は、前記第1の教師画像に比して緻密に領域分割された画像となっており、
前記第1の学習画像と前記第1の教師画像とを前記第2の画像認識部に入力し、前記第2の画像認識部により前記第1の教師画像を用いて前記第1の学習画像の画像セグメンテーションを行って、第2の出力画像を取得する第11のステップと、
前記第1の学習画像を前記第2の学習画像として取得すると共に、前記第2の出力画像を前記第2の教師画像として取得し、前記第2の学習画像と前記第2の教師画像とを含む第2の学習データセットを生成する第12のステップと、
を含む学習データセットの生成方法。 A method for generating a learning data set, which is executed by an image recognition device that performs image segmentation of an input image that has been input and generates a learning data set used in the image recognition device,
The image recognition device,
A first image recognition unit that performs image segmentation of the input image;
A second image recognizing unit that performs image segmentation of the input image so as to be more densely divided than the first image recognizing unit,
The learning data set includes a first learning data set for learning by the first image recognition unit, and a second learning data set for learning by the second image recognition unit,
The first learning data set includes a first learning image and a first teacher image corresponding to the first learning image,
The second learning data set includes a second learning image and a second teacher image corresponding to the second learning image,
The second teacher image is an image that is more precisely divided into regions than the first teacher image,
The first learning image and the first teacher image are input to the second image recognition unit, and the second image recognition unit uses the first teacher image to generate the first learning image. An eleventh step of performing image segmentation to obtain a second output image;
Acquiring the first learning image as the second learning image, acquiring the second output image as the second teacher image, and combining the second learning image with the second teacher image. A twelfth step of generating a second training data set comprising:
A method for generating a training data set containing
前記第1の画像認識部よりも緻密な領域分割となるように前記入力画像の画像セグメンテーションを行う第2の画像認識部と、を備え、
前記第1の画像認識部は、前記入力画像が入力されると、前記入力画像の画像セグメンテーションを行って、第1の出力画像を生成し、生成した前記第1の出力画像を前記第2の画像認識部へ向けて出力し、
前記第2の画像認識部は、前記入力画像と前記第1の出力画像とが入力されると、前記第1の出力画像を用いて前記第2の画像認識部により前記入力画像の画像セグメンテーションを行って、第2の出力画像を出力する画像認識装置。 A first image recognition unit that performs image segmentation of the input image;
A second image recognizing unit that performs image segmentation of the input image so as to be more densely divided than the first image recognizing unit,
When the input image is input, the first image recognition unit performs image segmentation of the input image to generate a first output image, and generates the generated first output image as the second output image. Output to the image recognition unit,
The second image recognition unit, when the input image and the first output image are input, performs image segmentation of the input image by the second image recognition unit using the first output image. An image recognition device that outputs a second output image.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018166350A JP2020038572A (en) | 2018-09-05 | 2018-09-05 | Image learning program, image learning method, image recognition program, image recognition method, creation program for learning data set, creation method for learning data set, learning data set, and image recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018166350A JP2020038572A (en) | 2018-09-05 | 2018-09-05 | Image learning program, image learning method, image recognition program, image recognition method, creation program for learning data set, creation method for learning data set, learning data set, and image recognition device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020038572A true JP2020038572A (en) | 2020-03-12 |
Family
ID=69738110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018166350A Pending JP2020038572A (en) | 2018-09-05 | 2018-09-05 | Image learning program, image learning method, image recognition program, image recognition method, creation program for learning data set, creation method for learning data set, learning data set, and image recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020038572A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022013910A (en) * | 2020-07-01 | 2022-01-18 | 国立研究開発法人農業・食品産業技術総合研究機構 | Data generation device for learning, learning device, action analysis device, action type analysis device, program, and recording medium |
WO2022153670A1 (en) * | 2021-01-18 | 2022-07-21 | 富士フイルム株式会社 | Image processing device, method, and program, and learning device, method, and program |
-
2018
- 2018-09-05 JP JP2018166350A patent/JP2020038572A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022013910A (en) * | 2020-07-01 | 2022-01-18 | 国立研究開発法人農業・食品産業技術総合研究機構 | Data generation device for learning, learning device, action analysis device, action type analysis device, program, and recording medium |
JP7260922B2 (en) | 2020-07-01 | 2023-04-19 | 国立研究開発法人農業・食品産業技術総合研究機構 | Learning data generation device, learning device, behavior analysis device, behavior analysis device, program, and recording medium |
WO2022153670A1 (en) * | 2021-01-18 | 2022-07-21 | 富士フイルム株式会社 | Image processing device, method, and program, and learning device, method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6922005B2 (en) | Computer vision systems and methods | |
CN107895150B (en) | Human face detection and head attitude angle evaluation based on embedded system small-scale convolution neural network module | |
CN110909642A (en) | Remote sensing image target detection method based on multi-scale semantic feature fusion | |
US20180114071A1 (en) | Method for analysing media content | |
JP2020038574A (en) | Image learning program, image learning method, image recognition program, image recognition method, and image recognition device | |
US11687773B2 (en) | Learning method and recording medium | |
CN111968064B (en) | Image processing method and device, electronic equipment and storage medium | |
CN110782420A (en) | Small target feature representation enhancement method based on deep learning | |
CN113468978B (en) | Fine granularity car body color classification method, device and equipment based on deep learning | |
IL273446A (en) | Method and system for image content recognition | |
CN109798888B (en) | Posture determination device and method for mobile equipment and visual odometer | |
CN110533046B (en) | Image instance segmentation method and device, computer readable storage medium and electronic equipment | |
EP3752955A1 (en) | Image segmentation | |
CN111178363B (en) | Character recognition method, character recognition device, electronic equipment and readable storage medium | |
JP2020038572A (en) | Image learning program, image learning method, image recognition program, image recognition method, creation program for learning data set, creation method for learning data set, learning data set, and image recognition device | |
CN117409412A (en) | Detail enhancement-based dual-resolution real-time semantic segmentation method | |
CN112183542A (en) | Text image-based recognition method, device, equipment and medium | |
WO2022219402A1 (en) | Semantically accurate super-resolution generative adversarial networks | |
Zheng et al. | Transformer-based hierarchical dynamic decoders for salient object detection | |
JP7092016B2 (en) | Image processing equipment, methods, and programs | |
CN111008634A (en) | Character recognition method and character recognition device based on example segmentation | |
US20220270351A1 (en) | Image recognition evaluation program, image recognition evaluation method, evaluation apparatus, and evaluation system | |
CN109614841B (en) | Rapid face detection method in embedded system | |
JP2022066879A (en) | Object recognition apparatus, object recognition system, learning method of object recognition apparatus, object recognition method of object recognition apparatus, learning program of object recognition apparatus, and object recognition program of object recognition apparatus | |
JP2022066878A (en) | Object recognition apparatus, object recognition system, learning method of object recognition apparatus, object recognition method of object recognition apparatus, learning program of object recognition apparatus, and object recognition program of object recognition apparatus |