JP2020038574A - Image learning program, image learning method, image recognition program, image recognition method, and image recognition device - Google Patents

Image learning program, image learning method, image recognition program, image recognition method, and image recognition device Download PDF

Info

Publication number
JP2020038574A
JP2020038574A JP2018166366A JP2018166366A JP2020038574A JP 2020038574 A JP2020038574 A JP 2020038574A JP 2018166366 A JP2018166366 A JP 2018166366A JP 2018166366 A JP2018166366 A JP 2018166366A JP 2020038574 A JP2020038574 A JP 2020038574A
Authority
JP
Japan
Prior art keywords
image
learning
resolution
input
recognition unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018166366A
Other languages
Japanese (ja)
Inventor
俊 菅原
Takashi Sugawara
俊 菅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Corp
Original Assignee
Kyocera Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Corp filed Critical Kyocera Corp
Priority to JP2018166366A priority Critical patent/JP2020038574A/en
Publication of JP2020038574A publication Critical patent/JP2020038574A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

To propose an image learning program and the like that can improve efficiency in recognition of image segmentation.SOLUTION: An image learning program causes an image recognition device to execute learning by using a learning data set including learning images and teacher images. The image recognition device comprises a first image recognition unit and a second image recognition unit. The first image recognition unit reduces the resolution of the learning images and performs image segmentation on the learning images with low resolution. The second image recognition unit performs image segmentation on the learning image with high resolution compared with the learning image with low resolution. The image learning program causes to execute a first step of inputting the learning image in the first image recognition unit to acquire a first output image, a second step of inputting the learning image and first output image to the second image recognition unit to acquire a second output image, a third step of acquiring a second error of the second output image with respect to the teacher image, and a fourth step of correcting an error in the second image recognition unit on the basis of the second error.SELECTED DRAWING: Figure 8

Description

本発明は、画像学習プログラム、画像学習方法、画像認識プログラム、画像認識方法、及び画像認識装置に関する。   The present invention relates to an image learning program, an image learning method, an image recognition program, an image recognition method, and an image recognition device.

画像認識技術として、Fully Convolutional Network(FCN:全層畳み込みネットワーク)を用いたSemantic Segmentation(セマンティック・セグメンテーション)が知られている(例えば、非特許文献1参照)。セマンティック・セグメンテーションは、デジタル画像のピクセル単位でのクラス分類(クラス推論)を行っている。つまり、セマンティック・セグメンテーションは、デジタル画像の各ピクセルに対してクラス推論を行い、推論結果として、各ピクセル対してクラスをラベリングすることで、デジタル画像の領域分割を行う。   As an image recognition technology, Semantic Segmentation using a Fully Convolutional Network (FCN: full-layer convolution network) is known (for example, see Non-Patent Document 1). In semantic segmentation, a digital image is classified into pixels (class inference). That is, in the semantic segmentation, a class is inferred for each pixel of the digital image, and as a result of the inference, a class is labeled for each pixel to divide a region of the digital image.

Long, Jonathan, Evan Shelhamer, and Trevor Darrell. "Fully convolutional networks for semantic segmentation." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015.Long, Jonathan, Evan Shelhamer, and Trevor Darrell. "Fully convolutional networks for semantic segmentation." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015.

ここで、セマンティック・セグメンテーションに用いられるFCNは、一般的に、エンコーダ(Encoder)を含んでいる。エンコーダは、入力された入力画像の解像度を低くするダウンサンプリングを行っている。ダウンサンプリングを行うと入力画像に含まれる局所的な情報(例えば、小さな物体等)が欠落する。このため、入力画像に含まれる局所的な情報に対して、画像セグメンテーションを行うことが困難となる。   Here, the FCN used for semantic segmentation generally includes an encoder. The encoder performs downsampling to lower the resolution of the input image that has been input. When downsampling is performed, local information (for example, a small object) included in the input image is lost. For this reason, it is difficult to perform image segmentation on local information included in the input image.

本発明は、画像セグメンテーションの認識精度を向上させることができる画像学習プログラム、画像学習方法、画像認識プログラム、画像認識方法、及び画像認識装置を提供することを目的とする。   An object of the present invention is to provide an image learning program, an image learning method, an image recognition program, an image recognition method, and an image recognition device that can improve the recognition accuracy of image segmentation.

態様の1つに係る画像学習プログラムは、画像セグメンテーションを行う画像認識装置によって実行される画像学習プログラムであって、前記画像認識装置の学習に用いられる学習データセットは、前記画像認識装置の学習対象の画像となる学習画像と、前記学習画像に対応する教師画像と、を含み、前記画像認識装置は、前記学習画像の解像度を低くするダウンサンプリングを実行して、低解像度の前記学習画像を生成し、生成した低解像度の前記学習画像の画像セグメンテーションを行う第1の画像認識部と、低解像度の前記学習画像に比して高解像度の前記学習画像の画像セグメンテーションを行う第2の画像認識部と、を備え、前記学習画像を前記第1の画像認識部に入力して、低解像度の前記学習画像を生成し、生成した低解像度の前記学習画像の画像セグメンテーションを行って、第1の出力画像を取得する第1のステップと、高解像度の前記学習画像と前記第1の出力画像とを前記第2の画像認識部に入力し、前記第1の出力画像を用いて前記第2の画像認識部により高解像度の前記学習画像の画像セグメンテーションを行って、第2の出力画像を取得する第2のステップと、前記教師画像に対する前記第2の出力画像の第2の誤差を取得する第3のステップと、前記第2の誤差に基づいて、前記第2の画像認識部による画像セグメンテーションの処理を修正する第4のステップと、を実行させる。   An image learning program according to one aspect is an image learning program executed by an image recognition device that performs image segmentation, wherein a learning data set used for learning of the image recognition device is a learning target set of the image recognition device. The image recognition device generates a low-resolution learning image by performing down-sampling to lower the resolution of the learning image, the learning image including a learning image to be an image of the learning image and a teacher image corresponding to the learning image. A first image recognition unit that performs image segmentation of the generated low-resolution learning image; and a second image recognition unit that performs image segmentation of the learning image having a higher resolution than the learning image having a lower resolution. And inputting the learning image to the first image recognizing unit to generate the low-resolution learning image, and generating the low-resolution learning image. Performing a first step of performing image segmentation of the learning image to obtain a first output image, and inputting the high-resolution learning image and the first output image to the second image recognition unit; A second step of performing a high-resolution image segmentation of the learning image by the second image recognition unit using the first output image to obtain a second output image; and Performing a third step of obtaining a second error of the second output image and a fourth step of correcting an image segmentation process by the second image recognition unit based on the second error. Let it.

態様の1つに係る画像学習方法は、画像セグメンテーションを行う画像認識装置が実行する画像学習方法であって、前記画像認識装置の学習に用いられる学習データセットは、前記画像認識装置の学習対象の画像となる学習画像と、前記学習画像に対応する教師画像と、を含み、前記画像認識装置は、前記学習画像の解像度を低くするダウンサンプリングを実行して、低解像度の前記学習画像を生成し、生成した低解像度の前記学習画像の画像セグメンテーションを行う第1の画像認識部と、低解像度の前記学習画像に比して高解像度の前記学習画像の画像セグメンテーションを行う第2の画像認識部と、を備え、前記学習画像を前記第1の画像認識部に入力して、低解像度の前記学習画像を生成し、生成した低解像度の前記学習画像の画像セグメンテーションを行って、第1の出力画像を取得する第1のステップと、高解像度の前記学習画像と前記第1の出力画像とを前記第2の画像認識部に入力し、前記第1の出力画像を用いて前記第2の画像認識部により高解像度の前記学習画像の画像セグメンテーションを行って、第2の出力画像を取得する第2のステップと、前記教師画像に対する前記第2の出力画像の第2の誤差を取得する第3のステップと、前記第2の誤差に基づいて、前記第2の画像認識部による画像セグメンテーションの処理を修正する第4のステップと、を含む。   An image learning method according to one aspect is an image learning method performed by an image recognition device that performs image segmentation, wherein a learning data set used for learning of the image recognition device includes a learning data set of a learning target of the image recognition device. The image recognition device includes a learning image to be an image and a teacher image corresponding to the learning image, and performs downsampling to reduce the resolution of the learning image to generate the learning image with a low resolution. A first image recognition unit that performs image segmentation of the generated low-resolution learning image, and a second image recognition unit that performs image segmentation of the high-resolution learning image as compared to the low-resolution learning image. The learning image is input to the first image recognition unit to generate the low-resolution learning image, and the generated low-resolution image of the learning image is provided. Performing a first step of performing segmentation to obtain a first output image; and inputting the high-resolution learning image and the first output image to the second image recognition unit; A second step of performing image segmentation of the high-resolution learning image by the second image recognition unit using the output image to obtain a second output image, and the second output image for the teacher image And a fourth step of correcting the image segmentation process performed by the second image recognition unit based on the second error.

態様の1つに係る画像認識プログラムは、入力された入力画像の画像セグメンテーションを行う画像認識装置によって実行される画像認識プログラムであって、前記画像認識装置は、前記入力画像の解像度を低くするダウンサンプリングを実行して、低解像度の前記入力画像を生成し、生成した低解像度の前記入力画像の画像セグメンテーションを行う第1の画像認識部と、低解像度の前記入力画像に比して高解像度の前記入力画像の画像セグメンテーションを行う第2の画像認識部と、を備え、前記入力画像を前記第1の画像認識部に入力して、低解像度の前記入力画像を生成し、生成した低解像度の前記入力画像の画像セグメンテーションを行って、第1の出力画像を取得する第8のステップと、高解像度の前記入力画像と前記第1の出力画像とを前記第2の画像認識部に入力し、前記第1の出力画像を用いて前記第2の画像認識部により高解像度の前記入力画像の画像セグメンテーションを行って、第2の出力画像を取得する第9のステップと、を実行させる。   An image recognition program according to one aspect is an image recognition program executed by an image recognition device that performs image segmentation of an input image that has been input, wherein the image recognition device is configured to reduce the resolution of the input image. A first image recognition unit that performs sampling to generate the low-resolution input image and performs image segmentation of the generated low-resolution input image; A second image recognition unit that performs image segmentation of the input image, wherein the input image is input to the first image recognition unit to generate the low-resolution input image, and the generated low-resolution An eighth step of performing an image segmentation of the input image to obtain a first output image; And the image is input to the second image recognizing unit, and the second output image is subjected to high-resolution image segmentation by the second image recognizing unit using the first output image. And a ninth step of acquiring.

態様の1つに係る画像認識方法は、入力された入力画像の画像セグメンテーションを行う画像認識装置が実行する画像認識方法であって、前記画像認識装置は、前記入力画像の解像度を低くするダウンサンプリングを実行して、低解像度の前記入力画像を生成し、生成した低解像度の前記入力画像の画像セグメンテーションを行う第1の画像認識部と、低解像度の前記入力画像に比して高解像度の前記入力画像の画像セグメンテーションを行う第2の画像認識部と、を備え、前記入力画像を前記第1の画像認識部に入力して、低解像度の前記入力画像を生成し、生成した低解像度の前記入力画像の画像セグメンテーションを行って、第1の出力画像を取得する第8のステップと、高解像度の前記入力画像と前記第1の出力画像とを前記第2の画像認識部に入力し、前記第1の出力画像を用いて前記第2の画像認識部により高解像度の前記入力画像の画像セグメンテーションを行って、第2の出力画像を取得する第9のステップと、を含む。   An image recognition method according to one aspect is an image recognition method performed by an image recognition device that performs image segmentation of an input image that has been input, wherein the image recognition device performs downsampling that lowers the resolution of the input image. A first image recognition unit that generates the low-resolution input image and performs image segmentation of the generated low-resolution input image; and a high-resolution input image compared to the low-resolution input image. A second image recognition unit that performs image segmentation of the input image, wherein the input image is input to the first image recognition unit to generate the low-resolution input image, and the generated low-resolution An eighth step of performing image segmentation of the input image to obtain a first output image, and separating the input image and the first output image with high resolution into the second image. A ninth step of inputting to an image recognition unit, performing a high-resolution image segmentation of the input image by the second image recognition unit using the first output image, and acquiring a second output image; ,including.

態様の1つに係る画像認識装置は、入力された入力画像の解像度を低くするダウンサンプリングを実行して、低解像度の前記入力画像を生成し、生成した低解像度の前記入力画像の画像セグメンテーションを行う第1の画像認識部と、低解像度の前記入力画像に比して高解像度の前記入力画像の画像セグメンテーションを行う第2の画像認識部と、を備え、前記第1の画像認識部は、前記入力画像が入力されると、低解像度の前記入力画像を生成し、生成した低解像度の前記入力画像の画像セグメンテーションを行って第1の出力画像を生成し、生成した前記第1の出力画像を前記第2の画像認識部へ向けて出力し、前記第2の画像認識部は、高解像度の前記入力画像と前記第1の出力画像とが入力されると、前記第1の出力画像を用いて前記第2の画像認識部により高解像度の前記入力画像の画像セグメンテーションを行って、第2の出力画像を出力する。   An image recognition device according to one aspect performs downsampling to reduce the resolution of an input image that has been input, generates the low-resolution input image, and performs image segmentation of the generated low-resolution input image. A first image recognition unit for performing, and a second image recognition unit for performing image segmentation of the input image having a higher resolution than the input image having a lower resolution, wherein the first image recognition unit includes: When the input image is input, the low-resolution input image is generated, the generated low-resolution input image is subjected to image segmentation to generate a first output image, and the generated first output image is generated. To the second image recognizing unit, and the second image recognizing unit converts the first output image when the high-resolution input image and the first output image are input. Before using By the second image recognition unit performs image segmentation of the input image with high resolution, and outputs a second output image.

図1は、実施形態に係る画像認識装置の概要を示す図である。FIG. 1 is a diagram illustrating an outline of an image recognition device according to the embodiment. 図2は、実施形態に係る画像認識装置の画像認識部の概要を示す図である。FIG. 2 is a diagram illustrating an outline of an image recognition unit of the image recognition device according to the embodiment. 図3は、画像認識装置に入力される入力画像の一例を示す図である。FIG. 3 is a diagram illustrating an example of an input image input to the image recognition device. 図4は、画像認識装置から出力される出力画像の一例を示す図である。FIG. 4 is a diagram illustrating an example of an output image output from the image recognition device. 図5は、学習データセットの一例を示す図である。FIG. 5 is a diagram illustrating an example of a learning data set. 図6は、画像認識装置の画像学習に関する処理の一例を示す図である。FIG. 6 is a diagram illustrating an example of a process related to image learning of the image recognition device. 図7は、画像認識装置の画像学習に関する処理の一例を示す図である。FIG. 7 is a diagram illustrating an example of a process related to image learning of the image recognition device. 図8は、画像認識装置の画像学習に関する処理の一例を示す図である。FIG. 8 is a diagram illustrating an example of a process related to image learning of the image recognition device. 図9は、画像認識装置の画像認識に関する処理の一例を示す図である。FIG. 9 is a diagram illustrating an example of a process regarding image recognition of the image recognition device. 図10は、画像認識装置の画像認識に関する処理の一例を示す図である。FIG. 10 is a diagram illustrating an example of a process related to image recognition of the image recognition device. 図11は、画像認識装置の画像認識に関する処理の一例を示す図である。FIG. 11 is a diagram illustrating an example of a process regarding image recognition of the image recognition device.

以下、本発明につき図面を参照しつつ詳細に説明する。なお、下記の発明を実施するための形態(以下実施形態という)により本発明が限定されるものではない。また、下記の実施形態における構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。   Hereinafter, the present invention will be described in detail with reference to the drawings. The present invention is not limited by the following embodiments for carrying out the invention (hereinafter, referred to as embodiments). In addition, constituent elements in the following embodiments include those that can be easily assumed by those skilled in the art, those that are substantially the same, and those that are in an equivalent range.

(実施形態)
図1は、実施形態に係る画像認識装置の概要を示す図である。画像認識装置1は、入力される入力画像Iに含まれるオブジェクトを認識し、認識した結果を出力画像Oとして出力するものである。画像認識装置1は、カメラ等の撮像装置において撮像された撮影画像が入力画像Iとして入力される。画像認識装置1は、入力画像Iに対して画像セグメンテーションを行う。画像セグメンテーションとは、デジタル画像の分割された画像領域に対してクラスをラベリングすることであり、クラス推論(クラス分類)ともいう。つまり、画像セグメンテーションとは、デジタル画像の分割された所定の画像領域が、何れのクラスであるかを判別して、画像領域が示すクラスを識別するための識別子(ラベル)を付すことである。画像認識装置1は、入力画像Iを画像セグメンテーション(クラス推論)した画像を、出力画像Oとして出力する。
(Embodiment)
FIG. 1 is a diagram illustrating an outline of an image recognition device according to the embodiment. The image recognition device 1 recognizes an object included in an input image I to be input, and outputs a recognition result as an output image O. The image recognition device 1 receives a captured image captured by an imaging device such as a camera as an input image I. The image recognition device 1 performs image segmentation on an input image I. Image segmentation refers to labeling a class with respect to a divided image region of a digital image, and is also referred to as class inference (class classification). That is, the image segmentation is to determine which class the predetermined image area obtained by dividing the digital image belongs to, and to attach an identifier (label) for identifying the class indicated by the image area. The image recognition device 1 outputs an image obtained by performing image segmentation (class inference) on the input image I as an output image O.

画像認識装置1は、例えば、車の車載認識カメラに設けられている。車載認識カメラは、車の走行状況を所定のフレームレートでリアルタイムに撮像し、撮像した撮影画像を画像認識装置1に入力する。画像認識装置1は、所定のフレームレートで入力される撮影画像を入力画像Iとして取得する。画像認識装置1は、入力画像Iに含まれるオブジェクトをクラス分類して、クラス分類された画像を出力画像Oとして、所定のフレームレートで出力する。なお、画像認識装置1は、車載認識カメラへの搭載に限定されず、他の装置に設けてもよい。   The image recognition device 1 is provided, for example, in an in-vehicle recognition camera of a car. The in-vehicle recognition camera captures the running state of the vehicle at a predetermined frame rate in real time, and inputs the captured image to the image recognition device 1. The image recognition device 1 acquires a captured image input at a predetermined frame rate as an input image I. The image recognition device 1 classifies the objects included in the input image I into classes, and outputs the classified images as output images O at a predetermined frame rate. Note that the image recognition device 1 is not limited to being mounted on a vehicle-mounted recognition camera, and may be provided in another device.

先ず、図3を参照して、入力画像Iについて説明する。図3は、画像認識装置1に入力される入力画像Iの一例を示す図である。入力画像Iは、複数の画素(ピクセル)からなるデジタル画像である。入力画像Iは、例えば、カメラ等の撮像装置に設けられる撮像素子によって生成される、撮像素子の画素数に応じた解像度の画像となっている。つまり、入力画像Iは、画像の画素数を高くするアップサンプリング処理、または、画像の画素数を低くするダウンサンプリング処理が行われていない、高解像度となるオリジナルの原画像となっている。   First, the input image I will be described with reference to FIG. FIG. 3 is a diagram illustrating an example of an input image I input to the image recognition device 1. The input image I is a digital image including a plurality of pixels. The input image I is, for example, an image generated by an imaging device provided in an imaging device such as a camera and having a resolution according to the number of pixels of the imaging device. That is, the input image I is an original high resolution original image that has not been subjected to upsampling processing for increasing the number of pixels of the image or downsampling processing for decreasing the number of pixels of the image.

次に、図4を参照して、出力画像Oについて説明する。図4は、画像認識装置1から出力される出力画像Oの一例を示す図である。出力画像Oは、クラスごとに領域分割されている。クラスは、例えば、入力画像Iに含まれるオブジェクトを含み、人、車、道、建物等である。出力画像Oは、ピクセル単位でオブジェクトごとのクラス分類がなされ、ピクセル単位ごとに分類されたクラスがラベリングされることで、クラスごとに領域分割されている。図4では、例えば、人のクラスに分類された画像領域Oaと、車のクラスに分類された画像領域Obと、道路のクラスに分類された画像領域Ocとを図示している。なお、図4の出力画像Oは一例であり、このクラス分類に、特に限定されない。また、出力画像Oは、入力画像Iと同じ解像度となっている。   Next, the output image O will be described with reference to FIG. FIG. 4 is a diagram illustrating an example of an output image O output from the image recognition device 1. The output image O is divided into regions for each class. The class includes, for example, an object included in the input image I, and is a person, a car, a road, a building, and the like. The output image O is classified into classes by each object on a pixel-by-pixel basis, and the classes classified on a pixel-by-pixel basis are labeled to classify the image into regions. FIG. 4 illustrates, for example, an image region Oa classified into a person class, an image region Ob classified into a car class, and an image region Oc classified into a road class. Note that the output image O in FIG. 4 is an example, and there is no particular limitation on this class classification. The output image O has the same resolution as the input image I.

再び図1を参照して、画像認識装置1について説明する。画像認識装置1は、制御部5と、記憶部6と、画像認識部7とを備えている。   Referring to FIG. 1 again, the image recognition device 1 will be described. The image recognition device 1 includes a control unit 5, a storage unit 6, and an image recognition unit 7.

記憶部6は、プログラム及びデータを記憶する。また、記憶部6は、制御部5の処理結果を一時的に記憶する作業領域としても利用してもよい。記憶部6は、半導体記憶デバイス、及び磁気記憶デバイス等の任意の記憶デバイスを含んでよい。また、記憶部6は、複数の種類の記憶デバイスを含んでよい。また、記憶部6は、メモリカード等の可搬の記憶媒体と、記憶媒体の読み取り装置との組み合わせを含んでよい。   The storage unit 6 stores programs and data. Further, the storage unit 6 may be used as a work area for temporarily storing a processing result of the control unit 5. The storage unit 6 may include an arbitrary storage device such as a semiconductor storage device and a magnetic storage device. Further, the storage unit 6 may include a plurality of types of storage devices. The storage unit 6 may include a combination of a portable storage medium such as a memory card and a storage medium reading device.

記憶部6は、プログラムとして、画像学習プログラムP1と、画像認識プログラムP2とを含む。画像学習プログラムP1は、画像認識部7に学習を行わせるためのプログラムである。画像認識プログラムP2は、画像認識部7に画像認識を行わせるためのプログラムである。また、記憶部6は、データとして、各種画像と、学習データセットとを含む。各種画像は、画像認識装置1に入力される入力画像I、画像認識装置1から出力される出力画像O等である。学習データセットは、画像認識部7の学習に用いられるデータである。   The storage unit 6 includes an image learning program P1 and an image recognition program P2 as programs. The image learning program P1 is a program for causing the image recognition unit 7 to perform learning. The image recognition program P2 is a program for causing the image recognition unit 7 to perform image recognition. Further, the storage unit 6 includes various images and a learning data set as data. The various images are an input image I input to the image recognition device 1, an output image O output from the image recognition device 1, and the like. The learning data set is data used for learning of the image recognition unit 7.

制御部5は、画像認識装置1の動作を統括的に制御して各種の機能を実現する。制御部5は、例えば、CPU(Central Processing Unit)等の集積回路を含んでいる。具体的に、制御部5は、記憶部6に記憶されているプログラムに含まれる命令を実行して、画像認識部7等を制御することによって各種機能を実現する。   The control unit 5 controls the operation of the image recognition device 1 comprehensively to realize various functions. The control unit 5 includes, for example, an integrated circuit such as a CPU (Central Processing Unit). Specifically, the control unit 5 executes commands included in the program stored in the storage unit 6 and controls the image recognition unit 7 and the like to realize various functions.

制御部5は、例えば、画像学習プログラムP1を実行することにより、学習データセットを用いて、画像認識部7の学習を実行させる。また、制御部5は、例えば、画像認識プログラムP2を実行することにより、画像認識部7による入力画像Iの画像認識を実行させる。   The control unit 5 executes the learning of the image recognition unit 7 using the learning data set, for example, by executing the image learning program P1. Further, the control unit 5 causes the image recognition unit 7 to execute the image recognition of the input image I by executing the image recognition program P2, for example.

次に、図2を参照して、画像認識部7について説明する。図2は、実施形態に係る画像認識装置の画像認識部の概要を示す図である。画像認識部7は、GPU(Graphics Processing Unit)等の集積回路を含んでいる。画像認識部7は、第1の画像認識部11と、第2の画像認識部12とを備えている。画像認識部7は、入力画像Iが入力されると、入力画像Iを第1の画像認識部11及び第2の画像認識部12にそれぞれ入力する。   Next, the image recognition unit 7 will be described with reference to FIG. FIG. 2 is a diagram illustrating an outline of an image recognition unit of the image recognition device according to the embodiment. The image recognition unit 7 includes an integrated circuit such as a GPU (Graphics Processing Unit). The image recognition section 7 includes a first image recognition section 11 and a second image recognition section 12. When the input image I is input, the image recognition unit 7 inputs the input image I to the first image recognition unit 11 and the second image recognition unit 12, respectively.

第1の画像認識部11は、入力画像Iの解像度を低くして、入力画像Iを広範に捉えて領域分割を行うタスクを実行する。第1の画像認識部11は、例えば、セマンティック・セグメンテーションを用いた画像セグメンテーションを行っている。セマンティック・セグメンテーションは、入力画像Iの各ピクセルに対してクラス推論を行い、推論結果として、各ピクセルに対してクラスをラベリングすることで、入力画像Iの領域分割を行う。第1の画像認識部11は、入力画像Iが入力されると、入力画像Iのピクセルごとにクラス分類し、クラス分類された画像を、第1の出力画像O1として出力する。つまり、第1の画像認識部11は、後述する第2の画像認識部12に比して、入力画像Iを大局的に取り扱って領域分割を行い、第1の出力画像O1を出力する。   The first image recognition unit 11 executes a task of reducing the resolution of the input image I, capturing the input image I in a wide range, and dividing the area. The first image recognition unit 11 performs, for example, image segmentation using semantic segmentation. In the semantic segmentation, class inference is performed for each pixel of the input image I, and as a result of the inference, a class is labeled for each pixel to perform region division of the input image I. When the input image I is input, the first image recognition unit 11 classifies the pixels of the input image I for each pixel, and outputs the classified image as a first output image O1. That is, the first image recognition unit 11 handles the input image I globally to perform area division and outputs a first output image O1 as compared with a second image recognition unit 12 described later.

第1の画像認識部11は、CNN(Convolution Neural Network)またはFCN(Fully Convolutional Network)等の畳み込み層を含むニューラル・ネットワーク(以下、単にネットワークともいう)を用いた画像セグメンテーションを行っている。第1の画像認識部11は、ダウンサンプリング層21と、エンコーダ22と、デコーダ23とを有している。   The first image recognition unit 11 performs image segmentation using a neural network including a convolutional layer such as a CNN (Convolution Neural Network) or an FCN (Fully Convolutional Network) (hereinafter, also simply referred to as a network). The first image recognition unit 11 has a down-sampling layer 21, an encoder 22, and a decoder 23.

ダウンサンプリング層21は、入力画像Iの解像度を低くして、低解像度の入力画像Iを生成するダウンサンプリングを実行している。ダウンサンプリング層21は、低解像度の入力画像Iをエンコーダ22に出力する。なお、ダウンサンプリング層21は、例えば、入力画像Iの高さH及び幅Wの画素数を半分として、入力画像Iの解像度を1/4としている。   The downsampling layer 21 performs downsampling for reducing the resolution of the input image I and generating a low-resolution input image I. The downsampling layer 21 outputs the low-resolution input image I to the encoder 22. In the downsampling layer 21, for example, the number of pixels of the height H and the width W of the input image I is halved, and the resolution of the input image I is 1 /.

エンコーダ22は、低解像度の入力画像Iに対してエンコード処理を実行する。エンコード処理は、低解像度の入力画像Iの特徴量を抽出した特徴マップ(Feature Map)を生成しつつ、特徴マップの解像度を低くするダウンサンプリング(プーリングともいう)を実行する処理である。具体的に、エンコード処理では、畳み込み層とプーリング層とにおいて低解像度の入力画像Iに処理が行われる。畳み込み層では、入力画像Iの特徴量を抽出するためのカーネル(フィルタ)を、入力画像Iにおいて所定のストライドで移動させる。そして、畳み込み層では、畳み込み層の重みに基づいて、入力画像Iの特徴量を抽出するための畳み込み計算が行われ、この畳み込み計算により特徴量が抽出された特徴マップを生成する。生成される特徴マップは、カーネルのチャネル数に応じた数だけ生成される。プーリング層では、特徴量が抽出された特徴マップを縮小して、低解像度となる特徴マップを生成する。エンコード処理では、畳み込み層における処理とプーリング層における処理とを複数回繰り返し実行することで、ダウンサンプリングされた特徴量を有する特徴マップを生成する。   The encoder 22 performs an encoding process on the low-resolution input image I. The encoding process is a process of generating a feature map (Feature Map) by extracting the feature amount of the low-resolution input image I and executing downsampling (also called pooling) for lowering the resolution of the feature map. Specifically, in the encoding processing, processing is performed on the low-resolution input image I in the convolution layer and the pooling layer. In the convolutional layer, a kernel (filter) for extracting a feature amount of the input image I is moved at a predetermined stride in the input image I. Then, in the convolution layer, a convolution calculation for extracting a feature amount of the input image I is performed based on the weight of the convolution layer, and a feature map from which the feature amount is extracted by the convolution calculation is generated. The generated feature maps are generated in a number corresponding to the number of channels of the kernel. The pooling layer reduces the feature map from which the feature amount has been extracted, and generates a feature map having a low resolution. In the encoding process, a process in the convolutional layer and a process in the pooling layer are repeatedly performed a plurality of times to generate a feature map having a down-sampled feature amount.

デコーダ23は、エンコード処理後の特徴マップに対してデコード処理を実行する。デコード処理は、特徴マップの解像度を高くするアップサンプリング(アンプーリングともいう)を実行する処理である。具体的に、デコード処理は、逆畳み込み層とアンプーリング層とにおいて特徴マップに処理が行われる。アンプーリング層では、特徴量を含む低解像度の特徴マップを拡大して、高解像度となる特徴マップを生成する。逆畳み込み層では、特徴マップに含まれる特徴量を、復元させるための逆畳み込み計算が、逆畳み込み層の重みに基づいて実行され、この計算により特徴量を復元させた特徴マップを生成する。そして、デコード処理では、アンプーリング層における処理と逆畳み込み層における処理とを複数回繰り返し実行することで、アップサンプリングされ、領域分割された画像である第1の出力画像O1を生成する。第1の出力画像O1は、画像認識部7に入力される入力画像Iと同じ解像度になるまで、アップサンプリングされる。   The decoder 23 performs a decoding process on the encoded feature map. The decoding process is a process of executing upsampling (also referred to as ampling) for increasing the resolution of the feature map. Specifically, the decoding process is performed on the feature map in the deconvolution layer and the amplifying layer. In the amplifying layer, a low-resolution feature map including a feature amount is enlarged to generate a high-resolution feature map. In the deconvolution layer, a deconvolution calculation for restoring the feature amount included in the feature map is executed based on the weight of the deconvolution layer, and a feature map in which the feature amount is restored by this calculation is generated. In the decoding process, a first output image O1 that is an up-sampled and region-divided image is generated by repeatedly performing the processing in the amplifying layer and the processing in the deconvolution layer a plurality of times. The first output image O1 is up-sampled until it has the same resolution as the input image I input to the image recognition unit 7.

以上のように、第1の画像認識部11は、入力画像Iに対してダウンサンプリングを行って、低解像度の入力画像Iとする。この後、第1の画像認識部11は、低解像度の入力画像Iに対して、エンコード処理及びデコード処理を実行し、ピクセル単位でクラス推論(クラス分類)を行うことで、低解像度の入力画像Iの画像セグメンテーションを行う。そして、第1の画像認識部11は、低解像度の入力画像Iをクラスごとに領域分割した画像を、第1の出力画像O1として出力する。   As described above, the first image recognition unit 11 performs down-sampling on the input image I to obtain a low-resolution input image I. Thereafter, the first image recognizing unit 11 performs an encoding process and a decoding process on the low-resolution input image I and performs class inference (class classification) on a pixel-by-pixel basis. Perform image segmentation of I. Then, the first image recognition unit 11 outputs, as the first output image O1, an image obtained by dividing the low-resolution input image I into regions for each class.

なお、第1の画像認識部11は、セマンティック・セグメンテーションを用いた画像セグメンテーションに適用して説明したが、特に限定されない。第1の画像認識部11は、入力画像Iの解像度を低くして、入力画像Iを広範に捉えて領域分割を行うタスクを実行可能であれば、例えば、異なるネットワークを用いた画像セグメンテーションを実行するものであってもよい。   The first image recognition unit 11 has been described as applied to image segmentation using semantic segmentation, but is not particularly limited. The first image recognition unit 11 executes image segmentation using a different network, for example, if the resolution of the input image I is reduced and the task of capturing the input image I in a wide range and performing region division can be performed. May be used.

ここで、第1の画像認識部11の画像認識に係る計算量について説明する。畳み込み層の計算量は、(1)式に示す関係式により表される。ここで、Kは、畳み込み層で用いられるカーネルサイズである。H×Wは、入力画像Iの画像サイズである。Cは、カーネルのチャネル数である。C’は、畳み込み層に入力される特徴マップのチャネル数である。STは、入力画像Iにおいて移動するカーネルのストライドである。   Here, a calculation amount related to image recognition of the first image recognition unit 11 will be described. The calculation amount of the convolutional layer is represented by the relational expression shown in Expression (1). Here, K is the kernel size used in the convolutional layer. H × W is the image size of the input image I. C is the number of channels in the kernel. C ′ is the number of channels of the feature map input to the convolutional layer. ST is the stride of the moving kernel in the input image I.

畳み込み層の計算量=(K×H×W×C×C’)/ST ・・・(1) Calculation amount of convolutional layer = (K 2 × H × W × C × C ′) / ST (1)

第1の画像認識部11では、ダウンサンプリング層21において、入力画像Iの解像度を低くしている。このため、上記の(1)式に示す入力画像Iの画像サイズ(H×W)が小さいものとなることから、畳み込み層の計算量は小さいものとなる。よって、第1の画像認識部11では、入力画像Iの解像度を低くすることで、第1の画像認識部11による入力画像Iの画像認識のタスクは、計算負荷の低いタスクとなっている。   In the first image recognition unit 11, the resolution of the input image I is reduced in the downsampling layer 21. Therefore, since the image size (H × W) of the input image I shown in the above equation (1) is small, the calculation amount of the convolutional layer is small. Therefore, in the first image recognition unit 11, the task of image recognition of the input image I by the first image recognition unit 11 is a task with a low calculation load by lowering the resolution of the input image I.

第1の画像認識部11は、その出力側が、第2の画像認識部12の入力側に接続されている。このため、第1の画像認識部11は、第1の出力画像O1を、第2の画像認識部12に入力する。また、第1の画像認識部11は、第1の出力画像O1を、中間画像として外部に出力している。   The output side of the first image recognition unit 11 is connected to the input side of the second image recognition unit 12. For this reason, the first image recognition unit 11 inputs the first output image O1 to the second image recognition unit 12. In addition, the first image recognition unit 11 outputs the first output image O1 to the outside as an intermediate image.

第2の画像認識部12は、第1の画像認識部11に比して入力画像Iを局所的に捉えて領域分割を行うタスクを実行する。第2の画像認識部12は、第1の画像認識部11と同様に、例えば、セマンティック・セグメンテーションを用いた画像セグメンテーションを行っている。第2の画像認識部12には、入力画像Iと第1の出力画像O1とが入力される。第2の画像認識部12は、入力画像Iの解像度を低下させずに、画像セグメンテーションを行う。第2の画像認識部12は、入力画像Iと第1の出力画像O1とが入力されると、第1の出力画像O1を用いて、入力画像Iのピクセルごとにクラス分類を行い、クラス分類された画像を、第2の出力画像O2として出力する。つまり、第2の画像認識部12は、第1の出力画像O1をヒントとして、入力画像Iに対して領域分割を行って、第2の出力画像O2を出力する。   The second image recognizing unit 12 performs a task of localizing the input image I and performing region division as compared with the first image recognizing unit 11. The second image recognition unit 12, like the first image recognition unit 11, performs image segmentation using, for example, semantic segmentation. The input image I and the first output image O1 are input to the second image recognition unit 12. The second image recognition unit 12 performs image segmentation without reducing the resolution of the input image I. When the input image I and the first output image O1 are input, the second image recognition unit 12 performs class classification for each pixel of the input image I using the first output image O1, and performs the class classification. The output image is output as a second output image O2. That is, the second image recognition unit 12 performs region division on the input image I using the first output image O1 as a hint, and outputs a second output image O2.

第2の画像認識部12は、入力画像Iの特徴量を抽出する特徴量抽出処理を実行する。さらに、第2の画像認識部12は、第1の出力画像O1と特徴量抽出処理が行われる画像とを統合するフュージョン処理を実行して、ピクセル単位のクラス推論を行っている。   The second image recognition unit 12 performs a feature amount extraction process for extracting a feature amount of the input image I. Further, the second image recognition unit 12 performs a fusion process for integrating the first output image O1 and the image on which the feature amount extraction process is performed, and performs class inference on a pixel-by-pixel basis.

特徴量抽出処理は、複数の畳み込み層において入力画像Iの特徴量を抽出する処理であり、エンコーダ22における畳み込み層の処理とほぼ同様である。また、特徴量抽出処理では、プーリング層を省いた処理となっている。畳み込み層では、入力画像Iの特徴量を抽出するための畳み込み計算が、畳み込み層の重みに基づいて実行され、この計算により特徴量が抽出された特徴マップを生成する。特徴量抽出処理では、入力画像Iに対して畳み込み計算が複数回実行されることで、特徴マップを生成する。   The feature amount extraction process is a process of extracting the feature amount of the input image I in a plurality of convolution layers, and is substantially the same as the processing of the convolution layer in the encoder 22. Further, the feature amount extraction processing is processing in which the pooling layer is omitted. In the convolutional layer, a convolution calculation for extracting a feature amount of the input image I is executed based on the weight of the convolutional layer, and a feature map from which the feature amount is extracted by this calculation is generated. In the feature extraction process, a convolution calculation is performed on the input image I a plurality of times to generate a feature map.

フュージョン処理は、第1の出力画像O1をヒントとして、特徴量抽出処理が行われる特徴マップをマージして、クラス推論を行うことにより、クラスごとに領域分割された画像を生成し、入力画像Iと同じ解像度の第2の出力画像O2を生成する。   In the fusion process, the first output image O1 is used as a hint to merge the feature maps on which the feature amount extraction process is performed, and to perform class inference, thereby generating an image divided into regions for each class. To generate a second output image O2 having the same resolution as that of.

以上のように、第2の画像認識部12は、入力画像Iに対して、特徴量抽出処理及びフュージョン処理を実行し、第1の出力画像O1をヒントとして、ピクセル単位でクラス推論(クラス分類)を行うことで、入力画像Iの画像セグメンテーションを行う。また、第2の画像認識部12は、画像セグメンテーションされた入力画像Iを、第2の出力画像O2として出力する。   As described above, the second image recognition unit 12 performs the feature amount extraction processing and the fusion processing on the input image I, and performs class inference (class classification) on a pixel-by-pixel basis using the first output image O1 as a hint. ) To perform the image segmentation of the input image I. In addition, the second image recognition unit 12 outputs the input image I that has been subjected to the image segmentation as a second output image O2.

ここで、第2の画像認識部12では、カーネルのチャネル数Cと、畳み込み層に入力される特徴マップのチャネル数C’とを、第1の画像認識部11に比して小さくしている。カーネルのチャネル数Cと畳み込み層に入力される特徴マップのチャネル数C’との積は、画像認識の表現力である。つまり、第2の画像認識部12の表現力は、第1の画像認識部11に比して小さいものとなっている。これは、第2の画像認識部12では、入力画像Iの画像セグメンテーションに際して、第1の出力画像O1をヒントとしていることから、表現力が小さい場合であっても、画像認識の精度を担保できるからである。   Here, in the second image recognition unit 12, the number of channels C of the kernel and the number of channels C ′ of the feature map input to the convolutional layer are smaller than those of the first image recognition unit 11. . The product of the channel number C of the kernel and the channel number C 'of the feature map input to the convolutional layer is the expressiveness of image recognition. That is, the expressive power of the second image recognition unit 12 is smaller than that of the first image recognition unit 11. This is because the second image recognition unit 12 uses the first output image O1 as a hint at the time of image segmentation of the input image I, so that the accuracy of image recognition can be ensured even when the expressive power is small. Because.

なお、第2の画像認識部12は、セマンティック・セグメンテーションを用いた画像セグメンテーションに適用して説明したが、特に限定されない。第2の画像認識部12は、第1の画像認識部11に比して入力画像Iを局所的に捉えて領域分割を行うタスクを実行可能であれば、例えば、異なるネットワークを用いた画像セグメンテーションを実行するものであってもよい。   The second image recognition unit 12 has been described as applied to image segmentation using semantic segmentation, but is not particularly limited. As long as the second image recognition unit 12 can execute a task of locally capturing the input image I and performing region division as compared with the first image recognition unit 11, for example, image segmentation using a different network May be executed.

ここで、第2の画像認識部12の画像認識に係る計算量について説明する。第2の画像認識部12では、第1の画像認識部11に比して表現力が小さいものとなっている。このため、上記の(1)式に示す表現力(C×C’)が小さいものとなることから、畳み込み層の計算量は小さいものとなる。よって、第2の画像認識部12では、画像認識の表現力を小さくすることで、第2の画像認識部12による入力画像Iの画像認識のタスクは、計算負荷の低いタスクとなっている。   Here, the calculation amount related to image recognition of the second image recognition unit 12 will be described. The second image recognition unit 12 has a lower expressive power than the first image recognition unit 11. For this reason, since the expressive power (C × C ′) shown in the above equation (1) is small, the calculation amount of the convolutional layer is small. Therefore, in the second image recognition unit 12, the task of image recognition of the input image I by the second image recognition unit 12 is a task with a low calculation load by reducing the expressiveness of the image recognition.

第2の画像認識部12は、第2の出力画像O2を外部に出力する。また、第2の画像認識部12は、第2の出力画像O2の生成時に用いた第1の出力画像O1を、第2の出力画像O2に関連付けて出力可能となっている。   The second image recognition unit 12 outputs the second output image O2 to the outside. In addition, the second image recognition unit 12 can output the first output image O1 used when generating the second output image O2 in association with the second output image O2.

以上から、第1の画像認識部11は、第2の画像認識部12と比べて入力画像Iを大局的に捉えて領域分割を行うべく、入力画像Iをダウンサンプリングして、低解像度の入力画像Iとしていることから、計算負荷の低いタスクとなっている。また、第2の画像認識部12は、第1の画像認識部11と比べて入力画像Iを局所的に捉えて領域分割を行う際に、第1の出力画像O1を用いて入力画像Iの領域分割を行う。このため、第2の画像認識部12は、第1の画像認識部11と比べて表現力の低い画像認識でよいことから、計算負荷の低いタスクとなっている。   From the above, the first image recognition unit 11 downsamples the input image I and performs low-resolution input Since the image I is used, the task has a low calculation load. Further, the second image recognition unit 12 uses the first output image O1 to capture the input image I locally and performs region division as compared with the first image recognition unit 11. Perform region division. For this reason, the second image recognition unit 12 is a task with a low calculation load, since image recognition with lower expressive power is sufficient compared with the first image recognition unit 11.

次に、画像認識装置1の学習について説明する。画像認識装置1の学習には、学習データセットが用いられる。図5は、学習データセットの一例を示す図である。学習データセットは、学習対象となる画像である学習画像と、学習画像に対応する教師画像と、を含む。学習画像は、入力画像Iと同様に、デジタル画像である。教師画像は、学習画像に対応する画像セグメンテーションされた回答となる画像、つまり、領域分割された画像となっている。教師画像は、アノテーション作業により生成される画像となっている。   Next, learning of the image recognition device 1 will be described. The learning of the image recognition device 1 uses a learning data set. FIG. 5 is a diagram illustrating an example of a learning data set. The learning data set includes a learning image, which is an image to be learned, and a teacher image corresponding to the learning image. The learning image is a digital image, like the input image I. The teacher image is an image that is an answer that has been subjected to image segmentation corresponding to the learning image, that is, an image obtained by region segmentation. The teacher image is an image generated by the annotation work.

学習データセットは、第1の画像認識部11の学習に用いられる第1の学習データセットD1と、第2の画像認識部12の学習に用いられる第2の学習データセットD2とを含む。   The learning data set includes a first learning data set D1 used for learning of the first image recognizing unit 11 and a second learning data set D2 used for learning of the second image recognizing unit 12.

図5に示すように、第1の学習データセットD1は、第1の学習画像G1と、第1の教師画像T1とを含む。第1の学習画像G1は、第1の画像認識部11の学習対象となる画像であり、入力画像Iと同様に、デジタル画像である。第1の教師画像T1は、ピクセル単位でクラスごとに領域分割された画像となっている。図5に示す第1の教師画像T1では、例えば、人のクラスに分類された画像領域T1aと、車のクラスに分類された画像領域T1bと、道路のクラスに分類された画像領域T2cとを含んでいる。   As shown in FIG. 5, the first learning data set D1 includes a first learning image G1 and a first teacher image T1. The first learning image G1 is an image to be learned by the first image recognition unit 11, and is a digital image like the input image I. The first teacher image T <b> 1 is an image obtained by dividing an area for each class in pixel units. In the first teacher image T1 shown in FIG. 5, for example, an image region T1a classified into a person class, an image region T1b classified into a car class, and an image region T2c classified into a road class are included. Contains.

第2の学習データセットD2は、第2の学習画像G2と、第2の教師画像T2とを含む。第2の学習画像G2は、第2の画像認識部12の学習対象となる画像であり、入力画像及び第1の学習画像G1と同様に、デジタル画像である。なお、図5では、説明を簡単にするために、第1の学習画像G1と第2の学習画像G2とを同じ画像としているが、異なる画像であってもよい。第2の教師画像T2は、第1の教師画像T1と同様に、ピクセル単位でクラスごとに領域分割された画像となっている。図5に示す第2の教師画像T2では、第1の教師画像T1と同様に、人のクラスに分類された画像領域T2aと、車のクラスに分類された画像領域T2bと、道路のクラスに分類された画像領域T2cとを含んでいる。   The second learning data set D2 includes a second learning image G2 and a second teacher image T2. The second learning image G2 is an image to be learned by the second image recognition unit 12, and is a digital image like the input image and the first learning image G1. In FIG. 5, the first learning image G1 and the second learning image G2 are the same image for the sake of simplicity, but may be different images. Like the first teacher image T1, the second teacher image T2 is an image obtained by dividing the area of each pixel into classes. In the second teacher image T2 shown in FIG. 5, similarly to the first teacher image T1, an image region T2a classified into a person class, an image region T2b classified into a car class, and a road class And a classified image area T2c.

ここで、第1の学習データセットD1の第1の教師画像T1は、第2の学習データセットD2の第2の教師画像T2に比して、低解像度の教師画像となっている。つまり、第1の教師画像T1及び第2の教師画像T2は、ピクセル単位ごとに領域分割された画像であるものの、第1の教師画像T1は、画像サイズが小さく、第2の教師画像T2は、画像サイズが大きなものとなっている。   Here, the first teacher image T1 of the first learning data set D1 is a lower resolution teacher image than the second teacher image T2 of the second learning data set D2. In other words, although the first teacher image T1 and the second teacher image T2 are images divided into regions for each pixel, the first teacher image T1 has a small image size, and the second teacher image T2 , The image size is large.

なお、実施形態では、第1の教師画像T1を第2の教師画像T2に比して、低解像度の教師画像としたが、特に限定されない。第1の教師画像T1と第2の教師画像T2とを同じ解像度としてもよい。すなわち、第1の学習データセットD1と第2の学習データセットD2とを同じ学習データセットとしてもよい。換言すれば、単一の学習データセットを用いて、第1の画像認識部11及び第2の画像認識部12の学習を行ってもよい。   In the embodiment, the first teacher image T1 is a teacher image having a lower resolution than the second teacher image T2. However, the present invention is not particularly limited. The first teacher image T1 and the second teacher image T2 may have the same resolution. That is, the first learning data set D1 and the second learning data set D2 may be the same learning data set. In other words, the learning of the first image recognition unit 11 and the second image recognition unit 12 may be performed using a single learning data set.

次に、図6から図8を参照して、第1の学習データセットD1及び第2の学習データセットD2を用いた画像認識装置1の学習に関する処理について説明する。図6から図8は、画像認識装置の画像学習に関する処理の一例を示す図である。画像認識装置1の学習では、第1の画像認識部11の学習を行ってから、第2の画像認識部12の学習を行っている。   Next, with reference to FIG. 6 to FIG. 8, a process related to learning of the image recognition device 1 using the first learning data set D1 and the second learning data set D2 will be described. 6 to 8 are diagrams illustrating an example of processing related to image learning of the image recognition device. In the learning of the image recognition device 1, the learning of the second image recognition unit 12 is performed after the learning of the first image recognition unit 11 is performed.

図6を参照して、第1の学習データセットD1を用いて、第1の画像認識部11の学習を行う処理について説明する。第1の画像認識部11の学習を行う処理では、第1の学習画像G1を第1の画像認識部11に入力し、第1の画像認識部11により第1の学習画像G1の画像セグメンテーションを行って、第1の出力画像O1を取得するステップ(第5のステップ)を実行する。   With reference to FIG. 6, a process of performing learning of the first image recognition unit 11 using the first learning data set D1 will be described. In the process of performing learning of the first image recognition unit 11, the first learning image G1 is input to the first image recognition unit 11, and the first image recognition unit 11 performs image segmentation of the first learning image G1. Then, the step of acquiring the first output image O1 (fifth step) is performed.

具体的に、第1の学習データセットD1の第1の学習画像G1が、画像認識装置1の第1の画像認識部11に入力される(ステップS1)。第1の学習画像G1が入力されると、第1の画像認識部11は、第1の学習画像G1を入力画像として、第1の学習画像G1をダウンサンプリングする(ステップS2)。第1の画像認識部11は、低解像度となった第1の学習画像G1に対してエンコード処理を実行する(ステップS3)。第1の画像認識部11は、エンコード処理を実行することで、ダウンサンプリングされた特徴量を含む低解像度の特徴マップを生成する。第1の画像認識部11は、ダウンサンプリングされた特徴量を含む特徴マップに対してデコード処理を実行する(ステップS4)。第1の画像認識部11は、デコード処理を実行することで、特徴量を含む低解像度の特徴マップを復元しながらアップサンプリングして、第1の学習画像G1と同じ解像度とする。そして、第1の画像認識部11は、画像をピクセル単位でクラスごとに領域分割するクラス推論を実行する(ステップS5)。第1の画像認識部11は、クラス推論の結果として、第1の出力画像O1を取得する(ステップS6)。   Specifically, the first learning image G1 of the first learning data set D1 is input to the first image recognition unit 11 of the image recognition device 1 (Step S1). When the first learning image G1 is input, the first image recognition unit 11 uses the first learning image G1 as an input image and downsamples the first learning image G1 (Step S2). The first image recognition unit 11 performs an encoding process on the first learning image G1 having a low resolution (Step S3). The first image recognition unit 11 generates a low-resolution feature map including the down-sampled feature amounts by executing the encoding process. The first image recognition unit 11 performs a decoding process on the feature map including the down-sampled feature amount (Step S4). The first image recognition unit 11 performs up-sampling while restoring a low-resolution feature map including a feature amount by executing a decoding process, to obtain the same resolution as that of the first learning image G1. Then, the first image recognition unit 11 executes a class inference for dividing the image into regions on a pixel-by-pixel basis for each class (step S5). The first image recognition unit 11 acquires the first output image O1 as a result of the class inference (Step S6).

次に、第1の画像認識部11の学習を行う処理では、第1の教師画像T1に対する第1の出力画像O1の第1の誤差を取得するステップ(ステップS7:第6のステップ)を実行する。   Next, in the learning process of the first image recognition unit 11, a step of acquiring a first error of the first output image O1 with respect to the first teacher image T1 (Step S7: sixth step) is executed. I do.

具体的に、ステップS7において、第1の画像認識部11は、第1の出力画像O1を取得すると、第1の学習データセットD1の第1の教師画像T1を取得する。第1の画像認識部11は、取得した第1の教師画像T1と第1の出力画像O1とから、第1の教師画像T1と第1の出力画像O1との誤差量を第1の誤差として算出する。誤差量は、Cross Entropy関数を用いて誤差計算を行うことにより算出される。   Specifically, in step S7, when the first image recognition unit 11 acquires the first output image O1, it acquires the first teacher image T1 of the first learning data set D1. The first image recognition unit 11 sets an error amount between the first teacher image T1 and the first output image O1 as a first error based on the obtained first teacher image T1 and the first output image O1. calculate. The error amount is calculated by performing an error calculation using the Cross Entropy function.

そして、第1の画像認識部11の学習を行う処理では、第1の誤差に基づいて、第1の画像認識部11による画像セグメンテーションを修正するステップ(第7のステップ)を実行する。   Then, in the process of learning the first image recognition unit 11, a step (seventh step) of correcting the image segmentation by the first image recognition unit 11 based on the first error is executed.

具体的に、第1の画像認識部11は、第1の誤差を取得すると、誤差量に基づいて誤差逆伝播法によりネットワークにおける誤差が修正されるように、ネットワークの畳み込み層及び逆畳み込み層の重みを学習させ、ネットワークを更新する(ステップS8)。第1の画像認識部11は、ステップS8の実行により、第1の学習データセットD1を用いた学習を終了する。そして、第1の画像認識部11は、ステップS1からステップS8を、第1の学習データセットD1のセット数に応じて繰り返し実行する。   Specifically, when the first image recognition unit 11 obtains the first error, the first image recognition unit 11 corrects the error in the network by the error backpropagation method based on the error amount, so that the convolutional layer and the deconvolutional layer of the network can be corrected. The weight is learned and the network is updated (step S8). The first image recognition unit 11 ends the learning using the first learning data set D1 by executing step S8. Then, the first image recognition unit 11 repeatedly executes steps S1 to S8 according to the number of the first learning data sets D1.

次に、図7及び図8を参照して、第2の学習データセットD2を用いて、第2の画像認識部12の学習を行う処理について説明する。第2の画像認識部12の学習を行う処理では、第1の画像認識部11は学習済みとなっており、第1の画像認識部11から出力される第1の出力画像O1が用いられる。第2の画像認識部12の学習を行う処理では、第2の学習画像G2を第1の画像認識部11に入力し、第1の画像認識部11により第2の学習画像G2の画像セグメンテーションを行って、第1の出力画像O1を取得するステップ(第1のステップ)を実行する。   Next, with reference to FIGS. 7 and 8, a process of learning the second image recognition unit 12 using the second learning data set D2 will be described. In the process of learning the second image recognition unit 12, the first image recognition unit 11 has already learned, and the first output image O1 output from the first image recognition unit 11 is used. In the process of learning the second image recognizing unit 12, the second learning image G2 is input to the first image recognizing unit 11, and the first image recognizing unit 11 performs image segmentation of the second learning image G2. Then, the step of obtaining the first output image O1 (first step) is performed.

具体的に、図7に示すように、第2の学習データセットD2の第2の学習画像G2が、画像認識装置1の第1の画像認識部11に入力される(ステップS11)。第2の学習画像G2が入力されると、第1の画像認識部11は、第2の学習画像G2を入力画像として、第2の学習画像G2をダウンサンプリングする(ステップS12)。第1の画像認識部11は、低解像度となった第2の学習画像G2に対してエンコード処理を実行する(ステップS13)。第1の画像認識部11は、エンコード処理を実行することで、ダウンサンプリングされた特徴量を含む低解像度の特徴マップを生成する。第1の画像認識部11は、ダウンサンプリングされた特徴量を含む特徴マップに対してデコード処理を実行する(ステップS14)。第1の画像認識部11は、デコード処理を実行することで、特徴量を含む低解像度の特徴マップを復元しながらアップサンプリングして、第2の学習画像G2と同じ解像度とする。そして、第1の画像認識部11は、画像をピクセル単位でクラスごとに領域分割するクラス推論を実行する(ステップS15)。第1の画像認識部11は、クラス推論の結果として、第1の出力画像O1を取得する(ステップS16)。   Specifically, as shown in FIG. 7, the second learning image G2 of the second learning data set D2 is input to the first image recognition unit 11 of the image recognition device 1 (Step S11). When the second learning image G2 is input, the first image recognition unit 11 uses the second learning image G2 as an input image and downsamples the second learning image G2 (Step S12). The first image recognition unit 11 performs an encoding process on the second learning image G2 having the reduced resolution (Step S13). The first image recognition unit 11 generates a low-resolution feature map including the down-sampled feature amounts by executing the encoding process. The first image recognition unit 11 performs a decoding process on the feature map including the down-sampled feature amount (Step S14). The first image recognition unit 11 performs up-sampling while restoring a low-resolution feature map including a feature amount by executing a decoding process to obtain the same resolution as that of the second learning image G2. Then, the first image recognition unit 11 executes a class inference for dividing the image into regions on a pixel-by-pixel basis for each class (step S15). The first image recognition unit 11 acquires the first output image O1 as a result of the class inference (Step S16).

次に、第2の画像認識部12の学習を行う処理では、第2の学習画像G2と第1の出力画像O1とを第2の画像認識部12に入力し、第1の出力画像O1を用いて第2の画像認識部12により第2の学習画像G2の画像セグメンテーションを行って、第2の出力画像O2を取得するステップ(第2のステップ)を実行する。   Next, in the process of performing learning of the second image recognition unit 12, the second learning image G2 and the first output image O1 are input to the second image recognition unit 12, and the first output image O1 is processed. The second image recognizing unit 12 performs image segmentation of the second learning image G2 by using the second image recognition unit 12 to obtain a second output image O2 (second step).

具体的に、図8に示すように、第2の学習データセットD2の第2の学習画像G2が、画像認識装置1の第2の画像認識部12に入力される(ステップS21)。第2の学習画像G2が入力されると、第2の画像認識部12は、第2の学習画像G2を入力画像として、第2の学習画像G2に対して特徴量抽出処理を実行する(ステップS22)。第2の画像認識部12は、特徴量抽出処理を実行することで、特徴量を含む特徴マップを生成する。また、第2の画像認識部12は、特徴量を含む特徴マップに対してフュージョン処理を実行する(ステップS23)。第2の画像認識部12は、フュージョン処理を実行することで、第1の出力画像O1をヒントとして、特徴量抽出処理が行われる特徴マップを復元する。そして、第2の画像認識部12は、特徴マップから、ピクセル単位でクラスごとに領域分割するクラス推論を実行する(ステップS24)。第2の画像認識部12は、クラス推論の結果として、第2の出力画像O2を取得する(ステップS25)。   Specifically, as shown in FIG. 8, the second learning image G2 of the second learning data set D2 is input to the second image recognition unit 12 of the image recognition device 1 (Step S21). When the second learning image G2 is input, the second image recognition unit 12 executes a feature amount extraction process on the second learning image G2 using the second learning image G2 as an input image (Step S10). S22). The second image recognition unit 12 generates a feature map including a feature amount by executing a feature amount extraction process. In addition, the second image recognition unit 12 performs a fusion process on the feature map including the feature amount (Step S23). The second image recognizing unit 12 executes the fusion process to restore the feature map on which the feature amount extraction process is performed using the first output image O1 as a hint. Then, the second image recognizing unit 12 executes class inference that divides the area for each class on a pixel basis from the feature map (step S24). The second image recognition unit 12 acquires a second output image O2 as a result of the class inference (Step S25).

次に、第2の画像認識部12の学習を行う処理では、第2の教師画像T2に対する第2の出力画像O2の第2の誤差を取得するステップ(ステップS26:第3のステップ)を実行する。   Next, in the learning process of the second image recognition unit 12, a step of acquiring a second error of the second output image O2 with respect to the second teacher image T2 (Step S26: a third step) is executed. I do.

具体的に、ステップS26において、第2の画像認識部12は、第2の出力画像O2を取得すると、第2の学習データセットD2の第2の教師画像T2を取得する。第2の画像認識部12は、取得した第2の教師画像T2と第2の出力画像O2とから、第2の教師画像T2と第2の出力画像O2との誤差量を第2の誤差として算出する。誤差量は、Cross Entropy関数を用いて誤差計算を行うことにより算出される。   Specifically, in step S26, when acquiring the second output image O2, the second image recognition unit 12 acquires the second teacher image T2 of the second learning data set D2. The second image recognizing unit 12 sets an error amount between the second teacher image T2 and the second output image O2 as a second error based on the acquired second teacher image T2 and the second output image O2. calculate. The error amount is calculated by performing an error calculation using the Cross Entropy function.

そして、第2の画像認識部12の学習を行う処理では、第2の誤差に基づいて、第2の画像認識部12による画像セグメンテーションを修正するステップ(第4のステップ)を実行する。   Then, in the process of learning by the second image recognition unit 12, a step (fourth step) of correcting the image segmentation by the second image recognition unit 12 based on the second error is executed.

具体的に、第2の画像認識部12は、第2の誤差を取得すると、誤差量に基づいて誤差逆伝播法によりネットワークにおける誤差が修正されるように、ネットワークの畳み込み層の重みを学習させ、ネットワークを更新する(ステップS27)。ここで、ステップS27において、第2の誤差に基づく学習では、第2の画像認識部12の学習を行う一方で、第1の画像認識部11の学習を遮断している。すなわち、第2の誤差は、第2の画像認識部12へ誤差逆伝播させる一方で、第1の画像認識部11へ誤差逆伝播させない。このため、ステップS27では、第2の画像認識部12におけるネットワークが誤差修正される一方で、第1の画像認識部11におけるネットワークが誤差修正されない。第2の画像認識部12は、ステップS27の実行により、第2の学習データセットD2を用いた学習を終了する。そして、第2の画像認識部12は、ステップS21からステップS27を、第2の学習データセットD2のセット数に応じて繰り返し実行する。   Specifically, when the second image recognition unit 12 acquires the second error, the second image recognition unit 12 learns the weight of the convolutional layer of the network so that the error in the network is corrected by the error backpropagation method based on the error amount. The network is updated (step S27). Here, in step S27, in the learning based on the second error, the learning of the first image recognition unit 11 is interrupted while the learning of the second image recognition unit 12 is performed. That is, while the second error is backpropagated to the second image recognition unit 12, it is not backpropagated to the first image recognition unit 11. For this reason, in step S27, while the network in the second image recognition unit 12 is corrected for errors, the network in the first image recognition unit 11 is not corrected for errors. The second image recognition unit 12 ends the learning using the second learning data set D2 by executing step S27. Then, the second image recognition unit 12 repeatedly executes steps S21 to S27 according to the number of the second learning data sets D2.

このように、画像認識装置1の学習では、第1の学習データセットD1を用いて、第1の学習画像G1を大局的に捉えるように、第1の画像認識部11を学習させている。また、画像認識装置1の学習では、第2の学習データセットD2を用いて、第2の学習画像G2を局所的に捉えるように、第2の画像認識部12を学習させている。   As described above, in the learning of the image recognition device 1, the first image recognition unit 11 is trained using the first learning data set D1 so as to globally capture the first learning image G1. In the learning of the image recognition device 1, the second image recognition unit 12 is trained so as to locally capture the second learning image G2 by using the second learning data set D2.

次に、図9及び図10を参照して、学習済みの画像認識装置1による画像認識について説明する。図9及び図10は、画像認識装置の画像認識に関する処理の一例を示す図である。画像認識装置1の画像認識に関する処理では、入力画像Iを第1の画像認識部11に入力し、第1の画像認識部11により入力画像Iの画像セグメンテーションを行って、第1の出力画像O1を取得するステップ(第8のステップ)を実行する。   Next, image recognition by the learned image recognition device 1 will be described with reference to FIGS. 9 and 10 are diagrams illustrating an example of processing related to image recognition of the image recognition device. In a process related to image recognition of the image recognition device 1, the input image I is input to the first image recognition unit 11, and the first image recognition unit 11 performs image segmentation of the input image I, and outputs the first output image O1. Is executed (eighth step).

具体的に、図9に示すように、入力画像Iが画像認識装置1に入力される(ステップS31)。入力画像Iが入力されると、第1の画像認識部11は、入力画像Iをダウンサンプリングする(ステップS32)。第1の画像認識部11は、低解像度となった入力画像Iに対してエンコード処理を実行する(ステップS33)。第1の画像認識部11は、エンコード処理を実行することで、ダウンサンプリングされた特徴量を含む低解像度の特徴マップを生成する。第1の画像認識部11は、ダウンサンプリングされた特徴量を含む特徴マップに対してデコード処理を実行する(ステップS34)。第1の画像認識部11は、デコード処理を実行することで、特徴量を含む低解像度の特徴マップを復元しながらアップサンプリングして、入力画像Iと同じ解像度とする。そして、第1の画像認識部11は、画像をピクセル単位でクラスごとに領域分割するクラス推論を実行する(ステップS35)。第1の画像認識部11は、クラス推論の結果として、第1の出力画像O1を取得する(ステップS36)。   Specifically, as shown in FIG. 9, the input image I is input to the image recognition device 1 (Step S31). When the input image I is input, the first image recognition unit 11 downsamples the input image I (Step S32). The first image recognition unit 11 performs an encoding process on the input image I having a low resolution (step S33). The first image recognition unit 11 generates a low-resolution feature map including the down-sampled feature amounts by executing the encoding process. The first image recognition unit 11 performs a decoding process on the feature map including the down-sampled feature amount (Step S34). The first image recognition unit 11 performs upsampling while restoring a low-resolution feature map including a feature amount by executing a decoding process, and sets the same resolution as the input image I. Then, the first image recognition unit 11 executes a class inference for dividing the image into regions on a pixel-by-class basis (step S35). The first image recognition unit 11 obtains a first output image O1 as a result of the class inference (Step S36).

次に、画像認識装置1の画像認識に関する処理では、入力画像Iと第1の出力画像O1とを第2の画像認識部12に入力し、第1の出力画像O1を用いて第2の画像認識部12により入力画像Iの画像セグメンテーションを行って、第2の出力画像O2を取得するステップ(第9のステップ)を実行する。   Next, in the process related to image recognition of the image recognition device 1, the input image I and the first output image O1 are input to the second image recognition unit 12, and the second image is input using the first output image O1. A step (a ninth step) of performing the image segmentation of the input image I by the recognition unit 12 to obtain the second output image O2 is executed.

具体的に、図10に示すように、入力画像Iが、画像認識装置1の第2の画像認識部12に入力される(ステップS41)。入力画像Iが入力されると、第2の画像認識部12は、入力画像Iに対して特徴量抽出処理を実行する(ステップS42)。第2の画像認識部12は、特徴量抽出処理を実行することで、入力画像Iから特徴量を含む特徴マップを生成する。また、第2の画像認識部12は、特徴量を含む特徴マップに対してフュージョン処理を実行する(ステップS43)。第2の画像認識部12は、フュージョン処理を実行することで、第1の出力画像O1をヒントとして、特徴量抽出処理が行われる特徴マップを復元する。そして、第2の画像認識部12は、特徴マップから、ピクセル単位でクラスごとに領域分割するクラス推論を実行する(ステップS44)。第2の画像認識部12は、クラス推論の結果として、第2の出力画像O2を取得する(ステップS45)。   Specifically, as shown in FIG. 10, the input image I is input to the second image recognition unit 12 of the image recognition device 1 (Step S41). When the input image I is input, the second image recognition unit 12 performs a feature amount extraction process on the input image I (Step S42). The second image recognizing unit 12 generates a feature map including the feature amount from the input image I by executing the feature amount extracting process. In addition, the second image recognition unit 12 performs a fusion process on the feature map including the feature amount (Step S43). The second image recognizing unit 12 executes the fusion process to restore the feature map on which the feature amount extraction process is performed using the first output image O1 as a hint. Then, the second image recognition unit 12 executes a class inference that divides the area for each class on a pixel-by-pixel basis from the feature map (step S44). The second image recognition unit 12 acquires the second output image O2 as a result of the class inference (Step S45).

このように、画像認識装置1の画像認識では、第1の画像認識部11において、第2の画像認識部12と比べて入力画像Iをダウンサンプリングできるため、計算負荷の低いタスクで画像認識を行う。そして、画像認識装置1の画像認識では、第2の画像認識部12において、第1の出力画像O1を用いて入力画像Iの領域分割を行うため、計算負荷の低いタスクで画像認識を行う。   As described above, in the image recognition of the image recognition device 1, the input image I can be downsampled in the first image recognition unit 11 as compared with the second image recognition unit 12. Do. Then, in the image recognition of the image recognition apparatus 1, the second image recognition unit 12 performs the area division of the input image I using the first output image O1, so that the image recognition is performed by a task with a low calculation load.

また、画像認識装置1の画像認識に関する処理として、画像認識装置1は、第2の出力画像O2を取得すると、第2の出力画像O2を所定のフレームレートで出力するステップを実行する。ここで、画像認識装置1は、計算負荷の軽減のために、取得した第1の出力画像O1と、取得した第2の出力画像O2とを混在させて所定のフレームレートで出力してもよい。つまり、画像認識装置1は、第1の出力画像O1を出力する場合、第2の画像認識部12による画像認識を実行せずに、画像認識を行ってもよい。   In addition, as a process related to image recognition of the image recognition device 1, when the image recognition device 1 acquires the second output image O2, the image recognition device 1 executes a step of outputting the second output image O2 at a predetermined frame rate. Here, the image recognition device 1 may output the acquired first output image O1 and the acquired second output image O2 at a predetermined frame rate in a mixed manner in order to reduce the calculation load. . That is, when outputting the first output image O <b> 1, the image recognition device 1 may perform image recognition without performing image recognition by the second image recognition unit 12.

また、画像認識装置1の画像認識に関する処理として、図11に示す処理を行っている。図11は、画像認識装置の画像認識に関する処理の一例を示す図である。図11に示す処理では、画像認識により取得した第1の出力画像O1と、第1の出力画像O1に対応する第2の出力画像O2とを関連付けて取得するステップ(第10のステップ)を実行する。   In addition, the processing illustrated in FIG. 11 is performed as processing related to image recognition of the image recognition device 1. FIG. 11 is a diagram illustrating an example of a process regarding image recognition of the image recognition device. In the process shown in FIG. 11, a step (tenth step) of acquiring the first output image O1 acquired by image recognition and the second output image O2 corresponding to the first output image O1 in association with each other is executed. I do.

具体的に、第1の画像認識部11が第1の出力画像O1を中間画像として取得する(ステップS51)。また、第2の画像認識部12が第1の出力画像O1に対応する第2の出力画O2を取得する(ステップS52)。画像認識装置1は、第1の出力画像O1と第2の出力画像O2を関連付けて取得する(ステップS53)。   Specifically, the first image recognizing unit 11 acquires the first output image O1 as an intermediate image (Step S51). Further, the second image recognition unit 12 acquires a second output image O2 corresponding to the first output image O1 (Step S52). The image recognition device 1 acquires the first output image O1 and the second output image O2 in association with each other (Step S53).

そして、取得された第1の出力画像O1及び第2の出力画像O2は、画像認識装置1による画像認識の評価または解析を行う場合において使用される。例えば、画像認識装置1による画像認識に誤認識等の不具合があった場合、第1の出力画像O1及び第2の出力画像O2を比較することで、第1の画像認識部11における異常があったのか、第2の画像認識部12における異常があったのかを推定することが可能となる。すなわち、第2の出力画像O2に誤認識がある場合、第1の出力画像O1に誤認識がなければ、第2の画像認識部12に異常があると推定できる。一方で、第2の出力画像O2に誤認識がある場合、第1の出力画像O1に誤認識があれば、第1の画像認識部11に異常があると推定できる。   Then, the obtained first output image O1 and second output image O2 are used when evaluating or analyzing image recognition by the image recognition device 1. For example, when there is a defect such as erroneous recognition in image recognition by the image recognition device 1, by comparing the first output image O1 and the second output image O2, an abnormality in the first image recognition unit 11 is detected. It is possible to estimate whether there is an abnormality in the second image recognition unit 12. That is, when there is an erroneous recognition in the second output image O2, if there is no erroneous recognition in the first output image O1, it can be estimated that there is an abnormality in the second image recognition unit 12. On the other hand, if the second output image O2 has an erroneous recognition, and if the first output image O1 has an erroneous recognition, it can be estimated that the first image recognition unit 11 has an abnormality.

以上のように、実施形態に係る画像認識装置1の学習では、第1の画像認識部11の学習と、第2の画像認識部12の学習とに分けることができる。そして、第1の画像認識部11の学習では、学習画像G1,G2を大局的に捉えて領域分割を行うタスクを実行することができる。また、第2の画像認識部12の学習では、学習画像G2を局所的に捉えて領域分割を行うタスクを実行することができる。このため、第1の画像認識部11において、局所的な情報が欠落する場合であっても、第2の画像認識部12で局所的な情報を捉えることができる。局所的な情報としては、例えば、小さな物体、または遠方の物体である。よって、実施形態に係る画像認識装置1の学習では、局所的な情報の欠落を抑制した画像認識の学習を行うことができる。   As described above, learning of the image recognition device 1 according to the embodiment can be divided into learning of the first image recognition unit 11 and learning of the second image recognition unit 12. Then, in the learning of the first image recognition unit 11, a task of capturing the learning images G1 and G2 globally and performing region division can be executed. Further, in the learning of the second image recognition unit 12, a task of locally capturing the learning image G2 and performing region division can be performed. Therefore, even when local information is missing in the first image recognition unit 11, local information can be captured in the second image recognition unit 12. The local information is, for example, a small object or a distant object. Therefore, in the learning of the image recognition device 1 according to the embodiment, it is possible to perform the learning of the image recognition in which the local information loss is suppressed.

また、第1の画像認識部11の学習では、学習画像G1,G2を低解像度とすることで、計算負荷の低いタスクとして実行できる。また、第2の画像認識部12の学習では、画像認識の表現力を低くすることで、計算負荷の低いタスクとして実行できる。このため、実施形態に係る画像認識装置1では、計算負荷が低く、効率のよい学習を行うことができる。   Further, the learning of the first image recognition unit 11 can be executed as a task with a low calculation load by setting the learning images G1 and G2 at low resolution. Further, the learning of the second image recognition unit 12 can be executed as a task with a low calculation load by reducing the expressiveness of the image recognition. Therefore, in the image recognition device 1 according to the embodiment, the calculation load is low, and efficient learning can be performed.

また、第1の画像認識部11の学習では、第1の学習データセットD1を用いて学習を行うことができるため、第1の画像認識部11に適した精度のよい学習を行うことができる。同様に、第2の画像認識部12の学習では、第2の学習データセットD2を用いて学習を行うことができるため、第2の画像認識部12に適した精度のよい学習を行うことができる。   In the learning of the first image recognition unit 11, since learning can be performed using the first learning data set D1, highly accurate learning suitable for the first image recognition unit 11 can be performed. . Similarly, in the learning of the second image recognition unit 12, since learning can be performed using the second learning data set D2, accurate learning suitable for the second image recognition unit 12 can be performed. it can.

また、第2の画像認識部12において、第1の出力画像O1を、第2の学習画像G2または入力画像Iと同じ解像度とすることができる。このため、第2の画像認識部12における第1の出力画像O1の処理を、第2の学習画像G2と同様に取り扱うことができる。   Further, in the second image recognition unit 12, the first output image O1 can have the same resolution as the second learning image G2 or the input image I. For this reason, the processing of the first output image O1 in the second image recognition unit 12 can be handled in the same way as the second learning image G2.

また、第2の画像認識部12の学習では、取得した第2の誤差を、第1の画像認識部11に誤差伝播させていないことから、第2の画像認識部12の学習によって第1の画像認識部11に与える影響を排することができる。   In the learning of the second image recognition unit 12, since the acquired second error is not propagated to the first image recognition unit 11, the first error is learned by the learning of the second image recognition unit 12. The influence on the image recognition unit 11 can be eliminated.

また、実施形態に係る画像認識装置1の画像認識では、第1の画像認識部11の画像認識と、第2の画像認識部12の画像認識とに分けることができる。そして、第1の画像認識部11の画像認識では、学習画像G1,G2を大局的に捉えて領域分割を行うタスクを実行することができる。また、第2の画像認識部12の画像認識では、学習画像G2を局所的に捉えて領域分割を行うタスクを実行することができる。このため、第1の画像認識部11において、局所的な情報が欠落する場合であっても、第2の画像認識部12で局所的な情報を捉えることができる。よって、実施形態に係る画像認識装置1の画像認識では、局所的な情報の欠落を抑制した画像認識を行うことができる。   Further, the image recognition of the image recognition device 1 according to the embodiment can be divided into image recognition by the first image recognition unit 11 and image recognition by the second image recognition unit 12. Then, in the image recognition of the first image recognition unit 11, a task of globally capturing the learning images G1 and G2 and performing region division can be executed. In the image recognition performed by the second image recognition unit 12, a task of locally capturing the learning image G2 and performing region division can be performed. For this reason, even if local information is missing in the first image recognition unit 11, local information can be captured by the second image recognition unit 12. Therefore, in the image recognition of the image recognition device 1 according to the embodiment, it is possible to perform image recognition in which local information loss is suppressed.

また、第1の画像認識部11の画像認識では、入力画像Iを低解像度とすることで、計算負荷の低いタスクとして実行できる。また、第2の画像認識部12の学習では、画像認識の表現力を低くすることで、計算負荷の低いタスクとして実行できる。このため、実施形態に係る画像認識装置1では、計算負荷が低いことから、画像認識を高速に行うことができる。   In the image recognition of the first image recognition unit 11, by setting the input image I to a low resolution, it can be executed as a task with a low calculation load. Further, the learning of the second image recognition unit 12 can be executed as a task with a low calculation load by reducing the expressiveness of the image recognition. For this reason, the image recognition device 1 according to the embodiment can perform image recognition at high speed because the calculation load is low.

また、画像認識装置1の画像認識では、第1の出力画像O1と、第2の出力画像O2とを関連付けて取得することができる。このため、画像認識装置1の画像認識の評価または解析等において、第1の画像認識部11及び第2の画像認識部12の異常を推定することが可能となる。   In the image recognition performed by the image recognition device 1, the first output image O1 and the second output image O2 can be acquired in association with each other. Therefore, in the evaluation or analysis of the image recognition of the image recognition device 1, it is possible to estimate the abnormality of the first image recognition unit 11 and the second image recognition unit 12.

また、画像認識装置1の画像認識では、第1の出力画像O1と第2の出力画像O2とを混在させて所定のフレームレートで出力することができる。このため、第1の出力画像O1を出力する場合、第2の画像認識部12による画像認識を実行せずに、第1の画像認識部11による画像認識を実行することができるため、画像認識における計算負荷をさらに軽減させることができる。   In the image recognition of the image recognition device 1, the first output image O1 and the second output image O2 can be mixed and output at a predetermined frame rate. Therefore, when the first output image O1 is output, the image recognition by the first image recognition unit 11 can be performed without performing the image recognition by the second image recognition unit 12, so that the image recognition is performed. Can further reduce the calculation load.

なお、実施形態において、画像認識部7は、第1の画像認識部11と第2の画像認識部12とを含むものとしたが、特に限定されない。画像認識部7は、少なくとも、第1の画像認識部11と第2の画像認識部12とを含めばよく、解像度の異なる画像を認識する3つ以上の画像認識部を含むものであってもよい。   In the embodiment, the image recognition unit 7 includes the first image recognition unit 11 and the second image recognition unit 12, but is not particularly limited. The image recognition unit 7 may include at least the first image recognition unit 11 and the second image recognition unit 12, and may include three or more image recognition units that recognize images having different resolutions. Good.

1 画像認識装置
5 制御部
6 記憶部
7 画像認識部
11 第1の画像認識部
12 第2の画像認識部
21 ダウンサンプリング層
22 エンコーダ
23 デコーダ
I 入力画像
O 出力画像
P1 画像学習プログラム
P2 画像認識プログラム
D1 第1の学習データセット
D2 第2の学習データセット
REFERENCE SIGNS LIST 1 image recognition device 5 control unit 6 storage unit 7 image recognition unit 11 first image recognition unit 12 second image recognition unit 21 downsampling layer 22 encoder 23 decoder I input image O output image P1 image learning program P2 image recognition program D1 First learning data set D2 Second learning data set

Claims (12)

画像セグメンテーションを行う画像認識装置によって実行される画像学習プログラムであって、
前記画像認識装置の学習に用いられる学習データセットは、
前記画像認識装置の学習対象の画像となる学習画像と、
前記学習画像に対応する教師画像と、を含み、
前記画像認識装置は、
前記学習画像の解像度を低くするダウンサンプリングを実行して、低解像度の前記学習画像を生成し、生成した低解像度の前記学習画像の画像セグメンテーションを行う第1の画像認識部と、
低解像度の前記学習画像に比して高解像度の前記学習画像の画像セグメンテーションを行う第2の画像認識部と、を備え、
前記学習画像を前記第1の画像認識部に入力して、低解像度の前記学習画像を生成し、生成した低解像度の前記学習画像の画像セグメンテーションを行って、第1の出力画像を取得する第1のステップと、
高解像度の前記学習画像と前記第1の出力画像とを前記第2の画像認識部に入力し、前記第1の出力画像を用いて前記第2の画像認識部により高解像度の前記学習画像の画像セグメンテーションを行って、第2の出力画像を取得する第2のステップと、
前記教師画像に対する前記第2の出力画像の第2の誤差を取得する第3のステップと、
前記第2の誤差に基づいて、前記第2の画像認識部による画像セグメンテーションの処理を修正する第4のステップと、
を実行させる画像学習プログラム。
An image learning program executed by an image recognition device that performs image segmentation,
A learning data set used for learning of the image recognition device includes:
A learning image to be an image to be learned by the image recognition device,
And a teacher image corresponding to the learning image,
The image recognition device,
A first image recognition unit that performs downsampling to lower the resolution of the learning image, generates the learning image with a low resolution, and performs image segmentation of the generated learning image with a low resolution;
A second image recognition unit that performs image segmentation of the high-resolution learning image as compared to the low-resolution learning image,
Inputting the learning image to the first image recognition unit, generating the low-resolution learning image, performing image segmentation of the generated low-resolution learning image, and obtaining a first output image. One step,
The high-resolution learning image and the first output image are input to the second image recognizing unit, and the high-resolution learning image of the high-resolution learning image is input by the second image recognizing unit using the first output image. A second step of performing image segmentation to obtain a second output image;
A third step of obtaining a second error of the second output image with respect to the teacher image;
A fourth step of correcting an image segmentation process by the second image recognition unit based on the second error;
An image learning program that lets you execute
前記学習データセットは、前記第1の画像認識部が学習するための第1の学習データセットと、前記第2の画像認識部が学習するための第2の学習データセットと、を有し、
前記第1の学習データセットは、第1の学習画像と、前記第1の学習画像に対応する第1の教師画像と、を含み、
前記第2の学習データセットは、第2の学習画像と、前記第2の学習画像に対応する第2の教師画像と、を含み、
前記第2の教師画像は、前記第1の教師画像に比して高解像度となる画像となっており、
前記第1のステップを実行する前に、前記第1の学習画像を前記第1の画像認識部に入力し、前記第1の画像認識部により前記第1の学習画像の画像セグメンテーションを行って、前記第1の出力画像を取得する第5のステップと、
前記第1の教師画像に対する前記第1の出力画像の第1の誤差を取得する第6のステップと、
前記第1の誤差に基づいて、前記第1の画像認識部による画像セグメンテーションを修正する第7のステップと、をさらに実行させ、
前記第1のステップでは、前記第2の学習画像を前記第1の画像認識部に入力して、前記第1の出力画像を取得し、
前記第2のステップでは、前記第2の学習画像と前記第1の出力画像とを前記第2の画像認識部に入力して、前記第2の出力画像を取得し、
前記第3のステップでは、前記第2の教師画像に対する前記第2の出力画像の前記第2の誤差を取得する請求項1に記載の画像学習プログラム。
The learning data set includes a first learning data set for learning by the first image recognition unit, and a second learning data set for learning by the second image recognition unit,
The first learning data set includes a first learning image and a first teacher image corresponding to the first learning image,
The second learning data set includes a second learning image and a second teacher image corresponding to the second learning image,
The second teacher image has a higher resolution than the first teacher image,
Before performing the first step, the first learning image is input to the first image recognition unit, and the first image recognition unit performs image segmentation of the first learning image, A fifth step of acquiring the first output image;
A sixth step of obtaining a first error of the first output image with respect to the first teacher image;
Correcting the image segmentation by the first image recognition unit based on the first error.
In the first step, the second learning image is input to the first image recognition unit to obtain the first output image,
In the second step, the second learning image and the first output image are input to the second image recognition unit to obtain the second output image,
The computer-readable storage medium according to claim 1, wherein in the third step, the second error of the second output image with respect to the second teacher image is obtained.
前記第2のステップでは、前記第1の出力画像を高解像度の前記学習画像と同じ解像度にして、前記第1の出力画像を前記第2の画像認識部に入力する請求項1または2に記載の画像学習プログラム。   The said 2nd step WHEREIN: The said 1st output image is made into the same resolution as the high-resolution learning image, and the said 1st output image is input into the said 2nd image recognition part. Image learning program. 前記第4のステップでは、前記第2の誤差に基づく、前記第1の画像認識部による画像セグメンテーションの処理の修正を遮断する請求項1から3のいずれか1項に記載の画像学習プログラム。   4. The image learning program according to claim 1, wherein in the fourth step, correction of image segmentation processing by the first image recognition unit based on the second error is blocked. 5. 画像セグメンテーションを行う画像認識装置が実行する画像学習方法であって、
前記画像認識装置の学習に用いられる学習データセットは、
前記画像認識装置の学習対象の画像となる学習画像と、
前記学習画像に対応する教師画像と、を含み、
前記画像認識装置は、
前記学習画像の解像度を低くするダウンサンプリングを実行して、低解像度の前記学習画像を生成し、生成した低解像度の前記学習画像の画像セグメンテーションを行う第1の画像認識部と、
低解像度の前記学習画像に比して高解像度の前記学習画像の画像セグメンテーションを行う第2の画像認識部と、を備え、
前記学習画像を前記第1の画像認識部に入力して、低解像度の前記学習画像を生成し、生成した低解像度の前記学習画像の画像セグメンテーションを行って、第1の出力画像を取得する第1のステップと、
高解像度の前記学習画像と前記第1の出力画像とを前記第2の画像認識部に入力し、前記第1の出力画像を用いて前記第2の画像認識部により高解像度の前記学習画像の画像セグメンテーションを行って、第2の出力画像を取得する第2のステップと、
前記教師画像に対する前記第2の出力画像の第2の誤差を取得する第3のステップと、
前記第2の誤差に基づいて、前記第2の画像認識部による画像セグメンテーションの処理を修正する第4のステップと、
を含む画像学習方法。
An image learning method performed by an image recognition device that performs image segmentation,
A learning data set used for learning of the image recognition device includes:
A learning image to be an image to be learned by the image recognition device,
And a teacher image corresponding to the learning image,
The image recognition device,
A first image recognition unit that performs downsampling to lower the resolution of the learning image, generates the learning image with a low resolution, and performs image segmentation of the generated learning image with a low resolution;
A second image recognition unit that performs image segmentation of the high-resolution learning image as compared to the low-resolution learning image,
Inputting the learning image to the first image recognition unit, generating the low-resolution learning image, performing image segmentation of the generated low-resolution learning image, and obtaining a first output image. One step,
The high-resolution learning image and the first output image are input to the second image recognizing unit, and the high-resolution learning image of the high-resolution learning image is input by the second image recognizing unit using the first output image. A second step of performing image segmentation to obtain a second output image;
A third step of obtaining a second error of the second output image with respect to the teacher image;
A fourth step of correcting an image segmentation process by the second image recognition unit based on the second error;
An image learning method including:
入力された入力画像の画像セグメンテーションを行う画像認識装置によって実行される画像認識プログラムであって、
前記画像認識装置は、
前記入力画像の解像度を低くするダウンサンプリングを実行して、低解像度の前記入力画像を生成し、生成した低解像度の前記入力画像の画像セグメンテーションを行う第1の画像認識部と、
低解像度の前記入力画像に比して高解像度の前記入力画像の画像セグメンテーションを行う第2の画像認識部と、を備え、
前記入力画像を前記第1の画像認識部に入力して、低解像度の前記入力画像を生成し、生成した低解像度の前記入力画像の画像セグメンテーションを行って、第1の出力画像を取得する第8のステップと、
高解像度の前記入力画像と前記第1の出力画像とを前記第2の画像認識部に入力し、前記第1の出力画像を用いて前記第2の画像認識部により高解像度の前記入力画像の画像セグメンテーションを行って、第2の出力画像を取得する第9のステップと、
を実行させる画像認識プログラム。
An image recognition program executed by an image recognition device that performs image segmentation of an input image that has been input,
The image recognition device,
A first image recognition unit that performs downsampling to reduce the resolution of the input image, generates the low-resolution input image, and performs image segmentation of the generated low-resolution input image;
A second image recognition unit that performs image segmentation of the high-resolution input image as compared to the low-resolution input image,
Inputting the input image to the first image recognizing unit, generating the low-resolution input image, performing image segmentation of the generated low-resolution input image, and obtaining a first output image. 8 steps,
The high-resolution input image and the first output image are input to the second image recognition unit, and the high-resolution input image is input to the second image recognition unit using the first output image. A ninth step of performing image segmentation to obtain a second output image;
Image recognition program that executes
取得した前記第1の出力画像と、前記第1の出力画像に対応する前記第2の出力画像とを関連付けて取得する第10のステップを、さらに実行させる請求項6に記載の画像認識プログラム。   The image recognition program according to claim 6, further comprising: executing a tenth step of associating the acquired first output image with the second output image corresponding to the first output image. 前記第9のステップでは、前記第1の出力画像を高解像度の前記入力画像と同じ解像度にして、前記第1の出力画像を前記第2の画像認識部に入力する請求項6または7に記載の画像認識プログラム。   8. The ninth step, wherein the first output image has the same resolution as the high-resolution input image, and the first output image is input to the second image recognition unit. 9. Image recognition program. 取得した前記第1の出力画像と取得した前記第2の出力画像とを混在させて所定のフレームレートで出力する第11のステップを、さらに実行させる請求項6から8のいずれか1項に記載の画像認識プログラム。   9. The method according to claim 6, further comprising: executing an eleventh step of mixing the acquired first output image and the acquired second output image and outputting the mixed image at a predetermined frame rate. 10. Image recognition program. 入力された入力画像の画像セグメンテーションを行う画像認識装置が実行する画像認識方法であって、
前記画像認識装置は、
前記入力画像の解像度を低くするダウンサンプリングを実行して、低解像度の前記入力画像を生成し、生成した低解像度の前記入力画像の画像セグメンテーションを行う第1の画像認識部と、
低解像度の前記入力画像に比して高解像度の前記入力画像の画像セグメンテーションを行う第2の画像認識部と、を備え、
前記入力画像を前記第1の画像認識部に入力して、低解像度の前記入力画像を生成し、生成した低解像度の前記入力画像の画像セグメンテーションを行って、第1の出力画像を取得する第8のステップと、
高解像度の前記入力画像と前記第1の出力画像とを前記第2の画像認識部に入力し、前記第1の出力画像を用いて前記第2の画像認識部により高解像度の前記入力画像の画像セグメンテーションを行って、第2の出力画像を取得する第9のステップと、
を含む画像認識方法。
An image recognition method performed by an image recognition device that performs image segmentation of an input image that has been input,
The image recognition device,
A first image recognition unit that performs downsampling to reduce the resolution of the input image, generates the low-resolution input image, and performs image segmentation of the generated low-resolution input image;
A second image recognition unit that performs image segmentation of the high-resolution input image as compared to the low-resolution input image,
Inputting the input image to the first image recognition unit, generating the low-resolution input image, performing image segmentation of the generated low-resolution input image, and obtaining a first output image. 8 steps,
The high-resolution input image and the first output image are input to the second image recognition unit, and the high-resolution input image is input to the second image recognition unit using the first output image. A ninth step of performing image segmentation to obtain a second output image;
An image recognition method including:
入力された入力画像の解像度を低くするダウンサンプリングを実行して、低解像度の前記入力画像を生成し、生成した低解像度の前記入力画像の画像セグメンテーションを行う第1の画像認識部と、
低解像度の前記入力画像に比して高解像度の前記入力画像の画像セグメンテーションを行う第2の画像認識部と、を備え、
前記第1の画像認識部は、前記入力画像が入力されると、低解像度の前記入力画像を生成し、生成した低解像度の前記入力画像の画像セグメンテーションを行って第1の出力画像を生成し、生成した前記第1の出力画像を前記第2の画像認識部へ向けて出力し、
前記第2の画像認識部は、高解像度の前記入力画像と前記第1の出力画像とが入力されると、前記第1の出力画像を用いて前記第2の画像認識部により高解像度の前記入力画像の画像セグメンテーションを行って、第2の出力画像を出力する画像認識装置。
A first image recognition unit that performs downsampling to lower the resolution of the input image that has been input, generates the low-resolution input image, and performs image segmentation of the generated low-resolution input image;
A second image recognition unit that performs image segmentation of the high-resolution input image as compared to the low-resolution input image,
When the input image is input, the first image recognition unit generates the low-resolution input image, performs image segmentation of the generated low-resolution input image, and generates a first output image. And outputting the generated first output image to the second image recognition unit.
The second image recognition unit, when the high-resolution input image and the first output image are input, the second image recognition unit using the first output image, the high-resolution An image recognition device that performs image segmentation of an input image and outputs a second output image.
前記第1の画像認識部及び前記第2の画像認識部は、セマンティック・セグメンテーションによる画像セグメンテーションを行う請求項11に記載の画像認識装置。   The image recognition device according to claim 11, wherein the first image recognition unit and the second image recognition unit perform image segmentation by semantic segmentation.
JP2018166366A 2018-09-05 2018-09-05 Image learning program, image learning method, image recognition program, image recognition method, and image recognition device Pending JP2020038574A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018166366A JP2020038574A (en) 2018-09-05 2018-09-05 Image learning program, image learning method, image recognition program, image recognition method, and image recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018166366A JP2020038574A (en) 2018-09-05 2018-09-05 Image learning program, image learning method, image recognition program, image recognition method, and image recognition device

Publications (1)

Publication Number Publication Date
JP2020038574A true JP2020038574A (en) 2020-03-12

Family

ID=69738138

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018166366A Pending JP2020038574A (en) 2018-09-05 2018-09-05 Image learning program, image learning method, image recognition program, image recognition method, and image recognition device

Country Status (1)

Country Link
JP (1) JP2020038574A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021144589A (en) * 2020-03-13 2021-09-24 富士フイルム株式会社 Learning method, learning device, image analyzing device and program
CN113920099A (en) * 2021-10-15 2022-01-11 深圳大学 Polyp segmentation method and device, computer equipment and storage medium
WO2022137921A1 (en) * 2020-12-25 2022-06-30 富士フイルム株式会社 Image processing device, method, and program
WO2022153670A1 (en) * 2021-01-18 2022-07-21 富士フイルム株式会社 Image processing device, method, and program, and learning device, method, and program
US11995835B2 (en) 2020-04-23 2024-05-28 Hitachi Systems, Ltd. Pixel-level object detection system and program thereof

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021144589A (en) * 2020-03-13 2021-09-24 富士フイルム株式会社 Learning method, learning device, image analyzing device and program
JP7252158B2 (en) 2020-03-13 2023-04-04 富士フイルム株式会社 LEARNING METHOD, LEARNING DEVICE, IMAGE ANALYSIS DEVICE, AND PROGRAM
US11995835B2 (en) 2020-04-23 2024-05-28 Hitachi Systems, Ltd. Pixel-level object detection system and program thereof
WO2022137921A1 (en) * 2020-12-25 2022-06-30 富士フイルム株式会社 Image processing device, method, and program
WO2022153670A1 (en) * 2021-01-18 2022-07-21 富士フイルム株式会社 Image processing device, method, and program, and learning device, method, and program
CN113920099A (en) * 2021-10-15 2022-01-11 深圳大学 Polyp segmentation method and device, computer equipment and storage medium
CN113920099B (en) * 2021-10-15 2022-08-30 深圳大学 Polyp segmentation method based on non-local information extraction and related components

Similar Documents

Publication Publication Date Title
JP2020038574A (en) Image learning program, image learning method, image recognition program, image recognition method, and image recognition device
US10467458B2 (en) Joint face-detection and head-pose-angle-estimation using small-scale convolutional neural network (CNN) modules for embedded systems
US10558908B2 (en) Age and gender estimation using small-scale convolutional neural network (CNN) modules for embedded systems
WO2021129691A1 (en) Target detection method and corresponding device
CN107506707B (en) Face detection using small scale convolutional neural network module in embedded system
WO2019201035A1 (en) Method and device for identifying object node in image, terminal and computer readable storage medium
CN109798888B (en) Posture determination device and method for mobile equipment and visual odometer
US20210279509A1 (en) Method and System For Processing Images Using Cross-Stage Skip Connections
WO2022072940A1 (en) Processing images using self-attention based neural networks
JP2019164618A (en) Signal processing apparatus, signal processing method and program
JP2021174529A (en) Method and device for biometric detection
CN111445388A (en) Image super-resolution reconstruction model training method, ship tracking method and ship tracking device
JP2020038572A (en) Image learning program, image learning method, image recognition program, image recognition method, creation program for learning data set, creation method for learning data set, learning data set, and image recognition device
US20210271927A1 (en) Method and apparatus for artificial neural network
Zheng et al. Transformer-based hierarchical dynamic decoders for salient object detection
CN110796003B (en) Lane line detection method and device and electronic equipment
WO2020121996A1 (en) Image processing device, method, and program
JP7148462B2 (en) Image recognition evaluation program, image recognition evaluation method, evaluation device and evaluation system
JPWO2018143277A1 (en) Image feature output device, image recognition device, image feature output program, and image recognition program
CN113160217A (en) Method, device and equipment for detecting foreign matters in circuit and storage medium
CN114596239A (en) Loading and unloading event detection method and device, computer equipment and storage medium
JP2021077091A (en) Image processing device and image processing method
JP7210380B2 (en) Image learning program, image learning method, and image recognition device
KR102503057B1 (en) Electronic device and operation method of electronic device for correcting input image
JP2015232765A (en) Image generation device, computer program, and image generation method