JP2022152023A - Feature quantity data generation device and method thereof, and machine learning device and method thereof - Google Patents
Feature quantity data generation device and method thereof, and machine learning device and method thereof Download PDFInfo
- Publication number
- JP2022152023A JP2022152023A JP2021054630A JP2021054630A JP2022152023A JP 2022152023 A JP2022152023 A JP 2022152023A JP 2021054630 A JP2021054630 A JP 2021054630A JP 2021054630 A JP2021054630 A JP 2021054630A JP 2022152023 A JP2022152023 A JP 2022152023A
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- image
- images
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title abstract description 16
- 230000013016 learning Effects 0.000 claims abstract description 184
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims description 16
- 239000003086 colorant Substances 0.000 claims description 11
- 238000007906 compression Methods 0.000 claims description 11
- 230000006835 compression Effects 0.000 claims description 11
- 230000008878 coupling Effects 0.000 abstract description 4
- 238000010168 coupling process Methods 0.000 abstract description 4
- 238000005859 coupling reaction Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 230000015654 memory Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、特徴量データ生成装置及び方法並びに機械学習装置及び方法に関する。 The present invention relates to a feature amount data generation device and method and a machine learning device and method.
画像認識用の推論モデルを学習させる際、ミニバッチ学習が多く利用される。ミニバッチ学習では、学習データを構成する複数の学習用画像の画像データを所定のミニバッチサイズを有するミニバッチを単位に分割し、ミニバッチごとに学習を行う。例えば、学習用画像の水平方向の画素数W及び垂直方向の画素数Hが共に100であって且つRGB形式のカラー画像を学習用画像として用いる場合、1枚の学習用画像のデータサイズは(W×H×3)であり、32枚の学習用画像の画像データをミニバッチのサイズ方向に結合することでミニバッチを形成する。この場合におけるミニバッチサイズは、(W×H×3×32)である。 Mini-batch learning is often used when training an inference model for image recognition. In mini-batch learning, image data of a plurality of learning images constituting learning data is divided into mini-batches having a predetermined mini-batch size, and learning is performed for each mini-batch. For example, when the number of pixels W in the horizontal direction and the number of pixels H in the vertical direction of the learning image are both 100 and an RGB format color image is used as the learning image, the data size of one learning image is ( W×H×3), and a mini-batch is formed by combining image data of 32 learning images in the size direction of the mini-batch. The mini-batch size in this case is (W x H x 3 x 32).
そして例えば、学習データに10240枚分の学習用画像が含まれているのであれば、“10240/32=320”より、ミニバッチ学習を320回実行することで、全学習用画像に対する1回分の学習が完了することになる。即ち、イテレーション数(繰り返し回数)は320であり、320回分のミニバッチ学習が1エポックに相当する。 For example, if the learning data contains 10,240 learning images, by executing mini-batch learning 320 times from "10,240/32=320", one time of learning for all learning images will be completed. That is, the number of iterations (the number of repetitions) is 320, and 320 mini-batch learnings correspond to one epoch.
上記の方法において、1つのミニバッチに含まれる学習用画像の枚数を増大させれば、それに比例してミニバッチサイズも増大するが、1エポック当たりのミニバッチ学習の実行回数が減少する。例えば、ミニバッチサイズを(W×H×3×320)とすれば、ミニバッチ学習を32回実行することで全学習用画像に対する1回分の学習が完了することになる。即ち32回分のミニバッチ学習で1エポックが完了する。1エポック当たりのミニバッチ学習の回数を低減させることで、推論モデルの学習時間(例えば損失関数の値が所定の閾値以下になるまでに必要な時間)が短縮される可能性がある。 In the above method, if the number of learning images included in one mini-batch is increased, the mini-batch size is increased proportionally, but the number of mini-batch learning executions per epoch is decreased. For example, if the mini-batch size is (W×H×3×320), the mini-batch learning is performed 32 times to complete one-time learning for all the learning images. That is, one epoch is completed with 32 mini-batch learnings. By reducing the number of mini-batch learnings per epoch, the learning time of the inference model (for example, the time required for the value of the loss function to become equal to or less than a predetermined threshold) may be shortened.
しかしながら、機械学習を行う装置に搭載されるメモリの容量には制限があるため、ミニバッチサイズを無条件に増大させることはできない。1枚当たりの学習用画像のサイズにも依存するが、1ミニバッチ当たりの学習用画像の枚数は現実的には32枚程度が上限になることが多い。このため、1ミニバッチ当たりの学習用画像の枚数が32枚を超えて増大するのであれば、必要メモリ容量の増大に伴って装置のコストが増大してしまう。必要メモリ容量を増大させることなく学習時間を低減させることができれば有益である。 However, the mini-batch size cannot be unconditionally increased due to limitations on the capacity of the memory installed in the device that performs machine learning. Although it depends on the size of each learning image, the upper limit of the number of learning images per mini-batch is often about 32 in practice. Therefore, if the number of learning images per mini-batch exceeds 32, the cost of the apparatus will increase as the required memory capacity increases. It would be beneficial if training time could be reduced without increasing memory requirements.
本発明は、学習時間の低減に寄与する特徴量データ生成装置及び方法並びに機械学習装置及び方法を提供することを目的とする。 An object of the present invention is to provide a feature amount data generation device and method and a machine learning device and method that contribute to reduction in learning time.
本発明に係る特徴量データ生成装置は、各々に認識対象物体を含む複数の画像の画像データを取得する画像データ取得部と、前記複数の画像の画像データを圧縮することで前記複数の画像における複数の認識対象物体の各特徴量を含む特徴量データを生成する特徴量データ生成部と、を備えた構成(第1の構成)である。 A feature amount data generation device according to the present invention includes an image data acquisition unit for acquiring image data of a plurality of images each including a recognition target object, and compressing the image data of the plurality of images to a feature amount data generation unit that generates feature amount data including each feature amount of a plurality of recognition target objects (first configuration).
上記第1の構成に係る特徴量データ生成装置において、前記複数の画像は、所定カメラにて時間的に連続して撮影された2以上の画像を含む構成(第2の構成)であっても良い。 In the feature amount data generation device according to the first configuration, the plurality of images may be a configuration (second configuration) including two or more images captured temporally continuously by a predetermined camera. good.
本発明に係る機械学習装置は、複数の第1入力画像の画像データをチャネル方向に結合することで第1結合データを生成する第1結合部と、前記第1結合データの供給を受け、前記第1結合データを前記チャネル方向に圧縮するエンコーダ及び前記圧縮を復元するデコーダを有するオートエンコーダを学習させる第1学習部と、複数の第2入力画像の画像データを前記チャネル方向に結合することで第2結合データを生成する第2結合部と、前記第1学習部による学習後の前記エンコーダに前記第2結合データを入力することで当該エンコーダから出力される圧縮データを、ニューラルネットワークに入力し、これによって前記ニューラルネットワークを学習させる第2学習部と、を備える構成(第3の構成)である。 A machine learning device according to the present invention includes: a first combining unit that generates first combined data by combining image data of a plurality of first input images in a channel direction; A first learning unit that trains an autoencoder having an encoder that compresses first combined data in the channel direction and a decoder that restores the compression, and combining image data of a plurality of second input images in the channel direction. Compressed data output from a second combining unit that generates second combined data and input of the second combined data to the encoder after learning by the first learning unit is input to a neural network. , and a second learning unit for learning the neural network thereby (third configuration).
上記第3の構成に係る機械学習装置において、前記第2学習部は、前記複数の第2入力画像に対応付けられた複数のラベルデータを含む教師データを用いて、前記ニューラルネットワークを学習させる構成(第4の構成)であっても良い。 In the machine learning device according to the third configuration, the second learning unit uses teacher data including a plurality of label data associated with the plurality of second input images to cause the neural network to learn. (Fourth configuration).
上記第4の構成に係る機械学習装置において、前記第2学習部は、前記ニューラルネットワークを学習させることで物体検出が可能な推論モデルを作成する構成(第5の構成)であっても良い。 In the machine learning device according to the fourth configuration, the second learning unit may create an inference model capable of object detection by learning the neural network (fifth configuration).
上記第5の構成に係る機械学習装置において、各第1入力画像及び各第2入力画像は前記物体検出における認識対象物体を含む構成(第6の構成)であっても良い。 In the machine learning device according to the fifth configuration, each first input image and each second input image may include a recognition target object in the object detection (sixth configuration).
上記第3~第6の構成の何れかに係る機械学習装置において、前記第1結合データでは、前記チャネル方向において前記複数の第1入力画像の画像データが配列され、前記第2結合データでは、前記チャネル方向において前記複数の第2入力画像の画像データが配列され、前記第1学習部での学習において、前記エンコーダにより、前記第1結合データのチャネル方向の次元数が削減されることで前記第1結合データが圧縮され、前記第2学習部での学習において、前記第1学習部による学習後の前記エンコーダにより、前記第2結合データのチャネル方向の次元数が削減されることで前記第2結合データが圧縮され、これによって前記圧縮データが得られる構成(第7の構成)であっても良い。 In the machine learning device according to any one of the third to sixth configurations, in the first combined data, the image data of the plurality of first input images are arranged in the channel direction, and in the second combined data, The image data of the plurality of second input images are arranged in the channel direction, and the number of dimensions in the channel direction of the first combined data is reduced by the encoder in the learning by the first learning unit. The first combined data is compressed, and in learning by the second learning unit, the number of dimensions in the channel direction of the second combined data is reduced by the encoder after learning by the first learning unit. A configuration (seventh configuration) may be employed in which two-combined data is compressed to obtain the compressed data.
上記第7の構成に係る機械学習装置において、各第1入力画像の画像データ及び各第2入力画像の画像データは、複数色分の画像データを含み、前記第1結合データでは、前記チャネル方向において各第1入力画像の前記複数色分の画像データが配列され、前記第2結合データでは、前記チャネル方向において各第2入力画像の前記複数色分の画像データが配列される構成(第8の構成)であっても良い。 In the machine learning device according to the seventh configuration, the image data of each first input image and the image data of each second input image include image data for a plurality of colors, and in the first combined data, the channel direction in which the image data for the plurality of colors of each first input image are arranged, and in the second combined data, the image data for the plurality of colors of each second input image are arranged in the channel direction (eighth configuration).
本発明に係る特徴量データ生成方法は、各々に認識対象物体を含む複数の画像の画像データを取得する画像データ取得ステップと、前記複数の画像の画像データを圧縮することで前記複数の画像における複数の認識対象物体の各特徴量を含む特徴量データを生成する特徴量データ生成ステップと、を備えた構成(第9の構成)である。 A feature amount data generation method according to the present invention includes an image data acquisition step of acquiring image data of a plurality of images each including a recognition target object; and a feature amount data generation step of generating feature amount data including each feature amount of a plurality of recognition target objects (a ninth configuration).
本発明に係る機械学習方法は、複数の第1入力画像の画像データをチャネル方向に結合することで第1結合データを生成する第1結合ステップと、前記第1結合データの供給を受け、前記第1結合データを前記チャネル方向に圧縮するエンコーダ及び前記圧縮を復元するデコーダを有するオートエンコーダを学習させる第1学習ステップと、複数の第2入力画像の画像データを前記チャネル方向に結合することで第2結合データを生成する第2結合ステップと、前記第1学習ステップによる学習後の前記エンコーダに前記第2結合データを入力することで当該エンコーダから出力される圧縮データを、ニューラルネットワークに入力し、これによって前記ニューラルネットワークを学習させる第2学習ステップと、を備える構成(第10の構成)である。 A machine learning method according to the present invention includes a first combining step of generating first combined data by combining image data of a plurality of first input images in a channel direction; a first learning step of training an autoencoder having an encoder that compresses first combined data in the channel direction and a decoder that restores the compression; and combining image data of a plurality of second input images in the channel direction. a second combining step of generating second combined data; and inputting the second combined data into the encoder after learning in the first learning step, thereby inputting compressed data output from the encoder into a neural network. , and a second learning step for learning the neural network by this (a tenth configuration).
本発明によれば、データ記録に関わる利便性向上に寄与するデータ記録装置及び方法を提供することが可能となる。 According to the present invention, it is possible to provide a data recording apparatus and method that contribute to improving the convenience of data recording.
以下、本発明の実施形態の例を、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。尚、本明細書では、記述の簡略化上、情報、信号、物理量又は部材等を参照する記号又は符号を記すことによって、該記号又は符号に対応する情報、信号、物理量又は部材等の名称を省略又は略記することがある。例えば、後述の“40”によって参照される第2学習データ取得部は(図1参照)、第2学習データ取得部40と表記されることもあるし、取得部40と略記されることもあり得るが、それらは全て同じものを指す。
Hereinafter, examples of embodiments of the present invention will be specifically described with reference to the drawings. In each figure referred to, the same parts are denoted by the same reference numerals, and redundant descriptions of the same parts are omitted in principle. In this specification, for simplification of description, by describing symbols or codes that refer to information, signals, physical quantities, or members, etc., the names of information, signals, physical quantities, or members, etc. corresponding to the symbols or codes are It may be omitted or abbreviated. For example, the second learning data acquisition unit (see FIG. 1) referred to by “40” to be described later may be referred to as the second learning
詳細は後述するが、本実施形態では、第1学習データを用いて画像に含まれる特徴量を抽出することができる学習済みエンコーダ32aを生成する(図9参照)。次に、学習済みエンコーダ32aを用いて、第2学習データから認識対象物体の特徴量を抽出したデータ(圧縮データ)を生成する。学習済みエンコーダ32aが第2学習データから認識対象物体の特徴量を抽出する際には、いわゆる圧縮という手法を用いる。次に、認識対象物体の特徴量を抽出したデータ(圧縮データ)を用いてNN61を学習させる。NN61は、学習により物体検出用の推論モデルとなる。NN61の学習には、認識対象物体の特徴量を抽出したデータ(圧縮データ)を用いるので、NN61の学習時間の低減に寄与することができる。以下、詳細に説明する。
Although the details will be described later, in this embodiment, a trained
図1に本実施形態に係るデータ処理装置1の構成図を示す。データ処理装置1は機械学習装置の例である。データ処理装置1は、第1学習データ取得部10、第1結合部20、第1学習部30、第2学習データ取得部40、第2結合部50及び第2学習部60を備える。尚、データ処理装置1は単一のコンピュータ装置にて構成されても良いし、物理的に分離した複数のコンピュータ装置にて構成されても良い。所謂クラウドコンピューティングを利用してデータ処理装置1が構成されても良い。
FIG. 1 shows a block diagram of a
第1学習データ取得部10は、複数の画像の画像データを含む第1学習データを取得する。第1学習データを構成する各画像の画像データは第1結合部20に入力されるため、第1学習データを構成する各画像を第1入力画像と称する。図2に示す如く、第1学習データは計P枚の第1入力画像IA[1]~IA[P]の画像データを含む。Pは2以上の任意の整数であり、例えば、数十~数千の値を有する。尚、第1入力画像IA[i]は単に入力画像IA[i]と表記されることがある。iは任意の整数を表す。
The first learning
第2学習データ取得部40は、複数の画像の画像データを含む第2学習データを取得する。第2学習データを構成する各画像の画像データは第2結合部50に入力されるため、第2学習データを構成する各画像を第2入力画像と称する。図3に示す如く、第2学習データは計Q枚の第2入力画像IB[1]~IB[Q]の画像データを含む。Qは2以上の任意の整数であり、例えば、数千~数万の値を有する。尚、第2入力画像IB[i]は単に入力画像IB[i]と表記されることがある。本実施形態では、第1学習データが有する画像の枚数よりも第2学習データが有する画像の枚数の方が大きい。即ち“P<Q”が成立する。
The second learning
尚、第1入力画像又は第2入力画像などの任意の画像は、当該画像の画像データと、その他のデータ(以下、付加データと称する)と、を含む。任意の画像はカメラにて撮影された画像であって良く、或る画像についての付加データは、当該画像のうちの、画像データではないデータを含み、更に当該画像の撮影時刻を表す撮影時刻情報を含む。 An arbitrary image such as the first input image or the second input image includes image data of the image and other data (hereinafter referred to as additional data). An arbitrary image may be an image captured by a camera, and additional data for a certain image includes data other than image data in the image, and shooting time information representing the shooting time of the image. including.
後に述べられるが、データ処理装置1では、第2学習部60の学習を経て推論モデル(アルゴリズム)が作成され、当該推論モデルは画像認識として物体検出を行うことができる。物体検出では、認識の対象となる画像内の物体の位置を特定する位置特定と、認識の対象となる画像内の物体のクラス(種別)を特定するクラス識別と、が行われる。各第1入力画像及び各第2入力画像は認識の対象となる物体を1以上含む。本実施形態において物体とは、物体検出における画像認識の対象となる認識対象物体を指す。一部の第1入力画像に認識対象物体が含まれないことがあり得る。同様に、一部の第2入力画像に認識対象物体が含まれないことがあり得る。また、1以上の第1入力画像には認識対象物体以外の物が含まれることがある。同様に、1以上の第2入力画像には認識対象物体以外の物が含まれることがある。
As will be described later, in the
尚、本実施形態では、或る画像内に物体の画像データが含まれることを、当該画像に当該物体が含まれる又は存在すると表現することがある。同様に、或る画像中の注目した画像領域(例えば後述の物体領域)内に物体の画像データが含まれることを、注目した画像領域に物体が含まれる又は存在すると表現することがある。 In this embodiment, inclusion of image data of an object in an image may be expressed as inclusion or presence of the object in the image. Similarly, inclusion of image data of an object in an image area of interest (for example, an object area described later) in an image may be expressed as inclusion or presence of an object in the image area of interest.
第2学習データは第2入力画像ごとにラベルデータを含む。第2学習データにおいて、第2入力画像IB[i]に対応付けられたラベルデータを記号“LB[i]”にて参照する。ラベルデータLB[i]は、第2入力画像IB[i]に含まれる物体ごとに、物体の位置を特定する位置情報及び物体のクラスを特定するクラス情報を含む。 The second training data includes label data for each second input image. In the second learning data, the label data associated with the second input image IB[i] is referenced by the symbol "LB[i]". The label data LB[i] includes position information specifying the position of each object included in the second input image IB[i] and class information specifying the class of the object.
図4に入力画像610を示す。入力画像610は第2入力画像IB[i]の例である。図4の入力画像610には3つの物体611~613が含まれる。物体611、612、613は、夫々、車両、人間、信号機であって、何れも認識対象物体であるとする。ここでは、車両、人間、信号機は、第1、第2、第3クラスに分類されるものとし、推論モデルは、第1~第3クラスを含む複数のクラスの物体に対して物体検出を行うことができるものとする。尚、ここでは、車両として道路上を走行可能な自動車を想定する。
An
図4の入力画像610に対し、物体611の像を取り囲む物体領域611B、物体612の像を取り囲む物体領域612B、及び、物体613の像を取り囲む物体領域613Bが設定される。或る物体の物体領域は、当該物体の像を取り囲む矩形領域(望ましくは最小の矩形領域)であって、バウンディングボックスとも称される。
An
図4の入力画像610に対応するラベル情報620は、物体611についての位置情報POS611及びクラス情報CLS611と、物体612についての位置情報POS612及びクラス情報CLS612と、物体613についての位置情報POS613及びクラス情報CLS613と、を含む。入力画像610が第2入力画像IB[i]であればラベル情報620はラベル情報LB[i]である。位置情報POS611、POS612、POS613は、夫々、入力画像610における物体領域611Bの位置、物体領域612Bの位置、物体領域613Bの位置を表す。詳細には、物体領域611Bとしての矩形領域における一つの対角線の2端点の座標値(図4の座標値(x1,y1)及び(x2,y2)に相当)が、位置情報POS611にて規定される。他の位置情報も同様である。クラス情報CLS611、CLS612、CLS613は、夫々、物体611が属するクラス、物体612が属するクラス、物体613が属するクラスを表す。図4の例では、クラス情報CLS611、CLS612、CLS613は、夫々、車両が属する第1クラス、人間が属する第2クラス、信号機が属する第3クラスを表す。
Label information 620 corresponding to the input image 610 in FIG. POS 613 and class information CLS 613 . If the
例えば、自動車等の車両に搭載されたカメラの撮影画像の中から第1入力画像IA[1]~IA[P]及び第2入力画像IB[1]~IB[Q]が選ばれて良い。第1入力画像IA[1]~IA[P]と第2入力画像IB[1]~IB[Q]とが部分的に重複することもあり得る。 For example, the first input images IA[1] to IA[P] and the second input images IB[1] to IB[Q] may be selected from images captured by a camera mounted on a vehicle such as an automobile. The first input images IA[1] to IA[P] and the second input images IB[1] to IB[Q] may partially overlap.
第1学習データ取得部10は自らが第1学習データを作成する機能ブロックであっても良いし、データ処理装置1と異なる外部装置(不図示)から有線又は無線通信を通じ、予め作成された第1学習データの入力を受けるものであっても良い。同様に、第2学習データ取得部40は自らが第2学習データを作成する機能ブロックであっても良いし、データ処理装置1と異なる外部装置(不図示)から有線又は無線通信を通じ、予め作成された第2学習データの入力を受けるものであっても良い。
The first learning
各第1入力画像及び各第2入力画像は水平方向及び垂直方向に大きさを持つ二次元の静止画像である。1以上の第1入力画像は動画像のフレームであっても良い。同様に、1以上の第2入力画像は動画像のフレームであっても良い。各第1入力画像及び各第2入力画像における水平方向の画素数をWで表し、各第1入力画像及び各第2入力画像における垂直方向の画素数をHで表す。そうすると、各第1入力画像及び各第2入力画像は(W×H)個の画素から成る。また、第1入力画像及び第2入力画像はRGB形式で表現されるカラー画像であるとする。つまり、第1入力画像の各画素及び第2入力画像の各画素は、赤の信号成分を表すR信号、緑の信号成分を表すG信号及び青の信号成分を表すB信号を有するものとする。 Each first input image and each second input image is a two-dimensional still image having horizontal and vertical dimensions. The one or more first input images may be frames of a moving image. Similarly, the one or more second input images may be frames of a moving image. Let W denote the number of pixels in the horizontal direction in each first input image and each second input image, and let H be the number of pixels in the vertical direction in each first input image and each second input image. Then each first input image and each second input image consists of (W×H) pixels. It is also assumed that the first input image and the second input image are color images expressed in RGB format. That is, each pixel of the first input image and each pixel of the second input image have an R signal representing a red signal component, a G signal representing a green signal component, and a B signal representing a blue signal component. .
そうすると、任意の1枚の第1入力画像である又は任意の1枚の第2入力画像である入力画像650は、図5に示す如く、(W×H)個の画素から成り且つR信号のみを色信号として有する赤濃淡画像650Rと、(W×H)個の画素から成り且つG信号のみを色信号として有する緑濃淡画像650Gと、(W×H)個の画素から成り且つB信号のみを色信号として有する青濃淡画像650Bと、で構成されると考えることができる、画像650R、650G及び650Bは、上記水平方向及び垂直方向の何れとも異なるチャネル方向に配列される。入力画像650の画像データを構成する色信号の種類数を“C”で表す。ここでは、“C=3”である。
Then, an
図1を再度参照し、第1結合部20は、第1入力画像IA[1]~IA[P]を、所定のミニバッチサイズを有するミニバッチを単位に分割する。そして、第1結合部20は、ミニバッチごとに、当該ミニバッチに属する複数の第1入力画像をチャネル方向に結合することで第1結合データを生成する。ここではミニバッチサイズは、第1入力画像のN枚分のデータサイズであるとする。Nは2以上の任意の整数であり、例えば“N=32”である。第1入力画像IA[1]~IA[P]から(P/N)個分の第1結合データが形成される。(P/N)は2以上の任意の整数である。
Referring to FIG. 1 again, the
図6に、第1結合部20にて生成される1つの第1結合データ(即ち1つのミニバッチの構造)を示す。図6に示される第1結合データは、入力画像IA[i]~IA[i+N]の画像データから構成され、チャネル方向において入力画像IA[i]~IA[i+N]の画像データが配列される。入力画像IA[i]~IA[i+N]の各々はチャネル方向に配列された赤濃淡画像、緑濃淡画像及び青濃淡画像にて構成される。故に、第1結合データにおいては、チャネル方向に、入力画像IA[i]の複数色分の画像データ(赤濃淡画像、緑濃淡画像及び青濃淡画像の画像データ)、入力画像IA[i+1]の複数色分の画像データ(赤濃淡画像、緑濃淡画像及び青濃淡画像の画像データ)、・・・、及び、入力画像IA[i+N]の複数色分の画像データ(赤濃淡画像、緑濃淡画像及び青濃淡画像の画像データ)が配列される。
FIG. 6 shows one first combined data (that is, one mini-batch structure) generated by the first combining
このため、第1結合データは、各々が(H×W)個の単色画素から成る単色の二次元画像を(C×N)枚分、チャネル方向に沿って配列したものに相当する。第1結合データは(W×H×C×N)個の単色画素分のデータ量を持つことになる。第1結合データにおいて、チャネル数は(C×N)であり、故にチャネル方向の次元数は(C×N)である。 Therefore, the first combined data corresponds to (C×N) monochromatic two-dimensional images, each consisting of (H×W) monochromatic pixels, arranged along the channel direction. The first combined data has a data amount for (W.times.H.times.C.times.N) monochrome pixels. In the first combined data, the number of channels is (C×N), so the number of dimensions in the channel direction is (C×N).
図1を再度参照し、第1学習部30はニューラルネットワーク31(以下、NN31と称する)を有し、第1学習データを用いてNN31の機械学習を行う。この際、ミニバッチを単位にNN31の機械学習を行う。即ち、第1学習データに基づく(P/N)個の第1結合データを順次NN31への入力データとして用いて、ミニバッチを単位にNN31の機械学習を行う(ミニバッチ学習を行う)。第1学習部30における機械学習は深層学習に分類されるものであって良く、従ってNN31はディープニューラルネットワークであって良い。第1学習部30における機械学習は教師なし学習であり、NN31によりオートエンコーダが形成される。即ち、第1学習部30ではオートエンコーダを学習させる(換言すればNN31を学習させることでオートエンコーダを作成する)。
Referring to FIG. 1 again, the
図7にオートエンコーダの構成を示す。オートエンコーダを形成するNN31はエンコーダ32及びデコーダ33を備える。ここにおけるオートエンコーダの種類は任意であり、例えば、変分オートエンコーダ(VAE)又は畳み込みオートエンコーダ(CAE)であって良い。第1結合データが入力データIN_Aとしてエンコーダ32に入力され、エンコーダ32は入力データIN_Aを圧縮することで圧縮データE_Aを生成する。デコーダ33は圧縮データE_Aを復元することで(つまり、エンコーダ32による圧縮を復元することで)出力データOUT_Aを得る。第1学習部30における機械学習では、出力データOUT_Aが入力データIN_Aと一致するように、NN31の各パラメータ(バイアス及び重み)を調整する。
FIG. 7 shows the configuration of the autoencoder. The
この際、入力データIN_A(従って第1結合データ)がチャネル方向に圧縮されるようにエンコーダ32を設計し、圧縮データE_Aがチャネル方向に復元されるようにデコーダ33を設計しておく。つまり、エンコーダ32による圧縮はチャネル方向の次元削減に相当し、エンコーダ32にて入力データIN_A(従って第1結合データ)のチャネル方向の次元数を“(C×N)”から“J”に削減する。換言すれば、入力データIN_A(従って第1結合データ)のチャネル方向の次元数は“(C×N)”であって、エンコーダ32にて入力データIN_Aの次元削減をチャネル方向に行うことで、チャネル方向の次元数が“J”の圧縮データE_Aを得る。エンコーダ32にて、チャネル数が“(C×N)”から“J”に削減されると考えることもできる。
At this time, the
“C×N>J”である。例えば“(C,N,J)=(3,32,3)”であれば、エンコーダ32にて、入力データIN_A(従って第1結合データ)のチャネル方向の次元数が96次元から3次元に削減されることになり、この場合、“3/(3×32)=1/32”より、圧縮データE_Aのデータサイズは入力データIN_Aのデータサイズの1/32となる。
It is "CxN>J". For example, if "(C, N, J)=(3, 32, 3)", the
オートエンコーダとして機能するNN31の訓練誤差(損失関数の値)が所定値以下になるまで第1学習部30はNN31の機械学習を行う。この機械学習の完了後のエンコーダ32を、以下、特に学習済みエンコーダ32aと称する(図9参照)。
The
図1を再度参照し、第2結合部50は、第2入力画像IB[1]~IB[Q]を、所定のミニバッチサイズを有するミニバッチを単位に分割する。第2結合部50におけるミニバッチサイズは第1結合部20におけるミニバッチサイズと同じである。故に、第2結合部50におけるミニバッチサイズは、第2入力画像のN枚分のデータサイズである(例えば“N=32”)。そして、第2結合部50は、ミニバッチごとに、当該ミニバッチに属する複数の第2入力画像をチャネル方向に結合することで第2結合データを生成する。第2入力画像IB[1]~IB[Q]から(Q/N)個分の第2結合データが形成される。(Q/N)は2以上の任意の整数であり、例えば、数百~数千の値を持つ。
Referring to FIG. 1 again, the second combining
図8に、第2結合部50にて生成される1つの第2結合データ(即ち1つのミニバッチの構造)を示す。第2結合データの構造は第1結合データの構造と同様である。即ち、図8に示される第2結合データは、入力画像IB[i]~IB[i+N]の画像データから構成され、チャネル方向において入力画像IB[i]~IB[i+N]の画像データが配列される。入力画像IB[i]~IB[i+N]の各々はチャネル方向に配列された赤濃淡画像、緑濃淡画像及び青濃淡画像にて構成される。故に、第2結合データにおいては、チャネル方向に、入力画像IB[i]の複数色分の画像データ(赤濃淡画像、緑濃淡画像及び青濃淡画像の画像データ)、入力画像IB[i+1]の複数色分の画像データ(赤濃淡画像、緑濃淡画像及び青濃淡画像の画像データ)、・・・、及び、入力画像IB[i+N]の複数色分の画像データ(赤濃淡画像、緑濃淡画像及び青濃淡画像の画像データ)が配列される。
FIG. 8 shows one second combined data (that is, one mini-batch structure) generated by the second combining
このため、第2結合データは、各々が(H×W)個の単色画素から成る単色の二次元画像を(C×N)枚分、チャネル方向に沿って配列したものに相当する。第2結合データは(W×H×C×N)個の単色画素分のデータ量を持つことになる。第2結合データにおいて、チャネル数は(C×N)であり、故にチャネル方向の次元数は(C×N)である。 Therefore, the second combined data corresponds to (C×N) monochromatic two-dimensional images, each consisting of (H×W) monochromatic pixels, arranged along the channel direction. The second combined data has a data amount for (W.times.H.times.C.times.N) monochrome pixels. In the second combined data, the number of channels is (C×N), so the number of dimensions in the channel direction is (C×N).
図1を再度参照し、第2学習部60はニューラルネットワーク61(以下、NN61と称する)を有し、第2学習データを用いてNN61の機械学習を行う。第2学習部60における機械学習は深層学習に分類されるものであって良く、従ってNN61はディープニューラルネットワークであって良い。第2学習部60における機械学習は教師あり学習であり、NN61により物体検出用の推論モデルが形成される。即ち、第2学習部60では物体検出用の推論モデルを学習させる(換言すればNN61を学習させることで物体検出が可能な推論モデルを作成する)。
Referring to FIG. 1 again, the
図9を参照して第2学習部60による機械学習を説明する。第2学習部60による機械学習には上述の学習済みエンコーダ32aが利用される。第2結合データが入力データIN_Bとして学習済みエンコーダ32aに入力され、学習済みエンコーダ32aは入力データIN_Bを圧縮することで圧縮データE_Bを生成する。学習済みエンコーダ32aによる圧縮では、入力データIN_B(従って第2結合データ)のチャネル方向の次元数を“(C×N)”から“J”に削減する。換言すれば、入力データIN_B(従って第2結合データ)のチャネル方向の次元数は“(C×N)”であって、学習済みエンコーダ32aにて入力データIN_Bの次元削減をチャネル方向に行うことで、チャネル方向の次元数が“J”の圧縮データE_Bを得る。学習済みエンコーダ32aにて、チャネル数が“(C×N)”から“J”に削減されると考えることもできる。
Machine learning by the
第2入力画像IB[1]~IB[Q]に基づく複数の第2結合データを順次、入力データIN_Bとして学習済みエンコーダ32aに入力することで、当該複数の第2結合データに基づく複数の圧縮データE_Bが得られる。
By sequentially inputting a plurality of second combined data based on the second input images IB[1] to IB[Q] as input data IN_B to the learned
第2学習部60では、圧縮データE_BをNN61への入力データとして用いてNN61の機械学習を行う。この際、ミニバッチを単位にNN61の機械学習を行う(即ちミニバッチ学習を行う)。NN61の機械学習におけるミニバッチサイズと、NN31の機械学習におけるミニバッチサイズとが異なっていても良いが、ここでは、それらが同じであるとする。そうすると、NN61の機械学習におけるミニバッチサイズは第2入力画像のN枚分のデータサイズであり、第2入力画像のN枚分のデータサイズは(W×H×C×N)である。
The
図10に、NN61への入力データが生成されるまでの流れの概要を示す。図10において、データDTaは、N枚の第2入力画像の画像データの組を“(C×N)/J”組分含む。データDTbは、“(C×N)/J”個の入力データIN_B、即ち“(C×N)/J”個の第2結合データから成る。データDTcは、データDTbに基づく“(C×N)/J”個の圧縮データE_Bから成る。
FIG. 10 shows an overview of the flow until input data to the
データDTaが第2結合部50に入力されることでデータDTbが得られる。即ち、N枚の第2入力画像の画像データの組が、“(C×N)/J”組分、順次、第2結合部50に入力されることで、第2結合部50から“(C×N)/J”個の第2結合データが出力される。各々の第2結合データのデータサイズは(W×H×C×N)である。故に、データDTbのデータサイズは“(W×H×C×N)×(C×N)/J”である。データDTaのデータサイズも同様である。
Data DTb is obtained by inputting data DTa to the second combining
各々の第2結合データが入力データIN_Bとして学習済みエンコーダ32aに入力されることで第2結合データごとに圧縮データE_Bが生成され、結果、“(C×N)/J”個の圧縮データE_Bから成るデータDTcが得られる。学習済みエンコーダ32aにおいてチャネル方向の次元数が“(C×N)”から“J”に削減されるので、1つの圧縮データE_Bのデータサイズは(W×H×J)である。故に、データDTcのデータサイズ)は、(W×H×C×N)である。
Compressed data E_B is generated for each second coupled data by inputting each of the second coupled data as input data IN_B to the learned
(W×H×C×N)のデータサイズ分の圧縮データE_Bを、1回あたりのミニバッチ学習のデータとしてNN61に入力する。これは、NN61の1回あたりのミニバッチ学習において、“N×(C×N)/J”枚分の入力画像の情報をNN61に入力することに相当する。例えば、“(C,N,J)=(3,32,3)”且つ“Q=10240”が成立する数値例では、1回のミニバッチ学習において、322枚分の入力画像の情報がNN61に入力されることになる。そうすると、“10240/322=10”より、NN61のミニバッチ学習を10回行うことで、第2学習データを構成する全ての第2入力画像を利用した1回分の学習が完了することになる(即ちイテレーション数は10となる)。
Compressed data E_B corresponding to a data size of (W×H×C×N) is input to NN 61 as data for mini-batch learning per one time. This corresponds to inputting information of “N×(C×N)/J” pieces of input images to the
N枚の第2入力画像の画像データそのものをNN61に入力する仮想ケースでは、第2学習データを構成する全ての第2入力画像を利用した1回分の学習を完了させるために、上記数値例においてNN61のミニバッチ学習を320回行う必要があり、データ処理装置1との比較において学習時間が長くなる。
In the hypothetical case in which the image data of N second input images themselves are input to the
第2学習部60におけるNN61の機械学習において、NN61はミニバッチサイズを有する圧縮データE_Bに基づき出力データOUT_Bを生成する(図9参照)。第2学習部60は、ミニバッチごとに(ミニバッチ学習ごとに)出力データOUT_Bと教師データとの誤差に相当する損失関数の値を導出し、損失関数の値が低減されるよう、誤差逆伝搬法を用いてNN61のパラメータ(重み及びバイアス)を調整する。損失関数の値が所定の閾値以下になるまでNN61の機械学習(即ち物体検出用の推論モデルの機械学習)が行われる。
In machine learning of
NN61のミニバッチ学習において、教師データは、当該ミニバッチ学習に用いる全ての第2入力画像に対するラベルデータにより構成される。例えば、或るミニバッチ学習において、上記データDTa(図10参照)が第2入力画像IB[1]~IB[1024]の画像データにて構成されるのでれば、当該ミニバッチ学習における教師データはラベルデータLB[1]~LB[1024]により構成される。即ち例えば、データDTaに第2入力画像IB[1]及びIB[2]の画像データが含まれているのであれば、図11に示す如く、それらに対応するラベルデータLB[1]及びLB[2]の和が、データDTaに対応する教師データに含められる(図11ではラベルデータLB[1]及びLB[2]の情報のみ図示)。 In the NN61 mini-batch learning, the teacher data consists of label data for all the second input images used in the mini-batch learning. For example, in a certain mini-batch learning, if the data DTa (see FIG. 10) is composed of the image data of the second input images IB[1] to IB[1024], the teacher data in the mini-batch learning is label It consists of data LB[1] to LB[1024]. That is, for example, if the image data of the second input images IB[1] and IB[2] are included in the data DTa, as shown in FIG. 11, the corresponding label data LB[1] and LB[ 2] is included in the teacher data corresponding to the data DTa (only the information of the label data LB[1] and LB[2] is shown in FIG. 11).
推論モデルとして機能すべきNN61は、データDTaを用いた機械学習の中で、データDTaを構成する各入力画像中の物体の位置特定及びクラス識別を行い、位置特定及びクラス識別の結果を出力データOUT_Bとして出力する。この出力データOUT_BがデータDTaに対応する教師データと比較されることで損失関数の値が導出される。
The
図12にデータ処理装置1の動作フローチャートを示す。まずステップS1において、第1学習データ取得部10により第1学習データが取得される。次にステップS2において、第1結合部20により第1学習データに基づき第1結合データが生成される。次にステップS3において、第1学習部30により第1結合データに基づいてオートエンコーダを学習させ(即ちNN31を学習させ)、これによって学習済みエンコーダ32aを作成する。次にステップS4において第2学習データ取得部40により第2学習データが取得される。尚、第2学習データの取得のタイミングはステップS5よりも前であれば任意である。
FIG. 12 shows an operation flowchart of the
第2学習データの取得後、ステップS5において、第2結合部50により第2学習データに基づき第2結合データが生成される。この際、上述の教師データも作成される。教師データの作成主体は第2結合部50であっても良いし、第2学習部60であっても良い。その後、ステップS6において、第2結合データを学習済みエンコーダ32aに入力することで圧縮データ(E_B)を生成し、生成した圧縮データ(E_B)に基づき第2学習部60にて物体検出用の推論モデルを学習させる(換言すればNN61を学習させることで物体検出用の推論モデルを作成する)。
After obtaining the second learning data, in step S5, the second combining
本実施形態では、上述の如く学習データ(第2学習データ)を圧縮することで第2学習部60における1ミニバッチ当たりのデータの情報量を増やすことができる。即ち、N枚の第2入力画像の画像データそのものをNN61に入力する仮想ケースと比べて、第2学習部60における1ミニバッチ当たりのデータの情報量が“(C×N)/J”倍に増大する(例えば32倍に増大する)。このため、仮想ケースとの比較において、第2学習部60における学習時間(例えばNN61による推論モデルの損失関数の値が所定の閾値以下になるまでに必要な時間)を短縮することが可能となる。見方を変えて、学習時間を一定とみなした場合には、必要メモリ容量を小さくすることもできる。
In this embodiment, by compressing the learning data (second learning data) as described above, the information amount of data per mini-batch in the
図13に“(C×N)/J=3×32/3=32”である場合におけるデータサイズの圧縮効果等を示す。図13の数値例では、学習済みエンコーダ32aを用いることで入力データIN_Bのデータサイズ(データ量)が1/32に圧縮されて圧縮データE_Bが得られる。このため、NN61へ入力されるデータの単位データ量あたりの学習時間が一定であるとみなしたならば、NN61の学習時間は仮想ケースと比べて1/32に短縮される。また、NN61の学習におけるイテレーション数も、仮想ケースで必要なイテレーション数の1/32に低減する。他方、本実施形態に係るNN61の学習時間を仮想ケースに係る学習時間と同じにする場合にあっては必要メモリ容量を仮想ケースの1/32にまで縮小することが可能である。
FIG. 13 shows the data size compression effect and the like when "(C×N)/J=3×32/3=32". In the numerical example of FIG. 13, by using the learned
各第1入力画像には推論モデルの認識対象物体が含まれるため、オートエンコーダでは、第1結合データ(IN_A)から各第1入力画像の認識対象物体の特徴量が抽出されて圧縮データE_Aに含められる。つまり、認識対象物体を含む入力画像から認識対象物体の特徴量が抽出されるようオートエンコーダの学習が進んで学習済みエンコーダ32aが構成される。故に、認識対象物体を含む第2入力画像に基づく第2結合データ(IN_B)を学習済みエンコーダ32aに入力すれば、学習済みエンコーダ32aにて各第2入力画像中の認識対象物体の特徴量が抽出されて圧縮データE_Bに含められる。この圧縮データE_Bを推論モデル(NN61)に入力することで、学習時間の短縮化に寄与する効率的な学習が可能となる。
Since each first input image includes the recognition target object of the inference model, the autoencoder extracts the feature amount of the recognition target object of each first input image from the first combined data (IN_A) and converts it into compressed data E_A. be included. That is, learning of the autoencoder progresses so that the feature amount of the recognition target object is extracted from the input image including the recognition target object, and the learned
認識対象物体の特徴量の観点からデータ処理装置1の機能を検討したとき、データ処理装置1は、図14の特徴量データ生成装置2として機能する又は特徴量データ生成装置2を含む、と考えることができる。特徴量データ生成装置2は、各々に認識対象物体を含む複数の画像IIを取得する画像データ取得部2Aと、複数の画像IIの画像データを圧縮することで複数の画像IIにおける複数の認識対象物体の各特徴量を含む特徴量データを生成する特徴量データ生成部2Bと、を備えている。取得部2A及び2Bに関わる複数の画像IIは複数の第2入力画像に相当する。取得部2Aは図1の取得部40に相当し、生成部2Bは図1の結合部50と図9の学習済みエンコーダ32aを含む機能ブロックに相当する。生成部2Bにて生成される特徴量データは圧縮データE_Bに相当する。
When considering the function of the
つまり、特徴量データ生成装置2は、各々に認識対象物体を含む複数の第2入力画像を取得し、複数の第2入力画像における複数の認識対象物体の各特徴量を含む特徴量データ(EN_B)を生成する。この特徴量データを用いて物体検出用の推論モデル(NN61)を学習させれば、学習時間の短縮化に寄与する効率的な学習が可能となる。
That is, the feature amount
ここで、上記の複数の画像IIは、所定カメラ(不図示)にて時間的に連続して撮影された2以上の画像を含んでいると良い。即ち、第2入力画像IB[1]~IB[Q]の内、少なくとも一部は、所定カメラにて時間的に連続して撮影された2以上の画像であって良い。所定カメラは、自身の撮影領域内の様子(被写体)を撮影し、撮影された画像であるカメラ画像の画像データを生成する。この際、所定カメラは所定のフレームレートで周期的に撮影を行う。そうすると、所定カメラにより、フレームレートの逆数の間隔で時系列上に並ぶ複数のカメラ画像が取得される。この時系列上に並ぶ複数のカメラ画像(以下、カメラ画像列と称する)が、所定カメラにて時間的に連続して撮影された2以上の画像に相当する。 Here, the plurality of images II described above preferably include two or more images captured temporally continuously by a predetermined camera (not shown). That is, at least a part of the second input images IB[1] to IB[Q] may be two or more images captured temporally continuously by a predetermined camera. The predetermined camera captures a scene (subject) within its own capture area and generates image data of a camera image, which is a captured image. At this time, the predetermined camera periodically takes pictures at a predetermined frame rate. Then, a predetermined camera acquires a plurality of camera images arranged in time series at intervals of the reciprocal of the frame rate. A plurality of camera images arranged in time series (hereinafter referred to as a camera image sequence) correspond to two or more images temporally consecutively captured by a predetermined camera.
所定カメラは一定の場所に固定された定点カメラであって良い。この場合、カメラ画像列においてカメラ画像中の風景(認識対象物体以外の部分)は殆ど変化せず、認識対象物体としての車両や人間のみがカメラ画像列の中で動くと期待される。そうすると、エンコーダ32(学習済みエンコーダ32a)による圧縮作用が高まって、認識対象物体の特徴量を効率的に抽出することが可能となり、ひいては推論モデル(NN61)の効率的な学習が促進される。所定カメラは車両等の移動体に搭載されたカメラであっても良い。
The predetermined camera may be a fixed point camera fixed at a fixed location. In this case, it is expected that the scenery (parts other than the object to be recognized) in the camera image hardly changes in the sequence of camera images, and only the vehicle or the person as the object to be recognized moves in the sequence of camera images. As a result, the compression effect of the encoder 32 (learned
画像データ取得部2Aは、所定カメラにて撮影された画像の集まりの中から、所定カメラにて撮影された各画像の付加データに含まれる撮影時刻情報に基づいて、上記時間的に連続して撮影された2以上の画像を抽出して良い。例えば、所定カメラにて撮影された画像に第1撮影画像及び第2撮影画像が含まれている場合において、第1撮影画像の撮影時刻及び第2撮影画像の撮影時刻間の時間差が所定時間以下であるとき、第1及び第2撮影画像は時間的に連続して撮影された2枚の画像として抽出されて良い。
The image
上述の構成に対する補足事項、応用技術又は変形技術等を以下に示す。 Supplementary matters, applied techniques, modified techniques, etc. for the above configuration are shown below.
各第1入力画像及び各第2入力画像はモノクロ画像(色情報を持たない濃淡画像)であっても構わない。この場合には“C=1”となる。 Each first input image and each second input image may be a monochrome image (a grayscale image without color information). In this case, "C=1".
エンコーダ32(学習済みエンコーダ32aを含む)は、入力データ(IN_A又はIN_B)をチャネル方向に圧縮するが、この際、入力画像の水平方向又は垂直方向に入力データが圧縮されることがあっても良い。
The encoder 32 (including the trained
データ処理装置1は、ハードウェアとして、演算処理装置であるCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、ROM(Read only memory)及びRAM(Random access memory)等を備える。データ処理装置1は、ROMに格納されたプログラム又は他の装置から通信を通じて取得されたプログラムをCPUにて実行することにより、図1に示す各部位の機能を実現して良く、故に図12のステップS1~S6の各処理を実現して良い。
The
データ処理装置1にて作成された推論モデルを車載装置(不図示)に適用しても良い。車載装置は自動車等の車両に搭載される電子機器の一種である。この場合、第2学習部60によるNN61の機械学習を経てNN61により形成される推論モデルを車載装置に適用すると良い。そして、車載装置にて推論モデルによる物体検出を行わせ、推論結果を車両で実施され得る自動運転又は運転支援等に利用して良い。
An inference model created by the
尚、データ処理装置1自体が車載装置であっても構わない。車両(例えば放送中継車)によっては、豊富な計算資源を有する車載装置が設置されることもあり、この場合においては特にデータ処理装置1自体を車載装置とすることも可能である。
Note that the
また、データ処理装置1により実行される処理の一部又は全部は、ソフトウェアおよびハードウェアの混在処理により実現しても良い。前述した方法をコンピュータに実行させるコンピュータプログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本実施形態の範囲に含まれる。ここで、コンピュータ読み取り可能な記録媒体は、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、大容量DVD、次世代DVD、半導体メモリである。
Also, part or all of the processing executed by the
本発明の実施形態は、特許請求の範囲に示された技術的思想の範囲内において、適宜、種々の変更が可能である。以上の実施形態は、あくまでも、本発明の実施形態の例であって、本発明ないし各構成要件の用語の意義は、以上の実施形態に記載されたものに制限されるものではない。上述の説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。 The embodiments of the present invention can be appropriately modified in various ways within the scope of the technical idea indicated in the scope of claims. The above embodiments are merely examples of the embodiments of the present invention, and the meanings of the terms of the present invention and each constituent element are not limited to those described in the above embodiments. The specific numerical values given in the above description are merely examples and can of course be changed to various numerical values.
1 データ処理装置
2 特徴量データ生成装置
2A 画像データ取得部
2B 特徴量データ生成部
10 第1学習データ取得部
20 第1結合部
30 第1学習部
31 ニューラルネットワーク(オートエンコーダ)
32 エンコーダ
33 デコーダ
40 第2学習データ取得部
50 第2結合部
60 第2学習部
61 ニューラルネットワーク(推論モデル)
1
32
Claims (10)
前記複数の画像の画像データを圧縮することで前記複数の画像における複数の認識対象物体の各特徴量を含む特徴量データを生成する特徴量データ生成部と、を備えた
、特徴量データ生成装置。 an image data acquisition unit that acquires image data of a plurality of images each including a recognition target object;
a feature amount data generation unit configured to generate feature amount data including each feature amount of a plurality of recognition target objects in the plurality of images by compressing image data of the plurality of images. .
、請求項1に記載の特徴量データ生成装置。 2. The feature amount data generation device according to claim 1, wherein said plurality of images includes two or more images captured temporally continuously by a predetermined camera.
前記第1結合データの供給を受け、前記第1結合データを前記チャネル方向に圧縮するエンコーダ及び前記圧縮を復元するデコーダを有するオートエンコーダを学習させる第1学習部と、
複数の第2入力画像の画像データを前記チャネル方向に結合することで第2結合データを生成する第2結合部と、
前記第1学習部による学習後の前記エンコーダに前記第2結合データを入力することで当該エンコーダから出力される圧縮データを、ニューラルネットワークに入力し、これによって前記ニューラルネットワークを学習させる第2学習部と、を備える
、機械学習装置。 a first combining unit that generates first combined data by combining image data of a plurality of first input images in a channel direction;
a first learning unit that receives the supply of the first combined data and trains an autoencoder having an encoder that compresses the first combined data in the channel direction and a decoder that restores the compression;
a second combining unit that generates second combined data by combining image data of a plurality of second input images in the channel direction;
A second learning unit for inputting compressed data output from the encoder by inputting the second combined data to the encoder after learning by the first learning unit to a neural network, thereby learning the neural network. and a machine learning device.
、請求項3に記載の機械学習装置。 4. The machine learning device according to claim 3, wherein said second learning unit makes said neural network learn using teacher data including a plurality of label data associated with said plurality of second input images.
、請求項4に記載の機械学習装置。 5. The machine learning device according to claim 4, wherein said second learning unit creates an inference model capable of object detection by learning said neural network.
、請求項5に記載の機械学習装置。 6. The machine learning device according to claim 5, wherein each first input image and each second input image include a recognition target object in said object detection.
前記第2結合データでは、前記チャネル方向において前記複数の第2入力画像の画像データが配列され、
前記第1学習部での学習において、前記エンコーダにより、前記第1結合データのチャネル方向の次元数が削減されることで前記第1結合データが圧縮され、
前記第2学習部での学習において、前記第1学習部による学習後の前記エンコーダにより、前記第2結合データのチャネル方向の次元数が削減されることで前記第2結合データが圧縮され、これによって前記圧縮データが得られる
、請求項3~6の何れかに記載の機械学習装置。 in the first combined data, the image data of the plurality of first input images are arranged in the channel direction;
in the second combined data, the image data of the plurality of second input images are arranged in the channel direction;
In learning by the first learning unit, the encoder reduces the number of dimensions of the first combined data in the channel direction, thereby compressing the first combined data,
In learning by the second learning unit, the encoder after learning by the first learning unit reduces the number of dimensions of the second combined data in the channel direction, thereby compressing the second combined data. 7. The machine learning device according to any one of claims 3 to 6, wherein said compressed data is obtained by:
前記第1結合データでは、前記チャネル方向において各第1入力画像の前記複数色分の画像データが配列され、
前記第2結合データでは、前記チャネル方向において各第2入力画像の前記複数色分の画像データが配列される
、請求項7に記載の機械学習装置。 The image data of each first input image and the image data of each second input image include image data for a plurality of colors,
in the first combined data, the image data for the plurality of colors of each first input image are arranged in the channel direction;
8. The machine learning device according to claim 7, wherein in said second combined data, image data for said plurality of colors of each second input image are arranged in said channel direction.
前記複数の画像の画像データを圧縮することで前記複数の画像における複数の認識対象物体の各特徴量を含む特徴量データを生成する特徴量データ生成ステップと、を備えた
、特徴量データ生成方法。 an image data acquisition step of acquiring image data of a plurality of images each including a recognition target object;
a feature amount data generating step of compressing image data of the plurality of images to generate feature amount data including each feature amount of a plurality of recognition target objects in the plurality of images. .
前記第1結合データの供給を受け、前記第1結合データを前記チャネル方向に圧縮するエンコーダ及び前記圧縮を復元するデコーダを有するオートエンコーダを学習させる第1学習ステップと、
複数の第2入力画像の画像データを前記チャネル方向に結合することで第2結合データを生成する第2結合ステップと、
前記第1学習ステップによる学習後の前記エンコーダに前記第2結合データを入力することで当該エンコーダから出力される圧縮データを、ニューラルネットワークに入力し、これによって前記ニューラルネットワークを学習させる第2学習ステップと、を備える
、機械学習方法。 a first combining step of generating first combined data by combining image data of a plurality of first input images in a channel direction;
a first learning step of receiving the first combined data and training an autoencoder having an encoder for compressing the first combined data in the channel direction and a decoder for restoring the compression;
a second combining step of generating second combined data by combining image data of a plurality of second input images in the channel direction;
A second learning step of inputting compressed data output from the encoder by inputting the second combined data into the encoder after learning in the first learning step to a neural network, thereby learning the neural network. and a machine learning method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021054630A JP2022152023A (en) | 2021-03-29 | 2021-03-29 | Feature quantity data generation device and method thereof, and machine learning device and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021054630A JP2022152023A (en) | 2021-03-29 | 2021-03-29 | Feature quantity data generation device and method thereof, and machine learning device and method thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022152023A true JP2022152023A (en) | 2022-10-12 |
Family
ID=83555804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021054630A Pending JP2022152023A (en) | 2021-03-29 | 2021-03-29 | Feature quantity data generation device and method thereof, and machine learning device and method thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022152023A (en) |
-
2021
- 2021-03-29 JP JP2021054630A patent/JP2022152023A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11176381B2 (en) | Video object segmentation by reference-guided mask propagation | |
US11182620B2 (en) | Method for training a convolutional recurrent neural network and for semantic segmentation of inputted video using the trained convolutional recurrent neural network | |
Wang et al. | Detect globally, refine locally: A novel approach to saliency detection | |
Bilinski et al. | Dense decoder shortcut connections for single-pass semantic segmentation | |
CN109891897B (en) | Method for analyzing media content | |
CN108520535B (en) | Object classification method based on depth recovery information | |
Chen et al. | Semantic image segmentation with task-specific edge detection using cnns and a discriminatively trained domain transform | |
US10019652B2 (en) | Generating a virtual world to assess real-world video analysis performance | |
US10339421B2 (en) | RGB-D scene labeling with multimodal recurrent neural networks | |
CN107679462B (en) | Depth multi-feature fusion classification method based on wavelets | |
EP3540637A1 (en) | Neural network model training method, device and storage medium for image processing | |
US20180114071A1 (en) | Method for analysing media content | |
TW202101371A (en) | Method and apparatus for processing video stream | |
JP2020027659A (en) | Method for training convolutional recurrent neural network, and inputted video semantic segmentation method using trained convolutional recurrent neural network | |
CN112801027B (en) | Vehicle target detection method based on event camera | |
CN111539290B (en) | Video motion recognition method and device, electronic equipment and storage medium | |
CN112149459A (en) | Video salient object detection model and system based on cross attention mechanism | |
Bescos et al. | Empty cities: Image inpainting for a dynamic-object-invariant space | |
KR102042168B1 (en) | Methods and apparatuses for generating text to video based on time series adversarial neural network | |
CN110705412A (en) | Video target detection method based on motion history image | |
Ma et al. | Fusioncount: Efficient crowd counting via multiscale feature fusion | |
CN109657538B (en) | Scene segmentation method and system based on context information guidance | |
Huang et al. | Change detection with various combinations of fluid pyramid integration networks | |
CN113553954A (en) | Method and apparatus for training behavior recognition model, device, medium, and program product | |
Wei et al. | Novel video prediction for large-scale scene using optical flow |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240131 |