JP2022152023A - Feature quantity data generation device and method thereof, and machine learning device and method thereof - Google Patents

Feature quantity data generation device and method thereof, and machine learning device and method thereof Download PDF

Info

Publication number
JP2022152023A
JP2022152023A JP2021054630A JP2021054630A JP2022152023A JP 2022152023 A JP2022152023 A JP 2022152023A JP 2021054630 A JP2021054630 A JP 2021054630A JP 2021054630 A JP2021054630 A JP 2021054630A JP 2022152023 A JP2022152023 A JP 2022152023A
Authority
JP
Japan
Prior art keywords
data
learning
image
images
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021054630A
Other languages
Japanese (ja)
Inventor
竜介 関
Ryusuke Seki
康貴 岡田
Yasutaka Okada
雄喜 片山
Yuki Katayama
怜 広見
Rei Hiromi
葵 荻島
Aoi Ogishima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP2021054630A priority Critical patent/JP2022152023A/en
Publication of JP2022152023A publication Critical patent/JP2022152023A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

To provide a feature quantity data generation device and a method thereof, and a machine learning device and a method thereof that reduce learning time in machine learning.SOLUTION: In a data processor including a first learning data acquisition unit, a first coupling unit, a first learning unit, a second learning data acquisition unit, a second coupling unit, and a second learning unit, the second learning unit 60 acquires, as input data (IN_B), second coupled data composed of image data of a plurality of images each including a recognition target object. By compressing the input data IN_B with a learned encoder 32a, compressed data (E_B) including each feature quantity of a plurality of recognition target objects in a plurality of images are generated. The second learning unit 60 uses the compressed data E_B as input data to a neural network (NN) 61 to perform machine learning of the NN 61.SELECTED DRAWING: Figure 9

Description

本発明は、特徴量データ生成装置及び方法並びに機械学習装置及び方法に関する。 The present invention relates to a feature amount data generation device and method and a machine learning device and method.

画像認識用の推論モデルを学習させる際、ミニバッチ学習が多く利用される。ミニバッチ学習では、学習データを構成する複数の学習用画像の画像データを所定のミニバッチサイズを有するミニバッチを単位に分割し、ミニバッチごとに学習を行う。例えば、学習用画像の水平方向の画素数W及び垂直方向の画素数Hが共に100であって且つRGB形式のカラー画像を学習用画像として用いる場合、1枚の学習用画像のデータサイズは(W×H×3)であり、32枚の学習用画像の画像データをミニバッチのサイズ方向に結合することでミニバッチを形成する。この場合におけるミニバッチサイズは、(W×H×3×32)である。 Mini-batch learning is often used when training an inference model for image recognition. In mini-batch learning, image data of a plurality of learning images constituting learning data is divided into mini-batches having a predetermined mini-batch size, and learning is performed for each mini-batch. For example, when the number of pixels W in the horizontal direction and the number of pixels H in the vertical direction of the learning image are both 100 and an RGB format color image is used as the learning image, the data size of one learning image is ( W×H×3), and a mini-batch is formed by combining image data of 32 learning images in the size direction of the mini-batch. The mini-batch size in this case is (W x H x 3 x 32).

そして例えば、学習データに10240枚分の学習用画像が含まれているのであれば、“10240/32=320”より、ミニバッチ学習を320回実行することで、全学習用画像に対する1回分の学習が完了することになる。即ち、イテレーション数(繰り返し回数)は320であり、320回分のミニバッチ学習が1エポックに相当する。 For example, if the learning data contains 10,240 learning images, by executing mini-batch learning 320 times from "10,240/32=320", one time of learning for all learning images will be completed. That is, the number of iterations (the number of repetitions) is 320, and 320 mini-batch learnings correspond to one epoch.

特開2020-71808号公報Japanese Patent Application Laid-Open No. 2020-71808

上記の方法において、1つのミニバッチに含まれる学習用画像の枚数を増大させれば、それに比例してミニバッチサイズも増大するが、1エポック当たりのミニバッチ学習の実行回数が減少する。例えば、ミニバッチサイズを(W×H×3×320)とすれば、ミニバッチ学習を32回実行することで全学習用画像に対する1回分の学習が完了することになる。即ち32回分のミニバッチ学習で1エポックが完了する。1エポック当たりのミニバッチ学習の回数を低減させることで、推論モデルの学習時間(例えば損失関数の値が所定の閾値以下になるまでに必要な時間)が短縮される可能性がある。 In the above method, if the number of learning images included in one mini-batch is increased, the mini-batch size is increased proportionally, but the number of mini-batch learning executions per epoch is decreased. For example, if the mini-batch size is (W×H×3×320), the mini-batch learning is performed 32 times to complete one-time learning for all the learning images. That is, one epoch is completed with 32 mini-batch learnings. By reducing the number of mini-batch learnings per epoch, the learning time of the inference model (for example, the time required for the value of the loss function to become equal to or less than a predetermined threshold) may be shortened.

しかしながら、機械学習を行う装置に搭載されるメモリの容量には制限があるため、ミニバッチサイズを無条件に増大させることはできない。1枚当たりの学習用画像のサイズにも依存するが、1ミニバッチ当たりの学習用画像の枚数は現実的には32枚程度が上限になることが多い。このため、1ミニバッチ当たりの学習用画像の枚数が32枚を超えて増大するのであれば、必要メモリ容量の増大に伴って装置のコストが増大してしまう。必要メモリ容量を増大させることなく学習時間を低減させることができれば有益である。 However, the mini-batch size cannot be unconditionally increased due to limitations on the capacity of the memory installed in the device that performs machine learning. Although it depends on the size of each learning image, the upper limit of the number of learning images per mini-batch is often about 32 in practice. Therefore, if the number of learning images per mini-batch exceeds 32, the cost of the apparatus will increase as the required memory capacity increases. It would be beneficial if training time could be reduced without increasing memory requirements.

本発明は、学習時間の低減に寄与する特徴量データ生成装置及び方法並びに機械学習装置及び方法を提供することを目的とする。 An object of the present invention is to provide a feature amount data generation device and method and a machine learning device and method that contribute to reduction in learning time.

本発明に係る特徴量データ生成装置は、各々に認識対象物体を含む複数の画像の画像データを取得する画像データ取得部と、前記複数の画像の画像データを圧縮することで前記複数の画像における複数の認識対象物体の各特徴量を含む特徴量データを生成する特徴量データ生成部と、を備えた構成(第1の構成)である。 A feature amount data generation device according to the present invention includes an image data acquisition unit for acquiring image data of a plurality of images each including a recognition target object, and compressing the image data of the plurality of images to a feature amount data generation unit that generates feature amount data including each feature amount of a plurality of recognition target objects (first configuration).

上記第1の構成に係る特徴量データ生成装置において、前記複数の画像は、所定カメラにて時間的に連続して撮影された2以上の画像を含む構成(第2の構成)であっても良い。 In the feature amount data generation device according to the first configuration, the plurality of images may be a configuration (second configuration) including two or more images captured temporally continuously by a predetermined camera. good.

本発明に係る機械学習装置は、複数の第1入力画像の画像データをチャネル方向に結合することで第1結合データを生成する第1結合部と、前記第1結合データの供給を受け、前記第1結合データを前記チャネル方向に圧縮するエンコーダ及び前記圧縮を復元するデコーダを有するオートエンコーダを学習させる第1学習部と、複数の第2入力画像の画像データを前記チャネル方向に結合することで第2結合データを生成する第2結合部と、前記第1学習部による学習後の前記エンコーダに前記第2結合データを入力することで当該エンコーダから出力される圧縮データを、ニューラルネットワークに入力し、これによって前記ニューラルネットワークを学習させる第2学習部と、を備える構成(第3の構成)である。 A machine learning device according to the present invention includes: a first combining unit that generates first combined data by combining image data of a plurality of first input images in a channel direction; A first learning unit that trains an autoencoder having an encoder that compresses first combined data in the channel direction and a decoder that restores the compression, and combining image data of a plurality of second input images in the channel direction. Compressed data output from a second combining unit that generates second combined data and input of the second combined data to the encoder after learning by the first learning unit is input to a neural network. , and a second learning unit for learning the neural network thereby (third configuration).

上記第3の構成に係る機械学習装置において、前記第2学習部は、前記複数の第2入力画像に対応付けられた複数のラベルデータを含む教師データを用いて、前記ニューラルネットワークを学習させる構成(第4の構成)であっても良い。 In the machine learning device according to the third configuration, the second learning unit uses teacher data including a plurality of label data associated with the plurality of second input images to cause the neural network to learn. (Fourth configuration).

上記第4の構成に係る機械学習装置において、前記第2学習部は、前記ニューラルネットワークを学習させることで物体検出が可能な推論モデルを作成する構成(第5の構成)であっても良い。 In the machine learning device according to the fourth configuration, the second learning unit may create an inference model capable of object detection by learning the neural network (fifth configuration).

上記第5の構成に係る機械学習装置において、各第1入力画像及び各第2入力画像は前記物体検出における認識対象物体を含む構成(第6の構成)であっても良い。 In the machine learning device according to the fifth configuration, each first input image and each second input image may include a recognition target object in the object detection (sixth configuration).

上記第3~第6の構成の何れかに係る機械学習装置において、前記第1結合データでは、前記チャネル方向において前記複数の第1入力画像の画像データが配列され、前記第2結合データでは、前記チャネル方向において前記複数の第2入力画像の画像データが配列され、前記第1学習部での学習において、前記エンコーダにより、前記第1結合データのチャネル方向の次元数が削減されることで前記第1結合データが圧縮され、前記第2学習部での学習において、前記第1学習部による学習後の前記エンコーダにより、前記第2結合データのチャネル方向の次元数が削減されることで前記第2結合データが圧縮され、これによって前記圧縮データが得られる構成(第7の構成)であっても良い。 In the machine learning device according to any one of the third to sixth configurations, in the first combined data, the image data of the plurality of first input images are arranged in the channel direction, and in the second combined data, The image data of the plurality of second input images are arranged in the channel direction, and the number of dimensions in the channel direction of the first combined data is reduced by the encoder in the learning by the first learning unit. The first combined data is compressed, and in learning by the second learning unit, the number of dimensions in the channel direction of the second combined data is reduced by the encoder after learning by the first learning unit. A configuration (seventh configuration) may be employed in which two-combined data is compressed to obtain the compressed data.

上記第7の構成に係る機械学習装置において、各第1入力画像の画像データ及び各第2入力画像の画像データは、複数色分の画像データを含み、前記第1結合データでは、前記チャネル方向において各第1入力画像の前記複数色分の画像データが配列され、前記第2結合データでは、前記チャネル方向において各第2入力画像の前記複数色分の画像データが配列される構成(第8の構成)であっても良い。 In the machine learning device according to the seventh configuration, the image data of each first input image and the image data of each second input image include image data for a plurality of colors, and in the first combined data, the channel direction in which the image data for the plurality of colors of each first input image are arranged, and in the second combined data, the image data for the plurality of colors of each second input image are arranged in the channel direction (eighth configuration).

本発明に係る特徴量データ生成方法は、各々に認識対象物体を含む複数の画像の画像データを取得する画像データ取得ステップと、前記複数の画像の画像データを圧縮することで前記複数の画像における複数の認識対象物体の各特徴量を含む特徴量データを生成する特徴量データ生成ステップと、を備えた構成(第9の構成)である。 A feature amount data generation method according to the present invention includes an image data acquisition step of acquiring image data of a plurality of images each including a recognition target object; and a feature amount data generation step of generating feature amount data including each feature amount of a plurality of recognition target objects (a ninth configuration).

本発明に係る機械学習方法は、複数の第1入力画像の画像データをチャネル方向に結合することで第1結合データを生成する第1結合ステップと、前記第1結合データの供給を受け、前記第1結合データを前記チャネル方向に圧縮するエンコーダ及び前記圧縮を復元するデコーダを有するオートエンコーダを学習させる第1学習ステップと、複数の第2入力画像の画像データを前記チャネル方向に結合することで第2結合データを生成する第2結合ステップと、前記第1学習ステップによる学習後の前記エンコーダに前記第2結合データを入力することで当該エンコーダから出力される圧縮データを、ニューラルネットワークに入力し、これによって前記ニューラルネットワークを学習させる第2学習ステップと、を備える構成(第10の構成)である。 A machine learning method according to the present invention includes a first combining step of generating first combined data by combining image data of a plurality of first input images in a channel direction; a first learning step of training an autoencoder having an encoder that compresses first combined data in the channel direction and a decoder that restores the compression; and combining image data of a plurality of second input images in the channel direction. a second combining step of generating second combined data; and inputting the second combined data into the encoder after learning in the first learning step, thereby inputting compressed data output from the encoder into a neural network. , and a second learning step for learning the neural network by this (a tenth configuration).

本発明によれば、データ記録に関わる利便性向上に寄与するデータ記録装置及び方法を提供することが可能となる。 According to the present invention, it is possible to provide a data recording apparatus and method that contribute to improving the convenience of data recording.

本発明の実施形態に係るデータ処理装置の構成図である。1 is a configuration diagram of a data processing device according to an embodiment of the present invention; FIG. 本発明の実施形態に係る第1学習データの構成図である。4 is a configuration diagram of first learning data according to the embodiment of the present invention; FIG. 本発明の実施形態に係る第2学習データの構成図である。4 is a configuration diagram of second learning data according to the embodiment of the present invention; FIG. 本発明の実施形態に係り、1枚の入力画像と、それに対応するラベルデータを示す図である。FIG. 4 is a diagram showing one input image and corresponding label data according to the embodiment of the present invention; 本発明の実施形態に係り、RGB形式のカラー画像としての1枚の入力画像の構成図である。1 is a configuration diagram of one input image as a color image in RGB format according to an embodiment of the present invention; FIG. 本発明の実施形態に係り、第1結合データの構成図である。FIG. 4 is a configuration diagram of first combined data according to the embodiment of the present invention; 本発明の実施形態に係り、オートエンコーダの構成及び動作の説明図である。FIG. 4 is an explanatory diagram of the configuration and operation of an autoencoder according to the embodiment of the present invention; 本発明の実施形態に係り、第2結合データの構成図である。FIG. 4 is a configuration diagram of second combined data according to the embodiment of the present invention; 本発明の実施形態に係り、第2学習部の学習の動作説明図である。FIG. 10 is an explanatory diagram of learning operation of the second learning unit according to the embodiment of the present invention; 本発明の実施形態に係り、第2学習部のニューラルネットワークへの入力データの説明図である。FIG. 10 is an explanatory diagram of input data to the neural network of the second learning unit according to the embodiment of the present invention; 本発明の実施形態に係り、教師データの内容を説明するための図である。FIG. 4 is a diagram for explaining the contents of teacher data according to the embodiment of the present invention; 本発明の実施形態に係るデータ処理装置の動作フローチャートである。4 is an operation flowchart of the data processing device according to the embodiment of the present invention; 本発明の実施形態に係り、データの圧縮による効果を説明するための図である。FIG. 4 is a diagram for explaining the effect of data compression according to the embodiment of the present invention; 本発明の実施形態に係る特徴量データ生成装置の構成図である。1 is a configuration diagram of a feature amount data generation device according to an embodiment of the present invention; FIG.

以下、本発明の実施形態の例を、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。尚、本明細書では、記述の簡略化上、情報、信号、物理量又は部材等を参照する記号又は符号を記すことによって、該記号又は符号に対応する情報、信号、物理量又は部材等の名称を省略又は略記することがある。例えば、後述の“40”によって参照される第2学習データ取得部は(図1参照)、第2学習データ取得部40と表記されることもあるし、取得部40と略記されることもあり得るが、それらは全て同じものを指す。 Hereinafter, examples of embodiments of the present invention will be specifically described with reference to the drawings. In each figure referred to, the same parts are denoted by the same reference numerals, and redundant descriptions of the same parts are omitted in principle. In this specification, for simplification of description, by describing symbols or codes that refer to information, signals, physical quantities, or members, etc., the names of information, signals, physical quantities, or members, etc. corresponding to the symbols or codes are It may be omitted or abbreviated. For example, the second learning data acquisition unit (see FIG. 1) referred to by “40” to be described later may be referred to as the second learning data acquisition unit 40, or may be abbreviated as the acquisition unit 40. but they all refer to the same thing.

詳細は後述するが、本実施形態では、第1学習データを用いて画像に含まれる特徴量を抽出することができる学習済みエンコーダ32aを生成する(図9参照)。次に、学習済みエンコーダ32aを用いて、第2学習データから認識対象物体の特徴量を抽出したデータ(圧縮データ)を生成する。学習済みエンコーダ32aが第2学習データから認識対象物体の特徴量を抽出する際には、いわゆる圧縮という手法を用いる。次に、認識対象物体の特徴量を抽出したデータ(圧縮データ)を用いてNN61を学習させる。NN61は、学習により物体検出用の推論モデルとなる。NN61の学習には、認識対象物体の特徴量を抽出したデータ(圧縮データ)を用いるので、NN61の学習時間の低減に寄与することができる。以下、詳細に説明する。 Although the details will be described later, in this embodiment, a trained encoder 32a capable of extracting a feature amount included in an image is generated using the first learning data (see FIG. 9). Next, the learned encoder 32a is used to generate data (compressed data) in which the feature amount of the recognition target object is extracted from the second learning data. When the learned encoder 32a extracts the feature amount of the recognition target object from the second learning data, a so-called compression technique is used. Next, the NN 61 is trained using the data (compressed data) obtained by extracting the feature amount of the object to be recognized. The NN 61 becomes an inference model for object detection through learning. Since the data (compressed data) obtained by extracting the feature amount of the object to be recognized is used for learning of the NN 61, the learning time of the NN 61 can be reduced. A detailed description will be given below.

図1に本実施形態に係るデータ処理装置1の構成図を示す。データ処理装置1は機械学習装置の例である。データ処理装置1は、第1学習データ取得部10、第1結合部20、第1学習部30、第2学習データ取得部40、第2結合部50及び第2学習部60を備える。尚、データ処理装置1は単一のコンピュータ装置にて構成されても良いし、物理的に分離した複数のコンピュータ装置にて構成されても良い。所謂クラウドコンピューティングを利用してデータ処理装置1が構成されても良い。 FIG. 1 shows a block diagram of a data processing device 1 according to this embodiment. The data processing device 1 is an example of a machine learning device. The data processing device 1 includes a first learning data acquiring section 10 , a first combining section 20 , a first learning section 30 , a second learning data acquiring section 40 , a second combining section 50 and a second learning section 60 . The data processing apparatus 1 may be configured by a single computer device, or may be configured by a plurality of physically separated computer devices. The data processing device 1 may be configured using so-called cloud computing.

第1学習データ取得部10は、複数の画像の画像データを含む第1学習データを取得する。第1学習データを構成する各画像の画像データは第1結合部20に入力されるため、第1学習データを構成する各画像を第1入力画像と称する。図2に示す如く、第1学習データは計P枚の第1入力画像IA[1]~IA[P]の画像データを含む。Pは2以上の任意の整数であり、例えば、数十~数千の値を有する。尚、第1入力画像IA[i]は単に入力画像IA[i]と表記されることがある。iは任意の整数を表す。 The first learning data acquisition unit 10 acquires first learning data including image data of a plurality of images. Since the image data of each image forming the first learning data is input to the first combining unit 20, each image forming the first learning data is referred to as a first input image. As shown in FIG. 2, the first learning data includes image data of a total of P first input images IA[1] to IA[P]. P is any integer greater than or equal to 2, and has a value of, for example, tens to thousands. Note that the first input image IA[i] may be simply referred to as input image IA[i]. i represents an arbitrary integer.

第2学習データ取得部40は、複数の画像の画像データを含む第2学習データを取得する。第2学習データを構成する各画像の画像データは第2結合部50に入力されるため、第2学習データを構成する各画像を第2入力画像と称する。図3に示す如く、第2学習データは計Q枚の第2入力画像IB[1]~IB[Q]の画像データを含む。Qは2以上の任意の整数であり、例えば、数千~数万の値を有する。尚、第2入力画像IB[i]は単に入力画像IB[i]と表記されることがある。本実施形態では、第1学習データが有する画像の枚数よりも第2学習データが有する画像の枚数の方が大きい。即ち“P<Q”が成立する。 The second learning data acquisition unit 40 acquires second learning data including image data of a plurality of images. Since the image data of each image forming the second learning data is input to the second combining unit 50, each image forming the second learning data is referred to as a second input image. As shown in FIG. 3, the second learning data includes image data of a total of Q second input images IB[1] to IB[Q]. Q is any integer greater than or equal to 2, and has a value of, for example, thousands to tens of thousands. Note that the second input image IB[i] may be simply referred to as the input image IB[i]. In this embodiment, the number of images included in the second learning data is greater than the number of images included in the first learning data. That is, "P<Q" is established.

尚、第1入力画像又は第2入力画像などの任意の画像は、当該画像の画像データと、その他のデータ(以下、付加データと称する)と、を含む。任意の画像はカメラにて撮影された画像であって良く、或る画像についての付加データは、当該画像のうちの、画像データではないデータを含み、更に当該画像の撮影時刻を表す撮影時刻情報を含む。 An arbitrary image such as the first input image or the second input image includes image data of the image and other data (hereinafter referred to as additional data). An arbitrary image may be an image captured by a camera, and additional data for a certain image includes data other than image data in the image, and shooting time information representing the shooting time of the image. including.

後に述べられるが、データ処理装置1では、第2学習部60の学習を経て推論モデル(アルゴリズム)が作成され、当該推論モデルは画像認識として物体検出を行うことができる。物体検出では、認識の対象となる画像内の物体の位置を特定する位置特定と、認識の対象となる画像内の物体のクラス(種別)を特定するクラス識別と、が行われる。各第1入力画像及び各第2入力画像は認識の対象となる物体を1以上含む。本実施形態において物体とは、物体検出における画像認識の対象となる認識対象物体を指す。一部の第1入力画像に認識対象物体が含まれないことがあり得る。同様に、一部の第2入力画像に認識対象物体が含まれないことがあり得る。また、1以上の第1入力画像には認識対象物体以外の物が含まれることがある。同様に、1以上の第2入力画像には認識対象物体以外の物が含まれることがある。 As will be described later, in the data processing device 1, an inference model (algorithm) is created through learning by the second learning unit 60, and the inference model can perform object detection as image recognition. In object detection, position identification for identifying the position of an object within an image to be recognized and class identification for identifying the class (type) of the object within the image for recognition are performed. Each first input image and each second input image includes one or more objects to be recognized. In the present embodiment, an object refers to a recognition target object that is a target of image recognition in object detection. A part of the first input image may not include the recognition target object. Similarly, some of the second input images may not include the recognition target object. Also, one or more first input images may include an object other than the recognition target object. Similarly, the one or more second input images may include objects other than the recognition target object.

尚、本実施形態では、或る画像内に物体の画像データが含まれることを、当該画像に当該物体が含まれる又は存在すると表現することがある。同様に、或る画像中の注目した画像領域(例えば後述の物体領域)内に物体の画像データが含まれることを、注目した画像領域に物体が含まれる又は存在すると表現することがある。 In this embodiment, inclusion of image data of an object in an image may be expressed as inclusion or presence of the object in the image. Similarly, inclusion of image data of an object in an image area of interest (for example, an object area described later) in an image may be expressed as inclusion or presence of an object in the image area of interest.

第2学習データは第2入力画像ごとにラベルデータを含む。第2学習データにおいて、第2入力画像IB[i]に対応付けられたラベルデータを記号“LB[i]”にて参照する。ラベルデータLB[i]は、第2入力画像IB[i]に含まれる物体ごとに、物体の位置を特定する位置情報及び物体のクラスを特定するクラス情報を含む。 The second training data includes label data for each second input image. In the second learning data, the label data associated with the second input image IB[i] is referenced by the symbol "LB[i]". The label data LB[i] includes position information specifying the position of each object included in the second input image IB[i] and class information specifying the class of the object.

図4に入力画像610を示す。入力画像610は第2入力画像IB[i]の例である。図4の入力画像610には3つの物体611~613が含まれる。物体611、612、613は、夫々、車両、人間、信号機であって、何れも認識対象物体であるとする。ここでは、車両、人間、信号機は、第1、第2、第3クラスに分類されるものとし、推論モデルは、第1~第3クラスを含む複数のクラスの物体に対して物体検出を行うことができるものとする。尚、ここでは、車両として道路上を走行可能な自動車を想定する。 An input image 610 is shown in FIG. Input image 610 is an example of second input image IB[i]. Input image 610 in FIG. 4 includes three objects 611-613. Objects 611, 612, and 613 are a vehicle, a person, and a traffic light, respectively, and are all objects to be recognized. Here, vehicles, humans, and traffic lights are classified into first, second, and third classes, and the inference model performs object detection for objects in multiple classes, including the first to third classes. It shall be possible. Here, an automobile that can run on roads is assumed as the vehicle.

図4の入力画像610に対し、物体611の像を取り囲む物体領域611B、物体612の像を取り囲む物体領域612B、及び、物体613の像を取り囲む物体領域613Bが設定される。或る物体の物体領域は、当該物体の像を取り囲む矩形領域(望ましくは最小の矩形領域)であって、バウンディングボックスとも称される。 An object region 611B surrounding the image of the object 611, an object region 612B surrounding the image of the object 612, and an object region 613B surrounding the image of the object 613 are set for the input image 610 in FIG. An object region of an object is a rectangular region (preferably the smallest rectangular region) surrounding the image of the object, also called a bounding box.

図4の入力画像610に対応するラベル情報620は、物体611についての位置情報POS611及びクラス情報CLS611と、物体612についての位置情報POS612及びクラス情報CLS612と、物体613についての位置情報POS613及びクラス情報CLS613と、を含む。入力画像610が第2入力画像IB[i]であればラベル情報620はラベル情報LB[i]である。位置情報POS611、POS612、POS613は、夫々、入力画像610における物体領域611Bの位置、物体領域612Bの位置、物体領域613Bの位置を表す。詳細には、物体領域611Bとしての矩形領域における一つの対角線の2端点の座標値(図4の座標値(x,y)及び(x,y)に相当)が、位置情報POS611にて規定される。他の位置情報も同様である。クラス情報CLS611、CLS612、CLS613は、夫々、物体611が属するクラス、物体612が属するクラス、物体613が属するクラスを表す。図4の例では、クラス情報CLS611、CLS612、CLS613は、夫々、車両が属する第1クラス、人間が属する第2クラス、信号機が属する第3クラスを表す。 Label information 620 corresponding to the input image 610 in FIG. POS 613 and class information CLS 613 . If the input image 610 is the second input image IB[i], the label information 620 is the label information LB[i]. Position information POS 611 , POS 612 , and POS 613 represent the positions of object regions 611B, 612B, and 613B in the input image 610, respectively. Specifically, the coordinate values of the two endpoints of one diagonal line in the rectangular region as the object region 611B (corresponding to the coordinate values (x 1 , y 1 ) and (x 2 , y 2 ) in FIG. 4) are the position information POS 611 . The same applies to other location information. Class information CLS 611 , CLS 612 , and CLS 613 represent the class to which object 611 belongs, the class to which object 612 belongs, and the class to which object 613 belongs, respectively. In the example of FIG. 4, the class information CLS 611 , CLS 612 , and CLS 613 respectively represent the first class to which vehicles belong, the second class to which people belong, and the third class to which traffic lights belong.

例えば、自動車等の車両に搭載されたカメラの撮影画像の中から第1入力画像IA[1]~IA[P]及び第2入力画像IB[1]~IB[Q]が選ばれて良い。第1入力画像IA[1]~IA[P]と第2入力画像IB[1]~IB[Q]とが部分的に重複することもあり得る。 For example, the first input images IA[1] to IA[P] and the second input images IB[1] to IB[Q] may be selected from images captured by a camera mounted on a vehicle such as an automobile. The first input images IA[1] to IA[P] and the second input images IB[1] to IB[Q] may partially overlap.

第1学習データ取得部10は自らが第1学習データを作成する機能ブロックであっても良いし、データ処理装置1と異なる外部装置(不図示)から有線又は無線通信を通じ、予め作成された第1学習データの入力を受けるものであっても良い。同様に、第2学習データ取得部40は自らが第2学習データを作成する機能ブロックであっても良いし、データ処理装置1と異なる外部装置(不図示)から有線又は無線通信を通じ、予め作成された第2学習データの入力を受けるものであっても良い。 The first learning data acquisition unit 10 may be a functional block that itself creates the first learning data, or may acquire a previously created first learning data from an external device (not shown) different from the data processing device 1 through wired or wireless communication. 1 learning data may be input. Similarly, the second learning data acquisition unit 40 may be a functional block that creates the second learning data by itself, or an external device (not shown) different from the data processing device 1 through wired or wireless communication, The input of the second learning data may be received.

各第1入力画像及び各第2入力画像は水平方向及び垂直方向に大きさを持つ二次元の静止画像である。1以上の第1入力画像は動画像のフレームであっても良い。同様に、1以上の第2入力画像は動画像のフレームであっても良い。各第1入力画像及び各第2入力画像における水平方向の画素数をWで表し、各第1入力画像及び各第2入力画像における垂直方向の画素数をHで表す。そうすると、各第1入力画像及び各第2入力画像は(W×H)個の画素から成る。また、第1入力画像及び第2入力画像はRGB形式で表現されるカラー画像であるとする。つまり、第1入力画像の各画素及び第2入力画像の各画素は、赤の信号成分を表すR信号、緑の信号成分を表すG信号及び青の信号成分を表すB信号を有するものとする。 Each first input image and each second input image is a two-dimensional still image having horizontal and vertical dimensions. The one or more first input images may be frames of a moving image. Similarly, the one or more second input images may be frames of a moving image. Let W denote the number of pixels in the horizontal direction in each first input image and each second input image, and let H be the number of pixels in the vertical direction in each first input image and each second input image. Then each first input image and each second input image consists of (W×H) pixels. It is also assumed that the first input image and the second input image are color images expressed in RGB format. That is, each pixel of the first input image and each pixel of the second input image have an R signal representing a red signal component, a G signal representing a green signal component, and a B signal representing a blue signal component. .

そうすると、任意の1枚の第1入力画像である又は任意の1枚の第2入力画像である入力画像650は、図5に示す如く、(W×H)個の画素から成り且つR信号のみを色信号として有する赤濃淡画像650Rと、(W×H)個の画素から成り且つG信号のみを色信号として有する緑濃淡画像650Gと、(W×H)個の画素から成り且つB信号のみを色信号として有する青濃淡画像650Bと、で構成されると考えることができる、画像650R、650G及び650Bは、上記水平方向及び垂直方向の何れとも異なるチャネル方向に配列される。入力画像650の画像データを構成する色信号の種類数を“C”で表す。ここでは、“C=3”である。 Then, an input image 650, which is an arbitrary first input image or an arbitrary second input image, consists of (W×H) pixels and only the R signal, as shown in FIG. as color signals, a green grayscale image 650G consisting of (W×H) pixels and having only G signals as color signals, and a (W×H) pixels consisting only of B signals. Images 650R, 650G and 650B, which can be considered to consist of a blue-toned image 650B having as color signals, are arranged in channel directions different from both the horizontal and vertical directions. The number of types of color signals forming the image data of the input image 650 is represented by "C". Here, "C=3".

図1を再度参照し、第1結合部20は、第1入力画像IA[1]~IA[P]を、所定のミニバッチサイズを有するミニバッチを単位に分割する。そして、第1結合部20は、ミニバッチごとに、当該ミニバッチに属する複数の第1入力画像をチャネル方向に結合することで第1結合データを生成する。ここではミニバッチサイズは、第1入力画像のN枚分のデータサイズであるとする。Nは2以上の任意の整数であり、例えば“N=32”である。第1入力画像IA[1]~IA[P]から(P/N)個分の第1結合データが形成される。(P/N)は2以上の任意の整数である。 Referring to FIG. 1 again, the first combiner 20 divides the first input images IA[1] to IA[P] into mini-batches having a predetermined mini-batch size. Then, for each mini-batch, the first combining unit 20 generates first combined data by combining the plurality of first input images belonging to the mini-batch in the channel direction. Here, the mini-batch size is assumed to be the data size for N first input images. N is an arbitrary integer greater than or equal to 2, for example "N=32". (P/N) pieces of first combined data are formed from the first input images IA[1] to IA[P]. (P/N) is an arbitrary integer of 2 or more.

図6に、第1結合部20にて生成される1つの第1結合データ(即ち1つのミニバッチの構造)を示す。図6に示される第1結合データは、入力画像IA[i]~IA[i+N]の画像データから構成され、チャネル方向において入力画像IA[i]~IA[i+N]の画像データが配列される。入力画像IA[i]~IA[i+N]の各々はチャネル方向に配列された赤濃淡画像、緑濃淡画像及び青濃淡画像にて構成される。故に、第1結合データにおいては、チャネル方向に、入力画像IA[i]の複数色分の画像データ(赤濃淡画像、緑濃淡画像及び青濃淡画像の画像データ)、入力画像IA[i+1]の複数色分の画像データ(赤濃淡画像、緑濃淡画像及び青濃淡画像の画像データ)、・・・、及び、入力画像IA[i+N]の複数色分の画像データ(赤濃淡画像、緑濃淡画像及び青濃淡画像の画像データ)が配列される。 FIG. 6 shows one first combined data (that is, one mini-batch structure) generated by the first combining unit 20 . The first combined data shown in FIG. 6 is composed of the image data of the input images IA[i] to IA[i+N], and the image data of the input images IA[i] to IA[i+N] are arranged in the channel direction. . Each of the input images IA[i] to IA[i+N] is composed of a red grayscale image, a green grayscale image and a blue grayscale image arranged in the channel direction. Therefore, in the first combined data, in the channel direction, the image data of the input image IA[i] for a plurality of colors (the image data of the red grayscale image, the green grayscale image, and the blue grayscale image), the input image IA[i+1] Image data for a plurality of colors (image data for a red grayscale image, a green grayscale image, and a blue grayscale image), . and blue grayscale image data) are arranged.

このため、第1結合データは、各々が(H×W)個の単色画素から成る単色の二次元画像を(C×N)枚分、チャネル方向に沿って配列したものに相当する。第1結合データは(W×H×C×N)個の単色画素分のデータ量を持つことになる。第1結合データにおいて、チャネル数は(C×N)であり、故にチャネル方向の次元数は(C×N)である。 Therefore, the first combined data corresponds to (C×N) monochromatic two-dimensional images, each consisting of (H×W) monochromatic pixels, arranged along the channel direction. The first combined data has a data amount for (W.times.H.times.C.times.N) monochrome pixels. In the first combined data, the number of channels is (C×N), so the number of dimensions in the channel direction is (C×N).

図1を再度参照し、第1学習部30はニューラルネットワーク31(以下、NN31と称する)を有し、第1学習データを用いてNN31の機械学習を行う。この際、ミニバッチを単位にNN31の機械学習を行う。即ち、第1学習データに基づく(P/N)個の第1結合データを順次NN31への入力データとして用いて、ミニバッチを単位にNN31の機械学習を行う(ミニバッチ学習を行う)。第1学習部30における機械学習は深層学習に分類されるものであって良く、従ってNN31はディープニューラルネットワークであって良い。第1学習部30における機械学習は教師なし学習であり、NN31によりオートエンコーダが形成される。即ち、第1学習部30ではオートエンコーダを学習させる(換言すればNN31を学習させることでオートエンコーダを作成する)。 Referring to FIG. 1 again, the first learning unit 30 has a neural network 31 (hereinafter referred to as NN31), and performs machine learning of NN31 using first learning data. At this time, the machine learning of the NN 31 is performed on a mini-batch basis. That is, (P/N) pieces of first combined data based on the first learning data are sequentially used as input data to the NN 31, and machine learning of the NN 31 is performed on a mini-batch basis (mini-batch learning is performed). Machine learning in the first learning unit 30 may be classified as deep learning, so the NN 31 may be a deep neural network. Machine learning in the first learning unit 30 is unsupervised learning, and the NN 31 forms an autoencoder. That is, the first learning unit 30 learns the autoencoder (in other words, the autoencoder is created by learning the NN 31).

図7にオートエンコーダの構成を示す。オートエンコーダを形成するNN31はエンコーダ32及びデコーダ33を備える。ここにおけるオートエンコーダの種類は任意であり、例えば、変分オートエンコーダ(VAE)又は畳み込みオートエンコーダ(CAE)であって良い。第1結合データが入力データIN_Aとしてエンコーダ32に入力され、エンコーダ32は入力データIN_Aを圧縮することで圧縮データE_Aを生成する。デコーダ33は圧縮データE_Aを復元することで(つまり、エンコーダ32による圧縮を復元することで)出力データOUT_Aを得る。第1学習部30における機械学習では、出力データOUT_Aが入力データIN_Aと一致するように、NN31の各パラメータ(バイアス及び重み)を調整する。 FIG. 7 shows the configuration of the autoencoder. The NN 31 forming an autoencoder comprises an encoder 32 and a decoder 33 . The type of autoencoder here is arbitrary, and may be, for example, a variational autoencoder (VAE) or a convolutional autoencoder (CAE). The first combined data is input to the encoder 32 as input data IN_A, and the encoder 32 compresses the input data IN_A to generate compressed data E_A. The decoder 33 obtains the output data OUT_A by restoring the compressed data E_A (that is, by restoring the compression by the encoder 32). In machine learning in the first learning unit 30, each parameter (bias and weight) of the NN 31 is adjusted so that the output data OUT_A matches the input data IN_A.

この際、入力データIN_A(従って第1結合データ)がチャネル方向に圧縮されるようにエンコーダ32を設計し、圧縮データE_Aがチャネル方向に復元されるようにデコーダ33を設計しておく。つまり、エンコーダ32による圧縮はチャネル方向の次元削減に相当し、エンコーダ32にて入力データIN_A(従って第1結合データ)のチャネル方向の次元数を“(C×N)”から“J”に削減する。換言すれば、入力データIN_A(従って第1結合データ)のチャネル方向の次元数は“(C×N)”であって、エンコーダ32にて入力データIN_Aの次元削減をチャネル方向に行うことで、チャネル方向の次元数が“J”の圧縮データE_Aを得る。エンコーダ32にて、チャネル数が“(C×N)”から“J”に削減されると考えることもできる。 At this time, the encoder 32 is designed so that the input data IN_A (therefore, the first combined data) is compressed in the channel direction, and the decoder 33 is designed so that the compressed data E_A is restored in the channel direction. That is, compression by the encoder 32 corresponds to dimensionality reduction in the channel direction, and the encoder 32 reduces the number of dimensions in the channel direction of the input data IN_A (therefore, the first combined data) from "(C×N)" to "J". do. In other words, the number of dimensions in the channel direction of the input data IN_A (therefore, the first combined data) is "(C×N)". Compressed data E_A with the number of dimensions in the channel direction of "J" is obtained. It can also be considered that the encoder 32 reduces the number of channels from "(C×N)" to "J".

“C×N>J”である。例えば“(C,N,J)=(3,32,3)”であれば、エンコーダ32にて、入力データIN_A(従って第1結合データ)のチャネル方向の次元数が96次元から3次元に削減されることになり、この場合、“3/(3×32)=1/32”より、圧縮データE_Aのデータサイズは入力データIN_Aのデータサイズの1/32となる。 It is "CxN>J". For example, if "(C, N, J)=(3, 32, 3)", the encoder 32 changes the number of dimensions in the channel direction of the input data IN_A (therefore, the first combined data) from 96 to 3. In this case, the data size of the compressed data E_A is 1/32 of the data size of the input data IN_A from “3/(3×32)=1/32”.

オートエンコーダとして機能するNN31の訓練誤差(損失関数の値)が所定値以下になるまで第1学習部30はNN31の機械学習を行う。この機械学習の完了後のエンコーダ32を、以下、特に学習済みエンコーダ32aと称する(図9参照)。 The first learning unit 30 performs machine learning of the NN 31 until the training error (loss function value) of the NN 31 that functions as an autoencoder becomes equal to or less than a predetermined value. The encoder 32 after completing this machine learning is hereinafter particularly referred to as a learned encoder 32a (see FIG. 9).

図1を再度参照し、第2結合部50は、第2入力画像IB[1]~IB[Q]を、所定のミニバッチサイズを有するミニバッチを単位に分割する。第2結合部50におけるミニバッチサイズは第1結合部20におけるミニバッチサイズと同じである。故に、第2結合部50におけるミニバッチサイズは、第2入力画像のN枚分のデータサイズである(例えば“N=32”)。そして、第2結合部50は、ミニバッチごとに、当該ミニバッチに属する複数の第2入力画像をチャネル方向に結合することで第2結合データを生成する。第2入力画像IB[1]~IB[Q]から(Q/N)個分の第2結合データが形成される。(Q/N)は2以上の任意の整数であり、例えば、数百~数千の値を持つ。 Referring to FIG. 1 again, the second combining unit 50 divides the second input images IB[1] to IB[Q] into mini-batches having a predetermined mini-batch size. The mini-batch size at the second joint 50 is the same as the mini-batch size at the first joint 20 . Therefore, the mini-batch size in the second combiner 50 is the data size of N second input images (for example, "N=32"). Then, for each mini-batch, the second combining unit 50 generates second combined data by combining the plurality of second input images belonging to the mini-batch in the channel direction. (Q/N) pieces of second combined data are formed from the second input images IB[1] to IB[Q]. (Q/N) is an arbitrary integer of 2 or more, and has a value of several hundred to several thousands, for example.

図8に、第2結合部50にて生成される1つの第2結合データ(即ち1つのミニバッチの構造)を示す。第2結合データの構造は第1結合データの構造と同様である。即ち、図8に示される第2結合データは、入力画像IB[i]~IB[i+N]の画像データから構成され、チャネル方向において入力画像IB[i]~IB[i+N]の画像データが配列される。入力画像IB[i]~IB[i+N]の各々はチャネル方向に配列された赤濃淡画像、緑濃淡画像及び青濃淡画像にて構成される。故に、第2結合データにおいては、チャネル方向に、入力画像IB[i]の複数色分の画像データ(赤濃淡画像、緑濃淡画像及び青濃淡画像の画像データ)、入力画像IB[i+1]の複数色分の画像データ(赤濃淡画像、緑濃淡画像及び青濃淡画像の画像データ)、・・・、及び、入力画像IB[i+N]の複数色分の画像データ(赤濃淡画像、緑濃淡画像及び青濃淡画像の画像データ)が配列される。 FIG. 8 shows one second combined data (that is, one mini-batch structure) generated by the second combining unit 50 . The structure of the second combined data is similar to the structure of the first combined data. That is, the second combined data shown in FIG. 8 is composed of the image data of the input images IB[i] to IB[i+N], and the image data of the input images IB[i] to IB[i+N] are arranged in the channel direction. be done. Each of the input images IB[i] to IB[i+N] is composed of a red grayscale image, a green grayscale image and a blue grayscale image arranged in the channel direction. Therefore, in the second combined data, in the channel direction, the image data for a plurality of colors of the input image IB[i] (the image data of the red grayscale image, the green grayscale image, and the blue grayscale image), the input image IB[i+1] Image data for multiple colors (image data for a red grayscale image, green grayscale image, and blue grayscale image), and image data for multiple colors of the input image IB[i+N] (red grayscale image, green grayscale image) and blue grayscale image data) are arranged.

このため、第2結合データは、各々が(H×W)個の単色画素から成る単色の二次元画像を(C×N)枚分、チャネル方向に沿って配列したものに相当する。第2結合データは(W×H×C×N)個の単色画素分のデータ量を持つことになる。第2結合データにおいて、チャネル数は(C×N)であり、故にチャネル方向の次元数は(C×N)である。 Therefore, the second combined data corresponds to (C×N) monochromatic two-dimensional images, each consisting of (H×W) monochromatic pixels, arranged along the channel direction. The second combined data has a data amount for (W.times.H.times.C.times.N) monochrome pixels. In the second combined data, the number of channels is (C×N), so the number of dimensions in the channel direction is (C×N).

図1を再度参照し、第2学習部60はニューラルネットワーク61(以下、NN61と称する)を有し、第2学習データを用いてNN61の機械学習を行う。第2学習部60における機械学習は深層学習に分類されるものであって良く、従ってNN61はディープニューラルネットワークであって良い。第2学習部60における機械学習は教師あり学習であり、NN61により物体検出用の推論モデルが形成される。即ち、第2学習部60では物体検出用の推論モデルを学習させる(換言すればNN61を学習させることで物体検出が可能な推論モデルを作成する)。 Referring to FIG. 1 again, the second learning unit 60 has a neural network 61 (hereinafter referred to as NN61), and performs machine learning of NN61 using second learning data. Machine learning in the second learning unit 60 may be classified as deep learning, so the NN 61 may be a deep neural network. Machine learning in the second learning unit 60 is supervised learning, and the NN 61 forms an inference model for object detection. That is, the second learning unit 60 learns an inference model for object detection (in other words, an inference model capable of object detection is created by making the NN 61 learn).

図9を参照して第2学習部60による機械学習を説明する。第2学習部60による機械学習には上述の学習済みエンコーダ32aが利用される。第2結合データが入力データIN_Bとして学習済みエンコーダ32aに入力され、学習済みエンコーダ32aは入力データIN_Bを圧縮することで圧縮データE_Bを生成する。学習済みエンコーダ32aによる圧縮では、入力データIN_B(従って第2結合データ)のチャネル方向の次元数を“(C×N)”から“J”に削減する。換言すれば、入力データIN_B(従って第2結合データ)のチャネル方向の次元数は“(C×N)”であって、学習済みエンコーダ32aにて入力データIN_Bの次元削減をチャネル方向に行うことで、チャネル方向の次元数が“J”の圧縮データE_Bを得る。学習済みエンコーダ32aにて、チャネル数が“(C×N)”から“J”に削減されると考えることもできる。 Machine learning by the second learning unit 60 will be described with reference to FIG. The learned encoder 32a described above is used for machine learning by the second learning unit 60 . The second combined data is input to the learned encoder 32a as input data IN_B, and the learned encoder 32a compresses the input data IN_B to generate compressed data E_B. In compression by the trained encoder 32a, the number of dimensions in the channel direction of the input data IN_B (therefore, the second combined data) is reduced from "(C×N)" to "J". In other words, the number of dimensions in the channel direction of the input data IN_B (therefore, the second combined data) is "(C×N)", and the trained encoder 32a reduces the dimensionality of the input data IN_B in the channel direction. , the compressed data E_B with the number of dimensions in the channel direction of "J" is obtained. It can also be considered that the number of channels is reduced from "(C×N)" to "J" in the learned encoder 32a.

第2入力画像IB[1]~IB[Q]に基づく複数の第2結合データを順次、入力データIN_Bとして学習済みエンコーダ32aに入力することで、当該複数の第2結合データに基づく複数の圧縮データE_Bが得られる。 By sequentially inputting a plurality of second combined data based on the second input images IB[1] to IB[Q] as input data IN_B to the learned encoder 32a, a plurality of compressions based on the plurality of second combined data Data E_B is obtained.

第2学習部60では、圧縮データE_BをNN61への入力データとして用いてNN61の機械学習を行う。この際、ミニバッチを単位にNN61の機械学習を行う(即ちミニバッチ学習を行う)。NN61の機械学習におけるミニバッチサイズと、NN31の機械学習におけるミニバッチサイズとが異なっていても良いが、ここでは、それらが同じであるとする。そうすると、NN61の機械学習におけるミニバッチサイズは第2入力画像のN枚分のデータサイズであり、第2入力画像のN枚分のデータサイズは(W×H×C×N)である。 The second learning unit 60 performs machine learning of the NN 61 using the compressed data E_B as input data to the NN 61 . At this time, machine learning of the NN 61 is performed in units of mini-batch (that is, mini-batch learning is performed). Although the mini-batch size in machine learning of NN61 and the mini-batch size in machine learning of NN31 may be different, here they are assumed to be the same. Then, the mini-batch size in machine learning of NN61 is the data size for N second input images, and the data size for N second input images is (W×H×C×N).

図10に、NN61への入力データが生成されるまでの流れの概要を示す。図10において、データDTaは、N枚の第2入力画像の画像データの組を“(C×N)/J”組分含む。データDTbは、“(C×N)/J”個の入力データIN_B、即ち“(C×N)/J”個の第2結合データから成る。データDTcは、データDTbに基づく“(C×N)/J”個の圧縮データE_Bから成る。 FIG. 10 shows an overview of the flow until input data to the NN 61 is generated. In FIG. 10, data DTa includes “(C×N)/J” sets of image data of N second input images. The data DTb consists of “(C×N)/J” pieces of input data IN_B, that is, “(C×N)/J” pieces of second combined data. Data DTc consists of "(C×N)/J" pieces of compressed data E_B based on data DTb.

データDTaが第2結合部50に入力されることでデータDTbが得られる。即ち、N枚の第2入力画像の画像データの組が、“(C×N)/J”組分、順次、第2結合部50に入力されることで、第2結合部50から“(C×N)/J”個の第2結合データが出力される。各々の第2結合データのデータサイズは(W×H×C×N)である。故に、データDTbのデータサイズは“(W×H×C×N)×(C×N)/J”である。データDTaのデータサイズも同様である。 Data DTb is obtained by inputting data DTa to the second combining unit 50 . That is, the sets of image data of the N second input images are sequentially input to the second combining unit 50 for “(C×N)/J” sets, so that the second combining unit 50 outputs “( C×N)/J″ pieces of second combined data are output. The data size of each second combined data is (W×H×C×N). Therefore, the data size of the data DTb is "(W.times.H.times.C.times.N).times.(C.times.N)/J". The same applies to the data size of data DTa.

各々の第2結合データが入力データIN_Bとして学習済みエンコーダ32aに入力されることで第2結合データごとに圧縮データE_Bが生成され、結果、“(C×N)/J”個の圧縮データE_Bから成るデータDTcが得られる。学習済みエンコーダ32aにおいてチャネル方向の次元数が“(C×N)”から“J”に削減されるので、1つの圧縮データE_Bのデータサイズは(W×H×J)である。故に、データDTcのデータサイズ)は、(W×H×C×N)である。 Compressed data E_B is generated for each second coupled data by inputting each of the second coupled data as input data IN_B to the learned encoder 32a, and as a result, "(C×N)/J" pieces of compressed data E_B are generated. A data DTc consisting of is obtained. Since the number of dimensions in the channel direction is reduced from "(C×N)" to "J" in the trained encoder 32a, the data size of one piece of compressed data E_B is (W×H×J). Therefore, the data size of data DTc is (W×H×C×N).

(W×H×C×N)のデータサイズ分の圧縮データE_Bを、1回あたりのミニバッチ学習のデータとしてNN61に入力する。これは、NN61の1回あたりのミニバッチ学習において、“N×(C×N)/J”枚分の入力画像の情報をNN61に入力することに相当する。例えば、“(C,N,J)=(3,32,3)”且つ“Q=10240”が成立する数値例では、1回のミニバッチ学習において、32枚分の入力画像の情報がNN61に入力されることになる。そうすると、“10240/32=10”より、NN61のミニバッチ学習を10回行うことで、第2学習データを構成する全ての第2入力画像を利用した1回分の学習が完了することになる(即ちイテレーション数は10となる)。 Compressed data E_B corresponding to a data size of (W×H×C×N) is input to NN 61 as data for mini-batch learning per one time. This corresponds to inputting information of “N×(C×N)/J” pieces of input images to the NN 61 in the mini-batch learning per NN 61 . For example, in a numerical example where "(C, N, J) = (3, 32, 3)" and "Q = 10240" holds, in one mini- batch learning, the information of 322 input images is NN61 will be entered in the Then, from "10240/32 2 =10", by performing NN61 mini-batch learning 10 times, one-time learning using all the second input images that make up the second learning data will be completed ( That is, the number of iterations is 10).

N枚の第2入力画像の画像データそのものをNN61に入力する仮想ケースでは、第2学習データを構成する全ての第2入力画像を利用した1回分の学習を完了させるために、上記数値例においてNN61のミニバッチ学習を320回行う必要があり、データ処理装置1との比較において学習時間が長くなる。 In the hypothetical case in which the image data of N second input images themselves are input to the NN 61, in order to complete one-time learning using all the second input images that make up the second learning data, in the above numerical example, Mini-batch learning of the NN 61 needs to be performed 320 times, and the learning time is longer than that of the data processing device 1 .

第2学習部60におけるNN61の機械学習において、NN61はミニバッチサイズを有する圧縮データE_Bに基づき出力データOUT_Bを生成する(図9参照)。第2学習部60は、ミニバッチごとに(ミニバッチ学習ごとに)出力データOUT_Bと教師データとの誤差に相当する損失関数の値を導出し、損失関数の値が低減されるよう、誤差逆伝搬法を用いてNN61のパラメータ(重み及びバイアス)を調整する。損失関数の値が所定の閾値以下になるまでNN61の機械学習(即ち物体検出用の推論モデルの機械学習)が行われる。 In machine learning of NN 61 in second learning unit 60, NN 61 generates output data OUT_B based on compressed data E_B having a mini-batch size (see FIG. 9). The second learning unit 60 derives the value of the loss function corresponding to the error between the output data OUT_B and the teacher data for each mini-batch (for each mini-batch learning), and performs error back propagation so that the value of the loss function is reduced. is used to tune the parameters (weights and biases) of NN61. Machine learning of NN 61 (that is, machine learning of an inference model for object detection) is performed until the value of the loss function is equal to or less than a predetermined threshold.

NN61のミニバッチ学習において、教師データは、当該ミニバッチ学習に用いる全ての第2入力画像に対するラベルデータにより構成される。例えば、或るミニバッチ学習において、上記データDTa(図10参照)が第2入力画像IB[1]~IB[1024]の画像データにて構成されるのでれば、当該ミニバッチ学習における教師データはラベルデータLB[1]~LB[1024]により構成される。即ち例えば、データDTaに第2入力画像IB[1]及びIB[2]の画像データが含まれているのであれば、図11に示す如く、それらに対応するラベルデータLB[1]及びLB[2]の和が、データDTaに対応する教師データに含められる(図11ではラベルデータLB[1]及びLB[2]の情報のみ図示)。 In the NN61 mini-batch learning, the teacher data consists of label data for all the second input images used in the mini-batch learning. For example, in a certain mini-batch learning, if the data DTa (see FIG. 10) is composed of the image data of the second input images IB[1] to IB[1024], the teacher data in the mini-batch learning is label It consists of data LB[1] to LB[1024]. That is, for example, if the image data of the second input images IB[1] and IB[2] are included in the data DTa, as shown in FIG. 11, the corresponding label data LB[1] and LB[ 2] is included in the teacher data corresponding to the data DTa (only the information of the label data LB[1] and LB[2] is shown in FIG. 11).

推論モデルとして機能すべきNN61は、データDTaを用いた機械学習の中で、データDTaを構成する各入力画像中の物体の位置特定及びクラス識別を行い、位置特定及びクラス識別の結果を出力データOUT_Bとして出力する。この出力データOUT_BがデータDTaに対応する教師データと比較されることで損失関数の値が導出される。 The NN 61, which should function as an inference model, performs position identification and class identification of objects in each input image that constitutes the data DTa in machine learning using the data DTa, and outputs the results of the position identification and class identification as output data. Output as OUT_B. The value of the loss function is derived by comparing this output data OUT_B with teacher data corresponding to the data DTa.

図12にデータ処理装置1の動作フローチャートを示す。まずステップS1において、第1学習データ取得部10により第1学習データが取得される。次にステップS2において、第1結合部20により第1学習データに基づき第1結合データが生成される。次にステップS3において、第1学習部30により第1結合データに基づいてオートエンコーダを学習させ(即ちNN31を学習させ)、これによって学習済みエンコーダ32aを作成する。次にステップS4において第2学習データ取得部40により第2学習データが取得される。尚、第2学習データの取得のタイミングはステップS5よりも前であれば任意である。 FIG. 12 shows an operation flowchart of the data processing device 1. As shown in FIG. First, in step S<b>1 , first learning data is acquired by the first learning data acquisition unit 10 . Next, in step S2, first combined data is generated by the first combining unit 20 based on the first learning data. Next, in step S3, the first learning unit 30 learns the autoencoder based on the first combined data (that is, learns the NN 31), thereby creating the trained encoder 32a. Next, the second learning data is acquired by the second learning data acquiring section 40 in step S4. Note that the acquisition timing of the second learning data is arbitrary as long as it is before step S5.

第2学習データの取得後、ステップS5において、第2結合部50により第2学習データに基づき第2結合データが生成される。この際、上述の教師データも作成される。教師データの作成主体は第2結合部50であっても良いし、第2学習部60であっても良い。その後、ステップS6において、第2結合データを学習済みエンコーダ32aに入力することで圧縮データ(E_B)を生成し、生成した圧縮データ(E_B)に基づき第2学習部60にて物体検出用の推論モデルを学習させる(換言すればNN61を学習させることで物体検出用の推論モデルを作成する)。 After obtaining the second learning data, in step S5, the second combining unit 50 generates the second combined data based on the second learning data. At this time, the teacher data described above is also created. The teacher data may be created by the second combining unit 50 or the second learning unit 60 . Thereafter, in step S6, the second combined data is input to the learned encoder 32a to generate compressed data (E_B), and the second learning unit 60 performs inference for object detection based on the generated compressed data (E_B). Train the model (in other words, train the NN 61 to create an inference model for object detection).

本実施形態では、上述の如く学習データ(第2学習データ)を圧縮することで第2学習部60における1ミニバッチ当たりのデータの情報量を増やすことができる。即ち、N枚の第2入力画像の画像データそのものをNN61に入力する仮想ケースと比べて、第2学習部60における1ミニバッチ当たりのデータの情報量が“(C×N)/J”倍に増大する(例えば32倍に増大する)。このため、仮想ケースとの比較において、第2学習部60における学習時間(例えばNN61による推論モデルの損失関数の値が所定の閾値以下になるまでに必要な時間)を短縮することが可能となる。見方を変えて、学習時間を一定とみなした場合には、必要メモリ容量を小さくすることもできる。 In this embodiment, by compressing the learning data (second learning data) as described above, the information amount of data per mini-batch in the second learning unit 60 can be increased. That is, compared to the hypothetical case in which the image data of N second input images themselves are input to the NN 61, the information amount of data per mini-batch in the second learning unit 60 is "(C×N)/J" times. Increase (eg, increase 32-fold). Therefore, in comparison with the virtual case, the learning time in the second learning unit 60 (for example, the time required for the value of the loss function of the inference model by the NN 61 to become equal to or less than a predetermined threshold value) can be shortened. . From a different point of view, if the learning time is assumed to be constant, the required memory capacity can be reduced.

図13に“(C×N)/J=3×32/3=32”である場合におけるデータサイズの圧縮効果等を示す。図13の数値例では、学習済みエンコーダ32aを用いることで入力データIN_Bのデータサイズ(データ量)が1/32に圧縮されて圧縮データE_Bが得られる。このため、NN61へ入力されるデータの単位データ量あたりの学習時間が一定であるとみなしたならば、NN61の学習時間は仮想ケースと比べて1/32に短縮される。また、NN61の学習におけるイテレーション数も、仮想ケースで必要なイテレーション数の1/32に低減する。他方、本実施形態に係るNN61の学習時間を仮想ケースに係る学習時間と同じにする場合にあっては必要メモリ容量を仮想ケースの1/32にまで縮小することが可能である。 FIG. 13 shows the data size compression effect and the like when "(C×N)/J=3×32/3=32". In the numerical example of FIG. 13, by using the learned encoder 32a, the data size (data amount) of the input data IN_B is compressed to 1/32 to obtain the compressed data E_B. Therefore, assuming that the learning time per unit data amount of the data input to the NN 61 is constant, the learning time of the NN 61 is shortened to 1/32 compared to the hypothetical case. Also, the number of iterations in learning the NN 61 is reduced to 1/32 of the number of iterations required in the hypothetical case. On the other hand, if the learning time of the NN 61 according to this embodiment is the same as the learning time according to the virtual case, it is possible to reduce the required memory capacity to 1/32 of the virtual case.

各第1入力画像には推論モデルの認識対象物体が含まれるため、オートエンコーダでは、第1結合データ(IN_A)から各第1入力画像の認識対象物体の特徴量が抽出されて圧縮データE_Aに含められる。つまり、認識対象物体を含む入力画像から認識対象物体の特徴量が抽出されるようオートエンコーダの学習が進んで学習済みエンコーダ32aが構成される。故に、認識対象物体を含む第2入力画像に基づく第2結合データ(IN_B)を学習済みエンコーダ32aに入力すれば、学習済みエンコーダ32aにて各第2入力画像中の認識対象物体の特徴量が抽出されて圧縮データE_Bに含められる。この圧縮データE_Bを推論モデル(NN61)に入力することで、学習時間の短縮化に寄与する効率的な学習が可能となる。 Since each first input image includes the recognition target object of the inference model, the autoencoder extracts the feature amount of the recognition target object of each first input image from the first combined data (IN_A) and converts it into compressed data E_A. be included. That is, learning of the autoencoder progresses so that the feature amount of the recognition target object is extracted from the input image including the recognition target object, and the learned encoder 32a is configured. Therefore, if the second combined data (IN_B) based on the second input image including the recognition target object is input to the learned encoder 32a, the feature amount of the recognition target object in each second input image is obtained by the learned encoder 32a. It is extracted and included in the compressed data E_B. By inputting this compressed data E_B to the inference model (NN61), efficient learning that contributes to shortening the learning time becomes possible.

認識対象物体の特徴量の観点からデータ処理装置1の機能を検討したとき、データ処理装置1は、図14の特徴量データ生成装置2として機能する又は特徴量データ生成装置2を含む、と考えることができる。特徴量データ生成装置2は、各々に認識対象物体を含む複数の画像IIを取得する画像データ取得部2Aと、複数の画像IIの画像データを圧縮することで複数の画像IIにおける複数の認識対象物体の各特徴量を含む特徴量データを生成する特徴量データ生成部2Bと、を備えている。取得部2A及び2Bに関わる複数の画像IIは複数の第2入力画像に相当する。取得部2Aは図1の取得部40に相当し、生成部2Bは図1の結合部50と図9の学習済みエンコーダ32aを含む機能ブロックに相当する。生成部2Bにて生成される特徴量データは圧縮データE_Bに相当する。 When considering the function of the data processing device 1 from the viewpoint of the feature amount of the recognition target object, it is considered that the data processing device 1 functions as the feature amount data generation device 2 in FIG. 14 or includes the feature amount data generation device 2. be able to. The feature amount data generation device 2 includes an image data acquisition unit 2A that acquires a plurality of images II each including a recognition target object, and a plurality of recognition targets in the plurality of images II by compressing the image data of the plurality of images II. and a feature amount data generation unit 2B that generates feature amount data including each feature amount of the object. The plurality of images II associated with acquisition units 2A and 2B correspond to the plurality of second input images. The acquisition unit 2A corresponds to the acquisition unit 40 in FIG. 1, and the generation unit 2B corresponds to a functional block including the combining unit 50 in FIG. 1 and the learned encoder 32a in FIG. The feature data generated by the generator 2B corresponds to the compressed data E_B.

つまり、特徴量データ生成装置2は、各々に認識対象物体を含む複数の第2入力画像を取得し、複数の第2入力画像における複数の認識対象物体の各特徴量を含む特徴量データ(EN_B)を生成する。この特徴量データを用いて物体検出用の推論モデル(NN61)を学習させれば、学習時間の短縮化に寄与する効率的な学習が可能となる。 That is, the feature amount data generation device 2 acquires a plurality of second input images each including a recognition target object, and the feature amount data (EN_B ). By learning an inference model (NN 61) for object detection using this feature amount data, efficient learning that contributes to shortening of the learning time becomes possible.

ここで、上記の複数の画像IIは、所定カメラ(不図示)にて時間的に連続して撮影された2以上の画像を含んでいると良い。即ち、第2入力画像IB[1]~IB[Q]の内、少なくとも一部は、所定カメラにて時間的に連続して撮影された2以上の画像であって良い。所定カメラは、自身の撮影領域内の様子(被写体)を撮影し、撮影された画像であるカメラ画像の画像データを生成する。この際、所定カメラは所定のフレームレートで周期的に撮影を行う。そうすると、所定カメラにより、フレームレートの逆数の間隔で時系列上に並ぶ複数のカメラ画像が取得される。この時系列上に並ぶ複数のカメラ画像(以下、カメラ画像列と称する)が、所定カメラにて時間的に連続して撮影された2以上の画像に相当する。 Here, the plurality of images II described above preferably include two or more images captured temporally continuously by a predetermined camera (not shown). That is, at least a part of the second input images IB[1] to IB[Q] may be two or more images captured temporally continuously by a predetermined camera. The predetermined camera captures a scene (subject) within its own capture area and generates image data of a camera image, which is a captured image. At this time, the predetermined camera periodically takes pictures at a predetermined frame rate. Then, a predetermined camera acquires a plurality of camera images arranged in time series at intervals of the reciprocal of the frame rate. A plurality of camera images arranged in time series (hereinafter referred to as a camera image sequence) correspond to two or more images temporally consecutively captured by a predetermined camera.

所定カメラは一定の場所に固定された定点カメラであって良い。この場合、カメラ画像列においてカメラ画像中の風景(認識対象物体以外の部分)は殆ど変化せず、認識対象物体としての車両や人間のみがカメラ画像列の中で動くと期待される。そうすると、エンコーダ32(学習済みエンコーダ32a)による圧縮作用が高まって、認識対象物体の特徴量を効率的に抽出することが可能となり、ひいては推論モデル(NN61)の効率的な学習が促進される。所定カメラは車両等の移動体に搭載されたカメラであっても良い。 The predetermined camera may be a fixed point camera fixed at a fixed location. In this case, it is expected that the scenery (parts other than the object to be recognized) in the camera image hardly changes in the sequence of camera images, and only the vehicle or the person as the object to be recognized moves in the sequence of camera images. As a result, the compression effect of the encoder 32 (learned encoder 32a) increases, enabling efficient extraction of the feature amount of the object to be recognized, which in turn promotes efficient learning of the inference model (NN61). The predetermined camera may be a camera mounted on a moving object such as a vehicle.

画像データ取得部2Aは、所定カメラにて撮影された画像の集まりの中から、所定カメラにて撮影された各画像の付加データに含まれる撮影時刻情報に基づいて、上記時間的に連続して撮影された2以上の画像を抽出して良い。例えば、所定カメラにて撮影された画像に第1撮影画像及び第2撮影画像が含まれている場合において、第1撮影画像の撮影時刻及び第2撮影画像の撮影時刻間の時間差が所定時間以下であるとき、第1及び第2撮影画像は時間的に連続して撮影された2枚の画像として抽出されて良い。 The image data acquiring unit 2A selects the images shot by the predetermined camera from among the images shot by the predetermined camera, based on the shooting time information included in the additional data of each image shot by the predetermined camera. More than one captured image may be extracted. For example, when a first captured image and a second captured image are included in images captured by a predetermined camera, the time difference between the capturing time of the first captured image and the capturing time of the second captured image is equal to or less than a predetermined time. , the first and second captured images may be extracted as two images that are temporally consecutively captured.

上述の構成に対する補足事項、応用技術又は変形技術等を以下に示す。 Supplementary matters, applied techniques, modified techniques, etc. for the above configuration are shown below.

各第1入力画像及び各第2入力画像はモノクロ画像(色情報を持たない濃淡画像)であっても構わない。この場合には“C=1”となる。 Each first input image and each second input image may be a monochrome image (a grayscale image without color information). In this case, "C=1".

エンコーダ32(学習済みエンコーダ32aを含む)は、入力データ(IN_A又はIN_B)をチャネル方向に圧縮するが、この際、入力画像の水平方向又は垂直方向に入力データが圧縮されることがあっても良い。 The encoder 32 (including the trained encoder 32a) compresses the input data (IN_A or IN_B) in the channel direction, even if the input data is compressed in the horizontal or vertical direction of the input image. good.

データ処理装置1は、ハードウェアとして、演算処理装置であるCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、ROM(Read only memory)及びRAM(Random access memory)等を備える。データ処理装置1は、ROMに格納されたプログラム又は他の装置から通信を通じて取得されたプログラムをCPUにて実行することにより、図1に示す各部位の機能を実現して良く、故に図12のステップS1~S6の各処理を実現して良い。 The data processing device 1 includes, as hardware, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), etc., which are arithmetic processing devices. The data processing device 1 may realize the functions of the parts shown in FIG. Each process of steps S1 to S6 may be implemented.

データ処理装置1にて作成された推論モデルを車載装置(不図示)に適用しても良い。車載装置は自動車等の車両に搭載される電子機器の一種である。この場合、第2学習部60によるNN61の機械学習を経てNN61により形成される推論モデルを車載装置に適用すると良い。そして、車載装置にて推論モデルによる物体検出を行わせ、推論結果を車両で実施され得る自動運転又は運転支援等に利用して良い。 An inference model created by the data processing device 1 may be applied to an in-vehicle device (not shown). An in-vehicle device is a type of electronic device mounted in a vehicle such as an automobile. In this case, it is preferable to apply the inference model formed by the NN 61 through the machine learning of the NN 61 by the second learning unit 60 to the in-vehicle device. Then, the in-vehicle device may be caused to detect an object using the inference model, and the inference result may be used for automatic driving or driving assistance that can be implemented in the vehicle.

尚、データ処理装置1自体が車載装置であっても構わない。車両(例えば放送中継車)によっては、豊富な計算資源を有する車載装置が設置されることもあり、この場合においては特にデータ処理装置1自体を車載装置とすることも可能である。 Note that the data processing device 1 itself may be an in-vehicle device. Depending on the vehicle (for example, broadcast relay van), an on-vehicle device having abundant computational resources may be installed.

また、データ処理装置1により実行される処理の一部又は全部は、ソフトウェアおよびハードウェアの混在処理により実現しても良い。前述した方法をコンピュータに実行させるコンピュータプログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本実施形態の範囲に含まれる。ここで、コンピュータ読み取り可能な記録媒体は、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、大容量DVD、次世代DVD、半導体メモリである。 Also, part or all of the processing executed by the data processing device 1 may be realized by mixed processing of software and hardware. A computer program that causes a computer to execute the method described above and a computer-readable recording medium that records the program are included in the scope of this embodiment. Here, computer-readable recording media are, for example, flexible disks, hard disks, CD-ROMs, MOs, DVDs, DVD-ROMs, DVD-RAMs, large-capacity DVDs, next-generation DVDs, and semiconductor memories.

本発明の実施形態は、特許請求の範囲に示された技術的思想の範囲内において、適宜、種々の変更が可能である。以上の実施形態は、あくまでも、本発明の実施形態の例であって、本発明ないし各構成要件の用語の意義は、以上の実施形態に記載されたものに制限されるものではない。上述の説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。 The embodiments of the present invention can be appropriately modified in various ways within the scope of the technical idea indicated in the scope of claims. The above embodiments are merely examples of the embodiments of the present invention, and the meanings of the terms of the present invention and each constituent element are not limited to those described in the above embodiments. The specific numerical values given in the above description are merely examples and can of course be changed to various numerical values.

1 データ処理装置
2 特徴量データ生成装置
2A 画像データ取得部
2B 特徴量データ生成部
10 第1学習データ取得部
20 第1結合部
30 第1学習部
31 ニューラルネットワーク(オートエンコーダ)
32 エンコーダ
33 デコーダ
40 第2学習データ取得部
50 第2結合部
60 第2学習部
61 ニューラルネットワーク(推論モデル)
1 data processing device 2 feature amount data generation device 2A image data acquisition unit 2B feature amount data generation unit 10 first learning data acquisition unit 20 first coupling unit 30 first learning unit 31 neural network (autoencoder)
32 encoder 33 decoder 40 second learning data acquisition unit 50 second coupling unit 60 second learning unit 61 neural network (inference model)

Claims (10)

各々に認識対象物体を含む複数の画像の画像データを取得する画像データ取得部と、
前記複数の画像の画像データを圧縮することで前記複数の画像における複数の認識対象物体の各特徴量を含む特徴量データを生成する特徴量データ生成部と、を備えた
、特徴量データ生成装置。
an image data acquisition unit that acquires image data of a plurality of images each including a recognition target object;
a feature amount data generation unit configured to generate feature amount data including each feature amount of a plurality of recognition target objects in the plurality of images by compressing image data of the plurality of images. .
前記複数の画像は、所定カメラにて時間的に連続して撮影された2以上の画像を含む
、請求項1に記載の特徴量データ生成装置。
2. The feature amount data generation device according to claim 1, wherein said plurality of images includes two or more images captured temporally continuously by a predetermined camera.
複数の第1入力画像の画像データをチャネル方向に結合することで第1結合データを生成する第1結合部と、
前記第1結合データの供給を受け、前記第1結合データを前記チャネル方向に圧縮するエンコーダ及び前記圧縮を復元するデコーダを有するオートエンコーダを学習させる第1学習部と、
複数の第2入力画像の画像データを前記チャネル方向に結合することで第2結合データを生成する第2結合部と、
前記第1学習部による学習後の前記エンコーダに前記第2結合データを入力することで当該エンコーダから出力される圧縮データを、ニューラルネットワークに入力し、これによって前記ニューラルネットワークを学習させる第2学習部と、を備える
、機械学習装置。
a first combining unit that generates first combined data by combining image data of a plurality of first input images in a channel direction;
a first learning unit that receives the supply of the first combined data and trains an autoencoder having an encoder that compresses the first combined data in the channel direction and a decoder that restores the compression;
a second combining unit that generates second combined data by combining image data of a plurality of second input images in the channel direction;
A second learning unit for inputting compressed data output from the encoder by inputting the second combined data to the encoder after learning by the first learning unit to a neural network, thereby learning the neural network. and a machine learning device.
前記第2学習部は、前記複数の第2入力画像に対応付けられた複数のラベルデータを含む教師データを用いて、前記ニューラルネットワークを学習させる
、請求項3に記載の機械学習装置。
4. The machine learning device according to claim 3, wherein said second learning unit makes said neural network learn using teacher data including a plurality of label data associated with said plurality of second input images.
前記第2学習部は、前記ニューラルネットワークを学習させることで物体検出が可能な推論モデルを作成する
、請求項4に記載の機械学習装置。
5. The machine learning device according to claim 4, wherein said second learning unit creates an inference model capable of object detection by learning said neural network.
各第1入力画像及び各第2入力画像は前記物体検出における認識対象物体を含む
、請求項5に記載の機械学習装置。
6. The machine learning device according to claim 5, wherein each first input image and each second input image include a recognition target object in said object detection.
前記第1結合データでは、前記チャネル方向において前記複数の第1入力画像の画像データが配列され、
前記第2結合データでは、前記チャネル方向において前記複数の第2入力画像の画像データが配列され、
前記第1学習部での学習において、前記エンコーダにより、前記第1結合データのチャネル方向の次元数が削減されることで前記第1結合データが圧縮され、
前記第2学習部での学習において、前記第1学習部による学習後の前記エンコーダにより、前記第2結合データのチャネル方向の次元数が削減されることで前記第2結合データが圧縮され、これによって前記圧縮データが得られる
、請求項3~6の何れかに記載の機械学習装置。
in the first combined data, the image data of the plurality of first input images are arranged in the channel direction;
in the second combined data, the image data of the plurality of second input images are arranged in the channel direction;
In learning by the first learning unit, the encoder reduces the number of dimensions of the first combined data in the channel direction, thereby compressing the first combined data,
In learning by the second learning unit, the encoder after learning by the first learning unit reduces the number of dimensions of the second combined data in the channel direction, thereby compressing the second combined data. 7. The machine learning device according to any one of claims 3 to 6, wherein said compressed data is obtained by:
各第1入力画像の画像データ及び各第2入力画像の画像データは、複数色分の画像データを含み、
前記第1結合データでは、前記チャネル方向において各第1入力画像の前記複数色分の画像データが配列され、
前記第2結合データでは、前記チャネル方向において各第2入力画像の前記複数色分の画像データが配列される
、請求項7に記載の機械学習装置。
The image data of each first input image and the image data of each second input image include image data for a plurality of colors,
in the first combined data, the image data for the plurality of colors of each first input image are arranged in the channel direction;
8. The machine learning device according to claim 7, wherein in said second combined data, image data for said plurality of colors of each second input image are arranged in said channel direction.
各々に認識対象物体を含む複数の画像の画像データを取得する画像データ取得ステップと、
前記複数の画像の画像データを圧縮することで前記複数の画像における複数の認識対象物体の各特徴量を含む特徴量データを生成する特徴量データ生成ステップと、を備えた
、特徴量データ生成方法。
an image data acquisition step of acquiring image data of a plurality of images each including a recognition target object;
a feature amount data generating step of compressing image data of the plurality of images to generate feature amount data including each feature amount of a plurality of recognition target objects in the plurality of images. .
複数の第1入力画像の画像データをチャネル方向に結合することで第1結合データを生成する第1結合ステップと、
前記第1結合データの供給を受け、前記第1結合データを前記チャネル方向に圧縮するエンコーダ及び前記圧縮を復元するデコーダを有するオートエンコーダを学習させる第1学習ステップと、
複数の第2入力画像の画像データを前記チャネル方向に結合することで第2結合データを生成する第2結合ステップと、
前記第1学習ステップによる学習後の前記エンコーダに前記第2結合データを入力することで当該エンコーダから出力される圧縮データを、ニューラルネットワークに入力し、これによって前記ニューラルネットワークを学習させる第2学習ステップと、を備える
、機械学習方法。
a first combining step of generating first combined data by combining image data of a plurality of first input images in a channel direction;
a first learning step of receiving the first combined data and training an autoencoder having an encoder for compressing the first combined data in the channel direction and a decoder for restoring the compression;
a second combining step of generating second combined data by combining image data of a plurality of second input images in the channel direction;
A second learning step of inputting compressed data output from the encoder by inputting the second combined data into the encoder after learning in the first learning step to a neural network, thereby learning the neural network. and a machine learning method.
JP2021054630A 2021-03-29 2021-03-29 Feature quantity data generation device and method thereof, and machine learning device and method thereof Pending JP2022152023A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021054630A JP2022152023A (en) 2021-03-29 2021-03-29 Feature quantity data generation device and method thereof, and machine learning device and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021054630A JP2022152023A (en) 2021-03-29 2021-03-29 Feature quantity data generation device and method thereof, and machine learning device and method thereof

Publications (1)

Publication Number Publication Date
JP2022152023A true JP2022152023A (en) 2022-10-12

Family

ID=83555804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021054630A Pending JP2022152023A (en) 2021-03-29 2021-03-29 Feature quantity data generation device and method thereof, and machine learning device and method thereof

Country Status (1)

Country Link
JP (1) JP2022152023A (en)

Similar Documents

Publication Publication Date Title
US11176381B2 (en) Video object segmentation by reference-guided mask propagation
US11182620B2 (en) Method for training a convolutional recurrent neural network and for semantic segmentation of inputted video using the trained convolutional recurrent neural network
Wang et al. Detect globally, refine locally: A novel approach to saliency detection
Bilinski et al. Dense decoder shortcut connections for single-pass semantic segmentation
CN109891897B (en) Method for analyzing media content
CN108520535B (en) Object classification method based on depth recovery information
Chen et al. Semantic image segmentation with task-specific edge detection using cnns and a discriminatively trained domain transform
US10019652B2 (en) Generating a virtual world to assess real-world video analysis performance
US10339421B2 (en) RGB-D scene labeling with multimodal recurrent neural networks
CN107679462B (en) Depth multi-feature fusion classification method based on wavelets
EP3540637A1 (en) Neural network model training method, device and storage medium for image processing
US20180114071A1 (en) Method for analysing media content
TW202101371A (en) Method and apparatus for processing video stream
JP2020027659A (en) Method for training convolutional recurrent neural network, and inputted video semantic segmentation method using trained convolutional recurrent neural network
CN112801027B (en) Vehicle target detection method based on event camera
CN111539290B (en) Video motion recognition method and device, electronic equipment and storage medium
CN112149459A (en) Video salient object detection model and system based on cross attention mechanism
Bescos et al. Empty cities: Image inpainting for a dynamic-object-invariant space
KR102042168B1 (en) Methods and apparatuses for generating text to video based on time series adversarial neural network
CN110705412A (en) Video target detection method based on motion history image
Ma et al. Fusioncount: Efficient crowd counting via multiscale feature fusion
CN109657538B (en) Scene segmentation method and system based on context information guidance
Huang et al. Change detection with various combinations of fluid pyramid integration networks
CN113553954A (en) Method and apparatus for training behavior recognition model, device, medium, and program product
Wei et al. Novel video prediction for large-scale scene using optical flow

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240131