JP7166415B1 - Feature extractor - Google Patents

Feature extractor Download PDF

Info

Publication number
JP7166415B1
JP7166415B1 JP2021158317A JP2021158317A JP7166415B1 JP 7166415 B1 JP7166415 B1 JP 7166415B1 JP 2021158317 A JP2021158317 A JP 2021158317A JP 2021158317 A JP2021158317 A JP 2021158317A JP 7166415 B1 JP7166415 B1 JP 7166415B1
Authority
JP
Japan
Prior art keywords
feature
resolution
image size
feature quantity
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021158317A
Other languages
Japanese (ja)
Other versions
JP2023048794A (en
Inventor
淳也 古賀
寛明 澤戸
求 島山
Original Assignee
Pciソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pciソリューションズ株式会社 filed Critical Pciソリューションズ株式会社
Priority to JP2021158317A priority Critical patent/JP7166415B1/en
Application granted granted Critical
Publication of JP7166415B1 publication Critical patent/JP7166415B1/en
Publication of JP2023048794A publication Critical patent/JP2023048794A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】移動体の様々な動きを精度良く認識するため、入力データから特徴量を抽出する特徴量抽出装置を提供する。【解決手段】特徴量抽出装置は、解像度別差分データを作成する時系列画像データ特徴量分配部20と、3次元畳み込み演算を実行して画像サイズ特徴量を抽出する特徴量抽出部10と、画像サイズ特徴量の各々に対して特徴量を分配し、連結して画像サイズ連結特徴量を生成する特徴量分配連結部30と、画像サイズ特徴量の各々に対して、重要度の重み付けを行う重要度判断部40と、を備えている。特徴量抽出部10は、特徴量連結生成器11a~11dを複数接続することで、各解像度別画像サイズ特徴量を生成する。【選択図】図7Kind Code: A1 To provide a feature amount extraction device for extracting feature amounts from input data in order to accurately recognize various motions of a moving object. A feature quantity extraction device includes a time-series image data feature quantity distribution unit 20 that creates difference data for each resolution, a feature quantity extraction unit 10 that extracts an image size feature quantity by executing a three-dimensional convolution operation, A feature quantity distribution/connecting unit 30 that distributes the feature quantity to each of the image size feature quantities and connects them to generate an image size concatenated feature quantity, and weights the importance of each of the image size feature quantities. and an importance determination unit 40 . The feature amount extraction unit 10 generates image size feature amounts for each resolution by connecting a plurality of feature amount concatenated generators 11a to 11d. [Selection drawing] Fig. 7

Description

本発明は、動画等の入力データからその特徴量を抽出する特徴量抽出装置に関する。 The present invention relates to a feature quantity extraction device for extracting feature quantities from input data such as moving images.

従来、移動物体の動きを検知する方法として、動画データに含まれるフレームの画素値の差分を算出して二値化処理を行う方法や、フレーム内から検知対象の画像の特徴を抽出して時系列的にその特徴を追跡する方法等が知られている。 Conventional methods for detecting the movement of moving objects include a method of calculating the difference in pixel values between frames included in video data and performing binarization processing, and a method of extracting features of the image to be detected from within the frame. A method for tracking the feature in series is known.

また、近年は、ディープニューラルネットワークを利用した機械学習手法が確立されている。特に、静止画や動画等の入力データから特徴量を抽出する手法として、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)が利用されることが多い。 In recent years, machine learning methods using deep neural networks have also been established. In particular, a convolutional neural network (CNN) is often used as a technique for extracting feature amounts from input data such as still images and moving images.

畳み込みニューラルネットワークは、一対の畳み込み層(Convolution Layer)とプーリング層(Pooling Layer)からなる多層構造をなしており、畳み込み処理とダウンサンプリング処理を繰り返すことで、入力データからその特徴量を抽出する。抽出された特徴量は、物体認識、物体検出、画像変換等の様々な目的で利用される。また、入力データからより良い特徴量を抽出するため、畳み込みニューラルネットワークの構造や内部の処理方法に様々な工夫がなされている。 A convolutional neural network has a multi-layered structure consisting of a pair of convolution layers and pooling layers, and by repeating convolution processing and downsampling processing, the features are extracted from the input data. The extracted feature amount is used for various purposes such as object recognition, object detection, and image conversion. In order to extract better features from input data, various improvements have been made to the structure and internal processing methods of convolutional neural networks.

例えば、下記の特許文献1の画像情報変換器では、複数のマルチスケール変換器を連結している。そして、特徴量生成部及び画像情報生成部において、畳み込み演算によるスケールの異なる解像度の特徴量抽出と、異なるスケールへの振り分けとを繰り返し実行する。画像情報変換器は、異なるスケールの特徴を組み合わせることで、画像情報の複雑な特徴を抽出することができる(特許文献1/段落0011、図1)。 For example, in the image information converter disclosed in Patent Document 1 below, a plurality of multiscale converters are connected. Then, in the feature quantity generation section and the image information generation section, feature quantity extraction with resolutions of different scales by convolution operation and sorting to different scales are repeatedly executed. An image information transformer can extract complex features of image information by combining features of different scales (Patent Document 1/paragraph 0011, FIG. 1).

特開2019-128889号公報JP 2019-128889 A

しかしながら、特許文献1の手法では、各解像度に応じた特徴量が最終的なデータに反映されていないため、移動物体の大まかな動きは認識できるが、細かな動きは正確に認識できない等の問題が生じる可能性があった。 However, in the method of Patent Document 1, since the feature amount according to each resolution is not reflected in the final data, it is possible to recognize the rough movement of the moving object, but it is not possible to accurately recognize the fine movement. could have occurred.

本発明は、このような事情に鑑みてなされたものであり、入力データからその特徴量を精度良く抽出する特徴量抽出装置を提供することを目的とする。 SUMMARY OF THE INVENTION It is an object of the present invention to provide a feature quantity extraction apparatus that accurately extracts a feature quantity from input data.

本発明の特徴量抽出装置は、時系列画像データのフレーム間差分を計算し、前記時系列画像データを解像度別に分配して、解像度別差分データを作成する時系列画像データ特徴量分配部と、前記時系列画像データ及び/又は前記解像度別差分データに対して3次元畳み込み演算を実行して、画像サイズ特徴量を抽出する特徴量抽出部と、前記特徴量抽出部から入力される複数の前記画像サイズ特徴量の各々に対して解像度別に特徴量を分配した画像サイズ特徴量と、前記画像サイズ特徴量を連結した画像サイズ連結特徴量とを生成する特徴量分配連結部と、前記画像サイズ特徴量の各々に対して、機械学習で得られたパラメータにより決定される数値に応じた重み付けを行う重要度判断部と、を備え、
前記特徴量抽出部は、前記画像サイズ連結特徴量と前記解像度別差分データとを連結して新たな画像サイズ特徴量を生成する特徴量連結生成器を複数有し、前記特徴量連結生成器を複数接続して前記画像サイズ特徴量のそれぞれを生成することを特徴とする。
A feature amount extraction device of the present invention includes a time-series image data feature amount distribution unit that calculates differences between frames of time-series image data, distributes the time-series image data by resolution, and creates difference data by resolution, a feature quantity extraction unit for performing a three-dimensional convolution operation on the time-series image data and/or the resolution-based difference data to extract an image size feature quantity; a feature amount distribution and connection unit that generates an image size feature amount obtained by distributing a feature amount for each image size feature amount by resolution and an image size connection feature amount that connects the image size feature amounts; and the image size feature amount. an importance determination unit that weights each quantity according to a numerical value determined by parameters obtained by machine learning,
The feature quantity extraction unit has a plurality of feature quantity concatenated generators that concatenate the image size concatenated feature quantity and the resolution-based difference data to generate a new image size feature quantity. It is characterized in that each of the image size feature amounts is generated by connecting a plurality of them.

本発明において、特徴量抽出部は、特徴量連結生成器を複数連結した構造となっており、3次元畳み込み演算により複数の画像サイズ特徴量を抽出する。また、特徴量抽出部は、抽出した画像サイズ特徴量と、時系列画像データ特徴量分配部で作成された解像度別差分データとを画像サイズ別に連結することで、新たな画像サイズ特徴量を生成する。 In the present invention, the feature amount extraction unit has a structure in which a plurality of feature amount connection generators are connected, and extracts a plurality of image size feature amounts by a three-dimensional convolution operation. In addition, the feature amount extraction unit generates a new image size feature amount by connecting the extracted image size feature amount and the resolution-based difference data created by the time-series image data feature amount distribution unit for each image size. do.

特徴量分配連結部は、特徴量抽出部からの画像サイズ特徴量を連結した画像サイズ連結特徴量を生成する。さらに、重要度判断部は、画像サイズ特徴量の各々に対して前記パラメータから決定される数値に応じて重み付けをする。これにより、解像度別に特徴量をまとめた画像サイズ特徴量が生成され、これらは機械学習に利用することができる。 The feature amount distribution connection unit generates an image size connection feature amount by connecting the image size feature amounts from the feature amount extraction unit. Further, the importance determination unit weights each of the image size feature values according to the numerical value determined from the parameters. As a result, image size feature quantities are generated by collecting feature quantities for each resolution, and these can be used for machine learning.

本発明の特徴量抽出装置において、前記特徴量連結生成器は、前記画像サイズ特徴量を生成するとき、前記特徴量分配連結部で生成された前記画像サイズ連結特徴量をさらに連結することが好ましい。 In the feature quantity extraction device of the present invention, it is preferable that the feature quantity connection generator, when generating the image size feature quantity, further concatenates the image size concatenated feature quantity generated by the feature quantity distribution concatenation unit. .

特徴量抽出部の特徴量連結生成器は、新たな画像サイズ特徴量を生成するとき、特徴量分配連結部で生成された画像サイズ連結特徴量をさらに連結する。このため、より高解像度の情報を加えた画像サイズ特徴量を生成することができる。 The feature quantity concatenated generator of the feature quantity extraction unit further concatenates the image size concatenated feature quantity generated by the feature quantity distribution concatenation unit when generating a new image size feature quantity. Therefore, it is possible to generate an image size feature amount to which higher resolution information is added.

また、本発明の特徴量抽出装置において、前記時系列画像データ特徴量分配部は、特定サイズのフィルタを用いた平均化プーリング処理により前記解像度別差分データを作成する特徴量分配器を複数有し、前記特徴量分配器を複数接続して前記解像度別差分データを作成することが好ましい。 Further, in the feature amount extraction device of the present invention, the time-series image data feature amount distribution unit has a plurality of feature amount distributors that create the difference data by resolution by an average pooling process using a filter of a specific size. Preferably, a plurality of the feature amount distributors are connected to create the difference data by resolution.

時系列画像データ特徴量分配部は、特徴量分配器を複数連結した構造となっており、特定サイズのフィルタを用いて、時系列画像データの平均化プーリング処理を行う。これにより、大きさや移動量が異なる物体の認識のため、解像度別差分データを作成することができる。 The time-series image data feature quantity distribution unit has a structure in which a plurality of feature quantity distributors are connected, and performs average pooling processing of time-series image data using a filter of a specific size. As a result, it is possible to create difference data by resolution for recognizing objects having different sizes and moving amounts.

また、本発明の特徴量抽出装置において、前記特徴量分配連結部は、前記特徴量抽出部から入力される前記画像サイズ特徴量を解像度別にダウンサンプリングする畳み込み演算を行い、生成された前記画像サイズ特徴量を前記重要度判断部に伝達することが好ましい。 Further, in the feature amount extraction device of the present invention, the feature amount distribution connection unit performs a convolution operation for down-sampling the image size feature amount input from the feature amount extraction unit by resolution, and the generated image size Preferably, the feature amount is transmitted to the importance determination unit.

特徴量分配連結部は、解像度別に分離独立した経路を通過し、畳み込み演算が行われるため、各解像度の情報が保持された画像サイズ特徴量が生成され、これを重要度判断部に伝達することができる。 Since the feature amount distribution and connection unit passes separate and independent paths for each resolution and performs convolution operation, an image size feature amount that holds information of each resolution is generated and transmitted to the importance determination unit. can be done.

また、本発明の特徴量抽出装置において、前記特徴量分配連結部は、前記畳み込み演算により生成された、同じ画像サイズの前記画像サイズ特徴量を連結して前記画像サイズ連結特徴量を生成することが好ましい。 Further, in the feature quantity extraction device of the present invention, the feature quantity distribution and connection unit may connect the image size feature quantities of the same image size generated by the convolution operation to generate the image size concatenated feature quantity. is preferred.

畳み込み演算を行うと、出力される画像サイズ特徴量は入力された画像サイズ特徴量からサイズ変更される。特徴量分配連結部は、同じ画像サイズの画像サイズ特徴量を連結して、新たな画像サイズ連結特徴量を生成することができる。 When the convolution operation is performed, the output image size feature amount is resized from the input image size feature amount. The feature quantity distribution and concatenation unit can concatenate image size feature quantities of the same image size to generate a new image size concatenated feature quantity.

また、本発明の特徴量抽出装置において、前記重要度判断部は、入力された前記画像サイズ特徴量を連結する特徴量連結器と、前記特徴量連結器の出力データを変換し、解像度の種類数Rのk倍(k:チャネル数)のR・k長ベクトルを出力する特徴量集約器と、前記特徴量集約器から出力された前記R・k長ベクトルに対し、全結合層での処理により、その構成要素が各解像度の重要度を表すR長ベクトルを生成する解像度別重要度生成器と、前記解像度別重要度生成器で生成された前記R長ベクトルの構成要素の数値を、前記特徴量連結器から出力された値と掛け合わせるスケール器と、を備え、
前記画像サイズ特徴量のそれぞれに対し、各解像度を示すチャネルk個を1単位として前記重要度を算出し、重み付けを行うことが好ましい。
Further, in the feature amount extraction device of the present invention, the importance determination unit includes a feature amount coupler that couples the input image size feature amount, converts the output data of the feature amount coupler, and converts the output data of the feature amount A feature aggregator that outputs an R·k length vector that is k times the number R (k: the number of channels), and processing in a fully connected layer for the R · k length vector output from the feature aggregator a resolution-specific importance generator whose components generate an R-length vector representing the importance of each resolution; and a scaler that multiplies the value output from the feature quantity coupler,
It is preferable that the importance is calculated and weighted for each of the image size feature values, with k channels indicating each resolution as one unit.

重要度判断部では、特徴量連結器が入力された画像サイズ特徴量を連結し、連結したデータを特徴量集約器に出力する。特徴量集約器は、当該出力データから解像度の種類数(R)とチャネル数(k)に応じたR・k長ベクトルを出力し、これを解像度別重要度生成器に出力する。 In the importance determination unit, the feature amount coupler couples the input image size feature amounts, and outputs the coupled data to the feature amount aggregator. The feature aggregator outputs an R·k length vector corresponding to the number of resolution types (R) and the number of channels (k) from the output data, and outputs this to the resolution-specific importance generator.

また、解像度別重要度生成器は、当該R・k長ベクトルを変換して、その構成要素が各解像度の重要度を表すR長ベクトルを生成し、これをスケール器に出力する。最後に、スケール器は、R長ベクトルの構成要素の数値と特徴量連結器から出力された数値と掛け合わせ、画像サイズ特徴量に対して重み付けを行う。これにより、重要度判断部は、解像度別の重要度によって重み付けがなされた最終的な特徴量データを抽出することができる。 Also, the resolution-by-resolution importance generator transforms the R·k length vector to generate an R length vector whose components represent the importance of each resolution, and outputs this to the scaler. Finally, the scaler multiplies the numerical value of the component of the R-length vector by the numerical value output from the feature quantity connector, and weights the image size feature quantity. Thereby, the importance determination unit can extract the final feature amount data weighted by the importance of each resolution.

本発明の実施形態に係る特徴量抽出装置の概要を説明する図。BRIEF DESCRIPTION OF THE DRAWINGS The figure explaining the outline|summary of the feature-value extraction apparatus which concerns on embodiment of this invention. 特徴量抽出部の概要を説明する図。The figure explaining the outline|summary of a feature-value extraction part. 特徴量抽出部の詳細を説明する図。The figure explaining the detail of a feature-value extraction part. 時系列画像データ特徴量分配部の概要を説明する図。The figure explaining the outline|summary of a time series image data feature-value distribution part. 時系列画像データ特徴量分配部での処理の詳細を説明する図。FIG. 5 is a diagram for explaining details of processing in a time-series image data feature amount distribution unit; 特徴量分配連結部の概要を説明する図。The figure explaining the outline|summary of a feature-value distribution connection part. 特徴量分配連結部の前後で行われる処理を説明する図。4A and 4B are diagrams for explaining processing performed before and after a feature quantity distribution connection unit; FIG. 重要度判断部の概要を説明する図。The figure explaining the outline|summary of an importance determination part. 重要度判断部の特徴量集約器を説明する図。FIG. 5 is a diagram for explaining a feature amount aggregator of an importance determination unit; 重要度判断部の解像度別重要度生成器を説明する図。FIG. 4 is a diagram for explaining a resolution-based importance generator of an importance determination unit; 重要度判断部のスケール器を説明する図。The figure explaining the scale device of an importance judgment part.

以下では、図面を参照しながら、本発明の実施形態に係る特徴量抽出装置100を説明する。 A feature quantity extraction device 100 according to an embodiment of the present invention will be described below with reference to the drawings.

図1は、特徴量抽出装置100の概要を示している。特徴量抽出装置100は、車両等の移動体の動きを精度良く認識するため、時系列画像データから特徴量を抽出する。最終的に生成された特徴量データは、移動体の動きを認識する情報として利用することができる。特徴量抽出装置100は、特徴量抽出部10と、時系列画像データ特徴量分配部20と、特徴量分配連結部30と、重要度判断部40とから構成されている。 FIG. 1 shows an outline of a feature extraction device 100. As shown in FIG. The feature amount extraction device 100 extracts feature amounts from time-series image data in order to accurately recognize the movement of a moving object such as a vehicle. The finally generated feature amount data can be used as information for recognizing the movement of the moving object. The feature quantity extraction device 100 includes a feature quantity extraction unit 10, a time-series image data feature quantity distribution unit 20, a feature quantity distribution connection unit 30, and an importance determination unit 40. FIG.

(特徴量抽出部10)
特徴量抽出部10は、機械学習の1つである畳み込みニューラルネットワーク(以下、CNNという)により、入力データD及び1/1解像度差分データD1(詳細は後述する)に対して3次元の畳み込み演算を実行し、特徴量を抽出する。
(Feature quantity extraction unit 10)
The feature quantity extraction unit 10 performs a three-dimensional convolution operation on input data D and 1/1 resolution difference data D1 (details will be described later) by a convolutional neural network (hereinafter referred to as CNN), which is one of machine learning. to extract features.

特徴量抽出部10は、コンボリューション層における畳み込み演算により、入力画像の画像サイズを徐々に浅い層から深い層に向かって縮小していくことで特徴量を抽出する。 The feature amount extraction unit 10 extracts feature amounts by gradually reducing the image size of the input image from the shallower layers to the deeper layers by the convolution operation in the convolution layer.

ここで、図2及び図3を参照して、特徴量抽出部10の詳細について説明する。 Here, the details of the feature quantity extraction unit 10 will be described with reference to FIGS. 2 and 3. FIG.

図2に示すように、特徴量抽出部10は特徴量連結生成器11a~11dを有し、これらを連結して構成されている。まず、特徴量連結生成器11aに、画像サイズが1(T,H,W,C)の差分データである1/1解像度差分データD1が入力される。ここで、「T」はTime、「H」はHeight、「W」はWidth、「C」はChannelを意味し、それぞれ特徴量データの構成要素である。 As shown in FIG. 2, the feature quantity extraction unit 10 has feature quantity connection generators 11a to 11d, which are connected together. First, 1/1 resolution difference data D1, which is difference data with an image size of 1 (T, H, W, C), is input to the feature value link generator 11a. Here, 'T' means Time, 'H' means Height, 'W' means Width, and 'C' means Channel, which are components of the feature data.

その後、特徴量連結生成器11aは、学習済みパラメータを用いた畳み込み演算により、画像サイズが1/2(T,H/2,W/2,C)の1/2画像サイズ特徴量F1を生成する。学習済みパラメータとは、出力精度を高めるため、ニューラルネットワークの各層が有する「重み」と「バイアス」のことである。 After that, the feature value connection generator 11a generates a 1/2 image size feature value F1 whose image size is 1/2 (T, H/2, W/2, C) by a convolution operation using the learned parameters. do. A learned parameter is a "weight" and a "bias" that each layer of a neural network has to improve output accuracy.

特徴量連結生成器11aは、特徴量連結器12aと、特徴量抽出器13aとで構成されている。特徴量連結器12aでは、入力データDと1/1解像度画像データD1とが連結される。これ以降、画像データの「連結」とは、チャネル方向への連結を意味する。また、特徴量抽出器13aが1/2画像サイズ特徴量F1を生成する。 The feature quantity connection generator 11a is composed of a feature quantity connector 12a and a feature quantity extractor 13a. The input data D and the 1/1 resolution image data D1 are connected in the feature quantity concatenator 12a. Hereinafter, "concatenation" of image data means concatenation in the channel direction. Also, the feature amount extractor 13a generates a 1/2 image size feature amount F1.

図3は、特徴量抽出器13aの詳細を示している。特徴量抽出器13aは、3次元畳み込み層と、空間ds(ダウンサンプリング)3次元畳み込み層とで構成されている。カッコ内は、それぞれフィルタサイズ、ストライド数、入力チャネル数、出力チャネル数を示す。なお、この3次元畳み込み層には、(フィルタサイズ×入力チャネル数×出力チャネル数)個の学習済みパラメータが存在する。 FIG. 3 shows details of the feature quantity extractor 13a. The feature quantity extractor 13a is composed of a three-dimensional convolutional layer and a spatial ds (down-sampling) three-dimensional convolutional layer. Parentheses indicate the filter size, the number of strides, the number of input channels, and the number of output channels, respectively. This three-dimensional convolutional layer has (filter size*number of input channels*number of output channels) learned parameters.

また、「ReLU(Rectified Linear Unit)」は、活性化関数(層間をどのように電気信号を伝搬させるかを調整する関数)の1つである。必要に応じて、バッチ正規化層(Batch Normalization)を追加してもよい。 Also, "ReLU (Rectified Linear Unit)" is one of the activation functions (functions for adjusting how an electrical signal is propagated between layers). A batch normalization layer may be added if desired.

入力データDは、その形状が(T,H,W)、チャネル数が「1」のグレースケールの動画データである(shape=(T,H,W,1))。時系列画像データ特徴量分配部20から特徴量連結器12aに延びる矢印の添え字はチャネル数を意味する(ここでは「1」)。入力データDと時系列画像データ特徴量分配部20からの差分データが特徴量連結器12aで連結され、特徴量抽出器13aの3次元畳み込み層に入力される(入力チャネル数「2」)。 The input data D is grayscale video data having a shape of (T, H, W) and a channel number of "1" (shape=(T, H, W, 1)). The subscript of the arrow extending from the time-series image data feature quantity distributor 20 to the feature quantity connector 12a means the number of channels (here, "1"). The input data D and the difference data from the time-series image data feature quantity distribution unit 20 are connected by the feature quantity connector 12a and input to the three-dimensional convolution layer of the feature quantity extractor 13a (the number of input channels is "2").

なお、3次元畳み込み層で用いる出力チャネル数を「32」としているが、これは予め設定した任意の値である。特徴量連結器12aで連結された特徴量は、3次元畳み込み層により一度チャネル数が「32」に拡張され、次段の空間ds3次元畳み込み層のフィルタ数を「k(設定値)」に絞るため、特徴量抽出器13aの出力チャネル数は「k」となる。ここでは、入力となる特徴量のF,H,W方向へゼロパディング処理を実行して、同方向軸への入力と出力のサイズが同じになるようしている。 Although the number of output channels used in the three-dimensional convolutional layer is set to "32", this is an arbitrary value set in advance. The feature quantity connected by the feature quantity connector 12a is once expanded to the number of channels "32" by the three-dimensional convolution layer, and the number of filters in the spatial ds three-dimensional convolution layer of the next stage is narrowed down to "k (set value)". Therefore, the number of output channels of the feature quantity extractor 13a is "k". Here, zero-padding processing is executed in the F, H, and W directions of the input feature amount so that the sizes of the input and output on the same direction axes are the same.

「k」は4,8,16等のより小さな値が好ましい。また、空間ds3次元畳み込み層では、stride=(1,2,2)(それぞれT,H,W)に設定されていることでH,W方向のみ縮小を行い、Tに関しては入力と出力とが同値になる。なお、後述する解像度別特徴量分配器31a~31c,32a~32b,33aも同様で、このストライド設定により特徴量抽出部10、特徴量分配連結部30で扱われる特徴量の時間軸がTで維持される。 Smaller values such as 4, 8, 16, etc. are preferred for "k". In the spatial ds three-dimensional convolution layer, stride=(1, 2, 2) (T, H, W, respectively) is set so that only the H and W directions are reduced. be of the same value. Note that the resolution-based feature amount distributors 31a to 31c, 32a to 32b, and 33a, which will be described later, are similar. maintained.

図2に戻り、次段の特徴量連結生成器11bに、特徴量連結生成器11aによって生成された1/2画像サイズ特徴量F1が入力される。そして、畳み込み演算により画像サイズが1/4(T,H/4,W/4,C)の1/4画像サイズ特徴量F2が生成される。 Returning to FIG. 2, the 1/2 image size feature quantity F1 generated by the feature quantity concatenated generator 11a is input to the feature quantity concatenated generator 11b in the next stage. Then, a 1/4 image size feature amount F2 whose image size is 1/4 (T, H/4, W/4, C) is generated by a convolution operation.

特徴量連結生成器11bは、特徴量連結器12bと特徴量抽出器13bとで構成されている。特徴量連結器12bは、同じ画像サイズの1/2画像サイズ特徴量F1と、時系列画像データ特徴量分配部20からの1/2解像度差分データD2を連結する。また、特徴量抽出器13bが1/4画像サイズ特徴量F2を生成する。 The feature quantity connection generator 11b is composed of a feature quantity connector 12b and a feature quantity extractor 13b. The feature quantity coupler 12 b joins the ½ image size feature quantity F 1 of the same image size and the ½ resolution difference data D 2 from the time-series image data feature quantity distributor 20 . Also, the feature amount extractor 13b generates a 1/4 image size feature amount F2.

図3に示すように、特徴量抽出器13bは、3次元畳み込み層と空間ds3次元畳み込み層とで構成されている。なお、特徴量抽出器13aからの1/2画像サイズ特徴量F1(チャネル数「k」)と時系列画像データ特徴量分配部20からの1/2解像度差分データD2(チャネル数「1」)が特徴量連結器12bで連結され、特徴量抽出器13bの3次元畳み込み層に入力される(入力チャネル数「k+1」)。 As shown in FIG. 3, the feature quantity extractor 13b is composed of a three-dimensional convolutional layer and a spatial ds three-dimensional convolutional layer. 1/2 image size feature quantity F1 (number of channels "k") from feature quantity extractor 13a and 1/2 resolution difference data D2 (number of channels "1") from time-series image data feature quantity distribution section 20 are connected by the feature quantity connector 12b and input to the three-dimensional convolution layer of the feature quantity extractor 13b (the number of input channels is "k+1").

さらに、次段の特徴量連結生成器11cに、特徴量連結生成器11bによって生成された1/4画像サイズ特徴量F2が入力される。そして、畳み込み演算により画像サイズが1/8(T,H/8,W/8,C)である1/8画像サイズ特徴量F3が生成される。 Further, the 1/4 image size feature quantity F2 generated by the feature quantity concatenated generator 11b is input to the feature quantity concatenated generator 11c in the next stage. Then, a ⅛ image size feature amount F3 whose image size is ⅛ (T, H/8, W/8, C) is generated by a convolution operation.

特徴量連結生成器11cは、特徴量連結器12cと、特徴量抽出器13cとで構成されている。特徴量連結器12cは、同じ画像サイズの1/4画像サイズ特徴量F2と、時系列画像データ特徴量分配部20からの1/4解像度差分データD3と、特徴量分配連結部30からの1/4画像サイズ連結特徴量G1(詳細は後述する)とを連結する。また、特徴量抽出器13cが1/8画像サイズ特徴量F3を生成する。 The feature quantity connection generator 11c is composed of a feature quantity connector 12c and a feature quantity extractor 13c. The feature quantity connector 12c combines the 1/4 image size feature quantity F2 of the same image size, the 1/4 resolution difference data D3 from the time-series image data feature quantity distribution unit 20, and the 1/4 resolution difference data D3 from the feature quantity distribution connection unit 30. /4 image size concatenated feature value G1 (details will be described later) are concatenated. Also, the feature amount extractor 13c generates a ⅛ image size feature amount F3.

図3に示すように、特徴量抽出器13cは、3次元畳み込み層と空間ds3次元畳み込み層とで構成されている。なお、特徴量抽出器13bからの1/4画像サイズ特徴量F2(チャネル数「k」)と、時系列画像データ特徴量分配部20からの1/4解像度差分データD2(チャネル数「1」)と、特徴量分配連結部30からの1/4画像サイズ連結特徴量G1(チャネル数「k」)が特徴量連結器12cで連結され、特徴量抽出器13cの3次元畳み込み層に入力される(入力チャネル数「2k+1」)。 As shown in FIG. 3, the feature quantity extractor 13c is composed of a three-dimensional convolutional layer and a spatial ds three-dimensional convolutional layer. Note that the 1/4 image size feature amount F2 (the number of channels "k") from the feature amount extractor 13b and the 1/4 resolution difference data D2 (the number of channels "1") from the time-series image data feature amount distribution unit 20 ) and the 1/4 image size concatenated feature G1 (number of channels “k”) from the feature distribution concatenator 30 are concatenated by the feature concatenator 12c and input to the three-dimensional convolution layer of the feature extractor 13c. (Number of input channels "2k+1").

最終段の特徴量連結生成器11dには、特徴量連結生成器11cによって生成された1/8画像サイズ特徴量F3が入力される。そして、畳み込み演算により画像サイズが1/16(T,H/16,W/16,C)の1/16画像サイズ特徴量F4が生成される。 The ⅛ image size feature quantity F3 generated by the feature quantity concatenated generator 11c is input to the feature quantity concatenated generator 11d at the final stage. Then, a 1/16 image size feature amount F4 whose image size is 1/16 (T, H/16, W/16, C) is generated by the convolution operation.

特徴量連結生成器11dは、特徴量連結器12dと、特徴量抽出器13dとで構成されている。特徴量連結器12dは、同じ画像サイズの1/8画像サイズ特徴量F3と、時系列画像データ特徴量分配部20からの1/8解像度差分データD4と、特徴量分配連結部30からの1/8画像サイズ連結特徴量G2(詳細は後述する)とを連結する。そして、特徴量抽出器13dが1/16画像サイズ特徴量F4を生成し、重要度判断部40に出力する。 The feature quantity connection generator 11d is composed of a feature quantity connector 12d and a feature quantity extractor 13d. The feature quantity coupler 12d combines the 1/8 image size feature quantity F3 of the same image size, the 1/8 resolution difference data D4 from the time-series image data feature quantity distribution unit 20, and the 1/8 resolution difference data D4 from the feature quantity distribution and connection unit 30. /8 image size concatenated feature value G2 (details will be described later) are concatenated. Then, the feature amount extractor 13 d generates the 1/16 image size feature amount F 4 and outputs it to the importance determination section 40 .

図3に示すように、特徴量抽出器13dは、3次元畳み込み層と空間ds3次元畳み込み層とで構成されている。なお、特徴量抽出器13cからの画像サイズ特徴量F3(チャネル数「k」)と時系列画像データ特徴量分配部20からの画像データD3(チャネル数「1」)と特徴量分配連結部30からの画像データG2(チャネル数「2k」)が特徴量連結器12dで連結され、特徴量抽出器13dの3次元畳み込み層に入力される(入力チャネル数「3k+1」)。 As shown in FIG. 3, the feature quantity extractor 13d is composed of a three-dimensional convolutional layer and a spatial ds three-dimensional convolutional layer. Note that the image size feature amount F3 (the number of channels is "k") from the feature amount extractor 13c, the image data D3 (the number of channels is "1") from the time-series image data feature amount distribution unit 20, and the feature amount distribution connection unit 30 The image data G2 (the number of channels is "2k") from 1 is concatenated by the feature concatenator 12d and input to the three-dimensional convolution layer of the feature extractor 13d (the number of input channels is "3k+1").

(時系列画像データ特徴量分配部20)
時系列画像データ特徴量分配部20は、1/1解像度差分データD1に基づいて、特徴量抽出部10の入力特徴量に応じた次元の画像情報に分配する装置である。
(Time-series image data feature quantity distribution unit 20)
The time-series image data feature quantity distribution unit 20 is a device that distributes image information of dimensions according to the input feature quantity of the feature quantity extraction unit 10 based on the 1/1 resolution difference data D1.

1/1解像度画像データD1の画像サイズを縮小するためには、コンボリューション層による畳み込み演算ではなく、平均値を演算するプーリング層による平均化プーリング処理を実行することが好ましい。その際、プーリング実行時のストライドは、(T,H,W)=(1,2,2)のように画像サイズのみが縮小されるように設定する。 In order to reduce the image size of the 1/1 resolution image data D1, it is preferable to perform an averaging pooling process by a pooling layer that calculates an average value instead of a convolution operation by a convolution layer. At this time, the stride during pooling is set so that only the image size is reduced, such as (T, H, W)=(1, 2, 2).

次に、図4及び図5を参照して、時系列画像データ特徴量分配部20の詳細について説明する。 Next, details of the time-series image data feature quantity distribution unit 20 will be described with reference to FIGS. 4 and 5. FIG.

図4に示すように、時系列画像データ特徴量分配部20は、特徴量分配器21a~21cで構成されている。特徴量分配器21aは、例えば、時刻T1のときの画像フレームと、その後の時刻T2のときの画像フレームのフレーム間差分をとった1/1解像度差分データD1(T=8であれば、8フレーム分)に対して、カーネルサイズが(1,2,2)、ストライドが(1,2,2)の平均化プーリング処理を実行する。これにより、特徴量分配器21aは、画像サイズが1/2の(T,H/2,W/2,C)の1/2解像度差分データD2を作成する。 As shown in FIG. 4, the time-series image data feature amount distributor 20 is composed of feature amount distributors 21a to 21c. The feature amount distributor 21a generates 1/1 resolution difference data D1 (if T=8, 8 frames), the kernel size is (1, 2, 2) and the stride is (1, 2, 2). As a result, the feature amount distributor 21a creates 1/2 resolution difference data D2 of (T, H/2, W/2, C) whose image size is 1/2.

差分データは動画データのフレーム間差分であり、動作のない背景等の情報を除外し、フレーム間で変化のある移動体情報のみを残したものである。差分データは、移動体の形状、大きさ、その移動量等の変化パターンによって特徴的な空間情報を示す。平均化プーリング処理は段階的に実行されるため(図5参照)、作成される解像度別差分データのそれぞれは、物体の大きさや移動量に対して異なる挙動を示す。 The difference data is the frame-to-frame difference of the moving image data, and excludes information such as the background that does not move, leaving only moving object information that changes between frames. The difference data indicates characteristic spatial information by changing patterns such as the shape, size, and amount of movement of the moving object. Since the averaging pooling process is executed step by step (see FIG. 5), each of the generated difference data by resolution exhibits different behavior with respect to the size and movement amount of the object.

例えば、高解像度の差分データは、物体の移動の詳細(移動前後の位置情報等)や、複数の物体が同時に移動する場合にその特徴を捕らえることができる。なお、段階的な平均化プーリング処理を実行していく中で、その処理回数が少ないものほど高解像度の差分情報が残るため、「高解像度の差分データ」となる。また、平均化プーリング処理を繰り返すほど解像度が低下するため、「低解像度の差分データ」となる。 For example, the high-resolution differential data can capture the details of object movement (position information before and after movement, etc.) and the characteristics when multiple objects move simultaneously. Note that while the stepwise averaging pooling process is executed, the smaller the number of times the process is performed, the higher the resolution of the difference information remains, so it becomes "high resolution difference data". In addition, since the resolution decreases as the averaging pooling process is repeated, it becomes "low-resolution differential data".

低解像度の差分データは、物体な大まかな動きをより少ない情報で捕らえたり、逆に小さな動きを捕らえないようにしたりすることで移動量フィルタリングの役割を担うこともできる。また、低解像度の差分データは、撮影時の振動等によりフレーム間で小さなブレが生じる状況で、その位置ずれを吸収することができる。 The low-resolution differential data can also play the role of movement amount filtering by capturing rough movements of an object with less information, and conversely by not capturing small movements. In addition, the low-resolution difference data can absorb the positional deviation in a situation where small blurring occurs between frames due to vibration or the like during shooting.

これらの情報によって物体(移動体)の判定を行うニューラルネットワークは、より高度な学習及び推論を行うことができる。 A neural network that determines an object (moving object) based on this information can perform more advanced learning and inference.

ここで、図5に、時系列画像データ特徴量分配部20の処理の詳細を示す。まず、入力データD(shape=(T,H,W,1))を用いて、隣接フレーム間差分(出力解像度:1/1(Full))を計算する。その後、特徴量分配器21aにて上述の平均化プーリングが行われる。また、特徴量分配器21aで作成された1/2解像度差分データD2は、特徴量抽出部10に出力される。 Here, FIG. 5 shows the details of the processing of the time-series image data feature quantity distribution unit 20. As shown in FIG. First, using input data D (shape=(T, H, W, 1)), the difference between adjacent frames (output resolution: 1/1 (Full)) is calculated. After that, the above-described averaging pooling is performed in the feature quantity distributor 21a. Also, the 1/2 resolution difference data D2 created by the feature amount distributor 21a is output to the feature amount extraction section 10. FIG.

次段の特徴量分配器21bは、1/2解像度差分データD2に対して、平均化プーリング処理を実行することで、解像度が1/4(T,H/4,W/4,C)の1/4解像度差分データD3を作成する。また、特徴量分配器21bで作成された1/4解像度差分データD3は、特徴量抽出部10に出力される。 The next-stage feature amount distributor 21b performs an average pooling process on the 1/2 resolution difference data D2, thereby obtaining 1/4 (T, H/4, W/4, C) resolution data. 1/4 resolution difference data D3 is created. Also, the 1/4 resolution difference data D3 created by the feature amount distributor 21b is output to the feature amount extraction section 10. FIG.

最終段の特徴量分配器21cは、1/4解像度差分データD3に対して、平均化プーリング処理を実行することで、解像度が1/8(T,H/8,W/8,C)の1/8解像度差分データD4を作成する。また、特徴量分配器21cで作成された1/8解像度差分データD4は、特徴量抽出部10に出力される。 The last-stage feature amount distributor 21c performs an average pooling process on the 1/4 resolution difference data D3 so that the resolution is 1/8 (T, H/8, W/8, C). 1/8 resolution difference data D4 is created. Also, the ⅛ resolution difference data D 4 created by the feature amount distributor 21 c is output to the feature amount extraction section 10 .

なお、図4では、特徴量分配器が3段で構成されているが、n(n≧4)段の構成としてもよい。この場合、n段目の特徴量分配器で作成された1/n解像度差分データDn(出力解像度=1/n)が特徴量抽出部10に出力される(図5参照)。 In addition, in FIG. 4, the feature amount distributor is configured with three stages, but it may be configured with n (n≧4) stages. In this case, the 1/n resolution difference data Dn (output resolution=1/n) created by the n-th feature quantity distributor is output to the feature quantity extraction unit 10 (see FIG. 5).

(特徴量分配連結部30)
特徴量分配連結部30は、特徴量抽出部10から入力された画像サイズ特徴量F1~F3の各々に対して解像度別に特徴量を分配し、さらに解像度別に特徴量を連結して新たな画像サイズ特徴量を生成する。
(Feature quantity distribution connection unit 30)
The feature quantity distribution/connection unit 30 distributes the feature quantities by resolution to each of the image size feature quantities F1 to F3 input from the feature quantity extraction unit 10, and further connects the feature quantities by resolution to obtain a new image size. Generate features.

また、特徴量分配連結部30は、画像サイズ特徴量F1~F3の各々に対して、解像度別にダウンサンプリングする畳み込み演算を行う。特徴量分配連結部30は、解像度別に分離独立した経路において処理することで、各解像度の情報を保持した画像サイズ特徴量を重要度判断部40に伝達することができる。 Further, the feature quantity distribution/connecting unit 30 performs a convolution operation for down-sampling for each resolution on each of the image size feature quantities F1 to F3. The feature quantity distribution/coupling unit 30 can transmit the image size feature quantity holding the information of each resolution to the importance determination unit 40 by processing in separate and independent paths for each resolution.

次に、図6及び図7を参照して、特徴量分配連結部30の詳細について説明する。 Next, details of the feature quantity distribution connection unit 30 will be described with reference to FIGS. 6 and 7. FIG.

図6に示すように、特徴量分配連結部30は、解像度別特徴量伝達器3(解像度別特徴量分配器31a~31c)、解像度別特徴量伝達器32(解像度別特徴量分配器32a,32b)、解像度別特徴量伝達器33(解像度別特徴量分配器33a)と、特徴量連結器35a,35bとで構成されている。本実施形態の特徴量分配連結部30において、解像度別特徴量分配器は、空間方向のストライドを2に設定した畳み込み演算(ストライド(T,H,W)=(1,2,2))により特徴量を抽出しつつ、画像サイズのダウンサンプリングを実行する。 As shown in FIG. 6, the feature amount distribution connecting unit 30 includes a resolution-based feature amount transmitter 3 (resolution-based feature amount distributors 31a to 31c), a resolution-based feature amount transmitter 32 (resolution-based feature amount distributor 32a, 32b), a resolution-based feature amount transmitter 33 (resolution-based feature amount distributor 33a), and feature amount couplers 35a and 35b. In the feature quantity distribution connection unit 30 of the present embodiment, the feature quantity distributor by resolution performs a convolution operation (stride (T, H, W) = (1, 2, 2)) with the stride in the spatial direction set to 2. Downsampling of the image size is performed while extracting the feature amount.

解像度別特徴量伝達器31に1/1解像度の情報を保持した1/2画像サイズ特徴量F1が入力されると、解像度別特徴量分配器31aは、画像サイズが1/4の1/4画像サイズ特徴量F12を生成する。また、特徴量連結器35aは、画像サイズが1/4の1/4画像サイズ特徴量G1を生成し、特徴量抽出部10(特徴量連結器12c)に出力する。なお、特徴量連結器35aは形式上存在しているものの、連結対象が1/4画像サイズ特徴量F12のみであるため、ここでは特に処理を行わない。 When the 1/2 image size feature F1 holding the information of 1/1 resolution is input to the resolution feature amount transmitter 31, the resolution feature amount distributor 31a divides the image size into 1/4 of the image size. An image size feature quantity F12 is generated. Further, the feature quantity coupler 35a generates a 1/4 image size feature quantity G1, which is 1/4 of the image size, and outputs it to the feature quantity extractor 10 (feature quantity coupler 12c). Note that although the feature quantity coupler 35a is present in form, it does not carry out any particular processing here because the object of concatenation is only the 1/4 image size feature quantity F12.

解像度別特徴量分配器31bは、畳み込み演算を実行して1/4画像サイズ特徴量F12から画像サイズが1/8の1/8画像サイズ特徴量F13を生成する。 The resolution-by-resolution feature amount distributor 31b performs a convolution operation to generate a 1/8 image size feature amount F13 having an image size of 1/8 from the 1/4 image size feature amount F12.

また、解像度別特徴量伝達器32に1/2解像度の情報を保持した1/4画像サイズ特徴量F2が入力されると、解像度別特徴量分配器32aは、畳み込み演算を実行して1/4画像サイズ特徴量F2から画像サイズが1/8の1/8画像サイズ特徴量F23を生成する。 Further, when the 1/4 image size feature quantity F2 holding the information of 1/2 resolution is input to the resolution-specific feature quantity transmitter 32, the resolution-specific feature quantity distributor 32a executes a convolution operation to perform a 1/4 image size feature quantity distribution. A 1/8 image size feature amount F23 having an image size of 1/8 is generated from the 4 image size feature amount F2.

そして、特徴量連結器35bは、画像サイズが同じ1/8である1/8画像サイズ特徴量F13と、1/8画像サイズ特徴量F23とを連結して1/8画像サイズ連結特徴量G2を生成し、特徴量抽出部10(特徴量連結器12d)に出力する。 Then, the feature quantity connector 35b connects the 1/8 image size feature quantity F13 and the 1/8 image size feature quantity F23, which have the same image size of 1/8, to obtain a 1/8 image size concatenated feature quantity G2. is generated and output to the feature extraction unit 10 (feature coupler 12d).

解像度別特徴量分配器31cは、畳み込み演算を実行して画像サイズ特徴量F13から画像サイズが1/16である1/16画像サイズ特徴量F14を生成する。1/16画像サイズ特徴量F14は、1/1解像度の情報を保持している。 The resolution-by-resolution feature amount distributor 31c performs a convolution operation to generate a 1/16 image size feature amount F14 whose image size is 1/16 from the image size feature amount F13. The 1/16 image size feature amount F14 holds 1/1 resolution information.

また、解像度別特徴量分配器32bは、畳み込み演算を実行して1/8画像サイズ特徴量F23から画像サイズが1/16である1/16画像サイズ特徴量F24を生成する。1/16画像サイズ特徴量F14及び1/16画像サイズ特徴量F24は、重要度判断部40に出力される。1/16画像サイズ特徴量F24は、1/2解像度の情報を保持している。 Further, the resolution-by-resolution feature amount distributor 32b performs a convolution operation to generate a 1/16 image size feature amount F24 having an image size of 1/16 from the 1/8 image size feature amount F23. The 1/16 image size feature amount F14 and the 1/16 image size feature amount F24 are output to the importance determination section 40. FIG. The 1/16 image size feature amount F24 holds 1/2 resolution information.

また、解像度別特徴量伝達器33に1/4解像度の情報を保持した1/8画像サイズ特徴量F3が入力されると、解像度別特徴量分配器33aは、畳み込み演算を実行して1/8画像サイズ特徴量F3から画像サイズが1/16である1/16画像サイズ特徴量F34を生成する。1/16画像サイズ特徴量F34は、1/4解像度の情報を保持している。 Further, when the 1/8 image size feature quantity F3 holding information of 1/4 resolution is input to the resolution-specific feature quantity transmitter 33, the resolution-specific feature quantity distributor 33a executes a convolution operation to perform a 1/8 image size feature quantity distribution. A 1/16 image size feature amount F34 whose image size is 1/16 is generated from the 8 image size feature amount F3. The 1/16 image size feature amount F34 holds 1/4 resolution information.

ここで、図7に、特徴量分配連結部30の前後で行われる処理を説明する。解像度別特徴量分配器31a~31c,32a,32b,33aは、それぞれ空間ds(ダウンサンプリング)3次元畳み込み層(フィルタサイズ(3×3×3)、ストライド数(1,2,2)、入力チャネル数=k、出力チャネル数=k、ReLU)である。ここでも、必要に応じてバッチ正規化層(Batch Normalization)を追加してもよい。 Here, processing performed before and after the feature quantity distribution connection unit 30 will be described with reference to FIG. 7 . The resolution-based feature amount distributors 31a to 31c, 32a, 32b, and 33a are respectively spatial ds (downsampling) three-dimensional convolution layers (filter size (3×3×3), stride number (1, 2, 2), input number of channels=k, number of output channels=k, ReLU). Again, a batch normalization layer may be added if desired.

解像度別特徴量分配器31a~31cを含む解像度別特徴量伝達器31は、より高解像度の情報(1/1解像度の情報)を保持し、重要度判断部40に伝達するため、撮像領域内の移動体の小さな動きを検出することができる。また、解像度別特徴量分配器32a,32bを含む解像度別特徴量伝達器32は、中解像度の情報(1/2解像度の情報)を保持し、重要度判断部40に伝達する。さらに、解像度別特徴量分配器33aを含む解像度別特徴量伝達器33は、より低解像度の情報(1/4解像度の情報)を保持し、重要度判断部40に伝達するため、撮像領域内の移動体の大きな動きを検出することができる。もちろん、ネットワークの長さによっては、解像度別特徴量伝達器がさらに必要となる。 The resolution-by-resolution feature quantity transmitter 31 including the resolution-by-resolution feature quantity distributors 31a to 31c holds higher resolution information (1/1 resolution information) and transmits it to the importance determination unit 40. can detect small movements of moving objects. Further, the resolution-based feature amount transmitter 32 including the resolution-based feature amount distributors 32 a and 32 b holds medium resolution information (1/2 resolution information) and transmits it to the importance determination section 40 . Further, the resolution-by-resolution feature quantity transmitter 33 including the resolution-by-resolution feature quantity distributor 33a holds lower resolution information (1/4 resolution information) and transmits it to the importance determination unit 40. can detect large movements of moving objects. Of course, depending on the length of the network, a resolution-specific feature value transmitter may be additionally required.

ネットワーク全体で解像度が高い方から低い方へのフィードフォワードが保たれている(解像度が低い方から高い方への接続なし)ため、解像度別特徴量伝達器31~33内の各パスでは、特徴量抽出部10で与えられた解像度の移動体情報が保持される。 Since feedforward from the higher resolution side to the lower resolution side is maintained throughout the network (there is no connection from the lower resolution side to the higher resolution side), in each path in the resolution-specific feature transmitters 31 to 33, the feature The moving object information with the resolution given by the amount extraction unit 10 is held.

(重要度判断部40)
重要度判断部40は、特徴量分配連結部30から出力された1/16画像サイズ特徴量F14,F24,F34(図6参照)等に対して、学習済みパラメータにより決定される重要度に基づいて重み付けを行う。なお、学習済みパラメータは、解像度別に重要度を算出できるように学習されたパラメータである。
(Importance determination unit 40)
The importance determination unit 40 determines the importance of the 1/16 image size feature values F14, F24, F34 (see FIG. 6) output from the feature distribution connection unit 30, etc. based on the learned parameters. are weighted. Note that the learned parameters are parameters that have been learned so that the degree of importance can be calculated for each resolution.

ここで、図8~図11を参照して、重要度判断部40の詳細について説明する。 Here, the details of the importance determination unit 40 will be described with reference to FIGS. 8 to 11. FIG.

図8に示すように、重要度判断部40は、特徴量連結器41と、特徴量集約器42と、解像度別重要度生成器43と、スケール器44とで構成されている。重要度判断部40には、特徴量分配連結部30から1/16画像サイズ特徴量F14,F24,F34が入力され(図6参照)、特徴量抽出部10から1/16画像サイズ特徴量F4が入力される(図2参照)。これらは、全て1/16の画像サイズ特徴量であり、重要度判断部40は、1/16画像サイズ特徴量F4,F14,F24,F34の各々に重要度に基づいて重み付けを行い、最終的な特徴量データとする。 As shown in FIG. 8 , the importance determining unit 40 includes a feature coupler 41 , a feature aggregator 42 , a resolution-by-resolution importance generator 43 , and a scaler 44 . The 1/16 image size feature amounts F14, F24, and F34 are input from the feature amount distribution/connection section 30 to the importance determination section 40 (see FIG. 6), and the 1/16 image size feature amount F4 is input from the feature amount extraction section 10. is input (see FIG. 2). These are all 1/16 image size feature amounts, and the importance determination unit 40 weights each of the 1/16 image size feature amounts F4, F14, F24, and F34 based on their importance. feature data.

特徴量連結器41は、画像サイズ特徴量F4,F14,F24,F34を連結し、生成した連結特徴量を特徴量集約器42に出力する。ここで出力された連結特徴量は、特徴量集約器42の重要度算出に用いられる。また、特徴量連結器41は、連結特徴量をスケール器44にも出力する。この連結特徴量は、スケール器44において重み付けをされる対象となる。 The feature quantity concatenator 41 concatenates the image size feature quantities F4, F14, F24 and F34, and outputs the generated concatenated feature quantity to the feature quantity aggregator . The connected feature quantity output here is used for importance calculation of the feature quantity aggregator 42 . The feature quantity coupler 41 also outputs the coupled feature quantity to the scaler 44 . This connected feature quantity is weighted by the scaler 44 .

特徴量集約器42は、特徴量連結器41からの連結特徴量をR・k長ベクトルに変換する。特徴量集約器42が処理を行う際、深さ方向3次元畳み込み(入力チャネル同士の隔離が保たれる手法)を実行する。これは、異なる解像度の情報を持つ各チャネルが、特徴量集約器42の処理によって混合又は結合されないようにするためである。 The feature quantity aggregator 42 converts the connected feature quantity from the feature quantity connector 41 into an R·k length vector. When the feature aggregator 42 performs processing, depth-direction three-dimensional convolution (a technique for maintaining isolation between input channels) is performed. This is to prevent channels having different resolution information from being mixed or combined by the processing of the feature aggregator 42 .

図9は、特徴量集約器42の詳細を示している。特徴量集約器42は、深さ方向3次元畳み込み層と、グローバル平均化プーリング層とで構成されている。深さ方向3次元畳み込み層(depthwise 3D convolution layer)は、チャネル毎に畳み込み処理を行うため、フィルタ演算の結果がチャネル毎に独立し、交差しないという特性を有する。今回は、各々のチャネルが異なる解像度の情報を有しているため、解像度別に分離して処理する。なお、グローバル平均化プーリング層は、チャネル毎にチャネル内の数値の平均値をとり、チャネル順に並べることでチャネル数次元のベクトルを出力する層と定義することができる。 FIG. 9 shows the details of the feature aggregator 42. As shown in FIG. The feature quantity aggregator 42 is composed of a depth direction three-dimensional convolution layer and a global averaging pooling layer. Since the depthwise 3D convolution layer performs convolution processing for each channel, it has the characteristic that the results of filter operations are independent for each channel and do not intersect. Since each channel has different resolution information this time, it is processed separately for each resolution. The global averaging pooling layer can be defined as a layer that outputs a channel-number-dimensional vector by averaging numerical values in each channel and arranging them in the order of the channels.

また、特徴量集約器42において、深さ方向3次元畳み込み層のフィルタサイズを(T×1×1)に設定することで、T方向の次元を「1」、すなわち奥行なしのデータに圧縮する(pointwise convolution)。具体的には、入力した連結特徴量へのゼロパディング(padding=None)を行わずに、(T×1×1)のフィルタで深さ方向3次元畳み込み演算を行う。これにより、続くグローバル平均化プーリング層での単純な平均化処理による情報欠落を抑えることができる。 Also, in the feature amount aggregator 42, by setting the filter size of the three-dimensional convolution layer in the depth direction to (T×1×1), the dimension in the T direction is compressed to “1”, that is, data without depth. (pointwise convolution). Specifically, without performing zero padding (padding=None) on the input connected feature amount, depth direction three-dimensional convolution operation is performed with a filter of (T×1×1). This makes it possible to suppress the loss of information due to simple averaging processing in the subsequent global averaging pooling layer.

図10は、解像度別重要度生成器43の詳細を示している。解像度別重要度生成器43は、特徴量集約器42から入力したR・k長ベクトルに対し、全結合層(ニューラルネットワークを構成する層の1つ)での処理により、R長ベクトルを生成する(図8参照)。解像度別重要度生成器43は、最終的にシグモイド関数により0~1の数値に変換する処理を行うが、構成要素の数値は対応する解像度の重要度を表している。 FIG. 10 shows details of the resolution-by-resolution importance generator 43 . The resolution-specific importance generator 43 generates an R-length vector by processing the R·k-length vector input from the feature aggregator 42 in a fully connected layer (one of the layers constituting the neural network). (See Figure 8). The resolution-by-resolution importance generator 43 finally converts the value into a numerical value of 0 to 1 using a sigmoid function, and the numerical value of the component represents the importance of the corresponding resolution.

図11は、スケール器44の詳細を示している。スケール器44は、特徴量拡張器44aと乗算器44bとで構成されている。 FIG. 11 shows details of scaler 44 . The scaler 44 is composed of a feature extender 44a and a multiplier 44b.

まず、特徴量拡張器44aは、R長ベクトルを特徴量連結器41からの入力サイズへ一致させると同時に、R長ベクトルの各要素を対応する解像度の位置へ一致させる。そのために、例えば、R長ベクトルを1×1×1×Rとして各要素をチャネル方向へk個に拡張(1×1×1×R・k)した後、拡張後の各要素を更に(T,H,W)の形状へサイズ拡張(T×H×W×R・k)するといった手法を取ることができる。 First, the feature quantity extender 44a matches the R length vector to the input size from the feature quantity concatenator 41, and simultaneously matches each element of the R length vector to the position of the corresponding resolution. For this purpose, for example, after the R-length vector is 1×1×1×R and each element is expanded in the channel direction to k elements (1×1×1×R·k), each element after expansion is further expanded (T , H, W) can be used.

乗算器44bは、R長ベクトルを特徴量連結器41から出力された特徴量と同じ形状へ拡張変換後に掛け合わせることで重要度の重み付けを行い、重要度判断部40の出力とする。以上の各処理により、各解像度における情報を保持した最終特徴量データを作成することができる。最終特徴量データを用いれば、入力データ(数フレームの動画データ)から所定の判定を行う際、今回の判定に必要な解像度を重み付けにより選択することができ、効率的な機械学習を行うことができる。 The multiplier 44b weights the degree of importance by multiplying the R-length vector by the same shape as the feature quantity output from the feature quantity coupler 41 after the extension conversion, and outputs the weighted degree of importance. Through the above processes, final feature amount data that holds information at each resolution can be created. By using the final feature value data, when making a predetermined judgment from the input data (several frames of video data), the resolution necessary for this judgment can be selected by weighting, and efficient machine learning can be performed. can.

本発明は上記実施形態及び変更形態に限られるものではなく、その要旨を逸脱しない範囲において種々の態様で実施することが可能である。 The present invention is not limited to the above embodiments and modifications, and can be implemented in various forms without departing from the scope of the invention.

10…特徴量抽出部、11a~11d…特徴量連結生成器、12a~12d…特徴量連結器、13a~13d…特徴量抽出器、20…時系列画像データ特徴量分配部、21a~21c…特徴量分配器、30…特徴量分配連結部、31~33…解像度別特徴量伝達器、31a~31c,32a,32b,33a…解像度別特徴量分配器、35a,35b…特徴量連結器、40…重要度判断部、41…特徴量連結器、42…特徴量集約器、43…解像度別重要度生成器、44…スケール器、100…特徴量抽出装置。 10 Feature extractor 11a to 11d Feature link generator 12a to 12d Feature coupler 13a to 13d Feature extractor 20 Time-series image data feature distributor 21a to 21c Feature quantity distributor 30 Feature quantity distribution connector 31 to 33 Feature quantity transmitter by resolution 31a to 31c, 32a, 32b, 33a Feature quantity distributor by resolution 35a, 35b Feature quantity coupler, 40... Importance determining unit, 41... Feature quantity coupler, 42... Feature quantity aggregator, 43... Resolution-based importance generator, 44... Scaler, 100... Feature quantity extraction device.

Claims (6)

時系列画像データのフレーム間差分を計算し、前記時系列画像データを解像度別に分配して、解像度別差分データを作成する時系列画像データ特徴量分配部と、
前記時系列画像データ及び/又は前記解像度別差分データに対して3次元畳み込み演算を実行して、画像サイズ特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部から入力される複数の前記画像サイズ特徴量の各々に対して特徴量を分配し、連結した画像サイズ連結特徴量を生成する特徴量分配連結部と、
前記画像サイズ特徴量の各々に対して、機械学習で得られたパラメータにより決定される数値に応じた重み付けを行う重要度判断部と、を備え、
前記特徴量抽出部は、前記画像サイズ連結特徴量と前記解像度別差分データとを連結して新たな画像サイズ特徴量を生成する特徴量連結生成器を複数有し、前記特徴量連結生成器を複数接続して前記画像サイズ特徴量のそれぞれを生成することを特徴とする特徴量抽出装置。
a time-series image data feature amount distribution unit that calculates differences between frames of time-series image data, distributes the time-series image data by resolution, and creates difference data by resolution;
a feature quantity extraction unit that extracts an image size feature quantity by executing a three-dimensional convolution operation on the time-series image data and/or the resolution-based difference data;
a feature amount distribution connection unit that distributes a feature amount to each of the plurality of image size feature amounts input from the feature amount extraction unit and generates a connected image size connection feature amount;
an importance determination unit that weights each of the image size feature amounts according to a numerical value determined by a parameter obtained by machine learning,
The feature quantity extraction unit has a plurality of feature quantity concatenated generators that concatenate the image size concatenated feature quantity and the resolution-based difference data to generate a new image size feature quantity. A feature amount extracting device that is connected in plurality to generate each of the image size feature amounts.
前記特徴量連結生成器は、前記画像サイズ特徴量を生成するとき、前記特徴量分配連結部で生成された前記画像サイズ連結特徴量をさらに連結することを特徴とする請求項1に記載の特徴量抽出装置。 2. The feature of claim 1, wherein the feature quantity concatenated generator further concatenates the image size concatenated features generated by the feature distribution concatenator when generating the image size feature quantity. Quantity extraction device. 前記時系列画像データ特徴量分配部は、特定サイズのフィルタを用いた平均化プーリング処理により前記解像度別差分データを作成する特徴量分配器を複数有し、
前記特徴量分配器を複数接続して前記解像度別差分データを作成することを特徴とする請求項1又は2に記載の特徴量抽出装置。
The time-series image data feature amount distribution unit has a plurality of feature amount distributors that create the difference data by resolution by an average pooling process using a filter of a specific size,
3. The feature amount extracting apparatus according to claim 1, wherein a plurality of the feature amount distributors are connected to create the difference data for each resolution.
前記特徴量分配連結部は、前記特徴量抽出部から入力される前記画像サイズ特徴量を解像度別にダウンサンプリングする畳み込み演算を行い、
生成された前記画像サイズ特徴量を前記重要度判断部に伝達することを特徴とする請求項1~3の何れか1項に記載の特徴量抽出装置。
The feature amount distribution connection unit performs a convolution operation for down-sampling the image size feature amount input from the feature amount extraction unit by resolution,
4. The feature amount extracting apparatus according to claim 1, wherein the generated image size feature amount is transmitted to the importance level determination unit.
前記特徴量分配連結部は、前記畳み込み演算により生成された、同じ画像サイズの前記画像サイズ特徴量を連結して前記画像サイズ連結特徴量を生成することを特徴とする請求項4に記載の特徴量抽出装置。 5. The feature according to claim 4, wherein the feature quantity distribution and concatenation unit concatenates the image size feature quantities of the same image size generated by the convolution operation to generate the image size concatenated feature quantity. Quantity extraction device. 前記重要度判断部は、
入力された前記画像サイズ特徴量を連結する特徴量連結器と、
前記特徴量連結器の出力データを変換し、解像度の種類数Rのk倍(k:チャネル数)のR・k長ベクトルを出力する特徴量集約器と、
前記特徴量集約器から出力された前記R・k長ベクトルに対し、全結合層での処理により、その構成要素が各解像度の重要度を表すR長ベクトルを生成する解像度別重要度生成器と、
前記解像度別重要度生成器で生成された前記R長ベクトルの構成要素の数値を、前記特徴量連結器から出力された値と掛け合わせるスケール器と、を備え、
前記画像サイズ特徴量のそれぞれに対し、各解像度を示すチャネルk個を1単位として前記重要度を算出し、重み付けを行うことを特徴とする請求項1~5の何れか1項に記載の特徴量抽出装置。
The importance determination unit
a feature concatenator that concatenates the input image size features;
a feature aggregator that converts the output data of the feature concatenator and outputs an R·k length vector that is k times the number of resolution types R (where k is the number of channels);
a resolution-by-resolution importance generator for generating an R-length vector whose components represent the importance of each resolution by processing in a fully connected layer for the R·k length vector output from the feature aggregator; ,
a scaler that multiplies the numerical values of the components of the R-length vector generated by the resolution importance generator by the values output from the feature quantity concatenator;
6. The feature according to any one of claims 1 to 5, wherein for each of the image size feature amounts, the importance is calculated and weighted with k channels indicating each resolution as one unit. Quantity extraction device.
JP2021158317A 2021-09-28 2021-09-28 Feature extractor Active JP7166415B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021158317A JP7166415B1 (en) 2021-09-28 2021-09-28 Feature extractor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021158317A JP7166415B1 (en) 2021-09-28 2021-09-28 Feature extractor

Publications (2)

Publication Number Publication Date
JP7166415B1 true JP7166415B1 (en) 2022-11-07
JP2023048794A JP2023048794A (en) 2023-04-07

Family

ID=83931096

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021158317A Active JP7166415B1 (en) 2021-09-28 2021-09-28 Feature extractor

Country Status (1)

Country Link
JP (1) JP7166415B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019128889A (en) 2018-01-26 2019-08-01 日本放送協会 Image information converter and program therefor

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019128889A (en) 2018-01-26 2019-08-01 日本放送協会 Image information converter and program therefor

Also Published As

Publication number Publication date
JP2023048794A (en) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110378844B (en) Image blind motion blur removing method based on cyclic multi-scale generation countermeasure network
CN110929736B (en) Multi-feature cascading RGB-D significance target detection method
CN111062872A (en) Image super-resolution reconstruction method and system based on edge detection
CN110555434A (en) method for detecting visual saliency of three-dimensional image through local contrast and global guidance
CN113139989B (en) Particle image velocity measurement method and device based on deep learning
CN110084757A (en) A kind of infrared depth image enhancement method based on generation confrontation network
CN101996399A (en) Device and method for estimating parallax between left image and right image
JP2007000205A (en) Image processing apparatus, image processing method, and image processing program
CN107680116A (en) A kind of method for monitoring moving object in video sequences
Cai et al. Residual channel attention generative adversarial network for image super-resolution and noise reduction
CN101561926B (en) Image processing apparatus, image-capturing apparatus, image processing method and program
CN110909615A (en) Target detection method based on multi-scale input mixed perception neural network
CN103955942A (en) SVM-based depth map extraction method of 2D image
CN111783862A (en) Three-dimensional significant object detection technology of multi-attention-directed neural network
CN113962878B (en) Low-visibility image defogging model method
Singh et al. Lightweight network for video motion magnification
CN110533575A (en) A kind of depth residual error steganalysis method based on isomery core
JP7166415B1 (en) Feature extractor
JP2022027464A (en) Method and device related to depth estimation of video
CN113569896A (en) Computer-implemented method for 3D positioning of objects based on image and depth data
CN110766609B (en) Depth-of-field map super-resolution reconstruction method for ToF camera
KR101937585B1 (en) Cost Aggregation Apparatus and Method for Depth Image Generation, and Recording Medium thereof
CN116797640A (en) Depth and 3D key point estimation method for intelligent companion line inspection device
CN112862946A (en) Gray rock core image three-dimensional reconstruction method for generating countermeasure network based on cascade condition
CN115909088A (en) Optical remote sensing image target detection method based on super-resolution feature aggregation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221025

R150 Certificate of patent or registration of utility model

Ref document number: 7166415

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150