JP7041427B2 - Series convolutional neural network - Google Patents

Series convolutional neural network Download PDF

Info

Publication number
JP7041427B2
JP7041427B2 JP2018554684A JP2018554684A JP7041427B2 JP 7041427 B2 JP7041427 B2 JP 7041427B2 JP 2018554684 A JP2018554684 A JP 2018554684A JP 2018554684 A JP2018554684 A JP 2018554684A JP 7041427 B2 JP7041427 B2 JP 7041427B2
Authority
JP
Japan
Prior art keywords
image
convolutional neural
neural network
training
detector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018554684A
Other languages
Japanese (ja)
Other versions
JP2019515376A (en
Inventor
ウルフ,ライオア
ムシンスキー,アサフ
Original Assignee
ラモット アット テル アビブ ユニバーシティ, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB1614009.7A external-priority patent/GB2549554A/en
Application filed by ラモット アット テル アビブ ユニバーシティ, リミテッド filed Critical ラモット アット テル アビブ ユニバーシティ, リミテッド
Publication of JP2019515376A publication Critical patent/JP2019515376A/en
Application granted granted Critical
Publication of JP7041427B2 publication Critical patent/JP7041427B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

開示される技術は概して、ニューラルネットワークに関し、特に、直列畳み込みニューラルネットワークについての方法及びシステムに関する。 The techniques disclosed generally relate to neural networks, in particular to methods and systems for series convolutional neural networks.

本分野において畳み込みニューラルネットワーク(CNN)が知られている。そのようなネットワークは典型的には、画像内のオブジェクト検出及び分類のために採用される。畳み込みニューラルネットワーク(CNN)は典型的には、更に多くの層のうちの1つから構築される。各々の層において、演算が実行される。典型的には、この演算は、活性化関数による畳み込み演算及び乗算のうちの1つである、この演算は更に、ダウンサンプリングとも称されるプーリングを含むことがある。 Convolutional neural networks (CNNs) are known in the art. Such networks are typically employed for object detection and classification in images. A convolutional neural network (CNN) is typically constructed from one of many more layers. Operations are performed on each layer. Typically, this operation is one of a convolution operation and a multiplication by an activation function, and this operation may further include pooling, also referred to as downsampling.

層ごとに、それぞれの組のメタパラメータが定義される。それらのメタパラメータは、採用されるフィルタの数、フィルタのサイズ、畳み込みのストライド、ダウンサンプリング比、ダウンサンプリングサイズのサイズ、そのストライド、及び採用される活性化関数などを含む。ここで、本分野において既知である、全体的に10と参照符号が付されるCNNを概略的に表す図1を参照する。CNN10は、画像16などの画像内の特徴を検出するために採用される。ニューラルネットワーク10は、層12(図1)などの複数の層を含む。CNN10は、複数の層12、12、…、12、及び分類器14を含む。入力画像16は、層12に供給される。層12は少なくとも、そのそれぞれのフィルタにより画像16を畳み込み、活性化関数によってフィルタの出力の各々を乗算する。層12は、その出力を層12に提供し、層12は、それぞれのフィルタによりそれぞれのその演算を実行する。この処理は、層12の出力が分類器14に提供されるまで繰り返す。層12の出力は、CNN10において採用されるフィルタに対応する特徴のマップである。この特徴マップは、特徴マップと関連付けられたそれぞれの画像ウインドウ内の入力画像16に特徴が存在する確率に関連する。層12の出力における特徴マップは、各々が特徴に対応する複数のマトリックスとして具体化されることがあり、各々のマトリックスにおけるエントリの値は、マトリックスにおけるエントリの位置(すなわち、エントリのインデックス)と関連付けられた特定の画像ウインドウ(すなわち、境界ボックス)内で、そのマトリックスと関連付けられた特徴を入力画像16が含む確率を表す。画像ウインドウのサイズは、畳み込み演算の間にCNN10における層の数、カーネルのサイズ、及びカーネルのストライドに従って判定される。 For each layer, each set of meta-parameters is defined. These meta-parameters include the number of filters adopted, the size of the filter, the stride of the convolution, the downsampling ratio, the size of the downsampling size, its stride, and the activation function adopted. Here, reference is made to FIG. 1, which schematically represents a CNN known in the art and generally labeled with a reference numeral 10. The CNN 10 is employed to detect features in an image such as the image 16. The neural network 10 includes a plurality of layers such as layer 12 1 (FIG. 1). The CNN 10 includes a plurality of layers 12 1 , 12 2 , ..., 12 N , and a classifier 14. The input image 16 is supplied to the layer 121 . Layer 12 1 convolves the image 16 with at least its respective filters and multiplies each of the outputs of the filters with an activation function. Layer 12 1 provides its output to layer 12 2 , which performs its respective computations with its respective filters. This process is repeated until the output of layer 12N is provided to the classifier 14. The output of layer 12N is a map of the features corresponding to the filters adopted in CNN10 . This feature map relates to the probability that the feature is present in the input image 16 in each image window associated with the feature map. The feature map at the output of layer 12N may be embodied as multiple matrices, each corresponding to a feature, where the value of the entry in each matrix is the position of the entry in the matrix (ie, the index of the entry). Represents the probability that the input image 16 will contain features associated with that matrix within a particular associated image window (ie, the bounding box). The size of the image window is determined according to the number of layers in CNN10, the size of the kernel, and the stride of the kernel during the convolution operation.

分類器14は、本分野において既知のいずれかのタイプの分類器であってもよい(例えば、ランダムフォレスト分類器、サポートベクトルマシン-SVM分類器、及び畳み込み分類器など)。分類器14は、CNN10が検出するように訓練されたオブジェクトを分類する。分類器14は、画像ウインドウごとに、オブジェクトがその画像ウインドウ内に位置するそれぞれの検出信頼度レベルと共に分類情報を提供することができる。概して、分類器14の出力は、対応する画像ウインドウ内のオブジェクトの検出及び分類に関連する値のベクトル(単数又は複数)である。値のこのベクトル(単数又は複数)は、本明細書で「分類ベクトル」と称される。 The classifier 14 may be any type of classifier known in the art (eg, random forest classifier, support vector machine-SVM classifier, convolution classifier, etc.). The classifier 14 classifies objects trained to be detected by the CNN 10. The classifier 14 can provide classification information for each image window, along with the respective detection reliability level at which the object is located within the image window. In general, the output of the classifier 14 is a vector (s) of values related to the detection and classification of objects in the corresponding image window. This vector of values (s) is referred to herein as a "classification vector".

ここで、本分野において既知である、全体的に50と参照符号が付される例示的なCNNを概略的に表す図2を参照する。CNNは、2つの層、第1の層51及び第2の層51を含む。第1の層51は、画像52をそれへの入力として受信する。第1の層51では、畳み込み演算が実行され、第2の層51では、活性化関数が畳み込みの結果に適用される。画像52は、画素のマトリックスを含み、各々の画素は、それぞれの値(例えば、グレーレベル値)又は値(複数)(例えば、カラー値)と関連付けられる。画像52は、オブジェクト(例えば、通りを歩いている人間、公園で遊んでいる犬、及び通りにおける車両など)を含むシーンを表すことができる。 Here, reference is made to FIG. 2, which schematically represents an exemplary CNN known in the art and generally labeled 50. The CNN comprises two layers, a first layer 51 1 and a second layer 512. The first layer 51 1 receives the image 52 as an input to it. In the first layer 511 the convolution operation is performed and in the second layer 512 the activation function is applied to the result of the convolution. The image 52 includes a matrix of pixels, where each pixel is associated with a value (eg, a gray level value) or a value (s) (eg, a color value). Image 52 can represent a scene containing objects (eg, a person walking in the street, a dog playing in a park, a vehicle in the street, and the like).

第1の層51では、画像52は、フィルタ54及び54の各々の1つにより畳み込まれる。フィルタ54及び54は、畳み込みカーネル又は単にカーネルとも称される。したがって、フィルタ54及び54の各々は、画像内の選択された位置上でシフトされる。各々の選択された位置において、フィルタにより重複する画素値は、フィルタのそれぞれの重みによって乗算され、この乗算の結果が合計される(すなわち、乗算及び和演算)。全体的に、選択された位置は、「ストライド」と称される予め定められたステップサイズによって画像上でフィルタをシフトすることによって定義される。フィルタ54及び54の各々は、画像内で識別されることになる特徴に対応する。フィルタのサイズと共にストライドは、CNNの設計者によって選択された設計パラメータである。フィルタ54及び54の各々より画像52を畳み込むことは、2つの特徴画像又はマトリックス、フィルタ54及び54のそれぞれの特徴画像56及び特徴画像56を含む特徴マップを作成する(すなわち、それぞれの画像はフィルタごとに作成される)。特徴画像内の各々の画素又はエントリは、1つの乗算及び和演算の結果に対応する。よって、マトリックス56及び56の各々は、フィルタ54及び54のそれぞれに対応するそれぞれの画像特徴と関連付けられる。また、各々のエントリは、入力画像52に対してそれぞれの画像ウインドウと関連付けられる。したがって、マトリックス56及び56の各々内の各々のエントリの値は、エントリと関連付けられた画像ウインドウ内で、それと関連付けられた特徴の特徴強度を表す。特徴画像56及び56のサイズ(すなわち、画素の数)は、画像52のサイズよりも小さいことがあることに留意されたい。第1の層51の出力は、第2の層51に提供される。第2の層51では、特徴画像56及び56の各々における各値は次いで、入力として活性化関数58(例えば、シグモイド、ガウス、及び双曲型tanhなど)に適用される。層51の出力は次いで、分類器60に提供され、分類器60は、画像52内のオブジェクトを検出及び分類し、特徴マップにおいてエントリごとに分類ベクトルを作成する。 In the first layer 51 1 , the image 52 is convoluted by one of each of the filters 541 and 542. Filters 541 and 542 are also referred to as convolution kernels or simply kernels. Therefore, each of the filters 541 and 542 is shifted on the selected position in the image. At each selected position, the pixel values duplicated by the filter are multiplied by their respective weights of the filter and the results of this multiplication are summed (ie, multiplication and sum operation). Overall, the selected position is defined by shifting the filter on the image by a predetermined step size called a "stride". Each of the filters 541 and 542 corresponds to a feature that will be identified in the image. Stride, along with filter size, is a design parameter selected by the CNN designer. Folding the image 52 from each of the filters 541 and 542 creates a feature map containing the two feature images or a matrix, the feature images 56 1 and the feature images 562 of the filters 541 and 542, respectively (ie). , Each image is created for each filter). Each pixel or entry in the feature image corresponds to the result of one multiplication and sum operation. Thus, each of the matrices 56 1 and 56 2 is associated with the respective image feature corresponding to each of the filters 541 and 542 . Also, each entry is associated with an image window for the input image 52. Therefore, the value of each entry in each of the matrices 56 1 and 562 represents the feature intensity of the feature associated with it in the image window associated with it. It should be noted that the size of the feature images 56 1 and 56 2 (ie, the number of pixels) may be smaller than the size of the image 52. The output of the first layer 51 1 is provided to the second layer 512. In the second layer 521, each value in each of the feature images 56 1 and 562 is then applied as an input to the activation function 58 (eg, sigmoid, gauss, and hyperbolic tanh, etc.). The output of layer 521 is then provided to the classifier 60, which detects and classifies the objects in the image 52 and creates a classification vector for each entry in the feature map.

画像内のオブジェクトを検出及び分類する前に、CNN10(図1)又はCNN50(図2)などのCNNによって採用される関数の様々なフィルタの重み及びパラメータが判定される必要がある。それらの重み及びパラメータは、訓練工程において判定される。CNNの初期重み及びパラメータ(すなわち、訓練が開始される前)が適宜判定される(例えば、ランダムに)。訓練の間、その中でオブジェクトが検出及び分類されている訓練画像又は画像(複数)は、入力としてCNNに提供される。言い換えると、画像ウインドウごとに予め定められたそれぞれの分類ベクトルを有する画像は、入力としてCNNに提供される。CNNネットワークの層は、各々の訓練画像に適用され、分類ベクトル、各々の訓練画像のそれぞれが判定される(すなわち、その中のオブジェクトが検出及び分類される)。それらの分類ベクトルは、予め定められた分類ベクトルと比較される。CNNの分類ベクトルと予め定められた分類ベクトルとの間の誤差(例えば、差異の二乗和、ログ損失、softmaxlog損失)が判定される。この誤差は次いで、1つ以上の反復を含むことがある、逆伝播工程においてCNNの重み及びパラメータを更新するために採用される。 Before detecting and classifying objects in an image, the weights and parameters of various filters of the function adopted by the CNN, such as CNN10 (FIG. 1) or CNN50 (FIG. 2), need to be determined. Their weights and parameters are determined during the training process. The initial weights and parameters of the CNN (ie, before training is started) are determined as appropriate (eg, randomly). During training, the training image or image (s) in which the object is detected and classified is provided to the CNN as input. In other words, an image having each predetermined classification vector for each image window is provided to the CNN as an input. The layers of the CNN network are applied to each training image and the classification vector, each of each training image is determined (ie, the objects in it are detected and classified). Those classification vectors are compared with a predetermined classification vector. An error between the CNN classification vector and a predetermined classification vector (eg, sum of squares of differences, log loss, softmaxlog loss) is determined. This error is then employed to update the weights and parameters of the CNN in the backpropagation step, which may include one or more iterations.

公開文献「A convolutional Neural Network Cascade for Face Detection」、Li等は、ネットワークの3つのペアを含むCNNに関する。各々のペアは、分類(検出)ネットワーク及び境界ボックス回帰ネットワークを包含する。検出の間、画像プラミッドは、画像のマルチスケールスキャニングを可能にするように生成される。次いで、第1の分類ネットワーク(DET12)が、画像内の全てのウインドウをスキャンし、低信頼度を示すそれらをフィルタするために採用される。第1の境界ボックス回帰ネットワーク(CLB12)が、全ての残りのウインドウの位置を補正するために採用される。非最大抑制(Non-maximalsuppression)が次いで、高重複部分を有するウインドウを除去するために適用される。次の段階では、境界ボックス回帰を実行する第2の境界ボックス回帰ネットワーク(CLB24)がそれに続く、第2の分類ネットワーク(DET24)が、残りのウインドウをフィルタするために採用される。最後に、第3の境界ボックス回帰ネットワーク(CLB48)がそれに続く、第3の分類ネットワーク(DET48)が採用される。 The publication "A convolutional Neural Network Cascade for Face Detection", Li et al., relates to a CNN containing three pairs of networks. Each pair includes a classification (detection) network and a boundary box regression network. During detection, the image plumid is generated to allow multiscale scanning of the image. A first classification network (DET12) is then employed to scan all windows in the image and filter them for low reliability. A first boundary box regression network (CLB12) is employed to correct the position of all remaining windows. Non-maximal suppression is then applied to remove windows with high overlap. In the next step, a second classification network (DET24), followed by a second boundary box regression network (CLB24) that performs the boundary box regression, is employed to filter the remaining windows. Finally, a third classification network (DET48) is adopted, followed by a third boundary box regression network (CLB48).

開示される技術の目的は、新規の畳み込みニューラルネットワーク方法及びシステムを提供することである。よって、開示される技術に従って、少なくとも1つの画像内の少なくとも1つのオブジェクトを検出する畳み込みニューラルネットワークシステムが提供される。システムは、少なくとも1つの画像内の予め定められた画像ウインドウサイズに対応する複数のオブジェクト検出器を含む。各々のオブジェクト検出器は、少なくとも1つの画像に対してそれぞれのダウンサンプリング比と関連付けられる。各々のオブジェクト検出器は、それぞれの畳み込みニューラルネットワーク及び畳み込みニューラルネットワークと結合されたオブジェクト分類器を含む。それぞれの畳み込みニューラルネットワークは、複数の畳み込み層を含む。オブジェクト分類器は、畳み込みニューラルネットワークからの結果に従ってオブジェクトを分類する。同一のそれぞれのダウンサンプリング比と関連付けられたオブジェクト検出器は、オブジェクト検出器の少なくとも1つのグループを定義する。オブジェクト検出器のグループにおけるオブジェクト検出器は、共通畳み込み層と関連付けられる。 The purpose of the disclosed technique is to provide new convolutional neural network methods and systems. Thus, according to the disclosed technique, a convolutional neural network system is provided that detects at least one object in at least one image. The system includes a plurality of object detectors corresponding to a predetermined image window size in at least one image. Each object detector is associated with its own downsampling ratio for at least one image. Each object detector includes a convolutional neural network and an object classifier coupled with the convolutional neural network. Each convolutional neural network contains multiple convolutional layers. The object classifier classifies objects according to the results from the convolutional neural network. The object detector associated with each identical downsampling ratio defines at least one group of object detectors. Object detectors in the group of object detectors are associated with a common convolution layer.

よって、開示される技術の別の態様に従って、複数のダウンサンプルされた画像を作成するために、複数のダウンサンプリング比に従って画像をダウンサンプリングする手順を含む畳み込みニューラルネットワーク方法が提供される。各々のダウンサンプルされた画像は、それぞれのダウンサンプリング比と関連付けられる。方法は更に、対応する畳み込みニューラルネットワークによって、ダウンサンプルされた画像ごとに少なくとも1つの画像に対して予め定められた画像ウインドウサイズにおいてオブジェクトを検出し、画像内のオブジェクトを分類する手順を含む。同一のそれぞれのダウンサンプリング比と関連付けられたそれぞれのダウンサンプルされた画像内のオブジェクトを検出する畳み込みニューラルネットワークは、畳み込みニューラルネットワークの少なくとも1つのグループを定義する。畳み込みニューラルネットワークのグループにおける畳み込みニューラルネットワークは、共通畳み込み層と関連付けられる。 Thus, according to another aspect of the disclosed technique, a convolutional neural network method is provided that includes a procedure for downsampling an image according to a plurality of downsampling ratios in order to create a plurality of downsampled images. Each downsampled image is associated with a respective downsampling ratio. The method further comprises the procedure of detecting objects in a predetermined image window size for at least one image for each downsampled image by a corresponding convolutional neural network and classifying the objects in the image. A convolutional neural network that detects objects in each downsampled image associated with the same respective downsampling ratio defines at least one group of convolutional neural networks. A convolutional neural network in a group of convolutional neural networks is associated with a common convolutional layer.

開示される技術は、図面と併用される以下の詳細な説明からより完全に理解及び認識されよう。 The disclosed technology will be more fully understood and recognized from the following detailed description combined with the drawings.

本分野において既知であるCNNを概略的に表す。CNNs known in the art are schematically represented. 本分野において既知である例示的なCNNを概略的に表す。Schematic representation of exemplary CNNs known in the art. 開示される技術の実施形態に従って入力画像内のオブジェクトを検出するCNNシステムを概略的に表す。Schematic representation of a CNN system that detects objects in an input image according to embodiments of the disclosed technique. 開示される技術の実施形態に従って入力画像内のオブジェクトを検出するCNNシステムを概略的に表す。Schematic representation of a CNN system that detects objects in an input image according to embodiments of the disclosed technique. 開示される技術の別の実施形態に従って構築され、動作可能である、入力画像内のオブジェクトを検出する例示的なCNNシステムを概略的に表す。Schematic representation of an exemplary CNN system for detecting objects in an input image that is constructed and operational according to another embodiment of the disclosed technique. 開示される技術の更なる実施形態に従って訓練セットを判定するために採用される、その中にオブジェクトを有する画像を概略的に表す。An image with an object in it, which is employed to determine a training set according to a further embodiment of the disclosed technique, is schematically represented. 開示される技術の更なる実施形態に従って訓練セットを判定するために採用される、その中にオブジェクトを有する画像を概略的に表す。An image with an object in it, which is employed to determine a training set according to a further embodiment of the disclosed technique, is schematically represented. 開示される技術の更なる実施形態に従って訓練セットを判定するために採用される、その中にオブジェクトを有する画像を概略的に表す。An image with an object in it, which is employed to determine a training set according to a further embodiment of the disclosed technique, is schematically represented. 開示される技術の更なる実施形態に従って訓練セットを判定するために採用される、その中にオブジェクトを有する画像を概略的に表す。An image with an object in it, which is employed to determine a training set according to a further embodiment of the disclosed technique, is schematically represented. 開示される技術の更なる実施形態に従って訓練セットを判定するために採用される、その中にオブジェクトを有する画像を概略的に表す。An image with an object in it, which is employed to determine a training set according to a further embodiment of the disclosed technique, is schematically represented. 開示される技術の更なる実施形態に従って訓練セットを判定するために採用される、その中にオブジェクトを有する画像を概略的に表す。An image with an object in it, which is employed to determine a training set according to a further embodiment of the disclosed technique, is schematically represented. 開示される技術の更なる実施形態に従って訓練セットを判定するために採用される、その中にオブジェクトを有する画像を概略的に表す。An image with an object in it, which is employed to determine a training set according to a further embodiment of the disclosed technique, is schematically represented. 開示される技術の更なる実施形態に従って訓練セットを判定するために採用される、その中にオブジェクトを有する画像を概略的に表す。An image with an object in it, which is employed to determine a training set according to a further embodiment of the disclosed technique, is schematically represented. 開示される技術の別の実施形態に従って動作可能である、ニューラルネットワークについての訓練セットを判定する方法を概略的に表す。Schematic representation of a method of determining a training set for a neural network that is operable according to another embodiment of the disclosed technique. 開示される技術の更なる実施形態に従って動作可能である、CNNについての方法を概略的に表す。Schematic representation of a method for a CNN that is operable according to a further embodiment of the disclosed technique.

開示される技術は、画像内のオブジェクトを検出するCNNネットワークシステムを提供することによって従来技術の欠点を解消する。開示される技術に従ったCNNネットワークは、複数のオブジェクト検出器を含む。各々のオブジェクト検出器は、画像内のそれぞれの予め定められた画像ウインドウサイズと関連付けられる。各々のオブジェクト検出器は、画像に対するそれへの入力におけるそれぞれのダウンサンプリング比と関連付けられる。各々のオブジェクト検出器は、複数の畳み込み層を含むそれぞれのCNNを少なくとも含む。各々の畳み込み層は、複数のフィルタによりそれへの入力を畳み込み、この畳み込みの結果が活性化関数によって処理される。各々のオブジェクト検出器は更に、畳み込みニューラルネットワークからの結果に従って画像内のオブジェクトを分類する、畳み込みニューラルネットワークと結合されたオブジェクト分類器を含む。同一のそれぞれのダウンサンプリング比と関連付けられたオブジェクト検出器は、オブジェクト検出器の少なくとも1つのグループを定義する。オブジェクト検出器のグループにおけるオブジェクト検出器は、共通畳み込み層を共有する。よって、それらの共通畳み込み層は、オブジェクト検出器のグループにおける全てのオブジェクト検出器について一回算出されてもよい。 The disclosed technique eliminates the shortcomings of prior art by providing a CNN network system for detecting objects in an image. A CNN network according to the disclosed technology includes multiple object detectors. Each object detector is associated with a predetermined image window size in the image. Each object detector is associated with its own downsampling ratio at its input to the image. Each object detector contains at least each CNN containing multiple convolution layers. Each convolution layer convolves the input to it with multiple filters, and the result of this convolution is processed by the activation function. Each object detector further includes an object classifier coupled with a convolutional neural network that classifies the objects in the image according to the results from the convolutional neural network. The object detector associated with each identical downsampling ratio defines at least one group of object detectors. The object detectors in the group of object detectors share a common convolution layer. Thus, those common convolution layers may be calculated once for all object detectors in the group of object detectors.

また、開示される技術に従って、CNN入力画像に対する同一のそれぞれの画像ウインドウサイズと関連付けられたオブジェクト検出器は、スケール検出器を定義する。各々のスケール検出器は、CNN入力画像のそれぞれのスケールと関連付けられる。スケール検出器がオブジェクト検出器及びダウンサンプラの同一の構成を示すとき、並びにオブジェクト検出器におけるCNNが同様の特性を有する層のグループを示すとき、オブジェクト検出器は次いで、以下で更に説明される共通層を有するように訓練される。訓練スケール検出器のCNNの重み及びパラメータが判定されると、この訓練スケール検出器の複製は、開示される技術のCNNシステムを定義するように配置される。 Also, according to the disclosed technique, the object detector associated with the same respective image window size for the CNN input image defines a scale detector. Each scale detector is associated with each scale of the CNN input image. When the scale detector shows the same configuration of the object detector and the downsampler, and when the CNN in the object detector shows a group of layers with similar properties, the object detector will then be described further in common below. Trained to have layers. Once the CNN weights and parameters of the training scale detector have been determined, a copy of this training scale detector is arranged to define the CNN system of the disclosed technology.

また、CNNを訓練するために採用されるサンプルの数は、図5A~5H及び6と共に更に説明されるように、各々のサンプルを特徴参照位置と位置合わせし、サンプルをランダムに摂動させることによって初期数を上回って増加することができる。 Also, the number of samples employed to train the CNN is by aligning each sample with a feature reference position and randomly perturbing the samples, as further described with FIGS. 5A-5H and 6. It can be increased beyond the initial number.

ここで、開示される技術実施形態に従って、入力画像106内のオブジェクトを検出する、全体的に100と参照符号が付されるCNNシステムを概略的に表す、図3A及び3Bを参照する。CNNシステム100は、複数のスケール検出器102、102、…、102、及び複数のダウンサンプラ104~104N-1を含む。ダウンサンプラ104~104N-1の各々は、それぞれのダウンサンプリング比と関連付けられる。スケール検出器102、…、102の各々は、それへの入力において、それぞれのダウンサンプラ104~104N-1と結合される。よって、各々のスケール検出器は、入力画像106に対するそれぞれのダウンサンプリング比(すなわち、スケール)と関連付けられる。スケール検出器102は、その入力において、入力画像106を受信する(すなわち、スケール検出器102のそれぞれのダウンサンプリング比は1つである)。システム100は、複数のスケールオブジェクト検出器として見なされてもよく、スケール検出器102、…、102の各々は、その入力において入力画像106のダウンサンプルされたバージョンを受信する。言い換えると、スケール検出器102、102、…、102の各々は、入力画像106のそれぞれのスケールと関連付けられる。図3Aでは、ダウンサンプラ104~104N-1は、直列のダウンサンプラに配置され、各々のダウンサンプラは、その入力において前のダウンサンプラの出力を受信する(すなわち、その入力において入力画像106を受信するダウンサンプラ104を除き)。しかしながら、ダウンサンプラ104~104N-1は、並列に配置されてもよく、各々のダウンサンプラは、その入力において入力画像106を受信し、スケール検出器102、…、102のそれぞれの1つと関連付けられた対応するダウンサンプリング比によって入力画像106をダウンサンプルする。 Here, with reference to FIGS. 3A and 3B, which schematically represent a CNN system, generally labeled 100, which detects an object in the input image 106, according to the disclosed technical embodiments. The CNN system 100 includes a plurality of scale detectors 102 1 , 102 2 , ..., 102 N , and a plurality of downsamplers 104 1-104 N-1 . Each of the down samplers 104 1 to 104 N-1 is associated with their respective downsampling ratio. Each of the scale detectors 102 2 , ..., 102 N is coupled with the respective downsamplers 104 1-1 04 N-1 at the input to it. Thus, each scale detector is associated with a respective downsampling ratio (ie, scale) to the input image 106. At its input, the scale detector 102 1 receives the input image 106 (ie, each of the scale detectors 102 1 has one downsampling ratio). The system 100 may be viewed as multiple scale object detectors, each of which scale detectors 102 2 , ..., 102 N receives a downsampled version of the input image 106 at its input. In other words, each of the scale detectors 102 1 , 102 2 , ..., 102 N is associated with the respective scale of the input image 106. In FIG. 3A, the downsamplers 104 1-1 to 104 N-1 are arranged in series downsamplers, and each downsampler receives the output of the previous downsampler at its input (ie, the input image 106 at its input). (Except for the down sampler 104 1 ). However, the downsamplers 104 1 to 104 N-1 may be arranged in parallel, and each downsampler receives the input image 106 at its input and the scale detectors 102 2 , ..., 102 N , respectively. The input image 106 is downsampled by the corresponding downsampling ratio associated with one.

図3Bを参照して、そこで表されるのは、スケール検出器102、102、…、102のうちの1つであるスケール検出器102である。オブジェクト検出器102は、複数のオブジェクト検出器108、108、…、108、及び複数のL-1ダウンサンプラを含み、複数のL-1ダウンサンプラから、ダウンサンプラ110L-1及び110L-2が図3Bにおいて表される。オブジェクト検出器108、108、…、108の各々は、それぞれのCNN及び分類器を含む。各々のCNNは、複数の畳み込み層を含む。オブジェクト検出器108は、M1層を含み、オブジェクト検出器108は、M2層を含み、オブジェクト検出器108は、M3層を含み、M1、M2、及びM3は、整数である。一般性の喪失なく、M3>=M2>=M1である。 With reference to FIG. 3B, represented there is a scale detector 102 i , which is one of the scale detectors 102 1 , 102 2 , ..., 102 N. The object detector 102 i includes a plurality of object detectors 108 1 , 108 2 , ..., 108 L , and a plurality of L-1 down samplers, and from the plurality of L-1 down samplers, the down sampler 110 L-1 and 110 L-2 is represented in FIG. 3B. Each of the object detectors 108 1 , 108 2 , ..., 108 L includes its own CNN and classifier. Each CNN contains a plurality of convolutional layers. The object detector 108 1 includes the M1 layer, the object detector 108 2 includes the M2 layer, the object detector 108 3 includes the M3 layer, and M1, M2, and M3 are integers. M3> = M2> = M1 without loss of generality.

オブジェクト検出器の各々はまた、それへの入力における画像に対するそれぞれの画像ウインドウサイズと関連付けられる。図3Bにおいて示される例では、オブジェクト検出器108は、それへの入力におけるダウンサンプルされた画像に対するI1×I2の画像ウインドウサイズと関連付けられ、オブジェクト検出器108は、それへの入力におけるダウンサンプルされた画像に対するK1×K2の画像ウインドウサイズと関連付けられ、オブジェクト検出器108は、それへの入力における画像に対するJ1×J2の画像ウインドウサイズと関連付けられる(すなわち、それは、ダウンサンプルされた画像、又はオブジェクト検出器108がスケール検出器102に位置するときの元の入力画像106であってもよい)。I1、K1、及びJ1は、画像ウインドウサイズの幅に対応し、I2、K2、及びJ2は、画像ウインドウサイズの高さに対応する。そのようにして、オブジェクト検出器108、108、…、108の各々は、入力画像106に対する同一のそれぞれの画像ウインドウサイズと関連付けられる。このそれぞれの画像ウインドウサイズ(すなわち、受入領域)は、畳み込み演算の間に、それへの入力における各々の108、108、…、108と関連付けられたダウンサンプリング比、各々のオブジェクト検出器における畳み込み層の数、カーネルのサイズ、及びカーネルのストライドと関連付けられる。 Each of the object detectors is also associated with the respective image window size for the image at the input to it. In the example shown in FIG. 3B, the object detector 108 1 is associated with an image window size of I1 × I2 for the downsampled image at the input to it, and the object detector 108 2 is down at the input to it. Associated with the image window size of K1xK2 for the sampled image, the object detector 108 L is associated with the image window size of J1xJ2 for the image at the input to it (ie, it is the downsampled image). , Or the original input image 106 when the object detector 108 L is located at the scale detector 102 1 ). I1, K1, and J1 correspond to the width of the image window size, and I2, K2, and J2 correspond to the height of the image window size. As such, each of the object detectors 108 1 , 108 2 , ..., 108 L is associated with the same image window size for the input image 106. Each of these image window sizes (ie, the receiving area) is the downsampling ratio associated with each 108 1 , 108 2 , ..., 108 L at the input to it, each object detector during the convolution operation. It is associated with the number of convolution layers in, the size of the kernel, and the stride of the kernel.

各々のCNNの出力は、それぞれの分類器と結合される。検出器108、108、…、108L-1の各々の1つの入力は、それぞれのダウンサンプラと結合される。各々のダウンサンプラ、及びオブジェクト検出器108は、画像105を受信し、画像105は、その入力における入力画像106のダウンサンプルされたバージョンであってもよい。ダウンサンプラの各々は、それぞれのダウンサンプリング比によってそれへの入力画像をダウンサンプルし、ダウンサンプルされた画像をオブジェクト検出器108、108、…、108L-1のそれぞれの1つに提供する。その結果、108、108、…、108の各々は、入力画像106に対するそれぞれのダウンサンプリング比と関連付けられる。このそれぞれのダウンサンプリング比は、ダウンサンプラ104~104N-1のダウンサンプリング比及びオブジェクト検出器108、108、…、108の各々と結合されたダウンサンプラのダウンサンプリング比によって判定される。 The output of each CNN is combined with each classifier. Each one input of the detectors 108 1 , 108 2 , ..., 108 L-1 is coupled to the respective downsampler. Each downsampler and the object detector 108 L may receive an image 105, which may be a downsampled version of the input image 106 at its input. Each of the downsamplers downsamples the input image to it by their respective downsampling ratio and provides the downsampled image to each one of the object detectors 108 1 , 108 2 , ..., 108 L-1 . do. As a result, each of 108 1 , 108 2 , ..., 108 L is associated with their respective downsampling ratio to the input image 106. Each of these downsampling ratios is determined by the downsampling ratio of the downsamplers 104 1 to 104 N-1 and the downsampling ratio of the downsampling combined with each of the object detectors 108 1 , 108 2 , ..., 108 L. To.

オブジェクト検出器108、108、…、108の各々におけるそれぞれのCNNの各々の層は、対応するフィルタによりそれに提供された画像を畳み込む。各々のCNNの出力は、CNNによって採用されるフィルタに対応する特徴のマップである。特徴マップは、値のエントリを含む。特徴マップにおける各々のエントリの各値は、エントリと関連付けられた画像ウインドウ内で、様々なフィルタと関連付けられた特徴の特徴強度を表す。この特徴マップは、それぞれの分類器に提供される。各々の分類器は、CNNシステム100が検出するように訓練されたオブジェクトを分類し、画像ウインドウごとに、分類ベクトルを提供する。この分類ベクトルは、オブジェクトがその画像ウインドウ内に位置する検出信頼度レベルに関連する値を含み、更に、以下で更に詳しく述べられるように、画像ウインドウ補正係数を含んでもよい(すなわち、境界ボックス回帰)。 Each layer of each CNN in each of the object detectors 108 1 , 108 2 , ..., 108 L convolves the image provided to it by the corresponding filter. The output of each CNN is a map of the features corresponding to the filters adopted by the CNN. The feature map contains a value entry. Each value of each entry in the feature map represents the feature intensity of the feature associated with the various filters in the image window associated with the entry. This feature map is provided for each classifier. Each classifier classifies objects trained to be detected by the CNN system 100 and provides a classification vector for each image window. This classification vector contains values related to the detection confidence level at which the object is located within its image window, and may further include an image window correction factor (ie, boundary box regression, as described in more detail below). ).

図4と共に以下で更に例示されるように、オブジェクト検出器108、108、…、108の各々は、入力画像104に対するそれぞれのダウンサンプリング比と関連付けられる。同一のそれぞれのダウンサンプリング比を有するオブジェクト検出器は、オブジェクト検出器のグループを定義する。開示される技術に従って、オブジェクト検出器のグループにおけるオブジェクト検出器は、共通畳み込み層と関連付けられる(すなわち、それらのオブジェクト検出器への入力画像が同一であるから)。そのようにして、それらの共通畳み込み層は、オブジェクト検出器のグループごとに1回算出される必要がある。 As further illustrated below with FIG. 4, each of the object detectors 108 1 , 108 2 , ..., 108 L is associated with their respective downsampling ratio to the input image 104. Object detectors with the same respective downsampling ratio define a group of object detectors. According to the technique disclosed, object detectors in a group of object detectors are associated with a common convolution layer (ie, because the input images to those object detectors are the same). As such, those common convolution layers need to be calculated once for each group of object detectors.

上記言及されたように、オブジェクト検出器108、108、…、108の各々の出力は、入力画像106に対するそれぞれの画像ウインドウサイズと関連付けられる。そのようにして、複数のスケール検出器が採用されるとき、同一のそれぞれの画像ウインドウサイズと関連付けられた2つ以上のオブジェクト検出器が存在することができる。したがって、それらのオブジェクト検出器のうちの1つのみが、入力画像104内のオブジェクト(すなわち、それぞれの画像ウインドウサイズと関連付けられた画像ウインドウ内の)を検出及び分類するために採用されてもよい。しかしながら、検出信頼度レベルが十分でない場合、より多くの数の層を有する別のオブジェクト検出器が採用されてもよく、よって、算出の複雑度を低減させる(すなわち、平均で)(例えば、実行される演算の数の点で)。他のオブジェクト検出器は、オブジェクトが予め定められた値を上回ってそこに位置する確率により画像ウインドウのみを処理する。言い換えると、他のオブジェクト検出器を採用する前に、背景に関連する画像ウインドウは、第1のオブジェクト検出器によって判定された確率に従って除去される。 As mentioned above, each output of the object detectors 108 1 , 108 2 , ..., 108 L is associated with the respective image window size for the input image 106. As such, when multiple scale detectors are employed, there can be two or more object detectors associated with the same image window size. Therefore, only one of those object detectors may be employed to detect and classify the objects in the input image 104 (ie, in the image window associated with each image window size). .. However, if the detection confidence level is not sufficient, another object detector with a larger number of layers may be employed, thus reducing the complexity of the calculation (ie, on average) (eg, performing). In terms of the number of operations performed). Other object detectors process only the image window with the probability that the object will be located there above a predetermined value. In other words, before adopting another object detector, the image window associated with the background is removed according to the probability determined by the first object detector.

ここで、開示される技術の別の実施形態に従って構築され、動作可能である、入力画像内のオブジェクトを検出する、全体的に200と参照符号が付される例示的なCNNシステムを概略的に表す、図4を参照する。例示的なCNNシステム200は、2つのスケール検出器、第1のスケール検出器202及び第2のスケール検出器202、並びにダウンサンプラ218を含む。第1のスケール検出器202及び第2のスケール検出器202の各々は、複数のオブジェクト検出器及び複数のダウンサンプラを含む。ダウンサンプラは、図4において「DS」と短縮される。第1のスケール検出器202は、オブジェクト検出器204、204、及び204...並びにダウンサンプラ210及び212を含む。第2のスケール検出器202は、オブジェクト検出器206、206、及び206、並びにダウンサンプラ214及び216を含む。オブジェクト検出器204、204、204、206、206、及び206の各々は、それぞれのCNN及びそれぞれの分類器(図4において「CLASS」と短縮される)205、205、205、207、207、及び207を含む。各々のCNNは、複数の畳み込み層(図4において「L」と短縮される)を含む。オブジェクト検出器204及び206のCNNは、M1層を含み、オブジェクト検出器2042及び2062のCNNは、M2層を含み、オブジェクト検出器204及び206のCNNは、M3層を含み、M1、M2、及びM3は、整数である。一般性の喪失なく、M3>=M2>=M1である。 Here, schematically an exemplary CNN system, constructed and operational according to another embodiment of the disclosed technique, which detects an object in an input image, is generally labeled with 200 and is referenced. Refer to FIG. 4, which is represented. An exemplary CNN system 200 includes two scale detectors, a first scale detector 202 1 and a second scale detector 202 2 , and a down sampler 218. Each of the first scale detector 202 1 and the second scale detector 202 2 includes a plurality of object detectors and a plurality of downsamplers. The down sampler is abbreviated as "DS" in FIG. The first scale detector 202 1 is an object detector 204 1 , 204 2 , and 204 3 . .. .. Also included are down samplers 210 and 212. The second scale detector 202 2 includes object detectors 206 1 , 206 2 , and 206 3 , as well as downsamplers 214 and 216. Each of the object detectors 204 1 , 204 2 , 204 3 , 206 1 , 206 2 , and 206 3 is a CNN and a respective classifier (abbreviated as "CLASS" in FIG. 4) 205 1 , 205 2 . , 205 3 , 207 1 , 207 2 , and 207 3 . Each CNN contains a plurality of convolutional layers (abbreviated as "L" in FIG. 4). The CNNs of the object detectors 204 1 and 206 1 include the M1 layer, the CNNs of the object detectors 204 2 and 206 2 include the M2 layer, and the CNNs of the object detectors 204 3 and 206 3 include the M3 layer. , M1, M2, and M3 are integers. M3> = M2> = M1 without loss of generality.

オブジェクト検出器の各々はまた、それへの入力における画像に対するそれぞれの画像ウインドウサイズと関連付けられる。図4において示さされる例では、オブジェクト検出器204及び206は、それへの入力におけるダウンサンプルされた画像に対するI1×I2の画像ウインドウサイズと関連付けられ、オブジェクト検出器204及び206は、それへの入力におけるダウンサンプルされた画像に対するK1×K2の画像ウインドウサイズと関連付けられ、オブジェクト検出器204及び206は、それへの入力における画像に対するJ1×J2の画像ウインドウサイズと関連付けられる(すなわち、オブジェクト検出器206への入力画像のみがダウンサンプルされる)。I1、K1、及びJ1は、画像ウインドウサイズの幅に対応し、I2、K2、及びJ2は、画像ウインドウサイズの高さに対応する。そのようにして、オブジェクト検出器204、204、204、206、206、及び206の各々は、入力画像208に対するそれぞれの画像ウインドウサイズと関連付けられる。このそれぞれの画像ウインドウサイズは、畳み込み演算の間に、それへの入力におけるオブジェクト検出器204、204、204、206、206、及び206の各々と関連付けられたダウンサンプリング比、各々のオブジェクト検出器における畳み込み層の数、カーネルのサイズ、並びにカーネルのストライドに従って判定される。入力画像208に対するオブジェクト検出器204、204、204、206、206、及び206の各々のそれぞれの画像ウインドウサイズは、オブジェクト検出器204、204、204、206、206、及び206の各々と関連付けられたそれぞれのダウンサンプリング比によって、それへの入力におけるそれぞれの画像ウインドウサイズに関連する。例えば、入力画像208に対する検出器204のそれぞれの画像ウインドウサイズは、R2*I1×R2*I2である。同様に、入力画像208に対する検出器204のそれぞれの画像ウインドウサイズは、R1*K1×R1*K2である。 Each of the object detectors is also associated with the respective image window size for the image at the input to it. In the example shown in FIG. 4, the object detectors 204 1 and 206 1 are associated with an image window size of I1 × I2 for the downsampled image at the input to it, and the object detectors 204 2 and 206 2 are , The object detectors 204 3 and 206 3 are associated with the image window size of K1 × K2 for the downsampled image at the input to it, and the object detectors 204 3 and 206 3 are associated with the image window size of J1 × J 2 for the image at the input to it. (That is , only the input image to the object detector 2063 is downsampled). I1, K1, and J1 correspond to the width of the image window size, and I2, K2, and J2 correspond to the height of the image window size. As such, each of the object detectors 204 1 , 204 2 , 204 3 , 206 1 , 206 2 , and 206 3 is associated with their respective image window size for the input image 208. Each of these image window sizes is the downsampling ratio associated with each of the object detectors 204 1 , 204 2 , 204 3 , 206 1 , 206 2 , and 206 3 at the input to it during the convolution operation. Determined according to the number of convolution layers in each object detector, the size of the kernel, and the stride of the kernel. The respective image window sizes of the object detectors 204 1 , 204 2 , 204 3 , 206 1 , 206 2 , and 206 3 for the input image 208 are the object detectors 204 1 , 204 2 , 204 3 , 206 1 , respectively. The downsampling ratio associated with each of 206 2 and 206 3 is associated with the size of each image window at the input to it. For example, the respective image window size of the detector 2041 for the input image 208 is R2 * I1 × R2 * I2. Similarly, the respective image window size of the detector 204 2 for the input image 208 is R1 * K1 × R1 * K2.

各々の畳み込みネットワークの出力は、それぞれの分類器205、205、205、207、207、及び207の入力と結合される。図4において表される配置では、オブジェクト検出器204、204、204、206、206、及び206の各々は、それぞれのダウンサンプラと結合される。オブジェクト検出器204の入力は、ダウンサンプラ210の出力と結合される。オブジェクト検出器204の入力は、ダウンサンプラ212の出力と結合される。オブジェクト検出器206の入力は、ダウンサンプラ214の出力と結合される。オブジェクト検出器206の入力は、ダウンサンプラ216の出力と結合され、オブジェクト検出器206の入力は、出力ダウンサンプラ218と結合される。ダウンサンプラ214及び216の入力はまた、ダウンサンプラ218の出力と結合される。 The output of each convolutional network is combined with the inputs of the respective classifiers 205 1 , 205 2 , 205 3 , 207 1 , 207 2 , and 207 3 . In the arrangement shown in FIG. 4, each of the object detectors 204 1 , 204 2 , 204 3 , 206 1 , 206 2 , and 206 3 is coupled to their respective downsamplers. The input of the object detector 204 1 is combined with the output of the downsampler 210. The input of the object detector 204 2 is combined with the output of the downsampler 212. The input of the object detector 206 1 is combined with the output of the downsampler 214. The input of the object detector 206 2 is coupled with the output of the downsampler 216 and the input of the object detector 206 3 is coupled with the output downsampler 218. The inputs of the downsamplers 214 and 216 are also coupled with the outputs of the downsamplers 218.

オブジェクト検出器204、ダウンサンプラ210、ダウンサンプラ212、及びダウンサンプラ218は、その入力において入力画像208を受信する。ダウンサンプラ210、ダウンサンプラ212、及びダウンサンプラ218の各々は、そのそれぞれのダウンサンプリング比によって入力画像208をダウンサンプルする。ダウンサンプラ210は、ダウンサンプルされた画像をオブジェクト検出器204に提供する。ダウンサンプラ212は、ダウンサンプルされた画像をオブジェクト検出器204に提供し、ダウンサンプラ218は、ダウンサンプルされた画像をオブジェクト検出器206、ダウンサンプラ214、及びダウンサンプラ216に提供する。ダウンサンプラ214は、それに提供された画像を更にダウンサンプルし、2回ダウンサンプルされた画像をオブジェクト検出器206に提供する。ダウンサンプラ216はまた、それに提供された画像を更にダウンサンプルし、2回ダウンサンプルされた画像をオブジェクト検出器206に提供する。 The object detector 204 3 , the down sampler 210, the down sampler 212, and the down sampler 218 receive the input image 208 at their input. Each of the down sampler 210, the down sampler 212, and the down sampler 218 downsamples the input image 208 according to their respective downsampling ratios. The down sampler 210 provides the downsampled image to the object detector 2041. The down sampler 212 provides the downsampled image to the object detector 204 2 , and the down sampler 218 provides the down sampled image to the object detector 206 3 , the down sampler 214, and the down sampler 216. The down sampler 214 further downsamples the image provided to it and provides the image downsampled twice to the object detector 2061. The downsampler 216 also further downsamples the image provided to it and provides the image twice downsampled to the object detector 206 2 .

オブジェクト検出器204、204、204、206、206、及び206の各々の1つにおけるそれぞれのCNNの各々の層は、対応するフィルタによりそれに提供された画像を畳み込む。各々のCNNの出力は、CNNにおいて採用されるフィルタに対応する特徴のマップである。上記説明されたように、特徴マップは値を含み、特徴マップにおける各々のエントリの各々の値は、エントリと関連付けられた画像ウインドウ内で、様々なフィルタと関連付けられた特徴の特徴強度を表す。特徴マップの各々は、分類器205、205、205、207、207、及び207の各々に提供される。 Each layer of each CNN in each one of the object detectors 204 1 , 204 2 , 204 3 , 206 1 , 206 2 , and 206 3 convolves the image provided to it by the corresponding filter. The output of each CNN is a map of the features corresponding to the filters employed in the CNN. As described above, the feature map contains values, and each value of each entry in the feature map represents the feature intensity of the feature associated with the various filters within the image window associated with the entry. Each of the feature maps is provided to each of the classifiers 205 1 , 205 2 , 205 3 , 207 1 , 207 2 , and 207 3 .

分類器205、205、205、207、207、及び207の各々は、それへの入力としてそれぞれのマトリックスを受信する。分類器205、205、205、207、207、及び207の各々は、分類ベクトルを判定する。この分類ベクトルは、オブジェクト(単一又は複数)(すなわち、CNNが検出するように訓練された)が、それに提供された特徴マップと関連付けられた画像ウインドウの各々に位置する確率に関連する値を含む。更に、分類器205、205、205、207、207、及び207の各々の1つによって判定された分類ベクトルは、それに提供された特徴マップと関連付けられた画像ウインドウごとの画像ウインドウ補正係数に関連する値を含む。それらの画像ウインドウ補正係数は、例えば、画像ウインドウの幅及び高さへの補正を含む。それらの画像ウインドウ補正係数は更に、画像ウインドウの位置と共に、画像ウインドウの方位への補正を含んでもよい。それらの画像ウインドウ補正係数は、以下で更に詳しく述べられるように、CNNが提供するように訓練された分類ベクトルの一部である。分類ベクトルは、例えば、サンプルが特定のクラスに属することを指定する二値を含む。例えば、ベクトル[1,0]は、サンプルが「FACE」クラスに属し、「NOT-FACE」クラスに属さないことを示す。分類ベクトルは、3つ以上のクラスを含んでもよい。加えて、このベクトルは、3Dの姿勢、属性(年齢、顔における性別、車内の色及び型)、並びに境界ボックス回帰ターゲット値などの追加の情報の数的表現を含んでもよい。 Each of the classifiers 205 1 , 205 2 , 205 3 , 207 1 , 207 2 , and 207 3 receives their respective matrix as input to it. Each of the classifiers 205 1 , 205 2 , 205 3 , 207 1 , 207 2 , and 207 3 determines the classification vector. This classification vector determines the value associated with the probability that an object (single or plural) (ie, trained to be detected by a CNN) will be located in each of the image windows associated with the feature map provided to it. include. In addition, the classification vector determined by each one of the classifiers 205 1 , 205 2 , 205 3 , 207 1 , 207 2 , and 207 3 is an image per image window associated with the feature map provided to it. Contains values related to window correction factors. These image window correction coefficients include, for example, corrections to the width and height of the image window. Those image window correction coefficients may further include correction to the orientation of the image window as well as the position of the image window. Those image window correction coefficients are part of the classification vector trained to provide by CNN, as described in more detail below. The classification vector contains, for example, a binary that specifies that the sample belongs to a particular class. For example, the vector [1,0] indicates that the sample belongs to the "FACE" class and not the "NOT-FACE" class. The classification vector may include three or more classes. In addition, this vector may include a numerical representation of additional information such as 3D posture, attributes (age, gender on face, color and type in the car), and boundary box regression target values.

分類器205、205、205、207、207、及び207の各々は、特徴マップにより分類フィルタ又はフィルタ(複数)を畳み込む(例えば、1×1×Q×Nフィルタであり、Qは、特徴マップにおけるマトリックスの数であり、Nは、判定されることになる分類情報に関連する分類フィルタの数である)畳み込み分類器として具体化されてもよく、そのようなフィルタ(単一又複数)の出力は、上記言及された確率及び補正係数である。そのような畳み込み分類器のパラメータは、以下で更に説明されるように、CNNの訓練の間に判定される。 Each of the classifiers 205 1 , 205 2 , 205 3 , 207 1 , 207 2 , and 207 3 convolves a classification filter or filters (s) according to a feature map (eg, 1 × 1 × Q × N filters. Q is the number of matrices in the feature map, and N is the number of classification filters related to the classification information to be determined), which may be embodied as a convolutional classifier (single). The output of one or more) is the probability and correction factor mentioned above. The parameters of such a convolution classifier are determined during CNN training, as further described below.

上記言及されたように、オブジェクト検出器204、204、204、206、206、及び206の各々は、CNN200への入力画像208に対して(すなわち、その中でオブジェクトが検出されている画像)、それへの入力におけるそれぞれのダウンサンプリング比と関連付けられる。更に、上記言及されたように、それへの入力における同一のそれぞれのダウンサンプリング比を有するオブジェクト検出器は、オブジェクト検出器のグループを定義する。CNNシステム200では、ダウンサンプラ212及び218は、同一の第1のダウンサンプリング比、R1によって入力画像208をダウンサンプルする。ダウンサンプラ216は、ダウンサンプリング比R1によって入力画像208を更にダウンサンプルする。よって、オブジェクト検出器206と関連付けられたサンプリング比は、R1*R1である。ダウンサンプラ210は、R1とは異なる第2のダウンサンプリング比、R2によって入力画像208をダウンサンプルする。R2=R1*R1であるとき、オブジェクト検出器204及び206は次いで、同一のそれぞれのダウンサンプリング比(すなわち、R2)と関連付けられ、オブジェクト検出器のグループを定義する(すなわち、図4において網掛けされた左斜め線によって示されるように)。同様に、オブジェクト検出器204及び206は、同一のダウンサンプリング比(すなわち、R1)と関連付けられ、オブジェクト検出器の別のグループを定義する(すなわち、図4において網掛けされた垂直線によって示されるように)。ダウンサンプラ214は、ダウンサンプリング比R2によってダウンサンプラ218からの出力をダウンサンプルする。図4において表されるダウンサンプリング配置は、本明細書で例として示されるにすぎないことに留意されたい。更なる例として、図4において、3つのダウンサンプリング比が採用されるので(すなわち、R1、R2、及びR1*R2)、次いで、3つのダウンサンプラは十分であり、各々のダウンサンプラの出力は、ダウンサンプラのダウンサンプリング比と関連付けられたオブジェクト検出器に提供される。そのような3つのダウンサンプラは、並列して、又は直列のダウンサンプラに配置されてもよい。 As mentioned above, each of the object detectors 204 1 , 204 2 , 204 3 , 206 1 , 206 2 , and 206 3 is for the input image 208 to the CNN 200 (ie, the object is detected in it). Image), associated with each downsampling ratio at the input to it. Further, as mentioned above, an object detector having the same respective downsampling ratio at the input to it defines a group of object detectors. In the CNN system 200, the downsamplers 212 and 218 downsample the input image 208 by the same first downsampling ratio, R1. The downsampler 216 further downsamples the input image 208 by the downsampling ratio R1. Therefore, the sampling ratio associated with the object detector 206 2 is R1 * R1. The downsampler 210 downsamples the input image 208 with a second downsampling ratio, R2, which is different from R1. When R2 = R1 * R1, the object detectors 204 1 and 206 2 are then associated with the same respective downsampling ratio (ie, R2), defining a group of object detectors (ie, in FIG. 4). As indicated by the shaded left diagonal line). Similarly, the object detectors 204 2 and 206 3 are associated with the same downsampling ratio (ie, R1) and define another group of object detectors (ie, by shaded vertical lines in FIG. 4). As shown). The downsampler 214 downsamples the output from the downsampler 218 with a downsampling ratio R2. Note that the downsampling arrangement represented in FIG. 4 is only shown herein as an example. As a further example, in FIG. 4, since three downsampling ratios are adopted (ie, R1, R2, and R1 * R2), then the three downsamplers are sufficient and the output of each downsampler is , Provided to the object detector associated with the downsampling ratio of the downsampler. Such three downsamplers may be arranged in parallel or in series downsamplers.

開示される技術に従って、そこでの入力における同一のそれぞれのダウンサンプリング比と関連付けられたオブジェクト検出器は、オブジェクト検出器のグループを定義する。オブジェクト検出器の同一のグループにおけるオブジェクト検出器は、共通畳み込み層と関連付けられる(すなわち、それらのオブジェクト検出器への入力画像のサイズが同一であるので)。それらの共通畳み込み層は、同一の畳み込みカーネル(すなわち、フィルタ)を共有し、それへの入力における同一の画像サイズに対して動作する。そのようにして、それらの共通畳み込み層は、オブジェクト検出器のグループごとに1回のみ算出される必要がある。図4では、オブジェクト検出器204及び206は、それへの入力における同一のそれぞれのダウンサンプリング比と関連付けられ、オブジェクト検出器のグループを定義する。そのようにして、オブジェクト検出器204及び206における層1-M1は共通層である。よって、オブジェクト検出器204及び206における層1-M1は、オブジェクト検出の間に1回算出されてもよい。オブジェクト検出器206は、層M1+1-M2を継続及び算出するために層M1からの結果を採用する。同様に、オブジェクト検出器204及び206は、同一のそれぞれのダウンサンプリング比と関連付けられ、オブジェクト検出器のグループを定義する。そのようにして、オブジェクト検出器204及び206における層1-M2は、共通層であり、1回算出されてもよい。オブジェクト検出器206は、層M2+1-M3を継続及び算出するために層M2からの結果を採用する。概して、グループにおけるオブジェクト検出器は、異なるスケール検出器と関連付けられてもよいからである。よって、オブジェクト検出器のグループにおけるオブジェクト検出器のCNNは、画像プラミッドの異なるスケールにおいて特徴マップを作成するものと見なされてもよく、1つのスケールにおいて1つのオブジェクト検出器のCNNによって作成された特徴マップは、別のスケールにおいて別のオブジェクト検出器のCNNによって採用される。 According to the technique disclosed, the object detector associated with the same respective downsampling ratio at the input there defines a group of object detectors. Object detectors in the same group of object detectors are associated with a common convolution layer (ie, because the size of the input image to those object detectors is the same). Those common convolution layers share the same convolution kernel (ie, filter) and operate for the same image size at the input to it. As such, those common convolution layers need to be calculated only once per group of object detectors. In FIG. 4, the object detectors 204 1 and 206 2 are associated with the same respective downsampling ratio at the input to it, defining a group of object detectors. As such, layers 1-M1 in the object detectors 204 1 and 206 2 are common layers. Therefore, layer 1-M1 in the object detectors 204 1 and 206 2 may be calculated once during object detection. Object detector 206 2 adopts the results from layer M1 to continue and calculate layers M1 + 1-M2. Similarly, the object detectors 204 2 and 206 3 are associated with the same downsampling ratio, respectively, and define a group of object detectors. As such, layers 1-M2 in the object detectors 204 2 and 206 3 are common layers and may be calculated once. The object detector 206 3 adopts the results from layer M2 to continue and calculate layers M2 + 1-M3. In general, object detectors in a group may be associated with different scale detectors. Thus, the object detector CNNs in the group of object detectors may be considered to create feature maps at different scales of the image plume, features created by one object detector CNN at one scale. The map is adopted by the CNN of another object detector at another scale.

また、上記言及されたように、オブジェクト検出器204、204、204206、206、及び206の各々の出力は、入力画像208に対するそれぞれの画像ウインドウサイズと関連付けられる。特に、オブジェクト検出器204、204、及び204からの出力は、画像208内の同一の第1の画像ウインドウサイズと関連付けられる。同様に、オブジェクト検出器206、206、及び206からの出力は、画像208内の同一の第2の画像ウインドウサイズと関連付けられる。そのようにして、第1の画像ウインドウサイズについて、オブジェクト検出器204、204、及び204のうちの1つのみが入力画像208内のオブジェクトを検出及び分類するために採用されてもよい。同様に、第2の画像ウインドウサイズについて、オブジェクト検出器206、206、及び206のうちの1つのみが入力画像208内のオブジェクトを検出及び分類するために採用されてもよい。典型的には、より少ない数の層を示すCNNを有するオブジェクト検出器が検出される。しかしながら、検出信頼度レベルが十分でない場合、より多くの数の像を有する異なる検出器が採用されてもよく、よって、算出の複雑度を低減させる(すなわち、平均で)。例えば、オブジェクト検出器204によって作成された検出信頼度が十分でない場合、次いで、オブジェクト検出器204が採用されることになる。にも関わらず、オブジェクト検出器204は、オブジェクトが予め定められた値を上回ってそこに位置する確率により画像ウインドウのみを処理してもよい。言い換えると、オブジェクト検出器204を採用する前に、背景に関連する画像ウインドウは、オブジェクト検出器204によって判定された確率に従って除去される。 Also, as mentioned above, the outputs of the object detectors 204 1 , 204 2 , 204 3 206 1 , 206 2 , and 206 3 are associated with their respective image window sizes for the input image 208. In particular, the output from the object detectors 204 1 , 204 2 and 204 3 is associated with the same first image window size in image 208. Similarly, the output from the object detectors 206 1 , 206 2 , and 206 3 is associated with the same second image window size in image 208. As such, for the first image window size, only one of the object detectors 204 1 , 204 2 and 204 3 may be employed to detect and classify the objects in the input image 208. .. Similarly, for the second image window size, only one of the object detectors 206 1 , 206 2 , and 206 3 may be employed to detect and classify the objects in the input image 208. Typically, an object detector with a CNN showing a smaller number of layers is detected. However, if the detection confidence level is not sufficient, different detectors with a larger number of images may be employed, thus reducing the complexity of the calculation (ie, on average). For example, if the detection reliability created by the object detector 204 1 is not sufficient, then the object detector 204 2 will be adopted. Nevertheless, the object detector 204 2 may process only the image window with the probability that the object will be located there above a predetermined value. In other words, prior to adopting the object detector 204 2 , the image window associated with the background is removed according to the probability determined by the object detector 204 1 .

訓練
上記説明されたように、開示される技術に従ったCNNは、複数のスケール検出器を含む。各々のスケール検出器は、複数のオブジェクト検出器を含む。各々のオブジェクト検出器は、それぞれのCNNを含む。スケール検出器の各々がオブジェクト検出器及びダウンサンプラの同一の構成を示すとき、並びにオブジェクト検出器におけるCNNが同様の特性を有する層のグループを示すとき(すなわち、同一のフィルタサイズ、ストライド、及び活性化関数を示し、同一に順序付けられる)、オブジェクト検出器のCNNは次いで、共通層を有するように訓練される。
Training As explained above, CNNs according to the disclosed techniques include multiple scale detectors. Each scale detector contains a plurality of object detectors. Each object detector contains its own CNN. When each of the scale detectors shows the same configuration of the object detector and the downsampler, and when the CNN in the object detector shows a group of layers with similar properties (ie, the same filter size, stride, and activity). The CNN of the object detector is then trained to have a common layer (showing the activation function and being ordered in the same order).

上記及び以下の本明細書における用語「同様の特性を有する層のグループ」は、層のグループに関連し、各々のグループにおける層は、同一のフィルタサイズ、ストライド、及び活性化関数を示し、グループにおける層は、同一に順序付けられる。上記及び以下の本明細書における用語「共通層」は、同様の特性を有する層のグループに関連し(すなわち、異なるオブジェクト検出器における)、グループにおける対応する層(すなわち、各々のグループにおける第1の層、各々のグループにおける第2の層など)は、同様の重み及びパラメータを有する。例えば、図4を参照して、スケール検出器202及び202は、オブジェクト検出器及びダウンサンプラの同一の構成を示す。更に、オブジェクト検出器204、204、204、206、206、及び206のCNNにおける層1-M1は、同様の特性を有する層のグループであり、それらのオブジェクト検出器のそれぞれのCNNは、共通層を有するように訓練される。また、オブジェクト検出器204、204、206、及び206のCNNにおける層M1+1-M2はまた、同様の特性を有する層のグループであり、それらのオブジェクト検出器のそれぞれのCNNは、共通層を有するように訓練される。同様に、オブジェクト検出器204及び206のCNNの層M2+1-M3は、同様の特性を有する層のグループであり、それらのオブジェクト検出器のそれぞれのCNNは、共通層を有するように訓練される。 The terms "groups of layers with similar properties" above and below are associated with groups of layers, where the layers in each group exhibit the same filter size, stride, and activation function, groups. The layers in are ordered in the same order. The term "common layer" in the above and below is associated with a group of layers having similar properties (ie, in different object detectors) and the corresponding layer in the group (ie, the first in each group). Layers, a second layer in each group, etc.) have similar weights and parameters. For example, with reference to FIG. 4, scale detectors 202 1 and 202 2 show the same configuration of an object detector and a downsampler. Furthermore, layers 1-M1 in the CNN of the object detectors 204 1 , 204 2 , 204 3 , 206 1 , 206 2 , and 206 3 are a group of layers with similar properties, respectively. CNNs are trained to have a common layer. Also, the layers M1 + 1-M2 in the CNNs of the object detectors 204 2 , 204 3 , 206 2 and 2063 are also a group of layers with similar properties, and the respective CNNs of those object detectors are common. Trained to have layers. Similarly, the CNN layers M2 + 1 -M3 of the object detectors 204 3 and 2063 are a group of layers with similar properties, and each CNN of those object detectors is trained to have a common layer. The object.

1つの代替手段に従って、CNNシステムにおけるオブジェクト検出器は、各々が予め定められたそれぞれの分類ベクトルを有する、同一の訓練サンプル又はサンプル(複数)が提供される。サンプル又はサンプル(複数)のサイズは、それへの入力における画像に対する各々のオブジェクト検出器と関連付けられた画像ウインドウサイズに対応する(例えば、図3B及び4におけるI1×I2、K1×K2、及びJ1×J2)。各々のオブジェクト検出器は、それに提供された訓練サンプル内のオブジェクトを検出及び分類するためにそれぞれのCNN及び分類器を採用し、各々のサンプルのそれぞれの分類ベクトルを作成する。それらの分類ベクトルは、予め定められた分類ベクトルと比較される。オブジェクト検出器のそれぞれのCNNによって作成された分類ベクトルとそれぞれの予め定められた分類ベクトルとの間の誤差(例えば、差異の二乗和、ログ損失、softmaxlog損失)が判定される。この誤差を最小化する重み及びパラメータについての補正係数は次いで、各々のそれぞれのオブジェクト検出器における各々のCNNの重み及びパラメータについて判定される。CNNの重み及びパラメータは次いで、それに従って更新される。全てのオブジェクト検出器のそれぞれのCNNにおける同様の特性を有する層のグループの全ての重み及びパラメータは次いで、共通層を作成するために、平均化され、同様の特性を有する層のそれぞれのグループに適用される。例えば、全てのオブジェクト検出器における全てのCNNの第1のM1層についての重み及びパラメータが平均化される。同様に、全てのオブジェクト検出器における全てのCNNのM1+1-M2層についての重み及びパラメータが平均化されるなどである。更新された重み及びパラメータを平均化し、補正係数を平均化し、それらの平均化された補正係数に従って重み及びパラメータを更新することは、CNNが同一の重み及びパラメータにより初期化されるときに同等である。 According to one alternative, the object detectors in the CNN system are provided with the same training sample or sample, each with its own predetermined classification vector. The size of the sample or sample corresponds to the image window size associated with each object detector for the image at its input (eg, I1xI2, K1xK2, and J1 in FIGS. 3B and 4). × J2). Each object detector employs its own CNN and classifier to detect and classify the objects in the training sample provided to it and creates its own classification vector for each sample. Those classification vectors are compared with a predetermined classification vector. The error between the classification vector created by each CNN of the object detector and each predetermined classification vector (eg, sum of squares of differences, log loss, softmaxlog loss) is determined. The correction factors for the weights and parameters that minimize this error are then determined for the weights and parameters for each CNN in each respective object detector. The CNN weights and parameters are then updated accordingly. All weights and parameters of groups of layers with similar properties in their respective CNNs of all object detectors are then averaged to each group of layers with similar properties to create a common layer. Applies. For example, the weights and parameters for the first M1 layer of all CNNs in all object detectors are averaged. Similarly, the weights and parameters for the M1 + 1-M2 layers of all CNNs in all object detectors are averaged, and so on. Averaging the updated weights and parameters, averaging the correction factors, and updating the weights and parameters according to those averaged correction factors is equivalent when the CNN is initialized with the same weights and parameters. be.

別の代替手段に従って、スケール検出器の各々がオブジェクト検出器及びダウンサンプラの同一の構成を示すとき、並びにオブジェクト検出器におけるCNNが同様の特性を有する層のグループを示すとき、スケール検出器の単一のインスタンスが次いで訓練されてもよい。スケール検出器のこの単一のインスタンスは、本明細書で「訓練スケール検出器」と称される。訓練スケール検出器により開示される技術に従ってCNNを訓練するために、訓練スケール検出器は、各々が予め定められたそれぞれの分類ベクトルを有する、訓練サンプルが提供される。1つの代替手段に従って、オブジェクトのリストを含む画像及び境界ボックスは、訓練スケール検出器に提供される。別の代替手段に従って、サンプルは、スケール検出器におけるオブジェクト検出器への入力に対して最大画像ウインドウサイズ(例えば、図3B及び4におけるJ1×J2)と類似のサイズ(すなわち、必ずしも同様でない)を示す。それらのサンプルは次いで、他のオブジェクト検出器のそれぞれのサイズ(例えば、図3B及び4におけるI1×I2、K1×K2)を示す訓練サンプルを作成するためにダウンサンプルされる(すなわち、オブジェクト検出器102-図3Bにおけるダウンサンプル110L-1及び110L-2と類似した訓練スケール検出器のダウンサンプルによって)。各々のオブジェクト検出器は、それに提供された訓練サンプル内のオブジェクトを検出及び分類するためにそれぞれのCNN及び分類器を採用し、各々のサンプルのそれぞれの分類ベクトルを作成する。それらの分類ベクトルは、予め定められた分類ベクトルと比較される。CNNの分類ベクトルと予め定められた分類ベクトルとの間の誤差が判定される。 According to another alternative, when each of the scale detectors shows the same configuration of the object detector and the downsampler, and when the CNN in the object detector shows a group of layers with similar properties, the scale detector alone. One instance may then be trained. This single instance of the scale detector is referred to herein as the "training scale detector". To train a CNN according to the techniques disclosed by the training scale detector, the training scale detector is provided with a training sample, each having its own predetermined classification vector. According to one alternative, an image containing a list of objects and a bounding box are provided to the training scale detector. According to another alternative, the sample has a size similar to (ie, not necessarily) the maximum image window size (eg, J1 × J2 in FIGS. 3B and 4) for input to the object detector in the scale detector. show. Those samples are then downsampled to create training samples showing the respective sizes of the other object detectors (eg, I1xI2, K1xK2 in FIGS. 3B and 4) (ie, object detectors). 102 i -By downsampling a training scale detector similar to the downsamples 110 L-1 and 110 L-2 in Figure 3B). Each object detector employs its own CNN and classifier to detect and classify the objects in the training sample provided to it and creates its own classification vector for each sample. Those classification vectors are compared with a predetermined classification vector. The error between the CNN classification vector and the predetermined classification vector is determined.

図3A、3B、及び4と共に上記説明されたなど構成における複数のスケール検出器を採用するために、上記言及された誤差を最小化する重み及びパラメータについての補正係数は次いで、訓練スケール検出器における各々のそれぞれのオブジェクト検出器における各々のCNNの重み及びパラメータについて判定される。CNNの重み及びパラメータは次いで、それに従って更新される。訓練スケール検出器における全てのオブジェクト検出器のそれぞれのCNNにおける同様の特性を有する層の全てのグループの重み及びパラメータは次いで、共通層を作成するために、平均化され、同様の特性を有する層のそれぞれのグループに適用される。訓練スケール検出器のCNNの重み及びパラメータが判定されると、この訓練スケール検出器の複製は、スケール検出器108~108(図3A)の各々の1つを実装するように配置され、開示される技術のCNNシステムを定義する。 In order to employ multiple scale detectors in configurations such as those described above with FIGS. 3A, 3B, and 4, correction factors for the weights and parameters that minimize the errors mentioned above are then in the training scale detector. Determined for each CNN weight and parameter in each respective object detector. The CNN weights and parameters are then updated accordingly. The weights and parameters of all groups of layers with similar properties in their respective CNNs of all object detectors in the training scale detector are then averaged and layers with similar properties to create a common layer. Applies to each group of. Once the CNN weights and parameters of the training scale detector have been determined, a replica of this training scale detector is arranged to mount each one of the scale detectors 108 1-108 N (FIG. 3A). Define a CNN system for the disclosed technology.

訓練の間、CNNの重み及びパラメータが更新され、その結果、この誤差が最小化される。そのような最適化は、例えば、確率的勾配降下法(SGD)などの勾配降下法工程を採用して実装されてもよい。勾配降下法工程に従って、CNNにおける層ごと及びサンプルごとに判定された重み及びパラメータ(又は、新たな重み及びパラメータ)に対する補正は、全てのサンプルについて平均化される。重み及びパラメータに対する補正は、CNNの重み及びパラメータに対する誤差の偏微分に従って判定される(すなわち、CNNが合成関数として見なされてもよいから)。この工程は、判定された数の反復、又は誤差が予め定められた値を下回るまでのいずれかで複数の反復で繰り返される。SGDに従って、反復の各々において、サンプルの一部のみが反復の各々において採用される。更に、連鎖法則、層への入力、層の出力、及び誤差に対する出力の導関数は、その層の重み及びパラメータの導関数を判定するために必要とされる。 During training, the CNN weights and parameters are updated, thus minimizing this error. Such optimization may be implemented by adopting a gradient descent process such as, for example, Stochastic Gradient Descent (SGD). According to the gradient descent process, the corrections for the weights and parameters (or new weights and parameters) determined layer by layer and sample by sample in the CNN are averaged for all samples. Corrections for weights and parameters are determined according to the partial derivative of the error with respect to the weights and parameters of the CNN (ie, because the CNN may be considered as a synthetic function). This step is repeated in multiple iterations, either by a determined number of iterations or until the error falls below a predetermined value. According to the SGD, at each iteration, only a portion of the sample is adopted at each iteration. In addition, chain rules, inputs to layers, outputs of layers, and derivatives of outputs to errors are needed to determine the derivatives of the layers' weights and parameters.

上記言及されたように、開示される技術に従ってCNNによって提供された分類ベクトルは、画像ウインドウ補正係数を含む。訓練の間に画像ウインドウ補正係数を提供するようにCNNを訓練するために、各々の分類ベクトルに対応する画像ウインドウの位置と方位との間の差異(すなわち、特徴マップにおけるこのベクトルのインデックスによって定義されるような)、及びサンプルの実際の位置と方位との間の差異が判定される。この差異は、例えば、確率的勾配降下法を使用して最小化される。 As mentioned above, the classification vector provided by CNN in accordance with the disclosed technology comprises an image window correction factor. To train the CNN to provide image window correction factors during training, the difference between the position and orientation of the image window corresponding to each classification vector (ie defined by the index of this vector in the feature map). As such), and the difference between the actual position and orientation of the sample is determined. This difference is minimized, for example, using the stochastic gradient descent method.

訓練データ
概して、CNNは、入力画像内のオブジェクトを定義するように訓練され、CNNが検出するように訓練されたオブジェクトが入力画像内の様々な位置に存在する確率に関連する情報を作成する。CNNは、各々が予め定められた分類ベクトルと関連付けられた、サンプル(画像又はいずれかの他のデータ)を含む訓練セットを使用して訓練される。訓練するために採用されたサンプルは典型的には、画像から切り取られた画像ウインドウである。各々のサンプルは、画像内のオブジェクトを有する画像ウインドウの重複に従って分類される(すなわち、クラスはサンプルについて判定される)。サンプルが画像内のいずれかのオブジェクトと重複しないとき、そのサンプルは、背景として分類される。上記言及されたように、訓練工程は、CNNの出力値と採用されるサンプルと関連付けられた値との間の誤差を削減するように(例えば、差異の二乗和、ログ損失、softmaxlog損失)CNNパラメータを修正する。
Training Data Generally, the CNN is trained to define an object in the input image and creates information related to the probability that the object trained to be detected by the CNN will be in various positions in the input image. CNNs are trained using a training set containing samples (images or any other data), each associated with a predetermined classification vector. The sample used for training is typically an image window clipped from the image. Each sample is categorized according to the overlap of the image window with the objects in the image (ie, the class is determined for the sample). When a sample does not overlap with any object in the image, the sample is classified as a background. As mentioned above, the training process is designed to reduce the error between the output value of the CNN and the value associated with the sample adopted (eg, sum of squares of differences, log loss, softmaxlog loss). Modify the parameters.

開示される技術に従って、初期数の訓練サンプルを有し、検出及び分類されたオブジェクトを有する初期訓練セットを仮定すると、訓練セットにおける訓練サンプルの数は、初期数を上回って増加することができる。言い換えると、より多くの数の訓練サンプルを有する訓練セットは、初期の訓練セットから作成される。ここで、開示される技術の更なる実施形態に従って、訓練セットを判定するために採用された、その中にオブジェクト(例えば、面)を有する画像250、280、及び310を概略的に表す、図5A~5Hを参照する。最初に、画像250、280、及び310内のオブジェクト253、255、283、285、313、及び315が検出される。その後、予め定められたサイズを示す四角形境界は、検出されたオブジェクトの周りで定義される。四角形境界などは、上記及び以下の本明細書でオブジェクトの「境界ボックス」と称される。 Assuming an initial training set with an initial number of training samples and with detected and classified objects according to the disclosed technique, the number of training samples in the training set can be increased above the initial number. In other words, a training set with a larger number of training samples is created from the initial training set. Here, a diagram schematically illustrating images 250, 280, and 310 having an object (eg, a face) therein, employed to determine a training set, according to a further embodiment of the disclosed technique. See 5A-5H. First, objects 253, 255, 283, 285, 313, and 315 in images 250, 280, and 310 are detected. A rectangular boundary indicating a predetermined size is then defined around the detected object. Rectangle boundaries and the like are referred to as "boundary boxes" of objects in the above and below.

画像250、280、及び310内のオブジェクト253、255、283、285、313、及び315の各々は、それぞれの境界ボックスによって境界がつけられる。画像250内では、オブジェクト253は、境界ボックス252によって境界がつけられ、オブジェクト255は、境界ボックス254によって境界がつけられる。画像280内では、オブジェクト283は、境界ボックス282によって境界がつけられ、オブジェクト285は、境界ボックス284によって境界がつけられる。画像310内では、オブジェクト313は、境界ボックス312によって境界がつけられ、オブジェクト315は、境界ボックス314によって境界がつけられる。各々の境界ボックスは、それぞれのサイズを示す。画像250、280、及び310内では、2つの異なる境界ボックスサイズが例示される。境界ボックス252、282、及び314は、第1のサイズを示し、境界ボックス254、284、及び312は、第2のサイズを示す。各々の境界ボックスは、それぞれの相対座標系と関連付けられる。境界ボックス252は、座標系256と関連付けられ、境界ボックス254は、座標系258と関連付けられ、境界ボックス282は、座標系286と関連付けられ、境界ボックス284は、座標系288と関連付けられ、境界ボックス312は、座標系316と関連付けられ、境界ボックス214は、座標系318と関連付けられる。 Each of the objects 253, 255, 283, 285, 313, and 315 in images 250, 280, and 310 is bounded by their respective bounding boxes. Within the image 250, the object 253 is bounded by the bounding box 252 and the object 255 is bounded by the bounding box 254. Within the image 280, the object 283 is bounded by the bounding box 282 and the object 285 is bounded by the bounding box 284. Within image 310, the object 313 is bounded by the bounding box 312 and the object 315 is bounded by the bounding box 314. Each border box indicates its size. Within images 250, 280, and 310, two different bounding box sizes are illustrated. Boundary boxes 252, 282, and 314 indicate the first size, and boundary boxes 254, 284, and 312 indicate the second size. Each bounding box is associated with its own relative coordinate system. The boundary box 252 is associated with the coordinate system 256, the boundary box 254 is associated with the coordinate system 258, the boundary box 282 is associated with the coordinate system 286, and the boundary box 284 is associated with the coordinate system 288. 312 is associated with the coordinate system 316 and the boundary box 214 is associated with the coordinate system 318.

オブジェクトのキーポイントごとに、それぞれの特徴位置が境界ボックスと関連付けられた座標系において判定される。図5A~5Hにおいて示される例では、オブジェクトの特徴タイプは、顔の目、鼻、及び口である(すなわち、オブジェクトは顔である)。図5Bを参照して、境界ボックス252の座標系256において、ポイント260及び260は、顔253の目の位置を表し、ポイント262は、顔253の鼻の位置を表し、ポイント264、264、及び264は、顔253の口の位置を表す。同様に、境界ボックス254の座標系258において、ポイント266及び266は、オブジェクト255の目の位置を表し、ポイント268は、オブジェクト255の鼻の位置を表し、ポイント270、270、及び270は、オブジェクト255の口の位置を表す。図5Dを参照して、境界ボックス282の座標系286において、ポイント290及び290は、オブジェクト283の目の位置を表し、ポイント292は、オブジェクト283の鼻の位置を表し、ポイント294、294、及び294は、オブジェクト283の口の位置を表す。同様に、境界ボックス284の座標系288において、ポイント296及び296は、オブジェクト285の目の位置を表し、ポイント298は、オブジェクト285の鼻の位置を表し、ポイント300、300、及び300は、オブジェクト285の口の位置を表す。図5Fを参照して、境界ボックス312の座標系316において、ポイント320及び320は、オブジェクト313の目の位置を表し、ポイント322は、オブジェクト313の鼻の位置を表し、ポイント322、322、及び322は、オブジェクト313の口の位置を表す。同様に、境界ボックス314の座標系218において、ポイント326及び326は、オブジェクト315の目の位置を表し、ポイント328は、オブジェクト315の鼻の位置を表し、ポイント329、329、及び329は、オブジェクト315の口の位置を表す。典型的には、それぞれの座標系におけるオブジェクトのキーポイントの位置は、例えば、0~1になるように正規化される(すなわち、境界ボックスの角は、座標[0,0]、[0,1]、[1,1]、[1,0]に位置する)。言い換えると、それぞれの境界ボックス252、254、282、284、312、及び314の座標系256、258、286、288、316、及び316はそれぞれ、境界ボックスの位置及びサイズに対して正規化される。よって、様々な特徴の位置は、境界ボックスのサイズと独立して関連することができる。 For each key point of the object, each feature position is determined in the coordinate system associated with the bounding box. In the example shown in FIGS. 5A-5H, the feature types of the object are facial eyes, nose, and mouth (ie, the object is a face). With reference to FIG. 5B, in the coordinate system 256 of the boundary box 252, points 260 1 and 260 2 represent the position of the eyes of face 253, point 262 represents the position of the nose of face 253, and points 264 1 ,. 264 2 and 264 3 represent the position of the mouth of the face 253. Similarly, in the coordinate system 258 of the boundary box 254, points 266 1 and 266 2 represent the position of the eyes of object 255, point 268 represents the position of the nose of object 255, points 270 1 , 270 2 , and. 270 3 represents the position of the mouth of the object 255. With reference to FIG. 5D, in the coordinate system 286 of the boundary box 282, points 290 1 and 290 2 represent the position of the eyes of object 283, point 292 represents the position of the nose of object 283, and points 294 1 , 294 2 and 294 3 represent the position of the mouth of the object 283. Similarly, in the coordinate system 288 of the boundary box 284, points 296 1 and 296 2 represent the position of the eyes of object 285, point 298 represents the position of the nose of object 285, points 300 1 , 300 2 , and. 300 3 represents the position of the mouth of the object 285. With reference to FIG. 5F, in the coordinate system 316 of the boundary box 312, points 320 1 and 320 2 represent the position of the eyes of object 313, point 322 represents the position of the nose of object 313, points 322 1 , 322 2 and 322 3 represent the position of the mouth of the object 313. Similarly, in the coordinate system 218 of the boundary box 314, points 326 1 and 326 2 represent the position of the eyes of object 315, point 328 represents the position of the nose of object 315, points 329 1 , 329 2 , and. 329 3 represents the position of the mouth of the object 315. Typically, the position of the object's keypoints in each coordinate system is normalized to be, for example, 0 to 1 (ie, the corners of the bounding box are the coordinates [0,0], [0,0, 1], [1,1], [1,0]). In other words, the coordinate systems 256, 258, 286, 288, 316, and 316 of the respective boundary boxes 252, 254, 282, 284, 312, and 314 are normalized to the position and size of the boundary boxes, respectively. .. Thus, the location of various features can be related independently of the size of the bounding box.

図5Gを参照して、様々なオブジェクトのキーポイントの正規化された位置は、任意の境界ボックス330において重ね合わせて表される。境界ボックスの座標系が正規化されるので(すなわち、1つの座標系における位置が別の座標系における同一の位置に対応する)、異なる境界ボックスにおける同一のオブジェクトのキーポイントタイプ(例えば、目)と関連付けられた位置が平均化されてもよい。 With reference to FIG. 5G, the normalized positions of the key points of the various objects are superposed in any bounding box 330. Since the coordinate system of the bounding box is normalized (ie, the position in one coordinate system corresponds to the same position in another coordinate system), the keypoint type of the same object in different bounding boxes (eg, eyes). The positions associated with may be averaged.

その後、オブジェクトのキーポイントタイプ(例えば、目、鼻、口)ごとに、特徴参照位置が判定される。図5Hを参照して、境界ボックスについて、任意のサイズ、ポイント336は、ポイント260、290、326266、296、及び320の位置の平均位置を表し、ポイント336は、ポイント260、290、326、266、296、及び320の位置の平均位置を表す。ポイント338は、ポイント262、292、328、268、298、及び322の位置の平均位置を表す。ポイント340は、ポイント264、294、329、270、300、及び324の位置の平均位置を表す。ポイント340は、ポイント264、294、329、264、300、及び324の位置の平均位置を表し、ポイント340は、ポイント264、294、329、270、300、及び324の位置の平均位置を表す。 After that, the feature reference position is determined for each key point type of the object (eg, eyes, nose, mouth). With reference to FIG. 5H, for the bounding box, any size, point 336 1 represents the average position of the positions of points 260 1 , 290 1 , 326 1266 1 , 296 1 , and 320 1 , where point 336 2 is. , Points 260 2 , 290 2 , 326 2 , 266 2 , 296 2 , and 320 2 represent the average position of the positions. Point 338 represents the average position of the positions of points 262, 292, 328, 268, 298, and 322. Point 340 1 represents the average position of the positions of points 264 1 , 294 1 , 329 1 , 270 1 , 300 1 , and 324 1 . Point 340 2 represents the average position of the positions of points 264 2 , 294 2 , 3292 2 , 264 2 , 300 2 , and 3242, and point 340 3 is point 264 3 , 294 3 , 329 3 , 270 3 , Represents the average position of the positions of 300 3 and 324 3 .

それらの平均位置は、特徴参照位置を定義する。ポイント336及び336は、目の特徴参照位置を定義し、ポイント338は、鼻の参照位置を定義し、ポイント340、340、及び340は、口の参照位置を定義する。 Their average position defines the feature reference position. Points 336 1 and 336 2 define the feature reference position of the eye, point 338 defines the reference position of the nose, and points 340 1 , 340 1 and 340 3 define the reference position of the mouth.

それらのキーポイントの参照位置が判定されると、初期訓練サンプルの各々における各々のオブジェクトは、それらのキーポイントの参照位置と位置合わせされ、その結果、各々のオブジェクトのキーポイントは、選択された位置合わせコスト関数(例えば、オブジェクトのキーポイントとキーポイントの参照位置との間の差異の二乗誤差)を最適化することによって判定された程度にそれぞれのキーポイントの参照位置と位置合わせする。その後、訓練サンプルの各々は、この参照位置から摂動され、よって、新たな訓練サンプルを作成する。摂動は、オブジェクトの水平シフト、垂直シフト、及び方位シフトのうちの少なくとも1つを含む。各々のサンプルの摂動は、選択された確率分布(例えば、ガウス)に従ってランダムに判定される。それらの摂動を採用することで、訓練セットにおける訓練サンプルの数を、その初期のサイズを上回って増加させることができる。この工程はまた、「訓練サンプル増強」と称され、それによって作成された訓練サンプルは、「増強された訓練サンプル」と称される。図5A~5Hにおいて示される例示的な訓練セットでは、各々の画像は、2つの境界ボックスサイズを示す訓練サンプルを含む。しかしながら、概して、1つのサイズの境界ボックスを示す訓練サンプルは、異なるサイズの境界ボックスを示す訓練サンプルを作成するように縮尺化されてもよい。この縮尺化された境界ボックスは次いで、訓練サンプルとして採用されてもよい。 Once the reference positions for those key points were determined, each object in each of the initial training samples was aligned with the reference position for those key points, so that the key points for each object were selected. Aligns with the reference position of each keypoint to the extent determined by optimizing the alignment cost function (eg, the squared error of the difference between the keypoint of the object and the reference position of the keypoint). Each of the training samples is then perturbed from this reference position, thus creating a new training sample. Perturbations include at least one of an object's horizontal, vertical, and directional shifts. The perturbations of each sample are randomly determined according to a selected probability distribution (eg Gauss). By adopting those perturbations, the number of training samples in the training set can be increased beyond their initial size. This process is also referred to as "training sample augmentation" and the training samples produced thereby are referred to as "enhanced training samples". In the exemplary training set shown in FIGS. 5A-5H, each image contains a training sample showing two boundary box sizes. However, in general, a training sample showing a bounding box of one size may be scaled to produce a training sample showing a bounding box of a different size. This scaled bounding box may then be adopted as a training sample.

ここで、開示される技術の別の実施形態に従って動作可能である、ニューラルネットワークについての訓練セットを判定する方法を概略的に表す、図6を参照する。手順350では、訓練セットの複数の画像内のオブジェクト及びそれぞれのオブジェクトのキーポイントが検出され、予め定められたサイズを示す境界ボックスは、各々の検出されたオブジェクトの周りで定義される。オブジェクトは、例えば、人間の観察者によって(すなわち、手動で)判定されてもよい。オブジェクトはまた、自動化された検出器を採用することによって、又は準自動化された方式で判定されてもよい(例えば、オブジェクトは、自動検出器によって検出され、人間の観察者によって検証される)。 Reference is now made to FIG. 6, schematically illustrating a method of determining a training set for a neural network that is operational according to another embodiment of the disclosed technique. In step 350, objects in multiple images of the training set and key points for each object are detected, and a bounding box indicating a predetermined size is defined around each detected object. The object may be determined, for example, by a human observer (ie, manually). Objects may also be determined by adopting an automated detector or in a semi-automated manner (eg, an object is detected by an automated detector and verified by a human observer).

手順352では、境界ボックス内の各々のオブジェクトのキーポイントの位置が判定される。手順354では、オブジェクトのキーポイントタイプについて、それぞれのキーポイントの参照位置が判定される。それぞれのキーポイントの参照位置は、同一のタイプのオブジェクトのキーポイントの平均位置に従って判定され、平均値は、初期訓練セットにおける全てのオブジェクトのオブジェクトのキーポイント位置に従って判定される。 In step 352, the position of the key point of each object in the bounding box is determined. In step 354, the reference position of each key point is determined for the key point type of the object. The reference position of each key point is determined according to the average position of the key points of the same type of object, and the average value is determined according to the key point position of the object of all objects in the initial training set.

手順356では、それぞれの参照位置を有する初期訓練セットにおける全ての訓練サンプルを登録する。 In step 356, all training samples in the initial training set with their respective reference positions are registered.

手順358では、参照位置からの位置合わせされたサンプルの各々をランダムに摂動させる。 In step 358, each of the aligned samples from the reference position is randomly perturbed.

ここで、開示される技術の更なる実施形態に従って動作可能である、CNNについての方法を概略的に表す、図7を参照する。手順400では、増強された訓練サンプルは、初期訓練セットから作成される。図5A~5H及び6と共に上記説明されている。 Here, reference is made to FIG. 7, which schematically illustrates a method for a CNN that is operational according to a further embodiment of the disclosed technique. In step 400, the augmented training sample is created from the initial training set. It is described above with FIGS. 5A-5H and 6.

手順402では、オブジェクト検出器のCNNは、共通層を有するように訓練される。1つの代替手段に従って、オブジェクト検出器の同様の特性を有する層の全てのグループの重み及びパラメータ(又は、それらに対する補正係数)は、共通層を作成するように平均化される。別の代替手段に従って、単一の訓練スケール検出器が訓練され、訓練スケール検出器の複製が配置され、CNNシステムを定義する。各々の複製は、入力画像のそれぞれの縮尺化されたバージョンと関連付けられ、訓練スケール検出器の複製は、CNNシステムを定義する。 In step 402, the object detector CNN is trained to have a common layer. According to one alternative, the weights and parameters (or correction factors for them) of all groups of layers with similar properties of the object detector are averaged to create a common layer. According to another alternative, a single training scale detector is trained, a replica of the training scale detector is deployed, and a CNN system is defined. Each replica is associated with a scaled version of the input image, and a copy of the training scale detector defines a CNN system.

手順404では、少なくとも1つの画像内の少なくとも1つのオブジェクトは、定義されたCNNシステムを採用することによって検出及び分類される。少なくとも1つの画像内の少なくとも1つのオブジェクトを検出及び分類することは、以下のサブ手順を含む:
複数のダウンサンプルされた画像を作成するために、複数のダウンサンプリング比に従って画像をダウンサンプリングし、各々のダウンサンプルされた画像は、それぞれのダウンサンプリング比と関連付けられ、
ダウンサンプルされた画像ごとに、対応するCNNによって、画像に対する予め定められた画像ウインドウサイズにおいてオブジェクトを検出し、
画像内のオブジェクトを分類する。それぞれのダウンサンプルされた画像内のオブジェクトを検出し、同一のそれぞれのダウンサンプリング比と関連付けられたCNNは、CNNの少なくとも1つのグループを定義する。畳み込みネットワークのグループにおけるCNNは、共通畳み込み層と関連付けられる。
In step 404, at least one object in at least one image is detected and classified by adopting a defined CNN system. Detecting and classifying at least one object in at least one image involves the following sub-procedures:
To create multiple downsampled images, images are downsampled according to multiple downsampling ratios, and each downsampled image is associated with its own downsampling ratio.
For each downsampled image, the corresponding CNN detects the object at a predetermined image window size for the image.
Classify objects in the image. The CNNs that detect objects in each downsampled image and are associated with the same each downsampling ratio define at least one group of CNNs. CNNs in a group of convolutional networks are associated with a common convolutional layer.

図4を参照して、上記説明されたように、オブジェクト検出器204及び206のそれぞれのCNNは、CNNのグループを定義する。同様に、オブジェクト検出器204及び206のそれぞれのCNNは、CNNのグループを定義する。 With reference to FIG. 4, each CNN of the object detectors 204 1 and 206 2 defines a group of CNNs, as described above. Similarly, each CNN of the object detectors 204 2 and 206 3 defines a group of CNNs.

当業者は、開示される技術が上記で特に示され、及び説明されたものに限定されないことを認識するであろう。開示される技術の範囲は、以下の特許請求の範囲のみによって定義される。
Those skilled in the art will recognize that the techniques disclosed are not limited to those specifically indicated and described above. The scope of the disclosed technology is defined solely by the following claims.

Claims (14)

少なくとも1つの画像内の少なくとも1つのオブジェクトを検出する畳み込みニューラルネットワークシステムであって、前記システムは、
複数のオブジェクト検出器であって、各々のオブジェクト検出器は、前記少なくとも1つの画像内の予め定められた画像ウインドウサイズに対応し、各々の前記オブジェクト検出器は、前記少なくとも1つの画像に対するダウンサンプリング比と関連付けられ、各々の前記オブジェクト検出器は、
数の畳み込み層を含む畳み込みニューラルネットワークと、
前記畳み込みニューラルネットワークからの結果に従って前記少なくとも1つの画像内のオブジェクトを分類するための、前記畳み込みニューラルネットワークと結合されたオブジェクト分類器と
を含む、オブジェクト検出器
を備え
同一の前記ダウンサンプリング比と関連付けられた前記オブジェクト検出器は、共通畳み込み層と関連付けられるオブジェクト検出器のグループにおけるオブジェクト検出器の少なくとも1つのグループを定義する、畳み込みニューラルネットワークシステム。
A convolutional neural network system that detects at least one object in at least one image.
A plurality of object detectors, each of which corresponds to a predetermined image window size within the at least one image, and each of the object detectors for the at least one image. Associated with the downsampling ratio, each said object detector
A convolutional neural network containing multiple convolutional layers,
An object classifier coupled with the convolutional neural network for classifying objects in the at least one image according to the results from the convolutional neural network .
Including the object detector
Equipped with
The object detector associated with the same downsampling ratio is a convolutional neural network system that defines at least one group of object detectors in a group of object detectors associated with a common convolutional layer .
各々がそれぞれのダウンサンプリング比と関連付けられた複数のダウンサンプラであって、前記ダウンサンプラは、前記少なくとも1つの画像の縮尺化されたバージョンを作成するように構成され、前記縮尺化されたバージョンの各々は、それぞれの前記ダウンサンプリング比と関連付けられる、ダウンサンプラをさらに含む、請求項1に記載の畳み込みニューラルネットワークシステム。 Each is a plurality of downsamplers associated with their respective downsampling ratios, the downsampler being configured to produce a scaled version of the at least one image, said scaled version. The convolutional neural network system of claim 1, wherein each of the convolutional neural networks further comprises a downsampler associated with the respective downsampling ratio. 前記ダウンサンプラ、及び前記少なくとも1つの画像に対する同一のそれぞれの画像ウインドウサイズと関連付けられた前記オブジェクト検出器は、スケール検出器を定義し、各々の前記スケール検出器は、前記少なくとも1つの画像のそれぞれの縮尺化されたバージョンと関連付けられる、請求項2に記載の畳み込みニューラルネットワークシステム。 The downsampler, and the object detector associated with the same respective image window size for the at least one image, define a scale detector, and each said scale detector is each of the at least one image. The convolutional neural network system according to claim 2, which is associated with a scaled version of. 前記オブジェクト分類器は、畳み込み分類器であり、前記それぞれの畳み込みニューラルネットワークによって提供された特徴マップにより少なくとも1つの分類フィルタを畳み込む、請求項1に記載の畳み込みニューラルネットワークシステム。 The convolutional neural network system according to claim 1, wherein the object classifier is a convolutional classifier and convolves at least one classification filter with a feature map provided by each of the convolutional neural networks. 前記それぞれの畳み込みニューラルネットワークは複数の特徴を含む特徴マップを作成し、各々のエントリは、前記エントリと関連付けられた画像ウインドウ内で特徴強度を表し、前記画像ウインドウは、前記それぞれの画像ウインドウサイズを示す、請求項4に記載の畳み込みニューラルネットワークシステム。 Each of the convolutional neural networks creates a feature map containing multiple features, each entry represents feature intensity within the image window associated with the entry, and the image window represents the respective image window size. The convolutional neural network system according to claim 4, as shown. 前記オブジェクト分類器は、前記オブジェクトが前記特徴と関連付けられた画像ウインドウの各々に位置する確率を提供する、請求項5に記載の畳み込みニューラルネットワークシステム。 The convolutional neural network system of claim 5, wherein the object classifier provides the probability that the object will be located in each of the image windows associated with the feature. 前記オブジェクト分類器は、前記特徴マップと関連付けられた画像ウインドウごとの画像ウインドウ補正係数を含む分類ベクトルを前記画像ウインドウごとに提供し、前記画像ウインドウ補正係数は、各々の画像ウインドウの幅及び高さへの補正、各々の画像ウインドウの位置への補正、並びに各々の画像ウインドウの方位への補正を含む、請求項6に記載の畳み込みニューラルネットワークシステム。 The object classifier provides a classification vector for each image window that includes an image window correction coefficient for each image window associated with the feature map, the image window correction coefficient being the width and height of each image window. The convolutional neural network system of claim 6, comprising corrections to the edges, corrections to the position of each image window, and corrections to the orientation of each image window. 単一の訓練スケール検出器、スケール検出器がオブジェクト検出器の同一の構成を示すとき、及びオブジェクト検出器におけるCNNが同様の特性を有するグループの層を示すときに訓練される、請求項3に記載の畳み込みニューラルネットワークシステム。 3. A single training scale detector is trained when the scale detector shows the same configuration of the object detector and when the CNN in the object detector shows a layer of groups with similar characteristics. Convolutional neural network system described in. 前記単一の訓練スケール検出器を訓練する前に、訓練セットにおける訓練サンプルの数は、
それぞれの訓練サンプルの境界ボックス内の各々のオブジェクトのキーポイントの位置を判定し、
オブジェクトのキーポイントタイプについて、同一のタイプのオブジェクトのキーポイントの平均位置に従って、それぞれの特徴参照位置を判定し、平均値は、初期訓練セットにおける全てのオブジェクトのオブジェクトのキーポイント位置に従って判定され、
初期訓練セットにおける全ての訓練サンプルを特徴参照位置に登録し、
この参照位置からの位置合わせされた訓練サンプルの各々をランダムに摂動させる
ことによって訓練サンプルの初期数を上回って増加する、請求項8に記載の畳み込みニューラルネットワークシステム。
Before training the single training scale detector, the number of training samples in the training set
Determine the location of each object's keypoint within the bounding box of each training sample and
For the keypoint type of an object, each feature reference position is determined according to the average position of the keypoints of the same type of object, and the average value is determined according to the keypoint position of the object of all objects in the initial training set.
All training samples in the initial training set are registered in the feature reference position and
The convolutional neural network system of claim 8, wherein each of the aligned training samples from this reference position is randomly perturbed to increase above the initial number of training samples.
畳み込みニューラルネットワーク方法であって、前記方法は、
複数のダウンサンプルされた画像を作成するために、複数のダウンサンプリング比に従って画像をダウンサンプリングする手順であって、各々のダウンサンプルされた画像は、それぞれのダウンサンプリング比と関連付けられる、前記ダウンサンプリングする手順と、
ダウンサンプルされた画像ごとに、対応する畳み込みニューラルネットワークによって、少なくとも1つの画像に対する予め定められた画像ウインドウサイズにおいてオブジェクトを検出する手順と、
前記画像内のオブジェクト分類する手順と、
を含み、
同一のそれぞれのダウンサンプリング比と関連付けられたそれぞれのダウンサンプルされた画像内のオブジェクトを検出する畳み込みニューラルネットワークは、畳み込みニューラルネットワークの少なくとも1つのグループを定義し、畳み込みニューラルネットワークのグループにおける畳み込みニューラルネットワークは、共通畳み込み層と関連付けられる、畳み込みニューラルネットワーク方法。
It is a convolutional neural network method, and the above method is
A procedure for downsampling an image according to a plurality of downsampling ratios in order to create a plurality of downsampled images, wherein each downsampled image is associated with a respective downsampling ratio. And the procedure to do
For each downsampled image, the procedure for detecting an object with a predetermined image window size for at least one image by the corresponding convolutional neural network.
The procedure for classifying objects in the image and
Including
A convolutional neural network that detects objects in each downsampled image associated with the same respective downsampling ratio defines at least one group of convolutional neural networks and is a convolutional neural network in a group of convolutional neural networks. Is a convolutional neural network method associated with a common convolutional layer.
前記画像をダウンサンプリングする前記手順の前に、
初期訓練セットから増強された訓練サンプルを作成する手順と、
共通層を有するように前記畳み込みニューラルネットワークを訓練する手順と
を更に含む、請求項10に記載の畳み込みニューラルネットワーク方法。
Prior to the procedure of downsampling the image,
Procedures for creating augmented training samples from the initial training set,
The procedure for training the convolutional neural network to have a common layer ,
The convolutional neural network method according to claim 10, further comprising.
共通層を有するように前記畳み込みニューラルネットワークを訓練することは、オブジェクト検出器の同様の特性を有する層の全てのグループの重み及びパラメータを平均化することを含む、請求項11に記載の畳み込みニューラルネットワーク方法。 22. The convolutional neural according to claim 11, wherein training the convolutional neural network to have a common layer comprises averaging the weights and parameters of all groups of layers having similar properties of the object detector. Network method. 共通層を有するための前記畳み込みニューラルネットワークは、前記増強された訓練サンプルを採用し、単一の訓練スケール検出器の複製を配置することによって前記単一の訓練スケール検出器を訓練することを含み、各々の複製は、前記少なくとも1つの画像のそれぞれの縮尺化されたバージョンと関連付けられ、前記単一の訓練スケール検出器の複製は、畳み込みニューラルネットワークシステムを定義する、請求項11に記載の畳み込みニューラルネットワーク方法。 The convolutional neural network for having a common layer comprises training the single training scale detector by adopting the enhanced training sample and arranging a replica of the single training scale detector. 11. A replica of the single training scale detector defines a convolutional neural network system, each replica being associated with a scaled version of the at least one image. Convolutional neural network method. 増強された訓練サンプルを作成する前記手順は、
それぞれの訓練サンプルの境界ボックス内の各々のオブジェクトのキーポイントの位置を判定するサブ手順と、
オブジェクトのキーポイントタイプについて、同一のタイプの前記オブジェクトのキーポイントの平均位置に従って、それぞれのキーポイントの参照位置を判定するサブ手順であって、平均値は、前記初期訓練セットにおける全てのオブジェクトの前記オブジェクトキーポイントの位置に従って判定される、前記判定するサブ手順と、
前記初期訓練セットにおける全ての訓練サンプルを特徴参照位置に登録するサブ手順と、
この参照位置から位置合わせされた訓練サンプルの各々をランダムに摂動させるサブ手順と
を含む、請求項11に記載の畳み込みニューラルネットワーク方法。
The above procedure for creating an enhanced training sample is
Sub-procedures to determine the location of key points for each object within the bounding box of each training sample,
For the keypoint type of an object, it is a sub-procedure to determine the reference position of each keypoint according to the average position of the keypoints of the object of the same type, and the average value is the average value of all the objects in the initial training set. The determination sub-procedure, which is determined according to the position of the key point of the object,
A sub-procedure for registering all training samples in the initial training set at the feature reference position,
A sub-procedure that randomly perturbs each of the training samples aligned from this reference position ,
11. The convolutional neural network method according to claim 11.
JP2018554684A 2016-04-21 2017-04-20 Series convolutional neural network Active JP7041427B2 (en)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US201662325553P 2016-04-21 2016-04-21
US201662325551P 2016-04-21 2016-04-21
US201662325562P 2016-04-21 2016-04-21
US62/325,562 2016-04-21
US62/325,551 2016-04-21
US62/325,553 2016-04-21
GB1614009.7 2016-08-16
GB1614009.7A GB2549554A (en) 2016-04-21 2016-08-16 Method and system for detecting an object in an image
US201762486997P 2017-04-19 2017-04-19
US62/486,997 2017-04-19
PCT/IL2017/050461 WO2017183034A1 (en) 2016-04-21 2017-04-20 Cascaded convolutional neural network

Publications (2)

Publication Number Publication Date
JP2019515376A JP2019515376A (en) 2019-06-06
JP7041427B2 true JP7041427B2 (en) 2022-03-24

Family

ID=66763634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018554684A Active JP7041427B2 (en) 2016-04-21 2017-04-20 Series convolutional neural network

Country Status (1)

Country Link
JP (1) JP7041427B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114995131B (en) * 2022-05-25 2023-02-03 福建德尔科技股份有限公司 Rectification control system for preparing electronic-grade trifluoromethane and control method thereof

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011572A (en) 2005-06-29 2007-01-18 Canon Inc Method, apparatus and program for discriminating pattern
JP2011113168A (en) 2009-11-25 2011-06-09 Fujifilm Corp Object detecting device, method, and program
JP2011170890A (en) 2011-06-06 2011-09-01 Fujifilm Corp Face detecting method, face detection device, and program
JP2016006626A (en) 2014-05-28 2016-01-14 株式会社デンソーアイティーラボラトリ Detector, detection program, detection method, vehicle, parameter calculation device, parameter calculation program, and parameter calculation method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305855A (en) * 1995-05-01 1996-11-22 Nippon Telegr & Teleph Corp <Ntt> Method and device for pattern recognition of image

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011572A (en) 2005-06-29 2007-01-18 Canon Inc Method, apparatus and program for discriminating pattern
JP2011113168A (en) 2009-11-25 2011-06-09 Fujifilm Corp Object detecting device, method, and program
JP2011170890A (en) 2011-06-06 2011-09-01 Fujifilm Corp Face detecting method, face detection device, and program
JP2016006626A (en) 2014-05-28 2016-01-14 株式会社デンソーアイティーラボラトリ Detector, detection program, detection method, vehicle, parameter calculation device, parameter calculation program, and parameter calculation method

Also Published As

Publication number Publication date
JP2019515376A (en) 2019-06-06

Similar Documents

Publication Publication Date Title
US10621477B2 (en) Cascaded convolutional neural network
CN107169421B (en) Automobile driving scene target detection method based on deep convolutional neural network
US10970543B2 (en) Distributed and self-validating computer vision for dense object detection in digital images
CN106485215B (en) Face shielding detection method based on deep convolutional neural network
CN108776772B (en) Cross-time building change detection modeling method, detection device, method and storage medium
CN109886286A (en) Object detection method, target detection model and system based on cascade detectors
CN113627228B (en) Lane line detection method based on key point regression and multi-scale feature fusion
WO2021146700A1 (en) Systems for multiclass object detection and alerting and methods therefor
CN106960195A (en) A kind of people counting method and device based on deep learning
CN108416292B (en) Unmanned aerial vehicle aerial image road extraction method based on deep learning
CN108734219B (en) End-to-end collision pit detection and identification method based on full convolution neural network structure
CN111368600A (en) Method and device for detecting and identifying remote sensing image target, readable storage medium and equipment
CN112016463A (en) Deep learning-based lane line detection method
CN110415280B (en) Remote sensing image and building vector registration method and system under multitask CNN model
EP3752955A1 (en) Image segmentation
CN113901972A (en) Method, device and equipment for detecting remote sensing image building and storage medium
CN108460336A (en) A kind of pedestrian detection method based on deep learning
CN112837320A (en) Remote sensing image semantic segmentation method based on parallel hole convolution
CN113065431A (en) Human body violation prediction method based on hidden Markov model and recurrent neural network
CN115994900A (en) Unsupervised defect detection method and system based on transfer learning and storage medium
US10861187B2 (en) Method of processing object detection data
JP7041427B2 (en) Series convolutional neural network
CN113221731B (en) Multi-scale remote sensing image target detection method and system
CN111178200A (en) Identification method of instrument panel indicator lamp and computing equipment
US11461919B2 (en) Cascaded neural network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210406

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220301

R150 Certificate of patent or registration of utility model

Ref document number: 7041427

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150