JP2021089493A - Information processing apparatus and learning method thereof - Google Patents
Information processing apparatus and learning method thereof Download PDFInfo
- Publication number
- JP2021089493A JP2021089493A JP2019218346A JP2019218346A JP2021089493A JP 2021089493 A JP2021089493 A JP 2021089493A JP 2019218346 A JP2019218346 A JP 2019218346A JP 2019218346 A JP2019218346 A JP 2019218346A JP 2021089493 A JP2021089493 A JP 2021089493A
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- recognition
- sensor
- sensing device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 title claims description 111
- 238000012545 processing Methods 0.000 claims abstract description 78
- 238000013528 artificial neural network Methods 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims description 77
- 230000006870 function Effects 0.000 claims description 26
- 238000003384 imaging method Methods 0.000 claims description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000003909 pattern recognition Methods 0.000 abstract description 40
- 238000004364 calculation method Methods 0.000 description 18
- 238000006243 chemical reaction Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 13
- 238000011176 pooling Methods 0.000 description 9
- 239000000872 buffer Substances 0.000 description 5
- 238000001994 activation Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010030 laminating Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Abstract
Description
本発明は、ニューラルネットワークを用いたパターン認識処理に関するものである。 The present invention relates to a pattern recognition process using a neural network.
認識対象の変動に対して頑健なパターン認識を可能にする手法として、コンボリューショナルニューラルネットワーク(以下CNNと略記する)に代表される階層的な演算手法が注目されている。例えば、非特許文献1には、深層学習技術に基づくパターン認識手法の様々な応用例・実装例が開示されている。
As a method that enables robust pattern recognition with respect to fluctuations in the recognition target, a hierarchical calculation method represented by a convolutional neural network (hereinafter abbreviated as CNN) is drawing attention. For example, Non-Patent
また、認識対象物の撮影環境(照明や被写体の状態等)の大きな変動に対応する手法として、特許文献1では、撮影デバイスの撮影条件を所定期間毎に変化させて画像中の顔検出確率を向上させる手法が開示されている。また、特許文献2では、顔検出の結果に基づいて撮像デバイスのゲインや露光時間を制御し、検出した人物の属性認識処理に好適な条件で画像データを再取得する手法が開示されている。
Further, as a method for dealing with large fluctuations in the shooting environment (lighting, subject state, etc.) of the recognition object, in
しかしながら、特許文献1に記載の手法では、撮影条件を所定期間毎に変化させる構成であるため、常に適切な画像の取得が可能となるわけではない。また、特許文献2に記載の手法では、撮影環境の多様な変動に対して最適な撮影条件の変更テーブルを事前に決定することが困難であるという課題がある。また、同一フレーム画像の領域毎に最適な撮影条件が異なる場合には対応することができない。
However, the method described in
本発明は、このような問題に鑑みてなされたものであり、処理対象データの多様な変動に対してよりロバストなパターン認識を可能とする技術を提供することを目的としている。 The present invention has been made in view of such a problem, and an object of the present invention is to provide a technique capable of more robust pattern recognition for various fluctuations of data to be processed.
上述の問題点を解決するため、本発明に係る情報処理装置は以下の構成を備える。すなわち、センシングデバイスと接続可能な情報処理装置であって、
前記センシングデバイスにおけるデータ取得条件を設定する設定手段と、
前記センシングデバイスにより得られたデータに対して第1のニューラルネットワーク(NN)を使用して階層的な特徴抽出処理を実行する第1の処理手段と、
前記第1のNNの中間層における特徴マップを使用して、前記センシングデバイスにより後続のデータ取得で使用されるデータ取得条件を示す回帰データを生成する第2の処理手段と、
を有し、
前記設定手段は、前記回帰データに示されるデータ取得条件を前記センシングデバイスに設定する。
In order to solve the above-mentioned problems, the information processing apparatus according to the present invention has the following configurations. That is, it is an information processing device that can be connected to a sensing device.
A setting means for setting data acquisition conditions in the sensing device, and
A first processing means for executing a hierarchical feature extraction process using a first neural network (NN) on the data obtained by the sensing device, and
A second processing means that uses the feature map in the middle layer of the first NN to generate regression data indicating the data acquisition conditions used in subsequent data acquisition by the sensing device.
Have,
The setting means sets the data acquisition conditions shown in the regression data in the sensing device.
本発明によれば、処理対象データの多様な変動に対してよりロバストなパターン認識を可能とする技術を提供することができる。 According to the present invention, it is possible to provide a technique that enables more robust pattern recognition for various fluctuations in the data to be processed.
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものでするものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。 Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. The following embodiments do not limit the invention according to the claims. Although a plurality of features are described in the embodiment, not all of the plurality of features are essential to the invention, and the plurality of features may be arbitrarily combined. Further, in the attached drawings, the same or similar configurations are designated by the same reference numbers, and duplicate explanations are omitted.
(第1実施形態)
本発明に係る情報処理装置の第1実施形態として、パターン認識装置を利用した画像処理システムを例に挙げて以下に説明する。
(First Embodiment)
As a first embodiment of the information processing apparatus according to the present invention, an image processing system using a pattern recognition apparatus will be described below as an example.
<システム及び装置の構成>
図2は、画像処理システム及び学習装置の概略構成を示す図である。図2(a)は、パターン認識装置201を利用した画像処理システムの構成例を示している。当該システムは画像データから特定の物体の領域を検出する機能を有する。一方、図2(b)は、学習装置の構成例を示している。学習装置による学習結果(重み係数)はパターン認識装置201に用いられることになる。なお、ここでは、画像処理システム及び学習装置を個別の装置として記載しているが、一体構成の装置として構成してもよい。
<System and device configuration>
FIG. 2 is a diagram showing a schematic configuration of an image processing system and a learning device. FIG. 2A shows a configuration example of an image processing system using the
画像処理システムは、パターン認識装置201、CPU(Central Prosessing Unit)205、ROM(Read Only Memory)206、RAM(Random Access Memory)207、DMAC(Direct Memory Access Controller)を有する。また、パターン認識装置201は、撮像デバイス202、認識処理部203、RAM204を有する。
The image processing system includes a
撮像デバイス202は、光学系、光電変換デバイス、ドライバー回路/ADコンバーター等により構成される。光電変換デバイスとしては、CCD(Charge-Coupled Devices)又はCMOS(Complimentary Metal Oxide Semiconductor)センサー等が利用され得る。認識処理部203は、撮像デバイス202を制御して取得した画像データに対して所定の認識処理を実行する。RAM204は、認識処理部203の演算作業バッファとして使用される。ここでは、データの伝送遅延を低減するため、パターン認識装置201が撮像デバイス202と認識処理部203とを含む構成として記載しているが、撮像デバイスと接続可能であれば別体の構成としてもよい。
The
CPU205は、画像処理システム全体の制御を司る。ROM206は、CPU205の動作を規定する命令やパラメータデータを格納する。RAM207は、CPU205の動作に必要なメモリである。DMAC208は、パターン認識処理装置201とRAM207との間のデータ転送等を司る。データバス209は、各デバイス間のデータ転送路である。
The
パターン認識処理装置201は、CPU205からの指示に従って撮像及び認識処理を実行し、その結果をRAM207に格納する。CPU205は認識結果を利用して様々なアプリケーションを提供する。
The pattern
学習装置は、演算装置210、インターフェース装置212、記憶装置213を有し、例えば汎用のコンピュータ装置により実現することが出来る。演算装置210は、CPU、メモリ等のコンピュータデバイスを有し、図1を参照して後述する学習処理を実行する。記憶装置213は、ハードディスクドライブ等の大容量データ格納装置であり、演算装置210が実行するプログラムや学習に使用する画像データ・教師データ等を格納する。インターフェース装置212は、学習によって得られたデータを取り出すためのインターフェースであり、通信インターフェースや可搬型記憶装置のインターフェースである。学習装置による学習結果はインターフェース装置212を介して取り出され、画像処理システムのROM206等に格納される。
The learning device includes an
図7は、パターン認識装置201の詳細構成を示す図である。認識処理部203の構成をより詳細に記載した図である。
FIG. 7 is a diagram showing a detailed configuration of the
特徴抽出処理部701は、メモリ703に階層的演算の中間結果を保持しながら階層的な特徴抽出処理を繰り返し実行し、抽出した特徴量を利用して認識処理結果及び制御データを出力する。
The feature
撮像デバイス704は、撮像デバイス202に対応し、光学系、光電変換デバイス、ドライバー回路/ADコンバーター等により構成される。撮像制御処理部705は、特徴抽出処理部701から提供された制御データに従って撮像デバイス704の動作(撮影条件など)を制御する。撮影条件は、具体的には、光電変換後の信号に対するゲインや光電変換デバイス(フォトダイオード等)の蓄積時間(露光時間)、A/D変換の特性等を含む。撮像制御処理部705は、センサー面のブロック単位でこれらの撮影条件を制御可能に構成されている。例えば、近年の半導体積層実装技術の発展に伴い、制御ロジックをセンサー面に対して積層実装することが可能となっており、これによりブロック単位や画素単位での読み出し制御を実現することが出来る。
The
図6は、積層デバイスの構成を説明する図である。図6(a)は、積層デバイスの物理構成を模式的に示している。ここでは、光電変換素子を実装するセンサー層61、読み出し制御ロジックを実装するロジック層62、大規模なメモリ及びその制御部を実装するメモリ層63、を積層した例を示している。センサー層61は撮像デバイス704に対応し、ロジック層62は撮像制御処理部705に対応し、メモリ層63はメモリ703等に対応する。各層間は貫通ビア等により信号を伝達する。
FIG. 6 is a diagram illustrating a configuration of a laminated device. FIG. 6A schematically shows the physical configuration of the laminated device. Here, an example in which a
図6(b)は、ロジック層62の構成を模式的に示している。ここでは、ロジック層62において、センサー層61の光電変換素子を制御するためのn×n個の制御回路を配置している。制御回路ct(n,n)は、対応する位置に存在するセンサー層61の1以上の光電変換素子の読み出しを制御する。従って、上述の構成では、n×n個のブロックに対してブロック毎に読み出し条件(ゲインや露光時間等)を制御することができる。つまり画像中のn×n個の部分毎に撮像特性を制御する事ができる。
FIG. 6B schematically shows the configuration of the
なお、第1実施形態では特徴抽出処理部701もロジック層62やメモリ層63に実装することを想定する。例えば、センサー層61に対して積層実装することで、より少ない遅延で制御データをフィードバックすることが可能になる。撮影環境や対象の変化が速い場合、より少ない画像フレーム遅延で撮像デバイス704を制御することが望まれるため、センサー層61に対する積層実装が好適である。
In the first embodiment, it is assumed that the feature
図3は、認識処理部203における処理を説明する図である。認識処理部203は、特徴抽出処理部701の論理的な処理構造である認識ネットワーク302とセンサー制御ネットワーク313とを含む。認識ネットワーク302は、撮像デバイス704が撮像対象301内の所定の物体の位置をCNNにより認識する演算ネットワークである。センサー制御ネットワーク313は、CNNにより撮像デバイスの撮影条件を制御するための情報を抽出する演算ネットワークである。
FIG. 3 is a diagram illustrating processing in the
ここでは、認識ネットワーク302は5階層のCNNにより構成した例を示している。演算処理303〜307は、畳み込み演算、活性化関数演算、プーリング演算等からなる演算処理であり、具体的には後述する図4に示す構成で実現される。
Here, an example in which the
特徴マップ308〜312は、CNN演算処理の中間層(特徴マップ308〜311)或いは最終層(特徴マップ312)と呼ばれ、演算処理303〜307の結果にそれぞれ対応する。特徴マップ308〜312はメモリ703に格納される。特徴マップ308〜312は、撮像デバイスが出力する画像データに対して特徴抽出処理された2次元のデータである。
The feature maps 308 to 312 are called the intermediate layer (
ここで、画像データに対する2次元CNN演算処理の詳細について説明する。畳み込み演算のカーネル(フィルタ係数マトリクス)サイズがcolumnSize×rowSizeであり前階層の特徴マップ数がLの場合、以下の数式(1)に示される積和演算により1つの特徴マップが算出される。 Here, the details of the two-dimensional CNN calculation processing for the image data will be described. When the kernel (filter coefficient matrix) size of the convolution operation is volumeSize × lowSize and the number of feature maps in the previous layer is L, one feature map is calculated by the multiply-accumulate operation shown in the following formula (1).
input(x,y): 2次元座標(x、y)での参照画素値
output(x,y): 2次元座標(x、y)での演算結果
weight(column,row): 座標(x+column、y+row)での重み係数
L:前階層の特徴マップ数
columnSize、rowSize: 2次元コンボリューションカーネルの水平方向、垂直方向のサイズ
CNN演算処理では、数式(1)に従って複数のコンボリューションカーネルを画素単位で走査しながら積和演算を繰り返し、最終的な積和演算結果を非線形変換(活性化処理)することで特徴マップを算出する。また、生成した特徴マップをプーリング処理により縮小して次の階層で参照する場合もある。特徴マップ308〜312は一つの階層内に複数のマップを有し、異なる重み係数群に対応して異なる特性の特徴のマップが生成される。
input (x, y): Reference pixel value in two-dimensional coordinates (x, y) output (x, y): Calculation result in two-dimensional coordinates (x, y) perpendicular (collect, low): Coordinates (x + volume, Weight coefficient in y + low) L: Number of feature maps in the previous layer coordinate, lowSize: Horizontal and vertical size of the two-dimensional convolution kernel In CNN arithmetic processing, multiple convolution kernels are processed in pixel units according to formula (1). The feature map is calculated by repeating the product-sum calculation while scanning and performing a non-linear conversion (activation processing) of the final product-sum calculation result. In addition, the generated feature map may be reduced by pooling processing and referred to in the next layer. The feature maps 308 to 312 have a plurality of maps in one hierarchy, and maps of features of different characteristics are generated corresponding to different weight coefficient groups.
図4は、特徴抽出処理部701の詳細構成を示す図である。特徴抽出処理部701は、演算処理303〜307の具体的な実現構成である。
FIG. 4 is a diagram showing a detailed configuration of the feature
参照データバッファ401は、畳み込み演算の参照データとなる前階層の特徴マップのデータ(数式(1)におけるinput(x,y))の全てあるいはその一部をメモリから取得しバッファリングする回路である。
The
乗算器402、累積加算器403は、数式(1)の演算を実行する回路である。
The
係数データバッファ404は、事前に学習によって得られた重み係数データ(数式(1)におけるweight(column,row))の全てあるいは一部をメモリ703から所定の単位で転送しバッファリングする回路である。
The
活性化処理回路405は、数式(1)に示す畳み込み演算結果(output(x,y))に対してReLU(Rectified Linear Unit, Rectifier)等の非線形関数を処理する回路である。
The
プーリング処理回路406は、特徴マップを最大値フィルタ等の空間フィルタを用いて縮小処理する回路である。プーリング処理をしない場合は、活性化処理405の結果をメモリ703に格納し、プーリング処理をする場合は、プーリング処理406の結果をメモリ703に格納する。ここで格納するデータが現階層の特徴マップとなる。
The pooling
現階層の特徴マップの算出が終了すると、算出された特徴マップを前階層の特徴マップとして、次の階層の特徴マップの算出が同様に処理される。この様にメモリ703に格納する特徴マップを順次参照しながら、複数の階層の特徴マップを算出する。図4には図示しない制御部102が図4中の各構成要素の動作を制御することにより、階層的な特徴抽出処理(CNN演算処理)が実現される。
When the calculation of the feature map of the current layer is completed, the calculated feature map is used as the feature map of the previous layer, and the calculation of the feature map of the next layer is processed in the same manner. While sequentially referring to the feature maps stored in the
CNNは、この様に複数の階層に渡る特徴抽出を繰り返す事で識別対象の変動にロバストな認識処理を実現する。CNNは、各階層の特徴抽出結果に従って、最終層の演算307で所望のパターンの存在を判定する。最終層の特徴マップ312が認識結果320を表現しており、例えば画像内の対象物の存在確率を2次元の情報として表現する信頼度マップである。なお、最終層の演算307は、前述した畳み込み演算ではなく、全結合型のニューラルネットワークや線形判別器で構成する事もある。
By repeating feature extraction over a plurality of layers in this way, CNN realizes a recognition process that is robust to fluctuations in the identification target. The CNN determines the existence of a desired pattern by the
また、各階層の特徴マップ308〜311は入力データに対する特徴抽出結果を表現し、一般的には下位階層(処理対象データを入力する層に近い階層)はエッジ等のローレベルの特徴を示し、上位階層(認識結果に近い階層)は抽象度の高い特徴を示す。各特徴マップはパターン認識の対象や学習方法によって特性が異なる。 In addition, the feature maps 308 to 311 of each layer express the feature extraction results for the input data, and generally, the lower layer (the layer close to the layer for inputting the data to be processed) shows low-level features such as edges. The upper layer (the layer closer to the recognition result) shows features with a high degree of abstraction. The characteristics of each feature map differ depending on the target of pattern recognition and the learning method.
次に、センサー制御ネットワーク313について説明する。センサー制御ネットワーク313はセンサー制御のためのデータを回帰する演算ネットワークである。つまりCNNを利用してセンサーのデータ取得条件を決定する。演算処理314、315は、演算処理303〜307と同様の演算処理であり、図4に示す回路で処理する。
Next, the
センサー制御ネットワーク313では、認識ネットワーク302の下位階層の特徴マップ308を利用して制御信号を回帰する。つまり、認識ネットワークの演算過程で得られる特徴量を利用する。特徴マップを認識ネットワークと共有する事で回帰性能の向上・学習の容易化を期待すると共に、全体の演算コストを削減する事ができる。また、ここでは認識ネットワークと類似のネットワーク演算処理(CNN)でセンサー制御ネットワーク313が構成されているため、特徴抽出処理部701を利用して制御データを生成することができる。即ち、専用の回路等は不要であることが利点となる。
In the
特徴マップ316〜317は、センサー制御ネットワーク313における特徴マップであり、最終層の演算315で撮影条件の制御データを回帰する特徴マップ317(以下、回帰マップ317と表記する)を生成する。回帰マップ317は、撮像素子の空間位置に対応する撮影条件を指定する制御データであり、例えばマップの位置に対応する撮像素子のゲインや露光時間の指定に対応するデータとなる。回帰マップ317は、制御対象が1種類かつスカラー値で制御する場合は1枚で良い。制御条件が複数ある場合や制御パラメータがベクトルデータの場合は複数枚の回帰マップが存在することになる。
The feature maps 316 to 317 are feature maps in the
図8は、回帰マップを説明する図である。具体的には、図6(b)で示す制御ロジックに対応する回帰マップ317の例を模式的に示している。rg(n,n)は回帰マップの画素データに対応する。即ち、ここでの回帰マップのサイズはn×nである。回帰データの値は濃淡で表現されており、例えば、光電変換後のデータのゲイン等に対応する。
FIG. 8 is a diagram illustrating a regression map. Specifically, an example of the
撮像制御処理部705は、センサー制御ネットワーク313で回帰された制御信号データに従って光電変換素子を制御し、認識処理に好適な画像データを取得する。ここで得られる画像データは人が観測し内容を理解・鑑賞するための画像データとは異なり、認識処理の精度向上に好適な画像データとなる。
The image pickup
なお、センサー制御ネットワーク313では、演算処理314にプーリング処理を有し特徴マップのサイズを縮小する。従って回帰マップのサイズはセンサー出力の画像サイズに対して小さい。即ち、複数の画素を単位とするブロック毎に読み出し条件を制御する事になる。プーリングの割合などは撮像制御処理部705で制御可能なブロックサイズを考慮して決定する。
The
図5は、パターン認識装置201におけるパターン認識処理の動作タイミングを説明するタイミングチャートである。横軸は時間経過を表しており、認識ネットワーク(認識ネットワーク302)、制御ネットワーク(センサー制御ネットワーク313)、条件設定の各処理が実行されるタイミングを例示的に示している。ここでは、時間的に連続する3フレーム分(第1〜第3フレーム)の画像データに対して連続的に認識処理を実行する状態を示している。
FIG. 5 is a timing chart for explaining the operation timing of the pattern recognition process in the
タイミング501では、第1フレームの撮影及び第1フレームに対する認識ネットワークの処理が実行され、並行して、タイミング504では、後続の第2フレームに対する制御ネットワークの処理が実行される。タイミング507では、第2フレームに対する撮像デバイスの動作条件(ゲインや露光時間等)の設定処理が実行される。
At the
タイミング502では、第2フレームの撮影及び第2フレームに対する認識ネットワークの処理が実行され、並行して、タイミング505では、後続の第3フレームに対する制御ネットワークの処理が実行される。タイミング508では、第3フレームに対する撮像デバイスの動作条件(ゲインや露光時間等)の設定処理が実行される。
At the
タイミング503では、第3フレームの撮影及び第3フレームに対する認識ネットワークの処理が実行され、並行して、タイミング506では、後続の第4フレーム(不図示)に対する制御ネットワークの処理が実行される。タイミング509では、第4フレーム(不図示)に対する撮像デバイスの動作条件(ゲインや露光時間等)の設定処理が実行される。
At the
この様に制御ネットワークは撮影対象の状況変化に応じて順次認識に好適な撮影条件を設定し、認識ネットワークはそれに応じた撮影を行いパターン認識処理を実行する。 In this way, the control network sequentially sets shooting conditions suitable for recognition according to changes in the situation of the shooting target, and the recognition network performs shooting according to the shooting conditions and executes pattern recognition processing.
<学習装置の動作>
次に、学習装置における認識ネットワーク及び制御ネットワークの学習処理について説明する。上述したように、学習装置による学習結果(重み係数)はパターン認識装置201に用いられることになる。
<Operation of learning device>
Next, the learning process of the recognition network and the control network in the learning device will be described. As described above, the learning result (weighting coefficient) by the learning device is used for the
図9は、認識ネットワーク及び制御ネットワークの学習処理の動作を説明する図である。ここでの学習とは、認識ネットワーク302及びセンサー制御ネットワーク313それぞれのニューラルネットワークの重み係数を、パターン認識処理がより好適な(あるいは最良の)性能となる様に決定する処理を意味する。なお、図9では図3の演算処理303〜307及び314〜315は省略して記載している。
FIG. 9 is a diagram illustrating the operation of the learning process of the recognition network and the control network. The learning here means a process of determining the weighting coefficients of the neural networks of the
センサーモデル901は、各ネットワークの学習に使用するデータの生成に必要なセンサーモデルである。センサーモデル901は、例えば、別の撮像装置で撮影された画像データ301(画像形式の2次元データ)から、制御条件とセンサーの特性に応じてセンサーの出力データを模擬する疑似センサーデータ902(疑似データ)を生成するために用いられる。つまり、疑似センサーデータ902は、撮影対象が画像データ301であると仮定した場合のセンサーの出力を模擬した画像データである。
The
センサーモデル901は、センサーの物理的な特性に応じて理論的に作成することが出来る。ただし、実際のセンサーで得られたデータを利用してGAN(Generative Adversarial Network)等の学習的な手法により作成してもよい。更に、センサーモデル901はセンサーの読み出し条件を制御する制御信号に対する出力の変動を模擬する機能を有する。例えば制御信号として高いゲイン値が設定された場合、その出力も高い値を出力する。
The
即ち、センサーモデル901とは、別の撮像装置で撮影された画像データ301と疑似センサーデータ902との関係、及び、制御信号と疑似センサーデータとの関係、の両者を規定するモデルである。センサーモデルは認識ネットワーク及びセンサー制御ネットワークの学習前に予め作成されているものとする。
That is, the
メモリ903は、センサー制御ネットワーク313の学習に必要な認識ネットワークの中間演算結果を保持するメモリである。教師データ905は、画像データ301とペアで作成した教師データであり予め用意される。ここでの教師データとは認識結果として期待する認識結果320のデータ分布である。例えば画像中の顔を検出する場合、顔の中心をピークとする正規分形式のマップデータであるとする。処理904は、認識結果320と教師データ905の差分を演算するための処理である。
The
図9(a)は、認識ネットワークを学習する場合の主要な処理を説明する図である。画像データ301をセンサーモデル901で変換し、疑似センサーデータ902を得る。生成した疑似センサーデータ902を用いてパターン認識処理を実行し認識結果320を取得する。認識結果320と教師データ905の差分を誤差データとしてバックプロパゲーション法により認識ネットワークを学習する。即ち、特徴マップ308〜312を生成するための畳込み演算の重み係数を順次更新する。
FIG. 9A is a diagram illustrating a main process when learning the recognition network. The
図9(b)はセンサー制御ネットワーク313を学習する場合の主要な処理を説明する図である。センサー制御ネットワーク313によりセンサーの制御信号生成処理を実現する。センサー制御ネットワーク313の学習時は、認識結果320と教師データ905の差分情報である誤差情報を逆伝搬させる。この際、認識ネットワーク302においては学習を行わない(すなわち係数は固定される)。さらにセンサーモデルの逆関数を介してセンサー制御ネットワーク313を学習させるための誤差情報を取得する。センサーモデル901はセンサー制御の正解値を算出するために、疑似センサーデータとして生成したデータと、逆関数を実現するためのテーブル情報と、を保持する。
FIG. 9B is a diagram illustrating a main process when learning the
得られた誤差情報と認識処理で得られた特徴マップ308のデータ(メモリ903に格納)を用いてバックプロパゲーション法によりセンサー制御ネットワークを学習する。即ち、特徴マップ316〜317を生成する畳込み演算の係数を順次更新する。バックプロパゲーション法は従来提案されている手法を利用して処理する。当該処理は、認識ネットワークを固定し、認識結果の誤差をセンサーモデルの逆関数を介してセンサー制御ネットワーク313に与える点が特徴である。センサーモデルの逆関数はセンサーの特性に応じた逆関数を事前に決定しておく。
The sensor control network is learned by the backpropagation method using the obtained error information and the data of the feature map 308 (stored in the memory 903) obtained by the recognition process. That is, the coefficients of the convolution operation that generate the feature maps 316 to 317 are sequentially updated. The backpropagation method uses a conventionally proposed method for processing. The feature of this process is that the recognition network is fixed and an error of the recognition result is given to the
図10は、第1実施形態における学習処理における動作の具体例を示す図である。図10(a)及び(b)は、認識ネットワークを学習する際のパターン認識処理及び学習処理の動作パターンを示している。図10(c)及び(d)は、センサー制御ネットワークを学習する際のパターン認識処理及び学習処理の動作パターンを示している。図10では、認識ネットワーク302のニューラルネットのノード数が2個(ノード1003及び1004)、センサー制御ネットワーク313のニューラルネットのノード数が1個(ノード1005)の場合の例を示している。
FIG. 10 is a diagram showing a specific example of the operation in the learning process according to the first embodiment. 10 (a) and 10 (b) show the pattern recognition process and the operation pattern of the learning process when learning the recognition network. 10 (c) and 10 (d) show the operation patterns of the pattern recognition process and the learning process when learning the sensor control network. FIG. 10 shows an example in which the number of nodes of the neural network of the
また、ここでは説明を簡単にするために、CNNではなくMLP(Multi Layer Perceptron)構成のニューラルネットワークの例で説明する。CNNとしてとらえた場合は畳込み演算のカーネルサイズが1x1の場合に相当する。また、ここでは、センサーモデルをセンサー撮像モデル1001とセンサー制御モデル1002とに分けて示している。図10において、学習データセットの画像データ301に対する認識結果が認識結果320であり、教師データ905及び演算処理904は図9と同様のものである。
Further, for the sake of simplicity, an example of a neural network having an MLP (Multi Layer Perceptron) configuration will be described instead of CNN. When it is regarded as CNN, it corresponds to the case where the kernel size of the convolution operation is 1x1. Further, here, the sensor model is divided into a
図1は、第1実施形態における学習処理の動作フローチャートである。S101では、学習装置は、初期化処理を実行する。具体的には、センサーモデル(センサー撮像モデル1001とセンサー制御モデル1002)の初期化など、各種初期化処理を実行する。
FIG. 1 is an operation flowchart of the learning process according to the first embodiment. In S101, the learning device executes the initialization process. Specifically, various initialization processes such as initialization of the sensor model (
S102では、学習装置は、学習処理に使用する学習データを選択する。例えば、記憶装置213に格納する学習用データセットの中から画像データ301及び学習のための教師データ905を選択して演算装置210の不図示のメモリに読み込む。
In S102, the learning device selects the learning data to be used for the learning process. For example, the
S103では、学習装置は、センサーモデルの制御条件に従って画像データを変換する。ここでは、センサー制御モデル1002に設定された条件(例えば、感度・ゲイン・露光時間等のセンサー制御条件)に応じて画像データ301を変換し疑似的なセンサーデータである疑似センサーデータを生成する。
In S103, the learning device converts the image data according to the control conditions of the sensor model. Here, the
S104では、学習装置は、S103で生成した疑似センサーデータに対して所定のパターン認識処理を実行する(動作パターン1006)。ここでのパターン認識処理は、例えば、画像中の顔を検出する等のパターン認識処理である。センサー撮像モデル1001で変換された疑似センサーデータ902に対して、ニューラルネットの演算ノードn1、n2で認識処理を実行し、認識結果320を得る。画像データ301の2次元データに対してラスター順に認識処理を実行する事で、認識結果320も2次元のマップとなる。
In S104, the learning device executes a predetermined pattern recognition process on the pseudo sensor data generated in S103 (operation pattern 1006). The pattern recognition process here is, for example, a pattern recognition process such as detecting a face in an image. This
S105では、学習装置は、S104で得られた認識結果320に基づいて、パターン認識処理の学習を実行する(動作パターン1007)。ここでは、S102で選択した教師データを利用してバックプロパゲーション法により認識ネットワークの重み係数を学習する。認識結果320と教師データ905の差分値を誤差として、ノードn2(ノード1004)に対する係数Wn2、及び、ノードn1(ノード1003)に対する係数Wn1を順次更新する。なお、S105の演算時にはノードr(ノード1005)に対する係数Wrは更新しない。
In S105, the learning device executes learning of the pattern recognition process based on the
以下、バックプロパゲーション法による学習の具体的な例について説明する。バックプロパゲーション法では、認識結果320と教師データ905のそれぞれの画像位置に対する誤差が最小となる様に係数W1、W2を調整する。
Hereinafter, a specific example of learning by the backpropagation method will be described. In the back propagation method, the coefficients W 1 and W 2 are adjusted so that the error between the
認識結果320に含まれるある画素位置に対応する出力値をy、その位置に対応する教師データ値をytとし、教師データと出力値の誤差Eを以下の数式(2)のように定義する。なお、ここでは簡単のため座標データの表記は省略する。 The output value corresponding to a pixel position included in the recognition result 320 y, the teacher data value corresponding to that position and y t, which defines the error E teacher data and the output value by the following expression (2) .. The notation of coordinate data is omitted here for the sake of simplicity.
ノードn1の出力をn1、αを学習係数とすると、以下の数式(3)で係数W2をW’2に更新する。 Assuming that the output of node n 1 is n 1 and α is the learning coefficient, the coefficient W 2 is updated to W ' 2 by the following mathematical formula (3).
ノードn1及びn2の非線形関数がReLU関数fReLU()であるとすると、y=fReLU(W2×n1)となる。そして、数式(3)は、W2×n1>0の場合、fReLU関数の微分=1であることから以下の数式(4)となる。
Assuming that the nonlinear function of the nodes n 1 and n 2 is the ReLU function f ReLU (), y = f ReLU (W 2 × n 1 ). Then, the mathematical formula (3) is the following mathematical formula (4) because the derivative of the fReLU function is 1 when W 2 ×
次に、対応する画素位置のセンサーモデルの出力をs、学習係数をαとすると、以下の数式(5)でW1をW’1に更新する。 Then, the output of the sensor model of the corresponding pixel position s, the learning coefficient is alpha, and updates the W 1 W 'to 1 by the following equation (5).
ここで、n1=fReLU(W1×s)である。そのため、数式(5)はW1×s>0の場合、以下の数式(6)となり、更新後のW’1を算出する事ができる。 Here, n 1 = f ReLU (W 1 × s). Therefore, Equation (5) in the case of W 1 × s> 0, can be calculated following Equation (6), and the W '1 after updating.
S106では、学習装置は、S105で学習(更新)した重み係数の認識ネットワークに対して再びパターン認識処理を実行し、認識結果320を出力する。合わせて、メモリ903にノードn1(ノード1003)の演算結果n1を格納する(動作パターン1008)。
In S106, the learning device executes the pattern recognition process again on the recognition network of the weighting coefficient learned (updated) in S105, and outputs the
S107では、学習装置は、S106のパターン認識処理の結果に基づいてセンサー制御ネットワーク313の学習を実行する。ここでは、S102で選択した教師データ905と認識結果320の誤差E’を利用してセンサー制御ネットワーク313を学習する。ここでの誤差E’は、S106で算出した認識ネットワーク更新後のパターン認識処理結果に対する誤差である。
In S107, the learning device executes learning of the
まず、認識ネットワーク302の係数を固定して誤差E’を逆伝搬する。認識ネットワーク302を逆伝搬して算出した誤差Es(=E’×W’2×W’1)とセンサーモデルに記憶しているセンサー制御値rから、センサー制御の正解値rtを推定する。ここでは、センサーモデル904の逆関数frev(逆伝搬誤差,制御値)に従って推定する(数式(7))。
First, the coefficient of the
frev関数は、センサーモデル(センサー撮像モデル1001とセンサー制御モデル1002)の逆関数である。センサーデータの誤差値Esと現在の制御値rから制御パラメータの正解値rtを逆算する。
The f rev function is an inverse function of the sensor model (
図11は、センサーのゲイン制御値と出力信号との関係を示す図である。より詳細には、センサーモデルの逆関数をゲイン制御を例として模式的に示した図である。直線1101は、逆関数を実現するための関数を示しており、センサーのゲイン制御値と出力信号との関係を表現する関数である。なお、線形関数として示しているが、実際は論理的な解析や実験に基づいて定まる任意の関数であり、近似関数やテーブル情報として保持される。直線1101は、センサー撮像モデル1001の逆関数とセンサー制御モデル1002の逆関数とが合成されたものに相当する。
FIG. 11 is a diagram showing the relationship between the gain control value of the sensor and the output signal. More specifically, it is a diagram schematically showing the inverse function of the sensor model by taking gain control as an example. The
ポイント1102は、ゲイン制御の制御値rとその際の出力信号の関係を示すポイントである。ポイント1103は、センサー出力誤差Esに従ってゲイン制御の正解値を求めるポイントを示す。モデル内のメモリに記憶する疑似センサーデータ生成時の出力信号r(ポイント1102)と認識ネットワークから逆伝搬するセンサー出力誤差信号Esとを用いて、ゲイン制御の正解値rt(ポイント1103)を求める。
得られたゲイン制御の正解値rtを用いて、バックプロパゲーション法により、ノードr(ノード1005)の重み係数Wrを更新する(動作パターン1009)。より詳細には、メモリ903に格納されたノードn1(ノード1003)の出力データに基づいて更新する。
With correct value r t of the resulting gain control, by a back propagation method, it updates the weight coefficient W r of node r (Node 1005) (operation pattern 1009). More specifically, the update is performed based on the output data of the node n 1 (node 1003) stored in the
センサー制御ネットワーク313の重み係数Wrは、学習係数をβとすると以下の数式(8)で更新される。
Weight coefficient W r of the
Erをセンサー制御ネットワーク313を学習するための誤差データ、rをセンサー制御ネットワーク313のノードrの出力値、rtをセンサー制御値の正解値とすると、数式(9)を満たす。
Error data for learning a
そのため、数式(8)は以下の数式(10)に変形する事ができる。 Therefore, the mathematical formula (8) can be transformed into the following mathematical formula (10).
これにより数式(7)及び数式(10)から、以下の数式(11)によりセンサー制御ネットワークの係数を更新する事ができる。 As a result, the coefficient of the sensor control network can be updated from the mathematical formula (7) and the mathematical formula (10) by the following mathematical formula (11).
以上の処理を画像データ301に含まれる全て或いは選択された複数の位置に対して実行する。即ち、適切にセンサーを制御する回帰情報に相当するマップ317が生成される様に係数W’rを学習する。
The above processing is executed for all or a plurality of selected positions included in the
S108では、学習装置は、更新した重み係数W’rのセンサー制御ネットワークを利用してセンサー制御パラメータを回帰する。 In S108, the learning device uses the sensor control network of the updated weight coefficient W 'r regressing sensor control parameter.
S109では、学習装置は、回帰したパラメータをセンサーモデルの制御パラメータとして設定する。すなわち、次の画像データ(次のループ)に対するS103では、ここで設定した制御パラメータを用いて、画像データ301を疑似センサーデータ902に変換する。センサーの制御単位は、制御パラメータに相当する回帰データマップ318のサイズに応じて求まる部分領域単位となる。
In S109, the learning device sets the regressed parameters as control parameters of the sensor model. That is, in S103 for the next image data (next loop), the
S110では、学習装置は、所定の終了条件を満たしているか否かを判定する。満たしている場合はS111に進み、満たしていない場合はS102に戻る。所定の終了条件は、例えば、予め指定された複数の画像データに対する学習処理の完了である。 In S110, the learning device determines whether or not the predetermined end condition is satisfied. If it is satisfied, the process proceeds to S111, and if it is not satisfied, the process returns to S102. The predetermined end condition is, for example, the completion of the learning process for a plurality of predetermined image data.
S111では、学習装置は、学習結果を取り出す。ここでの学習結果は認識ネットワーク302とセンサー制御ネットワーク313の重み係数となる。すなわち、取得した重み係数は、パターン認識装置201のRAM204に格納される。これにより、パターン認識装置201は、より適切にパターン認識処理を実行することが可能となる。
In S111, the learning device takes out the learning result. The learning result here becomes the weighting coefficient of the
以上説明したとおり第1実施形態によれば、画像データ及びセンサー制御モデル1002を含むセンサーモデル901を利用してセンサー制御ネットワーク313の学習を行う。これにより、パターン認識装置201において、処理対象データの多様な変動に対してよりロバストなパターン認識が可能となる。
As described above, according to the first embodiment, the
また、センサー制御ネットワーク313では、認識ネットワーク302の下位階層の特徴マップ308を利用して制御信号を回帰する。つまり、センサー制御ネットワーク313は、認識ネットワーク302の演算過程で得られる特徴量を認識ネットワーク302と共有する。これにより、パターン認識装置201において、回帰性能の向上・学習の容易化が期待されると共に、全体の演算コストを削減することができる。
Further, in the
(第2実施形態)
第2実施形態では、センサー制御ネットワーク313の学習時に、認識ネットワーク302の一部を併せて学習する形態について説明する。すなわち、第1実施形態ではセンサー制御ネットワーク313の学習時に、認識ネットワーク302の学習は行わない場合について説明したが、学習方法はこれに限定されない。
(Second Embodiment)
In the second embodiment, a mode in which a part of the
<学習装置の動作>
図12は、第2実施形態における学習処理の具体例を示す図である。より具体的には、制御ネットワークの学習における動作パターンを示しており、第1実施形態の動作パターン1009に対応する。その他の処理については第1実施形態(図1、図10)と同様であるため説明は省略する。
<Operation of learning device>
FIG. 12 is a diagram showing a specific example of the learning process in the second embodiment. More specifically, it shows an operation pattern in learning of a control network, and corresponds to an
第1実施形態と同様に、センサーモデルをセンサー撮像モデル1201とセンサー制御モデル1202とに分けて示している。また、ノード1203〜1204は認識ネットワーク302のノードであり、ノード1205はセンサー制御ネットワーク313のノードである。
Similar to the first embodiment, the sensor model is divided into a sensor imaging model 1201 and a
上述したように、第2実施形態では、センサー制御ネットワーク313の学習時に認識ネットワーク302の係数W’1をW”1に更新する。より具体的には、第1実施形態と同様に式(10)でW’rの更新するとともに、以下の数式(12)でW’1を更新する。
As described above, in the second embodiment, More specifically. For updating the coefficients W '1 of the
このような学習処理を行うことにより、ノードn1(ノード1203)の出力する特徴量が、センサー制御ネットワーク313にとっても好適な特徴量となる。
By performing such learning processing, the feature amount output by the node n 1 (node 1203) becomes a feature amount suitable for the
以上説明したとおり第2実施形態によれば、第1実施形態に比較してよりロバストなパターン認識が可能となる。 As described above, according to the second embodiment, more robust pattern recognition is possible as compared with the first embodiment.
また、第1実施形態(図1)と同様に、認識ネットワーク302とセンサー制御ネットワーク313を交互に学習(共進化的な学習)することもできる。その場合、各ネットワークに対して好適な係数を学習する事ができる。そのため、センサー制御ネットワーク313の学習に伴う認識ネットワーク302の性能への影響を少なくすることが出来る。さらに、数式(12)の学習係数βを小さな値にする事で認識ネットワーク302の性能への影響をより少なくすることも可能である。
Further, similarly to the first embodiment (FIG. 1), the
(第3実施形態)
第3実施形態では、認識ネットワーク302とセンサー制御ネットワーク313とをそれぞれ独立に学習する形態について説明する。すなわち、第1及び第2実施形態では認識ネットワーク302とセンサー制御ネットワーク313を交互に学習する場合について説明したが、学習方法はこれに限定されない。
(Third Embodiment)
In the third embodiment, a mode in which the
<学習装置の動作>
図13は、第3実施形態における学習処理の動作フローチャートである。なお、S1301〜S1305、S1310〜S1313は、図1のS101〜105、S106〜109と同様であるため説明は省略する。
<Operation of learning device>
FIG. 13 is an operation flowchart of the learning process according to the third embodiment. Since S1301 to S1305 and S131 to S1313 are the same as S101 to 105 and S106 to 109 in FIG. 1, description thereof will be omitted.
S1306では、学習装置は、所定の終了条件を満たしているか否かを判定する。満たしている場合はS1307に進み、満たしていない場合はS1302に戻る。所定の終了条件は、例えば、予め指定された複数の画像データに対する学習処理の完了である。S1307では、学習装置は、学習結果を取り出す。ここでの学習結果は認識ネットワーク302の重み係数となる。
In S1306, the learning device determines whether or not the predetermined end condition is satisfied. If it is satisfied, the process proceeds to S1307, and if it is not satisfied, the process returns to S1302. The predetermined end condition is, for example, the completion of the learning process for a plurality of predetermined image data. In S1307, the learning device takes out the learning result. The learning result here becomes the weighting coefficient of the
S1308では、S1302と同様に、学習装置は、学習処理に使用する学習データを選択する。S1309では、S1303と同様に、学習装置は、センサーモデルの制御条件に従って画像データを変換して疑似センサーデータを生成する。 In S1308, similarly to S1302, the learning device selects the learning data to be used for the learning process. In S1309, similarly to S1303, the learning device converts the image data according to the control conditions of the sensor model to generate pseudo sensor data.
S1314では、学習装置は、所定の終了条件を満たしているか否かを判定する。満たしている場合はS1315に進み、満たしていない場合はS1308に戻る。所定の終了条件は、例えば、予め指定された複数の画像データに対する学習処理の完了である。S1315では、学習装置は、学習結果を取り出す。ここでの学習結果はセンサー制御ネットワーク313の重み係数となる。
In S1314, the learning device determines whether or not the predetermined end condition is satisfied. If it is satisfied, the process proceeds to S1315, and if it is not satisfied, the process returns to S1308. The predetermined end condition is, for example, the completion of the learning process for a plurality of predetermined image data. In S1315, the learning device takes out the learning result. The learning result here becomes the weighting coefficient of the
以上説明したとおり第3実施形態によれば、認識ネットワーク302とセンサー制御ネットワーク313とを別々に学習する。この構成により、学習済みの認識ネットワーク302に影響を与えることなく、センサー制御ネットワーク313を学習することができる。
As described above, according to the third embodiment, the
(変形例)
上述の実施形態では、認識ネットワークの例として画像中の特定のパターンを検出するタスクの場合について説明したが本発明はこれに限定されない。認識対象物の属性を認識するタスクや画像の内容を理解するタスク等、様々な認識タスクに適用する事ができる。更に、認識タスクだけではなく、画像の幾何学的変換、輝度/色の補正、ノイズ除去、フォーマット変換等の様々な画像処理タスクにも適用可能である。これにより、生成画質の向上が期待できる。
(Modification example)
In the above-described embodiment, the case of the task of detecting a specific pattern in the image has been described as an example of the recognition network, but the present invention is not limited thereto. It can be applied to various recognition tasks such as a task of recognizing the attributes of a recognition object and a task of understanding the contents of an image. Furthermore, it can be applied not only to recognition tasks but also to various image processing tasks such as geometric transformation of images, brightness / color correction, noise removal, and format conversion. This can be expected to improve the generated image quality.
上述の実施形態では2次元の画像センサーに対する例を説明したが、これに限るわけではない。例えば、データの次元やモダリティーが異なる様々なセンサーに適用することが可能である。また、音声データや電波センサーデータ様々なセンシングデバイスを利用したシステムに対して適用可能である。 In the above-described embodiment, an example for a two-dimensional image sensor has been described, but the present invention is not limited to this. For example, it can be applied to various sensors with different data dimensions and modality. In addition, voice data and radio wave sensor data can be applied to systems using various sensing devices.
上述の実施形態ではセンサー制御ネットワーク313においてゲインを制御する場合について説明したが、本発明はこれに限定されない。例えば、露光時間・フレームレート・感度・解像度等他の様々な読み出しパラメータの制御に適用する事が可能である。
In the above-described embodiment, the case where the gain is controlled in the
上述の実施形態ではニューラルネットワークの結合係数(重み係数)を学習する場合について説明したが、NeuroEvolution手法の様にネットワークの構成を同時に学習する方法に適用しても良い。 In the above-described embodiment, the case of learning the coupling coefficient (weighting coefficient) of the neural network has been described, but it may be applied to a method of simultaneously learning the network configuration such as the NeuroEvolution method.
上述の実施形態では学習方法としてバックプロパゲーション法による場合について説明したが、本発明はこれに限定されない。例えば、遺伝的アルゴリズム等の他の様々なメタヒューリスティクス手法を適用することが可能である。この場合、誤差逆伝搬に必要なセンサーモデルの逆関数を設定することが困難な場合にも本発明を適用することができる。 In the above-described embodiment, the case where the backpropagation method is used as the learning method has been described, but the present invention is not limited to this. For example, various other metaheuristic methods such as genetic algorithms can be applied. In this case, the present invention can be applied even when it is difficult to set the inverse function of the sensor model required for error back propagation.
上述の実施形態では撮像制御処理部705がブロック単位で撮影条件を制御する場合について説明したが、これに限定されない。画素単位で制御してもよいし、画像全体を一括制御しても良い。画像全体を一括制御する場合は、センサー制御ネットワーク313の最終階層の特徴マップのデータを線形判別器に通して制御データを算出する構成としてもよい。あるいは、最終階層の特徴マップに対してグローバルプーリング処理を施した結果を制御データとする構成としてもよい。
In the above-described embodiment, the case where the image pickup
上述の実施形態ではセンサー制御ネットワーク313は認識ネットワーク302の下位階層の特徴マップ308を利用して制御信号を利用(回帰)したが、これに限定されない。上位階層の特徴マップを利用しても良いし、各階層の特徴マップを選択して利用しても良い。また、認識ネットワーク302やセンサー制御ネットワーク313の階層構造(階層の数や階層内の特徴マップの数)は適用する認識対象や制御対象等に応じてどの様な構成としても良い。更には、認識ネットワーク302の特徴マップは使用せずに撮像デバイス704の出力を入力として独立したセンサー制御ネットワークを構成しても良い。ただし、その場合もセンサー制御ネットワーク313の学習時には認識ネットワーク302を利用して学習する。
In the above-described embodiment, the
上述の実施形態では、階層的な特徴抽出処理の最終層でパターン認識の信頼度や制御条件を生成する場合について説明したがこれに限定されない。例えば、中間層の特徴マップを直接参照して認識や制御データ生成を実現する構成でも良い。 In the above-described embodiment, the case where the reliability and control conditions of pattern recognition are generated in the final layer of the hierarchical feature extraction process has been described, but the present invention is not limited to this. For example, it may be configured to realize recognition and control data generation by directly referring to the feature map of the intermediate layer.
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other Examples)
The present invention supplies a program that realizes one or more functions of the above-described embodiment to a system or device via a network or storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by the processing to be performed. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。 The invention is not limited to the above embodiments, and various modifications and modifications can be made without departing from the spirit and scope of the invention. Therefore, a claim is attached to make the scope of the invention public.
701 特徴抽出処理部; 702 制御部; 703 メモリ; 704 撮像デバイス; 705 撮像制御処理部; 706 画像補正処理部; 302 認識ネットワーク; 313 センサー制御ネットワーク 701 Feature extraction processing unit; 702 control unit; 703 memory; 704 imaging device; 705 imaging control processing unit; 706 image correction processing unit; 302 recognition network; 313 sensor control network
Claims (12)
前記センシングデバイスにおけるデータ取得条件を設定する設定手段と、
前記センシングデバイスにより得られたデータに対して第1のニューラルネットワーク(NN)を使用して階層的な特徴抽出処理を実行する第1の処理手段と、
前記第1のNNの中間層における特徴マップを使用して、前記センシングデバイスにより後続のデータ取得で使用されるデータ取得条件を示す回帰データを生成する第2の処理手段と、
を有し、
前記設定手段は、前記回帰データに示されるデータ取得条件を前記センシングデバイスに設定する
ことを特徴とする情報処理装置。 An information processing device that can be connected to a sensing device
A setting means for setting data acquisition conditions in the sensing device, and
A first processing means for executing a hierarchical feature extraction process using a first neural network (NN) on the data obtained by the sensing device, and
A second processing means that uses the feature map in the middle layer of the first NN to generate regression data indicating the data acquisition conditions used in subsequent data acquisition by the sensing device.
Have,
The information processing apparatus is characterized in that the setting means sets the data acquisition conditions shown in the regression data in the sensing device.
ことを特徴とする請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the second processing means uses a second NN to generate the regression data.
ことを特徴とする請求項2に記載の情報処理装置。 The information processing apparatus according to claim 2, wherein at least one of the first NN and the second NN is a convolutional neural network (CNN).
ことを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。 The information processing apparatus according to any one of claims 1 to 3, wherein the second processing means generates the regression data by using the feature map in the lower layer of the first NN. ..
ことを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。 The information processing apparatus according to any one of claims 1 to 4, wherein the control unit of the data acquisition condition in the regression data is a subregion unit of the sensing device.
前記データは画像データである
ことを特徴とする請求項1乃至5の何れか1項に記載の情報処理装置。 The sensing device is an imaging device.
The information processing apparatus according to any one of claims 1 to 5, wherein the data is image data.
前記センシングデバイスの特性に応じたセンサーモデルを使用して、学習データとデータ取得条件とに基づいて、前記センシングデバイスから出力されるデータを模擬する疑似データを生成する生成工程と、
前記疑似データを利用して前記第1のNNの重み係数を学習する第1の工程と、
前記疑似データと前記第1の工程で学習した前記第1のNNの重み係数とを利用して、前記第2のNNの重み係数を学習する第2の工程と、
を含む方法。 A method of learning the weighting coefficient of the second NN in the information processing apparatus according to claim 2.
A generation step of generating pseudo data that simulates the data output from the sensing device based on the learning data and the data acquisition conditions using the sensor model according to the characteristics of the sensing device.
The first step of learning the weighting coefficient of the first NN using the pseudo data, and
A second step of learning the weighting coefficient of the second NN by using the pseudo data and the weighting coefficient of the first NN learned in the first step, and
How to include.
前記疑似データを入力として前記第1のNNを使用した認識処理を実行する第1の認識工程と、
前記第1の認識工程による認識結果と前記学習データに対応して予め用意された教師データの誤差を前記第1のNNを逆伝搬させることにより前記第1のNNの重み係数を学習する第1の学習工程と、
を含むことを特徴とする請求項7に記載の方法。 The first step is
A first recognition step of executing a recognition process using the first NN with the pseudo data as an input, and
A first that learns the weighting coefficient of the first NN by back-propagating the error between the recognition result by the first recognition step and the teacher data prepared in advance corresponding to the learning data by back-propagating the first NN. Learning process and
7. The method of claim 7.
前記疑似データを入力として前記第1のNNを使用した認識処理を実行する第2の認識工程と、
前記第2の認識工程による認識結果と前記学習データに対応して予め用意された教師データの誤差を前記第1のNNを逆伝搬させた結果と、前記センサーモデルの逆関数と、を使用して、前記第2のNNの重み係数を学習する第2の学習工程と、
を含むことを特徴とする請求項7又は8に記載の方法。 The second step is
A second recognition step of executing the recognition process using the first NN with the pseudo data as an input, and
The recognition result by the second recognition step, the result of back-propagating the error of the teacher data prepared in advance corresponding to the learning data by the first NN, and the inverse function of the sensor model are used. In the second learning step of learning the weighting coefficient of the second NN,
The method according to claim 7 or 8, wherein the method comprises.
ことを特徴とする請求項9に記載の方法。 The method according to claim 9, wherein in the second learning step, a part of the weighting factors included in the first NN is fixed.
ことを特徴とする請求項7乃至10の何れか1項に記載の方法。 The method according to any one of claims 7 to 10, wherein the first step and the second step are alternately executed on a plurality of learning data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019218346A JP7398938B2 (en) | 2019-12-02 | 2019-12-02 | Information processing device and its learning method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019218346A JP7398938B2 (en) | 2019-12-02 | 2019-12-02 | Information processing device and its learning method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021089493A true JP2021089493A (en) | 2021-06-10 |
JP7398938B2 JP7398938B2 (en) | 2023-12-15 |
Family
ID=76220686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019218346A Active JP7398938B2 (en) | 2019-12-02 | 2019-12-02 | Information processing device and its learning method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7398938B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022059798A1 (en) | 2020-09-18 | 2022-03-24 | 株式会社考える学校 | Conference management system, exhibition system, online association management system, online event handout provision system, and handout delivery system |
WO2023149295A1 (en) * | 2022-02-01 | 2023-08-10 | ソニーグループ株式会社 | Information processing device, information processing method, and program |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005202731A (en) | 2004-01-16 | 2005-07-28 | Toshiba Corp | Face recognition device, method for recognizing face and passage control apparatus |
JP6750854B2 (en) | 2016-05-25 | 2020-09-02 | キヤノン株式会社 | Information processing apparatus and information processing method |
JP7043191B2 (en) | 2017-06-30 | 2022-03-29 | キヤノン株式会社 | Image recognition device, learning device, image recognition method, learning method and program |
JP2019125116A (en) | 2018-01-15 | 2019-07-25 | キヤノン株式会社 | Information processing device, information processing method, and program |
JP2019197311A (en) | 2018-05-08 | 2019-11-14 | コニカミノルタ株式会社 | Learning method, learning program, and learning device |
-
2019
- 2019-12-02 JP JP2019218346A patent/JP7398938B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022059798A1 (en) | 2020-09-18 | 2022-03-24 | 株式会社考える学校 | Conference management system, exhibition system, online association management system, online event handout provision system, and handout delivery system |
WO2023149295A1 (en) * | 2022-02-01 | 2023-08-10 | ソニーグループ株式会社 | Information processing device, information processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP7398938B2 (en) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108549863B (en) | Human body gesture prediction method, apparatus, equipment and storage medium | |
KR102574141B1 (en) | Image display method and device | |
US20200364515A1 (en) | System and method for joint image refinement and perception | |
JP5909540B2 (en) | Image processing display device | |
JP6946831B2 (en) | Information processing device and estimation method for estimating the line-of-sight direction of a person, and learning device and learning method | |
US10657446B2 (en) | Sparsity enforcing neural network | |
JP2021072615A (en) | Image restoration device and method | |
CN102509304A (en) | Intelligent optimization-based camera calibration method | |
CN112183506A (en) | Human body posture generation method and system | |
JP2021089493A (en) | Information processing apparatus and learning method thereof | |
KR20210056149A (en) | Depth image generation method and depth image generation apparatus | |
CN108696745A (en) | Camera calibrated | |
CN110428461B (en) | Monocular SLAM method and device combined with deep learning | |
CN115298693A (en) | Data generation method, learning method, and estimation method | |
JP7403995B2 (en) | Information processing device, control method and program | |
JP2019028650A (en) | Image identification device, learning device, image identification method, learning method and program | |
JP7204586B2 (en) | LEARNING METHOD, PROGRAM AND IMAGE PROCESSING DEVICE | |
JP2011221840A (en) | Image processor | |
CN114782759B (en) | Method for detecting densely-occluded fish based on YOLOv5 network | |
JP2021087201A (en) | Image processing device, image processing method, learning device, learning method, imaging apparatus, and program | |
JP2021009491A (en) | Information processing device, information processing method, and program | |
JP5478533B2 (en) | Omnidirectional image generation method, image generation apparatus, and program | |
CN115187454A (en) | Multi-view image super-resolution reconstruction method and device based on meta-imaging | |
CN113901247A (en) | Optical image target detection method and computing device | |
JP7444585B2 (en) | Recognition device, recognition method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20210103 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210113 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231030 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231205 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7398938 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |