JP6742554B1 - 情報処理装置およびそれを備えた電子機器 - Google Patents
情報処理装置およびそれを備えた電子機器 Download PDFInfo
- Publication number
- JP6742554B1 JP6742554B1 JP2020509541A JP2020509541A JP6742554B1 JP 6742554 B1 JP6742554 B1 JP 6742554B1 JP 2020509541 A JP2020509541 A JP 2020509541A JP 2020509541 A JP2020509541 A JP 2020509541A JP 6742554 B1 JP6742554 B1 JP 6742554B1
- Authority
- JP
- Japan
- Prior art keywords
- layer
- signal
- amplitude
- fourier transform
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 87
- 230000004913 activation Effects 0.000 claims abstract description 224
- 239000011159 matrix material Substances 0.000 claims abstract description 174
- 230000008878 coupling Effects 0.000 claims abstract description 68
- 238000010168 coupling process Methods 0.000 claims abstract description 68
- 238000005859 coupling reaction Methods 0.000 claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims description 311
- 238000004364 calculation method Methods 0.000 claims description 172
- 238000000034 method Methods 0.000 claims description 169
- 230000008569 process Effects 0.000 claims description 86
- 238000011176 pooling Methods 0.000 claims description 55
- 230000008859 change Effects 0.000 claims description 20
- 230000014509 gene expression Effects 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 12
- 230000005291 magnetic effect Effects 0.000 claims description 9
- 230000005684 electric field Effects 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 239000003086 colorant Substances 0.000 claims description 3
- 230000007547 defect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 230000007613 environmental effect Effects 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 62
- 238000010586 diagram Methods 0.000 description 35
- 230000000052 comparative effect Effects 0.000 description 28
- 238000004458 analytical method Methods 0.000 description 25
- 238000012886 linear function Methods 0.000 description 22
- 238000010606 normalization Methods 0.000 description 17
- 230000000694 effects Effects 0.000 description 14
- 238000012360 testing method Methods 0.000 description 13
- 238000003860 storage Methods 0.000 description 11
- 238000011478 gradient descent method Methods 0.000 description 10
- 238000011960 computer-aided design Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 230000004069 differentiation Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000002787 reinforcement Effects 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 4
- 230000002265 prevention Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000005672 electromagnetic field Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000000611 regression analysis Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000004870 electrical engineering Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000000491 multivariate analysis Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 240000004050 Pentaglottis sempervirens Species 0.000 description 1
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 208000028752 abnormal posture Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 230000017525 heat dissipation Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- -1 optics Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/431—Frequency domain transformation; Autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Discrete Mathematics (AREA)
- Algebra (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Image Analysis (AREA)
Abstract
Description
また、従来のCNNにおける各層の演算は、脳の構造を数学モデルに落とし込んで模倣したものであるが、物理的な意味の把握が困難であった。このため、CNN全体の演算結果のみに基づいて、構築したCNN全体を評価する事は可能であるが、各演算における入力信号と出力信号に基づいて、各演算の物理的な機能を解析できずCNNの詳細解析ができないと言う問題点があった。
さらに、この情報処理装置を用いた学習および推論に基づいて高速高精度な制御動作を行う電子機器を提供する事を目的とする。
また、本願に開示される情報処理装置は、入力信号をニューラルネットワークで処理するもので、前記入力信号をフーリエ変換し、第1振幅信号と第1位相信号とを出力するフーリエ変換層と、訓練によって行列内の値を更新する第1重み行列を前記第1振幅信号にかけて第2振幅信号を出力する振幅結合層と、訓練によって行列内の値を更新する第2重み行列を前記第1位相信号にかけて第2位相信号を出力する位相結合層と、空間周波数領域の活性化関数である複素活性化関数fを用いて、前記第2振幅信号および前記第2位相信号の内、少なくとも前記第2振幅信号である対象信号に対して、N、MをそれぞれN≧2、M≧1である整数とし、前記対象信号を構成する行列の軸方向成分である周波数成分が1/N、かつ各要素が1/Mである微小行列を生成して前記行列に加算することにより前記対象信号を更新する複素活性化層と、前記複素活性化層で更新された前記第2振幅信号と前記第2位相信号とを組み合わせて逆フーリエ変換する逆フーリエ変換層と、を備えるものである。
また、本願に開示される電子機器によれば、高速高精度な制御動作が可能になる。
<ハードウェアの構成例>
図1は、本願の実施の形態1によるニューラルネットワーク(以下、NNと称す)として機能する情報処理装置としてのハードウェア100の全体構成を示す図である。
ハードウェア100は、スタンドアロンのコンピュータであっても良いし、クラウド等を利用したサーバクライアン卜システムのサーバ、またはクライアン卜であっても良い。さらにハードウェア100は、スマートフォンまたはマイコンであっても良い。また工場内などを想定した場合には、エッジコンピューティングと呼ばれる工場内で閉じたネットワーク内での計算機環境であっても良い。
入力部37は、キーボード、マウス、マイクあるいはカメラ等で構成される。また、出力部36は、LCD(Liquid Crystal Display)あるいはスピーカ等で構成される。また、CPU30が実行するプログラムは、ハードウェア100に内蔵されている記録媒体としてのハードディスク33またはROM31に予め記録しておくことができる。あるいは、プログラムは、ドライブ39を介して接続されるリムーバブル記録媒体40に格納(記録)しておくことができる。
また、プログラムは、複数のハードウェア間を有線、無線のいずれか一方あるいは、双方を介して接続するWWW(World Wide Web)等のシステム(Com port)を通して送受信することができる。さらに、後述する訓練を行い、訓練によって得られた重み関数のみを、上記方法で送受信することができる。
なお、NNの各層は、CPUあるいはGPU(Graphics Processing Unit)等の並列演算を得意とする汎用のハードウェアで構成する他、FPGA(Field−Programmable Gate Array)、FFT(Fast Fourier Transform)演算アーキテクチャ、あるいは専用のハードウェアで構成することができる。
また、音波または可視光を含む電磁波、熱、あるいは振動等の物理現象を数値データに変換する目的でのセンサ、またはハードウェア100内で設計したCAD等の画像または計算結果を出力する機構を、ハードウェア100が備えていても良い。あるいは、上記センサの情報とハードウェア100の計算結果とを融合する機構を、ハードウェア100が備えていても良い。さらに、ハードウェア100は、電源線または内部バッテリを元に駆動する機構を備えている。
NNで使用するデータは、教師あり学習、教師なし学習、あるいは強化学習によるものが用いられる。NNは深層学習(ディープラーニング)あるいはパーセプトロンとも呼ばれることがある。パーセプトロンに関しては、後述する隠れ層が1層の場合は単一パーセプトロン、2層以上の場合は多層パーセプトロンと呼ばれる。この多層パーセプトロンがNNと呼ばれる。
一方、教師なし学習は、学習データに正解ラベルを付けずに学習する方法である。自己符号化器を多層化したStacked Auto Encoder(SAE)、制約ボルツマンマシンを多層化したDeep Boltzmann Machine(DBM)などが知られている。
さらに強化学習は、教師あり学習および教師なし学習とは異なり、正解を与える代わりに時々刻々と変わるデータに対して、将来得られる期待値を最大化するDQN(Deep Q Learning)が用いられる場合が多い。
その他にも、一部の学習データに正解ラベルが与えられていない半教師あり学習、あるいは、学習データを用いて学習させたモデルを別の学習データに適用させる転移学習のデータでも、従来のCNNが適用できるものであれば、この実施の形態にも適用できる。
この実施の形態で説明するNNは、CNNの代替手段となるものであるため、この実施の形態によるNNを説明するに先だって、第1比較例となるCNNについて以下に説明する。CNNは深層学習で最も代表的な技術であって、推論時に高い精度を持つ手法であり、ネオコグニトロンと呼ばれるパターン認識を応用して作られた技術である。
図2は、第1比較例としてのCNNの構成例を示す図である。図2に示すように、CNNは、入力層1から順に、畳み込み層2、活性化関数3、畳み込み層2、活性化関数3、プーリング層4、畳み込み層2、活性化関数3、全結合層5、活性化関数3、全結合層5、出力層6、出力7を備えて構成される。
従来例においては、150層を超える隠れ層を有するCNNも知られており、近年、高精度化のためには層数を増やす傾向にある。
後述する高速フーリエ変換および高速逆フーリエ変換においては、行列の大きさは2のべき乗である必要があるため、入力する行列と、出力する行列との大きさをパディングによって等しくしておくのが望ましい。
簡単な例として、仮に、定数cを用いた線形関数h(x)=cx、を活性化関数と考える。この線形関数h(x)を3層重ねる関数(xからyへの関数)は、y=h(h(h(x)))となる。しかし、この関数は、y=c・c・c・x、即ち、y=c3x、とも記載でき、これは1層でも表現できる。これは、出力yは入力xに対して線形の関数しか表現できないことを意味しており、隠れ層を増やす意味がない。そのため、活性化関数には非線形関数を用いる必要がある。
活性化関数3となる非線形関数には、Relu関数(正規化線形関数)である
g(x)=max(x,0)
シグモイド関数(またはロジスティックシグモイド関数とも呼ばれる)である
g(x)=1/(1+exp(−x))
あるいは、双極線正接関数である
g(x)=tanh(x)
が用いられる。
g(x)=ax for x<0,g(x)=x for x>=0
あるいは、Thresholded ReLU
g(x)=x for x>θ,g(x)=0 otherwise
など、様々な活性化関数が知られている。
例外として出力層6の直前に、線形関数である恒等関数g(x)=x、を用いることもある。但し、任意の曲線を表現するためには、非線形関数を活性化関数に用いた、2層以上の隠れ層が必要となるため、ここでは恒等関数に関しては説明しない。
通常の使用においては、学習プロセスはGPUあるいは専用ハードウェアを搭載したサーバクライアン卜システムで行う。
この実施の形態では、音波または可視光を含む電磁波、熱、あるいは振動等の物理現象を数値データに変換するセンサの出力信号、またはハードウェア100内で演算により設計した信号、またはセンサ信号と演算結果の両方を含む信号を処理するハードウェア100(情報処理装置)の構成例を示す。ハードウェア100内での演算は、NNを用いた演算処理である。入力信号は1次元以上であればいずれでも構わないが、この実施の形態では2次元の画像を対象に説明する。
また、空間周波数領域において、複素畳み込み演算による演算後の信号に対して、非線形関数となる複素活性化関数をかける。このように、複素畳み込み演算と、複素活性化関数を用いる演算とを、連続する空間周波数領域での処理の中で行う。これにより、演算回数を大幅に削減できると言う上述した効果を、阻害する事なく確実に実現できる。
この実施の形態では、複素畳み込み演算後に複素活性化関数を用いるため、隠れ層におけるフーリエ変換と逆フーリエ変換とをそれぞれ1度実施すれば、その間に連続する空間周波数領域での処理の中で、複素畳み込み演算と複素活性化関数を用いる演算とを、何度でも行う事ができる。これにより大幅な計算コスト低減が達成できる。
このNNは、2次元画像を入力信号20とし、入力層11は、入力信号20をNNに入力する。フーリエ変換層12は、空間領域の入力信号20をフーリエ変換し、空間周波数領域の信号である第1振幅信号21rと第1位相信号21θとを出力する。この場合、高速フーリエ変換を用いる。
複素活性化層14は、空間周波数領域における複素活性化関数fを用いて、第2振幅信号22rおよび第2位相信号22θの内、少なくとも第2振幅信号22rを更新する。この実施の形態では、第2位相信号22θを用いて第2振幅信号22rのみを更新して第3振幅信号23rとして出力すると共に、第2位相信号22θは更新せずに出力する。
そして、出力層16は、逆フーリエ変換層15からの信号25を所望の形に変換し、出力7を得てNNから出力する。
また、第1重み行列W1の行の数は、第1振幅信号21rである振幅行列の列の数と同じであり、第2重み行列W2の行の数は、第1位相信号21θである位相行列の列の数と同じである。また、第1重み行列W1および第2重み行列W2の列の数には制約が無い。
また、この実施の形態では、高速フーリエ変換と高速逆フーリエ変換とを用いるため、振幅行列および位相行列は、2のべき乗の行列である必要がある。このため、振幅結合層13Aおよび位相結合層13Bでは、振幅行列、位相信号と同じ大きさの行列を出力する第1重み行列W1と第2重み行列W2とが用いられる。
入力データには、音波または可視光を含む電磁波を受信するセンサ信号、熱または振動を取得するセンサ信号、あるいはハードウェア100内で演算されて出力された信号、あるいはセンサ信号と演算結果との両方を融合した信号を用いる。音波に関しては、マイクまたは超音波センサで受信した信号を用いる。電磁波を収集するセンサは、可視光を収集するカメラ、赤外線または紫外線を収集するカメラ、光量センサ、近傍界アンテナ、遠方界アンテナ、磁気センサ、電界/磁界センサ、電流センサ、電圧センサ、あるいは放射線センサで受信した信号を用いる。その他にも加速度センサ、温度センサ、湿度センサ、ガスセンサ、距離センサ、圧力センサ、加速度センサ、あるいはジャイロ等の振動センサを用いても良い。
また、入力データとなるデータは単体である必要はなく、2つ以上のデータを組合せて用いても良い。その際は、この実施の形態で示す複素活性化関数を用いたNNと、従来のパーセプトロンとを組合せて学習することにより、所望の学習を行うことができる。
例えば、画像の入力信号を10通りに分類するハードウェア100においては、学習時において入力画像と正解ラベルが1対1で対応する形で関連付けられたデータを教師データとして学習させる。学習によって得られたパラメータ(NNの層を構成する重み行列の各要素)に対して、カメラによって撮影された信号と学習済みのパラメータを演算させ、分類に対する出力信号を得る。
また、上記説明では、教師あり学習について説明したが、正解ラベルがない教師なし学習においても同様である。
この自己符号化器においても、上述した同様にカメラからの撮影画像を入力信号とする。この際、正解ラベルは不要であり、カメラの出力を自己符号化器に入力していくことで学習を行う。
また、センサ信号と演算結果との両方を融合した入力信号については、センサ信号をシミュレータ等に入力して得られた信号を入力信号とする。また、シミュレータの出力に基づいて、センサの種類あるいは位置情報を適宜変更して得られた信号を入力信号としても良い。
複数のチャネルを入力とする場合においては、一般的にはカーネルを用いた畳み込み演算によって4チャネルを1チャネルに変換する。この実施の形態では、フーリエ変換層12の前段に畳み込み層を1層設ける方法、各チャネルに対してフーリエ変換を行い、全結合層によって1チャネルに変換する方法、あるいは単に各チャネルに事前に重み付けを行い、入力層11に入れる入力信号20を1チャネルにする方法を用いる事ができる。
この実施の形態では、NNの性能評価に一般的に用いられているMNIST(Mixed National Institute of Standards and Technology database)を用いた学習結果を示す。MNISTは、縦×横が32×32のグレースケールの画像であって、60000の学習用データと、学習には使わない10000のテスト用のデータとを有する。
フーリエ変換を行うフーリエ変換層12について、以下に説明する。なお、逆フーリエ変換は、フーリエ変換の逆変換であるため、逆フーリエ変換および逆フーリエ変換層15についての詳細は省略する。
フーリエ変換においては、その性質上、フーリエ変換に入力した2次元画像が縦横に無限に接続された2次元平面になっていることを前提に変換を行う。
入力画像を縦横に直接接続した場合は、画像の端部の画像が接続される線上で不連続になり、本来の入力画像が持っていない周波数成分が発生することがある。そのため、通常のフーリエ変換では画像の縦横にそれぞれ窓関数をかけ、端部を0に近づけた信号をフーリエ変換する。
入力画像の横軸をx軸、縦軸をy軸とすると、入力画像のx軸成分の端部に、y軸と平行な境界線lyと線対称な画像を配置すると共に、入力画像のy軸成分の端部に、x軸と平行な境界線lxと線対称な画像を配置する。さらに、入力画像に対して対角の位置には、2つの境界線lx、lyの交点に対して点対称、即ち、180度回転した回転対称な画像を配置する。
この実施の形態では、フーリエ変換に高速フーリエ変換を用いることを前提としているため、入力画像の縦横の大きさは2のべき乗、すなわち偶数になる。1つの画像の縦横、対角に対称な画像を配置する上記手法では、4枚の画像で構成した画像の縦横も偶数になると共に、2のべき乗の大きさを持つため、高速フーリエ変換を用いることができる。
また、逆フーリエ変換においても、逆フーリエ変換する前に、同様の処理をしても良い。
上述したように、空間信号の畳み込み演算は、空間周波数信号に対しては行列の掛け算となる。この掛け算は具体的にはアダマール積であり、以下の数式で表される。但し、Fをフーリエ変換、*を畳み込み演算、◎をアダマール積とする。
F[k*u]=F[k]◎F[u]
nを2次元画像の大きさとすると、通常のフーリエ変換の計算オーダはO(n3)で、畳み込み演算の計算オーダも、同様にO(n3)である。なお、O( )は計算の回数の概算値を示すものである。
高速フーリエ変換の計算オーダはO(n2・log2n)であり、高速フーリエ変換と高速逆フーリエ変換(IFFT)とを合わせた計算オーダはO(2n2・log2n)となる。また、結合層13での演算である上述した複素畳み込み演算の計算オーダはO(n2)であり、他の計算オーダO(n3)、O(n2・log2n)に比べて充分小さく無視できる。
上述したように、1つのCNNにおいて、通常、畳み込み層2は複数あり、畳み込み層2の数をmとすると、CNNの計算オーダは、O(m・n3)となる。また、上述した第2比較例の場合では、畳み込み演算の代わりに複素畳み込み演算を行うが、複素畳み込み演算毎に、その前後にフーリエ変換と逆フーリエ変換とを繰り返し用いるため、高速フーリエ変換と高速逆フーリエ変換とを用いると、計算オーダは、O(2m・n2・log2n)となる。なお、第2比較例における複素畳み込み演算の回数は、CNN内の畳み込み層2の数αと等しい。
このように、この実施の形態では、畳み込み演算に対応する複素畳み込み演算の回数が多いほど、また、画像が大きくなるにつれて計算量低減の効果が大きくなる。
このように、この実施の形態によるNNによると、計算量を低減して高速に演算できると共に、演算の信頼性向上も図れる。
但し、手法によっては結果に差が生じることがある。それは、フーリエ変換の入力と出力との関係において、空間領域が持つ全エネルギ(体積)と空間周波数領域が持つ全エネルギとが異なるためである。即ち、フーリエ変換した後、逆フーリエ変換すると入力前の信号と出力された信号との間に差異が生じることがある。学習と推論を、同じ隠れ層を持つNNで行う場合は、ほぼ問題にならないが、データよってはパーセバルの等式(またはレイリーのエネルギ定理)に従い、空間領域が持つ全エネルギと空間周波数領域が持つ全エネルギとを等しくする演算を行っても良い。また、学習と推論とで用いるハードウェア100が異なる場合、あるいは丸め誤差が問題となる場合に、パーセバルの等式を用いると良い。これは、逆フーリエ変換においても同様である。
空間領域における畳み込み層2の代わりに、この実施の形態では、空間周波数領域において結合層13を用いる。結合層13は、全結合層または疎結合層を用いる。特に、入力層11に近い層に関しては、全結合層、上位層の出力層16に近い層においては、疎結合層を用いることで、過学習を防止することができる。なお、全結合層を構成する行列においては、すべての重み行列の要素を更新するが、疎結合層を構成する行列においては、確率的に更新しない要素を持つ。
u=Wx+b
で表現される演算を行う。
特に出力層16に近い箇所においては、バイアスベクトルをゼロベクトルとしても良い。Wおよびbの初期値は、通常、疑似乱数値を用いる。また、Xavierの初期値あるいはHeの初期値と呼ばれる行列を、初期値に用いても良く、学習が速く進むことが知られている。これについては、空間信号の場合と同様であり、説明を省略する。
即ち、振幅結合層13Aでは、第1振幅信号21rに第1重み行列W1を掛けて第2振幅信号22rを出力する。また、位相結合層13Bでは、第1位相信号21θに第2重み行列W2を掛けて第2位相信号22θを出力する。
そして、振幅結合層13Aおよび位相結合層13Bでは、第1重み行列W1と第2重み行列W2とのそれぞれに対して、誤差逆伝搬法によって、入力と出力との関係が密接になるように行列内の値を更新する。即ち、第1重み行列W1と第2重み行列W2とは、訓練によって行列内の値が更新される。
第1振幅信号21rとなる振幅行列(入力行列)xに対して、第1重み行列W1は、正の実数のみを持つものとする。振幅行列xは正の実数であるため、(W1)xの行列の要素に対して絶対値|(W1)x|に変換しても良いが、この場合、第1重み行列W1に、正の実数のみとする制約を設けて学習させる。
制約を設けることで学習時の探索範囲を小さくでき、演算回数の低減が図れる。また、各要素に対して絶対値変換の演算を不要にして学習の高速化が図れる。
なお、180/πをラジアンにかけることで算出される角度の単位としての度を、位相に用いても良く、この場合は360°の剰余演算を行う。
複素活性化層14には、振幅結合層13Aおよび位相結合層13Bから出力される第2振幅信号22rと第2位相信号22θとが入力され、これらの信号に対して空間周波数領域における活性化関数である複素活性化関数fを用いて演算する。この場合、複素活性化関数fを用いた演算により、第2振幅信号22rは更新されて第3振幅信号23として出力され、第2位相信号22θはそのまま出力される。
複素活性化層14では、第2位相信号22θを構成する位相行列内の各点iにおける位相θ(i)に対する複素活性化関数fの応答によって、第2振幅信号22rを構成する振幅行列内の前記点iと同位置の点における振幅r(i)の値を更新する。
複素活性化関数fは、空間領域での活性化関数と同様、非線形関数を用いる。非線形関数とは、kを任意の定数とし、x,yを任意の変数とするとき、以下の線形関数gの定義
g(x+y)=g(x)+g(y)
g(k・x)=k・g(x)
のどちらか一方、または双方を満たさない関数として定義できる。
この実施の形態における複素活性化関数fは、この非線形関数を、フーリエ変換後の空間周波数信号に対して用いる為の関数である。
F[g(x)]≠F[g]◎F[x]
即ち、空間領域での値xに対して活性化関数gを施したものをフーリエ変換する結果と、活性化関数gをフーリエ変換すると共に、値xをフーリエ変換し、両者をかけ合わせたものは異なる。
例えば、Relu関数をフーリエ変換すると、Relu関数はx≧0の領域で単調増加であるからフーリエ変換は発散する。そのため、Relu関数をフーリエ変換したものは、空間周波数領域での活性化関数にはならない。
空間領域でのRelu関数は、入力値が正または0の場合は入力値と同じ値を、入力値が負の場合は0を、演算する。複素Relu関数は、振幅r、または位相θの一方のみで決まるものではなく、三角関数を位相成分に施す関数を用いて、振幅成分を更新する。この場合、三角関数を位相成分に施し、さらに振幅成分を乗じた関数を用いて、実軸成分、虚軸成分のいずれか一方、例えば実軸成分が正または0の場合に、振幅成分を更新せず同じ値とし、負の場合に、その関数による演算値に更新する。
複素Relu関数を用いた複素活性化関数fの例を以下の式(5)に示す。
図7は、上記式(5)を図示したものである。図7に示すように、半径rの円に対して、実軸u、虚軸jvとすると、u成分が負の場合に、u成分をu=0、jv成分を|jv|に変換する。このように、実軸uの成分が負の場合に、振幅rをrsinθの絶対値で置き換える事と同値である。
さらに、複素Relu関数を用いた複素活性化関数fの別例を以下の式(6)に示す。
図8は、上記式(6)を図示したものである。この場合、虚軸jv成分が負の場合に、振幅rをrcosθの絶対値で置き換える事と同値である。これは、上記式(5)のθに対して(θ+(π/2))を代入したものと同値であるが、プログラム作成の容易性、比較回数の少なさ、すなわち計算の高速化の点で上記式(5)で示す複素Relu関数による複素活性化関数fよりも勝っている。また、θの比較回数も低減できるため、計算量を削減できる。
さらに、複素活性化関数fを以下の式(7)で定義しても良い。なお、kをlより大きい実数とする。
従来、空間領域において、活性化関数に不連続関数であるステップ関数を用いる事もあった。ステップ関数は以下の式(8)で表される。あるいは、x=0での特異性を考慮して式(9)のように表現することもある。
連続性のない複素Relu関数を用いた複素活性化関数fは、例えば、以下の式(10)で表される。
図9は、上記式(10)を図示したものである。図9に示すように、半径rの円に対して、虚軸jvの成分が負の場合に、jv=0である実軸uに写像したものである。
さらに、連続性のない複素活性化関数fの別例を以下の式(11)に示す。
図10は、上記式(11)を図示したものである。図10に示すように、半径rの円に対して、実軸uの成分が負の場合に、u=0である虚軸jvに写像したものである。
NNの重み行列W(第1重み行列W1、第2重み行列W2)を更新する際には、NNの出力と教師データとの差である損失Lを最小にするために、重み行列Wの各要素の最適値を検索する。誤差逆伝搬法は、最適値を探すための手段であり、勾配降下法を基本とするものである。
勾配降下法においては、重み行列W、学習係数α、および、推論結果と正解ラベルの差の成分である損失Lを用いて、以下の式(12)に基づいて、重み行列Wを更新していく。
この重み行列Wの更新を行う演算が学習であり、学習させるプロセスが訓練である。訓練が完了するとNNの学習が完了したことになる。なお、訓練に用いるデータを訓練データと呼ぶが、学習データと同じ意味で用いる。
訓練データを用いて訓練している際に、学習前に定めておいた所望の性能を満足した時点で学習をとめる、早期終了を用いても良く、これは過学習防止および学習時間の短縮につながる。この点については、この実施の形態と空間領域で行われるCNNの技術との差異はない。
勾配降下法とは、目的関数を最小化(一般的には最適化)する際に用いる解の探索に用いるアルゴリズムである。特に、NNでは、上記式(12)で示した確率的勾配降下法が用いられ、これは最小化する目的関数が微分可能である際に一般的に用いる方法である。このとき、学習係数αは勾配降下法にとって重要なパラメータとなり、AdaGrad法、Adam法、モメンタム法など様々な方法が知られている。これらの方法は、空間周波数領域での学習においても、空間領域での学習と同様であり、詳細な手法については省略する。
一方、ドロップアウトは、ドロップアウト層において振幅行列の成分を確率的に0にすることで、過学習を防止できる。通常は、確率として20%〜50%を用いる。
さらに全結合層の代わりに疎結合層を用いる方法、あるいは早期終了、計算結果等の有効数字を下げることを隠れ層に持たせることにより、過学習を防止しても構わない。
順伝搬は、学習済みの重み行列を用いて結果を推定する推論の際に用いられる。また、訓練によって重み行列を更新する際には、順伝搬と逆伝搬とを複数回行う。
順伝搬は、隠れ層の行列あるいは関数を随時入力データに施す。一方、逆伝搬は、順伝搬によって得られた推論値と、正解ラベルの差を誤差とする誤差情報を直後の上位層から直前の下位層に逆伝搬させる。
この実施の形態で用いる複素活性化関数fについても、微分が必要となる。
複素活性化関数fが、上記式(5)で示す場合、即ち、以下の複素Relu関数に対して、
また、複素活性化関数fが、上記式(11)で示す場合、即ち、以下の複素Relu関数に対して、
誤差逆伝搬法において、∂L/∂Wを算出する際、∂L/∂Z、∂L/∂Y、∂L/∂X、∂L/∂Wを算出することになるが、このとき、それぞれの行列の大きさは、Z、Y、X、Wと等しくなる。∂L/∂Z、∂L/∂Y、∂L/∂X、∂L/∂Wがそれぞれ一意に決まるので、これを算出するために、一般的な偏微分の演算である連鎖律を用いる。
この誤差逆伝搬法は、数式をプログラムに落とし込む際に大変都合が良いため、訓練の際には広く用いられる。
出力層16について、以下に説明する。出力層16では、所望の出力7を得るために信号を変形させる関数である活性化関数が用いられる。この実施の形態では、出力層16で用いる活性化関数を出力活性化関数と呼ぶ。
また教師あり学習においては、入力データと正解ラベルのペアが与えられているため、出力活性化関数の出力結果と教師データとの近さの尺度を測る必要がある。この尺度のことをこの実施の形態では誤差関数と呼ぶ。
回帰分析とは出力に連続値をとる関数を対象に、訓練データを再現するような関数を定める手法である。この場合、NNの出力活性化関数に、その値域が、目標とする関数の値域と一致するものを選ぶ。値域が−1以上1以下の場合には、双極線正接関数y=tanh(x)が適している。値域が−∞から∞の間である場合には、恒等写像y=xを選ぶ場合が多い。また、出力活性化関数の出力結果と正解ラベルとの差に関しては、2乗誤差を用いる。逆伝搬の微分を考慮すると、一般的には2乗誤差に対して1/2をかけたものを誤差関数に用いる。
図11は、結合層13および複素活性化層14を2層ずつ用いた場合のNNの構成例を示す図である。このようなNNを用いた場合の、テストデータに対する精度を、第1比較例、即ち、畳み込み層2を2層有するCNNの場合と共に図12に示す。
図12内の実線が、この実施の形態によるNNを用いた場合であり、点線が、第1比較例のCNNを用いた場合である。またこの場合、この実施の形態によるNNでは、上記式(6)で示した複素活性化関数fを用いた。
図12に示すように、この実施の形態によるNNでは、計算回数が1500回を超えるとテストデータに対して95%程度の精度で推論できる。第1比較例のCNNでは、97%程度の精度であるから、ほぼ同等な性能と言える。
なお、MNISTのデータとして、訓練データが60000、推論時のテストデータが10000とする。
また、訓練データ数を少なくすること、あるいは、計算時間を要するフーリエ変換および逆フーリエ変換について、専用のICを用いることにより、マイコンなどの小さな処理装置でも層数の大きいNNの計算が可能になる。
この実施の形態によると、主に2次元の画像を対象に、第1比較例のCNNに比べて高速に処理することができ、特に、畳み込み層2に相当する結合層13を複数持つNNでは、大きな効果を発揮する。画像認識においては、CMOS(Complementary Metal−Oxide−Semiconductor)などで取得したデータ以外にも、赤外線カメラ、紫外線カメラ、あるいはフェーズドアレイアンテナ等で電磁波を可視化した映像を入力データに用いることができる。
さらに、上述したように、1次元のデータであってもスペクトログラムに変換することで2次元のデータとみなすことができるため、この実施の形態による手法を用いることができる。
また、スペクトログラムに変換することにより、RNN(Recurrent Neural Networks)全般にも、畳み込み演算を要する箇所に、この実施の形態による手法を適用することができる。
GANによれば、入力データは2次元以上の画像であっても構わないため、例えばシミュレーションデータを入力し、所望の設計を行うことも可能である。
自己符号化器は、例えば2次元の画像を入力層に入力すると同じ画像が出力されるように学習させるNNであり、入力層と出力層との間には畳み込み層を含む、様々な演算処理があり、必要な情報が欠落しないように、演算処理が行われる。
教師なし学習においても、畳み込み演算は不可欠な技術であるため、この実施の形態を適用することにより、計算コストを大幅に低減させることができる。
実施の形態2では、上記実施の形態1で用いた複素Relu関数とは異なる複素活性化関数fを用いる。この実施の形態では、フーリエ変換層12において、0以上の実数である振幅成分と、−π以上π未満の実数である位相成分とに分解する。その他の構成は実施の形態1と同様である。
複素活性化層14では、第2位相信号22θを構成する位相行列内の各点iにおける位相θ(i)に対する複素活性化関数fの応答によって、第2振幅信号22rを構成する振幅行列内の前記点iと同位置の点における振幅r(i)の値を更新する。
上記実施の形態1で用いた複素活性化関数fは、位相θ(i)の大きさに応じて異なる応答により振幅r(i)の値を更新するものであったが、この実施の形態2で用いる複素活性化関数fは、位相θ(i)の大きさによらず同じ演算式による一定の応答により振幅r(i)の値を更新する。
複素ロジスティック関数を用いた複素活性化関数fの例を以下の式(21)に示す。
なお、上記式(21)において、((k2−1)/2)は、複素活性化関数fの出力の最大値を1にするための定数であるため、必須ではない。このため、以下の式(22)に示す複素活性化関数fを用いても良い。この場合、複素活性化関数fの出力の最大値は、(2/(k2−1))となる。複素活性化関数fの最小値は0以上の実数となり、振幅成分を0以上の実数とする上記条件を満たす。
実施の形態3では、上記実施の形態1、2とは異なる複素活性化関数fを用いる。その他の構成は、上記実施の形態1と同様である。
この実施の形態3においても、上記実施の形態1と同様に、複素活性化層14には、振幅結合層13Aおよび位相結合層13Bから出力される第2振幅信号22rと第2位相信号22θとが入力され、これらの信号に対して複素活性化関数fを用いて演算することにより、第2振幅信号22rおよび第2位相信号22θを更新して出力する。
なお、第2振幅信号22rおよび第2位相信号22θは、同じ手法で同様に更新するが、第2位相信号22θをそのまま保持し、第2振幅信号22rのみを更新しても良い。
ここでは、簡単のために、結合層13で生成された第2振幅信号22rおよび第2位相信号22θは、それぞれ2次元の行列である振幅行列および位相行列とする。
振幅行列の各軸は周波数軸を示し、各要素は振幅の値を示す。複素活性化層14では、N、MをそれぞれN≧2、M≧1とし、周波数軸の成分、即ち周波数成分が1/N、各要素の振幅が1/Mである、縮小された微小行列Lrを生成する。この微小行列Lrを元の振幅行列に加算する。加算後に生成された行列を複素活性化関数fの出力(更新された振幅行列)とする。
なお、この複素活性化関数fは、空間周波数領域での非線形関数となっている。
なお、プーリング層は、複素活性化層14の後段に設けられて、電気工学におけるローパスフィルタ、より一般にはフィルタになるものである。
また、この実施の形態3による複素活性化関数fの演算は、上記実施の形態1または2で示した複素活性化関数fの演算よりも、演算時間を要するものであるが、情報を劣化させず、より高精度な計算ができる。
シフト演算は10進数にする必要がなく、計算が得意な2ビットの演算になることから、ノイマン型コンピュータを使った演算においては計算コストが小さい。例えば、C言語のようなコンパイル言語においては、計算コストは1/10程度になる。1/2、1/4、1/8など、1/2のべき乗にする演算には右シフトのビット演算を行えばよい。
この場合、第2振幅信号22r、第2位相信号22θを形成する振幅行列、位相行列の各要素を1つずつ間引きする。その結果、各行列の行、及び列のサイズは1/2になり微小行列Lr、Lθとなる。サイズが小さくなった微小行列Lr、Lθに対して、高周波成分に0埋めをし、間引きをする前の振幅行列、位相行列と同じサイズに加工する。加工後の微小行列Lr、Lθを、間引き前の行列振幅行列、位相行列に足し合わせることにより、最も簡単な複素活性化関数fの出力信号を生成することができる。
実施の形態4では、上記実施の形態1〜3とは異なる複素活性化関数fを用いる。その他の構成は、上記実施の形態1と同様である。
この実施の形態4においても、上記実施の形態1と同様に、複素活性化層14には、振幅結合層13Aおよび位相結合層13Bから出力される第2振幅信号22rと第2位相信号22θとが入力され、これらの信号に対して複素活性化関数fを用いて演算することにより、第2振幅信号22rおよび第2位相信号22θを更新して出力する。
なお、第2振幅信号22rおよび第2位相信号22θは、同じ手法で同様に更新するが、第2位相信号22θをそのまま保持し、第2振幅信号22rのみを更新しても良い。
F[g◎h]=F[g]*F[h]
即ち、空間領域でのアダマール積は、空間周波数領域での畳み込みとなることを意味している。この時、F[g]を入力信号、F[h]をカーネルと考え、F[h]をカーネルとして入力信号F[g]に畳み込み演算することを、複素活性化関数fの演算として適用する。
このような関数の一例として、sinc関数がある。sinc関数はxを周波数とすると(sin(x)/x)で表され、x=0で最大値を取る。
このF[h]を用いて、第2振幅信号22rに対して畳み込み演算を行うが、第2位相信号22θに対しても同様に畳み込み演算を行ってもよい。
また、カーネルF[h]の原点において、振幅が最大となる以外にも正負の両方の値を持つことが望ましい。即ち、カーネルF[h]の振幅0の軸を横切る関数になることが望ましい。これにより、畳み込み演算後の結果(F[g]*F[h])の振幅において、振幅0となる点が存在し、この振幅0の点がNNにおける情報となる。
その他、以下の式(26)に示すシグモイド関数は空間周波数領域では収束する関数となっている。
F[h](x)=−jπ・csch(πx)
で算出される関数であっても良い。
また、csch(πx)はcosech(x)で表される関数であっても良い。但し、x=0で発散する関数となるため、実際の計算においては有限の値で丸め込む。
しかしながら、連続する空間周波数領域内での空間周波数信号を扱う演算で、CNNの手法を行っていることになり、従来手法であるCNNの詳細解析が可能になる。
空間領域での畳み込み演算では、入力画像の横軸をx軸、縦軸をy軸とする時、カーネルを例えばガウシアンのx軸方向に微分した2次元の信号とすると、このカーネルを入力画像に畳み込むことでy軸方向成分のエッジが強調された画像を出力することができる。同様に、ガウシアンを任意の方向で微分したカーネルを入力画像に畳み込むことで、入力画像のあらゆる方向の画像のエッジを抽出することができる。
従来、空間領域の処理は脳の神経細胞の発火と似た構造を非線形関数で表現できることが、ネオコグニトロンあるいはCNNの研究を通して分かっている。
しかしながら、この実施の形態による、活性化関数の解析では、後述するプーリング(空間周波数領域では複素プーリング)の機能を併せて解析すると、深層学習における活性化関数の役割の中で最も重要な役割は、入力信号とは異なる周波数成分を発生させることにある、という結果を導くことができる。
なお、この空間周波数領域での演算は、空間領域での演算と同じ結果とはならないが、演算結果の差は、複素畳み込み演算における訓練によって調整することが可能である。
実施の形態5は、上記実施の形態1〜4によるNNに、複素プーリング層を備えたものである。複素プーリング層18は、空間領域でのプーリング層4に対応する、空間周波数領域での層である。図15は、この実施の形態5によるNNの構成を示す図であり、上記実施の形態1で示した図4に対応する部分詳細図である。
上記実施の形態1と同様に、振幅結合層13Aは、第1重み行列W1を有し、第1重み行列W1を第1振幅信号21rにかけて第2振幅信号22rを出力する。位相結合層13Bは、第2重み行列W2を第1位相信号21θにかけて第2位相信号22θを出力する。
複素活性化層14は、複素活性化関数fを用いて、第2振幅信号22rおよび第2位相信号22θの内、第2振幅信号22rのみを更新して第3振幅信号23rとして出力すると共に、第2位相信号22θは更新せずに出力する。
なお、上記実施の形態3、4に複素プーリング層18を設けた場合で、複素活性化層14が第2振幅信号22rおよび第2位相信号22θの双方を更新している場合には、更新された双方の信号に対して複素プーリング層18が演算処理する。
空間領域におけるプーリングは、畳み込み層2で抽出された特徴の位置の感度を低下させるもので、対象とする特徴量の画像内での位置が変化しても同一の特徴量を持つ画像と認識できるものである。これはすなわち画像の「ぼかし」を意味する。
空間周波数領域に「ぼかし」を適用するには、高周波成分を除去することで容易に得ることができる。高周波成分とは、隣り合うピクセルの要素が急激に変化するときに発生する成分であるため、空間周波数領域で高周波成分を除去することにより複素プーリングが得られる。
バンドパスフィルタの例として、David HubelとTorsten Wieselとによって示された三角関数とガウス関数との積で表される関数であるガボールフィルタを用いる方法がある。また、ローパスフィルタとハイパスフィルタとを組み合わせて、任意のバンドパスフィルタを用いても良い。
例えば、CNNで振幅がマイナスとなる場合、活性化関数(Relu関数)の出力が0となる。出力が0というのは、空間周波数領域では周波数0、すなわち直流成分を意味し、電気工学では半波整流になることを意味する。また、特定の周波数では、半波整流は直流成分から特定の周波数へ連続的に周波数が変化することになるため、活性化関数への入力信号が単一周波数であっても、出力信号は広帯域の周波数成分を持つものになる。
ここで述べる情報の集約とはローパスフィルタ(例えば、ガウシアンフィルタ)によって高周波成分が除去されたことを意味する。
上述したように、空間領域におけるプーリングは大別して最大値プーリングと平均値プーリングがある。例えば2×2のビットで画像を切り取っていき、その2×2のビットの中で最大値、または平均値を出力する演算である。この演算はぼかしの効果がある。また、ぼかすことによって、入力画像の位置がずれたり、回転したりした場合でも同一の画像として認識できる効果を生むことができる。
このため、空間領域でのプーリングは、物理的に曖昧な意味を持つものであったが、空間周波数領域では明示的なフィルタとして複素プーリングを作用させることができる。これにより、複素プーリングは、空間領域でのフィルタよりも、推論における精度の高い深層学習モデルを構築することができる。更に、ローパスフィルタ以外にもDC成分と高周波成分だけを除去するバンドパスフィルタなど、任意のフィルタを構築することができるため、自由度の高い深層学習モデルを構築できる。
実施の形態6は、上記実施の形態1〜5によるNNに、複素バッチ正規化層を備えたものである。図16は、この実施の形態6によるNNの構成を示す図であり、上記実施の形態1で示した図4に対応する部分詳細図である。
この場合、結合層13と複素活性化層14との間に複素バッチ正規化層19を設ける例を示すが、これ以外にも、複素活性化層14の後段、あるいは結合層13の前段に設けても良い。
このため、空間領域では、訓練にかかる時間を短縮するバッチ正規化と呼ばれる手法を用いる場合がある。空間領域でのバッチ正規化は、一つの隠れ層の入力(通常は行列)の平均と標準偏差をとり、その入力から平均値を引いたものを、標準偏差で除算した演算を行う。
複素バッチ正規化は、空間周波数領域においても、振幅信号のみに対して空間領域でのバッチ正規化と同様の演算を行うことで、内部共変量シフトの影響を低減でき、訓練にかかる時間を短縮できる。
この場合、複素バッチ正規化層19を、結合層13と複素活性化層14との間に配したため、複素バッチ正規化層19は、振幅結合層13Aが出力する第2振幅信号22rのみを複素バッチ正規化して振幅信号22raを出力する。
また、複素バッチ正規化層19自体の演算時間が影響して学習に時間がかかる場合には、複素バッチ正規化層19の数を減らし、以下の方法で対応するのが望ましい。即ち、複素活性化関数fの変更、重み行列Wの初期値の事前学習、勾配降下法における学習係数を下げる、ドロップアウト層あるいは疎結合層などによりNNの自由度を制約する方法で対応する。
実施の形態7は、上記実施の形態1〜6によるNNに、振幅対数化層および逆振幅対数化層を備えたものである。図17は、この実施の形態7によるNNの構成を示す図であり、振幅対数化層および逆振幅対数化層を上記実施の形態6に適用した場合を示し、図16に対応するNNの部分詳細図である。
図17に示すように、フーリエ変換層12と結合層13との間に振幅対数化層10Aを設け、さらに、逆フーリエ変換層15の前段に逆振幅対数化層10Bを設ける。
この実施の形態7では、振幅対数化層10Aが、第1振幅信号21r(振幅行列)の振幅に対して対数を演算し、即ち、振幅を対数化した振幅信号21raを生成して出力する。これにより、フーリエ変換後に発生する、大きな振幅を持つ信号による悪影響を抑制して学習の信頼性を高めることができる。
y=logax
となる。ここで、基数aは自然対数e、2、または10を使うのが一般的であるが、その他の実数でも良い。
通常の画像においては、入力信号の大きさが2〜3桁程度異なることもあるが、例えば基数10を使った場合には3桁異なっていても3倍の変化となり、小さな振幅を持つ信号には敏感になり、大きな振幅を持つ信号には鈍感になるように学習させることができる。
y=b・loga(x+δ)
なお、誤差成分δは、振幅行列の要素として0を持たない場合には入力する必要がなく、振幅行列の要素として0を持つ場合は、0を除く最小値よりも一桁以上小さい値を入力するのが望ましい。
実施の形態8は、上記実施の形態1〜7によるNNに、軸対数化層および逆軸対数化層を備えたものである。図18は、この実施の形態8によるNNの構成を示す図であり、軸対数化層および逆軸対数化層を上記実施の形態6に適用した場合を示し、図16に対応するNNの部分詳細図である。
図18に示すように、フーリエ変換層12と結合層13との間に軸対数化層10Cを設け、さらに、逆フーリエ変換層15の前段に逆軸対数化層10Dを設ける。
この実施の形態においても、簡単のために、学習に用いる入力データは2次元データとする。2次元データの一方の軸をX軸、他方の軸をY軸と呼ぶ。
フーリエ変換層12でフーリエ変換された後の第1振幅信号21rおよび第1位相信号21θのX軸、Y軸は、入力データと同様に真数である。第1振幅信号21rおよび第1位相信号21θは、軸対数化層10Cに入力され、軸対数化層10Cは、第1振幅信号21rおよび第1位相信号21θのX軸、Y軸の各軸に対して対数を用い、即ち、軸対数化した振幅信号21rb、位相信号21θbを生成して出力する。
なお、基数は0以上の実数であれば良い。
この実施の形態においては、情報量の多い低周波成分の情報を強調し、情報量の少ない高周波成分の情報を抑圧することができ、信頼性の高い学習を効率良く進めることができる。
さらに、スペクトログラムのようにX軸とY軸とで物理量が異なる場合においては、一方の軸のみを軸対数化してもよい。また、同じ物理量においても、X軸とY軸とで学習の観点が異なる場合においては、同様に、一方の軸のみ軸対数化しても構わない。
図19は、この実施の形態9によるNNの構成を示す図である。
図19に示すように、NNは、入力層11Aから順に、振幅結合層13Aおよび位相結合層13Bから成り、複素畳み込み演算を行う結合層13、複素活性化関数fを用いた演算を行う複素活性化層14、複素プーリング層18、逆フーリエ変換層15、出力層16および出力17を備えて構成される。
そして、NNの前処理でフーリエ変換を行う演算部となるフーリエ変換層12AをNNとは別に備え、フーリエ変換層12Aは、入力される空間領域の入力信号20をフーリエ変換し、空間周波数領域の信号である第1振幅信号21rと第1位相信号21θとを出力する。
このため、NNの中でフーリエ変換を行わなくても良く、学習時フーリエ変換層での繰り返し計算することが不要になり、またその逆伝搬の計算も不要となるため、計算時間を短縮することができる。
図20は、この実施の形態10によるNNの構成を示す図である。
図20に示すように、NNは、入力層11から順に、畳み込み演算を行う畳み込み層2、活性化関数3、フーリエ変換層12、振幅結合層13Aおよび位相結合層13Bから成り、複素畳み込み演算を行う結合層13、複素活性化関数fを用いた演算を行う複素活性化層14、複素プーリング層18、逆フーリエ変換層15、出力層16および出力17を備えて構成される。この場合、上記実施の形態5によるNNの入力層11の後段に、畳み込み層2および活性化関数3を挿入した例である。
例えば、RGBを組み合わせて構成される入力信号20に対しては、CNNにおいては入力層で色彩ごとに入力データを分割する方法が用いられる。カラー画像の場合は通常、縦と横の情報の他に、RGBの色彩の次元であるチャンネル方向の3次元形状となる。この3次元形状には、空間的に近い画素間は類似する値が多い、等の空間情報が含まれている。また、RGBの各チャンネルの間にはそれぞれに密接な関係がある、あるいは距離の離れた画素同士はあまり関わりがない等、3次元形状は、画像の本質的な情報を含んでいる場合がある。
畳み込み層2は、これらの情報を抽出して保持することができる。
これにより、3次元以上の多次元の入力データに対しても高速化することができる。
この実施の形態11では、上記各実施の形態1〜10にて示した情報処理装置によるNNを用いて制御動作を行う電子機器について説明する。
本願による情報処理装置は、空気調和機に搭載されるセンサ情報の処理、ファクトリーオートメーションにおける工場で使用されるサーボシステム等のセンサ情報の処理、あるいは、車内屋外に取り付けられたセンサ情報の処理等に用いられる。従来、これらの処理は、CNNを用いるために、ニューラルネットワーク処理専用のGPU、ASIC(application specific integrated circuit)、あるいはFPGAを用意する必要があった。一方、この実施の形態によれば、空気調和機、サーボシステム、車載センサ等の情報を、既存のCPUマイコン、メモリを含む汎用のハードウェアで処理することが可能となる。
情報処理装置50は、制御部57から、少なくとも送風部52の風向きと風量、温度を制御する。
そして、情報処理装置50は、赤外線センサ51の出力信号を入力信号とし、入力信号から生体の位置および温度変化を学習する学習プロセスと、該学習プロセスで得た情報を元に入力信号に基づいて推論を行う推論プロセスとを備え、該推論プロセスに基づいて制御動作を行う。
情報処理装置50では、NNが赤外線センサ51からの入力信号から生体の位置および生体の温度変化を推論するプロセスを有する。生体の位置は生体の温度を情報処理装置50を用いて検知することで行う。また、生体の温度変化から各生体にあった温度を予測する処理を情報処理装置50によって行う。
また、各生体にとっての適切な温度風量に関して、例えばコントローラの位置を把握できる機構(例えば、コントローラの先に赤外線を吸収あるいは反射する部材)を設け、各生体が空気調和機のコントローラを操作した際の情報を正解ラベルとして用いる。その際、NNにより、例えば、異なる生体を動き、体温、輪郭等の特徴量を抽出して認識する処理を行う。
学習したNNの重み行列Wは、記憶部55に保存し、空気調和機の次に起動時に、記憶部55から読み込み使用する。
また、NNの学習により、各生体の識別も実施できるため、その情報を組み合わせて様々な機能を有する空気調和機を構成することができる。また、複数の生体が同時に居る場合にも、各送風部52が風向きを調整する羽を固定して、各生体にとって適切な温度、風量を持った風を連続して送り続けることができる。
情報処理装置50は、制御部57から、動作部52aの動作停止、異常物排除の少なくとも一方を制御する。
そして、情報処理装置50は、センサ51aの出力信号を入力信号とし、入力信号から物体の位置変化量、電界、磁界、温度の内、少なくとも1つを学習する学習プロセスと、該学習プロセスで得た情報を元に入力信号に基づいて推論を行う推論プロセスとを備え、該推論プロセスに基づいて制御動作を行う。
なお、この場合も、事前にNNを学習させても良く、情報処理装置50は、学習プロセスと推論プロセスとの内、少なくとも推論プロセスを備え、推論時に記憶部55にある重み行列Wを呼び出して用いる。
サーボシステムは高速で動作するため、瞬時の判断が求められ、従来から、CNNが用いられることがあったが、高速化のために探索範囲を小さくして画像を小型化していた。 この実施の形態による電子機器をサーボシステムに用いる事により、大きな画像で同等の処理速度を維持できるため、より少ないセンサで広範囲の情報を処理することができ、より層数の多いNNを用いて精度向上を図ることができる。
サーボシステムは複数のサーボモータを連携した同時刻の制御が要求されるためリアルタイム性が重視される。また、動作異常時には迅速に状況を判断し、必要に応じて停止、再開する必要がある。この実施の形態によるサーボシステムでは、迅速な応答により、異常時の製造および動作を迅速に回避できる。このため、廃棄物となる無駄の削減ができ、また、装置が異常な体勢で動作することによる装置間の衝突等に起因する故障の低減ができる。
センサ51aは、自立型ロボットに直接、あるいは周囲に取り付けられる。情報処理装置50は、センサ51aから入力される入力信号からセンサ51a自体が持つノイズ、あるいはセンサ51aの使用環境に依存するノイズが印加された文字、色、バーコード、または不良の有無を学習する学習プロセスと、学習プロセスで得た情報を元に入力信号に基づいて推論を行う推論プロセスとを備え、推論プロセスに基づいて制御動作を行う。
衝突防止装置は、本願による情報処理装置50と、センサ51aと、動作部52aとを備える。情報処理装置50は、データを入力する入力部53と、入力部53から入力されたデータを解析する解析部54と、解析した結果を記録する記憶部55と、解析した結果を判定する判定部56と、各部を制御する制御部57とを備える。
情報処理装置50は、センサ51aから入力される入力信号から車外の生体の位置、周囲の車の位置および進行方向、信号機情報、車線情報の少なくとも1つを学習する学習プロセスと、学習プロセスで得た情報を元に入力信号に基づいて推論を行う推論プロセスとを備え、推論プロセスに基づいて制御動作を行う。なお、この場合も少なくとも推論プロセスを備えれば良い。
センサ51aは、車内に搭載されて制御動作の為の情報となる車内環境情報を検出するもので、カメラ等のCCD、CMOSイメージセンサの少なくとも1つが用いられる。
情報処理装置50は、センサ51aから入力される入力信号からドライバの顔、体格の少なくとも顔を学習する学習プロセスと、学習プロセスで得た情報を元に入力信号に基づいて推論を行う推論プロセスとを備え、推論プロセスに基づいて制御動作を行う。
この実施の形態による車載機器では、WWWのような情報ネットワークを利用する必要が無く、それらとの接続環境に拘わらず、省エネルギかつ簡易で安価な構成にてドライバの識別および認証を迅速に行う事ができる。
この実施の形態では、監視カメラの映像をWWWのような情報ネットワークを介してアップロードする必要が無く、情報処理装置50で分散処理することによって、情報量を削減できる。例えば、監視カメラ1台あたり、従来では1MB/sの情報量を扱っていたが、この実施の形態では、1kB/sの情報量を処理すれば良く格段と情報量を削減できる。これによって、個人行動の監視が容易で信頼性良く可能になる。
従って、例示されていない無数の変形例が、本願に開示される技術の範囲内において想定される。例えば、少なくとも1つの構成要素を変形する場合、追加する場合または省略する場合、さらには、少なくとも1つの構成要素を抽出し、他の実施の形態の構成要素と組み合わせる場合が含まれるものとする。
Claims (26)
- 入力信号をニューラルネットワークで処理する情報処理装置において、
前記入力信号をフーリエ変換し、第1振幅信号と第1位相信号とを出力するフーリエ変換層と、
訓練によって行列内の値を更新する第1重み行列を前記第1振幅信号にかけて第2振幅信号を出力する振幅結合層と、
訓練によって行列内の値を更新する第2重み行列を前記第1位相信号にかけて第2位相信号を出力する位相結合層と、
空間周波数領域の活性化関数である複素活性化関数fを用いて、前記第2振幅信号および前記第2位相信号の内、少なくとも前記第2振幅信号を、前記第2位相信号を構成する行列内の値に基づいて更新する複素活性化層と、
前記複素活性化層で更新された前記第2振幅信号と前記第2位相信号とを組み合わせて逆フーリエ変換する逆フーリエ変換層と、
を備えた情報処理装置。 - 前記フーリエ変換層と前記逆フーリエ変換層との間に、前記振幅結合層、前記位相結合層および前記複素活性化層をそれぞれ少なくとも1つ備え、前記フーリエ変換層と前記逆フーリエ変換層との間で、連続して空間周波数領域における信号処理を行うものである、
請求項1に記載の情報処理装置。 - 前記複素活性化層は、前記第2位相信号を構成する前記行列内の各点iにおける前記値である位相θ(i)に対する前記複素活性化関数fの応答によって、前記第2振幅信号を構成する行列内の前記点iと同位置の点における振幅r(i)の値を更新して、更新された前記第2振幅信号を出力すると共に、前記第2位相信号を更新せずに出力する、
請求項1または請求項2に記載の情報処理装置。 - 入力信号をニューラルネットワークで処理する情報処理装置において、
前記入力信号をフーリエ変換し、第1振幅信号と第1位相信号とを出力するフーリエ変換層と、
訓練によって行列内の値を更新する第1重み行列を前記第1振幅信号にかけて第2振幅信号を出力する振幅結合層と、
訓練によって行列内の値を更新する第2重み行列を前記第1位相信号にかけて第2位相信号を出力する位相結合層と、
空間周波数領域の活性化関数である複素活性化関数fを用いて、前記第2振幅信号および前記第2位相信号の内、少なくとも前記第2振幅信号である対象信号に対して、N、MをそれぞれN≧2、M≧1である整数とし、前記対象信号を構成する行列の軸方向成分である周波数成分が1/N、かつ各要素が1/Mである微小行列を生成して前記行列に加算することにより前記対象信号を更新する複素活性化層と、
前記複素活性化層で更新された前記第2振幅信号と前記第2位相信号とを組み合わせて逆フーリエ変換する逆フーリエ変換層と、
を備えた情報処理装置。 - 前記フーリエ変換層と前記逆フーリエ変換層との間に、前記振幅結合層、前記位相結合層および前記複素活性化層をそれぞれ少なくとも1つ備え、前記フーリエ変換層と前記逆フーリエ変換層との間で、連続して空間周波数領域における信号処理を行うものである、
請求項4に記載の情報処理装置。 - 前記複素活性化層で用いる前記複素活性化関数fは、基準となる原点での値の絶対値が最大となる関数をカーネルとして、前記第2振幅信号および前記第2位相信号の内、少なくとも前記第2振幅信号である対象信号に対して畳み込み演算を行うものである、
請求項1または請求項2に記載の情報処理装置。 - 前記複素活性化関数fは、前記第2位相信号における前記位相θ(i)に対し、実軸成分、虚軸成分のいずれか一方が正または0の場合と、負の場合とで異なる応答によって、前記第2振幅信号における前記振幅r(i)の値を更新する複素Relu関数である、
請求項3に記載の情報処理装置。 - 前記複素活性化関数fは、
前記実軸成分が正または0である、(−π/2)≦θ(i)<(π/2)、において、前記振幅r(i)の値を保持し、前記実軸成分が負である、−π≦θ(i)<(−π/2)、または、(π/2)≦θ(i)<π、において、前記振幅r(i)の値を、(r(i)・|sinθ(i)|)、あるいは、(r(i)・sinθ(i))の値に変更する、
請求項7に記載の情報処理装置。 - 前記複素活性化関数fは、
前記虚軸成分が正または0である、0≦θ(i)<π、において、前記振幅r(i)の値を保持し、前記虚軸成分が負である、−π≦θ(i)<0、において、前記振幅r(i)の値を、(r(i)・|cosθ(i)|)、あるいは、(r(i)・cosθ(i))の値に変更する、
請求項7に記載の情報処理装置。 - 前記複素活性化関数fは、前記第2位相信号における前記位相θ(i)の大きさに依らず同じ演算式を用いた一定の応答により、前記第2振幅信号における前記振幅r(i)の値を更新する複素ロジスティック関数である、
請求項3に記載の情報処理装置。 - 前記複素活性化関数fは、複数個の前記微小行列を用いて前記対象信号を更新するものである、
請求項4または請求項5に記載の情報処理装置。 - 前記N、Mは、それぞれ2のべき乗であり、前記微小行列はシフト演算を行うことで演算する、
請求項4、請求項5、請求項11のいずれか1項に記載の情報処理装置。 - 前記複素活性化関数fは、前記カーネルとなる関数にsinc関数を用い、前記対象信号に対して畳み込み演算後に絶対値を算出する、
請求項6に記載の情報処理装置。 - 前記第2振幅信号および前記第2位相信号の内、複素活性化関数fによって更新された信号に対して、ローパスフィルタまたはバンドパスフィルタとなる複素プーリング層を、前記複素活性化層の直後に備える、
請求項1から請求項13のいずれか1項に記載の情報処理装置。 - 前記第1振幅信号の振幅を対数化する振幅対数化層を、前記フーリエ変換層の後段に設け、該対数化を解消する逆振幅対数化層を、前記逆フーリエ変換層の前段に設ける、
請求項1から請求項14のいずれか1項に記載の情報処理装置。 - 前記第1振幅信号および前記第1位相信号の軸に対して対数化を行う軸対数化層を、前記フーリエ変換層の後段に設ける、
請求項1から請求項15のいずれか1項に記載の情報処理装置。 - 前記入力信号を前記ニューラルネットワークに入力する入力層と、前記逆フーリエ変換層の後段に配され、入力される信号を所望の形に変換して前記ニューラルネットワークから出力する出力層とを備える、
請求項1から請求項16のいずれか1項に記載の情報処理装置。 - 前記フーリエ変換層を、前記入力層の前段に、前記ニューラルネットワークの前処理のために配し、前記入力信号が前記フーリエ変換層にてフーリエ変換された後に前記入力層に入力される、
請求項17に記載の情報処理装置。 - 前記入力層と該入力層の後段に配される前記フーリエ変換層との間、および前記逆フーリエ変換層と該逆フーリエ変換層の後段に配される前記出力層との間、の少なくとも一方に、少なくとも1層の畳み込み層を備える、
請求項17に記載の情報処理装置。 - 請求項1から請求項19のいずれか1項に記載の情報処理装置を備えて制御動作を行う電子機器において、
前記電子機器は前記制御動作の為の情報を検出するセンサを備え、
前記情報処理装置は、前記センサの出力信号を前記入力信号とし、該入力信号に基づいて学習を行う学習プロセスと、該学習プロセスで得た情報を元に前記入力信号に基づいて推論を行う推論プロセスとの内、少なくとも前記推論プロセスを備え、該推論プロセスに基づいて前記制御動作を行う、
情報処理装置を備えた電子機器。 - 前記電子機器は、前記センサとして赤外線センサを備えて、風向、風量および温度を制御可能な空気調和機であり、
前記学習プロセスは、生体の位置および温度変化を学習するものである、
請求項20に記載の情報処理装置を備えた電子機器。 - 前記電子機器は、前記センサとして、CCD、CMOSイメージセンサ、近傍界アンテナ、遠方界アンテナの少なくとも1つを備え、物品の位置の監視、および該物品に記載された文字、色、バーコードの少なくとも1つを識別可能な自立型ロボットであり、
前記学習プロセスは、前記センサ自体が持つノイズ、あるいは前記センサの使用環境に依存するノイズが印加された文字、色、バーコード、または不良の有無を学習するものである、
請求項20に記載の情報処理装置を備えた電子機器。 - 前記電子機器は、ステアリング、アクセルおよびブレーキを制御可能な車載機器であって、前記センサとして、CCD、CMOSイメージセンサ、レーダ、超音波ソナーの少なくとも1つを備えて、前記制御動作の為の情報となる車外環境情報を検出し、
前記学習プロセスは、車外の生体の位置、周囲の車の位置および進行方向、信号機情報、車線情報の少なくとも1つを学習するものである、
請求項20に記載の情報処理装置を備えた電子機器。 - 前記電子機器は、ドライバを識別および認証可能な車載機器であって、前記センサとして、CCD、CMOSイメージセンサの少なくとも1つを備えて、前記制御動作の為の情報となる車内環境情報を検出し、
前記情報処理装置は、前記学習プロセスおよび前記推論プロセスを備え、
前記学習プロセスは、前記ドライバの顔、体格の少なくとも顔を学習して、得られた情報を定期的に更新するものである、
請求項20に記載の情報処理装置を備えた電子機器。 - 前記電子機器は、前記センサにより電磁波を検出して、動作停止、異常物排除の少なくとも一方を制御可能であり、
前記学習プロセスは、物体の位置変化量、電界、磁界、温度の内、少なくとも1つを学習するものである、
請求項20に記載の情報処理装置を備えた電子機器。 - 請求項1から請求項19のいずれか1項に記載の情報処理装置を備えて制御動作を行う電子機器において、
前記情報処理装置は、演算により生成された信号を前記入力信号とし、該入力信号に基づいて学習を行う学習プロセスと、該学習プロセスで得た情報を元に前記入力信号に基づいて推論を行う推論プロセスとの内、少なくとも前記推論プロセスを備え、該推論プロセスに基づいて前記制御動作を行う、
情報処理装置を備えた電子機器。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/036101 WO2021049005A1 (ja) | 2019-09-13 | 2019-09-13 | 情報処理装置およびそれを備えた電子機器 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6742554B1 true JP6742554B1 (ja) | 2020-08-19 |
JPWO2021049005A1 JPWO2021049005A1 (ja) | 2021-09-30 |
Family
ID=72048001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020509541A Active JP6742554B1 (ja) | 2019-09-13 | 2019-09-13 | 情報処理装置およびそれを備えた電子機器 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220335276A1 (ja) |
EP (1) | EP4030346A4 (ja) |
JP (1) | JP6742554B1 (ja) |
CN (1) | CN114341878A (ja) |
WO (1) | WO2021049005A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022044367A1 (ja) * | 2020-08-26 | 2022-03-03 | 株式会社Jvcケンウッド | 機械学習装置及び遠赤外線撮像装置 |
JPWO2022070331A1 (ja) * | 2020-09-30 | 2022-04-07 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4094090B1 (en) * | 2020-01-22 | 2024-07-17 | TotalEnergies OneTech | Method and system for detecting oil slicks in radar images |
US20210319289A1 (en) * | 2020-04-13 | 2021-10-14 | Alibaba Group Holding Limited | Frequency domain neural network accelerator |
CN113008559B (zh) * | 2021-02-23 | 2022-02-22 | 西安交通大学 | 基于稀疏自编码器和Softmax的轴承故障诊断方法及系统 |
JP2022142602A (ja) * | 2021-03-16 | 2022-09-30 | 独立行政法人国立高等専門学校機構 | 電磁波レーダ装置および電磁波レーダ装置の学習方法 |
CN113203566B (zh) * | 2021-04-06 | 2022-09-16 | 上海吞山智能科技有限公司 | 一种基于一维数据增强和cnn的电机轴承故障诊断方法 |
KR102476808B1 (ko) * | 2021-05-27 | 2022-12-12 | 울산과학기술원 | 왜곡된 영상으로부터 대상을 복원하는 방법 및 장치 |
WO2024018592A1 (ja) * | 2022-07-21 | 2024-01-25 | 日本電信電話株式会社 | モデル学習装置、モデル学習方法、およびプログラム |
CN116716079B (zh) * | 2023-06-14 | 2024-01-19 | 山东沃赛新材料科技有限公司 | 高性能防霉型醇型美容收边胶及其制备方法 |
CN117825601B (zh) * | 2024-03-05 | 2024-05-24 | 山东润达检测技术有限公司 | 一种食品中二氧化硫的测定方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106485192B (zh) | 2015-09-02 | 2019-12-06 | 富士通株式会社 | 用于图像识别的神经网络的训练方法和装置 |
-
2019
- 2019-09-13 WO PCT/JP2019/036101 patent/WO2021049005A1/ja unknown
- 2019-09-13 JP JP2020509541A patent/JP6742554B1/ja active Active
- 2019-09-13 US US17/633,968 patent/US20220335276A1/en active Pending
- 2019-09-13 CN CN201980100089.XA patent/CN114341878A/zh active Pending
- 2019-09-13 EP EP19944683.2A patent/EP4030346A4/en active Pending
Non-Patent Citations (3)
Title |
---|
"Synthesis and Characterization of the Arylomycin Lipoglycopeptide Antibiotics and the Crystallograph", JOURNAL OF THE AMERICAN CHEMICAL SOCIETY, vol. Vol. 133, P17869-17877, JPN6019003740, 2011, ISSN: 0004296190 * |
@ML_DEEP, 複素ニューラルネットワークっていうのが有るらしい, JPN6020022848, 15 July 2017 (2017-07-15), ISSN: 0004296192 * |
三宅 哲史ほか: "畳み込みニューラルネットワークの周波数領域学習による演算量削減", 第31回 回路とシステムワークショップ 論文集 [CD−ROM], JPN6020022847, 18 May 2018 (2018-05-18), pages 130 - 135, ISSN: 0004296191 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022044367A1 (ja) * | 2020-08-26 | 2022-03-03 | 株式会社Jvcケンウッド | 機械学習装置及び遠赤外線撮像装置 |
JP7528637B2 (ja) | 2020-08-26 | 2024-08-06 | 株式会社Jvcケンウッド | 機械学習装置及び遠赤外線撮像装置 |
JPWO2022070331A1 (ja) * | 2020-09-30 | 2022-04-07 | ||
WO2022070331A1 (ja) * | 2020-09-30 | 2022-04-07 | 日本電気株式会社 | 情報処理装置、生体検知システム、生体検知方法及び記録媒体 |
EP4224410A4 (en) * | 2020-09-30 | 2023-11-29 | NEC Corporation | INFORMATION PROCESSING DEVICE, LIVING BODY DETECTION SYSTEM, LIVING BODY DETECTION METHOD, AND RECORDING MEDIUM |
JP7485062B2 (ja) | 2020-09-30 | 2024-05-16 | 日本電気株式会社 | 情報処理装置、生体検知システム、生体検知方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP4030346A4 (en) | 2022-10-19 |
EP4030346A1 (en) | 2022-07-20 |
WO2021049005A1 (ja) | 2021-03-18 |
CN114341878A (zh) | 2022-04-12 |
JPWO2021049005A1 (ja) | 2021-09-30 |
US20220335276A1 (en) | 2022-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6742554B1 (ja) | 情報処理装置およびそれを備えた電子機器 | |
CN110378381B (zh) | 物体检测方法、装置和计算机存储介质 | |
Cui et al. | Fish detection using deep learning | |
Dairi et al. | Unsupervised obstacle detection in driving environments using deep-learning-based stereovision | |
CN112651511A (zh) | 一种训练模型的方法、数据处理的方法以及装置 | |
US12056615B2 (en) | Icospherical gauge convolutional neural network | |
CN108694408B (zh) | 一种基于深度稀疏滤波卷积神经网络的驾驶行为识别方法 | |
US20210166085A1 (en) | Object Classification Method, Object Classification Circuit, Motor Vehicle | |
US11062141B2 (en) | Methods and apparatuses for future trajectory forecast | |
CN112036381B (zh) | 视觉跟踪方法、视频监控方法及终端设备 | |
US20240005164A1 (en) | Neural Network Training Method and Related Device | |
CN110705600A (zh) | 一种基于互相关熵的多深度学习模型融合方法、终端设备及可读存储介质 | |
WO2023072175A1 (zh) | 点云数据的处理方法、神经网络的训练方法以及相关设备 | |
CN111738403A (zh) | 一种神经网络的优化方法及相关设备 | |
CN116794602A (zh) | 一种应用于干扰环境下的毫米波雷达动态手势识别方法 | |
CN111428566B (zh) | 一种形变目标跟踪系统及方法 | |
CN116630937A (zh) | 一种多模态融合的3d目标检测方法 | |
Liang et al. | Car detection and classification using cascade model | |
Hu et al. | Driver identification through vehicular CAN bus data: An ensemble deep learning approach | |
CN116883961A (zh) | 一种目标感知方法以及装置 | |
CN116824284A (zh) | 一种图像处理方法以及相关设备 | |
Pleterski et al. | Miniature Mobile Robot Detection using an Ultra-Low Resolution Time-of-Flight Sensor | |
CN115273814A (zh) | 伪语音检测方法、装置、计算机设备和存储介质 | |
CN115641490A (zh) | 一种数据处理方法及其装置 | |
CN115115016A (zh) | 一种训练神经网络的方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200218 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200218 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200218 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200305 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200630 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200728 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6742554 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |