JP2023086549A - Information processing apparatus, information processing method in information processing apparatus, and program - Google Patents
Information processing apparatus, information processing method in information processing apparatus, and program Download PDFInfo
- Publication number
- JP2023086549A JP2023086549A JP2021201134A JP2021201134A JP2023086549A JP 2023086549 A JP2023086549 A JP 2023086549A JP 2021201134 A JP2021201134 A JP 2021201134A JP 2021201134 A JP2021201134 A JP 2021201134A JP 2023086549 A JP2023086549 A JP 2023086549A
- Authority
- JP
- Japan
- Prior art keywords
- data
- layer
- converter
- processing
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 115
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000012545 processing Methods 0.000 claims abstract description 216
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 88
- 230000009466 transformation Effects 0.000 claims abstract description 41
- 238000006243 chemical reaction Methods 0.000 claims description 52
- 230000001131 transforming effect Effects 0.000 claims description 52
- 238000000034 method Methods 0.000 claims description 30
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 27
- 230000004048 modification Effects 0.000 description 20
- 238000012986 modification Methods 0.000 description 20
- 238000010801 machine learning Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 15
- 238000012937 correction Methods 0.000 description 12
- 230000004913 activation Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 238000011176 pooling Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 241000282994 Cervidae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000009328 Perro Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、畳み込みニューラルネットワーク(CNN)を用いてデータを処理する情報処理装置及び情報処理方法に関する。 The present invention relates to an information processing apparatus and information processing method for processing data using a convolutional neural network (CNN).
近年、人工知能(AI)を用いてデータの解析や認識を行うために、畳み込みニューラルネットワーク(CNN。以下「CNN」と称する。)が多く用いられる。たとえば、画像データや音声データ等の各種の解析や各種の認識においてCNNが用いられることが多い。従来、このようなCNNを用いた人工知能システムとしては、CNNによる解析や認識の精度を高めるため、離散値としての複数のパラメータを持つデータ、たとえばRGB色空間のデジタルのカラー画像データについて非線形に空間変換する変換器をCNNの前段に設ける発明が知られている(例えば、特許文献1参照)。 In recent years, convolutional neural networks (CNN, hereinafter referred to as "CNN") are often used to analyze and recognize data using artificial intelligence (AI). For example, CNNs are often used in various types of analysis and recognition of image data, voice data, and the like. Conventionally, as an artificial intelligence system using such a CNN, in order to improve the accuracy of analysis and recognition by the CNN, data with multiple parameters as discrete values, for example, digital color image data in the RGB color space are nonlinearly An invention is known in which a converter that performs space conversion is provided in the front stage of a CNN (see, for example, Patent Document 1).
しかし、CNNを行う目的は、データの認識、データの解析、データの高精度化など、多様である。そして、データの種類や目的によっては、複数のパラメータのうちの特定のパラメータのみを非線形に変換することでCNNの処理による効果が高まる場合もある。しかし、上記特許文献1は、変換対象であるデータの複数のパラメータの全てを対象として非線形に変換するため、処理負荷が過大になり、処理精度が低下する場合があるという問題がある。
However, the purposes of CNN are diverse, such as data recognition, data analysis, and improvement of data accuracy. Depending on the type and purpose of the data, the effect of CNN processing may be enhanced by nonlinearly transforming only a specific parameter out of a plurality of parameters. However, in
本発明はこのような課題に鑑みてなされたものであり、CNNを用いた人工知能において、データ量や処理負荷が過大になるのを抑止しつつ高い精度で解析や認識を行うことのできる情報処理装置、情報処理方法、プログラムを提供することを課題としている。 The present invention has been made in view of such problems, and in artificial intelligence using CNN, information that can be analyzed and recognized with high accuracy while preventing the amount of data and processing load from becoming excessive. An object of the present invention is to provide a processing device, an information processing method, and a program.
かかる課題を解決するため、請求項1に係る発明は、畳み込み層を含む畳み込みニューラルネットワークを備え、複数のチャンネルを有するデータに対して畳み込み処理を行うデータ処理手段を備える情報処理装置であって、該情報処理装置に入力されたデータに対して非線形の変換を行って前記データ処理手段に入力する変換手段、及び/又は、前記データ処理手段から出力されたデータに対して非線形の変換を行って前記情報処理装置から出力させる逆変換手段を備え、前記変換手段、及び/又は、前記逆変換手段は、前記データに対して前記チャンネルごとに別個に前記非線形の変換を行う第一の非線形処理手段を備えたことを特徴とする。
In order to solve such a problem, the invention according to
請求項2に記載の発明は、請求項1に記載の構成に加え、前記変換手段、及び/又は、前記逆変換手段は、少なくとも3層の処理層からなる処理層群を備え、該処理層群は、ノード数が1の入力層と、該入力層の後段に設けられたノード数が複数の畳み込み層又は緻密層である中間処理層と、該中間処理層の後段に設けられたノード数が1又は複数の畳み込み層又は緻密層である出力層とを含む構成であり、処理層群が、前記畳み込みニューラルネットワークへ入力する前記データのチャンネル毎に設けられたことを特徴とする。
The invention according to
請求項3に記載の発明は、請求項2に記載の構成に加え、前記中間処理層が1層からなることを特徴とする。
The invention according to
請求項4に記載の発明は、請求項2に記載の構成に加え、前記中間処理層が複数層からなることを特徴とする。
The invention according to claim 4 is characterized in that, in addition to the configuration according to
請求項5に記載の発明は、請求項1乃至4の何れか一つに記載の構成に加え、前記変換手段、及び/又は、前記逆変換手段は、複数の前記チャンネルを複合させて前記非線形の変換を行う第二の非線形処理手段を備えたことを特徴とする。
The invention according to claim 5 is, in addition to the configuration according to any one of
請求項6に記載の発明は、請求項1乃至5の何れか一つに記載の構成に加え、前記第一の非線形処理手段において用いられる変換の態様が記録された変換テーブルが記憶される記憶手段を備え、前記第一の非線形処理手段は、前記記憶手段から取得した前記変換テーブルを用いて前記非線形の変換を行うことを特徴とする。
The invention according to claim 6, in addition to the configuration according to any one of
請求項7に記載の発明は、請求項1乃至6の何れか一つに記載の構成に加え、前記変換手段、及び/又は、前記逆変換手段でスキップコネクションを用いたことを特徴とする。
The invention according to claim 7 is characterized in that, in addition to the configuration according to any one of
請求項8に記載の発明は、畳み込み層を含む畳み込みニューラルネットワークにおいて、複数のチャンネルを有するデータに対して畳み込み処理が行われるデータ処理手順を備える、情報処理装置における情報処理方法であって、該情報処理装置に入力されたデータに対して非線形の変換を行って前記データ処理手順の処理に入力される変換手順、及び/又は、前記データ処理手順の処理によって出力されたデータに対して非線形の変換を行って前記情報処理装置から出力させる逆変換手順を備え、前記変換手順、及び/又は、前記逆変換手順は、前記データに対して前記チャンネルごとに別個に前記非線形の変換が行われる第一の非線形処理手順を備えたことを特徴とする。 According to an eighth aspect of the present invention, there is provided an information processing method in an information processing apparatus, comprising a data processing procedure in which convolution processing is performed on data having a plurality of channels in a convolutional neural network including convolution layers, wherein A transformation procedure that performs nonlinear transformation on data input to an information processing device and is input to the processing of the data processing procedure, and / or a nonlinear transformation of data that is output by the processing of the data processing procedure. An inverse transformation procedure is provided for performing transformation and outputting it from the information processing device, wherein the transformation procedure and/or the inverse transformation procedure performs the nonlinear transformation separately on the data for each channel. It is characterized by having one nonlinear processing procedure.
請求項9に記載の発明は、プログラムであって、コンピュータを請求項1乃至7の何れか一つに記載の情報処理装置として機能させることを特徴とする。 According to a ninth aspect of the present invention, there is provided a program that causes a computer to function as the information processing apparatus according to any one of the first to seventh aspects.
本発明によれば、CNNを用いた人工知能において、データ量や処理負荷が過大になるのを抑止しつつ高い精度で解析や認識を行うことが可能となる。 According to the present invention, in artificial intelligence using CNN, it is possible to perform analysis and recognition with high accuracy while preventing the amount of data and processing load from becoming excessive.
[発明の実施の形態1]
図1乃至図7に、この実施の形態1に係る情報処理装置及び情報処理装置における情報処理方法を示す。以下、この発明の実施の形態1について図面を参照して説明する。
[
1 to 7 show an information processing apparatus and an information processing method in the information processing apparatus according to the first embodiment.
[基本構成]
まず、この実施の形態1の情報処理装置の及び構成について説明する。
[Basic configuration]
First, the configuration of the information processing apparatus according to the first embodiment will be described.
図1に示す、この実施の形態1の情報処理装置1Aは、人工知能(AI、以下単に「AI」と記載する。)を備え、AIによる各種データの解析や認識や、解析や認識に用いたデータの復元を行う。情報処理装置1Aは、デジタルデータに対してCNNを用いたデータ処理を行う。
The
以下、この実施の形態1では、情報処理装置1Aがデジタルデータとしての画像データの解析や認識、そして復元を行うものとして説明する。また、この実施の形態1の情報処理装置1Aに入力される画像データは、256階調のRGBカラーモデルの画像データ(R値、G値、B値の3つのパラメータを有する画像データ)であるものとする。
In the following description of the first embodiment, the
ただし情報処理装置1Aが扱うデータは画像データに限らず、例えばデジタルデータとしての音声データや、音声以外の各種デジタルデータを扱うものでもよい。また、情報処理装置1Aが扱うデータはアナログデータをデジタルデータに変換して各種処理を行うものであってもよい。
However, data handled by the
また、この実施の形態1で扱う画像データは、RGBカラーモデル以外の画像データ、例えばRGBカラーモデルをYUVやYCbCrなどの異なる色空間に変換した画像データであってもよいし、4つ以上のパラメータを有する画像データ(例えばRGBYの4つのパラメータを有する画像データ)であってもよい。この場合、以下に説明する情報処理装置1Aの機能手段は、パラメータの種類やパラメータの数に応じたものとして構成される。
The image data handled in the first embodiment may be image data other than the RGB color model, for example, image data obtained by converting the RGB color model into a different color space such as YUV or YCbCr. Image data having parameters (for example, image data having four parameters of RGBY) may be used. In this case, the functional means of the
[情報処理装置の機能手段]
図1に示すとおり、この実施の形態1の情報処理装置1Aは、機能手段として、制御部10、画像処理部11、「記憶手段」としての記憶部12、通信部13、表示部14及び操作部15を備える。なお情報処理装置1Aにおける動作について以下では、1台のサーバコンピュータとして説明するが、複数のコンピュータによって処理を分散するようにして構成されてもよい。
[Functional Means of Information Processing Device]
As shown in FIG. 1, the
制御部10は、CPU(Central Processing Unit )等のプロセッサ及びメモリ等を用い、装置の構成部を制御して各種機能を実現する。画像処理部11は、GPU(Graphics Processing Unit)又は専用回路等のプロセッサ及びメモリを用い、制御部10からの制御指示に応じて画像処理を実行する。なお、制御部10及び画像処理部11は、CPU,GPU等のプロセッサ、メモリ、更には記憶部12及び通信部13を集積した1つのハードウェア(SoC:System on a Chip)として構成されていてもよい。
The
記憶部12は、各種記憶媒体であり、たとえばハードディスク又はフラッシュメモリを用いる。記憶部12には、画像処理プログラム1P、DL(Deep Learning)用、特にCNNとしての機能を発揮させるCNNライブラリ1L、及び変換器ライブラリ2Lが記憶されている。また記憶部12には、1つの学習毎に作成される、CNN114、第一の変換器112、第二の変換器113、逆変換器115、を定義する情報、学習済みのCNN114における各層の重み係数等を含むパラメータ情報等が記憶される。
The
また、記憶部12には変換テーブル121が記憶される。この変換テーブル121は第一の変換器112に読み込まれ、第一の変換器112における演算処理に用いられる(後述の[変換テーブル]にて詳述。)
通信部13は、インターネット等の通信網への通信接続を実現する通信モジュールである。通信部13は、ネットワークカード、無線通信デバイス又はキャリア通信用モジュールを用いる。
A conversion table 121 is stored in the
The
表示部14は、液晶パネル又は有機EL(Electro Luminescence)ディスプレイ等を用いる。表示部14は、制御部10の指示による画像処理部11での処理によって画像を表示することが可能である。
The
操作部15は、キーボード又はマウス等のユーザインタフェースを含む。筐体に設けられた物理的ボタンを用いてもよい。及び表示部14に表示されるソフトウェアボタン等を用いてもよい。操作部15は、ユーザによる操作情報を制御部10へ通知する。
The operating
読取部16は、例えばディスクドライブを用い、光ディスク等を用いた記録媒体2に記憶してある画像処理プログラム2P、CNNライブラリ3L、及び変換器ライブラリ4Lを読み取ることが可能である。記憶部12に記憶してある画像処理プログラム1P、CNNライブラリ1L、及び変換器ライブラリ2Lは、記録媒体2から読取部16が読み取った画像処理プログラム2P、CNNライブラリ3L、及び変換器ライブラリ4Lを制御部10が記憶部12に複製したものであってもよい。
The
情報処理装置1Aの制御部10は、記憶部12に記憶してある画像処理プログラム1Pに基づき、「学習実行部」としての画像処理実行部101として機能する。また画像処理部11は、記憶部12に記憶してあるCNNライブラリ1L、定義データ、パラメータ情報に基づきメモリを用いてCNN114(CNNエンジン)として機能し、また変換器ライブラリ2L、フィルタ情報に基づきメモリを用いて第一の変換器112、第二の変換器113として機能する。画像処理部11は、第一の変換器112、第二の変換器113の種類に応じて逆変換器115として機能する場合もある。
The
[画像処理実行部の機能手段]
図2に示すとおり、画像処理実行部101は、機能手段として、入力部111、「変換手段」「第一の非線形処理手段」としての第一の変換器112、「変換手段」「第二の非線形処理手段」としての第二の変換器113、「データ処理手段」としてのCNN114、「逆変換手段」としての逆変換器115、出力部116を備える。画像処理実行部101は、これらの機能手段を用い、各々へデータを与え、各々から出力されるデータを取得する処理を実行する。
[Functional Means of Image Processing Execution Unit]
As shown in FIG. 2, the image
具体的には、画像処理実行部101は、ユーザの操作部15を用いた操作に基づいて入力部111に入力された、入力データである画像データを、第一の変換器112に入力し、第一の変換器112から出力された画像データを第二の変換器113に入力する。画像処理実行部101は、第二の変換器113から出力されたデータをCNN114に入力する。画像処理実行部101は、CNN114から出力されたデータを必要に応じて逆変換器115へ入力し、逆変換器115から出力されたデータを出力部116に入力し、入力されたデータは出力部116から出力データとして出力されて記憶部12に入力される。画像処理実行部101は、出力データを画像処理部11へ与えて画像として描画し、表示部14へ出力してもよい。
Specifically, the image
CNN114は、定義データにより定義される複数段の畳み込み層及びプーリング層と、全結合層とを有し(図7参照)、入力データの特徴量を取り出し、取り出された特徴量に基づいて分類を行なう(後述の[CNNの構成と処理手順]に詳述。)。
The
第一の変換器112、第二の変換器113は、CNN114と同様に畳み込み層と多チャンネル層とを含み、入力されたデータに対して非線形変換を行なう。ここで非線形変換とは、例えば色空間変換やレベル補正のような入力値を非線形に歪めるような処理を言う。逆変換器115は、畳み込み層と多チャンネル層とを含んで逆変換する。逆変換器115は「第二の非線形処理手段」としての第一の変換器112、「第一の非線形処理手段」としての第二の変換器113による歪みを戻す機能を果たす。ただし、逆変換器115による変換は、第一の変換器112、第二の変換器113と対称となるような変換だけには限られない。
The
[第一の変換器]
図3及び図4に、この実施の形態1の第一の変換器112の構成を模式的に示す。
[First converter]
3 and 4 schematically show the configuration of the
第一の変換器112は、データに対してチャンネルごとに別個に非線形の変換を行う。ここでのチャンネルとは、RGBカラーモデルのカラー画像の画像データにおけるR値、G値、B値のこと(カラーチャンネル)をいう。つまりこの画像データは3チャンネルのデータである。
A
図4に示すとおり、第一の変換器112は、R変換器112r、G変換器112g、B変換器112bを備える。R変換器112rは、ノード数が1である第1層(入力層)112r1と、ノード数が複数であり、この複数のノードによって緻密層が形成された畳み込み層(CONV)である第2層(中間処理層)112r2と、ノード数が1である第3層(出力層)112r3とで構成される。G変換器112g、B変換器112bも、R変換器112rと同様の構成である。即ち、G変換器112gは第1層112g1、第2層112g2、第3層112g3を備え、B変換器112bは第1層112b1、第2層112b2、第3層112b3を備えている。
As shown in FIG. 4, the
図3、図4に示すとおり、中間処理層である第2層を構成するR変換器112rの第2層112r2は、例えば256個のノード1120001,1120002,・・・1120255,1120256を備える。ノード数は処理精度に比例するので、ノード数が多いほど処理精度が高まるが、ノード数が増えれば多くの演算処理が必要となるという関係にある。図3に示すとおり、G変換器112g、B変換器112bも、同様にそれぞれ、256個のノード1120001,1120002,・・・1120256を備えている。
As shown in FIGS. 3 and 4, the second layer 112r2 of the
第一の変換器112は、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行う作用を持つ(変換手順、第一の非線形処理手順)。なお、第一の変換器112のR変換器112r、G変換器112g、B変換器112bの第2層112r2,112g2,112b2は、緻密層として構成されるものに限らず、畳み込み層として構成されるものであってもよい。
The
[第一の変換器の具体的構成]
図4は、この実施の形態1の第一の変換器112の具体的構成を示す機能ブロック図である。
[Specific Configuration of First Converter]
FIG. 4 is a functional block diagram showing a specific configuration of the
第一の変換器112のR変換器112rは、入力層である第1層のノード112r1と、中間処理層である第2層112r2と、出力層である第3層112r3を有し、第2層112r2では1×1のフィルタの畳み込み処理により256個のノード1121001,1121002,・・・1121255,1121256として畳み込み処理結果が出力され、さらにelu活性化関数処理が行われ、1122001,1122002,・・・1122255,1122256の出力が得られる。また、第一の変換器112のR変換器112rの出力層である第3層112r3は、畳み込みノード112r31と出力ノード112r32とを備える。畳み込みノード112r31においては、中間処理層の第2層112r2のノード1122001,1122002,・・・1122255,1122256でelu活性化関数処理された出力を1×1のフィルタで畳み込む処理を行うと共に、畳み込みの結果についてelu活性化関数処理を行う。出力ノード112r32は、畳み込みノード112r31における処理の結果を出力する。
The
このelu(Exponential Linear Unit)とは活性化関数の一つであり、eluを用いることでデータを非線形に変形することができる。第一の変換器112において、活性化関数としてeluを用いているのは、他の活性化関数、例えば後述するReLU等に比べ、eluを用いた処理の方が入力されたデータの曲線(RGBの数値の大きさと明度の大きさなどをパラメータとした特性曲線など)の変形が滑らかになる(活性化関数を用いた処理後の曲線の形状を、処理前と大きく変化させることのないものとすることができる。)ことによるものである。
This elu (exponential linear unit) is one of the activation functions, and by using elu, data can be transformed nonlinearly. The reason why the
図3,図4等に図示しないが、第一の変換器112のG変換器112g及びB変換器112bもR変換器112rと同様の構成である。
Although not shown in FIGS. 3 and 4, the
なお、第一の変換器112のR変換器112rは、第2層112r2のelu活性化関数処理部1122001,1122002,・・・1122255,1122256、及び第3層のelu活性化関数処理部112r32のうち、少なくとも何れか一つが設けられていなくてもよいし、elu活性化関数以外のどのような関数が用いられてもよい。これは、第一の変換器112のG変換器112g、B変換器112b、第二の変換器113、逆変換器115の第一の逆変換部115a、第二の逆変換部115bにおいても同様である。
1122 255 , 1122 256 of the second layer 112r2 and the elu activation function of the third layer. At least one of the processing units 112r32 may not be provided, and any function other than the elu activation function may be used. This is the same for the
なお、図3、図4に示すR変換器112r、G変換器112g、B変換器112bは、出力層である第3層の出力チャンネル数(ノード数)が入力チャンネル数と同数であるが、これに限らず減少させてもよいし、増加させてもよい。これは、第二の変換器113、逆変換器115の第一の逆変換部115a、第二の逆変換部115bのR逆変換部115br、G逆変換部115bg、B逆変換部115bbも同様である。
Note that the
[第一の変換器の構成の変形例]
図5は、この実施の形態1の第一の変換器112の構成の変形例の概略を示す機能ブロック図である。
[Modification of Configuration of First Converter]
FIG. 5 is a functional block diagram outlining a modification of the configuration of the
同図は、第一の変換器112のR変換器112rの変形例の概略を示している。図5において、第一の変換器112は第3層112r3に畳み込みノード112r34とスキップコネクション112r35と活性化関数処理ノード112r36とを備えている。このスキップコネクション112r33は、畳み込みノード112r34は、第2層112r2の出力を1×1のフィルタで畳み込み処理を行う。スキップコネクション112r33は、第1層112r1から出力されたデータを第2層112r2の処理を行わずに第3層112r3に入力する。活性化関数処理ノード112r36は、畳み込みノード112r34で処理されたデータとスキップコネクション112r33から供給されたデータとを加算し、加算後のデータのelu活性化関数処理を行う。スキップコネクション112r33を設けることで、機械学習で生じ得るデータの勾配消失問題を適切に回避させることが可能となる。
This figure shows an outline of a modification of the
なお図示しないが、G変換器112g、B変換器112bにも同様のスキップコネクションを設け、同様の効果を得ることができる。これは、後述の[発明の実施の形態2]~[発明の実施の形態8]の第一の変換器112でも同様である。
Although not shown, the
[第二の変換器]
図3及び図6に、この実施の形態1の第二の変換器113の構成を模式的に示す。
[Second converter]
3 and 6 schematically show the configuration of the
第二の変換器113は、ノード数が複数たとえば3である第1層1131r,1131g,1131bと、中間処理層として1×1のフィルタの畳み込み(CONV)を行う第2層1132001,1132002,・・・1132255,1132256と、1×1のフィルタの畳み込みにより3チャンネルの出力を得る第3層11331,11332,11333とで構成される。
The
この実施の形態1において、第二の変換器113の第1層1131r,1131g,1131b、第3層11331,11332,11333のノード数3は、第一の変換器112を構成するR変換器112r、G変換器112g、B変換器112bの数に一致する数である。すなわち、第二の変換器113の第1層1131r,1131g,1131bや第3層11331,11332,11333のノード数は、RGBカラーモデルの色情報であるR,G,Bの3種類の分類数がこれに対応する。)に一致する。
In this
なお、第二の変換器113の第1層1131r,1131g,1131bや第3層11331,11332,11333のノード数と、第一の変換器112を構成する各変換器112r,112g,112bの数は必ずしも一致しなくてもよい。また、この実施の形態1において、第二の変換器113の第1層1131r,1131g,1131bと第3層11331,11332,11333とは同じノード数としているが、異なるノード数であってもよい。さらに、第二の変換器113は、第2層1132001,1132002,・・・1132255,1132256が緻密層を有するものに限らず、例えば畳み込み層を有するものでもよい。
Note that the number of nodes of the
[逆変換器]
図3に、この実施の形態1の逆変換器115の構成を模式的に示す。
[Inverse converter]
FIG. 3 schematically shows the configuration of the
逆変換器115は、第一の逆変換部115a、「第一の非線形処理手段」としての第二の逆変換部115bを備えている。
The
第一の逆変換部115aは、第二の変換器113と同じ構成を備え、第二の変換器113による変換に対する逆変換を行う(逆変換手順)。具体的には、第一の逆変換部115aは、ノード数が複数たとえば3である第1層115a11,115a12,115a13と、第1層よりもノード数が多い緻密層(DENSE)として構成された第2層115a2001,115a2002,・・・115a2355,115a2256と、第2層115a2001,115a2002,・・・115a2355,115a2256よりも少ない複数のノード数、たとえば第1層115a11,115a12,115a13と同じノード数が3である第3層115a31,115a32,115a33とで構成される。
The first
第二の逆変換部115bは、第一の変換器112と同じ構成を備え、第一の変換器112による変換に対する逆変換を行う(逆変換手順)。第二の逆変換部115bは、データに対してチャンネルごとに別個に非線形の変換を行う。ここでのチャンネルとは、第一の変換器112の場合と同様、RGBカラーモデルのカラー画像の画像データにおけるR値、G値、B値のことをいう。
The second
具体的には、第二の逆変換部115bは、R変換器112rに対応するR逆変換部115br、G変換器112gに対応するG逆変換部115bg、B変換器112bに対応するB逆変換部115bbを備える。R逆変換部115brは、ノード数が1である第1層115br1と、ノード数が複数(ここでは256)の緻密層として構成された第2層115br2001,115br2002,・・・115br2256と、ノード数が1である第3層115br3とで構成される。G逆変換部115bg、B逆変換部115bbも、R逆変換部115brと同様の第1層115bg1,115bb1、第2層115bg2001,115bg2002,・・・115bg2256と、第3層115bb3,115bb3とを備えた構成である。
Specifically, the second
第一の逆変換部115aは、第二の変換器113と同様に、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行なう。第二の逆変換部115bのR逆変換部115br、G逆変換部115bg、B逆変換部115bbも、第一の変換器112のR変換器112r、G変換器112g、B変換器112bと同様に、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行う作用を持つ(第一の非線形処理手順)。
Like the
なお、第一の逆変換部115aは、第二の変換器113と同様に、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行なう。第二の逆変換部115bのR逆変換部115br、G逆変換部115bg、B逆変換部115bbも、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行なう。
Note that the first
また、前述の[画像処理実行部の機能手段]に記載のとおり、第一の逆変換部115aの処理は第二の変換器113の完全に逆の処理でない場合もあり、第二の逆変換部115bの処理は第一の変換器112の完全に逆の処理でない場合も含まれる。
Further, as described in [Functional Means of Image Processing Execution Unit] above, the processing of the first
また、情報処理装置1Aによる機械学習の出力データが入力データと同一形式の場合(例えば画像データの入力に対して画像データが出力される場合)は逆変換器115があった方が適切な処理を行える。一方、例えば情報処理装置1Aによる出力データが入力データと相違する形式である場合(例えば画像データの入力に対して画像認識の結果が文字やシンボル等のデータとして出力される場合)は逆変換器115が不要である場合が多い。そのため、この実施の形態1の逆変換器115は、情報処理装置1Aの処理するデータの種類や処理結果の出力態様等によっては情報処理装置1Aに含めない構成とすることも考えられる(後述する[発明の実施の形態4,5,7]等参照)。
Further, when the output data of machine learning by the
[変換テーブル]
この実施の形態1の第一の変換器112を構成するR変換器112r、G変換器112g、B変換器112bは、それぞれ、演算処理において変換テーブル121を用いる。図2に示すように、この変換テーブル121は記憶部12に記憶され、第一の変換器112が記憶部12から取り込んで演算に使用する。
[Conversion table]
The
具体的には、変換テーブル121には、各変換器112r,112b,112gは、それぞれ、第2層1120001,1120002,・・・1120255,1120256のノードの数である256種類の演算パターンが記録されている。各変換器112r,112b,112gは、この変換テーブル121を用いて実際の演算に対応する処理を行う。
Specifically, in the conversion table 121, each of the
このような変換テーブル121を用いた処理が可能となるのは、この実施の形態1の構成におけるR変換器112r、G変換器112g、B変換器112bの演算の種類が事実上ノードの数だけであって演算のパターンの数が少なく、演算のパターンを変換テーブル121として容易に記録可能であるためである。
Such processing using the conversion table 121 is possible because the types of operations of the
第一の変換器112や第二の変換器113では、畳み込みの演算(二項演算)が必要である。そして、第二の変換器113では第2層のノードに入力される値のバリエーションが非常に多く、それらのバリエーションを網羅したテーブルを作成することは困難である。これに対し、第一の変換器112を構成するR変換器112r、G変換器112g、B変換器112bや、第二の逆変換部115bを構成するR逆変換部115br、G逆変換部115bg、B逆変換部115bbは、第1層112r1,112g1,112b1のノードがそれぞれ1つなので、第2層1120001,1120002,・・・1120255,1120256で演算を行う元データが1つである。そのため、第2層1120001,1120002,・・・1120255,1120256における各ノードのバリエーションは少ない。そのため、第2層1120001,1120002,・・・1120255,1120256の各ノードの演算結果を容易にテーブル化できる。これにより、R変換器112r、G変換器112g、B変換器112bの計算コストをほぼゼロにすることができる。なお、逆変換部115br、115bg、115bbでテーブルを利用する場合には逆変換部の出力を例えば256階調とし、各階調に対応した数値と出力値とをテーブルに設定し、設定された数値に一番近いテーブルの値を利用したり、各階調に対応した数値の範囲とその数値範囲の場合の出力値とをテーブルに設定し、入力データの値がどのテーブル値に含まれるかを検索し、出力値を得るようにしても良い。
The
この実施の形態1におけるR変換器112r、G変換器112g、B変換器112b、の演算処理を変換テーブル121を用いて行うことにより、簡易な構成で確実に演算処理の処理負荷が過大になることを抑止し、処理を行える情報処理装置1Aを提供することが可能となる。また、CNN114における計算資源が少ない場合であっても、僅かな計算資源によって構築できる第一の変換器112を用いることで、機械学習の精度を高めることができる。
By performing arithmetic processing of the
特に、この実施の形態1の情報処理装置1Aの機械学習の用途が、たとえば超解像(解像度の低い画像データを高解像度化するもの。)などのように処理負荷の重いものである場合には、CNN114の処理全体における畳み込みの演算に要する計算コストの占める比率は無視できる程に低い。しかし、機械学習の用途が画像の認識のような処理負荷の軽いものである場合には、CNN114の処理全体の中の畳み込みの演算に要する計算コストの占める比率は高い。そのため、CNN114における演算が軽装なものにおいては、変換テーブル121を用いた計算コストの低減は特に効果的であるといえる。
In particular, when the machine learning application of the
[CNNの構成と処理手順]
図7は、この実施の形態1の情報処理装置1AのCNN114の構成と処理手順(データ処理手順)を模式的に示すブロック図並びにタイムチャートである。
[Configuration and processing procedure of CNN]
FIG. 7 is a block diagram and a time chart schematically showing the configuration and processing procedure (data processing procedure) of
図7に示すとおり、CNN114は、データが入力される入力部1140、データが出力される出力部1147の他に、畳み込み層とプーリング層からなる複数の階層、ここでは第1層1141、第2層1142、第3層1143、第4層1144、第5層1145の5層の階層と、1つの全結合層1146を有している。これらの階層は、CNN114の構成と処理の態様と模式的に示すものである。なお、畳み込み層とプーリング層の階層は5層よりも多くても少なくてもよい。
As shown in FIG. 7, the
この実施の形態1のCNN114においては、まず第1層1141において、畳み込み層11411でフィルタ(図示せず)を用いた畳み込み処理が行われると、画像データの特徴(画像データに表示された画像や図形の特徴)が抽出された、元の画像データよりも2次元方向の大きさが縮小された画像データがフィルタの枚数分生成される。プーリング層11412では、畳み込み層で生成された画像データの2次元方向の大きさが縮小された画像データが生成される。
In the
図7では、第1層1141の畳み込み層11411で64種類のフィルタを用いた64枚の畳み込みデータを生成し、プーリング層11412でその64種類の畳み込みデータの2次元方向の大きさが縮小された新たな画像データが生成される。第2層1142では、畳み込み層11421において、第1層1141で生成された64種類の画像データに128種類のフィルタを用いた畳み込み処理を行って128種類の畳み込みデータを生成し、プーリング層11422でその128種類の畳み込みデータの2次元方向の大きさが縮小された新たな画像データが生成される。
In FIG. 7, the
以下、第3層1143、第4層1144、第5層1145でも同様の処理が行われる。第3層1143では畳み込み層11431、プーリング層11432の処理により256種類の畳み込みデータと新たな画像データが生成される。第4層1144、第5層1145では畳み込み層11441,11451、プーリング層11442,11452の処理により512種類の畳み込みデータと新たな画像データが生成される。
The same processing is performed for the
全結合層1146では、第1層1141から第5層1145までの処理が行われたデータを1次データ変換し、それぞれの画像データに表示された画像の特徴を認識する。全結合層1146では、ReLU(Rectified Linear Unit)の活性化関数処理と、Batch Normalizationを用いた処理が行われるようにしてもよい。ただし、全結合層1146では、ReLU以外のどのような活性化関数が用いられた処理が行われてもよい。
The fully connected
[情報処理装置の学習手順]
この実施の形態1の情報処理装置1Aは、画像処理実行部101が、第一の変換器112、第二の変換器113、及び逆変換器115を、CNN114を含むCNNの一部として用いて学習を行なう。具体的には画像処理実行部101は学習時には、学習データをCNN114全体に入力して得られる出力データと、既知の学習データの分類(出力)との誤差を最小にする処理を実行し、第一の変換器112、第二の変換器113、又は逆変換器115における重みを更新する。この学習処理により得られるCNN114におけるパラメータと、第一の変換器112、第二の変換器113における重みとは、対応するパラメータとして記憶部12に記憶される。画像処理実行部101は、学習済みのCNN114を使用する場合には、CNN114を定義する定義情報及び記憶部12に記憶してあるパラメータと、対応する第一の変換器112及び第二の変換器113の重みとを用い、入力データを第一の変換器112、第二の変換器113に入力した後のデータをCNN114へ入力して用いる。逆変換器115を用いる場合も学習により得られる学習済みのCNN114を定義する定義情報及びパラメータと対応する重みを使用する。
[Learning Procedure of Information Processing Device]
In the
第一の変換器112、第二の変換器113を、CNN114が畳み込みによる特徴抽出を行う前段に入力することによって、抽出されるべき画像データの特徴を更に強調させることができる。これにより、CNN114における学習効率及び学習精度が向上することが期待される。
By inputting the
[その他の構成]
なお、この実施の形態1における情報処理装置1Aのハードウェア構成のうち、通信部13、表示部14、操作部15、及び読取部16は必須ではない。通信部13は、例えば記憶部12に記憶される画像処理プログラム1P、CNNライブラリ1L及び変換器ライブラリ2Lを外部サーバ装置(図示せず)等から取得する場合には、それらを一旦ダウンロードした後は使用しなくてもよい。同様に、読取部16も、画像処理プログラム1P、CNNライブラリ1L及び変換器ライブラリ2Lを外部の記憶媒体(図示せず)から読み出して取得した後は使用しない構成としてもよい。また、通信部13及び読取部16は、USB(Universal Serial Bus)等のシリアル通信を用いた同一デバイスであってもよい。
[Other configurations]
Note that the
また、情報処理装置1Aの構成をネットワーク(図示せず)上に分散させた構成としてもよい。たとえば、上述のCNN114、第一の変換器112、第二の変換器113、及び逆変換器115としての機能をネットワーク(図示せず)上のWebサーバ(図示せず)上に設け、表示部及び通信部を備えるWebクライアント装置(図示せず)からこれらの機能が利用できる構成としてもよい。この場合、通信部13は、Webクライアント装置(図示せず)からのリクエストを受信し、処理結果を送信するために使用される。
Also, the configuration of the
なお学習時に用いる誤差は、二乗誤差、絶対値誤差、又は交差エントロピー誤差等、入出力されるデータ、学習目的に応じて適切な関数を用いるとよい。例えば、出力が分類である場合、交差エントロピー誤差を用いる。誤差関数を用いることに拘わらずその他の基準を用いるなど柔軟な運用が適用できる。この誤差関数自体に外部のCNN(図示せず)を用いて評価を行なってもよい。 As for the error used during learning, an appropriate function may be used according to the input/output data and the purpose of learning, such as a squared error, an absolute value error, or a cross entropy error. For example, if the output is a classification, use the cross-entropy error. Flexible operation such as using other criteria can be applied regardless of using the error function. The error function itself may be evaluated using an external CNN (not shown).
[作用効果]
この実施の形態1の情報処理装置1Aは、入力されたデータや信号に非線形の補正を行う場合に、適切な補正を容易に行うことが可能となる。
[Effect]
The
これは、この実施の形態1の情報処理装置1Aは、CNN114の前後に第二の変換器113、逆変換器115を設け、情報処理装置1Aに入力されたデータを非線形に空間変換するのに加え、第二の変換器113の前段に第一の変換器112を設け、画像データを構成するRデータ、Gデータ、Bデータについて個々に非線形処理を行うことで、入力された画像データの特徴を増加させ得ることによるものである。
This is because the
このように構成することで、この実施の形態1の情報処理装置1Aは、第一の変換器112の非線形変換において機械学習の特徴を増加させ、機械学習の認識率を高めたり、あるいは、高精細な画像形成を行ったりすることが可能となる。
With this configuration, the
この実施の形態1の情報処理装置1Aの処理は、例えば、RGB色空間のカラー画像データにガンマ補正のような処理を行う場合が考えられる。
The processing of the
たとえば、ピクセル毎にR、G、Bのパラメータを有する画像データについて、Rの値、Gの値、Bの値の少なくとも何れか一つ、例えばRの値にガンマ補正のような非線形変換の補正(個々の色空間変換のような補正)を行うとともに、RGB全体の値にガンマ補正のような非線形変換の補正を行う場合、第一の変換器112を構成する変換器の何れか一つ、たとえばR変換器112rを用いて画像データ中のRの値を非線形変換するとともに、第二の変換器113を用いてRGBの値全体を非線形変換することができる。
For example, for image data having R, G, and B parameters for each pixel, at least one of the R value, G value, and B value, for example, non-linear transformation correction such as gamma correction to the R value (corrections such as individual color space conversions) and non-linear conversion corrections such as gamma corrections to the overall RGB values, any one of the converters that make up the
このような処理を行うことで、画像データを構成する複数のパラメータのうちの一部のパラメータ(たとえばRGBのうちのRのパラメータ)について非線形変換等の補正を行うと共に、それら複数のパラメータ全てについての非線形変換等の補正を行うことが可能となる。これにより、画像データ等のデータや信号について多面的で的確な補正を簡単に行うことが可能となる。 By performing such processing, correction such as non-linear transformation is performed on some parameters (for example, the R parameter of RGB) among the plurality of parameters constituting the image data, and all of the plurality of parameters are corrected. It becomes possible to perform correction such as non-linear conversion of . This makes it possible to easily perform multifaceted and accurate correction of data such as image data and signals.
特に、複数のパラメータを有するデータや信号のうちの特定のパラメータのデータについての非線形変換等の変換と、全てのパラメータのデータについての非線形変換等の変換を順次行うことで良好な変換結果を得たい場合に、この実施の形態1の構成は有効性が高いと考えられる。 In particular, good conversion results can be obtained by sequentially performing conversion such as nonlinear conversion for data having a plurality of parameters or data of specific parameters among signals and conversion such as nonlinear conversion for data of all parameters. It is considered that the configuration of the first embodiment is highly effective in the case of
なお、CNN114内の畳み込み層やプーリング層の数を増加させたり、畳み込みのチャンネル数(convolution数)を増加させ、CNN114内の処理負荷を高くした場合には、第一の変換器112を用いた(Rデータ、Gデータ、Bデータについて個々に行う非線形処理のような)チャンネル毎の非線形処理による機械学習の認識率向上が期待値並みに高くならない傾向にある。それゆえ、この実施の形態1の情報処理装置1Aは、CNN114内の演算が軽装な場合に高い効果を奏すると考えられる。すなわち、この実施の形態1の情報処理装置1Aは、CNN114における計算資源が少ない場合であっても、僅かな計算資源で構築できる第一の変換器112を用いることで、機械学習の精度を向上させることができる。
The number of convolution layers and pooling layers in
この実施の形態1の情報処理装置1Aは、第一の変換器112がR変換器112r、G変換器112g、B変換器112bの少なくとも3層の処理群からなる処理層群を備えることや、第二の逆変換部115bがR逆変換部115br、G逆変換部115bg、B逆変換部115bbの少なくとも3層の処理層からなる処理層群を備えること、そして、そそれらの処理層群は、ノード数が1の入力層と、該入力層の後段に設けられたノード数が複数の畳み込み層又は緻密層である第2層と、該第2層の後段に設けられたノード数が1の畳み込み層又は緻密層である第3層とを含む処理層群として、畳み込みニューラルネットワークへ入力するデータのチャンネル(R,G,B3つのカラーチャンネル)毎に設けられていることにより、複数のチャンネル、複数のパラメータを有するデータについて、チャンネル毎、パラメータ毎のデータの非線形処理を行うことができ、機械学習の精度を一層向上させることができる。
In the
この実施の形態1の情報処理装置1Aは、第一の変換器112や第二の逆変換部115bの第2層が複数層からなることにより、R,G,Bのカラーチャンネルのような多チャンネルのデータについて機械学習の精度を一層向上させることができる。
In the
この実施の形態1の情報処理装置1Aは、第二の変換器113を用いることで、R値、G値、B値のような複数のパラメータを有するデータを、それらの複数のパラメータ(RGB3値全ての場合も、例えばRGB3値のうちのR値とG値の2値のような場合も含む)について非線形変換を行う処理を併せて行うことで、バリエーションを持たせた非線形処理を容易に行い、機械学習の精度を一層向上させることができる。
この実施の形態1の情報処理装置1Aは、第一の変換器112と第二の変換器113とを複合させて非線形の変換を行うことにより、バリエーションを持たせた非線形処理を容易に行うことができる。
The
この実施の形態1の情報処理装置1Aは、変換テーブル121を用いて非線形の変換を行うことにより、処理負荷を軽減させつつ精度の高い機械学習を行うことができる。
The
この実施の形態1の情報処理装置1Aは、畳み込み処理の結果に基づいて畳み込みニューラルネットワークにおけるパラメータを学習する画像処理実行部101を備えたことにより、機械学習に適したデータを用いた畳み込み処理の結果を用いて、精度の高い機械学習を行うことができる。
The
[変形例]
なお、この実施の形態1の情報処理装置1Aは、下記に示す変形例のように構成することもできる。これらの構成をとることにより、データの内容や処理の内容に応じた適切な態様で、精度の高い機械学習を行うことが可能となる。
[Modification]
Note that the
(変形例1)
CNN114の前段に設けられる第一の変換器112や第二の変換器113の出力側のチャンネル数を、入力側のチャンネル数以上とすることができる。例えば、第1の変換器のR変換器112rの出力層で2チャンネル以上の出力を得るようにしても良い。G変換器112g、B変換器112bも同様の構成とすることができる。これにより、第一の変換器112に入力されたRGBの3チャンネルのデータは4チャンネル以上のデータとして出力される。
(Modification 1)
The number of channels on the output side of the
(変形例2)
CNN114の前段に設けられる第一の変換器112や第二の変換器113の途中のチャンネル数を、入力側のチャンネル数以上とすることができる。例えば、R変換器112rの第1層112r1から、図示された第2層1120001,・・・1120256とは別系統の第2層(図示せず)にもデータを送る構成とできる。G変換器112g、B変換器112bも同様の構成とすることができる。これにより、入力されたRGBの3チャンネルのデータを第1の変換器112内で4チャンネル以上のデータとして処理を行える。
(Modification 2)
The number of channels in the middle of the
(変形例3)
CNN114の前段に設けられる第一の変換器112や第二の変換器113の中間処理層を多層化することができる。例えば第一の変換器112のR変換器112rの中間処理層を、第2層1120001,・・・1120256の後や前に第2層α、第2層βのような構成(第2層の個々のノードの前後に連続した別のノード)を設けた構成とすることができる。G変換器112g、B変換器112bも同様の構成とすることができる。
(Modification 3)
The intermediate processing layers of the
(変形例4)
CNN114の後段に設けられる逆変換器115の入力側のチャンネル数を、出力側のチャンネル数以上とすることができる。例えば、逆変換器115に入力されるデータを4チャンネル以上とし、出力されるデータをRGBの3チャンネルとすることができる。
(Modification 4)
The number of channels on the input side of the
(変形例5)
CNN114の後段に設けられる逆変換器115の中間処理層のチャンネル数を、入力側のチャンネル数以上とすることができる(上記(変形例2)の構成を逆変換器115の第一の逆変換部115aや第二の逆変換部115bに適用した構成となる。)。
(Modification 5)
The number of channels in the intermediate processing layer of the
(変形例6)
CNN114の後段に設けられる逆変換器115の中間処理層を多層化することができる。(上記(変形例3)の構成を逆変換器115の第一の逆変換部115aや第二の逆変換部115bに適用した構成となる。)。
(Modification 6)
The intermediate processing layers of the
(変形例7)
第一の変換器112のR変換器112r、G変換器112g、B変換器112bの少なくとも何れか一つを、1チャンネル入力1チャンネル出力ではなく、多チャンネル入力や、多チャンネル出力とすることもできる。例えばR変換器112rの第1層112r1、第3層112r3を2つ以上のノードとして構成することもできる。このように構成しても、R変換器112r、G変換器112g、B変換器112bがそれぞれ独立したデータ処理を行う構成が維持されていれば図1に示す第一の変換器112の機能は実現できる。ただし、入力側(第1層112r1,112g1,112b1)が1チャンネルの場合のみ、変換テーブル121を適用した演算が事実上可能である。
(Modification 7)
At least one of the
(変形例8)
第二の変換器113は、入力側のチャンネルと出力側のチャンネルが、元のチャンネル数と同一でなくてもよい。たとえば、第二の変換器113の第1層1131r,1131g,1131bや、第3層11331,11332,11333は、チャンネル数が3つよりも多くても少なくてもよい。即ち、入力部111に入力された画像データのRGB3チャンネルよりもそれらのチャンネル数が多くても少なくてもよい。
(Modification 8)
The number of channels on the input side and the number of channels on the output side of the
(変型例9)
第一の変換器112の第2層や第二の逆変換部115bの第2層は、1層であってもよい。このように構成することで、処理負荷を軽減させたり処理速度を向上させることが可能となる。
(Modification 9)
The second layer of the
(変形例10)
図5に示したように第一の変換器112に適用したスキップコネクションを逆変換器115で適用しても良い。またスキップコネクションのストリーム数は1に限るものではなく、各中間処理層の一の処理出力をスキップコネクションにより出力し、該出力と中間処理層の他の処理出力と合成するストリームと、入力層からのデータと前記中間処理層出力と合成するストリームなど、複数のストリームで構成しても良い。
(Modification 10)
The skip connection applied to the
なお、上記(変形例1)~(変形例10)の構成は、以下の[発明の実施の形態2]~[発明の実施の形態8]にも適用可能である。
The configurations of (Modification 1) to (Modification 10) are also applicable to the following [
[発明の実施の形態2]
図8は、この発明の実施の形態2の情報処理装置1Bの第一の変換器112の構成を示す機能ブロック図である。
[
FIG. 8 is a functional block diagram showing the configuration of
この実施の形態2の情報処理装置1Bは、計算量を増やしてでも精度を高めたい場合に適用される。
The
具体的には、この実施の形態2の情報処理装置1Bは、第一の変換器112、第二の変換器113、CNN114、及び逆変換器115の基本的な構成は実施の形態1の情報処理装置1Aと同じだが(図2参照)、それぞれの第2層1120001,1120002,・・・1120511,1120512のノード数が512ノードとなっている。
Specifically, in the
なお、情報処理装置1Bの第2層1120001,1120002,・・・1120511,1120512のノード数は、適宜増減可能である。これは、情報処理装置1Bの第一の変換器112、逆変換器115の第一の逆変換部115a、第二の逆変換部115b(図3参照)においても同じである。また、このようなノード数の調整は、この実施の形態2以外のこの発明の全ての実施の形態にも同様に適用できる。
The number of nodes in the second layer 1120 001 , 1120 002 , . The same applies to the
この実施の形態2においては、入力されたデータを精度良く処理することが可能となる。 In the second embodiment, input data can be processed with high accuracy.
[発明の実施の形態3]
図9は、この発明の実施の形態3の情報処理装置1Cの画像処理部11の一部を示す機能ブロック図である。この情報処理装置1Cの画像処理部11は、第二の変換器113が存在しないこと以外は実施の形態1の情報処理装置1Aと同じ構成である。この場合、逆変換器115は第二の変換器113に対応する第一の逆変換部115aを設けない構成にもできる。
[
FIG. 9 is a functional block diagram showing part of the
このような構成とすることにより、複数のパラメータを一度に用いた空間変換で非線形処理を行う必要のない場合において、適切な処理を行うことが可能となる。 With such a configuration, it is possible to perform appropriate processing when there is no need to perform nonlinear processing by spatial transformation using a plurality of parameters at once.
[発明の実施の形態4]
図10は、この発明の実施の形態4の情報処理装置1Dの画像処理部11の一部を示す機能ブロック図である。この情報処理装置1Dの画像処理部11は、逆変換器115が存在しないこと以外は実施の形態1の情報処理装置1Aと同じ構成である。
[Embodiment 4 of the invention]
FIG. 10 is a functional block diagram showing part of the
このような構成は出力データが非線形変換処理を必要としない場合に用いられる。 Such a configuration is used when the output data does not require nonlinear transformation processing.
なお、この実施の形態4の情報処理装置1Dの変形例として、実施の形態1の情報処理装置1AのR逆変換部115br、G逆変換部115bg、B逆変換部115bbのうちの1つないし2つが存在しない構成とすることもできる。
As a modification of the
[発明の実施の形態5]
図11は、この実施の形態5の情報処理装置1Eの画像処理部11の一部を示す機能ブロック図である。この情報処理装置1Eの画像処理部11は、第二の変換器113と逆変換器115が存在しないこと以外は実施の形態1の情報処理装置1Aと同じである。
[Embodiment 5 of the invention]
FIG. 11 is a functional block diagram showing part of the
このような構成は出力データが非線形変換処理を必要としない場合に用いられる。 Such a configuration is used when the output data does not require nonlinear transformation processing.
[発明の実施の形態6]
図12は、この実施の形態6の情報処理装置1Fの画像処理部11の一部を示す機能ブロック図である。この情報処理装置1Fの画像処理部11は、第一の変換器112と第二の変換器113が逆に接続されている点が実施の形態1の情報処理装置1Aと相違する。なお、図示しないが、逆変換器115を構成する第一の逆変換部115aと第二の逆変換部115bが実施の形態1の情報処理装置1Aと逆に接続されていてもよい。
[Embodiment 6 of the invention]
FIG. 12 is a functional block diagram showing part of the
このように構成することで、第二の変換器113による空間処理を先に行って空間処理を強調したい場合や、第一の変換器112による個々のパラメータの処理を後から行ってパラメータ毎の処理を強調したい場合等に、適切な処理を行うことが可能となる。なお、この情報処理装置1Fにおいて逆変換器115を設けない構成とすることもできる。
By configuring in this way, when it is desired to perform spatial processing by the
[発明の実施の形態7]
図13は、この実施の形態7の情報処理装置1Gの画像処理部11の一部を示す機能ブロック図である。この情報処理装置1Gの画像処理部11は、実施の形態6の情報処理装置1Fにおける逆変換器115が設けられていない構成である。このように構成することで、実施の形態6の情報処理装置1Fによって適切な処理が行われるデータにおいて、逆変換が必要でない場合に、適切な処理を行うことができる。
[Embodiment 7 of the invention]
FIG. 13 is a functional block diagram showing part of the
[発明の実施の形態8]
また、図示しないが、この実施の形態の情報処理装置においては、実施の形態1の情報処理装置1Aの構成において、CNN114の前段に第一の変換器112、第二の変換器113の何れも設けられていない構成とすること、及び/又は、CNN114の後段に第一の変換器112や第二の変換器113を設ける構成とすること、もできる。
[Embodiment 8 of the invention]
Although not shown, in the information processing apparatus of this embodiment, in the configuration of the
なお、上記各実施の形態は本発明の例示であり、本発明が上記各実施の形態のみに限定されるものではないことは、いうまでもない。 It goes without saying that the above embodiments are examples of the present invention, and the present invention is not limited only to the above embodiments.
[実施例]
以下、この発明の実施例について説明する。
[Example]
Examples of the present invention will be described below.
図14に、この発明の実施例を示す。図14の(A)が従来例1としての画像処理部11の構成の一部を示す機能ブロック図である。この画像処理部11では、入力されたデータをCNN114に直接入力している。
FIG. 14 shows an embodiment of the invention. FIG. 14A is a functional block diagram showing a part of the configuration of the
図14の(B)が従来例2としての画像処理部11の構成の一部を示す機能ブロック図である。この画像処理部11では、入力データを第二の変換器113に入力したのちCNN114に入力している。
FIG. 14B is a functional block diagram showing a part of the configuration of the
図14の(C)が本件発明としての画像処理部11の構成の一部を示す機能ブロック図である。この画像処理部11では、入力データを第一の変換器112に入力したのちにCNN114に入力している。
FIG. 14C is a functional block diagram showing part of the configuration of the
この実施例では、10種類の絵(飛行機、自動車、鳥、猫、しか、犬、かえる、馬、船、トラック)が示された画像データを画像処理部で識別させる実験を行った。具体的には、画像処理部に上述の10種類の絵を学習させたのち、認識対象の画像を画像処理部に読み込ませ、読み込んだ画像が10種類の絵のうちのどれに該当するかを認識させたのち、それぞれの絵に相当するシンボルを出力させて解答させる実験を行った。 In this embodiment, an experiment was conducted to make the image processing unit identify image data showing ten kinds of pictures (airplane, car, bird, cat, deer, dog, frog, horse, ship, and truck). Specifically, after having the image processing unit learn the 10 types of pictures described above, the image processing unit is caused to read an image to be recognized and determine which of the 10 types of pictures the read image corresponds to. After recognition, an experiment was conducted in which a symbol corresponding to each picture was output and an answer was given.
この実験は、機械学習モデルとしてVGG16を改変したものを用い、データセットとしてCIFAR-10を利用し、読み込んだ絵の数に対して正答の数を出し、validity accuracy(正答率)(%)を検証した。 In this experiment, a modified version of VGG16 was used as the machine learning model, CIFAR-10 was used as the data set, the number of correct answers was obtained with respect to the number of pictures read, and the validity accuracy (percentage of correct answers) (%) was calculated. verified.
なお、図14に示すとおり、各画像処理部11には逆変換器を設けていない。これは、画像データの入力に対してシンボルを出力する構成であり、逆変換器が設けられていては認識精度が低下すると考えられたためである。
As shown in FIG. 14, each
実験の結果を下記の(表)に示す。
この表に示すとおり、従来例1、従来例2に比べ、本件発明は改善された正答率が得られている。よって、本件発明は、従来例に比べて高い認識率が得られることがわかる。なお、正答率の改善は1%未満と僅かではあるが、機械学習においては僅かであっても正答率を向上させることは重要な課題である。
The results of the experiments are shown in the table below.
As shown in this table, compared with Conventional Examples 1 and 2, the present invention provides an improved percentage of correct answers. Therefore, it can be seen that the present invention can obtain a higher recognition rate than the conventional example. Although the improvement in the correct answer rate is less than 1%, it is an important issue in machine learning to improve the correct answer rate even if it is only a little.
1A,1B,1C,1D,1E,1F,1G,1H,1J,1K・・情報処理装置
12・・・記憶部(記憶手段)
121・・・変換テーブル
101・・・画像処理実行部(学習実行部)
112・・・第一の変換器(変換手段、第一の非線形処理手段)
113・・・第二の変換器(変換手段、第二の非線形処理手段)
114・・・CNN(データ処理手段)
115・・・逆変換器(逆変換手段)
112r1,112g1,112b1,1131r,1131g,1131b,115a11,115a12,115a13,115br1,115bg1,115bb1・・・第1層(入力層)
1120001,1120002,・・・1120255,1120256,1132001,・・・1132256,115a2001,115a2002,・・・115a2255,115a2256,115br2001,115br2002,・・・115br2255,115br2256,115bg2001,115bg2002,・・・115bg2255,115bg2256,115bb2001,115bb2002,・・・115bb2255,115bb2256・・・第2層(中間処理層)
112r3,112g3,112b3,1133r,1133g,1133b,115a31,115a32,115a33,115br1,115bg3,115bb3・・・第3層(出力層)
1A, 1B, 1C, 1D, 1E, 1F, 1G, 1H, 1J, 1K...
121: conversion table 101: image processing execution unit (learning execution unit)
112 First converter (converting means, first nonlinear processing means)
113 second converter (conversion means, second nonlinear processing means)
114 CNN (data processing means)
115 Inverse converter (inverse conversion means)
112r1, 112g1, 112b1, 1131r, 1131g, 1131b, 115a11, 115a12 , 115a13 , 115br1 , 115bg1, 115bb1... First layer (input layer)
1120 001 , 1120 002 , . . . 1120 255 , 1120 256 , 1132 001 , . 5br2 002 , ... 115br2 255 , 115br2 256 , 115bg2 001 , 115bg2 002 , .
112r3, 112g3, 112b3, 1133r, 1133g, 1133b, 115a31 , 115a32, 115a33 , 115br1 , 115bg3, 115bb3... third layer (output layer)
Claims (9)
該情報処理装置に入力されたデータに対して非線形の変換を行って前記データ処理手段に入力する変換手段、
及び/又は、
前記データ処理手段から出力されたデータに対して非線形の変換を行って前記情報処理装置から出力させる逆変換手段を備え、
前記変換手段、及び/又は、前記逆変換手段は、前記データに対して前記チャンネルごとに別個に前記非線形の変換を行う第一の非線形処理手段を備えたことを特徴とする情報処理装置。 An information processing device comprising a convolutional neural network including a convolutional layer and comprising data processing means for performing convolution processing on data having a plurality of channels,
conversion means for performing non-linear conversion on data input to the information processing device and inputting the data to the data processing means;
and/or
An inverse transformation means for performing non-linear transformation on the data output from the data processing means and outputting it from the information processing device,
The information processing apparatus, wherein the transforming means and/or the inverse transforming means comprises first nonlinear processing means for individually performing the nonlinear transformation on the data for each channel.
少なくとも3層の処理層からなる処理層群を備え、
該処理層群は、ノード数が1の入力層と、該入力層の後段に設けられたノード数が複数の畳み込み層又は緻密層である中間処理層と、該中間処理層の後段に設けられたノード数が1又は複数の畳み込み層又は緻密層である出力層とを含む構成であり、
前記処理層群が、前記畳み込みニューラルネットワークへ入力する前記データのチャンネル毎に設けられたことを特徴とする請求項1に記載の処理装置。 The transforming means and/or the inverse transforming means,
A treated layer group consisting of at least three treated layers,
The processing layer group includes an input layer having one node, an intermediate processing layer having a plurality of nodes or a dense layer provided after the input layer, and an intermediate processing layer provided after the intermediate processing layer. and an output layer that is a convolutional layer or a dense layer with one or more nodes,
2. The processing apparatus according to claim 1, wherein said processing layer group is provided for each channel of said data input to said convolutional neural network.
前記第一の非線形処理手段は、前記記憶手段から取得した前記変換テーブルを用いて前記非線形の変換を行うことを特徴とする請求項1乃至5の何れか一つに記載の情報処理装置。 A storage means for storing a conversion table in which conversion modes used in the first nonlinear processing means are recorded,
6. The information processing apparatus according to claim 1, wherein said first non-linear processing means performs said non-linear conversion using said conversion table obtained from said storage means.
該情報処理装置に入力されたデータに対して非線形の変換を行って前記データ処理手順の処理に入力される変換手順、
及び/又は、
前記データ処理手順の処理によって出力されたデータに対して非線形の変換を行って前記情報処理装置から出力させる逆変換手順を備え、
前記変換手順、及び/又は、前記逆変換手順は、前記データに対して前記チャンネルごとに別個に前記非線形の変換が行われる第一の非線形処理手順を備えたことを特徴とする情報処理装置における情報処理方法。 An information processing method in an information processing device, comprising a data processing procedure in which convolution processing is performed on data having a plurality of channels in a convolutional neural network including a convolution layer,
a transformation procedure for performing non-linear transformation on data input to the information processing device and inputting the data processing procedure;
and/or
An inverse transformation procedure for performing non-linear transformation on the data output by the processing of the data processing procedure and outputting it from the information processing device,
The information processing apparatus, wherein the transforming procedure and/or the inverse transforming procedure include a first nonlinear processing procedure in which the nonlinear transformation is performed on the data separately for each channel. Information processing methods.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021201134A JP7418019B2 (en) | 2021-12-10 | 2021-12-10 | Information processing device, information processing method in the information processing device, and program |
JP2023219271A JP7548634B2 (en) | 2021-12-10 | 2023-12-26 | Information processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021201134A JP7418019B2 (en) | 2021-12-10 | 2021-12-10 | Information processing device, information processing method in the information processing device, and program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023219271A Division JP7548634B2 (en) | 2021-12-10 | 2023-12-26 | Information processing device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023086549A true JP2023086549A (en) | 2023-06-22 |
JP7418019B2 JP7418019B2 (en) | 2024-01-19 |
Family
ID=86850594
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021201134A Active JP7418019B2 (en) | 2021-12-10 | 2021-12-10 | Information processing device, information processing method in the information processing device, and program |
JP2023219271A Active JP7548634B2 (en) | 2021-12-10 | 2023-12-26 | Information processing device |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023219271A Active JP7548634B2 (en) | 2021-12-10 | 2023-12-26 | Information processing device |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP7418019B2 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6705065B1 (en) * | 2017-04-27 | 2020-06-03 | アップル インコーポレイテッドApple Inc. | Configurable convolution engine for interleaved channel data |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6476531B1 (en) | 2018-03-06 | 2019-03-06 | 株式会社ツバサファクトリー | Processing apparatus, processing method, computer program, and processing system |
KR102046133B1 (en) | 2019-03-20 | 2019-11-18 | 주식회사 루닛 | Method for feature data recalibration and apparatus thereof |
-
2021
- 2021-12-10 JP JP2021201134A patent/JP7418019B2/en active Active
-
2023
- 2023-12-26 JP JP2023219271A patent/JP7548634B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6705065B1 (en) * | 2017-04-27 | 2020-06-03 | アップル インコーポレイテッドApple Inc. | Configurable convolution engine for interleaved channel data |
Also Published As
Publication number | Publication date |
---|---|
JP7418019B2 (en) | 2024-01-19 |
JP2024024680A (en) | 2024-02-22 |
JP7548634B2 (en) | 2024-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919183B (en) | Image identification method, device and equipment based on small samples and storage medium | |
US20170061246A1 (en) | Training method and apparatus for neutral network for image recognition | |
CN109948699B (en) | Method and device for generating feature map | |
CN109902763B (en) | Method and device for generating feature map | |
EP4213070A1 (en) | Neural network accelerator, and acceleration method and device | |
JP6476531B1 (en) | Processing apparatus, processing method, computer program, and processing system | |
CN112534443A (en) | Image processing apparatus and method of operating the same | |
CN113298716B (en) | Image super-resolution reconstruction method based on convolutional neural network | |
JP2021179833A (en) | Information processor, method for processing information, and program | |
CN108932715B (en) | Deep learning-based coronary angiography image segmentation optimization method | |
CN113570678A (en) | Image coloring method and device based on artificial intelligence and electronic equipment | |
CN108229650B (en) | Convolution processing method and device and electronic equipment | |
JP6723488B1 (en) | Learning device and inference device | |
CN113095473A (en) | Neural network architecture search system and method, and computer-readable recording medium | |
CN113052768A (en) | Method for processing image, terminal and computer readable storage medium | |
US11436432B2 (en) | Method and apparatus for artificial neural network | |
JP7418019B2 (en) | Information processing device, information processing method in the information processing device, and program | |
US20230021444A1 (en) | Image processing device, processing method thereof, and image processing system including the image processing device | |
CN114240794A (en) | Image processing method, system, device and storage medium | |
JP7100783B1 (en) | Learning device and inference device | |
Nicolau et al. | On Image Compression for Mobile Robots Using Feed-Forward Neural Networks | |
JP7402552B2 (en) | Learning device and reasoning device | |
JP7520479B1 (en) | Learning data generator | |
US20220284555A1 (en) | Image processing apparatus and operation method thereof | |
WO2020044566A1 (en) | Data processing system and data processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231003 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7418019 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |