JP7418019B2

JP7418019B2 - 情報処理装置、情報処理装置における情報処理方法、及びプログラム

Info

Publication number: JP7418019B2
Application number: JP2021201134A
Authority: JP
Inventors: 修二奥野
Original assignee: Axell Corp
Current assignee: Axell Corp
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2024-01-19
Anticipated expiration: 2041-12-10
Also published as: JP2024024680A; JP2023086549A

Description

本発明は、畳み込みニューラルネットワーク（ＣＮＮ）を用いてデータを処理する情報処理装置及び情報処理方法に関する。

近年、人工知能（ＡＩ）を用いてデータの解析や認識を行うために、畳み込みニューラルネットワーク（ＣＮＮ。以下「ＣＮＮ」と称する。）が多く用いられる。たとえば、画像データや音声データ等の各種の解析や各種の認識においてＣＮＮが用いられることが多い。従来、このようなＣＮＮを用いた人工知能システムとしては、ＣＮＮによる解析や認識の精度を高めるため、離散値としての複数のパラメータを持つデータ、たとえばＲＧＢ色空間のデジタルのカラー画像データについて非線形に空間変換する変換器をＣＮＮの前段に設ける発明が知られている（例えば、特許文献１参照）。

特許第６４７６５３１号公報

しかし、ＣＮＮを行う目的は、データの認識、データの解析、データの高精度化など、多様である。そして、データの種類や目的によっては、複数のパラメータのうちの特定のパラメータのみを非線形に変換することでＣＮＮの処理による効果が高まる場合もある。しかし、上記特許文献１は、変換対象であるデータの複数のパラメータの全てを対象として非線形に変換するため、処理負荷が過大になり、処理精度が低下する場合があるという問題がある。

本発明はこのような課題に鑑みてなされたものであり、ＣＮＮを用いた人工知能において、データ量や処理負荷が過大になるのを抑止しつつ高い精度で解析や認識を行うことのできる情報処理装置、情報処理方法、プログラムを提供することを課題としている。

かかる課題を解決するため、請求項１に係る発明は、畳み込み層を含む畳み込みニューラルネットワークを備え、複数のチャンネルを有するデータに対して畳み込み処理を行うデータ処理手段を備える情報処理装置であって、該情報処理装置に入力されたデータに対して非線形の変換を行って前記データ処理手段に入力する変換手段、及び／又は、前記データ処理手段から出力されたデータに対して非線形の変換を行って前記情報処理装置から出力させる逆変換手段を備え、前記変換手段、及び／又は、前記逆変換手段は、前記データに対して前記チャンネルごとに別個に前記非線形の変換を行う第一の非線形処理手段であり、かつ、前記変換手段、及び／又は、前記逆変換手段は、少なくとも３層の処理層からなる処理層群を備え、該処理層群は、ノード数が１の入力層と、該入力層の後段に設けられたノード数が複数の畳み込み層又は緻密層である中間処理層と、該中間処理層の後段に設けられたノード数が１又は複数の畳み込み層又は緻密層である出力層とを含むことを特徴とする。

請求項２に記載の発明は、請求項１に記載の構成に加え、前記中間処理層が１層からなることを特徴とする。

請求項３に記載の発明は、請求項１に記載の構成に加え、前記中間処理層が複数層からなることを特徴とする。

請求項４に記載の発明は、請求項１乃至３の何れか一つに記載の構成に加え、前記変換手段、及び／又は、前記逆変換手段は、複数の前記チャンネルを複合させて前記非線形の変換を行う第二の非線形処理手段を備えたことを特徴とする。

請求項５に記載の発明は、請求項１乃至４の何れか一つに記載の構成に加え、前記第一の非線形処理手段において用いられる変換の態様が記録された変換テーブルが記憶される記憶手段を備え、前記第一の非線形処理手段は、前記記憶手段から取得した前記変換テーブルを用いて前記非線形の変換を行うことを特徴とする。

請求項６に記載の発明は、請求項１乃至５の何れか一つに記載の構成に加え、前記変換手段、及び／又は、前記逆変換手段でスキップコネクションを用いたことを特徴とする。

請求項７に記載の発明は、プログラムであって、コンピュータを請求項１乃至６の何れか一つに記載の情報処理装置として機能させることを特徴とする。

本発明によれば、ＣＮＮを用いた人工知能において、データ量や処理負荷が過大になるのを抑止しつつ高い精度で解析や認識を行うことが可能となる。

この実施の形態１の情報処理装置の全体構成を示す機能ブロック図である。同上情報処理装置の画像処理部の詳細構成を模式的に示す機能ブロック図である。同上情報処理装置の画像処理部の詳細構成を模式的に示す機能ブロック図である。同上情報処理装置の第一の変換器の詳細構成を示す機能ブロック図である。同上情報処理装置の第一の変換器の変形例の概略を示す機能ブロック図である。同上情報処理装置の第二の変換器の詳細構成を示す機能ブロック図である。同上情報処理装置のＣＮＮの構成と処理手順（データ処理手順）を模式的に示すブロック図並びにタイムチャートである。この実施の形態２の情報処理装置の第一の変換器の構成を示す機能ブロック図である。この実施の形態３の情報処理装置の画像処理部の構成の一部を示す機能ブロック図である。この実施の形態４の情報処理装置の画像処理部の構成の一部を示す機能ブロック図である。この実施の形態５の情報処理装置の画像処理部の構成の一部を示す機能ブロック図である。この実施の形態６の情報処理装置の画像処理部の構成の一部を示す機能ブロック図である。この実施の形態７の情報処理装置の画像処理部の構成の一部を示す機能ブロック図である。この発明の実施例としての、（Ａ）従来例１としての情報処理装置の画像処理部の構成の一部を示す機能ブロック図、（Ｂ）従来例２としての情報処理装置の画像処理部の構成の一部を示す機能ブロック図、（Ｃ）本件発明としての情報処理装置の画像処理部の構成の一部を示す機能ブロック図である。

［発明の実施の形態１］
図１乃至図７に、この実施の形態１に係る情報処理装置及び情報処理装置における情報処理方法を示す。以下、この発明の実施の形態１について図面を参照して説明する。

［基本構成］
まず、この実施の形態１の情報処理装置の及び構成について説明する。

図１に示す、この実施の形態１の情報処理装置１Ａは、人工知能（ＡＩ、以下単に「ＡＩ」と記載する。）を備え、ＡＩによる各種データの解析や認識や、解析や認識に用いたデータの復元を行う。情報処理装置１Ａは、デジタルデータに対してＣＮＮを用いたデータ処理を行う。

以下、この実施の形態１では、情報処理装置１Ａがデジタルデータとしての画像データの解析や認識、そして復元を行うものとして説明する。また、この実施の形態１の情報処理装置１Ａに入力される画像データは、２５６階調のＲＧＢカラーモデルの画像データ（Ｒ値、Ｇ値、Ｂ値の３つのパラメータを有する画像データ）であるものとする。

ただし情報処理装置１Ａが扱うデータは画像データに限らず、例えばデジタルデータとしての音声データや、音声以外の各種デジタルデータを扱うものでもよい。また、情報処理装置１Ａが扱うデータはアナログデータをデジタルデータに変換して各種処理を行うものであってもよい。

また、この実施の形態１で扱う画像データは、ＲＧＢカラーモデル以外の画像データ、例えばＲＧＢカラーモデルをＹＵＶやＹＣｂＣｒなどの異なる色空間に変換した画像データであってもよいし、４つ以上のパラメータを有する画像データ（例えばＲＧＢＹの４つのパラメータを有する画像データ）であってもよい。この場合、以下に説明する情報処理装置１Ａの機能手段は、パラメータの種類やパラメータの数に応じたものとして構成される。

［情報処理装置の機能手段］
図１に示すとおり、この実施の形態１の情報処理装置１Ａは、機能手段として、制御部１０、画像処理部１１、「記憶手段」としての記憶部１２、通信部１３、表示部１４及び操作部１５を備える。なお情報処理装置１Ａにおける動作について以下では、１台のサーバコンピュータとして説明するが、複数のコンピュータによって処理を分散するようにして構成されてもよい。

制御部１０は、ＣＰＵ（Central Processing Unit ）等のプロセッサ及びメモリ等を用い、装置の構成部を制御して各種機能を実現する。画像処理部１１は、ＧＰＵ（Graphics Processing Unit）又は専用回路等のプロセッサ及びメモリを用い、制御部１０からの制御指示に応じて画像処理を実行する。なお、制御部１０及び画像処理部１１は、ＣＰＵ，ＧＰＵ等のプロセッサ、メモリ、更には記憶部１２及び通信部１３を集積した１つのハードウェア（ＳｏＣ：System on a Chip）として構成されていてもよい。

記憶部１２は、各種記憶媒体であり、たとえばハードディスク又はフラッシュメモリを用いる。記憶部１２には、画像処理プログラム１Ｐ、ＤＬ（Deep Learning）用、特にＣＮＮとしての機能を発揮させるＣＮＮライブラリ１Ｌ、及び変換器ライブラリ２Ｌが記憶されている。また記憶部１２には、１つの学習毎に作成される、ＣＮＮ１１４、第一の変換器１１２、第二の変換器１１３、逆変換器１１５、を定義する情報、学習済みのＣＮＮ１１４における各層の重み係数等を含むパラメータ情報等が記憶される。

また、記憶部１２には変換テーブル１２１が記憶される。この変換テーブル１２１は第一の変換器１１２に読み込まれ、第一の変換器１１２における演算処理に用いられる（後述の［変換テーブル］にて詳述。）
通信部１３は、インターネット等の通信網への通信接続を実現する通信モジュールである。通信部１３は、ネットワークカード、無線通信デバイス又はキャリア通信用モジュールを用いる。

表示部１４は、液晶パネル又は有機ＥＬ（Electro Luminescence）ディスプレイ等を用いる。表示部１４は、制御部１０の指示による画像処理部１１での処理によって画像を表示することが可能である。

操作部１５は、キーボード又はマウス等のユーザインタフェースを含む。筐体に設けられた物理的ボタンを用いてもよい。及び表示部１４に表示されるソフトウェアボタン等を用いてもよい。操作部１５は、ユーザによる操作情報を制御部１０へ通知する。

読取部１６は、例えばディスクドライブを用い、光ディスク等を用いた記録媒体２に記憶してある画像処理プログラム２Ｐ、ＣＮＮライブラリ３Ｌ、及び変換器ライブラリ４Ｌを読み取ることが可能である。記憶部１２に記憶してある画像処理プログラム１Ｐ、ＣＮＮライブラリ１Ｌ、及び変換器ライブラリ２Ｌは、記録媒体２から読取部１６が読み取った画像処理プログラム２Ｐ、ＣＮＮライブラリ３Ｌ、及び変換器ライブラリ４Ｌを制御部１０が記憶部１２に複製したものであってもよい。

情報処理装置１Ａの制御部１０は、記憶部１２に記憶してある画像処理プログラム１Ｐに基づき、「学習実行部」としての画像処理実行部１０１として機能する。また画像処理部１１は、記憶部１２に記憶してあるＣＮＮライブラリ１Ｌ、定義データ、パラメータ情報に基づきメモリを用いてＣＮＮ１１４（ＣＮＮエンジン）として機能し、また変換器ライブラリ２Ｌ、フィルタ情報に基づきメモリを用いて第一の変換器１１２、第二の変換器１１３として機能する。画像処理部１１は、第一の変換器１１２、第二の変換器１１３の種類に応じて逆変換器１１５として機能する場合もある。

［画像処理実行部の機能手段］
図２に示すとおり、画像処理実行部１０１は、機能手段として、入力部１１１、「変換手段」「第一の非線形処理手段」としての第一の変換器１１２、「変換手段」「第二の非線形処理手段」としての第二の変換器１１３、「データ処理手段」としてのＣＮＮ１１４、「逆変換手段」としての逆変換器１１５、出力部１１６を備える。画像処理実行部１０１は、これらの機能手段を用い、各々へデータを与え、各々から出力されるデータを取得する処理を実行する。

具体的には、画像処理実行部１０１は、ユーザの操作部１５を用いた操作に基づいて入力部１１１に入力された、入力データである画像データを、第一の変換器１１２に入力し、第一の変換器１１２から出力された画像データを第二の変換器１１３に入力する。画像処理実行部１０１は、第二の変換器１１３から出力されたデータをＣＮＮ１１４に入力する。画像処理実行部１０１は、ＣＮＮ１１４から出力されたデータを必要に応じて逆変換器１１５へ入力し、逆変換器１１５から出力されたデータを出力部１１６に入力し、入力されたデータは出力部１１６から出力データとして出力されて記憶部１２に入力される。画像処理実行部１０１は、出力データを画像処理部１１へ与えて画像として描画し、表示部１４へ出力してもよい。

ＣＮＮ１１４は、定義データにより定義される複数段の畳み込み層及びプーリング層と、全結合層とを有し（図７参照）、入力データの特徴量を取り出し、取り出された特徴量に基づいて分類を行なう（後述の［ＣＮＮの構成と処理手順］に詳述。）。

第一の変換器１１２、第二の変換器１１３は、ＣＮＮ１１４と同様に畳み込み層と多チャンネル層とを含み、入力されたデータに対して非線形変換を行なう。ここで非線形変換とは、例えば色空間変換やレベル補正のような入力値を非線形に歪めるような処理を言う。逆変換器１１５は、畳み込み層と多チャンネル層とを含んで逆変換する。逆変換器１１５は「第二の非線形処理手段」としての第一の変換器１１２、「第一の非線形処理手段」としての第二の変換器１１３による歪みを戻す機能を果たす。ただし、逆変換器１１５による変換は、第一の変換器１１２、第二の変換器１１３と対称となるような変換だけには限られない。

［第一の変換器］
図３及び図４に、この実施の形態１の第一の変換器１１２の構成を模式的に示す。

第一の変換器１１２は、データに対してチャンネルごとに別個に非線形の変換を行う。ここでのチャンネルとは、ＲＧＢカラーモデルのカラー画像の画像データにおけるＲ値、Ｇ値、Ｂ値のこと（カラーチャンネル）をいう。つまりこの画像データは３チャンネルのデータである。

図４に示すとおり、第一の変換器１１２は、Ｒ変換器１１２ｒ、Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂを備える。Ｒ変換器１１２ｒは、ノード数が１である第１層（入力層）１１２ｒ１と、ノード数が複数であり、この複数のノードによって緻密層が形成された畳み込み層（CONV）である第２層（中間処理層）１１２ｒ２と、ノード数が１である第３層（出力層）１１２ｒ３とで構成される。Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂも、Ｒ変換器１１２ｒと同様の構成である。即ち、Ｇ変換器１１２ｇは第１層１１２ｇ１、第２層１１２ｇ２、第３層１１２ｇ３を備え、Ｂ変換器１１２ｂは第１層１１２ｂ１、第２層１１２ｂ２、第３層１１２ｂ３を備えている。

図３、図４に示すとおり、中間処理層である第２層を構成するＲ変換器１１２ｒの第２層１１２ｒ２は、例えば２５６個のノード１１２０_００１，１１２０_００２，・・・１１２０_２５５，１１２０_２５６を備える。ノード数は処理精度に比例するので、ノード数が多いほど処理精度が高まるが、ノード数が増えれば多くの演算処理が必要となるという関係にある。図３に示すとおり、Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂも、同様にそれぞれ、２５６個のノード１１２０_００１，１１２０_００２，・・・１１２０_２５６を備えている。

第一の変換器１１２は、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行う作用を持つ（変換手順、第一の非線形処理手順）。なお、第一の変換器１１２のＲ変換器１１２ｒ、Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂの第２層１１２ｒ２，１１２ｇ２，１１２ｂ２は、緻密層として構成されるものに限らず、畳み込み層として構成されるものであってもよい。

［第一の変換器の具体的構成］
図４は、この実施の形態１の第一の変換器１１２の具体的構成を示す機能ブロック図である。

第一の変換器１１２のＲ変換器１１２ｒは、入力層である第１層のノード１１２ｒ１と、中間処理層である第２層１１２ｒ２と、出力層である第３層１１２ｒ３を有し、第２層１１２ｒ２では１×１のフィルタの畳み込み処理により２５６個のノード１１２１_００１，１１２１_００２，・・・１１２１_２５５，１１２１_２５６として畳み込み処理結果が出力され、さらにｅｌｕ活性化関数処理が行われ、１１２２_００１，１１２２_００２，・・・１１２２_２５５，１１２２_２５６の出力が得られる。また、第一の変換器１１２のＲ変換器１１２ｒの出力層である第３層１１２ｒ３は、畳み込みノード１１２ｒ３_１と出力ノード１１２ｒ３_２とを備える。畳み込みノード１１２ｒ３_１においては、中間処理層の第２層１１２ｒ２のノード１１２２_００１，１１２２_００２，・・・１１２２_２５５，１１２２_２５６でｅｌｕ活性化関数処理された出力を１×１のフィルタで畳み込む処理を行うと共に、畳み込みの結果についてｅｌｕ活性化関数処理を行う。出力ノード１１２ｒ３_２は、畳み込みノード１１２ｒ３_１における処理の結果を出力する。

このｅｌｕ（Exponential Linear Unit）とは活性化関数の一つであり、ｅｌｕを用いることでデータを非線形に変形することができる。第一の変換器１１２において、活性化関数としてｅｌｕを用いているのは、他の活性化関数、例えば後述するＲｅＬＵ等に比べ、ｅｌｕを用いた処理の方が入力されたデータの曲線（ＲＧＢの数値の大きさと明度の大きさなどをパラメータとした特性曲線など）の変形が滑らかになる（活性化関数を用いた処理後の曲線の形状を、処理前と大きく変化させることのないものとすることができる。）ことによるものである。

図３，図４等に図示しないが、第一の変換器１１２のＧ変換器１１２ｇ及びＢ変換器１１２ｂもＲ変換器１１２ｒと同様の構成である。

なお、第一の変換器１１２のＲ変換器１１２ｒは、第２層１１２ｒ２のｅｌｕ活性化関数処理部１１２２_００１，１１２２_００２，・・・１１２２_２５５，１１２２_２５６、及び第３層のｅｌｕ活性化関数処理部１１２ｒ３_２のうち、少なくとも何れか一つが設けられていなくてもよいし、ｅｌｕ活性化関数以外のどのような関数が用いられてもよい。これは、第一の変換器１１２のＧ変換器１１２ｇ、Ｂ変換器１１２ｂ、第二の変換器１１３、逆変換器１１５の第一の逆変換部１１５ａ、第二の逆変換部１１５ｂにおいても同様である。

なお、図３、図４に示すＲ変換器１１２ｒ、Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂは、出力層である第３層の出力チャンネル数（ノード数）が入力チャンネル数と同数であるが、これに限らず減少させてもよいし、増加させてもよい。これは、第二の変換器１１３、逆変換器１１５の第一の逆変換部１１５ａ、第二の逆変換部１１５ｂのＲ逆変換部１１５ｂｒ、Ｇ逆変換部１１５ｂｇ、Ｂ逆変換部１１５ｂｂも同様である。

［第一の変換器の構成の変形例］
図５は、この実施の形態１の第一の変換器１１２の構成の変形例の概略を示す機能ブロック図である。

同図は、第一の変換器１１２のＲ変換器１１２ｒの変形例の概略を示している。図５において、第一の変換器１１２は第３層１１２ｒ３に畳み込みノード１１２ｒ３_４とスキップコネクション１１２ｒ３_５と活性化関数処理ノード１１２ｒ３_６とを備えている。このスキップコネクション１１２ｒ３_３は、畳み込みノード１１２ｒ３_４は、第２層１１２ｒ２の出力を１×１のフィルタで畳み込み処理を行う。スキップコネクション１１２ｒ３_３は、第１層１１２ｒ１から出力されたデータを第２層１１２ｒ２の処理を行わずに第３層１１２ｒ３に入力する。活性化関数処理ノード１１２ｒ３_６は、畳み込みノード１１２ｒ３_４で処理されたデータとスキップコネクション１１２ｒ３_３から供給されたデータとを加算し、加算後のデータのｅｌｕ活性化関数処理を行う。スキップコネクション１１２ｒ３_３を設けることで、機械学習で生じ得るデータの勾配消失問題を適切に回避させることが可能となる。

なお図示しないが、Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂにも同様のスキップコネクションを設け、同様の効果を得ることができる。これは、後述の［発明の実施の形態２］～［発明の実施の形態８］の第一の変換器１１２でも同様である。

［第二の変換器］
図３及び図６に、この実施の形態１の第二の変換器１１３の構成を模式的に示す。

第二の変換器１１３は、ノード数が複数たとえば３である第１層１１３１ｒ，１１３１ｇ，１１３１ｂと、中間処理層として１×１のフィルタの畳み込み（CONV）を行う第２層１１３２_００１，１１３２_００２，・・・１１３２_２５５，１１３２_２５６と、１×１のフィルタの畳み込みにより３チャンネルの出力を得る第３層１１３３_１，１１３３_２，１１３３_３とで構成される。

この実施の形態１において、第二の変換器１１３の第１層１１３１ｒ，１１３１ｇ，１１３１ｂ、第３層１１３３_１，１１３３_２，１１３３_３のノード数３は、第一の変換器１１２を構成するＲ変換器１１２ｒ、Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂの数に一致する数である。すなわち、第二の変換器１１３の第１層１１３１ｒ，１１３１ｇ，１１３１ｂや第３層１１３３_１，１１３３_２，１１３３_３のノード数は、ＲＧＢカラーモデルの色情報であるＲ，Ｇ，Ｂの３種類の分類数がこれに対応する。）に一致する。

なお、第二の変換器１１３の第１層１１３１ｒ，１１３１ｇ，１１３１ｂや第３層１１３３_１，１１３３_２，１１３３_３のノード数と、第一の変換器１１２を構成する各変換器１１２ｒ，１１２ｇ，１１２ｂの数は必ずしも一致しなくてもよい。また、この実施の形態１において、第二の変換器１１３の第１層１１３１ｒ，１１３１ｇ，１１３１ｂと第３層１１３３_１，１１３３_２，１１３３_３とは同じノード数としているが、異なるノード数であってもよい。さらに、第二の変換器１１３は、第２層１１３２_００１，１１３２_００２，・・・１１３２_２５５，１１３２_２５６が緻密層を有するものに限らず、例えば畳み込み層を有するものでもよい。

［逆変換器］
図３に、この実施の形態１の逆変換器１１５の構成を模式的に示す。

逆変換器１１５は、第一の逆変換部１１５ａ、「第一の非線形処理手段」としての第二の逆変換部１１５ｂを備えている。

第一の逆変換部１１５ａは、第二の変換器１１３と同じ構成を備え、第二の変換器１１３による変換に対する逆変換を行う（逆変換手順）。具体的には、第一の逆変換部１１５ａは、ノード数が複数たとえば３である第１層１１５ａ１_１，１１５ａ１_２，１１５ａ１_３と、第１層よりもノード数が多い緻密層（DENSE）として構成された第２層１１５ａ２_００１，１１５ａ２_００２，・・・１１５ａ２_３５５，１１５ａ２_２５６と、第２層１１５ａ２_００１，１１５ａ２_００２，・・・１１５ａ２_３５５，１１５ａ２_２５６よりも少ない複数のノード数、たとえば第１層１１５ａ１_１，１１５ａ１_２，１１５ａ１_３と同じノード数が３である第３層１１５ａ３_１，１１５ａ３_２，１１５ａ３_３とで構成される。

第二の逆変換部１１５ｂは、第一の変換器１１２と同じ構成を備え、第一の変換器１１２による変換に対する逆変換を行う（逆変換手順）。第二の逆変換部１１５ｂは、データに対してチャンネルごとに別個に非線形の変換を行う。ここでのチャンネルとは、第一の変換器１１２の場合と同様、ＲＧＢカラーモデルのカラー画像の画像データにおけるＲ値、Ｇ値、Ｂ値のことをいう。

具体的には、第二の逆変換部１１５ｂは、Ｒ変換器１１２ｒに対応するＲ逆変換部１１５ｂｒ、Ｇ変換器１１２ｇに対応するＧ逆変換部１１５ｂｇ、Ｂ変換器１１２ｂに対応するＢ逆変換部１１５ｂｂを備える。Ｒ逆変換部１１５ｂｒは、ノード数が１である第１層１１５ｂｒ１と、ノード数が複数（ここでは２５６）の緻密層として構成された第２層１１５ｂｒ２_００１，１１５ｂｒ２_００２，・・・１１５ｂｒ２_２５６と、ノード数が１である第３層１１５ｂｒ３とで構成される。Ｇ逆変換部１１５ｂｇ、Ｂ逆変換部１１５ｂｂも、Ｒ逆変換部１１５ｂｒと同様の第１層１１５ｂｇ１，１１５ｂｂ１、第２層１１５ｂｇ２_００１，１１５ｂｇ２_００２，・・・１１５ｂｇ２_２５６と、第３層１１５ｂｂ３，１１５ｂｂ３とを備えた構成である。

第一の逆変換部１１５ａは、第二の変換器１１３と同様に、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行なう。第二の逆変換部１１５ｂのＲ逆変換部１１５ｂｒ、Ｇ逆変換部１１５ｂｇ、Ｂ逆変換部１１５ｂｂも、第一の変換器１１２のＲ変換器１１２ｒ、Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂと同様に、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行う作用を持つ（第一の非線形処理手順）。

なお、第一の逆変換部１１５ａは、第二の変換器１１３と同様に、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行なう。第二の逆変換部１１５ｂのＲ逆変換部１１５ｂｒ、Ｇ逆変換部１１５ｂｇ、Ｂ逆変換部１１５ｂｂも、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行なう。

また、前述の［画像処理実行部の機能手段］に記載のとおり、第一の逆変換部１１５ａの処理は第二の変換器１１３の完全に逆の処理でない場合もあり、第二の逆変換部１１５ｂの処理は第一の変換器１１２の完全に逆の処理でない場合も含まれる。

また、情報処理装置１Ａによる機械学習の出力データが入力データと同一形式の場合（例えば画像データの入力に対して画像データが出力される場合）は逆変換器１１５があった方が適切な処理を行える。一方、例えば情報処理装置１Ａによる出力データが入力データと相違する形式である場合（例えば画像データの入力に対して画像認識の結果が文字やシンボル等のデータとして出力される場合）は逆変換器１１５が不要である場合が多い。そのため、この実施の形態１の逆変換器１１５は、情報処理装置１Ａの処理するデータの種類や処理結果の出力態様等によっては情報処理装置１Ａに含めない構成とすることも考えられる（後述する［発明の実施の形態４，５，７］等参照）。

［変換テーブル］
この実施の形態１の第一の変換器１１２を構成するＲ変換器１１２ｒ、Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂは、それぞれ、演算処理において変換テーブル１２１を用いる。図２に示すように、この変換テーブル１２１は記憶部１２に記憶され、第一の変換器１１２が記憶部１２から取り込んで演算に使用する。

具体的には、変換テーブル１２１には、各変換器１１２ｒ，１１２ｂ，１１２ｇは、それぞれ、第２層１１２０_００１，１１２０_００２，・・・１１２０_２５５，１１２０_２５６のノードの数である２５６種類の演算パターンが記録されている。各変換器１１２ｒ，１１２ｂ，１１２ｇは、この変換テーブル１２１を用いて実際の演算に対応する処理を行う。

このような変換テーブル１２１を用いた処理が可能となるのは、この実施の形態１の構成におけるＲ変換器１１２ｒ、Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂの演算の種類が事実上ノードの数だけであって演算のパターンの数が少なく、演算のパターンを変換テーブル１２１として容易に記録可能であるためである。

第一の変換器１１２や第二の変換器１１３では、畳み込みの演算（二項演算）が必要である。そして、第二の変換器１１３では第２層のノードに入力される値のバリエーションが非常に多く、それらのバリエーションを網羅したテーブルを作成することは困難である。これに対し、第一の変換器１１２を構成するＲ変換器１１２ｒ、Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂや、第二の逆変換部１１５ｂを構成するＲ逆変換部１１５ｂｒ、Ｇ逆変換部１１５ｂｇ、Ｂ逆変換部１１５ｂｂは、第１層１１２ｒ１，１１２ｇ１，１１２ｂ１のノードがそれぞれ１つなので、第２層１１２０_００１，１１２０_００２，・・・１１２０_２５５，１１２０_２５６で演算を行う元データが１つである。そのため、第２層１１２０_００１，１１２０_００２，・・・１１２０_２５５，１１２０_２５６における各ノードのバリエーションは少ない。そのため、第２層１１２０_００１，１１２０_００２，・・・１１２０_２５５，１１２０_２５６の各ノードの演算結果を容易にテーブル化できる。これにより、Ｒ変換器１１２ｒ、Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂの計算コストをほぼゼロにすることができる。なお、逆変換部１１５ｂｒ、１１５ｂｇ、１１５ｂｂでテーブルを利用する場合には逆変換部の出力を例えば２５６階調とし、各階調に対応した数値と出力値とをテーブルに設定し、設定された数値に一番近いテーブルの値を利用したり、各階調に対応した数値の範囲とその数値範囲の場合の出力値とをテーブルに設定し、入力データの値がどのテーブル値に含まれるかを検索し、出力値を得るようにしても良い。

この実施の形態１におけるＲ変換器１１２ｒ、Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂ、の演算処理を変換テーブル１２１を用いて行うことにより、簡易な構成で確実に演算処理の処理負荷が過大になることを抑止し、処理を行える情報処理装置１Ａを提供することが可能となる。また、ＣＮＮ１１４における計算資源が少ない場合であっても、僅かな計算資源によって構築できる第一の変換器１１２を用いることで、機械学習の精度を高めることができる。

特に、この実施の形態１の情報処理装置１Ａの機械学習の用途が、たとえば超解像（解像度の低い画像データを高解像度化するもの。）などのように処理負荷の重いものである場合には、ＣＮＮ１１４の処理全体における畳み込みの演算に要する計算コストの占める比率は無視できる程に低い。しかし、機械学習の用途が画像の認識のような処理負荷の軽いものである場合には、ＣＮＮ１１４の処理全体の中の畳み込みの演算に要する計算コストの占める比率は高い。そのため、ＣＮＮ１１４における演算が軽装なものにおいては、変換テーブル１２１を用いた計算コストの低減は特に効果的であるといえる。

［ＣＮＮの構成と処理手順］
図７は、この実施の形態１の情報処理装置１ＡのＣＮＮ１１４の構成と処理手順（データ処理手順）を模式的に示すブロック図並びにタイムチャートである。

図７に示すとおり、ＣＮＮ１１４は、データが入力される入力部１１４０、データが出力される出力部１１４７の他に、畳み込み層とプーリング層からなる複数の階層、ここでは第１層１１４１、第２層１１４２、第３層１１４３、第４層１１４４、第５層１１４５の５層の階層と、１つの全結合層１１４６を有している。これらの階層は、ＣＮＮ１１４の構成と処理の態様と模式的に示すものである。なお、畳み込み層とプーリング層の階層は５層よりも多くても少なくてもよい。

この実施の形態１のＣＮＮ１１４においては、まず第１層１１４１において、畳み込み層１１４１_１でフィルタ（図示せず）を用いた畳み込み処理が行われると、画像データの特徴（画像データに表示された画像や図形の特徴）が抽出された、元の画像データよりも２次元方向の大きさが縮小された画像データがフィルタの枚数分生成される。プーリング層１１４１_２では、畳み込み層で生成された画像データの２次元方向の大きさが縮小された画像データが生成される。

図７では、第１層１１４１の畳み込み層１１４１_１で６４種類のフィルタを用いた６４枚の畳み込みデータを生成し、プーリング層１１４１_２でその６４種類の畳み込みデータの２次元方向の大きさが縮小された新たな画像データが生成される。第２層１１４２では、畳み込み層１１４２_１において、第１層１１４１で生成された６４種類の画像データに１２８種類のフィルタを用いた畳み込み処理を行って１２８種類の畳み込みデータを生成し、プーリング層１１４２_２でその１２８種類の畳み込みデータの２次元方向の大きさが縮小された新たな画像データが生成される。

以下、第３層１１４３、第４層１１４４、第５層１１４５でも同様の処理が行われる。第３層１１４３では畳み込み層１１４３_１、プーリング層１１４３_２の処理により２５６種類の畳み込みデータと新たな画像データが生成される。第４層１１４４、第５層１１４５では畳み込み層１１４４_１，１１４５_１、プーリング層１１４４_２，１１４５_２の処理により５１２種類の畳み込みデータと新たな画像データが生成される。

全結合層１１４６では、第１層１１４１から第５層１１４５までの処理が行われたデータを１次データ変換し、それぞれの画像データに表示された画像の特徴を認識する。全結合層１１４６では、ＲｅＬＵ（Rectified Linear Unit）の活性化関数処理と、Batch Normalizationを用いた処理が行われるようにしてもよい。ただし、全結合層１１４６では、ＲｅＬＵ以外のどのような活性化関数が用いられた処理が行われてもよい。

［情報処理装置の学習手順］
この実施の形態１の情報処理装置１Ａは、画像処理実行部１０１が、第一の変換器１１２、第二の変換器１１３、及び逆変換器１１５を、ＣＮＮ１１４を含むＣＮＮの一部として用いて学習を行なう。具体的には画像処理実行部１０１は学習時には、学習データをＣＮＮ１１４全体に入力して得られる出力データと、既知の学習データの分類（出力）との誤差を最小にする処理を実行し、第一の変換器１１２、第二の変換器１１３、又は逆変換器１１５における重みを更新する。この学習処理により得られるＣＮＮ１１４におけるパラメータと、第一の変換器１１２、第二の変換器１１３における重みとは、対応するパラメータとして記憶部１２に記憶される。画像処理実行部１０１は、学習済みのＣＮＮ１１４を使用する場合には、ＣＮＮ１１４を定義する定義情報及び記憶部１２に記憶してあるパラメータと、対応する第一の変換器１１２及び第二の変換器１１３の重みとを用い、入力データを第一の変換器１１２、第二の変換器１１３に入力した後のデータをＣＮＮ１１４へ入力して用いる。逆変換器１１５を用いる場合も学習により得られる学習済みのＣＮＮ１１４を定義する定義情報及びパラメータと対応する重みを使用する。

第一の変換器１１２、第二の変換器１１３を、ＣＮＮ１１４が畳み込みによる特徴抽出を行う前段に入力することによって、抽出されるべき画像データの特徴を更に強調させることができる。これにより、ＣＮＮ１１４における学習効率及び学習精度が向上することが期待される。

［その他の構成］
なお、この実施の形態１における情報処理装置１Ａのハードウェア構成のうち、通信部１３、表示部１４、操作部１５、及び読取部１６は必須ではない。通信部１３は、例えば記憶部１２に記憶される画像処理プログラム１Ｐ、ＣＮＮライブラリ１Ｌ及び変換器ライブラリ２Ｌを外部サーバ装置（図示せず）等から取得する場合には、それらを一旦ダウンロードした後は使用しなくてもよい。同様に、読取部１６も、画像処理プログラム１Ｐ、ＣＮＮライブラリ１Ｌ及び変換器ライブラリ２Ｌを外部の記憶媒体（図示せず）から読み出して取得した後は使用しない構成としてもよい。また、通信部１３及び読取部１６は、ＵＳＢ（Universal Serial Bus）等のシリアル通信を用いた同一デバイスであってもよい。

また、情報処理装置１Ａの構成をネットワーク（図示せず）上に分散させた構成としてもよい。たとえば、上述のＣＮＮ１１４、第一の変換器１１２、第二の変換器１１３、及び逆変換器１１５としての機能をネットワーク（図示せず）上のＷｅｂサーバ（図示せず）上に設け、表示部及び通信部を備えるＷｅｂクライアント装置（図示せず）からこれらの機能が利用できる構成としてもよい。この場合、通信部１３は、Ｗｅｂクライアント装置（図示せず）からのリクエストを受信し、処理結果を送信するために使用される。

なお学習時に用いる誤差は、二乗誤差、絶対値誤差、又は交差エントロピー誤差等、入出力されるデータ、学習目的に応じて適切な関数を用いるとよい。例えば、出力が分類である場合、交差エントロピー誤差を用いる。誤差関数を用いることに拘わらずその他の基準を用いるなど柔軟な運用が適用できる。この誤差関数自体に外部のＣＮＮ（図示せず）を用いて評価を行なってもよい。

［作用効果］
この実施の形態１の情報処理装置１Ａは、入力されたデータや信号に非線形の補正を行う場合に、適切な補正を容易に行うことが可能となる。

これは、この実施の形態１の情報処理装置１Ａは、ＣＮＮ１１４の前後に第二の変換器１１３、逆変換器１１５を設け、情報処理装置１Ａに入力されたデータを非線形に空間変換するのに加え、第二の変換器１１３の前段に第一の変換器１１２を設け、画像データを構成するＲデータ、Ｇデータ、Ｂデータについて個々に非線形処理を行うことで、入力された画像データの特徴を増加させ得ることによるものである。

このように構成することで、この実施の形態１の情報処理装置１Ａは、第一の変換器１１２の非線形変換において機械学習の特徴を増加させ、機械学習の認識率を高めたり、あるいは、高精細な画像形成を行ったりすることが可能となる。

この実施の形態１の情報処理装置１Ａの処理は、例えば、ＲＧＢ色空間のカラー画像データにガンマ補正のような処理を行う場合が考えられる。

たとえば、ピクセル毎にＲ、Ｇ、Ｂのパラメータを有する画像データについて、Ｒの値、Ｇの値、Ｂの値の少なくとも何れか一つ、例えばＲの値にガンマ補正のような非線形変換の補正（個々の色空間変換のような補正）を行うとともに、ＲＧＢ全体の値にガンマ補正のような非線形変換の補正を行う場合、第一の変換器１１２を構成する変換器の何れか一つ、たとえばＲ変換器１１２ｒを用いて画像データ中のＲの値を非線形変換するとともに、第二の変換器１１３を用いてＲＧＢの値全体を非線形変換することができる。

このような処理を行うことで、画像データを構成する複数のパラメータのうちの一部のパラメータ（たとえばＲＧＢのうちのＲのパラメータ）について非線形変換等の補正を行うと共に、それら複数のパラメータ全てについての非線形変換等の補正を行うことが可能となる。これにより、画像データ等のデータや信号について多面的で的確な補正を簡単に行うことが可能となる。

特に、複数のパラメータを有するデータや信号のうちの特定のパラメータのデータについての非線形変換等の変換と、全てのパラメータのデータについての非線形変換等の変換を順次行うことで良好な変換結果を得たい場合に、この実施の形態１の構成は有効性が高いと考えられる。

なお、ＣＮＮ１１４内の畳み込み層やプーリング層の数を増加させたり、畳み込みのチャンネル数（convolution数）を増加させ、ＣＮＮ１１４内の処理負荷を高くした場合には、第一の変換器１１２を用いた（Ｒデータ、Ｇデータ、Ｂデータについて個々に行う非線形処理のような）チャンネル毎の非線形処理による機械学習の認識率向上が期待値並みに高くならない傾向にある。それゆえ、この実施の形態１の情報処理装置１Ａは、ＣＮＮ１１４内の演算が軽装な場合に高い効果を奏すると考えられる。すなわち、この実施の形態１の情報処理装置１Ａは、ＣＮＮ１１４における計算資源が少ない場合であっても、僅かな計算資源で構築できる第一の変換器１１２を用いることで、機械学習の精度を向上させることができる。

この実施の形態１の情報処理装置１Ａは、第一の変換器１１２がＲ変換器１１２ｒ、Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂの少なくとも３層の処理群からなる処理層群を備えることや、第二の逆変換部１１５ｂがＲ逆変換部１１５ｂｒ、Ｇ逆変換部１１５ｂｇ、Ｂ逆変換部１１５ｂｂの少なくとも３層の処理層からなる処理層群を備えること、そして、そそれらの処理層群は、ノード数が１の入力層と、該入力層の後段に設けられたノード数が複数の畳み込み層又は緻密層である第２層と、該第２層の後段に設けられたノード数が１の畳み込み層又は緻密層である第３層とを含む処理層群として、畳み込みニューラルネットワークへ入力するデータのチャンネル（Ｒ，Ｇ，Ｂ３つのカラーチャンネル）毎に設けられていることにより、複数のチャンネル、複数のパラメータを有するデータについて、チャンネル毎、パラメータ毎のデータの非線形処理を行うことができ、機械学習の精度を一層向上させることができる。

この実施の形態１の情報処理装置１Ａは、第一の変換器１１２や第二の逆変換部１１５ｂの第２層が複数層からなることにより、Ｒ，Ｇ，Ｂのカラーチャンネルのような多チャンネルのデータについて機械学習の精度を一層向上させることができる。

この実施の形態１の情報処理装置１Ａは、第二の変換器１１３を用いることで、Ｒ値、Ｇ値、Ｂ値のような複数のパラメータを有するデータを、それらの複数のパラメータ（ＲＧＢ３値全ての場合も、例えばＲＧＢ３値のうちのＲ値とＧ値の２値のような場合も含む）について非線形変換を行う処理を併せて行うことで、バリエーションを持たせた非線形処理を容易に行い、機械学習の精度を一層向上させることができる。

この実施の形態１の情報処理装置１Ａは、第一の変換器１１２と第二の変換器１１３とを複合させて非線形の変換を行うことにより、バリエーションを持たせた非線形処理を容易に行うことができる。

この実施の形態１の情報処理装置１Ａは、変換テーブル１２１を用いて非線形の変換を行うことにより、処理負荷を軽減させつつ精度の高い機械学習を行うことができる。

この実施の形態１の情報処理装置１Ａは、畳み込み処理の結果に基づいて畳み込みニューラルネットワークにおけるパラメータを学習する画像処理実行部１０１を備えたことにより、機械学習に適したデータを用いた畳み込み処理の結果を用いて、精度の高い機械学習を行うことができる。

［変形例］
なお、この実施の形態１の情報処理装置１Ａは、下記に示す変形例のように構成することもできる。これらの構成をとることにより、データの内容や処理の内容に応じた適切な態様で、精度の高い機械学習を行うことが可能となる。

（変形例１）
ＣＮＮ１１４の前段に設けられる第一の変換器１１２や第二の変換器１１３の出力側のチャンネル数を、入力側のチャンネル数以上とすることができる。例えば、第１の変換器のＲ変換器１１２ｒの出力層で２チャンネル以上の出力を得るようにしても良い。Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂも同様の構成とすることができる。これにより、第一の変換器１１２に入力されたＲＧＢの３チャンネルのデータは４チャンネル以上のデータとして出力される。

（変形例２）
ＣＮＮ１１４の前段に設けられる第一の変換器１１２や第二の変換器１１３の途中のチャンネル数を、入力側のチャンネル数以上とすることができる。例えば、Ｒ変換器１１２ｒの第１層１１２ｒ１から、図示された第２層１１２０_００１，・・・１１２０_２５６とは別系統の第２層（図示せず）にもデータを送る構成とできる。Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂも同様の構成とすることができる。これにより、入力されたＲＧＢの３チャンネルのデータを第１の変換器１１２内で４チャンネル以上のデータとして処理を行える。

（変形例３）
ＣＮＮ１１４の前段に設けられる第一の変換器１１２や第二の変換器１１３の中間処理層を多層化することができる。例えば第一の変換器１１２のＲ変換器１１２ｒの中間処理層を、第２層１１２０_００１，・・・１１２０_２５６の後や前に第２層α、第２層βのような構成（第２層の個々のノードの前後に連続した別のノード）を設けた構成とすることができる。Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂも同様の構成とすることができる。

（変形例４）
ＣＮＮ１１４の後段に設けられる逆変換器１１５の入力側のチャンネル数を、出力側のチャンネル数以上とすることができる。例えば、逆変換器１１５に入力されるデータを４チャンネル以上とし、出力されるデータをＲＧＢの３チャンネルとすることができる。

（変形例５）
ＣＮＮ１１４の後段に設けられる逆変換器１１５の中間処理層のチャンネル数を、入力側のチャンネル数以上とすることができる（上記（変形例２）の構成を逆変換器１１５の第一の逆変換部１１５ａや第二の逆変換部１１５ｂに適用した構成となる。）。

（変形例６）
ＣＮＮ１１４の後段に設けられる逆変換器１１５の中間処理層を多層化することができる。（上記（変形例３）の構成を逆変換器１１５の第一の逆変換部１１５ａや第二の逆変換部１１５ｂに適用した構成となる。）。

（変形例７）
第一の変換器１１２のＲ変換器１１２ｒ、Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂの少なくとも何れか一つを、１チャンネル入力１チャンネル出力ではなく、多チャンネル入力や、多チャンネル出力とすることもできる。例えばＲ変換器１１２ｒの第１層１１２ｒ１、第３層１１２ｒ３を２つ以上のノードとして構成することもできる。このように構成しても、Ｒ変換器１１２ｒ、Ｇ変換器１１２ｇ、Ｂ変換器１１２ｂがそれぞれ独立したデータ処理を行う構成が維持されていれば図１に示す第一の変換器１１２の機能は実現できる。ただし、入力側（第１層１１２ｒ１，１１２ｇ１，１１２ｂ１）が１チャンネルの場合のみ、変換テーブル１２１を適用した演算が事実上可能である。

（変形例８）
第二の変換器１１３は、入力側のチャンネルと出力側のチャンネルが、元のチャンネル数と同一でなくてもよい。たとえば、第二の変換器１１３の第１層１１３１ｒ，１１３１ｇ，１１３１ｂや、第３層１１３３_１，１１３３_２，１１３３_３は、チャンネル数が３つよりも多くても少なくてもよい。即ち、入力部１１１に入力された画像データのＲＧＢ３チャンネルよりもそれらのチャンネル数が多くても少なくてもよい。

（変型例９）
第一の変換器１１２の第２層や第二の逆変換部１１５ｂの第２層は、１層であってもよい。このように構成することで、処理負荷を軽減させたり処理速度を向上させることが可能となる。

（変形例１０）
図５に示したように第一の変換器１１２に適用したスキップコネクションを逆変換器１１５で適用しても良い。またスキップコネクションのストリーム数は１に限るものではなく、各中間処理層の一の処理出力をスキップコネクションにより出力し、該出力と中間処理層の他の処理出力と合成するストリームと、入力層からのデータと前記中間処理層出力と合成するストリームなど、複数のストリームで構成しても良い。

なお、上記（変形例１）～（変形例１０）の構成は、以下の［発明の実施の形態２］～［発明の実施の形態８］にも適用可能である。

［発明の実施の形態２］
図８は、この発明の実施の形態２の情報処理装置１Ｂの第一の変換器１１２の構成を示す機能ブロック図である。

この実施の形態２の情報処理装置１Ｂは、計算量を増やしてでも精度を高めたい場合に適用される。

具体的には、この実施の形態２の情報処理装置１Ｂは、第一の変換器１１２、第二の変換器１１３、ＣＮＮ１１４、及び逆変換器１１５の基本的な構成は実施の形態１の情報処理装置１Ａと同じだが（図２参照）、それぞれの第２層１１２０_００１，１１２０_００２，・・・１１２０_５１１，１１２０_５１２のノード数が５１２ノードとなっている。

なお、情報処理装置１Ｂの第２層１１２０_００１，１１２０_００２，・・・１１２０_５１１，１１２０_５１２のノード数は、適宜増減可能である。これは、情報処理装置１Ｂの第一の変換器１１２、逆変換器１１５の第一の逆変換部１１５ａ、第二の逆変換部１１５ｂ（図３参照）においても同じである。また、このようなノード数の調整は、この実施の形態２以外のこの発明の全ての実施の形態にも同様に適用できる。

この実施の形態２においては、入力されたデータを精度良く処理することが可能となる。

［発明の実施の形態３］
図９は、この発明の実施の形態３の情報処理装置１Ｃの画像処理部１１の一部を示す機能ブロック図である。この情報処理装置１Ｃの画像処理部１１は、第二の変換器１１３が存在しないこと以外は実施の形態１の情報処理装置１Ａと同じ構成である。この場合、逆変換器１１５は第二の変換器１１３に対応する第一の逆変換部１１５ａを設けない構成にもできる。

このような構成とすることにより、複数のパラメータを一度に用いた空間変換で非線形処理を行う必要のない場合において、適切な処理を行うことが可能となる。

［発明の実施の形態４］
図１０は、この発明の実施の形態４の情報処理装置１Ｄの画像処理部１１の一部を示す機能ブロック図である。この情報処理装置１Ｄの画像処理部１１は、逆変換器１１５が存在しないこと以外は実施の形態１の情報処理装置１Ａと同じ構成である。

このような構成は出力データが非線形変換処理を必要としない場合に用いられる。

なお、この実施の形態４の情報処理装置１Ｄの変形例として、実施の形態１の情報処理装置１ＡのＲ逆変換部１１５ｂｒ、Ｇ逆変換部１１５ｂｇ、Ｂ逆変換部１１５ｂｂのうちの１つないし２つが存在しない構成とすることもできる。

［発明の実施の形態５］
図１１は、この実施の形態５の情報処理装置１Ｅの画像処理部１１の一部を示す機能ブロック図である。この情報処理装置１Ｅの画像処理部１１は、第二の変換器１１３と逆変換器１１５が存在しないこと以外は実施の形態１の情報処理装置１Ａと同じである。

［発明の実施の形態６］
図１２は、この実施の形態６の情報処理装置１Ｆの画像処理部１１の一部を示す機能ブロック図である。この情報処理装置１Ｆの画像処理部１１は、第一の変換器１１２と第二の変換器１１３が逆に接続されている点が実施の形態１の情報処理装置１Ａと相違する。なお、図示しないが、逆変換器１１５を構成する第一の逆変換部１１５ａと第二の逆変換部１１５ｂが実施の形態１の情報処理装置１Ａと逆に接続されていてもよい。

このように構成することで、第二の変換器１１３による空間処理を先に行って空間処理を強調したい場合や、第一の変換器１１２による個々のパラメータの処理を後から行ってパラメータ毎の処理を強調したい場合等に、適切な処理を行うことが可能となる。なお、この情報処理装置１Ｆにおいて逆変換器１１５を設けない構成とすることもできる。

［発明の実施の形態７］
図１３は、この実施の形態７の情報処理装置１Ｇの画像処理部１１の一部を示す機能ブロック図である。この情報処理装置１Ｇの画像処理部１１は、実施の形態６の情報処理装置１Ｆにおける逆変換器１１５が設けられていない構成である。このように構成することで、実施の形態６の情報処理装置１Ｆによって適切な処理が行われるデータにおいて、逆変換が必要でない場合に、適切な処理を行うことができる。

［発明の実施の形態８］
また、図示しないが、この実施の形態の情報処理装置においては、実施の形態１の情報処理装置１Ａの構成において、ＣＮＮ１１４の前段に第一の変換器１１２、第二の変換器１１３の何れも設けられていない構成とすること、及び／又は、ＣＮＮ１１４の後段に第一の変換器１１２や第二の変換器１１３を設ける構成とすること、もできる。

なお、上記各実施の形態は本発明の例示であり、本発明が上記各実施の形態のみに限定されるものではないことは、いうまでもない。

［実施例］
以下、この発明の実施例について説明する。

図１４に、この発明の実施例を示す。図１４の（Ａ）が従来例１としての画像処理部１１の構成の一部を示す機能ブロック図である。この画像処理部１１では、入力されたデータをＣＮＮ１１４に直接入力している。

図１４の（Ｂ）が従来例２としての画像処理部１１の構成の一部を示す機能ブロック図である。この画像処理部１１では、入力データを第二の変換器１１３に入力したのちＣＮＮ１１４に入力している。

図１４の（Ｃ）が本件発明としての画像処理部１１の構成の一部を示す機能ブロック図である。この画像処理部１１では、入力データを第一の変換器１１２に入力したのちにＣＮＮ１１４に入力している。

この実施例では、１０種類の絵（飛行機、自動車、鳥、猫、しか、犬、かえる、馬、船、トラック）が示された画像データを画像処理部で識別させる実験を行った。具体的には、画像処理部に上述の１０種類の絵を学習させたのち、認識対象の画像を画像処理部に読み込ませ、読み込んだ画像が１０種類の絵のうちのどれに該当するかを認識させたのち、それぞれの絵に相当するシンボルを出力させて解答させる実験を行った。

この実験は、機械学習モデルとしてＶＧＧ１６を改変したものを用い、データセットとしてＣＩＦＡＲ－１０を利用し、読み込んだ絵の数に対して正答の数を出し、validity accuracy（正答率）（％）を検証した。

なお、図１４に示すとおり、各画像処理部１１には逆変換器を設けていない。これは、画像データの入力に対してシンボルを出力する構成であり、逆変換器が設けられていては認識精度が低下すると考えられたためである。

実験の結果を下記の（表）に示す。

この表に示すとおり、従来例１、従来例２に比べ、本件発明は改善された正答率が得られている。よって、本件発明は、従来例に比べて高い認識率が得られることがわかる。なお、正答率の改善は１％未満と僅かではあるが、機械学習においては僅かであっても正答率を向上させることは重要な課題である。

１Ａ，１Ｂ，１Ｃ，１Ｄ，１Ｅ，１Ｆ，１Ｇ，１Ｈ，１Ｊ，１Ｋ・・情報処理装置
１２・・・記憶部（記憶手段）
１２１・・・変換テーブル
１０１・・・画像処理実行部（学習実行部）
１１２・・・第一の変換器（変換手段、第一の非線形処理手段）
１１３・・・第二の変換器（変換手段、第二の非線形処理手段）
１１４・・・ＣＮＮ（データ処理手段）
１１５・・・逆変換器（逆変換手段）
１１２ｒ１，１１２ｇ１，１１２ｂ１，１１３１ｒ，１１３１ｇ，１１３１ｂ，１１５ａ１_１，１１５ａ１_２，１１５ａ１_３，１１５ｂｒ１，１１５ｂｇ１，１１５ｂｂ１・・・第１層（入力層）
１１２０_００１，１１２０_００２，・・・１１２０_２５５，１１２０_２５６，１１３２_００１，・・・１１３２_２５６，１１５ａ２_００１，１１５ａ２_００２，・・・１１５ａ２_２５５，１１５ａ２_２５６，１１５ｂｒ２_００１，１１５ｂｒ２_００２，・・・１１５ｂｒ２_２５５，１１５ｂｒ２_２５６，１１５ｂｇ２_００１，１１５ｂｇ２_００２，・・・１１５ｂｇ２_２５５，１１５ｂｇ２_２５６，１１５ｂｂ２_００１，１１５ｂｂ２_００２，・・・１１５ｂｂ２_２５５，１１５ｂｂ２_２５６・・・第２層（中間処理層）
１１２ｒ３，１１２ｇ３，１１２ｂ３，１１３３ｒ，１１３３ｇ，１１３３ｂ，１１５ａ３_１，１１５ａ３_２，１１５ａ３_３，１１５ｂｒ１，１１５ｂｇ３，１１５ｂｂ３・・・第３層（出力層）

Claims

畳み込み層を含む畳み込みニューラルネットワークを備え、複数のチャンネルを有するデータに対して畳み込み処理を行うデータ処理手段を備える情報処理装置であって、
該情報処理装置に入力されたデータに対して非線形の変換を行って前記データ処理手段に入力する変換手段、及び／又は、前記データ処理手段から出力されたデータに対して非線形の変換を行って前記情報処理装置から出力させる逆変換手段を備え、
前記変換手段、及び／又は、前記逆変換手段は、前記データに対して前記チャンネルごとに別個に前記非線形の変換を行う第一の非線形処理手段であり、かつ、
前記変換手段、及び／又は、前記逆変換手段は、少なくとも３層の処理層からなる処理層群を備え、
該処理層群は、ノード数が１の入力層と、該入力層の後段に設けられたノード数が複数の畳み込み層又は緻密層である中間処理層と、該中間処理層の後段に設けられたノード数が１又は複数の畳み込み層又は緻密層である出力層とを含むことを特徴とする情報処理装置。
前記中間処理層が１層からなることを特徴とする請求項１に記載の情報処理装置。
前記中間処理層が複数層からなることを特徴とする請求項１に記載の情報処理装置。
前記変換手段、及び／又は、前記逆変換手段は、複数の前記チャンネルを複合させて前記非線形の変換を行う第二の非線形処理手段を備えたことを特徴とする請求項１乃至３のいずれか一つに記載の情報処理装置。
前記第一の非線形処理手段において用いられる変換の態様が記録された変換テーブルが記憶される記憶手段を備え、
前記第一の非線形処理手段は、前記記憶手段から取得した前記変換テーブルを用いて前記非線形の変換を行うことを特徴とする請求項１乃至４の何れか一つに記載の情報処理装置。
前記変換手段、及び／又は、前記逆変換手段でスキップコネクションを用いたことを特徴とする請求項１乃至５の何れか一つに記載の情報処理装置。
コンピュータを請求項１乃至６の何れか一つに記載の情報処理装置として機能させることを特徴とするプログラム。