JP2023086549A - Information processing apparatus, information processing method in information processing apparatus, and program - Google Patents

Information processing apparatus, information processing method in information processing apparatus, and program Download PDF

Info

Publication number
JP2023086549A
JP2023086549A JP2021201134A JP2021201134A JP2023086549A JP 2023086549 A JP2023086549 A JP 2023086549A JP 2021201134 A JP2021201134 A JP 2021201134A JP 2021201134 A JP2021201134 A JP 2021201134A JP 2023086549 A JP2023086549 A JP 2023086549A
Authority
JP
Japan
Prior art keywords
data
layer
converter
processing
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021201134A
Other languages
Japanese (ja)
Other versions
JP7418019B2 (en
Inventor
修二 奥野
Shuji Okuno
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Axell Corp
Original Assignee
Axell Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Axell Corp filed Critical Axell Corp
Priority to JP2021201134A priority Critical patent/JP7418019B2/en
Publication of JP2023086549A publication Critical patent/JP2023086549A/en
Priority to JP2023219271A priority patent/JP7548634B2/en
Application granted granted Critical
Publication of JP7418019B2 publication Critical patent/JP7418019B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

To provide an information processing apparatus configured to perform analysis or recognition with high accuracy while suppressing increase of data volume or processing load in artificial intelligence using CNN.SOLUTION: An information processing apparatus 1A includes: a CNN 114 which includes a convolutional neural network including a convolution layer and executes convolution processing on data having multiple channels; a first transformer 112 which performs non-linear transformation on data input to the information processing apparatus 1A to be input to the CNN 114; and/or an inverse transformer 115 which performs non-linear transformation on data output from the CNN 114 to be output from the information processing apparatus 1A. The first transformer 112 and/or the CNN 114 performs non-linear transformation on data separately by channel.SELECTED DRAWING: Figure 2

Description

本発明は、畳み込みニューラルネットワーク(CNN)を用いてデータを処理する情報処理装置及び情報処理方法に関する。 The present invention relates to an information processing apparatus and information processing method for processing data using a convolutional neural network (CNN).

近年、人工知能(AI)を用いてデータの解析や認識を行うために、畳み込みニューラルネットワーク(CNN。以下「CNN」と称する。)が多く用いられる。たとえば、画像データや音声データ等の各種の解析や各種の認識においてCNNが用いられることが多い。従来、このようなCNNを用いた人工知能システムとしては、CNNによる解析や認識の精度を高めるため、離散値としての複数のパラメータを持つデータ、たとえばRGB色空間のデジタルのカラー画像データについて非線形に空間変換する変換器をCNNの前段に設ける発明が知られている(例えば、特許文献1参照)。 In recent years, convolutional neural networks (CNN, hereinafter referred to as "CNN") are often used to analyze and recognize data using artificial intelligence (AI). For example, CNNs are often used in various types of analysis and recognition of image data, voice data, and the like. Conventionally, as an artificial intelligence system using such a CNN, in order to improve the accuracy of analysis and recognition by the CNN, data with multiple parameters as discrete values, for example, digital color image data in the RGB color space are nonlinearly An invention is known in which a converter that performs space conversion is provided in the front stage of a CNN (see, for example, Patent Document 1).

特許第6476531号公報Japanese Patent No. 6476531

しかし、CNNを行う目的は、データの認識、データの解析、データの高精度化など、多様である。そして、データの種類や目的によっては、複数のパラメータのうちの特定のパラメータのみを非線形に変換することでCNNの処理による効果が高まる場合もある。しかし、上記特許文献1は、変換対象であるデータの複数のパラメータの全てを対象として非線形に変換するため、処理負荷が過大になり、処理精度が低下する場合があるという問題がある。 However, the purposes of CNN are diverse, such as data recognition, data analysis, and improvement of data accuracy. Depending on the type and purpose of the data, the effect of CNN processing may be enhanced by nonlinearly transforming only a specific parameter out of a plurality of parameters. However, in Patent Document 1, since all of the parameters of the data to be converted are non-linearly converted, there is a problem that the processing load becomes excessive and the processing accuracy decreases.

本発明はこのような課題に鑑みてなされたものであり、CNNを用いた人工知能において、データ量や処理負荷が過大になるのを抑止しつつ高い精度で解析や認識を行うことのできる情報処理装置、情報処理方法、プログラムを提供することを課題としている。 The present invention has been made in view of such problems, and in artificial intelligence using CNN, information that can be analyzed and recognized with high accuracy while preventing the amount of data and processing load from becoming excessive. An object of the present invention is to provide a processing device, an information processing method, and a program.

かかる課題を解決するため、請求項1に係る発明は、畳み込み層を含む畳み込みニューラルネットワークを備え、複数のチャンネルを有するデータに対して畳み込み処理を行うデータ処理手段を備える情報処理装置であって、該情報処理装置に入力されたデータに対して非線形の変換を行って前記データ処理手段に入力する変換手段、及び/又は、前記データ処理手段から出力されたデータに対して非線形の変換を行って前記情報処理装置から出力させる逆変換手段を備え、前記変換手段、及び/又は、前記逆変換手段は、前記データに対して前記チャンネルごとに別個に前記非線形の変換を行う第一の非線形処理手段を備えたことを特徴とする。 In order to solve such a problem, the invention according to claim 1 is an information processing device comprising a convolutional neural network including a convolutional layer and comprising data processing means for performing convolution processing on data having a plurality of channels, conversion means for performing nonlinear conversion on data input to the information processing device and inputting the data to the data processing means, and/or performing nonlinear conversion on data output from the data processing means First nonlinear processing means comprising inverse transforming means for outputting from the information processing device, wherein the transforming means and/or the inverse transforming means perform the nonlinear transform on the data separately for each of the channels. characterized by comprising

請求項2に記載の発明は、請求項1に記載の構成に加え、前記変換手段、及び/又は、前記逆変換手段は、少なくとも3層の処理層からなる処理層群を備え、該処理層群は、ノード数が1の入力層と、該入力層の後段に設けられたノード数が複数の畳み込み層又は緻密層である中間処理層と、該中間処理層の後段に設けられたノード数が1又は複数の畳み込み層又は緻密層である出力層とを含む構成であり、処理層群が、前記畳み込みニューラルネットワークへ入力する前記データのチャンネル毎に設けられたことを特徴とする。 The invention according to claim 2 is, in addition to the configuration according to claim 1, wherein the conversion means and/or the inverse conversion means includes a processing layer group consisting of at least three processing layers, and the processing layer The group consists of an input layer with one node, an intermediate processing layer that is a convolutional layer or dense layer with a plurality of nodes provided after the input layer, and the number of nodes provided after the intermediate processing layer. includes an output layer which is one or more convolutional layers or dense layers, and a processing layer group is provided for each channel of the data input to the convolutional neural network.

請求項3に記載の発明は、請求項2に記載の構成に加え、前記中間処理層が1層からなることを特徴とする。 The invention according to claim 3 is characterized in that, in addition to the configuration according to claim 2, the intermediate treatment layer is composed of one layer.

請求項4に記載の発明は、請求項2に記載の構成に加え、前記中間処理層が複数層からなることを特徴とする。 The invention according to claim 4 is characterized in that, in addition to the configuration according to claim 2, the intermediate treatment layer is composed of a plurality of layers.

請求項5に記載の発明は、請求項1乃至4の何れか一つに記載の構成に加え、前記変換手段、及び/又は、前記逆変換手段は、複数の前記チャンネルを複合させて前記非線形の変換を行う第二の非線形処理手段を備えたことを特徴とする。 The invention according to claim 5 is, in addition to the configuration according to any one of claims 1 to 4, wherein the transforming means and/or the inverse transforming means combine a plurality of the channels to obtain the nonlinear It is characterized by comprising a second non-linear processing means for performing conversion of .

請求項6に記載の発明は、請求項1乃至5の何れか一つに記載の構成に加え、前記第一の非線形処理手段において用いられる変換の態様が記録された変換テーブルが記憶される記憶手段を備え、前記第一の非線形処理手段は、前記記憶手段から取得した前記変換テーブルを用いて前記非線形の変換を行うことを特徴とする。 The invention according to claim 6, in addition to the configuration according to any one of claims 1 to 5, is a storage storing a conversion table in which conversion modes used in the first nonlinear processing means are recorded. wherein the first nonlinear processing means performs the nonlinear conversion using the conversion table acquired from the storage means.

請求項7に記載の発明は、請求項1乃至6の何れか一つに記載の構成に加え、前記変換手段、及び/又は、前記逆変換手段でスキップコネクションを用いたことを特徴とする。 The invention according to claim 7 is characterized in that, in addition to the configuration according to any one of claims 1 to 6, a skip connection is used in the transforming means and/or the inverse transforming means.

請求項8に記載の発明は、畳み込み層を含む畳み込みニューラルネットワークにおいて、複数のチャンネルを有するデータに対して畳み込み処理が行われるデータ処理手順を備える、情報処理装置における情報処理方法であって、該情報処理装置に入力されたデータに対して非線形の変換を行って前記データ処理手順の処理に入力される変換手順、及び/又は、前記データ処理手順の処理によって出力されたデータに対して非線形の変換を行って前記情報処理装置から出力させる逆変換手順を備え、前記変換手順、及び/又は、前記逆変換手順は、前記データに対して前記チャンネルごとに別個に前記非線形の変換が行われる第一の非線形処理手順を備えたことを特徴とする。 According to an eighth aspect of the present invention, there is provided an information processing method in an information processing apparatus, comprising a data processing procedure in which convolution processing is performed on data having a plurality of channels in a convolutional neural network including convolution layers, wherein A transformation procedure that performs nonlinear transformation on data input to an information processing device and is input to the processing of the data processing procedure, and / or a nonlinear transformation of data that is output by the processing of the data processing procedure. An inverse transformation procedure is provided for performing transformation and outputting it from the information processing device, wherein the transformation procedure and/or the inverse transformation procedure performs the nonlinear transformation separately on the data for each channel. It is characterized by having one nonlinear processing procedure.

請求項9に記載の発明は、プログラムであって、コンピュータを請求項1乃至7の何れか一つに記載の情報処理装置として機能させることを特徴とする。 According to a ninth aspect of the present invention, there is provided a program that causes a computer to function as the information processing apparatus according to any one of the first to seventh aspects.

本発明によれば、CNNを用いた人工知能において、データ量や処理負荷が過大になるのを抑止しつつ高い精度で解析や認識を行うことが可能となる。 According to the present invention, in artificial intelligence using CNN, it is possible to perform analysis and recognition with high accuracy while preventing the amount of data and processing load from becoming excessive.

この実施の形態1の情報処理装置の全体構成を示す機能ブロック図である。1 is a functional block diagram showing the overall configuration of an information processing apparatus according to Embodiment 1; FIG. 同上情報処理装置の画像処理部の詳細構成を模式的に示す機能ブロック図である。3 is a functional block diagram schematically showing the detailed configuration of an image processing unit of the information processing apparatus; FIG. 同上情報処理装置の画像処理部の詳細構成を模式的に示す機能ブロック図である。3 is a functional block diagram schematically showing the detailed configuration of an image processing unit of the information processing apparatus; FIG. 同上情報処理装置の第一の変換器の詳細構成を示す機能ブロック図である。It is a functional block diagram which shows the detailed structure of the 1st converter of an information processing apparatus same as the above. 同上情報処理装置の第一の変換器の変形例の概略を示す機能ブロック図である。It is a functional block diagram which shows the outline of the modification of the 1st converter of the information processing apparatus same as the above. 同上情報処理装置の第二の変換器の詳細構成を示す機能ブロック図である。It is a functional block diagram which shows the detailed structure of the 2nd converter of an information processing apparatus same as the above. 同上情報処理装置のCNNの構成と処理手順(データ処理手順)を模式的に示すブロック図並びにタイムチャートである。It is a block diagram and a time chart which show typically the structure and processing procedure (data processing procedure) of CNN of an information processing apparatus same as the above. この実施の形態2の情報処理装置の第一の変換器の構成を示す機能ブロック図である。FIG. 11 is a functional block diagram showing the configuration of a first converter of the information processing device of this embodiment 2; この実施の形態3の情報処理装置の画像処理部の構成の一部を示す機能ブロック図である。FIG. 12 is a functional block diagram showing a part of the configuration of an image processing unit of the information processing apparatus according to the third embodiment; この実施の形態4の情報処理装置の画像処理部の構成の一部を示す機能ブロック図である。FIG. 14 is a functional block diagram showing a part of the configuration of an image processing section of the information processing apparatus according to the fourth embodiment; この実施の形態5の情報処理装置の画像処理部の構成の一部を示す機能ブロック図である。FIG. 12 is a functional block diagram showing a part of the configuration of an image processing unit of the information processing apparatus according to the fifth embodiment; この実施の形態6の情報処理装置の画像処理部の構成の一部を示す機能ブロック図である。FIG. 12 is a functional block diagram showing a part of the configuration of an image processing section of the information processing apparatus according to Embodiment 6; この実施の形態7の情報処理装置の画像処理部の構成の一部を示す機能ブロック図である。FIG. 14 is a functional block diagram showing a part of the configuration of an image processing section of the information processing apparatus according to Embodiment 7; この発明の実施例としての、(A)従来例1としての情報処理装置の画像処理部の構成の一部を示す機能ブロック図、(B)従来例2としての情報処理装置の画像処理部の構成の一部を示す機能ブロック図、(C)本件発明としての情報処理装置の画像処理部の構成の一部を示す機能ブロック図である。1 is a functional block diagram showing a part of the configuration of an image processing unit of an information processing apparatus as conventional example 1, and (B) an image processing unit of an information processing apparatus as conventional example 2, as embodiments of the present invention. FIG. 4C is a functional block diagram showing a part of the configuration, (C) a functional block diagram showing a part of the configuration of the image processing unit of the information processing apparatus as the present invention;

[発明の実施の形態1]
図1乃至図7に、この実施の形態1に係る情報処理装置及び情報処理装置における情報処理方法を示す。以下、この発明の実施の形態1について図面を参照して説明する。
[Embodiment 1 of the invention]
1 to 7 show an information processing apparatus and an information processing method in the information processing apparatus according to the first embodiment. Embodiment 1 of the present invention will be described below with reference to the drawings.

[基本構成]
まず、この実施の形態1の情報処理装置の及び構成について説明する。
[Basic configuration]
First, the configuration of the information processing apparatus according to the first embodiment will be described.

図1に示す、この実施の形態1の情報処理装置1Aは、人工知能(AI、以下単に「AI」と記載する。)を備え、AIによる各種データの解析や認識や、解析や認識に用いたデータの復元を行う。情報処理装置1Aは、デジタルデータに対してCNNを用いたデータ処理を行う。 The information processing device 1A of the first embodiment shown in FIG. Restore the data that was saved. The information processing device 1A performs data processing using CNN on digital data.

以下、この実施の形態1では、情報処理装置1Aがデジタルデータとしての画像データの解析や認識、そして復元を行うものとして説明する。また、この実施の形態1の情報処理装置1Aに入力される画像データは、256階調のRGBカラーモデルの画像データ(R値、G値、B値の3つのパラメータを有する画像データ)であるものとする。 In the following description of the first embodiment, the information processing apparatus 1A analyzes, recognizes, and restores image data as digital data. Further, the image data input to the information processing apparatus 1A of the first embodiment is 256-tone RGB color model image data (image data having three parameters of R value, G value, and B value). shall be

ただし情報処理装置1Aが扱うデータは画像データに限らず、例えばデジタルデータとしての音声データや、音声以外の各種デジタルデータを扱うものでもよい。また、情報処理装置1Aが扱うデータはアナログデータをデジタルデータに変換して各種処理を行うものであってもよい。 However, data handled by the information processing apparatus 1A is not limited to image data, and may be voice data as digital data or various digital data other than voice. Further, the data handled by the information processing apparatus 1A may be converted from analog data into digital data and subjected to various processes.

また、この実施の形態1で扱う画像データは、RGBカラーモデル以外の画像データ、例えばRGBカラーモデルをYUVやYCbCrなどの異なる色空間に変換した画像データであってもよいし、4つ以上のパラメータを有する画像データ(例えばRGBYの4つのパラメータを有する画像データ)であってもよい。この場合、以下に説明する情報処理装置1Aの機能手段は、パラメータの種類やパラメータの数に応じたものとして構成される。 The image data handled in the first embodiment may be image data other than the RGB color model, for example, image data obtained by converting the RGB color model into a different color space such as YUV or YCbCr. Image data having parameters (for example, image data having four parameters of RGBY) may be used. In this case, the functional means of the information processing apparatus 1A described below are configured according to the types of parameters and the number of parameters.

[情報処理装置の機能手段]
図1に示すとおり、この実施の形態1の情報処理装置1Aは、機能手段として、制御部10、画像処理部11、「記憶手段」としての記憶部12、通信部13、表示部14及び操作部15を備える。なお情報処理装置1Aにおける動作について以下では、1台のサーバコンピュータとして説明するが、複数のコンピュータによって処理を分散するようにして構成されてもよい。
[Functional Means of Information Processing Device]
As shown in FIG. 1, the information processing apparatus 1A of the first embodiment includes a control unit 10, an image processing unit 11, a storage unit 12 as a "storage unit", a communication unit 13, a display unit 14, and an operation unit as functional units. A part 15 is provided. The operation of the information processing apparatus 1A will be described below as one server computer, but it may be configured such that processing is distributed among a plurality of computers.

制御部10は、CPU(Central Processing Unit )等のプロセッサ及びメモリ等を用い、装置の構成部を制御して各種機能を実現する。画像処理部11は、GPU(Graphics Processing Unit)又は専用回路等のプロセッサ及びメモリを用い、制御部10からの制御指示に応じて画像処理を実行する。なお、制御部10及び画像処理部11は、CPU,GPU等のプロセッサ、メモリ、更には記憶部12及び通信部13を集積した1つのハードウェア(SoC:System on a Chip)として構成されていてもよい。 The control unit 10 uses a processor such as a CPU (Central Processing Unit), a memory, and the like, and controls components of the device to realize various functions. The image processing unit 11 uses a processor such as a GPU (Graphics Processing Unit) or a dedicated circuit and a memory, and executes image processing according to control instructions from the control unit 10 . Note that the control unit 10 and the image processing unit 11 are configured as one piece of hardware (SoC: System on a Chip) in which a processor such as a CPU or GPU, a memory, a storage unit 12 and a communication unit 13 are integrated. good too.

記憶部12は、各種記憶媒体であり、たとえばハードディスク又はフラッシュメモリを用いる。記憶部12には、画像処理プログラム1P、DL(Deep Learning)用、特にCNNとしての機能を発揮させるCNNライブラリ1L、及び変換器ライブラリ2Lが記憶されている。また記憶部12には、1つの学習毎に作成される、CNN114、第一の変換器112、第二の変換器113、逆変換器115、を定義する情報、学習済みのCNN114における各層の重み係数等を含むパラメータ情報等が記憶される。 The storage unit 12 is various storage media such as a hard disk or flash memory. The storage unit 12 stores an image processing program 1P, a CNN library 1L for DL (Deep Learning), particularly a CNN library 1L, and a converter library 2L. In addition, in the storage unit 12, information defining the CNN 114, the first transformer 112, the second transformer 113, the inverse transformer 115, and the weight of each layer in the learned CNN 114, which are created for each learning Parameter information and the like including coefficients and the like are stored.

また、記憶部12には変換テーブル121が記憶される。この変換テーブル121は第一の変換器112に読み込まれ、第一の変換器112における演算処理に用いられる(後述の[変換テーブル]にて詳述。)
通信部13は、インターネット等の通信網への通信接続を実現する通信モジュールである。通信部13は、ネットワークカード、無線通信デバイス又はキャリア通信用モジュールを用いる。
A conversion table 121 is stored in the storage unit 12 . This conversion table 121 is read into the first converter 112 and used for arithmetic processing in the first converter 112 (detailed in [Conversion table] described later).
The communication unit 13 is a communication module that realizes communication connection to a communication network such as the Internet. The communication unit 13 uses a network card, a wireless communication device, or a carrier communication module.

表示部14は、液晶パネル又は有機EL(Electro Luminescence)ディスプレイ等を用いる。表示部14は、制御部10の指示による画像処理部11での処理によって画像を表示することが可能である。 The display unit 14 uses a liquid crystal panel, an organic EL (Electro Luminescence) display, or the like. The display unit 14 can display an image by processing in the image processing unit 11 according to instructions from the control unit 10 .

操作部15は、キーボード又はマウス等のユーザインタフェースを含む。筐体に設けられた物理的ボタンを用いてもよい。及び表示部14に表示されるソフトウェアボタン等を用いてもよい。操作部15は、ユーザによる操作情報を制御部10へ通知する。 The operating unit 15 includes a user interface such as a keyboard or mouse. A physical button provided on the housing may be used. Also, software buttons or the like displayed on the display unit 14 may be used. The operation unit 15 notifies the control unit 10 of operation information by the user.

読取部16は、例えばディスクドライブを用い、光ディスク等を用いた記録媒体2に記憶してある画像処理プログラム2P、CNNライブラリ3L、及び変換器ライブラリ4Lを読み取ることが可能である。記憶部12に記憶してある画像処理プログラム1P、CNNライブラリ1L、及び変換器ライブラリ2Lは、記録媒体2から読取部16が読み取った画像処理プログラム2P、CNNライブラリ3L、及び変換器ライブラリ4Lを制御部10が記憶部12に複製したものであってもよい。 The reading unit 16 uses a disk drive, for example, and can read the image processing program 2P, the CNN library 3L, and the converter library 4L stored in the recording medium 2 using an optical disk or the like. The image processing program 1P, the CNN library 1L, and the converter library 2L stored in the storage unit 12 control the image processing program 2P, the CNN library 3L, and the converter library 4L read by the reading unit 16 from the recording medium 2. It may be one that the unit 10 duplicates in the storage unit 12 .

情報処理装置1Aの制御部10は、記憶部12に記憶してある画像処理プログラム1Pに基づき、「学習実行部」としての画像処理実行部101として機能する。また画像処理部11は、記憶部12に記憶してあるCNNライブラリ1L、定義データ、パラメータ情報に基づきメモリを用いてCNN114(CNNエンジン)として機能し、また変換器ライブラリ2L、フィルタ情報に基づきメモリを用いて第一の変換器112、第二の変換器113として機能する。画像処理部11は、第一の変換器112、第二の変換器113の種類に応じて逆変換器115として機能する場合もある。 The control unit 10 of the information processing apparatus 1A functions as an image processing execution unit 101 as a "learning execution unit" based on the image processing program 1P stored in the storage unit 12. FIG. The image processing unit 11 functions as a CNN 114 (CNN engine) using a memory based on the CNN library 1L, definition data, and parameter information stored in the storage unit 12, and also functions as a CNN 114 (CNN engine) based on the converter library 2L and filter information. to function as the first converter 112 and the second converter 113 . The image processing unit 11 may function as an inverse transformer 115 depending on the types of the first transformer 112 and the second transformer 113 .

[画像処理実行部の機能手段]
図2に示すとおり、画像処理実行部101は、機能手段として、入力部111、「変換手段」「第一の非線形処理手段」としての第一の変換器112、「変換手段」「第二の非線形処理手段」としての第二の変換器113、「データ処理手段」としてのCNN114、「逆変換手段」としての逆変換器115、出力部116を備える。画像処理実行部101は、これらの機能手段を用い、各々へデータを与え、各々から出力されるデータを取得する処理を実行する。
[Functional Means of Image Processing Execution Unit]
As shown in FIG. 2, the image processing execution unit 101 includes, as functional means, an input unit 111, a first converter 112 as a "conversion means" and a "first nonlinear processing means", a "conversion means" and a "second A second transformer 113 as a "nonlinear processing means", a CNN 114 as a "data processing means", an inverse transformer 115 as an "inverse transforming means", and an output unit 116 are provided. The image processing execution unit 101 uses these functional means to give data to each of them and to acquire the data output from each of them.

具体的には、画像処理実行部101は、ユーザの操作部15を用いた操作に基づいて入力部111に入力された、入力データである画像データを、第一の変換器112に入力し、第一の変換器112から出力された画像データを第二の変換器113に入力する。画像処理実行部101は、第二の変換器113から出力されたデータをCNN114に入力する。画像処理実行部101は、CNN114から出力されたデータを必要に応じて逆変換器115へ入力し、逆変換器115から出力されたデータを出力部116に入力し、入力されたデータは出力部116から出力データとして出力されて記憶部12に入力される。画像処理実行部101は、出力データを画像処理部11へ与えて画像として描画し、表示部14へ出力してもよい。 Specifically, the image processing execution unit 101 inputs image data, which is input data input to the input unit 111 based on the user's operation using the operation unit 15, to the first converter 112, The image data output from the first converter 112 is input to the second converter 113 . The image processing execution unit 101 inputs the data output from the second converter 113 to the CNN 114 . The image processing execution unit 101 inputs the data output from the CNN 114 to the inverse transformer 115 as necessary, inputs the data output from the inverse transformer 115 to the output unit 116, and outputs the input data to the output unit. 116 as output data and input to the storage unit 12 . The image processing execution unit 101 may give the output data to the image processing unit 11 to render it as an image and output it to the display unit 14 .

CNN114は、定義データにより定義される複数段の畳み込み層及びプーリング層と、全結合層とを有し(図7参照)、入力データの特徴量を取り出し、取り出された特徴量に基づいて分類を行なう(後述の[CNNの構成と処理手順]に詳述。)。 The CNN 114 has multiple stages of convolution layers and pooling layers defined by definition data, and a fully connected layer (see FIG. 7), extracts the feature amount of the input data, and performs classification based on the extracted feature amount. (detailed in [CNN Configuration and Processing Procedure] below).

第一の変換器112、第二の変換器113は、CNN114と同様に畳み込み層と多チャンネル層とを含み、入力されたデータに対して非線形変換を行なう。ここで非線形変換とは、例えば色空間変換やレベル補正のような入力値を非線形に歪めるような処理を言う。逆変換器115は、畳み込み層と多チャンネル層とを含んで逆変換する。逆変換器115は「第二の非線形処理手段」としての第一の変換器112、「第一の非線形処理手段」としての第二の変換器113による歪みを戻す機能を果たす。ただし、逆変換器115による変換は、第一の変換器112、第二の変換器113と対称となるような変換だけには限られない。 The first converter 112 and the second converter 113 each include a convolutional layer and a multi-channel layer like the CNN 114, and perform nonlinear conversion on input data. Here, the non-linear transformation refers to processing such as color space transformation and level correction that non-linearly distorts input values. The inverse transformer 115 includes a convolutional layer and a multi-channel layer for inverse transformation. The inverse transformer 115 functions to restore the distortion caused by the first transformer 112 as the "second nonlinear processing means" and the second transformer 113 as the "first nonlinear processing means". However, the conversion by the inverse converter 115 is not limited to the conversion that is symmetrical with the first converter 112 and the second converter 113 .

[第一の変換器]
図3及び図4に、この実施の形態1の第一の変換器112の構成を模式的に示す。
[First converter]
3 and 4 schematically show the configuration of the first converter 112 of the first embodiment.

第一の変換器112は、データに対してチャンネルごとに別個に非線形の変換を行う。ここでのチャンネルとは、RGBカラーモデルのカラー画像の画像データにおけるR値、G値、B値のこと(カラーチャンネル)をいう。つまりこの画像データは3チャンネルのデータである。 A first transformer 112 performs a non-linear transform on the data separately for each channel. Here, the channel means the R value, G value, and B value (color channel) in the image data of the color image of the RGB color model. That is, this image data is 3-channel data.

図4に示すとおり、第一の変換器112は、R変換器112r、G変換器112g、B変換器112bを備える。R変換器112rは、ノード数が1である第1層(入力層)112r1と、ノード数が複数であり、この複数のノードによって緻密層が形成された畳み込み層(CONV)である第2層(中間処理層)112r2と、ノード数が1である第3層(出力層)112r3とで構成される。G変換器112g、B変換器112bも、R変換器112rと同様の構成である。即ち、G変換器112gは第1層112g1、第2層112g2、第3層112g3を備え、B変換器112bは第1層112b1、第2層112b2、第3層112b3を備えている。 As shown in FIG. 4, the first converter 112 includes an R converter 112r, a G converter 112g, and a B converter 112b. The R converter 112r has a first layer (input layer) 112r1 having one node, and a second layer (CONV) having a plurality of nodes and a dense layer formed by the plurality of nodes. It is composed of an (intermediate processing layer) 112r2 and a third layer (output layer) 112r3 having one node. The G converter 112g and the B converter 112b also have the same configuration as the R converter 112r. That is, the G converter 112g has a first layer 112g1, a second layer 112g2 and a third layer 112g3, and the B converter 112b has a first layer 112b1, a second layer 112b2 and a third layer 112b3.

図3、図4に示すとおり、中間処理層である第2層を構成するR変換器112rの第2層112r2は、例えば256個のノード1120001,1120002,・・・1120255,1120256を備える。ノード数は処理精度に比例するので、ノード数が多いほど処理精度が高まるが、ノード数が増えれば多くの演算処理が必要となるという関係にある。図3に示すとおり、G変換器112g、B変換器112bも、同様にそれぞれ、256個のノード1120001,1120002,・・・1120256を備えている。 As shown in FIGS. 3 and 4, the second layer 112r2 of the R converter 112r constituting the second layer, which is the intermediate processing layer, has, for example, 256 nodes 1120 001 , 1120 002 , . Prepare. Since the number of nodes is proportional to the processing accuracy, the greater the number of nodes, the higher the processing accuracy. As shown in FIG. 3, the G converter 112g and the B converter 112b are similarly provided with 256 nodes 1120 001 , 1120 002 , . . . 1120 256 , respectively.

第一の変換器112は、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行う作用を持つ(変換手順、第一の非線形処理手順)。なお、第一の変換器112のR変換器112r、G変換器112g、B変換器112bの第2層112r2,112g2,112b2は、緻密層として構成されるものに限らず、畳み込み層として構成されるものであってもよい。 The first converter 112 has the function of performing nonlinear transformation on the input and performing processing that nonlinearly distorts the input sample values (transformation procedure, first nonlinear processing procedure). The second layers 112r2, 112g2, and 112b2 of the R converter 112r, the G converter 112g, and the B converter 112b of the first converter 112 are not limited to being configured as dense layers, but are configured as convolution layers. can be anything.

[第一の変換器の具体的構成]
図4は、この実施の形態1の第一の変換器112の具体的構成を示す機能ブロック図である。
[Specific Configuration of First Converter]
FIG. 4 is a functional block diagram showing a specific configuration of the first converter 112 of this first embodiment.

第一の変換器112のR変換器112rは、入力層である第1層のノード112r1と、中間処理層である第2層112r2と、出力層である第3層112r3を有し、第2層112r2では1×1のフィルタの畳み込み処理により256個のノード1121001,1121002,・・・1121255,1121256として畳み込み処理結果が出力され、さらにelu活性化関数処理が行われ、1122001,1122002,・・・1122255,1122256の出力が得られる。また、第一の変換器112のR変換器112rの出力層である第3層112r3は、畳み込みノード112r3と出力ノード112r3とを備える。畳み込みノード112r3においては、中間処理層の第2層112r2のノード1122001,1122002,・・・1122255,1122256でelu活性化関数処理された出力を1×1のフィルタで畳み込む処理を行うと共に、畳み込みの結果についてelu活性化関数処理を行う。出力ノード112r3は、畳み込みノード112r3における処理の結果を出力する。 The R converter 112r of the first converter 112 has a first layer node 112r1 which is an input layer, a second layer 112r2 which is an intermediate processing layer, and a third layer 112r3 which is an output layer. 1121 255 , 1121 256 as 256 nodes 1121 001 , 1121 002 , . , 1122 002 , . . . 1122 255 , 1122 256 are obtained. The third layer 112r3, which is the output layer of the R converter 112r of the first converter 112, comprises a convolution node 112r3_1 and an output node 112r3_2 . The convolution node 112r3 1 convolves the outputs processed by the elu activation function at the nodes 1122 001 , 1122 002 , . In addition, elu activation function processing is performed on the result of convolution. Output node 112r3_2 outputs the result of the processing in convolution node 112r3_1 .

このelu(Exponential Linear Unit)とは活性化関数の一つであり、eluを用いることでデータを非線形に変形することができる。第一の変換器112において、活性化関数としてeluを用いているのは、他の活性化関数、例えば後述するReLU等に比べ、eluを用いた処理の方が入力されたデータの曲線(RGBの数値の大きさと明度の大きさなどをパラメータとした特性曲線など)の変形が滑らかになる(活性化関数を用いた処理後の曲線の形状を、処理前と大きく変化させることのないものとすることができる。)ことによるものである。 This elu (exponential linear unit) is one of the activation functions, and by using elu, data can be transformed nonlinearly. The reason why the first converter 112 uses elu as an activation function is that the curve of the input data (RGB The deformation of the characteristic curve, etc., with parameters such as the numerical value and the brightness of can be done.)

図3,図4等に図示しないが、第一の変換器112のG変換器112g及びB変換器112bもR変換器112rと同様の構成である。 Although not shown in FIGS. 3 and 4, the G converter 112g and the B converter 112b of the first converter 112 have the same configuration as the R converter 112r.

なお、第一の変換器112のR変換器112rは、第2層112r2のelu活性化関数処理部1122001,1122002,・・・1122255,1122256、及び第3層のelu活性化関数処理部112r3のうち、少なくとも何れか一つが設けられていなくてもよいし、elu活性化関数以外のどのような関数が用いられてもよい。これは、第一の変換器112のG変換器112g、B変換器112b、第二の変換器113、逆変換器115の第一の逆変換部115a、第二の逆変換部115bにおいても同様である。 1122 255 , 1122 256 of the second layer 112r2 and the elu activation function of the third layer. At least one of the processing units 112r32 may not be provided, and any function other than the elu activation function may be used. This is the same for the G converter 112g, the B converter 112b, the second converter 113, and the first inverse converter 115a and the second inverse converter 115b of the inverse converter 115 of the first converter 112. is.

なお、図3、図4に示すR変換器112r、G変換器112g、B変換器112bは、出力層である第3層の出力チャンネル数(ノード数)が入力チャンネル数と同数であるが、これに限らず減少させてもよいし、増加させてもよい。これは、第二の変換器113、逆変換器115の第一の逆変換部115a、第二の逆変換部115bのR逆変換部115br、G逆変換部115bg、B逆変換部115bbも同様である。 Note that the R converter 112r, G converter 112g, and B converter 112b shown in FIG. 3 and FIG. It is not limited to this and may be decreased or increased. This is the same for the second converter 113, the first inverse transform unit 115a of the inverse transform unit 115, the R inverse transform unit 115br, the G inverse transform unit 115bg, and the B inverse transform unit 115bb of the second inverse transform unit 115b. is.

[第一の変換器の構成の変形例]
図5は、この実施の形態1の第一の変換器112の構成の変形例の概略を示す機能ブロック図である。
[Modification of Configuration of First Converter]
FIG. 5 is a functional block diagram outlining a modification of the configuration of the first converter 112 of the first embodiment.

同図は、第一の変換器112のR変換器112rの変形例の概略を示している。図5において、第一の変換器112は第3層112r3に畳み込みノード112r3とスキップコネクション112r3と活性化関数処理ノード112r3とを備えている。このスキップコネクション112r3は、畳み込みノード112r3は、第2層112r2の出力を1×1のフィルタで畳み込み処理を行う。スキップコネクション112r3は、第1層112r1から出力されたデータを第2層112r2の処理を行わずに第3層112r3に入力する。活性化関数処理ノード112r3は、畳み込みノード112r3で処理されたデータとスキップコネクション112r3から供給されたデータとを加算し、加算後のデータのelu活性化関数処理を行う。スキップコネクション112r3を設けることで、機械学習で生じ得るデータの勾配消失問題を適切に回避させることが可能となる。 This figure shows an outline of a modification of the R converter 112r of the first converter 112. FIG. In FIG. 5, the first transformer 112 comprises a convolution node 112r34 , a skip connection 112r35 and an activation function processing node 112r36 in the third layer 112r3. The skip connection 112r33 and the convolution node 112r34 convolve the output of the second layer 112r2 with a 1×1 filter. The skip connection 112r33 inputs the data output from the first layer 112r1 to the third layer 112r3 without performing the processing of the second layer 112r2. The activation function processing node 112r3_6 adds the data processed by the convolution node 112r3_4 and the data supplied from the skip connection 112r3_3 , and performs the elu activation function processing of the added data. By providing the skip connection 112r33 , it is possible to appropriately avoid the data gradient vanishing problem that may occur in machine learning.

なお図示しないが、G変換器112g、B変換器112bにも同様のスキップコネクションを設け、同様の効果を得ることができる。これは、後述の[発明の実施の形態2]~[発明の実施の形態8]の第一の変換器112でも同様である。 Although not shown, the G converter 112g and the B converter 112b are also provided with similar skip connections to obtain the same effect. This is the same for the first converter 112 of [Embodiment 2 of the invention] to [Embodiment 8 of the invention] described later.

[第二の変換器]
図3及び図6に、この実施の形態1の第二の変換器113の構成を模式的に示す。
[Second converter]
3 and 6 schematically show the configuration of the second converter 113 of the first embodiment.

第二の変換器113は、ノード数が複数たとえば3である第1層1131r,1131g,1131bと、中間処理層として1×1のフィルタの畳み込み(CONV)を行う第2層1132001,1132002,・・・1132255,1132256と、1×1のフィルタの畳み込みにより3チャンネルの出力を得る第3層1133,1133,1133とで構成される。 The second converter 113 includes first layers 1131r, 1131g, and 1131b having a plurality of nodes, for example, three, and second layers 1132 001 and 1132 002 that perform 1×1 filter convolution (CONV) as intermediate processing layers. , 1132 255 , 1132 256 and third layers 1133 1 , 1133 2 , 1133 3 that obtain three-channel outputs by convolution of 1×1 filters.

この実施の形態1において、第二の変換器113の第1層1131r,1131g,1131b、第3層1133,1133,1133のノード数3は、第一の変換器112を構成するR変換器112r、G変換器112g、B変換器112bの数に一致する数である。すなわち、第二の変換器113の第1層1131r,1131g,1131bや第3層1133,1133,1133のノード数は、RGBカラーモデルの色情報であるR,G,Bの3種類の分類数がこれに対応する。)に一致する。 In this Embodiment 1, the number of nodes of the first layers 1131r, 1131g, 1131b and the third layers 1133 1 , 1133 2 , 1133 3 of the second converter 113 is 3. R It is the same number as the converters 112r, G converters 112g, and B converters 112b. That is, the number of nodes in the first layers 1131r, 1131g, and 1131b and the third layers 1133 1 , 1133 2 , and 1133 3 of the second converter 113 is three types of R, G, and B, which are color information of the RGB color model. corresponds to this. ).

なお、第二の変換器113の第1層1131r,1131g,1131bや第3層1133,1133,1133のノード数と、第一の変換器112を構成する各変換器112r,112g,112bの数は必ずしも一致しなくてもよい。また、この実施の形態1において、第二の変換器113の第1層1131r,1131g,1131bと第3層1133,1133,1133とは同じノード数としているが、異なるノード数であってもよい。さらに、第二の変換器113は、第2層1132001,1132002,・・・1132255,1132256が緻密層を有するものに限らず、例えば畳み込み層を有するものでもよい。 Note that the number of nodes of the first layers 1131r, 1131g, 1131b and the third layers 1133 1 , 1133 2 , 1133 3 of the second converter 113 and the number of nodes of the converters 112r, 112g, 112b does not necessarily have to match. Further, in the first embodiment, the first layers 1131r, 1131g, 1131b and the third layers 1133 1 , 1133 2 , 1133 3 of the second converter 113 have the same number of nodes, but they have different numbers of nodes. may Furthermore, the second converter 113 is not limited to the second layers 1132 001 , 1132 002 , .

[逆変換器]
図3に、この実施の形態1の逆変換器115の構成を模式的に示す。
[Inverse converter]
FIG. 3 schematically shows the configuration of the inverse transformer 115 of the first embodiment.

逆変換器115は、第一の逆変換部115a、「第一の非線形処理手段」としての第二の逆変換部115bを備えている。 The inverse transformer 115 includes a first inverse transform section 115a and a second inverse transform section 115b as "first nonlinear processing means".

第一の逆変換部115aは、第二の変換器113と同じ構成を備え、第二の変換器113による変換に対する逆変換を行う(逆変換手順)。具体的には、第一の逆変換部115aは、ノード数が複数たとえば3である第1層115a1,115a1,115a1と、第1層よりもノード数が多い緻密層(DENSE)として構成された第2層115a2001,115a2002,・・・115a2355,115a2256と、第2層115a2001,115a2002,・・・115a2355,115a2256よりも少ない複数のノード数、たとえば第1層115a1,115a1,115a1と同じノード数が3である第3層115a3,115a3,115a3とで構成される。 The first inverse transformation unit 115a has the same configuration as the second transformer 113, and performs inverse transformation of the transformation by the second transformer 113 (inverse transformation procedure). Specifically, the first inverse transform unit 115a uses first layers 115a1 1 , 115a1 2 , and 115a1 3 having a plurality of nodes, for example, three, and a dense layer (DENSE) having a larger number of nodes than the first layer. 115a2 002 , . . . 115a2 002 , 115a2 002 , . The third layers 115a3 1 , 115a3 2 and 115a3 3 having the same number of nodes as the layers 115a1 1 , 115a1 2 and 115a1 3 are formed.

第二の逆変換部115bは、第一の変換器112と同じ構成を備え、第一の変換器112による変換に対する逆変換を行う(逆変換手順)。第二の逆変換部115bは、データに対してチャンネルごとに別個に非線形の変換を行う。ここでのチャンネルとは、第一の変換器112の場合と同様、RGBカラーモデルのカラー画像の画像データにおけるR値、G値、B値のことをいう。 The second inverse transformation unit 115b has the same configuration as the first transformer 112, and performs inverse transformation of the transformation by the first transformer 112 (inverse transformation procedure). The second inverse transform unit 115b performs nonlinear transform on the data separately for each channel. Channels here refer to R, G, and B values in the image data of the color image of the RGB color model, as in the case of the first converter 112 .

具体的には、第二の逆変換部115bは、R変換器112rに対応するR逆変換部115br、G変換器112gに対応するG逆変換部115bg、B変換器112bに対応するB逆変換部115bbを備える。R逆変換部115brは、ノード数が1である第1層115br1と、ノード数が複数(ここでは256)の緻密層として構成された第2層115br2001,115br2002,・・・115br2256と、ノード数が1である第3層115br3とで構成される。G逆変換部115bg、B逆変換部115bbも、R逆変換部115brと同様の第1層115bg1,115bb1、第2層115bg2001,115bg2002,・・・115bg2256と、第3層115bb3,115bb3とを備えた構成である。 Specifically, the second inverse transforming unit 115b includes an R inverse transforming unit 115br corresponding to the R converter 112r, a G inverse transforming unit 115bg corresponding to the G converter 112g, and a B inverse transforming unit corresponding to the B converter 112b. A portion 115bb is provided. The R inverse transform unit 115br includes a first layer 115br1 having one node, and second layers 115br2 001 , 115br2 002 , . , and a third layer 115br3 having one node. 115bg2 001 , 115bg2 002 , . It is a configuration with

第一の逆変換部115aは、第二の変換器113と同様に、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行なう。第二の逆変換部115bのR逆変換部115br、G逆変換部115bg、B逆変換部115bbも、第一の変換器112のR変換器112r、G変換器112g、B変換器112bと同様に、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行う作用を持つ(第一の非線形処理手順)。 Like the second converter 113, the first inverse transform unit 115a performs nonlinear transform on the input to nonlinearly distort the input sample values. The R inverse transforming unit 115br, the G inverse transforming unit 115bg, and the B inverse transforming unit 115bb of the second inverse transforming unit 115b are similar to the R transforming unit 112r, the G transforming unit 112g, and the B transforming unit 112b of the first transforming unit 112. Secondly, it has the effect of performing nonlinear transformation on the input and performing processing that nonlinearly distorts the input sample values (first nonlinear processing procedure).

なお、第一の逆変換部115aは、第二の変換器113と同様に、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行なう。第二の逆変換部115bのR逆変換部115br、G逆変換部115bg、B逆変換部115bbも、入力に対して非線形変換を行ない、入力サンプル値を非線形に歪めるような処理を行なう。 Note that the first inverse transforming unit 115a, like the second transforming unit 113, nonlinearly transforms the input and performs processing to nonlinearly distort the input sample values. The R inverse transforming unit 115br, the G inverse transforming unit 115bg, and the B inverse transforming unit 115bb of the second inverse transforming unit 115b also perform nonlinear transformation on the input, and perform processing to nonlinearly distort the input sample values.

また、前述の[画像処理実行部の機能手段]に記載のとおり、第一の逆変換部115aの処理は第二の変換器113の完全に逆の処理でない場合もあり、第二の逆変換部115bの処理は第一の変換器112の完全に逆の処理でない場合も含まれる。 Further, as described in [Functional Means of Image Processing Execution Unit] above, the processing of the first inverse transforming unit 115a may not be the completely reverse processing of the second transforming unit 113, and the second inverse transforming The processing of the part 115b may not be the completely reverse processing of the first converter 112.

また、情報処理装置1Aによる機械学習の出力データが入力データと同一形式の場合(例えば画像データの入力に対して画像データが出力される場合)は逆変換器115があった方が適切な処理を行える。一方、例えば情報処理装置1Aによる出力データが入力データと相違する形式である場合(例えば画像データの入力に対して画像認識の結果が文字やシンボル等のデータとして出力される場合)は逆変換器115が不要である場合が多い。そのため、この実施の形態1の逆変換器115は、情報処理装置1Aの処理するデータの種類や処理結果の出力態様等によっては情報処理装置1Aに含めない構成とすることも考えられる(後述する[発明の実施の形態4,5,7]等参照)。 Further, when the output data of machine learning by the information processing apparatus 1A is in the same format as the input data (for example, when image data is output in response to the input of image data), the inverse transformer 115 is more suitable for processing. can do On the other hand, for example, when the output data from the information processing apparatus 1A is in a format different from the input data (for example, when the image recognition result is output as data such as characters and symbols for the input of image data), the inverse converter 115 is often unnecessary. Therefore, the inverse transformer 115 of the first embodiment may not be included in the information processing apparatus 1A depending on the type of data processed by the information processing apparatus 1A and the output mode of the processing result (described later). [Embodiment 4, 5, 7], etc.).

[変換テーブル]
この実施の形態1の第一の変換器112を構成するR変換器112r、G変換器112g、B変換器112bは、それぞれ、演算処理において変換テーブル121を用いる。図2に示すように、この変換テーブル121は記憶部12に記憶され、第一の変換器112が記憶部12から取り込んで演算に使用する。
[Conversion table]
The R converter 112r, the G converter 112g, and the B converter 112b, which constitute the first converter 112 of the first embodiment, each use the conversion table 121 in arithmetic processing. As shown in FIG. 2, this conversion table 121 is stored in the storage unit 12, and the first converter 112 fetches it from the storage unit 12 and uses it for calculation.

具体的には、変換テーブル121には、各変換器112r,112b,112gは、それぞれ、第2層1120001,1120002,・・・1120255,1120256のノードの数である256種類の演算パターンが記録されている。各変換器112r,112b,112gは、この変換テーブル121を用いて実際の演算に対応する処理を行う。 Specifically, in the conversion table 121, each of the converters 112r , 112b , and 112g has 256 kinds of operations, which are the number of nodes in the second layer 1120 001 , 1120 002 , . patterns are recorded. Each converter 112r, 112b, 112g uses this conversion table 121 to perform processing corresponding to actual calculation.

このような変換テーブル121を用いた処理が可能となるのは、この実施の形態1の構成におけるR変換器112r、G変換器112g、B変換器112bの演算の種類が事実上ノードの数だけであって演算のパターンの数が少なく、演算のパターンを変換テーブル121として容易に記録可能であるためである。 Such processing using the conversion table 121 is possible because the types of operations of the R converter 112r, the G converter 112g, and the B converter 112b in the configuration of the first embodiment are practically as many as the number of nodes. This is because the number of calculation patterns is small and the calculation patterns can be easily recorded as the conversion table 121 .

第一の変換器112や第二の変換器113では、畳み込みの演算(二項演算)が必要である。そして、第二の変換器113では第2層のノードに入力される値のバリエーションが非常に多く、それらのバリエーションを網羅したテーブルを作成することは困難である。これに対し、第一の変換器112を構成するR変換器112r、G変換器112g、B変換器112bや、第二の逆変換部115bを構成するR逆変換部115br、G逆変換部115bg、B逆変換部115bbは、第1層112r1,112g1,112b1のノードがそれぞれ1つなので、第2層1120001,1120002,・・・1120255,1120256で演算を行う元データが1つである。そのため、第2層1120001,1120002,・・・1120255,1120256における各ノードのバリエーションは少ない。そのため、第2層1120001,1120002,・・・1120255,1120256の各ノードの演算結果を容易にテーブル化できる。これにより、R変換器112r、G変換器112g、B変換器112bの計算コストをほぼゼロにすることができる。なお、逆変換部115br、115bg、115bbでテーブルを利用する場合には逆変換部の出力を例えば256階調とし、各階調に対応した数値と出力値とをテーブルに設定し、設定された数値に一番近いテーブルの値を利用したり、各階調に対応した数値の範囲とその数値範囲の場合の出力値とをテーブルに設定し、入力データの値がどのテーブル値に含まれるかを検索し、出力値を得るようにしても良い。 The first converter 112 and the second converter 113 require a convolution operation (binary operation). In the second converter 113, there are many variations in the values that are input to the nodes of the second layer, and it is difficult to create a table that covers all of these variations. On the other hand, the R converter 112r, the G converter 112g, and the B converter 112b that form the first converter 112, and the R inverse converter 115br and the G inverse converter 115bg that form the second inverse converter 115b. , 1120 002 , . is. Therefore, variations of each node in the second layer 1120 001 , 1120 002 , . . . 1120 255 , 1120 256 are small. Therefore, the calculation results of the nodes of the second layer 1120 001 , 1120 002 , . Thereby, the calculation cost of the R converter 112r, the G converter 112g, and the B converter 112b can be almost zero. When using a table in the inverse transforming units 115br, 115bg, and 115bb, the output of the inverse transforming unit is set to, for example, 256 gradations, and the numerical value and the output value corresponding to each gradation are set in the table, and the set numerical value is Use the table value closest to , or set the numerical range corresponding to each gradation and the output value for that numerical range in the table, and search in which table value the input data value is included. and the output value may be obtained.

この実施の形態1におけるR変換器112r、G変換器112g、B変換器112b、の演算処理を変換テーブル121を用いて行うことにより、簡易な構成で確実に演算処理の処理負荷が過大になることを抑止し、処理を行える情報処理装置1Aを提供することが可能となる。また、CNN114における計算資源が少ない場合であっても、僅かな計算資源によって構築できる第一の変換器112を用いることで、機械学習の精度を高めることができる。 By performing arithmetic processing of the R converter 112r, G converter 112g, and B converter 112b in Embodiment 1 using the conversion table 121, the processing load of the arithmetic processing becomes excessive with a simple configuration. It is possible to provide an information processing apparatus 1A capable of suppressing such a phenomenon and performing processing. Moreover, even if the CNN 114 has few computational resources, the accuracy of machine learning can be improved by using the first converter 112 that can be constructed with few computational resources.

特に、この実施の形態1の情報処理装置1Aの機械学習の用途が、たとえば超解像(解像度の低い画像データを高解像度化するもの。)などのように処理負荷の重いものである場合には、CNN114の処理全体における畳み込みの演算に要する計算コストの占める比率は無視できる程に低い。しかし、機械学習の用途が画像の認識のような処理負荷の軽いものである場合には、CNN114の処理全体の中の畳み込みの演算に要する計算コストの占める比率は高い。そのため、CNN114における演算が軽装なものにおいては、変換テーブル121を用いた計算コストの低減は特に効果的であるといえる。 In particular, when the machine learning application of the information processing apparatus 1A of the first embodiment has a heavy processing load, such as super-resolution (improving low-resolution image data to high resolution). , the ratio of the computational cost required for the convolution operation in the entire processing of the CNN 114 is negligibly low. However, when the application of machine learning is light processing load such as image recognition, the ratio of the computational cost required for the convolution operation in the overall processing of the CNN 114 is high. Therefore, it can be said that the reduction of the calculation cost using the conversion table 121 is particularly effective when the computation in the CNN 114 is light.

[CNNの構成と処理手順]
図7は、この実施の形態1の情報処理装置1AのCNN114の構成と処理手順(データ処理手順)を模式的に示すブロック図並びにタイムチャートである。
[Configuration and processing procedure of CNN]
FIG. 7 is a block diagram and a time chart schematically showing the configuration and processing procedure (data processing procedure) of CNN 114 of information processing apparatus 1A of the first embodiment.

図7に示すとおり、CNN114は、データが入力される入力部1140、データが出力される出力部1147の他に、畳み込み層とプーリング層からなる複数の階層、ここでは第1層1141、第2層1142、第3層1143、第4層1144、第5層1145の5層の階層と、1つの全結合層1146を有している。これらの階層は、CNN114の構成と処理の態様と模式的に示すものである。なお、畳み込み層とプーリング層の階層は5層よりも多くても少なくてもよい。 As shown in FIG. 7, the CNN 114 includes an input unit 1140 to which data is input, an output unit 1147 to which data is output, and a plurality of layers consisting of a convolution layer and a pooling layer. It has five layers of layer 1142 , third layer 1143 , fourth layer 1144 and fifth layer 1145 and one fully connected layer 1146 . These hierarchies are schematic representations of CNN 114 configuration and processing aspects. Note that the number of convolution layers and pooling layers may be more or less than five layers.

この実施の形態1のCNN114においては、まず第1層1141において、畳み込み層1141でフィルタ(図示せず)を用いた畳み込み処理が行われると、画像データの特徴(画像データに表示された画像や図形の特徴)が抽出された、元の画像データよりも2次元方向の大きさが縮小された画像データがフィルタの枚数分生成される。プーリング層1141では、畳み込み層で生成された画像データの2次元方向の大きさが縮小された画像データが生成される。 In the CNN 114 of Embodiment 1, first, in the first layer 1141, when convolution processing using a filter (not shown) is performed in the convolution layer 11411 , the features of the image data (the image displayed in the image data and graphic features) are extracted, and image data whose size in the two-dimensional direction is reduced from that of the original image data are generated for the number of filters. The pooling layer 11412 generates image data in which the size of the image data generated in the convolutional layer is reduced in the two-dimensional direction.

図7では、第1層1141の畳み込み層1141で64種類のフィルタを用いた64枚の畳み込みデータを生成し、プーリング層1141でその64種類の畳み込みデータの2次元方向の大きさが縮小された新たな画像データが生成される。第2層1142では、畳み込み層1142において、第1層1141で生成された64種類の画像データに128種類のフィルタを用いた畳み込み処理を行って128種類の畳み込みデータを生成し、プーリング層1142でその128種類の畳み込みデータの2次元方向の大きさが縮小された新たな画像データが生成される。 In FIG. 7, the convolution layer 1141 1 of the first layer 1141 generates 64 convolution data using 64 types of filters, and the pooling layer 1141 2 reduces the two-dimensional size of the 64 types of convolution data. new image data is generated. In the second layer 1142, the convolution layer 1142-1 performs convolution processing using 128 types of filters on the 64 types of image data generated in the first layer 1141 to generate 128 types of convolution data. 2 , new image data is generated by reducing the two-dimensional size of the 128 types of convolution data.

以下、第3層1143、第4層1144、第5層1145でも同様の処理が行われる。第3層1143では畳み込み層1143、プーリング層1143の処理により256種類の畳み込みデータと新たな画像データが生成される。第4層1144、第5層1145では畳み込み層1144,1145、プーリング層1144,1145の処理により512種類の畳み込みデータと新たな画像データが生成される。 The same processing is performed for the third layer 1143, the fourth layer 1144, and the fifth layer 1145 thereafter. In the third layer 1143, 256 kinds of convolutional data and new image data are generated by the processing of the convolutional layer 1143 1 and the pooling layer 1143 2 . In the fourth layer 1144 and the fifth layer 1145, 512 types of convolution data and new image data are generated by processing in convolution layers 1144 1 and 1145 1 and pooling layers 1144 2 and 1145 2 .

全結合層1146では、第1層1141から第5層1145までの処理が行われたデータを1次データ変換し、それぞれの画像データに表示された画像の特徴を認識する。全結合層1146では、ReLU(Rectified Linear Unit)の活性化関数処理と、Batch Normalizationを用いた処理が行われるようにしてもよい。ただし、全結合層1146では、ReLU以外のどのような活性化関数が用いられた処理が行われてもよい。 The fully connected layer 1146 converts the data processed by the first layer 1141 to the fifth layer 1145 into primary data, and recognizes the features of the image displayed in each image data. The fully connected layer 1146 may perform ReLU (Rectified Linear Unit) activation function processing and processing using batch normalization. However, the fully connected layer 1146 may perform processing using any activation function other than ReLU.

[情報処理装置の学習手順]
この実施の形態1の情報処理装置1Aは、画像処理実行部101が、第一の変換器112、第二の変換器113、及び逆変換器115を、CNN114を含むCNNの一部として用いて学習を行なう。具体的には画像処理実行部101は学習時には、学習データをCNN114全体に入力して得られる出力データと、既知の学習データの分類(出力)との誤差を最小にする処理を実行し、第一の変換器112、第二の変換器113、又は逆変換器115における重みを更新する。この学習処理により得られるCNN114におけるパラメータと、第一の変換器112、第二の変換器113における重みとは、対応するパラメータとして記憶部12に記憶される。画像処理実行部101は、学習済みのCNN114を使用する場合には、CNN114を定義する定義情報及び記憶部12に記憶してあるパラメータと、対応する第一の変換器112及び第二の変換器113の重みとを用い、入力データを第一の変換器112、第二の変換器113に入力した後のデータをCNN114へ入力して用いる。逆変換器115を用いる場合も学習により得られる学習済みのCNN114を定義する定義情報及びパラメータと対応する重みを使用する。
[Learning Procedure of Information Processing Device]
In the information processing apparatus 1A of the first embodiment, the image processing execution unit 101 uses the first converter 112, the second converter 113, and the inverse converter 115 as part of the CNN including the CNN 114. do the learning. Specifically, during learning, the image processing execution unit 101 performs processing to minimize an error between output data obtained by inputting learning data to the entire CNN 114 and classification (output) of known learning data. The weights in one transformer 112, second transformer 113, or inverse transformer 115 are updated. The parameters in the CNN 114 and the weights in the first converter 112 and the second converter 113 obtained by this learning process are stored in the storage unit 12 as corresponding parameters. When using the trained CNN 114, the image processing execution unit 101 stores the definition information defining the CNN 114 and the parameters stored in the storage unit 12, and the corresponding first converter 112 and second converter 113 weights are used, and the input data is input to the first converter 112 and the second converter 113, and then the data is input to the CNN 114 and used. When the inverse transformer 115 is used, definition information and parameters that define the learned CNN 114 obtained by learning and corresponding weights are used.

第一の変換器112、第二の変換器113を、CNN114が畳み込みによる特徴抽出を行う前段に入力することによって、抽出されるべき画像データの特徴を更に強調させることができる。これにより、CNN114における学習効率及び学習精度が向上することが期待される。 By inputting the first converter 112 and the second converter 113 before the CNN 114 performs feature extraction by convolution, the features of the image data to be extracted can be further emphasized. This is expected to improve the learning efficiency and learning accuracy in the CNN 114 .

[その他の構成]
なお、この実施の形態1における情報処理装置1Aのハードウェア構成のうち、通信部13、表示部14、操作部15、及び読取部16は必須ではない。通信部13は、例えば記憶部12に記憶される画像処理プログラム1P、CNNライブラリ1L及び変換器ライブラリ2Lを外部サーバ装置(図示せず)等から取得する場合には、それらを一旦ダウンロードした後は使用しなくてもよい。同様に、読取部16も、画像処理プログラム1P、CNNライブラリ1L及び変換器ライブラリ2Lを外部の記憶媒体(図示せず)から読み出して取得した後は使用しない構成としてもよい。また、通信部13及び読取部16は、USB(Universal Serial Bus)等のシリアル通信を用いた同一デバイスであってもよい。
[Other configurations]
Note that the communication unit 13, the display unit 14, the operation unit 15, and the reading unit 16 are not essential in the hardware configuration of the information processing apparatus 1A according to the first embodiment. For example, when the communication unit 13 acquires the image processing program 1P, the CNN library 1L, and the converter library 2L stored in the storage unit 12 from an external server device (not shown) or the like, after downloading them once, May not be used. Similarly, the reading unit 16 may be configured not to be used after the image processing program 1P, the CNN library 1L, and the converter library 2L are read from an external storage medium (not shown) and acquired. Also, the communication unit 13 and the reading unit 16 may be the same device using serial communication such as USB (Universal Serial Bus).

また、情報処理装置1Aの構成をネットワーク(図示せず)上に分散させた構成としてもよい。たとえば、上述のCNN114、第一の変換器112、第二の変換器113、及び逆変換器115としての機能をネットワーク(図示せず)上のWebサーバ(図示せず)上に設け、表示部及び通信部を備えるWebクライアント装置(図示せず)からこれらの機能が利用できる構成としてもよい。この場合、通信部13は、Webクライアント装置(図示せず)からのリクエストを受信し、処理結果を送信するために使用される。 Also, the configuration of the information processing apparatus 1A may be distributed over a network (not shown). For example, the above-mentioned CNN 114, the first converter 112, the second converter 113, and the functions as the inverse converter 115 are provided on a Web server (not shown) on a network (not shown), and the display unit and a web client device (not shown) having a communication unit to use these functions. In this case, the communication unit 13 is used to receive a request from a web client device (not shown) and transmit the processing result.

なお学習時に用いる誤差は、二乗誤差、絶対値誤差、又は交差エントロピー誤差等、入出力されるデータ、学習目的に応じて適切な関数を用いるとよい。例えば、出力が分類である場合、交差エントロピー誤差を用いる。誤差関数を用いることに拘わらずその他の基準を用いるなど柔軟な運用が適用できる。この誤差関数自体に外部のCNN(図示せず)を用いて評価を行なってもよい。 As for the error used during learning, an appropriate function may be used according to the input/output data and the purpose of learning, such as a squared error, an absolute value error, or a cross entropy error. For example, if the output is a classification, use the cross-entropy error. Flexible operation such as using other criteria can be applied regardless of using the error function. The error function itself may be evaluated using an external CNN (not shown).

[作用効果]
この実施の形態1の情報処理装置1Aは、入力されたデータや信号に非線形の補正を行う場合に、適切な補正を容易に行うことが可能となる。
[Effect]
The information processing apparatus 1A of the first embodiment can easily perform appropriate correction when performing non-linear correction on input data or signals.

これは、この実施の形態1の情報処理装置1Aは、CNN114の前後に第二の変換器113、逆変換器115を設け、情報処理装置1Aに入力されたデータを非線形に空間変換するのに加え、第二の変換器113の前段に第一の変換器112を設け、画像データを構成するRデータ、Gデータ、Bデータについて個々に非線形処理を行うことで、入力された画像データの特徴を増加させ得ることによるものである。 This is because the information processing apparatus 1A of the first embodiment is provided with the second transformer 113 and the inverse transformer 115 before and after the CNN 114, and non-linearly spatially transforms the data input to the information processing apparatus 1A. In addition, the first converter 112 is provided in the preceding stage of the second converter 113, and by individually performing non-linear processing on the R data, G data, and B data constituting the image data, the features of the input image data are obtained. can be increased.

このように構成することで、この実施の形態1の情報処理装置1Aは、第一の変換器112の非線形変換において機械学習の特徴を増加させ、機械学習の認識率を高めたり、あるいは、高精細な画像形成を行ったりすることが可能となる。 With this configuration, the information processing apparatus 1A of the first embodiment increases the features of machine learning in the non-linear conversion of the first converter 112, increases the machine learning recognition rate, or increases the recognition rate of the machine learning. It becomes possible to perform fine image formation.

この実施の形態1の情報処理装置1Aの処理は、例えば、RGB色空間のカラー画像データにガンマ補正のような処理を行う場合が考えられる。 The processing of the information processing apparatus 1A of the first embodiment may be, for example, a case of performing processing such as gamma correction on color image data in the RGB color space.

たとえば、ピクセル毎にR、G、Bのパラメータを有する画像データについて、Rの値、Gの値、Bの値の少なくとも何れか一つ、例えばRの値にガンマ補正のような非線形変換の補正(個々の色空間変換のような補正)を行うとともに、RGB全体の値にガンマ補正のような非線形変換の補正を行う場合、第一の変換器112を構成する変換器の何れか一つ、たとえばR変換器112rを用いて画像データ中のRの値を非線形変換するとともに、第二の変換器113を用いてRGBの値全体を非線形変換することができる。 For example, for image data having R, G, and B parameters for each pixel, at least one of the R value, G value, and B value, for example, non-linear transformation correction such as gamma correction to the R value (corrections such as individual color space conversions) and non-linear conversion corrections such as gamma corrections to the overall RGB values, any one of the converters that make up the first converter 112; For example, the R converter 112r can be used to nonlinearly transform the R values in the image data, and the second converter 113 can be used to nonlinearly transform the entire RGB values.

このような処理を行うことで、画像データを構成する複数のパラメータのうちの一部のパラメータ(たとえばRGBのうちのRのパラメータ)について非線形変換等の補正を行うと共に、それら複数のパラメータ全てについての非線形変換等の補正を行うことが可能となる。これにより、画像データ等のデータや信号について多面的で的確な補正を簡単に行うことが可能となる。 By performing such processing, correction such as non-linear transformation is performed on some parameters (for example, the R parameter of RGB) among the plurality of parameters constituting the image data, and all of the plurality of parameters are corrected. It becomes possible to perform correction such as non-linear conversion of . This makes it possible to easily perform multifaceted and accurate correction of data such as image data and signals.

特に、複数のパラメータを有するデータや信号のうちの特定のパラメータのデータについての非線形変換等の変換と、全てのパラメータのデータについての非線形変換等の変換を順次行うことで良好な変換結果を得たい場合に、この実施の形態1の構成は有効性が高いと考えられる。 In particular, good conversion results can be obtained by sequentially performing conversion such as nonlinear conversion for data having a plurality of parameters or data of specific parameters among signals and conversion such as nonlinear conversion for data of all parameters. It is considered that the configuration of the first embodiment is highly effective in the case of

なお、CNN114内の畳み込み層やプーリング層の数を増加させたり、畳み込みのチャンネル数(convolution数)を増加させ、CNN114内の処理負荷を高くした場合には、第一の変換器112を用いた(Rデータ、Gデータ、Bデータについて個々に行う非線形処理のような)チャンネル毎の非線形処理による機械学習の認識率向上が期待値並みに高くならない傾向にある。それゆえ、この実施の形態1の情報処理装置1Aは、CNN114内の演算が軽装な場合に高い効果を奏すると考えられる。すなわち、この実施の形態1の情報処理装置1Aは、CNN114における計算資源が少ない場合であっても、僅かな計算資源で構築できる第一の変換器112を用いることで、機械学習の精度を向上させることができる。 The number of convolution layers and pooling layers in CNN 114 is increased, the number of convolution channels (convolution number) is increased, and when the processing load in CNN 114 is increased, the first converter 112 is used. There is a tendency that the improvement of machine learning recognition rate by nonlinear processing for each channel (such as nonlinear processing performed individually for R data, G data, and B data) does not reach the level expected. Therefore, it is considered that the information processing apparatus 1A of the first embodiment is highly effective when the computation in the CNN 114 is light. That is, the information processing apparatus 1A of the first embodiment improves the accuracy of machine learning by using the first converter 112 that can be constructed with few computational resources even if the computational resources in the CNN 114 are small. can be made

この実施の形態1の情報処理装置1Aは、第一の変換器112がR変換器112r、G変換器112g、B変換器112bの少なくとも3層の処理群からなる処理層群を備えることや、第二の逆変換部115bがR逆変換部115br、G逆変換部115bg、B逆変換部115bbの少なくとも3層の処理層からなる処理層群を備えること、そして、そそれらの処理層群は、ノード数が1の入力層と、該入力層の後段に設けられたノード数が複数の畳み込み層又は緻密層である第2層と、該第2層の後段に設けられたノード数が1の畳み込み層又は緻密層である第3層とを含む処理層群として、畳み込みニューラルネットワークへ入力するデータのチャンネル(R,G,B3つのカラーチャンネル)毎に設けられていることにより、複数のチャンネル、複数のパラメータを有するデータについて、チャンネル毎、パラメータ毎のデータの非線形処理を行うことができ、機械学習の精度を一層向上させることができる。 In the information processing apparatus 1A of the first embodiment, the first converter 112 is provided with a processing layer group including at least three layers of processing groups of the R converter 112r, the G converter 112g, and the B converter 112b, The second inverse transforming unit 115b has a processing layer group consisting of at least three processing layers of an R inverse transforming unit 115br, a G inverse transforming unit 115bg, and a B inverse transforming unit 115bb, and these processing layer groups are , an input layer with one node, a second layer that is a convolutional layer or dense layer with a plurality of nodes provided after the input layer, and a node number of one provided after the second layer. As a processing layer group including the third layer, which is the convolutional layer or the dense layer, is provided for each channel of data (R, G, B three color channels) to be input to the convolutional neural network, so that a plurality of channels For data having a plurality of parameters, nonlinear processing can be performed for each channel and for each parameter, and the accuracy of machine learning can be further improved.

この実施の形態1の情報処理装置1Aは、第一の変換器112や第二の逆変換部115bの第2層が複数層からなることにより、R,G,Bのカラーチャンネルのような多チャンネルのデータについて機械学習の精度を一層向上させることができる。 In the information processing apparatus 1A according to the first embodiment, the second layers of the first converter 112 and the second inverse conversion unit 115b are composed of a plurality of layers, so that multi-color channels such as R, G, and B color channels can be processed. It is possible to further improve the accuracy of machine learning for channel data.

この実施の形態1の情報処理装置1Aは、第二の変換器113を用いることで、R値、G値、B値のような複数のパラメータを有するデータを、それらの複数のパラメータ(RGB3値全ての場合も、例えばRGB3値のうちのR値とG値の2値のような場合も含む)について非線形変換を行う処理を併せて行うことで、バリエーションを持たせた非線形処理を容易に行い、機械学習の精度を一層向上させることができる。 Information processing apparatus 1A of the first embodiment uses second converter 113 to convert data having a plurality of parameters such as R value, G value, and B value into a plurality of parameters (RGB three values). In all cases, for example, the R value and the G value of the three RGB values) are also processed to perform nonlinear conversion, so that nonlinear processing with variations can be easily performed. , the accuracy of machine learning can be further improved.

この実施の形態1の情報処理装置1Aは、第一の変換器112と第二の変換器113とを複合させて非線形の変換を行うことにより、バリエーションを持たせた非線形処理を容易に行うことができる。 The information processing apparatus 1A of the first embodiment combines the first converter 112 and the second converter 113 to perform nonlinear conversion, thereby easily performing nonlinear processing with variations. can be done.

この実施の形態1の情報処理装置1Aは、変換テーブル121を用いて非線形の変換を行うことにより、処理負荷を軽減させつつ精度の高い機械学習を行うことができる。 The information processing apparatus 1A of the first embodiment performs non-linear conversion using the conversion table 121, thereby reducing the processing load and performing highly accurate machine learning.

この実施の形態1の情報処理装置1Aは、畳み込み処理の結果に基づいて畳み込みニューラルネットワークにおけるパラメータを学習する画像処理実行部101を備えたことにより、機械学習に適したデータを用いた畳み込み処理の結果を用いて、精度の高い機械学習を行うことができる。 The information processing apparatus 1A of the first embodiment is provided with the image processing execution unit 101 that learns the parameters in the convolutional neural network based on the results of the convolution processing. The results can be used to perform highly accurate machine learning.

[変形例]
なお、この実施の形態1の情報処理装置1Aは、下記に示す変形例のように構成することもできる。これらの構成をとることにより、データの内容や処理の内容に応じた適切な態様で、精度の高い機械学習を行うことが可能となる。
[Modification]
Note that the information processing apparatus 1A of the first embodiment can also be configured as a modified example shown below. By adopting these configurations, it is possible to perform highly accurate machine learning in an appropriate mode according to the content of data and the content of processing.

(変形例1)
CNN114の前段に設けられる第一の変換器112や第二の変換器113の出力側のチャンネル数を、入力側のチャンネル数以上とすることができる。例えば、第1の変換器のR変換器112rの出力層で2チャンネル以上の出力を得るようにしても良い。G変換器112g、B変換器112bも同様の構成とすることができる。これにより、第一の変換器112に入力されたRGBの3チャンネルのデータは4チャンネル以上のデータとして出力される。
(Modification 1)
The number of channels on the output side of the first converter 112 and the second converter 113 provided in the preceding stage of the CNN 114 can be made equal to or greater than the number of channels on the input side. For example, outputs of two or more channels may be obtained in the output layer of the R converter 112r of the first converter. The G converter 112g and the B converter 112b can also have the same configuration. As a result, the RGB 3-channel data input to the first converter 112 is output as 4-channel or more data.

(変形例2)
CNN114の前段に設けられる第一の変換器112や第二の変換器113の途中のチャンネル数を、入力側のチャンネル数以上とすることができる。例えば、R変換器112rの第1層112r1から、図示された第2層1120001,・・・1120256とは別系統の第2層(図示せず)にもデータを送る構成とできる。G変換器112g、B変換器112bも同様の構成とすることができる。これにより、入力されたRGBの3チャンネルのデータを第1の変換器112内で4チャンネル以上のデータとして処理を行える。
(Modification 2)
The number of channels in the middle of the first converter 112 and the second converter 113 provided in the preceding stage of the CNN 114 can be made equal to or greater than the number of channels on the input side. For example, data can be sent from the first layer 112r1 of the R converter 112r to a second layer (not shown) in a system different from the illustrated second layer 1120 001 , . . . 1120 256 . The G converter 112g and the B converter 112b can also have the same configuration. As a result, the input RGB 3-channel data can be processed as 4-channel or more data in the first converter 112 .

(変形例3)
CNN114の前段に設けられる第一の変換器112や第二の変換器113の中間処理層を多層化することができる。例えば第一の変換器112のR変換器112rの中間処理層を、第2層1120001,・・・1120256の後や前に第2層α、第2層βのような構成(第2層の個々のノードの前後に連続した別のノード)を設けた構成とすることができる。G変換器112g、B変換器112bも同様の構成とすることができる。
(Modification 3)
The intermediate processing layers of the first converter 112 and the second converter 113 provided in the preceding stage of the CNN 114 can be multi-layered. For example, the intermediate processing layers of the R converter 112r of the first converter 112 are arranged after or before the second layers 1120 001 , . Another continuous node can be provided before and after each node of the layer. The G converter 112g and the B converter 112b can also have the same configuration.

(変形例4)
CNN114の後段に設けられる逆変換器115の入力側のチャンネル数を、出力側のチャンネル数以上とすることができる。例えば、逆変換器115に入力されるデータを4チャンネル以上とし、出力されるデータをRGBの3チャンネルとすることができる。
(Modification 4)
The number of channels on the input side of the inverter 115 provided after the CNN 114 can be made greater than the number of channels on the output side. For example, the data input to the inverse transformer 115 can be 4 channels or more, and the output data can be 3 channels of RGB.

(変形例5)
CNN114の後段に設けられる逆変換器115の中間処理層のチャンネル数を、入力側のチャンネル数以上とすることができる(上記(変形例2)の構成を逆変換器115の第一の逆変換部115aや第二の逆変換部115bに適用した構成となる。)。
(Modification 5)
The number of channels in the intermediate processing layer of the inverse transformer 115 provided in the subsequent stage of the CNN 114 can be made greater than or equal to the number of channels on the input side (the configuration of the above (Modification 2) is the first inverse transform of the inverse transformer 115 The configuration is applied to the unit 115a and the second inverse transform unit 115b.).

(変形例6)
CNN114の後段に設けられる逆変換器115の中間処理層を多層化することができる。(上記(変形例3)の構成を逆変換器115の第一の逆変換部115aや第二の逆変換部115bに適用した構成となる。)。
(Modification 6)
The intermediate processing layers of the inverse transformer 115 provided after the CNN 114 can be multi-layered. (The configuration described above (Modification 3) is applied to the first inverse transform unit 115a and the second inverse transform unit 115b of the inverse transform unit 115.).

(変形例7)
第一の変換器112のR変換器112r、G変換器112g、B変換器112bの少なくとも何れか一つを、1チャンネル入力1チャンネル出力ではなく、多チャンネル入力や、多チャンネル出力とすることもできる。例えばR変換器112rの第1層112r1、第3層112r3を2つ以上のノードとして構成することもできる。このように構成しても、R変換器112r、G変換器112g、B変換器112bがそれぞれ独立したデータ処理を行う構成が維持されていれば図1に示す第一の変換器112の機能は実現できる。ただし、入力側(第1層112r1,112g1,112b1)が1チャンネルの場合のみ、変換テーブル121を適用した演算が事実上可能である。
(Modification 7)
At least one of the R converter 112r, G converter 112g, and B converter 112b of the first converter 112 may be multi-channel input or multi-channel output instead of single-channel input/single-channel output. can. For example, the first layer 112r1 and the third layer 112r3 of the R converter 112r can be configured as two or more nodes. Even with this configuration, the function of the first converter 112 shown in FIG. realizable. However, only when the input side (first layers 112r1, 112g1, 112b1) is one channel, calculations using the conversion table 121 are practically possible.

(変形例8)
第二の変換器113は、入力側のチャンネルと出力側のチャンネルが、元のチャンネル数と同一でなくてもよい。たとえば、第二の変換器113の第1層1131r,1131g,1131bや、第3層1133,1133,1133は、チャンネル数が3つよりも多くても少なくてもよい。即ち、入力部111に入力された画像データのRGB3チャンネルよりもそれらのチャンネル数が多くても少なくてもよい。
(Modification 8)
The number of channels on the input side and the number of channels on the output side of the second converter 113 may not be the same as the original number of channels. For example, the first layers 1131r, 1131g, 1131b and the third layers 11331 , 11332 , 11333 of the second transducer 113 may have more or less than three channels. That is, the number of channels may be greater or less than the three RGB channels of the image data input to the input unit 111 .

(変型例9)
第一の変換器112の第2層や第二の逆変換部115bの第2層は、1層であってもよい。このように構成することで、処理負荷を軽減させたり処理速度を向上させることが可能となる。
(Modification 9)
The second layer of the first converter 112 and the second layer of the second inverse converter 115b may be one layer. By configuring in this way, it is possible to reduce the processing load and improve the processing speed.

(変形例10)
図5に示したように第一の変換器112に適用したスキップコネクションを逆変換器115で適用しても良い。またスキップコネクションのストリーム数は1に限るものではなく、各中間処理層の一の処理出力をスキップコネクションにより出力し、該出力と中間処理層の他の処理出力と合成するストリームと、入力層からのデータと前記中間処理層出力と合成するストリームなど、複数のストリームで構成しても良い。
(Modification 10)
The skip connection applied to the first transformer 112 as shown in FIG. Also, the number of streams of the skip connection is not limited to 1. One processing output of each intermediate processing layer is output by the skip connection, and a stream for synthesizing this output with the other processing output of the intermediate processing layer, and may be composed of a plurality of streams such as a stream for synthesizing the data and the output of the intermediate processing layer.

なお、上記(変形例1)~(変形例10)の構成は、以下の[発明の実施の形態2]~[発明の実施の形態8]にも適用可能である。 The configurations of (Modification 1) to (Modification 10) are also applicable to the following [Embodiment 2 of the invention] to [Embodiment 8 of the invention].

[発明の実施の形態2]
図8は、この発明の実施の形態2の情報処理装置1Bの第一の変換器112の構成を示す機能ブロック図である。
[Embodiment 2 of the invention]
FIG. 8 is a functional block diagram showing the configuration of first converter 112 of information processing apparatus 1B according to Embodiment 2 of the present invention.

この実施の形態2の情報処理装置1Bは、計算量を増やしてでも精度を高めたい場合に適用される。 The information processing apparatus 1B of the second embodiment is applied when it is desired to increase the accuracy even if the amount of calculation is increased.

具体的には、この実施の形態2の情報処理装置1Bは、第一の変換器112、第二の変換器113、CNN114、及び逆変換器115の基本的な構成は実施の形態1の情報処理装置1Aと同じだが(図2参照)、それぞれの第2層1120001,1120002,・・・1120511,1120512のノード数が512ノードとなっている。 Specifically, in the information processing apparatus 1B of the second embodiment, the basic configuration of the first converter 112, the second converter 113, the CNN 114, and the inverse converter 115 is the information of the first embodiment. Although it is the same as the processing device 1A ( see FIG . 2), the number of nodes in each of the second layers 1120 001 , 1120 002 , .

なお、情報処理装置1Bの第2層1120001,1120002,・・・1120511,1120512のノード数は、適宜増減可能である。これは、情報処理装置1Bの第一の変換器112、逆変換器115の第一の逆変換部115a、第二の逆変換部115b(図3参照)においても同じである。また、このようなノード数の調整は、この実施の形態2以外のこの発明の全ての実施の形態にも同様に適用できる。 The number of nodes in the second layer 1120 001 , 1120 002 , . The same applies to the first converter 112 of the information processing device 1B, the first inverse converter 115a, and the second inverse converter 115b of the inverse converter 115 (see FIG. 3). Also, such adjustment of the number of nodes can be similarly applied to all the embodiments of the present invention other than the second embodiment.

この実施の形態2においては、入力されたデータを精度良く処理することが可能となる。 In the second embodiment, input data can be processed with high accuracy.

[発明の実施の形態3]
図9は、この発明の実施の形態3の情報処理装置1Cの画像処理部11の一部を示す機能ブロック図である。この情報処理装置1Cの画像処理部11は、第二の変換器113が存在しないこと以外は実施の形態1の情報処理装置1Aと同じ構成である。この場合、逆変換器115は第二の変換器113に対応する第一の逆変換部115aを設けない構成にもできる。
[Embodiment 3 of the invention]
FIG. 9 is a functional block diagram showing part of the image processing section 11 of the information processing apparatus 1C according to Embodiment 3 of the present invention. The image processing unit 11 of this information processing apparatus 1C has the same configuration as that of the information processing apparatus 1A of the first embodiment except that the second converter 113 does not exist. In this case, the inverse converter 115 can be configured without the first inverse converter 115 a corresponding to the second converter 113 .

このような構成とすることにより、複数のパラメータを一度に用いた空間変換で非線形処理を行う必要のない場合において、適切な処理を行うことが可能となる。 With such a configuration, it is possible to perform appropriate processing when there is no need to perform nonlinear processing by spatial transformation using a plurality of parameters at once.

[発明の実施の形態4]
図10は、この発明の実施の形態4の情報処理装置1Dの画像処理部11の一部を示す機能ブロック図である。この情報処理装置1Dの画像処理部11は、逆変換器115が存在しないこと以外は実施の形態1の情報処理装置1Aと同じ構成である。
[Embodiment 4 of the invention]
FIG. 10 is a functional block diagram showing part of the image processing section 11 of the information processing apparatus 1D according to Embodiment 4 of the present invention. The image processing unit 11 of this information processing apparatus 1D has the same configuration as that of the information processing apparatus 1A of the first embodiment except that the inverse transformer 115 is not present.

このような構成は出力データが非線形変換処理を必要としない場合に用いられる。 Such a configuration is used when the output data does not require nonlinear transformation processing.

なお、この実施の形態4の情報処理装置1Dの変形例として、実施の形態1の情報処理装置1AのR逆変換部115br、G逆変換部115bg、B逆変換部115bbのうちの1つないし2つが存在しない構成とすることもできる。 As a modification of the information processing apparatus 1D of the fourth embodiment, one or more of the R inverse transforming section 115br, the G inverse transforming section 115bg, and the B inverse transforming section 115bb of the information processing apparatus 1A of the first embodiment. A configuration in which the two do not exist is also possible.

[発明の実施の形態5]
図11は、この実施の形態5の情報処理装置1Eの画像処理部11の一部を示す機能ブロック図である。この情報処理装置1Eの画像処理部11は、第二の変換器113と逆変換器115が存在しないこと以外は実施の形態1の情報処理装置1Aと同じである。
[Embodiment 5 of the invention]
FIG. 11 is a functional block diagram showing part of the image processing section 11 of the information processing apparatus 1E of the fifth embodiment. The image processing unit 11 of this information processing apparatus 1E is the same as the information processing apparatus 1A of Embodiment 1 except that the second converter 113 and the inverse converter 115 are not present.

このような構成は出力データが非線形変換処理を必要としない場合に用いられる。 Such a configuration is used when the output data does not require nonlinear transformation processing.

[発明の実施の形態6]
図12は、この実施の形態6の情報処理装置1Fの画像処理部11の一部を示す機能ブロック図である。この情報処理装置1Fの画像処理部11は、第一の変換器112と第二の変換器113が逆に接続されている点が実施の形態1の情報処理装置1Aと相違する。なお、図示しないが、逆変換器115を構成する第一の逆変換部115aと第二の逆変換部115bが実施の形態1の情報処理装置1Aと逆に接続されていてもよい。
[Embodiment 6 of the invention]
FIG. 12 is a functional block diagram showing part of the image processing section 11 of the information processing apparatus 1F according to the sixth embodiment. The image processing unit 11 of the information processing apparatus 1F differs from the information processing apparatus 1A of the first embodiment in that the first converter 112 and the second converter 113 are connected in reverse. Although not shown, the first inverse transforming unit 115a and the second inverse transforming unit 115b that constitute the inverse transforming unit 115 may be connected in reverse to the information processing apparatus 1A of the first embodiment.

このように構成することで、第二の変換器113による空間処理を先に行って空間処理を強調したい場合や、第一の変換器112による個々のパラメータの処理を後から行ってパラメータ毎の処理を強調したい場合等に、適切な処理を行うことが可能となる。なお、この情報処理装置1Fにおいて逆変換器115を設けない構成とすることもできる。 By configuring in this way, when it is desired to perform spatial processing by the second converter 113 first and emphasize the spatial processing, or when processing individual parameters by the first converter 112 is performed later and Appropriate processing can be performed when, for example, it is desired to emphasize processing. Note that the information processing apparatus 1F may be configured without the inverter 115. FIG.

[発明の実施の形態7]
図13は、この実施の形態7の情報処理装置1Gの画像処理部11の一部を示す機能ブロック図である。この情報処理装置1Gの画像処理部11は、実施の形態6の情報処理装置1Fにおける逆変換器115が設けられていない構成である。このように構成することで、実施の形態6の情報処理装置1Fによって適切な処理が行われるデータにおいて、逆変換が必要でない場合に、適切な処理を行うことができる。
[Embodiment 7 of the invention]
FIG. 13 is a functional block diagram showing part of the image processing section 11 of the information processing apparatus 1G of the seventh embodiment. The image processing unit 11 of the information processing apparatus 1G does not include the inverse transformer 115 of the information processing apparatus 1F of the sixth embodiment. With such a configuration, appropriate processing can be performed on data to be appropriately processed by the information processing apparatus 1F according to the sixth embodiment when inverse transformation is not required.

[発明の実施の形態8]
また、図示しないが、この実施の形態の情報処理装置においては、実施の形態1の情報処理装置1Aの構成において、CNN114の前段に第一の変換器112、第二の変換器113の何れも設けられていない構成とすること、及び/又は、CNN114の後段に第一の変換器112や第二の変換器113を設ける構成とすること、もできる。
[Embodiment 8 of the invention]
Although not shown, in the information processing apparatus of this embodiment, in the configuration of the information processing apparatus 1A of Embodiment 1, both the first converter 112 and the second converter 113 are placed before the CNN 114. A configuration in which they are not provided and/or a configuration in which the first converter 112 and the second converter 113 are provided after the CNN 114 is also possible.

なお、上記各実施の形態は本発明の例示であり、本発明が上記各実施の形態のみに限定されるものではないことは、いうまでもない。 It goes without saying that the above embodiments are examples of the present invention, and the present invention is not limited only to the above embodiments.

[実施例]
以下、この発明の実施例について説明する。
[Example]
Examples of the present invention will be described below.

図14に、この発明の実施例を示す。図14の(A)が従来例1としての画像処理部11の構成の一部を示す機能ブロック図である。この画像処理部11では、入力されたデータをCNN114に直接入力している。 FIG. 14 shows an embodiment of the invention. FIG. 14A is a functional block diagram showing a part of the configuration of the image processing section 11 as Conventional Example 1. FIG. The image processing unit 11 directly inputs the input data to the CNN 114 .

図14の(B)が従来例2としての画像処理部11の構成の一部を示す機能ブロック図である。この画像処理部11では、入力データを第二の変換器113に入力したのちCNN114に入力している。 FIG. 14B is a functional block diagram showing a part of the configuration of the image processing section 11 as Conventional Example 2. As shown in FIG. In this image processing unit 11 , the input data is input to the second converter 113 and then to the CNN 114 .

図14の(C)が本件発明としての画像処理部11の構成の一部を示す機能ブロック図である。この画像処理部11では、入力データを第一の変換器112に入力したのちにCNN114に入力している。 FIG. 14C is a functional block diagram showing part of the configuration of the image processing section 11 as the present invention. In this image processing unit 11 , the input data is input to the first converter 112 and then to the CNN 114 .

この実施例では、10種類の絵(飛行機、自動車、鳥、猫、しか、犬、かえる、馬、船、トラック)が示された画像データを画像処理部で識別させる実験を行った。具体的には、画像処理部に上述の10種類の絵を学習させたのち、認識対象の画像を画像処理部に読み込ませ、読み込んだ画像が10種類の絵のうちのどれに該当するかを認識させたのち、それぞれの絵に相当するシンボルを出力させて解答させる実験を行った。 In this embodiment, an experiment was conducted to make the image processing unit identify image data showing ten kinds of pictures (airplane, car, bird, cat, deer, dog, frog, horse, ship, and truck). Specifically, after having the image processing unit learn the 10 types of pictures described above, the image processing unit is caused to read an image to be recognized and determine which of the 10 types of pictures the read image corresponds to. After recognition, an experiment was conducted in which a symbol corresponding to each picture was output and an answer was given.

この実験は、機械学習モデルとしてVGG16を改変したものを用い、データセットとしてCIFAR-10を利用し、読み込んだ絵の数に対して正答の数を出し、validity accuracy(正答率)(%)を検証した。 In this experiment, a modified version of VGG16 was used as the machine learning model, CIFAR-10 was used as the data set, the number of correct answers was obtained with respect to the number of pictures read, and the validity accuracy (percentage of correct answers) (%) was calculated. verified.

なお、図14に示すとおり、各画像処理部11には逆変換器を設けていない。これは、画像データの入力に対してシンボルを出力する構成であり、逆変換器が設けられていては認識精度が低下すると考えられたためである。 As shown in FIG. 14, each image processing unit 11 is not provided with an inverse converter. This is because it is configured to output symbols in response to the input of image data, and it was thought that the recognition accuracy would be lowered if an inverse transformer was provided.

実験の結果を下記の(表)に示す。

Figure 2023086549000002
この表に示すとおり、従来例1、従来例2に比べ、本件発明は改善された正答率が得られている。よって、本件発明は、従来例に比べて高い認識率が得られることがわかる。なお、正答率の改善は1%未満と僅かではあるが、機械学習においては僅かであっても正答率を向上させることは重要な課題である。 The results of the experiments are shown in the table below.
Figure 2023086549000002
As shown in this table, compared with Conventional Examples 1 and 2, the present invention provides an improved percentage of correct answers. Therefore, it can be seen that the present invention can obtain a higher recognition rate than the conventional example. Although the improvement in the correct answer rate is less than 1%, it is an important issue in machine learning to improve the correct answer rate even if it is only a little.

1A,1B,1C,1D,1E,1F,1G,1H,1J,1K・・情報処理装置
12・・・記憶部(記憶手段)
121・・・変換テーブル
101・・・画像処理実行部(学習実行部)
112・・・第一の変換器(変換手段、第一の非線形処理手段)
113・・・第二の変換器(変換手段、第二の非線形処理手段)
114・・・CNN(データ処理手段)
115・・・逆変換器(逆変換手段)
112r1,112g1,112b1,1131r,1131g,1131b,115a1,115a1,115a1,115br1,115bg1,115bb1・・・第1層(入力層)
1120001,1120002,・・・1120255,1120256,1132001,・・・1132256,115a2001,115a2002,・・・115a2255,115a2256,115br2001,115br2002,・・・115br2255,115br2256,115bg2001,115bg2002,・・・115bg2255,115bg2256,115bb2001,115bb2002,・・・115bb2255,115bb2256・・・第2層(中間処理層)
112r3,112g3,112b3,1133r,1133g,1133b,115a3,115a3,115a3,115br1,115bg3,115bb3・・・第3層(出力層)
1A, 1B, 1C, 1D, 1E, 1F, 1G, 1H, 1J, 1K... Information processing device 12... Storage section (storage means)
121: conversion table 101: image processing execution unit (learning execution unit)
112 First converter (converting means, first nonlinear processing means)
113 second converter (conversion means, second nonlinear processing means)
114 CNN (data processing means)
115 Inverse converter (inverse conversion means)
112r1, 112g1, 112b1, 1131r, 1131g, 1131b, 115a11, 115a12 , 115a13 , 115br1 , 115bg1, 115bb1... First layer (input layer)
1120 001 , 1120 002 , . . . 1120 255 , 1120 256 , 1132 001 , . 5br2 002 , ... 115br2 255 , 115br2 256 , 115bg2 001 , 115bg2 002 , .
112r3, 112g3, 112b3, 1133r, 1133g, 1133b, 115a31 , 115a32, 115a33 , 115br1 , 115bg3, 115bb3... third layer (output layer)

Claims (9)

畳み込み層を含む畳み込みニューラルネットワークを備え、複数のチャンネルを有するデータに対して畳み込み処理を行うデータ処理手段を備える情報処理装置であって、
該情報処理装置に入力されたデータに対して非線形の変換を行って前記データ処理手段に入力する変換手段、
及び/又は、
前記データ処理手段から出力されたデータに対して非線形の変換を行って前記情報処理装置から出力させる逆変換手段を備え、
前記変換手段、及び/又は、前記逆変換手段は、前記データに対して前記チャンネルごとに別個に前記非線形の変換を行う第一の非線形処理手段を備えたことを特徴とする情報処理装置。
An information processing device comprising a convolutional neural network including a convolutional layer and comprising data processing means for performing convolution processing on data having a plurality of channels,
conversion means for performing non-linear conversion on data input to the information processing device and inputting the data to the data processing means;
and/or
An inverse transformation means for performing non-linear transformation on the data output from the data processing means and outputting it from the information processing device,
The information processing apparatus, wherein the transforming means and/or the inverse transforming means comprises first nonlinear processing means for individually performing the nonlinear transformation on the data for each channel.
前記変換手段、及び/又は、前記逆変換手段は、
少なくとも3層の処理層からなる処理層群を備え、
該処理層群は、ノード数が1の入力層と、該入力層の後段に設けられたノード数が複数の畳み込み層又は緻密層である中間処理層と、該中間処理層の後段に設けられたノード数が1又は複数の畳み込み層又は緻密層である出力層とを含む構成であり、
前記処理層群が、前記畳み込みニューラルネットワークへ入力する前記データのチャンネル毎に設けられたことを特徴とする請求項1に記載の処理装置。
The transforming means and/or the inverse transforming means,
A treated layer group consisting of at least three treated layers,
The processing layer group includes an input layer having one node, an intermediate processing layer having a plurality of nodes or a dense layer provided after the input layer, and an intermediate processing layer provided after the intermediate processing layer. and an output layer that is a convolutional layer or a dense layer with one or more nodes,
2. The processing apparatus according to claim 1, wherein said processing layer group is provided for each channel of said data input to said convolutional neural network.
前記中間処理層が1層からなることを特徴とする請求項2記載の処理装置。 3. A processing apparatus according to claim 2, wherein said intermediate processing layer consists of one layer. 前記中間処理層が複数層からなることを特徴とする請求項2記載の処理装置。 3. A processing apparatus according to claim 2, wherein said intermediate processing layer comprises a plurality of layers. 前記変換手段、及び/又は、前記逆変換手段は、複数の前記チャンネルを複合させて前記非線形の変換を行う第二の非線形処理手段を備えたことを特徴とする請求項1乃至4のいずれか一つに記載の情報処理装置。 5. The transforming means and/or the inverse transforming means according to claim 1, further comprising a second nonlinear processing means for performing the nonlinear transformation by combining a plurality of the channels. 1. The information processing device according to one. 前記第一の非線形処理手段において用いられる変換の態様が記録された変換テーブルが記憶される記憶手段を備え、
前記第一の非線形処理手段は、前記記憶手段から取得した前記変換テーブルを用いて前記非線形の変換を行うことを特徴とする請求項1乃至5の何れか一つに記載の情報処理装置。
A storage means for storing a conversion table in which conversion modes used in the first nonlinear processing means are recorded,
6. The information processing apparatus according to claim 1, wherein said first non-linear processing means performs said non-linear conversion using said conversion table obtained from said storage means.
前記変換手段、及び/又は、前記逆変換手段でスキップコネクションを用いたことを特徴とする請求項1乃至6の何れか一つに記載の情報処理装置。 7. An information processing apparatus according to claim 1, wherein said transforming means and/or said inverse transforming means uses a skip connection. 畳み込み層を含む畳み込みニューラルネットワークにおいて、複数のチャンネルを有するデータに対して畳み込み処理が行われるデータ処理手順を備える、情報処理装置における情報処理方法であって、
該情報処理装置に入力されたデータに対して非線形の変換を行って前記データ処理手順の処理に入力される変換手順、
及び/又は、
前記データ処理手順の処理によって出力されたデータに対して非線形の変換を行って前記情報処理装置から出力させる逆変換手順を備え、
前記変換手順、及び/又は、前記逆変換手順は、前記データに対して前記チャンネルごとに別個に前記非線形の変換が行われる第一の非線形処理手順を備えたことを特徴とする情報処理装置における情報処理方法。
An information processing method in an information processing device, comprising a data processing procedure in which convolution processing is performed on data having a plurality of channels in a convolutional neural network including a convolution layer,
a transformation procedure for performing non-linear transformation on data input to the information processing device and inputting the data processing procedure;
and/or
An inverse transformation procedure for performing non-linear transformation on the data output by the processing of the data processing procedure and outputting it from the information processing device,
The information processing apparatus, wherein the transforming procedure and/or the inverse transforming procedure include a first nonlinear processing procedure in which the nonlinear transformation is performed on the data separately for each channel. Information processing methods.
コンピュータを請求項1乃至7の何れか一つに記載の情報処理装置として機能させることを特徴とするプログラム。 A program that causes a computer to function as the information processing apparatus according to any one of claims 1 to 7.
JP2021201134A 2021-12-10 2021-12-10 Information processing device, information processing method in the information processing device, and program Active JP7418019B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021201134A JP7418019B2 (en) 2021-12-10 2021-12-10 Information processing device, information processing method in the information processing device, and program
JP2023219271A JP7548634B2 (en) 2021-12-10 2023-12-26 Information processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021201134A JP7418019B2 (en) 2021-12-10 2021-12-10 Information processing device, information processing method in the information processing device, and program

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023219271A Division JP7548634B2 (en) 2021-12-10 2023-12-26 Information processing device

Publications (2)

Publication Number Publication Date
JP2023086549A true JP2023086549A (en) 2023-06-22
JP7418019B2 JP7418019B2 (en) 2024-01-19

Family

ID=86850594

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021201134A Active JP7418019B2 (en) 2021-12-10 2021-12-10 Information processing device, information processing method in the information processing device, and program
JP2023219271A Active JP7548634B2 (en) 2021-12-10 2023-12-26 Information processing device

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023219271A Active JP7548634B2 (en) 2021-12-10 2023-12-26 Information processing device

Country Status (1)

Country Link
JP (2) JP7418019B2 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6705065B1 (en) * 2017-04-27 2020-06-03 アップル インコーポレイテッドApple Inc. Configurable convolution engine for interleaved channel data

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6476531B1 (en) 2018-03-06 2019-03-06 株式会社ツバサファクトリー Processing apparatus, processing method, computer program, and processing system
KR102046133B1 (en) 2019-03-20 2019-11-18 주식회사 루닛 Method for feature data recalibration and apparatus thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6705065B1 (en) * 2017-04-27 2020-06-03 アップル インコーポレイテッドApple Inc. Configurable convolution engine for interleaved channel data

Also Published As

Publication number Publication date
JP7418019B2 (en) 2024-01-19
JP2024024680A (en) 2024-02-22
JP7548634B2 (en) 2024-09-10

Similar Documents

Publication Publication Date Title
CN109919183B (en) Image identification method, device and equipment based on small samples and storage medium
US20170061246A1 (en) Training method and apparatus for neutral network for image recognition
CN109948699B (en) Method and device for generating feature map
CN109902763B (en) Method and device for generating feature map
EP4213070A1 (en) Neural network accelerator, and acceleration method and device
JP6476531B1 (en) Processing apparatus, processing method, computer program, and processing system
CN112534443A (en) Image processing apparatus and method of operating the same
CN113298716B (en) Image super-resolution reconstruction method based on convolutional neural network
JP2021179833A (en) Information processor, method for processing information, and program
CN108932715B (en) Deep learning-based coronary angiography image segmentation optimization method
CN113570678A (en) Image coloring method and device based on artificial intelligence and electronic equipment
CN108229650B (en) Convolution processing method and device and electronic equipment
JP6723488B1 (en) Learning device and inference device
CN113095473A (en) Neural network architecture search system and method, and computer-readable recording medium
CN113052768A (en) Method for processing image, terminal and computer readable storage medium
US11436432B2 (en) Method and apparatus for artificial neural network
JP7418019B2 (en) Information processing device, information processing method in the information processing device, and program
US20230021444A1 (en) Image processing device, processing method thereof, and image processing system including the image processing device
CN114240794A (en) Image processing method, system, device and storage medium
JP7100783B1 (en) Learning device and inference device
Nicolau et al. On Image Compression for Mobile Robots Using Feed-Forward Neural Networks
JP7402552B2 (en) Learning device and reasoning device
JP7520479B1 (en) Learning data generator
US20220284555A1 (en) Image processing apparatus and operation method thereof
WO2020044566A1 (en) Data processing system and data processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231226

R150 Certificate of patent or registration of utility model

Ref document number: 7418019

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150