JP6942900B1 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP6942900B1
JP6942900B1 JP2021067136A JP2021067136A JP6942900B1 JP 6942900 B1 JP6942900 B1 JP 6942900B1 JP 2021067136 A JP2021067136 A JP 2021067136A JP 2021067136 A JP2021067136 A JP 2021067136A JP 6942900 B1 JP6942900 B1 JP 6942900B1
Authority
JP
Japan
Prior art keywords
function
learning
data
neural network
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021067136A
Other languages
English (en)
Other versions
JP2022162348A (ja
Inventor
望 窪田
望 窪田
Original Assignee
望 窪田
望 窪田
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 望 窪田, 望 窪田 filed Critical 望 窪田
Priority to JP2021067136A priority Critical patent/JP6942900B1/ja
Application granted granted Critical
Publication of JP6942900B1 publication Critical patent/JP6942900B1/ja
Priority to CN202210259961.9A priority patent/CN115204352B/zh
Priority to US17/718,141 priority patent/US20220327365A1/en
Publication of JP2022162348A publication Critical patent/JP2022162348A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Abstract

【課題】ニューラルネットワークにおける隠れ層に適用される関数をより適切にすること。【解決手段】情報処理装置は、所定の学習データを取得する取得部と、ニューラルネットワークを用いる学習モデルであって、ニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数を適用する学習モデルに、所定の学習データを入力して学習を行う学習部と、所定の学習データの教師ラベルに基づいて、誤差逆伝搬法を用いてニューラルネットワークのパラメータが更新される場合、第1関数の各重みを調整する調整部と、学習の結果、調整後の各重みが第1関数に設定される第2関数を生成する生成部と、を備える。【選択図】図2

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
近年、いわゆる人工知能を様々な問題に応用する試みがなされている。例えば、下記特許文献1には、様々な現実的な事象における問題の解決に用いることを目的としたモデル選択装置が記載されている。
特開2019−220063号公報
しかしながら、ニューラルネットワークを用いる学習モデルにおいて、隠れ層(中間層)に使用される関数について、開発者の経験等により既存の関数が選択されるのが現状である。例えば、活性化関数として、ReLu関数やシグモイド関数が選ばれることが多い。しかし、その理由としては、多くの研究で使われているから、という理論的な理由ではなく感覚的な理由が多い。そのため、入力データに対し、必ずしもその入力データに適応した活性化関数が選択されているわけではなかった。また、活性化関数だけではなく、隠れ層において使用される正規化関数、ノイズ除去(denoising operation)関数、正則化関数、平滑化関数などにおいても同様の問題がある。
そこで、本発明の目的の1つは、ニューラルネットワークにおける隠れ層に適用される関数を、より適切にすることを可能にする情報処理装置、情報処理方法及びプログラムを提供する。
本発明の一態様に係る情報処理装置は、所定の学習データを取得する取得部と、ニューラルネットワークを用いる学習モデルであって、前記ニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数を適用する前記学習モデルに、前記所定の学習データを入力して学習を行う学習部と、前記所定の学習データの教師ラベルに基づいて、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新される場合、前記第1関数の各重みを調整する調整部と、前記学習の結果、調整後の前記各重みが前記第1関数に設定される第2関数を生成する生成部と、を備える。
本発明によれば、ニューラルネットワークにおける隠れ層に適用される関数を、より適切にすることを可能にする情報処理装置、情報処理方法及びプログラムを提供することができる。
実施形態に係る情報処理装置の物理的構成の一例を示す図である。 実施形態に係る情報処理装置の処理ブロックの一例を示す図である。 実施形態に係る学習モデルの一例を示す図である。 実施形態に係る隠れ層に適用される関数を説明するための図である。 実施形態に係る関数ライブラリの一例を示す図である。 実施形態に係るデータの種類及び第2関数の対応データの一例を示す図である。 実施形態に係る学習フェーズにおける処理の一例を示すフローチャートである。 実施形態に係る推論フェーズにおける処理の一例を示すフローチャートである。
添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
[実施形態]
<処理構成>
図1は、実施形態に係る情報処理装置10の物理的構成の一例を示す図である。情報処理装置10は、演算部に相当するCPU(Central Processing Unit)10aと、記憶部に相当するRAM(Random Access Memory)10bと、記憶部に相当するROM(Read only Memory)10cと、通信部10dと、入力部10eと、表示部10fと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。
本実施形態では、情報処理装置10が一台のコンピュータで構成される場合について説明するが、情報処理装置10は、複数のコンピュータ又は複数の演算部が組み合わされて実現されてもよい。また、図1で示す構成は一例であり、情報処理装置10はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。
CPU10aは、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、隠れ層に適用される関数をより適切にするための学習モデルを用いて学習を行うプログラム(学習プログラム)を実行する演算部である。CPU10aは、入力部10eや通信部10dから種々のデータを受け取り、データの演算結果を表示部10fに表示したり、RAM10bに格納したりする。
RAM10bは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。RAM10bは、CPU10aが実行するプログラム、隠れ層に適用される関数に関する関数データ、この関数を適用する隠れ層を有する学習モデル、データのカテゴリと学習モデルとの対応関係を示すデータなどのデータを記憶してもよい。なお、これらは例示であって、RAM10bには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。
ROM10cは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ROM10cは、例えば学習プログラムや、書き換えが行われないデータを記憶してよい。
通信部10dは、情報処理装置10を他の機器に接続するインターフェースである。通信部10dは、インターネット等の通信ネットワークに接続されてよい。
入力部10eは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。
表示部10fは、CPU10aによる演算結果を視覚的に表示するものであり、例えば、LCD(Liquid Crystal Display)により構成されてよい。表示部10fが演算結果を表示することは、XAI(eXplainable AI:説明可能なAI)に貢献し得る。表示部10fは、例えば、学習結果や、関数データを表示してもよい。
学習プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークを介して提供されてもよい。情報処理装置10では、CPU10aが学習プログラムを実行することにより、後述する図2を用いて説明する様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、情報処理装置10は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。また、情報処理装置10は、GPU(Graphical Processing Unit)やASIC(Application Specific Integrated Circuit)を備えていてもよい。
<処理構成>
図2は、実施形態に係る情報処理装置10の処理ブロックの一例を示す図である。情報処理装置10は、取得部11、学習部12、調整部13、生成部14、選択部15、出力部16、及び記憶部17を備える。情報処理装置10は、汎用のコンピュータで構成されてもよい。
取得部11は、所定の学習データを入力する。例えば、取得部11は、公知の訓練データを入力する。訓練データには、例えばアノテーションがなされた教師ラベルが付与されているとよい。また、取得部11は、訓練データに対応するテストデータを入力してもよい。
学習部12は、ニューラルネットワークを用いる学習モデル12aであって、ニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数を適用する、この学習モデル12aに、取得された所定の学習データを入力して学習を行う。例えば、学習部12は、隠れ層の活性化関数、正規化関数、正則化関数、ノイズ除去関数、平滑化関数の少なくとも1つを第1関数に適用した学習モデル12aの学習を実行する。いずれを用いるかは、学習される所定の問題、又は所定のデータセットに対して、適宜設定されるとよい。
所定の問題は、例えば画像データ、系列データ及びテキストデータの少なくともいずれかについて、分類、生成及び最適化の少なくともいずれかを行う問題を含む。ここで、画像データは、静止画のデータと、動画のデータとを含む。系列データは、音声データや株価のデータを含む。
また、所定の学習モデル12aは、ニューラルネットワークを含む学習モデルであり、例えば、画像認識モデル、系列データ解析モデル、ロボットの制御モデル、強化学習モデル、音声認識モデル、音声生成モデル、画像生成モデル、自然言語処理モデル等の少なくとも1つを含む。また、具体例としては、所定の学習モデル12aは、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)、DNN(Deep Neural Network)、LSTM(Long Short-Term Memory)、双方向LSTM、DQN(Deep Q-Network)、VAE(Variational AutoEncoder)、GANs(Generative Adversarial Networks)、flow−based生成モデル等のいずれかでもよい。
また、学習モデル12aは、学習済みモデルを枝刈り(Pruning)、量子化(Quantization)、蒸留(Distillation)又は転移(Transfer)して得られるモデルを含む。なお、これらは一例に過ぎず、学習部12は、これら以外の問題について、学習モデルの機械学習を行ってもよい。
図3は、実施形態に係る学習モデル12aの一例を示す図である。図3に示す例において、学習モデル12aは、入力層31、隠れ層32及び出力層33を含むニューラルネットワークにより構成される。学習部12は、所定の訓練データを学習データとして教師あり学習を行い、第1関数の各重みを調整した学習モデル12aを生成する。具体的には、学習部12は、訓練データを入力層31に入力し、出力層33から最適な学習結果が出力されるように、ハイパーパラメータ等の学習を行う。このとき、調整部13は、ハイパーパラメータが更新(調整)される際に、隠れ層32に適用される第1関数の各重みを調整する。
図4は、実施形態に係る隠れ層に適用される関数を説明するための図である。図4に示す例では、隠れ層32における所定の関数1が適用されるノード群N1と、所定の関数2が適用されるノード群N2とが示される。例えば、所定の関数1には、活性化関数が適用され、所定の関数2には、正規化関数、ノイズ除去関数、正則化関数、平滑化関数などが適用されるが、これらの例に限られるものではない。また、ノード群N1とノード群N2における隠れ層32の位置関係も一例であって、隠れ層32内のその他の位置に設けられてもよい。これにより、隠れ層32に適用される所定の関数1及び/又は所定の関数2をより適切に設定することで、学習モデル12aの学習精度の向上を図ることができるようになる。
図2に戻り、調整部13は、所定の学習データの教師ラベルに基づいて、誤差逆伝搬法を用いてニューラルネットワークのパラメータが更新される場合、第1関数の各重みを調整する。例えば、学習部12は、学習モデル12aを学習する際に、学習データ(訓練データ)の教師ラベルに基づいて誤差逆伝搬法により学習モデル12aのハイパーパラメータやバイアスを更新する。この際に、調整部13は、第1関数の各重みについて所定の方法により調整を行う。また、学習部12によるハイパーパラメータ等の更新がされずに、調整部13による各重みの調整が行われ、それぞれのハイパーパラメータ等で、損失関数が最小となる各重みが記憶されてもよい。
例えば、各重みの調整については、あらかじめ設定される初期値から逐次的に各重みが調整されるとよい。このとき、各重みが全て加算して1になるように調整され、以前に行った調整と異なる調整が行われればいずれの調整方法が用いられてもよい。例えば、調整部13は、各重みを順に所定値ずつ変更していき、全ての組み合わせについて変更する。例えば、調整部13は、重みwkに対して初期値から所定値ずつ減算し、重みwk+1に対して初期値から所定値ずつ加算し、どちらかの重みが0以下、又は1以上になると、kに1を加算して、各初期値からの変更を繰り返す。また、各重みが全て加算して1になる条件は設けなくてもよく、この場合、Softmax関数などを用いて、各重みを加算して1になるように最後に調整されればよい。
生成部14は、学習部12による学習が所定条件を満たすことで終了した結果、調整後の各重みが第1関数に設定される第2関数を生成する。生成部14は、学習が終了した時点において、最終的な各重みは第1関数に設定されているので、この最終的な第1関数を第2関数としてもよい。また、生成部14は、各ハイパーパラメータに対して損失関数を最小とする各重みが記憶されている場合は、損失関数が最も小さい値を示すハイパーパラメータに対する各重みを特定し、第2関数を生成してもよい。
例えば、第1関数は、各関数に重みを付けて線形結合した式などである。第2関数は、第1関数と基本的な式の構造は同じであり、各関数の重みが、機械学習が行われ、調整された後の値が設定される。
以上の処理により、ニューラルネットワークにおける隠れ層に適用される関数を、より適切にすることを可能にする。従来、エンジニアの経験則で適用されていた隠れ層の関数について、様々な関数を複合的に用いて新たな関数を生成し、取り扱うデータに応じて構築される隠れ層を含む学習モデルを用いることにより、学習精度を向上させることができる。
第1関数として、上記例のように、既存の各関数に重みを付けて線形結合する場合、経験則的に用いられていた関数の重みの初期値を例えば1とすれば、この場合よりも学習精度がよくなるように、各関数の重み調整が調整部13により行われる。したがって、経験則的に用いられる関数よりも、調整後の重みが設定された第2関数を用いることで、学習精度が向上することが期待できる。
(活性化関数)
隠れ層の関数として、活性化関数を例にする場合、第1関数に用いられる複数の関数は、活性化関数として適用される関数を含み、第2関数は、活性化関数に関する関数を含む。第2関数は、例えば、調整後の重みが各活性化関数に乗算されて新たに生成される関数である。
例えば、活性化関数は、Swish、Gaussian Error Linear Unit、Exponential Linear Unit、SmoothReLU、Bent Identity関数、シグモイド関数(sigmoid)、logSigmoid関数、tanh関数、tanhShrink関数、ELU関数、SELU関数、CELU関数、softplus関数、ACON関数、Mish関数、tanhExp関数などである。これらの活性化関数は、平滑化された関数であり、微分可能な関数である。また、これらの活性化関数のうち、少なくとも2つ以上の関数が第1関数に用いられる。
また、活性化関数の他の例として、ステップ関数(step)、恒等関数(identity) 、hardShrink関数、Threshold関数、hardSigmoid関数、hardtanh関数、ReLU関数、ReLU6関数、leaky−ReLU関数、ソフトマックス関数(softmax)、softmin関数、softsign関数、hardSwish関数などもある。これらの関数は、平滑化されていない関数であり、微分できない点が存在する。第1関数は、平滑化に関せず上述した活性化関数を含む活性化関数ライブラリの中から任意の活性化関数が選択されて生成されてもよい。なお、活性化関数ライブラリに含まれる活性化関数は、上記例に限られるものではなく、活性化関数として適用可能な関数を含む。
なお、活性化関数に関する第1関数F1(x)の例として、式(1)が挙げられるが、あくまでも一例にすぎない。
1(x)=W11+W22+W33…+Wnn 式(1)
n:重み
n:活性化関数
これにより、活性化関数として、適応的に変更が可能な関数を定義することが可能になる。また、単一の活性化関数よりも精度が高くなるように学習済みの各重みが設定された第2関数を適用することで、ニューラルネットワークの学習精度を向上させることができる。
また、活性化関数ライブラリが用いられる場合、つまり、第1関数の各関数に活性化関数が用いられる場合、平滑化された活性化関数を含む第1群と、任意の活性化関数を含む第2群とのうち、いずれかの群を選択する選択部15をさらに備えてもよい。例えば、選択部15は、ユーザの操作に応じて、第1群か第2群かを選択し、選択した群の中から任意の活性化関数を用いて第1関数を生成する。なお、第1群には、上述した平滑化された関数が含まれ、第2群には、上述した全ての関数が含まれてもよい。すなわち、第1群と第2群とにおいて、重複する活性化関数が含まれてもよい。
これにより、第1群が選択された場合には、敵対的攻撃(Adversarial Attack)に対する防御手法となる活性化関数を生成することが可能になる。以下、第1群の活性化関数が敵対的攻撃への防御主張となることについて説明する。
敵対例(adversarial example, AE)とは、入力データに摂動(perturbation)を加えたデータである。通常、敵対例は、ノイズを加えた画像を指すが、実際には自然言語などあらゆるAIに適用出来る概念である。ここでは理解を容易にするため画像認識の例をあげて説明をする。人間の目には、元画像とAEはほとんど同じに見えるにも関わらず、機械学習による推論結果は変わる。つまり、AEは、学習精度が下がり、推論結果として望ましい結果が得られない。
AEによる攻撃への対抗手段は、AE自体を学習することである。これを敵対訓練(adversarial training, AT)という。ATにはいくつか種類があるが、AEが正しく識別されるようになると、逆に、元画像が正しく識別されなくなることがある。言い換えると、データの多少のブレに対応できる代わりに学習精度が下がる。一般的に、機械学習モデルのロバスト性(頑健性、堅牢性、robustness)と正確性(accuracy)はトレードオフであり、ATにおいても同様に成り立つと考えられてきた。
しかし、smooth adversarial training(Cihang Xie, Mingxing Tan, Boqing Gong, Alan Yuille, Quoc V. Le, "Smooth adversarial training," arXiv:2006.14536, Jun 25, 2020)の研究(以下、「本研究」ともいう。)では、AEが勾配をもとに生成されることと、勾配は活性化関数を微分したものであることに着目し、より良いATを行うためには活性化関数が平滑(smooth)であるべきだと結論付けた(smooth adversarial training, SAT)。
また、よく使用されるResNetの活性化関数はReLUであるが、本研究では、ReLUの非平滑性がATを弱体化させていることを明らかにし、SATがATを強化していることが検証された。
よって、第1関数に用いられる複数の活性化関数として、微分可能な活性化関数の集合である第1群の活性化関数ライブラリを使用することで、第2関数は、敵対訓練を強化することが可能である。
なお、第1群に含まれる活性化関数を用いて生成される第1関数F2(x)の例として、式(2)が挙げられるが、あくまでも一例にすぎない。
2(x)=W1AR1+W2AR2+W3AR3…+WnARn 式(2)
n:重み
ARn:微分可能な活性化関数(平滑化の活性化関数)
これにより、活性化関数として、適応的に変更が可能な関数を定義することが可能になる。また、単一の平滑化の活性化関数よりも精度が高くなるように学習済みの各重みが設定された第2関数を適用することで、ニューラルネットワークの学習精度を向上させつつ、頑健性も向上させることができる。
(次元圧縮関数)
隠れ層の関数として、正規化関数又は標準化関数を例にする場合、第1関数に用いられる複数の関数は、正規化関数又は標準化関数として適用される関数を含み、第2関数は、正規化関数又は標準化関数に関する関数を含む。ここで、正規化関数及び標準化関数をまとめて次元圧縮関数と呼ぶ。第2関数は、例えば、調整後の重みが各次元圧縮関数に乗算されて新たに生成される関数である。
例えば、正規化関数は、バッチ正規化(BN)、主成分分析(PCA)、特異値分解(SVD)、ゼロ位相成分分析(ZCA)、局所的応答正規化(LRN)、大域コントラスト正規化(GCN)、局所コントラスト正規化(LCN)などである。
また、標準化関数は、例えば、MinMaxScaler、StandardScaler、RobustScaler、Normalizerなどである。第1関数は、上述した次元圧縮関数を含む次元圧縮関数ライブラリの中から任意の次元圧縮関数が選択されて生成されてもよい。なお、次元圧縮関数ライブラリに含まれる次元圧縮関数は、上記例に限られるものではなく、次元圧縮関数として適用可能な関数を含んでもよい。また、次元圧縮関数は、学習対象のデータの特性に応じて、正規化又は標準化が選択されて、選択された関数の中から第1関数が生成されてもよい。
なお、次元圧縮関数を用いて生成される第1関数F3(x)の例として、式(3)が挙げられるが、あくまでも一例にすぎない。
3(x)=W11+W22+W33…+Wnn 式(3)
n:重み
n:次元圧縮関数
これにより、次元圧縮関数として、適応的に変更が可能な関数を定義することが可能になる。また、単一の次元圧縮関数よりも精度が高くなるように学習済みの各重みが設定された第2関数を適用することで、各入力データのスケールの違いをそろえることができ、ニューラルネットワークの学習精度を向上させることができる。
(ノイズ除去関数)
隠れ層の関数として、ノイズ除去(denoising operation)に関する関数を例にする場合、第1関数に用いられる複数の関数は、ノイズ除去関数として適用される関数を含み、第2関数は、ノイズ除去関数に関する関数を含む。第2関数は、例えば、調整後の重みが各ノイズ除去関数に乗算されて新たに生成される関数である。
例えば、ノイズ除去関数は、non−local、GAUSSIAN softmax、Dot Product sets、Bilateral filter、Mean filter、Median filterなどである。第1関数は、上述したノイズ除去関数を含むノイズ除去関数ライブラリの中から任意のノイズ除去関数が選択されて生成されてもよい。なお、ノイズ除去関数ライブラリに含まれるノイズ除去関数は、上記例に限られるものではなく、ノイズ除去関数として適用可能な関数を含んでもよい。
なお、ノイズ除去関数を用いて生成される第1関数F4(x)の例として、式(4)が挙げられるが、あくまでも一例にすぎない。
4(x)=W11+W22+W33…+Wnn 式(4)
n:重み
n:ノイズ除去関数
これにより、ノイズ除去関数として、適応的に変更が可能な関数を定義することが可能になる。また、単一のノイズ除去関数よりも精度が高くなるように学習済みの各重みが設定された第2関数を適用することで、入力データのノイズを適切に除去することができ、ニューラルネットワークの学習精度を向上させることができる。
(平滑化関数)
隠れ層の関数として、平滑化に関する関数を例にする場合、第1関数に用いられる複数の関数は、平滑化関数として適用される関数を含み、第2関数は、平滑化関数に関する関数を含む。第2関数は、例えば、調整後の重みが各平滑化関数に乗算されて新たに生成される関数である。
例えば、平滑化関数は、移動平均フィルター、Savitzky−Golay filter、フーリエ変換、局所回帰平滑化(LowessとLoess、局所回帰法、ロバスト局所回帰など)などである。第1関数は、上述した平滑化関数を含む平滑化関数ライブラリの中から任意の平滑化関数が選択されて生成されてもよい。なお、平滑化関数ライブラリに含まれる平滑化関数は、上記例に限られるものではなく、平滑化関数として適用可能な関数を含んでもよい。
なお、平滑化関数を用いて生成される第1関数F5(x)の例として、式(5)が挙げられるが、あくまでも一例にすぎない。
5(x)=W11+W22+W33…+Wnn 式(5)
n:重み
n:平滑化関数
これにより、平滑化関数として、適応的に変更が可能な関数を定義することが可能になる。また、単一の平滑化関数よりも精度が高くなるように学習済みの各重みが設定された第2関数を適用することで、例えば、系列データが入力される際にノイズを適切に除去することができ、ニューラルネットワークの学習精度を向上させることができる。
(正則化関数)
隠れ層の関数として、正則化に関する関数を例にする場合、第1関数に用いられる複数の関数は、正則化関数として適用される関数を含み、第2関数は、正則化関数に関する関数を含む。第2関数は、例えば、調整後の重みが各正則化関数に乗算されて新たに生成される関数である。
例えば、正則化関数は、L1正則化[Tibshirani, 1996]、L2正則化[Tikhonov, 1943]、Weight decay [Hanson and Pratt, 1988]、Early Stopping [Morgan and Bourlard, 1990]、Dropout [Srivastava et al., 2014]、Batch normalization [Ioffe and Szegedy, 2015]、Mixup [Zhang et al., 2018]、Image augment [Shorten and Khoshgoftaar, 2019]
・Flooding[Ishida,2020]などである。第1関数は、上述した正則化関数を含む正則化関数ライブラリの中から任意の正則化関数が選択されて生成されてもよい。なお、正則化関数ライブラリに含まれる正則化関数は、上記例に限られるものではなく、正則化関数として適用可能な関数を含んでもよい。
なお、正則化関数を用いて生成される第1関数F6(x)の例として、式(6)が挙げられるが、あくまでも一例にすぎない。
6(x)=W11+W22+W33…+Wnn 式(6)
n:重み
n:正則化関数
これにより、正則化関数として、適応的に変更が可能な関数を定義することが可能になる。また、単一の正則化関数よりも精度が高くなるように学習済みの各重みが設定された第2関数を適用することで、例えば、過学習を適切に防止することができ、ニューラルネットワークの学習精度を向上させることができる。
上述した機械学習により調整された各重みを有する第2関数を用いる学習モデルに対し、テストデータで学習結果(推論結果)の評価が行われてもよい。既存の関数が用いられる学習モデルによる第1評価結果(分類問題であれば分類精度)と、第2関数が適用された学習モデルによる第2評価結果とが比較される。第2評価結果の方が第1評価結果よりも実際に高い場合に、第2関数が適用されるようにすればよい。
以上、学習フェーズにおける情報処理装置10の処理について説明した。以下、学習フェーズで生成された第2関数が適用される学習モデルを用いて、未知のデータに対して学習(推論)を行う場合の推論フェーズにおける情報処理装置10の処理について説明する。
取得部11は、所定のデータを取得する。例えば、取得部11は、記憶部17に記憶されたデータを取得してもよいし、ネットワークを介して受信されたデータを取得してもよいし、ユーザ操作に応じて取得されてもよい。
学習部12は、上述した第2関数が適用される学習モデルに、取得部11により取得された所定のデータを入力して学習を行う。この学習モデルは、ニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数を用いる学習モデルである。各重みは、誤差逆伝搬法を用いてニューラルネットワークのパラメータが更新される場合、第1関数の各重みが調整され、調整後の各重みが設定される。また、ニューラルネットワークのパラメータが更新される場合、第1関数の各重みが調整されるとは、誤差逆伝搬法を用いてニューラルネットワークのパラメータが更新される前に、第1関数の各重みが一通り調整されてから、ニューラルネットワークのパラメータが更新されて、また、第1関数の各重みが一通り調整されることも含む。
例えば、この学習モデルにおけるニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数として、誤差逆伝搬法を用いてニューラルネットワークのパラメータが更新され、第1関数の各重みが調整された場合の調整後の各重みが第1関数に設定される第2関数が適用される。
上述したとおり、推論フェーズでは、学習フェーズにより学習され、調整された各重みが設定された第1関数(第2関数と同義)を隠れ層に適用した学習モデルが利用される。また、隠れ層に適用される第2関数について、必ずしも事前の学習が必要というわけではなく、複数の関数を複合的に用いて結合した1つの関数(例えば、線形結合する関数)に係る係数又は重みが適切に調整されていればよい。
出力部16は、学習部12により学習の結果を出力する。例えば、出力部16は、学習部12による推論結果を出力結果として出力する。これにより、隠れ層32における関数をより適切にした学習モデルを利用して推論を行うことが可能になり、より適切な推論結果を得ることができるようになる。
また、学習フェーズにおいて、訓練データの種類、例えば、画像データ、系列データ、テキストデータなどのデータの種類に応じて、それぞれ適切な第2関数が求められるとよい。また、記憶部17は、データの種類ごとに、適切な第2関数が対応付けられた対応データ(例、対応テーブル。図6参照)を記憶しておく。この場合、学習部12は、取得部11により取得された所定のデータの特徴に基づいてデータの種類を特定してもよい。さらに学習部12は、特定されたデータの種類に対応する第2関数を記憶部17から抽出し、抽出された第2関数を学習モデル12aの隠れ層32の所定位置(例、所定層)に適用してもよい。
これにより、情報処理装置10は、推論対象のデータの種類に応じて適切な第2関数を特定し、この第2関数を隠れ層32に適用することで、データに応じてより適切に推論することができる。
<データ例>
図5は、実施形態に係る関数ライブラリの一例を示す図である。図5に示す例では、関数IDごとに関数が関連付けられている。例えば、関数ライブラリが、活性化関数ライブラリであれば、関数1はSwish、関数2はGaussian Error Linear Unitなどである。また、関数ライブラリにIDを付与し、関数ライブラリIDごとに、活性化関数ライブラリ、次元圧縮関数ライブラリ、ノイズ除去関数ライブラリ、平滑化処理ライブラリ、正則化ライブラリなどが記憶部17に記憶されてもよい。
学習部12は、関数ライブラリに保存されている関数全てに重みを付与した第1関数を用いてもよいし、関数ライブラリに保存されている任意の関数に重みを付与した第1関数を用いてもよい。
図6は、実施形態に係るデータの種類及び第2関数の対応データの一例を示す図である。図6に示す例では、データの種類Aに第2関数F1A(x)、データの種類Bに第2関数F1B(x)が対応付けられている。なお、第2関数にも活性化関数、正規化関数、次元圧縮関数、ノイズ除去関数、正則化関数、平滑化関数などの種類がある。そのため、データの種類ごとに、活性化関数に関する第2関数、正規化関数に関する第2関数、次元圧縮関数に関する第2関数、ノイズ除去関数に関する第2関数、正則化関数に関する第2関数、平滑化関数に関する第2関数が対応付けられてもよい。なお、図5及び図6に示すデータは、関数データ17aの一例である。
<動作>
図7は、実施形態に係る学習フェーズにおける処理の一例を示すフローチャートである。図7に示す処理は、情報処理装置10により実行される。
ステップS102において、情報処理装置10の取得部11は、所定の学習データを取得する。学習データとして、まずは訓練データが取得され、次に評価用のテストデータが入力されてもよい。また、学習データには教師ラベルが付与されている。取得部11は、記憶部17に記憶される所定のデータを取得してもよいし、ネットワークを介して受信された所定のデータを取得してもよいし、ユーザ操作に応じて入力された所定のデータを取得してもよい。
ステップS104において、情報処理装置10の学習部12は、ニューラルネットワークを用いる学習モデルであって、このニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数を適用する学習モデルに、所定の学習データを入力して学習を行う。
ステップS106において、情報処理装置10の調整部13は、所定の学習データの教師ラベルに基づいて、誤差逆伝搬法を用いてニューラルネットワークのパラメータが更新される場合、第1関数の各重みを調整する。
ステップS108において、情報処理装置10の生成部14は、学習部12による学習の結果、調整後の各重みが第1関数に設定される第2関数を生成する。例えば、損失関数が最小化することにより学習が終了すると、生成部14は、その時点での第1関数の各重みを抽出してもよい。
これにより、第1関数の各重みが調整され、調整後の各重みが設定される第2関数を生成することで、隠れ層32に適用される関数をより適切にすることが可能になる。また、訓練データに対して生成された第2関数を適用する学習モデル12について、テストデータを入力して評価が行われてもよい。
例えば、第1関数及び第2関数が活性化関数に関する場合、単一の活性化関数を用いる学習モデルによるテストデータの第1評価結果と、第2関数を用いる学習モデルによるテストデータの第2評価結果とが比較される。理論的には、単一の活性化関数を用いるよりも精度が良くなるように第1関数の各重みが調整されるので、第2評価結果の方が良いと推定されるが、実際にテストデータを用いて実証することが可能である。このとき、仮にテストデータにおいて第2評価結果の方が悪い場合、第1関数の各重みの調整の仕方や、各重みの初期値を変更して、再度訓練データを用いて上述した学習が実行されてもよい。
これにより、テストデータを用いて評価した後の第2関数が記憶され、適用されることで、学習精度向上の信頼性を高めることができる。また、記憶部17は、学習データごとに、学習データの特徴に基づく種類と、第2関数とを対応付けて保持しておくとよい。
図8は、実施形態に係る推論フェーズにおける処理の一例を示すフローチャートである。図8に示す処理は、情報処理装置10により実行される。また、図8に示す処理は、図7に示す処理が実行され、適切な第2関数が適用可能な状態にある。
ステップS202において、情報処理装置10の学習部12は、学習モデルにおけるニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数として、誤差逆伝搬法を用いてニューラルネットワークのパラメータが更新され、第1関数の各重みが調整された場合の調整後の各重みが第1関数に設定される第2関数を適用する。
ステップS204において、取得部11は、所定のデータを取得する。
ステップS206において、学習部12は、第2関数が適用される学習モデルに所定のデータを入力して学習(推論)を行う。
ステップS208において、出力部16は、学習部12による学習(推論)の結果を出力する。
これにより、学習モデルの隠れ層における関数として、単一の関数を用いるよりも適切な関数が適用された学習モデルを利用することで、推論の精度を向上させることができる。なお、図8における処理において、ステップS202とステップS204とを入れ替えて、学習部12は、取得されたデータの種類に対応する第2関数を特定し、特定された第2関数を適用した学習モデルを利用してもよい。
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。また、学習フェーズにおける情報処理装置10と、推論フェーズにおける情報処理装置10とは別のコンピュータでもよい。この場合、生成された第2関数がネットワークを介して送信されてもよい。
10…情報処理装置、10a…CPU、10b…RAM、10c…ROM、10d…通信部、10e…入力部、10f…表示部、11…取得部、12…学習部、12a…学習モデル、13…調整部、14…生成部、15…選択部、16…出力部、17…記憶部、17a…関数データ

Claims (20)

  1. 所定の学習データを取得する取得部と、
    ニューラルネットワークを用いる学習モデルであって、前記ニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数を前記隠れ層の所定のノード群に共通して適用する前記学習モデルに、前記所定の学習データを入力して学習を行う学習部と、
    前記所定の学習データの教師ラベルに基づいて、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新される場合、前記第1関数の各重みを調整する調整部と、
    前記学習の結果、調整後の前記各重みが前記第1関数に設定される第2関数を生成する生成部と、
    を備える情報処理装置。
  2. 所定の学習データを取得する取得部と、
    ニューラルネットワークを用いる学習モデルであって、前記ニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数を適用する前記学習モデルに、前記所定の学習データを入力して学習を行う学習部と、
    前記所定の学習データの教師ラベルに基づいて、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新される場合、前記第1関数の各重みを調整する調整部と、
    前記学習の結果、調整後の前記各重みが前記第1関数に設定される第2関数を生成する生成部と、
    前記第2関数と前記所定の学習データの種類とを対応付けて記憶する記憶部と、
    を備える情報処理装置。
  3. 前記各関数に活性化関数が用いられる場合、平滑化された活性化関数を含む第1群と、任意の活性化関数を含む第2群とのうち、いずれかの群を選択する選択部をさらに備え、
    前記第1関数に用いられる複数の関数は、選択された群の中の活性化関数が用いられる、請求項1又は2に記載の情報処理装置。
  4. 前記各関数は、正規化関数標準化関数、ノイズ除去関数、平滑化関数、及び正則化関数のいずれか1つの関数である、請求項1又は2に記載の情報処理装置。
  5. 情報処理装置に備えられたプロセッサが、
    所定の学習データを取得することと、
    ニューラルネットワークを用いる学習モデルであって、前記ニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数を前記隠れ層の所定のノード群に共通して適用する前記学習モデルに、前記所定の学習データを入力して学習を行うことと、
    前記所定の学習データの教師ラベルに基づいて、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新される場合、前記第1関数の各重みを調整すること、
    前記学習の結果、調整後の前記各重みが前記第1関数に設定される第2関数を生成することと、
    を実行する情報処理方法。
  6. 情報処理装置に備えられたプロセッサが、
    所定の学習データを取得することと、
    ニューラルネットワークを用いる学習モデルであって、前記ニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数を適用する前記学習モデルに、前記所定の学習データを入力して学習を行うことと、
    前記所定の学習データの教師ラベルに基づいて、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新される場合、前記第1関数の各重みを調整すること、
    前記学習の結果、調整後の前記各重みが前記第1関数に設定される第2関数を生成することと、
    前記第2関数と前記所定の学習データの種類とを対応付けることと、
    を実行する情報処理方法。
  7. 情報処理装置に備えられたプロセッサに、
    所定の学習データを取得することと、
    ニューラルネットワークを用いる学習モデルであって、前記ニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数を前記隠れ層の所定のノード群に共通して適用する前記学習モデルに、前記所定の学習データを入力して学習を行うことと、
    前記所定の学習データの教師ラベルに基づいて、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新される場合、前記第1関数の各重みを調整すること、
    前記学習の結果、調整後の前記各重みが前記第1関数に設定される第2関数を生成することと、
    を実行させるプログラム。
  8. 情報処理装置に備えられたプロセッサに、
    所定の学習データを取得することと、
    ニューラルネットワークを用いる学習モデルであって、前記ニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数を適用する前記学習モデルに、前記所定の学習データを入力して学習を行うことと、
    前記所定の学習データの教師ラベルに基づいて、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新される場合、前記第1関数の各重みを調整すること、
    前記学習の結果、調整後の前記各重みが前記第1関数に設定される第2関数を生成することと、
    前記第2関数と前記所定の学習データの種類とを対応付けることと、
    を実行させるプログラム。
  9. 情報処理装置に備えられたプロセッサが、
    所定のデータを取得すること、
    学習モデルにおけるニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数として、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新され、前記第1関数の各重みが調整された場合の調整後の各重みが前記第1関数に設定される第2関数が前記隠れ層の所定のノード群に共通して適用される、前記学習モデルに前記所定のデータを入力して学習を行うことと、
    前記学習の結果を出力すること、
    を実行する情報処理方法。
  10. 情報処理装置に備えられたプロセッサが、
    所定のデータを取得すること、
    前記所定のデータの特徴に基づいて当該所定のデータの種類を特定すること、
    前記所定のデータの各種類に対応する第2関数を記憶する記憶部から、特定された種類に対応する第2関数を抽出することであって、前記第2関数は、学習モデルにおけるニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数に対し、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新され、前記第1関数の各重みが調整された場合の調整後の各重みが前記第1関数に設定される関数である、抽出すること、
    前記第2関数が前記隠れ層に適用される前記学習モデルに前記所定のデータを入力して学習を行うことと、
    前記学習の結果を出力すること、
    を実行する情報処理方法。
  11. プロセッサを備える情報処理装置であって、
    前記プロセッサが、
    所定のデータを取得すること、
    学習モデルにおけるニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数として、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新され、前記第1関数の各重みが調整された場合の調整後の各重みが前記第1関数に設定される第2関数が前記隠れ層の所定のノード群に共通して適用される、前記学習モデルに前記所定のデータを入力して学習を行うことと、
    前記学習の結果を出力すること、
    を実行する情報処理装置。
  12. プロセッサを備える情報処理装置であって、
    前記プロセッサが、
    所定のデータを取得すること、
    前記所定のデータの特徴に基づいて当該所定のデータの種類を特定すること、
    前記所定のデータの各種類に対応する第2関数を記憶する記憶部から、特定された種類に対応する第2関数を抽出することであって、前記第2関数は、学習モデルにおけるニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数に対し、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新され、前記第1関数の各重みが調整された場合の調整後の各重みが前記第1関数に設定される関数である、抽出すること、
    前記第2関数が前記隠れ層に適用される前記学習モデルに前記所定のデータを入力して学習を行うことと、
    前記学習の結果を出力すること、
    を実行する情報処理装置。
  13. 情報処理装置に備えられたプロセッサに、
    所定のデータを取得すること、
    学習モデルにおけるニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数として、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新され、前記第1関数の各重みが調整された場合の調整後の各重みが前記第1関数に設定される第2関数が前記隠れ層の所定のノード群に共通して適用される、前記学習モデルに前記所定のデータを入力して学習を行うことと、
    前記学習の結果を出力すること、
    を実行させるプログラム
  14. 情報処理装置に備えられたプロセッサに、
    所定のデータを取得すること、
    前記所定のデータの特徴に基づいて当該所定のデータの種類を特定すること、
    前記所定のデータの各種類に対応する第2関数を記憶する記憶部から、特定された種類に対応する第2関数を抽出することであって、前記第2関数は、学習モデルにおけるニューラルネットワークの隠れ層に使用可能な各関数に重み付けして生成される第1関数に対し、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新され、前記第1関数の各重みが調整された場合の調整後の各重みが前記第1関数に設定される関数である、抽出すること、
    前記第2関数が前記隠れ層に適用される前記学習モデルに前記所定のデータを入力して学習を行うことと、
    前記学習の結果を出力すること、
    を実行させるプログラム。
  15. 所定の学習データを取得する取得部と、
    ニューラルネットワークを用いる学習モデルであって、前記ニューラルネットワークの隠れ層に使用可能な平滑化された各活性化関数に重み付けして生成される第1関数を適用する前記学習モデルに、前記所定の学習データを入力して学習を行う学習部と、
    前記所定の学習データの教師ラベルに基づいて、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新される場合、前記第1関数の各重みを調整する調整部と、
    前記学習の結果、調整後の前記各重みが前記第1関数に設定される第2関数を生成する生成部と、
    を備える情報処理装置。
  16. 情報処理装置に備えられたプロセッサが、
    所定の学習データを取得することと、
    ニューラルネットワークを用いる学習モデルであって、前記ニューラルネットワークの隠れ層に使用可能な平滑化された各活性化関数に重み付けして生成される第1関数を適用する前記学習モデルに、前記所定の学習データを入力して学習を行うことと、
    前記所定の学習データの教師ラベルに基づいて、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新される場合、前記第1関数の各重みを調整すること、
    前記学習の結果、調整後の前記各重みが前記第1関数に設定される第2関数を生成することと、
    を実行する情報処理方法。
  17. 情報処理装置に備えられたプロセッサに、
    所定の学習データを取得することと、
    ニューラルネットワークを用いる学習モデルであって、前記ニューラルネットワークの隠れ層に使用可能な平滑化された各活性化関数に重み付けして生成される第1関数を適用する前記学習モデルに、前記所定の学習データを入力して学習を行うことと、
    前記所定の学習データの教師ラベルに基づいて、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新される場合、前記第1関数の各重みを調整すること、
    前記学習の結果、調整後の前記各重みが前記第1関数に設定される第2関数を生成することと、
    を実行させるプログラム。
  18. 情報処理装置に備えられたプロセッサが、
    所定のデータを取得すること、
    学習モデルにおけるニューラルネットワークの隠れ層に使用可能な平滑化された各活性化関数に重み付けして生成される第1関数として、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新され、前記第1関数の各重みが調整された場合の調整後の各重みが前記第1関数に設定される第2関数が適用される、前記学習モデルに前記所定のデータを入力して学習を行うことと、
    前記学習の結果を出力すること、
    を実行する情報処理方法。
  19. プロセッサを備える情報処理装置であって、
    前記プロセッサが、
    所定のデータを取得すること、
    学習モデルにおけるニューラルネットワークの隠れ層に使用可能な平滑化された各活性化関数に重み付けして生成される第1関数として、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新され、前記第1関数の各重みが調整された場合の調整後の各重みが前記第1関数に設定される第2関数が適用される、前記学習モデルに前記所定のデータを入力して学習を行うことと、
    前記学習の結果を出力すること、
    を実行する情報処理装置。
  20. 情報処理装置に備えられたプロセッサに、
    所定のデータを取得すること、
    学習モデルにおけるニューラルネットワークの隠れ層に使用可能な平滑化された各活性化関数に重み付けして生成される第1関数として、誤差逆伝搬法を用いて前記ニューラルネットワークのパラメータが更新され、前記第1関数の各重みが調整された場合の調整後の各重みが前記第1関数に設定される第2関数が適用される、前記学習モデルに前記所定のデータを入力して学習を行うことと、
    前記学習の結果を出力すること、
    を実行させるプログラム。
JP2021067136A 2021-04-12 2021-04-12 情報処理装置、情報処理方法及びプログラム Active JP6942900B1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021067136A JP6942900B1 (ja) 2021-04-12 2021-04-12 情報処理装置、情報処理方法及びプログラム
CN202210259961.9A CN115204352B (zh) 2021-04-12 2022-03-16 信息处理装置、信息处理方法和存储介质
US17/718,141 US20220327365A1 (en) 2021-04-12 2022-04-11 Information processing apparatus, information processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021067136A JP6942900B1 (ja) 2021-04-12 2021-04-12 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP6942900B1 true JP6942900B1 (ja) 2021-09-29
JP2022162348A JP2022162348A (ja) 2022-10-24

Family

ID=77847085

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021067136A Active JP6942900B1 (ja) 2021-04-12 2021-04-12 情報処理装置、情報処理方法及びプログラム

Country Status (3)

Country Link
US (1) US20220327365A1 (ja)
JP (1) JP6942900B1 (ja)
CN (1) CN115204352B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7199121B1 (ja) 2022-04-27 2023-01-05 望 窪田 計算グラフの改善

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11922314B1 (en) * 2018-11-30 2024-03-05 Ansys, Inc. Systems and methods for building dynamic reduced order physical models
US11948346B1 (en) 2023-06-22 2024-04-02 The Adt Security Corporation Machine learning model inference using user-created machine learning models while maintaining user privacy

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200005143A1 (en) * 2019-08-30 2020-01-02 Intel Corporation Artificial neural network with trainable activation functions and fractional derivative values
WO2020189498A1 (ja) * 2019-03-15 2020-09-24 株式会社 Geek Guild 学習装置、方法及びプログラム
JP2020160564A (ja) * 2019-03-25 2020-10-01 株式会社エヌエスアイテクス ニューラルネットワークの演算装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214320A (zh) * 2010-04-12 2011-10-12 宋威 神经网络训练方法及采用该方法的垃圾邮件过滤方法
CN106096728B (zh) * 2016-06-03 2018-08-24 南京航空航天大学 一种基于深层极限学习机的危险源识别方法
CN106991480A (zh) * 2017-01-24 2017-07-28 杭州电子科技大学 一种基于尺度变换激活函数的超限学习机的改进方法
WO2019017403A1 (ja) * 2017-07-19 2019-01-24 日本電信電話株式会社 マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法
CN108898213B (zh) * 2018-06-19 2021-12-17 浙江工业大学 一种面向深度神经网络的自适应激活函数参数调节方法
CN110288080A (zh) * 2019-06-03 2019-09-27 北京信息科技大学 一种基于selu及fw机制的神经网络模型及学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020189498A1 (ja) * 2019-03-15 2020-09-24 株式会社 Geek Guild 学習装置、方法及びプログラム
JP2020160564A (ja) * 2019-03-25 2020-10-01 株式会社エヌエスアイテクス ニューラルネットワークの演算装置
US20200005143A1 (en) * 2019-08-30 2020-01-02 Intel Corporation Artificial neural network with trainable activation functions and fractional derivative values

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7199121B1 (ja) 2022-04-27 2023-01-05 望 窪田 計算グラフの改善
JP2023162911A (ja) * 2022-04-27 2023-11-09 望 窪田 計算グラフの改善

Also Published As

Publication number Publication date
CN115204352B (zh) 2024-03-12
CN115204352A (zh) 2022-10-18
US20220327365A1 (en) 2022-10-13
JP2022162348A (ja) 2022-10-24

Similar Documents

Publication Publication Date Title
JP6942900B1 (ja) 情報処理装置、情報処理方法及びプログラム
Zhang et al. An overview of recent developments in Lyapunov–Krasovskii functionals and stability criteria for recurrent neural networks with time-varying delays
US11227188B2 (en) Computer system for building, training and productionizing machine learning models
JP7009614B2 (ja) ディープニューラルネットワークの正規化方法および装置、機器、ならびに記憶媒体
CN109544306B (zh) 一种基于用户行为序列特征的跨领域推荐方法及装置
US11574096B1 (en) Systems and methods for time series simulation
US11694165B2 (en) Key-value memory network for predicting time-series metrics of target entities
Yu et al. A user-based cross domain collaborative filtering algorithm based on a linear decomposition model
US20210166131A1 (en) Training spectral inference neural networks using bilevel optimization
Makwe et al. An empirical study of neural network hyperparameters
US11847389B2 (en) Device and method for optimizing an input parameter in a processing of a semiconductor
WO2023210665A1 (ja) 計算グラフの改善
US20230046601A1 (en) Machine learning models with efficient feature learning
Luo et al. Image classification with a MSF dropout
Tselykh et al. Effect of resonance in the effective control model based on the spread of influence on directed weighted signed Graphs
Romanenko et al. Application of impulse process models with multirate sampling in cognitive maps of cryptocurrency for dynamic decision making
US20230359704A1 (en) Centralized repository and data sharing hub for establishing model sufficiency
Nhose et al. A CNN-Based Model to Forecast the South African Unemployment Rate
US20230342587A1 (en) Ontology change graph publishing system
Gusmão et al. Artificial Neural Network Overview
US20230351491A1 (en) Accelerated model training for real-time prediction of future events
US20220351257A1 (en) Specialty goods price evaluation using social networks-based producers representation
US20230351169A1 (en) Real-time prediction of future events using integrated input relevancy
Chen Prediction Calculation of Stock Composite Index Closing Price Based on Grey Correlation Analysis Method
US20230351493A1 (en) Efficient processing of extreme inputs for real-time prediction of future events

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210413

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210413

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210908

R150 Certificate of patent or registration of utility model

Ref document number: 6942900

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150