JP2020086738A - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
JP2020086738A
JP2020086738A JP2018217907A JP2018217907A JP2020086738A JP 2020086738 A JP2020086738 A JP 2020086738A JP 2018217907 A JP2018217907 A JP 2018217907A JP 2018217907 A JP2018217907 A JP 2018217907A JP 2020086738 A JP2020086738 A JP 2020086738A
Authority
JP
Japan
Prior art keywords
neural network
output
layer
neural
layers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018217907A
Other languages
English (en)
Inventor
山本 康平
Kohei Yamamoto
康平 山本
前野 蔵人
Kurato Maeno
蔵人 前野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2018217907A priority Critical patent/JP2020086738A/ja
Priority to PCT/JP2019/041365 priority patent/WO2020105341A1/ja
Publication of JP2020086738A publication Critical patent/JP2020086738A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ニューラルネットワークの性能低下を抑えつつニューラルネットワークにおける層数を効率的に削減する。【解決手段】第1のニューラルネットワークに対して各々が並列に設けられた複数の第2のニューラルネットワークを生成するとともに、複数の第2のニューラルネットワークそれぞれに出力を行って出力分布を記録する第3のニューラルネットワークを生成する生成部と、少なくとも複数の第2のニューラルネットワークそれぞれの出力と、第1のニューラルネットワークの出力とに基づく差分に関する値が最小化されるように、第3のニューラルネットワークの訓練を行う学習部と、少なくとも1つ以上のデータに関する第3のニューラルネットワークの出力の統計量に基づいて複数の第2のニューラルネットワークから一のニューラルネットワークを決定する判定部と、を備える、情報処理装置が提供される。【選択図】図1

Description

本発明は、情報処理装置および情報処理方法に関する。
一般に、今日の画像認識用途などで高い性能を有する多層ニューラルネットワークは膨大な数のパラメータで構成されており、多層ニューラルネットワークを動作させるには高い演算能力と広いメモリ帯域幅を有するハードウェアが必要である。そこで、ネットワークを構成するパラメータの数を削減し、ネットワークの規模を縮小する技術が登場してきている。
例えば、蒸留(Knowlodge Distillation)と呼ばれる手法が提案されている(例えば、非特許文献1参照)。かかる手法は、訓練済みの大規模な多層ニューラルネットワーク(以下、「教師モデル」と言う。)の出力データ(以下、「ソフトターゲット」と言う。)を元に小規模な多層ニューラルネットワーク(以下、「生徒モデル」と言う。)を訓練する手法である。かかる手法は、認識などの精度劣化を防ぎつつパラメータ数を削減することに成功している。
また、上記した蒸留において適切な規模のネットワーク構造を作成する手法が開示されている(例えば、特許文献1参照)。具体的には、教師モデルに含まれる2つの中間層を取り出し、2つの中間層それぞれに新規の出力層を追加し、新規の出力層が各々に追加された2つの中間層を追加学習することによって得られる出力の類似度に基づいて、2つの中間層のいずれか一方を削除する処理を、教師モデルの全ての層に対して適用することによって、最適な規模のネットワーク構造を求める手法が開示されている。
特開2017−182319号公報
Geoffrey Hinton、他2名、"Distilling the Knowledge in a Neural Network"、[online]、2015年3月9日、Cornell University Library、[平成30年11月14日検索]、インターネット<https://arxiv.org/pdf/1503.02531.pdf> MatthieuCourbariaux、他4名、"BinarizedNeural Networks: Training Neural Networks withWeights and ActivationsConstrained to +1 or -1"、[online]、2016年3月17日、Cornell University Library、[平成30年11月14日検索]、インターネット<https://arxiv.org/pdf/1602.02830.pdf>
しかしながら、非特許文献1に開示された技術では、認識などの精度を維持しつつ最もパラメータ数を削減可能とする最適な規模のネットワーク構造を人手で設計する必要がある。
また、特許文献1に開示された技術では、追加学習と類似度の計算とが必要となるため、かかる技術をより大規模な多層ニューラルネットワークに適用しようとすると、計算コストが膨大になってしまう。例えば、中間層が100層存在するネットワークに、かかる技術を適用しようとすると、隣接する層間でのみ削減判定を行うようにしても99回の追加学習と類似度計算が必要となり効率的ではない。
そこで、ニューラルネットワークの性能低下を抑えつつニューラルネットワークにおける層数を効率的に削減するための情報を得る技術が提供されることが望まれる。
上記問題を解決するために、本発明のある観点によれば、複数の処理層を含んだ第1のニューラルネットワークを取得する入力部と、前記第1のニューラルネットワークに対して各々が並列に設けられた複数の第2のニューラルネットワークを生成するとともに、前記複数の第2のニューラルネットワークそれぞれに出力を行って出力分布を記録する第3のニューラルネットワークを生成する生成部と、少なくとも前記複数の第2のニューラルネットワークそれぞれの出力と、前記第1のニューラルネットワークの出力とに基づく差分に関する値が最小化されるように、前記第3のニューラルネットワークの訓練を行う学習部と、少なくとも1つ以上のデータに関する前記第3のニューラルネットワークの出力の統計量に基づいて前記複数の第2のニューラルネットワークから一のニューラルネットワークを決定する判定部と、前記複数の第2のニューラルネットワークおよび前記第3のニューラルネットワークから、前記一のニューラルネットワーク以外の前記複数の第2のニューラルネットワークを削除するとともに、前記第3のニューラルネットワークを削除する修正部と、前記一のニューラルネットワークを出力する出力部と、を備える、情報処理装置が提供される。
前記第3のニューラルネットワークは、前記学習部による訓練によってパラメータが更新されると、更新後の前記パラメータに基づいて前記複数の第2のニューラルネットワークに出力を行ってもよい。
前記出力分布は、確率分布であってよい。
前記第3のニューラルネットワークは、1つの要素が1であり他の要素が0であるベクトルを出力するセレクタ機能を有してもよい。
前記複数の第2のニューラルネットワークの層数は、前記第1のニューラルネットワークの層数よりも少なくてもよい。
前記複数の第2のニューラルネットワークそれぞれは、前記第1のニューラルネットワークを構成する少なくとも1つ以上の中間層を含んでもよい。
前記学習部は、前記第3のニューラルネットワークの出力および前記複数の第2のニューラルネットワークそれぞれの出力と、前記第1のニューラルネットワークの出力とに基づく差分に関する値が最小化されるように、前記訓練を行ってもよい。
前記統計量は、最頻値であってもよい。
また、本発明の別の観点によれば、複数の処理層を含んだ第1のニューラルネットワークを取得する入力部と、前記第1のニューラルネットワークに対して各々が並列に設けられた複数の第2のニューラルネットワークを生成するとともに、前記複数の第2のニューラルネットワークそれぞれに出力を行って出力分布を記録する第3のニューラルネットワークを生成する生成部と、少なくとも前記複数の第2のニューラルネットワークそれぞれの出力と、前記第1のニューラルネットワークの出力とに基づく差分に関する値が最小化されるように、前記第3のニューラルネットワークの訓練を行う学習部と、少なくとも1つ以上のデータに関する前記第3のニューラルネットワークの出力の統計量に基づいて前記複数の第2のニューラルネットワークから一のニューラルネットワークを決定する判定部と、を備える、情報処理装置が提供される。
また、本発明の別の観点によれば、複数の処理層を含んだ第1のニューラルネットワークを取得することと、前記第1のニューラルネットワークに対して各々が並列に設けられた複数の第2のニューラルネットワークを生成するとともに、前記複数の第2のニューラルネットワークそれぞれに出力を行って出力分布を記録する第3のニューラルネットワークを生成することと、少なくとも前記複数の第2のニューラルネットワークそれぞれの出力と、前記第1のニューラルネットワークの出力とに基づく差分に関する値が最小化されるように、前記第3のニューラルネットワークの訓練を行うことと、少なくとも1つ以上のデータに関する前記第3のニューラルネットワークの出力の統計量に基づいて前記複数の第2のニューラルネットワークから一のニューラルネットワークを決定することと、
を含む、情報処理方法が提供される。
以上説明したように本発明によれば、ニューラルネットワークの性能低下を抑えつつニューラルネットワークにおける層数を効率的に削減するための情報を得る技術が提供される。
本発明の第1の実施形態に係る情報処理装置の機能構成例を示すブロック図である。 生成部によって生成される生徒モデル訓練用のネットワークの構成例を示す図である。 訓練前の補助層の構成例を示す図である。 訓練の過程における補助層の構成例を示す図である。 再構成部の処理の例を示すフローチャートである。 生徒モデルが複数段に分割されて構成される場合の例を示す図である。 本発明の第2の実施形態に係る情報処理装置の機能構成例を示すブロック図である。 同実施形態に係る教師モデルの例を示す図である。 同実施形態に係る生徒モデル訓練用のネットワークの例を示す図である。 同実施形態に係る生徒モデル訓練用のネットワークの例を示す図である。 再構成部の処理の例を示すフローチャートである。 本発明の実施形態に係る情報処理装置の例としてのコンピュータのハードウェア構成を示す図である。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一の機能構成を有する複数の構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、異なる実施形態の類似する構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。
(1.第1の実施形態)
まず、本発明の第1の実施形態について説明する。
[構成の説明]
本発明の第1の実施形態に係る情報処理装置の構成例について説明する。以下では、軽量化の対象となる訓練済みのニューラルネットワークを「教師モデル」とも言う。また、教師モデルに基づいて教師モデルの代わりに出力され得る(教師モデルが近似される)ニューラルネットワークの各候補を「生徒モデル」とも言う。本発明の実施形態では、教師モデルからの性能低下を抑えつつ、教師モデルから層数が効率的に削減された生徒モデルを得る技術を主に提案する。
なお、本明細書において使用される「ニューラルネットワーク」は、入力層、中間層および出力層のすべてを有する処理層群だけを必ずしも意味しない。例えば、本明細書において使用される「ニューラルネットワーク」は、これらの処理層群から一部だけ(例えば、一部の中間層のみなど)が切り出された1または複数の処理層も意味し得る。
図1は、本発明の第1の実施形態に係る情報処理装置10の機能構成例を示すブロック図である。ここで、情報処理装置10は、CPU(Central Processing Unit)などの演算装置を含み、図示しないメモリにより記憶されているプログラムがCPUによりRAM(Random Access Memory)に展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。あるいは、情報処理装置10は、専用のハードウェアにより構成されていてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。
図1に示すように、情報処理装置10は、入力部100、生成部101、出力部105および再構成部106を備える。再構成部106は、学習部102、判定部103および修正部104を有する。ここでは、図1に示した各ブロックについて簡潔に説明し、各ブロックの詳細な説明は、「動作の説明」において行う。
入力部100は、訓練済みの教師モデルを取得し、教師モデルを生成部101に出力する。生成部101は、入力部100から入力された教師モデルに基づいて、複数の生徒モデル(以下、「生徒モデル群」とも言う。)を生成し、生成した生徒モデル群を学習部102に出力する。
学習部102は、生成部101から生徒モデル群が入力された場合、教師モデルの訓練に用いたデータ(または他のデータ)を利用し、誤差逆伝播法(バックプロパゲーション)などによって生徒モデル群および補助層それぞれのパラメータを更新する。学習部102は、パラメータが更新された生徒モデル群および補助層を判定部103に出力する。一方、学習部102は、修正部104から1つの生徒モデルが入力された場合には、生徒モデルのパラメータを更新し、パラメータが更新された生徒モデルを出力部105に出力する。
判定部103は、パラメータが更新された生徒モデル群および補助層に基づいて、生徒モデル群から1つの生徒モデルを得るために必要な情報を修正部104に出力する。修正部104は、判定部103から入力された情報に基づき、生徒モデル群から1つの生徒モデルを得るための修正を行い、当該1つの生徒モデルを学習部102に出力する。出力部105は、パラメータが更新された生徒モデルを出力する。
[動作の説明]
続いて、本発明の第1の実施形態に係る情報処理装置10の動作例について説明する。まず、入力部100は、任意の訓練用データを用いてあらかじめパラメータが最適化された訓練済みの教師モデルを取得する。訓練済みの教師モデルは、その構造情報とパラメータとを含む。パラメータは、ニューロンに設定される重みを含む。ここで、訓練済みの教師モデルは、複数の処理層を含んだ第1のニューラルネットワーク(多層ニューラルネットワーク)であってよく、その構造は特に限定されない。例えば、教師モデルは、全結合ニューラルネットワークであってもよいし、畳み込みニューラルネットワークであってもよい。
入力部100は、取得した教師モデルを生成部101に出力する。そして、生成部101は、入力部100から入力される教師モデルに基づいて、教師モデルと複数の第2のニューラルネットワークと第3のニューラルネットワークとを含んだ生徒モデル訓練用のネットワークを生成する。複数の第2のニューラルネットワークおよび第3のニューラルネットワークについては、後に説明する。
図2は、生成部101によって生成される生徒モデル訓練用のネットワークの構成例を示す図である。図2を参照すると、中間層201−1〜204−1が順に接続された教師モデルが示されている。中間層201−1〜204−1は、何らかの関数である。例えば、中間層201−1から出力される特徴データをxとし、中間層202−1を関数fとした場合、中間層202−1から出力される特徴データyは、y=f(x)と表現され得る。ここで、図2に示した例では、教師モデル(中間層201−1〜204−1)の層数が4層であるが、教師モデルの層数は限定されない。
図2を参照すると、生徒モデル訓練用のネットワークは、教師モデル(中間層201−1〜204−1)に対して並列に設けられた複数の第2のニューラルネットワークを含んでいる。ここで、複数の第2のニューラルネットワークそれぞれは、教師モデル(中間層201−1〜204−1)を構成する少なくとも1つ以上の中間層を含んでよい。ここで、中間層202−2は、教師モデルの中間層202−1と同じ構造かつ同じパラメータを有する。同様に、中間層203−2および中間層203−3それぞれは、教師モデルの中間層203−1と同じ構造かつ同じパラメータを有する。中間層204−2、中間層204−3および中間層204−4それぞれは、教師モデルの中間層204−1と同じ構造かつ同じパラメータを有する。
そして、第2のニューラルネットワークの1つ目は、中間層202−2、中間層203−2、中間層204−2が順に接続されたネットワークである。第2のニューラルネットワークの2つ目は、中間層203−3、中間層204−3が順に接続されたネットワークである。第2のニューラルネットワークの3つ目は、中間層204−4を含んだネットワークである。しかし、複数の第2のニューラルネットワークそれぞれの具体的な構成は限定されない。また、図2には、第2のニューラルネットワークの数は3つ(1つ目から3つ目まで)の場合が示されているが、第2のニューラルネットワークの数は限定されない。
ここでは、第2のニューラルネットワークの1つ目の層数は3層であり、第2のニューラルネットワークの2つ目の層数は2層であり、第2のニューラルネットワークの3つ目の層数は1層である。このように、第2のニューラルネットワークの層数が、教師モデル(中間層201−1〜204−1)の層数よりも少ないほうが、教師モデル(中間層201−1〜204−1)が軽量化された生徒モデルが出力される可能性が高まる。
また、生徒モデル訓練用のネットワークは、生徒モデルを構成し得る処理層206を含んでいる。処理層206の構造は特に限定されない。例えば、処理層206は、全結合ニューラルネットワークであってもよいし、畳み込みニューラルネットワークであってもよい。処理層206には、教師モデルの中間層201−1に入力される入力データ200と同一のデータが入力される。処理層206は、第3のニューラルネットワークの例としての補助層207、中間層202−2、中間層203−3、中間層204−4、出力データ208それぞれに向けて同一の特徴データを出力する。
補助層207は、処理層206からの入力に基づいて各出力データを算出し、各出力データに基づいて、中間層202−2、中間層203−3、中間層204−4、出力データ208それぞれに向けた出力を行う。処理層206から出力される特徴データと異なり、補助層207から出力される特徴データは、出力先によって異なることが想定される。補助層207は、これらの出力を行うと、出力分布を記録する。以下では、図3および図4を参照しながら、補助層207の構成例について説明する。
図3は、訓練前の補助層207の構成例を示す図である。また、図4は、訓練の過程における補助層207の構成例を示す図である。補助層207の訓練は、後に説明するように、学習部102によって行われる。図3を参照すると、訓練前の補助層207の例としての補助層207Aが示されている。図3に示すように、補助層207Aは、第1層から第n層(nは2以上の整数)までの全結合層からなる全結合ニューラルネットワークを含んでよい。また、第n層を構成するニューロンの数は、補助層207Aからの出力先の数と一致する。ここで、補助層207からの出力分布は、確率分布であってよい。確率分布は、全ての出力値の合計が1となる出力分布である。
図3に示した例では、補助層207が最大値抽出関数および非線形関数の例としての符号関数を有しており、最大値抽出関数を用いて、第n層を構成するニューロンからの出力の最大値を抽出し、符号関数を用いて、最大値に対応して1を出力し、その他に対応して0を出力する例が示されている。これによって、補助層207は、1つの要素が1であり他の要素が0であるベクトル(以下、「One−hotベクトル」とも言う。)を出力するセレクタとして機能し得る。
しかし、One−hotベクトルを出力するための構成は、かかる例に限定されない。例えば、Gumbel−Softmax分布からのサンプリングによってもOne−hotベクトルを出力可能である。さらに、補助層207からの出力分布は、One−hotベクトル以外の確率分布であってもよい。例えば、Softmax関数を用いれば、第n層を構成するニューロンからの出力に対応して、補助層207からの出力分布を、確率分布とすることが可能である。
訓練前には、補助層207A(図3)のパラメータが更新されていないため、補助層207Aからの出力は、全ての出力先に対してほぼ均等になると考えられる。図2に戻って説明を続ける。補助層207から出力されたOne−hotベクトルの各要素は、処理層206から出力された特徴データに対して乗算され、中間層202−2、中間層203−3、中間層204−4、出力データ208それぞれに向けて出力される。中間層204−2、中間層204−3、中間層204−4、補助層207それぞれは、加算されて出力データ208となる。
生成部101によって生徒モデル訓練用のネットワーク(図2)が生成されると、再構成部106による処理が実行される。図5は、再構成部106の処理の例を示すフローチャートである。図5に示したように、学習部102は、生成部101から生徒モデル群および補助層207を取得する(S100)。より具体的には、学習部102は、生成部101から生徒モデル訓練用のネットワーク(図2)を取得する。そして、学習部102は、生徒モデル訓練用のネットワーク(図2)に基づいて、生徒モデル(の処理層206)および補助層207を訓練することによって、生徒モデル(の処理層206)および補助層207のパラメータの更新を行う(S101)。
このとき、教師モデル(中間層201−1、中間層202−1、中間層203−1、中間層204−1)、処理層206と接続された中間層(中間層202−2、中間層203−2、中間層204−2、中間層203−3、中間層204−3、中間層204−4)の訓練は行われなくてよい。また、入力データ200は、教師モデルの訓練に用いたデータと同一のデータであってもよいし、他のデータであってもよい。
より具体的に、学習部102は、少なくとも中間層204−2、中間層204−3、中間層204−4それぞれの出力(例えば、各出力の加算結果)と、教師モデルの中間層204−1の出力とに基づく差分に関する値(誤差)が最小化されるように、生徒モデル群および補助層207の訓練を行う。
さらに詳細には、学習部102は、補助層207の出力(補助層207の出力と処理層206の出力との乗算結果)および中間層204−2、中間層204−3、中間層204−4それぞれの出力(ここでは、加算結果である出力データ208)と、教師モデルの中間層204−1の出力(出力データ205)とに基づく差分に関する値(誤差)が最小化されるように、生徒モデル(の処理層206)および補助層207の訓練を行う。例えば、学習部102は、以下の式(1)に示すような目的関数E(x)が最小化されるように生徒モデル(の処理層206)および補助層207の訓練を行う。
Figure 2020086738
Lは教師モデルと接続する生徒モデルの最大層数を示し、訓練対象ではなく予め与えられる。例えば、図2に示した例では、処理層206、中間層202−2、中間層203−2、中間層204−2の4つの層を含んだ生徒モデルの層数が最も多いため、L=4である。式(1)は、二乗誤差の形式を取っているが、二乗誤差の代わりに、絶対誤差などといったその他の評価尺度が用いられてもよい。式(1)からも把握されるように、補助層207から出力されたOne−hotベクトルの各要素が、各生徒モデルの出力との間で乗算されるため、実際に教師モデルの出力との間で誤差が算出されるのは、1つの生徒モデルからの出力のみとなる。
訓練の過程における補助層207について説明する。図4を参照すると、訓練の過程における補助層207の例としての補助層207Bが示されている。補助層207Bの訓練が進み、補助層207Bのパラメータが更新されると、補助層207は、更新後のパラメータに基づいて出力を行う。このとき、補助層207Bからの出力には、出力先によって偏りが生じてくる。図4に示した例では、左から3つ目のニューロンからの出力が他のニューロンよりも大きくなっている。そのため、図4に示した例では、左から3つ目の出力先への出力が大きくなっている(すなわち、図4に示した例では、補助層207Bの訓練が進むと、補助層207によって左から3つ目の出力先が選択されるようになる)。
なお、図4に示した補助層207は符号関数を含んでいるが、符号関数は微分可能でないのが一般的である。そこで、補助層207を訓練しようとしても、誤差逆伝播法を利用することができずに補助層207の訓練を行うことができなくなることが予想される。しかし、一例として、上記した非特許文献2に記載された技術を用いれば、微分不可能な符号関数を有する補助層207の訓練も可能になると考えられる。
図5に戻って説明を続ける。学習部102は、生徒モデル(の処理層206)および補助層207の訓練を進めながら、所定の収束条件が満たされない場合には(S102において「No」)、S101に動作を移行させる。一方、学習部102は、所定の収束条件が満たされた場合には(S102において「Yes」)、S103に動作を移行させる。収束条件はどのような条件であってもよい。一例として、収束条件は、誤差が閾値以下となったという条件であってもよい。
S103に動作が移行されると、判定部103は、少なくとも1つ以上のデータを生徒モデルの処理層206に入力し、当該データに関する補助層207の出力分布(例えば、One−hotベクトル)から所定の統計量をスコアとして算出する(S103)。統計量は特に限定されないが、最頻値などの代表値であってもよい。判定部103は、算出したスコアに基づいて複数の生徒モデルから1つの生徒モデルを決定する。例えば、判定部103は、最頻値などの代表値が最も大きい出力先に対応する生徒モデルを1つの生徒モデルとして決定してもよい。
修正部104は、生徒モデルの処理層206から中間層204−2、中間層204−3、中間層204−4までのネットワークから、補助層207を除外(削除)する(S104)。これによって、生徒モデルの処理層206から、中間層202−2、中間層203−3、中間層204−4に出力に対して、補助層207からの出力が乗算されなくなる。また、修正部104は、接続関係の修正を行う(S105)。より具体的に、修正部104は、判定部103によって決定された1つの生徒モデル以外の生徒モデルを生徒モデル群から削除することによって、1つの生徒モデルを残す。
ここで、残される可能性のある生徒モデルとしては、1つ目の生徒モデル(処理層206、中間層202−2、中間層203−2、中間層204−2が順に接続された生徒モデル)、2つ目の生徒モデル(処理層206、中間層203−3、中間層204−3が順に接続された生徒モデル)、3つ目の生徒モデル(処理層206、中間層204−4が順に接続された生徒モデル)、4つ目の生徒モデル(処理層206からなる生徒モデル)が挙げられる。
これによって、生徒モデルの処理層206から1つの中間層(中間層202−2、中間層203−3、中間層204−4のいずれか)に対してのみ出力がなされるようになる。残された生徒モデルの層数(入力データ200から出力データ208までの経路に存在する層数)は、場合によっては、教師モデルの層数(入力データ200から出力データ205までの経路に存在する層数)よりも少なくなる。すなわち、教師モデルよりも層数が少ない生徒モデルが残されれば、教師モデルは、軽量化された生徒モデルに近似され得る。
学習部102は、残された生徒モデルを訓練することによって、残された生徒モデルのパラメータを更新する(S106)。このときに利用される入力データは、教師モデルの訓練に用いたデータと同一のデータであってもよいし、他のデータであってもよい。このときのパラメータの更新は、生徒モデルの処理層206に対してのみ行ってもよいが、処理層206だけではなく残された生徒モデル全体に対して行われるのが望ましい。
学習部102は、生徒モデルの訓練を進めながら、所定の収束条件が満たされない場合には(S107において「No」)、S106に動作を移行させる。一方、出力部105は、所定の収束条件が満たされた場合には(S107において「Yes」)、(パラメータが更新された)残された生徒モデルを出力する。収束条件はどのような条件であってもよい。一例として、収束条件は、S102と同様に、誤差が閾値以下となったという条件であってもよい。
なお、図2では、入力データ200から出力データ205を生成する教師モデルに対応する生徒モデルを1段で構成する例を示した。しかし、生徒モデルは、複数段に分割されて構成されてもよい。図6は、生徒モデルが複数段に分割されて構成される場合の例を示す図である。図6を参照すると、教師モデルは、10層の中間層(中間層201−1、202−1、・・・、214−1)によって構成されている。図6に示した例では、中間層201−1〜204−1を含む1段目のネットワーク300と、中間層209−1〜212−1を含む2段目のネットワーク301と、中間層213−1〜214−1を含む3段目のネットワーク302とにネットワークが分割されている。
ネットワーク300およびネットワーク301それぞれは、図2に示した生徒モデル訓練用のネットワークと同等のネットワークである。すなわち、図6に示した例では、図2に示した生徒モデル訓練用のネットワークと同等のネットワークが2段接続されている。1段目のネットワーク300には、上記した処理層206と同等の処理層216が含まれ、上記した補助層207と同等の補助層217が含まれ、中間層202−1と同じ中間層202−2が含まれ、中間層203−1と同じ中間層203−2、203−3が含まれ、中間層204−1と同じ中間層204−2〜204−4が含まれている。
2段目のネットワーク301には、上記した処理層206と同等の処理層216が含まれ、上記した補助層207と同等の補助層217が含まれ、中間層210−1と同じ中間層210−2が含まれ、中間層211−1と同じ中間層211−2、211−3が含まれ、中間層212−1と同じ中間層212−2〜212−4が含まれている。2段目のネットワーク301の入力データとしては、1段目のネットワーク300の出力データが用いられている。
3段目のネットワーク302には、中間層213−1と同じ中間層213−2が含まれ、中間層214−1と同じ中間層214−2が含まれている。3段目のネットワーク302の入力データとしては、2段目のネットワーク301の出力データが用いられている。この例では、1段目のネットワーク300および2段目のネットワーク301それぞれに含まれる、処理層216および補助層217が訓練対象である。このとき、パラメータの更新は、1段ずつ実行されてもよいし、複数段のパラメータが一括で更新されてもよい。
複数段のパラメータが一括で更新される場合、複数段に対応する目的関数Eは、以下の式(2)に示すように表現されてもよい。そして、学習部102は、目的関数Eが最小化されるように訓練を行う。
Figure 2020086738
[効果の説明]
以上に説明したように、本発明の第1の実施形態によれば、処理層206の出力は複数に分岐し、1つは補助層207に入力され、その他は教師モデルの中間層202−1〜204〜1に対応する生徒モデルの中間層202−2、203−3、204−4に入力され、あるいはそのまま出力データ208に向けて出力される。かかる構成において、生徒モデル群が訓練されれば、教師モデルを近似する生徒モデルとして、教師モデルの層数よりも少ない層数の生徒モデルが得られる可能性がある。
例えば、処理層206から中間層202−2のみへの接続が維持されれば、処理層206が中間層201−1を近似することになる。あるいは、処理層206から中間層204−4のみへの接続が維持されれば、処理層206が中間層201−1〜203−1を近似することになる。教師モデルの関数が冗長な変換を行っているほど、処理層206が多くの層を近似する可能性が高くなる。これによって、教師モデルを構成するパラメータ数を大幅に削減することが可能となる。これは、処理層206の出力する特徴データが教師モデルのどの層の入力に類似しているかの判定能力を、補助層207が訓練によって獲得できるためである。
また、判定部103は、最頻値などの統計量に基づいて教師モデルを近似できる層を決定する。その理由は、補助層207の出力が入力に依存して変化するためである。また、できる限り少ない層数の生徒モデルに教師モデルを近似させたい場合には、比較的層数が少ない生徒モデルに対応する誤差の補正パラメータを比較的大きな値に設定すればよい。
上記では、補助層の除外S104と接続関係の修正S105の後にパラメータ更新S106を行う例を示した。この処理には、生徒モデルの性能を高める効果がある。例えば、補助層207の出力の最頻値に基づいて接続関係を修正した場合、最頻値に対応する経路以外からの出力がなくなるため、そのような出力に関する性能が低下することが想定できる。しかし、パラメータ更新を行うことによって、1つの経路でも性能が出るように最適化されるため、その性能低下の影響を補償することができる。
また、学習部102は、生徒モデルのパラメータ更新S106において、生徒モデルの処理層206の出力先に中間層がある場合は、それらの中間層のパラメータも更新するとよい。これによって、モデルの表現能力が高まるため、より性能が向上することが期待できる。
図6に示したように、生徒モデルを含むネットワーク構造を多段構成にすることで、層数の覆い教師モデルに対しても2度の学習計算(図5におけるS101、S106)を行うことによって効率的に層数を削減した生徒モデルを訓練できる。
以上、本発明の第1の実施形態について説明した。
(2.第2の実施形態)
まず、本発明の第2の実施形態について説明する。
[構成の説明]
本発明の第2の実施形態に係る情報処理装置の構成例について説明する。図7は、本発明の第2の実施形態に係る情報処理装置40の機能構成例を示すブロック図である。以下では、本発明の第2の実施形態に係る情報処理装置40のうち、本発明の第1の実施形態に係る情報処理装置10と共通する構成の詳細な説明は省略する。本発明の第1の実施形態に係る情報処理装置10と異なる構成について主に説明する。
図7に示すように、情報処理装置40は、入力部400、出力部405および再構成部406を備える。再構成部406は、本発明の第1の実施形態に係る再構成部106と異なり、学習部402、判定部403および修正部404を有する他、生成部401を有する。ここでは、図7に示した各ブロックについて簡潔に説明し、各ブロックの詳細な説明は、「動作の説明」において行う。
入力部400は、訓練済みの教師モデルを取得し、教師モデルを生成部401に出力する。生成部401は、入力部400から入力された教師モデルに基づいて、生徒モデル群を生成し、生成した生徒モデル群を学習部402に出力する。しかし、生成部401は、学習部402から生徒モデルが入力された場合には、入力された生徒モデルと教師モデルとに基づいて、新たな生徒モデル群を生成し、生成した新たな生徒モデル群を学習部402に出力する。
学習部402は、生成部401から生徒モデル群が入力された場合、教師モデルの訓練に用いたデータ(または他のデータ)を利用し、誤差逆伝播法(バックプロパゲーション)などによって生徒モデル群および補助層それぞれのパラメータを更新する。一方、学習部402は、修正部104から1つの生徒モデルが入力された場合には、生徒モデルのパラメータを更新し、パラメータが更新された生徒モデルを修正部404または出力部405に出力する。
判定部403は、パラメータが更新された生徒モデル群および補助層に基づいて、生徒モデル群から1つの生徒モデルを得るために必要な情報を修正部404に出力する。修正部404は、判定部403から入力された情報に基づき、生徒モデル群から1つの生徒モデルを得るための修正を行い、当該1つの生徒モデルを学習部402に出力する。出力部405は、パラメータが更新された生徒モデルを出力する。
[動作の説明]
続いて、本発明の第2の実施形態に係る情報処理装置40の動作例について説明する。まず、入力部400は、本発明の第1の実施形態と同様に、訓練済みの教師モデルを取得する。そして、入力部400は、取得した教師モデルを再構成部406(生成部401)に出力する。
図8は、本発明の第2の実施形態に係る教師モデルの例を示す図である。図8を参照すると、中間層501−1〜510−1が順に接続された教師モデルが示されている。ここで、図8に示した例では、教師モデルの層数が10層であるが、教師モデルの層数は限定されない。また、図8には、教師モデルの入力データ500と教師モデルの出力データ511とが示されている。図9および図10は、本発明の第2の実施形態に係る生徒モデル訓練用のネットワークの例を示す図である。以下、再構成部406の処理の例について説明する。
図11は、再構成部406の処理の例を示すフローチャートである。上記したように、本発明の第1の実施形態では、生徒モデルは、複数段に分割されて構成されてもよい。一方、本発明の第2の実施形態では、教師モデルの全体に対応する生徒モデルを一度に構成するのではなく、教師モデルの一部を処理対象として当該処理対象に対応する生徒モデルを構成し、教師モデルにおける処理対象の変更に伴って当該処理対象に対応する生徒モデルを新たに構成する。ここでは、一度に処理対象とされる層数が4つである場合を想定するが、一度に処理対象とされる層数は限定されない。
まず、生成部401は、入力部400から入力される教師モデルに基づいて、教師モデルの一部と当該一部に対応する生徒モデル群と補助層とを含んだ生徒モデル訓練用のネットワークを生成する(S200)。続いて、更新処理が実行される(S201)。更新処理S201は、図5に示した再構成部106の処理S100〜S107と同様に実行される。更新処理S201が終わると、学習部402は、終了条件の判定を行う(S202)。終了条件は、教師モデルの全ての層に対する処理が終わったという条件であってよい。
学習部402は、終了条件が満たされていないと判定した場合(S202において「No」)、S200に動作が移行され、生成部401は、教師モデルの中の処理対象を変更し、教師モデルの中の処理対象と当該処理対象に対応する生徒モデル群と補助層とを含んだ生徒モデル訓練用のネットワークを生成する。一方、学習部402は、終了条件が満たされたと判定した場合(S202において「Yes」)、動作を終了する。かかる処理対象の変更について詳細に説明する。
図9を参照すると、最初の更新処理S201が終わった段階における生徒モデル訓練用のネットワーク601が示されている。ここでは、教師モデルのうち中間層501−1〜504−1が処理対象とされ、中間層501−1〜503−1に対応する処理層516が残され(すなわち、中間層501−1〜503−1を近似する処理層516が残され)、処理対象の中の最終層である中間層504−1が近似されなかった例が示されている。このとき、図10に示すように、生成部401は、近似されなかった中間層504−1を含んだ中間層504−1〜507−7に処理対象を変更する。生成部401は、新たな処理対象に対応する生徒モデル群および補助層517を含んだ生徒モデル訓練用のネットワーク603を生成する。
生徒モデル訓練用のネットワーク603には、上記した処理層206と同等の処理層516が含まれ、上記した補助層207と同等の補助層517が含まれ、中間層505−1と同じ中間層505−2が含まれ、中間層506−1と同じ中間層506−2、506−3が含まれ、中間層507−1と同じ中間層507−2〜507−4が含まれている。
そして、最初の更新処理S201が終わった段階における生徒モデル訓練用のネットワーク602(生徒モデル訓練用のネットワーク601と同じ)の後段に生徒モデル訓練用のネットワーク603を接続し、生徒モデル訓練用のネットワーク602と生徒モデル訓練用のネットワーク603とが接続されたネットワークを、学習部402に出力する。その後、更新処理S201が再度実行される。かかる更新処理S201において、生徒モデル訓練用のネットワーク602は、訓練対象に含められてもよいし、訓練対象に含められなくてもよい。
このように、再構成部406は、教師モデルの入力側から一部ずつを処理対象として当該処理対象に対応する生徒モデルを構成し、当該一部に近似する生徒モデルを徐々に連結させていくことによって、教師モデルを必要最低限の層数で近似する生徒モデルを得ることができる。
[効果の説明]
以上に説明したように、本発明の第2の実施形態によれば、必要最低限の層数で生徒モデルを構築することができ、教師モデルに対して精度劣化を抑えながらパラメータ数を大幅に削減した生徒モデルを得ることができる。本発明の第1の実施形態と異なり、本発明の第2の実施形態では、教師モデルの層を流用しないため(教師モデルの一部ごとに生徒モデルへの近似が行われるため)、パラメータの削減量は、本発明の第1の実施形態と比較して本発明の第2の実施形態のほうが多くなると考えられる。
(3.ハードウェア構成例)
続いて、本発明の実施形態に係る情報処理装置10のハードウェア構成例について説明する。以下では、本発明の実施形態に係る情報処理装置10のハードウェア構成例として、コンピュータ900のハードウェア構成例について説明する。なお、以下に説明するコンピュータ900のハードウェア構成例は、情報処理装置10のハードウェア構成の一例に過ぎない。したがって、情報処理装置10のハードウェア構成は、以下に説明するコンピュータ900のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。
図12は、本発明の実施形態に係る情報処理装置10の例としてのコンピュータ900のハードウェア構成を示す図である。コンピュータ900は、CPU(Central Processing Unit)901と、ROM(Read Only Memory)902と、RAM(Random Access Memory)903と、ホストバス904と、ブリッジ905と、外部バス906と、インタフェース907と、入力装置908と、出力装置909と、ストレージ装置910と、通信装置911と、を備える。
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従ってコンピュータ900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバス等から構成されるホストバス904により相互に接続されている。
ホストバス904は、ブリッジ905を介して、PCI(Peripheral Component Interconnect/Interface)バス等の外部バス906に接続されている。なお、必ずしもホストバス904、ブリッジ905および外部バス906を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
入力装置908は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU901に出力する入力制御回路等から構成されている。コンピュータ900を操作するユーザは、この入力装置908を操作することにより、コンピュータ900に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置909は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。
ストレージ装置910は、データ格納用の装置である。ストレージ装置910は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置910は、例えば、HDD(Hard Disk Drive)で構成される。このストレージ装置910は、ハードディスクを駆動し、CPU901が実行するプログラムや各種データを格納する。
通信装置911は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置911は、無線通信または有線通信のどちらに対応してもよい。
以上、本発明の実施形態に係る情報処理装置10のハードウェア構成例について説明した。
(4.まとめ)
以上に説明したように、本発明の実施形態によれば、入力部と生成部と学習部と判定部と修正部と出力部とを備える情報処理装置が提供される。ここで、入力部は、複数の処理層を含んだ第1のニューラルネットワークを取得する。生成部は、前記第1のニューラルネットワークに対して各々が並列に設けられた複数の第2のニューラルネットワークを生成するとともに、前記複数の第2のニューラルネットワークそれぞれに出力を行って出力分布を記録する第3のニューラルネットワークを生成する。
学習部は、少なくとも前記複数の第2のニューラルネットワークそれぞれの出力と、前記第1のニューラルネットワークの出力とに基づく差分に関する値が最小化されるように、前記第3のニューラルネットワークの訓練を行う。判定部は、少なくとも1つ以上のデータに関する前記第3のニューラルネットワークの出力の統計量に基づいて前記複数の第2のニューラルネットワークから一のニューラルネットワークを決定する。修正部は、前記複数の第2のニューラルネットワークおよび前記第3のニューラルネットワークから、前記一のニューラルネットワーク以外の前記複数の第2のニューラルネットワークを削除するとともに、前記第3のニューラルネットワークを削除する。出力部は、前記一のニューラルネットワークを出力する。
かかる構成によれば、ニューラルネットワークの性能低下を抑えつつニューラルネットワークにおける層数を効率的に削減するための情報を得る技術が提供される。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
例えば、本発明の第1の実施形態および第2の実施形態では、補助層からの出力としてOne−hotベクトルを利用する場合を主に想定した。しかし、補助層からの出力として、Softmax関数などといった他の関数の出力が用いられてもよい。ここで、Softmax関数は、ニューロンの出力値の合計が1になるように正規化する関数である。Softmax関数の出力を用いた場合、生徒モデルの処理層206から複数の分岐に同時に接続されてしまう。しかし、例えば、Softmax関数の出力値の統計量(例えば、最頻値など)に基づいて、生徒モデルの処理層206からの接続先を1つの分岐に決定すれば、Softmax関数が用いられる場合にも、本発明の実施形態が適用され得る。
10 情報処理装置
100 入力部
101 生成部
102 学習部
103 判定部
104 修正部
105 出力部
106 再構成部
200 入力データ
201〜204 中間層
205 出力データ
206 処理層
207 補助層
208 出力データ
209〜214 中間層
216 処理層
217 補助層
300〜302 ネットワーク
40 情報処理装置
400 入力部
401 生成部
402 学習部
403 判定部
404 修正部
405 出力部
406 再構成部
500 入力データ
501〜507 中間層
511 出力データ
516 処理層
517 補助層
601〜603 ネットワーク

Claims (10)

  1. 複数の処理層を含んだ第1のニューラルネットワークを取得する入力部と、
    前記第1のニューラルネットワークに対して各々が並列に設けられた複数の第2のニューラルネットワークを生成するとともに、前記複数の第2のニューラルネットワークそれぞれに出力を行って出力分布を記録する第3のニューラルネットワークを生成する生成部と、
    少なくとも前記複数の第2のニューラルネットワークそれぞれの出力と、前記第1のニューラルネットワークの出力とに基づく差分に関する値が最小化されるように、前記第3のニューラルネットワークの訓練を行う学習部と、
    少なくとも1つ以上のデータに関する前記第3のニューラルネットワークの出力の統計量に基づいて前記複数の第2のニューラルネットワークから一のニューラルネットワークを決定する判定部と、
    前記複数の第2のニューラルネットワークおよび前記第3のニューラルネットワークから、前記一のニューラルネットワーク以外の前記複数の第2のニューラルネットワークを削除するとともに、前記第3のニューラルネットワークを削除する修正部と、
    前記一のニューラルネットワークを出力する出力部と、
    を備える、情報処理装置。
  2. 前記第3のニューラルネットワークは、前記学習部による訓練によってパラメータが更新されると、更新後の前記パラメータに基づいて前記複数の第2のニューラルネットワークに出力を行う、
    請求項1に記載の情報処理装置。
  3. 前記出力分布は、確率分布である、
    請求項1に記載の情報処理装置。
  4. 前記第3のニューラルネットワークは、1つの要素が1であり他の要素が0であるベクトルを出力するセレクタ機能を有する、
    請求項3に記載の情報処理装置。
  5. 前記複数の第2のニューラルネットワークの層数は、前記第1のニューラルネットワークの層数よりも少ない、
    請求項1に記載の情報処理装置。
  6. 前記複数の第2のニューラルネットワークそれぞれは、前記第1のニューラルネットワークを構成する少なくとも1つ以上の中間層を含む、
    請求項1に記載の情報処理装置。
  7. 前記学習部は、前記第3のニューラルネットワークの出力および前記複数の第2のニューラルネットワークそれぞれの出力と、前記第1のニューラルネットワークの出力とに基づく差分に関する値が最小化されるように、前記訓練を行う、
    請求項1に記載の情報処理装置。
  8. 前記統計量は、最頻値である、
    請求項1に記載の情報処理装置。
  9. 複数の処理層を含んだ第1のニューラルネットワークを取得する入力部と、
    前記第1のニューラルネットワークに対して各々が並列に設けられた複数の第2のニューラルネットワークを生成するとともに、前記複数の第2のニューラルネットワークそれぞれに出力を行って出力分布を記録する第3のニューラルネットワークを生成する生成部と、
    少なくとも前記複数の第2のニューラルネットワークそれぞれの出力と、前記第1のニューラルネットワークの出力とに基づく差分に関する値が最小化されるように、前記第3のニューラルネットワークの訓練を行う学習部と、
    少なくとも1つ以上のデータに関する前記第3のニューラルネットワークの出力の統計量に基づいて前記複数の第2のニューラルネットワークから一のニューラルネットワークを決定する判定部と、
    を備える、情報処理装置。
  10. 複数の処理層を含んだ第1のニューラルネットワークを取得することと、
    前記第1のニューラルネットワークに対して各々が並列に設けられた複数の第2のニューラルネットワークを生成するとともに、前記複数の第2のニューラルネットワークそれぞれに出力を行って出力分布を記録する第3のニューラルネットワークを生成することと、
    少なくとも前記複数の第2のニューラルネットワークそれぞれの出力と、前記第1のニューラルネットワークの出力とに基づく差分に関する値が最小化されるように、前記第3のニューラルネットワークの訓練を行うことと、
    少なくとも1つ以上のデータに関する前記第3のニューラルネットワークの出力の統計量に基づいて前記複数の第2のニューラルネットワークから一のニューラルネットワークを決定することと、
    を含む、情報処理方法。
JP2018217907A 2018-11-21 2018-11-21 情報処理装置および情報処理方法 Pending JP2020086738A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018217907A JP2020086738A (ja) 2018-11-21 2018-11-21 情報処理装置および情報処理方法
PCT/JP2019/041365 WO2020105341A1 (ja) 2018-11-21 2019-10-21 情報処理装置および情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018217907A JP2020086738A (ja) 2018-11-21 2018-11-21 情報処理装置および情報処理方法

Publications (1)

Publication Number Publication Date
JP2020086738A true JP2020086738A (ja) 2020-06-04

Family

ID=70774246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018217907A Pending JP2020086738A (ja) 2018-11-21 2018-11-21 情報処理装置および情報処理方法

Country Status (2)

Country Link
JP (1) JP2020086738A (ja)
WO (1) WO2020105341A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022024211A1 (ja) * 2020-07-28 2022-02-03 三菱電機株式会社 学習活用システム、活用装置、学習装置、プログラム及び学習活用方法
WO2023203775A1 (ja) * 2022-04-22 2023-10-26 株式会社ソシオネクスト ニューラルネットワーク生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017182319A (ja) * 2016-03-29 2017-10-05 株式会社メガチップス 機械学習装置
JP6831347B2 (ja) * 2018-04-05 2021-02-17 日本電信電話株式会社 学習装置、学習方法および学習プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022024211A1 (ja) * 2020-07-28 2022-02-03 三菱電機株式会社 学習活用システム、活用装置、学習装置、プログラム及び学習活用方法
JP7438365B2 (ja) 2020-07-28 2024-02-26 三菱電機株式会社 学習活用システム、活用装置、学習装置、プログラム及び学習活用方法
WO2023203775A1 (ja) * 2022-04-22 2023-10-26 株式会社ソシオネクスト ニューラルネットワーク生成方法

Also Published As

Publication number Publication date
WO2020105341A1 (ja) 2020-05-28

Similar Documents

Publication Publication Date Title
US20190354808A1 (en) Augmentation of Audiographic Images for Improved Machine Learning
Han et al. A survey on metaheuristic optimization for random single-hidden layer feedforward neural network
WO2020105341A1 (ja) 情報処理装置および情報処理方法
US20200372325A1 (en) Neural network reduction device, neural network reduction method, and storage medium
CN108228728B (zh) 一种参数化的论文网络节点表示学习方法
KR102063562B1 (ko) 포인터 네트워크의 학습을 통해 고품질의 메쉬 구조의 생성을 지원하기 위한 그래픽 처리 장치 및 그 동작 방법
CN107133209A (zh) 基于人工智能的评论生成方法及装置、设备与可读介质
JP7271216B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2019102984A1 (ja) 学習装置及び学習方法、識別装置及び識別方法、プログラム並びに記録媒体
US20180277143A1 (en) Method and apparatus for training acoustic model
CN108735199A (zh) 一种声学模型的自适应训练方法及系统
US20180039239A1 (en) Systems and methods for learning and predicting time-series data using deep multiplicative networks
US11893469B2 (en) Position masking for transformer models
CN114861822A (zh) 用于改进的少试学习的任务增强和自训练
JP7085158B2 (ja) ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム
CN116959571A (zh) 蛋白质语言模型的训练方法、电子设备、计算机可读介质和程序产品
US20220067280A1 (en) Multi-token embedding and classifier for masked language models
CN110047463B (zh) 一种语音合成方法、装置和电子设备
KR20210116640A (ko) 피라미드 계층의 아키텍처를 생성하기 위한 시스템 및 방법
CN115330142B (zh) 联合能力模型的训练方法、能力需求匹配方法和装置
JP7374829B2 (ja) ニューラルネット解析装置、ニューラルネット解析方法及びプログラム
KR102001781B1 (ko) 신경망의 학습 정확도 향상 방법 및 이를 수행하는 장치들
JP7134526B1 (ja) マッチング装置、マッチング方法、プログラム、及び記録媒体
Saxena et al. Neuro-genetic hybrid approach for rainfall forecasting
WO2020250279A1 (ja) モデル学習装置、方法及びプログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190327

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190328