JP7054645B2 - 生成装置、生成方法、生成プログラムおよびプログラムパラメータ - Google Patents

生成装置、生成方法、生成プログラムおよびプログラムパラメータ Download PDF

Info

Publication number
JP7054645B2
JP7054645B2 JP2018096595A JP2018096595A JP7054645B2 JP 7054645 B2 JP7054645 B2 JP 7054645B2 JP 2018096595 A JP2018096595 A JP 2018096595A JP 2018096595 A JP2018096595 A JP 2018096595A JP 7054645 B2 JP7054645 B2 JP 7054645B2
Authority
JP
Japan
Prior art keywords
model
layer
input
information
generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018096595A
Other languages
English (en)
Other versions
JP2019200743A (ja
Inventor
祐 宮崎
隼人 小林
晃平 菅原
正樹 野口
朋哉 山崎
一騎 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2018096595A priority Critical patent/JP7054645B2/ja
Publication of JP2019200743A publication Critical patent/JP2019200743A/ja
Application granted granted Critical
Publication of JP7054645B2 publication Critical patent/JP7054645B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、生成装置、生成方法、生成プログラムおよびプログラムパラメータに関する。
従来、複数のノードを有するレイヤを多段に接続したモデルを用いて、入力情報の分類を実行させるDNN(Deep Neural Network)の技術が知られている。例えば、モデルに対して所定の入力情報を入力した際に、モデルの出力が入力情報と対応する出力情報に近づくようにモデルの学習を行うことで、所望の特徴に応じて入力情報を分類するようモデルの学習を行う技術が知られている。
特開2016-006617号公報
しかしながら、上述した技術では、モデルの分類精度を向上させる余地がある。
例えば、上述した技術では、入力情報が有する特徴に偏りが含まれる場合や、学習時に用いる情報の数が少ない場合は、過学習と呼ばれる現象が発生し、分類精度が極小値に陥る恐れがある。
本願は、上記に鑑みてなされたものであって、モデルの分類精度を改善することを目的とする。
本願に係る生成装置は、深層学習装置において、複数のレイヤを有し、各レイヤに含まれる複数のノードを接続した第1モデルであって、所定の入力情報が入力された場合に、当該入力情報と対応する出力情報を出力するように学習が行われた第1モデルを取得する取得部と、前記取得部により取得された第1モデルのうち、所定の第1レイヤと当該第1レイヤに隣接する第2レイヤとに含まれるノード間の接続をずらすことで、前記第1モデルを可塑変形させた第2モデルを生成する生成部とを有することを特徴とする。
実施形態の一態様によれば、モデルの分類精度を改善することができる。
図1は、実施形態に係る生成装置が実行する処理の一例を示す図である。 図2は、実施形態に係る生成装置の構成例を示す図である。 図3は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。 図4は、実施形態に係る生成装置が生成するモデルの一例を示す図である。 図5は、実施形態に係る生成処理の流れの一例を説明するフローチャートである。 図6は、ハードウェア構成の一例を示す図である。
以下に、本願に係る生成装置、生成方法、生成プログラムおよびプログラムパラメータを実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る生成装置、生成方法、生成プログラムおよびプログラムパラメータが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
[実施形態]
〔1-1.生成装置の一例〕
まず、図1を用いて、生成装置が実行する処理の一例について説明する。なお、以下の説明では、生成装置が実行する処理の一例として、入力された情報を所定の特徴に基づいて分類するモデルの学習を行う処理の一例について記載するが、実施形態は、これに限定されるものではない。例えば、生成装置10は、単語、文章、音声データ、ナレッジデータベースのデータ、利用者に関する各種の利用者情報等、任意の情報に対して各種の処理を実行するモデルの学習に以下の生成処理を適用して良い。
図1は、実施形態に係る生成装置が実行する処理の一例を示す図である。図1では、生成装置10は、以下に説明する生成処理を実行する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。
より具体的には、生成装置10は、インターネット等の所定のネットワークNを介して、入出力装置100(例えば、図2を参照)や情報管理装置110といった任意の装置と通信が可能である。
入出力装置100は、マイクなどの音声を取得する音声取得装置を用いて、利用者の発言を取得する。そして、入出力装置100は、任意の音声認識技術を用いて、発言をテキストデータに変換し、変換後のテキストデータを生成装置10へと送信する。また、入出力装置100は、スピーカ等の音声を出力する装置を用いて、生成装置10から受信したテキストデータの読み上げを行う。なお、入出力装置100は、生成装置10から受信したテキストデータを所定の表示装置に表示してもよい。
なお、入出力装置100は、スマートフォンやタブレット等のスマートデバイス、デスクトップPC(Personal Computer)やノートPC等、サーバ装置等の情報処理装置により実現される。なお、入出力装置100は、例えば、同一の情報処理装置によって実現されてもよく、例えば、ロボット等の装置によって実現されてもよい。
情報管理装置110は、各種の情報を管理する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、情報管理装置110は、学習データとして利用可能な各種の文章データを保持している。より具体的な例を挙げると、情報管理装置110は、文章のテキストデータと、そのテキストデータを入力した際にモデルに出力させたい情報(以下、「対応情報」と記載する。)とを対応付けて管理しており、生成装置10の要求に応じて学習データを生成装置10に提供する。
〔1-2.生成装置の処理について〕
近年、モデルとして、複数のノードを含むレイヤを多段に設定し、各レイヤ間のノードを接続経路を介して接続するとともに、接続経路に種々の接続係数を設定したDNNの技術が知られている。また、このようなDNN以外にも、RNN(Reccurent Neural Network)、LSTM(Long short-term memory)、CNN(Convolutional Neural Network)、DSSM(Deep Structured Semantic Models)といった、ノードを含むレイヤを多段に設定した各種のモデルが知られている。
このような各種のモデルは、入力層、中間層(隠れ層)、および出力層と呼ばれるレイヤを有し、入力層から入力された情報(すなわち、入力情報)を各接続経路を伝播させながら出力層まで伝達する。この際、各接続経路に設定された接続係数に基づいた演算処理を実行することで、モデルは、入力情報に対応する出力情報を生成する。
ここで、ある入力情報を入力した際にモデルが出力した出力情報と入力情報に対応する対応情報とを比較し、出力情報が対応情報に近づくようにモデルが有する接続係数を修正することで、入力情報が有する所定の特徴をモデルに学習させることができる。例えば、このような学習を行うことで、入力情報が所定の特徴を有しているか否か、入力情報がどの分野に属する情報であるか等、入力情報の各種分類を実現するモデルの学習を行うことができる。
しかしながら、このような学習を行ったモデルは、分類精度に向上の余地が生じる場合がある。例えば、モデルの学習に用いた学習データに偏りが存在する場合や、学習データの量が十分ではない場合、特定の特徴が過剰に学習される過学習が生じ、分類精度が極小値に陥る恐れがある。このような場合、入力情報とは異なる傾向の情報を適切に分類することができなくなる。
そこで、生成装置10は、以下の生成処理を実行する。まず、生成装置10は、複数のレイヤを有し、各レイヤに含まれる複数のノードを接続した第1モデルM10であって、所定の入力情報が入力された場合に、入力情報と対応する出力情報を出力するように学習が行われた第1モデルM10を取得する。そして、生成装置10は、第1モデルM10のうち、所定の第1レイヤと第1レイヤに隣接する第2レイヤとに含まれるノード間の接続をずらすことで、第1モデルM10を可塑変形させた第2モデルM20を生成する。
例えば、生成装置10は、第1レイヤに含まれるノードと第2レイヤに含まれるノードとを接続する接続経路のうち、接続係数が所定の条件を満たす接続経路を特定し、特定した接続経路が接続するノードの一方を他のノードに変更することで、第2モデルM20を生成する。例えば、生成装置10は、接続係数が所定の閾値を下回る接続経路を特定し、特定した接続経路が接続する2つのノードのうち、出力情報を出力する出力レイヤ側のレイヤに含まれるノードを、同じレイヤに含まれる他のノードに変更する。より具体的な例を挙げると、生成装置10は、特定した接続経路が接続する2つのノードのうち、出力情報を出力する出力レイヤ側のレイヤに含まれるノードを、ノードと隣接する他のノードに変更する。
すなわち、生成装置10は、学習が行われた第1モデルM10において、あるレイヤの層をずらすことで、過学習を防ぐ。例えば、DNN等のモデルにおいてあるレイヤ感の接続係数を変化させた場合、所定の特徴を有する複数の入力情報に対して、第2モデルM20が出力する対応情報の確率分布に幅を生じさせることとなる。この結果、第1モデルM10の分類精度が過学習により極小値に陥ってたとしても、第2モデルM20が第1モデルM10よりも精度よく入力情報の分類を行う可能性を生じさせることができる。
〔1-3.生成装置の一例について〕
以下、図1を用いて、生成装置10が実行する処理の一例について説明する。まず、生成装置10は、情報管理装置110から学習データを取得する(ステップS1)。例えば、生成装置10は、入力情報と対応情報との組を取得する。このような場合、生成装置10は、第1モデルM10の学習を行う(ステップS2)。
例えば、生成装置10は、入力情報を入力する入力装置と、複数の中間層と、入力情報に対する出力情報を出力する出力層とを有し、各層に含まれるノード間を所定の接続係数が設定された接続経路で接続する第1モデルM10を生成する。また、生成装置10は、入力層に対し、入力情報を入力し、各層に入力情報に応じた値を伝播させることで、出力層から出力情報を得る。そして、生成装置10は、出力情報が、入力された入力情報と組を成す対応情報に近づくように、第1モデルM10が有する接続係数の値を修正することで、入力情報が有する特徴を第1モデルM10に学習させる。すなわち、生成装置10は、第1モデルM10の深層学習を実行する。
ここで、物体を構成する原子や分子(以下、「構成要素」と総称する。)にノードを見立てると、各ノード間の接続係数は、構成要素間の接続の強さと見做すことができる。ここで、物体に外力が加わった場合は、物体が可塑変形することとなるが、このような可塑変形が発生する部分は、構成要素間の接続が弱い部分であると考えられる。一方で、モデルの精度を考慮した場合、接続係数が大きいものを増やし、接続係数が小さいものを増やせば、精度が向上するとも考えられる。
そこで、生成装置10は、第1モデルM10を可塑変形させた第2モデルM20を生成する。例えば、生成装置10は、第1レイヤのノードと第2レイヤのノードとを接続する接続経路のうち、接続係数が所定の閾値に満たないものを特定する(ステップS3)。例えば、生成装置10は、複数の中間層から、隣接するレイヤL1とレイヤL2とを選択する。続いて、生成装置10は、レイヤL1に含まれるノードとレイヤL2に含まれるノードとを接続する接続経路のうち、接続係数が所定の閾値に満たない接続経路を特定する。
例えば、図1に示す例では、レイヤL1に含まれるノードN11~N17、およびレイヤL2に含まれるノードN21~N27(およびN28)を記載した。また、図1に示す例では、接続係数が所定の閾値を超える接続経路を実線で記載し、接続係数が所定の閾値に満たない接続経路を点線で示した。図1に示す例では、生成装置10は、接続係数が所定の閾値に満たない接続経路として、ノードN11とノードN21を接続する接続経路、ノードN12とノードN23を接続する接続経路、ノードN13とノードN23を接続する接続経路、ノードN15とノードN25を接続する接続経路、ノードN16とノードN27を接続する接続経路、およびノードN17とノードN27を接続する接続経路を特定する。
そして、生成装置10は、特定した接続経路をずらすことでモデルを可塑変形する(ステップS4)。例えば、生成装置10は、接続係数が所定の閾値を超える接続経路を保持したまま、特定した接続経路が接続するノードをずらすことで、レイヤL1に対し、レイヤL2を所定の方向へずらす。例えば、生成装置10は、特定したノードN12とノードN23を接続する接続経路のうち、ノードN23をノードN24に変更する。また、生成装置10は、特定したノードN13とノードN23を接続する接続経路のうち、ノードN23をノードN24に変更する。また、生成装置10は、特定したノードN16とノードN27を接続する接続経路のうち、ノードN27をノードN28に変更する。また、生成装置10は、特定したノードN17とノードN27を接続する接続経路のうち、ノードN27をノードN28に変更する。なお、生成装置10は、変更後の接続経路と同一の接続経路であって、接続係数が所定の閾値を超える接続経路が存在する場合は、特定した接続経路を削除する。
続いて、生成装置10は、利用者から分類対象となる情報を取得する(ステップS5)。このような場合、生成装置10は、可塑変形した第2モデルM20を用いて、利用者から取得した情報の分類を実行する。例えば、生成装置10は、図1に示すように、所定の中間層を端部として所定の可塑変形PDを加えた第2モデルM20を用いて、取得した情報の分類結果を取得する。そして、生成装置10は、取得した分類結果を利用者に提供する(ステップS6)。
〔1-4.可塑変形について〕
上述した例では、生成装置10は、レイヤL1に含まれるノードと、レイヤL2に含まれるノードとの接続を1つずつずらした。しかしながら、実施形態は、これに限定されるものではない。例えば、生成装置10は、レイヤL1に含まれるノードと、レイヤL2に含まれるノードとの接続を任意の数だけずらしてもよい。
また、生成装置10は、複数のレイヤ間の接続をずらすことで、モデルの可塑変形を実現してもよい。例えば、生成装置10は、所定の第1レイヤと、第1レイヤに隣接する第2レイヤとの間の接続をずらし、かつ、所定の第3レイヤと、第3レイヤに隣接する第4レイヤとの間の接続をずらしてもよい。また、生成装置10は、各レイヤ間において接続をずらす方向を変化させてもよい。
また、生成装置10は、モデルを物体と見做し、物体を可塑変形させる仮想的な力を設定し、設定した仮想的な力に基づいて、レイヤ間の接続をずらす方向や量を設定してもよい。例えば、生成装置10は、第1学習データを用いて、第1モデルM10の学習を行う。続いて、生成装置10は、第1モデルM10が有する所定の中間レイヤを境界として所定の可塑変形を加えた第2モデルM20を生成する。例えば、生成装置10は、所定の方向にノードを1つだけずらした第2モデルM20を生成する。
続いて、生成装置10は、第2モデルM20を用いて、第1学習データとは異なる第2学習データの分類を行い、分類精度を特定する。より具体的には、生成装置10は、第1モデルM10に対して学習させる特徴が顕著に表れた第1学習データを用いて第1モデルM10を学習し、第1モデルM10に対して学習させる特徴が、第1学習データよりもあまり表れていない第2学習データを用いて、第2モデルM20の分類精度を特定する。換言すると、生成装置10は、第1学習データよりも、特徴を示すデータの確率分布が広い第2学習データの分類精度を特定する。
そして、生成装置10は、特定した分類精度が低いほど、より多くの数ノードをずらした第2モデルM20を生成してもよい。例えば、生成装置10は、第1モデルM10が有する所定のレイヤ間において、所定の方向にノードを1つだけずらした第2モデルM20を生成し、第2モデルM20の分類精度が所定の閾値を下回る場合は、第2モデルM20の所定のレイヤ感において、所定の方向にノードをさらに1つだけずらした新たなモデルを生成してもよい。また、生成装置10は、新たなモデルを第2モデルM20と見做すことで、再度分類精度を特定し、特定した分類精度に応じた量だけ第2モデルM20を可塑変形させてもよい。
例えば、生成装置10は、第1モデルM10からそれぞれ異なる方向にそれぞれ異なる量だけ可塑変形を加えた複数の第2モデルM20を生成し、生成した複数の第2モデルM20のうち、最も分類精度が高い第2モデルM20を特定する。そして、生成装置10は、特定した第2モデルM20を生成する際に適用した可塑変形をさらに進めるよう、第2モデルM20をさらに可塑変形させてもよい。
また、生成装置10は、可塑変形に対する分類精度の変化に応じて、可塑変形させる方向や量を設定してもよい。例えば、生成装置10は、生成装置10は、第1モデルM10からそれぞれ異なる方向にそれぞれ異なる量だけ可塑変形を加えた複数の第2モデルM20を生成し、生成した複数の第2モデルM20の分類精度をそれぞれ特定する。また、生成装置10は、各第2モデルM20の分類精度と、各第2モデルM20を生成する際に採用した可塑変形の量や方向との間の関係性に基づいて、最も分類精度が向上すると推定される可塑変形の量や方向を特定する。そして、生成装置10は、第1モデルM10を特定した方向に、特定した量だけ可塑変形させた第2モデルM20を生成してもよい。
また、生成装置10は、第1モデルM10から、それぞれ異なるレイヤにおいて可塑変形させた複数の第2モデルM20を生成し、生成した第2モデルM20の分類精度に応じて、可塑変形を行うレイヤを決定してもよい。例えば、生成装置10は、第1モデルM10から、それぞれ異なるレイヤにおいて可塑変形させた複数の第2モデルM20を生成し、生成した第2モデルM20のうち、分類精度が最も高い第2モデルM20を特定してもよい。
また、生成装置10は、任意の次元での変形を第1モデルM10に対して加えてもよい。例えば、生成装置10は、第1モデルM10の各ノードがx軸方向に1次元の列をなすように設定されている場合は、x軸方向のいずれかの方向に接続をずらせばよい。また、例えば、生成装置10は、第1モデルM10の各ノードがx軸およびy軸方向に2次元の列をなすように設定されている場合は、x軸方向およびy軸方向に接続をずらせばよい。
また、生成装置10は、ノードを物体の構成要素と見做し、物体の物理的な各転位を再現するように、モデルの可塑変形を行ってもよい。例えば、生成装置10は、刃状転位、らせん転位、交差すべり、複合転位等、各種の転位を再現するように、モデルが有するノード間の接続をずらすことで、モデルの可塑変形を実現させてもよい。
〔1-5.第2モデルについて〕
ここで、生成装置10は、第2モデルM20の再学習を行ってもよい。例えば、生成装置10は、第1学習データを用いて第1モデルM10の学習を行い、第1モデルM10を可塑変形した第2モデルM20を生成する。そして、生成装置10は、第2学習データを用いて、第2モデルM20の再学習を行い、再学習を行った第2モデルM20を用いて、利用者から取得した情報の分類処理を行ってもよい。
また、例えば、生成装置10は、第2モデルM20の可塑変形と、再学習とを交互に実行してもよい。例えば、生成装置10は、第2学習データを用いて、第2モデルM20の再学習を行い、第2学習データよりも特徴を示すデータの確率分布が広い第3学習データを用いて、分類精度を特定する。そして、生成装置10は、特定した分類精度が所定の閾値を下回る場合は、さらに第2モデルM20を可塑変形させ、可塑変形後の第2モデルM20を第3学習データを用いて再学習してもよい。
なお、生成装置10は、第2モデルM20を任意の目的で生成してもよい。例えば、生成装置10は、第2モデルM20を、第1モデルM10の学習に用いた学習データとは異なる分野の情報を分類するためのモデルとして生成してもよい。例えば、生成装置10は、医療分野の情報の特徴を第1モデルM10に学習させた場合、第1モデルM10を可塑変形させることで、薬学分野の情報の特徴を分類するための第2モデルM20を生成してもよい。
なお、このように、第1モデルM10に学習させる第1学習データが属する分野と、第2モデルM20が分類する情報の分野とが異なる場合、分野間の類似性に応じた可塑変形を適用して良い。例えば、生成装置10は、第1学習データが属する分野と、第2モデルM20に分類させる情報の分野との類似性が低い程、より大きな量の可塑変形を適用してもよい。
なお、第1モデルM10および第2モデルM20は、入力された入力情報の分類結果を示す出力情報を出力する分類器として動作する。このような動作には、例えば、入力情報の特徴を示す分散表現の出力や、入力情報が有する特徴に応じた入力情報の変形等が含まれる。すなわち、第1モデルM10および第2モデルM20は、入力された入力情報が有する特徴に基づいて、入力情報を分類し、分類結果もしくは分類結果に応じた各種の情報を出力する分類器である。
〔2.生成装置の構成〕
以下、上記した提供処理を実現する生成装置10が有する機能構成の一例について説明する。図2は、実施形態に係る生成装置の構成例を示す図である。図2に示すように、生成装置10は、通信部20、記憶部30、および制御部40を有する。
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、入出力装置100との間で情報の送受信を行う。
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、学習データデータベース31およびモデルデータベース32を記憶する。
学習データデータベース31には、学習データが登録される。例えば、図3は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図3に示すように、学習データデータベース31には、「入力情報」、「分野」、および「対応情報」といった情報が対応付けて登録されている。
ここで、「入力情報」とは、モデルに入力する情報のデータであり、例えば、単語、文章、音声等の各種データである。また、「分野」とは、対応付けられた入力情報が属する分野である。また、「対応情報」とは、対応付けられた「入力情報」を入力した場合に、モデルに出力させたい対象情報である。
例えば、図3に示す例では、入力情報「入力情報#1」、分野「分野#1」、および対応情報「対応情報#1」が対応付けて登録されている。このような情報は、入力情報「入力情報#1」が属する分野が「分野#1」であり、入力情報「入力情報#1」を第1モデルM10に入力した際に、対応情報「対応情報#1」が出力されるように、第1モデルM10の学習が行われる旨を示す。
なお、図3に示す例では、「入力情報#1」、「分野#1」、「対応情報#1」等といった概念的な値について記載したが、実際には、入力情報や対応情報となるデータ、および分野を示す文字列や数値等が登録されることとなる。また、図3に示す情報は、あくまで一例であり、学習データデータベース31には、図3に示す情報以外にも任意の情報が登録されていてよい。
図2に戻り、説明を続ける。モデルデータベース32は、生成装置10が生成するモデルの情報が登録される。例えば、モデルデータベース32には、第1モデルM10や第2モデルM20(以下、「各モデルM」と総称する場合がある。)のデータが登録される。より具体的には、記憶部30には、各モデルMを構成するノードの接続関係や、ノード間の重みである接続係数が登録される。ここで、各モデルMは、例えば、人工知能ソフトウエアの一部であるプログラムモジュールとしての利用が想定される。
例えば、各モデルMは、ある入力情報が入力された場合に、入力された情報と対応する出力情報を出力するように学習が行われたモデルである。例えば、記憶部30には、複数のレイヤを有し、各レイヤに含まれる複数のノードを接続した第1モデルM10であって、所定の入力情報が入力された場合に、入力情報と対応する出力情報を出力するように学習が行われた第1モデルM10を取得し、取得された第1モデルM20のうち、所定の第1レイヤと第1レイヤに隣接する第2レイヤとに含まれるノード間の接続をずらすことで、第1モデルM10を可塑変形させた第2モデルM20を生成する生成工程とを含むことを特徴とする生成方法で生成される第2モデルM20の情報を含むプログラムパラメータが登録される。
また、各モデルMがDNN(Deep Neural Network)等、1つまたは複数の中間層を有するニューラルネットワークで実現されるとする。この場合、各モデルMが含む第1要素は、入力層または中間層が有するいずれかのノードに対応する。また、第2要素は、第1要素と対応するノードから値が伝達されるノードである次段のノードに対応する。また、第1要素の重みは、第1要素と対応するノードから第2要素と対応するノードに伝達される値に対して考慮される重みである接続係数に対応する。
生成装置10は、上述した回帰モデルやニューラルネットワーク等、任意の構造を有するモデルを用いて、分散表現の算出を行う。具体的には、各モデルMは、入力情報が入力された場合に、入力された情報の分類結果を示す出力情報を出力するように係数が設定される。
制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、生成装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。また、例えば、制御部40は、プログラムモジュールである各モデルM、もしくは、各モデルMを含むプログラムモジュールが有する指示に従って、生成処理を実行することとなる。
図2に示すように、制御部40は、学習部41、取得部42、生成部43、および提供部44を有する。学習部41は、第1モデルM10の学習を行う。例えば、学習部41は、情報管理装置110から学習データを取得し、取得した学習データを学習データデータベース31に登録する。
また、学習部41は、DNN等のモデルを第1モデルM10として生成する。そして、学習部41は、学習データデータベース31に登録された学習データを用いて、第1モデルM10の学習を行う。例えば、学習部41は、学習データデータベース31から、所定の分野に属する入力情報を抽出し、抽出した入力情報を第1モデルM10に入力する。そして、学習部41は、第1モデルM10が出力した出力情報が、入力した入力情報に対応付けられた対応情報に近づくように、バックプロパゲーション等の学習手法を用いて、第1モデルM10が有する接続係数を修正する。その後、学習部41は、学習を行った第1モデルM10をモデルデータベース32に登録する。
取得部42は、複数のレイヤを有し、各レイヤに含まれる複数のノードを接続した第1モデルM10であって、所定の入力情報が入力された場合に、入力情報と対応する出力情報を出力するように学習が行われた第1モデルM10を取得する。例えば、取得部42は、モデルデータベース32を参照し、第1モデルM10を取得する。そして、取得部42は、第1モデルM10を生成部43に提供する。
生成部43は、第1モデルM10のうち、所定の第1レイヤと第1レイヤに隣接する第2レイヤとに含まれるノード間の接続をずらすことで、第1モデルM10を可塑変形させた第2モデルM20を生成する。例えば、生成部43は、第1レイヤに含まれるノードと第2レイヤに含まれるノードとを接続する接続経路のうち、接続係数が所定の条件を満たす接続経路を特定する。例えば、生成部43は、接続係数が所定の閾値を下回る接続経路を特定する。そして、生成部43は、特定した接続経路が接続するノードの一方を他のノードに変更することで、第2モデルを生成する。例えば、生成部43は、特定した接続経路が接続する2つのノードのうち、出力情報を出力する出力レイヤ側のレイヤに含まれるノードを、同じレイヤに含まれる他のノードに変更する。また、生成部43は、出力情報を出力する出力レイヤ側のレイヤに含まれるノードを、隣接する他のノードに変更する。
例えば、図4は、実施形態に係る生成装置が生成するモデルの一例を示す図である。例えば、生成部43は、図4中(A)に示すように、可塑変形を加えるレイヤよりも入力側の部分をブロックB1とし、可塑変形を加えるレイヤよりも出力側の部分をブロックB2とする。そして、生成部43は、ブロックB1とブロックB2とに所定の外力Fが加わったものとして、モデルを可塑変形させる。例えば、生成部43は、ブロックB1とブロックB2との境界における接続経路を組み替えることで、可塑変形を実現する。
なお、生成部43は、図4中(B)に示すように、らせん転位を再現するようにモデルの可塑変化を実現してもよい。例えば、生成部43は、転位線がバーガーズベクトルと平行になるように、ノード間の接続を組み替えることで、モデルの可塑変化を実現してもよい。
なお、生成部43は、学習データデータベース31から、第1モデルM10が学習した分野とは異なる分野の学習データを抽出し、抽出した学習データを用いて、第2モデルM20の再学習を行ってもよい。また、生成部43は、第2モデルM20の分類精度等に応じて、可塑変形の量や方向を適宜変化させてもよい。そして、生成部43は、生成した第2モデルM20をモデルデータベース32に登録する。
図2に戻り、説明を続ける。提供部44は、第2モデルM20を用いた分類処理の結果を利用者に提供する。例えば、提供部44は、入出力装置100を介して、利用者が入力した情報を取得する。このような場合、提供部44は、モデルデータベース32から第2モデルM20を読出し、第2モデルM20に利用者が入力した情報を入力する。そして、提供部44は、第2モデルM20の接続関係や接続係数に沿った演算を実行し、第2モデルM20が生成した情報を取得する。その後、提供部44は、入出力装置100を介して、第2モデルM20が生成した情報を利用者に対して提供する。
〔3.生成装置が実行する処理の流れの一例〕
次に、図5を用いて、生成装置10が実行する提供処理の流れの一例について説明する。図5は、実施形態に係る生成処理の流れの一例を説明するフローチャートである。まず、生成装置10は、学習データを取得し(ステップS101)、学習データが有する特徴を第1モデルM10に学習させる(ステップS102)。続いて、生成装置10は、所定のレイヤ間における接続経路をずらすことで、モデルを可塑変形させる(ステップS103)。そして、生成装置10は、可塑変形させたモデルを用いて、取得情報の分類を行い(ステップS104)、処理を終了する。
〔4.変形例〕
上記では、生成装置10による提供処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、生成装置10が実行する生成処理のバリエーションについて説明する。
〔4-1.装置構成〕
上述した例では、生成装置10は、生成装置10内で生成処理を実行した。しかしながら、実施形態は、これに限定されるものではない。例えば、生成装置10は、入出力装置100と情報の送受信を行うフロントエンドサーバと、上述した生成処理を実行するバックエンドサーバとにより実現されてもよい。このような場合、例えば、フロントエンドサーバは、図2に示す提供部44を有し、バックエンドサーバは、図2に示す学習部41、取得部42、および生成部43を有する。また、生成装置10は、学習データデータベース31やモデルデータベース32を外部のストレージサーバに記憶させてもよい。
〔4-2.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文章中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔4-3.プログラム〕
また、上述してきた実施形態に係る生成装置10は、例えば図6に示すような構成のコンピュータ1000によって実現される。図6は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD、フラッシュメモリ等により実現される。
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が生成装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムまたはデータ(例えば、第2モデルM20)を実行することにより、制御部40の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムまたはデータ(例えば、第2モデルM20)を記録媒体1800から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
〔5.効果〕
上述したように、生成装置10は、深層学習装置において、複数のレイヤを有し、各レイヤに含まれる複数のノードを接続した第1モデルM10であって、所定の入力情報が入力された場合に、入力情報と対応する出力情報を出力するように学習が行われた第1モデルM10を取得する。そして、生成装置10は、第1モデルM10のうち、所定の第1レイヤと第1レイヤに隣接する第2レイヤとに含まれるノード間の接続をずらすことで、第1モデルM10を可塑変形させた第2モデルM20を生成する。このずらしの効果は、DNN等の多段の層をもつ深層学習装置において、接続されている近い関係性をもつノードに対して、近さをそれほど変えない接続変化をもたらし、過学習の抑制効果を示す。このため、生成装置10は、第1モデルM10において生じる過学習の影響を軽減した第2モデルM20を生成することができるので、モデルの分類精度を改善することができる。
また、生成装置10は、第1レイヤに含まれるノードと第2レイヤに含まれるノードとを接続する接続経路のうち、接続係数が所定の条件を満たす接続経路を特定し、特定した接続経路が接続するノードの一方を他のノードに変更することで、第2モデルM20を生成する。例えば、生成装置10は、接続係数が所定の閾値を下回る接続経路を特定する。そして、生成装置10は、特定した接続経路が接続する2つのノードのうち、出力情報を出力する出力レイヤ側のレイヤに含まれるノードを、同じレイヤに含まれる他のノードに変更する。また、例えば、生成装置10は、特定した接続経路が接続する2つのノードのうち、出力情報を出力する出力レイヤ側のレイヤに含まれるノードを、ノードと隣接する他のノードに変更する。
上述した処理の結果、生成装置10は、第1モデルM10が学習した特徴のうち、過学習により学習された特徴の影響を軽減させた第2モデルM20を生成することができるので、モデルの分類精度を改善することができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、生成部は、生成手段や生成回路に読み替えることができる。
10 生成装置
20 通信部
30 記憶部
31 学習データデータベース
32 モデルデータベース
40 制御部
41 学習部
42 取得部
43 生成部
44 提供部
100 入出力装置
110 情報管理装置

Claims (8)

  1. 深層学習装置において、複数のレイヤを有し、各レイヤに含まれる複数のノードを接続した第1モデルであって、所定の入力情報が入力された場合に、当該入力情報と対応する出力情報を出力するように学習が行われた第1モデルを取得する取得部と、
    前記取得部により取得された第1モデルのうち、所定の第1レイヤと当該第1レイヤに隣接する第2レイヤとに含まれるノード間の接続を所定の方向にずらすことで、前記第1モデルを可塑変形させた第2モデルを生成する生成部と
    を有することを特徴とする生成装置。
  2. 前記生成部は、前記第1レイヤに含まれるノードと前記第2レイヤに含まれるノードとを接続する接続経路のうち、接続係数が所定の条件を満たす接続経路を特定し、特定した接続経路が接続するノードの一方を他のノードに変更することで、前記第2モデルを生成する
    ことを特徴とする請求項1に記載の生成装置。
  3. 前記生成部は、前記接続係数が所定の閾値を下回る接続経路を特定する
    ことを特徴とする請求項2に記載の生成装置。
  4. 前記生成部は、特定した接続経路が接続する2つのノードのうち、前記出力情報を出力する出力レイヤ側のレイヤに含まれるノードを、同じレイヤに含まれる他のノードに変更する
    ことを特徴とする請求項2または3に記載の生成装置。
  5. 前記生成部は、特定した接続経路が接続する2つのノードのうち、前記出力情報を出力する出力レイヤ側のレイヤに含まれるノードを、当該ノードと隣接する他のノードに変更する
    ことを特徴とする請求項4に記載の生成装置。
  6. 生成装置が実行する生成方法であって、
    深層学習装置において、複数のレイヤを有し、各レイヤに含まれる複数のノードを接続した第1モデルであって、所定の入力情報が入力された場合に、当該入力情報と対応する出力情報を出力するように学習が行われた第1モデルを取得する取得工程と、
    前記取得工程により取得された第1モデルのうち、所定の第1レイヤと当該第1レイヤに隣接する第2レイヤとに含まれるノード間の接続を所定の方向にずらすことで、前記第1モデルを可塑変形させた第2モデルを生成する生成工程と
    を含むことを特徴とする生成方法。
  7. 深層学習装置において、複数のレイヤを有し、各レイヤに含まれる複数のノードを接続した第1モデルであって、所定の入力情報が入力された場合に、当該入力情報と対応する出力情報を出力するように学習が行われた第1モデルを取得する取得手順と、
    前記取得手順により取得された第1モデルのうち、所定の第1レイヤと当該第1レイヤに隣接する第2レイヤとに含まれるノード間の接続を所定の方向にずらすことで、前記第1モデルを可塑変形させた第2モデルを生成する生成手順と
    をコンピュータに実行させるための生成プログラム。
  8. 深層学習装置において、複数のレイヤを有し、各レイヤに含まれる複数のノードを接続した第1モデルであって、所定の入力情報が入力された場合に、当該入力情報と対応する出力情報を出力するように学習が行われた第1モデルを取得する取得工程と、
    前記取得工程により取得された第1モデルのうち、所定の第1レイヤと当該第1レイヤに隣接する第2レイヤとに含まれるノード間の接続を所定の方向にずらすことで、前記第1モデルを可塑変形させた第2モデルを生成する生成工程と
    を含むことを特徴とする生成方法で生成されるモデルの情報を含むプログラムパラメータ。
JP2018096595A 2018-05-18 2018-05-18 生成装置、生成方法、生成プログラムおよびプログラムパラメータ Active JP7054645B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018096595A JP7054645B2 (ja) 2018-05-18 2018-05-18 生成装置、生成方法、生成プログラムおよびプログラムパラメータ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018096595A JP7054645B2 (ja) 2018-05-18 2018-05-18 生成装置、生成方法、生成プログラムおよびプログラムパラメータ

Publications (2)

Publication Number Publication Date
JP2019200743A JP2019200743A (ja) 2019-11-21
JP7054645B2 true JP7054645B2 (ja) 2022-04-14

Family

ID=68612191

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018096595A Active JP7054645B2 (ja) 2018-05-18 2018-05-18 生成装置、生成方法、生成プログラムおよびプログラムパラメータ

Country Status (1)

Country Link
JP (1) JP7054645B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170364799A1 (en) 2016-06-15 2017-12-21 Kneron Inc. Simplifying apparatus and simplifying method for neural network

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2907486B2 (ja) * 1990-04-17 1999-06-21 富士通株式会社 ニューラルネットワーク装置
JPH0991263A (ja) * 1995-09-20 1997-04-04 Hitachi Medical Corp ニューラルネットワーク構造最適化装置ならびに方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170364799A1 (en) 2016-06-15 2017-12-21 Kneron Inc. Simplifying apparatus and simplifying method for neural network

Also Published As

Publication number Publication date
JP2019200743A (ja) 2019-11-21

Similar Documents

Publication Publication Date Title
US11521110B2 (en) Learning apparatus, learning method, and non-transitory computer readable storage medium
KR102071582B1 (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
US20190005399A1 (en) Learning device, generation device, learning method, generation method, and non-transitory computer readable storage medium
TWI634488B (zh) 人造神經網路之簡化裝置和簡化方法以及應用於簡化人造神經網路之非暫態電腦可讀取儲存媒體
US20190228336A1 (en) Training apparatus, training method, and non-transitory computer readable storage medium
JP6975610B2 (ja) 学習装置および学習方法
KR102264234B1 (ko) 문서 분류에 있어서 기여도가 높은 단어 및 문장을 제공하는 설명이 부가된 문서 분류 방법
US20190354533A1 (en) Information processing device, information processing method, and non-transitory computer-readable recording medium
US11580362B2 (en) Learning apparatus, generation apparatus, classification apparatus, learning method, and non-transitory computer readable storage medium
KR102697095B1 (ko) Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램
JP7054607B2 (ja) 生成装置、生成方法および生成プログラム
JP7058556B2 (ja) 判定装置、判定方法、および判定プログラム
JP6963988B2 (ja) 提供装置、提供方法および提供プログラム
JP2019021218A (ja) 学習装置、プログラムパラメータ、学習方法およびモデル
JP7054645B2 (ja) 生成装置、生成方法、生成プログラムおよびプログラムパラメータ
JP6964481B2 (ja) 学習装置、プログラムおよび学習方法
JP6910873B2 (ja) 特定装置および特定方法
JP6558765B2 (ja) 処理装置、処理方法、推測装置、推測方法、およびプログラム
JP6680655B2 (ja) 学習装置および学習方法
JP6705506B2 (ja) 学習プログラム、情報処理装置および学習方法
JP7265837B2 (ja) 学習装置および学習方法
JP2020004054A (ja) 出力装置、出力方法および出力プログラム
JP6942028B2 (ja) 比較装置、比較方法および比較プログラム
JP2019109789A (ja) 提供装置、提供方法および提供プログラム
US20210264264A1 (en) Learning device, learning method, learning program, evaluation device, evaluation method, and evaluation program

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210928

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220404

R150 Certificate of patent or registration of utility model

Ref document number: 7054645

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350