JP7487556B2 - モデル生成プログラム、モデル生成装置、及びモデル生成方法 - Google Patents

モデル生成プログラム、モデル生成装置、及びモデル生成方法 Download PDF

Info

Publication number
JP7487556B2
JP7487556B2 JP2020090065A JP2020090065A JP7487556B2 JP 7487556 B2 JP7487556 B2 JP 7487556B2 JP 2020090065 A JP2020090065 A JP 2020090065A JP 2020090065 A JP2020090065 A JP 2020090065A JP 7487556 B2 JP7487556 B2 JP 7487556B2
Authority
JP
Japan
Prior art keywords
machine learning
model
learning
update
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020090065A
Other languages
English (en)
Other versions
JP2021184217A (ja
Inventor
俊 梁
一 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2020090065A priority Critical patent/JP7487556B2/ja
Priority to US17/207,746 priority patent/US20210365780A1/en
Publication of JP2021184217A publication Critical patent/JP2021184217A/ja
Application granted granted Critical
Publication of JP7487556B2 publication Critical patent/JP7487556B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Description

本発明は、モデル生成技術に関する。
近年、自然言語処理を利用した文書分類、感情分析、固有表現抽出等の様々なタスクにおいて、単語埋め込み技術が用いられている。単語埋め込み技術は、複数の単語それぞれを単語ベクトルに対応付ける技術である。
ニューラルネットワークを用いた単語埋め込み技術として、Word2vec、ELMo(Embeddings from Language Models)、BERT(Bidirectional Encoder Representations from Transformers)、Flair等が知られている。このうち、ELMo、BERT、及びFlairでは、テキスト中の文脈を用いて単語埋め込みが行われる(例えば、非特許文献1~非特許文献3を参照)
ELMo、BERT、Flair等の単語埋め込みモデルを生成する学習処理では、Webデータ等の大量のテキストデータに対する機械学習により、学習済みの言語モデル(Language Model,LM)が生成され、生成されたLMから単語埋め込みモデルが生成される。学習済みのLMは、pre-trained modelと呼ばれることがある。この場合、大量のテキストデータが訓練データとして使用されるため、Word2vecよりも学習処理に時間がかかる。
単語埋め込みに関連して、学習データに存在しない単語のWord Embeddingを、クラスに係る情報を推定可能なWord Embeddingに変換する、情報処理システムが知られている(例えば、特許文献1を参照)。オンライン学習及び確率的最適化のための適応勾配アルゴリズムも知られている(例えば、非特許文献4を参照)。再帰型ニューラルネットワークの一種であるLSTM(Long Short Term Memory)ネットワークも知られている(例えば、非特許文献5を参照)。
特開2016-110284号公報
M. E. Peters et al., "Deep contextualized word representations", Cornell University, arXiv:1802.05365v2, 2018. J. Devlin et al., "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", Cornell University, arXiv:1810.04805v2, 2019. "flairNLP/flair"、[online]、GitHub、[令和2年2月14日検索]、インターネット<URL:https://github.com/zalandoresearch/flair> J. Duchi et al., "Adaptive Subgradient Methods for Online Learning and Stochastic Optimization", The Journal of Machine Learning Research, volume 12, pages 2121-2159, 2011. "Understanding LSTM Networks"、[online]、August 27, 2015、[令和2年4月14日検索]、インターネット<URL:https://colah.github.io/posts/2015-08-Understanding-LSTMs/>
大量のテキストデータAに対する機械学習により得られた、ELMo、BERT、Flair等の学習済みの言語モデルLMAに、新たなドメインの少量のテキストデータBを学習させることで、言語モデルLMAが更新されることがある。テキストデータAとしては、例えば、ニュース記事、インターネット百科事典等から抽出された数百万個程度の文が用いられ、テキストデータBとしては、例えば、特定分野の学術論文、社内データ等から抽出された十万個程度の文が用いられる。
更新後の言語モデルLMBから新たな単語埋め込みモデルを生成することで、新たなドメインのテキストデータBに適合した単語埋め込みモデルを生成することができる。
しかしながら、新たなドメインのテキストデータBには、更新前の言語モデルLMAにより認識されない専門用語、社内用語等が多く含まれている場合がある。この場合、言語モデルLMAのパラメータを初期値として用いて、テキストデータBに対する機械学習を行うことで、テキストデータBに適合するようにパラメータが更新される。
しかし、訓練データとしてテキストデータBのみを用いた場合、テキストデータBに対する過剰適合が発生することが多く、パラメータが元のテキストデータAに適合していることが保障されない。このため、テキストデータAに対する機械学習の効果が減殺されて、更新後の言語モデルLMBの汎化性能が損なわれるため、言語モデルLMBから生成される単語埋め込みモデルの精度が低下する。
なお、かかる問題は、ニューラルネットワークを用いて単語埋め込みモデルを生成する機械学習に限らず、様々な学習モデルを生成する機械学習において生ずるものである。
1つの側面において、本発明は、学習済みの学習モデルに対して、特定の条件を満たす訓練データをさらに学習させる機械学習において、学習モデルの過剰適合を抑制することを目的とする。
1つの案では、モデル生成プログラムは、以下の処理をコンピュータに実行させる。
コンピュータは、複数の訓練データを利用した第1機械学習により生成された学習モデルに対して、特定の条件を満たす訓練データを利用した第2機械学習を実行することで、学習モデルのパラメータを更新する。コンピュータは、第2機械学習が開始される前におけるパラメータの値と、第2機械学習により更新されたパラメータの更新後の値との差分が増加するほど、特定の条件を満たす訓練データの影響の度合いを減少させる。特定の条件を満たす訓練データの影響の度合いは、第2機械学習における特定の条件を満たす訓練データのパラメータの更新に対する影響の度合いを表す。
1つの側面によれば、学習済みの学習モデルに対して、特定の条件を満たす訓練データをさらに学習させる機械学習において、学習モデルの過剰適合を抑制することができる。
モデル生成装置の機能的構成図である。 モデル生成処理のフローチャートである。 モデル生成装置の具体例を示す機能的構成図である。 単語埋め込みモデルを示す図である。 モデル生成処理の具体例を示すフローチャートである。 第2機械学習のフローチャートである。 情報処理装置のハードウェア構成図である。
以下、図面を参照しながら、実施形態を詳細に説明する。
図1は、実施形態のモデル生成装置の機能的構成例を示している。図1のモデル生成装置101は、記憶部111及び更新部112を含む。記憶部111は、複数の訓練データを利用した第1機械学習により生成された学習モデル121を記憶する。更新部112は、記憶部111が記憶する学習モデル121を用いて、モデル生成処理を行う。
図2は、図1のモデル生成装置101が行うモデル生成処理の例を示すフローチャートである。まず、更新部112は、学習モデル121に対して、特定の条件を満たす訓練データを利用した第2機械学習を実行することで、学習モデル121のパラメータを更新する(ステップ201)。
次に、更新部112は、第2機械学習が開始される前におけるパラメータの値と、第2機械学習により更新されたパラメータの更新後の値との差分が増加するほど、特定の条件を満たす訓練データの影響の度合いを減少させる(ステップ202)。特定の条件を満たす訓練データの影響の度合いは、第2機械学習における特定の条件を満たす訓練データのパラメータの更新に対する影響の度合いを表す。
図1のモデル生成装置101によれば、学習済みの学習モデルに対して、特定の条件を満たす訓練データをさらに学習させる機械学習において、学習モデルの過剰適合を抑制することができる。
図3は、図1のモデル生成装置101の具体例を示している。図3のモデル生成装置301は、記憶部311、学習部312、更新部313、生成部314、及び出力部315を含む。記憶部311及び更新部313は、図1の記憶部111及び更新部112にそれぞれ対応する。
記憶部311は、第1データ集合321及び第2データ集合322を記憶する。第1データ集合321は、第1機械学習の訓練データとして用いられる大量のテキストデータを含む。第1データ集合321としては、例えば、ニュース記事、インターネット百科事典等から抽出された数百万個程度の文が用いられる。
第2データ集合322は、第2機械学習の訓練データとして用いられる少量のテキストデータを含む。第2データ集合322としては、例えば、特定分野の学術論文、社内データ等から抽出された十万個程度の文が用いられる。第2データ集合322のテキストデータは、特定の条件を満たす訓練データの一例である。
学習部312は、学習前の学習モデルに対して、第1データ集合321を利用した第1機械学習を実行することで、第1学習モデル323を生成して、記憶部311に格納する。学習前の学習モデルとしては、例えば、ELMo、BERT、Flair等のLMが用いられる。このLMは、ニューラルネットワークである。
第1学習モデル323は、学習済みの学習モデルであり、図1の学習モデル121に対応する。第1学習モデル323に対応するニューラルネットワークの中間層の出力は、単語埋め込みにおける単語ベクトルの生成に用いられる。
更新部313は、第1学習モデル323に対して、第2データ集合322を利用した第2機械学習を実行することで、第1学習モデル323のパラメータの値を更新して第2学習モデル324を生成し、記憶部311に格納する。第1学習モデル323のパラメータの値は、第2学習モデル324のパラメータの初期値として用いられる。第2機械学習において、更新部313は、パラメータの初期値と更新後の値との差分が増加するほど、第2データ集合322の影響の度合いを減少させる制御を行う。
生成部314は、第2学習モデル324に対応するニューラルネットワークの中間層の出力を用いて、単語埋め込みモデル325を生成し、記憶部311に格納する。単語埋め込みモデル325は、複数の単語それぞれを単語ベクトルに対応付けるモデルである。出力部315は、生成された単語埋め込みモデル325を出力する。
図4は、単語埋め込みモデル325の例を示している。図4の単語埋め込みモデル325では、“Flowers”、“Chocolate”、“Grass”、及び“Tree”が、実数を成分とする単語ベクトルに対応付けられている。
非特許文献1に記載されたELMoのLMは、順方向LMと逆方向LMとを組み合わせた双方向LMである。順方向LMは、テキストデータ中に出現するある単語と、その単語よりも前に出現する複数の単語との間の文脈依存関係を表す。逆方向LMは、テキストデータ中に出現するある単語と、その単語よりも後に出現する複数の単語との間の文脈依存関係を表す。順方向LMと逆方向LMとを組み合わることで、テキストデータ中に出現する単語の意味を正しく捉えることが可能になる。
ELMoのLMは複数の層からなり、各層は複数のLSTMを含む。このうち、中間層のLSTMから出力される値を用いて、単語埋め込みモデル325の各単語に対応する単語ベクトルが生成される。
例えば、非特許文献5に記載されたLSTMは、入力ゲート、忘却ゲート、及び出力ゲート(tanh)を含み、これらのゲートの出力を用いてLSTMの出力が生成される。各ゲートのパラメータは重み係数及びバイアスであり、重み係数及びバイアスは、テキストデータに対する機械学習により更新される。
LSTMの各パラメータを更新するための最適化アルゴリズムとしては、例えば、非特許文献4に記載された、AdaGradと呼ばれる適応勾配アルゴリズムを用いることができる。AdaGradを用いた場合、パラメータθは、例えば、次式により更新される。
v=v+g(θ) (1)
θ=θ-(α/(v1/2+ε))g(θ) (2)
式(1)のvはスカラである。g(θ)は、パラメータθに対する目的関数の勾配を表し、訓練データを用いて計算される。vは、更新される度に大きくなる。式(2)のεは、更新処理を安定化するための定数であり、αは学習率である。εは10^(-8)程度の値であってもよく、αは10^(-2)程度の値であってもよい。(α/(v1/2+ε))g(θ)は、パラメータθの更新量を表す。
学習前の学習モデルとしてELMoのLMを用いた場合、LMに含まれる各LSTMの入力ゲート、忘却ゲート、及び出力ゲートの重み係数及びバイアスが、パラメータθとして用いられる。学習部312は、第1機械学習において、式(1)及び式(2)により、各LSTMの入力ゲート、忘却ゲート、及び出力ゲートの重み係数及びバイアスを更新する。重み係数及びバイアスの更新処理を複数回繰り返すことで、第1学習モデル323に対応するLM1が生成される。
更新部313は、第2機械学習において、次式により、LM1に含まれる各LSTMの入力ゲート、忘却ゲート、及び出力ゲートの重み係数及びバイアスを更新する。
v=exp(λ|θ1-θ|) (3)
θ=θ-(α/(v1/2+ε))g(θ) (4)
式(3)のexp()は指数関数であり、λは所定の定数である。θ1は、LM1に含まれるパラメータθの値を表し、第2機械学習におけるパラメータθの初期値として用いられる。|θ1-θ|は、θ1と、最後に更新されたパラメータθの更新後の値との差分を表す。vは、更新される度に大きくなる。
式(4)は、式(2)と同じである。この場合、第2データ集合322を用いてg(θ)が計算され、g(θ)と|θ1-θ|とを用いて、パラメータθの更新量が計算される。そして、計算された更新量を用いて、パラメータθの更新後の値がさらに更新される。|θ1-θ|を用いて更新量を計算することで、パラメータθの初期値と更新後の値との差分を、次の更新量に反映させることができる。そして、重み係数及びバイアスの更新処理を複数回繰り返すことで、第2学習モデル324に対応するLM2が生成される。
式(3)及び式(4)から、|θ1-θ|が増加するほどvが大きくなり、式(4)の右辺のα/(v1/2+ε)が減少することが分かる。α/(v1/2+ε)は、パラメータθの更新に対するg(θ)の影響の度合いを表す。g(θ)は第2データ集合322を用いて計算されるため、g(θ)の影響の度合いは、第2データ集合322の影響の度合いを表している。θの値がθ1に近い間はvが小さいため、パラメータθの更新に対する第2データ集合322の影響が大きくなる。一方、θの値がθ1から遠ざかるとvが大きくなり、パラメータθの更新に対する第2データ集合322の影響が小さくなる。
したがって、第2データ集合322のみを用いた第2機械学習において、第2データ集合322に対する過剰適合が抑制され、第1データ集合321及び第2データ集合322の両方に適合した第2学習モデル324を生成することができる。これにより、第2学習モデル324の汎化性能が確保され、第2学習モデル324から生成される単語埋め込みモデル325の精度が向上する。
更新部313は、第2機械学習において、式(3)及び式(4)の代わりに次式を用いて、パラメータθを更新してもよい。
v1=v1+g(θ) (5)
v2=exp(λ|θ1-θ|) (6)
θ=θ-(α/(v11/2+v21/2+ε))g(θ) (7)
式(5)のv1は、式(1)のvに対応し、式(6)のv2は、式(3)のvに対応する。式(7)の(α/(v11/2+v21/2+ε))g(θ)は、パラメータθの更新量を表す。λの値を変更することで、v1とv2の大小関係を調整することができる。式(3)及び式(6)のexp()の代わりに、正の値を生成する別の増加関数を用いてもよい。
図5は、図3のモデル生成装置301が行うモデル生成処理の具体例を示すフローチャートである。このモデル生成処理では、学習前の学習モデルとしてELMoのLMが用いられる。
まず、学習部312は、学習前の学習モデルに対して、第1データ集合321を利用した第1機械学習を実行することで、第1学習モデル323を生成する(ステップ501)。次に、更新部313は、第1学習モデル323に対して、第2データ集合322を利用した第2機械学習を実行することで、第2学習モデル324を生成する(ステップ502)。
次に、生成部314は、第2学習モデル324に対応するニューラルネットワークの中間層の出力を用いて、単語埋め込みモデル325を生成し(ステップ503)、出力部315は、単語埋め込みモデル325を出力する(ステップ504)。
図6は、図5のステップ502における第2機械学習の例を示すフローチャートである。まず、更新部313は、第2データ集合322を用いて、第1学習モデル323に含まれる各LSTMの各パラメータの値を更新する(ステップ601)。更新部313は、式(3)及び式(4)により各パラメータの値を更新してもよく、式(5)~式(7)により各パラメータの値を更新してもよい。
次に、更新部313は、更新処理が収束したか否かをチェックする(ステップ602)。例えば、各パラメータの更新量が閾値よりも小さくなった場合、更新処理が収束したと判定され、更新量が閾値以上である場合、更新処理が収束していないと判定される。
更新部313は、更新処理が収束していない場合(ステップ602,NO)、ステップ601以降の処理を繰り返し、更新処理が収束した場合(ステップ602,YES)、処理を終了する。
ところで、第1学習モデル323及び第2学習モデル324は、単語埋め込みモデル325を生成するためのLMに限られるわけではなく、自然言語処理、画像処理、金融処理、需要予測等の他の情報処理を行う学習モデルであってもよい。第1学習モデル323及び第2学習モデル324としては、ニューラルネットワーク以外に、サポートベクタマシン、ロジスティック回帰等の他の学習モデルを用いることもできる。
図1のモデル生成装置101及び図3のモデル生成装置301の構成は一例に過ぎず、モデル生成装置の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、図3のモデル生成装置301において、事前に第1学習モデル323が記憶部311に格納されている場合は、学習部312を省略することができる。単語埋め込みモデル325を生成する必要がない場合は、生成部314及び出力部315を省略することができる。
図2、図5、及び図6のフローチャートは一例に過ぎず、モデル生成装置の構成又は条件に応じて一部の処理を省略又は変更してもよい。例えば、図5のモデル生成処理において、事前に第1学習モデル323が記憶部311に格納されている場合は、ステップ501の処理を省略することができる。単語埋め込みモデル325を生成する必要がない場合は、ステップ503及びステップ504の処理を省略することができる。
図4に示した単語埋め込みモデル325は一例に過ぎず、単語埋め込みモデル325は、第1データ集合321及び第2データ集合322に応じて変化する。
式(1)~式(7)は一例にすぎず、モデル生成装置は、別の計算式を用いて更新処理を行ってもよい。
図7は、図1のモデル生成装置101及び図3のモデル生成装置301として用いられる情報処理装置(コンピュータ)のハードウェア構成例を示している。図7の情報処理装置は、CPU(Central Processing Unit)701、メモリ702、入力装置703、出力装置704、補助記憶装置705、媒体駆動装置706、及びネットワーク接続装置707を含む。これらの構成要素はハードウェアであり、バス708により互いに接続されている。
メモリ702は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリであり、処理に用いられるプログラム及びデータを格納する。メモリ702は、図1の記憶部111又は図3の記憶部311として動作してもよい。
CPU701(プロセッサ)は、例えば、メモリ702を利用してプログラムを実行することにより、図1の更新部112として動作する。CPU701は、メモリ702を利用してプログラムを実行することにより、図3の学習部312、更新部313、及び生成部314としても動作する。
入力装置703は、例えば、キーボード、ポインティングデバイス等であり、オペレータ又はユーザからの指示又は情報の入力に用いられる。出力装置704は、例えば、表示装置、プリンタ、スピーカ等であり、オペレータ又はユーザへの問い合わせ又は指示、及び処理結果の出力に用いられる。処理結果は、第2学習モデル324又は単語埋め込みモデル325であってもよい。出力装置704は、図3の出力部315として動作してもよい。
補助記憶装置705は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置705は、ハードディスクドライブ又はフラッシュメモリであってもよい。情報処理装置は、補助記憶装置705にプログラム及びデータを格納しておき、それらをメモリ702にロードして使用することができる。補助記憶装置705は、図1の記憶部111又は図3の記憶部311として動作してもよい。
媒体駆動装置706は、可搬型記録媒体709を駆動し、その記録内容にアクセスする。可搬型記録媒体709は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体709は、CD-ROM(Compact Disk Read Only Memory)、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリ等であってもよい。オペレータ又はユーザは、この可搬型記録媒体709にプログラム及びデータを格納しておき、それらをメモリ702にロードして使用することができる。
このように、処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ702、補助記憶装置705、又は可搬型記録媒体709のような、物理的な(非一時的な)記録媒体である。
ネットワーク接続装置707は、LAN(Local Area Network)、WAN(Wide Area Network)等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェース回路である。情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置707を介して受信し、それらをメモリ702にロードして使用することができる。ネットワーク接続装置707は、図3の出力部315として動作してもよい。
なお、情報処理装置が図7のすべての構成要素を含む必要はなく、用途又は条件に応じて一部の構成要素を省略することも可能である。例えば、オペレータ又はユーザとのインタフェースが不要な場合は、入力装置703及び出力装置704を省略してもよい。可搬型記録媒体709又は通信ネットワークを使用しない場合は、媒体駆動装置706又はネットワーク接続装置707を省略してもよい。
開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。
図1乃至図7を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
(付記1)
複数の訓練データを利用した第1機械学習により生成された学習モデルに対して、特定の条件を満たす訓練データを利用した第2機械学習を実行することで、前記学習モデルのパラメータを更新し、
前記第2機械学習が開始される前における前記パラメータの値と、前記第2機械学習により更新された前記パラメータの更新後の値との差分が増加するほど、前記第2機械学習における前記特定の条件を満たす訓練データの前記パラメータの更新に対する影響の度合いを減少させる、
処理をコンピュータに実行させるためのモデル生成プログラム。
(付記2)
前記影響の度合いを減少させる処理は、前記第2機械学習が開始される前における前記パラメータの値と、前記更新後の値との差分を用いて、前記第2機械学習における前記パラメータの更新量を計算する処理を含み、
前記学習モデルのパラメータを更新する処理は、前記更新量を用いて前記更新後の値をさらに更新する処理を含む、
ことを特徴とする付記1記載のモデル生成プログラム。
(付記3)
前記学習モデルはニューラルネットワークであり、前記ニューラルネットワークの中間層の出力は、単語埋め込みにおける単語ベクトルの生成に用いられることを特徴とする付記1又は2記載のモデル生成プログラム。
(付記4)
複数の訓練データを利用した第1機械学習により生成された学習モデルを記憶する記憶部と、
前記学習モデルに対して、特定の条件を満たす訓練データを利用した第2機械学習を実行することで、前記学習モデルのパラメータを更新し、前記第2機械学習が開始される前における前記パラメータの値と、前記第2機械学習により更新された前記パラメータの更新後の値との差分が増加するほど、前記第2機械学習における前記特定の条件を満たす訓練データの前記パラメータの更新に対する影響の度合いを減少させる更新部と、
を備えることを特徴とするモデル生成装置。
(付記5)
前記更新部は、前記第2機械学習が開始される前における前記パラメータの値と、前記更新後の値との差分を用いて、前記第2機械学習における前記パラメータの更新量を計算し、前記更新量を用いて前記更新後の値をさらに更新することを特徴とする付記4記載のモデル生成装置。
(付記6)
前記学習モデルはニューラルネットワークであり、前記ニューラルネットワークの中間層の出力は、単語埋め込みにおける単語ベクトルの生成に用いられることを特徴とする付記4又は5記載のモデル生成装置。
(付記7)
複数の訓練データを利用した第1機械学習により生成された学習モデルに対して、特定の条件を満たす訓練データを利用した第2機械学習を実行することで、前記学習モデルのパラメータを更新し、
前記第2機械学習が開始される前における前記パラメータの値と、前記第2機械学習により更新された前記パラメータの更新後の値との差分が増加するほど、前記第2機械学習における前記特定の条件を満たす訓練データの前記パラメータの更新に対する影響の度合いを減少させる、
処理をコンピュータが実行することを特徴とするモデル生成方法。
(付記8)
前記影響の度合いを減少させる処理は、前記第2機械学習が開始される前における前記パラメータの値と、前記更新後の値との差分を用いて、前記第2機械学習における前記パラメータの更新量を計算する処理を含み、
前記学習モデルのパラメータを更新する処理は、前記更新量を用いて前記更新後の値をさらに更新する処理を含む、
ことを特徴とする付記7記載のモデル生成方法。
(付記9)
前記学習モデルはニューラルネットワークであり、前記ニューラルネットワークの中間層の出力は、単語埋め込みにおける単語ベクトルの生成に用いられることを特徴とする付記7又は8記載のモデル生成方法。
101、301 モデル生成装置
111、311 記憶部
112、313 更新部
121 学習モデル
312 学習部
314 生成部
315 出力部
321 第1データ集合
322 第2データ集合
323 第1学習モデル
324 第2学習モデル
325 単語埋め込みモデル
701 CPU
702 メモリ
703 入力装置
704 出力装置
705 補助記憶装置
706 媒体駆動装置
707 ネットワーク接続装置
708 バス
709 可搬型記録媒体

Claims (4)

  1. 複数の訓練データを利用した第1機械学習により生成された学習モデルに対して、特定の条件を満たす訓練データを利用した第2機械学習を実行することで、前記学習モデルのパラメータを更新し、
    前記第2機械学習が開始される前における前記パラメータの値と、前記第2機械学習により更新された前記パラメータの更新後の値との差分が増加するほど、前記第2機械学習における前記特定の条件を満たす訓練データの前記パラメータの更新に対する影響の度合いを減少させる、
    処理をコンピュータに実行させ
    前記影響の度合いを減少させる処理は、前記第2機械学習が開始される前における前記パラメータの値と、前記更新後の値との差分を用いて、前記第2機械学習における前記パラメータの更新量を計算する処理を含み、
    前記学習モデルのパラメータを更新する処理は、前記更新量を用いて前記更新後の値をさらに更新する処理を含むことを特徴とするモデル生成プログラム。
  2. 前記学習モデルはニューラルネットワークであり、前記ニューラルネットワークの中間層の出力は、単語埋め込みにおける単語ベクトルの生成に用いられることを特徴とする請求項記載のモデル生成プログラム。
  3. 複数の訓練データを利用した第1機械学習により生成された学習モデルを記憶する記憶部と、
    前記学習モデルに対して、特定の条件を満たす訓練データを利用した第2機械学習を実行することで、前記学習モデルのパラメータを更新し、前記第2機械学習が開始される前における前記パラメータの値と、前記第2機械学習により更新された前記パラメータの更新後の値との差分が増加するほど、前記第2機械学習における前記特定の条件を満たす訓練データの前記パラメータの更新に対する影響の度合いを減少させる更新部と、
    を備え
    前記更新部は、前記第2機械学習が開始される前における前記パラメータの値と、前記更新後の値との差分を用いて、前記第2機械学習における前記パラメータの更新量を計算し、前記更新量を用いて前記更新後の値をさらに更新することを特徴とするモデル生成装置。
  4. 複数の訓練データを利用した第1機械学習により生成された学習モデルに対して、特定の条件を満たす訓練データを利用した第2機械学習を実行することで、前記学習モデルのパラメータを更新し、
    前記第2機械学習が開始される前における前記パラメータの値と、前記第2機械学習により更新された前記パラメータの更新後の値との差分が増加するほど、前記第2機械学習における前記特定の条件を満たす訓練データの前記パラメータの更新に対する影響の度合いを減少させる、
    処理をコンピュータが実行し、
    前記影響の度合いを減少させる処理は、前記第2機械学習が開始される前における前記パラメータの値と、前記更新後の値との差分を用いて、前記第2機械学習における前記パラメータの更新量を計算する処理を含み、
    前記学習モデルのパラメータを更新する処理は、前記更新量を用いて前記更新後の値をさらに更新する処理を含むことを特徴とするモデル生成方法。
JP2020090065A 2020-05-22 2020-05-22 モデル生成プログラム、モデル生成装置、及びモデル生成方法 Active JP7487556B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020090065A JP7487556B2 (ja) 2020-05-22 2020-05-22 モデル生成プログラム、モデル生成装置、及びモデル生成方法
US17/207,746 US20210365780A1 (en) 2020-05-22 2021-03-22 Method of generating model and information processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020090065A JP7487556B2 (ja) 2020-05-22 2020-05-22 モデル生成プログラム、モデル生成装置、及びモデル生成方法

Publications (2)

Publication Number Publication Date
JP2021184217A JP2021184217A (ja) 2021-12-02
JP7487556B2 true JP7487556B2 (ja) 2024-05-21

Family

ID=78608254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020090065A Active JP7487556B2 (ja) 2020-05-22 2020-05-22 モデル生成プログラム、モデル生成装置、及びモデル生成方法

Country Status (2)

Country Link
US (1) US20210365780A1 (ja)
JP (1) JP7487556B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11816636B2 (en) * 2021-08-26 2023-11-14 Microsoft Technology Licensing, Llc Mining training data for training dependency model

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018022473A (ja) 2016-07-21 2018-02-08 パナソニックIpマネジメント株式会社 学習装置、識別装置、学習識別システム、及び、プログラム
US20180336482A1 (en) 2015-04-13 2018-11-22 Xiao-Feng YU Social prediction

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10339631B2 (en) * 2017-01-11 2019-07-02 Microsoft Technology Licensing, Llc Image demosaicing for hybrid optical sensor arrays
JP6925911B2 (ja) * 2017-08-30 2021-08-25 株式会社日立製作所 機械学習装置及び機械学習方法
US11321614B2 (en) * 2017-09-29 2022-05-03 Oracle International Corporation Directed trajectories through communication decision tree using iterative artificial intelligence
US20200034665A1 (en) * 2018-07-30 2020-01-30 DataRobot, Inc. Determining validity of machine learning algorithms for datasets
US11416760B2 (en) * 2018-11-29 2022-08-16 Sap Se Machine learning based user interface controller
US11573991B2 (en) * 2018-11-30 2023-02-07 Samsung Electronics Co., Ltd. Deep reinforcement learning-based multi-step question answering systems
US11460982B1 (en) * 2020-12-23 2022-10-04 Beijing Didi Infinity Technology And Development Co., Ltd. Number embedding application system
US11840265B1 (en) * 2023-05-02 2023-12-12 Plusai, Inc. Variable safe steering hands-off time and warning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336482A1 (en) 2015-04-13 2018-11-22 Xiao-Feng YU Social prediction
JP2018022473A (ja) 2016-07-21 2018-02-08 パナソニックIpマネジメント株式会社 学習装置、識別装置、学習識別システム、及び、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PIOTROWSKI, P. Adam et al.,A comparison of methods to avoid overfitting in neural networks training in the case of catchment runoff modelling,Journal of Hydrology [online],Volume 476,2013年,pp. 97-111,[検索日:2023.11.27],インターネット:<URL:https://www.sciencedirect.com/science/article/abs/pii/S0022169412008931>

Also Published As

Publication number Publication date
JP2021184217A (ja) 2021-12-02
US20210365780A1 (en) 2021-11-25

Similar Documents

Publication Publication Date Title
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
US20210027023A1 (en) Multi-turn dialogue response generation via mutual information maximization
US11755909B2 (en) Method of and system for training machine learning algorithm to generate text summary
WO2020088330A1 (en) Latent space and text-based generative adversarial networks (latext-gans) for text generation
CN108460028B (zh) 将句子权重融入神经机器翻译的领域适应方法
JP5982297B2 (ja) 音声認識装置、音響モデル学習装置、その方法及びプログラム
JP7070653B2 (ja) 学習装置、音声認識順位推定装置、それらの方法、およびプログラム
Behzadan et al. Mitigation of policy manipulation attacks on deep q-networks with parameter-space noise
US20210232753A1 (en) Ml using n-gram induced input representation
Li et al. Speaker verification using simplified and supervised i-vector modeling
Vaněk et al. A regularization post layer: An additional way how to make deep neural networks robust
JP6230987B2 (ja) 言語モデル作成装置、言語モデル作成方法、プログラム、および記録媒体
JP7487556B2 (ja) モデル生成プログラム、モデル生成装置、及びモデル生成方法
Chen et al. Deep reinforcement learning for on-line dialogue state tracking
US11574190B2 (en) Method and apparatus for determining output token
JP2017097317A (ja) 識別装置、ロボットおよび識別方法
Stahlberg et al. Unfolding and shrinking neural machine translation ensembles
JP6691501B2 (ja) 音響モデル学習装置、モデル学習装置、モデル学習方法、およびプログラム
US20240127586A1 (en) Neural networks with adaptive gradient clipping
WO2023059831A1 (en) Using memory to augment self-attention in neural networks
JP7452623B2 (ja) 学習装置、情報処理装置、学習方法、情報処理方法及びプログラム
WO2021234610A1 (en) Method of and system for training machine learning algorithm to generate text summary
JP7489501B1 (ja) テキスト生成装置、テキスト生成方法、およびプログラム
Francis et al. Gated recurrent capsules for visual word embeddings
WO2024147226A1 (ja) アテンション生成装置、アテンション生成方法および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230209

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20231024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240409

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240422

R150 Certificate of patent or registration of utility model

Ref document number: 7487556

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150