JP7487556B2

JP7487556B2 - モデル生成プログラム、モデル生成装置、及びモデル生成方法

Info

Publication number: JP7487556B2
Application number: JP2020090065A
Authority: JP
Inventors: 俊梁; 一森田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2024-05-21
Anticipated expiration: 2040-05-22
Also published as: JP2021184217A; US20210365780A1

Description

本発明は、モデル生成技術に関する。

近年、自然言語処理を利用した文書分類、感情分析、固有表現抽出等の様々なタスクにおいて、単語埋め込み技術が用いられている。単語埋め込み技術は、複数の単語それぞれを単語ベクトルに対応付ける技術である。

ニューラルネットワークを用いた単語埋め込み技術として、Word2vec、ＥＬＭｏ（Embeddings from Language Models）、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）、Flair等が知られている。このうち、ＥＬＭｏ、ＢＥＲＴ、及びFlairでは、テキスト中の文脈を用いて単語埋め込みが行われる（例えば、非特許文献１～非特許文献３を参照）

ＥＬＭｏ、ＢＥＲＴ、Flair等の単語埋め込みモデルを生成する学習処理では、Webデータ等の大量のテキストデータに対する機械学習により、学習済みの言語モデル（Language Model，ＬＭ）が生成され、生成されたＬＭから単語埋め込みモデルが生成される。学習済みのＬＭは、pre-trained modelと呼ばれることがある。この場合、大量のテキストデータが訓練データとして使用されるため、Word2vecよりも学習処理に時間がかかる。

単語埋め込みに関連して、学習データに存在しない単語のWord Embeddingを、クラスに係る情報を推定可能なWord Embeddingに変換する、情報処理システムが知られている（例えば、特許文献１を参照）。オンライン学習及び確率的最適化のための適応勾配アルゴリズムも知られている（例えば、非特許文献４を参照）。再帰型ニューラルネットワークの一種であるＬＳＴＭ（Long Short Term Memory）ネットワークも知られている（例えば、非特許文献５を参照）。

特開２０１６－１１０２８４号公報

M. E. Peters et al., "Deep contextualized word representations", Cornell University, arXiv:1802.05365v2, 2018. J. Devlin et al., "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", Cornell University, arXiv:1810.04805v2, 2019. "flairNLP/flair"、［online］、GitHub、［令和２年２月１４日検索］、インターネット＜ＵＲＬ：https://github.com/zalandoresearch/flair＞ J. Duchi et al., "Adaptive Subgradient Methods for Online Learning and Stochastic Optimization", The Journal of Machine Learning Research, volume 12, pages 2121-2159, 2011. "Understanding LSTM Networks"、［online］、August 27, 2015、［令和２年４月１４日検索］、インターネット＜ＵＲＬ：https://colah.github.io/posts/2015-08-Understanding-LSTMs/＞

大量のテキストデータＡに対する機械学習により得られた、ＥＬＭｏ、ＢＥＲＴ、Flair等の学習済みの言語モデルＬＭＡに、新たなドメインの少量のテキストデータＢを学習させることで、言語モデルＬＭＡが更新されることがある。テキストデータＡとしては、例えば、ニュース記事、インターネット百科事典等から抽出された数百万個程度の文が用いられ、テキストデータＢとしては、例えば、特定分野の学術論文、社内データ等から抽出された十万個程度の文が用いられる。

更新後の言語モデルＬＭＢから新たな単語埋め込みモデルを生成することで、新たなドメインのテキストデータＢに適合した単語埋め込みモデルを生成することができる。

しかしながら、新たなドメインのテキストデータＢには、更新前の言語モデルＬＭＡにより認識されない専門用語、社内用語等が多く含まれている場合がある。この場合、言語モデルＬＭＡのパラメータを初期値として用いて、テキストデータＢに対する機械学習を行うことで、テキストデータＢに適合するようにパラメータが更新される。

しかし、訓練データとしてテキストデータＢのみを用いた場合、テキストデータＢに対する過剰適合が発生することが多く、パラメータが元のテキストデータＡに適合していることが保障されない。このため、テキストデータＡに対する機械学習の効果が減殺されて、更新後の言語モデルＬＭＢの汎化性能が損なわれるため、言語モデルＬＭＢから生成される単語埋め込みモデルの精度が低下する。

なお、かかる問題は、ニューラルネットワークを用いて単語埋め込みモデルを生成する機械学習に限らず、様々な学習モデルを生成する機械学習において生ずるものである。

１つの側面において、本発明は、学習済みの学習モデルに対して、特定の条件を満たす訓練データをさらに学習させる機械学習において、学習モデルの過剰適合を抑制することを目的とする。

１つの案では、モデル生成プログラムは、以下の処理をコンピュータに実行させる。

コンピュータは、複数の訓練データを利用した第１機械学習により生成された学習モデルに対して、特定の条件を満たす訓練データを利用した第２機械学習を実行することで、学習モデルのパラメータを更新する。コンピュータは、第２機械学習が開始される前におけるパラメータの値と、第２機械学習により更新されたパラメータの更新後の値との差分が増加するほど、特定の条件を満たす訓練データの影響の度合いを減少させる。特定の条件を満たす訓練データの影響の度合いは、第２機械学習における特定の条件を満たす訓練データのパラメータの更新に対する影響の度合いを表す。

１つの側面によれば、学習済みの学習モデルに対して、特定の条件を満たす訓練データをさらに学習させる機械学習において、学習モデルの過剰適合を抑制することができる。

モデル生成装置の機能的構成図である。モデル生成処理のフローチャートである。モデル生成装置の具体例を示す機能的構成図である。単語埋め込みモデルを示す図である。モデル生成処理の具体例を示すフローチャートである。第２機械学習のフローチャートである。情報処理装置のハードウェア構成図である。

以下、図面を参照しながら、実施形態を詳細に説明する。

図１は、実施形態のモデル生成装置の機能的構成例を示している。図１のモデル生成装置１０１は、記憶部１１１及び更新部１１２を含む。記憶部１１１は、複数の訓練データを利用した第１機械学習により生成された学習モデル１２１を記憶する。更新部１１２は、記憶部１１１が記憶する学習モデル１２１を用いて、モデル生成処理を行う。

図２は、図１のモデル生成装置１０１が行うモデル生成処理の例を示すフローチャートである。まず、更新部１１２は、学習モデル１２１に対して、特定の条件を満たす訓練データを利用した第２機械学習を実行することで、学習モデル１２１のパラメータを更新する（ステップ２０１）。

次に、更新部１１２は、第２機械学習が開始される前におけるパラメータの値と、第２機械学習により更新されたパラメータの更新後の値との差分が増加するほど、特定の条件を満たす訓練データの影響の度合いを減少させる（ステップ２０２）。特定の条件を満たす訓練データの影響の度合いは、第２機械学習における特定の条件を満たす訓練データのパラメータの更新に対する影響の度合いを表す。

図１のモデル生成装置１０１によれば、学習済みの学習モデルに対して、特定の条件を満たす訓練データをさらに学習させる機械学習において、学習モデルの過剰適合を抑制することができる。

図３は、図１のモデル生成装置１０１の具体例を示している。図３のモデル生成装置３０１は、記憶部３１１、学習部３１２、更新部３１３、生成部３１４、及び出力部３１５を含む。記憶部３１１及び更新部３１３は、図１の記憶部１１１及び更新部１１２にそれぞれ対応する。

記憶部３１１は、第１データ集合３２１及び第２データ集合３２２を記憶する。第１データ集合３２１は、第１機械学習の訓練データとして用いられる大量のテキストデータを含む。第１データ集合３２１としては、例えば、ニュース記事、インターネット百科事典等から抽出された数百万個程度の文が用いられる。

第２データ集合３２２は、第２機械学習の訓練データとして用いられる少量のテキストデータを含む。第２データ集合３２２としては、例えば、特定分野の学術論文、社内データ等から抽出された十万個程度の文が用いられる。第２データ集合３２２のテキストデータは、特定の条件を満たす訓練データの一例である。

学習部３１２は、学習前の学習モデルに対して、第１データ集合３２１を利用した第１機械学習を実行することで、第１学習モデル３２３を生成して、記憶部３１１に格納する。学習前の学習モデルとしては、例えば、ＥＬＭｏ、ＢＥＲＴ、Flair等のＬＭが用いられる。このＬＭは、ニューラルネットワークである。

第１学習モデル３２３は、学習済みの学習モデルであり、図１の学習モデル１２１に対応する。第１学習モデル３２３に対応するニューラルネットワークの中間層の出力は、単語埋め込みにおける単語ベクトルの生成に用いられる。

更新部３１３は、第１学習モデル３２３に対して、第２データ集合３２２を利用した第２機械学習を実行することで、第１学習モデル３２３のパラメータの値を更新して第２学習モデル３２４を生成し、記憶部３１１に格納する。第１学習モデル３２３のパラメータの値は、第２学習モデル３２４のパラメータの初期値として用いられる。第２機械学習において、更新部３１３は、パラメータの初期値と更新後の値との差分が増加するほど、第２データ集合３２２の影響の度合いを減少させる制御を行う。

生成部３１４は、第２学習モデル３２４に対応するニューラルネットワークの中間層の出力を用いて、単語埋め込みモデル３２５を生成し、記憶部３１１に格納する。単語埋め込みモデル３２５は、複数の単語それぞれを単語ベクトルに対応付けるモデルである。出力部３１５は、生成された単語埋め込みモデル３２５を出力する。

図４は、単語埋め込みモデル３２５の例を示している。図４の単語埋め込みモデル３２５では、“Flowers”、“Chocolate”、“Grass”、及び“Tree”が、実数を成分とする単語ベクトルに対応付けられている。

非特許文献１に記載されたＥＬＭｏのＬＭは、順方向ＬＭと逆方向ＬＭとを組み合わせた双方向ＬＭである。順方向ＬＭは、テキストデータ中に出現するある単語と、その単語よりも前に出現する複数の単語との間の文脈依存関係を表す。逆方向ＬＭは、テキストデータ中に出現するある単語と、その単語よりも後に出現する複数の単語との間の文脈依存関係を表す。順方向ＬＭと逆方向ＬＭとを組み合わることで、テキストデータ中に出現する単語の意味を正しく捉えることが可能になる。

ＥＬＭｏのＬＭは複数の層からなり、各層は複数のＬＳＴＭを含む。このうち、中間層のＬＳＴＭから出力される値を用いて、単語埋め込みモデル３２５の各単語に対応する単語ベクトルが生成される。

例えば、非特許文献５に記載されたＬＳＴＭは、入力ゲート、忘却ゲート、及び出力ゲート（tanh）を含み、これらのゲートの出力を用いてＬＳＴＭの出力が生成される。各ゲートのパラメータは重み係数及びバイアスであり、重み係数及びバイアスは、テキストデータに対する機械学習により更新される。

ＬＳＴＭの各パラメータを更新するための最適化アルゴリズムとしては、例えば、非特許文献４に記載された、AdaGradと呼ばれる適応勾配アルゴリズムを用いることができる。AdaGradを用いた場合、パラメータθは、例えば、次式により更新される。

ｖ＝ｖ＋ｇ（θ）^２（１）
θ＝θ－（α／（ｖ^１／２＋ε））ｇ（θ）（２）

式（１）のｖはスカラである。ｇ（θ）は、パラメータθに対する目的関数の勾配を表し、訓練データを用いて計算される。ｖは、更新される度に大きくなる。式（２）のεは、更新処理を安定化するための定数であり、αは学習率である。εは１０＾（－８）程度の値であってもよく、αは１０＾（－２）程度の値であってもよい。（α／（ｖ^１／２＋ε））ｇ（θ）は、パラメータθの更新量を表す。

学習前の学習モデルとしてＥＬＭｏのＬＭを用いた場合、ＬＭに含まれる各ＬＳＴＭの入力ゲート、忘却ゲート、及び出力ゲートの重み係数及びバイアスが、パラメータθとして用いられる。学習部３１２は、第１機械学習において、式（１）及び式（２）により、各ＬＳＴＭの入力ゲート、忘却ゲート、及び出力ゲートの重み係数及びバイアスを更新する。重み係数及びバイアスの更新処理を複数回繰り返すことで、第１学習モデル３２３に対応するＬＭ１が生成される。

更新部３１３は、第２機械学習において、次式により、ＬＭ１に含まれる各ＬＳＴＭの入力ゲート、忘却ゲート、及び出力ゲートの重み係数及びバイアスを更新する。

ｖ＝ｅｘｐ（λ｜θ１－θ｜）（３）
θ＝θ－（α／（ｖ^１／２＋ε））ｇ（θ）（４）

式（３）のｅｘｐ（）は指数関数であり、λは所定の定数である。θ１は、ＬＭ１に含まれるパラメータθの値を表し、第２機械学習におけるパラメータθの初期値として用いられる。｜θ１－θ｜は、θ１と、最後に更新されたパラメータθの更新後の値との差分を表す。ｖは、更新される度に大きくなる。

式（４）は、式（２）と同じである。この場合、第２データ集合３２２を用いてｇ（θ）が計算され、ｇ（θ）と｜θ１－θ｜とを用いて、パラメータθの更新量が計算される。そして、計算された更新量を用いて、パラメータθの更新後の値がさらに更新される。｜θ１－θ｜を用いて更新量を計算することで、パラメータθの初期値と更新後の値との差分を、次の更新量に反映させることができる。そして、重み係数及びバイアスの更新処理を複数回繰り返すことで、第２学習モデル３２４に対応するＬＭ２が生成される。

式（３）及び式（４）から、｜θ１－θ｜が増加するほどｖが大きくなり、式（４）の右辺のα／（ｖ^１／２＋ε）が減少することが分かる。α／（ｖ^１／２＋ε）は、パラメータθの更新に対するｇ（θ）の影響の度合いを表す。ｇ（θ）は第２データ集合３２２を用いて計算されるため、ｇ（θ）の影響の度合いは、第２データ集合３２２の影響の度合いを表している。θの値がθ１に近い間はｖが小さいため、パラメータθの更新に対する第２データ集合３２２の影響が大きくなる。一方、θの値がθ１から遠ざかるとｖが大きくなり、パラメータθの更新に対する第２データ集合３２２の影響が小さくなる。

したがって、第２データ集合３２２のみを用いた第２機械学習において、第２データ集合３２２に対する過剰適合が抑制され、第１データ集合３２１及び第２データ集合３２２の両方に適合した第２学習モデル３２４を生成することができる。これにより、第２学習モデル３２４の汎化性能が確保され、第２学習モデル３２４から生成される単語埋め込みモデル３２５の精度が向上する。

更新部３１３は、第２機械学習において、式（３）及び式（４）の代わりに次式を用いて、パラメータθを更新してもよい。

ｖ１＝ｖ１＋ｇ（θ）^２（５）
ｖ２＝ｅｘｐ（λ｜θ１－θ｜）（６）
θ＝θ－（α／（ｖ１^１／２＋ｖ２^１／２＋ε））ｇ（θ）（７）

式（５）のｖ１は、式（１）のｖに対応し、式（６）のｖ２は、式（３）のｖに対応する。式（７）の（α／（ｖ１^１／２＋ｖ２^１／２＋ε））ｇ（θ）は、パラメータθの更新量を表す。λの値を変更することで、ｖ１とｖ２の大小関係を調整することができる。式（３）及び式（６）のｅｘｐ（）の代わりに、正の値を生成する別の増加関数を用いてもよい。

図５は、図３のモデル生成装置３０１が行うモデル生成処理の具体例を示すフローチャートである。このモデル生成処理では、学習前の学習モデルとしてＥＬＭｏのＬＭが用いられる。

まず、学習部３１２は、学習前の学習モデルに対して、第１データ集合３２１を利用した第１機械学習を実行することで、第１学習モデル３２３を生成する（ステップ５０１）。次に、更新部３１３は、第１学習モデル３２３に対して、第２データ集合３２２を利用した第２機械学習を実行することで、第２学習モデル３２４を生成する（ステップ５０２）。

次に、生成部３１４は、第２学習モデル３２４に対応するニューラルネットワークの中間層の出力を用いて、単語埋め込みモデル３２５を生成し（ステップ５０３）、出力部３１５は、単語埋め込みモデル３２５を出力する（ステップ５０４）。

図６は、図５のステップ５０２における第２機械学習の例を示すフローチャートである。まず、更新部３１３は、第２データ集合３２２を用いて、第１学習モデル３２３に含まれる各ＬＳＴＭの各パラメータの値を更新する（ステップ６０１）。更新部３１３は、式（３）及び式（４）により各パラメータの値を更新してもよく、式（５）～式（７）により各パラメータの値を更新してもよい。

次に、更新部３１３は、更新処理が収束したか否かをチェックする（ステップ６０２）。例えば、各パラメータの更新量が閾値よりも小さくなった場合、更新処理が収束したと判定され、更新量が閾値以上である場合、更新処理が収束していないと判定される。

更新部３１３は、更新処理が収束していない場合（ステップ６０２，ＮＯ）、ステップ６０１以降の処理を繰り返し、更新処理が収束した場合（ステップ６０２，ＹＥＳ）、処理を終了する。

ところで、第１学習モデル３２３及び第２学習モデル３２４は、単語埋め込みモデル３２５を生成するためのＬＭに限られるわけではなく、自然言語処理、画像処理、金融処理、需要予測等の他の情報処理を行う学習モデルであってもよい。第１学習モデル３２３及び第２学習モデル３２４としては、ニューラルネットワーク以外に、サポートベクタマシン、ロジスティック回帰等の他の学習モデルを用いることもできる。

図１のモデル生成装置１０１及び図３のモデル生成装置３０１の構成は一例に過ぎず、モデル生成装置の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、図３のモデル生成装置３０１において、事前に第１学習モデル３２３が記憶部３１１に格納されている場合は、学習部３１２を省略することができる。単語埋め込みモデル３２５を生成する必要がない場合は、生成部３１４及び出力部３１５を省略することができる。

図２、図５、及び図６のフローチャートは一例に過ぎず、モデル生成装置の構成又は条件に応じて一部の処理を省略又は変更してもよい。例えば、図５のモデル生成処理において、事前に第１学習モデル３２３が記憶部３１１に格納されている場合は、ステップ５０１の処理を省略することができる。単語埋め込みモデル３２５を生成する必要がない場合は、ステップ５０３及びステップ５０４の処理を省略することができる。

図４に示した単語埋め込みモデル３２５は一例に過ぎず、単語埋め込みモデル３２５は、第１データ集合３２１及び第２データ集合３２２に応じて変化する。

式（１）～式（７）は一例にすぎず、モデル生成装置は、別の計算式を用いて更新処理を行ってもよい。

図７は、図１のモデル生成装置１０１及び図３のモデル生成装置３０１として用いられる情報処理装置（コンピュータ）のハードウェア構成例を示している。図７の情報処理装置は、ＣＰＵ（Central Processing Unit）７０１、メモリ７０２、入力装置７０３、出力装置７０４、補助記憶装置７０５、媒体駆動装置７０６、及びネットワーク接続装置７０７を含む。これらの構成要素はハードウェアであり、バス７０８により互いに接続されている。

メモリ７０２は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、フラッシュメモリ等の半導体メモリであり、処理に用いられるプログラム及びデータを格納する。メモリ７０２は、図１の記憶部１１１又は図３の記憶部３１１として動作してもよい。

ＣＰＵ７０１（プロセッサ）は、例えば、メモリ７０２を利用してプログラムを実行することにより、図１の更新部１１２として動作する。ＣＰＵ７０１は、メモリ７０２を利用してプログラムを実行することにより、図３の学習部３１２、更新部３１３、及び生成部３１４としても動作する。

入力装置７０３は、例えば、キーボード、ポインティングデバイス等であり、オペレータ又はユーザからの指示又は情報の入力に用いられる。出力装置７０４は、例えば、表示装置、プリンタ、スピーカ等であり、オペレータ又はユーザへの問い合わせ又は指示、及び処理結果の出力に用いられる。処理結果は、第２学習モデル３２４又は単語埋め込みモデル３２５であってもよい。出力装置７０４は、図３の出力部３１５として動作してもよい。

補助記憶装置７０５は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置７０５は、ハードディスクドライブ又はフラッシュメモリであってもよい。情報処理装置は、補助記憶装置７０５にプログラム及びデータを格納しておき、それらをメモリ７０２にロードして使用することができる。補助記憶装置７０５は、図１の記憶部１１１又は図３の記憶部３１１として動作してもよい。

媒体駆動装置７０６は、可搬型記録媒体７０９を駆動し、その記録内容にアクセスする。可搬型記録媒体７０９は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体７０９は、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ（Digital Versatile Disk）、ＵＳＢ（Universal Serial Bus）メモリ等であってもよい。オペレータ又はユーザは、この可搬型記録媒体７０９にプログラム及びデータを格納しておき、それらをメモリ７０２にロードして使用することができる。

このように、処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ７０２、補助記憶装置７０５、又は可搬型記録媒体７０９のような、物理的な（非一時的な）記録媒体である。

ネットワーク接続装置７０７は、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェース回路である。情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置７０７を介して受信し、それらをメモリ７０２にロードして使用することができる。ネットワーク接続装置７０７は、図３の出力部３１５として動作してもよい。

なお、情報処理装置が図７のすべての構成要素を含む必要はなく、用途又は条件に応じて一部の構成要素を省略することも可能である。例えば、オペレータ又はユーザとのインタフェースが不要な場合は、入力装置７０３及び出力装置７０４を省略してもよい。可搬型記録媒体７０９又は通信ネットワークを使用しない場合は、媒体駆動装置７０６又はネットワーク接続装置７０７を省略してもよい。

開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。

図１乃至図７を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
（付記１）
複数の訓練データを利用した第１機械学習により生成された学習モデルに対して、特定の条件を満たす訓練データを利用した第２機械学習を実行することで、前記学習モデルのパラメータを更新し、
前記第２機械学習が開始される前における前記パラメータの値と、前記第２機械学習により更新された前記パラメータの更新後の値との差分が増加するほど、前記第２機械学習における前記特定の条件を満たす訓練データの前記パラメータの更新に対する影響の度合いを減少させる、
処理をコンピュータに実行させるためのモデル生成プログラム。
（付記２）
前記影響の度合いを減少させる処理は、前記第２機械学習が開始される前における前記パラメータの値と、前記更新後の値との差分を用いて、前記第２機械学習における前記パラメータの更新量を計算する処理を含み、
前記学習モデルのパラメータを更新する処理は、前記更新量を用いて前記更新後の値をさらに更新する処理を含む、
ことを特徴とする付記１記載のモデル生成プログラム。
（付記３）
前記学習モデルはニューラルネットワークであり、前記ニューラルネットワークの中間層の出力は、単語埋め込みにおける単語ベクトルの生成に用いられることを特徴とする付記１又は２記載のモデル生成プログラム。
（付記４）
複数の訓練データを利用した第１機械学習により生成された学習モデルを記憶する記憶部と、
前記学習モデルに対して、特定の条件を満たす訓練データを利用した第２機械学習を実行することで、前記学習モデルのパラメータを更新し、前記第２機械学習が開始される前における前記パラメータの値と、前記第２機械学習により更新された前記パラメータの更新後の値との差分が増加するほど、前記第２機械学習における前記特定の条件を満たす訓練データの前記パラメータの更新に対する影響の度合いを減少させる更新部と、
を備えることを特徴とするモデル生成装置。
（付記５）
前記更新部は、前記第２機械学習が開始される前における前記パラメータの値と、前記更新後の値との差分を用いて、前記第２機械学習における前記パラメータの更新量を計算し、前記更新量を用いて前記更新後の値をさらに更新することを特徴とする付記４記載のモデル生成装置。
（付記６）
前記学習モデルはニューラルネットワークであり、前記ニューラルネットワークの中間層の出力は、単語埋め込みにおける単語ベクトルの生成に用いられることを特徴とする付記４又は５記載のモデル生成装置。
（付記７）
複数の訓練データを利用した第１機械学習により生成された学習モデルに対して、特定の条件を満たす訓練データを利用した第２機械学習を実行することで、前記学習モデルのパラメータを更新し、
前記第２機械学習が開始される前における前記パラメータの値と、前記第２機械学習により更新された前記パラメータの更新後の値との差分が増加するほど、前記第２機械学習における前記特定の条件を満たす訓練データの前記パラメータの更新に対する影響の度合いを減少させる、
処理をコンピュータが実行することを特徴とするモデル生成方法。
（付記８）
前記影響の度合いを減少させる処理は、前記第２機械学習が開始される前における前記パラメータの値と、前記更新後の値との差分を用いて、前記第２機械学習における前記パラメータの更新量を計算する処理を含み、
前記学習モデルのパラメータを更新する処理は、前記更新量を用いて前記更新後の値をさらに更新する処理を含む、
ことを特徴とする付記７記載のモデル生成方法。
（付記９）
前記学習モデルはニューラルネットワークであり、前記ニューラルネットワークの中間層の出力は、単語埋め込みにおける単語ベクトルの生成に用いられることを特徴とする付記７又は８記載のモデル生成方法。

１０１、３０１モデル生成装置
１１１、３１１記憶部
１１２、３１３更新部
１２１学習モデル
３１２学習部
３１４生成部
３１５出力部
３２１第１データ集合
３２２第２データ集合
３２３第１学習モデル
３２４第２学習モデル
３２５単語埋め込みモデル
７０１ＣＰＵ
７０２メモリ
７０３入力装置
７０４出力装置
７０５補助記憶装置
７０６媒体駆動装置
７０７ネットワーク接続装置
７０８バス
７０９可搬型記録媒体

Claims

複数の訓練データを利用した第１機械学習により生成された学習モデルに対して、特定の条件を満たす訓練データを利用した第２機械学習を実行することで、前記学習モデルのパラメータを更新し、
前記第２機械学習が開始される前における前記パラメータの値と、前記第２機械学習により更新された前記パラメータの更新後の値との差分が増加するほど、前記第２機械学習における前記特定の条件を満たす訓練データの前記パラメータの更新に対する影響の度合いを減少させる、
処理をコンピュータに実行させ、
前記影響の度合いを減少させる処理は、前記第２機械学習が開始される前における前記パラメータの値と、前記更新後の値との差分を用いて、前記第２機械学習における前記パラメータの更新量を計算する処理を含み、
前記学習モデルのパラメータを更新する処理は、前記更新量を用いて前記更新後の値をさらに更新する処理を含むことを特徴とするモデル生成プログラム。
前記学習モデルはニューラルネットワークであり、前記ニューラルネットワークの中間層の出力は、単語埋め込みにおける単語ベクトルの生成に用いられることを特徴とする請求項１記載のモデル生成プログラム。
複数の訓練データを利用した第１機械学習により生成された学習モデルを記憶する記憶部と、
前記学習モデルに対して、特定の条件を満たす訓練データを利用した第２機械学習を実行することで、前記学習モデルのパラメータを更新し、前記第２機械学習が開始される前における前記パラメータの値と、前記第２機械学習により更新された前記パラメータの更新後の値との差分が増加するほど、前記第２機械学習における前記特定の条件を満たす訓練データの前記パラメータの更新に対する影響の度合いを減少させる更新部と、
を備え、
前記更新部は、前記第２機械学習が開始される前における前記パラメータの値と、前記更新後の値との差分を用いて、前記第２機械学習における前記パラメータの更新量を計算し、前記更新量を用いて前記更新後の値をさらに更新することを特徴とするモデル生成装置。
複数の訓練データを利用した第１機械学習により生成された学習モデルに対して、特定の条件を満たす訓練データを利用した第２機械学習を実行することで、前記学習モデルのパラメータを更新し、
前記第２機械学習が開始される前における前記パラメータの値と、前記第２機械学習により更新された前記パラメータの更新後の値との差分が増加するほど、前記第２機械学習における前記特定の条件を満たす訓練データの前記パラメータの更新に対する影響の度合いを減少させる、
処理をコンピュータが実行し、
前記影響の度合いを減少させる処理は、前記第２機械学習が開始される前における前記パラメータの値と、前記更新後の値との差分を用いて、前記第２機械学習における前記パラメータの更新量を計算する処理を含み、
前記学習モデルのパラメータを更新する処理は、前記更新量を用いて前記更新後の値をさらに更新する処理を含むことを特徴とするモデル生成方法。