JP6859577B2

JP6859577B2 - 学習方法、学習プログラム、学習装置及び学習システム

Info

Publication number: JP6859577B2
Application number: JP2019532833A
Authority: JP
Inventors: 達也原田; 佑司床爪
Original assignee: University of Tokyo NUC
Current assignee: University of Tokyo NUC
Priority date: 2017-07-25
Filing date: 2018-07-25
Publication date: 2021-04-14
Anticipated expiration: 2038-07-25
Also published as: JPWO2019022136A1; EP3660753A4; US11488060B2; WO2019022136A1; US20200210893A1; EP3660753A1

Description

本発明は、学習方法、学習プログラム、学習装置及び学習システムに関する。

近年、多層のニューラルネットワーク等のモデルを用いて、画像認識や音声認識、自然言語処理を行う研究が進展している。例えば、画像を入力として、その画像が犬の画像であるのか、猫の画像であるのかといった分類結果を出力する分類モデルが知られている。分類モデルは、分類が定められた複数の学習用データを入力して、正しい分類を再現するように分類モデルのパラメータを更新していくことで学習されることがある。

ニューラルネットワークの学習方法の一例として、下記特許文献１には、画像を分類するための分類器の学習方法であって、第１ニューラルネットワークで構成される粗クラス分類器に、それぞれの詳細クラスを示すラベルが付与された複数の画像を、複数の詳細クラスを包含する複数の粗クラスに分類させて、当該複数の粗クラス毎の共通の特徴である第１特徴を学習させる第１ステップと、第１ニューラルネットワークと比較して最終層のみが異なる第２ニューラルネットワークで構成される詳細クラス分類器に、複数の画像を詳細クラスに分類させて、当該詳細クラス毎の共通の特徴である第２特徴を学習させる第２ステップと、を含む学習方法が記載されている。

特開２０１７−８４３２０号公報

複数の学習用データを正しく分類するように分類モデルの学習が行われると、その学習用データに関する分類モデルによる分類の正確度は確保されるようになる。しかしながら、同じ分類に属すべきデータを分類モデルに入力した場合に、特徴空間において分類モデルの出力がどの程度ばらつくかについては、必ずしも明らかでないことがある。

同じ分類に属すべきデータを分類モデルに入力した場合に、特徴空間において分類モデルの出力がばらつく場合、すなわち出力の精度が低い場合、新たなデータを分類モデルに入力した際に、分類を誤ることが多くなる。一方、同じ分類に属すべきデータを分類モデルに入力した場合に、特徴空間において分類モデルの出力がばらつかない場合、すなわち出力の精度が高い場合、新たなデータを分類モデルに入力した際に、分類を誤ることが少なくなる。

また、いわゆる深層学習に代表されるようなパラメータ数の多い複雑な分類モデルを、その出力が高精度となるように学習させるためには、大量の学習用データを必要とすることがある。しかしながら、学習用データは必ずしも大量に用意できないこともあり、その結果、分類モデルの出力の精度を十分に高められず、分類の正答率を十分に高められないことがある。

そこで、本発明は、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させる学習方法、学習プログラム、学習装置及び学習システムを提供する。

本発明の一態様に係る学習方法は、少なくとも１つのハードウェアプロセッサと、少なくとも１つのメモリとを備えるコンピュータによって、それぞれ分類が定められた複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、１つの合成データを生成することと、１又は複数の合成データを分類モデルに入力することと、分類モデルの出力によって、合成データに含まれる複数の学習用データの分類が所定の比率で再現されるように、分類モデルのパラメータを更新することと、を実行する。

この態様によれば、合成データに含まれる複数の学習用データの分類の比率を再現するように分類モデルを学習させることで、学習用データの個別の分類を再現するように分類モデルを学習させる場合よりも、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させることができる。

上記態様において、合成データを生成することを実行する前に、所定の比率を決定することをさらに含んでもよい。

この態様によれば、学習用データを合成する比率を可変とすることで、同じ学習用データを用いる場合であっても、異なる内容の合成データを生成できるようになり、分類モデルの学習に用いるデータの多様性を増すことができる。

上記態様において、所定の比率を決定することは、所定の数値範囲から１つの数値をランダムに選択することと、選択された数値に基づいて所定の比率を決定することとを含んでもよい。

この態様によれば、学習用データを合成する比率をランダムに選択することで、学習用データの数が限られている場合であっても、多様な合成データを生成することができ、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させることができる。

上記態様において、所定の比率を決定することは、合成データを生成することを実行する度に行われてもよい。

この態様によれば、学習用データを合成する比率の決定を、合成データを生成する度に行うことで、学習の反復回数が多い場合であっても、反復を行う度に異なる内容の合成データについて学習を行うことができ、分類モデルを多様なデータで学習させることができる。

上記態様において、合成データを生成することを実行する前に、初期データセットのうちから複数の学習用データを選択することをさらに含んでもよい。

この態様によれば、初期データセットのうちから複数の学習用データを選択して合成データとすることで、初期データセットの組合せの数だけ合成データの合成元となるデータを増やすことができ、分類モデルを多様なデータで学習させることができる。

上記態様において、複数の学習用データを選択することは、初期データセットのうちからランダムにデータを選択することを含んでもよい。

この態様によれば、初期データセットのうちからランダムに複数の学習用データを選択することで、学習用データの数が限られている場合であっても、多様な合成データを生成することができ、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させることができる。

上記態様において、合成データを生成することを実行する前に、複数の学習用データを変換し、複数の変換データを生成することをさらに含んでもよい。

この態様によれば、複数の学習用データを整形したり、複数の学習用データに対してデータオーグメンテーションを行ったりすることで複数の変換データを得て、それらを所定の比率で合成して合成データを生成することで、分類モデルをさらに多様なデータで学習させることができる。

上記態様において、複数の学習用データは、複数の音データであり、合成データを生成することは、複数の音データを所定の比率で重ね合わせて、１つの合成音データを生成することを含んでもよい。

この態様によれば、重ね合わされた複数の音データの分類の比率を再現するように分類モデルを学習させることで、音データの個別の分類を再現するように分類モデルを学習させる場合よりも、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させることができる。

上記態様において、複数の学習用データは、複数の画像データであり、合成データを生成することは、複数の画像データのピクセル毎に、ピクセル値を所定の比率で加算して、１つの合成画像データを生成することを含んでもよい。

この態様によれば、重ね合わされた複数の画像データの分類の比率を再現するように分類モデルを学習させることで、画像データの個別の分類を再現するように分類モデルを学習させる場合よりも、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させることができる。

上記態様において、複数の学習用データは、複数のテキストデータであり、合成データを生成することは、複数のテキストデータを複数のベクトルデータに変換することと、複数のベクトルデータを、所定の比率で加算して、１つの合成ベクトルデータを生成することとを含んでもよい。

この態様によれば、重ね合わされた複数のテキストデータの分類の比率を再現するように分類モデルを学習させることで、テキストデータの個別の分類を再現するように分類モデルを学習させる場合よりも、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させることができる。

本発明の他の態様に係る学習方法は、少なくとも１つのハードウェアプロセッサと、少なくとも１つのメモリとを備えるコンピュータによって、それぞれ分類が定められた複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを分類モデルに入力し、分類モデルの複数の中間出力を取得することと、複数の中間出力を所定の比率で合成し、１つの合成データを生成することと、１又は複数の合成データを、分類モデルのうち中間出力を出力した構成の後段に入力することと、分類モデルの出力によって、合成データに含まれる複数の学習用データの分類が所定の比率で再現されるように、分類モデルのパラメータを更新することと、を実行する。

この態様によれば、分類モデルの中間出力を得て、それらを所定の比率で合成して合成データを生成し、分類モデルのうち中間出力を出力した構成の後段に合成データを入力し、合成データに含まれる複数の学習用データの分類の比率を再現するように分類モデルを学習させることで、学習用データの個別の分類を再現するように分類モデルを学習させる場合よりも、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させることができる。

本発明の他の態様に係る学習プログラムは、少なくとも１つのハードウェアプロセッサと、少なくとも１つのメモリとを備えるコンピュータに、それぞれ分類が定められた複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、１つの合成データを生成することと、１又は複数の合成データを分類モデルに入力することと、分類モデルの出力によって、合成データに含まれる複数の学習用データの分類が所定の比率で再現されるように、分類モデルのパラメータを更新することと、を実行させる。

本発明の他の態様に係る学習装置は、それぞれ分類が定められた複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、１つの合成データを生成する生成部と、１又は複数の合成データを分類モデルに入力する投入部と、分類モデルの出力によって、合成データに含まれる複数の学習用データの分類が所定の比率で再現されるように、分類モデルのパラメータを更新する更新部と、を備える。

本発明の他の態様に係る学習システムは、それぞれ分類が定められた初期データセットを記憶するデータベースと、入力されたデータの分類を出力する分類モデルと、初期データセットのうちから選択された複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、１つの合成データを生成する生成部、１又は複数の合成データを分類モデルに入力する投入部及び分類モデルの出力によって、合成データに含まれる複数の学習用データの分類が所定の比率で再現されるように、分類モデルのパラメータを更新する更新部を有する学習装置と、を備える。

本発明によれば、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させる学習方法、学習プログラム、学習装置及び学習システムを提供することができる。

本発明の一実施形態に係る学習システムのネットワーク構成図である。本実施形態に係る学習装置の物理的な構成を示す図である。本実施形態に係る学習装置の機能ブロック図である。本実施形態に係る学習方法によって、分類モデルに音データの分類を学習させる場合の概念図である。本実施形態に係る学習方法によって、分類モデルに音データの分類を学習させる場合のフローチャートである。本実施形態に係る学習方法によって分類モデルに音データの分類を学習させた場合と、従来の学習方法によって分類モデルに音データの分類を学習させた場合とに関する分類性能を示す図である。本実施形態に係る学習方法によって、分類モデルに画像データの分類を学習させる場合の概念図である。本実施形態に係る学習方法によって、分類モデルに画像データの分類を学習させる第１処理のフローチャートである。本実施形態に係る学習方法によって、分類モデルに画像データの分類を学習させる第２処理のフローチャートである。本実施形態に係る学習方法によって分類モデルに画像データの分類を学習させた場合と、従来の学習方法によって分類モデルに画像データの分類を学習させた場合とに関する分類性能を示す図である。

添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。

図１は、本発明の一実施形態に係る学習システム１００のネットワーク構成図である。学習システム１００は、それぞれ分類が定められた初期データセットを記憶するデータベースＤＢと、入力されたデータの分類を出力する分類モデル２０と、データベースＤＢに記憶された初期データセットを用いて、分類モデル２０によってデータが正しく分類されるように、分類モデル２０を学習させる学習装置１０と、を含む。学習システム１００は、通信ネットワークＮに接続され、ユーザ端末３０からの指示に基づいて、データベースＤＢに記憶された初期データセットの追加や編集を行ったり、分類モデル２０の学習を行ったりしてよい。ここで、通信ネットワークＮは、有線又は無線の通信網であり、例えばインターネットやＬＡＮ（Local Area Network）であってよい。本実施形態に係る学習システム１００は、いわゆるクラウドコンピューティングの形で全部又は一部の構成要素がリモートコンピュータによって構成されてよいが、全部又は一部の構成要素がローカルコンピュータによって構成されてもよい。

分類モデル２０は、入力データを複数のクラスに分類するモデルであり、例えばニューラルネットワークを用いたモデルであったり、サポートベクタマシンを用いたモデルであったりしてよく、任意のモデルであってよい。分類モデル２０は、入力データの種類によって異なるモデルであってよい。分類モデル２０に入力される入力データは、音データ、画像データ及びテキストデータ等であってよい。

学習装置１０は、データベースＤＢに記憶された初期データセットを用いて、分類モデル２０によってデータが正しく分類されるように、未だ学習がされていない分類モデル２０を本実施形態に係る学習方法で学習させてもよいし、通常の学習方法で学習された分類モデル２０を、本実施形態に係る学習方法で学習させてもよい。

図２は、本実施形態に係る学習装置１０の物理的な構成を示す図である。学習装置１０は、ハードウェアプロセッサに相当するＣＰＵ（Central Processing Unit）１０ａと、メモリに相当するＲＡＭ（Random Access Memory）１０ｂと、メモリに相当するＲＯＭ（Read Only Memory）１０ｃと、通信部１０ｄと、入力部１０ｅと、表示部１０ｆとを有する。これら各構成は、バスを介して相互にデータ送受信可能に接続される。

ＣＰＵ１０ａは、ＲＡＭ１０ｂ又はＲＯＭ１０ｃに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。ＣＰＵ１０ａは、分類モデル２０を学習させるプログラム（学習プログラム）を実行する演算装置である。ＣＰＵ１０ａは、入力部１０ｅや通信部１０ｄから種々の入力データを受け取り、入力データの演算結果を表示部１０ｆに表示したり、ＲＡＭ１０ｂやＲＯＭ１０ｃに格納したりする。

ＲＡＭ１０ｂは、データの書き換えが可能な記憶部であり、例えば半導体記憶素子で構成される。ＲＡＭ１０ｂは、ＣＰＵ１０ａが実行するアプリケーション等のプログラムやデータを記憶する。

ＲＯＭ１０ｃは、データの読み出しのみが可能な記憶部であり、例えば半導体記憶素子で構成される。ＲＯＭ１０ｃは、例えばファームウェア等のプログラムやデータを記憶する。

通信部１０ｄは、学習装置１０を通信ネットワークＮに接続する通信インタフェースである。

入力部１０ｅは、ユーザからデータの入力を受け付けるものであり、例えば、キーボードやマウス、タッチパネルで構成される。

表示部１０ｆは、ＣＰＵ１０ａによる演算結果を視覚的に表示するものであり、例えばＬＣＤ（Liquid Crystal Display）により構成される。

学習プログラムは、ＲＡＭ１０ｂやＲＯＭ１０ｃ等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部１０ｄにより接続される通信ネットワークＮを介して提供されてもよい。学習装置１０では、ＣＰＵ１０ａが学習プログラムを実行することにより、次図を用いて説明する様々な機能が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、学習装置１０は、ＣＰＵ１０ａとＲＡＭ１０ｂやＲＯＭ１０ｃが一体化したＬＳＩ（Large-Scale Integration）を備えていてもよい。また、学習装置１０は、ＧＰＵ（Graphics Processing Unit）やＦＰＧＡ（Field-Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）等の演算回路を備えてもよい。

図３は、本実施形態に係る学習装置１０の機能ブロック図である。学習装置１０は、学習用データ選択部１１、生成部１２、比率決定部１３、投入部１４及び更新部１５を備える。

学習用データ選択部１１は、データベースＤＢに記憶された初期データセットのうちから、複数の学習用データを選択する。学習用データ選択部１１は、データベースＤＢに記憶された初期データセットのうちからランダムにデータを選択してよい。学習用データ選択部１１は、初期データセットのうちから、例えば、ランダムに２つのデータを選択してよいが、ランダムに３つ以上のデータを選択してもよい。学習用データ選択部１１は、一様分布やガウス分布等によって乱数を生成し、当該乱数に基づいて、データベースＤＢに記憶された初期データセットのうちからランダムにデータを選択してよい。

初期データセットのうちから複数の学習用データを選択して合成データとすることで、初期データセットの組合せの数だけ合成データの合成元となるデータを増やすことができ、分類モデルを多様なデータで学習させることができる。

また、初期データセットのうちからランダムに複数の学習用データを選択することで、学習用データの数が限られている場合であっても、多様な合成データを生成することができ、分類モデルの出力の精度をより高めるように分類モデルを学習させることができ、分類モデルによる分類の正答率をより高めるように分類モデルを学習させることができる。

生成部１２は、それぞれ分類が定められた複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、１つの合成データを生成する。生成部１２は、合成データを生成することを実行する前に、複数の学習用データを変換し、複数の変換データを生成して、複数の変換データを所定の比率で合成し、１つの合成データを生成してもよい。ここで、学習用データが音データの場合、変換データは、音データをランダムに切り取ることで生成したり、音データの音圧レベルやピッチ、速度等をランダムに変更したりすることで生成してよい。また、学習用データが画像データの場合、変換データは、画像データをランダムに切り取ることで生成したり、画像データをランダムに拡大縮小したり、回転したり、アスペクト比の変更を行ったり、ＲＧＢ値を変更したりすることで生成してよい。このように、複数の学習用データを整形したり、複数の学習用データに対してデータオーグメンテーションを行ったりすることで複数の変換データを得て、それらを所定の比率で合成して合成データを生成することで、分類モデルをさらに多様なデータで学習させることができる。

また、生成部１２は、合成データを生成することを実行する前に、複数の学習用データ又は複数の学習用データを変換した複数の変換データを分類モデル２０に入力し、分類モデル２０の複数の中間出力を取得して、複数の中間出力を所定の比率で合成し、１つの合成データを生成してもよい。

複数の学習用データが複数の音データである場合、生成部１２は、複数の音データを所定の比率で重ね合わせて、１つの合成音データを生成する。ここで、複数の音データは、サンプル毎に、所定の比率で重ね合わせることとしてよい。また、複数の学習用データが複数の画像データである場合、生成部１２は、複数の画像データのピクセル毎に、ピクセル値を所定の比率で加算して、１つの合成画像データを生成する。さらに、複数の学習用データが複数のテキストデータである場合、生成部１２は、複数のテキストデータを複数のベクトルデータに変換して、複数のベクトルデータを所定の比率で加算して、１つの合成ベクトルデータを生成する。なお、複数の音データを所定の比率で重ね合わせて、１つの合成音データを生成することは、デジタルデータとしての音データを重ね合わせることで行ってよいが、アナログデータとしての音データを重ね合わせることで行ってもよい。すなわち、複数の音データを所定の比率の音量で同時に再生し、録音することで、１つの合成音データを生成することとしてもよい。また、複数の画像データのピクセル毎に、ピクセル値を所定の比率で加算して、１つの合成画像データを生成することは、デジタルデータとしての画像データを加算することで行ってよいが、アナログデータとしての画像データを加算することで行ってもよい。すなわち、複数の画像データを所定の比率の光量で表示し、光学系によって重ね合わせて撮影することで、１つの合成画像データを生成することとしてもよい。

比率決定部１３は、生成部１２が合成データを生成する際に用いる所定の比率を決定する。比率決定部１３は、所定の数値範囲から１つの数値をランダムに選択して、選択された数値に基づいて所定の比率を決定してよい。比率決定部１３は、例えば、０から１の数値範囲から１つの数値をランダムに選択して、選択した数値を所定の比率としてもよい。ここで、比率決定部１３は、一様分布やガウス分布等によって、所定の数値範囲から１つの数値をランダムに生成してもよい。また、比率決定部１３は、所定の数値範囲から１つの数値をランダムに選択して、選択された数値の関数によって所定の比率を決定してもよい。比率決定部１３は、生成部１２によって合成データを生成する度に、所定の比率を決定してもよい。比率決定部１３は、学習用データ選択部１１によって初期データセットのうちから複数の学習用データが選択される度に、それら複数の学習用データを合成する際に用いる所定の比率を決定してもよい。

学習用データを合成する比率を可変とすることで、同じ学習用データを用いる場合であっても、異なる内容の合成データを生成できるようになり、分類モデルの学習に用いるデータの多様性を増すことができる。

また、学習用データを合成する比率をランダムに選択することで、学習用データの数が限られている場合であっても、多様な合成データを生成することができ、分類モデルの出力の精度をより高めるように分類モデルを学習させることができ、分類モデルによる分類の正答率をより高めるように分類モデルを学習させることができる。

さらに、学習用データを合成する比率の決定を、合成データを生成する度に行うことで、学習の反復回数が多い場合であっても、反復を行う度に異なる内容の合成データについて学習を行うことができ、分類モデルを多様なデータで学習させることができる。

投入部１４は、生成部１２によって生成された１又は複数の合成データを分類モデル２０に入力する。投入部１４は、複数の合成データを分類モデル２０に順次入力してもよいし、複数の合成データを一度に分類モデル２０に入力してもよい。分類モデル２０がニューラルネットワークの場合、投入部１４は、合成データをニューラルネットワークの入力層に入力してよい。

もっとも、生成部１２によって分類モデル２０の複数の中間出力を得て、複数の中間出力を所定の比率で合成し、１つの合成データを生成した場合、投入部１４は、１又は複数の合成データを、分類モデル２０のうち中間出力を出力した構成の後段に入力してよい。分類モデル２０がニューラルネットワークの場合、投入部１４は、ニューラルネットワークに含まれる複数の層うち、中間出力を出力した層の次の層に合成データを入力してよい。分類モデル２０の中間出力を得て、それらを所定の比率で合成して合成データを生成し、分類モデル２０のうち中間出力を出力した構成の後段に合成データを入力することで、分類モデル２０の出力の精度をより高めるように分類モデル２０を学習させることができ、分類モデルによる分類の正答率をより高めるように分類モデルを学習させることができる。

更新部１５は、分類モデル２０の出力によって、合成データに含まれる複数の学習用データの分類が所定の比率で再現されるように、分類モデル２０のパラメータを更新する。例えば、第１学習用データを０．２の比率で含み、第２学習用データを０．８の比率で含む合成データを分類モデル２０に入力した場合、更新部１５は、分類モデル２０の出力によって、第１学習用データに対応するクラスの出力値が０．２、第２学習用データに対応するクラスの出力値が０．８となるように、分類モデル２０のパラメータを更新する。

以下では、図４、５及び６を用いて、本実施形態に係る学習方法によって、分類モデル２０に音データの分類を学習させる場合について説明する。

図４は、本実施形態に係る学習方法によって、分類モデル２０に音データの分類を学習させる場合の概念図である。本実施形態に係る学習方法では、合成データを生成することを実行する前に、データベースＤＢに記憶された初期データセットのうちから、ランダムに２つのデータを選択することを実行する。本例では、データベースＤＢは、犬（Ｄｏｇ）に分類される複数の音データと、猫（Ｃａｔ）に分類される複数の音データと、鳥（Ｂｉｒｄ）に分類される複数の音データと、を含み、合成データを生成する元データとして、犬に関する第１音データＡ１と猫に関する第２音データＡ２とが選択されている。

本実施形態に係る学習方法では、合成データを生成することを実行する前に、所定の数値範囲から１つの数値をランダムに選択して、所定の比率を決定する。本例では、０から１の数値範囲から１つの数値をランダムに選択した結果、０．７という数値が選択されて、所定の比率が０．７に決定されている。

その後、第１音データＡ１を０．７の割合で含み、第２音データＡ２を０．３の割合で含むように、合成音データＡ３が生成される。生成された合成音データＡ３は、分類モデル２０に入力され、分類モデル２０の出力によって、犬のクラスの分類が０．７、猫のクラスの分類が０．３、鳥のクラスの分類が０となるように、分類モデル２０のパラメータが更新される。もっとも、分類モデル２０のパラメータを一度更新しただけでは分類モデル２０のパラメータは最適化されず、以上の処理を繰り返し実行することとなる。なお、本例では、２つの音データを所定の比率で合成して合成音データを生成する場合について説明したが、３つ以上の音データを所定の比率で合成して合成音データを生成することとしてもよい。

図５は、本実施形態に係る学習方法によって、分類モデル２０に音データの分類を学習させる場合のフローチャートである。はじめに、学習用データ選択部１１によって、データベースＤＢに記憶された初期データセットのうちから、ランダムに２つの音データを選択する（Ｓ１０）。音データの選択は、一連の音データの中から、ランダムに選択された一部分を抜き出すことで行ってもよい。

比率決定部１３は、０から１までの数値範囲からランダムに数値を選択して、学習用の音データを合成する比率ｒを決定する（Ｓ１１）。その後、生成部１２は、２つの音データの音圧レベルが同程度になるように調整する（Ｓ１２）。例えば、第１音データＡ１の最大音圧レベルがＰ１であり、第２音データＡ２の最大音圧レベルがＰ２である場合、生成部１２は、第２音データＡ２を、１０^{（Ｐ１−Ｐ２）／２０}倍することで、２つの音データの音圧レベルを調整してよい。

さらに、生成部１２は、−１から１までの数値範囲からランダムに数値を選択して、音圧レベルの調整係数ｐを決定する（Ｓ１３）。そして、生成部１２は、比率ｒ、調整係数ｐを用いて、２つの音データを重ね合わせて合成音データを生成する（Ｓ１４）。より具体的には、生成部１２は、第１音データＡ１をｒ倍し、音圧調整後の第２音データＡ２を（１−ｒ）倍して、両データを加算し、全体を（ｒ^２＋（１−ｒ）^２）^１／２で割って、２^ｐ倍することで、合成音データＡ３としてよい。ここで、（ｒ^２＋（１−ｒ）^２）^１／２で割ることは、合成音データＡ３の音圧レベルを、第１音データＡ１及び音圧調整後の第２音データＡ２と同程度とするために行われる。また、ランダムに選択された調整係数ｐを用いて、音データを２^ｐ倍することで、合成音データを生成する度に音圧レベルをばらつかせることができ、学習用データの多様性を増すことができる。なお、生成部１２は、所定の比率で加算した複数の音データの速度やピッチをランダムに変更して、合成音データを生成してもよい。

投入部１４は、合成音データを分類モデル２０に入力する（Ｓ１５）。そして、更新部１５は、分類モデル２０の出力によって、合成音データに含まれる２つの音データの分類が比率ｒで再現されるように、パラメータを更新する（Ｓ１６）。例えば、第１音データＡ１をｒ倍し、音圧調整後の第２音データＡ２を（１−ｒ）倍して合成データを生成した場合、更新部１５は、分類モデル２０の出力によって、犬のクラスの分類がｒとなり、猫のクラスの分類が１−ｒとなるように、分類モデル２０のパラメータを更新する。ここで、分類モデル２０のパラメータとは、例えば分類モデル２０がニューラルネットワークの場合、重み係数である。分類モデル２０がニューラルネットワークであって、出力層がソフトマックス層である場合、更新部１５は、分類モデル２０の出力値と、学習用データについて予め定められている分類の正答値との間のクロスエントロピーやカルバック・ライブラー・ダイバージェンスを最小化するように、バックプロパゲーションの方法を用いて重み係数を更新してよい。より具体的には、第１音データＡ１をｒ倍し、音圧調整後の第２音データＡ２を（１−ｒ）倍して合成データを生成し、分類モデル２０によってｙという出力ベクトルを得た場合、犬のクラスを表す正答ベクトルｔ１をｒの割合で含み、猫のクラスを表す正答ベクトルｔ２を（１−ｒ）の割合で含むｔ＝ｒ×ｔ１＋（１−ｒ）×ｔ２というベクトルを正答ベクトルｔとして、クロスエントロピーＨ（ｔ、ｙ）やカルバック・ライブラー・ダイバージェンスＤ_ＫＬ（ｔ｜｜ｙ）を最小化するように、重み係数を更新してよい。

学習装置１０は、学習終了の条件を満たすか否かを判定する（Ｓ１７）。ここで、学習終了の条件は、任意に設定されてよいが、例えばクロスエントロピーやカルバック・ライブラー・ダイバージェンス等の目的関数の値が所定値以下となることや、分類モデル２０のパラメータの更新回数が所定回数に達したことや、パラメータの更新前後で目的関数の値の変化が所定値以下となることであってよい。学習終了の条件を満たしていない場合（Ｓ１７：Ｎｏ）、初期データセットの中から新たに学習用の音データをランダムに選択し、ランダムに決定した比率で合成して、分類モデル２０に入力し、分類モデル２０のパラメータを更新する。一方、学習終了の条件を満たす場合（Ｓ１７：Ｙｅｓ）、学習処理を終了する。

図６は、本実施形態に係る学習方法によって分類モデル２０に音データの分類を学習させた場合と、従来の学習方法によって分類モデル２０に音データの分類を学習させた場合とに関する分類性能を示す図である。同図では、２種類の分類モデルについて、従来の学習方法によって学習した場合の正答率と、本実施形態に係る学習方法によって学習した場合の正答率とを示している。ここで、第２種類の分類モデルは、第１種類の分類モデルよりも複雑なモデルであり、学習させるのが比較的難しいモデルである。同図に示す正答率は、同じ初期データセットと、同じ分類モデル２０を用いて、学習方法のみを変えた場合の値である。正答率は、分類モデル２０の学習が十分に進み、その学習方法によって達成することのできる上限値に近い値となっている。

第１種類の分類モデルについて、従来の学習方法によって学習した場合の正答率は６８．３％であり、本実施形態に係る学習方法によって学習した場合の正答率は７４．３％である。本実施形態に係る学習方法を用いることによって、分類モデル２０が同一であっても、正答率が６％向上するという結果が得られた。

また、第２種類の分類モデルについて、従来の学習方法によって学習した場合の正答率は７１．７％であり、本実施形態に係る学習方法によって学習した場合の正答率は８０．７％である。第２種類の分類モデルについても、本実施形態に係る学習方法を用いることによって、分類モデル２０が同一であっても、正答率が９％向上するという結果が得られた。なお、本実験に用いた音データを人に分類させた場合の正答率は、約８０％である。本実施形態に係る学習方法を用いることで、分類モデル２０の分類性能を人と同等のレベルにまで向上させることができる。また、本実施形態に係る学習方法を用いると、第１種類の分類モデルの場合に従来の学習方法より６％の正答率の向上が見られ、第２種類の分類モデルの場合に従来の学習方法より９％の正答率の向上が見られたことから、本実施形態に係る学習方法は、比較的複雑なモデルの学習に用いた場合により効果的であるといえる。

本実施形態に係る学習方法によれば、合成データに含まれる複数の学習用データの分類の比率を再現するように分類モデルを学習させることで、学習用データの個別の分類を再現するように分類モデルを学習させる場合よりも、分類モデルの出力の精度をより高めるように分類モデルを学習させることができ、分類モデルによる分類の正答率をより高めるように分類モデルを学習させることができる。また、本実施形態に係る学習方法によれば、学習用データの数が限られており、分類モデルが複雑なモデルである場合であっても、学習用データの組合せ及び学習用データを合成する比率を様々に選択することで多様な合成データを生成することができるため、分類モデルによる分類の正答率をより高めるように、安定して分類モデルを学習させることができる。

また、重ね合わされた複数の音データの分類の比率を再現するように分類モデルを学習させることで、音データの個別の分類を再現するように分類モデルを学習させる場合よりも、分類モデルの出力の精度をより高めるように、分類モデルを学習させることができる。

以下では、図７、８、９及び１０を用いて、本実施形態に係る学習方法によって、分類モデルに画像データの分類を学習させる場合について説明する。

図７は、本実施形態に係る学習方法によって、分類モデルに画像データの分類を学習させる場合の概念図である。本実施形態に係る学習方法では、合成データを生成することを実行する前に、データベースＤＢに記憶された初期データセットのうちから、ランダムに２つのデータを選択することを実行する。本例では、データベースＤＢは、車（Ｃａｒ）に分類される複数の画像データと、猫（Ｃａｔ）に分類される複数の画像データと、鳥（Ｂｉｒｄ）に分類される複数の画像データと、を含み、合成データを生成する元データとして、車に関する第１画像データＧ１と猫に関する第２画像データＧ２とが選択されている。

本実施形態に係る学習方法では、合成データを生成することを実行する前に、所定の数値範囲から１つの数値をランダムに選択して、所定の比率を決定する。本例では、０から１の数値範囲から１つの数値をランダムに選択した結果、０．４という数値が選択されて、所定の比率が０．４に決定されている。

その後、第１画像データＧ１を０．４の割合で含み、第２画像データＧ２を０．６の割合で含むように、合成画像データＧ３が生成される。生成された合成画像データＧ３は、分類モデル２０に入力され、分類モデル２０の出力によって、車のクラスの分類が０．４、猫のクラスの分類が０．６、鳥のクラスの分類が０となるように、分類モデル２０のパラメータが更新される。もっとも、分類モデル２０のパラメータを一度更新しただけでは分類モデル２０のパラメータは最適化されず、以上の処理を繰り返し実行することとなる。なお、本例では、２つの画像データを所定の比率で合成して合成画像データを生成する場合について説明したが、３つ以上の画像データを所定の比率で合成して合成画像データを生成することとしてもよい。

図８は、本実施形態に係る学習方法によって、分類モデル２０に画像データの分類を学習させる第１処理のフローチャートである。分類モデル２０に画像データの分類を学習させる第１処理では、はじめに、学習用データ選択部１１によって、データベースＤＢに記憶された初期データセットのうちから、ランダムに２つの画像データを選択する（Ｓ２０）。

比率決定部１３は、０から１までの数値範囲からランダムに数値を選択して、学習用の画像データを合成する比率ｒを決定する（Ｓ２１）。その後、生成部１２は、学習用データ選択部１１によって選択された２つの画像データについて、その大きさが同程度になるようにデータ整形を行う（Ｓ２２）。ここで、生成部１２は、所定の大きさの領域をランダムに選択した位置で切り出すことで、データ整形を行ってもよい。また、生成部１２は、２つの画像データに対してデータオーグメンテーションを実行する（Ｓ２３）。ここで、データオーグメンテーションは、ランダムな比率で画像を拡大や縮小したり、ランダムな方向に画像を回転させたり、平行移動させたり、ランダムな比率でアスペクト比の変換を行ったり、ランダムな値でＲＧＢ値の変更を行ったりすることを含む。もっとも、データ整形及びデータオーグメンテーションは、省略することのできる処理である。

その後、生成部１２は、２つの画像データのピクセル毎に、ピクセル値を比率ｒで加算して、合成画像データＧ３を生成する（Ｓ２４）。より具体的には、生成部１２は、第１画像データＧ１の特定のピクセル値をｒ倍し、第２画像データＧ２に関する対応するピクセル値を（１−ｒ）倍して、両データを加算することで、合成画像データＧ３の特定のピクセル値としてよい。

投入部１４は、合成画像データを分類モデル２０に入力する（Ｓ２５）。分類モデル２０がニューラルネットワークの場合、投入部１４は、ニューラルネットワークの入力層に合成画像データを入力する。そして、更新部１５は、分類モデル２０の出力によって、合成画像データに含まれる２つの画像データの分類が比率ｒで再現されるように、パラメータを更新する（Ｓ２６）。例えば、第１画像データＧ１をｒ倍し、第２画像データＧ２を（１−ｒ）倍して合成データを生成した場合、更新部１５は、分類モデル２０の出力によって、車のクラスの分類がｒとなり、猫のクラスの分類が１−ｒとなるように、分類モデル２０のパラメータを更新する。

学習装置１０は、学習終了の条件を満たすか否かを判定する（Ｓ２７）。ここで、学習終了の条件は、任意に設定されてよいが、例えばクロスエントロピーやカルバック・ライブラー・ダイバージェンス等の目的関数の値が所定値以下となることや、分類モデル２０のパラメータの更新回数が所定回数に達したことや、パラメータの更新前後で目的関数の値の変化が所定値以下となることであってよい。学習終了の条件を満たしていない場合（Ｓ２７：Ｎｏ）、初期データセットの中から新たに学習用の画像データをランダムに選択し、ランダムに決定した比率で合成して、分類モデル２０に入力し、分類モデル２０のパラメータを更新する。一方、学習終了の条件を満たす場合（Ｓ２７：Ｙｅｓ）、学習処理を終了する。

本実施形態に係る学習方法によれば、重ね合わされた複数の画像データの分類の比率を再現するように分類モデル２０を学習させることで、画像データの個別の分類を再現するように分類モデル２０を学習させる場合よりも、分類モデル２０の出力の精度をより高めるように分類モデル２０を学習させることができ、分類モデル２０による分類の正答率をより高めるように分類モデル２０を学習させることができる。

図９は、本実施形態に係る学習方法によって、分類モデル２０に画像データの分類を学習させる第２処理のフローチャートである。分類モデル２０に画像データの分類を学習させる第２処理は、分類モデル２０の中間出力を所定の比率で合成して合成データを生成し、合成データに含まれる画像データの分類が所定の比率で再現されるように、分類モデル２０を学習させる処理である。

はじめに、学習用データ選択部１１によって、データベースＤＢに記憶された初期データセットのうちから、ランダムに２つの画像データを選択する（Ｓ３０）。比率決定部１３は、０から１までの数値範囲からランダムに数値を選択して、学習用の画像データを合成する比率ｒを決定する（Ｓ３１）。その後、生成部１２は、学習用データ選択部１１によって選択された２つの画像データについて、その大きさが同程度になるようにデータ整形を行う（Ｓ３２）。また、生成部１２は、２つの画像データに対してデータオーグメンテーションを実行する（Ｓ３３）。もっとも、データ整形及びデータオーグメンテーションは、省略することのできる処理である。

その後、学習装置１０は、２つの画像データを、それぞれ分類モデル２０に入力し、中間出力を取得する（Ｓ３４）。ここで、分類モデル２０がニューラルネットワークの場合、２つの画像データは、それぞれニューラルネットワークの入力層に入力される。また、中間出力は、ニューラルネットワークに含まれる複数の層のうち出力層以外の任意の層の出力であってよい。生成部１２は、２つの画像データに対応する２つの中間出力を比率ｒで加算して、合成データを生成する（Ｓ３５）。

投入部１４は、合成データを分類モデル２０のうち中間出力を出力した構成の後段に入力する（Ｓ３６）。分類モデル２０がニューラルネットワークの場合、投入部１４は、ニューラルネットワークのうち中間出力を出力した層の次の層に合成データを入力する。そして、更新部１５は、分類モデル２０の出力によって、合成データに含まれる２つの画像データの分類が比率ｒで再現されるように、パラメータを更新する（Ｓ３７）。例えば、第１画像データＧ１の中間出力をｒ倍し、第２画像データＧ２の中間出力を（１−ｒ）倍して合成データを生成した場合、更新部１５は、分類モデル２０の出力によって、車のクラスの分類がｒとなり、猫のクラスの分類が１−ｒとなるように、分類モデル２０のパラメータを更新する。

学習装置１０は、学習終了の条件を満たすか否かを判定する（Ｓ３８）。ここで、学習終了の条件は、任意に設定されてよいが、例えばクロスエントロピーやカルバック・ライブラー・ダイバージェンス等の目的関数の値が所定値以下となることや、分類モデル２０のパラメータの更新回数が所定回数に達したことや、パラメータの更新前後で目的関数の値の変化が所定値以下となることであってよい。学習終了の条件を満たしていない場合（Ｓ３８：Ｎｏ）、初期データセットの中から新たに学習用の画像データをランダムに選択し、分類モデル２０に入力して中間出力を取得して、ランダムに決定した比率で中間出力を合成して分類モデル２０のうち中間出力を出力した構成の後段に入力し、分類モデル２０のパラメータを更新する。一方、学習終了の条件を満たす場合（Ｓ３８：Ｙｅｓ）、学習処理を終了する。

図１０は、本実施形態に係る学習方法によって分類モデル２０に画像データの分類を学習させた場合と、従来の学習方法によって分類モデル２０に画像データの分類を学習させた場合とに関する分類性能を示す図である。同図に示す例では、分類モデル２０は、入力層（ｉｎｐｕｔ）、複数の畳み込み層（ｃｏｎｖ１〜８）、複数のプーリング層（ｐｏｏｌ１〜３）、複数の全結合層（ｆｃ１〜２）及び出力層（ｏｕｔｐｕｔ）を有するＣＮＮ（Convolutional Neural Network）である。同図では、１種類のＣＮＮを分類モデル２０として、従来の学習方法によって学習した場合の正答率をＢａｓｅｌｉｎｅとして示し、本実施形態に係る学習方法によってＣＮＮに含まれる複数の層の中間出力を合成して学習した場合の正答率をＣＮＮに含まれる複数の層について示している。ここで、正答率は、分類モデル２０の学習が十分に進み、その学習方法によって達成することのできる上限値に近い値となっている。

本実施形態に係る学習方法によって学習した場合の正答率は、いずれの層の中間出力を合成した場合であっても、従来の学習方法によって学習した場合の正答率（９３．５９％）を上回っている。例えば、第１畳み込み層（ｃｏｎｖ１）から出力された中間出力を合成して、合成データを第２畳み込み層（ｃｏｎｖ２）に入力して分類モデル２０を学習させた場合、正答率は９４．３９％である。また、第２畳み込み層（ｃｏｎｖ２）から出力された中間出力を合成して、合成データを第１プーリング層（ｐｏｏｌ１）に入力して分類モデル２０を学習させた場合、正答率は９４．３８％である。

同様に、第３畳み込み層（ｃｏｎｖ３）から出力された中間出力を合成して、合成データを第４畳み込み層（ｃｏｎｖ４）に入力して分類モデル２０を学習させた場合、正答率は９４．４５％である。また、第４畳み込み層（ｃｏｎｖ４）から出力された中間出力を合成して、合成データを第２プーリング層（ｐｏｏｌ２）に入力して分類モデル２０を学習させた場合、正答率は９４．４７％である。また、第７畳み込み層（ｃｏｎｖ７）から出力された中間出力を合成して、合成データを第８畳み込み層（ｃｏｎｖ８）に入力して分類モデル２０を学習させた場合、正答率は９４．４１％である。また、第８畳み込み層（ｃｏｎｖ８）から出力された中間出力を合成して、合成データを第３プーリング層（ｐｏｏｌ３）に入力して分類モデル２０を学習させた場合、正答率は９４．３１％である。さらに、第１全結合層（ｆｃ１）から出力された中間出力を合成して、合成データを第２全結合層（ｆｃ２）に入力して分類モデル２０を学習させた場合、正答率は９４．７５％であり、従来の学習方法によって学習した場合の正答率（９３．５９％）を１．１６％上回っている。

また、中間出力を合成せずに、学習用データ又は学習用データを変換した変換データを合成して、合成データを入力層（ｉｎｐｕｔ）に入力して分類モデル２０を学習させた場合、正答率は９４．７１％であり、従来の学習方法によって学習した場合の正答率（９３．５９％）を１．１２％上回っている。

これらの結果から、学習用データを分類モデル２０に入力する前に合成して合成データを生成し、合成データを入力層（ｉｎｐｕｔ）に入力して分類モデル２０を学習させる場合に得られる分類性能は、分類モデル２０の中間出力を合成し、中間出力を出力した構成の後段に合成データを入力して分類モデル２０を学習させる場合の分類性能と比較して、同等以上であることがわかる。学習用データを分類モデル２０に入力する前に合成して合成データを生成し、合成データを入力層（ｉｎｐｕｔ）に入力して分類モデル２０を学習させる方法は、中間出力の演算が不要であり、分類モデル２０の中間出力を利用する方法よりも分類モデル２０の学習に要する演算量を少なくすることができ、分類モデル２０の中間出力を利用する方法と同等以上の分類性能が得られるため、より効果的であるといえる。

なお、ここでは、分類モデル２０の中間出力を用いて画像データの分類を学習させる場合について説明したが、分類モデル２０の中間出力を所定の比率で合成して合成データを生成し、中間出力を出力した構成の後段に合成データを入力して分類モデル２０を学習させる方法は、任意の種類のデータの分類を分類モデル２０に学習させる場合に適用することができる。また、中間出力を用いて学習される分類モデル２０は、ＣＮＮに限られず、任意のモデルであってよい。

以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。

例えば、データベースＤＢに記憶された初期データセットがテキストデータである場合、データベースＤＢに記憶された初期データセットのうちから、ランダムに２つのテキストデータを選択して、それぞれベクトルデータに変換して、ランダムに選択した所定の比率で２つのベクトルデータを加算することで、合成ベクトルデータを生成してもよい。そして、合成ベクトルデータに含まれるテキストデータの分類が所定の比率で再現されるように、分類モデル２０のパラメータを更新してよい。

本実施形態に係る学習方法によれば、重ね合わされた複数のテキストデータの分類の比率を再現するように分類モデル２０を学習させることで、テキストデータの個別の分類を再現するように分類モデル２０を学習させる場合よりも、分類モデル２０の出力の精度をより高めるように分類モデル２０を学習させることができ、分類モデル２０による分類の正答率をより高めるように分類モデル２０を学習させることができる。

また、それぞれ分類が定められた複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを所定の比率ｒで合成し、１つの合成データを生成して、分類モデルの出力によって、所定の比率を所定の規則で変換した値が再現されるように、分類モデルのパラメータを更新してもよい。すなわち、分類モデルの出力を正確にｒに対応させず、分類モデルの出力によってｒを所定の規則で変換した値を再現するようにしてもよい。

例えば、それぞれ分類が定められた複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを所定の比率ｒで合成し、１つの合成データを生成して、分類モデルの出力がｒ＋ｅ（ｅはノイズを表す量）となるように、分類モデルのパラメータを更新してもよい。具体的には、第１画像データが車の画像であり、第２画像データが猫の画像である場合に、所定の比率を０．４として、第１画像データ４０％と、第２画像データ６０％とを合成して合成画像データを生成し、ノイズをランダムに生成して例えば０．０１として、分類モデルによって車のクラスの分類が０．４１、猫のクラスの分類が０．５９となるように、分類モデルの学習処理を行ってもよい。ここで、加減算するノイズの量はランダムに変更してよい。

また、学習用データを合成する所定の比率をｒと定めた場合に、分類モデルの出力によって、合成データに含まれる複数の学習用データの分類が比率ａ×ｒ（ａは任意の定数）で再現されるように、分類モデルのパラメータを更新してもよい。例えば、第１画像データが車の画像であり、第２画像データが猫の画像であり、合成比率が０．４である場合に、第１画像データを４０％と、第２画像データを６０％とを合成して合成画像データを生成し、定数をａ＝２として、分類モデルによって車のクラスの分類が０．８、猫のクラスの分類が０．２となるように、分類モデルの学習処理を行ってもよい。

また、それぞれ分類が定められた複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、１つの合成データを生成して、分類モデルの出力によって、所定の比率を切り上げ又は切り捨てした値が再現されるように、分類モデルのパラメータを更新することとしてもよい。例えば、第１画像データが車の画像であり、第２画像データが猫の画像であり、所定の比率が０．４である場合に、第１画像データを４０％と、第２画像データを６０％とを合成して合成画像データを生成し、分類モデルによって車のクラスの分類が０（０．４を切り捨て）、猫のクラスの分類が１（０．６を切り上げ）となるように、分類モデルの学習処理を行ってもよい。すなわち、分類モデルの出力によって、所定の比率を四捨五入した値が再現されるようにしてよい。また、例えば、第１画像データが車の画像であり、第２画像データが猫の画像であり、合成比率が０．４である場合に、第１画像データを４０％と、第２画像データを６０％とを合成して合成画像データを生成し、分類モデルによって車のクラスの分類が１（０．４を切り上げ）、猫のクラスの分類が１（０．６を切り上げ）となるように、分類モデルの学習処理を行ってもよい。

Claims

少なくとも１つのハードウェアプロセッサと、少なくとも１つのメモリとを備えるコンピュータによって、
それぞれ分類が定められた複数の学習用データ又は前記複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、１つの合成データを生成することと、
１又は複数の前記合成データを分類モデルに入力することと、
前記分類モデルの出力によって、前記合成データに含まれる前記複数の学習用データの分類が前記所定の比率で再現されるように、前記分類モデルのパラメータを更新することと、
を実行する学習方法。
前記合成データを生成することを実行する前に、前記所定の比率を決定することをさらに含む、
請求項１に記載の学習方法。
前記所定の比率を決定することは、所定の数値範囲から１つの数値をランダムに選択することと、選択された前記数値に基づいて前記所定の比率を決定することとを含む、
請求項２に記載の学習方法。
前記所定の比率を決定することは、前記合成データを生成することを実行する度に行われる、
請求項２又は３に記載の学習方法。
前記合成データを生成することを実行する前に、初期データセットのうちから前記複数の学習用データを選択することをさらに含む、
請求項１から４のいずれか一項に記載の学習方法。
前記複数の学習用データを選択することは、前記初期データセットのうちからランダムにデータを選択することを含む、
請求項５に記載の学習方法。
前記合成データを生成することを実行する前に、前記複数の学習用データを変換し、前記複数の変換データを生成することをさらに含む、
請求項１から６のいずれか一項に記載の学習方法。
前記複数の学習用データは、複数の音データであり、
前記合成データを生成することは、前記複数の音データを前記所定の比率で重ね合わせて、１つの合成音データを生成することを含む、
請求項１から７のいずれか一項に記載の学習方法。
前記複数の学習用データは、複数の画像データであり、
前記合成データを生成することは、前記複数の画像データのピクセル毎に、ピクセル値を前記所定の比率で加算して、１つの合成画像データを生成することを含む、
請求項１から７のいずれか一項に記載の学習方法。
前記複数の学習用データは、複数のテキストデータであり、
前記合成データを生成することは、前記複数のテキストデータを複数のベクトルデータに変換することと、前記複数のベクトルデータを、前記所定の比率で加算して、１つの合成ベクトルデータを生成することとを含む、
請求項１から７のいずれか一項に記載の学習方法。
少なくとも１つのハードウェアプロセッサと、少なくとも１つのメモリとを備えるコンピュータによって、
それぞれ分類が定められた複数の学習用データ又は前記複数の学習用データを変換して得られた複数の変換データを分類モデルに入力し、前記分類モデルの複数の中間出力を取得することと、
前記複数の中間出力を所定の比率で合成し、１つの合成データを生成することと、
１又は複数の前記合成データを、前記分類モデルのうち前記中間出力を出力した構成の後段に入力することと、
前記分類モデルの出力によって、前記合成データに含まれる前記複数の学習用データの分類が前記所定の比率で再現されるように、前記分類モデルのパラメータを更新することと、
を実行する学習方法。
少なくとも１つのハードウェアプロセッサと、少なくとも１つのメモリとを備えるコンピュータに、
それぞれ分類が定められた複数の学習用データ又は前記複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、１つの合成データを生成することと、
１又は複数の前記合成データを分類モデルに入力することと、
前記分類モデルの出力によって、前記合成データに含まれる前記複数の学習用データの分類が前記所定の比率で再現されるように、前記分類モデルのパラメータを更新することと、
を実行させる学習プログラム。
それぞれ分類が定められた複数の学習用データ又は前記複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、１つの合成データを生成する生成部と、
１又は複数の前記合成データを分類モデルに入力する投入部と、
前記分類モデルの出力によって、前記合成データに含まれる前記複数の学習用データの分類が前記所定の比率で再現されるように、前記分類モデルのパラメータを更新する更新部と、
を備える学習装置。
それぞれ分類が定められた初期データセットを記憶するデータベースと、
入力されたデータの分類を出力する分類モデルと、
前記初期データセットのうちから選択された複数の学習用データ又は前記複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、１つの合成データを生成する生成部、１又は複数の前記合成データを前記分類モデルに入力する投入部及び前記分類モデルの出力によって、前記合成データに含まれる前記複数の学習用データの分類が前記所定の比率で再現されるように、前記分類モデルのパラメータを更新する更新部を有する学習装置と、
を備える学習システム。