JP6751816B2 - 新規学習データセット生成方法および新規学習データセット生成装置 - Google Patents

新規学習データセット生成方法および新規学習データセット生成装置 Download PDF

Info

Publication number
JP6751816B2
JP6751816B2 JP2019521562A JP2019521562A JP6751816B2 JP 6751816 B2 JP6751816 B2 JP 6751816B2 JP 2019521562 A JP2019521562 A JP 2019521562A JP 2019521562 A JP2019521562 A JP 2019521562A JP 6751816 B2 JP6751816 B2 JP 6751816B2
Authority
JP
Japan
Prior art keywords
training data
learning
input signal
new
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019521562A
Other languages
English (en)
Other versions
JPWO2018220700A1 (ja
Inventor
海斗 笹尾
海斗 笹尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Kokusai Electric Inc
Original Assignee
Hitachi Kokusai Electric Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Kokusai Electric Inc filed Critical Hitachi Kokusai Electric Inc
Publication of JPWO2018220700A1 publication Critical patent/JPWO2018220700A1/ja
Application granted granted Critical
Publication of JP6751816B2 publication Critical patent/JP6751816B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/22Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
    • G06F7/24Sorting, i.e. extracting data from one or more carriers, rearranging the data in numerical or other ordered sequence, and rerecording the sorted data on the original carrier or on a different carrier or set of carriers sorting methods in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/08Sorting, i.e. grouping record carriers in numerical or other ordered sequence according to the classification of at least some of the information they carry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)

Description

本発明は、機械学習に用いる既存の学習データセットから新たな学習データセットを生成する技術に関する。
画像や音声の検出・識別・認識・解析・予測、言語の翻訳、マーケティング、戦略シミュレーションなどへの機械学習の適用が進められている。このような機能は人件費の削減や利益向上に役立ち、また製品に組み込むことで高機能化を図ることができ、製品販売の促進にも繋がるため、多くの企業が高い関心を抱いている。これらの機能を実現する機械学習には大きく2種類の方法がある。
1つ目は教師無し学習である。これはある問題に対する入力信号の集合のみを用いて行う。それら入力信号から特徴や構造を理解するために使われることが多く、代表的な手法にk-meansというクラスタリング手法がある。これにより大量の入力信号から規則性を見出し、重要な因果関係などを発見することができる。
2つ目は教師有り学習である。これはある問題に対する入力信号とその結果として期待する出力信号のペアの集合を用いて行う。教師無し学習とは反対に明確な問題が設定されており、その問題を解く方法を学ぶ。最終的には、未知の入力信号に対しても正しい出力信号を示す汎化性能が求められ、ニューラルネットワークなどを用いることで実現する。
教師無し学習の場合は入力信号を、教師有り学習では入力信号とその結果として期待する出力信号のペアをそれぞれ学習データと呼び、学習データの集合を学習データセットと呼ぶ。学習データセットの準備には膨大なコストがかかり、特に教師有り学習においては、入力信号と出力信号を紐付ける必要がある。多くの場合、解決する問題に対応した専用のツールを用いて入力信号と出力信号を紐付け作業が人手で行われる。
一般的に機械学習において、学習データセットに含まれる学習データの数や質が実現する機能の性能の高さを左右する。そのため様々な種類の大量の学習データが求められるが、前述の通り、多くの場合、学習データセットの準備には時間的コストと人的コストが膨大になる。
非特許文献1には、学習データを増やす手法としてデータ拡張(Data Augmentation)が紹介されている。Data Augmentationとは、例えば、入力信号が静止画像である場合、画像の反転や回転、明るさの調整を実施することで学習データセットの拡張を行うものである。
岡谷貴之著、「深層学習(機械学習プロフェッショナルシリーズ)」、講談社、2015年4月、p.35
Data Augmentationにより、既存の学習データセットを用いて学習データセットの拡張を行うことができる。しかし、上述の例では見え方は変わるが、写るもの自体は変わらないという問題があり、バリエーションの豊かさに欠ける。
一方で、新しい静止画像を機械学習により生成させる試みもなされている。例えば、Deep Convolutional Generative Adversarial Networkというアルゴリズムが発表されている。このアルゴリズムでは、ランダム信号が入力され、静止画像を出力する生成器(Generator)と、学習データと生成器の出力信号とを識別する判別器(Discriminator)を有している。まず学習データを入力すると判別器が0を出力するように学習させ、次に学習させた判別器に対して生成器の出力信号を入力し、判別器の出力信号が1になるように判別器を、判別器の出力信号が0になるように生成器を同時に学習させることにより、学習データである静止画像に類似した静止画像を生成することを可能にしている。この手法では、生成器に入力される信号はランダム信号であるため、収束するのに時間がかかり、かつそもそも学習データセットが既に十分に高い質と量をもつ学習データを有していることが前提となる。すなわち、既存の学習データの質や量が限られている場合には、適切な学習データを生成することが保証されない。
このため、教師有り機械学習の適用をより容易にするためには、既存の学習データセットを利用して、既存の学習データセットが限られたものであっても、バリエーションに富んだ新しい学習データセットを生成できるようにすることが望まれる。
入力信号と出力信号の組み合わせである学習データを複数含む学習データセットを出力信号に応じて複数の学習データサブセットに振り分け、複数の学習データサブセットのそれぞれについて、学習データサブセットに含まれる学習データの入力信号から新規入力信号を生成し、新規入力信号と学習データサブセットに応じた出力信号との組み合わせである新規学習データと前記学習データサブセットに含まれる学習データとを統合することにより、新規学習データサブセットを生成し、複数の学習データサブセットのそれぞれについて生成された新規学習データサブセットを統合して新規学習データセットを生成する。学習データサブセットに含まれる学習データの入力信号から新規入力信号を生成する際に、学習データサブセットに含まれる学習データの入力信号を第1の信号グループと第2の信号グループとに区分し、第1の信号グループを入力信号セットとし、第2の信号グループを出力信号セットとして学習を行って第1の学習器を生成し、前記第2の信号グループの入力信号を前記第1の学習器に入力することにより新規入力信号を生成する。
既存の限られた学習データセットから低コストに新規学習データセットを生成できる。
学習データセット生成法の概要を説明する図である。 教師有り機械学習を行った学習器により問題解決を行うフローチャートである。 分類問題学習データセットを生成するフローチャートである。 入力信号生成法の概要を説明する図である。 回帰問題学習データセットを生成するフローチャートである。 学習器の生成法を説明する図である。 本実施例のハードウェア構成を説明する図である。 サーバのハードウェア構成例である。 学習データセット生成サーバの補助記憶に格納されるプログラム、データを説明する図である。 問題解決サーバの補助記憶に格納されるプログラム、データを説明する図である。
図1を参照して本実施例における学習データセット生成法の概要を説明する。教師有り学習を用いて猫と犬の画像を分類する2クラス分類問題を例とする。この問題を解決するための既存の学習データセットを基に、新しい学習データセットを生成するものである。まず、猫もしくは犬の画像とそれらに「猫」もしくは「犬」と正しく出力信号が紐づけられた学習データ101の集合である学習データセット102を準備する。次に、準備した学習データセット102を出力信号「猫」を持つ学習データの集合(サブセット)である猫学習データセット103と出力信号「犬」を持つ学習データの集合(サブセット)である犬学習データセット104とに振り分ける。振り分けた猫学習データセット103と犬学習データセット104から、それぞれ独立に新しい学習データセットである新猫学習データセット105と新犬学習データセット106を生成する。新猫学習データセット105は猫学習データセット103を含んでおり、新犬学習データセット106は犬学習データセット104を含んでいる。最後に、新猫学習データセット105と新犬学習データセット106とを統合して新学習データセット107を生成する。
図2は、教師有り機械学習を行った学習器により問題解決を行うフローチャートである。既存の学習データセットから新たな学習データセットを生成し、生成した新たな学習データセットにより教師有り機械学習を行う。学習データセット準備ステップ201、問題判別ステップ202、分類問題学習データセット生成ステップ203、回帰問題学習データセット生成ステップ204、学習ステップ205、問題解決ステップ206の詳細について説明する。
学習データセット準備ステップ201では機械学習の教師有り学習を用いて解決する問題に対する学習データセットを準備する。解決する問題には、例えば、図1で示したような入力信号の認識の他にも、入力信号の検出・識別・解析・予測・推定、言語の翻訳、マーケティング、戦略シミュレーションなどが挙げられる。ここで準備される学習データセットは図1の学習データセット102に相当する。入力信号および出力信号は電子信号であれば特に制限がなく、音・音声・電波・画像・映像・テキストデータなどでもよい。学習データセット102としては既存の学習データセットを用いることができ、問題解決に十分な数の学習データがなくてもよい。また、専用のツール(自動生成ツールや補助ツールなど)を用いて生成された学習データセットであってもよい。ただし、問題解決に用いる学習器にあわせて、学習データセット102の入力信号および出力信号のサイズは全て揃える必要がある。このため、サイズの変換による補間や削減などは必要に応じて実施する。ここで、入力信号および出力信号のサイズとは、画像データや映像データであれば画素数やフレーム数など、音・音声・電波などのデータであれば時系列データのサンプル数や周波数スペクトルの周波数ビンの数など、テキストデータであれば文字数や単語数や文の数などがあたる。
問題判別ステップ202では、学習データセット準備ステップ201で準備した学習データセットを用いて解決する問題の種類を判別する。問題は分類問題と回帰問題に分けられる。分類問題とは入力データがどのクラスに属するかを判断するものであり、例えば図1に示したような画像の分類や画像・映像・音・音声・テキストなどの認識や識別の他にも、言語の翻訳なども当てはまる。回帰問題とは入力データからある数値を推定するものであり、例えば画像や映像・音・音声などの超解像、画像や映像からの被写体の大きさ推定や被写体までの距離推定、音声から話者の年齢や話者との距離の推定などが当てはまる。この判別は人により行う。判別された問題の種類が分類問題であれば分類問題学習データセット生成ステップ203を実行し、回帰問題であれば回帰問題学習データセット生成ステップ204を実行する。
分類問題学習データセット生成ステップ203および回帰問題学習データセット生成ステップ204は、それぞれ図1のプロセス全体に相当し、学習データセット準備ステップ201で準備した学習データセットを基に新しい学習データセットを生成する。詳細は後述する。
学習ステップ205では、分類問題学習データセット生成ステップ203もしくは回帰問題学習データセット生成ステップ204で生成した学習データセットを用いて問題解決のための機械学習を行い、学習器(learner)を生成、あるいは学習器のパラメータの調整を行う。学習手法は単純パーセプトロンやロジスティック回帰、ニューラルネットワークやSVM(Support Vector Machine)、決定木学習、ベイジアンネットワーク、ランダムフォレストなどの教師有り学習である。各手法のハイパパラメータや最適化方法は任意に決定してよい。
問題解決ステップ206では、学習ステップ205で生成した学習器を問題解決のために運用する。問題解決とは画像や映像からの人間の感情分析や性別・年齢・身長・体重などの推定、侵入者・不審物などの特定物体や走る、しゃがむなど特定行動の検知、人物やナンバープレートなどの特定物体の識別・認識・カウンティング、混雑などの状況理解、音や音声から個人や年齢などの推定、翻訳、テキスト化、音や音声の到来方向推定、意味理解、テキストの内容理解、翻訳、作成などのことを意味し、その他教師有り学習によって解決する問題を意味している。
図3は分類問題学習データセットを生成するフローチャートである。まず、クラス振り分けステップ301では、学習データセット準備ステップ201で準備した学習データセットを、N個のクラス学習データセット(学習データサブセット)に振り分ける。Nは分類問題の分類数(クラス数)であり、各クラス学習データセットは同じ出力信号を持つ学習データ同士で構成される。図1の例はN=2の例であり、各クラス学習データセットは、猫学習データセット103および犬学習データセット104に相当する。各クラス学習データセットに含まれる学習データの数は異なる数でもよい。
図4に、入力信号生成ステップ302における入力信号生成法の概要を示す。入力信号生成ステップ302は、クラス振り分けステップ301で振り分けた各クラス学習データセットの入力信号セット(入力信号の集合)401を抽出する。図1の例では、猫の画像(猫学習データセット103の場合)もしくは犬の画像(犬学習データセット104の場合)に相当する。抽出した入力信号セット401をランダムに2等分し、それらを信号グループGA402と信号グループGB403とする。
次に、信号グループGB403を入力信号セット、信号グループGA402を出力信号セット(出力信号の集合)として1対1関係でランダムに入力信号セットと出力信号セットを紐づけ、生成学習データセットA404を生成する。生成学習データセットA404に基づきDNN(Deep Neural Network)の回帰問題として学習を行い、学習器A405を生成する。同様に、信号グループGA402を入力信号セット、信号グループGB403を出力信号セットとして1対1関係でランダムに入力信号セットと出力信号セットを紐づけ、生成学習データセットB406を生成する。生成学習データセットB406に基づきDNNの回帰問題として学習を行い、学習器B407を生成する。図6に示すように、DNNはパラメータwを持つニューラルネットワークにx(信号グループGA402に属する信号(図1の例では画像)もしくは信号グループGB403に属する信号)を入力したときの出力をy(x, w)、正解をd(1対1関係でランダムに紐づけた信号グループGB403に属する信号もしくは信号グループGA402に属する信号)としたとき、出力と正解との距離を示す目的関数Eを最小にするパラメータwを学習する。ここで、Kは全サンプル数(信号グループGA402もしくは信号グループGB403のデータ数)である。
また、生成学習データセット404(406)における入力信号セットと出力信号セットとを1対1関係でランダムに紐づけるために、入力信号セット401をランダムに2等分したが、入力信号セット401に含まれる信号数が奇数であった場合には、1つの信号を除いてその後の処理を行い、除いた信号は最終的にそのまま新学習データセットに含ませてもよいし、一方は奇数、一方は偶数として分けてもよい。後者の場合は、生成学習データセット404(406)の入力信号セットの信号数と出力信号セットの信号数とが異なり、1つの入力信号に対して2つの正解または2つの入力信号に対して1つの正解というケースが生じるが、この程度であればDNNの学習の収束に及ぼす影響は小さい。DNNのネットワークの層の深さ・幅、活性化関数などの構造、最小化アルゴリズムなどは任意に設計してよい。例えば、Generative Adversarial Learningというアルゴリズムを用いてもよく、DNN以外のカーネル法やSVMを用いてもよい。また、学習器A405を生成するDNNと学習器B407を生成するDNNのネットワーク構造や学習手法は同じでなくてもよい。
次に、生成した学習器A405に未知入力信号として信号グループGA402を与え、信号グループGC408を得る。同様に、生成した学習器B407に未知入力信号として信号グループGB403を与え、信号グループGD409を得る。最後に、入力信号セット401に信号グループGC408と信号グループGD409を統合し、新しい入力信号セット401とする。統合する際、入力信号の並び順に制限はなくどのような順番であってもよい。あるいは、統合する際、既存の入力信号セット401と新たに生成した信号グループGC408及びGC409との区別を属性として記憶しておいてもよい。必要な入力信号の数が揃うまで、入力信号セット401を2等分する作業から入力信号セット401に信号グループGC408と信号グループGD409を統合し、新しい入力信号セット401とする作業を繰り返し行ってもよい。以上の説明においては、入力信号セット401を2等分して新たな信号グループを生成したが、信号グループの生成方法はこれに限定されるものではない。例えば、入力信号セット401を3等分し、2つの信号グループを図4の例と同様に学習に用い、残りの1つの信号グループを未知入力信号として学習器A405および学習器B407に与えてもよい。また、学習器A405または学習器B407のいずれか一方のみを生成するようにしてもよい。ただし、図4のように信号グループの入出力をクロスさせて学習させる方が、同じ学習データセットからより多くのバリエーションを得られる点からは望ましい。
新たな入力信号セットが生成された(ステップ302)後、分類出力信号付与ステップ303では、入力信号生成ステップ302で生成した新しい入力信号セットのうち、出力信号が紐づけられていない入力信号(信号グループGC408とGD409)に出力信号を紐づけ、新しいクラス学習データセットを生成する。入力信号GC408及びGD409は全て同じクラスの入力信号セットから生成されたものであるので、入力信号に紐づける出力信号は、クラス振り分けステップ301で振り分けられたそれぞれのクラス学習データセットが持つ出力信号と同じ出力信号とする。
学習データセット統合ステップ304では、各分類出力信号付与ステップ303-1〜Nで生成した新しいクラス学習データセットを一つの学習データセットとして統合する。統合した学習データセットは、図1で示した新学習データセット107に相当する。統合する際、学習データの並び順に制限はなくどのような順番でもよい。なお、入力信号セットを生成した際、既存の入力信号セットと新たに生成した信号グループとを区別可能とする属性を付した場合には当該属性情報も引き継ぐ。
図5は回帰問題学習データセットを生成するフローチャートである。まず、量子化振り分けステップ501では学習データセット準備ステップ201で準備した学習データセットを、M個の量子学習データセットに振り分ける。出力信号に対して量子化を行い、同じ量子化値を持つ学習データ同士で各量子学習データセットが構成されるように学習データセットを振り分ける。ここで、Mは量子化数であり、量子化数Mは解決する問題や学習データセット準備ステップ201で準備した学習データセットのバリエーション(最大値、最小値、平均、分散、分布などの統計情報)を基に決定できる。例として、顔画像を入力信号とし、被写体の年齢を出力信号とする学習データセットを挙げる。この場合、量子化としては年齢を適宜区分することで行い、たとえば11歳〜15歳を出力信号とする学習データを一つの量子学習データセット、16歳〜20歳を出力信号とする学習データを一つの量子学習データセットとすることができる。
入力信号生成ステップ302では、量子化振り分けステップ501で振り分けた各量子学習データセットから抽出した入力信号セットを用い、図4を用いて説明した通り、それぞれ独立に新しい入力信号セットを生成する。
回帰出力信号付与ステップ502では、入力信号生成ステップ302で生成した新しい入力信号セットの中で、出力信号が紐づけられていない入力信号(信号グループGC408とGD409)に出力信号を紐づけ、新しい量子学習データセットを生成する。入力信号に紐づける出力信号は、量子化振り分けステップ501で振り分けられたそれぞれのクラス学習データセットが持つ出力信号の代表値とする。ここで、出力信号の代表値としては、平均値、最大値、最小値、最頻値、中央値などをとることができる。また、新しい入力信号に紐づける出力信号の値は統一する必要はなく、量子学習データセットごとに出力信号の平均値、最大値、最小値、最頻値、中央値などをばらばらに設定してもよい。
学習データセット統合ステップ304では、各回帰出力信号付与ステップ502-1〜Mで生成した新しい量子学習データセットを、図3と同様に一つの学習データセットとして統合する。統合する際、学習データの並び順に制限はなくどのような順番でもよい。また、入力信号セットを生成した際、既存の入力信号セットと新たに生成した信号グループとを区別可能とする属性を付した場合には当該属性情報も引き継ぐ。
図7を用いて本実施例を実現するハードウェア構成を説明する。学習データセット生成装置(ここではサーバ)701と学習データセット記憶装置(ここではサーバ)702と問題解決装置(ここではサーバ)703とが、ネットワーク700にて接続されている。ネットワーク700は各サーバを結ぶデータ通信可能な回線である。専用線、イントラネット、インターネット等のIPネットワーク等、回線の種類は問わない。学習データセット生成サーバ701は図2のフローチャートにおけるステップ201〜204を実行し、生成した学習データセットを学習データセット記憶サーバ702に記憶する。問題解決サーバ703は、学習データセット記憶サーバ702にアクセスし、図2のフローチャートにおけるステップ205〜206を実行する。すなわち、学習データセット生成サーバ701が生成した学習データセットを用いて学習を行った学習器により問題解決を行う。なお、図7の構成は一例であり、さまざまな変形が可能である。例えば、図2のフローチャートを一つのサーバで実現することも可能であり、学習データセット生成サーバ701から生成した学習データセットを問題解決サーバ703に直接提供することも可能である。
図8にサーバ701〜703のハードウェア構成例を示す。サーバ800は、プロセッサ801、主記憶802、補助記憶803、入出力インタフェース804、表示インタフェース805、ネットワークインタフェース806を含み、これらはバス807により結合されている。入出力インタフェース804は、キーボードやマウス等の入力装置811に接続されてユーザインタフェースを提供する。表示インタフェース805は、ディスプレイ810に接続される。ネットワークインタフェース806はサーバ800とネットワーク700とを接続するためのインタフェースである。
補助記憶803は通常、HDDやフラッシュメモリなどの不揮発性メモリで構成され、サーバ800が実行するプログラムやプログラムが処理対象とするデータ等を記憶する。主記憶802はRAMで構成され、プロセッサ801の命令により、プログラムやプログラムの実行に必要なデータ等を一時的に記憶する。プロセッサ801は、補助記憶803から主記憶802にロードしたプログラムを実行する。
図9に学習データセット生成サーバ701に格納されるプログラム、データを示す。プログラムとして学習データセット生成プログラム901を格納し、図3または図5のフローチャートを実行するプログラムである。すなわち、新学習データセット903を生成するため、学習データセット902を主記憶802に読み込み、必要に応じて入力信号、出力信号のサイズ調整を行う。入力装置811からユーザによる問題の種別の入力を受け、その種別に従って、学習データセットの生成を行う。生成した新学習データセット903は、例えばテーブル904の形式で格納されている。テーブル904には、入力信号や出力信号としてデータそのものを格納してもよいし、データの格納位置を示すアドレスを格納してもよい。また、属性として生成データかどうかを示す欄905を設け、本実施例により作成されたデータか否かどうかを示すフラグを格納してもよい。また、生成した新学習データセット903により学習データセット902を上書きしてもよい。
図10に問題解決サーバ703に格納されるプログラム、データを示す。プログラムとして問題解決したい課題に応じた特定のアプリケーションプログラム1001を格納し、図2のステップ205〜206を実行するプログラムである。すなわち、新学習データセット903を主記憶802に読み込み、学習を行う。学習器のパラメータの調整を行う場合に、新学習データセット903に含まれる学習データが生成データであるか否かを利用して学習させる順番を定めてもよい。例えば、まずオリジナル学習データで学習した後に生成データで学習を行うようにしてもよいし、逆に生成データで学習を開始し、その後オリジナル学習データで学習するようにしてもよい。この学習によりアプリケーションプログラム1001における学習器が生成され、未知の入力信号を生成された学習器により問題解決を行うことができる。
以上のように、教師有り学習における新しい学習データセット生成法を用いることで、大量のバリエーションに富んだ学習データセットを自動的に生成することができ、人的コストの大幅な削減とその学習データセットを用いることによって汎化性能が高い学習器の生成が期待できる。
101:学習データ、102:学習データセット、103, 104:クラス学習データセット、105, 106:新クラス学習データセット、107:新学習データセット。

Claims (9)

  1. 入力信号と出力信号の組み合わせである学習データを複数含む学習データセットを出力信号に応じて複数の学習データサブセットに振り分け、
    前記複数の学習データサブセットのそれぞれについて、前記学習データサブセットに含まれる学習データの入力信号から新規入力信号を生成し、前記新規入力信号と前記学習データサブセットに応じた出力信号の組み合わせである新規学習データと前記学習データサブセットに含まれる学習データとを統合することにより、新規学習データサブセットを生成し、
    前記複数の学習データサブセットのそれぞれについて生成された新規学習データサブセットを統合して新規学習データセットを生成し、
    前記学習データサブセットに含まれる学習データの入力信号から前記新規入力信号を生成する際に、前記学習データサブセットに含まれる学習データの入力信号を第1の信号グループと第2の信号グループとに区分し、前記第1の信号グループを入力信号セットとし、前記第2の信号グループを出力信号セットとして学習を行って第1の学習器を生成し、前記第2の信号グループの入力信号を前記第1の学習器に入力することにより前記新規入力信号を生成する新規学習データセット生成方法。
  2. 請求項1において、
    前記学習データサブセットに含まれる学習データの入力信号から前記新規入力信号を生成する際に、前記第2の信号グループを入力信号セットとし、前記第1の信号グループを出力信号セットとして学習を行って第2の学習器を生成し、前記第1の信号グループの入力信号を前記第2の学習器に入力することにより前記新規入力信号を生成する新規学習データセット生成方法。
  3. 請求項1または2において、
    前記学習データセットが分類問題にかかる学習データセットである場合には、
    前記学習データセットを分類問題のクラスに応じて前記複数の学習データサブセットに振り分け、
    前記新規学習データの出力信号は、前記学習データサブセットのクラスに応じた出力信号である新規学習データセット生成方法。
  4. 請求項1または2において、
    前記学習データセットが回帰問題にかかる学習データセットである場合には、
    前記学習データセットを出力信号に対して量子化し、前記学習データセットの量子化値に応じて前記複数の学習データサブセットに振り分け、
    前記新規学習データの出力信号は、前記学習データサブセットに含まれる学習データの出力信号の代表値とする新規学習データセット生成方法。
  5. 請求項1または2において、
    前記学習データサブセットに含まれる学習データの入力信号から前記新規入力信号を生成する際に、前記第1の信号グループに含まれる学習データと前記第2の信号グループに含まれる学習データとをランダムに1対1に紐づけ、ニューラルネットワークの回帰問題として学習を行うことにより、前記第1の学習器を生成する新規学習データセット生成方法。
  6. 請求項1または2において、
    前記新規学習データに対して、前記学習データサブセットに含まれる学習データと区別するための属性を付与する新規学習データセット生成方法。
  7. プロセッサと、
    主記憶と、
    前記主記憶に読み込まれ、前記プロセッサにより実行される学習データセット生成プログラムとを有し、
    前記学習データセット生成プログラムは、学習データセットを複数の学習データサブセットに振り分ける振り分け部と、前記振り分け部で振り分けられた前記学習データサブセットごとに新規入力信号を生成する入力信号生成部と、前記新規入力信号に対して出力信号を付与する出力信号付与部とを有し、
    前記入力信号生成部は、前記学習データサブセットに含まれる学習データの入力信号を第1の信号グループと第2の信号グループに区分し、前記第1の信号グループを入力信号セットとし、前記第2の信号グループを出力信号セットとして学習を行って第1の学習器を生成し、前記第2の信号グループの入力信号を前記第1の学習器に入力することにより前記新規入力信号を生成し、
    前記出力信号付与部は、前記新規入力信号に対して前記学習データサブセットに応じた出力信号を付与する新規学習データセット生成装置。
  8. 請求項7において、
    前記入力信号生成部は、前記第2の信号グループを入力信号セットとし、前記第1の信号グループを出力信号セットとして学習を行って第2の学習器を生成し、前記第1の信号グループの入力信号を前記第2の学習器に入力することにより前記新規入力信号を生成する新規学習データセット生成装置。
  9. 請求項7または8において、
    前記入力信号生成部は、前記第1の信号グループに含まれる学習データと前記第2の信号グループに含まれる学習データとをランダムに1対1に紐づけ、ニューラルネットワークの回帰問題として学習を行うことにより、前記第1の学習器を生成する新規学習データセット生成装置。
JP2019521562A 2017-05-30 2017-05-30 新規学習データセット生成方法および新規学習データセット生成装置 Active JP6751816B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/020041 WO2018220700A1 (ja) 2017-05-30 2017-05-30 新規学習データセット生成方法、新規学習データセット生成装置および生成された学習データセットを用いた学習方法

Publications (2)

Publication Number Publication Date
JPWO2018220700A1 JPWO2018220700A1 (ja) 2020-01-23
JP6751816B2 true JP6751816B2 (ja) 2020-09-09

Family

ID=64456141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019521562A Active JP6751816B2 (ja) 2017-05-30 2017-05-30 新規学習データセット生成方法および新規学習データセット生成装置

Country Status (3)

Country Link
US (1) US11551080B2 (ja)
JP (1) JP6751816B2 (ja)
WO (1) WO2018220700A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019022136A1 (ja) * 2017-07-25 2019-01-31 国立大学法人東京大学 学習方法、学習プログラム、学習装置及び学習システム
US20210255147A1 (en) * 2018-06-22 2021-08-19 iNDTact GmbH Sensor arrangement, use of the sensor arrangement and method for detecting structure-borne noise
KR102644380B1 (ko) * 2019-03-28 2024-03-07 현대자동차주식회사 볼트 축력 예측 방법
US20210182603A1 (en) * 2019-12-05 2021-06-17 Indian Institute Of Technology Delhi Person identification and imposter detection using footfall generated seismic signals
US11720647B2 (en) * 2020-08-21 2023-08-08 GE Precision Healthcare LLC Synthetic training data generation for improved machine learning model generalizability
JP7045103B1 (ja) 2020-11-17 2022-03-31 株式会社VRAIN Solution データ拡張装置、データ拡張システム、及びデータ拡張プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3827037B2 (ja) 1997-05-23 2006-09-27 ソニー株式会社 学習方法および装置、ロボット、並びに記録媒体
JP4347226B2 (ja) * 2004-05-20 2009-10-21 富士通株式会社 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
US20050261889A1 (en) 2004-05-20 2005-11-24 Fujitsu Limited Method and apparatus for extracting information, and computer product
US8135652B2 (en) * 2004-10-29 2012-03-13 Nec Laboratories America, Inc. Parallel support vector method and apparatus
US9342793B2 (en) * 2010-08-31 2016-05-17 Red Hat, Inc. Training a self-learning network using interpolated input sets based on a target output
JP6208552B2 (ja) 2013-11-14 2017-10-04 株式会社デンソーアイティーラボラトリ 識別器、識別プログラム、及び識別方法

Also Published As

Publication number Publication date
JPWO2018220700A1 (ja) 2020-01-23
US20210158137A1 (en) 2021-05-27
WO2018220700A1 (ja) 2018-12-06
US11551080B2 (en) 2023-01-10

Similar Documents

Publication Publication Date Title
JP6751816B2 (ja) 新規学習データセット生成方法および新規学習データセット生成装置
US11645571B2 (en) Scheduling in a dataset management system
US11210595B2 (en) System and method for selective use of examples
CN109446430B (zh) 产品推荐的方法、装置、计算机设备及可读存储介质
CN109508375A (zh) 一种基于多模态融合的社交情感分类方法
CN109376844A (zh) 基于云平台和模型推荐的神经网络自动训练方法和装置
JP7266674B2 (ja) 画像分類モデルの訓練方法、画像処理方法及び装置
WO2022095376A1 (zh) 方面级别情感分类方法、装置、设备及可读存储介质
Bairavel et al. Novel OGBEE-based feature selection and feature-level fusion with MLP neural network for social media multimodal sentiment analysis
CN114443899A (zh) 视频分类方法、装置、设备及介质
CN111783873A (zh) 基于增量朴素贝叶斯模型的用户画像方法及装置
CN104077408B (zh) 大规模跨媒体数据分布式半监督内容识别分类方法及装置
JP2022505875A (ja) デジタルコンテンツの法的認可審査を実行するための方法
US11232325B2 (en) Data analysis system, method for controlling data analysis system, and recording medium
CN116029760A (zh) 消息推送方法、装置、计算机设备和存储介质
US11514311B2 (en) Automated data slicing based on an artificial neural network
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CA3070816A1 (en) Method of and system for generating training images for instance segmentation machine learning algorithm
Humphries et al. Spectral estimation for detecting low-dimensional structure in networks using arbitrary null models
Tomar A critical evaluation of activation functions for autoencoder neural networks
US20240054782A1 (en) Few-shot video classification
KR20230049486A (ko) 정치성향 분석 장치 및 이를 이용한 서비스 제공 방법
CN116977762A (zh) 模型训练方法、装置、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190925

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200811

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200817

R150 Certificate of patent or registration of utility model

Ref document number: 6751816

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250