JP7238907B2 - 機械学習装置、方法及びプログラム - Google Patents

機械学習装置、方法及びプログラム Download PDF

Info

Publication number
JP7238907B2
JP7238907B2 JP2020569508A JP2020569508A JP7238907B2 JP 7238907 B2 JP7238907 B2 JP 7238907B2 JP 2020569508 A JP2020569508 A JP 2020569508A JP 2020569508 A JP2020569508 A JP 2020569508A JP 7238907 B2 JP7238907 B2 JP 7238907B2
Authority
JP
Japan
Prior art keywords
data
learning
group
inappropriate
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020569508A
Other languages
English (en)
Other versions
JPWO2020158450A1 (ja
Inventor
拓弥 兼子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2020158450A1 publication Critical patent/JPWO2020158450A1/ja
Application granted granted Critical
Publication of JP7238907B2 publication Critical patent/JP7238907B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、機械学習装置、方法及びプログラムに関し、特に、教師あり学習における機械学習装置、方法及びプログラムに関する。
近年、教師あり学習を含む機械学習技術が広く利用されるようになった。一般に、教師あり学習によって精度の高いデータ判定モデルを作成するには、適切な教師データを用いて学習させる必要がある。但し、教師データに付与されているラベルが誤っているなど、不適切な教師データが与えられている場合には、精度の高いデータ判定モデルを作成することは困難である。
そこで、例えば、特許文献1には、教師データから不適切なラベルが付与されているデータを取り除くための技術が開示されている。特許文献1では、一旦、全ての教師データを基にデータ判定モデルを作成した後、作成したデータ判定モデルを用いて教師データをテストデータとして判定を行う。そして、判定結果と予め付与されたラベルとが異なる教師データを取り除いた上で再度、データ判定モデルを作成する。また例えば、特許文献2には、データ判定モデルの精度への寄与が小さい教師データを削除する技術が開示されている。
特開2005-181928号公報 特開2008-217242号公報
しかしながら、特許文献1及び2にかかる技術では、学習に用いた大量の教師データの中から不適切なラベルが付されたデータを特定する効率が不十分であるという問題点がある。その理由は、例えば、データ判定モデルの判定対象となるテストデータが、当該データ判定モデルを学習するために用いられた教師データであるため、そもそも判定結果とラベルとが異なる可能性がそれほど高くないことが想定されるためである。
本開示は、このような問題点を解決するためになされたものであり、教師データの中から不適切なラベルが付されたデータを効率的に特定するための機械学習装置、方法及びプログラムを提供することを目的とする。
本開示の第1の態様にかかる機械学習装置は、
データとラベルの組である複数の教師データである教師データ集合を記憶する記憶部と、
前記教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成するグループ生成部と、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを前記記憶部に格納する学習部と、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第1の判定結果を取得する判定部と、
前記第1の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第1の不適切データ群を特定する特定部と、
を備える。
本開示の第2の態様にかかる機械学習方法は、
コンピュータが、
データとラベルの組である複数の教師データである教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成し、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成し、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第1の判定結果を取得し、
前記第1の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第1の不適切データ群を特定する。
本開示の第3の態様にかかる機械学習プログラムは、
データとラベルの組である複数の教師データである教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成する処理と、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成する処理と、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第1の判定結果を取得する処理と、
前記第1の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第1の不適切データ群を特定する処理と、
をコンピュータに実行させる。
本開示により、教師データの中から不適切なラベルが付されたデータを効率的に特定するための機械学習装置、方法及びプログラムを提供することができる。
本実施形態1にかかる機械学習装置の全体構成を示すブロック図である。 本実施形態1にかかる機械学習方法の処理の流れを示すフローチャートである。 本実施形態2にかかる機械学習装置の構成を示すブロック図である。 本実施形態2にかかる学習段階の処理の流れを示すフローチャートである。 本実施形態2にかかる教師データ集合と学習グループと学習済みモデルの関係の概念を説明するための図である。 本実施形態2にかかる不適切データ群の一次特定処理の流れを示すフローチャートである。 本実施形態2にかかる不適切データ群の二次次特定処理の流れを示すフローチャートである。 本実施形態2にかかる不適切データ群の特定の概念を説明するための図である。 本実施形態2にかかる不適切データ除外後の再学習処理の流れを示すフローチャートである。 本実施形態2にかかる不適切データ除外後の再学習の概念を説明するための図である。 本実施形態3にかかる学習段階の不適切データ検出の概念を説明するための図である。 本実施形態3にかかる学習段階の不適切データ検出の概念を説明するための図である。 本実施形態4にかかる部分集合と学習グループと学習済みモデルの関係の概念を説明するための図である。
以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。
<実施形態1>
図1は、本実施形態1にかかる機械学習装置1の全体構成を示すブロック図である。機械学習装置1は、教師あり学習を実行して所定のモデルのパラメータを機械学習するための情報処理装置である。機械学習装置1は、記憶部11と、グループ生成部12と、学習部13と、判定部14と、特定部15とを備える。
記憶部11は、教師データ集合110を少なくとも記憶する記憶装置である。教師データ集合110は、複数の教師データ111、112、・・・の集合である。教師データ111は、データ1111と、データ1111の性質について予め判定(評価)されたラベル1112との組である。つまり、データ1111とラベル1112とは対応付けられている。また、教師データ112以降についても教師データ111と同様である。
記憶部11は、学習済みモデル161~16n(nは2以上の自然数。)をさらに記憶する。学習済みモデル161~16nのそれぞれは、同一のデータ判定モデルに対して異なる教師データによりパラメータが学習されたモデルである。そのため、学習済みモデル161~16nのそれぞれは、少なくとも具体的なパラメータが異なる。ここで、データ判定モデルとは、入力データに対してパラメータ(重みづけ係数等)を用いて演算を行い、入力データに該当するラベルを判定(して出力)するものである。データ判定モデルは、プログラム、ライブラリ関数等で実現され、例えば、ニューラルネットワーク等であってもよい。
グループ生成部12は、教師データ集合110から、複数の学習グループを生成する。ここで、複数の学習グループは、互いに、属するデータの少なくとも一部が異なるものである。つまり、各学習グループは、教師データ集合110の少なくとも一部が属する部分集合である。そして、学習グループ同士は、集合が異なる。但し、学習グループ同士で、部分集合の一部が共通してもよい。また、学習グループ同士が包含関係にあってもよい。但し、複数の学習グループに同一の集合はないものとする。
学習部13は、所定のデータ判定モデルに対して、複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデル161~16nを記憶部11に格納する。すなわち、学習部13は、複数の学習グループのうち特定の学習グループを教師データとして、データ判定モデルのパラメータの学習を行う。そして、学習部13は、複数の学習グループのそれぞれについて、独立に学習を行う。そのため、学習部13は、学習グループの数(ここではn個)の分の学習済みモデルを生成する。言い換えると、学習済みモデル161~16nのそれぞれは、共通のデータ判定モデルについて、異なるデータ範囲の教師データによりそれぞれ学習されたモデルである。
尚、学習部13による学習に用いるアルゴリズムは、教師あり学習に属するものであれば特に限定されない。アルゴリズムによっては、教師データ及びラベルのほか、パラメータや、データ判定モデルの基となる基準モデルの入力を必要とするものがある。但し、パラメータや基準モデルについては、人手で設定しても良いし、種々のチューニング手法を利用して自動で設定しても良い。
判定部14は、複数の学習済みモデル161~16nのそれぞれに対して、対応する学習グループに含まれない判定対象データを入力して、学習済みモデルの数の第1の判定結果を取得する。例えば、学習済みモデル161が学習グループAに属するデータ群により学習されたものとする。この場合、判定部14は、学習済みモデル161に対して、学習グループAに属さないデータを判定対象データとする。そのため、判定対象データは、教師データ集合110に含まれないデータであるか、教師データ集合110に含まれるが、学習グループAに属さないデータである。よって、判定対象データが教師データ集合110に含まれないデータである場合、各学習済みモデルに対して入力される判定対象データは共通のデータを用いることができる。または、判定対象データは、各学習済みモデルのそれぞれに対して異なるデータであってもよく、さらに、一部の学習済みモデルの間で共通のデータであってもよい。
特定部15は、第1の判定結果と判定対象データにおける正解ラベルとに基づいて、教師データ集合110の中からラベルが不適切な可能性のある第1の不適切データ群を特定する。ここで、判定対象データにおける正解ラベルは、予め人間により、又は、信頼できる判定アルゴリズムにより判定されたラベルとし、判定対象データの性質の判定(評価)として適切なものとする。そして、機械学習装置1は、機械学習装置1の内部の記憶装置(不図示)又は外部から、判定対象データ及び正解ラベルを取得するものとする。また、特定部15は、特定した第1の不適切データ群を記憶部11に格納するか、機械学習装置1の外部へ出力してもよい。
図2は、本実施形態1にかかる機械学習方法の処理の流れを示すフローチャートである。まず、グループ生成部12は、教師データ集合110から属するデータの少なくとも一部が異なる複数の学習グループを生成する(S11)。次に、学習部13は、所定のデータ判定モデルに対して複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成する(S12)。尚、このとき学習部13は、生成した学習済みモデル161~16nを記憶部11に格納してもよい。
そして、判定部14は、複数の学習済みモデルのそれぞれに対して、対応する学習グループに含まれない判定対象データを入力して、学習済みモデルの数の第1の判定結果を取得する(S13)。その後、特定部15は、第1の判定結果と判定対象データにおける正解ラベルとに基づいて、教師データ集合110の中からラベルが不適切な可能性のある第1の不適切データ群を特定する(S14)。
このように、本実施形態1では、教師データ集合110から、異なるデータ範囲の複数の学習グループを生成するものである。そして、同一のデータ判定モデルに対して各学習グループごとに学習を行い、異なる学習結果(パラメータ)に基づく学習済みモデルを生成する。その上で、各学習済みモデルに対して、学習に用いられなかったデータを判定対象データとして入力して第1の判定結果を取得する。
ここで、学習グループ内の各教師データに正確、つまり、適切なラベルが付与されていれば、当該学習グループを用いて学習された学習済みモデルは、判定対象データに対して「適切な」判定結果(ラベル)を出力する可能性が高いといえる。一方、学習グループ内に不正確又は不適切なラベルが付与された教師データが含まれていた場合、当該学習グループを用いて学習された学習済みモデルは、判定対象データに対して「不適切な」判定結果を出力する可能性が高いといえる。そこで、本実施形態1では、例えば、第1の判定結果と正解ラベルとが一致しない場合には、当該学習済みモデルの学習に用いられた学習グループ内に、不適切なラベルが付された教師データが含まれている可能性が高いとみなす。この場合、特定部15は、当該学習グループ内の少なくとも一部のデータ群を第1の不適切データ群として特定する。そのため、本実施形態1では、教師データ集合110の全データのラベルを人手で精査し直す必要がなく、教師データの中から不適切なラベルが付されたデータを効率的に特定することができる。
尚、機械学習装置1は、図示しない構成としてプロセッサ、メモリ及び記憶装置を備えるものである。また、当該記憶装置には、本実施形態にかかる機械学習方法の処理が実装されたコンピュータプログラムが記憶されている。そして、当該プロセッサは、記憶装置からコンピュータプログラムを前記メモリへ読み込み、当該コンピュータプログラムを実行する。これにより、前記プロセッサは、グループ生成部12、学習部13、判定部14及び特定部15の機能を実現する。
または、グループ生成部12、学習部13、判定部14及び特定部15は、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry)、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。また、プロセッサとして、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)等を用いることができる。
また、機械学習装置1の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。また、機械学習装置1の機能がSaaS(Software as a Service)形式で提供されてもよい。
<実施形態2>
ここで、本実施形態が解決しようとする課題について詳述する。まず、教師あり学習を用いて、判定精度の高いデータ判定モデルを作成するための様々な提案がなされている。その一分野として、用意された教師データを一定の条件で削減することにより、すべての教師データを使用する場合より高精度なデータ判定モデルを作成しようとする試みがある。一例として、教師データに対するラベル付けは一般的に人手で行われるため、本来付与されるべきものとは異なるラベルが付与されていることがある。そのため、付与されているラベルに誤りがある教師データ(以降、不適切教師データと呼ぶ。)を取り除いた上でデータ判定モデルのパラメータを学習することで、より精度の高いデータ判定モデルを生成することができる。
しかし、このような技術では、削減対象とする教師データを選択する根拠となる情報が、学習に用いた教師データ自体となっている。したがって、「その他の教師データの傾向からは確からしいラベルが付与されているが、実態としては誤ったラベルが付与されている教師データ」を検出できる可能性は低い。例えば、特許文献1においても、学習に用いた教師データを、作成したデータ判定モデルを用いて判定しているが、そもそもこの教師データを基に作成したデータ判定モデルである。そのため、特許文献1では、ラベルと判定結果とが異なる可能性はそれほど高くないと想定される。また、大量の教師データの中から、これらを用いて学習した唯一のデータ判定モデルを用いて不適切教師データを特定しようとするため、効率が悪い。
また、完成済み(学習済み)のデータ判定モデルについて、学習時に使用した教師データに付与されているラベルに誤りがある可能性が出てきた場合、通常、すべての教師データ及びラベルを確認する必要が生じる。データ判定モデルが教師データに対して十分に学習されている場合、そのデータ判定モデルを用いて教師データを判定しても、当初付与したラベルのとおりの判定結果が出力される。そのため、ラベルの正当性を確認するために用いることはできない。したがって、教師データとラベル1つ1つを確認する必要があり、大きなコストがかかる。
また、用意された教師データの全てを基にデータ判定モデルを作成する「バッチ学習」に対して、教師データを1つずつ学習しながらデータ判定モデルを更新していく「オンライン学習」と呼ばれる技術が存在する。
オンライン学習は、新たに学習する教師データが正しく判定されるようデータ判定モデルを更新するのが特徴であり、新しい教師データほどモデルに強い影響を与える。そのため、環境変化などにより、古い教師データが陳腐化しやすいケースでは有効である。一方で、環境変化による影響が小さい場合や、古い教師データの学習結果もデータ判定モデルに反映させたいようなケースにおいては有効ではない。
そこで、本実施形態2は、上述した実施形態1の具体的な一実施例であり、上述した課題の少なくとも一部を解決するものについて以下で説明する。
図3は、本実施形態2にかかる機械学習装置2の構成を示すブロック図である。機械学習装置2は、上述した機械学習装置1の一具体例である。機械学習装置2は、教師データDB(DataBase)21と、テストデータDB22と、モデル管理DB23と、グループ生成部24と、学習部25と、判定部26と、特定部27と、出力部28とを備える。
教師データDB21は、教師データ集合210を記憶及び管理するデータベースである。教師データ集合210は、上述した教師データ集合110の一具体例である。教師データ集合210は、教師データ211、212、・・・を含む。教師データ211は、上述した教師データ111の一具体例であり、ID2111と、検体2112と、ラベル2113との組であり、これらが対応付けられている。ID2111は、検体2112を識別するための情報である。検体2112は、上述したデータ1111の一具体例である。検体2112は、所定のデータ判定モデルの学習対象のデータであり、例えば、任意のファイル又は当該ファイルから抽出された特徴量の集合であってもよい。ラベル2113は、検体2112の性質について予め判定された情報である。ラベル2113は、例えば、検体2112が正常又は異常を示す情報や、複数段階の度合いを示す情報であってもよい。また、教師データ212以降についても教師データ211と同様である。
テストデータDB22は、学習済みモデルにおける判定対象データの一具体例であるテストデータ221、222、・・・を記憶及び管理するデータベースである。テストデータ221は、ID2211と検体2212との組であり、これらが対応付けられている。ID2211は、検体2212を識別するための情報である。検体2212は、上述した検体2112と同等の情報であり、異なる内容のデータである。検体2212は、例えば、学習済みモデルを用いて運用中に取得された運用データであるものとする。また、テストデータ222以降についてもテストデータ221と同様である。
モデル管理DB23は、データ判定モデルに関する情報を記憶及び管理するデータベースである。モデル管理DB23は、データ分割情報2301、学習グループ情報2302、学習済みモデル231~23nを記憶する。データ分割情報2301は、教師データ集合210を分割した際の複数の部分集合の定義情報である。学習グループ情報2302は、生成された複数の学習グループの定義情報である。学習済みモデル231~23nは、上述した学習済みモデル161~16nの一具体例である。
尚、教師データDB21、テストデータDB22及びモデル管理DB23は、図示しない記憶装置により実現される。または、教師データDB21、テストデータDB22及びモデル管理DB23のいずれか又は全ては、機械学習装置2の外部の記憶装置により実現したものであってもよい。または、教師データDB21、テストデータDB22及びモデル管理DB23のいずれか又は全ては、当該外部から取得された情報が内部のメモリ等に一時的に記憶された状態を指すものであってもよい。
グループ生成部24は、上述したグループ生成部12の一具体例である。特に、本実施形態2にかかるグループ生成部24は、教師データ集合210から複数の部分集合に分割し、前記複数の部分集合のそれぞれが少なくとも1以上のグループに属するように前記複数の学習グループを生成する。ここで、複数の部分集合は、互いにデータの重複がなく、所定数(ここでは、n)に分割されるものとする。これにより、学習対象の教師データ群(学習グループ)は、適宜、部分集合を組み合わせたものとなる。そのため、特定の検体が複数の学習グループに属することになり、異なる複数の学習済みモデルの学習に用いられることになる。よって、仮に、当該特定の検体に付与されたラベルが不適切であった場合、複数の学習済みモデルで判定結果がラベルと異なる可能性があり、不適切データの検出精度が向上する。また、教師データ集合210を重複なく複数の部分集合に分割しておくことで、同一の判定対象データに対する判定結果が異なる学習済みモデル間、つまり、学習グループ間の差異が容易に特定でき、ひいては不適切データを効率的に特定できる。
さらに、グループ生成部24は、教師データ集合210から、属するデータ数が均等になるように複数の部分集合分割するとよい。これによって、学習グループ間の差異となる部分集合の単位が均一となるため、不適切データ群の部分集合が特定できれば、その中から実際の不適切データを特定する時間が平滑化できる。
さらに、グループ生成部24は、各学習グループにおける部分集合の所属数が、所定数(ここでは、n)以内で異なるように、複数の学習グループを生成することが望ましい。例えば、所定数n=10の場合、10個の部分集合と学習グループが生成され、その際、各学習グループにおける部分集合の所属数は、1から10まで1ずつ異なることとなる。これにより、さらに不適切データを特定する時間が平滑化できる。
例えば、グループ生成部24は、各学習グループにおける部分集合の所属数の昇順において隣接する学習グループに属する部分集合を次のようにするとよい。まず、Nは2以上かつ所属数以下の自然数とする。この場合、グループ生成部24は、分割された所定数の部分集合の中からN-1個の部分集合を選択し、N-1番目の学習グループを生成する。そして、グループ生成部24は、N-1番目の学習グループに属する全ての部分集合と、複数の部分集合のうち当該N-1番目の学習グループに属さない部分集合の1つとが所属するようにするN番目の学習グループを生成するものとする。これにより、学習グループを部分集合の所属数で昇順で見た場合に、部分集合が累算されたように各学習グループが生成される。そのため、所属数で隣接する学習グループ間の部分集合が一意に定まり、不適切データの特定効率がさらに向上する。
学習部25は、上述した学習部13の一具体例である。ここで、本実施形態2にかかる複数の学習グループは、教師データ集合210の全てを含む全教師データグループを含むものとする。そして、学習部25は、所定のデータ判定モデルに対して全教師データグループを教師データとして用いた学習により生成された学習済みモデルを運用モデルとしてモデル管理DB23に格納する。
判定部26は、上述した判定部14の一具体例である。本実施形態2にかかる判定部26は、テストデータDB22からテストデータ221等のうち1以上を読み出し、判定対象データとする。また、判定部26は、モデル管理DB23から学習済みモデル231~23nを読み出し、判定対象データを各学習済みモデル231等のそれぞれに入力する。そして、判定部26は、各学習済みモデル231等から第1の判定結果を取得する。
また、判定部26は、前記運用モデルに対して外部から取得した運用データを判定対象データとして入力する。例えば、機械学習装置2は、外部から取得した運用データを検体2212とし、ID2211を付与してテストデータ221としてテストデータDB22に格納する。そして、判定部26は、テストデータDB22から検体2212を読み出して、運用モデルに入力することにより、第1の判定結果を取得する。例えば、運用段階で運用中に取得された実データの判定結果に疑義が生じた場合に、教師データ集合の検証を行い、特定された不適切データ群に基づいて、教師データ集合の質を向上させて、データ判定モデルの精度も向上させることができる。
特定部27は、上述した特定部15の一具体例である。本実施形態2にかかる特定部27は、各学習済みモデル231等から取得された第1の判定結果のそれぞれと正解ラベルとを比較する。そして、特定部27は、複数の学習グループのうち、当該比較の結果が一致した学習済みモデルに対応する第1の学習グループ群と、当該比較の結果が一致しない学習済みモデルに対応する第2の学習グループ群とを特定する。その後、特定部27は、第1の学習グループ群と第2の学習グループ群との差分により、第1の不適切データ群を特定する。これにより、教師データ集合210の全てではなく、学習グループ群の間の教師データの差分に絞り込んだ上で、その中から不適切データか否かを確認できるため、効率的に不適切データを特定できる。
さらに、判定部26は、第1の学習グループ群に対応する少なくとも1つの学習済みモデルに対して、第1の不適切データ群を入力して、第2の判定結果を取得するとよい。この場合、特定部27は、第1の不適切データ群のうち第2の判定結果とラベルとが一致しない1以上のデータを第2の不適切データ群として特定する。そして、学習部25は、教師データ集合210から第2の不適切データ群を除外した集合を教師データとして、所定のデータ判定モデルに対して学習を行い、新たな学習済みモデルとしてモデル管理DB23に格納する。これにより、運用モデルの精度を向上させることができる。
尚、特定部27は、上述した通り複数の部分集合に属するデータ数が均等である場合には、第1の判定結果に基づいて、複数の部分集合のいずれかを第1の不適切データ群として特定するとよい。これにより、第1の不適切データ群を効率的に絞り込むことができる。
また、特定部27は、前記第1の学習グループ群のうち所属数が最大の第1の学習グループと、前記第2の学習グループ群のうち所属数が最小の第2の学習グループとの差分を第1の不適切データ群として特定すると良い。これにより、第1の不適切データ群をより厳密かつ正確に絞り込むことできる。
出力部28は、判定部26により取得された第1及び第2の判定結果、及び、特定部27により特定された第1及び第2の不適切データ群の少なくとも一部である出力データを機械学習装置2の外部に出力する。例えば、出力部28は、機械学習装置2が内蔵する、又は、機械学習装置2に接続された表示装置に前記出力データを表示する。または、出力部28は、ネットワークを介して前記出力データを所定の宛先に送信してもよい。または、出力部28は、機械学習装置2内の記憶装置に第1の前記出力データを格納してもよい。
図4は、本実施形態2にかかる学習段階の処理の流れを示すフローチャートである。また、図5は、本実施形態2にかかる教師データ集合と学習グループと学習済みモデルの関係の概念を説明するための図である。ここでは、教師データ集合210は、検体d0とラベルL0の組、検体d1とラベルL1の組、・・・検体d99とラベルL99の組を含むものとする。また、以下の説明ではn=10であるものとし、図4の説明中に適宜、図5を参照するものとする。但し、nはこれに限定されない。
まず、グループ生成部24は、教師データ集合210から複数の部分集合に分割する(S211)。例えば、グループ生成部24は、教師データDB21から教師データ集合210を読み出し、教師データ集合210内の教師データを10個の部分集合sb0~sb9に分割する。この場合、グループ生成部24は、部分集合sb0~sb9のそれぞれに属するデータの集合の定義情報をデータ分割情報2301として生成し、モデル管理DB23に格納する。例えば、部分集合sb0には検体d0からd9の10個のデータが所属し、部分集合sb1には検体d10からd19の10個のデータが所属し、以下同様に、部分集合sb9には検体d90からd99の10個のデータが所属する。尚、各部分集合内のデータ数は均等でなくても構わない。
次に、グループ生成部24は、複数の部分集合から複数の学習グループを生成する(S212)。具体的には、グループ生成部24は、モデル管理DB23からデータ分割情報2301を読み出し、複数の部分集合のうち未選択の部分集合を1つ選択し、当該選択した部分集合を新規な学習グループとする。例えば、グループ生成部24は、データ分割情報2301の中から部分集合sb0を選択し、学習グループg0とする。次に、グループ生成部24は、データ分割情報2301の中から未選択の部分集合、つまり、部分集合sb0以外である部分集合sb1を選択し、学習グループg0に属する部分集合sb0と、選択した部分集合sb1とをまとめて学習グループg1とする。続いて、グループ生成部24は、データ分割情報2301の中から未選択の部分集合として例えば、部分集合sb2を選択し、学習グループg1に属する部分集合sb0及びsb1と、選択した部分集合sb2とをまとめて学習グループg2とする。以後同様に、グループ生成部24は、学習グループg3からg8を生成する。そして、グループ生成部24は、データ分割情報2301の中から未選択の部分集合として残りの部分集合sb9を選択し、学習グループg8に属する部分集合sb0からsb8と、選択した部分集合sb9とをまとめて学習グループg9とする。ここで、学習グループg9は、上述した全教師データグループである。最後に、グループ生成部24は、学習グループg0からg9の定義情報を学習グループ情報2302として生成し、モデル管理DB23に格納する。尚、グループ生成部24は、都度、学習グループの定義情報を学習グループ情報2302に追加してもよい。また、上記では一例として、グループ生成部24は、部分集合の所属数の昇順で学習グループを生成したが、降順でもよい。または、グループ生成部24は、他のアルゴリズムにより複数の学習グループを生成してもよい。
続いて、学習部25は、所定のデータ判定モデルに対して、複数の学習グループごとに学習し、複数の学習済みモデルを生成する(S213)。例えば、学習部25は、モデル管理DB23から学習グループ情報2302を読み出し、学習グループ情報2302の中から学習グループg0を選択し、学習グループg0に該当する教師データ群(検体d0とラベルL0の組~検体d9とラベルL9の組)を教師データ集合210の中から取得する。そして、学習部25は、検体d0とラベルL0の組~検体d9とラベルL9の組を教師データとして所定のデータモデルのパラメータを学習し、学習済みモデルm0を生成する。つまり、学習済みモデルm0は、学習グループg0により学習されたデータ判定モデルであり、学習済みモデルm0と学習グループg0とが対応することになる。同様に、学習部25は、学習グループg1に定義された検体d10とラベルL10の組~検体d19とラベルL19の組を教師データとして上記と同様のデータモデルのパラメータを学習し、学習済みモデルm1を生成する。以後同様に、学習部25は、学習グループg9に定義された検体d90とラベルL90の組~検体d99とラベルL99の組を教師データとして上記と同様のデータモデルのパラメータを学習し、学習済みモデルm9を生成する。ここで、学習済みモデルm9は、上述した運用モデルである。つまり、学習済みモデルm9は、教師データ集合210の全てを用いて学習されたデータ判定モデルである。
そして、学習部25は、生成した学習済みモデルm0からm9を学習済みモデル231から23nとしてモデル管理DB23に格納する(S214)。この後、ユーザは、モデル管理DB23に格納された学習済みモデルm9(23n)を運用段階で使用し、運用データの判定に用いる。
図6は、本実施形態2にかかる不適切データ群の一次特定処理の流れを示すフローチャートである。また、図8は、本実施形態2にかかる不適切データ群の特定の概念を説明するための図である。以下の説明では図5の続きであるものとし、図6の説明中に適宜、図8を参照するものとする。
また、ここでは例えば、運用段階の実データに対する運用モデルによる判定結果が、ユーザにとって不適切と思われた場合に、当該実データをテストデータ(判定対象データ)の検体dXとするものとする。そして、検体dXの評価として、ユーザにとって適切な正解ラベルをLXとする。尚、実データは1以上であればよい。
まず、判定部26は、テストデータの検体を取得する(S221)。例えば、判定部26は、テストデータDB22からテストデータ221の検体dXを読み出す。または、判定部26は、外部から検体dXを受信してもよい。
次に、判定部26は、学習済みモデル231~23nのそれぞれに対して、テストデータの検体dXを入力し、モデル数(n)分の第1の判定結果291を取得する(S222)。例えば、判定部26は、モデル管理DB23から学習済みモデルm0を読み出し、学習済みモデルm0に検体dXを入力する。そして、判定部26は、学習済みモデルm0においてテストデータの検体dXについて判定された結果である判定結果rX0を取得する。同様に、判定部26は、学習済みモデルm1からm9のそれぞれに対して、同一のテストデータの検体dXを入力し、各学習済みモデルから第1の判定結果rX1からrX9を取得する。
そして、特定部27は、テストデータの正解ラベルを取得する(S223)。例えば、特定部27は、外部からテストデータの検体dXにおける正解ラベルLXを取得する。
続いて、特定部27は、第1の判定結果291と正解ラベルLXとの比較結果に応じて、各学習グループを第1の学習グループ群と第2の学習グループ群とに分類する(S224)。例えば、特定部27は、第1の判定結果rX0からrX9のそれぞれと正解ラベルLXとを比較し、それぞれの比較の結果292を得る。例えば、第1の判定結果と正解ラベルLXとが一致する場合、比較結果は「〇」、第1の判定結果と正解ラベルLXとが一致しない場合、比較結果は「×」とする。但し、比較結果は、「〇」か「×」の二値に限定されず、複数段階のレベル値やスコア等であってもよい。
そして、特定部27は、比較結果が「〇」である学習済みモデルに対応する学習グループを第1の学習グループ群に分類し、比較結果が「×」である学習済みモデルに対応する学習グループを第2の学習グループ群に分類する。図8の例では、学習グループg0からg5が第1の学習グループ群に分類され、学習グループg6からg9が第2の学習グループ群に分類されたものとする。これは、学習グループのデータ範囲が隣接する学習グループ間で部分集合の単位で異なるためである。また、不適切データが含まれる部分集合を含む学習グループを用いて学習された場合、当該学習済みモデルによる判定結果は、正解ラベルと異なる可能性が高いことに注目しているためである。
続いて、特定部27は、第1の学習グループ群と第2の学習グループ群との差分により、第1の不適切データ群を特定する(S225)。例えば、特定部27は、第1の学習グループ群のうち部分集合の所属数が最大のものを第1の学習グループg5とする。また、特定部27は、第2の学習グループ群のうち部分集合の所属数が最小のものを第2の学習グループg6とする。そして、特定部27は、第1の学習グループg5と第2の学習グループg6との差分である部分集合sb6(検体d60~d69)を第1の不適切データ群293として特定する。
ここで、不適切なラベルが付与された教師データ(不適切データ)が存在しない範囲でなるべく多くの教師データを学習しているデータ判定モデルが最も判定精度が高いといえる。言い換えると、不適切データを含む範囲で最も少ない教師データしか学習していないデータ判定モデルが最も判定精度が低いといえる。例えば、学習グループg6に不適切なデータが含まれている場合、学習済みモデルm5は正しい判定結果を出力し、学習済みモデルm6は誤った判定結果を出力する可能性が高い。このように、学習済みモデルm5が正しい判定結果を、学習済みモデルm6が誤った判定結果を出力した場合、教師データ集合210に含まれる教師データのいずれかが不適切であると判断することができる。
その後、出力部28は、特定された第1の不適切データ群293を出力する(S226)。例えば、第1の不適切データ群293として、部分集合sb6に属する検体d60~d69が出力される。これにより、ユーザは、教師データ集合210の中から検体d60~d69が不適切データである可能性が高いと把握することができ、この中から個別にラベルとの整合を見直すことができる。つまり、ユーザは教師データ集合210の全てを見直す必要がなく、絞り込まれた教師データ群を対象とするため、見直しが効率的である。
ここで、第1の不適切データ群も全てのラベルが不適切とは限らない。そこで、機械学習装置2は引き続き、第1の不適切データ群の中からより具体的に不適切データを絞り込む場合について説明する。
図7は、本実施形態2にかかる不適切データ群の二次特定処理の流れを示すフローチャートである。以下の説明では図6の続きであるものとし、図7の説明中に適宜、図8を参照するものとする。
まず、判定部26は、ステップS224により分類された第1の学習グループ群と、ステップS225により特定された第1の不適切データ群293を取得する。そして、判定部26は、第1の学習グループ群に対応する学習済みモデルに、第1の不適切データ群293を入力し、第2の判定結果を取得する(S231)。例えば、判定部26は、第1の学習グループ群のうち学習グループg5に対応する学習済みモデルm5を特定する。そして、判定部26は、学習済みモデルm5に対して部分集合sb6に属する検体d60~d69のそれぞれを入力し、第2の判定結果294を取得する。すなわち、判定部26は、学習済みモデルm5に対して検体d60を入力し、第2の判定結果r60を取得する。以降同様に、判定部26は、学習済みモデルm5に対して検体d61~d69のそれぞれを入力し、第2の判定結果r61~r69を取得する。
そして、特定部27は、第1の不適切データ群293のそれぞれのラベルを取得する(S232)。例えば、特定部27は、教師データDB21から、検体d60~d69のそれぞれに対応するラベルL60~L69を取得する。
続いて、特定部27は、第1の不適切データ群293のうち、第2の判定結果294とラベルとが一致しないデータを、第2の不適切データ群295として特定する(S233)。例えば、特定部27は、検体d60の第2の判定結果r60と、検体d60に付与されたラベルL60とを比較し、第2の判定結果r61とラベルL60とが一致すると判定したものとする。この場合、特定部27は、検体d60を第2の不適切データ群295に含めない。以降同様に、特定部27は、第2の判定結果r61~r69のそれぞれとラベルL61からL69のそれぞれとの比較を行う。ここでは、特定部27は、検体d61とd68とを第2の不適切データ群295に含めたものとする。
そして、出力部28は、第2の不適切データ群295を出力する(S234)。例えば、第2の不適切データ群295として、部分集合sb6に属する検体d61とd68が出力される。これにより、ユーザは、第1の不適切データ群293である部分集合sb6に属する検体の中でも、より不適切データの可能性が高いデータが検体d61とd68であると把握できる。そのため、第1の不適切データ群の全てを見直すことと比べて、見直しがより効率的である。
尚、ステップS231では、第1の学習グループ群に対応する学習済みモデルとして1つを用いていたが、これに限らず、第1の学習グループ群に対応する2以上の学習済みモデルを用いても構わない。その場合、第1の学習グループ群に属する各検体に対して、複数の学習済みモデルのそれぞれによる第2の判定結果により、第2の不適切データ群を特定できるため、より精度を向上できる。
続いて、不適切データの特定による運用モデルの精度を向上させる処理について説明する。図9は、本実施形態2にかかる不適切データ除外後の再学習処理の流れを示すフローチャートである。また、図10は、本実施形態2にかかる不適切データ除外後の再学習の概念を説明するための図である。以下の説明では図8の続きであるものとし、図9の説明中に適宜、図10を参照するものとする。
まず、学習部25は、ステップS233により特定された第2の不適切データ群295を取得する。そして、学習部25は、教師データ集合210から第2の不適切データ群295を除外する(S241)。例えば、学習部25は、教師データ集合210の中から第2の不適切データ群295に含まれる検体d61及びd68を除外して、教師データ集合210aとする。
そして、学習部25は、除外後の教師データ集合210aを教師データとして、所定のデータ判定モデルに対して学習を行い、新たな学習済みモデルmX0を生成する(S242)。そして、学習部25は、生成後の学習済みモデルmX0をモデル管理DB23に格納する(S243)。
ここで、学習済みモデルmX0は新たな運用モデルであり、不適切データが除外された教師データ集合210aを用いて学習されているため、当初用いられていた運用モデルである学習済みモデルm9と比べて判定の精度が高い。
以上のことから、本実施形態2では、教師データの範囲の異なる複数のデータ判定モデルによる第1の判定結果を基に、不適切データの存在を検出し、教師データ集合210の中で不適切データ群の存在範囲を絞り込むことができる。そのため、例えば、既に完成し運用されているデータ判定モデル(運用モデル)について、運用モデルの学習時に用いられた教師データ集合210の内、付与されているラベルに誤りがある教師データの存在を検出及び範囲の特定を効率的に行うことができる。
特に、データ判定モデルの学習が完了し運用段階に入った後に、データ判定モデルの判定精度に疑義が生じた際に、学習時に使用した教師データ集合の内不適切なものが含まれる範囲を限定できる。その理由は、教師データの内の一部のみを学習したデータ判定モデルを複数用意することにより、正常な教師データだけを学習したデータ判定モデルと不適切なデータを含む教師データを学習したデータ判定モデルの出力の差分を確認できるからである。
<実施形態3>
本実施形態3は、上述した実施形態2の変形例である。本実施形態3にかかる判定部は、各学習済みモデルに対して、教師データ集合の中で対応する学習グループに含まれない教師データを判定対象データとして入力して、それぞれの第1の判定結果を取得する。そして、特定部は、同一の判定対象データに対する、各学習済みモデルからの第1の判定結果とラベルとの比較結果から第2の不適切データ群を特定する。これにより、学習段階においても不適切データを効率的に特定できる。
尚、本実施形態3にかかる機械学習装置のその他の構成及び処理は、上述した実施形態2と同等であるため、図示及び詳細な説明を省略する。
図11及び図12は、本実施形態3にかかる学習段階の不適切データ検出の概念を説明するための図である。尚、図4の処理までは、実施形態2と同様であるものとする。例えば、図5のように教師データ集合210が複数の部分集合sb0~sb9に分割され、複数の学習グループg0~g9が生成され、各学習グループについて学習済みモデルm0~m9が生成済みであるものとする。
ここで、本実施形態3にかかる判定部26は、モデル管理DB23から学習済みモデルm0を取得し、学習済みモデルm0に対応する学習グループg0以外の教師データ群を特定し、教師データDB21から取得する。すなわち、判定部26は、学習グループg0に含まれない部分集合sb1からsb9の検体d10からd99を取得する。そして、判定部26は、学習済みモデルm0に対して検体d10からd99のそれぞれを入力し、第1の判定結果r0-10~r0-99を取得する。また、判定部26は、モデル管理DB23から学習済みモデルm1を取得し、学習グループg1に含まれない部分集合sb2からsb9の検体d20からd99を取得する。そして、判定部26は、学習済みモデルm1に対して検体d20からd99のそれぞれを入力し、第1の判定結果r1-20~r1-99を取得する。以降同様に、判定部26は、学習済みモデルm8に対して検体d90からd99のそれぞれを入力し、第1の判定結果r8-90~r8-99を取得する(S222a)。
その後、本実施形態3にかかる特定部27は、例えば、教師データDB21から検体d61に付与されたラベルL61を取得し、第1の判定結果r0-61、r1-61、r2-61、r3-61、r4-61、r5-61のそれぞれとラベルL61とを比較する。そして、特定部27は、比較の結果が所定数以上、不適切であることを示す場合に、対象の検体d61を第2の不適切データ群295aとして特定する(S225a)。
このように、本実施形態3では、運用段階ではなく、学習段階にて不適切なラベルが付与された教師データを検出することができる。そのため、運用モデルの精度向上を前倒しで、又は、運用と並行して実施できる。
<実施形態4>
本実施形態4は、上述した実施形態2又は3の変形例である。本実施形態4にかかるグループ生成部は、少なくとも他のグループには属さない部分集合が属するように複数の学習グループのそれぞれを生成する。これにより、不適切データの有無による学習済みモデルの判定結果の差がより顕著となり、より明確に第1の不適切データ群を特定可能となる。特に、学習段階での不適切データの検出が容易となる。
さらに、本実施形態4にかかるグループ生成部は、複数の学習グループに共通して属する部分集合が属する学習グループをさらに複数の学習グループに含めて生成するとよい。これにより、共通する部分集合からの不適切データの検出精度が向上できる。
尚、本実施形態4にかかる機械学習装置のその他の構成及び処理は、上述した実施形態2又は3と同等であるため、図示及び詳細な説明を省略する。
図13は、本実施形態4にかかる部分集合と学習グループと学習済みモデルの関係の概念を説明するための図である。尚、図4のステップS11の処理までは、実施形態2と同様であるものとする。例えば、図5のように教師データ集合210が複数の部分集合sb0~sb9に分割済みであるものとする。
ここで、本実施形態4にかかるグループ生成部24は、部分集合sb0を各学習グループg0aからg9aに共通して含める(S212a)。例えば、グループ生成部24は、部分集合sb0を各学習グループに共通の部分集合として定める。そして、グループ生成部24は、データ分割情報2301の中から部分集合sb2を選択し、部分集合sb0と選択した部分集合sb2とをまとめて学習グループg2aとする。つまり、グループ生成部24は、学習グループg2aには部分集合sb1を含めない。そして、グループ生成部24は、データ分割情報2301の中から部分集合sb3を選択し、部分集合sb0と選択した部分集合sb3とをまとめて学習グループg3aとする。以降同様に、グループ生成部24は、データ分割情報2301の中から部分集合sb9を選択し、部分集合sb0と選択した部分集合sb9とをまとめて学習グループg9aとする。また、グループ生成部24は、学習グループg0aからg9aの定義情報を学習グループ情報2302aとして生成し、モデル管理DB23に格納する。尚、グループ生成部24は、別途、教師データ集合210の全てを含めた学習グループを生成してもよい。
その後、本実施形態4にかかる学習部25は、ステップS213と同様に、所定のデータ判定モデルに対して、複数の学習グループg0a~g9aごとに学習し、複数の学習済みモデルm0a~m9aを生成する(S213a)。尚、学習部25は、別途、教師データ集合210の全てを教師データとして、所定のデータ判定モデルを学習した学習済みモデル(運用モデル)も生成するものとする。
この後、教師データ集合210以外の判定対象データにより、図6に示した不適切データ群の一次特定処理を行うものとする。このとき、学習済みモデルm0aからm9aの全て又は大半において第1の判定結果と正解ラベルとが異なっていた場合、各学習グループに共通する部分集合sb0に不適切データが含まれていた可能性が高い。一方、学習済みモデルm1aからm9aのいずれかの第1の判定結果と正解ラベルとが異なっていた場合、当該学習済みモデルの学習に用いられた学習グループに含まれる部分集合sb0以外の部分集合に不適切データが含まれていた可能性が高い。そのため、本実施形態4は、不適切データの特定効率が高いといえる。
<その他の実施形態>
尚、上述したグループ生成部による学習グループの生成の仕方、特に、部分集合の組合せ方は上述したものに限定されず、様々な組み合わせを採用して構わない。また、部分集合の分割数、学習グループの数、学習済みモデルの数、所定数nは、10に限定されず、2以上であればよい。ここで、nの値が小さくなるほど、不適切データが存在する可能性のある範囲は広くなるが、必要なリソースは小さくなる。一方、nの値が大きくなるほど、必要なリソースが大きくなるが、不適切データが存在する可能性のある範囲を絞り込むことができる。また、n個のデータ判定モデルを作成する場合、教師データも10分割ではなくn分割するとよい。
また、グループ生成部は、全部分集合のうち、異なる一つを除いたものを各学習グループとして生成してもいよい。例えば、第1の学習グループに部分集合sb0を除いた部分集合sb1からsb9を所属させ、第2の学習グループに部分集合sb1を除いた部分集合sb0及びsb2からsb9を所属させてもよい。そして、以降同様に、第10の学習グループに部分集合sb9を除いた部分集合sb0からsb8を所属させてもよい。この場合、第1から第10の学習グループごと学習された各学習済みモデルは、いずれも教師データ集合210の大半を用いて学習されているため、教師データの量としては運用モデルに近い。そのため、仮に、運用段階で運用モデルによる判定結果に疑義が生じた場合でも、本実施形態により不適切データ群を含む部分集合を特定できる。そして、特定された部分集合を含まず、それ以外の部分集合を全て含む学習グループが特定できる。つまり、特定された不適切データ群を除外した学習グループによる学習済みモデルが生成済みである。よって、全教師データにより学習済みの運用モデルに、当該不適切データ群を除外した学習グループによる学習済みモデルを置き換えて、速やかに運用を再開できる。
尚、上述の実施の形態では、ハードウェアの構成として説明したが、これに限定されるものではない。本開示は、任意の処理を、CPUにコンピュータプログラムを実行させることにより実現することも可能である。
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、DVD(Digital Versatile Disc)、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。また、本開示は、それぞれの実施の形態を適宜組み合わせて実施されてもよい。
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記A1)
データとラベルの組である複数の教師データである教師データ集合を記憶する記憶部と、
前記教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成するグループ生成部と、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを前記記憶部に格納する学習部と、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第1の判定結果を取得する判定部と、
前記第1の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第1の不適切データ群を特定する特定部と、
を備える機械学習装置。
(付記A2)
前記特定部は、
前記第1の判定結果のそれぞれと前記正解ラベルとを比較し、
前記複数の学習グループのうち、当該比較の結果が一致した前記学習済みモデルに対応する第1の学習グループ群と、当該比較の結果が一致しない前記学習済みモデルに対応する第2の学習グループ群とを特定し、
前記第1の学習グループ群と前記第2の学習グループ群との差分により、前記第1の不適切データ群を特定する
付記A1に記載の機械学習装置。
(付記A3)
前記判定部は、
前記第1の学習グループ群に対応する少なくとも1つの前記学習済みモデルに対して、前記第1の不適切データ群を入力して、第2の判定結果を取得し、
前記特定部は、
前記第1の不適切データ群のうち前記第2の判定結果と前記ラベルとが一致しない1以上のデータを第2の不適切データ群として特定し、
前記学習部は、
前記教師データ集合から前記第2の不適切データ群を除外した集合を前記教師データとして前記所定のデータ判定モデルに対して学習を行い、新たな学習済みモデルとして前記記憶部に格納する
付記A2に記載の機械学習装置。
(付記A4)
前記複数の学習グループは、前記教師データ集合の全てを含む全教師データグループを含み、
前記学習部は、
前記所定のデータ判定モデルに対して前記全教師データグループを前記教師データとして用いた学習により生成された前記学習済みモデルを運用モデルとして前記記憶部に格納し、
前記判定部は、
前記運用モデルに対して外部から取得した運用データを前記判定対象データとして入力する
付記A1乃至A3のいずれか1項に記載の機械学習装置。
(付記A5)
前記グループ生成部は、
前記教師データ集合から、互いにデータの重複がない、所定数である複数の部分集合に分割し、
前記複数の部分集合のそれぞれが少なくとも1以上のグループに属するように前記複数の学習グループを生成する
付記A1乃至A4のいずれか1項に記載の機械学習装置。
(付記A6)
前記グループ生成部は、
前記教師データ集合から、属するデータ数が均等になるように前記複数の部分集合を分割し、
前記特定部は、
前記複数の部分集合のいずれかを前記第1の不適切データ群として特定する
付記A5に記載の機械学習装置。
(付記A7)
前記グループ生成部は、
各学習グループにおける前記部分集合の所属数が前記所定数以内で異なるように、前記複数の学習グループを生成する
付記A5又はA6に記載の機械学習装置。
(付記A8)
前記グループ生成部は、
各学習グループにおける前記部分集合の所属数の昇順においてN-1番目(Nは2以上かつ前記所属数以下の自然数。)の学習グループに属する全ての部分集合と、前記複数の部分集合のうち当該N-1番目の学習グループに属さない部分集合の1つとが所属するようにN番目の学習グループを生成する
付記A5乃至A7のいずれか1項に記載の機械学習装置。
(付記A9)
前記特定部は、
前記第1の学習グループ群のうち前記所属数が最大の第1の学習グループと、前記第2の学習グループ群のうち前記所属数が最小の第2の学習グループとの差分を前記第1の不適切データ群として特定する
付記A2を引用する付記A8に記載の機械学習装置。
(付記A10)
前記グループ生成部は、
少なくとも他のグループには属さない部分集合が属するように前記複数の学習グループのそれぞれを生成する
付記A5に記載の機械学習装置。
(付記A11)
前記グループ生成部は、
前記複数の学習グループに共通して属する部分集合が属する学習グループをさらに前記複数の学習グループに含めて生成する
付記A10に記載の機械学習装置。
(付記B1)
コンピュータが、
データとラベルの組である複数の教師データである教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成し、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成し、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第1の判定結果を取得し、
前記第1の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第1の不適切データ群を特定する
機械学習方法。
(付記C1)
データとラベルの組である複数の教師データである教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成する処理と、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成する処理と、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第1の判定結果を取得する処理と、
前記第1の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第1の不適切データ群を特定する処理と、
をコンピュータに実行させる機械学習プログラム。
以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2019年2月1日に出願された日本出願特願2019-016650を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1 機械学習装置
11 記憶部
110 教師データ集合
111 教師データ
1111 データ
1112 ラベル
112 教師データ
12 グループ生成部
13 学習部
14 判定部
15 特定部
161 学習済みモデル
16n 学習済みモデル
2 機械学習装置
21 教師データDB
210 教師データ集合
210a 教師データ集合
211 教師データ
2111 ID
2112 検体
2113 ラベル
212 教師データ
22 テストデータDB
221 テストデータ
2211 ID
2212 検体
222 テストデータ
23 モデル管理DB
2301 データ分割情報
2302 学習グループ情報
231 学習済みモデル
23n 学習済みモデル
24 グループ生成部
25 学習部
26 判定部
27 特定部
28 出力部
291 第1の判定結果
292 比較の結果
293 第1の不適切データ群
294 第2の判定結果
295 第2の不適切データ群
295a 第2の不適切データ群
d0~d99 検体
L0~L99 ラベル
sb0~sb9 部分集合
g0~g9 学習グループ
g0a~g9a 学習グループ
m0~m9 学習済みモデル
dX テストデータの検体
LX 正解ラベル
mX0 学習済みモデル
r0~r99 判定結果
rX0~rX9 判定結果
r0-0~r0-99 判定結果
r1-0~r1-99 判定結果
r9-0~r9-99 判定結果

Claims (10)

  1. データとラベルの組である複数の教師データである教師データ集合を記憶する記憶手段と、
    前記教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成するグループ生成手段と、
    所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを前記記憶手段に格納する学習手段と、
    前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第1の判定結果を取得する判定手段と、
    前記第1の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第1の不適切データ群を特定する特定手段と、
    を備える機械学習装置。
  2. 前記特定手段は、
    前記第1の判定結果のそれぞれと前記正解ラベルとを比較し、
    前記複数の学習グループのうち、当該比較の結果が一致した前記学習済みモデルに対応する第1の学習グループ群と、当該比較の結果が一致しない前記学習済みモデルに対応する第2の学習グループ群とを特定し、
    前記第1の学習グループ群と前記第2の学習グループ群との差分により、前記第1の不適切データ群を特定する
    請求項1に記載の機械学習装置。
  3. 前記判定手段は、
    前記第1の学習グループ群に対応する少なくとも1つの前記学習済みモデルに対して、前記第1の不適切データ群を入力して、第2の判定結果を取得し、
    前記特定手段は、
    前記第1の不適切データ群のうち前記第2の判定結果と前記ラベルとが一致しない1以上のデータを第2の不適切データ群として特定し、
    前記学習手段は、
    前記教師データ集合から前記第2の不適切データ群を除外した集合を前記教師データとして前記所定のデータ判定モデルに対して学習を行い、新たな学習済みモデルとして前記記憶手段に格納する
    請求項2に記載の機械学習装置。
  4. 前記複数の学習グループは、前記教師データ集合の全てを含む全教師データグループを含み、
    前記学習手段は、
    前記所定のデータ判定モデルに対して前記全教師データグループを前記教師データとして用いた学習により生成された前記学習済みモデルを運用モデルとして前記記憶手段に格納し、
    前記判定手段は、
    前記運用モデルに対して外部から取得した運用データを前記判定対象データとして入力する
    請求項1乃至3のいずれか1項に記載の機械学習装置。
  5. 前記グループ生成手段は、
    前記教師データ集合から、互いにデータの重複がない、所定数である複数の部分集合に分割し、
    前記複数の部分集合のそれぞれが少なくとも1以上のグループに属するように前記複数の学習グループを生成する
    請求項1乃至4のいずれか1項に記載の機械学習装置。
  6. 前記グループ生成手段は、
    前記教師データ集合から、属するデータ数が均等になるように前記複数の部分集合分割し、
    前記特定手段は、
    前記複数の部分集合のいずれかを前記第1の不適切データ群として特定する
    請求項5に記載の機械学習装置。
  7. 前記グループ生成手段は、
    各学習グループにおける前記部分集合の所属数が前記所定数以内で異なるように、前記複数の学習グループを生成する
    請求項5又は6に記載の機械学習装置。
  8. 前記グループ生成手段は、
    各学習グループにおける前記部分集合の所属数の昇順においてN-1番目(Nは2以上かつ前記所属数以下の自然数。)の学習グループに属する全ての部分集合と、前記複数の部分集合のうち当該N-1番目の学習グループに属さない部分集合の1つとが所属するようにN番目の学習グループを生成する
    請求項5乃至7のいずれか1項に記載の機械学習装置。
  9. コンピュータが、
    データとラベルの組である複数の教師データである教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成し、
    所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成し、
    前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第1の判定結果を取得し、
    前記第1の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第1の不適切データ群を特定する
    機械学習方法。
  10. データとラベルの組である複数の教師データである教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成する処理と、
    所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成する処理と、
    前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第1の判定結果を取得する処理と、
    前記第1の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第1の不適切データ群を特定する処理と、
    をコンピュータに実行させる機械学習プログラム。
JP2020569508A 2019-02-01 2020-01-17 機械学習装置、方法及びプログラム Active JP7238907B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019016650 2019-02-01
JP2019016650 2019-02-01
PCT/JP2020/001470 WO2020158450A1 (ja) 2019-02-01 2020-01-17 機械学習装置、方法及びプログラムが格納された非一時的なコンピュータ可読媒体

Publications (2)

Publication Number Publication Date
JPWO2020158450A1 JPWO2020158450A1 (ja) 2021-11-11
JP7238907B2 true JP7238907B2 (ja) 2023-03-14

Family

ID=71840325

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020569508A Active JP7238907B2 (ja) 2019-02-01 2020-01-17 機械学習装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US20220108216A1 (ja)
JP (1) JP7238907B2 (ja)
WO (1) WO2020158450A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181928A (ja) 2003-12-24 2005-07-07 Fuji Xerox Co Ltd 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181928A (ja) 2003-12-24 2005-07-07 Fuji Xerox Co Ltd 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAKAMATSU, S et al.,"Reducing Wrong Labels in Distant Supervision for Relation Extraction",Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics [online],2012年,pp. 721-729,[Retrieved on 2020.02.07], <Retrieved from the Internet: URL:https://aclweb.org/anthology/P12-2076.pdf>

Also Published As

Publication number Publication date
JPWO2020158450A1 (ja) 2021-11-11
US20220108216A1 (en) 2022-04-07
WO2020158450A1 (ja) 2020-08-06

Similar Documents

Publication Publication Date Title
Diaz-Mejia et al. Evaluation of methods to assign cell type labels to cell clusters from single-cell RNA-sequencing data
CN109388675B (zh) 数据分析方法、装置、计算机设备及存储介质
US10262272B2 (en) Active machine learning
US10504035B2 (en) Reasoning classification based on feature pertubation
JP7395960B2 (ja) 予測モデル説明方法、予測モデル説明プログラム、予測モデル説明装置
Li et al. Automated analysis and reannotation of subcellular locations in confocal images from the human protein atlas
US11954202B2 (en) Deep learning based detection of malicious shell scripts
CN110929524A (zh) 数据筛选方法、装置、设备及计算机可读存储介质
CN108268373A (zh) 自动化测试用例管理方法、装置、设备及存储介质
US11410065B2 (en) Storage medium, model output method, and model output device
AU2017251771A1 (en) Statistical self learning archival system
Rahim et al. Software defect prediction with naïve Bayes classifier
US20210342707A1 (en) Data-driven techniques for model ensembles
WO2023280229A1 (zh) 图像处理方法、电子设备及存储介质
US11593700B1 (en) Network-accessible service for exploration of machine learning models and results
CN111582315A (zh) 样本数据处理方法、装置及电子设备
CN113128565B (zh) 面向预训练标注数据不可知的图像自动标注系统和装置
KR20200073822A (ko) 악성코드 분류 방법 및 그 장치
JP7238907B2 (ja) 機械学習装置、方法及びプログラム
CN111582313A (zh) 样本数据生成方法、装置及电子设备
CN111198943B (zh) 一种简历筛选方法、装置及终端设备
JP6356015B2 (ja) 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム
JP2018018197A (ja) ソースコード評価プログラム
CN112433952B (zh) 深度神经网络模型公平性测试方法、系统、设备及介质
US11514311B2 (en) Automated data slicing based on an artificial neural network

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210623

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230213

R151 Written notification of patent or utility model registration

Ref document number: 7238907

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151