JP7238907B2

JP7238907B2 - 機械学習装置、方法及びプログラム

Info

Publication number: JP7238907B2
Application number: JP2020569508A
Authority: JP
Inventors: 拓弥兼子
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-02-01
Filing date: 2020-01-17
Publication date: 2023-03-14
Anticipated expiration: 2040-01-17
Also published as: JPWO2020158450A1; US20220108216A1; WO2020158450A1

Description

本発明は、機械学習装置、方法及びプログラムに関し、特に、教師あり学習における機械学習装置、方法及びプログラムに関する。

近年、教師あり学習を含む機械学習技術が広く利用されるようになった。一般に、教師あり学習によって精度の高いデータ判定モデルを作成するには、適切な教師データを用いて学習させる必要がある。但し、教師データに付与されているラベルが誤っているなど、不適切な教師データが与えられている場合には、精度の高いデータ判定モデルを作成することは困難である。

そこで、例えば、特許文献１には、教師データから不適切なラベルが付与されているデータを取り除くための技術が開示されている。特許文献１では、一旦、全ての教師データを基にデータ判定モデルを作成した後、作成したデータ判定モデルを用いて教師データをテストデータとして判定を行う。そして、判定結果と予め付与されたラベルとが異なる教師データを取り除いた上で再度、データ判定モデルを作成する。また例えば、特許文献２には、データ判定モデルの精度への寄与が小さい教師データを削除する技術が開示されている。

特開２００５－１８１９２８号公報特開２００８－２１７２４２号公報

しかしながら、特許文献１及び２にかかる技術では、学習に用いた大量の教師データの中から不適切なラベルが付されたデータを特定する効率が不十分であるという問題点がある。その理由は、例えば、データ判定モデルの判定対象となるテストデータが、当該データ判定モデルを学習するために用いられた教師データであるため、そもそも判定結果とラベルとが異なる可能性がそれほど高くないことが想定されるためである。

本開示は、このような問題点を解決するためになされたものであり、教師データの中から不適切なラベルが付されたデータを効率的に特定するための機械学習装置、方法及びプログラムを提供することを目的とする。

本開示の第１の態様にかかる機械学習装置は、
データとラベルの組である複数の教師データである教師データ集合を記憶する記憶部と、
前記教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成するグループ生成部と、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを前記記憶部に格納する学習部と、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第１の判定結果を取得する判定部と、
前記第１の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第１の不適切データ群を特定する特定部と、
を備える。

本開示の第２の態様にかかる機械学習方法は、
コンピュータが、
データとラベルの組である複数の教師データである教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成し、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成し、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第１の判定結果を取得し、
前記第１の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第１の不適切データ群を特定する。

本開示の第３の態様にかかる機械学習プログラムは、
データとラベルの組である複数の教師データである教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成する処理と、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成する処理と、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第１の判定結果を取得する処理と、
前記第１の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第１の不適切データ群を特定する処理と、
をコンピュータに実行させる。

本開示により、教師データの中から不適切なラベルが付されたデータを効率的に特定するための機械学習装置、方法及びプログラムを提供することができる。

本実施形態１にかかる機械学習装置の全体構成を示すブロック図である。本実施形態１にかかる機械学習方法の処理の流れを示すフローチャートである。本実施形態２にかかる機械学習装置の構成を示すブロック図である。本実施形態２にかかる学習段階の処理の流れを示すフローチャートである。本実施形態２にかかる教師データ集合と学習グループと学習済みモデルの関係の概念を説明するための図である。本実施形態２にかかる不適切データ群の一次特定処理の流れを示すフローチャートである。本実施形態２にかかる不適切データ群の二次次特定処理の流れを示すフローチャートである。本実施形態２にかかる不適切データ群の特定の概念を説明するための図である。本実施形態２にかかる不適切データ除外後の再学習処理の流れを示すフローチャートである。本実施形態２にかかる不適切データ除外後の再学習の概念を説明するための図である。本実施形態３にかかる学習段階の不適切データ検出の概念を説明するための図である。本実施形態３にかかる学習段階の不適切データ検出の概念を説明するための図である。本実施形態４にかかる部分集合と学習グループと学習済みモデルの関係の概念を説明するための図である。

以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。

＜実施形態１＞
図１は、本実施形態１にかかる機械学習装置１の全体構成を示すブロック図である。機械学習装置１は、教師あり学習を実行して所定のモデルのパラメータを機械学習するための情報処理装置である。機械学習装置１は、記憶部１１と、グループ生成部１２と、学習部１３と、判定部１４と、特定部１５とを備える。

記憶部１１は、教師データ集合１１０を少なくとも記憶する記憶装置である。教師データ集合１１０は、複数の教師データ１１１、１１２、・・・の集合である。教師データ１１１は、データ１１１１と、データ１１１１の性質について予め判定（評価）されたラベル１１１２との組である。つまり、データ１１１１とラベル１１１２とは対応付けられている。また、教師データ１１２以降についても教師データ１１１と同様である。

記憶部１１は、学習済みモデル１６１～１６ｎ（ｎは２以上の自然数。）をさらに記憶する。学習済みモデル１６１～１６ｎのそれぞれは、同一のデータ判定モデルに対して異なる教師データによりパラメータが学習されたモデルである。そのため、学習済みモデル１６１～１６ｎのそれぞれは、少なくとも具体的なパラメータが異なる。ここで、データ判定モデルとは、入力データに対してパラメータ（重みづけ係数等）を用いて演算を行い、入力データに該当するラベルを判定（して出力）するものである。データ判定モデルは、プログラム、ライブラリ関数等で実現され、例えば、ニューラルネットワーク等であってもよい。

グループ生成部１２は、教師データ集合１１０から、複数の学習グループを生成する。ここで、複数の学習グループは、互いに、属するデータの少なくとも一部が異なるものである。つまり、各学習グループは、教師データ集合１１０の少なくとも一部が属する部分集合である。そして、学習グループ同士は、集合が異なる。但し、学習グループ同士で、部分集合の一部が共通してもよい。また、学習グループ同士が包含関係にあってもよい。但し、複数の学習グループに同一の集合はないものとする。

学習部１３は、所定のデータ判定モデルに対して、複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデル１６１～１６ｎを記憶部１１に格納する。すなわち、学習部１３は、複数の学習グループのうち特定の学習グループを教師データとして、データ判定モデルのパラメータの学習を行う。そして、学習部１３は、複数の学習グループのそれぞれについて、独立に学習を行う。そのため、学習部１３は、学習グループの数（ここではｎ個）の分の学習済みモデルを生成する。言い換えると、学習済みモデル１６１～１６ｎのそれぞれは、共通のデータ判定モデルについて、異なるデータ範囲の教師データによりそれぞれ学習されたモデルである。

尚、学習部１３による学習に用いるアルゴリズムは、教師あり学習に属するものであれば特に限定されない。アルゴリズムによっては、教師データ及びラベルのほか、パラメータや、データ判定モデルの基となる基準モデルの入力を必要とするものがある。但し、パラメータや基準モデルについては、人手で設定しても良いし、種々のチューニング手法を利用して自動で設定しても良い。

判定部１４は、複数の学習済みモデル１６１～１６ｎのそれぞれに対して、対応する学習グループに含まれない判定対象データを入力して、学習済みモデルの数の第１の判定結果を取得する。例えば、学習済みモデル１６１が学習グループＡに属するデータ群により学習されたものとする。この場合、判定部１４は、学習済みモデル１６１に対して、学習グループＡに属さないデータを判定対象データとする。そのため、判定対象データは、教師データ集合１１０に含まれないデータであるか、教師データ集合１１０に含まれるが、学習グループＡに属さないデータである。よって、判定対象データが教師データ集合１１０に含まれないデータである場合、各学習済みモデルに対して入力される判定対象データは共通のデータを用いることができる。または、判定対象データは、各学習済みモデルのそれぞれに対して異なるデータであってもよく、さらに、一部の学習済みモデルの間で共通のデータであってもよい。

特定部１５は、第１の判定結果と判定対象データにおける正解ラベルとに基づいて、教師データ集合１１０の中からラベルが不適切な可能性のある第１の不適切データ群を特定する。ここで、判定対象データにおける正解ラベルは、予め人間により、又は、信頼できる判定アルゴリズムにより判定されたラベルとし、判定対象データの性質の判定（評価）として適切なものとする。そして、機械学習装置１は、機械学習装置１の内部の記憶装置（不図示）又は外部から、判定対象データ及び正解ラベルを取得するものとする。また、特定部１５は、特定した第１の不適切データ群を記憶部１１に格納するか、機械学習装置１の外部へ出力してもよい。

図２は、本実施形態１にかかる機械学習方法の処理の流れを示すフローチャートである。まず、グループ生成部１２は、教師データ集合１１０から属するデータの少なくとも一部が異なる複数の学習グループを生成する（Ｓ１１）。次に、学習部１３は、所定のデータ判定モデルに対して複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成する（Ｓ１２）。尚、このとき学習部１３は、生成した学習済みモデル１６１～１６ｎを記憶部１１に格納してもよい。

そして、判定部１４は、複数の学習済みモデルのそれぞれに対して、対応する学習グループに含まれない判定対象データを入力して、学習済みモデルの数の第１の判定結果を取得する（Ｓ１３）。その後、特定部１５は、第１の判定結果と判定対象データにおける正解ラベルとに基づいて、教師データ集合１１０の中からラベルが不適切な可能性のある第１の不適切データ群を特定する（Ｓ１４）。

このように、本実施形態１では、教師データ集合１１０から、異なるデータ範囲の複数の学習グループを生成するものである。そして、同一のデータ判定モデルに対して各学習グループごとに学習を行い、異なる学習結果（パラメータ）に基づく学習済みモデルを生成する。その上で、各学習済みモデルに対して、学習に用いられなかったデータを判定対象データとして入力して第１の判定結果を取得する。

ここで、学習グループ内の各教師データに正確、つまり、適切なラベルが付与されていれば、当該学習グループを用いて学習された学習済みモデルは、判定対象データに対して「適切な」判定結果（ラベル）を出力する可能性が高いといえる。一方、学習グループ内に不正確又は不適切なラベルが付与された教師データが含まれていた場合、当該学習グループを用いて学習された学習済みモデルは、判定対象データに対して「不適切な」判定結果を出力する可能性が高いといえる。そこで、本実施形態１では、例えば、第１の判定結果と正解ラベルとが一致しない場合には、当該学習済みモデルの学習に用いられた学習グループ内に、不適切なラベルが付された教師データが含まれている可能性が高いとみなす。この場合、特定部１５は、当該学習グループ内の少なくとも一部のデータ群を第１の不適切データ群として特定する。そのため、本実施形態１では、教師データ集合１１０の全データのラベルを人手で精査し直す必要がなく、教師データの中から不適切なラベルが付されたデータを効率的に特定することができる。

尚、機械学習装置１は、図示しない構成としてプロセッサ、メモリ及び記憶装置を備えるものである。また、当該記憶装置には、本実施形態にかかる機械学習方法の処理が実装されたコンピュータプログラムが記憶されている。そして、当該プロセッサは、記憶装置からコンピュータプログラムを前記メモリへ読み込み、当該コンピュータプログラムを実行する。これにより、前記プロセッサは、グループ生成部１２、学習部１３、判定部１４及び特定部１５の機能を実現する。

または、グループ生成部１２、学習部１３、判定部１４及び特定部１５は、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。また、プロセッサとして、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（field-programmable gate array）等を用いることができる。

また、機械学習装置１の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。また、機械学習装置１の機能がＳａａＳ（Software as a Service）形式で提供されてもよい。

＜実施形態２＞
ここで、本実施形態が解決しようとする課題について詳述する。まず、教師あり学習を用いて、判定精度の高いデータ判定モデルを作成するための様々な提案がなされている。その一分野として、用意された教師データを一定の条件で削減することにより、すべての教師データを使用する場合より高精度なデータ判定モデルを作成しようとする試みがある。一例として、教師データに対するラベル付けは一般的に人手で行われるため、本来付与されるべきものとは異なるラベルが付与されていることがある。そのため、付与されているラベルに誤りがある教師データ（以降、不適切教師データと呼ぶ。）を取り除いた上でデータ判定モデルのパラメータを学習することで、より精度の高いデータ判定モデルを生成することができる。

しかし、このような技術では、削減対象とする教師データを選択する根拠となる情報が、学習に用いた教師データ自体となっている。したがって、「その他の教師データの傾向からは確からしいラベルが付与されているが、実態としては誤ったラベルが付与されている教師データ」を検出できる可能性は低い。例えば、特許文献１においても、学習に用いた教師データを、作成したデータ判定モデルを用いて判定しているが、そもそもこの教師データを基に作成したデータ判定モデルである。そのため、特許文献１では、ラベルと判定結果とが異なる可能性はそれほど高くないと想定される。また、大量の教師データの中から、これらを用いて学習した唯一のデータ判定モデルを用いて不適切教師データを特定しようとするため、効率が悪い。

また、完成済み（学習済み）のデータ判定モデルについて、学習時に使用した教師データに付与されているラベルに誤りがある可能性が出てきた場合、通常、すべての教師データ及びラベルを確認する必要が生じる。データ判定モデルが教師データに対して十分に学習されている場合、そのデータ判定モデルを用いて教師データを判定しても、当初付与したラベルのとおりの判定結果が出力される。そのため、ラベルの正当性を確認するために用いることはできない。したがって、教師データとラベル１つ１つを確認する必要があり、大きなコストがかかる。

また、用意された教師データの全てを基にデータ判定モデルを作成する「バッチ学習」に対して、教師データを１つずつ学習しながらデータ判定モデルを更新していく「オンライン学習」と呼ばれる技術が存在する。

オンライン学習は、新たに学習する教師データが正しく判定されるようデータ判定モデルを更新するのが特徴であり、新しい教師データほどモデルに強い影響を与える。そのため、環境変化などにより、古い教師データが陳腐化しやすいケースでは有効である。一方で、環境変化による影響が小さい場合や、古い教師データの学習結果もデータ判定モデルに反映させたいようなケースにおいては有効ではない。

そこで、本実施形態２は、上述した実施形態１の具体的な一実施例であり、上述した課題の少なくとも一部を解決するものについて以下で説明する。

図３は、本実施形態２にかかる機械学習装置２の構成を示すブロック図である。機械学習装置２は、上述した機械学習装置１の一具体例である。機械学習装置２は、教師データＤＢ（ＤａｔａＢａｓｅ）２１と、テストデータＤＢ２２と、モデル管理ＤＢ２３と、グループ生成部２４と、学習部２５と、判定部２６と、特定部２７と、出力部２８とを備える。

教師データＤＢ２１は、教師データ集合２１０を記憶及び管理するデータベースである。教師データ集合２１０は、上述した教師データ集合１１０の一具体例である。教師データ集合２１０は、教師データ２１１、２１２、・・・を含む。教師データ２１１は、上述した教師データ１１１の一具体例であり、ＩＤ２１１１と、検体２１１２と、ラベル２１１３との組であり、これらが対応付けられている。ＩＤ２１１１は、検体２１１２を識別するための情報である。検体２１１２は、上述したデータ１１１１の一具体例である。検体２１１２は、所定のデータ判定モデルの学習対象のデータであり、例えば、任意のファイル又は当該ファイルから抽出された特徴量の集合であってもよい。ラベル２１１３は、検体２１１２の性質について予め判定された情報である。ラベル２１１３は、例えば、検体２１１２が正常又は異常を示す情報や、複数段階の度合いを示す情報であってもよい。また、教師データ２１２以降についても教師データ２１１と同様である。

テストデータＤＢ２２は、学習済みモデルにおける判定対象データの一具体例であるテストデータ２２１、２２２、・・・を記憶及び管理するデータベースである。テストデータ２２１は、ＩＤ２２１１と検体２２１２との組であり、これらが対応付けられている。ＩＤ２２１１は、検体２２１２を識別するための情報である。検体２２１２は、上述した検体２１１２と同等の情報であり、異なる内容のデータである。検体２２１２は、例えば、学習済みモデルを用いて運用中に取得された運用データであるものとする。また、テストデータ２２２以降についてもテストデータ２２１と同様である。

モデル管理ＤＢ２３は、データ判定モデルに関する情報を記憶及び管理するデータベースである。モデル管理ＤＢ２３は、データ分割情報２３０１、学習グループ情報２３０２、学習済みモデル２３１～２３ｎを記憶する。データ分割情報２３０１は、教師データ集合２１０を分割した際の複数の部分集合の定義情報である。学習グループ情報２３０２は、生成された複数の学習グループの定義情報である。学習済みモデル２３１～２３ｎは、上述した学習済みモデル１６１～１６ｎの一具体例である。

尚、教師データＤＢ２１、テストデータＤＢ２２及びモデル管理ＤＢ２３は、図示しない記憶装置により実現される。または、教師データＤＢ２１、テストデータＤＢ２２及びモデル管理ＤＢ２３のいずれか又は全ては、機械学習装置２の外部の記憶装置により実現したものであってもよい。または、教師データＤＢ２１、テストデータＤＢ２２及びモデル管理ＤＢ２３のいずれか又は全ては、当該外部から取得された情報が内部のメモリ等に一時的に記憶された状態を指すものであってもよい。

グループ生成部２４は、上述したグループ生成部１２の一具体例である。特に、本実施形態２にかかるグループ生成部２４は、教師データ集合２１０から複数の部分集合に分割し、前記複数の部分集合のそれぞれが少なくとも１以上のグループに属するように前記複数の学習グループを生成する。ここで、複数の部分集合は、互いにデータの重複がなく、所定数（ここでは、ｎ）に分割されるものとする。これにより、学習対象の教師データ群（学習グループ）は、適宜、部分集合を組み合わせたものとなる。そのため、特定の検体が複数の学習グループに属することになり、異なる複数の学習済みモデルの学習に用いられることになる。よって、仮に、当該特定の検体に付与されたラベルが不適切であった場合、複数の学習済みモデルで判定結果がラベルと異なる可能性があり、不適切データの検出精度が向上する。また、教師データ集合２１０を重複なく複数の部分集合に分割しておくことで、同一の判定対象データに対する判定結果が異なる学習済みモデル間、つまり、学習グループ間の差異が容易に特定でき、ひいては不適切データを効率的に特定できる。

さらに、グループ生成部２４は、教師データ集合２１０から、属するデータ数が均等になるように複数の部分集合へ分割するとよい。これによって、学習グループ間の差異となる部分集合の単位が均一となるため、不適切データ群の部分集合が特定できれば、その中から実際の不適切データを特定する時間が平滑化できる。

さらに、グループ生成部２４は、各学習グループにおける部分集合の所属数が、所定数（ここでは、ｎ）以内で異なるように、複数の学習グループを生成することが望ましい。例えば、所定数ｎ＝１０の場合、１０個の部分集合と学習グループが生成され、その際、各学習グループにおける部分集合の所属数は、１から１０まで１ずつ異なることとなる。これにより、さらに不適切データを特定する時間が平滑化できる。

例えば、グループ生成部２４は、各学習グループにおける部分集合の所属数の昇順において隣接する学習グループに属する部分集合を次のようにするとよい。まず、Ｎは２以上かつ所属数以下の自然数とする。この場合、グループ生成部２４は、分割された所定数の部分集合の中からＮ－１個の部分集合を選択し、Ｎ－１番目の学習グループを生成する。そして、グループ生成部２４は、Ｎ－１番目の学習グループに属する全ての部分集合と、複数の部分集合のうち当該Ｎ－１番目の学習グループに属さない部分集合の１つとが所属するようにするＮ番目の学習グループを生成するものとする。これにより、学習グループを部分集合の所属数で昇順で見た場合に、部分集合が累算されたように各学習グループが生成される。そのため、所属数で隣接する学習グループ間の部分集合が一意に定まり、不適切データの特定効率がさらに向上する。

学習部２５は、上述した学習部１３の一具体例である。ここで、本実施形態２にかかる複数の学習グループは、教師データ集合２１０の全てを含む全教師データグループを含むものとする。そして、学習部２５は、所定のデータ判定モデルに対して全教師データグループを教師データとして用いた学習により生成された学習済みモデルを運用モデルとしてモデル管理ＤＢ２３に格納する。

判定部２６は、上述した判定部１４の一具体例である。本実施形態２にかかる判定部２６は、テストデータＤＢ２２からテストデータ２２１等のうち１以上を読み出し、判定対象データとする。また、判定部２６は、モデル管理ＤＢ２３から学習済みモデル２３１～２３ｎを読み出し、判定対象データを各学習済みモデル２３１等のそれぞれに入力する。そして、判定部２６は、各学習済みモデル２３１等から第１の判定結果を取得する。

また、判定部２６は、前記運用モデルに対して外部から取得した運用データを判定対象データとして入力する。例えば、機械学習装置２は、外部から取得した運用データを検体２２１２とし、ＩＤ２２１１を付与してテストデータ２２１としてテストデータＤＢ２２に格納する。そして、判定部２６は、テストデータＤＢ２２から検体２２１２を読み出して、運用モデルに入力することにより、第１の判定結果を取得する。例えば、運用段階で運用中に取得された実データの判定結果に疑義が生じた場合に、教師データ集合の検証を行い、特定された不適切データ群に基づいて、教師データ集合の質を向上させて、データ判定モデルの精度も向上させることができる。

特定部２７は、上述した特定部１５の一具体例である。本実施形態２にかかる特定部２７は、各学習済みモデル２３１等から取得された第１の判定結果のそれぞれと正解ラベルとを比較する。そして、特定部２７は、複数の学習グループのうち、当該比較の結果が一致した学習済みモデルに対応する第１の学習グループ群と、当該比較の結果が一致しない学習済みモデルに対応する第２の学習グループ群とを特定する。その後、特定部２７は、第１の学習グループ群と第２の学習グループ群との差分により、第１の不適切データ群を特定する。これにより、教師データ集合２１０の全てではなく、学習グループ群の間の教師データの差分に絞り込んだ上で、その中から不適切データか否かを確認できるため、効率的に不適切データを特定できる。

さらに、判定部２６は、第１の学習グループ群に対応する少なくとも１つの学習済みモデルに対して、第１の不適切データ群を入力して、第２の判定結果を取得するとよい。この場合、特定部２７は、第１の不適切データ群のうち第２の判定結果とラベルとが一致しない１以上のデータを第２の不適切データ群として特定する。そして、学習部２５は、教師データ集合２１０から第２の不適切データ群を除外した集合を教師データとして、所定のデータ判定モデルに対して学習を行い、新たな学習済みモデルとしてモデル管理ＤＢ２３に格納する。これにより、運用モデルの精度を向上させることができる。

尚、特定部２７は、上述した通り複数の部分集合に属するデータ数が均等である場合には、第１の判定結果に基づいて、複数の部分集合のいずれかを第１の不適切データ群として特定するとよい。これにより、第１の不適切データ群を効率的に絞り込むことができる。

また、特定部２７は、前記第１の学習グループ群のうち所属数が最大の第１の学習グループと、前記第２の学習グループ群のうち所属数が最小の第２の学習グループとの差分を第１の不適切データ群として特定すると良い。これにより、第１の不適切データ群をより厳密かつ正確に絞り込むことできる。

出力部２８は、判定部２６により取得された第１及び第２の判定結果、及び、特定部２７により特定された第１及び第２の不適切データ群の少なくとも一部である出力データを機械学習装置２の外部に出力する。例えば、出力部２８は、機械学習装置２が内蔵する、又は、機械学習装置２に接続された表示装置に前記出力データを表示する。または、出力部２８は、ネットワークを介して前記出力データを所定の宛先に送信してもよい。または、出力部２８は、機械学習装置２内の記憶装置に第１の前記出力データを格納してもよい。

図４は、本実施形態２にかかる学習段階の処理の流れを示すフローチャートである。また、図５は、本実施形態２にかかる教師データ集合と学習グループと学習済みモデルの関係の概念を説明するための図である。ここでは、教師データ集合２１０は、検体ｄ０とラベルＬ０の組、検体ｄ１とラベルＬ１の組、・・・検体ｄ９９とラベルＬ９９の組を含むものとする。また、以下の説明ではｎ＝１０であるものとし、図４の説明中に適宜、図５を参照するものとする。但し、ｎはこれに限定されない。

まず、グループ生成部２４は、教師データ集合２１０から複数の部分集合に分割する（Ｓ２１１）。例えば、グループ生成部２４は、教師データＤＢ２１から教師データ集合２１０を読み出し、教師データ集合２１０内の教師データを１０個の部分集合ｓｂ０～ｓｂ９に分割する。この場合、グループ生成部２４は、部分集合ｓｂ０～ｓｂ９のそれぞれに属するデータの集合の定義情報をデータ分割情報２３０１として生成し、モデル管理ＤＢ２３に格納する。例えば、部分集合ｓｂ０には検体ｄ０からｄ９の１０個のデータが所属し、部分集合ｓｂ１には検体ｄ１０からｄ１９の１０個のデータが所属し、以下同様に、部分集合ｓｂ９には検体ｄ９０からｄ９９の１０個のデータが所属する。尚、各部分集合内のデータ数は均等でなくても構わない。

次に、グループ生成部２４は、複数の部分集合から複数の学習グループを生成する（Ｓ２１２）。具体的には、グループ生成部２４は、モデル管理ＤＢ２３からデータ分割情報２３０１を読み出し、複数の部分集合のうち未選択の部分集合を１つ選択し、当該選択した部分集合を新規な学習グループとする。例えば、グループ生成部２４は、データ分割情報２３０１の中から部分集合ｓｂ０を選択し、学習グループｇ０とする。次に、グループ生成部２４は、データ分割情報２３０１の中から未選択の部分集合、つまり、部分集合ｓｂ０以外である部分集合ｓｂ１を選択し、学習グループｇ０に属する部分集合ｓｂ０と、選択した部分集合ｓｂ１とをまとめて学習グループｇ１とする。続いて、グループ生成部２４は、データ分割情報２３０１の中から未選択の部分集合として例えば、部分集合ｓｂ２を選択し、学習グループｇ１に属する部分集合ｓｂ０及びｓｂ１と、選択した部分集合ｓｂ２とをまとめて学習グループｇ２とする。以後同様に、グループ生成部２４は、学習グループｇ３からｇ８を生成する。そして、グループ生成部２４は、データ分割情報２３０１の中から未選択の部分集合として残りの部分集合ｓｂ９を選択し、学習グループｇ８に属する部分集合ｓｂ０からｓｂ８と、選択した部分集合ｓｂ９とをまとめて学習グループｇ９とする。ここで、学習グループｇ９は、上述した全教師データグループである。最後に、グループ生成部２４は、学習グループｇ０からｇ９の定義情報を学習グループ情報２３０２として生成し、モデル管理ＤＢ２３に格納する。尚、グループ生成部２４は、都度、学習グループの定義情報を学習グループ情報２３０２に追加してもよい。また、上記では一例として、グループ生成部２４は、部分集合の所属数の昇順で学習グループを生成したが、降順でもよい。または、グループ生成部２４は、他のアルゴリズムにより複数の学習グループを生成してもよい。

続いて、学習部２５は、所定のデータ判定モデルに対して、複数の学習グループごとに学習し、複数の学習済みモデルを生成する（Ｓ２１３）。例えば、学習部２５は、モデル管理ＤＢ２３から学習グループ情報２３０２を読み出し、学習グループ情報２３０２の中から学習グループｇ０を選択し、学習グループｇ０に該当する教師データ群（検体ｄ０とラベルＬ０の組～検体ｄ９とラベルＬ９の組）を教師データ集合２１０の中から取得する。そして、学習部２５は、検体ｄ０とラベルＬ０の組～検体ｄ９とラベルＬ９の組を教師データとして所定のデータモデルのパラメータを学習し、学習済みモデルｍ０を生成する。つまり、学習済みモデルｍ０は、学習グループｇ０により学習されたデータ判定モデルであり、学習済みモデルｍ０と学習グループｇ０とが対応することになる。同様に、学習部２５は、学習グループｇ１に定義された検体ｄ１０とラベルＬ１０の組～検体ｄ１９とラベルＬ１９の組を教師データとして上記と同様のデータモデルのパラメータを学習し、学習済みモデルｍ１を生成する。以後同様に、学習部２５は、学習グループｇ９に定義された検体ｄ９０とラベルＬ９０の組～検体ｄ９９とラベルＬ９９の組を教師データとして上記と同様のデータモデルのパラメータを学習し、学習済みモデルｍ９を生成する。ここで、学習済みモデルｍ９は、上述した運用モデルである。つまり、学習済みモデルｍ９は、教師データ集合２１０の全てを用いて学習されたデータ判定モデルである。

そして、学習部２５は、生成した学習済みモデルｍ０からｍ９を学習済みモデル２３１から２３ｎとしてモデル管理ＤＢ２３に格納する（Ｓ２１４）。この後、ユーザは、モデル管理ＤＢ２３に格納された学習済みモデルｍ９（２３ｎ）を運用段階で使用し、運用データの判定に用いる。

図６は、本実施形態２にかかる不適切データ群の一次特定処理の流れを示すフローチャートである。また、図８は、本実施形態２にかかる不適切データ群の特定の概念を説明するための図である。以下の説明では図５の続きであるものとし、図６の説明中に適宜、図８を参照するものとする。

また、ここでは例えば、運用段階の実データに対する運用モデルによる判定結果が、ユーザにとって不適切と思われた場合に、当該実データをテストデータ（判定対象データ）の検体ｄＸとするものとする。そして、検体ｄＸの評価として、ユーザにとって適切な正解ラベルをＬＸとする。尚、実データは１以上であればよい。

まず、判定部２６は、テストデータの検体を取得する（Ｓ２２１）。例えば、判定部２６は、テストデータＤＢ２２からテストデータ２２１の検体ｄＸを読み出す。または、判定部２６は、外部から検体ｄＸを受信してもよい。

次に、判定部２６は、学習済みモデル２３１～２３ｎのそれぞれに対して、テストデータの検体ｄＸを入力し、モデル数（ｎ）分の第１の判定結果２９１を取得する（Ｓ２２２）。例えば、判定部２６は、モデル管理ＤＢ２３から学習済みモデルｍ０を読み出し、学習済みモデルｍ０に検体ｄＸを入力する。そして、判定部２６は、学習済みモデルｍ０においてテストデータの検体ｄＸについて判定された結果である判定結果ｒＸ０を取得する。同様に、判定部２６は、学習済みモデルｍ１からｍ９のそれぞれに対して、同一のテストデータの検体ｄＸを入力し、各学習済みモデルから第１の判定結果ｒＸ１からｒＸ９を取得する。

そして、特定部２７は、テストデータの正解ラベルを取得する（Ｓ２２３）。例えば、特定部２７は、外部からテストデータの検体ｄＸにおける正解ラベルＬＸを取得する。

続いて、特定部２７は、第１の判定結果２９１と正解ラベルＬＸとの比較結果に応じて、各学習グループを第１の学習グループ群と第２の学習グループ群とに分類する（Ｓ２２４）。例えば、特定部２７は、第１の判定結果ｒＸ０からｒＸ９のそれぞれと正解ラベルＬＸとを比較し、それぞれの比較の結果２９２を得る。例えば、第１の判定結果と正解ラベルＬＸとが一致する場合、比較結果は「〇」、第１の判定結果と正解ラベルＬＸとが一致しない場合、比較結果は「×」とする。但し、比較結果は、「〇」か「×」の二値に限定されず、複数段階のレベル値やスコア等であってもよい。

そして、特定部２７は、比較結果が「〇」である学習済みモデルに対応する学習グループを第１の学習グループ群に分類し、比較結果が「×」である学習済みモデルに対応する学習グループを第２の学習グループ群に分類する。図８の例では、学習グループｇ０からｇ５が第１の学習グループ群に分類され、学習グループｇ６からｇ９が第２の学習グループ群に分類されたものとする。これは、学習グループのデータ範囲が隣接する学習グループ間で部分集合の単位で異なるためである。また、不適切データが含まれる部分集合を含む学習グループを用いて学習された場合、当該学習済みモデルによる判定結果は、正解ラベルと異なる可能性が高いことに注目しているためである。

続いて、特定部２７は、第１の学習グループ群と第２の学習グループ群との差分により、第１の不適切データ群を特定する（Ｓ２２５）。例えば、特定部２７は、第１の学習グループ群のうち部分集合の所属数が最大のものを第１の学習グループｇ５とする。また、特定部２７は、第２の学習グループ群のうち部分集合の所属数が最小のものを第２の学習グループｇ６とする。そして、特定部２７は、第１の学習グループｇ５と第２の学習グループｇ６との差分である部分集合ｓｂ６（検体ｄ６０～ｄ６９）を第１の不適切データ群２９３として特定する。

ここで、不適切なラベルが付与された教師データ（不適切データ）が存在しない範囲でなるべく多くの教師データを学習しているデータ判定モデルが最も判定精度が高いといえる。言い換えると、不適切データを含む範囲で最も少ない教師データしか学習していないデータ判定モデルが最も判定精度が低いといえる。例えば、学習グループｇ６に不適切なデータが含まれている場合、学習済みモデルｍ５は正しい判定結果を出力し、学習済みモデルｍ６は誤った判定結果を出力する可能性が高い。このように、学習済みモデルｍ５が正しい判定結果を、学習済みモデルｍ６が誤った判定結果を出力した場合、教師データ集合２１０に含まれる教師データのいずれかが不適切であると判断することができる。

その後、出力部２８は、特定された第１の不適切データ群２９３を出力する（Ｓ２２６）。例えば、第１の不適切データ群２９３として、部分集合ｓｂ６に属する検体ｄ６０～ｄ６９が出力される。これにより、ユーザは、教師データ集合２１０の中から検体ｄ６０～ｄ６９が不適切データである可能性が高いと把握することができ、この中から個別にラベルとの整合を見直すことができる。つまり、ユーザは教師データ集合２１０の全てを見直す必要がなく、絞り込まれた教師データ群を対象とするため、見直しが効率的である。

ここで、第１の不適切データ群も全てのラベルが不適切とは限らない。そこで、機械学習装置２は引き続き、第１の不適切データ群の中からより具体的に不適切データを絞り込む場合について説明する。

図７は、本実施形態２にかかる不適切データ群の二次特定処理の流れを示すフローチャートである。以下の説明では図６の続きであるものとし、図７の説明中に適宜、図８を参照するものとする。

まず、判定部２６は、ステップＳ２２４により分類された第１の学習グループ群と、ステップＳ２２５により特定された第１の不適切データ群２９３を取得する。そして、判定部２６は、第１の学習グループ群に対応する学習済みモデルに、第１の不適切データ群２９３を入力し、第２の判定結果を取得する（Ｓ２３１）。例えば、判定部２６は、第１の学習グループ群のうち学習グループｇ５に対応する学習済みモデルｍ５を特定する。そして、判定部２６は、学習済みモデルｍ５に対して部分集合ｓｂ６に属する検体ｄ６０～ｄ６９のそれぞれを入力し、第２の判定結果２９４を取得する。すなわち、判定部２６は、学習済みモデルｍ５に対して検体ｄ６０を入力し、第２の判定結果ｒ６０を取得する。以降同様に、判定部２６は、学習済みモデルｍ５に対して検体ｄ６１～ｄ６９のそれぞれを入力し、第２の判定結果ｒ６１～ｒ６９を取得する。

そして、特定部２７は、第１の不適切データ群２９３のそれぞれのラベルを取得する（Ｓ２３２）。例えば、特定部２７は、教師データＤＢ２１から、検体ｄ６０～ｄ６９のそれぞれに対応するラベルＬ６０～Ｌ６９を取得する。

続いて、特定部２７は、第１の不適切データ群２９３のうち、第２の判定結果２９４とラベルとが一致しないデータを、第２の不適切データ群２９５として特定する（Ｓ２３３）。例えば、特定部２７は、検体ｄ６０の第２の判定結果ｒ６０と、検体ｄ６０に付与されたラベルＬ６０とを比較し、第２の判定結果ｒ６１とラベルＬ６０とが一致すると判定したものとする。この場合、特定部２７は、検体ｄ６０を第２の不適切データ群２９５に含めない。以降同様に、特定部２７は、第２の判定結果ｒ６１～ｒ６９のそれぞれとラベルＬ６１からＬ６９のそれぞれとの比較を行う。ここでは、特定部２７は、検体ｄ６１とｄ６８とを第２の不適切データ群２９５に含めたものとする。

そして、出力部２８は、第２の不適切データ群２９５を出力する（Ｓ２３４）。例えば、第２の不適切データ群２９５として、部分集合ｓｂ６に属する検体ｄ６１とｄ６８が出力される。これにより、ユーザは、第１の不適切データ群２９３である部分集合ｓｂ６に属する検体の中でも、より不適切データの可能性が高いデータが検体ｄ６１とｄ６８であると把握できる。そのため、第１の不適切データ群の全てを見直すことと比べて、見直しがより効率的である。

尚、ステップＳ２３１では、第１の学習グループ群に対応する学習済みモデルとして１つを用いていたが、これに限らず、第１の学習グループ群に対応する２以上の学習済みモデルを用いても構わない。その場合、第１の学習グループ群に属する各検体に対して、複数の学習済みモデルのそれぞれによる第２の判定結果により、第２の不適切データ群を特定できるため、より精度を向上できる。

続いて、不適切データの特定による運用モデルの精度を向上させる処理について説明する。図９は、本実施形態２にかかる不適切データ除外後の再学習処理の流れを示すフローチャートである。また、図１０は、本実施形態２にかかる不適切データ除外後の再学習の概念を説明するための図である。以下の説明では図８の続きであるものとし、図９の説明中に適宜、図１０を参照するものとする。

まず、学習部２５は、ステップＳ２３３により特定された第２の不適切データ群２９５を取得する。そして、学習部２５は、教師データ集合２１０から第２の不適切データ群２９５を除外する（Ｓ２４１）。例えば、学習部２５は、教師データ集合２１０の中から第２の不適切データ群２９５に含まれる検体ｄ６１及びｄ６８を除外して、教師データ集合２１０ａとする。

そして、学習部２５は、除外後の教師データ集合２１０ａを教師データとして、所定のデータ判定モデルに対して学習を行い、新たな学習済みモデルｍＸ０を生成する（Ｓ２４２）。そして、学習部２５は、生成後の学習済みモデルｍＸ０をモデル管理ＤＢ２３に格納する（Ｓ２４３）。

ここで、学習済みモデルｍＸ０は新たな運用モデルであり、不適切データが除外された教師データ集合２１０ａを用いて学習されているため、当初用いられていた運用モデルである学習済みモデルｍ９と比べて判定の精度が高い。

以上のことから、本実施形態２では、教師データの範囲の異なる複数のデータ判定モデルによる第１の判定結果を基に、不適切データの存在を検出し、教師データ集合２１０の中で不適切データ群の存在範囲を絞り込むことができる。そのため、例えば、既に完成し運用されているデータ判定モデル（運用モデル）について、運用モデルの学習時に用いられた教師データ集合２１０の内、付与されているラベルに誤りがある教師データの存在を検出及び範囲の特定を効率的に行うことができる。

特に、データ判定モデルの学習が完了し運用段階に入った後に、データ判定モデルの判定精度に疑義が生じた際に、学習時に使用した教師データ集合の内不適切なものが含まれる範囲を限定できる。その理由は、教師データの内の一部のみを学習したデータ判定モデルを複数用意することにより、正常な教師データだけを学習したデータ判定モデルと不適切なデータを含む教師データを学習したデータ判定モデルの出力の差分を確認できるからである。

＜実施形態３＞
本実施形態３は、上述した実施形態２の変形例である。本実施形態３にかかる判定部は、各学習済みモデルに対して、教師データ集合の中で対応する学習グループに含まれない教師データを判定対象データとして入力して、それぞれの第１の判定結果を取得する。そして、特定部は、同一の判定対象データに対する、各学習済みモデルからの第１の判定結果とラベルとの比較結果から第２の不適切データ群を特定する。これにより、学習段階においても不適切データを効率的に特定できる。

尚、本実施形態３にかかる機械学習装置のその他の構成及び処理は、上述した実施形態２と同等であるため、図示及び詳細な説明を省略する。

図１１及び図１２は、本実施形態３にかかる学習段階の不適切データ検出の概念を説明するための図である。尚、図４の処理までは、実施形態２と同様であるものとする。例えば、図５のように教師データ集合２１０が複数の部分集合ｓｂ０～ｓｂ９に分割され、複数の学習グループｇ０～ｇ９が生成され、各学習グループについて学習済みモデルｍ０～ｍ９が生成済みであるものとする。

ここで、本実施形態３にかかる判定部２６は、モデル管理ＤＢ２３から学習済みモデルｍ０を取得し、学習済みモデルｍ０に対応する学習グループｇ０以外の教師データ群を特定し、教師データＤＢ２１から取得する。すなわち、判定部２６は、学習グループｇ０に含まれない部分集合ｓｂ１からｓｂ９の検体ｄ１０からｄ９９を取得する。そして、判定部２６は、学習済みモデルｍ０に対して検体ｄ１０からｄ９９のそれぞれを入力し、第１の判定結果ｒ０－１０～ｒ０－９９を取得する。また、判定部２６は、モデル管理ＤＢ２３から学習済みモデルｍ１を取得し、学習グループｇ１に含まれない部分集合ｓｂ２からｓｂ９の検体ｄ２０からｄ９９を取得する。そして、判定部２６は、学習済みモデルｍ１に対して検体ｄ２０からｄ９９のそれぞれを入力し、第１の判定結果ｒ１－２０～ｒ１－９９を取得する。以降同様に、判定部２６は、学習済みモデルｍ８に対して検体ｄ９０からｄ９９のそれぞれを入力し、第１の判定結果ｒ８－９０～ｒ８－９９を取得する（Ｓ２２２ａ）。

その後、本実施形態３にかかる特定部２７は、例えば、教師データＤＢ２１から検体ｄ６１に付与されたラベルＬ６１を取得し、第１の判定結果ｒ０－６１、ｒ１－６１、ｒ２－６１、ｒ３－６１、ｒ４－６１、ｒ５－６１のそれぞれとラベルＬ６１とを比較する。そして、特定部２７は、比較の結果が所定数以上、不適切であることを示す場合に、対象の検体ｄ６１を第２の不適切データ群２９５ａとして特定する（Ｓ２２５ａ）。

このように、本実施形態３では、運用段階ではなく、学習段階にて不適切なラベルが付与された教師データを検出することができる。そのため、運用モデルの精度向上を前倒しで、又は、運用と並行して実施できる。

＜実施形態４＞
本実施形態４は、上述した実施形態２又は３の変形例である。本実施形態４にかかるグループ生成部は、少なくとも他のグループには属さない部分集合が属するように複数の学習グループのそれぞれを生成する。これにより、不適切データの有無による学習済みモデルの判定結果の差がより顕著となり、より明確に第１の不適切データ群を特定可能となる。特に、学習段階での不適切データの検出が容易となる。

さらに、本実施形態４にかかるグループ生成部は、複数の学習グループに共通して属する部分集合が属する学習グループをさらに複数の学習グループに含めて生成するとよい。これにより、共通する部分集合からの不適切データの検出精度が向上できる。

尚、本実施形態４にかかる機械学習装置のその他の構成及び処理は、上述した実施形態２又は３と同等であるため、図示及び詳細な説明を省略する。

図１３は、本実施形態４にかかる部分集合と学習グループと学習済みモデルの関係の概念を説明するための図である。尚、図４のステップＳ１１の処理までは、実施形態２と同様であるものとする。例えば、図５のように教師データ集合２１０が複数の部分集合ｓｂ０～ｓｂ９に分割済みであるものとする。

ここで、本実施形態４にかかるグループ生成部２４は、部分集合ｓｂ０を各学習グループｇ０ａからｇ９ａに共通して含める（Ｓ２１２ａ）。例えば、グループ生成部２４は、部分集合ｓｂ０を各学習グループに共通の部分集合として定める。そして、グループ生成部２４は、データ分割情報２３０１の中から部分集合ｓｂ２を選択し、部分集合ｓｂ０と選択した部分集合ｓｂ２とをまとめて学習グループｇ２ａとする。つまり、グループ生成部２４は、学習グループｇ２ａには部分集合ｓｂ１を含めない。そして、グループ生成部２４は、データ分割情報２３０１の中から部分集合ｓｂ３を選択し、部分集合ｓｂ０と選択した部分集合ｓｂ３とをまとめて学習グループｇ３ａとする。以降同様に、グループ生成部２４は、データ分割情報２３０１の中から部分集合ｓｂ９を選択し、部分集合ｓｂ０と選択した部分集合ｓｂ９とをまとめて学習グループｇ９ａとする。また、グループ生成部２４は、学習グループｇ０ａからｇ９ａの定義情報を学習グループ情報２３０２ａとして生成し、モデル管理ＤＢ２３に格納する。尚、グループ生成部２４は、別途、教師データ集合２１０の全てを含めた学習グループを生成してもよい。

その後、本実施形態４にかかる学習部２５は、ステップＳ２１３と同様に、所定のデータ判定モデルに対して、複数の学習グループｇ０ａ～ｇ９ａごとに学習し、複数の学習済みモデルｍ０ａ～ｍ９ａを生成する（Ｓ２１３ａ）。尚、学習部２５は、別途、教師データ集合２１０の全てを教師データとして、所定のデータ判定モデルを学習した学習済みモデル（運用モデル）も生成するものとする。

この後、教師データ集合２１０以外の判定対象データにより、図６に示した不適切データ群の一次特定処理を行うものとする。このとき、学習済みモデルｍ０ａからｍ９ａの全て又は大半において第１の判定結果と正解ラベルとが異なっていた場合、各学習グループに共通する部分集合ｓｂ０に不適切データが含まれていた可能性が高い。一方、学習済みモデルｍ１ａからｍ９ａのいずれかの第１の判定結果と正解ラベルとが異なっていた場合、当該学習済みモデルの学習に用いられた学習グループに含まれる部分集合ｓｂ０以外の部分集合に不適切データが含まれていた可能性が高い。そのため、本実施形態４は、不適切データの特定効率が高いといえる。

＜その他の実施形態＞
尚、上述したグループ生成部による学習グループの生成の仕方、特に、部分集合の組合せ方は上述したものに限定されず、様々な組み合わせを採用して構わない。また、部分集合の分割数、学習グループの数、学習済みモデルの数、所定数ｎは、１０に限定されず、２以上であればよい。ここで、ｎの値が小さくなるほど、不適切データが存在する可能性のある範囲は広くなるが、必要なリソースは小さくなる。一方、ｎの値が大きくなるほど、必要なリソースが大きくなるが、不適切データが存在する可能性のある範囲を絞り込むことができる。また、ｎ個のデータ判定モデルを作成する場合、教師データも10分割ではなくｎ分割するとよい。

また、グループ生成部は、全部分集合のうち、異なる一つを除いたものを各学習グループとして生成してもいよい。例えば、第１の学習グループに部分集合ｓｂ０を除いた部分集合ｓｂ１からｓｂ９を所属させ、第２の学習グループに部分集合ｓｂ１を除いた部分集合ｓｂ０及びｓｂ２からｓｂ９を所属させてもよい。そして、以降同様に、第１０の学習グループに部分集合ｓｂ９を除いた部分集合ｓｂ０からｓｂ８を所属させてもよい。この場合、第１から第１０の学習グループごと学習された各学習済みモデルは、いずれも教師データ集合２１０の大半を用いて学習されているため、教師データの量としては運用モデルに近い。そのため、仮に、運用段階で運用モデルによる判定結果に疑義が生じた場合でも、本実施形態により不適切データ群を含む部分集合を特定できる。そして、特定された部分集合を含まず、それ以外の部分集合を全て含む学習グループが特定できる。つまり、特定された不適切データ群を除外した学習グループによる学習済みモデルが生成済みである。よって、全教師データにより学習済みの運用モデルに、当該不適切データ群を除外した学習グループによる学習済みモデルを置き換えて、速やかに運用を再開できる。

尚、上述の実施の形態では、ハードウェアの構成として説明したが、これに限定されるものではない。本開示は、任意の処理を、ＣＰＵにコンピュータプログラムを実行させることにより実現することも可能である。

上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、ＤＶＤ（Digital Versatile Disc）、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。また、本開示は、それぞれの実施の形態を適宜組み合わせて実施されてもよい。

上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
（付記Ａ１）
データとラベルの組である複数の教師データである教師データ集合を記憶する記憶部と、
前記教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成するグループ生成部と、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを前記記憶部に格納する学習部と、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第１の判定結果を取得する判定部と、
前記第１の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第１の不適切データ群を特定する特定部と、
を備える機械学習装置。
（付記Ａ２）
前記特定部は、
前記第１の判定結果のそれぞれと前記正解ラベルとを比較し、
前記複数の学習グループのうち、当該比較の結果が一致した前記学習済みモデルに対応する第１の学習グループ群と、当該比較の結果が一致しない前記学習済みモデルに対応する第２の学習グループ群とを特定し、
前記第１の学習グループ群と前記第２の学習グループ群との差分により、前記第１の不適切データ群を特定する
付記Ａ１に記載の機械学習装置。
（付記Ａ３）
前記判定部は、
前記第１の学習グループ群に対応する少なくとも１つの前記学習済みモデルに対して、前記第１の不適切データ群を入力して、第２の判定結果を取得し、
前記特定部は、
前記第１の不適切データ群のうち前記第２の判定結果と前記ラベルとが一致しない１以上のデータを第２の不適切データ群として特定し、
前記学習部は、
前記教師データ集合から前記第２の不適切データ群を除外した集合を前記教師データとして前記所定のデータ判定モデルに対して学習を行い、新たな学習済みモデルとして前記記憶部に格納する
付記Ａ２に記載の機械学習装置。
（付記Ａ４）
前記複数の学習グループは、前記教師データ集合の全てを含む全教師データグループを含み、
前記学習部は、
前記所定のデータ判定モデルに対して前記全教師データグループを前記教師データとして用いた学習により生成された前記学習済みモデルを運用モデルとして前記記憶部に格納し、
前記判定部は、
前記運用モデルに対して外部から取得した運用データを前記判定対象データとして入力する
付記Ａ１乃至Ａ３のいずれか１項に記載の機械学習装置。
（付記Ａ５）
前記グループ生成部は、
前記教師データ集合から、互いにデータの重複がない、所定数である複数の部分集合に分割し、
前記複数の部分集合のそれぞれが少なくとも１以上のグループに属するように前記複数の学習グループを生成する
付記Ａ１乃至Ａ４のいずれか１項に記載の機械学習装置。
（付記Ａ６）
前記グループ生成部は、
前記教師データ集合から、属するデータ数が均等になるように前記複数の部分集合を分割し、
前記特定部は、
前記複数の部分集合のいずれかを前記第１の不適切データ群として特定する
付記Ａ５に記載の機械学習装置。
（付記Ａ７）
前記グループ生成部は、
各学習グループにおける前記部分集合の所属数が前記所定数以内で異なるように、前記複数の学習グループを生成する
付記Ａ５又はＡ６に記載の機械学習装置。
（付記Ａ８）
前記グループ生成部は、
各学習グループにおける前記部分集合の所属数の昇順においてＮ－１番目（Ｎは２以上かつ前記所属数以下の自然数。）の学習グループに属する全ての部分集合と、前記複数の部分集合のうち当該Ｎ－１番目の学習グループに属さない部分集合の１つとが所属するようにＮ番目の学習グループを生成する
付記Ａ５乃至Ａ７のいずれか１項に記載の機械学習装置。
（付記Ａ９）
前記特定部は、
前記第１の学習グループ群のうち前記所属数が最大の第１の学習グループと、前記第２の学習グループ群のうち前記所属数が最小の第２の学習グループとの差分を前記第１の不適切データ群として特定する
付記Ａ２を引用する付記Ａ８に記載の機械学習装置。
（付記Ａ１０）
前記グループ生成部は、
少なくとも他のグループには属さない部分集合が属するように前記複数の学習グループのそれぞれを生成する
付記Ａ５に記載の機械学習装置。
（付記Ａ１１）
前記グループ生成部は、
前記複数の学習グループに共通して属する部分集合が属する学習グループをさらに前記複数の学習グループに含めて生成する
付記Ａ１０に記載の機械学習装置。
（付記Ｂ１）
コンピュータが、
データとラベルの組である複数の教師データである教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成し、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成し、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第１の判定結果を取得し、
前記第１の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第１の不適切データ群を特定する
機械学習方法。
（付記Ｃ１）
データとラベルの組である複数の教師データである教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成する処理と、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成する処理と、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第１の判定結果を取得する処理と、
前記第１の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第１の不適切データ群を特定する処理と、
をコンピュータに実行させる機械学習プログラム。

以上、実施形態（及び実施例）を参照して本願発明を説明したが、本願発明は上記実施形態（及び実施例）に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１９年２月１日に出願された日本出願特願２０１９－０１６６５０を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１機械学習装置
１１記憶部
１１０教師データ集合
１１１教師データ
１１１１データ
１１１２ラベル
１１２教師データ
１２グループ生成部
１３学習部
１４判定部
１５特定部
１６１学習済みモデル
１６ｎ学習済みモデル
２機械学習装置
２１教師データＤＢ
２１０教師データ集合
２１０ａ教師データ集合
２１１教師データ
２１１１ＩＤ
２１１２検体
２１１３ラベル
２１２教師データ
２２テストデータＤＢ
２２１テストデータ
２２１１ＩＤ
２２１２検体
２２２テストデータ
２３モデル管理ＤＢ
２３０１データ分割情報
２３０２学習グループ情報
２３１学習済みモデル
２３ｎ学習済みモデル
２４グループ生成部
２５学習部
２６判定部
２７特定部
２８出力部
２９１第１の判定結果
２９２比較の結果
２９３第１の不適切データ群
２９４第２の判定結果
２９５第２の不適切データ群
２９５ａ第２の不適切データ群
ｄ０～ｄ９９検体
Ｌ０～Ｌ９９ラベル
ｓｂ０～ｓｂ９部分集合
ｇ０～ｇ９学習グループ
ｇ０ａ～ｇ９ａ学習グループ
ｍ０～ｍ９学習済みモデル
ｄＸテストデータの検体
ＬＸ正解ラベル
ｍＸ０学習済みモデル
ｒ０～ｒ９９判定結果
ｒＸ０～ｒＸ９判定結果
ｒ０－０～ｒ０－９９判定結果
ｒ１－０～ｒ１－９９判定結果
ｒ９－０～ｒ９－９９判定結果

Claims

データとラベルの組である複数の教師データである教師データ集合を記憶する記憶手段と、
前記教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成するグループ生成手段と、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを前記記憶手段に格納する学習手段と、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第１の判定結果を取得する判定手段と、
前記第１の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第１の不適切データ群を特定する特定手段と、
を備える機械学習装置。
前記特定手段は、
前記第１の判定結果のそれぞれと前記正解ラベルとを比較し、
前記複数の学習グループのうち、当該比較の結果が一致した前記学習済みモデルに対応する第１の学習グループ群と、当該比較の結果が一致しない前記学習済みモデルに対応する第２の学習グループ群とを特定し、
前記第１の学習グループ群と前記第２の学習グループ群との差分により、前記第１の不適切データ群を特定する
請求項１に記載の機械学習装置。
前記判定手段は、
前記第１の学習グループ群に対応する少なくとも１つの前記学習済みモデルに対して、前記第１の不適切データ群を入力して、第２の判定結果を取得し、
前記特定手段は、
前記第１の不適切データ群のうち前記第２の判定結果と前記ラベルとが一致しない１以上のデータを第２の不適切データ群として特定し、
前記学習手段は、
前記教師データ集合から前記第２の不適切データ群を除外した集合を前記教師データとして前記所定のデータ判定モデルに対して学習を行い、新たな学習済みモデルとして前記記憶手段に格納する
請求項２に記載の機械学習装置。
前記複数の学習グループは、前記教師データ集合の全てを含む全教師データグループを含み、
前記学習手段は、
前記所定のデータ判定モデルに対して前記全教師データグループを前記教師データとして用いた学習により生成された前記学習済みモデルを運用モデルとして前記記憶手段に格納し、
前記判定手段は、
前記運用モデルに対して外部から取得した運用データを前記判定対象データとして入力する
請求項１乃至３のいずれか１項に記載の機械学習装置。
前記グループ生成手段は、
前記教師データ集合から、互いにデータの重複がない、所定数である複数の部分集合に分割し、
前記複数の部分集合のそれぞれが少なくとも１以上のグループに属するように前記複数の学習グループを生成する
請求項１乃至４のいずれか１項に記載の機械学習装置。
前記グループ生成手段は、
前記教師データ集合から、属するデータ数が均等になるように前記複数の部分集合へ分割し、
前記特定手段は、
前記複数の部分集合のいずれかを前記第１の不適切データ群として特定する
請求項５に記載の機械学習装置。
前記グループ生成手段は、
各学習グループにおける前記部分集合の所属数が前記所定数以内で異なるように、前記複数の学習グループを生成する
請求項５又は６に記載の機械学習装置。
前記グループ生成手段は、
各学習グループにおける前記部分集合の所属数の昇順においてＮ－１番目（Ｎは２以上かつ前記所属数以下の自然数。）の学習グループに属する全ての部分集合と、前記複数の部分集合のうち当該Ｎ－１番目の学習グループに属さない部分集合の１つとが所属するようにＮ番目の学習グループを生成する
請求項５乃至７のいずれか１項に記載の機械学習装置。
コンピュータが、
データとラベルの組である複数の教師データである教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成し、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成し、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第１の判定結果を取得し、
前記第１の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第１の不適切データ群を特定する
機械学習方法。
データとラベルの組である複数の教師データである教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成する処理と、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成する処理と、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第１の判定結果を取得する処理と、
前記第１の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第１の不適切データ群を特定する処理と、
をコンピュータに実行させる機械学習プログラム。