JP2018155522A

JP2018155522A - データ解析装置

Info

Publication number: JP2018155522A
Application number: JP2017050713A
Authority: JP
Inventors: 藤田　雄一郎; Yuichiro Fujita; 雄一郎藤田; 陽野田; Hiromi Noda
Original assignee: Shimadzu Corp
Current assignee: Shimadzu Corp
Priority date: 2017-03-16
Filing date: 2017-03-16
Publication date: 2018-10-04
Anticipated expiration: 2037-03-16
Also published as: JP6729457B2

Abstract

【課題】教師データに含まれる、ミスラベル状態である可能性が高いサンプルを高い確度で検出することで、機械学習モデルの識別性能を向上させる。【解決手段】与えられたラベル付き教師データをモデル構築用データとモデル検証用データとに分割し、モデル構築用データを用いて機械学習モデルを構築し、そのモデルをモデル検証用データに適用してサンプルを識別（ラベル付け）する、という一連の処理を多数回繰り返す（Ｓ２〜Ｓ５）。モデル構築用データが変わると構築される機械学習モデルは変わるものの高い確率で正確な識別が可能である筈なので、ミスラベルサンプルでは、元のラベルと識別結果とが一致せず誤識別となる可能性が高い。サンプル毎にこの誤識別回数を計数し誤識別率を求めると、ミスラベルサンプルでは誤識別率が相対的に高くなるため、誤識別率に基づいてミスラベルサンプルを特定する（Ｓ６〜Ｓ７）。【選択図】図２

Description

本発明は、質量分析装置、ガスクロマトグラフ（ＧＣ）、液体クロマトグラフ（ＬＣ）、分光測定装置といった各種分析装置で得られたデータなど、様々な手法で収集されたデータを解析するデータ解析装置に関し、さらに詳しくは、機械学習の一手法である教師あり学習を利用してラベルの付されていないデータを識別してラベル付けを行ったりラベルを予測したりするデータ解析装置に関する。なお、一般に「機械学習」との用語には多変量解析を含まない場合もあるが、本明細書では、機械学習は多変量解析を含むものとする。

多種多様である大量のデータの中から規則性を見いだし、それを利用してデータの予測や識別を行うために、機械学習は有用な手法の一つであり、その応用分野は近年ますます広がっている。機械学習の代表的な手法としては、サポートベクターマシン（ＳＶＭ＝Support Vector Machine）、ニューラルネットワーク（Neural Network）、ランダムフォレスト（Random Forest）、アダブースト（AdaBoost）、ディープラーニング（Deep Learning）、などがよく知られている。また、広義の機械学習に含まれる多変量解析の代表的な手法としては、主成分分析（ＰＣＡ＝Principal Component Analysis）、独立成分分析（ＩＣＡ＝Independent Component Analysis）、部分最小二乗法（ＰＬＳ＝Partial Least Squares）などがよく知られている（特許文献１等参照）。

機械学習には大別して教師あり学習と教師なし学習とがある。例えば、被検者について分析装置で収集されたデータに基づいて特定の疾病の有無を識別するような場合、その疾病に罹患している患者と罹患していない正常者とについてそれぞれ予め多数のデータを集めることが可能であれば、それらデータを教師データとする教師あり学習が可能である。最近では特に、質量分析装置により取得したマススペクトルデータに、教師あり学習を適用して、癌などの疾病の診断を行う試みが各所で進められている。

図１２は、癌検体と非癌検体についてのマススペクトルデータを教師データとして整理したピークマトリクスの一例である。
このピークマトリクスは、縦方向にサンプル、横方向にピーク位置（質量電荷比m/z）をとり、各ピークの信号強度値を要素の値としたものである。したがって、このピークマトリクスにおける１行の各要素は、一つのサンプルについての各質量電荷比におけるピークの信号強度値を示しており、１列の各要素は或る質量電荷比における全てのサンプルの信号強度値を示している。ここでは、sample 1〜sample n-2までのサンプルが癌検体であり、それら各サンプルには癌であることを示す「１」の値のラベルが付されている。一方、sample n-1〜sample Nまでのサンプルが非癌検体であり、それら各サンプルには非癌であることを示す「０」の値のラベルが付されている。この場合、ラベルは二値のラベルである。

こうしたラベル付教師データを用いることで、癌と非癌とを高い確度で識別できる機械学習モデルを構築することができる。しかしながら、場合によっては、教師データ自体のラベルが誤っていることがある。そもそも、癌と非癌（或いは他の疾病の罹患と非罹患）の判定は病理医の診断に基づくものであり、人間が判断する以上、誤りをゼロにすることは実際上不可能である。また、病理医診断結果は正しくても、それを教師データとして入力する際のオペレータの入力ミスでラベルが誤ることも考えられる。そのため、教師データとして与えられる多数のサンプルに、ラベルが誤っているミスラベル状態のサンプルが少数混じることは避けられない。

こうした状況に対応する一つの方法としては、機械学習のアルゴリズムを、教師データの中にミスラベル状態のサンプルが若干混じっていても高い識別性能が得られるようなものとすることである。しかしながら、ミスラベル状態である教師データへの耐性を高めようとすると識別性能の低下が避けられず、それらを両立できる汎用的な機械学習の手法は実現されていない。

またミスラベル状態のサンプルが混じることの他の対応方法は、機械学習モデルを構築する前にミスラベル状態であるサンプルを見つけて除去する又はラベルを正しく付け替えることである。非特許文献１に記載のように、機械学習によって付与されたラベルの誤りを検出する手法は提案されているものの、教師データとして与えられたサンプルがミスラベルであるのか否かを判断するための信頼性の高い統計学的な方法は従来存在しない。そのため、データにミスラベルが含まれているか否かは、例えば医療データにおいては測定日や病理医の診断結果などと教師データに付与されているラベルとが一致しているか否かを逐一チェックするという原始的な方法しかないのが実状である。こうした方法は大変に人手が掛かり効率が悪い。またこの方法でも、病理医の診断自体が誤っていた場合に、そのサンプルが真にミスラベルであるか否かを決めることは殆ど不可能である。

特開２０１７−３２４７０号公報

板橋、ほか２名、「誤ラベルデータ検出による半教師有り学習の研究」、情報処理学会全国大会講演論文集、2010年03月08日発行、第72巻、第2号、pp.463-464

本発明は上記課題を解決するために成されたものであり、その目的とするところは、教師データとして与えられた多数のデータの中からミスラベル状態である可能性の高いサンプルを的確に特定して除去する又はラベルの付け替えを行うことにより、識別性能の高い機械学習モデルを構築することができるデータ解析装置を提供することである。

上記課題を解決するために成された本発明は、複数のサンプルについてのラベル付けされた教師データに基づいて機械学習モデルを構築し、該機械学習モデルを用いて未知のサンプルを識別してラベル付けするデータ解析装置であって、
前記教師データの中でミスラベル状態のサンプルを検出するミスラベル検出部を備え、該ミスラベル検出部は、
a)前記教師データの中から選択した又は該教師データとは別のラベル付きのデータであるモデル構築用データを用いて機械学習モデルを構築し、その構築された機械学習モデルを前記教師データの中から選択したモデル検証用データに適用してサンプルを識別しラベル付けを行う、という一連の処理を複数回繰り返す繰返し識別実行部と、
b)前記繰返し識別実行部による一連の処理の複数回の繰り返しの際に、その識別結果であるラベルと元々データに付されていたラベルとが不一致であった誤識別の回数をサンプル毎に求め、その誤識別回数又はその誤識別の確率に基づいてサンプルがミスラベル状態であるか否かを判定するミスラベル判定部と、
を含むことを特徴としている。

本発明に係るデータ解析装置において、機械学習はいわゆる教師あり学習を行う多変量解析を含む。また、本発明に係るデータ解析装置において、解析対象であるデータの内容や種類は特に問わないが、典型的には、様々な分析装置で収集された分析データや測定データとすることができる。具体的には、質量分析装置で得られたマススペクトルデータ、ＧＣやＬＣで得られたクロマトグラムデータ、分光測定装置で得られた吸光スペクトルデータ、ＤＮＡマイクロアレイ解析で得られたデータなどとすることができる。もちろん、それ以外の様々な手法で収集されたデータを対象とすることができる。

本発明に係るデータ解析装置では、与えられた複数（通常は非常に多数）のサンプルについてのラベル付けされた教師データに基づいて機械学習モデルを構築するが、その前にミスラベル検出部は、その与えられた教師データの中でラベルが誤っているミスラベル状態のサンプルを検出する。即ち、繰返し識別実行部は、例えば与えられた教師データの中からモデル構築用データとモデル検証用データとをそれぞれ適宜選択し、前者のデータを用いて仮の機械学習モデルを構築する。そして、その仮の機械学習モデルを後者のデータに適用することで、モデル検証用データとして選択されたサンプルをそれぞれ識別しラベル付けする。なお、モデル構築用データは必ずしも与えられた教師データ（つまりはミスラベル状態か否かの判定対象であるデータ）に含まれるデータである必要はなく、全く別のラベル付きデータであってもよい。また、モデル構築用データとモデル検証用データとは一部が重なっていてもよいし、全く同一であってもよい。したがって、与えられた教師データの全てをモデル構築用データ及びモデル検証用データとしても構わない。

いま例えば、真に癌であるのに非癌のラベル付けがされたサンプル（つまりはミスラベル状態であるサンプル）を或る機械学習モデルで識別すると、多くの場合、このサンプルは癌であると識別される筈である。ただし、該サンプルに付加されているラベルは非癌のラベルであるから、識別結果であるラベルと元のラベルとが一致していないという意味でこれは誤識別であるといえる。一方、正しいラベルが付されているサンプルを同じ機械学習モデルで識別すると、多くの場合、識別結果であるラベルと元のラベルとが一致して正識別となる。機械学習モデルが一つのみである場合、或るサンプルのラベルと識別結果であるラベルとが一致せず誤識別であると判定されても、元のラベルが正しく識別が誤っているのか、逆に識別自体は正しいが元のラベルが誤っているか、を高い確度で判断することは実質上不可能である。しかしながら、確率的にいえば、ミスラベル状態である場合に誤識別となる可能性のほうが高いため、異なる複数の機械学習モデルを用いて同じサンプルについての識別を試みて誤識別の回数を計数すれば、ミスラベル状態であるサンプルでは誤識別回数が多く、一方、正しいラベルのサンプルでは誤識別回数は少なくなる筈である。

そこで繰返し識別実行部は、上述した一連の処理を、例えばそれぞれ同一でないモデル構築用データについて複数回繰り返す。機械学習の手法自体は同じであってもモデル構築用データが変わると機械学習モデルは変わるから、異なる複数の機械学習モデルを用いた識別を繰り返すことになる。ミスラベル判定部は、このような一連の処理の複数回の繰り返しの際の誤識別の回数をサンプル毎に求める。つまり同じサンプルについての誤識別回数を計数する。上述したようにミスラベル状態であるサンプルでは誤識別回数が相対的に多くなるから、ミスラベル判定部は、計数された誤識別回数に基づいて又はその誤識別回数から求めた誤識別率に基づいて、サンプル毎にミスラベル状態であるか否かを判定する。サンプル毎に誤識別回数が相対的に多いか少ないか又は誤識別率が相対的に高いか低いかを判定する必要があるから、当然のことながら、この判定に十分である程度に、上述した一連の処理の繰り返し回数を多くしておく必要がある。

以上のようにして本発明に係るデータ解析装置では、ミスラベル検出部は、多数の癌サンプル由来の教師データの中でラベルが誤っている可能性が高いサンプルを検出することができる。したがって、こうして検出されたサンプルを教師データから除外して教師データの質を高めることで、その教師データを用いて構築される機械学習モデルの識別性能を向上させることができる。また、ラベルが癌と非癌のような二値のラベルである場合、ラベルの付け替えは容易であるから、ミスラベル状態である可能性が高いとして特定されたサンプルを除外せずにラベルを付け替えて教師データとして残しても構わない。

本発明に係るデータ解析装置において好ましくは、前記ミスラベル検出部は、前記ミスラベル判定部によりミスラベル状態であると判定されたサンプルを教師データから除去したあとの教師データを用いて、前記繰返し識別実行部及び前記ミスラベル判定部による処理を１回以上実施する構成とするとよい。

ミスラベル状態であるサンプルを教師データから除去すると、その除去後の教師データを用いて構築された機械学習モデルの識別性能は向上する。したがって、この構成によれば、ミスラベル状態か否かを判定することが難しいデータについても高い信頼性を以て判定することが可能となり、結果的に、ミスラベル検出の精度を向上させることができる。

また本発明に係るデータ解析装置では、上述したようにモデル構築用データは必ずしもミスラベル状態か否かの判定対象である教師データである必要はないが、実用上、その教師データの中からモデル構築用データを選択することが好ましい。

そこで、本発明に係るデータ解析装置の一態様として、
前記ミスラベル検出部は、前記教師データをモデル構築用データとモデル検証用データとに分割するデータ分割部を含み、
前記繰返し識別実行部は、前記一連の処理を実行する毎に前記データ分割部によるデータ分割を変更する構成とすることができる。

この場合、具体的には、データ分割部は例えば乱数表を利用して、教師データをモデル構築用データとモデル検証用データとにランダムに分割するとよい。なお、この場合、モデル構築用データとモデル検証用データとの分割をやり直しても、ごく低い確率でそれぞれのデータが変更前と又はすでに識別を実施した処理と同じになる可能性があるが、繰り返しの回数が多ければその影響は殆ど現れない。

また本発明に係るデータ解析装置において前記繰返し識別実行部は、機械学習の手法を一種類のみ用いる構成としてもよいし、機械学習の手法を二種類以上用いる構成としてもよい。当然のことながら、機械学習の手法を二種類以上用いるとそれだけ装置の構成（実質的には演算処理のプログラム）が複雑になるが、異なる手法を適切に組み合わせることでミスラベル検出の精度を高めることができる。一方、機械学習の手法は一種類のみであっても、繰返しの回数を増やすことでミスラベル検出の精度を高めることができる。

また本発明に係るデータ解析装置において、前記繰返し識別実行部で用いる機械学習の手法は教師あり学習を行うものであれば特に限定されないが、例えば、ランダムフォレスト、サポートベクターマシン、ニューラルネットワーク、線形判別法、非線形判別法などとするとよい。どのような手法を用いるのかは、解析対象であるデータの種類、性質などにより適宜選択することが好ましい。例えば本発明者の検討によれば、質量分析により得られたマススペクトルデータに基づいて被検体が癌であるか非癌であるかを識別する場合、ランダムフォレストを用いるとミスラベルの検出精度が相対的に高いことが確認できた。

また本発明に係るデータ解析装置において、ミスラベル判定部によるミスラベル状態の判定は様々な基準で以て行うことができる。一つの態様として、前記ミスラベル判定部は誤識別率が最も高いサンプルをミスラベル状態であると判定する構成とするとよい。

この場合、ミスラベル状態である可能性が最も高い一つのサンプルがミスラベル状態であると判定されるので、上述したように、ミスラベル状態であると判定されたサンプルを一つずつ除去しつつ、繰返し識別実行部及びミスラベル判定部による処理を繰り返すことでミスラベル状態である可能性が高い複数のサンプルを除去可能とするとよい。

また別の態様として、前記ミスラベル判定部は誤識別率が高い順にユーザに指定された個数のサンプルをミスラベル状態であると判定する構成としてもよい。
この構成では、ミスラベル状態である可能性が高い複数のサンプルを一度に除去することができるため、処理時間を短縮することができる。

さらにまた別の態様として、前記ミスラベル判定部は誤識別率が１００％であるサンプルをミスラベル状態であると判定する構成としてもよい。
この構成では、ミスラベル状態である可能性が高い複数のサンプルを高い信頼性を以て除去することができる。

さらにまた別の態様として、前記ミスラベル判定部は誤識別率がユーザにより設定された閾値以上であるサンプルをミスラベル状態であると判定する構成としてもよい。

また本発明に係るデータ解析装置において、上述したように、繰返し識別実行部及びミスラベル判定部による処理を繰り返し実施する場合、前記ミスラベル検出部は、誤識別率が所定の閾値以下になるまで前記繰返し識別実行部及び前記ミスラベル判定部による処理を繰り返し実施する構成とするとよい。

この構成によれば、ミスラベル状態である可能性のあるサンプルをより確実に検出することができる。ただし、場合によっては繰り返し回数が多くなりすぎることもあるから、繰り返し回数に制限を設けたり或いは実行時間に制限を設けたりして、誤識別率が所定の閾値以下にならない場合であってもその制限に抵触したときには処理を終了するとよい。

また本発明に係るデータ解析装置では、前記ミスラベル判定部による識別結果に基づいた表又はグラフを作成して該表又はグラフを表示部に表示する結果表示処理部をさらに備える構成とするとよい。

具体的には、例えば教師データ全体のサンプル毎の誤識別回数や誤識別率の分布をグラフで示すことで、誤識別回数や誤識別率がどの程度であればミスラベル状態のサンプルであるとみなすかの判定基準をユーザが容易に決定することができる。

本発明に係るデータ解析装置によれば、与えられた教師データのラベルが誤っているか否かを自動的に判定し、ミスラベル状態である可能性が高いサンプルを特定することができる。それにより、例えばそうしたサンプルを教師データから除外したりラベルを付け替えたりすることで教師データの質を向上させ、識別性能が従来よりも高い機械学習モデルを構築し、未知サンプルをより正確に識別することが可能となる。

本発明に係るデータ解析装置の一実施例である癌／非癌識別装置の機能ブロック構成図。本実施例の癌／非癌識別装置におけるミスラベル検出処理のフローチャート。本実施例の癌／非癌識別装置におけるミスラベル検出処理の変形例のフローチャート。本実施例の癌／非癌識別装置における教師データの分割処理の模式図。本実施例の癌／非癌識別装置におけるミスラベル検出能力を検証するためのシミュレーションに用いたデータの説明図。ＸＯＲ状態にある二つのマーカーピークの信号強度と癌又は非癌の状態との関係を示す図。シミュレーションデータとして線形データを用いた場合のミスラベル検出結果を示す図。シミュレーションデータとして線形データを用いた場合のミスラベル検出結果を示す図。シミュレーションデータとして非線形データを用いた場合のミスラベル検出結果を示す図。シミュレーションデータとして非線形データを用いた場合のミスラベル検出結果を示す図。ミスラベル検出結果の表示例を示す図。癌検体と非癌検体についてのマススペクトルデータを教師データとして整理したピークマトリクスの一例を示す図。

以下、本発明に係るデータ解析装置の一実施例である癌／非癌識別装置について、添付図面を参照して説明する。

図１は本実施例の癌／非癌識別装置の機能ブロック構成図である。
この癌／非癌識別装置は、被検者由来の生体試料を図示しない質量分析装置で質量分析することで得られたマススペクトルデータが未知サンプルデータとして入力されたとき、それが癌であるか又は非癌であるのかを判定する装置であり、データ解析部１と、ユーザインターフェイスである操作部２、表示部３と、を備える。

データ解析部１は、ミスラベル検出部１０、ミスラベルサンプル除外部１７、機械学習モデル作成部１８、及び未知データ識別部１９、を機能ブロックとして含む。また、ミスラベル検出部１０は、データ分割部１１、機械学習モデル構築部１２、機械学習モデル適用部１３、誤識別回数計数部１４、ミスラベルサンプル特定部１５、検出制御部１６を機能ブロックとして含む。

データ解析部１に含まれる各機能ブロックはハードウェアで構成することも可能ではあるが、実用上は、パーソナルコンピュータやより高性能なワークステーション等をハードウェア資源とし、該コンピュータにインストールされた専用のソフトウェアを該コンピュータ上で実行することにより、上記各機能ブロックが具現化される構成とするとよい。

データ解析部１には、図１２に示したような癌又は非癌のラベルが付された多数のサンプル由来のマススペクトルデータ（ピークが存在する質量電荷比毎のピーク信号強度を示すデータ）がラベル付き教師データとして予め与えられる。ミスラベル検出部１０は、与えられた教師データの中でミスラベル状態の可能性が高いサンプルを検出する。ミスラベルサンプル除外部１７は、ミスラベル検出部１０により検出されたサンプルを教師データから除外するか、或いは、検出されたサンプルに付されているラベルを付け替える。ここでは、ラベルは癌：１、非癌：０の二値であるので、ラベルの付替えは単に１→０、０→１に値を変更すればよい。

機械学習モデル作成部１８は、ミスラベルサンプル除外部１７で一部のサンプルが除外された又はラベルが付け替えられたあとの教師データを用いて、機械学習モデルを構築する。ここで用いる機械学習の手法は、後述するミスラベル検出部１０で用いられている機械学習の手法と同じであってもよいが、必ずしも同じである必要はない。未知データ識別部１９は機械学習モデル作成部１８で構築された機械学習モデルを用いて未知サンプル由来のマススペクトルデータを判定し、該未知サンプルについて癌であるか非癌であるかのラベルを付与する。こうした識別結果は表示部３から出力される。

機械学習モデル作成部１８で識別性能の高い機械学習モデルを構築するには、教師データの中に混入している可能性がある誤ってラベル付けされたサンプルを、できるだけ少なくすることが重要である。そこで、本実施例の癌／非癌識別装置におけるミスラベル検出部１０では、以下に述べるような特徴的な処理によって、ミスラベル状態の可能性が高いサンプルを精度良く検出している。図２は本実施例の癌／非癌識別装置におけるミスラベル検出処理のフローチャート、図４はラベル付き教師データの分割処理の模式図である。

検出制御部１６の制御の下で、データ分割部１１は図１２に示したようなラベル付き教師データを読み込む（ステップＳ１）。即ち、このラベル付き教師データは、sample 1、sample 2、…、sample N-1、sample Nというサンプル名であるＮ個のサンプルそれぞれのマススペクトルデータであり、各サンプルに癌：「１」、非癌：「０」の二値のラベルが付されたものである。なお、一般にＮの数は多いほうがよいが、どの程度の数が必要であるのかはデータの性質などによっても異なるから、予め確認しておくことが望ましい。

データ分割部１１は、読み込んだ多数のサンプル由来の教師データを、機械学習モデルの構築のために使用するモデル構築用データと、構築した機械学習モデルを適用するモデル検証用データとに分割する（ステップＳ２）。
ここでは、総数がＮ個であるサンプルから得られたデータを、乱数表を用いて、Ｍ個のデータセットに分割し、そのうちのＭ−１個のデータセットをモデル構築用データとし、残りの１個のデータセットをモデル検証用データにする。こうして、与えられた教師データをモデル構築用データとモデル検証用データとに分割する（図４参照）。なお、後述するシミュレーション検証の際にはＭを５としている。
データの分割には乱数表を用いるため、確率的には分割をやり直したときにデータセットに含まれるデータの組合せが同じであることもあり得るが、実際には殆どの場合、分割をやり直したときにデータセットに含まれるデータの組合せは変わる。

次に機械学習モデル構築部１２は上記ステップＳ２で得られたモデル構築用データを用いて、つまりは教師データとして、所定の手法による機械学習モデルを構築する（ステップＳ３）。ここで使用する機械学習の手法は、教師あり学習でありさえすればその手法を問わない。例えば、ランダムフォレスト、サポートベクターマシン、ニューラルネットワーク、線形判別法、非線形判別法などとすることができる。

機械学習モデル適用部１３は、上記ステップＳ３において構築された機械学習モデルに上記ステップＳ２で得られたモデル検証用データを適用し、その各サンプルが癌であるか非癌であるのか識別してラベルを付与する（ステップＳ４）。ここで付与されたサンプル毎のラベルは例えば内部のメモリに、サンプル名に対応付けて記憶しておく。そして、検出制御部１６はステップＳ２〜Ｓ４の一連の処理を規定回数Ｐ繰り返したか否かを判定し（ステップＳ５）、繰返し回数が規定回数Ｐに達していなければステップＳ２へと戻る。

ステップＳ２に戻ると、データ分割部１１は再び多数のサンプル由来の教師データをモデル構築用データとモデル検証用データとに分割する。このとき、モデル構築用データ及びモデル検証用データはそれぞれ１回目のときとは異なる組合せである可能性がきわめて高い。機械学習の手法が同じであったとしても、モデル構築用データが異なると、これに基づいて構築される機械学習モデルも当然異なるものとなる。そこで、この前回とは異なる機械学習モデルをモデル検証用データに適用すると、そのモデル検証用データの中に前回と同じサンプルがあったとしても識別結果が相違する可能性がある。こうして、教師データの分割を変えながら、ステップＳ２〜Ｓ５の処理を規定回数Ｐだけ繰り返す。

上述したように、また図４に示したように、モデル検証用データに含まれるサンプルの組合せは通常、上記の繰り返しの度に変化するが、Ｐを或る程度大きくすれば、同じサンプルが何度もモデル検証用データに含まれ、その度にステップＳ４の処理によるラベル付けがなされる。そこで、上記一連の処理の繰り返し回数が規定回数Ｐになったあと（ステップＳ５でＹｅｓ）、誤識別回数計数部１４は、サンプル毎に、元々付与されていたラベルと識別結果であるラベルとが不一致である回数つまりは誤識別の回数を計数する（ステップＳ６）。この誤識別回数は、ステップＳ１で読み込んだ教師データに含まれるサンプル毎に求まる。

機械学習モデルに基づく識別では、本当に癌であるのに非癌であると判定する、又はその逆に本当は非癌であるのに癌であると判定するような可能性もあるものの、その確率は低い。換言すれば、元々付与されていたラベルと識別結果であるラベルとが一致しない、つまり誤識別である場合、機械学習モデルに基づく識別自体が誤っているよりも元々付与されていたラベルが誤っている（ミスラベル状態である）可能性のほうが高いといえる。もちろん、１回の識別結果のみからはそう判断するのは難しいが、機械学習モデルを変えながら識別を繰り返したときに誤識別の回数が多ければ、元々付与されていたラベルが誤っていると考えたほうが妥当である。そこで、ミスラベルサンプル特定部１５は、サンプル毎に求まった誤識別回数に基づいてミスラベル状態である可能性が高いサンプルを特定する（ステップＳ７）。

ただし、識別の実行回数はサンプル毎に同じではないため、絶対値である誤識別回数で比較するのは必ずしも適切ではない。そこで、サンプル毎に、識別の実行回数と誤識別回数とから誤識別率を計算し、その誤識別率に基づいてミスラベル状態である可能性が高いサンプルを特定するとよい。

誤識別率に基づいてミスラベル状態か否かを判定する際には、次のようないくつかの判定基準のいずれかを採用すればよい。
（１）誤識別率が最も高い一つのサンプルをミスラベル状態であると判定する。ただし、誤識別率が最も高いサンプルが複数存在する場合には、その複数のサンプルの全てをミスラベル状態であると判定すればよい。
（２）ミスラベル状態であると判定するサンプルの数をパラメータとして予めユーザが操作部２から指定しておき、誤識別率が高い順にその指定された個数のサンプルをミスラベル状態であると判定する。
（３）誤識別率が１００％であるサンプルのみをミスラベル状態であると判定する。誤識別率が１００％であるサンプルが複数存在する場合には、その複数のサンプルの全てをミスラベル状態であると判定すればよい。
（４）ミスラベル状態であると判定する誤識別率の閾値をパラメータとして予めユーザが操作部２から指定しておき、誤識別率がその閾値以上であるサンプルをミスラベル状態であると判定する。

もちろん、上記（１）〜（４）は適宜に組み合わせることができる。例えば、（１）と（４）とを組み合わせ、誤識別率が或る閾値以上であって最も高い誤識別率のサンプルをミスラベル状態であると判定してもよい。当然、与えられた教師データの中にミスラベル状態であるサンプルが一つも存在しないということもあり得るから、基本的には、誤識別率が低いサンプルはミスラベル状態ではないと推定するのが妥当であり、逆に、極端に誤識別率が高いサンプルはミスラベル状態ではあると推定するのが妥当である。

こうしてミスラベル状態であるサンプルが特定されたならば、ミスラベル検出結果や誤識別検出結果を表形式又はグラフ形式に整理して表示部３に表示し、ユーザに提示すればよい（ステップＳ８）。
また、上述したようにミスラベルサンプル除外部１７は上述したようにミスラベル状態である可能性が高いと判定されたサンプルを教師データから除外したりラベルを付け替えたりして、実際の識別を行う機械学習モデルを構築するための教師データを生成すればよい。

なお、一般的に上記のような統計的な処理の際には、統計誤差を小さくするためにクロスバリデーションと呼ばれる手法が用いられる。厳密な意味でのクロスバリデーションでは、Ｍ個に分割したデータセットのうちのＭ−１個のデータセットをモデル構築用データとして機械学習モデルを構築し、残りの一つのデータセットをモデル検証用データしてその機械学習モデルに適用して識別するという処理を、モデル検証用データとして選択するデータセットを変えながらＭ回実行して、例えば誤識別率の平均値を計算する。これに対し、上記実施例の処理では、ステップＳ２で分割したデータセットについては一回の処理を実施するだけであるので、厳密な意味でのクロスバリデーションとは異なる。しかしながら、データセットに含まれるサンプルを入れ替えつつステップＳ２〜Ｓ５の処理を多数回繰り返すことにより、実質的にクロスバリデーションと同様の効果が得られることになる。

図２を用いて説明したミスラベル検出処理では、ステップＳ２〜Ｓ４の一連の処理を規定回数Ｐだけ繰り返したあと、ミスラベル状態である可能性が高いサンプルを一度にまとめて検出しているが、図３に示すようにミスラベル検出処理のフローチャートを変形することもできる。図３においてステップＳ１１〜Ｓ１５の処理は図２中のステップＳ〜Ｓ５の処理と全く同じである。

この例では、ステップＳ１５Ｙｅｓと判定されたあと、サンプル毎に求まった誤識別率が最も高い一つ又は複数のサンプルをミスラベル状態であるサンプルとして教師データから除去する（ステップＳ１６）。こうして教師データの質を高めたあと、ステップＳ１２に戻り、ステップＳ１２〜Ｓ１６の処理を再度実行する。そうして、サンプル毎に求まった誤識別率が最も高い一つ又は複数のサンプルをミスラベル状態であるサンプルとして教師データから再び除去する。このステップＳ１２〜Ｓ１６の処理を規定回数Ｑだけ繰り返すか、又は、最も高い誤識別率が所定の値以下になる、若しくは、その誤識別率の変化が所定の範囲に収束したならば（ステップＳ１７でＹｅｓ）、処理を終了する。

このようにミスラベル状態である可能性が高いサンプルを段階的に除去することで、ミスラベルでないサンプルを誤って除去することを避けながら、より的確に、つまりは真にミスラベル状態であるサンプルのみを除去して教師データの質をより一層高めることができる。

［シミュレーションによるミスラベル検出処理の評価］
次に、上述したミスラベル検出処理によりミスラベル状態であるサンプルが適切に検出されるのかを、シミュレーションにより評価した結果について説明する。このシミュレーションによる評価では、上述したようにデータセットへの分割数Ｍは５とし、規定回数Ｐは５００とした。また、機械学習の手法としてランダムフォレストを用いた。また、評価に用いたデータ（教師データ）としては、図５に示すように、線形データと、非線形データとの両方を用いた。

［線形データを用いたシミュレーションの方法と結果］
ここでいう線形データとは、癌と非癌との間で、マススペクトル上の全てのマーカーピークの信号強度差が十分に存在するデータのことをいう。マーカーピークの数が十分に多く、癌と非癌とでピークの信号強度差が十分にあれば、主成分分析やＯＰＬＳ−ＤＡ（判別分析の一種であるＰＬＳ−ＤＡ（Partial Least Squares Discriminant Analysis）の改良版）などの多変量解析の手法でも癌と非癌という二つの群に分けることが可能である。そこで、ここでは、癌と非癌との間での信号強度差が殆どない１０本のマーカーピークを含むデータをシミュレーションに用いた。このデータについて主成分分析を行っても二群への分類が不可能であることは確認済みである。
また、シミュレーションデータは既知のデータであるからラベルは当然１００％正当である。そこで、癌及び非癌のサンプルからそれぞれランダムに１０個のサンプルを選択し、それら合計２０個のサンプルのラベルを付け替えることで、人為的なミスラベル検体を作成した。そして、この２０個のサンプルがミスラベルサンプルであると特定できるか否かを検証した。

決定木を学習器としているランダムフォレストにおいては、調整を要する代表的なパラメータは決定木の数である。決定木の数を変化させたときの５分割クラスバリデーションにおける平均正答率を調べたところ、決定木が５〜２０の範囲で決定木数に拘わらず、平均正答率はいずれも９９．６％であった。そこで、ここでは決定木数を１０に定めてミスラベル検出を試みた。
その検出結果を図７及び図８に示す。図７は非癌であるラベル付けされたサンプルのミスラベル検出結果、図８は癌であるラベル付けされたサンプルのミスラベル検出結果である。図７及び図８において（並びに後述する図９及び図１０において）、モデル検証用データ採用回数はステップＳ４の処理による識別実行回数に相当する。

図７及び図８から分かるように、癌と非癌のいずれに対しても、ミスラベルサンプルについては誤識別率が１００％になり、ミスラベルでないサンプルの誤識別率は０％であった。即ち、ミスラベル検出は完全に成功しているということができる。また、本データでは、ミスラベル混入データにおける癌／非癌判定の正答率は９９．６％であるが、これは上記手法で検出されたミスラベルサンプルを除去することで正答率が１００％になる。即ち、ミスラベルサンプルとして特定されたサンプルを教師データから除去することで、識別性能がきわめて高い機械学習モデルの構築が実現できることが確認できる。

［非線形データを用いたシミュレーションの方法と結果］
一般に収集されるデータの多くは少なからず非線形性を有しており、完全に線形であるデータがむしろ少ない。そこで、非線形シミュレーションデータについても上記ミスラベル検出処理の能力を評価した。

ここでいう非線形データとは、マススペクトル上の単一のピークでは癌／非癌の識別はできないものの、複数のピークを同時に考慮することで癌／非癌の識別が可能となるようなデータである。こうした状態である典型的なデータとして、二つのマーカーピークＡ、ＢがＸＯＲ状態であるデータを作成した。図６はＸＯＲ状態にある二つのマーカーピークの信号強度と癌又は非癌の状態との関係を示す図である。即ち、二つのマーカーピークＡ、Ｂはそれぞれ単体では癌／非癌の識別はできないものの、ピークＡ、Ｂの信号強度が共にそれぞれ閾値Ａth、Ｂth以上であれば癌（領域ｃ）、またピークＡ、Ｂの信号強度が共にそれぞれ閾値Ａth、Ｂth未満であっても癌（領域ｂ）である。一方、ピークＢの信号強度が閾値Ｂth以上であってピークＡの信号強度が閾値Ａth未満であれば非癌（領域ｄ）であり、ピークＡの信号強度が閾値Ａth以上であってピークＢの信号強度が閾値Ｂth未満であっても非癌（領域ａ）である。したがって、例えば検体αは癌である。

人為的にミスラベルとした検体は、線形データと同じく癌、非癌それぞれ１０サンプルずつ（サンプル番号も全く同じ）である。また、マーカーピークも線形シミュレーションデータと全く同じ質量電荷比のものを選択したが、１０本のピークのうち、各２本がＸＯＲ状態になるように加工した。
こうしたデータについて決定木の数を変化させたときの５分割クラスバリデーションにおける平均正答率を調べたところ、決定木が５〜２０の範囲で決定木数に拘わらず、平均正答率はいずれも９９．６％であった。そこで、ここでも決定木数を１０に定めてミスラベル検出を試みた。
その検出結果を図９及び図１０に示す。図９は非癌であるラベル付けされたサンプルのミスラベル検出結果、図１０は癌であるラベル付けされたサンプルのミスラベル検出結果である。

図９及び図１０から分かるように、癌と非癌のいずれに対しても、ミスラベルサンプルについては誤識別率が１００％になり、ミスラベルでないサンプルの誤識別率は０％であった。即ち、この場合にもミスラベル検出は完全に成功しているということができる。なお、各サンプルのモデル検証用データ採用回数は線形データ、非線形データで全く同じであるが、これはデータ分割に用いた乱数表の乱数が全く同じことによるもので、何ら評価結果に影響を与えるものではない。

図７〜図１０を見れば明らかなように、ミスラベルサンプルについては全て誤識別率が１００％であり、正当なラベルが付されたサンプルについては全て誤識別率が０％となっている。これは、主として、このシミュレーションで使用した機械学習の手法（ランダムフォレスト）の特性による。ミスラベル状態とそうでない場合とで誤識別率がこのように極端に異なる場合、誤識別率に基づいてミスラベルサンプルを特定するのは容易である。一方、別の機械学習の手法を用いた場合、誤識別率はこのようになるとは限らない。

図１１は誤識別率の高い順にサンプル番号をソートして付したソート番号と誤識別率との概略的な関係を示す図である。
図１１において、実線は上述したランダムフォレストを用いた、シミュレーションデータに対するミスラベル検出結果であり、一点鎖線はサポートベクターマシンを用いた、シミュレーションデータに対するミスラベル検出結果の一例である。このように、サポートベクターマシンを用いると、誤識別率が徐々に低下することがある。また、最高の誤識別率が１００％にならないこともある。そのため、ミスラベル状態であるサンプルか否かを判定する閾値をユーザが指定するようにするか、或いは、図３に示したように誤識別率が最高であるサンプルを一つずつ除外していく方法が有用である。

図１１に示したようなグラフ或いは同じ情報を含む表をユーザに提示することは、ミスラベル状態か否かを判定する判定基準をユーザが選択したり、そのための閾値等のパラメータを定めたり、さらには使用した機械学習の手法が適切であるか否かを判断したりするのに有効である。そこで、上記実施例の癌／非癌識別装置では、サンプル毎の誤識別率を算出したあと、図１１に示すようなグラフ又はそれに相当する表などを作成して表示部３の画面上に表示するようにしてもよい。

上記実施例の癌／非癌識別装置では、ミスラベル検出部１０において機械学習の手法としてランダムフォレストを用いたが、すでに例示した様々な教師あり学習の手法、例えばサポートベクターマシン、ニューラルネットワーク、線形判別法、非線形判別法などを用いることができることは明らかである。どのような手法を用いるのが適当であるかは、解析対象であるデータの性質等により異なるから、予め複数の機械学習手法を用意しておき、ユーザが任意に選択できるようしてもよい。

また、図２におけるステップＳ２〜Ｓ５の処理の繰り返し、又は図３におけるステップＳ１２〜Ｓ１５の処理の繰り返しの際に、一種類の機械学習手法を用いるのではなく複数種類の機械学習手法を用いてもよい。なお、複数の異なる種類の機械学習手法を用いる場合、当然のことながら、モデル構築用データが同じであっても構築される機械学習モデルはその機械学習手法毎に相違したものとなる。したがって、複数の異なる種類の機械学習手法を用いる場合であって、或る一つの手法による機械学習を実施したあとに別の手法による機械学習を行う際に、教師データの再分割を省略し、その前に実施した上記或る一つの手法による機械学習のときと同じモデル構築用データ及びモデル検証用データを用いて上記別の手法による機械学習を行っても構わない。

また上記実施例では、サンプル由来の教師データをモデル構築用データとモデル検証用データとに分割していたため、モデル構築用データとモデル検証用データとは必ず異なるデータになるが、これは必須ではない。例えば多数の教師データの中から任意に（例えば乱数表を用いて）モデル構築用データとモデル検証用データとをそれぞれ選択しても構わない。したがって、モデル構築用データとモデル検証用データとはその一部が共通していてもよい。また、モデル構築用データをそのままモデル検証用データに用いる、つまり両者が全く同じでも構わない。

また、上記実施例の装置は質量分析装置で得られたマススペクトルデータの解析に本発明を使用したものであるが、それ以外の様々な分析データや測定データについて機械学習を利用して何らかの識別を行う装置全般に本発明を適用できることは明らかである。例えば、質量分析装置と同様の分析装置の分野で言えば、ＬＣ装置やＧＣ装置で得られたクロマトグラムデータ、分光測定装置で得られた吸光スペクトルデータなどを解析する装置に本発明を使用できることは明らかである。さらにまた、ＤＮＡマイクロアレイ解析で得られたデータ（画像を数値化したデータ）の解析にも本発明を使用することができる。

さらにまた、そうした機器分析によって得られたデータに基づく機械学習だけでなく、それ以外の様々な手法で収集されたデータに基づく機械学習により識別（ラベル付け）を行うデータ解析装置に本発明を利用可能であることも当然である。

即ち、上記実施例は本発明の一例にすぎず、上記記載以外の点において、本発明の趣旨の範囲で適宜変形、修正、追加等を行っても本願特許請求の範囲に包含されることは当然である。

１…データ解析部
１０…ミスラベル検出部
１１…データ分割部
１２…機械学習モデル構築部
１３…機械学習モデル適用部
１４…誤識別回数計数部
１５…ミスラベルサンプル特定部
１６…検出制御部
１７…ミスラベルサンプル除外部
１８…機械学習モデル作成部
１９…未知データ識別部
２…操作部
３…表示部

Claims

複数のサンプルについてのラベル付けされた教師データに基づいて機械学習モデルを構築し、該機械学習モデルを用いて未知のサンプルを識別してラベル付けするデータ解析装置であって、
前記教師データの中でミスラベル状態のサンプルを検出するミスラベル検出部を備え、該ミスラベル検出部は、
a)前記教師データの中から選択した又は該教師データとは別のラベル付きのデータであるモデル構築用データを用いて機械学習モデルを構築し、その構築された機械学習モデルを前記教師データの中から選択したモデル検証用データに適用してサンプルを識別しラベル付けを行う、という一連の処理を複数回繰り返す繰返し識別実行部と、
b)前記繰返し識別実行部による一連の処理の複数回の繰り返しの際に、その識別結果であるラベルと元々データに付されていたラベルとが不一致であった誤識別の回数をサンプル毎に求め、その誤識別回数又はその誤識別の確率に基づいてサンプルがミスラベル状態であるか否かを判定するミスラベル判定部と、
を備えることを特徴とするデータ解析装置。
請求項１に記載のデータ解析装置であって、
前記ミスラベル検出部は、前記ミスラベル判定部によりミスラベル状態であると判定されたサンプルを教師データから除去したあとの教師データを用いて、前記繰返し識別実行部及び前記ミスラベル判定部による処理を１回以上実施することを特徴とするデータ解析装置。
請求項１に記載のデータ解析装置であって、
前記ミスラベル検出部は、前記教師データをモデル構築用データとモデル検証用データとに分割するデータ分割部を含み、
前記繰返し識別実行部は、前記一連の処理を実行する毎に前記データ分割部によるデータ分割を変更することを特徴とするデータ解析装置。
請求項１に記載のデータ解析装置であって、
前記繰返し識別実行部は機械学習の手法を一種類のみ用いることを特徴とするデータ解析装置。
請求項１に記載のデータ解析装置であって、
前記繰返し識別実行部は機械学習の手法を二種類以上用いることを特徴とするデータ解析装置。
請求項１に記載のデータ解析装置であって、
前記繰返し識別実行部は機械学習の手法としてランダムフォレストを用いることを特徴とするデータ解析装置。
請求項１に記載のデータ解析装置であって、
前記繰返し識別実行部は機械学習の手法としてサポートベクターマシンを用いることを特徴とするデータ解析装置。
請求項１に記載のデータ解析装置であって、
前記繰返し識別実行部は機械学習の手法としてニューラルネットワークを用いることを特徴とするデータ解析装置。
請求項１に記載のデータ解析装置であって、
前記繰返し識別実行部は機械学習の手法として線形判別法を用いることを特徴とするデータ解析装置。
請求項１に記載のデータ解析装置であって、
前記繰返し識別実行部は機械学習の手法として非線形判別法を用いることを特徴とするデータ解析装置。
請求項１に記載のデータ解析装置であって、
前記ミスラベル判定部は誤識別率が最も高いサンプルをミスラベル状態であると判定することを特徴とするデータ解析装置。
請求項１に記載のデータ解析装置であって、
前記ミスラベル判定部は誤識別率が高い順にユーザに指定された個数のサンプルをミスラベル状態であると判定することを特徴とするデータ解析装置。
請求項１に記載のデータ解析装置であって、
前記ミスラベル判定部は誤識別率が１００％であるサンプルをミスラベル状態であると判定することを特徴とするデータ解析装置。
請求項１に記載のデータ解析装置であって、
前記ミスラベル判定部は誤識別率がユーザにより設定された閾値以上であるサンプルをミスラベル状態であると判定することを特徴とするデータ解析装置。
請求項２に記載のデータ解析装置であって、
前記ミスラベル検出部は、誤識別率が所定の閾値以下になるまで前記繰返し識別実行部及び前記ミスラベル判定部による処理を繰り返し実施することを特徴とするデータ解析装置。
請求項１に記載のデータ解析装置であって、
前記ミスラベル判定部による識別結果に基づいた表又はグラフを作成して該表又はグラフを表示部に表示する結果表示処理部をさらに備えることを特徴とするデータ解析装置。