JP6729457B2 - データ解析装置 - Google Patents

データ解析装置 Download PDF

Info

Publication number
JP6729457B2
JP6729457B2 JP2017050713A JP2017050713A JP6729457B2 JP 6729457 B2 JP6729457 B2 JP 6729457B2 JP 2017050713 A JP2017050713 A JP 2017050713A JP 2017050713 A JP2017050713 A JP 2017050713A JP 6729457 B2 JP6729457 B2 JP 6729457B2
Authority
JP
Japan
Prior art keywords
data
data analysis
analysis device
mislabel
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017050713A
Other languages
English (en)
Other versions
JP2018155522A5 (ja
JP2018155522A (ja
Inventor
藤田 雄一郎
雄一郎 藤田
陽 野田
陽 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Original Assignee
Shimadzu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp filed Critical Shimadzu Corp
Priority to JP2017050713A priority Critical patent/JP6729457B2/ja
Publication of JP2018155522A publication Critical patent/JP2018155522A/ja
Publication of JP2018155522A5 publication Critical patent/JP2018155522A5/ja
Application granted granted Critical
Publication of JP6729457B2 publication Critical patent/JP6729457B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Description

本発明は、質量分析装置、ガスクロマトグラフ(GC)、液体クロマトグラフ(LC)、分光測定装置といった各種分析装置で得られたデータなど、様々な手法で収集されたデータを解析するデータ解析装置に関し、さらに詳しくは、機械学習の一手法である教師あり学習を利用してラベルの付されていないデータを識別してラベル付けを行ったりラベルを予測したりするデータ解析装置に関する。なお、一般に「機械学習」との用語には多変量解析を含まない場合もあるが、本明細書では、機械学習は多変量解析を含むものとする。
多種多様である大量のデータの中から規則性を見いだし、それを利用してデータの予測や識別を行うために、機械学習は有用な手法の一つであり、その応用分野は近年ますます広がっている。機械学習の代表的な手法としては、サポートベクターマシン(SVM=Support Vector Machine)、ニューラルネットワーク(Neural Network)、ランダムフォレスト(Random Forest)、アダブースト(AdaBoost)、ディープラーニング(Deep Learning)、などがよく知られている。また、広義の機械学習に含まれる多変量解析の代表的な手法としては、主成分分析(PCA=Principal Component Analysis)、独立成分分析(ICA=Independent Component Analysis)、部分最小二乗法(PLS=Partial Least Squares)などがよく知られている(特許文献1等参照)。
機械学習には大別して教師あり学習と教師なし学習とがある。例えば、被検者について分析装置で収集されたデータに基づいて特定の疾病の有無を識別するような場合、その疾病に罹患している患者と罹患していない正常者とについてそれぞれ予め多数のデータを集めることが可能であれば、それらデータを教師データとする教師あり学習が可能である。最近では特に、質量分析装置により取得したマススペクトルデータに、教師あり学習を適用して、癌などの疾病の診断を行う試みが各所で進められている。
図12は、癌検体と非癌検体についてのマススペクトルデータを教師データとして整理したピークマトリクスの一例である。
このピークマトリクスは、縦方向にサンプル、横方向にピーク位置(質量電荷比m/z)をとり、各ピークの信号強度値を要素の値としたものである。したがって、このピークマトリクスにおける1行の各要素は、一つのサンプルについての各質量電荷比におけるピークの信号強度値を示しており、1列の各要素は或る質量電荷比における全てのサンプルの信号強度値を示している。ここでは、sample 1〜sample n-2までのサンプルが癌検体であり、それら各サンプルには癌であることを示す「1」の値のラベルが付されている。一方、sample n-1〜sample Nまでのサンプルが非癌検体であり、それら各サンプルには非癌であることを示す「0」の値のラベルが付されている。この場合、ラベルは二値のラベルである。
こうしたラベル付教師データを用いることで、癌と非癌とを高い確度で識別できる機械学習モデルを構築することができる。しかしながら、場合によっては、教師データ自体のラベルが誤っていることがある。そもそも、癌と非癌(或いは他の疾病の罹患と非罹患)の判定は病理医の診断に基づくものであり、人間が判断する以上、誤りをゼロにすることは実際上不可能である。また、病理医診断結果は正しくても、それを教師データとして入力する際のオペレータの入力ミスでラベルが誤ることも考えられる。そのため、教師データとして与えられる多数のサンプルに、ラベルが誤っているミスラベル状態のサンプルが少数混じることは避けられない。
こうした状況に対応する一つの方法としては、機械学習のアルゴリズムを、教師データの中にミスラベル状態のサンプルが若干混じっていても高い識別性能が得られるようなものとすることである。しかしながら、ミスラベル状態である教師データへの耐性を高めようとすると識別性能の低下が避けられず、それらを両立できる汎用的な機械学習の手法は実現されていない。
またミスラベル状態のサンプルが混じることの他の対応方法は、機械学習モデルを構築する前にミスラベル状態であるサンプルを見つけて除去する又はラベルを正しく付け替えることである。非特許文献1に記載のように、機械学習によって付与されたラベルの誤りを検出する手法は提案されているものの、教師データとして与えられたサンプルがミスラベルであるのか否かを判断するための信頼性の高い統計学的な方法は従来存在しない。そのため、データにミスラベルが含まれているか否かは、例えば医療データにおいては測定日や病理医の診断結果などと教師データに付与されているラベルとが一致しているか否かを逐一チェックするという原始的な方法しかないのが実状である。こうした方法は大変に人手が掛かり効率が悪い。またこの方法でも、病理医の診断自体が誤っていた場合に、そのサンプルが真にミスラベルであるか否かを決めることは殆ど不可能である。
特開2017−32470号公報
板橋、ほか2名、「誤ラベルデータ検出による半教師有り学習の研究」、情報処理学会全国大会講演論文集、2010年03月08日発行、第72巻、第2号、pp.463-464
本発明は上記課題を解決するために成されたものであり、その目的とするところは、教師データとして与えられた多数のデータの中からミスラベル状態である可能性の高いサンプルを的確に特定して除去する又はラベルの付け替えを行うことにより、識別性能の高い機械学習モデルを構築することができるデータ解析装置を提供することである。
上記課題を解決するために成された本発明は、複数のサンプルについてのラベル付けされた教師データに基づいて機械学習モデルを構築し、該機械学習モデルを用いて未知のサンプルを識別してラベル付けするデータ解析装置であって、
前記教師データの中でミスラベル状態のサンプルを検出するミスラベル検出部を備え、該ミスラベル検出部は、
a)前記教師データの中から選択した又は該教師データとは別のラベル付きのデータであるモデル構築用データを用いて機械学習モデルを構築し、その構築された機械学習モデルを前記教師データの中から選択したモデル検証用データに適用してサンプルを識別しラベル付けを行う、という一連の処理を複数回繰り返す繰返し識別実行部と、
b)前記繰返し識別実行部による一連の処理の複数回の繰り返しの際に、その識別結果であるラベルと元々データに付されていたラベルとが不一致であった誤識別の回数をサンプル毎に求め、その誤識別回数又はその誤識別の確率に基づいてサンプルがミスラベル状態であるか否かを判定するミスラベル判定部と、
を含むことを特徴としている。
本発明に係るデータ解析装置において、機械学習はいわゆる教師あり学習を行う多変量解析を含む。また、本発明に係るデータ解析装置において、解析対象であるデータの内容や種類は特に問わないが、典型的には、様々な分析装置で収集された分析データや測定データとすることができる。具体的には、質量分析装置で得られたマススペクトルデータ、GCやLCで得られたクロマトグラムデータ、分光測定装置で得られた吸光スペクトルデータ、DNAマイクロアレイ解析で得られたデータなどとすることができる。もちろん、それ以外の様々な手法で収集されたデータを対象とすることができる。
本発明に係るデータ解析装置では、与えられた複数(通常は非常に多数)のサンプルについてのラベル付けされた教師データに基づいて機械学習モデルを構築するが、その前にミスラベル検出部は、その与えられた教師データの中でラベルが誤っているミスラベル状態のサンプルを検出する。即ち、繰返し識別実行部は、例えば与えられた教師データの中からモデル構築用データとモデル検証用データとをそれぞれ適宜選択し、前者のデータを用いて仮の機械学習モデルを構築する。そして、その仮の機械学習モデルを後者のデータに適用することで、モデル検証用データとして選択されたサンプルをそれぞれ識別しラベル付けする。なお、モデル構築用データは必ずしも与えられた教師データ(つまりはミスラベル状態か否かの判定対象であるデータ)に含まれるデータである必要はなく、全く別のラベル付きデータであってもよい。また、モデル構築用データとモデル検証用データとは一部が重なっていてもよいし、全く同一であってもよい。したがって、与えられた教師データの全てをモデル構築用データ及びモデル検証用データとしても構わない。
いま例えば、真に癌であるのに非癌のラベル付けがされたサンプル(つまりはミスラベル状態であるサンプル)を或る機械学習モデルで識別すると、多くの場合、このサンプルは癌であると識別される筈である。ただし、該サンプルに付加されているラベルは非癌のラベルであるから、識別結果であるラベルと元のラベルとが一致していないという意味でこれは誤識別であるといえる。一方、正しいラベルが付されているサンプルを同じ機械学習モデルで識別すると、多くの場合、識別結果であるラベルと元のラベルとが一致して正識別となる。機械学習モデルが一つのみである場合、或るサンプルのラベルと識別結果であるラベルとが一致せず誤識別であると判定されても、元のラベルが正しく識別が誤っているのか、逆に識別自体は正しいが元のラベルが誤っているか、を高い確度で判断することは実質上不可能である。しかしながら、確率的にいえば、ミスラベル状態である場合に誤識別となる可能性のほうが高いため、異なる複数の機械学習モデルを用いて同じサンプルについての識別を試みて誤識別の回数を計数すれば、ミスラベル状態であるサンプルでは誤識別回数が多く、一方、正しいラベルのサンプルでは誤識別回数は少なくなる筈である。
そこで繰返し識別実行部は、上述した一連の処理を、例えばそれぞれ同一でないモデル構築用データについて複数回繰り返す。機械学習の手法自体は同じであってもモデル構築用データが変わると機械学習モデルは変わるから、異なる複数の機械学習モデルを用いた識別を繰り返すことになる。ミスラベル判定部は、このような一連の処理の複数回の繰り返しの際の誤識別の回数をサンプル毎に求める。つまり同じサンプルについての誤識別回数を計数する。上述したようにミスラベル状態であるサンプルでは誤識別回数が相対的に多くなるから、ミスラベル判定部は、計数された誤識別回数に基づいて又はその誤識別回数から求めた誤識別率に基づいて、サンプル毎にミスラベル状態であるか否かを判定する。サンプル毎に誤識別回数が相対的に多いか少ないか又は誤識別率が相対的に高いか低いかを判定する必要があるから、当然のことながら、この判定に十分である程度に、上述した一連の処理の繰り返し回数を多くしておく必要がある。
以上のようにして本発明に係るデータ解析装置では、ミスラベル検出部は、多数の癌サンプル由来の教師データの中でラベルが誤っている可能性が高いサンプルを検出することができる。したがって、こうして検出されたサンプルを教師データから除外して教師データの質を高めることで、その教師データを用いて構築される機械学習モデルの識別性能を向上させることができる。また、ラベルが癌と非癌のような二値のラベルである場合、ラベルの付け替えは容易であるから、ミスラベル状態である可能性が高いとして特定されたサンプルを除外せずにラベルを付け替えて教師データとして残しても構わない。
本発明に係るデータ解析装置において好ましくは、前記ミスラベル検出部は、前記ミスラベル判定部によりミスラベル状態であると判定されたサンプルを教師データから除去したあとの教師データを用いて、前記繰返し識別実行部及び前記ミスラベル判定部による処理を1回以上実施する構成とするとよい。
ミスラベル状態であるサンプルを教師データから除去すると、その除去後の教師データを用いて構築された機械学習モデルの識別性能は向上する。したがって、この構成によれば、ミスラベル状態か否かを判定することが難しいデータについても高い信頼性を以て判定することが可能となり、結果的に、ミスラベル検出の精度を向上させることができる。
また本発明に係るデータ解析装置では、上述したようにモデル構築用データは必ずしもミスラベル状態か否かの判定対象である教師データである必要はないが、実用上、その教師データの中からモデル構築用データを選択することが好ましい。
そこで、本発明に係るデータ解析装置の一態様として、
前記ミスラベル検出部は、前記教師データをモデル構築用データとモデル検証用データとに分割するデータ分割部を含み、
前記繰返し識別実行部は、前記一連の処理を実行する毎に前記データ分割部によるデータ分割を変更する構成とすることができる。
この場合、具体的には、データ分割部は例えば乱数表を利用して、教師データをモデル構築用データとモデル検証用データとにランダムに分割するとよい。なお、この場合、モデル構築用データとモデル検証用データとの分割をやり直しても、ごく低い確率でそれぞれのデータが変更前と又はすでに識別を実施した処理と同じになる可能性があるが、繰り返しの回数が多ければその影響は殆ど現れない。
また本発明に係るデータ解析装置において前記繰返し識別実行部は、機械学習の手法を一種類のみ用いる構成としてもよいし、機械学習の手法を二種類以上用いる構成としてもよい。当然のことながら、機械学習の手法を二種類以上用いるとそれだけ装置の構成(実質的には演算処理のプログラム)が複雑になるが、異なる手法を適切に組み合わせることでミスラベル検出の精度を高めることができる。一方、機械学習の手法は一種類のみであっても、繰返しの回数を増やすことでミスラベル検出の精度を高めることができる。
また本発明に係るデータ解析装置において、前記繰返し識別実行部で用いる機械学習の手法は教師あり学習を行うものであれば特に限定されないが、例えば、ランダムフォレスト、サポートベクターマシン、ニューラルネットワーク、線形判別法、非線形判別法などとするとよい。どのような手法を用いるのかは、解析対象であるデータの種類、性質などにより適宜選択することが好ましい。例えば本発明者の検討によれば、質量分析により得られたマススペクトルデータに基づいて被検体が癌であるか非癌であるかを識別する場合、ランダムフォレストを用いるとミスラベルの検出精度が相対的に高いことが確認できた。
また本発明に係るデータ解析装置において、ミスラベル判定部によるミスラベル状態の判定は様々な基準で以て行うことができる。一つの態様として、前記ミスラベル判定部は誤識別率が最も高いサンプルをミスラベル状態であると判定する構成とするとよい。
この場合、ミスラベル状態である可能性が最も高い一つのサンプルがミスラベル状態であると判定されるので、上述したように、ミスラベル状態であると判定されたサンプルを一つずつ除去しつつ、繰返し識別実行部及びミスラベル判定部による処理を繰り返すことでミスラベル状態である可能性が高い複数のサンプルを除去可能とするとよい。
また別の態様として、前記ミスラベル判定部は誤識別率が高い順にユーザに指定された個数のサンプルをミスラベル状態であると判定する構成としてもよい。
この構成では、ミスラベル状態である可能性が高い複数のサンプルを一度に除去することができるため、処理時間を短縮することができる。
さらにまた別の態様として、前記ミスラベル判定部は誤識別率が100%であるサンプルをミスラベル状態であると判定する構成としてもよい。
この構成では、ミスラベル状態である可能性が高い複数のサンプルを高い信頼性を以て除去することができる。
さらにまた別の態様として、前記ミスラベル判定部は誤識別率がユーザにより設定された閾値以上であるサンプルをミスラベル状態であると判定する構成としてもよい。
また本発明に係るデータ解析装置において、上述したように、繰返し識別実行部及びミスラベル判定部による処理を繰り返し実施する場合、前記ミスラベル検出部は、誤識別率が所定の閾値以下になるまで前記繰返し識別実行部及び前記ミスラベル判定部による処理を繰り返し実施する構成とするとよい。
この構成によれば、ミスラベル状態である可能性のあるサンプルをより確実に検出することができる。ただし、場合によっては繰り返し回数が多くなりすぎることもあるから、繰り返し回数に制限を設けたり或いは実行時間に制限を設けたりして、誤識別率が所定の閾値以下にならない場合であってもその制限に抵触したときには処理を終了するとよい。
また本発明に係るデータ解析装置では、前記ミスラベル判定部による識別結果に基づいた表又はグラフを作成して該表又はグラフを表示部に表示する結果表示処理部をさらに備える構成とするとよい。
具体的には、例えば教師データ全体のサンプル毎の誤識別回数や誤識別率の分布をグラフで示すことで、誤識別回数や誤識別率がどの程度であればミスラベル状態のサンプルであるとみなすかの判定基準をユーザが容易に決定することができる。
本発明に係るデータ解析装置によれば、与えられた教師データのラベルが誤っているか否かを自動的に判定し、ミスラベル状態である可能性が高いサンプルを特定することができる。それにより、例えばそうしたサンプルを教師データから除外したりラベルを付け替えたりすることで教師データの質を向上させ、識別性能が従来よりも高い機械学習モデルを構築し、未知サンプルをより正確に識別することが可能となる。
本発明に係るデータ解析装置の一実施例である癌/非癌識別装置の機能ブロック構成図。 本実施例の癌/非癌識別装置におけるミスラベル検出処理のフローチャート。 本実施例の癌/非癌識別装置におけるミスラベル検出処理の変形例のフローチャート。 本実施例の癌/非癌識別装置における教師データの分割処理の模式図。 本実施例の癌/非癌識別装置におけるミスラベル検出能力を検証するためのシミュレーションに用いたデータの説明図。 XOR状態にある二つのマーカーピークの信号強度と癌又は非癌の状態との関係を示す図。 シミュレーションデータとして線形データを用いた場合のミスラベル検出結果を示す図。 シミュレーションデータとして線形データを用いた場合のミスラベル検出結果を示す図。 シミュレーションデータとして非線形データを用いた場合のミスラベル検出結果を示す図。 シミュレーションデータとして非線形データを用いた場合のミスラベル検出結果を示す図。 ミスラベル検出結果の表示例を示す図。 癌検体と非癌検体についてのマススペクトルデータを教師データとして整理したピークマトリクスの一例を示す図。
以下、本発明に係るデータ解析装置の一実施例である癌/非癌識別装置について、添付図面を参照して説明する。
図1は本実施例の癌/非癌識別装置の機能ブロック構成図である。
この癌/非癌識別装置は、被検者由来の生体試料を図示しない質量分析装置で質量分析することで得られたマススペクトルデータが未知サンプルデータとして入力されたとき、それが癌であるか又は非癌であるのかを判定する装置であり、データ解析部1と、ユーザインターフェイスである操作部2、表示部3と、を備える。
データ解析部1は、ミスラベル検出部10、ミスラベルサンプル除外部17、機械学習モデル作成部18、及び未知データ識別部19、を機能ブロックとして含む。また、ミスラベル検出部10は、データ分割部11、機械学習モデル構築部12、機械学習モデル適用部13、誤識別回数計数部14、ミスラベルサンプル特定部15、検出制御部16を機能ブロックとして含む。
データ解析部1に含まれる各機能ブロックはハードウェアで構成することも可能ではあるが、実用上は、パーソナルコンピュータやより高性能なワークステーション等をハードウェア資源とし、該コンピュータにインストールされた専用のソフトウェアを該コンピュータ上で実行することにより、上記各機能ブロックが具現化される構成とするとよい。
データ解析部1には、図12に示したような癌又は非癌のラベルが付された多数のサンプル由来のマススペクトルデータ(ピークが存在する質量電荷比毎のピーク信号強度を示すデータ)がラベル付き教師データとして予め与えられる。ミスラベル検出部10は、与えられた教師データの中でミスラベル状態の可能性が高いサンプルを検出する。ミスラベルサンプル除外部17は、ミスラベル検出部10により検出されたサンプルを教師データから除外するか、或いは、検出されたサンプルに付されているラベルを付け替える。ここでは、ラベルは癌:1、非癌:0の二値であるので、ラベルの付替えは単に1→0、0→1に値を変更すればよい。
機械学習モデル作成部18は、ミスラベルサンプル除外部17で一部のサンプルが除外された又はラベルが付け替えられたあとの教師データを用いて、機械学習モデルを構築する。ここで用いる機械学習の手法は、後述するミスラベル検出部10で用いられている機械学習の手法と同じであってもよいが、必ずしも同じである必要はない。未知データ識別部19は機械学習モデル作成部18で構築された機械学習モデルを用いて未知サンプル由来のマススペクトルデータを判定し、該未知サンプルについて癌であるか非癌であるかのラベルを付与する。こうした識別結果は表示部3から出力される。
機械学習モデル作成部18で識別性能の高い機械学習モデルを構築するには、教師データの中に混入している可能性がある誤ってラベル付けされたサンプルを、できるだけ少なくすることが重要である。そこで、本実施例の癌/非癌識別装置におけるミスラベル検出部10では、以下に述べるような特徴的な処理によって、ミスラベル状態の可能性が高いサンプルを精度良く検出している。図2は本実施例の癌/非癌識別装置におけるミスラベル検出処理のフローチャート、図4はラベル付き教師データの分割処理の模式図である。
検出制御部16の制御の下で、データ分割部11は図12に示したようなラベル付き教師データを読み込む(ステップS1)。即ち、このラベル付き教師データは、sample 1、sample 2、…、sample N-1、sample Nというサンプル名であるN個のサンプルそれぞれのマススペクトルデータであり、各サンプルに癌:「1」、非癌:「0」の二値のラベルが付されたものである。なお、一般にNの数は多いほうがよいが、どの程度の数が必要であるのかはデータの性質などによっても異なるから、予め確認しておくことが望ましい。
データ分割部11は、読み込んだ多数のサンプル由来の教師データを、機械学習モデルの構築のために使用するモデル構築用データと、構築した機械学習モデルを適用するモデル検証用データとに分割する(ステップS2)。
ここでは、総数がN個であるサンプルから得られたデータを、乱数表を用いて、M個のデータセットに分割し、そのうちのM−1個のデータセットをモデル構築用データとし、残りの1個のデータセットをモデル検証用データにする。こうして、与えられた教師データをモデル構築用データとモデル検証用データとに分割する(図4参照)。なお、後述するシミュレーション検証の際にはMを5としている。
データの分割には乱数表を用いるため、確率的には分割をやり直したときにデータセットに含まれるデータの組合せが同じであることもあり得るが、実際には殆どの場合、分割をやり直したときにデータセットに含まれるデータの組合せは変わる。
次に機械学習モデル構築部12は上記ステップS2で得られたモデル構築用データを用いて、つまりは教師データとして、所定の手法による機械学習モデルを構築する(ステップS3)。ここで使用する機械学習の手法は、教師あり学習でありさえすればその手法を問わない。例えば、ランダムフォレスト、サポートベクターマシン、ニューラルネットワーク、線形判別法、非線形判別法などとすることができる。
機械学習モデル適用部13は、上記ステップS3において構築された機械学習モデルに上記ステップS2で得られたモデル検証用データを適用し、その各サンプルが癌であるか非癌であるのか識別してラベルを付与する(ステップS4)。ここで付与されたサンプル毎のラベルは例えば内部のメモリに、サンプル名に対応付けて記憶しておく。そして、検出制御部16はステップS2〜S4の一連の処理を規定回数P繰り返したか否かを判定し(ステップS5)、繰返し回数が規定回数Pに達していなければステップS2へと戻る。
ステップS2に戻ると、データ分割部11は再び多数のサンプル由来の教師データをモデル構築用データとモデル検証用データとに分割する。このとき、モデル構築用データ及びモデル検証用データはそれぞれ1回目のときとは異なる組合せである可能性がきわめて高い。機械学習の手法が同じであったとしても、モデル構築用データが異なると、これに基づいて構築される機械学習モデルも当然異なるものとなる。そこで、この前回とは異なる機械学習モデルをモデル検証用データに適用すると、そのモデル検証用データの中に前回と同じサンプルがあったとしても識別結果が相違する可能性がある。こうして、教師データの分割を変えながら、ステップS2〜S5の処理を規定回数Pだけ繰り返す。
上述したように、また図4に示したように、モデル検証用データに含まれるサンプルの組合せは通常、上記の繰り返しの度に変化するが、Pを或る程度大きくすれば、同じサンプルが何度もモデル検証用データに含まれ、その度にステップS4の処理によるラベル付けがなされる。そこで、上記一連の処理の繰り返し回数が規定回数Pになったあと(ステップS5でYes)、誤識別回数計数部14は、サンプル毎に、元々付与されていたラベルと識別結果であるラベルとが不一致である回数つまりは誤識別の回数を計数する(ステップS6)。この誤識別回数は、ステップS1で読み込んだ教師データに含まれるサンプル毎に求まる。
機械学習モデルに基づく識別では、本当に癌であるのに非癌であると判定する、又はその逆に本当は非癌であるのに癌であると判定するような可能性もあるものの、その確率は低い。換言すれば、元々付与されていたラベルと識別結果であるラベルとが一致しない、つまり誤識別である場合、機械学習モデルに基づく識別自体が誤っているよりも元々付与されていたラベルが誤っている(ミスラベル状態である)可能性のほうが高いといえる。もちろん、1回の識別結果のみからはそう判断するのは難しいが、機械学習モデルを変えながら識別を繰り返したときに誤識別の回数が多ければ、元々付与されていたラベルが誤っていると考えたほうが妥当である。そこで、ミスラベルサンプル特定部15は、サンプル毎に求まった誤識別回数に基づいてミスラベル状態である可能性が高いサンプルを特定する(ステップS7)。
ただし、識別の実行回数はサンプル毎に同じではないため、絶対値である誤識別回数で比較するのは必ずしも適切ではない。そこで、サンプル毎に、識別の実行回数と誤識別回数とから誤識別率を計算し、その誤識別率に基づいてミスラベル状態である可能性が高いサンプルを特定するとよい。
誤識別率に基づいてミスラベル状態か否かを判定する際には、次のようないくつかの判定基準のいずれかを採用すればよい。
(1)誤識別率が最も高い一つのサンプルをミスラベル状態であると判定する。ただし、誤識別率が最も高いサンプルが複数存在する場合には、その複数のサンプルの全てをミスラベル状態であると判定すればよい。
(2)ミスラベル状態であると判定するサンプルの数をパラメータとして予めユーザが操作部2から指定しておき、誤識別率が高い順にその指定された個数のサンプルをミスラベル状態であると判定する。
(3)誤識別率が100%であるサンプルのみをミスラベル状態であると判定する。誤識別率が100%であるサンプルが複数存在する場合には、その複数のサンプルの全てをミスラベル状態であると判定すればよい。
(4)ミスラベル状態であると判定する誤識別率の閾値をパラメータとして予めユーザが操作部2から指定しておき、誤識別率がその閾値以上であるサンプルをミスラベル状態であると判定する。
もちろん、上記(1)〜(4)は適宜に組み合わせることができる。例えば、(1)と(4)とを組み合わせ、誤識別率が或る閾値以上であって最も高い誤識別率のサンプルをミスラベル状態であると判定してもよい。当然、与えられた教師データの中にミスラベル状態であるサンプルが一つも存在しないということもあり得るから、基本的には、誤識別率が低いサンプルはミスラベル状態ではないと推定するのが妥当であり、逆に、極端に誤識別率が高いサンプルはミスラベル状態ではあると推定するのが妥当である。
こうしてミスラベル状態であるサンプルが特定されたならば、ミスラベル検出結果や誤識別検出結果を表形式又はグラフ形式に整理して表示部3に表示し、ユーザに提示すればよい(ステップS8)。
また、上述したようにミスラベルサンプル除外部17は上述したようにミスラベル状態である可能性が高いと判定されたサンプルを教師データから除外したりラベルを付け替えたりして、実際の識別を行う機械学習モデルを構築するための教師データを生成すればよい。
なお、一般的に上記のような統計的な処理の際には、統計誤差を小さくするためにクロスバリデーションと呼ばれる手法が用いられる。 厳密な意味でのクロスバリデーションでは、M個に分割したデータセットのうちのM−1個のデータセットをモデル構築用データとして機械学習モデルを構築し、残りの一つのデータセットをモデル検証用データしてその機械学習モデルに適用して識別するという処理を、モデル検証用データとして選択するデータセットを変えながらM回実行して、例えば誤識別率の平均値を計算する。これに対し、上記実施例の処理では、ステップS2で分割したデータセットについては一回の処理を実施するだけであるので、厳密な意味でのクロスバリデーションとは異なる。しかしながら、データセットに含まれるサンプルを入れ替えつつステップS2〜S5の処理を多数回繰り返すことにより、実質的にクロスバリデーションと同様の効果が得られることになる。
図2を用いて説明したミスラベル検出処理では、ステップS2〜S4の一連の処理を規定回数Pだけ繰り返したあと、ミスラベル状態である可能性が高いサンプルを一度にまとめて検出しているが、図3に示すようにミスラベル検出処理のフローチャートを変形することもできる。図3においてステップS11〜S15の処理は図2中のステップS〜S5の処理と全く同じである。
この例では、ステップS15Yesと判定されたあと、サンプル毎に求まった誤識別率が最も高い一つ又は複数のサンプルをミスラベル状態であるサンプルとして教師データから除去する(ステップS16)。こうして教師データの質を高めたあと、ステップS12に戻り、ステップS12〜S16の処理を再度実行する。そうして、サンプル毎に求まった誤識別率が最も高い一つ又は複数のサンプルをミスラベル状態であるサンプルとして教師データから再び除去する。このステップS12〜S16の処理を規定回数Qだけ繰り返すか、又は、最も高い誤識別率が所定の値以下になる、若しくは、その誤識別率の変化が所定の範囲に収束したならば(ステップS17でYes)、処理を終了する。
このようにミスラベル状態である可能性が高いサンプルを段階的に除去することで、ミスラベルでないサンプルを誤って除去することを避けながら、より的確に、つまりは真にミスラベル状態であるサンプルのみを除去して教師データの質をより一層高めることができる。
[シミュレーションによるミスラベル検出処理の評価]
次に、上述したミスラベル検出処理によりミスラベル状態であるサンプルが適切に検出されるのかを、シミュレーションにより評価した結果について説明する。このシミュレーションによる評価では、上述したようにデータセットへの分割数Mは5とし、規定回数Pは500とした。また、機械学習の手法としてランダムフォレストを用いた。また、評価に用いたデータ(教師データ)としては、図5に示すように、線形データと、非線形データとの両方を用いた。
[線形データを用いたシミュレーションの方法と結果]
ここでいう線形データとは、癌と非癌との間で、マススペクトル上の全てのマーカーピークの信号強度差が十分に存在するデータのことをいう。マーカーピークの数が十分に多く、癌と非癌とでピークの信号強度差が十分にあれば、主成分分析やOPLS−DA(判別分析の一種であるPLS−DA(Partial Least Squares Discriminant Analysis)の改良版)などの多変量解析の手法でも癌と非癌という二つの群に分けることが可能である。そこで、ここでは、癌と非癌との間での信号強度差が殆どない10本のマーカーピークを含むデータをシミュレーションに用いた。このデータについて主成分分析を行っても二群への分類が不可能であることは確認済みである。
また、シミュレーションデータは既知のデータであるからラベルは当然100%正当である。そこで、癌及び非癌のサンプルからそれぞれランダムに10個のサンプルを選択し、それら合計20個のサンプルのラベルを付け替えることで、人為的なミスラベル検体を作成した。そして、この20個のサンプルがミスラベルサンプルであると特定できるか否かを検証した。
決定木を学習器としているランダムフォレストにおいては、調整を要する代表的なパラメータは決定木の数である。決定木の数を変化させたときの5分割クラスバリデーションにおける平均正答率を調べたところ、決定木が5〜20の範囲で決定木数に拘わらず、平均正答率はいずれも99.6%であった。そこで、ここでは決定木数を10に定めてミスラベル検出を試みた。
その検出結果を図7及び図8に示す。図7は非癌であるラベル付けされたサンプルのミスラベル検出結果、図8は癌であるラベル付けされたサンプルのミスラベル検出結果である。図7及び図8において(並びに後述する図9及び図10において)、モデル検証用データ採用回数はステップS4の処理による識別実行回数に相当する。
図7及び図8から分かるように、癌と非癌のいずれに対しても、ミスラベルサンプルについては誤識別率が100%になり、ミスラベルでないサンプルの誤識別率は0%であった。即ち、ミスラベル検出は完全に成功しているということができる。また、本データでは、ミスラベル混入データにおける癌/非癌判定の正答率は99.6%であるが、これは上記手法で検出されたミスラベルサンプルを除去することで正答率が100%になる。即ち、ミスラベルサンプルとして特定されたサンプルを教師データから除去することで、識別性能がきわめて高い機械学習モデルの構築が実現できることが確認できる。
[非線形データを用いたシミュレーションの方法と結果]
一般に収集されるデータの多くは少なからず非線形性を有しており、完全に線形であるデータがむしろ少ない。そこで、非線形シミュレーションデータについても上記ミスラベル検出処理の能力を評価した。
ここでいう非線形データとは、マススペクトル上の単一のピークでは癌/非癌の識別はできないものの、複数のピークを同時に考慮することで癌/非癌の識別が可能となるようなデータである。こうした状態である典型的なデータとして、二つのマーカーピークA、BがXOR状態であるデータを作成した。図6はXOR状態にある二つのマーカーピークの信号強度と癌又は非癌の状態との関係を示す図である。即ち、二つのマーカーピークA、Bはそれぞれ単体では癌/非癌の識別はできないものの、ピークA、Bの信号強度が共にそれぞれ閾値Ath、Bth以上であれば癌(領域c)、またピークA、Bの信号強度が共にそれぞれ閾値Ath、Bth未満であっても癌(領域b)である。一方、ピークBの信号強度が閾値Bth以上であってピークAの信号強度が閾値Ath未満であれば非癌(領域d)であり、ピークAの信号強度が閾値Ath以上であってピークBの信号強度が閾値Bth未満であっても非癌(領域a)である。したがって、例えば検体αは癌である。
人為的にミスラベルとした検体は、線形データと同じく癌、非癌それぞれ10サンプルずつ(サンプル番号も全く同じ)である。また、マーカーピークも線形シミュレーションデータと全く同じ質量電荷比のものを選択したが、10本のピークのうち、各2本がXOR状態になるように加工した。
こうしたデータについて決定木の数を変化させたときの5分割クラスバリデーションにおける平均正答率を調べたところ、決定木が5〜20の範囲で決定木数に拘わらず、平均正答率はいずれも99.6%であった。そこで、ここでも決定木数を10に定めてミスラベル検出を試みた。
その検出結果を図9及び図10に示す。図9は非癌であるラベル付けされたサンプルのミスラベル検出結果、図10は癌であるラベル付けされたサンプルのミスラベル検出結果である。
図9及び図10から分かるように、癌と非癌のいずれに対しても、ミスラベルサンプルについては誤識別率が100%になり、ミスラベルでないサンプルの誤識別率は0%であった。即ち、この場合にもミスラベル検出は完全に成功しているということができる。なお、各サンプルのモデル検証用データ採用回数は線形データ、非線形データで全く同じであるが、これはデータ分割に用いた乱数表の乱数が全く同じことによるもので、何ら評価結果に影響を与えるものではない。
図7〜図10を見れば明らかなように、ミスラベルサンプルについては全て誤識別率が100%であり、正当なラベルが付されたサンプルについては全て誤識別率が0%となっている。これは、主として、このシミュレーションで使用した機械学習の手法(ランダムフォレスト)の特性による。ミスラベル状態とそうでない場合とで誤識別率がこのように極端に異なる場合、誤識別率に基づいてミスラベルサンプルを特定するのは容易である。一方、別の機械学習の手法を用いた場合、誤識別率はこのようになるとは限らない。
図11は誤識別率の高い順にサンプル番号をソートして付したソート番号と誤識別率との概略的な関係を示す図である。
図11において、実線は上述したランダムフォレストを用いた、シミュレーションデータに対するミスラベル検出結果であり、一点鎖線はサポートベクターマシンを用いた、シミュレーションデータに対するミスラベル検出結果の一例である。このように、サポートベクターマシンを用いると、誤識別率が徐々に低下することがある。また、最高の誤識別率が100%にならないこともある。そのため、ミスラベル状態であるサンプルか否かを判定する閾値をユーザが指定するようにするか、或いは、図3に示したように誤識別率が最高であるサンプルを一つずつ除外していく方法が有用である。
図11に示したようなグラフ或いは同じ情報を含む表をユーザに提示することは、ミスラベル状態か否かを判定する判定基準をユーザが選択したり、そのための閾値等のパラメータを定めたり、さらには使用した機械学習の手法が適切であるか否かを判断したりするのに有効である。そこで、上記実施例の癌/非癌識別装置では、サンプル毎の誤識別率を算出したあと、図11に示すようなグラフ又はそれに相当する表などを作成して表示部3の画面上に表示するようにしてもよい。
上記実施例の癌/非癌識別装置では、ミスラベル検出部10において機械学習の手法としてランダムフォレストを用いたが、すでに例示した様々な教師あり学習の手法、例えばサポートベクターマシン、ニューラルネットワーク、線形判別法、非線形判別法などを用いることができることは明らかである。どのような手法を用いるのが適当であるかは、解析対象であるデータの性質等により異なるから、予め複数の機械学習手法を用意しておき、ユーザが任意に選択できるようしてもよい。
また、図2におけるステップS2〜S5の処理の繰り返し、又は図3におけるステップS12〜S15の処理の繰り返しの際に、一種類の機械学習手法を用いるのではなく複数種類の機械学習手法を用いてもよい。なお、複数の異なる種類の機械学習手法を用いる場合、当然のことながら、モデル構築用データが同じであっても構築される機械学習モデルはその機械学習手法毎に相違したものとなる。したがって、複数の異なる種類の機械学習手法を用いる場合であって、或る一つの手法による機械学習を実施したあとに別の手法による機械学習を行う際に、教師データの再分割を省略し、その前に実施した上記或る一つの手法による機械学習のときと同じモデル構築用データ及びモデル検証用データを用いて上記別の手法による機械学習を行っても構わない。
また上記実施例では、サンプル由来の教師データをモデル構築用データとモデル検証用データとに分割していたため、モデル構築用データとモデル検証用データとは必ず異なるデータになるが、これは必須ではない。例えば多数の教師データの中から任意に(例えば乱数表を用いて)モデル構築用データとモデル検証用データとをそれぞれ選択しても構わない。したがって、モデル構築用データとモデル検証用データとはその一部が共通していてもよい。また、モデル構築用データをそのままモデル検証用データに用いる、つまり両者が全く同じでも構わない。
また、上記実施例の装置は質量分析装置で得られたマススペクトルデータの解析に本発明を使用したものであるが、それ以外の様々な分析データや測定データについて機械学習を利用して何らかの識別を行う装置全般に本発明を適用できることは明らかである。例えば、質量分析装置と同様の分析装置の分野で言えば、LC装置やGC装置で得られたクロマトグラムデータ、分光測定装置で得られた吸光スペクトルデータなどを解析する装置に本発明を使用できることは明らかである。さらにまた、DNAマイクロアレイ解析で得られたデータ(画像を数値化したデータ)の解析にも本発明を使用することができる。
さらにまた、そうした機器分析によって得られたデータに基づく機械学習だけでなく、それ以外の様々な手法で収集されたデータに基づく機械学習により識別(ラベル付け)を行うデータ解析装置に本発明を利用可能であることも当然である。
即ち、上記実施例は本発明の一例にすぎず、上記記載以外の点において、本発明の趣旨の範囲で適宜変形、修正、追加等を行っても本願特許請求の範囲に包含されることは当然である。
1…データ解析部
10…ミスラベル検出部
11…データ分割部
12…機械学習モデル構築部
13…機械学習モデル適用部
14…誤識別回数計数部
15…ミスラベルサンプル特定部
16…検出制御部
17…ミスラベルサンプル除外部
18…機械学習モデル作成部
19…未知データ識別部
2…操作部
3…表示部

Claims (16)

  1. 複数のサンプルについてのラベル付けされた教師データに基づいて機械学習モデルを構築し、該機械学習モデルを用いて未知のサンプルを識別してラベル付けするデータ解析装置であって、
    前記教師データの中でミスラベル状態のサンプルを検出するミスラベル検出部を備え、該ミスラベル検出部は、
    a)前記教師データの中から選択した又は該教師データとは別のラベル付きのデータであるモデル構築用データを用いて機械学習モデルを構築し、その構築された機械学習モデルを前記教師データの中から選択したモデル検証用データに適用してサンプルを識別しラベル付けを行う、という一連の処理を複数回繰り返す繰返し識別実行部と、
    b)前記繰返し識別実行部による一連の処理の複数回の繰り返しの際に、その識別結果であるラベルと元々データに付されていたラベルとが不一致であった誤識別の回数をサンプル毎に求め、その誤識別回数又はその誤識別の確率に基づいてサンプルがミスラベル状態であるか否かを判定するミスラベル判定部と、
    を備えることを特徴とするデータ解析装置。
  2. 請求項1に記載のデータ解析装置であって、
    前記ミスラベル検出部は、前記ミスラベル判定部によりミスラベル状態であると判定されたサンプルを教師データから除去したあとの教師データを用いて、前記繰返し識別実行部及び前記ミスラベル判定部による処理を1回以上実施することを特徴とするデータ解析装置。
  3. 請求項1に記載のデータ解析装置であって、
    前記ミスラベル検出部は、前記教師データをモデル構築用データとモデル検証用データとに分割するデータ分割部を含み、
    前記繰返し識別実行部は、前記一連の処理を実行する毎に前記データ分割部によるデータ分割を変更することを特徴とするデータ解析装置。
  4. 請求項1に記載のデータ解析装置であって、
    前記繰返し識別実行部は機械学習の手法を一種類のみ用いることを特徴とするデータ解析装置。
  5. 請求項1に記載のデータ解析装置であって、
    前記繰返し識別実行部は機械学習の手法を二種類以上用いることを特徴とするデータ解析装置。
  6. 請求項1に記載のデータ解析装置であって、
    前記繰返し識別実行部は機械学習の手法としてランダムフォレストを用いることを特徴とするデータ解析装置。
  7. 請求項1に記載のデータ解析装置であって、
    前記繰返し識別実行部は機械学習の手法としてサポートベクターマシンを用いることを特徴とするデータ解析装置。
  8. 請求項1に記載のデータ解析装置であって、
    前記繰返し識別実行部は機械学習の手法としてニューラルネットワークを用いることを特徴とするデータ解析装置。
  9. 請求項1に記載のデータ解析装置であって、
    前記繰返し識別実行部は機械学習の手法として線形判別法を用いることを特徴とするデータ解析装置。
  10. 請求項1に記載のデータ解析装置であって、
    前記繰返し識別実行部は機械学習の手法として非線形判別法を用いることを特徴とするデータ解析装置。
  11. 請求項1に記載のデータ解析装置であって、
    前記ミスラベル判定部は誤識別率が最も高いサンプルをミスラベル状態であると判定することを特徴とするデータ解析装置。
  12. 請求項1に記載のデータ解析装置であって、
    前記ミスラベル判定部は誤識別率が高い順にユーザに指定された個数のサンプルをミスラベル状態であると判定することを特徴とするデータ解析装置。
  13. 請求項1に記載のデータ解析装置であって、
    前記ミスラベル判定部は誤識別率が100%であるサンプルをミスラベル状態であると判定することを特徴とするデータ解析装置。
  14. 請求項1に記載のデータ解析装置であって、
    前記ミスラベル判定部は誤識別率がユーザにより設定された閾値以上であるサンプルをミスラベル状態であると判定することを特徴とするデータ解析装置。
  15. 請求項2に記載のデータ解析装置であって、
    前記ミスラベル検出部は、誤識別率が所定の閾値以下になるまで前記繰返し識別実行部及び前記ミスラベル判定部による処理を繰り返し実施することを特徴とするデータ解析装置。
  16. 請求項1に記載のデータ解析装置であって、
    前記ミスラベル判定部による識別結果に基づいた表又はグラフを作成して該表又はグラフを表示部に表示する結果表示処理部をさらに備えることを特徴とするデータ解析装置。
JP2017050713A 2017-03-16 2017-03-16 データ解析装置 Active JP6729457B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017050713A JP6729457B2 (ja) 2017-03-16 2017-03-16 データ解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017050713A JP6729457B2 (ja) 2017-03-16 2017-03-16 データ解析装置

Publications (3)

Publication Number Publication Date
JP2018155522A JP2018155522A (ja) 2018-10-04
JP2018155522A5 JP2018155522A5 (ja) 2019-08-08
JP6729457B2 true JP6729457B2 (ja) 2020-07-22

Family

ID=63716388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017050713A Active JP6729457B2 (ja) 2017-03-16 2017-03-16 データ解析装置

Country Status (1)

Country Link
JP (1) JP6729457B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7299002B2 (ja) 2018-08-23 2023-06-27 ファナック株式会社 判別装置及び機械学習方法
WO2020096099A1 (ko) 2018-11-09 2020-05-14 주식회사 루닛 기계 학습 방법 및 장치
JP7197795B2 (ja) * 2019-05-22 2022-12-28 富士通株式会社 機械学習プログラム、機械学習方法および機械学習装置
JP7156213B2 (ja) * 2019-08-30 2022-10-19 株式会社島津製作所 質量分析データ処理方法、質量分析データ処理システム、及びプログラム
EP4032026A1 (en) * 2019-09-20 2022-07-27 Google LLC Robust training in the presence of label noise
CN114746859A (zh) * 2019-12-04 2022-07-12 富士通株式会社 评价方法、评价程序以及信息处理装置
WO2021140957A1 (ja) * 2020-01-08 2021-07-15 ソニーグループ株式会社 情報処理装置、情報処理方法、及び、プログラム
EP4131282A4 (en) * 2020-03-25 2024-04-17 Univ Hiroshima METHOD AND SYSTEM FOR DETERMINING A CLASS OF EVENTS BY AI
JP7456289B2 (ja) 2020-05-28 2024-03-27 富士通株式会社 判定プログラム、判定方法および情報処理装置
CN112698988B (zh) * 2020-12-30 2022-11-29 安徽迪科数金科技有限公司 一种基于分布式系统的解析超大文本文件处理方法
EP4057193A1 (en) * 2021-03-10 2022-09-14 Tata Consultancy Services Limited Method and system for identifying mislabeled data samples using adversarial attacks
CN114219026A (zh) * 2021-12-15 2022-03-22 中兴通讯股份有限公司 数据处理方法及其装置、计算机可读存储介质
US11990327B2 (en) 2022-02-18 2024-05-21 Shimadzu Corporation Method, system and program for processing mass spectrometry data

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11271295A (ja) * 1998-03-20 1999-10-05 Petroleum Energy Center Found 回帰分析システム
WO2005098446A2 (en) * 2004-03-31 2005-10-20 The Johns Hopkins University Biomarkers for ovarian cancer
US9362094B2 (en) * 2010-09-22 2016-06-07 The Board Of Trustees Of The University Of Arkansas Biomarkers for determining breast cancer bone metastasis
JP5905375B2 (ja) * 2012-10-25 2016-04-20 日本電信電話株式会社 誤分類検出装置、方法、及びプログラム
JP5997114B2 (ja) * 2013-08-14 2016-09-28 日本電信電話株式会社 雑音抑圧装置、雑音抑圧方法、およびプログラム
JP2016028229A (ja) * 2014-07-08 2016-02-25 キヤノン株式会社 データ処理装置、及びそれを有するデータ表示システム、試料情報取得システム、データ処理方法、プログラム、記憶媒体

Also Published As

Publication number Publication date
JP2018155522A (ja) 2018-10-04

Similar Documents

Publication Publication Date Title
JP6729457B2 (ja) データ解析装置
WO2020054028A1 (ja) データ解析装置
JP6729455B2 (ja) 分析データ解析装置及び分析データ解析方法
Rabosky et al. A robust semi-parametric test for detecting trait-dependent diversification
Kim et al. Dataset size and composition impact the reliability of performance benchmarks for peptide-MHC binding predictions
US20160216244A1 (en) Method and electronic nose for comparing odors
JP6715451B2 (ja) マススペクトル解析システム,方法およびプログラム
US20060259246A1 (en) Methods for efficiently mining broad data sets for biological markers
JP4860575B2 (ja) クロマトグラフィー質量分析の分析結果表示方法及び表示装置
CN110214271B (zh) 分析数据解析方法以及分析数据解析装置
CN112129741A (zh) 绝缘油老化分析方法、装置、计算机设备和存储介质
US10998083B2 (en) Method and apparatus for estimating the quantity of microorganisms within a taxonomic unit in a sample
US11435370B2 (en) Data analying device and program for data analysis
KR101874527B1 (ko) 유전자 분석판정 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램
Gibb et al. Mass spectrometry analysis using MALDIquant
Hediyeh-zadeh et al. MSImpute: imputation of label-free mass spectrometry peptides by low-rank approximation
Kuligowski et al. Application of discriminant analysis and cross-validation on proteomics data
JP6356015B2 (ja) 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム
WO2007063972A1 (ja) 有効因子抽出システムとその方法とそのプログラム
EP2834624A1 (en) A method for measuring performance of a spectroscopy system
KR102072894B1 (ko) 인트론과 엑손 구분에 기반한 이상 서열 식별 방법
CN107622184B (zh) 氨基酸可信度和修饰位点定位的评估方法
Skarysz et al. Fast and automated biomarker detection in breath samples with machine learning
Dittwald et al. Towards automated discrimination of lipids versus peptides from full scan mass spectra
CN105095689A (zh) 一种基于韦恩预测的电子鼻数据挖掘方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190626

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200615

R151 Written notification of patent or utility model registration

Ref document number: 6729457

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151