JP6729457B2 - データ解析装置 - Google Patents
データ解析装置 Download PDFInfo
- Publication number
- JP6729457B2 JP6729457B2 JP2017050713A JP2017050713A JP6729457B2 JP 6729457 B2 JP6729457 B2 JP 6729457B2 JP 2017050713 A JP2017050713 A JP 2017050713A JP 2017050713 A JP2017050713 A JP 2017050713A JP 6729457 B2 JP6729457 B2 JP 6729457B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- data analysis
- analysis device
- mislabel
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Description
このピークマトリクスは、縦方向にサンプル、横方向にピーク位置(質量電荷比m/z)をとり、各ピークの信号強度値を要素の値としたものである。したがって、このピークマトリクスにおける1行の各要素は、一つのサンプルについての各質量電荷比におけるピークの信号強度値を示しており、1列の各要素は或る質量電荷比における全てのサンプルの信号強度値を示している。ここでは、sample 1〜sample n-2までのサンプルが癌検体であり、それら各サンプルには癌であることを示す「1」の値のラベルが付されている。一方、sample n-1〜sample Nまでのサンプルが非癌検体であり、それら各サンプルには非癌であることを示す「0」の値のラベルが付されている。この場合、ラベルは二値のラベルである。
前記教師データの中でミスラベル状態のサンプルを検出するミスラベル検出部を備え、該ミスラベル検出部は、
a)前記教師データの中から選択した又は該教師データとは別のラベル付きのデータであるモデル構築用データを用いて機械学習モデルを構築し、その構築された機械学習モデルを前記教師データの中から選択したモデル検証用データに適用してサンプルを識別しラベル付けを行う、という一連の処理を複数回繰り返す繰返し識別実行部と、
b)前記繰返し識別実行部による一連の処理の複数回の繰り返しの際に、その識別結果であるラベルと元々データに付されていたラベルとが不一致であった誤識別の回数をサンプル毎に求め、その誤識別回数又はその誤識別の確率に基づいてサンプルがミスラベル状態であるか否かを判定するミスラベル判定部と、
を含むことを特徴としている。
前記ミスラベル検出部は、前記教師データをモデル構築用データとモデル検証用データとに分割するデータ分割部を含み、
前記繰返し識別実行部は、前記一連の処理を実行する毎に前記データ分割部によるデータ分割を変更する構成とすることができる。
この構成では、ミスラベル状態である可能性が高い複数のサンプルを一度に除去することができるため、処理時間を短縮することができる。
この構成では、ミスラベル状態である可能性が高い複数のサンプルを高い信頼性を以て除去することができる。
この癌/非癌識別装置は、被検者由来の生体試料を図示しない質量分析装置で質量分析することで得られたマススペクトルデータが未知サンプルデータとして入力されたとき、それが癌であるか又は非癌であるのかを判定する装置であり、データ解析部1と、ユーザインターフェイスである操作部2、表示部3と、を備える。
ここでは、総数がN個であるサンプルから得られたデータを、乱数表を用いて、M個のデータセットに分割し、そのうちのM−1個のデータセットをモデル構築用データとし、残りの1個のデータセットをモデル検証用データにする。こうして、与えられた教師データをモデル構築用データとモデル検証用データとに分割する(図4参照)。なお、後述するシミュレーション検証の際にはMを5としている。
データの分割には乱数表を用いるため、確率的には分割をやり直したときにデータセットに含まれるデータの組合せが同じであることもあり得るが、実際には殆どの場合、分割をやり直したときにデータセットに含まれるデータの組合せは変わる。
(1)誤識別率が最も高い一つのサンプルをミスラベル状態であると判定する。ただし、誤識別率が最も高いサンプルが複数存在する場合には、その複数のサンプルの全てをミスラベル状態であると判定すればよい。
(2)ミスラベル状態であると判定するサンプルの数をパラメータとして予めユーザが操作部2から指定しておき、誤識別率が高い順にその指定された個数のサンプルをミスラベル状態であると判定する。
(3)誤識別率が100%であるサンプルのみをミスラベル状態であると判定する。誤識別率が100%であるサンプルが複数存在する場合には、その複数のサンプルの全てをミスラベル状態であると判定すればよい。
(4)ミスラベル状態であると判定する誤識別率の閾値をパラメータとして予めユーザが操作部2から指定しておき、誤識別率がその閾値以上であるサンプルをミスラベル状態であると判定する。
また、上述したようにミスラベルサンプル除外部17は上述したようにミスラベル状態である可能性が高いと判定されたサンプルを教師データから除外したりラベルを付け替えたりして、実際の識別を行う機械学習モデルを構築するための教師データを生成すればよい。
次に、上述したミスラベル検出処理によりミスラベル状態であるサンプルが適切に検出されるのかを、シミュレーションにより評価した結果について説明する。このシミュレーションによる評価では、上述したようにデータセットへの分割数Mは5とし、規定回数Pは500とした。また、機械学習の手法としてランダムフォレストを用いた。また、評価に用いたデータ(教師データ)としては、図5に示すように、線形データと、非線形データとの両方を用いた。
ここでいう線形データとは、癌と非癌との間で、マススペクトル上の全てのマーカーピークの信号強度差が十分に存在するデータのことをいう。マーカーピークの数が十分に多く、癌と非癌とでピークの信号強度差が十分にあれば、主成分分析やOPLS−DA(判別分析の一種であるPLS−DA(Partial Least Squares Discriminant Analysis)の改良版)などの多変量解析の手法でも癌と非癌という二つの群に分けることが可能である。そこで、ここでは、癌と非癌との間での信号強度差が殆どない10本のマーカーピークを含むデータをシミュレーションに用いた。このデータについて主成分分析を行っても二群への分類が不可能であることは確認済みである。
また、シミュレーションデータは既知のデータであるからラベルは当然100%正当である。そこで、癌及び非癌のサンプルからそれぞれランダムに10個のサンプルを選択し、それら合計20個のサンプルのラベルを付け替えることで、人為的なミスラベル検体を作成した。そして、この20個のサンプルがミスラベルサンプルであると特定できるか否かを検証した。
その検出結果を図7及び図8に示す。図7は非癌であるラベル付けされたサンプルのミスラベル検出結果、図8は癌であるラベル付けされたサンプルのミスラベル検出結果である。図7及び図8において(並びに後述する図9及び図10において)、モデル検証用データ採用回数はステップS4の処理による識別実行回数に相当する。
一般に収集されるデータの多くは少なからず非線形性を有しており、完全に線形であるデータがむしろ少ない。そこで、非線形シミュレーションデータについても上記ミスラベル検出処理の能力を評価した。
こうしたデータについて決定木の数を変化させたときの5分割クラスバリデーションにおける平均正答率を調べたところ、決定木が5〜20の範囲で決定木数に拘わらず、平均正答率はいずれも99.6%であった。そこで、ここでも決定木数を10に定めてミスラベル検出を試みた。
その検出結果を図9及び図10に示す。図9は非癌であるラベル付けされたサンプルのミスラベル検出結果、図10は癌であるラベル付けされたサンプルのミスラベル検出結果である。
図11において、実線は上述したランダムフォレストを用いた、シミュレーションデータに対するミスラベル検出結果であり、一点鎖線はサポートベクターマシンを用いた、シミュレーションデータに対するミスラベル検出結果の一例である。このように、サポートベクターマシンを用いると、誤識別率が徐々に低下することがある。また、最高の誤識別率が100%にならないこともある。そのため、ミスラベル状態であるサンプルか否かを判定する閾値をユーザが指定するようにするか、或いは、図3に示したように誤識別率が最高であるサンプルを一つずつ除外していく方法が有用である。
10…ミスラベル検出部
11…データ分割部
12…機械学習モデル構築部
13…機械学習モデル適用部
14…誤識別回数計数部
15…ミスラベルサンプル特定部
16…検出制御部
17…ミスラベルサンプル除外部
18…機械学習モデル作成部
19…未知データ識別部
2…操作部
3…表示部
Claims (16)
- 複数のサンプルについてのラベル付けされた教師データに基づいて機械学習モデルを構築し、該機械学習モデルを用いて未知のサンプルを識別してラベル付けするデータ解析装置であって、
前記教師データの中でミスラベル状態のサンプルを検出するミスラベル検出部を備え、該ミスラベル検出部は、
a)前記教師データの中から選択した又は該教師データとは別のラベル付きのデータであるモデル構築用データを用いて機械学習モデルを構築し、その構築された機械学習モデルを前記教師データの中から選択したモデル検証用データに適用してサンプルを識別しラベル付けを行う、という一連の処理を複数回繰り返す繰返し識別実行部と、
b)前記繰返し識別実行部による一連の処理の複数回の繰り返しの際に、その識別結果であるラベルと元々データに付されていたラベルとが不一致であった誤識別の回数をサンプル毎に求め、その誤識別回数又はその誤識別の確率に基づいてサンプルがミスラベル状態であるか否かを判定するミスラベル判定部と、
を備えることを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記ミスラベル検出部は、前記ミスラベル判定部によりミスラベル状態であると判定されたサンプルを教師データから除去したあとの教師データを用いて、前記繰返し識別実行部及び前記ミスラベル判定部による処理を1回以上実施することを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記ミスラベル検出部は、前記教師データをモデル構築用データとモデル検証用データとに分割するデータ分割部を含み、
前記繰返し識別実行部は、前記一連の処理を実行する毎に前記データ分割部によるデータ分割を変更することを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記繰返し識別実行部は機械学習の手法を一種類のみ用いることを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記繰返し識別実行部は機械学習の手法を二種類以上用いることを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記繰返し識別実行部は機械学習の手法としてランダムフォレストを用いることを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記繰返し識別実行部は機械学習の手法としてサポートベクターマシンを用いることを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記繰返し識別実行部は機械学習の手法としてニューラルネットワークを用いることを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記繰返し識別実行部は機械学習の手法として線形判別法を用いることを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記繰返し識別実行部は機械学習の手法として非線形判別法を用いることを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記ミスラベル判定部は誤識別率が最も高いサンプルをミスラベル状態であると判定することを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記ミスラベル判定部は誤識別率が高い順にユーザに指定された個数のサンプルをミスラベル状態であると判定することを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記ミスラベル判定部は誤識別率が100%であるサンプルをミスラベル状態であると判定することを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記ミスラベル判定部は誤識別率がユーザにより設定された閾値以上であるサンプルをミスラベル状態であると判定することを特徴とするデータ解析装置。 - 請求項2に記載のデータ解析装置であって、
前記ミスラベル検出部は、誤識別率が所定の閾値以下になるまで前記繰返し識別実行部及び前記ミスラベル判定部による処理を繰り返し実施することを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記ミスラベル判定部による識別結果に基づいた表又はグラフを作成して該表又はグラフを表示部に表示する結果表示処理部をさらに備えることを特徴とするデータ解析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017050713A JP6729457B2 (ja) | 2017-03-16 | 2017-03-16 | データ解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017050713A JP6729457B2 (ja) | 2017-03-16 | 2017-03-16 | データ解析装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2018155522A JP2018155522A (ja) | 2018-10-04 |
JP2018155522A5 JP2018155522A5 (ja) | 2019-08-08 |
JP6729457B2 true JP6729457B2 (ja) | 2020-07-22 |
Family
ID=63716388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017050713A Active JP6729457B2 (ja) | 2017-03-16 | 2017-03-16 | データ解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6729457B2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7299002B2 (ja) | 2018-08-23 | 2023-06-27 | ファナック株式会社 | 判別装置及び機械学習方法 |
WO2020096099A1 (ko) | 2018-11-09 | 2020-05-14 | 주식회사 루닛 | 기계 학습 방법 및 장치 |
JP7197795B2 (ja) * | 2019-05-22 | 2022-12-28 | 富士通株式会社 | 機械学習プログラム、機械学習方法および機械学習装置 |
JP7156213B2 (ja) * | 2019-08-30 | 2022-10-19 | 株式会社島津製作所 | 質量分析データ処理方法、質量分析データ処理システム、及びプログラム |
EP4032026A1 (en) * | 2019-09-20 | 2022-07-27 | Google LLC | Robust training in the presence of label noise |
CN114746859A (zh) * | 2019-12-04 | 2022-07-12 | 富士通株式会社 | 评价方法、评价程序以及信息处理装置 |
WO2021140957A1 (ja) * | 2020-01-08 | 2021-07-15 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
EP4131282A4 (en) * | 2020-03-25 | 2024-04-17 | Univ Hiroshima | METHOD AND SYSTEM FOR DETERMINING A CLASS OF EVENTS BY AI |
JP7456289B2 (ja) | 2020-05-28 | 2024-03-27 | 富士通株式会社 | 判定プログラム、判定方法および情報処理装置 |
CN112698988B (zh) * | 2020-12-30 | 2022-11-29 | 安徽迪科数金科技有限公司 | 一种基于分布式系统的解析超大文本文件处理方法 |
EP4057193A1 (en) * | 2021-03-10 | 2022-09-14 | Tata Consultancy Services Limited | Method and system for identifying mislabeled data samples using adversarial attacks |
CN114219026A (zh) * | 2021-12-15 | 2022-03-22 | 中兴通讯股份有限公司 | 数据处理方法及其装置、计算机可读存储介质 |
US11990327B2 (en) | 2022-02-18 | 2024-05-21 | Shimadzu Corporation | Method, system and program for processing mass spectrometry data |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11271295A (ja) * | 1998-03-20 | 1999-10-05 | Petroleum Energy Center Found | 回帰分析システム |
WO2005098446A2 (en) * | 2004-03-31 | 2005-10-20 | The Johns Hopkins University | Biomarkers for ovarian cancer |
US9362094B2 (en) * | 2010-09-22 | 2016-06-07 | The Board Of Trustees Of The University Of Arkansas | Biomarkers for determining breast cancer bone metastasis |
JP5905375B2 (ja) * | 2012-10-25 | 2016-04-20 | 日本電信電話株式会社 | 誤分類検出装置、方法、及びプログラム |
JP5997114B2 (ja) * | 2013-08-14 | 2016-09-28 | 日本電信電話株式会社 | 雑音抑圧装置、雑音抑圧方法、およびプログラム |
JP2016028229A (ja) * | 2014-07-08 | 2016-02-25 | キヤノン株式会社 | データ処理装置、及びそれを有するデータ表示システム、試料情報取得システム、データ処理方法、プログラム、記憶媒体 |
-
2017
- 2017-03-16 JP JP2017050713A patent/JP6729457B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018155522A (ja) | 2018-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6729457B2 (ja) | データ解析装置 | |
WO2020054028A1 (ja) | データ解析装置 | |
JP6729455B2 (ja) | 分析データ解析装置及び分析データ解析方法 | |
Rabosky et al. | A robust semi-parametric test for detecting trait-dependent diversification | |
Kim et al. | Dataset size and composition impact the reliability of performance benchmarks for peptide-MHC binding predictions | |
US20160216244A1 (en) | Method and electronic nose for comparing odors | |
JP6715451B2 (ja) | マススペクトル解析システム,方法およびプログラム | |
US20060259246A1 (en) | Methods for efficiently mining broad data sets for biological markers | |
JP4860575B2 (ja) | クロマトグラフィー質量分析の分析結果表示方法及び表示装置 | |
CN110214271B (zh) | 分析数据解析方法以及分析数据解析装置 | |
CN112129741A (zh) | 绝缘油老化分析方法、装置、计算机设备和存储介质 | |
US10998083B2 (en) | Method and apparatus for estimating the quantity of microorganisms within a taxonomic unit in a sample | |
US11435370B2 (en) | Data analying device and program for data analysis | |
KR101874527B1 (ko) | 유전자 분석판정 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램 | |
Gibb et al. | Mass spectrometry analysis using MALDIquant | |
Hediyeh-zadeh et al. | MSImpute: imputation of label-free mass spectrometry peptides by low-rank approximation | |
Kuligowski et al. | Application of discriminant analysis and cross-validation on proteomics data | |
JP6356015B2 (ja) | 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム | |
WO2007063972A1 (ja) | 有効因子抽出システムとその方法とそのプログラム | |
EP2834624A1 (en) | A method for measuring performance of a spectroscopy system | |
KR102072894B1 (ko) | 인트론과 엑손 구분에 기반한 이상 서열 식별 방법 | |
CN107622184B (zh) | 氨基酸可信度和修饰位点定位的评估方法 | |
Skarysz et al. | Fast and automated biomarker detection in breath samples with machine learning | |
Dittwald et al. | Towards automated discrimination of lipids versus peptides from full scan mass spectra | |
CN105095689A (zh) | 一种基于韦恩预测的电子鼻数据挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190626 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190626 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200615 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6729457 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |