JP2018152000A - 分析データ解析装置及び分析データ解析方法 - Google Patents

分析データ解析装置及び分析データ解析方法 Download PDF

Info

Publication number
JP2018152000A
JP2018152000A JP2017049391A JP2017049391A JP2018152000A JP 2018152000 A JP2018152000 A JP 2018152000A JP 2017049391 A JP2017049391 A JP 2017049391A JP 2017049391 A JP2017049391 A JP 2017049391A JP 2018152000 A JP2018152000 A JP 2018152000A
Authority
JP
Japan
Prior art keywords
analysis
input
dimension
usefulness
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017049391A
Other languages
English (en)
Other versions
JP6729455B2 (ja
JP2018152000A5 (ja
Inventor
陽 野田
Hiromi Noda
陽 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Original Assignee
Shimadzu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp filed Critical Shimadzu Corp
Priority to JP2017049391A priority Critical patent/JP6729455B2/ja
Priority to US15/921,107 priority patent/US11341404B2/en
Priority to CN201810215795.6A priority patent/CN108629365B/zh
Publication of JP2018152000A publication Critical patent/JP2018152000A/ja
Publication of JP2018152000A5 publication Critical patent/JP2018152000A5/ja
Application granted granted Critical
Publication of JP6729455B2 publication Critical patent/JP6729455B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/043Architecture, e.g. interconnection topology based on fuzzy logic, fuzzy membership or fuzzy inference, e.g. adaptive neuro-fuzzy inference systems [ANFIS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/08Computing arrangements based on specific mathematical models using chaos models or non-linear system models
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Medical Informatics (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Nonlinear Science (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Complex Calculations (AREA)

Abstract

【課題】解析対象であるデータの多様性に比べて教師データのサンプル数が少ない場合でも、未知サンプルについての判別・回帰分析に有用な入力次元を高い信頼度で選択可能とする。【解決手段】教師データを用いて機械学習を実行し判別分析や回帰分析のための非線形関数である学習モデルを構築したあと(S2)、該関数の偏微分値から入力次元毎に寄与度を算出する。そして、該寄与度に基づくガウス分布関数により定めた閾値を用い、無効化する入力次元を決める(S3〜S5)。一部の入力次元を無効化した教師データを用いた機械学習を再度行い(S6)、得られた学習モデルから入力次元毎の寄与度を求め、新旧の寄与度に基づいて寄与度を更新する(S7〜S8)。ステップS5〜S8の処理を規定回数繰り返し(S9)、最終的な寄与度に基づいて有用な入力次元を決定したうえで機械学習モデルを構築する(S10)。【選択図】図3

Description

本発明は、質量分析装置、ガスクロマトグラフ(GC)、液体クロマトグラフ(LC)、分光測定装置、蛍光X線分析装置、核磁気共鳴装置(NMR)などの各種分析装置で得られたデータを解析する分析データ解析装置及び方法に関し、さらに詳しくは、機械学習の一手法である教師あり学習を利用する分析データ解析装置及び方法に関する。なお、一般に「機械学習」には多変量解析を含まない場合もあるが、機械学習と多変量解析の境界は実際上明確ではなく、機械学習に多変量解析を含めて議論されることも多い。こうしたことから、本明細書では機械学習は多変量解析を含むものとする。
多種多様である大量のデータの中から規則性を見いだし、それを利用してデータの予測や判別又は回帰を行うために、機械学習は有用な手法の一つであり、その応用分野は近年ますます広がっている。機械学習の代表的な手法としては、サポートベクターマシン(SVM=Support Vector Machine)、ニューラルネットワーク(Neural Network)、ランダムフォレスト(Random Forest)、アダブースト(AdaBoost)、ディープラーニング(Deep Learning)などがよく知られている。また、広義の機械学習に含まれる多変量解析の代表的な手法としては、主成分分析(PCA=Principal Component Analysis)、独立成分分析(ICA=Independent Component Analysis)、部分最小二乗法(PLS=Partial Least Squares)などがよく知られている(特許文献1等参照)。
機械学習には大別して教師あり学習と教師なし学習とがある。例えば、被検者について分析装置で収集されたデータに基づいて特定の疾病の有無を判別するような場合、その疾病に罹患している患者と罹患していない正常者とについてそれぞれ予め多数のデータを集めることが可能であれば、それらデータを教師データ(訓練データや学習データともいわれる)とする教師あり学習が可能である。最近では特に、質量分析装置により取得したマススペクトルデータに教師あり学習を適用し、癌などの特定の疾病の診断を行う試みが各所で進められている。
図9は癌検体と非癌検体についてのマススペクトルデータを教師データとして整理したピークマトリクスの一例である。
このピークマトリクスは、縦方向にサンプル、横方向にピーク位置(質量電荷比m/z)をとり、各ピークの信号強度値を要素の値としたものである。したがって、このピークマトリクスにおける1行の各要素は、一つのサンプルについての各質量電荷比におけるピークの信号強度値を示しており、1列の各要素は或る質量電荷比における全てのサンプルの信号強度値を示している。ここでは、sample 1〜sample n-2までのサンプルが癌検体であり、それら各サンプルには癌であることを示す「1」の値のラベルが付されている。一方、sample n-1〜sample Nまでのサンプルが非癌検体であり、それら各サンプルには非癌であることを示す「0」の値のラベルが付されている。この場合、ラベルは二値のラベルである。こうしたラベル付きの教師データを用いることで、癌と非癌とを高い確度で判別できる機械学習モデルを構築することができる。
上記のようなマススペクトルデータは、各質量電荷比値をそれぞれ一つの次元と捉えることで多次元データであるとみることができる。生体試料から得られるマススペクトルデータには、生体にごく一般的に含まれる多様な物質由来の情報が含まれる。そのため、通常、ピークの数は非常に多くなる。つまり、こうしたデータは次元数が非常に大きな多次元データである。一方で、癌などの特定の疾病の判別に有用なマーカーピークは少数であり、つまりは特定の疾病の判別に有用な次元は限られており、それ以外の多くの次元の情報はその特定の疾病の判別という目的に対しては無用な次元であるといえる。
機械学習においては過学習(過剰適合ともいわれる)により判別・回帰性能が低下するという問題がある。上述した無用である次元を有する教師データは過学習の一因であり、こうした次元の情報は機械学習における判別や回帰に悪影響を及ぼすことが知られている(非特許文献1など参照)。
過学習を防止する一つの方法は、判別・回帰の対象である事象(例えば癌と非癌との判別)とは全く無関係である物質由来のピークや上記事象と偽の相関を示す物質由来のピークがランダムノイズとして無視できる程度に多種多様なパターンのマススペクトルデータを、教師データとして与えて学習を行うことである。そのためには膨大な数のサンプルを用意する必要があるが、癌などの疾病の判別においては、予め収集可能であるデータの量は限られているため上記方法は現実的とはいえない。
一方、上記非特許文献1には、無用である次元に起因する過学習を防止する別の手法が開示されている。この手法では、機械学習を実行することで得られる判別関数や回帰関数の係数が小さい次元は有用性が低いとみなし、そうした次元の情報を正規化項を用いて0にする処理を行う。一般に機械学習では、このように、各入力次元がそれぞれどの程度有用であるのかを調べ、その有用性の度合いに応じた重み付け係数を入力に乗じることで、無用である次元の影響を軽減する試みが行われている。
しかしながら、こうした手法も教師データの数が或る程度多くないと十分な効果を発揮にしくい。何故なら、教師データのサンプル数が少ないと始めに機械学習によって得られる判別関数や回帰関数の精度が高くない場合があり、有用な次元を見つけることが難しいためである。実際上、生体試料をサンプルとするような場合には、サンプルに含まれる物質の数やその物質の構成比の多様さ、つまりデータ自体がもつ多様性に比べて教師データのサンプル数が少ないことが多いが、そうした場合、必ずしも有用な次元が抽出されるとは限らず、無用な次元の入力により、或いは、本来は有用である次元が反映されにくくなることにより、判別分析又は回帰分析の性能が上がらないという問題がある。
国際公開第2014/105866号
ロバート・ティブシャーアーニ(Robert Tibshirani)、「レグレッション・シュリンケージ・アンド・セレクション・ビア・ザ・ラッソ(Regression Shrinkage and Selection via the Lasso)」、ジャーナル・オブ・ザ・ロイヤル・スタティスティカル・ソサイエティ・シリーズB(メソッドロジカル)(Journal of the Royal Statistical Society. Series B (Methodological))、Vol. 58、No. 1、1996年、pp. 267-288 カレン・シモニヤン(Karen Simonyan)、ほか2名、「ディープ・インサイド・コンボリューショナル・ネットワークス:ビジュアライジング・イメージ・クラシフィケイション・モデルズ・アンド・サリエンシー・マップス(Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps)」、コーネル大学図書館、[平成29年3月10日検索]、インターネット<URL: https://arxiv.org/pdf/1312.6034.pdf>
本発明は上記課題を解決するためになされたものであり、その目的とするところは、教師データのサンプル数が比較的少ない場合であっても、過学習の原因となる不要な次元を削減し判別分析や回帰分析に有用である次元を選択して機械学習モデルを構築することができる分析データ解析装置及び分析データ解析方法を提供することにある。
上記課題を解決するために成された本発明に係る分析データ解析装置は、複数のサンプルについてそれぞれ分析装置で取得された、それぞれ異なる複数の次元における信号値を示す多次元の分析データを解析するものであって、複数のサンプルについての分析データである教師データに基づいて機械学習モデルを構築し該機械学習モデルを用いて未知のサンプルについての判別分析又は回帰分析を行う分析データ解析装置において、
a)与えられた教師データについて機械学習を実行して判別分析又は回帰分析のための機械学習モデルを作成するモデル作成部と、
b)前記モデル作成部で作成された機械学習モデルにおける各次元の入力の有用度合いをそれぞれ求める、又はすでに有用度合いが存在する場合には新たに求まった有用度度合いを利用して有用度合いを更新する有用度合い算出部と、
c)前記有用度合い算出部で算出された各次元の有用度合いに応じて確率的に一部の次元の入力を無効化する入力無効化部と、
d)前記入力無効化部により一部の次元の入力が無効化されたあとの教師データを用いて前記モデル作成部により機械学習を実行し、その結果に基づき各次元の入力の有用度合いを更新するという一連の処理を1回以上繰り返すように、前記モデル作成部、前記有用度合い算出部、及び前記入力無効化部を制御する繰り返し実行制御部と、
e)前記繰り返し実行制御部により一連の処理が1回以上繰り返されたあとの次元毎の有用度合いに基づいて、未知のサンプルについて判別分析する又は回帰分析する際に使用する次元を選択する又は重み付けする次元決定部と、
を備えることを特徴としている。
また上記課題を解決するために成された本発明に係る分析データ解析方法は、複数のサンプルについてそれぞれ分析装置で取得された、それぞれ異なる複数の次元における信号値を示す多次元の分析データを解析するものであって、複数のサンプルについての分析データである教師データに基づいて機械学習モデルを構築し該機械学習モデルを用いて未知のサンプルについての判別分析又は回帰分析を行う分析データ解析方法において、
a)与えられた教師データについて機械学習を実行して判別分析又は回帰分析のための機械学習モデルを作成するモデル作成ステップと、
b)前記モデル作成ステップで作成された機械学習モデルにおける各次元の入力の有用度合いをそれぞれ求める、及びすでに有用度合いが存在する場合には新たに求まった有用度度合いを利用して有用度合いを更新する有用度合い算出ステップと、
c)前記有用度合い算出部で算出された各次元の有用度合いに応じて確率的に一部の次元の入力を無効化する入力無効化ステップと、
を有し、前記入力無効化ステップで一部の次元の入力が無効化されたあとの教師データを用いて前記モデル作成ステップで再び機械学習を実行し、その結果に基づき各次元の入力の有用度合いを更新するという一連の処理を1回以上繰り返し、その繰り返しのあとに得られる次元毎の有用度合いに基づいて、未知のサンプルについて判別分析する又は回帰分析する際に使用する次元を選択する又は重み付けすることを特徴としている。
本発明に係る分析データ解析装置及び分析データ解析方法において、機械学習はいわゆる教師あり学習を行う多変量解析を含む。また、解析対象であるデータが得られる分析装置の種類は特に問わないが、具体的には例えば、質量分析装置で得られたマススペクトルデータ、GCやLCで得られたクロマトグラムデータ、分光測定装置で得られた吸光スペクトルデータなどとすることができる。もちろん、それ以外の様々な分析手法で収集されたデータを対象とすることができる。
解析対象のデータがマススペクトルデータである場合、例えばマスピークが存在する質量電荷比値がそれぞれ一つの次元である。また、解析対象のデータがクロマトグラムデータである場合、例えばクロマトピークが存在する保持時間がそれぞれ一つの次元である。また、解析対象のデータが吸光スペクトルデータである場合、例えば吸光ピークが存在する波長がそれぞれ一つの次元である。
本発明に係る分析データ解析装置及び分析データ解析方法において用いられる機械学習の手法は、教師あり学習により判別分析や回帰分析を行うものであれば特に限定されないが、例えば、ニューラルネットワーク、サポートベクターマシン、ランダムフォレスト、ディープラーニング、線形判別法、非線形判別法、主成分分析法、独立成分分析法、部分最小二乗法などを挙げることができる。どのような手法を用いるのかは、解析対象である分析データの種類、性質などにより適宜選択することが好ましい。
本発明に係る分析データ解析装置において、教師データが与えられるとモデル作成部は、その教師データを用いた機械学習を実行し、判別分析又は回帰分析のための機械学習モデルを作成する。この機械学習モデルは例えば、多次元入力と出力との関係を表す判別分析や回帰分析の関数である。次いで有用度合い算出部は、作成された機械学習モデルに関して各次元の入力の有用度合いを示す指標値をそれぞれ算出する。本願に先立ち、本出願人は国際出願PCT/JP2006/072873号において、機械学習において無用である次元に起因する過学習を防止するための新たな手法を提案しているが、上記「各次元の入力の有用度合いを示す指標値」として例えばこの先行出願において用いている寄与度を利用することができる。
即ち、ニューラルネットワーク等の機械学習における非線形関数を用いた判別分析や回帰分析では、線形判別分析のように相関係数を求めることはできないものの、非特許文献2の記載によれば、出力に対する入力の各次元の寄与度を偏微分を用いて算出することが可能である。なお、非特許文献2には、ニューラルネットワークによる非線形判別分析又は回帰分析においてシグモイド(sigmoid)関数を用いることが記載されているが、シグモイド関数に限ることなく、ニューラルネットワークを用いた学習法としては勾配法が一般的であるため、判別分析又は回帰分析のための非線形関数の各データ点における偏微分値(又は劣偏微分値)を算出することができる。また、サポートベクターマシンを用いた機械学習による判別分析又は回帰分析においても、入力及び出力がともに連続的な値をとるものであれば、同様に、偏微分値を算出したり、偏微分に相当する値として入力を微小に変化させた場合の差分を算出したりすることができる。各データ点における偏微分値又はそれに相当する値を算出することができれば、その値から寄与度を算出することができる。
入力無効化部は、上記のように入力次元毎に算出された例えば寄与度に応じて、その寄与度が低いつまりは有用性が低いと想定される入力次元ほど高い確率で以て無効になるように、確率的に一部の次元の入力を無効化する。ここで無効にする次元を確率的に決めるのは、寄与度の値自体が完全に信頼できるわけではないこと、或いは、寄与度が相対的に高い次元が必ずしも判別分析や回帰分析の性能向上に繋がるとは限らないこと、などの理由による。また、入力の無効化とは入力値を実質的に学習に影響がない値に置き換えることを意味し、一般的には、一部の次元の入力値を全て0にすればよいが、その次元の全ての入力値の平均値や乱数などに置き換えてもよい。
そのあと、繰り返し実行制御部の制御の下でモデル作成部は、一部の次元の入力が無効化された教師データを用い、機械学習を再び実行して機械学習モデルを求める。そして有用度合い算出部は、新たな機械学習モデルに関して各次元の入力の有用度合いを示す指標値をそれぞれ算出したうえで、その新たな指標値とすでに得られている指標値とを用いて例えば加重平均を計算する等により指標値を更新する。繰り返し実行制御部の制御の下で、こうした一連の処理を1回以上繰り返す。
上述したように入力無効化部において無効化される入力の次元は必ずしも全てが有用度合いが低いとは限らないが、有用度合いが低い可能性が高い入力次元である。そのため、上記一連の処理の繰り返しによって、真に有用度合いが高い入力次元は有用度合いを示す指標値が高くなり、逆に真に有用度合いが低い入力次元は有用度合いを示す指標値が低くなる。即ち、有用度合いを示す指標値の信頼性が高くなる。そこで、上記一連の処理の繰り返しのあと次元決定部は、入力次元毎の有用度合いを示す指標値に基づいて、未知のサンプルについての判別分析を行う又は回帰分析を行う際に使用する次元を決定する。このとき、使用する入力次元を選択し他の不要な次元を除外してもよいが、使用する次元の入力に乗じる重み付け係数を不要な次元に比べて高くすることで、実質的に、使用する入力次元を選択するようにしてもよい。なお、次元を決定する基準はユーザー或いは装置のメーカー側が経験的に定めたものとすればよく、例えば寄与度等の指標値の高い順から上位の所定個数の入力次元を選択するといった基準が考えられる。
本発明に係る分析データ解析装置において、入力無効化部が各次元の有用度合いに応じて確率的に一部の次元の入力を無効化するための一つの方法としては、各次元の有用度合いを示す指標値の平均値及び標準偏差を利用した確率分布関数を定め、該確率分布関数に基づいて確率的に決めた閾値に従って、各次元の有用度合いを示す指標値を判定する構成とするとよい。 ここで、確率分布関数としては様々な分布関数を用いることができるが、典型的にはガウス分布関数とすればよい。
どのような確率分布関数が適切であるのかは、解析対象である分析データの性質や数(次元数)などに依存するから、本装置を適用する対象のデータ等に応じて適切な確率分布関数を定めておくことが望ましい。
なお、本発明に係る分析データ解析装置及び分析データ解析方法では、入力次元の有用度合いを求める手法は特に限定されないから、上述した国際出願PCT/JP2006/072873号において本出願人が提案している手法と組み合わせるのみならず、非特許文献1に記載の、入力次元の有用度合い抽出技術と組み合わせることもできることは明らかであり、その場合でも入力次元の有用度合いをより高い信頼度で求めることが可能となる。
本発明に係る分析データ解析装置及び分析データ解析方法によれば、教師データのサンプル数が比較的少ない場合であっても、判別分析や回帰分析のために有用性の高い入力次元を高い信頼度で以て選択することができる。それによって、過学習の原因となる不要な入力次元を的確に削減し、判別分析や回帰分析の性能の高い機械学習モデルを構築することが可能となる。
本実施例の疾病判別装置における概略ブロック構成図。 全結合ニューラルネットワークの一例を示す模式図。 本実施例の疾病判別装置における有用次元選択処理のフローチャート。 本実施例の疾病判別装置において得られる寄与度分布とそれから求まる閾値決定用の乱数分布の一例を示す模式図。 本発明の手法を用いた場合における各入力次元の有用度合いの算出結果例を示す図。 本発明の手法を用いた場合における学習エポック毎の学習時と評価時の正当率の一例を示す図。 従来手法における各入力次元の有用度合いの算出結果例を示す図。 従来手法における学習エポック毎の学習時と評価時の正当率の一例を示す図。 癌検体と非癌検体についてのマススペクトルデータを教師データとして整理したピークマトリクスの一例を示す図。
以下、本発明に係る分析データ解析装置を用いた疾病判別装置の一実施例について、添付図面を参照して説明する。
図1は本実施例の疾病判別装置の概略ブロック構成図である。
この疾病判別装置は、被検者由来の生体試料を図示しない質量分析装置で質量分析することで得られたマススペクトルデータが未知サンプルデータとして入力されたとき、特定の疾病に罹患しているか否か(ここでは癌であるか非癌であるか)を判別する装置である。この疾病判別装置は、データ解析部1と、ユーザーインターフェイスである操作部2、表示部3と、を備える。
データ解析部1は、有用次元選択処理部10、機械学習モデル作成部18、及び未知データ判別部19、を機能ブロックとして含む。また、有用次元選択処理部10は、データ読込み部11、機械学習実行部12、有用度合い算出部13、入力次元無効化部14、有用度合い更新部15、繰り返し処理制御部16、有用次元決定部17、を機能ブロックとして含む。
データ解析部1に含まれる各機能ブロックはハードウェアで構成することも可能ではあるが、実用上は、パーソナルコンピュータやより高性能なワークステーション等をハードウェア資源とし、該コンピュータにインストールされた専用のソフトウェア(コンピュータプログラム)を該コンピュータ上で実行することにより、上記各機能ブロックが具現化される構成とするとよい。
本実施例の疾病判別装置においてデータ解析部1には、例えば図9に示したような癌又は非癌のラベルが付された(つまりは既知の)多数のサンプル由来のマススペクトルデータ(ピークが存在する質量電荷比毎のピーク信号強度を示すデータ)が教師データとして予め与えられる。このマススペクトルデータの各質量電荷比がそれぞれ異なる入力次元である。即ち、ピークの本数が1000であれば、入力の次元数は1000である。また、各入力次元の入力値(信号値)はピークの強度値である。
有用次元選択処理部10は後述する特徴的な処理により、疾病の判別に有用である次元を選択する。機械学習モデル作成部18は、与えられた教師データの中で有用であるとして選択された次元のデータのみを用いて機械学習モデルを構築する。未知データ判別部19は機械学習モデル作成部18で構築された機械学習モデルを用いて未知サンプル由来のマススペクトルデータを判定し、該未知サンプルについて癌であるか非癌であるかのラベルを付与する。こうした判別結果は表示部3から出力される。
次に有用次元選択処理部10において実施される有用次元選択処理について、図3に示すフローチャートに従って説明する。なお、ここでは機械学習の手法として先に挙げた国際出願PCT/JP2006/072873号で提案した手法を用いるが、利用可能な手法はこれに限らず、例えば非特許文献1に記載の方法でもよい。
全ての教師データが同じ質量分析装置で得られた場合にはそれほど問題はないが、異なる質量分析装置で得られたマススペクトルデータを教師データとして用いる場合、質量分析装置毎に検出感度が相違することがよくある。そこで、データ読込み部11は教師データとして与えられたマススペクトルデータを読み込む際に、例えば異なるマススペクトルデータにおける入力次元毎の信号値の標準偏差が一定になるようにデータを正規化する(ステップS1)。正規化には種々の周知の方法を用いることができる。例えば、マススペクトルデータを構成する任意の質量電荷比における信号値を、その標準偏差で除する処理とすればよい。以下、この正規化後の教師データを単に教師データという。
次に機械学習実行部12は、与えられた教師データを用いて、所定のアルゴリズムに従った非線形の判別分析や回帰分析による機械学習を実施して機械学習モデルを構築する(ステップS2)。具体的な機械学習の手法としては例えば、ニューラルネットワークやサポートベクターマシンなどを用いるとよいが、これらに限るものではない。非線形の判別分析や回帰分析を行うアルゴリズムである場合、得られる機械学習モデルは教師データを反映した判別分析や回帰分析の関数である。
続いて有用度合い算出部13は各入力次元の有用度合いを示す指標値を算出するために、ステップS2で求まった判別分析や回帰分析のための非線形関数の偏微分値を入力次元毎に算出する(ステップS3)。この偏微分の手法は例えば非特許文献2に記載されている手法を用いればよい。この手法では、softmax関数に入力される値を出力値とみなして微分を行う。
そのあと、ステップS3において入力次元毎に算出された偏微分値を用いて各入力次元の寄与度を算出する(ステップS4)。本実施例のように或る特定の疾病に罹患しているか否かを判別するためのバイオマーカーをマススペクトル上で調べる際には、特定の入力次元(つまりは質量電荷比値)の信号強度値が適正値からどの程度外れているかが重要な要素である。即ち、特定の入力次元の信号強度値が適正値から外れる程度が大きいほど、或る特定の疾病に罹患している可能性が高いもの、を見つけることが重要である。このような場合には、偏微分値は正負両方に現れるため、偏微分値の二次ノルムに基づいて寄与度を算出すればよい。
次いで入力次元無効化部14は、ステップS4において入力次元毎に求まった寄与度の分布の平均値μ及び標準偏差σを計算する。そして、この平均値μ及び標準偏差σを利用した乱数分布に基づいて各次元を無効化する閾値を次元毎に確率的に求める。ここでは、寄与度が図4中に実線で示すような分布を示す場合、図4中に一点鎖線で示すような、その寄与度の平均値μから00.5σを差し引いた値を中心とし、両側に2σの標準偏差を有するガウス分布関数を乱数分布として定める。そして、入力次元毎の寄与度をこのように決めたガウス分布関数に基づく閾値と比較し、寄与度が閾値以下であればその入力次元は無効であるとみなし、入力に乗じる重み付け係数を0にする。ただし、この入力の無効化は一時的である。もちろん、ここでは機械学習を実行する際に実質的に意味のないデータに置き換えればよいので、重み付け係数を0にする代わりに、その次元における全ての入力信号を平均値や乱数、或いは0値以外の一定値などに置き換えてもよい。
なお、寄与度の閾値を決める上記ガウス分布関数を定めるためのパラメータ、つまりその分布関数の中心値や標準偏差(分散)は想定されるピークの数(つまりは次元数)などに応じて適宜調整することが望ましい。また、ガウス分布関数以外の適宜の分布関数を用いてもよい。
ステップS5で一部の入力次元を無効化したあと、繰り返し処理制御部16の制御の下で機械学習実行部12は、一部の入力次元が無効化された(上述したように決められた重み付け係数が乗じられた)教師データを用いて再び機械学習を実施して機械学習モデルを構築する(ステップS6)。このステップS6の処理は入力データが実質的に相違する以外はステップS2の処理と同じである。そして、有用度度合い算出部13はステップS3と同様に、ステップS6で求まった判別分析や回帰分析のための非線形関数を偏微分値を入力次元毎に算出する(ステップS7)。
次に有用度合い更新部15はステップS4と同様に、ステップS7で求まった偏微分値に基づいて入力次元毎に寄与度を求めるとともに、新たに求まった寄与度と前回の処理で既に得られている寄与度とに基づいて寄与度を更新する(ステップS8)。例えば、新旧の寄与度にそれぞれ適宜の重み付け係数を乗じて平均(加重平均)を算出してもよいが、ここでは新旧の寄与度をそれぞれ重み付け係数に応じた対数をとったうえでの平均を算出している。
こうして各入力次元の有用度合いを示す寄与度を更新したならば、繰り返し処理制御部16は処理の繰り返し回数が規定回数に達したか否かを判定する(ステップS9)。そして、規定回数に達していなければステップS5へと戻り、ステップS5〜S9の処理を繰り返す。通常、この規定回数はかなり大きな値であり、ステップS5〜S9の処理が繰り返される毎に、各入力次元の寄与度は更新されていき、その度に寄与度の信頼度が向上していく。そして、ステップS9においてYesと判定されると、有用次元決定部17は最終的な寄与度に基づいて、有用と推定される入力次元を選択する(ステップS10)。
具体的には例えば、最後に実施されるステップS8において更新された寄与度の大きい順に所定数の入力次元を選択する。或いは、寄与度が予め定めた下限値以上の範囲で所定数の入力次元を選択してもよい。或いは、寄与度に応じて決められる重み付け係数がきわめて0に近い値になることで、その重み付け係数が乗じられる入力次元が実質的に除外されるようにすることもできる。
なお、一般的に機械学習では、与えられた全ての教師データを用いて繰り返しの機械学習を実施すると計算時間がかなり長くなるため、教師データを予め定めた学習ミニバッチ単位で区切りつつ機械学習を繰り返す方法が採られることがよくある。こうした場合には、学習ミニバッチ単位で無効にする入力次元を決定するとよい。
次に、上述した有用次元選択処理の手法の効果を評価するために該手法をシミュレーションデータに適用した例について説明する。
ここでは、1000次元(つまりはピーク数が1000個)の正規分布した乱数(正規乱数)であるデータを教師データXとし、次の(1)式で与えられるYが負であるときに真、非負であるときに偽となる判別問題を解くことを想定する。なお、学習モデル構築のための教師データの数を9万個とし、これとは別に、学習モデルを評価する評価データとして1万個のデータを用意した。
Y=(X[10]+0.5)・(X[20]−0.4)・(X[30]−0.3)・(X[40]+0.2)・(X[50]−0.1)・X[60] …(1)
また、ここでは9万個の教師データを1000個ずつ区切ったものを学習ミニバッチ単位とし、学習ミニバッチ単位の一連の処理を90回繰り返すことで9万個の教師データ全ての処理を行った。そして、それを1学習エポックとし、全部で400エポック程度の処理の繰り返しを実施した。
また、このシミュレーションでは機械学習の手法として、図3に示した全結合ニューラルネットワークを用い、その活性化関数としてelu関数、判別関数としてsoftmax関数を用いた。そして、上記判別問題を上記有用次元選択処理を含む本発明に係る手法(手法A)と非特許文献1に記載された手法(手法B)とでそれぞれ解き、各入力次元の寄与度、及び、学習エポック毎の正当率を求めた。
図5は手法Aを用いた場合に得られる各入力次元の寄与度を示す図、図6は手法Aを用いた場合に得られる学習エポック毎の正当率を示す図である。図7は手法Bを用いた場合に得られる各入力次元の寄与度を示す図、図8は手法Bを用いた場合に得られる学習エポック毎の正当率を示す図である。
(1)式で用いた特徴次元は6であり、図5によれば、六つの次元で高い寄与度となっていることが分かる。即ち、手法Aでは特徴次元が正しく抽出されているといえる。これに対し、図7では三つの次元しか明瞭に抽出されておらず、特徴次元の一部が適切に抽出されていないことが分かる。また、図6と図8とを比較すれば、手法Aは手法Bに比べて評価時の正答率がかなり高くなっていることが分かる。また、手法Aでは、学習時の正当率と評価時の正当率との差が小さくなっている。この差が小さいほど過学習が小さいことを意味するから、この結果から、手法Aでは過学習が回避された結果、機械学習モデルの判別性能が向上していることを確認することができる。
なお、この例の場合、十分な判別性能を得るには、200エポック程度以上の処理の繰り返しを実施することが望ましい。
なお、上記実施例では機械学習の手法としてニューラルネットワークを用いたが、それ以外の各種の手法、サポートベクターマシン、ランダムフォレスト、非線形判別法などを用いてもよいことは明らかである。どのような手法を用いるのが適当であるかは、解析対象である分析データの性質等により異なるから、予め複数の機械学習手法を用意しておき、ユーザーが任意に選択できるようしてもよい。また、機械学習による判別分析や回帰分析は同じ種類のものを複数組み合わせたり、異なる種類のものを複数組み合わせたりすることができることはよく知られているから、そうした組み合わせを利用してもよいことは当然である。
また、上記実施例の疾病判別装置におけるデータ解析部は質量分析装置で得られたマススペクトルデータの解析に本発明を使用したものであるが、それ以外の様々な分析データについて機械学習を利用して何らかの判別分析や回帰分析を行う装置全般に本発明を適用できることは明らかである。例えば、LC装置やGC装置で得られたクロマトグラムデータ、分光測定装置で得られた吸光スペクトルデータ、蛍光X線分析装置で得られたX線スペクトルデータなどを解析する装置全般に本発明を適用できることは明らかである。
また上記実施例は本発明の一例にすぎず、上記記載以外の点において、本発明の趣旨の範囲で適宜変形、修正、追加等を行っても本願特許請求の範囲に包含されることは当然である。
1…データ解析部
10…有用次元選択処理部
11…データ読込み部
12…機械学習実行部
13…有用度合い算出部
14…入力次元無効化部
15…有用度合い更新部
16…繰り返し処理制御部
17…有用次元決定部
18…機械学習モデル作成部
19…未知データ判別部
2…操作部
3…表示部

Claims (6)

  1. 複数のサンプルについてそれぞれ分析装置で取得された、それぞれ異なる複数の次元における信号値を示す多次元の分析データを解析するものであって、複数のサンプルについての分析データである教師データに基づいて機械学習モデルを構築し該機械学習モデルを用いて未知のサンプルについての判別分析又は回帰分析を行う分析データ解析装置において、
    a)与えられた教師データについて機械学習を実行して判別分析又は回帰分析のための機械学習モデルを作成するモデル作成部と、
    b)前記モデル作成部で作成された機械学習モデルにおける各次元の入力の有用度合いをそれぞれ求める、又はすでに有用度合いが存在する場合には新たに求まった有用度度合いを利用して有用度合いを更新する有用度合い算出部と、
    c)前記有用度合い算出部で算出された各次元の有用度合いに応じて確率的に一部の次元の入力を無効化する入力無効化部と、
    d)前記入力無効化部により一部の次元の入力が無効化されたあとの教師データを用いて前記モデル作成部により機械学習を実行し、その結果に基づき各次元の入力の有用度合いを更新するという一連の処理を1回以上繰り返すように、前記モデル作成部、前記有用度合い算出部、及び前記入力無効化部を制御する繰り返し実行制御部と、
    e)前記繰り返し実行制御部により一連の処理が1回以上繰り返されたあとの次元毎の有用度合いに基づいて、未知のサンプルについて判別分析する又は回帰分析する際に使用する次元を選択する又は重み付けする次元決定部と、
    を備えることを特徴とする分析データ解析装置。
  2. 請求項1に記載の分析データ解析装置であって、
    前記入力無効化部は、各次元の有用度合いを示す指標値の平均値及び標準偏差を利用した確率分布関数を定め、該確率分布関数に基づいて確率的に決めた閾値に従って、各次元の有用度合いを示す指標値を判定することで一部の次元の入力を無効化することを特徴とする分析データ解析装置。
  3. 請求項2に記載の分析データ解析装置であって、
    前記確率分布関数はガウス分布関数であることを特徴とする分析データ解析装置。
  4. 請求項1〜3のいずれか1項に記載の分析データ解析装置であって、
    前記入力無効化部は、一部の次元の入力を実質的に0にすることで無効化することを特徴とする分析データ解析装置。
  5. 請求項1〜4のいずれか1項に記載の分析データ解析装置であって、
    前記有用度合い算出部は、前記機械学習モデルとして算出された判別分析又は回帰分析のための非線形関数についての次元毎の偏微分値に基づいて、各次元の有用度合いを示す寄与度を計算することを特徴とする分析データ解析装置。
  6. 複数のサンプルについてそれぞれ分析装置で取得された、それぞれ異なる複数の次元における信号値を示す多次元の分析データを解析するものであって、複数のサンプルについての分析データである教師データに基づいて機械学習モデルを構築し該機械学習モデルを用いて未知のサンプルについての判別分析又は回帰分析を行う分析データ解析方法において、
    a)与えられた教師データについて機械学習を実行して判別分析又は回帰分析のための機械学習モデルを作成するモデル作成ステップと、
    b)前記モデル作成ステップで作成された機械学習モデルにおける各次元の入力の有用度合いをそれぞれ求める、及びすでに有用度合いが存在する場合には新たに求まった有用度度合いを利用して有用度合いを更新する有用度合い算出ステップと、
    c)前記有用度合い算出部で算出された各次元の有用度合いに応じて確率的に一部の次元の入力を無効化する入力無効化ステップと、
    を有し、前記入力無効化ステップで一部の次元の入力が無効化されたあとの教師データを用いて前記モデル作成ステップで再び機械学習を実行し、その結果に基づき各次元の入力の有用度合いを更新するという一連の処理を1回以上繰り返し、その繰り返しのあとに得られる次元毎の有用度合いに基づいて、未知のサンプルについて判別分析する又は回帰分析する際に使用する次元を選択する又は重み付けすることを特徴とする分析データ解析方法。
JP2017049391A 2017-03-15 2017-03-15 分析データ解析装置及び分析データ解析方法 Active JP6729455B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017049391A JP6729455B2 (ja) 2017-03-15 2017-03-15 分析データ解析装置及び分析データ解析方法
US15/921,107 US11341404B2 (en) 2017-03-15 2018-03-14 Analysis-data analyzing device and analysis-data analyzing method that calculates or updates a degree of usefulness of each dimension of an input in a machine-learning model
CN201810215795.6A CN108629365B (zh) 2017-03-15 2018-03-15 分析数据解析装置以及分析数据解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017049391A JP6729455B2 (ja) 2017-03-15 2017-03-15 分析データ解析装置及び分析データ解析方法

Publications (3)

Publication Number Publication Date
JP2018152000A true JP2018152000A (ja) 2018-09-27
JP2018152000A5 JP2018152000A5 (ja) 2019-08-08
JP6729455B2 JP6729455B2 (ja) 2020-07-22

Family

ID=63519481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017049391A Active JP6729455B2 (ja) 2017-03-15 2017-03-15 分析データ解析装置及び分析データ解析方法

Country Status (3)

Country Link
US (1) US11341404B2 (ja)
JP (1) JP6729455B2 (ja)
CN (1) CN108629365B (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019049977A (ja) * 2017-09-08 2019-03-28 ビバンテ コーポレーション 畳み込みニューラルネットワークのための刈り込みと再学習法
JP2020075385A (ja) * 2018-11-06 2020-05-21 株式会社東芝 製品状態推定装置
WO2020105566A1 (ja) 2018-11-19 2020-05-28 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、プログラム、算出装置、及び算出方法
JP2020135513A (ja) * 2019-02-21 2020-08-31 キヤノンメディカルシステムズ株式会社 医用情報処理装置、医用情報処理システム、および医用情報処理方法
JP2020177582A (ja) * 2019-04-22 2020-10-29 株式会社東芝 学習装置、学習方法、プログラムおよび認識装置
JP2021025953A (ja) * 2019-08-08 2021-02-22 株式会社島津製作所 質量分析データ処理方法、質量分析データ処理システム、及び質量分析データ処理プログラム
WO2021085581A1 (ja) * 2019-11-01 2021-05-06 キヤノン株式会社 情報処理装置、及び情報処理装置の制御方法
JP2022152303A (ja) * 2021-03-29 2022-10-12 横河電機株式会社 解析装置、解析方法および解析プログラム
US11841373B2 (en) 2019-06-28 2023-12-12 Canon Kabushiki Kaisha Information processing apparatus, method for controlling information processing apparatus, and program
US11990327B2 (en) 2022-02-18 2024-05-21 Shimadzu Corporation Method, system and program for processing mass spectrometry data

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11544411B2 (en) * 2019-01-17 2023-01-03 Koninklijke Philips N.V. Machine learning model validation and authentication
CN109946424A (zh) * 2019-03-08 2019-06-28 杭州麦乐克科技股份有限公司 基于人工蜂群和神经网络的气体标定分类方法及系统
US20220144282A1 (en) * 2019-03-27 2022-05-12 Mitsubishi Electric Corporation Vehicle control calculation device, vehicle control apparatus, and vehicle control calculation method
US11399312B2 (en) * 2019-08-13 2022-07-26 International Business Machines Corporation Storage and retention intelligence in mobile networks
KR20210143464A (ko) * 2020-05-20 2021-11-29 삼성에스디에스 주식회사 데이터 분석 장치 및 그것의 데이터 분석 방법
US11816127B2 (en) 2021-02-26 2023-11-14 International Business Machines Corporation Quality assessment of extracted features from high-dimensional machine learning datasets

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020184569A1 (en) * 2001-04-25 2002-12-05 O'neill Michael System and method for using neural nets for analyzing micro-arrays
JP2010257409A (ja) * 2009-04-28 2010-11-11 Nec Soft Ltd 年齢推定装置、年齢推定方法及びプログラム
JP2011083393A (ja) * 2009-10-14 2011-04-28 Osaka Bioscience Institute 睡眠ステージ自動判定の装置と方法およびそのためのコンピュータプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102801546A (zh) * 2011-05-26 2012-11-28 北京天亿电联科技有限公司 网络数据安全管理方法和设备
US9406017B2 (en) * 2012-12-24 2016-08-02 Google Inc. System and method for addressing overfitting in a neural network
JP6037040B2 (ja) * 2013-10-16 2016-11-30 株式会社島津製作所 クロマトグラムデータ処理装置
CN105574105B (zh) * 2015-12-14 2019-05-28 北京锐安科技有限公司 一种文本分类模型的确定方法
US10515312B1 (en) * 2015-12-30 2019-12-24 Amazon Technologies, Inc. Neural network model compaction using selective unit removal
JP6760380B2 (ja) 2016-08-03 2020-09-23 株式会社島津製作所 分析データ処理方法及び分析データ処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020184569A1 (en) * 2001-04-25 2002-12-05 O'neill Michael System and method for using neural nets for analyzing micro-arrays
JP2010257409A (ja) * 2009-04-28 2010-11-11 Nec Soft Ltd 年齢推定装置、年齢推定方法及びプログラム
JP2011083393A (ja) * 2009-10-14 2011-04-28 Osaka Bioscience Institute 睡眠ステージ自動判定の装置と方法およびそのためのコンピュータプログラム

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019049977A (ja) * 2017-09-08 2019-03-28 ビバンテ コーポレーション 畳み込みニューラルネットワークのための刈り込みと再学習法
JP7232599B2 (ja) 2017-09-08 2023-03-03 ビバンテ コーポレーション 畳み込みニューラルネットワークのための刈り込みと再学習法
JP2020075385A (ja) * 2018-11-06 2020-05-21 株式会社東芝 製品状態推定装置
US11644825B2 (en) 2018-11-06 2023-05-09 Kabushiki Kaisha Toshiba Product state estimation device
JP7021052B2 (ja) 2018-11-06 2022-02-16 株式会社東芝 製品状態推定装置
WO2020105566A1 (ja) 2018-11-19 2020-05-28 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、プログラム、算出装置、及び算出方法
JP2020135513A (ja) * 2019-02-21 2020-08-31 キヤノンメディカルシステムズ株式会社 医用情報処理装置、医用情報処理システム、および医用情報処理方法
JP7269027B2 (ja) 2019-02-21 2023-05-08 キヤノンメディカルシステムズ株式会社 医用情報処理装置、医用情報処理システム、および医用情報処理方法
JP7106486B2 (ja) 2019-04-22 2022-07-26 株式会社東芝 学習装置、学習方法、プログラムおよび情報処理システム
US11640530B2 (en) 2019-04-22 2023-05-02 Kabushiki Kaisha Toshiba Learning device, learning method, computer program product, and recognition device
JP2020177582A (ja) * 2019-04-22 2020-10-29 株式会社東芝 学習装置、学習方法、プログラムおよび認識装置
US11841373B2 (en) 2019-06-28 2023-12-12 Canon Kabushiki Kaisha Information processing apparatus, method for controlling information processing apparatus, and program
JP7268530B2 (ja) 2019-08-08 2023-05-08 株式会社島津製作所 質量分析データ処理方法、質量分析データ処理システム、及び質量分析データ処理プログラム
JP2021025953A (ja) * 2019-08-08 2021-02-22 株式会社島津製作所 質量分析データ処理方法、質量分析データ処理システム、及び質量分析データ処理プログラム
WO2021085581A1 (ja) * 2019-11-01 2021-05-06 キヤノン株式会社 情報処理装置、及び情報処理装置の制御方法
JP2022152303A (ja) * 2021-03-29 2022-10-12 横河電機株式会社 解析装置、解析方法および解析プログラム
JP7310848B2 (ja) 2021-03-29 2023-07-19 横河電機株式会社 解析装置、解析方法および解析プログラム
US11990327B2 (en) 2022-02-18 2024-05-21 Shimadzu Corporation Method, system and program for processing mass spectrometry data

Also Published As

Publication number Publication date
JP6729455B2 (ja) 2020-07-22
US11341404B2 (en) 2022-05-24
US20180268293A1 (en) 2018-09-20
CN108629365A (zh) 2018-10-09
CN108629365B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
JP6729455B2 (ja) 分析データ解析装置及び分析データ解析方法
Beleites et al. Sample size planning for classification models
US20170358434A1 (en) Big-data analyzing method and mass spectrometric system using the same method
Ahmed et al. Enhanced feature selection for biomarker discovery in LC-MS data using GP
JP6715451B2 (ja) マススペクトル解析システム,方法およびプログラム
JP2022525427A (ja) 質量分析法データにおける境界の自動検出
US20190179874A1 (en) Analysis data processing method and analysis data processing device
US11550823B2 (en) Preprocessing for a classification algorithm
Peltola et al. Hierarchical Bayesian Survival Analysis and Projective Covariate Selection in Cardiovascular Event Risk Prediction.
Tian et al. Towards enhanced metabolomic data analysis of mass spectrometry image: Multivariate Curve Resolution and Machine Learning
Palmer et al. Randomized approximation methods for the efficient compression and analysis of hyperspectral data
Jiang et al. A Bayesian modified Ising model for identifying spatially variable genes from spatial transcriptomics data
Grissa et al. A hybrid and exploratory approach to knowledge discovery in metabolomic data
Sun et al. Pretreating and normalizing metabolomics data for statistical analysis
Yan et al. Radiomics analysis using stability selection supervised component analysis for right-censored survival data
CN110085324B (zh) 一种多重生存终端结果联合分析的方法
Chen Feature screening based on distance correlation for ultrahigh-dimensional censored data with covariate measurement error
Hediyeh-zadeh et al. MSImpute: Imputation of label-free mass spectrometry peptides by low-rank approximation
Horsch et al. A detailed comparison of analysis processes for MCC-IMS data in disease classification—Automated methods can replace manual peak annotations
Karimi et al. Identification of discriminatory variables in proteomics data analysis by clustering of variables
CN114184599B (zh) 单细胞拉曼光谱采集数目估计方法、数据处理方法及装置
WO2022027118A1 (pt) Método automático de seleção molecular
Reynes et al. A new genetic algorithm in proteomics: Feature selection for SELDI-TOF data
Grissa et al. A hybrid data mining approach for the identification of biomarkers in metabolomic data
Grissa et al. A hybrid knowledge discovery approach for mining predictive biomarkers in metabolomic data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190626

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200615

R151 Written notification of patent or utility model registration

Ref document number: 6729455

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151