JP6715451B2 - マススペクトル解析システム,方法およびプログラム - Google Patents

マススペクトル解析システム,方法およびプログラム Download PDF

Info

Publication number
JP6715451B2
JP6715451B2 JP2015078992A JP2015078992A JP6715451B2 JP 6715451 B2 JP6715451 B2 JP 6715451B2 JP 2015078992 A JP2015078992 A JP 2015078992A JP 2015078992 A JP2015078992 A JP 2015078992A JP 6715451 B2 JP6715451 B2 JP 6715451B2
Authority
JP
Japan
Prior art keywords
mass spectrum
statistical analysis
data
machine learning
significant difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015078992A
Other languages
English (en)
Other versions
JP2016200435A (ja
Inventor
吉村 健太郎
健太郎 吉村
悠志 城野
悠志 城野
慧 舟山
慧 舟山
将敬 川井
将敬 川井
優喜 森
優喜 森
扇 竹田
扇 竹田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Yamanashi NUC
Original Assignee
University of Yamanashi NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Yamanashi NUC filed Critical University of Yamanashi NUC
Priority to JP2015078992A priority Critical patent/JP6715451B2/ja
Publication of JP2016200435A publication Critical patent/JP2016200435A/ja
Application granted granted Critical
Publication of JP6715451B2 publication Critical patent/JP6715451B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Description

この発明は,マススペクトル解析システム,方法およびプログラムに関する。
質量分析技術には飛行時間型,四重極型,イオントラップ型などさまざまなタイプがあるが,いずれにしてもイオン化されたサンプル(試料)を質量電荷比(m/z)の違いにより分離する。したがって質量分析装置からは質量電荷比を横軸にとり,縦軸にイオン強度をとったマススペクトルを表わすことのできる基礎となるデータが生データとして出力される。
質量分析装置のメーカはさまざまなタイプの質量分析装置を製造,販売しているが,一般には一連のマススペクトル生データを出力することにとどまる。ひとつのサンプルを質量分析している過程においてもマススペクトルは刻々変化するので,どの時点またはどの時間帯のマススペクトルデータが好適か,適切な質量電荷比の範囲はどの辺かを判断して,利用目的に合致した代表マススペクトルのデータを生成することが必要となるが,この機能を,多くの質量分析装置は保有していないし,代表スペクトルをユーザが見える形で描画することもできない。さらに進んで大量のマススペクトルデータを管理,編集する機能を持たない。仮にこれらの機能があったとしてもメーカに特化したものであり,汎用性に欠け,その後の統計解析との親和性が低い。たとえば,質量分析装置から出力される生データは装置側で付与した識別番号を伴っているが,ユーザには分りにくい。質量分析の対象のサンプルに関連したユーザの分る言葉,数字で表わされる識別符号をつけた方が,ユーザには分りやすい。そうすれば後日,特定のサンプルのマススペクトルデータを抽出したり,多量のデータを分類したりすることが容易となる(データの管理,編集)。
質量分析装置から出力されるマススペクトルデータによって表わされる各ピークは,既存のマススペクトルデータベースと比較され,これに基づいてサンプルとの同定が行なわれる。
マススペクトルデータの利用は単にサンプルの同定にとどまらず,検体のさまざまな統計解析において利用される。たとえば,特定の薬を投与をしたウサギ群と投与しないウサギ群との間で,または特定の疾患のあるマウス群と同疾患のないマウス群との間で,マススペクトルに有意差のあるピークが存在するか(有意差検定),そのようなピークが存在する場合,該ピークは薬の投与の有効性,疾患の特定等の指標(マーカ)として有効に使えるか(判別分析と検証),などの統計解析の基礎データとしても利用される。
特許文献1には,マススペクトル解析法,とくにピーク位置を検出する方法が記載されているが,この方法は適切に処理された後のマススペクトルデータの存在を前提にしているように思われる。
また,特許文献2には,健常者グループとがん疾患患者から採取した検体のマススペクトルに基づいて,脂肪酸の差異を多変量解析して,特定のがんの診断を行う検査方法が記載されている。これは多変量解析手法を用いたがんの診断に特化したものである。
特開2005−351669号公報 特開2012−117998号公報
専門の統計解析用ソフトウェアは専門性が高く,その能力を充分に活用するのは難しい。特に,多くの解析法のルーチンを含むソフトウェアではどの統計解析を用いるのが適切かを判断するのが難しいし,その解析法を用いて得られた結果データの信憑性を検証するのは一層難しい。
この発明は,質量分析装置から出力されるマススペクトル生データに基づいて使用目的に応じた適切な代表マススペクトルデータを,手動で,または自動的に容易に作成することができるようにすることを目的とする。
この発明は,マススペクトルデータの管理,編集を容易に行なえるようにすることを目的とする。
この発明は,統計解析についての深い知識が必ずしも無くても,適切な統計解析法を選択できるようにすることを目的とする。
この発明は,統計解析法の信憑性を検証することができるようにすることを目的とする。
この発明は,マススペクトルデータの管理,編集,統計解析,その検証等のために使い易いユーザインターフェイスを提供することを目的とする。
この発明による代表マススペクトルの自動(または半自動)作成機能を有するマススペクトル解析システムは,質量電荷比,イオン強度および測定時間の3次元測定データを入力する測定データ入力手段,入力測定データの指定された質量電荷比に関し,イオン強度の総和が最大となる時間帯を算出する最良時間帯検出手段,ならびに検出された最良時間帯の入力測定データのイオン強度に基づいて代表マススペクトルを作成する代表マススペクトル作成手段を備えるものである。
この発明によるマススペクトル解析方法は,質量電荷比,イオン強度および測定時間の3次元測定データをコンピュータに入力し,コンピュータにおいて,入力測定データの指定された質量電荷比に関し,イオン強度の総和が最大となる時間帯を算出し,さらに検出された最良時間帯の入力測定データのイオン強度に基づいて代表マススペクトルを作成するものである。
この発明によるコンピュータのためのマススペクトル解析プログラムは,質量電荷比,イオン強度および測定時間の3次元測定データをコンピュータに入力し,コンピュータにおいて,入力測定データの指定された質量電荷比に関し,イオン強度の総和が最大となる時間帯を算出し,さらに検出された最良時間帯の入力測定データのイオン強度に基づいて代表マススペクトルを作成するようにコンピュータを制御するものである。
3次元測定データとは質量分析装置において得られる一般にスキャンデータといわれるものであり,所定時間(スキャニングインターバル)ごとに質量電荷比とイオン強度との関係を示すデータ(スペクトルとして表現可能なデータ)が得られる。したがって,上記測定時間はスキャン回数で表現され得る。
3次元測定データは,一般的には,時間軸(スキャン回数軸)上でイオン強度総和を表わすデータ(クロマトグラム)に変換される。このクロマトグラムには,イオン強度を測定データ中の全質量電荷比にわたって積算した全イオン強度(TIC),質量電荷比の特定の範囲にわたってイオン強度を積算した隔合イオン強度(MIC),特定の質量電荷比のイオン強度を示す単一ピークイオン強度(EIC)などがある。MICにおける質量電荷比の特定の範囲,EICにおける特定のピークはユーザが指定するようにしてもよいし,最大値を示す範囲またはピークを自動的に決定してもよい。これらの範囲や特定のピークを変化させて試行錯誤してもよい。
このようなTIC,MIC,EICにおけるイオン強度が最大となる時間帯が抽出されているので,マススペクトルが最も安定している時間帯で,かつサンプル(質量分析の対象)の特徴を最も良く表わす時間帯の測定データが抽出されたと考えることができる。時間帯の時間幅はユーザが指定してもよいし,デフォルト値を用いてもよい。この時間幅を変えて,試行錯誤を行ってもよい。
このようにして,最も安定し,サンプルの特徴を最もよく表わしていると考えられる時間帯の測定データに基づいて,代表マススペクトル(一般には,質量電荷比を横軸にとり,縦軸に,上記時間帯におけるイオン強度の和(または平均値)がとられる)が作成されるので,その後の適切な解析が担保される。
代表マススペクトルを作成する過程で算出される上記TIC,MIC,EIC(クロマトグラム)やこれらから得られる代表スペクトルを表示装置に表示すると,ユーザはこれをみながら,上記の質量電荷比の範囲(MICの場合),特定のピーク(EICの場合),上記の時間帯,その他のパラメータを適宜変更することができる。
すなわち,スペクトル解析システムは,入力された測定データの中から,最良時間帯を検出するための対象となるデータ範囲を定める条件を設定する条件設定手段をさらに備えることが好ましい。
また,スペクトル解析システムは,検出された最良時間帯および作成された代表マススペクトルを表示するマススペクトル表示手段をさらに備えることが好ましい。
さらに望ましくは,マススペクトル解析システムは,作成された代表マススペクトルにラベル情報を付加して記憶するマススペクトル蓄積手段をさらに備える。
質量分析装置から出力される測定データには,日付と識別符号(ID)程度が付加されているにすぎない。そこで,作成した代表スペクトルに,ユーザが理解可能,理解容易なより豊富なラベル情報を付加して記憶しておくと,後におけるマススペクトルの管理,編集(グルーピングなど),読出しを容易に行うことができるようになる。ラベル情報はユーザが理解できるものであれば何でもよいが,ユーザの組織,計画,行為に関する情報,サンプルに関する情報,サンプルを提供した人,物,場所,日時,時間,質量分析装置における測定条件,測定環境等に関する情報などが含まれる。
望ましくはマススペクトル解析システムは,作成した(または既に記憶されている)マススペクトルの評価機能を持つ。この評価機能は,上述した代表マススペクトルの自動(半自動)作成機能を持つマススペクトル解析システムに備えるようにしてもよいし,代表スペクトル自動(半自動)作成機能を持たないマススペクトル解析システムに備えるようにしてもよい。
マススペクトルの評価のためには,評価の対象となるマススペクトル群(1つのマススペクトルも含む)に加えて,評価の基準となる内標を作成するためのマススペクトル群が存在することが前提である。これらのマススペクトルを記憶しているマススペクトル蓄積手段が存在する。評価の対象となるマススペクトルは,内標作成のためのマススペクトル群の記憶装置とは別の記憶装置(たとえばコンピュータのワークエリア)に記憶されていてもよい。これらの記憶装置をすべて含めてマススペクトル蓄積手段という。
この発明によるマススペクトルの評価機能を有するマススペクトル解析システムは,多数の作成されたマススペクトルを蓄積しているマススペクトル蓄積手段,前記マススペクトル蓄積手段に蓄積されているマススペクトルから内標作成のための特定の第1群のマススペクトルを指定する第1の指定手段,指定された第1群のマススペクトルに基づいてイオン強度が高くかつ変動の少ない(イオン強度が所定値より高く(または以上),かつその変動が所定範囲以内の)1または複数のピークを選定する内標候補作成手段,前記マススペクトル蓄積手段に蓄積されているマススペクトルから評価対象とすべき第2群のマススペクトル(1つのマススペクトルも含む)を指定する第2の指定手段,および前記内標候補作成手段によって作成された内標候補のうちの1または複数のピークを内標として前記第2群内の各マススペクトルの良否を判定する良否判定手段を備えているものである。
この発明によるマススペクトルの評価機能を実現するマススペクトル解析方法は,多数の作成されたマススペクトルを蓄積しているマススペクトル蓄積手段に蓄積されているマススペクトルから,指定に応じて,内標作成のための第1群のマススペクトルを選択し,選択された第1群のマススペクトルに基づいてイオン強度が高くかつ変動の少ない1または複数のピークを選定して内標候補とし,前記マススペクトル蓄積手段に蓄積されているマススペクトルから,指定に応じて評価対象とすべき第2群のマススペクトル(1つのマススペクトルも含む)を選定し,前記内標候補のうちの1または複数のピークを内標として前記第2群内の各マススペクトルの良否を判定するものである。
この発明によるマススペクトルの評価機能をコンピュータにおいて実現するマススペクトル解析のためのコンピュータプログラムは,多数の作成されたマススペクトルを蓄積しているマススペクトル蓄積手段に蓄積されているマススペクトルから,指定に応じて,内標作成のための第1群のマススペクトルを選択し,選択された第1群のマススペクトルに基づいてイオン強度が高くかつ変動の少ない1または複数のピークを選定して内標候補とし,前記マススペクトル蓄積手段に蓄積されているマススペクトルから,指定に応じて,評価対象とすべき第2群のマススペクトル(1つのマススペクトルも含む)を選定し,前記内標候補のうちの1または複数のピークを内標として前記第2群内の各マススペクトルの良否を判定するようにコンピュータを制御するものである。
前記第1群のマススペクトルは,ユーザによって,または解析システムによって良好なものと判定されたマススペクトルの集まりであることが好ましい。特定の1または複数のピークが内標として定められると,第2群のマススペクトルの対応するピークが内標を基準として,イオン強度が所定値以上でかつその変動が許容範囲内にあればそのマススペクトルは良好なものと判定される。それ以外のものは不良である。良好と判定されたマススペクトルは,管理,編集や後述する統計解析の対象として用いることができる。不良と判定されたものは再度,上述した代表マススペクトルの作成に戻って再作成が行なわれることが好ましい。
次に統計解析機能について述べる。上述した代表マススペクトルとマススペクトル評価機能の両方を備えているマススペクトル解析システム,いずれか一方の機能を備えている解析システム,いずれの機能も備えていない解析システムのどれに対しても,以下に述べる統計解析機能を設けることができる。
統計解析には,その主なものとして,有意差検定,次元縮約,機械学習および検証がある。そして,有意差検定にも具体的には多くの種類のものがあり,同様に次元縮約,機械学習,検証のそれぞれにも多くの種類のものが既に開発されている。
まず,有意差検定機能をもつこの発明によるマススペクトル解析システムは,多数のマススペクトルのデータを記憶するマススペクトル蓄積手段,複数種類の有意差検定法を選択可能に表示するとともに選択された有意差検定法についての所望の有意水準を入力可能な統計解析法入力手段,前記マススペクトル蓄積手段に蓄積されているマススペクトルから,選択された有意差検定法を適用すべきデータセット(特定の複数のマススペクトルの集まり)を指定するデータセット指定手段,および前記統計解析法入力手段に表示される複数種類の有意差検定法を実行するプログラムルーチンを有し,選択された有意差検定法を指定されたデータセットに対して実行する統計解析実行手段を備え,この統計解析実行手段は,群間で有意差があると判断されたピークを選出するものである。
この発明による有意差検定が可能な解析方法は,複数種類の有意差検定法を選択可能に表示するとともに選択された有意差検定法とそれについての所望の有意水準の入力を受付け,マススペクトル蓄積手段に蓄積されている多数のマススペクトルから,選定された有意差検定法を適用すべきデータセットを,その指定に応じて選択し,表示される複数種類の有意差検定法を実行するプログラムルーチンのうち,選択された有意差検定法に関するプログラムルーチンを,選択されたデータセットに対して実行し,群間で有意差があると判断されたピークを選出するものである。
この発明による有意差検定をコンピュータに実行させるプログラムは,複数種類の有意差検定法を選択可能に表示するとともに選択された有意差検定法とそれについての所望の有意水準の入力を受付け,マススペクトル蓄積手段に蓄積されている多数のマススペクトルから,選定された有意差検定法を適用すべきデータセットを,その指定に応じて選択し,表示される複数種類の有意差検定法を実行するプログラムルーチンのうち,選択された有意差検定法に関するプログラムルーチンを,選択されたデータセットに対して実行し,群間で有意差があると判断されたピークを選出するようにコンピュータを制御するものである。
ユーザは表示された複数種類の有意差検定法の中から1つを選択して,有意差検定を実行することもできるし,複数種類を選択して複数種類の有意差検定を実行させてその結果を対比することもできる。いずれにしても,ユーザは選択したデータセット(複数のマススペクトルを含む)において,群間に有意差があるようなピークがあるかどうか,そのピークはどれかを知ることができる。
次に,機械学習機能をもつこの発明による解析システムは,複数種類の機械学習法を選択可能に表示する統計解析法入力手段,前記統計解析法入力手段に表示される機械学習法を実行するプログラムルーチンを有し,選択された機械学習法を,所定のデータセットに対して,実行する統計解析実行手段を備えるものである。
この発明による機械学習法は,複数種類の機械学習法を選択可能に表示するとともに,選択された機械学習法の入力を受付け,表示される機械学習法を実行するプログラムルーチンのうち,選択された機械学習法に関するプログラムルーチンを,所定のデータセットに対して,実行するものである。
この発明による機械学習法をコンピュータに実行させるプログラムは,複数種類の機械学習法を選択可能に表示するとともに,選択された機械学習法の入力を受付け,表示される機械学習法を実行するプログラムルーチンのうち,選択された機械学習法に関するプログラムルーチンを,所定のデータセットに対して,実行するようにコンピュータを制御するものである。
このようにして,ユーザは複数の機械学習法の中から所望の1つを選んで,学習を実行させることができる。ユーザは,複数の学習法を選んで,その結果を比較することができる。この比較には後述する検証法を用いることができる。
機械学習の対象となる上記所定のデータセットには,幾種類のものがある。
その一つ目は,多数のマススペクトルデータを記憶するマススペクトル蓄積手段から,選択すべき学習法を適用すべきデータセットを指定して選択するものである。
その二つ目は,上述した有意差検定法により有意差ありと判定されたピークに学習法を適用するものである。
その三つ目は,マススペクトル蓄積手段から選択したデータセットまたは有意差判定により有意差ありと判定されたデータを,所定の次元縮約法により縮約して,縮約されたスコアのデータに対して学習法を適用するものである。
縮約法もまた,複数種類の縮約法を表示してその中から一つまたは複数個をユーザに選択させることができる。特に,縮約法と機械学習は関連するので,複数種類の縮約法と複数種類の学習法を表示し,ユーザによって選択されたものを,表示画面上で紐付けて明示するとよい。
少なくとも一つの交差検証法を選択可能に表示し,選択された機械学習法の学習結果を,選択された交差検証法により検証するようにするとよい。
交差検証法も複数種類表示してユーザに選択させるとよい。
有意差検定法,機械学習法,縮約法,交差検証法を複数種類ずつ選択可能に表示し,ユーザによってこれらの組合せを選択させて,各組合せごとに検証法によって検証してどの組合せが最適かを判断することもできる。コンピュータにすべての(またはデフォルトで選んで)組合せを実行させてどの組合せが最良であるかを検証法により検証させることもできる。その結果は表示される。このようにして,ユーザの主観によらずに客観的な組合せを選ぶこともできるし,判別可能なピークの提示等も可能となる。
マススペクトル解析システムを示すブロック図である。 データ構造を示すブロック図である。 マススペクトル解析システムにおける処理を示すフローチャートである。 マススペクトル解析システムにおける処理を示すフローチャートである。 測定データ(テキスト形式)の一例を示す。 図5に示すデータをマススペクトルの形で表現したものである。 クロマトグラムの一例を示す。 図7のクロマトグラムの指定された時間帯におけるデータにより作成される代表マススペクトルの一例を示す。 代表マススペクトルの自動(半自動)作成における入力画面(条件設定画面)の一例を示す。 代表マススペクトルの自動(半自動)作成において表示されるクロマトグラムと代表マススペクトルの例を示す。 作成した代表マススペクトルの登録における入力画面を示す。 作成した代表マススペクトルのラベリングにおけるラベル入力画面を示す。 統計解析を行うマススペクトルデータの出力のための設定画面を示す。 内標決定における設定画面を示す。 内標の決定と,決定した内標によるマススペクトル評価の処理のための入,出力画面を示す。 統計解析処理の設定画面(入力画面)の例を示す。 検定法によるマーカー検索によって出力されるファイルの例を示す。 縮約法によって2主成分に縮約された結果(スコアプロット)を示す。 検証法の結果を示す正誤表の一例である。 統計解析,検証の結果をまとめて示す出力画面の一例である。
(1) システム構成
図1はこの発明の実施例のマススペクトル解析システムのハードウェア構成を示すブロック図である。マススペクトル解析システムは,以下に説明するようにプログラムされたコンピュータシステムによって実現される。
マススペクトル解析システム20は,機能的に分けると,コンピュータシステムの中枢で,代表マススペクトルの作成,内標に基づくマススペクトル評価,ラベリング,さまざまな統計解析処理,検証処理等を実行する処理部21,質量分析装置10で得られたマススペクトルデータを入力する入力部22,解析処理等の処理結果,途中経過等を出力するとともに,ユーザインターフェイスとして用いられる出力部23,および記憶部26から構成されている。
入力部22は,キーボード,マウス等の通常の入力装置に加えて,USBメモリ,CD−ROM等に記憶されたデータを読込む媒体リーダ,有線,無線を問わず通信によりデータ(命令を含む)を受信する通信装置等を含む。出力部23は入力部22と一部を共通にする。出力部23は,各種データ(マススペクトルを含む)のグラフ,その他のデータを見易い形態で表示するとともに,ユーザインターフェイスとして各種入力,設定画面を表示する表示部(表示装置)24,各種データや処理結果を印刷して出力するプリンタ25を含み,さらに明示的な図示は省略されているが,各種データ等を記憶媒体に書込む媒体ライタ,通信(送信)により出力する通信装置(入力部22の通信装置と兼用してもよい)を含む。
記憶部26は,入力されたマス(質量)スペクトルデータの一時格納,代表マススペクトルデータの蓄積(図2に示すデータベース),各種処理(図3,図4に示され,後述する代表マススペクトルの手動作成,代表マススペクトルの自動作成,データの編集,管理,マススペクトルの評価,統計解析処理,検証処理等)のプログラムの格納等に用いられるとともにワークエリアを提供する。記憶部26は,半導体メモリ,ハードディスク等により実現される。
処理部21はコンピュータの本体部分であり,記憶部26に格納された各種プログラムにしたがって,入力部22を通して入力されたマススペクトルデータに対して図3,図4に示す処理を実行する。このとき,必要な情報(ユーザインターフェイス画面)を表示部24に表示したり,処理の途中のデータ,処理結果のデータを記憶部26に記憶する。
図2は,質量分析装置10から得られる測定データから始まり,記憶部26に作成されるデータベースまでを示すデータ構造図である。図3,図4は記憶部26に格納されたプログラムにしたがって,処理部21が実行する処理の手順を表わすフローチャートである。これらの図面は,以下の説明の中で逐次参照される。処理部21はこれらのフローチャートで表わされる(および各請求項に記載された)機能を実現する手段を含んでいるということができる。
なお,マススペクトル解析システム20は,スキャン機能をもつ多くの種類の質量分析装置10から得られる測定データに適用することができる。
(2) 質量分析装置からの生データ
図5は質量分析装置10から出力されるテキスト形式の生データ(テキストデータ)の一例を示している。これは一つのサンプルについて,スキャン法により,一定時間間隔で(一例として0.05秒から 0.5秒間隔で),低質量側から高質量側にスキャニングを繰返すことにより得られたものである。各スキャニングにより得られたイオン強度(任意目盛,以下同じ)データが,質量電荷比(m/z)の値(一例として700〜800の範囲のみ示されている)に対応して,スキャン1,2,3,4等の列に数値として並べられている。これは,質量電荷比(m/z),イオン強度および測定時間(スキャニング順を表わすデータ)の3次元データ(テキストファイル)である。
図6は,分りやすくするために,図5に示すデータを,スキャンごとにマススペクトルの形で表現したものである。横軸は質量電荷比(m/z),縦軸はイオン強度を示し,奥行方向(矢印で示す)は,時間またはスキャン回数を表わしている。
マススペクトル解析システム20の入力部21は,質量分析装置10からこのような生データを取得する(図3,S11)(測定データ入力手段)。質量分析装置10からデータを送信し,入力部21がこれを受信してもよいし,質量分析装置10においてデータをUSBメモリのような記憶媒体に格納し,入力部21がこれを読取ってもよい。
(3) クロマトグラム
図7は,上述の生データを用いたTIC,MICまたはEIC(次に説明する)のクロマトグラムを示している。横軸は時間(スキャン回数),縦軸はイオン強度である。縦軸のイオン強度はTIC,MIC,EICによって異なる値をとるが,図7はEICのものと理解されたい(イオン強度は任意目盛であるから,その値そのものに大きな意味はないので,TIC,MIC,EICのいずれのものと考えても支障はない)。クロマトグラムは,イオン強度の総和(次に述べるように,何らかの形でまとめられた,または抽出された)を経時的に(時間軸に沿って,すなわちスキャンの順序に並べて)描画したものである。
TICは合計または全イオン強度(または電流)(Total Ion Current )の略称であり,取得したマススペクトルに含まれるすべてのピークの(データが表わす)(すべての質量電荷比に対応する)イオン強度の合計を意味する。TICCはTICのクロマトグラム(Chromatogram)(TICを経時的に描画したもの)を表わす。
MICは加算(または融合)イオン強度(または電流)(Merged Ion Current)の略称であり,特定の質量電荷比(以下,単にm/zという)範囲におけるピークの(データが表わす)(m/zに対応する)イオン強度の合計を意味する。MICCはMICのクロマトグラムを表わす。
EICは単一(または抽出)ピークイオン強度(または電流)(Extracted Ion Current )の略称であり,特定の(m/zに対応する)ピークのイオン強度を表わす。EICCはEICのクロマトグラムである。
(4) 代表マススペクトルの手動作成
マススペクトル解析システム20の表示装置24には代表マススペクトルの作成に関してモード選択画面(図示略)が表示され,ユーザはこのモード選択画面にしたがって,手動モードか,自動モードを選択する。手動モードが選択されたときには処理装置21は次に述べる代表マススペクトルの手動作成処理(S12)を実行する。
手動作成処理ではユーザによってTIC,MICまたはEICのいずれかが選択される。TICの場合には,取得した全m/z範囲の生データが用いられるが,MICの場合にはユーザによって使用するm/zの範囲が指定され,EICの場合には特定のピークが指定される。このようにしてユーザによって指定されたTIC,MICまたはEICの(図7に示すような)クロマトグラムが処理装置21によって作成され表示装置24に表示される。
ユーザはこのクロマトグラム上において,最も良く分析結果を表わしているであろうと考えられる時間範囲を,カーソル等の入力装置(入力部22に含まれる)を用いて入力する。時間範囲はたとえば下限PLと上限PHを指定することにより定まる。時間範囲が定まると,処理部21は,その時間範囲内において各スキャンのマススペクトルの同じm/z値をもつピークごとに加算して(または平均値をとり),代表マススペクトルを作成し,表示部24に表示する。作成された代表マススペクトルの一例が図8に示されている。代表マススペクトルデータは質量電荷比(m/z)とイオン強度の2変数からなるテキストデータであり,記憶部26のデータベースに格納される。
(5) 代表マススペクトルの自動(半自動)作成(S13)
代表マススペクトル作成に関するモード選択画面において,ユーザが自動を選択すると,図9に示すような条件設定画面が表示部24に表示される(S131 )(条件設定手段)。この画面を用いてユーザは所望の条件を設定することができる。
条件設定画面において,対象ファイルはS11で質量分析装置10から取得した生データ(測定データ)を格納しているファイルであり,質量分析装置10によって割り当てられたファイル名がボックス内に表示される。
TIC閾値,MIC閾値,EIC閾値は,それぞれTICC,MICC,EICCにおいて雑音等を除去するための閾値であり(図7参照),閾値を超える値をもつデータのみが以下の演算で用いられる。ユーザは,TIC,MIC,EICのうちで演算に使用したいものにチェックを入れて選択し(図9に示すように,すべてにチェックを入れてもよい),選択したものについて閾値を入力する。閾値の入力がなければデフォルト値(規定値)が用いられる。
MICは特定のm/z範囲におけるイオン強度の合計であるから,MICが選択された場合には,m/zの範囲の入力が要求される。また,EICは特定のピークのイオン強度を表わすものであるから,EICが選択された場合には,特定のピークのm/z値(指定スペクトル)の入力が必要である。
以上の入力(すなわち条件設定)が終了し,ユーザが「実行」ボタンを押すと(クリックすると,以下同じ),TIC,MIC,EICのうち選択された(チェックを入れることにより指定された)ものに関するクロマトグラムについて,
を求める演算が処理部21によって実行される。
式(1) はS(t)のうちの最大のものを求めることを意味し,S(t)はTICの場合,以下で与えられる。
MIC,EICの場合には,TICに代えてMIC,EICを使えばよい。
τはTICの横軸,すなわち時間を表わす。式(2) はτがtからt+Δtまでの時間幅においてTICの総和を求めることを意味し,式(1) によってこのクロマトグラムの総和が最大となるt(またはt+Δt)が示す時間(時刻またはサンプル時点)または時間帯が求められる。Δtは前もって設定しておいてもよいし(たとえば数秒〜数十秒程度),条件設定画面(図9)においてユーザに入力させてもよい。
式(1)および(2)の演算によって,クロマトグラムにおけるイオン強度の総和が最も高い時間帯が求められる(S132 )(最良時間帯検出手段)。イオン強度の総和が最も高いということは,マススペクトルが最も安定し,かつサンプルの特徴を最もよく表わしていると考えられる。
式(1),(2)を満たすt〜t+Δtの時間帯のイオン強度データを用いて代表マススペクトルが,TIC,MIC,EICのうち選択されたものについて作成される(S133 )(代表マススペクトル作成手段)。そして,図10に示す画面が表示される。
図10に示す画面において,TIC,MIC,EICのそれぞれについて(これらのすべてについて選択されたものとする),そのクロマトグラムが左側に表示され,各クロマトグラムにおいて式(1),(2)を満足する時間帯が破線の縦に長い直方形で示されている。図10の画面の右側には,それぞれ,式(1),(2)を満足する時間帯のイオン強度データの質量電荷比m/zごとの総和(または平均値)によって作成された代表マススペクトルが示されている(マススペクトル表示手段)。なお,図面においては,代表マススペクトルが単に代表スペクトルまたはスペクトルと表記されている。またマススペクトルが単にスペクトルと表記されている。
これらの代表マススペクトルのうちいずれか一つが質量分析されたサンプルを最も良く表わすものとして記憶部26に格納される。この代表マススペクトルは質量電荷比,イオン強度の2変数からなるテキストデータである。図10において,ユーザは,各クロマトグラムの左側のボックスに,記憶部26に格納する一つを「採用するスペクトル」として選択すべきことが求められる。図10ではユーザはMICにチェックを入れて選択している。なお,後述する代表マススペクトルの再作成等のためにバイナリ形式のデータも保存される。チェックボタンについては後述する。
代表マススペクトルの作成をやり直す場合には,図9に示す条件設定に戻って,閾値やm/z範囲,指定スペクトル,要すれば時間帯Δtの値を再入力することになる。
(6) データの編集,管理(ラベリングとデータ蓄積)(S14)
上述のようにして処理部21において作成された一つのサンプルについての代表マススペクトルは記憶部26のデータベースに登録される。この際に,データの管理,編集を簡便に行うことができるようにするために,測定条件情報や検体情報についてのラベルを付与する。ラベルはデータの集まりがヒエラルキー構造(階層構造)をもつように作成されることが好ましい。この実施例では,最も上位のラベルはプロジェクト名である。
そこで,表示部24の表示画面には,図11に示すようなプロジェクト名の選択画面が表示される。ユーザはプルダウン方式で表示されるプロジェクト名の中からいずれかを選択して入力する。ここではプロジェクト名として「ヒトがん検体」が選択されたものとする。そして,ユーザは「登録」ボタンを押す(クリックする)。
すると,図12に示すように,ラベル情報を入力する画面が表示部24に表示される。プロジェクト名は既に入力されたものである。ラベル情報としては,ユーザにとって分りやすく,検体の由来,属性,特性等を端的に表わすものが好ましい。この実施例では,ラベルには,ファイル名,検体を提供した人の性別および年齢,ならびに検体の疾患名,ステージ(進行程度)および組織型が用いられている。プロジェクト名を,当然,ラベル情報に含ませてもよい。また,測定条件情報を加えてもよい。そして,これらの内容が図12に図示のように入力され,「蓄積」ボタンが押されると,この代表マススペクトルデータは入力されたラベル情報を伴ってデータベースに格納される(S141 )(マススペクトル蓄積手段)。
ここで図2を参照して,データ構造について説明しておくことが理解の役に立つと考える。
質量分析装置10における測定(質量分析)により得られる一つのサンプルについての測定データd1は,質量分析装置によって生データのフォーマットが異なるので,テキスト形式のデータd2として質量分析装置10からマススペクトル解析システム20に与えられる。このマススペクトルデータには,質量分析装置10またはユーザが付与したID(識別符号)がつけられている。システム20では,上述した代表マススペクトルの手動生成,自動生成の処理(S12,S13)において,マススペクトルを表示するために,上記テキストデータはバイナリ形式のデータd3に変換される。代表マススペクトルデータ(テキスト形式)d4が得られると,ラベル情報等が入力され,代表マススペクトルデータに質量分析装置が付与したIDに代えて,または加えてラベル情報が付加される(S141 )。そして,リレーショナルデータベース(RDB)構築用テキストファイルへのデータ変換が行なわれて,プロジェクトごとにデータベースに蓄積される。このデータベースを特に符号27で示す。
このようにしてデータベース27に蓄積された代表マススペクトルデータはさまざまな目的のために使用(利用)される。そのうちの一つが後述する統計解析処理であり,もう一つが次に説明する内標検索処理である。これらの各処理のために,蓄積されたマススペクトルデータ中から,データのあるグループ(データセット)が選択される。これが図2に符号28で示す選択されたマススペクトルデータセットのフォルダである。
一例として,統計解析を行うために,既にデータベース27に蓄積されているマススペクトルデータの中から特定のグループに属するものを選択するための表示画面の例が図13に示されている。プロジェクト名(ヒトがん検体)と,グループを定めるラベル情報の範囲,すなわち性別(指定無し),年齢(50〜80),疾患(肝がん),ステージ(1〜3),組織型(原発HCC)がユーザによって入力される。そして「選択」ボタンを押すと,マススペクトルデータベース27が検索され,上記のプロジェクト名とラベル範囲を満足するマススペクトルデータが抽出される(S142 )。抽出されたデータのラベル情報が図13の下段に示すように一覧表の形で表示される。「エクスポート」ボタンを押せば,エクスポートされる(S143 )。すなわち,抽出されたマススペクトルデータはデータベースから記憶部26の所定の記憶場所に転送され,統計解析処理が使用できる状態となる(データベース28の作成)(データセット指定手段)。
このように,すべての代表マススペクトルデータにラベル情報を付加しておくことにより,ユーザが理解できる用語,概念(ラベル)を用いてデータのグルーピング,検索,抽出(選択)等が容易となる。
(7) マススペクトルの評価(S15)
先に説明した代表マススペクトルの作成処理(S12,S13)において(特に,自動作成処理(S13)において)作成されたマススペクトルがすべて品質(クオリティ)の高いものとは限らない。作成した,または既にマススペクトルデータベース27に蓄積されたマススペクトルの品質が次のようにして評価される。この評価処理はメニュー画面(図示略)において指定することにより実行されるが,図10の表示画面において「チェック」ボタンを押してもこの評価処理に進むことができる。
まず,評価のための指標(これを内標と呼ぶ)が決定(検索,選定)される。次にこの内標を用いて,特定のマススペクトルの良否が判定(弁別)(個別スペクトル判定)されるか,または特定のグループ内のマススペクトルの良否が判定(弁別)(フォルダ内スペクトル一括判定)される。
内標の決定は蓄積された既存の多数のマススペクトルデータを用いて行なわれる。内標の決定に用いられるマススペクトルデータは,過去に行なわれたマススペクトルの評価において良好マススペクトルと判定された群,またはユーザが目視で良好マススペクトルと判定されたものの集まりを用いることが好ましい。
まず図14に示す表示画面において,内標の決定に用いる多数のマススペクトルデータが指定され,かつ条件が設定される。ここでは,選択されたマススペクトルデータセットフォルダ(図2符号28)の一つが対象フォルダとして指定される(第1の指定手段)。ラベル情報を入力して対象フォルダ等を特定することもできる。また,条件として,検出強度の下限値と変動係数の上限値が入力される。マススペクトルは特定のm/z値に対応して多数のピークを有する。内標はこれらのピークのうちの安定して現われる(変動の少ない)一つまたは複数を選択することにより定められる。すなわち内標は特定の安定したピークである。検出強度下限値は,内標として採用するピークのイオン強度(平均強度)の下限値を定めるものである。すなわち,この下限値よりも平均強度の高い値をもつピークが内標の候補となりうる。変動係数は,特定のm/z値に対応するピークの値(イオン強度)の集合が正規分布にしたがうとして,分散を平均値で除した値である。入力された変動係数上限値を下廻る変動係数をもつピークが内標の候補となりうる。これらの2つの条件は,AND条件である。
対象ファイルが特定され,検出強度下限と変動係数上限の条件が入力され,「実行」ボタンが押されると,対象フォルダ内の全マススペクトルについて,各m/z値に対応するピークの値の集合に関してその変動係数と平均イオン強度とが算出され,得られた結果のうち上記条件を満たすものが,内標候補として,図15の上半部に示されるように,変動係数の小さい順に並べて表示される(内標候補作成手段)。表示されるのは,順位,変動係数,m/z,平均イオン強度である。ユーザはこの内標候補の中からマススペクトル評価に用いる内標としてふさわしいものを選択し,対応するボックスにチェックを入れる。図の例ではm/zが 208のピークの内標として選択されている。ユーザによって選択されない場合には,変動係数の最も小さいピークが内標として自動選定される(S151)。
この内標を用いたマススペクトルの評価は次の考え方に依る。すなわち,内標は上述のようにマススペクトルにおいて安定して現われるピークであるから,評価の対象となるマススペクトルにおいても,対応するピーク(m/z値が同じピーク)は,同程度のイオン強度をもつことが期待できる。そこで,一例として,内標であるピークの平均イオン強度を中心として上下に許容範囲を設定し,評価対象のマススペクトルの対応ピークのイオン強度がこの許容範囲内にあれば良好マススペクトルと判定し,許容範囲外であれば不良マススペクトルと判定する。
図15の画面の下半分において,評価の対象となるマススペクトルデータファイルが含まれるフォルダがユーザによって入力される。上述したラベル情報によって評価の対象となるマススペクトルデータを指定してもよい(以上,「フォルダ内スペクトル一括判定)。また,S13の代表マススペクトル自動作成処理で作成した1つのマススペクトルデータの良否を判定してもよい(個別スペクトル判定)(以上,第2の指定手段)。この個別スペクトル判定は,代表的には図10において,「すぐにマススペクトルのチェックを行う場合にはこちらを押して下さい」という文の次にある「チェック」ボタンが押されたときに行なわれるものである。
「実行」ボタンが押されると,上記内標を基準として,対応するピークのイオン強度が内標の平均イオン強度の上下の許容範囲内にあるかどうかが判断され,許容範囲内にあれば良好マススペクトル,許容範囲外の場合には不良マススペクトルと判断される(S152 )(良否判定手段)。図15の画面の最下段では,判定された良好スペクトルと不良スペクトルのファイル名が列挙されている。
内標を決定するために用いる基礎マススペクトルデータ群(図14で指定された対象フォルダ)と,良否判定の対象のマススペクトルデータとは同種の検体についての質量分析から得られたものである。同種の検体とは,肝がんのように同じ疾病の細胞,特定の動物またはヒトの肝臓のように同じ臓器,同じ部位の細胞,同種の生体の一部等,同じm/z値のピークが出現することが期待される(異なるm/z値のピークが含まれていてもよい)ものである。内標として決定されたピークを用いたときに,良好スペクトルと判定されるものが不良スペクトルと判定されるものに比べて少ない場合には,内標が正しくない場合もありうるので,内標の決定処理をやり直したり(基礎マススペクトルデータを変えるなど),順位が2番目以降の変動係数をもつピーク(m/z値)を内標とするなど,試行すればよい。複数の内標(ピーク)を決定した場合には,各内標を基準とした良否判定結果のAND論理またはOR論理により最終判定結果を得るようにすることができる。
個別スペクトル判定において,作成したマススペクトルが不良と判定されたときには,代表スペクトルの自動作成(S13)に戻り,図9の画面において閾値を変更したり(閾値による条件を緩和する),図10の画面においてMICではなくTICまたはEICを選択したりすることにより代表マススペクトルの作成のやり直し(再作成)を行うことができる。
(8) 統計解析の手法
さまざまな総計解析手法があるが,ここでは4つに大きく分類し,各分類ごとにそこに含まれるいくつかの代表的な手法を説明する。
1)有意差検定
Welch t-test(ウェルチのt検定)
「2つの母集団の平均が等しい」という帰無仮説のもと,等分散を仮定しない両側検定を行うものである。
WRST(Wilcoxon rank sum test)(ウィルコクソン順位和検定)
「両標本が同一母集団から抽出された」という帰無仮説に基づいてノンパラメトリックな検定を行うものである。
ANOVA(Analysis of variance)(分散分析)
「全ての群の母平均に差が無い」という帰無仮説に基づいて多群のパラメトリック検定を行うものである。
有意差検定は,マススペクトル解析システムでは,マススペクトルのピーク(m/z値)ごとに検定を行い,マススペクトル群(グループ)の間で有意な差があるピークの探索に有用であり,マーカー探索や分子メカニズム解明に利用できる。群間で有意差があるとされたピーク(m/z)を選出し,対応するデータを後述する機械学習で利用できる。
2)次元縮約
次元縮約は多くの変数を少数の変数(スコア)に縮約するものである。
PCA(Principal component analysis)(主成分分析)
教師無し次元縮約法である。
PLS(Partial least squares)(部分的最小二乗法)
教師あり次元縮約法である。
OPLS(Orthogonal Partial Least squares)(直交PLS)
PLSの改良版で,説明変数の直交成分を分離して解析する。
KPLS(kernel partial least squares)(カーネルPLS)
カーネル法を用いてPLSを非線形拡張するので,分離性能が向上する。
マススペクトル解析システムでは,マススペクトルに含まれる多くのピーク(変数)を2,3の少ないスコア(主成分)に縮約できるのでスコア間の相関が判別できるとともに,その結果を機械学習に利用できる。スコアの数はユーザが指定できる。
3)機械学習法
LDA(Linear discriminant analysis)(線形判別分析)
直線,超平面による判別関数を構成。
QDA(Quadratic discriminant analysis)(二次判別分析)
曲線,超曲面による判別関数を構成。
SVM(Support vector machine)(サポートベクターマシン)
マージンを最大化する識別面を特徴空間に構成する非線形識別法。
LR(Logistic regression)(ロジスティック回帰)
事後確率の対数尤度比が線形式で表されると仮定する回帰モデル。
RF(Random forest)(ランダムフォレスト)
決定木を弱学習器とする集団学習アルゴリズム。
マススペクトル解析システムでは,これらの学習法で作成された判別関数を用いて未知のマススペクトルの診断をすることができる。したがって,診断や治療方針の決定に利用できる。
4)検証法
機械学習法の診断精度を検証するものである。この検証結果により,最も適した機械学習手法を自動的に選定することも可能となる。
k-fold CV(k-fold cross validation)(k−分割交差検証)
標本群をk個に分割して,そのうちの一つをテストサンプル,残りを訓練サンプルとする検証法。
LOOCV(Leave one out cross validation)(Leave-one-out交差検証)
標本群から1つのサンプルだけを抜き出してテストサンプルとし,残りを訓練サンプルとする検証法。
(9) 各統計解析ルーチンとその組合せ
マススペクトル解析システム20の記憶部26には,上述した有意差検定法に含まれるすべての個別の検証法(Welch t-test,WRST,ANOVAなど)をそれぞれ実行するプログラム(ルーチン)(手段),次元縮約法に含まれるすべての個別の縮約法(PCA,PLS,OPLS,KPLSなど)をそれぞれ実行するプログラム(ルーチン)(手段),機械学習法に含まれるすべての個別の学習法(LDA,QDA,SVM,LR,RFなど)をそれぞれ実行するプログラム(ルーチン)(手段)および検証法に含まれるすべての個別の検証法(k-fold CV ,LOOCVなど)をそれぞれ実行するプログラム(ルーチン)(手段)が格納されており,処理部21はこれらのプログラムにしたがって,各統計解析法,検証法を個別に,または同時に実行することができる。
すなわち,図16に示すように,表示部24の表示画面には,上述したすべての統計解析法,検証法が表示され,ユーザは,これらの表示された解析法および検証法のいずれか1つ以上を選択することができる。すべての解析法および検証法を選択することもできる。また,検証法中の1つ以上と,縮約法中の1つ以上と,学習法の1つ以上と,検証法の1つ以上とを組合せて選択することもできるし,その組合せの中から1つ以上を除くこともできる。すなわち,任意の組合せの選択が可能となる(図4,S21)(統計解析法入力手段)。そして,処理部21は選択された解析法,検証法を個別に,もしくは並行して,または組合せにしたがって順を追って実行することができる(S30,S40,S50,S60)(統計解析実行手段)。これらの処理の結果(統計解析の結果得られる各種の数値情報,図2の符号29)は,表示部24の画面上に表示して,プリンタ25でプリントして,またはデータの形で通信回線を介して,もしくは記憶媒体に出力して提示される(S31,S41,S52,S61)。
選択された検定法の実行の結果,選定されたピークに対応するデータは,選択された縮約法に渡されてその処理(縮約)対象データとして用いるか,または選択された学習法に渡されてその処理(学習)対象データとして用いることもできる(S32)。同様に,選択された縮約法で処理されて出力されるスコアデータは,選択された学習法に渡されてその処理(学習)対象データとして用いることもできる(S42)。特に,選択された縮約法と選択された学習法の組合せは,表示画面上にそれらを結ぶ線として表示される(図16参照)。選択された検証法は選択された学習法の診断精度を検証する(S50,S60)。選択された学習法で決定された判別関数により未知データの診断処理も可能で(S51),その診断結果は提示される(S52)。選択された解析法,検証法は,「実行」ボタンの押下(クリック)に応答して実行される(図16参照)。
このように,多くの種類の統計解析の手法,検証法を実行するプログラムのルーチンが備えられているので,ユーザはこれらの汎用的なものから高度なものまでのプログラムルーチンのうちの所望のもの(1または複数)を実行することができる。未だ備えられていない統計解析法や検証法のプログラムルーチンを追加してインストールすることもできる(拡散性が高い)。検定法,縮約法,学習法の中から適切な組合せ(検定法を除いた組合せでもよい)を設定して,対象であるマススペクトル群について試行することができ,そのマススペクトル群の解析のために最適な組合せを選ぶことができる。このとき,検証法を用いて,設定した組合せが適切であったかどうかを判定することができる。次に示す具体例のように,複数の統計解析手法の組合せを用いて,対象であるマススペクトル群について,意味のある変化,たとえば疾患で特異的に変化する分子(マーカー)を手動または自動(半自動を含む)で抽出することができる。図16に示す画面(ユーザインターフェイス)は,操作するのに簡便であり,かつ分りやすく,作業時間の短縮を図ることができる。
(10)解析,検証の具体例
図16に示すように,検定法としてANOVAが,縮約法としてPCAが,学習法としてLDAが,そして検証法としてLOOCVが選択された場合の具体例について以下に説明する。
解析に使用するデータセット(「使用するデータセットを含むフォルダを選択」と表示されたボックス)のフォルダには,3群(グループ)のウサギ血漿のマススペクトルデータが入っている(S142,S143)(データセット指定手段)。3群のウサギとは次の通りである。
正常なウサギ10匹(コントロールとして位置づける):C0と略記する
食物を通してコレステロール負荷を加えたウサギ10匹:C16と略記する
遺伝的にコレステロール代謝に異常を有するウサギ10匹:Wと略記する
したがって,これら30匹のウサギ血漿の30のマススペクトルデータが統計解析の対象となる。
m/z範囲はマススペクトルにおいて解析に使用するm/z値の範囲を定めるもので,ここでは10.0〜1000.0の範囲が指定されている。 Binサイズはm/z値のとりうる間隔(幅)を示し,ここでは1が設定されている。したがって,10.0,11.0,12.0,‥‥,999.0,1000.0 のように1ずつ変化するm/z値に対応するイオン強度をもつマススペクトルを対象データとしている。データセット中のマススペクトルデータの Binサイズが1でない場合には,平均値または加算値をとる( Binサイズが小さい場合),または補間をとる(Binサイズが大きい場合)などによりBinサイズが1となるように加工される。
統計解析法として,上述したようにANOVA,PCA,LDAが選択され,検証法としてLOOCVが選択される。PCAによる縮約結果を学習法LDAで用いるので,これらの文字のブロックが線で結ばれている。有意水準,多重検定補正,変動係数範囲および平均強度範囲は検定法ANOVAに関するもので,これについては,次のマーカー探索の項で説明する。縮約法PCAで縮約の結果出力されるスコアの数は2と設定されている。以上の設定ののち(図4,S21),実行ボタンが押されると,設定された統計解析,検証が実行される。
統計解析ルーチン,検証ルーチンの実行に先だってデータの加工が行なわれる(S22)。データベース28(図2)から読出されたデータセットのマススペクトルデータについて,設定されたm/z範囲になり,かつ設定された Binサイズを持つように加工が行なわれる。また,30のマススペクトルについて,C0,C16,Wの各グループごとにイオン強度の正規化(ノースライズ)が行なわれる。すなわち,各スペクトルの平均強度が算出され,各ピークの値がこの平均強度で除されることにより正規化が行なわれる。
(11)解析,検証の具体例(マーカー探索)
マーカー探索の目的は,3つのグループの識別に有用なマーカー物質を,m/z=10〜1000の中から見つけることである。
マーカー探索は以下の条件(i),(ii),(iii)を満たすような物質(m/z)を絞り込む(探索する)ことにより行なわれる。
(i) グループ間で強度(イオン強度)が大きく異なるm/zを選出する。これは次に詳述する検定法ANOVAにより達成される。
(ii)強度が十分に大きいm/zを選出する。平均強度は図16の画面で設定されているように,1.0〜inf.(無限)である。1.0は平均値で正規化しているので平均値を意味する。この条件(ii)は,いずれかのグループで,強度が1を上廻るピークに対応するm/zを選出することである。
(iii) 各グループ内での強度のばらつきが十分に小さいm/zを選出する。ばらつきは図16の画面で設定された変動係数範囲(0.0〜0.3)で定められる。変動係数は,各ピークの強度を1としたときの分散の値で定められる(ピークの強度によって分散の値が変ってしまうので,正規化している)。この条件(iii)は各グループで上記の分散が0.3未満となるようなピークに対応するm/zを選出することである。
上記条件(i)を満たすm/zを選出するANOVA法について説明する。
ANOVA法は各グループの平均強度が等しいという帰無仮説のもとで(各グループの平均強度をμ1,μ2,μ3とするとμ1=μ2=μ3),ピーク毎の(m/z値ごとの)P値を算出する。P値は帰無仮説が成立つ確率を示す。P値が大きいほど,グループ間で同じm/z値について強度の差が小さい(帰無仮説が正しい)。
P値の有意水準は0.05に設定されている(図16の画面)。上のようにして算出されたP値がこの有意水準0.05より小さいm/zを,グループ間で強度が異なるm/z(ピーク)として選出する。なお,図16で多重検定補正がBF(Bonferroni)法というのは,検定をN回繰返す場合(N>2),Bonferroni法に基づいてP値の有意水準を0.05/Nとすることを意味する。
上記の条件(i),(ii),(iii)を満足するものとして選出されたm/z値(ピーク)と,それに対応するP値(−log で表わされている),変動係数(CV_C0,CV_C16,CV_WはそれぞれグループC0,C16,Wを示す)および平均強度(M_C0,M_C16,M_WはそれぞれグループC0,C16,Wを示す)が出力ファイルとして図17に示されている。
(12)解析,検証の具体例(次元縮約)
マーカー検定で上記(i),(ii),(iii)の条件を満たすm/zが上記のように(図17)選出されたが,変数(m/z)の数が多いので,次元縮約法により,変数の数を減らす。次元縮約法により情報量を削減することで,学習/診断の精度が向上することがあるからである。
次元縮約法については主成分分析(PCA)が設定されており,スコアの数は2である(図16)。
30のマススペクトルデータ中の全てのピークのイオン強度をPCAにより2つの主成分(第1,第2主成分)に縮約した結果が図18に示されている。図17に示す選出されたm/zのすべてのピークのイオン強度を縮約してもよい。
PC1,PC2はそれぞれ第1,第2主成分である。jw−0W,JW−16W,WHHCがそれぞれグループC0,C16,Wに対応する。これらのグループはこれらの主成分PC1,PC2で分離(判別)可能性が高いことが分る。
上記条件(i),(ii),(iii)を満たすものとして図17に示すように選定されたm/zを用いた次元縮約以外に,元の3グループのデータのすべて(すべてのm/z)を用いて次元縮約を行うこともできる。
(13)解析,検証の具体例(未知のスペクトルが属するグループの推定)
教師データを用いて機械学習を行い,この学習結果(判別関数)に基づいて,未知のスペクトルが属するグループを高精度に推定することを目的とするものである。最も好ましくは,上述した統計的検定,次元縮約法,機械学習法を組み合わせて,より高精度な判別器を構成することができる。
一例として,図18に示す縮約法により得られた結果に基づいて,第1,第2主成分を説明変数として,目的変数(グループ)を推定する判別器(PCA−LDA)を構成することができる。この場合,検定した(ANOVA)の結果(図17)を用いて縮約を行ったものに基づいて学習を行っても,元の3グループのマススペクトルデータを用いて縮約を行ったものに基づいて学習を行ってもどちらでもよい。
未知のスペクトルが属するグループを推定する方法をまとめると,次の4種類がある。
1)機械学習:全m/zを説明変数として教師データの学習を行う(目的変数はグループ名)。
2)統計的検定→機械学習:検定において識別に重要であるとみなされたm/zを説明変数として,教師データの学習を行う。
3)次元縮約法→機械学習:全m/zの情報をより少ない変数(主成分やPLSスコア)に縮約し,それらを説明変数として教師データの学習を行う。
4)統計的検定→次元縮約法→機械学習:検定において識別に重要であるとみなされたm/zをより少ない変数(スコア)に縮約し,それらを説明変数として教師データの学習を行う。
(14)解析,検証の具体例(推定精度の検証法)
図16に示す画面には,検証方法として,Leave-one-out 交差検証(LOOCV)が設定されている。これは「全サンプルから一つのサンプルを検証用に取り出して残りのサンプルで学習を行い,検証用のサンプルが属するグループを正しく推定できるか」という過程を全サンプル数繰り返し,機械学習による推定の正答率を出力する。
上述の判別器(PCA−LDA)による推定の正答率をLOOCVにより検証した結果(正誤表)が,図19に示されている。[1]が正答,[0]が誤答を示しており,正答率は27/30=90%であった。検証結果は,上記以外に,ROC曲線,AUC等の成績データで出力することもできる。
縮約法と学習法の組合せを変え,場合によってはさらに検定法との組合せを変えて,それぞれの学習結果に基づく推定の精度を検証法(検証法を変えてもよい)に求め,組合せごとの推定精度の結果に基づいて,より高精度にデータの学習/診断が行えるような判別法(検定法,縮約法,学習法の組合せ)を自動的に(またはユーザが組合せを選択する半自動で)選出することも可能である。
図20は,図17,図18および図19に示す統計解析,検証の結果を一つの表示画面にまとめて示すものである。このような画面を表示することにより,ユーザは一連の解析,検証の結果を網羅的に見ることができる。
10 質量分析装置
20 マススペクトル解析システム
21 処理部
22 入力部
23 出力部
26 記憶部
27,28 データベース

Claims (3)

  1. 複数のマススペクトルのデータをラベル情報を付加して記憶するマススペクトル蓄積手段,
    複数種類の有意差検定法複数種類の次元縮約法,複数種類の機械学習法または複数種類の交差検証法の選択を可能にする統計解析法入力手段,
    前記マススペクトル蓄積手段に蓄積されているマススペクトルから,選択された有意差検定法次元縮約法,機械学習法または交差検証法を適用すべきデータセットを指定するデータセット指定手段,および
    前記統計解析法入力手段にて選択される複数種類の有意差検定法を実行するプログラムルーチンを有し,選択された有意差検定法を前記指定されたデータセットに対して実行する統計解析実行手段を備え,
    前記統計解析実行手段は,群間で有意差があると判断されたピークを選出するものであり,
    前記統計解析実行手段は,さらに前記統計解析法入力手段で選択される次元縮約法を実行するプログラムルーチンを有し,前記データセット指定手段によって指定されたデータセット,または前記統計解析実行手段によって群間に有意差があると判断されたピークに対して選択された次元縮約法を実行し,その結果得られるスコアに関するデータを出力するものであり,
    前記統計解析実行手段は,さらに前記統計解析法入力手段で選択される機械学習法を実行するプログラムルーチンを有し,前記データセット指定手段によって指定されたデータセット,前記統計解析実行手段によって群間で有意差があると判断されたピーク,または前記統計解析実行手段によって出力されたスコアに関するデータに対して選択された機械学習法を実行可能なものであり,前記選択された機械学習法の学習結果を,前記選択された交差検証法により検証するものであり,
    前記統計解析法入力手段は,前記有意差検定法,前記次元縮約法,前記機械学習法,または前記交差検証法の選択の組み合わせを変更可能なものであり,
    前記統計解析実行手段は,前記データセット指定手段が指定したデータセットに対し,前記組み合わせごとに前記有意差検定法または前記次元縮約法,前記機械学習法および前記交差検証法を実行し,前記交差検証法の結果に基づいて最適な組み合わせを自動的に判定するものである,
    マススペクトル解析システム。
  2. 複数のマススペクトルのデータをラベル情報を付加してマススペクトル蓄積手段に記憶し,
    複数種類の有意差検定法複数種類の次元縮約法,複数種類の機械学習法または複数種類の交差検証法から選択された有意差検定法次元縮約法,機械学習法または交差検証法の入力を統計解析法入力手段が受付け,
    前記マススペクトル蓄積手段に蓄積されているマススペクトルから,選択された有意差検定法次元縮約法,機械学習法または交差検証法を適用すべきデータセットをデータセット指定手段が指定に応じて選択し,
    複数種類の有意差検定法を実行するプログラムルーチンのうち統計解析法入力手段が受付けた有意差検定法に関するプログラムルーチンを,前記選択されたデータセットに対して統計解析実行手段が実行し,
    前記統計解析実行手段は,群間で有意差があると判断されたピークを選出し,
    前記統計解析実行手段はさらに,複数種類の次元縮約法を実行するプログラムルーチンのうち,前記統計解析法入力手段により受付けられた次元縮約法を実行するプログラムルーチンを,前記データセット指定手段によって指定されたデータセット,または前記統計解析実行手段によって群間に有意差があると判断されたピークに対して実行し,その結果得られるスコアに関するデータを出力
    前記統計解析実行手段は,複数種類の機械学習法を実行するプログラムルーチンのうち,前記統計解析法入力手段が受付けた機械学習法に関するプログラムルーチンを,前記選択されたデータセット,前記統計解析実行手段によって群間で有意差があると判断されたピーク,または前記統計解析実行手段によって出力されたスコアに関するデータに対して実行し,前記選択された機械学習法の学習結果を,複数種類の交差検証法を実行するプログラムルーチンのうち,前記統計解析法入力手段が受付けた交差検証法に関するプログラムルーチンにより検証し,
    前記有意差検定法,前記次元縮約法,前記機械学習法,または前記交差検証法の選択の組み合わせの変更を前記統計解析入力手段が受付け,
    前記統計解析実行手段は,前記データセット指定手段が選択したデータセットに対し,前記組み合わせごとに前記有意差検定法または前記次元縮約法,前記機械学習法および前記交差検証法に関するプログラムルーチンを実行し,前記交差検証法の結果に基づいて最適な組み合わせを自動的に判定するものである,
    マススペクトル解析方法。
  3. 複数のマススペクトルのデータをラベル情報を付加してマススペクトル蓄積手段に記憶し,
    複数種類の有意差検定法複数種類の次元縮約法,複数種類の機械学習法または複数種類の交差検証法から選択された有意差検定法次元縮約法,機械学習法または交差検証法の入力を受付け,
    前記マススペクトル蓄積手段に蓄積されているマススペクトルから,選択された有意差検定法次元縮約法,機械学習法または交差検証法を適用すべきデータセットを指定に応じて選択し,
    複数種類の有意差検定法を実行するプログラムルーチンのうち選択された有意差検定法に関するプログラムルーチンを,前記選択されたデータセットに対して実行して,群間で有意差があると判断されたピークを選出し,
    数種類の次元縮約法を実行するプログラムルーチンのうち,選択された次元縮約法を実行するプログラムルーチンを,選択されたデータセット,または群間に有意差があると判断されたピークに対して実行し,その結果得られるスコアに関するデータを出力するようにコンピュータを制御
    複数種類の機械学習法を実行するプログラムルーチンのうち,選択された機械学習法に関するプログラムルーチンを,前記選択されたデータセット,群間で有意差があると判断されたピーク,または出力されたスコアに関するデータに対して実行し,前記選択された機械学習法の学習結果を,複数種類の交差検証法を実行するプログラムルーチンのうち,前記受付けた交差検証法に関するプログラムルーチンにより検証し,
    前記有意差検定法,前記次元縮約法,前記機械学習法,または前記交差検証法の選択の組み合わせの変更を受付け,
    選択されたデータセットに対し,前記組み合わせごとに前記有意差検定法または前記次元縮約法,前記機械学習法および前記交差検証法に関するプログラムルーチンを実行し,前記交差検証法の結果に基づいて最適な組み合わせを自動的に判定するようにコンピュータを制御する,
    マススペクトル解析プログラム。
JP2015078992A 2015-04-08 2015-04-08 マススペクトル解析システム,方法およびプログラム Active JP6715451B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015078992A JP6715451B2 (ja) 2015-04-08 2015-04-08 マススペクトル解析システム,方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015078992A JP6715451B2 (ja) 2015-04-08 2015-04-08 マススペクトル解析システム,方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2016200435A JP2016200435A (ja) 2016-12-01
JP6715451B2 true JP6715451B2 (ja) 2020-07-01

Family

ID=57424087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015078992A Active JP6715451B2 (ja) 2015-04-08 2015-04-08 マススペクトル解析システム,方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6715451B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017090566A1 (ja) * 2015-11-26 2017-06-01 ヒューマン・メタボローム・テクノロジーズ株式会社 データ解析装置、方法及びプログラム
JP6741278B2 (ja) * 2017-01-16 2020-08-19 株式会社島津製作所 データ解析装置及びデータ解析用プログラム
WO2018158801A1 (ja) * 2017-02-28 2018-09-07 株式会社島津製作所 スペクトルデータの特徴抽出装置および方法
JP7025621B2 (ja) * 2017-04-13 2022-02-25 国立大学法人山梨大学 質量分析装置及び質量分析方法、並びに解析装置及び解析方法
JP6931586B2 (ja) * 2017-10-06 2021-09-08 日本電子株式会社 質量分析データ処理装置及び質量分析データ処理方法
JP7158642B2 (ja) * 2018-01-16 2022-10-24 国立大学法人山梨大学 質量分析装置及び質量分析システム
FI20196044A1 (en) * 2019-12-02 2021-06-03 Karsa Oy SIGNAL PROCESSING METHOD AND MASS SPECTROMETER USING IT
JP7310692B2 (ja) * 2020-04-21 2023-07-19 株式会社島津製作所 理論質量テーブル表示システム
JP7334671B2 (ja) * 2020-04-21 2023-08-29 株式会社島津製作所 理論質量テーブル表示システム
CN113607915B (zh) * 2021-04-23 2024-02-02 重庆工商大学 基于嵌入式系统的便携式堆肥腐熟度检测仪及检测方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005214799A (ja) * 2004-01-29 2005-08-11 Seikei Gakuen データ解析装置、データ解析方法およびデータ解析プログラム
JP4470505B2 (ja) * 2004-02-04 2010-06-02 株式会社島津製作所 クロマトグラフ質量分析用データ処理装置
EP1910959A1 (en) * 2005-07-25 2008-04-16 Metanomics GmbH Means and methods for analyzing a sample by means of chromatography-mass spectrometry
JP2009057337A (ja) * 2007-08-31 2009-03-19 Dainippon Sumitomo Pharma Co Ltd メタボロームデータの解析方法および代謝関与マーカー
EP2239675A1 (en) * 2009-04-07 2010-10-13 BIOCRATES Life Sciences AG Method for in vitro diagnosing a complex disease
JP5007326B2 (ja) * 2009-09-24 2012-08-22 株式会社日立ハイテクノロジーズ クロマトグラフィー質量分析方法、及びクロマトグラフ質量分析装置
JP5365579B2 (ja) * 2010-05-18 2013-12-11 株式会社島津製作所 クロマトグラフ質量分析用データ処理装置
US9582909B2 (en) * 2012-11-15 2017-02-28 Shimadzu Corporation Chromatograph mass spectrometry data processing device
JP6020314B2 (ja) * 2013-04-04 2016-11-02 株式会社島津製作所 クロマトグラフ質量分析データ処理装置

Also Published As

Publication number Publication date
JP2016200435A (ja) 2016-12-01

Similar Documents

Publication Publication Date Title
JP6715451B2 (ja) マススペクトル解析システム,方法およびプログラム
JP7057913B2 (ja) ビッグデータ解析方法及び該解析方法を利用した質量分析システム
US10713590B2 (en) Bagged filtering method for selection and deselection of features for classification
Enot et al. Preprocessing, classification modeling and feature selection using flow injection electrospray mass spectrometry metabolite fingerprint data
US20160216244A1 (en) Method and electronic nose for comparing odors
JP2018152000A (ja) 分析データ解析装置及び分析データ解析方法
US7761239B2 (en) Method of diagnosing biological states through the use of a centralized, adaptive model, and remote sample processing
WO2021161901A1 (ja) 特徴量選択方法、特徴量選択プログラム、マルチクラス分類方法、マルチクラス分類プログラム、特徴量選択装置、マルチクラス分類装置、及び特徴量セット
US20210350283A1 (en) Data analyzer
Curran et al. Computer aided manual validation of mass spectrometry-based proteomic data
CN109100477A (zh) 食用油分析方法、识别系统、产生库的方法及数据载体
CN114184599B (zh) 单细胞拉曼光谱采集数目估计方法、数据处理方法及装置
CN107025387B (zh) 一种用于癌症生物标志物识别的方法
US20060287969A1 (en) Methods of processing biological data
Kuncheva et al. Evaluation of feature ranking ensembles for high-dimensional biomedical data: a case study
KR20200046991A (ko) 바이오마커 동정을 위한 대사체 데이터 자동 분석 장치 및 방법
WO2022139735A1 (en) Disease classification based on rna-sequencing data and an algorithm for the detection of disease-related genes
Dittwald et al. Towards automated discrimination of lipids versus peptides from full scan mass spectra
Grissa et al. A hybrid data mining approach for the identification of biomarkers in metabolomic data
Mirkes et al. Computational diagnosis of canine lymphoma
WO2022065216A1 (ja) 特徴量選択方法、特徴量選択プログラム、及び特徴量選択装置、マルチクラス分類方法、マルチクラス分類プログラム、及びマルチクラス分類装置、並びに特徴量セット
JP2007240326A (ja) 波形解析装置
US20230351263A1 (en) Active machine learning model for targeted mass spectrometry data analysis
Driscoll EXPLORATION OF MULTIVARIATE CHEMICAL DATA IN NOISY ENVIRONMENTS: NEW ALGORITHMS AND SIMULATION METHOD
Kubiak et al. Visualising and quantifying the usefulness of new predictors stratified by outcome class: The U-smile method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200428

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200515

R150 Certificate of patent or registration of utility model

Ref document number: 6715451

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250