JP2004503792A - マススペクトルデータをマイニングする方法とシステム - Google Patents
マススペクトルデータをマイニングする方法とシステム Download PDFInfo
- Publication number
- JP2004503792A JP2004503792A JP2002511360A JP2002511360A JP2004503792A JP 2004503792 A JP2004503792 A JP 2004503792A JP 2002511360 A JP2002511360 A JP 2002511360A JP 2002511360 A JP2002511360 A JP 2002511360A JP 2004503792 A JP2004503792 A JP 2004503792A
- Authority
- JP
- Japan
- Prior art keywords
- ion
- score
- ions
- mass spectrum
- spectral characteristics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01J—ELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
- H01J49/00—Particle spectrometers or separator tubes
- H01J49/0027—Methods for using particle spectrometers
- H01J49/0036—Step by step routines describing the handling of the data generated during a measurement
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10T—TECHNICAL SUBJECTS COVERED BY FORMER US CLASSIFICATION
- Y10T436/00—Chemistry: analytical and immunological testing
- Y10T436/14—Heterocyclic carbon compound [i.e., O, S, N, Se, Te, as only ring hetero atom]
- Y10T436/142222—Hetero-O [e.g., ascorbic acid, etc.]
- Y10T436/143333—Saccharide [e.g., DNA, etc.]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10T—TECHNICAL SUBJECTS COVERED BY FORMER US CLASSIFICATION
- Y10T436/00—Chemistry: analytical and immunological testing
- Y10T436/24—Nuclear magnetic resonance, electron spin resonance or other spin effects or mass spectrometry
Landscapes
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Electron Tubes For Measurement (AREA)
Abstract
質量(マス)スペクトルデータをマイニングするための方法とシステムはマススペクトルのスペクトル特性を特定すること(200)と;スペクトル特定間の関係を特定すること(204)と;該関係に基づいてスペクトル特性と整合しているマススペクトルの部分についてマススペクトルを探査すること(206)と、マススペクトルの部分とスペクトル特性との間の相関の度合を示すためにマススペクトルの部分に対して得点を指定すること(208)とを含んでいる。
【選択図】図4
【選択図】図4
Description
【0001】
発明の属する技術分野
この発明は、一般に、データマイニング(データを目的をもって調べる、data mining)の分野におけるデータ処理に係り、もっと特定すると、さらに分析を行うためにマススペクトル(質量分析)に係るデータをマイニングするための方法、システム、及び計算機プログラム製品(プロダクツ)に関する。
【0002】
従来の技術
質量分析測定法(Mass Spectrometry, MS)機器は化学物質からのイオンを発生して解析をする。こういった分析はマススペクトルを生じ、これが分析される物質の化学的性質を反映している。MS機器は全走査(フルスキャン)マススペクトルを発生することができ、このスペクトルはある特定の時点でMS機器に入る化学物質から発生されたすべてのイオンを表わしている。MS機器はまたタンデム(連繋する)マススペクトル(MS−MSスペクトル)を生成することもでき、これは特定のイオン(プレカーソル(先駆物質)イオン)が選ばれて、その次にエネルギーの解離(ディソシエーション)を受けて、それが破片のイオン(フラグメントイオンもしくはプロダクトイオンと呼ばれている)を作り出すというプロセスによっている。MS−MSスペクトルは特定の先駆物質イオンから作られたプロダクトイオンの分布を記録し、また先駆物質種の特定の構造上の特徴がこの情報から求められるようにできる。近代的なMS機器は全スキャンマススペクトルあるいはMS−MSスペクトルの多数を自動的に取得することができる。自動化された、こういったスペクトルについての高生産性の評価は、MS機器により生成されたデータの利用に対する著しい挑戦を意味している。
【0003】
蛋白質(プロテイン)及びペプチド分析用に最新のMS技術を応用することは、細胞のプロテオーム(cellular proteomes)の大規模分析を実施可能なものとした。このプロテオームは生物体とかそのサブセット(一部)の中のすべての蛋白質を集めたものを含んでいる。高度に複雑のプロテオームの蛋白質組成であっても、蛋白質とペプチドにまでダイジェスト(温侵)し、その後でペプチドについてのMS分析をすることによって識別されている。広く使用されているMS解析は液体クロマトグラフィであり、これがトリップルクオードラポール(triple quadrupole)、クオードラポール・イオントラップ(quodrapole−ion trap)、フライトのクオードラポール・時間(quodrapole−time of flight)、もしくはフライトのタンデム時間MS機器(tandem time of flight MS instruments)を備えたタンデムMS(LC−MS−MS)に接続されていて、こういったMS機器がペプチドについての衝突が誘起した解離(Collision−induced dissociation;CID)スペクトルの中に有用な情報を与えている。CIDを受けることになるペプチド先駆物質イオンはプロダクトイオンを生ずるために分裂(フラグメンテーション)を経験することになり、これがMS−MSスペクトル内に記録されている。こういったスペクトルは各種のプロダクトイオンについての信号を含んでいて、その中にはyイオン、bイオン、及びペプチド背景(バックボーン)の分裂から生じた関係する種(スピーシーズ)を含んでいる。さらに、こういったMS−MSスペクトルはペプチド変形(モディフィケーション)の存在とシーケンス位置とを示している信号を含んでいる。
【0004】
MS−MSスペクトルからのペプチドシーケンスの識別は直接解釈(direct interpretationであって、de novo(改めての意)シーケンス分析と呼ぶ)によって行われてよい。ひとたびペプチドシーケンスが決定されると、ソース(源)の蛋白質は、蛋白質シーケンスのデータベースに対して、そのペプチドシーケンスを比較することによって識別されてよい。しかしながら、一般的なLC−MS−MS分析は何千何百といったMS−MSスペクトルを生成する。データについてのうなぎ上りともいえるデータ量(sheer volume of data)はde novoシーケンス解釈を含むプロテーム分析をしたがって前もって排除することになる。
【0005】
Yates,IIIらは米合衆国特許(US Pat 5,538,897)開示のようにMS−MSデータをデータベース内に保存されている蛋白質とヌクレオチドとのシーケンスと相関をとる計算機プログラムを実施した。このプログラムはMS−MSスペクトルを、ペプチド先駆物質イオンの測定された質量(マス)と整合するデータベースのシーケンスと相関をとっている。したがって、このプログラムはde novoシーケンス解釈を事前に取除いて、MS−MSデータからの蛋白質識別を大幅に高速化している。
【0006】
発明が解決しようとする課題
しかしながら、プロテオーム分析における主要な問題は、おびただしい変換後の変更(posttranslational modification)と、スプライスバリアントと、ジーン(遺伝子)ポリモルフィズム(多形性)、及びミューテーション(配列)が原因となっての蛋白質の異種混合性(heterogeneity)である。事実、いずれもの遺伝子は複数の蛋白質生成物(プロダクト)を生じさせることができる。Yates,IIIらのプログラムはある種の予期される変更の存在を許せるのではあるが、予想することができず、また枝分かれして行く蛋白質変更の性質はときにシーケンスデータベース内のものとは異なる質量(マス)のペプチドを生ずる。こういった予期しない蛋白質変化形はこのプログラムによる正しい蛋白質識別を妨げている。こういった環境はデータ評価ツール(道具)の必要性を例示しており、こういったツールは変種のペプチド形態に対応するMS−MSデータを検出できるものである。
【0007】
予期しないペプチド変種を検出し、特性を決めるという一般的な問題は、複雑なペプチド混合物についての高度に進んだ特性を決めることについての著しい障壁を残している。
【0008】
課題を解決するための手段
ここでこの発明の目的、特徴などを要約説明する。
【0009】
この発明の一つの目的は、大量のデータをマイニングする(目的をもって調べる)ための新しい方法を用意することである。
【0010】
この発明の別な目的は、マススペクトル(質量分析)データをマイニングするための新しい方法を用意することである。
【0011】
この発明の別な目的は、データをマイニングするために使用されることになるマススペクトルデータのスペクトル特性を特定するための新しい方法を用意することである。
【0012】
この発明の他の目的は、テーマをマイニングするために使用されることになるスペクトル特性についてのユーザが規定した階層構造を特定するための新しい方法を用意することである。
【0013】
この発明のほかの目的は、マススペクトルデータ内で予期しない変更を効率的にマイニングするための新しい方法を用意することである。
【0014】
こういった目的と、そのほかの目的とは、この発明によって構成された、マススペクトルデータマイニングシステム、方法、及び計算機プログラム製品によって達成され、そこではデータパターンが大規模データベース及び/又はファイルを解析するために使用されて、有用なデータが抽出されるようにする。このデータパターンはデータベースに対抗するパラメータの比較を含んでいるアイテム(事項)の存在を識別するために使用することができる。このようにして、データマイニングプロセスは大量のデータに対してのふるいがけをすることが可能であって、ユーザもしくはデータマイニングプロセスのいずれかによって特定された特定のパターンを同定識別(アイテンティファイ)して抽出するようにする。
【0015】
とくに、この発明の一つの特徴(アスペクト)によると、マススペクトルをマイニングするための新しい方法が用意されていて、その中にはマイニング対象のマススペクトルのスペクトル特性を特定する段階と、スペクトル特性間の関係を特定する段階と、スペクトル特性間の関係に基づいてスペクトル特性と整合するマススペクトルの部分を求めてマススペクトルをサーチ(探索)する段階と、その部分とスペクトル特性との間の相関の度合い(a degree of correlation)を示すためにマススペクトルの該部分に対して得点(スコア)を指定(アサイン)する段階とを含んでいる。
【0016】
この発明の別な特徴によると、この発明の方法を実施する新システムを用意している。
【0017】
さらに別なこの発明の特徴によると、新しい計算機プログラム製品が用意されていて、それは計算機システムの計算機が読取ることができる媒体内部に含まれていて、これが実行されると、計算機システムがこの発明の方法を実行することになる。
【0018】
発明の実施の形態
この発明についてのもっと完全な理解と、発明に付随する数多くの利点とは、添図の図面と関係付けて考慮するときに、以下の詳細な記述を参照してよりよく理解されることになるのと同じように、すぐに手に入れることができるものとなる。図面を参照するとして、同じ参照番号は、いくつかの図面にわたり同一もしくは対応する部分を示している。
【0019】
図1はペプチドAVAGCAGAR(alanine−valine−alanine−glycine−cysteine−alanine−glycine−alanine−arginine)のダブルチャージしたイオンについてのCIDにより作られたMS−MSスペクトルの例を示す。この例示のマススペクトルは、またデータスキャン(データ走査)としても知られていて、この発明によってマイニングされることができて、化学的に特有の特性上の特徴(chemical−specific−characteristic features)を検出するのにあてられる。例示のマススペクトルでは、x軸は検出されたイオン信号の質量(マス)対チャージ比(m/z)を示し、またy軸はマススペクトロメータ(質量分析計)により検出された特定イオンの相対的な豊富さ(relative abundance、相対的存在度)を示している。ペプチドの化学的構造はマススペクトルの上に示されており、またスペクトル内のイオン信号はCIDにおける破片(フラグメンテーション)を記述するために受入れられている規約に従ってyイオンとbイオンとして注が付されている。
【0020】
CIDによって作られたマススペクトルは例としての目的のものと理解されるべきもので、他の技術によって作られたマススペクトルもまたこの発明によってマイニングすることができるのである。このような技術は、限定するわけではないが、表面に誘起された解離(ディソシエーション)と全スキャンMSを含んでいる。
【0021】
図2はマススペクトルデータをマイニングするためのシステムを示す。このシステムは、計器計算機(インスツルメントコンピュータ)10、マススペクトロメータ(質量分析計)12、ホスト計算機20、及びサーバ24を含んでいる。マススペクトロメータ12は計器計算機10に標準のデータ伝送/通信ケーブルを経て接続され、また計器計算機10と、ホスト計算機20と、サーバ24とはローカルエリア網(LAN)25を経て接続されている。LAN25はインターネット35に接続されている。
【0022】
計器計算機10は、いずれかの適当な計算機、ワークステーション、サーバ、もしくは、ホスト計算機20とサーバ24とにLAN25とまたインターネット35を経てほかのデバイスと通信をするための他のデバイスである。
【0023】
マススペクトロメータ12は、いずれかの適当な化学分析デバイスであって、分析対象の化学物質からイオンを発生してそれを分析して、また情報を送り、制御命令と情報とを計器計算機10から受けるようなデバイスである。
【0024】
ホスト計算機20は、いずれかの適当な計算機、ワークステーション、サーバ、もしくは他のデバイスであって、LAN25を経てサーバ24と計器計算機10と、またインターネット35を経てほかのデバイスと通信をするものである。ホスト計算機20はデータを記憶し、また命令を実行する。この発明では、ホスト計算機20はマススペクトルデータをマイニングするためにこの発明の段階を実行する。ホスト計算機20は計器計算機10とサーバ24との間で情報の送受をする。
【0025】
サーバ24は、いずれかの適当なデバイスであって、計器計算機10とホスト計算機20との間でLAN25を経由して情報を記憶したり回復したりするものか、あるいはインターネット35を経由していずれかのほかのデバイスとそれをするものである。この発明では、サーバ24が計器計算機10からのマススペクトルデータを記憶してホスト計算機20に向けてデータを送り、そこでデータがマイニングされる。
【0026】
図2のシステムは、例示目的のためだけのものであり、この発明を実施するために使用される特定のハードウェアとソフトウェアとについての数多くの変形は当業者にとってすぐに明らかなものとなることは理解されたい。例えば、ホスト計算機20とサーバ24とはLAN25によってではなく、インターネット35を介して接続されるようにしてよい。あるいは、ホスト計算機は取外されてよく、この発明は計器計算機10によって実行されてよい。または、ローカルなデータベースとか計器計算機10がサーバ24ではなくマススペクトルデータを記憶するのに使用されてよい。
【0027】
図3は、この発明によりマススペクトルデータをマイニングするときに、図2のシステムによって実行されるデータの流れを示す。化学的サンプル(試料)がマススペクトロメータ12によって分析されて、生の(raw)データ1としてマススペクトルデータを作る一連のMS−MSスキャンを介してサンプル内の化学種を判断し決定する。複数の繰返し(レプリカ)MS−MSスキャンが質量分析計(マススペクトロメータ)12で各データサンプルについて取得されて、そのサンプルについての代表的な分析を主として得るようにする。三回のMS−MSスキャンの組が一般には取得されるけれども、いくつでもよい数のスキャンがある組で取得できる。マススペクトロメータ12はそこで生のデータ1を計器計算機10に送り、そこではデータファイル3内に生のデータ1を記憶する。MS−MSスキャンが完了した後で、計器計算機10はこのデータファイル3をサーバ24に向けて送って保存にあてる。ホスト計算機20はそこでサーバ24からデータファイル3を検索し読出し(回復し)、データファイル3上でのデータマイニングを実行して関心のあるスペクトルデータを識別して抽出する。複数スキャンの各組はそこで平均がとられて、その先のすべての動作はこの平均されたスキャンについて実行される。この場合に、平均をとることは、平均値が単位チャージ当りの各プロダクトイオンマス(爾後m/zと言う)値での信号強度について平均がとられることになるスキャンの組について計算されることを意味している。マイニングプロセスを完了した後に、ホスト計算機20は結果と得点(スコア)5とをサーバ24に送って保存する。
【0028】
図3に示したデータの流れは例示を目的としただけのものであって、いろいろな変りだねがシステムのハードウェアとソフトウェアとで利用可能な数多くの変形に対応して発生されてよいことは理解できると思う。
【0029】
図4はこの発明のマススペクトルデータをマイニングする方法の一実施例を示す。先ず、ユーザはこの発明の方法を開始する。段階200では、ユーザがマイニングをそこでするデータフアイルを選んで、このファイルがホスト計算機にダウンロードされる。ホスト計算機は、そこで段階202でダウンロードされたデータファイルからのマススペクトルデータを前処理して、破片となっていない(ノンフラグメント)イオンを取りのけて、先駆物質チャージを推定し、全イオン流の百分率(%TIC)でイオン強度を正規化する。この正規化はもっと大きな豊富さの(アバンダントな)種の検出に向けてのバイアスを除去し、低濃度で存在する種の識別同定ができるようにする。ユーザはそこでスペクトル特性と、他の各々についてのその特性の関係とを段階204で例えば制御ウィンドウを経て入力する。この段階はユーザがスペクトル特性と関係とを特定できるようにして、与えられた化学種を識別しかつデータ内での予期されていない変更を実効的に検出する上で最も有用であるものを特定する。前処理したスペクトルはそこで評価がされて、段階206では特定されたスペクトル特性についての整合を見付けるために評価を受ける。段階208では得点が計算され、その際にはスペクトル特性についてのユーザが定義した階層とともに整合したイオンの%TIC値が勘案される。探索の結果が表もしくはグラフ形式のいずれかで段階210で表示され、それによって、容易に理解できる出力が用意される。
【0030】
ユーザは人間であっても、計算機プログラムであっても、あるいはこの発明の方法が実行されるようになる命令を送ることができるいずれかのオブジェクトであってよいことは理解できると思う。
【0031】
図5は図4の前処理段階202に含まれている段階を示す。少くともn個の破片イオンを備えたマススペクトルデータがデータワークアップ(クライマックスまで順序もって来る)サブルーチンによって前処理され、このサブルーチンでは先駆物質チャージが推定されて、破片イオンが%TICによって正規化される。この実施例では、nは25に設定されている。先ず、データがホスト計算機によって段階230で読取られる。n個より少い破片イオンについてのデータは段階232でスペクトルからサブトラクト(取りのけ)される。段階234では先駆物質イオンと、特定された先駆物質のm/zの±p%内にあるイオンとが各スペクトルから減算され、段階236では先駆物質イオンについてのもののm倍よりも大きなm/zをもつイオンも併せて取りのけされる。この実施例では、pは0.4に設定され、またmは2に設定される。先駆物質チャージはそこで比の計算によって推定され(段階238)るが、この比は、先駆物質よりも大きなm/zをもつイオンについての加算されたイオン流の、残っているイオンについての全イオン流に対する比となっている。比が0.1よりも大きいスペクトルは二重にチャージされた先駆物質から生ずるものとして定義される。比が0.1以下のスペクトルは単一にチャージされた先駆物質から生じるものと定義されていて、先駆物質よりも大きいm/zをもつ全イオンはスペクトルから減算されている。したがって、段階240では、照合がされて、そのスペクトルが単一もしくは二重にチャージされているかどうかが問合される。もしスペクトルが単一にチャージされているものであれば、そのときは先駆物質よりも大きなm/zをもつ全イオンが段階242でスペクトルから取りのけられる。次に段階244では、残っている破片イオンが%TICに正規化され、ここでは各イオンが100xに等しい値をもつ(xはイオン強度/残っているイオンの加算したイオン強度)。段階246では、qよりも小さな%TIC値をもつイオンがスペクトルから取りのけられる。この実施例では、qは0.2に設定されている。次に、段階248では、残っているイオンが再び正規化される。s破片イオンよりも小さい残っているデータがスペクトルから取りのけられる(段階250)。この実施例では、sは15に設定されている。こういった取りのけは、検出された破片イオンについては%TICを最大とし、イオンシリーズ(もしくは対)検出についての背景雑音を減らしている。
【0032】
図6の(A),(B),(C)と図7の(A),(B),(C),(D)とは、図4の段階206と208とでそれぞれ示した整合と得点付けとがどのように実行されるかを示している。このスペクトル特性として示したものは、プロダクトイオン、中性もしくはチャージ(帯電)された破片のロス、イオン対、及びイオンシリーズを含んでいる。
【0033】
プロダクトイオンスペクトル特性はm/z値として特定されている。特定されたプロダクトイオン特性に対してスペクトルを整合させるために、このスペクトルはこの特定されたm/z値を有するイオンを求めて探索される。そこで探索は、その指定されたm/z値±bm/zに中心のある窓(ウィンドウ)内部で実行され、そのウィンドウ内で最も豊富なイオンi1選ばれる。この実施例ではbは0.5に設定されている。プロダクトイオンでこういったスペクトルに整合しているものはそこで次式(1)のように、選ばれたイオンについての%TIC値とI1 として得点付けがされる:
得点(Score)=I1 (1)。
【0034】
図6(A)は、特定されたm/zに中心のあるウィンドウ100をもつ、特定されたm/z(118)を示している。最も豊富なイオン101でこのウィンドウ内部のものがそのイオンの%TIC値を示している最高ピークとして示されていて、これが識別される。(118)のm/zをもつ特定されたプロダクトイオンの得点はイオン101のこの%TIC値である。
【0035】
ロスイオン(中性もしくはチャージされた)スペクトル特定は先駆物質からの所望のロスm/z値として特定される。中性ロスについての特定されたロスイオン特性にスペクトルを整合するために、イオンロスm/zが先駆物質m/zから特定されたロスm/z値を減算して計算される。そこで探索が計算されたイオンロスm/z値±cm/zの周りに中心があるウィンドウ内で実行されて、最も豊富なイオンi1ウィンドウの内部のものが選ばれる。この実施例では、cは0.5に設定されている。こういったスペクトルについてのプロダクトイオン整合はそこで次の式(2)のように選ばれたイオンについての%TIC値I1として得点が付けられる:
得点(Score)=I1 (2)。
【0036】
チャージされたロスについての特定されたロスイオン特性にスペクトルを整合するために、ロスイオンm/zが計算され、この計算は特定されたロスm/z値を実際の先駆物質m/zに代り先駆物質についての予測された単一にチャージされたm/z値から減算するものである(すなわち、2×先駆物質m/z−1)。
【0037】
中性ロスの場合と同じように、計算されたイオンロスm/z値±cm/zの周りに中心があるウィンドウが次に探索されて、そのウィンドウ内で最も豊富なイオンが選ばれる。この実施例では、cは0.5に設定されている。こういったスペクトルについてのプロダクトイオン整合はそこで次の式(3)のように選ばれたイオンについての%TIC値I1として得点が付けられる:
得点(Scored)=I1 (3)。
【0038】
中性ロスは先駆物質イオンと同じチャージ(電荷)を有しているプロダクトイオンを結果として生じさせる。したがって、二重にチャージされた先駆物質からの中性ロスについてのイオンロスm/zを計算するために使用されるm/z値は、単一のチャージされた先駆物質からの同じマスロスのものの半分となっている。これと対照的なのは、チャージされたロスがプロダクトイオンを生成し、このイオンは先駆物質のものよりも1単位少ないチャージを有していて、二重にチャージされた先駆物質から生ずるスペクトルの中でのみ観察される。したがって、特定のロスが探索規準として入ってくるときには、先駆物質チャージと、ロスによって作られたプロダクトイオンのチャージとがロス記述の中に含まれて、ユーザはロスを中性もしくはチャージされたものとして定義することができ、また先駆物質のチャージ状態に見合うように中性ロスの大きさを調節できるようにしている。
【0039】
図6Bは先駆物質m/zもしくは推定された単一にチャージされたm/z値104と、m/z値104からの距離をとったウィンドウ102とを示している。この距離は上述のように計算されたロスm/zである。このウィンドウ102内部の最も豊富なイオン103は最大ピークをイオンの%TIC値で示していてこのイオン103が識別される。特定されたイオン損失の得点はイオン103の%TIC値である。
【0040】
イオン対スペクトル特性が二つの破片イオン間の距離(m/zを単位として測定される)によって特定される。この距離はいくつかのアミノ酸の残留マス(residual mass)を反映しているか、特定の付加生成物、付加生成物の破片、もしくは構造上の半分(moiety)の除去を反映していてよい。スペクトルを特定したイオン対スペクトル特性と整合をとるために、破片イオンの仮定の(ヒポセティカルな)リストが先ず生成される。破片のイオンはスペクトルの中の実際の破片イオン(すなわち“実の(リアルな)”リスト)の上でm/z単位の特定の距離だけシフトしたものであり、次に両方のリスト内の破片m/z値が一番近い整数に丸められる。それぞれの丸められた破片m/z値±dm/zに中心のある二つのウィンドウが探索されて、最も豊富なi1,i2がそれぞれのウィンドウの中で選択される。この実施例では、dは0.5に設定されている。イオン対整合はそこで得点を付与され、この得点は丸められたウィンドウの各々からの選択された破片イオンについての%TIC値I1,I2の幾何平均である:
得点(Score)=(I1・I2)1/2 (4)。
【0041】
図6Cは丸められたm/zイオン対を示し、ユーザによって特定された距離だけ分けられている。ウィンドウ105と106とはイオン対の辺りに中心がある。最も豊富なイオン107と108とが、それぞれのウィンドウ106,105内部にあって、イオンの%TIC値を示している一番高いピークとして示されており、これらのイオンが識別同定される。特定されたイオン対の得点はそれぞれの%TIC値の幾何平均である。
【0042】
イオンシリーズスペクトル特性はイオン対スペクトル特性の拡張された形式であって、そこでは複数のイオンが複数の距離にあって整合されている。このイオンシリーズスペクトル特性は、所望のm/z値によって間隔をとった一連のイオン(イオンシリーズ)として特定されている。イオンシリーズは一群のイオン(i1,i2,i3…in)として定義され、これらのイオンは特定のm/z値(m1,m2,m3…mn)によって分離されていて、ここでmn=in−in+1であることがFig7に示されている。イオンシリーズ内の低い方の添え字は高い方のm/z値を示している。ペプチドシーケンス主題(モティーフ)の場合には、このシリーズ内のイオン間の距離はそのペプチド内のそのシーケンスの中のアミノ酸の平均残留マスに対応している。スペクトルをこのイオンシリーズスペクトル特性に整合をとるために、アミノ酸シリーズについての平均残留マス差によって分けられた破片イオンについての仮定リストがまず生成される。この仮定シリーズ(i1)内の第一のイオンが次に図7のグラフ(A)に示したように評価されている実際のMS−MSスペクトル内の一番大きなm/z破片イオンと整列がとられる。仮定イオンと整列がとれている実際のイオンがそこでユーザが特定した公差(一般に±0.5m/z単位)の辺りに中心があるウィンドウ内部で検出される。
【0043】
仮定イオンシリーズとの整列によって検出されたイオンは以下に記述するように得点が付けられる。仮定イオンシリーズはそこでMS−MSスペクトル内で次に低いm/zイオンで始まる整列がされて、整合が再び記録されて得点が付与される(図7グラフ(B))。シリーズが得点を付与されるために検出されることになる最小イオン数xが特定されてもよい。グラフ(B)で示した例では、二つだけの整合が検出されていて(i1とi2)、スペクトルは、x>2であれば、得点が付与されない。整列と検出とのサイクルは、ユーザが特定した最小数の整合(x)が検出されることができないようなときすなわち、仮定イオンシリーズがそのスペクトルの低い方のm/z限界以下に展開するまで続けられる。ある種のMS−MSスペクトルは特定シリーズの中にすべてのイオンを含まなくてもよいことが原因となって、仮定シリーズはまた第二の仮定イオン(i2)で始まるスペクトルに対しても整合され、また実のイオンと仮定のイオンi2〜in間での整合がそこで記録されて、得点が付与される(図7のグラフ(C))。仮定イオンシリーズのMS−MSデータとの整列はイオンin−xを介して続けられ、ここでxは得点付与にとって必要とされる整合の最小数でユーザが特定したものである。
【0044】
スペクトルの得点付与は仮定イオンi1〜inに対応している検出されたイオンについての%TIC値から計算される(図7グラフ(D)参照)。%TIC値でi1,i2,i3…inに対応しているものがそれぞれI1,I2,I3…Inとして示されている。スペクトルについての得点は式(5)により計算される:
【0045】
得点(Score)=N(I1・I2・I3…・In)1/n (5)
ここでNはそのシリーズ内で仮定イオンi1〜inに対応している検出されたイオンの数である。シリーズ内のいくつかのイオンが失われているスペクトルについては、値Inが挿入され、これはイオン検出のためのしきい値に等しい値であり、ユーザにより設定されてよいものであり、一般には0.2%TICとなっている。図7のグラフ(D)では、例えば得点は式(6)により計算される;
得点(Score)=4(I1・I2・I3・I4・I5・I6)1/6 (6)
ここではシリーズの中の六つのイオンのうちの四つだけ(すなわち、I2,I3,I4,I6)がスペクトルの内で実際に検出されていて、しきい値%TIC値が検出されていなかったI1とI5のために使用されている。示したように、もしN<xであれば(xはユーザが特定した、検出されたイオンについての最小数)、そのときはこのスペクトルにゼロ得点が指定されることになる。
【0046】
得点付与での背景雑音を減らすために、各スペクトル特性は、探索の始めに一次か二次かについての指定がされる。二次特性はそこで一次特性とリンクされるか対となって、所望の構造が発生する化学種の識別ができるようにし、またマススペクトルデータ内での予期しない変化を効果的に検出できるようにする。一次と二次との対形成(ペアリング)の例は、これに限定するわけではないが、あるイオンシリーズにとって二次的なプログクトイオン、あるプロダクトイオンにとって二次的なロスイオン、あるロスイオンにとって二次的な複数のプロダクトイオン、及び他のイオンシリーズにとって二次的な一つのイオンシリーズである。二次スペクトル特性は一次特性と同じやり方で入力されるが、例外としてこの二次特性は探索について特定の一次特性とそれぞれリンクしていることを除くものとする。一次特性は検出されたときに自動的に得点が付けられるのであるが、二次特性はリンクした一次特性が同じマススペクトル内で検出される場合に限り得点が付けられる。こうして、二次特性の得点付けは他の一次インジケータの存在に付随している。一次と二次との特性は階層状にリンクされている。例えば、スペクトル内で弱いか不規則かのインジケータであるか、あるいは背景スペクトルで共通のものであるスペクトル特性は二次分類にとってのよい候補となる。二次特性についての得点は、最終得点が一次特性によって最も重く影響されることを保証するように調節される。二次特性についての最初の計算された%TIC得点はこの得点と、リンクしている一次特性の%TIC得点との幾何平均をとることによって調節される。各二次特性は一度だけ得点が付けられ、リンクした一次特性の得点に等しい最大得点が許される。最終のスペクトル得点は検出された一次特性の%TIC値の和に調節された二次特性得点の和を加えたものとして計算される。各二次イオンカテゴリィは一次イオンについて一度だけ得点が付けられる。
【0047】
得点はゼロでない得点を受ける平均されたMS−MSスキャンのすべての組について報告される。この得点に加えて、スキャン番号、保持時間、先駆物質m/z、及び仮定シリーズと整合するMS−MSスペクトル内で検出されたイオンが報告される。スキャン番号は各MSもしくはMS−MSスキャンに対してデータファイル内で、データシステムによって、指定されたシーケンシャル識別子である。保持時間はMSもしくはMS−MSスキャンが記録されたときに、LC−MS−MS分析での経過時間である。先駆物質m/zはMS−MSに従っている先駆物質のm/z値である。検出されたイオンは探索基準に整合した得点付けされたスペクトル内の信号のm/z値である。これが関心のあるスペクトルを識別同定することを単純にしている。最後に、一次及び二次イオンもしくはイオンシリーズで得点付与されたもののすべてがスペクトル識別子と一緒に報告される。ときとして、この情報から直接にスペクトル品質を推定することが可能であり、これが目視検査用の完全なCIDスペクトルを回復させる前に可能となる。
【0048】
この発明の一次と二次との特性は階層状の関係に限定されず、例えばシーケンシャルとか、並列とか、分析される化学種に依存して他のやり方でリンクされていてよいことは理解できると思う。
【0049】
図8ないし12は、特定されたスペクトル特性に基づいて得点を計算するための段階を示す。先ず、得点はゼロに初期化される(段階260)。次に一次としてユーザにより指定されたスペクトル特性が識別同定される(段階261)。もし、プロダクトイオンスペクトル特性(パラメータ)が一次として指定されると、そのときは図9で示したように、プロダクトイオン得点、得点1、を計算するための段階が実行される。もし、ロスイオンパラメータが一次として指定されると、そのときはロスイオン得点、得点2、を計算するための段階が図10に示すように実行される。もし、イオンシリーズパラメータが一次として指定されると、そのときはイオンシリーズ得点、得点3、を計算するための段階が図11に示すように実行される。そうでなければ、得点はゼロのままであり、プロセスは図4の表示段階210へ続く。
【0050】
図9はプロダクトイオン得点、得点1、を計算する段階を示し、そこではプロダクトイオンが一次スペクトル特性として特定される。プロダクトイオン得点、得点1、は段階267でゼロに初期化される。段階268では、特定されたプロダクトイオンパラメータm/z値±0.5m/zユニットに中心のあるウィンドウが識別される。段階269では、照会がされて、プロダクトイオン整合が識別されたウィンドウ内部で見付けられたかどうかの問合せがされる。もしプロダクトイオン整合が見付からなければ、段階261で始まる図8の段階が実行されて、いずれか他の指定された一次パラメータを評価するようにする。他方では、もし整合が見付かると、段階271でプロダクトイオン一次得点、得点1a、が%TIC値で識別されたウィンドウ内部の最も豊富なイオンについての値に設定される。
【0051】
次に照会が段階272でされて、ロスイオンスペクトル特性が二次であり一次プロダクトイオンパラメータにリンクしているかどうかが問合せされる。もしそうであれば(後述する)図10の段階が実行されて、ロスイオン二次得点、得点1b、を段階273で決める。二次得点は一次得点を越えることはない。したがって、段階274では、もし得点1bが得点1aよりも大きいとすると、そのときは得点1bは得点1aに等しく設定される。そうでなければ、得点1bで段階273で計算されたものが使用される。段階272では、もしロスイオンが一次プロダクトイオンパラメータにリンクした二次探索特性でないとすると、そのときは得点1bが段階275でゼロに設定される。
【0052】
次に、照会が段階276でされて、イオンシリーズスペクトル特性が二次であり、一次プロダクトイオンパラメータにリンクされているかどうか問合せされる。もしそうであれば、(後に論じられる)図11の段階が実行されて、イオンシリーズ二次得点、得点1cを決めるようにする(段階277)。前述したように、二次得点は一次得点を越えることはない。したがって、段階278では、もし得点1cが得点1aより大きければ、そのときは得点1cが得点1aに等しく設定される。そうでなければ得点1cで段階277で計算されたものが使用される。段階279では、もしイオンシリーズが一次プロダクトイオンパラメータにリンクしている二次探索特性でなければ、そのときは得点1cが段階279でゼロに設定される。
【0053】
プロダクトイオン得点、得点1、が次に得点1aと、得点1bと、得点1cとの和として段階280で計算される。照会がそこでされて(段階281)、他の一次特性が指定されているかどうか問合せる。もしそうであれば、図8の段階が実行されて、他の指定された一次特性の得点を計算する。もし他の指定された一次特性が何もなければ、得点1が、(後に論じられる)図12の段階で使用されて、全マススペクトル得点を計算する。
【0054】
異なるm/z値をもつ複数のプロダクトイオンが一次特性として指定されてよいことは理解できると思う。この場合には、プロダクトイオン得点、得点1、は各プロダクトイオンについてのプロダクトイオン得点の和である。
【0055】
図10はロスイオン得点、得点2、を計算する段階を示し、そこではロスイオンが一次スペクトル特性として特定される。段階282で始まりプロダクトイオン得点、得点2、はゼロに初期化される。段階283では、計算されたロスイオンパラメータm/z値±0.5m/zユニットに中心のあるウィンドウが識別される。もしロスがチャージされたロスであると、そのときはロスイオンm/zが計算され、この計算では特定されたm/zが先駆物質についての予測された単一にチャージされたm/z値から減算される(すなわち2×先駆物質m/z−1)。段階284では、照会がされて、ロスイオン整合が識別されたウィンドウ内部で見付けられたかどうかの問合せがされる。もしロスイオン整合が見付からなければ、段階261で始まる図8の段階が実行されて、いずれか他の指定された一次パラメータを評価するようにする。他方では、もし整合が見付かると、段階286でロスイオン一次得点、得点2a、が%TIC値で識別されたウィンドウ内部の最も豊富なイオンについての値に設定される。
【0056】
次に照会が段階287でされて、プロダクトイオンスペクトル特性が二次であり一次ロスイオンパラメータにリンクしているかどうかが問合せされる。もしそうであれば(後述する)図9の段階が実行されて、プロダクトイオン二次得点、得点2b、を段階288で決める。二次得点は一次得点を越えることはない。したがって、段階289では、もし得点2bが得点2aよりも大きいとすると、そのときは得点2bは得点2aに等しく設定される。そうでなければ、得点2bで段階288で計算されたものが使用される。段階287(注272は誤記)では、もしプロダクトイオンが一次ロスイオンパラメータにリンクした二次探索特性でないとすると、そのときは得点2bが段階290でゼロに設定される。
【0057】
次に、照会が段階291でされて、イオンシリーズスペクトル特性が二次であり、一次ロスイオンパラメータにリンクされているかどうか問合せされる。もしそうであれば、(後に論じられる)図11の段階が実行されて、イオンシリーズ二次得点、得点2cを決めるようにする(段階292)。二次得点は一次得点を越えることはない。したがって、段階293では、もし得点2cが得点2aより大きければ、そのときは得点2cが得点2aに等しく設定される。そうでなければ得点2cで段階292で計算されたものが使用される。段階294では、もしイオンシリーズが一次プロダクトイオンパラメータにリンクしている二次探索特性でなければ、そのときは得点2cが段階294でゼロに設定される。
【0058】
プロダクトイオン得点、得点2、が次に得点2aと、得点2bと、得点2cとの和として段階295で計算される。照会がそこでされて(段階296)、他の一次特性が指定されているかどうか問合せる。もしそうであれば、図8の段階が実行されて、他の指定された一次特性の得点を計算する。もし他の指定された一次特性が何もなければ、得点2が、(後に論じられる)図12の段階で使用されて、全マススペクトル得点を計算する。
【0059】
異なるm/z値をもつ複数のロスイオンが一次特性として指定されてよいことは理解できると思う。この場合には、ロスイオン得点、得点2、は各ロスイオンについてのロスイオン得点の和である。
【0060】
図11は、イオンシリーズ得点、得点3、を計算する段階を示し、そこではイオンシリーズが一次スペクトル特性として特定される。イオンシリーズ得点、得点3、は段階297でゼロに初期化される。段階298では、アミノ酸シリーズの平均残留マス差によって分けられた破片イオンの仮定リストが先ず生成される。段階299では、この仮定シリーズ内の第一のイオンがそこで評価されている実際のMS−MSスペクトルにおける最大のm/z破片イオンと整列される。段階300では、ウィンドウが識別され、これはユーザが特定したm/z公差(一般には±0.5m/zユニット)のあたりに中心があり、仮定イオンと整列している実際のイオンに対応している。段階301では、照会がされて、イオンシリーズ整合が識別されたウィンドウ内部で見付けられたかどうかの問合せがされる。もしイオンシリーズ整合が見付からなければ、段階261で始まる図8の段階が実行されて、いずれか他の指定された一次パラメータを評価するようにする。他方では、もし整合が見付かると、段階302でイオンシリーズ一次得点、得点3a、が%TIC値で識別されたウィンドウ内部の最も豊富なイオンについての値に設定される。注意すべきことは、イオンシリーズ特性についての得点は図11のイオンシリーズを用いて計算できることであり、ここでは識別され、かつ得点3aで使用されたウィンドウ(及びイオン)の数が2である。
【0061】
次に照会が段階303でされて、プロダクトイオンスペクトル特性が二次であり一次イオンシリーズパラメータにリンクしているかどうかが問合せされる。もしそうであれば図9の段階が実行されて、プロダクトイオン二次得点、得点3b、を段階304で決める。二次得点は一次得点を越えることはない。したがって、段階305では、もし得点3bが得点3aよりも大きいとすると、そのときは得点3bは得点3aに等しく設定される。そうでなければ、得点3bで段階304で計算されたものが使用される。段階305では、もしプロダクトイオンが一次ロスイオンパラメータにリンクした二次探索特性でないとすると、そのときは得点3bが段階306でゼロに設定される。
【0062】
次に、照会が段階307でされて、ロスイオンスペクトル特性が二次であり、一次イオンシリーズパラメータにリンクされているかどうか問合せされる。もしそうであれば、図10の段階が実行されて、ロスイオン二次得点、得点3cを決めるようにする(段階308)。前述したように、二次得点は一次得点を越えることはない。したがって、段階309では、もし得点3cが得点3aより大きければ、そのときは得点3cが得点3aに等しく設定される。そうでなければ得点3cで段階308で計算されたものが使用される。段階310では、もしロスイオンが一次イオンシリーズパラメータにリンクしている二次探索特性でなければ、そのときは得点3cが段階310でゼロに設定される。
【0063】
イオンシリーズ得点、得点3、が次に得点1aと、得点1bと、得点1cとの和として段階311で計算される。照会がそこでされて(段階312)、他の一次特性が指定されているかどうか問合せる。もしそうであれば、図8の段階が実行されて、他の指定された一次特性の得点を計算する。もし他の指定された一次特性が何もなければ、得点3が、(後に論じられる)図12の段階で使用されて、全マススペクトル得点を計算する。
【0064】
複数のプロダクトイオンが一次特性として指定されてよいことは理解できると思う。この場合には、イオンシリーズ得点、得点3、は各プロダクトイオンについてのプロダクトイオン得点の和である。
【0065】
図12は分析されているマススペクトルデータの全得点を計算するための段階を示している。段階320では、全得点(トータルスコア)である得点(スコア)が、図9で示したように計算された得点1と、図10で示したように計算された得点2と、図11で示したように計算された得点3との和として計算される。この得点はそこで例えば図4の段階210で示したように表示される。追加のスペクトル特性を加えたり、得点を付けたりすることができることは理解されると思う。
【0066】
図13と14とは、この発明のマススペクトルデータをマイニングするための方法の別の実施形態を示す。この実施形態では、マススペクトルマイニングが実時間で実行されて、マススペクトロメータ(質量分析計)の制御設定が生成されたスペクトルを改善するために調節できるものとしている。制御設定の例示には、限定をするのではないが、源のエネルギー、衝突のエネルギー、先駆物質イオン選定についての分解能、及び検出器利得設定を含んでいる。したがって、図13の段階700では、第一のサンプルが走査されて、そのスペクトルデータがホスト計算機20に向けてダウンロードされる。段階702では、データが図5の段階に従って前処理される。この前処理段階は、もっと大きく豊富な種の検出に向けてのバイアス(偏り)を除去して、低い濃度で存在している種の識別を可能とするものである。分析に先立って、ユーザはスペクトル特性とデータを探して得点付けすることになる関係とを段階704で入力している。この段階はユーザがスペクトル特性と、所与の化学種を識別同定するのに、またデータ内での予期しなかった変更を効果的に検出するのに最も有用な関係とを特定できるようにしている。このデータは段階706でスペクトル特性と比較される。問合せがされ、スペクトル特性にデータが整合するかどうかを照会する(段階708)。もし整合していなければ、そのときは段階710で制御設定調節が質量分析計に送られて、段階700で始まるプロセスが繰返される。
【0067】
しかしながら、段階708で、データがスペクトル特性と整合しているとすると、得点が図8〜12の段階に従って計算される。段階714では、計算された得点が所定のしきい値を越えているかどうか問合せがされる。越えていなければ制御設定調節は段階710で質量分析計に送られて、段階700で始まるプロセスが繰返される。
【0068】
しかしながら、もし得点が所定しきい値を越えるのであれば、そのときは整合がとられ、結果が段階716で表示され、図14に示すような容易に理解できる表もしくはグラフ形式として表示される。もし、データサンプルについてのすべてのスキャンが段階718では完了していなければ、そのときはプロセスは段階700で始まる次のスキャンを繰返し、そうでなければこのプロセスは終る。
【0069】
図15はさらに別な実施形態であって、この発明のマススペクトルデータのマイニングに当り、ここではスペクトル特性と、それらの関係とが分析されている化学種の所定の特性に基づいて自動的に特定されている。したがって、段階800では、マススペクトルデータファイルと、スペクトル特性と、それらの関係で分析された化学種と関係するものがホスト計算機20に対してダウンロードされる。スペクトル特性とそれらの関係は例えばデータファイル内に記憶されてよい。次にデータが段階802で図5の段階により前処理される。この前処理段階はもっと大きく豊富とされる種の検出に向けてのバイアスを除去して、低い濃度で存在する種の識別同定ができるようにする。そこで、スペクトル特性とそれらの関係とが段階804で読取られる。特定されたスペクトル特性と関係とは所与の化学種を識別同定することと、データ内での予期していない変更とを効果的に検出することとにとって最も有用なものとして予め更に決められている。ユーザはロードした後に特定した特性を自動的に更新できることは理解されたい。段階806では、データファイルがスペクトル特性に対応しているスペクトルを求めて探索される。整合についての得点が段階808で図8〜12で記述したように計算される。次に、段階810で、結果がユーザのために表またはグラフ形式で表示される。
【0070】
図4〜15のマススペクトルデータをマイニングする方法はLAN25上ではなくインターネット35上で実行できて、計算機が互に遠方にあるようにできることは理解できると思う。あるいは計器計算機10がデータマイニング機能を実行できて、それによりホスト計算機が使用されないようにしてよい。
【0071】
図16は制御ウィンドウ900の例を示し、これによってユーザは、関心のあるデータを識別同定し抽出するためにデータベースもしくはデータファイルについて使用されるマススペクトルデータのスペクトル特性を入力する。スペクトル特性の例には特定のm/z値でのプロダクトイオン、中性もしくはチャージされたロスで単一もしくは二重にチャージされた先駆物質からのもの、及びイオンシリーズもしくは対を含んでいる。このウィンドウ900を介して、ユーザはマイニング対象のデータを含んでいるファイルをオープンボタン902をクリックすることにより選ぶ。オープンボタン902をクリックすると、マススペクトルデータファイルのすべてについてのリストが現れて、ユーザか分析対象のデータファイルについてブラウジング(データ読取り)ができるようにする。ユーザは所望のデータファイル上をクリックし、システムはファイルを開いて、制御ウィンドウ900に対してユーザを戻す。ファイルが一旦開かれると、ファイルパスがフィールド904内に現れて、何らかのコメントもしくはノードであってそのデータファイルと関係しているものがフィールド906内に現われ、そのデータファイルが作られた日時がフィールド907(Date)に現われ、そのデータファイル内に記憶された平均のMS−MSスキャンの組の数がフィールド908(Number of msms scans)に現れる。
【0072】
フィールド910,912,914,916内にはユーザがパラメータを入力し、これらはマススペクトルデータを前処理するのに使ったものである。フィールド910では、ユーザがピークしきい値(%TIC)を入力する。このピークしきい値は最小%TIC値であって、探索で考慮されることになるためにはデータがこれを越えていなければならない。最小値はイオンピークの強度をそのイオンの全イオン流で除算したものとして決められ、マススペクトルデータの強度とデータが寄生(スプリアス)か実かどうかを示している。ピークしきい値の例は0.2%である。フィールド912では、ユーザがプロダクトイオンデルタ値を入力する。このプロダクトイオンデルタ値はユーザが特定したプロダクトイオンm/z値に中心を置くマスウィンドウに関するものであって、マスウィンドウは入力されたプロダクトイオンデルタ値を+側と−側とにもつ幅を有している。プロダクトイオンデルタの例は0.5である。イオンはプロダクトイオンとしてマススペクトルデータからのみ選ばれることになり、その条件はこの定義されたウィンドウ内部に入っているものが選ばれるものとしている。ユーザはチャージ推定しきい値をフィールド914内に入力する。中性とチャージされたロスイオン計算とに対しては、先駆物質イオンが単一にもしくは二重にチャージされているかどうかが判断される。この判断をするために、先駆物質m/zより上の全イオン流の百分率が調べられる。もしこの百分率がチャージ推定しきい値以下であるとすると、MS−MSスキャンは単一にチャージされた先駆物質イオンから来るものとして指定される。もし百分率がチャージ推定しきい値よりも大きければ、先駆物質イオンが二重にチャージされたとして指定され。チャージ推定しきい値の例は0.1と0.15の間の範囲にある。ユーザはロスイオンデルタをフィールド916内に入力する。このロスイオンデルタは指定されたロスイオンm/z値に中心のあるマスウィンドウに関するもので、入力されたロスイオンデルタ値だけ+側と−側とにそれぞれ幅をもっている。イオンはこのウィンドウ内部に入ることを条件としてロスイオンとして選ばれるだけである。ロスイオンデルタの例は0.5である。
【0073】
ユーザはそこでマススペクトルデータをマイニングするのに使用されるスペクトル特性を定義する。この場合に、特定されるスペクトル特性はプロダクトイオンと、ロス(中性もしくはチャージされた)イオンと、イオンシリーズ(または対)である。もしユーザが特定のプロダクトイオンが発生しているマススペクトルデータをマイニングしたいのであれば、そのときはユーザはAdd Product Ion(プロダクトイオンを加える)ボタン918を選ぶことになる。もしユーザがスペクトルデータであってその中では先駆物質イオンからのチャージロスがMS−MS破断(フラグメンテーション)の際に発生しているデータについてマイニングをしたいのであれば、そのときはユーザはAdd Loss Ion(ロスイオンを加える)ボタン920上をクリックする。あるいは、もしユーザがイオンのシリーズが発生しているマススペクトルデータについてマイニングをしたいとするのであれば、そのときはユーザはAdd Ion Series(イオンシリーズを加える)ボタン922上をクリックする。これらのボタン918,920,922の各々をクリックすると、それぞれのパラメータウィンドウが現れて、その中では、ユーザが、探索を指揮しているスペクトル特性を、特定するようになる。パラメータウィンドウについては以下に説明することとする。
【0074】
もしユーザがスペクトル特性が二次スペクトル特性となることを望むとすると、そのユーザはまず一次スペクトル特性でウィンドウ934内に表示されているものに、特定された後に、ハイライトを当てる。次に、もしユーザがプロダクトイオン特性が探索の中で二次となることを望んでいればそのときは、ユーザはLink Product Ion(プロダクトイオンをリンクする)ボタン924上をクリックする。プロダクトイオンパラメータウィンドウはそこで開き、ユーザは所望のプロダクトイオンスペクトル特性を入力する。単純な段階が実行されるが、その条件はロスイオン特性がLink Loss Ion(ロスイオンをリンクする)ボタン926上をクリックすることにより二次であるときと、またイオンシリーズ特性がLink Ion Series(イオンシリーズをリンクする)ボタン928上をクリックすることにより二次であるときとである。
【0075】
スペクトル特性とその関係とが定義される後に、それらがウィンドウ934内で表示される。一次スペクトル特性がまた意図された第一と第二のスペクトル特性がその下に表示される。
【0076】
もしユーザがすでに特定されたスペクトル特性を編集したいとするときは、ユーザはウィンドウ934内でその特性にハイライトをあてて、編集(Edit)ボタン930上をクリックする。対応しているパラメータウィンドウが現れて、そこでユーザがデータを編集する。ユーザはまた、すでに特定されたスペクトル特性を削除することもでき、それにはウィンドウ934内でその特性にハイライトをあてて、Delete(削除)ボタン932上をクリックする。この特性はそこでウィンドウ934からと、探索から消去される。
【0077】
ユーザがマススペクトルデータをマイニングするために使用することになるスペクトル特性を特定した後に、ユーザはScore(得点)ボタン936をクリックして、マイニングプロセスを実行し、その結果に得点を指定して、この結果がどのくらい良く特定されたスペクトル特性に対応しているかを示すようにする。もし正規化された得点(Normalized Scores)ボックス938がマイニングプロセスを実行する前に調べられていたとすると、そのときは、表示された得点は実際の得点をすべての得点についての平均得点で除算したものである。クリアサーチ(Clear Search)ボタン940はユーザがすべてのパラメータを制御ウィンドウ900からクリアして、その上で開始(やりなおし)ができるようにする。ロードサーチ(Load Search)ボタン942は、ユーザが前のサーチ(探索)からのパラメータをロードできるようにする。また、セーブサーチ(Save Search)ボタン944はユーザが現在表示されているパラメータをセーブできるようにする。
【0078】
図17〜20は前述のパラメータウィンドウを示し、それらはスペクトル特性ボタン918,920,922をクリックすると出現するものであり、ユーザがマススペクトルデータをマイニングするために使用するスペクトル特性値を入力できるようにしている。
【0079】
図17はプロダクトイオンパラメータウィンドウ1000の例を示し、これはAdd Product Ionボタン918(図16)をクリックすると出現する。ユーザが特定したプロダクトイオンm/z値がフィールド1002内に入力される。ユーザがこの特定した値を入力する後で、ユーザはOKボタン1004をその値が正しいことを条件としてクリックする。もしユーザが値を入力しないと決めると、そのときはユーザはCancel(取消し)ボタン1006をクリックして、このパラメータウィンドウ1000を閉じる。
【0080】
図18はロスイオンパラメータウィンドウ1100の例を示し、これが図16のAdd Loss Ionボタン920をクリックすると出現する。ユーザはフィールド1102でロスイオンのマスを特定できる。ユーザはプルダウンウィンドウ1104内でロスイオンの形式を中性イオンもしくはチャージしたイオンとして特定できる。プルダウンウィンドウ1106では、ユーザは先駆物質チャージを単一もしくは二重あるいはその両方として特定できる。もし両方(“either”)が特定されると、二重にチャージした先駆物質イオンからの中性ロスが単一にチャージした先駆物質からの同じ中性イオンのロスの半分の量として現れるという事実がその得点の中に自動的に勘案されることになる。図16のチャージ推定しきい値は先駆物質チャージ状態を決めるために使用され、それから先駆物質チャージの計算がそれにより調節される。もし特定されたパラメータが正しければ、そのときはユーザがOKボタン1108をクリックする。そうでなければユーザはCancel(取消し)ボタン1110をクリックして、パラメータウィンドウ1100を閉じて、やり直しとなる。
【0081】
図19は、イオンシリーズパラメータウィンドウ1200の例を示し、このウィンドウは図16のAdd Ion Series(イオンシリーズを加える)ボタン922をクリックすることによって現れる。ユーザはフィールド1202内でデルタ値を特定することができ、これが指定されたm/z値に中心があり、入力されたデルタ値だけ+と−との両方向に幅をもっているマスウィンドウを参照している。イオンは、イオンがこのウィンドウの中に入ることを条件としてイオンシリーズの一部として選ばれるだけである。デルタ値の例は0.5である。ユーザはそこでフィールド704内でMS−MSスキャン内のイオンの最小数を入力し、これが、スキャンが得点されることになるためには、特定されたイオンと整合していなければならない。数の例は2である。最小数2では、大部分のMS−MSスキャンは一般に得点を受取り、その多くは比較的小さなものである。大きな最少数は結果内でのスキャン数を減らすが弱い方のしかし真の結果の検出を妨げることができる。フィールド1206では、ユーザはいくつの最高得点の整合が保たれるかを入力する。この最高得点はユーザが特定したイオンシリーズ特性とシリーズ内のイオンの最良の整列を示している。値の例は1である。多くのスキャンは、ユーザが特定したシリーズと整合する複数のイオンをもつことができる。ウィンドウ1208がマイニングされることになるシリーズを表示するために使用される。ユーザはAdd(加える)ボタン1214をクリックすることによりシリーズを入力し、ここではパラメータウィンドウが(後に論じられるように)出現する。入力された値が正しければ、そのときはユーザはOKボタン1210を選ぶ。そうでなければ、ユーザはCancel(取消し)ボタン1212を押して、始めからやりなおす。もしユーザがウィンドウ1208内に表示された加えられた情報を編集したいとするときには、ユーザはこの情報にハイライトをあてて、Edit(編集)ボタン1216をクリックする。パラメータウィンドウが出現して、ユーザは前に特定されたシリーズを編集する。もしユーザがウィンドウ1208内に加えられた情報を消去したいとするときは、ユーザはその情報にハイライトをあてて、Delete(消去)ボタン1218をクリックする。この情報はウィンドウ1208と探索(サーチ)から削除される。
【0082】
図20は、前述したように、図19のAddボタン1214をクリックすると出現する。このウィンドウでは、用語“ギャップ(隙き間)”はマイニング対象のスペクトルm/z軸上のイオン間の数値間隔(numerical spacing)である。フィールド1302では、大文字もしくは数値はマイニング対象のシリーズもしくはギャップを表わしている。大文字でペプチドのアミノ酸シーケンスを表わしているものはこのフィールド1302内に類型化される。アミノ酸の最大値が探索用に使用できる。シーケンスが正しく入力されるときには、OKボタン1304がクリックされる。そうでなければ、ユーザはCancel(取消し)ボタン1306をクリックして、パラメータウィンドウ1300を閉じてよい。m/zギャップについての数値が一度に一つ入力される。第一の数値は追加のギャップ対話箱1300に入力されて、OKボタン1304がクリックされる。次の数値を入力するためには、図19のAdd(加える)ボタン1214が再度選ばれて、別の数値が図20のフィールド1302内に入力される。アミノ酸がNからCのターミナル方向で入力されるときは、探索が実行されて、yイオンに対応するイオンを見付けるようにする。アミノ酸シーケンス内のbイオンについて探索するためには、このシーケンスはCからNへのターミナル方向で後方向に入力されるようにできる。
【0083】
図21は、結果ウィンドウの例1400を示し、これは“All Ions(すべてのイオン)”表示1402の選択で、表形式でマイニング結果を表示している。表示されたデータは、得点(Score)1404、先駆物質(precursor)m/z1406、チャージ推定比(Z Est.Ratio)1407、スキャンの設定についての保留時間(R.T.)(分)1408、スキャンの組のスキャン数(Scan #’s)1410,及びスペクトル特性と整合し、得点を付与されたイオン(Ion)1412についての欄を有している。この結果は得点が小さくなる順1404で表示されている。しかし、この結果はいずれの欄に基づいても種分けができるし、表示もできるものである。種分け欄を指定するために、ユーザは各欄の上部で選んだ欄のタイトルをクリックすることになる。
【0084】
図22は結果ウィンドウ1400を示し、これが“Graph(グラフ)”表示1414を選ぶとグラフ形式でマイニング結果を表示する。m/zがx軸上で示され、得点がy軸上で示されている。ピーク上でのマーカーは一番大きな得点をもつ先駆物質m/zイオンを示している。
【0085】
この発明について一般的な記述をしてきたが、さらに理解をすることはある種の特定の例を参照することによって得ることができるのであって、この例として、例示の目的に限り、他に特記しない限りは非限定的なものを用意している。
【0086】
第一の例では、ピロールの一部分の損失が原因となって117Daのニュートラルロスを伴って破断されたペプチドイオン上のピロール付加生成物を仮定することとする。このロスイオン特徴を表示しているMS−MSスキャンについてのLC−MS−MSデータをマイニングするために、ユーザはAdd Loss Ionボタン920で図16にあるものを選んで、図18でのロスイオンパラメータウィンドウが出現する。ユーザは“117”をマスフィールド1102内に入力し、ロスプルダウンウィンドウ1104の形式内で“ニュートラル(中性)”をクリックし、また先駆物質チャージプルダウンウィンドウ1106で“Either(両方)”をクリックする。“Either”が選ばれる理由はニュートラルロスは単一にまたは二重にチャージされた先駆物質イオンから生ずることができることによる。ユーザはそこでOKボタン1108をクリックして、制御ウィンドウ900は図23に示したように、ウィンドウ934内で特定された特性を表示する。ユーザは、Normalize Score(得点を正規化する)箱938を(ユーザが正規化した得点を得たいとしているかどうかに依存して)チェックするかチェックしないかすることができる。次にユーザはScore(得点)ボタン936をクリックして、マイニングプロセスを実行する。
【0087】
図21はマイニングプロセスの結果を表形式で示しており、ここでは得点が下って行く順序で作表されている。上の三つの得点は所望のペプチド付加生成物に対応しているスキャンについてのものであり、この付加生成物は欄1406に示したように778の先駆物質単一チャージm/zを有している。この結果はMS−MSスキャンの三つの組が38.36ないし40.94分の間のLC−MS−MS分析で溶離しているこの化学種について記録されたことを示している。各場合に、チャージ推定比(Z Est.Ratio, 欄1407)は0.1よりも小さな比を示していて、それによりスペクトルは単一にチャージされた種を示すものとなっている。この結果はまた“Ion(イオン)”欄1412から、このスペクトルがm/z661で強いイオンをもっていて、これが中性破片の損失により作られたプロダクトイオンであることも示している。
【0088】
別な例では、トリプシンでダイジェスト(消化)されたフィブリノーゲン(繊維素原)のあるサンプルがトリプシンにより生じたペプチドであるNSLFEYQKを含んでいると仮定する。この発明の探索は、ペプチドSLFEYQからのインナ(分子間)アミノ酸を用いて実行できる。したがって、ユーザは、これらのインナアミノ酸を特定して、このシーケンスモチーフもしくはその変種を含んでいるペプチドのMS−MSスペクトルを見付けるためにマイニングされることになるイオンシリーズスペクトル特性であるとする。このようにして、ユーザは、図16でAdd Ion Series(イオンシリーズを加える)ボタン922を選んで、イオンシリーズスペクトル特性を入力するようにする。このイオンシリーズパラメータウィンドウ1200は開いて、ユーザがフィールド1202,1204、及び1206でのしきい値設定を特定する。ユーザはそこでAdd ボタン1214(図19)をクリックして、図20のパラメータウィンドウ1300が開き、ユーザにとってm/zシリーズパラメータを加えることができるようにする。このようにして、ユーザはインナアミノ酸シーケンスSLFEYQを図24で示すように、フィールド1302内で類型化する。そこでユーザはOKボタン1304をクリックして、パラメータウィンドウ1300を閉じる。その後に、イオンシリーズパラメータウィンドウ1200が、図25に示すように、ウィンドウ1208内に入力されたスペクトル特性とともに出現する。もしこのシリーズが正しければ、ユーザはOKボタン1210をクリックして、イオンシリーズパラメータウィンドウ1200が閉じる。そして、イオンシリーズ探索規準が、図26に示したように、制御ウィンドウ900のウィンドウ934内に出現する。このイオンシリーズは一次スペクトル特性である。
【0089】
トリプシンにより生じたペプチドのような既知のペプチドを探索するときには、bイオンとyイオンとがこのペプチドについて決めることができる。したがって、これらのプロダクトイオンの質量が探索を規定するために二次探索パラメータとしてイオンシリーズ探索に対して加えられるようにできる。
【0090】
したがって、ユーザは複数のプロダクトイオン特性を二次として特定したいとする。ユーザはウィンドウ934内でイオンシリーズ特性にハイライトをあてて、そこでLink Product Ion(プロダクトイオンをリンクする)ボタン924をクリックしてリンクプロダクトイオンスペクトル特性をイオンシリーズスペクトル特性にリンクするようにする。プロダクトイオンパラメータウィンドウ1000が開いて、ユーザが図17のフィールド1002内でプロダクトイオンm/z値を特定する。このユーザはそこでOKボタン1004をクリックして、プロダクトイオン二次特性が入力される。ユーザはキーボード上か、何らかの適当なデータエントリィデバイス上でEnter(エンター)キーを押して、プロダクトイオンウィンドウ1000が次のプロダクトイオン二次特性エントリィのために再度出現する。このプロセスが繰返されて、すべての二次プロダクトイオン特性が特定されることになる。図27に示したように、二次値は一次スペクトル特性の下にリストされ、字下げ(インデント)されている。
【0091】
図28は、得点ボタンをヒットした後の探索の結果を示す。ここでもまた前に論じたように六つの欄のデータがこの例では表形式で示されている。高得点のスキャンが次のことを調べることによって確認される。すなわち、イオン得点がそのペプチドについての予期されたyイオンと整合することと、先駆物質イオンについてのマスが単一か二重か三重かでチャージされた予期されたペプチドマスと整合していることとがチェックされて確認される。不完全なトリプシンによるダイジェスチョン(消化)は探索で使用されたペプチドモチーフを含んでいる破片を作ることができて、それによってマスが予期されたものよりも大きくなる。もし追加のアミノ酸が探索ペプチドのcターミナス(到達点)であるとすると、yイオン得点は予期されたyイオンと整合しない。したがって、大きな値をもつペプチドの識別子(ID)を判断しようとするときには不完全なダイジェスチョンを考慮するように考えておかなければならない。図28では一番大きな得点付けのスキャンは(得点12.14のもので)先駆物質m/zとして515.08を有していて、この値は探索ペプチドNSLFYQKの二重にチャージしたマスに対応している。第二の大きな得点は7.20であり、これが探索ペプチドの単一にチャージしたマスに対応している。こういった両方のスキャンは、予期されたyイオンで探索ペプチドについてのものと対応している破片イオンを含んでいる。
【0092】
発明の効果
ここで記述した中にある機構とプロセスとは、この明細書の教示するところに従ってプログラムされた従来形の汎用マイクロプロセッサを用いて実施することができ、そのことは当業者にとって評価できるものであろう。適切なソフトウェアのコーデングが技術をもったプログラマによりこの発明の開示が教示するところに基づいて用意できることもまた当業者にとって明らかであろう。
【0093】
このようにこの発明は記憶媒体上でホストされることが可能な計算機応用製品を含んでおり、またこの発明に従うプロセス実行のために計算機をプログラムするために使用できる命令を含んでいる。この記憶媒体は、限定するわけではないが、フロッピィディスク、光ディスク、CD−ROM、磁気光ディスク、ROM、RAM、EPROM、EEPROM、フラッシュメモリ、磁気または光カード、あるいは電子的な命令を記憶するのに適したいずれもの形式の媒体を含むことができる。
【0094】
この発明を実施するために使用されるソフトウェアの構造はいずれか希望する形式をとることができる。例えば、図4ないし15に示したマイニング方法は単一のプログラムとして、複数のプログラムもしくはルーチンとして、あるいは希望するいくつでもよい数で実施されてよい。
【0095】
数多くの修正と変更とがこの発明にとっては、上記の教示からみて、可能とされている。したがって、特許請求の範囲のわくの中でこの発明は、ここで特に記述したもの以上に他のやり方で実現されてよいことは理解されるべき事項である。
【0096】
先の出願についての参考事項
この出願は、法35U.S.C.§119(e)の下での優先権の恩恵を主張するものであり、その対象は2000年6月12日提出の米合衆国(US)仮出願一連番号No.60/210,981の全内容であり、この中には発明者の論文(ペーパー)とそこに引用した記事(アーティクル)が含まれ、それらがここで参照に組入れられるものである。
【0097】
連邦が資金を出している研究であることの宣言
ここに記述された発明はthe National Institute of Healthにより契約番号No.1RO1ES10056によって支援されていたもので、政府はこの発明についてのある種の権利をもつことができるものである。
【図面の簡単な説明】
【図1】
質量(マス)スペクトログラムの例を示す図。
【図2】
この発明によりマススペクトルデータを目的をもって調べる(マイニング)するためのシステムのブロック図。
【図3】
この発明によるマススペクトルデータのデータ流の例を示す図。
【図4】
マススペクトルデータをマイニングするための方法を記述している、この発明の実施例の流れ図であり、ここではユーザはスペクトル特性と、スペクトル特性間の関係とを特定する図。
【図5】
図4の実施例の再処理段階を記述する流れ図。
【図6】
(A),(B),(C)は、この発明で、スペクトルがどのようにスペクトル特性と整合されるかを示すグラフ。
【図7】
図6に続くもので、(A),(B),(C),(D)は、この発明でスペクトルがどのようにスペクトル特性と整合されるかを示すグラフ。
【図8】
図4の実施例の得点計算段階を記述する流れ図。
【図9】
図4の実施例の得点計算段階を記述する流れ図。
【図10】
図4の実施例の得点計算段階を記述する流れ図。
【図11】
図4の実施例の得点計算段階を記述する流れ図。
【図12】
図4の実施例の得点計算段階を記述する流れ図。
【図13】
マススペクトルデータを実時間でマイニングし、かつマイニング動作の結果に基づいてマススペクトル計の制御設定をするこの発明の別の実施例の流れ図。
【図14】
図13とともに、マススペクトルデータを実時間でマイニングし、かつマイニング動作の結果に基づいてマススペクトル計の制御設定をするこの発明の別の実施例の流れ図。
【図15】
マススペクトルデータをマイニングする方法を記述している、また別な実施例の流れ図であり、ここではスペクトル特性がデータと入力とに基づいて予め定められている図。
【図16】
グラヒカルユーザインターフェース(GUI)の一部であって、マススペクトルデータのマイニング用にスペクトル特性を入力するために使用される制御ウィンドウ(窓)を示す図。
【図17】
GUIの一部であって、マススペクトルデータをマイニングするためのプロダクトイオンスペクトル特性を入力するために使用されるプロダクトイオンパラメータウィンドウを示す図。
【図18】
GUIの一部であって、マススペクトルデータをマイニングするためのロスイオンスペクトル特性を入力するために使用されるロスイオンパラメータウィンドウを示す図。
【図19】
GUIの一部であって、マススペクトルデータをマイニングするためにイオンシリーズ(または対(ペア))スペクトル特性を入力するために使用されるイオンシリーズパラメータウィンドウを示す図。
【図20】
GUIの一部であって、マススペクトルデータをマイニングするために追加のイオンシリーズギャップスペクトルを入力するために使用される追加のイオンシリーズギャップパラメータウィンドウを示す図。
【図21】
GUIの一部であって、マススペクトルデータの結果を表示するために使用される結果ウィンドウを示す図。
【図22】
GUIの一部であって、マススペクトルデータの結果をグラフ形式で示すために使用される結果ウィンドウを示す図。
【図23】
マススペクトルデータのマイニング用に使用される、ロススペクトル特性の例を示す図。
【図24】
マススペクトルデータのマイニング用に使用される、追加のイオンシリーズギャップの例を示す図。
【図25】
スペクトル特性が特定されている、イオンシリーズパラメータウィンドウの例を示す図。
【図26】
スペクトル特性が特定されている、制御ウィンドウの例を示す図。
【図27】
一次と二次とのスペクトル特性が特定されている、制御ウィンドウの例を示す図。
【図28】
図27に示したスペクトル特性と整合しているマススペクトルデータを示す結果ウィンドウの例を示す図。
発明の属する技術分野
この発明は、一般に、データマイニング(データを目的をもって調べる、data mining)の分野におけるデータ処理に係り、もっと特定すると、さらに分析を行うためにマススペクトル(質量分析)に係るデータをマイニングするための方法、システム、及び計算機プログラム製品(プロダクツ)に関する。
【0002】
従来の技術
質量分析測定法(Mass Spectrometry, MS)機器は化学物質からのイオンを発生して解析をする。こういった分析はマススペクトルを生じ、これが分析される物質の化学的性質を反映している。MS機器は全走査(フルスキャン)マススペクトルを発生することができ、このスペクトルはある特定の時点でMS機器に入る化学物質から発生されたすべてのイオンを表わしている。MS機器はまたタンデム(連繋する)マススペクトル(MS−MSスペクトル)を生成することもでき、これは特定のイオン(プレカーソル(先駆物質)イオン)が選ばれて、その次にエネルギーの解離(ディソシエーション)を受けて、それが破片のイオン(フラグメントイオンもしくはプロダクトイオンと呼ばれている)を作り出すというプロセスによっている。MS−MSスペクトルは特定の先駆物質イオンから作られたプロダクトイオンの分布を記録し、また先駆物質種の特定の構造上の特徴がこの情報から求められるようにできる。近代的なMS機器は全スキャンマススペクトルあるいはMS−MSスペクトルの多数を自動的に取得することができる。自動化された、こういったスペクトルについての高生産性の評価は、MS機器により生成されたデータの利用に対する著しい挑戦を意味している。
【0003】
蛋白質(プロテイン)及びペプチド分析用に最新のMS技術を応用することは、細胞のプロテオーム(cellular proteomes)の大規模分析を実施可能なものとした。このプロテオームは生物体とかそのサブセット(一部)の中のすべての蛋白質を集めたものを含んでいる。高度に複雑のプロテオームの蛋白質組成であっても、蛋白質とペプチドにまでダイジェスト(温侵)し、その後でペプチドについてのMS分析をすることによって識別されている。広く使用されているMS解析は液体クロマトグラフィであり、これがトリップルクオードラポール(triple quadrupole)、クオードラポール・イオントラップ(quodrapole−ion trap)、フライトのクオードラポール・時間(quodrapole−time of flight)、もしくはフライトのタンデム時間MS機器(tandem time of flight MS instruments)を備えたタンデムMS(LC−MS−MS)に接続されていて、こういったMS機器がペプチドについての衝突が誘起した解離(Collision−induced dissociation;CID)スペクトルの中に有用な情報を与えている。CIDを受けることになるペプチド先駆物質イオンはプロダクトイオンを生ずるために分裂(フラグメンテーション)を経験することになり、これがMS−MSスペクトル内に記録されている。こういったスペクトルは各種のプロダクトイオンについての信号を含んでいて、その中にはyイオン、bイオン、及びペプチド背景(バックボーン)の分裂から生じた関係する種(スピーシーズ)を含んでいる。さらに、こういったMS−MSスペクトルはペプチド変形(モディフィケーション)の存在とシーケンス位置とを示している信号を含んでいる。
【0004】
MS−MSスペクトルからのペプチドシーケンスの識別は直接解釈(direct interpretationであって、de novo(改めての意)シーケンス分析と呼ぶ)によって行われてよい。ひとたびペプチドシーケンスが決定されると、ソース(源)の蛋白質は、蛋白質シーケンスのデータベースに対して、そのペプチドシーケンスを比較することによって識別されてよい。しかしながら、一般的なLC−MS−MS分析は何千何百といったMS−MSスペクトルを生成する。データについてのうなぎ上りともいえるデータ量(sheer volume of data)はde novoシーケンス解釈を含むプロテーム分析をしたがって前もって排除することになる。
【0005】
Yates,IIIらは米合衆国特許(US Pat 5,538,897)開示のようにMS−MSデータをデータベース内に保存されている蛋白質とヌクレオチドとのシーケンスと相関をとる計算機プログラムを実施した。このプログラムはMS−MSスペクトルを、ペプチド先駆物質イオンの測定された質量(マス)と整合するデータベースのシーケンスと相関をとっている。したがって、このプログラムはde novoシーケンス解釈を事前に取除いて、MS−MSデータからの蛋白質識別を大幅に高速化している。
【0006】
発明が解決しようとする課題
しかしながら、プロテオーム分析における主要な問題は、おびただしい変換後の変更(posttranslational modification)と、スプライスバリアントと、ジーン(遺伝子)ポリモルフィズム(多形性)、及びミューテーション(配列)が原因となっての蛋白質の異種混合性(heterogeneity)である。事実、いずれもの遺伝子は複数の蛋白質生成物(プロダクト)を生じさせることができる。Yates,IIIらのプログラムはある種の予期される変更の存在を許せるのではあるが、予想することができず、また枝分かれして行く蛋白質変更の性質はときにシーケンスデータベース内のものとは異なる質量(マス)のペプチドを生ずる。こういった予期しない蛋白質変化形はこのプログラムによる正しい蛋白質識別を妨げている。こういった環境はデータ評価ツール(道具)の必要性を例示しており、こういったツールは変種のペプチド形態に対応するMS−MSデータを検出できるものである。
【0007】
予期しないペプチド変種を検出し、特性を決めるという一般的な問題は、複雑なペプチド混合物についての高度に進んだ特性を決めることについての著しい障壁を残している。
【0008】
課題を解決するための手段
ここでこの発明の目的、特徴などを要約説明する。
【0009】
この発明の一つの目的は、大量のデータをマイニングする(目的をもって調べる)ための新しい方法を用意することである。
【0010】
この発明の別な目的は、マススペクトル(質量分析)データをマイニングするための新しい方法を用意することである。
【0011】
この発明の別な目的は、データをマイニングするために使用されることになるマススペクトルデータのスペクトル特性を特定するための新しい方法を用意することである。
【0012】
この発明の他の目的は、テーマをマイニングするために使用されることになるスペクトル特性についてのユーザが規定した階層構造を特定するための新しい方法を用意することである。
【0013】
この発明のほかの目的は、マススペクトルデータ内で予期しない変更を効率的にマイニングするための新しい方法を用意することである。
【0014】
こういった目的と、そのほかの目的とは、この発明によって構成された、マススペクトルデータマイニングシステム、方法、及び計算機プログラム製品によって達成され、そこではデータパターンが大規模データベース及び/又はファイルを解析するために使用されて、有用なデータが抽出されるようにする。このデータパターンはデータベースに対抗するパラメータの比較を含んでいるアイテム(事項)の存在を識別するために使用することができる。このようにして、データマイニングプロセスは大量のデータに対してのふるいがけをすることが可能であって、ユーザもしくはデータマイニングプロセスのいずれかによって特定された特定のパターンを同定識別(アイテンティファイ)して抽出するようにする。
【0015】
とくに、この発明の一つの特徴(アスペクト)によると、マススペクトルをマイニングするための新しい方法が用意されていて、その中にはマイニング対象のマススペクトルのスペクトル特性を特定する段階と、スペクトル特性間の関係を特定する段階と、スペクトル特性間の関係に基づいてスペクトル特性と整合するマススペクトルの部分を求めてマススペクトルをサーチ(探索)する段階と、その部分とスペクトル特性との間の相関の度合い(a degree of correlation)を示すためにマススペクトルの該部分に対して得点(スコア)を指定(アサイン)する段階とを含んでいる。
【0016】
この発明の別な特徴によると、この発明の方法を実施する新システムを用意している。
【0017】
さらに別なこの発明の特徴によると、新しい計算機プログラム製品が用意されていて、それは計算機システムの計算機が読取ることができる媒体内部に含まれていて、これが実行されると、計算機システムがこの発明の方法を実行することになる。
【0018】
発明の実施の形態
この発明についてのもっと完全な理解と、発明に付随する数多くの利点とは、添図の図面と関係付けて考慮するときに、以下の詳細な記述を参照してよりよく理解されることになるのと同じように、すぐに手に入れることができるものとなる。図面を参照するとして、同じ参照番号は、いくつかの図面にわたり同一もしくは対応する部分を示している。
【0019】
図1はペプチドAVAGCAGAR(alanine−valine−alanine−glycine−cysteine−alanine−glycine−alanine−arginine)のダブルチャージしたイオンについてのCIDにより作られたMS−MSスペクトルの例を示す。この例示のマススペクトルは、またデータスキャン(データ走査)としても知られていて、この発明によってマイニングされることができて、化学的に特有の特性上の特徴(chemical−specific−characteristic features)を検出するのにあてられる。例示のマススペクトルでは、x軸は検出されたイオン信号の質量(マス)対チャージ比(m/z)を示し、またy軸はマススペクトロメータ(質量分析計)により検出された特定イオンの相対的な豊富さ(relative abundance、相対的存在度)を示している。ペプチドの化学的構造はマススペクトルの上に示されており、またスペクトル内のイオン信号はCIDにおける破片(フラグメンテーション)を記述するために受入れられている規約に従ってyイオンとbイオンとして注が付されている。
【0020】
CIDによって作られたマススペクトルは例としての目的のものと理解されるべきもので、他の技術によって作られたマススペクトルもまたこの発明によってマイニングすることができるのである。このような技術は、限定するわけではないが、表面に誘起された解離(ディソシエーション)と全スキャンMSを含んでいる。
【0021】
図2はマススペクトルデータをマイニングするためのシステムを示す。このシステムは、計器計算機(インスツルメントコンピュータ)10、マススペクトロメータ(質量分析計)12、ホスト計算機20、及びサーバ24を含んでいる。マススペクトロメータ12は計器計算機10に標準のデータ伝送/通信ケーブルを経て接続され、また計器計算機10と、ホスト計算機20と、サーバ24とはローカルエリア網(LAN)25を経て接続されている。LAN25はインターネット35に接続されている。
【0022】
計器計算機10は、いずれかの適当な計算機、ワークステーション、サーバ、もしくは、ホスト計算機20とサーバ24とにLAN25とまたインターネット35を経てほかのデバイスと通信をするための他のデバイスである。
【0023】
マススペクトロメータ12は、いずれかの適当な化学分析デバイスであって、分析対象の化学物質からイオンを発生してそれを分析して、また情報を送り、制御命令と情報とを計器計算機10から受けるようなデバイスである。
【0024】
ホスト計算機20は、いずれかの適当な計算機、ワークステーション、サーバ、もしくは他のデバイスであって、LAN25を経てサーバ24と計器計算機10と、またインターネット35を経てほかのデバイスと通信をするものである。ホスト計算機20はデータを記憶し、また命令を実行する。この発明では、ホスト計算機20はマススペクトルデータをマイニングするためにこの発明の段階を実行する。ホスト計算機20は計器計算機10とサーバ24との間で情報の送受をする。
【0025】
サーバ24は、いずれかの適当なデバイスであって、計器計算機10とホスト計算機20との間でLAN25を経由して情報を記憶したり回復したりするものか、あるいはインターネット35を経由していずれかのほかのデバイスとそれをするものである。この発明では、サーバ24が計器計算機10からのマススペクトルデータを記憶してホスト計算機20に向けてデータを送り、そこでデータがマイニングされる。
【0026】
図2のシステムは、例示目的のためだけのものであり、この発明を実施するために使用される特定のハードウェアとソフトウェアとについての数多くの変形は当業者にとってすぐに明らかなものとなることは理解されたい。例えば、ホスト計算機20とサーバ24とはLAN25によってではなく、インターネット35を介して接続されるようにしてよい。あるいは、ホスト計算機は取外されてよく、この発明は計器計算機10によって実行されてよい。または、ローカルなデータベースとか計器計算機10がサーバ24ではなくマススペクトルデータを記憶するのに使用されてよい。
【0027】
図3は、この発明によりマススペクトルデータをマイニングするときに、図2のシステムによって実行されるデータの流れを示す。化学的サンプル(試料)がマススペクトロメータ12によって分析されて、生の(raw)データ1としてマススペクトルデータを作る一連のMS−MSスキャンを介してサンプル内の化学種を判断し決定する。複数の繰返し(レプリカ)MS−MSスキャンが質量分析計(マススペクトロメータ)12で各データサンプルについて取得されて、そのサンプルについての代表的な分析を主として得るようにする。三回のMS−MSスキャンの組が一般には取得されるけれども、いくつでもよい数のスキャンがある組で取得できる。マススペクトロメータ12はそこで生のデータ1を計器計算機10に送り、そこではデータファイル3内に生のデータ1を記憶する。MS−MSスキャンが完了した後で、計器計算機10はこのデータファイル3をサーバ24に向けて送って保存にあてる。ホスト計算機20はそこでサーバ24からデータファイル3を検索し読出し(回復し)、データファイル3上でのデータマイニングを実行して関心のあるスペクトルデータを識別して抽出する。複数スキャンの各組はそこで平均がとられて、その先のすべての動作はこの平均されたスキャンについて実行される。この場合に、平均をとることは、平均値が単位チャージ当りの各プロダクトイオンマス(爾後m/zと言う)値での信号強度について平均がとられることになるスキャンの組について計算されることを意味している。マイニングプロセスを完了した後に、ホスト計算機20は結果と得点(スコア)5とをサーバ24に送って保存する。
【0028】
図3に示したデータの流れは例示を目的としただけのものであって、いろいろな変りだねがシステムのハードウェアとソフトウェアとで利用可能な数多くの変形に対応して発生されてよいことは理解できると思う。
【0029】
図4はこの発明のマススペクトルデータをマイニングする方法の一実施例を示す。先ず、ユーザはこの発明の方法を開始する。段階200では、ユーザがマイニングをそこでするデータフアイルを選んで、このファイルがホスト計算機にダウンロードされる。ホスト計算機は、そこで段階202でダウンロードされたデータファイルからのマススペクトルデータを前処理して、破片となっていない(ノンフラグメント)イオンを取りのけて、先駆物質チャージを推定し、全イオン流の百分率(%TIC)でイオン強度を正規化する。この正規化はもっと大きな豊富さの(アバンダントな)種の検出に向けてのバイアスを除去し、低濃度で存在する種の識別同定ができるようにする。ユーザはそこでスペクトル特性と、他の各々についてのその特性の関係とを段階204で例えば制御ウィンドウを経て入力する。この段階はユーザがスペクトル特性と関係とを特定できるようにして、与えられた化学種を識別しかつデータ内での予期されていない変更を実効的に検出する上で最も有用であるものを特定する。前処理したスペクトルはそこで評価がされて、段階206では特定されたスペクトル特性についての整合を見付けるために評価を受ける。段階208では得点が計算され、その際にはスペクトル特性についてのユーザが定義した階層とともに整合したイオンの%TIC値が勘案される。探索の結果が表もしくはグラフ形式のいずれかで段階210で表示され、それによって、容易に理解できる出力が用意される。
【0030】
ユーザは人間であっても、計算機プログラムであっても、あるいはこの発明の方法が実行されるようになる命令を送ることができるいずれかのオブジェクトであってよいことは理解できると思う。
【0031】
図5は図4の前処理段階202に含まれている段階を示す。少くともn個の破片イオンを備えたマススペクトルデータがデータワークアップ(クライマックスまで順序もって来る)サブルーチンによって前処理され、このサブルーチンでは先駆物質チャージが推定されて、破片イオンが%TICによって正規化される。この実施例では、nは25に設定されている。先ず、データがホスト計算機によって段階230で読取られる。n個より少い破片イオンについてのデータは段階232でスペクトルからサブトラクト(取りのけ)される。段階234では先駆物質イオンと、特定された先駆物質のm/zの±p%内にあるイオンとが各スペクトルから減算され、段階236では先駆物質イオンについてのもののm倍よりも大きなm/zをもつイオンも併せて取りのけされる。この実施例では、pは0.4に設定され、またmは2に設定される。先駆物質チャージはそこで比の計算によって推定され(段階238)るが、この比は、先駆物質よりも大きなm/zをもつイオンについての加算されたイオン流の、残っているイオンについての全イオン流に対する比となっている。比が0.1よりも大きいスペクトルは二重にチャージされた先駆物質から生ずるものとして定義される。比が0.1以下のスペクトルは単一にチャージされた先駆物質から生じるものと定義されていて、先駆物質よりも大きいm/zをもつ全イオンはスペクトルから減算されている。したがって、段階240では、照合がされて、そのスペクトルが単一もしくは二重にチャージされているかどうかが問合される。もしスペクトルが単一にチャージされているものであれば、そのときは先駆物質よりも大きなm/zをもつ全イオンが段階242でスペクトルから取りのけられる。次に段階244では、残っている破片イオンが%TICに正規化され、ここでは各イオンが100xに等しい値をもつ(xはイオン強度/残っているイオンの加算したイオン強度)。段階246では、qよりも小さな%TIC値をもつイオンがスペクトルから取りのけられる。この実施例では、qは0.2に設定されている。次に、段階248では、残っているイオンが再び正規化される。s破片イオンよりも小さい残っているデータがスペクトルから取りのけられる(段階250)。この実施例では、sは15に設定されている。こういった取りのけは、検出された破片イオンについては%TICを最大とし、イオンシリーズ(もしくは対)検出についての背景雑音を減らしている。
【0032】
図6の(A),(B),(C)と図7の(A),(B),(C),(D)とは、図4の段階206と208とでそれぞれ示した整合と得点付けとがどのように実行されるかを示している。このスペクトル特性として示したものは、プロダクトイオン、中性もしくはチャージ(帯電)された破片のロス、イオン対、及びイオンシリーズを含んでいる。
【0033】
プロダクトイオンスペクトル特性はm/z値として特定されている。特定されたプロダクトイオン特性に対してスペクトルを整合させるために、このスペクトルはこの特定されたm/z値を有するイオンを求めて探索される。そこで探索は、その指定されたm/z値±bm/zに中心のある窓(ウィンドウ)内部で実行され、そのウィンドウ内で最も豊富なイオンi1選ばれる。この実施例ではbは0.5に設定されている。プロダクトイオンでこういったスペクトルに整合しているものはそこで次式(1)のように、選ばれたイオンについての%TIC値とI1 として得点付けがされる:
得点(Score)=I1 (1)。
【0034】
図6(A)は、特定されたm/zに中心のあるウィンドウ100をもつ、特定されたm/z(118)を示している。最も豊富なイオン101でこのウィンドウ内部のものがそのイオンの%TIC値を示している最高ピークとして示されていて、これが識別される。(118)のm/zをもつ特定されたプロダクトイオンの得点はイオン101のこの%TIC値である。
【0035】
ロスイオン(中性もしくはチャージされた)スペクトル特定は先駆物質からの所望のロスm/z値として特定される。中性ロスについての特定されたロスイオン特性にスペクトルを整合するために、イオンロスm/zが先駆物質m/zから特定されたロスm/z値を減算して計算される。そこで探索が計算されたイオンロスm/z値±cm/zの周りに中心があるウィンドウ内で実行されて、最も豊富なイオンi1ウィンドウの内部のものが選ばれる。この実施例では、cは0.5に設定されている。こういったスペクトルについてのプロダクトイオン整合はそこで次の式(2)のように選ばれたイオンについての%TIC値I1として得点が付けられる:
得点(Score)=I1 (2)。
【0036】
チャージされたロスについての特定されたロスイオン特性にスペクトルを整合するために、ロスイオンm/zが計算され、この計算は特定されたロスm/z値を実際の先駆物質m/zに代り先駆物質についての予測された単一にチャージされたm/z値から減算するものである(すなわち、2×先駆物質m/z−1)。
【0037】
中性ロスの場合と同じように、計算されたイオンロスm/z値±cm/zの周りに中心があるウィンドウが次に探索されて、そのウィンドウ内で最も豊富なイオンが選ばれる。この実施例では、cは0.5に設定されている。こういったスペクトルについてのプロダクトイオン整合はそこで次の式(3)のように選ばれたイオンについての%TIC値I1として得点が付けられる:
得点(Scored)=I1 (3)。
【0038】
中性ロスは先駆物質イオンと同じチャージ(電荷)を有しているプロダクトイオンを結果として生じさせる。したがって、二重にチャージされた先駆物質からの中性ロスについてのイオンロスm/zを計算するために使用されるm/z値は、単一のチャージされた先駆物質からの同じマスロスのものの半分となっている。これと対照的なのは、チャージされたロスがプロダクトイオンを生成し、このイオンは先駆物質のものよりも1単位少ないチャージを有していて、二重にチャージされた先駆物質から生ずるスペクトルの中でのみ観察される。したがって、特定のロスが探索規準として入ってくるときには、先駆物質チャージと、ロスによって作られたプロダクトイオンのチャージとがロス記述の中に含まれて、ユーザはロスを中性もしくはチャージされたものとして定義することができ、また先駆物質のチャージ状態に見合うように中性ロスの大きさを調節できるようにしている。
【0039】
図6Bは先駆物質m/zもしくは推定された単一にチャージされたm/z値104と、m/z値104からの距離をとったウィンドウ102とを示している。この距離は上述のように計算されたロスm/zである。このウィンドウ102内部の最も豊富なイオン103は最大ピークをイオンの%TIC値で示していてこのイオン103が識別される。特定されたイオン損失の得点はイオン103の%TIC値である。
【0040】
イオン対スペクトル特性が二つの破片イオン間の距離(m/zを単位として測定される)によって特定される。この距離はいくつかのアミノ酸の残留マス(residual mass)を反映しているか、特定の付加生成物、付加生成物の破片、もしくは構造上の半分(moiety)の除去を反映していてよい。スペクトルを特定したイオン対スペクトル特性と整合をとるために、破片イオンの仮定の(ヒポセティカルな)リストが先ず生成される。破片のイオンはスペクトルの中の実際の破片イオン(すなわち“実の(リアルな)”リスト)の上でm/z単位の特定の距離だけシフトしたものであり、次に両方のリスト内の破片m/z値が一番近い整数に丸められる。それぞれの丸められた破片m/z値±dm/zに中心のある二つのウィンドウが探索されて、最も豊富なi1,i2がそれぞれのウィンドウの中で選択される。この実施例では、dは0.5に設定されている。イオン対整合はそこで得点を付与され、この得点は丸められたウィンドウの各々からの選択された破片イオンについての%TIC値I1,I2の幾何平均である:
得点(Score)=(I1・I2)1/2 (4)。
【0041】
図6Cは丸められたm/zイオン対を示し、ユーザによって特定された距離だけ分けられている。ウィンドウ105と106とはイオン対の辺りに中心がある。最も豊富なイオン107と108とが、それぞれのウィンドウ106,105内部にあって、イオンの%TIC値を示している一番高いピークとして示されており、これらのイオンが識別同定される。特定されたイオン対の得点はそれぞれの%TIC値の幾何平均である。
【0042】
イオンシリーズスペクトル特性はイオン対スペクトル特性の拡張された形式であって、そこでは複数のイオンが複数の距離にあって整合されている。このイオンシリーズスペクトル特性は、所望のm/z値によって間隔をとった一連のイオン(イオンシリーズ)として特定されている。イオンシリーズは一群のイオン(i1,i2,i3…in)として定義され、これらのイオンは特定のm/z値(m1,m2,m3…mn)によって分離されていて、ここでmn=in−in+1であることがFig7に示されている。イオンシリーズ内の低い方の添え字は高い方のm/z値を示している。ペプチドシーケンス主題(モティーフ)の場合には、このシリーズ内のイオン間の距離はそのペプチド内のそのシーケンスの中のアミノ酸の平均残留マスに対応している。スペクトルをこのイオンシリーズスペクトル特性に整合をとるために、アミノ酸シリーズについての平均残留マス差によって分けられた破片イオンについての仮定リストがまず生成される。この仮定シリーズ(i1)内の第一のイオンが次に図7のグラフ(A)に示したように評価されている実際のMS−MSスペクトル内の一番大きなm/z破片イオンと整列がとられる。仮定イオンと整列がとれている実際のイオンがそこでユーザが特定した公差(一般に±0.5m/z単位)の辺りに中心があるウィンドウ内部で検出される。
【0043】
仮定イオンシリーズとの整列によって検出されたイオンは以下に記述するように得点が付けられる。仮定イオンシリーズはそこでMS−MSスペクトル内で次に低いm/zイオンで始まる整列がされて、整合が再び記録されて得点が付与される(図7グラフ(B))。シリーズが得点を付与されるために検出されることになる最小イオン数xが特定されてもよい。グラフ(B)で示した例では、二つだけの整合が検出されていて(i1とi2)、スペクトルは、x>2であれば、得点が付与されない。整列と検出とのサイクルは、ユーザが特定した最小数の整合(x)が検出されることができないようなときすなわち、仮定イオンシリーズがそのスペクトルの低い方のm/z限界以下に展開するまで続けられる。ある種のMS−MSスペクトルは特定シリーズの中にすべてのイオンを含まなくてもよいことが原因となって、仮定シリーズはまた第二の仮定イオン(i2)で始まるスペクトルに対しても整合され、また実のイオンと仮定のイオンi2〜in間での整合がそこで記録されて、得点が付与される(図7のグラフ(C))。仮定イオンシリーズのMS−MSデータとの整列はイオンin−xを介して続けられ、ここでxは得点付与にとって必要とされる整合の最小数でユーザが特定したものである。
【0044】
スペクトルの得点付与は仮定イオンi1〜inに対応している検出されたイオンについての%TIC値から計算される(図7グラフ(D)参照)。%TIC値でi1,i2,i3…inに対応しているものがそれぞれI1,I2,I3…Inとして示されている。スペクトルについての得点は式(5)により計算される:
【0045】
得点(Score)=N(I1・I2・I3…・In)1/n (5)
ここでNはそのシリーズ内で仮定イオンi1〜inに対応している検出されたイオンの数である。シリーズ内のいくつかのイオンが失われているスペクトルについては、値Inが挿入され、これはイオン検出のためのしきい値に等しい値であり、ユーザにより設定されてよいものであり、一般には0.2%TICとなっている。図7のグラフ(D)では、例えば得点は式(6)により計算される;
得点(Score)=4(I1・I2・I3・I4・I5・I6)1/6 (6)
ここではシリーズの中の六つのイオンのうちの四つだけ(すなわち、I2,I3,I4,I6)がスペクトルの内で実際に検出されていて、しきい値%TIC値が検出されていなかったI1とI5のために使用されている。示したように、もしN<xであれば(xはユーザが特定した、検出されたイオンについての最小数)、そのときはこのスペクトルにゼロ得点が指定されることになる。
【0046】
得点付与での背景雑音を減らすために、各スペクトル特性は、探索の始めに一次か二次かについての指定がされる。二次特性はそこで一次特性とリンクされるか対となって、所望の構造が発生する化学種の識別ができるようにし、またマススペクトルデータ内での予期しない変化を効果的に検出できるようにする。一次と二次との対形成(ペアリング)の例は、これに限定するわけではないが、あるイオンシリーズにとって二次的なプログクトイオン、あるプロダクトイオンにとって二次的なロスイオン、あるロスイオンにとって二次的な複数のプロダクトイオン、及び他のイオンシリーズにとって二次的な一つのイオンシリーズである。二次スペクトル特性は一次特性と同じやり方で入力されるが、例外としてこの二次特性は探索について特定の一次特性とそれぞれリンクしていることを除くものとする。一次特性は検出されたときに自動的に得点が付けられるのであるが、二次特性はリンクした一次特性が同じマススペクトル内で検出される場合に限り得点が付けられる。こうして、二次特性の得点付けは他の一次インジケータの存在に付随している。一次と二次との特性は階層状にリンクされている。例えば、スペクトル内で弱いか不規則かのインジケータであるか、あるいは背景スペクトルで共通のものであるスペクトル特性は二次分類にとってのよい候補となる。二次特性についての得点は、最終得点が一次特性によって最も重く影響されることを保証するように調節される。二次特性についての最初の計算された%TIC得点はこの得点と、リンクしている一次特性の%TIC得点との幾何平均をとることによって調節される。各二次特性は一度だけ得点が付けられ、リンクした一次特性の得点に等しい最大得点が許される。最終のスペクトル得点は検出された一次特性の%TIC値の和に調節された二次特性得点の和を加えたものとして計算される。各二次イオンカテゴリィは一次イオンについて一度だけ得点が付けられる。
【0047】
得点はゼロでない得点を受ける平均されたMS−MSスキャンのすべての組について報告される。この得点に加えて、スキャン番号、保持時間、先駆物質m/z、及び仮定シリーズと整合するMS−MSスペクトル内で検出されたイオンが報告される。スキャン番号は各MSもしくはMS−MSスキャンに対してデータファイル内で、データシステムによって、指定されたシーケンシャル識別子である。保持時間はMSもしくはMS−MSスキャンが記録されたときに、LC−MS−MS分析での経過時間である。先駆物質m/zはMS−MSに従っている先駆物質のm/z値である。検出されたイオンは探索基準に整合した得点付けされたスペクトル内の信号のm/z値である。これが関心のあるスペクトルを識別同定することを単純にしている。最後に、一次及び二次イオンもしくはイオンシリーズで得点付与されたもののすべてがスペクトル識別子と一緒に報告される。ときとして、この情報から直接にスペクトル品質を推定することが可能であり、これが目視検査用の完全なCIDスペクトルを回復させる前に可能となる。
【0048】
この発明の一次と二次との特性は階層状の関係に限定されず、例えばシーケンシャルとか、並列とか、分析される化学種に依存して他のやり方でリンクされていてよいことは理解できると思う。
【0049】
図8ないし12は、特定されたスペクトル特性に基づいて得点を計算するための段階を示す。先ず、得点はゼロに初期化される(段階260)。次に一次としてユーザにより指定されたスペクトル特性が識別同定される(段階261)。もし、プロダクトイオンスペクトル特性(パラメータ)が一次として指定されると、そのときは図9で示したように、プロダクトイオン得点、得点1、を計算するための段階が実行される。もし、ロスイオンパラメータが一次として指定されると、そのときはロスイオン得点、得点2、を計算するための段階が図10に示すように実行される。もし、イオンシリーズパラメータが一次として指定されると、そのときはイオンシリーズ得点、得点3、を計算するための段階が図11に示すように実行される。そうでなければ、得点はゼロのままであり、プロセスは図4の表示段階210へ続く。
【0050】
図9はプロダクトイオン得点、得点1、を計算する段階を示し、そこではプロダクトイオンが一次スペクトル特性として特定される。プロダクトイオン得点、得点1、は段階267でゼロに初期化される。段階268では、特定されたプロダクトイオンパラメータm/z値±0.5m/zユニットに中心のあるウィンドウが識別される。段階269では、照会がされて、プロダクトイオン整合が識別されたウィンドウ内部で見付けられたかどうかの問合せがされる。もしプロダクトイオン整合が見付からなければ、段階261で始まる図8の段階が実行されて、いずれか他の指定された一次パラメータを評価するようにする。他方では、もし整合が見付かると、段階271でプロダクトイオン一次得点、得点1a、が%TIC値で識別されたウィンドウ内部の最も豊富なイオンについての値に設定される。
【0051】
次に照会が段階272でされて、ロスイオンスペクトル特性が二次であり一次プロダクトイオンパラメータにリンクしているかどうかが問合せされる。もしそうであれば(後述する)図10の段階が実行されて、ロスイオン二次得点、得点1b、を段階273で決める。二次得点は一次得点を越えることはない。したがって、段階274では、もし得点1bが得点1aよりも大きいとすると、そのときは得点1bは得点1aに等しく設定される。そうでなければ、得点1bで段階273で計算されたものが使用される。段階272では、もしロスイオンが一次プロダクトイオンパラメータにリンクした二次探索特性でないとすると、そのときは得点1bが段階275でゼロに設定される。
【0052】
次に、照会が段階276でされて、イオンシリーズスペクトル特性が二次であり、一次プロダクトイオンパラメータにリンクされているかどうか問合せされる。もしそうであれば、(後に論じられる)図11の段階が実行されて、イオンシリーズ二次得点、得点1cを決めるようにする(段階277)。前述したように、二次得点は一次得点を越えることはない。したがって、段階278では、もし得点1cが得点1aより大きければ、そのときは得点1cが得点1aに等しく設定される。そうでなければ得点1cで段階277で計算されたものが使用される。段階279では、もしイオンシリーズが一次プロダクトイオンパラメータにリンクしている二次探索特性でなければ、そのときは得点1cが段階279でゼロに設定される。
【0053】
プロダクトイオン得点、得点1、が次に得点1aと、得点1bと、得点1cとの和として段階280で計算される。照会がそこでされて(段階281)、他の一次特性が指定されているかどうか問合せる。もしそうであれば、図8の段階が実行されて、他の指定された一次特性の得点を計算する。もし他の指定された一次特性が何もなければ、得点1が、(後に論じられる)図12の段階で使用されて、全マススペクトル得点を計算する。
【0054】
異なるm/z値をもつ複数のプロダクトイオンが一次特性として指定されてよいことは理解できると思う。この場合には、プロダクトイオン得点、得点1、は各プロダクトイオンについてのプロダクトイオン得点の和である。
【0055】
図10はロスイオン得点、得点2、を計算する段階を示し、そこではロスイオンが一次スペクトル特性として特定される。段階282で始まりプロダクトイオン得点、得点2、はゼロに初期化される。段階283では、計算されたロスイオンパラメータm/z値±0.5m/zユニットに中心のあるウィンドウが識別される。もしロスがチャージされたロスであると、そのときはロスイオンm/zが計算され、この計算では特定されたm/zが先駆物質についての予測された単一にチャージされたm/z値から減算される(すなわち2×先駆物質m/z−1)。段階284では、照会がされて、ロスイオン整合が識別されたウィンドウ内部で見付けられたかどうかの問合せがされる。もしロスイオン整合が見付からなければ、段階261で始まる図8の段階が実行されて、いずれか他の指定された一次パラメータを評価するようにする。他方では、もし整合が見付かると、段階286でロスイオン一次得点、得点2a、が%TIC値で識別されたウィンドウ内部の最も豊富なイオンについての値に設定される。
【0056】
次に照会が段階287でされて、プロダクトイオンスペクトル特性が二次であり一次ロスイオンパラメータにリンクしているかどうかが問合せされる。もしそうであれば(後述する)図9の段階が実行されて、プロダクトイオン二次得点、得点2b、を段階288で決める。二次得点は一次得点を越えることはない。したがって、段階289では、もし得点2bが得点2aよりも大きいとすると、そのときは得点2bは得点2aに等しく設定される。そうでなければ、得点2bで段階288で計算されたものが使用される。段階287(注272は誤記)では、もしプロダクトイオンが一次ロスイオンパラメータにリンクした二次探索特性でないとすると、そのときは得点2bが段階290でゼロに設定される。
【0057】
次に、照会が段階291でされて、イオンシリーズスペクトル特性が二次であり、一次ロスイオンパラメータにリンクされているかどうか問合せされる。もしそうであれば、(後に論じられる)図11の段階が実行されて、イオンシリーズ二次得点、得点2cを決めるようにする(段階292)。二次得点は一次得点を越えることはない。したがって、段階293では、もし得点2cが得点2aより大きければ、そのときは得点2cが得点2aに等しく設定される。そうでなければ得点2cで段階292で計算されたものが使用される。段階294では、もしイオンシリーズが一次プロダクトイオンパラメータにリンクしている二次探索特性でなければ、そのときは得点2cが段階294でゼロに設定される。
【0058】
プロダクトイオン得点、得点2、が次に得点2aと、得点2bと、得点2cとの和として段階295で計算される。照会がそこでされて(段階296)、他の一次特性が指定されているかどうか問合せる。もしそうであれば、図8の段階が実行されて、他の指定された一次特性の得点を計算する。もし他の指定された一次特性が何もなければ、得点2が、(後に論じられる)図12の段階で使用されて、全マススペクトル得点を計算する。
【0059】
異なるm/z値をもつ複数のロスイオンが一次特性として指定されてよいことは理解できると思う。この場合には、ロスイオン得点、得点2、は各ロスイオンについてのロスイオン得点の和である。
【0060】
図11は、イオンシリーズ得点、得点3、を計算する段階を示し、そこではイオンシリーズが一次スペクトル特性として特定される。イオンシリーズ得点、得点3、は段階297でゼロに初期化される。段階298では、アミノ酸シリーズの平均残留マス差によって分けられた破片イオンの仮定リストが先ず生成される。段階299では、この仮定シリーズ内の第一のイオンがそこで評価されている実際のMS−MSスペクトルにおける最大のm/z破片イオンと整列される。段階300では、ウィンドウが識別され、これはユーザが特定したm/z公差(一般には±0.5m/zユニット)のあたりに中心があり、仮定イオンと整列している実際のイオンに対応している。段階301では、照会がされて、イオンシリーズ整合が識別されたウィンドウ内部で見付けられたかどうかの問合せがされる。もしイオンシリーズ整合が見付からなければ、段階261で始まる図8の段階が実行されて、いずれか他の指定された一次パラメータを評価するようにする。他方では、もし整合が見付かると、段階302でイオンシリーズ一次得点、得点3a、が%TIC値で識別されたウィンドウ内部の最も豊富なイオンについての値に設定される。注意すべきことは、イオンシリーズ特性についての得点は図11のイオンシリーズを用いて計算できることであり、ここでは識別され、かつ得点3aで使用されたウィンドウ(及びイオン)の数が2である。
【0061】
次に照会が段階303でされて、プロダクトイオンスペクトル特性が二次であり一次イオンシリーズパラメータにリンクしているかどうかが問合せされる。もしそうであれば図9の段階が実行されて、プロダクトイオン二次得点、得点3b、を段階304で決める。二次得点は一次得点を越えることはない。したがって、段階305では、もし得点3bが得点3aよりも大きいとすると、そのときは得点3bは得点3aに等しく設定される。そうでなければ、得点3bで段階304で計算されたものが使用される。段階305では、もしプロダクトイオンが一次ロスイオンパラメータにリンクした二次探索特性でないとすると、そのときは得点3bが段階306でゼロに設定される。
【0062】
次に、照会が段階307でされて、ロスイオンスペクトル特性が二次であり、一次イオンシリーズパラメータにリンクされているかどうか問合せされる。もしそうであれば、図10の段階が実行されて、ロスイオン二次得点、得点3cを決めるようにする(段階308)。前述したように、二次得点は一次得点を越えることはない。したがって、段階309では、もし得点3cが得点3aより大きければ、そのときは得点3cが得点3aに等しく設定される。そうでなければ得点3cで段階308で計算されたものが使用される。段階310では、もしロスイオンが一次イオンシリーズパラメータにリンクしている二次探索特性でなければ、そのときは得点3cが段階310でゼロに設定される。
【0063】
イオンシリーズ得点、得点3、が次に得点1aと、得点1bと、得点1cとの和として段階311で計算される。照会がそこでされて(段階312)、他の一次特性が指定されているかどうか問合せる。もしそうであれば、図8の段階が実行されて、他の指定された一次特性の得点を計算する。もし他の指定された一次特性が何もなければ、得点3が、(後に論じられる)図12の段階で使用されて、全マススペクトル得点を計算する。
【0064】
複数のプロダクトイオンが一次特性として指定されてよいことは理解できると思う。この場合には、イオンシリーズ得点、得点3、は各プロダクトイオンについてのプロダクトイオン得点の和である。
【0065】
図12は分析されているマススペクトルデータの全得点を計算するための段階を示している。段階320では、全得点(トータルスコア)である得点(スコア)が、図9で示したように計算された得点1と、図10で示したように計算された得点2と、図11で示したように計算された得点3との和として計算される。この得点はそこで例えば図4の段階210で示したように表示される。追加のスペクトル特性を加えたり、得点を付けたりすることができることは理解されると思う。
【0066】
図13と14とは、この発明のマススペクトルデータをマイニングするための方法の別の実施形態を示す。この実施形態では、マススペクトルマイニングが実時間で実行されて、マススペクトロメータ(質量分析計)の制御設定が生成されたスペクトルを改善するために調節できるものとしている。制御設定の例示には、限定をするのではないが、源のエネルギー、衝突のエネルギー、先駆物質イオン選定についての分解能、及び検出器利得設定を含んでいる。したがって、図13の段階700では、第一のサンプルが走査されて、そのスペクトルデータがホスト計算機20に向けてダウンロードされる。段階702では、データが図5の段階に従って前処理される。この前処理段階は、もっと大きく豊富な種の検出に向けてのバイアス(偏り)を除去して、低い濃度で存在している種の識別を可能とするものである。分析に先立って、ユーザはスペクトル特性とデータを探して得点付けすることになる関係とを段階704で入力している。この段階はユーザがスペクトル特性と、所与の化学種を識別同定するのに、またデータ内での予期しなかった変更を効果的に検出するのに最も有用な関係とを特定できるようにしている。このデータは段階706でスペクトル特性と比較される。問合せがされ、スペクトル特性にデータが整合するかどうかを照会する(段階708)。もし整合していなければ、そのときは段階710で制御設定調節が質量分析計に送られて、段階700で始まるプロセスが繰返される。
【0067】
しかしながら、段階708で、データがスペクトル特性と整合しているとすると、得点が図8〜12の段階に従って計算される。段階714では、計算された得点が所定のしきい値を越えているかどうか問合せがされる。越えていなければ制御設定調節は段階710で質量分析計に送られて、段階700で始まるプロセスが繰返される。
【0068】
しかしながら、もし得点が所定しきい値を越えるのであれば、そのときは整合がとられ、結果が段階716で表示され、図14に示すような容易に理解できる表もしくはグラフ形式として表示される。もし、データサンプルについてのすべてのスキャンが段階718では完了していなければ、そのときはプロセスは段階700で始まる次のスキャンを繰返し、そうでなければこのプロセスは終る。
【0069】
図15はさらに別な実施形態であって、この発明のマススペクトルデータのマイニングに当り、ここではスペクトル特性と、それらの関係とが分析されている化学種の所定の特性に基づいて自動的に特定されている。したがって、段階800では、マススペクトルデータファイルと、スペクトル特性と、それらの関係で分析された化学種と関係するものがホスト計算機20に対してダウンロードされる。スペクトル特性とそれらの関係は例えばデータファイル内に記憶されてよい。次にデータが段階802で図5の段階により前処理される。この前処理段階はもっと大きく豊富とされる種の検出に向けてのバイアスを除去して、低い濃度で存在する種の識別同定ができるようにする。そこで、スペクトル特性とそれらの関係とが段階804で読取られる。特定されたスペクトル特性と関係とは所与の化学種を識別同定することと、データ内での予期していない変更とを効果的に検出することとにとって最も有用なものとして予め更に決められている。ユーザはロードした後に特定した特性を自動的に更新できることは理解されたい。段階806では、データファイルがスペクトル特性に対応しているスペクトルを求めて探索される。整合についての得点が段階808で図8〜12で記述したように計算される。次に、段階810で、結果がユーザのために表またはグラフ形式で表示される。
【0070】
図4〜15のマススペクトルデータをマイニングする方法はLAN25上ではなくインターネット35上で実行できて、計算機が互に遠方にあるようにできることは理解できると思う。あるいは計器計算機10がデータマイニング機能を実行できて、それによりホスト計算機が使用されないようにしてよい。
【0071】
図16は制御ウィンドウ900の例を示し、これによってユーザは、関心のあるデータを識別同定し抽出するためにデータベースもしくはデータファイルについて使用されるマススペクトルデータのスペクトル特性を入力する。スペクトル特性の例には特定のm/z値でのプロダクトイオン、中性もしくはチャージされたロスで単一もしくは二重にチャージされた先駆物質からのもの、及びイオンシリーズもしくは対を含んでいる。このウィンドウ900を介して、ユーザはマイニング対象のデータを含んでいるファイルをオープンボタン902をクリックすることにより選ぶ。オープンボタン902をクリックすると、マススペクトルデータファイルのすべてについてのリストが現れて、ユーザか分析対象のデータファイルについてブラウジング(データ読取り)ができるようにする。ユーザは所望のデータファイル上をクリックし、システムはファイルを開いて、制御ウィンドウ900に対してユーザを戻す。ファイルが一旦開かれると、ファイルパスがフィールド904内に現れて、何らかのコメントもしくはノードであってそのデータファイルと関係しているものがフィールド906内に現われ、そのデータファイルが作られた日時がフィールド907(Date)に現われ、そのデータファイル内に記憶された平均のMS−MSスキャンの組の数がフィールド908(Number of msms scans)に現れる。
【0072】
フィールド910,912,914,916内にはユーザがパラメータを入力し、これらはマススペクトルデータを前処理するのに使ったものである。フィールド910では、ユーザがピークしきい値(%TIC)を入力する。このピークしきい値は最小%TIC値であって、探索で考慮されることになるためにはデータがこれを越えていなければならない。最小値はイオンピークの強度をそのイオンの全イオン流で除算したものとして決められ、マススペクトルデータの強度とデータが寄生(スプリアス)か実かどうかを示している。ピークしきい値の例は0.2%である。フィールド912では、ユーザがプロダクトイオンデルタ値を入力する。このプロダクトイオンデルタ値はユーザが特定したプロダクトイオンm/z値に中心を置くマスウィンドウに関するものであって、マスウィンドウは入力されたプロダクトイオンデルタ値を+側と−側とにもつ幅を有している。プロダクトイオンデルタの例は0.5である。イオンはプロダクトイオンとしてマススペクトルデータからのみ選ばれることになり、その条件はこの定義されたウィンドウ内部に入っているものが選ばれるものとしている。ユーザはチャージ推定しきい値をフィールド914内に入力する。中性とチャージされたロスイオン計算とに対しては、先駆物質イオンが単一にもしくは二重にチャージされているかどうかが判断される。この判断をするために、先駆物質m/zより上の全イオン流の百分率が調べられる。もしこの百分率がチャージ推定しきい値以下であるとすると、MS−MSスキャンは単一にチャージされた先駆物質イオンから来るものとして指定される。もし百分率がチャージ推定しきい値よりも大きければ、先駆物質イオンが二重にチャージされたとして指定され。チャージ推定しきい値の例は0.1と0.15の間の範囲にある。ユーザはロスイオンデルタをフィールド916内に入力する。このロスイオンデルタは指定されたロスイオンm/z値に中心のあるマスウィンドウに関するもので、入力されたロスイオンデルタ値だけ+側と−側とにそれぞれ幅をもっている。イオンはこのウィンドウ内部に入ることを条件としてロスイオンとして選ばれるだけである。ロスイオンデルタの例は0.5である。
【0073】
ユーザはそこでマススペクトルデータをマイニングするのに使用されるスペクトル特性を定義する。この場合に、特定されるスペクトル特性はプロダクトイオンと、ロス(中性もしくはチャージされた)イオンと、イオンシリーズ(または対)である。もしユーザが特定のプロダクトイオンが発生しているマススペクトルデータをマイニングしたいのであれば、そのときはユーザはAdd Product Ion(プロダクトイオンを加える)ボタン918を選ぶことになる。もしユーザがスペクトルデータであってその中では先駆物質イオンからのチャージロスがMS−MS破断(フラグメンテーション)の際に発生しているデータについてマイニングをしたいのであれば、そのときはユーザはAdd Loss Ion(ロスイオンを加える)ボタン920上をクリックする。あるいは、もしユーザがイオンのシリーズが発生しているマススペクトルデータについてマイニングをしたいとするのであれば、そのときはユーザはAdd Ion Series(イオンシリーズを加える)ボタン922上をクリックする。これらのボタン918,920,922の各々をクリックすると、それぞれのパラメータウィンドウが現れて、その中では、ユーザが、探索を指揮しているスペクトル特性を、特定するようになる。パラメータウィンドウについては以下に説明することとする。
【0074】
もしユーザがスペクトル特性が二次スペクトル特性となることを望むとすると、そのユーザはまず一次スペクトル特性でウィンドウ934内に表示されているものに、特定された後に、ハイライトを当てる。次に、もしユーザがプロダクトイオン特性が探索の中で二次となることを望んでいればそのときは、ユーザはLink Product Ion(プロダクトイオンをリンクする)ボタン924上をクリックする。プロダクトイオンパラメータウィンドウはそこで開き、ユーザは所望のプロダクトイオンスペクトル特性を入力する。単純な段階が実行されるが、その条件はロスイオン特性がLink Loss Ion(ロスイオンをリンクする)ボタン926上をクリックすることにより二次であるときと、またイオンシリーズ特性がLink Ion Series(イオンシリーズをリンクする)ボタン928上をクリックすることにより二次であるときとである。
【0075】
スペクトル特性とその関係とが定義される後に、それらがウィンドウ934内で表示される。一次スペクトル特性がまた意図された第一と第二のスペクトル特性がその下に表示される。
【0076】
もしユーザがすでに特定されたスペクトル特性を編集したいとするときは、ユーザはウィンドウ934内でその特性にハイライトをあてて、編集(Edit)ボタン930上をクリックする。対応しているパラメータウィンドウが現れて、そこでユーザがデータを編集する。ユーザはまた、すでに特定されたスペクトル特性を削除することもでき、それにはウィンドウ934内でその特性にハイライトをあてて、Delete(削除)ボタン932上をクリックする。この特性はそこでウィンドウ934からと、探索から消去される。
【0077】
ユーザがマススペクトルデータをマイニングするために使用することになるスペクトル特性を特定した後に、ユーザはScore(得点)ボタン936をクリックして、マイニングプロセスを実行し、その結果に得点を指定して、この結果がどのくらい良く特定されたスペクトル特性に対応しているかを示すようにする。もし正規化された得点(Normalized Scores)ボックス938がマイニングプロセスを実行する前に調べられていたとすると、そのときは、表示された得点は実際の得点をすべての得点についての平均得点で除算したものである。クリアサーチ(Clear Search)ボタン940はユーザがすべてのパラメータを制御ウィンドウ900からクリアして、その上で開始(やりなおし)ができるようにする。ロードサーチ(Load Search)ボタン942は、ユーザが前のサーチ(探索)からのパラメータをロードできるようにする。また、セーブサーチ(Save Search)ボタン944はユーザが現在表示されているパラメータをセーブできるようにする。
【0078】
図17〜20は前述のパラメータウィンドウを示し、それらはスペクトル特性ボタン918,920,922をクリックすると出現するものであり、ユーザがマススペクトルデータをマイニングするために使用するスペクトル特性値を入力できるようにしている。
【0079】
図17はプロダクトイオンパラメータウィンドウ1000の例を示し、これはAdd Product Ionボタン918(図16)をクリックすると出現する。ユーザが特定したプロダクトイオンm/z値がフィールド1002内に入力される。ユーザがこの特定した値を入力する後で、ユーザはOKボタン1004をその値が正しいことを条件としてクリックする。もしユーザが値を入力しないと決めると、そのときはユーザはCancel(取消し)ボタン1006をクリックして、このパラメータウィンドウ1000を閉じる。
【0080】
図18はロスイオンパラメータウィンドウ1100の例を示し、これが図16のAdd Loss Ionボタン920をクリックすると出現する。ユーザはフィールド1102でロスイオンのマスを特定できる。ユーザはプルダウンウィンドウ1104内でロスイオンの形式を中性イオンもしくはチャージしたイオンとして特定できる。プルダウンウィンドウ1106では、ユーザは先駆物質チャージを単一もしくは二重あるいはその両方として特定できる。もし両方(“either”)が特定されると、二重にチャージした先駆物質イオンからの中性ロスが単一にチャージした先駆物質からの同じ中性イオンのロスの半分の量として現れるという事実がその得点の中に自動的に勘案されることになる。図16のチャージ推定しきい値は先駆物質チャージ状態を決めるために使用され、それから先駆物質チャージの計算がそれにより調節される。もし特定されたパラメータが正しければ、そのときはユーザがOKボタン1108をクリックする。そうでなければユーザはCancel(取消し)ボタン1110をクリックして、パラメータウィンドウ1100を閉じて、やり直しとなる。
【0081】
図19は、イオンシリーズパラメータウィンドウ1200の例を示し、このウィンドウは図16のAdd Ion Series(イオンシリーズを加える)ボタン922をクリックすることによって現れる。ユーザはフィールド1202内でデルタ値を特定することができ、これが指定されたm/z値に中心があり、入力されたデルタ値だけ+と−との両方向に幅をもっているマスウィンドウを参照している。イオンは、イオンがこのウィンドウの中に入ることを条件としてイオンシリーズの一部として選ばれるだけである。デルタ値の例は0.5である。ユーザはそこでフィールド704内でMS−MSスキャン内のイオンの最小数を入力し、これが、スキャンが得点されることになるためには、特定されたイオンと整合していなければならない。数の例は2である。最小数2では、大部分のMS−MSスキャンは一般に得点を受取り、その多くは比較的小さなものである。大きな最少数は結果内でのスキャン数を減らすが弱い方のしかし真の結果の検出を妨げることができる。フィールド1206では、ユーザはいくつの最高得点の整合が保たれるかを入力する。この最高得点はユーザが特定したイオンシリーズ特性とシリーズ内のイオンの最良の整列を示している。値の例は1である。多くのスキャンは、ユーザが特定したシリーズと整合する複数のイオンをもつことができる。ウィンドウ1208がマイニングされることになるシリーズを表示するために使用される。ユーザはAdd(加える)ボタン1214をクリックすることによりシリーズを入力し、ここではパラメータウィンドウが(後に論じられるように)出現する。入力された値が正しければ、そのときはユーザはOKボタン1210を選ぶ。そうでなければ、ユーザはCancel(取消し)ボタン1212を押して、始めからやりなおす。もしユーザがウィンドウ1208内に表示された加えられた情報を編集したいとするときには、ユーザはこの情報にハイライトをあてて、Edit(編集)ボタン1216をクリックする。パラメータウィンドウが出現して、ユーザは前に特定されたシリーズを編集する。もしユーザがウィンドウ1208内に加えられた情報を消去したいとするときは、ユーザはその情報にハイライトをあてて、Delete(消去)ボタン1218をクリックする。この情報はウィンドウ1208と探索(サーチ)から削除される。
【0082】
図20は、前述したように、図19のAddボタン1214をクリックすると出現する。このウィンドウでは、用語“ギャップ(隙き間)”はマイニング対象のスペクトルm/z軸上のイオン間の数値間隔(numerical spacing)である。フィールド1302では、大文字もしくは数値はマイニング対象のシリーズもしくはギャップを表わしている。大文字でペプチドのアミノ酸シーケンスを表わしているものはこのフィールド1302内に類型化される。アミノ酸の最大値が探索用に使用できる。シーケンスが正しく入力されるときには、OKボタン1304がクリックされる。そうでなければ、ユーザはCancel(取消し)ボタン1306をクリックして、パラメータウィンドウ1300を閉じてよい。m/zギャップについての数値が一度に一つ入力される。第一の数値は追加のギャップ対話箱1300に入力されて、OKボタン1304がクリックされる。次の数値を入力するためには、図19のAdd(加える)ボタン1214が再度選ばれて、別の数値が図20のフィールド1302内に入力される。アミノ酸がNからCのターミナル方向で入力されるときは、探索が実行されて、yイオンに対応するイオンを見付けるようにする。アミノ酸シーケンス内のbイオンについて探索するためには、このシーケンスはCからNへのターミナル方向で後方向に入力されるようにできる。
【0083】
図21は、結果ウィンドウの例1400を示し、これは“All Ions(すべてのイオン)”表示1402の選択で、表形式でマイニング結果を表示している。表示されたデータは、得点(Score)1404、先駆物質(precursor)m/z1406、チャージ推定比(Z Est.Ratio)1407、スキャンの設定についての保留時間(R.T.)(分)1408、スキャンの組のスキャン数(Scan #’s)1410,及びスペクトル特性と整合し、得点を付与されたイオン(Ion)1412についての欄を有している。この結果は得点が小さくなる順1404で表示されている。しかし、この結果はいずれの欄に基づいても種分けができるし、表示もできるものである。種分け欄を指定するために、ユーザは各欄の上部で選んだ欄のタイトルをクリックすることになる。
【0084】
図22は結果ウィンドウ1400を示し、これが“Graph(グラフ)”表示1414を選ぶとグラフ形式でマイニング結果を表示する。m/zがx軸上で示され、得点がy軸上で示されている。ピーク上でのマーカーは一番大きな得点をもつ先駆物質m/zイオンを示している。
【0085】
この発明について一般的な記述をしてきたが、さらに理解をすることはある種の特定の例を参照することによって得ることができるのであって、この例として、例示の目的に限り、他に特記しない限りは非限定的なものを用意している。
【0086】
第一の例では、ピロールの一部分の損失が原因となって117Daのニュートラルロスを伴って破断されたペプチドイオン上のピロール付加生成物を仮定することとする。このロスイオン特徴を表示しているMS−MSスキャンについてのLC−MS−MSデータをマイニングするために、ユーザはAdd Loss Ionボタン920で図16にあるものを選んで、図18でのロスイオンパラメータウィンドウが出現する。ユーザは“117”をマスフィールド1102内に入力し、ロスプルダウンウィンドウ1104の形式内で“ニュートラル(中性)”をクリックし、また先駆物質チャージプルダウンウィンドウ1106で“Either(両方)”をクリックする。“Either”が選ばれる理由はニュートラルロスは単一にまたは二重にチャージされた先駆物質イオンから生ずることができることによる。ユーザはそこでOKボタン1108をクリックして、制御ウィンドウ900は図23に示したように、ウィンドウ934内で特定された特性を表示する。ユーザは、Normalize Score(得点を正規化する)箱938を(ユーザが正規化した得点を得たいとしているかどうかに依存して)チェックするかチェックしないかすることができる。次にユーザはScore(得点)ボタン936をクリックして、マイニングプロセスを実行する。
【0087】
図21はマイニングプロセスの結果を表形式で示しており、ここでは得点が下って行く順序で作表されている。上の三つの得点は所望のペプチド付加生成物に対応しているスキャンについてのものであり、この付加生成物は欄1406に示したように778の先駆物質単一チャージm/zを有している。この結果はMS−MSスキャンの三つの組が38.36ないし40.94分の間のLC−MS−MS分析で溶離しているこの化学種について記録されたことを示している。各場合に、チャージ推定比(Z Est.Ratio, 欄1407)は0.1よりも小さな比を示していて、それによりスペクトルは単一にチャージされた種を示すものとなっている。この結果はまた“Ion(イオン)”欄1412から、このスペクトルがm/z661で強いイオンをもっていて、これが中性破片の損失により作られたプロダクトイオンであることも示している。
【0088】
別な例では、トリプシンでダイジェスト(消化)されたフィブリノーゲン(繊維素原)のあるサンプルがトリプシンにより生じたペプチドであるNSLFEYQKを含んでいると仮定する。この発明の探索は、ペプチドSLFEYQからのインナ(分子間)アミノ酸を用いて実行できる。したがって、ユーザは、これらのインナアミノ酸を特定して、このシーケンスモチーフもしくはその変種を含んでいるペプチドのMS−MSスペクトルを見付けるためにマイニングされることになるイオンシリーズスペクトル特性であるとする。このようにして、ユーザは、図16でAdd Ion Series(イオンシリーズを加える)ボタン922を選んで、イオンシリーズスペクトル特性を入力するようにする。このイオンシリーズパラメータウィンドウ1200は開いて、ユーザがフィールド1202,1204、及び1206でのしきい値設定を特定する。ユーザはそこでAdd ボタン1214(図19)をクリックして、図20のパラメータウィンドウ1300が開き、ユーザにとってm/zシリーズパラメータを加えることができるようにする。このようにして、ユーザはインナアミノ酸シーケンスSLFEYQを図24で示すように、フィールド1302内で類型化する。そこでユーザはOKボタン1304をクリックして、パラメータウィンドウ1300を閉じる。その後に、イオンシリーズパラメータウィンドウ1200が、図25に示すように、ウィンドウ1208内に入力されたスペクトル特性とともに出現する。もしこのシリーズが正しければ、ユーザはOKボタン1210をクリックして、イオンシリーズパラメータウィンドウ1200が閉じる。そして、イオンシリーズ探索規準が、図26に示したように、制御ウィンドウ900のウィンドウ934内に出現する。このイオンシリーズは一次スペクトル特性である。
【0089】
トリプシンにより生じたペプチドのような既知のペプチドを探索するときには、bイオンとyイオンとがこのペプチドについて決めることができる。したがって、これらのプロダクトイオンの質量が探索を規定するために二次探索パラメータとしてイオンシリーズ探索に対して加えられるようにできる。
【0090】
したがって、ユーザは複数のプロダクトイオン特性を二次として特定したいとする。ユーザはウィンドウ934内でイオンシリーズ特性にハイライトをあてて、そこでLink Product Ion(プロダクトイオンをリンクする)ボタン924をクリックしてリンクプロダクトイオンスペクトル特性をイオンシリーズスペクトル特性にリンクするようにする。プロダクトイオンパラメータウィンドウ1000が開いて、ユーザが図17のフィールド1002内でプロダクトイオンm/z値を特定する。このユーザはそこでOKボタン1004をクリックして、プロダクトイオン二次特性が入力される。ユーザはキーボード上か、何らかの適当なデータエントリィデバイス上でEnter(エンター)キーを押して、プロダクトイオンウィンドウ1000が次のプロダクトイオン二次特性エントリィのために再度出現する。このプロセスが繰返されて、すべての二次プロダクトイオン特性が特定されることになる。図27に示したように、二次値は一次スペクトル特性の下にリストされ、字下げ(インデント)されている。
【0091】
図28は、得点ボタンをヒットした後の探索の結果を示す。ここでもまた前に論じたように六つの欄のデータがこの例では表形式で示されている。高得点のスキャンが次のことを調べることによって確認される。すなわち、イオン得点がそのペプチドについての予期されたyイオンと整合することと、先駆物質イオンについてのマスが単一か二重か三重かでチャージされた予期されたペプチドマスと整合していることとがチェックされて確認される。不完全なトリプシンによるダイジェスチョン(消化)は探索で使用されたペプチドモチーフを含んでいる破片を作ることができて、それによってマスが予期されたものよりも大きくなる。もし追加のアミノ酸が探索ペプチドのcターミナス(到達点)であるとすると、yイオン得点は予期されたyイオンと整合しない。したがって、大きな値をもつペプチドの識別子(ID)を判断しようとするときには不完全なダイジェスチョンを考慮するように考えておかなければならない。図28では一番大きな得点付けのスキャンは(得点12.14のもので)先駆物質m/zとして515.08を有していて、この値は探索ペプチドNSLFYQKの二重にチャージしたマスに対応している。第二の大きな得点は7.20であり、これが探索ペプチドの単一にチャージしたマスに対応している。こういった両方のスキャンは、予期されたyイオンで探索ペプチドについてのものと対応している破片イオンを含んでいる。
【0092】
発明の効果
ここで記述した中にある機構とプロセスとは、この明細書の教示するところに従ってプログラムされた従来形の汎用マイクロプロセッサを用いて実施することができ、そのことは当業者にとって評価できるものであろう。適切なソフトウェアのコーデングが技術をもったプログラマによりこの発明の開示が教示するところに基づいて用意できることもまた当業者にとって明らかであろう。
【0093】
このようにこの発明は記憶媒体上でホストされることが可能な計算機応用製品を含んでおり、またこの発明に従うプロセス実行のために計算機をプログラムするために使用できる命令を含んでいる。この記憶媒体は、限定するわけではないが、フロッピィディスク、光ディスク、CD−ROM、磁気光ディスク、ROM、RAM、EPROM、EEPROM、フラッシュメモリ、磁気または光カード、あるいは電子的な命令を記憶するのに適したいずれもの形式の媒体を含むことができる。
【0094】
この発明を実施するために使用されるソフトウェアの構造はいずれか希望する形式をとることができる。例えば、図4ないし15に示したマイニング方法は単一のプログラムとして、複数のプログラムもしくはルーチンとして、あるいは希望するいくつでもよい数で実施されてよい。
【0095】
数多くの修正と変更とがこの発明にとっては、上記の教示からみて、可能とされている。したがって、特許請求の範囲のわくの中でこの発明は、ここで特に記述したもの以上に他のやり方で実現されてよいことは理解されるべき事項である。
【0096】
先の出願についての参考事項
この出願は、法35U.S.C.§119(e)の下での優先権の恩恵を主張するものであり、その対象は2000年6月12日提出の米合衆国(US)仮出願一連番号No.60/210,981の全内容であり、この中には発明者の論文(ペーパー)とそこに引用した記事(アーティクル)が含まれ、それらがここで参照に組入れられるものである。
【0097】
連邦が資金を出している研究であることの宣言
ここに記述された発明はthe National Institute of Healthにより契約番号No.1RO1ES10056によって支援されていたもので、政府はこの発明についてのある種の権利をもつことができるものである。
【図面の簡単な説明】
【図1】
質量(マス)スペクトログラムの例を示す図。
【図2】
この発明によりマススペクトルデータを目的をもって調べる(マイニング)するためのシステムのブロック図。
【図3】
この発明によるマススペクトルデータのデータ流の例を示す図。
【図4】
マススペクトルデータをマイニングするための方法を記述している、この発明の実施例の流れ図であり、ここではユーザはスペクトル特性と、スペクトル特性間の関係とを特定する図。
【図5】
図4の実施例の再処理段階を記述する流れ図。
【図6】
(A),(B),(C)は、この発明で、スペクトルがどのようにスペクトル特性と整合されるかを示すグラフ。
【図7】
図6に続くもので、(A),(B),(C),(D)は、この発明でスペクトルがどのようにスペクトル特性と整合されるかを示すグラフ。
【図8】
図4の実施例の得点計算段階を記述する流れ図。
【図9】
図4の実施例の得点計算段階を記述する流れ図。
【図10】
図4の実施例の得点計算段階を記述する流れ図。
【図11】
図4の実施例の得点計算段階を記述する流れ図。
【図12】
図4の実施例の得点計算段階を記述する流れ図。
【図13】
マススペクトルデータを実時間でマイニングし、かつマイニング動作の結果に基づいてマススペクトル計の制御設定をするこの発明の別の実施例の流れ図。
【図14】
図13とともに、マススペクトルデータを実時間でマイニングし、かつマイニング動作の結果に基づいてマススペクトル計の制御設定をするこの発明の別の実施例の流れ図。
【図15】
マススペクトルデータをマイニングする方法を記述している、また別な実施例の流れ図であり、ここではスペクトル特性がデータと入力とに基づいて予め定められている図。
【図16】
グラヒカルユーザインターフェース(GUI)の一部であって、マススペクトルデータのマイニング用にスペクトル特性を入力するために使用される制御ウィンドウ(窓)を示す図。
【図17】
GUIの一部であって、マススペクトルデータをマイニングするためのプロダクトイオンスペクトル特性を入力するために使用されるプロダクトイオンパラメータウィンドウを示す図。
【図18】
GUIの一部であって、マススペクトルデータをマイニングするためのロスイオンスペクトル特性を入力するために使用されるロスイオンパラメータウィンドウを示す図。
【図19】
GUIの一部であって、マススペクトルデータをマイニングするためにイオンシリーズ(または対(ペア))スペクトル特性を入力するために使用されるイオンシリーズパラメータウィンドウを示す図。
【図20】
GUIの一部であって、マススペクトルデータをマイニングするために追加のイオンシリーズギャップスペクトルを入力するために使用される追加のイオンシリーズギャップパラメータウィンドウを示す図。
【図21】
GUIの一部であって、マススペクトルデータの結果を表示するために使用される結果ウィンドウを示す図。
【図22】
GUIの一部であって、マススペクトルデータの結果をグラフ形式で示すために使用される結果ウィンドウを示す図。
【図23】
マススペクトルデータのマイニング用に使用される、ロススペクトル特性の例を示す図。
【図24】
マススペクトルデータのマイニング用に使用される、追加のイオンシリーズギャップの例を示す図。
【図25】
スペクトル特性が特定されている、イオンシリーズパラメータウィンドウの例を示す図。
【図26】
スペクトル特性が特定されている、制御ウィンドウの例を示す図。
【図27】
一次と二次とのスペクトル特性が特定されている、制御ウィンドウの例を示す図。
【図28】
図27に示したスペクトル特性と整合しているマススペクトルデータを示す結果ウィンドウの例を示す図。
Claims (48)
- マススペクトルをマイニングする方法であって:
該マススペクトルのスペクトル特性をマイニングするために特定する段階と;
該スペクトル特性間の関係を特定する段階と;
該関係に基づいて該スペクトル特性と整合する該マススペクトルの一部を求めて該マススペクトルを探索する段階と;
該マススペクトルの該一部に対して得点を指定して、該マススペクトルの該一部と該スペクトル特定との間の相関の度合を示すようにする段階とを備えている方法。 - 請求項1の方法であって、前記マススペクトルはいずれか一つの解離とフルスキャンにより得られる方法。
- 請求項1の方法であって、スペクトル特性を特定する該段階はプロダクトイオン、ロスイオン、及びイオンシリーズの少なくとも一つを特定することを含んでいる方法。
- 請求項1の方法であって、関係を特定する前記段階は:
一次及び二次スペクトル特性の一つであるとされると前記スペクトル特性の各々を識別することを含み、ここで該二次スペクトル特性は階層次に該一次スペクトル特性とリンクされていて、該一次スペクトル特性が検出された後に限り検出されるものである方法。 - 請求項3の方法であって、前記指定する段階は:
プロダクトイオン得点を計算する段階と;
ロスイオン得点を計算する段階と;
イオンシリーズ得点を計算する段階と;
該プロダクトイオン、ロスイオン、もしくはイオンシリーズスペクトル特性が二次であるときには、それぞれの得点を調節する段階と;
該プロダクトイオン、ロスイオン、及びイオンシリーズ得点を加える段階とを含む方法。 - 請求項5の方法であって、該プロダクトイオン得点を計算する段階は:
該プロダクトイオンスペクトル特性の周りのウィンドウ内部で最も豊富なイオンを識別する段階と;
該プロダクトイオン得点を該識別されたイオンの全イオン流の百分率として設定する段階とを含んでいる方法。 - 請求項5の方法であって、ロスイオン得点を計算する該段階は:
単位チャージ当りの実際の先駆物質イオン質量と該ロスイオンスペクトル特性とに基づいて単位チャージ当りのロスイオン質量を計算する段階と;
単位チャージ当りの該計算されたロスイオン質量の周りのウィンドウ内部で最も豊富なイオンを設定する段階とを含んでいる方法。 - 請求項5の方法であって、前記イオンシリーズ得点を計算する前記段階は:
イオンシリーズにおけるイオン間の距離をイオンシリーズスペクトル特性として特定する段階と;
該特定された距離だけ分離された仮定のイオンを生成する段階と;
該マススペクトルを該仮定のイオンと整列させる段階と;
該特定された距離での該整列されたマススペクトルの周りのそれぞれのウィンドウ内部で最も豊富なイオンを識別する段階と;
該識別されたイオンの全イオン流の百分率の幾何平均として該イオンシリーズ得点を設定する段階とを含み、
ここで該イオンシリーズ得点はN(I1・I2・I3…・In)/ 1/nという項を含み、ここでNは該仮定のイオンに対応している該識別されたイオンの数であり、またI1ないしInは該識別されたイオンの該全イオン流のそれぞれの百分率である方法。 - 請求項5の方法であって、前記調節する段階は:
該二次スペクトル特性得点を一次スペクトル特性得点と該二次スペクトル特性得点との幾何平均として設定する段階を含み、
ここで該二次スペクトル特性得点は、該二次スペクトル特性得点がリンクされている相手の該一次スペクトル特性得点を越えることがない方法。 - 請求項1の方法であって、さらに、
該マススペクトルを前処理する段階と;
該指定する段階からの該得点を表示する段階とを含んでいる方法。 - 請求項10の方法であって、前記前処理する段階は、
前記マススペクトルから破片でないイオンを取りのける段階と;
前記取りのける段階から得られるマススペクトルの先駆物質チャージを推定する段階と;
前記推定する段階からのマススペクトルのイオン強度を全イオン流の百分率として正規化する段階とを含んでいる方法。 - 請求項10の方法であって、該表示する段階は、表及びグラフ形式の一つで前記得点を表示する段階を含んでいる方法。
- 請求項1の方法であって、該スペクトル特性を特定する段階は、前記マススペクトルに基づいて該スペクトル特性を自動的に特定する段階を含み、ここで関係を特定する該段階は該マススペクトルに基づいて前記関係を自動的に特定することを含む方法。
- 請求項1の方法であって、さらに、
前記指定された得点に基づいて、前記マススペクトルを作るデバイスについての制御パラメータを調節する段階を含んでいる方法。 - 衝突が誘起した解離(CID)スペクトルをマイニングする方法であって:
マイニングするために該CIDスペクトルのスペクトル特性を特定する段階と;
該スペクトル特性間の関係を特定する段階と;
該関係に基づいて該スペクトル特性と整合する該CIDスペクトルの部分を求めて該CIDスペクトルを探索する段階と;
該CIDスペクトルの該部分に得点を指定して、該CIDスペクトルの該部分と、該スペクトル特性との間の相関の度合を示すようにする段階とを備えている方法。 - 請求項15の方法であって、スペクトル特性を特性する該段階は少くとも一つのプロダクトイオン、ロスイオン、及びイオンシリーズを特定する段階を含む方法。
- 請求項15の方法であって、関係を特定する該段階は:
該スペクトル特性の各々を一次及び二次スペクトル特性の一つであるとして識別し;該二次スペクトル特性は、該一次スペクトル特性と階層的に該一次スペクトル特性とリンクされていて、該一次スペクトル特性が検出される後に限り検出されるものである方法。 - 請求項16の方法であって、前記指定する段階は:
プロダクトイオン得点を計算する段階と;
ロスイオン得点を計算する段階と;
イオンシリーズ得点を計算する段階と;
該プロダクトイオン、ロスイオン、またはイオンシリーズ得点を、それぞれのプロダクトイオン、ロスイオンもしくはイオンシリーズスペクトル特性が二次であるときは調節する段階と;
該プロダクトイオン、ロスイオン、及びイオンシリーズ得点を加える段階とを含む方法。 - 請求項18の方法であって、プロダクトイオン得点を計算する該段階は:
該プロダクトイオンスペクトル特性の周りのウィンドウ内部で最も豊富なイオンを識別する段階と;
該プロダクトイオン得点を該識別されたイオンの全イオン流の百分率として設定する段階とを含む方法。 - 請求項18の方法であって、ロスイオン得点を計算する該段階は:
単位チャージ当りのロスイオンマスを単位チャージ当りの実際の先駆物質イオンマスと該イオンスペクトル特性とに基づいて計算する段階と;
単位チャージ当りの該計算されたロスイオンマスの周りのウィンドウ内部で最も豊富なイオンを識別する段階と;
該ロスイオン得点を該識別されたイオンの全イオン流の百分率として設定する段階とを含む方法。 - 請求項18の方法であって、該イオンシリーズを計算する該段階は:
イオンシリーズ内のイオン間の距離をイオンシリーズスペクトル特性として特定する段階と;
該特定された距離だけ離れている仮定のイオンを生成する段階と;
前記CIDスペクトルを該仮定のイオンと整列させる段階と;
該特定された距離での該整列されたCIDの周りのそれぞれのウィンドウ内部で最も豊富なイオンを識別する段階と;
該識別されたイオンの全イオン電流の百分率の幾何平均として該イオンシリーズ得点を設定する段階とを含み、
ここで該イオンシリーズ得点はN(I1・I2・I3…・In)1/nという項を含み、ここでNは該仮定のイオンに対応している該識別されたイオンの数であり、またI1ないしInは該識別されたイオンの該全イオン流のそれぞれの百分率である方法。 - 請求項18の方法であって、該調節する段階は;
該二次スペクトル特性得点を、一次スペクトル特性得点と、該二次スペクトル特性得点との幾何平均として設定する段階を含み、ここで該二次スペクトル特性得点は、該二次スペクトル特性得点がリンクしている一次スペクトル特性得点を越えていないものである方法。 - 請求項15の方法であって、さらに:
該CIDスペクトルを前処理する段階と;
該指定する段階からの該得点を表示する段階とを含んでいる方法。 - 請求項23の方法であって、該前処理する段階は:
該CIDスペクトルから破片でないイオンを減算する段階と;
該減算する段階から得られるCIDスペクトルの先駆物質チャージを推定する段階と;
該推定する段階からのCIDスペクトルの強度を全イオン流の百分率として正規化する段階とを含む方法。 - 請求項23の方法であって、該表示する段階は表及びグラフ形式の一つで該得点を表示する段階を含む方法。
- 請求項15の方法であって、スペクトル特性を特定する該段階は、該CIDスペクトルに基づいて該スペクトル特性を自動的に特定する段階を含み、
ここで関係を特定する該段階は、該CIDスペクトルに基づいて該関係を自動的に特定する段階を含む方法。 - 請求項15の方法であって、該指定された得点に基づいて該CIDスペクトルを作るデバイスの制御パラメータを調節する段階を備えている方法。
- マススペクトルをマイニングするシステムであって:
マイニングするための該マススペクトルのスペクトル特性を特定する手段と;
該スペクトル特性間の関係を特定する手段と;
該関係に基づいて該スペクトル特性と整合する該マススペクトルの部分を求めて該マススペクトルを探索する手段と;
該マススペクトルの該部分に対して得点を指定して、該マススペクトルの該部分と該スペクトル特性との間の相関の度合を示すようにする手段とを備えているシステム。 - 請求項28のシステムであって、該マススペクトルは解離及びフルスキャンのいずれか一つから得られているシステム。
- 請求項28のシステムであって、さらに:
該マススペクトルを前処理する手段と;
該指定する手段からの該得点を表示する手段とを備えているシステム。 - 請求項28のシステムであって、スペクトル特性を特定する該手段は該マススペクトルに基づいて該スペクトル特性を自動的に特定する手段を含み、
また、関係を特定する手段は該マススペクトルに基づいて、該関係を自動的に指定する手段を含むシステム。 - 請求項28のシステムであって、該指定された得点に基づいて該マススペクトルを作るデバイスの制御パラメータを調節する手段を備えているシステム。
- 具体化されたマススペクトルを有しているメモリと;
該メモリデバイスと通信をするプロセッサとを備え;
該プロセッサは、
1)識別のために該マススペクトルのスペクトル特性を特定し、
2)該スペクトル特性間の関係を特定し、
3)該関係に基づいて該スペクトル特性と整合する該マススペクトルの部分を求めて該マススペクトルを探索し、
4)該マススペクトルの該部分に得点を指定して、該マススペクトルと該スペクトル特性との間の相関の度合を示すようにするように構成されているシステム。 - マススペクトルをマイニングするための計算機が読取り可能な媒体を含んでいる計算機プログラム製品であって:
スペクトル特性を入力して、該スペクトル特性間の関係をマイニングしかつ特定することがユーザにとって可能であるように構成されたグラヒカルユーザインターフェース(GUI)と;
該関係に基づいて該スペクトル特性と整合している該マススペクトルの部分を求めて該マススペクトルを探索し、かつ該マススペクトルの該部分と該スペクトル特性との間の相関の度合を示すようにするために構成されたマイニングコードとを備えている計算機プログラム製品。 - 請求項34の計算機プログラム製品であって、該マススペクトルは解離及びフルスキャンのいずれか一つにより得られている計算機プログラム製品。
- 請求項34の計算機プログラム製品であって、該GUIコードはプロダクトイオン、ロスイオン、及びイオンシリーズの少くとも一つを入力として受理するように構成されており、また、
該スペクトル特性を一次及び二次スペクトル特性の一つとして識別し、さらに、該スペクトル特性を該一次スペクトル特性とリンクさせて、該二次スペクトル特性は、該一次スペクトル特性が検出された後に限り検出されるように構成されている計算機プログラム製品。 - 請求項34の計算機プログラム製品であって、該GUIコードは:
該スペクトル特性と、該マススペクトルの該スペクトル特性間の関係とを入力するように構成された制御ウィンドウと;
該マススペクトルの該得点を表示するように構成された結果ウィンドウとを備えている計算機プログラム製品。 - 請求項36の計算機プログラム製品であって、該マイニングコードは、1)プロダクトイオン得点を計算し、2)ロスイオン得点を計算し、3)イオンシリーズ得点を計算し、4)該プロダクトイオン、ロスイオン、もしくは該イオンシリーズ得点を、もしそれぞれの該プロダクトイオン、ロスイオン、もしくはイオンシリーズスペクトル特性が二次であるときは調節し、ここで該二次スペクトル特性得点は該二次スペクトル特性得点がリンクしている相手の一次スペクトル特性得点を越えていないものとし、また5)該プロダクトイオン、ロスイオン及びイオンシリーズ得点を加えるように構成されている計算機プログラム製品。
- 請求項38の計算機プログラム製品であって、該マイニングコードはさらに、
1)該プロダクトイオンスペクトル特性の周りのウィンドウ内部で最も豊富なイオンを識別することにより該プロダクト得点を計算し、かつ該プロダクトイオン得点を該識別されたイオンの全イオン流の百分率として設定し、
2)単位チャージ当りのロスイオンを単位チャージ当りの実際の先駆物質イオンマスと該ロスイオンスペクトル特性とに基づいて計算することによりロスイオン得点を計算し、単位チャージ当りの該計算したロスイオンマスの周りのウィンドウ内部で最も豊富なイオンを識別し、また該識別されたイオンの全イオン流の百分率として該ロスイオン得点を設定し、
3)イオンシリーズ内のイオン間の距離をイオンシリーズスペクトル特性として特定することにより該イオンシリーズ得点を計算し、該仮定のイオンと該マススペクトルとを整列し、該特定された距離での該整列されたマススペクトルの周りでそれぞれのウィンドウ内部の最も豊富なイオンを識別し、該識別されたイオンの全イオン流の百分率の幾何平均として該イオンシリーズ得点を設定し、ここで該イオンシリーズ得点はN(I1・I2・I3…・In)1/nという項を含み、ここでNは該仮定のイオンに対応する該識別されたイオンの数であり、またI1ないしINは該識別されたイオンの該全イオン流のそれぞれの百分率であるように構成されている計算機プログラム製品。 - 請求項34の計算機プログラム製品であって、さらに寄生マススペクトルを除去するためにマイニングに先立って該マススペクトルを処理するように構成された前処理コードを備えている計算機プログラム製品。
- 請求項40の計算機プログラム製品であって、該前処理コードは、該マススペクトルから破片でないイオンを取りのけて、
該算段階から生じたマススペクトルの先駆物質チャージを推定し、かつ、該推定段階からのマススペクトルのイオン強度を全イオン流の百分率として正規化するように構成されている計算機プログラム製品。 - 請求項37の計算機プログラム製品であって、該GUIコードはさらに:
該プロダクトイオンスペクトル特性を入力するように構成されたプロダクトイオンウィンドウと;
該ロスイオンスペクトル特性を入力するように構成されたロスイオンウィンドウと;
該イオンシリーズスペクトル特性を入力するように構成されたイオンシリーズウィンドウとを備えていて、
ここで該プロダクトイオン、ロスイオン、及びイオンシリーズウィンドウは、それぞれの該スペクトル特性が該制御ウィンドウ内で選ばれるときには開かれるものである計算機プログラム製品。 - 請求項37の計算機プログラム製品であって、該結果ウィンドウは表とグラフの形式の一方で該得点を表示する計算機プログラム製品。
- 請求項34の計算機プログラム製品であって、該GUIコードは自動的に特定された該スペクトル特性と、該マススペクトルに基づいた該関係とを受理するように構成されている計算機プログラム製品。
- 請求項34の計算機プログラム製品であって、さらに該指定された得点に基づいて該マススペクトルを生成するデバイスの制御パラメータを調節するように構成された制御コードを備えている計算機プログラム製品。
- 計算機システム上での実行用のプログラム命令を含んでおり、
該計算機システムによって実行されるときには、このプログラム命令は該計算機システムが請求項1ないし14のいずれか1項記載の方法を実行するようにさせるものであるプログラム命令を含んでいる計算機が読取り可能な媒体。 - スペクトル特性と、マススペクトルの該スペクトル特性間の関係とを入力するように構成された制御ウィンドウと;
該マススペクトルが該スペクトル特性とどのくらい良く整合しているかを示す該マススペクトルの得点を表示するように構成された結果ウィンドウとを備えているグラヒカルユーザインターフェース(GUI)。 - 請求項47のGUIであって、該結果ウィンドウは該得点を表及びグラフ形式の一つで表示するグラヒカルユーザインターフェース(GUI)。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US21098100P | 2000-06-12 | 2000-06-12 | |
PCT/US2001/018798 WO2001097251A1 (en) | 2000-06-12 | 2001-06-12 | Method and system for mining mass spectral data |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004503792A true JP2004503792A (ja) | 2004-02-05 |
Family
ID=22785133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002511360A Pending JP2004503792A (ja) | 2000-06-12 | 2001-06-12 | マススペクトルデータをマイニングする方法とシステム |
Country Status (6)
Country | Link |
---|---|
US (1) | US7158862B2 (ja) |
EP (1) | EP1297552A4 (ja) |
JP (1) | JP2004503792A (ja) |
AU (2) | AU2001266842B2 (ja) |
CA (1) | CA2411658A1 (ja) |
WO (1) | WO2001097251A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006317457A (ja) * | 2005-05-05 | 2006-11-24 | Palo Alto Research Center Inc | 品質スペクトルの自動検出 |
JP2007538260A (ja) * | 2004-05-20 | 2007-12-27 | ウオーターズ・インベストメンツ・リミテツド | 混合物中のタンパク質を同定する方法および装置 |
JP2013519099A (ja) * | 2010-02-18 | 2013-05-23 | エフ.ホフマン−ラ ロシュ アーゲー | ポリペプチドの配列バリアントの決定方法 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003031031A1 (en) * | 2000-11-16 | 2003-04-17 | Ciphergen Biosystems, Inc. | Method for analyzing mass spectra |
ATE343221T1 (de) * | 2003-04-09 | 2006-11-15 | Mds Inc Dbt Mds Sciex Division | Dynamische signalauswahl in einem chromatographie-/massenspektometrie-/massenspek rometriesystem |
US20050033723A1 (en) * | 2003-08-08 | 2005-02-10 | Selby David A. | Method, system, and computer program product for sorting data |
WO2005079261A2 (en) * | 2004-02-13 | 2005-09-01 | Waters Investments Limited | System and method for tracking and quatitating chemical entites |
US20050283316A1 (en) * | 2004-06-22 | 2005-12-22 | Hands Isaac J | Silico iterations correlating mass spectrometer outputs with peptides in databases and success of same |
US7417223B2 (en) * | 2005-10-28 | 2008-08-26 | Mds Inc. | Method, system and computer software product for specific identification of reaction pairs associated by specific neutral differences |
WO2007079589A1 (en) * | 2006-01-11 | 2007-07-19 | Mds Inc., Doing Business Through Its Mds Sciex Division | Fragmenting ions in mass spectrometry |
US8271203B2 (en) | 2006-07-12 | 2012-09-18 | Dh Technologies Development Pte. Ltd. | Methods and systems for sequence-based design of multiple reaction monitoring transitions and experiments |
US7501621B2 (en) * | 2006-07-12 | 2009-03-10 | Leco Corporation | Data acquisition system for a spectrometer using an adaptive threshold |
US7555393B2 (en) * | 2007-06-01 | 2009-06-30 | Thermo Finnigan Llc | Evaluating the probability that MS/MS spectral data matches candidate sequence data |
US9530633B2 (en) | 2010-05-25 | 2016-12-27 | Agilent Technologies, Inc. | Method for isomer discrimination by tandem mass spectrometry |
US20120108448A1 (en) * | 2010-11-03 | 2012-05-03 | Agilent Technologies, Inc. | System and method for curating mass spectral libraries |
US8935101B2 (en) | 2010-12-16 | 2015-01-13 | Thermo Finnigan Llc | Method and apparatus for correlating precursor and product ions in all-ions fragmentation experiments |
US8977589B2 (en) | 2012-12-19 | 2015-03-10 | International Business Machines Corporation | On the fly data binning |
US10325766B2 (en) * | 2014-04-01 | 2019-06-18 | Micromass Uk Limited | Method of optimising spectral data |
GB201405828D0 (en) * | 2014-04-01 | 2014-05-14 | Micromass Ltd | Method of optimising spectral data |
US10217619B2 (en) * | 2015-03-12 | 2019-02-26 | Thermo Finnigan Llc | Methods for data-dependent mass spectrometry of mixed intact protein analytes |
GB2561378B (en) * | 2017-04-12 | 2022-10-12 | Micromass Ltd | Optimised targeted analysis |
CN112185460B (zh) * | 2020-09-23 | 2022-07-08 | 谱度众合(武汉)生命科技有限公司 | 一种异构数据不依赖型蛋白质组学质谱分析系统及方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5538897A (en) | 1994-03-14 | 1996-07-23 | University Of Washington | Use of mass spectrometry fragmentation patterns of peptides to identify amino acid sequences in databases |
US5453613A (en) * | 1994-10-21 | 1995-09-26 | Hewlett Packard Company | Mass spectra interpretation system including spectra extraction |
US5900634A (en) * | 1994-11-14 | 1999-05-04 | Soloman; Sabrie | Real-time on-line analysis of organic and non-organic compounds for food, fertilizers, and pharmaceutical products |
US5701400A (en) * | 1995-03-08 | 1997-12-23 | Amado; Carlos Armando | Method and apparatus for applying if-then-else rules to data sets in a relational data base and generating from the results of application of said rules a database of diagnostics linked to said data sets to aid executive analysis of financial data |
US5545895A (en) | 1995-03-20 | 1996-08-13 | The Dow Chemical Company | Method of standardizing data obtained through mass spectrometry |
WO1999062930A2 (en) * | 1998-06-03 | 1999-12-09 | Millennium Pharmaceuticals, Inc. | Protein sequencing using tandem mass spectroscopy |
US6624408B1 (en) * | 1998-10-05 | 2003-09-23 | Bruker Daltonik Gmbh | Method for library searches and extraction of structural information from daughter ion spectra in ion trap mass spectrometry |
US6453242B1 (en) * | 1999-01-12 | 2002-09-17 | Sangamo Biosciences, Inc. | Selection of sites for targeting by zinc finger proteins and methods of designing zinc finger proteins to bind to preselected sites |
-
2001
- 2001-06-11 US US09/877,182 patent/US7158862B2/en not_active Expired - Fee Related
- 2001-06-12 CA CA002411658A patent/CA2411658A1/en not_active Abandoned
- 2001-06-12 JP JP2002511360A patent/JP2004503792A/ja active Pending
- 2001-06-12 AU AU2001266842A patent/AU2001266842B2/en not_active Ceased
- 2001-06-12 WO PCT/US2001/018798 patent/WO2001097251A1/en active IP Right Grant
- 2001-06-12 EP EP01944430A patent/EP1297552A4/en not_active Withdrawn
- 2001-06-12 AU AU6684201A patent/AU6684201A/xx active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007538260A (ja) * | 2004-05-20 | 2007-12-27 | ウオーターズ・インベストメンツ・リミテツド | 混合物中のタンパク質を同定する方法および装置 |
US8193485B2 (en) | 2004-05-20 | 2012-06-05 | Waters Technologies Corporation | Method and apparatus for identifying proteins in mixtures |
JP2006317457A (ja) * | 2005-05-05 | 2006-11-24 | Palo Alto Research Center Inc | 品質スペクトルの自動検出 |
JP4679438B2 (ja) * | 2005-05-05 | 2011-04-27 | パロ アルト リサーチ センター インコーポレイテッド | 品質スペクトルの自動検出 |
JP2013519099A (ja) * | 2010-02-18 | 2013-05-23 | エフ.ホフマン−ラ ロシュ アーゲー | ポリペプチドの配列バリアントの決定方法 |
Also Published As
Publication number | Publication date |
---|---|
EP1297552A4 (en) | 2007-10-10 |
WO2001097251A1 (en) | 2001-12-20 |
US7158862B2 (en) | 2007-01-02 |
US20020023078A1 (en) | 2002-02-21 |
EP1297552A1 (en) | 2003-04-02 |
CA2411658A1 (en) | 2001-12-20 |
AU6684201A (en) | 2001-12-24 |
AU2001266842B2 (en) | 2005-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004503792A (ja) | マススペクトルデータをマイニングする方法とシステム | |
AU2001266842A1 (en) | Method and system for mining mass spectral data | |
US7851742B2 (en) | Method and apparatus for identifying proteins in mixtures | |
EP1766394B1 (en) | System and method for grouping precursor and fragment ions using selected ion chromatograms | |
KR100969938B1 (ko) | 질량분석장치 | |
US20060255263A1 (en) | Method of identifying substances using mass spectrometry | |
US8108153B2 (en) | Method, apparatus, and program product for creating an index into a database of complex molecules | |
CN104718449B (zh) | 用于在不使用前体离子信息的情况下从ms/ms数据识别化合物的系统及方法 | |
JP2008545973A (ja) | 化学分析のためのポリペプチド関連情報のカタログの発生および使用 | |
EP3544016A2 (en) | Methods for combining predicted and observed mass spectral fragmentation data | |
CN112824894B (zh) | 糖肽解析装置 | |
US20080300795A1 (en) | Evaluating the probability that MS/MS spectral data matches candidate sequence data | |
US7691643B2 (en) | Mass analysis method and mass analysis apparatus | |
Manthey et al. | POKY software tools encapsulating assignment strategies for solution and solid-state protein NMR data | |
US9702882B2 (en) | Method and system for analyzing mass spectrometry data | |
JP2005083952A (ja) | 液体クロマトグラフ質量分析装置 | |
EP1419383A2 (en) | System and method for storing mass spectrometry data | |
CN112014514A (zh) | 利用提升列表操作质谱仪 | |
CN112534267A (zh) | 复杂样本中相关化合物的识别和评分 | |
CN115516301A (zh) | 色谱质量分析数据处理方法、色谱质量分析装置以及色谱质量分析数据处理用程序 | |
Wang et al. | GPA: An algorithm for LC/MS based glycan profile annotation | |
WO2024022939A1 (en) | System and method for optimizing analysis of dia data by combining spectrum-centric with peptide-centric analysis | |
Lynn et al. | An Automated Identification Tool for LC-MS Based Metabolomics Studies | |
WO2023037306A2 (en) | Three-dimensional chemical peak finder for qualitative and quantitative analytical workflows | |
WO2023037295A2 (en) | Chemical peak finder model for unknown compound detection and identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20040614 |