JP2015513200A - 質量分析計 - Google Patents

質量分析計 Download PDF

Info

Publication number
JP2015513200A
JP2015513200A JP2015502454A JP2015502454A JP2015513200A JP 2015513200 A JP2015513200 A JP 2015513200A JP 2015502454 A JP2015502454 A JP 2015502454A JP 2015502454 A JP2015502454 A JP 2015502454A JP 2015513200 A JP2015513200 A JP 2015513200A
Authority
JP
Japan
Prior art keywords
data
intensity
mass
signal
data frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015502454A
Other languages
English (en)
Inventor
スティーブン ジョン プラット,
スティーブン ジョン プラット,
キース ジョージ リチャードソン,
キース ジョージ リチャードソン,
デイビッド ダレル ウィリアムズ,
デイビッド ダレル ウィリアムズ,
リチャード デニー,
リチャード デニー,
Original Assignee
マイクロマス ユーケー リミテッド
マイクロマス ユーケー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マイクロマス ユーケー リミテッド, マイクロマス ユーケー リミテッド filed Critical マイクロマス ユーケー リミテッド
Publication of JP2015513200A publication Critical patent/JP2015513200A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/62Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
    • G01N27/622Ion mobility spectrometry
    • G01N27/623Ion mobility spectrometry combined with mass spectrometry
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/02Details
    • H01J49/022Circuit arrangements, e.g. for generating deviation currents or voltages ; Components associated with high voltage supply
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/26Mass spectrometers or separator tubes
    • H01J49/34Dynamic spectrometers
    • H01J49/40Time-of-flight spectrometers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M1/00Analogue/digital conversion; Digital/analogue conversion
    • H03M1/12Analogue/digital converters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code

Landscapes

  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Electrochemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Electron Tubes For Measurement (AREA)

Abstract

操作可能なように質量スペクトルデータの圧縮方法を実行するハードウェアモジュールであって、この方法が、質量分析計のイオン検出器から出力された第1の信号を受信すること、出力端子において、第1の信号をデジタル信号端子に変換処理して、出力された代表的な第1の信号のデータフレーム型とすること、このデータフレーム型をメモリブロックに一時的に保存し、メモリブロックからデータフレームを読み出し、そのデータフレーム型を判定すること、および、そのデータフレーム型に基づいて1種または複数種の圧縮アルゴリズムを使ってデータフレームを圧縮して圧縮データ出力ストリームを生成すること、を含むハードウェアモジュール。【選択図】図7

Description

本発明は、質量分析計および質量分析方法に関する。一部の実施形態では、本発明は、例えば、前方解析のために、質量スペクトルデータを取得および圧縮するハードウェアモジュールおよび方法に関する。
質量スペクトルデータは、通常、1台または複数台のイオン検出器へのイオンの衝突により生成され、これが質量電荷比(m/z)および特定のm/zでのイオンの数(例えば、イオンカウントの強度による)に関する情報を得るように処理できる信号を与え、この情報は、通常、質量スペクトルの形で提供される。質量スペクトルは、分析された化合物の構造情報を明らかにするためにさらに解析できる。
最近の質量分析計は、その感度および単一の試料に対し多くの異なる形態の分析を実行できることの両方の結果として、非常に大きな量のデータを取得できる。例えば、四重極飛行時間型質量分析計などのタンデム型質量分析計を液体クロマトグラフィー装置と連結する場合、この機器を使って単一の試料に対して数千の個別の質量スペクトルを取得することも可能である。これらのスペクトルは、液体クロマトグラフィー装置のカラム中の一連の滞留時間から順次生ずる、四重極質量分析器の多くのm/z設定に対応可能な数千スペクトル/秒まで取得できる飛行時間型質量分析器から得られる。また、イオン移動度分光計が、例えば、液体クロマトグラフィー装置と、例えば、飛行時間型質量分析器との間でシステムに連結される場合、取得されるスペクトルの数は、質量分析器で解析できる一連のイオンドリフト時間によってさらに増加する。
さらに、質量分析器の分解能が極めて高い場合、それに対応して多数のm/zおよび強度データの処理と保存が必要となる。
典型的な質量分析計では、このようなデータは、処理するためにコンピュータに送られる。実際、データは、通常、一連のコンピュータに送信されるおよびそれを経由するが、少なくともこれらコンピュータの内の1台は、機器自体内に存在してもよく、英国特許第2409568号に記載のようにそこでデータは任意選択によりノイズ低減アルゴリズムで処理されて質量スペクトルデータから周期的バックグラウンドノイズが効率的に除去されてもよい。通常、後日、ユーザーが検索および読み出しを行うことができるように、1台または複数台のコンピュータ中の1つたは複数のデータベースにデータを保存する。
図1aは、例えば、国際公開第2010136775号(この特許も参照により本明細書に組み込まれる)に開示のような先行技術の分光計システムを示し、システムは、イオン源1、加速領域2、フィールドフリー領域3、リフレクトロン(イオンミラー)4、検出器5、取得システム6、内蔵コンピュータシステム7およびホストコンピュータシステム8、を有する。
イオン源で試料化合物から形成されたイオンは、加速領域に入り、加速電圧パルスにより駆動されてフィールドフリー領域中に送り込まれる。イオンは、加速パルスおよびその質量により付与されるエネルギーにより定まる速度に加速され、より軽いイオンがより高速となる。
リフレクトロンは、加速領域から検出器までの分析器のハウジングの一定の長さに対し、イオンが通る経路の長さを増やすために使われる。これにより、異なる速度のイオン間における適切な時間でのより多くの分離が可能となる。
速度および移動距離により定まる任意の時間の後にイオンは検出器に到着し、その結果、そのイオンの質量の測定が可能となる。
検出器からの出力は、取得システムにより採取されて質量スペクトルが生成され、内蔵コンピュータシステムに送られる。取得システムの操作は、以降でさらに詳細に説明される。
内蔵コンピュータシステムは、さらなる分析および保存のために、質量スペクトルデータをホストコンピュータシステムに送る。また、内蔵コンピュータシステムは、データ依存取得(data dependent acquisition)のためのデータ解析も行うことができる。これにより、質量スペクトルデータの内容を使って、質量分析計の構成を走査毎(scan−by−scan)方式に変更することが可能となる。
図1bは、取得エンジン9、データスループット最適化モジュール19および内蔵コンピュータシステム7へのデータ出力用のイーサーネットインターフェイス11を含む先行技術の取得システムのブロック図を示す。データスループット最適化ブロック自体は、データ圧縮エンジン21、リング緩衝装置13およびハードウェアプロトコルスタック15を含む。
取得システムへの入力となる質量分析計からの検出器信号は、最初に取得エンジン内の高速アナログ・デジタル変換器(ADC)により採取される。その後、取得エンジンは、信号内に存在する全てのピークを検出し、使用可能な、例えば、時間および強度を含む情報に変換する。
最適化ブロックの次の段階は、データ取得エンジンからのデータをデータ圧縮するためのLZRW3(Lempel−ZivRoss Williams)圧縮アルゴリズムを使用するデータ圧縮エンジン21である。
データ圧縮エンジンの結果がリング緩衝装置13に入力され、それによってリング緩衝装置13はデータをフォーマットして、そのデータがハードウェアプロトコルスタックに送られ、さらにそのデータを順に処理用コンピュータシステムに送る。
収集されるデータ量の増加に伴い、デバイス間でのデータの移送速度および使用可能な形式へのデータの処理速度が低下する。これが、質量分析計がデータを取得できるのと同じ速度でコンピュータ保存媒体へのデータの移送および記録を行うことができないという特有の問題を生ずる。このような場合には、データが無秩序に失われる可能性がある。また、十分なデータ保存スペースの確保、および使用可能で解釈可能な形式のデータを提供するために1台または複数台のコンピュータが必要とする処理能力に関し、さらなる問題が生じる。
本発明は、質量スペクトルデータを圧縮して、このようなデータを処理および移送できる速度を高めるためのハードウェアモジュールおよび方法を提供することによりこれらの問題に対処しようとするものである。
第1の態様では、本発明は、質量スペクトルデータを圧縮する方法を提供し、この方法は、出力された第1の信号をイオン検出器から受信すること、出力端子において、第1の信号をデジタル信号端子に変換処理して、出力された代表的な第1の信号のデータフレーム型とすること、そのデータフレーム型をメモリブロックに一時的に保存し、メモリブロックからデータフレームを読み込み、そのデータフレーム型を判定し、そのデータフレーム型に基づいて、1種または複数種の圧縮アルゴリズムに従ってデータフレームを圧縮して圧縮出力ストリームを生成すること、を含む。
好ましくは、第1の信号をデジタル信号に処理するステップは、アナログ・デジタル変換器を使用して第1の信号をデジタル化することを含む。
好ましくは、出力された第1の信号は、電圧、および/または1種もしくは複数種のイオン到着時間および/または1種もしくは複数種のイオン強度を表す。好ましくは、この方法は、複数の異なる質量スペクトルデータの領域または集団からの強度分布を決定すること、強度分布から質量スペクトルデータまたは前記質量スペクトルの1つまたは複数の領域もしくは部分に対するバックグラウンド強度を推定すること、および推定されたバックグラウンド強度の影響を除去または減らすために、質量スペクトルデータまたは質量スペクトルの1つまたは複数の領域または部分の強度を調節すること、を含む。好ましくは、1種または複数種の圧縮アルゴリズムは、
(a)第1のデータポイントが一部を形成する実際の質量スペクトルピークの幅を計算することにより第1のデータポイントでの仮定の質量スペクトルのピークの最大強度を推定すること(幅はn個のデータポイントで測定される);前記第1のデータポイントに隣接するn個の第2のデータポイントの強度を合計すること;および仮定の質量スペクトルピークが所定の強度閾値より低い場合、第1のデータポイントを廃棄すること;
(b)第1のデータポイントの強度と第1のデータポイントに隣接する第2のデータポイントの強度との間の差を計算することにより第1のデータポイントに関する強度情報を得ること、
(c)第1のデータポイントの質量指数またはm/zと、第1のデータポイントに隣接する第2のデータポイントの質量指数またはm/zとの間の差を計算することにより第1のデータポイントに関するm/z情報を得ること、
(d)(b)により得た強度情報、および/または(c)により得たm/z情報の保存に固定数pビットを割り付け、その情報がpビットでは部分的にしか保存できない完全なまたはより高レベルの強度および/またはm/z情報を保存するためにオーバーフロー保存領域を割り付けること、
(e)第1のデータポイントに関する強度値を受信強度値の平方根に変換すること、
(f)そのデータポイントの強度、および/または前記データポイントが一部を形成する質量スペクトルピークの幅、および/またはデータポイントおよびその周辺のノイズ特性に応じて、データポイントのm/zを記録するためのデータファイルフォーマットを選択すること(ファイルフォーマットは種々のファイルサイズを持つ複数のファイルフォーマットから選択される)、
(g)第1のデータポイントの質量指数またはm/zと、仮定の質量スペクトルピークの質量指数またはm/zとの間の差を計算することにより第1のデータポイントに関するm/z情報、例えば、アンカーポイント、を得ること、および
(h)例えば、Lempel−Zivおよび/またはハフマンコーディングなど、追加の損失のない圧縮を実行すること、
の内のいずれか1つまたは複数を含む。
それぞれのデータポイントに対し、この方法を実行するのに使用される機器の予測特性から決定される質量スペクトルピークの理論予測プロファイル(theoretical expected profile)、および/またはフットプリントを使用して、データポイントの位置での仮定の質量スペクトルピークの最大強度を推定すること、最大強度が所定の強度閾値を超える場合は、そのフットプリントを持つ全データポイントにフラグを立てること、および全該当データポイントの処理が完了したとき、フラグのない全てのデータポイントを消去すること、が好ましい。
好ましくは、この方法は、手順(b)、(c)、(d)および(h)を実行することを含む。
この方法は、好ましくは、質量スペクトルデータの複数の異なる領域または部分からの強度分布を決定することと組み合わせて、手順(a)および(h)を実行すること、強度分布から質量スペクトルデータまたは質量スペクトルの1つまたは複数の領域または部分に対するバックグラウンド強度を推定すること、および推測バックグラウンド強度の影響を除くか、または減らすために、質量スペクトルデータまたは質量スペクトルの1つまたは複数の領域もしくは部分の強度を調節すること、を含むのが好ましい。
好ましくは、この方法は、例えば、いずれかのデータが記録される前に、リアルタイムで実行される。
さらなる態様では、本発明は、上述のようなデータを圧縮する方法を含む質量分析方法を提供する。
さらなる態様では、本発明は、上述の方法を実行するためのコンピュータソフトウエアプログラムを提供する。
別の態様では、本発明は、上述の方法を実装するハードウェアを構成するためにプロセッサ制御コードを保持するキャリアを提供する。
別の態様では、本発明は、圧縮方法を実行するように構成されたハードウェアモジュールを提供する。
さらなる態様では、本発明は、質量スペクトルデータを圧縮する方法を提供し、この方法は、第1のデータポイントが一部を形成する実際の質量スペクトルピークの幅を計算することにより第1のデータポイントの仮定の質量スペクトルピークの最大強度を推定すること(幅はn個の数のデータポイントで測定される)、第1のデータポイントに隣接するn個の第2のデータポイントの強度を合計すること、および仮定の質量スペクトルピークが所定の強度閾値より低い場合に、第1のデータポイントを廃棄すること、を含む。
さらなる態様では、本発明は、質量スペクトルデータを圧縮する方法を提供し、この方法は、
(a)第1のデータポイントの強度と、第1のデータポイントに隣接する第2のデータポイントの強度との間の差を計算することにより第1のデータポイントに関する強度情報を得ること、および/または
(b)第1のデータポイントの飛行時間またはm/zと、第1のデータポイントに隣接する第2のデータポイントの飛行時間またはm/zとの間の差を計算することにより第1のデータポイントに関するm/z情報を得ること、
を含む。
好ましくは、この方法は、(a)により得た強度情報、および/または(b)により得たm/z情報の保存に対し固定数pビットを割り付けること、前記情報がpビットでは部分的にしか保存できない完全なまたはより高レベルの強度、および/またはm/z情報に対しオーバーフロー保存領域を割り付けること、をさらに含む。
さらなる態様では、本発明は、質量スペクトルデータを圧縮する方法を提供し、この方法は、第1のデータポイントに関する受信強度値を受信強度値の平方根に変換することを含む。
さらなる態様では、本発明は、質量スペクトルデータを圧縮するハードウェアモジュールを提供し、ハードウェアモジュールは、イオン検出器から出力された第1の信号である入力データを受信するための入力端子(データはイオン到着時間および/またはイオン強度の特徴を示す);入力端子において第1の信号を受信し、第1の信号をデジタル信号に変換するためのアナログ・デジタル変換器;第1のプロセッサブロックであって、デジタル化された第1の信号を受信し、第1の信号を1種もしくは複数種のイオン到着時間および/または1種もしくは複数種のイオン強度特有のデータフレーム型に変換処理するための論理ゲートを有する第1のプロセッサブロック;データフレーム型を受信する入力端子およびそのデータフレーム型を一時的に保存するメモリブロックを有する緩衝装置、ならびにメモリブロックからデータフレームを読み込み、そのデータフレーム型を判定し、そのデータフレーム型に基づいて、1種または複数種の圧縮アルゴリズムに従ってデータフレームを圧縮して圧縮データ出力ストリームを生成するための圧縮制御論理ブロックに接続された出力端子を含む第2のプロセッサブロックを含む。
好ましくは、第1のプロセッサブロックは、デジタル化された第1の信号の並列処理を可能とするための多重処理ブロックを含むことができる。好ましくは、第2のプロセッサブロックは、強度値の総和、および/またはグルーピングにより第1プロセッサブロックからの複数データストリームを単一データストリームに結合するためのスキャンコンバイン論理(scan combine logic)ブロックを含むことができる。圧縮制御論理ブロックは、例えば、フィールドプログラマブルゲートアレイ(「FPGA」)またはグラフィックプロセッサユニット(「GPU」)を使って、リアルタイムで圧縮を行うことができる。
以降で、付随する図に言及しながら、例示のみを目的として本発明の実施形態が説明される。
先行技術の分光計システムを示すブロック図である。 図1aに示す先行技術の分光計の取得システム中のデータ最適化モジュールを示すブロック図である。 圧縮されていない元の質量スペクトルを示す部分グラフである。 本発明の実施形態による極大ピーク強度および密度閾値を示すグラフである。 本発明の実施形態による圧縮された元の質量スペクトルを示す部分グラフである。 本発明の実施形態による質量スペクトルの単一ピーク全体の強度および強度差のグラフである。 本発明の実施形態による質量スペクトルデータを圧縮するためのハードウェアモジュールを含む質量スペクトルデータ解析ワークフローを示す機能ブロック図である。 本発明の実施形態によるハードウェアに実装されたデータ処理システムを示す機能ブロック図である。 図8a〜図8bは120分のLC−MSプロテオミクス実験で得られた質量指数および強度差ならびに補正値を保存するために必要なメモリに加えて、元の質量指数および強度値を保存するために必要な合計メモリを示す一組のグラフである。 同上 図9a〜図9cは動的バックグラウンド減算の前後の部分質量スペクトルを示すグラフである。 同上 同上 「データ掃引」データ削減法を示す2Dデータセットを示す部分模式図である。 図11a〜図11cは動的バックグラウンド減算およびデータ掃引の累積効果を示す質量スペクトルのグラフである。 同上 同上
機器感度の向上、検出器のダイナミックレンジおよびさらに高い次元の分離技術の採用により、全て、最近の質量分析計によって生成可能なデータ量が継続して増加する一因となっている。以降では、生成されたデータセットの大きさを縮減するために、ハードウェアまたはソフトウエアにおいて種々組み合わせて使用できる質量スペクトルデータに適合させた、損失のないおよび損失の大きい圧縮ステップ手順について記載する。より小さいデータセットは、長期保存、ネットワーク経由の送信、および取得後処理にとっても好都合である。
ソフトウエア実装形態の実行は、1種または複数種の質量スペクトルの同時圧縮と見なせる。質量スペクトル中のデータポイントまたはレコードは、通常、他の情報に加えて質量(または到達時間)および強度(信号)から構成される。ゼロ強度(s=0)のポイントは通常廃棄される。下記の記載は質量および強度に焦点を置いているが、他の量(限定されないが、飽和フラグを含む)も強度と同様の方式で処理できる。
大まかに言えば、下記の技術は連続体データまたは検出ピーク(スペクトル毎)データに適用できる:
1)バックグラウンド減算。質量スペクトルは、任意選択で、バックグラウンド減算アルゴリズムの適用により圧縮の準備ができる(例えば、英国特許第2409568号に記載のように)。
2)適応閾値化。局所ピーク幅の情報があれば、多次元データセット中の所与の位置での仮定のピーク強度(または可能な最大強度)が推定される。そのデータ内での十分に密集した位置の数でこの計算が行われる場合は、所定の局所強度閾値を若干超える仮定のピークに寄与できるはずのないデータポイントは廃棄できる。局所強度閾値は、データ中の位置と共に変化してよい。この方法は、どの次元のデータセットにも採用できる。
3)強度の差別化。質量スペクトルの隣接チャンネルの強度は、特に、ピーク間で相関関係がある場合が多い。さらに具体的には、s(n)−s(n−l)の絶対値は、s(n)よりはるかに小さい場合が多く、その結果、非ゼロビットがより少なくなる。s(0)は直接保存される。
4)質量の差別化。密に集合したスペクトルでは、隣接する質量指数間の差:m(n)−m(n−l)は、m(n)質量指数よりはるかに小さい場合が多い。全てのチャンネルが埋められる極限では、これらの差は全て1である。m(0)は直接保存される。同様に、これにより、より少ない非ゼロビットを生じる。
5)質量差、および/または強度差の圧縮。質量または強度差の保存のために割り付けられるビット数は、高い比率で存在するデータポイントがオーバーフローしないで保存できるように選択できる。オーバーフローが発生する場合は、追加のレコードを作成し、完全で正確なデータまたは短縮された上位ビットを保存することができる。索引付け方式を使って補正結果をそのデータにリンクする。
6)既知のノイズ分布を仮定して強度を変換。強度がポアソン統計に従う場合(強度がイオンカウントの場合、質量分析では一般的である)、それぞれの強度は、その平方根に等しい標準偏差を有するノイズにさらされる。しかし、強度の平方根の標準偏差は、単純に1/2であり、そのため、約1/2の固定精度の平方根強度を保存することで充分である。データがポアソン統計を使ってより正確に記述されるようにデータを予め調整できる。同様に、当該ノイズ分布に応じて他の強度変換を使うことができる。
7)限界質量精度。ピーク検出データに対し、検出質量の精度は、局所ピーク幅、強度およびノイズ特性に関連する。これらが既知の場合、質量値の保存に使われるビット数はそれに応じて制限できる。異なる精度を有するいくつかのピークレコードフォーマットを定義することが有用な場合がある。高精度質量アンカーレコードは、その後に低精度ピークレコードが続いてもよい。ピークレコードは、機器分解能に加えて、質量が保存される精度を規定する一定の上限強度を有する。従って、質量保存に利用できるビット数は、その値の何らかの因子に関してアンカー質量を使用できる範囲を制限し、それにより、より大きい質量ビット数は、一定の精度に対しより小さい数のアンカーしか使用できないことを意味する。アンカーレコードは、ピークレコード数の間で分かち合える質量値の浮動小数点式表現の指数部の抽出と見なすことができる。
8)圧縮されたまたは差別化されたデータの損失のないさらなる圧縮。多くの既知の圧縮技術をレコードのブロックまたは全体スペクトルに適用して、さらにデータサイズを縮減できる。例には、Lempel−Ziv、および/またはハフマンコーディングをベースにした多くのアルゴリズムが含まれる。上記の方法の1、2および3は、多くの繰り返しパターンを含むデータストリームを生成することにより、これらのアルゴリズムの性能を改善する場合が多い。特にデータがまばらである場合、入力データを整理し、同じタイプのフィールド(例えば、質量指数または強度差)を一緒に置くことが有益である場合がある。また、バイナリーデータの「エンディアン」を互い違いにしてゼロの長列の頻度を増やすことが有用である場合もある。単純な索引付け方式を使って、解凍後に元のスペクトルを回復することができる。
以下に記載の圧縮法のライブラリを使って、多くの好ましい圧縮ワークフローを設計して異なるニーズと用途に合わせることができる。例えば、
A)方法3、4、5および8を使った連続体データの損失のない圧縮
B)1〜5および8を使った連続体データの圧縮
C)1、2、6および7を使ったピーク検出データの圧縮。ピーク検出は、ステップ2の後で行われるであろう。
図2〜5に戻ると、ハードウェアまたはソフトウエアの多くの組み合わせで使用して、質量スペクトルデータに適合させて、生成データセットのサイズを縮減できる損失のない、および損失の大きい圧縮ステップの手順が特に詳細に記載されている。
2)適応閾値化
閾値化は、既知の直接的なデータセットサイズ縮減法で、この方法では、所定の閾値を超える強度のポイントのみが保持される。この手法の問題点は、ピークが多くのデータポイントにわたり散在する場合、分子種が連続質量スペクトルで表されるということにある。単純な一律の閾値をデータに適用することにより、その先端が閾値を超える位置にあるピークの端に存在するポイントが廃棄される場合が多くなる。この問題は、多次元データで(この場合、ピークが各次元で幅を持つ)、かつ、良好に採取されている(ピーク幅全体にわたる多くのポイントが採取されている)データの場合にさらに重大になる。
本発明の実施形態に従い記載される方法では、ピーク幅の情報を使ってこの問題が克服される。多次元データセット中の所与の位置での仮定のピークの強度(または可能な最大強度)を推定するために使用できる多くの可能な方法がある。これらの方法には、単純総和、既知のピーク形状を使った相関関係およびさらに洗練された確率的手法が含まれる。
十分に密集したデータ位置でこのような計算のいずれかが行われる場合、ある所定の局所強度閾値を超える仮定のピークに寄与しそうもないデータポイントは廃棄できる。局所強度閾値は、データ中の位置で変わってもよい。強度閾値は、多くの可能な基準を使って選択できる。例えば、特定の適用に対する所定の最小質量精度を達成するために最小ピーク強度が必要になる場合がある。
単純な1次元の例を考察してみよう。実際の質量スペクトル部分図を図2に示す。x軸は、Da/eの単位の質量電荷比「m/z」であり、y軸は、任意の検出器応答単位で示されている。基準ピーク幅は約5データポイントである。この例では、当該ポイントを中心とした5データポイントの強度の合計としての各ポイントの位置で取り得る最大ピーク強度が推定される。この密度は図3にプロットしている。77応答単位の密度閾値が選択されている。図4は、閾値を超える密度に寄与するデータが保持されている圧縮スペクトルを示す。閾値を超える隣接する密度に寄与しているという理由から、局所密度が閾値を超えない一部のポイントが保持されていることに注意されたい。
この方法は必ずしも特定のピーク検出法に依存しないで、単純にいずれか特定のポイントの位置の生じ得る仮定のピークの最大強度を推定する方法であることに注意されたい。この方法は、どの次元のデータセットにも採用可能である。簡単な1次元の例の生成は、各データポイントを中心とするボックス内にあるポイントの強度を加算することを含むであろう。各次元のボックスの幅は、その次元の局所ピーク幅により設定されるであろう。
この方法は、複合ペプチド混合物の3次元LC−IMS−TOFMS(液体クロマトグラフィー、イオン移動度、飛行時間質量分析)分離に適用され、成功を収めた。上述の単純な移動ボックス法(moving box method)を使い、密度閾値を約10イオン到着に対応するレベルに設定して、データセットのサイズを約1/2に縮減した。ボックスの幅をLC寸法内で一定にしたが、IMSおよびMS寸法内での機器応答の幅は適宜変えた。
3、4)強度の差別化および質量の差別化
飛行時間型質量スペクトルは、複数組の数値をリスト化して表すことができる。第1の数は、較正中m/z値にマップできる整数ビン指数である。ゼロ強度に対応する質量指数は保存されないと仮定される。第2の数は強度または「応答」である。適正に採取される(すなわち、過剰にも過小にもデジタイズされていない)ピークに対しては、隣接ビンの強度は相互に関連がある。特に、ピーク全体の連続したビン中の強度の差は、通常、絶対強度よりも小さい。これを図5のプロットに示すが、図では、単一ピーク全体の元のデータおよび差別化データを示す。一般的に、直接強度よりも差分を保存する方が少ないビットでよいことは明らかである。同様に、かなり集密したスペクトルでは、連続したビン指数間の差は一般的に元のビン指数より小さい。また、かなり集密したスペクトルは、明らかに、圧縮が最も重要な対象である。完全に詰まったスペクトルという限られた例では、全ビン指数差が1である。再度、一般的に、指数差を保存するのに必要なビットは直接指数の保存の場合より少なくてよいことは明らかである。
5)強度および質量差の圧縮方式
質量および強度差別化により生成されたより小さい数は、保存容量を減らすためにデータサイズを縮減する多くの異なる方法で活用できる。1つの方法は、固定数のビットを各型の差を保存するために割り付けることである。質量指数または強度差を保存するために割り付けられたビット数は、高い割合のデータポイントをオーバーフローなしに保存できるように選択できる。オーバーフローが発生する場合は、追加の高精度レコードを形成して完全精度データ(補正されるポイントの指数に加えて)または短縮上位ビットを保存できる。
強度に関するこのデータは、図5と同じデータを使って表1に示す。最後の列の強度差は、2バイトに短縮されており、その結果として5〜9の値は正しくない。
Figure 2015513200
表2はこのデータに必要な強度差の修正を示す。この場合、元の(正しい)強度は、直接保存されるが、短縮上位ビットを代わりに保存してもよい。
データが読み取られると、不正な値は、データが解凍された後で、かつ差の計算が逆転される前に、修正補正表を使って単純にパッチが当てられる
Figure 2015513200
ステップ3)4)5)および8)を200TOF−IMSスペクトルの1507ブロックに適用した。元のデータの非圧縮サイズは1.4Gbであったが、これが、圧縮およびコード化後、0.38Gbに縮減された。
6および7)MSピーク特性の効率的圧縮
バイナリー表現に圧縮できるピーク特性は、
位置(m/zに対応する)、
面積(強度に対応する)、
位置のエラーバー、
面積エラーバー、
飽和および起こりうる干渉を示すフラグ、
である。
質量スペクトルピークの面積は、ある検出器利得値を乗じたその領域中の到着イオン数を示す。到着イオン数、Nは、計数(例えば、ポアソン)統計に従い、従って、利得が既知の場合、イオンカウントを基本となる発生源強度の推定値として使った場合の誤差は、大略カウント数の平方根、√Nである。このことは、この変換により効率的に保存量の精度が平準化されるために、ピーク面積が過度の精度の損失なく平方根値として保存できることを示唆する。いくつかの√Nの低倍数(INT_SCALE)を保存でき、従って、下位ビットは、√Nの高い精度に対応する。
INT_BITSを、INT_SCALEx√Nの保存に利用できる可能性がある。
飛行時間型(ToF)機器では、ピーク位置の精度は、(m/z)/√N、および分解能:
R=(m/z)/(δ(m/z))、
に関連する。式中、δ(m/z)は、ピーク半価幅である。分解能が与えられると、位置が保存されるべき精度は、√Nに依存する。位置は、アンカー位置の一定の相対的制限値:REL_LIMIT内の高精度アンカー値に対して保存できる。位置を保存に利用できるビット数がPOS_BITSである場合、Rの最大位置分解能を仮定して、
√Nの最大値は、2^INT_BITS/INT_SCALEであり、従って、最小相対位置の誤差標準偏差は、全半価幅およびガウス分布標準偏差の間の関係から、
RES_FACTOR/(R*2INT_BITS/INT_SCALE)である。式中、RES_FACTOR=(2√2ln2)^(−l)である。
従って、我々は、アンカー位置に対して、log2((R*2^INT_BITS/INT_SCALE)/RES_FACTOR)+1ビットが必要であり、そのため、
POS_BITS=INT_BITS−log2(INT_SCALE)+log2(REL_LIMIT*R/RES_FACTOR)+1、
または、
REL_LIMIT=2^(POS_BITS−INT_BITS+log2(INT_SCALE)−1)*RES_FACTOR/R、
である。
圧縮方法および本発明の方法を実行するように構成されたハードウェアモジュールを含む上記で記載の技術の実施形態を使って、いずれの質量分析計から取得されたデータでも圧縮できる。好ましい実施形態では、ハードウェアモジュールおよび方法を使って、イオン移動度分光計(IMS)、および飛行時間型(TOF)質量分析器を含む質量分析計から取得されたデータが圧縮される。当技術分野で知られているように、このような質量分析計を使って液体クロマトグラフィー装置と直列に連結して使用できる。
図6を参照すると、質量スペクトルデータ解析用ワークフローの機能ブロック図には、本発明の実施形態による質量スペクトルデータを圧縮するためのハードウェアモジュールが含まれる。この機能ブロック図は、イオン検出器を備えた飛行時間質量分析器などの質量分析計10、アナログ・デジタル変換器(ADC)24、信号処理および選別論理回路14およびPowerPCサブシステム16を含むデータ処理フィールドプログラマブルゲートアレイ(FPGA)12を含む。PowerPCサブシステム16は、内蔵コンピュータシステム48とのギガビットイーサーネット通信を制御する。
さらに具体的には、質量分析計10は、アナログ信号経路26によりアナログ・デジタル変換器24の入力端子22に接続される出力端子20を備える。ハードウェアモジュール28は、質量分析計用の取得システムを形成し、アナログ・デジタル変換器24、信号処理および選別論理回路14ならびにデータ処理FPGA12から構成される。本発明の実施形態による圧縮質量スペクトルデータ用のデータ処理FPGA12は、図7を参照してさらに詳細に記載される。このような配置は、FPGA(フィールドプログラマブルゲートアレイ)などのハードウェアへの実装に好都合である。信号処理および選別論理回路14は、2つの選別アルゴリズム論理ブロックを含み、質量スペクトルデータの並列処理を可能とし、従って、それぞれの選別ブロックで1個ずつの出力端子30aおよび30bを備える。2つの出力端子30aおよび30bは、一対のシリアルデータ転送インターフェイス34aおよび34bによりデータ処理FPGA12の2つの入力端子32aおよび32bに接続される。データ処理FPGA12は、ギガビットイーサーネットインターフェイス50により内蔵コンピュータ48の入力端子46に接続された出力端子44を備える。内蔵コンピュータ48は、質量スペクトルデータのさらなる処理を行うことができ、また、質量分析計の制御機能を実行できる。また、内蔵コンピュータ48は、第2のギガビットイーサーネットインターフェイス59ホストコンピュータ18内のプロセッサコアの入力端子58に接続される出力端子57を備える。ホストコンピュータ18は、処理コア54、質量スペクトルデータの保存のためのデータベース52へのアクセス、およびデータ取り出しの制御のためにユーザーインターフェイス56を含む。
質量スペクトルデータ解析用のワークフローは、単一検出器からの複数信号ならびに複数検出器からの複数信号を制御するように構成できることは、当業者なら理解できよう。
図7を参照すると、本発明の実施形態によりハードウェア中に実装されたデータ処理システムの機能ブロック図は、通常、検出器からの質量スペクトルデータ(アナログ・デジタル変換器を経由)内のピークを検出し、選別するように構成されている信号処理および選別論理回路(図7には示さず)に接続された第1のシリアルデータ転送インターフェイス受信器60、およびこれと並列に配置された第2のシリアルデータ転送インターフェイス受信器62を備えたハードウェアモジュール12を含む。第1シリアルデータ転送インターフェイス受信器60および第2のシリアルデータ転送インターフェイス受信器62の両方は、本明細書でSDTI受信器と呼ばれる。
SDTI受信器60、62の両方は、スキャンコンバインモジュール(scan combine module)64に接続されるが、これの操作は、以下でさらに詳細に記載される。スキャンコンバインモジュール64に接続されているのは、ディファレンスパイプライン論理(difference pipeline logic)モジュール66で、これは質量スペクトルデータのステージ1圧縮に相当する。
ディファレンスパイプライン論理モジュール66の出力端子は、質量スペクトルデータのステージ2圧縮に相当する圧縮制御論理モジュール70に接続される出力端子を備えるリング緩衝装置68に接続される。
圧縮制御論理モジュール70は、出力緩衝装置72に接続される2つの出力端子を備える。一つの出力端子74は、質量スペクトルデータのステージ3圧縮(この場合は、LZRW3圧縮ステージ76)を経由して出力緩衝装置72に接続される。
操作中は、マルチプレクサーは、通常運転用のSDTI受信器60、62からの出力データを選択する。選択データは、次の型の内の1つを含む:
・データフレーム
・スキャン統計フレーム
・読み出しフレームの終端
その後、スキャンデータを結合し、強度および質量指数差のみを保存することによりデータを圧縮する。TOFおよびIMSモードでは、スキャンコンバインモジュール64は、強度値の総和(TOFノードの場合)またはグルーピング(IMSモードの場合)により、2つのSDTI受信器60、62からのデータストリームを単一ストリームに結合する。これは、ホストコンピュータシステムエンドでの再結合のタスクを簡略化するためである。
ディファレンスパイプライン論理モジュール66は、不使用ビットを除去し、IMSチャンネル数を8ビットから単一IMSチャンネル増加ビットに減らし、24ビット絶対強度値を18ビット強度差値に変換することによりデータフレームを圧縮する。本明細書で記載のビット値は、異なってもよく、また、質量分析計の設計に依存することを当業者ならわかるであろう。LZRW3圧縮アルゴリズム用の時間/強度対を最適化するために、モジュール66は、20ビット絶対時間値を20ビット時間差値に変換する。当業者ならさらによくわかるように、他の圧縮アルゴリズムは、別の最適化が必要になることもある。
ディファレンスパイプライン論理モジュール66からのデータは、LZRW3圧縮コアにとっても、またはPowerPCにとっても対処するには速すぎるデータ速度で急速に出力されるために、リング緩衝装置メモリ68が圧縮データを一時的に保存するために使われる。リング緩衝装置68は、最大性能を得るために、FPGA構造中で直接実行される。ディファレンスパイプライン論理モジュール66に対しては、リング緩衝装置68は、64ビットワードの32kディープのFIFOのように設計されている。これは16セグメントのリング緩衝装置となり、各セグメントはRAMの16kB(2kx64ビットワードとして配置される)ブロックである。
圧縮制御論理モジュール70に対しては、リング緩衝装置68は、リング緩衝装置のヘッド・ポインタとテール・ポインタを使うことにより近接256kBメモリブロックのように見え、それが利用できるようなると、次の利用可能なセグメントを読み出すことができる。
ディファレンスパイプライン論理モジュール66は、データフレームをリング緩衝装置68に流すに伴い、セグメントが満たされていき、セグメントが完全に満たされるか、または読み出しフレームの終端が検出されると、リング緩衝装置のヘッド・ポインタは、リング中の次のセグメントに進められる。圧縮制御論理モジュール70がリング緩衝装置68を空にすると同時に、テール・ポインタは、リングの周りを前進する。リング緩衝装置68がテール・ポインタに追いついたヘッド・ポインタで満たされると、それは、ディファレンスパイプライン論理モジュール66からのデータフローを減速させる。ディファレンスパイプライン論理モジュール66がストリーミングデータを停止する場合は常に、リング緩衝装置68は、テール・ポインタがヘッド・ポインタに追いつくまで、空にし続けることになる。
読み出される準備ができているリング緩衝装置68中にデータがあるかどうかを判断するために、圧縮制御論理モジュール70はヘッドとテール・ポインタ数の間の差を検出する。
圧縮制御論理モジュール70がセグメントの処理を終わるとすぐに、これをリング緩衝装置68に連絡し、リング緩衝装置68はテール・ポインタを1つだけヘッド・ポインタの方へ進める。ディファレンスパイプライン論理モジュール66によりリング緩衝装置68中にデータが書き込まれない場合は、リング緩衝装置68が空になるので、テール・ポインタは最終的にヘッド・ポインタに追いつくことになる。
ディファレンスパイプライン論理モジュール66が新しいデータをリング緩衝装置68に書き込むと、ヘッド・ポインタは、テール・ポインタに到達するまでリングの周りに前進を続ける。このポイントで、出力データは、セグメントがテールから解放されるまで休止される。リング緩衝装置68は、いつでも再開始できるが、偽のデータがリング緩衝装置68で受け入れられていないことを確実にするために、取得を始める前に開始するのがこのましい。
圧縮制御論理モジュール70がリング緩衝装置68からデータを読み出すと、フレームの型を検出する。スキャンコンバインモジュール64およびディファレンスパイプライン論理モジュール66で処理後、この型は以下のいずれかであってよい:
・データフレーム
・展開データフレーム
・スキャン統計フレーム
・読み出しフレームの終端
フレームの型が検出されるとすぐに、フレーム内のいずれかの該当フィールドが抽出され、適用メッセージ出力用のヘッダ情報を構築するために使用される。データフレームまたは展開データフレームが検出される場合は、データフィールドが抽出され、40ビットフォーマットデータフレームに圧縮される。
IMSモードに対しては、その後、40ビットデータフレームがLZRW3圧縮ステージ76を使用時に1バイト圧縮される。圧縮および非圧縮データの両方が生成され、データが圧縮できない場合(LZRW3圧縮アルゴリズム性能がデータ依存であるために起こる場合がある)、元の非圧縮データを使用できる。セグメントの終端または読み出しフレームの終端の検出により現在のセグメント中の全データの処理が終わったことがわかるとすぐに、ヘッダ情報が出力緩衝装置72のヘッダ領域に書き込まれる(最初の24バイト)。
出力緩衝装置72フォーマットの形式を下表に示す。
Figure 2015513200
出力緩衝装置72は、2台のセグメントリング緩衝装置として構成され、読み出し準備完了時の出力データ緩衝装置中にデータがあるかどうかを判断するために、PowerPCサブシステム16上で実行するアプリケーションプログラムにより、データ処理システム割り込みの存在を使用するか、またはデータ処理システム制御/状態レジスタにポーリングすることにより準備完了の出力緩衝装置セグメントを検出することができる。
圧縮制御論理モジュール70が新しいデータを出力データ緩衝装置72に書き込むとき、ヘッド・ポインタは、テール・ポインタに追いつくまでリングの周りを前進する。このポイントで、圧縮制御論理モジュール70からのデータストリームは、セグメントが出力緩衝装置72のテールから解放されるまで、中断される。
上記のハードウェアは、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはカスタムシリコン中のASIC(特定用途向け集積回路)中に実装できる。従って、一実施形態は、このようなハードウェアを記述するプロセッサ制御コードを保持するキャリア(例えば、CD−ROMまたは光学または電気信号キャリアなどのディスク)を提供する。典型的には、この性質のハードウェアは、RTL(レジスタ転送レベルコード)などのコード、または、より高位レベルの、例えば、SystemCなどの言語を使って記述される。
一部の実施形態では、ハードウェアアクセラレータは、単一の集積回路上に実装される。
C1820mmx180pmトラップカラムおよびC1815cmx75pm分析逆相カラムを備えたnanoACQUITYシステム(Waters Corporation)を使って100ngの細胞質ゾル大腸菌トリプシン消化物標準を注入した。合計傾斜長さは、120分であった。
Synapt G2−SHDMS質量分析計(Waters Corporation)を使って50〜2000Da/eのm/z範囲にわたり、2スペクトル/秒の速度、約20、000分解能(FWHM)で操作してデータを取得した。LC−MSおよびLC−IMS−MSの両方の実験で、機器をデータインディペンデント(MSE)モードで操作し、低および高衝突エネルギーデータを交互に集めた。
損失のない圧縮:差別化、圧縮およびジッピング
質量スペクトルは、数の組(質量と強度)のリストと見なすことができる。実際、大抵の取得システムのその生の形でのデジタル的性質のために、これらの数は、通常、整数であり、本明細書では、質量指数および強度と呼ぶことにする。ゼロ強度のデータポイントは、通常廃棄される。
良好な密集度の質量スペクトルでは、連続した質量指数が接近して存在する場合が多い。
完全に詰まった極限のスペクトルでは、連続した質量指数間の差はすべて1である。同様に、良好に採取されたデータでは、データが一連のピークから構成されるため、連続したポイントに対する強度は高度に相関している場合が多い。
これらの相関は、連続した質量指数間、および強度間の差を縮減長のレコードに保存することにより活用できる。レコードのサイズが縮減されているので、割り付けられたレコードサイズを使って差値を保存できないケースが生じる。これらのオーバーフローは、より大きなレコードサイズ(例えば、4バイト)を利用した別の補正値の表に保存される。
図8aは、元の質量指数値の保存に必要な合計メモリ、および、120分のLC−MSEプロテオミクス実験で生じた質量指数差と補正値を保存するのに必要なメモリを示す。図8bは、同様に、元の強度値を保存するのに必要な合計メモリ、および、同じ実験から生じた強度差と補正値を保存するのに必要なメモリを示す。
割り付けるビット数は減らせるので、補正表のサイズが増大し、最終的にこれらがデータの全体サイズ内において優位を占めるようになる。この例では、最適レコードサイズは、質量差に対しては3ビット未満、強度差に対しては約8ビットである。
最終的には、上述のように圧縮されたデータは汎用圧縮アルゴリズムを使ってさらに圧縮できる場合が多い。
動的バックグラウンド減算
エレクトロスプレーデータは、多くの場合、約1Daの周期で反復されるブロードピークのバックグラウンドを示す。これらは、分析物および溶媒分子の荷電クラスターを表すが、それらは通常有用な情報をもたらすことはない。しかし、ピーク形状はm/zと共にゆっくり変化するのみであり、データの移動ウィンドウ(通常約20Da)を使って局所バックグラウンドピーク形状のモデルを構築でき、その後これをデータから減算できる。このプロセスは、低強度ピークから干渉を除くことができる。この干渉が除去されない場合には、低強度ピークから、ほとんどまたは全く情報を得られないであろう。
バックグラウンド減算の別の利点は、それによりデータセット中の正の強度を持つポイントの数を実質的に減らすことができるということである。図8aおよび8bは、動的バックグラウンド減算の前後の質量スペクトルの一部を示す。このスペクトルの狭い部分では、非ゼロ強度のポイントの数は、およそ45%減らされる。図9は、元のデータを含み、元のデータの図9aは、正の強度を持つ1639ポイントを含み、一方、減算されたデータ(図9c)は、正の強度を持つ899ポイントを含む。減算したバックグラウンドを図9bに示す。
データ掃引
閾値化は、データセットのサイズを縮減するための単純な方法である。この方法では、所定の閾値を超える強度のポイントが保持される。しかし、ピークは多くのデータポイントにわたり散在するので、分子種は連続質量スペクトルで表される。一律の閾値をデータに適用することにより、その先端が閾値を超える位置にあるピークの端に存在するポイントが廃棄される場合が多くなる。この影響は、多次元データで(この場合、ピークが各次元で幅を持つ)、かつ、良好に採取されている(ピーク幅全体にわたる多くのポイントが採取されている)データの場合にさらに重大になる。
本明細書で記載される方法では、局所ピーク幅の情報を使ってこの問題が克服される。多次元データセット中の所与の位置での仮定のピークの強度(または可能な最大強度)を推定するために使用できる多くの可能な方法がある。これらの方法には、単純総和、既知のピーク形状を使った相関関係およびさらに洗練された確率的手法が含まれる。
この計算は、ある所定の局所強度閾値を超える仮定のピークに寄与するとして標識されるデータおよびデータポイントのすべての位置で行うと理想的である。その後、非標識ピークは廃棄される。局所強度閾値は、データの位置と共に変わってもよく、また、例えば、特定の適用に対し最低質量精度要件を達成するように設定される場合もある。
2次元の掃引アルゴリズムの操作を図10に模式的に示す。実際の1次元の例を図11に示すが、この場合、機器分解能を使って掃引ウインドウの幅を設定し、10イオンカウント超を有する推定上のピークに寄与するデータポイントを保持した。
図10を参照すると、データ削減の「データ掃引」法を示す2Dデータセットの一部の模式図は、異なる強度のデータポイントに対応する異なるサイズのスポットを含む。可能なピーク位置のいずれも強度閾値を超えるピークに対応しない(一部の例は中空円により示される)ので、データポイント900は廃棄される。902の標識のポイントは、より高い局所データ密度が理由で保持される。図11でよくわかるように、動的バックグラウンド減算およびデータ掃引の累積効果を示す質量スペクトルの部分図は、元のデータA、およびバックグラウンド減算後のデータBを含む。スペクトルCは、1次元データ掃引後のデータを示す。
結果
元および圧縮形態のLC−MSEデータセットを処理し、Protein Lynx Global Serverバージョンを使ってサーチした。
2.5.2.イオン検出閾値をバックグラウンド減算データの処理のために小さくしたが、それ以外のプロセスパラメータは同じとした。要求偽陽性率は4%とした。結果を下表4と5に示す。両方のケースで「元の」サイズは、機器により生成された元の生ファイルフォーマットを意味する。
Figure 2015513200

Figure 2015513200
この結果から、大きなデータ品質の損失なく、エレクトロスプレー飛行時間型MSデータセットの有用な圧縮が可能であることがわかる。特に、10倍を超えるLC−MSEデータセットの圧縮が実現される。同時に、統計的に有意な数の特定されたタンパク質数の減少は観察されていない。興味深いことに、最後の損失のない圧縮ステップにおいて、最大の圧縮比が得られる。
当業者なら、おそらく、他の有効な代替法を思いつくであろう。本発明は、記載実施形態に限定されず、当業者には明らかな添付請求項の範囲内にある修正を包含することは理解されよう。

Claims (17)

  1. 質量スペクトルデータを圧縮する方法であって、
    質量分析計のイオン検出器から出力された第1の信号を受信すること、出力端子において、前記第1の信号をデジタル信号に変換処理して、出力された代表的な第1の信号のデータフレーム型とすること、
    前記データフレーム型をメモリブロックに一時的に保存し、前記メモリブロックからデータフレームを読み込み、そのデータフレーム型を判定すること、およびそのデータフレーム型に基づいて1種または複数種の圧縮アルゴリズムを使って前記データフレームを圧縮して圧縮データ出力ストリームを生成すること、を含む方法。
  2. 前記第1の信号をデジタル信号に変換処理するステップが、アナログ・デジタル変換器を使って前記第1の信号をデジタル化することを含む請求項2に記載の方法。
  3. 質量スペクトルデータの複数の異なる領域または部分から強度分布を決定すること、前記質量スペクトルデータまたは前記質量スペクトルの1つまたは複数の領域もしくは部分に対し前記強度分布からバックグラウンド強度を推定すること、および前記推定バックグラウンド強度の影響を除くかまたは減らすために、前記質量スペクトルデータまたは前記質量スペクトルの1つまたは複数の領域もしくは部分の前記強度を調節すること、を含む請求項1または2に記載の方法。
  4. 前記1種または複数種の圧縮アルゴリズムが、
    (a)それぞれのデータポイントに対し、前記方法を行うために使用する機器の予測特性から決定される前記質量スペクトルピークの理論予測プロファイルおよび/またはフットプリントを使って前記データポイントの位置の仮定の質量スペクトルピークの最大強度を推定すること、前記最大強度が所定の強度閾値を超える場合、前記フットプリントを持つ全てのデータポイントにフラグを立てること、および、全ての当該データポイントの処理が完了すると、フラグが立っていない全てのデータポイントを削除すること、
    (b)前記第1のデータポイントの前記強度と、前記第1のデータポイントに隣接する第2のデータポイントの強度との間の差を計算することにより第1のデータポイントに関する強度情報を得ること、
    (c)前記第1のデータポイントの前記質量指数またはm/zと、前記第1のデータポイントに隣接する第2のデータポイント質量指数またはm/zとの間の差を計算することにより第1のデータポイントに関するm/z情報を得ること、
    (d)(b)により得られる前記強度情報、および/または(c)により得られる前記m/z情報を保存するために固定ビット数pを割り付けること、pビット中に前記情報を部分的にしか保存できない場合に、完全なまたはより高レベルの強度および/またはm/z情報を保存するためにオーバーフロー保存領域を割り付けること、
    (e)第1のデータポイントに関する強度値を前記受信強度値の平方根に変換すること、
    (f)前記データポイントの前記強度、および/または前記データポイントが一部を形成する質量スペクトルピークの幅、および/または前記データポイントまたはその周辺のノイズ特性に依存するデータポイントの前記m/zを記録するために、種々のファイルサイズを持つ複数のデータファイルフォーマットからファイルフォーマットを選択すること、
    (g)前記第1のデータポイントの前記質量指数またはm/zと、仮定の質量スペクトルピークの質量指数またはm/zとの間の差を計算することにより第1のデータポイントに関するm/z情報、例えば、アンカーポイント、を得ること、および
    (h)Lempel−Zivおよび/またはハフマンコーディングなど、追加の損失のない圧縮を実行すること、
    の内のいずれか1つまたは複数を含む請求項1〜3のいずれか1項に記載の方法。
  5. 前記手順(b)、(c)、(d)および(h)を実行することを含む請求項4に記載の方法。
  6. 前記方法が、例えば、いずれかのデータが記録される前に、リアルタイムで実行される請求項1〜5のいずれか1項に記載の方法。
  7. 前記データフレーム型が、データフレーム、スキャン統計フレームおよび読み出しフレームの内のいずれか1種である請求項1〜6のいずれか1項に記載の方法。
  8. 前記出力された第1の信号が、電圧および/または1種もしくは複数種のイオン到着時間および/または1種もしくは複数種のイオン強度である請求項1〜7のいずれか1項に記載の方法。
  9. 請求項1〜8のいずれか1項に記載の方法を実行するためのコンピュータソフトウエアプログラム。
  10. 請求項1〜8のいずれか1項に記載の方法を実装するためのハードウェアを構成するプロセッサ制御コードを保持するキャリア。
  11. 請求項1〜8のいずれか1項に記載の圧縮する方法を実行するように構成されたハードウェアモジュール。
  12. 質量スペクトルデータを圧縮するハードウェアモジュールであって、
    イオン検出器から出力された第1の信号であって、イオン到着時間および/またはイオン強度を特徴とするデータである入力データを受信するための入力端子;
    入力端子において前記第1の信号を受信し、前記第1の信号をデジタル信号に変換処理するためのアナログ・デジタル変換器;前記デジタル化された第1の信号を受信し、前記第1の信号をデータフレーム型に変換処理するための論理ゲートを有する第1のプロセッサブロック;前記データフレーム型を受信するための入力端子および前記データフレーム型を一時的に保存するためのメモリブロックを備えた緩衝装置、ならびにメモリブロックからデータフレームを読み込み、そのデータフレーム型を判定し、そのデータフレーム型に基づいて1種または複数種の圧縮アルゴリズムを使ってデータフレームを圧縮して圧縮データ出力ストリームを生成するための圧縮制御論理ブロックに接続された出力端子を含む第2のプロセッサブロック、を含むハードウェアモジュール。
  13. 出力された第1の信号が、電圧および/または代表的な1種もしくは複数種のイオン到着時間および/または1種もしくは複数種のイオン強度である請求項12に記載のハードウェアモジュール。
  14. 前記第1のプロセッサブロックが、前記デジタル化された第1の信号の並列処理を可能とする多重処理ブロックを含むことができる請求項12に記載のハードウェアモジュール。
  15. 前記第2のプロセッサブロックが、前記強度値の総和および/またはグルーピングを行うことにより前記第1のプロセッサブロックからの複数データストリームを単一データストリームに結合するためのスキャンコンバイン論理ブロックを含むことができる請求項12に記載のハードウェアモジュール。
  16. 前記圧縮制御論理ブロックが、例えば、フィールドプログラマブルゲートアレイ(「FPGA」)またはグラフィックプロセッサユニット(「GPU」)を使って、前記圧縮をリアルタイムで行う請求項12〜15のいずれか1項に記載のハードウェアモジュール。
  17. 請求項12〜16のいずれか1項に記載のハードウェアモジュールを含む質量分析計。
JP2015502454A 2012-03-30 2013-03-28 質量分析計 Pending JP2015513200A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1205805.3 2012-03-30
GBGB1205805.3A GB201205805D0 (en) 2012-03-30 2012-03-30 Mass spectrometer
PCT/GB2013/050831 WO2013144642A2 (en) 2012-03-30 2013-03-28 Mass spectrometer

Publications (1)

Publication Number Publication Date
JP2015513200A true JP2015513200A (ja) 2015-04-30

Family

ID=46160133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015502454A Pending JP2015513200A (ja) 2012-03-30 2013-03-28 質量分析計

Country Status (6)

Country Link
US (3) US9412570B2 (ja)
EP (1) EP2831903B1 (ja)
JP (1) JP2015513200A (ja)
CA (1) CA2868920C (ja)
GB (1) GB201205805D0 (ja)
WO (1) WO2013144642A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019229998A1 (ja) * 2018-06-01 2019-12-05 株式会社島津製作所 機器分析用データ処理方法及び装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201205805D0 (en) * 2012-03-30 2012-05-16 Micromass Ltd Mass spectrometer
US9143162B2 (en) 2013-11-05 2015-09-22 Waters Technologies Corporation Techniques for compressing mass spectrometry data in real-time
US10531121B2 (en) 2015-01-30 2020-01-07 Hewlett-Packard Development Company, L.P. Spectral reflectance compression
US10132777B2 (en) * 2015-09-15 2018-11-20 Washington State University Two-phase approach to fourier transform ion mobility time-of-flight mass spectrometry
CN114026650A (zh) * 2019-05-03 2022-02-08 沃特世科技爱尔兰有限公司 用于生成化合物的编码表示的技术
JP7327431B2 (ja) * 2021-03-16 2023-08-16 トヨタ自動車株式会社 質量分析データの解析方法、プログラム及び質量分析データの解析装置
WO2023161880A1 (en) * 2022-02-28 2023-08-31 Dh Technologies Development Pte. Ltd. Mass spectrometry and noise estimation

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5367162A (en) * 1993-06-23 1994-11-22 Meridian Instruments, Inc. Integrating transient recorder apparatus for time array detection in time-of-flight mass spectrometry
US5712480A (en) * 1995-11-16 1998-01-27 Leco Corporation Time-of-flight data acquisition system
US5995989A (en) * 1998-04-24 1999-11-30 Eg&G Instruments, Inc. Method and apparatus for compression and filtering of data associated with spectrometry
US6253162B1 (en) * 1999-04-07 2001-06-26 Battelle Memorial Institute Method of identifying features in indexed data
US7372022B2 (en) * 2000-07-26 2008-05-13 Agilent Technologies, Inc. Multipath data acquisition system and method
GB2410123B (en) * 2003-09-25 2006-11-01 Thermo Finnigan Llc Method of processing and storing mass spectrometry data
GB0329554D0 (en) 2003-12-22 2004-01-28 Micromass Ltd Mass spectrometer
US7365309B2 (en) 2003-12-22 2008-04-29 Micromass Uk Limited Mass spectrometer
GB2472951B (en) * 2004-11-29 2011-04-27 Thermo Finnigan Llc Method of processing mass spectrometry data
US7477999B2 (en) * 2006-10-26 2009-01-13 Samplify Systems, Inc. Data compression for a waveform data analyzer
US8406314B2 (en) * 2007-11-28 2013-03-26 Sharp Laboratories Of America, Inc. Two-dimensional DPCM with PCM escape mode
US8004432B2 (en) * 2007-11-30 2011-08-23 Shimadzu Corporation Time-of-flight measuring device
GB0909284D0 (en) 2009-05-29 2009-07-15 Micromass Ltd Acquisition system and method for mass spectrometer data
US8362931B2 (en) * 2010-11-30 2013-01-29 Microsoft Corporation Compression and decompression of mass spectrometry data
DE102011013600B4 (de) * 2011-03-10 2016-02-11 Bruker Daltonik Gmbh Verarbeitung der Ionenstrommesswerte in Flugzeitmassenspektrometern
GB201205805D0 (en) * 2012-03-30 2012-05-16 Micromass Ltd Mass spectrometer

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019229998A1 (ja) * 2018-06-01 2019-12-05 株式会社島津製作所 機器分析用データ処理方法及び装置
JPWO2019229998A1 (ja) * 2018-06-01 2021-05-13 株式会社島津製作所 機器分析用データ処理方法及び装置
JP7024866B2 (ja) 2018-06-01 2022-02-24 株式会社島津製作所 機器分析用データ処理方法及び装置

Also Published As

Publication number Publication date
US10553413B2 (en) 2020-02-04
CA2868920C (en) 2020-08-04
US20170148615A1 (en) 2017-05-25
US20180308673A1 (en) 2018-10-25
WO2013144642A2 (en) 2013-10-03
US9953814B2 (en) 2018-04-24
US20150090872A1 (en) 2015-04-02
US9412570B2 (en) 2016-08-09
WO2013144642A3 (en) 2014-06-05
EP2831903A2 (en) 2015-02-04
CA2868920A1 (en) 2013-10-03
GB201205805D0 (en) 2012-05-16
EP2831903B1 (en) 2021-07-07

Similar Documents

Publication Publication Date Title
US10553413B2 (en) Mass spectrometer
JP4930600B2 (ja) 飛行時間測定装置
US9859917B2 (en) Enhanced data compression for sparse multidimensional ordered series data
US10403486B2 (en) Mass spectrometer data acquisition
US9184035B2 (en) Data acquisition system for a spectrometer using an ion statistics filter and/or a peak histogram filtering circuit
CN103270575A (zh) 用于质谱法的数据采集系统和方法
CN112189136B (zh) 设备分析用数据处理方法以及装置
Patauner Lossy and lossless data compression of data from high energy physics experiments
Nicolaucig et al. Compression of TPC data in the ALICE experiment
Nicolaucig et al. Lossy compression of TPC data and trajectory tracking efficiency for the ALICE experiment
Patauner Verlustbehaftete und verlustlose Datenkomprimierung fur Daten von Hochenergiephysik Experimenten
JP2017118388A (ja) 分析データ処理装置