JP2015513200A

JP2015513200A - 質量分析計

Info

Publication number: JP2015513200A
Application number: JP2015502454A
Authority: JP
Inventors: スティーブンジョンプラット，; キースジョージリチャードソン，; デイビッドダレルウィリアムズ，; リチャードデニー，
Original assignee: マイクロマスユーケーリミテッド
Priority date: 2012-03-30
Filing date: 2013-03-28
Publication date: 2015-04-30
Also published as: US10553413B2; CA2868920C; US20170148615A1; US20180308673A1; WO2013144642A2; US9953814B2; US20150090872A1; US9412570B2; WO2013144642A3; EP2831903A2; CA2868920A1; GB201205805D0; EP2831903B1

Abstract

操作可能なように質量スペクトルデータの圧縮方法を実行するハードウェアモジュールであって、この方法が、質量分析計のイオン検出器から出力された第１の信号を受信すること、出力端子において、第１の信号をデジタル信号端子に変換処理して、出力された代表的な第１の信号のデータフレーム型とすること、このデータフレーム型をメモリブロックに一時的に保存し、メモリブロックからデータフレームを読み出し、そのデータフレーム型を判定すること、および、そのデータフレーム型に基づいて１種または複数種の圧縮アルゴリズムを使ってデータフレームを圧縮して圧縮データ出力ストリームを生成すること、を含むハードウェアモジュール。【選択図】図７

Description

本発明は、質量分析計および質量分析方法に関する。一部の実施形態では、本発明は、例えば、前方解析のために、質量スペクトルデータを取得および圧縮するハードウェアモジュールおよび方法に関する。

質量スペクトルデータは、通常、１台または複数台のイオン検出器へのイオンの衝突により生成され、これが質量電荷比（ｍ／ｚ）および特定のｍ／ｚでのイオンの数（例えば、イオンカウントの強度による）に関する情報を得るように処理できる信号を与え、この情報は、通常、質量スペクトルの形で提供される。質量スペクトルは、分析された化合物の構造情報を明らかにするためにさらに解析できる。

最近の質量分析計は、その感度および単一の試料に対し多くの異なる形態の分析を実行できることの両方の結果として、非常に大きな量のデータを取得できる。例えば、四重極飛行時間型質量分析計などのタンデム型質量分析計を液体クロマトグラフィー装置と連結する場合、この機器を使って単一の試料に対して数千の個別の質量スペクトルを取得することも可能である。これらのスペクトルは、液体クロマトグラフィー装置のカラム中の一連の滞留時間から順次生ずる、四重極質量分析器の多くのｍ／ｚ設定に対応可能な数千スペクトル／秒まで取得できる飛行時間型質量分析器から得られる。また、イオン移動度分光計が、例えば、液体クロマトグラフィー装置と、例えば、飛行時間型質量分析器との間でシステムに連結される場合、取得されるスペクトルの数は、質量分析器で解析できる一連のイオンドリフト時間によってさらに増加する。

さらに、質量分析器の分解能が極めて高い場合、それに対応して多数のｍ／ｚおよび強度データの処理と保存が必要となる。

典型的な質量分析計では、このようなデータは、処理するためにコンピュータに送られる。実際、データは、通常、一連のコンピュータに送信されるおよびそれを経由するが、少なくともこれらコンピュータの内の１台は、機器自体内に存在してもよく、英国特許第２４０９５６８号に記載のようにそこでデータは任意選択によりノイズ低減アルゴリズムで処理されて質量スペクトルデータから周期的バックグラウンドノイズが効率的に除去されてもよい。通常、後日、ユーザーが検索および読み出しを行うことができるように、１台または複数台のコンピュータ中の１つたは複数のデータベースにデータを保存する。

図１ａは、例えば、国際公開第２０１０１３６７７５号（この特許も参照により本明細書に組み込まれる）に開示のような先行技術の分光計システムを示し、システムは、イオン源１、加速領域２、フィールドフリー領域３、リフレクトロン（イオンミラー）４、検出器５、取得システム６、内蔵コンピュータシステム７およびホストコンピュータシステム８、を有する。

イオン源で試料化合物から形成されたイオンは、加速領域に入り、加速電圧パルスにより駆動されてフィールドフリー領域中に送り込まれる。イオンは、加速パルスおよびその質量により付与されるエネルギーにより定まる速度に加速され、より軽いイオンがより高速となる。

リフレクトロンは、加速領域から検出器までの分析器のハウジングの一定の長さに対し、イオンが通る経路の長さを増やすために使われる。これにより、異なる速度のイオン間における適切な時間でのより多くの分離が可能となる。

速度および移動距離により定まる任意の時間の後にイオンは検出器に到着し、その結果、そのイオンの質量の測定が可能となる。

検出器からの出力は、取得システムにより採取されて質量スペクトルが生成され、内蔵コンピュータシステムに送られる。取得システムの操作は、以降でさらに詳細に説明される。

内蔵コンピュータシステムは、さらなる分析および保存のために、質量スペクトルデータをホストコンピュータシステムに送る。また、内蔵コンピュータシステムは、データ依存取得（ｄａｔａｄｅｐｅｎｄｅｎｔａｃｑｕｉｓｉｔｉｏｎ）のためのデータ解析も行うことができる。これにより、質量スペクトルデータの内容を使って、質量分析計の構成を走査毎（ｓｃａｎ−ｂｙ−ｓｃａｎ）方式に変更することが可能となる。

図１ｂは、取得エンジン９、データスループット最適化モジュール１９および内蔵コンピュータシステム７へのデータ出力用のイーサーネットインターフェイス１１を含む先行技術の取得システムのブロック図を示す。データスループット最適化ブロック自体は、データ圧縮エンジン２１、リング緩衝装置１３およびハードウェアプロトコルスタック１５を含む。

取得システムへの入力となる質量分析計からの検出器信号は、最初に取得エンジン内の高速アナログ・デジタル変換器（ＡＤＣ）により採取される。その後、取得エンジンは、信号内に存在する全てのピークを検出し、使用可能な、例えば、時間および強度を含む情報に変換する。

最適化ブロックの次の段階は、データ取得エンジンからのデータをデータ圧縮するためのＬＺＲＷ３（Ｌｅｍｐｅｌ−ＺｉｖＲｏｓｓＷｉｌｌｉａｍｓ）圧縮アルゴリズムを使用するデータ圧縮エンジン２１である。

データ圧縮エンジンの結果がリング緩衝装置１３に入力され、それによってリング緩衝装置１３はデータをフォーマットして、そのデータがハードウェアプロトコルスタックに送られ、さらにそのデータを順に処理用コンピュータシステムに送る。

収集されるデータ量の増加に伴い、デバイス間でのデータの移送速度および使用可能な形式へのデータの処理速度が低下する。これが、質量分析計がデータを取得できるのと同じ速度でコンピュータ保存媒体へのデータの移送および記録を行うことができないという特有の問題を生ずる。このような場合には、データが無秩序に失われる可能性がある。また、十分なデータ保存スペースの確保、および使用可能で解釈可能な形式のデータを提供するために１台または複数台のコンピュータが必要とする処理能力に関し、さらなる問題が生じる。

本発明は、質量スペクトルデータを圧縮して、このようなデータを処理および移送できる速度を高めるためのハードウェアモジュールおよび方法を提供することによりこれらの問題に対処しようとするものである。

第１の態様では、本発明は、質量スペクトルデータを圧縮する方法を提供し、この方法は、出力された第１の信号をイオン検出器から受信すること、出力端子において、第１の信号をデジタル信号端子に変換処理して、出力された代表的な第１の信号のデータフレーム型とすること、そのデータフレーム型をメモリブロックに一時的に保存し、メモリブロックからデータフレームを読み込み、そのデータフレーム型を判定し、そのデータフレーム型に基づいて、１種または複数種の圧縮アルゴリズムに従ってデータフレームを圧縮して圧縮出力ストリームを生成すること、を含む。

好ましくは、第１の信号をデジタル信号に処理するステップは、アナログ・デジタル変換器を使用して第１の信号をデジタル化することを含む。

好ましくは、出力された第１の信号は、電圧、および／または１種もしくは複数種のイオン到着時間および／または１種もしくは複数種のイオン強度を表す。好ましくは、この方法は、複数の異なる質量スペクトルデータの領域または集団からの強度分布を決定すること、強度分布から質量スペクトルデータまたは前記質量スペクトルの１つまたは複数の領域もしくは部分に対するバックグラウンド強度を推定すること、および推定されたバックグラウンド強度の影響を除去または減らすために、質量スペクトルデータまたは質量スペクトルの１つまたは複数の領域または部分の強度を調節すること、を含む。好ましくは、１種または複数種の圧縮アルゴリズムは、
（ａ）第１のデータポイントが一部を形成する実際の質量スペクトルピークの幅を計算することにより第１のデータポイントでの仮定の質量スペクトルのピークの最大強度を推定すること（幅はｎ個のデータポイントで測定される）；前記第１のデータポイントに隣接するｎ個の第２のデータポイントの強度を合計すること；および仮定の質量スペクトルピークが所定の強度閾値より低い場合、第１のデータポイントを廃棄すること；
（ｂ）第１のデータポイントの強度と第１のデータポイントに隣接する第２のデータポイントの強度との間の差を計算することにより第１のデータポイントに関する強度情報を得ること、
（ｃ）第１のデータポイントの質量指数またはｍ／ｚと、第１のデータポイントに隣接する第２のデータポイントの質量指数またはｍ／ｚとの間の差を計算することにより第１のデータポイントに関するｍ／ｚ情報を得ること、
（ｄ）（ｂ）により得た強度情報、および／または（ｃ）により得たｍ／ｚ情報の保存に固定数ｐビットを割り付け、その情報がｐビットでは部分的にしか保存できない完全なまたはより高レベルの強度および／またはｍ／ｚ情報を保存するためにオーバーフロー保存領域を割り付けること、
（ｅ）第１のデータポイントに関する強度値を受信強度値の平方根に変換すること、
（ｆ）そのデータポイントの強度、および／または前記データポイントが一部を形成する質量スペクトルピークの幅、および／またはデータポイントおよびその周辺のノイズ特性に応じて、データポイントのｍ／ｚを記録するためのデータファイルフォーマットを選択すること（ファイルフォーマットは種々のファイルサイズを持つ複数のファイルフォーマットから選択される）、
（ｇ）第１のデータポイントの質量指数またはｍ／ｚと、仮定の質量スペクトルピークの質量指数またはｍ／ｚとの間の差を計算することにより第１のデータポイントに関するｍ／ｚ情報、例えば、アンカーポイント、を得ること、および
（ｈ）例えば、Ｌｅｍｐｅｌ−Ｚｉｖおよび／またはハフマンコーディングなど、追加の損失のない圧縮を実行すること、
の内のいずれか１つまたは複数を含む。

それぞれのデータポイントに対し、この方法を実行するのに使用される機器の予測特性から決定される質量スペクトルピークの理論予測プロファイル（ｔｈｅｏｒｅｔｉｃａｌｅｘｐｅｃｔｅｄｐｒｏｆｉｌｅ）、および／またはフットプリントを使用して、データポイントの位置での仮定の質量スペクトルピークの最大強度を推定すること、最大強度が所定の強度閾値を超える場合は、そのフットプリントを持つ全データポイントにフラグを立てること、および全該当データポイントの処理が完了したとき、フラグのない全てのデータポイントを消去すること、が好ましい。

好ましくは、この方法は、手順（ｂ）、（ｃ）、（ｄ）および（ｈ）を実行することを含む。

この方法は、好ましくは、質量スペクトルデータの複数の異なる領域または部分からの強度分布を決定することと組み合わせて、手順（ａ）および（ｈ）を実行すること、強度分布から質量スペクトルデータまたは質量スペクトルの１つまたは複数の領域または部分に対するバックグラウンド強度を推定すること、および推測バックグラウンド強度の影響を除くか、または減らすために、質量スペクトルデータまたは質量スペクトルの１つまたは複数の領域もしくは部分の強度を調節すること、を含むのが好ましい。

好ましくは、この方法は、例えば、いずれかのデータが記録される前に、リアルタイムで実行される。

さらなる態様では、本発明は、上述のようなデータを圧縮する方法を含む質量分析方法を提供する。

さらなる態様では、本発明は、上述の方法を実行するためのコンピュータソフトウエアプログラムを提供する。

別の態様では、本発明は、上述の方法を実装するハードウェアを構成するためにプロセッサ制御コードを保持するキャリアを提供する。

別の態様では、本発明は、圧縮方法を実行するように構成されたハードウェアモジュールを提供する。

さらなる態様では、本発明は、質量スペクトルデータを圧縮する方法を提供し、この方法は、第１のデータポイントが一部を形成する実際の質量スペクトルピークの幅を計算することにより第１のデータポイントの仮定の質量スペクトルピークの最大強度を推定すること（幅はｎ個の数のデータポイントで測定される）、第１のデータポイントに隣接するｎ個の第２のデータポイントの強度を合計すること、および仮定の質量スペクトルピークが所定の強度閾値より低い場合に、第１のデータポイントを廃棄すること、を含む。

さらなる態様では、本発明は、質量スペクトルデータを圧縮する方法を提供し、この方法は、
（ａ）第１のデータポイントの強度と、第１のデータポイントに隣接する第２のデータポイントの強度との間の差を計算することにより第１のデータポイントに関する強度情報を得ること、および／または
（ｂ）第１のデータポイントの飛行時間またはｍ／ｚと、第１のデータポイントに隣接する第２のデータポイントの飛行時間またはｍ／ｚとの間の差を計算することにより第１のデータポイントに関するｍ／ｚ情報を得ること、
を含む。

好ましくは、この方法は、（ａ）により得た強度情報、および／または（ｂ）により得たｍ／ｚ情報の保存に対し固定数ｐビットを割り付けること、前記情報がｐビットでは部分的にしか保存できない完全なまたはより高レベルの強度、および／またはｍ／ｚ情報に対しオーバーフロー保存領域を割り付けること、をさらに含む。

さらなる態様では、本発明は、質量スペクトルデータを圧縮する方法を提供し、この方法は、第１のデータポイントに関する受信強度値を受信強度値の平方根に変換することを含む。

さらなる態様では、本発明は、質量スペクトルデータを圧縮するハードウェアモジュールを提供し、ハードウェアモジュールは、イオン検出器から出力された第１の信号である入力データを受信するための入力端子（データはイオン到着時間および／またはイオン強度の特徴を示す）；入力端子において第１の信号を受信し、第１の信号をデジタル信号に変換するためのアナログ・デジタル変換器；第１のプロセッサブロックであって、デジタル化された第１の信号を受信し、第１の信号を１種もしくは複数種のイオン到着時間および／または１種もしくは複数種のイオン強度特有のデータフレーム型に変換処理するための論理ゲートを有する第１のプロセッサブロック；データフレーム型を受信する入力端子およびそのデータフレーム型を一時的に保存するメモリブロックを有する緩衝装置、ならびにメモリブロックからデータフレームを読み込み、そのデータフレーム型を判定し、そのデータフレーム型に基づいて、１種または複数種の圧縮アルゴリズムに従ってデータフレームを圧縮して圧縮データ出力ストリームを生成するための圧縮制御論理ブロックに接続された出力端子を含む第２のプロセッサブロックを含む。

好ましくは、第１のプロセッサブロックは、デジタル化された第１の信号の並列処理を可能とするための多重処理ブロックを含むことができる。好ましくは、第２のプロセッサブロックは、強度値の総和、および／またはグルーピングにより第１プロセッサブロックからの複数データストリームを単一データストリームに結合するためのスキャンコンバイン論理（ｓｃａｎｃｏｍｂｉｎｅｌｏｇｉｃ）ブロックを含むことができる。圧縮制御論理ブロックは、例えば、フィールドプログラマブルゲートアレイ（「ＦＰＧＡ」）またはグラフィックプロセッサユニット（「ＧＰＵ」）を使って、リアルタイムで圧縮を行うことができる。

以降で、付随する図に言及しながら、例示のみを目的として本発明の実施形態が説明される。

先行技術の分光計システムを示すブロック図である。図１ａに示す先行技術の分光計の取得システム中のデータ最適化モジュールを示すブロック図である。圧縮されていない元の質量スペクトルを示す部分グラフである。本発明の実施形態による極大ピーク強度および密度閾値を示すグラフである。本発明の実施形態による圧縮された元の質量スペクトルを示す部分グラフである。本発明の実施形態による質量スペクトルの単一ピーク全体の強度および強度差のグラフである。本発明の実施形態による質量スペクトルデータを圧縮するためのハードウェアモジュールを含む質量スペクトルデータ解析ワークフローを示す機能ブロック図である。本発明の実施形態によるハードウェアに実装されたデータ処理システムを示す機能ブロック図である。図８ａ〜図８ｂは１２０分のＬＣ−ＭＳプロテオミクス実験で得られた質量指数および強度差ならびに補正値を保存するために必要なメモリに加えて、元の質量指数および強度値を保存するために必要な合計メモリを示す一組のグラフである。同上図９ａ〜図９ｃは動的バックグラウンド減算の前後の部分質量スペクトルを示すグラフである。同上同上「データ掃引」データ削減法を示す２Ｄデータセットを示す部分模式図である。図１１ａ〜図１１ｃは動的バックグラウンド減算およびデータ掃引の累積効果を示す質量スペクトルのグラフである。同上同上

機器感度の向上、検出器のダイナミックレンジおよびさらに高い次元の分離技術の採用により、全て、最近の質量分析計によって生成可能なデータ量が継続して増加する一因となっている。以降では、生成されたデータセットの大きさを縮減するために、ハードウェアまたはソフトウエアにおいて種々組み合わせて使用できる質量スペクトルデータに適合させた、損失のないおよび損失の大きい圧縮ステップ手順について記載する。より小さいデータセットは、長期保存、ネットワーク経由の送信、および取得後処理にとっても好都合である。

ソフトウエア実装形態の実行は、１種または複数種の質量スペクトルの同時圧縮と見なせる。質量スペクトル中のデータポイントまたはレコードは、通常、他の情報に加えて質量（または到達時間）および強度（信号）から構成される。ゼロ強度（ｓ＝０）のポイントは通常廃棄される。下記の記載は質量および強度に焦点を置いているが、他の量（限定されないが、飽和フラグを含む）も強度と同様の方式で処理できる。

大まかに言えば、下記の技術は連続体データまたは検出ピーク（スペクトル毎）データに適用できる：
１）バックグラウンド減算。質量スペクトルは、任意選択で、バックグラウンド減算アルゴリズムの適用により圧縮の準備ができる（例えば、英国特許第２４０９５６８号に記載のように）。
２）適応閾値化。局所ピーク幅の情報があれば、多次元データセット中の所与の位置での仮定のピーク強度（または可能な最大強度）が推定される。そのデータ内での十分に密集した位置の数でこの計算が行われる場合は、所定の局所強度閾値を若干超える仮定のピークに寄与できるはずのないデータポイントは廃棄できる。局所強度閾値は、データ中の位置と共に変化してよい。この方法は、どの次元のデータセットにも採用できる。
３）強度の差別化。質量スペクトルの隣接チャンネルの強度は、特に、ピーク間で相関関係がある場合が多い。さらに具体的には、ｓ（ｎ）−ｓ（ｎ−ｌ）の絶対値は、ｓ（ｎ）よりはるかに小さい場合が多く、その結果、非ゼロビットがより少なくなる。ｓ（０）は直接保存される。
４）質量の差別化。密に集合したスペクトルでは、隣接する質量指数間の差：ｍ（ｎ）−ｍ（ｎ−ｌ）は、ｍ（ｎ）質量指数よりはるかに小さい場合が多い。全てのチャンネルが埋められる極限では、これらの差は全て１である。ｍ（０）は直接保存される。同様に、これにより、より少ない非ゼロビットを生じる。
５）質量差、および／または強度差の圧縮。質量または強度差の保存のために割り付けられるビット数は、高い比率で存在するデータポイントがオーバーフローしないで保存できるように選択できる。オーバーフローが発生する場合は、追加のレコードを作成し、完全で正確なデータまたは短縮された上位ビットを保存することができる。索引付け方式を使って補正結果をそのデータにリンクする。
６）既知のノイズ分布を仮定して強度を変換。強度がポアソン統計に従う場合（強度がイオンカウントの場合、質量分析では一般的である）、それぞれの強度は、その平方根に等しい標準偏差を有するノイズにさらされる。しかし、強度の平方根の標準偏差は、単純に１／２であり、そのため、約１／２の固定精度の平方根強度を保存することで充分である。データがポアソン統計を使ってより正確に記述されるようにデータを予め調整できる。同様に、当該ノイズ分布に応じて他の強度変換を使うことができる。
７）限界質量精度。ピーク検出データに対し、検出質量の精度は、局所ピーク幅、強度およびノイズ特性に関連する。これらが既知の場合、質量値の保存に使われるビット数はそれに応じて制限できる。異なる精度を有するいくつかのピークレコードフォーマットを定義することが有用な場合がある。高精度質量アンカーレコードは、その後に低精度ピークレコードが続いてもよい。ピークレコードは、機器分解能に加えて、質量が保存される精度を規定する一定の上限強度を有する。従って、質量保存に利用できるビット数は、その値の何らかの因子に関してアンカー質量を使用できる範囲を制限し、それにより、より大きい質量ビット数は、一定の精度に対しより小さい数のアンカーしか使用できないことを意味する。アンカーレコードは、ピークレコード数の間で分かち合える質量値の浮動小数点式表現の指数部の抽出と見なすことができる。
８）圧縮されたまたは差別化されたデータの損失のないさらなる圧縮。多くの既知の圧縮技術をレコードのブロックまたは全体スペクトルに適用して、さらにデータサイズを縮減できる。例には、Ｌｅｍｐｅｌ−Ｚｉｖ、および／またはハフマンコーディングをベースにした多くのアルゴリズムが含まれる。上記の方法の１、２および３は、多くの繰り返しパターンを含むデータストリームを生成することにより、これらのアルゴリズムの性能を改善する場合が多い。特にデータがまばらである場合、入力データを整理し、同じタイプのフィールド（例えば、質量指数または強度差）を一緒に置くことが有益である場合がある。また、バイナリーデータの「エンディアン」を互い違いにしてゼロの長列の頻度を増やすことが有用である場合もある。単純な索引付け方式を使って、解凍後に元のスペクトルを回復することができる。

以下に記載の圧縮法のライブラリを使って、多くの好ましい圧縮ワークフローを設計して異なるニーズと用途に合わせることができる。例えば、
Ａ）方法３、４、５および８を使った連続体データの損失のない圧縮
Ｂ）１〜５および８を使った連続体データの圧縮
Ｃ）１、２、６および７を使ったピーク検出データの圧縮。ピーク検出は、ステップ２の後で行われるであろう。

図２〜５に戻ると、ハードウェアまたはソフトウエアの多くの組み合わせで使用して、質量スペクトルデータに適合させて、生成データセットのサイズを縮減できる損失のない、および損失の大きい圧縮ステップの手順が特に詳細に記載されている。

２）適応閾値化
閾値化は、既知の直接的なデータセットサイズ縮減法で、この方法では、所定の閾値を超える強度のポイントのみが保持される。この手法の問題点は、ピークが多くのデータポイントにわたり散在する場合、分子種が連続質量スペクトルで表されるということにある。単純な一律の閾値をデータに適用することにより、その先端が閾値を超える位置にあるピークの端に存在するポイントが廃棄される場合が多くなる。この問題は、多次元データで（この場合、ピークが各次元で幅を持つ）、かつ、良好に採取されている（ピーク幅全体にわたる多くのポイントが採取されている）データの場合にさらに重大になる。

本発明の実施形態に従い記載される方法では、ピーク幅の情報を使ってこの問題が克服される。多次元データセット中の所与の位置での仮定のピークの強度（または可能な最大強度）を推定するために使用できる多くの可能な方法がある。これらの方法には、単純総和、既知のピーク形状を使った相関関係およびさらに洗練された確率的手法が含まれる。

十分に密集したデータ位置でこのような計算のいずれかが行われる場合、ある所定の局所強度閾値を超える仮定のピークに寄与しそうもないデータポイントは廃棄できる。局所強度閾値は、データ中の位置で変わってもよい。強度閾値は、多くの可能な基準を使って選択できる。例えば、特定の適用に対する所定の最小質量精度を達成するために最小ピーク強度が必要になる場合がある。

単純な１次元の例を考察してみよう。実際の質量スペクトル部分図を図２に示す。ｘ軸は、Ｄａ／ｅの単位の質量電荷比「ｍ／ｚ」であり、ｙ軸は、任意の検出器応答単位で示されている。基準ピーク幅は約５データポイントである。この例では、当該ポイントを中心とした５データポイントの強度の合計としての各ポイントの位置で取り得る最大ピーク強度が推定される。この密度は図３にプロットしている。７７応答単位の密度閾値が選択されている。図４は、閾値を超える密度に寄与するデータが保持されている圧縮スペクトルを示す。閾値を超える隣接する密度に寄与しているという理由から、局所密度が閾値を超えない一部のポイントが保持されていることに注意されたい。

この方法は必ずしも特定のピーク検出法に依存しないで、単純にいずれか特定のポイントの位置の生じ得る仮定のピークの最大強度を推定する方法であることに注意されたい。この方法は、どの次元のデータセットにも採用可能である。簡単な１次元の例の生成は、各データポイントを中心とするボックス内にあるポイントの強度を加算することを含むであろう。各次元のボックスの幅は、その次元の局所ピーク幅により設定されるであろう。

この方法は、複合ペプチド混合物の３次元ＬＣ−ＩＭＳ−ＴＯＦＭＳ（液体クロマトグラフィー、イオン移動度、飛行時間質量分析）分離に適用され、成功を収めた。上述の単純な移動ボックス法（ｍｏｖｉｎｇｂｏｘｍｅｔｈｏｄ）を使い、密度閾値を約１０イオン到着に対応するレベルに設定して、データセットのサイズを約１／２に縮減した。ボックスの幅をＬＣ寸法内で一定にしたが、ＩＭＳおよびＭＳ寸法内での機器応答の幅は適宜変えた。

３、４）強度の差別化および質量の差別化
飛行時間型質量スペクトルは、複数組の数値をリスト化して表すことができる。第１の数は、較正中ｍ／ｚ値にマップできる整数ビン指数である。ゼロ強度に対応する質量指数は保存されないと仮定される。第２の数は強度または「応答」である。適正に採取される（すなわち、過剰にも過小にもデジタイズされていない）ピークに対しては、隣接ビンの強度は相互に関連がある。特に、ピーク全体の連続したビン中の強度の差は、通常、絶対強度よりも小さい。これを図５のプロットに示すが、図では、単一ピーク全体の元のデータおよび差別化データを示す。一般的に、直接強度よりも差分を保存する方が少ないビットでよいことは明らかである。同様に、かなり集密したスペクトルでは、連続したビン指数間の差は一般的に元のビン指数より小さい。また、かなり集密したスペクトルは、明らかに、圧縮が最も重要な対象である。完全に詰まったスペクトルという限られた例では、全ビン指数差が１である。再度、一般的に、指数差を保存するのに必要なビットは直接指数の保存の場合より少なくてよいことは明らかである。

５）強度および質量差の圧縮方式
質量および強度差別化により生成されたより小さい数は、保存容量を減らすためにデータサイズを縮減する多くの異なる方法で活用できる。１つの方法は、固定数のビットを各型の差を保存するために割り付けることである。質量指数または強度差を保存するために割り付けられたビット数は、高い割合のデータポイントをオーバーフローなしに保存できるように選択できる。オーバーフローが発生する場合は、追加の高精度レコードを形成して完全精度データ（補正されるポイントの指数に加えて）または短縮上位ビットを保存できる。

強度に関するこのデータは、図５と同じデータを使って表１に示す。最後の列の強度差は、２バイトに短縮されており、その結果として５〜９の値は正しくない。

表２はこのデータに必要な強度差の修正を示す。この場合、元の（正しい）強度は、直接保存されるが、短縮上位ビットを代わりに保存してもよい。

データが読み取られると、不正な値は、データが解凍された後で、かつ差の計算が逆転される前に、修正補正表を使って単純にパッチが当てられる

ステップ３）４）５）および８）を２００ＴＯＦ−ＩＭＳスペクトルの１５０７ブロックに適用した。元のデータの非圧縮サイズは１．４Ｇｂであったが、これが、圧縮およびコード化後、０．３８Ｇｂに縮減された。

６および７）ＭＳピーク特性の効率的圧縮
バイナリー表現に圧縮できるピーク特性は、
位置（ｍ／ｚに対応する）、
面積（強度に対応する）、
位置のエラーバー、
面積エラーバー、
飽和および起こりうる干渉を示すフラグ、
である。

質量スペクトルピークの面積は、ある検出器利得値を乗じたその領域中の到着イオン数を示す。到着イオン数、Ｎは、計数（例えば、ポアソン）統計に従い、従って、利得が既知の場合、イオンカウントを基本となる発生源強度の推定値として使った場合の誤差は、大略カウント数の平方根、√Ｎである。このことは、この変換により効率的に保存量の精度が平準化されるために、ピーク面積が過度の精度の損失なく平方根値として保存できることを示唆する。いくつかの√Ｎの低倍数（ＩＮＴ＿ＳＣＡＬＥ）を保存でき、従って、下位ビットは、√Ｎの高い精度に対応する。

ＩＮＴ＿ＢＩＴＳを、ＩＮＴ＿ＳＣＡＬＥｘ√Ｎの保存に利用できる可能性がある。
飛行時間型（ＴｏＦ）機器では、ピーク位置の精度は、（ｍ／ｚ）／√Ｎ、および分解能：
Ｒ＝（ｍ／ｚ）／（δ（ｍ／ｚ））、
に関連する。式中、δ（ｍ／ｚ）は、ピーク半価幅である。分解能が与えられると、位置が保存されるべき精度は、√Ｎに依存する。位置は、アンカー位置の一定の相対的制限値：ＲＥＬ＿ＬＩＭＩＴ内の高精度アンカー値に対して保存できる。位置を保存に利用できるビット数がＰＯＳ＿ＢＩＴＳである場合、Ｒの最大位置分解能を仮定して、
√Ｎの最大値は、２＾ＩＮＴ＿ＢＩＴＳ／ＩＮＴ＿ＳＣＡＬＥであり、従って、最小相対位置の誤差標準偏差は、全半価幅およびガウス分布標準偏差の間の関係から、
ＲＥＳ＿ＦＡＣＴＯＲ／（Ｒ＊２^＾ＩＮＴ＿ＢＩＴＳ／ＩＮＴ＿ＳＣＡＬＥ）である。式中、ＲＥＳ＿ＦＡＣＴＯＲ＝（２√２ｌｎ２）＾（−ｌ）である。
従って、我々は、アンカー位置に対して、ｌｏｇ２（（Ｒ＊２＾ＩＮＴ＿ＢＩＴＳ／ＩＮＴ＿ＳＣＡＬＥ）／ＲＥＳ＿ＦＡＣＴＯＲ）＋１ビットが必要であり、そのため、
ＰＯＳ＿ＢＩＴＳ＝ＩＮＴ＿ＢＩＴＳ−ｌｏｇ２（ＩＮＴ＿ＳＣＡＬＥ）＋ｌｏｇ２（ＲＥＬ＿ＬＩＭＩＴ＊Ｒ／ＲＥＳ＿ＦＡＣＴＯＲ）＋１、
または、
ＲＥＬ＿ＬＩＭＩＴ＝２＾（ＰＯＳ＿ＢＩＴＳ−ＩＮＴ＿ＢＩＴＳ＋ｌｏｇ２（ＩＮＴ＿ＳＣＡＬＥ）−１）＊ＲＥＳ＿ＦＡＣＴＯＲ／Ｒ、
である。

圧縮方法および本発明の方法を実行するように構成されたハードウェアモジュールを含む上記で記載の技術の実施形態を使って、いずれの質量分析計から取得されたデータでも圧縮できる。好ましい実施形態では、ハードウェアモジュールおよび方法を使って、イオン移動度分光計（ＩＭＳ）、および飛行時間型（ＴＯＦ）質量分析器を含む質量分析計から取得されたデータが圧縮される。当技術分野で知られているように、このような質量分析計を使って液体クロマトグラフィー装置と直列に連結して使用できる。

図６を参照すると、質量スペクトルデータ解析用ワークフローの機能ブロック図には、本発明の実施形態による質量スペクトルデータを圧縮するためのハードウェアモジュールが含まれる。この機能ブロック図は、イオン検出器を備えた飛行時間質量分析器などの質量分析計１０、アナログ・デジタル変換器（ＡＤＣ）２４、信号処理および選別論理回路１４およびＰｏｗｅｒＰＣサブシステム１６を含むデータ処理フィールドプログラマブルゲートアレイ（ＦＰＧＡ）１２を含む。ＰｏｗｅｒＰＣサブシステム１６は、内蔵コンピュータシステム４８とのギガビットイーサーネット通信を制御する。

さらに具体的には、質量分析計１０は、アナログ信号経路２６によりアナログ・デジタル変換器２４の入力端子２２に接続される出力端子２０を備える。ハードウェアモジュール２８は、質量分析計用の取得システムを形成し、アナログ・デジタル変換器２４、信号処理および選別論理回路１４ならびにデータ処理ＦＰＧＡ１２から構成される。本発明の実施形態による圧縮質量スペクトルデータ用のデータ処理ＦＰＧＡ１２は、図７を参照してさらに詳細に記載される。このような配置は、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）などのハードウェアへの実装に好都合である。信号処理および選別論理回路１４は、２つの選別アルゴリズム論理ブロックを含み、質量スペクトルデータの並列処理を可能とし、従って、それぞれの選別ブロックで１個ずつの出力端子３０ａおよび３０ｂを備える。２つの出力端子３０ａおよび３０ｂは、一対のシリアルデータ転送インターフェイス３４ａおよび３４ｂによりデータ処理ＦＰＧＡ１２の２つの入力端子３２ａおよび３２ｂに接続される。データ処理ＦＰＧＡ１２は、ギガビットイーサーネットインターフェイス５０により内蔵コンピュータ４８の入力端子４６に接続された出力端子４４を備える。内蔵コンピュータ４８は、質量スペクトルデータのさらなる処理を行うことができ、また、質量分析計の制御機能を実行できる。また、内蔵コンピュータ４８は、第２のギガビットイーサーネットインターフェイス５９ホストコンピュータ１８内のプロセッサコアの入力端子５８に接続される出力端子５７を備える。ホストコンピュータ１８は、処理コア５４、質量スペクトルデータの保存のためのデータベース５２へのアクセス、およびデータ取り出しの制御のためにユーザーインターフェイス５６を含む。

質量スペクトルデータ解析用のワークフローは、単一検出器からの複数信号ならびに複数検出器からの複数信号を制御するように構成できることは、当業者なら理解できよう。

図７を参照すると、本発明の実施形態によりハードウェア中に実装されたデータ処理システムの機能ブロック図は、通常、検出器からの質量スペクトルデータ（アナログ・デジタル変換器を経由）内のピークを検出し、選別するように構成されている信号処理および選別論理回路（図７には示さず）に接続された第１のシリアルデータ転送インターフェイス受信器６０、およびこれと並列に配置された第２のシリアルデータ転送インターフェイス受信器６２を備えたハードウェアモジュール１２を含む。第１シリアルデータ転送インターフェイス受信器６０および第２のシリアルデータ転送インターフェイス受信器６２の両方は、本明細書でＳＤＴＩ受信器と呼ばれる。

ＳＤＴＩ受信器６０、６２の両方は、スキャンコンバインモジュール（ｓｃａｎｃｏｍｂｉｎｅｍｏｄｕｌｅ）６４に接続されるが、これの操作は、以下でさらに詳細に記載される。スキャンコンバインモジュール６４に接続されているのは、ディファレンスパイプライン論理（ｄｉｆｆｅｒｅｎｃｅｐｉｐｅｌｉｎｅｌｏｇｉｃ）モジュール６６で、これは質量スペクトルデータのステージ１圧縮に相当する。

ディファレンスパイプライン論理モジュール６６の出力端子は、質量スペクトルデータのステージ２圧縮に相当する圧縮制御論理モジュール７０に接続される出力端子を備えるリング緩衝装置６８に接続される。

圧縮制御論理モジュール７０は、出力緩衝装置７２に接続される２つの出力端子を備える。一つの出力端子７４は、質量スペクトルデータのステージ３圧縮（この場合は、ＬＺＲＷ３圧縮ステージ７６）を経由して出力緩衝装置７２に接続される。

操作中は、マルチプレクサーは、通常運転用のＳＤＴＩ受信器６０、６２からの出力データを選択する。選択データは、次の型の内の１つを含む：
・データフレーム
・スキャン統計フレーム
・読み出しフレームの終端

その後、スキャンデータを結合し、強度および質量指数差のみを保存することによりデータを圧縮する。ＴＯＦおよびＩＭＳモードでは、スキャンコンバインモジュール６４は、強度値の総和（ＴＯＦノードの場合）またはグルーピング（ＩＭＳモードの場合）により、２つのＳＤＴＩ受信器６０、６２からのデータストリームを単一ストリームに結合する。これは、ホストコンピュータシステムエンドでの再結合のタスクを簡略化するためである。

ディファレンスパイプライン論理モジュール６６は、不使用ビットを除去し、ＩＭＳチャンネル数を８ビットから単一ＩＭＳチャンネル増加ビットに減らし、２４ビット絶対強度値を１８ビット強度差値に変換することによりデータフレームを圧縮する。本明細書で記載のビット値は、異なってもよく、また、質量分析計の設計に依存することを当業者ならわかるであろう。ＬＺＲＷ３圧縮アルゴリズム用の時間／強度対を最適化するために、モジュール６６は、２０ビット絶対時間値を２０ビット時間差値に変換する。当業者ならさらによくわかるように、他の圧縮アルゴリズムは、別の最適化が必要になることもある。

ディファレンスパイプライン論理モジュール６６からのデータは、ＬＺＲＷ３圧縮コアにとっても、またはＰｏｗｅｒＰＣにとっても対処するには速すぎるデータ速度で急速に出力されるために、リング緩衝装置メモリ６８が圧縮データを一時的に保存するために使われる。リング緩衝装置６８は、最大性能を得るために、ＦＰＧＡ構造中で直接実行される。ディファレンスパイプライン論理モジュール６６に対しては、リング緩衝装置６８は、６４ビットワードの３２ｋディープのＦＩＦＯのように設計されている。これは１６セグメントのリング緩衝装置となり、各セグメントはＲＡＭの１６ｋＢ（２ｋｘ６４ビットワードとして配置される）ブロックである。

圧縮制御論理モジュール７０に対しては、リング緩衝装置６８は、リング緩衝装置のヘッド・ポインタとテール・ポインタを使うことにより近接２５６ｋＢメモリブロックのように見え、それが利用できるようなると、次の利用可能なセグメントを読み出すことができる。

ディファレンスパイプライン論理モジュール６６は、データフレームをリング緩衝装置６８に流すに伴い、セグメントが満たされていき、セグメントが完全に満たされるか、または読み出しフレームの終端が検出されると、リング緩衝装置のヘッド・ポインタは、リング中の次のセグメントに進められる。圧縮制御論理モジュール７０がリング緩衝装置６８を空にすると同時に、テール・ポインタは、リングの周りを前進する。リング緩衝装置６８がテール・ポインタに追いついたヘッド・ポインタで満たされると、それは、ディファレンスパイプライン論理モジュール６６からのデータフローを減速させる。ディファレンスパイプライン論理モジュール６６がストリーミングデータを停止する場合は常に、リング緩衝装置６８は、テール・ポインタがヘッド・ポインタに追いつくまで、空にし続けることになる。

読み出される準備ができているリング緩衝装置６８中にデータがあるかどうかを判断するために、圧縮制御論理モジュール７０はヘッドとテール・ポインタ数の間の差を検出する。

圧縮制御論理モジュール７０がセグメントの処理を終わるとすぐに、これをリング緩衝装置６８に連絡し、リング緩衝装置６８はテール・ポインタを１つだけヘッド・ポインタの方へ進める。ディファレンスパイプライン論理モジュール６６によりリング緩衝装置６８中にデータが書き込まれない場合は、リング緩衝装置６８が空になるので、テール・ポインタは最終的にヘッド・ポインタに追いつくことになる。

ディファレンスパイプライン論理モジュール６６が新しいデータをリング緩衝装置６８に書き込むと、ヘッド・ポインタは、テール・ポインタに到達するまでリングの周りに前進を続ける。このポイントで、出力データは、セグメントがテールから解放されるまで休止される。リング緩衝装置６８は、いつでも再開始できるが、偽のデータがリング緩衝装置６８で受け入れられていないことを確実にするために、取得を始める前に開始するのがこのましい。

圧縮制御論理モジュール７０がリング緩衝装置６８からデータを読み出すと、フレームの型を検出する。スキャンコンバインモジュール６４およびディファレンスパイプライン論理モジュール６６で処理後、この型は以下のいずれかであってよい：
・データフレーム
・展開データフレーム
・スキャン統計フレーム
・読み出しフレームの終端

フレームの型が検出されるとすぐに、フレーム内のいずれかの該当フィールドが抽出され、適用メッセージ出力用のヘッダ情報を構築するために使用される。データフレームまたは展開データフレームが検出される場合は、データフィールドが抽出され、４０ビットフォーマットデータフレームに圧縮される。

ＩＭＳモードに対しては、その後、４０ビットデータフレームがＬＺＲＷ３圧縮ステージ７６を使用時に１バイト圧縮される。圧縮および非圧縮データの両方が生成され、データが圧縮できない場合（ＬＺＲＷ３圧縮アルゴリズム性能がデータ依存であるために起こる場合がある）、元の非圧縮データを使用できる。セグメントの終端または読み出しフレームの終端の検出により現在のセグメント中の全データの処理が終わったことがわかるとすぐに、ヘッダ情報が出力緩衝装置７２のヘッダ領域に書き込まれる（最初の２４バイト）。

出力緩衝装置７２フォーマットの形式を下表に示す。

出力緩衝装置７２は、２台のセグメントリング緩衝装置として構成され、読み出し準備完了時の出力データ緩衝装置中にデータがあるかどうかを判断するために、ＰｏｗｅｒＰＣサブシステム１６上で実行するアプリケーションプログラムにより、データ処理システム割り込みの存在を使用するか、またはデータ処理システム制御／状態レジスタにポーリングすることにより準備完了の出力緩衝装置セグメントを検出することができる。

圧縮制御論理モジュール７０が新しいデータを出力データ緩衝装置７２に書き込むとき、ヘッド・ポインタは、テール・ポインタに追いつくまでリングの周りを前進する。このポイントで、圧縮制御論理モジュール７０からのデータストリームは、セグメントが出力緩衝装置７２のテールから解放されるまで、中断される。

上記のハードウェアは、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはカスタムシリコン中のＡＳＩＣ（特定用途向け集積回路）中に実装できる。従って、一実施形態は、このようなハードウェアを記述するプロセッサ制御コードを保持するキャリア（例えば、ＣＤ−ＲＯＭまたは光学または電気信号キャリアなどのディスク）を提供する。典型的には、この性質のハードウェアは、ＲＴＬ（レジスタ転送レベルコード）などのコード、または、より高位レベルの、例えば、ＳｙｓｔｅｍＣなどの言語を使って記述される。

一部の実施形態では、ハードウェアアクセラレータは、単一の集積回路上に実装される。

Ｃ１８２０ｍｍｘ１８０ｐｍトラップカラムおよびＣ１８１５ｃｍｘ７５ｐｍ分析逆相カラムを備えたｎａｎｏＡＣＱＵＩＴＹシステム（ＷａｔｅｒｓＣｏｒｐｏｒａｔｉｏｎ）を使って１００ｎｇの細胞質ゾル大腸菌トリプシン消化物標準を注入した。合計傾斜長さは、１２０分であった。

ＳｙｎａｐｔＧ２−ＳＨＤＭＳ質量分析計（ＷａｔｅｒｓＣｏｒｐｏｒａｔｉｏｎ）を使って５０〜２０００Ｄａ／ｅのｍ／ｚ範囲にわたり、２スペクトル／秒の速度、約２０、０００分解能（ＦＷＨＭ）で操作してデータを取得した。ＬＣ−ＭＳおよびＬＣ−ＩＭＳ−ＭＳの両方の実験で、機器をデータインディペンデント（ＭＳＥ）モードで操作し、低および高衝突エネルギーデータを交互に集めた。

損失のない圧縮：差別化、圧縮およびジッピング
質量スペクトルは、数の組（質量と強度）のリストと見なすことができる。実際、大抵の取得システムのその生の形でのデジタル的性質のために、これらの数は、通常、整数であり、本明細書では、質量指数および強度と呼ぶことにする。ゼロ強度のデータポイントは、通常廃棄される。

良好な密集度の質量スペクトルでは、連続した質量指数が接近して存在する場合が多い。

完全に詰まった極限のスペクトルでは、連続した質量指数間の差はすべて１である。同様に、良好に採取されたデータでは、データが一連のピークから構成されるため、連続したポイントに対する強度は高度に相関している場合が多い。

これらの相関は、連続した質量指数間、および強度間の差を縮減長のレコードに保存することにより活用できる。レコードのサイズが縮減されているので、割り付けられたレコードサイズを使って差値を保存できないケースが生じる。これらのオーバーフローは、より大きなレコードサイズ（例えば、４バイト）を利用した別の補正値の表に保存される。

図８ａは、元の質量指数値の保存に必要な合計メモリ、および、１２０分のＬＣ−ＭＳＥプロテオミクス実験で生じた質量指数差と補正値を保存するのに必要なメモリを示す。図８ｂは、同様に、元の強度値を保存するのに必要な合計メモリ、および、同じ実験から生じた強度差と補正値を保存するのに必要なメモリを示す。

割り付けるビット数は減らせるので、補正表のサイズが増大し、最終的にこれらがデータの全体サイズ内において優位を占めるようになる。この例では、最適レコードサイズは、質量差に対しては３ビット未満、強度差に対しては約８ビットである。

最終的には、上述のように圧縮されたデータは汎用圧縮アルゴリズムを使ってさらに圧縮できる場合が多い。

動的バックグラウンド減算
エレクトロスプレーデータは、多くの場合、約１Ｄａの周期で反復されるブロードピークのバックグラウンドを示す。これらは、分析物および溶媒分子の荷電クラスターを表すが、それらは通常有用な情報をもたらすことはない。しかし、ピーク形状はｍ／ｚと共にゆっくり変化するのみであり、データの移動ウィンドウ（通常約２０Ｄａ）を使って局所バックグラウンドピーク形状のモデルを構築でき、その後これをデータから減算できる。このプロセスは、低強度ピークから干渉を除くことができる。この干渉が除去されない場合には、低強度ピークから、ほとんどまたは全く情報を得られないであろう。

バックグラウンド減算の別の利点は、それによりデータセット中の正の強度を持つポイントの数を実質的に減らすことができるということである。図８ａおよび８ｂは、動的バックグラウンド減算の前後の質量スペクトルの一部を示す。このスペクトルの狭い部分では、非ゼロ強度のポイントの数は、およそ４５％減らされる。図９は、元のデータを含み、元のデータの図９ａは、正の強度を持つ１６３９ポイントを含み、一方、減算されたデータ（図９ｃ）は、正の強度を持つ８９９ポイントを含む。減算したバックグラウンドを図９ｂに示す。

データ掃引
閾値化は、データセットのサイズを縮減するための単純な方法である。この方法では、所定の閾値を超える強度のポイントが保持される。しかし、ピークは多くのデータポイントにわたり散在するので、分子種は連続質量スペクトルで表される。一律の閾値をデータに適用することにより、その先端が閾値を超える位置にあるピークの端に存在するポイントが廃棄される場合が多くなる。この影響は、多次元データで（この場合、ピークが各次元で幅を持つ）、かつ、良好に採取されている（ピーク幅全体にわたる多くのポイントが採取されている）データの場合にさらに重大になる。

本明細書で記載される方法では、局所ピーク幅の情報を使ってこの問題が克服される。多次元データセット中の所与の位置での仮定のピークの強度（または可能な最大強度）を推定するために使用できる多くの可能な方法がある。これらの方法には、単純総和、既知のピーク形状を使った相関関係およびさらに洗練された確率的手法が含まれる。

この計算は、ある所定の局所強度閾値を超える仮定のピークに寄与するとして標識されるデータおよびデータポイントのすべての位置で行うと理想的である。その後、非標識ピークは廃棄される。局所強度閾値は、データの位置と共に変わってもよく、また、例えば、特定の適用に対し最低質量精度要件を達成するように設定される場合もある。

２次元の掃引アルゴリズムの操作を図１０に模式的に示す。実際の１次元の例を図１１に示すが、この場合、機器分解能を使って掃引ウインドウの幅を設定し、１０イオンカウント超を有する推定上のピークに寄与するデータポイントを保持した。

図１０を参照すると、データ削減の「データ掃引」法を示す２Ｄデータセットの一部の模式図は、異なる強度のデータポイントに対応する異なるサイズのスポットを含む。可能なピーク位置のいずれも強度閾値を超えるピークに対応しない（一部の例は中空円により示される）ので、データポイント９００は廃棄される。９０２の標識のポイントは、より高い局所データ密度が理由で保持される。図１１でよくわかるように、動的バックグラウンド減算およびデータ掃引の累積効果を示す質量スペクトルの部分図は、元のデータＡ、およびバックグラウンド減算後のデータＢを含む。スペクトルＣは、１次元データ掃引後のデータを示す。

結果
元および圧縮形態のＬＣ−ＭＳＥデータセットを処理し、ＰｒｏｔｅｉｎＬｙｎｘＧｌｏｂａｌＳｅｒｖｅｒバージョンを使ってサーチした。

２．５．２．イオン検出閾値をバックグラウンド減算データの処理のために小さくしたが、それ以外のプロセスパラメータは同じとした。要求偽陽性率は４％とした。結果を下表４と５に示す。両方のケースで「元の」サイズは、機器により生成された元の生ファイルフォーマットを意味する。

この結果から、大きなデータ品質の損失なく、エレクトロスプレー飛行時間型ＭＳデータセットの有用な圧縮が可能であることがわかる。特に、１０倍を超えるＬＣ−ＭＳＥデータセットの圧縮が実現される。同時に、統計的に有意な数の特定されたタンパク質数の減少は観察されていない。興味深いことに、最後の損失のない圧縮ステップにおいて、最大の圧縮比が得られる。

当業者なら、おそらく、他の有効な代替法を思いつくであろう。本発明は、記載実施形態に限定されず、当業者には明らかな添付請求項の範囲内にある修正を包含することは理解されよう。

Claims

質量スペクトルデータを圧縮する方法であって、
質量分析計のイオン検出器から出力された第１の信号を受信すること、出力端子において、前記第１の信号をデジタル信号に変換処理して、出力された代表的な第１の信号のデータフレーム型とすること、
前記データフレーム型をメモリブロックに一時的に保存し、前記メモリブロックからデータフレームを読み込み、そのデータフレーム型を判定すること、およびそのデータフレーム型に基づいて１種または複数種の圧縮アルゴリズムを使って前記データフレームを圧縮して圧縮データ出力ストリームを生成すること、を含む方法。
前記第１の信号をデジタル信号に変換処理するステップが、アナログ・デジタル変換器を使って前記第１の信号をデジタル化することを含む請求項２に記載の方法。
質量スペクトルデータの複数の異なる領域または部分から強度分布を決定すること、前記質量スペクトルデータまたは前記質量スペクトルの１つまたは複数の領域もしくは部分に対し前記強度分布からバックグラウンド強度を推定すること、および前記推定バックグラウンド強度の影響を除くかまたは減らすために、前記質量スペクトルデータまたは前記質量スペクトルの１つまたは複数の領域もしくは部分の前記強度を調節すること、を含む請求項１または２に記載の方法。
前記１種または複数種の圧縮アルゴリズムが、
（ａ）それぞれのデータポイントに対し、前記方法を行うために使用する機器の予測特性から決定される前記質量スペクトルピークの理論予測プロファイルおよび／またはフットプリントを使って前記データポイントの位置の仮定の質量スペクトルピークの最大強度を推定すること、前記最大強度が所定の強度閾値を超える場合、前記フットプリントを持つ全てのデータポイントにフラグを立てること、および、全ての当該データポイントの処理が完了すると、フラグが立っていない全てのデータポイントを削除すること、
（ｂ）前記第１のデータポイントの前記強度と、前記第１のデータポイントに隣接する第２のデータポイントの強度との間の差を計算することにより第１のデータポイントに関する強度情報を得ること、
（ｃ）前記第１のデータポイントの前記質量指数またはｍ／ｚと、前記第１のデータポイントに隣接する第２のデータポイント質量指数またはｍ／ｚとの間の差を計算することにより第１のデータポイントに関するｍ／ｚ情報を得ること、
（ｄ）（ｂ）により得られる前記強度情報、および／または（ｃ）により得られる前記ｍ／ｚ情報を保存するために固定ビット数ｐを割り付けること、ｐビット中に前記情報を部分的にしか保存できない場合に、完全なまたはより高レベルの強度および／またはｍ／ｚ情報を保存するためにオーバーフロー保存領域を割り付けること、
（ｅ）第１のデータポイントに関する強度値を前記受信強度値の平方根に変換すること、
（ｆ）前記データポイントの前記強度、および／または前記データポイントが一部を形成する質量スペクトルピークの幅、および／または前記データポイントまたはその周辺のノイズ特性に依存するデータポイントの前記ｍ／ｚを記録するために、種々のファイルサイズを持つ複数のデータファイルフォーマットからファイルフォーマットを選択すること、
（ｇ）前記第１のデータポイントの前記質量指数またはｍ／ｚと、仮定の質量スペクトルピークの質量指数またはｍ／ｚとの間の差を計算することにより第１のデータポイントに関するｍ／ｚ情報、例えば、アンカーポイント、を得ること、および
（ｈ）Ｌｅｍｐｅｌ−Ｚｉｖおよび／またはハフマンコーディングなど、追加の損失のない圧縮を実行すること、
の内のいずれか１つまたは複数を含む請求項１〜３のいずれか１項に記載の方法。
前記手順（ｂ）、（ｃ）、（ｄ）および（ｈ）を実行することを含む請求項４に記載の方法。
前記方法が、例えば、いずれかのデータが記録される前に、リアルタイムで実行される請求項１〜５のいずれか１項に記載の方法。
前記データフレーム型が、データフレーム、スキャン統計フレームおよび読み出しフレームの内のいずれか１種である請求項１〜６のいずれか１項に記載の方法。
前記出力された第１の信号が、電圧および／または１種もしくは複数種のイオン到着時間および／または１種もしくは複数種のイオン強度である請求項１〜７のいずれか１項に記載の方法。
請求項１〜８のいずれか１項に記載の方法を実行するためのコンピュータソフトウエアプログラム。
請求項１〜８のいずれか１項に記載の方法を実装するためのハードウェアを構成するプロセッサ制御コードを保持するキャリア。
請求項１〜８のいずれか１項に記載の圧縮する方法を実行するように構成されたハードウェアモジュール。
質量スペクトルデータを圧縮するハードウェアモジュールであって、
イオン検出器から出力された第１の信号であって、イオン到着時間および／またはイオン強度を特徴とするデータである入力データを受信するための入力端子；
入力端子において前記第１の信号を受信し、前記第１の信号をデジタル信号に変換処理するためのアナログ・デジタル変換器；前記デジタル化された第１の信号を受信し、前記第１の信号をデータフレーム型に変換処理するための論理ゲートを有する第１のプロセッサブロック；前記データフレーム型を受信するための入力端子および前記データフレーム型を一時的に保存するためのメモリブロックを備えた緩衝装置、ならびにメモリブロックからデータフレームを読み込み、そのデータフレーム型を判定し、そのデータフレーム型に基づいて１種または複数種の圧縮アルゴリズムを使ってデータフレームを圧縮して圧縮データ出力ストリームを生成するための圧縮制御論理ブロックに接続された出力端子を含む第２のプロセッサブロック、を含むハードウェアモジュール。
出力された第１の信号が、電圧および／または代表的な１種もしくは複数種のイオン到着時間および／または１種もしくは複数種のイオン強度である請求項１２に記載のハードウェアモジュール。
前記第１のプロセッサブロックが、前記デジタル化された第１の信号の並列処理を可能とする多重処理ブロックを含むことができる請求項１２に記載のハードウェアモジュール。
前記第２のプロセッサブロックが、前記強度値の総和および／またはグルーピングを行うことにより前記第１のプロセッサブロックからの複数データストリームを単一データストリームに結合するためのスキャンコンバイン論理ブロックを含むことができる請求項１２に記載のハードウェアモジュール。
前記圧縮制御論理ブロックが、例えば、フィールドプログラマブルゲートアレイ（「ＦＰＧＡ」）またはグラフィックプロセッサユニット（「ＧＰＵ」）を使って、前記圧縮をリアルタイムで行う請求項１２〜１５のいずれか１項に記載のハードウェアモジュール。
請求項１２〜１６のいずれか１項に記載のハードウェアモジュールを含む質量分析計。