JP2006510908A

JP2006510908A - 液体分離またはクロマトグラフィーを用いてペプチドを予想する場合の精度を増強する方法

Info

Publication number: JP2006510908A
Application number: JP2004562367A
Authority: JP
Inventors: ラースジェイ．カンガス; ケネスジェイ．オーベリー; ゴードンエイ．アンダーソン; リチャードディー．スミス
Original assignee: バッテルメモリアルインスティチュート
Priority date: 2002-12-18
Filing date: 2003-12-18
Publication date: 2006-03-30
Also published as: WO2004057342A3; US7136759B2; AU2003297475A1; EP1573639A2; WO2004057342A2; US20040121487A1; CA2505006A1

Abstract

第一に、既知のペプチドの既知の溶出時間のデータセットを提供すること、次にそれぞれのベクトルが複数の大きさを有し、それぞれの大きさがデータセットからのこれらの既知のペプチドのそれぞれに存在するアミノ酸の溶出時間を表す複数のベクトルを作製することによって、クロマトグラフィー分離および電気泳動分離におけるペプチドの溶出時間を予測する方法。次に、任意のタンパク質の溶出時間は、少なくとも一つの仮説上のペプチドのアミノ酸の溶出時間に大きさの値を割り当てることによって最初にベクトルを作製すること、次に、既知のペプチドの大きさの値を用いて仮説上のペプチドの大きさの値の多変量回帰を行うことによって、ベクトルの予想溶出時間を計算することによって、予想される。好ましくは、多変量回帰は、人工的なニューラルネットワークを用いることによって行うことができ、溶出時間は、伝達関数を用いて最初に標準化される。

Description

本発明は、液体分離またはクロマトグラフィーを用いてペプチドを予想する場合の精度を増強する方法に関する。

関連出願の相互参照
適用外

連邦政府助成研究または開発に関する声明
本発明は、米国エネルギー省により授与された契約DE-AC0676RLO1830に基づいて政府の支援を受けて行われた。政府は本発明において一定の権利を保有する。

配列表に対する参照
本明細書において記述したそれぞれのタンパク質配列は、米国特許法施行規則1.821条〜1.825条に従ってコンピューター読み取り可能型のコンパクトディスクの形で米国特許商標庁に提出されている。その提出書の写しを本明細書に添付する。コンピューター読み取り可能な形で記録された配列表情報は、書面での配列表と同一である。

発明の背景
液相分離（例えば、液体クロマトグラフィーおよび電気泳動分離）は、分子、特にペプチドの構造を同定しようとする科学者および研究者によって研究ツールとして長い間用いられてきた（本明細書において用いられるように、「ペプチド」という用語は、一つより多いアミノ酸を有するポリマーを指し、これにはジペプチド、トリペプチド、オリゴペプチド、およびポリペプチドが含まれるがこれらに限定されない。「タンパク質」という用語は、一つまたはそれ以上のポリペプチド鎖を含む分子を指す）。

プロテオミクスは、タンパク質の広く系統的な分析を含み、これにはその同定、定量、および最終的に一つまたはそれ以上の生物機能の属性を含む。プロテオミクス分析は、タンパク質の量が非常に複雑であること、およびダイナミックレンジのために困難である。生物学の工業化には、発現されたタンパク質の系統的な分析を高スループットな方法で、しかも高い感度で行うことが必要であり、さらに問題は困難になる。機器、生物情報学、および自動化における最近の技術の進歩は、この目標に向けての進歩に貢献してきた。特に、プロテオーム同定の領域では、特異性がより高ければ、プロテオームの高い複雑性を扱う能力に利益をもたらすことは明白である。その結果、最近の努力は、分離速度、分解力、およびダイナミックレンジにおける改善に集中しており、これらの方法は一般的に、同定するために、タンデムマススペクトルと確立されたタンパク質データベースまたはゲノム配列からの予測値との相関を用いる、質量分析（MS）による分離との併用に基づいている。

さらに、現代のプロテオミクス研究は、クロマトグラフィーカラムからのその溶出時間によってタンパク質を同定する液体クロマトグラフィーの能力をますます活用している。液体クロマトグラフィーから収集された情報は、液体クロマトグラフィーをオンラインまたはオフラインで質量分析計に接続することによって、分子の質量、または質量対電荷を同定することによって、増強することができる。一般的な方法には、オフラインでトリプシン消化して、その後マトリクス補助レーザー脱離／イオン化またはエレクトロスプレー飛行時間型またはイオントラップ型質量分析と共に、電気泳動またはクロマトグラフィーによる分離を行うことが含まれる。オンラインでエレクトロスプレーインターフェースと接続させたキャピラリー電気泳動、質量分析、または液体クロマトグラフィー／質量分析も同様に、全細胞溶解物およびヒト体液のような複雑な生体試料のトリプシンおよび他の消化物を分析するために用いられている。これらの方法における質量分析計のダイナミックレンジは、試料がエレクトロスプレーおよび検出器にイオン抑制によって直接注入される場合には限定される可能性がある。さらに、フーリエ変換イオンサイクロトロン共鳴（FTICR）およびイオントラップ型質量分析計のダイナミックレンジは、機器内の保存容量によって限定されうるが、FTICRセルを選択的にローディングするために質量選択的四重極子を用いることが示されている。

研究者らは、これらの方法の精度を増強しようとして、その精度を増加させるための多くのスキームを考案した。例えば、Analytic Chemistry、4〜9頁、2002年のMagnus Palmblad、Margareta Ramstrom、Karin E. Markides、Per Hakansson、and Jonas Bergquistによる「Prediction of Chromatographic Retention and Protein Identification in Liquid Chromatography/Mass Spectrometry.」と題する論文において、著者らは、正確な質量の測定に基づいてペプチド質量フィンガープリンティングを改善するために、クロマトグラフィーおよび電気泳動法のような液体分離スキームからの情報を用いる方法を記述している。著者らは、クロマトグラフィー分離における分解能および精度が質量分析の場合より数オーダーの規模で低いことを認めているが、彼らはその情報は、本来補則的であり、コンピューターによるコストが無視できるほどで、しかもさらなる実験コストなしに利用できると主張している。簡単に説明すると、Palmbladの論文に記述された方法は、アミノ酸20個に「保持計数」を割り当てるのみならず、各アミノ酸の数、空隙容量を代償する項、および試料注入と質量分析の獲得との間の遅延を割り当てている。次に、 HAS 100個までのBSAペプチド70個まで、ならびに正確な質量測定および質量分析における高い相対強度によって推定的に同定されたトランスフェリンペプチドからの実験データに、パラメータを最小二乗法によって適合させる。著者らは、「予測子の精度は、BSA 6個およびCSFデータセットのそれぞれによって「訓練した」場合に8〜10％であることが判明した」ことを見いだした。Palmbladの論文に記述されたようなアプローチは何らかの有用な情報を提供するが、予測の精度のためにその有用性は限られている。

このように、現在、プロテオミクス分析に対して二つの主要なアプローチが存在する。一つ目は、二次元ポリアクリルアミドゲル電気泳動（2D-PAGE）とMSとのオフライン併用からなる。タンパク質をまず、ゲルにおいてそのpIおよび質量によって分離して、その後タンパク質の「スポット」を酵素的に加水分解してペプチド混合物を得て、これをマトリクス支援レーザー脱離イオン化飛行時間型（MALDI-TOF）またはエレクトロスプレー（ESI）-MSによって分析する。もう一つの迅速な発展的アプローチは、包括的なプロテオーム全体の酵素消化後に、ESI-MSに接続したオンライン1-Dまたは2-D液体クロマトグラフィー（LC）を用いる分析を行うことからなる。ペプチドの検出は、タンデムMS（7、13）またはより最近は、タンデムMSを用いることなく日常的な適用において高い感度、大きいダイナミックレンジ、および高スループットを提供する第一段階フーリエ変換イオンサイクロトロン共鳴（FTICR）-MSによって行う。

まだ活用されていないプロテオミクス分析の一つの局面は、分離から利用できる情報（例えばLC溶出時間）を利用することを含む。実際に、LCにおける保持時間は、定義された実験（移動相の組成、静止相等）に関して独自で構造的に独立である。所定のペプチド構造に関してLC保持時間を予測する方法があれば、これをいずれのMS/MSデータと共に用いてペプチド同定の信頼性を改善する、および／またはペプチド同定数を増加することができる、または十分に高い精度のMSによってMS/MSデータ（すなわち予測が十分に信頼できる場合）の必要性を減少させることができるであろう。

ペプチドのクロマトグラフィー挙動がアミノ酸組成に基づいて予測できるという考え方は新しいものではない。1951年に、KnightおよびPardeeは、ペーパークロマトグラフィー上での合成ペプチド保持因子（R_f）値を、ある程度の精度で予測できることを示した。1952年に、Sangerは、同じアミノ酸を含むが異なる配列を有するペプチドをしばしば分離できることから、R_fと組成との関係は絶対的に正確ではないことを証明することにより異性体の問題を提起した。より最近、逆相（RP）または順相液体クロマトグラフィーにおけるペプチドの溶出時間の予測に関していくつかの報告がある。これらの方法は、ペプチド溶出時間予測のために定量的構造-クロマトグラフィー保持関係（QSRR's）（例えば、部分的最小二乗または多重直線回帰）を用いた。Casalらは、部分的最小二乗回帰が、小さい標準的なペプチド25個の混合物を用いて、これらのモデルについてより良好な予測能を提供することを証明した。これらのモデルの一つの限界は、それらがアミノ酸残基15〜20個未満のペプチドに関して最も有効である点である。

人工ニューラルネットワーク（ANNs）に基づくもう一つのアプローチは、（i）小さいペプチドの立体配座状態（31）；（ii）炭素-13核磁気共鳴化学シフト、ならびに（iii）薄層クロマトグラフィー、GC、およびLCにおける低分子の遅延因子または保持時間、を含むいくつかの化学領域においてより良好な予測能を証明した。これらの進歩は有意であるが、本発明までは、ペプチド溶出時間予測のためにANNを利用した当業者はいなかった。

したがって、ペプチドおよびタンパク質の同定を予測するための改善された方法が必要である。

発明の簡単な概要
したがって、本発明の目的は、液体分離におけるタンパク質およびペプチドのような化学的に関連する化合物の溶出または保持時間を予測する方法を提供することである。本明細書において用いられるように、「液体分離」には、標準および逆相を含む液体クロマトグラフィー、キャピラリー電気泳動のような電気泳動分離、フィールドフローフラクショネーション（field flow fractionation）、およびそれによってこれらの技術の一つまたはそれ以上を組み合わせる方法が含まれるがこれらに限定されない。本発明は、最初に既知のペプチドの既知の溶出時間のデータセットを提供することによって、この目的を達成する。このデータは、典型的に多数の分離実験から得られる。次に、本発明のさらなる目的は、それぞれのベクトルが複数の大きさを有し、それぞれの大きさがデータセットからのこれらの既知のペプチドのそれぞれに存在するアミノ酸の溶出時間を表す、複数のベクトルを作製することである。次に、任意のタンパク質の溶出時間は、少なくとも一つの仮説上のペプチドのアミノ酸の溶出時間に関する大きさの値を割り当てることによってベクトルを最初に作製した後、既知のペプチドの大きさの値を用いて仮説上のペプチドの大きさの値の多変量回帰を行ってベクトルの予想溶出時間を計算することによって、予測される可能性がある。好ましくは、多変量回帰は、人工ニューラルネットワーク（本明細書において以降、「ANN」と呼ぶ）を用いることによって行われ、より好ましくはANNは「フィードフォワード」ANNである。ANNの訓練には、最急降下アルゴリズムおよび共役勾配アルゴリズムが含まれるが、これらに限定されない当技術分野で既知の任意の訓練法によって行ってもよい。好ましい最急降下アルゴリズムには、バックプロパゲーションアルゴリズム（backpropagation algorithm）およびクイックプロップアルゴリズム(quickprop algorithm)が含まれるがこれらに限定されない。データセットにおける既知のペプチドおよび仮説上のペプチドの大きさの値のそれぞれに割り当てられたベクトルを割り当てる前に、線形または非線形関数を用いてデータセットを作製するために用いられる多数の分離実験の溶出時間を標準化することが好ましい。多重回帰を行うことによって、この関数を最適化することがさらに好ましい。多重回帰の好ましい方法は、遺伝的アルゴリズムである。

本発明の方法の操作および使用は、下記の本発明の好ましい態様の詳細な説明に記述される。当業者は、多変量回帰のために選択される特定のアルゴリズム、伝達関数およびこの好ましい態様においてANNを訓練するために用いられる方法に関して同等の方法が存在することを容易に認識するであろう。同様に、好ましい態様は、質量分析計に接続した液体クロマトグラフィーに適用されるように、本発明の方法を記述するが、本発明の方法は、質量分析計、および質量分析計によって提供されたデータを用いるか否かによらず、適用可能であることは当業者によって認識されるであろう。さらに、当業者は同様に、本発明によって提供された利益がまた、質量分析計を他の適した検出手段に置換した場合においても適用可能であることを認識するであろう。好ましい態様は、液体クロマトグラフィーと共に本発明の方法を記述するが、本発明には、通常および逆相クロマトグラフィーの双方が含まれると理解すべきであり、電気泳動分離が含まれるがこれらに限定されないさらに他の分離技術と共に容易に利用してもよいことは明らかであろう。したがって、本発明に記述の好ましい態様に多くの変更および改変を行ってもよく、それらもそのより広い局面において本発明に含まれること、ならびに質量分析器のような検出手段と共に用いられるか否かによらず、全ての分離方法論、および多変量回帰、伝達関数、およびANNを訓練するために用いられる方法に関する全ての同等のアルゴリズムは、添付の請求の範囲に記載されるように本発明の真の趣旨および範囲に含まれると解釈すべきであることは当業者には明らかであろう。

発明の好ましい態様の詳細な説明
本発明の好ましい態様を示すために一連の実験を行った。簡単に説明すると、プロテオーム全体のタンパク質から酵素的に消化されたペプチドの逆相液体クロマトグラフィー保持時間を予測するために、ANNを展開した。多数のLC-MSデータセットの比較を可能にするために、遺伝的アルゴリズム（以降「GA」）を作製して範囲（0〜1まで）にペプチド保持データを標準化して、ペプチド溶出時間の再現性を約1％まで改善した。本試験において開発されたネットワークは、アミノ酸残基の組成に基づき、入力層20節、隠れ層2節、および出力層1節（20-2-1）からなっている。微生物デイノコッカス・ラジオジュランス（Deinococcus radiodurans）から確信を持って同定されたペプチド約7000個のデータセットを、ANNの訓練のために用いた。次に、ANNを用いて、異なる微生物（シェワネラ・オネイデンシス（Shewanella oneidensis））からのMS/MSによって仮に同定されたもう一つの組のペプチド5200個の溶出時間を予測した。モデルは、平均精度〜3％でアミノ酸残基54個までのペプチドの溶出時間を予測することが判明した（最も長いペプチドは、S.オネイデンシスのトリプシン加水分解後に同定された）。この予測能を用いて、そうでなければフーリエ変換イオンサイクロトロン共鳴質量分析によって区別できない高い信頼性で等重ペプチドを区別すると共に、明らかなペプチドの誤同定を発見した。このように、プロテオミクス研究にANNペプチド溶出時間の予測を組み入れると、タンパク質の同定数およびその信頼度の双方が増加するであろう。

D.ラジオジュランスおよびS.オネイデンシス細胞をTGY培地において、600 ODが約1.2となるまで培養して、4℃、10,000 gで遠心することによって回収した。溶解の前に、細胞を再懸濁させて、100 mM重炭酸アンモニウムおよび5 mM EDTA（pH 8.4）によって3回洗浄した。細胞を、5000 rpmで1分のサイクル3回によって0.1 mm酸ジルコニウムビーズと共にかき混ぜることによって溶解した。ビーズとかき混ぜる各サイクルのあいだ、試料を氷中で5分間インキュベートした。可溶性の細胞内可溶質タンパク質を含む上清を15,000 gで15分間遠心後に回収して、細胞の破片を除去した。塩酸グアニジン（6 M）およびDTT（1 mM）をそれぞれ加えて、タンパク質を変性させて還元した後、5分間沸騰させた。消化させる前、試料を、100 mM重炭酸アンモニウム（pH 8.4）によって平衡にした分子量カットオフ5000の「D-塩」重力カラム（ピアス（Pierce）、ロックフォード、イリノイ州）を用いて脱塩した。タンパク質を、シークエンシング等級の改変トリプシン（プロメガ（Promega）、マディソン、ウィスコンシン州）を用いて酵素／タンパク質比1：50（w/w）で37℃で16時間酵素的に消化した。

HPLC等級の水およびアセトニトリルをアルドリッチ（Aldrich、ミルウォーキー、ウィスコンシン州）から購入した。融合シリカ（fused-silica）キャピラリーカラム（30〜60 cm、内径150 μm×外径360 μm、ポリミクロテクノロジーズ（Polymicro Technologies）、フェニックス、アリゾナ州）を、その全内容が参照として本明細書に組み入れられる、Shen, Y；Zhao, R；Belov, M. E.；Conrads, T.P.；Anderson, G.A.；Tang, K.；Pasa-Tolic L.；Veenstra, T.D.；Lipton, M.S.；Udseth, H.R.；Smith, R.D.；Anal. Chem. 2001、73：1766〜1775に記述されるように、5 μm C18粒子と共に充填した。簡単に説明すると、ISCO LCシステム（モデル 100 DM、ISCO、リンカーン、ネブラスカ州）を用いてキャピラリーRPLCを行った。勾配溶出の移動相は（A）酢酸／TFA／水（0.2：0.05：100 v/v）および（B）TFA／アセトニトリル／水（0.1：90：10 v/v）であった。二つのISCOポンプを用いて5000 psiで輸送される移動相を、ステンレススチール製のミキサー（〜2.8mL）において磁気攪拌子によって混合してから、流れを分配して、分離キャピラリーに入れた。融合シリカキャピラリーフロースプリッター（内径30 mmで様々な長さ）を用いて勾配速度を操作した。キャピラリーRPLCをESIインターフェース（ステンレススチール製の継ぎ手を用いてESIエミッターとキャピラリー分離カラムとを接続した）を通してMSにオンラインで接続した。ペプチドデータベースは3.5、7、および11.4 テルサ（telsa）FTICR機器（その全内容が参照として本明細書に組み入れられる、Harkewicz, R.；Belov, M.E.；Anderson, G.A；Pasa-Tolic L；Masselon, C.D.；Prior, D.C.；Udseth, H.R；Smith, R.D.；J. Am.Soc. Mass. Spectrom. 2002、13：144〜154およびその中の引用文献において詳細に記述されている）のみならず、いくつかのイオントラップ型質量分析計（LCQ、LCQ Duo、LCQ DecaXP、サーモフィニガン（ThermoFinnigan）、サンノゼ、カリフォルニア州）を含む、いくつかの質量分析計を用いて作製されている。用いたANNソフトウェアは、ニューロウィンドウズ（登録商標）（NeuroWindows（登録商標））バージョン4.5（ワードシステムグループ（Ward System Group）、アメリカ）であり、ペンティアム（登録商標）1.5 GHzパーソナルコンピューター上で標準的なバックプロパゲーションアルゴリズムを利用した。

ANNsに基づくアプローチは、古典的な統計的方法と比較して長所を有し、このアプローチには、基礎となる現象の詳細な理解を必要とせずに、複雑なデータを自己学習してモデルとする能力が含まれる。

それが最も一般的な学習アルゴリズムであるために、時にバックプロパゲーションニューラルネットワークと呼ばれるフィードフォワードニューラルネットワークモデルをこれらの実験に用いた。これは、その全内容が参照として本明細書に組み入れられる、Werbos, P.J.、「Beyond regression：New tools for predictive and analysis in the behavioural sciences」、PhD論文、ハーバード大学、ケンブリッジ、マサチューセッツ州、1974およびWerbos, P.J、「The Roots of Backpropagation」、ジョンウィリー&サンズ、ニューヨーク、1994に記述されるように、多数のニューロン、節、または一連の層に構築されたプロセシング要素で構成される。これらのANNモデルの構築は、少なくとも二つの層を含む：データベクトルにおける各変数に関して1つの節を有する入力層、および調べる各変数に関して1つの節からなる出力層。さらに、データの複雑度がそのように要求する場合には、一つまたはそれ以上の隠れ層を入力層と出力層のあいだに加えることができる。任意の層における節は図1に示されるその後の層の節に完全または部分的に接続することができるが、それぞれの隠れ層または出力層の節は、同時にシグナルを受ける。節に対する入力シグナルは、それぞれのリンクに沿って重み（w）によって調節される。このように、節に対する真の入力は、節およびその関連する重みの全てに対する全てのシグナルの関数である。例えば、節jの真の入力は以下の式で与えられる：

式中、iは、前の層における節を表し、w_ijは、節iから節jへの接続に関連した重みであり、O_iは、節iの出力である。

節の最終的な出力シグナルは通常、特定の間隔に限定され、すなわち0と1のあいだである。ニューロンに対する真の入力は、このように、伝達関数を用いてさらなる変換を受ける。連続性の要件を満足し、バックプロパゲーションアルゴリズムによって設定されるいくつかの伝達関数が利用可能である。最も一般的なものは、以下の式で与えられるシグモイド関数である：

本質的に、隠れ層および出力層における節に適用されるこれらの等式によって、これらのANNsは、シグモイド関数を用いて多数の多変量非線形回帰を行うことができ、それぞれの層内部の節の平行なプロセシングのために、これらのANNは、多変量非線形機能の学習能を有する。

重みを最適な値の組に適合させるプロセスは、ニューラルネットワークの訓練と呼ばれる。ニューラルネットワークを訓練するために、いくつかの訓練アルゴリズムが存在する。そのような関数の例は、その全内容が参照として本明細書に組み入れられる、Rumelhart, D.E.；Hinton, G.E.；Williams, R.J.、「Learning internal representations by error propagation, Parallel Disturbuted Processing：Explorations in the Microstructures of Cognition」、1巻；Foundations, Rumelhart, D.E.；McClelland, J.L.；（編）、MIT出版、ケンブリッジ、マサチューセッツ州、アメリカ、318〜362頁、1986に詳細に記述されている。これらの実験に関して選択されるバックプロパゲーションアルゴリズムは一例であるが、本発明は、本実施例に如何なるようにも限定されないと見なすべきである。

保持時間を標準化するための「知的な」アルゴリズムは、シリンジポンプを用いた一定の高圧キャピラリーLC分離に関連する変動のために、多数のLC-MS実験を比較することが望ましかった。分割比、カラムの長さ、カラムの充填、空隙容量等における小さい変化は、何らかの保持時間の変動に至ることが知られている。このように、全てのペプチド保持時間は、遺伝的アルゴリズム（GA）を用いて範囲[0、1]に標準化した。

Holland, J.H.、「Adaptation in Natural and Artificial Systems.」ミシガン大学出版、アナーバー、ミシガン州、1975、およびGoldberg, D.E.、「Genetic Algorithms in Search, Optimisation and Machine Learning.」、Addison-Wesley, Reading, MS、1989（そのそれぞれの全内容が参照として本明細書に組み入れられる）に記述されるように、GAは、進化的計算および適者生存に基づいたアルゴリズムであり、仮説関数における自由変数を最適化するような、最適化問題にしばしば適用される。問題に対する解は、世代を超えて進化する個体として符号化されている。本発明者らの符号化における個体は、標準化される各実験の傾きおよび切片の真の値（線形関数）のベクトルである。各世代における最適な個体は、交叉および変異オペレータを通して次世代を生じ、最善の「遺伝子」を組み換えする。次に、子孫における「遺伝子」を、次の段階で小さい値および小さい確率によって混乱させる。この反復性のプロセスによって、最善の解である最適個体が次第に精製される。

GAを、同じペプチドが異なる分離においても同じ標準化溶出時間（NET）で溶出されるように、共通のタイムラインを確立するために、LC-MS-MS分析687回から同定されたペプチド51,150（異なる9,121個）に適用した。GAは、各実験に関して二つの線形等式変数、y＝kx＋mにおけるkおよびmを最適にするために設定した（図2は個体の符号を示す）：一つの変数（m）は、記録時間の開始を標準化して、他の変数（k）は、勾配速度を標準化した。GAは、特異的ペプチドの分散関数、すなわち各分離に関する回帰溶出時間を減少させるために各分離に関するこれらの二つの変数を最適にした。多重直線回帰に関するこの最適化スキームによって、ペプチド溶出時間を共通の[0、1]範囲へと標準化した。

1回より多い実験において検出されたペプチド（5270個）に関するNETの平均分散は0.000276（標準偏差0.016615）である。好ましくは、制限的に解釈されないが、保持時間の標準化をさらに改善するために、クロマトグラムの最初、中間、および終了時に溶出する標準ペプチドの組を選択する。

ANN訓練セットは、RPLC/ESI-イオントラップMSによって測定された、信頼を持って同定されたD.ラジオジュランスペプチド6958個からなり、RPLC-ESI-FTICR-MSを用いて高い質量測定精度でD.ラジオジュランスポリペプチド混合物中に存在することをさらに確認した。各ペプチドは、ペプチドを構成するアミノ酸残基20個のそれぞれの標準化数からなる大きさを有する20次元のベクトルとして符号化された。各残基数を、D.ラジオジュランスデータベースにおける任意のペプチドにおけるその残基の最大数の分画に標準化した。これらのペプチド符号化ベクトルを、バックプロパゲーションアルゴリズムによってANNに繰り返し入力して、出力誤差を減少させた。出力誤差は、ANNの標的値と予測値とのあいだの差の平方である。この場合、標的値は、ペプチドの既知のNETであった。このように、ANNは、符号化されたペプチドベクトルとその測定されたNETとの関係を学習した。

ANNに関する隠れ層の立体配座は、経験的に、訓練の際の交叉バリデーションデータセットを用いて決定した。一般的に、節が少なすぎる隠れ層は、データを十分にモデル化しない可能性がある。節が多すぎる隠れ層は、訓練セットにおけるデータを過剰適合して、新しいデータに関する有効な予測能を提供しない可能性がある。ANNをDRペプチドの97％について訓練して、残りのデータによって交叉バリデーションを行った。典型的に、データセットの誤差が減少しなくなれば、交叉バリデーションデータセットを用いて訓練を停止させる。この点を超えることは、ANNが交叉バリデーションセットに存在しない訓練セットにおけるノイズから「学習している」ことを示唆している。ANNのペプチド溶出データによる訓練における経験から、ANNを過剰に訓練することができないことが示された。訓練の誤差と交叉バリデーションデータセットはいずれも、値を最小限にするために急速に収束した。隠れ層がない場合のかわりに2節の隠れ層を用いることによって、わずかな改善が実現された。隠れ層の節を3個に増加すると、さらによりわずかな改善が得られた。表1は、訓練セッション7回における隠れ層の節の数の関数としての誤差率を示す。誤差を減少することができる、またはデータを過剰適合させることができるバックプロパゲーションアルゴリズムがない場合には、隠れ層を多数の節に増加させることができるであろう。節2個を有する隠れ層は、一般性をおそらく犠牲にすることなくほぼ最適なレベルまで誤差を減少させることから、これが用いられた。誤差は0.001〜0.1までの範囲の異なる学習速度で収束したように思われたことから、訓練を1000回で停止した。入力層の節20個-隠れ層の節2個、および出力層の節1個（20-2-1）を有する最終的なANNモデルを図3に記述する。

表2は、D.ラジオジュランスペプチドによる訓練後に、アミノ酸残基について計算されたANNの重みを要約する。重みから、本発明者らは、ペプチドの保持時間に最も影響を及ぼすアミノ酸はロイシンであると見ている。

RPLC-ESI-イオントラップMS/MSを用いて、微生物S.オネイデンシスから同定されたペプチドを用いてANNモデルを評価した。分析157回からのペプチド7080個に関してS.オネイデンシスNETを予測する平均誤差は、0.047983または〜4.8％であった。図4aは、異なる分離157回において同定されたS.オネイデンシスペプチド7080個に関する予測標準化溶出時間（Nets）のプロットを示す。これらの結果は、訓練セットにおいてD.ラジオジュランスとは異なり、S.オネイデンシスペプチドのペプチド同定における不確実性が正確な質量測定を用いて確認されなかったために、最悪のケースであると見なすべきである。さらに、図4aにおけるデータは、LC溶出予測に関する誤差の極値を示唆しているが、平均値周辺の誤差の分布を明らかに示していない。プロットにはまた、分離間の変動による誤差が含まれ、これは標準化プロセスにおいて完全に除去されない（および溶出時間調整を用いることによって利益が得られるであろう）。

有意な数のS.オネイデンシスペプチドが、157回の実験全てにおいて1回または数回同定され、このことは、それらが誤同定である可能性があることを示唆している。これは、実験数を増加させた場合に出現する必要があるペプチドについてモデルを試験した場合に、予測誤差の平均値が急激に減少したという知見によって支持される。同じ回数の実験からS.オネイデンシスペプチドからのより厳密な誤差の測定、および偽誤同定を減少させるために、少なくとも20、40、または60回出現する各ペプチドはそれぞれ、誤差平均3.86、3.67、および3.66％を生じた（図4b〜dを参照されたい）。これらの実験との相関が不良である（すなわち、プロットが非常に分散している）ペプチドは、少なくとも60回発生したペプチドのみを選択した場合に消失することが認められ、この場合もあまり頻繁に認められないペプチドはおそらく誤同定されていることを示唆している。さらに、S.オネイデンシスの予備的なLC-FTICR実験は、多数のイオントラップによる同定が、正確な質量測定に基づいておそらく正確であることを意味した。このように、正確な同定の確率が増加すると、予想溶出時間とのより良好な一致が認められる。

図5は、少なくとも20回同定されたこれらのS.オネイデンシスペプチド1270個の誤差分布を示す。この曲線は、正確に同定されたペプチドに関する予測モデルの成績に関する真の分布に近づくと推定される。このペプチドの組に関して、50％は、測定されたNETの+/-2.97％以内で予想され、95％より多い組は、測定されたNETの+/-10％以内で予測される。

先の内容に関連して本発明者らのモデルの主要な長所の一つは、より長いペプチドに関してより正確な予測を提供する点である。表3から認められうるように、誤差平均は、大きさが20量体までのペプチドに関しては非常に低く、その後より長いペプチドに関して誤差はごくわずかに増加する。

必ずしも全てのペプチドが、その正確な質量測定またはMS/MS実験のいずれかによって正確に同定されうるとは限らないというまさにこの事実によって、本研究は、ペプチドを同定するためのさらなる測定基準として溶出時間を利用するように促された。ペプチド溶出の予測を用いることは、LC-FTICRによる等重ペプチドの同定にとって特に興味深いであろう。図6から認められうるように、本発明者らのモデルについて正確に予測された有意に異なる溶出時間により、等重のD.ラジオジュランスペプチド

を区別することが可能であった。これらの二つのペプチドは、同じ分子式を有するが、興味深いことに、それらは異なる荷電を有する。さらに、表4から示されるように、いくつかの等重ペプチド（1 ppm質量精度でも区別できない）は、異なる保持時間を有し、これらは本発明者らのモデルによって同定された。その上、異なるIle/Leu比

を有する等量ペプチドも同様に、これらのアミノ酸残基に割り当てられた異なるANNの重みにより、区別することが可能であった。当然、いくつかのペプチドは、非常に類似の保持時間を有するであろう（すなわち、等重ペプチド

は、同じNET＝0.26を有する、データは示していない）。このアプローチは、可能性があるペプチドの数が大きく増加する場合、より高い複雑度のプロテオームにとってさらにより有用となるであろう。例えば、1605.851 Daおよび1605.863 Daのあいだの典型的な7 ppmの「ウィンドウ」において、ヒトプロテオームは、トリプシンペプチド12個を符号化する。しかし、三つのペプチド

は、質量1605.86264 Daを有し、質量によって区別することができない。しかし、重要なことに、これらのペプチドは、多くの異なる予測LC保持時間を有すると予想される。

本明細書に記述の好ましい態様は、ペプチドのアミノ酸組成を考慮に入れるのであってその配列は考慮しないこと、したがってこのようにいくつかのペプチドはLCにおいてしばしば分離されることが示されているが、等量ペプチド（同じアミノ酸が異なる順序で存在する）は同時に溶出すると予想されることを指摘しなければならない。立体配座および最近接効果のような配列依存的作用は、予測された保持時間から偏差するさらなる要因となる可能性がある。最近、Wimleyら（52）は、宿主-ゲストペンタペプチドACWL-X-LLにおけるゲスト（X）側鎖の場合に閉鎖効果が起こる可能性があり、それによってペプチドの全体的な疎水性の変化が起こる可能性があることを示した。本発明は、選択された配列の特徴を組み入れて、それによって配列の変動の区別能を含む予測を増強する、これらの実験において記述されるANNより洗練されたANNを含むと理解すべきである。これらのANNは、ANNにおける配列情報のいくつかの局面がさらに含まれる、本明細書において記述された異なるペプチド保持時間に対して、より大きい実験データセットを利用するであろう。最後に、本明細書に記述の実験は、その訓練のためにトリプシンペプチドを利用する場合に対して固有の弱さを有する。このように、本研究において用いたペプチドには、誤切断が起こった場合を除いて、アルギニンおよびリジンが1回限り含まれる。その基本的特徴のために、これらのアミノ酸は、これらのペプチドのpKa／見かけの荷電を変化させ、そしてそのためにその保持時間を変化させる。その結果、アルギニンおよびリジンに関して与えられた値は、その構造にさらなるアルギニンまたはリジン残基を有する非トリプシンペプチドには当てはまらないであろう。これは、理想的なトリプシンタンパク質溶解の場合には問題とならないが、そのような誤切断は、全体的なプロテオーム研究において一般的に認められる。この問題を克服するために、ANNは、一つより多いリジンまたはアルギニン残基を含むペプチドに関してより正確に保持時間を予測するように訓練すべきである。

終結
本発明の好ましい態様を示し、記述してきたが、本発明のより広い局面から逸脱することなく、多くの変更および改変を行ってもよいことは当業者には明らかであろう。したがって、添付の特許請求の範囲は、本発明の真の趣旨および範囲に入ることから、そのような全ての変更および改変を含むと意図される。

（図１）左から右へのシグナルの流れを示す典型的な三層ニューラルネットワークの略図である。
（図２）遺伝的アルゴリズムにおいて二つの親遺伝子の新しい子孫への組換えを示す略図である。
（図３）本発明の好ましい態様において用いられる20-2-1ニューラルネットワーク構築を示す略図である。
（図４）（a）3回（ペプチド7080個）、（b）20回（ペプチド1270個）、（c）40回（ペプチド536個）、（d）60回（ペプチド259個）同定された、実験157回からのS.オネイデンシス（S. oneidensis）ペプチド42378個における測定対予想標準化溶出時間を示すグラフである。
（図５）プログラムSEQUESTを用いて少なくとも20回仮に同定されたS.オネイデンシスペプチド1270個の予測誤差分布を示すグラフである。グラフは、ペプチドの分画対NET誤差レベルを示す。例えば、グラフは、ペプチドの50％が3％未満の予測誤差を有すること、および95％を超えるペプチドが10％未満の誤差を有することを示している。
（図６）さらなる測定基準としてペプチド予測溶出時間を用いて、二つの等重ペプチドのより信頼のおける同定例の図を示す。等重ペプチド

は、異なる標準化溶出時間（NET）を有し、これによって分離が可能となった。図は、総イオン電流（TIC）、対応する抽出イオン電流（EIC）、およびこれらのペプチドの質量スペクトルを示す。

【配列表】

Claims

以下の段階を含む、液体分離において化学的に関連する化合物の溶出時間を予測する方法：
a．既知のペプチドの既知の溶出時間のデータセットを提供する段階；
b．それぞれのベクトルが複数の大きさを有し、それぞれの大きさが既知のペプチドのそれぞれに存在するアミノ酸を表す、複数のベクトルを作製する段階；
c．少なくとも一つの仮説上のペプチドに関して大きさの値を割り当てることによって、仮説上のベクトルを作製する段階；および
d．仮説上のペプチドを複数のベクトルに適合させる少なくとも一つの多変量回帰を行うことによって、仮説上のベクトルに関して予想される溶出時間を計算する段階。
複数のベクトルを作製する前に既知の溶出時間を標準化するさらなる段階を含む、請求項1記載の方法。
多変量回帰が人工ニューラルネットワークを用いて行われる、請求項1記載の方法。
人工ニューラルネットワークが、最急降下アルゴリズムおよび共役勾配アルゴリズムからなる群より選択される方法によって訓練される、請求項４記載の方法。
人工ニューラルネットワークがバックプロパゲーションアルゴリズムおよびクイックプロップアルゴリズムからなる群より選択される最急降下アルゴリズムによって訓練される、請求項5記載の方法。
標準化が多重回帰を用いて関数を最適にすることによって行われる、請求項2記載の方法。
多重回帰が遺伝的アルゴリズムを用いて計算される、請求項6記載の方法。
関数が線形および非線形関数からなる群より選択される、請求項6記載の方法。
液体分離が、順相および逆相の両方の液体クロマトグラフィー、電気泳動分離、キャピラリー電気泳動、フィールドフローフラクショネーション（field flow fractionation）、およびその組み合わせからなる群より選択される方法によって行われる、請求項1記載の方法。