JP2007507771A

JP2007507771A - 候補組成物又は候補構造体の生物学的尤度を決定する方法

Info

Publication number: JP2007507771A
Application number: JP2006529458A
Authority: JP
Inventors: ジョンハリソンマシュー; シュルツベンジャミン; ジョシハイレン
Original assignee: プロテオムシステムズインテレクチュアルプロパティプロプライエタリーリミテッド
Priority date: 2003-10-01
Filing date: 2004-09-30
Publication date: 2007-03-29
Also published as: WO2005031343A1

Abstract

【課題】候補組成物、特に多糖類の生物学的尤度を決定する方法であって、候補組成物に対する生物学的関連性の統計的尺度を含む方法を提供する。
【解決手段】通常、生物学的関連性（数値スコアで表現される）又は生物学的指標は、既知で且つ十分にキャラクタライズされた組成物の確立されたリファレンスセット（多糖類の場合、Glycosuite（http://www.glycosuite.com）データベース等のリファレンスセット）との統計的比較によって決定される。通常、各候補多糖組成物について、その理論上の多糖候補に含まれる各成分の部分スコアが計算される。この部分スコアは、リファレンス群内に出現する成分の平均値および標準偏差から計算される。この部分スコアは、候補組成物内に存在するその成分の尤度の尺度を提供する。各成分の部分スコアが組み合わされて、生物学的指標が提供される。その後、任意の所与の組成物の生物学的指標が、生物学的に「尤度の低い」組成物を除外する基準として、ならびに、回答された組成物を生物学的尤度に基づいてランク付け（ソート）する基準として用いられ得る。
【選択図】図１

Description

本発明は、候補組成物又は候補構造体、特に多糖類およびその誘導体（オリゴ糖類としても知られている）の生物学的尤度を決定する方法に関する。以下、「多糖」という用語は、特に断らない限り、多糖類および多糖類の誘導体を含む。

多糖類（糖構造体／オリゴ糖類）は、通常、１２個未満の異なる個数の生物学的に発生する単糖類から構成される。純粋にそれらの質量の点から考慮した場合、通常、典型的な多糖構造体には、約３〜６個の異なる質量のユニークな(mass-unique)単糖類のみが含まれる。最も頻繁に出現するユニークな質量の(unique-mass)単糖類として、Hex（質量162Da；全てのヘキソース単糖類を含む）、HexNAc（質量203Da；全てのアセトアミドヘキソース単糖類を含む）、dHex（質量146Da；全てのデオキシヘキソース単糖類を含む）、Pent（質量132Da；全てのペントース単糖類を含む）、およびNeuAc（質量291Da；Ｎ−アセチルノイラミン（シアル）酸）が挙げられる。生物学的に現存するが出現頻度の低い成分単糖類（KDN、HexA、NeuGc等）が、他にもいくつか存在する。硫酸塩（Ｓ；質量79.97Da）、リン酸塩（Ｐ；質量79.97Da）、メチル（14Da）、アセチル（42Da）等の他の非単糖類アダクトもまた、生物学的に発生したオリゴ糖類においてしばしば観察される。

生物学的分子のキャラクタリゼーションを行う間、各生物学的分子について正確な質量を確認し得るが、その組成ならびにその分子が一体何であるのかが未知である場合がしばしば起こる。通常は質量分光法によって得られるような相当に正確な質量が与えられれば、未知の多糖からなる単糖組成物は、観測された質量の相当な質量の偏差（又は許容範囲）内に含まれる１組の単糖組成物を決定（計算）することによって理論化され得る。このアプローチは、公に利用可能な検索ツールであるglycomod （http://us.expasv.org/tools/glycomod/）の基礎を形成する。

上記ツールの短所、延いてはこの純粋に理論的なアプローチの短所は、平均的なサイズより大きな任意の質量に対して多数の組成物が回答されること、ならびに、これら組成物の大多数（90〜99％）は、既知の生物学的に現存する組成物とほとんど共通点がないことである。

本発明の目的は、上記問題のいくつかを解消すること、ならびに、既存のツールによって回答された関係のない多数の組成物の数を低減することを試みることである。

本明細書において、上で示した文献、作業、材料、装置、物品などの説明は、いずれも、本発明の背景を提供するためだけのものである。これらのいずれか又は全てが、従来技術の基礎の一部を形成する、もしくは、本出願の各請求項の優先日以前の本発明に関連する技術分野における一般常識であったと認めるものではない。

第１の広い局面において、本発明は、回答された候補組成物についての生物学的関連性の統計的尺度を含む。

通常、生物学的関連性（数値スコアで表現される）又は生物学的指標は、既知で且つ十分にキャラクタライズされた組成物の確立されたリファレンスセット（多糖類の場合、Glycosuite（http://www.glycosuite.com）データベース等のリファレンスセット）との統計的比較によって決定される。そして、任意の所与の組成物の生物学的指標が、生物学的に「尤度の低い」組成物を除外する基準として、ならびに、回答された組成物を生物学的尤度に基づいてランク付け（ソート）する基準として用いられ得る。

経験上、多糖類について、上記により、任意の検索によって回答された候補組成物のうち90〜99.9％を除外でき、その一方で、残りの生物学的尤度の高い組成物を保持し、且つ、ランク付けすることができる。

１つの局面において、本発明は、候補組成物の尤度を決定する方法であって、
既知のキャラクタライズされた組成物からなるリファレンス群を選択する工程と、
前記既知のキャラクタライズされた組成物の成分又は他の特徴に関する統計的特性を確立する工程と、
前記既知のキャラクタライズされた組成物の統計的特性を、前記候補組成物の対応する成分又は特徴と比較して、現れたそれらの組成物の尤度を確立する工程と
を含むことを特徴とする方法を提供する。

より具体的には、多糖類に関して、１つの局面において、本発明は、多糖類をキャラクタライズする方法であって、
組成を決定する多糖の検索質量を提供する工程と、
合計質量が前記検索質量の所定の許容範囲内にある成分（単糖類を含む）から構成される候補多糖類（通常、理論上の多糖類を含む）のリストを生成する工程と、
前記検索質量と略同様の質量を有する既知のキャラクタライズされた多糖組成物からなるリファレンス群を選択する工程と、
前記既知のキャラクタライズされた多糖組成物からなるリファレンス群内に出現する各成分の平均値および標準偏差を確立する工程と、
各候補多糖組成物について、前記多糖組成物内の成分の観察数と前記リファレンス群内のその成分についての平均値との差分を前記標準偏差で割った値に基づいて、その多糖候補の各成分の部分スコアを計算する工程と、
前記部分スコアを組み合わせて、現れたその理論上の多糖候補の尤度の指標を提供する工程と
を含むことを特徴とする方法を提供する。

前記候補組成物は、存在が未知の、理論上可能性のある多糖構造体と同様に存在する構造体を含み得る。

前記検索質量の所定の許容範囲は、+/-400Daの範囲であり、好適には、+/-200Daの範囲である。

部分スコアは、任意の適切な様態で組み合わされ得る。１つの方法として、例えば、部分スコア同士を掛け合わせることが挙げられる。

実際の生物学的情報を用いることにより、本発明は、生物学的尤度の高い組成物を、同様の質量を有するが既知の生物学的に現存する組成物とは組成が大きく異なる組成物の大部分から区別することができる。例えば、公に利用可能なウェブツールglycomodが質量1300Da+/-0.5Daに対して100個を超える理論上の組成物を回答するような多糖類に対して、本発明を実施するツールは、２つの生物学的に尤度の高い組成物および109個の生物学的に尤度の低い組成物（通常、除外される）を回答する。

本発明の主要なアプリケーションは、糖構造体／組成物を解明するために、生物学的に尤度の高い糖組成物および生物学的に尤度の低い糖組成物を記述することであるが、理論上又は経験上のデータを洗練、解釈および／又はランク付けする手段として公知の生物学的データを用いる包括的方法を、他の多くのアプリケーションに用いてもよい。

以下、本発明の具体的な例を、添付の図面を参照しつつ、単に例示的に説明する。

本発明は、本発明の方法のアルゴリズムおよびプロセスを行うソフトウェアを実行するコンピュータ手段において実施される。このコンピュータを図１に示す。このコンピュータは、プロセッサ又はＣＰＵ100と、ビジュアルディスプレイスクリーン102と、キーボード104と、マウス106と、プリンタ108とを備えている。該コンピュータは、インターネットやＬＡＮ等によって、データベース110（GlycoSuiteとして公知）に接続されている。

本発明を実施する、多糖組成物（「検索多糖」）を判定する方法を用いる検索に初めに入力するものは、検索質量（通常、ダルトンで表示）である。検索質量は、通常、キャラクタライズされ、質量分析法又は他の手段によって決定された「検索多糖」の経験的に決定された質量、つまり、組成を決定する検索多糖の質量である。

検索質量許容範囲（ダルトン表示）も入力される。通常、この値は、経験的に決定された検索質量の期待される精度に基づいた、比較的小さな値であり、通常、±0.1Daのオーダーの値であり得る。また、「生物学的指標」切り捨て値も入力される。この生物学的指標は、理論上の多糖組成物の尤度の尺度であり、その導出について以下に詳細に説明する。上記切り捨て値は、その値を超える候補組成物を、現実世界に存在する可能性が低すぎるとして除外する基準となる指標値である。また、各理論上の多糖組成物における各単糖の最大許容数を示す「最大組成」が入力される。一例として、キャラクタライズされる多糖がシアル酸を含有しないことが事実として知られていたならば、検索質量に対して可能性のあるマッチとして生成された理論上の多糖組成物から、シアル酸が除外される。このことにより、要求される計算量が減少し、速度および精度が向上される。本発明の方法を実施するシステムにおいて、もちろん検索質量は除くが、これらの入力には、通常、デフォルト値が与えられている。

他の随意のパラメータもまた、検索能力をさらに修正するために、ユーザに対して示され得る。組成物検索の出力は、候補多糖組成物のリストである。このリストに含まれる候補多糖組成物の大部分は理論上の組成物、つまり、可能性のある構造体であるが、現存することが知られておらず、その質量が検索質量の検索質量許容範囲内にあり、その生物学的指標が生物学的指標切り捨て値よりも小さい構造体である。理論上、それら候補のうちの１つが、検索多糖の組成に適合する。上記候補多糖組成物のリストは、天然由来の多糖組成物を含み得る。

組成物検索は、以下のように実行される。

データベース（Glycosuite）から、所与の検索質量についてのリファレンス統計量が決定される。このプロセスを、以下により詳細に説明する。

単糖類は、許容される単糖類の全ての可能性のある組み合わせが生成されるように、異なる数で再帰的に再結合される。任意の単糖の数が「最大組成」によって特定される単糖の最大数を超える組成物が除外されるのと同様に、質量が検索質量許容範囲内に含まれない組成物は除外される。その結果は、理論上の候補多糖組成物のリストである。

候補組成物の生物学的指標は、以下に説明するように決定される。生物学的指標が生物学的指標切り捨て値を満たさない組成物は、除外される。

残りの組成物は、ユーザに対して、生物学的指標の順番に提示される。通常、上記リストは短く、且つ、１個又は２個の候補のみを含み得る。これは、典型的にはGlycomodによって生成された数百の候補（その各々を個別に調査し且つ評価する必要がある）に匹敵する。

＜生物学的指標の計算＞
プロセスへの入力は、組成物と、既知の糖組成物／構造体からなるリファレンスデータセットとである。このリファレンスセットは、Glycosuite等の、任意の適切なデータベース又はデータソースから得られ得る。プロセスの出力は、数値で表現された生物学的指標である。

所与の検索多糖組成物についての生物学的指標の決定は、以下のように進行する。

組成物の質量は、検索質量であるか、又は、組成物に含まれる各単糖／成分の残基質量の合計によって決定され得る。

既知の生物学的組成物のリファレンスセットを参照することにより、組成物の質量の任意の質量範囲（例えば、+/-200Da）に含まれるデータベース内の各単糖／成分の平均値および標準偏差が決定される。十分に大きなサンプルサイズ（好適には、少なくとも100個の既知の組成物）を得るために、上記所与の組成物の質量の前後の質量範囲から統計値を得ることが必要である。既知の糖構造体からなるGlycosuiteデータベースの場合、200Daの質量許容範囲は、約3500個までの検索質量について100を越える個数の既知の組成物を提供するのに十分であると、経験的に判定された。

一例として、検索質量が1000Daである場合、質量が800〜1200Daの範囲内の既知の多糖類が、データベース内に100個含まれ得る。その後、データベース内のそれら既知の多糖類内に出現する全単糖／成分の各々の平均値および標準偏差が決定される。HexNAcを一例として取り上げると、平均した場合、100個の既知の多糖類は、2.3の標準偏差でもって、3.3個のHexNAc単糖類を含むことがわかり得る。このプロセスを繰り返して、Hex、dHex、pent等の各単糖成分ならびに（アダクトを明らかにする場合には）既知の多糖類に含まれる各アダクトについて、平均値および標準偏差を計算する。

その後、各候補多糖組成物について、上で計算された平均値および標準偏差から、「部分スコア（Partial score）」が決定される。これらのスコアは、所与の組成物に含まれる各単糖について、リファレンスセットに含まれるその単糖の平均数と、理論上の候補組成物に含まれるその単糖の観察数との差分の絶対値を、リファレンスセットから得た組成物に含まれるその単糖の標準偏差で割った値（次式に示す）として計算される。

上記式において、mean_monosacは、リファレンスデータセット（Glycosuite）に含まれる所与の単糖の平均数であり、mean_monosacは、理論上の候補組成物に含まれる所与の単糖の個数であり、stddev_monosacは、リファレンスデータセットに含まれる所与の単糖の標準偏差である。

一例として、理論上の多糖組成物が、２個のHexNAc、３個のHexおよび１個のNeuAcを含む場合、それら３個の単糖の各々に対する部分スコアが、その理論上の候補多糖組成物について計算される。部分スコアは、理論上の候補多糖組成物内に出現しない単糖については計算する必要がない。

mean_monosacが特定の多糖についてのmean_monosacと等しい場合、部分スコアに最小値0.01を与えるようにシステムが構成されている。

したがって、単糖の部分スコアは、実際には、標準偏差の数、すなわち、その単糖が候補組成物に含まれている平均値から離れている数である。正規分布において、全てのデータポイントのうち約68％が、平均値の１標準偏差内に含まれ、93％までが２標準偏差内に含まれ、99％以上が３標準偏差内に含まれる。所与の検索質量について初期の平均値および標準偏差を得るために用いる質量範囲に関する単糖数の分布が、正規分布に十分近いと仮定した場合、任意の単糖についての３以下の部分スコアは、それら単糖類の数が、Glycosuiteに含まれる同様の質量を有する全ての組成物の99％内に含まれることを示している。

その後、部分スコアは任意の様態で組み合わされて１つの数値スコアが得られる。ここで得られた数値スコアが生物学的指標である。この生物学的指標の実際の数学的導出の結果、複数の手段を使用することになり得る。つまり、式が異なれば、大きな部分スコアおよび他の基準に対する感度特性がわずかに異なる。この理由のため、本発明を目的とした生物学的指標は、単に、所与の組成物と同様の質量を有する既知の組成物の母集団との間の差異の大きさを示す（又はこの大きさから得られる）数値として考慮され得る。ここでは、生物学的指標は、次式に示すように、部分スコアから、候補組成物から得られた全ての部分スコアの積として得られる。

生物学的指標は、非常に不良なマッチを除外するのに優れているが、同時に、ある候補多糖組成物が、１つの単糖について非常に大きな（つまり不良な）部分スコアを有するが、他の単糖組成物については低い部分スコアを有する場合、その候補は、受容可能な程度に低い生物学的指標を有し得る。したがって、システムは、不良な部分スコアを１つだけ有する候補を除外しない。

部分スコアを計算するプロセスは、上述のように、各候補多糖組成物について実行される。生物学的指標が生物学的指標切り捨て値を満たさない組成物は、除外される。残りの組成物は、ユーザに対して、生物学的指標の順に提示される。通常、リストは短く且つ１個又は２個の残りの候補のみを含み得る。これは、典型的にはGlycomodによって生成された数百の候補（その各々を個別に調査し且つ評価する必要がある）に匹敵する。

本発明の重要な要素は、生物学的データを、理論上のデータ（この例では糖組成物）の量を数値評価する手段として用いることである。生物学的スコア／指標を計算する実際の様態は、大部分が任意である。つまり、生物学的指標を計算するための式が異なれば、決定された平均値からの組成の大きな差異に対する許容範囲についての特徴、ならびに、リファレンスデータベース内に存在する組成物を予測する傾向についての特徴が異なる。

図２は、本発明の局面を実施するソフトウェア型検索ツールの入力ページ200を示す。３つの質量202が入力されている。この実施例において、これらの質量は、ウシのアルファ-2-HS糖タンパク質（フェツイン）から実験的に決定されたものである。入力ページはまた、許容範囲204と、生物学的指標切り捨て値206と、さまざまな多糖組成物についての最大組成とを入力することもできる。

図３は、図２に示した検索の結果ページ300を示す。結果ページ300は、所与の検索質量の各々の特定された許容範囲内に含まれる全ての理論上のオリゴ糖組成物を列挙している。Glycosuiteデータベース内に存在する組成物は、それぞれの関連するGlycosuiteレコードへのハイパーリンクの形で表示され、且つ、下線を付してある。候補組成物は、生物学的指標の大きい順に表示されている。生物学的指標が２以下である組成物は、非常に生物学的に尤度が高いとみなされる。生物学的指標が２〜10の組成物は、尤度が比較的低いが、同等の質量を有するGlycosuiteの組成物に十分近いと考えられる。本実施例では、検索ツールは、各ケースについて、既に、正しいオリゴ糖組成物を同定し、その同定された組成物を、最も生物学的に尤度が高いものとしてランク付けしている。生物学的に尤度の低い組成物（つまり、生物学的指標が10を越えるもの）は除外されて、表示されない。

図４は、Glycosuiteデータベースに存在しないことがわかっている質量400について、ソフトウェア型検索ツールのデータ入力ページを示す。

図５は、図４に示した検索についての結果ページ500を示す。検索質量2943.4Daについて、３つの候補オリゴ糖組成物502,504,506が表示されている。正しいオリゴ糖組成物は、３つ目に提案されている組成物506である。３つの提案された組成物の全てが、非常に低い生物学的指標を有している。つまり、この指標は、これら３つの組成物のいずれも実際にはGlycosuiteデータベース内に存在しないにも拘わらず、これら３つの組成物が生物学的に尤度が高いと見なされていることを示している。このことは、検索ツールがGlycosuiteデータベースを効果的に推定し得ることを示している。なお、生物学的指標スコアおよび切り捨て値を用いない場合、所与の（厳格な）検索基準を満たす23個の候補組成物が存在することに留意されたい。厳格でない検索パラメータを用いた場合（つまり、単糖類を非限定的に制限した場合）、理論上の組成物の数は100を越える。

ヒトの呼吸ムチンから放出された還元オリゴ糖類を、LC-MSによって検出した。オリゴ糖の組成をMS/MSデータから手作業で決定し、測定した質量を本発明を実施するソフトウェア型検索ツール（「GlycoComp」と称する）による検索へと入力した。これらの質量はまた、比較として、GlycoMod（別の多糖検索ツール）にも入力した。メチル基およびアセチル基を除いて、単糖類の考えられる個数には制限を設けなかった。なお、メチル基およびアセチル基は０（ゼロ）に設定した。組成物のうち４個がGlycoSuite内に存在するが、最も大きな質量は存在しない。

生物学的指標切り捨て値として100を用いた結果、各質量について尤度の高い組成物の合計数が減少した。このことは、大きな質量に関して、とりわけ注目に値する。また、生物学的指標に基づいてソートされたGlycoCompのランク分けにより、特に、単に質量に基づいて分類されたGlycoModの結果と比較した場合、正しい構造体の選択がかなり容易になる。

上述の方法の変形例が可能である。例えば、上で概要を述べた部分スコアの計算は、精度を改善するために改変し得る。この改善された単糖の部分スコアPartialScore_mは、まず、各単糖の平均値からの標準偏差の数を計算する。
StDevScore_m-Abs (count_m-mean_m)/stdev_m
そして、平均値からの標準偏差の数は、各単糖について、正規分布に基づき確率に変換される。

それから、この改善された部分スコアは、１群の既知のオリゴ糖類との類似性に基づいて、特定の個数の単糖類が候補オリゴ糖内に実際に含まれる確率を示す。そして、生物学的指標は、全ての単糖類についての部分スコアの積である。この生物学的指標を計算する方法は、候補組成物について、組み合わされた合計確率を提供する。その後、生物学的指標は、より容易に解釈できるように、より大きな数へと変換される。

部分スコアは、GlycoSuiteDB内に存在し且つ測定されたオリゴ糖質量から+/-200Daの範囲内に含まれるオリゴ糖類の平均的特性に基づいて計算される。この分子量フィルタは、同様の質量を有するオリゴ糖類が同様の単糖組成物を有する確率が高いという仮定に基づいている。しかし、生物学的ソース、疾病の状態、又は特定のタンパク質に基づく他のフィルタもまた、関連する仮定、例えば、癌患者（ヒト）の血液タンパク質から得たオリゴ糖類が同様の単糖組成物を有し得るという仮定に基づいて適用し得る。これらのフィルタは、さまざまな組み合わせにより、ユーザ定義可能である。

フィルタはまた、あるオリゴ糖に含まれる単糖類の比（例えば、フコース：ヘキソース、HexNAc：全単糖類）など、もっと加工された尺度を含み得る。特定のフィルタの後の平均値ではなく、最適な数式を用いて、部分スコア（例えば、分子量の関数としてのフコース：ヘキソースの比）を計算することもできる。これらの数式はまた、さまざまに組み合わせて用い得る（例えば、フコース：ヘキソースの比は分子量の関数であり、哺乳動物由来のオリゴ糖類専用のフィルタを用いる）。これらの最適なラインに関連する分散（例えば、Ｒ²値）を用いて、部分スコアを計算し得る。

同じ生物学的ソースに由来するオリゴ糖類は、構造的且つ組成的に関連している可能性が高いので、枝分れ型生物学的指標（nested biological index (NBI)）を用いて、最も高いランクの組成物が生物学的指標に基づいてどの程度互いに類似しているかを判定し得る。このことは、組成物が、GlycoSuiteデータベースに含まれるオリゴ糖類との類似性のために高い生物学的指標を有するが、同じ試料に由来する他の検索質量に対して回答された組成物とは全く異なるケースを示唆するのに、特に有用である。ある１つの試料から実験的に得られたオリゴ糖類は、広い範囲に亘る質量を有する可能性が高いので、この場合、質量フィルタは有用でない可能性が高い。しかし、単糖類の比などの他の尺度は、分子量への依存度がより低いかもしれない。各質量について最も高いランクの組成物が、「データベース」を構成し得る。個々の組成物をこのデータベースと比較し得る。この比較は、ＮＢＩ又は主成分分析（PCA）等の他の分析によって実施され得る。他のマッチと著しく異なる任意の（生物学的指標によって）マッチした組成物が存在する場合、このことは、試料の生物学的特性に基づき、それらが正しい組成物でないことを示し得る。その後、生物学的指標によってより低くランク付けされた組成物が、正しくないと推定されるマッチの代わりに含まれ、ＮＢＩが再度計算される。この工程は、他の回答されたマッチと異なる最小のマッチが出現するまで（例えば、全てのマッチした組成物についての各単糖の標準偏差が最小化されるまで）進行し得る。

生物学的指標の計算へのさらなる拡張は、確立されたルールを確率の計算に組み込むことである。このことは、特定のルールに適合するウィンドウ内の構造体の割合を計算し、この計算された割合を百分率に変換することにより達成される。

オリゴ糖に対する糖ペプチドの質量の加算量を自動的に明らかにするために、ソフトウェア型検索ツールは、既知の糖ペプチドをプロテアーゼとみなすか、又は、アミノ酸残基質量をソフトウェア型検索ツールのアルファベットに加え、オリゴ糖組成物に加えて可能性のあるアミノ酸組成物を予測することのいずれかを行う。可能性のあるアミノ酸組成物の数は、糖が取り付き得る所定のアミノ酸モチーフが存在することを要求することによって限定され得る。

上述の本発明は、質量のみが与えられた単糖組成物を識別／解明する手段として、既知の糖構造体／組成物を用いることに関するが、本発明の発想は、他の組成物に拡張し得る。また、本発明の発想は、例えば、多糖断片質量フィンガープリント法などの、他の調査技術のための、完全な糖構造体の品質を決定および／又は確認するために用いるリファレンスデータとして、例えば結合や枝分れといった他の構造的特性を使用することにも拡張し得る。（本件出願人による同時係属中の仮特許出願第2003902907号を参照のこと。なお、この仮出願の全内容を、本明細書中、参考として援用する。）
特定の実施形態として示した本発明を、広く規定された本発明の趣旨又は範囲から逸れることなくさまざまに変形および／又は改変し得ることは、当業者に理解される。したがって、上述の実施形態は、全ての点において、例示的なものであり且つ限定的でないと考えるべきものである。

〔関連出願〕
本発明は、2003年10月１日に出願されたオーストラリア特許仮出願第2003905362号に基づく優先権を主張する。なお、本明細書中、この仮出願の内容を参考として援用する。

図１は、本発明の局面を実施するソフトウェアを実行するコンピュータを示す図である。図２は、本発明を実施するソフトウェア型検索ツールのデータ入力ページを示す図である。図３は、図２の検索ツールの結果ページを示す図である。図４は、Glycosuiteデータベースに存在しないことがわかっている質量について、ソフトウェア型検索ツールのデータ入力ページを示す図である。図５は、図４に示した検索についての結果ページを示す図である。

Claims

候補組成物の尤度を決定する方法であって、
既知のキャラクタライズされた組成物からなるリファレンス群を選択する工程と、
前記既知のキャラクタライズされた組成物の成分又は他の特徴に関する統計的特性を確立する工程と、
前記既知のキャラクタライズされた組成物の統計的特性を、前記候補組成物の対応する成分又は特徴と比較して、現れたそれらの組成物の尤度を確立する工程と
を含むことを特徴とする方法。
請求項１に記載の方法において、
前記候補組成物は多糖であり、前記既知のキャラクタライズされた組成物からなるリファレンス群は、多糖からなるリファレンス群であり、
組成を決定する多糖の検索質量を提供する工程と、
合計質量が前記検索質量の所定の許容範囲内にある成分（単糖類を含む）から構成された、可能性のある多糖組成物のリストを生成する工程と、
前記検索質量と略同様の質量を有する既知のキャラクタライズされた多糖組成物からなるリファレンス群を選択する工程と、
前記既知のキャラクタライズされた多糖組成物からなるリファレンス群内に出現する各成分の平均値および標準偏差を確立する工程と、
各候補多糖組成物について、その理論上の多糖候補の各成分の部分スコアを計算する工程であって、前記部分スコアは、前記リファレンス群内に出現する前記成分の平均値および標準偏差から計算され、且つ、前記候補組成物内に存在するその成分の尤度の尺度を提供する、計算工程と、
前記部分スコアを組み合わせて、現れたその候補多糖組成物の尤度の指標を提供する工程と
を含むことを特徴とする方法。
請求項２に記載の方法において、
前記各成分の部分スコアは、前記候補多糖組成物内の成分の観察数と前記リファレンス群内のその成分についての平均値との差分を前記標準偏差で割った値に基づいており、前記部分スコアを組み合わせる工程は、前記部分スコア同士を掛け合わせることによって実行されることを特徴とする方法。
請求項２に記載の方法において、
前記各成分の部分スコアは、以下の式

（上記式において、mean_monosacは、リファレンスデータセットに含まれる所与の単糖の平均個数；mean_monosacは、前記候補組成物に含まれる所与の単糖の個数；stddev_monosacは、前記リファレンスデータセットに含まれる前記所与の単糖の標準偏差を示す）に基づいて計算されることを特徴とする方法。
請求項２に記載の方法において、
前記各成分の部分スコアは、以下の式

（上記式において、StDevScore_m=Abs(count_m-mean_m)/stdev_mである）に基づいて計算されることを特徴とする方法。
請求項５に記載の方法において、
生物学的指標は、以下の式

に基づいて計算されることを特徴とする方法。
請求項２〜６のいずれか１つに記載の方法において、
前記検索質量の所定の許容範囲は、+/-400Daの範囲であり、好適には+/-200Daの範囲であることを特徴とする方法。
候補組成物の尤度を決定するシステムであって、
請求項１〜６のいずれか１つに記載の方法を実施するソフトウェアを実行するコンピュータ手段を含むことを特徴とするシステム。
請求項２〜６のいずれか１つに従属する場合の請求項８に記載のシステムを用いて、候補多糖組成物の尤度を決定する方法であって、
検索質量を入力する工程と、
検索質量許容範囲を入力する工程と、
生物学的指標切り捨て値を入力する工程と、
前記候補組成物に含まれる各成分についての最大値を入力する工程と
を含むことを特徴とする方法。