JP7349454B2

JP7349454B2 - 錯体分子下部構造を識別する切断頂点方法

Info

Publication number: JP7349454B2
Application number: JP2020568209A
Authority: JP
Inventors: フリードマン，アーサー; バッチ，アンスマン; ユー，シャン; カンシラ，マーク
Original assignee: メルク・シャープ・アンド・ドーム・エルエルシー
Priority date: 2018-06-11
Filing date: 2019-06-11
Publication date: 2023-09-22
Anticipated expiration: 2039-06-11
Also published as: EP3794597A1; CN112567465B; US11854664B2; CA3103229A1; JP2021527255A; EP3794597A4; CA3103253A1; CN112534508A; CN112567465A; JP2021527254A; WO2019241178A1; JP7349455B2; CN112534508B; US12068058B2; US20210265024A1; EP3794599A4; WO2019241191A1; EP3794599A1; US20210257046A1

Description

発明の分野
本発明は、切断頂点（cut vertex）手法を使用することにより錯体分子（特に生体分子などの巨大分子）の下部構造を識別するためのシステム、装置及び方法に関する。

発明の背景
医薬化合物の下部構造（代謝物など）を識別し特徴付けることは創薬の重要部分である。このような代謝物の構造を理解すること及び代謝変換の特定部位を定義することは、例えばそれらの化合物にしばしば伴う安定性及び毒性問題を克服するために薬候補の主化合物の合成最適化を誘導する際に有用である。

現在の代謝物識別（ＭｅｔＩＤ：metabolite identification）手法は、その構造の予備知識無しには生体マトリックスから治療用蛋白質及びペプチド（ＴＰＰ：therapeutic protein and peptide）などの巨大分子の代謝物を系統的に特徴付けることができなかった。ＭＡＳＳＣＡＰ、ＳＥＱＵＥＳＴ及びＭａｓｓＭｅｔａＳｉｔｅなどのいくつかの既製の小分子ＭｅｔＩＤソフトウェアは、小分子薬及び小さな直鎖ペプチドの代謝物を特徴付けるのに有用であるが、このソフトウェアは、より大きな生体分子（巨大非直鎖ペプチド／蛋白質など）の代謝物及び他の下部構造を識別するには実用的でない又は好ましくないということが判明した。この欠陥に関して以下の少なくとも３つの理由がある：（ｉ）大抵の小分子ＭｅｔＩＤソフトウェアは巨大分子のモノアイソトピックピークを正しく逆畳み込み（deconvolute）することができなく、正しくない入力質量値を生じる、（ｉｉ）大抵の小分子ＭｅｔＩＤソフトウェアは小分子薬用に設計された原子ベースアルゴリズムを使用し、ＴＰＰなどの典型的な巨大生体分子の原子の数は通常、小分子のものより１～２桁高く、このような原子ベースアルゴリズムの大きな計算複雑性を導入する、（ｉｉｉ）巨大分子は従来の小分子ソフトウェアにおいては一般的に考慮されない独特な代謝過程を有するので小分子ＭｅｔＩＤに有用な情報（シトクロムＰ４５０代謝経路又は質量欠損フィルタなど）は巨大分子に適用しない。

分子の原子ベース表現に伴う計算複雑性はコンピュータ解析を妨げ得る又は時に妨害し得る。所与のコンピュータ内のＲＡＭの量に依存して、１０００万を越える代謝物を有する分子の代謝物のすべてを識別するために必要とされる処理はコンピュータの処理能力を圧倒する可能性が高いだろう。１ギガバイトのＲＡＭは本発明者らの経験では約１００万の下部構造を扱い得る。しかし複雑な巨大分子は１０００万を越える下部構造をしばしば含み、そして実に何億もの下部構造をしばしば含み得る。

加えて、蛋白質構造を解析するための従来のソフトウェア（例えばプロテオミクスベースソフトウェアなど）は、通常、アミド及び二硫化物結合切断を計算するが、予期しない修飾形態（＋オキシ、＋Ｐ、＋Ｍｅｔなど）、非天然アミノ酸、生体内二硫化物スクランブル、非天然鎖及び非特異性蛋白質切断を含む巨大分子（ＴＰＰなど）の予測不能代謝プロファイルに対処することがこれまではできなかった。

したがって、巨大分子（特に、非常に多くの下部構造（例えば何億の下部構造）を有する巨大分子）の非線形ペプチドを解読することができるシステム及び処理、並びに生体マトリクス中の蛋白質バックグラウンドから治療用ペプチド又は蛋白質などの巨大分子の代謝物を差別化することを容易にするだけでなく当該の代謝物の構造の解明も容易にするシステム及び方法論の著しい必要性がある。これらの従来のコンピュータシステムが巨大分子代謝物の構造の視覚的表現を生成するとともにこれを科学者及び研究者により視認及び解析するためのモニタ及び他のディスプレイデバイス上に表示するよりよい仕事をすることを可能にするように従来のコンピュータシステムの機能を改善するシステム及び処理の著しい必要性がある。

発明の概要
一般的に、本発明のいくつかの実施形態は、錯体分子の代謝物及び他の下部構造を識別しそしてこのような代謝物及び他の下部構造の関連化学構造を判断するために化学者及び生化学者などの科学者により使用され得る。したがって、本発明のいくつかの実施形態は薬剤開発及び設計において極めて有用であると考えられ得る。この目的を達成するために、本発明のいくつかの実施形態は検討中の分子（選択分子）を表すための独特なシステムを採用する。具体的には、選択分子は、規定最小切断可能ユニットのグラフ（最小切断可能ユニットグラフ（ＭＣＵ（minimum cleavable unit graph）グラフ）と呼ばれる）の観点で説明される。本明細書で列挙される最小切断可能ユニットはいかなる切断（cut/cleavage）（代謝過程の無い）も発生することが許容されない分子の一部分である。最小切断可能ユニットは選択分子の隣接代謝切断部位間の原子団を含み得る。一例として、蛋白質又はペプチド分子の最小切断可能ユニットは例えば単一アミノ酸又は一続きのアミノ酸を含み得る。例えば、環状ペプチドの最小切断可能ユニットは環状ペプチドの中核領域を含み得る。最小切断可能ユニット手法は当該分子をより単純なやり方で（例えば複合蛋白質構造を直鎖ペプチド領域に変換することを試みることにより複合蛋白質構造の複雑性を低減することにより）定義することを容易にする。最小切断可能ユニット手法は、ＭＣＵ内に切断を有する代謝物をたどることを無くすモジュールをユーザが定義することを許容し、したがって機能的ではない。選択分子中の各ＭＣＵはＭＣＵグラフ内の頂点に対応する。ＭＣＵグラフはコンピュータシステムのメモリ内のデータ構造内に格納されるデータにより表される。

選択分子は、所与の研究のゴールとどのようにＭＣＵが定義されるかに依存して多くの異なるＭＣＵグラフを有し得る。例えば、研究のゴールがアミド結合切断により生成されるすべての代謝物を識別することであれば、ＭＣＵは、単一アミノ酸を越えるさらなる代謝をユーザが考慮しないので各個々のアミノ酸残基として定義される。別の例として、研究のゴールが環状ペプチドの活性代謝物を識別することであれば、活性代謝物は無傷環状領域を有しなければならないのでペプチドの環状領域もまたＭＣＵとして含まれるだろう、そしてさらなる代謝は環状領域内で考慮される必要はない。

本発明者らは、ＭＣＵグラフから導出される線グラフが分子の下部構造（代謝物など）を識別する効率的やり方であり本発明の下部構造識別システム、装置及び方法において特に有用であるということを認識した。この理由は_、ＭＣＵグラフの線グラフの誘導連結サブグラフ（induced connected subgraph）の世界は対応ＭＣＵグラフにより表される分子の下部構造及び代謝物の全世界を完全にそして一意的に表すということである。換言すれば、ＭＣＵグラフの線グラフの一組の誘導連結サブグラフと対応ＭＣＵグラフにより表される分子の一組の代謝物との間には１対１の関係がある。この関係は、選択分子の代謝物の全世界を識別するアルゴリズムを使用することを許容するので実用的である。このアルゴリズムの実用化は、選択分子の代謝物の全世界を識別するために使用されるコンピュータシステムの機能を著しく改善する。

２０１９年＿＿＿＿＿＿＿＿＿＿＿＿に出願された同時係争中の共有非仮出願特許出願第＿＿＿＿＿＿＿＿＿＿＿＿＿＿号は、錯体分子の下部構造を識別するためのシステム及び方法を説明し、このシステム及び方法は、選択分子の何千又は何百万の下部構造にそれぞれ対応する何千又は何百万の記録を含むデータベースを生成することに関与する。しかし、従来の中央処理ユニット及び従来のメモリデバイスを有する従来のパーソナルコンピュータシステム上でこのコンピュータシステムを酷使すること無しにそして場合によってはこのコンピュータシステムをハングアップさせる又は機能も併せて停止させること無しに処理及び識別され得ない何億又はさらには何十億の下部構造を有するいくつかの巨大分子が存在する。

以下にさらに詳細に述べるように、本発明のいくつかの実施形態は、選択分子の最小切断可能ユニット（ＭＣＵ）グラフを表すデータ及び選択分子のＭＣＵグラフ内の規定「切断頂点」を受信し格納することによりこの問題を回避する。次に、本システムは、選択分子の２つの別個のＭＣＵグラフ構成要素（すなわち第１のＭＣＵサブグラフ及び第２のＭＣＵサブグラフ）を生成するために規定切断頂点において選択分子のＭＣＵグラフを分割する。次に、本システムは、２つのＭＣＵサブグラフ構成要素の第１の線グラフ構成要素及び第２の線グラフ構成要素をそれぞれ生成し、次に、第１の構成要素の下部構造及び分子量の第１のデータベースを生成しこれをメモリ内に格納するためにグラフトラバース（graph traversing）アルゴリズムにより第１の線グラフ構成要素をトラバースし、次に、下部構造及び第２の線グラフ構成要素の分子量の第２のデータベースを構築しこれをメモリ内に格納するためにグラフトラバースアルゴリズムにより第２の線グラフ構成要素をトラバースする。代替的に、本システムは、本発明の動作の主原理から逸脱すること無く、第１の線グラフ構成要素及び第２の線グラフ構成要素両方の下部構造及び分子量を単一データベース又は複数のデータベース内に置くように構成され得る。

その後、第１の線グラフ構成要素及び第２の線グラフ構成要素の下部構造及び分子量がコンピュータシステムのメモリ内の１つ又は複数のデータベース内に（又は、好ましければ単一データベースの２つのサブセクション内に）格納された状態で、本発明のいくつかの実施形態は、ユーザから照会分子量（又は一範囲の照会分子量）を受信し、そして、照会分子量（又は一範囲の照会分子量）に整合する分子量を有する選択分子の下部構造のすべての下部構造（切断頂点を跨ぐ（すなわち、切断頂点を含む）選択分子の下部構造を含む）のグラフィック表現を識別し、取り出し、表示するために２つのデータベース（又は単一データベースの２つのサブセクション）に対しバイナリサーチを行うことができる。したがって、本明細書において説明される切断頂点手法は、規定分子量を有する下部構造が選択分子の第１のＭＣＵグラフ構成要素内に完全に、又は選択分子の第２のＭＣＵグラフ構成要素内に完全に、又は選択分子の２つのＭＣＵグラフ構成要素の両方内に部分的に（すなわちＭＣＵグラフ内の切断頂点の両側に在る頂点及び結合を有する選択分子のそれらの下部構造内に）存在するかどうかにかかわらず、規定分子量に整合する分子量を有する選択分子の下部構造のすべてを動的に識別、生成、及び表示するために使用され得る。好ましいいくつかの実施態様では、所与の照会分子量に整合する下部構造は、整合する下部構造へ変換されるべき選択分子に関し発生する必要があるだろう生体変換（biotransformation）（すなわち壊された共有結合）の数に従ってランク順に列挙及び／又は表示される。

本開示における発明の様々な実施形態を説明する際に、下部構造及び下部構造の分子量を格納するためのそして誘導連結サブグラフ記録及び生体変換カウントを格納するための２つの異なるデータベースの使用が言及されるが、本発明はこのような情報及び記録を格納するための単一データベースの使用も包含するということに注意すべきである。単一データベースの場合、サブグラフデータベース内の特定記録が選択分子の線グラフの第１の構成要素又は第２の構成要素に関連するかを識別する下部構造識別子を使用することが有益だろう。

切断頂点方法は複数の二硫化物結合及び／又は人工鎖を含む巨大分子に特に有用である。本方法はまた、二量体及び他のオリゴマー及び多量体などの何億もの代謝物を有する巨大分子に特に好適である。例示的巨大分子は限定しないが、抗体、巨大分子の多量体（二量体、三量体、四量体及び高分子など）、及び共役分子を含む。

しかし、巨大分子の下部構造を識別し解析するのに有用であることに加えて、本発明のいくつかの実施形態はまた、小分子の下部構造を識別及び解析するのに有用である。小分子は、自然発生か人為的に生成された（例えば化学合成を介し）かにかかわらず比較的低い分子量を有する有機分子を含み得る。本発明のいくつかの実施形態はまた、動物、好適には哺乳動物、より好適には人間において局所的又は系統的効果を生じるという点で生物学的に活性である小分子を解析するのに有用である。いくつかの実施形態では、小分子は約９００ダルトン以下の分子量を有する。本発明者らは、選択分子の誘導連結グラフ（すなわち下部構造）の数が利用可能コンピュータメモリを越える又は越えると予測される場合に切断頂点手法が特に有用であるということを発見した。但し、本手法は、所与の選択分子の下部構造の数が特に高くない又はコンピュータメモリを越えると予想されない状況においてですら有用である。

有益なことに、本発明の切断頂点手法は、選択分子を表すＭＣＵグラフ内の適切な切断頂点を選択し識別するために厳しい一組の規則に従うということを必要としないという点で非常に柔軟である。換言すれば、選択分子の好適な切断頂点を認識し識別することは、多様な異なる技術（例えば、ユーザが知覚するＭＣＵグラフ内の点であってＭＣＵグラフのほぼ中央に又はその近くのどこかに位置する点を拾う単純な処置を含む）のうちの任意のものを使用することにより成し遂げられ得る。

ＭＣＵグラフの２つの構成要素のそれぞれの構成要素内に存在する下部構造を表す誘導連結サブグラフ記録のデータベースを構築すること
本発明の一実施形態の動作の第１段階では、ユーザは、（Ａ）選択分子の１つ又は複数組の構成要素の最小切断可能ユニット、（Ｂ）選択分子の構成要素内の一組の最小切断可能ユニットを接続する１つ又は複数組の結合、（Ｃ）各最小切断可能ユニットの分子量、及び（Ｄ）選択分子の接続プロファイルを含む選択分子データを入力する。接続プロファイルは、最小切断可能ユニットと結合との相対位置、及び最小切断可能ユニットと結合との間の接続を指示するように配置される。選択分子データは選択分子のＭＣＵグラフ又は選択分子の別の表現の形式、例えば頂点及び辺注釈（ＭＣＵの識別子、ＭＣＵを接続する結合のタイプ、及びＭＣＵの各ＭＣＵの分子量を含む）を有する化学構造又は図の形式で提供され得る。

ユーザはまた、ＭＣＵの１つを選択分子の切断頂点として識別する。実際には除去されないが、選択分子のＭＣＵグラフからの切断頂点の除去は、選択分子のＭＣＵグラフを２つ（切断頂点自体をカウントしない）の構成要素（すなわち２つのＭＣＵサブグラフ）へ分割（又は分離）するだろう。しかし、２つの構成要素の両方は切断頂点を含む。２つの構成要素は、本開示では、選択分子のＭＣＵグラフの第１の構成要素及び第２の構成要素とそれぞれ呼ばれることになる、又は２つのＭＣＵサブグラフ（その両方は切断頂点ＭＣＵを含む）と代替的に呼ばれることになる。２つの連結ＭＣＵサブグラフはサイズが必ずしも等しくなく、２つの連結ＭＣＵサブグラフは頂点及び結合の数も必ずしも等しくないが、サイズという点と頂点及び結合の数という点で等しい可能性がある。

本発明のいくつかの実施形態では、本システムは、切断頂点ＭＣＵの位置により定義された選択分子の２つの構成要素の各構成要素のＭＣＵグラフデータ構造を生成してメモリ内に格納するために、選択分子データを使用する。好適なＭＣＵグラフデータ構造は、限定しないが、配列、隣接行列、隣接リスト、結合行列又は結合リスト、及びＭＣＵグラフデータを保持することができる任意の他のコンピュータデータ構造を含み得る。次に、以下にさらに詳細に説明されるように、選択分子の２つの構成要素の各構成要素のＭＣＵグラフデータ構造に基づき、本システムは、選択分子のＭＣＵグラフの２つの構成要素の各構成要素の線グラフを表す線グラフデータを生成し、２つの個々の線グラフデータ構造の線グラフデータをそれぞれメモリ内に格納する。好適な線グラフデータ構造は例えば隣接行列、隣接リスト、結合行列又は結合リストを含み得る。

次に、本システムは、ＭＣＵグラフの第１の構成要素の線グラフのあらゆる誘導連結サブグラフ（ＩＣＳ：induced connected subgraph）の頂点及び辺データを識別してメモリ内に記録するために、好適なグラフトラバースアルゴリズム（その例が図２９に示される）を使用することにより選択分子のＭＣＵグラフの第１の構成要素の第１の線グラフデータ構造の線グラフデータをトラバースする。次に、本システムは、ＭＣＵグラフの第２の構成要素の線グラフのあらゆる誘導連結サブグラフ（ＩＣＳ）の頂点及び辺のデータを識別してこれをメモリ内に記録するために、選択分子のＭＣＵグラフの第２の構成要素の第２の線グラフデータ構造の線グラフデータをトラバースする（通常、しかし必ずしもでないが、同じグラフトラバースアルゴリズムを使用することにより）。好適なグラフトラバースアルゴリズムは深さ優先検索アルゴリズム、又は幅優先検索アルゴリズム，又は逆方向検索アルゴリズム、又はツリー検索アルゴリズムを含む。

グラフトラバースアルゴリズムを線グラフデータに対し実行することにより識別されるＩＣＳ毎に、本システムは、分子量フィールド、頂点データフィールド及び辺データフィールドを含むＩＣＳ記録をメモリ内に生成する。次に、本システムは、各ＩＣＳに対応する分子量を計算し、各ＩＣＳ記録がその後分子量フィールド内の値に従って検索され得るように各ＩＣＳ記録の頂点及び辺データと一緒に分子量を分子量フィールド内に格納する。好適には、本システムはまた、選択分子を当該ＩＣＳ記録の頂点データ、辺データ及び分子量により表される下部構造へ変換するために必要とされるだろう生体変換の数（すなわち生体変換カウント）を計算し各ＩＣＳ記録内に格納する。生体変換カウントを他のデータと一緒に各ＩＣＳ記録内に格納することは、生体変換カウントに従って検索結果を検索及び／又はランク付けすることを許容する。

動作の第１段階中にＭＣＵグラフの第１の構成要素とＭＣＵグラフの第２の構成要素との両構成要素の線グラフデータに対してグラフトラバースアルゴリズムを実行した結果は、動作の第１段階の終わりに、メモリが、選択分子のＭＣＵグラフの第１の構成要素の複数のＩＣＳ記録及び選択分子のＭＣＵグラフの第２の構成要素の複数のＩＣＳ記録を含むことになるということである。第１の構成要素のあらゆるＩＣＳ記録は選択分子の第１の構成要素内のあらゆる下部構造の構造、重量及び物理的レイアウト（切断頂点を含む）を表す頂点データ、辺データ及び分子量データを含む。第２の構成要素のあらゆるＩＣＳ記録は選択分子の第２の構成要素内のあらゆる下部構造の構造、重量及び物理的レイアウト（切断頂点を含む）を表す頂点データ、辺データ及び分子量データを含む。したがって、この時点で、メモリは、ＭＣＵグラフの第１の構成要素内に完全に存在するあらゆる誘導連結サブグラフのＩＣＳ記録及びＭＣＵグラフの第２の構成要素内に完全に存在するあらゆる誘導連結サブグラフのＩＣＳ記録を含むことになる。

特に、本システムは、ＭＣＵグラフの第１の構成要素と第２の構成要素両方内の頂点及び結合を有するいかなる誘導連結サブグラフのいかなるＩＣＳ記録も生成する必要はなく、そしてメモリはこれを格納する必要がない。それにもかかわらず、以下にさらに詳細に説明されるように、動作のその後の段階において、本システムは、（１）選択分子の第１の構成要素内に存在する任意の誘導連結サブグラフのグラフィック表現、（２）選択分子の第２の構成要素内に存在する任意の誘導連結サブグラフ、及び（３）選択分子の両構成要素内に同時に存在する（すなわち、選択分子のＭＣＵグラフの両構成要素内に頂点が存在するように切断頂点ＭＣＵに跨る）構成部分を有する任意の誘導連結サブグラフを識別し表示することができる。

選択分子のＭＣＵグラフの第１の構成要素又は第２の構成要素のいずれかの構成要素内に存在する（しかし両構成要素内に存在しない）所与の分子量を有する下部構造を識別すること
第２段階の動作では、本システムはユーザ（選択分子データを提供したユーザであってもなくてもよい）から照会分子量を受信する。ここで、入力される照会分子量は実験によりユーザにより予め判断される又は質量分析計などの別のソース又は別のデバイスから取得されるかのいずれかである。本システムは、照会分子量に整合する分子量フィールド内の全分子量を有する選択分子の第１の構成要素及び第２の構成要素のＩＣＳ記録のすべてを発見するために、メモリ内に格納されたＩＣＳ（各ＩＣＳは、分子量、頂点配列値、辺配列値及び生体変換カウントを含む）記録を検索する。このようなＩＣＳ記録が発見されると、本システムは、発見された各ＩＣＳ記録の各誘導連結サブグラフの頂点及び辺データを生成してユーザへ表示するためにＩＣＳ記録内の情報を使用する。任意選択的に、本システムはまた、各記録内の頂点及び辺データに基づき、整合誘導連結サブグラフの構造のグラフィック表現を表示、印刷、又は送信し得る。

したがって、この時点で、本システムは、照会質量に整合する質量を有する選択分子のＭＣＵグラフの第１の構成要素内の任意の誘導連結サブグラフの頂点データ、辺データ、及び／又はグラフィック表現（すなわち、選択分子の第１の構成要素内のあらゆる下部構造）並びに照会質量に整合する質量を有する選択分子のＭＣＵグラフの第２の構成要素内の任意の誘導連結サブグラフの頂点データ、辺データ、及び／又はグラフィック表現（すなわち、選択分子の第２の構成要素内のあらゆる下部構造）を生成、送信及び／又は表示していることになる。好適には、検索結果は、最小数の生体変換を必要とする誘導連結サブグラフが最初に（すなわち、リストの最上位に、そしてより多くの数の生体変換を必要とする整合誘導連結サブグラフの前に）表示されるように生体変換カウントの昇順にランク付けされ表示される。

選択分子のＭＣＵグラフの第１の構成要素と第２の構成要素の両構成要素内に存在する所与の分子量を有する下部構造を識別すること
動作の第３段階では、本システムは、組み合わせられると照会分子量に整合する全分子量を有する２つのＩＣＳ記録（選択分子の構成要素毎に１つの記録）の組み合わせを発見するためにメモリ内のＩＣＳ記録を再び検索する。分子量のこのような組み合わせが発見されれば、これは_、切断頂点を跨ぎ（含み）そして第１の構成要素と第２の構成要素の両構成要素内に存在する頂点を有する誘導連結サブグラフ内の頂点及び結合の構造及び物理的配置に対応する選択分子の下部構造が存在するということを意味する。好ましいいくつかの実施態様では、本発明はまた、切断頂点を跨ぐとともにそれを含む選択分子の下部構造の頂点データ、辺データ（及び任意選択的にグラフィック表現）をディスプレイデバイス上に表示及び／又は送信するように構成される。

本発明の一実施形態では、切断頂点を介し連結される２つの誘導連結サブグラフであって照会分子量に整合する全分子量を併せて有する２つの誘導連結サブグラフを発見するためにメモリ内のＩＣＳ記録を検索することが以下のように行われる。本システムは、照会分子量から切断頂点の分子量を減じることにより調整照会分子量を最初に計算し、次に、調整照会分子量に整合する分子量フィールド内の分子量を有するＩＣＳ記録を識別するために第１の構成要素のＩＣＳ記録を検索する。次に、本システムは、分子量フィールド内の最も低い分子量を有する選択分子の第１の構成要素のＩＣＳ記録を識別する。次に、この最も低い分子量は修正照会分子量を提供するために調整照会分子量から減算される。修正照会分子量は、選択分子の第１の構成要素のＩＣＳ記録の最も低い分子量と組み合わせられると修正照会分子量と整合する分子量フィールド内の分子量を有する第２の構成要素のＩＣＳ記録を識別するために第２の構成要素のＩＣＳ記録のバイナリサーチを行うために使用される。整合が発見されれば、本システムは、第１の構成要素の識別されたＩＣＳ記録内の頂点及び辺情報並びに第２の構成要素の識別されたＩＣＳ記録内の頂点及び辺情報をユーザによりアクセス可能なディスプレイデバイスへ表示、印刷及び／又は送信する。任意選択的に、本システムはまた、第１の構成要素の識別されたＩＣＳのグラフィック表現と第２の構成要素の識別されたＩＣＳのグラフィック表現とを連結しこれにより選択分子の下部構造のグラフィック表現を生成することにより切断頂点跨ぎ下部構造（cut-vertex-straddling substructure）のグラフィック表現を表示、印刷、又は送信し得る。ここで、この下部構造は切断頂点のそれぞれの側の切断頂点及び頂点群を含む。

本システムは、選択分子の第１の構成要素の第１のデータベース内のＩＣＳ記録の残りプールに対して次に最も低い分子量を有する選択分子の第１の構成要素のＩＣＳ記録を識別するためにデータベースの検索を繰り返し、新しい修正照会分子量を計算し、そして、選択分子の第１の構成要素のＩＣＳ記録の次に最も低い分子量と組み合わせられると修正照会分子量と整合する分子量フィールド内の分子量を有する選択分子の第２の構成要素のＩＣＳ記録のバイナリサーチを行うために、新たに計算された修正照会分子量を使用する。本処理は、選択分子のＭＣＵグラフの第１の構成要素のＩＣＳ記録のすべての記録の分子量が、修正分子量を計算しそして選択分子のＭＣＵグラフの第２の構成要素のＩＣＳ記録の検索を容易にするために使用されてしまうまで繰り返される。整合が発見されれば、本システムは、識別されたＩＣＳ記録（第１の構成要素及び第２の構成要素の）内の情報をユーザにより操作されるディスプレイデバイスへ表示、印刷、又は送信する。任意選択的に、本システムはまた、各記録内の頂点及び辺データに基づき第１の構成要素と第２の構成要素の両方から、整合誘導連結サブグラフの組み合わせ下部構造のグラフィック表現を表示、印刷、又は送信し得、ここで、組み合わせ下部構造は切断頂点の両側の切断頂点及び頂点群を含む。

上述の動作に合致する本発明のいくつかの潜在的実施形態が存在する。一実施形態では、本発明は、選択分子の下部構造を識別するためのシステムであってマイクロプロセッサ、メモリ、メモリ内のアプリケーションプログラム、及びエンドユーザとの通信のためのメモリ内のユーザインターフェースを含むシステムを提供する。アプリケーションプログラム及びユーザインターフェースの両方は、マイクロプロセッサにより実行されると以下のことをマイクロプロセッサにさせるプログラム命令を含む：
１）（Ａ）選択分子内の一組の最小切断可能ユニット、（Ｂ）選択分子内の一組の最小切断可能ユニットを接続する一組の結合、（Ｃ）各最小切断可能ユニットの分子量、（Ｄ）選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイル、及び（Ｅ）選択分子内の切断頂点であって切断頂点の除去が選択分子を第１の構成要素及び第２の構成要素へ分離するだろう切断頂点を表す選択分子データを受信しメモリ内に格納すること、
２）選択分子データに基づき選択分子の第１の構成要素の第１の最小切断可能ユニットグラフデータ構造を生成しメモリ内に格納することであって、第１の最小切断可能ユニットグラフデータ構造には第１の構成要素の第１のＭＣＵグラフを表す第１のＭＣＵグラフデータが取り込まれ、第１のＭＣＵグラフは複数の第１のＭＣＵグラフ頂点及び複数の第１のＭＣＵグラフ辺を有し、各第１のＭＣＵグラフ頂点は第１の構成要素の最小切断可能ユニットに対応し、各第１のＭＣＵグラフ辺は第１の構成要素内の第１の結合接続最小切断可能ユニットに対応する、格納すること、
３）第１のＭＣＵグラフデータに基づき選択分子の第１の構成要素の第１の線グラフデータ構造を生成しメモリ内に格納することであって、第１の線グラフデータ構造には第１のＭＣＵグラフの第１の線グラフを表す第１の線グラフデータが取り込まれ、第１の線グラフは複数の第１の線グラフ頂点及び複数の第１の線グラフ辺を有し、各第１の線グラフ頂点（「ＬＧ頂点」）は第１のＭＣＵグラフ内の第１のＭＣＵグラフ辺に対応しそして各第１の線グラフ辺（「ＬＧ辺」）は前記第１のＭＣＵグラフ辺により連結される第１のＭＣＵグラフ内の一対の第１のＭＣＵグラフ頂点に対応する、格納すること、
４）第１の線グラフの複数の第１の誘導連結サブグラフを判断するために選択分子の第１の構成要素の第１の線グラフデータ構造内の第１の線グラフデータに対してグラフトラバースアルゴリズムを実行することであって、各第１の誘導連結サブグラフは、第１の線グラフ内の第１のＬＧ頂点及び第１のＬＧ辺の第１の接続サブセットと、第１のＬＧ頂点及び第１のＬＧ辺の前記第１の接続サブセットの第１の物理的配置とを含み、第１のＬＧ頂点及び第１のＬＧ辺の接続サブセットはその第１の物理的配置と併せて、一組の最小切断可能ユニット及び結合の第１の接続サブセットと選択分子内の最小切断可能ユニット及び結合の前記第１の接続サブセットの相対位置とに一意的に対応する、実行すること、
５）選択分子の第１の構成要素の第１の線グラフデータ構造で表される第１の誘導連結サブグラフ毎に、第１の分子量フィールド、第１の頂点データフィールド及び第１の辺データフィールドを含む第１のＩＣＳ記録を生成しデータベース内に格納することであって、第１の頂点データフィールドには第１の誘導連結サブグラフ内のあらゆる第１のＬＧ頂点の第１の頂点位置を指示するように構成された第１の頂点値が取り込まれ、第１の辺データフィールドには第１のＬＧ頂点に対する第１の誘導連結サブグラフ内のあらゆる第１のＬＧ辺の第１の辺位置を指示するように構成された第１の辺値が取り込まれる、格納すること、
６）選択分子の第１の構成要素の第１の線グラフデータ構造内の第１のＩＣＳ記録毎に、選択分子の選択分子データと第１のＩＣＳ記録内の第１の頂点値及び第１の辺値とに基づき当該の第１のＩＣＳ記録の第１の誘導連結サブグラフの第１の全分子量を計算し第１の分子量フィールド内に格納すること、
７）選択分子データに基づき選択分子の第２の構成要素の第２の最小切断可能ユニットグラフデータ構造を生成しメモリ内に格納することであって、第２の最小切断可能ユニットグラフデータ構造には第２の構成要素の第２のＭＣＵグラフを表す第２のＭＣＵグラフデータが取り込まれ、第２のＭＣＵグラフは複数の第２のＭＣＵグラフ頂点及び複数の第２のＭＣＵグラフ辺を有し、各第２のＭＣＵグラフ頂点は第２の構成要素の最小切断可能ユニットに対応し、各第２のＭＣＵグラフ辺は第２の構成要素内の第２の結合接続最小切断可能ユニットに対応する、格納すること、
８）第２のＭＣＵグラフデータに基づき選択分子の第２の構成要素の第２の線グラフデータ構造を生成しメモリ内に格納することであって、第２の線グラフデータ構造には第２のＭＣＵグラフの第２の線グラフを表す第２の線グラフデータが取り込まれ、第２の線グラフは複数の第２のＬＧ頂点及び複数の第２のＬＧ辺を有し、各第２の線グラフ頂点は第２のＭＣＵグラフ内の第２のＭＣＵグラフ辺に対応し、各第２の線グラフ辺は前記第２のＭＣＵグラフ辺により連結される第２のＭＣＵグラフ内の一対の第２のＭＣＵグラフ頂点に対応する、格納すること、
９）第２の線グラフの複数の第２の誘導連結サブグラフを判断するために選択分子の第２の構成要素の第２の線グラフデータ構造内の第２の線グラフデータに対してグラフトラバースアルゴリズムを実行することであって、各第２の誘導連結サブグラフは第２の線グラフ内の第２のＬＧ頂点及び第２のＬＧ辺の第２の接続サブセットと第２のＬＧ頂点及び第２のＬＧ辺の前記第２の接続サブセットの第２の物理的配置とを含み、これらは併せて、一組の最小切断可能ユニット及び結合の第２の接続サブセットと、選択分子内の最小切断可能ユニット及び結合の前記第２の接続サブセットの相対位置に一意的に対応する、実行すること、
１０）選択分子の第２の構成要素の第２の線グラフデータ構造で表される第２の誘導連結サブグラフ毎に、第２の分子量フィールド、第２の頂点データフィールド及び第２の辺データフィールドを含む第２のＩＣＳ記録をデータベース内に生成することであって、第２の頂点データフィールドには第２の誘導連結サブグラフ内のあらゆる第２のＬＧ頂点の第２の頂点位置を指示するように構成された第２の頂点値が取り込まれ、第２の辺データフィールドには第２のＬＧ頂点に対する第２の誘導連結サブグラフ内のあらゆる第２のＬＧ辺の第２の辺位置を指示するように構成された第２の辺値が取り込まれる、生成すること、
１１）選択分子の第２の構成要素の第２の線グラフデータ構造内の第２のＩＣＳ記録毎に、選択分子の選択分子データと第２のＩＣＳ記録内の第２の頂点値及び第２の辺値とに基づき当該の第２のＩＣＳ記録の第２の誘導連結サブグラフの第２の全分子量を計算し第２の分子量フィールド内に格納すること。

ユーザインターフェースは、マイクロプロセッサにより実行されると以下のことをマイクロプロセッサにさせるプログラム命令を含む：
（ｉ）エンドユーザから照会分子量を受信すること、
（ｉｉ）照会分子量に整合する第１の分子量フィールド内の第１の全分子量を有する第１のＩＣＳ記録を識別するためにデータベースを検索すること、
（ｉｉｉ）照会分子量に整合する第２の分子量フィールド内の第２の全分子量を有する第２のＩＣＳ記録を識別するためにデータベースを検索すること、
（ｉｖ）照会分子量に整合する第１の全分子量を有する第１のＩＣＳ記録に対応する第１の誘導連結サブグラフの第１のグラフィック表現を生成しディスプレイデバイス上に表示するために、第１の頂点データフィールド内の第１の頂点値と、識別された第１のＩＣＳ記録の第１の辺データフィールド内の第１の辺値とを使用すること、
（ｖ）照会分子量に整合する第２の全分子量を有する第２のＩＣＳ記録に対応する第２の誘導連結サブグラフの第２のグラフィック表現を生成しディスプレイデバイス上に表示するために、第２の頂点データフィールド内の第２の頂点値と、識別された第２のＩＣＳ記録の第２の辺データフィールド内の第２の辺値とを使用すること、
（ｖｉ）照会分子量から切断頂点の分子量を減じることにより調整照会分子量を計算すること、
（ｖｉｉ）選択分子の第１の構成要素に関し第１の部分的ＩＣＳ記録を識別することであって、第１の部分的ＩＣＳ記録は、第１の構成要素のすべての他の分子量フィールド内のすべての他の分子量に対して最低の第１の分子量を第１の分子量フィールド内に有する、識別すること、
（ｖｉｉｉ）調整照会分子量から選択分子の第１の構成要素の第１の部分的ＩＣＳ記録の最低の第１の分子量を減じることにより修正照会分子量を計算すること、
（ｉｘ）選択分子の第２の構成要素のＩＣＳ記録を検索するために選択分子の第２の構成要素の第２の部分的ＩＣＳ記録を識別するために修正照会分子量を使用することであって、第２の部分的ＩＣＳ記録は、第１の構成要素の第１の部分的ＩＣＳ記録の第１の分子量と組み合わせられると修正照会分子量と整合する第２の分子量フィールド内の第２の分子量を有する、使用すること、
（ｘ）選択分子の第１の構成要素と第２の構成要素との組み合わせ誘導連結サブグラフのグラフィック表現を生成しディスプレイデバイス上に表示するために、第１及び第２の部分的ＩＣＳ記録の頂点データフィールド内の頂点値、第１及び第２の部分的ＩＣＳ記録の辺データフィールド内の辺値、切断頂点及び選択分子データを使用することであって、組み合わせ誘導連結サブグラフは第１の部分的ＩＣＳ記録の誘導連結サブグラフと第２の部分的ＩＣＳ記録の誘導連結サブグラフとを連結することにより生成される、使用すること、
（ｘｉ）第１の部分的ＩＣＳ記録を別の第１のＩＣＳ記録により置換することであって、前記別の第１のＩＣＳ記録は、第１の部分的ＩＣＳ記録の分子量フィールド内の分子量に対する次の最低の第１の分子量を第１の分子量フィールド内に含む、置換すること、
（ｘｉｉ）選択分子の第１の構成要素の第１のＩＣＳ記録の第１の分子量フィールド内の第１の分子量のそれぞれが工程ｖｉｉｉ）_～ｘｉ）を行うために使用されてしまうまで上記工程ｖｉｉｉ）～ｘｉ）を繰り返すこと。

本発明のいくつかの追加実施形態では、本システムはさらに、マイクロプロセッサにより実行されると以下のことをマイクロプロセッサにさせるアプリケーションプログラム内のプログラム命令を含む：ａ）照会分子量の規定公差を受信すること、ｂ）データベースの検索のための一定範囲の分子量を計算し定義するために規定公差を使用すること、ｃ）規定範囲の分子量内に入る分子量フィールド内の全分子量を有するデータベース内の各ＩＣＳ記録を識別するために照会分子量及びこの範囲に基づきデータベースを検索すること、及び（ｄ）前記識別されたＩＣＳ記録毎に、頂点データフィールド内の頂点値及び辺データフィールド内の辺値をエンドユーザへ提示するためにユーザインターフェースへ送信すること、ｅ）照会分子量から切断頂点の分子量を減じることにより調整照会分子量を計算すること、ｆ）選択分子の第１の構成要素に関し、最も低い分子量を有するＩＣＳ記録を識別すること、ｇ）調整照会分子量から選択分子の第１の構成要素のＩＣＳ記録の最も低い分子量を減じることにより修正照会分子量を計算すること、ｈ）第１の構成要素のＩＣＳ記録の分子量と組み合わせられると修正照会分子量に整合するＩＣＳ記録を識別するために選択分子の第２の構成要素のＩＣＳ記録のバイナリサーチを修正照会分子量を使用することにより行うこと、ｉ）識別されたＩＣＳ記録の頂点データフィールド内の頂点値及び辺データフィールド内の辺値をエンドユーザにより操作されるディスプレイデバイス上の提示のためにユーザインターフェースへ送信すること、ｊ）次に最も低い分子量を有する選択分子の第１の構成要素のＩＣＳ記録を識別すること、ｋ）選択分子の第１の構成要素のＩＣＳ記録の分子量のそれぞれが工程ｇ）～ｊ）において使用されてしまうまで工程ｇ）～ｊ）を繰り返すこと。

本発明のいくつかの実施形態では、選択分子データは、連結リスト、配列、又は隣接行列、又はグラフィック画像ファイル、又は化学図ファイル（例えばCambridge Soft（登録商標）からのChemDraw（登録商標）ファイル、PerkinElmer, Inc., Waltham, MA, USA）、又はスプレッドシートファイル、テキストファイル、又はＣＳＶファイル、又は．ＣＤＸファイル、．ＣＤＸＭＬファイル、又は．ＭＯＬファイル、又は．ＳＤＭファイル、ＣＡＤファイル、又はバイナリデータファイル、又は．ＳＭＩファイル、．ＨＥＬＭファイル、又は．ＣＨＥＬＭファイル、又は．ＸＨＥＬＭファイルとしてコンピュータシステムのメモリ内に格納された情報を解析するように構成されるアプリケーションプログラム内の命令を実行することにより取得される。一組の最小切断可能ユニット及び結合の接続サブセットは、選択分子の代謝物、又は選択分子の異化生成物、又は選択分子の気相断片化、又は選択分子の分解剤、又は選択分子の下部構造を含み得る。

本発明のいくつかの実施形態では、選択分子データは、以下を表す基本組成データを含む：（Ａ）各最小切断可能ユニット内の一組の基本ユニット、（Ｂ）最小切断可能ユニット内の一組の基本ユニットを連結する一組の基本結合、（Ｃ）各基本ユニットの基本分子量、（Ｄ）最小切断可能ユニットのＭＣＵ接続プロファイルであって、最小切断可能ユニット内の基本ユニットと基本結合との相対位置及びその間の接続を指示するＭＣＵ接続プロファイル、及びＥ）選択分子内の切断頂点。これらの実施形態では、データベース内に生成されるＩＣＳ記録はさらに、１つ又は複数の基本ユニット識別子が取り込まれる基本ユニットフィールドを含む。アプリケーションプログラムはさらに、マイクロプロセッサにより実行されるとマイクロプロセッサに、（ａ）エンドユーザから照会基本ユニットを受信すること、（ｉｉ）照会基本ユニットに整合する基本ユニットフィールド内の基本ユニット識別子を有するＩＣＳ記録を識別するために照会基本ユニットに基づきデータベースを検索すること、（ｉｉｉ）識別されたＩＣＳ記録の頂点データフィールド内の頂点値及び辺データフィールド内の辺値をエンドユーザにより操作されるディスプレイデバイス上の提示のためにユーザインターフェースへ送信することをさせるプログラム命令を含む。

別の実施形態では、本発明は、マイクロプロセッサを使用して選択分子の下部構造を識別することを容易にするデータベースを生成するためのシステムであって一次メモリ、二次メモリ、マイクロプロセッサ、入力モジュール、ＭＣＵグラフデータ構造生成器、線グラフデータ構造生成器、グラフトラバースモジュール、サブグラフデータベース及び分子量計算器を含むシステムを提供する。

入力モジュールは、（Ａ）選択分子内の一組の最小切断可能ユニット、（Ｂ）選択分子内の一組の最小切断可能ユニットを接続する一組の結合、（Ｃ）各最小切断可能ユニットの分子量、（Ｄ）選択分子内に在る切断頂点であって切断頂点の除去が選択分子を第１の構成要素と第２の構成要素とへ分離する切断頂点、及び（Ｅ）選択分子内の最小切断可能ユニット及び結合の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データをマイクロプロセッサに受信及び格納させるように構成されたプログラム命令を含む。

ＭＣＵグラフデータ構造生成器は、ｉ）選択分子の第１の構成要素の第１の最小切断可能ユニットグラフデータ構造及びｉｉ）選択分子の第２の構成要素の第２の最小切断可能ユニットグラフデータ構造をマイクロプロセッサに生成させこれをメモリ内に格納させるように構成されたプログラム命令を含む。第１の最小切断可能ユニットグラフデータ構造には第１の構成要素の第１のＭＣＵグラフを表す第１のＭＣＵグラフデータが取り込まれる。第１のＭＣＵグラフは複数の第１のＭＣＵグラフ頂点及び複数の第１のＭＣＵグラフ辺を含み、各第１のＭＣＵグラフ頂点は第１の構成要素の最小切断可能ユニットに対応し、各第１のＭＣＵグラフ辺は第１の構成要素内の第１の結合接続最小切断可能ユニットに対応する。第２の最小切断可能ユニットグラフデータ構造には第２の構成要素の第２のＭＣＵグラフを表す第２のＭＣＵグラフデータが取り込まれ、第２のＭＣＵグラフは複数の第２のＭＣＵグラフ頂点及び複数の第２のＭＣＵグラフ辺を有する。各第２のＭＣＵグラフ頂点は第２の構成要素の最小切断可能ユニットに対応し、各第２のＭＣＵグラフ辺は第２の構成要素内の第２の結合接続最小切断可能ユニットに対応する。

線グラフデータ構造生成器は、選択分子の第１の構成要素の第１の線グラフデータ構造を第１のＭＣＵグラフデータに基づき生成しメモリ内に格納するためにマイクロプロセッサ上で実行可能なプログラム命令を含む。第１の線グラフデータ構造には第１のＭＣＵグラフの第１の線グラフを表す第１の線グラフデータが取り込まれ、第１の線グラフは複数の第１のＬＧ頂点及び複数の第１のＬＧ辺を有し、各第１のＬＧ頂点は第１のＭＣＵグラフ内の第１のＭＣＵグラフ辺に対応し、各第１のＬＧ辺は第１のＭＣＵグラフ辺により連結される第１のＭＣＵグラフ内の一対の第１のＭＣＵグラフ頂点に対応する。線グラフデータ構造生成器はまた、選択分子の第２の構成要素の第２の線グラフデータ構造を第２のＭＣＵグラフデータに基づき生成しメモリ内に格納するためにマイクロプロセッサにより実行可能なプログラム命令を含む。第２の線グラフデータ構造には第２のＭＣＵグラフの第２の線グラフを表す第２の線グラフデータが取り込まれ、第２の線グラフは複数の第２のＬＧ頂点及び複数の第２のＬＧ辺を有し、各第２の線グラフ頂点は第２のＭＣＵグラフ内の第２のＭＣＵグラフ辺に対応し、各第２の線グラフ辺は前記第２のＭＣＵグラフ辺により連結される第２のＭＣＵグラフ内の一対の第２のＭＣＵグラフ頂点に対応する。

グラフトラバースモジュールは、第１の線グラフの複数の第１の誘導連結サブグラフを判断するために選択分子の第１の構成要素の第１の線グラフデータ構造内の第１の線グラフデータに対してグラフトラバースアルゴリズムを実行するためにマイクロプロセッサ上で実行可能なプログラム命令を含む。各第１の誘導連結サブグラフは、第１の線グラフ内の第１のＬＧ頂点及び第１のＬＧ辺の第１の接続サブセットと、第１のＬＧ頂点及び第１のＬＧ辺の第１の接続サブセットの第１の物理的配置とを含み、これらは併せて、一組の最小切断可能ユニット及び結合の第１の接続サブセットと、選択分子内の最小切断可能ユニット及び結合の前記第１の接続サブセットの相対位置とに一意的に対応する。

グラフトラバースモジュールはまた、第２の線グラフの複数の第２の誘導連結サブグラフを判断するために選択分子の第２の構成要素の第２の線グラフデータ構造内の第２の線グラフデータに対してグラフトラバースアルゴリズムを実行するためにマイクロプロセッサ上で実行可能なプログラム命令を含み、各第２の誘導連結サブグラフは、第２の線グラフ内の第２のＬＧ頂点及び第２のＬＧ辺の第２の接続サブセットと、第２のＬＧ頂点及び第２のＬＧ辺の前記第２の接続サブセットの第２の物理的配置とを含み、第２のＬＧ頂点及び第２のＬＧ辺の第２の接続サブセットはその物理的配置と併せて、一組の最小切断可能ユニット及び結合の第２の接続サブセットと、選択分子内の最小切断可能ユニット及び結合の前記第２の接続サブセットの相対位置とに一意的に対応する。

サブグラフデータベース生成器は、選択分子の第１の構成要素の第１の線グラフデータ構造で表される第１の誘導連結サブグラフ毎に、第１の分子量フィールド、第１の頂点データフィールド及び第１の辺データフィールドを含む第１のＩＣＳ記録をサブグラフデータベース内に生成することをマイクロプロセッサにさせるプログラム命令を含む。第１の頂点データフィールドには第１の誘導連結サブグラフ内のあらゆる第１のＬＧ頂点の第１の頂点位置を指示するように構成された第１の頂点値が取り込まれ、第１の辺データフィールドには第１のＬＧ頂点に対する第１の誘導連結サブグラフ内のあらゆる第１のＬＧ辺の第１の辺位置を指示するように構成された第１の辺値が取り込まれる。データベース生成器はまた、選択分子の第２の構成要素の第２の線グラフデータ構造で表される第２の誘導連結サブグラフ毎に、第２の分子量フィールド、第２の頂点データフィールド及び第２の辺データフィールドを含む第２のＩＣＳ記録をサブグラフデータベース内に生成することをマイクロプロセッサにさせるプログラム命令を含む。第２の頂点データフィールドには第２の誘導連結サブグラフ内のあらゆる第２のＬＧ頂点の第２の頂点位置を指示するように構成された第２の頂点値が取り込まれ、第２の辺データフィールドには第２のＬＧ頂点に対する第２の誘導連結サブグラフ内のあらゆる第２のＬＧ辺の第２の辺位置を指示するように構成された第２の辺値が取り込まれる。

分子重量計算器は、選択分子の選択分子データにより提供される基本分子量と第１のＩＣＳ記録内の第１の頂点値及び第１の辺値とに基づき、選択分子の第１の構成要素の第１の線グラフデータ構造内の第１のＩＣＳ記録毎に、当該の第１のＩＣＳ記録の第１の誘導連結サブグラフの第１の全分子量を計算し第１の分子量フィールド内に格納することをマイクロプロセッサにさせるプログラム命令を含む。分子重量計算器はまた、選択分子の選択分子データにより提供される基本分子量と第２のＩＣＳ記録内の第２の頂点値及び第２の辺値とに基づき、選択分子の第２の構成要素の第２の線グラフデータ構造内の第２のＩＣＳ記録毎に、当該の第２のＩＣＳ記録の第２の誘導連結サブグラフの第２の全分子量を計算し第２の分子量フィールド内に格納することをマイクロプロセッサにさせるプログラム命令を含む。

本発明のさらに別の実施形態では、マイクロプロセッサ、メモリデバイス及びディスプレイデバイスを使用することにより選択分子の下部構造を識別することを容易にするためにメモリ内にデータベースを生成するコンピュータ実施方法が提供される。第１の工程では、本方法は、（Ａ）選択分子内の一組の最小切断可能ユニット、（Ｂ）選択分子内の一組の最小切断可能ユニットを接続する一組の結合、（Ｃ）各最小切断可能ユニットの分子量、（Ｄ）選択分子内に在る切断頂点であって切断頂点の除去が選択分子を第１の構成要素と第２の構成要素とへ分離する切断頂点、及び（Ｅ）選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データを受信しメモリデバイス内に格納する。

次に、選択分子データに基づき、コンピュータ実施方法は、選択分子の第１の構成要素及び第２の構成要素の最小切断可能ユニットグラフデータ構造を生成しメモリデバイス内に格納する。最小切断可能ユニットグラフデータ構造には選択分子のＭＣＵグラフを表すＭＣＵグラフデータが取り込まれる。ＭＣＵグラフは複数のＭＣＵグラフ頂点及び複数のＭＣＵグラフ辺を有し、各ＭＣＵグラフ頂点は選択分子の最小切断可能ユニットに対応し、各ＭＣＵグラフ辺は選択分子内の結合接続最小切断可能ユニットに対応する。

ＭＣＵグラフデータに基づき選択分子の第１の構成要素の第１の線グラフデータ構造及び選択分子の第２の構成要素の第２のグラフデータ構造が生成されメモリデバイス内に格納される。各線グラフデータ構造にはＭＣＵグラフの第１及び第２の構成要素の線グラフを表す線グラフデータが取り込まれる。第１及び第２の線グラフはそれぞれ複数のＬＧ頂点及び複数のＬＧ辺を有し、各ＬＧ頂点はＭＣＵグラフ内のＭＣＵグラフ辺に対応し、各ＬＧ辺は前記ＭＣＵグラフ辺により連結されるＭＣＵグラフ内の一対のＭＣＵグラフ頂点に対応する。

本方法の次の工程では、マイクロプロセッサは、構成要素毎に（ａ）線グラフの複数の誘導連結サブグラフであってそれぞれが線グラフ内のＬＧ頂点及びＬＧ辺の接続サブセットを含む誘導連結サブグラフ、（ｂ）一組の最小切断可能ユニット及び結合の接続サブセットに併せて一意的に対応するＬＧ頂点及びＬＧ辺の接続サブセットの物理的配置、及び（ｃ）選択分子内の最小切断可能ユニット及び結合の接続サブセットの相対位置を判断するために選択分子の第１の構成要素の第１のグラフデータ構造内の第１の線グラフデータ及び選択分子の第２の構成要素の第２のグラフデータ構造内の第２の線グラフデータに対しグラフトラバースアルゴリズム実行するために使用される。

第１の構成要素の第１のグラフデータ構造及び第２の構成要素の各第２のグラフデータ構造で表される誘導連結サブグラフ毎に、本方法はさらに、分子量フィールド、頂点データフィールド及び辺データフィールドを含むＩＣＳ記録をサブグラフデータベース内に生成する工程を含み、ここでは、頂点データフィールドには誘導連結サブグラフ内のあらゆるＬＧ頂点の頂点位置を指示するように構成された頂点値が取り込まれ、辺データフィールドにはＬＧ頂点に対する誘導連結サブグラフ内のあらゆるＬＧ辺の辺位置を指示するように構成された辺値が取り込まれる。選択分子の第１の構成要素及び第２の構成要素の線グラフデータ構造のＩＣＳ記録毎に、マイクロプロセッサは、選択分子の選択分子データとＩＣＳ記録内の頂点値及び辺値とに基づき当該のＩＣＳ記録の誘導連結サブグラフの全分子量を計算し分子量フィールド内に格納するために使用される。

本発明のいくつかの実施形態では、本方法は、さらに、ａ）マイクロプロセッサにより照会分子量を受信すること、ｂ）マイクロプロセッサにより、照会分子量に整合する全分子量を分子量フィールド内に有するＩＣＳ記録を識別するために照会分子量に基づきサブグラフデータベースを検索すること、ｃ）識別されたＩＣＳ記録の頂点データフィールド内の頂点値及び辺データフィールド内の辺値の表現をディスプレイデバイスへ送信すること、（ｄ）照会分子量から切断頂点の分子量を減じることにより調整照会分子量を計算すること、（ｅ）最も低い分子量を有する選択分子の第１の構成要素のＩＣＳ記録を識別すること、（ｆ）調整照会分子量から選択分子の第１の構成要素のＩＣＳ記録の最も低い分子量を減じることにより修正照会分子量を計算すること、（ｇ）第１の構成要素のＩＣＳ記録の分子量と組み合わせられると修正照会分子量に整合するＩＣＳ記録を識別するために選択分子の第２の構成要素のＩＣＳ記録のバイナリサーチを行うために修正照会分子量を使用すること、（ｈ）識別されたＩＣＳ記録の頂点データフィールド内の頂点値及び辺データフィールド内の辺値をエンドユーザにより操作されるディスプレイデバイス上の提示のためにユーザインターフェースへ送信すること、（ｉ）次に最も低い分子量を有する選択分子の第１の構成要素のＩＣＳ記録を識別すること、（ｉ）選択分子の第１の構成要素のＩＣＳ記録の分子量のそれぞれが工程ｆ）～ｊ）において使用されてしまうまで工程ｆ）～ｈ）を繰り返すこと、を含む。

本発明のいくつかの実施形態では、線グラフＧの連結構成要素（オリジナル分子の潜在的代謝物）は次式により判断される：
ｉ）Ｇ_１＼｛ｖ｝のサブグラフ、
ｉｉ）Ｇ_２＼｛ｖ｝のサブグラフ、又は、
（ｉｉｉ）サブグラフＣ_１∪｛ｖ｝∪Ｃ_２、
ここで、Ｃ_１及びＣ_２はそれぞれＧ_１＼｛ｖ｝及びＧ_２＼｛ｖ｝のサブグラフであり、頂点ｖに隣接する。

図面の簡単な説明
本発明の一実施形態におけるデータの流れを一例として示す高レベル流れ図を示す。本発明の別の実施形態におけるデータの流れを一例として示す高レベル全体流れ図を示し、ここで、様々なタイプのグラフを表すデータ構造は隣接行列である。本発明のいくつかの実施形態により導出される誘導連結サブグラフの各誘導連結サブグラフに関連する生体変換カウントを計算し誘導連結サブグラフ（ＩＣＳ）データベース内に格納するアルゴリズムを一例として示す高レベル流れ図を示す。本発明の例示的実施形態に従って動作するように構成された錯体分子下部構造識別システムのアーキテクチャの例を示す高レベルブロック図を示す。本発明のいくつかの実施形態によるＩＣＳデータベース内に格納され得る例示的誘導連結サブグラフ（ＩＣＳ）記録を示す。選択分子の第１及び第２の構成要素の各構成要素の誘導連結サブグラフ及び対応ＩＣＳ記録のフルセットを判断するためにマイクロプロセッサにより行われる工程を本発明の一実施形態に従って示す流れ図であり、ここで、構成要素の各誘導連結サブグラフは選択分子の当該構成要素内に完全に存在する化学的下部構造に一意的に対応する。本発明の一実施形態による選択分子のＭＣＵグラフを生成するためのアルゴリズムを示す流れ図である。本発明の一実施形態によるＭＣＵグラフの線グラフを生成するためのアルゴリズムを示す流れ図である。図７の処理により生成され得る切断頂点（Ｑ）を含む仮想選択分子の最小切断可能ユニットグラフを示す。本発明の一実施形態に従って生成される仮想選択分子の２つの構成要素のデータ構造（隣接行列）を示す。仮想選択分子の構成要素を表すために生成され得る２つの例示的線グラフを示す。図９Ｃに示す線グラフの２つの例示的線グラフデータ構造（すなわち隣接行列）を示す。本発明の一実施形態における選択分子を含む可能性がある巨大分子の一例である合成二量体の化学構造を示す。図１０に示す合成二量体分子のＭＣＵグラフの例を示す。図１０に示す合成二量体の第１の単量体を表すために本発明の一実施形態に従って生成され得る線グラフ及び線グラフデータ構造を示す。図１０に示す合成二量体の第１の単量体を表すために本発明の一実施形態に従って生成され得る線グラフ及び線グラフデータ構造を示す。図１０に示す合成二量体の第１の単量体を表すために本発明の一実施形態に従って生成され得る「辺対頂点」データ構造である。図１０に示す合成二量体の第２の単量体を表すために本発明の一実施形態に従って生成され得る線グラフ及び線グラフデータ構造を示す。図１０に示す合成二量体の第２の単量体を表すために本発明の一実施形態に従って生成され得る線グラフ及び線グラフデータ構造を示す。図１０に示す合成二量体の第２の単量体を表すために本発明の一実施形態に従って生成され得る「辺対頂点」データ構造を示す。選択分子の下部構造を識別するために誘導連結サブグラフのデータベース（ＩＣＳデータベース）を検索する際の本発明の一実施形態による工程を示す流れ図である。本発明の一実施形態に従って生成される単量体Ａの例示的サブグラフデータベース記録である。本発明の一実施形態に従って生成される単量体Ａの例示的サブグラフデータベース記録である。本発明の一実施形態に従って生成される単量体Ａの例示的サブグラフデータベース記録である。本発明の一実施形態に従って生成される単量体Ａの例示的サブグラフデータベース記録である。本発明の一実施形態に従って生成される単量体Ｂの例示的サブグラフデータベース記録である。本発明の一実施形態に従って生成される単量体Ｂの例示的サブグラフデータベース記録である。本発明の一実施形態に従って生成される単量体Ｂの例示的サブグラフデータベース記録である。本発明の一実施形態に従って生成される単量体Ｂの例示的サブグラフデータベース記録である。本発明の一実施形態に従って生成されるとともに図１７Ａ～１７Ｄそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Ａの下部構造のＭＣＵグラフ及び化学構造を示す。本発明の一実施形態に従って生成されるとともに図１７Ａ～１７Ｄそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Ａの下部構造のＭＣＵグラフ及び化学構造を示す。本発明の一実施形態に従って生成されるとともに図１７Ａ～１７Ｄそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Ａの下部構造のＭＣＵグラフ及び化学構造を示す。本発明の一実施形態に従って生成されるとともに図１７Ａ～１７Ｄそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Ａの下部構造のＭＣＵグラフ及び化学構造を示す。本発明の一実施形態に従って生成されるとともに図１７Ａ～１７Ｄそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Ａの下部構造のＭＣＵグラフ及び化学構造を示す。本発明の一実施形態に従って生成されるとともに図１７Ａ～１７Ｄそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Ａの下部構造のＭＣＵグラフ及び化学構造を示す。本発明の一実施形態に従って生成されるとともに図１７Ａ～１７Ｄそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Ａの下部構造のＭＣＵグラフ及び化学構造を示す。本発明の一実施形態に従って生成されるとともに図１７Ａ～１７Ｄそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Ａの下部構造のＭＣＵグラフ及び化学構造を示す。本発明の一実施形態に従って生成されるとともに図１８Ａ～１８Ｄそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Ｂの下部構造のＭＣＵグラフ及び化学構造を示す。本発明の一実施形態に従って生成されるとともに図１８Ａ～１８Ｄそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Ｂの下部構造のＭＣＵグラフ及び化学構造を示す。本発明の一実施形態に従って生成されるとともに図１８Ａ～１８Ｄそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Ｂの下部構造のＭＣＵグラフ及び化学構造を示す。本発明の一実施形態に従って生成されるとともに図１８Ａ～１８Ｄそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Ｂの下部構造のＭＣＵグラフ及び化学構造を示す。本発明の一実施形態に従って生成されるとともに図１８Ａ～１８Ｄそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Ｂの下部構造のＭＣＵグラフ及び化学構造を示す。本発明の一実施形態に従って生成されるとともに図１８Ａ～１８Ｄそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Ｂの下部構造のＭＣＵグラフ及び化学構造を示す。本発明の一実施形態に従って生成されるとともに図１８Ａ～１８Ｄそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Ｂの下部構造のＭＣＵグラフ及び化学構造を示す。本発明の一実施形態に従って生成されるとともに図１８Ａ～１８Ｄそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Ｂの下部構造のＭＣＵグラフ及び化学構造を示す。本発明の一実施形態に従って生成される単量体Ｂの下部構造と組み合わせられた単量体Ａの下部構造のＭＣＵグラフ及び化学構造を示す。本発明の一実施形態に従って生成される単量体Ｂの下部構造と組み合わせられた単量体Ａの下部構造のＭＣＵグラフ及び化学構造を示す。本本発明の一実施形態による、マイクロプロセッサにより実行されるとマイクロプロセッサに、サブグラフデータベースにＭＣＵグラフ隣接行列内に格納されたＭＣＵグラフデータを取り込ませるグラフトラバースアルゴリズムの例示的ＭａｔＬａｂプログラム命令を示す。図２８に示す例示的プログラム命令により行われるアルゴリズムを示す流れ図を示す。

例示的実施形態の詳細な説明
本明細書において説明される切断頂点方法は、全分子内の下部構造のすべてを一斉に解析し識別することを試みる代わりに、選択分子を別々に表す線グラフの２つの個別サブセクション内に発見される下部構造を解析及び識別し、そして次に２つの解析の結果を集約することにより複雑な構造を有するコンピュータを完全にダウンさせる問題を低減しそして多数の代謝物を識別することを容易にし、これにより巨大錯体分子の薬剤開発及び設計を容易にする。しかし本発明のいくつかの実施形態はすべてのタイプの分子の下部構造を識別するために適用可能であり且つ有用であるということに留意すべきである。下部構造が属する分子は「選択分子」と呼ばれる。選択分子は巨大分子、高分子、又は小分子であり得る。巨大分子は、限定しないが、ペプチドなどのアミノ酸ベース分子だけでなくポリペプチド、抗体、蛋白質、酵素、免疫グロブリン、脂質、核酸、炭水化物、オリゴヌクレオチド、ポリヌクレオチド、多糖、及び高分子を含む。選択分子はまた共役分子及び交差結合分子であり得る。

本明細書で使用されるように、すべてのアミノ酸３文字及び１文字指定は、当該技術領域において標準的である指定に準拠し、次のように列挙される：
アラニンＡｌａＡ、アルギニンＡｒｇＲ、アスパラギンＡｓｎＮ、アスパラギン酸ＡｓｐＤ、システインＣｙｓＣ、グルタミン酸ＧｌｕＥ、グルタミンＧｌｎＱ、グリシンＧｌｙＧ、ヒスチジンＨｉＨ、イソロイシンＩｌｅＩ、ロイシンＬｅｕＬ、リジンＬｙｓＫ、メチオニンＭｅｔＭ、フェニルアラニンＰｈｅＦ、プロリンＰｒｏＰ、セリンＳｅｒＳ、トレオニンＴｈｒＴ、トリプトファンＴｒｐＷ、チロシンＴｙｒＹ、バリンＶａｌＶ

本発明の例示的システム、装置及び方法は、所与の分子の下部構造（代謝物など）の網羅的プールを識別及び格納するだけでなく、また識別された代謝物の構造的特徴付けと代謝物の化学構造又は構成の視覚化とを提供するために速く且つ効率的やり方を提供するために小分子ＭｅｔＩＤ手法及び小分子トップダウンプロテオミクス（Top Down proteomics）手法を組み合わせる。本発明の例示的システム、装置及び方法は、コンピュータシステムが識別するために必要とされる検索時間を著しく改善することにより従来のコンピュータシステムの動作を改善し、そして錯体分子の下部構造及び他の代謝物を特徴付ける。本発明のいくつかの実施形態に従って動作するように構成されたコンピュータシステムは、完了するために数週又は数か月かかるであろう従来のコンピュータ化システム及び方法と比較してほんの数時間で何億もの下部構造又はさらには何十億の下部構造を識別し特徴付けし得る。下部構造は、コンピュータメモリなどの電子媒体内に格納され、コンピュータシステムに付随するモニタ又はディスプレイ画面上に表示され、コンピュータシステムに付随する印刷デバイス上に印刷、又は、さらなる解析のために別のコンピュータシステム又はネットワークへ送信され得る。本発明により可能にされる著しく改善された処理時間は、薬剤設計及び開発の技術を進展させる際に貴重な役割を果たすことになる。

本発明のシステム、装置及び方法は選択分子の代謝物及び他の下部構造を識別するために有用である。例えば、無傷蛋白質を特徴付けるために、気相断片化技術が前駆体蛋白質イオンの断片化イオンを取得するためにしばしば行われる。各断片化イオンは前駆体イオンの下部構造と見做され得る。前駆体蛋白質イオンの構造を正しく特徴付けるために、各断片化イオンの構造がその質量又は分子量値に基づき正しく割り当てられる必要がある。本発明のシステム、装置及び方法は、断片化イオンの質量値と気相状態のそれらの構造との間の関係を構築するために適用され得る。

図１は本発明の一実施形態におけるデータの流れを一例として示す高レベル流れ図を示す。図１に示すように、第１のユーザは、選択分子データ（選択分子の規定ＭＣＵ、ＭＣＵの分子量及び選択分子の接続プロファイルの一組を含む）を本システムへ供給するために第１のエンドユーザコンピュータシステム１１５及び入力モジュール１２５を使用する。接続プロファイルは、最小切断可能ユニットと結合との相対位置と、選択分子内のＭＣＵと結合との任意の接続とを示す。選択分子データはまた、選択分子の切断頂点を識別するために十分な情報を含む。切断頂点が選択分子を表す線グラフから除去されれば、切断頂点の除去は選択分子の線グラフを第１の構成要素と第２の構成要素とへ分割する。ＭＣＵグラフデータ構造生成器１３０は、ＭＣＵグラフデータ構造を生成し、そして選択分子のＭＣＵグラフを表すデータをこれに取り込む。ＭＣＵグラフデータ構造生成器１３０はＭＣＵグラフデータを本システムに付随する二次メモリデバイス（図１に示さず）内に格納する。

線グラフデータ構造生成器１３５はＭＣＵグラフデータ構造から第１の構成要素のＭＣＵグラフデータを取り出す。次に、線グラフデータ構造生成器１３５は、選択分子の第１の構成要素の第１の線グラフを表すデータを含む第１のグラフデータ構造を生成するためにそして第１のグラフデータ構造に取り込むために切断頂点情報と一緒にこのＭＣＵグラフデータを使用する。線グラフデータ構造生成器１３５はまた、ＭＣＵグラフデータ構造から第２の構成要素のＭＣＵグラフデータを取り出す。次に、線グラフデータ構造生成器１３５は、選択分子の第２の構成要素の第２の線グラフを表すデータを含む第２のグラフデータ構造を生成するためにそして第２のグラフデータ構造に取り込むために切断頂点情報と一緒にこのＭＣＵグラフデータを使用する。切断頂点は選択分子の第１の構成要素と第２の構成要素との間の境界である。

次に、グラフトラバースモジュール１４０は、第１のグラフデータ構造内の第１の線グラフデータにより表される第１の線グラフから導出され得る第１の誘導連結サブグラフのすべてを表す第１の誘導連結サブグラフデータ１４２を生成しメモリ内に格納するために第１のグラフデータ構造内のデータをトラバースするために、好適なグラフトラバースアルゴリズムを使用する。グラフトラバースモジュール１４０はまた、第２のグラフデータ構造内の第２の線グラフデータにより表される第２の線グラフから導出され得る第２の誘導連結サブグラフのすべてを表す第２の誘導連結サブグラフデータ１４４を生成しメモリ内に格納するために第２のグラフデータ構造内のデータをトラバースするためにこのグラフトラバースアルゴリズムを使用する。サブグラフデータベース生成器１４５は、複数の誘導連結サブグラフ（ＩＣＳ）記録を含む第１のサブグラフデータベース１５０を構築しこれに取り込むために、第１の誘導連結サブグラフデータ１４２、第２の誘導連結サブグラフデータ１４４及び選択分子データ（特に分子量）を取り出す。各ＩＣＳ記録は、少なくとも誘導連結サブグラフの頂点データが取り込まれる頂点データフィールド、誘導連結サブグラフの辺データが取り込まれる辺データフィールド、誘導連結サブグラフの分子量が取り込まれる分子量フィールド、並びに選択分子を各ＩＣＳ記録内の頂点フィールド、辺フィールド及び分子量フィールド内に格納された値によりに表される下部構造へ変換するために必要とされる生体変換（以下に定義される）の数を表す値が取り込まれる生体変換カウントフィールドを含む。サブグラフデータベース生成器１４５は、エンドユーザにより供給される選択分子データ内のＭＣＵの分子量に基づき各誘導連結サブグラフの分子量を計算する。図１に示すように、生体変換カウントはサブグラフデータベース生成器１４５に付随する生体変換プロセッサ１４９により計算され得、生体変換プロセッサ１４９は、図３に描写されるとともに以下にさらに詳細に説明されるアルゴリズムなどの生体変換カウントアルゴリズムを行うように構成される。図５は本発明のいくつかの実施形態によるサブグラフデータベース１５０内に格納され得る例示的誘導連結サブグラフ（ＩＣＳ）記録を示す。

サブグラフデータベース１５０が構築され、二次メモリ（何百万の記録を含み得る）内に格納された後、第２のユーザは、所与の照会分子量（又は所与の範囲の分子量）に基づきサブグラフデータベース１５０を検索するために第２のエンドユーザコンピュータシステム１６０及びユーザインターフェース１６５を使用し得る。照会分子量（又は、一定範囲の分子量）は、照会分子量に等しい又は指定範囲の分子量内に入る分子量を有する記録のすべての記録の頂点データ及び辺データを本システムにサブグラフデータベース１５０から取り出させる検索エンジン１７０へ渡される。検索エンジン１７０はまた、選択分子の切断頂点を跨ぐあらゆるＩＣＳの頂点データ及び辺データを識別し取り出すために修正照会分子量及び調整照会分子量を計算するとともにバイナリサーチをサブグラフデータベース１５０に対し実行するように、以下に詳細に説明される図１６に示すアルゴリズムに従って動作する。視覚化器１７５は検索において発見された誘導連結サブグラフのグラフィック表現を生成するために頂点データ及び辺データを使用し、グラフィック表現は、ユーザインターフェース１６５を介し、第２のユーザにより操作されるディスプレイデバイス１６２へ送信される。好ましいいくつかの実施態様では、照会質量（又は範囲）に整合する２つ以上の誘導連結サブグラフが存在すれば、視覚化器１７５及びユーザインターフェース１６５は、それぞれの生体変換フィールド内の値に従って、整合誘導連結サブグラフをランク付けしそして整合誘導連結サブグラフをランク順で表示するように動作する。第１のエンドユーザコンピュータシステム及び第２のエンドユーザコンピュータシステムは、いくつかの実施形態では、同じコンピュータシステムを含み得、そして第１のエンドユーザ及び第２のエンドユーザは同じユーザであり得るということに留意すべきである。換言すれば、本システムは、同じコンピュータシステムがサ本システムのブグラフデータベース生成機能とサブグラフデータベース検索機能との両方を開始するために使用されるように構成され得る。

図２は本発明の別の実施形態におけるデータの流れを一例として示す高レベル全体流れ図を示し、ここで、様々なタイプのグラフを表すデータ構造は隣接行列である。図２に示すように、全体データ流れは、「頂点対頂点」（Ｖ２Ｖ：vertex to vertex）隣接行列生成器モジュール２３０がＶ２Ｖグラフデータを生成し格納するために選択分子データを使用し、「辺対辺」（Ｅ２Ｅ：edge-to-edge）グラフ隣接行列生成器２３５がＥ２Ｅグラフデータを生成し格納するためにＶ２Ｖグラフデータを使用し、「辺対頂点」（Ｅ２Ｖ：edge-to-vertex）グラフ隣接行列生成器２３７がＥ２Ｖグラフデータを生成し格納するためにＶ２Ｖグラフデータを使用するということを除いて図１に示すシステム内の全体データ流れとほぼ同じである。

図３は辺配列データにより表されるとともにシステムにより生成される誘導連結サブグラフの各誘導連結サブグラフに関連する生体変換カウントを計算しＩＣＳデータベース内に格納するためのアルゴリズムを一例として示す高レベル流れ図を示す。本開示の目的のために、「生体変換」は２つのＭＣＵ間の共有結合の破壊として定義される。

しばしば、複数の代謝物は、検索照会内に規定された公差範囲（例えば所与の検索質量を中心とする±５ｐｐｍ以内の範囲、±２ｐｐｍ内の±４ｐｐｍ以内の範囲、又は他のある制限された範囲）に依存して検索内の所与の照会質量に整合することになる。このような場合、選択分子から生成される可能性がより高い代謝物が検索結果内の戻された代謝物のリストの最上位に表示される（すなわち、選択分子から生成される可能性がより低い代謝物を表示する前に表示される）ように、検索において戻される代謝物のリストをフィルタリングする（又は、少なくとも優先順位付けする）ことがしばしば効率的であり且つ望ましい。代謝物は通常、酵素的に生成されるので、そして酵素は通常、一度に１つの結合を加水分解するので、代謝物が人体内又は実験室内で生成されるかにかかわらず、選択分子内の最小数の結合を破壊することにより生成され得る代謝物もまた当該の選択分子から生成される可能性が最も高い代謝物であるということを仮定することが合理的である。同様な連続的断片化処理が気相断片化中に発生する。１つの結合が一度に壊れ、最も弱い結合が最初に破壊し、次の最も弱い結合の破壊が続く、等々である。

したがって、本発明のいくつかの実施形態と特にサブグラフデータベース生成器は、ＩＣＳデータベース内に表される誘導連結サブグラフ（すなわち代謝物）毎に、選択分子を当該の特定代謝物へ変換するために必要とされる生体変換（又は壊れた共有結合）の数をカウントしＩＣＳデータベース内に格納するように構成された生体変換プロセッサ（一組のコンピュータプログラム命令など）を含み得る。加えて、検索エンジンは、検索結果内の代謝物を取り出しランク順に表示するために、照会質量と共に、格納された生体変換カウントを使用するように適切に構成され、より低い生体変換カウント値を有する代謝物は最も高い生体変換カウント値を有する代謝物より高くランク付けされる。いくつかの実施形態では、本システムはまた、規定最大数の生体変換より多い生体変換を必要とする代謝物が検索結果からフィルタリングされユーザのディスプレイデバイス上に提示されないように、検索結果をフィルタリングするように構成され得る。

例えば、選択分子は直鎖ペプチドＡＮ－Ｔ－Ｇ－Ｆ－ＡＮ－Ｇ－Ｇであり、照会質量に整合する代謝物の１つはＡＮ－Ｔ－Ｇ－Ｆであり、照会質量に整合する代謝物の別の１つはＴ－Ｇ－Ｆ－ＡＮである。明らかに、選択分子からＡＮ－Ｔ－Ｇ－Ｆ代謝物を取得するためには単一の破壊された結合を必要とし、一方、Ｔ－Ｇ－Ｆ－ＡＮ代謝物を取得するためには２つの破壊された結合を必要とする。この状況では、検索照会モジュールのユーザインターフェースはＡＮ－Ｔ－Ｇ－Ｆ代謝物をＴ－Ｇ－Ｆ－ＡＮ代謝物より高くランク付けするだろう。

本発明のいくつかの実施形態は、選択分子から生成され得るあらゆる下部構造を表すＩＣＳ記録を含むＩＣＳデータベースを生成するように構成される。各ＩＣＳ記録は少なくとも１つの頂点配列、辺配列及び生体変換カウントフィールドを含む。したがって、図３に示すように、ＩＣＳデータベース内に表される各下部構造の生体変換の数をカウントし格納するための１つのアルゴリズムは次のように進むだろう：
工程３０５－ＩＣＳデータベース内の第１のＩＣＳ記録を選択する、
工程３１０－選択されたＩＣＳ記録内の辺配列を識別する、
工程３１５－辺配列内のすべての０を識別することにより喪失辺を識別する、
工程３２０－その初期値を零に設定することにより、選択されたＩＣＳ記録の生体変換カウントフィールドを初期化する、
工程３２５－辺配列内の喪失辺毎に、喪失辺が下部構造内の少なくとも１つの頂点に隣接すれば、生体変換カウントフィールド内の値を１だけ増分する、
工程３３０－ＩＣＳデータベース内の次のＩＣＳ記録を選択する、及び
工程３３５－生体変換カウント値が計算されＩＣＳデータベース内のあらゆるＩＣＳ記録内に格納されてしまうまで工程３１０～３３０を繰り返す。

本明細書において論述されるように、選択分子の構造が切断頂点により分離された２つの単量体（単量体Ａ及び単量体Ｂ）を含むケースが存在することになる切断頂点を跨ぐこのような選択分子の下部構造又は代謝物に関し、生体変換の数は、選択分子を単量体Ａに変換するために必要とされる生体変換の数と選択分子を単量体Ｂに変換するために必要とされる生体変換の数との合計である。

次に、このアルゴリズムに従って生体変換カウントフィールド内に格納された値は、生成される可能性が最も高い下部構造がエンドユーザへ列挙又は表示されるただ一つの下部構造であるように、又は生成される可能性が最も高い下部構造がリストの最上位に（すなわち生成される可能性が最も低い下部構造の前に）列挙又は表示されるように検索結果をランク付け及び／又はフィルタリングするために本発明のいくつかの実施形態により使用され得る。

図４は本発明の例示的実施形態に従って動作するように構成された錯体分子下部構造識別システム４０５のアーキテクチャを一例として示す高レベルブロック図を示す。錯体分子下部構造識別システム４０５は、汎用又は特殊コンピュータシステム（例えばパーソナルコンピュータシステム、ノートブックコンピュータ、ラップトップ又はハンドヘルドコンピューターシステム、タブレット、インターネット使用可能スマートフォン又は携帯情報端末コンピュータデバイス、又はこれらのもののうちの１つ又は複数の任意の組み合わせを含む）上で実現され得る。通常、錯体分子下部構造識別システム４０５は、中央処理ユニット（ＣＰＵ）又はマイクロプロセッサ４２５、一次メモリ４１０（ランダムアクセスメモリ（又はＲＡＭ）とも呼ばれる）及び不揮発性二次メモリ格納領域４２０（例えばハードドライブ、フラッシュドライブ又はＣＤ－ＲＯＭドライブ）を含む。図４に示すように、錯体分子下部構造識別システム４０５はまた、他のコンピュータシステム、プリンタなどの周辺装置、及び／又はデータ通信ネットワークとのデータ通信を提供するために例えば有線イーサーネットローカルエリアネットワークアダプタ、８０２．１１、ａ／ｇ／ｎＷｉＦｉアダプタ、ユニバーサルシリアルバス（ＵＳＢ）アダプタ、及び／又はブルートゥース無線データ通信アダプタなどのネットワークインターフェース４３０を含み得る。アプリケーションプログラム４１２を含むコードなどのプログラムコード及び選択分子データ４８５などのプログラムデータは、不揮発性二次格納領域４２０から一次メモリ４１０へロード（すなわちＲＡＭ内へロード）され、そして、実行のためにマイクロプロセッサ４２５へ提供され得る。アプリケーションプログラム４１２の制御下で動作することにより、マイクロプロセッサ４２５は、結果を生成し、そして他のコンピュータシステム、他のコンピュータプログラム、及び／又は他のデータ通信ネットワークへのその後のアクセス、表示、出力及び／又は送信のために二次メモリ格納領域４２０内に格納し得る。

アプリケーションプログラム４１２内のソフトウェアモジュールの制御下でマイクロプロセッサ４２５により行われた下部構造識別子処理の結果は、アプリケーションプログラム４１２内のユーザインターフェースモジュール４６０の制御下で動作する１つ又は複数のエンドユーザ入力デバイス４９５（例えばキーボード、マウス、スタイラス、タッチスクリーンなど）及び１つ又は複数のエンドユーザ出力デバイス４９８（例えばディスプレイデバイス、プリンタ、タブレットディスプレイ画面又はスマートフォンディスプレイ画面など）を介し錯体分子下部構造識別システム４０５と相互作用する人間ユーザにより必要に応じ視認、ナビゲート、及び修正され得るように、二次メモリ格納領域４２０内に格納される。二次メモリ格納領域４２０及びそれが含むデータは、図４に示すようにマイクロプロセッサ４２５、一次メモリ４１０、アプリケーションプログラム４１２、及びソフトウェアモジュール４３５、４４０、４４５、４５０、４５５、４６０、４６５、４７０、４７５、４８０と同じ物理的マシン内へ組み込まれ得る。しかし、二次メモリ格納領域４２０内に示されるデータ及び／又はデータベースのいくつか又はすべてはまた、請求される発明の範囲から逸脱することなく分散配置の別個のコンピュータシステム上に存在し得る。

ネットワークインターフェース４３０は、処理されるべき追加入力データ（図４に示さず）並びに処理を行うために有用又は必要と思われる複数の電子ファイル及び文書を含む又は生成するリモートサーバ及びマシン（例えば質量分光デバイス）に対する接続を確立するために採用され得る。ネットワークインターフェース４３０はまた、本発明の錯体分子下部構造識別システム４０５にアクセスしそれを使用したい他の人間ユーザにより操作されるリモート端末及びリモートコンピュータシステム（図示せず）へ接続を提供し得る。

一次メモリ４１０は、限定しないが、１つ又は複数のローカル若しくはリモート、固定若しくは着脱可能、恒久的若しくは一時的、磁気的若しくは光学的ランダムアクセスメモリ（ＲＡＭ）領域、キャッシュメモリ領域、又はディスクドライブを含み得、本明細書において説明される錯体分子の下部構造を識別する方法を行うためにマイクロプロセッサ４２５の機能を制御するための複数のプログラムモジュールを含む。これらのモジュールの各モジュールは、従来のプログラミング言語でソースコードとして書かれたコンピュータソフトウエアプログラム、手順、又は処理を含み得、マイクロプロセッサ４２５による実行のために提示され得る。ソースコード並びにオブジェクト及びバイトコードの様々な実施形態が、コンピュータ可読ストレージ媒体（ＤＶＤ、ＣＤＲＯＭ、フロッピーディスク又はメモリカードなど）上に格納され、伝送媒体又は搬送波上で具現化され得る。

アプリケーションプログラム４１２は以下に論述される一群のコンピュータソフトウエアプログラムモジュール４３５、４４０、４４５、４５０、４５５、４６０、４６５、４７０、４７５、４８０を含む。各コンピュータソフトウエアプログラムモジュールは、様々なタイプの入力データ（選択分子データ４８５など）を受信するために、そして本明細書において説明される識別子処理に関連するＭＣＵグラフ、線グラフ、誘導連結サブグラフ、下部構造視覚化、生体変換データ、辺データ及び頂点データを生成、格納、送信、及び表示するために以下に説明されるアルゴリズムを実行するために、必要に応じマイクロプロセッサ４２５に多様な特定タスクを行わすプログラム命令を含む。これらのソフトウェアモジュールは、柔軟であり、そして限定しないが化学構造図ファイル、画像及び他の電子文書、グラフ、レイアウト及びスキーマを含む多種多様なタイプの入力及び出力を受信、処理、及び出力するように構成され得る。次に、アプリケーションプログラム４１２内のコンピューターソフトウェアモジュール４３５、４４０、４４５、４５０、４５５、４６０、４６５、４７０、４７５、４８０の各コンピューターソフトウェアモジュールの目的及び機能について以下にさらに詳細に説明する。

アプリケーションプログラム４１２は、入力モジュール４３５、ＭＣＵグラフデータ構造生成器モジュール４４０、線グラフデータ構造生成器モジュール４４５、グラフトラバースモジュール４５０、サブグラフデータベース生成器モジュール４５５、ユーザインターフェースモジュール４６０、検索エンジンモジュール４６５、視覚化器モジュール４７０、生体変換演算処理モジュール４７５、及び１つ又は複数の追加データ処理モジュール４８０を含む。入力モジュール４３５は、マイクロプロセッサ４２５により実行されると（Ａ）選択分子の一組の規定最小切断可能ユニット、（Ｂ）選択分子内の一組の規定最小切断可能ユニットを接続する一組の結合、（Ｃ）各最小切断可能ユニットの分子量、及び（Ｄ）選択された分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データ４８５をマイクロプロセッサ４２５に受信させ二次メモリ格納領域４２０内に格納させるプログラム命令を含む。入力モジュール４３５はまた、マイクロプロセッサ４２５により実行されると選択分子の化学線図で表されるデータをマイクロプロセッサ４２５に受信、走査、解析及び／又は格納させるプログラム命令を含み得、化学線図は、（Ａ）選択分子の最小切断可能ユニット、（Ｂ）選択分子の各最小切断可能ユニットの分子量、及び（Ｃ）選択分子の最小切断可能ユニットを接続する結合のタイプを識別する注釈を含む。

ＭＣＵグラフデータ構造生成器４４０は、マイクロプロセッサ４２５により実行されると、マイクロプロセッサ４２５にＭＣＵグラフデータ構造（その例は図９Ｄに示される）を生成させ、それに選択分子のＭＣＵグラフを表すデータを取り込ませるプログラム命令を含む。ＭＣＵグラフデータ構造生成器４４０は通常、ＭＣＵグラフデータを二次メモリ格納領域４２０内に、又は錯体分子下部構造識別システム４０５へ接続される又はそれへ関連付けられる他のメモリ格納領域（図４に示さず）内に格納することになる。線グラフデータ構造生成器４４５はＭＣＵグラフデータ構造からＭＣＵグラフデータを取り出す。次に線グラフデータ構造生成器４４５は、線グラフデータ構造を生成するために、そして線グラフデータ構造に取り込むためにＭＣＵグラフデータを使用する。線グラフデータ構造はまた、二次メモリ格納領域４２０内に、又は錯体分子下部構造識別システム４０５へ接続される又はそれへ関連付けられる他のメモリ格納領域（図４に示さず）内に格納される。

グラフトラバースモジュール４５０は、マイクロプロセッサ４２４により実行されると、線グラフデータ構造の線グラフデータにより表される線グラフから導出され得る誘導連結サブグラフのすべてを表す誘導連結サブグラフデータ１４７を生成するために線グラフデータ構造内のデータをトラバースするために、好適なグラフトラバースアルゴリズムをマイクロプロセッサ４２５に実行させるプログラム命令を含む。サブグラフデータベース生成器４５５は、二次メモリ格納領域４２０内に格納されるサブグラフデータベース４９０を構築しこれを取り込むために誘導連結サブグラフデータ１４７及び選択分子データ４８５（特に分子量）を使用する。図４に示すように、サブグラフデータベース４９０は複数のＩＣＳ記録を含む、各ＩＣＳ記録は、少なくとも、誘導連結サブグラフの頂点データを有する１つの頂点データフィールド、誘導連結サブグラフの辺データを有する辺データフィールド、誘導連結サブグラフの分子量が取り込まれる分子量フィールド、並びに選択分子を各ＩＣＳ記録内の頂点フィールド、辺フィールド及び分子量フィールド内に格納された値により表される下部構造へ変換するために必要とされる生体変換の数（上に定義された）を表す値が取り込まれる生体変換カウントフィールドを含む。サブグラフデータベース生成器４５５は、エンドユーザにより供給される選択分子データ４８５内のＭＣＵの分子量に基づき各誘導連結サブグラフの分子量を計算する。生体変換プロセッサ４７５は図３に示され上に詳細に説明されたアルゴリズムに従って各誘導連結サブグラフの生体変換を判断する。

サブグラフデータベース４９０が、第１のユーザにより活性化されたアプリケーションプログラム４１２の実行により構築された後、第２のユーザ（又は第１のユーザ）は、所与の照会分子量（又は所与の範囲の分子量）に基づきサブグラフデータベース４９０を検索するためにユーザインターフェースモジュール４６０を活性化するために１つ又は複数のエンドユーザ入力デバイス４９５を操作し得る。照会分子量（又は一定の範囲の重み付け）は検索エンジン４６５へ渡され、検索エンジン４６５は、照会分子量に等しい又は指定範囲の分子量内に入る分子量を有する記録のすべての記録の頂点データ及び辺データをシステムにサブグラフデータベース４９０から取り出させる。したがって、ユーザインターフェースモジュール４６０及び検索エンジンモジュール４６５は併せて、マイクロプロセッサ４２５により実行されると、（ｉ）エンドユーザから照会分子量を受信し、（ｉｉ）照会分子量に整合する全分子量を分子量フィールド内に有するＩＣＳ記録を識別するために照会分子量に基づきサブグラフデータベース４９０を検索し、（ｉｉｉ）識別されたＩＣＳ記録の頂点データフィールド内の頂点値及び辺データフィールド内の辺値をエンドユーザにより操作されるエンドユーザ出力デバイス４９８（例えばディスプレイモニタ）上の提示のためにユーザインターフェース４６０へ送信することをマイクロプロセッサ４２５にさせるプログラム命令を含む。

視覚化器モジュール４７０は、マイクロプロセッサ４２５により実行されると、第２のユーザにより操作されるエンドユーザ出力装置４９８へユーザインターフェース４６０を介し送信される識別された誘導連結サブグラフのグラフィック表現を生成するためにサブグラフデータベース４９０内の識別されたＩＣＳ記録の頂点データ及び辺データを使用することをマイクロプロセッサ４２５にさせるプログラム命令を含む。好ましいいくつかの実施態様では、照会質量（又は範囲）に整合する２つ以上の誘導連結サブグラフが存在すれば、視覚化器モジュール４７０及びユーザインターフェース４６０内のプログラム命令は、それぞれの生体変換フィールド内の値に従って、整合誘導連結サブグラフをランク付けするように、そして整合誘導連結サブグラフをランク順でエンドユーザ出力デバイス４９８上に表示するように動作する。

追加データ処理モジュール４８０は例えば、ＩＣＳ記録を生成し、編成し、これをサブグラフデータベース４９０へ格納することとそれから取り出すこととを容易にする例えばデータベース管理プログラム（図示せず）を含み得る。Oracle Corporation, Redwood Shores, Californiaにより提供されるようなフラットファイルシステム、階層型データベース、リレーショナルデータベース又は分散型データベースを含む任意のタイプのデータベース管理プログラムが利用され得る。

いくつかの実施形態では、錯体分子下部構造識別システム４０５は、Internet及びＷorld Wide Webを含み得るデータ通信ネットワーク（図示せず）上でInternet Explorerなどの標準的ウェブブラウザを使用することによりクライアントコンピュータデバイスと通信するように構成されたサーバとして働くことができる。このような実施形態では、錯体分子下部構造識別システム４０５は、Microsoft Corporation, Redmond, Washingtonから入手可能な例えばInternet Information Services（ＩＩＳ）を含む多くの利用可能ウェブサーバアプリケーション又はプログラムのうちの任意の１つを使用することにより実現され得る。

図５は本発明のいくつかの実施形態によるＩＣＳデータベース内に格納され得る例示的誘導連結サブグラフ（ＩＣＳ）記録を示す。図５に示すように、二次メモリ格納領域４２０のサブグラフデータベース４９０内の各ＩＣＳ記録は、選択分子の各誘導連結サブグラフに関連する複数の異なるデータフィールドを含み得る。複数の異なるデータフィールドは限定しないが、各誘導連結サブグラフの規定識別子を格納するための分子識別子フィールド５０５、各誘導連結サブグラフの規定識別子を格納するための下部構造識別子フィールド５１０、各誘導連結サブグラフの頂点データ及び辺データを格納するための誘導連結サブグラフフィールド５１５（通常は一組の配列）、誘導連結サブグラフの全分子量を格納するための分子量フィールド５２０、各誘導連結サブグラフの生体変換カウントを格納するための生体変換カウントフィールド５２５、基本組成データを格納するための基本組成フィールド５３０、及び誘導連結サブグラフの各誘導連結サブグラフに関連する他の特性を格納するための１つ又は複数の他のフィールド５３５を含む。

図６は、選択分子の代謝物を識別する機能を行うために一次メモリ４１０内に格納されマイクロプロセッサ４２５により実行され得る処理又はコンピュータプログラムの工程又は機能を表す。

本開示の目的及び利便性のために、図６に示す処理は、選択分子の代謝物を識別するために選択分子のグラフィック表現のデータ構造を利用する本発明のシステムの動作の第１段階と見做され得る。一般的に、図６は選択分子のＭＣＵグラフ及び線グラフのデータ構造が生成される処理を示す。線グラフデータ構造は、選択分子の下部構造を表す誘導連結サブグラフのデータ構造に取り込むために必要なデータを識別するためにグラフトラバースアルゴリズムを使用することによりトラバースされる。

図６に示す処理の工程が本開示において説明される際、例示的選択分子に関する工程の結果が示される図７～１５が参照されることになる。

ここで図６に移ると、本発明の下部構造識別子処理６００は、その結果が選択分子の網羅的な一組の下部構造を提供する多くの工程を含む。工程６０５において、本システムは選択分子データを含む選択分子の表現を受信する。選択分子データは、選択分子内の最小切断可能ユニット、選択分子内の最小切断可能ユニットを接続する結合、各最小切断可能ユニットの分子量、及び選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを含む。選択分子の表現はＭＣＵグラフの形式であり得る。

本発明の代替実施態様では、本処理の第１の工程において、選択分子の受信された表現は、ＭＣＵグラフではなく、むしろ選択分子の構造、化学式、図、又は他の好適な表現を含む化学線図ファイルである。この場合、本システムは、工程６１５において、分子の化学構造及びユーザ定義ＭＣＵに基づき又は選択分子データに基づき選択分子のＭＣＵグラフ及び対応ＭＣＵグラフデータ構造を生成する。

ＭＣＵグラフ隣接行列は行列生成器モジュールにより生成され得る。ＭＣＵグラフは、分子のＣｈｅｍＤｒａｗファイル、化学表ファイル又はＨＥＬＭ表現（Hierarchical Editing Language for Compl）などの化学線図ファイルから生成され得る。化学線図ファイルはまた、簡略化分子入力行エントリシステム（SMILES:simplified molecular-input line-entry system）を使用することにより生成され得る。

図７に示すように、仮想選択分子のＭＣＵグラフは以下のように生成され得る：工程７０５において、頂点を選択分子の各最小切断可能ユニットへ割り当てる。工程７１０において、識別子又は値を各頂点へ割り当てる。この値は例えば数値であり得る。図９Ａに示すように、仮想選択分子は１１個の頂点を有する。頂点は数値１、２、３、４、５、１０、１１、１２、１３、１５を割り当てられる。１つの頂点は文字「Ｑ」により表される。工程７１５において、選択分子のＭＣＵを接続する各結合の辺を追加する。仮想選択分子のＭＣＵグラフの辺は頂点を接続する黒線により表される。例示的ＭＣＵグラフが図９Ａに示される。

図６に戻ると、工程６１０において、ユーザは選択分子内の切断頂点又は切断頂点を定義する。この場合、仮想分子の切断頂点は頂点「Ｑ」として指定される。以前に述太ように、連結グラフの切断頂点は、その除去がオリジナルグラフの少なくとも２つ（除去された切断頂点自体はカウントしない）の連結構成要素を生じる頂点である。このシナリオでは、図９Ａに説明される構造からの切断頂点Ｑの除去は、単量体Ａ及び単量体Ｂと好適に呼ばれ得る選択分子の２つの下部構成要素を生じる。図９Ａに描写されるように単量体Ａは辺により接続された頂点１～５により表され、単量体Ｂは辺により接続された頂点１０～１４により表される。選択分子をその構成要素又は下部構成要素へ分離することは、分子の下部構造の包括的プールの識別を容易にし、そして非常に多くの下部構造を有する分子に特に有用である。

工程６１５において、本システムは選択分子の構成要素（この場合は単量体Ａ及び単量体Ｂ）の各構成要素のＭＣＵグラフデータ構造を生成する。本システムにより生成されるＭＣＵグラフデータ構造は好適には隣接行列又は隣接リストである。図９Ａに表される仮想選択分子の例示的ＭＣＵグラフ隣接行列が図９Ｂに記載される。ＭＣＵグラフの隣接行列は「頂点対頂点」行列（Ｖ２Ｖ）である。「頂点対頂点」行列は、本発明の例示的実施形態ではｎ基本構成要素又はｎ最小切断可能ユニットの選択分子のｎ×ｎ行列として構成されるデータ構造を含む。行列内の各スロットは、２つの頂点が互いに接続されていれば又は隣接していれば１の数値を含み、２つの頂点の間に隣接性がなければ０の数値を含む。仮想選択分子の単量体ＡのＶ２Ｖ行列の行及び列の両方は対応単量体ＡＭＣＵグラフ内に存在する５つの頂点を表すために１～５で標記される。一例として、図９Ｂに示すように、頂点１及び頂点２は行列の行１内及び列２内の「１」より表されるように、隣接している。一方で、頂点１及び５は行列の行１内及び列５内に記載の「０」より表されるように、隣接していない。同様に、単量体ＢのＭＣＵグラフにおいて、頂点１０及び頂点１０は、単量体１隣接行列の行１０内及び列１１内の「１」より表されるように、接続されており、そして頂点１１及び頂点１４は接続されておらず、したがって単量体２を表す隣接行列内に「０」が割り当てられる。

工程６２０において、本システムはＭＣＵグラフデータ構造から線グラフデータ構造（「結合グラフデータ構造」又は「辺グラフデータ構造」としても知られる）を生成する。理解を容易にするために、仮想選択分子ＭＣＵグラフ隣接行列の単量体Ａ及び単量体Ｂに対応する線グラフが図９Ｃに描写される。一般的に、線グラフ符号化処理は、（ｉ）線グラフの各頂点が選択分子のＭＣＵ間の共有結合を表すようにそして（ｉｉ）線グラフの２つの頂点は対応共有結合がＭＣＵグラフ内の同じＭＣＵから起これば辺により接続されるようにされる。

図８の流れ図により示されるように、線グラフを生成するためのアルゴリズムは次のように進む：工程８０５において、線グラフの頂点は、各辺により接続された終点に基づき、選択された仮想分子のＭＣＵグラフ内の辺から構築される。線グラフの各頂点は、対応ＭＣＵグラフの頂点へ割り当てられた値に基づき一意的指標（例えば数値）が割り当てられる。線グラフの頂点はＭＣＵの辺に対応する。例えば、仮想選択分子の単量体Ａの線グラフに関して、図９Ｃの頂点Ａは図９Ａの単量体ＡＭＣＵグラフの頂点１、２を接続する辺に対応し、頂点Ｂは図９Ａの単量体ＡＭＣＵグラフの頂点１、３を接続する辺に対応し、図９Ｃの頂点Ｃは図９Ａの単量体ＡＭＣＵグラフの頂点１、４を接続する辺に対応し、図９Ｃの頂点Ｄは図９Ａの単量体ＡＭＣＵグラフの頂点２、５を接続する辺に対応する。図９Ｃの頂点Ｅは図９Ａの単量体ＡＭＣＵグラフの頂点４、３を接続する辺に対応し、図９Ｃの頂点Ｆは図９Ａの単量体ＡＭＣＵグラフの頂点４及び５を接続する辺に対応する。

本発明のシステムにより生成される線グラフデータ構造は好適には線グラフ隣接行列又は隣接リストである。本発明の一実施形態では、線グラフデータ構造はコンピュータコード（線グラフ行列生成器モジュール、「辺対頂点」（Ｅ２Ｖ）行列生成器モジュールなど）により自動的に生成される。

通常、線グラフの２つのタイプの隣接行列（すなわち「辺対辺」（Ｅ２Ｅ）行列及び「辺対頂点」（Ｅ２Ｖ）行列）がある。行列毎に、０，１表記法が、選択分子の構成要素間の接続（「１」で指定される）又はその欠如（「０」で指定される）を記述するために使用され得る。０，１表記法は行列に関して使用され得る例示的表記法である。選択分子の構成要素間の接続の存在と欠如とを区別することを許容するいかなる表記法も好適である。

「辺対辺」行列は、本発明の例示的実施形態ではｎ基本構成要素又はｎ最小切断可能ユニットの選択分子のｎ×ｎ行列として構成されるデータ構造を含む。行列内の各スロットは、辺Ｅ１及び辺Ｅ２が隣接すれば１の数値をそして２つの間に隣接性がなければ０（零）の数値を含む。

「辺対頂点」行列は、本発明の例示的実施形態ではｎ基本構成要素又はｎ最小切断可能ユニットの選択分子のｎ×ｎ行列として構成されるデータ構造を含む。行列内の各スロットは辺及び所与の頂点が隣接すれば１の数値をそして２つの間に隣接性がなければ０（零）の数値を含む。

図９Ａに表される仮想選択分子の単量体Ａ及び単量体ＢのＭＣＵグラフ及びＭＣＵグラフデータ構造に対応する例示的線グラフ隣接行列（Ｅ２Ｅ）が図９Ｄに記載される。

工程６２５において、本システムは、単量体Ａ及び単量体Ｂの線グラフの誘導連結サブグラフを生成し格納するために選択分子の構成要素の線グラフデータ構造（この場合単量体Ａ及び単量体ＢのＥ２Ｅ、Ｅ２Ｖの行列）をトラバースするために、マイクロプロセッサ４２５により実行されるとマイクロプロセッサ４２５にグラフトラバースアルゴリズムの工程を行わせるプログラム命令を含むグラフトラバースプログラム（又はサブルーチン）を使用する。

本発明の一実施形態では、グラフィック検索は深さ優先検索である。本処理は次のように進む：最初に、線グラフデータ構造の個々の頂点が接続構成要素として追加される。次に、任意の接続構成要素に関して、（ｉ）その頂点指標はその構成頂点の最小指標として定義され、（ｉｉ）その隣接頂点が識別され、（ｉｉｉ）現在の接続構成要素と現在の接続構成要素の指標を越える指標を有するその隣接頂点の各隣接頂点との和集合として定義される新しい接続構成要素が接続構成要素のリストへ追加され、（ｉｖ）検索（線グラフ隣接行列をトラバースする）はすべての接続構成要素が列挙されてしまうまで帰納的に進む。無限ループの無いことは非減少頂点指標の方向の検索の特定方向により保証される。

接続構成要素（誘導連結サブグラフ）が列挙されると、本システムは、工程６３０において、誘導連結サブグラフ記録（ＩＣＳ記録）を生成し二次メモリ格納領域４２０内のサブグラフデータベース４９０内に格納する。好適には、しかし必ずしもではないが、選択分子の構成要素の各構成要素のＩＣＳ記録は様々なサブグラフデータベース内に格納される。例えば、単量体ＡのＩＣＳ記録は第１のサブグラフデータベース内に格納され得、単量体２のＩＣＳ記録は第２のサブグラフデータベース内に格納され得る。各ＩＣＳ記録は分子量フィールド、頂点データフィールド及び辺データフィールドを含む。図１７Ａ、１７Ｂは、本発明のいくつかの実施形態に従って生成される選択分子（合成二量体のペプチドである）の単量体Ａの例示的ＩＣＳ記録を提供する。

工程６３５において、本システムは、各誘導連結サブグラフに対応する全分子量を計算し、この分子量をＩＣＳデータベース内のＩＣＳ記録の分子量フィールド内に格納する。工程６３０、６３５の完了時、すべての誘導連結サブグラフが列挙され格納されており、そして対応分子量は計算されており、好適には１つ又は複数のサブグラフデータベース内に格納される。これで、本発明の代謝物識別処理の第１段階（サブグラフデータベース構築段階と呼ばれ得る）を完了する。

図１０はヘテロ二量体合成ペプチドである選択分子の化学構造を示す。図１１は図１０に示す選択されたヘテロ二量体合成ペプチドを表すＭＣＵグラフである。頂点Ｚは分子内の選択された切断頂点を表す。他の頂点を表すアミノ酸は丸で囲まれた単一文字略称により描写される。この場合、選択された二量体ペプチドのＭＣＵはアミノ酸として選択される。したがって、アミノ酸レベルを越える切断は許容されない。図１０に示すように、選択分子の単量体Ａ内には１２個のアミノ酸（丸で囲まれた文字により表される）がありしたがって単量体ＡＭＣＵグラフ内には１２個の頂点がある。ＭＣＵグラフは、接続された円によりそして頂点を接続する太黒線により描写される１３個の辺を含む。

図１２Ａ及び図１２Ｂはそれぞれ、本発明の一実施形態に従って生成される図１１のヘテロ二量体合成ペプチドの単量体Ａの線グラフ及びその対応隣接行列を示す。線グラフの頂点は、円として表され、１～１４に番号付けされる。理解を容易にするために、頂点は単一文字アミノ酸と単量体ＡのＭＣＵグラフの所与の辺の終点を表すペプチド内の位置とを含む。

単量体Ａの対応Ｅ２Ｖ行列データ構造は図１４に記載される。Ｅ２Ｖ行列において、辺は行１～１４として表され、頂点は列１～１３として表される。

図１４Ａ、１４Ｂはそれぞれ、本発明の一実施形態に従って生成される図１１のヘテロ二量体合成ペプチドの単量体Ｂの線グラフ及びその対応隣接行列を示す。線グラフの頂点は、円として表され、１～１４に番号付けされる。理解を容易にするために、頂点は単一文字アミノ酸と単量体ＡのＭＣＵグラフの所与の辺の終点を表すペプチド内の位置とを含む。単量体Ａの対応Ｅ２Ｖ行列データ構造は図１５に記載される。Ｅ２Ｖ行列において、辺は行１～１４として表され、頂点は列１～１４として表される。

図１７Ａ、１７Ｂは、分子量フィールド、頂点配列フィールド及び辺配列フィールドを含む本発明の一実施形態に従って生成されたサブグラフデータベース内に格納された選択された合成ヘテロ二量体分子の単量体Ａの例示的ＩＣＳ記録を示す。ＩＣＳ記録は選択された合成ヘテロ二量体ペプチドの線グラフの誘導連結サブグラフを表す。図１５の行４、５に示すように、ＩＣＳ記録のうちの２つは、同じ分子量であるが頂点データフィールド内の異なる頂点値及び辺データフィールド内の異なる辺値を示す。本発明は、同じ分子量を有するＩＣＳ（そしてしたがって選択分子の下部構造）をユーザが区別することを許容する。

図１８Ａ、１８Ｂは、分子量フィールド、頂点配列フィールド及び辺配列フィールドを含む本発明の一実施形態に従って生成されたサブグラフデータベース内に格納された選択された合成ヘテロ二量体分子の単量体Ｂの例示的ＩＣＳ記録を示す。ＩＣＳ記録は選択された合成ヘテロ二量体ペプチドの線グラフの誘導連結サブグラフを表す。

図１６は本発明の一実施形態による検索処理（本発明の動作の第１段階と非同期的に行われ得る）の流れ図を示す。本処理は、動作の第１段階において生成された格納された誘導連結サブグラフ記録のデータベース又はデータベース群を利用する。工程１６０５において、本システムは照会分子量を受信する。工程１６１０、１６２０において、本システムは、照会分子量に整合する分子量フィールド値を有する誘導連結サブグラフ記録（すなわち、照会分子量の指定範囲、好適には照会分子量の±５ｐｐｍ以内、より好適には照会分子量の±４ｐｐｍ以内、そしてより好適には照会分子量の±２ｐｐｍ以内に入る分子量フィールド内の分子量を有する記録）を識別するために照会分子量を使用して、工程６３０、６３５において生成された、格納された誘導連結サブグラフ記録のデータベースを検索する。いくつかの実施形態では、誘導連結サブグラフ記録の検索は、マイクロプロセッサ４２５により実行されると、選択分子の構成要素のＩＣＳ記録が生成されサブグラフデータベース４９０内に格納される本発明の動作の初期実行段階中にサブグラフデータベース内に格納されたＩＣＳ記録からデータを検索し、取り出すことをマイクロプロセッサ４２５にさせるプログラム命令を含む検索エンジンモジュール（すなわちコンピュータプログラム）により行われ得る。照会分子量は通常、選択分子の下部構造の実験的に観測された又は既知の分子量である。照会分子量は質量分光分析及び特に差分質量分光分析などの技術を使用して生成され得る。

工程１６１５、１６２５において、本システムは、識別された誘導連結サブグラフ記録の頂点データフィールドから頂点値をそして辺データフィールドから辺値をサブグラフデータベース内に格納する。本システムは任意選択的にこの情報をユーザへ表示し得る。表示工程は、識別されたＩＣＳ記録から頂点値及び辺値を、エンドユーザにより操作されるディスプレイデバイス上の提示のためにユーザインターフェースへ送信することにより達成される。

本発明の追加実施形態において、本システムは、線グラフの誘起連結サブグラフのグラフィック表現を生成しコンピュータシステムのメモリ内に格納するために、そしてこのグラフィック表現をコンピュータシステムのメモリから、エンドユーザにより操作されるディスプレイデバイスへ送信するために、頂点データフィールド内の頂点値、辺データフィールド内の辺値、及び選択分子データを使用し得る。図１６の工程１６６０を参照。グラフィック表現は誘導連結サブグラフ記録により表される下部構造のＭＣＵグラフ又は化学構造線図であり得る。工程１６６０において説明されたグラフィック表現を表示することはユーザがグラフィック表現を見たいかどうか又は線グラフの誘導連結サブグラフの頂点値及び辺値を受信する（又は、呈示される）ことに満足するかどうかに依存する任意選択工程であるということに留意すべきである。

工程１６３０において、本システムは照会分子量から切断頂点の分子量を減じることにより調整照会分子量を計算する。工程１６３５において、本システムは、分子量フィールド内の最も低い分子量を有するＩＣＳ記録を識別するために第１のＩＣＳデータベース（選択分子の第１の構成要素のＩＣＳ記録を含む）を検索する。次に、本システムは、工程１６４０において、調整照会分子量から第１のデータベースのＩＣＳ記録の分子量フィールド内の最も低い分子量を減じることにより修正照会分子量を計算する。

工程１６４５において、本システムは、第１のデータベースの検索から識別されたＩＣＳ記録の分子量と組み合わせられると修正照会分子量に整合する分子量を有するＩＣＳを識別するために、選択分子の第２の構成要素のＩＣＳ記録を含む第２のデータベースのバイナリサーチを行う。工程１６５０において説明されるように、第１及び第２のデータベースからのＩＣＳ記録の組み合わせられた分子量が修正照会分子量に整合すれば、本システムは、工程１６５５に移動し、識別されたＩＣＳ記録から頂点データフィールド内の頂点値及び辺データフィールド内の辺値を、エンドユーザにより操作されるディスプレイデバイス上の提示のためにユーザインターフェースへ送信する。

本発明の追加実施形態では、本システムは、線グラフの誘起連結サブグラフのグラフィック表現を生成し、そしてこのグラフィック表現をエンドユーザにより操作されるディスプレイデバイスへ送信するために、頂点データフィールド内の頂点値、辺データフィールド内の辺値、及び選択分子データを使用し得る。図１６の工程１６６０を参照されたい。グラフィック表現は誘導連結サブグラフ記録により表される下部構造のＭＣＵグラフ又は化学構造線図であり得る。工程１６６０において説明されたグラフィック表現を表示することはユーザがグラフィック表現を見たいかどうか又は線グラフの誘導連結サブグラフの頂点値及び辺値を受信する（又は、呈示される）ことに満足するかどうかに依存する任意選択工程であるということに留意すべきである。

工程１６６５において、本システムは、第１のデータベース内に配置された別のＩＣＳ記録があるかどうかを判断するために第１のデータベースを検索し、そうであれば、次に最も低い分子量を有するＩＣＳ記録を識別するために工程１６３５を繰り返す。次に、この最も低い分子量は、次に第２のデータベースのバイナリサーチにおいて使用される新しい修正照会分子量を提供するために調整照会分子量から減算される。工程１６３５～１６６５は、第１のデータベース内のすべてのＩＣＳ記録の分子量が第２のデータベースのバイナリサーチにおいて利用されてしまうまで繰り返される。

図１７Ａ～１７Ｄは本発明の一実施形態に従って生成される単量体Ａの例示的データベース記録である。図１８Ａ～１８Ｄは本発明の一実施形態に従って生成される単量体Ｂの例示的データベース記録である。

図１９Ａ、１９Ｂ、２０Ａ、２０Ｂ、２１Ａ、２１Ｂ、２２Ａ、２２Ｂは、本発明の一実施形態に従って生成されそして図１７Ａ～１７Ｄそれぞれにおいて描写されたデータベースエントリに対応する単量体Ａの下部構造のＭＣＵグラフ及び化学構造を示す。本発明のいくつかの実施形態では、視覚化器は、これらの下部構造のグラフィック表現を生成し、そしてこれらを第２のユーザのディスプレイデバイスへ送信する。

図２３Ａ、２３Ｂ、２４Ａ、２４Ｂ、２５Ａ、２５Ｂ、２６Ａ、２６Ｂは本発明の一実施形態に従って生成され図１８Ａ～１８Ｄそれぞれにおいて描写されるデータベースエントリに対応する単量体Ｂの下部構造のＭＣＵグラフ及び化学構造を示す。

図２７Ａ、２７Ｂはそれぞれ、本発明の一実施形態に従って生成される選択分子の単量体Ｂの下部構造と組み合わせられた単量体Ａの下部構造の組み合わせの化学線図及びＭＣＵグラフを示す。

図２８は、ＭＣＵグラフ隣接行列内に格納されたＭＣＵグラフデータを下部構造データベースに取り込むための例示的ＭａｔＬａｂコードプログラム命令を示す。図２９に示すように、このコード内の関数が、ＭＣＵグラフ隣接行列データ構造Ｅ２Ｖ内に格納された入力データ及び線グラフ隣接行列データ構造Ｊ内に格納されたデータを受け取る。後者は前者から導出され得るということに留意されたい。したがって、図３３に示すＭａｔＬａｂコードにより表されるアルゴリズムは、ＩＣＳデータベースに取り込むためにＭＣＵグラフ隣接行列データ構造からのデータだけを必要とするように書かれ得る。

図２９は図２８に示す例示的コードにより行われるアルゴリズムを示す流れ図を示す。図２９に示すように、サブグラフデータベースを取り込むためにグラフデータ構造をトラバースするためのアルゴリズムは以下の工程を含む：最初に、工程２９０５において、構造内に存在する各個々の辺を表すデータをデータベースへ追加する。次に、工程２９１０において、データベース内に存在する辺毎に、当該辺の娘下部構造のすべての娘下部構造をデータベースへ再帰的に追加する。次に、工程２９１５において、データベース内の下部構造（すなわち親下部構造）毎に、その隣下部構造を識別し、各隣下部構造を１つずつ親構造へ追加し、工程２９２０において、データベースへ追加するべきこれ以上の下部構造が無くなるまで工程２９１０、２９１５、２９２０を繰り返す。

本発明は特定例を参照して詳細に説明されたが、様々な修正が本発明の範囲から逸脱することなくなされ得るということが当業者にとって明らかになる。したがって、本発明の範囲は、本明細書で説明される例ではなく以下に提示される特許請求の範囲により制限されるべきである。

Claims

選択分子の下部構造を識別するためのシステムであって、前記システムは、
ａ）マイクロプロセッサ、
ｂ）メモリ、
ｃ）前記メモリ内のアプリケーションプログラムであって、前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
ｉ）（Ａ）前記選択分子内の一組の最小切断可能ユニット、（Ｂ）前記選択分子内の一組の最小切断可能ユニットを接続する一組の結合、（Ｃ）各最小切断可能ユニットの分子量、（Ｄ）前記選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイル、及び（Ｅ）前記選択分子内の切断頂点であって前記切断頂点の除去は前記選択分子を第１の構成要素及び第２の構成要素へ分離する切断頂点を表す選択分子データを受信し前記メモリ内に格納すること、
ｉｉ）前記選択分子データに基づき前記選択分子の前記第１の構成要素の第１の最小切断可能ユニットグラフデータ構造を生成し前記メモリ内に格納することであって、前記第１の最小切断可能ユニットグラフデータ構造には前記第１の構成要素の第１のＭＣＵグラフを表す第１のＭＣＵグラフデータが取り込まれ、前記第１のＭＣＵグラフは複数の第１のＭＣＵグラフ頂点及び複数の第１のＭＣＵグラフ辺を有し、各第１のＭＣＵグラフ頂点は前記第１の構成要素の最小切断可能ユニットに対応し、各第１のＭＣＵグラフ辺は前記第１の構成要素内の第１の結合接続最小切断可能ユニットに対応する、前記第１の最小切断可能ユニットグラフデータ構造を生成し格納すること、
ｉｉｉ）前記第１のＭＣＵグラフデータに基づき前記選択分子の前記第１の構成要素の第１の線グラフデータ構造を生成し前記メモリ内に格納することであって、前記第１の線グラフデータ構造には前記第１のＭＣＵグラフの第１の線グラフを表す第１の線グラフデータが取り込まれ、前記第１の線グラフは複数の第１のＬＧ頂点及び複数の第１のＬＧ辺を有し、各第１のＬＧ頂点は前記第１のＭＣＵグラフ内の第１のＭＣＵグラフ辺に対応し、各第１のＬＧ辺は前記第１のＭＣＵグラフ辺により連結される前記第１のＭＣＵグラフ内の一対の第１のＭＣＵグラフ頂点に対応する、前記第１の構成要素の第１の線グラフデータ構造を生成し格納すること、
ｉｖ）前記第１の線グラフの複数の第１の誘導連結サブグラフを判断するために前記選択分子の前記第１の構成要素の前記第１の線グラフデータ構造内の前記第１の線グラフデータに対してグラフトラバースアルゴリズムを実行することであって、各第１の誘導連結サブグラフは、前記第１の線グラフ内の第１のＬＧ頂点及び第１のＬＧ辺の第１の接続サブセットと、第１のＬＧ頂点及び第１のＬＧ辺の前記第１の接続サブセットの第１の物理的配置とを含み、これらは併せて、前記一組の最小切断可能ユニット及び結合の第１の接続サブセットと、前記選択分子内の前記最小切断可能ユニット及び結合の前記第１の接続サブセットの相対位置とに一意的に対応する、前記グラフトラバースアルゴリズムを実行すること、
ｖ）前記選択分子の前記第１の構成要素の前記第１の線グラフデータ構造で表される第１の誘導連結サブグラフ毎に、第１の分子量フィールド、第１の頂点データフィールド及び第１の辺データフィールドを含む第１のＩＣＳ記録を生成しデータベース内に格納することであって、前記第１の頂点データフィールドには前記第１の誘導連結サブグラフ内のあらゆる第１のＬＧ頂点の第１の頂点位置を指示するように構成された第１の頂点値が取り込まれ、前記第１の辺データフィールドには前記第１のＬＧ頂点に対する前記第１の誘導連結サブグラフ内のあらゆる前記第１のＬＧ辺の第１の辺位置を指示するように構成された第１の辺値が取り込まれる、前記第１のＩＣＳ記録を生成し格納すること、
ｖｉ）前記選択分子の前記第１の構成要素の前記第１の線グラフデータ構造内の第１のＩＣＳ記録毎に、前記選択分子の前記選択分子データと前記第１のＩＣＳ記録内の前記第１の頂点値及び前記第１の辺値とに基づき前記第１のＩＣＳ記録の前記第１の誘導連結サブグラフの第１の全分子量を計算し前記第１の分子量フィールド内に格納すること、
ｖｉｉ）前記選択分子データに基づき前記選択分子の前記第２の構成要素の第２の最小切断可能ユニットグラフデータ構造を生成し前記メモリ内に格納することであって、前記第２の最小切断可能ユニットグラフデータ構造には前記第２の構成要素の第２のＭＣＵグラフを表す第２のＭＣＵグラフデータが取り込まれ、前記第２のＭＣＵグラフは複数の第２のＭＣＵグラフ頂点及び複数の第２のＭＣＵグラフ辺を有し、各第２のＭＣＵグラフ頂点は前記第２の構成要素の最小切断可能ユニットに対応し、各第２のＭＣＵグラフ辺は前記第２の構成要素内の第２の結合接続最小切断可能ユニットに対応する、前記第２の最小切断可能ユニットグラフデータ構造を生成し格納すること、
ｖｉｉｉ）前記第２のＭＣＵグラフデータに基づき前記選択分子の前記第２の構成要素の第２の線グラフデータ構造を生成し前記メモリ内に格納することであって、前記第２の線グラフデータ構造には前記第２のＭＣＵグラフの第２の線グラフを表す第２の線グラフデータが取り込まれ、前記第２の線グラフは複数の第２のＬＧ頂点及び複数の第２のＬＧ辺を有し、各第２のＬＧ頂点は前記第２のＭＣＵグラフ内の第２のＭＣＵグラフ辺に対応し各第２のＬＧ辺は前記第２のＭＣＵグラフ辺により連結される前記第２のＭＣＵグラフ内の一対の第２のＭＣＵグラフ頂点に対応する、前記第２の線グラフデータ構造を生成し格納すること、
ｉｘ）前記第２の線グラフの複数の第２の誘導連結サブグラフを判断するために前記選択分子の前記第２の構成要素の前記第２の線グラフデータ構造内の前記第２の線グラフデータに対してグラフトラバースアルゴリズムを実行することであって、各第２の誘導連結サブグラフは、前記第２の線グラフ内の第２のＬＧ頂点及び第２のＬＧ辺の第２の接続サブセットと、第２のＬＧ頂点及び第２のＬＧ辺の前記第２の接続サブセットの第２の物理的配置とを含み、これらは併せて、前記一組の最小切断可能ユニット及び結合の第２の接続サブセットと、前記選択分子内の最小切断可能ユニット及び結合の前記第２の接続サブセットの相対位置に一意的に対応する、前記グラフトラバースアルゴリズムを実行すること、
ｘ）前記選択分子の前記第２の構成要素の前記第２の線グラフデータ構造で表される第２の誘導連結サブグラフ毎に、第２の分子量フィールド、第２の頂点データフィールド及び第２の辺データフィールドを含む第２のＩＣＳ記録を生成し前記データベース内に格納することであって、前記第２の頂点データフィールドには前記第２の誘導連結サブグラフ内のあらゆる第２のＬＧ頂点の第２の頂点位置を指示するように構成された第２の頂点値が取り込まれ、前記第２の辺データフィールドには前記第２のＬＧ頂点に対する前記第２の誘導連結サブグラフ内のあらゆる前記第２のＬＧ辺の第２の辺位置を指示するように構成された第２の辺値が取り込まれる、前記第２のＩＣＳ記録を生成し格納すること、及び
ｘｉ）前記選択分子の前記第２の構成要素の前記第２の線グラフデータ構造内の第２のＩＣＳ記録毎に、前記選択分子の前記選択分子データと前記第２のＩＣＳ記録内の前記第２の頂点値及び前記第２の辺値とに基づき前記第２のＩＣＳ記録の前記第２の誘導連結サブグラフの第２の全分子量を計算し前記第２の分子量フィールド内に格納することをさせるプログラム命令を前記メモリ内に含むアプリケーションプログラム、及び、
ｄ）前記マイクロプロセッサにより実行されると、前記マイクロプロセッサに、
ｉ）エンドユーザから照会分子量を受信すること、
ｉｉ）前記照会分子量に整合する前記第１の分子量フィールド内の第１の全分子量を有する第１のＩＣＳ記録を識別するために前記データベースを検索すること、
ｉｉｉ）前記照会分子量に整合する前記第２の分子量フィールド内の第２の全分子量を有する第２のＩＣＳ記録を識別するために前記データベースを検索すること、
ｉｖ）前記照会分子量に整合する前記第１の全分子量を有する前記第１のＩＣＳ記録に対応する前記第１の誘導連結サブグラフの第１のグラフィック表現を生成しディスプレイデバイス上に表示するために、前記第１の頂点データフィールド内の前記第１の頂点値と前記識別された第１のＩＣＳ記録の前記第１の辺データフィールド内の前記第１の辺値とを使用すること、
ｖ）前記照会分子量に整合する前記第２の全分子量を有する前記第２のＩＣＳ記録に対応する前記第２の誘導連結サブグラフの第２のグラフィック表現を生成し前記ディスプレイデバイス上に表示するために、前記第２の頂点データフィールド内の前記第２の頂点値と前記識別された第２のＩＣＳ記録の前記第２の辺データフィールド内の前記第２の辺値とを使用すること、
ｖｉ）前記照会分子量から前記切断頂点の分子量を減じることにより調整照会分子量を計算すること、
ｖｉｉ）前記選択分子の前記第１の構成要素に関し第１の部分的ＩＣＳ記録を識別することであって、前記第１の部分的ＩＣＳ記録は、前記第１の構成要素のすべての他の分子量フィールド内のすべての他の分子量に対して最低の第１の分子量を前記第１の分子量フィールド内に有する、前記第１の部分的ＩＣＳ記録を識別すること、
ｖｉｉｉ）前記調整照会分子量から前記選択分子の前記第１の構成要素の前記第１の部分的ＩＣＳ記録の前記最低の第１の分子量を減じることにより修正照会分子量を計算すること、
ｉｘ）前記選択分子の前記第２の構成要素の前記ＩＣＳ記録を検索するために前記選択分子の前記第２の構成要素の第２の部分的ＩＣＳ記録を識別するために前記修正照会分子量を使用することであって、前記第２の部分的ＩＣＳ記録は、前記第１の構成要素の前記第１の部分的ＩＣＳ記録の前記第１の分子量と組み合わせられると前記修正照会分子量と整合する前記第２の分子量フィールド内の第２の分子量を有する、前記修正照会分子量を使用すること、
ｘ）前記選択分子の前記第１及び第２の構成要素の組み合わせ誘導連結サブグラフのグラフィック表現を生成し前記ディスプレイデバイス上に表示するために、前記第１及び第２の部分的ＩＣＳ記録の前記頂点データフィールド内の前記頂点値、前記第１及び第２の部分的ＩＣＳ記録の前記辺データフィールド内の前記辺値、前記切断頂点及び前記選択分子データを使用することであって、前記組み合わせ誘導連結サブグラフは、前記第１の部分的ＩＣＳ記録の誘導連結サブグラフと前記第２の部分的ＩＣＳ記録の誘導連結サブグラフとを連結することにより生成される、使用すること、
ｘｉ）前記第１の部分的ＩＣＳ記録を別の第１のＩＣＳ記録により置換することであって、前記別の第１のＩＣＳ記録は前記第１の部分的ＩＣＳ記録の前記分子量フィールド内の分子量に対する前記第１の分子量フィールド内の次の最低の第１の分子量を含む、前記第１の部分的ＩＣＳ記録を置換すること、及び
ｘｉｉ）前記選択分子の前記第１の構成要素の前記第１のＩＣＳ記録の前記第１の分子量フィールド内の前記第１の分子量のそれぞれが工程ｖｉｉｉ）～ｘｉ）を行うために使用されてしまうまで前記工程ｖｉｉｉ）～ｘｉ）を繰り返すことをさせるプログラム命令を含むユーザインターフェース、を含むシステム。
前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
ａ）前記照会分子量の規定公差を受信すること、
ｂ）前記データベースの前記検索のための一範囲の分子量を計算し定義するために前記規定公差を使用すること、
ｃ）前記一範囲の分子量内に入る前記分子量フィールド内の全分子量を有する前記データベース内の各ＩＣＳ記録を識別するために前記照会分子量及び前記一範囲に基づき前記データベースを検索すること、及び
ｄ）前記識別されたＩＣＳ記録毎に、前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値を前記エンドユーザへ提示するために前記ユーザインターフェースへ送信することをさせるプログラム命令を前記アプリケーションプログラム内にさらに含む請求項１に記載のシステム。
前記選択分子データは、連結リスト、又は配列、又は隣接行列、又はグラフィック画像ファイル、又は化学図ファイル、又はスプレッドシートファイル、又はテキストファイル、又はＣＳＶファイル、又は．ＣＤＸファイル、．ＣＤＸＭＬファイル、又は．ＭＯＬファイル、又は．ＳＤＭファイル、ＣＡＤファイル、又はバイナリデータファイル内に格納された情報を解析することにより受信される、請求項１に記載のシステム。
前記一組の最小切断可能ユニット及び結合の前記接続サブセットは前記選択分子の代謝物、又は前記選択分子の異化生成物、又は前記選択分子の気相断片化、又は前記選択分子の分解剤、又は前記選択分子の下部構造である、請求項１に記載のシステム。
前記第１のＭＣＵグラフデータ及び前記第２のＭＣＵグラフデータの少なくとも一方は配列、隣接行列、隣接リスト、結合行列又は結合リストである、請求項１に記載のシステム。
前記線グラフデータ構造は配列、隣接行列、隣接リスト、結合行列又は結合リストである、請求項１に記載のシステム。
前記グラフトラバースアルゴリズムは深さ優先検索アルゴリズム、又は幅優先検索アルゴリズム、又は逆検索アルゴリズム、又はツリー検索アルゴリズム、又はこれらの２つ以上の組み合わせである、請求項１に記載のシステム。
前記選択分子は小分子である、請求項１に記載のシステム。
前記選択分子は巨大分子である、請求項１に記載のシステム。
前記巨大分子は、蛋白質、核酸、オリゴヌクレオチド、ポリヌクレオチド、多糖又は合成高分子である、請求項９に記載のシステム。
ａ）前記選択分子データは、（Ａ）各最小切断可能ユニット内の一組の基本ユニット、（Ｂ）前記最小切断可能ユニット内の前記一組の基本ユニットを連結する一組の基本結合、（Ｃ）各基本ユニットの基本分子量、及び（Ｄ）前記最小切断可能ユニットのＭＣＵ接続プロファイルであって前記最小切断可能ユニット内の前記基本ユニットと前記基本結合との相対位置及びその間の接続を指示するＭＣＵ接続プロファイルを表す基本組成データを含み、
ｂ）前記データベース内に生成される前記ＩＣＳ記録はさらに、１つ又は複数の基本ユニット識別子が取り込まれる基本ユニットフィールドを含み、
ｃ）前記アプリケーションプログラムはさらに、前記マイクロプロセッサにより実行されると前記マイクロプロセッサに：
ｉ）前記エンドユーザから照会基本ユニットを受信すること、
ｉｉ）前記照会基本ユニットに整合する前記基本ユニットフィールド内の基本ユニット識別子を有するＩＣＳ記録を識別するために前記照会基本ユニットに基づき前記データベースを検索すること、及び
ｉｉｉ）前記識別されたＩＣＳ記録の前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値を前記エンドユーザにより操作されるディスプレイデバイス上の提示のために前記ユーザインターフェースへ送信することをさせるプログラム命令を含む、請求項１に記載のシステム。
ａ）前記データベース内で生成される各ＩＣＳ記録は生体変換カウントフィールドをさらに含み、
ｂ）前記ユーザインターフェースはさらに、前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、ｉ）前記エンドユーザから最大生体変換カウントを受信すること、及びｉｉ）照会質量に整合する前記分子量フィールド内の分子量値を有するＩＣＳ記録及び前記生体変換カウント最大値を越えない前記生体変換カウントフィールド内の生体変換カウント値を識別するために前記照会質量及び前記最大生体変換カウントに基づき前記データベースを検索することをさせるプログラム命令を含む、請求項１に記載のシステム。
ａ）前記データベース内で生成される各ＩＣＳ記録は生体変換カウントフィールドをさらに含み、
ｂ）前記ユーザインターフェースは、前記マイクロプロセッサにより実行されると前記マイクロプロセッサに：
ｉ）前記第１の誘導連結サブグラフ、前記第２の誘導連結サブグラフ、及び前記組み合わせ誘導連結サブグラフ間のランク順を前記各ＩＣＳ記録の前記生体変換カウントフィールドに基づき判断すること、及び
ｉｉ）前記第１の誘導連結サブグラフの前記第１のグラフィック表現、前記第２の誘導連結サブグラフの前記第２のグラフィック表現及び前記組み合わせ誘導連結サブグラフの前記グラフィック表現を前記ランク順に従って前記ディスプレイデバイス上に表示することをさせるプログラム命令をさらに含む、請求項１に記載のシステム。
マイクロプロセッサを使用して選択分子の下部構造を識別することを容易にするためにデータベースを生成するためのシステムであって、前記システムは、
ａ）メモリ、
ｂ）マイクロプロセッサ、
ｃ）（Ａ）前記選択分子内の一組の最小切断可能ユニット、（Ｂ）前記選択分子内の前記一組の最小切断可能ユニットを接続する一組の結合、（Ｃ）各最小切断可能ユニットの分子量、（Ｄ）前記選択分子内に在る切断頂点であって、除去されると前記選択分子を第１の構成要素と第２の構成要素とへ分離する、切断頂点、及び（Ｅ）前記選択分子内の前記最小切断可能ユニット及び結合の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データを受信して格納するための入力モジュール、
ｄ）
ｉ）前記選択分子の前記第１の構成要素の第１の最小切断可能ユニットグラフデータ構造であって、前記第１の最小切断可能ユニットグラフデータ構造には前記第１の構成要素の第１のＭＣＵグラフを表す第１のＭＣＵグラフデータが取り込まれ、前記第１のＭＣＵグラフは複数の第１のＭＣＵグラフ頂点及び複数の第１のＭＣＵグラフ辺を有し、各第１のＭＣＵグラフ頂点は前記第１の構成要素の最小切断可能ユニットに対応し、各第１のＭＣＵグラフ辺は前記第１の構成要素内の第１の結合接続最小切断可能ユニットに対応する、第１の最小切断可能ユニットグラフデータ構造、及び
ｉｉ）前記選択分子の前記第２の構成要素の第２の最小切断可能ユニットグラフデータ構造であって、前記第２の最小切断可能ユニットグラフデータ構造には前記第２の構成要素の第２のＭＣＵグラフを表す第２のＭＣＵグラフデータが取り込まれ、前記第２のＭＣＵグラフは複数の第２のＭＣＵグラフ頂点及び複数の第２のＭＣＵグラフ辺を有し、各第２のＭＣＵグラフ頂点は前記第２の構成要素の最小切断可能ユニットに対応し、各第２のＭＣＵグラフ辺は前記第２の構成要素内の第２の結合接続最小切断可能ユニットに対応する、第２の最小切断可能ユニットグラフデータ構造を生成し前記メモリ内に格納するように構成されたＭＣＵグラフデータ構造生成器、
ｅ）
ｉ）前記第１のＭＣＵグラフデータに基づき前記選択分子の前記第１の構成要素の第１の線グラフデータ構造を生成し前記メモリ内に格納することであって、前記第１の線グラフデータ構造には前記第１のＭＣＵグラフの第１の線グラフを表す第１の線グラフデータが取り込まれ、前記第１の線グラフは複数の第１のＬＧ頂点及び複数の第１のＬＧ辺を有し、各第１のＬＧ頂点は前記第１のＭＣＵグラフ内の第１のＭＣＵグラフ辺に対応し、各第１のＬＧ辺は前記第１のＭＣＵグラフ辺により連結される前記第１のＭＣＵグラフ内の一対の第１のＭＣＵグラフ頂点に対応する、前記第１の線グラフデータ構造を生成し格納すること、及び
ｉｉ）前記第２のＭＣＵグラフデータに基づき前記選択分子の前記第２の構成要素の第２の線グラフデータ構造を生成し前記メモリ内に格納することであって、前記第２の線グラフデータ構造には前記第２のＭＣＵグラフの第２の線グラフを表す第２の線グラフデータが取り込まれ、前記第２の線グラフは複数の第２のＬＧ頂点及び複数の第２のＬＧ辺を有し、各第２の線グラフ頂点は第２のＭＣＵグラフ内の第２のＭＣＵグラフ辺に対応し各第２の線グラフ辺は前記第２のＭＣＵグラフ辺により連結される第２のＭＣＵグラフ内の一対の第２のＭＣＵグラフ頂点に対応する、前記第２の線グラフデータ構造を生成し格納することをするように構成された線グラフデータ構造生成器、
ｆ）
ｉ）前記第１の線グラフの複数の第１の誘導連結サブグラフを判断するために前記選択分子の前記第１の構成要素の前記第１の線グラフデータ構造内の前記第１の線グラフデータに対してグラフトラバースアルゴリズムを実行することであって、各第１の誘導連結サブグラフは、前記第１の線グラフ内の第１のＬＧ頂点及び第１のＬＧ辺の第１の接続サブセットと、第１のＬＧ頂点及び第１のＬＧ辺の前記第１の接続サブセットの第１の物理的配置とを含み、これらは併せて、前記一組の最小切断可能ユニット及び結合の第１の接続サブセットと、前記選択分子内の前記最小切断可能ユニット及び結合の前記第１の接続サブセットの相対位置に一意的に対応する、前記グラフトラバースアルゴリズムを実行すること、
ｉｉ）前記第２の線グラフの複数の第２の誘導連結サブグラフを判断するために前記選択分子の前記第２の構成要素の第２の線グラフデータ構造内の前記第２の線グラフデータに対して前記グラフトラバースアルゴリズムを実行することであって、各第２の誘導連結サブグラフは、前記第２の線グラフ内の第２のＬＧ頂点及び第２のＬＧ辺の第２の接続サブセットと、第２のＬＧ頂点及び第２のＬＧ辺の前記第２の接続サブセットの第２の物理的配置とを含み、これらは併せて、前記一組の最小切断可能ユニット及び結合の第２の接続サブセットと、前記選択分子内の最小切断可能ユニット及び結合の前記第２の接続サブセットの前記相対位置に一意的に対応する、前記グラフトラバースアルゴリズムを実行することをするように構成されたグラフトラバースモジュール、
ｇ）
ｉ）前記選択分子の前記第１の構成要素の前記の第１の線グラフデータ構造で表される第１の誘導連結サブグラフ毎に、第１の分子量フィールド、第１の頂点データフィールド及び第１の辺データフィールドを含む第１のＩＣＳ記録を生成しサブグラフデータベース内に格納することであって、前記第１の頂点データフィールドには前記第１の誘導連結サブグラフ内のあらゆる第１のＬＧ頂点の第１の頂点位置を指示するように構成された第１の頂点値が取り込まれ、前記第１の辺データフィールドには前記第１のＬＧ頂点に対する前記第１の誘導連結サブグラフ内のあらゆる前記第１のＬＧ辺の第１の辺位置を指示するように構成された第１の辺値が取り込まれる、前記第１のＩＣＳ記録を生成し格納すること、
ｉｉ）前記選択分子の前記第２の構成要素の前記第２の線グラフデータ構造で表される第２の誘導連結サブグラフ毎に、第２の分子量フィールド、第２の頂点データフィールド及び第２の辺データフィールドを含む第２のＩＣＳ記録を前記サブグラフデータベース内に生成することであって、前記第２の頂点データフィールドには前記第２の誘導連結サブグラフ内のあらゆる第２のＬＧ頂点の第２の頂点位置を指示するように構成された第２の頂点値が取り込まれ、前記第２の辺データフィールドには前記第２のＬＧ頂点に対する前記第２の誘導連結サブグラフ内のあらゆる第２のＬＧ辺の第２の辺位置を指示するように構成された第２の辺値が取り込まれる、前記第２のＩＣＳ記録を生成することを行うサブグラフデータベース生成器、及び
ｈ）
ｉ）前記選択分子の前記第１の構成要素の前記第１の線グラフデータ構造内の第１のＩＣＳ記録毎に、前記選択分子の前記選択分子データと前記第１のＩＣＳ記録内の前記第１の頂点値及び前記第１の辺値とに基づき前記第１のＩＣＳ記録の前記第１の誘導連結サブグラフの第１の全分子量を計算し前記第１の分子量フィールド内に格納すること、
ｉｉ）前記選択分子の前記第２の構成要素の前記第２の線グラフデータ構造内の第２のＩＣＳ記録毎に、前記選択分子の前記選択分子データと前記第２のＩＣＳ記録内の前記第２の頂点値及び前記第２の辺値とに基づき前記第２のＩＣＳ記録の前記第２の誘導連結サブグラフの第２の全分子量を計算し前記第２の分子量フィールド内に格納することを行う分子量計算器、を含むシステム。
前記選択分子データは、連結リスト、又は配列、又は隣接行列、又はグラフィック画像ファイル、又は化学図ファイル、又はスプレッドシートファイル、又はテキストファイル、又はＣＳＶファイル、又は．ＣＤＸファイル、．ＣＤＸＭＬファイル、又は．ＭＯＬファイル、又は．ＳＤＭファイル、ＣＡＤファイル、又はバイナリデータファイル内に格納された情報を解析することにより受信される、請求項１４に記載のシステム。
前記一組の最小切断可能ユニット及び結合の前記接続サブセットは、前記選択分子の代謝物、又は前記選択分子の異化生成物、又は前記選択分子の気相断片化、又は前記選択分子の分解剤、又は前記選択分子の下部構造である、請求項１４に記載のシステム。
前記第１のＭＣＵグラフデータ及び前記第２のＭＣＵグラフデータの少なくとも一方は配列、隣接行列、隣接リスト、結合行列又は結合リストである、請求項１４に記載のシステム。
前記線グラフデータ構造は、配列、隣接行列、隣接リスト、結合行列又は結合リストである、請求項１４に記載のシステム。
前記グラフトラバースアルゴリズムは、深さ優先検索アルゴリズム、又は幅優先検索アルゴリズム、又は逆検索アルゴリズム、又はツリー検索アルゴリズム、又はこれらの２つ以上の組み合わせである、請求項１４に記載のシステム。
ａ）エンドユーザとの通信のためのユーザインターフェース、及び
ｂ）前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
ｉ）前記エンドユーザから照会分子量を受信すること、
ｉｉ）前記照会分子量に整合する全分子量を前記分子量フィールド内に有するＩＣＳ記録を識別するために前記照会分子量に基づき前記データベースを検索すること、
ｉｉｉ）前記識別されたＩＣＳ記録の前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値を前記エンドユーザにより操作されるディスプレイデバイス上の提示のために前記ユーザインターフェースへ送信すること、
ｉｖ）前記照会分子量から前記切断頂点の分子量を減じることにより調整照会分子量を計算すること、
ｖ）前記選択分子の前記第１の構成要素に関し、最も低い分子量を有するＩＣＳ記録を識別すること、
ｖｉ）前記調整照会分子量から前記選択分子の前記第１の構成要素の前記ＩＣＳ記録の最も低い分子量を減じることにより修正照会分子量を計算すること、
ｖｉｉ）前記第１の構成要素の前記ＩＣＳ記録の分子量と組み合わせられると前記修正照会分子量に整合するＩＣＳ記録を識別するために前記選択分子の前記第２の構成要素の前記ＩＣＳ記録のバイナリサーチを前記修正照会分子量を使用して行うこと、
ｖｉｉｉ）前記識別された前記ＩＣＳ記録の前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値を前記エンドユーザにより操作されるディスプレイデバイス上の提示のために前記ユーザインターフェースへ送信すること、
ｉｘ）次に最も低い分子量を有する前記選択分子の前記第１の構成要素の前記ＩＣＳ記録を識別すること、及び
ｘ）前記選択分子の前記第１の構成要素の前記ＩＣＳ記録の前記分子量のそれぞれが工程ｖｉ）～ｖｉｉｉ）において使用されてしまうまで工程ｖｉ）～ｉｘ）を繰り返すこと、をさせるプログラム命令を有する前記メモリ内の検索エンジンをさらに含む請求項１４に記載のシステム。
前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
ａ）前記選択分子の前記第１の構成要素及び前記第２の構成要素の前記線グラフの誘導連結サブグラフのグラフィック表現を生成するために前記頂点データフィールド内の前記頂点値、前記辺データフィールド内の前記辺値、及び前記選択分子データを使用すること、及び
ｂ）前記グラフィック表現をエンドユーザにより操作されるディスプレイデバイスへ送信することを行わせるプログラム命令をユーザインターフェース内にさらに含む請求項１４に記載のシステム。
前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
ａ）分子量の規定公差を受信すること、
ｂ）前記データベースの検索の一範囲の分子量を計算し定義するために前記規定公差を使用すること、
ｃ）前記一範囲の分子量内に入る前記分子量フィールド内の全分子量を有する前記データベース内の各ＩＣＳ記録を識別するために照会分子量及び前記一範囲に基づき前記データベースを検索すること、
ｄ）前記識別されたＩＣＳ記録毎に、前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値をエンドユーザへ提示するためにユーザインターフェースへ送信すること、
ｅ）前記照会分子量から前記切断頂点の前記分子量を減じることにより調整照会分子量を計算すること、
ｆ）前記選択分子の第１の構成要素に関し、最も低い分子量を有するＩＣＳ記録を識別すること、
ｇ）前記調整照会分子量から前記選択分子の前記第１の構成要素の前記ＩＣＳ記録の最も低い分子量を減じることにより前記修正照会分子量を計算すること、
ｈ）前記第１の構成要素の前記ＩＣＳ記録の分子量と組み合わせられると修正照会分子量に整合するＩＣＳ記録を識別するために前記選択分子の前記第２の構成要素の前記ＩＣＳ記録のバイナリサーチを、前記修正照会分子量を使用して行うこと、
ｉ）前記識別されたＩＣＳ記録の前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値を前記エンドユーザにより操作されるディスプレイデバイス上の提示のために前記ユーザインターフェースへ送信すること、
ｊ）次に最も低い分子量を有する前記選択分子の前記第１の構成要素の前記ＩＣＳ記録を識別すること、及び
ｋ）前記選択分子の前記第１の構成要素の前記ＩＣＳ記録の前記分子量のそれぞれが工程ｇ）～ｊ）において使用されてしまうまで工程ｆ）～ｊ）を繰り返すことを行わせるプログラム命令をアプリケーションプログラム内にさらに含む請求項１４に記載のシステム。
前記グラフトラバースアルゴリズムは、深さ優先検索アルゴリズム、幅優先検索アルゴリズム、逆検索アルゴリズム、ツリー検索アルゴリズム、又はこれらの２つ以上の組み合わせである、請求項１４に記載のシステム。
前記選択分子は小分子である、請求項１４に記載のシステム。
前記選択分子は巨大分子である、請求項１４に記載のシステム。
前記巨大分子は、蛋白質、核酸、オリゴヌクレオチド、ポリヌクレオチド、多糖又は合成高分子である、請求項２５に記載のシステム。
マイクロプロセッサ及びメモリデバイスを使用して選択分子の下部構造のデータベースを生成する方法であって、前記方法は、
ａ）（Ａ）選択分子内の一組の最小切断可能ユニット、（Ｂ）前記選択分子内の一組の最小切断可能ユニットを接続する一組の結合、（Ｃ）各最小切断可能ユニットの分子量、（Ｄ）前記選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイル、及び（Ｅ）前記選択分子内の切断頂点であって前記切断頂点の除去は前記選択分子を第１の構成要素及び第２の構成要素へ分離する切断頂点を表す選択分子データを受信し前記メモリ内に格納すること、
ｂ）前記選択分子データに基づき前記選択分子の前記第１の構成要素の第１の最小切断可能ユニットグラフデータ構造であって、前記第１の最小切断可能ユニットグラフデータ構造には前記第１の構成要素の第１のＭＣＵグラフを表す第１のＭＣＵグラフデータが取り込まれ、前記第１のＭＣＵグラフは複数の第１のＭＣＵグラフ頂点及び複数の第１のＭＣＵグラフ辺を有し、各第１のＭＣＵグラフ頂点は前記第１の構成要素の最小切断可能ユニットに対応し、各第１のＭＣＵグラフ辺は前記第１の構成要素内の第１の結合接続最小切断可能ユニットに対応する、第１の最小切断可能ユニットグラフデータ構造を生成し前記メモリ内に格納すること、
ｃ）前記第１のＭＣＵグラフデータに基づき前記選択分子の前記第１の構成要素の第１の線グラフデータ構造を生成し前記メモリ内に格納することであって、前記第１の線グラフデータ構造には前記第１のＭＣＵグラフの第１の線グラフを表す第１の線グラフデータが取り込まれ、前記第１の線グラフは複数の第１のＬＧ頂点及び複数の第１のＬＧ辺を有し、各第１のＬＧ頂点は前記第１のＭＣＵグラフ内の第１のＭＣＵグラフ辺に対応し、各第１のＬＧ辺は前記第１のＭＣＵグラフ辺により連結される前記第１のＭＣＵグラフ内の一対の第１のＭＣＵグラフ頂点に対応する、前記第１の線グラフデータ構造を生成し格納すること、
ｄ）前記第１の線グラフの複数の第１の誘導連結サブグラフを判断するために前記選択分子の前記第１の構成要素の前記第１の線グラフデータ構造内の前記第１の線グラフデータに対してグラフトラバースアルゴリズムを実行することであって、各第１の誘導連結サブグラフは、前記第１の線グラフ内の第１のＬＧ頂点及び第１のＬＧ辺の第１の接続サブセットと、第１のＬＧ頂点及び第１のＬＧ辺の前記第１の接続サブセットの第１の物理的配置とを含み、これらは併せて、前記一組の最小切断可能ユニット及び結合の第１の接続サブセットと、前記選択分子内の前記最小切断可能ユニット及び結合の前記第１の接続サブセットの相対位置に一意的に対応する、前記グラフトラバースアルゴリズムを実行すること、
ｅ）前記選択分子の前記第１の構成要素の前記第１の線グラフデータ構造で表される第１の誘導連結サブグラフ毎に、第１の分子量フィールド、第１の頂点データフィールド及び第１の辺データフィールドを含む第１のＩＣＳ記録をデータベース内に生成することであって、前記第１の頂点データフィールドには前記第１の誘導連結サブグラフ内のあらゆる第１のＬＧ頂点の第１の頂点位置を指示するように構成された第１の頂点値が取り込まれ、前記第１の辺データフィールドには前記第１のＬＧ頂点に対する前記第１の誘導連結サブグラフ内のあらゆる第１のＬＧ辺の第１の辺位置を指示するように構成された第１の辺値が取り込まれる、前記第１のＩＣＳ記録を生成すること、
ｆ）前記選択分子の前記第１の構成要素の前記第１の線グラフデータ構造内の第１のＩＣＳ記録毎に、前記選択分子の前記選択分子データと前記第１のＩＣＳ記録内の前記第１の頂点値及び前記第１の辺値とに基づき前記第１のＩＣＳ記録の前記第１の誘導連結サブグラフの第１の全分子量を計算し前記第１の分子量フィールド内に格納すること、
ｇ）前記選択分子データに基づき前記選択分子の前記第２の構成要素の第２の最小切断可能ユニットグラフデータ構造を生成し前記メモリ内に格納することであって、前記第２の最小切断可能ユニットグラフデータ構造には前記第２の構成要素の第２のＭＣＵグラフを表す第２のＭＣＵグラフデータが取り込まれ、前記第２のＭＣＵグラフは複数の第２のＭＣＵグラフ頂点及び複数の第２のＭＣＵグラフ辺を有し、各第２のＭＣＵグラフ頂点は前記第２の構成要素の最小切断可能ユニットに対応し、各第２のＭＣＵグラフ辺は第２の構成要素内の第２の結合接続最小切断可能ユニットに対応する、前記第２の最小切断可能ユニットグラフデータ構造を生成し格納すること、
ｈ）前記第２のＭＣＵグラフデータに基づき前記選択分子の前記第２の構成要素の第２の線グラフデータ構造を生成し前記メモリ内に格納することであって、前記第２の線グラフデータ構造には前記第２のＭＣＵグラフの第２の線グラフを表す第２の線グラフデータが取り込まれ、前記第２の線グラフは複数の第２のＬＧ頂点及び複数の第２のＬＧ辺を有し、各第２のＬＧ頂点は第２のＭＣＵグラフ内の第２のＭＣＵグラフ辺に対応し各第２のＬＧ辺は前記第２のＭＣＵグラフ辺により連結される第２のＭＣＵグラフ内の一対の第２のＭＣＵグラフ頂点に対応する、前記第２の線グラフデータ構造を生成し格納すること、
ｉ）前記第２の線グラフの複数の第２の誘導連結サブグラフを判断するために前記選択分子の前記第２の構成要素の前記第２の線グラフデータ構造内の前記第２の線グラフデータに対して前記グラフトラバースアルゴリズムを実行することであって、各第２の誘導連結サブグラフは、前記第２の線グラフ内の第２のＬＧ頂点及び第２のＬＧ辺の第２の接続サブセットと、第２のＬＧ頂点及び第２のＬＧ辺の前記第２の接続サブセットの第２の物理的配置とを含み、これらは併せて、一組の最小切断可能ユニット及び結合の第２の接続サブセットと、前記選択分子内の最小切断可能ユニット及び結合の前記第２の接続サブセットの相対位置に一意的に対応する、前記グラフトラバースアルゴリズムを実行すること、
ｊ）前記選択分子の前記第２の構成要素の前記第２の線グラフデータ構造で表される第２の誘導連結サブグラフ毎に、第２の分子量フィールド、第２の頂点データフィールド及び第２の辺データフィールドを含む第２のＩＣＳ記録をデータベース内に生成することであって、前記第２の頂点データフィールドには前記第２の誘導連結サブグラフ内のあらゆる第２のＬＧ頂点の第２の頂点位置を指示するように構成された第２の頂点値が取り込まれ、前記第２の辺データフィールドには前記第２のＬＧ頂点に対する前記第２の誘導連結サブグラフ内のあらゆる第２のＬＧ辺の第２の辺位置を指示するように構成された第２の辺値が取り込まれる、前記第２のＩＣＳ記録を生成すること、及び
ｋ）前記選択分子の前記第２の構成要素の前記第２の線グラフデータ構造内の第２のＩＣＳ記録毎に、前記選択分子の前記選択分子データと前記第２のＩＣＳ記録内の前記第２の頂点値及び前記第２の辺値とに基づき前記第２のＩＣＳ記録の前記第２の誘導連結サブグラフの第２の全分子量を計算し前記第２の分子量フィールド内に格納すること、を含む方法。
前記グラフトラバースアルゴリズムは、深さ優先検索アルゴリズム、又は幅優先検索アルゴリズム、又は逆検索アルゴリズム、又はツリー検索アルゴリズム、又はこれらの２つ以上の組み合わせである、請求項２７に記載の方法。
ａ）前記マイクロプロセッサにより照会分子量を受信すること、
ｂ）前記マイクロプロセッサにより、前記照会分子量に整合する全分子量を前記分子量フィールド内に有するＩＣＳ記録を識別するために前記照会分子量に基づき前記データベースを検索すること、
ｃ）前記識別されたＩＣＳ記録の前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値の表現をディスプレイデバイスへ送信すること、
ｄ）前記照会分子量から前記切断頂点の分子量を減じることにより調整照会分子量を計算すること、
ｅ）前記選択分子の第１の構成要素に関し、最も低い分子量を有するＩＣＳ記録を識別すること、
ｆ）前記調整照会分子量から前記選択分子の前記第１の構成要素の前記ＩＣＳ記録の最も低い分子量を減じることにより修正照会分子量を計算すること、
ｇ）前記修正照会分子量を使用することにより、記第１の構成要素の前記ＩＣＳ記録の前記分子量と組み合わせられると前記修正照会分子量に整合するＩＣＳ記録を識別するために前記選択分子の前記第２の構成要素の前記ＩＣＳ記録のバイナリサーチを行うこと、
ｈ）前記識別された前記ＩＣＳ記録の前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値をエンドユーザにより操作されるディスプレイデバイス上の提示のためにユーザインターフェースへ送信すること、
ｉ）次に最も低い分子量を有する前記選択分子の前記第１の構成要素のＩＣＳ記録を識別すること、及び
前記選択分子の前記第１の構成要素の前記ＩＣＳ記録の前記分子量のそれぞれが工程ｆ）～ｈ）において使用されてしまうまで工程ｆ）～ｈ）を繰り返すこと、をさらに含む請求項２７に記載の方法。
ａ）前記マイクロプロセッサにより、前記選択分子の前記第１の構成要素及び前記第２の構成要素の前記線グラフの誘導連結サブグラフのグラフィック表現を前記選択分子の前記接続プロファイル、前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値に基づき生成すること、及び、
ｂ）前記グラフィック表現を前記ディスプレイデバイスへ送信すること、をさらに含む請求項２９に記載の方法。
前記選択分子は小分子である、請求項２７に記載の方法。
前記選択分子は巨大分子である、請求項２７に記載の方法。
前記巨大分子は、蛋白質、核酸、オリゴヌクレオチド、ポリヌクレオチド、多糖又は合成高分子である、請求項３２に記載の方法。
前記一組の最小切断可能ユニット及び結合の前記接続サブセットは、前記選択分子の代謝物、又は前記選択分子の異化生成物、又は前記選択分子の気相断片化、又は前記選択分子の分解剤、又は前記選択分子の下部構造である、請求項２７に記載の方法。
マイクロプロセッサを使用して、選択分子の化学的下部構造の一組の構成要素を記述する情報及び前記構成要素の物理的配置を発見しディスプレイデバイスへ送信するためにデータベースを検索するための装置であって、前記装置は、
ａ）それぞれが分子量フィールド、頂点データフィールド及び辺データフィールドを含む複数のＩＣＳ記録を含むデータベースへの電子ユーザインターフェースであって、前記頂点データフィールドには前記選択分子の接続プロファイルを表す線グラフの誘導連結サブグラフ内のあらゆる頂点の頂点位置を指示するように構成された頂点値が取り込まれ、前記辺データフィールドには前記誘導連結サブグラフ内のあらゆる辺の辺位置を指示するように構成された辺値が取り込まれる、電子ユーザインターフェース、
ｂ）エンドユーザから規定分子量を受信するように構成されるとともに電子ユーザインターフェースにより動作可能な入力モジュール、
ｃ）前記マイクロプロセッサにより実行されると前記マイクロプロセッサに前記分子量フィールド内の全分子量が前記規定分子量に等しい少なくとも１つのＩＣＳ記録を前記データベース内で発見するようにさせるプログラム命令を有する検索エンジン、及び
ｄ）前記メモリ内に格納された視覚化器であって、前記少なくとも１つのＩＣＳ記録の前記頂点データフィールドの前記頂点値及び前記辺データフィールドの前記辺値を前記ディスプレイデバイスへ送信するように構成された視覚化器を含む装置。
マイクロプロセッサ及びメモリデバイスを使用して選択分子の下部構造を識別し表示する方法であって、前記方法は、
ａ）（Ａ）選択分子内の一組の最小切断可能ユニット、（Ｂ）前記選択分子内の一組の最小切断可能ユニットを接続する一組の結合、（Ｃ）各最小切断可能ユニットの分子量、（Ｄ）前記選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイル、及び（Ｅ）前記選択分子内の切断頂点であって前記切断頂点の除去は前記選択分子を第１の構成要素及び第２の構成要素へ分離する切断頂点を表す選択分子データを受信し前記メモリ内に格納すること、
ｂ）前記選択分子データに基づき前記選択分子の前記第１の構成要素の第１の最小切断可能ユニットグラフデータ及び前記選択分子の前記第２の構成要素の第２の最小切断可能ユニットグラフデータを生成し前記メモリ内に格納すること、
ｃ）前記第１及び第２の最小切断可能ユニットグラフデータに基づき前記選択分子の前記第１の構成要素の第１の線グラフデータ及び前記選択分子の前記第２の構成要素の第２の線グラフデータを生成し前記メモリ内に格納すること、
ｄ）前記第１の線グラフデータの複数の第１の誘導連結サブグラフ及び前記第２の線グラフデータの複数の第２の誘導連結サブグラフを表す誘導連結サブグラフ（ＩＣＳ）記録を判断し前記メモリ内に格納するために前記第１の線グラフデータ及び前記第２の線グラフデータに対してグラフトラバースアルゴリズムを実行することであって、各ＩＣＳ記録は分子量フィールド、頂点データフィールド及び辺データフィールドを含み、前記頂点データフィールドには前記選択分子の接続プロファイルを表す線グラフの誘導連結サブグラフ内のあらゆる頂点の頂点位置を指示するように構成された頂点値が取り込まれ、前記辺データフィールドには前記誘導連結サブグラフ内のあらゆる辺の辺位置を指示するように構成された辺値が取り込まれる、前記グラフトラバースアルゴリズムを実行すること、及び
ｅ）前記メモリ内のＩＣＳ記録毎に、前記選択分子の前記選択分子データに基づき前記ＩＣＳ記録により表される前記第１又は第２の誘導連結サブグラフの全分子量を計算し前記分子量フィールド内に格納することを含む方法。
ａ）前記最小切断可能ユニットグラフデータ構造には前記第１の構成要素の第１のＭＣＵグラフを表す第１のＭＣＵグラフデータが取り込まれ、前記第１のＭＣＵグラフは複数の第１のＭＣＵグラフ頂点及び複数の第１のＭＣＵグラフ辺を有し、各第１のＭＣＵグラフ頂点は前記第１の構成要素の最小切断可能ユニットに対応し、各第１のＭＣＵグラフ辺は前記第１の構成要素内の第１の結合接続最小切断可能ユニットに対応し、
ｂ）前記第２の線グラフデータ構造には前記第２のＭＣＵグラフの第２の線グラフを表す第２の線グラフデータが取り込まれ、前記第２の線グラフは複数の第２のＬＧ頂点及び複数の第２のＬＧ辺を有し、各第２のＬＧ頂点は第２のＭＣＵグラフ内の第２のＭＣＵグラフ辺に対応し、各第２のＬＧ辺は前記第２のＭＣＵグラフ辺により連結される第２のＭＣＵグラフ内の一対の第２のＭＣＵグラフ頂点に対応する、請求項３６に記載の方法。
各第１の誘導連結サブグラフは、前記第１の線グラフ内の第１のＬＧ頂点及び第１のＬＧ辺の第１の接続サブセットと、第１のＬＧ頂点及び第１のＬＧ辺の前記第１の接続サブセットの第１の物理的配置とを含み、これらは併せて、前記一組の最小切断可能ユニット及び結合の第１の接続サブセットと、前記選択分子内の最小切断可能ユニット及び結合の前記第１の接続サブセットの相対位置とに一意的に対応する、請求項３６に記載の方法。
ａ）規定分子量を受信し前記メモリ内に格納すること、
ｂ）前記マイクロプロセッサに前記分子量フィールド内の全分子量が前記規定分子量に等しい少なくとも１つのＩＣＳ記録をデータベース内で発見するようにさせること、及び
ｃ）前記少なくとも１つのＩＣＳ記録の前記頂点データフィールドの前記頂点値及び前記辺データフィールドの前記辺値をディスプレイデバイスへ送信することをさらに含む請求項３６に記載の方法。