JP7349454B2 - 錯体分子下部構造を識別する切断頂点方法 - Google Patents

錯体分子下部構造を識別する切断頂点方法 Download PDF

Info

Publication number
JP7349454B2
JP7349454B2 JP2020568209A JP2020568209A JP7349454B2 JP 7349454 B2 JP7349454 B2 JP 7349454B2 JP 2020568209 A JP2020568209 A JP 2020568209A JP 2020568209 A JP2020568209 A JP 2020568209A JP 7349454 B2 JP7349454 B2 JP 7349454B2
Authority
JP
Japan
Prior art keywords
graph
molecular weight
vertex
selected molecule
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020568209A
Other languages
English (en)
Other versions
JP2021527254A (ja
Inventor
フリードマン,アーサー
バッチ,アンスマン
ユー,シャン
カンシラ,マーク
Original Assignee
メルク・シャープ・アンド・ドーム・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by メルク・シャープ・アンド・ドーム・エルエルシー filed Critical メルク・シャープ・アンド・ドーム・エルエルシー
Publication of JP2021527254A publication Critical patent/JP2021527254A/ja
Application granted granted Critical
Publication of JP7349454B2 publication Critical patent/JP7349454B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Description

発明の分野
本発明は、切断頂点(cut vertex)手法を使用することにより錯体分子(特に生体分子などの巨大分子)の下部構造を識別するためのシステム、装置及び方法に関する。
発明の背景
医薬化合物の下部構造(代謝物など)を識別し特徴付けることは創薬の重要部分である。このような代謝物の構造を理解すること及び代謝変換の特定部位を定義することは、例えばそれらの化合物にしばしば伴う安定性及び毒性問題を克服するために薬候補の主化合物の合成最適化を誘導する際に有用である。
現在の代謝物識別(MetID:metabolite identification)手法は、その構造の予備知識無しには生体マトリックスから治療用蛋白質及びペプチド(TPP:therapeutic protein and peptide)などの巨大分子の代謝物を系統的に特徴付けることができなかった。MASSCAP、SEQUEST及びMassMetaSiteなどのいくつかの既製の小分子MetIDソフトウェアは、小分子薬及び小さな直鎖ペプチドの代謝物を特徴付けるのに有用であるが、このソフトウェアは、より大きな生体分子(巨大非直鎖ペプチド/蛋白質など)の代謝物及び他の下部構造を識別するには実用的でない又は好ましくないということが判明した。この欠陥に関して以下の少なくとも3つの理由がある:(i)大抵の小分子MetIDソフトウェアは巨大分子のモノアイソトピックピークを正しく逆畳み込み(deconvolute)することができなく、正しくない入力質量値を生じる、(ii)大抵の小分子MetIDソフトウェアは小分子薬用に設計された原子ベースアルゴリズムを使用し、TPPなどの典型的な巨大生体分子の原子の数は通常、小分子のものより1~2桁高く、このような原子ベースアルゴリズムの大きな計算複雑性を導入する、(iii)巨大分子は従来の小分子ソフトウェアにおいては一般的に考慮されない独特な代謝過程を有するので小分子MetIDに有用な情報(シトクロムP450代謝経路又は質量欠損フィルタなど)は巨大分子に適用しない。
分子の原子ベース表現に伴う計算複雑性はコンピュータ解析を妨げ得る又は時に妨害し得る。所与のコンピュータ内のRAMの量に依存して、1000万を越える代謝物を有する分子の代謝物のすべてを識別するために必要とされる処理はコンピュータの処理能力を圧倒する可能性が高いだろう。1ギガバイトのRAMは本発明者らの経験では約100万の下部構造を扱い得る。しかし複雑な巨大分子は1000万を越える下部構造をしばしば含み、そして実に何億もの下部構造をしばしば含み得る。
加えて、蛋白質構造を解析するための従来のソフトウェア(例えばプロテオミクスベースソフトウェアなど)は、通常、アミド及び二硫化物結合切断を計算するが、予期しない修飾形態(+オキシ、+P、+Metなど)、非天然アミノ酸、生体内二硫化物スクランブル、非天然鎖及び非特異性蛋白質切断を含む巨大分子(TPPなど)の予測不能代謝プロファイルに対処することがこれまではできなかった。
したがって、巨大分子(特に、非常に多くの下部構造(例えば何億の下部構造)を有する巨大分子)の非線形ペプチドを解読することができるシステム及び処理、並びに生体マトリクス中の蛋白質バックグラウンドから治療用ペプチド又は蛋白質などの巨大分子の代謝物を差別化することを容易にするだけでなく当該の代謝物の構造の解明も容易にするシステム及び方法論の著しい必要性がある。これらの従来のコンピュータシステムが巨大分子代謝物の構造の視覚的表現を生成するとともにこれを科学者及び研究者により視認及び解析するためのモニタ及び他のディスプレイデバイス上に表示するよりよい仕事をすることを可能にするように従来のコンピュータシステムの機能を改善するシステム及び処理の著しい必要性がある。
発明の概要
一般的に、本発明のいくつかの実施形態は、錯体分子の代謝物及び他の下部構造を識別しそしてこのような代謝物及び他の下部構造の関連化学構造を判断するために化学者及び生化学者などの科学者により使用され得る。したがって、本発明のいくつかの実施形態は薬剤開発及び設計において極めて有用であると考えられ得る。この目的を達成するために、本発明のいくつかの実施形態は検討中の分子(選択分子)を表すための独特なシステムを採用する。具体的には、選択分子は、規定最小切断可能ユニットのグラフ(最小切断可能ユニットグラフ(MCU(minimum cleavable unit graph)グラフ)と呼ばれる)の観点で説明される。本明細書で列挙される最小切断可能ユニットはいかなる切断(cut/cleavage)(代謝過程の無い)も発生することが許容されない分子の一部分である。最小切断可能ユニットは選択分子の隣接代謝切断部位間の原子団を含み得る。一例として、蛋白質又はペプチド分子の最小切断可能ユニットは例えば単一アミノ酸又は一続きのアミノ酸を含み得る。例えば、環状ペプチドの最小切断可能ユニットは環状ペプチドの中核領域を含み得る。最小切断可能ユニット手法は当該分子をより単純なやり方で(例えば複合蛋白質構造を直鎖ペプチド領域に変換することを試みることにより複合蛋白質構造の複雑性を低減することにより)定義することを容易にする。最小切断可能ユニット手法は、MCU内に切断を有する代謝物をたどることを無くすモジュールをユーザが定義することを許容し、したがって機能的ではない。選択分子中の各MCUはMCUグラフ内の頂点に対応する。MCUグラフはコンピュータシステムのメモリ内のデータ構造内に格納されるデータにより表される。
選択分子は、所与の研究のゴールとどのようにMCUが定義されるかに依存して多くの異なるMCUグラフを有し得る。例えば、研究のゴールがアミド結合切断により生成されるすべての代謝物を識別することであれば、MCUは、単一アミノ酸を越えるさらなる代謝をユーザが考慮しないので各個々のアミノ酸残基として定義される。別の例として、研究のゴールが環状ペプチドの活性代謝物を識別することであれば、活性代謝物は無傷環状領域を有しなければならないのでペプチドの環状領域もまたMCUとして含まれるだろう、そしてさらなる代謝は環状領域内で考慮される必要はない。
本発明者らは、MCUグラフから導出される線グラフが分子の下部構造(代謝物など)を識別する効率的やり方であり本発明の下部構造識別システム、装置及び方法において特に有用であるということを認識した。この理由はMCUグラフの線グラフの誘導連結サブグラフ(induced connected subgraph)の世界は対応MCUグラフにより表される分子の下部構造及び代謝物の全世界を完全にそして一意的に表すということである。換言すれば、MCUグラフの線グラフの一組の誘導連結サブグラフと対応MCUグラフにより表される分子の一組の代謝物との間には1対1の関係がある。この関係は、選択分子の代謝物の全世界を識別するアルゴリズムを使用することを許容するので実用的である。このアルゴリズムの実用化は、選択分子の代謝物の全世界を識別するために使用されるコンピュータシステムの機能を著しく改善する。
2019年____________に出願された同時係争中の共有非仮出願特許出願第______________号は、錯体分子の下部構造を識別するためのシステム及び方法を説明し、このシステム及び方法は、選択分子の何千又は何百万の下部構造にそれぞれ対応する何千又は何百万の記録を含むデータベースを生成することに関与する。しかし、従来の中央処理ユニット及び従来のメモリデバイスを有する従来のパーソナルコンピュータシステム上でこのコンピュータシステムを酷使すること無しにそして場合によってはこのコンピュータシステムをハングアップさせる又は機能も併せて停止させること無しに処理及び識別され得ない何億又はさらには何十億の下部構造を有するいくつかの巨大分子が存在する。
以下にさらに詳細に述べるように、本発明のいくつかの実施形態は、選択分子の最小切断可能ユニット(MCU)グラフを表すデータ及び選択分子のMCUグラフ内の規定「切断頂点」を受信し格納することによりこの問題を回避する。次に、本システムは、選択分子の2つの別個のMCUグラフ構成要素(すなわち第1のMCUサブグラフ及び第2のMCUサブグラフ)を生成するために規定切断頂点において選択分子のMCUグラフを分割する。次に、本システムは、2つのMCUサブグラフ構成要素の第1の線グラフ構成要素及び第2の線グラフ構成要素をそれぞれ生成し、次に、第1の構成要素の下部構造及び分子量の第1のデータベースを生成しこれをメモリ内に格納するためにグラフトラバース(graph traversing)アルゴリズムにより第1の線グラフ構成要素をトラバースし、次に、下部構造及び第2の線グラフ構成要素の分子量の第2のデータベースを構築しこれをメモリ内に格納するためにグラフトラバースアルゴリズムにより第2の線グラフ構成要素をトラバースする。代替的に、本システムは、本発明の動作の主原理から逸脱すること無く、第1の線グラフ構成要素及び第2の線グラフ構成要素両方の下部構造及び分子量を単一データベース又は複数のデータベース内に置くように構成され得る。
その後、第1の線グラフ構成要素及び第2の線グラフ構成要素の下部構造及び分子量がコンピュータシステムのメモリ内の1つ又は複数のデータベース内に(又は、好ましければ単一データベースの2つのサブセクション内に)格納された状態で、本発明のいくつかの実施形態は、ユーザから照会分子量(又は一範囲の照会分子量)を受信し、そして、照会分子量(又は一範囲の照会分子量)に整合する分子量を有する選択分子の下部構造のすべての下部構造(切断頂点を跨ぐ(すなわち、切断頂点を含む)選択分子の下部構造を含む)のグラフィック表現を識別し、取り出し、表示するために2つのデータベース(又は単一データベースの2つのサブセクション)に対しバイナリサーチを行うことができる。したがって、本明細書において説明される切断頂点手法は、規定分子量を有する下部構造が選択分子の第1のMCUグラフ構成要素内に完全に、又は選択分子の第2のMCUグラフ構成要素内に完全に、又は選択分子の2つのMCUグラフ構成要素の両方内に部分的に(すなわちMCUグラフ内の切断頂点の両側に在る頂点及び結合を有する選択分子のそれらの下部構造内に)存在するかどうかにかかわらず、規定分子量に整合する分子量を有する選択分子の下部構造のすべてを動的に識別、生成、及び表示するために使用され得る。好ましいいくつかの実施態様では、所与の照会分子量に整合する下部構造は、整合する下部構造へ変換されるべき選択分子に関し発生する必要があるだろう生体変換(biotransformation)(すなわち壊された共有結合)の数に従ってランク順に列挙及び/又は表示される。
本開示における発明の様々な実施形態を説明する際に、下部構造及び下部構造の分子量を格納するためのそして誘導連結サブグラフ記録及び生体変換カウントを格納するための2つの異なるデータベースの使用が言及されるが、本発明はこのような情報及び記録を格納するための単一データベースの使用も包含するということに注意すべきである。単一データベースの場合、サブグラフデータベース内の特定記録が選択分子の線グラフの第1の構成要素又は第2の構成要素に関連するかを識別する下部構造識別子を使用することが有益だろう。
切断頂点方法は複数の二硫化物結合及び/又は人工鎖を含む巨大分子に特に有用である。本方法はまた、二量体及び他のオリゴマー及び多量体などの何億もの代謝物を有する巨大分子に特に好適である。例示的巨大分子は限定しないが、抗体、巨大分子の多量体(二量体、三量体、四量体及び高分子など)、及び共役分子を含む。
しかし、巨大分子の下部構造を識別し解析するのに有用であることに加えて、本発明のいくつかの実施形態はまた、小分子の下部構造を識別及び解析するのに有用である。小分子は、自然発生か人為的に生成された(例えば化学合成を介し)かにかかわらず比較的低い分子量を有する有機分子を含み得る。本発明のいくつかの実施形態はまた、動物、好適には哺乳動物、より好適には人間において局所的又は系統的効果を生じるという点で生物学的に活性である小分子を解析するのに有用である。いくつかの実施形態では、小分子は約900ダルトン以下の分子量を有する。本発明者らは、選択分子の誘導連結グラフ(すなわち下部構造)の数が利用可能コンピュータメモリを越える又は越えると予測される場合に切断頂点手法が特に有用であるということを発見した。但し、本手法は、所与の選択分子の下部構造の数が特に高くない又はコンピュータメモリを越えると予想されない状況においてですら有用である。
有益なことに、本発明の切断頂点手法は、選択分子を表すMCUグラフ内の適切な切断頂点を選択し識別するために厳しい一組の規則に従うということを必要としないという点で非常に柔軟である。換言すれば、選択分子の好適な切断頂点を認識し識別することは、多様な異なる技術(例えば、ユーザが知覚するMCUグラフ内の点であってMCUグラフのほぼ中央に又はその近くのどこかに位置する点を拾う単純な処置を含む)のうちの任意のものを使用することにより成し遂げられ得る。
MCUグラフの2つの構成要素のそれぞれの構成要素内に存在する下部構造を表す誘導連結サブグラフ記録のデータベースを構築すること
本発明の一実施形態の動作の第1段階では、ユーザは、(A)選択分子の1つ又は複数組の構成要素の最小切断可能ユニット、(B)選択分子の構成要素内の一組の最小切断可能ユニットを接続する1つ又は複数組の結合、(C)各最小切断可能ユニットの分子量、及び(D)選択分子の接続プロファイルを含む選択分子データを入力する。接続プロファイルは、最小切断可能ユニットと結合との相対位置、及び最小切断可能ユニットと結合との間の接続を指示するように配置される。選択分子データは選択分子のMCUグラフ又は選択分子の別の表現の形式、例えば頂点及び辺注釈(MCUの識別子、MCUを接続する結合のタイプ、及びMCUの各MCUの分子量を含む)を有する化学構造又は図の形式で提供され得る。
ユーザはまた、MCUの1つを選択分子の切断頂点として識別する。実際には除去されないが、選択分子のMCUグラフからの切断頂点の除去は、選択分子のMCUグラフを2つ(切断頂点自体をカウントしない)の構成要素(すなわち2つのMCUサブグラフ)へ分割(又は分離)するだろう。しかし、2つの構成要素の両方は切断頂点を含む。2つの構成要素は、本開示では、選択分子のMCUグラフの第1の構成要素及び第2の構成要素とそれぞれ呼ばれることになる、又は2つのMCUサブグラフ(その両方は切断頂点MCUを含む)と代替的に呼ばれることになる。2つの連結MCUサブグラフはサイズが必ずしも等しくなく、2つの連結MCUサブグラフは頂点及び結合の数も必ずしも等しくないが、サイズという点と頂点及び結合の数という点で等しい可能性がある。
本発明のいくつかの実施形態では、本システムは、切断頂点MCUの位置により定義された選択分子の2つの構成要素の各構成要素のMCUグラフデータ構造を生成してメモリ内に格納するために、選択分子データを使用する。好適なMCUグラフデータ構造は、限定しないが、配列、隣接行列、隣接リスト、結合行列又は結合リスト、及びMCUグラフデータを保持することができる任意の他のコンピュータデータ構造を含み得る。次に、以下にさらに詳細に説明されるように、選択分子の2つの構成要素の各構成要素のMCUグラフデータ構造に基づき、本システムは、選択分子のMCUグラフの2つの構成要素の各構成要素の線グラフを表す線グラフデータを生成し、2つの個々の線グラフデータ構造の線グラフデータをそれぞれメモリ内に格納する。好適な線グラフデータ構造は例えば隣接行列、隣接リスト、結合行列又は結合リストを含み得る。
次に、本システムは、MCUグラフの第1の構成要素の線グラフのあらゆる誘導連結サブグラフ(ICS:induced connected subgraph)の頂点及び辺データを識別してメモリ内に記録するために、好適なグラフトラバースアルゴリズム(その例が図29に示される)を使用することにより選択分子のMCUグラフの第1の構成要素の第1の線グラフデータ構造の線グラフデータをトラバースする。次に、本システムは、MCUグラフの第2の構成要素の線グラフのあらゆる誘導連結サブグラフ(ICS)の頂点及び辺のデータを識別してこれをメモリ内に記録するために、選択分子のMCUグラフの第2の構成要素の第2の線グラフデータ構造の線グラフデータをトラバースする(通常、しかし必ずしもでないが、同じグラフトラバースアルゴリズムを使用することにより)。好適なグラフトラバースアルゴリズムは深さ優先検索アルゴリズム、又は幅優先検索アルゴリズム,又は逆方向検索アルゴリズム、又はツリー検索アルゴリズムを含む。
グラフトラバースアルゴリズムを線グラフデータに対し実行することにより識別されるICS毎に、本システムは、分子量フィールド、頂点データフィールド及び辺データフィールドを含むICS記録をメモリ内に生成する。次に、本システムは、各ICSに対応する分子量を計算し、各ICS記録がその後分子量フィールド内の値に従って検索され得るように各ICS記録の頂点及び辺データと一緒に分子量を分子量フィールド内に格納する。好適には、本システムはまた、選択分子を当該ICS記録の頂点データ、辺データ及び分子量により表される下部構造へ変換するために必要とされるだろう生体変換の数(すなわち生体変換カウント)を計算し各ICS記録内に格納する。生体変換カウントを他のデータと一緒に各ICS記録内に格納することは、生体変換カウントに従って検索結果を検索及び/又はランク付けすることを許容する。
動作の第1段階中にMCUグラフの第1の構成要素とMCUグラフの第2の構成要素との両構成要素の線グラフデータに対してグラフトラバースアルゴリズムを実行した結果は、動作の第1段階の終わりに、メモリが、選択分子のMCUグラフの第1の構成要素の複数のICS記録及び選択分子のMCUグラフの第2の構成要素の複数のICS記録を含むことになるということである。第1の構成要素のあらゆるICS記録は選択分子の第1の構成要素内のあらゆる下部構造の構造、重量及び物理的レイアウト(切断頂点を含む)を表す頂点データ、辺データ及び分子量データを含む。第2の構成要素のあらゆるICS記録は選択分子の第2の構成要素内のあらゆる下部構造の構造、重量及び物理的レイアウト(切断頂点を含む)を表す頂点データ、辺データ及び分子量データを含む。したがって、この時点で、メモリは、MCUグラフの第1の構成要素内に完全に存在するあらゆる誘導連結サブグラフのICS記録及びMCUグラフの第2の構成要素内に完全に存在するあらゆる誘導連結サブグラフのICS記録を含むことになる。
特に、本システムは、MCUグラフの第1の構成要素と第2の構成要素両方内の頂点及び結合を有するいかなる誘導連結サブグラフのいかなるICS記録も生成する必要はなく、そしてメモリはこれを格納する必要がない。それにもかかわらず、以下にさらに詳細に説明されるように、動作のその後の段階において、本システムは、(1)選択分子の第1の構成要素内に存在する任意の誘導連結サブグラフのグラフィック表現、(2)選択分子の第2の構成要素内に存在する任意の誘導連結サブグラフ、及び(3)選択分子の両構成要素内に同時に存在する(すなわち、選択分子のMCUグラフの両構成要素内に頂点が存在するように切断頂点MCUに跨る)構成部分を有する任意の誘導連結サブグラフを識別し表示することができる。
選択分子のMCUグラフの第1の構成要素又は第2の構成要素のいずれかの構成要素内に存在する(しかし両構成要素内に存在しない)所与の分子量を有する下部構造を識別すること
第2段階の動作では、本システムはユーザ(選択分子データを提供したユーザであってもなくてもよい)から照会分子量を受信する。ここで、入力される照会分子量は実験によりユーザにより予め判断される又は質量分析計などの別のソース又は別のデバイスから取得されるかのいずれかである。本システムは、照会分子量に整合する分子量フィールド内の全分子量を有する選択分子の第1の構成要素及び第2の構成要素のICS記録のすべてを発見するために、メモリ内に格納されたICS(各ICSは、分子量、頂点配列値、辺配列値及び生体変換カウントを含む)記録を検索する。このようなICS記録が発見されると、本システムは、発見された各ICS記録の各誘導連結サブグラフの頂点及び辺データを生成してユーザへ表示するためにICS記録内の情報を使用する。任意選択的に、本システムはまた、各記録内の頂点及び辺データに基づき、整合誘導連結サブグラフの構造のグラフィック表現を表示、印刷、又は送信し得る。
したがって、この時点で、本システムは、照会質量に整合する質量を有する選択分子のMCUグラフの第1の構成要素内の任意の誘導連結サブグラフの頂点データ、辺データ、及び/又はグラフィック表現(すなわち、選択分子の第1の構成要素内のあらゆる下部構造)並びに照会質量に整合する質量を有する選択分子のMCUグラフの第2の構成要素内の任意の誘導連結サブグラフの頂点データ、辺データ、及び/又はグラフィック表現(すなわち、選択分子の第2の構成要素内のあらゆる下部構造)を生成、送信及び/又は表示していることになる。好適には、検索結果は、最小数の生体変換を必要とする誘導連結サブグラフが最初に(すなわち、リストの最上位に、そしてより多くの数の生体変換を必要とする整合誘導連結サブグラフの前に)表示されるように生体変換カウントの昇順にランク付けされ表示される。
選択分子のMCUグラフの第1の構成要素と第2の構成要素の両構成要素内に存在する所与の分子量を有する下部構造を識別すること
動作の第3段階では、本システムは、組み合わせられると照会分子量に整合する全分子量を有する2つのICS記録(選択分子の構成要素毎に1つの記録)の組み合わせを発見するためにメモリ内のICS記録を再び検索する。分子量のこのような組み合わせが発見されれば、これは切断頂点を跨ぎ(含み)そして第1の構成要素と第2の構成要素の両構成要素内に存在する頂点を有する誘導連結サブグラフ内の頂点及び結合の構造及び物理的配置に対応する選択分子の下部構造が存在するということを意味する。好ましいいくつかの実施態様では、本発明はまた、切断頂点を跨ぐとともにそれを含む選択分子の下部構造の頂点データ、辺データ(及び任意選択的にグラフィック表現)をディスプレイデバイス上に表示及び/又は送信するように構成される。
本発明の一実施形態では、切断頂点を介し連結される2つの誘導連結サブグラフであって照会分子量に整合する全分子量を併せて有する2つの誘導連結サブグラフを発見するためにメモリ内のICS記録を検索することが以下のように行われる。本システムは、照会分子量から切断頂点の分子量を減じることにより調整照会分子量を最初に計算し、次に、調整照会分子量に整合する分子量フィールド内の分子量を有するICS記録を識別するために第1の構成要素のICS記録を検索する。次に、本システムは、分子量フィールド内の最も低い分子量を有する選択分子の第1の構成要素のICS記録を識別する。次に、この最も低い分子量は修正照会分子量を提供するために調整照会分子量から減算される。修正照会分子量は、選択分子の第1の構成要素のICS記録の最も低い分子量と組み合わせられると修正照会分子量と整合する分子量フィールド内の分子量を有する第2の構成要素のICS記録を識別するために第2の構成要素のICS記録のバイナリサーチを行うために使用される。整合が発見されれば、本システムは、第1の構成要素の識別されたICS記録内の頂点及び辺情報並びに第2の構成要素の識別されたICS記録内の頂点及び辺情報をユーザによりアクセス可能なディスプレイデバイスへ表示、印刷及び/又は送信する。任意選択的に、本システムはまた、第1の構成要素の識別されたICSのグラフィック表現と第2の構成要素の識別されたICSのグラフィック表現とを連結しこれにより選択分子の下部構造のグラフィック表現を生成することにより切断頂点跨ぎ下部構造(cut-vertex-straddling substructure)のグラフィック表現を表示、印刷、又は送信し得る。ここで、この下部構造は切断頂点のそれぞれの側の切断頂点及び頂点群を含む。
本システムは、選択分子の第1の構成要素の第1のデータベース内のICS記録の残りプールに対して次に最も低い分子量を有する選択分子の第1の構成要素のICS記録を識別するためにデータベースの検索を繰り返し、新しい修正照会分子量を計算し、そして、選択分子の第1の構成要素のICS記録の次に最も低い分子量と組み合わせられると修正照会分子量と整合する分子量フィールド内の分子量を有する選択分子の第2の構成要素のICS記録のバイナリサーチを行うために、新たに計算された修正照会分子量を使用する。本処理は、選択分子のMCUグラフの第1の構成要素のICS記録のすべての記録の分子量が、修正分子量を計算しそして選択分子のMCUグラフの第2の構成要素のICS記録の検索を容易にするために使用されてしまうまで繰り返される。整合が発見されれば、本システムは、識別されたICS記録(第1の構成要素及び第2の構成要素の)内の情報をユーザにより操作されるディスプレイデバイスへ表示、印刷、又は送信する。任意選択的に、本システムはまた、各記録内の頂点及び辺データに基づき第1の構成要素と第2の構成要素の両方から、整合誘導連結サブグラフの組み合わせ下部構造のグラフィック表現を表示、印刷、又は送信し得、ここで、組み合わせ下部構造は切断頂点の両側の切断頂点及び頂点群を含む。
上述の動作に合致する本発明のいくつかの潜在的実施形態が存在する。一実施形態では、本発明は、選択分子の下部構造を識別するためのシステムであってマイクロプロセッサ、メモリ、メモリ内のアプリケーションプログラム、及びエンドユーザとの通信のためのメモリ内のユーザインターフェースを含むシステムを提供する。アプリケーションプログラム及びユーザインターフェースの両方は、マイクロプロセッサにより実行されると以下のことをマイクロプロセッサにさせるプログラム命令を含む:
1)(A)選択分子内の一組の最小切断可能ユニット、(B)選択分子内の一組の最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、(D)選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイル、及び(E)選択分子内の切断頂点であって切断頂点の除去が選択分子を第1の構成要素及び第2の構成要素へ分離するだろう切断頂点を表す選択分子データを受信しメモリ内に格納すること、
2)選択分子データに基づき選択分子の第1の構成要素の第1の最小切断可能ユニットグラフデータ構造を生成しメモリ内に格納することであって、第1の最小切断可能ユニットグラフデータ構造には第1の構成要素の第1のMCUグラフを表す第1のMCUグラフデータが取り込まれ、第1のMCUグラフは複数の第1のMCUグラフ頂点及び複数の第1のMCUグラフ辺を有し、各第1のMCUグラフ頂点は第1の構成要素の最小切断可能ユニットに対応し、各第1のMCUグラフ辺は第1の構成要素内の第1の結合接続最小切断可能ユニットに対応する、格納すること、
3)第1のMCUグラフデータに基づき選択分子の第1の構成要素の第1の線グラフデータ構造を生成しメモリ内に格納することであって、第1の線グラフデータ構造には第1のMCUグラフの第1の線グラフを表す第1の線グラフデータが取り込まれ、第1の線グラフは複数の第1の線グラフ頂点及び複数の第1の線グラフ辺を有し、各第1の線グラフ頂点(「LG頂点」)は第1のMCUグラフ内の第1のMCUグラフ辺に対応しそして各第1の線グラフ辺(「LG辺」)は前記第1のMCUグラフ辺により連結される第1のMCUグラフ内の一対の第1のMCUグラフ頂点に対応する、格納すること、
4)第1の線グラフの複数の第1の誘導連結サブグラフを判断するために選択分子の第1の構成要素の第1の線グラフデータ構造内の第1の線グラフデータに対してグラフトラバースアルゴリズムを実行することであって、各第1の誘導連結サブグラフは、第1の線グラフ内の第1のLG頂点及び第1のLG辺の第1の接続サブセットと、第1のLG頂点及び第1のLG辺の前記第1の接続サブセットの第1の物理的配置とを含み、第1のLG頂点及び第1のLG辺の接続サブセットはその第1の物理的配置と併せて、一組の最小切断可能ユニット及び結合の第1の接続サブセットと選択分子内の最小切断可能ユニット及び結合の前記第1の接続サブセットの相対位置とに一意的に対応する、実行すること、
5)選択分子の第1の構成要素の第1の線グラフデータ構造で表される第1の誘導連結サブグラフ毎に、第1の分子量フィールド、第1の頂点データフィールド及び第1の辺データフィールドを含む第1のICS記録を生成しデータベース内に格納することであって、第1の頂点データフィールドには第1の誘導連結サブグラフ内のあらゆる第1のLG頂点の第1の頂点位置を指示するように構成された第1の頂点値が取り込まれ、第1の辺データフィールドには第1のLG頂点に対する第1の誘導連結サブグラフ内のあらゆる第1のLG辺の第1の辺位置を指示するように構成された第1の辺値が取り込まれる、格納すること、
6)選択分子の第1の構成要素の第1の線グラフデータ構造内の第1のICS記録毎に、選択分子の選択分子データと第1のICS記録内の第1の頂点値及び第1の辺値とに基づき当該の第1のICS記録の第1の誘導連結サブグラフの第1の全分子量を計算し第1の分子量フィールド内に格納すること、
7)選択分子データに基づき選択分子の第2の構成要素の第2の最小切断可能ユニットグラフデータ構造を生成しメモリ内に格納することであって、第2の最小切断可能ユニットグラフデータ構造には第2の構成要素の第2のMCUグラフを表す第2のMCUグラフデータが取り込まれ、第2のMCUグラフは複数の第2のMCUグラフ頂点及び複数の第2のMCUグラフ辺を有し、各第2のMCUグラフ頂点は第2の構成要素の最小切断可能ユニットに対応し、各第2のMCUグラフ辺は第2の構成要素内の第2の結合接続最小切断可能ユニットに対応する、格納すること、
8)第2のMCUグラフデータに基づき選択分子の第2の構成要素の第2の線グラフデータ構造を生成しメモリ内に格納することであって、第2の線グラフデータ構造には第2のMCUグラフの第2の線グラフを表す第2の線グラフデータが取り込まれ、第2の線グラフは複数の第2のLG頂点及び複数の第2のLG辺を有し、各第2の線グラフ頂点は第2のMCUグラフ内の第2のMCUグラフ辺に対応し、各第2の線グラフ辺は前記第2のMCUグラフ辺により連結される第2のMCUグラフ内の一対の第2のMCUグラフ頂点に対応する、格納すること、
9)第2の線グラフの複数の第2の誘導連結サブグラフを判断するために選択分子の第2の構成要素の第2の線グラフデータ構造内の第2の線グラフデータに対してグラフトラバースアルゴリズムを実行することであって、各第2の誘導連結サブグラフは第2の線グラフ内の第2のLG頂点及び第2のLG辺の第2の接続サブセットと第2のLG頂点及び第2のLG辺の前記第2の接続サブセットの第2の物理的配置とを含み、これらは併せて、一組の最小切断可能ユニット及び結合の第2の接続サブセットと、選択分子内の最小切断可能ユニット及び結合の前記第2の接続サブセットの相対位置に一意的に対応する、実行すること、
10)選択分子の第2の構成要素の第2の線グラフデータ構造で表される第2の誘導連結サブグラフ毎に、第2の分子量フィールド、第2の頂点データフィールド及び第2の辺データフィールドを含む第2のICS記録をデータベース内に生成することであって、第2の頂点データフィールドには第2の誘導連結サブグラフ内のあらゆる第2のLG頂点の第2の頂点位置を指示するように構成された第2の頂点値が取り込まれ、第2の辺データフィールドには第2のLG頂点に対する第2の誘導連結サブグラフ内のあらゆる第2のLG辺の第2の辺位置を指示するように構成された第2の辺値が取り込まれる、生成すること、
11)選択分子の第2の構成要素の第2の線グラフデータ構造内の第2のICS記録毎に、選択分子の選択分子データと第2のICS記録内の第2の頂点値及び第2の辺値とに基づき当該の第2のICS記録の第2の誘導連結サブグラフの第2の全分子量を計算し第2の分子量フィールド内に格納すること。
ユーザインターフェースは、マイクロプロセッサにより実行されると以下のことをマイクロプロセッサにさせるプログラム命令を含む:
(i)エンドユーザから照会分子量を受信すること、
(ii)照会分子量に整合する第1の分子量フィールド内の第1の全分子量を有する第1のICS記録を識別するためにデータベースを検索すること、
(iii)照会分子量に整合する第2の分子量フィールド内の第2の全分子量を有する第2のICS記録を識別するためにデータベースを検索すること、
(iv)照会分子量に整合する第1の全分子量を有する第1のICS記録に対応する第1の誘導連結サブグラフの第1のグラフィック表現を生成しディスプレイデバイス上に表示するために、第1の頂点データフィールド内の第1の頂点値と、識別された第1のICS記録の第1の辺データフィールド内の第1の辺値とを使用すること、
(v)照会分子量に整合する第2の全分子量を有する第2のICS記録に対応する第2の誘導連結サブグラフの第2のグラフィック表現を生成しディスプレイデバイス上に表示するために、第2の頂点データフィールド内の第2の頂点値と、識別された第2のICS記録の第2の辺データフィールド内の第2の辺値とを使用すること、
(vi)照会分子量から切断頂点の分子量を減じることにより調整照会分子量を計算すること、
(vii)選択分子の第1の構成要素に関し第1の部分的ICS記録を識別することであって、第1の部分的ICS記録は、第1の構成要素のすべての他の分子量フィールド内のすべての他の分子量に対して最低の第1の分子量を第1の分子量フィールド内に有する、識別すること、
(viii)調整照会分子量から選択分子の第1の構成要素の第1の部分的ICS記録の最低の第1の分子量を減じることにより修正照会分子量を計算すること、
(ix)選択分子の第2の構成要素のICS記録を検索するために選択分子の第2の構成要素の第2の部分的ICS記録を識別するために修正照会分子量を使用することであって、第2の部分的ICS記録は、第1の構成要素の第1の部分的ICS記録の第1の分子量と組み合わせられると修正照会分子量と整合する第2の分子量フィールド内の第2の分子量を有する、使用すること、
(x)選択分子の第1の構成要素と第2の構成要素との組み合わせ誘導連結サブグラフのグラフィック表現を生成しディスプレイデバイス上に表示するために、第1及び第2の部分的ICS記録の頂点データフィールド内の頂点値、第1及び第2の部分的ICS記録の辺データフィールド内の辺値、切断頂点及び選択分子データを使用することであって、組み合わせ誘導連結サブグラフは第1の部分的ICS記録の誘導連結サブグラフと第2の部分的ICS記録の誘導連結サブグラフとを連結することにより生成される、使用すること、
(xi)第1の部分的ICS記録を別の第1のICS記録により置換することであって、前記別の第1のICS記録は、第1の部分的ICS記録の分子量フィールド内の分子量に対する次の最低の第1の分子量を第1の分子量フィールド内に含む、置換すること、
(xii)選択分子の第1の構成要素の第1のICS記録の第1の分子量フィールド内の第1の分子量のそれぞれが工程viii)xi)を行うために使用されてしまうまで上記工程viii)~xi)を繰り返すこと。
本発明のいくつかの追加実施形態では、本システムはさらに、マイクロプロセッサにより実行されると以下のことをマイクロプロセッサにさせるアプリケーションプログラム内のプログラム命令を含む:a)照会分子量の規定公差を受信すること、b)データベースの検索のための一定範囲の分子量を計算し定義するために規定公差を使用すること、c)規定範囲の分子量内に入る分子量フィールド内の全分子量を有するデータベース内の各ICS記録を識別するために照会分子量及びこの範囲に基づきデータベースを検索すること、及び(d)前記識別されたICS記録毎に、頂点データフィールド内の頂点値及び辺データフィールド内の辺値をエンドユーザへ提示するためにユーザインターフェースへ送信すること、e)照会分子量から切断頂点の分子量を減じることにより調整照会分子量を計算すること、f)選択分子の第1の構成要素に関し、最も低い分子量を有するICS記録を識別すること、g)調整照会分子量から選択分子の第1の構成要素のICS記録の最も低い分子量を減じることにより修正照会分子量を計算すること、h)第1の構成要素のICS記録の分子量と組み合わせられると修正照会分子量に整合するICS記録を識別するために選択分子の第2の構成要素のICS記録のバイナリサーチを修正照会分子量を使用することにより行うこと、i)識別されたICS記録の頂点データフィールド内の頂点値及び辺データフィールド内の辺値をエンドユーザにより操作されるディスプレイデバイス上の提示のためにユーザインターフェースへ送信すること、j)次に最も低い分子量を有する選択分子の第1の構成要素のICS記録を識別すること、k)選択分子の第1の構成要素のICS記録の分子量のそれぞれが工程g)~j)において使用されてしまうまで工程g)~j)を繰り返すこと。
本発明のいくつかの実施形態では、選択分子データは、連結リスト、配列、又は隣接行列、又はグラフィック画像ファイル、又は化学図ファイル(例えばCambridge Soft(登録商標)からのChemDraw(登録商標)ファイル、PerkinElmer, Inc., Waltham, MA, USA)、又はスプレッドシートファイル、テキストファイル、又はCSVファイル、又は.CDXファイル、.CDXMLファイル、又は.MOLファイル、又は.SDMファイル、CADファイル、又はバイナリデータファイル、又は.SMIファイル、.HELMファイル、又は.CHELMファイル、又は.XHELMファイルとしてコンピュータシステムのメモリ内に格納された情報を解析するように構成されるアプリケーションプログラム内の命令を実行することにより取得される。一組の最小切断可能ユニット及び結合の接続サブセットは、選択分子の代謝物、又は選択分子の異化生成物、又は選択分子の気相断片化、又は選択分子の分解剤、又は選択分子の下部構造を含み得る。
本発明のいくつかの実施形態では、選択分子データは、以下を表す基本組成データを含む:(A)各最小切断可能ユニット内の一組の基本ユニット、(B)最小切断可能ユニット内の一組の基本ユニットを連結する一組の基本結合、(C)各基本ユニットの基本分子量、(D)最小切断可能ユニットのMCU接続プロファイルであって、最小切断可能ユニット内の基本ユニットと基本結合との相対位置及びその間の接続を指示するMCU接続プロファイル、及びE)選択分子内の切断頂点。これらの実施形態では、データベース内に生成されるICS記録はさらに、1つ又は複数の基本ユニット識別子が取り込まれる基本ユニットフィールドを含む。アプリケーションプログラムはさらに、マイクロプロセッサにより実行されるとマイクロプロセッサに、(a)エンドユーザから照会基本ユニットを受信すること、(ii)照会基本ユニットに整合する基本ユニットフィールド内の基本ユニット識別子を有するICS記録を識別するために照会基本ユニットに基づきデータベースを検索すること、(iii)識別されたICS記録の頂点データフィールド内の頂点値及び辺データフィールド内の辺値をエンドユーザにより操作されるディスプレイデバイス上の提示のためにユーザインターフェースへ送信することをさせるプログラム命令を含む。
別の実施形態では、本発明は、マイクロプロセッサを使用して選択分子の下部構造を識別することを容易にするデータベースを生成するためのシステムであって一次メモリ、二次メモリ、マイクロプロセッサ、入力モジュール、MCUグラフデータ構造生成器、線グラフデータ構造生成器、グラフトラバースモジュール、サブグラフデータベース及び分子量計算器を含むシステムを提供する。
入力モジュールは、(A)選択分子内の一組の最小切断可能ユニット、(B)選択分子内の一組の最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、(D)選択分子内に在る切断頂点であって切断頂点の除去が選択分子を第1の構成要素と第2の構成要素とへ分離する切断頂点、及び(E)選択分子内の最小切断可能ユニット及び結合の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データをマイクロプロセッサに受信及び格納させるように構成されたプログラム命令を含む。
MCUグラフデータ構造生成器は、i)選択分子の第1の構成要素の第1の最小切断可能ユニットグラフデータ構造及びii)選択分子の第2の構成要素の第2の最小切断可能ユニットグラフデータ構造をマイクロプロセッサに生成させこれをメモリ内に格納させるように構成されたプログラム命令を含む。第1の最小切断可能ユニットグラフデータ構造には第1の構成要素の第1のMCUグラフを表す第1のMCUグラフデータが取り込まれる。第1のMCUグラフは複数の第1のMCUグラフ頂点及び複数の第1のMCUグラフ辺を含み、各第1のMCUグラフ頂点は第1の構成要素の最小切断可能ユニットに対応し、各第1のMCUグラフ辺は第1の構成要素内の第1の結合接続最小切断可能ユニットに対応する。第2の最小切断可能ユニットグラフデータ構造には第2の構成要素の第2のMCUグラフを表す第2のMCUグラフデータが取り込まれ、第2のMCUグラフは複数の第2のMCUグラフ頂点及び複数の第2のMCUグラフ辺を有する。各第2のMCUグラフ頂点は第2の構成要素の最小切断可能ユニットに対応し、各第2のMCUグラフ辺は第2の構成要素内の第2の結合接続最小切断可能ユニットに対応する。
線グラフデータ構造生成器は、選択分子の第1の構成要素の第1の線グラフデータ構造を第1のMCUグラフデータに基づき生成しメモリ内に格納するためにマイクロプロセッサ上で実行可能なプログラム命令を含む。第1の線グラフデータ構造には第1のMCUグラフの第1の線グラフを表す第1の線グラフデータが取り込まれ、第1の線グラフは複数の第1のLG頂点及び複数の第1のLG辺を有し、各第1のLG頂点は第1のMCUグラフ内の第1のMCUグラフ辺に対応し、各第1のLG辺は第1のMCUグラフ辺により連結される第1のMCUグラフ内の一対の第1のMCUグラフ頂点に対応する。線グラフデータ構造生成器はまた、選択分子の第2の構成要素の第2の線グラフデータ構造を第2のMCUグラフデータに基づき生成しメモリ内に格納するためにマイクロプロセッサにより実行可能なプログラム命令を含む。第2の線グラフデータ構造には第2のMCUグラフの第2の線グラフを表す第2の線グラフデータが取り込まれ、第2の線グラフは複数の第2のLG頂点及び複数の第2のLG辺を有し、各第2の線グラフ頂点は第2のMCUグラフ内の第2のMCUグラフ辺に対応し、各第2の線グラフ辺は前記第2のMCUグラフ辺により連結される第2のMCUグラフ内の一対の第2のMCUグラフ頂点に対応する。
グラフトラバースモジュールは、第1の線グラフの複数の第1の誘導連結サブグラフを判断するために選択分子の第1の構成要素の第1の線グラフデータ構造内の第1の線グラフデータに対してグラフトラバースアルゴリズムを実行するためにマイクロプロセッサ上で実行可能なプログラム命令を含む。各第1の誘導連結サブグラフは、第1の線グラフ内の第1のLG頂点及び第1のLG辺の第1の接続サブセットと、第1のLG頂点及び第1のLG辺の第1の接続サブセットの第1の物理的配置とを含み、これらは併せて、一組の最小切断可能ユニット及び結合の第1の接続サブセットと、選択分子内の最小切断可能ユニット及び結合の前記第1の接続サブセットの相対位置とに一意的に対応する。
グラフトラバースモジュールはまた、第2の線グラフの複数の第2の誘導連結サブグラフを判断するために選択分子の第2の構成要素の第2の線グラフデータ構造内の第2の線グラフデータに対してグラフトラバースアルゴリズムを実行するためにマイクロプロセッサ上で実行可能なプログラム命令を含み、各第2の誘導連結サブグラフは、第2の線グラフ内の第2のLG頂点及び第2のLG辺の第2の接続サブセットと、第2のLG頂点及び第2のLG辺の前記第2の接続サブセットの第2の物理的配置とを含み、第2のLG頂点及び第2のLG辺の第2の接続サブセットはその物理的配置と併せて、一組の最小切断可能ユニット及び結合の第2の接続サブセットと、選択分子内の最小切断可能ユニット及び結合の前記第2の接続サブセットの相対位置とに一意的に対応する。
サブグラフデータベース生成器は、選択分子の第1の構成要素の第1の線グラフデータ構造で表される第1の誘導連結サブグラフ毎に、第1の分子量フィールド、第1の頂点データフィールド及び第1の辺データフィールドを含む第1のICS記録をサブグラフデータベース内に生成することをマイクロプロセッサにさせるプログラム命令を含む。第1の頂点データフィールドには第1の誘導連結サブグラフ内のあらゆる第1のLG頂点の第1の頂点位置を指示するように構成された第1の頂点値が取り込まれ、第1の辺データフィールドには第1のLG頂点に対する第1の誘導連結サブグラフ内のあらゆる第1のLG辺の第1の辺位置を指示するように構成された第1の辺値が取り込まれる。データベース生成器はまた、選択分子の第2の構成要素の第2の線グラフデータ構造で表される第2の誘導連結サブグラフ毎に、第2の分子量フィールド、第2の頂点データフィールド及び第2の辺データフィールドを含む第2のICS記録をサブグラフデータベース内に生成することをマイクロプロセッサにさせるプログラム命令を含む。第2の頂点データフィールドには第2の誘導連結サブグラフ内のあらゆる第2のLG頂点の第2の頂点位置を指示するように構成された第2の頂点値が取り込まれ、第2の辺データフィールドには第2のLG頂点に対する第2の誘導連結サブグラフ内のあらゆる第2のLG辺の第2の辺位置を指示するように構成された第2の辺値が取り込まれる。
分子重量計算器は、選択分子の選択分子データにより提供される基本分子量と第1のICS記録内の第1の頂点値及び第1の辺値とに基づき、選択分子の第1の構成要素の第1の線グラフデータ構造内の第1のICS記録毎に、当該の第1のICS記録の第1の誘導連結サブグラフの第1の全分子量を計算し第1の分子量フィールド内に格納することをマイクロプロセッサにさせるプログラム命令を含む。分子重量計算器はまた、選択分子の選択分子データにより提供される基本分子量と第2のICS記録内の第2の頂点値及び第2の辺値とに基づき、選択分子の第2の構成要素の第2の線グラフデータ構造内の第2のICS記録毎に、当該の第2のICS記録の第2の誘導連結サブグラフの第2の全分子量を計算し第2の分子量フィールド内に格納することをマイクロプロセッサにさせるプログラム命令を含む。
本発明のさらに別の実施形態では、マイクロプロセッサ、メモリデバイス及びディスプレイデバイスを使用することにより選択分子の下部構造を識別することを容易にするためにメモリ内にデータベースを生成するコンピュータ実施方法が提供される。第1の工程では、本方法は、(A)選択分子内の一組の最小切断可能ユニット、(B)選択分子内の一組の最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、(D)選択分子内に在る切断頂点であって切断頂点の除去が選択分子を第1の構成要素と第2の構成要素とへ分離する切断頂点、及び(E)選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データを受信しメモリデバイス内に格納する。
次に、選択分子データに基づき、コンピュータ実施方法は、選択分子の第1の構成要素及び第2の構成要素の最小切断可能ユニットグラフデータ構造を生成しメモリデバイス内に格納する。最小切断可能ユニットグラフデータ構造には選択分子のMCUグラフを表すMCUグラフデータが取り込まれる。MCUグラフは複数のMCUグラフ頂点及び複数のMCUグラフ辺を有し、各MCUグラフ頂点は選択分子の最小切断可能ユニットに対応し、各MCUグラフ辺は選択分子内の結合接続最小切断可能ユニットに対応する。
MCUグラフデータに基づき選択分子の第1の構成要素の第1の線グラフデータ構造及び選択分子の第2の構成要素の第2のグラフデータ構造が生成されメモリデバイス内に格納される。各線グラフデータ構造にはMCUグラフの第1及び第2の構成要素の線グラフを表す線グラフデータが取り込まれる。第1及び第2の線グラフはそれぞれ複数のLG頂点及び複数のLG辺を有し、各LG頂点はMCUグラフ内のMCUグラフ辺に対応し、各LG辺は前記MCUグラフ辺により連結されるMCUグラフ内の一対のMCUグラフ頂点に対応する。
本方法の次の工程では、マイクロプロセッサは、構成要素毎に(a)線グラフの複数の誘導連結サブグラフであってそれぞれが線グラフ内のLG頂点及びLG辺の接続サブセットを含む誘導連結サブグラフ、(b)一組の最小切断可能ユニット及び結合の接続サブセットに併せて一意的に対応するLG頂点及びLG辺の接続サブセットの物理的配置、及び(c)選択分子内の最小切断可能ユニット及び結合の接続サブセットの相対位置を判断するために選択分子の第1の構成要素の第1のグラフデータ構造内の第1の線グラフデータ及び選択分子の第2の構成要素の第2のグラフデータ構造内の第2の線グラフデータに対しグラフトラバースアルゴリズム実行するために使用される。
第1の構成要素の第1のグラフデータ構造及び第2の構成要素の各第2のグラフデータ構造で表される誘導連結サブグラフ毎に、本方法はさらに、分子量フィールド、頂点データフィールド及び辺データフィールドを含むICS記録をサブグラフデータベース内に生成する工程を含み、ここでは、頂点データフィールドには誘導連結サブグラフ内のあらゆるLG頂点の頂点位置を指示するように構成された頂点値が取り込まれ、辺データフィールドにはLG頂点に対する誘導連結サブグラフ内のあらゆるLG辺の辺位置を指示するように構成された辺値が取り込まれる。選択分子の第1の構成要素及び第2の構成要素の線グラフデータ構造のICS記録毎に、マイクロプロセッサは、選択分子の選択分子データとICS記録内の頂点値及び辺値とに基づき当該のICS記録の誘導連結サブグラフの全分子量を計算し分子量フィールド内に格納するために使用される。
本発明のいくつかの実施形態では、本方法は、さらに、a)マイクロプロセッサにより照会分子量を受信すること、b)マイクロプロセッサにより、照会分子量に整合する全分子量を分子量フィールド内に有するICS記録を識別するために照会分子量に基づきサブグラフデータベースを検索すること、c)識別されたICS記録の頂点データフィールド内の頂点値及び辺データフィールド内の辺値の表現をディスプレイデバイスへ送信すること、(d)照会分子量から切断頂点の分子量を減じることにより調整照会分子量を計算すること、(e)最も低い分子量を有する選択分子の第1の構成要素のICS記録を識別すること、(f)調整照会分子量から選択分子の第1の構成要素のICS記録の最も低い分子量を減じることにより修正照会分子量を計算すること、(g)第1の構成要素のICS記録の分子量と組み合わせられると修正照会分子量に整合するICS記録を識別するために選択分子の第2の構成要素のICS記録のバイナリサーチを行うために修正照会分子量を使用すること、(h)識別されたICS記録の頂点データフィールド内の頂点値及び辺データフィールド内の辺値をエンドユーザにより操作されるディスプレイデバイス上の提示のためにユーザインターフェースへ送信すること、(i)次に最も低い分子量を有する選択分子の第1の構成要素のICS記録を識別すること、(i)選択分子の第1の構成要素のICS記録の分子量のそれぞれが工程f)~j)において使用されてしまうまで工程f)~h)を繰り返すこと、を含む。
本発明のいくつかの実施形態では、線グラフGの連結構成要素(オリジナル分子の潜在的代謝物)は次式により判断される:
i)G\{v}のサブグラフ、
ii)G\{v}のサブグラフ、又は、
(iii)サブグラフC∪{v}∪C
ここで、C及びCはそれぞれG\{v}及びG\{v}のサブグラフであり、頂点vに隣接する。
図面の簡単な説明
本発明の一実施形態におけるデータの流れを一例として示す高レベル流れ図を示す。 本発明の別の実施形態におけるデータの流れを一例として示す高レベル全体流れ図を示し、ここで、様々なタイプのグラフを表すデータ構造は隣接行列である。 本発明のいくつかの実施形態により導出される誘導連結サブグラフの各誘導連結サブグラフに関連する生体変換カウントを計算し誘導連結サブグラフ(ICS)データベース内に格納するアルゴリズムを一例として示す高レベル流れ図を示す。 本発明の例示的実施形態に従って動作するように構成された錯体分子下部構造識別システムのアーキテクチャの例を示す高レベルブロック図を示す。 本発明のいくつかの実施形態によるICSデータベース内に格納され得る例示的誘導連結サブグラフ(ICS)記録を示す。 選択分子の第1及び第2の構成要素の各構成要素の誘導連結サブグラフ及び対応ICS記録のフルセットを判断するためにマイクロプロセッサにより行われる工程を本発明の一実施形態に従って示す流れ図であり、ここで、構成要素の各誘導連結サブグラフは選択分子の当該構成要素内に完全に存在する化学的下部構造に一意的に対応する。 本発明の一実施形態による選択分子のMCUグラフを生成するためのアルゴリズムを示す流れ図である。 本発明の一実施形態によるMCUグラフの線グラフを生成するためのアルゴリズムを示す流れ図である。 図7の処理により生成され得る切断頂点(Q)を含む仮想選択分子の最小切断可能ユニットグラフを示す。 本発明の一実施形態に従って生成される仮想選択分子の2つの構成要素のデータ構造(隣接行列)を示す。 仮想選択分子の構成要素を表すために生成され得る2つの例示的線グラフを示す。 図9Cに示す線グラフの2つの例示的線グラフデータ構造(すなわち隣接行列)を示す。 本発明の一実施形態における選択分子を含む可能性がある巨大分子の一例である合成二量体の化学構造を示す。 図10に示す合成二量体分子のMCUグラフの例を示す。 図10に示す合成二量体の第1の単量体を表すために本発明の一実施形態に従って生成され得る線グラフ及び線グラフデータ構造を示す。 図10に示す合成二量体の第1の単量体を表すために本発明の一実施形態に従って生成され得る線グラフ及び線グラフデータ構造を示す。 図10に示す合成二量体の第1の単量体を表すために本発明の一実施形態に従って生成され得る「辺対頂点」データ構造である。 図10に示す合成二量体の第2の単量体を表すために本発明の一実施形態に従って生成され得る線グラフ及び線グラフデータ構造を示す。 図10に示す合成二量体の第2の単量体を表すために本発明の一実施形態に従って生成され得る線グラフ及び線グラフデータ構造を示す。 図10に示す合成二量体の第2の単量体を表すために本発明の一実施形態に従って生成され得る「辺対頂点」データ構造を示す。 選択分子の下部構造を識別するために誘導連結サブグラフのデータベース(ICSデータベース)を検索する際の本発明の一実施形態による工程を示す流れ図である。 本発明の一実施形態に従って生成される単量体Aの例示的サブグラフデータベース記録である。 本発明の一実施形態に従って生成される単量体Aの例示的サブグラフデータベース記録である。 本発明の一実施形態に従って生成される単量体Aの例示的サブグラフデータベース記録である。 本発明の一実施形態に従って生成される単量体Aの例示的サブグラフデータベース記録である。 本発明の一実施形態に従って生成される単量体Bの例示的サブグラフデータベース記録である。 本発明の一実施形態に従って生成される単量体Bの例示的サブグラフデータベース記録である。 本発明の一実施形態に従って生成される単量体Bの例示的サブグラフデータベース記録である。 本発明の一実施形態に従って生成される単量体Bの例示的サブグラフデータベース記録である。 本発明の一実施形態に従って生成されるとともに図17A~17Dそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Aの下部構造のMCUグラフ及び化学構造を示す。 本発明の一実施形態に従って生成されるとともに図17A~17Dそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Aの下部構造のMCUグラフ及び化学構造を示す。 本発明の一実施形態に従って生成されるとともに図17A~17Dそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Aの下部構造のMCUグラフ及び化学構造を示す。 本発明の一実施形態に従って生成されるとともに図17A~17Dそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Aの下部構造のMCUグラフ及び化学構造を示す。 本発明の一実施形態に従って生成されるとともに図17A~17Dそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Aの下部構造のMCUグラフ及び化学構造を示す。 本発明の一実施形態に従って生成されるとともに図17A~17Dそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Aの下部構造のMCUグラフ及び化学構造を示す。 本発明の一実施形態に従って生成されるとともに図17A~17Dそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Aの下部構造のMCUグラフ及び化学構造を示す。 本発明の一実施形態に従って生成されるとともに図17A~17Dそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Aの下部構造のMCUグラフ及び化学構造を示す。 本発明の一実施形態に従って生成されるとともに図18A~18Dそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Bの下部構造のMCUグラフ及び化学構造を示す。 本発明の一実施形態に従って生成されるとともに図18A~18Dそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Bの下部構造のMCUグラフ及び化学構造を示す。 本発明の一実施形態に従って生成されるとともに図18A~18Dそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Bの下部構造のMCUグラフ及び化学構造を示す。 本発明の一実施形態に従って生成されるとともに図18A~18Dそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Bの下部構造のMCUグラフ及び化学構造を示す。 本発明の一実施形態に従って生成されるとともに図18A~18Dそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Bの下部構造のMCUグラフ及び化学構造を示す。 本発明の一実施形態に従って生成されるとともに図18A~18Dそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Bの下部構造のMCUグラフ及び化学構造を示す。 本発明の一実施形態に従って生成されるとともに図18A~18Dそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Bの下部構造のMCUグラフ及び化学構造を示す。 本発明の一実施形態に従って生成されるとともに図18A~18Dそれぞれにおいて描写されるサブグラフデータベースエントリに対応する単量体Bの下部構造のMCUグラフ及び化学構造を示す。 本発明の一実施形態に従って生成される単量体Bの下部構造と組み合わせられた単量体Aの下部構造のMCUグラフ及び化学構造を示す。 本発明の一実施形態に従って生成される単量体Bの下部構造と組み合わせられた単量体Aの下部構造のMCUグラフ及び化学構造を示す。 本本発明の一実施形態による、マイクロプロセッサにより実行されるとマイクロプロセッサに、サブグラフデータベースにMCUグラフ隣接行列内に格納されたMCUグラフデータを取り込ませるグラフトラバースアルゴリズムの例示的MatLabプログラム命令を示す。 図28に示す例示的プログラム命令により行われるアルゴリズムを示す流れ図を示す。
例示的実施形態の詳細な説明
本明細書において説明される切断頂点方法は、全分子内の下部構造のすべてを一斉に解析し識別することを試みる代わりに、選択分子を別々に表す線グラフの2つの個別サブセクション内に発見される下部構造を解析及び識別し、そして次に2つの解析の結果を集約することにより複雑な構造を有するコンピュータを完全にダウンさせる問題を低減しそして多数の代謝物を識別することを容易にし、これにより巨大錯体分子の薬剤開発及び設計を容易にする。しかし本発明のいくつかの実施形態はすべてのタイプの分子の下部構造を識別するために適用可能であり且つ有用であるということに留意すべきである。下部構造が属する分子は「選択分子」と呼ばれる。選択分子は巨大分子、高分子、又は小分子であり得る。巨大分子は、限定しないが、ペプチドなどのアミノ酸ベース分子だけでなくポリペプチド、抗体、蛋白質、酵素、免疫グロブリン、脂質、核酸、炭水化物、オリゴヌクレオチド、ポリヌクレオチド、多糖、及び高分子を含む。選択分子はまた共役分子及び交差結合分子であり得る。
本明細書で使用されるように、すべてのアミノ酸3文字及び1文字指定は、当該技術領域において標準的である指定に準拠し、次のように列挙される:
アラニンAla A、アルギニンArg R、アスパラギンAsn N、アスパラギン酸Asp D、システインCys C、グルタミン酸Glu E、グルタミンGln Q、グリシンGly G、ヒスチジンHi H、イソロイシンIle I、ロイシンLeu L、リジンLys K、メチオニンMet M、フェニルアラニンPhe F、プロリンPro P、セリンSer S、トレオニンThr T、トリプトファンTrp W、チロシンTyr Y、バリンVal V
本発明の例示的システム、装置及び方法は、所与の分子の下部構造(代謝物など)の網羅的プールを識別及び格納するだけでなく、また識別された代謝物の構造的特徴付けと代謝物の化学構造又は構成の視覚化とを提供するために速く且つ効率的やり方を提供するために小分子MetID手法及び小分子トップダウンプロテオミクス(Top Down proteomics)手法を組み合わせる。本発明の例示的システム、装置及び方法は、コンピュータシステムが識別するために必要とされる検索時間を著しく改善することにより従来のコンピュータシステムの動作を改善し、そして錯体分子の下部構造及び他の代謝物を特徴付ける。本発明のいくつかの実施形態に従って動作するように構成されたコンピュータシステムは、完了するために数週又は数か月かかるであろう従来のコンピュータ化システム及び方法と比較してほんの数時間で何億もの下部構造又はさらには何十億の下部構造を識別し特徴付けし得る。下部構造は、コンピュータメモリなどの電子媒体内に格納され、コンピュータシステムに付随するモニタ又はディスプレイ画面上に表示され、コンピュータシステムに付随する印刷デバイス上に印刷、又は、さらなる解析のために別のコンピュータシステム又はネットワークへ送信され得る。本発明により可能にされる著しく改善された処理時間は、薬剤設計及び開発の技術を進展させる際に貴重な役割を果たすことになる。
本発明のシステム、装置及び方法は選択分子の代謝物及び他の下部構造を識別するために有用である。例えば、無傷蛋白質を特徴付けるために、気相断片化技術が前駆体蛋白質イオンの断片化イオンを取得するためにしばしば行われる。各断片化イオンは前駆体イオンの下部構造と見做され得る。前駆体蛋白質イオンの構造を正しく特徴付けるために、各断片化イオンの構造がその質量又は分子量値に基づき正しく割り当てられる必要がある。本発明のシステム、装置及び方法は、断片化イオンの質量値と気相状態のそれらの構造との間の関係を構築するために適用され得る。
図1は本発明の一実施形態におけるデータの流れを一例として示す高レベル流れ図を示す。図1に示すように、第1のユーザは、選択分子データ(選択分子の規定MCU、MCUの分子量及び選択分子の接続プロファイルの一組を含む)を本システムへ供給するために第1のエンドユーザコンピュータシステム115及び入力モジュール125を使用する。接続プロファイルは、最小切断可能ユニットと結合との相対位置と、選択分子内のMCUと結合との任意の接続とを示す。選択分子データはまた、選択分子の切断頂点を識別するために十分な情報を含む。切断頂点が選択分子を表す線グラフから除去されれば、切断頂点の除去は選択分子の線グラフを第1の構成要素と第2の構成要素とへ分割する。MCUグラフデータ構造生成器130は、MCUグラフデータ構造を生成し、そして選択分子のMCUグラフを表すデータをこれに取り込む。MCUグラフデータ構造生成器130はMCUグラフデータを本システムに付随する二次メモリデバイス(図1に示さず)内に格納する。
線グラフデータ構造生成器135はMCUグラフデータ構造から第1の構成要素のMCUグラフデータを取り出す。次に、線グラフデータ構造生成器135は、選択分子の第1の構成要素の第1の線グラフを表すデータを含む第1のグラフデータ構造を生成するためにそして第1のグラフデータ構造に取り込むために切断頂点情報と一緒にこのMCUグラフデータを使用する。線グラフデータ構造生成器135はまた、MCUグラフデータ構造から第2の構成要素のMCUグラフデータを取り出す。次に、線グラフデータ構造生成器135は、選択分子の第2の構成要素の第2の線グラフを表すデータを含む第2のグラフデータ構造を生成するためにそして第2のグラフデータ構造に取り込むために切断頂点情報と一緒にこのMCUグラフデータを使用する。切断頂点は選択分子の第1の構成要素と第2の構成要素との間の境界である。
次に、グラフトラバースモジュール140は、第1のグラフデータ構造内の第1の線グラフデータにより表される第1の線グラフから導出され得る第1の誘導連結サブグラフのすべてを表す第1の誘導連結サブグラフデータ142を生成しメモリ内に格納するために第1のグラフデータ構造内のデータをトラバースするために、好適なグラフトラバースアルゴリズムを使用する。グラフトラバースモジュール140はまた、第2のグラフデータ構造内の第2の線グラフデータにより表される第2の線グラフから導出され得る第2の誘導連結サブグラフのすべてを表す第2の誘導連結サブグラフデータ144を生成しメモリ内に格納するために第2のグラフデータ構造内のデータをトラバースするためにこのグラフトラバースアルゴリズムを使用する。サブグラフデータベース生成器145は、複数の誘導連結サブグラフ(ICS)記録を含む第1のサブグラフデータベース150を構築しこれに取り込むために、第1の誘導連結サブグラフデータ142、第2の誘導連結サブグラフデータ144及び選択分子データ(特に分子量)を取り出す。各ICS記録は、少なくとも誘導連結サブグラフの頂点データが取り込まれる頂点データフィールド、誘導連結サブグラフの辺データが取り込まれる辺データフィールド、誘導連結サブグラフの分子量が取り込まれる分子量フィールド、並びに選択分子を各ICS記録内の頂点フィールド、辺フィールド及び分子量フィールド内に格納された値によりに表される下部構造へ変換するために必要とされる生体変換(以下に定義される)の数を表す値が取り込まれる生体変換カウントフィールドを含む。サブグラフデータベース生成器145は、エンドユーザにより供給される選択分子データ内のMCUの分子量に基づき各誘導連結サブグラフの分子量を計算する。図1に示すように、生体変換カウントはサブグラフデータベース生成器145に付随する生体変換プロセッサ149により計算され得、生体変換プロセッサ149は、図3に描写されるとともに以下にさらに詳細に説明されるアルゴリズムなどの生体変換カウントアルゴリズムを行うように構成される。図5は本発明のいくつかの実施形態によるサブグラフデータベース150内に格納され得る例示的誘導連結サブグラフ(ICS)記録を示す。
サブグラフデータベース150が構築され、二次メモリ(何百万の記録を含み得る)内に格納された後、第2のユーザは、所与の照会分子量(又は所与の範囲の分子量)に基づきサブグラフデータベース150を検索するために第2のエンドユーザコンピュータシステム160及びユーザインターフェース165を使用し得る。照会分子量(又は、一定範囲の分子量)は、照会分子量に等しい又は指定範囲の分子量内に入る分子量を有する記録のすべての記録の頂点データ及び辺データを本システムにサブグラフデータベース150から取り出させる検索エンジン170へ渡される。検索エンジン170はまた、選択分子の切断頂点を跨ぐあらゆるICSの頂点データ及び辺データを識別し取り出すために修正照会分子量及び調整照会分子量を計算するとともにバイナリサーチをサブグラフデータベース150に対し実行するように、以下に詳細に説明される図16に示すアルゴリズムに従って動作する。視覚化器175は検索において発見された誘導連結サブグラフのグラフィック表現を生成するために頂点データ及び辺データを使用し、グラフィック表現は、ユーザインターフェース165を介し、第2のユーザにより操作されるディスプレイデバイス162へ送信される。好ましいいくつかの実施態様では、照会質量(又は範囲)に整合する2つ以上の誘導連結サブグラフが存在すれば、視覚化器175及びユーザインターフェース165は、それぞれの生体変換フィールド内の値に従って、整合誘導連結サブグラフをランク付けしそして整合誘導連結サブグラフをランク順で表示するように動作する。第1のエンドユーザコンピュータシステム及び第2のエンドユーザコンピュータシステムは、いくつかの実施形態では、同じコンピュータシステムを含み得、そして第1のエンドユーザ及び第2のエンドユーザは同じユーザであり得るということに留意すべきである。換言すれば、本システムは、同じコンピュータシステムがサ本システムのブグラフデータベース生成機能とサブグラフデータベース検索機能との両方を開始するために使用されるように構成され得る。
図2は本発明の別の実施形態におけるデータの流れを一例として示す高レベル全体流れ図を示し、ここで、様々なタイプのグラフを表すデータ構造は隣接行列である。図2に示すように、全体データ流れは、「頂点対頂点」(V2V:vertex to vertex)隣接行列生成器モジュール230がV2Vグラフデータを生成し格納するために選択分子データを使用し、「辺対辺」(E2E:edge-to-edge)グラフ隣接行列生成器235がE2Eグラフデータを生成し格納するためにV2Vグラフデータを使用し、「辺対頂点」(E2V:edge-to-vertex)グラフ隣接行列生成器237がE2Vグラフデータを生成し格納するためにV2Vグラフデータを使用するということを除いて図1に示すシステム内の全体データ流れとほぼ同じである。
図3は辺配列データにより表されるとともにシステムにより生成される誘導連結サブグラフの各誘導連結サブグラフに関連する生体変換カウントを計算しICSデータベース内に格納するためのアルゴリズムを一例として示す高レベル流れ図を示す。本開示の目的のために、「生体変換」は2つのMCU間の共有結合の破壊として定義される。
しばしば、複数の代謝物は、検索照会内に規定された公差範囲(例えば所与の検索質量を中心とする±5ppm以内の範囲、±2ppm内の±4ppm以内の範囲、又は他のある制限された範囲)に依存して検索内の所与の照会質量に整合することになる。このような場合、選択分子から生成される可能性がより高い代謝物が検索結果内の戻された代謝物のリストの最上位に表示される(すなわち、選択分子から生成される可能性がより低い代謝物を表示する前に表示される)ように、検索において戻される代謝物のリストをフィルタリングする(又は、少なくとも優先順位付けする)ことがしばしば効率的であり且つ望ましい。代謝物は通常、酵素的に生成されるので、そして酵素は通常、一度に1つの結合を加水分解するので、代謝物が人体内又は実験室内で生成されるかにかかわらず、選択分子内の最小数の結合を破壊することにより生成され得る代謝物もまた当該の選択分子から生成される可能性が最も高い代謝物であるということを仮定することが合理的である。同様な連続的断片化処理が気相断片化中に発生する。1つの結合が一度に壊れ、最も弱い結合が最初に破壊し、次の最も弱い結合の破壊が続く、等々である。
したがって、本発明のいくつかの実施形態と特にサブグラフデータベース生成器は、ICSデータベース内に表される誘導連結サブグラフ(すなわち代謝物)毎に、選択分子を当該の特定代謝物へ変換するために必要とされる生体変換(又は壊れた共有結合)の数をカウントしICSデータベース内に格納するように構成された生体変換プロセッサ(一組のコンピュータプログラム命令など)を含み得る。加えて、検索エンジンは、検索結果内の代謝物を取り出しランク順に表示するために、照会質量と共に、格納された生体変換カウントを使用するように適切に構成され、より低い生体変換カウント値を有する代謝物は最も高い生体変換カウント値を有する代謝物より高くランク付けされる。いくつかの実施形態では、本システムはまた、規定最大数の生体変換より多い生体変換を必要とする代謝物が検索結果からフィルタリングされユーザのディスプレイデバイス上に提示されないように、検索結果をフィルタリングするように構成され得る。
例えば、選択分子は直鎖ペプチドAN-T-G-F-AN-G-Gであり、照会質量に整合する代謝物の1つはAN-T-G-Fであり、照会質量に整合する代謝物の別の1つはT-G-F-ANである。明らかに、選択分子からAN-T-G-F代謝物を取得するためには単一の破壊された結合を必要とし、一方、T-G-F-AN代謝物を取得するためには2つの破壊された結合を必要とする。この状況では、検索照会モジュールのユーザインターフェースはAN-T-G-F代謝物をT-G-F-AN代謝物より高くランク付けするだろう。
本発明のいくつかの実施形態は、選択分子から生成され得るあらゆる下部構造を表すICS記録を含むICSデータベースを生成するように構成される。各ICS記録は少なくとも1つの頂点配列、辺配列及び生体変換カウントフィールドを含む。したがって、図3に示すように、ICSデータベース内に表される各下部構造の生体変換の数をカウントし格納するための1つのアルゴリズムは次のように進むだろう:
工程305-ICSデータベース内の第1のICS記録を選択する、
工程310-選択されたICS記録内の辺配列を識別する、
工程315-辺配列内のすべての0を識別することにより喪失辺を識別する、
工程320-その初期値を零に設定することにより、選択されたICS記録の生体変換カウントフィールドを初期化する、
工程325-辺配列内の喪失辺毎に、喪失辺が下部構造内の少なくとも1つの頂点に隣接すれば、生体変換カウントフィールド内の値を1だけ増分する、
工程330-ICSデータベース内の次のICS記録を選択する、及び
工程335-生体変換カウント値が計算されICSデータベース内のあらゆるICS記録内に格納されてしまうまで工程310~330を繰り返す。
本明細書において論述されるように、選択分子の構造が切断頂点により分離された2つの単量体(単量体A及び単量体B)を含むケースが存在することになる切断頂点を跨ぐこのような選択分子の下部構造又は代謝物に関し、生体変換の数は、選択分子を単量体Aに変換するために必要とされる生体変換の数と選択分子を単量体Bに変換するために必要とされる生体変換の数との合計である。
次に、このアルゴリズムに従って生体変換カウントフィールド内に格納された値は、生成される可能性が最も高い下部構造がエンドユーザへ列挙又は表示されるただ一つの下部構造であるように、又は生成される可能性が最も高い下部構造がリストの最上位に(すなわち生成される可能性が最も低い下部構造の前に)列挙又は表示されるように検索結果をランク付け及び/又はフィルタリングするために本発明のいくつかの実施形態により使用され得る。
図4は本発明の例示的実施形態に従って動作するように構成された錯体分子下部構造識別システム405のアーキテクチャを一例として示す高レベルブロック図を示す。錯体分子下部構造識別システム405は、汎用又は特殊コンピュータシステム(例えばパーソナルコンピュータシステム、ノートブックコンピュータ、ラップトップ又はハンドヘルドコンピューターシステム、タブレット、インターネット使用可能スマートフォン又は携帯情報端末コンピュータデバイス、又はこれらのもののうちの1つ又は複数の任意の組み合わせを含む)上で実現され得る。通常、錯体分子下部構造識別システム405は、中央処理ユニット(CPU)又はマイクロプロセッサ425、一次メモリ410(ランダムアクセスメモリ(又はRAM)とも呼ばれる)及び不揮発性二次メモリ格納領域420(例えばハードドライブ、フラッシュドライブ又はCD-ROMドライブ)を含む。図4に示すように、錯体分子下部構造識別システム405はまた、他のコンピュータシステム、プリンタなどの周辺装置、及び/又はデータ通信ネットワークとのデータ通信を提供するために例えば有線イーサーネットローカルエリアネットワークアダプタ、802.11、a/g/n WiFiアダプタ、ユニバーサルシリアルバス(USB)アダプタ、及び/又はブルートゥース無線データ通信アダプタなどのネットワークインターフェース430を含み得る。アプリケーションプログラム412を含むコードなどのプログラムコード及び選択分子データ485などのプログラムデータは、不揮発性二次格納領域420から一次メモリ410へロード(すなわちRAM内へロード)され、そして、実行のためにマイクロプロセッサ425へ提供され得る。アプリケーションプログラム412の制御下で動作することにより、マイクロプロセッサ425は、結果を生成し、そして他のコンピュータシステム、他のコンピュータプログラム、及び/又は他のデータ通信ネットワークへのその後のアクセス、表示、出力及び/又は送信のために二次メモリ格納領域420内に格納し得る。
アプリケーションプログラム412内のソフトウェアモジュールの制御下でマイクロプロセッサ425により行われた下部構造識別子処理の結果は、アプリケーションプログラム412内のユーザインターフェースモジュール460の制御下で動作する1つ又は複数のエンドユーザ入力デバイス495(例えばキーボード、マウス、スタイラス、タッチスクリーンなど)及び1つ又は複数のエンドユーザ出力デバイス498(例えばディスプレイデバイス、プリンタ、タブレットディスプレイ画面又はスマートフォンディスプレイ画面など)を介し錯体分子下部構造識別システム405と相互作用する人間ユーザにより必要に応じ視認、ナビゲート、及び修正され得るように、二次メモリ格納領域420内に格納される。二次メモリ格納領域420及びそれが含むデータは、図4に示すようにマイクロプロセッサ425、一次メモリ410、アプリケーションプログラム412、及びソフトウェアモジュール435、440、445、450、455、460、465、470、475、480と同じ物理的マシン内へ組み込まれ得る。しかし、二次メモリ格納領域420内に示されるデータ及び/又はデータベースのいくつか又はすべてはまた、請求される発明の範囲から逸脱することなく分散配置の別個のコンピュータシステム上に存在し得る。
ネットワークインターフェース430は、処理されるべき追加入力データ(図4に示さず)並びに処理を行うために有用又は必要と思われる複数の電子ファイル及び文書を含む又は生成するリモートサーバ及びマシン(例えば質量分光デバイス)に対する接続を確立するために採用され得る。ネットワークインターフェース430はまた、本発明の錯体分子下部構造識別システム405にアクセスしそれを使用したい他の人間ユーザにより操作されるリモート端末及びリモートコンピュータシステム(図示せず)へ接続を提供し得る。
一次メモリ410は、限定しないが、1つ又は複数のローカル若しくはリモート、固定若しくは着脱可能、恒久的若しくは一時的、磁気的若しくは光学的ランダムアクセスメモリ(RAM)領域、キャッシュメモリ領域、又はディスクドライブを含み得、本明細書において説明される錯体分子の下部構造を識別する方法を行うためにマイクロプロセッサ425の機能を制御するための複数のプログラムモジュールを含む。これらのモジュールの各モジュールは、従来のプログラミング言語でソースコードとして書かれたコンピュータソフトウエアプログラム、手順、又は処理を含み得、マイクロプロセッサ425による実行のために提示され得る。ソースコード並びにオブジェクト及びバイトコードの様々な実施形態が、コンピュータ可読ストレージ媒体(DVD、CDROM、フロッピーディスク又はメモリカードなど)上に格納され、伝送媒体又は搬送波上で具現化され得る。
アプリケーションプログラム412は以下に論述される一群のコンピュータソフトウエアプログラムモジュール435、440、445、450、455、460、465、470、475、480を含む。各コンピュータソフトウエアプログラムモジュールは、様々なタイプの入力データ(選択分子データ485など)を受信するために、そして本明細書において説明される識別子処理に関連するMCUグラフ、線グラフ、誘導連結サブグラフ、下部構造視覚化、生体変換データ、辺データ及び頂点データを生成、格納、送信、及び表示するために以下に説明されるアルゴリズムを実行するために、必要に応じマイクロプロセッサ425に多様な特定タスクを行わすプログラム命令を含む。これらのソフトウェアモジュールは、柔軟であり、そして限定しないが化学構造図ファイル、画像及び他の電子文書、グラフ、レイアウト及びスキーマを含む多種多様なタイプの入力及び出力を受信、処理、及び出力するように構成され得る。次に、アプリケーションプログラム412内のコンピューターソフトウェアモジュール435、440、445、450、455、460、465、470、475、480の各コンピューターソフトウェアモジュールの目的及び機能について以下にさらに詳細に説明する。
アプリケーションプログラム412は、入力モジュール435、MCUグラフデータ構造生成器モジュール440、線グラフデータ構造生成器モジュール445、グラフトラバースモジュール450、サブグラフデータベース生成器モジュール455、ユーザインターフェースモジュール460、検索エンジンモジュール465、視覚化器モジュール470、生体変換演算処理モジュール475、及び1つ又は複数の追加データ処理モジュール480を含む。入力モジュール435は、マイクロプロセッサ425により実行されると(A)選択分子の一組の規定最小切断可能ユニット、(B)選択分子内の一組の規定最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、及び(D)選択された分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データ485をマイクロプロセッサ425に受信させ二次メモリ格納領域420内に格納させるプログラム命令を含む。入力モジュール435はまた、マイクロプロセッサ425により実行されると選択分子の化学線図で表されるデータをマイクロプロセッサ425に受信、走査、解析及び/又は格納させるプログラム命令を含み得、化学線図は、(A)選択分子の最小切断可能ユニット、(B)選択分子の各最小切断可能ユニットの分子量、及び(C)選択分子の最小切断可能ユニットを接続する結合のタイプを識別する注釈を含む。
MCUグラフデータ構造生成器440は、マイクロプロセッサ425により実行されると、マイクロプロセッサ425にMCUグラフデータ構造(その例は図9Dに示される)を生成させ、それに選択分子のMCUグラフを表すデータを取り込ませるプログラム命令を含む。MCUグラフデータ構造生成器440は通常、MCUグラフデータを二次メモリ格納領域420内に、又は錯体分子下部構造識別システム405へ接続される又はそれへ関連付けられる他のメモリ格納領域(図4に示さず)内に格納することになる。線グラフデータ構造生成器445はMCUグラフデータ構造からMCUグラフデータを取り出す。次に線グラフデータ構造生成器445は、線グラフデータ構造を生成するために、そして線グラフデータ構造に取り込むためにMCUグラフデータを使用する。線グラフデータ構造はまた、二次メモリ格納領域420内に、又は錯体分子下部構造識別システム405へ接続される又はそれへ関連付けられる他のメモリ格納領域(図4に示さず)内に格納される。
グラフトラバースモジュール450は、マイクロプロセッサ424により実行されると、線グラフデータ構造の線グラフデータにより表される線グラフから導出され得る誘導連結サブグラフのすべてを表す誘導連結サブグラフデータ147を生成するために線グラフデータ構造内のデータをトラバースするために、好適なグラフトラバースアルゴリズムをマイクロプロセッサ425に実行させるプログラム命令を含む。サブグラフデータベース生成器455は、二次メモリ格納領域420内に格納されるサブグラフデータベース490を構築しこれを取り込むために誘導連結サブグラフデータ147及び選択分子データ485(特に分子量)を使用する。図4に示すように、サブグラフデータベース490は複数のICS記録を含む、各ICS記録は、少なくとも、誘導連結サブグラフの頂点データを有する1つの頂点データフィールド、誘導連結サブグラフの辺データを有する辺データフィールド、誘導連結サブグラフの分子量が取り込まれる分子量フィールド、並びに選択分子を各ICS記録内の頂点フィールド、辺フィールド及び分子量フィールド内に格納された値により表される下部構造へ変換するために必要とされる生体変換の数(上に定義された)を表す値が取り込まれる生体変換カウントフィールドを含む。サブグラフデータベース生成器455は、エンドユーザにより供給される選択分子データ485内のMCUの分子量に基づき各誘導連結サブグラフの分子量を計算する。生体変換プロセッサ475は図3に示され上に詳細に説明されたアルゴリズムに従って各誘導連結サブグラフの生体変換を判断する。
サブグラフデータベース490が、第1のユーザにより活性化されたアプリケーションプログラム412の実行により構築された後、第2のユーザ(又は第1のユーザ)は、所与の照会分子量(又は所与の範囲の分子量)に基づきサブグラフデータベース490を検索するためにユーザインターフェースモジュール460を活性化するために1つ又は複数のエンドユーザ入力デバイス495を操作し得る。照会分子量(又は一定の範囲の重み付け)は検索エンジン465へ渡され、検索エンジン465は、照会分子量に等しい又は指定範囲の分子量内に入る分子量を有する記録のすべての記録の頂点データ及び辺データをシステムにサブグラフデータベース490から取り出させる。したがって、ユーザインターフェースモジュール460及び検索エンジンモジュール465は併せて、マイクロプロセッサ425により実行されると、(i)エンドユーザから照会分子量を受信し、(ii)照会分子量に整合する全分子量を分子量フィールド内に有するICS記録を識別するために照会分子量に基づきサブグラフデータベース490を検索し、(iii)識別されたICS記録の頂点データフィールド内の頂点値及び辺データフィールド内の辺値をエンドユーザにより操作されるエンドユーザ出力デバイス498(例えばディスプレイモニタ)上の提示のためにユーザインターフェース460へ送信することをマイクロプロセッサ425にさせるプログラム命令を含む。
視覚化器モジュール470は、マイクロプロセッサ425により実行されると、第2のユーザにより操作されるエンドユーザ出力装置498へユーザインターフェース460を介し送信される識別された誘導連結サブグラフのグラフィック表現を生成するためにサブグラフデータベース490内の識別されたICS記録の頂点データ及び辺データを使用することをマイクロプロセッサ425にさせるプログラム命令を含む。好ましいいくつかの実施態様では、照会質量(又は範囲)に整合する2つ以上の誘導連結サブグラフが存在すれば、視覚化器モジュール470及びユーザインターフェース460内のプログラム命令は、それぞれの生体変換フィールド内の値に従って、整合誘導連結サブグラフをランク付けするように、そして整合誘導連結サブグラフをランク順でエンドユーザ出力デバイス498上に表示するように動作する。
追加データ処理モジュール480は例えば、ICS記録を生成し、編成し、これをサブグラフデータベース490へ格納することとそれから取り出すこととを容易にする例えばデータベース管理プログラム(図示せず)を含み得る。Oracle Corporation, Redwood Shores, Californiaにより提供されるようなフラットファイルシステム、階層型データベース、リレーショナルデータベース又は分散型データベースを含む任意のタイプのデータベース管理プログラムが利用され得る。
いくつかの実施形態では、錯体分子下部構造識別システム405は、Internet及びWorld Wide Webを含み得るデータ通信ネットワーク(図示せず)上でInternet Explorerなどの標準的ウェブブラウザを使用することによりクライアントコンピュータデバイスと通信するように構成されたサーバとして働くことができる。このような実施形態では、錯体分子下部構造識別システム405は、Microsoft Corporation, Redmond, Washingtonから入手可能な例えばInternet Information Services(IIS)を含む多くの利用可能ウェブサーバアプリケーション又はプログラムのうちの任意の1つを使用することにより実現され得る。
図5は本発明のいくつかの実施形態によるICSデータベース内に格納され得る例示的誘導連結サブグラフ(ICS)記録を示す。図5に示すように、二次メモリ格納領域420のサブグラフデータベース490内の各ICS記録は、選択分子の各誘導連結サブグラフに関連する複数の異なるデータフィールドを含み得る。複数の異なるデータフィールドは限定しないが、各誘導連結サブグラフの規定識別子を格納するための分子識別子フィールド505、各誘導連結サブグラフの規定識別子を格納するための下部構造識別子フィールド510、各誘導連結サブグラフの頂点データ及び辺データを格納するための誘導連結サブグラフフィールド515(通常は一組の配列)、誘導連結サブグラフの全分子量を格納するための分子量フィールド520、各誘導連結サブグラフの生体変換カウントを格納するための生体変換カウントフィールド525、基本組成データを格納するための基本組成フィールド530、及び誘導連結サブグラフの各誘導連結サブグラフに関連する他の特性を格納するための1つ又は複数の他のフィールド535を含む。
図6は、選択分子の代謝物を識別する機能を行うために一次メモリ410内に格納されマイクロプロセッサ425により実行され得る処理又はコンピュータプログラムの工程又は機能を表す。
本開示の目的及び利便性のために、図6に示す処理は、選択分子の代謝物を識別するために選択分子のグラフィック表現のデータ構造を利用する本発明のシステムの動作の第1段階と見做され得る。一般的に、図6は選択分子のMCUグラフ及び線グラフのデータ構造が生成される処理を示す。線グラフデータ構造は、選択分子の下部構造を表す誘導連結サブグラフのデータ構造に取り込むために必要なデータを識別するためにグラフトラバースアルゴリズムを使用することによりトラバースされる。
図6に示す処理の工程が本開示において説明される際、例示的選択分子に関する工程の結果が示される図7~15が参照されることになる。
ここで図6に移ると、本発明の下部構造識別子処理600は、その結果が選択分子の網羅的な一組の下部構造を提供する多くの工程を含む。工程605において、本システムは選択分子データを含む選択分子の表現を受信する。選択分子データは、選択分子内の最小切断可能ユニット、選択分子内の最小切断可能ユニットを接続する結合、各最小切断可能ユニットの分子量、及び選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを含む。選択分子の表現はMCUグラフの形式であり得る。
本発明の代替実施態様では、本処理の第1の工程において、選択分子の受信された表現は、MCUグラフではなく、むしろ選択分子の構造、化学式、図、又は他の好適な表現を含む化学線図ファイルである。この場合、本システムは、工程615において、分子の化学構造及びユーザ定義MCUに基づき又は選択分子データに基づき選択分子のMCUグラフ及び対応MCUグラフデータ構造を生成する。
MCUグラフ隣接行列は行列生成器モジュールにより生成され得る。MCUグラフは、分子のChemDrawファイル、化学表ファイル又はHELM表現(Hierarchical Editing Language for Compl)などの化学線図ファイルから生成され得る。化学線図ファイルはまた、簡略化分子入力行エントリシステム(SMILES:simplified molecular-input line-entry system)を使用することにより生成され得る。
図7に示すように、仮想選択分子のMCUグラフは以下のように生成され得る:工程705において、頂点を選択分子の各最小切断可能ユニットへ割り当てる。工程710において、識別子又は値を各頂点へ割り当てる。この値は例えば数値であり得る。図9Aに示すように、仮想選択分子は11個の頂点を有する。頂点は数値1、2、3、4、5、10、11、12、13、15を割り当てられる。1つの頂点は文字「Q」により表される。工程715において、選択分子のMCUを接続する各結合の辺を追加する。仮想選択分子のMCUグラフの辺は頂点を接続する黒線により表される。例示的MCUグラフが図9Aに示される。
図6に戻ると、工程610において、ユーザは選択分子内の切断頂点又は切断頂点を定義する。この場合、仮想分子の切断頂点は頂点「Q」として指定される。以前に述太ように、連結グラフの切断頂点は、その除去がオリジナルグラフの少なくとも2つ(除去された切断頂点自体はカウントしない)の連結構成要素を生じる頂点である。このシナリオでは、図9Aに説明される構造からの切断頂点Qの除去は、単量体A及び単量体Bと好適に呼ばれ得る選択分子の2つの下部構成要素を生じる。図9Aに描写されるように単量体Aは辺により接続された頂点1~5により表され、単量体Bは辺により接続された頂点10~14により表される。選択分子をその構成要素又は下部構成要素へ分離することは、分子の下部構造の包括的プールの識別を容易にし、そして非常に多くの下部構造を有する分子に特に有用である。
工程615において、本システムは選択分子の構成要素(この場合は単量体A及び単量体B)の各構成要素のMCUグラフデータ構造を生成する。本システムにより生成されるMCUグラフデータ構造は好適には隣接行列又は隣接リストである。図9Aに表される仮想選択分子の例示的MCUグラフ隣接行列が図9Bに記載される。MCUグラフの隣接行列は「頂点対頂点」行列(V2V)である。「頂点対頂点」行列は、本発明の例示的実施形態ではn基本構成要素又はn最小切断可能ユニットの選択分子のn×n行列として構成されるデータ構造を含む。行列内の各スロットは、2つの頂点が互いに接続されていれば又は隣接していれば1の数値を含み、2つの頂点の間に隣接性がなければ0の数値を含む。仮想選択分子の単量体AのV2V行列の行及び列の両方は対応単量体A MCUグラフ内に存在する5つの頂点を表すために1~5で標記される。一例として、図9Bに示すように、頂点1及び頂点2は行列の行1内及び列2内の「1」より表されるように、隣接している。一方で、頂点1及び5は行列の行1内及び列5内に記載の「0」より表されるように、隣接していない。同様に、単量体BのMCUグラフにおいて、頂点10及び頂点10は、単量体1隣接行列の行10内及び列11内の「1」より表されるように、接続されており、そして頂点11及び頂点14は接続されておらず、したがって単量体2を表す隣接行列内に「0」が割り当てられる。
工程620において、本システムはMCUグラフデータ構造から線グラフデータ構造(「結合グラフデータ構造」又は「辺グラフデータ構造」としても知られる)を生成する。理解を容易にするために、仮想選択分子MCUグラフ隣接行列の単量体A及び単量体Bに対応する線グラフが図9Cに描写される。一般的に、線グラフ符号化処理は、(i)線グラフの各頂点が選択分子のMCU間の共有結合を表すようにそして(ii)線グラフの2つの頂点は対応共有結合がMCUグラフ内の同じMCUから起これば辺により接続されるようにされる。
図8の流れ図により示されるように、線グラフを生成するためのアルゴリズムは次のように進む:工程805において、線グラフの頂点は、各辺により接続された終点に基づき、選択された仮想分子のMCUグラフ内の辺から構築される。線グラフの各頂点は、対応MCUグラフの頂点へ割り当てられた値に基づき一意的指標(例えば数値)が割り当てられる。線グラフの頂点はMCUの辺に対応する。例えば、仮想選択分子の単量体Aの線グラフに関して、図9Cの頂点Aは図9Aの単量体A MCUグラフの頂点1、2を接続する辺に対応し、頂点Bは図9Aの単量体A MCUグラフの頂点1、3を接続する辺に対応し、図9Cの頂点Cは図9Aの単量体A MCUグラフの頂点1、4を接続する辺に対応し、図9Cの頂点Dは図9Aの単量体A MCUグラフの頂点2、5を接続する辺に対応する。図9Cの頂点Eは図9Aの単量体A MCUグラフの頂点4、3を接続する辺に対応し、図9Cの頂点Fは図9Aの単量体A MCUグラフの頂点4及び5を接続する辺に対応する。
本発明のシステムにより生成される線グラフデータ構造は好適には線グラフ隣接行列又は隣接リストである。本発明の一実施形態では、線グラフデータ構造はコンピュータコード(線グラフ行列生成器モジュール、「辺対頂点」(E2V)行列生成器モジュールなど)により自動的に生成される。
通常、線グラフの2つのタイプの隣接行列(すなわち「辺対辺」(E2E)行列及び「辺対頂点」(E2V)行列)がある。行列毎に、0,1表記法が、選択分子の構成要素間の接続(「1」で指定される)又はその欠如(「0」で指定される)を記述するために使用され得る。0,1表記法は行列に関して使用され得る例示的表記法である。選択分子の構成要素間の接続の存在と欠如とを区別することを許容するいかなる表記法も好適である。
「辺対辺」行列は、本発明の例示的実施形態ではn基本構成要素又はn最小切断可能ユニットの選択分子のn×n行列として構成されるデータ構造を含む。行列内の各スロットは、辺E1及び辺E2が隣接すれば1の数値をそして2つの間に隣接性がなければ0(零)の数値を含む。
「辺対頂点」行列は、本発明の例示的実施形態ではn基本構成要素又はn最小切断可能ユニットの選択分子のn×n行列として構成されるデータ構造を含む。行列内の各スロットは辺及び所与の頂点が隣接すれば1の数値をそして2つの間に隣接性がなければ0(零)の数値を含む。
図9Aに表される仮想選択分子の単量体A及び単量体BのMCUグラフ及びMCUグラフデータ構造に対応する例示的線グラフ隣接行列(E2E)が図9Dに記載される。
工程625において、本システムは、単量体A及び単量体Bの線グラフの誘導連結サブグラフを生成し格納するために選択分子の構成要素の線グラフデータ構造(この場合単量体A及び単量体BのE2E、E2Vの行列)をトラバースするために、マイクロプロセッサ425により実行されるとマイクロプロセッサ425にグラフトラバースアルゴリズムの工程を行わせるプログラム命令を含むグラフトラバースプログラム(又はサブルーチン)を使用する。
本発明の一実施形態では、グラフィック検索は深さ優先検索である。本処理は次のように進む:最初に、線グラフデータ構造の個々の頂点が接続構成要素として追加される。次に、任意の接続構成要素に関して、(i)その頂点指標はその構成頂点の最小指標として定義され、(ii)その隣接頂点が識別され、(iii)現在の接続構成要素と現在の接続構成要素の指標を越える指標を有するその隣接頂点の各隣接頂点との和集合として定義される新しい接続構成要素が接続構成要素のリストへ追加され、(iv)検索(線グラフ隣接行列をトラバースする)はすべての接続構成要素が列挙されてしまうまで帰納的に進む。無限ループの無いことは非減少頂点指標の方向の検索の特定方向により保証される。
接続構成要素(誘導連結サブグラフ)が列挙されると、本システムは、工程630において、誘導連結サブグラフ記録(ICS記録)を生成し二次メモリ格納領域420内のサブグラフデータベース490内に格納する。好適には、しかし必ずしもではないが、選択分子の構成要素の各構成要素のICS記録は様々なサブグラフデータベース内に格納される。例えば、単量体AのICS記録は第1のサブグラフデータベース内に格納され得、単量体2のICS記録は第2のサブグラフデータベース内に格納され得る。各ICS記録は分子量フィールド、頂点データフィールド及び辺データフィールドを含む。図17A、17Bは、本発明のいくつかの実施形態に従って生成される選択分子(合成二量体のペプチドである)の単量体Aの例示的ICS記録を提供する。
工程635において、本システムは、各誘導連結サブグラフに対応する全分子量を計算し、この分子量をICSデータベース内のICS記録の分子量フィールド内に格納する。工程630、635の完了時、すべての誘導連結サブグラフが列挙され格納されており、そして対応分子量は計算されており、好適には1つ又は複数のサブグラフデータベース内に格納される。これで、本発明の代謝物識別処理の第1段階(サブグラフデータベース構築段階と呼ばれ得る)を完了する。
図10はヘテロ二量体合成ペプチドである選択分子の化学構造を示す。図11は図10に示す選択されたヘテロ二量体合成ペプチドを表すMCUグラフである。頂点Zは分子内の選択された切断頂点を表す。他の頂点を表すアミノ酸は丸で囲まれた単一文字略称により描写される。この場合、選択された二量体ペプチドのMCUはアミノ酸として選択される。したがって、アミノ酸レベルを越える切断は許容されない。図10に示すように、選択分子の単量体A内には12個のアミノ酸(丸で囲まれた文字により表される)がありしたがって単量体A MCUグラフ内には12個の頂点がある。MCUグラフは、接続された円によりそして頂点を接続する太黒線により描写される13個の辺を含む。
図12A及び図12Bはそれぞれ、本発明の一実施形態に従って生成される図11のヘテロ二量体合成ペプチドの単量体Aの線グラフ及びその対応隣接行列を示す。線グラフの頂点は、円として表され、1~14に番号付けされる。理解を容易にするために、頂点は単一文字アミノ酸と単量体AのMCUグラフの所与の辺の終点を表すペプチド内の位置とを含む。
単量体Aの対応E2V行列データ構造は図14に記載される。E2V行列において、辺は行1~14として表され、頂点は列1~13として表される。
図14A、14Bはそれぞれ、本発明の一実施形態に従って生成される図11のヘテロ二量体合成ペプチドの単量体Bの線グラフ及びその対応隣接行列を示す。線グラフの頂点は、円として表され、1~14に番号付けされる。理解を容易にするために、頂点は単一文字アミノ酸と単量体AのMCUグラフの所与の辺の終点を表すペプチド内の位置とを含む。単量体Aの対応E2V行列データ構造は図15に記載される。E2V行列において、辺は行1~14として表され、頂点は列1~14として表される。
図17A、17Bは、分子量フィールド、頂点配列フィールド及び辺配列フィールドを含む本発明の一実施形態に従って生成されたサブグラフデータベース内に格納された選択された合成ヘテロ二量体分子の単量体Aの例示的ICS記録を示す。ICS記録は選択された合成ヘテロ二量体ペプチドの線グラフの誘導連結サブグラフを表す。図15の行4、5に示すように、ICS記録のうちの2つは、同じ分子量であるが頂点データフィールド内の異なる頂点値及び辺データフィールド内の異なる辺値を示す。本発明は、同じ分子量を有するICS(そしてしたがって選択分子の下部構造)をユーザが区別することを許容する。
図18A、18Bは、分子量フィールド、頂点配列フィールド及び辺配列フィールドを含む本発明の一実施形態に従って生成されたサブグラフデータベース内に格納された選択された合成ヘテロ二量体分子の単量体Bの例示的ICS記録を示す。ICS記録は選択された合成ヘテロ二量体ペプチドの線グラフの誘導連結サブグラフを表す。
図16は本発明の一実施形態による検索処理(本発明の動作の第1段階と非同期的に行われ得る)の流れ図を示す。本処理は、動作の第1段階において生成された格納された誘導連結サブグラフ記録のデータベース又はデータベース群を利用する。工程1605において、本システムは照会分子量を受信する。工程1610、1620において、本システムは、照会分子量に整合する分子量フィールド値を有する誘導連結サブグラフ記録(すなわち、照会分子量の指定範囲、好適には照会分子量の±5ppm以内、より好適には照会分子量の±4ppm以内、そしてより好適には照会分子量の±2ppm以内に入る分子量フィールド内の分子量を有する記録)を識別するために照会分子量を使用して、工程630、635において生成された、格納された誘導連結サブグラフ記録のデータベースを検索する。いくつかの実施形態では、誘導連結サブグラフ記録の検索は、マイクロプロセッサ425により実行されると、選択分子の構成要素のICS記録が生成されサブグラフデータベース490内に格納される本発明の動作の初期実行段階中にサブグラフデータベース内に格納されたICS記録からデータを検索し、取り出すことをマイクロプロセッサ425にさせるプログラム命令を含む検索エンジンモジュール(すなわちコンピュータプログラム)により行われ得る。照会分子量は通常、選択分子の下部構造の実験的に観測された又は既知の分子量である。照会分子量は質量分光分析及び特に差分質量分光分析などの技術を使用して生成され得る。
工程1615、1625において、本システムは、識別された誘導連結サブグラフ記録の頂点データフィールドから頂点値をそして辺データフィールドから辺値をサブグラフデータベース内に格納する。本システムは任意選択的にこの情報をユーザへ表示し得る。表示工程は、識別されたICS記録から頂点値及び辺値を、エンドユーザにより操作されるディスプレイデバイス上の提示のためにユーザインターフェースへ送信することにより達成される。
本発明の追加実施形態において、本システムは、線グラフの誘起連結サブグラフのグラフィック表現を生成しコンピュータシステムのメモリ内に格納するために、そしてこのグラフィック表現をコンピュータシステムのメモリから、エンドユーザにより操作されるディスプレイデバイスへ送信するために、頂点データフィールド内の頂点値、辺データフィールド内の辺値、及び選択分子データを使用し得る。図16の工程1660を参照。グラフィック表現は誘導連結サブグラフ記録により表される下部構造のMCUグラフ又は化学構造線図であり得る。工程1660において説明されたグラフィック表現を表示することはユーザがグラフィック表現を見たいかどうか又は線グラフの誘導連結サブグラフの頂点値及び辺値を受信する(又は、呈示される)ことに満足するかどうかに依存する任意選択工程であるということに留意すべきである。
工程1630において、本システムは照会分子量から切断頂点の分子量を減じることにより調整照会分子量を計算する。工程1635において、本システムは、分子量フィールド内の最も低い分子量を有するICS記録を識別するために第1のICSデータベース(選択分子の第1の構成要素のICS記録を含む)を検索する。次に、本システムは、工程1640において、調整照会分子量から第1のデータベースのICS記録の分子量フィールド内の最も低い分子量を減じることにより修正照会分子量を計算する。
工程1645において、本システムは、第1のデータベースの検索から識別されたICS記録の分子量と組み合わせられると修正照会分子量に整合する分子量を有するICSを識別するために、選択分子の第2の構成要素のICS記録を含む第2のデータベースのバイナリサーチを行う。工程1650において説明されるように、第1及び第2のデータベースからのICS記録の組み合わせられた分子量が修正照会分子量に整合すれば、本システムは、工程1655に移動し、識別されたICS記録から頂点データフィールド内の頂点値及び辺データフィールド内の辺値を、エンドユーザにより操作されるディスプレイデバイス上の提示のためにユーザインターフェースへ送信する。
本発明の追加実施形態では、本システムは、線グラフの誘起連結サブグラフのグラフィック表現を生成し、そしてこのグラフィック表現をエンドユーザにより操作されるディスプレイデバイスへ送信するために、頂点データフィールド内の頂点値、辺データフィールド内の辺値、及び選択分子データを使用し得る。図16の工程1660を参照されたい。グラフィック表現は誘導連結サブグラフ記録により表される下部構造のMCUグラフ又は化学構造線図であり得る。工程1660において説明されたグラフィック表現を表示することはユーザがグラフィック表現を見たいかどうか又は線グラフの誘導連結サブグラフの頂点値及び辺値を受信する(又は、呈示される)ことに満足するかどうかに依存する任意選択工程であるということに留意すべきである。
工程1665において、本システムは、第1のデータベース内に配置された別のICS記録があるかどうかを判断するために第1のデータベースを検索し、そうであれば、次に最も低い分子量を有するICS記録を識別するために工程1635を繰り返す。次に、この最も低い分子量は、次に第2のデータベースのバイナリサーチにおいて使用される新しい修正照会分子量を提供するために調整照会分子量から減算される。工程1635~1665は、第1のデータベース内のすべてのICS記録の分子量が第2のデータベースのバイナリサーチにおいて利用されてしまうまで繰り返される。
図17A~17Dは本発明の一実施形態に従って生成される単量体Aの例示的データベース記録である。図18A~18Dは本発明の一実施形態に従って生成される単量体Bの例示的データベース記録である。
図19A、19B、20A、20B、21A、21B、22A、22Bは、本発明の一実施形態に従って生成されそして図17A~17Dそれぞれにおいて描写されたデータベースエントリに対応する単量体Aの下部構造のMCUグラフ及び化学構造を示す。本発明のいくつかの実施形態では、視覚化器は、これらの下部構造のグラフィック表現を生成し、そしてこれらを第2のユーザのディスプレイデバイスへ送信する。
図23A、23B、24A、24B、25A、25B、26A、26Bは本発明の一実施形態に従って生成され図18A~18Dそれぞれにおいて描写されるデータベースエントリに対応する単量体Bの下部構造のMCUグラフ及び化学構造を示す。
図27A、27Bはそれぞれ、本発明の一実施形態に従って生成される選択分子の単量体Bの下部構造と組み合わせられた単量体Aの下部構造の組み合わせの化学線図及びMCUグラフを示す。
図28は、MCUグラフ隣接行列内に格納されたMCUグラフデータを下部構造データベースに取り込むための例示的MatLabコードプログラム命令を示す。図29に示すように、このコード内の関数が、MCUグラフ隣接行列データ構造E2V内に格納された入力データ及び線グラフ隣接行列データ構造J内に格納されたデータを受け取る。後者は前者から導出され得るということに留意されたい。したがって、図33に示すMatLabコードにより表されるアルゴリズムは、ICSデータベースに取り込むためにMCUグラフ隣接行列データ構造からのデータだけを必要とするように書かれ得る。
図29は図28に示す例示的コードにより行われるアルゴリズムを示す流れ図を示す。図29に示すように、サブグラフデータベースを取り込むためにグラフデータ構造をトラバースするためのアルゴリズムは以下の工程を含む:最初に、工程2905において、構造内に存在する各個々の辺を表すデータをデータベースへ追加する。次に、工程2910において、データベース内に存在する辺毎に、当該辺の娘下部構造のすべての娘下部構造をデータベースへ再帰的に追加する。次に、工程2915において、データベース内の下部構造(すなわち親下部構造)毎に、その隣下部構造を識別し、各隣下部構造を1つずつ親構造へ追加し、工程2920において、データベースへ追加するべきこれ以上の下部構造が無くなるまで工程2910、2915、2920を繰り返す。
本発明は特定例を参照して詳細に説明されたが、様々な修正が本発明の範囲から逸脱することなくなされ得るということが当業者にとって明らかになる。したがって、本発明の範囲は、本明細書で説明される例ではなく以下に提示される特許請求の範囲により制限されるべきである。

Claims (39)

  1. 選択分子の下部構造を識別するためのシステムであって、前記システムは、
    a)マイクロプロセッサ、
    b)メモリ、
    c)前記メモリ内のアプリケーションプログラムであって、前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
    i)(A)前記選択分子内の一組の最小切断可能ユニット、(B)前記選択分子内の一組の最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、(D)前記選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイル、及び(E)前記選択分子内の切断頂点であって前記切断頂点の除去は前記選択分子を第1の構成要素及び第2の構成要素へ分離する切断頂点を表す選択分子データを受信し前記メモリ内に格納すること、
    ii)前記選択分子データに基づき前記選択分子の前記第1の構成要素の第1の最小切断可能ユニットグラフデータ構造を生成し前記メモリ内に格納することであって、前記第1の最小切断可能ユニットグラフデータ構造には前記第1の構成要素の第1のMCUグラフを表す第1のMCUグラフデータが取り込まれ、前記第1のMCUグラフは複数の第1のMCUグラフ頂点及び複数の第1のMCUグラフ辺を有し、各第1のMCUグラフ頂点は前記第1の構成要素の最小切断可能ユニットに対応し、各第1のMCUグラフ辺は前記第1の構成要素内の第1の結合接続最小切断可能ユニットに対応する、前記第1の最小切断可能ユニットグラフデータ構造を生成し格納すること、
    iii)前記第1のMCUグラフデータに基づき前記選択分子の前記第1の構成要素の第1の線グラフデータ構造を生成し前記メモリ内に格納することであって、前記第1の線グラフデータ構造には前記第1のMCUグラフの第1の線グラフを表す第1の線グラフデータが取り込まれ、前記第1の線グラフは複数の第1のLG頂点及び複数の第1のLG辺を有し、各第1のLG頂点は前記第1のMCUグラフ内の第1のMCUグラフ辺に対応し、各第1のLG辺は前記第1のMCUグラフ辺により連結される前記第1のMCUグラフ内の一対の第1のMCUグラフ頂点に対応する、前記第1の構成要素の第1の線グラフデータ構造を生成し格納すること、
    iv)前記第1の線グラフの複数の第1の誘導連結サブグラフを判断するために前記選択分子の前記第1の構成要素の前記第1の線グラフデータ構造内の前記第1の線グラフデータに対してグラフトラバースアルゴリズムを実行することであって、各第1の誘導連結サブグラフは、前記第1の線グラフ内の第1のLG頂点及び第1のLG辺の第1の接続サブセットと、第1のLG頂点及び第1のLG辺の前記第1の接続サブセットの第1の物理的配置とを含み、これらは併せて、前記一組の最小切断可能ユニット及び結合の第1の接続サブセットと、前記選択分子内の前記最小切断可能ユニット及び結合の前記第1の接続サブセットの相対位置とに一意的に対応する、前記グラフトラバースアルゴリズムを実行すること、
    v)前記選択分子の前記第1の構成要素の前記第1の線グラフデータ構造で表される第1の誘導連結サブグラフ毎に、第1の分子量フィールド、第1の頂点データフィールド及び第1の辺データフィールドを含む第1のICS記録を生成しデータベース内に格納することであって、前記第1の頂点データフィールドには前記第1の誘導連結サブグラフ内のあらゆる第1のLG頂点の第1の頂点位置を指示するように構成された第1の頂点値が取り込まれ、前記第1の辺データフィールドには前記第1のLG頂点に対する前記第1の誘導連結サブグラフ内のあらゆる前記第1のLG辺の第1の辺位置を指示するように構成された第1の辺値が取り込まれる、前記第1のICS記録を生成し格納すること、
    vi)前記選択分子の前記第1の構成要素の前記第1の線グラフデータ構造内の第1のICS記録毎に、前記選択分子の前記選択分子データと前記第1のICS記録内の前記第1の頂点値及び前記第1の辺値とに基づき前記第1のICS記録の前記第1の誘導連結サブグラフの第1の全分子量を計算し前記第1の分子量フィールド内に格納すること、
    vii)前記選択分子データに基づき前記選択分子の前記第2の構成要素の第2の最小切断可能ユニットグラフデータ構造を生成し前記メモリ内に格納することであって、前記第2の最小切断可能ユニットグラフデータ構造には前記第2の構成要素の第2のMCUグラフを表す第2のMCUグラフデータが取り込まれ、前記第2のMCUグラフは複数の第2のMCUグラフ頂点及び複数の第2のMCUグラフ辺を有し、各第2のMCUグラフ頂点は前記第2の構成要素の最小切断可能ユニットに対応し、各第2のMCUグラフ辺は前記第2の構成要素内の第2の結合接続最小切断可能ユニットに対応する、前記第2の最小切断可能ユニットグラフデータ構造を生成し格納すること、
    viii)前記第2のMCUグラフデータに基づき前記選択分子の前記第2の構成要素の第2の線グラフデータ構造を生成し前記メモリ内に格納することであって、前記第2の線グラフデータ構造には前記第2のMCUグラフの第2の線グラフを表す第2の線グラフデータが取り込まれ、前記第2の線グラフは複数の第2のLG頂点及び複数の第2のLG辺を有し、各第2のLG頂点は前記第2のMCUグラフ内の第2のMCUグラフ辺に対応し各第2のLG辺は前記第2のMCUグラフ辺により連結される前記第2のMCUグラフ内の一対の第2のMCUグラフ頂点に対応する、前記第2の線グラフデータ構造を生成し格納すること、
    ix)前記第2の線グラフの複数の第2の誘導連結サブグラフを判断するために前記選択分子の前記第2の構成要素の前記第2の線グラフデータ構造内の前記第2の線グラフデータに対してグラフトラバースアルゴリズムを実行することであって、各第2の誘導連結サブグラフは、前記第2の線グラフ内の第2のLG頂点及び第2のLG辺の第2の接続サブセットと、第2のLG頂点及び第2のLG辺の前記第2の接続サブセットの第2の物理的配置とを含み、これらは併せて、前記一組の最小切断可能ユニット及び結合の第2の接続サブセットと、前記選択分子内の最小切断可能ユニット及び結合の前記第2の接続サブセットの相対位置に一意的に対応する、前記グラフトラバースアルゴリズムを実行すること、
    x)前記選択分子の前記第2の構成要素の前記第2の線グラフデータ構造で表される第2の誘導連結サブグラフ毎に、第2の分子量フィールド、第2の頂点データフィールド及び第2の辺データフィールドを含む第2のICS記録を生成し前記データベース内に格納することであって、前記第2の頂点データフィールドには前記第2の誘導連結サブグラフ内のあらゆる第2のLG頂点の第2の頂点位置を指示するように構成された第2の頂点値が取り込まれ、前記第2の辺データフィールドには前記第2のLG頂点に対する前記第2の誘導連結サブグラフ内のあらゆる前記第2のLG辺の第2の辺位置を指示するように構成された第2の辺値が取り込まれる、前記第2のICS記録を生成し格納すること、及び
    xi)前記選択分子の前記第2の構成要素の前記第2の線グラフデータ構造内の第2のICS記録毎に、前記選択分子の前記選択分子データと前記第2のICS記録内の前記第2の頂点値及び前記第2の辺値とに基づき前記第2のICS記録の前記第2の誘導連結サブグラフの第2の全分子量を計算し前記第2の分子量フィールド内に格納することをさせるプログラム命令を前記メモリ内に含むアプリケーションプログラム、及び、
    d)前記マイクロプロセッサにより実行されると、前記マイクロプロセッサに、
    i)ンドユーザから照会分子量を受信すること、
    ii)前記照会分子量に整合する前記第1の分子量フィールド内の第1の全分子量を有する第1のICS記録を識別するために前記データベースを検索すること、
    iii)前記照会分子量に整合する前記第2の分子量フィールド内の第2の全分子量を有する第2のICS記録を識別するために前記データベースを検索すること、
    iv)前記照会分子量に整合する前記第1の全分子量を有する前記第1のICS記録に対応する前記第1の誘導連結サブグラフの第1のグラフィック表現を生成しディスプレイデバイス上に表示するために、前記第1の頂点データフィールド内の前記第1の頂点値と前記識別された第1のICS記録の前記第1の辺データフィールド内の前記第1の辺値とを使用すること、
    v)前記照会分子量に整合する前記第2の全分子量を有する前記第2のICS記録に対応する前記第2の誘導連結サブグラフの第2のグラフィック表現を生成し前記ディスプレイデバイス上に表示するために、前記第2の頂点データフィールド内の前記第2の頂点値と前記識別された第2のICS記録の前記第2の辺データフィールド内の前記第2の辺値とを使用すること、
    vi)前記照会分子量から前記切断頂点の分子量を減じることにより調整照会分子量を計算すること、
    vii)前記選択分子の前記第1の構成要素に関し第1の部分的ICS記録を識別することであって、前記第1の部分的ICS記録は、前記第1の構成要素のすべての他の分子量フィールド内のすべての他の分子量に対して最低の第1の分子量を前記第1の分子量フィールド内に有する、前記第1の部分的ICS記録を識別すること、
    viii)前記調整照会分子量から前記選択分子の前記第1の構成要素の前記第1の部分的ICS記録の前記最低の第1の分子量を減じることにより修正照会分子量を計算すること、
    ix)前記選択分子の前記第2の構成要素の前記ICS記録を検索するために前記選択分子の前記第2の構成要素の第2の部分的ICS記録を識別するために前記修正照会分子量を使用することであって、前記第2の部分的ICS記録は、前記第1の構成要素の前記第1の部分的ICS記録の前記第1の分子量と組み合わせられると前記修正照会分子量と整合する前記第2の分子量フィールド内の第2の分子量を有する、前記修正照会分子量を使用すること、
    x)前記選択分子の前記第1及び第2の構成要素の組み合わせ誘導連結サブグラフのグラフィック表現を生成し前記ディスプレイデバイス上に表示するために、前記第1及び第2の部分的ICS記録の前記頂点データフィールド内の前記頂点値、前記第1及び第2の部分的ICS記録の前記辺データフィールド内の前記辺値、前記切断頂点及び前記選択分子データを使用することであって、前記組み合わせ誘導連結サブグラフは、前記第1の部分的ICS記録の誘導連結サブグラフと前記第2の部分的ICS記録の誘導連結サブグラフとを連結することにより生成される、使用すること、
    xi)前記第1の部分的ICS記録を別の第1のICS記録により置換することであって、前記別の第1のICS記録は前記第1の部分的ICS記録の前記分子量フィールド内の分子量に対する前記第1の分子量フィールド内の次の最低の第1の分子量を含む、前記第1の部分的ICS記録を置換すること、及び
    xii)前記選択分子の前記第1の構成要素の前記第1のICS記録の前記第1の分子量フィールド内の前記第1の分子量のそれぞれが工程viii)~xi)を行うために使用されてしまうまで前記工程viii)~xi)を繰り返すことをさせるプログラム命令を含むユーザインターフェース、を含むシステム。
  2. 前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
    a)前記照会分子量の規定公差を受信すること、
    b)前記データベースの前記検索のための一範囲の分子量を計算し定義するために前記規定公差を使用すること、
    c)前記範囲の分子量内に入る前記分子量フィールド内の全分子量を有する前記データベース内の各ICS記録を識別するために前記照会分子量及び前記範囲に基づき前記データベースを検索すること、及び
    d)前記識別されたICS記録毎に、前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値を前記エンドユーザへ提示するために前記ユーザインターフェースへ送信することをさせるプログラム命令を前記アプリケーションプログラム内にさらに含む請求項1に記載のシステム。
  3. 前記選択分子データは、連結リスト、又は配列、又は隣接行列、又はグラフィック画像ファイル、又は化学図ファイル、又はスプレッドシートファイル、又はテキストファイル、又はCSVファイル、又は.CDXファイル、.CDXMLファイル、又は.MOLファイル、又は.SDMファイル、CADファイル、又はバイナリデータファイル内に格納された情報を解析することにより受信される、請求項1に記載のシステム。
  4. 前記一組の最小切断可能ユニット及び結合の前記接続サブセットは前記選択分子の代謝物、又は前記選択分子の異化生成物、又は前記選択分子の気相断片化、又は前記選択分子の分解剤、又は前記選択分子の下部構造である、請求項1に記載のシステム。
  5. 前記第1のMCUグラフデータ及び前記第2のMCUグラフデータの少なくとも一方は配列、隣接行列、隣接リスト、結合行列又は結合リストである、請求項1に記載のシステム。
  6. 前記線グラフデータ構造は配列、隣接行列、隣接リスト、結合行列又は結合リストである、請求項1に記載のシステム。
  7. 前記グラフトラバースアルゴリズムは深さ優先検索アルゴリズム、又は幅優先検索アルゴリズム、又は逆検索アルゴリズム、又はツリー検索アルゴリズム、又はこれらの2つ以上の組み合わせである、請求項1に記載のシステム。
  8. 前記選択分子は小分子である、請求項1に記載のシステム。
  9. 前記選択分子は巨大分子である、請求項1に記載のシステム。
  10. 前記巨大分子は、蛋白質、核酸、オリゴヌクレオチド、ポリヌクレオチド、多糖又は合成高分子である、請求項9に記載のシステム。
  11. a)前記選択分子データは、(A)各最小切断可能ユニット内の一組の基本ユニット、(B)前記最小切断可能ユニット内の前記一組の基本ユニットを連結する一組の基本結合、(C)各基本ユニットの基本分子量、及び(D)前記最小切断可能ユニットのMCU接続プロファイルであって前記最小切断可能ユニット内の前記基本ユニットと前記基本結合との相対位置及びその間の接続を指示するMCU接続プロファイルを表す基本組成データを含み、
    b)前記データベース内に生成される前記ICS記録はさらに、1つ又は複数の基本ユニット識別子が取り込まれる基本ユニットフィールドを含み、
    c)前記アプリケーションプログラムはさらに、前記マイクロプロセッサにより実行されると前記マイクロプロセッサに:
    i)前記エンドユーザから照会基本ユニットを受信すること、
    ii)前記照会基本ユニットに整合する前記基本ユニットフィールド内の基本ユニット識別子を有するICS記録を識別するために前記照会基本ユニットに基づき前記データベースを検索すること、及び
    iii)前記識別されたICS記録の前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値を前記エンドユーザにより操作されるディスプレイデバイス上の提示のために前記ユーザインターフェースへ送信することをさせるプログラム命令を含む、請求項1に記載のシステム。
  12. a)前記データベース内で生成される各ICS記録は生体変換カウントフィールドをさらに含み、
    b)前記ユーザインターフェースはさらに、前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、i)前記エンドユーザから最大生体変換カウントを受信すること、及びii)会質量に整合する前記分子量フィールド内の分子量値を有するICS記録及び前記生体変換カウント最大値を越えない前記生体変換カウントフィールド内の生体変換カウント値を識別するために前記照会質量及び前記最大生体変換カウントに基づき前記データベースを検索することをさせるプログラム命令を含む、請求項1に記載のシステム。
  13. a)前記データベース内で生成される各ICS記録は生体変換カウントフィールドをさらに含み、
    b)前記ユーザインターフェースは、前記マイクロプロセッサにより実行されると前記マイクロプロセッサに:
    i)前記第1の誘導連結サブグラフ、前記第2の誘導連結サブグラフ、及び前記組み合わせ誘導連結サブグラフ間のランク順を前記各ICS記録の前記生体変換カウントフィールドに基づき判断すること、及び
    ii)前記第1の誘導連結サブグラフの前記第1のグラフィック表現、前記第2の誘導連結サブグラフの前記第2のグラフィック表現及び前記組み合わせ誘導連結サブグラフの前記グラフィック表現を前記ランク順に従って前記ディスプレイデバイス上に表示することをさせるプログラム命令をさらに含む、請求項1に記載のシステム。
  14. マイクロプロセッサを使用して選択分子の下部構造を識別することを容易にするためにデータベースを生成するためのシステムであって、前記システムは、
    a)メモリ、
    b)マイクロプロセッサ、
    c)(A)前記選択分子内の一組の最小切断可能ユニット、(B)前記選択分子内の前記一組の最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、(D)前記選択分子内に在る切断頂点であって、除去されると前記選択分子を第1の構成要素と第2の構成要素とへ分離する、切断頂点、及び(E)前記選択分子内の前記最小切断可能ユニット及び結合の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データを受信して格納するための入力モジュール、
    d)
    i)前記選択分子の前記第1の構成要素の第1の最小切断可能ユニットグラフデータ構造であって、前記第1の最小切断可能ユニットグラフデータ構造には前記第1の構成要素の第1のMCUグラフを表す第1のMCUグラフデータが取り込まれ、前記第1のMCUグラフは複数の第1のMCUグラフ頂点及び複数の第1のMCUグラフ辺を有し、各第1のMCUグラフ頂点は前記第1の構成要素の最小切断可能ユニットに対応し、各第1のMCUグラフ辺は前記第1の構成要素内の第1の結合接続最小切断可能ユニットに対応する、第1の最小切断可能ユニットグラフデータ構造、及び
    ii)前記選択分子の前記第2の構成要素の第2の最小切断可能ユニットグラフデータ構造であって、前記第2の最小切断可能ユニットグラフデータ構造には前記第2の構成要素の第2のMCUグラフを表す第2のMCUグラフデータが取り込まれ、前記第2のMCUグラフは複数の第2のMCUグラフ頂点及び複数の第2のMCUグラフ辺を有し、各第2のMCUグラフ頂点は前記第2の構成要素の最小切断可能ユニットに対応し、各第2のMCUグラフ辺は前記第2の構成要素内の第2の結合接続最小切断可能ユニットに対応する、第2の最小切断可能ユニットグラフデータ構造を生成し前記メモリ内に格納するように構成されたMCUグラフデータ構造生成器、
    e)
    i)前記第1のMCUグラフデータに基づき前記選択分子の前記第1の構成要素の第1の線グラフデータ構造を生成し前記メモリ内に格納することであって、前記第1の線グラフデータ構造には前記第1のMCUグラフの第1の線グラフを表す第1の線グラフデータが取り込まれ、前記第1の線グラフは複数の第1のLG頂点及び複数の第1のLG辺を有し、各第1のLG頂点は前記第1のMCUグラフ内の第1のMCUグラフ辺に対応し、各第1のLG辺は前記第1のMCUグラフ辺により連結される前記第1のMCUグラフ内の一対の第1のMCUグラフ頂点に対応する、前記第1の線グラフデータ構造を生成し格納すること、及び
    ii)前記第2のMCUグラフデータに基づき前記選択分子の前記第2の構成要素の第2の線グラフデータ構造を生成し前記メモリ内に格納することであって、前記第2の線グラフデータ構造には前記第2のMCUグラフの第2の線グラフを表す第2の線グラフデータが取り込まれ、前記第2の線グラフは複数の第2のLG頂点及び複数の第2のLG辺を有し、各第2の線グラフ頂点は第2のMCUグラフ内の第2のMCUグラフ辺に対応し各第2の線グラフ辺は前記第2のMCUグラフ辺により連結される第2のMCUグラフ内の一対の第2のMCUグラフ頂点に対応する、前記第2の線グラフデータ構造を生成し格納することをするように構成された線グラフデータ構造生成器、
    f)
    i)前記第1の線グラフの複数の第1の誘導連結サブグラフを判断するために前記選択分子の前記第1の構成要素の前記第1の線グラフデータ構造内の前記第1の線グラフデータに対してグラフトラバースアルゴリズムを実行することであって、各第1の誘導連結サブグラフは、前記第1の線グラフ内の第1のLG頂点及び第1のLG辺の第1の接続サブセットと、第1のLG頂点及び第1のLG辺の前記第1の接続サブセットの第1の物理的配置とを含み、これらは併せて、前記一組の最小切断可能ユニット及び結合の第1の接続サブセットと、前記選択分子内の前記最小切断可能ユニット及び結合の前記第1の接続サブセットの相対位置に一意的に対応する、前記グラフトラバースアルゴリズムを実行すること、
    ii)前記第2の線グラフの複数の第2の誘導連結サブグラフを判断するために前記選択分子の前記第2の構成要素の第2の線グラフデータ構造内の前記第2の線グラフデータに対して前記グラフトラバースアルゴリズムを実行することであって、各第2の誘導連結サブグラフは、前記第2の線グラフ内の第2のLG頂点及び第2のLG辺の第2の接続サブセットと、第2のLG頂点及び第2のLG辺の前記第2の接続サブセットの第2の物理的配置とを含み、これらは併せて、前記一組の最小切断可能ユニット及び結合の第2の接続サブセットと、前記選択分子内の最小切断可能ユニット及び結合の前記第2の接続サブセットの前記相対位置に一意的に対応する、前記グラフトラバースアルゴリズムを実行することをするように構成されたグラフトラバースモジュール、
    g)
    i)前記選択分子の前記第1の構成要素の前記の第1の線グラフデータ構造で表される第1の誘導連結サブグラフ毎に、第1の分子量フィールド、第1の頂点データフィールド及び第1の辺データフィールドを含む第1のICS記録を生成しサブグラフデータベース内に格納することであって、前記第1の頂点データフィールドには前記第1の誘導連結サブグラフ内のあらゆる第1のLG頂点の第1の頂点位置を指示するように構成された第1の頂点値が取り込まれ、前記第1の辺データフィールドには前記第1のLG頂点に対する前記第1の誘導連結サブグラフ内のあらゆる前記第1のLG辺の第1の辺位置を指示するように構成された第1の辺値が取り込まれる、前記第1のICS記録を生成し格納すること、
    ii)前記選択分子の前記第2の構成要素の前記第2の線グラフデータ構造で表される第2の誘導連結サブグラフ毎に、第2の分子量フィールド、第2の頂点データフィールド及び第2の辺データフィールドを含む第2のICS記録を前記サブグラフデータベース内に生成することであって、前記第2の頂点データフィールドには前記第2の誘導連結サブグラフ内のあらゆる第2のLG頂点の第2の頂点位置を指示するように構成された第2の頂点値が取り込まれ、前記第2の辺データフィールドには前記第2のLG頂点に対する前記第2の誘導連結サブグラフ内のあらゆる第2のLG辺の第2の辺位置を指示するように構成された第2の辺値が取り込まれる、前記第2のICS記録を生成することを行うサブグラフデータベース生成器、及び
    h)
    i)前記選択分子の前記第1の構成要素の前記第1の線グラフデータ構造内の第1のICS記録毎に、前記選択分子の前記選択分子データと前記第1のICS記録内の前記第1の頂点値及び前記第1の辺値とに基づき前記第1のICS記録の前記第1の誘導連結サブグラフの第1の全分子量を計算し前記第1の分子量フィールド内に格納すること、
    ii)前記選択分子の前記第2の構成要素の前記第2の線グラフデータ構造内の第2のICS記録毎に、前記選択分子の前記選択分子データと前記第2のICS記録内の前記第2の頂点値及び前記第2の辺値とに基づき前記第2のICS記録の前記第2の誘導連結サブグラフの第2の全分子量を計算し前記第2の分子量フィールド内に格納することを行う分子量計算器、を含むシステム。
  15. 前記選択分子データは、連結リスト、又は配列、又は隣接行列、又はグラフィック画像ファイル、又は化学図ファイル、又はスプレッドシートファイル、又はテキストファイル、又はCSVファイル、又は.CDXファイル、.CDXMLファイル、又は.MOLファイル、又は.SDMファイル、CADファイル、又はバイナリデータファイル内に格納された情報を解析することにより受信される、請求項14に記載のシステム。
  16. 前記一組の最小切断可能ユニット及び結合の前記接続サブセットは、前記選択分子の代謝物、又は前記選択分子の異化生成物、又は前記選択分子の気相断片化、又は前記選択分子の分解剤、又は前記選択分子の下部構造である、請求項14に記載のシステム。
  17. 前記第1のMCUグラフデータ及び前記第2のMCUグラフデータの少なくとも一方は配列、隣接行列、隣接リスト、結合行列又は結合リストである、請求項14に記載のシステム。
  18. 前記線グラフデータ構造は、配列、隣接行列、隣接リスト、結合行列又は結合リストである、請求項14に記載のシステム。
  19. 前記グラフトラバースアルゴリズムは、深さ優先検索アルゴリズム、又は幅優先検索アルゴリズム、又は逆検索アルゴリズム、又はツリー検索アルゴリズム、又はこれらの2つ以上の組み合わせである、請求項14に記載のシステム。
  20. a)エンドユーザとの通信のためのユーザインターフェース、及び
    b)前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
    i)前記エンドユーザから照会分子量を受信すること、
    ii)前記照会分子量に整合する全分子量を前記分子量フィールド内に有するICS記録を識別するために前記照会分子量に基づき前記データベースを検索すること、
    iii)前記識別されたICS記録の前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値を前記エンドユーザにより操作されるディスプレイデバイス上の提示のために前記ユーザインターフェースへ送信すること、
    iv)前記照会分子量から前記切断頂点の分子量を減じることにより調整照会分子量を計算すること、
    v)前記選択分子の前記第1の構成要素に関し、最も低い分子量を有するICS記録を識別すること、
    vi)前記調整照会分子量から前記選択分子の前記第1の構成要素の前記ICS記録の最も低い分子量を減じることにより修正照会分子量を計算すること、
    vii)前記第1の構成要素の前記ICS記録の分子量と組み合わせられると前記修正照会分子量に整合するICS記録を識別するために前記選択分子の前記第2の構成要素の前記ICS記録のバイナリサーチを前記修正照会分子量を使用して行うこと、
    viii)前記識別された前記ICS記録の前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値を前記エンドユーザにより操作されるディスプレイデバイス上の提示のために前記ユーザインターフェースへ送信すること、
    ix)次に最も低い分子量を有する前記選択分子の前記第1の構成要素の前記ICS記録を識別すること、及び
    x)前記選択分子の前記第1の構成要素の前記ICS記録の前記分子量のそれぞれが工程vi)~viii)において使用されてしまうまで工程vi)~ix)を繰り返すこと、をさせるプログラム命令を有する前記メモリ内の検索エンジンをさらに含む請求項14に記載のシステム。
  21. 前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
    a)前記選択分子の前記第1の構成要素及び前記第2の構成要素の前記線グラフの誘導連結サブグラフのグラフィック表現を生成するために前記頂点データフィールド内の前記頂点値、前記辺データフィールド内の前記辺値、及び前記選択分子データを使用すること、及び
    b)前記グラフィック表現をエンドユーザにより操作されるディスプレイデバイスへ送信することを行わせるプログラム命令をユーザインターフェース内にさらに含む請求項14に記載のシステム。
  22. 前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
    a)分子量の規定公差を受信すること、
    b)前記データベースの検索の一範囲の分子量を計算し定義するために前記規定公差を使用すること、
    c)前記範囲の分子量内に入る前記分子量フィールド内の全分子量を有する前記データベース内の各ICS記録を識別するために照会分子量及び前記範囲に基づき前記データベースを検索すること、
    d)前記識別されたICS記録毎に、前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値をエンドユーザへ提示するためにユーザインターフェースへ送信すること、
    e)前記照会分子量から前記切断頂点の前記分子量を減じることにより調整照会分子量を計算すること、
    f)前記選択分子の第1の構成要素に関し、最も低い分子量を有するICS記録を識別すること、
    g)前記調整照会分子量から前記選択分子の前記第1の構成要素の前記ICS記録の最も低い分子量を減じることにより前記修正照会分子量を計算すること、
    h)前記第1の構成要素の前記ICS記録の分子量と組み合わせられると修正照会分子量に整合するICS記録を識別するために前記選択分子の前記第2の構成要素の前記ICS記録のバイナリサーチを、前記修正照会分子量を使用して行うこと、
    i)前記識別されたICS記録の前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値を前記エンドユーザにより操作されるディスプレイデバイス上の提示のために前記ユーザインターフェースへ送信すること、
    j)次に最も低い分子量を有する前記選択分子の前記第1の構成要素の前記ICS記録を識別すること、及び
    k)前記選択分子の前記第1の構成要素の前記ICS記録の前記分子量のそれぞれが工程g)~j)において使用されてしまうまで工程f)~j)を繰り返すことを行わせるプログラム命令をアプリケーションプログラム内にさらに含む請求項14に記載のシステム。
  23. 前記グラフトラバースアルゴリズムは、深さ優先検索アルゴリズム、幅優先検索アルゴリズム、逆検索アルゴリズム、ツリー検索アルゴリズム、又はこれらの2つ以上の組み合わせである、請求項14に記載のシステム。
  24. 前記選択分子は小分子である、請求項14に記載のシステム。
  25. 前記選択分子は巨大分子である、請求項14に記載のシステム。
  26. 前記巨大分子は、蛋白質、核酸、オリゴヌクレオチド、ポリヌクレオチド、多糖又は合成高分子である、請求項25に記載のシステム。
  27. マイクロプロセッサ及びメモリデバイスを使用して選択分子の下部構造のデータベースを生成する方法であって、前記方法は、
    a)(A)選択分子内の一組の最小切断可能ユニット、(B)前記選択分子内の一組の最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、(D)前記選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイル、及び(E)前記選択分子内の切断頂点であって前記切断頂点の除去は前記選択分子を第1の構成要素及び第2の構成要素へ分離する切断頂点を表す選択分子データを受信し前記メモリ内に格納すること、
    b)前記選択分子データに基づき前記選択分子の前記第1の構成要素の第1の最小切断可能ユニットグラフデータ構造であって、前記第1の最小切断可能ユニットグラフデータ構造には前記第1の構成要素の第1のMCUグラフを表す第1のMCUグラフデータが取り込まれ、前記第1のMCUグラフは複数の第1のMCUグラフ頂点及び複数の第1のMCUグラフ辺を有し、各第1のMCUグラフ頂点は前記第1の構成要素の最小切断可能ユニットに対応し、各第1のMCUグラフ辺は前記第1の構成要素内の第1の結合接続最小切断可能ユニットに対応する、第1の最小切断可能ユニットグラフデータ構造を生成し前記メモリ内に格納すること、
    c)前記第1のMCUグラフデータに基づき前記選択分子の前記第1の構成要素の第1の線グラフデータ構造を生成し前記メモリ内に格納することであって、前記第1の線グラフデータ構造には前記第1のMCUグラフの第1の線グラフを表す第1の線グラフデータが取り込まれ、前記第1の線グラフは複数の第1のLG頂点及び複数の第1のLG辺を有し、各第1のLG頂点は前記第1のMCUグラフ内の第1のMCUグラフ辺に対応し、各第1のLG辺は前記第1のMCUグラフ辺により連結される前記第1のMCUグラフ内の一対の第1のMCUグラフ頂点に対応する、前記第1の線グラフデータ構造を生成し格納すること、
    d)前記第1の線グラフの複数の第1の誘導連結サブグラフを判断するために前記選択分子の前記第1の構成要素の前記第1の線グラフデータ構造内の前記第1の線グラフデータに対してグラフトラバースアルゴリズムを実行することであって、各第1の誘導連結サブグラフは、前記第1の線グラフ内の第1のLG頂点及び第1のLG辺の第1の接続サブセットと、第1のLG頂点及び第1のLG辺の前記第1の接続サブセットの第1の物理的配置とを含み、これらは併せて、前記一組の最小切断可能ユニット及び結合の第1の接続サブセットと、前記選択分子内の前記最小切断可能ユニット及び結合の前記第1の接続サブセットの相対位置に一意的に対応する、前記グラフトラバースアルゴリズムを実行すること、
    e)前記選択分子の前記第1の構成要素の前記第1の線グラフデータ構造で表される第1の誘導連結サブグラフ毎に、第1の分子量フィールド、第1の頂点データフィールド及び第1の辺データフィールドを含む第1のICS記録をデータベース内に生成することであって、前記第1の頂点データフィールドには前記第1の誘導連結サブグラフ内のあらゆる第1のLG頂点の第1の頂点位置を指示するように構成された第1の頂点値が取り込まれ、前記第1の辺データフィールドには前記第1のLG頂点に対する前記第1の誘導連結サブグラフ内のあらゆる第1のLG辺の第1の辺位置を指示するように構成された第1の辺値が取り込まれる、前記第1のICS記録を生成すること、
    f)前記選択分子の前記第1の構成要素の前記第1の線グラフデータ構造内の第1のICS記録毎に、前記選択分子の前記選択分子データと前記第1のICS記録内の前記第1の頂点値及び前記第1の辺値とに基づき前記第1のICS記録の前記第1の誘導連結サブグラフの第1の全分子量を計算し前記第1の分子量フィールド内に格納すること、
    g)前記選択分子データに基づき前記選択分子の前記第2の構成要素の第2の最小切断可能ユニットグラフデータ構造を生成し前記メモリ内に格納することであって、前記第2の最小切断可能ユニットグラフデータ構造には前記第2の構成要素の第2のMCUグラフを表す第2のMCUグラフデータが取り込まれ、前記第2のMCUグラフは複数の第2のMCUグラフ頂点及び複数の第2のMCUグラフ辺を有し、各第2のMCUグラフ頂点は前記第2の構成要素の最小切断可能ユニットに対応し、各第2のMCUグラフ辺は第2の構成要素内の第2の結合接続最小切断可能ユニットに対応する、前記第2の最小切断可能ユニットグラフデータ構造を生成し格納すること、
    h)前記第2のMCUグラフデータに基づき前記選択分子の前記第2の構成要素の第2の線グラフデータ構造を生成し前記メモリ内に格納することであって、前記第2の線グラフデータ構造には前記第2のMCUグラフの第2の線グラフを表す第2の線グラフデータが取り込まれ、前記第2の線グラフは複数の第2のLG頂点及び複数の第2のLG辺を有し、各第2のLG頂点は第2のMCUグラフ内の第2のMCUグラフ辺に対応し各第2のLG辺は前記第2のMCUグラフ辺により連結される第2のMCUグラフ内の一対の第2のMCUグラフ頂点に対応する、前記第2の線グラフデータ構造を生成し格納すること、
    i)前記第2の線グラフの複数の第2の誘導連結サブグラフを判断するために前記選択分子の前記第2の構成要素の前記第2の線グラフデータ構造内の前記第2の線グラフデータに対して前記グラフトラバースアルゴリズムを実行することであって、各第2の誘導連結サブグラフは、前記第2の線グラフ内の第2のLG頂点及び第2のLG辺の第2の接続サブセットと、第2のLG頂点及び第2のLG辺の前記第2の接続サブセットの第2の物理的配置とを含み、これらは併せて、一組の最小切断可能ユニット及び結合の第2の接続サブセットと、前記選択分子内の最小切断可能ユニット及び結合の前記第2の接続サブセットの相対位置に一意的に対応する、前記グラフトラバースアルゴリズムを実行すること、
    j)前記選択分子の前記第2の構成要素の前記第2の線グラフデータ構造で表される第2の誘導連結サブグラフ毎に、第2の分子量フィールド、第2の頂点データフィールド及び第2の辺データフィールドを含む第2のICS記録をデータベース内に生成することであって、前記第2の頂点データフィールドには前記第2の誘導連結サブグラフ内のあらゆる第2のLG頂点の第2の頂点位置を指示するように構成された第2の頂点値が取り込まれ、前記第2の辺データフィールドには前記第2のLG頂点に対する前記第2の誘導連結サブグラフ内のあらゆる第2のLG辺の第2の辺位置を指示するように構成された第2の辺値が取り込まれる、前記第2のICS記録を生成すること、及び
    k)前記選択分子の前記第2の構成要素の前記第2の線グラフデータ構造内の第2のICS記録毎に、前記選択分子の前記選択分子データと前記第2のICS記録内の前記第2の頂点値及び前記第2の辺値とに基づき前記第2のICS記録の前記第2の誘導連結サブグラフの第2の全分子量を計算し前記第2の分子量フィールド内に格納すること、を含む方法。
  28. 前記グラフトラバースアルゴリズムは、深さ優先検索アルゴリズム、又は幅優先検索アルゴリズム、又は逆検索アルゴリズム、又はツリー検索アルゴリズム、又はこれらの2つ以上の組み合わせである、請求項27に記載の方法。
  29. a)前記マイクロプロセッサにより照会分子量を受信すること、
    b)前記マイクロプロセッサにより、前記照会分子量に整合する全分子量を前記分子量フィールド内に有するICS記録を識別するために前記照会分子量に基づき前記データベースを検索すること、
    c)前記識別されたICS記録の前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値の表現をディスプレイデバイスへ送信すること、
    d)前記照会分子量から前記切断頂点の分子量を減じることにより調整照会分子量を計算すること、
    e)前記選択分子の第1の構成要素に関し、最も低い分子量を有するICS記録を識別すること、
    f)前記調整照会分子量から前記選択分子の前記第1の構成要素の前記ICS記録の最も低い分子量を減じることにより修正照会分子量を計算すること、
    g)前記修正照会分子量を使用することにより、記第1の構成要素の前記ICS記録の前記分子量と組み合わせられると前記修正照会分子量に整合するICS記録を識別するために前記選択分子の前記第2の構成要素の前記ICS記録のバイナリサーチを行うこと、
    h)前記識別された前記ICS記録の前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値をエンドユーザにより操作されるディスプレイデバイス上の提示のためにユーザインターフェースへ送信すること、
    i)次に最も低い分子量を有する前記選択分子の前記第1の構成要素のICS記録を識別すること、及び
    前記選択分子の前記第1の構成要素の前記ICS記録の前記分子量のそれぞれが工程f)~h)において使用されてしまうまで工程f)~h)を繰り返すこと、をさらに含む請求項27に記載の方法。
  30. a)前記マイクロプロセッサにより、前記選択分子の前記第1の構成要素及び前記第2の構成要素の前記線グラフの誘導連結サブグラフのグラフィック表現を前記選択分子の前記接続プロファイル、前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値に基づき生成すること、及び、
    b)前記グラフィック表現を前記ディスプレイデバイスへ送信すること、をさらに含む請求項29に記載の方法。
  31. 前記選択分子は小分子である、請求項27に記載の方法。
  32. 前記選択分子は巨大分子である、請求項27に記載の方法。
  33. 前記巨大分子は、蛋白質、核酸、オリゴヌクレオチド、ポリヌクレオチド、多糖又は合成高分子である、請求項32に記載の方法。
  34. 前記一組の最小切断可能ユニット及び結合の前記接続サブセットは、前記選択分子の代謝物、又は前記選択分子の異化生成物、又は前記選択分子の気相断片化、又は前記選択分子の分解剤、又は前記選択分子の下部構造である、請求項27に記載の方法。
  35. マイクロプロセッサを使用して、選択分子の化学的下部構造の一組の構成要素を記述する情報及び前記構成要素の物理的配置を発見しディスプレイデバイスへ送信するためにデータベースを検索するための装置であって、前記装置は、
    a)それぞれが分子量フィールド、頂点データフィールド及び辺データフィールドを含む複数のICS記録を含むデータベースへの電子ユーザインターフェースであって、前記頂点データフィールドには前記選択分子の接続プロファイルを表す線グラフの誘導連結サブグラフ内のあらゆる頂点の頂点位置を指示するように構成された頂点値が取り込まれ、前記辺データフィールドには前記誘導連結サブグラフ内のあらゆる辺の辺位置を指示するように構成された辺値が取り込まれる、電子ユーザインターフェース、
    b)エンドユーザから規定分子量を受信するように構成されるとともに電子ユーザインターフェースにより動作可能な入力モジュール、
    c)前記マイクロプロセッサにより実行されると前記マイクロプロセッサに前記分子量フィールド内の全分子量が前記規定分子量に等しい少なくとも1つのICS記録を前記データベース内で発見するようにさせるプログラム命令を有する検索エンジン、及び
    d)前記メモリ内に格納された視覚化器であって、前記少なくとも1つのICS記録の前記頂点データフィールドの前記頂点値及び前記辺データフィールドの前記辺値を前記ディスプレイデバイスへ送信するように構成された視覚化器を含む装置。
  36. マイクロプロセッサ及びメモリデバイスを使用して選択分子の下部構造を識別し表示する方法であって、前記方法は、
    a)(A)選択分子内の一組の最小切断可能ユニット、(B)前記選択分子内の一組の最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、(D)前記選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイル、及び(E)前記選択分子内の切断頂点であって前記切断頂点の除去は前記選択分子を第1の構成要素及び第2の構成要素へ分離する切断頂点を表す選択分子データを受信し前記メモリ内に格納すること、
    b)前記選択分子データに基づき前記選択分子の前記第1の構成要素の第1の最小切断可能ユニットグラフデータ及び前記選択分子の前記第2の構成要素の第2の最小切断可能ユニットグラフデータを生成し前記メモリ内に格納すること、
    c)前記第1及び第2の最小切断可能ユニットグラフデータに基づき前記選択分子の前記第1の構成要素の第1の線グラフデータ及び前記選択分子の前記第2の構成要素の第2の線グラフデータを生成し前記メモリ内に格納すること、
    d)前記第1の線グラフデータの複数の第1の誘導連結サブグラフ及び前記第2の線グラフデータの複数の第2の誘導連結サブグラフを表す誘導連結サブグラフ(ICS)記録を判断し前記メモリ内に格納するために前記第1の線グラフデータ及び前記第2の線グラフデータに対してグラフトラバースアルゴリズムを実行することであって、各ICS記録は分子量フィールド、頂点データフィールド及び辺データフィールドを含み、前記頂点データフィールドには前記選択分子の接続プロファイルを表す線グラフの誘導連結サブグラフ内のあらゆる頂点の頂点位置を指示するように構成された頂点値が取り込まれ、前記辺データフィールドには前記誘導連結サブグラフ内のあらゆる辺の辺位置を指示するように構成された辺値が取り込まれる、前記グラフトラバースアルゴリズムを実行すること、及び
    e)前記メモリ内のICS記録毎に、前記選択分子の前記選択分子データに基づき前記ICS記録により表される前記第1又は第2の誘導連結サブグラフの全分子量を計算し前記分子量フィールド内に格納することを含む方法。
  37. a)前記最小切断可能ユニットグラフデータ構造には前記第1の構成要素の第1のMCUグラフを表す第1のMCUグラフデータが取り込まれ、前記第1のMCUグラフは複数の第1のMCUグラフ頂点及び複数の第1のMCUグラフ辺を有し、各第1のMCUグラフ頂点は前記第1の構成要素の最小切断可能ユニットに対応し、各第1のMCUグラフ辺は前記第1の構成要素内の第1の結合接続最小切断可能ユニットに対応し、
    b)前記第2の線グラフデータ構造には前記第2のMCUグラフの第2の線グラフを表す第2の線グラフデータが取り込まれ、前記第2の線グラフは複数の第2のLG頂点及び複数の第2のLG辺を有し、各第2のLG頂点は第2のMCUグラフ内の第2のMCUグラフ辺に対応し、各第2のLG辺は前記第2のMCUグラフ辺により連結される第2のMCUグラフ内の一対の第2のMCUグラフ頂点に対応する、請求項36に記載の方法。
  38. 各第1の誘導連結サブグラフは、前記第1の線グラフ内の第1のLG頂点及び第1のLG辺の第1の接続サブセットと、第1のLG頂点及び第1のLG辺の前記第1の接続サブセットの第1の物理的配置とを含み、これらは併せて、前記一組の最小切断可能ユニット及び結合の第1の接続サブセットと、前記選択分子内の最小切断可能ユニット及び結合の前記第1の接続サブセットの相対位置とに一意的に対応する、請求項36に記載の方法。
  39. a)規定分子量を受信し前記メモリ内に格納すること、
    b)前記マイクロプロセッサに前記分子量フィールド内の全分子量が前記規定分子量に等しい少なくとも1つのICS記録をデータベース内で発見するようにさせること、及び
    c)前記少なくとも1つのICS記録の前記頂点データフィールドの前記頂点値及び前記辺データフィールドの前記辺値をディスプレイデバイスへ送信することをさらに含む請求項36に記載の方法。
JP2020568209A 2018-06-11 2019-06-11 錯体分子下部構造を識別する切断頂点方法 Active JP7349454B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201862683582P 2018-06-11 2018-06-11
US62/683,582 2018-06-11
US201862752152P 2018-10-29 2018-10-29
US62/752,152 2018-10-29
US201862770252P 2018-11-21 2018-11-21
US62/770,252 2018-11-21
PCT/US2019/036467 WO2019241191A1 (en) 2018-06-11 2019-06-11 Cut vertex method for identifying complex molecule substructures

Publications (2)

Publication Number Publication Date
JP2021527254A JP2021527254A (ja) 2021-10-11
JP7349454B2 true JP7349454B2 (ja) 2023-09-22

Family

ID=68842307

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020568247A Active JP7349455B2 (ja) 2018-06-11 2019-06-11 錯体分子下部構造識別システム、装置及び方法
JP2020568209A Active JP7349454B2 (ja) 2018-06-11 2019-06-11 錯体分子下部構造を識別する切断頂点方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020568247A Active JP7349455B2 (ja) 2018-06-11 2019-06-11 錯体分子下部構造識別システム、装置及び方法

Country Status (6)

Country Link
US (2) US12068058B2 (ja)
EP (2) EP3794597A4 (ja)
JP (2) JP7349455B2 (ja)
CN (2) CN112534508B (ja)
CA (2) CA3103229A1 (ja)
WO (2) WO2019241178A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112534508B (zh) * 2018-06-11 2024-03-01 默沙东有限责任公司 用于标识复杂分子子结构的割点法
CN114090834A (zh) * 2021-11-09 2022-02-25 支付宝(杭州)信息技术有限公司 一种图搜索方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060085142A1 (en) 2004-10-14 2006-04-20 Robert Mistrik Determination of molecular structures using tandem mass spectrometry
JP2007508637A (ja) 2003-10-14 2007-04-05 バーセオン 分子を区分するための方法および装置
US20180011899A1 (en) 2016-07-05 2018-01-11 Zymergen, Inc. Complex chemical substructure search query building and execution

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1317765A2 (en) 2000-09-08 2003-06-11 Oxford GlycoSciences (UK) Limited Automated identification of peptides
JP2008504531A (ja) * 2004-06-24 2008-02-14 ザ スクリップス リサーチ インスティテュート 切断可能なリンカーを有するアレイ
EP2084638A2 (en) * 2006-11-13 2009-08-05 N.V. Organon A system and method to identify the metabolites of a drug
US20090006002A1 (en) * 2007-04-13 2009-01-01 Sequenom, Inc. Comparative sequence analysis processes and systems
US9149309B2 (en) * 2012-03-23 2015-10-06 Yale University Systems and methods for sketching designs in context
US20130325354A1 (en) 2012-05-18 2013-12-05 Marshall Siegel Computerized method for correlating and elucidating chemical structures and substructures using mass spectrometry
WO2014025378A1 (en) 2012-08-09 2014-02-13 Perkinelmer Health Sciences, Inc. Methods and apparatus for identification of polymeric species from mass spectrometry output
KR20140145753A (ko) 2013-06-14 2014-12-24 주식회사 켐에쎈 기준 분자들의 물성 값 및 분자 표현자에 기반한 분자간 근원적 상관성을 이용하여 혼합물을 구성하는 각 분자들의 물성 값을 예측하는 방법
US20160153060A1 (en) * 2013-07-09 2016-06-02 Tech-Knowhow Corp. Method for species identification by using molecular weights of nucleic acid cleavage fragments
CN107077592B (zh) * 2014-03-28 2021-02-19 威斯康星校友研究基金会 高分辨率气相色谱-质谱数据与单位分辨率参考数据库的改进谱图匹配的高质量精确度滤波
WO2015187095A1 (en) * 2014-06-02 2015-12-10 Agency For Science, Technology And Research A diagnostic and therapeutic tool for cancer
AU2015352625B2 (en) * 2014-11-25 2019-07-25 Ventana Medical Systems, Inc. Proximity assays using chemical ligation and hapten transfer
EP3234805A4 (en) 2014-12-19 2017-10-25 Microsoft Technology Licensing, LLC Graph processing in database
CN104765984B (zh) * 2015-03-20 2017-07-11 同济大学 一种生物质谱数据库快速建立与搜索的方法
CN107923888A (zh) 2015-05-29 2018-04-17 沃特世科技公司 代谢途径和代谢物鉴定
EP3368056A4 (en) * 2016-01-26 2019-06-05 Raghoottama Pandurangi COMPOSITIONS AND METHODS FOR SENSITIZING TUMORS WITH LOW CARACTERIUM THERAPY REACTION
CN112534508B (zh) * 2018-06-11 2024-03-01 默沙东有限责任公司 用于标识复杂分子子结构的割点法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007508637A (ja) 2003-10-14 2007-04-05 バーセオン 分子を区分するための方法および装置
US20060085142A1 (en) 2004-10-14 2006-04-20 Robert Mistrik Determination of molecular structures using tandem mass spectrometry
US20180011899A1 (en) 2016-07-05 2018-01-11 Zymergen, Inc. Complex chemical substructure search query building and execution

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Gary D Bader et al.,An automated method for finding molecular complexes in large protein interaction networks,BMC Bioinformatics,英国,2003年01月13日,vol. 4, no. 2,pp. 1-27,online, <URL:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC149346/>, 検索日:2023年6月30日
Sitao Wu et al.,Recognizing protein substructure similarity using segmental threading,Structure,米国,2010年07月14日,vol. 18, no. 7,pp. 858-867,online, <URL:https://www.sciencedirect.com/science/article/pii/S0969212610001863>, 検索日:2023年6月30日

Also Published As

Publication number Publication date
EP3794597A1 (en) 2021-03-24
CN112567465B (zh) 2024-02-20
US11854664B2 (en) 2023-12-26
CA3103229A1 (en) 2019-12-19
JP2021527255A (ja) 2021-10-11
EP3794597A4 (en) 2022-02-23
CA3103253A1 (en) 2019-12-19
CN112534508A (zh) 2021-03-19
CN112567465A (zh) 2021-03-26
JP2021527254A (ja) 2021-10-11
WO2019241178A1 (en) 2019-12-19
JP7349455B2 (ja) 2023-09-22
CN112534508B (zh) 2024-03-01
US12068058B2 (en) 2024-08-20
US20210265024A1 (en) 2021-08-26
EP3794599A4 (en) 2022-02-23
WO2019241191A1 (en) 2019-12-19
EP3794599A1 (en) 2021-03-24
US20210257046A1 (en) 2021-08-19

Similar Documents

Publication Publication Date Title
Eguchi et al. Ig-vae: generative modeling of immunoglobulin proteins by direct 3d coordinate generation
US20080281818A1 (en) Segmented storage and retrieval of nucleotide sequence information
Braga et al. The solution space of sorting by DCJ
JP7349454B2 (ja) 錯体分子下部構造を識別する切断頂点方法
Estrada et al. A scalable and accurate method for classifying protein–ligand binding geometries using a MapReduce approach
EP3602362B1 (en) Genomic data analysis system and method
Olson et al. Enhancing sampling of the conformational space near the protein native state
Huang et al. VINCENT: towards efficient exploratory subgraph search in graph databases
Hutter Graph-based similarity concepts in virtual screening
Santoni Peptide Hamming Graphs: A network representation of peptides presented through specific HLAs to identify potential epitope clusters
Cho COMBINE: a novel drug discovery platform designed to capture insight and experience of users
Wang Using PhyloCon to identify conserved regulatory motifs
Martins-José et al. NEQUIM Contact System (NCS): A tool for generation and analysis of protein-ligand interaction fingerprint
Martin et al. Using product kernels to predict protein interactions
Ellingson et al. Accelerating virtual high-throughput ligand docking: screening one million compounds using a petascale supercomputer
Grant BGGN-213: FOUNDATIONS OF BIOINFORMATICS (Lecture 12)
Giray et al. Building phylogenetic trees from frequent subgraph mining techniques on reaction hypergraphs
Razvi Market opportunity in computational proteomics
Koh et al. Database warehousing in bioinformatics
Bhattacharya Probabilistic graphical models for protein structure prediction
Zoubarev Tools for visual analysis of biological networks
Liao Comparison of clustering algorithms for gene expression microarray data
Grant BIMM-143: INTRODUCTION TO BIOINFORMATICS (Lecture 11)
Strunk et al. Benchmarking the POEM@ HOME Network for Protein Structure Prediction.
Jean et al. 1Computational Biology, Sandia National Laboratories, PO Box 5800, Albuquerque, NM 87185-1316, USA smartin@ sandia. gov 2Computational Bioscience, Sandia National Laboratories, PO Box 5800

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220517

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20230510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230815

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230911

R150 Certificate of patent or registration of utility model

Ref document number: 7349454

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150