JP2022500766A

JP2022500766A - 化学構造の性質を予測するための方法およびシステム

Info

Publication number: JP2022500766A
Application number: JP2021514314A
Authority: JP
Inventors: エドワードブレレトン・アンドリュー; アルウォッシュ・サナ; スコットマッキノン・スティーブン; クリスティアンキャンベルソモディ・ジョーセフ; ウィンデムス・アンドレアス
Original assignee: サイクリカインコーポレイテッド
Priority date: 2018-09-13
Filing date: 2019-09-13
Publication date: 2022-01-04
Anticipated expiration: 2039-09-13
Also published as: EP3850632A1; US12087409B2; KR20210087439A; CN113348514B; JP2024038428A; CN113348514A; IL281466A; EP3850632A4; JP7425047B2; CN118197481A; US20220051759A1; CA3112798A1; WO2020051714A1

Abstract

サンプル分子の特性を予測する方法は、多数の参照分子のそれぞれについて、多数のフィンガープリントおよび少なくとも１つの特性を取得することと、サンプル分子の多数のフィンガープリントを取得すること、を伴う。この方法はさらに、多数の参照分子のそれぞれについて、多数のフィンガープリントのそれぞれを使用して、サンプル分子までの距離を計算することと、多数の参照分子のそれぞれについて、サンプル分子までの距離に基づいて相対的な予測優性を判定することと、を伴う。この方法はまた、多数の参照分子のそれぞれについて、相対的な予測優性に基づいて適応度値を判定することと、多数の参照分子の少なくとも１つの特性および参照分子について取得された適応度値に基づいて、サンプル分子の少なくとも１つの特性を予測することと、を伴う。

Description

［関連出願の相互参照］
本出願は、２０１８年９月１３日に出願された、本出願と同じ発明者の少なくとも１人を有する「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＰＲＥＤＩＣＴＩＮＧＰＲＯＰＥＲＴＩＥＳＯＦＣＨＥＭＩＣＡＬＳＴＲＵＣＴＵＲＥＳ」と題する米国仮出願第６２／７３０，９１３号に対して、米国連邦法第１１９（ｅ）条に基づく優先権を主張する。米国仮特許出願第６２／７３０，９１３号は、参照により本明細書に組み込まれる。

化学構造とこれらの化学構造の活性または特性との関係は、多くの化学構造について知られており、記述されている。新たに発見された、または合成されたサンプルの化学構造は、当初は未知の特性を持っている可能性がある。サンプルの化学構造と既知の化学構造との類似性を使用して、サンプルの化学構造の特性を予測することができる。

一般に、一態様では、１つ以上の実施形態は、サンプル分子の特性を予測するための方法に関し、この方法は、複数の参照分子のそれぞれについて、複数のフィンガープリントおよび少なくとも１つの特性を取得することと、サンプル分子の複数のフィンガープリントを取得することと、複数の参照分子のそれぞれについて、複数のフィンガープリントのそれぞれを使用して、サンプル分子までの距離を計算することと、複数の参照分子のそれぞれについて、サンプル分子までの距離に基づいて、相対的な予測優性を判定することと、複数の参照分子のそれぞれについて、相対的な予測優性に基づいて、適応度値を判定することと、複数の参照分子の少なくとも１つの特性および参照分子について得られた適応度値に基づいて、サンプル分子の少なくとも１つの特性を予測することと、を含む。

一般に、一態様では、１つ以上の実施形態は、サンプル分子の特性を予測するためのシステムに関し、このシステムは、参照分子リポジトリと、分子特性予測エンジンであって、複数の参照分子のそれぞれについて、参照分子リポジトリから複数のフィンガープリントおよび少なくとも１つの特性を取得することと、サンプル分子の複数のフィンガープリントを取得することと、複数の参照分子のそれぞれについて、複数のフィンガープリントのそれぞれを使用して、サンプル分子までの距離を計算することと、複数の参照分子のそれぞれについて、サンプル分子までの距離に基づいて、相対的な予測優性を判定することと、複数の参照分子のそれぞれについて、相対的な予測優性に基づいて、適応度値を判定することと、複数の参照分子の少なくとも１つの特性および参照分子について得られた適応度値に基づいて、サンプル分子の少なくとも１つの特性を予測することと、を行なうように構成されている分子特性予測エンジンと、を含む。

一般に、一態様では、１つ以上の実施形態は、サンプル分子の特性を予測するためのコンピュータ可読プログラムコードを含む非一時的なコンピュータ可読媒体に関し、このコンピュータ可読プログラムコードは、コンピュータシステムに、複数の参照分子のそれぞれについて、複数のフィンガープリントおよび少なくとも１つの特性を取得することと、サンプル分子の複数のフィンガープリントを取得することと、複数の参照分子のそれぞれについて、複数のフィンガープリントのそれぞれを使用して、サンプル分子までの距離を計算することと、複数の参照分子のそれぞれについて、サンプル分子までの距離に基づいて、相対的な予測優性を判定することと、複数の参照分子のそれぞれについて、相対的な予測優性に基づいて、適応度値を判定することと、複数の参照分子の少なくとも１つの特性および参照分子について得られた適応度値に基づいて、サンプル分子の少なくとも１つの特性を予測することと、を行なわせる。

実施形態の他の態様は、以下の説明および添付の特許請求の範囲から明らかになるであろう。

本実施形態は、例として示されており、添付の図面の図によって限定されることを意図していない。
本発明の１つ以上の実施形態によるシステムのブロック図を示す。本発明の１つ以上の実施形態によるフローチャートを示す。本発明の１つ以上の実施形態による擬似コードを示す。本発明の１つ以上の実施形態による擬似コードを示す。本発明の実施形態と従来の分類器との性能比較を示す。本発明の実施形態についての交差検証対盲検試験ＲＯＣＡＵＣスコアを示す。従来の定量的構造活性相関（ＱＳＡＲ）アプローチの交差検証対盲検試験ＲＯＣＡＵＣスコアを示す。本発明の実施形態対、最も性能の高い従来の分類器とフィンガープリントの組み合わせの性能の概要を示す。本発明の１つ以上の実施形態によるコンピューティングシステムを示す。本発明の１つ以上の実施形態によるコンピューティングシステムを示す。

本明細書で開示される特定の実施形態について、添付の図面を参照して以下で詳細に説明する。様々な図中の同様の要素は、一貫性を保つために、同様の参照番号および／または同様の名前によって示されてもよい。

以下の詳細な説明は、本質的に単なる例示であり、本明細書に開示される実施形態または本明細書に開示される実施形態の用途および使用を限定することを意図するものではない。さらに、上記の技術分野、背景技術、簡単な概要、または以下の詳細な説明で提示されたいかなる明示的または暗示的な理論によっても拘束されることを意図していない。

本明細書に開示されたいくつかの実施形態についての以下の詳細な説明では、本明細書に開示された様々な実施形態のより完全な理解を提供するために、多くの特定の詳細が説明される。しかしながら、実施形態がこれらの特定の詳細なしで実施されてもよいことは、当業者には明らかであろう。他の例では、説明を不必要に複雑にすることを避けるために、よく知られている機能について詳細には説明していない。

本出願全体を通して、序数（例えば、第１、第２、第３など）を、要素（すなわち、本出願における任意の名詞）の形容詞として使用する場合がある。序数の使用は、「前」、「後」、「単一」などの用語の使用などによって明示的に開示されていない限り、要素の任意の特定の順序を暗示または作成するか、または任意の要素を単一の要素のみであるように限定するものではない。むしろ、序数の使用は要素を区別することである。例として、第１の要素は第２の要素とは異なり、第１の要素は複数の要素を包含し、要素の順序付けにおいて第２の要素に続いても（または先行しても）よい。

本発明の１つ以上の実施形態では、サンプルの化学構造の特性は、他の化学構造の既知の特性に基づいて予測される。この方法は、小分子、すなわち低分子量の分子の特性を予測するために使用することができる。これらの分子は、例えば、薬理学的分子であり得る。分子が薬理学的に有用であるかどうかを評価するには、その特性を判定する必要があり得る。例えば、分子の分布、代謝、排泄、および毒性（ＡＤＭＥＴ）の特性を評価する必要があり得る。

化学構造とこれらの化学構造の活性または特性との関係は、多くの化学構造について知られており、記述されている。新たに発見された、または合成されたサンプルの化学構造は、当初は未知の特性を持っている可能性がある。サンプルの化学構造と既知の化学構造との類似性を使用して、サンプルの化学構造の特性を予測することができる。本発明の１つ以上の実施形態では、定量的構造活性相関（ＱＳＡＲ）を使用して予測を行う。本発明の１つまたは複数の実施形態による、以下に説明するアプローチは、サンプル分子の予測を行うために、それぞれが複数のフィンガープリントによって表され得る複数／多くの参照分子に依存する。

図１は、本発明の１つ以上の実施形態による、化学構造の特性を予測するためのシステム（１００）を示している。システム（１００）は、参照分子リポジトリ（１１０）および分子特性予測エンジン（１５０）を含む。これらの構成要素については、後で説明する。

参照分子リポジトリ（１１０）は、データを格納するためのいずれかのタイプの記憶ユニットおよび／またはデバイス（例えば、ファイルシステム、データベース、一群の表、またはいずれかの他の記憶メカニズム）であり得る。参照分子リポジトリ（１１０）は、本発明の１つ以上の実施形態によれば、参照分子（１１２Ａ〜１１２Ｎ）に関連するデータを格納する。より具体的には、各参照分子について、分子フィンガープリントおよび分子特性が格納される。分子のフィンガープリントと分子の特性が既知のため、これらの参照分子を使用して、分子のフィンガープリントだけが既知であるが分子の特性は未知のサンプル分子の分子特性を予測することができる。いずれかの数の参照分子のデータを、参照分子リポジトリ（１１０）に格納することができる。

本発明の１つ以上の実施形態による、参照分子（１１２Ａ〜１１２Ｎ）について格納されたデータは、分子フィンガープリント（１１６Ａ〜１１６Ｎ）および分子特性（１１４Ａ〜１１４Ｎ）を含む。

分子については、いずれかの数の分子特性を記述することができる。分子特性には、物理化学的特性、ＡＤＭＥＴ特性、および生物活性が含まれるが、これらに限定されない。ＡＤＭＥＴ特性の例は、ＡＭＥＳ毒性、アンドロゲン受容体結合、血液脳関門適合性、Ｃａｃｏ−２透過性、ｈＥＲＧ阻害、および発がん性である。

本発明の１つ以上の実施形態による、フィンガープリント（または他の記述子）は、分子の構造を記述子フォーマットで捕捉する。フィンガープリントは必ずしも１つの分子に固有である必要はないが、基礎となる分子を他の分子と比較して、これらの分子の類似性を評価することを許容し得る。フィンガープリントは、例えば、ｄａｙｌｉｇｈｔ（標準）、ａｔｏｍ＿ｐａｉｒ（標準）、ｍｏｒｇａｎ２（ｒ＝２のｍｏｒｇａｎ）、ｍｏｒｇａｎ４（ｒ＝４）、ｍｏｒｇａｎ２＿ｆｅａｔ（ｒ＝２で特徴を使用）、ｍｏｒｇａｎ４＿ｆｅａｔ（等）、ｐｈａｒｍ＿ｂａｓｅ（デフォルトのｒｄｋｉｔファクトリを使用したｐｈａｒｍ）、ｐｈａｒｍ＿ｇｏｂｂｉ（ｇｏｂｂｉファクトリを使用したｐｈａｒｍ）、ｌａｙｅｒｅｄ（標準）、ｐａｔｔｅｒｎ（標準）のフィンガープリントであり得る。フィンガープリントは、基礎となる分子のＳＭＩＬＥＳ表現から派生する場合がある。

分子に関連付けられた各タイプのフィンガープリントは、基礎となる情報（つまり分子自体）をわずかに異なる方法で表し得る。したがって、各タイプのフィンガープリントは、わずかに異なるノイズ特性を備えた、基礎となる分子の不完全な表現を確立し得る。

図１の説明を続けると、参照分子リポジトリ（１１０）は、分子特性予測エンジン（１５０）に動作可能に接続されている。分子特性予測エンジン（１５０）は、図２に記載されたステップのうちの少なくとも１つを実行するためのコンピュータ可読プログラムコードの形態の命令を含む。

図２は、１つ以上の実施形態によるフローチャートを示す。図２のフローチャートは、小分子などの化学構造の特性を予測するための方法を示している。図２のステップのうちの１つ以上は、図１を参照して上で論じたシステム（１００）の構成要素によって実行され得る。１つ以上の実施形態では、図２に示されるステップのうちの１つ以上は、省略され、繰り返され、および／または図２に示される順序とは異なる順序で実行され得る。追加のステップをさらに実行することができる。したがって、本発明の範囲は、図２に示されるステップの特定の配置に限定されると見なされるべきではない。

ステップ２００では、参照分子についてのフィンガープリントと特性が取得される。本発明の１つ以上の実施形態では、複数のフィンガープリント（例えば、１０個のフィンガープリント）が、各参照分子について取得される。各取得されたフィンガープリントは、異なるタイプのものであり得る。したがって、複数のフィンガープリントによって捕捉される基礎となる情報（つまり分子自体）は常に同じであるが、異なるタイプのフィンガープリントによって異なる程度に捕捉され得る。参照分子のそれぞれについては、同じタイプのフィンガープリントが取得される。実行する分析に応じて、参照分子のそれぞれについて、１つ以上の特性を取得することができる。例えば、分析全体が、サンプル分子が血液脳関門（ＢＢＢ）を交差することが可能かどうかを判定することを目的とする場合、ＢＢＢ交差特性は、参照分子のそれぞれについて取得することができる。複数の特性を評価する場合は、複数の特性を取得することができる。

ステップ２０２では、サンプル分子についてのフィンガープリントが取得される。参照分子について取得されたものと同じタイプのフィンガープリントが取得される。

ステップ２０４では、フィンガープリントのタイプについての重みは、予測される特性に基づいて決定され得る。大まかに言えば、あるタイプのフィンガープリントは、他のタイプのフィンガープリントよりも特定のプロパティを予測するのに優れている場合がある。したがって、後続の操作のために、このタイプのフィンガープリントにより高い重みを割り当てることができる。フィンガープリントの重みは次のように決定することができる。

例えば、分子が血液脳関門（ＢＢＢ）を交差する能力（ＢＢＢ交差特性）について考察してみる。参照分子のそれぞれについて、ＢＢＢ交差特性が既知であると想定される。さらに、これらの参照分子のフィンガープリントに基づいて、各分子から各他の分子までの距離を計算することができる。したがって、参照分子の各可能な対について、かつ利用可能な全てのフィンガープリントを使用して、距離を計算することができる。重みを決定するために、フィンガープリントに基づく分子間の距離の相関、およびＢＢＢ交差特性を分析することができる。一般的に言えば、参照分子の対の場合、より近いフィンガープリントは、より離れたフィンガープリントよりも同様のＢＢＢ交差特性を表す可能性が高いと予想することができる。したがって、同一のＢＢＢ交差特性を持つ２つの参照分子間の距離が短いフィンガープリント（つまり、両方の参照分子が血液脳関門を通過できる（ＢＢＢ＋＋）または両方の分子が血液脳関門を通過できない（ＢＢＢ−−））には、高い重みが割り当てられ得る。この分析が多くの分子（例えば、全ての参照分子）に対して実行される場合、ＢＢＢ交差特性を予測するフィンガープリントの能力を確率的に評価することができる。特性Ｐ（ＢＢＢ−−）とＰ（ＢＢＢ＋＋）が一致する確率が高いフィンガープリントには高い重みが割り当てられる一方、特性Ｐ（ＢＢＢ−−）とＰ（ＢＢＢ＋＋）が一致する確率が低い（つまり特性Ｐ（ＢＢＢ＋−）とＰ（ＢＢＢ−＋）が不一致になる確率が高い）フィンガープリントには低い重みが割り当てられる。したがって、ＢＢＢ交差特性を予測する例では、フィンガープリントの重みは、事後確率Ｐ（ＢＢＢ＋｜参照分子ＢＢＢ＋、ｄ）およびＰ（ＢＢＢ−｜参照分子ＢＢＢ−、ｄ）を含み得る。つまり、距離ｄが与えられたときにＢＢＢ交差特性を正しく予測する可能性が高いフィンガープリントには高い重みが割り当てられる一方、距離ｄが与えられたときにＢＢＢ交差特性を正しく予測する可能性が低いフィンガープリントには低い重みが割り当てられる。

したがって、フィンガープリントの重みは、利用可能な全てのフィンガープリントについて取得することができる。フィンガープリントの重みは、例えば、０．０〜１．０の数値範囲にある。フィンガープリントの重みの最適化は、ＢＢＢ交差特性の例に基づいて示されているが、当業者は、フィンガープリントの重みがいずれかの他の分子特性について取得し得ることを理解するであろう。

ステップ２０４の実行は任意である、すなわち、あるいは、後続のステップは、異なるタイプのフィンガープリントに対して均一な重み付けを使用して実行され得る。

ステップ２０６では、各参照分子について、かつフィンガープリントのそれぞれを使用して、サンプル分子までの距離が計算される。参照分子とサンプル分子の間で取得された距離は、計算に使用されたフィンガープリントのタイプに基づいて、これら２つの分子の類似性の逆数を表す場合がある。言い換えれば、より類似した分子に対してより短い距離が得られ、より類似性の低い分子に対してより長い距離が得られる。本発明の一実施形態では、谷本距離が使用される。距離の計算は、フィンガープリントのタイプごとに個別に実行することができる。したがって、参照分子とサンプル分子に１０タイプのフィンガープリントが利用できる場合、参照分子とサンプル分子の類似性を表すために１０の距離が取得される。さらに、合計５０の参照分子が利用可能な場合、合計５００の距離（５０ｘ１０）が取得される。取得された距離は、高次元空間における参照分子とサンプル分子の類似性を表す。空間の次元は、使用されるフィンガープリントタイプの数の結果であり得る。具体的には、上記の例では、（１０タイプのフィンガープリントの使用に基づく）１０次元空間が生じ、５０の参照分子が表される。フィンガープリントのタイプごとに関連する分子の特徴がわずかに異なるため、結果として得られる距離はフィンガープリントのタイプによって変動する可能性がある。

ステップ２０８では、相対的な予測優性が、参照分子のそれぞれについて判定される。具体的には、各参照分子は、ステップ２０６で取得された距離に基づいて、いずれかの他の参照分子と比較することができる。例えば、共に３つのフィンガープリントに関連付けられている参照分子ＡとＢについて考察してみる。したがって、ステップ２０６の実行後、参照分子ＡおよびＢのそれぞれについて３つの距離が利用可能である。分子Ａについての距離が［０．６０．４０．７］であり、分子Ｂについての距離が［０．７０．４０．１］であると仮定する。ＡとＢを直接比較すると、第１のフィンガープリントの場合、分子Ａは分子Ｂよりも近く、第２のフィンガープリントの場合、分子ＡとＢは等しく近く、第３のフィンガープリントの場合、分子Ｂは分子Ａよりも近くなる。スコアリングベクトルＡｖｓＢ＝［１０．５０］で記述することができ、「１」は、分子Ａが分子Ｂよりも近いことを示し、０は、分子Ｂが分子Ａよりも近いことを示し、０．５は、分子ＡとＢが等しく近いことを示す。ステップ２０４で取得された重みを使用して、距離が類似していると見なされる領域を調整することができる（結果としてスコアが０．５になる）。重みが大きいと、距離が類似していると見なされる範囲が狭くなる可能性がある一方、重みが小さいと、距離が類似していると見なされる範囲が広くなる可能性がある。重みがゼロの場合、実際の距離に関係なく、スコアは常に０．５になる。このステップは、参照分子のいずれかの組み合わせに対して実行することができる。実装についての例を提供する擬似コードが、図３Ａに提供されている。

複数の参照分子についての予測優性は、参照分子についての予測優性値を含む優性行列に要約できる。

ステップ２１０において、適応度は、各参照分子について判定される。本発明の１つ以上の実施形態では、スコアリング関数を使用して、ステップ２０８で取得された優性関係を、各参照分子の単一の適応度値に変換する。適応度の値は、特定の参照分子がサンプル分子にどれだけ類似しているかを定量化する場合がある。参照分子のそれぞれに対する適応度の取得は、図３Ｂに提供される擬似コードによって示されている。スコアリング関数は、適応度の値を割り当てるときに、平均して、つまりフィンガープリントの全てまたは大部分について有利に比較される参照分子を優先する場合がある。これらは、（ステップ２０８で取得された予測優性に基づいて）大抵は他の参照分子よりも「優勢」であり、他の参照分子に対してあまり「優勢」ではない参照分子であり得る。言い換えれば、「クラス最高の」参照分子は、他のどの参照分子よりも多くのフィンガープリントについて、標的分子に最も近い参照分子であり得る。

ステップ２１２において、サンプル分子の特性は、適応度値によってスケーリングされた、参照分子の特性に基づいて予測される。適応度値は、０〜１の数値範囲にスケーリングすることができる。本発明の一実施形態では、適応度値は、全ての適応度値の合計が「１」であるようにスケーリングされる。適応度が低い（またはない）ことを示す「０」値は、関連する参照分子がサンプル分子の特性を予測するための候補として不十分であることを示している。対照的に、高い値は、関連する参照分子がサンプル分子の特性を予測するために使用されるのに非常に適切な候補であることを示している。したがって、参照分子に関連する適応度値に基づいて、参照分子の特性を、サンプル分子の特性の予測のために考察することができる。

例えば、サンプル分子についてバイナリ特性が予測されるシナリオを考察してみる。「１」は特性が存在することを表すために使用され得、「０」は特性が存在しないことを表すために使用され得る。この特性が以前に評価された多くの参照分子が利用可能であると仮定する。これらの参照分子の１つには特性があり、この参照分子に関連する適応度値は０．７８であると判定された。したがって、ステップ２１２で、この分子は０．７８の寄与度で「１」に投票することになる。他の全ての参照分子に対して同じ分析を実行して、多数決を取得することができる。多数決への参照分子の寄与度のそれぞれは、関連する適応度値に基づいてスケーリングすることができる。その後、多数決に基づいて、サンプル分子に関連付けられたバイナリ特性が「０」か「１」かが判定される。

多数決に基づく同様の予測は、３つ以上のクラスを含む特性に対して行うことができる。さらに、連続する特性の予測は、関連する適応度値に基づいて、各参照分子の寄与度をスケーリングすることによっても実行できる。

本発明の様々な実施形態は、以下の利点のうちの１つ以上を有する。本発明の実施形態は、サンプル分子の特性の予測を可能にする。予測では、複数の参照分子に対して取得された複数のタイプのフィンガープリントが考察される。したがって、予測を行う前に、特定のフィンガープリントを選択する必要はない。多次元空間における距離ベースの測定基準は、分子特性の識別に使用される。ハイパーパラメータを手動で選択する必要はなく、新しい参照分子は、利用可能になった時点ですぐに予測において考察され得る。予測における複数のフィンガープリントの考察に基づいて、予測の偏りと過剰適合のリスクが軽減される。したがって、高次元情報の落とし穴が回避される。

図４は、本発明の実施形態と従来の分類器との性能比較（４００）を示している。比較において、実施形態は、１７のＡＤＭＥＴ特性を予測するために、５つの他の従来の分類器と並行してテストされた。５つの従来のアプローチのそれぞれについて、データセットの８０％を使用し、盲検試験用に２０％を残して、５分割交差検証を実行した。このプロセスは、８タイプの化学的フィンガープリントを反復し、グリッド検索戦略を使用してハイパーパラメータを調整した。本発明の実施形態では、８０％／２０％の試験分割もまた、直接比較（「ＡＰテストセット」と表示）、ならびに「一個抜き」完全交差検証（「ＡＰフルセット」と表示）に適用され、データセットサイズに対する予測の安定性を評価した。標準的なアプローチでは従来のモデルごとに１つのフィンガープリントしかないのに対し、１つのモデルを構築するために１０の異なるフィンガープリントを同時に使用した。従来の分類器のテストでは、各フィンガープリントに対してモデルが個別に構築され、交差検証スコアで最高の性能を発揮するモデルが選択され、テストセットで性能が測定された。全てのモデルについて予測力は、予測性能の受信者動作特性曲線（ＲＯＣＡＵＣ）測定値の下の領域を使用して評価された。１７の異なるモデルに使用したデータセットは、キュレーションされた既発表のＱＳＡＲ研究から取得されており、それぞれが特定のＡＤＭＥＴ特性に最適化されたモデルを構築することに焦点を当てている。

図４に示されるように、本発明の実施形態は、ＲＯＣＡＵＣスコアに基づいて、１７のＡＤＭＥＴ特性全てについて５つの従来の分類器を一貫して上回っている。本発明の実施形態では、従来のアプローチで必要とされていた８０／２０％の分割を必要とせずに、全てのデータをトレーニングに使用する能力を有しているため、図４の「ＡＰフル」と「ＡＰテスト」の差に示されるように、ほとんどの特性について高い予測力が取得される。さらに、本発明の実施形態と従来の分類器との直接比較を可能にする同じ８０／２０％のデータ分割を使用する場合でさえ、「ＡＰテスト」は依然として従来の分類器のそれぞれを上回っている。

図５Ａおよび図５Ｂは、過剰適合を評価するための、本発明の実施形態（５００Ａ、図５Ａ）および従来の定量的構造活性相関（ＱＳＡＲ）アプローチ（５００Ｂ、図５Ｂ）の交差検証対盲検試験のＲＯＣＡＵＣスコアを示している。図５Ａ（本発明の実施形態）のプロットの異なる点で表されるほとんど全ての特性が対角線上に落ちるか、非常に近いのに対し、図５Ｂ（従来の分類器）では検証性能がテスト性能よりも高くなる傾向があり、過剰適合を示している。アンドロゲン受容体（ＡＲ）結合モデルは、両方のツールに過剰適合しているように見えるが、本発明の実施形態は、最良の従来の分類器（テスト：０．５０）よりも依然として良好に機能する（テスト：０．６２）。

図６は、本発明の実施形態対、最も性能の高い従来の分類器とフィンガープリントの組み合わせの性能の概要（６００）を示す。従来の分類器が同時に多くのフィンガープリントを使用できないため、最高の性能スを発揮するモデルを生成するフィンガープリント／分類器のタイプに一貫性がなくなる。この非一貫性は、シトクロムＰ４５０アイソフォームでは疑いもなく明白であり、各アイソフォームに対し、異なるフィンガープリント／分類器が最高の性能の分類器を出力する。

従来の分類器の実装に関連する懸念に対処するために、本発明の実施形態の性能もまた、以前に文献で報告された結果と比較された。例えば、Ｓｈｅｎら（ＳｈｅｎＪ．ら、ＥｓｔｉｍａｔｉｏｎｏｆＡＤＭＥＰｒｏｐｅｒｔｉｅｓｗｉｔｈＳｕｂｓｔｒｕｃｔｕｒｅＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｊ．Ｃｈｅｍ．Ｉｎｆ．Ｍｏｄｅｌ．５０，１０３４−１０４１（２０１０））は、ＤｒｕｇＢａｎｋで使用されているツールであるＡｄｍｅｔＳＡＲについて、血液脳関門（ＢＢＢ）およびヒト腸管吸収（ＨＩＡ）特性に対する性能を評価した報告をしている。彼らの報告に基づくと、ＡｄｍｅｔＳＡＲＲＯＣＡＵＣスコア（ＢＢＢ：０．９５１７、ＨＩＡ：０．９４５８）は、本発明の実施形態（ＢＢＢ：０．９７３８、ＨＩＡ：０．９５３３）よりも優れている。

結論として、本発明の実施形態は、従来の機械学習方法を一貫して上回っている。

予測は、広範囲の特性を予測するために、広範囲の分子に対して実行され得る。本発明の１つ以上の実施形態は、新薬の開発に特に有益であり得る。薬の開発は長く、費用のかかるプロセスである。本発明の実施形態を使用して、ＡＤＭＥＴ特性を予測する能力は、このプロセスを加速し、コストを削減し得る。さらに、典型的な機械学習ベースの方法とは異なり、ハイパーパラメータを最適化する必要がないため、本発明の実施形態は、機械学習のバックグラウンドを持たない薬剤開発者でも使用することができる。

単一の問題を解決するように設計された非常に特殊なツールを提供する従来のモデリングアプローチとは異なり、本発明の実施形態は、医薬品開発を超えた様々な分野に適用可能である。分子の量的または質的特性、分子の相互作用などを予測するあらゆる分野が恩恵を被ることができる。本発明の実施形態は、分子の特性を予測する場合に、所望の特性を持つ分子を反復して取得するための新しい分子の検出／開発サイクルにおいて、および／または既存の分子の代替的な用途を特定する場合に使用することができる。

本開示の実施形態を、コンピューティングシステム上に実装してもよい。モバイル、デスクトップ、サーバ、ルータ、スイッチ、組み込みデバイス、または他のタイプのハードウェアの任意の組み合わせを使用してもよい。例えば、図７Ａに示すように、コンピューティングシステム（７００）は、１つ以上のコンピュータプロセッサ（７０２）、非永続的記憶装置（７０４）（例えば、ランダムアクセスメモリ（ＲＡＭ）などの揮発性メモリ、キャッシュメモリ）、永続的記憶装置（７０６）（例えば、ハードディスク、コンパクトディスク（ＣＤ）ドライブまたはデジタル多用途ディスク（ＤＶＤ）ドライブなどの光学ドライブ、フラッシュメモリなど）、通信インターフェース（７１２）（例えば、Ｂｌｕｅｔｏｏｔｈインターフェース、赤外線インターフェース、ネットワークインターフェース、光学インターフェースなど）、ならびに多数の他の要素および機能を含んでもよい。

コンピュータプロセッサ（複数可）（７０２）は、命令を処理するための集積回路であってもよい。例えば、コンピュータプロセッサは、プロセッサの１つ以上のコアまたはマイクロコアであってもよい。コンピューティングシステム（７００）はまた、タッチスクリーン、キーボード、マウス、マイクロフォン、タッチパッド、電子ペン、またはいずれかの他のタイプの入力デバイスなどの１つ以上の入力デバイス（７１０）を含んでもよい。

通信インターフェース（７１２）は、コンピューティングシステム（７００）をネットワーク（図示せず）（例えば、ローカルエリアネットワーク（ＬＡＮ）、インターネット、モバイルネットワーク、もしくはいずれかの他のタイプのネットワークなどのワイドエリアネットワーク（ＷＡＮ））および／または別のコンピューティングデバイスなどの別のデバイスに接続するための集積回路を含んでもよい。

さらに、コンピューティングシステム（７００）は、スクリーン（例えば、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ、タッチスクリーン、陰極線管（ＣＲＴ）モニタ、プロジェクタ、またはその他の表示デバイス）、プリンタ、外部記憶装置、またはいずれかの他の出力デバイスなどの１つ以上の出力デバイス（７０８）を含んでもよい。１つ以上の出力デバイスは、入力デバイスと同じでもまたは異なっていてもよい。入力および出力デバイス（複数可）は、コンピュータプロセッサ（７０２）、非永続的記憶装置（７０４）、および永続的記憶装置（７０６）にローカルまたはリモートで接続されてもよい。多くの異なるタイプのコンピューティングシステムが存在し、前述の入力デバイスおよび出力デバイスは他の形式をとってもよい。

本開示の実施形態を実行するためのコンピュータ可読プログラムコードの形のソフトウェア命令は、全体的または部分的に、一時的または永続的に、ＣＤ、ＤＶＤ、記憶デバイス、ディスケット、テープ、フラッシュメモリ、物理メモリ、または他のコンピュータ可読記憶媒体などの非一時的なコンピュータ可読媒体に記憶されていてもよい。具体的には、ソフトウェア命令は、プロセッサによって実行されるときに、本開示の１つ以上の実施形態を実行するように構成されたコンピュータ可読プログラムコードに対応してもよい。

図７Ａのコンピューティングシステム（７００）は、ネットワークの一部に接続されるか、またはそれであってもよい。例えば、図７Ｂに示すように、ネットワーク（７２０）は、複数のノード（例えば、ノードＸ（７２２）、ノードＹ（７２４））を含んでもよい。各ノードは、図７Ａに示すコンピューティングシステムなどのコンピューティングシステムに対応してもよく、または組み合わされたノードの群は、図７Ａに示すコンピューティングシステムに対応してもよい。例として、本開示の実施形態を、他のノードに接続されている分散システムのノード上に実装してもよい。別の例として、本開示の実施形態を、複数のノードを有する分散コンピューティングシステム上に実装してもよく、本開示の各部分は、分散コンピューティングシステム内の異なるノード上に配置してもよい。さらに、前述のコンピューティングシステム（７００）の１つ以上の要素を、離れた場所に配置して、ネットワーク上で他の要素に接続してもよい。

図７Ｂには示していないが、ノードは、バックプレーンを介して他のノードに接続しているサーバシャーシ内のブレードに対応してもよい。別の例として、ノードは、データセンター内のサーバに対応してもよい。別の例として、ノードは、共有メモリおよび／またはリソースを有するコンピュータプロセッサまたはコンピュータプロセッサのマイクロコアに対応してもよい。

ネットワーク（７２０）内のノード（例えば、ノードＸ（７２２）、ノードＹ（７２４））を、クライアントデバイス（７２６）にサービスを提供するように構成してもよい。例えば、ノードはクラウドコンピューティングシステムの一部であってもよい。ノードは、クライアントデバイス（７２６）から要求を受信し、クライアントデバイス（７２６）に応答を送信する機能を含んでもよい。クライアントデバイス（７２６）は、図７Ａに示すコンピューティングシステムなどのコンピューティングシステムであってもよい。さらに、クライアントデバイス（７２６）は、本開示の１つ以上の実施形態の全てもしくは一部分を含み、かつ／または実行してもよい。

図７Ａおよび７Ｂに記載されるコンピューティングシステムまたはコンピューティングシステムの群は、本明細書に開示している様々な演算を実行する機能を含んでもよい。例えば、コンピューティングシステムは、同じまたは異なるシステム上のプロセス間の通信を実行してもよい。何らかの形のアクティブ通信またはパッシブ通信を用いる様々な機構により、同じデバイス上のプロセス間でのデータ交換が容易になってもよい。これらのプロセス間通信を表す例には、ファイル、信号、ソケット、メッセージキュー、パイプライン、セマフォ、共有メモリ、メッセージパッシング、およびメモリマップファイルの実装が含まれるが、これらに限定されない。これらの非限定的な例のいくつかに関するさらなる詳細を以下に提供する。

クライアントサーバネットワーキングモデルに基づいて、ソケットは、インターフェースまたは通信チャネルエンドポイントとして機能して、同じデバイス上のプロセス間の双方向データ転送を可能にし得る。何よりも先ず、クライアントサーバネットワーキングモデルに従って、サーバプロセス（例えば、データを提供するプロセス）が第１のソケットオブジェクトを作成してもよい。次に、サーバプロセスは第１のソケットオブジェクトにバインドし、それによって最初のソケットオブジェクトが一意の名前および／またはアドレスに関連付けられる。第１のソケットオブジェクトを作成してバインドした後、サーバプロセスは１つ以上のクライアントプロセス（データのシークを行うプロセスなど）からの着信接続要求を待機してリスニングする。この時点で、クライアントプロセスがサーバプロセスからデータを取得しようとする場合、クライアントプロセスは第２のソケットオブジェクトを作成することによって開始する。次に、クライアントプロセスは、少なくとも第２のソケットオブジェクトならびに第１のソケットオブジェクトに関連付けられた一意の名前および／またはアドレスを含む接続要求の生成に進む。次に、クライアントプロセスは接続要求をサーバプロセスに送信する。可用性に応じて、サーバプロセスは接続要求を受け入れて、クライアントプロセスとの通信チャネルを確立してもよく、または、サーバプロセスは、他の演算の処理でビジー状態で、サーバプロセスの準備ができるまで接続要求をバッファーにキューイングしてもよい。確立された接続は、通信が開始される可能性があることをクライアントプロセスに通知する。それに応じて、クライアントプロセスは、クライアントプロセスが取得しようとするデータを指定するデータ要求を生成してもよい。その後、データ要求はサーバプロセスに送信される。データ要求の受信時に、サーバプロセスは要求を分析し、要求されたデータを収集する。最後に、サーバプロセスは次いで、少なくとも要求されたデータを含む応答を生成し、その応答をクライアントプロセスに送信する。データを、より一般的には、データグラムまたは文字のストリーム（例えば、バイト）として転送してもよい。

共有メモリは、データが複数のプロセスによって通信および／またはアクセスされてもよい機構を実証するための仮想メモリ空間の割り当てを指す。共有メモリの実装では、初期化プロセスは先ず、永続的なまたは非永続的な記憶装置において共有可能なセグメントを作成する。作成後、初期化プロセスは共有可能セグメントをマウントし、その後、初期化プロセスに関連付けられたアドレス空間に共有可能セグメントをマッピングする。マウントに続いて、初期化プロセスは、共有可能セグメントにデータを書き込んでもまたは共有可能セグメントからデータを読み出してもよい１つ以上の許可されたプロセスを識別してアクセス許可を付与するために進む。１つのプロセスによって共有可能セグメント内のデータになされた変更は、共有可能セグメントにもリンクされている他のプロセスに即座に影響してもよい。さらに、許可されたプロセスのうちの１つが共有可能セグメントにアクセスするとき、共有可能セグメントはその許可されたプロセスのアドレス空間に対してマッピングされる。多くの場合、１つの許可されたプロセスだけが、初期化プロセス以外で、任意の所与の時間に、共有可能セグメントをマウントしてもよい。

他の技法を使用して、本開示の範囲から逸脱することなく、プロセス間で、本出願に記載されている様々なデータなどのデータを共有してもよい。プロセスは、同じまたは異なるアプリケーションの一部であってもよく、同じまたは異なるコンピューティングシステムで実行されてもよい。

プロセス間でデータを共有するのではなく、またはプロセス間でデータを共有するのに加えて、本開示の１つ以上の実施形態を実行するコンピューティングシステムは、ユーザからデータを受信する機能を含んでもよい。例えば、１つ以上の実施形態では、ユーザは、ユーザデバイス上のグラフィカルユーザインターフェース（ＧＵＩ）を介してデータを提出してもよい。１つ以上のグラフィカルユーザインターフェースウィジェットを選択する、または、タッチパッド、キーボード、マウス、もしくは他の入力デバイスを使用してテキストおよび他のデータをグラフィカルユーザインターフェースウィジェットに挿入するユーザにより、データを、グラフィカルユーザインターフェースを介して送信してもよい。特定のアイテムの選択に応答して、特定のアイテムに関する情報を、コンピュータプロセッサによって永続的または非永続的記憶装置から取得してもよい。ユーザによるアイテムの選択時に、特定のアイテムに関して取得されたデータのコンテンツを、ユーザの選択に応答してユーザデバイス上に表示してもよい。

別の例として、特定のアイテムに関するデータを取得する要求を、ネットワークを介してユーザデバイスに動作可能に接続されたサーバに送信してもよい。例えば、ユーザは、ユーザデバイスのＷｅｂクライアント内のユニフォームリソースロケータ（ＵＲＬ）リンクを選択して、それにより、ＵＲＬに関連付けられたネットワークホストに送信されるハイパーテキスト転送プロトコル（ＨＴＴＰ）または他のプロトコル要求を開始してもよい。リクエストに応答して、サーバは特定の選択されたアイテムに関するデータを抽出し、要求を開始したデバイスにデータを送信してもよい。ユーザデバイスが特定のアイテムに関するデータを受信すると、特定のアイテムに関する受信されたデータのコンテンツは、ユーザの選択に応答して、ユーザデバイス上に表示されてもよい。上記の例に加えて、ＵＲＬリンクを選択した後にサーバから受信したデータは、Ｗｅｂクライアントによってレンダリングされ、かつユーザデバイスに表示されてもよいハイパーテキストマークアップ言語（ＨＴＭＬ）のＷｅｂページを提供してもよい。

上述の技法を使用することなどによって、または記憶装置からデータが取得されると、コンピューティングシステムは、本開示の１つ以上の実施形態を実行する際に、取得されたデータから１つ以上のデータアイテムを抽出してもよい。例えば、抽出は、図７Ａのコンピューティングシステムによって以下のように実行されてもよい。先ず、データの編成パターン（例えば、文法、スキーマ、レイアウト）が決定され、これは、位置（例えば、ビットまたは列の位置、データストリーム内のＮ番目のトークンなど）、属性（属性が１つ以上の値に関連付けられている場合）、または階層／ツリー構造（ネストされたパケットヘッダまたはネストされたドキュメントセクションなどの様々な詳細レベルのノードのレイヤで構成される）の１つ以上に基づいてもよい。次に、生で未処理のデータシンボルのストリームが、編成パターンのコンテキストで、トークン（各トークンは、関連付けられたトークンの「タイプ」を有してもよい）のストリーム（または階層構造）に解析される。

次に、抽出基準を使用して、トークンストリームまたは構造から１つ以上のデータアイテムを抽出し、抽出基準は、編成パターンに従って処理されて、１つ以上のトークン（または階層構造からノード）を抽出する。位置ベースのデータの場合、抽出基準によって識別された位置のトークンが抽出される。属性／値ベースのデータの場合、抽出基準を満たす属性に関連付けられたトークンおよび／またはノードが抽出される。階層的な／階層化されたデータの場合、抽出基準に一致するノードに関連付けられたトークンが抽出される。抽出基準は、識別子文字列のように単純であってもよく、または構造化データリポジトリに提供されるクエリであってもよい（データリポジトリは、ＸＭＬなどのデータベーススキーマまたはデータ形式に従って編成されてもよい）。

抽出されたデータは、コンピューティングシステムによるさらなる処理に使用されてもよい。例えば、図７Ａのコンピューティングシステムは、本開示の１つ以上の実施形態を実行しながら、データ比較を実行してもよい。データ比較を使用して、２つ以上のデータ値（例えば、Ａ、Ｂ）を比較してもよい。例えば、１つ以上の実施形態は、Ａ＞Ｂ、Ａ＝Ｂ、Ａ！＝Ｂ、Ａ＜Ｂなどであるかどうかを判定してもよい。この比較を、Ａ、Ｂ、ならびに算術論理ユニット（ＡＬＵ）（すなわち、２つのデータ値に関して算術演算および／またはビット毎の論理演算を実行する回路）に対して比較に関する演算を指定する演算コードを提出することによって実行してもよい。ＡＬＵは、演算の数値結果および／または数値結果に関連する１つ以上のステータスフラグを出力する。例えば、ステータスフラグは、数値結果が正の数、負の数、ゼロなどであるかどうかを示してもよい。適切な演算コードを選択し、次に数値結果および／またはステータスフラグを読み取ることによって、比較を実行してもよい。例えば、Ａ＞Ｂかどうかを判定するために、ＢはＡから除算（すなわち、Ａ−Ｂ）されてもよく、ステータスフラグを読み取って、結果が正かどうかを判定（すなわち、Ａ＞Ｂの場合、Ａ−Ｂ＞０）してもよい。１つ以上の実施形態では、Ｂを閾値と見なしてもよく、ＡＬＵを使用して判定されるように、Ａ＝Ｂの場合またはＡ＞Ｂの場合、Ａは閾値を満たすと見なされる。本開示の１つ以上の実施形態では、ＡおよびＢはベクトルであってもよく、ＡをＢと比較することは、ベクトルＡの第１の要素をベクトルＢの第１の要素と比較すること、ベクトルＡの第２の要素をベクトルＢの第２の要素と比較することなどを必要とする。１つ以上の実施形態では、ＡおよびＢが文字列である場合、文字列の二進値を比較してもよい。

図７Ａのコンピューティングシステムは、データリポジトリを実装、および／またはそれに接続してもよい。例えば、データリポジトリの１つのタイプはデータベースである。データベースは、データ検索、修飾、再編成、および削除を容易にするために構成された情報の集まりである。データベース管理システム（ＤＢＭＳ）は、ユーザがデータベースを定義、作成、問い合わせ、更新、または管理するためのインターフェースを提供するソフトウェアアプリケーションである。

ユーザまたはソフトウェアアプリケーションは、ステートメントまたはクエリをＤＢＭＳに提出してもよい。次に、ＤＢＭＳは文字列を解釈する。文字列は、情報を要求するｓｅｌｅｃｔステートメント、ｕｐｄａｔｅステートメント、ｃｒｅａｔｅステートメント、ｄｅｌｅｔｅステートメントなどである。さらに、ステートメントには、データ、またはデータコンテナ（データベース、テーブル、レコード、列、ビューなど）、識別子、条件（比較演算子）、関数（例えば、ｊｏｉｎ、ｆｕｌｌｊｏｉｎ、ｃｏｕｎｔ、ａｖｅｒａｇｅなど）、ソート（例えば、昇順、降順）などを指定するパラメータを含んでもよい。ＤＢＭＳはステートメントを実行してもよい。例えば、ＤＢＭＳは、ステートメントに応答するために、読み取り、書き込み、削除、またはそれらの任意の組み合わせのために、メモリバッファ、参照またはインデックスファイルにアクセスしてもよい。ＤＢＭＳは、永続的または非永続的なストレージからデータをロードして、クエリに応答するための計算を実行してもよい。ＤＢＭＳは、結果をユーザまたはソフトウェアアプリケーションに返してもよい。

図７Ａのコンピューティングシステムは、比較および他の処理の結果など、生のおよび／または処理されたデータを提供する機能を含んでもよい。例えば、データを提供することは、様々な提示方法を通じて達成されてもよい。具体的には、データは、コンピューティングデバイスによって提供されるユーザインターフェースを介して提供されてもよい。ユーザインターフェースは、コンピュータモニタまたはハンドヘルドコンピュータデバイス上のタッチスクリーンなどのディスプレイデバイス上に情報を表示するＧＵＩを含んでもよい。ＧＵＩは、どのデータが示されるか、およびどのようにデータがユーザに提供されるかを編成する様々なＧＵＩウィジェットを含んでもよい。さらに、ＧＵＩは、データ、例えば、テキストを通じて実際のデータ値として提供されるデータ、またはコンピューティングデバイスによってデータモデルの視覚化などを通じてデータの視覚的表現にレンダリングされるデータをユーザに直接提供してもよい。

例えば、ＧＵＩは先ず、特定のデータオブジェクトがＧＵＩ内に提供されることを要求するソフトウェアアプリケーションから通知を取得してもよい。次に、ＧＵＩは、例えば、データオブジェクトタイプを識別するデータオブジェクト内のデータ属性からデータを取得することによって、特定のデータオブジェクトに関連するデータオブジェクトタイプを判定してもよい。次に、ＧＵＩは、そのデータオブジェクトタイプを表示するために指定される任意のルール、例えば、データオブジェクトクラスについてのソフトウェアフレームワークによって、またはそのデータオブジェクトタイプを提示するためにＧＵＩによって定義されたローカルパラメータに従って指定されるルールを判定してもよい。最後に、ＧＵＩは、特定のデータオブジェクトからデータ値を取得し、そのデータオブジェクトタイプのために指定されるルールに従ってディスプレイデバイス内でデータ値の視覚的表現をレンダリングしてもよい。

データはまた、様々なオーディオ方法により提供されてもよい。特に、データは、オーディオフォーマットにレンダリングされ、コンピューティングデバイスに動作可能に接続された１つ以上のスピーカを介して音声として提供されてもよい。

データはまた、触覚的方法によりユーザに提供されてもよい。例えば、触覚的方法は、コンピューティングシステムによって生成される振動または他の物理的信号を含んでもよい。例えば、データは、データを通信するために、所定の持続時間および振動の強さで、ハンドヘルドコンピュータデバイスによって生成される振動を使用して、ユーザに提供されてもよい。

上記の機能の説明では、図７Ａのコンピューティングシステムおよび図７Ｂのノードおよび／またはクライアントデバイスによって実行される機能のほんの数例しか提示していない。本開示の１つ以上の実施形態を使用して他の機能を実行してもよい。

本開示では限られた数の実施形態に関して説明しているが、本開示の利益を有する当業者は、本明細書に開示している開示の範囲から逸脱しない他の実施形態が考案され得ることを理解するであろう。したがって、本開示の範囲は、添付の特許請求の範囲によってのみ制限されるべきである。

本明細書に記載の実施形態および実施例は、本発明およびその特定の用途を最もよく説明し、それにより当業者が本発明を行いかつ使用することを可能にするために提示された。しかしながら、当業者は、前述の説明および実施例が、例示および例のみの目的で提示されていることを認識するであろう。記載している説明は、網羅的であること、または本発明を開示している正確な形態に限定することを意図していない。

本発明を限られた数の実施形態に関して説明しているが、この開示の利益を有する当業者は、本明細書に開示されている本発明の範囲から逸脱しない他の実施形態を考案できることを理解するであろう。したがって、本発明の範囲は、添付の特許請求の範囲によってのみ制限されるべきである。

Claims

サンプル分子の特性を予測するための方法であって、
複数の参照分子のそれぞれについて、複数のフィンガープリントおよび少なくとも１つの特性を取得することと、
前記サンプル分子の前記複数のフィンガープリントを取得することと、
前記複数の参照分子のそれぞれについて、前記複数のフィンガープリントのそれぞれを使用して、前記サンプル分子までの距離を計算することと、
前記複数の参照分子のそれぞれについて、前記サンプル分子までの前記距離に基づいて、相対的な予測優性を判定することと、
前記複数の参照分子のそれぞれについて、前記相対的な予測優性に基づいて適応度値を判定することと、
前記複数の参照分子の前記少なくとも１つの特性および前記参照分子について取得された前記適応度値に基づいて、前記サンプル分子の前記少なくとも１つの特性を予測することと、を含む方法。
前記サンプル分子までの距離を計算することが、
前記複数の参照分子のそれぞれについて、前記サンプル分子までの谷本距離を計算すること、を含む、請求項１に記載の方法。
前記相対的な予測優性を判定することが、
前記複数の参照分子のうちの２つの組み合わせについて、スコアリングベクトルを取得すること、を含む、請求項１に記載の方法。
前記スコアリングベクトルが、前記複数のフィンガープリントのそれぞれについて、前記２つの参照分子のうちの第１または第２が前記サンプル分子に近いかどうかを示す、請求項３に記載の方法。
前記相対的な予測優性を判定することが、
前記スコアリングベクトルを他のスコアリングベクトルと組み合わせて、優性行列を形成すること、をさらに含む、請求項３に記載の方法。
前記予測優性に基づいて、前記適応度値を判定することが、
前記複数のフィンガープリントのうちのより多くのフィンガープリントについて、前記１つの参照分子が他の参照分子のいずれよりも前記標的分子に近いことに基づいて、前記複数の参照分子のうちの１つを他の参照分子よりも優先することと、を含む、請求項１に記載の方法。
前記サンプル分子の前記少なくとも１つの特性を予測することが、
前記複数の参照分子のそれぞれによって、前記少なくとも１つの特性について多数決を取得すること、を含む、請求項１に記載の方法。
前記サンプル分子の前記少なくとも１つの特性を予測することが、
前記複数の参照分子のそれぞれによる寄与度を、関連する前記適応度値によって前記多数決へスケーリングすること、をさらに含む、請求項７に記載の方法。
前記少なくとも１つの特性が、
バイナリ特性、および
連続特性から選択される少なくとも１つである、請求項１に記載の方法。
サンプル分子の特性を予測するためのシステムであって、
参照分子リポジトリと、
分子特性予測エンジンであって、
複数の参照分子のそれぞれについて、前記参照分子リポジトリから複数のフィンガープリントおよび少なくとも１つの特性を取得することと、
前記サンプル分子の前記複数のフィンガープリントを取得することと、
複数の参照分子のそれぞれについて、前記複数のフィンガープリントのそれぞれを使用して、前記サンプル分子までの距離を計算することと、
前記複数の参照分子のそれぞれについて、前記サンプル分子までの前記距離に基づいて、相対的な予測優性を判定することと、
前記複数の参照分子のそれぞれについて、前記相対的な予測優性に基づいて、適応度値を判定することと、
前記複数の参照分子の少なくとも１つの特性および前記参照分子について取得された前記適応度値に基づいて、前記サンプル分子の前記少なくとも１つの特性を予測することと、を行なうよう構成されている分子特性予測エンジンと、を含む、システム。
前記相対的な予測優性を判定することが、
前記複数の参照分子のうちの２つの組み合わせについて、スコアリングベクトルを取得することであって、前記スコアリングベクトルが、前記複数のフィンガープリントのそれぞれについて、前記２つの参照分子の第１または第２が前記サンプル分子に近いかどうかを示す、取得すること、を含む、請求項１０に記載のシステム。
前記予測優性に基づいて、前記適応度値を判定することが、
前記複数のフィンガープリントのうちのより多くのフィンガープリントについて、前記１つの参照分子が他の参照分子のいずれよりも前記標的分子に近いことに基づいて、前記複数の参照分子のうちの１つを他の参照分子よりも優先することと、を含む、請求項１０に記載のシステム。
サンプル分子の特性を予測するためのコンピュータ可読プログラムコードを含む非一時的なコンピュータ可読媒体であって、前記コンピュータ可読プログラムコードが、コンピュータシステムに、
複数の参照分子のそれぞれについて、複数のフィンガープリントおよび少なくとも１つの特性を取得することと、
前記サンプル分子の前記複数のフィンガープリントを取得することと、
複数の参照分子のそれぞれについて、前記複数のフィンガープリントのそれぞれを使用して、前記サンプル分子までの距離を計算することと、
前記複数の参照分子のそれぞれについて、前記サンプル分子までの前記距離に基づいて、相対的な予測優性を判定することと、
前記複数の参照分子のそれぞれについて、前記相対的な予測優性に基づいて、適応度値を判定することと、
前記複数の参照分子の少なくとも１つの特性および前記参照分子について取得された前記適応度値に基づいて、前記サンプル分子の前記少なくとも１つの特性を予測することと、を行なわせる、非一時的なコンピュータ可読媒体。
前記相対的な予測優性を判定することが、
前記複数の参照分子のうちの２つの組み合わせについて、スコアリングベクトルを取得すること、を含む、請求項１３に記載の非一時的なコンピュータ可読媒体。
前記スコアリングベクトルが、前記複数のフィンガープリントのそれぞれについて、前記２つの参照分子のうちの第１または第２が前記サンプル分子に近いかどうかを示す、請求項１４に記載の非一時的なコンピュータ可読媒体。
前記相対的な予測優性を判定することが、
前記スコアリングベクトルを他のスコアリングベクトルと組み合わせて、優性行列を形成すること、をさらに含む、請求項１４に記載の非一時的なコンピュータ可読媒体。
前記予測優性に基づいて、前記適応度値を判定することが、
前記複数のフィンガープリントのうちのより多くのフィンガープリントについて、前記１つの参照分子が他の参照分子のいずれよりも前記標的分子に近いことに基づいて、前記複数の参照分子のうちの１つを他の参照分子よりも優先することと、を含む、請求項１３に記載の非一時的なコンピュータ可読媒体。
前記サンプル分子の前記少なくとも１つの特性を予測することが、
前記複数の参照分子のそれぞれによって、前記少なくとも１つの特性について多数決を取得すること、を含む、請求項１３に記載の非一時的なコンピュータ可読媒体。
前記サンプル分子の前記少なくとも１つの特性を予測することが、
前記複数の参照分子のそれぞれによる寄与度を、関連する前記適応度値による前記多数決へスケーリングすること、をさらに含む、請求項１８に記載の非一時的なコンピュータ可読媒体。
前記少なくとも１つの特性が、
バイナリ特性、および連続特性から選択される少なくとも１つである、請求項１３に記載の非一時的なコンピュータ可読媒体。