JP2022500766A - 化学構造の性質を予測するための方法およびシステム - Google Patents

化学構造の性質を予測するための方法およびシステム Download PDF

Info

Publication number
JP2022500766A
JP2022500766A JP2021514314A JP2021514314A JP2022500766A JP 2022500766 A JP2022500766 A JP 2022500766A JP 2021514314 A JP2021514314 A JP 2021514314A JP 2021514314 A JP2021514314 A JP 2021514314A JP 2022500766 A JP2022500766 A JP 2022500766A
Authority
JP
Japan
Prior art keywords
molecule
reference molecules
molecules
fingerprints
property
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021514314A
Other languages
English (en)
Other versions
JP7425047B2 (ja
Inventor
エドワード ブレレトン・アンドリュー
アルウォッシュ・サナ
スコット マッキノン・スティーブン
クリスティアン キャンベル ソモディ・ジョーセフ
ウィンデムス・アンドレアス
Original Assignee
サイクリカ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by サイクリカ インコーポレイテッド filed Critical サイクリカ インコーポレイテッド
Publication of JP2022500766A publication Critical patent/JP2022500766A/ja
Priority to JP2024005851A priority Critical patent/JP2024038428A/ja
Application granted granted Critical
Publication of JP7425047B2 publication Critical patent/JP7425047B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Analytical Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

サンプル分子の特性を予測する方法は、多数の参照分子のそれぞれについて、多数のフィンガープリントおよび少なくとも1つの特性を取得することと、サンプル分子の多数のフィンガープリントを取得すること、を伴う。この方法はさらに、多数の参照分子のそれぞれについて、多数のフィンガープリントのそれぞれを使用して、サンプル分子までの距離を計算することと、多数の参照分子のそれぞれについて、サンプル分子までの距離に基づいて相対的な予測優性を判定することと、を伴う。この方法はまた、多数の参照分子のそれぞれについて、相対的な予測優性に基づいて適応度値を判定することと、多数の参照分子の少なくとも1つの特性および参照分子について取得された適応度値に基づいて、サンプル分子の少なくとも1つの特性を予測することと、を伴う。

Description

[関連出願の相互参照]
本出願は、2018年9月13日に出願された、本出願と同じ発明者の少なくとも1人を有する「METHOD AND SYSTEM FOR PREDICTING PROPERTIES OF CHEMICAL STRUCTURES」と題する米国仮出願第62/730,913号に対して、米国連邦法第119(e)条に基づく優先権を主張する。米国仮特許出願第62/730,913号は、参照により本明細書に組み込まれる。
化学構造とこれらの化学構造の活性または特性との関係は、多くの化学構造について知られており、記述されている。新たに発見された、または合成されたサンプルの化学構造は、当初は未知の特性を持っている可能性がある。サンプルの化学構造と既知の化学構造との類似性を使用して、サンプルの化学構造の特性を予測することができる。
一般に、一態様では、1つ以上の実施形態は、サンプル分子の特性を予測するための方法に関し、この方法は、複数の参照分子のそれぞれについて、複数のフィンガープリントおよび少なくとも1つの特性を取得することと、サンプル分子の複数のフィンガープリントを取得することと、複数の参照分子のそれぞれについて、複数のフィンガープリントのそれぞれを使用して、サンプル分子までの距離を計算することと、複数の参照分子のそれぞれについて、サンプル分子までの距離に基づいて、相対的な予測優性を判定することと、複数の参照分子のそれぞれについて、相対的な予測優性に基づいて、適応度値を判定することと、複数の参照分子の少なくとも1つの特性および参照分子について得られた適応度値に基づいて、サンプル分子の少なくとも1つの特性を予測することと、を含む。
一般に、一態様では、1つ以上の実施形態は、サンプル分子の特性を予測するためのシステムに関し、このシステムは、参照分子リポジトリと、分子特性予測エンジンであって、複数の参照分子のそれぞれについて、参照分子リポジトリから複数のフィンガープリントおよび少なくとも1つの特性を取得することと、サンプル分子の複数のフィンガープリントを取得することと、複数の参照分子のそれぞれについて、複数のフィンガープリントのそれぞれを使用して、サンプル分子までの距離を計算することと、複数の参照分子のそれぞれについて、サンプル分子までの距離に基づいて、相対的な予測優性を判定することと、複数の参照分子のそれぞれについて、相対的な予測優性に基づいて、適応度値を判定することと、複数の参照分子の少なくとも1つの特性および参照分子について得られた適応度値に基づいて、サンプル分子の少なくとも1つの特性を予測することと、を行なうように構成されている分子特性予測エンジンと、を含む。
一般に、一態様では、1つ以上の実施形態は、サンプル分子の特性を予測するためのコンピュータ可読プログラムコードを含む非一時的なコンピュータ可読媒体に関し、このコンピュータ可読プログラムコードは、コンピュータシステムに、複数の参照分子のそれぞれについて、複数のフィンガープリントおよび少なくとも1つの特性を取得することと、サンプル分子の複数のフィンガープリントを取得することと、複数の参照分子のそれぞれについて、複数のフィンガープリントのそれぞれを使用して、サンプル分子までの距離を計算することと、複数の参照分子のそれぞれについて、サンプル分子までの距離に基づいて、相対的な予測優性を判定することと、複数の参照分子のそれぞれについて、相対的な予測優性に基づいて、適応度値を判定することと、複数の参照分子の少なくとも1つの特性および参照分子について得られた適応度値に基づいて、サンプル分子の少なくとも1つの特性を予測することと、を行なわせる。
実施形態の他の態様は、以下の説明および添付の特許請求の範囲から明らかになるであろう。
本実施形態は、例として示されており、添付の図面の図によって限定されることを意図していない。
本発明の1つ以上の実施形態によるシステムのブロック図を示す。 本発明の1つ以上の実施形態によるフローチャートを示す。 本発明の1つ以上の実施形態による擬似コードを示す。 本発明の1つ以上の実施形態による擬似コードを示す。 本発明の実施形態と従来の分類器との性能比較を示す。 本発明の実施形態についての交差検証対盲検試験ROC AUCスコアを示す。 従来の定量的構造活性相関(QSAR)アプローチの交差検証対盲検試験ROC AUCスコアを示す。 本発明の実施形態対、最も性能の高い従来の分類器とフィンガープリントの組み合わせの性能の概要を示す。 本発明の1つ以上の実施形態によるコンピューティングシステムを示す。 本発明の1つ以上の実施形態によるコンピューティングシステムを示す。
本明細書で開示される特定の実施形態について、添付の図面を参照して以下で詳細に説明する。様々な図中の同様の要素は、一貫性を保つために、同様の参照番号および/または同様の名前によって示されてもよい。
以下の詳細な説明は、本質的に単なる例示であり、本明細書に開示される実施形態または本明細書に開示される実施形態の用途および使用を限定することを意図するものではない。さらに、上記の技術分野、背景技術、簡単な概要、または以下の詳細な説明で提示されたいかなる明示的または暗示的な理論によっても拘束されることを意図していない。
本明細書に開示されたいくつかの実施形態についての以下の詳細な説明では、本明細書に開示された様々な実施形態のより完全な理解を提供するために、多くの特定の詳細が説明される。しかしながら、実施形態がこれらの特定の詳細なしで実施されてもよいことは、当業者には明らかであろう。他の例では、説明を不必要に複雑にすることを避けるために、よく知られている機能について詳細には説明していない。
本出願全体を通して、序数(例えば、第1、第2、第3など)を、要素(すなわち、本出願における任意の名詞)の形容詞として使用する場合がある。序数の使用は、「前」、「後」、「単一」などの用語の使用などによって明示的に開示されていない限り、要素の任意の特定の順序を暗示または作成するか、または任意の要素を単一の要素のみであるように限定するものではない。むしろ、序数の使用は要素を区別することである。例として、第1の要素は第2の要素とは異なり、第1の要素は複数の要素を包含し、要素の順序付けにおいて第2の要素に続いても(または先行しても)よい。
本発明の1つ以上の実施形態では、サンプルの化学構造の特性は、他の化学構造の既知の特性に基づいて予測される。この方法は、小分子、すなわち低分子量の分子の特性を予測するために使用することができる。これらの分子は、例えば、薬理学的分子であり得る。分子が薬理学的に有用であるかどうかを評価するには、その特性を判定する必要があり得る。例えば、分子の分布、代謝、排泄、および毒性(ADMET)の特性を評価する必要があり得る。
化学構造とこれらの化学構造の活性または特性との関係は、多くの化学構造について知られており、記述されている。新たに発見された、または合成されたサンプルの化学構造は、当初は未知の特性を持っている可能性がある。サンプルの化学構造と既知の化学構造との類似性を使用して、サンプルの化学構造の特性を予測することができる。本発明の1つ以上の実施形態では、定量的構造活性相関(QSAR)を使用して予測を行う。本発明の1つまたは複数の実施形態による、以下に説明するアプローチは、サンプル分子の予測を行うために、それぞれが複数のフィンガープリントによって表され得る複数/多くの参照分子に依存する。
図1は、本発明の1つ以上の実施形態による、化学構造の特性を予測するためのシステム(100)を示している。システム(100)は、参照分子リポジトリ(110)および分子特性予測エンジン(150)を含む。これらの構成要素については、後で説明する。
参照分子リポジトリ(110)は、データを格納するためのいずれかのタイプの記憶ユニットおよび/またはデバイス(例えば、ファイルシステム、データベース、一群の表、またはいずれかの他の記憶メカニズム)であり得る。参照分子リポジトリ(110)は、本発明の1つ以上の実施形態によれば、参照分子(112A〜112N)に関連するデータを格納する。より具体的には、各参照分子について、分子フィンガープリントおよび分子特性が格納される。分子のフィンガープリントと分子の特性が既知のため、これらの参照分子を使用して、分子のフィンガープリントだけが既知であるが分子の特性は未知のサンプル分子の分子特性を予測することができる。いずれかの数の参照分子のデータを、参照分子リポジトリ(110)に格納することができる。
本発明の1つ以上の実施形態による、参照分子(112A〜112N)について格納されたデータは、分子フィンガープリント(116A〜116N)および分子特性(114A〜114N)を含む。
分子については、いずれかの数の分子特性を記述することができる。分子特性には、物理化学的特性、ADMET特性、および生物活性が含まれるが、これらに限定されない。ADMET特性の例は、AMES毒性、アンドロゲン受容体結合、血液脳関門適合性、Caco−2透過性、hERG阻害、および発がん性である。
本発明の1つ以上の実施形態による、フィンガープリント(または他の記述子)は、分子の構造を記述子フォーマットで捕捉する。フィンガープリントは必ずしも1つの分子に固有である必要はないが、基礎となる分子を他の分子と比較して、これらの分子の類似性を評価することを許容し得る。フィンガープリントは、例えば、daylight(標準)、atom_pair(標準)、morgan2(r=2のmorgan)、morgan4(r=4)、morgan2_feat(r=2で特徴を使用)、morgan4_feat(等)、pharm_base(デフォルトのrdkitファクトリを使用したpharm)、pharm_gobbi(gobbiファクトリを使用したpharm)、layered(標準)、pattern(標準)のフィンガープリントであり得る。フィンガープリントは、基礎となる分子のSMILES表現から派生する場合がある。
分子に関連付けられた各タイプのフィンガープリントは、基礎となる情報(つまり分子自体)をわずかに異なる方法で表し得る。したがって、各タイプのフィンガープリントは、わずかに異なるノイズ特性を備えた、基礎となる分子の不完全な表現を確立し得る。
図1の説明を続けると、参照分子リポジトリ(110)は、分子特性予測エンジン(150)に動作可能に接続されている。分子特性予測エンジン(150)は、図2に記載されたステップのうちの少なくとも1つを実行するためのコンピュータ可読プログラムコードの形態の命令を含む。
図2は、1つ以上の実施形態によるフローチャートを示す。図2のフローチャートは、小分子などの化学構造の特性を予測するための方法を示している。図2のステップのうちの1つ以上は、図1を参照して上で論じたシステム(100)の構成要素によって実行され得る。1つ以上の実施形態では、図2に示されるステップのうちの1つ以上は、省略され、繰り返され、および/または図2に示される順序とは異なる順序で実行され得る。追加のステップをさらに実行することができる。したがって、本発明の範囲は、図2に示されるステップの特定の配置に限定されると見なされるべきではない。
ステップ200では、参照分子についてのフィンガープリントと特性が取得される。本発明の1つ以上の実施形態では、複数のフィンガープリント(例えば、10個のフィンガープリント)が、各参照分子について取得される。各取得されたフィンガープリントは、異なるタイプのものであり得る。したがって、複数のフィンガープリントによって捕捉される基礎となる情報(つまり分子自体)は常に同じであるが、異なるタイプのフィンガープリントによって異なる程度に捕捉され得る。参照分子のそれぞれについては、同じタイプのフィンガープリントが取得される。実行する分析に応じて、参照分子のそれぞれについて、1つ以上の特性を取得することができる。例えば、分析全体が、サンプル分子が血液脳関門(BBB)を交差することが可能かどうかを判定することを目的とする場合、BBB交差特性は、参照分子のそれぞれについて取得することができる。複数の特性を評価する場合は、複数の特性を取得することができる。
ステップ202では、サンプル分子についてのフィンガープリントが取得される。参照分子について取得されたものと同じタイプのフィンガープリントが取得される。
ステップ204では、フィンガープリントのタイプについての重みは、予測される特性に基づいて決定され得る。大まかに言えば、あるタイプのフィンガープリントは、他のタイプのフィンガープリントよりも特定のプロパティを予測するのに優れている場合がある。したがって、後続の操作のために、このタイプのフィンガープリントにより高い重みを割り当てることができる。フィンガープリントの重みは次のように決定することができる。
例えば、分子が血液脳関門(BBB)を交差する能力(BBB交差特性)について考察してみる。参照分子のそれぞれについて、BBB交差特性が既知であると想定される。さらに、これらの参照分子のフィンガープリントに基づいて、各分子から各他の分子までの距離を計算することができる。したがって、参照分子の各可能な対について、かつ利用可能な全てのフィンガープリントを使用して、距離を計算することができる。重みを決定するために、フィンガープリントに基づく分子間の距離の相関、およびBBB交差特性を分析することができる。一般的に言えば、参照分子の対の場合、より近いフィンガープリントは、より離れたフィンガープリントよりも同様のBBB交差特性を表す可能性が高いと予想することができる。したがって、同一のBBB交差特性を持つ2つの参照分子間の距離が短いフィンガープリント(つまり、両方の参照分子が血液脳関門を通過できる(BBB++)または両方の分子が血液脳関門を通過できない(BBB−−))には、高い重みが割り当てられ得る。この分析が多くの分子(例えば、全ての参照分子)に対して実行される場合、BBB交差特性を予測するフィンガープリントの能力を確率的に評価することができる。特性P(BBB−−)とP(BBB++)が一致する確率が高いフィンガープリントには高い重みが割り当てられる一方、特性P(BBB−−)とP(BBB++)が一致する確率が低い(つまり特性P(BBB+−)とP(BBB−+)が不一致になる確率が高い)フィンガープリントには低い重みが割り当てられる。したがって、BBB交差特性を予測する例では、フィンガープリントの重みは、事後確率P(BBB+|参照分子BBB+、d)およびP(BBB−|参照分子BBB−、d)を含み得る。つまり、距離dが与えられたときにBBB交差特性を正しく予測する可能性が高いフィンガープリントには高い重みが割り当てられる一方、距離dが与えられたときにBBB交差特性を正しく予測する可能性が低いフィンガープリントには低い重みが割り当てられる。
したがって、フィンガープリントの重みは、利用可能な全てのフィンガープリントについて取得することができる。フィンガープリントの重みは、例えば、0.0〜1.0の数値範囲にある。フィンガープリントの重みの最適化は、BBB交差特性の例に基づいて示されているが、当業者は、フィンガープリントの重みがいずれかの他の分子特性について取得し得ることを理解するであろう。
ステップ204の実行は任意である、すなわち、あるいは、後続のステップは、異なるタイプのフィンガープリントに対して均一な重み付けを使用して実行され得る。
ステップ206では、各参照分子について、かつフィンガープリントのそれぞれを使用して、サンプル分子までの距離が計算される。参照分子とサンプル分子の間で取得された距離は、計算に使用されたフィンガープリントのタイプに基づいて、これら2つの分子の類似性の逆数を表す場合がある。言い換えれば、より類似した分子に対してより短い距離が得られ、より類似性の低い分子に対してより長い距離が得られる。本発明の一実施形態では、谷本距離が使用される。距離の計算は、フィンガープリントのタイプごとに個別に実行することができる。したがって、参照分子とサンプル分子に10タイプのフィンガープリントが利用できる場合、参照分子とサンプル分子の類似性を表すために10の距離が取得される。さらに、合計50の参照分子が利用可能な場合、合計500の距離(50 x 10)が取得される。取得された距離は、高次元空間における参照分子とサンプル分子の類似性を表す。空間の次元は、使用されるフィンガープリントタイプの数の結果であり得る。具体的には、上記の例では、(10タイプのフィンガープリントの使用に基づく)10次元空間が生じ、50の参照分子が表される。フィンガープリントのタイプごとに関連する分子の特徴がわずかに異なるため、結果として得られる距離はフィンガープリントのタイプによって変動する可能性がある。
ステップ208では、相対的な予測優性が、参照分子のそれぞれについて判定される。具体的には、各参照分子は、ステップ206で取得された距離に基づいて、いずれかの他の参照分子と比較することができる。例えば、共に3つのフィンガープリントに関連付けられている参照分子AとBについて考察してみる。したがって、ステップ206の実行後、参照分子AおよびBのそれぞれについて3つの距離が利用可能である。分子Aについての距離が[0.6 0.4 0.7]であり、分子Bについての距離が[0.7 0.4 0.1]であると仮定する。AとBを直接比較すると、第1のフィンガープリントの場合、分子Aは分子Bよりも近く、第2のフィンガープリントの場合、分子AとBは等しく近く、第3のフィンガープリントの場合、分子Bは分子Aよりも近くなる。スコアリングベクトルAvsB=[1 0.5 0]で記述することができ、「1」は、分子Aが分子Bよりも近いことを示し、0は、分子Bが分子Aよりも近いことを示し、0.5は、分子AとBが等しく近いことを示す。ステップ204で取得された重みを使用して、距離が類似していると見なされる領域を調整することができる(結果としてスコアが0.5になる)。重みが大きいと、距離が類似していると見なされる範囲が狭くなる可能性がある一方、重みが小さいと、距離が類似していると見なされる範囲が広くなる可能性がある。重みがゼロの場合、実際の距離に関係なく、スコアは常に0.5になる。このステップは、参照分子のいずれかの組み合わせに対して実行することができる。実装についての例を提供する擬似コードが、図3Aに提供されている。
複数の参照分子についての予測優性は、参照分子についての予測優性値を含む優性行列に要約できる。
ステップ210において、適応度は、各参照分子について判定される。本発明の1つ以上の実施形態では、スコアリング関数を使用して、ステップ208で取得された優性関係を、各参照分子の単一の適応度値に変換する。適応度の値は、特定の参照分子がサンプル分子にどれだけ類似しているかを定量化する場合がある。参照分子のそれぞれに対する適応度の取得は、図3Bに提供される擬似コードによって示されている。スコアリング関数は、適応度の値を割り当てるときに、平均して、つまりフィンガープリントの全てまたは大部分について有利に比較される参照分子を優先する場合がある。これらは、(ステップ208で取得された予測優性に基づいて)大抵は他の参照分子よりも「優勢」であり、他の参照分子に対してあまり「優勢」ではない参照分子であり得る。言い換えれば、「クラス最高の」参照分子は、他のどの参照分子よりも多くのフィンガープリントについて、標的分子に最も近い参照分子であり得る。
ステップ212において、サンプル分子の特性は、適応度値によってスケーリングされた、参照分子の特性に基づいて予測される。適応度値は、0〜1の数値範囲にスケーリングすることができる。本発明の一実施形態では、適応度値は、全ての適応度値の合計が「1」であるようにスケーリングされる。適応度が低い(またはない)ことを示す「0」値は、関連する参照分子がサンプル分子の特性を予測するための候補として不十分であることを示している。対照的に、高い値は、関連する参照分子がサンプル分子の特性を予測するために使用されるのに非常に適切な候補であることを示している。したがって、参照分子に関連する適応度値に基づいて、参照分子の特性を、サンプル分子の特性の予測のために考察することができる。
例えば、サンプル分子についてバイナリ特性が予測されるシナリオを考察してみる。「1」は特性が存在することを表すために使用され得、「0」は特性が存在しないことを表すために使用され得る。この特性が以前に評価された多くの参照分子が利用可能であると仮定する。これらの参照分子の1つには特性があり、この参照分子に関連する適応度値は0.78であると判定された。したがって、ステップ212で、この分子は0.78の寄与度で「1」に投票することになる。他の全ての参照分子に対して同じ分析を実行して、多数決を取得することができる。多数決への参照分子の寄与度のそれぞれは、関連する適応度値に基づいてスケーリングすることができる。その後、多数決に基づいて、サンプル分子に関連付けられたバイナリ特性が「0」か「1」かが判定される。
多数決に基づく同様の予測は、3つ以上のクラスを含む特性に対して行うことができる。さらに、連続する特性の予測は、関連する適応度値に基づいて、各参照分子の寄与度をスケーリングすることによっても実行できる。
本発明の様々な実施形態は、以下の利点のうちの1つ以上を有する。本発明の実施形態は、サンプル分子の特性の予測を可能にする。予測では、複数の参照分子に対して取得された複数のタイプのフィンガープリントが考察される。したがって、予測を行う前に、特定のフィンガープリントを選択する必要はない。多次元空間における距離ベースの測定基準は、分子特性の識別に使用される。ハイパーパラメータを手動で選択する必要はなく、新しい参照分子は、利用可能になった時点ですぐに予測において考察され得る。予測における複数のフィンガープリントの考察に基づいて、予測の偏りと過剰適合のリスクが軽減される。したがって、高次元情報の落とし穴が回避される。
図4は、本発明の実施形態と従来の分類器との性能比較(400)を示している。比較において、実施形態は、17のADMET特性を予測するために、5つの他の従来の分類器と並行してテストされた。5つの従来のアプローチのそれぞれについて、データセットの80%を使用し、盲検試験用に20%を残して、5分割交差検証を実行した。このプロセスは、8タイプの化学的フィンガープリントを反復し、グリッド検索戦略を使用してハイパーパラメータを調整した。本発明の実施形態では、80%/20%の試験分割もまた、直接比較(「APテストセット」と表示)、ならびに「一個抜き」完全交差検証(「APフルセット」と表示)に適用され、データセットサイズに対する予測の安定性を評価した。標準的なアプローチでは従来のモデルごとに1つのフィンガープリントしかないのに対し、1つのモデルを構築するために10の異なるフィンガープリントを同時に使用した。従来の分類器のテストでは、各フィンガープリントに対してモデルが個別に構築され、交差検証スコアで最高の性能を発揮するモデルが選択され、テストセットで性能が測定された。全てのモデルについて予測力は、予測性能の受信者動作特性曲線(ROC AUC)測定値の下の領域を使用して評価された。17の異なるモデルに使用したデータセットは、キュレーションされた既発表のQSAR研究から取得されており、それぞれが特定のADMET特性に最適化されたモデルを構築することに焦点を当てている。
図4に示されるように、本発明の実施形態は、ROC AUCスコアに基づいて、17のADMET特性全てについて5つの従来の分類器を一貫して上回っている。本発明の実施形態では、従来のアプローチで必要とされていた80/20%の分割を必要とせずに、全てのデータをトレーニングに使用する能力を有しているため、図4の「APフル」と「APテスト」の差に示されるように、ほとんどの特性について高い予測力が取得される。さらに、本発明の実施形態と従来の分類器との直接比較を可能にする同じ80/20%のデータ分割を使用する場合でさえ、「APテスト」は依然として従来の分類器のそれぞれを上回っている。
図5Aおよび図5Bは、過剰適合を評価するための、本発明の実施形態(500A、図5A)および従来の定量的構造活性相関(QSAR)アプローチ(500B、図5B)の交差検証対盲検試験のROC AUCスコアを示している。図5A(本発明の実施形態)のプロットの異なる点で表されるほとんど全ての特性が対角線上に落ちるか、非常に近いのに対し、図5B(従来の分類器)では検証性能がテスト性能よりも高くなる傾向があり、過剰適合を示している。アンドロゲン受容体(AR)結合モデルは、両方のツールに過剰適合しているように見えるが、本発明の実施形態は、最良の従来の分類器(テスト:0.50)よりも依然として良好に機能する(テスト:0.62)。
図6は、本発明の実施形態対、最も性能の高い従来の分類器とフィンガープリントの組み合わせの性能の概要(600)を示す。従来の分類器が同時に多くのフィンガープリントを使用できないため、最高の性能スを発揮するモデルを生成するフィンガープリント/分類器のタイプに一貫性がなくなる。この非一貫性は、シトクロムP450アイソフォームでは疑いもなく明白であり、各アイソフォームに対し、異なるフィンガープリント/分類器が最高の性能の分類器を出力する。
従来の分類器の実装に関連する懸念に対処するために、本発明の実施形態の性能もまた、以前に文献で報告された結果と比較された。例えば、Shenら(Shen J.ら、Estimation of ADME Properties with Substructure Pattern Recognition.J.Chem.Inf.Model.50,1034−1041(2010))は、DrugBankで使用されているツールであるAdmetSARについて、血液脳関門(BBB)およびヒト腸管吸収(HIA)特性に対する性能を評価した報告をしている。彼らの報告に基づくと、AdmetSAR ROC AUCスコア(BBB:0.9517、HIA:0.9458)は、本発明の実施形態(BBB:0.9738、HIA:0.9533)よりも優れている。
結論として、本発明の実施形態は、従来の機械学習方法を一貫して上回っている。
予測は、広範囲の特性を予測するために、広範囲の分子に対して実行され得る。本発明の1つ以上の実施形態は、新薬の開発に特に有益であり得る。薬の開発は長く、費用のかかるプロセスである。本発明の実施形態を使用して、ADMET特性を予測する能力は、このプロセスを加速し、コストを削減し得る。さらに、典型的な機械学習ベースの方法とは異なり、ハイパーパラメータを最適化する必要がないため、本発明の実施形態は、機械学習のバックグラウンドを持たない薬剤開発者でも使用することができる。
単一の問題を解決するように設計された非常に特殊なツールを提供する従来のモデリングアプローチとは異なり、本発明の実施形態は、医薬品開発を超えた様々な分野に適用可能である。分子の量的または質的特性、分子の相互作用などを予測するあらゆる分野が恩恵を被ることができる。本発明の実施形態は、分子の特性を予測する場合に、所望の特性を持つ分子を反復して取得するための新しい分子の検出/開発サイクルにおいて、および/または既存の分子の代替的な用途を特定する場合に使用することができる。
本開示の実施形態を、コンピューティングシステム上に実装してもよい。モバイル、デスクトップ、サーバ、ルータ、スイッチ、組み込みデバイス、または他のタイプのハードウェアの任意の組み合わせを使用してもよい。例えば、図7Aに示すように、コンピューティングシステム(700)は、1つ以上のコンピュータプロセッサ(702)、非永続的記憶装置(704)(例えば、ランダムアクセスメモリ(RAM)などの揮発性メモリ、キャッシュメモリ)、永続的記憶装置(706)(例えば、ハードディスク、コンパクトディスク(CD)ドライブまたはデジタル多用途ディスク(DVD)ドライブなどの光学ドライブ、フラッシュメモリなど)、通信インターフェース(712)(例えば、Bluetoothインターフェース、赤外線インターフェース、ネットワークインターフェース、光学インターフェースなど)、ならびに多数の他の要素および機能を含んでもよい。
コンピュータプロセッサ(複数可)(702)は、命令を処理するための集積回路であってもよい。例えば、コンピュータプロセッサは、プロセッサの1つ以上のコアまたはマイクロコアであってもよい。コンピューティングシステム(700)はまた、タッチスクリーン、キーボード、マウス、マイクロフォン、タッチパッド、電子ペン、またはいずれかの他のタイプの入力デバイスなどの1つ以上の入力デバイス(710)を含んでもよい。
通信インターフェース(712)は、コンピューティングシステム(700)をネットワーク(図示せず)(例えば、ローカルエリアネットワーク(LAN)、インターネット、モバイルネットワーク、もしくはいずれかの他のタイプのネットワークなどのワイドエリアネットワーク(WAN))および/または別のコンピューティングデバイスなどの別のデバイスに接続するための集積回路を含んでもよい。
さらに、コンピューティングシステム(700)は、スクリーン(例えば、液晶ディスプレイ(LCD)、プラズマディスプレイ、タッチスクリーン、陰極線管(CRT)モニタ、プロジェクタ、またはその他の表示デバイス)、プリンタ、外部記憶装置、またはいずれかの他の出力デバイスなどの1つ以上の出力デバイス(708)を含んでもよい。1つ以上の出力デバイスは、入力デバイスと同じでもまたは異なっていてもよい。入力および出力デバイス(複数可)は、コンピュータプロセッサ(702)、非永続的記憶装置(704)、および永続的記憶装置(706)にローカルまたはリモートで接続されてもよい。多くの異なるタイプのコンピューティングシステムが存在し、前述の入力デバイスおよび出力デバイスは他の形式をとってもよい。
本開示の実施形態を実行するためのコンピュータ可読プログラムコードの形のソフトウェア命令は、全体的または部分的に、一時的または永続的に、CD、DVD、記憶デバイス、ディスケット、テープ、フラッシュメモリ、物理メモリ、または他のコンピュータ可読記憶媒体などの非一時的なコンピュータ可読媒体に記憶されていてもよい。具体的には、ソフトウェア命令は、プロセッサによって実行されるときに、本開示の1つ以上の実施形態を実行するように構成されたコンピュータ可読プログラムコードに対応してもよい。
図7Aのコンピューティングシステム(700)は、ネットワークの一部に接続されるか、またはそれであってもよい。例えば、図7Bに示すように、ネットワーク(720)は、複数のノード(例えば、ノードX(722)、ノードY(724))を含んでもよい。各ノードは、図7Aに示すコンピューティングシステムなどのコンピューティングシステムに対応してもよく、または組み合わされたノードの群は、図7Aに示すコンピューティングシステムに対応してもよい。例として、本開示の実施形態を、他のノードに接続されている分散システムのノード上に実装してもよい。別の例として、本開示の実施形態を、複数のノードを有する分散コンピューティングシステム上に実装してもよく、本開示の各部分は、分散コンピューティングシステム内の異なるノード上に配置してもよい。さらに、前述のコンピューティングシステム(700)の1つ以上の要素を、離れた場所に配置して、ネットワーク上で他の要素に接続してもよい。
図7Bには示していないが、ノードは、バックプレーンを介して他のノードに接続しているサーバシャーシ内のブレードに対応してもよい。別の例として、ノードは、データセンター内のサーバに対応してもよい。別の例として、ノードは、共有メモリおよび/またはリソースを有するコンピュータプロセッサまたはコンピュータプロセッサのマイクロコアに対応してもよい。
ネットワーク(720)内のノード(例えば、ノードX(722)、ノードY(724))を、クライアントデバイス(726)にサービスを提供するように構成してもよい。例えば、ノードはクラウドコンピューティングシステムの一部であってもよい。ノードは、クライアントデバイス(726)から要求を受信し、クライアントデバイス(726)に応答を送信する機能を含んでもよい。クライアントデバイス(726)は、図7Aに示すコンピューティングシステムなどのコンピューティングシステムであってもよい。さらに、クライアントデバイス(726)は、本開示の1つ以上の実施形態の全てもしくは一部分を含み、かつ/または実行してもよい。
図7Aおよび7Bに記載されるコンピューティングシステムまたはコンピューティングシステムの群は、本明細書に開示している様々な演算を実行する機能を含んでもよい。例えば、コンピューティングシステムは、同じまたは異なるシステム上のプロセス間の通信を実行してもよい。何らかの形のアクティブ通信またはパッシブ通信を用いる様々な機構により、同じデバイス上のプロセス間でのデータ交換が容易になってもよい。これらのプロセス間通信を表す例には、ファイル、信号、ソケット、メッセージキュー、パイプライン、セマフォ、共有メモリ、メッセージパッシング、およびメモリマップファイルの実装が含まれるが、これらに限定されない。これらの非限定的な例のいくつかに関するさらなる詳細を以下に提供する。
クライアントサーバネットワーキングモデルに基づいて、ソケットは、インターフェースまたは通信チャネルエンドポイントとして機能して、同じデバイス上のプロセス間の双方向データ転送を可能にし得る。何よりも先ず、クライアントサーバネットワーキングモデルに従って、サーバプロセス(例えば、データを提供するプロセス)が第1のソケットオブジェクトを作成してもよい。次に、サーバプロセスは第1のソケットオブジェクトにバインドし、それによって最初のソケットオブジェクトが一意の名前および/またはアドレスに関連付けられる。第1のソケットオブジェクトを作成してバインドした後、サーバプロセスは1つ以上のクライアントプロセス(データのシークを行うプロセスなど)からの着信接続要求を待機してリスニングする。この時点で、クライアントプロセスがサーバプロセスからデータを取得しようとする場合、クライアントプロセスは第2のソケットオブジェクトを作成することによって開始する。次に、クライアントプロセスは、少なくとも第2のソケットオブジェクトならびに第1のソケットオブジェクトに関連付けられた一意の名前および/またはアドレスを含む接続要求の生成に進む。次に、クライアントプロセスは接続要求をサーバプロセスに送信する。可用性に応じて、サーバプロセスは接続要求を受け入れて、クライアントプロセスとの通信チャネルを確立してもよく、または、サーバプロセスは、他の演算の処理でビジー状態で、サーバプロセスの準備ができるまで接続要求をバッファーにキューイングしてもよい。確立された接続は、通信が開始される可能性があることをクライアントプロセスに通知する。それに応じて、クライアントプロセスは、クライアントプロセスが取得しようとするデータを指定するデータ要求を生成してもよい。その後、データ要求はサーバプロセスに送信される。データ要求の受信時に、サーバプロセスは要求を分析し、要求されたデータを収集する。最後に、サーバプロセスは次いで、少なくとも要求されたデータを含む応答を生成し、その応答をクライアントプロセスに送信する。データを、より一般的には、データグラムまたは文字のストリーム(例えば、バイト)として転送してもよい。
共有メモリは、データが複数のプロセスによって通信および/またはアクセスされてもよい機構を実証するための仮想メモリ空間の割り当てを指す。共有メモリの実装では、初期化プロセスは先ず、永続的なまたは非永続的な記憶装置において共有可能なセグメントを作成する。作成後、初期化プロセスは共有可能セグメントをマウントし、その後、初期化プロセスに関連付けられたアドレス空間に共有可能セグメントをマッピングする。マウントに続いて、初期化プロセスは、共有可能セグメントにデータを書き込んでもまたは共有可能セグメントからデータを読み出してもよい1つ以上の許可されたプロセスを識別してアクセス許可を付与するために進む。1つのプロセスによって共有可能セグメント内のデータになされた変更は、共有可能セグメントにもリンクされている他のプロセスに即座に影響してもよい。さらに、許可されたプロセスのうちの1つが共有可能セグメントにアクセスするとき、共有可能セグメントはその許可されたプロセスのアドレス空間に対してマッピングされる。多くの場合、1つの許可されたプロセスだけが、初期化プロセス以外で、任意の所与の時間に、共有可能セグメントをマウントしてもよい。
他の技法を使用して、本開示の範囲から逸脱することなく、プロセス間で、本出願に記載されている様々なデータなどのデータを共有してもよい。プロセスは、同じまたは異なるアプリケーションの一部であってもよく、同じまたは異なるコンピューティングシステムで実行されてもよい。
プロセス間でデータを共有するのではなく、またはプロセス間でデータを共有するのに加えて、本開示の1つ以上の実施形態を実行するコンピューティングシステムは、ユーザからデータを受信する機能を含んでもよい。例えば、1つ以上の実施形態では、ユーザは、ユーザデバイス上のグラフィカルユーザインターフェース(GUI)を介してデータを提出してもよい。1つ以上のグラフィカルユーザインターフェースウィジェットを選択する、または、タッチパッド、キーボード、マウス、もしくは他の入力デバイスを使用してテキストおよび他のデータをグラフィカルユーザインターフェースウィジェットに挿入するユーザにより、データを、グラフィカルユーザインターフェースを介して送信してもよい。特定のアイテムの選択に応答して、特定のアイテムに関する情報を、コンピュータプロセッサによって永続的または非永続的記憶装置から取得してもよい。ユーザによるアイテムの選択時に、特定のアイテムに関して取得されたデータのコンテンツを、ユーザの選択に応答してユーザデバイス上に表示してもよい。
別の例として、特定のアイテムに関するデータを取得する要求を、ネットワークを介してユーザデバイスに動作可能に接続されたサーバに送信してもよい。例えば、ユーザは、ユーザデバイスのWebクライアント内のユニフォームリソースロケータ(URL)リンクを選択して、それにより、URLに関連付けられたネットワークホストに送信されるハイパーテキスト転送プロトコル(HTTP)または他のプロトコル要求を開始してもよい。リクエストに応答して、サーバは特定の選択されたアイテムに関するデータを抽出し、要求を開始したデバイスにデータを送信してもよい。ユーザデバイスが特定のアイテムに関するデータを受信すると、特定のアイテムに関する受信されたデータのコンテンツは、ユーザの選択に応答して、ユーザデバイス上に表示されてもよい。上記の例に加えて、URLリンクを選択した後にサーバから受信したデータは、Webクライアントによってレンダリングされ、かつユーザデバイスに表示されてもよいハイパーテキストマークアップ言語(HTML)のWebページを提供してもよい。
上述の技法を使用することなどによって、または記憶装置からデータが取得されると、コンピューティングシステムは、本開示の1つ以上の実施形態を実行する際に、取得されたデータから1つ以上のデータアイテムを抽出してもよい。例えば、抽出は、図7Aのコンピューティングシステムによって以下のように実行されてもよい。先ず、データの編成パターン(例えば、文法、スキーマ、レイアウト)が決定され、これは、位置(例えば、ビットまたは列の位置、データストリーム内のN番目のトークンなど)、属性(属性が1つ以上の値に関連付けられている場合)、または階層/ツリー構造(ネストされたパケットヘッダまたはネストされたドキュメントセクションなどの様々な詳細レベルのノードのレイヤで構成される)の1つ以上に基づいてもよい。次に、生で未処理のデータシンボルのストリームが、編成パターンのコンテキストで、トークン(各トークンは、関連付けられたトークンの「タイプ」を有してもよい)のストリーム(または階層構造)に解析される。
次に、抽出基準を使用して、トークンストリームまたは構造から1つ以上のデータアイテムを抽出し、抽出基準は、編成パターンに従って処理されて、1つ以上のトークン(または階層構造からノード)を抽出する。位置ベースのデータの場合、抽出基準によって識別された位置のトークンが抽出される。属性/値ベースのデータの場合、抽出基準を満たす属性に関連付けられたトークンおよび/またはノードが抽出される。階層的な/階層化されたデータの場合、抽出基準に一致するノードに関連付けられたトークンが抽出される。抽出基準は、識別子文字列のように単純であってもよく、または構造化データリポジトリに提供されるクエリであってもよい(データリポジトリは、XMLなどのデータベーススキーマまたはデータ形式に従って編成されてもよい)。
抽出されたデータは、コンピューティングシステムによるさらなる処理に使用されてもよい。例えば、図7Aのコンピューティングシステムは、本開示の1つ以上の実施形態を実行しながら、データ比較を実行してもよい。データ比較を使用して、2つ以上のデータ値(例えば、A、B)を比較してもよい。例えば、1つ以上の実施形態は、A>B、A=B、A!=B、A<Bなどであるかどうかを判定してもよい。この比較を、A、B、ならびに算術論理ユニット(ALU)(すなわち、2つのデータ値に関して算術演算および/またはビット毎の論理演算を実行する回路)に対して比較に関する演算を指定する演算コードを提出することによって実行してもよい。ALUは、演算の数値結果および/または数値結果に関連する1つ以上のステータスフラグを出力する。例えば、ステータスフラグは、数値結果が正の数、負の数、ゼロなどであるかどうかを示してもよい。適切な演算コードを選択し、次に数値結果および/またはステータスフラグを読み取ることによって、比較を実行してもよい。例えば、A>Bかどうかを判定するために、BはAから除算(すなわち、A−B)されてもよく、ステータスフラグを読み取って、結果が正かどうかを判定(すなわち、A>Bの場合、A−B>0)してもよい。1つ以上の実施形態では、Bを閾値と見なしてもよく、ALUを使用して判定されるように、A=Bの場合またはA>Bの場合、Aは閾値を満たすと見なされる。本開示の1つ以上の実施形態では、AおよびBはベクトルであってもよく、AをBと比較することは、ベクトルAの第1の要素をベクトルBの第1の要素と比較すること、ベクトルAの第2の要素をベクトルBの第2の要素と比較することなどを必要とする。1つ以上の実施形態では、AおよびBが文字列である場合、文字列の二進値を比較してもよい。
図7Aのコンピューティングシステムは、データリポジトリを実装、および/またはそれに接続してもよい。例えば、データリポジトリの1つのタイプはデータベースである。データベースは、データ検索、修飾、再編成、および削除を容易にするために構成された情報の集まりである。データベース管理システム(DBMS)は、ユーザがデータベースを定義、作成、問い合わせ、更新、または管理するためのインターフェースを提供するソフトウェアアプリケーションである。
ユーザまたはソフトウェアアプリケーションは、ステートメントまたはクエリをDBMSに提出してもよい。次に、DBMSは文字列を解釈する。文字列は、情報を要求するselectステートメント、updateステートメント、createステートメント、deleteステートメントなどである。さらに、ステートメントには、データ、またはデータコンテナ(データベース、テーブル、レコード、列、ビューなど)、識別子、条件(比較演算子)、関数(例えば、join、full join、count、averageなど)、ソート(例えば、昇順、降順)などを指定するパラメータを含んでもよい。DBMSはステートメントを実行してもよい。例えば、DBMSは、ステートメントに応答するために、読み取り、書き込み、削除、またはそれらの任意の組み合わせのために、メモリバッファ、参照またはインデックスファイルにアクセスしてもよい。DBMSは、永続的または非永続的なストレージからデータをロードして、クエリに応答するための計算を実行してもよい。DBMSは、結果をユーザまたはソフトウェアアプリケーションに返してもよい。
図7Aのコンピューティングシステムは、比較および他の処理の結果など、生のおよび/または処理されたデータを提供する機能を含んでもよい。例えば、データを提供することは、様々な提示方法を通じて達成されてもよい。具体的には、データは、コンピューティングデバイスによって提供されるユーザインターフェースを介して提供されてもよい。ユーザインターフェースは、コンピュータモニタまたはハンドヘルドコンピュータデバイス上のタッチスクリーンなどのディスプレイデバイス上に情報を表示するGUIを含んでもよい。GUIは、どのデータが示されるか、およびどのようにデータがユーザに提供されるかを編成する様々なGUIウィジェットを含んでもよい。さらに、GUIは、データ、例えば、テキストを通じて実際のデータ値として提供されるデータ、またはコンピューティングデバイスによってデータモデルの視覚化などを通じてデータの視覚的表現にレンダリングされるデータをユーザに直接提供してもよい。
例えば、GUIは先ず、特定のデータオブジェクトがGUI内に提供されることを要求するソフトウェアアプリケーションから通知を取得してもよい。次に、GUIは、例えば、データオブジェクトタイプを識別するデータオブジェクト内のデータ属性からデータを取得することによって、特定のデータオブジェクトに関連するデータオブジェクトタイプを判定してもよい。次に、GUIは、そのデータオブジェクトタイプを表示するために指定される任意のルール、例えば、データオブジェクトクラスについてのソフトウェアフレームワークによって、またはそのデータオブジェクトタイプを提示するためにGUIによって定義されたローカルパラメータに従って指定されるルールを判定してもよい。最後に、GUIは、特定のデータオブジェクトからデータ値を取得し、そのデータオブジェクトタイプのために指定されるルールに従ってディスプレイデバイス内でデータ値の視覚的表現をレンダリングしてもよい。
データはまた、様々なオーディオ方法により提供されてもよい。特に、データは、オーディオフォーマットにレンダリングされ、コンピューティングデバイスに動作可能に接続された1つ以上のスピーカを介して音声として提供されてもよい。
データはまた、触覚的方法によりユーザに提供されてもよい。例えば、触覚的方法は、コンピューティングシステムによって生成される振動または他の物理的信号を含んでもよい。例えば、データは、データを通信するために、所定の持続時間および振動の強さで、ハンドヘルドコンピュータデバイスによって生成される振動を使用して、ユーザに提供されてもよい。
上記の機能の説明では、図7Aのコンピューティングシステムおよび図7Bのノードおよび/またはクライアントデバイスによって実行される機能のほんの数例しか提示していない。本開示の1つ以上の実施形態を使用して他の機能を実行してもよい。
本開示では限られた数の実施形態に関して説明しているが、本開示の利益を有する当業者は、本明細書に開示している開示の範囲から逸脱しない他の実施形態が考案され得ることを理解するであろう。したがって、本開示の範囲は、添付の特許請求の範囲によってのみ制限されるべきである。
本明細書に記載の実施形態および実施例は、本発明およびその特定の用途を最もよく説明し、それにより当業者が本発明を行いかつ使用することを可能にするために提示された。しかしながら、当業者は、前述の説明および実施例が、例示および例のみの目的で提示されていることを認識するであろう。記載している説明は、網羅的であること、または本発明を開示している正確な形態に限定することを意図していない。
本発明を限られた数の実施形態に関して説明しているが、この開示の利益を有する当業者は、本明細書に開示されている本発明の範囲から逸脱しない他の実施形態を考案できることを理解するであろう。したがって、本発明の範囲は、添付の特許請求の範囲によってのみ制限されるべきである。

Claims (20)

  1. サンプル分子の特性を予測するための方法であって、
    複数の参照分子のそれぞれについて、複数のフィンガープリントおよび少なくとも1つの特性を取得することと、
    前記サンプル分子の前記複数のフィンガープリントを取得することと、
    前記複数の参照分子のそれぞれについて、前記複数のフィンガープリントのそれぞれを使用して、前記サンプル分子までの距離を計算することと、
    前記複数の参照分子のそれぞれについて、前記サンプル分子までの前記距離に基づいて、相対的な予測優性を判定することと、
    前記複数の参照分子のそれぞれについて、前記相対的な予測優性に基づいて適応度値を判定することと、
    前記複数の参照分子の前記少なくとも1つの特性および前記参照分子について取得された前記適応度値に基づいて、前記サンプル分子の前記少なくとも1つの特性を予測することと、を含む方法。
  2. 前記サンプル分子までの距離を計算することが、
    前記複数の参照分子のそれぞれについて、前記サンプル分子までの谷本距離を計算すること、を含む、請求項1に記載の方法。
  3. 前記相対的な予測優性を判定することが、
    前記複数の参照分子のうちの2つの組み合わせについて、スコアリングベクトルを取得すること、を含む、請求項1に記載の方法。
  4. 前記スコアリングベクトルが、前記複数のフィンガープリントのそれぞれについて、前記2つの参照分子のうちの第1または第2が前記サンプル分子に近いかどうかを示す、請求項3に記載の方法。
  5. 前記相対的な予測優性を判定することが、
    前記スコアリングベクトルを他のスコアリングベクトルと組み合わせて、優性行列を形成すること、をさらに含む、請求項3に記載の方法。
  6. 前記予測優性に基づいて、前記適応度値を判定することが、
    前記複数のフィンガープリントのうちのより多くのフィンガープリントについて、前記1つの参照分子が他の参照分子のいずれよりも前記標的分子に近いことに基づいて、前記複数の参照分子のうちの1つを他の参照分子よりも優先することと、を含む、請求項1に記載の方法。
  7. 前記サンプル分子の前記少なくとも1つの特性を予測することが、
    前記複数の参照分子のそれぞれによって、前記少なくとも1つの特性について多数決を取得すること、を含む、請求項1に記載の方法。
  8. 前記サンプル分子の前記少なくとも1つの特性を予測することが、
    前記複数の参照分子のそれぞれによる寄与度を、関連する前記適応度値によって前記多数決へスケーリングすること、をさらに含む、請求項7に記載の方法。
  9. 前記少なくとも1つの特性が、
    バイナリ特性、および
    連続特性から選択される少なくとも1つである、請求項1に記載の方法。
  10. サンプル分子の特性を予測するためのシステムであって、
    参照分子リポジトリと、
    分子特性予測エンジンであって、
    複数の参照分子のそれぞれについて、前記参照分子リポジトリから複数のフィンガープリントおよび少なくとも1つの特性を取得することと、
    前記サンプル分子の前記複数のフィンガープリントを取得することと、
    複数の参照分子のそれぞれについて、前記複数のフィンガープリントのそれぞれを使用して、前記サンプル分子までの距離を計算することと、
    前記複数の参照分子のそれぞれについて、前記サンプル分子までの前記距離に基づいて、相対的な予測優性を判定することと、
    前記複数の参照分子のそれぞれについて、前記相対的な予測優性に基づいて、適応度値を判定することと、
    前記複数の参照分子の少なくとも1つの特性および前記参照分子について取得された前記適応度値に基づいて、前記サンプル分子の前記少なくとも1つの特性を予測することと、を行なうよう構成されている分子特性予測エンジンと、を含む、システム。
  11. 前記相対的な予測優性を判定することが、
    前記複数の参照分子のうちの2つの組み合わせについて、スコアリングベクトルを取得することであって、前記スコアリングベクトルが、前記複数のフィンガープリントのそれぞれについて、前記2つの参照分子の第1または第2が前記サンプル分子に近いかどうかを示す、取得すること、を含む、請求項10に記載のシステム。
  12. 前記予測優性に基づいて、前記適応度値を判定することが、
    前記複数のフィンガープリントのうちのより多くのフィンガープリントについて、前記1つの参照分子が他の参照分子のいずれよりも前記標的分子に近いことに基づいて、前記複数の参照分子のうちの1つを他の参照分子よりも優先することと、を含む、請求項10に記載のシステム。
  13. サンプル分子の特性を予測するためのコンピュータ可読プログラムコードを含む非一時的なコンピュータ可読媒体であって、前記コンピュータ可読プログラムコードが、コンピュータシステムに、
    複数の参照分子のそれぞれについて、複数のフィンガープリントおよび少なくとも1つの特性を取得することと、
    前記サンプル分子の前記複数のフィンガープリントを取得することと、
    複数の参照分子のそれぞれについて、前記複数のフィンガープリントのそれぞれを使用して、前記サンプル分子までの距離を計算することと、
    前記複数の参照分子のそれぞれについて、前記サンプル分子までの前記距離に基づいて、相対的な予測優性を判定することと、
    前記複数の参照分子のそれぞれについて、前記相対的な予測優性に基づいて、適応度値を判定することと、
    前記複数の参照分子の少なくとも1つの特性および前記参照分子について取得された前記適応度値に基づいて、前記サンプル分子の前記少なくとも1つの特性を予測することと、を行なわせる、非一時的なコンピュータ可読媒体。
  14. 前記相対的な予測優性を判定することが、
    前記複数の参照分子のうちの2つの組み合わせについて、スコアリングベクトルを取得すること、を含む、請求項13に記載の非一時的なコンピュータ可読媒体。
  15. 前記スコアリングベクトルが、前記複数のフィンガープリントのそれぞれについて、前記2つの参照分子のうちの第1または第2が前記サンプル分子に近いかどうかを示す、請求項14に記載の非一時的なコンピュータ可読媒体。
  16. 前記相対的な予測優性を判定することが、
    前記スコアリングベクトルを他のスコアリングベクトルと組み合わせて、優性行列を形成すること、をさらに含む、請求項14に記載の非一時的なコンピュータ可読媒体。
  17. 前記予測優性に基づいて、前記適応度値を判定することが、
    前記複数のフィンガープリントのうちのより多くのフィンガープリントについて、前記1つの参照分子が他の参照分子のいずれよりも前記標的分子に近いことに基づいて、前記複数の参照分子のうちの1つを他の参照分子よりも優先することと、を含む、請求項13に記載の非一時的なコンピュータ可読媒体。
  18. 前記サンプル分子の前記少なくとも1つの特性を予測することが、
    前記複数の参照分子のそれぞれによって、前記少なくとも1つの特性について多数決を取得すること、を含む、請求項13に記載の非一時的なコンピュータ可読媒体。
  19. 前記サンプル分子の前記少なくとも1つの特性を予測することが、
    前記複数の参照分子のそれぞれによる寄与度を、関連する前記適応度値による前記多数決へスケーリングすること、をさらに含む、請求項18に記載の非一時的なコンピュータ可読媒体。
  20. 前記少なくとも1つの特性が、
    バイナリ特性、および連続特性から選択される少なくとも1つである、請求項13に記載の非一時的なコンピュータ可読媒体。
JP2021514314A 2018-09-13 2019-09-13 化学構造の性質を予測するための方法およびシステム Active JP7425047B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024005851A JP2024038428A (ja) 2018-09-13 2024-01-18 サンプル分子の特性を予測するための方法、システムおよび非一時的なコンピュータ可読媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862730913P 2018-09-13 2018-09-13
US62/730,913 2018-09-13
PCT/CA2019/051302 WO2020051714A1 (en) 2018-09-13 2019-09-13 Method and system for predicting properties of chemical structures

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024005851A Division JP2024038428A (ja) 2018-09-13 2024-01-18 サンプル分子の特性を予測するための方法、システムおよび非一時的なコンピュータ可読媒体

Publications (2)

Publication Number Publication Date
JP2022500766A true JP2022500766A (ja) 2022-01-04
JP7425047B2 JP7425047B2 (ja) 2024-01-30

Family

ID=69777362

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021514314A Active JP7425047B2 (ja) 2018-09-13 2019-09-13 化学構造の性質を予測するための方法およびシステム
JP2024005851A Pending JP2024038428A (ja) 2018-09-13 2024-01-18 サンプル分子の特性を予測するための方法、システムおよび非一時的なコンピュータ可読媒体

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024005851A Pending JP2024038428A (ja) 2018-09-13 2024-01-18 サンプル分子の特性を予測するための方法、システムおよび非一時的なコンピュータ可読媒体

Country Status (8)

Country Link
US (1) US12087409B2 (ja)
EP (1) EP3850632A4 (ja)
JP (2) JP7425047B2 (ja)
KR (1) KR20210087439A (ja)
CN (2) CN113348514B (ja)
CA (1) CA3112798A1 (ja)
IL (1) IL281466A (ja)
WO (1) WO2020051714A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019508821A (ja) 2015-12-31 2019-03-28 サイクリカ インクCyclica Inc. タンパク質−リガンド相互作用を同定するためのプロテオームドッキング方法
CN113707234B (zh) * 2021-08-27 2023-09-05 中南大学 一种基于机器翻译模型的先导化合物成药性优化方法
CN114360661B (zh) * 2022-01-06 2022-11-22 中国人民解放军国防科技大学 基于群体智能优化模型的分子结构预测方法及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006318048A (ja) * 2005-05-10 2006-11-24 Kyoto Univ 化合物群表示装置、化合物群表示方法、プログラム、及びコンピュータ読み取り可能な記録媒体
US20140156679A1 (en) * 2012-06-17 2014-06-05 Openeye Scientific Software, Inc. Secure molecular similarity calculations
JP2016529879A (ja) * 2013-06-26 2016-09-29 バリタセル リミテッド 細胞の特徴を判定または予測する方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030069698A1 (en) 2000-06-14 2003-04-10 Mamoru Uchiyama Method and system for predicting pharmacokinetic properties
IL155332A0 (en) * 2000-10-17 2003-11-23 Applied Research Systems Method of operating a computer system for performing structural analysis and computer system therefor
EP1337856A2 (en) * 2000-11-29 2003-08-27 Neogenesis Pharmaceuticals, Inc. Analyzing molecular diversity by total pharmacophore diversity
WO2002082329A2 (en) * 2001-04-06 2002-10-17 Axxima Pharmaceuticals Ag Method for generating a quantitative structure property activity relationship
EP1762954B1 (en) 2005-08-01 2019-08-21 F.Hoffmann-La Roche Ag Automated generation of multi-dimensional structure activity and structure property relationships
WO2012109586A2 (en) * 2011-02-11 2012-08-16 University Of Rochester Methods and systems for evaluating and predicting the reactivity of monooxygenase enzymes
WO2018009631A1 (en) 2016-07-07 2018-01-11 Cornell University Computational analysis for predicting binding targets of chemicals
CN106372400B (zh) * 2016-08-29 2019-06-04 深圳晶泰科技有限公司 构建极化力场的方法及应用、预测药物晶型的方法及系统
CN106446607B (zh) * 2016-09-26 2018-11-09 华东师范大学 基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法
FR3068047B1 (fr) * 2017-06-22 2021-02-12 Airbus Safran Launchers Sas Procede et dispositif de selection d'un sous-ensemble de molecules destinees a etre utilisees pour predire au moins une propriete d'une structure moleculaire
CA3125513A1 (en) * 2019-01-04 2020-07-09 Cyclica Inc. Method and system for predicting drug binding using synthetic data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006318048A (ja) * 2005-05-10 2006-11-24 Kyoto Univ 化合物群表示装置、化合物群表示方法、プログラム、及びコンピュータ読み取り可能な記録媒体
US20140156679A1 (en) * 2012-06-17 2014-06-05 Openeye Scientific Software, Inc. Secure molecular similarity calculations
JP2016529879A (ja) * 2013-06-26 2016-09-29 バリタセル リミテッド 細胞の特徴を判定または予測する方法

Also Published As

Publication number Publication date
EP3850632A1 (en) 2021-07-21
US12087409B2 (en) 2024-09-10
KR20210087439A (ko) 2021-07-12
CN113348514B (zh) 2024-03-08
JP2024038428A (ja) 2024-03-19
CN113348514A (zh) 2021-09-03
IL281466A (en) 2021-04-29
EP3850632A4 (en) 2022-06-29
JP7425047B2 (ja) 2024-01-30
CN118197481A (zh) 2024-06-14
US20220051759A1 (en) 2022-02-17
CA3112798A1 (en) 2020-03-19
WO2020051714A1 (en) 2020-03-19

Similar Documents

Publication Publication Date Title
US10108645B1 (en) Database monitoring for online migration optimization
JP2024038428A (ja) サンプル分子の特性を予測するための方法、システムおよび非一時的なコンピュータ可読媒体
EP3906556A1 (en) Method and system for predicting drug binding using synthetic data
US10042956B2 (en) Facilitating application processes defined using application objects to operate based on structured and unstructured data stores
US10366081B2 (en) Declarative partitioning for data collection queries
WO2021135290A1 (zh) 基于知识图谱的信息可视化方法、装置、设备及存储介质
US20170124090A1 (en) Method of discovering and exploring feature knowledge
JP2021504854A (ja) 特異的創薬の方法およびシステム
US20230351172A1 (en) Supervised machine learning method for matching unsupervised data
US10599728B1 (en) Metadata agent for query management
US11874840B2 (en) Table discovery service
US20230004989A1 (en) Customer recognition system
US20240176803A1 (en) Simplified schema generation for data ingestion
US20220383129A1 (en) Simulating service performance using machine learning
US20230132670A1 (en) Metrics-based on-demand anomaly detection
US20240152565A1 (en) Information processing system, information processing method and information processing program
Ali Uday et al. Content based image search in openstack swift
EP4147183A1 (en) Embedding service for unstructured data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210603

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240118

R150 Certificate of patent or registration of utility model

Ref document number: 7425047

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150