JP7497102B2 - 薬物と標的物質間の親和性を予測する方法 - Google Patents

薬物と標的物質間の親和性を予測する方法 Download PDF

Info

Publication number
JP7497102B2
JP7497102B2 JP2023567112A JP2023567112A JP7497102B2 JP 7497102 B2 JP7497102 B2 JP 7497102B2 JP 2023567112 A JP2023567112 A JP 2023567112A JP 2023567112 A JP2023567112 A JP 2023567112A JP 7497102 B2 JP7497102 B2 JP 7497102B2
Authority
JP
Japan
Prior art keywords
drug
target substance
cross
attention
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023567112A
Other languages
English (en)
Other versions
JP2024519707A (ja
Inventor
キム、ヤーチャン
シン、ボングン
Original Assignee
ディアジェン・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ディアジェン・インコーポレイテッド filed Critical ディアジェン・インコーポレイテッド
Publication of JP2024519707A publication Critical patent/JP2024519707A/ja
Application granted granted Critical
Publication of JP7497102B2 publication Critical patent/JP7497102B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Medicinal Chemistry (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Description

特許法第30条第2項適用 ▲1▼ウェブサイト掲載日 2021年8月1日 ウェブサイトのアドレス https://www.youtube.com/watch?v=aljeI74WY9w&list=PLRqwW7v078fZTL7Ye9K8A_pFClbr2Zr7_&index=3 ▲2▼刊行物発行日 2021年8月6日 刊行物 Proceedings of Machine Learning Research Volume 149:1-16,2021 Proceedings of Machine Learning Research
本開示は、薬物と標的物質間の親和性を予測する方法に係り、具体的には薬物と標的物質間におけるクロスアテンションを行い親和性を予測する方法に関する。
最近、薬物と標的の相互作用(drug-target interaction,DTI)を予測するために、多様なイン・シリコ(in silico)の方法が開発されている。ここで、イン・シリコとは、バーチャル実験におけるコンピュータープログラミングを意味する生命情報科学分野の用語になり得る。特に、実際の実験(in-vitro)(又は、臨床実験)に基づき、薬物と標的物質との相互作用について調べる場合は、多くの時間と費用がかかるため、多くの研究者はイン・シリコに基づくバーチャル実験を通じて薬物と標的物質間の相互作用を予測することを好むと考えられる。
薬物と標的の相互作用を予測するための技術の1つとして、グラフ畳み込みネットワーク(graph convolutional networks)に基づき薬物と標的間の親和性を予測する技術として「GraphDTA: prediction of drug-target binding affinity using graph convolutional networks」が既に公知されている。しかし、当該技術は、予測結果の解析可能性に問題があり、薬物と標的物質間の相互作用について十分に考慮されておらず、結果に対する信頼度には限界があると考えられる。
本開示は、前述の背景技術に対応して案出されたものであり、薬物と標的物質間におけるクロスアテンション行い、親和性を予測するための方法を提供するものである。
本開示における技術的課題は、前述の技術的課題に限定されるものではなく、当業者は以下の記載内容に基づき、前述の技術的課題以外の課題についても明確に理解することが可能である。
前述のような課題を解決するための少なくとも1つのプロセッサーを含むコンピューティング装置により実行される薬物と標的物質間の親和性(affinity)を予測する方法が開示される。上記薬物と標的物質間の親和性を予測する方法は、第1ニューラルネットワークを用いて、上記薬物と上記標的物質の各々の特徴量を抽出する段階;第2ニューラルネットワークを用いて、上記特徴量間のクロスアテンション(cross attention)を行う段階;及び第3ニューラルネットワークを用いて、上記クロスアテンションを行った結果を基に、上記薬物及び上記標的物質間の親和性を予測する段階;を含むことが可能である。
また、上記第1ニューラルネットワークを用いて、上記薬物と上記標的物質の各々の特徴量を抽出する段階は、上記第1ニューラルネットワークに含まれている第1サブネットワークを用いて、上記薬物の特徴量を抽出する段階;及び上記第1ニューラルネットワークに含まれている第2サブネットワークを用いて、上記標的物質の特徴量を抽出する段階;を含むことが可能である。
また、上記第2ニューラルネットワークを用いて、上記特徴量間のクロスアテンション(cross attention)を行う段階は、上記第2ニューラルネットワークに含まれている第1サブネットワークに基づき、上記薬物の特徴量と上記標的物質の特徴量をソートするクロスアテンションを行い、上記薬物に対する上記標的物質の特徴量を計算する段階;及び上記第2ニューラルネットワークに含まれている第2サブネットワークに基づき、上記薬物の特徴量と上記標的物質の特徴量をソートするクロスアテンションを行い、上記標的物質に対する上記薬物の特徴量を計算する段階;を含むことが可能である。
また、上記第2ニューラルネットワークに含まれている第1サブネットワークに基づき、上記薬物の特徴量と上記標的物質の特徴量をソートするクロスアテンションを行い、上記薬物に対する上記標的物質の特徴量を計算する段階は、上記薬物の上記特徴量を基に、上記薬物に係る第1キー及び第1バリューを生成し、上記標的物質の上記特徴量を基に、上記標的物質に係る第2クエリを生成する段階;上記第2クエリ及び上記第1キーを基にクロスアテンションベクトルを生成する段階;及び上記クロスアテンションベクトルを上記第1バリューに適用し、上記薬物に対する上記標的物質の特徴量を計算する段階;を含むことが可能である。
また、上記第2クエリ及び上記第1キーを基にクロスアテンションベクトルを生成する段階は、上記標的物質の全体のシーケンスに対する上記第2クエリ及び上記第1キーに基づく確率値を計算し、上記クロスアテンションベクトルを生成する段階;を含むことが可能である。
また、上記確率値は、sparsemax関数に基づいて決定されることが可能である。
また、上記クロスアテンションベクトルを上記第1バリューに適用し、上記薬物に対する上記標的物質の特徴量を計算する段階は、上記クロスアテンションベクトルと上記第1バリューとの間における要素ごとの(element-wise)演算を行う段階;及び上記要素ごとの演算を行った結果を基に、上記薬物に対する上記標的物質の特徴量を計算する段階;を含むことが可能である。
また、上記第2ニューラルネットワークに含まれている第2サブネットワークに基づき、上記薬物の特徴量と上記標的物質の特徴量をソートするクロスアテンションを行い、上記標的物質に対する上記薬物の特徴量を計算する段階は、上記標的物質の上記特徴量を基に、上記標的物質に係る第2キー及び第2バリューを生成し、上記薬物の上記特徴量を基に、上記薬物に係る第1クエリを生成する段階;上記第1クエリ及び上記第2キーを基に、クロスアテンションベクトルを生成する段階;及び上記クロスアテンションベクトルを上記第2バリューに適用し、上記標的物質に対する上記薬物の特徴量を計算する段階;を含むことが可能である。
また、上記第1クエリ及び上記第2キーを基にクロスアテンションベクトルを生成する段階は、上記薬物の全体のシーケンスに対する上記第1クエリ及び上記第2キーに基づく確率値を計算し、上記クロスアテンションベクトルを生成する段階;を含むことが可能である。
また、上記確率値は、sparsemax関数に基づいて決定されることが可能である。
また、上記クロスアテンションベクトルを上記第2バリューに適用し、上記標的物質に対する上記薬物の特徴量を計算する段階は、上記クロスアテンションベクトルと上記第2バリューとの間における要素ごとの演算を行う段階;及び上記要素ごとの演算を行った結果を基に、上記標的物質に対する上記薬物の特徴量を計算する段階;を含むことが可能である。
また、コンピューター可読保存媒体に保存されているコンピュータープログラムであって、上記コンピュータープログラムは、1つ以上のプロセッサーで実行される場合、薬物と標的物質間の親和性を予測するための方法を実行するようにし、上記方法は:第1ニューラルネットワークを用いて、上記薬物と上記標的物質の各々の特徴量を抽出する段階;第2ニューラルネットワークを用いて、上記特徴量間のクロスアテンション(cross attention)を行う段階;及び第3ニューラルネットワークを用いて、上記クロスアテンションを行った結果を基に、上記薬物及び上記標的物質間の親和性を予測する段階;を含むことが可能である。
また、薬物と標的物質間の親和性を予測するコンピューティング装置であって、少なくとも1つのコアを含むプロセッサー;及び薬物及び標的物質に係る情報を保存する保存部;を含み、上記プロセッサーは、第1ニューラルネットワークを用いて、上記薬物と上記標的物質の各々の特徴量を抽出し、第2ニューラルネットワークを用いて、上記特徴量間のクロスアテンション(cross attention)を行い、且つ第3ニューラルネットワークを用いて、上記クロスアテンションを行った結果を基に、上記薬物及び上記標的物質間の親和性を予測することが可能である。
本開示から得られる技術的解決手段は、前述の解決手段に限定されることなく、本開示が属する技術分野における通常の知識を有する者は、以下の記載内容から、前述の解決手段以外の解決手段についても明確に理解することが可能である。
本開示の複数の実施例において、予測結果の解析可能性を提供し、且つ高い薬物と標的物質間の親和性について信頼度の高い予測を提供する方法を提供することが可能である。
本開示から得られる効果は、前述の効果に限定されることなく、本開示が属する技術分野における通常の知識を有する者は、以下の記載内容に基づき、前述の効果以外の効果についても明確に理解することが可能である。
図面を参照して多様な様相について説明する。以下の図面の記載において、類似の図面番号は総体として類似の構成要素を示すために使われる。以下の実施例において、説明のために、多数の特定の細部事項が、1つ以上の様相の総合的な理解を助けるために提供される。しかし、かかる(複数の)様相を、かかる特定の細部事項がなくても実施できるということは明白である。他の例において、公知の構造及び装置が、1つ以上の様相の記載を容易にするためにブロック図の形で図示される。
図1は、本開示の一実施例におけるコンピューティング装置の一例を説明するためのブロック構成図である。
図2は、本開示の複数の実施例におけるコンピューティング装置が、薬物と標的物質間の親和性を予測する方法の一例を説明するためのフローチャートである。
図3は、本開示の複数の実施例におけるコンピューティング装置が、特徴量間のクロスアテンションを行う方法の一例を説明するためのフローチャートである。
図4は、本開示の複数の実施例におけるコンピューティング装置が、薬物に対する標的物質の特徴量を計算する方法の一例を説明するためのフローチャートである。
図5は、本開示の複数の実施例におけるコンピューティング装置が、標的物質に対する薬物の特徴量を計算する方法の一例を説明するためのフローチャートである。
図6は、本開示の複数の実施例における、薬物と標的物質間の親和性を予測する方法を具現化するためのフレームワークの一例を説明するための図面である。
図7は、本開示の複数の実施例に基づく本発明と従来の技術との比較のための図面である。
図8は、本開示内容の実施例が具現化されることが可能である、例示的なコンピューティング環境に係る一般的な概略図である。
以下、多様な実施例及び/又は様相を、図面を用いて開示していく。下記の説明において、説明のために、1つ以上の様相に対する全般的な理解を助けるために多数の具体的な細部事項を開示する。しかし、このような(複数の)様相は、このような具体的な細部事項がなくても実行できるということを、本開示の技術分野における通常の知識を持つ者は認知することが可能である。以下に記載及び添付されている図面は、1つ以上の様相の特定の例示的様相について詳細に記述している。しかし、これらの様相は例示的なものであり、多様な様相の原理に基づく多様な方法のうち一部が利用される場合もあり、ここに述べられている説明は、そのような様相及びそれらの均等物をすべて含むという意図を持っている。具体的に、本明細書において用いられている「実施例」、「例」、「様相」、「例示」等の用語は、必ずしも、ここに述べられている任意の様相又は設計が、他の様相又は設計より優れていたり、利点があると解釈されるとは限らない。
以下、図面の符号と関係なく、同一又は類似の構成要素に対しては同一の参照番号を付し、それに係る重複する説明は省略する。さらに、本明細書に開示されている実施例を説明する際、それに係る公知の技術に関する具体的な説明が、本明細書に開示されている実施例の要旨を不明確にする可能性があると判断される場合は、その詳細な説明を省略する。また、添付の図面は、本明細書に開示されている実施例に対する理解をより容易にするためのものに過ぎず、添付の図面によって本明細書に開示されている技術的思想が制限されるわけではない。
「第1」、「第2」等の表現が、多様な素子や構成要素について述べるために使われているが、これらの素子や構成要素がこれらの用語によって制限されるわけではない。これらの用語は、単にある1つの素子や構成要素を他の素子や構成要素と区別するために使われているだけである。従って、以下に記載される第1の素子や構成要素は、本発明の技術的思想の中で第2の素子や構成要素にもなり得る。
別段の定義がない限り、本明細書において使われているすべての用語(技術及び科学的用語を含む)は、本発明が属する技術分野における通常の知識を有する者にとって、共通して理解できる意味で使うことが可能である。また、一般的な辞書に定義されている用語は、別段の定義がない限り、理想的に又は過度に解釈されないものとする。
用語「または」は、排他的な「または」ではなく、内包的な「または」を意味する意図で使われる。つまり、特に特定されておらず、文脈上明確ではない場合、「XはAまたはBを利用する」は、自然な内包的置換のうち1つを意味するものとする。つまり、XがAを利用したり;XがBを利用したり;またはXがA及びBの両方を利用する場合、「XはAまたはBを利用する」は、これらのいずれにも当てはまるとすることができる。また、本明細書における「及び/または」という用語は、取り挙げられた関連アイテムのうち、1つ以上のアイテムの可能なすべての組み合わせを指し、含むものと理解されるべきである。
また、述語としての「含む(含める)」及び/または修飾語として「含む(含める)」という用語は、当該特徴及び/または構成要素が存在することを意味するものと理解されるべきである。ただし、述語としての「含む(含める)」及び/または修飾語として「含む(含める)」という用語は、1つ以上の他のさらなる特徴、構成要素及び/またはこれらのグループが存在すること、または追加されることを排除しないものと理解されるべきである。また、特に数が特定されていない場合や、単数の形を示すことが文脈上明確でない場合、本明細書と請求範囲において単数は、一般的に「1つまたはそれ以上」を意味するものと解釈されるべきである。
また、本明細書において用いられる用語「情報」と「データ」は、時々相互置き換え可能に用いられることが可能である。
ある構成要素が他の構成要素に「繋がって」いる、「連結されて」いる、又は「接続して」いるなどと記載された場合は、当該他の構成要素に直接繋がっていたり、連結されていたり又は接続していることもあり得るが、その間に他の構成要素が介在していることもあり得ると解釈すべきである。一方、ある構成要素が他の構成要素に「直接繋がって」いる、「直接連結されて」いる、又は「直接接続して」いるなどと記述されている場合は、その間に他の構成要素が存在しないと解釈すべきである。
以下の説明で用いられる構成要素に係る接尾語の「モジュール」及び「部」は、明細書作成を容易にするためだけの目的で付されたり混用されているものであり、これらの接尾語自体がそれぞれ異なる特定の意味や役割を持つわけではない。
本開示の目的及び効果、そしてそれらを達成するための技術的構成は、添付の図面とともに詳しく後述する実施例を参照することで明確になる。本開示の説明において、公知の機能又は構成に係る具体的な説明が、本開示の要旨を不明確にする可能性があると判断される場合は、その詳しい説明を省略する。そして後述の用語は、本開示における機能を考慮して定義された用語であり、これは利用者や運用者の意図又は慣例等によって変わることが可能である。
しかし、本開示は、以下に開示される実施例によって限定されるものではなく、多様な形で具現化されることが可能である。ただ、これらの実施例は、本開示を完全なものにし、本開示が属する技術分野における通常の知識を持つ者に、開示の範囲を完全に理解させるために提供されるものであり、本開示は、請求項の範囲によって定義されるものである。従って、その定義は、本明細書全般において記載されている内容に基づき決められるべきである。
本開示において、コンピューティング装置は、薬物と標的物質間の親和性(affinity)を予測することが可能である。この場合、親和性は、薬物と標的物質との間において作用する結合力又は力を表すことが可能である。標的物質は、例えば、タンパク質等になり得る。コンピューティング装置は、親和性を予測するために、ニューラルネットワーク(neural network)を用いて薬物と標的物質の各々の特徴量を抽出することが可能である。特徴量が抽出された場合、コンピューティング装置は、特徴量間のクロスアテンション(Gated Cross Attention)を行い、クロスアテンションを行った結果を基に、薬物と標的物質間の親和性を予測することが可能である。この場合、アテンションは、深層学習モデルが特定のベクトルに注目するようにし、モデルの性能を高める手法になり得る。本開示においては、アテンション手法に基づき、薬物と標的物質間の特徴量間におけるクロスアテンションを行うことで、親和性に係る予測の信頼度をより高めることが可能である。以下に図1乃至図7を用いて、本開示におけるコンピューティング装置が、薬物と標的物質間の親和性を予測する方法について説明する。
図1は、本開示の一実施例におけるコンピューティング装置の一例を説明するためのブロック構成図である。
図1を参照すると、コンピューティング装置(100)は、プロセッサー(110)及び保存部(120)を含むことが可能である。ただし、上述の構成要素は、コンピューティング装置(100)を実装するに当たり、必須のものではなく、コンピューティング装置(100)に含まれる構成要素は、上述の構成要素より多い場合もあれば、少ない場合もある。
コンピューティング装置(100)は、例えば、マイクロプロセッサー、メインフレームコンピューター、デジタルプロセッサー、携帯用デバイス又はデバイスコントローラー等のような任意のタイプのコンピューターシステム又はコンピューターデバイスを含むことが可能である。
プロセッサー(110)は、通常コンピューティング装置(100)の全般的な動作を処理することが可能である。プロセッサー(110)は、コンピューティング装置(100)に含まれている構成要素を通じて入力又は出力される信号、データ、情報等を処理したり、保存部(120)に保存されている応用プログラムを駆動することで、ユーザーに適切な情報又は機能を提供又は処理することが可能である。
本開示において、プロセッサー(110)は、薬物と標的物質の各々の特徴量を抽出することが可能である。一例として、プロセッサー(110)は、第1ニューラルネットワークを用いて、薬物と標的物質の各々の特徴量(feature)を抽出することが可能である。この場合、第1ニューラルネットワークは、従来の畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN)等になり得る。または、第1ニューラルネットワークは、薬物と標的物質の各々の特徴量を抽出するための特徴抽出器(feature extractor)であることも可能である。プロセッサー(110)は、特徴量が抽出された場合、第2ニューラルネットワークを用いて、特徴量間のクロスアテンション(Gated Cross Attention)を行うことが可能である。本開示において、クロスアテンションは、薬物の特徴量と標的物質の特徴量をソートすることで、薬物に対する標的物質の特徴量を計算するアテンションであることが可能である。又は、クロスアテンションは、薬物の特徴量と標的物質の特徴量をソートすることで、標的物質に対する薬物の特徴量を計算するアテンションであることが可能である。一例として、プロセッサー(110)は、薬物に対する標的物質の特徴量を計算するために、薬物に係るキー(key)及び標的物質に係るクエリ(query)を基に、クロスアテンションベクトルを生成することが可能である。この場合、クロスアテンションベクトルは、薬物に対する標的物質の特徴量を計算するためのゲイティング関数(gating function)であることが可能である。プロセッサー(110)は、クロスアテンションベクトルを薬物に係るバリュー(value)に適用し、薬物に対する標的物質の特徴量を計算することが可能である。言い換えると、プロセッサー(110)は、薬物に対する標的物質の特徴量を計算する際、薬物の特徴量だけでなく、標的物質の特徴量を交差させて利用することが可能である。プロセッサー(110)は、薬物に対する標的物質の特徴量が計算され、標的物質に対する薬物の特徴量が計算された場合、第3ニューラルネットワークを用いて、薬物と標的物質間の親和性を予測することが可能である。従って、プロセッサー(110)は、薬物と標的物質間の親和性について、より信頼度の高い予測を提供することが可能である。以下、本開示におけるプロセッサー(110)が、薬物と標的物質間の親和性を予測する一例については、図2乃至図5を用いて説明する。
メモリ(120)は、メモリおよび/または永続的な保存媒体が含まれる可能性があります。メモリ(120)は、フラッシュメモリータイプ(flash memory type)、ハードディスクタイプ(hard disk type)、マルチメディアカードマイクロタイプ(multimedia card micro type)、カードタイプのメモリー(例えばSD又はXDメモリー等)、ラム(Random Access Memory、RAM)、SRAM(Static Random Access Memory)、ロム(Read-Only Memory、ROM)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、PROM(Programmable Read-Only Memory)、磁気メモリー、磁気ディスク、光ディスクのうち少なくとも1つのタイプの保存媒体を含むことができる。
本開示において、保存部(120)は、複数の薬物及び複数の標的物質に係る情報を、データベースに保存することが可能である。一例として、保存部(120)は、簡素化された分子入力ライン入力システム(simplified molecular input line entry system:SMILES)で表現された薬物候補化合物の元データを保存していることが可能である。この場合、SMILESは、short ASCII文字列を用いて、化学種の構造を説明するためのライン表記方法の規格であることが可能である。一例として、保存部(120)は、通信部(図示は省略)を介して使用可能な化合物に関する無料データベースであるZINCデータベースから受信された薬物候補化合物の元データを保存していることが可能である。また、保存部(120)は、タンパク質の構成要素であるアミノ酸の配列を表すアミノ酸配列順序(amino acid sequence)のデータを保存していることが可能である。
上述の構成において、コンピューティング装置(100)は、薬物に対する標的物質の特徴量を計算する際、標的物質の特徴量を利用することが可能である。また、コンピューティング装置(100)は、標的物質に対する薬物の特徴量を計算する際、薬物の特徴量を利用することが可能である。コンピューティング装置(100)は、計算された薬物に対する標的物質の特徴量と、計算された標的物質に対する薬物の特徴量とに基づき、薬物と標的物質間の親和性を予測することが可能である。従って、コンピューティング装置(100)は、薬物と標的物質間の親和性について、より信頼度の高い予測を提供することが可能である。以下に、図2を用いて、本開示におけるコンピューティング装置(100)が、薬物と標的物質間の親和性を予測する具体的な方法について説明する。
図2は、本開示の複数の実施例におけるコンピューティング装置が、薬物と標的物質間の親和性を予測する方法の一例を説明するためのフローチャートである。
図2を参照すると、コンピューティング装置(100)のプロセッサー(110)は、第1ニューラルネットワークを用いて、薬物と標的物質の各々の特徴量を抽出することが可能である(S110)。
一例として、プロセッサー(110)は、第1ニューラルネットワークに含まれている第1サブネットワークを用いて、薬物の特徴量を抽出することが可能である。この場合、第1ニューラルネットワークと第1サブネットワークはそれぞれ、畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN)であることが可能であるが、それに限らず、ANN(Artificial Neural Network)、DNN(Deep Neural Network) 又はRNN(Recurrent Neural Network)等のネットワークモデルが用いられることも可能である。プロセッサー(110)は、第1サブネットワークを用いて、保存部(120)に保存されている薬物から特徴量を抽出することが可能である。一例として、プロセッサーは、下記の数式を用いて、薬物の特徴量を抽出して決定することが可能である。
Figure 0007497102000001
この場合、pooling(・)は、グローバルマックスプーリング(global max pooling)又は平均プーリング(average pooling)等になり得る。nは薬物の特徴量の順次的な長さであり、下付き文字1は薬物の特徴量の順次的な範囲を表すことが可能である。
プロセッサー(110)は、第1ニューラルネットワークに含まれている第2サブネットワークを用いて、標的物質の特徴量を抽出することが可能である。この場合、第2サブネットワークは、畳み込みニューラルネットワークであることが可能であるが、それに限らず、ANN、DNN又はRNN等のネットワークモデルが用いられることが可能である。プロセッサー(110)は、第2サブネットワークを用いて、保存部(120)に保存されている標的物質から特徴量を抽出することが可能である。一例として、プロセッサーは、下記の数式を用いて、標的物質の特徴量を抽出して決定することが可能である。
Figure 0007497102000002
この場合、pooling(・)は、グローバルマックスプーリング(global max pooling)又は平均プーリング(average pooling)等になり得る。nは標的物質の特徴量の順次的な長さであり、下付き文字1は標的物質の特徴量の順次的な範囲を表すことが可能である。
コンピューティング装置(100)のプロセッサー(110)は、第2ニューラルネットワークを用いて、特徴量間のクロスアテンション(Gated Cross Attention)を行うことが可能である(S120)。この場合、クロスアテンションを行うということは、薬物の特徴量と標的物質の特徴量をソートすることで、薬物に対する標的物質の特徴量を計算する動作であることが可能である。または、クロスアテンションを行うということは、薬物の特徴量と標的物質の特徴量をソートすることで、標的物質に対する薬物の特徴量を計算する動作であることが可能である。
一例として、プロセッサー(110)は、第2ニューラルネットワークに含まれている第1サブネットワークに基づき,薬物の特徴量と標的物質の特徴量との間におけるクロスアテンションを行い、薬物に対する標的物質の特徴量を計算することが可能である。具体的には、プロセッサー(110)は、第1ニューラルネットワークを通じて抽出された薬物の特徴量を基に、薬物に係る第1キー(key)及び第1バリュー(value)を生成することが可能である。プロセッサー(110)は、第1ニューラルネットワークを通じて抽出された標的物質の特徴量を基に、標的物質に係る第2クエリ(query)を生成することが可能である。プロセッサー(110)は、第2クエリ及び第1キーを基にクロスアテンションベクトルを生成し、生成されたクロスアテンションベクトルを第1バリューに適用し、薬物に対する標的物質の特徴量を計算することが可能である。この場合、クロスアテンションベクトルは、薬物に対する標的物質の特徴量を計算するためのゲイティング関数(gating function)であることが可能である。
プロセッサー(110)は、第2ニューラルネットワークに含まれている第2サブネットワークに基づき、標的物質の特徴量と薬物の特徴量との間におけるクロスアテンションを行い、標的物質に対する薬物の特徴量を計算することが可能である。具体的には、プロセッサー(110)は、第1ニューラルネットワークを通じて抽出された標的物質の特徴量を基に、標的物質に係る第2キー及び第2バリューを生成することが可能である。プロセッサー(110)は、第1ニューラルネットワークを通じて抽出された薬物の特徴量を基に、薬物に係る第1クエリを生成することが可能である。プロセッサー(110)は、第1クエリ及び第2キーを基にクロスアテンションベクトルを生成し、生成されたクロスアテンションベクトルを第2バリューに適用し、標的物質に対する薬物の特徴量を計算することが可能である。以下、本開示におけるプロセッサー(110)が薬物に対する標的物質の特徴量を計算する方法については、図3及び図4を用いて説明する。また、本開示におけるプロセッサー(110)が標的物質に対する薬物の特徴量を計算する方法については、図3及び図5を用いて説明する。
本開示の複数の実施例において、コンピューティング装置(100)のプロセッサー(110)は、下記の数式を用いて、薬物に対して標的物質のクロスアテンションが行われた結果を定義することが可能である。
Figure 0007497102000003
この場合、g(・)は、相手の情報(標的物質に係る)を考慮するアテンション関数であることが可能である。例えば、gp→dは、学習可能なパラメータθp→dを用いて薬物に係る特徴量d1:ndに標的物質に基づくアテンションを反映するために、標的物質の特徴量p1:npを用いることが可能である。そして、gp→dは、p1:npを用いてd1:ndのアテンションされた特徴量であるd’1:ndを返すことが可能である。
また、コンピューティング装置(100)のプロセッサー(110)は、下記の数式を用いて、標的物質に対して薬物のクロスアテンションが行われた結果を定義することが可能である。
Figure 0007497102000004
この場合、g(・)は、相手の情報(薬物に係る情報)を考慮するアテンション関数であることが可能である。例えば、gd→pは、学習可能なパラメータθd→pを用いて標的物質に係る特徴量pd1:npに薬物に基づくアテンションを反映するために、薬物の特徴量d1:ndを用いることが可能である。そして、gp→dは、d1:ndを用いてp1:npのアテンションされた特徴量であるp’1:npを返すことが可能である。
本開示の複数の実施例において、クロスアテンションは、マルチヘッドアテンション(Multi-head Attention又はMulti-head Gated attention)であることも可能である。この場合、マルチヘッドアテンションは、複数のクロスアテンションを並列で行い、薬物に対する標的物質の特徴量と標的物質に対する薬物の特徴量とを計算するためのアテンションであることが可能である。
コンピューティング装置(100)のプロセッサー(110)は、第3ニューラルネットワークを用いて、クロスアテンションを行った結果を基に、薬物と標的物質間の親和性を予測することが可能である(S130)。
実施例に基づき、プロセッサー(110)がクロスアテンションを行った薬物と標的物質間の相互作用は、明示的に構成されることが可能である。例えば、プロセッサー(110)は、明示的相互作用の結果物として、アテンションマップ(attention map)を生成することが可能である。アテンションマップは、予測結果に対する解釈可能な要素の役割を担うことが可能であり、プロセッサー(110)はアテンションマップを用いて、薬物と標的物質間の親和性を予測することが可能である。
本開示の複数の実施例において、コンピューティング装置(100)のプロセッサー(110)は、予測された親和性に係るスコアを生成することが可能である。一例として、プロセッサー(110)は、下記の数式を用いて、スコアを生成することが可能である。
Figure 0007497102000005
Figure 0007497102000006
上述の構成によると、コンピューティング装置(100)は、クロスアテンションに基づき、薬物と標的物質間の親和性を予測することが可能である。一例として、プロセッサー(110)は、薬物の特徴量と標的物質の特徴量をソートするクロスアテンションを行い、薬物に対する標的物質の特徴量を計算することが可能である。また、プロセッサー(110)は、薬物の特徴量と標的物質の特徴量をソートするクロスアテンションを行い、標的物質に対する薬物の特徴量を計算することが可能である。プロセッサー(110)は、薬物と標的物質の各々に係る特徴量を計算する際、相手の情報を反映するため、薬物と標的物質間の親和性について、より信頼度の高い予測を提供することが可能である。以下に、コンピューティング装置(100)のプロセッサー(110)が第2ニューラルネットワークを用いて、特徴量間のクロスアテンションを行う方法について説明する。
図3は、本開示の複数の実施例におけるコンピューティング装置が、特徴量間のクロスアテンションを行う方法の一例を説明するためのフローチャートである。図4は、本開示の複数の実施例におけるコンピューティング装置が、薬物に対する標的物質の特徴量を計算する方法の一例を説明するためのフローチャートである。図5は、本開示の複数の実施例におけるコンピューティング装置が、標的物質に対する薬物の特徴量を計算する方法の一例を説明するためのフローチャートである。
図3を参照すると、コンピューティング装置(100)のプロセッサー(110)は、第2ニューラルネットワークに含まれている第1サブネットワークに基づき,薬物の特徴量と標的物質の特徴量をソートするクロスアテンションを行うことが可能である。そして、プロセッサー(110)は、クロスアテンションを行った結果を基に、薬物に対する標的物質の特徴量を計算することが可能である(S121)。
具体的には、図4を参照すると、プロセッサー(110)は、第1ニューラルネットワークに含まれている第1サブネットワークを通じて抽出された薬物の特徴量を基に、薬物に係る第1キー(key)及び第1バリュー(value)を生成することが可能である。そして、プロセッサー(110)は、第1ニューラルネットワークに含まれている第2サブネットワークを通じて抽出された標的物質の特徴量を基に、標的物質に係る第2クエリ(query)を生成することが可能である(S1211)。より具体的には、プロセッサー(110)は、同一の入力d1:ndを重み行列W、Wに変換し、第1キー及び第1バリューを構成することが可能である。この場合、nは薬物の特徴量の順次的な長さであり、下付き文字1は薬物の特徴量の順次的な範囲を表すことが可能である。プロセッサー(110)は、生成された重み行列をそれぞれK、Vと表示することが可能であり、K、Vは、入力d1:ndと同一の次元を有することが可能である。プロセッサー(110)は、同一の入力p1:npを重み行列Wに変換して第2クエリを構成することが可能である。この場合、nは、標的物質(protein)の特徴量の順次的な長さであり、下付き文字1は、標的物質の特徴量の順次的な範囲を表すことが可能である。プロセッサー(110)は、生成された重み行列をそれぞれQと表示することが可能であり、Qは、入力d1:ndと同一の次元を有することが可能である。
プロセッサー(110)は、第2クエリ及び第1キーを基に、クロスアテンションベクトルを生成することが可能である(S1212)。
具体的には、プロセッサー(110)は、標的物質の全体のシーケンスに対する第2クエリ及び第1キーに基づく確率値を計算してクロスアテンションベクトルを生成することが可能である。言い換えると、プロセッサー(110)は、トークンレベルアテンションの代わりに、全体のシーケンスに対するコンテキストレベルアテンションを行い、コンテキストレベルのクロスアテンションベクトルを生成することが可能である。
一例として、プロセッサー(110)は、下記の数式を用いて、薬物に対する標的物質のクロスアテンションベクトルを生成することが可能である。
Figure 0007497102000007
この場合、aは、薬物に対する標的物質のクロスアテンションベクトルであることが可能である。nは、標的物質の特徴量の順次的な長さであることが可能である。softmaxは、出力値に対する正規化を行う関数であることが可能である。bは、薬物に係る特徴量の次元であることが可能である。Kは、第1キーを表し、Qは、第2クエリを表すことが可能である。
本開示の複数の実施例において、確率値はsparsemax関数に基づいて決定されることが可能である。実施例に基づき、クロスアテンションベクトルは、全体のシーケンスに対して確率値を計算することが可能である。シーケンス確率値のほとんどは、0ではないが値が小さいため、重要なシーケンスに係るアテンションが弱くなることが可能である。従って、本開示においては、第2ニューラルネットワークが、重要なシーケンスに対してアテンションを行うことができるように、スパース(sparse)なアテンションベクトルを生成することが可能である。そのために、プロセッサー(110)は、softmax関数の代わりにsparsemax関数を使って、確率値を決定することが可能である。この場合、sparsemax関数は、行列の値の大部分が0になるように値を生成する関数であり、小さい重みは重要でないものとみなすための関数であることが可能である。従って、プロセッサー(110)は、sparsemax関数を使って、下記の数式を用いて、薬物に対する標的物質のクロスアテンションベクトルを生成することが可能である。
Figure 0007497102000008
プロセッサー(110)は、生成されたクロスアテンションベクトルを第1バリューに適用し、薬物に対する標的物質の特徴量を計算することが可能である(S1213)。
具体的には、プロセッサー(110)は、クロスアテンションベクトルと第1バリューとの間における要素ごとの(element-wise)演算を行うことが可能である。この場合、要素ごとの演算は、次元がマッチングされない場合、ブロードキャスト方式で演算を行う方法であることが可能である。一例として、要素ごとの演算は、行列や多次元配列を処理できるPythonのライブラリNumpyを利用することが可能である。ただし、これに限られるわけではない。プロセッサー(110)は、要素ごとの演算を行った結果を基に、薬物に対する標的物質の特徴量を計算することが可能である。一例として、プロセッサー(110)は、下記の数式を用いて、クロスアテンションベクトルと第1バリューとの間における要素ごとの演算を行うことで、薬物に対する標的物質の特徴量を計算することが可能である。
Figure 0007497102000009
本開示の複数の実施例において、プロセッサー(110)は、第2ニューラルネットワークがスパース(sparse)なアテンションマップを生成することができるように、softmax関数の代わりにsparsemax関数を使って、薬物に対する標的物質の特徴量を決定することが可能である。従って、プロセッサー(110)は、sparsemax関数を使って、下記の数式を用いて、薬物に対する標的物質の特徴量を計算することが可能である。
Figure 0007497102000010
上述の過程を通じ、コンピューティング装置(100)のプロセッサー(110)は、第2ニューラルネットワークに含まれている第1サブネットワークに基づき、薬物の特徴量と標的物質の特徴量をソートするクロスアテンションを行うことが可能である。そして、プロセッサー(110)は、クロスアテンションを行った結果を基に、薬物に対する標的物質の特徴量を計算することが可能である。
一方、再び図3を参照すると、コンピューティング装置(100)のプロセッサー(110)は、第2ニューラルネットワークに含まれている第2サブネットワークに基づき、薬物の特徴量と標的物質の特徴量をソートするクロスアテンションを行うことが可能である。そして、プロセッサー(110)は、クロスアテンションを行った結果を基に、標的物質に対する薬物の特徴量を計算することが可能である(S122)。
具体的には、図5を参照すると、プロセッサー(110)は、第1ニューラルネットワークに含まれている第2サブネットワークを通じて抽出された標的物質の特徴量を基に、標的に係る第2キー及び第2バリューを生成することが可能である。そして、プロセッサー(110)は、第1ニューラルネットワークに含まれている第1サブネットワークを通じて抽出された薬物の特徴量を基に、薬物に係る第1クエリを生成することが可能である(S1221)。より具体的には、プロセッサー(110)は、同一の入力p1:npを重み行列W、Wに変換し、第2キー及び第2バリューを構成することが可能である。この場合、nは、標的物質の特徴量の順次的な長さであり、下付き文字1は、標的物質の特徴量の順次的な範囲を表すことが可能である。プロセッサー(110)は、生成された重み行列をそれぞれK、Vと表示することが可能であり、K、Vは、入力p1:npと同一の次元を有することが可能である。プロセッサー(110)は、同一の入力d1:ndを重み行列Wに変換して第2クエリを構成することが可能である。この場合、nは薬物の特徴量の順次的な長さであり、下付き文字1は薬物の特徴量の順次的な範囲を表すことが可能である。プロセッサー(110)は、生成された重み行列をそれぞれQと表示することが可能であり、Qは、入力p1:npと同一の次元を有することが可能である。
プロセッサー(110)は、第1クエリ及び第2キーを基に、クロスアテンションベクトルを生成することが可能である(S1212)。
具体的には、プロセッサー(110)は、薬物の全体のシーケンスに対する第1クエリ及び第2キーに基づく確率値を計算してクロスアテンションベクトルを生成することが可能である。言い換えると、プロセッサー(110)は、トークンレベルアテンションの代わりに、全体のシーケンスに対するコンテキストレベルアテンションを行い、コンテキストレベルのクロスアテンションベクトルを生成することが可能である。
一例として、プロセッサー(110)は、下記の数式を用いて、標的物質に対する薬物のクロスアテンションベクトルを生成することが可能である。
Figure 0007497102000011
この場合、aは、標的物質に対する薬物のクロスアテンションベクトルであることが可能である。nは、薬物の特徴量の順次的な長さであることが可能である。softmaxは、出力値に対する正規化を行う関数であることが可能である。bは、標的物質に係る特徴量の次元であることが可能である。Kは、第2キーを表し、Qは、第1クエリを表すことが可能である。
本開示の複数の実施例において、確率値はsparsemax関数に基づいて決定されることが可能である。実施例に基づき、プロセッサー(110)は、sparsemax関数を使って、下記の数式を用いて、標的物質に対する薬物のクロスアテンションベクトルを生成することが可能である。
Figure 0007497102000012
プロセッサー(110)は、生成されたクロスアテンションベクトルを第2バリューに適用し、標的物質に対する薬物の特徴量を計算することが可能である(S1223)。
具体的には、プロセッサー(110)は、クロスアテンションベクトルと第2バリューとの間における要素ごとの演算を行うことが可能である。一例として、プロセッサー(110)は、行列や多次元配列を処理できるPythonのライブラリNumpyを利用し、要素ごとの演算を行うことが可能である。ただし、これに限られるわけではない。プロセッサー(110)は、要素ごとの演算を行った結果を基に、標的物質に対する薬物の特徴量を計算することが可能である。一例として、プロセッサー(110)は、下記の数式を用いて、クロスアテンションベクトルと第2バリューとの間における要素ごとの演算を行うことで、標的物質に対する薬物の特徴量を計算することが可能である。
Figure 0007497102000013
本開示の複数の実施例において、プロセッサー(110)は、第2ニューラルネットワークがスパース(sparse)なアテンションマップを生成することができるように、softmax関数の代わりにsparsemax関数を使って、薬物に対する標的物質の特徴量を決定することが可能である。従って、プロセッサー(110)は、sparsemax関数を使って、下記の数式を用いて、標的物質に対する薬物の特徴量を計算することが可能である。
Figure 0007497102000014
上述の過程を通じ、コンピューティング装置(100)のプロセッサー(110)は、第2ニューラルネットワークに含まれている第2サブネットワークに基づき、薬物の特徴量と標的物質の特徴量をソートするクロスアテンションを行うことが可能である。そして、プロセッサー(110)は、クロスアテンションを行った結果を基に、標的物質に対する薬物の特徴量を計算することが可能である。
以下に、本開示に基づく薬物と標的物質間の親和性を予測する方法を具現化するための具体的なフレームワークを説明する。
図6は、本開示の複数の実施例における、薬物と標的物質間の親和性を予測する方法を具現化するためのフレームワークの一例を説明するための図面である。
図6を参照すると、薬物と標的物質間の親和性を予測する方法を具現化するためのフレームワーク(200)は、第1ニューラルネットワーク(210)、第2ニューラルネットワーク(220)及び第3ニューラルネットワーク(230)を含むことが可能である。ただし、これに限られるわけではない。
実施例に基づき、第1ニューラルネットワーク(210)は、第1サブネットワーク(211)及び第2サブネットワーク(212)を含むことが可能である。そして、プロセッサー(110)は、第1サブネットワーク(211)を用いて、薬物の特徴量を抽出し(例えば、d,d,d・・・dnd)、第2サブネットワーク(212)を用いて、標的物質の特徴量(例えば、p,p,p・・・pnp)を抽出することが可能である。
第2ニューラルネットワーク(220)は、第1サブネットワーク(221)及び第2サブネットワーク(222)を含むことが可能である。そして、プロセッサー(110)は、第1サブネットワーク(221)を用いて、薬物に対する標的物質の特徴量をソートし(例えば、d’,d’,d’・・・d’nd)特徴量を計算することが可能である。プロセッサー(110)は、第2サブネットワーク(222)を用いて、標的に対する薬物の特徴量をソートし(例えば、p’.p’,p’・・・p’np)特徴量を計算することが可能である。
本開示の複数の実施例において、第2ニューラルネットワーク(220)は、マルチヘッドアテンション(2221)を行うことが可能である。この場合、マルチヘッドアテンション(2221)は、複数のクロスアテンションを並列で行い、薬物に対する標的物質の特徴量と標的物質に対する薬物の特徴量とを計算するためのアテンションであることが可能である。
Figure 0007497102000015
従来の深層学習に基づく薬物と標的物質との相互作用(drug-target interaction,DTI)の予測方法は、費用面では有望な結果を出してきた。しかし、従来の技術は、予測結果の解析可能性に問題があり、且つ薬物と標的物質の間における特徴量のレベルに応じて相互作用を考慮することができない可能性がある。一方、本発明のフレームワークにおいては、薬物と標的物質間の明示的な相互作用を構成し、薬物及び標的物質にクロスアテンションが行われることが可能である。また、本開示に基づくフレームワークは、薬物に対する標的物質の特徴量を計算するためのゲイティング関数であるクロスアテンションベクトルを通じて、薬物及び標的物質の全体のシーケンスに対して確率値を計算することが可能である。それに加えて、明示的相互作用の結果物として生成されるアテンションマップは、解析可能な要素として作用することが可能である。また、本発明におけるフレームワークは、突然変異に対しても敏感に反応することが可能である。言い換えると、本発明に基づくフレームワークにおいては、突然変異タンパク質を標的にする新たな薬物に係る親和性も計算されることが可能である。以下に、従来の技術との比較を通じ、本発明における薬物と標的物質間の親和性を予測する方法について説明する。
図7は、本開示の複数の実施例に基づく本発明と従来の技術との比較のための図面である。
図7の(a)は、従来の技術を使って、薬物(d、d’)と標的物質(p、p’)との間における、ペアごとの(pair-wise)類似性を表した結果であることが可能である。この場合、従来の技術は、デコーダーアテンション(Decoder Attention)であることが可能である。図7の(a)に図示されているグラフのx軸は、トレーニングエポック(Training epochs)を表すことが可能であり、y軸は、コサイン類似度(Cosine Similarity)を表すことが可能である。第1線(310)は、薬物の特徴量(d)とクロスアテンションが行われたことによりソートされた薬物の特徴量(d’)との間のコサイン類似度を表すことが可能であり、第2線(320)は、薬物の特徴量(d)とクロスアテンションが行われたことによりソートされた標的物質の特徴量(p’)との間のコサイン類似度を表すことが可能である。第3線(330)は、標的物質の特徴量(p)とクロスアテンションが行われたことによりソートされた標的物質の特徴量(p’)との間のコサイン類似度を表すことが可能であり、第4線(340)は、標的物質の特徴量(p)とクロスアテンションが行われたことによりソートされた薬物の特徴量(d’)との間のコサイン類似度を表すことが可能である。第1線(310)乃至第4線(340)を参照すると、第1線(310)乃至第4線(340)は、勾配等の差がさほど大きくないことが確認できる。これは、従来の技術を使ってアテンションを行う場合、薬物と標的物質間において区別できる特徴量が生成されることが不可能であることを表すことが可能である。
一方、図7の(b)は、本発明における薬物と標的物質間の親和性を予測する方法に基づき、薬物(d、d’)と標的物質(p、p’)間のペアごとの類似性を表した結果であることが可能である。図7の(b)に図示されているグラフのx軸は、トレーニングエポックを表すことが可能であり、y軸は、コサイン類似度を表すことが可能である。第1線(410)は、薬物の特徴量(d)とクロスアテンションが行われたことによりソートされた薬物の特徴量(d’)との間のコサイン類似度を表すことが可能であり、第2線(420)は、薬物の特徴量(d)とクロスアテンションが行われたことによりソートされた標的物質の特徴量(p’)との間のコサイン類似度を表すことが可能である。第3線(430)は、標的物質の特徴量(p)とクロスアテンションが行われたことによりソートされた標的物質の特徴量(p’)との間のコサイン類似度を表すことが可能であり、第4線(440)は、標的物質の特徴量(p)とクロスアテンションが行われたことによりソートされた薬物の特徴量(d’)との間のコサイン類似度を表すことが可能である。第1線(410)乃至第4線(440)を参照すると、第1線(410)乃至第4線(440)は、図7の(a)に図示されている第1線(310)乃至第4線(340)に比べ、勾配等の差異が大きいことが確認できる。これは、本発明に基づく方法を用いて、クロスアテンションを行う場合、薬物と標的物質間において区別できる特徴量が生成されることを表すことが可能である。これは、コンピューティング装置(100)のプロセッサー(110)が、第3ニューラルネットワークを用いて薬物と標的物質間の親和性を予測する際、クロスアテンションを通じて、薬物と標的物質間における、区別できる特徴量を利用することが可能であるという意味であることが可能である。従って、プロセッサー(110)によって予測される親和性は、信頼度の高いものになり得る。
図8は、本開示の実施例が具現化されることのできる例示的なコンピューティング環境に係る簡略で一般的な概略図である。
本開示が一般的にコンピューティング装置により具現化されることができると前述されているが、当業者であれば本開示が一つ以上のコンピューター上で実行されることのできるコンピューター実行可能命令及び/またはその他のプログラムモジュールと結合して及び/またはハードウェアとソフトウェアの組み合わせとして具現化されることができるということをよく理解できるだろう。
一般的に、本明細書におけるモジュールは、特定のタスクを実行したり特定の抽象的なデータ類型を実装するルーティン、プログラム、コンポーネント、データ構造、その他等々を含む。また、当業者なら本開示の方法がシングルプロセッサーまたはマルチプロセッサーコンピューターシステム、ミニコンピューター、メインフレームコンピューターはもちろん、パーソナルコンピューター、ハンドヘルド(handheld)コンピューティング装置、マイクロプロセッサー基盤、またはプログラム可能な家電製品、その他等々(これらは、それぞれ1つ以上の関連する装置と繋がって動作することができる)をはじめとする、他のコンピューターシステムの構成によって実施されることができることをよく理解できるだろう。
本開示において説明された実施例は、さらに、あるタスクが通信ネットワークを通じて繋がっている遠隔処理装置によって実行される分散コンピューティング環境で実施されることができる。分散コンピューティング環境において、プログラムモジュールは、ローカルや遠隔メモリー保存装置の両方に位置することができる。
コンピューターは、多様なコンピューター可読媒体を含む。コンピューターによってアクセス可能な媒体はいずれもコンピューター可読媒体になり得るが、このようなコンピューター可読媒体は揮発性及び非揮発性媒体、一時的(transitory)及び非一時的(non-transitory)媒体、移動式及び非-移動式媒体を含む。制限ではなく例として、コンピューター可読媒体は、コンピューター可読保存媒体及びコンピューター可読伝送媒体を含むことができる。
コンピューター可読保存媒体は、コンピューター可読命令、データ構造、プログラムモジュール又はその他のデータのような情報を保存する任意の方法又は技術により実装される揮発性及び非揮発性媒体、一時的及び非-一時的媒体、移動式及び非移動式媒体を含む。コンピューター可読保存媒体は、RAM、ROM、EEPROM、フラッシュメモリーまたはその他のメモリー技術、CD-ROM、DVD(digital video disk)またはその他の光ディスク保存装置、磁気カセット、磁気テープ、磁気ディスク保存装置またはその他の磁気保存装置、またはコンピューターによってアクセスされることができ、情報を保存するのに使われることのできる任意のその他の媒体を含むが、これに限定されない。
コンピューター可読伝送媒体は、通常、搬送波(carrier wave)またはその他の伝送メカニズム(transport mechanism)のような被変調データ信号(modulated data signal)にコンピューター可読命令、データ構造、プログラムモジュールまたはその他のデータ等を実装し、すべての情報伝達媒体を含む。被変調データ信号という用語は、信号の中で情報をエンコードするように、その信号の特性のうち1つ以上を設定または変更した信号を意味する。制限ではなく例として、コンピューター可読伝送媒体は、有線ネットワークまたは直接配線接続(direct-wired connection)のような有線媒体、そして音響、RF、赤外線、その他の無線媒体のような無線媒体を含む。前述の媒体のいずれかによる任意の組み合わせもまたコンピューター可読伝送媒体の範囲に含まれるものとする。
コンピューター(1102)を含む本開示の多様な側面を実現する例示的な環境が示されており、コンピューター(1102)は、処理装置(1104)、システムメモリー(1106)、システムバス(1108)を含む。システムバス(1108)は、システムメモリー(1106)(これに限定されない)をはじめとするシステムコンポーネントを処理装置(1104)につなげる。処理装置(1104)は、多様な商用プロセッサーのうち任意のプロセッサーになり得る。デュエルプロセッサーとその他のマルチプロセッサーアーキテクチャもまた処理装置(1104)として利用されることができる。
システムバス(1108)は、メモリーバス、周辺装置バス、そして多様な商用バスアーキテクチャの中から、任意のものを使用するローカルバスにさらに相互連結されることのできる複数の類型のバス構造のうちいずれかになり得る。システムメモリー(1106)は、読み取り専用メモリー(ROM)(1110)やランダムアクセスメモリー(RAM)(1112)を含む。基本的な入出力システム(BIOS)は、ROM、EPROM、EEPROM等の非揮発性メモリー(1110)に保存され、このBIOSは、起動中の時等にコンピューター(1102)の中の複数の構成要素間の情報のやりとりをサポートする基本的なルーティンを含む。RAM(1112)は、またデータをキャッシュするための静的RAM等の高速RAMを含むことができる。
コンピューター(1102)においては、また、内蔵型ハードディスクドライブ(HDD)(1114)(例えば、EIDE、SATA)―この内蔵型ハードディスクドライブ(1114)はまた適切なシャシー(図示は省略)の中で外付け型の用途で構成されることができる―、磁気フロッピーディスクドライブ(FDD)(1116)(例えば、移動式ディスケット(1118)から読み取ったりそれに書き込むためのものである)及び光ディスクドライブ(1120)(例えば、CD-ROMディスク(1122)を読み取ったり、DVD等のその他の高容量光媒体から読み取ったり、それに書き込むためのものである)を含む。ハードディスクドライブ(1114)、磁気ディスクドライブ(1116)及び光ディスクドライブ(1120)は、それぞれハードディスクドライブインターフェース(1124)、磁気ディスクドライブインターフェース(1126)及び光ドライブインターフェース(1128)によってシステムバス(1108)に繋がることができる。外付け型ドライブの実装のためのインターフェース(1124)は、例えば、USB(Universal Serial Bus)やIEEE1394インターフェース技術のうち、少なくとも1つまたはその両方を含む。
これらのドライブ及びこれらに係るコンピューター可読媒体は、データ、データ構造、コンピューターで実行可能な命令、その他等々の非揮発性保存を提供する。コンピューター(1102)の場合、ドライブ及び媒体は、任意のデータを適切なデジタル形式に保存することに対応する。前述におけるコンピューター可読保存媒体に係る説明が、HDD、移動式磁気ディスク及びCDまたはDVD等の移動式光媒体について触れているが、当業者ならジップドライブ(zip drive)、磁気カセット、フラッシュメモリーカード、カートリッジ、その他等々のコンピューターにより読み取り可能な他の類型の保存媒体もまた例示的な運営環境で使われることができ、さらに、このような媒体のうち任意のある媒体が、本開示の方法を実行するためのコンピューターで実行可能な命令を含むことができることをよく理解できるだろう。
運営システム(1130)、1つ以上のアプリケーションプログラム(1132)、その他のプログラムモジュール(1134)及びプログラムデータ(1136)をはじめとする多数のプログラムモジュールが、ドライブ及びRAM(1112)に保存されることができる。運営システム、アプリケーション、モジュール及び/またはデータの全部またはその一部分がまたRAM(1112)にキャッシュされることができる。本開示が商業的に利用可能な様々な運営システムまたは複数の運営システムの組み合わせにより実装されることができることをよく理解できるだろう。
ユーザーは、1つ以上の有線・無線の入力装置、例えば、キーボード(1138)及びマウス(1140)等のポインティング装置を通じてコンピューター(1102)に命令及び情報を入力することができる。その他の入力装置(図示は省略)としてはマイク、IRリモコン、ジョイスティック、ゲームパッド、スタイラスペン、タッチスクリーン、その他等々があり得る。これら及びその他の入力装置が、よくシステムバス(1108)に繋がっている入力装置インターフェース(1142)を通じて処理装置(1104)に繋がることがあるが、並列ポート、IEEE1394直列ポート、ゲームポート、USBポート、IRインターフェース、その他等々のその他のインターフェースによって繋がることができる。
モニター(1144)または他の類型のディスプレイ装置も、ビデオアダプター(1146)等のインターフェースを通じてシステムバス(1108)に繋がる。モニター(1144)に加えて、コンピューターは一般的にスピーカー、プリンター、その他等々のその他の周辺出力装置(図示は省略)を含む。
コンピューター(1102)は、有線及び/または無線通信による(複数の)遠隔コンピューター(1148)等の1つ以上の遠隔コンピューターへの論理的接続を利用し、ネットワーク化された環境で動作することができる。(複数の)遠隔コンピューター(1148)は、ワークステーション、サーバーコンピューター、ルーター、パーソナルコンピューター、携帯用コンピューター、マイクロプロセッサー基盤の娯楽機器、ピア装置またはその他の通常のネットワークノードになることができ、一般的にコンピューター(1102)について述べられた構成要素のうち、多数またはその全部を含むが、簡略化するために、メモリー保存装置(1150)のみ図示されている。図示されている論理的接続は、近距離通信網(LAN)(1152)及び/または、より大きいネットワーク、例えば、遠距離通信網(WAN)(1154)における有線・無線の接続を含む。このようなLAN及びWANのネットワーキング環境は、オフィスや会社では一般的なもので、イントラネット等の全社的コンピューターネットワーク(enterprise-wide computer network)を容易にし、これらはすべて全世界のコンピューターネットワーク、例えば、インターネットに繋がることができる。
LANネットワーキング環境で使われるとき、コンピューター(1102)は、有線及び/または無線通信ネットワークインターフェース、または、アダプター(1156)を通じてローカルネットワーク(1152)に繋がる。アダプター(1156)は、LAN(1152)への有線または無線通信を容易にすることができ、このLAN(1152)は、また無線アダプター(1156)と通信するためにそれに設置されている無線アクセスポイントを含む。WANネットワーキング環境で使われるとき、コンピューター(1102)は、モデム(1158)を含むことができたり、WAN(1154)上の通信サーバーに繋がったり、またはインターネットを通じる等、WAN(1154)を通じて通信を設定するその他の手段を持つ。内蔵型又は外付け型、そして、有線または無線装置になり得るモデム(1158)は、直列ポートインターフェース(1142)を通じてシステムバス(1108)に繋がる。ネットワーク化された環境において、コンピューター(1102)について説明されたプログラムモジュールまたはその一部分が、遠隔メモリー/保存装置(1150)に保存されることができる。図示されたネットワーク接続が例示的なものであり、複数のコンピューター間で通信リンクを設定する他の手段が使われることができるということは容易に理解できることである。
コンピューター(1102)は、無線通信で配置されて動作する任意の無線装置またはユニット、例えば、プリンター、スキャナー、デスクトップ及び/または携帯用コンピューター、PDA(portable data assistant)、通信衛星、無線で検出可能なタグに係る任意の装備または場所及、及び電話と通信する動作をする。これは、少なくともWi-Fi(登録商標)及びブルートゥース(登録商標)無線技術を含む。従って、通信は、従来のネットワークのように予め定義された構造であったり、単純に少なくとも2つの装置の間でのアドホック通信(ad hoc communication)になり得る。
Wi-Fi(Wireless Fidelity)は、有線で繋がっていなくても、インターネット等への接続を可能にする。Wi-Fiは、このような装置、例えば、コンピューターが室内及び室外で、つまり基地局の通話圏内のどこからでもデータを送受信できるようにするセル電話のような無線技術である。Wi-Fiネットワークは、安全で信頼性があり、高速である無線接続を提供するためにIEEE802.11(a、b、g、その他)という無線技術を使う。コンピューターを互いに、インターネット及び有線ネットワーク(IEEE802.3またはイーサネットを使う)に接続するためにWi-Fiが使われることができる。Wi-Fiネットワークは、非認可2.4や5GHzの無線帯域において、例えば、11Mbps(802.11a)または54Mbps(802.11b)のデータレートで動作したり、両帯域(デュエル帯域)を含む製品において動作することができる。
本開示の技術分野において通常の知識を持つ者は、ここに開示された実施例に係る説明で取り挙げられた多様な例示的な論理ブロック、モジュール、プロセッサー、手段、回路、アルゴリズム段階が電子ハードウェア、(利便性のために、ここでは「ソフトウェア」と称される)多様な形のプログラムまたは設計コード、またはこれらすべての結合により実装されることができることを理解できるだろう。ハードウェア及びソフトウェアのこのような相互互換性を明確に説明するために、多様な例示的なコンポーネント、ブロック、モジュール、回路、及び段階がこれらの機能に着目して前記で一般的に説明された。このような機能がハードウェアやソフトウェアで実装されるかどうかは、特定のアプリケーションおよび全体システムに対して付与される設計上の制限によって決まる。本開示の技術分野において通常の知識を持つ者は、個々の特定のアプリケーションについて多様な手法で説明された機能を実現することができるが、このような実現の決定は、本開示の範囲を逸脱するものと解釈されてはならない。
ここに示された多様な実施例は、方法、装置、または標準プログラミング及び/またはエンジニアリング技術を使った製造物品(article)によって実現できる。用語「製造物品」は、任意のコンピューターで可読な装置からアクセス可能なコンピュータープログラム、キャリアー、または媒体(media)を含む。例えば、コンピューターで可読保存媒体は、磁気保存装置(例えば、ハードディスク、フロッピーディスク、磁気ストリップ等)、光学ディスク(例えば、CD、DVD等)、スマートカード及びフラッシュメモリー装置(例えば、EEPROM、カード、スティック、キードライブ等)を含むが、これらに限定されるものではない。「機械可読媒体」という用語は、命令および/またはデータを記憶、保持、および/または伝達することができる無線チャネルおよび様々な他の媒体を含むが、これらに限定されない。
示された実施例に関する説明は、任意の本開示の技術分野において通常の知識を持つ者が、本開示を利用したりまたは実施できるように提供される。このような実施例に対する多様な変形は、本開示の技術分野において通常の知識を持つ者には明確に理解できるものであり、ここに定義された一般的な原理は、本開示の範囲を逸脱することなく他の実施例に適用されることができる。従って、本開示はここに示す実施例によって限定されるものではなく、ここに示す原理及び新規な特徴と一貫する最広義の範囲で解釈されるべきである。
以下に、本出願の当初の特許請求の範囲に記載された発明を付記する。
[1]
少なくとも1つのプロセッサーを含むコンピューティング装置により実行される、薬物と標的物質間の親和性(affinity)を予測する方法であって、
第1ニューラルネットワークを用いて、前記薬物と前記標的物質の各々の特徴量を抽出する段階;
第2ニューラルネットワークを用いて、前記特徴量間のクロスアテンション(cross attention)を行う段階;及び
第3ニューラルネットワークを用いて、前記クロスアテンションを行った結果を基に、前記薬物及び前記標的物質間の親和性を予測する段階;
を含む、
薬物と標的物質間の親和性を予測する方法。
[2]
[1]において、
前記第1ニューラルネットワークを用いて、前記薬物と前記標的物質の各々の前記特徴量を抽出する段階は、
前記第1ニューラルネットワークに含まれている第1サブネットワークを用いて、前記薬物の前記特徴量を抽出する段階;及び
前記第1ニューラルネットワークに含まれている第2サブネットワークを用いて、前記標的物質の前記特徴量を抽出する段階;
を含む、
薬物と標的物質間の親和性を予測する方法。
[3]
[1]において、
前記第2ニューラルネットワークを用いて、前記特徴量間の前記クロスアテンション(cross attention)を行う段階は、
前記第2ニューラルネットワークに含まれている第1サブネットワークに基づき、前記薬物の前記特徴量と前記標的物質の前記特徴量をソートするクロスアテンションを行い、前記薬物に対する前記標的物質の特徴量を計算する段階;及び
前記第2ニューラルネットワークに含まれている第2サブネットワークに基づき、前記薬物の前記特徴量と前記標的物質の前記特徴量をソートするクロスアテンションを行い、前記標的物質に対する前記薬物の特徴量を計算する段階;
を含む、
薬物と標的物質間の親和性を予測する方法。
[4]
[3]において、
前記第2ニューラルネットワークに含まれている前記第1サブネットワークに基づき、前記薬物の前記特徴量と前記標的物質の前記特徴量をソートするクロスアテンションを行い、前記薬物に対する前記標的物質の前記特徴量を計算する段階は、
前記薬物の前記特徴量を基に、前記薬物に係る第1キー及び第1バリューを生成し、前記標的物質の前記特徴量を基に、前記標的物質に係る第2クエリを生成する段階;
前記第2クエリ及び前記第1キーを基にクロスアテンションベクトルを生成する段階;及び
前記クロスアテンションベクトルを前記第1バリューに適用し、前記薬物に対する前記標的物質の前記特徴量を計算する段階;
を含む、
薬物と標的物質間の親和性を予測する方法。
[5]
[4]において、
前記第2クエリ及び前記第1キーを基に前記クロスアテンションベクトルを生成する段階は、
前記標的物質の全体のシーケンスに対する前記第2クエリ及び前記第1キーに基づく確率値を計算し、前記クロスアテンションベクトルを生成する段階;
を含む、
薬物と標的物質間の親和性を予測する方法。
[6]
[5]において、
前記確率値は、
sparsemax関数に基づいて決定される、
薬物と標的物質間の親和性を予測する方法。
[7]
[4]において、
前記クロスアテンションベクトルを前記第1バリューに適用し、前記薬物に対する前記標的物質の前記特徴量を計算する段階は、
前記クロスアテンションベクトルと前記第1バリューとの間における要素ごとの(element-wise)演算を行う段階;及び
前記要素ごとの演算を行った結果を基に、前記薬物に対する前記標的物質の前記特徴量を計算する段階;
を含む、
薬物と標的物質間の親和性を予測する方法。
[8]
[3]において、
前記第2ニューラルネットワークに含まれている前記第2サブネットワークに基づき、前記薬物の前記特徴量と前記標的物質の前記特徴量をソートする前記クロスアテンションを行い、前記標的物質に対する前記薬物の前記特徴量を計算する段階は、
前記標的物質の前記特徴量を基に、前記標的物質に係る第2キー及び第2バリューを生成し、前記薬物の前記特徴量を基に、前記薬物に係る第1クエリを生成する段階;
前記第1クエリ及び前記第2キーを基にクロスアテンションベクトルを生成する段階;及び
前記クロスアテンションベクトルを前記第2バリューに適用し、前記標的物質に対する前記薬物の前記特徴量を計算する段階;
を含む、
薬物と標的物質間の親和性を予測する方法。
[9]
[8]において、
前記第1クエリ及び前記第2キーを基に前記クロスアテンションベクトルを生成する段階は、
前記薬物の全体のシーケンスに対する前記第1クエリ及び前記第2キーに基づく確率値を計算し、前記クロスアテンションベクトルを生成する段階;
を含む、
薬物と標的物質間の親和性を予測する方法。
[10]
[9]において、
前記確率値は、
sparsemax関数に基づいて決定される、
薬物と標的物質間の親和性を予測する方法。
[11]
[8]において、
前記クロスアテンションベクトルを前記第2バリューに適用し、前記標的物質に対する前記薬物の前記特徴量を計算する段階は、
前記クロスアテンションベクトルと前記第2バリューとの間における要素ごとの演算を行う段階;及び
前記要素ごとの演算を行った結果を基に、前記標的物質に対する前記薬物の前記特徴量を計算する段階;
を含む、
薬物と標的物質間の親和性を予測する方法。
[12]
コンピューター可読保存媒体に保存されているコンピュータープログラムであって、前記コンピュータープログラムは、1つ以上のプロセッサーで実行される場合、薬物と標的物質間の親和性を予測するための方法を実行するようにし、前記方法は:
第1ニューラルネットワークを用いて、前記薬物と前記標的物質の各々の特徴量を抽出する段階;
第2ニューラルネットワークを用いて、前記特徴量間のクロスアテンション(cross attention)を行う段階;及び
第3ニューラルネットワークを用いて、前記クロスアテンションを行った結果を基に、前記薬物及び前記標的物質間の親和性を予測する段階;
を含む、
コンピューター可読保存媒体に保存されているコンピュータープログラム。
[13]
薬物と標的物質間の親和性を予測するコンピューティング装置であって、
少なくとも1つのコアを含むプロセッサー;及び
前記薬物及び前記標的物質に係る情報を保存する保存部;
を含み、
前記プロセッサーは、
第1ニューラルネットワークを用いて、前記薬物と前記標的物質の各々の特徴量を抽出し、
第2ニューラルネットワークを用いて、前記特徴量間のクロスアテンション(cross attention)を行い、且つ
第3ニューラルネットワークを用いて、前記クロスアテンションを行った結果を基に、前記薬物及び前記標的物質間の親和性を予測する、
装置。

Claims (11)

  1. 少なくとも1つのプロセッサーを含むコンピューティング装置により実行される、薬物と標的物質間の親和性(affinity)を予測する方法であって、
    第1ニューラルネットワークを用いて、前記薬物と前記標的物質の各々の特徴量を抽出する段階;
    第2ニューラルネットワークを用いて、前記特徴量間のクロスアテンション(cross attention)を行う段階;及び
    第3ニューラルネットワークを用いて、前記クロスアテンションを行った結果を基に、前記薬物及び前記標的物質間の親和性を予測する段階;
    を含
    前記第2ニューラルネットワークを用いて、前記特徴量間のクロスアテンション(cross attention)を行う段階は、
    前記薬物の前記特徴量を基に、前記薬物に係る第1キー、第1クエリ及び第1バリューを生成し、前記標的物質の前記特徴量を基に、前記標的物質に係る第2キー、第2クエリ及び第2バリューを生成する段階;
    前記第2クエリ及び前記第1キーを基にクロスアテンションベクトルを生成し、生成されたクロスアテンションベクトルを前記第1バリューに適用し、前記薬物に対する前記標的物質の特徴量を計算する段階;及び
    前記第1クエリ及び前記第2キーを基にクロスアテンションベクトルを生成し、生成されたクロスアテンションベクトルを前記第2バリューに適用し、前記標的物質に対する前記薬物の特徴量を計算する段階;
    を含む、
    薬物と標的物質間の親和性を予測する方法。
  2. 請求項1において、
    前記第1ニューラルネットワークを用いて、前記薬物と前記標的物質の各々の前記特徴量を抽出する段階は、
    前記第1ニューラルネットワークに含まれている第1サブネットワークを用いて、前記薬物の前記特徴量を抽出する段階;及び
    前記第1ニューラルネットワークに含まれている第2サブネットワークを用いて、前記標的物質の前記特徴量を抽出する段階;
    を含む、
    薬物と標的物質間の親和性を予測する方法。
  3. 請求項1において、
    前記第2ニューラルネットワークを用いて、前記特徴量間の前記クロスアテンション(cross attention)を行う段階は、
    前記第2ニューラルネットワークに含まれている第1サブネットワークに基づき、前記薬物の前記特徴量と前記標的物質の前記特徴量をソートするクロスアテンションを行い、前記薬物に対する前記標的物質の特徴量を計算する段階;及び
    前記第2ニューラルネットワークに含まれている第2サブネットワークに基づき、前記薬物の前記特徴量と前記標的物質の前記特徴量をソートするクロスアテンションを行い、前記標的物質に対する前記薬物の特徴量を計算する段階;
    を含む、
    薬物と標的物質間の親和性を予測する方法。
  4. 請求項において、
    前記第2クエリ及び前記第1キーを基に前記クロスアテンションベクトルを生成する段階は、
    前記標的物質の全体のシーケンスに対する前記第2クエリ及び前記第1キーに基づく確率値を計算し、前記クロスアテンションベクトルを生成する段階;
    を含む、
    薬物と標的物質間の親和性を予測する方法。
  5. 請求項において、
    前記確率値は、
    sparsemax関数に基づいて決定される、
    薬物と標的物質間の親和性を予測する方法。
  6. 請求項において、
    前記クロスアテンションベクトルを前記第1バリューに適用し、前記薬物に対する前記標的物質の前記特徴量を計算する段階は、
    前記クロスアテンションベクトルと前記第1バリューとの間における要素ごとの(element-wise)演算を行う段階;及び
    前記要素ごとの演算を行った結果を基に、前記薬物に対する前記標的物質の前記特徴量を計算する段階;
    を含む、
    薬物と標的物質間の親和性を予測する方法。
  7. 請求項において、
    前記第1クエリ及び前記第2キーを基に前記クロスアテンションベクトルを生成する段階は、
    前記薬物の全体のシーケンスに対する前記第1クエリ及び前記第2キーに基づく確率値を計算し、前記クロスアテンションベクトルを生成する段階;
    を含む、
    薬物と標的物質間の親和性を予測する方法。
  8. 請求項において、
    前記確率値は、
    sparsemax関数に基づいて決定される、
    薬物と標的物質間の親和性を予測する方法。
  9. 請求項において、
    前記クロスアテンションベクトルを前記第2バリューに適用し、前記標的物質に対する前記薬物の前記特徴量を計算する段階は、
    前記クロスアテンションベクトルと前記第2バリューとの間における要素ごとの演算を行う段階;及び
    前記要素ごとの演算を行った結果を基に、前記標的物質に対する前記薬物の前記特徴量を計算する段階;
    を含む、
    薬物と標的物質間の親和性を予測する方法。
  10. コンピューター可読保存媒体に保存されているコンピュータープログラムであって、前記コンピュータープログラムは、1つ以上のプロセッサーで実行される場合、薬物と標的物質間の親和性を予測するための方法を実行するようにし、前記方法は:
    第1ニューラルネットワークを用いて、前記薬物と前記標的物質の各々の特徴量を抽出する段階;
    第2ニューラルネットワークを用いて、前記特徴量間のクロスアテンション(cross attention)を行う段階;及び
    第3ニューラルネットワークを用いて、前記クロスアテンションを行った結果を基に、前記薬物及び前記標的物質間の親和性を予測する段階;
    を含
    前記第2ニューラルネットワークを用いて、前記特徴量間のクロスアテンション(cross attention)を行う段階は、
    前記薬物の前記特徴量を基に、前記薬物に係る第1キー、第1クエリ及び第1バリューを生成し、前記標的物質の前記特徴量を基に、前記標的物質に係る第2キー、第2クエリ及び第2バリューを生成する段階;
    前記第2クエリ及び前記第1キーを基にクロスアテンションベクトルを生成し、生成されたクロスアテンションベクトルを前記第1バリューに適用し、前記薬物に対する前記標的物質の特徴量を計算する段階;及び
    前記第1クエリ及び前記第2キーを基にクロスアテンションベクトルを生成し、生成されたクロスアテンションベクトルを前記第2バリューに適用し、前記標的物質に対する前記薬物の特徴量を計算する段階;
    を含む、
    コンピューター可読保存媒体に保存されコンピュータープログラム。
  11. 薬物と標的物質間の親和性を予測するコンピューティング装置であって、
    少なくとも1つのコアを含むプロセッサー;及び
    前記薬物及び前記標的物質に係る情報を保存する保存部;
    を含み、
    前記プロセッサーは、
    第1ニューラルネットワークを用いて、前記薬物と前記標的物質の各々の特徴量を抽出し、
    第2ニューラルネットワークを用いて、前記特徴量間のクロスアテンション(cross attention)を行い、且つ
    第3ニューラルネットワークを用いて、前記クロスアテンションを行った結果を基に、前記薬物及び前記標的物質間の親和性を予測
    前記第2ニューラルネットワークを用いて、前記特徴量間のクロスアテンション(cross attention)を行う過程は、
    前記薬物の前記特徴量を基に、前記薬物に係る第1キー、第1クエリ及び第1バリューを生成し、前記標的物質の前記特徴量を基に、前記標的物質に係る第2キー、第2クエリ及び第2バリューを生成し;
    前記第2クエリ及び前記第1キーを基にクロスアテンションベクトルを生成し、生成されたクロスアテンションベクトルを前記第1バリューに適用し、前記薬物に対する前記標的物質の特徴量を計算し、且つ
    前記第1クエリ及び前記第2キーを基にクロスアテンションベクトルを生成し、生成されたクロスアテンションベクトルを前記第2バリューに適用し、前記標的物質に対する前記薬物の特徴量を計算する過程;
    を含む、
    装置。
JP2023567112A 2021-08-31 2022-03-15 薬物と標的物質間の親和性を予測する方法 Active JP7497102B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2021-0115509 2021-08-31
KR1020210115509A KR102571178B1 (ko) 2021-08-31 2021-08-31 약물 및 타겟 물질 간의 친화도를 예측하는 방법
PCT/KR2022/003582 WO2023033281A1 (ko) 2021-08-31 2022-03-15 약물 및 타겟 물질 간의 친화도를 예측하는 방법

Publications (2)

Publication Number Publication Date
JP2024519707A JP2024519707A (ja) 2024-05-21
JP7497102B2 true JP7497102B2 (ja) 2024-06-10

Family

ID=85411412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023567112A Active JP7497102B2 (ja) 2021-08-31 2022-03-15 薬物と標的物質間の親和性を予測する方法

Country Status (4)

Country Link
US (1) US20240266006A1 (ja)
JP (1) JP7497102B2 (ja)
KR (1) KR102571178B1 (ja)
WO (1) WO2023033281A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116486900B (zh) * 2023-04-25 2024-05-03 徐州医科大学 基于深度模态数据融合的药物靶标亲和度预测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667884A (zh) 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102213670B1 (ko) 2018-08-09 2021-02-08 광주과학기술원 약물-표적 상호 작용 예측을 위한 방법
KR102355489B1 (ko) * 2019-04-30 2022-01-24 서울대학교산학협력단 약물-표적 단백질의 상호작용을 예측하는 방법 및 그 방법을 수행하는 장치
CN112037856A (zh) * 2020-09-30 2020-12-04 华中农业大学 基于注意力神经网络的药物互作用及事件预测方法和模型

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667884A (zh) 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Andre F. T. Martins, Ramon F. Astudillo,From Softmax to Sparsemax: A Sparse Model of Attention and Multi-Label Classification,arXiv [online],2016年02月08日,[retrieved on 2024.04.30], Retrieved from the Internet: <URL: https://arxiv.org/pdf/1602.02068>
Kyohei Koyama, Kotaro Kamiya, and Koki Shimada,Cross Attention DTI: Drug-Target Interaction Prediction with Cross Attention module in the Blind Evaluation Setup,19th International Workshop on Data Mining in Bioinformatics,2020年08月24日,[retrieved on 2024.04.30], Retrieved from the Internet: <URL: https://doi.org/10.1145/1122445.1122456>
Yuni Zeng, Xiangru Chen, Yujie Luo, Xuedong Li and Dezhong Peng,Deep drug-target binding affinity prediction with multiple attention blocks,Brief Bioinform.,2021年04月19日,[retrieved on 2024.04.30] Retrieved from the Internet: <URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8083346/pdf/bbab117.pdf>

Also Published As

Publication number Publication date
JP2024519707A (ja) 2024-05-21
KR102571178B1 (ko) 2023-08-28
WO2023033281A1 (ko) 2023-03-09
US20240266006A1 (en) 2024-08-08
KR20230032545A (ko) 2023-03-07

Similar Documents

Publication Publication Date Title
Li et al. Protein remote homology detection based on bidirectional long short-term memory
Mahmud et al. PreDTIs: prediction of drug–target interactions based on multiple feature information using gradient boosting framework with data balancing and feature selection techniques
Yamanishi et al. Prediction of drug–target interaction networks from the integration of chemical and genomic spaces
Yu et al. TargetATPsite: A template‐free method for ATP‐binding sites prediction with residue evolution image sparse representation and classifier ensemble
Li et al. Mol‐BERT: An Effective Molecular Representation with BERT for Molecular Property Prediction
WO2021120677A1 (zh) 一种仓储模型训练方法、装置、计算机设备及存储介质
Li et al. Protein contact map prediction based on ResNet and DenseNet
WO2013067461A2 (en) Identifying associations in data
CN110855648B (zh) 一种网络攻击的预警控制方法及装置
Gao et al. Ens‐PPI: A Novel Ensemble Classifier for Predicting the Interactions of Proteins Using Autocovariance Transformation from PSSM
Lee et al. Predicting protein–ligand affinity with a random matrix framework
Zhang et al. A distributed weighted possibilistic c-means algorithm for clustering incomplete big sensor data
Xu et al. Protein–protein interaction prediction based on ordinal regression and recurrent convolutional neural networks
JP7497102B2 (ja) 薬物と標的物質間の親和性を予測する方法
KR20200030769A (ko) 랜덤 포레스트 모델을 활용한 약물의 다중 표적 예측 방법
CN116318989A (zh) 用于用户网络活动异常检测的系统、方法和计算机程序产品
Zhu et al. Distance based multiple kernel ELM: A fast multiple kernel learning approach
Li et al. A computational approach for predicting drug–target interactions from protein sequence and drug substructure fingerprint information
Ali et al. DBP‐iDWT: Improving DNA‐Binding Proteins Prediction Using Multi‐Perspective Evolutionary Profile and Discrete Wavelet Transform
Derry et al. COLLAPSE: A representation learning framework for identification and characterization of protein structural sites
Hu et al. Accurate prediction of protein-ATP binding residues using position-specific frequency matrix
CN116646001B (zh) 基于联合式跨域注意力模型预测药物靶标结合性的方法
Jiang et al. Out-of-the-box deep learning prediction of quantum-mechanical partial charges by graph representation and transfer learning
Luo et al. A Caps-UBI model for protein ubiquitination site prediction
Tounsi et al. Credit scoring in the age of big data–A state-of-the-art

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231122

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231101

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20231101

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20231101

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20231122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240522

R150 Certificate of patent or registration of utility model

Ref document number: 7497102

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150