JP2022106287A - 親和性予測方法及びモデルのトレーニング方法、装置、機器及び媒体 - Google Patents

親和性予測方法及びモデルのトレーニング方法、装置、機器及び媒体 Download PDF

Info

Publication number
JP2022106287A
JP2022106287A JP2021207057A JP2021207057A JP2022106287A JP 2022106287 A JP2022106287 A JP 2022106287A JP 2021207057 A JP2021207057 A JP 2021207057A JP 2021207057 A JP2021207057 A JP 2021207057A JP 2022106287 A JP2022106287 A JP 2022106287A
Authority
JP
Japan
Prior art keywords
training
affinity
drug
target
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021207057A
Other languages
English (en)
Inventor
ワン、ファン
Fan Wang
ヘ、ジンジョウ
Jingzhou He
ファン、シャオミン
Xiaomin Fang
ジャン、シャオナン
Xiaonan Zhang
ウ、フア
Hua Wu
ウ、ティアン
Tian Wu
ワン、ハイフェン
Haifeng Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022106287A publication Critical patent/JP2022106287A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

【課題】機械学習とインテリジェント医療などの人工知能技術の分野に関する親和性予測方法及びモデルのトレーニング方法、装置、機器及び媒体を提供する。【解決手段】方法は、複数のトレーニングサンプルを収集する。各トレーニングサンプルには、トレーニング標的の情報、トレーニング薬物の情報及びトレーニング標的に対応するテストデータセットが含まれる。方法はさらに、複数のトレーニングサンプルを使用して、親和性予測モデルをトレーニングする。【効果】トレーニングされた親和性予測モデルの正確性とトレーニング効果を効果的に向上させることができる。親和性予測時、検出すべき標的に対応するテストデータセットを取得して予測に一緒に参加するため、予測された検出すべき標的と検出すべき薬物の親和性の正確性をより高くすることができる。【選択図】図1

Description

本開示は、コンピュータ技術の分野に関し、具体的には、機械学習及びインテリジェント医療などの人工知能技術の分野に関し、特に、親和性予測方法及びモデルのトレーニング方法、装置、機器及び媒体に関する。
人間の病気の標的は、通常、病気の発展に重要な役割を果たすタンパク質であり、タンパク質標的と呼ぶこともできる。薬物は、標的タンパク質との結合によって対応するタンパク質が本来の機能を失うことによって、病気を抑制する作用を実現する。新薬開発のプロセスにおいて、タンパク質標的(Target)と化合物分子(Drug)の親和性の予測は、非常の重要の段階である。親和性予測により、タンパク質標的と密接に結合できる高活性の化合物分子を見つけて、最適化を続けて、最終的に治療に使える薬物を形成する。
最も伝統的な方法は、最終的に形成される薬物の化合物分子を1つずつ体外活性実験を行って、薬物とタンパク質標的の親和性を正確に検出する必要がある。現在のハイスループット実験は、短時間で数百千の実験を行うことができるが、このような実験コストは、依然として非常に高く、ほぼ無限大の化合物空間、数千万の化合物構造に直面して、このような実験方式は、依然として実現不可能である。
本開示は、親和性予測方法及びモデルのトレーニング方法、装置、機器及び媒体を提供する。
本開示の一態様によれば、親和性予測モデルのトレーニング方法を提供し、前記方法は、
複数のトレーニングサンプルを収集するステップであって、各トレーニングサンプルには、トレーニング標的の情報、トレーニング薬物の情報、及びトレーニング標的に対応するテストデータセットが含まれるステップと、
前記複数のトレーニングサンプルを使用して、親和性予測モデルをトレーニングするステップと、を含む。
本開示の別の態様によれば、親和性予測方法を提供し、前記方法は、
検出すべき標的の情報、検出すべき薬物の情報、及び前記検出すべき標的に対応するテストデータセットを取得するステップと、
前記検出すべき標的の情報、前記検出すべき薬物の情報、及び前記検出すべき標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、前記検出すべき標的と前記検出すべき薬物との親和性を予測するステップと、を含む。
本開示の別の態様によれば、薬物データの選定方法を提供し、前記方法は、
予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリから前記予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定するステップと、
選定された前記数個の薬物の情報に基づいて、実験によって取得された前記数個の薬物内の各薬物と前記予め設定された標的の真実の親和性を取得するステップと、
前記数個の薬物の情報及び各薬物と前記予め設定された標的の真実の親和性に基づいて、前記予め設定された標的に対応するテストデータセットを更新するステップと、を含む。
本開示の別の態様によれば、親和性予測モデルのトレーニング装置を提供し、前記装置は、
複数のトレーニングサンプルを収集するための収集モジュールであって、各トレーニングサンプルには、トレーニング標的の情報、トレーニング薬物の情報、及びトレーニング標的に対応するテストデータセットが含まれる収集モジュールと、
前記複数のトレーニングサンプルを使用して、親和性予測モデルをトレーニングするためのトレーニングモジュールと、を含む。
本開示の別の態様によれば、親和性予測装置を提供し、前記装置は、
検出すべき標的の情報、検出すべき薬物の情報、及び前記検出すべき標的に対応するテストデータセットを取得するための取得モジュールと、
前記検出すべき標的の情報、前記検出すべき薬物の情報、及び前記検出すべき標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、前記検出すべき標的と前記検出すべき薬物との親和性を予測するための予測モジュールと、を含む。
本開示のもう一つの態様によれば、薬物データの選定装置を提供し、前記装置は、
予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリから前記予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定するための選定モジュールと、
選定された前記数個の薬物の情報に基づいて、実験によって取得された前記数個の薬物内の各薬物と前記予め設定された標的の真実の親和性を取得するための取得モジュールと、
前記数個の薬物の情報及び各薬物と前記予め設定された標的の真実の親和性に基づいて、前記予め設定された標的に対応するテストデータセットを更新するための更新モジュールと、を含む。
本開示の別の態様によれば、電子機器を提供し、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の方法を実行する。
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記の方法を実行させる。
本開示の技術に基づいて、親和性予測モデルトレーニング時、各トレーニングサンプルにトレーニング標的に対応するテストデータセットを増加することによって、トレーニングされた親和性予測モデルの正確性とトレーニング効果を効果的に向上させることができる。親和性予測時、検出すべき標的に対応するテストデータセットを取得して予測に一緒に参加するため、予測された検出すべき標的と検出すべき薬物の親和性の正確性がより高くなることができる。
本明細書で説明された内容は、本開示の実施例のキー又は重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。
図面は、本開示をより良く理解するためのものであり、本開示を限定しない。
本開示の第1の実施例による概略図である。 本開示の第2の実施例による概略図である。 本開示の第3の実施例による概略図である。 本開示の第4の実施例による概略図である。 本開示の第5の実施例による概略図である。 本開示の第6の実施例による概略図である。 本開示の第7の実施例による概略図である。 本開示の第8の実施例による概略図である。 本開示の第9の実施例による概略図である。 本開示の実施例を実施するための例示的な電子機器1000の概略ブロック図である。
以下、図面に基づいて、本開示の例示の実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
図1は、本開示の第1の実施例による概略図である。図1に示すように、本実施例は、親和性予測モデルのトレーニング方法を提供し、具体的には、以下のようなステップを含むことができる。
S101、複数のトレーニングサンプルを収集し、各トレーニングサンプルには、トレーニング標的の情報、トレーニング薬物の情報、及びトレーニング標的に対応するテストデータセットが含まれる。
その中、各トレーニングサンプルは、1つのトレーニング標的の情報、1つのトレーニング薬物の情報、及び当該トレーニング標的に対応するテストデータセットを含むことができる。
S102、複数のトレーニングサンプルを使用して、親和性予測モデルをトレーニングする。
本実施例の親和性予測モデルのトレーニング方法の実行主体は、親和性予測モデルのトレーニング装置であり、当該装置は、電子エンティティであってもよく、又はソフトウェアを使用して統合したアプリケーションであってもよい。使用時に、当該親和性予測モデルは、予め収集された複数のトレーニングサンプルに基づいて、親和性予測モデルをトレーニングすることができる。
具体的には、本実施例で収集された複数のトレーニングサンプルの数は、百万レベル以上に達することができ、収集されたトレーニングサンプルの数が多いほど、トレーニングされた親和性予測モデルの正確性が高くなる。
本実施例で収集された複数のトレーニングサンプルには、複数のトレーニング標的に関するサンプルが含まれる。複数のトレーニングサンプルのうちの一部のトレーニングサンプルのトレーニング標的は、同じであってもよく、異なってもよいことを理解することができる。例えば、100万個のトレーニングサンプルには、10万個のトレーニング標的に関することができ、このように、100万個のトレーニングサンプルには、トレーニング標的が同じであるトレーニングサンプルが必ず存在するが、ここで述べたトレーニング標的が同じであるトレーニングサンプルは、トレーニングサンプル内のトレーニング標的が同じであり、トレーニングサンプル内のトレーニング薬物が異なる場合のみを指す。
従来のモデルトレーニングのトレーニングデータとの違いは、本実施例のトレーニングサンプルには、トレーニング標的の情報とトレーニング薬物の情報を含む以外、当該トレーニング標的に対応するテストデータセットをさらに含む必要があり、親和性予測モデルのトレーニング効果をさらに向上させる。例えば、本実施例のトレーニング標的に対応するテストデータセットは、親和性予測モデルのトレーニング中に使用するように、トレーニング標的と各テスト薬物の既知の親和性を含むことができる。トレーニングサンプル内のトレーニング標的の情報は、当該トレーニング標的を一意に識別するために、トレーニング標的の識別子であってもよいし、当該トレーニング標的のタンパク質の表現方式であってもよい。トレーニングサンプル内のトレーニング薬物の情報は、当該トレーニング薬物の化合物分子式、当該トレーニング化合物を一意に識別できる他の識別子であってもよい。
例えば、本実施例のトレーニング標的に対応するテストデータセットは、複数のテストデータを含むことができ、各テストデータの表現形式(トレーニング標的の情報、テスト薬物の情報、トレーニング標的とテスト薬物の親和性)であってもよい。各トレーニング標的に対応して、1つの個別のテストデータセットが存在して、当該トレーニング標的におけるすべてのテスト薬物の情報を記録することができる。
各トレーニング標的に対応するテストデータセットは、1つの特殊な既知のデータセットであり、その中に含まれる当該トレーニング標的は、それぞれ複数のテスト薬物の親和性、当該トレーニング標的の情報、及び当該トレーニング標的に対応する1つのトレーニング薬物の情報とともに、親和性予測モデルのトレーニング中に使用するように、1つのトレーニングサンプルを構成することができる。各トレーニングサンプルは、1つのトレーニング標的の情報、1つのトレーニング薬物の情報、及び当該トレーニング標的に対応するテストデータセットを含むことができる。
最後に、上記の方式によって取得された複数のトレーニングサンプルに基づいて、親和性予測モデルをトレーニングして、親和性予測モデルを取得する。
本実施例の親和性予測モデルのトレーニング方法は、複数のトレーニングサンプルを収集し、各トレーニングサンプルには、トレーニング標的の情報、トレーニング薬物の情報、及びトレーニング標的に対応するテストデータセットが含まれ、複数のトレーニングサンプルを使用して、親和性予測モデルをトレーニングし、本実施例の技術案では、各トレーニングサンプルにトレーニング標的に対応するテストデータセットを増加することによって、トレーニングされた親和性予測モデルの正確性とトレーニング効果を効果的に向上させることができる。
図2は、本開示の第2の実施例による概略図である。図2に示すように、本実施例の親和性予測モデルのトレーニング方法は、上記の図1に示す実施例の技術案に基づいて、本開示の技術案をさらに詳細に説明する。図2に示すように、本実施例の親和性予測モデルのトレーニング方法、具体的には、以下のようなステップを含むことができる。
S201、複数のトレーニングサンプルを収集し、各トレーニングサンプルには、トレーニング標的の情報、トレーニング薬物の情報、及びトレーニング標的に対応するテストデータセットが含まれる。
例えば、複数のトレーニングサンプルに複数のトレーニング標的が含まれる場合、各トレーニング標的は、tで表示することができ、トレーニング標的tのテストデータセットDtjは、以下に表示することができ、
Figure 2022106287000002
その中、(cj1,t,y(cj1,t))、(cj2,t,y(cj2,t))は各1つのテストデータに対応し、cj1、cj2は、それぞれテスト薬物の情報であり、対応するテスト薬物を識別するために用いられ、tは、トレーニング標的の情報であり、対応するトレーニング標的を識別するために用いられる。y(cj1,t)は、テスト薬物cj1とトレーニング標的tの既知の親和性を表示し、y(cj2,t)は、テスト薬物cj2とトレーニング標的tの既知の親和性を表示する。本実施例の既知の親和性は、実験的な方式によって検出して取得することができる。トレーニング標的tのテストデータセットDtjは、当該トレーニング標的tに対応するすべてのテスト薬物のテストデータを含むことができる。本実施例のトレーニングサンプル内のトレーニング薬物の情報は、cで表示することができる。
S202、複数のトレーニングサンプルから1グループのトレーニングサンプルを選択し、トレーニングサンプルのグループを取得する。
例えば、実際のアプリケーションでは、複数のトレーニングサンプルから1グループのトレーニングサンプルをトレーニングサンプルのグループとしてランダムに選択することができる。具体的には、当該トレーニングサンプルのグループに含まれるトレーニングサンプルの数は、1つ、2つ、又は複数であってもよく、ここでは限定されない。トレーニングサンプルのグループに含まれるトレーニングサンプルの数が2つ以上である場合、当該トレーニングサンプルのグループ内の各トレーニングサンプルは、同一のトレーニング標的に対応することができ、又は一部は同一のトレーニング標的に対応することもでき、他の部分は、それぞれ1つのトレーニング標的に対応する。
S203、選択されたトレーニングサンプルのグループを親和性予測モデルに入力し、親和性予測モデルによって予測及び出力されたトレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性を取得する。
本実施例の親和性予測モデルは、以下に表示することができる。
Figure 2022106287000003
その中、tは、トレーニング標的の情報を表示し、cは、トレーニング薬物の情報を表示し、Dtjは、トレーニング標的tのテストデータセットを表示し、θは、親和性予測モデルのパラメータを表示し、f(Dtj,c,t;θ)は、親和性予測モデルを表示し、y(c,t)は、親和性予測モデル予測のトレーニング標的tとトレーニング薬物cとの間の親和性を表示する。
トレーニングサンプルのグループ内の各トレーニングサンプルについて、いずれも上記の方式で、親和性予測モデルによって予測及び出力された当該トレーニングサンプルの予測親和性を取得することができる。
S204、トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性、及び対応するトレーニングサンプルにおけるトレーニング標的とトレーニング薬物の既知の親和性に基づいて、損失関数を構築する。
例えば、トレーニングサンプルのグループに1つのトレーニングサンプルのみが含まれる場合、直接に当該トレーニングサンプルに対応する予測親和性と対応する既知の親和性の平均二乗誤差を取得する。トレーニングサンプルに対応する予測親和性は、トレーニングサンプル内のデータを親和性予測モデルに入力し、親和性予測モデルでトレーニングサンプル内のトレーニング標的tとトレーニング薬物cとの間の親和性を予測することを示す。トレーニングサンプルに対応する既知の親和性は、当該トレーニング標的に対応するテストデータセットにおいて、当該トレーニング標的とトレーニング薬物との間で、実験して取得された真実の親和性であってもよい。
トレーニングサンプルのグループに複数のトレーニングサンプルが含まれる場合、トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性と対応する前記既知の親和性との平均二乗誤差の和を、損失関数として取得することができる。本実施例のトレーニングの目的は、損失関数が収束する傾向があるように、最小値に達することであり、例えば、以下のような式を使用して表示することができる。
Figure 2022106287000004
S205、損失関数が収束するか否かを検出し、収束しない場合、ステップS206を実行し、収束する場合、ステップS207を実行する。
S206、損失関数が収束する傾向があるように、親和性予測モデルのパラメータを調整し、ステップS202に戻り、次のグループのトレーニングサンプルのグループを選択して、トレーニングを続ける。
S207、連続する予め設定されたラウンド数のトレーニングに損失関数が常に収束するか否か、又はトレーニングラウンド数が予め設定された閾値に達しているか否かを検出し、そうであれば、親和性予測モデルのパラメータを決定し、さらに、親和性予測モデルを決定して、終了し、そうでなければ、ステップS202に戻り、次のグループのトレーニングサンプルのグループを選択して、トレーニングを続ける。
ステップS202-S206は、親和性予測モデルのトレーニングプロセスである。ステップS207は、親和性予測モデルのトレーニングカットオフ条件である。本実施例はトレーニングカットオフ条件が2つの状況を含むことを例として、第1のトレーニングカットオフ条件では、連続する予め設定されたラウンド数のトレーニングに損失関数が常に収束するか否かであり、常に収束する場合、当該親和性予測モデルは、すでにトレーニング済みであると考えることができる。当該連続する予め設定されたラウンド数は、実際のニーズに応じて設置することができ、例えば、連続80ラウンド、100ラウンド、200ラウンド、又は他の正の整数であってもよく、ここでは限定されない。第2のトレーニングカットオフ条件では、損失関数がずっと収束するが、収束に達することができない状況を防止する。この時、1つのトレーニングの最大ラウンド数を設置することができ、トレーニングラウンド数が最大トレーニングラウンド数に達する時、親和性予測モデルがすでにトレーニング済みであると見なすことができる。例えば、実際のニーズに応じて、予め設定された閾値は、百万レベル又は他のより大きい数級の数値に設置することができ、ここでは限定されない。
実施例では、各トレーニング標的のテストデータセットに含まれるテストデータが多いほど、親和性予測モデルが達成できる予測効果がより良い。これを実現するために、本開示では、処理シーケンスのAttention Layerモデルを使用して最も良い効果を取得することができる。例えば、モデルの表現形式は、以下のようにすることができ、
Figure 2022106287000005
標的をφ(t)としてラベル付けされるように表示することができ、薬物分子は、φ(c)としてラベル付けされるように表示することができ、2つの表現を一緒に融合するのは、φ(c,t)としてラベル付けすることができる。
Figure 2022106287000006
で、予測する必要があるPairは、当該標的の既存情報に対して十分に抽出することができる。最終モデルの予測の形式は、以下のように表示することができ、
Figure 2022106287000007
その中、MLP(Attention(Q,K,V))は、Attention(Q,K,V)モデル構造に対して調整できることを示す。
また、なお、本実施例の親和性予測モデルは、上記のAttention Layerモデルの使用に限定されず、トランスフォーマー(Transformer)モデル又は畳み込み(Convolution)ニューラルネットワークモデルなどを使用することもでき、ここでは省略する。
本実施例の親和性予測モデルのトレーニング方法は、各トレーニングサンプルにトレーニング標的に対応するテストデータセットを増加することによって、トレーニングされた親和性予測モデルの正確性とトレーニング効果を効果的に向上させることができる。
図3は、本開示の第3の実施例による概略図である。図3に示すように、本実施例は、親和性予測方法を提供し、具体的には、以下のようなステップを含むことができる。
S301、検出すべき標的の情報、検出すべき薬物の情報、及び検出すべき標的に対応するテストデータセットを取得する。
本実施例のテストデータセットは、1つの検出すべき標的の情報、複数のテスト薬物の情報、及び当該検出すべき標的と各テスト薬物の親和性を含む。詳細は、上記の図1又は図2に示す実施例のテストデータセットを参照することができる。
S302、検出すべき標的の情報、検出すべき薬物の情報、及び検出すべき標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、検出すべき標的と検出すべき薬物との親和性を予測する。
本実施例の親和性予測方法の実行主体は、親和性予測装置であり、同様に、当該親和性予測装置は、電子エンティティであってもよく、又はソフトウェアを使用して統合したアプリケーションであってもよい。使用時に、当該親和性予測装置に検出すべき標的、検出すべき薬物、及び検出すべき標的に対応するテストデータセットを入力することができ、当該親和性予測装置は、入力の情報に基づいて、当該検出すべき標的と検出すべき薬物との間の親和性を予測して出力することができる。
本実施例では、使用される予めトレーニングされた親和性予測モデルは、上記の図1又は図2に示す実施例のトレーニングされた親和性予測モデルを使用することができ、そのトレーニングされた親和性予測モデルは、トレーニングプロセスに、トレーニングサンプルにトレーニング標的のテストデータセットを増加することにより、トレーニングされた親和性予測モデルの精度がより高く、正確性をより良くすることができる。したがって、このような方式を使用してトレーニングされた親和性予測モデルは、検出すべき標的と検出すべき薬物との親和性を予測する時、予測された検出すべき標的と検出すべき薬物との親和性の精度が非常に高く、正確性が非常に良いことを効果的に確保することができる。
本実施例では、予測された検出すべき標的と検出すべき薬物との親和性が高いほど、検出すべき標的と検出すべき薬物の結合能力が強いことを示し、当該検出すべき薬物が当該検出すべき標的に対する抑制が強くなり、当該検出すべき薬物が、当該検出すべき標的の効果的な治療薬物になる可能性が高くなる。
本実施例の親和性予測方法は、検出すべき標的、検出すべき薬物、及び検出すべき標的に対応するテストデータセットを取得し、検出すべき標的、検出すべき薬物、及び検出すべき標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、検出すべき標的と検出すべき薬物との親和性を予測し、予測時、検出すべき標的に対応するテストデータセットを取得して予測に共に参加するため、予測された検出すべき標的と検出すべき薬物の親和性の正確性がより高くすることができる。
図4は、本開示の第4の実施例による概略図である。図4に示すように、本実施例は、薬物データの選定方法を提供し、具体的には、以下のようなステップを含むことができる。
S401、予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリから予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定し、S402、選定された数個の薬物の情報に基づいて、実験によって取得された数個の薬物内の各薬物と予め設定された標的の真実の親和性を取得し、S403、数個の薬物の情報及び各薬物と予め設定された標的の真実の親和性に基づいて、予め設定された標的に対応するテストデータセットを更新する。
本実施例の薬物データの選定方法の実行主体は、薬物データの選定装置であり、当該薬物データの選定装置は、各予め設定された標的の予測親和性が最も高い数個の薬物を選定して、対応するテストデータセットに更新することを実現することができる。
本実施例の予めトレーニングされた親和性予測モデルは、上記の図1又は図2に示す実施例のトレーニング方法トレーニングされた親和性予測モデルを使用することができ、すなわちトレーニングプロセスに、トレーニングサンプルにトレーニング標的のテストデータセットを増加することにより、トレーニングされた親和性予測モデルの精度がより高く、正確性をより良くすることができる。
本実施例では、1つの予め設定された標的の薬物を選定して、当該予め設定された標的のテストデータセットを更新するのを例として、予め設定された標的について、当該標的のテストデータセットを取得することができ、その中、テストデータセットに含まれるデータは、上記の実施例の関連する記載を参照することができ、ここでは説明を省略する。
本実施例の予め設定された薬物ライブラリは、薬物の化合物分子又は薬物の他の一意の識別情報など、数千~数万のより多くの実験的に検証されていない薬物の情報を含むことができる。実験方法を直接使用して薬物ライブラリ内の各薬物と予め設定された標的の親和性を検証する場合、実験コストが非常に高くなる。本実施例では、まず、予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリから予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定することができ、数個の薬物の数は、実際のニーズに応じて設置することができ、例えば、5個、8個、10個、又は他の正の整数個であってもよく、ここでは限定されない。ステップS401の選定は、親和性予測モデルによって選定され、これらの薬物と予め設定された標的の予測親和性が高く、トレーニングされた親和性予測モデルの予測がより正確である場合、これらの薬物の利用可能性は、理論的に比較的強い。したがって、さらに、実験的な方式を使用して、選定された数個の薬物と予め設定された標的の既知の親和性を検出することができる。このように、薬物ライブラリ内の各薬物をすべて実験して検出するのを回避することができ、実験コストを削減し、薬物選定の効率を向上させることができる。次に、実験して検出された数個の薬物の情報、及び各薬物と予め設定された標的の真実の親和性を、予め設定された標的に対応するテストデータセットに更新して、薬物の一回の選定を完了する。
本実施例では、数個の薬物の情報及び各薬物と予め設定された標的の真実の親和性を当該予め設定された標的に対応するテストデータセットに更新するステップは、テストデータセット内のテストデータの内容を充実させて、再びテストデータセットに基づいて選定する時、選定効率を向上させることができる。
本実施例の薬物処理方法は、上記の技術案を使用することにより、予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリから予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定し、さらに、選定された数個の薬物内の各薬物と予め設定された標的のみに対して、実験的方法を使用して真実の親和性を検出し、数個の薬物の情報及び各薬物と予め設定された標的の真実の親和性を、予め設定された標的に対応するテストデータセットに更新して、すべての薬物に対してすべて実験して選定することを効果的に回避し、実験コストを削減し、薬物選定の効率を向上させることができる。
図5は、本開示の第5の実施例による概略図である。図5に示すように、本実施例の薬物データの選定方法は、上記の図4に示す実施例の技術案に基づいて、本開示の技術案をさらに詳細に説明する。本実施例の薬物データの選定方法は、具体的には、以下のようなステップを含むことができる。
S501、予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリ内の各薬物と予め設定された標的の予測親和性を予測する。
なお、最初に予測する時、当該予め設定された標的に対応するテストデータセットは、空にすることもできる。例えば、予め設定された標的t、薬物ライブラリC={c,…,c}について、現在のステップ数s=1、すなわちループが開始したばかりの時、予め設定された標的に対応するテストデータセットDは、D={}として示すことができる。もちろん、最初に予測する時、当該予め設定された標的に対応するテストデータセットが空でなくてもよく、当該予め設定された標的、実験を通じて検証した薬物の情報、及び予め設定された標的与薬物の既知の親和性を含む。この時、予め設定された標的に対応するテストデータセットに含まれる薬物関連情報の数は、ここで限定しない。
S502、予め設定された薬物ライブラリ内の各薬物と予め設定された標的の予測親和性に基づいて、予め設定された薬物ライブラリから予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定する。
ステップS501-S502は、上記の図4に示す実施例の具体的な実現方式である。つまり、予め設定された薬物ライブラリ内の各薬物について、当該薬物の情報、予め設定された標的の情報、及び当該予め設定された標的のテストデータセットを予めトレーニングされた親和性予測モデルに一緒に入力し、当該親和性予測モデルは、当該薬物と当該予め設定された標的の予測親和性を予測して出力することができる。このような方式で、薬物ライブラリ内の各薬物と予め設定された標的の予測親和性を予測することができる。さらに、予測親和性の高いものから低いものへの順序にしたがって、予め設定された薬物ライブラリのすべての薬物を並べ替えることができ、さらに、その中から予測親和性が最も高い数個の薬物を選定することができる。
S503、選定された数個の薬物の情報に基づいて、実験によって取得された数個の薬物内の各薬物と予め設定された標的の真実の親和性を取得し、本実施例では、ステップS502で選定された数個の薬物についてのみ実験する必要があり、数個の薬物内の各薬物と予め設定された標的の真実の親和性を取得する。例えば、cSiで選定されたi番目の薬物の情報を示すことができ、
Figure 2022106287000008
Kは、数個の薬物の数を示す。対応して、y(cSi,t)で選定されたi番目の薬物と予め設定された標的tの真実の親和性を示す。
S504、数個の薬物の情報及び各薬物と予め設定された標的の真実の親和性に基づいて、予め設定された標的に対応するテストデータセットを更新し、例えば、当該更新プロセスは、以下のような式を使用して表示することができる。
Figure 2022106287000009
S505、テストデータセットの更新された薬物の数が予め設定された数の閾値に達しているか否かを検出し、達していない場合、ステップS501に戻って、薬物の選定を続け、そうでなければ、達した場合、終了する。
なお、本実施例では、テストデータセットの更新された薬物の数は、実験を通じて取得する既知の親和性の薬物の数を指すことができる。第1の更新時に、テストデータセットに更新された薬物の数は、選定された数個の薬物の全部とすることができる。ループ後の他のラウンドの更新では、選定された数個の薬物の情報が以前と重複する可能性があるため、テストデータセットに更新された薬物の数は、選定された数より小さい可能性がある。
本実施例では、実験を通じた薬物の数が予め設定された数の閾値に達していない場合、この時、ステップS501に戻り、現在のステップ数sをs+1に更新し、選定を継続することができる。再び選定するプロセスでは、使用される予めトレーニングされた親和性予測モデルは同じであるが、使用される当該予め設定された標的のテストデータセットは更新され、さらに、薬物ライブラリ内の各薬物と予め設定された標的の親和性の正確性を向上させる。したがって、更新後の予め設定された標的のテストデータセットに基づいて、選定を再度実行し、予め設定された薬物ライブラリから選定された予め設定された標的との予測親和性が最も高い数個の薬物の情報は、前回に選定された数個の薬物の結果と完全に異なる可能性があるか、又は部分的に同じである可能性もある。なお、部分的に同じであり、ステップS503を実行する場合、すでに実験を通じた薬物について、実験を行わずに、予め設定された標的との真実の親和性を取得することができる。実験されていない薬物のみを実験して、予め設定された標的との真実の親和性を取得し、テストデータセットでは、今回の実験を通じて取得された薬物及び予め設定された標的の真実の親和性のみを更新し、テストデータセットの更新された薬物の数が予め設定された数の閾値に達するまで、これによって類推して、ループを終了する。この時、テストデータセット内のデータは、すべて実験を通じて予め設定された標的との真実の親和性を取得する。続いて、当該予め設定された標的のテストデータセットから既知の親和性が最も高い1つの又は数個の薬物の情報を、先行の薬物化合物として選択して続いて検証を行うことができる。
本実施例では、選定された予め設定された標的に対応するテストデータセットは、上記の図1又は図2に示す実施例の親和性予測モデルのトレーニングプロセスに使用することができ、トレーニングサンプル内の予め設定された標的のテストデータセットの正確性を効果的に確保することができ、トレーニングされた親和性予測モデルの精度をさらに向上させることができる。逆に、また、図1又は図2に示す実施例の親和性予測モデルを使用して図4又は図5に示す実施例の薬物データの選定を実現し、薬物データ選定された正確性と選定効率を向上させることもできる。
又は、本実施例の選定された予め設定された標的に対応するテストデータセットは、上記の図1又は図2に示す実施例のトレーニングサンプル内のテストデータセットと異なってもよい。本実施例では、まず、予めトレーニングされた親和性予測モデルを使用して数個の薬物の情報を選定するため、数個の薬物の情報に基づいて、最終的に取得されたテストデータセット内の当該予め設定された標的と薬物の親和性は、比較的に高く、図1又は図2に示す実施例のトレーニングサンプル内のテストデータセット内のトレーニング標的とテスト薬物の親和性は低くすることができ、実験を通じて取得されたものであればよい。
本実施例の薬物データの選定方法は、上記のスキームを使用することにより、予めトレーニングされた親和性検出モデルを使用して、効果的な薬物選定スキームを提供し、薬物ライブラリ内のすべての薬物に対してすべて実験して選定することを回避し、実験コストを効果的に削減することができ、薬物選定の効率を効果的に向上させることができる。
図6は、本開示の第6の実施例による概略図である。図6に示すように、本実施例は、親和性予測モデルのトレーニング装置600を提供し、収集モジュール601とトレーニングモジュール602を含む。
収集モジュール601は、複数のトレーニングサンプルを収集するために用いられ、各トレーニングサンプルには、トレーニング標的の情報、トレーニング薬物の情報、及びトレーニング標的に対応するテストデータセットが含まれ、トレーニングモジュール602は、複数のトレーニングサンプルを使用して、親和性予測モデルをトレーニングするために用いられる。
本実施例の親和性予測モデルのトレーニング装置600は、上記のモジュールを使用することによって親和性予測モデルのトレーニングの実現原理及び技術的効果を実現し、上記の関連方法の実施例の実現と同じであり、詳細は上記の関連方法の実施例の記載を参照することができ、ここでは説明を省略する。
図7は、本開示の第7の実施例による概略図である。図7に示すように、本実施例の親和性予測モデルのトレーニング装置600は、上記の図6に示す実施例の技術案に基づいて、本開示の技術案をさらに詳細に説明する。
本実施例の親和性予測モデルのトレーニング装置600では、収集モジュール601によって収集された複数のトレーニングサンプルのうち、各トレーニングサンプル内のトレーニング標的に対応するテストデータセットは、トレーニング標的と各テスト薬物の既知の親和性を含む。
図7に示すように、本実施例の親和性予測モデルのトレーニング装置600では、トレーニングモジュール602は、複数のトレーニングサンプルから1グループのトレーニングサンプルを選択し、トレーニングサンプルのグループを取得するための選択ユニット6021と、選択されたトレーニングサンプルのグループを親和性予測モデルに入力し、親和性予測モデルによって予測及び出力されたトレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性を取得するための取得ユニット6022と、トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性、及び対応するトレーニングサンプルにおけるトレーニング標的とトレーニング薬物の既知の親和性に基づいて、損失関数を構築するための構築ユニット6023と、損失関数が収束するか否かを検出するための検出ユニット6024と、収束しない場合、損失関数が収束する傾向があるように、親和性予測モデルのパラメータを調整するための調整ユニット6025と、を含む。
さらに、選択可能に、構築ユニット6023は、トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性と対応する前記既知の親和性との平均二乗誤差の和を、損失関数として取得するために用いられる。
本実施例の親和性予測モデルのトレーニング装置600では、上記のモジュールを使用することによって親和性予測モデルのトレーニングの実現原理及び技術的効果を実現し、上記の関連方法の実施例の実現と同じであり、詳細は上記の関連方法の実施例の記載を参照することができ、ここでは説明を省略する。
図8は、本開示の第8の実施例による概略図である。図8に示すように、本実施例は、親和性予測装置800を提供し、検出すべき標的の情報、検出すべき薬物の情報、及び検出すべき標的に対応するテストデータセットを取得するための取得モジュール801と、検出すべき標的の情報、検出すべき薬物の情報、及び検出すべき標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、検出すべき標的と検出すべき薬物との親和性を予測するための予測モジュール802と、を含む。
本実施例の親和性予測装置800では、上記のモジュールを使用することによって親和性予測の実現原理及び技術的効果を実現し、上記の関連方法の実施例の実現と同じであり、詳細は上記の関連方法の実施例の記載を参照することができ、ここでは説明を省略する。
図9は、本開示の第9の実施例による概略図である。図9に示すように、本実施例は、薬物データの選定装置900を提供し、予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリから予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定するための選定モジュール901と、選定された数個の薬物の情報に基づいて、実験によって取得された数個の薬物内の各薬物と予め設定された標的の真実の親和性を取得するための取得モジュール902と、数個の薬物の情報及び各薬物と予め設定された標的の真実の親和性に基づいて、予め設定された標的に対応するテストデータセットを更新するための更新モジュール903と、を含む。
本実施例の薬物データの選定装置900は、上記のモジュールを使用することによって薬物データの選定の実現原理及び技術的効果を実現し、上記の関連方法の実施例の実現と同じであり、詳細は上記の関連方法の実施例の記載を参照することができ、ここでは説明を省略する。
本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。
図10に示すように、本開示の実施例の例を実現するための電子機器1000のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限することを意図したものではない。
図10に示すように、電子機器1000は計算ユニット1001を含み、計算ユニット1001は、読み取り専用メモリ(ROM)1002に記憶されているコンピュータプログラム又は記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロードされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。RAM1003には、電子機器1000が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット1001、ROM1002、及びRAM1003は、バス1004を介してお互いに接続される。入出力(I/O)インターフェース1005もバス1004に接続される。
電子機器1000内の複数のコンポーネントは、I/Oインターフェース1005に接続されており、キーボード、マウスなどの入力ユニット1006と、様々なタイプのディスプレイ、スピーカなどの出力ユニット1007と、ディスク、光ディスクなどの記憶ユニット1008と、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1009と、を含む。通信ユニット1009は、電子機器1000が、インターネットなどのコンピュータネットワーク、及び/又は様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
計算ユニット1001は、様々な処理と計算能力を備える汎用及び/又は専用の処理コンポーネントである。計算ユニット1001の数個の例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット1001は、親和性予測モデルのトレーニング方法、親和性予測方法、又は薬物データの選定方法などの上記の様々な方法と処理を実行する。例えば、数個の実施例では、親和性予測モデルのトレーニング方法、親和性予測方法、又は薬物データの選定方法は、記憶ユニット1008などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。数個の実施例では、コンピュータプログラムの一部又は全部は、ROM1002及び/又は通信ユニット1009を介して電子機器1000にロード及び/又はインストールされる。コンピュータプログラムがRAM1003にロードされて計算ユニット1001によって実行される場合、上記の親和性予測モデルのトレーニング方法、親和性予測方法、又は薬物データの選定方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット1001は、他の任意の適切な方式(例えば、ファームウェアによって)を介して親和性予測モデルのトレーニング方法、親和性予測方法、又は薬物データの選定方法を実行するように構成されることができる。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
本開示の方法を実施するためのプログラムコードは、一つ又は複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサ又はコントローラによって実行される時にフローチャート及び/又はブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、又は完全にリモート機械又はサーバ上で実行されたりすることができる。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、又は機器の使用、又は命令実行システム、装置又は機器と組み合わせて使用するプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置又は機器、又は上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つ又は複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記の内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークと、ブロックチェーンネットワークと、を含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウド計算又はクラウドホストとも呼ばれ、クラウド計算サービスシステムの中の一つのホスト製品であり、従来の物理ホストとVPSサーバ(Virtual Private Server、又はVPSと呼ぶ)に、存在する管理困難度が高く、業務拡張性が弱い欠陥を解決する。サーバは、分散システムのサーバであってもよく、又はブロックチェーンを組み合わせるサーバであってもよい。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims (27)

  1. 親和性予測モデルのトレーニング方法であって、
    複数のトレーニングサンプルを収集するステップであって、各トレーニングサンプルには、トレーニング標的の情報、トレーニング薬物の情報、及びトレーニング標的に対応するテストデータセットが含まれるステップと、
    前記複数のトレーニングサンプルを使用して、親和性予測モデルをトレーニングするステップと、を含む、
    親和性予測モデルのトレーニング方法。
  2. 前記トレーニング標的に対応するテストデータセットは、前記トレーニング標的と各テスト薬物の既知の親和性を含む、
    請求項1に記載の親和性予測モデルのトレーニング方法。
  3. 前記複数のトレーニングサンプルを使用して、親和性予測モデルをトレーニングするステップは、
    前記複数のトレーニングサンプルから1グループのトレーニングサンプルを選択し、トレーニングサンプルのグループを取得するステップと、
    選択された前記トレーニングサンプルのグループを前記親和性予測モデルに入力し、前記親和性予測モデルによって予測及び出力された前記トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性を取得するステップと、
    前記トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性、及び対応する前記トレーニングサンプルにおける前記トレーニング標的と前記トレーニング薬物の既知の親和性に基づいて、損失関数を構築するステップと、
    前記損失関数が収束するか否かを検出するステップと、
    前記損失関数が収束しない場合、前記損失関数が収束する傾向があるように、前記親和性予測モデルのパラメータを調整するステップと、を含む、
    請求項2に記載の親和性予測モデルのトレーニング方法。
  4. 前記トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性、及び対応する前記トレーニングサンプルにおける前記トレーニング標的と前記トレーニング薬物の既知の親和性に基づいて、損失関数を構築するステップは、
    前記トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性と対応する前記既知の親和性との平均二乗誤差の和を、損失関数として取得するステップを含む、
    請求項3に記載の親和性予測モデルのトレーニング方法。
  5. 親和性予測方法であって、
    検出すべき標的の情報、検出すべき薬物の情報、及び前記検出すべき標的に対応するテストデータセットを取得するステップと、
    前記検出すべき標的の情報、前記検出すべき薬物の情報、及び前記検出すべき標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、前記検出すべき標的と前記検出すべき薬物との親和性を予測するステップと、を含む、
    親和性予測方法。
  6. 前記検出すべき標的に対応するテストデータセットは、前記検出すべき標的の情報、複数のテスト薬物の情報、及び前記検出すべき標的と前記複数のテスト薬物内の各テスト薬物の親和性を含む、
    請求項5に記載の親和性予測方法。
  7. 薬物データの選定方法であって、
    予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリから前記予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定するステップと、
    選定された前記数個の薬物の情報に基づいて、前記数個の薬物内の各薬物と前記予め設定された標的の真実の親和性を検出するステップと、
    前記数個の薬物の情報及び各薬物と前記予め設定された標的の真実の親和性に基づいて、前記予め設定された標的に対応するテストデータセットを更新するステップと、を含む、
    薬物データの選定方法。
  8. 前記予め設定された標的に対応するテストデータセットは、空であるか、又は薬物の情報、及び前記薬物と前記予め設定された標的の真実の親和性を含む、
    請求項7に記載の薬物データの選定方法。
  9. 予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリから前記予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定するステップは、
    前記予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた前記親和性予測モデルを使用して、前記予め設定された薬物ライブラリ内の各薬物と前記予め設定された標的の予測親和性を予測するステップと、
    前記予め設定された薬物ライブラリ内の各薬物と前記予め設定された標的の予測親和性に基づいて、前記予め設定された薬物ライブラリから前記予め設定された標的の前記予測親和性が最も高い前記数個の薬物の情報を選定するステップと、を含む、
    請求項7又は8に記載の薬物データの選定方法。
  10. 親和性予測モデルのトレーニング装置であって、
    複数のトレーニングサンプルを収集するための収集モジュールであって、各トレーニングサンプルには、1つのトレーニング標的の情報、トレーニング薬物の情報、及びトレーニング標的に対応するテストデータセットが含まれる収集モジュールと、
    前記複数のトレーニングサンプルを使用して、親和性予測モデルをトレーニングするためのトレーニングモジュールと、を含む、
    親和性予測モデルのトレーニング装置。
  11. 前記トレーニング標的に対応するテストデータセットは、前記トレーニング標的と各テスト薬物の既知の親和性を含む、
    請求項10に記載の親和性予測モデルのトレーニング装置。
  12. 前記トレーニングモジュールは、
    前記複数のトレーニングサンプルから1グループのトレーニングサンプルを選択し、トレーニングサンプルのグループを取得するための選択ユニットと、
    選択された前記トレーニングサンプルのグループを前記親和性予測モデルに入力し、前記親和性予測モデルによって予測及び出力された前記トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性を取得するための取得ユニットと、
    前記トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性、及び対応する前記トレーニングサンプルにおける前記トレーニング標的と前記トレーニング薬物の既知の親和性に基づいて、損失関数を構築するための構築ユニットと、
    前記損失関数が収束するか否かを検出するための検出ユニットと、
    前記損失関数が収束しない場合、前記損失関数が収束する傾向があるように、前記親和性予測モデルのパラメータを調整するための調整ユニットと、を含む、
    請求項11に記載の親和性予測モデルのトレーニング装置。
  13. 前記構築ユニットは、
    前記トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性と対応する前記既知の親和性との平均二乗誤差の和を、損失関数として取得するために用いられる、
    請求項12に記載の親和性予測モデルのトレーニング装置。
  14. 親和性予測装置であって、
    検出すべき標的の情報、検出すべき薬物の情報、及び前記検出すべき標的に対応するテストデータセットを取得するための取得モジュールと、
    前記検出すべき標的の情報、前記検出すべき薬物の情報、及び前記検出すべき標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、前記検出すべき標的と前記検出すべき薬物との親和性を予測するための予測モジュールと、を含む、
    親和性予測装置。
  15. 前記検出すべき標的に対応するテストデータセットは、前記検出すべき標的の情報、複数のテスト薬物の情報、及び前記検出すべき標的と前記複数のテスト薬物内の各テスト薬物の親和性を含む、
    請求項14に記載の親和性予測装置。
  16. 薬物データの選定装置であって、
    予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリから前記予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定するための選定モジュールと、
    選定された前記数個の薬物の情報に基づいて、実験によって取得された前記数個の薬物内の各薬物と前記予め設定された標的の真実の親和性を取得するための取得モジュールと、
    前記数個の薬物の情報及び各薬物と前記予め設定された標的の真実の親和性に基づいて、前記予め設定された標的に対応するテストデータセットを更新するための更新モジュールと、を含む、
    薬物データの選定装置。
  17. 前記予め設定された標的に対応するテストデータセットは、空であるか、又は薬物の情報、及び前記薬物と前記予め設定された標的の真実の親和性を含む、
    請求項16に記載の薬物データの選定装置。
  18. 前記選定モジュールは、
    前記予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた前記親和性予測モデルを使用して、前記予め設定された薬物ライブラリ内の各薬物と前記予め設定された標的の予測親和性を予測し、
    前記予め設定された薬物ライブラリ内の各薬物と前記予め設定された標的の予測親和性に基づいて、前記予め設定された薬物ライブラリから前記予め設定された標的の前記予測親和性が最も高い前記数個の薬物の情報を選定するために用いられる、
    請求項16又は17に記載の薬物データの選定装置。
  19. 電子機器であって、
    少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
    前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1~4のいずれか一つに記載の親和性予測モデルのトレーニング方法を実行する、
    電子機器。
  20. 電子機器であって、
    少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
    前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項5又は6に記載の親和性予測方法を実行する、
    電子機器。
  21. 電子機器であって、
    少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
    前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項7~9のいずれか一つに記載の薬物データの選定方法を実行する、
    電子機器。
  22. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~4のいずれか一つに記載の親和性予測モデルのトレーニング方法を実行させる、
    非一時的なコンピュータ読み取り可能な記憶媒体。
  23. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項5又は6に記載の親和性予測方法を実行させる、
    非一時的なコンピュータ読み取り可能な記憶媒体。
  24. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項7~9のいずれか一つに記載の薬物データの選定方法を実行させる、
    非一時的なコンピュータ読み取り可能な記憶媒体。
  25. コンピュータに請求項1~4のいずれか一つに記載の親和性予測モデルのトレーニング方法を実行させる、コンピュータプログラム。
  26. コンピュータに請求項5又は6に記載の親和性予測方法を実行させる、コンピュータプログラム。
  27. コンピュータに請求項7~9のいずれか一つに記載の薬物データの選定方法を実行させる、コンピュータプログラム。
JP2021207057A 2021-01-06 2021-12-21 親和性予測方法及びモデルのトレーニング方法、装置、機器及び媒体 Pending JP2022106287A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110011160.6A CN112331262A (zh) 2021-01-06 2021-01-06 亲和度预测方法及模型的训练方法、装置、设备及介质
CN202110011160.6 2021-01-06

Publications (1)

Publication Number Publication Date
JP2022106287A true JP2022106287A (ja) 2022-07-19

Family

ID=74302481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021207057A Pending JP2022106287A (ja) 2021-01-06 2021-12-21 親和性予測方法及びモデルのトレーニング方法、装置、機器及び媒体

Country Status (5)

Country Link
US (1) US20220215899A1 (ja)
EP (1) EP4027348A3 (ja)
JP (1) JP2022106287A (ja)
KR (1) KR20220099504A (ja)
CN (1) CN112331262A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409883B (zh) * 2021-06-30 2022-05-03 北京百度网讯科技有限公司 信息预测及信息预测模型的训练方法、装置、设备及介质
CN113409884B (zh) * 2021-06-30 2022-07-22 北京百度网讯科技有限公司 排序学习模型的训练方法及排序方法、装置、设备及介质
CN113643752A (zh) * 2021-07-29 2021-11-12 北京百度网讯科技有限公司 建立药物协同作用预测模型的方法、预测方法及对应装置
CN114663347B (zh) * 2022-02-07 2022-09-27 中国科学院自动化研究所 无监督的物体实例检测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030115030A1 (en) * 2001-12-19 2003-06-19 Camitro Corporation Non-linear modelling of biological activity of chemical compounds
US20190304568A1 (en) * 2018-03-30 2019-10-03 Board Of Trustees Of Michigan State University System and methods for machine learning for drug design and discovery

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1636727B1 (en) * 2003-06-10 2012-10-31 Janssen Diagnostics BVBA Computational method for predicting the contribution of mutations to the drug resistance phenotype exhibited by hiv based on a linear regression analysis of the log fold resistance
CN102930181B (zh) * 2012-11-07 2015-05-27 四川大学 基于分子描述符的蛋白质-配体亲和力预测方法
CN103116713B (zh) * 2013-02-25 2015-09-16 浙江大学 基于随机森林的化合物和蛋白质相互作用预测方法
US11721441B2 (en) * 2019-01-15 2023-08-08 Merative Us L.P. Determining drug effectiveness ranking for a patient using machine learning
CN110415763B (zh) * 2019-08-06 2023-05-23 腾讯科技(深圳)有限公司 药物与靶标的相互作用预测方法、装置、设备及存储介质
CN110689965B (zh) * 2019-10-10 2023-03-24 电子科技大学 一种基于深度学习的药物靶点亲和力预测方法
CN111105843B (zh) * 2019-12-31 2023-07-21 杭州纽安津生物科技有限公司 一种hlai型分子与多肽的亲和力预测方法
CN111599403B (zh) * 2020-05-22 2023-03-14 电子科技大学 一种基于排序学习的并行式药物-靶标相关性预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030115030A1 (en) * 2001-12-19 2003-06-19 Camitro Corporation Non-linear modelling of biological activity of chemical compounds
US20190304568A1 (en) * 2018-03-30 2019-10-03 Board Of Trustees Of Michigan State University System and methods for machine learning for drug design and discovery

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DMITRY S. KARLOV ET AL.: "graphDelta: MPNN Scoring Function for the Affinity Prediction of Protein-Ligand Complex", ACS OMEGA, vol. 5, no. 10, JPN6023007968, 9 March 2020 (2020-03-09), pages 5150 - 5159, XP055905882, ISSN: 0005001154, DOI: 10.1021/acsomega.9b04162 *
MAHA THAFAR ET AL.: "Comparison Study of Computational Prediction Tools for Drug-Target Binding Affinities", FRONTIERS IN CHEMISTRY, vol. 7, no. 782, JPN6023007970, 20 November 2019 (2019-11-20), pages 1 - 19, XP055905729, ISSN: 0005165403, DOI: 10.3389/fchem.2019.00782 *

Also Published As

Publication number Publication date
KR20220099504A (ko) 2022-07-13
US20220215899A1 (en) 2022-07-07
CN112331262A (zh) 2021-02-05
EP4027348A2 (en) 2022-07-13
EP4027348A3 (en) 2022-08-31

Similar Documents

Publication Publication Date Title
JP2022106287A (ja) 親和性予測方法及びモデルのトレーニング方法、装置、機器及び媒体
Hon et al. pqsfinder: an exhaustive and imperfection-tolerant search tool for potential quadruplex-forming sequences in R
Benidt et al. SimSeq: a nonparametric approach to simulation of RNA-sequence datasets
WO2018044633A1 (en) End-to-end learning of dialogue agents for information access
JP2017537365A (ja) 患者データに基づく健康診断および治療のためのベイジアン因果関係ネットワークモデル
US11244761B2 (en) Accelerated clinical biomarker prediction (ACBP) platform
JP2009064433A (ja) 共同体に基づく信用のための方法及び装置
Yong et al. Supervised maximum-likelihood weighting of composite protein networks for complex prediction
US10769140B2 (en) Concept expansion using tables
US11514334B2 (en) Maintaining a knowledge database based on user interactions with a user interface
KR20200110141A (ko) 신약 후보 물질 도출을 위한 데이터 처리 방법
CN112331261A (zh) 药物预测方法及模型的训练方法、装置、电子设备及介质
JP2023041620A (ja) 薬品相乗効果予測モデルの構築方法、予測方法及び対応装置
JP7387964B2 (ja) ソート学習モデルの訓練方法、ソート方法、装置、デバイス及び媒体
JP2023020910A (ja) 薬物相乗効果予測モデルの構築方法、予測方法及び対応装置
Kim et al. Identifying disease candidate genes via large-scale gene network analysis
CN116959571A (zh) 蛋白质语言模型的训练方法、电子设备、计算机可读介质和程序产品
US20220270705A1 (en) Automatically designing selective molecules
CN113961720A (zh) 预测实体关系的方法和关系预测模型的训练方法、装置
US20210174912A1 (en) Data processing systems and methods for repurposing drugs
US20220270706A1 (en) Automatically designing molecules for novel targets
Li et al. Bi-SGTAR: A simple yet efficient model for circRNA-disease association prediction based on known association pair only
Lu et al. RDDriver: A novel method based on multi-layer heterogeneous transcriptional regulation network for identifying pancreatic cancer biomarker
CN113782092A (zh) 一种生存期预测模型的生成方法及装置、存储介质
Zhou et al. A computational frame and resource for understanding the lncRNA-environmental factor associations and prediction of environmental factors implicated in diseases

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231003