JP2022106287A

JP2022106287A - 親和性予測方法及びモデルのトレーニング方法、装置、機器及び媒体

Info

Publication number: JP2022106287A
Application number: JP2021207057A
Authority: JP
Inventors: ワン、ファン; Fan Wang; ヘ、ジンジョウ; Jingzhou He; ファン、シャオミン; Xiaomin Fang; ジャン、シャオナン; Xiaonan Zhang; ウ、フア; Hua Wu; ウ、ティアン; Tian Wu; ワン、ハイフェン; Haifeng Wang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-01-06
Filing date: 2021-12-21
Publication date: 2022-07-19
Also published as: KR20220099504A; US20220215899A1; CN112331262A; EP4027348A2; EP4027348A3

Abstract

【課題】機械学習とインテリジェント医療などの人工知能技術の分野に関する親和性予測方法及びモデルのトレーニング方法、装置、機器及び媒体を提供する。【解決手段】方法は、複数のトレーニングサンプルを収集する。各トレーニングサンプルには、トレーニング標的の情報、トレーニング薬物の情報及びトレーニング標的に対応するテストデータセットが含まれる。方法はさらに、複数のトレーニングサンプルを使用して、親和性予測モデルをトレーニングする。【効果】トレーニングされた親和性予測モデルの正確性とトレーニング効果を効果的に向上させることができる。親和性予測時、検出すべき標的に対応するテストデータセットを取得して予測に一緒に参加するため、予測された検出すべき標的と検出すべき薬物の親和性の正確性をより高くすることができる。【選択図】図１

Description

本開示は、コンピュータ技術の分野に関し、具体的には、機械学習及びインテリジェント医療などの人工知能技術の分野に関し、特に、親和性予測方法及びモデルのトレーニング方法、装置、機器及び媒体に関する。

人間の病気の標的は、通常、病気の発展に重要な役割を果たすタンパク質であり、タンパク質標的と呼ぶこともできる。薬物は、標的タンパク質との結合によって対応するタンパク質が本来の機能を失うことによって、病気を抑制する作用を実現する。新薬開発のプロセスにおいて、タンパク質標的（Ｔａｒｇｅｔ）と化合物分子（Ｄｒｕｇ）の親和性の予測は、非常の重要の段階である。親和性予測により、タンパク質標的と密接に結合できる高活性の化合物分子を見つけて、最適化を続けて、最終的に治療に使える薬物を形成する。

最も伝統的な方法は、最終的に形成される薬物の化合物分子を1つずつ体外活性実験を行って、薬物とタンパク質標的の親和性を正確に検出する必要がある。現在のハイスループット実験は、短時間で数百千の実験を行うことができるが、このような実験コストは、依然として非常に高く、ほぼ無限大の化合物空間、数千万の化合物構造に直面して、このような実験方式は、依然として実現不可能である。

本開示は、親和性予測方法及びモデルのトレーニング方法、装置、機器及び媒体を提供する。

本開示の一態様によれば、親和性予測モデルのトレーニング方法を提供し、前記方法は、
複数のトレーニングサンプルを収集するステップであって、各トレーニングサンプルには、トレーニング標的の情報、トレーニング薬物の情報、及びトレーニング標的に対応するテストデータセットが含まれるステップと、
前記複数のトレーニングサンプルを使用して、親和性予測モデルをトレーニングするステップと、を含む。

本開示の別の態様によれば、親和性予測方法を提供し、前記方法は、
検出すべき標的の情報、検出すべき薬物の情報、及び前記検出すべき標的に対応するテストデータセットを取得するステップと、
前記検出すべき標的の情報、前記検出すべき薬物の情報、及び前記検出すべき標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、前記検出すべき標的と前記検出すべき薬物との親和性を予測するステップと、を含む。

本開示の別の態様によれば、薬物データの選定方法を提供し、前記方法は、
予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリから前記予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定するステップと、
選定された前記数個の薬物の情報に基づいて、実験によって取得された前記数個の薬物内の各薬物と前記予め設定された標的の真実の親和性を取得するステップと、
前記数個の薬物の情報及び各薬物と前記予め設定された標的の真実の親和性に基づいて、前記予め設定された標的に対応するテストデータセットを更新するステップと、を含む。

本開示の別の態様によれば、親和性予測モデルのトレーニング装置を提供し、前記装置は、
複数のトレーニングサンプルを収集するための収集モジュールであって、各トレーニングサンプルには、トレーニング標的の情報、トレーニング薬物の情報、及びトレーニング標的に対応するテストデータセットが含まれる収集モジュールと、
前記複数のトレーニングサンプルを使用して、親和性予測モデルをトレーニングするためのトレーニングモジュールと、を含む。

本開示の別の態様によれば、親和性予測装置を提供し、前記装置は、
検出すべき標的の情報、検出すべき薬物の情報、及び前記検出すべき標的に対応するテストデータセットを取得するための取得モジュールと、
前記検出すべき標的の情報、前記検出すべき薬物の情報、及び前記検出すべき標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、前記検出すべき標的と前記検出すべき薬物との親和性を予測するための予測モジュールと、を含む。

本開示のもう一つの態様によれば、薬物データの選定装置を提供し、前記装置は、
予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリから前記予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定するための選定モジュールと、
選定された前記数個の薬物の情報に基づいて、実験によって取得された前記数個の薬物内の各薬物と前記予め設定された標的の真実の親和性を取得するための取得モジュールと、
前記数個の薬物の情報及び各薬物と前記予め設定された標的の真実の親和性に基づいて、前記予め設定された標的に対応するテストデータセットを更新するための更新モジュールと、を含む。

本開示の別の態様によれば、電子機器を提供し、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の方法を実行する。

本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記の方法を実行させる。

本開示の技術に基づいて、親和性予測モデルトレーニング時、各トレーニングサンプルにトレーニング標的に対応するテストデータセットを増加することによって、トレーニングされた親和性予測モデルの正確性とトレーニング効果を効果的に向上させることができる。親和性予測時、検出すべき標的に対応するテストデータセットを取得して予測に一緒に参加するため、予測された検出すべき標的と検出すべき薬物の親和性の正確性がより高くなることができる。

本明細書で説明された内容は、本開示の実施例のキー又は重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。

図面は、本開示をより良く理解するためのものであり、本開示を限定しない。
本開示の第１の実施例による概略図である。本開示の第２の実施例による概略図である。本開示の第３の実施例による概略図である。本開示の第４の実施例による概略図である。本開示の第５の実施例による概略図である。本開示の第６の実施例による概略図である。本開示の第７の実施例による概略図である。本開示の第８の実施例による概略図である。本開示の第９の実施例による概略図である。本開示の実施例を実施するための例示的な電子機器１０００の概略ブロック図である。

以下、図面に基づいて、本開示の例示の実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

図１は、本開示の第１の実施例による概略図である。図１に示すように、本実施例は、親和性予測モデルのトレーニング方法を提供し、具体的には、以下のようなステップを含むことができる。

Ｓ１０１、複数のトレーニングサンプルを収集し、各トレーニングサンプルには、トレーニング標的の情報、トレーニング薬物の情報、及びトレーニング標的に対応するテストデータセットが含まれる。

その中、各トレーニングサンプルは、１つのトレーニング標的の情報、１つのトレーニング薬物の情報、及び当該トレーニング標的に対応するテストデータセットを含むことができる。

Ｓ１０２、複数のトレーニングサンプルを使用して、親和性予測モデルをトレーニングする。

本実施例の親和性予測モデルのトレーニング方法の実行主体は、親和性予測モデルのトレーニング装置であり、当該装置は、電子エンティティであってもよく、又はソフトウェアを使用して統合したアプリケーションであってもよい。使用時に、当該親和性予測モデルは、予め収集された複数のトレーニングサンプルに基づいて、親和性予測モデルをトレーニングすることができる。

具体的には、本実施例で収集された複数のトレーニングサンプルの数は、百万レベル以上に達することができ、収集されたトレーニングサンプルの数が多いほど、トレーニングされた親和性予測モデルの正確性が高くなる。

本実施例で収集された複数のトレーニングサンプルには、複数のトレーニング標的に関するサンプルが含まれる。複数のトレーニングサンプルのうちの一部のトレーニングサンプルのトレーニング標的は、同じであってもよく、異なってもよいことを理解することができる。例えば、１００万個のトレーニングサンプルには、１０万個のトレーニング標的に関することができ、このように、１００万個のトレーニングサンプルには、トレーニング標的が同じであるトレーニングサンプルが必ず存在するが、ここで述べたトレーニング標的が同じであるトレーニングサンプルは、トレーニングサンプル内のトレーニング標的が同じであり、トレーニングサンプル内のトレーニング薬物が異なる場合のみを指す。

従来のモデルトレーニングのトレーニングデータとの違いは、本実施例のトレーニングサンプルには、トレーニング標的の情報とトレーニング薬物の情報を含む以外、当該トレーニング標的に対応するテストデータセットをさらに含む必要があり、親和性予測モデルのトレーニング効果をさらに向上させる。例えば、本実施例のトレーニング標的に対応するテストデータセットは、親和性予測モデルのトレーニング中に使用するように、トレーニング標的と各テスト薬物の既知の親和性を含むことができる。トレーニングサンプル内のトレーニング標的の情報は、当該トレーニング標的を一意に識別するために、トレーニング標的の識別子であってもよいし、当該トレーニング標的のタンパク質の表現方式であってもよい。トレーニングサンプル内のトレーニング薬物の情報は、当該トレーニング薬物の化合物分子式、当該トレーニング化合物を一意に識別できる他の識別子であってもよい。

例えば、本実施例のトレーニング標的に対応するテストデータセットは、複数のテストデータを含むことができ、各テストデータの表現形式（トレーニング標的の情報、テスト薬物の情報、トレーニング標的とテスト薬物の親和性）であってもよい。各トレーニング標的に対応して、１つの個別のテストデータセットが存在して、当該トレーニング標的におけるすべてのテスト薬物の情報を記録することができる。

各トレーニング標的に対応するテストデータセットは、１つの特殊な既知のデータセットであり、その中に含まれる当該トレーニング標的は、それぞれ複数のテスト薬物の親和性、当該トレーニング標的の情報、及び当該トレーニング標的に対応する１つのトレーニング薬物の情報とともに、親和性予測モデルのトレーニング中に使用するように、１つのトレーニングサンプルを構成することができる。各トレーニングサンプルは、１つのトレーニング標的の情報、１つのトレーニング薬物の情報、及び当該トレーニング標的に対応するテストデータセットを含むことができる。

最後に、上記の方式によって取得された複数のトレーニングサンプルに基づいて、親和性予測モデルをトレーニングして、親和性予測モデルを取得する。

本実施例の親和性予測モデルのトレーニング方法は、複数のトレーニングサンプルを収集し、各トレーニングサンプルには、トレーニング標的の情報、トレーニング薬物の情報、及びトレーニング標的に対応するテストデータセットが含まれ、複数のトレーニングサンプルを使用して、親和性予測モデルをトレーニングし、本実施例の技術案では、各トレーニングサンプルにトレーニング標的に対応するテストデータセットを増加することによって、トレーニングされた親和性予測モデルの正確性とトレーニング効果を効果的に向上させることができる。

図２は、本開示の第２の実施例による概略図である。図２に示すように、本実施例の親和性予測モデルのトレーニング方法は、上記の図１に示す実施例の技術案に基づいて、本開示の技術案をさらに詳細に説明する。図２に示すように、本実施例の親和性予測モデルのトレーニング方法、具体的には、以下のようなステップを含むことができる。

Ｓ２０１、複数のトレーニングサンプルを収集し、各トレーニングサンプルには、トレーニング標的の情報、トレーニング薬物の情報、及びトレーニング標的に対応するテストデータセットが含まれる。

例えば、複数のトレーニングサンプルに複数のトレーニング標的が含まれる場合、各トレーニング標的は、ｔ_ｊで表示することができ、トレーニング標的ｔ_ｊのテストデータセットＤ_ｔｊは、以下に表示することができ、

その中、（ｃ_ｊ１，ｔ_ｊ，ｙ（ｃ_ｊ１，ｔ_ｊ））、（ｃ_ｊ２，ｔ_ｊ，ｙ（ｃ_ｊ２，ｔ_ｊ））は各１つのテストデータに対応し、ｃ_ｊ１、ｃ_ｊ２は、それぞれテスト薬物の情報であり、対応するテスト薬物を識別するために用いられ、ｔ_ｊは、トレーニング標的の情報であり、対応するトレーニング標的を識別するために用いられる。ｙ（ｃ_ｊ１，ｔ_ｊ）は、テスト薬物ｃ_ｊ１とトレーニング標的ｔ_ｊの既知の親和性を表示し、ｙ（ｃ_ｊ２，ｔ_ｊ）は、テスト薬物ｃ_ｊ２とトレーニング標的ｔ_ｊの既知の親和性を表示する。本実施例の既知の親和性は、実験的な方式によって検出して取得することができる。トレーニング標的ｔ_ｊのテストデータセットＤ_ｔｊは、当該トレーニング標的ｔ_ｊに対応するすべてのテスト薬物のテストデータを含むことができる。本実施例のトレーニングサンプル内のトレーニング薬物の情報は、ｃ_ｉで表示することができる。

Ｓ２０２、複数のトレーニングサンプルから１グループのトレーニングサンプルを選択し、トレーニングサンプルのグループを取得する。

例えば、実際のアプリケーションでは、複数のトレーニングサンプルから１グループのトレーニングサンプルをトレーニングサンプルのグループとしてランダムに選択することができる。具体的には、当該トレーニングサンプルのグループに含まれるトレーニングサンプルの数は、１つ、２つ、又は複数であってもよく、ここでは限定されない。トレーニングサンプルのグループに含まれるトレーニングサンプルの数が２つ以上である場合、当該トレーニングサンプルのグループ内の各トレーニングサンプルは、同一のトレーニング標的に対応することができ、又は一部は同一のトレーニング標的に対応することもでき、他の部分は、それぞれ１つのトレーニング標的に対応する。

Ｓ２０３、選択されたトレーニングサンプルのグループを親和性予測モデルに入力し、親和性予測モデルによって予測及び出力されたトレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性を取得する。

本実施例の親和性予測モデルは、以下に表示することができる。

その中、ｔ_ｊは、トレーニング標的の情報を表示し、ｃ_ｉは、トレーニング薬物の情報を表示し、Ｄ_ｔｊは、トレーニング標的ｔ_ｊのテストデータセットを表示し、θは、親和性予測モデルのパラメータを表示し、ｆ（Ｄ_ｔｊ，ｃ_ｉ，ｔ_ｊ；θ）は、親和性予測モデルを表示し、ｙ（ｃ_ｉ，ｔ_ｊ）は、親和性予測モデル予測のトレーニング標的ｔ_ｊとトレーニング薬物ｃ_ｉとの間の親和性を表示する。

トレーニングサンプルのグループ内の各トレーニングサンプルについて、いずれも上記の方式で、親和性予測モデルによって予測及び出力された当該トレーニングサンプルの予測親和性を取得することができる。

Ｓ２０４、トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性、及び対応するトレーニングサンプルにおけるトレーニング標的とトレーニング薬物の既知の親和性に基づいて、損失関数を構築する。

例えば、トレーニングサンプルのグループに１つのトレーニングサンプルのみが含まれる場合、直接に当該トレーニングサンプルに対応する予測親和性と対応する既知の親和性の平均二乗誤差を取得する。トレーニングサンプルに対応する予測親和性は、トレーニングサンプル内のデータを親和性予測モデルに入力し、親和性予測モデルでトレーニングサンプル内のトレーニング標的ｔ_ｊとトレーニング薬物ｃ_ｉとの間の親和性を予測することを示す。トレーニングサンプルに対応する既知の親和性は、当該トレーニング標的に対応するテストデータセットにおいて、当該トレーニング標的とトレーニング薬物との間で、実験して取得された真実の親和性であってもよい。

トレーニングサンプルのグループに複数のトレーニングサンプルが含まれる場合、トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性と対応する前記既知の親和性との平均二乗誤差の和を、損失関数として取得することができる。本実施例のトレーニングの目的は、損失関数が収束する傾向があるように、最小値に達することであり、例えば、以下のような式を使用して表示することができる。

Ｓ２０５、損失関数が収束するか否かを検出し、収束しない場合、ステップＳ２０６を実行し、収束する場合、ステップＳ２０７を実行する。

Ｓ２０６、損失関数が収束する傾向があるように、親和性予測モデルのパラメータを調整し、ステップＳ２０２に戻り、次のグループのトレーニングサンプルのグループを選択して、トレーニングを続ける。

Ｓ２０７、連続する予め設定されたラウンド数のトレーニングに損失関数が常に収束するか否か、又はトレーニングラウンド数が予め設定された閾値に達しているか否かを検出し、そうであれば、親和性予測モデルのパラメータを決定し、さらに、親和性予測モデルを決定して、終了し、そうでなければ、ステップＳ２０２に戻り、次のグループのトレーニングサンプルのグループを選択して、トレーニングを続ける。

ステップＳ２０２－Ｓ２０６は、親和性予測モデルのトレーニングプロセスである。ステップＳ２０７は、親和性予測モデルのトレーニングカットオフ条件である。本実施例はトレーニングカットオフ条件が２つの状況を含むことを例として、第１のトレーニングカットオフ条件では、連続する予め設定されたラウンド数のトレーニングに損失関数が常に収束するか否かであり、常に収束する場合、当該親和性予測モデルは、すでにトレーニング済みであると考えることができる。当該連続する予め設定されたラウンド数は、実際のニーズに応じて設置することができ、例えば、連続８０ラウンド、１００ラウンド、２００ラウンド、又は他の正の整数であってもよく、ここでは限定されない。第２のトレーニングカットオフ条件では、損失関数がずっと収束するが、収束に達することができない状況を防止する。この時、１つのトレーニングの最大ラウンド数を設置することができ、トレーニングラウンド数が最大トレーニングラウンド数に達する時、親和性予測モデルがすでにトレーニング済みであると見なすことができる。例えば、実際のニーズに応じて、予め設定された閾値は、百万レベル又は他のより大きい数級の数値に設置することができ、ここでは限定されない。

実施例では、各トレーニング標的のテストデータセットに含まれるテストデータが多いほど、親和性予測モデルが達成できる予測効果がより良い。これを実現するために、本開示では、処理シーケンスのＡｔｔｅｎｔｉｏｎＬａｙｅｒモデルを使用して最も良い効果を取得することができる。例えば、モデルの表現形式は、以下のようにすることができ、

標的をφ（ｔ_ｊ）としてラベル付けされるように表示することができ、薬物分子は、φ（ｃ_ｉ）としてラベル付けされるように表示することができ、２つの表現を一緒に融合するのは、φ（ｃ_ｉ，ｔ_ｊ）としてラベル付けすることができる。

で、予測する必要があるＰａｉｒは、当該標的の既存情報に対して十分に抽出することができる。最終モデルの予測の形式は、以下のように表示することができ、

その中、ＭＬＰ（Ａｔｔｅｎｔｉｏｎ（Ｑ，Ｋ，Ｖ））は、Ａｔｔｅｎｔｉｏｎ（Ｑ，Ｋ，Ｖ）モデル構造に対して調整できることを示す。

また、なお、本実施例の親和性予測モデルは、上記のＡｔｔｅｎｔｉｏｎＬａｙｅｒモデルの使用に限定されず、トランスフォーマー（Ｔｒａｎｓｆｏｒｍｅｒ）モデル又は畳み込み（Ｃｏｎｖｏｌｕｔｉｏｎ）ニューラルネットワークモデルなどを使用することもでき、ここでは省略する。

本実施例の親和性予測モデルのトレーニング方法は、各トレーニングサンプルにトレーニング標的に対応するテストデータセットを増加することによって、トレーニングされた親和性予測モデルの正確性とトレーニング効果を効果的に向上させることができる。

図３は、本開示の第３の実施例による概略図である。図３に示すように、本実施例は、親和性予測方法を提供し、具体的には、以下のようなステップを含むことができる。

Ｓ３０１、検出すべき標的の情報、検出すべき薬物の情報、及び検出すべき標的に対応するテストデータセットを取得する。

本実施例のテストデータセットは、１つの検出すべき標的の情報、複数のテスト薬物の情報、及び当該検出すべき標的と各テスト薬物の親和性を含む。詳細は、上記の図１又は図２に示す実施例のテストデータセットを参照することができる。

Ｓ３０２、検出すべき標的の情報、検出すべき薬物の情報、及び検出すべき標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、検出すべき標的と検出すべき薬物との親和性を予測する。

本実施例の親和性予測方法の実行主体は、親和性予測装置であり、同様に、当該親和性予測装置は、電子エンティティであってもよく、又はソフトウェアを使用して統合したアプリケーションであってもよい。使用時に、当該親和性予測装置に検出すべき標的、検出すべき薬物、及び検出すべき標的に対応するテストデータセットを入力することができ、当該親和性予測装置は、入力の情報に基づいて、当該検出すべき標的と検出すべき薬物との間の親和性を予測して出力することができる。

本実施例では、使用される予めトレーニングされた親和性予測モデルは、上記の図１又は図２に示す実施例のトレーニングされた親和性予測モデルを使用することができ、そのトレーニングされた親和性予測モデルは、トレーニングプロセスに、トレーニングサンプルにトレーニング標的のテストデータセットを増加することにより、トレーニングされた親和性予測モデルの精度がより高く、正確性をより良くすることができる。したがって、このような方式を使用してトレーニングされた親和性予測モデルは、検出すべき標的と検出すべき薬物との親和性を予測する時、予測された検出すべき標的と検出すべき薬物との親和性の精度が非常に高く、正確性が非常に良いことを効果的に確保することができる。

本実施例では、予測された検出すべき標的と検出すべき薬物との親和性が高いほど、検出すべき標的と検出すべき薬物の結合能力が強いことを示し、当該検出すべき薬物が当該検出すべき標的に対する抑制が強くなり、当該検出すべき薬物が、当該検出すべき標的の効果的な治療薬物になる可能性が高くなる。

本実施例の親和性予測方法は、検出すべき標的、検出すべき薬物、及び検出すべき標的に対応するテストデータセットを取得し、検出すべき標的、検出すべき薬物、及び検出すべき標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、検出すべき標的と検出すべき薬物との親和性を予測し、予測時、検出すべき標的に対応するテストデータセットを取得して予測に共に参加するため、予測された検出すべき標的と検出すべき薬物の親和性の正確性がより高くすることができる。

図４は、本開示の第４の実施例による概略図である。図４に示すように、本実施例は、薬物データの選定方法を提供し、具体的には、以下のようなステップを含むことができる。

Ｓ４０１、予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリから予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定し、Ｓ４０２、選定された数個の薬物の情報に基づいて、実験によって取得された数個の薬物内の各薬物と予め設定された標的の真実の親和性を取得し、Ｓ４０３、数個の薬物の情報及び各薬物と予め設定された標的の真実の親和性に基づいて、予め設定された標的に対応するテストデータセットを更新する。

本実施例の薬物データの選定方法の実行主体は、薬物データの選定装置であり、当該薬物データの選定装置は、各予め設定された標的の予測親和性が最も高い数個の薬物を選定して、対応するテストデータセットに更新することを実現することができる。

本実施例の予めトレーニングされた親和性予測モデルは、上記の図１又は図２に示す実施例のトレーニング方法トレーニングされた親和性予測モデルを使用することができ、すなわちトレーニングプロセスに、トレーニングサンプルにトレーニング標的のテストデータセットを増加することにより、トレーニングされた親和性予測モデルの精度がより高く、正確性をより良くすることができる。

本実施例では、１つの予め設定された標的の薬物を選定して、当該予め設定された標的のテストデータセットを更新するのを例として、予め設定された標的について、当該標的のテストデータセットを取得することができ、その中、テストデータセットに含まれるデータは、上記の実施例の関連する記載を参照することができ、ここでは説明を省略する。

本実施例の予め設定された薬物ライブラリは、薬物の化合物分子又は薬物の他の一意の識別情報など、数千～数万のより多くの実験的に検証されていない薬物の情報を含むことができる。実験方法を直接使用して薬物ライブラリ内の各薬物と予め設定された標的の親和性を検証する場合、実験コストが非常に高くなる。本実施例では、まず、予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリから予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定することができ、数個の薬物の数は、実際のニーズに応じて設置することができ、例えば、５個、８個、１０個、又は他の正の整数個であってもよく、ここでは限定されない。ステップＳ４０１の選定は、親和性予測モデルによって選定され、これらの薬物と予め設定された標的の予測親和性が高く、トレーニングされた親和性予測モデルの予測がより正確である場合、これらの薬物の利用可能性は、理論的に比較的強い。したがって、さらに、実験的な方式を使用して、選定された数個の薬物と予め設定された標的の既知の親和性を検出することができる。このように、薬物ライブラリ内の各薬物をすべて実験して検出するのを回避することができ、実験コストを削減し、薬物選定の効率を向上させることができる。次に、実験して検出された数個の薬物の情報、及び各薬物と予め設定された標的の真実の親和性を、予め設定された標的に対応するテストデータセットに更新して、薬物の一回の選定を完了する。

本実施例では、数個の薬物の情報及び各薬物と予め設定された標的の真実の親和性を当該予め設定された標的に対応するテストデータセットに更新するステップは、テストデータセット内のテストデータの内容を充実させて、再びテストデータセットに基づいて選定する時、選定効率を向上させることができる。

本実施例の薬物処理方法は、上記の技術案を使用することにより、予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリから予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定し、さらに、選定された数個の薬物内の各薬物と予め設定された標的のみに対して、実験的方法を使用して真実の親和性を検出し、数個の薬物の情報及び各薬物と予め設定された標的の真実の親和性を、予め設定された標的に対応するテストデータセットに更新して、すべての薬物に対してすべて実験して選定することを効果的に回避し、実験コストを削減し、薬物選定の効率を向上させることができる。

図５は、本開示の第５の実施例による概略図である。図５に示すように、本実施例の薬物データの選定方法は、上記の図４に示す実施例の技術案に基づいて、本開示の技術案をさらに詳細に説明する。本実施例の薬物データの選定方法は、具体的には、以下のようなステップを含むことができる。

Ｓ５０１、予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリ内の各薬物と予め設定された標的の予測親和性を予測する。

なお、最初に予測する時、当該予め設定された標的に対応するテストデータセットは、空にすることもできる。例えば、予め設定された標的t、薬物ライブラリＣ＝｛ｃ_１，…，ｃ_Ｍ｝について、現在のステップ数s=１、すなわちループが開始したばかりの時、予め設定された標的に対応するテストデータセットＤ_ｔは、Ｄ_ｔ＝｛｝として示すことができる。もちろん、最初に予測する時、当該予め設定された標的に対応するテストデータセットが空でなくてもよく、当該予め設定された標的、実験を通じて検証した薬物の情報、及び予め設定された標的与薬物の既知の親和性を含む。この時、予め設定された標的に対応するテストデータセットに含まれる薬物関連情報の数は、ここで限定しない。

Ｓ５０２、予め設定された薬物ライブラリ内の各薬物と予め設定された標的の予測親和性に基づいて、予め設定された薬物ライブラリから予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定する。

ステップＳ５０１－Ｓ５０２は、上記の図４に示す実施例の具体的な実現方式である。つまり、予め設定された薬物ライブラリ内の各薬物について、当該薬物の情報、予め設定された標的の情報、及び当該予め設定された標的のテストデータセットを予めトレーニングされた親和性予測モデルに一緒に入力し、当該親和性予測モデルは、当該薬物と当該予め設定された標的の予測親和性を予測して出力することができる。このような方式で、薬物ライブラリ内の各薬物と予め設定された標的の予測親和性を予測することができる。さらに、予測親和性の高いものから低いものへの順序にしたがって、予め設定された薬物ライブラリのすべての薬物を並べ替えることができ、さらに、その中から予測親和性が最も高い数個の薬物を選定することができる。

Ｓ５０３、選定された数個の薬物の情報に基づいて、実験によって取得された数個の薬物内の各薬物と予め設定された標的の真実の親和性を取得し、本実施例では、ステップＳ５０２で選定された数個の薬物についてのみ実験する必要があり、数個の薬物内の各薬物と予め設定された標的の真実の親和性を取得する。例えば、ｃ_Ｓｉで選定されたｉ番目の薬物の情報を示すことができ、

Ｋは、数個の薬物の数を示す。対応して、ｙ（ｃ_Ｓｉ，ｔ）で選定されたｉ番目の薬物と予め設定された標的tの真実の親和性を示す。

Ｓ５０４、数個の薬物の情報及び各薬物と予め設定された標的の真実の親和性に基づいて、予め設定された標的に対応するテストデータセットを更新し、例えば、当該更新プロセスは、以下のような式を使用して表示することができる。

Ｓ５０５、テストデータセットの更新された薬物の数が予め設定された数の閾値に達しているか否かを検出し、達していない場合、ステップＳ５０１に戻って、薬物の選定を続け、そうでなければ、達した場合、終了する。

なお、本実施例では、テストデータセットの更新された薬物の数は、実験を通じて取得する既知の親和性の薬物の数を指すことができる。第１の更新時に、テストデータセットに更新された薬物の数は、選定された数個の薬物の全部とすることができる。ループ後の他のラウンドの更新では、選定された数個の薬物の情報が以前と重複する可能性があるため、テストデータセットに更新された薬物の数は、選定された数より小さい可能性がある。

本実施例では、実験を通じた薬物の数が予め設定された数の閾値に達していない場合、この時、ステップＳ５０１に戻り、現在のステップ数sをs+１に更新し、選定を継続することができる。再び選定するプロセスでは、使用される予めトレーニングされた親和性予測モデルは同じであるが、使用される当該予め設定された標的のテストデータセットは更新され、さらに、薬物ライブラリ内の各薬物と予め設定された標的の親和性の正確性を向上させる。したがって、更新後の予め設定された標的のテストデータセットに基づいて、選定を再度実行し、予め設定された薬物ライブラリから選定された予め設定された標的との予測親和性が最も高い数個の薬物の情報は、前回に選定された数個の薬物の結果と完全に異なる可能性があるか、又は部分的に同じである可能性もある。なお、部分的に同じであり、ステップＳ５０３を実行する場合、すでに実験を通じた薬物について、実験を行わずに、予め設定された標的との真実の親和性を取得することができる。実験されていない薬物のみを実験して、予め設定された標的との真実の親和性を取得し、テストデータセットでは、今回の実験を通じて取得された薬物及び予め設定された標的の真実の親和性のみを更新し、テストデータセットの更新された薬物の数が予め設定された数の閾値に達するまで、これによって類推して、ループを終了する。この時、テストデータセット内のデータは、すべて実験を通じて予め設定された標的との真実の親和性を取得する。続いて、当該予め設定された標的のテストデータセットから既知の親和性が最も高い１つの又は数個の薬物の情報を、先行の薬物化合物として選択して続いて検証を行うことができる。

本実施例では、選定された予め設定された標的に対応するテストデータセットは、上記の図１又は図２に示す実施例の親和性予測モデルのトレーニングプロセスに使用することができ、トレーニングサンプル内の予め設定された標的のテストデータセットの正確性を効果的に確保することができ、トレーニングされた親和性予測モデルの精度をさらに向上させることができる。逆に、また、図１又は図２に示す実施例の親和性予測モデルを使用して図４又は図５に示す実施例の薬物データの選定を実現し、薬物データ選定された正確性と選定効率を向上させることもできる。

又は、本実施例の選定された予め設定された標的に対応するテストデータセットは、上記の図１又は図２に示す実施例のトレーニングサンプル内のテストデータセットと異なってもよい。本実施例では、まず、予めトレーニングされた親和性予測モデルを使用して数個の薬物の情報を選定するため、数個の薬物の情報に基づいて、最終的に取得されたテストデータセット内の当該予め設定された標的と薬物の親和性は、比較的に高く、図１又は図２に示す実施例のトレーニングサンプル内のテストデータセット内のトレーニング標的とテスト薬物の親和性は低くすることができ、実験を通じて取得されたものであればよい。

本実施例の薬物データの選定方法は、上記のスキームを使用することにより、予めトレーニングされた親和性検出モデルを使用して、効果的な薬物選定スキームを提供し、薬物ライブラリ内のすべての薬物に対してすべて実験して選定することを回避し、実験コストを効果的に削減することができ、薬物選定の効率を効果的に向上させることができる。

図６は、本開示の第６の実施例による概略図である。図６に示すように、本実施例は、親和性予測モデルのトレーニング装置６００を提供し、収集モジュール６０１とトレーニングモジュール６０２を含む。

収集モジュール６０１は、複数のトレーニングサンプルを収集するために用いられ、各トレーニングサンプルには、トレーニング標的の情報、トレーニング薬物の情報、及びトレーニング標的に対応するテストデータセットが含まれ、トレーニングモジュール６０２は、複数のトレーニングサンプルを使用して、親和性予測モデルをトレーニングするために用いられる。

本実施例の親和性予測モデルのトレーニング装置６００は、上記のモジュールを使用することによって親和性予測モデルのトレーニングの実現原理及び技術的効果を実現し、上記の関連方法の実施例の実現と同じであり、詳細は上記の関連方法の実施例の記載を参照することができ、ここでは説明を省略する。

図７は、本開示の第７の実施例による概略図である。図７に示すように、本実施例の親和性予測モデルのトレーニング装置６００は、上記の図６に示す実施例の技術案に基づいて、本開示の技術案をさらに詳細に説明する。

本実施例の親和性予測モデルのトレーニング装置６００では、収集モジュール６０１によって収集された複数のトレーニングサンプルのうち、各トレーニングサンプル内のトレーニング標的に対応するテストデータセットは、トレーニング標的と各テスト薬物の既知の親和性を含む。

図７に示すように、本実施例の親和性予測モデルのトレーニング装置６００では、トレーニングモジュール６０２は、複数のトレーニングサンプルから１グループのトレーニングサンプルを選択し、トレーニングサンプルのグループを取得するための選択ユニット６０２１と、選択されたトレーニングサンプルのグループを親和性予測モデルに入力し、親和性予測モデルによって予測及び出力されたトレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性を取得するための取得ユニット６０２２と、トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性、及び対応するトレーニングサンプルにおけるトレーニング標的とトレーニング薬物の既知の親和性に基づいて、損失関数を構築するための構築ユニット６０２３と、損失関数が収束するか否かを検出するための検出ユニット６０２４と、収束しない場合、損失関数が収束する傾向があるように、親和性予測モデルのパラメータを調整するための調整ユニット６０２５と、を含む。

さらに、選択可能に、構築ユニット６０２３は、トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性と対応する前記既知の親和性との平均二乗誤差の和を、損失関数として取得するために用いられる。

本実施例の親和性予測モデルのトレーニング装置６００では、上記のモジュールを使用することによって親和性予測モデルのトレーニングの実現原理及び技術的効果を実現し、上記の関連方法の実施例の実現と同じであり、詳細は上記の関連方法の実施例の記載を参照することができ、ここでは説明を省略する。

図８は、本開示の第８の実施例による概略図である。図８に示すように、本実施例は、親和性予測装置８００を提供し、検出すべき標的の情報、検出すべき薬物の情報、及び検出すべき標的に対応するテストデータセットを取得するための取得モジュール８０１と、検出すべき標的の情報、検出すべき薬物の情報、及び検出すべき標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、検出すべき標的と検出すべき薬物との親和性を予測するための予測モジュール８０２と、を含む。

本実施例の親和性予測装置８００では、上記のモジュールを使用することによって親和性予測の実現原理及び技術的効果を実現し、上記の関連方法の実施例の実現と同じであり、詳細は上記の関連方法の実施例の記載を参照することができ、ここでは説明を省略する。

図９は、本開示の第９の実施例による概略図である。図９に示すように、本実施例は、薬物データの選定装置９００を提供し、予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリから予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定するための選定モジュール９０１と、選定された数個の薬物の情報に基づいて、実験によって取得された数個の薬物内の各薬物と予め設定された標的の真実の親和性を取得するための取得モジュール９０２と、数個の薬物の情報及び各薬物と予め設定された標的の真実の親和性に基づいて、予め設定された標的に対応するテストデータセットを更新するための更新モジュール９０３と、を含む。

本実施例の薬物データの選定装置９００は、上記のモジュールを使用することによって薬物データの選定の実現原理及び技術的効果を実現し、上記の関連方法の実施例の実現と同じであり、詳細は上記の関連方法の実施例の記載を参照することができ、ここでは説明を省略する。

本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。

図１０に示すように、本開示の実施例の例を実現するための電子機器１０００のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本開示の実現を制限することを意図したものではない。

図１０に示すように、電子機器１０００は計算ユニット１００１を含み、計算ユニット１００１は、読み取り専用メモリ（ＲＯＭ）１００２に記憶されているコンピュータプログラム又は記憶ユニット１００８からランダムアクセスメモリ（ＲＡＭ）１００３にロードされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。ＲＡＭ１００３には、電子機器１０００が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット１００１、ＲＯＭ１００２、及びＲＡＭ１００３は、バス１００４を介してお互いに接続される。入出力（Ｉ／Ｏ）インターフェース１００５もバス１００４に接続される。

電子機器１０００内の複数のコンポーネントは、Ｉ／Ｏインターフェース１００５に接続されており、キーボード、マウスなどの入力ユニット１００６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット１００７と、ディスク、光ディスクなどの記憶ユニット１００８と、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット１００９と、を含む。通信ユニット１００９は、電子機器１０００が、インターネットなどのコンピュータネットワーク、及び／又は様々な電気通信ネットワークを介して他の機器と情報／データを交換することを可能にする。

計算ユニット１００１は、様々な処理と計算能力を備える汎用及び／又は専用の処理コンポーネントである。計算ユニット１００１の数個の例は、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット１００１は、親和性予測モデルのトレーニング方法、親和性予測方法、又は薬物データの選定方法などの上記の様々な方法と処理を実行する。例えば、数個の実施例では、親和性予測モデルのトレーニング方法、親和性予測方法、又は薬物データの選定方法は、記憶ユニット１００８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。数個の実施例では、コンピュータプログラムの一部又は全部は、ＲＯＭ１００２及び／又は通信ユニット１００９を介して電子機器１０００にロード及び／又はインストールされる。コンピュータプログラムがＲＡＭ１００３にロードされて計算ユニット１００１によって実行される場合、上記の親和性予測モデルのトレーニング方法、親和性予測方法、又は薬物データの選定方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット１００１は、他の任意の適切な方式（例えば、ファームウェアによって）を介して親和性予測モデルのトレーニング方法、親和性予測方法、又は薬物データの選定方法を実行するように構成されることができる。

本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、ロードプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。

本開示の方法を実施するためのプログラムコードは、一つ又は複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサ又はコントローラによって実行される時にフローチャート及び／又はブロック図に規定された機能／動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、又は完全にリモート機械又はサーバ上で実行されたりすることができる。

本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、又は機器の使用、又は命令実行システム、装置又は機器と組み合わせて使用するプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置又は機器、又は上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つ又は複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は上記の内容の任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含む計算システム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含む計算システム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含む計算システム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークと、ブロックチェーンネットワークと、を含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウド計算又はクラウドホストとも呼ばれ、クラウド計算サービスシステムの中の一つのホスト製品であり、従来の物理ホストとＶＰＳサーバ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ、又はＶＰＳと呼ぶ）に、存在する管理困難度が高く、業務拡張性が弱い欠陥を解決する。サーバは、分散システムのサーバであってもよく、又はブロックチェーンを組み合わせるサーバであってもよい。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims

親和性予測モデルのトレーニング方法であって、
複数のトレーニングサンプルを収集するステップであって、各トレーニングサンプルには、トレーニング標的の情報、トレーニング薬物の情報、及びトレーニング標的に対応するテストデータセットが含まれるステップと、
前記複数のトレーニングサンプルを使用して、親和性予測モデルをトレーニングするステップと、を含む、
親和性予測モデルのトレーニング方法。
前記トレーニング標的に対応するテストデータセットは、前記トレーニング標的と各テスト薬物の既知の親和性を含む、
請求項１に記載の親和性予測モデルのトレーニング方法。
前記複数のトレーニングサンプルを使用して、親和性予測モデルをトレーニングするステップは、
前記複数のトレーニングサンプルから１グループのトレーニングサンプルを選択し、トレーニングサンプルのグループを取得するステップと、
選択された前記トレーニングサンプルのグループを前記親和性予測モデルに入力し、前記親和性予測モデルによって予測及び出力された前記トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性を取得するステップと、
前記トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性、及び対応する前記トレーニングサンプルにおける前記トレーニング標的と前記トレーニング薬物の既知の親和性に基づいて、損失関数を構築するステップと、
前記損失関数が収束するか否かを検出するステップと、
前記損失関数が収束しない場合、前記損失関数が収束する傾向があるように、前記親和性予測モデルのパラメータを調整するステップと、を含む、
請求項２に記載の親和性予測モデルのトレーニング方法。
前記トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性、及び対応する前記トレーニングサンプルにおける前記トレーニング標的と前記トレーニング薬物の既知の親和性に基づいて、損失関数を構築するステップは、
前記トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性と対応する前記既知の親和性との平均二乗誤差の和を、損失関数として取得するステップを含む、
請求項３に記載の親和性予測モデルのトレーニング方法。
親和性予測方法であって、
検出すべき標的の情報、検出すべき薬物の情報、及び前記検出すべき標的に対応するテストデータセットを取得するステップと、
前記検出すべき標的の情報、前記検出すべき薬物の情報、及び前記検出すべき標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、前記検出すべき標的と前記検出すべき薬物との親和性を予測するステップと、を含む、
親和性予測方法。
前記検出すべき標的に対応するテストデータセットは、前記検出すべき標的の情報、複数のテスト薬物の情報、及び前記検出すべき標的と前記複数のテスト薬物内の各テスト薬物の親和性を含む、
請求項５に記載の親和性予測方法。
薬物データの選定方法であって、
予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリから前記予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定するステップと、
選定された前記数個の薬物の情報に基づいて、前記数個の薬物内の各薬物と前記予め設定された標的の真実の親和性を検出するステップと、
前記数個の薬物の情報及び各薬物と前記予め設定された標的の真実の親和性に基づいて、前記予め設定された標的に対応するテストデータセットを更新するステップと、を含む、
薬物データの選定方法。
前記予め設定された標的に対応するテストデータセットは、空であるか、又は薬物の情報、及び前記薬物と前記予め設定された標的の真実の親和性を含む、
請求項７に記載の薬物データの選定方法。
予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリから前記予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定するステップは、
前記予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた前記親和性予測モデルを使用して、前記予め設定された薬物ライブラリ内の各薬物と前記予め設定された標的の予測親和性を予測するステップと、
前記予め設定された薬物ライブラリ内の各薬物と前記予め設定された標的の予測親和性に基づいて、前記予め設定された薬物ライブラリから前記予め設定された標的の前記予測親和性が最も高い前記数個の薬物の情報を選定するステップと、を含む、
請求項７又は８に記載の薬物データの選定方法。
親和性予測モデルのトレーニング装置であって、
複数のトレーニングサンプルを収集するための収集モジュールであって、各トレーニングサンプルには、１つのトレーニング標的の情報、トレーニング薬物の情報、及びトレーニング標的に対応するテストデータセットが含まれる収集モジュールと、
前記複数のトレーニングサンプルを使用して、親和性予測モデルをトレーニングするためのトレーニングモジュールと、を含む、
親和性予測モデルのトレーニング装置。
前記トレーニング標的に対応するテストデータセットは、前記トレーニング標的と各テスト薬物の既知の親和性を含む、
請求項１０に記載の親和性予測モデルのトレーニング装置。
前記トレーニングモジュールは、
前記複数のトレーニングサンプルから１グループのトレーニングサンプルを選択し、トレーニングサンプルのグループを取得するための選択ユニットと、
選択された前記トレーニングサンプルのグループを前記親和性予測モデルに入力し、前記親和性予測モデルによって予測及び出力された前記トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性を取得するための取得ユニットと、
前記トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性、及び対応する前記トレーニングサンプルにおける前記トレーニング標的と前記トレーニング薬物の既知の親和性に基づいて、損失関数を構築するための構築ユニットと、
前記損失関数が収束するか否かを検出するための検出ユニットと、
前記損失関数が収束しない場合、前記損失関数が収束する傾向があるように、前記親和性予測モデルのパラメータを調整するための調整ユニットと、を含む、
請求項１１に記載の親和性予測モデルのトレーニング装置。
前記構築ユニットは、
前記トレーニングサンプルのグループ内の各トレーニングサンプルに対応する予測親和性と対応する前記既知の親和性との平均二乗誤差の和を、損失関数として取得するために用いられる、
請求項１２に記載の親和性予測モデルのトレーニング装置。
親和性予測装置であって、
検出すべき標的の情報、検出すべき薬物の情報、及び前記検出すべき標的に対応するテストデータセットを取得するための取得モジュールと、
前記検出すべき標的の情報、前記検出すべき薬物の情報、及び前記検出すべき標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、前記検出すべき標的と前記検出すべき薬物との親和性を予測するための予測モジュールと、を含む、
親和性予測装置。
前記検出すべき標的に対応するテストデータセットは、前記検出すべき標的の情報、複数のテスト薬物の情報、及び前記検出すべき標的と前記複数のテスト薬物内の各テスト薬物の親和性を含む、
請求項１４に記載の親和性予測装置。
薬物データの選定装置であって、
予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた親和性予測モデルを使用して、予め設定された薬物ライブラリから前記予め設定された標的の予測親和性が最も高い数個の薬物の情報を選定するための選定モジュールと、
選定された前記数個の薬物の情報に基づいて、実験によって取得された前記数個の薬物内の各薬物と前記予め設定された標的の真実の親和性を取得するための取得モジュールと、
前記数個の薬物の情報及び各薬物と前記予め設定された標的の真実の親和性に基づいて、前記予め設定された標的に対応するテストデータセットを更新するための更新モジュールと、を含む、
薬物データの選定装置。
前記予め設定された標的に対応するテストデータセットは、空であるか、又は薬物の情報、及び前記薬物と前記予め設定された標的の真実の親和性を含む、
請求項１６に記載の薬物データの選定装置。
前記選定モジュールは、
前記予め設定された標的に対応するテストデータセットに基づいて、予めトレーニングされた前記親和性予測モデルを使用して、前記予め設定された薬物ライブラリ内の各薬物と前記予め設定された標的の予測親和性を予測し、
前記予め設定された薬物ライブラリ内の各薬物と前記予め設定された標的の予測親和性に基づいて、前記予め設定された薬物ライブラリから前記予め設定された標的の前記予測親和性が最も高い前記数個の薬物の情報を選定するために用いられる、
請求項１６又は１７に記載の薬物データの選定装置。
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項１～４のいずれか一つに記載の親和性予測モデルのトレーニング方法を実行する、
電子機器。
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項５又は６に記載の親和性予測方法を実行する、
電子機器。
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項７～９のいずれか一つに記載の薬物データの選定方法を実行する、
電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～４のいずれか一つに記載の親和性予測モデルのトレーニング方法を実行させる、
非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項５又は６に記載の親和性予測方法を実行させる、
非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項７～９のいずれか一つに記載の薬物データの選定方法を実行させる、
非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータに請求項１～４のいずれか一つに記載の親和性予測モデルのトレーニング方法を実行させる、コンピュータプログラム。
コンピュータに請求項５又は６に記載の親和性予測方法を実行させる、コンピュータプログラム。
コンピュータに請求項７～９のいずれか一つに記載の薬物データの選定方法を実行させる、コンピュータプログラム。