JP7387964B2

JP7387964B2 - ソート学習モデルの訓練方法、ソート方法、装置、デバイス及び媒体

Info

Publication number: JP7387964B2
Application number: JP2022032930A
Authority: JP
Inventors: シャン、インフェイ; ルオ、ホンギュ; ファン、シャオミン; ワン、ファン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2022-03-03
Publication date: 2023-11-29
Anticipated expiration: 2042-03-03
Also published as: JP2023007370A; CN113409884A; CN113409884B; US20230004862A1

Description

本開示はコンピュータ技術分野に関し、具体的には機械学習及び自然言語処理等の人工知能技術分野に関し、特に、ソート学習モデルの訓練方法並びにソート方法、装置、デバイス及び媒体に関する。

薬物標的タンパク質の相互作用（ＤｒｕｇＴａｒｇｅｔＩｎｔｅｒａｃｔｉｏｎ；ＤＴＩ）は、標的タンパク質と薬物化合物との親和度を表し、薬物研究開発の分野における非常に重要な部分である。ＤＴＩは、薬物開発者が病気のメカニズムを理解し、薬物の設計プロセスを加速するのに寄与することができる。

従来の生物学の分野では、実験室内での湿式実験によるＤＴＩの測定方法は非常に高価で時間がかかる。現在、人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ；ＡＩ）に基づくディープラーニングアルゴリズムの成熟に伴い、多くのＤＴＩタスクはグラフニューラルネットワーク（ＧｒａｐｈＮｅｕｒａｌＮｅｔｗｏｒｋ；ＧＮＮ）、コンボリューションニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ；ＣＮＮ）などのネットワークモデルにより実現される。

本開示は、ソート学習モデルの訓練方法、ソート方法、装置、デバイス及び媒体を提供する。

本開示の一態様によれば、既知の訓練標的タンパク質情報、対応する２つの訓練薬物情報、及び対応する２つの訓練薬物と既知の訓練標的との真の親和度の差がそれぞれ含まれる複数の訓練サンプルを採取し、前記複数の訓練サンプルに基づいて、各前記訓練サンプル中の前記２つの訓練薬物と前記既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するようにソート学習モデルを訓練することを含むソート学習モデルの訓練方法が提供される。

本開示の別の態様によれば、目標標的情報及び複数の候補薬剤情報を取得し、予め訓練された、任意の２つの薬物と同一の標的タンパク質との親和度の大小関係を学習するためのソート学習モデルのパラメータを共有するソートモデルにより、前記目標標的情報と各前記候補薬物情報とに基づいて、前記複数の候補薬物を前記目標標的との親和度の大きさに応じてソートすることを含む薬物ソート方法が提供される。

本開示の更なる別の態様によれば、既知の訓練標的タンパク質情報、対応する２つの訓練薬物情報、及び対応する２つの訓練薬物と既知の訓練標的との真の親和度の差がそれぞれ含まれる複数の訓練サンプルを収集する収集モジュールと、前記複数の訓練サンプルに基づいて、各前記訓練サンプル中の前記２つの訓練薬物と前記既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するようにソート学習モデルを訓練する訓練モジュールとを備えるソート学習モデルの訓練装置が提供される。

本開示の更なる別の態様によれば、目標標的情報及び複数の候補薬物情報を取得する取得モジュールと、予め訓練された、任意の２つの薬物と同一の標的タンパク質との親和度の大小関係を学習するためのソート学習モデルのパラメータを共有するソートモデルにより、前記目標標的情報と各前記候補薬物情報とに基づいて、前記複数の候補薬物を前記目標標的との親和度の大きさに応じてソートするソートモジュールとを備える薬物ソート装置が提供される。

本開示の更なる別の態様によれば、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されたメモリとを備え、前記メモリに前記少なくとも１つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサに上記の態様及び任意の可能な実施形態の方法を実行させる電子デバイスが提供される。

本開示の更なる別の態様によれば、コンピュータに上記の態様及び任意の可能な実施形態の方法を実行させるためのコンピュータコマンドが記憶される非一時的なコンピュータ可読記憶媒体が提供される。

本開示の更なる別の態様によれば、プロセッサにより実行されると、上記の態様及び任意の可能な実施形態の方法を実施するコンピュータプログラムが含まれるコンピュータプログラム製品が提供される。

本開示の技術によれば、同一の標的タンパク質に対応する複数の薬物を、より効率的かつ正確にソート可能な、より効率的なソート学習モデルが提供される。

理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の重要な又は肝心な特徴を標識することでもなく、本開示の範囲を制限することでもない。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。

図面は、本技術案をより良く理解するためのものであり、本願に制限されない。図面において、
本開示の第１実施形態に係る概略図である。本開示の第２実施形態に係る概略図である。本開示の第３実施形態に係る概略図である。本開示の第４実施形態に係る概略図である。本開示の第５実施形態に係る概略図である。本開示の第６実施形態に係る概略図である。本開示の第７実施形態に係る概略図である。本開示の実施形態を実装するために使用され得る一例の電子デバイス８００の概略ブロック図を示す。

以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

明らかに、記載された実施形態は、本開示の一部の実施形態であり、全ての実施形態ではない。本開示の実施形態に基づいて、当業者が創造的な労働をしていないという前提の下で得た他のすべての実施形態は、本開示の保護の範囲に属する。

説明すべきなのは、本開示の実施形態に係る端末装置は、携帯電話、携帯情報端末（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、無線ハンドヘルドデバイス、タブレット（ＴａｂｌｅｔＣｏｍｐｕｔｅｒ）などのスマートデバイスを含むことができるが、これらに限定されない。表示装置は、パーソナルコンピュータ、テレビ等の表示機能を有する装置を含むことができるが、これらに限定されない。

さらに、本明細書における用語「及び／又は」は、単に関連オブジェクトを記述する関連関係であり、３つの関係が存在し得ると意味する。例えば、Ａ及び／又はＢは、Ａが単独で存在し、ＡとＢが同時に存在し、Ｂが単独で存在するという三つの状況を意味することができる。また、本明細書における文字「／」は、一般的に前後の関連オブジェクトが「又は」の関係にあることを意味する。

図１は本開示の第１実施形態に係る概略図である。図１に示すように、本実施形態は、ソート学習モデルの訓練方法を提供する。図１に示すように、本実施形態のソート学習モデルの訓練方法は、具体的には以下のステップを含むことができる。

Ｓ１０１において、既知の訓練標的タンパク質情報、対応する２つの訓練薬物情報、及び対応する２つの訓練薬物と既知の訓練標的との真の親和度の差が含まれる複数の訓練サンプルを収集する。

Ｓ１０２において、複数の訓練サンプルに基づいて、各訓練サンプル中の２つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するように、ソート学習モデルを訓練する。

本実施形態のソート学習モデルの訓練方法の実行主体は、ソート学習モデルの訓練装置である。当該ソート学習モデルの訓練装置の実行主体は、電子エンティティであっても良く、ソフトウェア統合を採用したアプリケーションであってもよい。本実施形態のソート学習モデルの訓練装置は、ソート学習モデルの訓練を実現するために用いられる。

本実施形態のソート学習モデルは、２つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を予測することを学習するために使用され、さらに、２つずつの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係に基づいて、複数の訓練薬物を既知の訓練標的タンパク質との親和度の大きさに応じてソートすることが可能となる。

本実施形態で収集された訓練サンプルは、ストリップの形で存在しており、各訓練サンプルには２つの訓練薬物の情報が含まれている。例えば、訓練薬物の情報は、訓練薬物のＳＭＩＬＥＳ（Ｓｉｍｐｌｉｆｉｅｄｍｏｌｅｃｕｌａｒｉｎｐｕｔｌｉｎｅｅｎｔｒｙｓｐｅｃｉｆｉｃａｔｉｏｎ）配列を用いて識別されてもよく、訓練薬物の他の一意の識別情報を用いてもよい。既知の訓練標的タンパク質の情報は、既知の訓練標的タンパク質のＦＡＳＴＡ配列を用いて識別されてもよく、既知の訓練標的タンパク質の他の一意の識別情報を用いてもよい。

注意すべきなのは、本実施形態の各訓練サンプルは、各訓練サンプル中の２つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するようにソート学習モデルを訓練するため、教師付き訓練では、本実施形態の各訓練サンプルには、更に２つの訓練薬物と既知の訓練標的タンパク質との真の親和度の差も含まれる必要があり、すなわち、この真の親和度の差は、２つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を識別することができる。これにより、オプションとして、実際の運用におけるこの真の親和度の差は、具体的な差の数値ではなく、真の親和度の差の方向のみを特定すれば良い。例えば、２つの訓練薬物ＡとＢについては、訓練薬物Ａと既知の訓練標的タンパク質１との親和度ａが、訓練薬物Ｂと既知の訓練標的蛋白質１との親和度ｂよりも大きい場合、即ちａ－ｂ＞０であれば、対応する真の親和度の差は１として標識し、訓練薬物Ａと既知の訓練標的蛋白質１との親和度ａが、訓練薬物Ｂと既知の訓練標的蛋白質１との親和度ｂよりも小さい場合、即ちａ－ｂ＜０であれば、対応する真の親和度の差は０として標識して良い。

次に、複数の訓練サンプル中の２つの訓練薬物情報、及び対応する２つの訓練薬物と既知の訓練標的との真の親和度の差に基づいて、ソート学習モデルを教師付きで訓練することにより、ソート学習モデルに各訓練サンプル中に標識された２つの訓練薬物と既知の訓練標的との真の親和度の差を学習させ、複数の訓練サンプルを用いてソート学習モデルを継続的に訓練することにより、各訓練サンプル中の２つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を予測する能力をソート学習モデルに学習させることができる。

本実施形態では、収集される訓練サンプルの数は非常に多くてもよく、例えば、数十万から数百万を含むことができる。訓練サンプルの数が多いほど、訓練されたソート学習モデルの精度が高くなる。

本実施形態のソート学習モデルの訓練方法は、既知の訓練標的タンパク質情報、対応する２つの訓練薬物情報、及び対応する２つの訓練薬物と既知の訓練標的との真の親和度の差を含む各訓練サンプルを採用してソート学習モデルを訓練することにより、ソート学習モデルに各訓練サンプル中の２つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習させることができる。

図２は本開示の第２実施形態に係る概略図である。図２に示すように、本実施形態のソート学習モデルの訓練方法は、上述した図１に示す実施形態の技術案に基づいて、さらに詳細に本出願の技術案について説明する。図２に示すように、本実施形態のソート学習モデルの訓練方法は、具体的には以下のステップを含むことができる。

Ｓ２０１において、複数のデータセットから、既知の訓練標的タンパク質情報、対応する２つの訓練薬物情報、及び対応する２つの訓練薬物と既知の訓練標的との真の親和度の差を含む複数の訓練サンプルを収集する。

オプションとして、本実施形態では、異なるデータセットにおける訓練薬物と既知の訓練標的との親和度は、異なる指標を用いて表すことができる。例えば、あるデータセットにおける親和度の指標はＩＣ５０標識を採用し、あるデータセットにおける親和度の指標はＫｄ標識を採用し、またあるデータセットにおける親和度の指標はＫｉ標識を採用している。データセットがどの親和度の指標を採用するかにかかわらず、本実施形態の訓練サンプルにおいては、２つの訓練薬物と既知の訓練標的との真の親和度の差の方向を標識するだけでよい。

例えば、図３に示された訓練サンプル構築の概略図では、収集された複数の訓練サンプルからなる訓練セットは、それぞれｔ^（１），……，ｔ^（ｍ）と標識可能なｍ個の訓練標的タンパク質を含むことができる。各訓練標的タンパク質について、ｎ個の訓練薬物及び対応する各訓練薬物と訓練標的タンパク質との親和度を先に収集することができる。例えば、訓練標的タンパク質ｔ^（１）については、収集した訓練薬物を｛（ｄ_１ ^（１），Ｓ_１ ^（１））、（ｄ_２ ^（１），Ｓ_２ ^（１））……（ｄ_ｎ ^（１），Ｓ_ｎ ^（１））｝と記載することができる。訓練標的タンパク質ｔ^（ｍ）については、収集した訓練薬物を｛（ｄ_１ ^（ｍ），Ｓ_１ ^（ｍ））、（ｄ_２ ^（ｍ），Ｓ_２ ^（ｍ））……（ｄ_ｎ ^（ｍ），Ｓ_ｎ ^（ｍ））｝と記載することができる。単一の標的タンパク質に対して、すべての対応する薬物ｄはペアリング（ｐａｉｒｗｉｓｅ）の関係を構成することができる。各ペアリングされた薬物（ｄ_ｉ ^（ｍ），ｄ_ｊ ^（ｍ））に対して、対応する親和度スコアの差はｓ（Ｓ_ｉ ^（ｍ），Ｓ_ｊ ^（ｍ））と記載することができる。図３に示すように、訓練標的タンパク質ｔ^（１）については、任意の１つの訓練サンプルをｆ（ｔ^（１），ｄ_ｉ ^（１），ｄ_ｊ ^（１）），ｓ（Ｓ_ｉ ^（１），Ｓ_ｊ ^（１））と表記してよい。同様に、訓練標的タンパク質ｔ^（２）については、任意の１つの訓練サンプルをｆ（ｔ^（２），ｄ_ｉ ^（２），ｄ_ｊ ^（２）），ｓ（Ｓ_ｉ ^（２），Ｓ_ｊ ^（２））と表記してよい。訓練標的タンパク質ｔ^（ｍ）については、任意の１つの訓練サンプルをｆ（ｔ^（ｍ），ｄ_ｉ ^（ｍ），ｄ_ｊ ^（ｍ）），ｓ（Ｓ_ｉ ^（ｍ），Ｓ_ｊ ^（ｍ））と表記してよい。

ここで、訓練薬物及び訓練標的タンパク質は、複数の異なるデータセットから得られ、異なる訓練標的タンパク質に対応する訓練薬物の親和度は、異なる親和度指標を用いて標識され得る。任意の１つの訓練サンプルの中、２つの訓練薬物と訓練標的タンパク質の親和度の差を標識できることを保証するだけでよい。同様に、ここでの親和度の差も、差の大きさではなく、差の方向、即ちどちらが大きいか、どちらが小さいかを標識すればよい。

本実施形態のソート学習モデルは、マルチレイヤパーセプトロン（Ｍｕｌｔｉ－ＬａｙｅｒＰｅｒｃｅｐｔｒｏｎ；ＭＬＰ）、コンボリューションニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ；ＣＮＮ）やＴｒａｎｓｆｏｒｍｅｒなどのニューラルネットワークモデルを用いても良く、標的タンパク質や薬物分子の特性評価を抽出し学習することができる他のニューラルネットワーク構造であっても良い。本実施形態のソート学習モデルは、ツインタワー構造である。

２０２において、各訓練サンプルについて、対応する訓練サンプル中の既知の訓練標的タンパク質情報、及び対応する２つの訓練薬物情報をソート学習モデルに入力する。

２０３において、ソート学習モデルから出力された２つの訓練薬物と既知の訓練標的タンパク質の予測親和度の差を取得する。

２０４において、予測親和度の差と対応する真の親和度の差とに基づいて、ソート学習モデルが、各訓練サンプル中の２つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するように、ソート学習モデルのパラメータを調整する。

例えば、このステップが具体的に実現される場合、以下のステップを含むことができる。

（ａ）予測親和度の差と対応する真の親和度の差とに基づいて損失関数を構築する。

（ｂ）損失関数が収束しているか否かを検出し、収束する場合は、ステップ（ｄ）を実行する。

（ｃ）収束しない場合に、損失関数が収束する方向になるようにソート学習モデルのパラメータを調整し、ステップ２０２に戻り、次の訓練サンプルを選択して訓練を開始し続ける。

（ｄ）訓練終了条件を満たしているか否かを検出し，満たしていれば訓練を停止し，この場合にソート学習モデルのパラメータを決定して終了し、満たされない場合は、ステップ２０２に戻り、次の訓練サンプルを選択して訓練を開始し続ける。

オプションとして、本実施形態の訓練終了条件は、連続の所定の回数閾値までの訓練において損失関数が収束し続けるか否かを検出し、肯定の場合に訓練終了条件を満たしていると判定して良い。ここで、連続の所定の回数閾値は、実際のシーンに応じて設定することができ、例えば、連続８０回、連続１００回、連続１５０回、又は連続する他の回数であってもよく、ここでは限定しない。また、最大訓練回数閾値を設定し、訓練回数が当該最大訓練回数閾値に達した時点で訓練を終了するようにしてもよい。以上の訓練方式を採用することにより、ソート学習モデルの訓練効果を効果的に向上させることができる。

本実施形態のソート学習モデルはツインタワー構造であり、ソート学習を実現する。学習されたソート学習モデルのパラメータをシングルタワー構造のソートモデルに共有することにより、ソートモデルが同一の標的タンパク質に対応する複数の薬物を親和度に応じてソートすることを実現することができる。

本実施形態のソート学習モデルの訓練方法は、異なるデータセットと異なる指標のＤＴＩデータを十分に利用し、ソート学習アルゴリズムを設計して異なる薬物と同一の標的タンパク質との親和度の大小関係を学習することにより、複数の薬物を同一の標的タンパク質との親和度の大きさに応じてソートする目的を達成することができる。本実施形態によるソート学習モデルの訓練により、ペアリングされた二つの薬物と標的タンパク質との親和度の差により注目し、更に異なるデータセット、複数の親和度指標のデータを統合してモデルを訓練することができるため、モデル訓練におけるＤＴＩデータセットが小さいという制限性を有効に克服し、ソート学習模型の訓練効果を有効に高めることができる。

本実施形態のソート学習モデルの訓練方法は、Ｐａｉｒｗｉｓｅに基づいたソート学習アルゴリズムを設計することで、異なる薬物と同じ標的タンパク質との親和度の前後関係を得ることができ、既存の他の方法と比較して、異なる薬物と同一の標的タンパク質との親和度のソートの正確性を効果的に向上させることができる。例えば、ある標的タンパク質の対応する薬物の加重一致指数（ＷｅｉｇｈｔｅｄＣＩ）と平均一致指数（ＡｖｅｒａｇｅＣＩ）に基づいて、それぞれ約０．０３と０．０５を向上させることができる。

図４は本開示の第４実施形態に係る概略図である。図４に示すように、本実施形態は薬物ソート方法を提供する。本実施形態の薬物ソート方法は、具体的には、以下のステップを含むことができる。

Ｓ４０１において、目標標的情報及び複数の候補薬物情報を取得する。

Ｓ４０２において、ソートモデルを用いて、目標標的情報と各候補薬物情報に基づいて、複数の候補薬物を目標標的との親和度の大きさに応じてソートする。ここで、ソートモデルは、予め訓練されたソート学習モデルのパラメータを共有し、ソート学習モデルは、任意の２つの薬物と同一の標的タンパク質との親和度の大小関係を学習するために使用される。

本実施形態の薬物ソート方法の実行主体は薬物ソート装置である。当該薬物ソートの実行主体は電子エンティティであっても良く、ソフトウェア統合を採用したアプリケーションであってもよい。本実施形態の薬物ソートは、複数の候補薬物を同一の標的タンパク質との親和度の大きさに応じてソートすることを実現し、ひいては薬物推奨を実現することができる。

本実施形態のソートモデルは、前記図１又は図２に示す実施形態で訓練されたソートモデルのパラメータを共有して実装され得るシングルタワー構造である。上記のソート学習モデルは、異なる薬物と同一の標的との親和度の大小関係を学習しているため、複数の薬物を同一の標的との親和度の大小に応じてソートすることが可能である。例えば、薬物Ａと標的１との親和度が薬物Ｂと標的１との親和度よりも大きいことを予測することができ、同時に薬物Ｂと標的１との親和度が薬物Ｃと標的１との親和度よりも大きいことを予測することができれば、さらに薬物Ａ、薬物Ｂ、薬物Ｃを標的１との親和度の大きさに応じてソートし、ひいては薬物推薦を実現することができる。

同様に、本実施形態の目標標的情報はＳＭＩＬＥＳ配列を用いて標識することができ、候補薬物情報はＦＡＳＴＡ配列を用いて標識することができる。

使用する際に、目標標的情報と複数の候補薬物情報とをｅｍｂｅｄｄｉｎｇした後、入力された情報に基づいて複数の候補薬物を目標標的タンパク質との親和度の大きさに応じてソートしたソート関係を予測して出力することができるソートモデルに入力する。その後、このソート関係に基づいて、目標標的タンパク質との親和度が最も高い薬物を取得し、ひいては薬物推奨を実現することができる。

本実施形態の薬物ソート方法によれば、このソートモデルは、予め訓練されたソート学習モデルのパラメータを共有し、ソート学習モデルは任意の２つの薬物と同一の標的タンパク質との親和度の大小関係を学習するために用いられる。このソートモデルを用いて、薬物ソートの精度を有効に向上させ、ひいては薬物推薦をより有効に行うことができる。

図５は本開示の第５実施形態に係る概略図である。図５に示すように、本実施形態は、既知の訓練標的タンパク情報、対応する２つの訓練薬物情報、及び対応する２つの訓練薬物と既知の訓練標的との真の親和度の差が含まれる複数の訓練サンプルを収集する収集モジュール５０１と、複数の訓練サンプルに基づいて、各訓練サンプルにおける２つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するようにソート学習モデルを訓練する訓練モジュール５０２と、を備えるソート学習モデルの訓練装置５００を提供する。

本実施形態のソート学習モデルの訓練装置５００は、上述したモジュールを用いてソート学習モデルの訓練を実現する実現原理及び技術的効果は、上述した関連方法の実施形態の実現と同じである。詳細は上述した関連方法の実施形態の記載を参照でき、ここでは再度言及しない。

図６は本開示の第６実施形態に係る概略図である。図６に示すように、本実施形態により提供されるソート学習モデルの訓練装置５００は、上述した図５に示す実施形態の技術案に加えて、本開示の技術案をより詳細に説明する。

図６に示すように、本実施形態により提供されるソート学習モデルの訓練装置５００において、訓練モジュール５０２は、各訓練サンプルについて、対応する訓練サンプルにおける既知の訓練標的タンパク質情報、対応する２つの訓練薬物情報をソート学習モデルに入力する入力ユニット５０２１と、ソート学習モデルから出力された２つの訓練薬物と既知の訓練標的タンパク質との予測親和度の差を取得する取得部５０２２と、予測親和度の差と対応する真の親和度の差とに基づいて、ソート学習モデルが各訓練サンプルにおける２つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するように、ソート学習モデルのパラメータを調整する調整部５０２３と、を備える。

更に、オプションとして、当該調整ユニット５０２３は、予測親和度の差と対応する真の親和度の差とに基づいて損失関数を構築し、損失関数が収束しているかどうかを検出し、収束しなければ、損失関数が収束する方向になるようにソート学習モデルのパラメータを調整する。

更に、オプションとして、本実施形態により提供されるソート学習モデルの訓練装置５００では、収集モジュール５０１が複数のデータセットから複数の訓練サンプルを収集する。

ここで、異なるデータセットにおける訓練薬物と既知の訓練標的との親和度は異なる指標を用いて表される。

図７は本開示の第７実施形態に係る概略図である。図７に示すように、本実施形態は、目標標的情報及び複数の候補薬物情報を取得する取得モジュール７０１と、予め訓練された、任意の２つの薬物と同一の標的タンパク質との親和度の大小関係を学習するソート学習モデルのパラメータを共有するソートモデルを用いて、目標標的情報と各候補薬物情報とに基づいて、複数の候補薬物を目標標的との親和度の大きさに応じてソートするソートモジュール７０２とを備える薬物ソート装置７００を提供する。

本実施形態の薬物ソート装置７００は、上述したモジュールを用いて薬物ソートを実現する実現原理及び技術的効果は、上述した関連方法の実施形態の実現と同じである。詳細は上述した関連方法の実施形態の記載を参照でき、ここでは再度言及しない。

図８は、本開示の実施形態を実施するために使用され得る例示的な電子デバイス８００の模式的なブロック図である。電子デバイスは、ラップトップ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような、様々な形態のデジタルコンピュータを表す。電子デバイスは更に、ＰＤＡ、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続及び関係、ならびにそれらの機能は、単なる一例であり、本明細書に記載及び／又は要求された本開示の実現を制限することではない。

図８に示すように、電子デバイス８００は、読み取り専用メモリ（ＲＯＭ）８０２に記憶されたコンピュータプログラム、又は記憶手段８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる演算手段８０１を含む。ＲＡＭ８０３には、電子デバイス８００の動作に必要な各種のプログラムやデータが記憶されてもよい。演算手段８０１、ＲＯＭ８０２及びＲＡＭ８０３は、バス８０４を介して接続されている。入出力（Ｉ／Ｏ）インターフェース８０５もバス８０４に接続されている。

例えばキーボード、マウス等の入力手段８０６と、例えば様々なタイプのディスプレイ、スピーカ等の出力手段８０７と、例えば磁気ディスク、光ディスク等の記憶手段８０８と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段８０９を含む電子デバイス８００の複数の構成要素は、Ｉ／Ｏインターフェース８０５に接続される。通信手段８０９は、電子デバイス８００が例えばインターネットのコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他のデバイスと情報／データを交換することを可能にする。

演算手段８０１は、処理能力及び演算能力を有する様々な汎用及び／又は専用の処理コンポーネントであってよい。演算手段８０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算手段８０１は、上述した様々な方法及び処理、例えばソート学習モデルの訓練方法や薬物ソート方法を実行する。例えば、幾つかの実施形態では、ソート学習モデルの訓練方法又は薬物ソート方法は、例えば記憶手段８０８のような機械可読媒体に物理的に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。幾つかの実施形態では、コンピュータプログラムの一部又は全部は、ＲＯＭ８０２及び／又は通信手段８０９を介して電子デバイス８００にロード及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ８０３にロードされ、演算手段８０１により実行されると、上述したソート学習モデルの訓練方法又は薬物ソート方法の１つ又は複数のステップを実行することができる。代替的に、他の実施形態では、演算手段８０１は、ソート学習モデルの訓練方法又は薬物ソート方法を実行するように、他の任意の適切な方法で（例えば、ファームウェアを介する）構成されてもよい。

本明細書で前述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、ロードプログラマブル論理デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせにおいて実装されてもよい。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含んで良い。当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈することができる。当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであって、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置にデータ及び命令を転送することができる。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせを用いて記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び／又はブロック図に指定された機能／動作を実行するようにすることができる。プログラムコードは、全てがマシン上で実行されても良く、一部がマシン上で実行されても良く、スタンドアロンパッケージとして一部的にマシン上で実行され且つ一部的にリモートマシン上で実行され、或いは全てがリモートマシン又はサーバ上で実行されても良い。

本開示の文脈では、機械可読媒体は、有形の媒体であって、命令実行システム、装置又はデバイスにより使用され、或いは命令実行システム、装置又はデバイスと合わせて使用されるプログラムを含むか記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又はデバイス、あるいはこれらの任意の適切な組み合わせを含んで良いが、これらに限定されない。機械可読記憶媒体のより具体的な例は、１つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザにより入力をコンピュータに提供するキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）と備えるコンピュータ上に実施されてよい。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であって良く、ユーザからの入力を任意の形式（声入力、音声入力、又は触覚入力を含む）で受信して良い。

本明細書に記載されたシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイド・エリア・ネットワーク（「ＷＡＮ」）、インターネットワークを含む。

コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント－サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバ、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、従来の物理ホストとＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、或いは「ＶＰＳ」と略称される）において管理が難しく、ビジネスの拡張性が弱いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の１つであって良い。サーバは、分散システムのサーバであっても良く、ブロックチェーンを組み合わせたサーバであってもよい。

以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。

上記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。

Claims

コンピュータにより実行されるソート学習モデルの訓練方法であって、
既知の訓練標的タンパク質情報、対応する２つの訓練薬物情報、及び対応する２つの訓練薬物と既知の訓練標的との真の親和度の差がそれぞれ含まれる複数の訓練サンプルを収集することと、
前記複数の訓練サンプルに基づいて、各前記訓練サンプルの中の前記２つの訓練薬物と前記既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するようにソート学習モデルを訓練することと、
を含み、
前記複数の訓練サンプルに基づいて、各前記訓練サンプルの中の前記２つの訓練薬物と前記既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するようにソート学習モデルを訓練することは、
各前記訓練サンプルについて、対応する前記訓練サンプルの中の前記既知の訓練標的タンパク質情報、対応する前記２つの訓練薬物情報を前記ソート学習モデルに入力することと、
前記ソート学習モデルから出力された前記２つの訓練薬物と前記既知の訓練標的タンパク質との予測親和度の差を取得することと、
前記予測親和度の差と対応する前記真の親和度の差とに基づいて、前記ソート学習モデルが各前記訓練サンプルの中の前記２つの訓練薬物と前記既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するように、前記ソート学習モデルのパラメータを調整することと、
を含むソート学習モデルの訓練方法。
前記予測親和度の差と対応する前記真の親和度の差とに基づいて、前記ソート学習モデルが各前記訓練サンプルの中の前記２つの訓練薬物と前記既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するように、前記ソート学習モデルのパラメータを調整することは、
前記予測親和度の差と対応する前記真の親和度の差とに基づいて損失関数を構築し、
前記損失関数が収束しているか否かを検出し、
前記損失関数が収束しない場合に、前記損失関数が収束する方向となるように前記ソート学習モデルのパラメータを調整する、
ことを含む請求項１に記載のソート学習モデルの訓練方法。
複数の訓練サンプルを収集することは、
複数のデータセットから前記複数の訓練サンプルを収集すること、
を含む請求項１または２に記載のソート学習モデルの訓練方法。
異なる前記データセットにおける前記訓練薬物と前記既知の訓練標的との親和度は、異なる指標で表す、
請求項３に記載のソート学習モデルの訓練方法。
ソート学習モデルの訓練装置であって、
既知の訓練標的タンパク質情報、対応する２つの訓練薬物情報、及び対応する２つの訓練薬物と既知の訓練標的との真の親和度の差がそれぞれ含まれる複数の訓練サンプルを収集する収集モジュールと、
前記複数の訓練サンプルに基づいて、各前記訓練サンプルの中の前記２つの訓練薬物と前記既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するようにソート学習モデルを訓練する訓練モジュールと、
を備え、
前記訓練モジュールは、
各前記訓練サンプルについて、対応する前記訓練サンプルの中の前記既知の訓練標的タンパク質情報、対応する前記２つの訓練薬物情報を前記ソート学習モデルに入力する入力ユニットと、
前記ソート学習モデルから出力された前記２つの訓練薬物と前記既知の訓練標的タンパク質との予測親和度の差を取得する取得ユニットと、
前記予測親和度の差と対応する前記真の親和度の差とに基づいて、前記ソート学習モデルが各前記訓練サンプルの中の前記２つの訓練薬物と前記既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するように、前記ソート学習モデルのパラメータを調整する調整ユニットと、
を備えるソート学習モデルの訓練装置。
前記調整ユニットは、
前記予測親和度の差と対応する前記真の親和度の差とに基づいて損失関数を構築し、
前記損失関数が収束しているか否かを検出し、
前記損失関数が収束しない場合に、前記損失関数が収束する方向となるように、前記ソート学習モデルのパラメータを調整する、
請求項５に記載のソート学習モデルの訓練装置。
前記収集モジュールは、複数のデータセットから前記複数の訓練サンプルを収集する、
請求項５または６に記載のソート学習モデルの訓練装置。
異なる前記データセットにおける前記訓練薬物と前記既知の訓練標的との親和度は、異なる指標で表す、
請求項７に記載のソート学習モデルの訓練装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されたメモリと、を備え、
前記メモリに前記少なくとも１つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサに請求項１から４のいずれか１項に記載のソート学習モデルの訓練方法を実行させる電子デバイス。
コンピュータに請求項１から４のいずれか１項に記載のソート学習モデルの訓練方法を実行させるためのコンピュータコマンドを記憶する非一時的なコンピュータ可読記憶媒体。
プロセッサにより実行されると、請求項１から４のいずれか１項に記載のソート学習モデルの訓練方法を実現するコンピュータプログラム。