JP7430406B2 - 深層特徴抽出を用いた能動的転移学習のためのシステムおよび方法 - Google Patents

深層特徴抽出を用いた能動的転移学習のためのシステムおよび方法 Download PDF

Info

Publication number
JP7430406B2
JP7430406B2 JP2021521821A JP2021521821A JP7430406B2 JP 7430406 B2 JP7430406 B2 JP 7430406B2 JP 2021521821 A JP2021521821 A JP 2021521821A JP 2021521821 A JP2021521821 A JP 2021521821A JP 7430406 B2 JP7430406 B2 JP 7430406B2
Authority
JP
Japan
Prior art keywords
model
training
neural network
machine learning
feature extractor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021521821A
Other languages
English (en)
Other versions
JP2022505540A (ja
Inventor
エバン エヌ. フェインバーグ,
ビジャイ エス. パンデ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leland Stanford Junior University
Original Assignee
Leland Stanford Junior University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leland Stanford Junior University filed Critical Leland Stanford Junior University
Publication of JP2022505540A publication Critical patent/JP2022505540A/ja
Application granted granted Critical
Publication of JP7430406B2 publication Critical patent/JP7430406B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

(関連出願の相互参照)
本願は、「Systems and Methods for Active Transfer Learning with Deep Featurization」と題され、2018年10月23日に出願された、米国仮特許出願第62/749,653号の利益および優先権を主張する。米国仮特許出願第62/749,653号の開示は、参照することによってその全体として本明細書に組み込まれる。
本発明は、概して、機械学習モデルのための学習に関し、より具体的には、深層特徴抽出を用いた能動的転移学習に関する。
教師あり機械学習(ML)は、入力サンプルを表す入力特徴をグラウンドトゥルース出力ラベルにマッピングするための一連の機能形態および最適化スキームの総称である。深層ニューラルネットワーク(DNN)は、中間ニューラルネットワーク層内の目前の予測タスクに関連する特徴を学習することによる、前世代のML方法よりも多くの点で優れている、機能形態のセットを示す。
深層ニューラルネットワークは、特徴エンジニアリングの代わりに、特徴学習を採用することによって、その前世代のものよりも多くの点で優れている。従来的教師あり機械学習(ML)技法は、固定された、多くの場合、手作業で作られる、特徴を出力ラベルにマッピングする、モデルを訓練する。対照的に、深層ニューラルネットワークは、多くの場合、入力として、入力のより基本的特徴抽出、すなわち、画像に関するピクセルのグリッド、自然言語に関するワンホットエンコーディングワードをとり、ニューラルネットワークの中間層内の目前のタスクに最も直接的に関連する特徴を「学習」する。ニューラルネットワークを訓練するための効率的手段は、特に、異なる分野および用途を横断して識別することが困難であり得る。
本発明の実施形態による、能動的転移学習のためのシステムおよび方法が、図示される。一実施形態は、深層特徴抽出器を訓練するための方法を含む。本方法は、マスタモデルおよび1つ以上の二次モデルのセットを訓練するステップであって、マスタモデルは、1つ以上の層のセットを含む、ステップと、マスタモデルの加重をフリーズさせるステップと、マスタモデルから1つ以上の出力のセットを生成するステップと、1つ以上の直交モデルのセットを出力の生成されたセット上で訓練するステップとを含む。
さらなる実施形態では、マスタモデルを訓練するステップは、いくつかのエポックに関するマスタモデルを訓練するステップを含む。
さらに別の実施形態では、各エポックは、マスタモデルおよび二次モデルのセットをいくつかのデータセット上で訓練するステップを含む。
なおもさらなる実施形態では、1つ以上の出力のセットを生成するステップは、マスタモデルを通して、いくつかのデータセットを伝搬させるステップを含む。
さらに別の実施形態では、いくつかのデータセットの各データセットは、データセットの入力の異なる特性のためのラベルを有する。
なおもさらなる実施形態では、本方法はさらに、マスタモデルおよび直交モデルのセットを検証するステップを含む。
別の付加的実施形態では、直交モデルのセットを検証するステップは、直交モデルのセットに関するアウトオブバッグスコアを算出するステップを含む。
さらなる付加的実施形態では、直交モデルのセットを検証するステップは、マスタモデルを、訓練データセットおよび検証データセットを含む、マスタデータセット上で訓練するステップと、直交モデルのセットを訓練データセット上で訓練するステップと、検証データセットに基づいて、直交モデルに関する検証スコアを算出するステップとを含む。
再び、別の実施形態では、出力の生成されたセットは、マスタモデルの層である。
再び、さらなる実施形態では、直交モデルのセットは、ランダムフォレストおよびサポートベクトルマシンのうちの少なくとも1つを含む。
なおもさらに別の実施形態では、マスタモデルを訓練するステップは、複数のエポックに関してマスタモデルを訓練するステップを含み、本方法はさらに、特定の直交モデル毎に、マスタモデルおよび特定の直交モデルを検証することによって、複数のエポックの最適エポックを識別するステップを含む。本方法はさらに、最適エポックにおけるマスタモデルおよび特定の直交モデルを合成モデルとして合成し、新しい入力のセットを分類するステップを含む。
なおも別のさらなる実施形態では、二次モデルのセットの少なくとも1つの二次モデルは、1つ以上の層のセットを含む、ニューラルネットワークである。
一実施形態は、深層特徴抽出器を訓練するためのプロセッサ命令を含有する、非一過性機械可読媒体を含み、プロセッサによる命令の実行は、プロセッサに、マスタモデルおよび1つ以上の二次モデルのセットを訓練するステップであって、マスタモデルは、1つ以上の層のセットを含む、ステップと、マスタモデルの加重をフリーズさせるステップと、マスタモデルから1つ以上の出力のセットを生成するステップと、1つ以上の直交モデルのセットを出力の生成されたセット上で訓練するステップとを含む、プロセスを実施させる。
一実施形態は、1つ以上の分子の1つ以上のデータセットを収集するステップと、深層特徴抽出器を訓練するステップであって、深層特徴抽出器を訓練するステップは、マスタモデルおよび1つ以上の二次モデルのセットを訓練するステップであって、マスタモデルは、1つ以上の層のセットを含む、ステップと、マスタモデルから1つ以上の出力のセットを作成するステップと、1つ以上の直交モデルのセットを生成された1つ以上の出力のセット上で訓練するステップとを含む、ステップと、訓練されたマスタモデルまたは訓練された直交モデルを使用して、薬物候補を識別するステップとを含む、創薬のためのコンピュータ実装方法を含む。
なおもさらなる実施形態では、1つ以上の出力のセットを作成するステップに先立って、本方法は、マスタモデルの加重をフリーズさせるステップを含む。
別の付加的実施形態では、直交モデルのセットは、ランダムフォレスト、サポートベクトルマシン、XGBoost、線形回帰、最近傍法、単純ベイズ、決定木、ニューラルネットワーク、およびk-平均クラスタリングのうちの少なくとも1つを含む。
さらなる付加的実施形態では、本方法はさらに、マスタモデルおよび直交モデルのセットを合成モデルとして合成し、新しい入力のセットを分類するステップを含む。
再び、別の実施形態では、本方法はさらに、深層特徴抽出器を訓練するステップに先立って、1つ以上の分子の1つ以上のデータセットを前処理するステップを含む。
再び、さらなる実施形態では、1つ以上のデータセットを前処理するステップはさらに、以下、すなわち、フォーマッティング、クリーニング、サンプリング、スケーリング、分解、データフォーマットの変換、または集約のうちの少なくとも1つを含む。
なおもさらに別の実施形態では、訓練されたマスタモデルまたは訓練された直交モデルは、薬物候補の性質を予測する。
なおも別のさらなる実施形態では、薬物候補の性質は、吸収率、分布率、代謝率、消失率、毒性、可溶性、代謝安定性、インビボエンドポイント、エクスビボエンドポイント、分子量、効能、親油性、水素結合、浸透性、選択性、pKa、クリアランス、半減期、分布容積、血漿濃度、および安定性から成る群のうちの少なくとも1つを含む。
さらに別の付加的実施形態では、1つ以上の分子は、リガンド分子および/または標的分子である。
なおもさらに付加的実施形態では、標的分子は、タンパク質である。
再び、さらに別の実施形態では、本方法はさらに、1つ以上のデータセットを前処理するステップを含む。
再び、なおもさらなる実施形態では、1つ以上のデータセットを前処理するステップはさらに、以下、すなわち、フォーマッティング、クリーニング、サンプリング、スケーリング、分解、データフォーマットの変換、または集約のうちの少なくとも1つを含む。
さらに別の付加的実施形態では、本方法はさらに、薬物候補を識別するステップに先立って、深層特徴抽出器から1つ以上の出力の特徴セットを作成するステップを含む。
なおもさらに付加的実施形態では、本方法はさらに、訓練されたマスタモデルまたは訓練された直交モデルを特徴セット上で使用して、薬物候補を識別するステップを含む。
一実施形態は、個々または集合的に、1つ以上の分子の1つ以上のデータセットを収集するように構成される、1つ以上のプロセッサを備える、創薬のためのシステムを含む。プロセッサは、マスタモデルおよび1つ以上の二次モデルのセットを訓練するステップと、マスタモデルから1つ以上の出力のセットを作成するステップと、1つ以上の直交モデルのセットを生成された1つ以上の出力のセット上で訓練するステップとによって、深層特徴抽出器を訓練するように構成される。マスタモデルは、1つ以上の層のセットを含む。プロセッサはさらに、薬物候補を識別するように構成され、1つ以上のプロセッサは、個々または集合的に、訓練されたマスタモデルまたは訓練された直交モデルを使用するように構成される。
別の実施形態では、マスタモデルから1つ以上の出力のセットを作成することに先立って、1つ以上のプロセッサはさらに、マスタモデルの加重をフリーズさせるように構成される。
さらに別の実施形態では、1つ以上のプロセッサは、個々または集合的に、1つ以上のエポックに関してマスタモデルを訓練するように構成される。
再び、さらに別の実施形態では、エポック毎に、マスタモデルを訓練することは、マスタモデルおよび二次モデルのセットを1つ以上のデータセット上で訓練することを含む。
再び、なおもさらなる実施形態では、1つ以上の出力のセットを作成することは、マスタモデルを通して、1つ以上のデータセットを伝搬させることを含む。
再び、別の付加的実施形態では、1つ以上のデータセットの各データセットは、データセットの入力の異なる特性のためのラベルを有する。
再び、さらなる付加的実施形態では、1つ以上のプロセッサはさらに、マスタモデルおよび直交モデルのセットを検証するように構成される。
なおもさらに別の付加的実施形態では、直交モデルのセットを検証することは、直交モデルのセットに関するアウトオブバッグスコアを算出することを含む。
さらなる実施形態では、直交モデルのセットを検証することは、マスタモデルを、訓練データセットおよび検証データセットを含む、マスタデータセット上で訓練することと、直交モデルのセットを訓練データセット上で訓練することと、検証データセットに基づいて、直交モデルに関する検証スコアを算出することとを含む。
なおもさらなる実施形態では、直交モデルのセットは、ランダムフォレスト、サポートベクトルマシン、XGBoost、線形回帰、最近傍法、単純なベイズ、決定木、ニューラルネットワーク、およびk-平均クラスタリングのうちの少なくとも1つを含む。
さらに別の実施形態では、1つ以上のプロセッサはさらに、マスタモデルおよび直交モデルのセットを合成モデルとして合成し、新しい入力のセットを分類するように構成される。
なおもさらなる実施形態では、深層特徴抽出器を訓練することに先立って、1つ以上のプロセッサはさらに、1つ以上の分子の1つ以上のデータセットを前処理するように構成される。
別の付加的実施形態では、1つ以上のデータセットを前処理することはさらに、以下、すなわち、フォーマッティング、クリーニング、サンプリング、スケーリング、分解、データフォーマットの変換、または集約のうちの少なくとも1つを含む。
さらなる付加的実施形態では、訓練されたマスタモデルまたは訓練された直交モデルは、薬物候補の性質を予測するように構成される。
再び、別の実施形態では、薬物候補の性質は、吸収率、分布率、代謝率、消失率、毒性、可溶性、代謝安定性、インビボエンドポイント、エクスビボエンドポイント、分子量、効能、親油性、水素結合、浸透性、選択性、pKa、クリアランス、半減期、分布容積、血漿濃度、および安定性から成る群のうちの少なくとも1つを含む。
なおも別のさらなる実施形態では、1つ以上のプロセッサはさらに、1つ以上のデータセットを前処理するように構成される。
さらに別の付加的実施形態では、個々または集合的に、1つ以上のデータセットを前処理するように構成される、1つ以上のプロセッサはさらに、以下、すなわち、フォーマッティング、クリーニング、サンプリング、スケーリング、分解、データフォーマットの変換、または集約のうちの少なくとも1つを含む。
なおもさらに付加的実施形態では、薬物候補を識別することに先立って、1つ以上のプロセッサはさらに、深層特徴抽出器から1つ以上の出力の特徴セットを作成するように構成される。
さらに別の実施形態では再び、1つ以上のプロセッサはさらに、訓練されたマスタモデルまたは訓練された直交モデルを特徴セット上で使用し、薬物候補を識別するように構成される。
付加的実施形態および特徴が、部分的に、続く説明に記載され、部分的に、本明細書の精査に応じて当業者に明白となるであろう、または本発明の実践によって習得され得る。本発明の本質および利点のさらなる理解は、本開示の一部を形成する、明細書の残りの部分および図面を参照することによって実現され得る。
説明および請求項は、本発明の例示的実施形態として提示され、本発明の範囲の完全列挙として解釈されるべきではない、以下の図およびデータグラフを参照して、より完全に理解されるであろう。
図1は、深層特徴抽出を用いた能動的転移学習のための方法の実施例を図示する。
図2および3は、本発明の実施形態による、能動的転移学習プロセスを図示する。 図2および3は、本発明の実施形態による、能動的転移学習プロセスを図示する。
図4は、本発明のいくつかの実施形態による、機械学習モデルを訓練する、システムを図示する。
図5は、マスタおよび/または直交モデルを訓練するプロセスを実施するための命令を実行する、モデル訓練要素の実施例を図示する。
図6は、本発明のある実施形態による、訓練タスクを提供するための訓練アプリケーションの実施例を図示する。
ここで図面に目を向けると、深層特徴抽出器を訓練するためのシステムおよび方法が、下記に説明される。ある実施形態では、深層特徴抽出器は、(限定ではないが)畳み込みニューラルネットワークおよびグラフ畳み込みネットワーク等のニューラルネットワークであって、これは、入力から特徴を識別するために使用され得る。深層特徴抽出器(またはマスタモデル)は、所与の入力に関するラベルを予測し、深層特徴抽出器を訓練し(例えば、逆伝搬を通して)、所与のラベルに関する特徴を識別するために、分類器(または二次モデル)を用いて訓練されることができる。本発明の種々の実施形態による、深層特徴抽出器は、単一深層特徴抽出器を訓練し、入力のための異なるラベルを識別するためにより一般的に有用な特徴を識別するために、複数の異なるラベルと関連付けられる、複数の異なるデータセットを用いて訓練されることができる。多くの実施形態では、深層特徴抽出器はさらに、深層特徴抽出器および/または分類器の中間出力(例えば、最後から2番目の全結合層)に照準を当てる、直交モデルを用いて訓練される。本発明のいくつかの実施形態による、直交モデルは、マスタモデルと勾配情報を共有せず、(限定ではないが)ランダムフォレストおよびサポートベクトルマシン等の微分不可能および/またはアンサンブルモデルを含むことができる。いくつかの実施形態では、直交モデルは、入力を分類し、かつ深層特徴抽出器の性能を検証するために使用されることができる。深層特徴抽出器、分類器、および直交モデルのそのようなシステムは、任意の特定のデータセットへの過剰適合を回避しながら、モデルの効率的訓練を可能にすることができる。加えて、本発明の多くの実施形態による、そのような様式における訓練は、可変重複度を有し得る、1つ以上のデータセットを使用して、モデルの効率的かつ効果的訓練を可能にすることができる。
例えば、医薬開発では、化学者は、それぞれ、分子構造を少なくとも1つの着目化学性質にマッピングする、データセットへのアクセスを有する。例えば、化学者は、10,000種の化学物質および関連付けられる肝毒性転帰、15,000種の化学物質および関連付けられるLogD測定値、25,000種の化学物質および関連付けられる受動的膜浸透性測定値等のデータベースへのアクセスを有し得る。多くの場合、そのようなデータセット間には、可変重複度が存在する。本発明の種々の実施形態による、方法は、データセット毎の別個のモデルの個々の訓練の実施に優り得る、全ての着目タスクのためのより優れた深層学習モデルを構築するために、それに対してアクセスを有する、化学データの全てを活用することができる。化学性質予測の状況における技術的問題は、所与の特性のセットに関する利用可能な高品質の標識された訓練データの相対的不足から生じ得る。例えば、その受容体媒介毒性に関して標識された分子のTox21データセットは、わずか10,000種の標識された分子を含有する。本発明の多数の実施形態による、プロセスは、多くの場合、広範囲の重複割合が異なる性質データセット間に存在し得る、分子を異なる性質(例えば、LogD、毒性、可溶性、膜浸透性、ある標的に対する効能等)にマッピングする、多くの異なるデータセットへのアクセスを有する、創薬および他の化学状況に適用されることができる。本発明の種々の実施形態による、分子(または薬物)候補性質は、物理化学、生化学、薬物動態学、および薬力学性質を含むことができる。本発明のいくつかの実施形態による、性質の実施例は、(限定ではないが)吸収率、分布率、代謝率、消失率、毒性、可溶性、代謝安定性、インビボエンドポイント、エクスビボエンドポイント、分子量、効能、親油性、水素結合、浸透性、選択性、pKa、クリアランス、半減期、分布容積、血漿濃度、および安定性を含むことができる。本明細書に説明される実施例の多くは、分子構造を参照して説明されるが、当業者は、説明される方法およびシステムが、本発明から逸脱することなく、種々の分野および用途に適用されることができることを認識するであろう。
本発明の種々の実施形態による、システムおよび方法は、深層ニューラルネットワーク(DNN)を微分可能特徴抽出器として取り扱う。多くの実施形態では、異なるアプローチが、DNNの中間層内に含有される豊富な情報を利用することによって、入力サンプルから出力ラベルへの正確なマッピングを学習するために提供される。多数の実施形態では、ランダムフォレスト等のより低次の分散学習器を中間層上で訓練することは、一連の後続全結合層と比較して、予測性能を改良することができる。本発明のいくつかの実施形態による、深層特徴抽出は、能動的転移学習と称される、新規技法を採用し、異なるデータセットまたはタスクからのラベルのより効率的予測を可能にする。異なるデータセットに基づいて、単一マスタモデルを訓練し、異なるタスク(または属性)を予測することによって、本発明のいくつかの実施形態による、方法は、関連性があって、より一般化可能な特徴を入力から識別し、データの任意の特定のクラスへの過剰適合を回避し得る、マスタモデルを生成することができる。複数の異なるタスク間でモデルを訓練するための他の方法は、転移学習およびマルチタスク学習を含む。多くの場合、転移学習は、新しいモデルを訓練するために使用されることができる。転移学習は、第1のタスクのために訓練されたモデルを異なる第2のタスクのためのモデルを訓練するための開始点として使用することを伴う。事前に訓練されたモデルは、新しいモデルの訓練における訓練時間およびリソースの観点から、非常に有利なスタートを提供することができる。加えて、事前訓練は、いったん訓練が所望のタスク上で完了されると、より良好な性能(すなわち、より正確な予測)につながり得る。転移学習は、多くの場合、モデルを1つのデータセット上で事前に訓練し、加重を別のモデルに転移し、別の着目データセット上でさらに訓練することを伴う。マルチタスク学習は、それに関する訓練データを有する、全ての性質に関する値を出力する、単一マスタニューラルネットワークの同時訓練を伴う。
いくつかの実施形態では、厳密にエンドツーエンドの微分可能ニューラルネットワーク訓練の代わりに、能動的転移学習を展開することはまた、予測正確度における有意な利得につながり得る。ニューラルネットワークは、訓練データを過剰適合する傾向を有することが公知である。より良好な一般化性能、または訓練セット内のものと非常に異なる、分子の性質を予測するためのより高い正確度を達成するために、マスタモデル(例えば、一連のグラフ畳み込み層および全結合層等の一連の層を構成する、ニューラルネットワーク)を訓練し、訓練の1つ以上のエポックにおいて、訓練された層のうちの1つ以上のものの出力をとり、合成モデル(例えば、グラフ畳み込み層+直交学習器(例えば、ランダムフォレストまたはSVM))を訓練することができる。本発明の種々の実施形態による、プロセスは、次いで、生産モデルとして、結果として生じる合成モデルを、分子のいくつかのホールドアウトされたセット上での性能が最も正確なエポックから選択された合成モデルのためのパラメータと併用することができる。結果として生じる合成モデルは、1つのタスクに関して1つのデータセット上でのみ訓練された場合でも、マスタモデルの性能を超え得る。
本発明のいくつかの実施形態による、能動的転移学習は、それに対して他のタスク特有の学習器(または二次モデル)が接続される、単一「深層特徴抽出器」(またはマスタモデル)を伴う。本発明のある実施形態による、システムは、(限定ではないが)化学性質予測を含む、種々の異なる設定に容易に適用されることができる。化学性質予測では、多くの場合、可変サンプル重複度をデータセット間に伴う、異なる性質に対応する、多くの(時として、比較的に小)化学データセットへのアクセスを有する。本明細書に説明される実施例の多くは、化学性質予測に関連するが、当業者は、類似プロセスが、本発明の異なる実施形態による、種々の異なる分野に適用されることができることを認識するであろう。本発明のある実施形態による、深層特徴抽出を用いた能動的転移学習は、多くのタスク上での正確度を改良することができる。正確度における改良のためのいくつかの可能性として考えられる解説が、存在する。例えば、これは、少なくとも部分的に、統合訓練スキームによってもたらされる、分散低減、典型的には、深層ニューラルネットワークより少ない分散を有し、過剰適合を受けにくい、ランダムフォレスト等の直交モデルを展開することによってもたらされる、分散低減、異なるデータセット/予測タスク間の共通深層特徴抽出器マスタモデル内で加重を共有することが、次いで他のタスクのそれぞれから個々に利益を享受し得るものより豊富な特徴抽出が学習されることを意味することに起因し得る。
本発明のいくつかの実施形態による、深層特徴抽出器は、データセットから特徴を識別するために使用されることができる。ある実施形態では、深層特徴抽出器は、(限定ではないが)畳み込みニューラルネットワーク、サポートベクトルマシン、ランダムフォレスト、アンサンブルネットワーク、再帰ニューラルネットワーク、およびグラフ畳み込みネットワークを含む、種々の異なるモデルを含むことができる。本発明のある実施形態による、グラフ畳み込みフレームワークは、分子をグラフとして取り扱い、結合部およびノードとしての原子間の縁としての空間および3D畳み込みニューラルネットワークに沿って情報を通過させる。グラフ畳み込みネットワークは、第US2019-0272468号として公開され、「Systems and Methods for Spatial Graph Convolutions with Applications to Drug Discovery and Molecular Simulation」と題され、2019年3月5日に出願された、米国特許出願第16/293,586号(その内容は、その全体として参照することによって本明細書に組み込まれる)により詳細に説明される。本発明の多くの実施形態による、深層特徴は、所与の化学物質を種々の性質にマッピングするための機能を学習するための種々の異なる方法において利用されることができる。
ロジスティック回帰の傑出と深層ニューラルネットワークの進歩との間の移行期には、多数の他の方法(例えば、ランダムフォレスト、ブースティング、およびサポートベクトルマシン)が、固定された入力特徴の所与の出力へのその概してより効率的マッピングに起因して、登場した。そのような方法は、ロジスティック回帰の性能より多くの点で優る。ランダムフォレストの成功は、例えば、部分的に、それぞれ、入力特徴および訓練データのランダムサブセット上で訓練される、決定木間の無相関の自己正則化および分散低減性質に起因して生じると考えられる。残念ながら、ランダムフォレスト、ブースティング、および類似方法は、微分可能深層ニューラルネットワーク内でエンドツーエンドで訓練されることができない。深層ニューラルネットワークは、一連の行列乗算および点毎非線形性から成る、持続的かつ微分可能な機能であるが、ランダムフォレストおよびブースティングは、DNNと同一方法において、確率的勾配降下法を用いて訓練されることができない。
深層学習は、豊富な利用可能な訓練データが存在する領域において最も成功を収めている一方、ランダムフォレストのようなより低次の分散方法は、正しい特徴を提供されると、多くの場合、低データ体系では、ニューラルネットワークより優れている。本発明の種々の実施形態による、方法は、1つまたはいくつかのいずれかの小データセットが利用可能である設定のために、MLモデルの性能を最適化する、両方のアプローチの側面を活用する。
視覚および自然言語の領域と異なり、化学学習の分野は、利用可能な高品質の標識された訓練データの相対的不足に直面する。ImageNetは、O(10,000,000)枚の標識された画像を含有するが、その受容体媒介毒性に関して標識された分子のTox21データセットは、わずかO(10,000)種の標識された分子を含有する。
マルチタスク学習は、深層ニューラルネットワークを多くのより小さいデータセット上でともに学習し、多くのシングルタスクネットワークを別個に訓練することよりも性能を改良するための1つの方法として導入されている。マルチタスクネットワークは、各入力サンプル(分子)を多くの(K)個の出力性質にマッピングする。マルチタスク学習は、同時に、全てのK個のタスクに関する予測を出力する、出力層からの勾配情報を入力層に伝搬する。
転移学習は、マルチタスク学習の非同期相対物である。転移学習は、ニューラルネットワークを、それに関するより多くの訓練データが利用可能である、別個のタスク上で「事前に訓練」し、次いで、加重を初期設定としてのデータが乏しい着目タスクのための新しいニューラルネットワークに転移することを伴う。
深層特徴抽出に基づくアンサンブル方法
本設定では、所与のタスクおよびそのタスクと関連付けられる標識されたデータセットに関して、本発明のある実施形態による、プロセスのためのステップは、特徴Xおよびラベルyを取得するステップと、ニューラルネットワークNNを定義するステップとを含む。種々の実施形態では、プロセスは、XをyにマッピングするためのNNのエンドツーエンド訓練のT個のエポックに関して、周期的に(例えば、T/Eエポック毎に)、エポックt(NN(t))におけるNNのパラメータをフリーズさせ、ネットワークを通して、Xを順方向伝搬させ、NN(t)から層h(t)の出力(すなわち、h(t)(X))を取得し、非エンドツーエンド微分可能学習器(例えば、ランダムフォレスト)を訓練し、層h(t)の出力をyにRF(t)マッピングするであろう。プロセスは、次いで、単一エポックt、または、例えば、検証スコアが最良である、エポック{e}のセットにおける、NN(t)(X)およびRF(X)を返すことができる。
本実施例では、プロセスは、直交学習器を訓練し、算出された特徴をラベルyにマッピングするために、周期的に(すなわち、T/Eエポック毎に)、マスタモデルのパラメータをフリーズさせ、ネットワークを通して、入力のセットを伝搬させ、層h(t)における入力に関する特徴を算出する。多数の実施形態では、直交モデルおよび/または深層特徴抽出器は、各T/Eエポックにおいて検証され、最適エポックにおける直交モデルおよび/または深層特徴抽出器が、直交モデルのための特徴を生成する深層特徴抽出器を用いて、合成モデルを構築するように選択される。
本発明の実施形態による、能動的転移学習のための具体的プロセスが、上記に説明される。しかしながら、当業者は、任意の数のプロセスが、本発明の実施形態による、具体的用途の要件の必要に応じて利用されることができることを認識するであろう。
(訓練および有効データの両方を用いたニューラルネットワーク訓練)
ランダムフォレストを含む、いくつかのアンサンブル方法は、木のそれぞれからホールドアウトされたデータ上でのモデル内のサブ決定木の一般化性能を監視することを可能にする、「アウトオブバッグ」スコアまたは均等物を有する。これは、過剰適合を回避するために、訓練または試験セットからの素集合である、ホールドアウトされた検証セットを必要とせず、最終モデルが全ての利用可能な訓練データ上で訓練されるという利点を与える。同一データセット上で検証しながら訓練するための類似プロシージャは、深層ニューラルネットワークの領域には存在しない。典型的には、DNN訓練の状況では、素分解訓練、検証、および試験データサブセットが、定義され、勾配情報が、訓練セットから導出され、ニューラルネットワークの加重を最適化し、検証セット上での実施が、早期停止およびモデル選択のために使用される。
種々の実施形態では、「アウトオブバッグ」誤差もまた、訓練および検証セットの連結上で検証しながら訓練することを可能にする、ニューラルネットワークのための早期停止基準として使用されることができる。本発明の種々の実施形態による、例示的プロセスは、特徴Xおよびラベルyを取得し、ニューラルネットワークNNを定義することができる。いくつかの実施形態では、プロセスは、XをyにマッピングするためのNNのエンドツーエンド訓練のT個のエポックに関して、周期的に(例えば、T/Eエポック毎に)、エポックt(NN(t))におけるNNのパラメータをフリーズさせ、ネットワークを通して、Xを順方向伝搬させ、便宜上、NN(t)から層h(t)の出力を取得し、アンサンブル学習器(例えば、ランダムフォレスト)を訓練し、h(t)をyにRF(t)マッピングし、エポックtにおけるアウトオブバッグスコアを記録することができる。プロセスは、次いで、アウトオブバッグスコアが最良である、エポックtにおけるNN(t)およびRF(t)を返すことができる。
いくつかの実施形態では、訓練および検証セットとして典型的に描かれるものは両方とも、ニューラルネットワークの訓練および検証の両方のために使用されることができる。例えば、特徴Xおよびラベルyに関して、本発明のいくつかの実施形態による、プロセスは、T個のエポックに関して、ともに連結された[Xtrain, Xvalid]および[ytrain, yvalid]のエンドツーエンド訓練を実施することができる。いくつかの実施形態では、プロセスは、周期的に、NNのパラメータをフリーズさせ、アンサンブル学習器(例えば、ランダムフォレスト)を訓練データ上でのみ訓練し、X(train)をy(train)にマッピングすることができる。本発明のある実施形態による、プロセスは、X(valid)に関する予測を行い、
を取得し、
とy(valid)を比較することによって、検証スコアを算出することができる。
(深層特徴抽出を用いた能動的転移学習)
転移学習は、DNNを(典型的には)大データセットを伴うタスク上で訓練し、結果として生じるパラメータを初期設定として新しいタスクおよび関連付けられる着目データセット上で訓練されることになる新しいDNNに転移することを伴う。対照的に、マルチタスク学習は、全ての所望のタスクに関する予測を出力する、単一「マスタ」ネットワーク上での同時学習を伴う。転移学習は、殆どまたは全く重複が異なるデータセット/タスク内の訓練サンプル間に存在しないシナリオにおいても効果的であり得る。対照的に、マルチタスク学習は、実質的(理想的には、完全)重複が異なるデータセット/タスク内の訓練サンプル間に存在するシナリオに最良に適用される。データセット間に重複が殆ど存在しないとき、またはタスク間に相関が殆ど存在しないときのいずれかでは、マルチタスク学習は、実際には、DNNの性能を改良するのではなく、低減させ得る。一般に、大N×K行列(Nは、訓練サンプルの総数であり、Kは、タスクの数である)としての訓練ラベルyを想定する場合、行列が疎らであるほど、または列の相関が少ないほど、減少された、またはある場合には、逆効果のマルチタスク効果につながる。
創薬および他の化学状況では、多くの場合、異なる性質データセット間に広範囲の重複割合を伴う、分子を異なる性質(例えば、LogD、毒性、可溶性、膜浸透性、ある標的に対する効能)にマッピングする、多くの異なるデータセットへのアクセスを有する。深層特徴抽出を用いた能動的転移学習は、そのような問題に対処することが示されている。能動的転移学習のためのプロシージャの実施例は、下記に提供される。
本実施例では、本発明のいくつかの実施形態による、プロセスは、マスタ特徴抽出器ニューラルネットワークNN(f)を定義することができる。プロセスは、次いで、全てのK個のタスク/データセット(または単一タスク/データセット)のタスクk毎に、サブニューラルネットワークNN(k)を定義し、特徴X(k)およびラベルy(k)を取得することができる。次いで、T個のエポックに関して、全てのK個のタスク/データセットのタスクk毎に、本発明のいくつかの実施形態による、プロセスは、NN(f)とNN(k)をリンクさせ、NN[f, k]を形成し、(X(k), y(k))を伴う1つのエポックに関して、NN[f, k]を訓練することができる。周期的に(例えば、エポックtが、T/Eの倍数であるとき)、プロセスは、エポックtにおいて、NN(f)のパラメータNNftをフリーズさせ、ネットワークNNftを通して、Xを順方向伝搬させ、NN(ft)から層h(k, t)の出力を取得し、アンサンブル学習器(例えば、ランダムフォレスト)を訓練し、h(k, t)(X)をy(k)(X)にRF(k, t)マッピングすることができる。プロセスは、次いで、検証スコアが最適である、エポックtにおけるタスクk毎に、セット{NN(k, t)}およびセット{RF(k, t)}を返すことができる。
本方法の例証は、図1に提供される。図1は、データセット1-Kを示し、これは、いくつかのエポックを横断して単一特徴抽出器DNN(例えば、PotentialNetまたは別のグラフ畳み込みニューラルネットワーク)を訓練するために使用される。訓練の全てのエポックは、それぞれ、勾配情報を深層特徴抽出器を通して入力に戻るように通過させる、その独自の全結合層を有する、個々のデータセット毎に、エポックを訓練することを伴う。層は、次いで、フリーズされ、データは、順方向伝搬され、深層特徴抽出されたデータセット1-Kを生成する。別個のモデル(例えば、ランダムフォレスト、SVM、線形回帰、XGBoost等)が、次いで、深層特徴抽出されたデータセット毎に訓練される。集約検証スコア(例えば、平均OOBスコア)が最良である、エポックが、最終モデルのために選択される。多数の実施形態では、T個のエポックのそれぞれにおけるK個のデータセット毎に、プロセスは、勾配情報をマスタDNN特徴抽出器と共有する、多層パーセプトロン(MLP)DNNの訓練のエポックを実施することができる。
本発明のある実施形態による、能動的転移学習プロセスが、図2に示される。プロセス200が、いくつかのエポックに関して、マスタモデルを二次モデルを用いて訓練する(205)。二次モデルはそれぞれ、ラベルの異なるセットに関してマスタモデルを訓練することができる。種々の実施形態では、エポックの数は、設定数のエポックまたは乱数のエポックであることができる。いくつかの実施形態では、いくつかのデータセットが、各エポックにおいて訓練され、各データセットは、モデルをラベルまたは性質の異なるサブセット上で訓練する。プロセス200は、マスタモデルの加重をフリーズさせる(210)。入力データは、次いで、マスタモデルを通して処理され、入力データから特徴を識別する(215)。本発明のいくつかの実施形態による、識別された特徴は、特徴ベクトルおよび他の特徴記述子を含む。プロセス200は、次いで、直交モデルを識別された特徴上で訓練する(220)。本発明の種々の実施形態による、直交モデルは、(限定ではないが)ランダムフォレスト等の非微分可能アンサンブルモデルを含むことができる。ある実施形態では、特徴抽出器および1つ以上の直交モデルのセットの組み合わせが、入力を予測または分類するためにともに使用される。
本発明のある実施形態による、能動的転移学習プロセスが、図3に示される。プロセス300が、1つ以上のデータセットを横断して1つ以上のラベルに関してマスタモデルを訓練する(305)。プロセス300は、次いで、モデルを評価するかどうかを決定する(310)。種々の実施形態では、プロセスは、設定数のエポック後、モデルを評価することを決定することができる。本発明のある実施形態による、プロセスは、ランダム方式においてモデルを評価することを決定することができる。プロセス300が、モデルを評価することを決定すると、プロセスは、ラベルに関して1つ以上の直交モデルを訓練する(315)。いくつかの実施形態では、別個の直交モデルが、ラベルおよび/またはデータセット毎に、分類するように訓練される。このように、本発明の種々の実施形態による、プロセスは、特徴抽出器として作用する深層ニューラルネットワークと、各入力サンプルの特徴を着目出力性質にマッピングする、最終予測を行う、別の学習器とから成る、ハイブリッドモデルを訓練する。プロセス300は、マスタモデルおよび/または直交モデルに関する1つ以上の検証スコアを計算する(320)。本発明の種々の実施形態による、検証スコアは、(限定ではないが)「アウトオブバッグ」誤差およびデータセットから選別された検証セットに基づくモデルに関する検証スコアを含むことができる。プロセス300は、次いで、実施すべきさらなるエポックが存在するかどうかを決定する(325)。該当する場合、プロセス300は、ステップ305に戻る。プロセスが、実施されるべきさらなるエポックが存在しないと決定すると(325)、プロセスは、最適エポックを識別する(335)。種々の実施形態では、最適エポックは、(限定ではないが)平均、最大値等の集約検証スコアに基づいて識別される。種々の実施形態では、最適エポックは、次いで、合成モデルを生産するために使用されることができる。本発明のある実施形態による、プロセスは、マスタモデルの加重された層および最適エポックにおける訓練された直交モデルの組み合わせを使用して、合成モデルを構築することができる。
本発明の実施形態による、能動的転移学習のための具体的プロセスが、上記に説明される。しかしながら、当業者は、任意の数のプロセスが、本発明の実施形態による具体的用途の要件の必要に応じて利用されることができることを認識するであろう。
本発明のいくつかの実施形態による、機械学習モデルを訓練するシステムが、図4に示される。ネットワーク400は、通信ネットワーク460を含む。通信ネットワーク460は、ネットワーク460に接続されるデバイスが、他の接続されるデバイスと通信することを可能にする、インターネット等のネットワークである。サーバシステム410、440、および470は、ネットワーク460に接続される。サーバシステム410、440、および470はそれぞれ、ネットワーク460を経由して、クラウドサービスをユーザに提供する、プロセスを実行する、内部ネットワークを介して相互に通信可能に接続される、1つ以上のサーバのグループである。本議論の目的のために、クラウドサービスは、1つ以上のサーバシステムによって実行され、ネットワークを経由して、データおよび/または実行可能アプリケーションをデバイスに提供する、1つ以上のアプリケーションである。サーバシステム410、440、および470はそれぞれ、内部ネットワーク内に3つのサーバを有するように示される。しかしながら、サーバシステム410、440、および470は、任意の数のサーバを含んでもよく、任意の付加的数のサーバシステムが、ネットワーク460に接続され、クラウドサービスを提供してもよい。本発明の種々の実施形態によると、本発明のある実施形態による、マスタおよび直交モデルを訓練する、システムおよび方法を使用する、深層学習ネットワークは、単一サーバシステムおよび/またはネットワーク460を経由して通信するサーバシステムのグループ上で実行されているプロセスによって提供されてもよい。
ユーザは、ネットワーク460に接続し、本発明の種々の実施形態による、深層学習ネットワークを提供し、および/またはそれと相互作用するためのプロセスを実施する、パーソナルデバイス480および420を使用してもよい。示される実施形態では、パーソナルデバイス480は、ネットワーク460への従来の「有線」接続を介して接続される、デスクトップコンピュータとして示される。しかしながら、パーソナルデバイス480は、デスクトップコンピュータ、ラップトップコンピュータ、スマートテレビ、エンターテインメントゲーム用コンソール、または「有線」接続を介してネットワーク460に接続する、任意の他のデバイスであってもよい。モバイルデバイス420は、無線接続を使用して、ネットワーク160に接続する。無線接続は、無線周波数(RF)信号、赤外線信号、または任意の他の形態の無線シグナリングを使用して、ネットワーク460に接続する、接続である。図4では、モバイルデバイス420は、移動電話機である。しかしながら、モバイルデバイス420は、本発明から逸脱することなく、携帯電話、携帯情報端末(PDA)、タブレット、スマートフォン、または無線接続を介してネットワーク460に接続する、任意の他のタイプのデバイスであってもよい。
(モデル訓練要素)
本発明の種々の実施形態による、ネットワークに接続される他のデバイスを用いてマスタおよび/または直交モデルを訓練する、プロセスを実施するため、および/または訓練タスクを提供するための命令を実行する、モデル訓練要素の実施例が、図5に示される。本発明の多くの実施形態による、訓練要素は、(限定ではないが)モバイルデバイス、コンピュータ、サーバ、およびクラウドサービスのうちの1つ以上のものを含むことができる。訓練要素500は、プロセッサ510と、通信インターフェース520と、メモリ530とを含む。
当業者は、特定の訓練要素が、本発明から逸脱することなく、簡潔にするために省略される、他のコンポーネントを含んでもよいことを認識するであろう。プロセッサ510は、(限定ではないが)メモリ530内に記憶される命令を実施し、メモリ内に記憶されるデータを操作する、プロセッサ、マイクロプロセッサ、コントローラ、またはプロセッサ、マイクロプロセッサ、および/またはコントローラの組み合わせを含むことができる。プロセッサ命令は、本発明のある実施形態による、プロセスを実施するように、プロセッサ510を構成することができる。通信インターフェース520は、訓練要素500が、プロセッサ510によって実施される命令に基づいて、ネットワークを経由して、データを伝送および受信することを可能にする。
メモリ530は、訓練アプリケーション532と、訓練データ534と、モデルデータ536とを含む。本発明のいくつかの実施形態による、訓練アプリケーションは、マスタモデル、二次モデル、および/または直交モデルの訓練を通して、特徴抽出器を訓練するために使用される。本発明のいくつかの実施形態による、特徴抽出器は、入力の特徴を使用して、入力のいくつかの異なる特性を予測し得る、マスタモデルおよび1つ以上の直交モデルから成る、合成モデルである。いくつかの実施形態では、訓練アプリケーションは、特徴抽出器モデルを訓練し、入力クラス(例えば、化学化合物)の一般化可能かつ関連する特徴を識別することができる。本発明のある実施形態による、訓練アプリケーションは、訓練データを使用して、1つ以上のマスタモデル、二次モデル、および/または直交モデルを訓練し、入力のセットを特徴抽出するための最適化された特徴抽出器を決定することができる。
訓練要素500の具体的実施例が、図5に図示されるが、種々の訓練要素のいずれも、本発明の実施形態による具体的用途の要件の必要に応じて、本明細書に説明されるものに類似するプロセスを実施するために利用されることができる。
(訓練アプリケーション)
本発明のある実施形態による、深層特徴抽出器を訓練するための訓練アプリケーションが、図6に図示される。訓練アプリケーション600は、マスタ訓練エンジン605と、二次訓練エンジン610と、直交訓練エンジン615と、検証エンジン620と、合成エンジン625とを含む。本発明の多くの実施形態による、訓練アプリケーションは、深層特徴抽出器を訓練データの限定されたセット上で訓練し、いくつかの異なるラベルを横断して新しい入力を予測または分類することができる。
種々の実施形態では、マスタ訓練エンジンは、マスタモデルを訓練し、複数のクラスまたはタスクを横断して入力データから一般化可能特徴を識別するために使用されることができる。多くの実施形態では、マスタモデルおよび1つ以上の直交モデルのセットは、広く一般化可能特徴を使用して、新しい入力を分類することが可能である、合成モデルを構成する。
本発明の種々の実施形態による、二次訓練エンジンは、マスタモデルをデータのセット上で訓練するための二次モデルを訓練するために使用されることができる。いくつかの実施形態では、二次訓練エンジンは、分類器(限定ではないが、全結合層等)を使用して、マスタモデルを通して逆伝搬され得る、損失を算出する。いくつかの実施形態では、別個の二次モデルが、複数の異なるデータセット毎に訓練され、マスタモデルが複数の異なるラベルセットを横断して訓練されることを可能にする。例えば、いくつかの実施形態では、各データセットは、1つ以上の性質(限定ではないが、LogD、毒性、可溶性、膜浸透性、ある標的に対する効能等)のセットと関連付けられ、異なる二次モデルが、性質のセット毎に訓練される。
本発明の多くの実施形態による、直交訓練エンジンは、マスタモデルを訓練するための直交モデルを訓練するために使用されることができる。多くの実施形態では、直交モデルは、(限定ではないが)ランダムフォレストおよびサポートベクトルマシンを含むことができる。本発明のいくつかの実施形態による、直交モデルは、訓練の間、マスタモデルの層上で訓練され、マスタモデルの加重を調節するための直交損失を提供することができる。
本発明の多数の実施形態による、検証エンジンは、直交モデルおよび/またはマスタモデルの結果を検証し、マスタおよび/または直交モデルのための最適化された停止点を決定するために使用される。種々の実施形態では、検証エンジンは、アウトオブバッグ誤差を算出し、モデルの一般化性能を監視し、合成モデルのための最適加重の選択を可能にすることができる。
種々の実施形態では、合成エンジンは、上記に説明される訓練プロセスおよびシステムに基づいて、深層特徴抽出器として合成モデルを生成することができる。本発明のある実施形態による、合成モデルは、マスタモデルと、1つ以上の直交モデルのセットとを含むことができる。マスタモデルおよび直交モデルのセットは、それに関して検証スコア(限定ではないが、アウトオブバッグスコア等)が最良である、加重のセットに基づいて、加重されることができる。
訓練アプリケーションの具体的実施例が、図6に図示されるが、種々の訓練アプリケーションのいずれも、本発明の実施形態による具体的用途の要件の必要に応じて、本明細書に説明されるものに類似するプロセスを実施するために利用されることができる。
(結果)
本説明に説明される方法は、公的に入手可能なデータセットおよび専有の大量の医薬データセットの両方を用いて検証されている。本節では、3つの公的に入手可能な化学データセット(ESOL(可溶性)、SAMPL(可溶性)、および親油性)上でのモデル性能に関する結果が、提供される。ランダム分割が、化学機械学習モデルの実世界性能を過大評価すると広く考えられているため、スキャフォールド分割の形態(円形フィンガープリント空間上に投影された化学サンプルのK-平均クラスタリング)が、本実施例のために使用される。下記の表は、データセット毎に、本発明のいくつかの実施形態による、能動的転移学習を用いた統合訓練が、グラフ畳み込みPotentialNetのみを用いた訓練より優れていることを示す。
本発明は、ある具体的側面において説明されているが、多くの付加的修正および変形例が、当業者に明白となるであろう。したがって、本発明は、具体的に説明されるもの以外で実践されてもよいことを理解されたい。したがって、本発明の実施形態は、あらゆる点において、例証的であって、制限的ではないと見なされるべきである。

Claims (24)

  1. 創薬のためのコンピュータ実装方法であって、
    分子の1つ以上のデータセットを収集することであって、分子の各データセットは、複数の分子を特徴付け、各分子について、前記分子の1つ以上の分子性質を特徴付ける、ことと、
    前記分子の1つ以上のデータセットを使用して複数の分子予測タスクを実施するように深層特徴抽出器ニューラルネットワークを訓練することと、
    前記深層特徴抽出器ニューラルネットワークを使用して分子予測タスクを実施するように機械学習モデルを訓練することであって、前記機械学習モデルを訓練することは、前記分子の1つ以上のデータセットからの複数の分子の各々について、
    前記深層特徴抽出器ニューラルネットワークの中間出力を生成するために、前記深層特徴抽出器ニューラルネットワーク使用して、前記分子を特徴付けるデータを処理することと、
    前記分子の予測された性質を特徴付ける出力を生成するために、前記分子のために前記深層特徴抽出器ニューラルネットワークによって生成された前記中間出力を処理するように前記機械学習モデルを訓練することと
    を含む、ことと、
    前記訓練された機械学習モデルを使用して、薬物候補を識別することと
    を含む、方法。
  2. 前記深層特徴抽出器ニューラルネットワークの加重をフリーズさせることをさらに含む、請求項1に記載の方法。
  3. 前記深層特徴抽出器ニューラルネットワークを訓練することは、1つ以上のエポックに関して前記深層特徴抽出器ニューラルネットワークを訓練することを含む、請求項1に記載の方法。
  4. 各エポックは、前記深層特徴抽出器ニューラルネットワークを1つ以上のデータセット上で訓練することを含む、請求項3に記載の方法。
  5. 分子の各データセットは、前記分子のデータセット内に含まれる分子の異なる分子性質を特徴付ける、請求項1に記載の方法。
  6. 前記機械学習モデルを検証することをさらに含む、請求項1に記載の方法。
  7. 前記機械学習モデルを検証することは、前記機械学習モデルに関するアウトオブバッグスコアを算出することを含む、請求項6に記載の方法。
  8. 前記機械学習モデルを検証することは、
    (a)前記深層特徴抽出器ニューラルネットワークを訓練データセット上で訓練することと、
    (b)前記機械学習モデルを前記訓練データセット上で訓練することと、
    (c)検証データセットに基づいて、前記機械学習モデルに関する検証スコアを算出することと
    を含む、請求項6に記載の方法。
  9. 前記深層特徴抽出器ニューラルネットワークは、マスタモデルおよび複数の二次モデルを備え、
    前記分子の1つ以上のデータセットからの前記複数の分子の各々について、前記深層特徴抽出器ニューラルネットワークの前記中間出力を生成するために、前記深層特徴抽出器ニューラルネットワークを使用して、前記分子を特徴付ける前記データを処理することは、
    前記深層特徴抽出器ニューラルネットワークに含まれる前記マスタモデルの1つ以上の層の出力として前記深層特徴抽出器ニューラルネットワークの前記中間出力を生成すること
    を含む、請求項1に記載の方法。
  10. 前記機械学習モデルは、ランダムフォレストモデル、サポートベクトルマシンモデル、XGBoostモデル、線形回帰モデル、最近傍法モデル、単純ベイズモデル、決定木モデル、ニューラルネットワークモデル、またはk-平均クラスタリングモデルのうちの少なくとも1つを備える、請求項1に記載の方法。
  11. 前記訓練された機械学習モデルを使用して、前記薬物候補を識別することは、前記深層特徴抽出器ニューラルネットワークのマスタモデルおよび前記機械学習モデルを合成モデルとして合成し、新しい入力のセットを分類することを含む、請求項1に記載の方法。
  12. 前記分子の1つ以上のデータセットを前処理することをさらに含む、請求項1に記載の方法。
  13. 前記1つ以上のデータセットを前処理することはさらに、フォーマッティング、クリーニング、サンプリング、スケーリング、分解、データフォーマットの変換、または集約のうちの少なくとも1つを含む、請求項12に記載の方法。
  14. 前記訓練された機械学習モデルを使用して、前記薬物候補を識別することは、前記訓練された機械学習モデルを使用して前記薬物候補の性質を予測することを含む、請求項1に記載の方法。
  15. 前記薬物候補の前記性質は、吸収率、分布率、代謝率、消失率、毒性、可溶性、代謝安定性、インビボエンドポイント、エクスビボエンドポイント、分子量、効能、親油性、水素結合、浸透性、選択性、pKa、クリアランス、半減期、分布容積、血漿濃度、および安定性から成る群から選択される少なくとも1つを備える、請求項14に記載の方法。
  16. 前記分子の1つ以上のデータセットは、リガンド分子および/または標的分子を含む、請求項1に記載の方法。
  17. 前記標的分子は、タンパク質である、請求項16に記載の方法。
  18. 前記機械学習モデルは、非微分可能モデルである、請求項1に記載の方法。
  19. 前記機械学習モデルは、ニューラルネットワークではない、請求項1に記載の方法。
  20. 前記機械学習モデルは、ランダムフォレストモデルを含む、請求項1に記載の方法。
  21. 前記機械学習モデルは、アンサンブルモデルを含む、請求項1に記載の方法。
  22. 前記機械学習モデルは、前記深層特徴抽出器ニューラルネットワークと勾配情報を共有しない、請求項1に記載の方法。
  23. 1つ以上のコンピュータと、
    前記1つ以上のコンピュータに通信可能に結合された1つ以上の記憶デバイスと
    を備え、前記1つ以上の記憶デバイスは、命令を記憶し、前記命令は、前記1つ以上のコンピュータによって実行されると、請求項1~22のいずれか一項に記載のそれぞれの方法の動作を前記1つ以上のコンピュータに実施させる、システム。
  24. 命令を記憶する1つ以上の非一過性コンピュータ記憶媒体であって、前記命令は、1つ以上のコンピュータによって実行されると、請求項1~22のいずれか一項に記載のそれぞれの方法の動作を前記1つ以上のコンピュータに実施させる、1つ以上の非一過性コンピュータ記憶媒体。
JP2021521821A 2018-10-23 2019-10-22 深層特徴抽出を用いた能動的転移学習のためのシステムおよび方法 Active JP7430406B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862749653P 2018-10-23 2018-10-23
US62/749,653 2018-10-23
PCT/US2019/057468 WO2020086604A1 (en) 2018-10-23 2019-10-22 Systems and methods for active transfer learning with deep featurization

Publications (2)

Publication Number Publication Date
JP2022505540A JP2022505540A (ja) 2022-01-14
JP7430406B2 true JP7430406B2 (ja) 2024-02-13

Family

ID=70332229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021521821A Active JP7430406B2 (ja) 2018-10-23 2019-10-22 深層特徴抽出を用いた能動的転移学習のためのシステムおよび方法

Country Status (6)

Country Link
US (1) US20210358564A1 (ja)
EP (1) EP3871154A4 (ja)
JP (1) JP7430406B2 (ja)
KR (1) KR20210076122A (ja)
CN (1) CN113168568A (ja)
WO (1) WO2020086604A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610831B (zh) * 2021-08-19 2022-03-11 江西应用技术职业学院 基于计算机图像技术和迁移学习的木材缺陷检测方法
US11893499B2 (en) 2019-03-12 2024-02-06 International Business Machines Corporation Deep forest model development and training
US20230222324A1 (en) 2020-06-08 2023-07-13 Nippon Telegraph And Telephone Corporation Learning method, learning apparatus and program
US11888895B2 (en) * 2020-09-02 2024-01-30 Proofpoint, Inc. Using neural networks to process forensics and generate threat intelligence information
CN113610184B (zh) * 2021-08-19 2022-03-11 江西应用技术职业学院 一种基于迁移学习的木材纹理分类方法
CN114141317A (zh) * 2021-12-07 2022-03-04 北京百度网讯科技有限公司 化合物性质预测模型训练方法、装置、设备以及存储介质
US20230409874A1 (en) * 2022-06-21 2023-12-21 Microsoft Technology Licensing, Llc Accelerated transfer learning as a service for neural networks

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009057337A (ja) 2007-08-31 2009-03-19 Dainippon Sumitomo Pharma Co Ltd メタボロームデータの解析方法および代謝関与マーカー
JP2016062544A (ja) 2014-09-22 2016-04-25 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、プログラム、及び情報処理方法
JP2016191966A (ja) 2015-03-30 2016-11-10 株式会社メガチップス クラスタリング装置及び機械学習装置
JP2017097807A (ja) 2015-11-27 2017-06-01 富士通株式会社 学習方法、学習プログラムおよび情報処理装置
WO2018079020A1 (ja) 2016-10-26 2018-05-03 ソニー株式会社 情報処理装置および情報処理方法
US20180204111A1 (en) 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489373B2 (en) * 2013-07-12 2016-11-08 Microsoft Technology Licensing, Llc Interactive segment extraction in computer-human interactive learning
US8818910B1 (en) * 2013-11-26 2014-08-26 Comrise, Inc. Systems and methods for prioritizing job candidates using a decision-tree forest algorithm
CA2951723C (en) * 2014-06-10 2021-04-27 Sightline Innovation Inc. System and method for network based application development and implementation
US10776712B2 (en) * 2015-12-02 2020-09-15 Preferred Networks, Inc. Generative machine learning systems for drug design

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009057337A (ja) 2007-08-31 2009-03-19 Dainippon Sumitomo Pharma Co Ltd メタボロームデータの解析方法および代謝関与マーカー
US20180204111A1 (en) 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
JP2016062544A (ja) 2014-09-22 2016-04-25 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、プログラム、及び情報処理方法
JP2016191966A (ja) 2015-03-30 2016-11-10 株式会社メガチップス クラスタリング装置及び機械学習装置
JP2017097807A (ja) 2015-11-27 2017-06-01 富士通株式会社 学習方法、学習プログラムおよび情報処理装置
WO2018079020A1 (ja) 2016-10-26 2018-05-03 ソニー株式会社 情報処理装置および情報処理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
中山 英樹,深層畳み込みニューラルネットによる画像特徴抽出と転移学習,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2015年07月09日,第115巻, 第146号,第55頁-第59頁,ISSN:0913-5685
小川 恭子, ほか3名,機械学習およびニューラルネットワークによる競馬予測,電気学会研究会資料 情報システム研究会 IS-18-001~015・017~020,日本,一般社団法人電気学会,2018年03月22日,第57頁-第60頁
桃田 侑典、猪口 明博,人工化合物を用いたディープラーニングによる変異原性の予測,第114回 知識ベースシステム研究会資料 (SIG-KBS-B801),日本,一般社団法人人工知能学会 ,2018年08月10日,第7頁-第13頁

Also Published As

Publication number Publication date
US20210358564A1 (en) 2021-11-18
EP3871154A4 (en) 2022-11-09
KR20210076122A (ko) 2021-06-23
WO2020086604A1 (en) 2020-04-30
JP2022505540A (ja) 2022-01-14
EP3871154A1 (en) 2021-09-01
CN113168568A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
JP7430406B2 (ja) 深層特徴抽出を用いた能動的転移学習のためのシステムおよび方法
CN107862173B (zh) 一种先导化合物虚拟筛选方法和装置
Wang et al. Next point-of-interest recommendation on resource-constrained mobile devices
JP6790286B2 (ja) 強化学習を用いたデバイス配置最適化
TWI754033B (zh) 關注點文案的生成
US11132604B2 (en) Nested machine learning architecture
Chen et al. Gene expression inference with deep learning
Yu et al. Hybrid adaptive classifier ensemble
Zhang et al. Deep Learning over Multi-field Categorical Data: –A Case Study on User Response Prediction
Kapp et al. A dynamic model selection strategy for support vector machine classifiers
CN116261731A (zh) 基于多跳注意力图神经网络的关系学习方法与系统
US20230325687A1 (en) System and method for de novo drug discovery
US11263534B1 (en) System and method for molecular reconstruction and probability distributions using a 3D variational-conditioned generative adversarial network
Arowolo et al. A survey of dimension reduction and classification methods for RNA-Seq data on malaria vector
Nguyen et al. Perceiver CPI: a nested cross-attention network for compound–protein interaction prediction
WO2023050143A1 (zh) 一种推荐模型训练方法及装置
Amiri et al. A subspace aggregating algorithm for accurate classification
WO2024012360A1 (zh) 一种数据处理方法及相关装置
Zhao et al. Pareto-based many-objective convolutional neural networks
Gu A dual-model semi-supervised self-organizing fuzzy inference system for data stream classification
Moser et al. Dartsrenet: Exploring new rnn cells in renet architectures
Nerurkar et al. Analysis of probabilistic models for influence ranking in social networks
Zerrouk et al. Evolutionary algorithm for optimized CNN architecture search applied to real-time boat detection in aerial images
Fushimi et al. Accelerating Greedy K-Medoids Clustering Algorithm with Distance by Pivot Generation
Liu et al. Learning graph representation by aggregating subgraphs via mutual information maximization

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210622

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230217

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240124

R150 Certificate of patent or registration of utility model

Ref document number: 7430406

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150