JP2021076890A - 化合物の性質を予測するための化合物性質予測装置、化合物性質予測プログラム及び化合物性質予測方法 - Google Patents

化合物の性質を予測するための化合物性質予測装置、化合物性質予測プログラム及び化合物性質予測方法 Download PDF

Info

Publication number
JP2021076890A
JP2021076890A JP2019200488A JP2019200488A JP2021076890A JP 2021076890 A JP2021076890 A JP 2021076890A JP 2019200488 A JP2019200488 A JP 2019200488A JP 2019200488 A JP2019200488 A JP 2019200488A JP 2021076890 A JP2021076890 A JP 2021076890A
Authority
JP
Japan
Prior art keywords
compound
property
compounds
properties
property prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019200488A
Other languages
English (en)
Other versions
JP7218274B2 (ja
Inventor
諒亮 亀澤
Ryosuke KAMESAWA
諒亮 亀澤
和樹 藤川
Kazuki Fujikawa
和樹 藤川
正弘 望月
Masahiro Mochizuki
正弘 望月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DeNA Co Ltd
Original Assignee
DeNA Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DeNA Co Ltd filed Critical DeNA Co Ltd
Priority to JP2019200488A priority Critical patent/JP7218274B2/ja
Publication of JP2021076890A publication Critical patent/JP2021076890A/ja
Application granted granted Critical
Publication of JP7218274B2 publication Critical patent/JP7218274B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】リード化合物に対する最適化プログラムにおいて対象となる化合物の性質を予測することを可能とする化合物性質予測装置を提供する。【解決手段】化合物の各々について実測された性質を関連付けた化合物データベースにアクセス可能であり、化合物データベースから選択された2つの化合物を選択化合物として、選択化合物の共通構造及び差分構造と、選択化合物の性質と、の組み合わせを少なくとも含む教師付訓練データとして用いて、予測対象である化合物に対する性質を予測するための機械学習をさせた性質学習手段と、予測対象である化合物と化合物データベースから選択された化合物の共通構造及び差分構造を性質学習手段へ入力することによって、性質学習手段の出力として予測対象である化合物の性質の予測結果を得る性質予測手段と、を備える化合物性質予測装置100とする。【選択図】図2

Description

本発明は、化合物の性質を予測するための化合物性質予測装置、化合物性質予測プログラム及び化合物性質予測方法に関する。
創薬研究では、新薬の候補として見出された新薬候補化合物(以下、リード化合物という)を基準として、リード化合物の構造を変更するように設計、合成及び評価を繰り返すことによって新薬としての化合物の構造を徐々に最適化していく作業(以下、最適化プログラムという)が行われる。このとき、リード化合物における医薬としての主活性(薬効)を維持しつつ、人体や動物における吸収(absorption)、分布(distribution)、代謝(metabolism)、排泄(excretion)及び毒性(toxicity)に関する化合物の性質を示すADMET属性を改善するように化合物を探索する。
創薬研究におけるリード化合物からの最適化プログラムでは、予測対象となる化合物は膨大な化合物の集合からランダムに選択されるのではなく、最適化プログラムの過程で提案されたADMET属性等の性質が既知の化合物に構造が似た化合物を選択することが好ましい場合が多い。そこで、最適化プログラムの期間短縮及びコスト低減を図るために、最適化プログラムにおいて未だ検討されていない化合物についてADMET属性を予測する技術が望まれている。
本発明の1つの態様は、化合物の性質を予測するための化合物性質予測装置であって、複数の化合物について、当該化合物の各々について実測された前記性質を当該化合物の各々に関連付けた化合物データベースを記憶した記憶手段にアクセス可能であり、前記化合物データベースから選択された2つの化合物を選択化合物として、前記選択化合物の共通構造及び差分構造と、前記選択化合物の前記性質と、の組み合わせを少なくとも含む教師付訓練データとして用いて、予測対象である化合物に対する前記性質を予測するための機械学習をさせた化合物性質予測モデルを構築する性質学習手段と、前記予測対象である化合物と前記化合物データベースから選択された化合物の共通構造及び差分構造を前記化合物性質予測モデルへ入力することによって、前記化合物性質予測モデルの出力として前記予測対象である化合物の前記性質の予測結果を得る性質予測手段と、を備えることを特徴とする化合物性質予測装置である。
ここで、前記性質学習手段は、グラフニューラルネットワーク(GNN)を用いて、前記共通構造を共通グラフ構造とし、前記差分構造を差分グラフ構造として前記教師付訓練データとして用いることが好適である。
また、最大共通部分構造解析(MCS)によって前記選択化合物の共通構造を求めることが好適である。
また、前記性質は、化合物に対するADMET属性の少なくとも1つであることが好適である。
また、前記化合物データベースは、創薬研究におけるリード化合物の最適化プログラムにおいて得られた化合物と当該化合物について実測された性質とを含むことが好適である。
また、前記化合物データベースに含まれるデータを前記最適化プログラム毎に時系列的に並べて分割し、前部分のデータを前記教師付訓練データとして用い、後部分のデータを検証データ又は評価データとして用いて前記機械学習を行うことが好適である。
また、前記化合物データベースは、前記リード化合物に対する複数の前記最適化プログラムにおいて得られた化合物と当該化合物について実測された性質とを含み、前記検証データを前記最適化プログラム毎に順番に選択して前記機械学習を繰り返して行うことが好適である。
本発明の別の態様は、化合物の性質を予測するための化合物性質予測プログラムであって、複数の化合物について、当該化合物の各々について実測された前記性質を当該化合物の各々に関連付けた化合物データベースを記憶した記憶手段にアクセス可能であるコンピュータを、前記化合物データベースから選択された2つの化合物を選択化合物として、前記選択化合物の共通構造及び差分構造と、前記選択化合物の前記性質と、の組み合わせを少なくとも含む教師付訓練データとして用いて、予測対象である化合物に対する前記性質を予測するための機械学習をさせた化合物性質予測モデルを構築する性質学習手段と、前記予測対象である化合物と前記化合物データベースから選択された化合物の共通構造及び差分構造を前記化合物性質予測モデルへ入力することによって、前記化合物性質予測モデルの出力として前記予測対象である化合物の前記性質の予測結果を得る性質予測手段として、機能させることを特徴とする化合物性質予測プログラムである。
本発明の別の態様は、化合物の性質を予測するための化合物性質予測方法であって、複数の化合物について、当該化合物の各々について実測された前記性質を当該化合物の各々に関連付けた化合物データベースを記憶した記憶手段にアクセス可能であるコンピュータを用いて、前記化合物データベースから選択された2つの化合物を選択化合物として、前記選択化合物の共通構造及び差分構造と、前記選択化合物の前記性質と、の組み合わせを少なくとも含む教師付訓練データとして用いて、予測対象である化合物に対する前記性質を予測するための機械学習をさせた化合物性質予測モデルを構築する性質学習工程と、前記予測対象である化合物と前記化合物データベースから選択された化合物の共通構造及び差分構造を前記化合物性質予測モデルへ入力することによって、前記化合物性質予測モデルの出力として前記予測対象である化合物の前記性質の予測結果を得る性質予測工程と、を備えることを特徴とする化合物性質予測方法である。
本発明の実施の形態は、リード化合物に対する最適化プログラムにおいて対象となる化合物の性質を予測することを可能とする化合物性質予測装置、化合物性質予測プログラム及び化合物性質予測方法を提供することを目的の1つとする。本発明の実施の形態の他の目的は、本明細書全体を参照することにより明らかになる。
本発明の実施の形態における化合物性質予測装置の構成を示す図である。 本発明の実施の形態における化合物性質予測処理を示すフローチャートである。 本発明の実施の形態における化合物の構造の例を示す図である。 本発明の実施の形態における化合物データベースの例を示す図である。 本発明の実施の形態における最適化プログラムを示す図である。 本発明の実施の形態におけるデータ分割処理を説明する図である。 本発明の実施の形態における化合物の共通構造及び差分構造を求める処理を説明するための図である。 本発明の実施の形態における機械学習を説明するための図である。 本発明の実施の形態における化合物の性質の予測処理を説明するための図である。
本発明の実施の形態における化合物性質予測装置100は、図1に示すように、処理部10、記憶部12、入力部14、出力部16及び通信部18を含んで構成される。
化合物性質予測装置100は、一般的なコンピュータにより構成することができる。処理部10は、CPU等を含んで構成され、化合物性質予測装置100における処理を統合的に行う。処理部10は、記憶部12に記憶されている化合物性質予測プログラムを実行することにより、本実施の形態における化合物性質予測処理を行う。記憶部12は、化合物性質予測処理において用いられる化合物性質予測モデル(化合物性質予測器)、創薬研究において得られた化合物とその性質を関連付けた化合物データベース等、化合物性質予測処理において必要な情報を記憶する。記憶部12は、例えば、半導体メモリ、ハードディスク等で構成することができる。記憶部12は、化合物性質予測装置100の内部に設けてもよいし、無線や有線等の情報網を利用して処理部10からアクセスできるように外部に設けてもよい。入力部14は、化合物性質予測装置100に対して情報を入力するための手段を含む。出力部16は、化合物性質予測装置100において処理された情報を表示させる手段を含む。通信部18は、外部の装置(サーバ等)との情報交換を行うためのインターフェースを含んで構成される。通信部18は、例えば、インターネット等の情報通信網に接続されることによって、外部の装置との通信を可能にする。
[化合物性質予測処理]
以下、図2のフローチャートを参照して、本実施の形態における化合物性質予測処理について説明する。化合物性質予測装置100は、化合物性質予測プログラムを実行することによって、化合物とその性質を含む既知の学習用データを用いて化合物の性質を予測するための機械学習を行って化合物性質予測モデルを生成し、当該化合物性質予測モデルを用いて予測対象である化合物の性質を予測する処理を行う。
本実施の形態では、創薬研究において新薬の候補として見出されたリード化合物の構造を変更するように設計、合成及び評価を繰り返す最適化プログラムにおいて評価済みの化合物及びADMET属性を関連付けて化合物データベースとして記憶部12に記憶させる。機械学習では、化合物データベースに含まれている化合物とADMET属性を教師付訓練データとして用いる。
ただし、学習に用いる化合物や予測対象とする化合物は創薬に関する化合物に限定されるものではない。また、化合物の性質は、ADMET属性に限定されるものではなく、化合物に関する情報であればよい。また、ADMET属性のすべての項目を使用してよいし、一部の項目のみを使用してもよい。
図3は、化合物の例を示す。図3(a)は、最適化プログラムの出発点となるリード化合物の構造式を示す。図3(b)〜図3(c)は、リード化合物の一部の構造を他の構造に変更した類似化合物A及び類似化合物Bの構造式を示す。なお、リード化合物の構造や類似化合物の構造は、例示であり、これらに限定されるものではない。類似化合物は、例えば、リード化合物から一部の構造を取り除いた構造としてもよいし、リード化合物の一部の構造を他の構造に置換した構造としてもよいし、リード化合物の構造に他の構造を付加した構造としてもよい。
図4は、化合物データベースの例を示す。化合物データベースは、創薬研究において行われた一連の最適化プログラム毎に特有に割り当てられた最適化プログラムID(PID)、最適化プログラム名、化合物毎に特有に割り当てられた化合物ID、化合物名、化合物の構造、最適化プログラムにおいて評価された化合物の性質、評価日時を関連付けて記憶させたデータベースである。化合物の構造としては、図3で例示したように、化合物を構成する原子及びそれらの結合状態が記憶される。化合物の構造は、例えば、SMILES記法によって化合物データベースに登録すればよい。
なお、図4では、最適化プログラムaにおいて評価された3つの化合物のみについて化合物ID、化合物名、化合物の構造及びその性質を関連付けた例を示したが、一般的には最適化プログラム毎にリード化合物から派生させた多数の化合物の性質が評価されて化合物データベースとして記憶される。また、本実施の形態では、化合物の性質としてADMET属性のCYP3A4阻害率及びJP1に対する溶解度の値のみを例示したが、これらに限定されるものではなく、ADMET属性の他の項目の値や化合物の他の性質を用いてもよい。
また、図5に示すように、創薬研究では、1つのリード化合物から複数の最適化プログラムが実行される。したがって、複数の最適化プログラムが実行された場合、それぞれの最適化プログラムに関連付けて化合物ID、化合物名、化合物の構造・性質及び評価日時などの時系列的な順序関係を示す数値が化合物データベースとして記憶される。
ステップS10では、化合物データベースの分割処理が行われる。当該ステップの処理によって、化合物性質予測装置100は、データ分割手段として機能する。化合物性質予測装置100の機械学習では、化合物データベースに記憶されているデータを教師付訓練データ、検証データ及び評価データに分割して使用する。
処理部10は、記憶部12から化合物データベースを読み出して以下の処理を行う。本実施の形態では、図6に示すように、化合物データベースに記憶されているデータを最適化プログラム毎に評価日時に沿って時系列的にソートした状態で訓練データ、検証データ及び評価データに分割する。
ここで、訓練データとは、機械学習によって化合物性質予測装置100の化合物性質予測モデルを構築するためのデータである。また、検証データとは、機械学習におけるハイパーパラメータを決定してモデルを選択するために使用するデータである。評価データとは、機械学習によって構築された化合物性質予測モデルが適切であるかを評価するために使用するデータである。
処理部10は、最適化プログラム毎に化合物データベースに記憶されているデータを時系列的に並べたうえで2つに分割する。そして、複数の最適化プログラム(プログラムa〜d)のうち予測対象とする最適化プログラム(プログラムa)において時系列的に分割された前・後のグループのうち後のグループに該当するデータを評価データとする。また、評価データを抽出した最適化プログラム(プログラムa)以外の最適化プログラム(プログラムb〜d)において時系列的に分割された前・後のグループのうち後のグループに該当するデータを検証データとする。
また、機械学習をより適切に行うために、クロスバリデーションを適用して、検証データを変更して繰り返し機械学習をさせるようにしてもよい。例えば、図6の学習過程1〜3に示すように、評価データを抽出した最適化プログラム(プログラムa)以外の最適化プログラム(プログラムb〜d)から検証データを抽出する最適化プログラムを順番に変更して機械学習を繰り返して行わせるようにしてもよい。
なお、本実施の形態(図6)では、最適化プログラム毎に化合物データベースに含まれるデータを前半30%と後半70%に分割したが、これに限定されるものではなく、他の割合に分割してもよい。すなわち、予測対象である化合物の性質が適切に出力されるように化合物性質予測モデルが機械学習されるような割合に分割すればよい。
ステップS12では、化合物のペア選択処理が行われる。当該ステップの処理によって、化合物性質予測装置100は、化合物選択手段として機能する。処理部10は、記憶部12に記憶されている化合物データベースから同じ最適化プログラムに関連付けられている訓練データ(トレインデータ)から2つの化合物を選択化合物として選択する。選択化合物に関連付けられたデータは、化合物性質予測モデルを機械学習させるための教師付訓練データとして使用される。
ここで、同一の最適化プログラムに関連付けられている訓練データから2つの化合物のペアを選択化合物として選択する場合、単純にすべての化合物のペアの組み合わせをデータセットとして学習させると化合物性質予測モデルの過適合が起こるおそれがある。そこで、同一の最適化プログラムに関連付けられている訓練データからペアとなる化合物の一方を一様にサンプリングする。これによって、選択化合物となるペアの化合物のうち一方の化合物は訓練データから偏りなくサンプリングされる。そして、訓練データに含まれる残りのデータからサンプリングされた化合物とペアになり得る化合物を一様にサンプリングして2つの化合物を組み合わせて選択化合物として選択する。このような処理とすることによって、少なくともペアとなる2つの化合物のうち一方は訓練データの中から偏りなく選択することができる。なお、実装では、化合物データベースに含まれる各化合物に対してペアとなる化合物のデータの集合を設定しておき、そのペアのなかで化合物を順番に選択するようにすればよい。
同様に、処理部10は、記憶部12に記憶されている化合物データベースから検証データから2つの化合物を選択化合物として選択する。また、同様に、処理部10は、記憶部12に記憶されている化合物データベースから評価データから2つの化合物を選択化合物として選択する。
ステップS14では、化合物の共通構造及び差分構造を抽出する処理が行われる。当該ステップの処理によって、化合物性質予測装置100は、構造解析手段として機能する。処理部10は、ステップS12において選択化合物とされた2つの化合物のペア毎に共通する化学的構造及び共通しない化学的構造をそれぞれ共通構造及び差分構造として抽出してベクトル化する。例えば、最大共通部分構造解析(MCS:Maximum Common Substructure)であるrdkitのrdFMCS.FindMCS()を利用することで選択化合物とされた2つの化合物の共通構造を抽出することができる。さらに、2つの化合物についてそれぞれ共通構造以外の構造を差分構造として抽出する。共通構造及び差分構造は、例えば、SMILES記法により表現することができる。
例えば、図7に示すように、選択化合物であるペアの化合物毎(選択化合物1及び選択化合物2)に共通構造と差分構造を抽出する。ここで、選択化合物1に存在する構造であるが選択化合物2には存在しない構造を差分構造1とし、選択化合物2に存在する構造であるが選択化合物1には存在しない構造を差分構造2として抽出している。
ステップS16では、化合物性質予測モデルを構築するための機械学習が行われる。当該ステップの処理によって、化合物性質予測装置100は、性質学習手段として機能する。処理部10は、図8に示すように、ステップS14において抽出された訓練データの選択化合物の共通構造及び差分構造(差分構造1及び差分構造2)をそれぞれ共通グラフ構造及び差分グラフ構造として、これらに対して化合物データベースとして記憶されている当該選択化合物を構成する2つの化合物の性質を教師データとして組み合わせて、選択化合物である2つの化合物の共通構造及び差分構造を含む入力に対して当該化合物の性質が出力されるように化合物性質予測モデルを機械学習させる。
化合物性質予測モデルには、グラフニューラルネットワーク(GNN:Graph Neural Network)を適用することが好適である。GNNは、グラフ構造を扱うニューラルネットワークであり、多くのモデルが提唱されている。化合物性質予測装置100を構成するための化合物性質予測モデルを構築するためには、特にこれに限定されるものではないが、GIN(Graph Isomorphism Network)[Xu+,ICLR2019]を適用することが好適である。機械学習のモデルでは、ニューラルネットワークの層数、活性化関数、損失関数等は適宜選択することが好適である。
具体的には、例えば以下のように処理を行ってもよい。ステップS14において抽出された選択化合物の共通構造をGNNの入力として、共通構造を部分グラフとしてグラフ畳み込み処理(Convolution)を行ったうえで、共通構造のグラフ構造全体に対してリードアウト(Readout)を行うことで共通構造のグラフ全体の特徴ベクトルを得る。ここで、リードアウト(Readout)とは、グラフ構造中のすべてのノード(原子)に割り当てられたベクトルに対して和(Sum)を算出したり、最大値(Max)を求めたりする処理である。また、ステップS14において抽出された選択化合物の差分構造(差分構造1及び差分構造2)をGNNの入力として、差分構造を部分グラフとしてグラフ畳み込み処理(Convolution)を行ったうえで、差分構造のグラフ構造に対してリードアウト(Readout)を行うことで差分構造の特徴ベクトルを得る。このとき、差分構造に代えて選択化合物の2つの化合物自体の構造に対してグラフ畳み込み処理(Convolution)を行ったうえで、差分構造に限定してリードアウト(Readout)を行ったり、化合物自体の構造(化合物のグラフ構造のすべてのノード)に対してリードアウト(Readout)を行ったりしてもよい。
また、訓練データの選択化合物の共通構造及び差分構造のみならず、選択化合物の2つの化合物を構成する原子の種類、原子間の結合状態を教師付訓練データとして入力して機械学習させてもよい。また、選択化合物を構成する2つの化合物の性質を教師データとしてもよいし、2つの化合物の性質の差分を教師データとしてもよい。
このように、訓練データに含まれる選択化合物の共通構造及び差分構造を少なくとも含む訓練データを入力として当該選択化合物の性質を出力するような化合物性質予測モデルを機械学習させる。さらに、ステップS12において選ばれた検証データを用いて、検証データに含まれる選択化合物の共通構造及び差分構造と当該選択化合物の性質のデータを用いて得られた化合物性質予測モデルにおけるハイパーパラメータを決定して最適な化合物性質予測モデルを選択する。また、ステップS12において選ばれた評価データを用いて、得られた化合物性質予測モデルが評価データに含まれる選択化合物の共通構造及び差分構造に対して実際の評価でえられた当該選択化合物の性質を出力できているか否かの評価を行う。
また、クロスバリデーションを適用する場合、検証データを変更して繰り返し機械学習をさせる。例えば、図6の学習過程1〜3に示すように、検証データを抽出する最適化プログラムを順番に変更して機械学習を繰り返して行わせる。
ステップS18では、予測対象である化合物の性質を予測する処理が行われる。当該ステップの処理によって、化合物性質予測装置100は、性質予測手段として機能する。まず、いずれかの最適化プログラムにおいて性質を予測する対象となる化合物の構造データの入力を受け付ける。当該予測対象である化合物の構造は、入力部14を用いて受け付けてもよいし、予め記憶部12に記憶させておいてもよい。次ぎに、処理部10は、化合物データベースにおいて当該予測対象である化合物と同一の最適化プログラムに属する化合物を1つ選択し、当該化合物の構造と予測対象である化合物の構造との共通構造及び差分構造を抽出してベクトル化する。例えば、rdkitのrdFMCS.FindMCS()を利用することで2つの化合物の共通構造を抽出することができる。さらに、2つの化合物についてそれぞれ共通構造以外の構造を差分構造として抽出する。そして、当該化合物のベクトル化された共通構造及び差分構造をステップS16で得られた化合物性質予測モデルに入力することで当該化合物の性質の予測結果の出力を得る。
なお、ステップS16において訓練データとして選択化合物の共通構造及び差分構造のみならず、選択化合物の2つの化合物を構成する原子の種類、原子間の結合状態を教師付訓練データとして入力して機械学習させた場合、化合物を構成する原子の種類や原子間の結合状態も化合物性質予測モデルに入力すればよい。
以上のように、本実施の形態における化合物性質予測装置100では、化合物の共通構造及び差分構造を含む訓練データを用いて機械学習させることによって、性質が未知である化合物の性質をより適切に予測できる化合物性質予測モデルを構築することができる。また、機械学習に用いられるデータを時系列的に並べたうえで分割して、後のグループに該当するデータを評価データや検証データとすることによって、性質が未知である化合物の性質をさらに適切に予測できる化合物性質予測モデルを構築することができる。
なお、本実施の形態における化合物性質予測装置100では、データ分割手段、化合物選択手段、構造解析手段、性質学習手段、性質予測手段を1つの装置にて実現する構成としたが、これらの手段を異なる装置や異なる実行主体にて実現するようにしてもよい。例えば、これらの手段のうち幾つかをサーバコンピュータで実現し、残りの手段をクライアントコンピュータで実現するようにしてもよい。
10 処理部、12 記憶部、14 入力部、16 出力部、18 通信部、20 処理部、22 記憶部、24 入力部、26 出力部、28 通信部、100 化合物性質予測装置。

Claims (9)

  1. 化合物の性質を予測するための化合物性質予測装置であって、
    複数の化合物について、当該化合物の各々について実測された前記性質を当該化合物の各々に関連付けた化合物データベースを記憶した記憶手段にアクセス可能であり、
    前記化合物データベースから選択された2つの化合物を選択化合物として、前記選択化合物の共通構造及び差分構造と、前記選択化合物の前記性質と、の組み合わせを少なくとも含む教師付訓練データとして用いて、予測対象である化合物に対する前記性質を予測するための機械学習をさせた化合物性質予測モデルを構築する性質学習手段と、
    前記予測対象である化合物と前記化合物データベースから選択された化合物の共通構造及び差分構造を前記化合物性質予測モデルへ入力することによって、前記化合物性質予測モデルの出力として前記予測対象である化合物の前記性質の予測結果を得る性質予測手段と、
    を備えることを特徴とする化合物性質予測装置。
  2. 請求項1に記載の化合物性質予測装置であって、
    前記化合物性質予測モデルは、グラフニューラルネットワーク(GNN)を用いて、前記共通構造を共通グラフ構造とし、前記差分構造を差分グラフ構造として前記教師付訓練データとして用いることを特徴とする化合物性質予測装置。
  3. 請求項1又は2に記載の化合物性質予測装置であって、
    最大共通部分構造解析(MCS)によって前記選択化合物の共通構造を求めることを特徴とする化合物性質予測装置。
  4. 請求項1〜3のいずれか1項に記載の化合物性質予測装置であって、
    前記性質は、化合物に対するADMET属性の少なくとも1つであることを特徴とする化合物性質予測装置。
  5. 請求項1〜4のいずれか1項に記載の化合物性質予測装置であって、
    前記化合物データベースは、創薬研究におけるリード化合物の最適化プログラムにおいて得られた化合物と当該化合物について実測された性質とを含むことを特徴とする化合物性質予測装置。
  6. 請求項5に記載の化合物性質予測装置であって、
    前記化合物データベースに含まれるデータを前記最適化プログラム毎に時系列的に並べて分割し、前部分のデータを前記教師付訓練データとして用い、後部分のデータを検証データ又は評価データとして用いて前記機械学習を行うことを特徴とする化合物性質予測装置。
  7. 請求項6に記載の化合物性質予測装置であって、
    前記化合物データベースは、前記リード化合物に対する複数の前記最適化プログラムにおいて得られた化合物と当該化合物について実測された性質とを含み、前記検証データを前記最適化プログラム毎に順番に選択して前記機械学習を繰り返して行うことを特徴とする化合物性質予測装置。
  8. 化合物の性質を予測するための化合物性質予測プログラムであって、
    複数の化合物について、当該化合物の各々について実測された前記性質を当該化合物の各々に関連付けた化合物データベースを記憶した記憶手段にアクセス可能であるコンピュータを、
    前記化合物データベースから選択された2つの化合物を選択化合物として、前記選択化合物の共通構造及び差分構造と、前記選択化合物の前記性質と、の組み合わせを少なくとも含む教師付訓練データとして用いて、予測対象である化合物に対する前記性質を予測するための機械学習をさせた化合物性質予測モデルを構築する性質学習手段と、
    前記予測対象である化合物と前記化合物データベースから選択された化合物の共通構造及び差分構造を前記化合物性質予測モデルへ入力することによって、前記化合物性質予測モデルの出力として前記予測対象である化合物の前記性質の予測結果を得る性質予測手段として、機能させることを特徴とする化合物性質予測プログラム。
  9. 化合物の性質を予測するための化合物性質予測方法であって、
    複数の化合物について、当該化合物の各々について実測された前記性質を当該化合物の各々に関連付けた化合物データベースを記憶した記憶手段にアクセス可能であるコンピュータを用いて、
    前記化合物データベースから選択された2つの化合物を選択化合物として、前記選択化合物の共通構造及び差分構造と、前記選択化合物の前記性質と、の組み合わせを少なくとも含む教師付訓練データとして用いて、予測対象である化合物に対する前記性質を予測するための機械学習をさせた化合物性質予測モデルを構築する性質学習工程と、
    前記予測対象である化合物と前記化合物データベースから選択された化合物の共通構造及び差分構造を前記化合物性質予測モデルへ入力することによって、前記化合物性質予測モデルの出力として前記予測対象である化合物の前記性質の予測結果を得る性質予測工程と、
    を備えることを特徴とする化合物性質予測方法。
JP2019200488A 2019-11-05 2019-11-05 化合物の性質を予測するための化合物性質予測装置、化合物性質予測プログラム及び化合物性質予測方法 Active JP7218274B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019200488A JP7218274B2 (ja) 2019-11-05 2019-11-05 化合物の性質を予測するための化合物性質予測装置、化合物性質予測プログラム及び化合物性質予測方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019200488A JP7218274B2 (ja) 2019-11-05 2019-11-05 化合物の性質を予測するための化合物性質予測装置、化合物性質予測プログラム及び化合物性質予測方法

Publications (2)

Publication Number Publication Date
JP2021076890A true JP2021076890A (ja) 2021-05-20
JP7218274B2 JP7218274B2 (ja) 2023-02-06

Family

ID=75899043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019200488A Active JP7218274B2 (ja) 2019-11-05 2019-11-05 化合物の性質を予測するための化合物性質予測装置、化合物性質予測プログラム及び化合物性質予測方法

Country Status (1)

Country Link
JP (1) JP7218274B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488114A (zh) * 2021-07-13 2021-10-08 南京邮电大学 含螺环的芴基分子晶体中分子间非共价键弱相互作用能预测方法及其预测模型训练方法
JPWO2022269733A1 (ja) * 2021-06-22 2022-12-29
WO2023029351A1 (zh) * 2021-08-30 2023-03-09 平安科技(深圳)有限公司 基于自监督学习的药物小分子性质预测方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003203078A (ja) * 2001-10-19 2003-07-18 Mitsubishi Electric Corp 生理機能解析方法及びシステム
US20040009536A1 (en) * 2001-07-30 2004-01-15 George Grass System and method for predicting adme/tox characteristics of a compound
JP2019010095A (ja) * 2017-06-30 2019-01-24 学校法人 明治薬科大学 予測装置、予測方法、予測プログラム、学習モデル入力データ生成装置および学習モデル入力データ生成プログラム
WO2019048965A1 (ja) * 2017-09-06 2019-03-14 株式会社半導体エネルギー研究所 物性予測方法および物性予測システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040009536A1 (en) * 2001-07-30 2004-01-15 George Grass System and method for predicting adme/tox characteristics of a compound
JP2003203078A (ja) * 2001-10-19 2003-07-18 Mitsubishi Electric Corp 生理機能解析方法及びシステム
JP2019010095A (ja) * 2017-06-30 2019-01-24 学校法人 明治薬科大学 予測装置、予測方法、予測プログラム、学習モデル入力データ生成装置および学習モデル入力データ生成プログラム
WO2019048965A1 (ja) * 2017-09-06 2019-03-14 株式会社半導体エネルギー研究所 物性予測方法および物性予測システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KATHRIN HEIKAMP, 他3名: ""Prediction of Activity Cliffs Using Support Vector Machines"", [ONLINE], JPN6022029482, 2 July 2012 (2012-07-02), US, ISSN: 0004827427 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022269733A1 (ja) * 2021-06-22 2022-12-29
CN113488114A (zh) * 2021-07-13 2021-10-08 南京邮电大学 含螺环的芴基分子晶体中分子间非共价键弱相互作用能预测方法及其预测模型训练方法
CN113488114B (zh) * 2021-07-13 2024-03-01 南京邮电大学 含螺环的芴基分子晶体中分子间非共价键弱相互作用能预测方法及其预测模型训练方法
WO2023029351A1 (zh) * 2021-08-30 2023-03-09 平安科技(深圳)有限公司 基于自监督学习的药物小分子性质预测方法、装置及设备

Also Published As

Publication number Publication date
JP7218274B2 (ja) 2023-02-06

Similar Documents

Publication Publication Date Title
Blaschke et al. Memory-assisted reinforcement learning for diverse molecular de novo design
JP7218274B2 (ja) 化合物の性質を予測するための化合物性質予測装置、化合物性質予測プログラム及び化合物性質予測方法
Negoescu et al. The knowledge-gradient algorithm for sequencing experiments in drug discovery
CN106251174A (zh) 信息推荐方法及装置
Aghdam et al. CN: a consensus algorithm for inferring gene regulatory networks using the SORDER algorithm and conditional mutual information test
JP6931946B1 (ja) 生産プロセス最適化方法及び生産プロセス最適化システム
JP6567484B2 (ja) 推計モデル構築システム、推計モデル構築方法及びプログラム
Lung et al. Game theory and extremal optimization for community detection in complex dynamic networks
Caetano et al. A data-driven approach to predict hospital length of stay-a portuguese case study
CN111899883A (zh) 少样本或零样本的疾病预测设备、方法、装置及存储介质
CN114207729A (zh) 材料特性预测系统以及材料特性预测方法
Mundra et al. Inferring time-delayed gene regulatory networks using cross-correlation and sparse regression
Corain et al. A non-parametric method for defining a global preference ranking of industrial products
Maruotti et al. Time-varying clustering of multivariate longitudinal observations
Alghamdi et al. A prediction modelling and pattern detection approach for the first-episode psychosis associated to cannabis use
Gebert et al. Identifying genes of gene regulatory networks using formal concept analysis
JP2021081769A (ja) 化合物の構造を自動生成するための化合物構造自動生成装置、化合物構造自動生成プログラム及び化合物構造自動生成方法
JP7117835B2 (ja) 生成装置、モデル、生成方法及び生成プログラム
JP2017004493A (ja) データ分析方法、データ分析装置およびプログラム
JP6577922B2 (ja) 検索装置、方法、及びプログラム
Parihar et al. Knowledge Discovery and Data Mining Healthcare
Xhaferra et al. The Role of Machine Learning in the Healthcare Sector: A Roadmap to the Potential Prospects
Mu et al. Diagnosis prediction via recurrent neural networks
Gong et al. Evaluating accuracy and performance of GPU-accelerated random walk computation on heterogeneous networks
CN117976199A (zh) 基于高阶网络的脑区识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220916

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230125

R150 Certificate of patent or registration of utility model

Ref document number: 7218274

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150