JP7218274B2 - Compound Property Prediction Apparatus, Compound Property Prediction Program, and Compound Property Prediction Method for Predicting Properties of Compound - Google Patents
Compound Property Prediction Apparatus, Compound Property Prediction Program, and Compound Property Prediction Method for Predicting Properties of Compound Download PDFInfo
- Publication number
- JP7218274B2 JP7218274B2 JP2019200488A JP2019200488A JP7218274B2 JP 7218274 B2 JP7218274 B2 JP 7218274B2 JP 2019200488 A JP2019200488 A JP 2019200488A JP 2019200488 A JP2019200488 A JP 2019200488A JP 7218274 B2 JP7218274 B2 JP 7218274B2
- Authority
- JP
- Japan
- Prior art keywords
- compound
- compounds
- property
- property prediction
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、化合物の性質を予測するための化合物性質予測装置、化合物性質予測プログラム及び化合物性質予測方法に関する。 The present invention relates to a compound property prediction device, a compound property prediction program, and a compound property prediction method for predicting properties of a compound.
創薬研究では、新薬の候補として見出された新薬候補化合物(以下、リード化合物という)を基準として、リード化合物の構造を変更するように設計、合成及び評価を繰り返すことによって新薬としての化合物の構造を徐々に最適化していく作業(以下、最適化プログラムという)が行われる。このとき、リード化合物における医薬としての主活性(薬効)を維持しつつ、人体や動物における吸収(absorption)、分布(distribution)、代謝(metabolism)、排泄(excretion)及び毒性(toxicity)に関する化合物の性質を示すADMET属性を改善するように化合物を探索する。 In drug discovery research, a new drug candidate compound (hereinafter referred to as a lead compound) that has been discovered as a new drug candidate is used as a standard, and by repeating design, synthesis, and evaluation so as to change the structure of the lead compound, the compound as a new drug is developed. An operation (hereinafter referred to as an optimization program) is performed to gradually optimize the structure. At this time, while maintaining the main activity (drug effect) as a drug in the lead compound, it is possible to improve the compound's absorption, distribution, metabolism, excretion, and toxicity in humans and animals. Compounds are searched to improve the ADMET attribute that indicates the property.
創薬研究におけるリード化合物からの最適化プログラムでは、予測対象となる化合物は膨大な化合物の集合からランダムに選択されるのではなく、最適化プログラムの過程で提案されたADMET属性等の性質が既知の化合物に構造が似た化合物を選択することが好ましい場合が多い。そこで、最適化プログラムの期間短縮及びコスト低減を図るために、最適化プログラムにおいて未だ検討されていない化合物についてADMET属性を予測する技術が望まれている。 In the optimization program from the lead compound in drug discovery research, the compound to be predicted is not randomly selected from a huge set of compounds, but the properties such as ADMET attributes proposed in the optimization program are known. It is often preferable to select a compound that is structurally similar to the compound of . Therefore, in order to shorten the period of the optimization program and reduce the cost, there is a demand for a technique for predicting the ADMET attributes of compounds that have not yet been examined in the optimization program.
本発明の1つの態様は、化合物の性質を予測するための化合物性質予測装置であって、複数の化合物について、当該化合物の各々について実測された前記性質を当該化合物の各々に関連付けた化合物データベースを記憶した記憶手段にアクセス可能であり、前記化合物データベースから選択された2つの化合物を選択化合物として、前記選択化合物の共通構造及び差分構造と、前記選択化合物の前記性質と、の組み合わせを少なくとも含む教師付訓練データとして用いて、予測対象である化合物に対する前記性質を予測するための機械学習をさせた化合物性質予測モデルを構築する性質学習手段と、前記予測対象である化合物と前記化合物データベースから選択された化合物の共通構造及び差分構造を前記化合物性質予測モデルへ入力することによって、前記化合物性質予測モデルの出力として前記予測対象である化合物の前記性質の予測結果を得る性質予測手段と、を備えることを特徴とする化合物性質予測装置である。 One aspect of the present invention is a compound property prediction device for predicting properties of a compound, comprising a compound database in which the property measured for each of a plurality of compounds is associated with each of the compounds. A teacher that is accessible to a stored storage means and that includes at least a combination of two compounds selected from the compound database as selected compounds, the common structure and differential structure of the selected compounds, and the properties of the selected compounds. a property learning means for constructing a compound property prediction model that is subjected to machine learning for predicting the property of a compound to be predicted using training data, and a compound selected from the compound to be predicted and the compound database; a property prediction means for obtaining a prediction result of the property of the compound to be predicted as an output of the compound property prediction model by inputting the common structure and the difference structure of the compound to the compound property prediction model. It is a compound property prediction device characterized by
ここで、前記性質学習手段は、グラフニューラルネットワーク(GNN)を用いて、前記共通構造を共通グラフ構造とし、前記差分構造を差分グラフ構造として前記教師付訓練データとして用いることが好適である。 Here, it is preferable that the property learning means uses a graph neural network (GNN) to use the common structure as a common graph structure and the difference structure as a difference graph structure as the supervised training data.
また、最大共通部分構造解析(MCS)によって前記選択化合物の共通構造を求めることが好適である。 It is also preferred to determine the consensus structure of said selected compounds by maximum common substructure analysis (MCS).
また、前記性質は、化合物に対するADMET属性の少なくとも1つであることが好適である。 It is also preferred that the property is at least one ADMET attribute for the compound.
また、前記化合物データベースは、創薬研究におけるリード化合物の最適化プログラムにおいて得られた化合物と当該化合物について実測された性質とを含むことが好適である。 In addition, it is preferable that the compound database includes compounds obtained in an optimization program for lead compounds in drug discovery research and properties actually measured for the compounds.
また、前記化合物データベースに含まれるデータを前記最適化プログラム毎に時系列的に並べて分割し、前部分のデータを前記教師付訓練データとして用い、後部分のデータを検証データ又は評価データとして用いて前記機械学習を行うことが好適である。 Further, the data contained in the compound database is arranged in chronological order for each optimization program and divided, the data of the front part is used as the supervised training data, and the data of the back part is used as verification data or evaluation data. It is preferable to perform the machine learning.
また、前記化合物データベースは、前記リード化合物に対する複数の前記最適化プログラムにおいて得られた化合物と当該化合物について実測された性質とを含み、前記検証データを前記最適化プログラム毎に順番に選択して前記機械学習を繰り返して行うことが好適である。 In addition, the compound database includes compounds obtained in a plurality of the optimization programs for the lead compound and properties actually measured for the compounds, and the verification data is sequentially selected for each optimization program, and the Iterative machine learning is preferred.
本発明の別の態様は、化合物の性質を予測するための化合物性質予測プログラムであって、複数の化合物について、当該化合物の各々について実測された前記性質を当該化合物の各々に関連付けた化合物データベースを記憶した記憶手段にアクセス可能であるコンピュータを、前記化合物データベースから選択された2つの化合物を選択化合物として、前記選択化合物の共通構造及び差分構造と、前記選択化合物の前記性質と、の組み合わせを少なくとも含む教師付訓練データとして用いて、予測対象である化合物に対する前記性質を予測するための機械学習をさせた化合物性質予測モデルを構築する性質学習手段と、前記予測対象である化合物と前記化合物データベースから選択された化合物の共通構造及び差分構造を前記化合物性質予測モデルへ入力することによって、前記化合物性質予測モデルの出力として前記予測対象である化合物の前記性質の予測結果を得る性質予測手段として、機能させることを特徴とする化合物性質予測プログラムである。 Another aspect of the present invention is a compound property prediction program for predicting the properties of a compound, comprising a compound database in which the properties actually measured for each of a plurality of compounds are associated with each of the compounds. A computer having access to a stored storage means is configured to, using two compounds selected from the compound database as selected compounds, at least combine common structures and differential structures of the selected compounds and the properties of the selected compounds. property learning means for constructing a compound property prediction model that is subjected to machine learning for predicting the property of a compound that is a prediction target using supervised training data including the compound, and from the compound that is the prediction target and the compound database Functioning as a property prediction means for obtaining a prediction result of the property of the compound to be predicted as an output of the compound property prediction model by inputting the common structure and differential structure of the selected compound into the compound property prediction model It is a compound property prediction program characterized by allowing
本発明の別の態様は、化合物の性質を予測するための化合物性質予測方法であって、複数の化合物について、当該化合物の各々について実測された前記性質を当該化合物の各々に関連付けた化合物データベースを記憶した記憶手段にアクセス可能であるコンピュータを用いて、前記化合物データベースから選択された2つの化合物を選択化合物として、前記選択化合物の共通構造及び差分構造と、前記選択化合物の前記性質と、の組み合わせを少なくとも含む教師付訓練データとして用いて、予測対象である化合物に対する前記性質を予測するための機械学習をさせた化合物性質予測モデルを構築する性質学習工程と、前記予測対象である化合物と前記化合物データベースから選択された化合物の共通構造及び差分構造を前記化合物性質予測モデルへ入力することによって、前記化合物性質予測モデルの出力として前記予測対象である化合物の前記性質の予測結果を得る性質予測工程と、を備えることを特徴とする化合物性質予測方法である。 Another aspect of the present invention is a compound property prediction method for predicting the properties of a compound, comprising: a compound database in which the properties actually measured for each of a plurality of compounds are associated with each of the compounds; Using a computer having access to the stored storage means, two compounds selected from the compound database are used as selected compounds, and the common structure and differential structure of the selected compounds are combined with the properties of the selected compounds. using as supervised training data containing at least a property prediction step of obtaining prediction results of the properties of the compound to be predicted as an output of the compound property prediction model by inputting common structures and differential structures of compounds selected from a database into the compound property prediction model; A compound property prediction method characterized by comprising:
本発明の実施の形態は、リード化合物に対する最適化プログラムにおいて対象となる化合物の性質を予測することを可能とする化合物性質予測装置、化合物性質予測プログラム及び化合物性質予測方法を提供することを目的の1つとする。本発明の実施の形態の他の目的は、本明細書全体を参照することにより明らかになる。 An object of the present invention is to provide a compound property prediction device, a compound property prediction program, and a compound property prediction method that enable prediction of the properties of a target compound in an optimization program for a lead compound. Let it be one. Other objects of embodiments of the present invention will become apparent by reference to the specification as a whole.
本発明の実施の形態における化合物性質予測装置100は、図1に示すように、処理部10、記憶部12、入力部14、出力部16及び通信部18を含んで構成される。
A compound
化合物性質予測装置100は、一般的なコンピュータにより構成することができる。処理部10は、CPU等を含んで構成され、化合物性質予測装置100における処理を統合的に行う。処理部10は、記憶部12に記憶されている化合物性質予測プログラムを実行することにより、本実施の形態における化合物性質予測処理を行う。記憶部12は、化合物性質予測処理において用いられる化合物性質予測モデル(化合物性質予測器)、創薬研究において得られた化合物とその性質を関連付けた化合物データベース等、化合物性質予測処理において必要な情報を記憶する。記憶部12は、例えば、半導体メモリ、ハードディスク等で構成することができる。記憶部12は、化合物性質予測装置100の内部に設けてもよいし、無線や有線等の情報網を利用して処理部10からアクセスできるように外部に設けてもよい。入力部14は、化合物性質予測装置100に対して情報を入力するための手段を含む。出力部16は、化合物性質予測装置100において処理された情報を表示させる手段を含む。通信部18は、外部の装置(サーバ等)との情報交換を行うためのインターフェースを含んで構成される。通信部18は、例えば、インターネット等の情報通信網に接続されることによって、外部の装置との通信を可能にする。
The compound
[化合物性質予測処理]
以下、図2のフローチャートを参照して、本実施の形態における化合物性質予測処理について説明する。化合物性質予測装置100は、化合物性質予測プログラムを実行することによって、化合物とその性質を含む既知の学習用データを用いて化合物の性質を予測するための機械学習を行って化合物性質予測モデルを生成し、当該化合物性質予測モデルを用いて予測対象である化合物の性質を予測する処理を行う。
[Compound Property Prediction Processing]
The compound property prediction process according to the present embodiment will be described below with reference to the flowchart of FIG. The compound
本実施の形態では、創薬研究において新薬の候補として見出されたリード化合物の構造を変更するように設計、合成及び評価を繰り返す最適化プログラムにおいて評価済みの化合物及びADMET属性を関連付けて化合物データベースとして記憶部12に記憶させる。機械学習では、化合物データベースに含まれている化合物とADMET属性を教師付訓練データとして用いる。
In the present embodiment, a compound database is created by associating compounds and ADMET attributes that have been evaluated in an optimization program that repeats design, synthesis, and evaluation so as to change the structure of a lead compound found as a candidate for a new drug in drug discovery research. is stored in the
ただし、学習に用いる化合物や予測対象とする化合物は創薬に関する化合物に限定されるものではない。また、化合物の性質は、ADMET属性に限定されるものではなく、化合物に関する情報であればよい。また、ADMET属性のすべての項目を使用してよいし、一部の項目のみを使用してもよい。 However, compounds used for learning and compounds to be predicted are not limited to compounds related to drug discovery. Further, the property of the compound is not limited to the ADMET attribute, and may be any information related to the compound. Also, all items of the ADMET attribute may be used, or only some of the items may be used.
図3は、化合物の例を示す。図3(a)は、最適化プログラムの出発点となるリード化合物の構造式を示す。図3(b)~図3(c)は、リード化合物の一部の構造を他の構造に変更した類似化合物A及び類似化合物Bの構造式を示す。なお、リード化合物の構造や類似化合物の構造は、例示であり、これらに限定されるものではない。類似化合物は、例えば、リード化合物から一部の構造を取り除いた構造としてもよいし、リード化合物の一部の構造を他の構造に置換した構造としてもよいし、リード化合物の構造に他の構造を付加した構造としてもよい。 FIG. 3 shows examples of compounds. FIG. 3(a) shows the structural formula of the lead compound that serves as the starting point for the optimization program. FIGS. 3(b) to 3(c) show structural formulas of analogous compound A and analogous compound B in which a part of the structure of the lead compound is changed to another structure. The structure of the lead compound and the structure of the analogous compound are examples, and the present invention is not limited to these. The analogous compound may have, for example, a structure obtained by removing a part of the structure from the lead compound, a structure obtained by replacing a part of the structure of the lead compound with another structure, or a structure obtained by replacing the structure of the lead compound with another structure. may be added.
図4は、化合物データベースの例を示す。化合物データベースは、創薬研究において行われた一連の最適化プログラム毎に特有に割り当てられた最適化プログラムID(PID)、最適化プログラム名、化合物毎に特有に割り当てられた化合物ID、化合物名、化合物の構造、最適化プログラムにおいて評価された化合物の性質、評価日時を関連付けて記憶させたデータベースである。化合物の構造としては、図3で例示したように、化合物を構成する原子及びそれらの結合状態が記憶される。化合物の構造は、例えば、SMILES記法によって化合物データベースに登録すればよい。 FIG. 4 shows an example of a compound database. The compound database includes an optimization program ID (PID) uniquely assigned to each series of optimization programs performed in drug discovery research, an optimization program name, a compound ID uniquely assigned to each compound, a compound name, It is a database in which the structure of a compound, the property of the compound evaluated in the optimization program, and the date and time of evaluation are stored in association with each other. As the structure of the compound, as illustrated in FIG. 3, the atoms constituting the compound and their bonding states are stored. The structure of a compound may be registered in a compound database using, for example, the SMILES notation.
なお、図4では、最適化プログラムaにおいて評価された3つの化合物のみについて化合物ID、化合物名、化合物の構造及びその性質を関連付けた例を示したが、一般的には最適化プログラム毎にリード化合物から派生させた多数の化合物の性質が評価されて化合物データベースとして記憶される。また、本実施の形態では、化合物の性質としてADMET属性のCYP3A4阻害率及びJP1に対する溶解度の値のみを例示したが、これらに限定されるものではなく、ADMET属性の他の項目の値や化合物の他の性質を用いてもよい。 Note that FIG. 4 shows an example in which the compound ID, compound name, compound structure and properties are associated with only three compounds evaluated in the optimization program a. The properties of a large number of compounds derived from compounds are evaluated and stored as a compound database. Further, in the present embodiment, only the ADMET attribute CYP3A4 inhibition rate and JP1 solubility value were exemplified as the properties of the compound, but the present invention is not limited to these, and the values of other items of the ADMET attribute and the compound Other properties may be used.
また、図5に示すように、創薬研究では、1つのリード化合物から複数の最適化プログラムが実行される。したがって、複数の最適化プログラムが実行された場合、それぞれの最適化プログラムに関連付けて化合物ID、化合物名、化合物の構造・性質及び評価日時などの時系列的な順序関係を示す数値が化合物データベースとして記憶される。 Also, as shown in FIG. 5, in drug discovery research, multiple optimization programs are run from a single lead compound. Therefore, when multiple optimization programs are executed, numerical values indicating chronological order relationships such as compound ID, compound name, compound structure/property, and evaluation date and time are associated with each optimization program as a compound database. remembered.
ステップS10では、化合物データベースの分割処理が行われる。当該ステップの処理によって、化合物性質予測装置100は、データ分割手段として機能する。化合物性質予測装置100の機械学習では、化合物データベースに記憶されているデータを教師付訓練データ、検証データ及び評価データに分割して使用する。
In step S10, division processing of the compound database is performed. Through the processing of this step, the compound
処理部10は、記憶部12から化合物データベースを読み出して以下の処理を行う。本実施の形態では、図6に示すように、化合物データベースに記憶されているデータを最適化プログラム毎に評価日時に沿って時系列的にソートした状態で訓練データ、検証データ及び評価データに分割する。
The
ここで、訓練データとは、機械学習によって化合物性質予測装置100の化合物性質予測モデルを構築するためのデータである。また、検証データとは、機械学習におけるハイパーパラメータを決定してモデルを選択するために使用するデータである。評価データとは、機械学習によって構築された化合物性質予測モデルが適切であるかを評価するために使用するデータである。
Here, the training data is data for constructing a compound property prediction model of the compound
処理部10は、最適化プログラム毎に化合物データベースに記憶されているデータを時系列的に並べたうえで2つに分割する。そして、複数の最適化プログラム(プログラムa~d)のうち予測対象とする最適化プログラム(プログラムa)において時系列的に分割された前・後のグループのうち後のグループに該当するデータを評価データとする。また、評価データを抽出した最適化プログラム(プログラムa)以外の最適化プログラム(プログラムb~d)において時系列的に分割された前・後のグループのうち後のグループに該当するデータを検証データとする。
The
また、機械学習をより適切に行うために、クロスバリデーションを適用して、検証データを変更して繰り返し機械学習をさせるようにしてもよい。例えば、図6の学習過程1~3に示すように、評価データを抽出した最適化プログラム(プログラムa)以外の最適化プログラム(プログラムb~d)から検証データを抽出する最適化プログラムを順番に変更して機械学習を繰り返して行わせるようにしてもよい。 Also, in order to perform machine learning more appropriately, cross-validation may be applied to change verification data and repeat machine learning. For example, as shown in learning processes 1 to 3 in FIG. 6, optimization programs for extracting verification data from optimization programs (programs b to d) other than the optimization program (program a) from which the evaluation data was extracted are sequentially selected. It may be modified so that machine learning is performed repeatedly.
なお、本実施の形態(図6)では、最適化プログラム毎に化合物データベースに含まれるデータを前半30%と後半70%に分割したが、これに限定されるものではなく、他の割合に分割してもよい。すなわち、予測対象である化合物の性質が適切に出力されるように化合物性質予測モデルが機械学習されるような割合に分割すればよい。
In the present embodiment (FIG. 6), the data included in the compound database is divided into the
ステップS12では、化合物のペア選択処理が行われる。当該ステップの処理によって、化合物性質予測装置100は、化合物選択手段として機能する。処理部10は、記憶部12に記憶されている化合物データベースから同じ最適化プログラムに関連付けられている訓練データ(トレインデータ)から2つの化合物を選択化合物として選択する。選択化合物に関連付けられたデータは、化合物性質予測モデルを機械学習させるための教師付訓練データとして使用される。
In step S12, compound pair selection processing is performed. Through the processing of this step, the compound
ここで、同一の最適化プログラムに関連付けられている訓練データから2つの化合物のペアを選択化合物として選択する場合、単純にすべての化合物のペアの組み合わせをデータセットとして学習させると化合物性質予測モデルの過適合が起こるおそれがある。そこで、同一の最適化プログラムに関連付けられている訓練データからペアとなる化合物の一方を一様にサンプリングする。これによって、選択化合物となるペアの化合物のうち一方の化合物は訓練データから偏りなくサンプリングされる。そして、訓練データに含まれる残りのデータからサンプリングされた化合物とペアになり得る化合物を一様にサンプリングして2つの化合物を組み合わせて選択化合物として選択する。このような処理とすることによって、少なくともペアとなる2つの化合物のうち一方は訓練データの中から偏りなく選択することができる。なお、実装では、化合物データベースに含まれる各化合物に対してペアとなる化合物のデータの集合を設定しておき、そのペアのなかで化合物を順番に選択するようにすればよい。 Here, when selecting two compound pairs as selected compounds from the training data associated with the same optimization program, simply learning the combination of all compound pairs as a data set yields a compound property prediction model. Overfitting may occur. One of the paired compounds is then uniformly sampled from the training data associated with the same optimization program. As a result, one compound of the pair of compounds to be the selected compound is sampled without bias from the training data. Then, compounds that can be paired with the sampled compounds are uniformly sampled from the remaining data included in the training data, and two compounds are combined and selected as a selection compound. By performing such processing, at least one of the two compounds forming a pair can be selected from the training data without bias. In implementation, a set of data of compounds forming a pair may be set for each compound contained in the compound database, and compounds in the pair may be selected in order.
同様に、処理部10は、記憶部12に記憶されている化合物データベースから検証データから2つの化合物を選択化合物として選択する。また、同様に、処理部10は、記憶部12に記憶されている化合物データベースから評価データから2つの化合物を選択化合物として選択する。
Similarly, the
ステップS14では、化合物の共通構造及び差分構造を抽出する処理が行われる。当該ステップの処理によって、化合物性質予測装置100は、構造解析手段として機能する。処理部10は、ステップS12において選択化合物とされた2つの化合物のペア毎に共通する化学的構造及び共通しない化学的構造をそれぞれ共通構造及び差分構造として抽出してベクトル化する。例えば、最大共通部分構造解析(MCS:Maximum Common Substructure)であるrdkitのrdFMCS.FindMCS()を利用することで選択化合物とされた2つの化合物の共通構造を抽出することができる。さらに、2つの化合物についてそれぞれ共通構造以外の構造を差分構造として抽出する。共通構造及び差分構造は、例えば、SMILES記法により表現することができる。
In step S14, a process of extracting common structures and differential structures of compounds is performed. Through the processing of this step, the compound
例えば、図7に示すように、選択化合物であるペアの化合物毎(選択化合物1及び選択化合物2)に共通構造と差分構造を抽出する。ここで、選択化合物1に存在する構造であるが選択化合物2には存在しない構造を差分構造1とし、選択化合物2に存在する構造であるが選択化合物1には存在しない構造を差分構造2として抽出している。 For example, as shown in FIG. 7, a common structure and a difference structure are extracted for each pair of selected compounds (selected compound 1 and selected compound 2). Here, a structure that exists in the selected compound 1 but does not exist in the selected compound 2 is defined as a differential structure 1, and a structure that exists in the selected compound 2 but does not exist in the selected compound 1 is defined as a differential structure 2. are extracting.
ステップS16では、化合物性質予測モデルを構築するための機械学習が行われる。当該ステップの処理によって、化合物性質予測装置100は、性質学習手段として機能する。処理部10は、図8に示すように、ステップS14において抽出された訓練データの選択化合物の共通構造及び差分構造(差分構造1及び差分構造2)をそれぞれ共通グラフ構造及び差分グラフ構造として、これらに対して化合物データベースとして記憶されている当該選択化合物を構成する2つの化合物の性質を教師データとして組み合わせて、選択化合物である2つの化合物の共通構造及び差分構造を含む入力に対して当該化合物の性質が出力されるように化合物性質予測モデルを機械学習させる。
In step S16, machine learning is performed to construct a compound property prediction model. Through the processing of this step, the compound
化合物性質予測モデルには、グラフニューラルネットワーク(GNN:Graph Neural Network)を適用することが好適である。GNNは、グラフ構造を扱うニューラルネットワークであり、多くのモデルが提唱されている。化合物性質予測装置100を構成するための化合物性質予測モデルを構築するためには、特にこれに限定されるものではないが、GIN(Graph Isomorphism Network)[Xu+,ICLR2019]を適用することが好適である。機械学習のモデルでは、ニューラルネットワークの層数、活性化関数、損失関数等は適宜選択することが好適である。
It is preferable to apply a graph neural network (GNN) to the compound property prediction model. GNN is a neural network that handles graph structures, and many models have been proposed. In order to build a compound property prediction model for configuring the compound
具体的には、例えば以下のように処理を行ってもよい。ステップS14において抽出された選択化合物の共通構造をGNNの入力として、共通構造を部分グラフとしてグラフ畳み込み処理(Convolution)を行ったうえで、共通構造のグラフ構造全体に対してリードアウト(Readout)を行うことで共通構造のグラフ全体の特徴ベクトルを得る。ここで、リードアウト(Readout)とは、グラフ構造中のすべてのノード(原子)に割り当てられたベクトルに対して和(Sum)を算出したり、最大値(Max)を求めたりする処理である。また、ステップS14において抽出された選択化合物の差分構造(差分構造1及び差分構造2)をGNNの入力として、差分構造を部分グラフとしてグラフ畳み込み処理(Convolution)を行ったうえで、差分構造のグラフ構造に対してリードアウト(Readout)を行うことで差分構造の特徴ベクトルを得る。このとき、差分構造に代えて選択化合物の2つの化合物自体の構造に対してグラフ畳み込み処理(Convolution)を行ったうえで、差分構造に限定してリードアウト(Readout)を行ったり、化合物自体の構造(化合物のグラフ構造のすべてのノード)に対してリードアウト(Readout)を行ったりしてもよい。 Specifically, for example, the following processing may be performed. The common structure of the selected compounds extracted in step S14 is used as an input for the GNN, and graph convolution is performed using the common structure as a subgraph, and readout is performed for the entire graph structure of the common structure. By doing so, we obtain the feature vector of the entire graph of the common structure. Here, the readout is a process of calculating the sum (Sum) of the vectors assigned to all nodes (atoms) in the graph structure or finding the maximum value (Max). . Further, the differential structure (differential structure 1 and differential structure 2) of the selected compound extracted in step S14 is used as an input for the GNN, and the differential structure is used as a subgraph to perform graph convolution processing (Convolution). A feature vector of the differential structure is obtained by reading out the structure. At this time, instead of the differential structure, graph convolution processing (Convolution) is performed on the structures of the two compounds themselves of the selected compounds, and then readout is performed limited to the differential structure. You may read out (Readout) with respect to a structure (all the nodes of the graph structure of a compound).
また、訓練データの選択化合物の共通構造及び差分構造のみならず、選択化合物の2つの化合物を構成する原子の種類、原子間の結合状態を教師付訓練データとして入力して機械学習させてもよい。また、選択化合物を構成する2つの化合物の性質を教師データとしてもよいし、2つの化合物の性質の差分を教師データとしてもよい。 In addition, not only the common structure and differential structure of the selected compounds of the training data, but also the types of atoms constituting two compounds of the selected compounds and the bonding state between atoms may be input as supervised training data for machine learning. . Also, the properties of two compounds constituting the selected compound may be used as teacher data, or the difference between the properties of two compounds may be used as teacher data.
このように、訓練データに含まれる選択化合物の共通構造及び差分構造を少なくとも含む訓練データを入力として当該選択化合物の性質を出力するような化合物性質予測モデルを機械学習させる。さらに、ステップS12において選ばれた検証データを用いて、検証データに含まれる選択化合物の共通構造及び差分構造と当該選択化合物の性質のデータを用いて得られた化合物性質予測モデルにおけるハイパーパラメータを決定して最適な化合物性質予測モデルを選択する。また、ステップS12において選ばれた評価データを用いて、得られた化合物性質予測モデルが評価データに含まれる選択化合物の共通構造及び差分構造に対して実際の評価でえられた当該選択化合物の性質を出力できているか否かの評価を行う。 In this way, machine learning is performed for a compound property prediction model that outputs the properties of the selected compound with input of training data that includes at least the common structure and differential structure of the selected compound included in the training data. Furthermore, using the verification data selected in step S12, the hyperparameters in the compound property prediction model obtained using the common structure and differential structure of the selected compound included in the verification data and the property data of the selected compound are determined. to select the optimal compound property prediction model. Further, using the evaluation data selected in step S12, the property of the selected compound obtained by actual evaluation of the common structure and differential structure of the selected compound included in the evaluation data is is output.
また、クロスバリデーションを適用する場合、検証データを変更して繰り返し機械学習をさせる。例えば、図6の学習過程1~3に示すように、検証データを抽出する最適化プログラムを順番に変更して機械学習を繰り返して行わせる。 Also, when applying cross-validation, machine learning is repeated by changing the validation data. For example, as shown in learning processes 1 to 3 in FIG. 6, the optimization program for extracting verification data is sequentially changed to repeat machine learning.
ステップS18では、予測対象である化合物の性質を予測する処理が行われる。当該ステップの処理によって、化合物性質予測装置100は、性質予測手段として機能する。まず、いずれかの最適化プログラムにおいて性質を予測する対象となる化合物の構造データの入力を受け付ける。当該予測対象である化合物の構造は、入力部14を用いて受け付けてもよいし、予め記憶部12に記憶させておいてもよい。次ぎに、処理部10は、化合物データベースにおいて当該予測対象である化合物と同一の最適化プログラムに属する化合物を1つ選択し、当該化合物の構造と予測対象である化合物の構造との共通構造及び差分構造を抽出してベクトル化する。例えば、rdkitのrdFMCS.FindMCS()を利用することで2つの化合物の共通構造を抽出することができる。さらに、2つの化合物についてそれぞれ共通構造以外の構造を差分構造として抽出する。そして、当該化合物のベクトル化された共通構造及び差分構造をステップS16で得られた化合物性質予測モデルに入力することで当該化合物の性質の予測結果の出力を得る。
In step S18, a process of predicting properties of the compound to be predicted is performed. Through the processing of this step, the compound
なお、ステップS16において訓練データとして選択化合物の共通構造及び差分構造のみならず、選択化合物の2つの化合物を構成する原子の種類、原子間の結合状態を教師付訓練データとして入力して機械学習させた場合、化合物を構成する原子の種類や原子間の結合状態も化合物性質予測モデルに入力すればよい。 In step S16, as training data, not only the common structure and differential structure of the selected compound, but also the types of atoms constituting two compounds of the selected compound and the bonding state between atoms are input as supervised training data, and machine learning is performed. In such a case, the types of atoms constituting the compound and the state of bonding between atoms may be input into the compound property prediction model.
以上のように、本実施の形態における化合物性質予測装置100では、化合物の共通構造及び差分構造を含む訓練データを用いて機械学習させることによって、性質が未知である化合物の性質をより適切に予測できる化合物性質予測モデルを構築することができる。また、機械学習に用いられるデータを時系列的に並べたうえで分割して、後のグループに該当するデータを評価データや検証データとすることによって、性質が未知である化合物の性質をさらに適切に予測できる化合物性質予測モデルを構築することができる。
As described above, the compound
なお、本実施の形態における化合物性質予測装置100では、データ分割手段、化合物選択手段、構造解析手段、性質学習手段、性質予測手段を1つの装置にて実現する構成としたが、これらの手段を異なる装置や異なる実行主体にて実現するようにしてもよい。例えば、これらの手段のうち幾つかをサーバコンピュータで実現し、残りの手段をクライアントコンピュータで実現するようにしてもよい。
In the compound
10 処理部、12 記憶部、14 入力部、16 出力部、18 通信部、20 処理部、22 記憶部、24 入力部、26 出力部、28 通信部、100 化合物性質予測装置。
10 processing unit, 12 storage unit, 14 input unit, 16 output unit, 18 communication unit, 20 processing unit, 22 storage unit, 24 input unit, 26 output unit, 28 communication unit, 100 compound property prediction device.
Claims (7)
複数の化合物について、創薬研究におけるリード化合物の最適化プログラムにおいて得られた化合物と当該化合物について実測された性質を当該化合物の各々に関連付けた化合物データベースを記憶した記憶手段にアクセス可能であり、
前記化合物データベースから選択された2つの化合物を選択化合物として、前記選択化合物の共通構造及び差分構造と、前記選択化合物の前記性質と、の組み合わせを少なくとも含む教師付訓練データとして用いて、予測対象である化合物に対する前記性質を予測するために、前記化合物データベースに含まれるデータを前記最適化プログラム毎に時系列的に並べて分割し、前部分のデータを前記教師付訓練データとして用い、後部分のデータを検証データ又は評価データとして用いて機械学習をさせた化合物性質予測モデルを構築する性質学習手段と、
前記予測対象である化合物と前記化合物データベースから選択された化合物の共通構造及び差分構造を前記化合物性質予測モデルへ入力することによって、前記化合物性質予測モデルの出力として前記予測対象である化合物の前記性質の予測結果を得る性質予測手段と、
を備えることを特徴とする化合物性質予測装置。 A compound property prediction device for predicting properties of a compound,
For a plurality of compounds, a storage means storing a compound database in which compounds obtained in a lead compound optimization program in drug discovery research and properties actually measured for the compounds are associated with each of the compounds,
Using two compounds selected from the compound database as selected compounds as supervised training data including at least a combination of the common structure and the differential structure of the selected compounds and the properties of the selected compounds, a prediction target In order to predict the property of a certain compound, the data contained in the compound database is arranged in time series and divided for each of the optimization programs, the data of the front part is used as the supervised training data, and the data of the back part A property learning means for constructing a compound property prediction model that is machine-learned using as verification data or evaluation data ,
By inputting the common structure and differential structure of the compound to be predicted and the compound selected from the compound database to the compound property prediction model, the property of the compound to be predicted as the output of the compound property prediction model A property prediction means for obtaining a prediction result of
A compound property prediction device comprising:
前記化合物性質予測モデルは、グラフニューラルネットワーク(GNN)を用いて、前記共通構造を共通グラフ構造とし、前記差分構造を差分グラフ構造として前記教師付訓練データとして用いることを特徴とする化合物性質予測装置。 The compound property prediction device according to claim 1,
The compound property prediction model uses a graph neural network (GNN) as the common structure as a common graph structure and the difference structure as a difference graph structure as the supervised training data. .
最大共通部分構造解析(MCS)によって前記選択化合物の共通構造を求めることを特徴とする化合物性質予測装置。 The compound property prediction device according to claim 1 or 2,
A compound property prediction device, wherein the common structure of the selected compound is determined by maximum common substructure analysis (MCS).
前記性質は、化合物に対するADMET属性の少なくとも1つであることを特徴とする化合物性質予測装置。 The compound property prediction device according to any one of claims 1 to 3,
A compound property prediction device, wherein the property is at least one ADMET attribute for the compound.
前記化合物データベースは、前記リード化合物に対する複数の前記最適化プログラムにおいて得られた化合物と当該化合物について実測された性質とを含み、前記検証データを前記最適化プログラム毎に順番に選択して前記機械学習を繰り返して行うことを特徴とする化合物性質予測装置。 The compound property prediction device according to claim 1 ,
The compound database includes compounds obtained in a plurality of the optimization programs for the lead compound and properties actually measured for the compounds, and the verification data is sequentially selected for each optimization program to perform the machine learning. A compound property prediction device characterized by repeatedly performing.
複数の化合物について、創薬研究におけるリード化合物の最適化プログラムにおいて得られた化合物と当該化合物について実測された性質を当該化合物の各々に関連付けた化合物データベースを記憶した記憶手段にアクセス可能であるコンピュータを、
前記化合物データベースから選択された2つの化合物を選択化合物として、前記選択化合物の共通構造及び差分構造と、前記選択化合物の前記性質と、の組み合わせを少なくとも含む教師付訓練データとして用いて、予測対象である化合物に対する前記性質を予測するために、前記化合物データベースに含まれるデータを前記最適化プログラム毎に時系列的に並べて分割し、前部分のデータを前記教師付訓練データとして用い、後部分のデータを検証データ又は評価データとして用いて機械学習をさせた化合物性質予測モデルを構築する性質学習手段と、
前記予測対象である化合物と前記化合物データベースから選択された化合物の共通構造及び差分構造を前記化合物性質予測モデルへ入力することによって、前記化合物性質予測モデルの出力として前記予測対象である化合物の前記性質の予測結果を得る性質予測手段として、機能させることを特徴とする化合物性質予測プログラム。 A compound property prediction program for predicting properties of a compound,
For a plurality of compounds, a computer capable of accessing a storage means storing a compound database in which compounds obtained in a lead compound optimization program in drug discovery research and properties actually measured for the compounds are associated with each of the compounds. ,
Using two compounds selected from the compound database as selected compounds as supervised training data including at least a combination of the common structure and the differential structure of the selected compounds and the properties of the selected compounds, a prediction target In order to predict the property of a certain compound, the data contained in the compound database is arranged in time series and divided for each of the optimization programs, the data of the front part is used as the supervised training data, and the data of the back part as verification data or evaluation data, and a property learning means for constructing a compound property prediction model that is machine-learned;
By inputting the common structure and differential structure of the compound to be predicted and the compound selected from the compound database to the compound property prediction model, the property of the compound to be predicted as the output of the compound property prediction model A compound property prediction program characterized by functioning as a property prediction means for obtaining a prediction result of.
複数の化合物について、創薬研究におけるリード化合物の最適化プログラムにおいて得られた化合物と当該化合物について実測された性質を当該化合物の各々に関連付けた化合物データベースを記憶した記憶手段にアクセス可能であるコンピュータを用いて、
前記化合物データベースから選択された2つの化合物を選択化合物として、前記選択化合物の共通構造及び差分構造と、前記選択化合物の前記性質と、の組み合わせを少なくとも含む教師付訓練データとして用いて、予測対象である化合物に対する前記性質を予測するために、前記化合物データベースに含まれるデータを前記最適化プログラム毎に時系列的に並べて分割し、前部分のデータを前記教師付訓練データとして用い、後部分のデータを検証データ又は評価データとして用いて機械学習をさせた化合物性質予測モデルを構築する性質学習工程と、
前記予測対象である化合物と前記化合物データベースから選択された化合物の共通構造及び差分構造を前記化合物性質予測モデルへ入力することによって、前記化合物性質予測モデルの出力として前記予測対象である化合物の前記性質の予測結果を得る性質予測工程と、
を備えることを特徴とする化合物性質予測方法。 A compound property prediction method for predicting the properties of a compound,
For a plurality of compounds, a computer capable of accessing a storage means storing a compound database in which compounds obtained in a lead compound optimization program in drug discovery research and properties actually measured for the compounds are associated with each of the compounds. make use of,
Using two compounds selected from the compound database as selected compounds as supervised training data including at least a combination of the common structure and the differential structure of the selected compounds and the properties of the selected compounds, a prediction target In order to predict the property of a certain compound, the data contained in the compound database is arranged in time series and divided for each of the optimization programs, the data of the front part is used as the supervised training data, and the data of the back part A property learning step of constructing a compound property prediction model subjected to machine learning using as verification data or evaluation data ;
By inputting the common structure and differential structure of the compound to be predicted and the compound selected from the compound database to the compound property prediction model, the property of the compound to be predicted as the output of the compound property prediction model A property prediction step of obtaining a prediction result of
A compound property prediction method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019200488A JP7218274B2 (en) | 2019-11-05 | 2019-11-05 | Compound Property Prediction Apparatus, Compound Property Prediction Program, and Compound Property Prediction Method for Predicting Properties of Compound |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019200488A JP7218274B2 (en) | 2019-11-05 | 2019-11-05 | Compound Property Prediction Apparatus, Compound Property Prediction Program, and Compound Property Prediction Method for Predicting Properties of Compound |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021076890A JP2021076890A (en) | 2021-05-20 |
JP7218274B2 true JP7218274B2 (en) | 2023-02-06 |
Family
ID=75899043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019200488A Active JP7218274B2 (en) | 2019-11-05 | 2019-11-05 | Compound Property Prediction Apparatus, Compound Property Prediction Program, and Compound Property Prediction Method for Predicting Properties of Compound |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7218274B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117651956A (en) * | 2021-06-22 | 2024-03-05 | 三菱电机株式会社 | Verification method determination device and verification method determination method |
CN113488114B (en) * | 2021-07-13 | 2024-03-01 | 南京邮电大学 | Prediction method for intermolecular non-covalent bond weak interaction energy in fluorenyl molecular crystal containing spiro and prediction model training method thereof |
CN113707235B (en) * | 2021-08-30 | 2023-09-26 | 平安科技(深圳)有限公司 | Drug micromolecule property prediction method, device and equipment based on self-supervision learning |
JP2024113610A (en) * | 2023-02-09 | 2024-08-22 | 日本電気株式会社 | Machine learning device, machine learning method, and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003203078A (en) | 2001-10-19 | 2003-07-18 | Mitsubishi Electric Corp | Physiology analyzing method and system |
US20040009536A1 (en) | 2001-07-30 | 2004-01-15 | George Grass | System and method for predicting adme/tox characteristics of a compound |
JP2019010095A (en) | 2017-06-30 | 2019-01-24 | 学校法人 明治薬科大学 | Prediction apparatus, prediction method, prediction program, learning model input data generation apparatus, learning model input data generation program |
WO2019048965A1 (en) | 2017-09-06 | 2019-03-14 | 株式会社半導体エネルギー研究所 | Physical property prediction method and physical property prediction system |
-
2019
- 2019-11-05 JP JP2019200488A patent/JP7218274B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040009536A1 (en) | 2001-07-30 | 2004-01-15 | George Grass | System and method for predicting adme/tox characteristics of a compound |
JP2003203078A (en) | 2001-10-19 | 2003-07-18 | Mitsubishi Electric Corp | Physiology analyzing method and system |
JP2019010095A (en) | 2017-06-30 | 2019-01-24 | 学校法人 明治薬科大学 | Prediction apparatus, prediction method, prediction program, learning model input data generation apparatus, learning model input data generation program |
WO2019048965A1 (en) | 2017-09-06 | 2019-03-14 | 株式会社半導体エネルギー研究所 | Physical property prediction method and physical property prediction system |
Non-Patent Citations (1)
Title |
---|
Kathrin Heikamp, 他3名,"Prediction of Activity Cliffs Using Support Vector Machines",[online],米国,ACS Publications,2012年07月02日,[2022年7月8日検索], インターネット<URL:https://pubs.acs.org/doi/pdf/10.1021/ci300306a> |
Also Published As
Publication number | Publication date |
---|---|
JP2021076890A (en) | 2021-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7218274B2 (en) | Compound Property Prediction Apparatus, Compound Property Prediction Program, and Compound Property Prediction Method for Predicting Properties of Compound | |
Blaschke et al. | Memory-assisted reinforcement learning for diverse molecular de novo design | |
Dai et al. | Matrix factorization‐based prediction of novel drug indications by integrating genomic space | |
Huang et al. | A sparse structure learning algorithm for Gaussian Bayesian network identification from high-dimensional data | |
Farah et al. | Bayesian emulation and calibration of a dynamic epidemic model for A/H1N1 influenza | |
CN106251174A (en) | Information recommendation method and device | |
CN114730618A (en) | Systems and methods for designing organic synthesis pathways for desired organic molecules | |
JP6567484B2 (en) | Estimated model construction system, estimated model construction method and program | |
WO2021054026A1 (en) | Material property prediction system and material property prediction method | |
Chellappa et al. | An adaptive sampling approach for the reduced basis method | |
Kizielewicz et al. | A study of different distance metrics in the TOPSIS method | |
Tousi et al. | Comparative analysis of machine learning models for performance prediction of the spec benchmarks | |
JPWO2018088277A1 (en) | Prediction model generation system, method and program | |
Czibula et al. | Temporal ordering of cancer microarray data through a reinforcement learning based approach | |
Duggan | Using R libraries to facilitate sensitivity analysis and to calibrate system dynamics models. | |
Sosnina et al. | Improvement of multi-task learning by data enrichment: application for drug discovery | |
Sinha et al. | Neural architecture search using covariance matrix adaptation evolution strategy | |
JP5555238B2 (en) | Information processing apparatus and program for Bayesian network structure learning | |
Maruotti et al. | Time-varying clustering of multivariate longitudinal observations | |
Mbadiwe et al. | ParaMODA: Improving motif-centric subgraph pattern search in PPI networks | |
Mundra et al. | Inferring time-delayed gene regulatory networks using cross-correlation and sparse regression | |
Boeva et al. | Analysis of multiple DNA microarray datasets | |
JP7339923B2 (en) | System for estimating material property values | |
Kamkar et al. | Exploiting feature relationships towards stable feature selection | |
JPWO2018088276A1 (en) | Prediction model generation system, method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220719 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220916 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230125 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7218274 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |