JP7133534B2 - AUTOMATIC COMPOUND STRUCTURE GENERATOR, AUTOMATIC COMPOUND STRUCTURE GENERATION PROGRAM AND AUTOMATIC COMPOUND STRUCTURE GENERATION METHOD - Google Patents

AUTOMATIC COMPOUND STRUCTURE GENERATOR, AUTOMATIC COMPOUND STRUCTURE GENERATION PROGRAM AND AUTOMATIC COMPOUND STRUCTURE GENERATION METHOD Download PDF

Info

Publication number
JP7133534B2
JP7133534B2 JP2019206077A JP2019206077A JP7133534B2 JP 7133534 B2 JP7133534 B2 JP 7133534B2 JP 2019206077 A JP2019206077 A JP 2019206077A JP 2019206077 A JP2019206077 A JP 2019206077A JP 7133534 B2 JP7133534 B2 JP 7133534B2
Authority
JP
Japan
Prior art keywords
compound
automatic
nodes
generation
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019206077A
Other languages
Japanese (ja)
Other versions
JP2021081769A (en
Inventor
和樹 藤川
悠介 中嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DeNA Co Ltd
Original Assignee
DeNA Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DeNA Co Ltd filed Critical DeNA Co Ltd
Priority to JP2019206077A priority Critical patent/JP7133534B2/en
Publication of JP2021081769A publication Critical patent/JP2021081769A/en
Application granted granted Critical
Publication of JP7133534B2 publication Critical patent/JP7133534B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、化合物の構造を自動生成するための化合物構造自動生成装置、化合物構造自動生成プログラム及び化合物構造自動生成方法に関する。 The present invention relates to an automatic compound structure generation apparatus, an automatic compound structure generation program, and an automatic compound structure generation method for automatically generating compound structures.

創薬研究では、新薬の候補として見出された新薬候補化合物(以下、リード化合物という)を基準として、リード化合物の構造を変更するように設計、合成及び評価を繰り返すことによって新薬としての化合物の構造を徐々に最適化していく作業(以下、最適化プログラムという)が行われる。 In drug discovery research, a new drug candidate compound (hereinafter referred to as a lead compound) that has been discovered as a new drug candidate is used as a standard, and by repeating design, synthesis, and evaluation so as to change the structure of the lead compound, the compound as a new drug is developed. An operation (hereinafter referred to as an optimization program) is performed to gradually optimize the structure.

最適化プログラムでは、例えば、モンテカルロ木探索(MCTS:Monte Carlo Tree Search)を適用したChemTSという手法を用いてSMILES記法で記述された化合物から派生させた新たな化合物の探索を行う処理が行われている。このとき、リード化合物における医薬としての主活性(薬効)を維持しつつ、人体や動物における吸収(absorption)、分布(distribution)、代謝(metabolism)、排泄(excretion)及び毒性(toxicity)に関する化合物の性質を示すADMET属性を改善するように化合物を探索する。 In the optimization program, for example, a process of searching for new compounds derived from compounds described in SMILES notation using a method called ChemTS to which Monte Carlo Tree Search (MCTS) is applied is performed. there is At this time, while maintaining the main activity (drug effect) as a drug in the lead compound, it is possible to improve the compound's absorption, distribution, metabolism, excretion, and toxicity in humans and animals. Compounds are searched to improve the ADMET attribute that indicates the property.

https://arxiv.org/abs/1710.00616https://arxiv.org/abs/1710.00616

ところで、ChemTSを用いてSMILES記法で記述された化合物から新たな化合物の探索する場合、SMILES記法では表現できない化合物の構造があり、最適化プログラムでの探索の範囲が限定されてしまうという問題がある。 By the way, when using ChemTS to search for new compounds from compounds described in SMILES notation, there is a problem that there are compound structures that cannot be expressed in SMILES notation, and the range of search by the optimization program is limited. .

本発明の1つの態様は、化合物の構造を自動生成するための化合物構造自動生成装置であって、化合物の基本構造を構成する原子をノードとして表したノード情報と、前記原子の結合状態を前記ノード間を繋ぐエッジとして表したグラフ構造における隣接行列と、当該基本構造の前記ノードのいずれかに結合することが既知である付加構造と、の組み合わせを含む教師付訓練データを用いて、化合物の基本構造に結合可能な付加構造を自動生成するための機械学習をさせた構造自動生成モデルを構築する自動生成学習手段と、対象となる化合物の基本構造を前記構造自動生成モデルに入力することによって、前記構造自動生成モデルの出力として当該基本構造に結合可能な付加構造を自動生成する構造自動生成手段と、
を備えることを特徴とする化合物構造自動生成装置である。
One aspect of the present invention is an automatic compound structure generation apparatus for automatically generating a structure of a compound, wherein node information representing atoms constituting a basic structure of a compound as nodes, and bonding states of the atoms are Using supervised training data containing a combination of an adjacency matrix in a graph structure represented as edges connecting nodes and an additional structure known to be connected to any of the nodes of the basic structure, Automatic generation learning means for constructing an automatic structure generation model subjected to machine learning for automatically generating an additional structure that can bind to a basic structure, and inputting the basic structure of a target compound into the automatic structure generation model. , automatic structure generation means for automatically generating an additional structure that can be bound to the basic structure as an output of the automatic structure generation model;
A compound structure automatic generation device characterized by comprising

ここで、前記構造自動生成モデルは、グラフニューラルネットワーク(GNN)を用いることが好適である。 Here, the structure automatic generation model preferably uses a graph neural network (GNN).

また、前記構造自動生成手段では、前記基本構造を維持したまま結合可能な付加構造を自動生成することが好適である。 Further, it is preferable that the structure automatic generation means automatically generates an additional structure that can be combined while maintaining the basic structure.

本発明の別の態様は、化合物の構造を自動生成するための化合物構造自動生成プログラムであって、コンピュータを、化合物の基本構造を構成する原子をノードとして表したノード情報と、前記原子の結合状態を前記ノード間を繋ぐエッジとして表したグラフ構造における隣接行列と、当該基本構造の前記ノードのいずれかに結合することが既知である付加構造と、の組み合わせを含む教師付訓練データを用いて、化合物の基本構造に結合可能な付加構造を自動生成するための機械学習をさせた構造自動生成モデルを構築する自動生成学習手段と、対象となる化合物の基本構造を前記構造自動生成モデルに入力することによって、前記構造自動生成モデルの出力として当該基本構造に結合可能な付加構造を自動生成する構造自動生成手段と、として機能させることを特徴とする化合物構造自動生成プログラムである。 Another aspect of the present invention is an automatic compound structure generation program for automatically generating a structure of a compound, wherein a computer generates node information representing atoms constituting a basic structure of a compound as nodes, and bonds between the atoms. Using supervised training data including a combination of an adjacency matrix in a graph structure representing states as edges connecting the nodes, and an additional structure known to connect to any of the nodes of the basic structure , an automatic generation learning means for constructing an automatic structure generation model through machine learning for automatically generating an additional structure that can bind to the basic structure of the compound; and inputting the basic structure of the target compound into the automatic structure generation model. and automatic structure generation means for automatically generating an additional structure that can be bound to the basic structure as an output of the automatic structure generation model.

本発明の別の態様は、化合物の構造を自動生成するための化合物構造自動生成方法であって、コンピュータに、化合物の基本構造を構成する原子をノードとして表したノード情報と、前記原子の結合状態を前記ノード間を繋ぐエッジとして表したグラフ構造における隣接行列と、当該基本構造の前記ノードのいずれかに結合することが既知である付加構造と、の組み合わせを含む教師付訓練データを用いて、化合物の基本構造に結合可能な付加構造を自動生成するための機械学習をさせた構造自動生成モデルを構築する自動生成学習工程と、対象となる化合物の基本構造を前記構造自動生成モデルに入力することによって、前記構造自動生成モデルの出力として当該基本構造に結合可能な付加構造を自動生成する構造自動生成工程と、を実行させることを特徴とする化合物構造自動生成方法である。 Another aspect of the present invention is an automatic compound structure generation method for automatically generating a structure of a compound, wherein a computer stores node information representing atoms constituting a basic structure of a compound as nodes, and bonds of the atoms. Using supervised training data including a combination of an adjacency matrix in a graph structure representing states as edges connecting the nodes, and an additional structure known to connect to any of the nodes of the basic structure , an automatic generation learning step of constructing an automatic structure generation model through machine learning for automatically generating an additional structure that can bind to the basic structure of the compound; and inputting the basic structure of the target compound into the automatic structure generation model. and an automatic structure generation step of automatically generating an additional structure that can be bound to the basic structure as an output of the automatic structure generation model.

本発明の実施の形態は、新たな化合物の構造を自動生成することが可能な化合物構造自動生成装置、化合物構造自動生成プログラム及び化合物構造自動生成方法を提供することを目的の1つとする。本発明の実施の形態の他の目的は、本明細書全体を参照することにより明らかになる。 One object of the embodiments of the present invention is to provide an automatic compound structure generation apparatus, an automatic compound structure generation program, and an automatic compound structure generation method that can automatically generate a new compound structure. Other objects of embodiments of the present invention will become apparent by reference to the specification as a whole.

本発明の実施の形態における化合物構造自動生成装置の構成を示す図である。BRIEF DESCRIPTION OF THE DRAWINGS It is a figure which shows the structure of the compound structure automatic generation apparatus in embodiment of this invention. 本発明の実施の形態における化合物構造自動生成方法を示すフローチャートである。1 is a flow chart showing a compound structure automatic generation method according to an embodiment of the present invention. 本発明の実施の形態における化合物データベースの例を示す図である。It is a figure which shows the example of the compound database in embodiment of this invention. 本発明の実施の形態における化合物の構造例を示す図である。It is a figure which shows the structural example of the compound in embodiment of this invention. 本発明の実施の形態における化合物をグラフ構造として表したときの隣接行例の例を示す図である。It is a figure which shows the example of an adjacent row when the compound in embodiment of this invention is represented as graph structure. 本発明の実施の形態における化合物をグラフ構造として表したときの隣接行例の例を示す図である。It is a figure which shows the example of an adjacent row when the compound in embodiment of this invention is represented as graph structure. 本発明の実施の形態における化合物の基本構造及び差分構造の例を示す図である。It is a figure which shows the example of the basic structure and differential structure of the compound in embodiment of this invention. 本発明の実施の形態における化合物構造自動生成モデルの機械学習を説明する図である。FIG. 4 is a diagram illustrating machine learning of the compound structure automatic generation model in the embodiment of the present invention;

本発明の実施の形態における化合物構造自動生成装置100は、図1に示すように、処理部10、記憶部12、入力部14、出力部16及び通信部18を含んで構成される。 The compound structure automatic generation device 100 according to the embodiment of the present invention comprises a processing unit 10, a storage unit 12, an input unit 14, an output unit 16 and a communication unit 18, as shown in FIG.

化合物構造自動生成装置100は、一般的なコンピュータにより構成することができる。処理部10は、CPU等を含んで構成され、化合物構造自動生成装置100における処理を統合的に行う。処理部10は、記憶部12に記憶されている化合物構造自動生成プログラムを実行することにより、本実施の形態における化合物構造自動生成処理を行う。記憶部12は、化合物構造自動生成処理において用いられる化合物構造自動生成モデル(化合物構造自動生成器)、創薬研究において基本となる化合物の構造データ及び自動生成により得られた化合物の構造データ等、化合物構造自動生成処理において必要な情報を記憶する。記憶部12は、例えば、半導体メモリ、ハードディスク等で構成することができる。記憶部12は、化合物構造自動生成装置100の内部に設けてもよいし、無線や有線等の情報網を利用して処理部10からアクセスできるように外部に設けてもよい。入力部14は、化合物構造自動生成装置100に対して情報を入力するための手段を含む。出力部16は、化合物構造自動生成装置100において処理された情報を表示させる手段を含む。通信部18は、外部の装置(サーバ等)との情報交換を行うためのインターフェースを含んで構成される。通信部18は、例えば、インターネット等の情報通信網に接続されることによって、外部の装置との通信を可能にする。 The compound structure automatic generation device 100 can be configured by a general computer. The processing unit 10 includes a CPU and the like, and integrally performs processing in the compound structure automatic generation apparatus 100 . The processing unit 10 executes the compound structure automatic generation program stored in the storage unit 12 to perform the compound structure automatic generation process according to the present embodiment. The storage unit 12 stores a compound structure automatic generation model (compound structure automatic generator) used in the compound structure automatic generation process, compound structure data that is the basis for drug discovery research, compound structure data obtained by automatic generation, etc. Stores information necessary for automatic compound structure generation processing. The storage unit 12 can be composed of, for example, a semiconductor memory, a hard disk, or the like. The storage unit 12 may be provided inside the compound structure automatic generation apparatus 100, or may be provided outside so as to be accessible from the processing unit 10 using an information network such as wireless or wired. The input unit 14 includes means for inputting information to the compound structure automatic generation device 100 . The output unit 16 includes means for displaying information processed by the compound structure automatic generation device 100 . The communication unit 18 includes an interface for exchanging information with an external device (server or the like). The communication unit 18 enables communication with external devices by being connected to an information communication network such as the Internet.

[化合物構造自動生成処理]
以下、図2のフローチャートを参照して、本実施の形態における化合物構造自動生成処理について説明する。化合物構造自動生成装置100は、化合物構造自動生成プログラムを実行することによって、自動生成の基礎となる化合物の構造から派生させた化合物の構造を自動生成するための機械学習を行って化合物構造自動生成モデル(化合物構造自動生成器)を生成し、当該化合物構造自動生成モデルを用いて新たな化合物の構造を自動生成する処理を行う。
[Compound structure automatic generation processing]
The compound structure automatic generation process according to the present embodiment will be described below with reference to the flowchart of FIG. The compound structure automatic generation apparatus 100 executes a compound structure automatic generation program to perform machine learning for automatically generating a compound structure derived from a compound structure serving as a basis for automatic generation, thereby automatically generating a compound structure. A model (compound structure automatic generator) is generated, and a process of automatically generating a new compound structure using the compound structure automatic generation model is performed.

本実施の形態では、一例として、創薬研究において新薬の候補として見出されたリード化合物の構造から派生的な化合物の構造を自動生成する処理について説明する。ただし、本発明の適用範囲は、これに限定されるものではなく、基礎となる化合物の構造から新たな化合物の構造を派生的に生成する処理であれば適用範囲となる。 In the present embodiment, as an example, processing for automatically generating the structure of a derivative compound from the structure of a lead compound found as a new drug candidate in drug discovery research will be described. However, the scope of application of the present invention is not limited to this, and any process that derives a new compound structure from the structure of a basic compound is applicable.

ステップS10では、化合物構造自動生成モデルを機械学習させるための訓練データの読み込み処理が行われる。当該ステップにおける処理によって、化合物構造自動生成装置100はデータ取得手段として機能する。 In step S10, a process of reading training data for machine learning of the compound structure automatic generation model is performed. Through the processing in this step, the compound structure automatic generation device 100 functions as data acquisition means.

化合物の構造は、グラフ構造として表現することができる。すなわち、化合物を構成する「原子」を“ノード”とし、「原子間の結合」をノードを繋ぐ“エッジ”としたグラフ構造として表現できる。具体的には、グラフ構造の“ノード”に該当する原子の元素種、“エッジ”に該当する原子間の結合関係及び結合状態を示す情報を化合物データベースとして記憶部12に記憶させる。 The structure of a compound can be represented as a graph structure. That is, it can be expressed as a graph structure in which "atoms" constituting a compound are "nodes" and "bonds between atoms" are "edges" connecting the nodes. Specifically, information indicating element species of atoms corresponding to "nodes" of the graph structure and bonding relationships and bonding states between atoms corresponding to "edges" is stored in the storage unit 12 as a compound database.

図3は、化合物の構造の例を示す。図3(a)は化合物の構造を示し、図3(b)は当該化合物を構成する原子にノード番号を割り当てたグラフ構造を示す。 FIG. 3 shows examples of compound structures. FIG. 3(a) shows the structure of a compound, and FIG. 3(b) shows a graph structure in which node numbers are assigned to atoms constituting the compound.

図4は、化合物データベースとして記憶された当該化合物の構造を示す構造データの例を示す。化合物データベースには、化合物毎に特有に割り当てられた化合物ID、化合物名、ノード毎の元素種、ノード間の結合状態を示す隣接行列データ及び組み合わせ可能な化学構造が関連付けて記憶される。 FIG. 4 shows an example of structural data representing the structure of the compound stored as a compound database. In the compound database, a compound ID uniquely assigned to each compound, a compound name, element species for each node, adjacency matrix data indicating the bonding state between nodes, and combinable chemical structures are stored in association with each other.

なお、ノード毎の元素種は、ノード毎の特徴ベクトルとして表現することができる。例えば、当該特徴ベクトルを[炭素(C),水素(H),酸素(O),窒素(N)・・・]で表す場合、ノードが炭素(C)である場合には特徴ベクトル[1,0,0,0・・・]、ノードが水素(H)である場合には特徴ベクトル[0,1,0,0・・・]、ノードが酸素(O)である場合には特徴ベクトル[0,0,1,0・・・]、ノードが窒素(N)である場合には特徴ベクトル[0,0,0,1・・・]として表すことができる。 Note that the element species for each node can be expressed as a feature vector for each node. For example, when the feature vector is represented by [carbon (C), hydrogen (H), oxygen (O), nitrogen (N)...], if the node is carbon (C), the feature vector [1, 0,0,0...], if the node is hydrogen (H) then the feature vector [0,1,0,0...] if the node is oxygen (O) then the feature vector [ 0,0,1,0...], or the feature vector [0,0,0,1...] if the node is nitrogen (N).

隣接行列とは、グラフ構造においてノード間がエッジによってどのように結合されているかを示す行列である。隣接行列は、グラフ構造におけるノードの数の行及び列を有する正方行列である。 An adjacency matrix is a matrix that indicates how nodes are connected by edges in a graph structure. An adjacency matrix is a square matrix with rows and columns of the number of nodes in the graph structure.

例えば、図3(a)に示した化合物の構成では、ノード1~ノード7の相互の結合関係を図5に示す隣接行列として表すことができる。すなわち、隣接行列は、ノードNに対応する原子とノードMに対応する原子とが化学結合されている場合には行列要素(N,M)及び行列要素(M,N)の値を“1”とし、化学結合されていない場合には値を“0”とした行列である。対角要素の値は、“0”とする。例えば、ノード1に対応する原子とノード2に対応する原子は化学結合されているので行列要素(1,2)及び行列要素(2,1)は“1”とし、ノード2に対応する原子とノード3に対応する原子は化学結合されていないので行列要素(2,3)及び(3,2)は“0”としている。 For example, in the configuration of the compound shown in FIG. 3A, the mutual coupling relationships of nodes 1 to 7 can be expressed as an adjacency matrix shown in FIG. That is, in the adjacency matrix, when the atom corresponding to the node N and the atom corresponding to the node M are chemically bonded, the values of the matrix element (N, M) and the matrix element (M, N) are "1". and the value is "0" when not chemically bonded. The value of the diagonal element is "0". For example, since the atom corresponding to node 1 and the atom corresponding to node 2 are chemically bonded, the matrix element (1,2) and the matrix element (2,1) are set to "1", and the atom corresponding to node 2 and Since atoms corresponding to node 3 are not chemically bonded, matrix elements (2,3) and (3,2) are "0".

また、ノード間の結合状態を含めて化合物の自動生成モデルを構築する場合、図6に示すように、化学結合の状態も含めて表した隣接行列を使用してもよい。例えば、隣接行列は、ノードNに対応する原子とノードMに対応する原子とが化学結合されている場合、結合状態が単結合であるときには行列要素(N,M)及び行列要素(M,N)の値を“1”とし、二重結合であるときには“2”とし、三重結合であるときには“3”とし、化学結合されていない場合には値を“0”として表すことができる。対角要素の値は、“0”とする。 When constructing an automatically generated model of a compound including the state of bonding between nodes, an adjacency matrix representing the state of chemical bonding as well, as shown in FIG. 6, may be used. For example, when the atom corresponding to node N and the atom corresponding to node M are chemically bonded, the adjacency matrix includes matrix element (N, M) and matrix element (M, N ) can be expressed as "1", double bond as "2", triple bond as "3", and not chemically bonded as "0". The value of the diagonal element is "0".

化合物の構造をグラフ構造として表現するためには、既存のグラフ解析プログラムを適用することができる。 An existing graph analysis program can be applied to express the structure of a compound as a graph structure.

本実施の形態では、化合物構造自動生成モデルを機械学習させるために、化合物の構成を示すグラフ構造データと当該化合物において派生的に組み合わせできる化学構造を付加構造として組み合わせて教師付訓練データとして使用する。例えば、図7(b)及び図7(c)に示すように、図7(a)の基本構造を有する化合物に対して、当該基本構造のいずれかの原子(グラフ構造におけるノード)に結合可能な付加構造が存在し得る場合には、基本構造と付加構造である化学構造(CM1,CM2)とを組み合わせて教師付訓練データとして使用する。具体的には、基本構造を訓練データとして、当該基本構造に組み合わせ可能な付加構造を教師データとして関連付けて教師付訓練データとして予め化合物データベースに記憶させておけばよい。 In the present embodiment, in order to perform machine learning on a compound structure automatic generation model, graph structure data indicating the composition of a compound and chemical structures that can be derived in combination in the compound are combined as additional structures and used as supervised training data. . For example, as shown in FIGS. 7(b) and 7(c), for a compound having the basic structure of FIG. 7(a), any atom (node in the graph structure) of the basic structure can If such an additional structure can exist, the basic structure and the chemical structures (CM1, CM2), which are the additional structures, are combined and used as supervised training data. Specifically, a basic structure may be used as training data, and an additional structure that can be combined with the basic structure may be associated as teacher data and stored in advance in a compound database as supervised training data.

ステップS12では、化合物の構造自動生成モデルの機械学習が行われる。当該ステップにおける処理によって、化合物構造自動生成装置100は自動生成学習手段として機能する。 In step S12, machine learning of the structure automatic generation model of the compound is performed. Through the processing in this step, the compound structure automatic generation device 100 functions as automatic generation learning means.

処理部10は、図8に示すように、ステップS10において取得された教師付訓練データの化合物の基本構造及び当該化合物に対して派生的に組み合わせ可能な付加構造の組み合わせを教師付訓練データとして、新たな化合物の構造を入力することによって当該化合物に派生的に組み合わせ可能な付加構造が出力されるように化合物構造自動生成モデルを機械学習させる。 As shown in FIG. 8, the processing unit 10 converts, as supervised training data, a combination of the basic structure of the compound of the supervised training data acquired in step S10 and the additional structure that can be derived from the compound, By inputting the structure of a new compound, a compound structure automatic generation model is machine-learned so that an additional structure that can be derived and combined with the compound is output.

化合物構造自動生成モデルには、グラフニューラルネットワーク(GNN:Graph Neural Network)を適用することが好適である。GNNは、グラフ構造を扱うニューラルネットワークであり、多くのモデルが提唱されている。機械学習のモデルでは、ニューラルネットワークの層数、活性化関数、損失関数等は適宜選択することが好適である。 A graph neural network (GNN) is preferably applied to the compound structure automatic generation model. GNN is a neural network that handles graph structures, and many models have been proposed. In the machine learning model, it is preferable to appropriately select the number of layers of the neural network, the activation function, the loss function, and the like.

具体的には、例えば以下のように処理を行う。ステップS10において取得した化合物の基本構造をGNNの入力として、基本構造のノード毎の元素種を示す特徴ベクトル及び隣接行列に対してグラフ畳み込み処理(Convolution)を行い、ノード毎の特徴ベクトルを得る。このようにして得られた基本構造のグラフ構造における各ノードに対する特徴ベクトルを入力として、当該基本構造に対して派生的に組み合わせ可能な付加構造のグラフ構造を出力する化合物構造自動生成モデルが構築されるように機械学習を行う。 Specifically, for example, the processing is performed as follows. Using the basic structure of the compound obtained in step S10 as an input to the GNN, graph convolution processing (Convolution) is performed on the feature vector and the adjacency matrix indicating the element species for each node of the basic structure to obtain the feature vector for each node. A feature vector for each node in the graph structure of the basic structure thus obtained is used as an input, and an automatic compound structure generation model is constructed that outputs a graph structure of additional structures that can be derived and combined with the basic structure. machine learning to

なお、機械学習では、化合物データベースに含まれるいずれかの基本構造及び当該基本構造に組み合わせ可能な付加構造を検証データ(バリデーションデータ)や評価データ(テストデータ)として使用してもよい。 In machine learning, any basic structure included in the compound database and an additional structure that can be combined with the basic structure may be used as verification data (validation data) or evaluation data (test data).

ステップS14では、化合物の構造の自動生成処理が行われる。当該ステップにおける処理によって、化合物構造自動生成装置100は構造自動生成手段として機能する。 In step S14, automatic generation processing of the compound structure is performed. Through the processing in this step, the compound structure automatic generation device 100 functions as structure automatic generation means.

ユーザは、新たに派生的な構造を自動生成する対象となる化合物の基本構造をステップS12において構築された化合物構造自動生成モデルに入力することによって、当該基本構造に対して組み合わせ可能な付加構造を自動生成させる。具体的には、グラフ解析プログラムを用いて化合物の基本構造についてグラフ構造を求め、当該グラフ構造を化合物構造自動生成モデルへ入力することによって、当該化合物に対して組み合わせ可能な付加構造が自動的に生成されて出力される。 The user inputs the basic structure of a compound for which a new derivative structure is to be automatically generated into the compound structure automatic generation model built in step S12, thereby creating an additional structure that can be combined with the basic structure. Generate automatically. Specifically, by obtaining the graph structure of the basic structure of the compound using a graph analysis program and inputting the graph structure into the compound structure automatic generation model, the additional structure that can be combined with the compound is automatically generated. generated and output.

以上のように、本実施の形態における化合物構造自動生成装置100では、化合物の骨格となる基本構造を入力することによって、当該骨格である基本構造を維持しつつ、当該基本構造に含まれる原子(グラフ構造におけるノード)に結合可能な付加構造を自動生成することができる。したがって、自動生成された付加構造と基本構造とを組み合わせることによって、基本構造から派生した新たな化合物を自動的に生成することができる。 As described above, in the compound structure automatic generation apparatus 100 according to the present embodiment, by inputting a basic structure that is the skeleton of a compound, while maintaining the basic structure that is the skeleton, the atoms ( It is possible to automatically generate an additional structure that can be connected to a node in the graph structure. Therefore, by combining the automatically generated addition structure and the basic structure, it is possible to automatically generate a new compound derived from the basic structure.

例えば、創薬研究においてリード化合物の基本構造に対して、当該基本構造に組み合わせ可能な付加構造を自動生成することで、リード化合物から派生した化合物を新たな研究の候補として得ることができる。具体的には、例えば、創薬研究の最適化プログラムにおいて、ChemTS等のMCTS法に対して化合物構造自動生成装置100で得られたリード化合物から派生した化合物を適用することによってADMET属性を改善するように化合物を探索することができる。 For example, in drug discovery research, by automatically generating an additional structure that can be combined with the basic structure of a lead compound, compounds derived from the lead compound can be obtained as candidates for new research. Specifically, for example, in an optimization program for drug discovery research, the ADMET attribute is improved by applying a compound derived from the lead compound obtained by the compound structure automatic generation device 100 to the MCTS method such as ChemTS. compounds can be searched for.

ただし、化合物構造自動生成装置100において自動生成の対象となる化合物は創薬研究における化合物に限定されるものではない。また、化合物構造自動生成装置100において得られた化合物の利用方法も特に限定されるものではない。 However, compounds to be automatically generated in the compound structure automatic generation device 100 are not limited to compounds in drug discovery research. Also, the method of using the compound obtained by the automatic compound structure generation apparatus 100 is not particularly limited.

なお、本実施の形態における化合物構造自動生成装置100では、データ取得手段、自動生成学習手段、構造自動生成手段を1つの装置にて実現する構成としたが、これらの手段を異なる装置や異なる実行主体にて実現するようにしてもよい。例えば、これらの手段のうち幾つかをコンピュータで分担して実現するようにしてもよい。 In addition, in the compound structure automatic generation device 100 in the present embodiment, the data acquisition means, the automatic generation learning means, and the automatic structure generation means are realized by one device. You may make it implement|achieve in a main body. For example, some of these means may be implemented by a computer.

10 処理部、12 記憶部、14 入力部、16 出力部、18 通信部、20 処理部、22 記憶部、24 入力部、26 出力部、28 通信部、100 化合物構造自動生成装置。
10 processing unit, 12 storage unit, 14 input unit, 16 output unit, 18 communication unit, 20 processing unit, 22 storage unit, 24 input unit, 26 output unit, 28 communication unit, 100 compound structure automatic generation device.

Claims (5)

化合物の構造を自動生成するための化合物構造自動生成装置であって、
化合物の基本構造を構成する原子をノードとして表したノード情報と、前記原子の結合状態を前記ノード間を繋ぐエッジとして表したグラフ構造における隣接行列と、当該基本構造の前記ノードのいずれかに結合することが既知である付加構造と、の組み合わせを含む教師付訓練データを用いて、化合物の基本構造に結合可能な付加構造を自動生成するための機械学習をさせた構造自動生成モデルを構築する自動生成学習手段と、
対象となる化合物の基本構造を前記構造自動生成モデルに入力することによって、前記構造自動生成モデルの出力として当該基本構造に結合可能な付加構造を自動生成する構造自動生成手段と、
を備えることを特徴とする化合物構造自動生成装置。
A compound structure automatic generation device for automatically generating a compound structure,
Node information representing atoms constituting a basic structure of a compound as nodes, an adjacency matrix in a graph structure representing the bonding state of the atoms as edges connecting the nodes, and a connection to any of the nodes of the basic structure Using supervised training data containing combinations of additional structures known to automatically generated learning means;
automatic structure generation means for automatically generating an additional structure capable of binding to the basic structure as an output of the automatic structure generation model by inputting the basic structure of a target compound into the automatic structure generation model;
A compound structure automatic generation device comprising:
請求項1に記載の化合物構造自動生成装置であって、
前記構造自動生成モデルは、グラフニューラルネットワーク(GNN)を用いることを特徴とする化合物構造自動生成装置。
The compound structure automatic generation device according to claim 1,
A compound structure automatic generation device, wherein the structure automatic generation model uses a graph neural network (GNN).
請求項1又は2に記載の化合物構造自動生成装置であって、
前記構造自動生成手段では、前記基本構造を維持したまま結合可能な付加構造を自動生成することを特徴とする化合物構造自動生成装置。
The compound structure automatic generation device according to claim 1 or 2,
An apparatus for automatically generating a compound structure, wherein the automatic structure generating means automatically generates a bondable additional structure while maintaining the basic structure.
化合物の構造を自動生成するための化合物構造自動生成プログラムであって、
コンピュータを、
化合物の基本構造を構成する原子をノードとして表したノード情報と、前記原子の結合状態を前記ノード間を繋ぐエッジとして表したグラフ構造における隣接行列と、当該基本構造の前記ノードのいずれかに結合することが既知である付加構造と、の組み合わせを含む教師付訓練データを用いて、化合物の基本構造に結合可能な付加構造を自動生成するための機械学習をさせた構造自動生成モデルを構築する自動生成学習手段と、
対象となる化合物の基本構造を前記構造自動生成モデルに入力することによって、前記構造自動生成モデルの出力として当該基本構造に結合可能な付加構造を自動生成する構造自動生成手段と、
として機能させることを特徴とする化合物構造自動生成プログラム。
A compound structure automatic generation program for automatically generating a compound structure,
the computer,
Node information representing atoms constituting a basic structure of a compound as nodes, an adjacency matrix in a graph structure representing the bonding state of the atoms as edges connecting the nodes, and a connection to any of the nodes of the basic structure Using supervised training data containing combinations of additional structures known to automatically generated learning means;
automatic structure generation means for automatically generating an additional structure capable of binding to the basic structure as an output of the automatic structure generation model by inputting the basic structure of the target compound into the automatic structure generation model;
A compound structure automatic generation program characterized by functioning as
化合物の構造を自動生成するための化合物構造自動生成方法であって、
コンピュータに、
化合物の基本構造を構成する原子をノードとして表したノード情報と、前記原子の結合状態を前記ノード間を繋ぐエッジとして表したグラフ構造における隣接行列と、当該基本構造の前記ノードのいずれかに結合することが既知である付加構造と、の組み合わせを含む教師付訓練データを用いて、化合物の基本構造に結合可能な付加構造を自動生成するための機械学習をさせた構造自動生成モデルを構築する自動生成学習工程と、
対象となる化合物の基本構造を前記構造自動生成モデルに入力することによって、前記構造自動生成モデルの出力として当該基本構造に結合可能な付加構造を自動生成する構造自動生成工程と、
を実行させることを特徴とする化合物構造自動生成方法。
A compound structure automatic generation method for automatically generating a compound structure,
to the computer,
Node information representing atoms constituting a basic structure of a compound as nodes, an adjacency matrix in a graph structure representing the bonding state of the atoms as edges connecting the nodes, and a connection to any of the nodes of the basic structure Using supervised training data containing combinations of additional structures known to an automatically generated learning process;
an automatic structure generation step of automatically generating an additional structure capable of binding to the basic structure as an output of the automatic structure generation model by inputting the basic structure of the target compound into the automatic structure generation model;
A compound structure automatic generation method characterized by executing
JP2019206077A 2019-11-14 2019-11-14 AUTOMATIC COMPOUND STRUCTURE GENERATOR, AUTOMATIC COMPOUND STRUCTURE GENERATION PROGRAM AND AUTOMATIC COMPOUND STRUCTURE GENERATION METHOD Active JP7133534B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019206077A JP7133534B2 (en) 2019-11-14 2019-11-14 AUTOMATIC COMPOUND STRUCTURE GENERATOR, AUTOMATIC COMPOUND STRUCTURE GENERATION PROGRAM AND AUTOMATIC COMPOUND STRUCTURE GENERATION METHOD

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019206077A JP7133534B2 (en) 2019-11-14 2019-11-14 AUTOMATIC COMPOUND STRUCTURE GENERATOR, AUTOMATIC COMPOUND STRUCTURE GENERATION PROGRAM AND AUTOMATIC COMPOUND STRUCTURE GENERATION METHOD

Publications (2)

Publication Number Publication Date
JP2021081769A JP2021081769A (en) 2021-05-27
JP7133534B2 true JP7133534B2 (en) 2022-09-08

Family

ID=75965123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019206077A Active JP7133534B2 (en) 2019-11-14 2019-11-14 AUTOMATIC COMPOUND STRUCTURE GENERATOR, AUTOMATIC COMPOUND STRUCTURE GENERATION PROGRAM AND AUTOMATIC COMPOUND STRUCTURE GENERATION METHOD

Country Status (1)

Country Link
JP (1) JP7133534B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023188733A1 (en) 2022-03-31 2023-10-05 パナソニックIpマネジメント株式会社 Information processing method, information processing system, and program
WO2023188731A1 (en) 2022-03-31 2023-10-05 パナソニックIpマネジメント株式会社 Information processing method, information processing system, and program
WO2024085562A1 (en) * 2022-10-19 2024-04-25 주식회사 엘지화학 Polymer graph neural network and implementation method therefor

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040117164A1 (en) 1999-02-19 2004-06-17 Bioreason, Inc. Method and system for artificial intelligence directed lead discovery in high throughput screening data
JP2004537085A (en) 2001-03-15 2004-12-09 バイエル アクチェンゲゼルシャフト Method for generating a hierarchical topological tree of 2D or 3D-compound structures for compound property optimization
US6904423B1 (en) 1999-02-19 2005-06-07 Bioreason, Inc. Method and system for artificial intelligence directed lead discovery through multi-domain clustering
US20190286791A1 (en) 2018-03-15 2019-09-19 International Business Machines Corporation Creation of new chemical compounds having desired properties using accumulated chemical data to construct a new chemical structure for synthesis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040117164A1 (en) 1999-02-19 2004-06-17 Bioreason, Inc. Method and system for artificial intelligence directed lead discovery in high throughput screening data
US6904423B1 (en) 1999-02-19 2005-06-07 Bioreason, Inc. Method and system for artificial intelligence directed lead discovery through multi-domain clustering
JP2004537085A (en) 2001-03-15 2004-12-09 バイエル アクチェンゲゼルシャフト Method for generating a hierarchical topological tree of 2D or 3D-compound structures for compound property optimization
US20190286791A1 (en) 2018-03-15 2019-09-19 International Business Machines Corporation Creation of new chemical compounds having desired properties using accumulated chemical data to construct a new chemical structure for synthesis

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
新井 直樹 外5名,指向性を持って化合物の特性を進化させる仮想ライブラリの構築システムとそのwebサービス化,情報処理学会研究報告,Vol.2015-BIO-44 No.6,日本,2015年12月07日,pp.1-6
栗原 聡,人と共生するAI革命,第1版,日本,株式会社エヌ・ティー・エス 吉田 隆,2019年06月10日,pp.229,230,ISBN: 978-4-86043-608-7
金子 弘昌,化学のためのPythonによるデータ解析・機械学習入門,第1版,日本,株式会社オーム社 村上 和夫,2019年10月25日,pp.134-138,ISBN: 978-4-274-22441-6

Also Published As

Publication number Publication date
JP2021081769A (en) 2021-05-27

Similar Documents

Publication Publication Date Title
JP7133534B2 (en) AUTOMATIC COMPOUND STRUCTURE GENERATOR, AUTOMATIC COMPOUND STRUCTURE GENERATION PROGRAM AND AUTOMATIC COMPOUND STRUCTURE GENERATION METHOD
JP6966177B2 (en) Methods and systems for quantum computing
Fleck et al. Model transformation modularization as a many-objective optimization problem
Chakrabarti et al. Computer-based design synthesis research: an overview
KR101784785B1 (en) Managing data queries
JPWO2018131259A1 (en) Text evaluation device and text evaluation method
US10909288B2 (en) Techniques for applying generative design to the configuration of mechanical assemblies
JP2021076890A (en) Compound property prediction device for predicting properties of compounds, compound property prediction program therefor, and compound property prediction method therefor
Nikolaidou et al. Challenges in SysML model simulation
Qasse et al. iContractBot: a chatbot for smart contracts’ specification and code generation
Xia et al. A model-driven approach for evaluating system of systems
Klimek Towards formal and deduction-based analysis of business models for soa processes
Bill et al. OCL meets CTL: Towards CTL-Extended OCL Model Checking.
Loniewski et al. Model-driven requirements engineering for embedded systems development
CN105608237B (en) Rapid waveform prediction method for post-simulation stage of circuit layout
Czopik et al. Formalization of software process using intuitive mapping of UML activity diagram to CPN
Erson et al. Design of a framework for modeling, integration and simulation of physiological models
JPWO2010095418A1 (en) Design workflow construction apparatus, design workflow construction method, design system, design method, design workflow construction program, and computer-readable recording medium recording the same
JP2022040049A (en) Framework for automatically generating qubo or high-order formulation from high level source code
JP6924168B2 (en) KPI tree creation support system and KPI tree creation support method
JP6001173B2 (en) Data analysis apparatus, RDF data expansion method, and data analysis program
JP6045415B2 (en) Data structuring method, data reconstruction method, data structuring program, data reconstruction program, and data encoding apparatus
Togay et al. Rule based axiomatic design theory guidance for software development
Vanderfeesten et al. Automatic support for product based workflow design: generation of process models from a product data model
Xu et al. A cooperative coevolution approach to automate pattern-based software architectural synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220829

R150 Certificate of patent or registration of utility model

Ref document number: 7133534

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150