JP7246979B2 - 生物反応情報処理システムおよび生物反応情報処理方法 - Google Patents
生物反応情報処理システムおよび生物反応情報処理方法 Download PDFInfo
- Publication number
- JP7246979B2 JP7246979B2 JP2019050148A JP2019050148A JP7246979B2 JP 7246979 B2 JP7246979 B2 JP 7246979B2 JP 2019050148 A JP2019050148 A JP 2019050148A JP 2019050148 A JP2019050148 A JP 2019050148A JP 7246979 B2 JP7246979 B2 JP 7246979B2
- Authority
- JP
- Japan
- Prior art keywords
- biological reaction
- unit
- compound
- biological
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/041—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a variable is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/10—Analysis or design of chemical reactions, syntheses or processes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Crystallography & Structural Chemistry (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Description
図1~図5を用いて、実施の形態1の生物反応予測システム及び学習方法について説明する。
本実施形態に係る生物反応情報処理装置1は、既知の生物反応を基に、新規の生物反応を数値計算的に処理する生物反応情報処理システムを有する。生物反応には、基質と呼ばれる反応前の化合物と生成物と呼ばれる反応後の物質がある。合成経路設計とは、この基質と生成物のペアを、一反応以上、求める作業となる。合成経路設計における生物反応は、既知と新規の生物反応の両方が含まれる。本実施形態に係る生物反応情報処理システムは、合成経路設計における生物反応を情報処理するものである。
本実施例に係る生物反応情報処理システムは、この化合物構造を分散表現で数値ベクトルに変換する機能を持つ。この変換機能により、既定の文字数で表される化合物を一律に、少なくとも2つ以上の実数値を要素に持つ分散表現された数値ベクトルとして扱うことができる。化合物を一律に、分散表現された数値ベクトルとして扱うことができると、生物反応についても、数値ベクトルの数値計算により表現可能となる。以下では、本実施形態に係る、生物反応特徴ベクトル生成と予測フローについて図4を用いて説明する。
続いて、前処理部70は、この基質・生成物ペアリスト101に、化合物データベース110から取得した化合物リスト111の情報を基に、各基質・生成物ペアについて、SMILES等の構造表記文字列112、113を取得する。以下では、SMILES等から取得される構造表記の一例として文字列(構造表記文字列112、113)を用いて説明しているが、当該文字列には、数字、記号、符号等の識別情報を含む。言い換えると、構造表記文字列112、113は、文字列および識別情報を含む表記情報の一例であるといえる。
本実施例によれば、部分構造の加減算等の演算で生物反応を表す既存技術で対処できなかった化合物を取り扱うことができる。図5は、本実施例に係る生物反応システムの特徴を説明するものであり、便宜上、仮想的な反応を例として説明する。
図5の反応B、C、Dのように、基質と生成物ペアの構造は異なるが構造の差分を取ると全く同じになる。図5のCとDのように、基質は同じであるが、反応後に部分構造が接続する場所が異なるような場合も、反応の区別がつかない。
新規の生物反応について、既知の酵素反応のとの関連性を計算することが重要となる。既知の酵素反応には、反応毎に酵素番号のラベルが付与されている。具体的には、国際生化学連合により、ECで始まる4桁の数字Z.Z.Z.Z(ドットで区切られた4つの組の数字)が割り当てられている。
生物反応特徴ベクトル生成部30は、この前記、既知反応に関する生物反応特徴ベクトル131を生物反応特徴ベクトルデータベース130に格納する[S201]。
分析評価部50は、格納しておいた既知の生物反応特徴ベクトルデータベースを読み出す[S203]。
新規反応においては、3桁目までの酵素番号を特定することも有用である場合がある。そもそも、既知の酵素反応によっては、4桁目が登録されていないものもある。
生物反応データベース100の既知の合成経路は、図11に示すように、ノード一つが基質あるいは生成物に当たり、既知反応や新規反応がエッジ(矢印)に当たる。図11は、実線が既知反応、点線が新規(仮想)反応を表す。
本実施例に係る生物反応情報処理システムは、化合物構造文字列から、構造特徴量符号化部10への入力を基に、連続的な構造変化を捉えた化合物構造特徴ベクトルを生成することを特徴とする。この化合物構造特徴ベクトルを生成する生物反応情報処理システムにおいて、学習部40が、構造特徴量符号化部10における変換モデル20のパラメータを事前に機械学習で求めておいても良い。例えば、SVMやニューラルネットワーク等の機械学習技術を用いて行うと良い。
以下では、本実施形態に係る、生物反応情報処理システムの学習フローについて図13を用いて説明する。図13は、本実施形態に係る、生物反応情報処理システムにおいて、構造特徴量符号化部の追加学習を行うための構成図である。
<合成経路設計>
本実施例に係る生物反応情報処理システムの一反応予測をつなぎ合わせ、既知の生物反応および新規の生物反応の合成経路設計を行う。条件として、最大経路数の設定、目的化合物の設定、および初期化合物の設定を条件とする。
11 構造特徴量復号化部
20、21 変換モデル部
30 生物反応特徴ベクトル生成部
40 学習部
50 分析評価部
60 分析評価表示部
70 前処理部
80 推定部
100 生物反応データベース
101 基質・生成物ペアリスト
110 化合物データベース
111 化合物リスト
112 基質化合物構造表記文字列
113 生成物化合物構造表記文字列
114 化合物構造表記文字列リスト
121 基質構造特徴ベクトル
122 生成物構造特徴ベクトル
123 構造特徴ベクトルリスト
130 生物反応特徴ベクトルデータベース
131 生物反応特徴ベクトルリスト
Claims (6)
- 複数の化合物の化学構造を示す表記情報の特徴量を、複数の化合物間の構造の差が複数の実数値要素の数値の差によって表現される、複数の実数値を要素とする固定次元のベクトルである数値ベクトルに変換する変換モデル部を有し、前記変換モデル部が、前記複数の化合物のうち、第一の化合物および第二の化合物の其々について、前記化学構造を示す表記情報の特徴量を数値ベクトルに変換する構造特徴量符号化部と、
前記第一の化合物の数値ベクトルと、前記第二の化合物の数値ベクトルとを用いた化学構造の加減算を含む演算により、前記第一の化合物と前記第二の化合物との間の生物反応特徴ベクトルを生成する生物反応特徴ベクトル生成部と、
既知の生物反応の前記生物反応特徴ベクトルを基に、生物反応の類似性を計算する分析評価部と、を有し、
前記分析評価部は、前記生物反応特徴ベクトルと、既知の生物反応の前記生物反応特徴ベクトルを基に、同じ酵素反応群の生物反応特徴ベクトルを、酵素番号に紐づけて機械学習し、酵素番号を推定する推定部を有する、
ことを特徴とする生物反応情報処理システム。 - 前記分析評価部の推定部は、少なくとも2つ以上の酵素反応を、一つの酵素反応として仮想的にラベルを付与し、機械学習を行う、
ことを特徴とする請求項1に記載の生物反応情報処理システム。 - 前記複数の化合物の化学構造を示す表記情報と前記推定部で算出された前記酵素反応群の生物反応特徴ベクトルを用いて機械学習する学習部、
を備えることを特徴とする請求項1に記載の生物反応情報処理システム。 - 前記構造特徴量符号化部に入力する、前記化学構造を示す表記情報が有機化学的に正しい化合物表記であるかを判定する前処理部を有し、
前記構造特徴量符号化部から生成された構造特徴ベクトルを入力として、化学構造を示す表記情報に変換する変換モデル部を有する構造特徴量復号化部と、
前記構造特徴量復号化部から出力された化学構造を示す表記情報を有機化学的に正しい化合物表記であるかを判定する後処理部と、
を備えることを特徴とする請求項1に記載の生物反応情報処理システム。 - 既知の生物反応の前記生物反応特徴ベクトルを基に、生物反応の類似性を計算する分析評価部が、前記構造特徴量符号化部に入力する、前記化学構造を示す表記情報と、前記構造特徴量復号化部から出力された化学構造を示す表記情報と、の誤差を前記変換モデル部にフィードバックし、前記構造特徴量符号化部に入力する、前記化学構造を示す表記情報と、前記構造特徴量復号化部から出力された化合物構造表記情報との出力が同じになるように機械学習する追加学習部を有する、
ことを特徴とする請求項4に記載の生物反応情報処理システム。 - 構造特徴量符号化部の変換モデル部が、複数の化合物の化学構造を示す表記情報の特徴量を、複数の化合物間の構造の差が複数の実数値要素の数値の差によって表現される、複数の実数値を要素とする固定次元のベクトルである数値ベクトルに変換し、
前記変換モデル部が、前記複数の化合物のうち、第一の化合物および第二の化合物の其々について、前記化学構造を示す表記情報の特徴量を数値ベクトルに変換し、
生物反応特徴ベクトル生成部が、前記第一の化合物の数値ベクトルと、前記第二の化合物の数値ベクトルとを用いた化学構造の加減算を含む演算により、前記第一の化合物と前記第二の化合物との間の生物反応特徴ベクトルを生成し、
分析評価部が、既知の生物反応の前記生物反応特徴ベクトルを基に、生物反応の類似性を計算し、
前記分析評価部の推定部が、前記生物反応特徴ベクトルと、既知の生物反応の前記生物反応特徴ベクトルを基に、同じ酵素反応群の生物反応特徴ベクトルを、酵素番号に紐づけて機械学習し、酵素番号を推定する、
ことを特徴とする生物反応情報処理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019050148A JP7246979B2 (ja) | 2019-03-18 | 2019-03-18 | 生物反応情報処理システムおよび生物反応情報処理方法 |
EP20160375.0A EP3712895A1 (en) | 2019-03-18 | 2020-03-02 | Biological reaction information processing system and biological reaction information processing method |
US16/816,732 US20200303042A1 (en) | 2019-03-18 | 2020-03-12 | Biological reaction information processing system and biological reaction information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019050148A JP7246979B2 (ja) | 2019-03-18 | 2019-03-18 | 生物反応情報処理システムおよび生物反応情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020154442A JP2020154442A (ja) | 2020-09-24 |
JP7246979B2 true JP7246979B2 (ja) | 2023-03-28 |
Family
ID=69743114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019050148A Active JP7246979B2 (ja) | 2019-03-18 | 2019-03-18 | 生物反応情報処理システムおよび生物反応情報処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200303042A1 (ja) |
EP (1) | EP3712895A1 (ja) |
JP (1) | JP7246979B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4266316A4 (en) * | 2020-12-18 | 2024-02-07 | Fujitsu Limited | INFORMATION PROCESSING PROGRAM, INFORMATION PROCESSING METHOD, AND INFORMATION PROCESSING DEVICE |
CN117043868A (zh) * | 2021-04-20 | 2023-11-10 | 富士通株式会社 | 信息处理程序、信息处理方法以及信息处理装置 |
WO2024129927A1 (en) * | 2022-12-13 | 2024-06-20 | Cellarity, Inc. | Systems and methods for associating compounds with cellular transitions |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012081723A1 (ja) | 2010-12-17 | 2012-06-21 | 三菱化学株式会社 | 合成経路作成装置、合成経路作成方法及び合成経路作成プログラムならびに3-ヒドロキシプロピオン酸、クロトニルアルコールおよびブタジエンの製造方法 |
US20170161635A1 (en) | 2015-12-02 | 2017-06-08 | Preferred Networks, Inc. | Generative machine learning systems for drug design |
-
2019
- 2019-03-18 JP JP2019050148A patent/JP7246979B2/ja active Active
-
2020
- 2020-03-02 EP EP20160375.0A patent/EP3712895A1/en active Pending
- 2020-03-12 US US16/816,732 patent/US20200303042A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012081723A1 (ja) | 2010-12-17 | 2012-06-21 | 三菱化学株式会社 | 合成経路作成装置、合成経路作成方法及び合成経路作成プログラムならびに3-ヒドロキシプロピオン酸、クロトニルアルコールおよびブタジエンの製造方法 |
US20170161635A1 (en) | 2015-12-02 | 2017-06-08 | Preferred Networks, Inc. | Generative machine learning systems for drug design |
Non-Patent Citations (2)
Title |
---|
Emily K. Mallory、ほか5名,Chemical reaction vector embeddings: towards predicting drug metabolism in the human gut microbiome,Pac Symp Biocomput. 2018 [ONLINE],2018年01月17日,p.1-19,[検索日:2022/5/12],[URL:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5771676/pdf/nihms921824.pdf] |
Kristian Rother、ほか5名,IGERS: Inferring Gibbs Energy Changes of Biochemical Reactions from Reaction Similarities,Biophysical Journal [ONLINNE],第98巻,第11号,Biophysical Society,2010年06月30日,p.2478-2486,[検索日:2022/5/12],[URL:https://cell.com/biophysj/biophysi/supplemental/S0006-3495(10)00333-4] |
Also Published As
Publication number | Publication date |
---|---|
EP3712895A1 (en) | 2020-09-23 |
JP2020154442A (ja) | 2020-09-24 |
US20200303042A1 (en) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mangan et al. | Model selection for dynamical systems via sparse regression and information criteria | |
Schraiber et al. | Methods and models for unravelling human evolutionary history | |
Chou et al. | Recent developments in parameter estimation and structure identification of biochemical and genomic systems | |
JP7246979B2 (ja) | 生物反応情報処理システムおよび生物反応情報処理方法 | |
Prangle et al. | Semi-automatic selection of summary statistics for ABC model choice | |
Finnegan et al. | Maximum entropy methods for extracting the learned features of deep neural networks | |
Oberhardt et al. | Flux balance analysis: interrogating genome-scale metabolic networks | |
Osthege et al. | bletl‐A Python package for integrating BioLector microcultivation devices in the Design‐Build‐Test‐Learn cycle | |
Berman et al. | MutaGAN: A sequence-to-sequence GAN framework to predict mutations of evolving protein populations | |
Mo et al. | Domain-adaptive neural networks improve supervised machine learning based on simulated population genetic data | |
Murmu et al. | A review of artificial intelligence-assisted omics techniques in plant defense: current trends and future directions | |
Zheng et al. | scPADGRN: A preconditioned ADMM approach for reconstructing dynamic gene regulatory network using single-cell RNA sequencing data | |
Hancock et al. | Boosted network classifiers for local feature selection | |
Lodhi et al. | Modelling metabolic pathways using stochastic logic programs-based ensemble methods | |
Sanchez | Reconstructing our past˸ deep learning for population genetics | |
Wen et al. | A parallelized strategy for epistasis analysis based on Empirical Bayesian Elastic Net models | |
Durumeric et al. | Explaining classifiers to understand coarse-grained models | |
Wang et al. | FSCAM: CAM-based feature selection for clustering scRNA-seq | |
Fajiculay et al. | BioSANS: A software package for symbolic and numeric biological simulation | |
Xavier et al. | Genome assembly using reinforcement learning | |
Li et al. | Orthogonal outlier detection and dimension estimation for improved MDS embedding of biological datasets | |
Uzun | Approaches for benchmarking single-cell gene regulatory network inference methods | |
Jang et al. | Regularized maximum likelihood estimation of sparse stochastic monomolecular biochemical reaction networks | |
Picard-Weibel et al. | Bayesian uncertainty quantification for anaerobic digestion models | |
Deng | Algorithms for reconstruction of gene regulatory networks from high-throughput gene expression data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220524 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230307 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230315 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7246979 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |