JP7246979B2 - 生物反応情報処理システムおよび生物反応情報処理方法 - Google Patents

生物反応情報処理システムおよび生物反応情報処理方法 Download PDF

Info

Publication number
JP7246979B2
JP7246979B2 JP2019050148A JP2019050148A JP7246979B2 JP 7246979 B2 JP7246979 B2 JP 7246979B2 JP 2019050148 A JP2019050148 A JP 2019050148A JP 2019050148 A JP2019050148 A JP 2019050148A JP 7246979 B2 JP7246979 B2 JP 7246979B2
Authority
JP
Japan
Prior art keywords
biological reaction
unit
compound
biological
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019050148A
Other languages
English (en)
Other versions
JP2020154442A (ja
Inventor
大樹 藤
潔人 伊藤
志織 中澤
麻衣子 田邉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019050148A priority Critical patent/JP7246979B2/ja
Priority to EP20160375.0A priority patent/EP3712895A1/en
Priority to US16/816,732 priority patent/US20200303042A1/en
Publication of JP2020154442A publication Critical patent/JP2020154442A/ja
Application granted granted Critical
Publication of JP7246979B2 publication Critical patent/JP7246979B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/041Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a variable is automatically adjusted to optimise the performance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

本発明は、合成経路設計システムのための生物反応情報処理システムおよび生物反応情報処理方法に関する。
近年、スマートセルと呼ばれる、微生物や植物(細胞)等を宿主とし、同宿主内へ目的の物質を生産できる遺伝子配列を組み込むことで、エネルギー(例:バイオ燃料)の他、化成品(例:バイオプラスチック)、医薬品(例:抗マラリア薬)、食品(例:機能性食品)を合成することができる機能性生物のニーズが高まっている。次世代DNAシークエンサー技術やゲノム編集技術等のバイオテクノロジーの発展が、多様なスマートセルの作製を可能としている。
スマートセルは、目的の物質を合成できる代謝経路やゲノム配列を「設計」し、デザインしたゲノム配列を「合成」した後に、物質生産に至適な生物を選択してデザインしたゲノム配列を導入してゲノム改変生物を作製する。ゲノム改変生物が目的の物質を産出しているかを「計測」したあとに、計測結果を「学習」し、ゲノム配列を再度設計するというデザインサイクルにより作製される。こうしたスマートセルのプロセスにおいて、生体によって生成される天然型の化合物に加えて、非天然型の化学品を生産物とした新しいバイオプロセスのニーズが高まっている。
新規の生物反応情報処理および合成経路設計に関する先行技術として、特許文献1が挙げられる。特許文献1には、既定の化合物の部分構造をカウントすることで、化合物構造の数値化が行なえ、化合物のペアを作成して、それらの差分をとることにより、仮想的な生物反応が数値化できる旨が記載されている。
国際公開番号WO2012/081723号
Gomez-Bombarelli, Rafael, et al. "Automatic chemical design using a data-driven continuous representation of molecules." ACS central science 4.2 (2018): 268-276.
非天然型の化学品を生産するバイオプロセスの開発には、新規の生物反応を見つけることが重要である。しかしながら、新規の生物反応を合理的に予測することは困難であり、人の知見に依存し、対象は人が考慮できる範囲に限定される。したがって、新しいバイオプロセスを開発するため、人の知見に依存しない新しい生物反応を予測する方法が望まれている。
新規のバイオプロセスを合理的に設計していくためには、根拠となる知識・情報データベースを基にしたデータ処理が必要となる。微生物の合成経路設計に関する情報として、酵素反応や遺伝子情報を集積したデータベースがある。上記のようなデータベースは、従来の属人的手法のボトムアップ的設計以外に、集積されたデータを活用したデータマイニングにより、トップダウン的な合成経路設計にも有効に活用できる。
データを活用した方法に、代謝に関するデータベース中の酵素反応や代謝物情報のみを利用した方法がある。この方法では、化学変換則などをデータベースに基づいて決定し、それによって反応を予測している。しかし、上記の方法は、既存データベースの情報のみに依存し、新規代謝反応および経路設計の予測には対応できない。別な方法として、部分構造を保持し、それらの足し合わせで一つの化合物構造を特徴ベクトル化する方法なども有効であり、新規代謝反応にも適用できる。しかし、ベクトル化時に部分構造の位置関係の情報が失われてしまうことや、既定の部分構造以外の化合物を対象とできないことが課題である。このため、様々な化合物を同一の方法で扱うことができ、さらに構造全体の特徴を保持しながら、生物反応を特徴ベクトル化する必要がある。
本発明の目的は、化合物構造全体の特徴を保持しながら数値化し、新規の生物反応を予測することができる、新規合成経路設計に向けた生物反応情報処理技術を提供することである。
本発明の一態様にかかる生物反応情報処理システムは、変換パラメータを用いて、複数の化合物の化学構造を示す表記情報の特徴量を、少なくとも2つ以上の実数値を要素に持つ分散表現による数値ベクトルに変換する変換モデル部を有し、前記変換モデル部が、前記複数の化合物のうち、第一の化合物および第二の化合物の其々について、前記化学構造を示す表記情報の特徴量を数値ベクトルに変換する構造特徴量符号化部と、前記第一の化合物の数値ベクトルと、前記第二の化合物の数値ベクトルとを用いた演算により、前記第一の化合物と前記第二の化合物との間の生物反応特徴ベクトルを生成する生物反応特徴ベクトル生成部と、を備えることを特徴とする生物情報処理システムとして構成される。
本発明の一態様によれば、化合物構造全体の特徴を保持しながら数値化し、新規の生物反応を予測することができる。上記した以外の課題、構成および効果は、以下の発明を実施するための形態の説明により明らかにされる。
生物反応情報処理装置の構成図である。 実施例1に記載の生物反応情報処理システムの構成図である。 実施例1に記載の生物反応特徴ベクトルの数値例である。 実施例1に記載の生物反応特徴ベクトル生成のフローを示した図である。 実施例1に記載の生体反応情報システムにより、対応可能となった生物反応の例である。 実施例2に記載の生物反応情報処理システムの構成図である。 実施例2に記載の生物反応予測のフローを示した図である。 実施例2に記載の分析評価表示部の可視化の一例を示した図である。 実施例2に記載の生物反応情報処理システムに学習部を設けた構成図である。 実施例2に記載の生物反応情報処理システムを用いた酵素反応の推定結果例を示した図である。 実施例2に記載の生物反応情報処理システムの学習において、合成経路設計における生物反応の新規定義を示した図である。 実施例3に記載の生物反応情報処理システムにおいて、構造特徴量符号化部を事前学習するための構成図である。 実施例3に記載の生物反応情報処理システムにおいて、構造特徴量符号化部を追加学習するための構成図である。
以下、図面を参照して本発明の実施形態を説明する。以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施する事が可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。
図面において示す各構成要素の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面に開示された位置、大きさ、形状、範囲などに限定されない。
以下の説明では、「テーブル」、「リスト」等の表現にて各種情報を説明することがあるが、各種情報は、これら以外のデータ構造で表現されていてもよい。データ構造に依存しないことを示すために「XXテーブル」、「XXリスト」等を「XX情報」と呼ぶことがある。識別情報について説明する際に、「識別情報」、「識別子」、「名」、「ID」、「番号」等の表現を用いるが、これらについてはお互いに置換が可能である。
同一あるいは同様な機能を有する構成要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、これらの複数の構成要素を区別する必要がない場合には、添字を省略して説明する場合がある。
また、以下の説明では、プログラムを実行して行う処理を説明する場合があるが、プログラムは、プロセッサ(例えばCPU、GPU)によって実行されることで、定められた処理を、適宜に記憶資源(例えばメモリ)および/またはインターフェースデバイス(例えば通信ポート)等を用いながら行うため、処理の主体がプロセッサとされてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノードであってもよい。プログラムを実行して行う処理の主体は、演算部であれば良く、特定の処理を行う専用回路(例えばFPGAやASIC)を含んでいてもよい。
プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサと配布対象のプログラムを記憶する記憶資源を含み、プログラム配布サーバのプロセッサが配布対象のプログラムを他の計算機に配布してもよい。また、以下の説明において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
<生物反応情報処理装置>
図1~図5を用いて、実施の形態1の生物反応予測システム及び学習方法について説明する。
本実施形態にかかる生物反応情報処理システムは、図1に示すように、生物反応情報処理装置1に実装される。生物反応情報処理装置1は、CPU(Central Processing Unit)2、GPU(Graphic Processing Unit)3、メモリ4、記憶装置5、表示装置6、入力装置7、ネットワークアダプター8を有している。CPU2およびGPU3は、メモリ3上のプログラムを実行し、メモリ3に格納されているデータを処理することで、生物反応予測システムを動作させる。メモリ3は、揮発性および不揮発性の両方を含む。記憶装置4は、ハードディスクおよびSSD(Solid State Drive)の両方を含む。記憶装置4には、生物反応データベースや化合物データベースが格納され、必要に応じてメモリ3に呼び出される。表示装置5は、CPU2で処理されるデータやメモリ3、記憶装置4に格納されているデータを表示する。入力装置6は、例えば、マウス、キーボードなどである。ネットワークアダプター7は、生物反応情報処理装置1を外部ネットワークに接続する。外部ネットワークは、例えば、インターネットやローカルエリアネットワークである。
<生物反応情報処理システムの構成>
本実施形態に係る生物反応情報処理装置1は、既知の生物反応を基に、新規の生物反応を数値計算的に処理する生物反応情報処理システムを有する。生物反応には、基質と呼ばれる反応前の化合物と生成物と呼ばれる反応後の物質がある。合成経路設計とは、この基質と生成物のペアを、一反応以上、求める作業となる。合成経路設計における生物反応は、既知と新規の生物反応の両方が含まれる。本実施形態に係る生物反応情報処理システムは、合成経路設計における生物反応を情報処理するものである。
本実施形態に係る生物反応情報処理システムは、図2に示すように、酵素反応等の生物反応における基質・生成物ペアの情報が格納された生物反応データベース100と、化合物構造等の情報が格納された化合物データベース110と、基質と生成物の化合物構造表記文字列を分散表現された化合物構造特徴ベクトル(構造特徴ベクトル121、122)に変換する変換モデル部20を有する構造特徴量符号化部10と、基質と生成物の構造特徴ベクトルから生物反応特徴ベクトル131を生成する、生物反応特徴ベクトル生成部30と、前記生物反応特徴ベクトル131を格納する生物反応特徴ベクトルデータベース130から構成される。分散表現された化合物構造特徴ベクトルとは、1つの化合物の構造の差が、複数の前記実数値要素の数値の差によって表現され、1つの前記実数値要素の差が、複数の化合物の構造変化に差によって表現される、複数個の実数値を要素とする固定次元のベクトルである。基質と生成物の構造特徴ベクトルから生成された生物反応特徴ベクトル131も同様に、分散表現された特徴ベクトルである。例えば、292個(次元)の実数値要素で生物反応特徴ベクトルを表現すると、図3のようになる。
生物反応データベース100は、例えば、KEGG(Kyoto Encyclopedia of Genes and Genomes)やMetaCycなどの、既知の代謝合成経路データベースと新たに追加された新規の代謝合成経路データ等から作られるデータベースとを含む。化合物データベース110は、PubCheや、ChEBI、ZINCなどの既知の化合物データベースと新たに追加された新規のデータから作られるデータベースとを含む。
生物反応の基質・生物ペアリスト101は、生物反応データベース100から取得された代謝合成経路データと、基質と生成物の生物反応ペアリストの各化合物情報が化合物データベース110から取得された化合物リスト111の情報とを基に作成されたものである。化合物情報は、例えば、SMILES(Simplified molecular input line entry system)やFingerPrint、MOL形式といった化合物構造表記文字列が含まれる。
<生物反応情報処理システムの機能:生物反応特徴ベクトルの生成フロー>
本実施例に係る生物反応情報処理システムは、この化合物構造を分散表現で数値ベクトルに変換する機能を持つ。この変換機能により、既定の文字数で表される化合物を一律に、少なくとも2つ以上の実数値を要素に持つ分散表現された数値ベクトルとして扱うことができる。化合物を一律に、分散表現された数値ベクトルとして扱うことができると、生物反応についても、数値ベクトルの数値計算により表現可能となる。以下では、本実施形態に係る、生物反応特徴ベクトル生成と予測フローについて図4を用いて説明する。
まず、前処理部70は、生物反応データベース100から、基質・生成物ペアリスト101を取得する[S101]。
続いて、前処理部70は、この基質・生成物ペアリスト101に、化合物データベース110から取得した化合物リスト111の情報を基に、各基質・生成物ペアについて、SMILES等の構造表記文字列112、113を取得する。以下では、SMILES等から取得される構造表記の一例として文字列(構造表記文字列112、113)を用いて説明しているが、当該文字列には、数字、記号、符号等の識別情報を含む。言い換えると、構造表記文字列112、113は、文字列および識別情報を含む表記情報の一例であるといえる。
前処理部70は、この化合物構造表記文字列112、113を読み取り、構造特徴量符号化部10に入力するための前処理を行う。前処理部70では、例えば、オープンソースのケモインフォマティクスソフトウェアであるRDKitを用いて、データベースごとに異なる、化合物構造のSMILES表記を統一する。次に、前処理部70は、SMILES表記を、言語処理プログラムで用いられる1-hotベクトルで表現するように変換処理を行う。前処理部70では、さらに化合物表現文法機能を取り入れて、SMILES文法外の表記や有機化合物的に存在し得ない化合物表現を除去する機能を加えても良い[S102]。
次に、構造特徴量符号化部10の変換モデル部20は、前処理後の化合物構造表記文字列を読み取り、少なくとも2つ以上の要素を持つ分散表現による構造特徴ベクトル121、122を生成する。具体的には、変換モデル部20が変換パラメータを有し、前処理後の化合物構造表記文字列を変換パラメータと掛け合わせることで、構造特徴ベクトル121、122を生成する[S103]。変換パラメータは、例えば、上記化合物構造表記文字列を学習に利用可能な形式である1-hotベクトル等で表現し、そのベクトルを構造特徴ベクトルに変換するためのパラメータである。
生物反応特徴ベクトル生成部30は、この基質と生成物の構造特徴ベクトル121、122を読み取り、生物反応特徴ベクトルリスト131を生成する[S104]。
<既存技術では対応できない生物反応>
本実施例によれば、部分構造の加減算等の演算で生物反応を表す既存技術で対処できなかった化合物を取り扱うことができる。図5は、本実施例に係る生物反応システムの特徴を説明するものであり、便宜上、仮想的な反応を例として説明する。
部分構造の数で化合物あるいは生物反応をベクトル表現する方法は、化合物の部分構造の数により、要素数が変動する問題があり、様々な反応を一律に取り扱えない。また、生成物の構造から基質の構造の差分を取るような場合、もともと全く構造が異なる生物反応でも加減算等の演算をしたあとに残る構造、すなわち生物反応後の構造差分が、全く同じ構造である場合、同じ生物反応と推定されてしまう問題がある。
図5の構造Aに示すような化合物の場合、部分構造の位置関係が失われるため、対象を区別することができない。
図5の反応B、C、Dのように、基質と生成物ペアの構造は異なるが構造の差分を取ると全く同じになる。図5のCとDのように、基質は同じであるが、反応後に部分構造が接続する場所が異なるような場合も、反応の区別がつかない。
一方、本実施例に係る生物反応情報処理システムでは、元素数が同じ場合でも、異なる構造の化合物は異なる文字列として書かれるSMILESなどを用いており、これらの化合物を別々の化合物として学習を行っているため、反応を区別することが可能である。例えば、構造Aでは、構造401a、401bが部分的に定義されており、定義された位置関係が失われると、生物反応前後の構造差分がなくなり、両者が区別できなくなる。しかし、本実施例では、文字列402a、402bのように、元素数が同じ場合でも、異なる構造の化合物は異なる文字列として定義されるため、両者の構造を区別することができる。また、例えば、反応B、C、Dでは、反応前後の差分が全て1つの「OH」となるため、これらの反応を区別できなくなる。しかし、本実施例では、文字列403a、403b、403cのように、元素数が同じ場合でも、異なる構造の化合物は異なる文字列として定義されるため、両者の反応を区別することができる。
このように、本システムでは、構造特徴量符号化部10が、変換パラメータを用いて、複数の化合物の化学構造を示す表記情報の特徴量を、少なくとも2つ以上の実数値を要素に持つ分散表現による数値ベクトルに変換する変換モデル部20を有し、変換モデル部20が、複数の化合物のうち、第一の化合物および第二の化合物の其々について、化学構造を示す表記情報の特徴量を数値ベクトルに変換し、第一の化合物の数値ベクトルと、第二の化合物の数値ベクトルとを用いた演算により、第一の化合物と第二の化合物との間の生物反応特徴ベクトルを生成する生物反応特徴ベクトル生成部30を備え、上記処理を行う。
したがって、化合物構造全体の特徴を保持しながら数値化し、新規の生物反応を予測することができる。例えば、既知あるいは新規を問わず、様々な化合物を同一の方法で扱うことができ、さらに構造全体の特徴を保持しながら、生物反応を特徴ベクトル化することができ、合成経路設計における生物反応予測の精度が向上する。
図6~図11を用いて、実施の形態2の生物反応情報処理システムについて説明する。実施の形態2では、生物反応特徴ベクトル生成部30が生成した生物反応特徴ベクトルを用いた酵素反応推定について説明する。
<生物反応情報処理システムの機能:生物反応予測フロー>
新規の生物反応について、既知の酵素反応のとの関連性を計算することが重要となる。既知の酵素反応には、反応毎に酵素番号のラベルが付与されている。具体的には、国際生化学連合により、ECで始まる4桁の数字Z.Z.Z.Z(ドットで区切られた4つの組の数字)が割り当てられている。
本実施例に係る生物反応予測システムでは、図6に示すように、推定部80を有する分析評価部50を設ける。分析評価部50は、既知の生物反応の生物反応特徴ベクトルを基に、生物反応の類似性を計算する処理部である。推定部80は、新規の生物反応に対し、例えば、既知反応の生物反応特徴ベクトルとの類似度や距離を計算することにより、既知の酵素反応を基にした新規の生物反応の予測が可能となる。後述するように、推定部80は、生物反応特徴ベクトルを既知の生物反応の前記生物反応特徴ベクトルを基に、同じ酵素反応群の生物反応特徴ベクトルを、酵素番号に紐づけて機械学習し、酵素番号を推定する。類似度の計算には、例えば、コサイン類似度、Jaccard係数、Dice係数などがあるが、これらの方法に限定されない。類似度および距離の計算により、分散表現空間において、既知のベクトル近い新規のベクトルの推定が可能となる。上記の生物反応情報処理システムは、図7に示す生物反応予測フローのように動作する。
まず、構造特徴量符号化部10と生物反応特徴ベクトル生成部30を用いて、既知反応における生物反応特徴ベクトルリスト131を生成する[S101-104]。
生物反応特徴ベクトル生成部30は、この前記、既知反応に関する生物反応特徴ベクトル131を生物反応特徴ベクトルデータベース130に格納する[S201]。
次に、構造特徴量符号化部10と生物反応特徴ベクトル生成部30を用いて、新規反応における生物反応特徴ベクトルを生成する[S101-104]。
分析評価部50は、生物反応データベース100および化合物データベース110から、基質・生成物ペアリストと化合物リストを読み出す[S202]。
分析評価部50は、格納しておいた既知の生物反応特徴ベクトルデータベースを読み出す[S203]。
分析評価部50は、新規反応と既知反応のベクトル類似度及び距離を計算する[S204]。新規反応について、既知反応との関連性評価を分析評価し、分析評価表示部60に出力する[S205]。例えば、分析評価部50は、新規反応の特徴量ベクトルと既知反応の特徴量ベクトルとの類似性について両者を比較した結果、構造ベクトルの類似性について両者を比較した結果、Pathway間(ベクトルの組み合わせ)の類似性について両者を比較した結果、化合物構造特徴量、生物反応特徴ベクトルの可視化などを分析評価表示部60に出力する。
化合物構造特徴ベクトルおよび生物反応特徴ベクトルの可視化については、例えば、図8に示す方法を取ると良い。図8は、化合物(正しくは、化合物の構造特徴ベクトル)を3次元で空間に点としてプロットした図である。また、その点と点を結んだ線は、ある反応の基質と生成物を結ぶ線となり、生物反応特徴ベクトルとなる。図8は、代表的な反応経路である解糖系、メバロン酸経路、コレステロール合成系を表示した例である。
化合物構造特徴量が近い化合物同士は、近い距離にプロットされ、また遠い化合物は遠い距離にプロットされる。化合物構造特徴ベクトルのプロットについては、生物反応データベース100における化合物の頻出度合いに応じて、点の大きさを大きくするなどして強調しても良い。例えば、図8のacetyl-CoAやpyruvateは頻出する化合物であり、プロット点のサイズが大きくなっている。
以上のような表示方法により、化合物間の距離や反応経路を直感的に見ることができ、従来のデータベースで可視化された反応マップでは、表現できなかった可視化が可能となる。なお化合物構造特徴ベクトルの次元が2あるいは3の場合は、そのままプロットしても良いが、4以上の次元となった場合は、次元圧縮法を適用すると良い。次元圧縮法については、例えば、代表的な次元圧縮法である主成分分析やt-SNEなどの手法を適用すると良いが、これらの方法に限定されない。
<生物反応情報処理システムの機能:学習を用いた生物反応予測>
新規反応においては、3桁目までの酵素番号を特定することも有用である場合がある。そもそも、既知の酵素反応によっては、4桁目が登録されていないものもある。
本実施例に係る生物反応情報処理システムでは、既知の生物反応を基に生物反応を機械学習する機能を設け、酵素番号を2桁目あるいは3桁目まで予測する機能を設けてもよい。例えば、生物反応データベース100の既知反応を基に、既知反応の生物反応特徴ベクトルデータベース130について、3桁目までの酵素番号と紐づけて学習させ、新規化合物を含む生物反応に対し、類似する酵素番号を出力するようにしてもよい。
例えば、図9に示すような形態で、新たに学習部40を設け、さらに推定部80が上記変換パラメータと同様のパラメータをメモリ4に記憶する。学習部40が、既知の全生物反応について、生物反応特徴ベクトルデータベース130と生物反応データベース100の基質・生成物ペアリストの酵素番号と紐づけて、教師あり学習を行うと良い。学習部40が、推定部80が有するパラメータを更新する機械学習手法として、SVM(Support Vector Machine)やニューラルネットワークなどの手法を用いるとよいが、この手法に限定されない。このように、分析評価部50の推定部80は、少なくとも2つ以上の酵素反応を、一つの酵素反応クラスとして仮想的にラベルを付与し、機械学習を行う。
また、学習部40は、複数の化合物の化学構造を示す表記情報と推定部80で算出された酵素反応群の生物反応特徴ベクトルを用いて機械学習し、構造特徴量符号化部10の変換パラメータを更新する。本実施例に係る生物反応情報処理システムを用いた、新規の生物反応における酵素反応推定結果例について、図10を用いて説明する。
図10のFの反応は、酵素番号EC1.14.13のNADHまたはNADPHを片方の電子供与体とし、1つの酸素原子を取り込む反応である。既知のEC 1.14.13だけでなく、新規の反応として、仮想的に定義した反応Gの認識の結果と一致した。図10では、新規の反応Gにおいて、基質803と生成物804とを入力して得られる酵素番号が、既知の反応Fにおいて、基質801と生成物802とを入力して得られる酵素番号EC 1.14.13と一致したことを示している。同様に、図Hの反応は、酵素番号EC4.2.1のデヒドラターゼ類であるが、既知のEC1.14.13.175だけでなく、新規の反応として、仮想的に定義した反応Iの認識の結果と一致した。以上から、本手法の有効性を確認した。
なお、4桁目の分類は基質特異性に関わる部分である。したがって、新規の化合物の酵素番号を4桁目まで推定する必要がある場合は、3桁目の酵素番号までを推定した後、酵素番号3桁目のラベルに紐づけて、4桁目の既知の反応を登録しおくと良い。例えば、既知の基質あるいは生成物と、新規の酵素反応の基質あるいは生成物の構造的類似性を求め4桁目を推定することにより、新規の酵素反応に対し、近い酵素番号が得られる。
<学習に用いる既知生物反応の新規定義>
生物反応データベース100の既知の合成経路は、図11に示すように、ノード一つが基質あるいは生成物に当たり、既知反応や新規反応がエッジ(矢印)に当たる。図11は、実線が既知反応、点線が新規(仮想)反応を表す。
本実施例にかかる生物反応予測システムでは、図11に示すように、学習部40が、ある合成経路について、これら複数の酵素反応をひとまとめにした酵素反応を定義し、学習に用いても良い。例えば、図11に示すように、EC X.X.X.XとEC Y.Y.Y.YとEC Z.Z.Z.Zの酵素反応を新たにEC R.R.R.Rと定義した例、EC A.A.A.AとEC B.B.B.Bの酵素反応を新たにEC S.S.S.Sと定義した例である。EC R.R.R.RとEC S.S.S.Sは、架空の番号を付与する。学習部40が、複数の酵素反応をひとまとめにして再定義することにより、特定の経路(連続した酵素反応)を保持した経路設計を行うことが可能となる。
図12~図13を用いて、実施の形態3の生物反応情報処理システムについて説明する。
<構造特徴量符号化部の学習:事前学習>
本実施例に係る生物反応情報処理システムは、化合物構造文字列から、構造特徴量符号化部10への入力を基に、連続的な構造変化を捉えた化合物構造特徴ベクトルを生成することを特徴とする。この化合物構造特徴ベクトルを生成する生物反応情報処理システムにおいて、学習部40が、構造特徴量符号化部10における変換モデル20のパラメータを事前に機械学習で求めておいても良い。例えば、SVMやニューラルネットワーク等の機械学習技術を用いて行うと良い。
連続的な化合物構造特徴量の生成においては、ニューラルネットワークの派生技術である、VAE(Variational Auto Encoder)やGAN(Generative Adversarial Network)などといった手法を用いると良いが、これらの方法に限定されない。例えば、VAE(非特許文献1)を用いる場合、図12に示すような形態で学習を行うことができる。新たに、変換モデル部21を有する構造特徴量符号化部11と後処理部71を設ける。
前処理部70は、構造特徴量符号化部10に入力する、化合物構造を示す表記情報が有機化学的に正しい化合物表記であるかを判定する。構造特徴量復号化部11の変換モデル部21は、前処理部70が、上記表記情報が有機化学的に正しい化合物表記であると判定した場合、構造特徴量符号化部10から生成された構造特徴量ベクトルを入力として、化合物構造表記情報に変換する。後処理部71は、構造特徴量復号化部11から出力された化合物構造表記情報を有機化学的に正しい化合物表記であるかを判定する。
まず、前処理部70は、化合物データベース110から、化合物構造が記載された化合物リスト111を取り出し、所定の化合物構造表記かつ1-hotベクトル表現等のコンピュータに入力可能な形式に変換する。
構造特徴量符号化部10の変換モデル部20は、前処理部70から出力されたベクトルから構造特徴ベクトルセット123を生成する。構造特徴ベクトルセット123には、基質および生成物の構造特徴ベクトルが含まれる。
次に、構造特徴量復号化部11の変換モデル部21は、構造特徴ベクトルセット123を読み取り、所定の化合物構造表記に戻す後処理部71を経て、化合物構造表記文字列セット112を生成する。分析評価部50は、前処理部70が入力した化合物リスト111と、後処理部71が出力した化合物構造表記文字列セット112を読み取る。学習部40は、上記入力した文字列と上記出力された文字列が同じになるように、構造特徴量符号化部10の変換モデル部のパラメータを調整する。このような処理により、構造表記文字列の一致率を上げることができる。
<構造特徴量符号化部の学習:追加学習>
以下では、本実施形態に係る、生物反応情報処理システムの学習フローについて図13を用いて説明する。図13は、本実施形態に係る、生物反応情報処理システムにおいて、構造特徴量符号化部の追加学習を行うための構成図である。
構造特徴量符号化部10の変換モデル部20は、実施例3に示した事前学習により、化合物構造を分散表現による数値ベクトル化が行えるが、より生物反応の推定精度を上げるためには、分析評価部50は、生物反応特徴ベクトルデータベース130を分析評価し、学習部40が、構造特徴量符号化部10の変換モデル部20に学習のフィードバックを掛けると良い。すなわち、分析評価部50は、構造特徴量符号化部10に入力する、化合物構造を示す表記情報と、構造特徴量復号化部21から出力された化合物構造表記情報と、の誤差を変換モデル部20にフィードバックし、構造特徴量符号化部10に入力する、化合物構造を示す表記情報と、構造特徴量復号化部11から出力された化合物構造表記情報との出力が同じになるように機械学習して変換モデル部20のパラメータを調整すればよい。
例えば、酵素番号3桁あるいは2桁の同酵素反応グループの生物反応特徴ベクトルは、この生物反応情報処理システム上、類似するベクトルであることが望ましい。したがって、構造特徴量符号化部10の変換モデル部20のパラメータの調整において、分析評価部50は、単純な文字列の誤差だけでなく、生物反応データベース100にある化合物について、同酵素反応グループの生物反応特徴ベクトルの類似性を評価し、同グループであれば、高い類似性を出力されるような正則化項を設け、学習を行うと良い。
実施の形態4の生物反応情報処理システムについて説明する。
<合成経路設計>
本実施例に係る生物反応情報処理システムの一反応予測をつなぎ合わせ、既知の生物反応および新規の生物反応の合成経路設計を行う。条件として、最大経路数の設定、目的化合物の設定、および初期化合物の設定を条件とする。
ただし、初期化合物について、必ずしも登録する必要はなく、登録がない場合は、既定の代表化合物を初期化合物とする。
合成経路設計の計算は、線形計画法などを用いて、計算すると良い。また、図11のように、複数の既知反応を一つの既知反応と再定義して、合成経路設計に含めて良く、最大経路数のカウントとして、その反応を一とするか複数の値とするかは、ユーザが設定するものとする。
10 構造特徴量符号化部
11 構造特徴量復号化部
20、21 変換モデル部
30 生物反応特徴ベクトル生成部
40 学習部
50 分析評価部
60 分析評価表示部
70 前処理部
80 推定部
100 生物反応データベース
101 基質・生成物ペアリスト
110 化合物データベース
111 化合物リスト
112 基質化合物構造表記文字列
113 生成物化合物構造表記文字列
114 化合物構造表記文字列リスト
121 基質構造特徴ベクトル
122 生成物構造特徴ベクトル
123 構造特徴ベクトルリスト
130 生物反応特徴ベクトルデータベース
131 生物反応特徴ベクトルリスト

Claims (6)

  1. 複数の化合物の化学構造を示す表記情報の特徴量を、複数の化合物間の構造の差が複数の実数値要素の数値の差によって表現される、複数の実数値を要素とする固定次元のベクトルである数値ベクトルに変換する変換モデル部を有し、前記変換モデル部が、前記複数の化合物のうち、第一の化合物および第二の化合物の其々について、前記化学構造を示す表記情報の特徴量を数値ベクトルに変換する構造特徴量符号化部と、
    前記第一の化合物の数値ベクトルと、前記第二の化合物の数値ベクトルとを用いた化学構造の加減算を含む演算により、前記第一の化合物と前記第二の化合物との間の生物反応特徴ベクトルを生成する生物反応特徴ベクトル生成部と、
    既知の生物反応の前記生物反応特徴ベクトルを基に、生物反応の類似性を計算する分析評価部と、を有し、
    前記分析評価部は、前記生物反応特徴ベクトルと、既知の生物反応の前記生物反応特徴ベクトルを基に、同じ酵素反応群の生物反応特徴ベクトルを、酵素番号に紐づけて機械学習し、酵素番号を推定する推定部を有する、
    ことを特徴とする生物反応情報処理システム。
  2. 前記分析評価部の推定部は、少なくとも2つ以上の酵素反応を、一つの酵素反応として仮想的にラベルを付与し、機械学習を行う、
    ことを特徴とする請求項1に記載の生物反応情報処理システム。
  3. 前記複数の化合物の化学構造を示す表記情報と前記推定部で算出された前記酵素反応群の生物反応特徴ベクトルを用いて機械学習する学習部、
    を備えることを特徴とする請求項1に記載の生物反応情報処理システム。
  4. 前記構造特徴量符号化部に入力する、前記化学構造を示す表記情報が有機化学的に正しい化合物表記であるかを判定する前処理部を有し、
    前記構造特徴量符号化部から生成された構造特徴ベクトルを入力として、化学構造を示す表記情報に変換する変換モデル部を有する構造特徴量復号化部と、
    前記構造特徴量復号化部から出力された化学構造を示す表記情報を有機化学的に正しい化合物表記であるかを判定する後処理部と、
    を備えることを特徴とする請求項1に記載の生物反応情報処理システム。
  5. 既知の生物反応の前記生物反応特徴ベクトルを基に、生物反応の類似性を計算する分析評価部が、前記構造特徴量符号化部に入力する、前記化学構造を示す表記情報と、前記構造特徴量復号化部から出力された化学構造を示す表記情報と、の誤差を前記変換モデル部にフィードバックし、前記構造特徴量符号化部に入力する、前記化学構造を示す表記情報と、前記構造特徴量復号化部から出力された化合物構造表記情報との出力が同じになるように機械学習する追加学習部を有する、
    ことを特徴とする請求項4に記載の生物反応情報処理システム。
  6. 構造特徴量符号化部の変換モデル部が、複数の化合物の化学構造を示す表記情報の特徴量を、複数の化合物間の構造の差が複数の実数値要素の数値の差によって表現される、複数の実数値を要素とする固定次元のベクトルである数値ベクトルに変換し、
    前記変換モデル部が、前記複数の化合物のうち、第一の化合物および第二の化合物の其々について、前記化学構造を示す表記情報の特徴量を数値ベクトルに変換し、
    生物反応特徴ベクトル生成部が、前記第一の化合物の数値ベクトルと、前記第二の化合物の数値ベクトルとを用いた化学構造の加減算を含む演算により、前記第一の化合物と前記第二の化合物との間の生物反応特徴ベクトルを生成し、
    分析評価部が、既知の生物反応の前記生物反応特徴ベクトルを基に、生物反応の類似性を計算し、
    前記分析評価部の推定部が、前記生物反応特徴ベクトルと、既知の生物反応の前記生物反応特徴ベクトルを基に、同じ酵素反応群の生物反応特徴ベクトルを、酵素番号に紐づけて機械学習し、酵素番号を推定する、
    ことを特徴とする生物反応情報処理方法。
JP2019050148A 2019-03-18 2019-03-18 生物反応情報処理システムおよび生物反応情報処理方法 Active JP7246979B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019050148A JP7246979B2 (ja) 2019-03-18 2019-03-18 生物反応情報処理システムおよび生物反応情報処理方法
EP20160375.0A EP3712895A1 (en) 2019-03-18 2020-03-02 Biological reaction information processing system and biological reaction information processing method
US16/816,732 US20200303042A1 (en) 2019-03-18 2020-03-12 Biological reaction information processing system and biological reaction information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019050148A JP7246979B2 (ja) 2019-03-18 2019-03-18 生物反応情報処理システムおよび生物反応情報処理方法

Publications (2)

Publication Number Publication Date
JP2020154442A JP2020154442A (ja) 2020-09-24
JP7246979B2 true JP7246979B2 (ja) 2023-03-28

Family

ID=69743114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019050148A Active JP7246979B2 (ja) 2019-03-18 2019-03-18 生物反応情報処理システムおよび生物反応情報処理方法

Country Status (3)

Country Link
US (1) US20200303042A1 (ja)
EP (1) EP3712895A1 (ja)
JP (1) JP7246979B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022130648A1 (ja) * 2020-12-18 2022-06-23
WO2022224336A1 (ja) * 2021-04-20 2022-10-27 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012081723A1 (ja) 2010-12-17 2012-06-21 三菱化学株式会社 合成経路作成装置、合成経路作成方法及び合成経路作成プログラムならびに3-ヒドロキシプロピオン酸、クロトニルアルコールおよびブタジエンの製造方法
US20170161635A1 (en) 2015-12-02 2017-06-08 Preferred Networks, Inc. Generative machine learning systems for drug design

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012081723A1 (ja) 2010-12-17 2012-06-21 三菱化学株式会社 合成経路作成装置、合成経路作成方法及び合成経路作成プログラムならびに3-ヒドロキシプロピオン酸、クロトニルアルコールおよびブタジエンの製造方法
US20170161635A1 (en) 2015-12-02 2017-06-08 Preferred Networks, Inc. Generative machine learning systems for drug design

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Emily K. Mallory、ほか5名,Chemical reaction vector embeddings: towards predicting drug metabolism in the human gut microbiome,Pac Symp Biocomput. 2018 [ONLINE],2018年01月17日,p.1-19,[検索日:2022/5/12],[URL:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5771676/pdf/nihms921824.pdf]
Kristian Rother、ほか5名,IGERS: Inferring Gibbs Energy Changes of Biochemical Reactions from Reaction Similarities,Biophysical Journal [ONLINNE],第98巻,第11号,Biophysical Society,2010年06月30日,p.2478-2486,[検索日:2022/5/12],[URL:https://cell.com/biophysj/biophysi/supplemental/S0006-3495(10)00333-4]

Also Published As

Publication number Publication date
JP2020154442A (ja) 2020-09-24
US20200303042A1 (en) 2020-09-24
EP3712895A1 (en) 2020-09-23

Similar Documents

Publication Publication Date Title
Mangan et al. Model selection for dynamical systems via sparse regression and information criteria
Schraiber et al. Methods and models for unravelling human evolutionary history
Chou et al. Recent developments in parameter estimation and structure identification of biochemical and genomic systems
Prangle et al. Semi-automatic selection of summary statistics for ABC model choice
Finnegan et al. Maximum entropy methods for extracting the learned features of deep neural networks
Oberhardt et al. Flux balance analysis: interrogating genome-scale metabolic networks
JP7246979B2 (ja) 生物反応情報処理システムおよび生物反応情報処理方法
Clement et al. Unlocking elementary conversion modes: Ecmtool unveils all capabilities of metabolic networks
Heuer et al. Integrated reaction path processing from sampled structure sequences
Berman et al. MutaGAN: A sequence-to-sequence GAN framework to predict mutations of evolving protein populations
Zheng et al. scPADGRN: A preconditioned ADMM approach for reconstructing dynamic gene regulatory network using single-cell RNA sequencing data
Mo et al. Domain-adaptive neural networks improve supervised machine learning based on simulated population genetic data
Schliep et al. The general hidden markov model library: Analyzing systems with unobservable states
Hancock et al. Boosted network classifiers for local feature selection
Lodhi et al. Modelling metabolic pathways using stochastic logic programs-based ensemble methods
Sanchez Reconstructing our past˸ deep learning for population genetics
Wen et al. A parallelized strategy for epistasis analysis based on Empirical Bayesian Elastic Net models
Fajiculay et al. BioSANS: A software package for symbolic and numeric biological simulation
Xavier et al. Genome assembly using reinforcement learning
Jang et al. Regularized maximum likelihood estimation of sparse stochastic monomolecular biochemical reaction networks
Uzun Approaches for benchmarking single-cell gene regulatory network inference methods
Wang et al. FSCAM: CAM-based feature selection for clustering scRNA-seq
Deng Algorithms for reconstruction of gene regulatory networks from high-throughput gene expression data
JP7298870B2 (ja) 分子動力学データ解析装置及びプログラム
Zhukova et al. Knowledge-based generalization of metabolic models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230315

R150 Certificate of patent or registration of utility model

Ref document number: 7246979

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150