JP7490168B1 - 海洋栄養成分の生合成経路のマイニング方法、装置、機器及び媒体 - Google Patents

海洋栄養成分の生合成経路のマイニング方法、装置、機器及び媒体 Download PDF

Info

Publication number
JP7490168B1
JP7490168B1 JP2023109794A JP2023109794A JP7490168B1 JP 7490168 B1 JP7490168 B1 JP 7490168B1 JP 2023109794 A JP2023109794 A JP 2023109794A JP 2023109794 A JP2023109794 A JP 2023109794A JP 7490168 B1 JP7490168 B1 JP 7490168B1
Authority
JP
Japan
Prior art keywords
model
mining
sequence
marine
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023109794A
Other languages
English (en)
Inventor
志強 魏
昊 劉
陽陽 李
▲ミョオ▼ 陳
其▲チェン▼ 劉
鵬 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Application granted granted Critical
Publication of JP7490168B1 publication Critical patent/JP7490168B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】海洋栄養成分の生合成経路のマイニング方法、装置、機器及び媒体を提供する。【解決手段】方法は、タンパク質コード領域の予測、目的機能性酵素の同定及び酵素活性の予測と分析という3つの重要な工程を含む。【効果】DNA三次元構造情報、基質化学特徴情報及びタンパク質三次元構造情報を融合し、モデルの正確性を向上させ、配列決定によって得られたメタプロテオミクスデータと、同定された陽性サンプルとを比較してスクリーニングすることにより、偽陽性確率を大幅に低減し、酵素活性の正確な予測を実現するとともに、重要なアミノ酸残基を逆識別する。【選択図】図1

Description

本発明は、生物情報学の分野に属し、具体的には、海洋栄養成分の生合成経路のマイニング方法、装置、機器及び媒体に関する。
従来技術において、ゲノム配列にわたる特定の代謝酵素をコードする遺伝子セットを自動的に識別する一連の計算方法が開発されている。多くの方法は、最初に細菌(場合によっては真菌と植物)に対して開発されたが、利用された原理は、他の生物種に拡張することができる。これらの方法は、それぞれ異なる分類群を対象として、かつそれらを新たな分類空間に拡張するのに必要な条件も異なる。
方法ポリシーの観点から見ると、従来の主流な方法は、ある種の活性化合物に関連する生合成遺伝子クラスター(biosynthetic gene clusters、BGCs)を識別することが多い。BGCsにおける酵素をコードする遺伝子の物理的クラスタリングは、生合成経路の識別を大きく促進する。BGCは、遺伝子含有量が大きく変化し、かつその迅速な進化及び頻繁な遺伝子レベルの転移により、一般的に菌株特異性を有するが、それらは、一般的に酵素ファミリー形式の共通特性を確実に有し、これらの酵素ファミリーは、特定の種類の代謝産物の生合成全体にとって重要な生化学反応の触媒を担う。この特性により、ゲノムにおけるBGCを大幅かつ自動的に識別することを可能にしている。antiSMASH、PRISMなどの広く使用されているソフトウェアツールは、タンパク質ドメインの輪郭隠れマルコフモデル(pHMMs)を用いて、特定の経路タイプの特徴を有する酵素ファミリーをコードする遺伝子組み合わせを識別する。これらの2つのツールによって得られる結果は、一般的に非常に類似しているが、antiSMASHの開発は、機能及び比較分析に重点を置いているのに対し、PRISMは、化学構造の組み合わせ予測に特に使用され、質量スペクトルデータとの自動マッチングに使用することができる。pHMMsの使用は、多くの成熟したタイプの生合成メカニズムをコードするBGC(例えば、ポリケタイド合成酵素、NRPSs及び既知のタイプのリボソームを合成して翻訳した後に修飾されたペプチド(ribosomally synthesized and post translation ally modified peptides、RiPPs))を識別するのに非常に信頼できるが、あまり研究されず、全く新しいタイプのBGCを無視するリスクがある。確率ベースのBGC予測方法(例えば、Cluster Finder(anti SMASHにも集積)とDeepBGC)又はゲノム間の代謝に関連する非共線遺伝子ブロックを識別する比較ゲノミクス方法は、非標準BGCを検出する可能性がより高いが、偽陽性率が高い。また、RiPPについて、既知のタイプにおける遠隔メンバー酵素(配列相同性比較で認識できないメンバー酵素)又は全く新しいタイプの酵素をコードして生成するBGCsを識別する専用ツールが登場している。そのうちの一部(例えば、BAGEL)は、antiSMASH及びPRISMと同様のpHMMに基づく検出技術を使用する。他の研究では、デコイベースの方法(特定のクエリ酵素をコードする遺伝子を用いて、それらのホモログを含む遺伝子座を識別する)又は機械学習方法を使用して、潜在的な前駆体ペプチドをコードする遺伝子を識別し、メタボロミクスに基づくマッチングを使用して分類単位に固有のオペロンを識別することにより、特定の代謝機能をコードすると考えられる。公開利用可能なゲノムについては、antiSMASHによって識別されたBGCをIMG-ABCとantiSMASH-DBなどのオンラインデータベースにおいてインタラクティブに閲覧することができる。
しかしながら、単一の遺伝子クラスターに位置するのではなく、複数の染色体に分布するゲノムによってコードされる生物の生合成経路の例が数多くある。ゲノムマイニング方法を生命の木の未開発部分に拡張した場合に、その代謝産物生合成ゲノムのクラスタリング程度は、まだ観察する必要がある。
アルゴリズム発展プロセスの観点から見ると、早期に配列比較方式によって保存配列を発見する方法は、機能配列を発見する主な手段とされるが、配列関連研究の深化に伴い、様々な配列マイニングアルゴリズムが登場している。生物学的配列におけるモチーフマイニング(又はモチーフ発見)は、類似した、保存された配列要素(「motif」)のグループを見つける問題として定義されてもよい。これらの配列元素は、通常、ヌクレオチド配列において短くかつ類似し、共通の生物学的機能を有する。初期のmotifマイニング方法は、主に列挙方法と確率方法の2つの主なタイプに分けられる。第1タイプは、簡単な単語列挙に基づくものである。例えば、Sinhaらによって開発された酵母モチーフファインダー(Yeast Motif Finder、YMF)アルゴリズムは、一致性表現を用いて酵母ゲノムにおける少数の縮重位置を有する短いモチーフを検出する。YMFは、主に、探索空間の全てのモチーフ配列(motif)を列挙する第1ステップと、全てのmotifのz-scoreを計算して、スコアが最も高いmotifを見つける第2ステップとに分けられる。
列挙に基づくモチーフマイニング方法の実行速度を加速するために、接尾辞木、並列処理などのいくつかの特殊な方法が使用される。また、LMMO、Direct FS、ABC、DiscMLA、CisFinder、Weeder、Fmotif及びMCESなどの配列マイニングアルゴリズムは、モデルにおいてこのポリシーを使用している。確率ベースのモチーフマイニング方法では、いくつかのパラメータを必要とする確率モデルを構築する。これらの方法は、結合領域における各部位に塩基分布を提供することにより、モチーフの有無を区別する。これらの方法は、通常、位置固有のスコアマトリクス(position specific scoring matrix、PSSM/PWM)又はmotifマトリクスによって分布を構築する。PWMは、各位置におけるmotifの優先度を示すm×nサイズのマトリクスである(mは、特定のタンパク質結合部位の長さを示し、nは、ヌクレオチド塩基のタイプを示す)。
近年、深層学習は、様々な応用シーンにおいて大きな成功を収めている。これにより、研究者は、これをDNA/RNAモチーフマイニングに適用しようと試みる。DNA/RNAモチーフマイニングは、遺伝子機能研究の基礎であり、研究者は、過去数十年にわたり、モチーフマイニングのために新しい効率的で正確なアルゴリズムを設計することに取り組んでいる。関連する研究結果は、深層学習を代表とするアルゴリズムが良い成績を達成することを示している。従来の配列マイニング深層学習方法は、畳み込みニューラルネットワーク(convolutional neural network、CNN)に基づくモデル、リカレントニューラルネットワーク(recurrent neural network、RNN)に基づくモデル、及びハイブリッドCNN-RNNに基づくモデルの3種類に大別される。従来の深層学習方法を分析して比較することにより、データが十分である場合、より複雑なモデルの方が単純なモデルよりも優れたパフォーマンスを発揮することが多いことが分かる。
しかしながら、従来の深層学習に基づく主流なゲノミクスデータマイニング方法は、ある特定のタスク(例えば、抗生物質耐性遺伝子の予測)に対してエンドツーエンド深層学習モデルを設計することが多く、汎用性が低く、柔軟性が低いという問題がある。また、ゲノムデータから目的化合物の生合成経路をマイニングすることは、依然として挑戦性があり、全体のデータ量が豊富であるが、単一機能性酵素に関連するデータ量が不十分である可能性があるなどの問題がある。また、ゲノミクスのデータ量が膨大であり、マイニングアルゴリズムの効率に対する要求が高いという前提で、効率と精度をどのようにバランスさせるかなどの問題がある。
上記問題に対して、本発明は、大量の海洋水産物のゲノムデータに基づいて、自然言語処理ニューラルネットワークモデルと組み合わせて、目的化合物の合成関連酵素をコードする遺伝子の識別及び優先ランキングを実現する海洋栄養成分の生合成経路のマイニング方法、装置、機器及び媒体を設計開発する。各合成ステップに必要な特定の機能性酵素を遺伝子発現により生成し、最終的に合成経路をシミュレーション生成する。また、フローにおける(1)タンパク質コード領域の予測、(2)目的機能性酵素の同定、及び(3)酵素活性の予測と分析という3つの重要な工程の関連技術を最適化することにより、パイプラインの有効性を向上させる。
本発明は、以下の技術手段により実現される。
海洋栄養成分の生合成経路のマイニング方法は、具体的には、以下の第1工程~第4工程を含む。
第1工程では、潜在的なゲノムデータに対してDNA形状特徴を融合したタンパク質コード領域を予測し、
まず、タンパク質コード領域の予測関連データセットを構築し、Refseq(NCBI reference sequences)から関連種のゲノムと転写データセットを構築し、次に、全ての生物学的配列からサンプルを選択し、かつサンプルをネガティブサンプルとしてランダムにシャッフルし、ネガティブサンプルの数をポジティブサンプルの数に等しくし、最後に、全てのサンプルを3つの部分に分割して3分割の交差検証を行い、テストデータから類似のサンプルを除去することにより、テストデータのうちの各サンプルと、トレーニングデータのうちの任意のサンプルとの同一性が50%を超えないことを保証し、次に、深層学習モデルを用いてDNA形状情報を融合した配列特徴の抽出を実現し、最後に、タンパク質コード領域をラベリングし、各スライドウィンドウの特徴コードベクトルを与えた後、深層学習モデルを構築することにより、配列構造特徴、グローバル配列順序情報、重複しないkmer特徴及びタグ依存関係を統合し、生物学的配列における各位置について、まず、現在の部分列及びその隣接する部分列をDNA形状情報(DSS)、C4及びgkmにコードし、次にDNA形状情報及びC2をCNNにコードしてgkmに合併し、最後に双方向リカレントニューラルネットワーク(BRNN)に供給してタンパク質コード領域を予測し、予測されたタンパク質コード領域の配列をアミノ酸配列に変換する。
第2工程では、目的機能性酵素を同定し、
アミノ酸配列と特定の基質との親和性を予測することにより、目的機能性酵素の同定を実現し、第2工程の方法は、
(1)ELECTRAモデルを事前トレーニングし、まずPubChemデータベースから化合物の複合SMILES文字列を抽出し、UniProtデータベースからタンパク質のFASTA配列を抽出し、それぞれ2つのTransformerエンコーダに入力し、一方は生成器ネットワークとして、他方は識別器ネットワークとして機能し、ELECTRA-MモデルとELECTRA-Pモデルをそれぞれ得るステップと、
(2)BRENDAから収集した基質情報とタンパク質配列情報をトレーニングされたELECTRA-MモデルとELECTRA-Pモデルに入力し、特徴テンソルマトリクスを得て、CNNとFCNNを組み合わせてミカエリス定数を予測するステップと、
(3)FCNNを用いてミカエリス定数の値を予測するステップと、を含み、
第3工程では、第2工程において同定された陽性同定結果と生物実験配列決定によって得られたメタプロテオミクスデータとを比較してスクリーニングし、タンパク質をコードするポテンシャルを有する陽性同定サンプルを得て、従来技術を利用してタンパク質配列をpdbフォーマットファイルに変換し、即ち、その三次元構造を予測して分子動力学シミュレーションと分析を行い、
第4工程では、候補サンプルを選択してランキングするように、それに対して分子動力学と深層学習を組み合わせた予測モデルに基づく酵素活性の予測分析を行う。
さらに、前記第4工程において、まず、分子動力学と深層学習に基づく酵素活性予測モデルのトレーニングとテストのデータセットを構築し、分子動力学ソフトウェアを用いて分子動力学シミュレーションを行い、分子動力学シミュレーション後に20psの間隔で各200ns軌跡からスナップショットを後続のDL分析の立体配座データセットとして抽出し、次に、分子動力学シミュレーション立体配座の画素表現を取得し、画素マップを用いてデータセットにおける各立体配座を示し、即ち、マトリクス変換により各立体配座のXYZ座標をRGB座標に変換し、最後に、解釈可能な深層学習アルゴリズムモデルを構築し、酵素活性を予測するとともに、機能する重要なアミノ酸残基を識別することにより、後続の生物学者がウェット実験検証を行う。
さらに、第2工程における(3)において、過学習を防止するために、各隠れ層の後にバッチ正規化を適用し、かつ各層にL2正則化を使用する。
本発明は、タンパク質コード領域の予測モジュールと、目的機能性酵素の同定モジュールと、比較スクリーニング及び活性評価モジュールとを含む海洋栄養成分の生合成経路のマイニング装置をさらに提供する。
前記タンパク質コード領域の予測モジュールは、海洋栄養成分の生合成経路のマイニング方法における前記第1工程の方法を実行し、
前記目的機能性酵素の同定モジュールは、海洋栄養成分の生合成経路のマイニング方法における第2工程の方法を実行し、
前記比較スクリーニング及び活性評価モジュールは、海洋栄養成分の生合成経路のマイニング方法における前記第3工程及び第4工程の方法を実行する。
本発明は、コンピュータプログラムが記憶されているメモリと、プロセッサとを含み、前記コンピュータプログラムが前記プロセッサによって実行されると、前記プロセッサに前記海洋栄養成分の生合成経路のマイニング方法の工程を実行させるコンピュータ機器をさらに提供する。
本発明は、プロセッサによってロードされると、海洋栄養成分の生合成経路のマイニング方法を実行するコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供する。
従来技術に比べて、本発明の有益な効果は、以下のとおりである。
1、深層学習に基づくアルゴリズムパイプラインのフローフレームワークは、従来の遺伝子マイニングのエンドツーエンド深層学習モデルと比較して柔軟性がより高く、機能モジュールが単独で使用されてもよいし、組み合わせて使用されてもよい。
2、本方法は、DNA三次元構造情報、基質化学特徴情報及びタンパク質三次元構造情報を融合し、典型的主流な方法において配列情報である単一タイプのデータのみを使用することを突破し、モデルの正確性をさらに向上させる。
3、本方法は、従来方法のトランスクリプトームデータ、同じ機能性酵素系データへの依存を打破し、深層学習モデルが特定の機能性酵素をコードする遺伝子のマイニングタスクにおいて直面するトレーニングデータが不十分であるという問題を緩和する。
4、本方法は、生物学的ウェット実験を同時に実行し、配列決定によって得られたメタプロテオミクスデータと、同定された陽性サンプルとを比較してスクリーニングすることにより、偽陽性確率を大幅に低減する。
5、本方法における酵素活性の予測分析モジュールは、分子動力学シミュレーション及び解釈可能な深層学習に基づいて、酵素活性の正確な予測を実現するとともに、重要なアミノ酸残基を逆識別することにより、作用メカニズムの解釈を行い、後続の研究者に酵素最適化などの酵素工学研究を行う支援及びサポートを提供する。
本発明の全体フローチャートである。 本発明のDNA形状特徴タイプの概略図である。 畳み込みニューラルネットワークの構造図である。 ニューラルネットワークモデルの構造図である。 本発明の方法とDNA形状特徴を含まないkmer+BRNN方法による性能比較図である。 特定の機能性酵素の同定アルゴリズムのブロック図である。 本発明のELECTRAの事前トレーニング原理の概略図である。 複合SMILES文字列とタンパク質配列の組み込み原理の概略図である。 CNN及びFCNNモデルのアーキテクチャ図である。 本発明のモデル予測結果図である。 本発明のマルチソース情報を融合したタンパク質コード領域の予測のネットワークアーキテクチャ図である。 本発明のMD立体配座と画素マップの変換原理の概略図である。 SHAPインタプリタのフローチャートである。 予測された候補サンプル配列データと実際の同じ機能性酵素系との類似性を示す図である。
以下、実施例により図面を参照しながら本発明の技術手段をさらに説明するが、本発明の保護範囲は、実施例によって何ら限定されない。
(実施例1)
図1に示すように、海洋栄養成分の生合成経路のマイニング方法は、具体的には、以下の第1工程~第2工程を含む。
第1工程では、アルゴリズムフローフレームワークを構築し、本フレームワークは、主に、タンパク質コード領域予測アルゴリズム、目的機能性酵素同定アルゴリズム、及び酵素活性予測分析アルゴリズムという3つのアルゴリズムを含み、本工程は、それぞれデータセットを構築してアルゴリズムをトレーニングしてデバッグし、かつそれぞれ3つのアルゴリズムの性能をテストする。
1、DNA形状特徴を融合したタンパク質コード領域予測モデルを構築し、モデル性能をテストする。
(1)データセットの構築
まず、現在の研究分野における遺伝子レベルのタンパク質コード関連研究の進展をまとめ、現在の研究における主なデータセットソースをまとめる。次に、現在の研究における主なデータセット構築方法、DNA配列情報コード方法及びDNA形状特徴情報取得方法をまとめて、形状特徴を融合したDNA配列データセットを設計して構築する。
本実施例で構築された73組の良好かつ全面的なアノテーション付きクロレラゲノムと転写物データセットは、NCBI(https://www.ncbi.nlm.nih.gov/refseq/)からダウンロードすることができ、実験データフォーマットは、TFRecordであり、トレーニングセットとデータセットの2つの部分に分けられる。
海洋原核生物データセットは、Refseq基準配列データベースから取得され、各原核生物種は、1つの基準的なゲノム又は代表的なゲノムのみを有し、当該データセットにおける原核生物の代表的なゲノムは、細分化され、単一ゲノムにアノテーションが改めて付けられる。全てのDNA配列からサンプルを選択し、サンプルをランダムにシャッフルし、正例と負例の数は等しい。全てのサンプルを3つの部分に分割して3分割の交差検証を行うとともに、テストセットから類似のサンプルを削除することにより、テストセットにおける各サンプルとトレーニングセットにおける各サンプルとの一致性が40%を超えないことを保証する。
(2)DNA配列データ及びDNA形状特徴データの前処理
まず、データセットにおけるDNA配列データに対して連続-離散ハイブリッドコードを行い、C4連続モデルによりグローバル配列情報を捕捉し、ヌクレオチドを4ビットバイナリ、例えば、A-[1,0,0,0]、G-[0,1,0,0]、C-[0,0,1,0]、T-[0,0,0,1]に変換し、非重畳gkm離散モデルによりローカル配列情報を捕捉し、フルフィールド長さlを5、有効ヌクレオチド位置kを3に設定し、例えば、f(XXAGA)を用いてフィールド長さが5である、同じギャップを有するトリヌクレオチド(AGA)の数値を計算する。次に、図2に示すように、既存のスライドウィンドウポリシーとモンテカルロシミュレーション方法により、四量体ルックアップテーブルを構築し、四量体に基づくモデルを用いて予測し、DNA形状特徴情報を抽出し、小溝の幅(MGW)、シフトツイスト(Shift)、スライドツイスト(Slide)、ライズツイスト(Rise)、チルトツイスト(Tilt)、ロールツイスト(Roll)、ヘリックスツイスト(Helix Twist)、シャーツイスト(Shear)、ストレッチツイスト(Stretch)、スタガーツイスト(Stagger)、バックルツイスト(Buckle)、プロペラツイスト(Propeller Twist)、オープンツイスト(Opening)を含む13個のDNA形状特徴の情報値を取得する。各ヌクレオチド位置は、対応する塩基対間特徴値及び塩基対内特徴値を有する。
図3に示すように、データを処理する畳み込みニューラルネットワークは、多入力並列畳み込みアーキテクチャを利用し、3つの4×Lのマトリクスとして入力される。C4コード情報とDNA shape情報に対して畳み込み計算と最大プーリング計算を行い、畳み込み計算層は、ReLU(x)=max(0,x)を活性化関数として使用し、最後にflatten層を介してDNA配列情報をgkm特徴及びDNA形状特徴と組み合わせて、全結合層に入力した後、最終出力を入力として、BRNNに入力してタンパク質コード領域を予測する。
(3)DNA形状特徴を融合したタンパク質コード領域予測モデルの反復トレーニング
本実施例で使用されるサンプル配列は、2つの異なるモデルを連続して使用する。1)DNA形状特徴情報と配列C4コードを融合したCNNモデル:C4コードされたDNA配列情報及びMC方法で抽出されたDNA形状特徴情報を、2つの4×92のマトリクス形式で入力とし、CNNニューラルネットワークモデルにより計算すると、その出力は、gkm特徴コード情報を含む1つの4×92マトリクスとともに直列演算を行う。2)ヌクレオチドをコードする可能性を予測するBRNNモデル:CNNの出力とgkm特徴をBRNNニューラルネットワークモデルに入力して双方向循環計算を行い、2つの隠れ層WとW、順方向循環層W、逆方向循環層W、2層の活性化関数sigmoid及びsoftmaxを使用して計算した後、タンパク質コード領域に対する予測値として出力する。図4に示すように、提出されたニューラルネットワークモデルは、トレーニング過程において、TensorflowにTFRecordデータフォーマットを使用し、学習率を常用値10-3に設定し、モデルが安定するまで複数回の反復トレーニングを行う。本実施例において、前記DNA形状を融合したCNN+BRNNタンパク質コード領域予測方法とDNA形状特徴を含まないkmer+BRNN方法による73組のクロレラゲノムとトランスクリプトームデータの性能比較を記録する。図5に示すように、実験的評価によって、DNA形状を融合したハイブリッドコード予測モデルはタンパク質コード領域の予測においてより優れた性能と高い精度を示すことが証明される。
2、転移学習に基づいた基質化学情報を融合した特定の機能性酵素同定モデルを構築し、その性能をテストし、フローフレームワークを図6に示す。
(1)タンパク質及び化合物配列コーパスを構築する。
入力配列のコード層を取得するために、特定のタスクを対象とするコーパストレーニングELECTRAモデルを事前に構築する必要がある。SMILES文字列は、簡単な用語(原子と化学結合記号のみ)と一部の文法規則を有する言語構造である。自然言語処理と同様に、SMILES文字列は、文に類似し、各原子及び結合記号は、いずれも1つの単語である。その後、多くの化合物を収集することにより、コーパスを自然に構成することができる。例えば、SMILES文字列「CC(=)OC1=C」は、‘C’、‘(’,‘=’,‘)’、‘0’、‘1’の組み合わせとしてマークされた文とすることができる。異なるソースからの全てのSMILES文字列の一致性を確保するために、Open Babelを用いてコーパスにおける全てのSMILES文字列を標準フォーマットに変換する。SMILES文字列と同様に、タンパク質FASTA配列から単語を抽出してタンパク質配列コーパスを作成し、各残基を1つの単語とみなし、UniProtデータベースを利用してタンパク質情報を収集する。
(2)基質情報を特徴付ける複合SMILES文字列及び酵素情報を特徴付けるアミノ酸配列組み込みモデルを抽出し、テンソルマトリクスを構築する。
2つの独立したELECTRAモデルを利用してSMILES文字列とアミノ酸配列をそれぞれ固定次元のベクトルとしてコードする。図7に示すように、ELECTRAの事前トレーニング原理の概略図であり、ELECTRAは、2つのTransformerエンコーダを基本構造として使用し、一方は生成器ネットワークとして、他方は識別器ネットワークとして機能する。生成器は、通常、トークンに出力分布を生成する小さなマスク言語モデルである。SMILES文字列からのマークは、最初にマスクされ、一部は、一定の確率を有するマスク記号[MASK]に置き換えられる。次に、[MASK]マークを生成器に入力し、識別器とともに事前トレーニングを行う。生成器ネットワークは、まずマスクされたマークから学習を行い、次に欠落したマークを予測値で埋めるが、予測値が元の値と異なる場合がある。PubChemデータベースから化合物の複合SMILES文字列を抽出し、UniProtデータベースからタンパク質のFASTA配列を抽出し、それぞれ2つのTransformerエンコーダに入力し、一方は生成器ネットワークとして、他方は識別器ネットワークとして機能し、SMILES文字列を用いて事前トレーニングを行った後、ELECTRA-Mモデルをエンコーダとして取得し、各SMILES文字列を下流タスクにおける特徴ベクトルとしてコードすることができる。同様に、アミノ酸配列を用いて事前トレーニングされたELECTRA-Pモデルを取得し、当該モデルも各アミノ酸配列を1つの特徴ベクトルにコードする。アミノ酸配列とSMILES文字列を入力としてフレームワーク全体に入力し、SMILES文字列とアミノ酸配列の長さが異なるため、それらを固定長に切断して効果的に表現する。固定長100をSMILESのデータセットの基準として選択し、1000をタンパク質配列のデータセットの基準として選択する。これらの最大長は、データセットの分布に基づいて、最大長がデータセットにおける少なくとも80%のタンパク質と化合物をカバーするように選択される。長い配列は、これらの長さに切断され、短い配列は、固定長になるまでゼロで充填される。
(3)テンソルマトリクスを畳み込みニューラルネットワーク(CNN)に入力して特徴を抽出することにより、特徴ベクトルを取得する。
値、生物体の名称、基質の名称、EC番号、及び酵素のUniProt ID及びPubMed IDをBRENDAデータベースからダウンロードする。これにより、156387個のエントリを有するデータセットを生成する。基質の名称を、KEGGの同義語リストによりKEGG化合物IDにマッピングする。KEGG化合物IDに直接的にマッピングできない全ての基質の名称について、まずPubChemにおける同義語リストによりそれらをPubChem化合物IDにマッピングし、次にMBROLEのWebサービスを使用してこれらのIDをKEGG化合物IDにマッピングすることを試みる。UniProt IDが利用可能であれば、UniProtマッピングサービスにより全てのデータポイントのアミノ酸配列をダウンロードする。そうでなければ、生物体の名称とEC番号によりBRENDAからアミノ酸配列をダウンロードする。次に、(I)全ての重複エントリ、(II)非野生型酵素を含む全てのエントリ、(III)当該酵素のUniProt IDを有さない非細菌性生物のエントリ、及び(IV)基質の名称をKEGG化合物IDにマッピングできないエントリを削除する。これにより、34526個のデータポイントのフィルタセットを生成する。そのうちの11737個について、KEGG反応データベースからEC番号-基質組み合わせのエントリを見つけることができる。天然基質のK値のみが意味があるため、これらのデータポイントのみを残す。このデータセットにおける全てのK値をlog10変換する。11737個のエントリを含む最終データセットをトレーニングデータ(80%)とテストデータ(20%)にランダムに分ける。さらに、機械学習モデルのハイパーパラメータ最適化に対して5分割の交差検証を行うために、トレーニングセットを5つのサブセットに分ける。テストデータを用いてハイパーパラメータ最適化後の最終モデルを評価する。
値、生物体の名称、基質の名称、EC番号、及び酵素のUniProt ID及びPubMed IDをSabio-RKデータベースからダウンロードする。これにより、8375個のエントリを有するデータセットを生成する。このデータセットを上記BRENDAデータセットと同様に処理する。BRENDAデータセットに既に存在しているPubMed IDを有するエントリを全て削除する。これにより、274個のエントリを含む最終データセットを生成し、Kを予測する最終モデルの追加テストセットとして使用する。
まず、3種類の異なる分子フィンガープリント(EFFP、RDKitフィンガープリント、及びMACCS結合)によって各基質を示す。最終データセットにおける各基質について、KEGG化合物IDによりKEGGから、その原子と結合の2D投影を含むMDL Molfileをダウンロードする。次に、RDKitからのパケットChemを用いて、Molfileを入力として、2048次元バイナリRDKitフィンガープリント、166次元バイナリMACCSキー、及び1024次元バイナリEFFPを計算する。
前処理されたSMILES文字列及びアミノ酸配列をそれぞれトレーニングされたELECTRA-Mモデル及びELECTRA-Pモデルに組み込む。図8に示すように、複合SMILES文字列とタンパク質配列の組み込み原理の概略図であり、単一化合物について、そのSMILES文字列からのマーク配列(原子又は構造指示子を表す)は、トレーニングされたELECTRA-Mモデルに入力されて複合コードを生成する。具体的には、各token、つまり1つの文字は、ELECTRA-Mにより長さがWであるベクトルに変換され、次に、一連のトークンは、長さがNである配列に変換され、最終的に、複合表現としてW×Nのテンソルマトリクスに接続される。同様に、1つのタンパク質残基マークは、ELECTRA-Pにより長さがWであるアミノ酸配列と長さがNであるアミノ酸配列にコードされて、1つのW×Nテンソルマトリクスに接続される。得られた2つのテンソルマトリクスをそれぞれ2つの同じ特徴抽出器ネットワークCNNとFCNNに入力し、図9に示すように、その内部は、2つのSEブロックと1つのグローバル最大プーリング層を含み、SMILES文字列特徴ベクトルとアミノ酸配列特徴ベクトルを得る。一次元畳み込みによって入力化合物又はタンパク質テンソルX∈RT×256を特徴マップU∈RT×Cに投影して特徴再校正を行う。一次元畳み込みは、特徴方向にあるため、まずこれらの特徴マップUを圧縮し、特徴方向におけるグローバル平均プーリングによってチャネル又は特徴記述子を生成する。インタラクティブ情報は、この記述子に蓄積される。圧縮操作の後は、完全結合層及びReLU活性化を有する励起操作であり、当該操作は、簡単なセルフゲートメカニズムにより特徴から変調重みを生成する。SEブロックの出力は、これらの変調重みによってスケーリングされた特徴マップUの形式になる。積み重ねられたSEブロックは、特徴間のこのインタラクティブ情報をさらに拡大する。ハイパーパラメータ最適化に用いられる4種類の基質表現(ECFP、RDKitフィンガープリント、MACCSキー及びタスクに固有のフィンガープリント)のそれぞれのトレーニングセットに対して5分割の交差検証を行う。FCNNは、2つの隠れ層を含み、隠れ層においてRELU(X)=max(x,0)と定義される補正線形ユニット(RELU)を活性化関数として用いて非線形を導入する。各隠れ層の後にバッチ正規化を適用する。また、過学習を防止するために、各層にL2正則化を使用する。
(4)抽出された2つの特徴ベクトルを単一のベクトルに接続し、当該ベクトルを回帰ネットワークに入力してKを予測する。
工程(3)で抽出されたSMILES文字列特徴ベクトルとアミノ酸配列特徴ベクトルを単一のベクトルに接続し、回帰ネットワークに入力してK値を予測する。
実験結果を図10に示し、BRENDAとSabio-RKデータベースから抽出して前処理されたデータを本実施例のモデルに組み込んでKを予測し、横座標は、実際の結果であり、縦座標は、予測結果である。ほとんどの予測結果は、実際の結果と一致するか又は近接するものであり、少数の誤差が大きい結果も許容範囲内にあり、本実施例のモデルにより予測の正確性を向上させることを説明する。
3、解釈可能な深層学習アルゴリズムに基づく分子動力学シミュレーション軌跡インテリジェント分析モデルを構築し、その性能をテストし、フレームワークフローチャートを図11に示す。
(1)初期データセットを構築する。
タンパク質データベース(PDB)から全ての研究されているシステムの初期結晶構造及び関連情報を取得し、タンパク質構造及び化合物情報を含む初期データセットを構築する。
(2)初期データセットに対して分子動力学シミュレーションを行う。
シミュレーションでは、リガンドとトランスデューサを結晶構造内に保持する。分子動力学システムにおいて、全てのタンパク質残基は、pH=7の場合、標準的なCHARMMプロトン化状態に設定される。次に、これらのタンパク質を質量比が4:1の1-パルミトイル-2-オレオイルホスファチジルコリン:コレステロール拡張膜に浸漬し、TIP3P水モデルで溶媒和し、CHARMM-GUIにより0.15MのNaClで中和した後、5000ステップのエネルギー最小化を行う。その後、各システムを250psで0Kから310Kに加熱し、310Kで5nsNVTにより予備平衡する。立体配座サンプリングを強化するために、初期ランダム速度が異なる3つの平行200nsシミュレーションにおいて、各システムの温度を310Kに、圧力を1気圧にする。全てのシミュレーションについて、2fsステップを使用し、SHAKEアルゴリズムを用いて水素に関連する全ての化学結合を拘束する。粒子グリッドEwald法で静電相互作用を計算する。CHARMM36力場は、タンパク質、脂質及び塩イオンに使用されるが、全てのリガンドのパラメータは、CHARMMの一般的な力場を用いて生成される。
(3)MD立体配座の画素表現
MD後、20psの間隔で各200ns軌跡から10000個のスナップショットを後続のML分析の立体配座データセットとして抽出し、MDスナップショットからリガンドとトランスデューサを除去することにより、受容体立体配座のみを考慮する。構造情報の損失をできるだけ低減するために、画素マップを用いてデータセットにおける各立体配座を示し、各画素点は、1つの原子に対応し、変換原理を図12に示す。なお、全てのMD座標は、H原子を考慮せずに、画素マップに変換する前に平行移動及び回転を除去するように揃えられている。最後に、マトリクス変換によって各立体配座のXYZ座標をRGB座標に変換することにより、特徴画素マップデータセットを得る。具体的な変換原理を図12に示す。RGB色空間は、赤(R)、緑(G)、青(B)の3つの色チャンネルを変更して重ね合わせることによって色を表現する規格であるため、画素表現に用いられる。RGB空間における各点は、特有の色に対応する。特に、各立体配座のXYZ座標は、マトリクス変換によってRGB座標に伝送される。
(4)Swin-Transformerと全結合ニューラルネットワークを融合した新しい分子動力学軌跡分析モデル
モデルは、Swin-Transformerを融合し、階層化設計を利用する。モデルに含まれる4つの隠れ層によって特徴マップの解像度を下げ、受容野を広げる。
特徴マップは、patch partition層、linear Embedding層、Swin Transformer Block層、3つのPatch Merging及びSwin Transformer Block複合層を順次通過する。モデル学習の正確率を向上させ、計算効率を向上させるために、Patch Merging層は、ダウンサンプリング及び全結合層により特徴マップの次元を変更し、かつ特徴マップは、第2複合層において3つのSwin Transformer Block層を繰り返して通過する必要があり、モデルに特徴マップが
Figure 0007490168000002
である次元でさらに学習させる。各Swin Transformer Block層は、いずれも順に動作する2つのサブ層を含み、各サブ層は、いずれもLayer Normalization層、Window Attention層、残差接続及び1つのLayer NormalizationとMLP複合層を含む。唯一の違いは、第1サブ層のWindow Attention層がW-MSA層であり、第2サブ層がShifted Window Attention層SW-MSAであることであるため、各Swin Transformer Block層は、いずれも2回のself-attention計算を経て、グローバルな視野を取得する。Swin-Transformerにより、3層の全結合ニューラルネットワークを構築し、最後に出力ニューロンの数が2つであり、活性化関数softmaxを用いて分類する。
(5)工程(3)で処理されたデータを用いて、工程(4)で説明した新しいモデルをトレーニングして評価する。5分割の交差検証を用いて、各軌跡を時間順に10グループに分け、各グループを5つのフォールディングに分ける。そして、各グループから1つのフォールディングを取り出して検証セットを構成し、各グループの残りの4つのフォールディングを組み合わせてトレーニングセットとする。順に5回繰り返して、5分割の交差検証セットを構築する。Accuracyを用いて新しいモデルの性能を評価する。
分子動力学軌跡分析モデルについて、モデルに含まれる4つの隠れ層によって特徴マップの解像度を下げ、受容野を広げる。1つのH×W×3のピクチャを入力し、まずピクチャに対してpatchを行い、patch sizeを4×4に設定する。次にpatch partitionを行った後、ピクチャのサイズを
Figure 0007490168000003
に変更する。その後、linear Embedding層及びSwin Transformer Block層を通過し、linear embedding層にハイパーパラメータC=96が設定される。その後、特徴マップは、サイズが
Figure 0007490168000004
及び
Figure 0007490168000005
である場合、1つのSwin Transformer Block層を通過し、サイズが
Figure 0007490168000006
である場合、3つのSwin Transformer Block層を通過する。最後に、過学習を防止するために、それぞれ512個、64個及び2つのニューロン、及び0.5のdropoutを含む3層の全結合ニューラルネットワークを通過する。512個と64個のニューロンを含む2つの全結合層に対して、ReLUを活性化関数として使用するが、最後の層でsoftmax活性化関数を使用して分類する。
モデルのロバスト性を検証するために、1つの平行なMD軌跡においてトレーニングされたモデルを用いて他の2つの平行な軌跡を予測する。結果を表1に示す。検証セットの予測精度は、100%に達し、独立テストセットの予測精度は、99%を超え、高いロバスト性を示す。
Figure 0007490168000007
(6)SHAPベースのインタプリタ特徴マップを分割し、分割領域に番号を付け、特徴マップの一部の分割領域のマスクを外乱し、外乱後の全ての特徴マップを分析予測のためにモデルに再入力し、小さい外乱を有する外乱データセットを取得し、サンプル空間を構築し、最後に局所線形近似により一次関数をフィッティングし、各未知数が分割領域に対応し、未知数の係数が有効サイズである。図13に示すように、SHAPアルゴリズムに外乱重みを追加し、重みの大きさは、マスクされていない領域を残すことによって決定される。
選択された特定の立体配座に対して、まず小さな外乱を追加して、元の立体配座と類似する立体配座を含む外乱データセットを得る。πxは、選択された立体配座xの周囲の局所性を定義するものである。トレーニングされた新しいモデルを用いて外乱データセットに対して予測を行う。外乱データセットは、非常に小さく、選択された立体配座に類似するため、分類境界は、簡単になり、線形に近接する。したがって、外乱の大きさに基づいて重みを決定し、直感的かつ解釈可能な線形モデルを重みで除算して局所境界をフィッティングすることができる。具体的には、外乱データセットに基づいて線形モデルをトレーニングすることにより、新しいモデルの予測値と線形モデルの予測値との誤差をできるだけ小さくする。各立体配座について、SHAPインタプリタは、各画素の分類結果における重要性スコアを評価するSHAPマトリクスを生成する。SHAPマトリクスは、画像と同じ次元を有し、各要素は、原子を表す1つの画素点に対応する。SHAPマトリクスにおける各要素の値は、0又は1である。値0は、分類選択に対する当該要素の影響が小さいことを示し、値1は、分類決定に対する該要素の影響が大きいことを示す。各立体配座の全てのSHAPマトリクスを合計し、それらを平均して0から1までの値のスコアを取得する。値が大きいほど、分類結果における原子が重要である。そして、残基における全ての原子のスコアを平均することにより、残基の重要スコアを示す。
第2工程では、フローフレームワークを用いてフコキサンチン生合成経路の特定の機能性酵素をマイニングし、モデル性能を評価する。
1、データの前処理
海藻、エビカニ、魚類などの海洋水産物ゲノムデータベースから、フコキサンチン生合成経路酵素をマイニングする。メタゲノムデータにおいてタンパク質コード領域(Coding sequence、CDS)を同定するのは、非常に時間がかかるため、先にメタゲノミクスに基づいて研究して組み立てた代表的なゲノムにおいてDNA形状情報を融合したCDS直接予測アルゴリズムを用いる。完全性(80%より大きい)などの条件により、海洋生物群サンプルに存在する97個の代表的な生物ゲノムをフィルタリングする。最終的に、13個の合格した代表的なゲノムに着目する。
2、タンパク質コード領域の予測
まず、データセットにおけるDNA配列データに対して連続-離散ハイブリッドコードを行い、C4連続モデルによりグローバル配列情報を捕捉し、ヌクレオチドを4ビットバイナリ、例えば、A-[1,0,0,0]、G-[0,1,0,0]、C-[0,0,1,0]、T-[0,0,0,1]に変換し、非重畳gkm離散モデルによりローカル配列情報を捕捉し、フルフィールド長さlを5、有効ヌクレオチド位置kを3に設定し、例えば、f(XXAGA)を用いてフィールド長さが5である、同じギャップを有するトリヌクレオチド(AGA)の数値を計算する。次に、図2に示すように、既存のスライドウィンドウポリシーとモンテカルロシミュレーション方法により、四量体ルックアップテーブルを構築し、四量体に基づくモデルを用いて予測し、DNA形状特徴情報を抽出し、小溝の幅(MGW)、シフトツイスト(Shift)、スライドツイスト(Slide)、ライズツイスト(Rise)、チルトツイスト(Tilt)、ロールツイスト(Roll)、ヘリックスツイスト(Helix Twist)、シャーツイスト(Shear)、ストレッチツイスト(Stretch)、スタガーツイスト(Stagger)、バックルツイスト(Buckle)、プロペラツイスト(Propeller Twist)、オープンツイスト(Opening)を含む13個のDNA形状特徴の情報値を取得する。各ヌクレオチド位置は、対応する塩基対間特徴値及び塩基対内特徴値を有する。
図3に示すように、データを処理する畳み込みニューラルネットワークは、多入力並列畳み込みアーキテクチャを利用し、3つの4×Lのマトリクスとして入力される。C4コード情報とDNA shape情報に対して畳み込み計算と最大プーリング計算を行い、畳み込み計算層は、ReLU(x)=max(0,x)を活性化関数として使用し、最後にflatten層を介してDNA配列情報をgkm特徴及びDNA形状特徴と組み合わせ、全結合層に入力した後、最終出力を入力とし、BRNNに入力してタンパク質コード領域を予測する。
本実施例で使用されるサンプル配列は、2つの異なるモデルを連続して使用する。(1)DNA形状特徴情報と配列C4コードを融合したCNNモデル:C4コードされたDNA配列情報及びMC方法で抽出されたDNA形状特徴情報を、2つの4×92のマトリクス形式で入力とし、CNNニューラルネットワークモデルにより計算すると、その出力は、gkm特徴コード情報を含む1つの4×92マトリクスとともに直列演算を行う。(2)ヌクレオチドをコードする可能性を予測するBRNNモデル:CNNの出力とgkm特徴をBRNNニューラルネットワークモデルに入力して双方向循環計算を行い、2つの隠れ層WとW、順方向循環層W、逆方向循環層W、2層の活性化関数sigmoid及びsoftmaxを使用して計算した後、タンパク質コード領域に対する予測値として出力する。
3、目的機能性酵素の同定
予測されたCDSデータセットをタンパク質配列(11,657本)に変換した後、目的基質情報とともにミカエリス定数を予測し、既知の陽性サンプルとともに予測を行い、陽性サンプルから予測されたミカエリス定数の数値に基づいて同定閾値範囲(<2.7mol/l)を設定し、陽性サンプルデータを取得する。
具体的には、以下の工程(1)~(3)を含む。
工程(1)では、基質情報を特徴付ける複合SMILES文字列及び酵素情報を特徴付けるアミノ酸配列組み込みモデルを抽出し、テンソルマトリクスを構築する。
2つの独立したELECTRAモデルを利用してSMILES文字列とアミノ酸配列をそれぞれ固定次元のベクトルとしてコードする。工程(1)において事前トレーニングされたELECTRAモデルを使用する。図2に示すように、その事前トレーニング原理の概略図であり、ELECTRAは、2つのTransformerエンコーダを基本構造として使用し、一方は生成器ネットワークとして、他方は識別器ネットワークとして機能する。ここでは、タンパク質配列と小分子SMILESの特徴抽出を、それぞれの生成器を用いて行う。生成器は、通常、トークンに出力分布を生成する小さなマスク言語モデルである。SMILES文字列からのマークは、最初にマスクされ、一部は、一定の確率を有するマスク記号[MASK]に置き換えられる。生成器ネットワークは、まずマスクされたマークから学習を行い、次に欠落したマークを予測値で埋めるが、予測値が元の値と異なる場合がある。基質のSMILES文字列、及び前のタンパク質コード領域を予測して得られたFASTA配列を、それぞれ2つのTransformerエンコーダにおける生成器ネットワーク、即ちSMILESエンコーダのELECTRA-Mモデル及びアミノ酸配列エンコーダのELECTRA-Pモデルに入力する。各SMILES文字列コード及びアミノ酸配列コードをそれぞれ下流タスクにおける特徴ベクトルとして得る。アミノ酸配列とSMILES文字列を入力としてフレームワーク全体に入力し、SMILES文字列とアミノ酸配列の長さが異なるため、それらを固定長に揃えて効果的に表現する。固定長100をSMILESのデータセットの基準として選択し、1000をタンパク質配列のデータセットの基準として選択する。長い配列は、これらの長さに切断され、短い配列は、固定長になるまでゼロで充填される。
図8に示すように、複合SMILES文字列とタンパク質配列の組み込み原理の概略図であり、単一化合物について、そのSMILES文字列からのマーク配列(原子又は構造指示子を表す)は、トレーニングされたELECTRA-Mモデルに入力されて複合コードを生成する。具体的には、各token、つまり1つの文字は、ELECTRA-Mにより長さがWであるベクトルに変換され、次に、一連のトークンは、長さがNである配列に変換され、最終的に、複合表現としてW×Nのテンソルマトリクスに接続される。同様に、1つのタンパク質残基マークは、ELECTRA-Pにより長さがWであるアミノ酸配列と長さがNであるアミノ酸配列にコードされて、1つのW×Nテンソルマトリクスに接続される。得られた2つのテンソルマトリクスをそれぞれ2つの同じ特徴抽出器ネットワークCNNとFCNNに入力し、その内部は、2つのSEブロックと1つのグローバル最大プーリング層を含み、SMILES文字列特徴ベクトルとアミノ酸配列特徴ベクトルを得る。
工程(2)では、抽出された2つの特徴ベクトルを単一のベクトルに接続し、当該ベクトルを回帰ネットワークに入力してKを予測する。
工程(1)で抽出されたSMILES文字列特徴ベクトルとアミノ酸配列特徴ベクトルを単一のベクトルに接続し、回帰ネットワークに入力してK値を予測する。回帰モデルにおいて、CNNとFCNNを組み合わせ、ミカエリス定数を予測する。FCNNは、2つの隠れ層を含み、隠れ層においてRELU(X)=max(x,0)と定義される補正線形ユニット(RELU)を活性化関数として用いて非線形を導入する。各隠れ層の後にバッチ正規化を適用する。また、過学習を防止するために、各層にL2正則化を使用する。
工程(3)では、ミカエリス定数の予測値に基づいて陽性サンプルを同定する。閾値範囲(<2.7mol/l)に基づいて、陽性サンプルデータをスクリーニングする。
4、陽性サンプルの比較とスクリーニング及びその三次元構造の予測
まず、同定された陽性同定結果と生物実験配列決定によって得られたメタプロテオミクスデータとを比較してスクリーニングし、タンパク質をコードするポテンシャルを有する陽性同定サンプルを得る。コンピュータにおいて予測されたCDSがタンパク質/ペプチドに発現する可能性があることを確保するために、メタプロテオミクスデータセットに対してクロスチェックを行う。全てのCDS配列のk-mers(kは少なくとも配列長の半分であり、最大値は配列の元の長さである)を計算し、メタプロテオミクスデータにおけるペプチド配列をチェックする。k-merと代謝プロテオミクスペプチドとが完全に一致する場合、特定のCDS配列の半分以上がプロテオミクスデータにおいてペプチドとして存在することを示し、これは、当該CDSが発現する可能性があることを証明する追加の証拠を提供する。次に、従来技術を用いてタンパク質配列をpdbフォーマットファイルに変換する。即ち、その三次元構造を予測して分子動力学シミュレーションと分析を行う。
5、酵素活性の予測と分析
(1)スクリーニングされた陽性サンプルに対して分子動力学シミュレーションを行う。
シミュレーションでは、リガンドとトランスデューサを結晶構造内に保持する。分子動力学システムにおいて、全てのタンパク質残基は、pH=7の場合、標準的なCHARMMプロトン化状態に設定される。次に、これらのタンパク質を質量比が4:1の1-パルミトイル-2-オレオイルホスファチジルコリン:コレステロール拡張膜に浸漬し、TIP3P水モデルで溶媒和し、CHARMM-GUIにより0.15MのNaClで中和した後、5000ステップのエネルギー最小化を行う。その後、各システムを250psで0からK310Kに加熱し、310Kで5nsNVTにより予備平衡する。立体配座サンプリングを強化するために、初期ランダム速度が異なる3つの平行200nsシミュレーションにおいて、各システムの温度を310Kに、圧力を1気圧にする。全てのシミュレーションについて、2fsステップを使用し、SHAKEアルゴリズムを用いて水素に関連する全ての化学結合を拘束する。静電相互作用は、粒子グリッドEwald法を用いて計算される。CHARMM36力場は、タンパク質、脂質及び塩イオンに使用されるが、全てのリガンドのパラメータは、CHARMMの一般的な力場を用いて生成される。
(2)MD立体配座の画素表現
MD後、20psの間隔で各200ns軌跡から10000個のスナップショットを後続のML分析の立体配座データセットとして抽出し、MDスナップショットからリガンドとトランスデューサを除去することにより、受容体立体配座のみを考慮する。構造情報の損失をできるだけ低減するために、画素マップを用いてデータセットにおける各立体配座を示し、各画素点は、1つの原子に対応し、変換原理を図12に示す。なお、全てのMD座標は、H原子を考慮せずに、画素マップに変換する前に平行移動及び回転を除去するように揃えられている。最後に、マトリクス変換によって各立体配座のXYZ座標をRGB座標に変換することにより、特徴画素マップデータセットを得る。RGB色空間は、赤(R)、緑(G)、青(B)の3つの色チャンネルを変更して重ね合わせることによって色を表現する規格であるため、画素表現に用いられる。RGB空間における各点は、特有の色に対応する。特に、各立体配座のXYZ座標は、マトリクス変換によってRGB座標に伝送される。
(3)候補サンプルの選択とランキング
工程(1)でトレーニングされた分子動力学シミュレーション軌跡インテリジェント分析モデルを用いて、分子動力学と深層学習を組み合わせた予測モデルに基づいて候補酵素活性を予測するとともに、機能する重要なアミノ酸残基を識別することにより、後続の生物学者は、ウェット実験検証を行う。
分子動力学軌跡分析モデルについて、モデルに含まれる4つの隠れ層によって特徴マップの解像度を下げ、受容野を広げる。1つのH×W×3のピクチャを入力し、まずピクチャに対してpatchを行い、patch sizeを4×4に設定する。次にpatch partitionを行った後、ピクチャのサイズを
Figure 0007490168000008
に変更する。その後、linear Embedding層及びSwin Transformer Block層を通過し、linear embedding層にハイパーパラメータC=96が設定される。その後、特徴マップは、サイズが
Figure 0007490168000009
及び
Figure 0007490168000010
である場合、1つのSwin Transformer Block層を通過し、サイズが
Figure 0007490168000011
である場合、3つのSwin Transformer Block層を通過する。最後に、過学習を防止するために、それぞれ512個、64個及び2つのニューロン、及び0.5のdropoutを含む3層の全結合ニューラルネットワークを通過する。512個と64個のニューロンを含む2つの全結合層に対して、ReLUを活性化関数として使用するが、最後の層でsoftmax活性化関数を使用して分類する。
6、本実施例における酵素マイニング方法のフローフレームワークの性能評価
EMBOSSソフトウェアパッケージ(バージョン6.6.0.0)の関数「needleall」におけるNeedleman-Wunschアルゴリズムを用いて、データセットにおける予測された候補サンプル配列データと同じ機能性酵素系との類似性を推定する。まず、配列をアライメントし、次に、アライメントされた配列における同じAA塩基対をカウントする。実行プロセスは、デフォルトパラメータを使用する。比較によって得られた命中状況を図14に示す。
本実施例では、13組のメタゲノムデータから、フコキサンチン生合成経路酵素をマイニングし、真の関連酵素系データとの類似性を比較する。図14は、新しいモデルが、深層学習に基づいたマルチソース情報を融合したマイニングアルゴリズムを用いて得た候補酵素配列情報におけるランキング上位1%、3%及び5%と、既に発見された類似機能性酵素系の配列データとの類似性比較結果の命中率状況を示している。実験評価から明らかなように、本発明は、人工知能の酵素などの機能ゲノムの発現における有効性を示している。

Claims (7)

  1. 海洋水産物のゲノムデータに対してDNA形状特徴を融合したタンパク質コード領域を予測し、予測された前記タンパク質コード領域の配列をアミノ酸配列に変換する第1工程と、
    目的機能性酵素を同定し、前記アミノ酸配列と特定の基質との親和性を予測することにより、目的機能性酵素の同定を実現する第2工程であって、第2工程の具体的な方法は、
    (1)ELECTRAモデルを事前トレーニングし、まずPubChemデータベースから化合物の複合SMILES文字列を抽出し、UniProtデータベースからタンパク質のFASTA配列を抽出し、一方が生成器ネットワークとして、他方が識別器ネットワークとして機能する2つのTransformerエンコーダにそれぞれ入力し、ELECTRA-MモデルとELECTRA-Pモデルをそれぞれ得るステップと、
    (2)BRENDAから収集した基質情報とタンパク質配列情報をトレーニングされたELECTRA-MモデルとELECTRA-Pモデルに入力し、2つの特徴テンソルマトリクスを得て、得られた2つの特徴テンソルマトリクスをそれぞれCNNとFCNNに入力し、CNNとFCNNを組み合わせてミカエリス定数を予測するステップと、
    (3)ミカエリス定数の予測値に基づいて陽性サンプルを同定するステップと、を含む第2工程と、
    第2工程において同定された陽性同定結果と生物実験配列決定によって得られたメタプロテオミクスデータとを比較してスクリーニングし、タンパク質をコードするポテンシャルを有する陽性同定サンプルを得て、タンパク質配列をpdbフォーマットファイルに変換し、即ち、その三次元構造を予測して分子動力学シミュレーションと深層学習(DL)分析を行う第3工程と、
    候補サンプルを選択してランキングするように、前記pdbフォーマットファイルに対して分子動力学と深層学習を組み合わせた予測モデルに基づく酵素活性の予測分析を行う第4工程とを含み、
    前記第1工程~第4工程によって海洋栄養成分の各合成ステップに必要な特定の機能性酵素を遺伝子発現により生成し、最終的に海洋栄養成分の合成経路をシミュレーションして生成する、
    ことを特徴とする海洋栄養成分の生合成経路のマイニング方法。
  2. 前記第1工程において、まず、タンパク質コード領域の予測関連データセットを構築し、NCBI reference sequencesから関連種のゲノムと転写データセットを構築し、全ての生物学的配列からサンプルを選択し、かつサンプルをネガティブサンプルとしてランダムにシャッフルし、ネガティブサンプルの数をポジティブサンプルの数に等しくし、全てのサンプルを3つの部分に分割して3分割の交差検証を行い、テストデータから配列類似度が50%を超えるサンプルを除去することにより、テストデータのうちの各サンプルと、トレーニングデータのうちの任意のサンプルとの同一性が50%を超えないことを保証し、次に、深層学習モデルを用いてDNA形状情報を融合した配列特徴の抽出を実現し、次に、タンパク質コード領域をラベリングし、各スライドウィンドウの特徴コードベクトルを与えた後、深層学習モデルを構築することにより、配列構造特徴、グローバル配列順序情報、重複しないkmer特徴及びタグ依存関係を統合し、生物学的配列における各位置について、現在の部分列及びその隣接する部分列をDNA形状情報、C4及びgkmにコードし、さらにDNA形状情報及びC41つの深層学習モデルであるCNNモデルに入力して、前記CNNモデルで計算した後、前記CNNモデルの出力とgkmを他の深層学習モデルである双方向リカレントニューラルネットワーク(BRNN)モデルに供給してタンパク質コード領域を予測し、予測されたタンパク質コード領域の配列をアミノ酸配列に変換する、
    ことを特徴とする請求項1に記載の海洋栄養成分の生合成経路のマイニング方法。
  3. 第4工程において、まず、分子動力学と深層学習に基づく酵素活性予測モデルのトレーニングとテストのデータセットを構築し、分子動力学ソフトウェアを用いて分子動力学シミュレーションを行い、分子動力学シミュレーション後に20psの間隔で各200ns軌跡からスナップショットを後続のDL分析の立体配座データセットとして抽出し、次に、分子動力学シミュレーション立体配座の画素表現を取得し、画素マップを用いてデータセットにおける各立体配座を示し、即ち、マトリクス変換により各立体配座のXYZ座標をRGB座標に変換し、特徴画素マップデータセットを得、最後に、前記特徴画素マップデータセットに対してトレーニングされた分子動力学と深層学習を組み合わせた予測モデルで酵素活性の予測分析を行い、酵素活性を予測するとともに、機能する重要なアミノ酸残基を識別することにより、研究者に酵素最適化などの酵素工学研究を行う支援及びサポートを提供する
    ことを特徴とする請求項1に記載の海洋栄養成分の生合成経路のマイニング方法。
  4. 第2工程において、第1工程において同定されたタンパク質配列と目的基質との間のミカエリス定数を予測することにより目的機能性酵素の同定を実現し、第2工程におけるステップ(3)において、過学習を防止するために、各隠れ層の後にバッチ正規化を適用し、かつ各層にL2正則化を使用する、
    ことを特徴とする請求項3に記載の海洋栄養成分の生合成経路のマイニング方法。
  5. タンパク質コード領域の予測モジュールと、目的機能性酵素の同定モジュールと、比較スクリーニング及び活性評価モジュールとを含み、
    前記タンパク質コード領域の予測モジュールは、請求項1に記載の海洋栄養成分の生合成経路のマイニング方法における前記第1工程の方法を実行し、
    前記目的機能性酵素の同定モジュールは、請求項1に記載の海洋栄養成分の生合成経路のマイニング方法における第2工程の方法を実行し、
    前記比較スクリーニング及び活性評価モジュールは、請求項1に記載の海洋栄養成分の生合成経路のマイニング方法における前記第3工程及び第4工程の方法を実行する、
    ことを特徴とする海洋栄養成分の生合成経路のマイニング装置。
  6. コンピュータプログラムが記憶されているメモリと、プロセッサとを含み、前記コンピュータプログラムは、前記プロセッサによって実行されると、前記プロセッサに請求項1に記載の海洋栄養成分の生合成経路のマイニング方法の工程を実行させる、
    ことを特徴とするコンピュータ機器。
  7. プロセッサによってロードされると、請求項1に記載の海洋栄養成分の生合成経路のマイニング方法を実行するコンピュータプログラムが記憶されている、
    ことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2023109794A 2023-03-07 2023-07-04 海洋栄養成分の生合成経路のマイニング方法、装置、機器及び媒体 Active JP7490168B1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202310206521.1A CN116072227B (zh) 2023-03-07 2023-03-07 海洋营养成分生物合成途径挖掘方法、装置、设备和介质
CN202310206521.1 2023-03-07

Publications (1)

Publication Number Publication Date
JP7490168B1 true JP7490168B1 (ja) 2024-05-27

Family

ID=86176951

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023109794A Active JP7490168B1 (ja) 2023-03-07 2023-07-04 海洋栄養成分の生合成経路のマイニング方法、装置、機器及び媒体

Country Status (2)

Country Link
JP (1) JP7490168B1 (ja)
CN (1) CN116072227B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116978445B (zh) * 2023-08-03 2024-03-26 北京师范大学珠海校区 一种天然产物的结构预测系统、预测方法及设备
CN117229905B (zh) * 2023-11-15 2024-02-06 山东朝辉生物科技有限公司 一种生物饲料发酵管控方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005519384A (ja) 2002-03-01 2005-06-30 マキシジェン, インコーポレイテッド 機能的生体分子を同定する方法、システム、およびソフトウェア
JP2007526776A (ja) 2004-03-04 2007-09-20 ホワイトヘッド・インスティテュート・フォー・バイオメディカル・リサーチ 生物活性dna結合部位及び関連する方法
JP2010157249A (ja) 2001-01-31 2010-07-15 Regents Of The Univ Of California 生化学反応ネットワークの進化的設計方法
JP2022521686A (ja) 2019-02-11 2022-04-12 フラッグシップ・パイオニアリング・イノベーションズ・ブイアイ,エルエルシー 機械学習支援ポリペプチド解析

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108027849B (zh) * 2015-12-07 2020-03-20 齐默尔根公司 利用htp基因组工程平台对微生物菌株的改良
CN105385706A (zh) * 2015-12-11 2016-03-09 浙江海洋学院 一种海参组织蛋白酶的真核表达方法
KR20230018358A (ko) * 2020-01-30 2023-02-07 플래그쉽 파이어니어링 이노베이션스 브이아이, 엘엘씨 최적화를 위한 컨포멀 추론
CN111696624B (zh) * 2020-06-08 2022-07-12 天津大学 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法
CN114360638A (zh) * 2021-12-15 2022-04-15 华东师范大学 一种基于深度学习的化合物-蛋白质相互作用预测方法
CN114708931B (zh) * 2022-04-22 2023-01-24 中国海洋大学 结合机器学习和构象计算提高药-靶活性预测精度的方法
CN114724623A (zh) * 2022-04-29 2022-07-08 中国海洋大学 一种蛋白质多源特征融合的药物-靶点亲和力预测的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010157249A (ja) 2001-01-31 2010-07-15 Regents Of The Univ Of California 生化学反応ネットワークの進化的設計方法
JP2005519384A (ja) 2002-03-01 2005-06-30 マキシジェン, インコーポレイテッド 機能的生体分子を同定する方法、システム、およびソフトウェア
JP2007526776A (ja) 2004-03-04 2007-09-20 ホワイトヘッド・インスティテュート・フォー・バイオメディカル・リサーチ 生物活性dna結合部位及び関連する方法
JP2022521686A (ja) 2019-02-11 2022-04-12 フラッグシップ・パイオニアリング・イノベーションズ・ブイアイ,エルエルシー 機械学習支援ポリペプチド解析

Also Published As

Publication number Publication date
CN116072227A (zh) 2023-05-05
CN116072227B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
JP7490168B1 (ja) 海洋栄養成分の生合成経路のマイニング方法、装置、機器及び媒体
Al-Ajlan et al. CNN-MGP: convolutional neural networks for metagenomics gene prediction
Pandey et al. Computational approaches for protein function prediction: A survey
US10042976B2 (en) Direct identification and measurement of relative populations of microorganisms with direct DNA sequencing and probabilistic methods
CN113936735A (zh) 一种药物分子与靶标蛋白的结合亲和力预测方法
Lin et al. Clustering methods in protein-protein interaction network
Ahmed et al. DeepPPSite: a deep learning-based model for analysis and prediction of phosphorylation sites using efficient sequence information
Li et al. TransportTP: a two-phase classification approach for membrane transporter prediction and characterization
Dixit et al. Machine learning in bioinformatics: A novel approach for DNA sequencing
Wang et al. A brief review of machine learning methods for RNA methylation sites prediction
CN116013428A (zh) 基于自监督学习的药物靶标通用预测方法、设备及介质
US20220208540A1 (en) System for Identifying Structures of Molecular Compounds from Mass Spectrometry Data
Vicedomini et al. Multiple profile models extract features from protein sequence data and resolve functional diversity of very different protein families
US20230307092A1 (en) Identifying genome features in health and disease
Penić et al. Rinalmo: General-purpose rna language models can generalize well on structure prediction tasks
Wang et al. Self-attention based neural network for predicting RNA-protein binding sites
CN115240775B (zh) 基于stacking集成学习策略的Cas蛋白预测方法
CN114627964B (zh) 一种基于多核学习预测增强子及其强度分类方法及分类设备
Gupta et al. DAVI: Deep learning-based tool for alignment and single nucleotide variant identification
Song et al. PEA-m6A: an ensemble learning framework for accurately predicting N 6-methyladenosine modifications in plants
Chou Recent progresses for computationally identifying N6-methyladenosine sites in Saccharomyces cerevisiae
Ahmad et al. Biological data classification and analysis using convolutional neural network
CN117976047B (zh) 基于深度学习的关键蛋白质预测方法
Ünsal A deep learning based protein representation model for low-data protein function prediction
Periwal et al. A novel binary k-mer approach for classification of coding and non-coding RNAs across diverse species

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230704

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231207

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20231207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20231207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240320

R150 Certificate of patent or registration of utility model

Ref document number: 7490168

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150