JP7490168B1

JP7490168B1 - 海洋栄養成分の生合成経路のマイニング方法、装置、機器及び媒体

Info

Publication number: JP7490168B1
Application number: JP2023109794A
Authority: JP
Inventors: 志強魏; 昊劉; 陽陽李; ▲ミョオ▼ 陳; 其▲チェン▼ 劉; 鵬林
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2023-03-07
Filing date: 2023-07-04
Publication date: 2024-05-27
Anticipated expiration: 2043-07-04
Also published as: CN116072227A; CN116072227B

Abstract

【課題】海洋栄養成分の生合成経路のマイニング方法、装置、機器及び媒体を提供する。【解決手段】方法は、タンパク質コード領域の予測、目的機能性酵素の同定及び酵素活性の予測と分析という３つの重要な工程を含む。【効果】ＤＮＡ三次元構造情報、基質化学特徴情報及びタンパク質三次元構造情報を融合し、モデルの正確性を向上させ、配列決定によって得られたメタプロテオミクスデータと、同定された陽性サンプルとを比較してスクリーニングすることにより、偽陽性確率を大幅に低減し、酵素活性の正確な予測を実現するとともに、重要なアミノ酸残基を逆識別する。【選択図】図１

Description

本発明は、生物情報学の分野に属し、具体的には、海洋栄養成分の生合成経路のマイニング方法、装置、機器及び媒体に関する。

従来技術において、ゲノム配列にわたる特定の代謝酵素をコードする遺伝子セットを自動的に識別する一連の計算方法が開発されている。多くの方法は、最初に細菌（場合によっては真菌と植物）に対して開発されたが、利用された原理は、他の生物種に拡張することができる。これらの方法は、それぞれ異なる分類群を対象として、かつそれらを新たな分類空間に拡張するのに必要な条件も異なる。

方法ポリシーの観点から見ると、従来の主流な方法は、ある種の活性化合物に関連する生合成遺伝子クラスター（ｂｉｏｓｙｎｔｈｅｔｉｃｇｅｎｅｃｌｕｓｔｅｒｓ、ＢＧＣｓ）を識別することが多い。ＢＧＣｓにおける酵素をコードする遺伝子の物理的クラスタリングは、生合成経路の識別を大きく促進する。ＢＧＣは、遺伝子含有量が大きく変化し、かつその迅速な進化及び頻繁な遺伝子レベルの転移により、一般的に菌株特異性を有するが、それらは、一般的に酵素ファミリー形式の共通特性を確実に有し、これらの酵素ファミリーは、特定の種類の代謝産物の生合成全体にとって重要な生化学反応の触媒を担う。この特性により、ゲノムにおけるＢＧＣを大幅かつ自動的に識別することを可能にしている。ａｎｔｉＳＭＡＳＨ、ＰＲＩＳＭなどの広く使用されているソフトウェアツールは、タンパク質ドメインの輪郭隠れマルコフモデル（ｐＨＭＭｓ）を用いて、特定の経路タイプの特徴を有する酵素ファミリーをコードする遺伝子組み合わせを識別する。これらの２つのツールによって得られる結果は、一般的に非常に類似しているが、ａｎｔｉＳＭＡＳＨの開発は、機能及び比較分析に重点を置いているのに対し、ＰＲＩＳＭは、化学構造の組み合わせ予測に特に使用され、質量スペクトルデータとの自動マッチングに使用することができる。ｐＨＭＭｓの使用は、多くの成熟したタイプの生合成メカニズムをコードするＢＧＣ（例えば、ポリケタイド合成酵素、ＮＲＰＳｓ及び既知のタイプのリボソームを合成して翻訳した後に修飾されたペプチド（ｒｉｂｏｓｏｍａｌｌｙｓｙｎｔｈｅｓｉｚｅｄａｎｄｐｏｓｔｔｒａｎｓｌａｔｉｏｎａｌｌｙｍｏｄｉｆｉｅｄｐｅｐｔｉｄｅｓ、ＲｉＰＰｓ））を識別するのに非常に信頼できるが、あまり研究されず、全く新しいタイプのＢＧＣを無視するリスクがある。確率ベースのＢＧＣ予測方法（例えば、ＣｌｕｓｔｅｒＦｉｎｄｅｒ（ａｎｔｉＳＭＡＳＨにも集積）とＤｅｅｐＢＧＣ）又はゲノム間の代謝に関連する非共線遺伝子ブロックを識別する比較ゲノミクス方法は、非標準ＢＧＣを検出する可能性がより高いが、偽陽性率が高い。また、ＲｉＰＰについて、既知のタイプにおける遠隔メンバー酵素（配列相同性比較で認識できないメンバー酵素）又は全く新しいタイプの酵素をコードして生成するＢＧＣｓを識別する専用ツールが登場している。そのうちの一部（例えば、ＢＡＧＥＬ）は、ａｎｔｉＳＭＡＳＨ及びＰＲＩＳＭと同様のｐＨＭＭに基づく検出技術を使用する。他の研究では、デコイベースの方法（特定のクエリ酵素をコードする遺伝子を用いて、それらのホモログを含む遺伝子座を識別する）又は機械学習方法を使用して、潜在的な前駆体ペプチドをコードする遺伝子を識別し、メタボロミクスに基づくマッチングを使用して分類単位に固有のオペロンを識別することにより、特定の代謝機能をコードすると考えられる。公開利用可能なゲノムについては、ａｎｔｉＳＭＡＳＨによって識別されたＢＧＣをＩＭＧ－ＡＢＣとａｎｔｉＳＭＡＳＨ－ＤＢなどのオンラインデータベースにおいてインタラクティブに閲覧することができる。

しかしながら、単一の遺伝子クラスターに位置するのではなく、複数の染色体に分布するゲノムによってコードされる生物の生合成経路の例が数多くある。ゲノムマイニング方法を生命の木の未開発部分に拡張した場合に、その代謝産物生合成ゲノムのクラスタリング程度は、まだ観察する必要がある。

アルゴリズム発展プロセスの観点から見ると、早期に配列比較方式によって保存配列を発見する方法は、機能配列を発見する主な手段とされるが、配列関連研究の深化に伴い、様々な配列マイニングアルゴリズムが登場している。生物学的配列におけるモチーフマイニング（又はモチーフ発見）は、類似した、保存された配列要素（「ｍｏｔｉｆ」）のグループを見つける問題として定義されてもよい。これらの配列元素は、通常、ヌクレオチド配列において短くかつ類似し、共通の生物学的機能を有する。初期のｍｏｔｉｆマイニング方法は、主に列挙方法と確率方法の２つの主なタイプに分けられる。第１タイプは、簡単な単語列挙に基づくものである。例えば、Ｓｉｎｈａらによって開発された酵母モチーフファインダー（ＹｅａｓｔＭｏｔｉｆＦｉｎｄｅｒ、ＹＭＦ）アルゴリズムは、一致性表現を用いて酵母ゲノムにおける少数の縮重位置を有する短いモチーフを検出する。ＹＭＦは、主に、探索空間の全てのモチーフ配列（ｍｏｔｉｆ）を列挙する第１ステップと、全てのｍｏｔｉｆのｚ－ｓｃｏｒｅを計算して、スコアが最も高いｍｏｔｉｆを見つける第２ステップとに分けられる。

列挙に基づくモチーフマイニング方法の実行速度を加速するために、接尾辞木、並列処理などのいくつかの特殊な方法が使用される。また、ＬＭＭＯ、ＤｉｒｅｃｔＦＳ、ＡＢＣ、ＤｉｓｃＭＬＡ、ＣｉｓＦｉｎｄｅｒ、Ｗｅｅｄｅｒ、Ｆｍｏｔｉｆ及びＭＣＥＳなどの配列マイニングアルゴリズムは、モデルにおいてこのポリシーを使用している。確率ベースのモチーフマイニング方法では、いくつかのパラメータを必要とする確率モデルを構築する。これらの方法は、結合領域における各部位に塩基分布を提供することにより、モチーフの有無を区別する。これらの方法は、通常、位置固有のスコアマトリクス（ｐｏｓｉｔｉｏｎｓｐｅｃｉｆｉｃｓｃｏｒｉｎｇｍａｔｒｉｘ、ＰＳＳＭ／ＰＷＭ）又はｍｏｔｉｆマトリクスによって分布を構築する。ＰＷＭは、各位置におけるｍｏｔｉｆの優先度を示すｍ×ｎサイズのマトリクスである（ｍは、特定のタンパク質結合部位の長さを示し、ｎは、ヌクレオチド塩基のタイプを示す）。

近年、深層学習は、様々な応用シーンにおいて大きな成功を収めている。これにより、研究者は、これをＤＮＡ／ＲＮＡモチーフマイニングに適用しようと試みる。ＤＮＡ／ＲＮＡモチーフマイニングは、遺伝子機能研究の基礎であり、研究者は、過去数十年にわたり、モチーフマイニングのために新しい効率的で正確なアルゴリズムを設計することに取り組んでいる。関連する研究結果は、深層学習を代表とするアルゴリズムが良い成績を達成することを示している。従来の配列マイニング深層学習方法は、畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ、ＣＮＮ）に基づくモデル、リカレントニューラルネットワーク（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ、ＲＮＮ）に基づくモデル、及びハイブリッドＣＮＮ－ＲＮＮに基づくモデルの３種類に大別される。従来の深層学習方法を分析して比較することにより、データが十分である場合、より複雑なモデルの方が単純なモデルよりも優れたパフォーマンスを発揮することが多いことが分かる。

しかしながら、従来の深層学習に基づく主流なゲノミクスデータマイニング方法は、ある特定のタスク（例えば、抗生物質耐性遺伝子の予測）に対してエンドツーエンド深層学習モデルを設計することが多く、汎用性が低く、柔軟性が低いという問題がある。また、ゲノムデータから目的化合物の生合成経路をマイニングすることは、依然として挑戦性があり、全体のデータ量が豊富であるが、単一機能性酵素に関連するデータ量が不十分である可能性があるなどの問題がある。また、ゲノミクスのデータ量が膨大であり、マイニングアルゴリズムの効率に対する要求が高いという前提で、効率と精度をどのようにバランスさせるかなどの問題がある。

上記問題に対して、本発明は、大量の海洋水産物のゲノムデータに基づいて、自然言語処理ニューラルネットワークモデルと組み合わせて、目的化合物の合成関連酵素をコードする遺伝子の識別及び優先ランキングを実現する海洋栄養成分の生合成経路のマイニング方法、装置、機器及び媒体を設計開発する。各合成ステップに必要な特定の機能性酵素を遺伝子発現により生成し、最終的に合成経路をシミュレーション生成する。また、フローにおける（１）タンパク質コード領域の予測、（２）目的機能性酵素の同定、及び（３）酵素活性の予測と分析という３つの重要な工程の関連技術を最適化することにより、パイプラインの有効性を向上させる。

本発明は、以下の技術手段により実現される。

海洋栄養成分の生合成経路のマイニング方法は、具体的には、以下の第１工程～第４工程を含む。

第１工程では、潜在的なゲノムデータに対してＤＮＡ形状特徴を融合したタンパク質コード領域を予測し、
まず、タンパク質コード領域の予測関連データセットを構築し、Ｒｅｆｓｅｑ（ＮＣＢＩｒｅｆｅｒｅｎｃｅｓｅｑｕｅｎｃｅｓ）から関連種のゲノムと転写データセットを構築し、次に、全ての生物学的配列からサンプルを選択し、かつサンプルをネガティブサンプルとしてランダムにシャッフルし、ネガティブサンプルの数をポジティブサンプルの数に等しくし、最後に、全てのサンプルを３つの部分に分割して３分割の交差検証を行い、テストデータから類似のサンプルを除去することにより、テストデータのうちの各サンプルと、トレーニングデータのうちの任意のサンプルとの同一性が５０％を超えないことを保証し、次に、深層学習モデルを用いてＤＮＡ形状情報を融合した配列特徴の抽出を実現し、最後に、タンパク質コード領域をラベリングし、各スライドウィンドウの特徴コードベクトルを与えた後、深層学習モデルを構築することにより、配列構造特徴、グローバル配列順序情報、重複しないｋｍｅｒ特徴及びタグ依存関係を統合し、生物学的配列における各位置について、まず、現在の部分列及びその隣接する部分列をＤＮＡ形状情報（ＤＳＳ）、Ｃ４及びｇｋｍにコードし、次にＤＮＡ形状情報及びＣ２をＣＮＮにコードしてｇｋｍに合併し、最後に双方向リカレントニューラルネットワーク（ＢＲＮＮ）に供給してタンパク質コード領域を予測し、予測されたタンパク質コード領域の配列をアミノ酸配列に変換する。

第２工程では、目的機能性酵素を同定し、
アミノ酸配列と特定の基質との親和性を予測することにより、目的機能性酵素の同定を実現し、第２工程の方法は、
（１）ＥＬＥＣＴＲＡモデルを事前トレーニングし、まずＰｕｂＣｈｅｍデータベースから化合物の複合ＳＭＩＬＥＳ文字列を抽出し、ＵｎｉＰｒｏｔデータベースからタンパク質のＦＡＳＴＡ配列を抽出し、それぞれ２つのＴｒａｎｓｆｏｒｍｅｒエンコーダに入力し、一方は生成器ネットワークとして、他方は識別器ネットワークとして機能し、ＥＬＥＣＴＲＡ－ＭモデルとＥＬＥＣＴＲＡ－Ｐモデルをそれぞれ得るステップと、
（２）ＢＲＥＮＤＡから収集した基質情報とタンパク質配列情報をトレーニングされたＥＬＥＣＴＲＡ－ＭモデルとＥＬＥＣＴＲＡ－Ｐモデルに入力し、特徴テンソルマトリクスを得て、ＣＮＮとＦＣＮＮを組み合わせてミカエリス定数を予測するステップと、
（３）ＦＣＮＮを用いてミカエリス定数の値を予測するステップと、を含み、
第３工程では、第２工程において同定された陽性同定結果と生物実験配列決定によって得られたメタプロテオミクスデータとを比較してスクリーニングし、タンパク質をコードするポテンシャルを有する陽性同定サンプルを得て、従来技術を利用してタンパク質配列をｐｄｂフォーマットファイルに変換し、即ち、その三次元構造を予測して分子動力学シミュレーションと分析を行い、
第４工程では、候補サンプルを選択してランキングするように、それに対して分子動力学と深層学習を組み合わせた予測モデルに基づく酵素活性の予測分析を行う。

さらに、前記第４工程において、まず、分子動力学と深層学習に基づく酵素活性予測モデルのトレーニングとテストのデータセットを構築し、分子動力学ソフトウェアを用いて分子動力学シミュレーションを行い、分子動力学シミュレーション後に２０ｐｓの間隔で各２００ｎｓ軌跡からスナップショットを後続のＤＬ分析の立体配座データセットとして抽出し、次に、分子動力学シミュレーション立体配座の画素表現を取得し、画素マップを用いてデータセットにおける各立体配座を示し、即ち、マトリクス変換により各立体配座のＸＹＺ座標をＲＧＢ座標に変換し、最後に、解釈可能な深層学習アルゴリズムモデルを構築し、酵素活性を予測するとともに、機能する重要なアミノ酸残基を識別することにより、後続の生物学者がウェット実験検証を行う。

さらに、第２工程における（３）において、過学習を防止するために、各隠れ層の後にバッチ正規化を適用し、かつ各層にＬ２正則化を使用する。

本発明は、タンパク質コード領域の予測モジュールと、目的機能性酵素の同定モジュールと、比較スクリーニング及び活性評価モジュールとを含む海洋栄養成分の生合成経路のマイニング装置をさらに提供する。

前記タンパク質コード領域の予測モジュールは、海洋栄養成分の生合成経路のマイニング方法における前記第１工程の方法を実行し、
前記目的機能性酵素の同定モジュールは、海洋栄養成分の生合成経路のマイニング方法における第２工程の方法を実行し、
前記比較スクリーニング及び活性評価モジュールは、海洋栄養成分の生合成経路のマイニング方法における前記第３工程及び第４工程の方法を実行する。

本発明は、コンピュータプログラムが記憶されているメモリと、プロセッサとを含み、前記コンピュータプログラムが前記プロセッサによって実行されると、前記プロセッサに前記海洋栄養成分の生合成経路のマイニング方法の工程を実行させるコンピュータ機器をさらに提供する。

本発明は、プロセッサによってロードされると、海洋栄養成分の生合成経路のマイニング方法を実行するコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供する。

従来技術に比べて、本発明の有益な効果は、以下のとおりである。

１、深層学習に基づくアルゴリズムパイプラインのフローフレームワークは、従来の遺伝子マイニングのエンドツーエンド深層学習モデルと比較して柔軟性がより高く、機能モジュールが単独で使用されてもよいし、組み合わせて使用されてもよい。

２、本方法は、ＤＮＡ三次元構造情報、基質化学特徴情報及びタンパク質三次元構造情報を融合し、典型的主流な方法において配列情報である単一タイプのデータのみを使用することを突破し、モデルの正確性をさらに向上させる。

３、本方法は、従来方法のトランスクリプトームデータ、同じ機能性酵素系データへの依存を打破し、深層学習モデルが特定の機能性酵素をコードする遺伝子のマイニングタスクにおいて直面するトレーニングデータが不十分であるという問題を緩和する。

４、本方法は、生物学的ウェット実験を同時に実行し、配列決定によって得られたメタプロテオミクスデータと、同定された陽性サンプルとを比較してスクリーニングすることにより、偽陽性確率を大幅に低減する。

５、本方法における酵素活性の予測分析モジュールは、分子動力学シミュレーション及び解釈可能な深層学習に基づいて、酵素活性の正確な予測を実現するとともに、重要なアミノ酸残基を逆識別することにより、作用メカニズムの解釈を行い、後続の研究者に酵素最適化などの酵素工学研究を行う支援及びサポートを提供する。

本発明の全体フローチャートである。本発明のＤＮＡ形状特徴タイプの概略図である。畳み込みニューラルネットワークの構造図である。ニューラルネットワークモデルの構造図である。本発明の方法とＤＮＡ形状特徴を含まないｋｍｅｒ＋ＢＲＮＮ方法による性能比較図である。特定の機能性酵素の同定アルゴリズムのブロック図である。本発明のＥＬＥＣＴＲＡの事前トレーニング原理の概略図である。複合ＳＭＩＬＥＳ文字列とタンパク質配列の組み込み原理の概略図である。ＣＮＮ及びＦＣＮＮモデルのアーキテクチャ図である。本発明のモデル予測結果図である。本発明のマルチソース情報を融合したタンパク質コード領域の予測のネットワークアーキテクチャ図である。本発明のＭＤ立体配座と画素マップの変換原理の概略図である。ＳＨＡＰインタプリタのフローチャートである。予測された候補サンプル配列データと実際の同じ機能性酵素系との類似性を示す図である。

以下、実施例により図面を参照しながら本発明の技術手段をさらに説明するが、本発明の保護範囲は、実施例によって何ら限定されない。

（実施例１）
図１に示すように、海洋栄養成分の生合成経路のマイニング方法は、具体的には、以下の第１工程～第２工程を含む。

第１工程では、アルゴリズムフローフレームワークを構築し、本フレームワークは、主に、タンパク質コード領域予測アルゴリズム、目的機能性酵素同定アルゴリズム、及び酵素活性予測分析アルゴリズムという３つのアルゴリズムを含み、本工程は、それぞれデータセットを構築してアルゴリズムをトレーニングしてデバッグし、かつそれぞれ３つのアルゴリズムの性能をテストする。

１、ＤＮＡ形状特徴を融合したタンパク質コード領域予測モデルを構築し、モデル性能をテストする。

（１）データセットの構築
まず、現在の研究分野における遺伝子レベルのタンパク質コード関連研究の進展をまとめ、現在の研究における主なデータセットソースをまとめる。次に、現在の研究における主なデータセット構築方法、ＤＮＡ配列情報コード方法及びＤＮＡ形状特徴情報取得方法をまとめて、形状特徴を融合したＤＮＡ配列データセットを設計して構築する。

本実施例で構築された７３組の良好かつ全面的なアノテーション付きクロレラゲノムと転写物データセットは、ＮＣＢＩ（ｈｔｔｐｓ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｒｅｆｓｅｑ／）からダウンロードすることができ、実験データフォーマットは、ＴＦＲｅｃｏｒｄであり、トレーニングセットとデータセットの２つの部分に分けられる。

海洋原核生物データセットは、Ｒｅｆｓｅｑ基準配列データベースから取得され、各原核生物種は、１つの基準的なゲノム又は代表的なゲノムのみを有し、当該データセットにおける原核生物の代表的なゲノムは、細分化され、単一ゲノムにアノテーションが改めて付けられる。全てのＤＮＡ配列からサンプルを選択し、サンプルをランダムにシャッフルし、正例と負例の数は等しい。全てのサンプルを３つの部分に分割して３分割の交差検証を行うとともに、テストセットから類似のサンプルを削除することにより、テストセットにおける各サンプルとトレーニングセットにおける各サンプルとの一致性が４０％を超えないことを保証する。

（２）ＤＮＡ配列データ及びＤＮＡ形状特徴データの前処理
まず、データセットにおけるＤＮＡ配列データに対して連続－離散ハイブリッドコードを行い、Ｃ４連続モデルによりグローバル配列情報を捕捉し、ヌクレオチドを４ビットバイナリ、例えば、Ａ－［１，０，０，０］、Ｇ－［０，１，０，０］、Ｃ－［０，０，１，０］、Ｔ－［０，０，０，１］に変換し、非重畳ｇｋｍ離散モデルによりローカル配列情報を捕捉し、フルフィールド長さｌを５、有効ヌクレオチド位置ｋを３に設定し、例えば、ｆ（ＸＸＡＧＡ）を用いてフィールド長さが５である、同じギャップを有するトリヌクレオチド（ＡＧＡ）の数値を計算する。次に、図２に示すように、既存のスライドウィンドウポリシーとモンテカルロシミュレーション方法により、四量体ルックアップテーブルを構築し、四量体に基づくモデルを用いて予測し、ＤＮＡ形状特徴情報を抽出し、小溝の幅（ＭＧＷ）、シフトツイスト（Ｓｈｉｆｔ）、スライドツイスト（Ｓｌｉｄｅ）、ライズツイスト（Ｒｉｓｅ）、チルトツイスト（Ｔｉｌｔ）、ロールツイスト（Ｒｏｌｌ）、ヘリックスツイスト（ＨｅｌｉｘＴｗｉｓｔ）、シャーツイスト（Ｓｈｅａｒ）、ストレッチツイスト（Ｓｔｒｅｔｃｈ）、スタガーツイスト（Ｓｔａｇｇｅｒ）、バックルツイスト（Ｂｕｃｋｌｅ）、プロペラツイスト（ＰｒｏｐｅｌｌｅｒＴｗｉｓｔ）、オープンツイスト（Ｏｐｅｎｉｎｇ）を含む１３個のＤＮＡ形状特徴の情報値を取得する。各ヌクレオチド位置は、対応する塩基対間特徴値及び塩基対内特徴値を有する。

図３に示すように、データを処理する畳み込みニューラルネットワークは、多入力並列畳み込みアーキテクチャを利用し、３つの４×Ｌのマトリクスとして入力される。Ｃ４コード情報とＤＮＡｓｈａｐｅ情報に対して畳み込み計算と最大プーリング計算を行い、畳み込み計算層は、ＲｅＬＵ（ｘ）＝ｍａｘ（０，ｘ）を活性化関数として使用し、最後にｆｌａｔｔｅｎ層を介してＤＮＡ配列情報をｇｋｍ特徴及びＤＮＡ形状特徴と組み合わせて、全結合層に入力した後、最終出力を入力として、ＢＲＮＮに入力してタンパク質コード領域を予測する。

（３）ＤＮＡ形状特徴を融合したタンパク質コード領域予測モデルの反復トレーニング
本実施例で使用されるサンプル配列は、２つの異なるモデルを連続して使用する。１）ＤＮＡ形状特徴情報と配列Ｃ４コードを融合したＣＮＮモデル：Ｃ４コードされたＤＮＡ配列情報及びＭＣ方法で抽出されたＤＮＡ形状特徴情報を、２つの４×９２のマトリクス形式で入力とし、ＣＮＮニューラルネットワークモデルにより計算すると、その出力は、ｇｋｍ特徴コード情報を含む１つの４×９２マトリクスとともに直列演算を行う。２）ヌクレオチドをコードする可能性を予測するＢＲＮＮモデル：ＣＮＮの出力とｇｋｍ特徴をＢＲＮＮニューラルネットワークモデルに入力して双方向循環計算を行い、２つの隠れ層Ｗ_１とＷ_２、順方向循環層Ｗ_ｆ、逆方向循環層Ｗ_ｂ、２層の活性化関数ｓｉｇｍｏｉｄ及びｓｏｆｔｍａｘを使用して計算した後、タンパク質コード領域に対する予測値として出力する。図４に示すように、提出されたニューラルネットワークモデルは、トレーニング過程において、ＴｅｎｓｏｒｆｌｏｗにＴＦＲｅｃｏｒｄデータフォーマットを使用し、学習率を常用値１０^－３に設定し、モデルが安定するまで複数回の反復トレーニングを行う。本実施例において、前記ＤＮＡ形状を融合したＣＮＮ＋ＢＲＮＮタンパク質コード領域予測方法とＤＮＡ形状特徴を含まないｋｍｅｒ＋ＢＲＮＮ方法による７３組のクロレラゲノムとトランスクリプトームデータの性能比較を記録する。図５に示すように、実験的評価によって、ＤＮＡ形状を融合したハイブリッドコード予測モデルはタンパク質コード領域の予測においてより優れた性能と高い精度を示すことが証明される。

２、転移学習に基づいた基質化学情報を融合した特定の機能性酵素同定モデルを構築し、その性能をテストし、フローフレームワークを図６に示す。

（１）タンパク質及び化合物配列コーパスを構築する。

入力配列のコード層を取得するために、特定のタスクを対象とするコーパストレーニングＥＬＥＣＴＲＡモデルを事前に構築する必要がある。ＳＭＩＬＥＳ文字列は、簡単な用語（原子と化学結合記号のみ）と一部の文法規則を有する言語構造である。自然言語処理と同様に、ＳＭＩＬＥＳ文字列は、文に類似し、各原子及び結合記号は、いずれも１つの単語である。その後、多くの化合物を収集することにより、コーパスを自然に構成することができる。例えば、ＳＭＩＬＥＳ文字列「ＣＣ（＝）ＯＣ１＝Ｃ」は、‘Ｃ’、‘（’，‘＝’，‘）’、‘０’、‘１’の組み合わせとしてマークされた文とすることができる。異なるソースからの全てのＳＭＩＬＥＳ文字列の一致性を確保するために、ＯｐｅｎＢａｂｅｌを用いてコーパスにおける全てのＳＭＩＬＥＳ文字列を標準フォーマットに変換する。ＳＭＩＬＥＳ文字列と同様に、タンパク質ＦＡＳＴＡ配列から単語を抽出してタンパク質配列コーパスを作成し、各残基を１つの単語とみなし、ＵｎｉＰｒｏｔデータベースを利用してタンパク質情報を収集する。

（２）基質情報を特徴付ける複合ＳＭＩＬＥＳ文字列及び酵素情報を特徴付けるアミノ酸配列組み込みモデルを抽出し、テンソルマトリクスを構築する。

２つの独立したＥＬＥＣＴＲＡモデルを利用してＳＭＩＬＥＳ文字列とアミノ酸配列をそれぞれ固定次元のベクトルとしてコードする。図７に示すように、ＥＬＥＣＴＲＡの事前トレーニング原理の概略図であり、ＥＬＥＣＴＲＡは、２つのＴｒａｎｓｆｏｒｍｅｒエンコーダを基本構造として使用し、一方は生成器ネットワークとして、他方は識別器ネットワークとして機能する。生成器は、通常、トークンに出力分布を生成する小さなマスク言語モデルである。ＳＭＩＬＥＳ文字列からのマークは、最初にマスクされ、一部は、一定の確率を有するマスク記号［ＭＡＳＫ］に置き換えられる。次に、［ＭＡＳＫ］マークを生成器に入力し、識別器とともに事前トレーニングを行う。生成器ネットワークは、まずマスクされたマークから学習を行い、次に欠落したマークを予測値で埋めるが、予測値が元の値と異なる場合がある。ＰｕｂＣｈｅｍデータベースから化合物の複合ＳＭＩＬＥＳ文字列を抽出し、ＵｎｉＰｒｏｔデータベースからタンパク質のＦＡＳＴＡ配列を抽出し、それぞれ２つのＴｒａｎｓｆｏｒｍｅｒエンコーダに入力し、一方は生成器ネットワークとして、他方は識別器ネットワークとして機能し、ＳＭＩＬＥＳ文字列を用いて事前トレーニングを行った後、ＥＬＥＣＴＲＡ－Ｍモデルをエンコーダとして取得し、各ＳＭＩＬＥＳ文字列を下流タスクにおける特徴ベクトルとしてコードすることができる。同様に、アミノ酸配列を用いて事前トレーニングされたＥＬＥＣＴＲＡ－Ｐモデルを取得し、当該モデルも各アミノ酸配列を１つの特徴ベクトルにコードする。アミノ酸配列とＳＭＩＬＥＳ文字列を入力としてフレームワーク全体に入力し、ＳＭＩＬＥＳ文字列とアミノ酸配列の長さが異なるため、それらを固定長に切断して効果的に表現する。固定長１００をＳＭＩＬＥＳのデータセットの基準として選択し、１０００をタンパク質配列のデータセットの基準として選択する。これらの最大長は、データセットの分布に基づいて、最大長がデータセットにおける少なくとも８０％のタンパク質と化合物をカバーするように選択される。長い配列は、これらの長さに切断され、短い配列は、固定長になるまでゼロで充填される。

（３）テンソルマトリクスを畳み込みニューラルネットワーク（ＣＮＮ）に入力して特徴を抽出することにより、特徴ベクトルを取得する。

Ｋ_Ｍ値、生物体の名称、基質の名称、ＥＣ番号、及び酵素のＵｎｉＰｒｏｔＩＤ及びＰｕｂＭｅｄＩＤをＢＲＥＮＤＡデータベースからダウンロードする。これにより、１５６３８７個のエントリを有するデータセットを生成する。基質の名称を、ＫＥＧＧの同義語リストによりＫＥＧＧ化合物ＩＤにマッピングする。ＫＥＧＧ化合物ＩＤに直接的にマッピングできない全ての基質の名称について、まずＰｕｂＣｈｅｍにおける同義語リストによりそれらをＰｕｂＣｈｅｍ化合物ＩＤにマッピングし、次にＭＢＲＯＬＥのＷｅｂサービスを使用してこれらのＩＤをＫＥＧＧ化合物ＩＤにマッピングすることを試みる。ＵｎｉＰｒｏｔＩＤが利用可能であれば、ＵｎｉＰｒｏｔマッピングサービスにより全てのデータポイントのアミノ酸配列をダウンロードする。そうでなければ、生物体の名称とＥＣ番号によりＢＲＥＮＤＡからアミノ酸配列をダウンロードする。次に、（Ｉ）全ての重複エントリ、（ＩＩ）非野生型酵素を含む全てのエントリ、（ＩＩＩ）当該酵素のＵｎｉＰｒｏｔＩＤを有さない非細菌性生物のエントリ、及び（ＩＶ）基質の名称をＫＥＧＧ化合物ＩＤにマッピングできないエントリを削除する。これにより、３４５２６個のデータポイントのフィルタセットを生成する。そのうちの１１７３７個について、ＫＥＧＧ反応データベースからＥＣ番号－基質組み合わせのエントリを見つけることができる。天然基質のＫ_Ｍ値のみが意味があるため、これらのデータポイントのみを残す。このデータセットにおける全てのＫ_Ｍ値をｌｏｇ１０変換する。１１７３７個のエントリを含む最終データセットをトレーニングデータ（８０％）とテストデータ（２０％）にランダムに分ける。さらに、機械学習モデルのハイパーパラメータ最適化に対して５分割の交差検証を行うために、トレーニングセットを５つのサブセットに分ける。テストデータを用いてハイパーパラメータ最適化後の最終モデルを評価する。

Ｋ_Ｍ値、生物体の名称、基質の名称、ＥＣ番号、及び酵素のＵｎｉＰｒｏｔＩＤ及びＰｕｂＭｅｄＩＤをＳａｂｉｏ－ＲＫデータベースからダウンロードする。これにより、８３７５個のエントリを有するデータセットを生成する。このデータセットを上記ＢＲＥＮＤＡデータセットと同様に処理する。ＢＲＥＮＤＡデータセットに既に存在しているＰｕｂＭｅｄＩＤを有するエントリを全て削除する。これにより、２７４個のエントリを含む最終データセットを生成し、Ｋ_Ｍを予測する最終モデルの追加テストセットとして使用する。

まず、３種類の異なる分子フィンガープリント（ＥＦＦＰ、ＲＤＫｉｔフィンガープリント、及びＭＡＣＣＳ結合）によって各基質を示す。最終データセットにおける各基質について、ＫＥＧＧ化合物ＩＤによりＫＥＧＧから、その原子と結合の２Ｄ投影を含むＭＤＬＭｏｌｆｉｌｅをダウンロードする。次に、ＲＤＫｉｔからのパケットＣｈｅｍを用いて、Ｍｏｌｆｉｌｅを入力として、２０４８次元バイナリＲＤＫｉｔフィンガープリント、１６６次元バイナリＭＡＣＣＳキー、及び１０２４次元バイナリＥＦＦＰを計算する。

前処理されたＳＭＩＬＥＳ文字列及びアミノ酸配列をそれぞれトレーニングされたＥＬＥＣＴＲＡ－Ｍモデル及びＥＬＥＣＴＲＡ－Ｐモデルに組み込む。図８に示すように、複合ＳＭＩＬＥＳ文字列とタンパク質配列の組み込み原理の概略図であり、単一化合物について、そのＳＭＩＬＥＳ文字列からのマーク配列（原子又は構造指示子を表す）は、トレーニングされたＥＬＥＣＴＲＡ－Ｍモデルに入力されて複合コードを生成する。具体的には、各ｔｏｋｅｎ、つまり１つの文字は、ＥＬＥＣＴＲＡ－Ｍにより長さがＷ_Ｃであるベクトルに変換され、次に、一連のトークンは、長さがＮ_Ｃである配列に変換され、最終的に、複合表現としてＷ_Ｃ×Ｎ_Ｃのテンソルマトリクスに接続される。同様に、１つのタンパク質残基マークは、ＥＬＥＣＴＲＡ－Ｐにより長さがＷ_Ｐであるアミノ酸配列と長さがＮ_Ｐであるアミノ酸配列にコードされて、１つのＷ_Ｐ×Ｎ_Ｐテンソルマトリクスに接続される。得られた２つのテンソルマトリクスをそれぞれ２つの同じ特徴抽出器ネットワークＣＮＮとＦＣＮＮに入力し、図９に示すように、その内部は、２つのＳＥブロックと１つのグローバル最大プーリング層を含み、ＳＭＩＬＥＳ文字列特徴ベクトルとアミノ酸配列特徴ベクトルを得る。一次元畳み込みによって入力化合物又はタンパク質テンソルＸ∈Ｒ^{Ｔ×２５６}を特徴マップＵ∈Ｒ^Ｔ×Ｃに投影して特徴再校正を行う。一次元畳み込みは、特徴方向にあるため、まずこれらの特徴マップＵを圧縮し、特徴方向におけるグローバル平均プーリングによってチャネル又は特徴記述子を生成する。インタラクティブ情報は、この記述子に蓄積される。圧縮操作の後は、完全結合層及びＲｅＬＵ活性化を有する励起操作であり、当該操作は、簡単なセルフゲートメカニズムにより特徴から変調重みを生成する。ＳＥブロックの出力は、これらの変調重みによってスケーリングされた特徴マップＵの形式になる。積み重ねられたＳＥブロックは、特徴間のこのインタラクティブ情報をさらに拡大する。ハイパーパラメータ最適化に用いられる４種類の基質表現（ＥＣＦＰ、ＲＤＫｉｔフィンガープリント、ＭＡＣＣＳキー及びタスクに固有のフィンガープリント）のそれぞれのトレーニングセットに対して５分割の交差検証を行う。ＦＣＮＮは、２つの隠れ層を含み、隠れ層においてＲＥＬＵ（Ｘ）＝ｍａｘ（ｘ，０）と定義される補正線形ユニット（ＲＥＬＵ）を活性化関数として用いて非線形を導入する。各隠れ層の後にバッチ正規化を適用する。また、過学習を防止するために、各層にＬ２正則化を使用する。

（４）抽出された２つの特徴ベクトルを単一のベクトルに接続し、当該ベクトルを回帰ネットワークに入力してＫ_Ｍを予測する。

工程（３）で抽出されたＳＭＩＬＥＳ文字列特徴ベクトルとアミノ酸配列特徴ベクトルを単一のベクトルに接続し、回帰ネットワークに入力してＫ_Ｍ値を予測する。

実験結果を図１０に示し、ＢＲＥＮＤＡとＳａｂｉｏ－ＲＫデータベースから抽出して前処理されたデータを本実施例のモデルに組み込んでＫ_Ｍを予測し、横座標は、実際の結果であり、縦座標は、予測結果である。ほとんどの予測結果は、実際の結果と一致するか又は近接するものであり、少数の誤差が大きい結果も許容範囲内にあり、本実施例のモデルにより予測の正確性を向上させることを説明する。

３、解釈可能な深層学習アルゴリズムに基づく分子動力学シミュレーション軌跡インテリジェント分析モデルを構築し、その性能をテストし、フレームワークフローチャートを図１１に示す。

（１）初期データセットを構築する。

タンパク質データベース（ＰＤＢ）から全ての研究されているシステムの初期結晶構造及び関連情報を取得し、タンパク質構造及び化合物情報を含む初期データセットを構築する。

（２）初期データセットに対して分子動力学シミュレーションを行う。

シミュレーションでは、リガンドとトランスデューサを結晶構造内に保持する。分子動力学システムにおいて、全てのタンパク質残基は、ｐＨ＝７の場合、標準的なＣＨＡＲＭＭプロトン化状態に設定される。次に、これらのタンパク質を質量比が４：１の１－パルミトイル－２－オレオイルホスファチジルコリン：コレステロール拡張膜に浸漬し、ＴＩＰ３Ｐ水モデルで溶媒和し、ＣＨＡＲＭＭ－ＧＵＩにより０．１５ＭのＮａＣｌで中和した後、５０００ステップのエネルギー最小化を行う。その後、各システムを２５０ｐｓで０Ｋから３１０Ｋに加熱し、３１０Ｋで５ｎｓＮＶＴにより予備平衡する。立体配座サンプリングを強化するために、初期ランダム速度が異なる３つの平行２００ｎｓシミュレーションにおいて、各システムの温度を３１０Ｋに、圧力を１気圧にする。全てのシミュレーションについて、２ｆｓステップを使用し、ＳＨＡＫＥアルゴリズムを用いて水素に関連する全ての化学結合を拘束する。粒子グリッドＥｗａｌｄ法で静電相互作用を計算する。ＣＨＡＲＭＭ３６力場は、タンパク質、脂質及び塩イオンに使用されるが、全てのリガンドのパラメータは、ＣＨＡＲＭＭの一般的な力場を用いて生成される。

（３）ＭＤ立体配座の画素表現
ＭＤ後、２０ｐｓの間隔で各２００ｎｓ軌跡から１００００個のスナップショットを後続のＭＬ分析の立体配座データセットとして抽出し、ＭＤスナップショットからリガンドとトランスデューサを除去することにより、受容体立体配座のみを考慮する。構造情報の損失をできるだけ低減するために、画素マップを用いてデータセットにおける各立体配座を示し、各画素点は、１つの原子に対応し、変換原理を図１２に示す。なお、全てのＭＤ座標は、Ｈ原子を考慮せずに、画素マップに変換する前に平行移動及び回転を除去するように揃えられている。最後に、マトリクス変換によって各立体配座のＸＹＺ座標をＲＧＢ座標に変換することにより、特徴画素マップデータセットを得る。具体的な変換原理を図１２に示す。ＲＧＢ色空間は、赤（Ｒ）、緑（Ｇ）、青（Ｂ）の３つの色チャンネルを変更して重ね合わせることによって色を表現する規格であるため、画素表現に用いられる。ＲＧＢ空間における各点は、特有の色に対応する。特に、各立体配座のＸＹＺ座標は、マトリクス変換によってＲＧＢ座標に伝送される。

（４）Ｓｗｉｎ－Ｔｒａｎｓｆｏｒｍｅｒと全結合ニューラルネットワークを融合した新しい分子動力学軌跡分析モデル
モデルは、Ｓｗｉｎ－Ｔｒａｎｓｆｏｒｍｅｒを融合し、階層化設計を利用する。モデルに含まれる４つの隠れ層によって特徴マップの解像度を下げ、受容野を広げる。

特徴マップは、ｐａｔｃｈｐａｒｔｉｔｉｏｎ層、ｌｉｎｅａｒＥｍｂｅｄｄｉｎｇ層、ＳｗｉｎＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋ層、３つのＰａｔｃｈＭｅｒｇｉｎｇ及びＳｗｉｎＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋ複合層を順次通過する。モデル学習の正確率を向上させ、計算効率を向上させるために、ＰａｔｃｈＭｅｒｇｉｎｇ層は、ダウンサンプリング及び全結合層により特徴マップの次元を変更し、かつ特徴マップは、第２複合層において３つのＳｗｉｎＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋ層を繰り返して通過する必要があり、モデルに特徴マップが

である次元でさらに学習させる。各ＳｗｉｎＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋ層は、いずれも順に動作する２つのサブ層を含み、各サブ層は、いずれもＬａｙｅｒＮｏｒｍａｌｉｚａｔｉｏｎ層、ＷｉｎｄｏｗＡｔｔｅｎｔｉｏｎ層、残差接続及び１つのＬａｙｅｒＮｏｒｍａｌｉｚａｔｉｏｎとＭＬＰ複合層を含む。唯一の違いは、第１サブ層のＷｉｎｄｏｗＡｔｔｅｎｔｉｏｎ層がＷ－ＭＳＡ層であり、第２サブ層がＳｈｉｆｔｅｄＷｉｎｄｏｗＡｔｔｅｎｔｉｏｎ層ＳＷ－ＭＳＡであることであるため、各ＳｗｉｎＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋ層は、いずれも２回のｓｅｌｆ－ａｔｔｅｎｔｉｏｎ計算を経て、グローバルな視野を取得する。Ｓｗｉｎ－Ｔｒａｎｓｆｏｒｍｅｒにより、３層の全結合ニューラルネットワークを構築し、最後に出力ニューロンの数が２つであり、活性化関数ｓｏｆｔｍａｘを用いて分類する。

（５）工程（３）で処理されたデータを用いて、工程（４）で説明した新しいモデルをトレーニングして評価する。５分割の交差検証を用いて、各軌跡を時間順に１０グループに分け、各グループを５つのフォールディングに分ける。そして、各グループから１つのフォールディングを取り出して検証セットを構成し、各グループの残りの４つのフォールディングを組み合わせてトレーニングセットとする。順に５回繰り返して、５分割の交差検証セットを構築する。Ａｃｃｕｒａｃｙを用いて新しいモデルの性能を評価する。

分子動力学軌跡分析モデルについて、モデルに含まれる４つの隠れ層によって特徴マップの解像度を下げ、受容野を広げる。１つのＨ×Ｗ×３のピクチャを入力し、まずピクチャに対してｐａｔｃｈを行い、ｐａｔｃｈｓｉｚｅを４×４に設定する。次にｐａｔｃｈｐａｒｔｉｔｉｏｎを行った後、ピクチャのサイズを

に変更する。その後、ｌｉｎｅａｒＥｍｂｅｄｄｉｎｇ層及びＳｗｉｎＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋ層を通過し、ｌｉｎｅａｒｅｍｂｅｄｄｉｎｇ層にハイパーパラメータＣ＝９６が設定される。その後、特徴マップは、サイズが

及び

である場合、１つのＳｗｉｎＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋ層を通過し、サイズが

である場合、３つのＳｗｉｎＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋ層を通過する。最後に、過学習を防止するために、それぞれ５１２個、６４個及び２つのニューロン、及び０．５のｄｒｏｐｏｕｔを含む３層の全結合ニューラルネットワークを通過する。５１２個と６４個のニューロンを含む２つの全結合層に対して、ＲｅＬＵを活性化関数として使用するが、最後の層でｓｏｆｔｍａｘ活性化関数を使用して分類する。

モデルのロバスト性を検証するために、１つの平行なＭＤ軌跡においてトレーニングされたモデルを用いて他の２つの平行な軌跡を予測する。結果を表１に示す。検証セットの予測精度は、１００％に達し、独立テストセットの予測精度は、９９％を超え、高いロバスト性を示す。

（６）ＳＨＡＰベースのインタプリタ特徴マップを分割し、分割領域に番号を付け、特徴マップの一部の分割領域のマスクを外乱し、外乱後の全ての特徴マップを分析予測のためにモデルに再入力し、小さい外乱を有する外乱データセットを取得し、サンプル空間を構築し、最後に局所線形近似により一次関数をフィッティングし、各未知数が分割領域に対応し、未知数の係数が有効サイズである。図１３に示すように、ＳＨＡＰアルゴリズムに外乱重みを追加し、重みの大きさは、マスクされていない領域を残すことによって決定される。

選択された特定の立体配座に対して、まず小さな外乱を追加して、元の立体配座と類似する立体配座を含む外乱データセットを得る。πｘは、選択された立体配座ｘの周囲の局所性を定義するものである。トレーニングされた新しいモデルを用いて外乱データセットに対して予測を行う。外乱データセットは、非常に小さく、選択された立体配座に類似するため、分類境界は、簡単になり、線形に近接する。したがって、外乱の大きさに基づいて重みを決定し、直感的かつ解釈可能な線形モデルを重みで除算して局所境界をフィッティングすることができる。具体的には、外乱データセットに基づいて線形モデルをトレーニングすることにより、新しいモデルの予測値と線形モデルの予測値との誤差をできるだけ小さくする。各立体配座について、ＳＨＡＰインタプリタは、各画素の分類結果における重要性スコアを評価するＳＨＡＰマトリクスを生成する。ＳＨＡＰマトリクスは、画像と同じ次元を有し、各要素は、原子を表す１つの画素点に対応する。ＳＨＡＰマトリクスにおける各要素の値は、０又は１である。値０は、分類選択に対する当該要素の影響が小さいことを示し、値１は、分類決定に対する該要素の影響が大きいことを示す。各立体配座の全てのＳＨＡＰマトリクスを合計し、それらを平均して０から１までの値のスコアを取得する。値が大きいほど、分類結果における原子が重要である。そして、残基における全ての原子のスコアを平均することにより、残基の重要スコアを示す。

第２工程では、フローフレームワークを用いてフコキサンチン生合成経路の特定の機能性酵素をマイニングし、モデル性能を評価する。

１、データの前処理
海藻、エビカニ、魚類などの海洋水産物ゲノムデータベースから、フコキサンチン生合成経路酵素をマイニングする。メタゲノムデータにおいてタンパク質コード領域（Ｃｏｄｉｎｇｓｅｑｕｅｎｃｅ、ＣＤＳ）を同定するのは、非常に時間がかかるため、先にメタゲノミクスに基づいて研究して組み立てた代表的なゲノムにおいてＤＮＡ形状情報を融合したＣＤＳ直接予測アルゴリズムを用いる。完全性（８０％より大きい）などの条件により、海洋生物群サンプルに存在する９７個の代表的な生物ゲノムをフィルタリングする。最終的に、１３個の合格した代表的なゲノムに着目する。

２、タンパク質コード領域の予測
まず、データセットにおけるＤＮＡ配列データに対して連続－離散ハイブリッドコードを行い、Ｃ４連続モデルによりグローバル配列情報を捕捉し、ヌクレオチドを４ビットバイナリ、例えば、Ａ－［１，０，０，０］、Ｇ－［０，１，０，０］、Ｃ－［０，０，１，０］、Ｔ－［０，０，０，１］に変換し、非重畳ｇｋｍ離散モデルによりローカル配列情報を捕捉し、フルフィールド長さｌを５、有効ヌクレオチド位置ｋを３に設定し、例えば、ｆ（ＸＸＡＧＡ）を用いてフィールド長さが５である、同じギャップを有するトリヌクレオチド（ＡＧＡ）の数値を計算する。次に、図２に示すように、既存のスライドウィンドウポリシーとモンテカルロシミュレーション方法により、四量体ルックアップテーブルを構築し、四量体に基づくモデルを用いて予測し、ＤＮＡ形状特徴情報を抽出し、小溝の幅（ＭＧＷ）、シフトツイスト（Ｓｈｉｆｔ）、スライドツイスト（Ｓｌｉｄｅ）、ライズツイスト（Ｒｉｓｅ）、チルトツイスト（Ｔｉｌｔ）、ロールツイスト（Ｒｏｌｌ）、ヘリックスツイスト（ＨｅｌｉｘＴｗｉｓｔ）、シャーツイスト（Ｓｈｅａｒ）、ストレッチツイスト（Ｓｔｒｅｔｃｈ）、スタガーツイスト（Ｓｔａｇｇｅｒ）、バックルツイスト（Ｂｕｃｋｌｅ）、プロペラツイスト（ＰｒｏｐｅｌｌｅｒＴｗｉｓｔ）、オープンツイスト（Ｏｐｅｎｉｎｇ）を含む１３個のＤＮＡ形状特徴の情報値を取得する。各ヌクレオチド位置は、対応する塩基対間特徴値及び塩基対内特徴値を有する。

図３に示すように、データを処理する畳み込みニューラルネットワークは、多入力並列畳み込みアーキテクチャを利用し、３つの４×Ｌのマトリクスとして入力される。Ｃ４コード情報とＤＮＡｓｈａｐｅ情報に対して畳み込み計算と最大プーリング計算を行い、畳み込み計算層は、ＲｅＬＵ（ｘ）＝ｍａｘ（０，ｘ）を活性化関数として使用し、最後にｆｌａｔｔｅｎ層を介してＤＮＡ配列情報をｇｋｍ特徴及びＤＮＡ形状特徴と組み合わせ、全結合層に入力した後、最終出力を入力とし、ＢＲＮＮに入力してタンパク質コード領域を予測する。

本実施例で使用されるサンプル配列は、２つの異なるモデルを連続して使用する。（１）ＤＮＡ形状特徴情報と配列Ｃ４コードを融合したＣＮＮモデル：Ｃ４コードされたＤＮＡ配列情報及びＭＣ方法で抽出されたＤＮＡ形状特徴情報を、２つの４×９２のマトリクス形式で入力とし、ＣＮＮニューラルネットワークモデルにより計算すると、その出力は、ｇｋｍ特徴コード情報を含む１つの４×９２マトリクスとともに直列演算を行う。（２）ヌクレオチドをコードする可能性を予測するＢＲＮＮモデル：ＣＮＮの出力とｇｋｍ特徴をＢＲＮＮニューラルネットワークモデルに入力して双方向循環計算を行い、２つの隠れ層Ｗ_１とＷ_２、順方向循環層Ｗ_ｆ、逆方向循環層Ｗ_ｂ、２層の活性化関数ｓｉｇｍｏｉｄ及びｓｏｆｔｍａｘを使用して計算した後、タンパク質コード領域に対する予測値として出力する。

３、目的機能性酵素の同定
予測されたＣＤＳデータセットをタンパク質配列（１１，６５７本）に変換した後、目的基質情報とともにミカエリス定数を予測し、既知の陽性サンプルとともに予測を行い、陽性サンプルから予測されたミカエリス定数の数値に基づいて同定閾値範囲（＜２．７ｍｏｌ／ｌ）を設定し、陽性サンプルデータを取得する。

具体的には、以下の工程（１）～（３）を含む。

工程（１）では、基質情報を特徴付ける複合ＳＭＩＬＥＳ文字列及び酵素情報を特徴付けるアミノ酸配列組み込みモデルを抽出し、テンソルマトリクスを構築する。

２つの独立したＥＬＥＣＴＲＡモデルを利用してＳＭＩＬＥＳ文字列とアミノ酸配列をそれぞれ固定次元のベクトルとしてコードする。工程（１）において事前トレーニングされたＥＬＥＣＴＲＡモデルを使用する。図２に示すように、その事前トレーニング原理の概略図であり、ＥＬＥＣＴＲＡは、２つのＴｒａｎｓｆｏｒｍｅｒエンコーダを基本構造として使用し、一方は生成器ネットワークとして、他方は識別器ネットワークとして機能する。ここでは、タンパク質配列と小分子ＳＭＩＬＥＳの特徴抽出を、それぞれの生成器を用いて行う。生成器は、通常、トークンに出力分布を生成する小さなマスク言語モデルである。ＳＭＩＬＥＳ文字列からのマークは、最初にマスクされ、一部は、一定の確率を有するマスク記号［ＭＡＳＫ］に置き換えられる。生成器ネットワークは、まずマスクされたマークから学習を行い、次に欠落したマークを予測値で埋めるが、予測値が元の値と異なる場合がある。基質のＳＭＩＬＥＳ文字列、及び前のタンパク質コード領域を予測して得られたＦＡＳＴＡ配列を、それぞれ２つのＴｒａｎｓｆｏｒｍｅｒエンコーダにおける生成器ネットワーク、即ちＳＭＩＬＥＳエンコーダのＥＬＥＣＴＲＡ－Ｍモデル及びアミノ酸配列エンコーダのＥＬＥＣＴＲＡ－Ｐモデルに入力する。各ＳＭＩＬＥＳ文字列コード及びアミノ酸配列コードをそれぞれ下流タスクにおける特徴ベクトルとして得る。アミノ酸配列とＳＭＩＬＥＳ文字列を入力としてフレームワーク全体に入力し、ＳＭＩＬＥＳ文字列とアミノ酸配列の長さが異なるため、それらを固定長に揃えて効果的に表現する。固定長１００をＳＭＩＬＥＳのデータセットの基準として選択し、１０００をタンパク質配列のデータセットの基準として選択する。長い配列は、これらの長さに切断され、短い配列は、固定長になるまでゼロで充填される。

図８に示すように、複合ＳＭＩＬＥＳ文字列とタンパク質配列の組み込み原理の概略図であり、単一化合物について、そのＳＭＩＬＥＳ文字列からのマーク配列（原子又は構造指示子を表す）は、トレーニングされたＥＬＥＣＴＲＡ－Ｍモデルに入力されて複合コードを生成する。具体的には、各ｔｏｋｅｎ、つまり１つの文字は、ＥＬＥＣＴＲＡ－Ｍにより長さがＷ_Ｃであるベクトルに変換され、次に、一連のトークンは、長さがＮ_Ｃである配列に変換され、最終的に、複合表現としてＷ_Ｃ×Ｎ_Ｃのテンソルマトリクスに接続される。同様に、１つのタンパク質残基マークは、ＥＬＥＣＴＲＡ－Ｐにより長さがＷ_Ｐであるアミノ酸配列と長さがＮ_Ｐであるアミノ酸配列にコードされて、１つのＷ_Ｐ×Ｎ_Ｐテンソルマトリクスに接続される。得られた２つのテンソルマトリクスをそれぞれ２つの同じ特徴抽出器ネットワークＣＮＮとＦＣＮＮに入力し、その内部は、２つのＳＥブロックと１つのグローバル最大プーリング層を含み、ＳＭＩＬＥＳ文字列特徴ベクトルとアミノ酸配列特徴ベクトルを得る。

工程（２）では、抽出された２つの特徴ベクトルを単一のベクトルに接続し、当該ベクトルを回帰ネットワークに入力してＫ_Ｍを予測する。

工程（１）で抽出されたＳＭＩＬＥＳ文字列特徴ベクトルとアミノ酸配列特徴ベクトルを単一のベクトルに接続し、回帰ネットワークに入力してＫ_Ｍ値を予測する。回帰モデルにおいて、ＣＮＮとＦＣＮＮを組み合わせ、ミカエリス定数を予測する。ＦＣＮＮは、２つの隠れ層を含み、隠れ層においてＲＥＬＵ（Ｘ）＝ｍａｘ（ｘ，０）と定義される補正線形ユニット（ＲＥＬＵ）を活性化関数として用いて非線形を導入する。各隠れ層の後にバッチ正規化を適用する。また、過学習を防止するために、各層にＬ２正則化を使用する。

工程（３）では、ミカエリス定数の予測値に基づいて陽性サンプルを同定する。閾値範囲（＜２．７ｍｏｌ／ｌ）に基づいて、陽性サンプルデータをスクリーニングする。

４、陽性サンプルの比較とスクリーニング及びその三次元構造の予測
まず、同定された陽性同定結果と生物実験配列決定によって得られたメタプロテオミクスデータとを比較してスクリーニングし、タンパク質をコードするポテンシャルを有する陽性同定サンプルを得る。コンピュータにおいて予測されたＣＤＳがタンパク質／ペプチドに発現する可能性があることを確保するために、メタプロテオミクスデータセットに対してクロスチェックを行う。全てのＣＤＳ配列のｋ－ｍｅｒｓ（ｋは少なくとも配列長の半分であり、最大値は配列の元の長さである）を計算し、メタプロテオミクスデータにおけるペプチド配列をチェックする。ｋ－ｍｅｒと代謝プロテオミクスペプチドとが完全に一致する場合、特定のＣＤＳ配列の半分以上がプロテオミクスデータにおいてペプチドとして存在することを示し、これは、当該ＣＤＳが発現する可能性があることを証明する追加の証拠を提供する。次に、従来技術を用いてタンパク質配列をｐｄｂフォーマットファイルに変換する。即ち、その三次元構造を予測して分子動力学シミュレーションと分析を行う。

５、酵素活性の予測と分析
（１）スクリーニングされた陽性サンプルに対して分子動力学シミュレーションを行う。

シミュレーションでは、リガンドとトランスデューサを結晶構造内に保持する。分子動力学システムにおいて、全てのタンパク質残基は、ｐＨ＝７の場合、標準的なＣＨＡＲＭＭプロトン化状態に設定される。次に、これらのタンパク質を質量比が４：１の１－パルミトイル－２－オレオイルホスファチジルコリン：コレステロール拡張膜に浸漬し、ＴＩＰ３Ｐ水モデルで溶媒和し、ＣＨＡＲＭＭ－ＧＵＩにより０．１５ＭのＮａＣｌで中和した後、５０００ステップのエネルギー最小化を行う。その後、各システムを２５０ｐｓで０からＫ３１０Ｋに加熱し、３１０Ｋで５ｎｓＮＶＴにより予備平衡する。立体配座サンプリングを強化するために、初期ランダム速度が異なる３つの平行２００ｎｓシミュレーションにおいて、各システムの温度を３１０Ｋに、圧力を１気圧にする。全てのシミュレーションについて、２ｆｓステップを使用し、ＳＨＡＫＥアルゴリズムを用いて水素に関連する全ての化学結合を拘束する。静電相互作用は、粒子グリッドＥｗａｌｄ法を用いて計算される。ＣＨＡＲＭＭ３６力場は、タンパク質、脂質及び塩イオンに使用されるが、全てのリガンドのパラメータは、ＣＨＡＲＭＭの一般的な力場を用いて生成される。

（２）ＭＤ立体配座の画素表現
ＭＤ後、２０ｐｓの間隔で各２００ｎｓ軌跡から１００００個のスナップショットを後続のＭＬ分析の立体配座データセットとして抽出し、ＭＤスナップショットからリガンドとトランスデューサを除去することにより、受容体立体配座のみを考慮する。構造情報の損失をできるだけ低減するために、画素マップを用いてデータセットにおける各立体配座を示し、各画素点は、１つの原子に対応し、変換原理を図１２に示す。なお、全てのＭＤ座標は、Ｈ原子を考慮せずに、画素マップに変換する前に平行移動及び回転を除去するように揃えられている。最後に、マトリクス変換によって各立体配座のＸＹＺ座標をＲＧＢ座標に変換することにより、特徴画素マップデータセットを得る。ＲＧＢ色空間は、赤（Ｒ）、緑（Ｇ）、青（Ｂ）の３つの色チャンネルを変更して重ね合わせることによって色を表現する規格であるため、画素表現に用いられる。ＲＧＢ空間における各点は、特有の色に対応する。特に、各立体配座のＸＹＺ座標は、マトリクス変換によってＲＧＢ座標に伝送される。

（３）候補サンプルの選択とランキング
工程（１）でトレーニングされた分子動力学シミュレーション軌跡インテリジェント分析モデルを用いて、分子動力学と深層学習を組み合わせた予測モデルに基づいて候補酵素活性を予測するとともに、機能する重要なアミノ酸残基を識別することにより、後続の生物学者は、ウェット実験検証を行う。

及び

６、本実施例における酵素マイニング方法のフローフレームワークの性能評価
ＥＭＢＯＳＳソフトウェアパッケージ（バージョン６．６．０．０）の関数「ｎｅｅｄｌｅａｌｌ」におけるＮｅｅｄｌｅｍａｎ－Ｗｕｎｓｃｈアルゴリズムを用いて、データセットにおける予測された候補サンプル配列データと同じ機能性酵素系との類似性を推定する。まず、配列をアライメントし、次に、アライメントされた配列における同じＡＡ塩基対をカウントする。実行プロセスは、デフォルトパラメータを使用する。比較によって得られた命中状況を図１４に示す。

本実施例では、１３組のメタゲノムデータから、フコキサンチン生合成経路酵素をマイニングし、真の関連酵素系データとの類似性を比較する。図１４は、新しいモデルが、深層学習に基づいたマルチソース情報を融合したマイニングアルゴリズムを用いて得た候補酵素配列情報におけるランキング上位１％、３％及び５％と、既に発見された類似機能性酵素系の配列データとの類似性比較結果の命中率状況を示している。実験評価から明らかなように、本発明は、人工知能の酵素などの機能ゲノムの発現における有効性を示している。

Claims

海洋水産物のゲノムデータに対してＤＮＡ形状特徴を融合したタンパク質コード領域を予測し、予測された前記タンパク質コード領域の配列をアミノ酸配列に変換する第１工程と、
目的機能性酵素を同定し、前記アミノ酸配列と特定の基質との親和性を予測することにより、目的機能性酵素の同定を実現する第２工程であって、第２工程の具体的な方法は、
（１）ＥＬＥＣＴＲＡモデルを事前トレーニングし、まずＰｕｂＣｈｅｍデータベースから化合物の複合ＳＭＩＬＥＳ文字列を抽出し、ＵｎｉＰｒｏｔデータベースからタンパク質のＦＡＳＴＡ配列を抽出し、一方が生成器ネットワークとして、他方が識別器ネットワークとして機能する２つのＴｒａｎｓｆｏｒｍｅｒエンコーダにそれぞれ入力し、ＥＬＥＣＴＲＡ－ＭモデルとＥＬＥＣＴＲＡ－Ｐモデルをそれぞれ得るステップと、
（２）ＢＲＥＮＤＡから収集した基質情報とタンパク質配列情報をトレーニングされたＥＬＥＣＴＲＡ－ＭモデルとＥＬＥＣＴＲＡ－Ｐモデルに入力し、２つの特徴テンソルマトリクスを得て、得られた２つの特徴テンソルマトリクスをそれぞれＣＮＮとＦＣＮＮに入力し、ＣＮＮとＦＣＮＮを組み合わせてミカエリス定数を予測するステップと、
（３）ミカエリス定数の予測値に基づいて陽性サンプルを同定するステップと、を含む第２工程と、
第２工程において同定された陽性同定結果と生物実験配列決定によって得られたメタプロテオミクスデータとを比較してスクリーニングし、タンパク質をコードするポテンシャルを有する陽性同定サンプルを得て、タンパク質配列をｐｄｂフォーマットファイルに変換し、即ち、その三次元構造を予測して分子動力学シミュレーションと深層学習（ＤＬ）分析を行う第３工程と、
候補サンプルを選択してランキングするように、前記ｐｄｂフォーマットファイルに対して分子動力学と深層学習を組み合わせた予測モデルに基づく酵素活性の予測分析を行う第４工程とを含み、
前記第１工程～第４工程によって海洋栄養成分の各合成ステップに必要な特定の機能性酵素を遺伝子発現により生成し、最終的に海洋栄養成分の合成経路をシミュレーションして生成する、
ことを特徴とする海洋栄養成分の生合成経路のマイニング方法。
前記第１工程において、まず、タンパク質コード領域の予測関連データセットを構築し、ＮＣＢＩｒｅｆｅｒｅｎｃｅｓｅｑｕｅｎｃｅｓから関連種のゲノムと転写データセットを構築し、全ての生物学的配列からサンプルを選択し、かつサンプルをネガティブサンプルとしてランダムにシャッフルし、ネガティブサンプルの数をポジティブサンプルの数に等しくし、全てのサンプルを３つの部分に分割して３分割の交差検証を行い、テストデータから配列類似度が５０％を超えるサンプルを除去することにより、テストデータのうちの各サンプルと、トレーニングデータのうちの任意のサンプルとの同一性が５０％を超えないことを保証し、次に、深層学習モデルを用いてＤＮＡ形状情報を融合した配列特徴の抽出を実現し、次に、タンパク質コード領域をラベリングし、各スライドウィンドウの特徴コードベクトルを与えた後、深層学習モデルを構築することにより、配列構造特徴、グローバル配列順序情報、重複しないｋｍｅｒ特徴及びタグ依存関係を統合し、生物学的配列における各位置について、現在の部分列及びその隣接する部分列をＤＮＡ形状情報、Ｃ４及びｇｋｍにコードし、さらにＤＮＡ形状情報及びＣ４を１つの深層学習モデルであるＣＮＮモデルに入力して、前記ＣＮＮモデルで計算した後、前記ＣＮＮモデルの出力とｇｋｍを他の深層学習モデルである双方向リカレントニューラルネットワーク（ＢＲＮＮ）モデルに供給してタンパク質コード領域を予測し、予測されたタンパク質コード領域の配列をアミノ酸配列に変換する、
ことを特徴とする請求項１に記載の海洋栄養成分の生合成経路のマイニング方法。
第４工程において、まず、分子動力学と深層学習に基づく酵素活性予測モデルのトレーニングとテストのデータセットを構築し、分子動力学ソフトウェアを用いて分子動力学シミュレーションを行い、分子動力学シミュレーション後に２０ｐｓの間隔で各２００ｎｓ軌跡からスナップショットを後続のＤＬ分析の立体配座データセットとして抽出し、次に、分子動力学シミュレーション立体配座の画素表現を取得し、画素マップを用いてデータセットにおける各立体配座を示し、即ち、マトリクス変換により各立体配座のＸＹＺ座標をＲＧＢ座標に変換し、特徴画素マップデータセットを得、最後に、前記特徴画素マップデータセットに対してトレーニングされた分子動力学と深層学習を組み合わせた予測モデルで酵素活性の予測分析を行い、酵素活性を予測するとともに、機能する重要なアミノ酸残基を識別することにより、研究者に酵素最適化などの酵素工学研究を行う支援及びサポートを提供する、
ことを特徴とする請求項１に記載の海洋栄養成分の生合成経路のマイニング方法。
第２工程において、第１工程において同定されたタンパク質配列と目的基質との間のミカエリス定数を予測することにより目的機能性酵素の同定を実現し、第２工程におけるステップ（３）において、過学習を防止するために、各隠れ層の後にバッチ正規化を適用し、かつ各層にＬ２正則化を使用する、
ことを特徴とする請求項３に記載の海洋栄養成分の生合成経路のマイニング方法。
タンパク質コード領域の予測モジュールと、目的機能性酵素の同定モジュールと、比較スクリーニング及び活性評価モジュールとを含み、
前記タンパク質コード領域の予測モジュールは、請求項１に記載の海洋栄養成分の生合成経路のマイニング方法における前記第１工程の方法を実行し、
前記目的機能性酵素の同定モジュールは、請求項１に記載の海洋栄養成分の生合成経路のマイニング方法における第２工程の方法を実行し、
前記比較スクリーニング及び活性評価モジュールは、請求項１に記載の海洋栄養成分の生合成経路のマイニング方法における前記第３工程及び第４工程の方法を実行する、
ことを特徴とする海洋栄養成分の生合成経路のマイニング装置。
コンピュータプログラムが記憶されているメモリと、プロセッサとを含み、前記コンピュータプログラムは、前記プロセッサによって実行されると、前記プロセッサに請求項１に記載の海洋栄養成分の生合成経路のマイニング方法の工程を実行させる、
ことを特徴とするコンピュータ機器。
プロセッサによってロードされると、請求項１に記載の海洋栄養成分の生合成経路のマイニング方法を実行するコンピュータプログラムが記憶されている、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。