JP7490168B1 - 海洋栄養成分の生合成経路のマイニング方法、装置、機器及び媒体 - Google Patents
海洋栄養成分の生合成経路のマイニング方法、装置、機器及び媒体 Download PDFInfo
- Publication number
- JP7490168B1 JP7490168B1 JP2023109794A JP2023109794A JP7490168B1 JP 7490168 B1 JP7490168 B1 JP 7490168B1 JP 2023109794 A JP2023109794 A JP 2023109794A JP 2023109794 A JP2023109794 A JP 2023109794A JP 7490168 B1 JP7490168 B1 JP 7490168B1
- Authority
- JP
- Japan
- Prior art keywords
- model
- mining
- sequence
- marine
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000005065 mining Methods 0.000 title claims abstract description 40
- 230000006696 biosynthetic metabolic pathway Effects 0.000 title claims abstract description 29
- 235000015097 nutrients Nutrition 0.000 title claims abstract description 25
- 108090000790 Enzymes Proteins 0.000 claims abstract description 63
- 102000004190 Enzymes Human genes 0.000 claims abstract description 63
- 108020004414 DNA Proteins 0.000 claims abstract description 35
- 108700026244 Open Reading Frames Proteins 0.000 claims abstract description 29
- 239000000758 substrate Substances 0.000 claims abstract description 21
- 230000000694 effects Effects 0.000 claims abstract description 20
- 238000012216 screening Methods 0.000 claims abstract description 7
- 125000000539 amino acid group Chemical group 0.000 claims abstract description 5
- 238000012163 sequencing technique Methods 0.000 claims abstract description 5
- 108090000623 proteins and genes Proteins 0.000 claims description 52
- 102000004169 proteins and genes Human genes 0.000 claims description 38
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 28
- 238000013527 convolutional neural network Methods 0.000 claims description 25
- 238000000329 molecular dynamics simulation Methods 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 22
- 150000001875 compounds Chemical class 0.000 claims description 20
- 238000013135 deep learning Methods 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 15
- 238000013136 deep learning model Methods 0.000 claims description 11
- 241000393496 Electra Species 0.000 claims description 10
- 238000011160 research Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 241000995051 Brenda Species 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000000052 comparative effect Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 241000894007 species Species 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 3
- 230000037361 pathway Effects 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 238000012300 Sequence Analysis Methods 0.000 claims 1
- 230000006870 function Effects 0.000 abstract description 14
- 239000000126 substance Substances 0.000 abstract description 7
- 101800001554 RNA-directed RNA polymerase Proteins 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 15
- 230000004913 activation Effects 0.000 description 12
- 239000002131 composite material Substances 0.000 description 12
- 108091028043 Nucleic acid sequence Proteins 0.000 description 10
- 125000004429 atom Chemical group 0.000 description 10
- 239000002773 nucleotide Substances 0.000 description 10
- 125000003729 nucleotide group Chemical group 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000003062 neural network model Methods 0.000 description 7
- 238000004088 simulation Methods 0.000 description 7
- 125000004122 cyclic group Chemical group 0.000 description 6
- 239000003446 ligand Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000011176 pooling Methods 0.000 description 5
- 108090000765 processed proteins & peptides Proteins 0.000 description 5
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 4
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 101000728229 Asticcacaulis excentricus (strain ATCC 15261 / DSM 4724 / KCTC 12464 / NCIMB 9791 / VKM B-1370 / CB 48) Astexin-1 Proteins 0.000 description 3
- 101000728234 Asticcacaulis excentricus (strain ATCC 15261 / DSM 4724 / KCTC 12464 / NCIMB 9791 / VKM B-1370 / CB 48) Astexin-2 Proteins 0.000 description 3
- 101000728232 Asticcacaulis excentricus (strain ATCC 15261 / DSM 4724 / KCTC 12464 / NCIMB 9791 / VKM B-1370 / CB 48) Astexin-3 Proteins 0.000 description 3
- 101000761079 Burkholderia thailandensis (strain ATCC 700388 / DSM 13276 / CIP 106301 / E264) Capistruin Proteins 0.000 description 3
- 101001056191 Escherichia coli Microcin J25 Proteins 0.000 description 3
- 101001138028 Rhodococcus jostii Lariatin Proteins 0.000 description 3
- 230000001851 biosynthetic effect Effects 0.000 description 3
- 239000013078 crystal Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- SJWWTRQNNRNTPU-ABBNZJFMSA-N fucoxanthin Chemical compound C[C@@]1(O)C[C@@H](OC(=O)C)CC(C)(C)C1=C=C\C(C)=C\C=C\C(\C)=C\C=C\C=C(/C)\C=C\C=C(/C)C(=O)C[C@]1(C(C[C@H](O)C2)(C)C)[C@]2(C)O1 SJWWTRQNNRNTPU-ABBNZJFMSA-N 0.000 description 3
- AQLRNQCFQNNMJA-UHFFFAOYSA-N fucoxanthin Natural products CC(=O)OC1CC(C)(C)C(=C=CC(=CC=CC(=CC=CC=C(/C)C=CC=C(/C)C(=O)CC23OC2(C)CC(O)CC3(C)C)C)CO)C(C)(O)C1 AQLRNQCFQNNMJA-UHFFFAOYSA-N 0.000 description 3
- 241000195649 Chlorella <Chlorellales> Species 0.000 description 2
- 241000238557 Decapoda Species 0.000 description 2
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 2
- 238000002902 MACCS key Methods 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 2
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 235000012000 cholesterol Nutrition 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 108091036078 conserved sequence Proteins 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000009881 electrostatic interaction Effects 0.000 description 2
- 108091008053 gene clusters Proteins 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 239000001257 hydrogen Substances 0.000 description 2
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 150000002632 lipids Chemical class 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000012528 membrane Substances 0.000 description 2
- 230000002503 metabolic effect Effects 0.000 description 2
- 239000002207 metabolite Substances 0.000 description 2
- 238000007479 molecular analysis Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- WTJKGGKOPKCXLL-RRHRGVEJSA-N phosphatidylcholine Chemical compound CCCCCCCCCCCCCCCC(=O)OC[C@H](COP([O-])(=O)OCC[N+](C)(C)C)OC(=O)CCCCCCCC=CCCCCCCCC WTJKGGKOPKCXLL-RRHRGVEJSA-N 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 102000004196 processed proteins & peptides Human genes 0.000 description 2
- 230000005588 protonation Effects 0.000 description 2
- -1 salt ions Chemical class 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000011780 sodium chloride Substances 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- TVZRAEYQIKYCPH-UHFFFAOYSA-N 3-(trimethylsilyl)propane-1-sulfonic acid Chemical compound C[Si](C)(C)CCCS(O)(=O)=O TVZRAEYQIKYCPH-UHFFFAOYSA-N 0.000 description 1
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 241001474374 Blennius Species 0.000 description 1
- 101000979117 Curvularia clavata Nonribosomal peptide synthetase Proteins 0.000 description 1
- 108091005942 ECFP Proteins 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 108010030975 Polyketide Synthases Proteins 0.000 description 1
- 240000003243 Thuja occidentalis Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 235000012791 bagels Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005842 biochemical reaction Methods 0.000 description 1
- 230000003115 biocidal effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 238000006555 catalytic reaction Methods 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000010230 functional analysis Methods 0.000 description 1
- 238000000126 in silico method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000010534 mechanism of action Effects 0.000 description 1
- 230000007102 metabolic function Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000002705 metabolomic analysis Methods 0.000 description 1
- 230000001431 metabolomic effect Effects 0.000 description 1
- 239000006225 natural substrate Substances 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 108020001580 protein domains Proteins 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
まず、タンパク質コード領域の予測関連データセットを構築し、Refseq(NCBI reference sequences)から関連種のゲノムと転写データセットを構築し、次に、全ての生物学的配列からサンプルを選択し、かつサンプルをネガティブサンプルとしてランダムにシャッフルし、ネガティブサンプルの数をポジティブサンプルの数に等しくし、最後に、全てのサンプルを3つの部分に分割して3分割の交差検証を行い、テストデータから類似のサンプルを除去することにより、テストデータのうちの各サンプルと、トレーニングデータのうちの任意のサンプルとの同一性が50%を超えないことを保証し、次に、深層学習モデルを用いてDNA形状情報を融合した配列特徴の抽出を実現し、最後に、タンパク質コード領域をラベリングし、各スライドウィンドウの特徴コードベクトルを与えた後、深層学習モデルを構築することにより、配列構造特徴、グローバル配列順序情報、重複しないkmer特徴及びタグ依存関係を統合し、生物学的配列における各位置について、まず、現在の部分列及びその隣接する部分列をDNA形状情報(DSS)、C4及びgkmにコードし、次にDNA形状情報及びC2をCNNにコードしてgkmに合併し、最後に双方向リカレントニューラルネットワーク(BRNN)に供給してタンパク質コード領域を予測し、予測されたタンパク質コード領域の配列をアミノ酸配列に変換する。
アミノ酸配列と特定の基質との親和性を予測することにより、目的機能性酵素の同定を実現し、第2工程の方法は、
(1)ELECTRAモデルを事前トレーニングし、まずPubChemデータベースから化合物の複合SMILES文字列を抽出し、UniProtデータベースからタンパク質のFASTA配列を抽出し、それぞれ2つのTransformerエンコーダに入力し、一方は生成器ネットワークとして、他方は識別器ネットワークとして機能し、ELECTRA-MモデルとELECTRA-Pモデルをそれぞれ得るステップと、
(2)BRENDAから収集した基質情報とタンパク質配列情報をトレーニングされたELECTRA-MモデルとELECTRA-Pモデルに入力し、特徴テンソルマトリクスを得て、CNNとFCNNを組み合わせてミカエリス定数を予測するステップと、
(3)FCNNを用いてミカエリス定数の値を予測するステップと、を含み、
第3工程では、第2工程において同定された陽性同定結果と生物実験配列決定によって得られたメタプロテオミクスデータとを比較してスクリーニングし、タンパク質をコードするポテンシャルを有する陽性同定サンプルを得て、従来技術を利用してタンパク質配列をpdbフォーマットファイルに変換し、即ち、その三次元構造を予測して分子動力学シミュレーションと分析を行い、
第4工程では、候補サンプルを選択してランキングするように、それに対して分子動力学と深層学習を組み合わせた予測モデルに基づく酵素活性の予測分析を行う。
前記目的機能性酵素の同定モジュールは、海洋栄養成分の生合成経路のマイニング方法における第2工程の方法を実行し、
前記比較スクリーニング及び活性評価モジュールは、海洋栄養成分の生合成経路のマイニング方法における前記第3工程及び第4工程の方法を実行する。
図1に示すように、海洋栄養成分の生合成経路のマイニング方法は、具体的には、以下の第1工程~第2工程を含む。
まず、現在の研究分野における遺伝子レベルのタンパク質コード関連研究の進展をまとめ、現在の研究における主なデータセットソースをまとめる。次に、現在の研究における主なデータセット構築方法、DNA配列情報コード方法及びDNA形状特徴情報取得方法をまとめて、形状特徴を融合したDNA配列データセットを設計して構築する。
まず、データセットにおけるDNA配列データに対して連続-離散ハイブリッドコードを行い、C4連続モデルによりグローバル配列情報を捕捉し、ヌクレオチドを4ビットバイナリ、例えば、A-[1,0,0,0]、G-[0,1,0,0]、C-[0,0,1,0]、T-[0,0,0,1]に変換し、非重畳gkm離散モデルによりローカル配列情報を捕捉し、フルフィールド長さlを5、有効ヌクレオチド位置kを3に設定し、例えば、f(XXAGA)を用いてフィールド長さが5である、同じギャップを有するトリヌクレオチド(AGA)の数値を計算する。次に、図2に示すように、既存のスライドウィンドウポリシーとモンテカルロシミュレーション方法により、四量体ルックアップテーブルを構築し、四量体に基づくモデルを用いて予測し、DNA形状特徴情報を抽出し、小溝の幅(MGW)、シフトツイスト(Shift)、スライドツイスト(Slide)、ライズツイスト(Rise)、チルトツイスト(Tilt)、ロールツイスト(Roll)、ヘリックスツイスト(Helix Twist)、シャーツイスト(Shear)、ストレッチツイスト(Stretch)、スタガーツイスト(Stagger)、バックルツイスト(Buckle)、プロペラツイスト(Propeller Twist)、オープンツイスト(Opening)を含む13個のDNA形状特徴の情報値を取得する。各ヌクレオチド位置は、対応する塩基対間特徴値及び塩基対内特徴値を有する。
本実施例で使用されるサンプル配列は、2つの異なるモデルを連続して使用する。1)DNA形状特徴情報と配列C4コードを融合したCNNモデル:C4コードされたDNA配列情報及びMC方法で抽出されたDNA形状特徴情報を、2つの4×92のマトリクス形式で入力とし、CNNニューラルネットワークモデルにより計算すると、その出力は、gkm特徴コード情報を含む1つの4×92マトリクスとともに直列演算を行う。2)ヌクレオチドをコードする可能性を予測するBRNNモデル:CNNの出力とgkm特徴をBRNNニューラルネットワークモデルに入力して双方向循環計算を行い、2つの隠れ層W1とW2、順方向循環層Wf、逆方向循環層Wb、2層の活性化関数sigmoid及びsoftmaxを使用して計算した後、タンパク質コード領域に対する予測値として出力する。図4に示すように、提出されたニューラルネットワークモデルは、トレーニング過程において、TensorflowにTFRecordデータフォーマットを使用し、学習率を常用値10-3に設定し、モデルが安定するまで複数回の反復トレーニングを行う。本実施例において、前記DNA形状を融合したCNN+BRNNタンパク質コード領域予測方法とDNA形状特徴を含まないkmer+BRNN方法による73組のクロレラゲノムとトランスクリプトームデータの性能比較を記録する。図5に示すように、実験的評価によって、DNA形状を融合したハイブリッドコード予測モデルはタンパク質コード領域の予測においてより優れた性能と高い精度を示すことが証明される。
MD後、20psの間隔で各200ns軌跡から10000個のスナップショットを後続のML分析の立体配座データセットとして抽出し、MDスナップショットからリガンドとトランスデューサを除去することにより、受容体立体配座のみを考慮する。構造情報の損失をできるだけ低減するために、画素マップを用いてデータセットにおける各立体配座を示し、各画素点は、1つの原子に対応し、変換原理を図12に示す。なお、全てのMD座標は、H原子を考慮せずに、画素マップに変換する前に平行移動及び回転を除去するように揃えられている。最後に、マトリクス変換によって各立体配座のXYZ座標をRGB座標に変換することにより、特徴画素マップデータセットを得る。具体的な変換原理を図12に示す。RGB色空間は、赤(R)、緑(G)、青(B)の3つの色チャンネルを変更して重ね合わせることによって色を表現する規格であるため、画素表現に用いられる。RGB空間における各点は、特有の色に対応する。特に、各立体配座のXYZ座標は、マトリクス変換によってRGB座標に伝送される。
モデルは、Swin-Transformerを融合し、階層化設計を利用する。モデルに含まれる4つの隠れ層によって特徴マップの解像度を下げ、受容野を広げる。
海藻、エビカニ、魚類などの海洋水産物ゲノムデータベースから、フコキサンチン生合成経路酵素をマイニングする。メタゲノムデータにおいてタンパク質コード領域(Coding sequence、CDS)を同定するのは、非常に時間がかかるため、先にメタゲノミクスに基づいて研究して組み立てた代表的なゲノムにおいてDNA形状情報を融合したCDS直接予測アルゴリズムを用いる。完全性(80%より大きい)などの条件により、海洋生物群サンプルに存在する97個の代表的な生物ゲノムをフィルタリングする。最終的に、13個の合格した代表的なゲノムに着目する。
まず、データセットにおけるDNA配列データに対して連続-離散ハイブリッドコードを行い、C4連続モデルによりグローバル配列情報を捕捉し、ヌクレオチドを4ビットバイナリ、例えば、A-[1,0,0,0]、G-[0,1,0,0]、C-[0,0,1,0]、T-[0,0,0,1]に変換し、非重畳gkm離散モデルによりローカル配列情報を捕捉し、フルフィールド長さlを5、有効ヌクレオチド位置kを3に設定し、例えば、f(XXAGA)を用いてフィールド長さが5である、同じギャップを有するトリヌクレオチド(AGA)の数値を計算する。次に、図2に示すように、既存のスライドウィンドウポリシーとモンテカルロシミュレーション方法により、四量体ルックアップテーブルを構築し、四量体に基づくモデルを用いて予測し、DNA形状特徴情報を抽出し、小溝の幅(MGW)、シフトツイスト(Shift)、スライドツイスト(Slide)、ライズツイスト(Rise)、チルトツイスト(Tilt)、ロールツイスト(Roll)、ヘリックスツイスト(Helix Twist)、シャーツイスト(Shear)、ストレッチツイスト(Stretch)、スタガーツイスト(Stagger)、バックルツイスト(Buckle)、プロペラツイスト(Propeller Twist)、オープンツイスト(Opening)を含む13個のDNA形状特徴の情報値を取得する。各ヌクレオチド位置は、対応する塩基対間特徴値及び塩基対内特徴値を有する。
予測されたCDSデータセットをタンパク質配列(11,657本)に変換した後、目的基質情報とともにミカエリス定数を予測し、既知の陽性サンプルとともに予測を行い、陽性サンプルから予測されたミカエリス定数の数値に基づいて同定閾値範囲(<2.7mol/l)を設定し、陽性サンプルデータを取得する。
まず、同定された陽性同定結果と生物実験配列決定によって得られたメタプロテオミクスデータとを比較してスクリーニングし、タンパク質をコードするポテンシャルを有する陽性同定サンプルを得る。コンピュータにおいて予測されたCDSがタンパク質/ペプチドに発現する可能性があることを確保するために、メタプロテオミクスデータセットに対してクロスチェックを行う。全てのCDS配列のk-mers(kは少なくとも配列長の半分であり、最大値は配列の元の長さである)を計算し、メタプロテオミクスデータにおけるペプチド配列をチェックする。k-merと代謝プロテオミクスペプチドとが完全に一致する場合、特定のCDS配列の半分以上がプロテオミクスデータにおいてペプチドとして存在することを示し、これは、当該CDSが発現する可能性があることを証明する追加の証拠を提供する。次に、従来技術を用いてタンパク質配列をpdbフォーマットファイルに変換する。即ち、その三次元構造を予測して分子動力学シミュレーションと分析を行う。
(1)スクリーニングされた陽性サンプルに対して分子動力学シミュレーションを行う。
MD後、20psの間隔で各200ns軌跡から10000個のスナップショットを後続のML分析の立体配座データセットとして抽出し、MDスナップショットからリガンドとトランスデューサを除去することにより、受容体立体配座のみを考慮する。構造情報の損失をできるだけ低減するために、画素マップを用いてデータセットにおける各立体配座を示し、各画素点は、1つの原子に対応し、変換原理を図12に示す。なお、全てのMD座標は、H原子を考慮せずに、画素マップに変換する前に平行移動及び回転を除去するように揃えられている。最後に、マトリクス変換によって各立体配座のXYZ座標をRGB座標に変換することにより、特徴画素マップデータセットを得る。RGB色空間は、赤(R)、緑(G)、青(B)の3つの色チャンネルを変更して重ね合わせることによって色を表現する規格であるため、画素表現に用いられる。RGB空間における各点は、特有の色に対応する。特に、各立体配座のXYZ座標は、マトリクス変換によってRGB座標に伝送される。
工程(1)でトレーニングされた分子動力学シミュレーション軌跡インテリジェント分析モデルを用いて、分子動力学と深層学習を組み合わせた予測モデルに基づいて候補酵素活性を予測するとともに、機能する重要なアミノ酸残基を識別することにより、後続の生物学者は、ウェット実験検証を行う。
EMBOSSソフトウェアパッケージ(バージョン6.6.0.0)の関数「needleall」におけるNeedleman-Wunschアルゴリズムを用いて、データセットにおける予測された候補サンプル配列データと同じ機能性酵素系との類似性を推定する。まず、配列をアライメントし、次に、アライメントされた配列における同じAA塩基対をカウントする。実行プロセスは、デフォルトパラメータを使用する。比較によって得られた命中状況を図14に示す。
Claims (7)
- 海洋水産物のゲノムデータに対してDNA形状特徴を融合したタンパク質コード領域を予測し、予測された前記タンパク質コード領域の配列をアミノ酸配列に変換する第1工程と、
目的機能性酵素を同定し、前記アミノ酸配列と特定の基質との親和性を予測することにより、目的機能性酵素の同定を実現する第2工程であって、第2工程の具体的な方法は、
(1)ELECTRAモデルを事前トレーニングし、まずPubChemデータベースから化合物の複合SMILES文字列を抽出し、UniProtデータベースからタンパク質のFASTA配列を抽出し、一方が生成器ネットワークとして、他方が識別器ネットワークとして機能する2つのTransformerエンコーダにそれぞれ入力し、ELECTRA-MモデルとELECTRA-Pモデルをそれぞれ得るステップと、
(2)BRENDAから収集した基質情報とタンパク質配列情報をトレーニングされたELECTRA-MモデルとELECTRA-Pモデルに入力し、2つの特徴テンソルマトリクスを得て、得られた2つの特徴テンソルマトリクスをそれぞれCNNとFCNNに入力し、CNNとFCNNを組み合わせてミカエリス定数を予測するステップと、
(3)ミカエリス定数の予測値に基づいて陽性サンプルを同定するステップと、を含む第2工程と、
第2工程において同定された陽性同定結果と生物実験配列決定によって得られたメタプロテオミクスデータとを比較してスクリーニングし、タンパク質をコードするポテンシャルを有する陽性同定サンプルを得て、タンパク質配列をpdbフォーマットファイルに変換し、即ち、その三次元構造を予測して分子動力学シミュレーションと深層学習(DL)分析を行う第3工程と、
候補サンプルを選択してランキングするように、前記pdbフォーマットファイルに対して分子動力学と深層学習を組み合わせた予測モデルに基づく酵素活性の予測分析を行う第4工程とを含み、
前記第1工程~第4工程によって海洋栄養成分の各合成ステップに必要な特定の機能性酵素を遺伝子発現により生成し、最終的に海洋栄養成分の合成経路をシミュレーションして生成する、
ことを特徴とする海洋栄養成分の生合成経路のマイニング方法。 - 前記第1工程において、まず、タンパク質コード領域の予測関連データセットを構築し、NCBI reference sequencesから関連種のゲノムと転写データセットを構築し、全ての生物学的配列からサンプルを選択し、かつサンプルをネガティブサンプルとしてランダムにシャッフルし、ネガティブサンプルの数をポジティブサンプルの数に等しくし、全てのサンプルを3つの部分に分割して3分割の交差検証を行い、テストデータから配列類似度が50%を超えるサンプルを除去することにより、テストデータのうちの各サンプルと、トレーニングデータのうちの任意のサンプルとの同一性が50%を超えないことを保証し、次に、深層学習モデルを用いてDNA形状情報を融合した配列特徴の抽出を実現し、次に、タンパク質コード領域をラベリングし、各スライドウィンドウの特徴コードベクトルを与えた後、深層学習モデルを構築することにより、配列構造特徴、グローバル配列順序情報、重複しないkmer特徴及びタグ依存関係を統合し、生物学的配列における各位置について、現在の部分列及びその隣接する部分列をDNA形状情報、C4及びgkmにコードし、さらにDNA形状情報及びC4を1つの深層学習モデルであるCNNモデルに入力して、前記CNNモデルで計算した後、前記CNNモデルの出力とgkmを他の深層学習モデルである双方向リカレントニューラルネットワーク(BRNN)モデルに供給してタンパク質コード領域を予測し、予測されたタンパク質コード領域の配列をアミノ酸配列に変換する、
ことを特徴とする請求項1に記載の海洋栄養成分の生合成経路のマイニング方法。 - 第4工程において、まず、分子動力学と深層学習に基づく酵素活性予測モデルのトレーニングとテストのデータセットを構築し、分子動力学ソフトウェアを用いて分子動力学シミュレーションを行い、分子動力学シミュレーション後に20psの間隔で各200ns軌跡からスナップショットを後続のDL分析の立体配座データセットとして抽出し、次に、分子動力学シミュレーション立体配座の画素表現を取得し、画素マップを用いてデータセットにおける各立体配座を示し、即ち、マトリクス変換により各立体配座のXYZ座標をRGB座標に変換し、特徴画素マップデータセットを得、最後に、前記特徴画素マップデータセットに対してトレーニングされた分子動力学と深層学習を組み合わせた予測モデルで酵素活性の予測分析を行い、酵素活性を予測するとともに、機能する重要なアミノ酸残基を識別することにより、研究者に酵素最適化などの酵素工学研究を行う支援及びサポートを提供する、
ことを特徴とする請求項1に記載の海洋栄養成分の生合成経路のマイニング方法。 - 第2工程において、第1工程において同定されたタンパク質配列と目的基質との間のミカエリス定数を予測することにより目的機能性酵素の同定を実現し、第2工程におけるステップ(3)において、過学習を防止するために、各隠れ層の後にバッチ正規化を適用し、かつ各層にL2正則化を使用する、
ことを特徴とする請求項3に記載の海洋栄養成分の生合成経路のマイニング方法。 - タンパク質コード領域の予測モジュールと、目的機能性酵素の同定モジュールと、比較スクリーニング及び活性評価モジュールとを含み、
前記タンパク質コード領域の予測モジュールは、請求項1に記載の海洋栄養成分の生合成経路のマイニング方法における前記第1工程の方法を実行し、
前記目的機能性酵素の同定モジュールは、請求項1に記載の海洋栄養成分の生合成経路のマイニング方法における第2工程の方法を実行し、
前記比較スクリーニング及び活性評価モジュールは、請求項1に記載の海洋栄養成分の生合成経路のマイニング方法における前記第3工程及び第4工程の方法を実行する、
ことを特徴とする海洋栄養成分の生合成経路のマイニング装置。 - コンピュータプログラムが記憶されているメモリと、プロセッサとを含み、前記コンピュータプログラムは、前記プロセッサによって実行されると、前記プロセッサに請求項1に記載の海洋栄養成分の生合成経路のマイニング方法の工程を実行させる、
ことを特徴とするコンピュータ機器。 - プロセッサによってロードされると、請求項1に記載の海洋栄養成分の生合成経路のマイニング方法を実行するコンピュータプログラムが記憶されている、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310206521.1A CN116072227B (zh) | 2023-03-07 | 2023-03-07 | 海洋营养成分生物合成途径挖掘方法、装置、设备和介质 |
CN202310206521.1 | 2023-03-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP7490168B1 true JP7490168B1 (ja) | 2024-05-27 |
Family
ID=86176951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023109794A Active JP7490168B1 (ja) | 2023-03-07 | 2023-07-04 | 海洋栄養成分の生合成経路のマイニング方法、装置、機器及び媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7490168B1 (ja) |
CN (1) | CN116072227B (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116978445B (zh) * | 2023-08-03 | 2024-03-26 | 北京师范大学珠海校区 | 一种天然产物的结构预测系统、预测方法及设备 |
CN117229905B (zh) * | 2023-11-15 | 2024-02-06 | 山东朝辉生物科技有限公司 | 一种生物饲料发酵管控方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005519384A (ja) | 2002-03-01 | 2005-06-30 | マキシジェン, インコーポレイテッド | 機能的生体分子を同定する方法、システム、およびソフトウェア |
JP2007526776A (ja) | 2004-03-04 | 2007-09-20 | ホワイトヘッド・インスティテュート・フォー・バイオメディカル・リサーチ | 生物活性dna結合部位及び関連する方法 |
JP2010157249A (ja) | 2001-01-31 | 2010-07-15 | Regents Of The Univ Of California | 生化学反応ネットワークの進化的設計方法 |
JP2022521686A (ja) | 2019-02-11 | 2022-04-12 | フラッグシップ・パイオニアリング・イノベーションズ・ブイアイ,エルエルシー | 機械学習支援ポリペプチド解析 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108027849B (zh) * | 2015-12-07 | 2020-03-20 | 齐默尔根公司 | 利用htp基因组工程平台对微生物菌株的改良 |
CN105385706A (zh) * | 2015-12-11 | 2016-03-09 | 浙江海洋学院 | 一种海参组织蛋白酶的真核表达方法 |
KR20230018358A (ko) * | 2020-01-30 | 2023-02-07 | 플래그쉽 파이어니어링 이노베이션스 브이아이, 엘엘씨 | 최적화를 위한 컨포멀 추론 |
CN111696624B (zh) * | 2020-06-08 | 2022-07-12 | 天津大学 | 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法 |
CN114360638A (zh) * | 2021-12-15 | 2022-04-15 | 华东师范大学 | 一种基于深度学习的化合物-蛋白质相互作用预测方法 |
CN114708931B (zh) * | 2022-04-22 | 2023-01-24 | 中国海洋大学 | 结合机器学习和构象计算提高药-靶活性预测精度的方法 |
CN114724623A (zh) * | 2022-04-29 | 2022-07-08 | 中国海洋大学 | 一种蛋白质多源特征融合的药物-靶点亲和力预测的方法 |
-
2023
- 2023-03-07 CN CN202310206521.1A patent/CN116072227B/zh active Active
- 2023-07-04 JP JP2023109794A patent/JP7490168B1/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010157249A (ja) | 2001-01-31 | 2010-07-15 | Regents Of The Univ Of California | 生化学反応ネットワークの進化的設計方法 |
JP2005519384A (ja) | 2002-03-01 | 2005-06-30 | マキシジェン, インコーポレイテッド | 機能的生体分子を同定する方法、システム、およびソフトウェア |
JP2007526776A (ja) | 2004-03-04 | 2007-09-20 | ホワイトヘッド・インスティテュート・フォー・バイオメディカル・リサーチ | 生物活性dna結合部位及び関連する方法 |
JP2022521686A (ja) | 2019-02-11 | 2022-04-12 | フラッグシップ・パイオニアリング・イノベーションズ・ブイアイ,エルエルシー | 機械学習支援ポリペプチド解析 |
Also Published As
Publication number | Publication date |
---|---|
CN116072227A (zh) | 2023-05-05 |
CN116072227B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7490168B1 (ja) | 海洋栄養成分の生合成経路のマイニング方法、装置、機器及び媒体 | |
Al-Ajlan et al. | CNN-MGP: convolutional neural networks for metagenomics gene prediction | |
Pandey et al. | Computational approaches for protein function prediction: A survey | |
US10042976B2 (en) | Direct identification and measurement of relative populations of microorganisms with direct DNA sequencing and probabilistic methods | |
CN113936735A (zh) | 一种药物分子与靶标蛋白的结合亲和力预测方法 | |
Lin et al. | Clustering methods in protein-protein interaction network | |
Ahmed et al. | DeepPPSite: a deep learning-based model for analysis and prediction of phosphorylation sites using efficient sequence information | |
Li et al. | TransportTP: a two-phase classification approach for membrane transporter prediction and characterization | |
Dixit et al. | Machine learning in bioinformatics: A novel approach for DNA sequencing | |
Wang et al. | A brief review of machine learning methods for RNA methylation sites prediction | |
CN116013428A (zh) | 基于自监督学习的药物靶标通用预测方法、设备及介质 | |
US20220208540A1 (en) | System for Identifying Structures of Molecular Compounds from Mass Spectrometry Data | |
Vicedomini et al. | Multiple profile models extract features from protein sequence data and resolve functional diversity of very different protein families | |
US20230307092A1 (en) | Identifying genome features in health and disease | |
Penić et al. | Rinalmo: General-purpose rna language models can generalize well on structure prediction tasks | |
Wang et al. | Self-attention based neural network for predicting RNA-protein binding sites | |
CN115240775B (zh) | 基于stacking集成学习策略的Cas蛋白预测方法 | |
CN114627964B (zh) | 一种基于多核学习预测增强子及其强度分类方法及分类设备 | |
Gupta et al. | DAVI: Deep learning-based tool for alignment and single nucleotide variant identification | |
Song et al. | PEA-m6A: an ensemble learning framework for accurately predicting N 6-methyladenosine modifications in plants | |
Chou | Recent progresses for computationally identifying N6-methyladenosine sites in Saccharomyces cerevisiae | |
Ahmad et al. | Biological data classification and analysis using convolutional neural network | |
CN117976047B (zh) | 基于深度学习的关键蛋白质预测方法 | |
Ünsal | A deep learning based protein representation model for low-data protein function prediction | |
Periwal et al. | A novel binary k-mer approach for classification of coding and non-coding RNAs across diverse species |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230704 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231003 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231207 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20231207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20231207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240308 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240320 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7490168 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |