JP7522936B2 - グラフニューラルネットワークに基づく遺伝子表現型予測 - Google Patents
グラフニューラルネットワークに基づく遺伝子表現型予測 Download PDFInfo
- Publication number
- JP7522936B2 JP7522936B2 JP2023543455A JP2023543455A JP7522936B2 JP 7522936 B2 JP7522936 B2 JP 7522936B2 JP 2023543455 A JP2023543455 A JP 2023543455A JP 2023543455 A JP2023543455 A JP 2023543455A JP 7522936 B2 JP7522936 B2 JP 7522936B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- neural network
- graph neural
- phenotype
- genetic data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 110
- 108090000623 proteins and genes Proteins 0.000 title claims description 47
- 230000002068 genetic effect Effects 0.000 claims description 74
- 238000012549 training Methods 0.000 claims description 53
- 238000000034 method Methods 0.000 claims description 44
- 230000000875 corresponding effect Effects 0.000 claims description 37
- 239000013598 vector Substances 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 9
- 230000002596 correlated effect Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 241000894007 species Species 0.000 description 14
- 238000012545 processing Methods 0.000 description 11
- 238000009395 breeding Methods 0.000 description 10
- 230000001488 breeding effect Effects 0.000 description 10
- 238000003860 storage Methods 0.000 description 9
- 244000068988 Glycine max Species 0.000 description 6
- 235000010469 Glycine max Nutrition 0.000 description 6
- 238000010200 validation analysis Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 241000196324 Embryophyta Species 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 101150010487 are gene Proteins 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000012214 genetic breeding Methods 0.000 description 1
- 238000010362 genome editing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- General Engineering & Computer Science (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Description
ここで、hiはノードcのi番目の近傍ノードの情報を表し、wiはノードcのi番目の近傍ノードの重みを表す。
ここで、
ここで、px,yは、特徴マップの横座標xと縦座標yにおける前記表現型分類結果の信頼度を表し、
Claims (10)
- 特定の生物種について、前記生物種の遺伝子座と表現型との相関性に基づいて、多層ネットワークを含むグラフニューラルネットワークを構築するステップであって、前記グラフニューラルネットワークの各層のネットワークにおいて、ノードは遺伝子座を表し、エッジは2つの遺伝子座が同じ表現型と相関していることを表し、エッジの重みは遺伝子座の間の関連度を反映するために用いられるステップと、
前記生物種の複数のサンプルの遺伝子データ及び表現型データを訓練データとして収集するステップと、
前記訓練データについて、遺伝子座検出の確率値に基づいて前記遺伝子データを符号化し、前記遺伝子データに対応する遺伝子座及び遺伝子型表現を得るステップと、
符号化された前記遺伝子データを前記グラフニューラルネットワークに入力して、前記グラフニューラルネットワークの各層のネットワークを順次通過させるステップであって、前記グラフニューラルネットワークの各層のネットワークは、長さ3の1次元畳み込みカーネルを用い、畳み込みカーネルが近傍間で共有されるステップと、
前記グラフニューラルネットワークの最終層のネットワークにおける各ノードの出力結果に基づいて、多層パーセプトロンを用いて前記遺伝子データに対応する表現型分類結果を得るステップと、
前記遺伝子データに対応する前記表現型分類結果及び前記遺伝子型表現に基づいて、損失関数を用いて前記グラフニューラルネットワーク及び/又は前記多層パーセプトロンのモデルパラメータを教師あり訓練するステップと、を含む
ことを特徴とする遺伝子表現型予測のためのグラフニューラルネットワークの訓練方法。 - 前記遺伝子座検出の確率値に基づいて前記遺伝子データを符号化することは、
遺伝子座検出に基づく遺伝子型が0/0、0/1、1/1である確率値PLを、それぞれ以下の式に従って、各前記遺伝子型を支持する確率Pに換算することと、
検出されなかった遺伝子座について、その遺伝子型表現をベクトル[0,0,0]で表すことと、を含む
ことを特徴とする請求項1に記載の方法。 - 前記遺伝子データが前記グラフニューラルネットワークの各層のネットワークを順次通過する際に、均一サンプリングを用いてノード近傍選択を行い、近傍ノードの重み及び畳み込みカーネルパラメータによって各ノードを更新する
ことを特徴とする請求項1に記載の方法。 - 前記均一サンプリングを用いてノード近傍選択を行い、近傍ノードの重み及び畳み込みカーネルパラメータによって各ノードを更新することは、
前記グラフニューラルネットワークの現在の層における各ノードcについて、
前記ノードcの1次近傍ノードからm個の候補ノードを構築するステップであって、mは0より大きい整数であるステップと、
前記ノードcのm個の候補ノードから、前記ノードcの近傍ノードとしてn個のノードを非復元抽出し、かつmがnより小さい場合、全てのm個の候補ノードを前記ノードcの近傍ノードとしてサンプリングするステップと、
前記ノードcの全ての近傍ノードの情報を集約して、前記ノードcの近傍情報
前記ノードcの前記近傍情報
ここで、前記ノードcの全ての近傍ノードの情報を集約する式は、
ここで、hiはノードcのi番目の近傍ノードの情報を表し、wiはノードcのi番目の近傍ノードの重みを表し、
前記畳み込み及び活性化操作を行う具体的な式は、
ここで、
ことを特徴とする請求項3に記載の方法。 - 前記グラフニューラルネットワークの最終層のネットワークにおける各ノードの出力結果に基づいて、多層パーセプトロンを用いて前記遺伝子データに対応する表現型分類結果を得るステップは、
前記グラフニューラルネットワークの最終層のネットワークにおける全てのノードから出力される3次元のベクトルを結合して、結合後のベクトルを得るステップと、
前記結合後のベクトルを前記多層パーセプトロンに入力し、前記多層パーセプトロンから出力される分類結果を得、前記分類結果を前記遺伝子データに対応する表現型分類結果とするステップと、を含む
ことを特徴とする請求項1に記載の方法。 - 前記遺伝子データに対応する前記表現型分類結果及び前記遺伝子型表現に基づいて、損失関数を用いて前記グラフニューラルネットワーク及び/又は前記多層パーセプトロンのモデルパラメータを教師あり訓練するステップは、
s個の表現型をそれぞれクラスとしてk個の区間に均等に分けて、s×k次元の遺伝子型表現真値ベクトルを得るステップであって、s×k次元は前記表現型分類結果の次元と一致するステップと、
損失関数を用いて、前記表現型分類結果及び前記表現型の遺伝子型表現真値ベクトルに基づいて、マルチ表現型教師あり訓練を行うステップと、を含む
ことを特徴とする請求項5に記載の方法。 - 前記損失関数は、焦点損失Focal Loss関数であり、前記表現型分類結果及び前記表現型の遺伝子型表現真値ベクトルに基づいて分類損失を計算する式は、
ここで、px,yは、特徴マップの横座標xと縦座標yにおける前記表現型分類結果の信頼度を表し、
ことを特徴とする請求項6に記載の方法。 - 分類対象の遺伝子データについて、遺伝子座検出の確率値に基づいて前記遺伝子データを符号化し、前記分類対象の遺伝子データに対応する遺伝子座及び遺伝子型表現を得るステップと、
符号化された前記分類対象の遺伝子データを、訓練されたグラフニューラルネットワーク及び多層パーセプトロンに入力し、前記分類対象の遺伝子データに対応する表現型結果を得るステップであって、前記グラフニューラルネットワーク及び前記多層パーセプトロンは、前記請求項1~7のいずれか1項に記載の方法により訓練された、前記分類対象の遺伝子データが属する生物種に対する遺伝子表現型予測ネットワークであるステップと、を含む
ことを特徴とするグラフニューラルネットワークに基づく遺伝子表現型予測方法。 - プロセッサとメモリとを含むデバイスであって、前記メモリにはプログラムが格納されており、当該プログラムが前記プロセッサによって実行されると、請求項1~7のいずれか1項に記載の方法のステップが実施される
ことを特徴とする遺伝子表現型予測のためのグラフニューラルネットワークの訓練デバイス。 - プロセッサとメモリとを含むデバイスであって、前記メモリにはプログラムが格納されており、当該プログラムが前記プロセッサによって実行されると、請求項8に記載の方法のステップが実施される
ことを特徴とするグラフニューラルネットワークに基づく遺伝子表現型予測デバイス。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211238697.7A CN115331732B (zh) | 2022-10-11 | 2022-10-11 | 基于图神经网络的基因表型训练、预测方法及装置 |
CN202211238697.7 | 2022-10-11 | ||
PCT/CN2023/095224 WO2023217290A1 (zh) | 2022-10-11 | 2023-05-19 | 基于图神经网络的基因表型预测 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2024524795A JP2024524795A (ja) | 2024-07-09 |
JP7522936B2 true JP7522936B2 (ja) | 2024-07-25 |
Family
ID=83915021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023543455A Active JP7522936B2 (ja) | 2022-10-11 | 2023-05-19 | グラフニューラルネットワークに基づく遺伝子表現型予測 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7522936B2 (ja) |
CN (1) | CN115331732B (ja) |
WO (1) | WO2023217290A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115331732B (zh) * | 2022-10-11 | 2023-03-28 | 之江实验室 | 基于图神经网络的基因表型训练、预测方法及装置 |
WO2024138387A1 (zh) * | 2022-12-27 | 2024-07-04 | 深圳华大生命科学研究院 | 批次效应去除模型的训练方法及去除方法、装置 |
CN116072214B (zh) * | 2023-03-06 | 2023-07-11 | 之江实验室 | 基于基因显著性增强的表型智能预测、训练方法及装置 |
CN116580767B (zh) * | 2023-04-26 | 2024-03-12 | 之江实验室 | 一种基于自监督与Transformer的基因表型预测方法和系统 |
CN117198406B (zh) * | 2023-09-21 | 2024-06-11 | 亦康(北京)医药科技有限公司 | 一种特征筛选方法、系统、电子设备及介质 |
CN116959561B (zh) * | 2023-09-21 | 2023-12-19 | 北京科技大学 | 一种基于神经网络模型的基因相互作用预测方法和装置 |
CN116992919B (zh) * | 2023-09-28 | 2023-12-19 | 之江实验室 | 一种基于多组学的植物表型预测方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096327A (zh) | 2016-06-07 | 2016-11-09 | 广州麦仑信息科技有限公司 | 基于Torch监督式深度学习的基因性状识别方法 |
CN113593635A (zh) | 2021-08-06 | 2021-11-02 | 上海市农业科学院 | 一种玉米表型预测方法及系统 |
CN114333986A (zh) | 2021-09-06 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 模型训练、药物筛选和亲和力预测的方法与装置 |
JP2022117452A (ja) | 2021-01-29 | 2022-08-10 | 富士通株式会社 | ネットワークモチーフ解析を使用したグラフベース予測の説明 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5438644A (en) * | 1991-09-09 | 1995-08-01 | University Of Florida | Translation of a neural network into a rule-based expert system |
CN108388768A (zh) * | 2018-02-08 | 2018-08-10 | 南京恺尔生物科技有限公司 | 利用生物知识搭建的神经网络模型的生物特性预测方法 |
AU2019403566A1 (en) * | 2018-12-21 | 2021-08-12 | TeselaGen Biotechnology Inc. | Method, apparatus, and computer-readable medium for efficiently optimizing a phenotype with a specialized prediction model |
CN110010201A (zh) * | 2019-04-16 | 2019-07-12 | 山东农业大学 | 一种rna选择性剪接位点识别方法及系统 |
CN114765063A (zh) * | 2021-01-12 | 2022-07-19 | 上海交通大学 | 基于图神经网络表征的蛋白质与核酸结合位点预测方法 |
US20220301658A1 (en) * | 2021-03-19 | 2022-09-22 | X Development Llc | Machine learning driven gene discovery and gene editing in plants |
CN114360654A (zh) * | 2022-01-05 | 2022-04-15 | 重庆邮电大学 | 一种基于基因表达的图神经网络数据集构建方法 |
CN114649097A (zh) * | 2022-03-04 | 2022-06-21 | 广州中医药大学(广州中医药研究院) | 一种基于图神经网络及组学信息的药物功效预测方法 |
CN114637923B (zh) * | 2022-05-19 | 2022-09-02 | 之江实验室 | 基于层次注意力图神经网络的数据信息推荐方法和装置 |
CN114783524B (zh) * | 2022-06-17 | 2022-09-30 | 之江实验室 | 基于自适应重采样深度编码器网络的通路异常检测系统 |
CN115331732B (zh) * | 2022-10-11 | 2023-03-28 | 之江实验室 | 基于图神经网络的基因表型训练、预测方法及装置 |
-
2022
- 2022-10-11 CN CN202211238697.7A patent/CN115331732B/zh active Active
-
2023
- 2023-05-19 JP JP2023543455A patent/JP7522936B2/ja active Active
- 2023-05-19 WO PCT/CN2023/095224 patent/WO2023217290A1/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096327A (zh) | 2016-06-07 | 2016-11-09 | 广州麦仑信息科技有限公司 | 基于Torch监督式深度学习的基因性状识别方法 |
JP2022117452A (ja) | 2021-01-29 | 2022-08-10 | 富士通株式会社 | ネットワークモチーフ解析を使用したグラフベース予測の説明 |
CN113593635A (zh) | 2021-08-06 | 2021-11-02 | 上海市农业科学院 | 一种玉米表型预测方法及系统 |
CN114333986A (zh) | 2021-09-06 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 模型训练、药物筛选和亲和力预测的方法与装置 |
Non-Patent Citations (1)
Title |
---|
LIU, Yang et al.,"Phenotype Prediction and Genome-Wide Association Study Using Deep Convolutional Neural Network of Soybean",Frontiers in Genetics [online],2019年,Vol. 10,pp. 1-10,[retrieved on 2024.06.13], Retrieved from the Internet: <URL: https://www.frontiersin.org/journals/genetics/articles/10.3389/fgene.2019.01091/full>,<DOI: 10.3389/fgene.2019.01091> |
Also Published As
Publication number | Publication date |
---|---|
CN115331732B (zh) | 2023-03-28 |
CN115331732A (zh) | 2022-11-11 |
WO2023217290A1 (zh) | 2023-11-16 |
JP2024524795A (ja) | 2024-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7522936B2 (ja) | グラフニューラルネットワークに基づく遺伝子表現型予測 | |
CN111785329B (zh) | 基于对抗自动编码器的单细胞rna测序聚类方法 | |
CN111798921A (zh) | 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置 | |
EP4118229A1 (en) | Multi-modal methods and systems | |
CN112966114A (zh) | 基于对称图卷积神经网络的文献分类方法和装置 | |
CN112116957A (zh) | 基于小样本的疾病亚型预测方法、系统、装置及介质 | |
CN110110753A (zh) | 基于精英花授粉算法和ReliefF的有效混合特征选择方法 | |
Huang et al. | Harnessing deep learning for population genetic inference | |
Bhardwaj et al. | Computational biology in the lens of CNN | |
CN117611974B (zh) | 基于多种群交替进化神经结构搜索的图像识别方法及系统 | |
CN117672360B (zh) | 基于迁移学习的基因组选择方法、装置、设备及介质 | |
Dubey et al. | An efficient adaptive feature selection with deep learning model-based paddy plant leaf disease classification | |
CN116956993A (zh) | 一种构建图集成模型的方法、装置及存储介质 | |
Louati et al. | Design and compression study for convolutional neural networks based on evolutionary optimization for thoracic X-Ray image classification | |
CN114596913B (zh) | 基于深度中心点模型的蛋白质折叠识别方法及系统 | |
CN115423076A (zh) | 基于两步式框架的有向超图链式预测方法 | |
CN118296442B (zh) | 多组学癌症亚型分类方法、系统、设备、介质及程序产品 | |
CN113495986A (zh) | 数据处理的方法与装置 | |
CN117831636B (zh) | 利用融合模型实施基因组选择的方法、装置、设备及介质 | |
CN117995283B (zh) | 一种单样本宏基因组聚类方法、系统、终端及存储介质 | |
Li et al. | Surrogate-Assisted Evolution of Convolutional Neural Networks by Collaboratively Optimizing the Basic Blocks and Topologies | |
CN114512188B (zh) | 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法 | |
CN116992098B (zh) | 引文网络数据处理方法及系统 | |
CN117152568B (zh) | 深度集成模型的生成方法、装置和计算机设备 | |
Ding | Machine learning for biological networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240216 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230719 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20231122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240619 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240712 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7522936 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |