JP2023161401A - 形質予測方法、形質予測モデル生成方法、形質予測装置、形質予測モデル生成装置、及び形質予測システム - Google Patents

形質予測方法、形質予測モデル生成方法、形質予測装置、形質予測モデル生成装置、及び形質予測システム Download PDF

Info

Publication number
JP2023161401A
JP2023161401A JP2022071770A JP2022071770A JP2023161401A JP 2023161401 A JP2023161401 A JP 2023161401A JP 2022071770 A JP2022071770 A JP 2022071770A JP 2022071770 A JP2022071770 A JP 2022071770A JP 2023161401 A JP2023161401 A JP 2023161401A
Authority
JP
Japan
Prior art keywords
information
trait
prediction
traits
genealogy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022071770A
Other languages
English (en)
Inventor
弘美 鐘ヶ江
Hiromi Kanegae
玄一郎 菊井
Genichiro Kikui
淳一 米丸
Junichi Yonemaru
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Agriculture and Food Research Organization
Original Assignee
National Agriculture and Food Research Organization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Agriculture and Food Research Organization filed Critical National Agriculture and Food Research Organization
Priority to JP2022071770A priority Critical patent/JP2023161401A/ja
Publication of JP2023161401A publication Critical patent/JP2023161401A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】形質予測する技術を実現する。【解決手段】形質予測装置(10)は、系統間の関係を表す系譜情報と、当該系統の形質を表す形質情報とを含む教師データを用いて、前記系譜情報と前記形質情報との相関関係を学習させた形質予測モデル(24)を用いて、形質が未知の系統の前記系譜情報を入力として、当該系統の形質情報を取得する予測部(14)を備えている。【選択図】図1

Description

本発明は、形質予測方法、形質予測モデル生成方法、形質予測装置、形質予測モデル生成装置、及び形質予測システムに関する。
国際競争力の強化、また、激しさを増す気候変動に対応するため、今まで以上に品種開発の加速・効率化が必要とされている。所望の形質を有する新たな品種を開発するためには、交配する親系統(品種を含む)の組み合わせを適切に選択する必要がある。適切な親系統を選択することによって、栽培する系統の数を削減することができ、品種開発に係る労力、時間、及びコストを抑えることができる。
従来、親系統のゲノム情報に基づいて交配により得られる子系統の形質を予測する、ゲノム予測を利用した品種開発が行なわれている。また、非特許文献1に記載されたような、トウモロコシの系統を表す情報をグラフ化したデータベースが、品種開発に利用可能である。
Maize Genetics and Genomics Database(MaizeGDB Pedigree Viewer)
ゲノム予測は、ゲノム情報の取得が煩雑かつ高コストであり、また、ゲノム情報は情報量が膨大であるため、その処理に時間がかかると共に高スペックの情報処理装置が必要である。また、非特許文献1に記載されたデータベースを利用して親系統の形質から子の形質を予測することは容易ではなく、形質予測は育成者毎にバラつきが生じ、精度よく予測することが困難である。
本発明の一態様は、上述した問題点を解決するためになされたものであり、その目的は、形質予測する技術を実現することにある。
上記の課題を解決するために、本発明の一態様に係る形質予測方法は、系統間の関係を表す系譜情報と、当該系統の形質を表す形質情報とを含む教師データを用いて、前記系譜情報と前記形質情報との相関関係を学習させた予測モデルを用いて、形質が未知の系統の前記系譜情報を入力として、当該系統の形質情報を取得する予測ステップを情報処理装置が実行する。
本発明の一態様に係る形質予測モデル生成方法は、系統間の関係を表す系譜情報と、当該系統の形質を表す形質情報とを含む教師データを用いて学習させることによって、形質が未知の系統の前記系譜情報が入力情報であり、当該系統の形質情報が出力情報である予測モデルを生成する生成ステップを情報処理装置が実行する。
本発明の一態様に係る形質予測装置は、系統間の関係を表す系譜情報と、当該系統の形質を表す形質情報とを含むデータを教師データとして、前記系譜情報と前記形質情報との相関関係を学習させた予測モデルを用いて、形質が未知の系統の前記系譜情報を入力として、当該系統の形質情報を取得する予測部を備えている。
本発明の一態様に係る形質予測モデル生成装置は、系統間の関係を表す系譜情報と、当該系統の形質を表す形質情報とを含む教師データを用いて学習させることによって、形質が未知の系統の前記系譜情報が入力情報であり、当該系統の形質情報が出力情報である予測モデルを生成する生成部を備えている。
本発明の一態様に係る形質予測システムは、本発明の一態様に係る形質予測装置と、本発明の一態様に係る形質予測モデル生成装置とを備えている。
本発明の各態様に係る形質予測装置及び形質予測モデル生成装置は、コンピュータによって実現してもよく、この場合には、コンピュータを前記装置が備える各部(ソフトウェア要素)として動作させることにより前記装置をコンピュータにて実現させる制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明の一態様によれば、形質予測する技術を実現することができる。
本発明の一態様に係る形質予測システムの要部構成の一例を示すブロック図である。 本発明の一態様に係る形質予測装置が実行する形質予測処理を説明する図である。 本発明の一態様に係る形質予測装置が実行する親系統の評価処理を説明する図である。 本発明の一態様に係る形質予測モデル生成装置が実行する予測モデル生成処理を説明する図である。 本発明の一態様に係る形質予測装置が実行する形質予測処理の一例を示すフローチャートである。 本発明の一態様に係る形質予測モデル生成装置が実行する予測モデル生成処理の一例を示すフローチャートである。 予測精度の評価に用いた形質毎の実測値の分布を表すグラフを示す図である。 形質毎に生成された形質予測モデルの予測精度を表すグラフを示す図である。 他の形質毎に生成された形質予測モデルの予測精度を表すグラフを示す図である。 系譜情報の特徴量ベクトルデータと近縁係数とを比較するための図である。
本発明の一態様は、系統の形質を予測するための形質予測システムを実現するものである。本発明の一態様に係る形質予測システムは、形質が未知の系統の形質を予測するものである。形質予測システムは、系譜情報に基づいて、系統の形質を予測する。形質予測システムは、親系統を交配して得られる形質が未知の子系統の形質を予測することができるので、所望の形質の子系統を得るための親系統の組み合わせを適切に選択することができる。形質予測システムによれば、親系統の組み合わせを適切に選択することによって、栽培する系統の数を削減することができ、品種開発に係る労力、時間、及びコストを抑えることができる。
〔形質予測システム100〕
本発明の一態様に係る形質予測システムについて、図1を参照して説明する。なお、本実施形態においては、一例として、イネの形質を予測する態様について説明するが、本発明の一態様に係る形質予測システムは、他の作物の形質の予測にも好適に用いることができる。図1は、本発明の一態様に係る形質予測システム100の要部構成の一例を示すブロック図である。形質予測システム100は、形質予測装置10及び形質予測モデル生成装置20を備えている、また、形質予測システム100は、教師データ生成装置30、入力装置40、出力装置50、及び記憶装置60を備えている。
入力装置40は、ユーザによる形質予測システム100に対する入力操作を受け付ける。入力装置40は、一例として、形質予測装置10において系統の形質を予測するために用いるデータの入力を受け付ける。また、入力装置40は、形質予測モデル生成装置20において形質予測モデル24を生成するために用いられるデータの入力を受け付ける。
出力装置50は、一例として、形質予測装置10が予測した結果を出力する。出力装置50による出力の態様は特に限定されない。出力装置50は、例えば、当該情報を画像として表示する表示装置、当該情報を印刷する印刷装置、又は、当該情報を音声として出力する警報装置であってもよい。また、出力装置50は、形質予測装置10が予測した結果を表示する、スマートフォンのようなモバイルデバイスのディスプレイであってもよい。
記憶装置60は、形質予測システム100にて使用されるプログラム及びデータを記憶する。記憶装置60は、一例として、入力装置40を介して入力された各種データを記憶している。また、記憶装置60は、一例として、形質予測モデル生成装置20において、予測モデルの生成に使用する学習データ及び生成した形質予測モデル24を記憶している。さらに、記憶装置60は、一例として、形質予測装置10において系統の形質を予測するために用いる形質予測モデル24、入力情報、及び出力情報を記憶している。また、記憶装置60は、一例として、教師データ生成装置30において教師データの生成に使用するデータ及び生成した教師データを記憶している。記憶装置60は、各種データを記憶するデータベースをクラウド又はサーバ上に有していてもよい。
(形質予測装置10)
形質予測装置10は、形質が未知の系統の形質を予測する。形質予測装置10は、一例として、形質予測モデル生成装置20により生成された形質予測モデル24を用いて、系統の形質を予測する。
形質予測装置10は、制御部11を備えている。制御部11は、形質予測装置10の各部を統括して制御するものであり、一例として、プロセッサ及びメモリにより実現される。この例において、プロセッサはストレージ(不図示)にアクセスし、ストレージに格納されているプログラム(不図示)をメモリにロードし、当該プログラムに含まれる一連の命令を実行する。これにより、制御部11の各部が構成される。当該各部として、制御部11は、データ取得部12、モデル取得部13、予測部14、及び評価部15を備えている。
<データ取得部12>
データ取得部12は、形質が未知の系統の系譜情報を取得する。系譜情報は、ある作物についての系統間の関係を表す情報である。系譜情報は、ある系統について、その交配親、交配親の一方が共通の他の系統との関係等を表す情報を含み得る。このような系譜情報を形質予測に用いることで、交配親、及び、交配親の一方が共通の他の系統との関係を考慮した形質予測が可能となる。データ取得部12は、取得した系譜情報を予測部14へ出力する。
形質が未知の系統の系譜情報は、当該系統と他の系統との関係を表す系譜情報を参照して生成されたものであり得る。形質が未知の系統の系譜情報は、後述する教師データ生成装置30において生成されたものであってもよい。また、形質が未知の系統の系譜情報は、非特許文献1に示すようなデータベースにより公開されているものもあるため、このようなデータベースから形質が未知の系統の系譜情報を取得してもよい。
データ取得部12が取得する系譜情報は、系統をノードとし、系統間の関係をエッジとしたグラフ構造を有するデータであり得る。グラフ構造を有するデータは、系譜情報をRDF化することにより得られる。系譜情報のRDF化は、公知のRDF化方法により実現することができる。系譜情報は、さらに、グラフ構造の各ノードを他のノードとの接続関係に基づいてベクトルに変換した特徴量ベクトルデータであり得る。グラフ構造をベクトルに変換するベクトル化は、一例として、グラフ埋め込み法により実現し得る。系譜情報は、グラフ構造を近縁係数に変換したデータであってもよい。このように系譜情報を数値化したデータを用いることで、形質予測モデル24を用いた系統の形質予測を実現し得る。
データ取得部12が取得する系譜情報は、形質が未知の系統についての母系統を表す情報と父系統を表す情報とを区別して含み得る。これにより、ある系統について、母系統及び父系統を考慮した形質予測が可能となる。また、データ取得部12が取得する系譜情報には、戻し交配に関する情報が通常の交配とは区別して含まれ得る。これにより、戻し交配を考慮した形質予測が可能である。
<モデル取得部13>
モデル取得部13は、形質予測モデル生成装置20により生成された、形質が未知の系統の系譜情報が入力情報であり、当該系統の形質情報が出力情報である形質予測モデル24を取得する。形質予測モデル24は、系統の系譜情報と、当該系統の形質を表す形質情報とを含む教師データを用いて、系譜情報と形質情報との相関関係を学習させた予測モデルであり得る。モデル取得部13は、形質予測モデル生成装置20により生成され、記憶装置60に格納された形質予測モデル24を取得してもよい。モデル取得部13は、取得した形質予測モデル24を予測部14へ出力する。
<予測部14>
予測部14は、モデル取得部13が取得した形質予測モデル24を用いて、形質が未知の系統の形質を予測する。予測部14は、データ取得部12が取得した、形質が未知の系統の系譜情報を形質予測モデル24に入力して、当該系統の形質を表す情報を出力情報として取得する。予測部14は、取得した出力情報を出力装置50へ出力する。予測部14は、取得した出力情報を記憶装置60に格納してもよい。予測部14は、取得した出力情報を評価部15へ出力してもよい。
予測部14における予測処理について、図2を参照して説明する。図2は、本発明の一態様に係る形質予測装置10が実行する形質予測処理を説明する図である。図2は、一例として、形質が未知の系統Aについての穂長を予測する態様を示している。図2に示すように、予測部14は、系統Aの系譜情報200を穂長予測モデル201へ入力し、出力される系統Aの穂長を表す形質情報202を予測する。
ここで、系譜情報200は、系統Aについて、系統をノードとし、系統間の関係をエッジとしたグラフ構造を有するデータ203をベクトル変換した特徴量ベクトルデータを有している。穂長予測モデル201は、形質予測モデル生成装置20により生成された形質予測モデル24の一態様である。穂長予測モデル201は、穂長が既知の系統の系譜情報と、当該系統の穂長を表す形質情報とを含む教師データを用いて、系譜情報と穂長を表す形質情報との相関関係を学習させた予測モデルである。
予測部14は、形質が未知の系統の系譜情報と共に、当該系統を栽培する試験地情報及び当該系統の栽培時期、施肥水準等の栽培条件情報に基づいて、当該系統の形質を予測してもよい。この場合、予測部14は、系統の系譜情報、試験地情報、及び栽培条件情報と、当該系統の形質を表す形質情報とを含む教師データを用いて、系譜情報、試験地、及び栽培条件と、形質との相関関係を学習させた予測モデルを用いる。
形質予測装置10は、系譜情報を用いて形質予測モデル24により形質予測することによって、形質が未知の系統の形質を予測することができる。また、形質予測装置10は、系譜情報による形質予測により、系統についての交配親、及び、交配親の一方が共通の他の系統との関係を考慮した形質予測が可能である。
さらに、系譜情報には、ノードから生じるエッジの数により表される、いずれの系統が親系統として多く用いられているかについての情報が含まれており、このような育種選抜の過程で得られる情報を考慮した形質予測が可能である。また、系譜情報には、ノードが生じている系統と生じていない系統とを区別することにより、ノードが生じている系統を優良系統と判断し得る情報が含まれており、このような育種選抜の過程で得られる情報を考慮した形質予測も可能である。さらに、系譜情報には、戻し交配に関する情報が通常の交配とは区別して含まれているため、戻し交配を考慮した形質予測も可能である。
形質予測装置10により、形質が未知の系統の形質を予測することにより、所望の形質の子系統を得るための親系統の組み合わせを適切に選択することができる。このように、親系統の組み合わせを適切に選択することによって、栽培する系統の数を削減することができ、品種開発に係る労力、時間、及びコストを抑えることができる。
すなわち、形質予測装置10は、育種において利用可能である。育種においては、親系統の交配から多くの系統(品種の候補)を養成し、その中から複数年にわたる長い時間をかけて、最も優秀な系統を絞り込んでいく作業が必要となる。形質予測装置10によれば、系統の交配を計画する段階において、最適な両親の組み合わせを探索することができるので、栽培する系統を大幅に減らすことができる。形質予測装置10は、系譜情報に基づいて系統の特徴を数値化し、予測モデルを用いて形質を予測するものである。形質予測装置10によれば、既に種苗会社に所持している系譜情報及び形質情報を活用することもできる。
形質予測装置10によれば、ゲノム情報を用いることなく、系譜情報のみから形質予測することが可能である。したがって、形質予測のためにゲノム情報を取得する必要がなく、低コストで実施することができる。ゲノム情報を用いた形質予測では、後代のゲノム情報の数だけ予測結果が生じ得、計算コストが膨大になり得る。一方、形質予測装置10は、系譜情報により形質予測することで、1の予測結果を得ることができ、計算コストを抑えることができる。また、形質予測装置10によれば、形質データはあるが種子がなくゲノム情報を取得できない系統のデータも活用することができ、データ量の増加による予測精度の向上が期待できる。なお、形質予測装置10は、ゲノム情報と系譜情報とを組み合わせて形質予測することにより、精度良い形質予測を実現することもできる。
<評価部15>
評価部15は、特定の系統と他の系統とを親とする後代の系統の形質を予測部14により予測した予測結果を、複数の他の系統について取得し、特定の系統が後代の系統の形質に及ぼす影響を評価する(評価ステップ)。これにより、特定の系統について、親系統としての能力(パフォーマンス)を評価することができる。
評価部15における評価処理について、図3を参照して説明する。図3は、本発明の一態様に係る形質予測装置10が実行する親系統の評価処理を説明する図である。図3は、一例として、親の候補系統Xについて、どんとこい、ヒノヒカリ、越南148号等の様々な系統(品種)との交配により生じる後代系統の穂長を評価し、後代系統の予測値の分布を取得する態様を示している。図3に示すように、評価部15は、未知の系統A、系統B、及び系統Cについての系譜情報300を、それぞれ、穂長予測モデル301に入力し、出力される各系統の穂長を表す形質情報の予測値の分布302を取得する。これにより、候補系統Xについて、穂長に対する親系統としてのパフォーマンスを評価することができる。
(形質予測モデル生成装置20)
形質予測モデル生成装置20は、形質が未知の系統の形質を予測するための形質予測モデルを生成する。形質予測モデル生成装置20は、一例として、系統の系譜情報と形質情報とを教師データとして用いて学習させることにより、形質予測モデルを生成する。
形質予測モデル生成装置20は、制御部21を備えている。制御部21は、形質予測モデル生成装置20の各部を統括して制御するものであり、一例として、プロセッサ及びメモリにより実現される。この例において、プロセッサはストレージ(不図示)にアクセスし、ストレージに格納されているプログラム(不図示)をメモリにロードし、当該プログラムに含まれる一連の命令を実行する。これにより、制御部21の各部が構成される。当該各部として、制御部21は、データ取得部22及びモデル生成部(生成部)23を備えている。
<データ取得部22>
データ取得部22は、予測モデルを生成するためのデータを取得する。データ取得部22は、一例として、教師データ生成装置30が生成した、系統間の関係を表す系譜情報と、当該系統の形質を表す形質情報とを含む教師データを取得する。データ取得部22は、入力装置40からの予測モデルの生成の開始指示を表す入力信号に基づき、記憶装置60から教師データを読み出してもよい。また、データ取得部22は、入力装置40を介して入力された教師データを取得してもよい。データ取得部22は、取得した教師データをモデル生成部23へ出力する。
データ取得部22が取得する教師データに含まれる系譜情報は、系統をノードとし、系統間の関係をエッジとしたグラフ構造を有するデータであり得る。グラフ構造を有するデータは、一例として、系譜情報をRDF化することにより得られる。系譜情報のRDF化は、公知のRDF化方法により実現することができる。系譜情報は、さらに、グラフ構造をベクトルに変換した特徴量ベクトルデータであり得る。グラフ構造をベクトルに変換するベクトル化は、一例として、グラフ埋め込み法により実現し得る。系譜情報は、グラフ構造をベクトル化した特徴量ベクトルデータは、系譜情報を数値化したものであり、当該データを用いることで、形質予測モデル24を生成し得る。
<モデル生成部23>
モデル生成部23は、データ取得部22が取得した教師データを学習させることにより、形質予測モデル24を生成する。モデル生成部23は、形質が未知の系統の系譜情報が入力情報であり、当該系統の形質情報が出力情報である形質予測モデル24を生成する。モデル生成部23は、系統の系譜情報と、当該系統の形質を表す形質情報とを含む教師データを用いて、系譜情報と形質情報との相関関係を学習させることにより、形質予測モデル24を生成する。
モデル生成部23は、一例としては、ニューラルネットワーク、決定木、ランダムフォレスト、サポートベクトルマシン等の既知の学習方法を用いて、形質予測モデル24を生成する。モデル生成部23は、生成した形質予測モデル24を形質予測装置10へ出力する。また、モデル生成部23は、生成した形質予測モデル24を記憶装置60に格納してもよい。
モデル生成部23は、系統の形質毎に複数の形質予測モデル24を生成する。モデル生成部23は、一例として、収量、全重、タンパク含量、アミロース含量、穂長、穂数、稈長、玄米千粒重、玄米品質、玄米収量、倒伏程度、葉いもち耐病性等の形質毎に形質予測モデル24を生成する。モデル生成部23は、各形質についての形質予測モデル24を生成する場合には、各形質について生成された教師データを用いる。
モデル生成部23は、一例として、穂長が既知の系統間の関係を表す系譜情報と、当該系統の穂長を表す形質情報とを含む教師データを用いて学習させることにより、系統の穂長を予測する形質予測モデル24を生成する。このようにして生成された形質予測モデル24は、系譜情報と穂長との相関関係を学習した学習済モデルである。
モデル生成部23における予測モデル生成処理について、図4を参照して説明する。図4は、本発明の一態様に係る形質予測モデル生成装置が実行する予測モデル生成処理を説明する図である。図4は一例として、穂長、玄米品質、及び玄米収量を予測するモデルを生成する態様を示している。図4に示すように、モデル生成部23は、形質が既知の各系統の系譜情報400と、各系統の形質を表す形質情報とを含む教師データを用いて、形質毎に予測モデルを生成する。
モデル生成部23は、穂長を表す形質情報401aを含む教師データを用いることで、穂長予測モデル402aを生成する。モデル生成部23は、玄米品質を表す形質情報401bを含む教師データを用いることで、玄米品質予測モデル402bを生成する。モデル生成部23は、玄米収量を表す形質情報401cを含む教師データを用いることで、玄米収量予測モデル402cを生成する。
モデル生成部23は、形質が未知の系統の系譜情報と共に、当該系統を栽培する試験地情報及び当該系統の栽培時期、施肥水準等の栽培条件情報が入力情報であり、当該系統の形質情報が出力情報である形質予測モデル24を生成してもよい。このような形質予測モデル24は、系統の系譜情報、試験地情報、及び栽培条件情報と、形質を表す形質情報とを含む教師データを用いて、系譜情報、試験地、及び栽培条件と、形質との相関関係を学習させることにより生成することができる。
形質予測モデル生成装置20は、形質が未知の系統の系譜情報が入力情報であり、当該系統の形質情報が出力情報である形質予測モデル24を生成するので、生成された形質予測モデル24を用いて形質予測することによって、形質が未知の系統の形質を予測することができる。また、形質予測モデル生成装置20は、ある系統についての交配親、及び、交配親の一方が共通の他の系統との関係を含む系譜情報を用いて形質予測モデル24を生成するので、これらの情報を反映した予測モデルを生成することができる。
さらに、系譜情報には、ノードから生じるエッジの数により表される、いずれの系統が親系統として多く用いられているかについての情報が含まれているので、このような育種選抜の過程で得られる情報を考慮した形質予測モデル24を生成することができる。また、系譜情報には、ノードが生じている系統と生じていない系統とを区別することにより、ノードが生じている系統を優良系統と判断し得る情報が含まれているので、このような育種家の選抜の過程で得られる情報を考慮した形質予測モデル24を生成することも可能である。さらに、系譜情報には、戻し交配に関する情報が通常の交配とは区別して含まれているため、戻し交配を考慮した形質予測モデル24を生成することも可能である。
形質予測モデル生成装置20により、形質が未知の系統の形質を予測する予測モデルを生成することにより、このような予測モデルを所望の形質の子系統を得るための親系統の組み合わせを適切に選択するために用いることができる。このように、親系統の組み合わせを適切に選択することによって、栽培する系統の数を削減することができ、品種開発に係る労力、時間、及びコストを抑えることができる。
(教師データ生成装置30)
教師データ生成装置30は、形質が未知の系統の形質を予測するための形質予測モデルを生成するために用いる教師データを生成する。教師データ生成装置30は、系譜情報と形質情報とを含む教師データを生成する。
教師データ生成装置30は、制御部31を備えている。制御部31は、教師データ生成装置30の各部を統括して制御するものであり、一例として、プロセッサ及びメモリにより実現される。この例において、プロセッサはストレージ(不図示)にアクセスし、ストレージに格納されているプログラム(不図示)をメモリにロードし、当該プログラムに含まれる一連の命令を実行する。これにより、制御部31の各部が構成される。当該各部として、制御部31は、データ取得部32、グラフ作成部33、ベクトル化部34、及び教師データ生成部35を備えている。
<データ取得部32>
データ取得部32は、教師データを生成するためのデータを取得する。データ取得部32は、系統間の関係を表す系譜情報と、系統の形質を表す形質情報とを取得する。データ取得部32は、入力装置40からの教師データの生成の開始指示を表す入力信号に基づき、記憶装置60から系譜情報及び形質情報を読み出してもよい。また、データ取得部32は、入力装置40を介して入力された系譜情報及び形質情報を取得してもよい。データ取得部32は、取得した系譜情報をグラフ作成部33へ出力し、取得した形質情報を教師データ生成部35へ出力する。
<グラフ作成部33>
グラフ作成部33は、データ取得部32が取得した系譜情報を用いて、系統をノードとし、系統間の関係をエッジとしたグラフ構造を有するデータを生成する。グラフ作成部33は、一例として、系譜情報をRDF化することによりグラフ構造を有するデータを生成する。グラフ作成部33は、生成したグラフ構造を有するデータを、ベクトル化部34へ出力する。
<ベクトル化部34>
ベクトル化部34は、グラフ作成部33が生成したグラフ構造を有するデータを用いて、当該グラフ構造をベクトル化する。ベクトル化部34は、グラフ構造を有するデータをベクトルに変換した特徴量ベクトルデータを生成する。ベクトル化部34は、一例として、グラフ埋め込み法により系譜情報のグラフ構造をベクトル化する。ベクトル化部34は、グラフ構造をベクトル化した特徴量ベクトルデータを生成する事により、系譜情報を数値化する。ベクトル化部34は、生成した特徴量ベクトルデータを教師データ生成部35へ出力する。
<教師データ生成部35>
教師データ生成部35は、ベクトル化部34が生成した特徴量ベクトルデータと、データ取得部32が取得した形質情報とを用いて、教師データを生成する。教師データ生成部35は、形質が既知の系統の特徴量ベクトルデータとその形質情報とを対応付けて教師データを生成する。教師データ生成部35は、生成した教師データを形質予測モデル生成装置20へ出力する。また、教師データ生成部35は、生成した教師データを記憶装置60に格納してもよい。
教師データ生成部35は、系統の形質毎に複数の教師データを生成する。教師データ生成部35は、一例として、収量、全重、タンパク含量、アミロース含量、穂長、穂数、稈長、玄米千粒重、玄米品質、玄米収量、倒伏程度、葉いもち耐病性等の形質毎に教師データを生成する。
教師データ生成部35は、系統を栽培する試験地情報及び当該系統の栽培時期、施肥水準等の栽培条件情報をさらに取得し、系譜情報、試験地情報、及び栽培条件情報と、形質情報とを含む教師データを生成してもよい。教師データ生成部35は、系譜情報、試験地情報、及び栽培条件情報と、形質情報とを対応付けて教師データを生成し得る。
教師データ生成装置30は、学習済の形質予測モデル24に入力する、形質が未知の系統の系譜情報を生成してもよい。一例として、教師データ生成装置30は、形質が未知の系統と形質が既知の系統との関係を表す系譜情報を参照して、形質が未知の系統の系譜情報を生成する。まず、グラフ作成部33において、形質が未知の系統及び形質が既知の系統をノードとし、これらの系統間の関係をエッジとしたグラフ構造を有するデータ(一例として図2のグラフ構造を有するデータ203)を生成する。次に、ベクトル化部34において、グラフ構造を有するデータを用いて、形質が未知の系統の特徴量ベクトルデータを生成する。教師データ生成装置30は、ベクトル化部34において生成した、形質が未知の系統の特徴量ベクトルデータを、形質が未知の系統の系譜情報(一例として図2の系譜情報200)として、形質予測装置10又は入力装置40へ出力する。
(形質予測処理)
本発明の一態様に係る形質予測方法は、形質予測装置10のような情報処理装置により実行される。形質予測装置10による形質予測処理(形質予測方法)の流れについて、図5を参照して説明する。図5は、本発明の一態様に係る形質予測装置10が実行する形質予測処理の一例を示すフローチャートである。図5に示すように、まず、データ取得部12は、形質が未知の系統の系譜情報を取得する(ステップS11)。次に、モデル取得部13は、形質予測モデル生成装置20により生成された形質予測モデル24を取得する(ステップS12)。
予測部14は、モデル取得部13が取得した形質予測モデル24を用いて、形質が未知の系統の形質を予測する。予測部14は、系譜情報を形質予測モデル24に入力し、出力された形質情報の予測値を取得する(ステップS13、予測ステップ)。予測部14は、取得した予測値を予測結果として、出力装置50に出力し(ステップS15)、予測処理を終了する。
(形質予測モデル生成処理)
本発明の一態様に係る形質予測モデル生成方法は、形質予測モデル生成装置20のような情報処理装置により実行される。形質予測モデル生成装置20による形質予測モデル24の生成処理(形質予測モデル生成方法)の流れについて、図6を参照して説明する。図6は、本発明の一態様に係る形質予測モデル生成装置20が実行する予測モデル生成処理の一例を示すフローチャートである。図6に示すように、まず、データ取得部22は、教師データ生成装置30が生成した教師データを取得する(ステップS21)。
次に、モデル生成部23は、取得した教師データを用いて学習させることにより、形質が未知の系統の系譜情報が入力情報であり、当該系統の形質情報が出力情報である形質予測モデル24を生成する(ステップS22、生成ステップ)。そして、モデル生成部23は、生成した形質予測モデル24を形質予測装置10へ出力(ステップS23)、形質予測モデル生成処理を終了する。
このような構成によれば、農業の維持および発展に繋がる。これにより、持続可能な開発目標(SDGs)の「目標2:飢餓をゼロに」達成に貢献できる。
〔ソフトウェアによる実現例〕
形質予測装置10及び形質予測モデル生成装置20(以下、「装置」と呼ぶ)の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック(特に制御部11及び制御部21に含まれる各部)としてコンピュータを機能させるためのプログラムにより実現することができる。
この場合、上記装置は、上記プログラムを実行するためのハードウェアとして、少なくとも1つの制御装置(例えばプロセッサ)と少なくとも1つの記憶装置(例えばメモリ)を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。
上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、1または複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して上記装置に供給されてもよい。
また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。
また、上記各実施形態で説明した各処理は、AI(Artificial Intelligence:人工知能)に実行させてもよい。この場合、AIは上記制御装置で動作するものであってもよいし、他の装置(例えばエッジコンピュータまたはクラウドサーバ等)で動作するものであってもよい。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
〔形質が未知の系統の形質予測〕
形質が未知の系統について、各種形質を予測した。系譜情報として、イネ品種・特性データベース(https://ineweb.narcc.affrc.go.jp/index.html)から公開されている系譜情報を取得した。作成した系譜情報グラフのノード(系統)は15,907、エッジの数(系統の関係)29,071であった。これらの系統の形質情報は農研機構内で取得したイネの形質情報であり、試験地、系統の育成地、作期、播種様式、移植法、施肥水準の情報も含まれる。形質名とデータ数を表1に示す。
得られた形質情報とイネの系譜情報のグラフとを用いて、Deep walk(Online Learning of Social Representations, https://dl.acm.org/doi/10.1145/2623330.2623732)によりグラフの潜在的な情報を学習した予測モデルを生成した。Deep walkのモデル構築の際に、ハイパーパラメータとして、Walk length(Random walkする際にたどるノード数)を40に設定した。
教師データを用いて作成した回帰予測モデルを用いて、テストデータの系統の形質を予測した。説明変数は、試験地、系統の育成地、作期、播種様式、移植法、施肥水準、系譜情報から得られた200次元の特徴量とした。
回帰分析で得られた予測モデルの予測精度を評価するために、五分割交差検証を行い、予測値と実測値の決定係数R、平均二乗誤差(MSE:Mean Squared Error)、二乗平均平方根誤差(RMSE:Root Mean Squared Error)を算出した。結果を表1及び図7~9に示す。図7は、予測精度の評価に用いた形質毎の実測値の分布を表すグラフを示す図である。図8は、形質毎に生成された形質予測モデルの予測精度を示すグラフを示す図である。図9は、他の形質毎に生成された形質予測モデルの予測精度を示すグラフを示す図である。
図7に示すように、多くの形質において正規分布に近い分布であることが示された。また、図8及び9、並びに表1に示すように、多くの形質において、一定の精度で予測可能であったことが示された。なお、表1において、Rの値が1に近いほど回帰式が実際のデータに当てはまっていることが示されている。また、MSEとRMSEの値が小さければ小さいほど、誤差の小さいものであることが示されている。表1において、比較的精度よく予測が可能であった形質の行をグレーで示した。表1に示すように、穂長、穂数等のグレーで示された行の形質は、白で示された行の他の形質と比較して予測精度が高かった。
〔系譜情報の特徴量ベクトルデータと近縁係数との比較〕
本発明の一態様に係る系譜情報の特徴量ベクトルデータと従来予測で用いられる近縁係数とを比較した。
近縁係数は、2個体X及びYについて、一つの遺伝子座からそれぞれ無作為に抽出した対立遺伝子(アリル)の由来による、同一である確率を示すものであり、血のつながりの濃さを数値化したものである。近縁係数の計算には近縁係数計算プログラム(https://pedigree.db.naro.go.jp /coeffinbreeding)を用いた。イネ品種・特性データベース(https://ineweb.narcc.affrc.go.jp/index.html)に公開されている系譜情報から得たイネの特徴量ベクトルデータ及び近縁係数のそれぞれについて、コサイン類似度及びユーグリッド距離を算出した。
近縁係数とコサイン類似度及びユーグリッド距離との関係を図10に示した。図10は、系譜情報の特徴量ベクトルデータと近縁係数とを比較するための図である。図10に示すように、コサイン類似度と近縁係数とは正の相関があり、ユーグリッド距離と近縁係数とは負の相関があった。したがって、近縁係数から算出されるコサイン類似度に基づけば、類似していると判断されるイネの組み合わせが、特徴量ベクトルデータから算出されるコサイン類似度では類似していないと判断される場合があり得る。
近縁係数では交配親の情報のみが考慮されるが、特徴量ベクトルデータではグラフ構造に関する潜在的な情報を抽出できる。また、Deep Walkを用いた特徴量の抽出は近縁係数よりも低い計算コストで実行可能である。
〔まとめ〕
本発明の第1の態様に係る形質予測方法は、系統間の関係を表す系譜情報と、当該系統の形質を表す形質情報とを含む教師データを用いて、前記系譜情報と前記形質情報との相関関係を学習させた予測モデルを用いて、形質が未知の系統の前記系譜情報を入力として、当該系統の形質情報を取得する予測ステップを情報処理装置が実行する。
本発明の第2の態様に係る形質予測方法は、前記第1の態様において、前記系譜情報は、系統をノードとし、系統間の関係をエッジとしたグラフ構造を有するデータである。
本発明の第3の態様に係る形質予測方法は、前記第2の態様において、前記系譜情報は、前記グラフ構造をベクトルに変換した特徴量ベクトルデータである。
本発明の第4の態様に係る形質予測方法は、前記第1~3のいずれかの態様において、前記系譜情報は、形質が未知の系統についての母系統を表す情報と父系統を表す情報とを区別して含む。
本発明の第5の態様に係る形質予測方法は、前記第1~4のいずれかの態様において、特定の系統と他の系統とを親とする後代の系統の形質を前記予測ステップにより予測した予測結果を、複数の他の系統について取得し、前記特定の系統が後代の系統の形質に及ぼす影響を評価する、評価ステップをさらに包含する。
本発明の第6の態様に係る形質予測モデル生成方法は、系統間の関係を表す系譜情報と、当該系統の形質を表す形質情報とを含む教師データを用いて学習させることによって、形質が未知の系統の前記系譜情報が入力情報であり、当該系統の形質情報が出力情報である予測モデルを生成する生成ステップを情報処理装置が実行する。
本発明の第7の態様に係る形質予測装置は、系統間の関係を表す系譜情報と、当該系統の形質を表す形質情報とを含むデータを教師データとして、前記系譜情報と前記形質情報との相関関係を学習させた予測モデルを用いて、形質が未知の系統の前記系譜情報を入力として、当該系統の形質情報を取得する予測部を備えている。
本発明の第8の態様に係る形質予測モデル生成装置は、系統間の関係を表す系譜情報と、当該系統の形質を表す形質情報とを含む教師データを用いて学習させることによって、形質が未知の系統の前記系譜情報が入力情報であり、当該系統の形質情報が出力情報である予測モデルを生成する生成部を備えている。
本発明の第9の態様に係る形質予測システムは、前記第7の態様に記載の形質予測装置と、前記第8の態様に記載された形質予測モデル生成装置とを備えている。
10 形質予測装置
14 予測部
15 評価部
20 形質予測モデル生成装置
23 モデル生成部(生成部)
24 形質予測モデル

Claims (9)

  1. 系統間の関係を表す系譜情報と、当該系統の形質を表す形質情報とを含む教師データを用いて、前記系譜情報と前記形質情報との相関関係を学習させた予測モデルを用いて、形質が未知の系統の前記系譜情報を入力として、当該系統の形質情報を取得する予測ステップ
    を情報処理装置が実行する、形質予測方法。
  2. 前記系譜情報は、系統をノードとし、系統間の関係をエッジとしたグラフ構造を有するデータである、請求項1に記載の形質予測方法。
  3. 前記系譜情報は、前記グラフ構造をベクトルに変換した特徴量ベクトルデータである、請求項2に記載の形質予測方法。
  4. 前記系譜情報は、形質が未知の系統についての母系統を表す情報と父系統を表す情報とを区別して含む、請求項1から3の何れか1項に記載の形質予測方法。
  5. 特定の系統と他の系統とを親とする後代の系統の形質を前記予測ステップにより予測した予測結果を、複数の他の系統について取得し、前記特定の系統が後代の系統の形質に及ぼす影響を評価する、評価ステップを
    さらに包含する、請求項1に記載の形質予測方法。
  6. 系統間の関係を表す系譜情報と、当該系統の形質を表す形質情報とを含む教師データを用いて学習させることによって、形質が未知の系統の前記系譜情報が入力情報であり、当該系統の形質情報が出力情報である予測モデルを生成する生成ステップ
    を情報処理装置が実行する、形質予測モデル生成方法。
  7. 系統間の関係を表す系譜情報と、当該系統の形質を表す形質情報とを含むデータを教師データとして、前記系譜情報と前記形質情報との相関関係を学習させた予測モデルを用いて、形質が未知の系統の前記系譜情報を入力として、当該系統の形質情報を取得する予測部
    を備えた、形質予測装置。
  8. 系統間の関係を表す系譜情報と、当該系統の形質を表す形質情報とを含む教師データを用いて学習させることによって、形質が未知の系統の前記系譜情報が入力情報であり、当該系統の形質情報が出力情報である予測モデルを生成する生成部
    を備えた、形質予測モデル生成装置。
  9. 請求項7に記載の形質予測装置と、請求項8に記載された形質予測モデル生成装置とを備えた、形質予測システム。
JP2022071770A 2022-04-25 2022-04-25 形質予測方法、形質予測モデル生成方法、形質予測装置、形質予測モデル生成装置、及び形質予測システム Pending JP2023161401A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022071770A JP2023161401A (ja) 2022-04-25 2022-04-25 形質予測方法、形質予測モデル生成方法、形質予測装置、形質予測モデル生成装置、及び形質予測システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022071770A JP2023161401A (ja) 2022-04-25 2022-04-25 形質予測方法、形質予測モデル生成方法、形質予測装置、形質予測モデル生成装置、及び形質予測システム

Publications (1)

Publication Number Publication Date
JP2023161401A true JP2023161401A (ja) 2023-11-07

Family

ID=88650219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022071770A Pending JP2023161401A (ja) 2022-04-25 2022-04-25 形質予測方法、形質予測モデル生成方法、形質予測装置、形質予測モデル生成装置、及び形質予測システム

Country Status (1)

Country Link
JP (1) JP2023161401A (ja)

Similar Documents

Publication Publication Date Title
Messina et al. Leveraging biological insight and environmental variation to improve phenotypic prediction: Integrating crop growth models (CGM) with whole genome prediction (WGP)
US11174522B2 (en) Methods and compositions for imputing or predicting genotype or phenotype
Li et al. Overview of LASSO-related penalized regression methods for quantitative trait mapping and genomic selection
Ashman et al. Pollen limitation of plant reproduction: ecological and evolutionary causes and consequences
Morgan et al. The evolution of self-fertilization in perennials
Wallach et al. The chaos in calibrating crop models: Lessons learned from a multi-model calibration exercise
Cowling et al. Evolving gene banks: improving diverse populations of crop and exotic germplasm with optimal contribution selection
Rutkoski Estimation of realized rates of genetic gain and indicators for breeding program assessment
EP3326093A1 (en) Improved computer implemented method for predicting true agronomical value of a plant
Lorenz et al. Training population design and resource allocation for genomic selection in plant breeding
CN115829162A (zh) 作物产量预测方法、装置、电子设备及介质
CN115618021A (zh) 农作物品种适宜种植区域推荐方法及装置
Sood et al. Making the most of all data: combining non‐genotyped and genotyped potato individuals with HBLUP
Chen et al. Predicting rice heading date using an integrated approach combining a machine learning method and a crop growth model
Thomas et al. A network-based method to detect patterns of local crop biodiversity: validation at the species and infra-species levels
van Frank et al. Influence of experimental design on decentralized, on-farm evaluation of populations: a simulation study
Azevedo et al. Using visual scores for genomic prediction of complex traits in breeding programs
Jonas et al. Goals and hurdles for a successful implementation of genomic selection in breeding programme for selected annual and perennial crops
JP2023161401A (ja) 形質予測方法、形質予測モデル生成方法、形質予測装置、形質予測モデル生成装置、及び形質予測システム
Wallach et al. The chaos in calibrating crop models
Li et al. Improvement of non-key traits in radiata pine breeding programme when long-term economic importance is uncertain
Kirchner et al. The analysis of simulated sow herd datasets using decision tree technique
Imai et al. Predicting segregation of multiple fruit-quality traits by using accumulated phenotypic records in citrus breeding
McClosky et al. Selfing for the design of genomic selection experiments in biparental plant populations
Xu et al. Simulating genotype-phenotype interaction using extended functional-structural plant models: approaches, applications and potential pitfalls