JP6570929B2 - Characteristic estimation model generation apparatus and method, analysis target characteristic estimation apparatus and method - Google Patents
Characteristic estimation model generation apparatus and method, analysis target characteristic estimation apparatus and method Download PDFInfo
- Publication number
- JP6570929B2 JP6570929B2 JP2015176416A JP2015176416A JP6570929B2 JP 6570929 B2 JP6570929 B2 JP 6570929B2 JP 2015176416 A JP2015176416 A JP 2015176416A JP 2015176416 A JP2015176416 A JP 2015176416A JP 6570929 B2 JP6570929 B2 JP 6570929B2
- Authority
- JP
- Japan
- Prior art keywords
- characteristic
- characteristic estimation
- estimation model
- variable
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims description 102
- 238000000034 method Methods 0.000 title claims description 90
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 claims description 54
- 230000014509 gene expression Effects 0.000 claims description 32
- 241000209094 Oryza Species 0.000 claims description 31
- 235000007164 Oryza sativa Nutrition 0.000 claims description 31
- 238000000611 regression analysis Methods 0.000 claims description 31
- 235000009566 rice Nutrition 0.000 claims description 31
- 229910052757 nitrogen Inorganic materials 0.000 claims description 27
- 108090000623 proteins and genes Proteins 0.000 claims description 23
- 238000003757 reverse transcription PCR Methods 0.000 claims description 21
- 238000002790 cross-validation Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 17
- 230000017260 vegetative to reproductive phase transition of meristem Effects 0.000 claims description 16
- 238000003745 diagnosis Methods 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 14
- 238000002054 transplantation Methods 0.000 claims description 13
- 108020004999 messenger RNA Proteins 0.000 claims description 12
- 238000003753 real-time PCR Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 230000004720 fertilization Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 229930002875 chlorophyll Natural products 0.000 description 5
- 235000019804 chlorophyll Nutrition 0.000 description 5
- ATNHDLDRLWWWCB-AENOIHSZSA-M chlorophyll a Chemical compound C1([C@@H](C(=O)OC)C(=O)C2=C3C)=C2N2C3=CC(C(CC)=C3C)=[N+]4C3=CC3=C(C=C)C(C)=C5N3[Mg-2]42[N+]2=C1[C@@H](CCC(=O)OC\C=C(/C)CCC[C@H](C)CCC[C@H](C)CCCC(C)C)[C@H](C)C2=C5 ATNHDLDRLWWWCB-AENOIHSZSA-M 0.000 description 5
- NBIIXXVUZAFLBC-UHFFFAOYSA-N Phosphoric acid Chemical compound OP(O)(O)=O NBIIXXVUZAFLBC-UHFFFAOYSA-N 0.000 description 4
- 238000003306 harvesting Methods 0.000 description 4
- 240000008042 Zea mays Species 0.000 description 3
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 239000003337 fertilizer Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 description 2
- 229910000147 aluminium phosphate Inorganic materials 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 235000009973 maize Nutrition 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000004544 DNA amplification Effects 0.000 description 1
- 238000007397 LAMP assay Methods 0.000 description 1
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 238000003996 delayed luminescence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008641 drought stress Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229910052698 phosphorus Inorganic materials 0.000 description 1
- 239000011574 phosphorus Substances 0.000 description 1
- 230000037039 plant physiology Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000003911 water pollution Methods 0.000 description 1
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、解析対象の特性変数及び状態情報に基づいて、解析対象の特性推定モデルを生成する、解析対象の特性推定モデル生成装置および方法、解析対象の特性推定装置および方法に関する。特に、イネ等作物の遺伝子発現情報から、作物の特性である形質を推定するのに好適な特性推定モデル生成装置および方法、解析対象の特性推定装置および方法に関する。 The present invention relates to an analysis target characteristic estimation model generation apparatus and method, and an analysis target characteristic estimation apparatus and method, which generate an analysis target characteristic estimation model based on an analysis target characteristic variable and state information. In particular, the present invention relates to a characteristic estimation model generation apparatus and method suitable for estimating a trait that is a characteristic of a crop from gene expression information of a crop such as rice, and a characteristic estimation apparatus and method to be analyzed.
近年、PCなどの処理装置の高性能化が著しい。そのため、自然界に発生する現象のように複雑な系を、大量のデータを用いた統計解析によってモデル化する技術開発が盛んである。このような統計解析手法としてよく用いられる手法がLASSO回帰などといった、正則化項を有する回帰分析である。
しかし、正則化項を有する回帰分析は、与えられたデータから最も良いモデルを生成することに終始する。そのため、結果に一意性がなく、モデル生成の際に目的変数に対する説明変数を網羅的に抽出することができないという課題があった。
In recent years, the performance of processing apparatuses such as PCs has been greatly improved. For this reason, technological development for modeling a complex system such as a phenomenon occurring in the natural world by statistical analysis using a large amount of data has been active. A technique often used as such a statistical analysis technique is a regression analysis having a regularization term such as LASSO regression.
However, regression analysis with regularization terms is all about generating the best model from the given data. For this reason, there is a problem that the results are not unique, and it is not possible to exhaustively extract explanatory variables for the objective variable when generating the model.
また、上記のようなモデル化が望まれている分野の一つが農業である。
作物の生育度を定量的に測定し、生育診断や土壌診断を行って、栽培管理を行う技術が近年開発されている。具体的には、作物の生育度等を定量的に測定、もしくは予測を行い、的確な施肥時期や施肥量を決定することで科学的、計画的に作物の栽培、収穫を行うものである。
Moreover, agriculture is one of the fields in which modeling as described above is desired.
In recent years, a technique for performing cultivation management by quantitatively measuring the degree of growth of crops, performing growth diagnosis and soil diagnosis has been developed. Specifically, cultivation and harvesting of crops are carried out scientifically and systematically by quantitatively measuring or predicting the degree of growth of crops, etc., and determining the exact fertilization time and amount.
科学的、計画的な作物の栽培、収穫の実現に特に重要な要素は、施肥である。施肥のタイミングは、作物の収量と品質管理に大きく影響を与える。
一般的には、施肥の量を増やすことで、収量を上げることができるが、コストが増加してしまう。さらに、過剰な施肥は、収穫対象部位に多くのタンパク質、すなわち窒素を溜めることとなり、品質が低下してしまう。また、肥料の中にはリン酸が含まれる。過剰な施肥により、例えば水田中に飽和したリン酸が、河川や海などに流出することは深刻な水質汚染にもつながるといった問題も発生する。
従って、作物の生育状況に合わせて、適切な量およびタイミングでの施肥が、作物の収量と品質を上げるためには重要である。
Fertilization is a particularly important factor in the cultivation and harvesting of scientific and planned crops. The timing of fertilization has a major impact on crop yield and quality control.
In general, increasing the amount of fertilizer can increase the yield, but increases the cost. Furthermore, excessive fertilization will accumulate a large amount of protein, that is, nitrogen, in the harvest target site, and the quality will deteriorate. In addition, the fertilizer contains phosphoric acid. Due to excessive fertilization, for example, the phosphoric acid saturated in the paddy field flows out into rivers, seas, etc., leading to serious water pollution.
Therefore, fertilization with an appropriate amount and timing according to the growing situation of the crop is important for increasing the yield and quality of the crop.
従って、科学的、計画的な作物の栽培、収穫の実現のためには、施肥の適切な管理が重要である。そのためには、農作物の生育状況をより正確に、短時間に把握することが重要である。
従来は、作物の生育状況を、葉の色などの作物の外観より得られる情報から判断していた。しかし、作物の外観は温度や日照時間、水質など様々な要素の影響を受けるため、外観から定量的に作物の生育状況を判断することは難しい。
Therefore, appropriate management of fertilization is important for the cultivation and harvesting of scientific and planned crops. For that purpose, it is important to grasp the growing situation of the crop more accurately and in a short time.
Conventionally, the growth status of a crop has been judged from information obtained from the appearance of the crop, such as the color of leaves. However, since the appearance of crops is affected by various factors such as temperature, sunshine duration, and water quality, it is difficult to quantitatively judge the crop growth status from the appearance.
このような課題に対応するために、作物の葉の葉緑素量と、遅延発光量とを測定することで、水分量が足りているかどうかの指標である渇水ストレスの状況を判断する方法が特許文献1に開示されている。 In order to cope with such a problem, a method for determining a drought stress situation, which is an index of whether or not the amount of water is sufficient, is measured by measuring the amount of chlorophyll and the amount of delayed luminescence in a crop. 1 is disclosed.
しかし、葉緑素値は外乱の影響を受けやすいため、個体差が大きい。そのため、葉緑素量を使用することで生育状況の判定結果が不安定になるという課題があり、葉緑素量を用いることなく、生育状況を定量的に判断する手法が望まれていた。 However, the chlorophyll value is susceptible to disturbances, so there are large individual differences. For this reason, there is a problem that the determination result of the growth state becomes unstable by using the amount of chlorophyll, and a method for quantitatively determining the growth state without using the amount of chlorophyll has been desired.
葉緑素量を用いることなく定量的に生育状況を判断する従来技術として、トウモロコシの遺伝子発現情報を解析することで、施肥の有無に応答する遺伝子をかどうかを判断する推定モデルを生成する技術が非特許文献1に開示されている。
As a conventional technique for quantitatively determining the growth status without using chlorophyll content, there is no technique for generating an estimation model for determining whether a gene responds to the presence or absence of fertilization by analyzing gene expression information in maize. It is disclosed in
非特許文献1の技術を実施することで、測定対象のトウモロコシに発現した遺伝子情報が、施肥の有無に応答するかどうかを判断することはできる。しかし、推定モデルを生成するためには、施肥の有無に応答する遺伝子の絞り込みのための実験を行う必要があり、非常に煩雑であった。また、この技術によると、葉内に窒素がどの程度溜まっているかを表す、窒素含有量を推定するモデルを作成することはできる。しかし、窒素含有量以外の農業形質を網羅的に推定することができないという課題があった。
By implementing the technique of
さらに、上記のような遺伝子解析は、専門の知識を有する技術者によって行われることが多く、生育状況の判断のために煩雑な手間および時間が必要となる。そのため、生育状況を短時間で、自動的に判断する技術が望まれている。 Furthermore, the gene analysis as described above is often performed by an engineer having specialized knowledge, and complicated labor and time are required for determining the growth status. Therefore, a technique for automatically determining the growth status in a short time is desired.
本発明は上記事情に鑑み、解析対象の特性を推定するモデル生成において、目的変数に対する説明変数を網羅的に抽出可能なモデル生成装置および、生成されたモデルを用いて作物の生育状況を自動的に推定する装置を得ることを目的とする。 In view of the above circumstances, in the present invention, in model generation for estimating the characteristics of an analysis target, a model generation apparatus capable of exhaustively extracting explanatory variables for objective variables, and the growth status of crops automatically using the generated model An object of the present invention is to obtain an apparatus for estimating the above.
(構成1)
解析対象の状態を表す状態変数と、前記解析対象の特性を表す特性変数から、前記特性変数を前記状態変数により推定するモデルを生成する特性推定モデル生成装置であって、
前記解析対象の状態変数と、前記解析対象の特性変数が入力され、解析用データとして出力する、データ出力部と、
前記解析用データのうち、前記特性変数を目的変数とし、前記状態変数を説明変数として、正則化項を有する回帰分析を行うことで、前記目的変数と前記説明変数との関係を表す回帰モデルを生成する、回帰分析部と、
前記回帰モデルと前記解析用データを用いて、事前に設定された検証回数まで交差検証を行い、前記回帰モデルのうち最適な正則化項を有するモデルを、特性推定モデルとして生成する特性推定モデル生成部と、
前記特性推定モデルにおいて選択された説明変数に対応するデータを、前記解析用データから除外したデータを、更新データとして生成し、次回の特性推定モデル生成時の解析用データとして前記データ出力部へと出力する、解析用データ更新部と、
を備え、
事前に設定された繰り返し回数まで、前記解析用データの更新と、前記更新データを用いた特性推定モデルの生成と、を繰り返すことを特徴とする特性推定モデル生成装置。
(Configuration 1)
A characteristic estimation model generation device that generates a model that estimates the characteristic variable from the state variable that represents the state of the analysis target and the characteristic variable that represents the characteristic of the analysis target.
A data output unit that receives the state variable to be analyzed and the characteristic variable to be analyzed and outputs as analysis data;
Of the analysis data, the regression variable representing the relationship between the objective variable and the explanatory variable is obtained by performing a regression analysis having a regularization term using the characteristic variable as an objective variable and the state variable as an explanatory variable. A regression analysis unit to generate,
Using the regression model and the analysis data, cross-validation is performed up to a preset number of verifications, and a model having an optimal regularization term among the regression models is generated as a characteristic estimation model generation. And
Data corresponding to the explanatory variable selected in the characteristic estimation model, data excluded from the analysis data, is generated as update data, and is sent to the data output unit as analysis data at the next generation of the characteristic estimation model. An analysis data update unit to output,
With
A characteristic estimation model generation apparatus that repeats updating of the analysis data and generation of a characteristic estimation model using the update data up to a preset number of repetitions.
(構成2)
前記特性推定モデル生成部において交差検証を行う毎に生成される、前記回帰モデルについて、全てのモデルにおいて選択されている説明変数を、前記解析対象の特性に関連する状態情報である特性関連状態情報として抽出する、特性関連状態情報抽出部を更に備える構成1に記載の特性推定モデル生成装置。
(Configuration 2)
About the regression model generated every time cross-validation is performed in the characteristic estimation model generation unit, the explanatory variables selected in all models are characteristic-related state information that is state information related to the characteristic to be analyzed The characteristic estimation model production | generation apparatus of the
(構成3)
前記回帰分析は、LASSO回帰、Ridge回帰もしくは、Elastic-netである構成1又は2に記載の特性推定モデル生成装置。
(Configuration 3)
The characteristic estimation model generation device according to
(構成4)
前記解析対象は生物であり、前記状態変数は遺伝子発現情報であり、前記特性変数は形質情報である、構成1から3の何れかに記載の特性推定モデル生成装置。
(Configuration 4)
The characteristic estimation model generation device according to any one of
(構成5)
前記生物は作物である、構成4に記載の特性推定モデル生成装置。
(Configuration 5)
The characteristic estimation model generation device according to
(構成6)
前記作物はイネ科作物である、構成5に記載の特性推定モデル生成装置。
(Configuration 6)
The characteristic estimation model generation device according to
(構成7)
前記イネ科作物はイネである、構成6に記載の特性推定モデル生成装置。
(Configuration 7)
The characteristic estimation model generation device according to
(構成8)
前記形質情報は、移植日からの日数を表す移植日後日数、サンプリング日から開花までに要する日数を表す開花日または、観測対象の乾燥重量当たりの窒素含量を表す窒素含量である構成5から7の何れかに記載の特性推定モデル生成装置。
(Configuration 8)
The trait information is the number of days after the transplantation date representing the number of days from the date of transplantation, the flowering date representing the number of days required from the sampling date to flowering, or the nitrogen content representing the nitrogen content per dry weight of the observation target. The characteristic estimation model generation apparatus according to any one of the above.
(構成9)
前記解析対象の前記特性を推定する、特性推定装置であって、
構成1から8の何れかに記載の特性推定モデル生成装置によって生成した前記特性推定モデルに、前記解析対象の状態変数が入力されることで、前記解析対象の特性の推定結果である、特性推定情報が出力される、特性推定部を有することを特徴とする、特性推定装置。
(Configuration 9)
A characteristic estimation device for estimating the characteristic of the analysis target,
A characteristic estimation that is an estimation result of the characteristic of the analysis target when the state variable of the analysis target is input to the characteristic estimation model generated by the characteristic estimation model generation device according to any one of
(構成10)
前記解析対象の前記特性を推定する、特性推定装置であって、
構成4から8の何れかに記載の特性推定モデル生成装置によって生成した前記特性推定モデルに、前記生物の遺伝子発現情報が入力されることで、前記解析対象の特性の推定結果である、特性推定情報が出力される、特性推定部を有し、
前記生物の前記遺伝子発現情報は、前記特性関連状態情報抽出部にて抽出された、前記特性関連状態情報に対応する遺伝子より転写されるmRNA量から測定されることを特徴とする特性推定装置。
(Configuration 10)
A characteristic estimation device for estimating the characteristic of the analysis target,
Characteristic estimation that is an estimation result of the characteristics of the analysis target by inputting gene expression information of the organism to the characteristic estimation model generated by the characteristic estimation model generation device according to any one of
The gene expression information of the organism is measured from the amount of mRNA transcribed from a gene corresponding to the property-related state information extracted by the property-related state information extraction unit.
(構成11)
前記mRNAの発現量が、定量RT−PCR法により測定される、構成10に記載の特性推定装置。
(Configuration 11)
The characteristic estimation apparatus according to
(構成12)
前記定量RT−PCR法は、リアルタイムRT−PCR法である、構成11に記載の特性推定装置。
(Configuration 12)
The characteristic estimation apparatus according to
(構成13)
前記定量RT−PCR法が、マルチプレックスRT−PCR法である、構成11に記載の特性推定装置。
(Configuration 13)
The characteristic estimation apparatus according to
(構成14)
前記特性推定情報を用いて、前記生物の状態を診断する、状態診断部を更に備える、構成10から13の何れかに記載の特性推定装置。
(Configuration 14)
The characteristic estimation apparatus according to any one of
(構成15)
解析対象の状態を表す状態変数と、前記解析対象の特性を表す特性変数から、前記特性変数を前記状態変数により推定するモデルを生成する特性推定モデル生成方法であって、
前記解析対象の状態変数と、前記解析対象の特性変数を、解析用データとし、
前記解析用データのうち、前記特性変数を目的変数とし、前記状態変数を説明変数として、正則化項を有する回帰分析を行うことで、前記目的変数と前記説明変数との関係を表す回帰モデルを生成する、回帰分析ステップと、
前記回帰モデルと前記解析用データを用いて、事前に設定された検証回数まで交差検証を行い、前記回帰モデルのうち最適な正則化項を有するモデルを、特性推定モデルとして生成する特性推定モデル生成ステップと、
前記特性推定モデルにおいて選択された説明変数に対応するデータを、前記解析用データから除外したデータを、更新データとして生成し、次回の特性推定モデル生成時の解析用データとして更新する、解析用データ更新ステップと、
を備え、
事前に設定された繰り返し回数まで、前記解析用データの更新と、前記更新データを用いた特性推定モデルの生成と、を繰り返すことを特徴とする特性推定モデル生成方法。
(Configuration 15)
A characteristic estimation model generation method for generating a model for estimating the characteristic variable from the state variable representing the state of the analysis target and the characteristic variable representing the characteristic of the analysis target by the state variable,
The state variable to be analyzed and the characteristic variable to be analyzed are data for analysis,
Of the analysis data, the regression variable representing the relationship between the objective variable and the explanatory variable is obtained by performing a regression analysis having a regularization term using the characteristic variable as an objective variable and the state variable as an explanatory variable. A regression analysis step to generate,
Using the regression model and the analysis data, cross-validation is performed up to a preset number of verifications, and a model having an optimal regularization term among the regression models is generated as a characteristic estimation model generation. Steps,
Data for analysis corresponding to the explanatory variable selected in the characteristic estimation model is generated as update data, data that is excluded from the analysis data, and is updated as analysis data for the next generation of the characteristic estimation model An update step;
With
A characteristic estimation model generation method characterized by repeating the updating of the analysis data and the generation of a characteristic estimation model using the update data up to a preset number of repetitions.
(構成16)
前記特性推定モデル生成ステップにおいて交差検証を行う毎に生成される、前記回帰モデルについて、全てのモデルにおいて選択されている説明変数を、前記解析対象の特性に関連する状態情報である特性関連状態情報として抽出する、特性関連状態情報抽出ステップを更に備える構成15に記載の特性推定モデル生成方法。
(Configuration 16)
About the regression model generated every time cross-validation is performed in the characteristic estimation model generation step, the explanatory variables selected in all models are characteristic-related state information that is state information related to the characteristic to be analyzed The characteristic estimation model generation method according to
(構成17)
前記回帰分析は、LASSO回帰、Ridge回帰もしくは、Elastic-netである構成15又は16に記載の特性推定モデル生成方法。
(Configuration 17)
The characteristic estimation model generation method according to
(構成18)
前記解析対象は生物であり、前記状態変数は遺伝子発現情報であり、前記特性変数は形質情報である、構成15から17の何れかに記載の特性推定モデル生成方法。
(Configuration 18)
The characteristic estimation model generation method according to any one of
(構成19)
前記生物は作物である、構成18に記載の特性推定モデル生成方法。
(Configuration 19)
The characteristic estimation model generation method according to
(構成20)
前記作物はイネ科作物である、構成19に記載の特性推定モデル生成方法。
(Configuration 20)
The characteristic estimation model generation method according to
(構成21)
前記イネ科作物はイネである、構成20に記載の特性推定モデル生成方法。
(Configuration 21)
The characteristic estimation model generation method according to
(構成22)
前記形質情報は、移植日からの日数を表す移植日後日数、開花までに要する日数を表す開花日または、観測対象の乾燥重量当たりの窒素含量を表す窒素含量である構成19から21の何れかに記載の特性推定モデル生成方法。
(Configuration 22)
The trait information is any one of
(構成23)
前記解析対象の前記特性を推定する、特性推定方法であって、
構成15から22の何れかに記載の特性推定モデル生成方法によって生成した前記特性推定モデルに、前記解析対象の状態変数が入力されることで、前記解析対象の特性の推定結果である、特性推定情報が出力される、特性推定ステップを有することを特徴とする、特性推定方法。
(Configuration 23)
A property estimation method for estimating the property of the analysis target,
A characteristic estimation that is an estimation result of the characteristic of the analysis target by inputting the state variable of the analysis target into the characteristic estimation model generated by the characteristic estimation model generation method according to any one of the
(構成24)
前記解析対象の前記特性を推定する、特性推定方法であって、
構成18から22の何れかに記載の特性推定モデル生成方法によって生成した前記特性推定モデルに、前記生物の遺伝子発現情報が入力されることで、前記解析対象の特性の推定結果である、特性推定情報が出力される、特性推定ステップを有し、
前記生物の前記遺伝子発現情報は、前記特性関連状態情報抽出ステップにて抽出された、前記特性関連状態情報に対応する遺伝子より転写されるmRNA量から測定されることを特徴とする特性推定方法。
(Configuration 24)
A property estimation method for estimating the property of the analysis target,
A characteristic estimation, which is an estimation result of the characteristic of the analysis target, when gene expression information of the organism is input to the characteristic estimation model generated by the characteristic estimation model generation method according to any one of
The gene estimation information of the organism is measured from the amount of mRNA transcribed from the gene corresponding to the property-related state information extracted in the property-related state information extraction step.
(構成25)
前記mRNAの発現量が、定量RT−PCR法により測定される、構成24に記載の特性推定方法。
(Configuration 25)
25. The characteristic estimation method according to
(構成26)
前記定量RT−PCR法は、リアルタイムRT−PCR法である、構成25に記載の特性推定方法。
(Configuration 26)
The characteristic estimation method according to
(構成27)
前記定量RT−PCR法が、マルチプレックスRT−PCR法である、構成25に記載の特性推定方法。
(Configuration 27)
The characteristic estimation method according to
(構成28)
前記特性推定情報を用いて、前記生物の状態を診断する、状態診断ステップを更に備える、構成24から27の何れかに記載の特性推定方法。
(Configuration 28)
The characteristic estimation method according to any one of
この発明によれば、解析対象の特性変数に関連する状態変数を網羅的に抽出可能な特性推定モデル生成装置を得ることができるという効果がある。更に、生成されたモデルを用いて、作物の生育状況を自動的に推定する装置を得ることができるという効果がある。 According to the present invention, there is an effect that it is possible to obtain a characteristic estimation model generation apparatus capable of exhaustively extracting state variables related to characteristic variables to be analyzed. Furthermore, there is an effect that an apparatus for automatically estimating the growth state of a crop can be obtained using the generated model.
実施の形態
図1はこの発明の実施の形態による特性推定モデル生成装置の構成を示すブロック図である。実施の形態に係る特性推定モデル生成装置の構成について図を参照しながら説明する。
Embodiment FIG. 1 is a block diagram showing a configuration of a characteristic estimation model generation apparatus according to an embodiment of the present invention. The configuration of the characteristic estimation model generation device according to the embodiment will be described with reference to the drawings.
なお、本実施の形態において解析対象とは、イネである。
状態変数とは、イネの遺伝子発現情報であり、
特性変数とは、イネの性質や特徴を表現する情報である形質情報を表し、具体的には、イネの葉の乾燥重量あたりの葉内窒素含量、サンプリング日から何日後に穂が出るかを表す開花日および、田植えから何日経過したかを表す田植え後日数である。
In the present embodiment, the analysis target is rice.
A state variable is rice gene expression information.
Characteristic variables represent trait information, which is information that expresses the nature and characteristics of rice. Specifically, the nitrogen content in leaves per dry weight of rice leaves, and how many days after the sampling date the ears will appear. It represents the flowering date and the number of days after planting that represents how many days have passed since the planting.
図1において、特性推定モデル生成装置100は、データ出力部110と、回帰分析部120と、特性推定モデル生成部130と、特性関連状態情報抽出部140と、解析用データ更新部150と、を備え、解析対象の特性変数と遺伝子発現情報から、解析対象の特性変数推定モデルを生成する装置である。
In FIG. 1, a characteristic estimation
データ出力部110には、図示しないインターフェース等を介して、特性推定モデル作成のためのデータとして、解析対象の特性変数および状態変数が入力され、それらを解析用データとして回帰分析部120へ出力する。
The
回帰分析部120はデータ出力部110から解析用データが入力される。そして、解析用データに対して、正則化項を有する回帰分析を行う。具体的には、解析用データのうち、特性変数を目的変数(従属変数)、状態変数のそれぞれを説明変数として、正則化項を有する回帰モデルを生成する。
The
以下に回帰分析部120にて用いる回帰分析について説明する。
The regression analysis used in the
本実施の形態では、回帰分析部120において、LASSO回帰(Least Absolute Shrinkage and Selection Operator)を用いる。LASSO回帰による回帰モデルの算出式は、以下の数1にて表される。
In the present embodiment, the
入力された解析用データを数1に代入し、Sの値を最少化する係数βを算出することで回帰モデルを生成する。すなわち、Sに関する最少化問題を解く。なお、この最少化問題は、Sに関する凸最適化問題を解くことで、解を一意に求めることができる。
A regression model is generated by substituting the input analytical data into
求められた最適解は、特性変数を目的変数、状態変数を説明変数とした、γの関数により表される回帰モデルである。 The obtained optimal solution is a regression model represented by a function of γ, with characteristic variables as objective variables and state variables as explanatory variables.
特性推定モデル生成部130では、回帰分析部にて生成した回帰モデルにおけるγの最適値を求め、任意の特性変数と、状態変数の関係式である、特性推定モデルを生成する。
The characteristic estimation
以下に特性推定モデル生成部130における特性推定モデルの生成方法について説明する。
Hereinafter, a method for generating a characteristic estimation model in the characteristic estimation
特性推定モデル生成部130においては、回帰分析部120にて生成された回帰モデルにおける最適なγの値を求めるために、交差検証を行う。
The characteristic estimation
本実施の形態においては交差検証の手法としてk-fold cross-validationを用いる。k-fold cross-validationにおいては、検証回数を表すkの値を事前に設定する。そして、全ての解析用データを、k個の標本群に分割し、そのうちの1つをテストデータとし、残るk−1個を訓練データとする。すなわち、解析用データから、k通りのテストデータと訓練データの組み合わせが作成される。 In this embodiment, k-fold cross-validation is used as a cross-validation technique. In k-fold cross-validation, a value of k representing the number of verifications is set in advance. Then, all analysis data is divided into k sample groups, one of which is used as test data, and the remaining k-1 is used as training data. That is, k combinations of test data and training data are created from the analysis data.
そして、1つの訓練データを数1に代入し、γの関数としての回帰モデルを求め、記録する。そのモデルに対してテストデータを当てはめ、γの値を逐次的に代入し、目的変数についての平均二乗誤差を求める。これをk通りのテストデータおよび訓練データの組み合わせについて繰り返す。
Then, one training data is substituted into
このようにすることで、あるγの値において、平均二乗誤差がk通り計算される。これらを加算平均したものを、あるγにおける平均二乗誤差の値とする。更に、あるγにおける標準誤差を算出する。 Thus, k mean square errors are calculated for a certain value of γ. The average of these values is taken as the value of the mean square error at a certain γ. Further, a standard error at a certain γ is calculated.
そして、このように算出した平均二乗誤差の最小値と、その時のγを求める。次に、one standard error ruleに基づき、最適なγの値を選択する。すなわち、そのγにおける標準誤差の範囲内に存在する最大のγをγの最適値として選択する。 Then, the minimum value of the mean square error calculated in this way and γ at that time are obtained. Next, an optimal value of γ is selected based on one standard error rule. That is, the maximum γ existing within the standard error range for γ is selected as the optimum value of γ.
最後に、このようにして求めたγの最適値と解析用データを用いて、数1に従い回帰モデルを求めることで、特性推定モデルを生成し、記録する。
Finally, a characteristic estimation model is generated and recorded by obtaining a regression model according to
なお、本実施の形態においては、k=10とする。また、kの値は事前に設定しておくようにしてもよいし、図示しないインターフェースを介して入力されるようにしてもよい。 In the present embodiment, k = 10. The value of k may be set in advance or may be input via an interface (not shown).
特性関連状態情報抽出部140は、特性推定モデル生成部130にて生成された複数の回帰モデルを用いて、ある特性に関連する状態変数を、抽出し、記録する。
The characteristic-related state
まず、特性推定モデル生成部130において訓練データを数1に代入することで算出した回帰モデルを、交差検証が行われる毎に記録してゆく。すなわち、k個の回帰モデルが記録される。
そして、記録したk個の回帰モデルを比較する。このk個のモデル全てにおいて選択された状態変数、すなわち、β≠0となる説明変数は、ある特性に関する状態変数である可能性が高いものとして抽出する。
このようにして抽出された、状態変数を、特性関連状態情報として、記録してゆく。
First, the regression model calculated by substituting the training data into
Then, the k regression models recorded are compared. The state variables selected in all k models, that is, explanatory variables satisfying β ≠ 0 are extracted as those that are highly likely to be state variables related to a certain characteristic.
The state variables extracted in this way are recorded as characteristic related state information.
解析用データ更新部150は、次回の特性推定モデル生成の際に用いる解析用データである、更新データを生成する。そして、更新データをデータ出力部110へと出力し、解析用データを更新する。
The analysis
更新用データの作成にあたり、特性推定モデル生成部130にて生成された特性推定モデルのうち、係数βが0ではない説明変数に関するデータについて、解析データから除外する。
In creating the update data, data relating to the explanatory variable whose coefficient β is not 0 among the characteristic estimation model generated by the characteristic estimation
つまり、次回の特性推定モデルの生成においては、前回の特性推定モデルの生成に使用した状態変数を使用しない。 That is, in the next generation of the characteristic estimation model, the state variables used for generating the previous characteristic estimation model are not used.
このようにして作成した更新用データを用いて新たに特性推定モデルを生成することで、前回の特性推定モデルの生成には利用されることがなかった状態変数のみを用いて特性推定モデルを生成することができる。 By generating a new property estimation model using the update data created in this way, a property estimation model is generated using only state variables that were not used to generate the previous property estimation model. can do.
また、事前に設定した繰り返し回数まで、解析データの更新と特性推定モデルの生成を繰り返すことにより、任意の特性変数に関連する状態変数を網羅的に用いて、複数の特性推定モデルを生成することとなる。 In addition, by repeatedly updating analysis data and generating characteristic estimation models up to a preset number of iterations, it is possible to generate multiple characteristic estimation models using all state variables related to any characteristic variable. It becomes.
なお、本実施の形態においては、繰り返し回数=5とする。また、繰り返し回数の値は事前に設定しておくようにしてもよいし、図示しないインターフェース等を介して入力されるようにしてもよい。 In the present embodiment, the number of repetitions is set to 5. Further, the value of the number of repetitions may be set in advance or may be input via an interface (not shown) or the like.
図2は本実施の形態における特性推定モデル生成装置100の概略動作を示すフローチャートであり、特性推定モデル生成装置100は以下のように動作する。
FIG. 2 is a flowchart showing a schematic operation of the characteristic estimation
まず、図示しない入力部によって、特性変数、状態変数、検証回数および繰り返し回数が入力され、特性変数と状態変数を解析データとする(S201)。 First, a characteristic variable, a state variable, the number of verifications, and the number of repetitions are input by an input unit (not shown), and the characteristic variable and the state variable are set as analysis data (S201).
次に、解析データをk個の標本群へと分割し、i番目の標本群をテストデータとし、残りの標本群を訓練データとする。なお、iの初期値は1である。また、標本群への分割は、各々の標本群の有する標本数が均等になるようにする(S202)。 Next, the analysis data is divided into k sample groups, the i-th sample group is used as test data, and the remaining sample groups are used as training data. The initial value of i is 1. Further, the division into the sample groups is performed so that the number of samples of each sample group becomes equal (S202).
訓練データを用いて、回帰分析部120にて回帰モデルを求めi、jの値とともに記録する(S203)。
Using the training data, the
次に、特性推定モデル生成部130において、S203にて求めた回帰モデルへテストデータを入力し、各γにおける平均二乗誤差と標準誤差を計算する(S204)。
Next, the characteristic estimation
ここでiの値をチェックし、iの値が検証回数と等しくない場合(S205におけるNOの場合)、iの値に1を加算し、S202へと戻る。iの値が検証回数と等しい場合(S205におけるYESの場合)S206へと移行する。 Here, the value of i is checked. If the value of i is not equal to the number of verifications (NO in S205), 1 is added to the value of i, and the process returns to S202. When the value of i is equal to the number of verifications (YES in S205), the process proceeds to S206.
S205においてiの値が検証回数と等しい場合、特性推定モデル生成部130において、各γの値における平均二乗誤差の値について加算平均を算出し、one standard error ruleに基づいて最適なγの値を決定する(S206)。
When the value of i is equal to the number of verifications in S205, the characteristic estimation
次に、特性推定モデル生成部130において、S206にて求めた最適なγの値および、解析データの全てを用いて、回帰分析部120にて特性推定モデルを求め、記録する(S207)。
Next, in the characteristic estimation
S203にて記録した複数の回帰モデルのうち、現在のjの値と共に記録されている回帰モデル全てについて、比較を行う。比較をした全てのモデルにおいて係数が0ではない説明変数を抽出し、特性関連状態情報として記録する(S208)。
ここで記録された特性関連状態情報は、上記全てのモデルにおいて、特性変数を表す状態変数として選択されているため、特定の特性変数に関連する状態変数である可能性が高い。
Of the plurality of regression models recorded in S203, all regression models recorded together with the current value of j are compared. An explanatory variable whose coefficient is not 0 in all the models compared is extracted and recorded as characteristic related state information (S208).
Since the characteristic-related state information recorded here is selected as a state variable representing the characteristic variable in all the models, there is a high possibility that the characteristic-related state information is a state variable related to a specific characteristic variable.
S208にて特性関連状態情報を記録した後、S207にて記録された特性推定モデルにおいて、係数が0ではない説明変数に関するデータを解析用データから除外した、更新データを解析用データ更新部150にて生成する(S209)。
After recording the characteristic-related state information in S208, the update data obtained by excluding the data related to the explanatory variable whose coefficient is not 0 from the analysis data in the characteristic estimation model recorded in S207 is sent to the analysis
ここでjの値をチェックし、jの値が繰り返し回数と等しくない場合(S210におけるNOの場合)、jの値に1を加算し、解析データをS209にて生成した更新データへと変更し、iの値を初期値(i=1)に設定し、S202へと戻る。jの値が繰り返し回数と等しい場合(S210におけるYESの場合)動作を終了する。 Here, the value of j is checked. If the value of j is not equal to the number of repetitions (in the case of NO in S210), 1 is added to the value of j, and the analysis data is changed to the update data generated in S209. , I is set to an initial value (i = 1), and the process returns to S202. If the value of j is equal to the number of repetitions (YES in S210), the operation is terminated.
上記のように、解析データを更新して、特性推定モデルの生成および特性関連状態情報の抽出を繰り返すことで、任意の特性変数に関連する特性関連状態情報を網羅的に抽出しつつ、特性を推定するモデルを複数生成することができる。 As described above, the analysis data is updated, and the generation of the characteristic estimation model and the extraction of the characteristic related state information are repeated. A plurality of models to be estimated can be generated.
図3はこの発明の実施の形態における特性推定装置の構成を示すブロック図である。本実施の形態に係る特性推定装置の構成について図を参照しながら説明する。 FIG. 3 is a block diagram showing the configuration of the characteristic estimation apparatus according to the embodiment of the present invention. The configuration of the characteristic estimation apparatus according to the present embodiment will be described with reference to the drawings.
図3において、特性推定装置300は、特性推定部310と、状態診断部320と、を備え、入力された状態変数から、特性推定情報および、状態診断結果を出力する装置である。
In FIG. 3, a
特性推定部310には、特性推定モデル生成装置100にて生成された、種々の特性に関する推定モデルが記録されており、解析対象の状態情報が入力される。入力された状態情報を、記録された特性推定モデルへと代入することにより、種々の特性に関する推定情報が出力される。ここで、推定情報とは、特性推定モデルから出力された推定値そのものを表す。
In the
なお、推定情報は、図示されない表示部などに表示されるようにしてもよく、推定情報の出力値をそのまま表示してもよいし、閾値を定め、閾値に比較して多い、少ないなどといった概念的な表現による表示にしてもよい。また、推定情報を全て出力するようにしてもよいし、特性推定装置300の動作開始時に推定を所望する特性について、図示しない入力部によりユーザーが指定するようにしてもよい。
Note that the estimation information may be displayed on a display unit (not shown), the output value of the estimation information may be displayed as it is, or a threshold value is set and the concept is such that it is more or less than the threshold value. It may be displayed in a typical expression. Further, all of the estimation information may be output, or the user may specify the characteristic desired to be estimated at the start of the operation of the
ここで、特性推定装置300における状態情報について説明する。
Here, the state information in the
本実施の形態において、状態情報とはイネの遺伝子発現情報である。イネの遺伝子発現情報とは、具体的には、イネを構成する遺伝子に対応するmRNAの発現量を表す。イネを構成する全ての遺伝子数は32000個を超えると推定されている。従って、本実施例における状態情報とは、この全ての遺伝子に対応するmRNAの発現量を表す。
しかし、状態情報については、上記32000個全ての遺伝子に対応するmRNAの発現量を測定し、入力することは、短時間でイネの生育状況を判断したいという観点から考えると、手間や特性推定の計算コストなどの観点から、現実的ではない。また、すべてのmRNAの発現情報が生育診断に関する情報を有しているわけではない。
そのため、特性推定装置300において用いる状態変数は、特性関連状態情報抽出部140にて抽出された状態変数を用いる。
In the present embodiment, the state information is rice gene expression information. The rice gene expression information specifically represents the expression level of mRNA corresponding to the genes constituting rice. The number of all genes constituting rice is estimated to exceed 32,000. Therefore, the state information in this example represents the expression level of mRNA corresponding to all these genes.
However, for state information, measuring and inputting the expression level of mRNA corresponding to all 32,000 genes described above is a matter of time and characteristic estimation from the viewpoint of determining the growth status of rice in a short time. From the viewpoint of calculation cost, it is not realistic. Further, not all mRNA expression information has information on growth diagnosis.
Therefore, the state variable used in the
特性推定対象となるイネの、遺伝子発現量の測定は、定量RT―PCR法を用いて測定することができる。 The gene expression level of rice as a characteristic estimation target can be measured using a quantitative RT-PCR method.
なお、定量RT―PCR法としては、通常のRT−PCR法のほか、リアルタイムRT―PCR法や、マルチプレックスRT―PCR法など任意の手法を用いることができる。また、RT―PCR法だけではなく、LAMP法などの他の遺伝子増幅手法を用いても良い。 As the quantitative RT-PCR method, an arbitrary method such as a real-time RT-PCR method or a multiplex RT-PCR method can be used in addition to a normal RT-PCR method. In addition to the RT-PCR method, other gene amplification methods such as the LAMP method may be used.
状態診断部320は、特性推定部310にて出力した特性推定情報が入力され、特性推定情報に従って、解析対象の現在の状態を診断し、状態診断結果を出力する。
The
状態診断結果とは、イネの田植えからの日数を表す移植日後日数、サンプリング日から開花までに要する日数を表す開花日または、観測対象の乾燥重量当たりの窒素含量を表す窒素含量などの特性推定情報を用いて、イネの生育状況を表したものである。
生育状況に加えて更に、事前に理想的な生育データを入力しておき、理想的な生育データとのずれを計算し、ずれの程度に従い、いつ、どの程度肥料を与えるべきかなどといった行動指針を、図示しない表示部に示すようにしてもよい。
The condition diagnosis results are characteristic estimation information such as the number of days after transplanting that represents the number of days since rice planting, the flowering date that represents the number of days required from the sampling date to flowering, or the nitrogen content that represents the nitrogen content per dry weight of the observation target. Is used to represent the growth status of rice.
In addition to the growth situation, input ideal growth data in advance, calculate the deviation from the ideal growth data, and follow the behavior guidelines such as when and how much fertilizer should be given according to the degree of deviation May be shown on a display unit (not shown).
図4は本実施の形態における特性推定装置300の概略動作を示すフローチャートであり、特性推定装置300は以下のように動作する。
FIG. 4 is a flowchart showing a schematic operation of the
まず、特性の推定対象となるイネを用意し、当該イネにおける、特性関連状態情報抽出部140にて抽出された遺伝子の発現量を測定する。(S401)。
First, rice to be estimated for characteristics is prepared, and the expression level of the gene extracted by the characteristic-related state
次に、特性推定モデル生成装置100にて生成された、推定を希望する特性に関する特性推定モデルへ上記測定結果を代入する(S402)。 Next, the measurement result is substituted into the characteristic estimation model for the characteristic desired to be estimated, which is generated by the characteristic estimation model generation apparatus 100 (S402).
特性推定モデルにおける特性推定結果を、特性推定情報として出力する(S403)。 The characteristic estimation result in the characteristic estimation model is output as characteristic estimation information (S403).
特性推定モデルにおける特性推定結果を用いて、イネの生育情報を診断し、出力する(S404)。 Rice growth information is diagnosed and output using the characteristic estimation result in the characteristic estimation model (S404).
以上より、本実施の形態によれば、以下のような効果を奏する。 As mentioned above, according to this Embodiment, there exist the following effects.
特性推定モデル生成装置100は、特性推定モデル生成部130において、解析対象の特性変数と特性変数から、特性変数を従属変数、特性変数を説明変数とする特性推定モデルを生成するように構成したので、任意の特性変数を量的に推定するモデルを生成することができるという効果を奏する。
The characteristic estimation
さらに、特性推定モデル生成装置100は、解析用データ更新部150において、特性推定モデル生成に用いた遺伝子情報を解析用データから除外したデータを更新データとして生成する。そして、更新データを用いて事前に設定された繰り返し回数まで特性推定モデルの生成を繰り返し、特性推定モデルの生成毎に、特性に関連する遺伝子を特性関連遺伝子抽出部140にて抽出し記録するように構成されているので、任意の特性変数に関連する遺伝子情報を網羅的に抽出することができるという効果を奏する。
Furthermore, in the characteristic estimation
特性推定装置300は、特性推定部310において、特性推定モデル生成装置100にて生成したモデルを用いて、入力された状態変数から特性変数を量的に推定する。また、状態診断部320は、特性推定部310にて推定した特性変数を用いて、作物の生育情報を診断する。特性推定装置300は上記のように構成されているので、専門的な技術者の手を介することなく、解析対象の生育状況を自動的に推定することができるという効果を奏する。更に、解析対象の生育状況を自動的に推定することによる、生育診断や土壌診断による栽培管理の高度化という効果も奏する。
In the
なお、本実施の形態において解析対象はイネについて説明したが、本発明はこれに限定されるものではなく、正則化項を有する回帰分析によって推定モデルを生成可能な解析対象であればよい。 In the present embodiment, rice has been described as an analysis target. However, the present invention is not limited to this, and any analysis target can be used as long as an estimation model can be generated by regression analysis having a regularization term.
また、特性変数についても、乾燥重量あたりの葉内窒素含量、田植えから何日後に穂が出るかを表す開花日および、田植えから何日経過したかを表す田植え後日数について説明したが、葉内リン含量、穂の大きさやその重量など、更には、正則化項を有する回帰分析によって推定モデルを生成可能な解析対象を構成する特性変数であればよい。 In addition, regarding the characteristic variables, the nitrogen content in the leaf per dry weight, the flowering date indicating how many days after the rice planting, and the number of days after rice planting indicating how many days have passed since the rice planting were explained. It may be a characteristic variable that constitutes an analysis target that can generate an estimation model by regression analysis having a regularization term, such as phosphorus content, ear size and weight.
本実施の形態における特性推定モデル生成装置100および特性推定装置300は、数値演算、数値の入力、その結果の記録、出力等が可能であればよく、具体的には、CPU、メモリ、表示部、入出力インタフェース等を備えるコンピュータや、専用のハードウェアを使用することができる。
The characteristic estimation
なお、本実施の形態においては、回帰分析部120にて用いる回帰分析手法として、LASSO回帰を用いたが、Ridge回帰やErastic-Netなどの正則化項を有する回帰分析手法であってもよい。また、特性推定モデル生成部130および、特性関連遺伝子抽出部140において用いる交差検証方法について、本実施の形態においては、K-fold cross-validationを用いたが、leave-one-out cross-validationなど、他の交差検証方法を用いてもよい。
In this embodiment, LASSO regression is used as a regression analysis method used in the
また、本実施の形態において、LASSO回帰によるモデル作成、最適なγの決定については統計解析ソフト「R」を用いて行った。 In the present embodiment, model creation by LASSO regression and determination of optimal γ were performed using statistical analysis software “R”.
図5は、解析対象をイネとして、解析用データを実際の圃場から採取した224サンプルとした場合の、本実施の形態における特性推定モデル生成装置100にて生成されたモデルの再現度を示したものである。なお、検証回数は10、繰り返し回数は1としている。
図5上段図は、解析対象であるイネについて、横軸を移植日後日数、縦軸を乾燥重量あたりの窒素含量として、解析用データ224サンプルについてプロットしたものである。マーカーの種類は、イネが採取された場所に対応している。
次に、前記解析用データにおける遺伝子発現情報を状態変数、移植日後日数、乾燥重量あたりの窒素含量を特性変数として、本実施の形態における特性推定モデル生成装置100にて特性推定モデル作成する。
図5の下段図は、このようにして作成した移植日後日数と、乾燥重量あたりの窒素含量についての特性推定モデルへ上記解析用データを代入した結果をプロットしたものである。
FIG. 5 shows the reproducibility of the model generated by the characteristic estimation
The upper part of FIG. 5 is a plot of 224 samples for analysis, with the horizontal axis representing the number of days after transplantation and the vertical axis representing the nitrogen content per dry weight, for the rice to be analyzed. The type of marker corresponds to the place where the rice was collected.
Next, a characteristic estimation model is created by the characteristic estimation
The lower diagram of FIG. 5 is a plot of the result of substituting the data for analysis into the characteristic estimation model for the number of days after transplantation and the nitrogen content per dry weight.
図6は、解析対象をイネとして、移植日後日数、開花日日数、窒素含量について、それぞれ実際の圃場から採取した497サンプル、428サンプル、224を解析用データとして、本実施の形態における特性推定モデル生成装置100にて特性推定モデルを生成した場合に、各サンプルとの平均二乗誤差によりモデルの精度を評価したものである。なお、検証回数は10、繰り返し回数は5としている。図6における1stModel、2ndModel…は繰り返し回数毎に生成されたモデルについての評価を示している。
FIG. 6 shows a characteristic estimation model according to the present embodiment, using rice as an analysis target, the days after transplanting, the days of flowering, and the nitrogen content, using 497 samples, 428 samples, and 224 collected from an actual field as analysis data. When the characteristic estimation model is generated by the
図7は、繰り返し回数を10とし、その他の条件は図6と同様の条件にした場合の、繰り返し回数毎に特性関連状態情報抽出部140に記録された特性変数、すなわち遺伝子の数を示したものである。
窒素含量を例にとると、イネを構成するとされる32000個の遺伝子から、窒素含量に関わる可能性が高い遺伝子を582個にまで絞り込めていることがわかる。
FIG. 7 shows the number of characteristic variables, that is, the number of genes recorded in the characteristic-related state
Taking the nitrogen content as an example, it can be seen that the genes that have a high possibility of being related to the nitrogen content are narrowed down to 582 from the 32,000 genes that constitute rice.
図8は移植日後日数、図9は開花日、図10は乾燥重量あたりの窒素含量について解析対象をイネとした場合の、安定性分布を表したものである。
安定性分布の縦軸は、特性関連状態情報抽出部140において説明変数を抽出する過程において、モデルの生成を検証回数繰り返した際に、全てのモデルを比較し、説明変数の選択された回数とその個数である。
安定性分布の横軸は、繰り返し回数である。
繰り返し回数が増加するにつれて、検証回数分全てのモデルにおいて選択される説明変数が減少してゆくことがわかる。
図8、9、10において、検証回数は全て10回である。繰り返し回数はそれぞれ15回、25回、15回である。また、解析データについては、それぞれ実際の圃場から採取したイネ939サンプル、819サンプル、302サンプルである。
FIG. 8 shows the number of days after transplanting, FIG. 9 shows the flowering date, and FIG. 10 shows the stability distribution when the analysis target is the nitrogen content per dry weight.
The vertical axis of the stability distribution shows the number of times the explanatory variable is selected by comparing all the models when the generation of the model is repeated the number of verifications in the process of extracting the explanatory variable in the characteristic related state
The horizontal axis of the stability distribution is the number of repetitions.
It can be seen that as the number of iterations increases, the explanatory variables selected in all models decrease by the number of verifications.
In FIGS. 8, 9, and 10, the number of verifications is 10 times. The number of repetitions is 15, 25 and 15 respectively. The analysis data are rice 939 samples, 819 samples, and 302 samples collected from actual fields, respectively.
以上、実施の形態を参照して本発明を説明したが、本発明は上述した実施の形態に限定されるものではない。本発明の構成及び動作については、本発明の趣旨を逸脱しない範囲において、当業者が理解しうる様々な変更を行うことができる。 Although the present invention has been described with reference to the embodiment, the present invention is not limited to the above-described embodiment. Various changes that can be understood by those skilled in the art can be made to the configuration and operation of the present invention without departing from the spirit of the present invention.
100…特性推定モデル生成装置
110…データ出力部
120…回帰分析部
130…特性推定モデル生成部
140…特性関連情報抽出部
150…解析用データ更新部
300…特性推定装置
310…特性推定部
320…状態診断部
DESCRIPTION OF
Claims (28)
前記解析対象の状態変数と、前記解析対象の特性変数が入力され、解析用データとして出力する、データ出力部と、
前記解析用データのうち、前記特性変数を目的変数とし、前記状態変数を説明変数として、正則化項を有する回帰分析を行うことで、前記目的変数と前記説明変数との関係を表す回帰モデルを生成する、回帰分析部と、
前記回帰モデルと前記解析用データを用いて、事前に設定された検証回数まで交差検証を行い、前記回帰モデルのうち最適な正則化項を有するモデルを、特性推定モデルとして生成する特性推定モデル生成部と、
前記特性推定モデルにおいて選択された説明変数に対応するデータを、前記解析用データから除外したデータを、更新データとして生成し、次回の特性推定モデル生成時の解析用データとして前記データ出力部へと出力する、解析用データ更新部と、
を備え、
事前に設定された繰り返し回数まで、前記解析用データの更新と、前記更新データを用いた特性推定モデルの生成と、を繰り返すことを特徴とする特性推定モデル生成装置。 A characteristic estimation model generation device that generates a model that estimates the characteristic variable from the state variable that represents the state of the analysis target and the characteristic variable that represents the characteristic of the analysis target.
A data output unit that receives the state variable to be analyzed and the characteristic variable to be analyzed and outputs as analysis data;
Of the analysis data, the regression variable representing the relationship between the objective variable and the explanatory variable is obtained by performing a regression analysis having a regularization term using the characteristic variable as an objective variable and the state variable as an explanatory variable. A regression analysis unit to generate,
Using the regression model and the analysis data, cross-validation is performed up to a preset number of verifications, and a model having an optimal regularization term among the regression models is generated as a characteristic estimation model generation. And
Data corresponding to the explanatory variable selected in the characteristic estimation model, data excluded from the analysis data, is generated as update data, and is sent to the data output unit as analysis data at the next generation of the characteristic estimation model. An analysis data update unit to output,
With
A characteristic estimation model generation apparatus that repeats updating of the analysis data and generation of a characteristic estimation model using the update data up to a preset number of repetitions.
請求項1から8の何れかに記載の特性推定モデル生成装置によって生成した前記特性推定モデルに、前記解析対象の状態変数が入力されることで、前記解析対象の特性の推定結果である、特性推定情報が出力される、特性推定部を有することを特徴とする、特性推定装置。 A characteristic estimation device for estimating the characteristic of the analysis target,
A characteristic that is an estimation result of the characteristic of the analysis target when the state variable of the analysis target is input to the characteristic estimation model generated by the characteristic estimation model generation device according to claim 1. A characteristic estimation apparatus, comprising: a characteristic estimation unit that outputs estimation information.
請求項4から8の何れかに記載の特性推定モデル生成装置によって生成した前記特性推定モデルに、前記生物の遺伝子発現情報が入力されることで、前記解析対象の特性の推定結果である、特性推定情報が出力される、特性推定部を有し、
前記生物の前記遺伝子発現情報は、前記特性関連状態情報抽出部にて抽出された、前記特性関連状態情報に対応する遺伝子より転写されるmRNA量から測定されることを特徴とする特性推定装置。 A characteristic estimation device for estimating the characteristic of the analysis target,
A characteristic that is an estimation result of the characteristic of the analysis target by inputting gene expression information of the organism into the characteristic estimation model generated by the characteristic estimation model generation device according to claim 4. A characteristic estimation unit that outputs estimation information;
The gene expression information of the organism is measured from the amount of mRNA transcribed from a gene corresponding to the property-related state information extracted by the property-related state information extraction unit.
前記コンピュータが、前記解析対象の状態変数と、前記解析対象の特性変数を備える解析用データのうち、前記特性変数を目的変数とし、前記状態変数を説明変数とした、正則化項を有する回帰分析を行うことで、前記目的変数と前記説明変数との関係を表す回帰モデルを生成する、回帰分析ステップと、
前記コンピュータが、前記回帰モデルと前記解析用データを用いて、事前に設定された検証回数まで交差検証を行い、前記回帰モデルのうち最適な正則化項を有するモデルを、特性推定モデルとして生成する特性推定モデル生成ステップと、
前記コンピュータが、前記特性推定モデルにおいて選択された説明変数に対応するデータを、前記解析用データから除外したデータを、更新データとして生成し、次回の特性推定モデル生成時の解析用データとして更新する、解析用データ更新ステップと、
を備え、
前記コンピュータが、事前に設定された繰り返し回数まで、前記解析用データの更新と、前記更新データを用いた特性推定モデルの生成と、を繰り返すことを特徴とする特性推定モデル生成方法。 A computer is a characteristic estimation model generation method for generating a model for estimating the characteristic variable from the state variable representing the state to be analyzed and the characteristic variable representing the characteristic of the analysis target by the state variable,
The computer includes a state variable of the analyzed, among the analysis data with the analyzed characteristic variables, the characteristic variable and objective variable and an explanatory variable of the state variable, a regression analysis with regularization term Performing a regression analysis step for generating a regression model representing a relationship between the objective variable and the explanatory variable,
The computer performs cross-validation up to a preset number of verifications using the regression model and the analysis data, and generates a model having an optimal regularization term among the regression models as a characteristic estimation model A characteristic estimation model generation step;
The computer generates, as update data, data obtained by excluding data corresponding to the explanatory variable selected in the characteristic estimation model from the analysis data, and updates the data as analysis data at the next generation of the characteristic estimation model. Analysis data update step,
With
A method for generating a characteristic estimation model, wherein the computer repeats updating of the analysis data and generation of a characteristic estimation model using the update data up to a preset number of repetitions.
請求項15から22の何れかに記載の特性推定モデル生成方法によって生成した前記特性推定モデルに、前記コンピュータが前記解析対象の状態変数を入力することで、前記コンピュータが前記解析対象の特性の推定結果である特性推定情報を出力する、特性推定ステップを有することを特徴とする、特性推定方法。 A property estimation method for estimating the property of the analysis target,
The estimation model generated by the estimation model generation method according to any of claims 15 22, by the computer inputs the analyzed state variables, the estimated the computer is characteristic of the analyzed and outputs the result der Ru characteristic estimation information, and having a characteristic estimating step, characteristic estimating method.
請求項18から22の何れかに記載の特性推定モデル生成方法によって生成した前記特性推定モデルに、前記コンピュータが、前記生物の遺伝子発現情報を入力することで、前記コンピュータが、前記解析対象の特性の推定結果である特性推定情報を出力する、特性推定ステップを有し、
前記生物の前記遺伝子発現情報は、前記特性関連状態情報抽出ステップにて抽出された、前記特性関連状態情報に対応する遺伝子より転写されるmRNA量から測定される情報であることを特徴とする特性推定方法。 A property estimation method for estimating the property of the analysis target,
The estimation model generated by the estimation model generation method according to any of claims 18 22, wherein the computer, by inputting the gene expression information of the organism, the computer, the characteristics of the analyzed estimation results you outputs der Ru characteristic estimation information, has a characteristic estimating step,
The gene expression information of the organism is information measured from the amount of mRNA transcribed from a gene corresponding to the property-related state information extracted in the property-related state information extraction step. Estimation method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015176416A JP6570929B2 (en) | 2015-09-08 | 2015-09-08 | Characteristic estimation model generation apparatus and method, analysis target characteristic estimation apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015176416A JP6570929B2 (en) | 2015-09-08 | 2015-09-08 | Characteristic estimation model generation apparatus and method, analysis target characteristic estimation apparatus and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017051118A JP2017051118A (en) | 2017-03-16 |
JP6570929B2 true JP6570929B2 (en) | 2019-09-04 |
Family
ID=58316110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015176416A Expired - Fee Related JP6570929B2 (en) | 2015-09-08 | 2015-09-08 | Characteristic estimation model generation apparatus and method, analysis target characteristic estimation apparatus and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6570929B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102264035B1 (en) * | 2018-11-12 | 2021-06-14 | 한국과학기술연구원 | Apparatus for managing growth of plants based on mass of fruits, and method thereof |
JP2020149196A (en) * | 2019-03-12 | 2020-09-17 | 国立研究開発法人情報通信研究機構 | Personality prediction device and training data collection device |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3528513B2 (en) * | 1997-04-21 | 2004-05-17 | 株式会社サタケ | Method for measuring specific components of rice |
JP2003085548A (en) * | 2001-09-07 | 2003-03-20 | Canon Inc | Data processing device, method of processing image of data processing device, image processing system, memory medium, and program |
EP3599609A1 (en) * | 2005-11-26 | 2020-01-29 | Natera, Inc. | System and method for cleaning noisy genetic data and using data to make predictions |
JP5021293B2 (en) * | 2006-12-29 | 2012-09-05 | 株式会社パスコ | Crop growth status analysis method, crop growth status analysis device, and crop growth status analysis program |
GB201009945D0 (en) * | 2010-06-14 | 2010-07-21 | Univ Aberystwyth | Method for producing a stress tolerant plant or precursor thereof |
JP2012152151A (en) * | 2011-01-27 | 2012-08-16 | Osaka Prefecture Univ | Plant factory for molecular diagnosis and molecular diagnostic method |
JP5938768B2 (en) * | 2012-03-08 | 2016-06-22 | 浜松ホトニクス株式会社 | Method for diagnosing plant growth state and apparatus used therefor |
EP2922970B1 (en) * | 2012-11-20 | 2018-08-08 | Phadia AB | Prognostic method for individuals with prostate cancer |
JP6484449B2 (en) * | 2015-01-28 | 2019-03-13 | 一般財団法人電力中央研究所 | Prediction device, prediction method, and prediction program |
-
2015
- 2015-09-08 JP JP2015176416A patent/JP6570929B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2017051118A (en) | 2017-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Falk et al. | Computer vision and machine learning enabled soybean root phenotyping pipeline | |
US20200128769A1 (en) | Method and system for selecting a plant variety | |
Jiang et al. | Three-dimensional time-lapse analysis reveals multiscale relationships in maize root systems with contrasting architectures | |
Cournede et al. | Some parameter estimation issues in functional-structural plant modelling | |
JP6885394B2 (en) | Information processing system, information processing device, simulation method and simulation program | |
CN115600771A (en) | Crop yield estimation method, device, equipment and storage medium | |
Viaud et al. | Leaf segmentation and tracking in Arabidopsis thaliana combined to an organ-scale plant model for genotypic differentiation | |
JP6570929B2 (en) | Characteristic estimation model generation apparatus and method, analysis target characteristic estimation apparatus and method | |
CN117077868A (en) | Model-based grain yield prediction system and method | |
Thorp et al. | Comparison of evapotranspiration methods in the DSSAT Cropping System Model: II. Algorithm performance | |
Thorp et al. | Comparison of evapotranspiration methods in the DSSAT Cropping System Model: I. Global sensitivity analysis | |
CN110807561A (en) | Bayesian network-based corn pest and disease early warning analysis method | |
Sarzaeim et al. | CLIM4OMICS: a geospatially comprehensive climate and multi-OMICS database for Maize phenotype predictability in the US and Canada | |
CA2761682C (en) | Real-time process for targeting trait phenotyping of plant breeding experiments | |
CN111223002B (en) | Corn area dry matter yield or silage yield evaluation method and system | |
Kang et al. | SUNLAB: a functional–structural model for genotypic and phenotypic characterization of the sunflower crop | |
AU2011235120B2 (en) | Environmental monitoring | |
JPWO2019003441A1 (en) | Prediction device, prediction method, prediction program, and gene estimation device | |
Sexton et al. | Global sensitivity analysis of key parameters in a process-based sugarcane growth model: a Bayesian approach | |
CN109781940A (en) | Field crop lodging tolerance identification method and device | |
Abed et al. | Preparation and curation of multiyear, multilocation, multitrait datasets | |
Depigny et al. | In vivo assessment of the active foliar area of banana plants (Musa spp.) using the OTO model | |
JP6744524B2 (en) | Paddy rice growth evaluation method and device | |
Wang et al. | Forecasting Crop Yield Variability in Response to Weather Information Using Quantile Random Forest Regression---An Application in Non-Irrigated Upland Cotton | |
CN117235322B (en) | Crop salt-tolerant high-product seed screening method and device, electronic equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20160428 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180524 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180524 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20180524 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180524 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190311 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190716 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190807 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6570929 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |