JP6312253B2 - 形質予測モデル作成方法および形質予測方法 - Google Patents
形質予測モデル作成方法および形質予測方法 Download PDFInfo
- Publication number
- JP6312253B2 JP6312253B2 JP2014238252A JP2014238252A JP6312253B2 JP 6312253 B2 JP6312253 B2 JP 6312253B2 JP 2014238252 A JP2014238252 A JP 2014238252A JP 2014238252 A JP2014238252 A JP 2014238252A JP 6312253 B2 JP6312253 B2 JP 6312253B2
- Authority
- JP
- Japan
- Prior art keywords
- trait
- single nucleotide
- nucleotide polymorphism
- computer
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 94
- 239000002773 nucleotide Substances 0.000 claims description 97
- 125000003729 nucleotide group Chemical group 0.000 claims description 97
- 230000002068 genetic effect Effects 0.000 claims description 55
- 239000011159 matrix material Substances 0.000 claims description 50
- 102000054765 polymorphisms of proteins Human genes 0.000 claims description 32
- 108700028369 Alleles Proteins 0.000 claims description 16
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 claims description 10
- 238000004820 blood count Methods 0.000 claims description 9
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 claims description 8
- 206010012601 diabetes mellitus Diseases 0.000 claims description 8
- 210000004369 blood Anatomy 0.000 claims description 5
- 239000008280 blood Substances 0.000 claims description 5
- 210000003743 erythrocyte Anatomy 0.000 claims description 5
- 101000856500 Bacillus subtilis subsp. natto Glutathione hydrolase proenzyme Proteins 0.000 claims description 4
- 206010020772 Hypertension Diseases 0.000 claims description 4
- 108010028554 LDL Cholesterol Proteins 0.000 claims description 4
- 238000008214 LDL Cholesterol Methods 0.000 claims description 4
- LEHOTFFKMJEONL-UHFFFAOYSA-N Uric Acid Chemical compound N1C(=O)NC(=O)C2=C1NC(=O)N2 LEHOTFFKMJEONL-UHFFFAOYSA-N 0.000 claims description 4
- TVWHNULVHGKJHS-UHFFFAOYSA-N Uric acid Natural products N1C(=O)NC(=O)C2NC(=O)NC21 TVWHNULVHGKJHS-UHFFFAOYSA-N 0.000 claims description 4
- PNNCWTXUWKENPE-UHFFFAOYSA-N [N].NC(N)=O Chemical compound [N].NC(N)=O PNNCWTXUWKENPE-UHFFFAOYSA-N 0.000 claims description 4
- 210000003651 basophil Anatomy 0.000 claims description 4
- 210000000601 blood cell Anatomy 0.000 claims description 4
- 235000012000 cholesterol Nutrition 0.000 claims description 4
- 229940109239 creatinine Drugs 0.000 claims description 4
- 210000000265 leukocyte Anatomy 0.000 claims description 4
- 210000004698 lymphocyte Anatomy 0.000 claims description 4
- 210000001616 monocyte Anatomy 0.000 claims description 4
- 230000007935 neutral effect Effects 0.000 claims description 4
- 210000000440 neutrophil Anatomy 0.000 claims description 4
- 229940116269 uric acid Drugs 0.000 claims description 4
- 108010007622 LDL Lipoproteins Proteins 0.000 claims description 3
- 230000035487 diastolic blood pressure Effects 0.000 claims description 3
- 210000003979 eosinophil Anatomy 0.000 claims description 3
- 239000000049 pigment Substances 0.000 claims description 3
- 230000035488 systolic blood pressure Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 208000006575 hypertriglyceridemia Diseases 0.000 claims 1
- 238000011156 evaluation Methods 0.000 description 20
- 230000000694 effects Effects 0.000 description 11
- 238000002790 cross-validation Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 230000036772 blood pressure Effects 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ZDTNHRWWURISAA-UHFFFAOYSA-N 4',5'-dibromo-3',6'-dihydroxyspiro[2-benzofuran-3,9'-xanthene]-1-one Chemical compound O1C(=O)C2=CC=CC=C2C21C1=CC=C(O)C(Br)=C1OC1=C(Br)C(O)=CC=C21 ZDTNHRWWURISAA-UHFFFAOYSA-N 0.000 description 1
- 208000023275 Autoimmune disease Diseases 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- 230000007815 allergy Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000009534 blood test Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 208000029078 coronary artery disease Diseases 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000024924 glomerular filtration Effects 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 208000026278 immune system disease Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/20—Probabilistic models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Description
(i) 前記生物個体の複数の一塩基多型データを入力するための入力装置、
(ii) 入力されたデータを用いて、上記プログラムを実行するコンピュータ、および
(iii) (ii) により得られた結果を出力するための出力装置
を備えた形質予測システムである。
N名のヒト個人について、性年齢データが得られているとし、N×6行列 X として表記する手法を述べる。Xの行ベクトルは各個人の性別と年齢の情報を意味する。行列Xのi行j列要素をX(i,j)と表記することとする。年齢はカテゴリデータとして扱うが、そのカテゴリの段階数は特に限定されない。ここでは、一例として、39歳以下,40歳以上49歳以下,50歳以上59歳以下,60歳以上69歳以下,70歳以上の5段階とする方法を述べる。
年齢の情報は、行列Xの2〜6列目に表現される。i番目のヒト個人の年齢をageiとすると、X(i,2),X(i,3),X(i,4),X(i,5),X(i,6) は以下の式で定義される。
N名のヒト個人について、p個の一塩基多型(SNP)データが得られているとし、N×p行列(N,pは1以上の整数)Wとして表記する手法を述べる。Wの行ベクトルは各個人の多型プロファイルを意味し、Wの列ベクトルはある多型部位の個人間の違いをあらわすベクトルを意味する。
i番目のヒト個人のj番目の多型は、2つのアリルから構成される。両方のアリルがヒト代表配列と一致する場合には”AA”,片方のアリルのみがヒト代表配列と一致する場合には”AB”,両方のアリルがヒト代表配列と一致しない場合には”BB”と表記することとする。また、行列Wのi行j列要素をW(i,j)と表記することとする。また、j番目の多型のアリル頻度をfjと表記することとする。これらの表記に基づいて、W(i,j)は以下の式で定義される。
ここで、代表配列は、各多型について任意の塩基を決め、それらを有する配列とするが、例えば、ゲノムプロジェクトの成果として公表されている配列としてもよい。
以下に、p個のSNPを、遺伝構造に基づいて複数のカテゴリーに分類する手法を述べる。遺伝構造をあらわす具体的なパラメータには、形質との関連性の強さをあらわすパラメータであるeffect sizeと、SNPのヒト集団中での頻度をあらわすallele frequencyがある。effect size の代表的な具体例として、relative risk、odds ratio、分散寄与率、regression coefficientが挙げられる。allele frequencyには、risk allele frequency (RAF)やminor allele frequency (MAF)が例示できる。本発明の方法で用いる遺伝構造パラメータは特に限定されないが、ここでは、一例としてregression coefficientとRAFを用いた場合の分類手順を示す。
effect sizeやRAF等の遺伝構造パラメータは、多型と形質の関連解析によって推定することができる。多型と形質の関連解析は、一般に入手できるプログラムを用いればよく、例えば、インターネット上で入手可能なPLINKやGCTAを用いてもよい。
ゲノム類似度行列とは、ゲノム情報に基づく個人間の類似度をあらわすN×N行列である。ゲノム類似度行列は、Qes×QRAFのカテゴリーごとに計算されるものとする。以下、代表的なゲノム類似度行列Aの計算式を示すが、ゲノム類似度行列の計算式は、これに限定されない。
ここで、A(i.j)はカテゴリー (i,j) のゲノム類似度行列(N×N次元),p(i.j)はカテゴリー (i,j) に属するSNPの個数,W(i.j)は行列Wからカテゴリー (i,j) に属するSNPの列ベクトルのみを切り出した部分行列(N×p(i.j)次元)、W(i.j) ’は行列W(i.j)の転地行列を意味している。
式(1)を「遺伝構造分割+性年齢調整法」,式(2)を「性年齢調整法」,式(3)を「遺伝構造分割法」,式(4)を「遺伝構造非分割+性年齢調整法」,式(5)を「遺伝構造非分割法」と呼ぶ。
(14)形質予測システム
上記形質予測方法を自動化するために、コンピュータに実行させることができるようにプログラム化できる。こうして作成されたプログラムも、本発明の権利範囲内である。
さらに、このプログラムを実行するためのコンピュータとともに、一塩基多型や性・年齢情報などを入力するための入力装置、及びプログラムの実行により得られた結果を出力するための出力装置を備えた形質予測システムとすることも可能である。
本実施例では、多因子的な量的形質の一例として身長に着目し、東北メディカル・メガバンク計画によって平成25年度に収集された4992名の一塩基多型データ及び性・年齢情報を用い、本発明の形質予測モデル作成方法によって形質予測モデルを作成し(前出(9−2)性年齢情報を用いた場合)、遺伝率を推定した。対照として、性・年齢情報を用いない場合についても、遺伝率の推定値を計算し、用いた場合と比較した。
次に、形質予測モデルの予測精度を、(1)性・年齢情報のみを用いた場合(2)一塩基多型情報のみ用いた場合(3)両方を行った場合(本発明の実施例)、のそれぞれについて2−fold cross validation法によって評価した。評価指標として、実測値と予測値のR2(相関係数の自乗)を用いた。
性・年齢情報を用いない場合の遺伝率は40.67%、用いた場合の遺伝率は、82.29%となり、性・年齢情報を用いない場合に比べて、性・年齢情報を用いた場合には大きく遺伝率が高くなっており、身長の分散の一部は性年齢によって説明されることが分かった。
(1)〜(3)の3通りについて、2−fold cross validation法によって予測精度(R2)を評価した(平均±標準偏差)ところ、(1)56.89±1.36%(2)1.45±0.26%(3)59.63±1.24%となり、性年齢情報のみを用いた場合,ゲノム情報のみを用いた場合に比べて、性年齢情報及びゲノム情報の両方を用いた場合、予測精度は向上した。
本実施例では、多因子的な質的形質の一例として糖尿病の罹患に着目し、東北メディカル・メガバンク計画によって平成25年度に収集された4992名の一塩基多型データ及び性・年齢情報を用い、本発明の形質予測モデル作成方法によって形質予測モデルを作成した(前出(9−2)性年齢情報を用いた場合)。ここで、HbA1c検査値から、6.5以上の場合には糖尿病の罹患があり、それ未満の場合には糖尿病の罹患がないとした。形質予測モデルの予測精度を、(1)性・年齢情報のみを用いた場合(2)一塩基多型情報のみ用いた場合(3)両方を行った場合(本発明の実施例)、のそれぞれについて2−fold cross validation法によって評価した。評価指標として、AUCを用いた。
(1)61.39±1.56%(2)55.76±0.28%(3)62.98±0.61%となり、性年齢情報のみを用いた場合,ゲノム情報のみを用いた場合に比べて、性年齢情報及びゲノム情報の両方を用いた場合、予測精度は向上した。
本実施例では、多因子的な量的形質の一例としてHbA1c検査値と身長に着目し、東北メディカル・メガバンク計画によって平成25年度に収集された4992名の一塩基多型データを用い、遺伝構造分割法による寄与率の推定を行った。(1)Qes=50, QRAF=1の場合,(2)Qes=1, QRAF=30 の場合,の2通りを実施した。
(1)Qes=50, QRAF=1 の場合の寄与率の推定結果を図1に示す。HbA1c検査値と身長のどちらにおいても、中程度のeffect sizeを示す一塩基多型の寄与率が大きく、小さなeffect sizeを示す一塩基多型の寄与率は極めて小さいことが推定された。また、HbA1c検査値においては大きなeffect sizeを示す一塩基多型の寄与が大きいが、身長においては大きなeffect sizeを示す一塩基多型の寄与は限定的であることが推定された。
(2)Qes=1, QRAF=30 の場合の寄与率の推定結果を図2に示す。HbA1c検査値においては、稀でない一塩基多型の寄与率は限定的であり、稀な一塩基多型が非常に大きな寄与率を示すことが推定された。一方、身長においては、稀な一塩基多型の寄与率は小さくないものの、稀でない一塩基多型の寄与率も小さくないことが推定された。
充分なサンプルサイズで学習を行った場合、遺伝構造分割法により形質予測精度の向上が果たせることを示すため、東北メディカル・メガバンク計画によって平成25年度に収集された4992名の一塩基多型データ及びHbA1c検査値を用い、effect size,allele frequencyの推定及び線形混合モデルのパラメータ推定を検証用データセットで行い、遺伝要因の寄与の予測及び一塩基多型への重みの計算を学習用データセットで行い、予測精度の検証を検証用データセットで行った。これにより、サンプルサイズが充分に大きい場合を想定した場合の予測精度を評価できる。
形質予測モデルの予測精度を、(1)Qes=1, QRAF=1 の場合(遺伝構造分割なし)(2)Qes=10, QRAF=1 の場合(遺伝構造分割あり;本発明の実施例)、のそれぞれについて2−fold cross validation法によって評価した。評価指標として、実測値と予測値のR2(相関係数の自乗)を用いた。
(1)4.52±0.16%(2)16.52±0.30%となり、充分なサンプルサイズを想定した場合、遺伝構造分割なしと比べて、遺伝構造分割ありでは顕著に予測精度が向上することが示せた。
本実施例では、図3に示す27の量的形質及び5の質的形質を対象として、東北メディカル・メガバンク計画によって平成25年度に収集された4992名の一塩基多型データを用い、本発明の形質予測モデル作成方法によって形質予測モデルを作成した(前出(9−3)遺伝構造および性年齢情報を用いた場合)。形質予測モデルの予測精度を、(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし;本発明の実施例)のそれぞれについて2−fold cross validation法によって評価した。評価指標として、量的データを対象とした場合には実測値と予測値のR2(相関係数の自乗)を、質的データを対象とした場合にはAUCを用いた。
27の量的形質に対して精度評価を行った結果を図4に、5の質的形質に対して精度評価を行った結果を図5に示す。図4,図5に示した27の量的形質及び5の質的形質の全てについて、(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,と比べて、(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし;本発明の実施例)の予測精度が上回っていることが示された。
充分なサンプルサイズで学習を行った場合、性・年齢情報あるいは一塩基多型情報と性・年齢情報の両方を用いることにより形質予測精度の向上が果たせることを示すため、図3に示す27の量的形質及び5の質的形質を対象として、東北メディカル・メガバンク計画によって平成25年度に収集された4992名の一塩基多型データを用い、本発明の形質予測モデル作成方法によって形質予測モデルを作成した(前出(9−3)遺伝構造および性年齢情報を用いた場合)。形質予測モデルの予測精度を、(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし;本発明の実施例),(4)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=10, QRAF=1 の場合(遺伝構造分割あり;本発明の実施例)、のそれぞれについて2−fold cross validation法によって評価した。評価指標として、量的データを対象とした場合には実測値と予測値のR2(相関係数の自乗)を、質的データを対象とした場合にはAUCを用いた。effect size,allele frequencyの推定及び線形混合モデルのパラメータ推定を検証用データセットで行い、遺伝要因の寄与の予測及び一塩基多型への重みの計算を学習用データセットで行い、予測精度の検証を検証用データセットで行った。
27の量的形質に対して精度評価を行った結果を図6に、5の質的形質に対して精度評価を行った結果を図7に示す。図6,図7に示した27の量的形質及び5の質的形質の全てについて、(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,と比べて、(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし;本発明の実施例)の予測精度が上回っていることが示された。(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし;本発明の実施例)と(4)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=10, QRAF=1 の場合(遺伝構造分割あり;本発明の実施例)を比べた場合、全ての形質において(4)の予測精度が上回っていた。
このように、本発明の形質予測モデル作成方法によって作成した形質予測モデルを用いれば、従来の予測方法より高い確率で形質を予測できる。加えて、遺伝構造分割法による寄与率の推定を行うことにより、形質の遺伝構造を解明できる。
Claims (12)
- 生物のN個の個体においてp個の一塩基多型と形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する予測モデルを作成する形質予測モデル作成方法であって、
コンピュータが、入力装置によって入力された前記一塩基多型データを用いて行う以下の工程を含む、コンピュータによる形質予測モデル作成方法:
前記p個の一塩基多型を、以下のように行列表記する工程と、
- 生物のN個の個体においてp個の一塩基多型、性、年齢、および形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する予測モデルを作成する形質予測モデル作成方法であって、
コンピュータが、入力装置によって入力された前記一塩基多型データを用いて行う以下の工程を含む、コンピュータによる形質予測モデル作成方法:
前記p個の一塩基多型を、以下のように行列表記する工程と、
(ここで、i番目の個体のj番目の多型について、2つ両方のアリルが代表配列と一致する場合には”AA”,片方のアリルのみが代表配列と一致する場合には”AB”,両方のアリルが代表配列と一致しない場合には”BB”と表記され、行列Wのi行j列要素はW (i,j)と表記され、j番目の多型のアリル頻度はf j と表記され、各多型について任意の塩基を決め、それらを有する配列を代表配列とされる。)
前記性および/または年齢を、N×MまたはNx(M+1)次元のX(i,j)(iは0(女性)または1(男性)、jは年齢のカテゴリデータでカテゴリーの個数はM個である。)と行列表記する工程と、
前記行列表記及び前記カテゴリーに属する前記一塩基多型の個数を用いて、以下の式によりゲノム類似度行列を計算する工程と、
前記ゲノム類似度行列と前記性および/または年齢の行列を以下の線形混合モデルに適用する工程
- 生物のN個の個体においてp個の一塩基多型、性、年齢、および形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する予測モデルを作成する形質予測モデル作成方法であって、
コンピュータが、入力装置によって入力された一塩基多型データを用いて行う以下の工程を含む、コンピュータによる形質予測モデル作成方法:
前記p個の一塩基多型を、以下のように行列表記する工程と、
前記カテゴリーの各々に対し、前記行列表記及び前記カテゴリーに属する前記一塩基多型の個数を用いて、以下の式によりゲノム類似度行列を計算する工程と、
前記ゲノム類似度行列と前記遺伝構造のパラメータを以下の線形混合モデルに適用する工程
- 前記形質が身長、体重、最高血圧、最低血圧、HbA1c、赤血球数、血色色素、血球容積、白血球数、血小板数、好中球の割合、リンパ球の割合、単球の割合、好酸球の割合、好塩基球の割合、大型非染色球の割合、AST(GOT)、ALT(GPT)、γ−GTP、総コレステロール、中性脂肪、HDLコレステロール、LDLコレステロール、クレアチニン、尿素窒素、尿酸、糖尿病、高血圧症、高LDLコレステロール血症、低HDLコレステロール血症、高トリグリセライド血症からなる群より選択される、請求項1〜3のいずれか1項に記載のコンピュータによる形質予測モデル作成方法。
- 生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測する形質予測方法であって、
コンピュータが行う以下の工程を含む、コンピュータによる形質予測方法:
学習用データセットを用いて、請求項1に記載の形質予測モデル作成方法に従って作成された形質予測モデルに対し、
- 生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測する形質予測方法であって、
コンピュータが行う以下の工程を含む、コンピュータによる形質予測方法:
学習用データセットを用いて、請求項2に記載の形質予測モデル作成方法に従って作成された形質予測モデルに対し、
- 生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測する形質予測方法であって、
コンピュータが行う以下の工程を含む、コンピュータによる形質予測方法:
学習用データセットを用いて、請求項3に記載の形質予測モデル作成方法に従って作成された形質予測モデルに対し、
- 前記形質が身長、体重、最高血圧、最低血圧、HbA1c、赤血球数、血色色素、血球容積、白血球数、血小板数、好中球の割合、リンパ球の割合、単球の割合、好酸球の割合、好塩基球の割合、大型非染色球の割合、AST(GOT)、ALT(GPT)、γ−GTP、総コレステロール、中性脂肪、HDLコレステロール、LDLコレステロール、クレアチニン、尿素窒素、尿酸、糖尿病、高血圧症、高LDLコレステロール血症、低HDLコレステロール血症、高トリグリセライド血症からなる群より選択される、請求項5〜7のいずれか1項に記載のコンピュータによる形質予測方法。
- 生物個体において、生物のN個の個体においてp個の一塩基多型と形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する予測モデルを作成する形質予測モデルを作成するためのプログラムであって、
コンピュータに請求項1〜4のいずれか1項に記載の方法を実行させるプログラム。 - 生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測するためのプログラムであって、
コンピュータに請求項5〜8のいずれか1項に記載の方法を実行させるプログラム。 - 請求項9または10に記載のプログラムを記録した、コンピュータで読み取り可能な記録媒体。
- 生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測するための形質予測システムであって、
(i) 前記生物個体の複数の一塩基多型データを入力するための入力装置、
(ii) 入力されたデータを用いて、請求項11に記載のプログラムを実行するコンピュータ、および
(iii) (ii) により得られた結果を出力するための出力装置
を備えた形質予測システム。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014238252A JP6312253B2 (ja) | 2014-11-25 | 2014-11-25 | 形質予測モデル作成方法および形質予測方法 |
PCT/JP2015/083068 WO2016084844A1 (ja) | 2014-11-25 | 2015-11-25 | 形質予測モデル作成方法および形質予測方法 |
US15/529,636 US20170337483A1 (en) | 2014-11-25 | 2015-11-25 | Trait prediction model creation method and trait prediction method |
CN201580064102.2A CN107004066B (zh) | 2014-11-25 | 2015-11-25 | 性状预测模型制作方法和性状预测方法 |
EP15862302.5A EP3226163A4 (en) | 2014-11-25 | 2015-11-25 | Trait prediction model creation method and trait prediction method |
US16/929,282 US20200342342A1 (en) | 2014-11-25 | 2020-07-15 | Methods of creating trait prediction models and methods of predicting traits |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014238252A JP6312253B2 (ja) | 2014-11-25 | 2014-11-25 | 形質予測モデル作成方法および形質予測方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016099901A JP2016099901A (ja) | 2016-05-30 |
JP6312253B2 true JP6312253B2 (ja) | 2018-04-18 |
Family
ID=56074396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014238252A Active JP6312253B2 (ja) | 2014-11-25 | 2014-11-25 | 形質予測モデル作成方法および形質予測方法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US20170337483A1 (ja) |
EP (1) | EP3226163A4 (ja) |
JP (1) | JP6312253B2 (ja) |
CN (1) | CN107004066B (ja) |
WO (1) | WO2016084844A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6716143B2 (ja) * | 2016-10-12 | 2020-07-01 | 学校法人 岩手医科大学 | 脳梗塞発症リスクの予測モデル作成方法および予測方法 |
CN107545153B (zh) * | 2017-10-25 | 2021-06-11 | 桂林电子科技大学 | 一种基于卷积神经网络的核小体分类预测方法 |
WO2020138479A1 (ja) * | 2018-12-28 | 2020-07-02 | 国立大学法人大阪大学 | 個体の形質情報を予測するためのシステムまたは方法 |
JP2020154178A (ja) * | 2019-03-20 | 2020-09-24 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
JP2020154179A (ja) * | 2019-03-20 | 2020-09-24 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
CN111028883B (zh) * | 2019-11-20 | 2023-07-18 | 广州达美智能科技有限公司 | 基于布尔代数的基因处理方法、装置及可读存储介质 |
CN111199773B (zh) * | 2020-01-20 | 2023-03-28 | 中国农业科学院北京畜牧兽医研究所 | 一种精细定位性状关联基因组纯合片段的评估方法 |
WO2021243094A1 (en) * | 2020-05-27 | 2021-12-02 | 23Andme, Inc. | Machine learning platform for generating risk models |
US10966170B1 (en) | 2020-09-02 | 2021-03-30 | The Trade Desk, Inc. | Systems and methods for generating and querying an index associated with targeted communications |
CN114496076B (zh) * | 2022-04-01 | 2022-07-05 | 微岩医学科技(北京)有限公司 | 一种基因组遗传分层联合分析方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006503346A (ja) * | 2001-12-03 | 2006-01-26 | ディーエヌエー・プリント・ジェノミックス・インコーポレイテッド | 分類ツリー分析を含む遺伝子学的分類における使用のための方法および装置 |
JP2008152592A (ja) * | 2006-12-19 | 2008-07-03 | Hitachi Ltd | 個体間の遺伝的非類似度の解析方法およびシステム |
FR2934698B1 (fr) * | 2008-08-01 | 2011-11-18 | Commissariat Energie Atomique | Procede de prediction pour le pronostic ou le diagnostic ou la reponse therapeutique d'une maladie et notamment du cancer de la prostate et dispositif permettant la mise en oeuvre du procede. |
JP5852902B2 (ja) * | 2012-02-27 | 2016-02-03 | 株式会社エヌ・ティ・ティ・データ | 遺伝子間相互作用解析システム、その方法及びプログラム |
US20130246033A1 (en) * | 2012-03-14 | 2013-09-19 | Microsoft Corporation | Predicting phenotypes of a living being in real-time |
US20140066320A1 (en) * | 2012-09-04 | 2014-03-06 | Microsoft Corporation | Identifying causal genetic markers for a specified phenotype |
-
2014
- 2014-11-25 JP JP2014238252A patent/JP6312253B2/ja active Active
-
2015
- 2015-11-25 CN CN201580064102.2A patent/CN107004066B/zh not_active Expired - Fee Related
- 2015-11-25 US US15/529,636 patent/US20170337483A1/en not_active Abandoned
- 2015-11-25 WO PCT/JP2015/083068 patent/WO2016084844A1/ja active Application Filing
- 2015-11-25 EP EP15862302.5A patent/EP3226163A4/en not_active Withdrawn
-
2020
- 2020-07-15 US US16/929,282 patent/US20200342342A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2016099901A (ja) | 2016-05-30 |
CN107004066A (zh) | 2017-08-01 |
EP3226163A4 (en) | 2018-08-29 |
WO2016084844A1 (ja) | 2016-06-02 |
EP3226163A1 (en) | 2017-10-04 |
US20170337483A1 (en) | 2017-11-23 |
CN107004066B (zh) | 2020-10-23 |
US20200342342A1 (en) | 2020-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6312253B2 (ja) | 形質予測モデル作成方法および形質予測方法 | |
Zeng et al. | Signatures of negative selection in the genetic architecture of human complex traits | |
Calderon et al. | Inferring relevant cell types for complex traits by using single-cell gene expression | |
Zhu et al. | Statistical methods for SNP heritability estimation and partition: A review | |
EP3207481B1 (en) | Reducing error in predicted genetic relationships | |
Hamid et al. | Data integration in genetics and genomics: methods and challenges | |
US20140222349A1 (en) | System and Methods for Pharmacogenomic Classification | |
US20140278130A1 (en) | Method of predicting toxicity for chemical compounds | |
US20200402614A1 (en) | A computer-implemented method of analysing genetic data about an organism | |
EP3797423A1 (en) | System and method for integrating genotypic information and phenotypic measurements for precision health assessments | |
WO2020138479A1 (ja) | 個体の形質情報を予測するためのシステムまたは方法 | |
Kulm et al. | Benchmarking the accuracy of polygenic risk scores and their generative methods | |
Le et al. | Expanding Polygenic Risk Scores to Include Automatic Genotype Encodings and Gene-gene Interactions. | |
KR102441856B1 (ko) | 중요도 샘플링을 활용한 다중변이 연관연구 방법 | |
Chen et al. | ARG-walker: inference of individual specific strengths of meiotic recombination hotspots by population genomics analysis | |
Saha et al. | RubricOE: a learning framework for genetic epidemiology | |
Gentry et al. | Missingness Adapted Group Informed Clustered (MAGIC)-LASSO: A novel paradigm for prediction in data with widespread non-random missingness | |
Duan et al. | Sparse parallel independent component analysis and its application to identify stable and replicable imaging-genomic association patterns in UK biobank | |
KR102483880B1 (ko) | 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템 및 그 방법 | |
Li et al. | A semiparametric test to detect associations between quantitative traits and candidate genes in structured populations | |
US20230342364A1 (en) | Filtering individual datasets in a database | |
TWI650664B (zh) | 建立蛋白質功能缺失評估模型的方法以及利用上述模型的風險評估方法與系統 | |
Bangchang | High-dimensional Bayesian variable selection with applications to genome-wide association studies | |
CN117877573A (zh) | 一种利用伊辛模型的多基因遗传风险评估模型的构建方法 | |
Zhou et al. | Data pre-processing for analyzing microbiome data–A mini review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180306 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180316 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6312253 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |