JP6312253B2 - 形質予測モデル作成方法および形質予測方法 - Google Patents

形質予測モデル作成方法および形質予測方法 Download PDF

Info

Publication number
JP6312253B2
JP6312253B2 JP2014238252A JP2014238252A JP6312253B2 JP 6312253 B2 JP6312253 B2 JP 6312253B2 JP 2014238252 A JP2014238252 A JP 2014238252A JP 2014238252 A JP2014238252 A JP 2014238252A JP 6312253 B2 JP6312253 B2 JP 6312253B2
Authority
JP
Japan
Prior art keywords
trait
single nucleotide
nucleotide polymorphism
computer
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014238252A
Other languages
English (en)
Other versions
JP2016099901A (ja
Inventor
剛史 八谷
剛史 八谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iwate Medical University
Original Assignee
Iwate Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iwate Medical University filed Critical Iwate Medical University
Priority to JP2014238252A priority Critical patent/JP6312253B2/ja
Priority to PCT/JP2015/083068 priority patent/WO2016084844A1/ja
Priority to US15/529,636 priority patent/US20170337483A1/en
Priority to CN201580064102.2A priority patent/CN107004066B/zh
Priority to EP15862302.5A priority patent/EP3226163A4/en
Publication of JP2016099901A publication Critical patent/JP2016099901A/ja
Application granted granted Critical
Publication of JP6312253B2 publication Critical patent/JP6312253B2/ja
Priority to US16/929,282 priority patent/US20200342342A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Description

本発明は、形質予測モデル作成方法および形質予測方法に関する。
従来、ヒトゲノム情報を用いた表現型予測として、形質感受性多型に着目し、すでに同定された感受性多型のみを用いて表現型を予測する手法が中心的に研究されてきた(非特許文献1〜3参照)。これらの手法は、形質と関連のある数個から数百個の多型を具体的に列挙し、それぞれの多型の重みを推定するものであって、形質への個々の多型の影響を数値化できる点で直感的に理解しやすい。
しかしながら、感受性多型のみを用いる点は、この手法の短所であり、限界である。なぜなら、ほとんど全ての多因子形質において、実際の原因となる感受性多型のうち、同定されているものはごく僅かだからである。例えば、身長の分散のうち約80%を遺伝要因によって説明できると推定されているが、既知の感受性多型によって説明できる分散は僅か5%程度にすぎない。
そこで、感受性多型か否かに関わらず、網羅的(ゲノムワイド)な多型情報を用いた表現型予測法として、非特許文献4が開示されている。すなわち、複数の一塩基多型(Single Nucleotide Polymorphism; SNP)を複数のカテゴリに分割して、線形混合モデルを適用するものである。しかしながら、その手法においても予測の精度はまだ不十分である。
New England Journal of Medicine: Clinical risk factors, DNA variants, and the development of type 2 diabetes Lancet: A multilocus genetic risk score for coronary heart disease: case-control and prospective cohort analyses Stroke: Predicting stroke through genetic risk functions: The CHARGE risk score project Genome Research:MultiBLUP: improved SNP-based prediction for complex traits
本発明は、一塩基多型データから形質の表現型を予測するための形質予測モデル作成方法、および高い確率で形質を予測できる形質予測方法を提供することを目的とする。
本発明者らは、感受性多型か否かに関わらず、網羅的(ゲノムワイド)な多型情報を用いた統計学処理手法を検討した。すなわち、身長やHbA1c検査値を含む27の量的形質、および、糖尿病や低HDLコレステロール血漿の罹患を含む5つの質的形質を例とし、約100万個の多型をゲノム情報として、性年齢情報を調節変数として用いて、線形混合モデルを適用し、形質について学習させて予測モデルを作成したところ、この予測が、実測値と高度に相関があることを見出した。こうして、我々は、ゲノム情報から表現型を予測する予測方法の完成に至った。
本発明の一実施態様は、生物の複数の個体において複数の一塩基多型と形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する予測モデルを作成する形質予測モデル作成方法であって、前記複数の一塩基多型を、それぞれ行列表記する工程と、前記複数の一塩基多型を、遺伝構造に基づいて複数のカテゴリーに分類する工程と、前記カテゴリーの各々に対し、前記行列表記及び前記カテゴリーに属する前記一塩基多型の個数を用いてゲノム類似度行列を計算する工程と、前記ゲノム類似度行列と前記遺伝構造のパラメータを線形混合モデルに適用する工程と、を含む形質予測モデル作成方法である。前記遺伝構造が、effect size及び/又は allele frequencyであってもよい。
本発明の他の一実施態様は、生物の複数の個体において複数の一塩基多型、性、年齢、および形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する形質予測モデルを作成する形質予測モデル作成方法であって、前記複数の一塩基多型を、それぞれ行列表記する工程と、前記性および/または年齢を、行列表記する工程と、前記一塩基多型の行列表記及び前記一塩基多型の個数を用いてゲノム類似度行列を計算する工程と、前記ゲノム類似度行列と前記性および/または年齢の行列を線形混合モデルに適用する工程と、を含む形質予測モデル作成方法である。前記形質が身長、体重、最高血圧、最低血圧、血糖、HbA1c、赤血球数、血色色素、血球容積、白血球数、血小板数、好中球の割合、リンパ球の割合、単球の割合、好酸球の割合、好塩基球の割合、大型非染色球の割合、AST(GOT)、ALT(GPT)、γ−GTP、総コレステロール、中性脂肪、HDLコレステロール、LDLコレステロール、クレアチニン、尿素窒素、尿酸、糖尿病、高血圧症、高LDLコレステロール血症、低HDLコレステロール血症、高トリグリセライド血症からなる群より選択されてもよい。
本発明のさらなる一実施態様は、生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測する形質予測方法であって、学習用データセットを用いて、上記予測モデル作成方法に従って、予測モデルを作成する工程と、線形混合モデルのパラメータ及び隠れ変数を決定する工程と、当該生物個体の前記複数の一塩基多型データを、前記予測モデルに適用する工程と、を含む形質予測方法である。
本発明のさらなる一実施態様は、生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測するためのプログラムであって、コンピュータに上記形質予測方法を実行させるプログラムである。本発明の一実施態様は、本プログラムを記録した、コンピュータで読み取り可能な記録媒体であってもよい。
本発明のさらなる一実施態様は、生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測するための形質予測システムであって、
(i) 前記生物個体の複数の一塩基多型データを入力するための入力装置、
(ii) 入力されたデータを用いて、上記プログラムを実行するコンピュータ、および
(iii) (ii) により得られた結果を出力するための出力装置
を備えた形質予測システムである。
本発明によって、一塩基多型データから形質の表現型を予測するための形質予測モデル作成方法、および高い確率で形質を予測できる形質予測方法を提供することができるようになった。
本発明の一実施例において、HbA1c検査値と身長に着目し、遺伝構造分割法による寄与率の推定結果を示す図である(Qes=50, QRAF=1の場合)。 本発明の一実施例において、HbA1c検査値と身長に着目し、遺伝構造分割法による寄与率の推定結果を示す図である(Qes=1, QRAF=30の場合)。 本発明の一実施例において、実施例に用いた形質の一覧である。 本発明の一実施例において、27の量的形質の精度評価結果を示す図である。(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1の場合(遺伝構造分割なし;本発明の実施例)の3通りの方法を比較した。評価指標として、実測値と予測値のR(相関係数の自乗)を用い、2−fold cross validation法によって評価した。 本発明の一実施例において、5の質的形質の精度評価結果を示す図である。(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1の場合(遺伝構造分割なし;本発明の実施例)の3通りの方法を比較した。評価指標として、AUCを用い、2−fold cross validation法によって評価した。 本発明の一実施例において、サンプルサイズが充分に大きい場合の27の量的形質の精度評価結果を示す図である。(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1の場合(遺伝構造分割なし;本発明の実施例),(4)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=10, QRAF=1の場合(遺伝構造分割あり;本発明の実施例),の4通りの方法を比較した。評価指標として、実測値と予測値のR(相関係数の自乗)を用い、2−fold cross validation法によって評価した。 本発明の一実施例において、サンプルサイズが充分に大きい場合の5の質的形質の精度評価結果を示す図である。(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1の場合(遺伝構造分割なし;本発明の実施例),(4)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=10, QRAF=1の場合(遺伝構造分割あり;本発明の実施例),の4通りの方法を比較した。評価指標として、AUCを用い、2−fold cross validation法によって評価した。
本発明の目的、特徴、利点、及びそのアイデアは、本明細書の記載により、当業者には明らかであり、本明細書の記載から、当業者であれば、容易に本発明を再現できる。以下に記載された発明の実施の形態及び具体的な実施例などは、本発明の好ましい実施態様を示すものであり、例示又は説明のために示されているのであって、本発明をそれらに限定するものではない。本明細書で開示されている本発明の意図ならびに範囲内で、本明細書の記載に基づき、様々に修飾ができることは、当業者にとって明らかである。
本発明にかかる形質予測モデル作成方法は、生物の複数の個体において複数の一塩基多型(Single Nucleotide Polymorphism; SNP)と形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する予測モデルを作成する予測モデル作成方法であって、複数の一塩基多型を、それぞれ行列表記する工程と、複数の一塩基多型を、遺伝構造に基づいて複数のカテゴリーに分類する工程と、カテゴリーの各々に対し、一塩基多型の行列表記及び各カテゴリーに属する一塩基多型の個数を用いてゲノム類似度行列を計算する工程と、ゲノム類似度行列と遺伝構造のパラメータを線形混合モデルに適用する工程と、を含む形質予測モデル作成方法である。または、生物の複数の個体において複数の一塩基多型、性、年齢、および形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する形質予測モデルを作成する形質予測モデル作成方法であって、複数の一塩基多型を、それぞれ行列表記する工程と、性および/または年齢を、行列表記する工程と、一塩基多型の行列表記及び一塩基多型の個数を用いてゲノム類似度行列を計算する工程と、ゲノム類似度行列と性および/または年齢の行列を線形混合モデルに適用する工程と、を含む形質予測モデル作成方法である。
ここで用いる一塩基多型データに含まれる一塩基多型は、特に限定されず、対象とする形質の感受性多型であってもよく、なくてもよい。用いる一塩基多型の数や種類も特に限定されないが、対象とする生物個体集団中に1%以上存在する一塩基多型を網羅していることが好ましい。
対象とする生物は特に限定されず、植物であっても動物であってもよいが、脊椎動物であることが好ましく、ほ乳類であることがより好ましく、ヒトであることが最も好ましい。対象とする形質は、多因子性形質であれば特に限定されず、例えば、ヒトの場合、身長、体重、BMIなどの体型に関する指標;血圧(最高血圧、最低血圧)、HbA1c、赤血球数、血色色素、血球容積、白血球数、血小板数、好中球の割合、リンパ球の割合、単球の割合、好酸球の割合、好塩基球の割合、大型非染色球の割合、有核赤血球数、AST(GOT)、ALT(GPT)、γ−GTP、総コレステロール、中性脂肪、HDLコレステロール、LDLコレステロール、クレアチニン、尿素窒素、推定糸球濾過量、尿酸などの血液検査評価値;記憶力、理解力、知能指数、スポーツ技術などの能力;肥満・糖尿病・高血圧・循環器疾患などの成人病、がん、アレルギー・自己免疫病などの免疫疾患などの病気のかかりやすさ、などが例示できる。
本発明の予測モデル作成方法を用いて、複数の一塩基多型データから、生物個体の形質を予測する形質予測が可能である。すなわち、学習用データセットを用いて、本発明の形質予測モデル作成方法に従って形質予測モデルを作成し、線形混合モデルのパラメータ及び隠れ変数を決定し、生物個体の複数の一塩基多型データを、形質予測モデルに適用することにより、その生物個体の形質を予測することができる。
以下、本発明の予測モデル作成方法及び形質予測方法について、実施例を挙げながら具体的かつ詳細に説明するが、本発明はこれらの実施の形態あるいは実施例に限定されるものではない。
(1)性・年齢情報の行列表記
N名のヒト個人について、性年齢データが得られているとし、N×6行列 X として表記する手法を述べる。Xの行ベクトルは各個人の性別と年齢の情報を意味する。行列Xのi行j列要素をX(i,j)と表記することとする。年齢はカテゴリデータとして扱うが、そのカテゴリの段階数は特に限定されない。ここでは、一例として、39歳以下,40歳以上49歳以下,50歳以上59歳以下,60歳以上69歳以下,70歳以上の5段階とする方法を述べる。
性別の情報は、行列Xの1列目に表現される。i番目のヒト個人の性別が男性の場合には”M”,女性の場合には”F”とすると、X(i,1) は以下の式で定義される。
年齢の情報は、行列Xの2〜6列目に表現される。i番目のヒト個人の年齢をageiとすると、X(i,2),X(i,3),X(i,4),X(i,5),X(i,6) は以下の式で定義される。
(2)ゲノム情報の行列表記
N名のヒト個人について、p個の一塩基多型(SNP)データが得られているとし、N×p行列(N,pは1以上の整数)Wとして表記する手法を述べる。Wの行ベクトルは各個人の多型プロファイルを意味し、Wの列ベクトルはある多型部位の個人間の違いをあらわすベクトルを意味する。
i番目のヒト個人のj番目の多型は、2つのアリルから構成される。両方のアリルがヒト代表配列と一致する場合には”AA”,片方のアリルのみがヒト代表配列と一致する場合には”AB”,両方のアリルがヒト代表配列と一致しない場合には”BB”と表記することとする。また、行列Wのi行j列要素をW(i,j)と表記することとする。また、j番目の多型のアリル頻度をfjと表記することとする。これらの表記に基づいて、W(i,j)は以下の式で定義される。
ここで、代表配列は、各多型について任意の塩基を決め、それらを有する配列とするが、例えば、ゲノムプロジェクトの成果として公表されている配列としてもよい。
(3)遺伝構造に基づくSNPの分類
以下に、p個のSNPを、遺伝構造に基づいて複数のカテゴリーに分類する手法を述べる。遺伝構造をあらわす具体的なパラメータには、形質との関連性の強さをあらわすパラメータであるeffect sizeと、SNPのヒト集団中での頻度をあらわすallele frequencyがある。effect size の代表的な具体例として、relative risk、odds ratio、分散寄与率、regression coefficientが挙げられる。allele frequencyには、risk allele frequency (RAF)やminor allele frequency (MAF)が例示できる。本発明の方法で用いる遺伝構造パラメータは特に限定されないが、ここでは、一例としてregression coefficientとRAFを用いた場合の分類手順を示す。
(4)分割手順(1)effect sizeのQes分位数の計算
(5)分割手順(2)RAFのQRAF分位数の計算
(6)SNPの分類
(7)遺伝構造パラメータの推定
effect sizeやRAF等の遺伝構造パラメータは、多型と形質の関連解析によって推定することができる。多型と形質の関連解析は、一般に入手できるプログラムを用いればよく、例えば、インターネット上で入手可能なPLINKやGCTAを用いてもよい。
(8)ゲノム類似度行列の計算
ゲノム類似度行列とは、ゲノム情報に基づく個人間の類似度をあらわすN×N行列である。ゲノム類似度行列は、Qes×QRAFのカテゴリーごとに計算されるものとする。以下、代表的なゲノム類似度行列Aの計算式を示すが、ゲノム類似度行列の計算式は、これに限定されない。
ここで、A(i.j)はカテゴリー (i,j) のゲノム類似度行列(N×N次元),p(i.j)はカテゴリー (i,j) に属するSNPの個数,W(i.j)は行列Wからカテゴリー (i,j) に属するSNPの列ベクトルのみを切り出した部分行列(N×p(i.j)次元)、W(i.j) ’は行列W(i.j)の転地行列を意味している。
(9)線形混合モデルへの適用
(10)線形混合モデルのパラメータ推定
(11)寄与率の推定
(12)遺伝要因の寄与の予測
(13)形質予測方法
式(1)を「遺伝構造分割+性年齢調整法」,式(2)を「性年齢調整法」,式(3)を「遺伝構造分割法」,式(4)を「遺伝構造非分割+性年齢調整法」,式(5)を「遺伝構造非分割法」と呼ぶ。
(14)形質予測システム
上記形質予測方法を自動化するために、コンピュータに実行させることができるようにプログラム化できる。こうして作成されたプログラムも、本発明の権利範囲内である。
さらに、このプログラムを実行するためのコンピュータとともに、一塩基多型や性・年齢情報などを入力するための入力装置、及びプログラムの実行により得られた結果を出力するための出力装置を備えた形質予測システムとすることも可能である。
以下に記載する本実施例の一塩基多型情報は、HumanOmniExpressExome チップ(イルミナ社)によって計測された。
(方法)
本実施例では、多因子的な量的形質の一例として身長に着目し、東北メディカル・メガバンク計画によって平成25年度に収集された4992名の一塩基多型データ及び性・年齢情報を用い、本発明の形質予測モデル作成方法によって形質予測モデルを作成し(前出(9−2)性年齢情報を用いた場合)、遺伝率を推定した。対照として、性・年齢情報を用いない場合についても、遺伝率の推定値を計算し、用いた場合と比較した。
次に、形質予測モデルの予測精度を、(1)性・年齢情報のみを用いた場合(2)一塩基多型情報のみ用いた場合(3)両方を行った場合(本発明の実施例)、のそれぞれについて2−fold cross validation法によって評価した。評価指標として、実測値と予測値のR(相関係数の自乗)を用いた。
(遺伝率の推定方法)
(結果)
性・年齢情報を用いない場合の遺伝率は40.67%、用いた場合の遺伝率は、82.29%となり、性・年齢情報を用いない場合に比べて、性・年齢情報を用いた場合には大きく遺伝率が高くなっており、身長の分散の一部は性年齢によって説明されることが分かった。
(1)〜(3)の3通りについて、2−fold cross validation法によって予測精度(R)を評価した(平均±標準偏差)ところ、(1)56.89±1.36%(2)1.45±0.26%(3)59.63±1.24%となり、性年齢情報のみを用いた場合,ゲノム情報のみを用いた場合に比べて、性年齢情報及びゲノム情報の両方を用いた場合、予測精度は向上した。
(方法)
本実施例では、多因子的な質的形質の一例として糖尿病の罹患に着目し、東北メディカル・メガバンク計画によって平成25年度に収集された4992名の一塩基多型データ及び性・年齢情報を用い、本発明の形質予測モデル作成方法によって形質予測モデルを作成した(前出(9−2)性年齢情報を用いた場合)。ここで、HbA1c検査値から、6.5以上の場合には糖尿病の罹患があり、それ未満の場合には糖尿病の罹患がないとした。形質予測モデルの予測精度を、(1)性・年齢情報のみを用いた場合(2)一塩基多型情報のみ用いた場合(3)両方を行った場合(本発明の実施例)、のそれぞれについて2−fold cross validation法によって評価した。評価指標として、AUCを用いた。
(結果)
(1)61.39±1.56%(2)55.76±0.28%(3)62.98±0.61%となり、性年齢情報のみを用いた場合,ゲノム情報のみを用いた場合に比べて、性年齢情報及びゲノム情報の両方を用いた場合、予測精度は向上した。
(方法)
本実施例では、多因子的な量的形質の一例としてHbA1c検査値と身長に着目し、東北メディカル・メガバンク計画によって平成25年度に収集された4992名の一塩基多型データを用い、遺伝構造分割法による寄与率の推定を行った。(1)Qes=50, QRAF=1の場合,(2)Qes=1, QRAF=30 の場合,の2通りを実施した。
(結果)
(1)Qes=50, QRAF=1 の場合の寄与率の推定結果を図1に示す。HbA1c検査値と身長のどちらにおいても、中程度のeffect sizeを示す一塩基多型の寄与率が大きく、小さなeffect sizeを示す一塩基多型の寄与率は極めて小さいことが推定された。また、HbA1c検査値においては大きなeffect sizeを示す一塩基多型の寄与が大きいが、身長においては大きなeffect sizeを示す一塩基多型の寄与は限定的であることが推定された。
(2)Qes=1, QRAF=30 の場合の寄与率の推定結果を図2に示す。HbA1c検査値においては、稀でない一塩基多型の寄与率は限定的であり、稀な一塩基多型が非常に大きな寄与率を示すことが推定された。一方、身長においては、稀な一塩基多型の寄与率は小さくないものの、稀でない一塩基多型の寄与率も小さくないことが推定された。
(方法)
充分なサンプルサイズで学習を行った場合、遺伝構造分割法により形質予測精度の向上が果たせることを示すため、東北メディカル・メガバンク計画によって平成25年度に収集された4992名の一塩基多型データ及びHbA1c検査値を用い、effect size,allele frequencyの推定及び線形混合モデルのパラメータ推定を検証用データセットで行い、遺伝要因の寄与の予測及び一塩基多型への重みの計算を学習用データセットで行い、予測精度の検証を検証用データセットで行った。これにより、サンプルサイズが充分に大きい場合を想定した場合の予測精度を評価できる。
形質予測モデルの予測精度を、(1)Qes=1, QRAF=1 の場合(遺伝構造分割なし)(2)Qes=10, QRAF=1 の場合(遺伝構造分割あり;本発明の実施例)、のそれぞれについて2−fold cross validation法によって評価した。評価指標として、実測値と予測値のR(相関係数の自乗)を用いた。
(結果)
(1)4.52±0.16%(2)16.52±0.30%となり、充分なサンプルサイズを想定した場合、遺伝構造分割なしと比べて、遺伝構造分割ありでは顕著に予測精度が向上することが示せた。
(方法)
本実施例では、図3に示す27の量的形質及び5の質的形質を対象として、東北メディカル・メガバンク計画によって平成25年度に収集された4992名の一塩基多型データを用い、本発明の形質予測モデル作成方法によって形質予測モデルを作成した(前出(9−3)遺伝構造および性年齢情報を用いた場合)。形質予測モデルの予測精度を、(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし;本発明の実施例)のそれぞれについて2−fold cross validation法によって評価した。評価指標として、量的データを対象とした場合には実測値と予測値のR(相関係数の自乗)を、質的データを対象とした場合にはAUCを用いた。
(結果)
27の量的形質に対して精度評価を行った結果を図4に、5の質的形質に対して精度評価を行った結果を図5に示す。図4,図5に示した27の量的形質及び5の質的形質の全てについて、(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,と比べて、(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし;本発明の実施例)の予測精度が上回っていることが示された。
(方法)
充分なサンプルサイズで学習を行った場合、性・年齢情報あるいは一塩基多型情報と性・年齢情報の両方を用いることにより形質予測精度の向上が果たせることを示すため、図3に示す27の量的形質及び5の質的形質を対象として、東北メディカル・メガバンク計画によって平成25年度に収集された4992名の一塩基多型データを用い、本発明の形質予測モデル作成方法によって形質予測モデルを作成した(前出(9−3)遺伝構造および性年齢情報を用いた場合)。形質予測モデルの予測精度を、(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし;本発明の実施例),(4)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=10, QRAF=1 の場合(遺伝構造分割あり;本発明の実施例)、のそれぞれについて2−fold cross validation法によって評価した。評価指標として、量的データを対象とした場合には実測値と予測値のR(相関係数の自乗)を、質的データを対象とした場合にはAUCを用いた。effect size,allele frequencyの推定及び線形混合モデルのパラメータ推定を検証用データセットで行い、遺伝要因の寄与の予測及び一塩基多型への重みの計算を学習用データセットで行い、予測精度の検証を検証用データセットで行った。
(結果)
27の量的形質に対して精度評価を行った結果を図6に、5の質的形質に対して精度評価を行った結果を図7に示す。図6,図7に示した27の量的形質及び5の質的形質の全てについて、(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,と比べて、(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし;本発明の実施例)の予測精度が上回っていることが示された。(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし;本発明の実施例)と(4)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=10, QRAF=1 の場合(遺伝構造分割あり;本発明の実施例)を比べた場合、全ての形質において(4)の予測精度が上回っていた。
(結論)
このように、本発明の形質予測モデル作成方法によって作成した形質予測モデルを用いれば、従来の予測方法より高い確率で形質を予測できる。加えて、遺伝構造分割法による寄与率の推定を行うことにより、形質の遺伝構造を解明できる。

Claims (12)

  1. 生物のN個の個体においてp個の一塩基多型と形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する予測モデルを作成する形質予測モデル作成方法であって、
    コンピュータが、入力装置によって入力された前記一塩基多型データを用いて行う以下の工程を含む、コンピュータによる形質予測モデル作成方法:
    前記p個の一塩基多型を、以下のように行列表記する工程と、
  2. 生物のN個の個体においてp個の一塩基多型、性、年齢、および形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する予測モデルを作成する形質予測モデル作成方法であって、
    コンピュータが、入力装置によって入力された前記一塩基多型データを用いて行う以下の工程を含む、コンピュータによる形質予測モデル作成方法:
    前記p個の一塩基多型を、以下のように行列表記する工程と、
    (ここで、i番目の個体のj番目の多型について、2つ両方のアリルが代表配列と一致する場合には”AA”,片方のアリルのみが代表配列と一致する場合には”AB”,両方のアリルが代表配列と一致しない場合には”BB”と表記され、行列Wのi行j列要素はW (i,j)と表記され、j番目の多型のアリル頻度はf j と表記され、各多型について任意の塩基を決め、それらを有する配列を代表配列とされる。)
    前記性および/または年齢を、N×MまたはNx(M+1)次元のX(i,j)(iは0(女性)または1(男性)、jは年齢のカテゴリデータでカテゴリーの個数はM個である。)と行列表記する工程と、
    前記行列表記及び前記カテゴリーに属する前記一塩基多型の個数を用いて、以下の式によりゲノム類似度行列を計算する工程と、
    前記ゲノム類似度行列と前記性および/または年齢の行列を以下の線形混合モデルに適用する工程
  3. 生物のN個の個体においてp個の一塩基多型、性、年齢、および形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する予測モデルを作成する形質予測モデル作成方法であって、
    コンピュータが、入力装置によって入力された一塩基多型データを用いて行う以下の工程を含む、コンピュータによる形質予測モデル作成方法:
    前記p個の一塩基多型を、以下のように行列表記する工程と、
    前記カテゴリーの各々に対し、前記行列表記及び前記カテゴリーに属する前記一塩基多型の個数を用いて、以下の式によりゲノム類似度行列を計算する工程と、
    前記ゲノム類似度行列と前記遺伝構造のパラメータを以下の線形混合モデルに適用する工程
  4. 前記形質が身長、体重、最高血圧、最低血圧、HbA1c、赤血球数、血色色素、血球容積、白血球数、血小板数、好中球の割合、リンパ球の割合、単球の割合、好酸球の割合、好塩基球の割合、大型非染色球の割合、AST(GOT)、ALT(GPT)、γ−GTP、総コレステロール、中性脂肪、HDLコレステロール、LDLコレステロール、クレアチニン、尿素窒素、尿酸、糖尿病、高血圧症、高LDLコレステロール血症、低HDLコレステロール血症、高トリグリセライド血症からなる群より選択される、請求項1〜3のいずれか1項に記載のコンピュータによる形質予測モデル作成方法。
  5. 生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測する形質予測方法であって、
    コンピュータが行う以下の工程を含む、コンピュータによる形質予測方法:
    学習用データセットを用いて、請求項1に記載の形質予測モデル作成方法に従って作成された形質予測モデルに対し、
  6. 生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測する形質予測方法であって、
    コンピュータが行う以下の工程を含む、コンピュータによる形質予測方法:
    学習用データセットを用いて、請求項2に記載の形質予測モデル作成方法に従って作成された形質予測モデルに対し、
  7. 生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測する形質予測方法であって、
    コンピュータが行う以下の工程を含む、コンピュータによる形質予測方法:
    学習用データセットを用いて、請求項3に記載の形質予測モデル作成方法に従って作成された形質予測モデルに対し、
  8. 前記形質が身長、体重、最高血圧、最低血圧、HbA1c、赤血球数、血色色素、血球容積、白血球数、血小板数、好中球の割合、リンパ球の割合、単球の割合、好酸球の割合、好塩基球の割合、大型非染色球の割合、AST(GOT)、ALT(GPT)、γ−GTP、総コレステロール、中性脂肪、HDLコレステロール、LDLコレステロール、クレアチニン、尿素窒素、尿酸、糖尿病、高血圧症、高LDLコレステロール血症、低HDLコレステロール血症、高トリグリセライド血症からなる群より選択される、請求項5〜7のいずれか1項に記載のコンピュータによる形質予測方法。
  9. 生物個体において、生物のN個の個体においてp個の一塩基多型と形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する予測モデルを作成する形質予測モデルを作成するためのプログラムであって、
    コンピュータに請求項1〜4のいずれか1項に記載の方法を実行させるプログラム。
  10. 生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測するためのプログラムであって、
    コンピュータに請求項5〜8のいずれか1項に記載の方法を実行させるプログラム。
  11. 請求項9または10に記載のプログラムを記録した、コンピュータで読み取り可能な記録媒体。
  12. 生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測するための形質予測システムであって、
    (i) 前記生物個体の複数の一塩基多型データを入力するための入力装置、
    (ii) 入力されたデータを用いて、請求項11に記載のプログラムを実行するコンピュータ、および
    (iii) (ii) により得られた結果を出力するための出力装置
    を備えた形質予測システム。
JP2014238252A 2014-11-25 2014-11-25 形質予測モデル作成方法および形質予測方法 Active JP6312253B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2014238252A JP6312253B2 (ja) 2014-11-25 2014-11-25 形質予測モデル作成方法および形質予測方法
PCT/JP2015/083068 WO2016084844A1 (ja) 2014-11-25 2015-11-25 形質予測モデル作成方法および形質予測方法
US15/529,636 US20170337483A1 (en) 2014-11-25 2015-11-25 Trait prediction model creation method and trait prediction method
CN201580064102.2A CN107004066B (zh) 2014-11-25 2015-11-25 性状预测模型制作方法和性状预测方法
EP15862302.5A EP3226163A4 (en) 2014-11-25 2015-11-25 Trait prediction model creation method and trait prediction method
US16/929,282 US20200342342A1 (en) 2014-11-25 2020-07-15 Methods of creating trait prediction models and methods of predicting traits

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014238252A JP6312253B2 (ja) 2014-11-25 2014-11-25 形質予測モデル作成方法および形質予測方法

Publications (2)

Publication Number Publication Date
JP2016099901A JP2016099901A (ja) 2016-05-30
JP6312253B2 true JP6312253B2 (ja) 2018-04-18

Family

ID=56074396

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014238252A Active JP6312253B2 (ja) 2014-11-25 2014-11-25 形質予測モデル作成方法および形質予測方法

Country Status (5)

Country Link
US (2) US20170337483A1 (ja)
EP (1) EP3226163A4 (ja)
JP (1) JP6312253B2 (ja)
CN (1) CN107004066B (ja)
WO (1) WO2016084844A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6716143B2 (ja) * 2016-10-12 2020-07-01 学校法人 岩手医科大学 脳梗塞発症リスクの予測モデル作成方法および予測方法
CN107545153B (zh) * 2017-10-25 2021-06-11 桂林电子科技大学 一种基于卷积神经网络的核小体分类预测方法
WO2020138479A1 (ja) * 2018-12-28 2020-07-02 国立大学法人大阪大学 個体の形質情報を予測するためのシステムまたは方法
JP2020154178A (ja) * 2019-03-20 2020-09-24 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP2020154179A (ja) * 2019-03-20 2020-09-24 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN111028883B (zh) * 2019-11-20 2023-07-18 广州达美智能科技有限公司 基于布尔代数的基因处理方法、装置及可读存储介质
CN111199773B (zh) * 2020-01-20 2023-03-28 中国农业科学院北京畜牧兽医研究所 一种精细定位性状关联基因组纯合片段的评估方法
WO2021243094A1 (en) * 2020-05-27 2021-12-02 23Andme, Inc. Machine learning platform for generating risk models
US10966170B1 (en) 2020-09-02 2021-03-30 The Trade Desk, Inc. Systems and methods for generating and querying an index associated with targeted communications
CN114496076B (zh) * 2022-04-01 2022-07-05 微岩医学科技(北京)有限公司 一种基因组遗传分层联合分析方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006503346A (ja) * 2001-12-03 2006-01-26 ディーエヌエー・プリント・ジェノミックス・インコーポレイテッド 分類ツリー分析を含む遺伝子学的分類における使用のための方法および装置
JP2008152592A (ja) * 2006-12-19 2008-07-03 Hitachi Ltd 個体間の遺伝的非類似度の解析方法およびシステム
FR2934698B1 (fr) * 2008-08-01 2011-11-18 Commissariat Energie Atomique Procede de prediction pour le pronostic ou le diagnostic ou la reponse therapeutique d'une maladie et notamment du cancer de la prostate et dispositif permettant la mise en oeuvre du procede.
JP5852902B2 (ja) * 2012-02-27 2016-02-03 株式会社エヌ・ティ・ティ・データ 遺伝子間相互作用解析システム、その方法及びプログラム
US20130246033A1 (en) * 2012-03-14 2013-09-19 Microsoft Corporation Predicting phenotypes of a living being in real-time
US20140066320A1 (en) * 2012-09-04 2014-03-06 Microsoft Corporation Identifying causal genetic markers for a specified phenotype

Also Published As

Publication number Publication date
JP2016099901A (ja) 2016-05-30
CN107004066A (zh) 2017-08-01
EP3226163A4 (en) 2018-08-29
WO2016084844A1 (ja) 2016-06-02
EP3226163A1 (en) 2017-10-04
US20170337483A1 (en) 2017-11-23
CN107004066B (zh) 2020-10-23
US20200342342A1 (en) 2020-10-29

Similar Documents

Publication Publication Date Title
JP6312253B2 (ja) 形質予測モデル作成方法および形質予測方法
Zeng et al. Signatures of negative selection in the genetic architecture of human complex traits
Calderon et al. Inferring relevant cell types for complex traits by using single-cell gene expression
Zhu et al. Statistical methods for SNP heritability estimation and partition: A review
EP3207481B1 (en) Reducing error in predicted genetic relationships
Hamid et al. Data integration in genetics and genomics: methods and challenges
US20140222349A1 (en) System and Methods for Pharmacogenomic Classification
US20140278130A1 (en) Method of predicting toxicity for chemical compounds
US20200402614A1 (en) A computer-implemented method of analysing genetic data about an organism
EP3797423A1 (en) System and method for integrating genotypic information and phenotypic measurements for precision health assessments
WO2020138479A1 (ja) 個体の形質情報を予測するためのシステムまたは方法
Kulm et al. Benchmarking the accuracy of polygenic risk scores and their generative methods
Le et al. Expanding Polygenic Risk Scores to Include Automatic Genotype Encodings and Gene-gene Interactions.
KR102441856B1 (ko) 중요도 샘플링을 활용한 다중변이 연관연구 방법
Chen et al. ARG-walker: inference of individual specific strengths of meiotic recombination hotspots by population genomics analysis
Saha et al. RubricOE: a learning framework for genetic epidemiology
Gentry et al. Missingness Adapted Group Informed Clustered (MAGIC)-LASSO: A novel paradigm for prediction in data with widespread non-random missingness
Duan et al. Sparse parallel independent component analysis and its application to identify stable and replicable imaging-genomic association patterns in UK biobank
KR102483880B1 (ko) 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템 및 그 방법
Li et al. A semiparametric test to detect associations between quantitative traits and candidate genes in structured populations
US20230342364A1 (en) Filtering individual datasets in a database
TWI650664B (zh) 建立蛋白質功能缺失評估模型的方法以及利用上述模型的風險評估方法與系統
Bangchang High-dimensional Bayesian variable selection with applications to genome-wide association studies
CN117877573A (zh) 一种利用伊辛模型的多基因遗传风险评估模型的构建方法
Zhou et al. Data pre-processing for analyzing microbiome data–A mini review

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180316

R150 Certificate of patent or registration of utility model

Ref document number: 6312253

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250