CN107004066A

CN107004066A - 性状预测模型制作方法和性状预测方法

Info

Publication number: CN107004066A
Application number: CN201580064102.2A
Authority: CN
Inventors: 八谷刚史
Original assignee: Iwate Medical University
Current assignee: Iwate Medical University
Priority date: 2014-11-25
Filing date: 2015-11-25
Publication date: 2017-08-01
Anticipated expiration: 2035-11-25
Also published as: JP2016099901A; US20200342342A1; WO2016084844A1; EP3226163A4; EP3226163A1; US20170337483A1; JP6312253B2; CN107004066B

Abstract

本发明提供一种用于由单核苷酸多态性数据预测性状的表现型的性状预测模型制作方法、以及能够以高的准确率预测性状的性状预测方法。即，一种性状预测模型制作方法，包括：使用在生物的多个个体中使多个单核苷酸多态性与形状对应的单核苷酸多态性数据，将多个单核苷酸多态性分别矩阵表示的工序；将多个单核苷酸多态性基于遗传结构分类为多个类别的工序；对于各个类别，使用矩阵表示和属于类别的单核苷酸多态性的个数计算基因组相似度矩阵的工序；和将基因组相似度矩阵和遗传结构的参数应用于线性混合模型的工序。

Description

性状预测模型制作方法和性状预测方法

技术领域

本发明涉及一种性状预测模型制作方法和性状预测方法。

背景技术

目前，作为使用人基因组信息的表现型预测，着眼于性状感受性多态性，集中研究了仅使用已经被鉴定的感受性多态性预测表现型的方法(V.Lyssenko et al.,N Engl JMed 2008 vol.359 p.2220-2232；S.Ripatthi et al.,Lanet 2010 Vol.376 p.1393-1400；C.A.Ibrahim-Verbaas et al.,Stroke 2014 vol.45 p.403-412)。这些方法具体列举与性状相关的数个到数百个多态性，推定各个多态性的重要性，能够将各个多态性对性状的影响数值化，从这点上说，容易直观地理解。

但是，仅使用感受性多态性这一点是该方法的缺点，是有限度的。这是因为在几乎全部的多因子性状中，在成为实际的原因的感受性多态性中被鉴定的感受性多态性极少。例如，推定能够由遗传因素说明身高的方差中的约80％，但是能够由已知的感受性多态性来说明的方差只不过为5％左右。

因此，非专利文献(D.Speed and D.J.Balding,Genome Research 2015 vol.24p.1550-1557)中记载了不管是不是感受性多态性都使用网罗性(全基因组)的多态性信息的表现型预测法。即，将多个单核苷酸多态性(Single Nucleotide Polymorphism；SNP)分解为多个类别(category)，应用线性混合模型。但是，在该方法中，预测的精度也还不充分。

发明内容

发明所要解决的课题

本发明的目的在于提供一种用于从单核苷酸多态性数据预测性状的表现型的性状预测模型制作方法和能够以高的准确率预测性状的性状预测方法。

用于解决课题的方法

本发明的发明人研究了不管是否为感受性多态性都使用网罗性(全基因组)的多态性信息的统计学处理方法。即，发现：以包含身高或HbAlc检查值的27个量的性状、和包含患有糖尿病或低HDL胆固醇血症的5个质的性状为例，将约100万个多态性作为基因组信息，将性别年龄信息用作调节变量，应用线性混合模型，对性状进行学习而制作预测模型，其结果，该预测与实测值存在高度地相关。这样，我们完成了从基因组信息预测表现型的预测方法。

本发明的一个实施方式为一种性状预测模型制作方法，其使用在生物的多个个体中使多个单核苷酸多态性与形状对应的单核苷酸多态性数据，制作预测多因子性性状的表现型的预测模型，该性状预测模型制作方法包括：将上述多个单核苷酸多态性分别矩阵表示的工序；将上述多个单核苷酸多态性基于遗传结构分类为多个类别的工序；对于各个上述类别，使用上述矩阵表示和属于上述类别的上述单核苷酸多态性的个数计算基因组相似度矩阵的工序；和将上述基因组相似度矩阵和上述遗传结构的参数应用于线性混合模型的工序。上述遗传结构可以为效应量(effect size)和/或等位基因频率(allelefrequency)。

本发明的另一实施方式为一种性状预测模型制作方法，其使用在生物的多个个体中使多个单核苷酸多态性、性别、年龄与形状对应的单核苷酸多态性数据，制作预测多因子性性状的表现型的性状预测模型，该性状预测模型制作方法包括：将上述多个单核苷酸多态性分别矩阵表示的工序；将上述性别和/或年龄矩阵表示的工序；使用上述单核苷酸多态性的矩阵表示和上述单核苷酸多态性的个数计算基因组相似度矩阵的工序；和将上述基因组相似度矩阵、和上述性别和/或年龄的矩阵应用于线性混合模型的工序。上述性状可以选自身高、体重、最高血压、最低血压、血糖、HbAlc、红细胞数、血色素、血细胞容积、白细胞数、血小板数、嗜中性粒细胞的比例、淋巴细胞的比例、单核细胞的比例、嗜酸性粒细胞的比例、嗜碱性粒细胞的比例、大型不染色细胞的比例、AST(GOT)、ALT(GPT)、γ-GTP、总胆固醇、中性脂肪、HDL胆固醇、LDL胆固醇、肌酐、尿素氮、尿酸、糖尿病、高血压症、高LDL胆固醇血症、低HDL胆固醇血症、高甘油三酯血症。

本发明的再一实施方式为一种性状预测方法，其在生物个体中从多个单核苷酸多态性数据预测该生物个体的性状，该性状预测方法包括：使用学习用数据集，按照上述预测模型制作方法制作预测模型的工序；确定线性混合模型的参数和潜在变量的工序；和将该生物个体的上述多个单核苷酸多态性数据应用于上述预测模型的工序。

本发明的再一实施方式为一种用于在生物个体中从多个单核苷酸多态性数据预测该生物个体的性状的程序，其中，使计算机执行上述性状预测方法。本发明的一个实施方式可以为一种存储有本程序的计算机可读取的存储介质。

本发明的再一实施方式为一种用于在生物个体中从多个单核苷酸多态性数据预测该生物个体的性状的性状预测系统，其具备：

(i)用于输入上述生物个体的多个单核苷酸多态性数据的输入装置；

(ii)使用输入的数据，执行上述程序的计算机；和

(iii)用于输出由(ii)得到的结果的输出装置。

＝＝与关联文献的交叉引用＝＝

本申请主张基于在2014年11月25日申请的日本国专利申请2014-238252的优先权，通过引用该基础申请，包含在本说明书中。

附图说明

图1是表示在本发明的一个实施例中，着眼于HbAlc检查值和身高，利用遗传结构分解法的贡献率的推定结果的图(Q_es＝50、Q_RAF＝1的情况)。

图2是表示在本发明的一个实施例中，着眼于HbAlc检查值和身高，利用遗传结构分解法的贡献率的推定结果的图(Q_es＝1、Q_RAF＝30的情况)。

图3是在本发明的一个实施例中实施例中所使用的性状的一览。

图4是表示在本发明的一个实施例中27个量的性状的精度评价结果的图。对(1)仅使用单核苷酸多态性信息、且Q_es＝1、Q_RAF＝1的情况(没有遗传结构分解)、(2)仅使用性别·年龄信息的情况、(3)使用单核苷酸多态性信息和性别·年龄信息这两者、且Q_es＝1、Q_RAF＝1的情况(没有遗传结构分解；本发明的实施例)这3种方法进行比较。作为评价指标，使用实测值和预测值的R²(相关系数的平方)，利用二折交叉验证(2-fold cross validation)法进行评价。

图5是表示在本发明的一个实施例中5个质的性状的精度评价结果的图。对(1)仅使用单核苷酸多态性信息、且Q_es＝1、Q_RAF＝1的情况(没有遗传结构分解)、(2)仅使用性别·年龄信息的情况、(3)使用单核苷酸多态性信息和性别·年龄信息这两者、且Q_es＝1、Q_RAF＝1的情况(没有遗传结构分解；本发明的实施例)这3种方法进行比较。作为评价指标，使用AUC，利用二折交叉验证法进行评价。

图6是表示在本发明的一个实施例中样本量充分大时27个量的性状的精度评价结果的图。对(1)仅使用单核苷酸多态性信息、且Q_es＝1、Q_RAF＝1的情况(没有遗传结构分解)、(2)仅使用性别·年龄信息的情况、(3)使用单核苷酸多态性信息和性别·年龄信息这两者、且Q_es＝1、Q_RAF＝1的情况(没有遗传结构分解；本发明的实施例)、(4)使用单核苷酸多态性信息和性别·年龄信息这两者、且Q_es＝10、Q_RAF＝1的情况(有遗传结构分解；本发明的实施例)这4种方法进行比较。作为评价指标，使用实测值和预测值的R²(相关系数的平方)，利用二折交叉验证法进行评价。

图7是表示在本发明的一个实施例中，样本量充分地大的情况的5的质的性状的精度评价结果的图。对(1)仅使用单核苷酸多态性信息、且Q_es＝1、Q_RAF＝1的情况(没有遗传结构分解)、(2)仅使用性别·年龄信息的情况、(3)使用单核苷酸多态性信息和性别·年龄信息这两者、且Q_es＝1、Q_RAF＝1的情况(没有遗传结构分解；本发明的实施例)、(4)使用单核苷酸多态性信息和性别·年龄信息这两者、且Q_es＝10、Q_RAF＝1的情况(有遗传结构分解；本发明的实施例)这4种方法进行比较。作为评价指标，使用AUC，利用二折交叉验证法进行评价。

具体实施方式

本发明的目的、特征、优点及其构思通过本说明书的记载，对本领域技术人员而言是清楚的，根据本说明书的记载，只要是本领域技术人员，就能够容易地再现本发明。以下所记载的发明的实施方式和具体的实施例等示出本发明的优选的实施方式，是为了例示或说明而示出的，但本发明并不限定于这些。在本说明书中所公开的本发明的意图以及范围内，基于本说明书的记载，能够各种各样地进行变更，这对本领域技术人员而言是清楚的。

本发明的性状预测模型制作方法为使用在生物的多个个体中使多个单核苷酸多态性(Single Nucleotide Polymorphism；SNP)与形状对应的单核苷酸多态性数据制作预测多因子性性状的表现型的预测模型的预测模型制作方法，其包括：将多个单核苷酸多态性分别矩阵表示的工序；将多个单核苷酸多态性基于遗传结构分类为多个类别的工序；对于各个类别，使用单核苷酸多态性的矩阵表示和属于各类别的单核苷酸多态性的个数计算基因组相似度矩阵的工序；和将基因组相似度矩阵和遗传结构的参数应用于线性混合模型的工序。或者，为一种性状预测模型制作方法，使用在生物的多个个体中使多个单核苷酸多态性、性别、年龄与形状对应的单核苷酸多态性数据，制作预测多因子性性状的表现型的性状预测模型，该包括：将多个单核苷酸多态性分别矩阵表示的工序；将性别和/或年龄矩阵表示的工序；使用单核苷酸多态性的矩阵表示和单核苷酸多态性的个数计算基因组相似度矩阵的工序；和将基因组相似度矩阵、和性别和/或年龄的矩阵应用于线性混合模型的工序。

这里使用的单核苷酸多态性数据中所含的单核苷酸多态性没有特别限定，可以是作为对象的性状的感受性多态性，也可以不是。使用的单核苷酸多态性的数量、种类也没有特别限定，优选网罗在作为对象的生物个体集合中存在1％以上的单核苷酸多态性。

作为对象的生物没有特别限定，可以为植物，也可以为动物，优选为脊椎动物，更优选为哺乳类，最优选为人。作为对象的性状只要是多因子性性状，就没有特别限定，例如，在人的情况下，能够例示与身高、体重、BMI等体型有关的指标；血压(最高血压、最低血压)、HbAlc、红细胞数、血色素、血细胞容积、白细胞数、血小板数、嗜中性粒细胞的比例、淋巴细胞的比例、单核细胞的比例、嗜酸性粒细胞的比例、嗜碱性粒细胞的比例、大型不染色细胞的比例、有核红细胞数、AST(GOT)、ALT(GPT)、γ-GTP、总胆固醇、中性脂肪、HDL胆固醇、LDL胆固醇、肌酐、尿素氮、估计肾小球过滤量、尿酸等血液检查评价值；记忆力、理解力、智商指数、运动技术等能力；肥胖·糖尿病·高血压·循环器官疾病等成人病、癌、过敏症·自免疫病等免疫疾病等病的患病容易程度等。

使用本发明的预测模型制作方法，能够进行从多个单核苷酸多态性数据预测生物个体的性状的性状预测。即，使用学习用数据集，按照本发明的性状预测模型制作方法制作性状预测模型，确定线性混合模型的参数和潜在变量，将生物个体的多个单核苷酸多态性数据应用于性状预测模型，由此，能够预测该生物个体的性状。

下面，对本发明的预测模型制作方法和性状预测方法，一边列举实施例，一边具体且详细地进行说明，但本发明并不限定于这些实施方式或实施例。

(1)性别、年龄信息的矩阵表示

阐述对N个人设为可得到性别年龄数据、作为N×6矩阵X表示的方法。X的行向量是指各个人的性别和年龄的信息。将矩阵X的i行j列要素记为X(i，j)。年龄作为类别数据使用，该类别的段数没有特别限定。这里，作为一例，对设为39岁以下、40岁以上49岁以下、50岁以上59岁以下、60岁以上69岁以下、70岁以上的5段的方法进行阐述。

性别的信息在矩阵X的第1列表示。在第i个人的个人性别为男性的情况下记为“M”、为女性的情况下记为“F”时，X(i，1)用以下的式子定义。

年龄的信息以矩阵X的第2～6列表示。将第i个人的个人年龄记为age_i时，X(i，2)、X(i，3)、X(i，4)、X(i，5)、X(i，6)用以下的式子定义。

(2)基因组信息的矩阵表示

阐述对N个人设为可得到p个单核苷酸多态性(SNP)数据、作为N×p矩阵(N、p为1以上的整数)W表示的方法。W的行向量是指各个人的多态性信息(profile)，W的列向量是指表示某个多态性部位的个人间的不同的向量。

第i个的个人的第j个多态性由2个等位基因构成。在两个等位基因与人代表序列一致的情况下记为“AA”，在仅一个等位基因与人代表序列一致的情况下记为“AB”，在两个等位基因与人代表序列不一致的情况下记为“BB”。另外，将矩阵W的i行j列要素记为W(i，j)。另外，将第j个多态性的等位基因频率记为f_j。基于这些标记，W(i，j)用以下的式子定义。

这里，关于代表序列，对各多态性确定任意的碱基，设为具有这些的序列，例如，可以为作为基因组工程的成果发表的序列。

(3)基于遗传结构的SNP的分类

以下，阐述将p个SNP基于遗传结构分类为多个类别的方法。表示遗传结构的具体的参数包括作为表示与性状的关联性的强度的参数的效应量(effect size)、和表示SNP的人的集合中的频率的等位基因频率(allele frequency)。作为效应量的代表的具体例，可以列举相对危险度(relative risk)、比值比(odds ratio)、方差贡献率、回归系数(regression coefficient)。等位基因频率中能够例示危险等位基因频率(risk allelefrequency；RAF)或最小等位基因频率(minor allele frequency；MAF)。本发明的方法中使用的遗传结构参数没有特别限定，这里，作为一例，示出使用回归系数和RAF的情况的分类步骤。

(4)分解步骤(1)效应量的Q_es分位数的计算

对正的整数Q_es，计算将分布进行了Q_es等分的(Q_es－1)个的值。以下，表示具体的分位数的计算方法，但是分位数的计算方法不限定于此。将对SNP的效应量以升序排列好的数据记为es₁≤es₂≤…≤es_p时，第i个Q_es分位数(1≤i≤Q_es－1)用以下的式子计算。

这里，分别表示舍去了m_i的小数部分得到的值、进位得到的值。另外，为了方便，和用以下的式子确定。

(5)分解步骤(2)RAF的Q_RAF分位数的计算

对正的整数Q_RAF，计算将分布进行了Q_RAF等分的(Q_RAF－1)个的值。以下，表示具体的分位数的计算方法，但是分位数的计算方法不限定于此。将对SNP的RAF以升序排列好的数据记为RAF₁≤RAF₂≤…≤RAF_p时，第j个Q_RAF分位数(1＜j＜Q_RAF－1)用以下的式子计算。

这里，分别表示舍去了m_j的小数部分得到的值、进位得到的值。另外，为了方便，和用以下的式子确定。

(6)SNP的分类

使用通过上述步骤计算得到的(1≤i≤Q_es)、Q_RAF分位数(1≤j≤Q_RAF)的结果，将p个SNP分类为Q_es×Q_RAF的类别。将第k个SNP(1≤k≤p)的效应量记为es_k，将RAF记为RAF_k。此时，第k个SNP的类别cat_k用以下的式子定义。

cat_k＝(i^k，j^k)

(7)遗传结构参数的推定

效应量、RAF等遗传结构参数能够通过多态性和性状的关联分析来推定。多态性和性状的关联分析使用通常能够获得的程序进行即可，例如，可以使用在因特网上能够获得的PLINK或GCTA。

(8)基因组相似度矩阵的计算

基因组相似度矩阵为表示基于基因组信息的个人间的相似度的N×N矩阵。基因组相似度矩阵设为对每个Q_es×Q_RAF的类别进行计算的基因组相似度矩阵。以下，示出代表性的基因组相似度矩阵A的计算式，但基因组相似度矩阵的计算式并不限定于此。

这里，A^(i，j)是指类别(i，j)的基因组相似度矩阵(N×N维(次元))，p^(i，j)是指属于类别(i，j)的SNP的个数，W^(i，j)是指从矩阵W仅切出属于类别(i，j)的SNP的列向量的部分矩阵(N×p^(i，j)维)，W^(i，j)′是指矩阵W^(i，j)的转置矩阵。

(9)向线性混合模型的应用

(9－1)使用遗传结构的情况

作为使用基因组信息的预测模型，用以下的式子表示线性混合模型。

y＝μ1_N+g+ε

这里，y是指性状向量(N维)，μ是指性状的平均值，l_N是指由l构成的列向量(N维)，g是指遗传因素对性状的贡献向量(N维)，ε是指剩余向量(N维)，g^(i，j)是指属于类别(i，j)的SNP向性状的贡献向量(N维)，A^(i，j)是指与类别(i，j)对应的基因组相似度(N×N维)，I是指单元矩阵(N×N维)，是指多变量正态分布(平均为零向量，方差－协方差结构按照)，是指多变量正态分布(平均为零向量，方差－协方差结构按照)。

(9－2)使用性别年龄信息的情况

作为使用性别年龄信息的预测模型，用以下的式子表示线性混合模型。

y＝μ1_N+Xβ+g+ε

这里，y是指性状向量(N维)，μ是指性状的平均值，l_N是指由l构成的列向量(N维)，X是指包含性别年龄信息的矩阵(N×6维)，β是指对性别或年龄变量的重要性(6维)，g是指遗传因素对性状的贡献向量(N维)，ε是指剩余向量(N维)，g^(i，j)是指属于类别(i，j)的SNP向性状的贡献向量(N维)，A是指Q_es＝1、Q_RAF＝1时的基因组相似度(N×N维)，I是指单元矩阵(N×N维)，是指多变量正态分布(平均为零向量，方差－协方差结构按照)，是指多变量正态分布(平均为零向量，方差－协方差结构按照)。

(9－3)使用遗传结构和性别年龄信息的情况

作为使用基因组信息和性别年龄信息的预测模型，用以下的式子表示线性混合模型。

y＝μ1_N+Xβ+g+ε

这里，y是指性状向量(N维)，μ是指性状的平均值，l_N是指由l构成的列向量(N维)，X是指包含性别年龄信息的矩阵(N×6维)，β是指对性别或年龄变量的重要性(6维)，g是指遗传因素对性状的贡献向量(N维)，ε是指剩余向量(N维)，g^(i，j)是指属于类别(i，j)的SNP向性状的贡献向量(N维)，A^(i，j)是指与类别(i，j)对应的基因组相似度(N×N维)，I是指单元矩阵(N×N维)，是指多变量正态分布(平均为零向量，方差－协方差结构按照)，是指多变量正态分布(平均为零向量，方差－协方差结构按照)。

(10)线性混合模型的参数推定

线性混合模型的参数(μ、β、)推定能够通过约束最大似然法(REML)解出。关于REML，使用通常能够获得的程序即可，例如，可以使用能够从网上无偿下载的GCTA或商用程序ASReml。GCTA时，能够进行Average Information REML、Fisher scoring REML、EM的参数推定演算，ASReml时，能够进行Average Information REML的参数推定演算。

以下，将推得的参数记为

(11)贡献率的推定

使用REML的参数推定值利用以下的式子定义属于类别(i，j)的SNP的贡献率

另外，利用以下的式子定义全部SNP的贡献率的总和V_G/V_P。

(12)遗传因素的贡献的预测

线性混合模型的参数潜在变量(g、g^(i，j)、ε)不包含在REML似然函数中，无法推定，但是能够通过以下的式子来预测。

这里，P是指通过计算的N×N矩阵，V是指通过计算的N×N矩阵，y是指性状向量(N维)，是指通过计算的N×7矩阵。

以下，将预测得到的潜在变量记为

(13)性状预测方法

使用上述性状预测模型，

从具备全部基因组信息、性别年龄信息、性状信息的名为Nt的学习用数据集(y_t、X_t、W_t)，通过上述方法得到参数的推定值和潜在变量的预测值另外，得到了预测对象名为N_v的基因组信息(W_v)和性别年龄信息(X_v)，但是，性状信息(y_v)仍是未知的。此时，未知的形状信息的预测值(N维)通过以下的式子计算。

这里，W_t ^(i，j)是指从学习用数据集的基因组信息矩阵W_t切出的仅属于类别(i，j)的SNP列向量的部分矩阵(N_t×p^(i，j)维)，A^(i，j)是指从W_t ^(i.j)计算的基因组相似度矩阵(N_t×N_t维)，是指从学习用数据集计算的潜在变量的预测值(N_t维)，是指从学习用数据集计算的性状的平均值，是指由l构成的列向量(N_v维)，是指从学习用数据集计算的属于类别(i，j)的各SNP的重要性向量(p^(i，j)维)，W_v ^(i.j)是指从预测对象数据集的基因组信息矩阵W_v切出的仅属于类别(i，j)的SNP的列向量的部分矩阵(N_v×p^(i，j)维)。

作为式(1)的特殊例，可以考虑以下的式子(2)、(3)。

式(2)是仅使用性别年龄信息的性状预测式，式(3)是仅使用基因组信息的性状预测式。另外，在Q_es＝1、Q_RAF＝1时，作为式(1)、式(3)的特殊例，可以分别考虑以下的式子(4)、(5)。

将式(1)称为“遗传结构分解+性别年龄调整法”，将式(2)称为“性别年龄调整法”，将式(3)称为“遗传结构分解法”，将式(4)称为“遗传结构非分解+性别年龄调整法”，将式(5)称为“遗传结构非分解法”。

(14)性状预测系统

为了将上述性状预测方法进行自动化，能够程序化，使得能够在计算机执行。这样制作得到的程序也在本发明的权利范围内。

进而，也能够形成具备用于执行该程序的计算机以及用于输入单核苷酸多态性、性别·年龄信息等的输入装置和用于输出通过程序的执行而得到的结果的输出装置的性状预测系统。

实施例

以下记载的本实施例的单核苷酸多态性信息利用HumanOmni ExpressExome芯片(Illumina公司)进行测定。

实施例1

(方法)

本实施例中，作为多因子性的量的性状的一例，着眼于身高，使用由TohokuMedical Megabank Project在平成25年所收集的4992名的单核苷酸多态性数据及性别·年龄信息，通过本发明的性状预测模型制作方法制作性状预测模型(使用上述(9－2)性别年龄信息的情况)，推定遗传率。作为对照，对未使用性别、年龄信息的情况，也计算遗传率的推定值，与使用性别、年龄信息的情况进行比较。

接着，分别对(1)仅使用性别·年龄信息的情况、(2)仅使用单核苷酸多态性信息的情况、(3)使用单核苷酸多态性信息和性别·年龄信息两者的情况(本发明的实施例)，利用二折交叉验证法评价性状预测模型的预测精度。作为评价指标，使用实测值和预测值的R²(相关系数的平方)。

(遗传率的推定方法)

在Q_es＝1、Q_RAF＝1的情况下，将性状的方差中可以由遗传因素说明的方差的比例称为遗传率h²。关于遗传率的推定值，使用REML的参数推定值利用以下的式子计算。

(结果)

未使用性别·年龄信息的情况下的遗传率为40.67％，使用性别、年龄信息的情况下的遗传率为82.29％，可知，与未使用性别·年龄信息的情况相比，在使用性别·年龄信息的情况下，遗传率大大提高，身高的方差的一部分可以由性别年龄说明。

关于(1)～(3)的3种情况，利用二折交叉验证法评价预测精度(R²)(平均±标准偏差)，结果为(1)56.89±1.36％、(2)1.45±0.26％、(3)59.63±1.24％，与仅使用性别年龄信息的情况、仅使用基因组信息的情况相比，使用性别年龄信息及基因组信息这两者的情况下，预测精度提高。

实施例2

(方法)

本实施例中，作为多因子性的质的性状的一例，着眼于糖尿病的患病，使用由Tohoku Medical Megabank Project在平成25年所收集的4992名的单核苷酸多态性数据及性别·年龄信息，通过本发明的性状预测模型制作方法制作性状预测模型(使用上述(9－2)性别年龄信息的情况)。这里，根据HbAlc检查值，在其为6.5以上的情况下判定为患有糖尿病，在其低于6.5的情况下判定为没患有糖尿病。分别对(1)仅使用性别·年龄信息的情况、(2)仅使用单核苷酸多态性信息的情况、(3)使用单核苷酸多态性信息和性别、年龄信息两者的情况(本发明的实施例)，利用二折交叉验证法评价性状预测模型的预测精度。作为评价指标，使用AUC。

(结果)

为(1)61.39±1.56％、(2)55.76±0.28％、(3)62.98±0.61％，与仅使用性别年龄信息的情况、仅使用基因组信息的情况相比，使用性别年龄信息及基因组信息这两者的情况下，预测精度提高。

实施例3

(方法)

本实施例中，作为多因子性的量的性状的一例，着眼于HbAlc检查值和身高，使用由Tohoku Medical Megabank Project在平成25年所收集的4992名的单核苷酸多态性数据，利用遗传结构分解法进行贡献率的推定。实施(1)Q_es＝50、Q_RAF＝1的情况、(2)Q_es＝1、Q_RAF＝30的情况这2种情况。

(结果)

在图1中表示(1)Q_es＝50、Q_RAF＝1的情况下的贡献率的推定结果。推定在HbAlc检查值和身高的任一个中，显示中程度的效应量的单核苷酸多态性的贡献率大，显示小的效应量的单核苷酸多态性的贡献率非常小。另外，推定在HbAlc检查值中，显示大的效应量的单核苷酸多态性的贡献大，但在身高中显示大的效应量的单核苷酸多态性的贡献为有限的。

在图2中表示(2)Q_es＝1、Q_RAF＝30的情况的贡献率的推定结果。推定在HbAlc检查值中，不稀有的单核苷酸多态性的贡献率为有限的，稀有的单核苷酸多态性显示非常大的贡献率。另一方面，推定在身高中，稀有的单核苷酸多态性的贡献率不小，但是不稀有的单核苷酸多态性的贡献率也不小。

实施例4

(方法)

在以充分的样本量进行学习的情况下，显示通过遗传结构分解法实现性状预测精度的提高，因此，使用由Tohoku Medical Megabank Project在平成25年所收集的4992名的单核苷酸多态性数据及HbAlc检查值，用验证用数据集进行效应量、等位基因频率的推定和线性混合模型的参数推定，用学习用数据集进行遗传因素的贡献的预测和对单核苷酸多态性的重要性的计算，用验证用数据集进行预测精度的验证。由此，能够评价假定样本量充分大的情况下的预测精度。

分别对(1)Q_es＝1、Q_RAF＝1的情况(没有遗传结构分解)、(2)Q_es＝10、Q_RAF＝1的情况(有遗传结构分解；本发明的实施例)，利用二折交叉验证法评价性状预测模型的预测精度。作为评价指标，使用实测值和预测值的R²(相关系数的平方)。

(结果)

为(1)4.52±0.16％、(2)16.52±0.30％，假定充分的样本量的情况下，与没有遗传结构分解相比，如果有遗传结构分解，则显示预测精度显著地提高。

实施例5

(方法)

本实施例中，以图3所示的27个量的性状和5个质的性状为对象，使用由TohokuMedical Megabank Project在平成25年所收集的4992名的单核苷酸多态性数据，通过本发明的性状预测模型制作方法制作性状预测模型(使用上述(9－3)遗传结构及性别年龄信息的情况)。分别对(1)仅使用单核苷酸多态性信息、且Q_es＝1、Q_RAF＝1的情况(没有遗传结构分解)、(2)仅使用性别·年龄信息的情况、(3)使用单核苷酸多态性信息和性别·年龄信息这两者、且Q_es＝1、Q_RAF＝1的情况(没有遗传结构分解；本发明的实施例)，利用二折交叉验证法评价性状预测模型的预测精度。作为评价指标，在以量的数据为对象的情况下，使用实测值和预测值的R²(相关系数的平方)，在以质的数据为对象的情况下，使用AUC。

(结果)

在图4表示对27个量的性状进行了精度评价的结果，在图5表示对5个质的性状进行了精度评价的结果。关于图4、图5所示的全部27个量的性状及5个质的性状，显示与(1)仅使用单核苷酸多态性信息、且Q_es＝1、Q_RAF＝1的情况(没有遗传结构分解)、(2)仅使用性别·年龄信息的情况相比，(3)使用单核苷酸多态性信息和性别·年龄信息这两者、且Q_es＝1、Q_RAF＝1的情况(没有遗传结构分解；本发明的实施例)的预测精度提高。

实施例6

(方法)

在以充分的样本量进行学习的情况下，显示通过使用性别、年龄信息或单核苷酸多态性信息和性别、年龄信息这两者而实现性状预测精度的提高，因此，以图3所示的27个量的性状及5个质的性状为对象，使用由Tohoku Medical Megabank Project在平成25年所收集的4992名的单核苷酸多态性数据，通过本发明的性状预测模型制作方法制作性状预测模型(使用上述(9－3)遗传结构及性别年龄信息的情况)。分别对(1)仅使用单核苷酸多态性信息、且Q_es＝1、Q_RAF＝1的情况(没有遗传结构分解)、(2)仅使用性别·年龄信息的情况、(3)使用单核苷酸多态性信息和性别·年龄信息这两者、且Q_es＝1、Q_RAF＝1的情况(没有遗传结构分解；本发明的实施例)、(4)使用单核苷酸多态性信息和性别·年龄信息这两者、且Q_es＝10、Q_RAF＝1的情况(有遗传结构分解；本发明的实施例)，利用二折交叉验证法评价性状预测模型的预测精度。作为评价指标，在以量的数据为对象的情况下，使用实测值和预测值的R²(相关系数的平方)，在以质的数据为对象的情况下，使用AUC。用验证用数据集进行效应量、等位基因频率的推定及线性混合模型的参数推定，用学习用数据集进行遗传因素的贡献的预测及对单核苷酸多态性的重要性的计算，用验证用数据集进行预测精度的验证。

(结果)

在图6中表示对27的量的性状进行了精度评价的结果，在图7中表示对5的质的性状进行了精度评价的结果。关于图6、图7所示的全部27个量的性状及5个质的性状，显示：与(1)仅使用单核苷酸多态性信息、且Q_es＝1、Q_RAF＝1的情况(没有遗传结构分解)、(2)仅使用性别·年龄信息的情况相比，(3)使用单核苷酸多态性信息和性别·年龄信息这两者、且Q_es＝1、Q_RAF＝1的情况(没有遗传结构分解；本发明的实施例)的预测精度提高。在将(3)使用单核苷酸多态性信息和性别·年龄信息这两者、且使用Q_es＝1、Q_RAF＝1的情况(没有遗传结构分解；本发明的实施例)与(4)使用单核苷酸多态性信息和性别·年龄信息这两者、且Q_es＝10、Q_RAF＝1的情况(有遗传结构分解；本发明的实施例)进行比较的情况下，在全部的性状中，(4)的预测精度提高。

(结论)

如上所述，如果使用通过本发明的性状预测模型制作方法制作的性状预测模型，与现有的预测方法相比，能够以高的准确率预测性状。此外，通过利用遗传结构分解法进行贡献率的推定，能够阐明性状的遗传结构。

工业上的可利用性

根据本发明，能够提供一种用于从单核苷酸多态性数据预测性状的表现型的性状预测模型制作方法、以及能够以高的准确率预测性状的性状预测方法。

Claims

1.一种性状预测模型制作方法，其特征在于：

使用在生物的多个个体中使多个单核苷酸多态性与形状对应的单核苷酸多态性数据，制作预测多因子性性状的表现型的预测模型，

所述性状预测模型制作方法包括：

将所述多个单核苷酸多态性分别矩阵表示的工序；

将所述多个单核苷酸多态性基于遗传结构分类为多个类别的工序；

对于各个所述类别，使用所述矩阵表示和属于所述类别的所述单核苷酸多态性的个数计算基因组相似度矩阵的工序；和

将所述基因组相似度矩阵和所述遗传结构的参数应用于线性混合模型的工序。

2.如权利要求1所述的性状预测模型制作方法，其特征在于：

所述遗传结构为效应量和/或等位基因频率。

3.一种性状预测模型制作方法，其特征在于：

使用在生物的多个个体中使多个单核苷酸多态性、性别、年龄与形状对应的单核苷酸多态性数据，制作预测多因子性性状的表现型的预测模型，

所述性状预测模型制作方法包括：

将所述多个单核苷酸多态性分别矩阵表示的工序；

将所述性别和/或年龄矩阵表示的工序；

使用所述单核苷酸多态性的矩阵表示和所述单核苷酸多态性的个数计算基因组相似度矩阵的工序；

将所述基因组相似度矩阵、和所述性别和/或年龄的矩阵应用于线性混合模型的工序。

4.如权利要求3所述的性状预测模型制作方法，其特征在于：

所述性状选自身高、体重、最高血压、最低血压、血糖、HbAlc、红细胞数、血色素、血细胞容积、白细胞数、血小板数、嗜中性粒细胞的比例、淋巴细胞的比例、单核细胞的比例、嗜酸性粒细胞的比例、嗜碱性粒细胞的比例、大型不染色细胞的比例、AST(GOT)、ALT(GPT)、γ-GTP、总胆固醇、中性脂肪、HDL胆固醇、LDL胆固醇、肌酐、尿素氮、尿酸、糖尿病、高血压症、高LDL胆固醇血症、低HDL胆固醇血症、高甘油三酯血症。

5.一种性状预测方法，其特征在于：

在生物个体中，从多个单核苷酸多态性数据预测该生物个体的性状，

所述性状预测方法包括：

使用学习用数据集，按照权利要求1～4中任一项所述的性状预测模型制作方法制作性状预测模型的工序；

确定线性混合模型的参数和潜在变量的工序；和

将该生物个体的所述多个单核苷酸多态性数据应用于所述性状预测模型的工序。

6.一种程序，其特征在于：

用于在生物个体中从多个单核苷酸多态性数据预测该生物个体的性状，

所述程序使计算机执行权利要求1～5中任一项所述的方法。

7.一种计算机可读取的存储介质，其特征在于：

存储有权利要求6所述的程序。

8.一种性状预测系统，其特征在于：

所述性状预测系统具备：

(i)用于输入所述生物个体的多个单核苷酸多态性数据的输入装置；

(ii)使用输入的数据，执行权利要求7所述的程序的计算机；和

(iii)用于输出由(ii)得到的结果的输出装置。