CN107004066A - 性状预测模型制作方法和性状预测方法 - Google Patents
性状预测模型制作方法和性状预测方法 Download PDFInfo
- Publication number
- CN107004066A CN107004066A CN201580064102.2A CN201580064102A CN107004066A CN 107004066 A CN107004066 A CN 107004066A CN 201580064102 A CN201580064102 A CN 201580064102A CN 107004066 A CN107004066 A CN 107004066A
- Authority
- CN
- China
- Prior art keywords
- snp
- matrix
- character
- sex
- trait
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 238000002360 preparation method Methods 0.000 title claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims abstract description 65
- 230000002068 genetic effect Effects 0.000 claims abstract description 52
- UELITFHSCLAHKR-UHFFFAOYSA-N acibenzolar-S-methyl Chemical compound CSC(=O)C1=CC=CC2=C1SN=N2 UELITFHSCLAHKR-UHFFFAOYSA-N 0.000 claims description 19
- 230000000694 effects Effects 0.000 claims description 16
- 108090000623 proteins and genes Proteins 0.000 claims description 12
- 230000036772 blood pressure Effects 0.000 claims description 7
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 claims description 6
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 claims description 6
- 206010012601 diabetes mellitus Diseases 0.000 claims description 6
- 108010028554 LDL Cholesterol Proteins 0.000 claims description 5
- 210000004027 cell Anatomy 0.000 claims description 5
- 210000004369 blood Anatomy 0.000 claims description 4
- 239000008280 blood Substances 0.000 claims description 4
- 210000003714 granulocyte Anatomy 0.000 claims description 4
- 206010020772 Hypertension Diseases 0.000 claims description 3
- LEHOTFFKMJEONL-UHFFFAOYSA-N Uric Acid Chemical compound N1C(=O)NC(=O)C2=C1NC(=O)N2 LEHOTFFKMJEONL-UHFFFAOYSA-N 0.000 claims description 3
- TVWHNULVHGKJHS-UHFFFAOYSA-N Uric acid Natural products N1C(=O)NC(=O)C2NC(=O)NC21 TVWHNULVHGKJHS-UHFFFAOYSA-N 0.000 claims description 3
- PNNCWTXUWKENPE-UHFFFAOYSA-N [N].NC(N)=O Chemical compound [N].NC(N)=O PNNCWTXUWKENPE-UHFFFAOYSA-N 0.000 claims description 3
- 230000037396 body weight Effects 0.000 claims description 3
- 235000012000 cholesterol Nutrition 0.000 claims description 3
- 229940109239 creatinine Drugs 0.000 claims description 3
- 210000003743 erythrocyte Anatomy 0.000 claims description 3
- 210000000265 leukocyte Anatomy 0.000 claims description 3
- 210000001616 monocyte Anatomy 0.000 claims description 3
- 210000000440 neutrophil Anatomy 0.000 claims description 3
- 238000010186 staining Methods 0.000 claims description 3
- 229940116269 uric acid Drugs 0.000 claims description 3
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 claims description 2
- 239000008103 glucose Substances 0.000 claims description 2
- 208000006575 hypertriglyceridemia Diseases 0.000 claims description 2
- 210000004698 lymphocyte Anatomy 0.000 claims description 2
- 230000007935 neutral effect Effects 0.000 claims description 2
- 238000003860 storage Methods 0.000 claims description 2
- 230000002792 vascular Effects 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 27
- 238000011156 evaluation Methods 0.000 description 19
- 238000000354 decomposition reaction Methods 0.000 description 18
- 238000002790 cross-validation Methods 0.000 description 11
- 230000035945 sensitivity Effects 0.000 description 9
- 108700028369 Alleles Proteins 0.000 description 8
- 238000009826 distribution Methods 0.000 description 8
- 238000007689 inspection Methods 0.000 description 8
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 239000002773 nucleotide Substances 0.000 description 5
- 125000003729 nucleotide group Chemical group 0.000 description 5
- 238000000205 computational method Methods 0.000 description 4
- 238000013480 data collection Methods 0.000 description 4
- 102000054765 polymorphisms of proteins Human genes 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 101000856500 Bacillus subtilis subsp. natto Glutathione hydrolase proenzyme Proteins 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000003979 eosinophil Anatomy 0.000 description 2
- 238000005534 hematocrit Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- 208000026935 allergic disease Diseases 0.000 description 1
- 230000007815 allergy Effects 0.000 description 1
- 238000009534 blood test Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000024924 glomerular filtration Effects 0.000 description 1
- 229930182470 glycoside Natural products 0.000 description 1
- 150000002338 glycosides Chemical class 0.000 description 1
- 208000026278 immune system disease Diseases 0.000 description 1
- 210000002751 lymph Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 210000003924 normoblast Anatomy 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000012109 statistical procedure Methods 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/20—Probabilistic models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Physiology (AREA)
- Chemical & Material Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Ecology (AREA)
Abstract
本发明提供一种用于由单核苷酸多态性数据预测性状的表现型的性状预测模型制作方法、以及能够以高的准确率预测性状的性状预测方法。即,一种性状预测模型制作方法,包括:使用在生物的多个个体中使多个单核苷酸多态性与形状对应的单核苷酸多态性数据,将多个单核苷酸多态性分别矩阵表示的工序;将多个单核苷酸多态性基于遗传结构分类为多个类别的工序;对于各个类别,使用矩阵表示和属于类别的单核苷酸多态性的个数计算基因组相似度矩阵的工序;和将基因组相似度矩阵和遗传结构的参数应用于线性混合模型的工序。
Description
技术领域
本发明涉及一种性状预测模型制作方法和性状预测方法。
背景技术
目前,作为使用人基因组信息的表现型预测,着眼于性状感受性多态性,集中研究了仅使用已经被鉴定的感受性多态性预测表现型的方法(V.Lyssenko et al.,N Engl JMed 2008 vol.359 p.2220-2232;S.Ripatthi et al.,Lanet 2010 Vol.376 p.1393-1400;C.A.Ibrahim-Verbaas et al.,Stroke 2014 vol.45 p.403-412)。这些方法具体列举与性状相关的数个到数百个多态性,推定各个多态性的重要性,能够将各个多态性对性状的影响数值化,从这点上说,容易直观地理解。
但是,仅使用感受性多态性这一点是该方法的缺点,是有限度的。这是因为在几乎全部的多因子性状中,在成为实际的原因的感受性多态性中被鉴定的感受性多态性极少。例如,推定能够由遗传因素说明身高的方差中的约80%,但是能够由已知的感受性多态性来说明的方差只不过为5%左右。
因此,非专利文献(D.Speed and D.J.Balding,Genome Research 2015 vol.24p.1550-1557)中记载了不管是不是感受性多态性都使用网罗性(全基因组)的多态性信息的表现型预测法。即,将多个单核苷酸多态性(Single Nucleotide Polymorphism;SNP)分解为多个类别(category),应用线性混合模型。但是,在该方法中,预测的精度也还不充分。
发明内容
发明所要解决的课题
本发明的目的在于提供一种用于从单核苷酸多态性数据预测性状的表现型的性状预测模型制作方法和能够以高的准确率预测性状的性状预测方法。
用于解决课题的方法
本发明的发明人研究了不管是否为感受性多态性都使用网罗性(全基因组)的多态性信息的统计学处理方法。即,发现:以包含身高或HbAlc检查值的27个量的性状、和包含患有糖尿病或低HDL胆固醇血症的5个质的性状为例,将约100万个多态性作为基因组信息,将性别年龄信息用作调节变量,应用线性混合模型,对性状进行学习而制作预测模型,其结果,该预测与实测值存在高度地相关。这样,我们完成了从基因组信息预测表现型的预测方法。
本发明的一个实施方式为一种性状预测模型制作方法,其使用在生物的多个个体中使多个单核苷酸多态性与形状对应的单核苷酸多态性数据,制作预测多因子性性状的表现型的预测模型,该性状预测模型制作方法包括:将上述多个单核苷酸多态性分别矩阵表示的工序;将上述多个单核苷酸多态性基于遗传结构分类为多个类别的工序;对于各个上述类别,使用上述矩阵表示和属于上述类别的上述单核苷酸多态性的个数计算基因组相似度矩阵的工序;和将上述基因组相似度矩阵和上述遗传结构的参数应用于线性混合模型的工序。上述遗传结构可以为效应量(effect size)和/或等位基因频率(allelefrequency)。
本发明的另一实施方式为一种性状预测模型制作方法,其使用在生物的多个个体中使多个单核苷酸多态性、性别、年龄与形状对应的单核苷酸多态性数据,制作预测多因子性性状的表现型的性状预测模型,该性状预测模型制作方法包括:将上述多个单核苷酸多态性分别矩阵表示的工序;将上述性别和/或年龄矩阵表示的工序;使用上述单核苷酸多态性的矩阵表示和上述单核苷酸多态性的个数计算基因组相似度矩阵的工序;和将上述基因组相似度矩阵、和上述性别和/或年龄的矩阵应用于线性混合模型的工序。上述性状可以选自身高、体重、最高血压、最低血压、血糖、HbAlc、红细胞数、血色素、血细胞容积、白细胞数、血小板数、嗜中性粒细胞的比例、淋巴细胞的比例、单核细胞的比例、嗜酸性粒细胞的比例、嗜碱性粒细胞的比例、大型不染色细胞的比例、AST(GOT)、ALT(GPT)、γ-GTP、总胆固醇、中性脂肪、HDL胆固醇、LDL胆固醇、肌酐、尿素氮、尿酸、糖尿病、高血压症、高LDL胆固醇血症、低HDL胆固醇血症、高甘油三酯血症。
本发明的再一实施方式为一种性状预测方法,其在生物个体中从多个单核苷酸多态性数据预测该生物个体的性状,该性状预测方法包括:使用学习用数据集,按照上述预测模型制作方法制作预测模型的工序;确定线性混合模型的参数和潜在变量的工序;和将该生物个体的上述多个单核苷酸多态性数据应用于上述预测模型的工序。
本发明的再一实施方式为一种用于在生物个体中从多个单核苷酸多态性数据预测该生物个体的性状的程序,其中,使计算机执行上述性状预测方法。本发明的一个实施方式可以为一种存储有本程序的计算机可读取的存储介质。
本发明的再一实施方式为一种用于在生物个体中从多个单核苷酸多态性数据预测该生物个体的性状的性状预测系统,其具备:
(i)用于输入上述生物个体的多个单核苷酸多态性数据的输入装置;
(ii)使用输入的数据,执行上述程序的计算机;和
(iii)用于输出由(ii)得到的结果的输出装置。
==与关联文献的交叉引用==
本申请主张基于在2014年11月25日申请的日本国专利申请2014-238252的优先权,通过引用该基础申请,包含在本说明书中。
附图说明
图1是表示在本发明的一个实施例中,着眼于HbAlc检查值和身高,利用遗传结构分解法的贡献率的推定结果的图(Qes=50、QRAF=1的情况)。
图2是表示在本发明的一个实施例中,着眼于HbAlc检查值和身高,利用遗传结构分解法的贡献率的推定结果的图(Qes=1、QRAF=30的情况)。
图3是在本发明的一个实施例中实施例中所使用的性状的一览。
图4是表示在本发明的一个实施例中27个量的性状的精度评价结果的图。对(1)仅使用单核苷酸多态性信息、且Qes=1、QRAF=1的情况(没有遗传结构分解)、(2)仅使用性别·年龄信息的情况、(3)使用单核苷酸多态性信息和性别·年龄信息这两者、且Qes=1、QRAF=1的情况(没有遗传结构分解;本发明的实施例)这3种方法进行比较。作为评价指标,使用实测值和预测值的R2(相关系数的平方),利用二折交叉验证(2-fold cross validation)法进行评价。
图5是表示在本发明的一个实施例中5个质的性状的精度评价结果的图。对(1)仅使用单核苷酸多态性信息、且Qes=1、QRAF=1的情况(没有遗传结构分解)、(2)仅使用性别·年龄信息的情况、(3)使用单核苷酸多态性信息和性别·年龄信息这两者、且Qes=1、QRAF=1的情况(没有遗传结构分解;本发明的实施例)这3种方法进行比较。作为评价指标,使用AUC,利用二折交叉验证法进行评价。
图6是表示在本发明的一个实施例中样本量充分大时27个量的性状的精度评价结果的图。对(1)仅使用单核苷酸多态性信息、且Qes=1、QRAF=1的情况(没有遗传结构分解)、(2)仅使用性别·年龄信息的情况、(3)使用单核苷酸多态性信息和性别·年龄信息这两者、且Qes=1、QRAF=1的情况(没有遗传结构分解;本发明的实施例)、(4)使用单核苷酸多态性信息和性别·年龄信息这两者、且Qes=10、QRAF=1的情况(有遗传结构分解;本发明的实施例)这4种方法进行比较。作为评价指标,使用实测值和预测值的R2(相关系数的平方),利用二折交叉验证法进行评价。
图7是表示在本发明的一个实施例中,样本量充分地大的情况的5的质的性状的精度评价结果的图。对(1)仅使用单核苷酸多态性信息、且Qes=1、QRAF=1的情况(没有遗传结构分解)、(2)仅使用性别·年龄信息的情况、(3)使用单核苷酸多态性信息和性别·年龄信息这两者、且Qes=1、QRAF=1的情况(没有遗传结构分解;本发明的实施例)、(4)使用单核苷酸多态性信息和性别·年龄信息这两者、且Qes=10、QRAF=1的情况(有遗传结构分解;本发明的实施例)这4种方法进行比较。作为评价指标,使用AUC,利用二折交叉验证法进行评价。
具体实施方式
本发明的目的、特征、优点及其构思通过本说明书的记载,对本领域技术人员而言是清楚的,根据本说明书的记载,只要是本领域技术人员,就能够容易地再现本发明。以下所记载的发明的实施方式和具体的实施例等示出本发明的优选的实施方式,是为了例示或说明而示出的,但本发明并不限定于这些。在本说明书中所公开的本发明的意图以及范围内,基于本说明书的记载,能够各种各样地进行变更,这对本领域技术人员而言是清楚的。
本发明的性状预测模型制作方法为使用在生物的多个个体中使多个单核苷酸多态性(Single Nucleotide Polymorphism;SNP)与形状对应的单核苷酸多态性数据制作预测多因子性性状的表现型的预测模型的预测模型制作方法,其包括:将多个单核苷酸多态性分别矩阵表示的工序;将多个单核苷酸多态性基于遗传结构分类为多个类别的工序;对于各个类别,使用单核苷酸多态性的矩阵表示和属于各类别的单核苷酸多态性的个数计算基因组相似度矩阵的工序;和将基因组相似度矩阵和遗传结构的参数应用于线性混合模型的工序。或者,为一种性状预测模型制作方法,使用在生物的多个个体中使多个单核苷酸多态性、性别、年龄与形状对应的单核苷酸多态性数据,制作预测多因子性性状的表现型的性状预测模型,该包括:将多个单核苷酸多态性分别矩阵表示的工序;将性别和/或年龄矩阵表示的工序;使用单核苷酸多态性的矩阵表示和单核苷酸多态性的个数计算基因组相似度矩阵的工序;和将基因组相似度矩阵、和性别和/或年龄的矩阵应用于线性混合模型的工序。
这里使用的单核苷酸多态性数据中所含的单核苷酸多态性没有特别限定,可以是作为对象的性状的感受性多态性,也可以不是。使用的单核苷酸多态性的数量、种类也没有特别限定,优选网罗在作为对象的生物个体集合中存在1%以上的单核苷酸多态性。
作为对象的生物没有特别限定,可以为植物,也可以为动物,优选为脊椎动物,更优选为哺乳类,最优选为人。作为对象的性状只要是多因子性性状,就没有特别限定,例如,在人的情况下,能够例示与身高、体重、BMI等体型有关的指标;血压(最高血压、最低血压)、HbAlc、红细胞数、血色素、血细胞容积、白细胞数、血小板数、嗜中性粒细胞的比例、淋巴细胞的比例、单核细胞的比例、嗜酸性粒细胞的比例、嗜碱性粒细胞的比例、大型不染色细胞的比例、有核红细胞数、AST(GOT)、ALT(GPT)、γ-GTP、总胆固醇、中性脂肪、HDL胆固醇、LDL胆固醇、肌酐、尿素氮、估计肾小球过滤量、尿酸等血液检查评价值;记忆力、理解力、智商指数、运动技术等能力;肥胖·糖尿病·高血压·循环器官疾病等成人病、癌、过敏症·自免疫病等免疫疾病等病的患病容易程度等。
使用本发明的预测模型制作方法,能够进行从多个单核苷酸多态性数据预测生物个体的性状的性状预测。即,使用学习用数据集,按照本发明的性状预测模型制作方法制作性状预测模型,确定线性混合模型的参数和潜在变量,将生物个体的多个单核苷酸多态性数据应用于性状预测模型,由此,能够预测该生物个体的性状。
下面,对本发明的预测模型制作方法和性状预测方法,一边列举实施例,一边具体且详细地进行说明,但本发明并不限定于这些实施方式或实施例。
(1)性别、年龄信息的矩阵表示
阐述对N个人设为可得到性别年龄数据、作为N×6矩阵X表示的方法。X的行向量是指各个人的性别和年龄的信息。将矩阵X的i行j列要素记为X(i,j)。年龄作为类别数据使用,该类别的段数没有特别限定。这里,作为一例,对设为39岁以下、40岁以上49岁以下、50岁以上59岁以下、60岁以上69岁以下、70岁以上的5段的方法进行阐述。
性别的信息在矩阵X的第1列表示。在第i个人的个人性别为男性的情况下记为“M”、为女性的情况下记为“F”时,X(i,1)用以下的式子定义。
年龄的信息以矩阵X的第2~6列表示。将第i个人的个人年龄记为agei时,X(i,2)、X(i,3)、X(i,4)、X(i,5)、X(i,6)用以下的式子定义。
(2)基因组信息的矩阵表示
阐述对N个人设为可得到p个单核苷酸多态性(SNP)数据、作为N×p矩阵(N、p为1以上的整数)W表示的方法。W的行向量是指各个人的多态性信息(profile),W的列向量是指表示某个多态性部位的个人间的不同的向量。
第i个的个人的第j个多态性由2个等位基因构成。在两个等位基因与人代表序列一致的情况下记为“AA”,在仅一个等位基因与人代表序列一致的情况下记为“AB”,在两个等位基因与人代表序列不一致的情况下记为“BB”。另外,将矩阵W的i行j列要素记为W(i,j)。另外,将第j个多态性的等位基因频率记为fj。基于这些标记,W(i,j)用以下的式子定义。
这里,关于代表序列,对各多态性确定任意的碱基,设为具有这些的序列,例如,可以为作为基因组工程的成果发表的序列。
(3)基于遗传结构的SNP的分类
以下,阐述将p个SNP基于遗传结构分类为多个类别的方法。表示遗传结构的具体的参数包括作为表示与性状的关联性的强度的参数的效应量(effect size)、和表示SNP的人的集合中的频率的等位基因频率(allele frequency)。作为效应量的代表的具体例,可以列举相对危险度(relative risk)、比值比(odds ratio)、方差贡献率、回归系数(regression coefficient)。等位基因频率中能够例示危险等位基因频率(risk allelefrequency;RAF)或最小等位基因频率(minor allele frequency;MAF)。本发明的方法中使用的遗传结构参数没有特别限定,这里,作为一例,示出使用回归系数和RAF的情况的分类步骤。
(4)分解步骤(1)效应量的Qes分位数的计算
对正的整数Qes,计算将分布进行了Qes等分的(Qes-1)个的值。以下,表示具体的分位数的计算方法,但是分位数的计算方法不限定于此。将对SNP的效应量以升序排列好的数据记为es1≤es2≤…≤esp时,第i个Qes分位数(1≤i≤Qes-1)用以下的式子计算。
这里,分别表示舍去了mi的小数部分得到的值、进位得到的值。另外,为了方便,和用以下的式子确定。
(5)分解步骤(2)RAF的QRAF分位数的计算
对正的整数QRAF,计算将分布进行了QRAF等分的(QRAF-1)个的值。以下,表示具体的分位数的计算方法,但是分位数的计算方法不限定于此。将对SNP的RAF以升序排列好的数据记为RAF1≤RAF2≤…≤RAFp时,第j个QRAF分位数(1<j<QRAF-1)用以下的式子计算。
这里,分别表示舍去了mj的小数部分得到的值、进位得到的值。另外,为了方便,和用以下的式子确定。
(6)SNP的分类
使用通过上述步骤计算得到的(1≤i≤Qes)、QRAF分位数(1≤j≤QRAF)的结果,将p个SNP分类为Qes×QRAF的类别。将第k个SNP(1≤k≤p)的效应量记为esk,将RAF记为RAFk。此时,第k个SNP的类别catk用以下的式子定义。
catk=(ik,jk)
(7)遗传结构参数的推定
效应量、RAF等遗传结构参数能够通过多态性和性状的关联分析来推定。多态性和性状的关联分析使用通常能够获得的程序进行即可,例如,可以使用在因特网上能够获得的PLINK或GCTA。
(8)基因组相似度矩阵的计算
基因组相似度矩阵为表示基于基因组信息的个人间的相似度的N×N矩阵。基因组相似度矩阵设为对每个Qes×QRAF的类别进行计算的基因组相似度矩阵。以下,示出代表性的基因组相似度矩阵A的计算式,但基因组相似度矩阵的计算式并不限定于此。
这里,A(i,j)是指类别(i,j)的基因组相似度矩阵(N×N维(次元)),p(i,j)是指属于类别(i,j)的SNP的个数,W(i,j)是指从矩阵W仅切出属于类别(i,j)的SNP的列向量的部分矩阵(N×p(i,j)维),W(i,j)′是指矩阵W(i,j)的转置矩阵。
(9)向线性混合模型的应用
(9-1)使用遗传结构的情况
作为使用基因组信息的预测模型,用以下的式子表示线性混合模型。
y=μ1N+g+ε
这里,y是指性状向量(N维),μ是指性状的平均值,lN是指由l构成的列向量(N维),g是指遗传因素对性状的贡献向量(N维),ε是指剩余向量(N维),g(i,j)是指属于类别(i,j)的SNP向性状的贡献向量(N维),A(i,j)是指与类别(i,j)对应的基因组相似度(N×N维),I是指单元矩阵(N×N维),是指多变量正态分布(平均为零向量,方差-协方差结构按照),是指多变量正态分布(平均为零向量,方差-协方差结构按照)。
(9-2)使用性别年龄信息的情况
作为使用性别年龄信息的预测模型,用以下的式子表示线性混合模型。
y=μ1N+Xβ+g+ε
这里,y是指性状向量(N维),μ是指性状的平均值,lN是指由l构成的列向量(N维),X是指包含性别年龄信息的矩阵(N×6维),β是指对性别或年龄变量的重要性(6维),g是指遗传因素对性状的贡献向量(N维),ε是指剩余向量(N维),g(i,j)是指属于类别(i,j)的SNP向性状的贡献向量(N维),A是指Qes=1、QRAF=1时的基因组相似度(N×N维),I是指单元矩阵(N×N维),是指多变量正态分布(平均为零向量,方差-协方差结构按照),是指多变量正态分布(平均为零向量,方差-协方差结构按照)。
(9-3)使用遗传结构和性别年龄信息的情况
作为使用基因组信息和性别年龄信息的预测模型,用以下的式子表示线性混合模型。
y=μ1N+Xβ+g+ε
这里,y是指性状向量(N维),μ是指性状的平均值,lN是指由l构成的列向量(N维),X是指包含性别年龄信息的矩阵(N×6维),β是指对性别或年龄变量的重要性(6维),g是指遗传因素对性状的贡献向量(N维),ε是指剩余向量(N维),g(i,j)是指属于类别(i,j)的SNP向性状的贡献向量(N维),A(i,j)是指与类别(i,j)对应的基因组相似度(N×N维),I是指单元矩阵(N×N维),是指多变量正态分布(平均为零向量,方差-协方差结构按照),是指多变量正态分布(平均为零向量,方差-协方差结构按照)。
(10)线性混合模型的参数推定
线性混合模型的参数(μ、β、)推定能够通过约束最大似然法(REML)解出。关于REML,使用通常能够获得的程序即可,例如,可以使用能够从网上无偿下载的GCTA或商用程序ASReml。GCTA时,能够进行Average Information REML、Fisher scoring REML、EM的参数推定演算,ASReml时,能够进行Average Information REML的参数推定演算。
以下,将推得的参数记为
(11)贡献率的推定
使用REML的参数推定值利用以下的式子定义属于类别(i,j)的SNP的贡献率
另外,利用以下的式子定义全部SNP的贡献率的总和VG/VP。
(12)遗传因素的贡献的预测
线性混合模型的参数潜在变量(g、g(i,j)、ε)不包含在REML似然函数中,无法推定,但是能够通过以下的式子来预测。
这里,P是指通过计算的N×N矩阵,V是指通过计算的N×N矩阵,y是指性状向量(N维),是指通过计算的N×7矩阵。
以下,将预测得到的潜在变量记为
(13)性状预测方法
使用上述性状预测模型,
从具备全部基因组信息、性别年龄信息、性状信息的名为Nt的学习用数据集(yt、Xt、Wt),通过上述方法得到参数的推定值 和潜在变量的预测值另外,得到了预测对象名为Nv的基因组信息(Wv)和性别年龄信息(Xv),但是,性状信息(yv)仍是未知的。此时,未知的形状信息的预测值(N维)通过以下的式子计算。
这里,Wt (i,j)是指从学习用数据集的基因组信息矩阵Wt切出的仅属于类别(i,j)的SNP列向量的部分矩阵(Nt×p(i,j)维),A(i,j)是指从Wt (i.j)计算的基因组相似度矩阵(Nt×Nt维),是指从学习用数据集计算的潜在变量的预测值(Nt维),是指从学习用数据集计算的性状的平均值,是指由l构成的列向量(Nv维),是指从学习用数据集计算的属于类别(i,j)的各SNP的重要性向量(p(i,j)维),Wv (i.j)是指从预测对象数据集的基因组信息矩阵Wv切出的仅属于类别(i,j)的SNP的列向量的部分矩阵(Nv×p(i,j)维)。
作为式(1)的特殊例,可以考虑以下的式子(2)、(3)。
式(2)是仅使用性别年龄信息的性状预测式,式(3)是仅使用基因组信息的性状预测式。另外,在Qes=1、QRAF=1时,作为式(1)、式(3)的特殊例,可以分别考虑以下的式子(4)、(5)。
将式(1)称为“遗传结构分解+性别年龄调整法”,将式(2)称为“性别年龄调整法”,将式(3)称为“遗传结构分解法”,将式(4)称为“遗传结构非分解+性别年龄调整法”,将式(5)称为“遗传结构非分解法”。
(14)性状预测系统
为了将上述性状预测方法进行自动化,能够程序化,使得能够在计算机执行。这样制作得到的程序也在本发明的权利范围内。
进而,也能够形成具备用于执行该程序的计算机以及用于输入单核苷酸多态性、性别·年龄信息等的输入装置和用于输出通过程序的执行而得到的结果的输出装置的性状预测系统。
实施例
以下记载的本实施例的单核苷酸多态性信息利用HumanOmni ExpressExome芯片(Illumina公司)进行测定。
实施例1
(方法)
本实施例中,作为多因子性的量的性状的一例,着眼于身高,使用由TohokuMedical Megabank Project在平成25年所收集的4992名的单核苷酸多态性数据及性别·年龄信息,通过本发明的性状预测模型制作方法制作性状预测模型(使用上述(9-2)性别年龄信息的情况),推定遗传率。作为对照,对未使用性别、年龄信息的情况,也计算遗传率的推定值,与使用性别、年龄信息的情况进行比较。
接着,分别对(1)仅使用性别·年龄信息的情况、(2)仅使用单核苷酸多态性信息的情况、(3)使用单核苷酸多态性信息和性别·年龄信息两者的情况(本发明的实施例),利用二折交叉验证法评价性状预测模型的预测精度。作为评价指标,使用实测值和预测值的R2(相关系数的平方)。
(遗传率的推定方法)
在Qes=1、QRAF=1的情况下,将性状的方差中可以由遗传因素说明的方差的比例称为遗传率h2。关于遗传率的推定值,使用REML的参数推定值利用以下的式子计算。
(结果)
未使用性别·年龄信息的情况下的遗传率为40.67%,使用性别、年龄信息的情况下的遗传率为82.29%,可知,与未使用性别·年龄信息的情况相比,在使用性别·年龄信息的情况下,遗传率大大提高,身高的方差的一部分可以由性别年龄说明。
关于(1)~(3)的3种情况,利用二折交叉验证法评价预测精度(R2)(平均±标准偏差),结果为(1)56.89±1.36%、(2)1.45±0.26%、(3)59.63±1.24%,与仅使用性别年龄信息的情况、仅使用基因组信息的情况相比,使用性别年龄信息及基因组信息这两者的情况下,预测精度提高。
实施例2
(方法)
本实施例中,作为多因子性的质的性状的一例,着眼于糖尿病的患病,使用由Tohoku Medical Megabank Project在平成25年所收集的4992名的单核苷酸多态性数据及性别·年龄信息,通过本发明的性状预测模型制作方法制作性状预测模型(使用上述(9-2)性别年龄信息的情况)。这里,根据HbAlc检查值,在其为6.5以上的情况下判定为患有糖尿病,在其低于6.5的情况下判定为没患有糖尿病。分别对(1)仅使用性别·年龄信息的情况、(2)仅使用单核苷酸多态性信息的情况、(3)使用单核苷酸多态性信息和性别、年龄信息两者的情况(本发明的实施例),利用二折交叉验证法评价性状预测模型的预测精度。作为评价指标,使用AUC。
(结果)
为(1)61.39±1.56%、(2)55.76±0.28%、(3)62.98±0.61%,与仅使用性别年龄信息的情况、仅使用基因组信息的情况相比,使用性别年龄信息及基因组信息这两者的情况下,预测精度提高。
实施例3
(方法)
本实施例中,作为多因子性的量的性状的一例,着眼于HbAlc检查值和身高,使用由Tohoku Medical Megabank Project在平成25年所收集的4992名的单核苷酸多态性数据,利用遗传结构分解法进行贡献率的推定。实施(1)Qes=50、QRAF=1的情况、(2)Qes=1、QRAF=30的情况这2种情况。
(结果)
在图1中表示(1)Qes=50、QRAF=1的情况下的贡献率的推定结果。推定在HbAlc检查值和身高的任一个中,显示中程度的效应量的单核苷酸多态性的贡献率大,显示小的效应量的单核苷酸多态性的贡献率非常小。另外,推定在HbAlc检查值中,显示大的效应量的单核苷酸多态性的贡献大,但在身高中显示大的效应量的单核苷酸多态性的贡献为有限的。
在图2中表示(2)Qes=1、QRAF=30的情况的贡献率的推定结果。推定在HbAlc检查值中,不稀有的单核苷酸多态性的贡献率为有限的,稀有的单核苷酸多态性显示非常大的贡献率。另一方面,推定在身高中,稀有的单核苷酸多态性的贡献率不小,但是不稀有的单核苷酸多态性的贡献率也不小。
实施例4
(方法)
在以充分的样本量进行学习的情况下,显示通过遗传结构分解法实现性状预测精度的提高,因此,使用由Tohoku Medical Megabank Project在平成25年所收集的4992名的单核苷酸多态性数据及HbAlc检查值,用验证用数据集进行效应量、等位基因频率的推定和线性混合模型的参数推定,用学习用数据集进行遗传因素的贡献的预测和对单核苷酸多态性的重要性的计算,用验证用数据集进行预测精度的验证。由此,能够评价假定样本量充分大的情况下的预测精度。
分别对(1)Qes=1、QRAF=1的情况(没有遗传结构分解)、(2)Qes=10、QRAF=1的情况(有遗传结构分解;本发明的实施例),利用二折交叉验证法评价性状预测模型的预测精度。作为评价指标,使用实测值和预测值的R2(相关系数的平方)。
(结果)
为(1)4.52±0.16%、(2)16.52±0.30%,假定充分的样本量的情况下,与没有遗传结构分解相比,如果有遗传结构分解,则显示预测精度显著地提高。
实施例5
(方法)
本实施例中,以图3所示的27个量的性状和5个质的性状为对象,使用由TohokuMedical Megabank Project在平成25年所收集的4992名的单核苷酸多态性数据,通过本发明的性状预测模型制作方法制作性状预测模型(使用上述(9-3)遗传结构及性别年龄信息的情况)。分别对(1)仅使用单核苷酸多态性信息、且Qes=1、QRAF=1的情况(没有遗传结构分解)、(2)仅使用性别·年龄信息的情况、(3)使用单核苷酸多态性信息和性别·年龄信息这两者、且Qes=1、QRAF=1的情况(没有遗传结构分解;本发明的实施例),利用二折交叉验证法评价性状预测模型的预测精度。作为评价指标,在以量的数据为对象的情况下,使用实测值和预测值的R2(相关系数的平方),在以质的数据为对象的情况下,使用AUC。
(结果)
在图4表示对27个量的性状进行了精度评价的结果,在图5表示对5个质的性状进行了精度评价的结果。关于图4、图5所示的全部27个量的性状及5个质的性状,显示与(1)仅使用单核苷酸多态性信息、且Qes=1、QRAF=1的情况(没有遗传结构分解)、(2)仅使用性别·年龄信息的情况相比,(3)使用单核苷酸多态性信息和性别·年龄信息这两者、且Qes=1、QRAF=1的情况(没有遗传结构分解;本发明的实施例)的预测精度提高。
实施例6
(方法)
在以充分的样本量进行学习的情况下,显示通过使用性别、年龄信息或单核苷酸多态性信息和性别、年龄信息这两者而实现性状预测精度的提高,因此,以图3所示的27个量的性状及5个质的性状为对象,使用由Tohoku Medical Megabank Project在平成25年所收集的4992名的单核苷酸多态性数据,通过本发明的性状预测模型制作方法制作性状预测模型(使用上述(9-3)遗传结构及性别年龄信息的情况)。分别对(1)仅使用单核苷酸多态性信息、且Qes=1、QRAF=1的情况(没有遗传结构分解)、(2)仅使用性别·年龄信息的情况、(3)使用单核苷酸多态性信息和性别·年龄信息这两者、且Qes=1、QRAF=1的情况(没有遗传结构分解;本发明的实施例)、(4)使用单核苷酸多态性信息和性别·年龄信息这两者、且Qes=10、QRAF=1的情况(有遗传结构分解;本发明的实施例),利用二折交叉验证法评价性状预测模型的预测精度。作为评价指标,在以量的数据为对象的情况下,使用实测值和预测值的R2(相关系数的平方),在以质的数据为对象的情况下,使用AUC。用验证用数据集进行效应量、等位基因频率的推定及线性混合模型的参数推定,用学习用数据集进行遗传因素的贡献的预测及对单核苷酸多态性的重要性的计算,用验证用数据集进行预测精度的验证。
(结果)
在图6中表示对27的量的性状进行了精度评价的结果,在图7中表示对5的质的性状进行了精度评价的结果。关于图6、图7所示的全部27个量的性状及5个质的性状,显示:与(1)仅使用单核苷酸多态性信息、且Qes=1、QRAF=1的情况(没有遗传结构分解)、(2)仅使用性别·年龄信息的情况相比,(3)使用单核苷酸多态性信息和性别·年龄信息这两者、且Qes=1、QRAF=1的情况(没有遗传结构分解;本发明的实施例)的预测精度提高。在将(3)使用单核苷酸多态性信息和性别·年龄信息这两者、且使用Qes=1、QRAF=1的情况(没有遗传结构分解;本发明的实施例)与(4)使用单核苷酸多态性信息和性别·年龄信息这两者、且Qes=10、QRAF=1的情况(有遗传结构分解;本发明的实施例)进行比较的情况下,在全部的性状中,(4)的预测精度提高。
(结论)
如上所述,如果使用通过本发明的性状预测模型制作方法制作的性状预测模型,与现有的预测方法相比,能够以高的准确率预测性状。此外,通过利用遗传结构分解法进行贡献率的推定,能够阐明性状的遗传结构。
工业上的可利用性
根据本发明,能够提供一种用于从单核苷酸多态性数据预测性状的表现型的性状预测模型制作方法、以及能够以高的准确率预测性状的性状预测方法。
Claims (8)
1.一种性状预测模型制作方法,其特征在于:
使用在生物的多个个体中使多个单核苷酸多态性与形状对应的单核苷酸多态性数据,制作预测多因子性性状的表现型的预测模型,
所述性状预测模型制作方法包括:
将所述多个单核苷酸多态性分别矩阵表示的工序;
将所述多个单核苷酸多态性基于遗传结构分类为多个类别的工序;
对于各个所述类别,使用所述矩阵表示和属于所述类别的所述单核苷酸多态性的个数计算基因组相似度矩阵的工序;和
将所述基因组相似度矩阵和所述遗传结构的参数应用于线性混合模型的工序。
2.如权利要求1所述的性状预测模型制作方法,其特征在于:
所述遗传结构为效应量和/或等位基因频率。
3.一种性状预测模型制作方法,其特征在于:
使用在生物的多个个体中使多个单核苷酸多态性、性别、年龄与形状对应的单核苷酸多态性数据,制作预测多因子性性状的表现型的预测模型,
所述性状预测模型制作方法包括:
将所述多个单核苷酸多态性分别矩阵表示的工序;
将所述性别和/或年龄矩阵表示的工序;
使用所述单核苷酸多态性的矩阵表示和所述单核苷酸多态性的个数计算基因组相似度矩阵的工序;
将所述基因组相似度矩阵、和所述性别和/或年龄的矩阵应用于线性混合模型的工序。
4.如权利要求3所述的性状预测模型制作方法,其特征在于:
所述性状选自身高、体重、最高血压、最低血压、血糖、HbAlc、红细胞数、血色素、血细胞容积、白细胞数、血小板数、嗜中性粒细胞的比例、淋巴细胞的比例、单核细胞的比例、嗜酸性粒细胞的比例、嗜碱性粒细胞的比例、大型不染色细胞的比例、AST(GOT)、ALT(GPT)、γ-GTP、总胆固醇、中性脂肪、HDL胆固醇、LDL胆固醇、肌酐、尿素氮、尿酸、糖尿病、高血压症、高LDL胆固醇血症、低HDL胆固醇血症、高甘油三酯血症。
5.一种性状预测方法,其特征在于:
在生物个体中,从多个单核苷酸多态性数据预测该生物个体的性状,
所述性状预测方法包括:
使用学习用数据集,按照权利要求1~4中任一项所述的性状预测模型制作方法制作性状预测模型的工序;
确定线性混合模型的参数和潜在变量的工序;和
将该生物个体的所述多个单核苷酸多态性数据应用于所述性状预测模型的工序。
6.一种程序,其特征在于:
用于在生物个体中从多个单核苷酸多态性数据预测该生物个体的性状,
所述程序使计算机执行权利要求1~5中任一项所述的方法。
7.一种计算机可读取的存储介质,其特征在于:
存储有权利要求6所述的程序。
8.一种性状预测系统,其特征在于:
用于在生物个体中从多个单核苷酸多态性数据预测该生物个体的性状,
所述性状预测系统具备:
(i)用于输入所述生物个体的多个单核苷酸多态性数据的输入装置;
(ii)使用输入的数据,执行权利要求7所述的程序的计算机;和
(iii)用于输出由(ii)得到的结果的输出装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014-238252 | 2014-11-25 | ||
JP2014238252A JP6312253B2 (ja) | 2014-11-25 | 2014-11-25 | 形質予測モデル作成方法および形質予測方法 |
PCT/JP2015/083068 WO2016084844A1 (ja) | 2014-11-25 | 2015-11-25 | 形質予測モデル作成方法および形質予測方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107004066A true CN107004066A (zh) | 2017-08-01 |
CN107004066B CN107004066B (zh) | 2020-10-23 |
Family
ID=56074396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580064102.2A Expired - Fee Related CN107004066B (zh) | 2014-11-25 | 2015-11-25 | 性状预测模型制作方法和性状预测方法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US20170337483A1 (zh) |
EP (1) | EP3226163A4 (zh) |
JP (1) | JP6312253B2 (zh) |
CN (1) | CN107004066B (zh) |
WO (1) | WO2016084844A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107545153A (zh) * | 2017-10-25 | 2018-01-05 | 桂林电子科技大学 | 一种基于卷积神经网络的核小体分类预测方法 |
CN111199773A (zh) * | 2020-01-20 | 2020-05-26 | 中国农业科学院北京畜牧兽医研究所 | 一种精细定位性状关联基因组纯合片段的评估方法 |
CN114496076A (zh) * | 2022-04-01 | 2022-05-13 | 微岩医学科技(北京)有限公司 | 一种基因组遗传分层联合分析方法及系统 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6716143B2 (ja) * | 2016-10-12 | 2020-07-01 | 学校法人 岩手医科大学 | 脳梗塞発症リスクの予測モデル作成方法および予測方法 |
WO2020138479A1 (ja) * | 2018-12-28 | 2020-07-02 | 国立大学法人大阪大学 | 個体の形質情報を予測するためのシステムまたは方法 |
JP2020154179A (ja) * | 2019-03-20 | 2020-09-24 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
JP2020154178A (ja) * | 2019-03-20 | 2020-09-24 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
CN111028883B (zh) * | 2019-11-20 | 2023-07-18 | 广州达美智能科技有限公司 | 基于布尔代数的基因处理方法、装置及可读存储介质 |
US20210375392A1 (en) * | 2020-05-27 | 2021-12-02 | 23Andme, Inc. | Machine learning platform for generating risk models |
US10966170B1 (en) | 2020-09-02 | 2021-03-30 | The Trade Desk, Inc. | Systems and methods for generating and querying an index associated with targeted communications |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102171698A (zh) * | 2008-08-01 | 2011-08-31 | 原子能和能源替代品委员会 | 前列腺癌的筛查、预后、诊断或治疗反应的预测方法和实施所述方法的装置 |
US20130246033A1 (en) * | 2012-03-14 | 2013-09-19 | Microsoft Corporation | Predicting phenotypes of a living being in real-time |
US20140066320A1 (en) * | 2012-09-04 | 2014-03-06 | Microsoft Corporation | Identifying causal genetic markers for a specified phenotype |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003048999A2 (en) * | 2001-12-03 | 2003-06-12 | Dnaprint Genomics, Inc. | Methods and apparatus for genetic classification |
JP2008152592A (ja) * | 2006-12-19 | 2008-07-03 | Hitachi Ltd | 個体間の遺伝的非類似度の解析方法およびシステム |
JP5852902B2 (ja) * | 2012-02-27 | 2016-02-03 | 株式会社エヌ・ティ・ティ・データ | 遺伝子間相互作用解析システム、その方法及びプログラム |
-
2014
- 2014-11-25 JP JP2014238252A patent/JP6312253B2/ja active Active
-
2015
- 2015-11-25 US US15/529,636 patent/US20170337483A1/en not_active Abandoned
- 2015-11-25 CN CN201580064102.2A patent/CN107004066B/zh not_active Expired - Fee Related
- 2015-11-25 WO PCT/JP2015/083068 patent/WO2016084844A1/ja active Application Filing
- 2015-11-25 EP EP15862302.5A patent/EP3226163A4/en not_active Withdrawn
-
2020
- 2020-07-15 US US16/929,282 patent/US20200342342A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102171698A (zh) * | 2008-08-01 | 2011-08-31 | 原子能和能源替代品委员会 | 前列腺癌的筛查、预后、诊断或治疗反应的预测方法和实施所述方法的装置 |
US20130246033A1 (en) * | 2012-03-14 | 2013-09-19 | Microsoft Corporation | Predicting phenotypes of a living being in real-time |
US20140066320A1 (en) * | 2012-09-04 | 2014-03-06 | Microsoft Corporation | Identifying causal genetic markers for a specified phenotype |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107545153A (zh) * | 2017-10-25 | 2018-01-05 | 桂林电子科技大学 | 一种基于卷积神经网络的核小体分类预测方法 |
CN111199773A (zh) * | 2020-01-20 | 2020-05-26 | 中国农业科学院北京畜牧兽医研究所 | 一种精细定位性状关联基因组纯合片段的评估方法 |
CN114496076A (zh) * | 2022-04-01 | 2022-05-13 | 微岩医学科技(北京)有限公司 | 一种基因组遗传分层联合分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP2016099901A (ja) | 2016-05-30 |
US20200342342A1 (en) | 2020-10-29 |
WO2016084844A1 (ja) | 2016-06-02 |
EP3226163A4 (en) | 2018-08-29 |
EP3226163A1 (en) | 2017-10-04 |
US20170337483A1 (en) | 2017-11-23 |
JP6312253B2 (ja) | 2018-04-18 |
CN107004066B (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107004066A (zh) | 性状预测模型制作方法和性状预测方法 | |
Li et al. | For common community phylogenetic analyses, go ahead and use synthesis phylogenies | |
McGill et al. | Species abundance distributions: moving beyond single prediction theories to integration within an ecological framework | |
Nakagawa et al. | Methodological issues and advances in biological meta-analysis | |
CN107368700A (zh) | 基于计算云平台的微生物多样性交互分析系统及其方法 | |
Frudakis | Molecular photofitting: predicting ancestry and phenotype using DNA | |
CN107391963A (zh) | 基于计算云平台的真核无参转录组交互分析系统及其方法 | |
Lu et al. | An alternative approach to modeling genetic merit of feed efficiency in dairy cattle | |
AU2018327326A1 (en) | System and method for predicting relatedness in a human population | |
CN108345768A (zh) | 一种确定婴幼儿肠道菌群成熟度的方法和标志物组合 | |
WO2017148161A1 (zh) | 用于评估保险标的风险的核保和精算数据库系统 | |
Miecznikowski et al. | dbEmplikeGOF: An R package for nonparametric likelihood ratio tests for goodness-of-fit and two-sample comparisons based on sample entropy | |
Campos et al. | Genomic prediction using different estimation methodology, blending and cross-validation techniques for growth traits and visual scores in Hereford and Braford cattle | |
Matsumura et al. | Generation time and effective population size in Polar Eskimos | |
Maenhout et al. | Graph-based data selection for the construction of genomic prediction models | |
Liu et al. | Joint analysis of multi‐level repeated measures data and survival: an application to the end stage renal disease (ESRD) data | |
Curtsinger | Late-life fecundity plateaus in Drosophila melanogaster can be explained by variation in reproductive life spans | |
CN113838519B (zh) | 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 | |
Li et al. | Testing Hardy–Weinberg equilibrium and homogeneity of Hardy–Weinberg disequilibrium using complex survey data | |
JP5852902B2 (ja) | 遺伝子間相互作用解析システム、その方法及びプログラム | |
McShane et al. | Meta-analysis | |
Morris et al. | Examining the genetic influences of educational attainment and the validity of value-added measures of progress | |
Polcerová et al. | Sex differences in radioulnar contrasts of the finger ridge counts across 21 human population samples | |
Pflug et al. | Neutral competition within a long-lived population of symmetrically dividing cells shapes the clonal composition of cerebral organoids | |
Cui et al. | Improving neural networks for genotype-phenotype prediction using published summary statistics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201023 |