CN117524503B

CN117524503B - 一种基于生物遗传数据的身高预测方法及系统

Info

Publication number: CN117524503B
Application number: CN202410024498.9A
Authority: CN
Inventors: 李腾; 宋洁; 唐森威; 李哲夫; 王理中; 陈钢
Original assignee: Shenzhen Zaozhidao Technology Co ltd
Current assignee: Shenzhen Zaozhidao Technology Co ltd
Priority date: 2024-01-08
Filing date: 2024-01-08
Publication date: 2024-04-30
Anticipated expiration: 2044-01-08
Also published as: CN117524503A

Abstract

本发明公开了一种基于生物遗传数据的身高预测方法及系统，包括：S1、构建身高相关基因位点参考数据库；S2、进行质量控制得到样本数据；进行主成分分析得到主成分PC；随机划分为训练集、验证集和测试集；S3、计算每个基因位点对身高的遗传效应值，得到训练集的身高GWAS数据；收集外部公开的身高GWAS数据及其与非公开数据经荟萃分析得到的位点权重数据；S4、计算跨族群身高的多基因风险评分PRS权重，以及单一族群身高的多基因风险评分PRS权重；S5、计算验证集的多基因风险评分PRS值；采用线性回归模型，得到身高预测模型；S6、计算目标集的多基因风险评分PRS值；将目标集代入身高预测模型，得到身高预测值，从而提高了中国人群身高预测的精度。

Description

一种基于生物遗传数据的身高预测方法及系统

技术领域

本发明涉及一种身高预测方法及系统，尤其涉及一种基于生物遗传数据的身高预测方法及系统，属于生物遗传数据分析与计算机相结合的应用领域。

背景技术

研究表明，人类身高主要受到遗传信息和环境两大因素的影响。其中，遗传信息因素指人的基因信息，人类身高由大量遗传位点共同影响，并且身高的遗传度高达80%；环境因素指来自外界的对人类生长情况产生影响的因素，如营养条件、饮食习惯、运动方式等。

目前，对于成年人身高的预测方法大致有以下几种：（1）基于个人表型的预测方法，如根据人的年龄、性别、地域等表型进行身高的建模预测，这种方法只用于个人相对应的群体统计特征，无法反应个人生长特征；（2）基于父母身高信息对后代成年身高进行推测，这种方法在一定程度上考虑了遗传和营养环境的影响，但未将后代个体遗传信息差异纳入考量；（3）基于骨龄的身高预测方法（如中国专利公开号：CN115274098A），这种方法可以基于受试者的身高及发育状态预测成年身高，但需要未来时刻多次测试，成本较高，且同样没有考虑营养等环境因素影响；（4）基于遗传信息的推测方法，选取部分遗传位点，结合位点的身高遗传效应值得到身高预测结果，这种方法充分考虑了个体本身的遗传信息带来的身高差异，但现有研究（如中国专利公布号：CN114317706A）应用位点较少，且未将环境因素纳入考量。

综上，为提高中国人群的身高预测精度，使用遗传数据并结合相关表型因素，构建对成年人身高进行预测的模型及其应用系统是一个亟待研究的方向。

发明内容

针对上述现存的技术问题，本发明提供一种基于生物遗传数据的身高预测方法及系统，通过利用多族群的身高GWAS数据，并结合基因组数据，得到遗传信息所决定的身高信息，再结合其他相关表型，得到身高预测数据，从而实现提高中国人群的身高预测精度的技术目的。

为实现上述目的，首先，本发明提供一种基于生物遗传数据的身高预测方法，包括如下步骤：

S1、采集中国汉族人群样本，获取基因组数据和数据批次，以及身高相关表型数据，包括身高、年龄、性别，并构建身高相关基因位点参考数据库；

S2、对基因组数据在位点层面进行质量控制，并对基因组数据和身高相关表型数据在个体层面进行质量控制，得到样本数据；然后对样本数据中的基因组数据进行主成分分析，得到主成分PC；再将样本数据随机划分为训练集、验证集和测试集；

S3、采用逻辑回归模型，以训练集的身高为因变量，以训练集的年龄、性别、数据批次、主成分PC为协变量，分别计算每个基因位点对身高的遗传效应值，得到训练集的身高GWAS数据；并收集外部公开的身高GWAS数据，以及其与非公开数据经荟萃分析得到的位点权重数据；

S4、基于训练集的身高GWAS数据、外部公开的身高GWAS数据和位点权重数据，分别计算跨族群身高的多基因风险评分PRS权重，以及单一族群身高的多基因风险评分PRS权重；

S5、将跨族群身高的多基因风险评分PRS权重，以及单一族群身高的多基因风险评分PRS权重应用到验证集，计算验证集的多基因风险评分PRS值；然后采用线性回归模型，以验证集的身高为因变量，以验证集的多基因风险评分PRS值、年龄、性别、数据批次、主成分PC为协变量，分别计算每个协变量的回归系数，并使用分步回归方法进行协变量的筛选，得到身高预测模型；

S6、将跨族群身高的多基因风险评分PRS权重，以及单一族群身高的多基因风险评分PRS权重应用到目标集，计算目标集的多基因风险评分PRS值；然后将目标集的多基因风险评分PRS值、年龄、性别、数据批次、主成分PC代入身高预测模型，得到身高预测值。

本发明方法进一步的，所述步骤S1，包括：

S1-1、从中国汉族人群中招募基因检测对象，采集招募对象的生物样本，并使用基因芯片技术和基因填充计算方法，获取招募对象的基因组数据和数据批次；

S1-2、通过问卷形式获取招募对象的身高相关表型数据，包括身高、年龄、性别；

S1-3、构建身高相关基因位点参考数据库。

本发明方法进一步的，所述对基因组数据在位点层面进行质量控制，包括：

S2-1-11、去除未检出率高于2%的位点；

S2-1-12、去除哈迪温伯格检测的P值小于的位点；

S2-1-13、去除较小的等位基因频率低于1%的位点；

S2-1-14、去除基因填充质量低于0.3的位点。

本发明方法进一步的，所述对基因组数据和身高相关表型数据在个体层面进行质量控制，包括：

S2-1-21、去除整体位点缺失率大于5%的样本；

S2-1-22、去除基因性别与表型性别不匹配的个体；

S2-1-23、去除身高不在150-210cm之间的样本；

S2-1-24、去除年龄不在18-80岁之间的样本。

本发明方法进一步的，所述外部公开的身高GWAS数据为：世界范围内公开的样本数量最大的身高GWAS数据，并且包括欧洲、东亚、非洲、南亚和西班牙裔族群。

本发明方法进一步的，所述跨族群身高的多基因风险评分 PRS权重的计算包括：按照族群不同，将每个族群的身高GWAS数据进行两两组合，每个组合包括一个亚洲族群的身高GWAS数据和一个欧洲族群的身高GWAS数据；然后对每个组合的身高GWAS数据分别采用PRS-CSx方法和X-Wing方法计算多基因风险评分PRS权重。

本发明方法进一步的，所述单一族群身高的多基因风险评分PRS 权重的计算包括：基于单一族群，将每个族群的身高GWAS数据分别采用C+T方法和PRS-CS方法计算多基因风险评分PRS权重。

本发明方法进一步的，所述多基因风险评分PRS值的计算公式如下：

其中，为多基因风险评分PRS权重；/>为每个位点的基因型数据。

本发明方法进一步的，所述身高预测模型的公式如下：

其中，代表第j个协变量，/>代表第j个协变量在身高预测模型中的回归系数，代表第i组的多基因风险评分PRS值，/>代表第i组的多基因风险评分PRS值在身高预测模型中的回归系数。

并且，本发明还提供一种基于生物遗传数据的身高预测系统，包括数据录入储存模块、数据预处理模块、模型训练模块、身高预测模块；

所述数据录入储存模块，用于采集中国汉族人群样本，获取基因组数据和数据批次，以及身高相关表型数据，包括身高、年龄、性别，并构建身高相关基因位点参考数据库；

所述数据预处理模块，用于对基因组数据在位点层面进行质量控制，并对基因组数据和身高相关表型数据在个体层面进行质量控制，得到样本数据；然后对样本数据中的基因组数据进行主成分分析，得到主成分PC；再将样本数据随机划分为训练集、验证集和测试集；

所述模型训练模块，用于采用逻辑回归模型，以训练集的身高为因变量，以训练集的年龄、性别、数据批次、主成分PC为协变量，分别计算每个基因位点对身高的遗传效应值，得到训练集的身高GWAS数据；并收集外部公开的身高GWAS数据，以及其与非公开数据经荟萃分析得到的位点权重数据；

用于基于训练集的身高GWAS数据、外部公开的身高GWAS数据和位点权重数据，分别计算跨族群身高的多基因风险评分PRS权重，以及单一族群身高的多基因风险评分PRS权重；

以及用于将跨族群身高的多基因风险评分PRS权重，以及单一族群身高的多基因风险评分PRS权重应用到验证集，计算验证集的多基因风险评分PRS值；然采用线性回归模型，后以验证集的身高为因变量，以验证集的多基因风险评分PRS值、年龄、性别、数据批次、主成分PC为协变量，分别计算每个协变量的回归系数，并使用分步回归方法进行协变量的筛选，得到身高预测模型；

所述身高预测模块，用于将跨族群身高的多基因风险评分PRS权重，以及单一族群身高的多基因风险评分PRS权重应用到目标集，计算目标集的多基因风险评分PRS值；然后将目标集的多基因风险评分PRS值、年龄、性别、数据批次、主成分PC代入身高预测模型，得到身高预测值。

综上，本发明使用遗传数据，并结合相关表型因素，构建了对成年人身高进行预测的模型及其应用系统，具有如下有益效果：

首先，为提高身高预测模型的预测精度，招募了大量以中国人群为主的成年人群样本，进行身高预测模型训练。同时，考虑到身高预测模型的预测精度会受到样本量的影响，训练数据的样本量越大，模型拟合精度相对越高，因此除了所招募的中国人群数据外，还收集了外部公开的数据作为补充，从而提高了样本量。

其次，目前绝大多数公开可获得的样本数据来源为欧洲人群，而不同的族群在遗传结构和遗传效应方面有着明显的差异，因此在模型拟合的过程中应用了特定统计模型处理不同族群数据，从而提高了样本数据在中国人群的预测精度。

相比现有技术，本发明主要具有以下技术优势：

1、本发明通过使用中国汉族族群样本进行建模计算，身高预测模型与中国汉族族群遗传特征更吻合，提高了身高预测的精度。

2、本发明基于生物遗传数据以及身高相关表型数据对成年人身高进行预测计算，同时考虑遗传因素和环境因素对身高产生的影响，提高了身高预测结果的准确性。

3、本发明通过结合中国汉族族群样本数据和国外多族群大样本的身高GWAS数据，提高了统计显著性和模型准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明方法实施例提供的一种流程示意图；

图2为本发明方法实施例提供的预测身高值和真实身高值的对比分析图；

图3为本发明系统实施例提供的一种原理框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。除非在说明书中另有说明，否则说明书中使用的所有科学和技术术语具有与本发明所属技术领域的技术人员通常理解的含义相同的含义。

实施例1：本发明基于生物遗传数据的身高预测方法。

如图1所示，本实施例提供一种基于生物遗传数据的身高预测方法，包括以下步骤：

S1、采集中国汉族人群样本，获取基因组数据和数据批次，以及身高相关表型数据，包括身高、年龄、性别，并构建身高相关基因位点参考数据库。

其中，所述身高相关基因位点参考数据库的样本通过招募获取，主要招募中国汉族人群样本。所述基因组数据是指样本的位点信息，具体是指基因分型或测序的结果，以及基因填充后得到的基因型（Genotype）数据。所述身高相关表型数据具体包括身高、性别、年龄、父母身高（可选）。

具体实施时，本步骤S1包括：

S1-1、首先，从中国汉族人群中招募基因检测对象，采集招募对象的生物样本。

需要说明的是，本领域技术人员可根据实际情况招募中国汉族人群作为样本。本实施例的中国汉族人群样本从深圳市早知道科技有限公司用户群（即WeGene 队列）中招募。并且，根据所招募对象的不同批次，对每个个体的批次进行数据批次的编号，用于后续模型建立过程中作为协变量来排除数据批次随机性的影响。

然后，使用基因芯片技术进行基因检测，获取招募对象的芯片分型数据。

需要说明的是，身高相关基因位点参考数据库中的数据涉及多种基因芯片的检测数据结果，本领域技术人员可根据实际情况选择市面上合适的基因芯片进行检测。

再者，对芯片分型数据进行基因填充（Imputation），这里采用Minimac4软件进行填充，使用的参照模板为1000 Genomes Phase3的数据。

最后，芯片分型数据和经过基因填充的数据一起构成招募对象的基因组数据。

需要说明的是，现有技术中，基因组数据是一个统称。对招募对象的生物样本使用芯片技术进行基因检测之后，得到一部分SNP位点的基因分型数据，即招募对象的芯片分型数据。对其他部分SNP位点采用基因填充计算方法进行推断，得到经过基因填充的数据。将芯片分型数据和经过基因填充的数据这两部分合起来，组成招募对象的基因组数据。

S1-2、通过问卷形式获取招募对象的身高相关表型数据，包括身高、年龄、性别和父母身高（可选）。

需要说明的是，本领域技术人员可根据实际情况招募中国汉族人群作为样本。本实施例中，身高相关表型数据从深圳市早知道科技有限公司用户群（即WeGene 队列）信息调研数据库中获取，包括身高(cm)、年龄（岁）以及性别，并且父母身高(cm)作为可选项。

S1-3、根据基因组数据、数据批次和身高相关表型数据，构建身高相关基因位点参考数据库。

S2、对基因组数据在位点层面进行质量控制，并对基因组数据和身高相关表型数据在个体层面进行质量控制，得到样本数据；然后对样本数据中的基因组数据进行主成分分析，得到主成分PC；再将样本数据随机划分为训练集、验证集和测试集。

具体实施时，本步骤S2包括：

S2-1、首先，对基因组数据和身高相关表型数据进行质量控制。一方面，在位点层面，去除在基因检测环节检测质量较低的位点，以及等位基因频率过低的位点；另一方面，在个体层面，去除基因数据缺失率较高的个体，以及表型数据不合理或不在研究范围内的个体；最后得到样本数据，以提高模型效能。

具体实施时，对基因组数据在位点层面进行质量控制，包括如下步骤：

S2-1-11、去除未检出率过高的位点，设阈值为2%，表示对于未检出率高于2%的位点进行去除，因为较高的未检出率可能指示基因数据质量较低。

S2-1-12、去除哈迪温伯格（Hardy-Weinberg）检测的P值过小的位点，设阈值为，因为这样的位点可能指示了基因分型或测序有误。

S2-1-13、去除次等位基因频率（MAF）过低的位点，设阈值为1%，因为这样的位点可能由于变异量过低使得统计检验产生较大的误差。

S2-1-14、去除基因填充质量过低的位点，设阈值为0.3，因为这样的位点可能由于填充质量过低导致统计检验结果产生误差。

具体实施时，对基因组数据和身高相关表型数据在个体层面进行质量控制，并根据身高相关数据特性，划定样本空间，对身高和年龄进行合理范围限制，包括如下步骤：

S2-1-21、去除整体位点缺失率过高的样本，设阈值为5%。因为较高的未检出率可能指示基因数据质量较低。

S2-1-22、去除基因性别与表型性别不匹配的个体。因为这样的个体可能表示表型数据收集有误或基因检测数据有误。

S2-1-23、去除身高不合理的个体，保留身高在150-210cm之间的样本。因为过低或过高的身高可能表示数据收集存在问题。

S2-1-24、保留合理年龄的个体，保留年龄在18-80岁之间的样本。因为非成年人不在本发明范围内，而年纪过大的个体身高会产生关节老化、脊柱缩短等变化，因此也不在本发明范围内。

本实施例中，经过基因填充和质量控制后，使用的位点数共约885k个。并且，根据数据批次，对不同数据批次的检测数据计算样本特征如下表1所示。

表1

S2-2、对样本数据中的基因组数据进行主成分分析，得到主成分PC。

具体实施时，使用PLINK软件对经过质量控制的基因组数据进行主成分分析（PCA）。

需要说明的是，主成分分析（PCA）是经常用来校正亚群效应的方法，其应用原理是通过寻找使基因频率差异化最大的数学向量，得到数据的主成分特征向量（PCs），使用这些向量评估样本的群体结构。采用主成分分析（PCA）是为了校正由于个体之间非随机交配而导致的群体中亚群之间等位基因频率的系统差异，这种系统差异是全基因组关联分析（GWAS）中影响较大的混淆变量，可以造成假阳性。

并且，主成分（PC）用于衡量人口结构对身高的影响。所谓人口结构，主要指地域对人群产生的分区效应的结果。由于不同地域的人群，身高会有整体偏差，所以本实施例后续使用前5个主成分PC来调整地域对身高的影响。

S2-3、将样本数据以8:1:1的比例随机划分为训练集、验证集和测试集，以备后续分析建模使用。本实施例中，各样本集信息如下表2所示。

表2

S3、首先，采用逻辑回归模型，以训练集的身高为因变量，以训练集的年龄、性别、数据批次、主成分PC为协变量，分别计算每个基因位点对身高的遗传效应值，得到训练集的身高GWAS数据。

需要说明的是，全基因组关联分析（GWAS）是广泛用于寻找复杂遗传疾病关联基因的重要手段，通过研究染色体上的变异位点与疾病或其他性状的关联，分析位点在患病与不患病，或性状不同的人群之间等位基因频率的差异性，得到位点的遗传效应估计值，并通过统计显著性（P-value）筛选出对疾病或复杂性状影响最关键的位点。

其次，除了计算训练集的身高GWAS数据外，还要收集目前世界范围内公开的样本数量最大的身高GWAS数据，以及其与非公开数据经荟萃分析(meta-analysis)得到的位点权重数据。

需要说明的是，荟萃分析（meta-analysis）是广泛用于整合针对同一科学问题研究结果的统计方法。与单个研究相比，通过整合多个相关研究，可以增大样本量，提高统计检验显著性，得到更准确的统计量估计。

具体实施时，本步骤S3包括如下具体步骤：

S3-1、提取训练集在步骤S2通过主成分分析法（PCA）计算得到的前5个主成分PC。

需要说明的是，在进行GWAS分析时，选择最显著的一定数量的主成分变量纳入模型中可以对检测到的亚群进行矫正，从而减少假阳性结果。本发明选择将前5个主成分PC加入到后续的GWAS分析模型中。

S3-2、基于训练集的基因组数据和身高相关表型数据，采用逻辑回归模型计算训练集的身高GWAS数据，并以身高为因变量，以年龄、性别、5个主成分PC和数据批次为协变量，分别对每个基因位点进行建模计算，得到每个基因位点对身高的遗传效应值，从而得到训练集的身高GWAS数据。

需要说明的是，全基因组关联分析（GWAS）采用逻辑回归模型（Logisticregression model），以身高为因变量，分别对每个基因位点进行建模计算，模型中除基因组数据外，还加入年龄、性别、前5个主成分PC和数据批次作为协变量，从而得到每个位点对身高的遗传效应值的估计。该遗传效应值衡量了位点的变异对于身高的遗传解释程度。本实施例中，根据上述数据，可以得到约540万位点遗传效应值。

现有技术中，GWAS数据通常以一份关于位点信息的数据表形式表示，其字段包括每个位点对应的位点ID、坐标信息、以及对应的遗传效应值、遗传效应值的标准差、统计显著性（P 值）等信息。因此，通过对每个基因位点进行与身高关联的 GWAS 分析，可获得位点对身高的遗传效应值，进而获得训练集的身高GWAS数据。

S3-3、收集目前世界范围内公开的样本数量最大的外部公开的身高GWAS数据，比如来自GIANT队列，其中包含欧洲、东亚、非洲、南亚和西班牙裔族群，以及该外部公开的身高GWAS数据与非公开数据进行荟萃分析(meta-analysis)得到的位点权重数据，比如来自23andMe队列。

需要说明的是，本实施例收集的外部公开的身高GWAS数据，以及其与非公开数据经荟萃分析得到的位点权重数据均来自一篇公开文献：Yengo, L., Vedantam, S.,Marouli, E.et al.A saturated map of common genetic variants associated withhuman height.Nature610, 704–712 (2022)。该文献提及了两部分数据，一部分数据是外部公开可获得的身高GWAS数据，另一部分数据是非公开数据，并且发布了该外部公开的身高GWAS数据与非公开数据的荟萃分析结果，该荟萃分析结果包括位点权重数据。

基于上述，本实施例使用深圳市早知道科技有限公司用户群所招募样本数据的训练集计算得到的身高GWAS数据，以及五组外部公开的身高GWAS数据，如下表3所示。

表3

S4、基于训练集的身高GWAS数据、外部公开的身高GWAS数据和位点权重数据，分别计算跨族群身高的多基因风险评分PRS权重，以及单一族群身高的多基因风险评分PRS权重。

需要说明的是，现有技术中，多基因风险评分PRS是一种基于大规模的GWAS研究，利用遗传变异信息预测患病风险或其他性状的方法。该方法通过将与性状相关的位点基因型与其遗传效应值进行加权求和得到PRS值，汇总了从GWAS中确定的多个遗传变异的信息来估计个体的疾病遗传风险或性状特征。

并且，多基因风险评分PRS权重衡量了个体身高的遗传特征，PRS权重越高，表明由遗传信息影响的身高值越高，因此基于多基因风险评分PRS权重，将身高GWAS数据与PRS数据进行回归分析，可以得到身高预测模型。并且，相比于使用单一族群身高GWAS数据的多基因风险评分PRS权重，将基于不同计算方法的多组多基因风险评分PRS权重纳入身高预测模型，有利于提高身高预测的精度。

因此，本步骤的设计思路如下：首先，将训练集的身高GWAS数据与外部公开的身高GWAS数据，按照族群不同进行两两组合，每个组合的身高GWAS数据包括一个亚洲族群的身高GWAS数据以及一个欧洲族群的身高GWAS数据；并对每个组合的身高GWAS数据分别采用PRS-CSx方法和X-Wing方法计算多基因风险评分PRS权重。其次，将训练集的身高GWAS数据与外部公开的身高GWAS数据中，每个单一族群的身高GWAS数据分别采用C+T方法和PRS-CS方法计算多基因风险评分PRS权重。

尤其是，本步骤所用的多基因风险评分PRS权重计算方法分为基于两组（来自不同族群）身高GWAS数据的方法，以及基于单一族群身高GWAS数据的方法。其中，基于两组来自不同族群的身高GWAS数据的多基因风险评分PRS权重计算方法包括PRS-CSx方法和X-Wing方法。

具体实施时，本步骤S4包括如下具体步骤：

S4-1、所述跨族群身高的多基因风险评分PRS权重的计算方法，包括：

S4-11、基于训练集的身高GWAS数据与外部公开的身高GWAS数据，按照族群不同，将每个族群的身高GWAS数据进行两两组合，每个组合包括一个亚洲族群的身高GWAS以及一个欧洲族群的身高GWAS。

本实施例中，训练集所需数据包括：a、基因组分型数据；b、表3中WeGene GWAS中的训练集数据。

S4-12、对每个组合的身高GWAS数据采用PRS-CSx方法进行多基因风险评分PRS权重计算，得到身高预测模型的参数。

现有技术中，PRS-CSx (Ruan et al. 2022) 方法通过引入全局收缩参数 () 和局部收缩参数 (/>) 进行GWAS的遗传效应值的调整，公式如下：

其中，是第j个SNP位点在第k个群体中的遗传效应值。

具体的，下载安装 PRS-CSx 源文件、LD Panel 数据、SNP 位点信息数据，配置python3 环境，并安装 scipy 和 h5py 模块，在python中调用PRScsx.py文件进行模型拟合。

S4-13、对每个组合的身高GWAS数据采用X-Wing方法进行多基因风险评分PRS权重计算，得到身高预测模型的参数。

现有技术中，X-Wing (Miao et al. 2022) 方法通过引入全局收缩参数 ()、局部收缩参数 (/>) 和注释依赖收缩参数 (/>) 来调整不同SNP位点的遗传效应值()，公式如下:

其中，是第j个SNP位点在第k个群体中的遗传效应值。

具体的，下载安装 X-Wing 源文件，并分为两步操作：

第一步、LOGODetect：需配置 R 环境以及 snowfall、data.table（>=1.11.8）、optparse（>=1.6.6）、BEDMatrix（>=2.0.3）、XPASS包，下载EUR和EAS的reference数据。在R中调用LOGODetect.R 文件得到基于欧洲（EUR）和东亚（EAS）族群遗传相关性的注释（Annotation）。其中，注释是对SNP位点的分组，同一组SNP位点之间具有相似性。LOGODetect根据两个族群遗传相关性的大小进行SNP位点分组，从而在后续步骤中，对遗传相关性较大的SNP位点，可以把两组身高GWAS数据进行整合，得到更准确的遗传效应估计值；对遗传相关性较小的SNP位点，则保留各自族群的身高GWAS数据，从而充分利用族群遗传相关性对遗传效应值进行调整。

第二步、PANTHER：需配置python3环境并安装scipy、h5py、numpy、pandas、copy模块，下载SNP位点信息以及EUR和EAS的reference数据。PANTHER根据LOGODetect输出的注释以及两组身高GWAS数据，计算得到后贝叶斯遗传效应值的估计值。

本实施例中，选用的GWAS组合与计算方法组合如下表4所示：

表4

由表4可知，每个组合的计算结果会输出两套多基因风险评分PRS权重，分别对应两个族群在进行遗传效应值矫正算法计算之后的后贝叶斯遗传效应值估计，后续可基于此得到对应的多基因风险评分PRS值。例如，包括/>和/>。这些PRS权重后续直接作为协变量放到回归模型中，和其他协变量一起进行分布回归。

由上述可知，本发明使用了基于单一族群身高GWAS数据的多基因风险评PRS权重，以及基于两组（来自不同族群）身高GWAS数据的多基因风险评PRS权重进行建模。其中，跨族群中主要涉及欧洲人群和亚洲人群数据。通过使用欧洲和亚洲人群两组身高GWAS数据，基于GWAS对族群间身高相关位点的遗传相关性进行估计，进而对两组身高GWAS数据的遗传效应估计值进行调整，使得遗传相关性高的位点能够更充分利用两组身高GWAS数据的信息，从而提高遗传效应估计值的精确度。

S4-2、所述单一族群身高的多基因风险评分PRS权重的计算方法，包括：

S4-21、基于训练集的身高GWAS数据与外部身高GWAS数据，基于单一族群，将每个族群的身高GWAS数据采用C+T方法（Clumping + P-value thresholding）进行多基因风险评分PRS权重计算，具体包括：

Clumping：去除相关性较高的SNP位点，使得筛选后的SNP位点之间相对独立；

P-value thresholding：根据GWAS的P值筛选出与身高相关性高的SNP位点进行使用。

其中，所使用到的参数为：连锁不平衡相关系数r2≥0.1；Clumping窗口大小为500 kb。

S4-22、基于训练集的身高GWAS数据与外部身高GWAS数据，基于单一族群，将每个族群的身高GWAS数据采用PRS-CS 方法进行多基因风险评分PRS权重计算，具体包括：

PRS-CSx (Ruan et al. 2022) 通过引入全局收缩参数 () 和局部收缩参数 () 进行 GWAS 的遗传效应值的调整：

其中，是第j个SNP位点的遗传效应值，/>是连续的密度函数。

本实施例中，从步骤S1构建的身高相关基因位点参考数据库中选取多组GWAS数据，分别采用C+T方法和PRS-CS方法计算，得到多基因风险评分PRS权重，如下表5所示。之后，这些PRS权重会和步骤S4-1所得的PRS权重一起放到回归模型里面。

表5

S5、将步骤S4所得的将跨族群身高的多基因风险评分PRS权重，以及单一族群身高的多基因风险评分PRS权重应用到验证集，得到多组验证集的多基因风险评分PRS值；然后将验证集的身高，以及验证集的年龄、性别、前5个主成分PC、数据批次、多基因风险评分PRS值进行线性回归，并使用分步回归方法进行变量的筛选，保留P-value显著的变量，得到所保留变量的回归系数，以及身高预测模型。

具体实施时，本步骤S5包括如下：

S5-1、准备验证集所需数据，包括：基因组数据、身高（cm）、年龄（岁）、数据批次（比如：不同数据批次用0、1、2等数字表示）、性别（比如：男=1，女=0）、前5个主成分PC。并且，验证集包含的样本数据应与训练集中的样本数据无重复。

S5-2、将步骤S4中得到的将跨族群身高的多基因风险评分PRS权重，以及单一族群身高的多基因风险评分PRS权重应用到验证集的样本数据，得到多组验证集的多基因风险评分PRS值，计算公式如下：

其中，为多基因风险评分PRS权重，/>为验证集中每个SNP位点的基因型数据。

S5-3、对验证集进行线性模型拟合，以验证集的身高为因变量，以验证集的多基因风险评分PRS值、年龄、性别、数据批次、主成分PC为协变量进行线性回归，这里用到的是普通线性回归模型，也是一种常用的统计学模型。并且，采用分步回归的方法进行协变量筛选，保留P-value小于0.05（统计显著）的协变量，得到所保留协变量的回归系数，从而得到身高预测模型的通用公式如下：

其中，代表第j个协变量，/>代表第j个协变量在身高预测模型中的回归系数，代表第i组的PRS值，/>代表第i组的多基因风险评分PRS值在身高预测模型中的回归系数。

在本实施例中，所得的身高预测模型可以采用如下公式表示：

根据上述数据，最终所得的身高预测模型举例如下：

S6、将跨族群身高多基因风险评分PRS权重，以及单一族群身高多基因风险评分PRS权重应用到目标集，得到目标集的多基因风险评分PRS值；然后将目标集的多基因风险评分PRS值、年龄、性别、数据批次、主成分PC输入到身高预测模型中，得到身高预测值。

具体实施时，本步骤S6包括如下步骤：

S6-1、准备目标集所需数据，包括：a、基因组数据；b、年龄（岁）；c、数据批次（比如：不同数据批次用0、1、2等数字表示）；d、性别（比如：男=1，女=0）。

S6-2、将身高预测模型应用到目标集，具体地步骤如下：

S6-21、提取训练集在步骤S2通过主成分分析法（PCA）得到的前5个主成分PC。

S6-22、使用目标集的基因组数据，跨族群身高的多基因风险评分PRS权重，以及单一族群身高的多基因风险评分PRS权重，得到多组目标集的多基因风险评分PRS值，计算过程同步骤S5-2，公式如下：

其中，为多基因风险评分PRS权重，/>为目标集中每个SNP位点的基因型数据。/>

S6-23、将目标集的多基因风险评分PRS值，以及目标集的年龄、性别、PC和数据批次等协变量代入到身高预测模型中，即可得到身高预测值(cm)。

最后，图2展示了目标集的样本通过身高预测模型计算得到的身高预测值与真实身高值的对比情况，以及预测误差的分布情况。由图2可知，预测值与真实值的平均误差在男女群体中分别为5.108和4.589（cm），误差以0为中心，说明预测值在整体上无系统性偏差。并且，本身高预测模型在男女群体中预测精度（R2值）分别达到了35.8%和34.8%，相较于目前身高GWAS论文（Yengo et al. 2022）中亚洲人群身高预测精度（20.5%）有了明显的提高，从而表明本身高预测模型的预测效能较好。

需要说明的是，预测值与真实值的平均误差是指：所测样本的模型预测身高减去样本真实身高，得到的差值的平均值，衡量了模型预测的身高相对于真实身高的平均误差，误差越小说明模型平均预测越准。并且，R2值衡量了样本的模型预测身高与样本真实身高相关性，R2值越高，说明模型预测值与真实身高的相关性越高，模型预测效果越好。

并且，图2还展示了目标集的样本通过身高预测模型计算得到的预测身高和真实身高的分布情况。其中，横轴为身高数值（cm），纵轴为对应身高的人数。由图2可知，预测身高相比于真实身高，分布相似，平均值接近，符合真实身高的大致分布。

实施例2：本发明基于生物遗传数据的身高预测系统。

如图3所示，为了给本发明方法提供身高预测计算所需要的实施环境，本实施例提供一种基于生物遗传数据的身高预测系统，包括数据录入储存模块、数据预处理模块、模型训练模块、身高预测模块，具体介绍如下。

所述数据录入储存模块，用于采集中国汉族人群样本，获取基因组数据和数据批次，以及身高相关表型数据，包括身高、年龄、性别，并构建身高相关基因位点参考数据库。

所述数据预处理模块，用于对基因组数据在位点层面进行质量控制，并对基因组数据和身高相关表型数据在个体层面进行质量控制，得到样本数据；然后对样本数据中的基因组数据进行主成分分析，得到主成分PC；再将样本数据随机划分为训练集、验证集和测试集。

以及用于将跨族群身高的多基因风险评分PRS权重，以及单一族群身高的多基因风险评分PRS权重应用到验证集，计算验证集的多基因风险评分PRS值；然后采用线性回归模型，以验证集的身高为因变量，以验证集的多基因风险评分PRS值、年龄、性别、数据批次、主成分PC为协变量，分别计算每个协变量的回归系数，并使用分步回归方法进行协变量的筛选，得到身高预测模型。

具体实施时，本发明系统的工作过程如下：

A、通过数据录入模块数据进行数据导入、收集和储存录入，包含以下内容：

A1、基因组数据：由基因芯片技术或高通量测序技术检测获得芯片分型数据，将基因检测设备输出的芯片分数据导入数据录入模块，并使用Minimac4进行基因填充，与芯片分型数据一起构成基因组数据，并录入数据库中储存；

A2、身高相关表型数据：通过对招募个体通过网络问卷的形式收集身高相关表型数据，并录入数据库中储存。

B、通过数据预处理模块对录入数据库中数据进行预处理，包含以下内容：

B1、对基因组数据在位点层面的质量控制，对基因组数据和和身高相关表型数据在个体层面的质量控制，得到的样本数据；

B2、对样本数据中的基因组数据进行主成分分析，得到主成分PC；

B3、将样本数据以8:1:1的比例，随机划分为训练集、验证集和测试集。

C、通过模型训练模块计算得到身高预测模型，包括如下内容：

C1、准备验证集所需的数据，提取主成分分析得出的前5个主成分，并计算训练集中每个基因位点对身高的遗传效应值，得到训练集的身高GWAS数据；

C2、收集外部公开的身高GWAS数据，以及其与非公开数据经荟萃分析得到的位点权重数据；

C3、计算跨族群身高的多基因风险评分PRS权重，以及单一族群身高的多基因风险评分PRS权重；

C4、计算验证集的多基因风险评分PRS值；

C5、将多基因风险评分PRS值以及训练集的表型数据进行回归分析，从而得到身高预测模型。

D、通过身高预测模块进行身高预测，包括如下内容：

D1、准备目标集所需的数据，提取主成分分析得到的前5个主成分PC，并计算目标集的多基因风险评分PRS值；

D2、将PRS值、身高相关表型数据、前5个主成分PC等代入身高预测模型，从而得到身高预测值，并输出预测结果。

并且，本发明身高预测系统可以搭载在具有较强计算能力的服务器上，可以是本地服务器，也可以是云服务器。

虽然本发明已经提供了具体的实施例进行描述，但这些实施例仅用于解释本发明，并不对发明进行限制。在任何一个或多个实施例或示例中，可以以合适的方式结合描述的具体特征、结构、材料或特点。本领域的技术人员在阅读完本说明书后，可以在不违背本发明原理和宗旨的前提下，根据需要对实施例进行修改、替换和变型等，这些改变虽然没有创造性贡献，但只要在本发明的权利要求范围内，仍然受到专利法的保护。

Claims

1.一种基于生物遗传数据的身高预测方法，其特征在于，包括如下步骤：

S2、对基因组数据在位点层面进行质量控制，并对基因组数据和身高相关表型数据在个体层面进行质量控制，得到样本数据；然后对样本数据中的基因组数据进行主成分分析，得到主成分PC；再将样本数据随机划分为训练集、验证集和目标集；

所述外部公开的身高GWAS数据为：世界范围内公开的样本数量最大的身高GWAS数据，并且包括欧洲裔族群、东亚裔族群、非洲裔族群、南亚裔族群和西班牙裔族群；

所述跨族群身高的多基因风险评分 PRS权重的计算包括：按照族群不同，将每个族群的身高GWAS数据进行两两组合，每个组合包括一个亚洲族群的身高GWAS数据和一个欧洲族群的身高GWAS数据；然后对每个组合的身高GWAS数据分别采用PRS-CSx方法和X-Wing方法计算多基因风险评分PRS权重；

所述单一族群身高的多基因风险评分PRS 权重的计算包括：基于单一族群，将每个族群的身高GWAS数据分别采用C+T方法和PRS-CS方法计算多基因风险评分PRS权重；

S5、将跨族群身高的多基因风险评分PRS权重，以及单一族群身高的多基因风险评分PRS权重应用到验证集，计算验证集的多基因风险评分PRS值；然后采用线性回归模型，以验证集的身高为因变量，以验证集的多基因风险评分PRS值、年龄、性别、数据批次、主成分PC为协变量，分别计算每个协变量的回归系数，并采用分步回归方法进行协变量的筛选，得到身高预测模型；

所述多基因风险评分PRS值的计算公式如下：

其中，为多基因风险评分PRS权重；/>为每个位点的基因型数据；

2.根据权利要求1所述的一种基于生物遗传数据的身高预测方法，其特征在于，步骤S1包括：

S1-3、构建身高相关基因位点参考数据库。

3.根据权利要求1所述的一种基于生物遗传数据的身高预测方法，其特征在于，所述对基因组数据在位点层面进行质量控制，包括：

S2-1-11、去除未检出率高于2%的位点；

S2-1-12、去除哈迪温伯格检测的P值小于的位点；

S2-1-13、去除较小的等位基因频率低于1%的位点；

S2-1-14、去除基因填充质量低于0.3的位点。

4.根据权利要求1或3所述的一种基于生物遗传数据的身高预测方法，其特征在于，所述对基因组数据和身高相关表型数据在个体层面进行质量控制，包括：

S2-1-21、去除整体位点缺失率大于5%的样本；

S2-1-22、去除基因性别与表型性别不匹配的个体；

S2-1-23、去除身高不在150-210cm之间的样本；

S2-1-24、去除年龄不在18-80岁之间的样本。

5.根据权利要求1所述的一种基于生物遗传数据的身高预测方法，其特征在于，所述身高预测模型的公式如下：

其中，代表第j个协变量，/>代表第j个协变量在身高预测模型中的回归系数，/>代表第i组的多基因风险评分PRS值，/>代表第i组的多基因风险评分PRS值在身高预测模型中的回归系数。

6.一种基于生物遗传数据的身高预测系统，其特征在于，包括数据录入储存模块、数据预处理模块、模型训练模块、身高预测模块；

所述数据预处理模块，用于对基因组数据在位点层面进行质量控制，并对基因组数据和身高相关表型数据在个体层面进行质量控制，得到样本数据；然后对样本数据中的基因组数据进行主成分分析，得到主成分PC；再将样本数据随机划分为训练集、验证集和目标集；

所述外部公开的身高GWAS数据为：世界范围内公开的样本数量最大的身高GWAS数据，并且包括欧洲、东亚、非洲、南亚和西班牙裔族群；

以及用于将跨族群身高的多基因风险评分PRS权重，以及单一族群身高的多基因风险评分PRS权重应用到验证集，计算验证集的多基因风险评分PRS值；然后采用线性回归模型，以验证集的身高为因变量，以验证集的多基因风险评分PRS值、年龄、性别、数据批次、主成分PC为协变量，分别计算每个协变量的回归系数，并使用分步回归方法进行协变量的筛选，得到身高预测模型；

所述多基因风险评分PRS值的计算公式如下：