CN111210874A

CN111210874A - 一种基于基因大数据进行祖源分析预测的算法

Info

Publication number: CN111210874A
Application number: CN202010000024.2A
Authority: CN
Inventors: 罗奇斌; 申玉林; 廖胜光; 任毅
Original assignee: Beijing Qiyunnord Information Technology Co Ltd
Current assignee: Beijing Qiyunnord Information Technology Co Ltd
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2020-05-29

Abstract

本发明涉及基因大数据祖源分析预测技术领域，且公开了一种基于基因大数据进行祖源分析预测的算法，包括祖源成分样本数据的收集、数据预处理、祖源成分分析预测、Y染色体单倍群分析、线粒体单倍群分析、结果展示。目前市场上祖源分析技术多使用开源数据库，其中有关中国个体的样本量较少，导致血统和单倍群分型不准确、不够细致等，这里我们在开源数据库的基础上添加本公司收集的大量中国人样本数据，同时对源数据进行进一步优化，使得输入数据更加准确可靠，从而提高输出结果的精确度，另外本公司自主研发此三种分析中的比对打分算法，从而使得最终结果更加准确和细致。

Description

一种基于基因大数据进行祖源分析预测的算法

技术领域

本发明涉及基因大数据祖源分析预测技术领域，具体为一种基于基因大数据进行祖源分析预测的算法。

背景技术

现代生物理论认为，基因是遗传的基本单位。在人类繁殖的过程中，遗传特征通过基因传递给下一代，子代分别从父母双方各获得一套染色体，一方面完成了遗传信息从亲代到子代的传递，另一方面也丰富了子代的遗传特征多样性。在人类族群演化的过程中，DNA中会累计多种遗传突变，也被称为单核苷酸多态性位点(SNP)，不同族群累积的突变位点也不尽相同，因此SNP可以在一定程度上反应族群的遗传特征。

在父母双方各自将自己一半的染色体遗传给儿子的时候，父亲将传递给子代22条常染色体和一条Y染色体，母亲则贡献另外一半常染色体和一条X染色体，因此男性的Y染色体只会从父亲处获得。在Y染色体传递的过程中，也会发生突变，在族群演化的过程中，Y染色体上的SNP被累积了下来，因此由Y染色体上SNP可以推测个体的父系祖源。生物学家通过收集分析不同族群的Y染色体数据，构建了Y染色体单倍群树，树上的节点可准确反映族群间发生分支的突变。通过检测这些突变并比对Y染色体单倍群树，我们可推测个体的Y染色体单倍群，追溯父系祖源、演化和迁徙。

除了常染色体和性染色体外，亲代的线粒体DNA也会遗传给子代。线粒体DNA只来自母亲提供的卵子，因此线粒体DNA只会通过母亲遗传。线粒体在亲子代传递过程中不会发生重组现象，但是和Y染色体一样会发生突变。通过研究这些累计的突变，可以追溯母系祖源、族群分化和迁徙。

目前市场上的祖源分析技术多使用开源数据库，其中关于中国个体的样本量小，导致血统和单倍群分型不准确、分型不细致等，从而无法做到精确的追溯祖源。

发明内容

针对上述背景技术的不足，本发明提供了一种基于基因大数据进行祖源分析预测的算法，即我们开发的祖源分析技术在使用开源数据库的基础上，同时添加多渠道收集的中国人样本数据，可以使祖源成分、单倍群分型更细致和准确。

本发明提供如下技术方案：一种基于基因大数据进行祖源分析预测的算法，其特征在于：包括祖源成分样本数据的收集、数据预处理、祖源成分分析预测、Y染色体单倍群分析、线粒体单倍群分析、结果展示：

第一步，祖源分析预测中使用数据的收集，包括国际千人基因组计划中的样本数据、Hapmap项目中样本数据以及奇云诺德收集到的大量中国人样本数据；

第二步数据预处理，奇云诺德公司收集到的样本采用Illumina公司针对亚洲人定制的ASAMD芯片进行基因分型检测，此芯片可检测出66万个有效SNP(single nucleotidepolymorphism，单核苷酸多态性)位点，千人基因组和Hapmap项目中的样本数据采用的技术包括WGS(Whole Genome Sequencing，全基因组测序)、WES(Whole Exome Sequencing，全外显子测序)以及芯片分型技术等，根据不同来源数据按照统一标准预处理成一个源数据；

第三步祖源成分分析，此分析中我们使用美国加州大学洛杉矶分校(UCLA)开发的Admixture祖源分析软件为原型，在此基础上通过比对个体的基因型与奇云诺德数据库中的参考种族族群样本的相似度，计算出个体祖源成分，我们开发的祖源成分计算方法可以准确地区分美洲、欧洲、非洲和亚洲祖源，并且因为本公司收集到大量中国人群数据，因而亚洲祖源中可也以细分至多个中国地区，计算结果以百分比的方式呈现；

第四步Y染色体单倍群分析，此分析中，我们参考了国际遗传系谱协会(ISOGG)公布的Y染色体单倍群树，通过比较待检样本与单倍群树上的每一个单倍群的相似性，对待检样本进行横向、纵向打分，最终以得分最高的单倍群作为待检样本的Y染色体单倍群；

第五步线粒体单倍群分析，此分析中我们参考了鹿特丹伊拉斯姆斯大学(PhyloTree)公布的线粒体单倍群树，通过比较待检样本与单倍群树上的每一个单倍群的相似性，对待检样本进行横向、纵向打分，最终以得分最高的单倍群作为待检样本的线粒体单倍群。

优选的，所述收集的样本基因数据SNP位点分型检测采用针对亚洲人群定制的ASAMD基因芯片。

优选的，所述收集的原始数据包括千人基因组项目、Hapmap项目以及本公司收集的大量中国人样本数据。

优选的，所述祖源成分分析通过与参考种族族群比对打分，计算出个体祖源成分，细分至中国多个区域，如南方汉族、北方汉族、藏族、其他少数名族等。

优选的，所述单倍群分析通过与已知单倍群树(ISOGG、PhyloTree)比对，进行横向、纵向打分，最终以得分最高的单倍群作为待检样本的相应单倍群。

本发明具备以下有益效果：

使用开源数据库的基础上，添加多渠道收集的中国人样本数据，可以使祖源成分、单倍群分型更细致，同时在开源软件的基础上进行算法优化，使得最终结果更加精确。

附图说明

图1为本发明流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，但本发明的保护范围不受具体的实施方式所限制，以权利要求书为准，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，一种基于基因大数据进行祖源分析预测的算法，该方法基于我们前期收集的多来源样本数据，包括国际千人基因组计划、Hapmap项目和奇云诺德内部数据集，其中奇云诺德内部数据集采用Illumina公司针对亚洲人定制的ASAMD芯片检测，芯片可检测出66万个有效SNP位点，同时在开源软件的基础上进行算法优化，使得最终结果更加细致和精确。祖源分析技术目前分为三个部分，祖源成分分析、Y染色体单倍群分析和线粒体单倍群分析，具体实施步骤如下：

第四步Y染色体单倍群分析，此分析中，我们参考了国际遗传系谱协会(ISOGG)公布的Y染色体单倍群树，通过比较待检样本与单倍群树上的每一个单倍群的相似性，对待检样本进行横向、纵向打分，最终以得分最高的单倍群作为待检样本的Y染色体单倍群。算法步骤分为确定Y染色体单倍群树上的SNP位点状态、待测样本基因数据质检、待测样本在单倍群树上的状态判定、待测样本单倍型的检索判定。

S1确定Y染色体单倍群树上的SNP位点状态：我们将待测样本的SNP位点与Y染色体单倍群树上的节点一一对定并确定状态，状态用0，1，-1表示待检样本SNP为野生型、突变型和其他。由于SNP检测可能无法覆盖树上的所有节点，因此没有被覆盖的节点我们使用参照序列的结果(hg18/hg19)。

S2待测样本基因数据质检：质检过程我们将待测样本的每个SNP分为充分数据和不充分数据，质检不充分的样本的单倍群无法通过算法确定，因此将参照序列纳入计算范围，待测样本的单倍群将更加接近理想的Y染色体单倍群。

S3待测样本在单倍群树上的状态判定：节点上的状态分为True、False两个状态，由上一步中的数据质检结果决定，当质检结果为充分数据时，该位点会被用来计算突变频率，计算出的True概率会超过85％；质检结果为不充分时，我们将忽略参考序列的碱基突变频率、只计算检测样本的突变频率，其突变频率超过5％即认为节点状态为True。

S4待测样本单倍型的检索判定：第一步我们在树的垂直方向上确定最后一列为True的节点；第二步沿水平方向从树根到树叶依次确定状态为True的节点，当一个节点为True时，继续确定该节点之后的子节点状态，当一个节点后出现多个True子节点，那么子节点后的节点也需要一一确定，直到没有True节点出现，或者节点没有子节点未知；第三步我们挑选S4第一步骤里面True节点，并按照S4第二步中的路径向上返回，直到到达树根或没有上级节点，结合前两个步骤挑选出多个路径；第四步在多个路径中，按照打分规律确定个体的Y染色体单倍群，即为最终结果。

第五步线粒体单倍群分析，此分析中我们参考了鹿特丹伊拉斯姆斯大学(PhyloTree)公布的线粒体单倍群树，通过比较待检样本与单倍群树上的每一个单倍群的相似性，对待检样本进行横向、纵向打分，最终以得分最高的单倍群作为待检样本的线粒体单倍群。线粒体单倍群分析原理过程与Y染色体单倍群分析类似，不同的是参考的是PhyloTree公布的线粒体单倍群树。

其中，所述收集的样本基因数据SNP位点分型检测采用针对亚洲人群定制的ASAMD基因芯片。

其中，所述收集的原始数据包括千人基因组项目、Hapmap项目以及本公司收集的大量中国人样本数据。

其中，所述祖源成分分析通过与参考种族族群比对打分，计算出个体祖源成分，细分至中国多个区域，如南方汉族、北方汉族、藏族、其他少数名族等。

其中，所述单倍群分析通过与已知单倍群树(ISOGG、PhyloTree)比对，进行横向、纵向打分，最终以得分最高的单倍群作为待检样本的相应单倍群。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于基因大数据进行祖源分析预测的算法，其特征在于：包括祖源成分样本数据的收集、数据预处理、祖源成分分析预测、Y染色体单倍群分析、线粒体单倍群分析、结果展示：

2.根据权利要求1所述的一种基于基因大数据进行祖源分析预测的算法，其特征在于：对基因数据进行SNP位点分型检测采用针对亚洲人群定制的ASAMD基因芯片。

3.根据权利要求1所述的一种基于基因大数据进行祖源分析预测的算法，其特征在于：收集的原始数据包括千人基因组项目、Hapmap项目以及本公司收集的大量中国人样本数据。

4.根据权利要求1所述的一种基于基因大数据进行祖源分析预测的算法，其特征在于：通过与参考种族族群比对打分，计算出个体祖源成分，细分至中国多个区域，如南方汉族、北方汉族、藏族、其他少数名族等。

5.根据权利要求1所述的一种基于基因大数据进行祖源分析预测的算法，其特征在于：通过与已知单倍群树(ISOGG、PhyloTree)比对，进行横向、纵向打分，最终以得分最高的单倍群作为待检样本的相应单倍群。