CN109473142A - 样本数据集合的构建方法及其遗传出生地预测方法 - Google Patents
样本数据集合的构建方法及其遗传出生地预测方法 Download PDFInfo
- Publication number
- CN109473142A CN109473142A CN201811177713.XA CN201811177713A CN109473142A CN 109473142 A CN109473142 A CN 109473142A CN 201811177713 A CN201811177713 A CN 201811177713A CN 109473142 A CN109473142 A CN 109473142A
- Authority
- CN
- China
- Prior art keywords
- ancestral
- sample
- derived components
- birthplace
- hereditary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000010276 construction Methods 0.000 title claims abstract description 25
- 241001269238 Data Species 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 16
- 208000032839 leukemia Diseases 0.000 claims description 4
- 238000003205 genotyping method Methods 0.000 abstract description 23
- 239000000523 sample Substances 0.000 description 104
- 239000011159 matrix material Substances 0.000 description 13
- 238000007637 random forest analysis Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 238000012163 sequencing technique Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000002493 microarray Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 239000002773 nucleotide Substances 0.000 description 3
- 125000003729 nucleotide group Chemical group 0.000 description 3
- 239000013074 reference sample Substances 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000012775 microarray technology Methods 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000000018 DNA microarray Methods 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 150000007523 nucleic acids Chemical group 0.000 description 1
- 238000002966 oligonucleotide array Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种遗传出生地样本数据集合的构建方法及其遗传出生地预测方法。该构建方法包括:采集若干个样本数据,所述样本数据包括样本SNP分型和祖籍地;根据祖源成分集合,计算所述样本数据的祖源成分;所述祖源成分集合由若干个族群组成;将所述样本数据的祖籍地设置为对应的祖源成分的标签,生成标注数据。该遗传出生地样本数据集合的构建方法开创性的拓展了关于SNP分型结果的应用,更好的利用了SNP分型中包含的信息,具有良好的应用前景。
Description
技术领域
本发明涉及生物信息技术领域,尤其涉及一种基于SNP分型的样本数据集合的构建方法及其遗传出生地预测方法。
背景技术
SNP是单核苷酸多态性(Single Nucleotide Polymorphism)的简写,是指基因组上单个核苷酸变异,即A、T、C、G四种碱基的互相改变,形成基因组上同一位置会有多种碱基存在的多态性。
SNP基因分型指的是确定SNP的碱基对类型,除了未检出情况,总共有4*4=16种可能结果。基因分型的不同,可能导致样本的表型不同。
SNP在人群中广泛存在,多态性丰富,是很好的遗传标记物。尤其高通量的SNP检测方法出现之后,被广泛用于生物信息学的分析。
在实现本发明过程中,发明人发现相关技术存在以下问题:随着技术的发展成熟,目前由微阵列芯片、二代测序等都可以快速地对DNA样本进行 SNP分型,但是如何针对性的利用SNP分型结果进行信息分析,挖掘其中的隐含的数据,应用于其它场景仍然有待研究。
发明内容
针对上述技术问题,本发明实施例提供了一种基于SNP分型的样本数据集合的构建方法及其遗传出生地预测方法,以解决现有技术中对SNP分型结果信息缺乏有效利用的问题。
本发明实施例的第一方面提供一种遗传出生地样本数据集合的构建方法。所述方法包括:采集若干个样本数据,所述样本数据包括样本SNP分型和祖籍地;根据祖源成分集合,计算所述样本数据的祖源成分;所述祖源成分集合由若干个族群组成;将所述样本数据的祖籍地设置为对应的祖源成分的标签,生成标注数据。
可选地,所述祖源成分集合通过如下方法获得:获取若干个不同族群对应的参考SNP分型;将所述若干个参考SNP分型作为祖源成分集合,每个参考SNP分型均为所述祖源成分集合的元素。
可选地,所述样本数据的祖源成分中,所述祖源成分集合中的每个族群所占的成分比例之和为1。
可选地,所述祖源成分集合包括北方汉族、南方汉族、高山族群以及藏族。
可选地,所述祖源成分集合包括至少42个族群。
可选地,通过线上调查问卷,确定所述样本数据的祖籍地。
可选地,所述遗传出生地样本数据集合包括若干条标注数据,每一条标注数据包括根据SNP分型确定的祖源成分及祖籍地。
可选地,所述方法还包括:将所述遗传出生地样本数据集合中的至少一部分标注数据作为训练集,并且将剩余的标注数据作为测试集;所述测试集和训练集之间的标注数据数量比例为0.2比0.8。
本发明实施例的第二方面提供一种遗传出生地预测方法。该方法包括:应用如上所述的遗传出生地样本数据集合的构建方法构建获得的遗传出生地样本数据集合计算待测样本属于不同祖籍地的概率;根据所述概率生成所述待测样本的遗传出生地预测结果。
本发明实施例提供的方法利用SNP分型结果构建了相应的样本数据集合,可以作为数据库或基础数据,利用多种不同的比较算法,对待测样本的遗传出生地进行预测,并将预测结果广泛的应用在多个不同的领域,例如在考古学方面可以利用该技术对待检测样本进行遗传出生地的推测,从基因层面给出考古对象的潜在来源。而在在法医学方面可以根据犯罪嫌疑人留下的DNA 信息,推测其遗传出生地,帮助公安据此进行破案。或者是在公安帮助解救被拐卖小孩时,可以帮助推测小孩的出生地,从而帮助寻找失散的家人。
上述遗传出生地样本数据集合的构建方法开创性的拓展了关于SNP分型结果的应用,更好的利用了SNP分型中包含的信息,具有良好的应用前景。
附图说明
图1为本发明实施例的遗传出生地样本数据集合构建方法的一个实施例示意图;
图2为本发明实施例的遗传出生地预测方法的一个实施例示意图;
图3为本发明实施例的遗传出生地可视化显示的一个实施例示意图;
图4为本发明实施例的相似性计算的一个实施例示意图;
图5为本发明另一实施例的相似性计算的一个实施例示意图;
图6为本发明实施例的计算待测样本与各个遗传出生地的马氏距离的一个实施例示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,当元件被表述“固定于”另一个元件,它可以直接在另一个元件上、或者其间可以存在一个或多个居中的元件。当一个元件被表述“连接”另一个元件,它可以是直接连接到另一个元件、或者其间可以存在一个或多个居中的元件。本说明书所使用的术语“垂直的”、“水平的”、“左”、“右”、“上”、“下”、“内”、“外”、“底部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本说明书中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
随着高通量的SNP微阵列技术(micro array)以及第二代测序技术(NextGeneration Sequencing,NGS)的发展,人类基因的SNP分型结果已经可以快捷、准确并且低成本的获得。
其中,微阵列(micro array)也被称为寡核苷酸阵列(Oligonucleitide array),属于生物芯片中的一种。该技术的原理是在固体表面上集成已知序列的基因探针,被测生物细胞或组织中大量标记的核酸序列与上述探针阵列进行杂交以后,通过检测相应位置杂交探针来实现基因信息的快速检测。目前成熟商用的微阵列技术已经可以一次性对上百万的SNP位点进行准确分型。
第二代测序技术的核心是变测序变合成测序,通过捕捉新合成的末端的标记来确定DNA的序列。现今使用的第二代测序具有费用低,通量高,速度快以及便于操作的优点,被广泛用于各种大型基因组研究中。利用第二代测序技术进行全基因组SNP的分型,即可以在检测全基因组的SNP的同时达到很高的准确性。
基于所述的基因相关基础技术的发展,可以提供大量并且准确的SNP分型结果。本发明实施例提供了一种遗传出生地样本数据集合的构建方法,基于这些SNP分型结果构建遗传出生地的数据库,以便于后续的应用。如图1 所示,所述构建方法包括:
110、采集若干个样本数据,所述样本数据包括样本SNP分型和祖籍地。所述样本数据的祖籍地可以通过线上调查问卷等形式,由用户确认获得。
120、根据祖源成分集合,计算所述样本数据的祖源成分;所述祖源成分集合由若干个族群组成。
其中,所述祖源成分集合可以通过如下方法获得:首先,获取若干个不同族群对应的参考SNP分型。然后,将所述若干个参考SNP分型作为祖源成分集合,每个参考SNP分型均为所述祖源成分集合的元素。
SNP的多态性因为不同族群演化历史不同,都会有带有很强的族群特异性,可以被用来反映族群的遗传特征。对于不同的族群,都会具有相应的参考SNP分型,用以参考表示这些族群。
具体的,祖源成分集合包括北方汉族、南方汉族、高山族群、藏族以及日本等约42个族群以满足使用的要求。当然,还可以根据实际情况的需要,在祖源成分集合中选择更多或者更少的族群。
130、将所述样本数据的祖籍地设置为对应的祖源成分的标签,生成标注数据。
具体的,最终形成的遗传出生地样本数据集合由若干条标注数据组成。每一条标注数据包括根据SNP分型确定的祖源成分及祖籍地。例如,遗传出生地样本数据集合可以以[(x1,y1,z1...),(x2,y2,z2...),(xn,yn,zn...)]这样的形式表示。其中,{x,y,z...}为每个标注数据的祖源成分,n为每个标注数据的序号。
在一些实施例中,当所述遗传出生地样本数据集合应用于机器学习类型的比较预测算法时,还可以按照一定的比例将遗传出生地样本数据集合划分为测试集和训练集。亦即,将所述遗传出生地样本数据集合中的至少一部分标注数据作为训练集,并且将剩余的标注数据作为测试集。
具体的,所述测试集和训练集之间的标注数据数量比例可以为0.2比0.8。
基于上述方法实施例提供的遗传出生地样本数据集合,还可以对待测样本的遗传出生地进行预测,计算待测样本属于不同的出生地的概率或者给出多个候选的遗传出生地的预测结果。
图2为本发明实施例提供的遗传出生地预测方法。如图2所示,所述方法可以包括如下步骤:
210、获取待测样本的SNP分型结果。
该SNP分型结果可以通过以上实施例公开的一种或者多种方式进行基因检测后获得。为陈述简便,以“样本SNP分型结果”表示所述待测样本的SNP 分型结果。
220、计算所述待测样本的SNP分型结果与遗传出生地样本数据集合的相似性。“相似性”是指两者的统计学上的相近程度,具体可以是可能性或者相似度大小。
230、根据所述相似性,确定所述待测样本的祖源成分。所述祖源成分包括所述族群集合中每一个族群的成分比例。
祖源分析是指从遗传学角度来描绘每个人的祖先以及族群。不同族群演化历史不同,SNP多态性会有带有很强的族群特异性,可以用来反映族群的遗传特征。
从历史看来,不同地区的祖先限于当时的交通条件,主要聚集在一个小范围地区,因此这些地区的人群相比距离该地区较远其他地区,会有明显的祖源成分差异。
如果待测样本的祖源成分与该地区人群的祖源成分相似程度很高,表明样本对应的用户在该地出生的概率非常高。由此,可以将该地区称为待测样本的预测遗传出生地。
基于以上关于祖源和预测遗传出生地的理论推导,步骤130最终得出的计算结果-祖源成分是一种对于遗传出生地的预测概率。该祖源成分是各个地点为遗传出生地的概率的数值列表或者数值序列。
每个地点的可能性(即数值)取值范围均在0到1之间。所有地点的数值相加(即祖源成分的比例相加)之和为1。数值大小代表了可能性大小或相似度大小。而样本的数值为1时,表示两者完全一致。
在一些实施例中,为了更直观的展示最终计算获得的祖源成分结果,如图2所示,所述方法还可以包括如下步骤:
240、根据所述待测样本的祖源成分比例的大小,确定地图上对应地理位置的颜色深度,以可视化形式显示所述待测样本的祖源成分。
颜色深度设置等可视化显示形式可以根据实际情况选择设定。图3为本发明实施例提供的一种可视化显示的显示样式。在图3所示的实施例中,采用了不同的颜色深度的方式来表示所述待测样本在各个地点的出生预测概率。当然,也可以采用其它合适的形式,例如采用类似柱状图的方式,不同地区或者位置向外凸起的高度来表示所述待测样本遗传出生地的概率。
针对不同的遗传出生地的应用场景,所述步骤220具体可以采用两种不同类型的方法实现,从而输出不同的结果类型。输入的样本SNP分型结果以及最终输出的祖源成分均可以为JSON文件格式,通过HTTP API调用的方式实现。
在一些实施例中,当所述待测样本的遗传出生地的表示方式为各个地点的概率分布时,可以采用随机森林机器学习方法来计算样本SNP分型结果和参考数据之间的相似性,并输出待检测样本的遗传出生地为各个地点(与族群集合中包含的地点相对应)的概率分布。
图4为本发明实施例提供的计算样本SNP分型结果和遗传出生地样本数据集合之间的相似性的方法流程图。如图4所示,所述方法具体包括:
410、确定每个族群的参考SNP分型结果的祖源成分和对应的祖籍地信息;所述祖源成分和对应的祖籍地信息形成一条标注数据。
所述祖籍地数据可以来源于用户线上调查问卷等数据采集方式。在收集到某个参考样本对应用户的祖籍地数据以后,对该样本的祖源成分打上了一个标签,构成了一条标注数据。
420、在所述标注数据的数量达到预设的样本容量后,将所述标注数据划分为训练集和测试集。
所述样本容量是指进行机器学习所需要的标注数据(或训练数据)的最低数量。一般的,可以由实际应用的机器学习模型所决定。标注数据的数量越大,通常能够使机器学习的效果更好,模型预测效果更为准确。
在获得了足量的标注数据以后,可以按照一定的比例将所述标注数据进行划分,分别用于训练和测试。具体的,可以将所述标注数据按照0.8:0.2的比例,划分为训练集和测试集,分别用于进行训练和测试。
430、使用所述训练集训练随机森林模型。
“随机森林”指的是利用多棵树对样本进行训练并预测的一种分类器。其属于机器学习中的集成学习,具有较好的预测性能,可以很好的应用于SNP 分型的数据挖掘。
440、通过所述测试集验证不同超参数组合形成的所述随机森林模型的准确率。
所述超参数是在模型开始训练之前设置的参数。该参数不是通过训练得到的参数。一般的,都需要对超参数进行优化,给模型选择一组最优超参数,以提高学习的性能和效果。
450、确定具有最高准确率的随机森林模型为最终模型。
步骤440和步骤450是验证和优选的过程,其通过测试集的数据可以实现随机森林模型中超参数的优化,从而得到最佳的预测效果。
460、通过所述最终模型,计算获得所述待测样本在各个祖籍地的概率分布。所述各个祖籍地具体的地区是由所述标注数据以及实际应用的需要所决定的。
步骤460最终会输出所述待测样本属于各个祖籍地的预测概率。所有祖籍地的预测概率相加之和为1。
在另一些实施例中,当需要从绝对意义上计算待测样本与各个参考样本之间的相似程度时,可以采用马氏距离的方法进行计算,并返回待测样本与各个参考样本之间的祖源相似性。
“马氏距离”是由印度统计学家马哈拉诺比斯(P.C.Mahalanobis)提出的一种距离度量。它是一种计算两个未知样本集的相似度的有效方法。马氏距离的计算考虑到了各种特性之间的联系,并且是测量尺度无关(独立于测量尺度)。典型的,对于一个均值为μ,协方差矩阵为Σ的多变量向量,其马氏距离可以通过如下算式计算:
图5为本发明另一实施例提供的计算所述样本SNP分型结果与遗传出生地样本数据集合之间相似性(即祖源成分的相似性)的方法流程图。如图5 所示,所述方法可以包括如下步骤:
510、根据遗传出生地样本数据集合,计算各个遗传出生地的祖源平均值。
针对某个遗传出生地的参考样本集合,可以计算出该遗传出生地的祖源平均值。
520、计算待测样本的SNP分型结果计算获得的祖源结果与各个出生地的祖源平均值之间的马氏距离。
在一些实施例中,可以简单的采用依次计算的方式,依次计算所述待测样本的SNP分型结果的祖源结果与各个出生地的祖源平均值之间的马氏距离,从而获得待测样本与每个出生地之间的马氏距离。
在另一些实施例中,也可以采用构造矩阵的方式,同时输出所述待测样本的SNP分型结果与各个出生地的祖源平均值之间的马氏距离。图5为本发明实施例提供的同时计算待测样本各个遗传出生地之间的马氏距离的方法流程图。
如图6所示,所述方法可以包括如下步骤:
521、通过所述待测样本的祖源成分向量与各个所述遗传出生地的祖源平均值计算向量差。
522、将所述向量差按行依次放入同一个矩阵,构造输入矩阵。
523、通过所述输入矩阵,同时计算所述待测样本与各个遗传出生地之间的马氏距离。
530、通过预设的映射函数,将所述马氏距离转换为相似度。
在上述实施例中,最终计算获得的马氏距离取值范围是零到正无穷。因此,需要对计算获得的马氏距离进行相应的转换,以保持各个遗传出生地之间的概率之和为1。
该转换可以通过一个特定的预设映射函数实现,使得映射以后的变量取值范围保持在0-1之间。亦即,当两者之间的马氏距离为0时,对应的相似度为1。而两者之间的马氏距离越大,对应的相似度也越接近0。
较佳的是,在进行马氏距离的转换时,所述映射函数可以采用非线性映射函数,将所述马氏距离转换为相似度。这是由于使用线性函数进行马氏距离的转换时,需要计算马氏距离的最大值(所述马氏距离的最大值的计算比较复杂)。而采用非线性映射函数则不需要计算所述最大值,从而更好的降低计算复杂度。
以下结合具体实例详细描述上述实施例公开的方法的具体操作方法。本发明实施例提供的方法可以基于Python2.7版本实现,能够在debian系统上稳定运行。基于Python的跨平台特性,在CentOS等其它Linux发行版及Windows/MacOS上也都可以运行。本发明实施例揭露的方法在实际生产应用过程中还可以部署到云计算产品(如函数计算中),以获得更好的性能。
首先,采用ADMIXTURE工具计算新样本的祖源成分。该ADMIXTURE 工具是一个基于SNP分型结果数据集进行祖源成分估计的开源软件,由 UCLA开发。该工具的输入是为二进制的PLINK文件,后缀名为.ped,与此同时有一个对应的PLINK格式的同名支持文件,后缀名为.map。
然后,在命令行中运行:admixture,文件名.ped,即可由该工具自动生成结果文件。结果文件格式的每一行均表示为(x1,x2,...,xn)。其中,每一个元素表示该祖源成分的比重,所有祖源成分的比重之和为1。
在本实施例中,祖源成分依次可以为傣族、高山族、北方汉族、南方汉族和日本。在实际应用过程中,还可以加入更多的祖源成分数量,例如42个左右。
一方面,在需要预测遗传出生地概率分布的情形时,可以采用机器学习中的监督学习技术(在本实施例中为具有良好健壮性的随机森林)。随机森林的机器学习基础在于充足的标注数据。亦即每个样本的祖源成分以及对应的祖籍地数据。在实际应用过程中,需要当标注数据条数即样本容量达到一定数量以后才能进行机器学习模型的训练。
该随机森林模型包括一个或者多个超参数,需要进行优化和调节。因此,为了实现随机森林模型的优化,可以按照一定的比例(如0.8:0.2),将标注数据划分为训练集和测试集,分别用于模型的训练和超参数的优化。
设置随机森林模型的超参数的不同组合,对多个在训练集训练的模型分别在测试集上进行准确率验证以后,选取准确率最高的模型作为最终模型,并将该模型序列化并保存成文件。
在线上运行的时候,加载以上优化步骤输出的最优模型,并通过具有最优预测效果的模型计算待检测样本在各个祖籍地上的概率分布,从而给出该样本所属祖籍地的预测结果。
另一方面,在需要从绝对意义上来计算某样本和各个样本之间的相似程度时,则采用马氏距离方法,通过马氏距离衡量两者之间的相似性并进一步的将马氏距离转换为取值范围在0-1之间的相似度。
假设全部样本集合表示为[(x1,y1,z1...),(x2,y2,z2...),(xn,yn,zn...)]。其中,{x,y,z...}等字母为祖源成分,数字n为样本序号,(x1,x2,x3,...,xn)为祖源成分 x的序列。
计算各个祖源成分序列之间的协方差可获得m×m的协方差矩阵,其中 m表示祖源成分的数量(在实际应用时可以选择42个左右)。
对于某个遗传出生地的样本集合,用其计算该遗传出生地的祖源平均值u。而输入的待检测样本,则用于计算该样本与该遗传出生地的马氏距离,即
其中,d为输入的待测样本与所述遗传出生地的祖源平均值的马氏距离。在实际操作过程中,即可以依次计算待测样本与各个遗传出生地的马氏距离,也可以构造输入矩阵同时进行计算。
具体的,所述构造输入矩阵的方法为:对待检测样本祖源成分向量与各个遗传出生地的祖源成分平均值计算向量差,并将所述向量差按行依次放入同一个矩阵以构建输入矩阵。
在获得该输入矩阵以后,通过如下算式同时计算该样本与各个遗传出生地的马氏距离:
其中,A为输入矩阵,D为结果向量,每个元素di为对应遗传出生地的马氏距离。上述构建输入矩阵的计算方式可以使得计算表达式更加简洁,也减少了所需要的计算量。
在本实施例中,最终计算获得的马氏距离的取值范围为零到正无穷,为保持相似度的取值范围在0-1之间,可以采用如下的非线性映射函数将马氏距离转换至取值范围0-1的相似度:
其中,S表示祖源相似度。
最后,对应计算方法存在两种结果类型。第一种是返回源样本划分为各个出生地类别的概率,第二种是返回源样本和各个对比样本的祖源相似性。上述随机森林模型计算得到的祖源概率分布以及马氏距离转换形成的祖源相似度都是一个向量。向量中的每个元素依次代表该遗传出生地的概率大小或相似度大小。
结合遗传出生地在地理上的位置,可以采用如图3所示的形式,将最终的相似度结果以可视化的形式展示,以便使用者可以更好的理解数据结果,获取更多信息。
综上所述,本发明实施例提供的遗传出生地样本数据集合的构建方法,使用全基因组检测的SNP分型作为数据基础,结合收集获得的大量用户的籍贯地信息实现遗传出生地数据库的构建。
构建获得的遗传出生地样本数据集合基于不同的应用需求,可以使用多种不同的方式(如马氏距离方法和随机森林模型),对待测样本的遗传出生地进行预测,给出祖源成分的计算结果。
该预测的祖源成分可以在许多不同的领域中使用。例如,考古学、法医学以及公安解救被拐卖小孩等领域,为这些领域或者行业提供全新并且可靠的帮助。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及本发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.一种遗传出生地样本数据集合的构建方法,其特征在于,包括:
采集若干个样本数据,所述样本数据包括样本SNP分型和祖籍地;
根据祖源成分集合,计算所述样本数据的祖源成分;所述祖源成分集合由若干个族群组成;
将所述样本数据的祖籍地设置为对应的祖源成分的标签,生成标注数据。
2.根据权利要求1所述的构建方法,其特征在于,所述祖源成分集合通过如下方法获得:
获取若干个不同族群对应的参考SNP分型;
将所述若干个参考SNP分型作为祖源成分集合,每个参考SNP分型均为所述祖源成分集合的元素。
3.根据权利要求2所述的构建方法,其特征在于,所述根据祖源成分集合,计算所述样本数据的祖源成分,包括:
比较所述样本SNP分型以及所述若干个参考SNP分型,计算所述样本SNP分型的构成;
根据所述样本SNP分型的构成,确定所述祖源成分集合中的每个族群所占的比例;
根据所述比例,确定所述样本数据的祖源成分。
4.根据权利要求3所述的构建方法,其特征在于,所述样本数据的祖源成分中,所述祖源成分集合中的每个族群所占的成分比例之和为1。
5.根据权利要求2-4任一项所述的构建方法,其特征在于,所述祖源成分集合包括北方汉族、南方汉族、高山族群以及藏族。
6.根据权利要求2-4任一项所述的构建方法,其特征在于,所述祖源成分集合包括至少42个族群。
7.根据权利要求1-4任一项所述的构建方法,其特征在于,通过线上调查问卷,确定所述样本数据的祖籍地。
8.根据权利要求1-4任一项所述的构建方法,其特征在于,所述遗传出生地样本数据集合包括若干条标注数据,每一条标注数据包括根据SNP分型确定的祖源成分及祖籍地。
9.根据权利要求8所述的构建方法,其特征在于,所述方法还包括:
将所述遗传出生地样本数据集合中的至少一部分标注数据作为训练集,并且将剩余的标注数据作为测试集;所述测试集和训练集之间的标注数据数量比例为0.2比0.8。
10.一种遗传出生地预测方法,其特征在于,包括:
应用如权利要求1所述的遗传出生地样本数据集合的构建方法构建获得的遗传出生地样本数据集合计算待测样本属于不同祖籍地的概率;
根据所述概率生成所述待测样本的遗传出生地预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811177713.XA CN109473142A (zh) | 2018-10-10 | 2018-10-10 | 样本数据集合的构建方法及其遗传出生地预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811177713.XA CN109473142A (zh) | 2018-10-10 | 2018-10-10 | 样本数据集合的构建方法及其遗传出生地预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109473142A true CN109473142A (zh) | 2019-03-15 |
Family
ID=65663447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811177713.XA Pending CN109473142A (zh) | 2018-10-10 | 2018-10-10 | 样本数据集合的构建方法及其遗传出生地预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109473142A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210874A (zh) * | 2020-01-07 | 2020-05-29 | 北京奇云诺德信息科技有限公司 | 一种基于基因大数据进行祖源分析预测的算法 |
CN111310840A (zh) * | 2020-02-24 | 2020-06-19 | 北京百度网讯科技有限公司 | 数据融合处理方法、装置、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102121046A (zh) * | 2009-06-25 | 2011-07-13 | 中国科学院北京基因组研究所 | 中国人群连锁分析snp标记集合及其使用方法与应用 |
US9213947B1 (en) * | 2012-11-08 | 2015-12-15 | 23Andme, Inc. | Scalable pipeline for local ancestry inference |
US20170329902A1 (en) * | 2014-10-29 | 2017-11-16 | 23Andme, Inc. | Estimation of admixture generation |
US20170330358A1 (en) * | 2008-03-19 | 2017-11-16 | 23Andme, Inc. | Ancestry painting |
CN107644150A (zh) * | 2017-09-08 | 2018-01-30 | 杭州和壹基因科技有限公司 | 一种高密度遗传图谱的构建方法 |
CN108411008A (zh) * | 2018-06-01 | 2018-08-17 | 公安部物证鉴定中心 | 72个snp位点及相关引物在鉴定或辅助鉴定人类族群中的应用 |
-
2018
- 2018-10-10 CN CN201811177713.XA patent/CN109473142A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170330358A1 (en) * | 2008-03-19 | 2017-11-16 | 23Andme, Inc. | Ancestry painting |
CN102121046A (zh) * | 2009-06-25 | 2011-07-13 | 中国科学院北京基因组研究所 | 中国人群连锁分析snp标记集合及其使用方法与应用 |
US9213947B1 (en) * | 2012-11-08 | 2015-12-15 | 23Andme, Inc. | Scalable pipeline for local ancestry inference |
US20170329902A1 (en) * | 2014-10-29 | 2017-11-16 | 23Andme, Inc. | Estimation of admixture generation |
CN107644150A (zh) * | 2017-09-08 | 2018-01-30 | 杭州和壹基因科技有限公司 | 一种高密度遗传图谱的构建方法 |
CN108411008A (zh) * | 2018-06-01 | 2018-08-17 | 公安部物证鉴定中心 | 72个snp位点及相关引物在鉴定或辅助鉴定人类族群中的应用 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210874A (zh) * | 2020-01-07 | 2020-05-29 | 北京奇云诺德信息科技有限公司 | 一种基于基因大数据进行祖源分析预测的算法 |
CN111310840A (zh) * | 2020-02-24 | 2020-06-19 | 北京百度网讯科技有限公司 | 数据融合处理方法、装置、设备和存储介质 |
CN111310840B (zh) * | 2020-02-24 | 2023-10-17 | 北京百度网讯科技有限公司 | 数据融合处理方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | Distinguishing among modes of convergent adaptation using population genomic data | |
Ssekagiri et al. | microbiomeSeq: an R package for analysis of microbial communities in an environmental context | |
Tian et al. | Deforestation decreases spatial turnover and alters the network interactions in soil bacterial communities | |
Barraclough | The evolutionary biology of species | |
Matsen IV et al. | Edge principal components and squash clustering: using the special structure of phylogenetic placement data for sample comparison | |
Edwards et al. | High-resolution genetic mapping with pooled sequencing | |
WO2020006183A1 (en) | Systems and methods for visualization of single-cell resolution characteristics | |
Kaefer et al. | The early stages of speciation in Amazonian forest frogs: phenotypic conservatism despite strong genetic structure | |
Bunge | Estimating the number of species with CatchAll | |
Foster et al. | Measuring the microbiome: perspectives on advances in DNA-based techniques for exploring microbial life | |
Zheng et al. | Eigenanalysis of SNP data with an identity by descent interpretation | |
CN105868584B (zh) | 通过选取极端性状个体来进行全基因组选择育种的方法 | |
CN109346124A (zh) | 基于snp分型的遗传定位方法 | |
Liu et al. | A comparison of topologically associating domain callers based on Hi-C data | |
Smith et al. | Scalable microbial strain inference in metagenomic data using StrainFacts | |
CN109473142A (zh) | 样本数据集合的构建方法及其遗传出生地预测方法 | |
Stanojković et al. | Geography and climate drive the distribution and diversification of the cosmopolitan cyanobacterium Microcoleus (Oscillatoriales, Cyanobacteria) | |
Augustijnen et al. | Secondary contact rather than coexistence—Erebia butterflies in the Alps | |
Laso-Jadart et al. | How marine currents and environment shape plankton genomic differentiation: a mosaic view from Tara oceans metagenomic data | |
CN109522378A (zh) | 遗传出生地概率分布的显示方法及显示设备 | |
Hope et al. | Systematics, biogeography and phylogenomics of northern bog lemmings (Cricetidae), cold-temperate rodents of conservation concern under global change | |
Suzuki et al. | An under-appreciated difficulty: sampling of plant populations for analysis using molecular markers | |
Zorz et al. | SituSeq: an offline protocol for rapid and remote Nanopore amplicon sequence analysis | |
Tallman et al. | Whole-genome sequencing of Bantu-speakers from Angola and Mozambique reveals complex dispersal patterns and interactions throughout sub-Saharan Africa | |
Angaji et al. | Stochastic clonal dynamics and genetic turnover in exponentially growing populations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190315 |