CN101988119A

CN101988119A - 用dna推算姓氏家族分支和追溯家谱的方法

Info

Publication number: CN101988119A
Application number: CN2009100699852A
Authority: CN
Inventors: 孙朝辉; 刘晓明; 周军
Original assignee: Individual
Current assignee: Individual
Priority date: 2009-07-31
Filing date: 2009-07-31
Publication date: 2011-03-23

Abstract

本发明提供了一种从一个家族人的DNA遗传信息来推算该家族的分支历史和各分支间亲缘关系的方法。首先从一个家族的人中采集DNA样品并检测他们的DNA遗传标记，然后用这些DNA数据，通过建树算法，建立起树状示意图来描述这家族的分支，并利用这个家族树状示意图帮助个人用DNA来寻找与其亲缘关系最近的家族分支。本发明提出用一种基于层次聚类的建树算法来建立家族树状示意图，并对传统的层次聚类算法进行了改进，使之适合于表征一个祖先有多个后代分支的情况。本发明还提供一种将文字记载的信息定量地与DNA数据结合来推导家族图谱的方法。本发明可以帮助人们用遗传信息追溯家谱和了解一个姓氏在各地的亲源关系，以及帮助家谱记载不详的人或家族寻亲问祖。

Description

用DNA推算姓氏家族分支和追溯家谱的方法

技术领域

本发明属于生物技术领域，涉及分子生物学技术，遗传学和生物信息学。本发明应用了DNA(脱氧核糖核酸)检测技术和遗传学的分析方法来追溯姓氏家族的分支和发展。本发明也应用了计算机科学的技术，特别是改进了层次聚类算法来建立家族树状示意图。

技术背景

家谱和姓氏在中华文化里有重要地位。海内外有很多华人崇尚家谱和寻根寻祖。追溯家谱可以帮助人们了解自己的祖先和血脉相连的族人，促进人与人的交流和民族的凝聚力，在历史学、社会学、民族学、人类学、人口学、优生学等方面都很有意义。近年来在国外，追溯家谱及其相关的社交网络已成为一项很热门的服务行业，因此具有很大的商业价值。

姓氏在中国已有超过两千年的历史。早在周朝姓氏就开始出现。最初一个姓氏居住在一个地方，后来逐渐迁移到各地并与当地人通婚，就形成了不同的分支。另外，一个姓氏也可能因为种种原因引入别的血统，比如领养和改姓等等。在历史上多次民族融合过程中，又有新的姓氏出现，并且很多少数民族采用汉姓。因此，中国姓氏家族的起源和发展较为复杂，追溯家族分支和迁移史非常有助于了解中华民族融合发展的历史。

家谱和别的历史资料对于研究这些历史很有价值。海内外的很多华人家庭都有自己的家谱，这在南方农村尤其普遍。家谱中记载了一个家族的世系繁衍，人口变迁和居地迁徙的历史。很多地方方志也对这些有所记载。然而，并不是每个家族都有自己的家谱的，有很多家族的历史，由于没有记载或文献失传，可能已掩埋在千年岁月中。另一方面，家谱对于近代的家族史的记载比较准确，但对于久远的年代，家谱记载的可靠性会下降，有时会存在争议。因此，使用文字记载的家谱或文献来了解家族发展和分支的历史和寻祖常常会碰到问题。

现在，随着分子生物学和遗传学技术的发展，我们将可能应用生物科技来帮我们准确地发现人们的家谱。每个人的DNA(脱氧核糖核酸)都是由祖先传下来的，同时在继承的过程中有一些DNA位点发生了变异。这就导致了由同一个祖先繁衍而来的后代既有共同的DNA“遗传指纹”，又在不同个体或分支之间存在略微的不同。因此，通过比较人的DNA上的信息可以还原出人们真实的家谱。通过收集比较人的Y染色体，常染色体或线粒体DNA上一些重要遗传标记的基因型，人们可以推论出不同类型的家系。Y染色体只存在于男性并只由父亲传给儿子，而且它是非重组的，所以Y染色体的DNA分析可用于分析与姓氏相关的家系(常见的家谱)。线粒体DNA是母系遗传的，它只能由母亲传给下一代，因此它可以用于母系的家系分析与推导。常染色体是可重组的，它们含有最丰富的遗传信息，使用常染色体的遗传分析能增加基因指纹的特异性，并有利于推断复杂的家系。

家系分析应用的技术手段已在遗传学、法医、古人类学和其他生命科学领域中得到广泛应用。在进化遗传学的研究中，科学家通过比较不同物种的DNA的共同点和差异可以推导出分子进化树。法医鉴定和亲子鉴定中已广泛采用DNA“遗传指纹”作为关键证据。古人类学家已通过检测DNA和遗传学分析揭开了史前人类迁徙和民族融合的许多秘密(1)。国外有一项专利(US7248970B2，见参考文献6)提出了通过检测和比较Y染色体DNA来预测人的姓氏的方法。一般用于DNA分析的遗传位点包括短串重复序列(STR)和单核苷酸多态性(SNP)这两种遗传标记。一般来讲，STR比SNP有更高的突变率，由于家谱相关的研究的时间范围通常是几百年至两千年，STR更适合这方面的研究和应用。近年来，对遗传位点进行基因分型的手段发展迅速。其中，通过荧光标记的引物组进行PCR然后用遗传分析仪作检测的方法非常适合大量迅速地检测STR位点(2)。另外，用基因芯片大规模检测SNP的技术也日渐成熟，其成本也日趋下降。这些技术使大规模地采集和分析家谱相关的DNA数据成为可能。近年来，可供选择的STR和SNP遗传位点大量出现，人们对于选择哪些遗传位点能最有效地进行人的身份鉴定作了很多探讨。比如说，Butler JM等人报道了一组适合鉴定欧洲人的20个Y染色体STR位点(3)，Kwak KD等人报道了一组11个适合东亚人的Y染色体STR(2)。尽管这些研究主要是针对法医实践的，他们的结果也对于选择合适的遗传位点来追溯家谱有很大的参考价值。

专利内容

本发明的目的在于提供一种用DNA技术结合计算机技术来追溯家谱和家族分支发展历史的方法，通过收集和检测一个家族的族人的DNA和用专门的算法对DNA数据进行分析，推算出表示这个家族的繁衍和分支的树状示意图；数据分析可以采用层次聚类算法，并可以采用一种改进的层次聚类算法以得到更接近现实的家族树状示意图；另外，还可以将文字记载的信息作为″预先知识″定量地与DNA数据结合来推导家族图谱。本发明的目的是通过以下的措施来达到的：

首先，从一个姓氏家族的族人获取DNA样品和对之进行检测。样品的收集可以采用多种方式，包括抽血、刮取口腔上皮、收取唾液等。对属于这个家族的不同村落都应收取DNA样品，每个村落都要有多个代表。若一个村落已繁衍了数百年，也应当对这村落的家族主要分支收取DNA样品。然后，从这些样品中抽提和纯化DNA，再检测这些DNA上的遗传标记，包括STR和SNP等。为获得主要与姓氏相关的家族图谱，可以选择Y染色体上的DNA遗传标记位点。如果是分析华人的姓氏家族，可以选取适合东亚人和中国人的Y染色体STR位点。现有的法医学文献(2，3)提供了一组在东亚人和中国人中多态性较高，对于身份鉴定含有最丰富信息的一组Y染色体STR位点：DYS19，两个DYS385位点，DYS388，DYS389I/II，DYS390，DYS391，DYS392，DYS393和DXYS156Y。使用这些关键的Y染色体STR来做华人家族图谱的分析，可以以较低的成本获取较多的与家族繁衍分支相关的遗传学信息。

第二步是根据第一步检测出的属于一个家族的人的DNA数据，用专门的建树算法进行分析，得出代表家族分支和繁衍历史的家族树状示意图。本发明提出了用层次聚类算法(hierarchical clustering)来做此分析。层次聚类是统计分析和模式识别的一种算法，它通过分析与每个个体(结点)的相关属性，将这些个体归入内部相似的类；层次聚类的结果是以树状图表示的等级式的分类。在本发明相关的应用中，个体(结点)是家族的族人，其相关属性是他们DNA数据。在层次聚类过程中必须计算个体之间的距离，然后以这个距离为依据依次将最接近的个体或类合并成更大的类，直到最后只剩下一个类。在这步的分析中，个体的距离是通过比较他们的DNA遗传标记上的差异来计算的(即遗传距离)，也就是在所有检测的遗传位点中具有不同的遗传标记的位点总数。聚类过程中还要计算两个类之间的距离，这个距离是属于第一个类的个体与属于第二个类的个体的所有距离的平均值。

本发明还对传统的层次聚类算法作了改进以适于推算家族图谱。传统的层次聚类方法每次将两个最接近的个体或类并成更大的一类，因此树中每个结点至多拥有两个子结点。这种结构与现实中的家族图谱并不完全吻合，现实中家族图谱中的父结点应该可以有超过两个的子结点，即一个祖先可传下两个以上的后代分支。在本发明提出的改进的层次聚类算法中，每个结点可以拥有超过两个子结点。聚类过程中，在每一轮将两个最接近的个体或类合并成一个新的类之后，这个新算法还将检查剩下的个体和类，如果其中一个个体或类与这个新形成的类的子结点的距离都足够小，则将此个体或类加入到这个新形成的类中。由这个改进了的新算法推算出的家族图谱将能更直观和准确地反映现实。

本发明还提供一种方法来将DNA数据与文字记载中的信息结合起来做层次聚类以推算家族图谱。相关文字记载可以是家谱，地方方志或历史典籍等。这些记载往往会提供关于某村是从哪迁来的，与另外哪个村是同一个祖宗等等的有用信息。同时，在用DNA数据建立家族图谱时，会碰到几个分支的距离相同而无法确定与哪个分支合并成更大的分支的情况。在这情况下，层次聚类算法只能任意挑选其中一对分支来合并。这时如果用文字记载中的信息来做辅助数据，就可能可以确定哪两个分支之间更近，从而使最终得到的家族图谱更符合现实。不过，DNA数据具有完全的客观性，所以在本发明中DNA数据被赋予更高权威，文字数据作为辅助。本发明提出的这个方法的特征为，首先人工阅读或用软件比较家谱等文字记载，找到关于家族各分支亲缘远近的信息，然后对有记载的分支之间给出表征亲缘远近的“文献距离”(比如1-100之间的值)，使文字记载上显示越接近的分支具有越低的“文献距离”分数；在这步中可以使用文本相似性比较的软件(如LUCENE)来比较数字化的家谱及匹配各地的家谱，从而协助给出“文献距离”分数；文献距离在乘以一个很小的权重(小于文献距离最大值的倒数)之后，与基于DNA数据的遗传距离相加得出一个复合距离；这个复合距离将用于上面所述的层次聚类或改进的层次聚类来推算家族图谱。

上面方法推出的家族图谱采用了树状结构表示家族繁衍，分支和相互间亲缘关系(见图2)。这树状示意图告诉人们一个姓氏家族有哪几个主要分支，彼此间相距多远。来自一个地方的族人可以从这图谱了解到另外哪个地方的族人与他们是最近的亲人。这个结果还可以用来帮助一个没有详细家谱的个人弄清是否来自此家族，以及最可能来自于该家族的哪个分支。方法是，采用建立该家族图谱过程中使用的同一组遗传位点来检测此受人的DNA，再用此人的DNA数据来计算与该家族的各个分支的平均遗传距离，遗传距离最小的那个分支就最可能是与这人同宗的分支。如果这个人与每个分支的距离都很大，那么这人应该不属于这个家族。

用进化遗传学上估算最近共同祖先(MRCA)的方法，还可以从以上的家族树状示意图估算图中不同分支的祖先生活的年代。祖先生活的年代对于研究一个家族迁移发展的历史是很有帮助的。估算的祖先的年代还可以帮助人们了解两个分支从血缘上讲是否从一个祖宗传下来。如果两分支的DNA相差很大，则估算的最近祖先可能是在很久以前，比如3000年前，如果已知该姓氏起源于2000年前，那么最有可能的是，这两个分支不是由2000年前的一个祖宗传下来，而是有多个不同起源。这里一个可能的原因是该家族在历史上发生过改姓或领养的事件。另外，在中国历史上，有很多姓氏出自于小的诸候国，这些小国里可能所有人都有同一个姓氏。这也可能是导致一个姓氏有不同血缘上起源的原因。

与单纯用文字记载来研究家谱和寻祖的传统方法相比，本发明用DNA数据来追溯家族繁衍分支的历史，其使用的数据资料(DNA)是完全客观的，这不仅使没有家谱记载的人或家族追溯祖先和寻找族人成为可能，而且让遗传学上的证据与文字记载信息可以相互印证，相互补充。同已有的用DNA遗传信息研究姓氏家族的方法(比如美国专利US7248970B2，见文献6)比，主要有以下两个好处。一、已有方法只是通过比较DNA样本来预测姓氏或了解族人之间血缘相近程度，本发明则从DNA样本推算出表示家族繁衍分支的树状示意图，此树状图的根表示共同祖先，中间结点则表示各分支的祖先，树状图中的每一枝表示一个分支，因此本发明的结果提供了更丰富的关于家族分支的信息。二、本发明把文字记载中的相关信息作为“预先知识”引入到由DNA数据推算家族树状示意图的过程中，从而使推算出的家族图谱捕捉了更全面的信息且更符合历史，这是已有的方法中没有的。本发明提出的改进的层次聚类算法与传统的层次聚类算法比的好处是，改进的算法得出的树状图中一个祖先可以有多个后代分支，而传统的算法只允许两个分支，因此由改进的算法得出的结果更符合现实的情况。

附图说明

图1a和图1b显示了在实施例1(见具体实施方式)中从Bradley家族获得的DNA数据。这组数据包含了32个样本(个人)和17个Y染色体STR遗传位点。在图1a和图1b中，每一行表示一个样本，最左边一栏是样本代号，左边第二栏是样本来自的地区；每一列表示一个STR位点，最上边一栏是STR位点的名称；表中的数字表示了每个人在每个位点上的基因型，其中‘x’表示未知。

图2是实施例1中用Bradley家族的DNA数据(图1a和图1b)推算出的家族分支树状示意图。在图2中，最底层(最左边)表示该家族的现在的后代(32个样本)，上层表示家族的祖先。图2中最底层的数字是样本代号，它与图1a和图1b数据中的样本代号是一致的，上层的数字是假定祖先的代号。

图3是实施例3(见具体实施方式)中用Bradley家族的DNA数据(图1a和图1b)并引入文字记载的“预先知识”推算出的家族分支树状示意图(图3)。在图3中，最底层(最左边)表示该家族的现在的后代(32个样本)，上层表示家族的祖先。图3中最底层的数字是样本代号，与图1a和图1b数据中的样本代号是一致的，上层的数字是假定祖先的代号。图3与图2大致相同，但在结点11，22，和23周围的结构有所不同。

具体实施方式

以下结合实施例具体介绍如何实施本发明：

首先需要获取一个同姓家族的族人的DNA样品。样品采集的方法有多种，其中最简易可行的是口腔上皮法，该法只需受试人用棉签在口腔壁涂抹数次即可。实施例1中的样品采集就用了这种方法。然后再对样品进行DNA抽提和纯化。这步可用的方法很多，并且有很多商业试剂盒可用，比如BD Biosciences公司的Nuleospin试剂盒。

下一步进行DNA检测，可以进行包括STR或SNP的多个遗传位点的检测。本发明提出了使用一组在华人中多态性高的Y染色体STR位点来做华人家族图谱的分析以得到高的性价比。当然在实施本发明时也可在这组STR位点之外加入更多的位点，或选择别的遗传位点组合。如果选择了一组STR位点，则需要针对这些位点在DNA上的位置设计PCR引物和荧光标记，具体做法可以参照KwakKD等在国际法医学报上的文章(2)。要注意的是，在设计荧光标记引物时，PCR产物大小结合不同的荧光标记必须能确定所有STR位点的基因型，即不能有两种PCR产物是既大小相同又有相同的荧光标记。然后使用这PCR引物组对所有DNA样本进行PCR，再收集PCR产物用遗传分析仪作基因分型(2)。检测SNP可以用DNA测序和PCR的方法，近来一些高通量快速检测SNP的装置和试剂盒也已出现，比如说Beckman公司的GenomeLab SNPStream系统。

在以上的样品采集和检测之后，就得到了该家族参与测试人的DNA数据。这组数据包括了每个人的各遗传位点上的基因型，和由这些基因型组成的单体型(haplotypes)。这样的DNA数据的例子可以在在实施例1中找到(图1a和图1b)。实施例1列出了一组通过STR基因分型检测得出的一个家族的人们的多个Y染色体STR的基因型数据。

接下来就可以开始进行数据分析和层次聚类。在聚类算法中，类就是一组个体，类可以是嵌套的，每一个类可能包含两个以上的子类(子结点)。为了表示的方便，以下用X_j表示一个用来进行聚类的个体j，用C_n表示一个类n，G_i(A)表示个体A在位点i上的基因型，D(A，B)表示两个个体或类A与B之间的遗传距离。

首先，通过比较每个人在各遗传位点上的基因型来计算所有参与人之间(每一对人)的遗传距离，并得出一个距离矩阵。两个个人(A和B)之间遗传距离是这么计算的：

对于一个遗传位点i，如果A与B的基因型(G_i)相同，即G_i(A)＝G_i(B)，则距离D_i(A，B)＝0；否则D_i(A，B)＝1。

A与B的遗传距离：D(A，B)＝SUM(D_i(A，B))，其中i包括所有的遗传位点，SUM()表示总和。

在以下的聚类过程中也需要计算两个类(两组人或两个分支)之间的距离。这个距离的计算公式是：D(C₁，C₂)＝AVE(D(A，B))其中A是C₁中的任何一个个体，B是C₂中的任何一个个体，AVE()表示平均值。

接下来，用以上得出的距离矩阵做层次聚类。步骤如下：

1、一开始，把这组数据中的每个个体，即该家族的每个人当作一“类”(结点)。

2、根据距离矩阵找到距离最近的两个类(C_a和C_b)，并把它们合并成一个新的类C_s，使C_s＝{C_a，C_b}，即让这两个类a和b成为这个新类s的子类。

3、如果采用改进的层次聚类，则进行此步骤：再次检查这个新的“类”C_s之外的每个类，若其中任何一个类C_n满足以下条件：C_n不属于C_s且MAX(D(C_n，C_j))≤MAX(D(C_a，C_b))，其中C_j是C_s中的任何一个子结点(类)，C_a和C_b也是C_s中的任何一个子结点(类)，MAX()表示最大值，则将C_n加入新形成的类C_s中成为C_s的子结点。

4、用上面所述的方法计算第2或3步中形成的新类C_s与其他的类之间的距离。

5、重复第2步至第4步，直到所有的个体都被归入一个类。

从上面可以看到，改进的层次聚类与传统的层次聚类相比，增加了一个步骤，即上面的第3步。

在实施例1中，我们用同一家族的一组Y染色体STR数据进行以上描述的改进的层次聚类，得到了一个家族树状示意图(图2)。

如果一个家族拥有相关的文字记载(家谱，地方方志，或历史典籍等)，并且这些记载记录了该家族繁衍迁移的有用信息，我们可以将这些“预先知识”用定量的方法引入到以上的层次聚类中，以使家族图谱的结果更加符合现实情况.以下是具体做法。

首先利用文字记载中关于该家族各分支亲缘远近的信息，给出表征家族各分支间亲缘远近的“文献距离”(比如一个1-100之间的值)，决定文献距离值的原则是，文字记载显示越接近的分支之间应具有越低的“文献距离”分数。下面用DW(A，B)表示村子A的族人和村子B的族人之间的文献距离。如果文字记载上无法找到A村与B村是什么样的关系，我们可以给出一个中等分数，比如让DW(A，B)＝50；如果文字记载记录了C村和D村在近代才分开的，则可以打很低分，比如让DW(C，D)＝10；如果文字记载表明Y村和Z村的血缘是不同，则可打高分，如DW(Y，Z)＝90。这文献距离的具体数值对于后面的聚类分析并不重要，但它们之间的大小关系是重要的。另外，也可以使用计算机软件来协助给出“文献距离”分数。比如，可以使用文本相似性比较的软件(如LUCENE)来分析已经数字化的家谱，匹配各地的家谱，找出类似的家谱，或者找出在两个不同的家谱中重复出现的关键词或地名。分析人员可以用软件分析的初步结果作为关键信息来打出文献距离分数，从而节省了时间和减少人为误差。

文献距离将以一个很小的权重与遗传距离相加得出一个复合距离。下面用DF(A，B)表示这个复合距离，W表示权重。由于DNA数据更具有的客观性，我们让文献距离的权重很小，要满足以下条件：MAX(DW(A，B))×W＜1，这样就保证了文献距离的影响总是比任何遗传距离小。复合距离的计算公式为：DF(A，B)＝DW(A，B)×W+D(A，B)。用这个复合距离的距离矩阵可以进行以上描述的层次聚类，来推算出考虑了DNA数据和文字记载两种信息的家族图谱。

在实施例2中，我们举例说明了怎样用真实的中国人的家谱来打“文献距离”分数。在实施例3中，我们举例说明了怎样加入“文献距离”的数据来推算家族图谱，结果见图3。以下再介绍怎样应用这家族图谱结果。

在得到一个家族树状示意图之后，我们可以从中了解到一个姓氏家族有哪几个主要分支和彼此间是什么样的关系。从图2和图3中可以看到，我们得到的家族图谱是非常直观的。在实施例1和3中，我们显示了如何从这样的家族图谱得到有用信息。另外，这个结果还可以用来帮助个人追溯家谱，弄清自己与此家族的及各分支的渊源。

基于以上得出的家族树状示意图，我们还可以用进化遗传学上估算最近共同祖先(MRCA)的方法估算各分支的祖先生活的年代。在家族树状示意图上，一个亚树结构表示一个分支，而这个亚树顶端的结点表示这分支的祖先。首先我们估计这个祖先的基因型，常用方法包括采用后代中最常见的基因型作为祖先的基因型，及最大简约法(Maximal Parsimony)，并且有一些现成的程序(如PHYLIP和PAML)可做这种计算。然后，我们可以计算出由一个共同祖先到该家族或分支的后代累积的遗传突变总数(该亚树内遗传距离的总和)，再用科学文献中提供的遗传位点突变率，估算这祖先的距今的年代(4)。通过估算各分支祖先生活的年代，我们可以了解该姓氏家族是否有同一个的祖宗。如果估算的祖先生活的年代比记载的该姓氏的起始年代还要早，则说明这个姓氏家族在血缘上有不同起源。

实施例1

以下用从一个爱尔兰姓氏(Bradley)家族收集的DNA数据来具体阐述本发明的实施。我们使用本发明的方法推算出了表现该家族分支的树状示意图。

Bradley姓氏主要分布在爱尔兰的Ulster、Munster、Leinster等地区。DNA样品是从这些地区的Bradley家族的男性收集的。样品采集采用了前面所述的口腔上皮法。DNA在抽提和纯化之后，使用了如前所述的荧光标记引物的PCR方法来进行检测。在检测该家族的人的DNA时，采用了一组较适合欧洲人的Y染色体STR遗传位点(见图1a和图1b)。检测之后得到了该家族的一组包含32个样本(个人)，17个Y染色体STR遗传位点的DNA数据(图1a和图1b)。这组数据可以从以下网址获得：http://www.gen.tcd.ie/molpopgen/resources.php

我们用本发明的提供的分析方法对Bradley家族的DNA数据进行了分析。我们采用本发明提出的改进的层次聚类方法推算出了Bradley家族的树状家族示意图(图2)。

从这个家族图谱我们可以了解到Bradley家族是怎么分支的。该家族有一个大的分支(从结点54往下的亚树)及两个较小的分支(结点33往下的亚树和51往下的亚树)，而那个大的分支下又有两个主要的分支(48往下的亚树和52往下的亚树)。在该图谱中有一些结点具有超过两个以上的子结点，比如，结点32有6个子结点，结点33有3个子结点。这表明改进的层次聚类算法可以将多个彼此之间非常接近的类(或个体)聚成一个单个的类，与此形成对照的是，用传统的层次聚类算法一次只能将两个类或个体聚成一类，因此会把这些彼此非常接近的类或个体分成多个类。用改进的层次聚类算法得出的家族图谱能更直观和合理地表示家族的分支。

从上面得到的树状家族图谱我们估算了该家族的最近共同祖先(MRCA)。我们采用了Saillard J等的方法(4)和Zhivotovsky L等估算的Y染色体STR的突变率(5)。我们估计该家族祖先生活的年代距今约800年。根据记载，爱尔兰人的姓氏形成的年代一般在公元900至1200，这与我们估计的Bradley家族祖先的年代一致。因此，本发明的方法估计出该姓氏家族很可能是有单个起源的。这与关于爱尔兰的Bradley姓氏起源于古代居住在Ulster区域的一个爱尔兰宗族(O′Brollachain)的记载是符合的。因此，在此实施例中，本发明的方法准确地估算出了家族历史。

以上的DNA样本检测采用了一组较适合欧洲人的Y染色体STR遗传位点。如果分析华人的姓氏家族，则应该使用一组适合东亚人的遗传位点。

实施例2：

这里用一些中国人姓氏家族的文字资料(家谱)来具体说明怎样估计“文献距离”。

广东潮州的王氏有如下记载：“王审知四传至王坦，初居泉州开元寺巷，后由泉州徒居广东潮州，是为‘王氏潮州祖’。”

关于福建王氏，有以下历史资料：“开闽王氏是指入闽三王：广武王——王潮、武肃王——王审邽、忠懿王——王审知和福州守城都督——王彦复的后裔家族集团，其先源是琅琊王氏流脉，蜚声于东南沿海和东南亚国家，地区的一个庞大家族集团的‘开闽王氏’，而忠懿王王审知又被世人尊称其为‘开闽第一’，包涵着如此丰富的家族历史，故琅琊是其郡，开闽是其望；其家族的称谓即是：琅琊郡开闽王氏，堂号——开闽第一。”

山东琅琊王氏有如下记载：“离公之长子元公，避祸迁山东琅琊，是为‘王氏琅琊祖’。元公四传至吉公，字子阳，初仕汉昌邑王刘贺，为中尉。昌邑王日以淫乱为乐，不理政事，吉公屡上疏谏争。昭、宣二帝时，吉公均被拜为谏议大夫，匡救时弊，裨益甚多。初家于皋虞，致仕后徒居临沂都乡南仁里，是为琅琊王氏‘临沂祖’。”

以上三种家谱及历史资料告诉我们，潮州王氏是从福建的开闽王氏(王审知)传下的，而开闽王氏是由山东琅琊王氏分出的一支。根据这些资料我们就可以打出这三地的王氏之间的“文献距离”。以下用A代表琅琊王氏，B代表开闽王氏，C代表潮州王氏。对于所有没有相关记载的，我们可以给一个中等“文献距离”值：

DW(I，J)＝50

对于以上三地的王氏：

DW(A，B)＝40

DW(A，C)＝40

DW(B，C)＝30

用这些“文献距离”的值就可以按本发明所述的方法，与DNA数据结合推算出表示王氏家族的繁衍分支过程的家族树状示意图。这样的结果是建立在最客观的DNA证据基础上，同时也结合了已有的知识，因此应当是较准确的。

实施例3：

这里我们举例说明引入″文献距离″怎样能帮助推算家族树状图。由于没有系统的华人家族DNA数据，我们还无法用实施例2得出的“文献距离”结合DNA数据来推算王氏的家族图谱。我们使用了实施例1中的Bradley家族的DNA数据(见图1a和图1b)和一些假定的“文献距离”来组成一个例子，以阐述此方法。但该方法适于任何有DNA数据和相关文字记载的家族。

在Bradley家族的例子(图1a和图1b)中，假设我们从文字记载中了解到代号11的个体(来自Ulster)与23(来自Ulster)的亲缘关系很近，而13与22(来自Ulster)的亲缘程度及22与23的亲缘程度都较远。而且，在图1a和图1b中可看到，由11，22与23之间的遗传距离无法确定哪两个之间较接近，因为：

D(11，22)＝D(11，23)＝D(22，23)＝1

因此，从文字记载中得到的信息可以帮我们确定哪两个最接近。假设根据从资料中得到的信息，我们可以以0-100的尺度给出“文献距离”：

DW(22，23)＝70

DW(11，22)＝70

DW(11，23)＝10

剩下的文献距离都设为50。我们再赋予文献距离一个很小的权重W＝0.001来计算遗传距离与文献距离合并得到的复合距离，并用此复合距离来做层次聚类，推算出考虑了文字记载信息的家族图谱(图3)。将图3与图2比较可以发现，在引入了文字记载的“预先知识”后，推算出的家族树状示意图的结构做了一些调整，特别是在11，22和23周围的亚树结构。在未引入文字记载的信息前(图2)，11和22在第二层被归为一类，在引入文字记载信息之后(图3)，11和23被归为一类。由此可见，引入文字记载的“预先知识”来作为DNA数据之外的辅助信息以推算家族图谱是有效的。

参考文献

1.Wen B，Li H，Lu Daru，et al.Genetic evidence supports demic diffusion of Han culture.Nature，2004，431：302-305

2.Kwak KD，Jin HJ，Shin DJ，et al.Y-chromosomal STR haplotypes and their applications to forensic and population studies in east Asia.International Journal of Legal Medicine.2005，119：195-201.

3.Butler JM，Schoske R，Vallone PM，et al.A novel multiplex for simultaneous amplication of 20Y chromosome STR markers.Forensic Science International，2002，129：10-24.

4.Saillard J，Forster P，Lynnerup N，Bandelt H，and Norby S.mtDNA Variation among Greenland Eskimos：The Edge of the Beringian Expansion.American Journal of Human Genetics.67：718-726，2000.

5.Zhivotovsky LA，Underhill PA，Cinnioglu C，et al.The effective mutation rate at Y chromosome Short Tandem Repeats，with application to human population-devergence time.American Journal of Human Genetics.74：50-61，2004.

6Forensic and Genealogical Test，专利号：US7248970B2，授权国：美国，公布日期：2007年7月24日.

Claims

1.一种从一组人的DNA遗传信息来推导一个家族或姓氏的分支历史和各分支亲缘关系，和用个人的DNA来寻找与其亲缘关系最近的家族分支的方法，其特征在于，从一个家族或姓氏的人中采集DNA样品并检测他们的DNA遗传标记，其中包括但不限于短串联重复序列(STR)和单核苷酸多态性(SNP)，然后用这些DNA数据，通过建树算法，建立起树状示意图来描述这家族的分支(家族图谱)，并可以把个人的DNA信息与此树状示意图的各级亚树进行比较，以找到与此人最近的分支。

2.如权利要求1所述的方法，其特征在于，采用在中国人中多态性较高的一组Y染色体STR(DYS19，两个DYS385位点，DYS388，DYS389I/II，DYS390，DYS391，DYS392，DYS393和DXYS 156Y)，来对华人姓氏家族进行检测分析，以推算家族图谱。

3.一种利用DNA遗传信息来建立表示一组人亲缘远近关系的树状示意图的建树算法，其特征在于，利用层次聚类方法来建树，并以两个体的DNA样本在一组遗传标记中差异的数目多少(遗传距离)，来决定两个个体的距离。

4.如权利要求3所述方法，其特征在于，为了使建树算法更适合于建立家族树状示意图，改进了层次聚类算法，允许所建的树中的结点拥有超过两个子结点，而传统层次聚类只允许两个子结点。

5.如权利要求3或4所述方法，其特征在于，在DNA数据之外，引入了文字记载信息(包括但不限于家谱和历史地理资料)来建立家族树状示意图，根据文字记载信息中描述的家族各分支的关系远近给相关个体之间打出“文献距离”分数，再将“文献距离”与遗传距离综合起来计算结点间的距离；文献距离具有比遗传距离更小的权威性，因此被赋予一个更小的权重(小于文献距离最大值的倒数)；建树过程中，在DNA无法确定哪两个分支更近时，文字记载信息用来确定谁与谁更接近。

6.如权利要求1或2所述方法，其特征在于，应用权利要求3、4或5所述的建树算法来建立表示家族分支的树状示意图。