CN107679365A - 基于y染色体分子标记高效推断姓氏的方法 - Google Patents

基于y染色体分子标记高效推断姓氏的方法 Download PDF

Info

Publication number
CN107679365A
CN107679365A CN201710868578.2A CN201710868578A CN107679365A CN 107679365 A CN107679365 A CN 107679365A CN 201710868578 A CN201710868578 A CN 201710868578A CN 107679365 A CN107679365 A CN 107679365A
Authority
CN
China
Prior art keywords
surname
sample
str
distance
surnames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710868578.2A
Other languages
English (en)
Inventor
陈华
严江伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Genomics of CAS
Original Assignee
Beijing Institute of Genomics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Genomics of CAS filed Critical Beijing Institute of Genomics of CAS
Priority to CN201710868578.2A priority Critical patent/CN107679365A/zh
Publication of CN107679365A publication Critical patent/CN107679365A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种基于Y染色体分子标记高效推断姓氏的方法,特别是基于Y‑STR分子标记高效推断姓氏的方法。根据多个DNA的标记信息,通过计算个体间遗传距离的方法来预测样本的姓氏。本发明提供的方法可根据Y染色体分子标记(如Y‑STR、Y‑SNP、RFLP等)遗传变异信息对中国人群的姓氏进行有效推断,且姓氏推断的准确性随着每个姓氏样本量的增加而提高,随使用的分子标记数目增多而上升。采用本方法可以对中国人群的姓氏进行准确可靠的推断,并具有广阔的实际应用前景。

Description

基于Y染色体分子标记高效推断姓氏的方法
技术领域
本发明涉及分子生物学、法医学和生物信息技术领域,具体地说, 涉及一种基于Y染色体分子标记高效推断姓氏的方法。
背景技术
基因DNA分子标记的遗传分析技术给法医侦查带来了革命性的 变化。近30年来,DNA分析已经成为法医调查的必备手段,各级公安 机关都建立了大量相关人群的遗传数据库。其中,Y染色体DNA数据 库,特别是微卫星(Y-STR)数据库是建立最早、规模最大、人口覆盖最广的遗传数据库。近年来,随着芯片技术和新一代测序技术的发 展,Y染色体SNP数据也在不断积累。虽然,这些数据库及其相应数 据的分子标记在亲子鉴定和身份识别方面发挥了重要作用,但是,目 前对Y染色体DNA众多分子标记分析结果的信息利用仍非常局限,没 有充分发挥Y染色体DNA大数据库的应用潜能。
Y染色体绝大部分DNA,即非重组区(Non-combining region of Y, NRY),遵从严格的父系遗传,即只通过父亲遗传给男性后代。这种 遗传模式与我国传统的姓氏继承模式非常相似,即绝大多数新生男丁 出生后都随父亲的姓氏。由于Y染色体DNA的进化很大程度上与姓氏 的传演相互平行,二者在演化上具有高度相关性,从理论角度,根据 男性的Y染色体DNA上的变异模式可以对其姓氏进行推测。同时,中 国自古以来就有寻根问祖的传统,对宗脉有着强烈的认同感。从北宋 《百家姓》到现在由国务院人口普查办公室统计列出的中国名义上最 新姓氏人口数目排名来看,姓氏的组成基本没有变化,其稳定性可有 效提升姓氏推测的可靠性和准确性。这类推断结果可以直接应用于法 医学分析,指导刑侦调查,尽可能的缩小调查范围,提高侦查效率。 然而,目前尚没有根据Y染色体DNA的信息对中国姓氏进行推断的现 成方法。因此,发展基于Y染色体DNA分子标记推断姓氏的分析方法非常必要。
此外,基于Y染色体DNA分子标记推断姓氏的分析方法还具有广 泛的社会人文应用前景。
发明内容
本发明的目的是提供一种基于Y染色体DNA分子标记高效推断 姓氏的方法。
为了实现本发明目的,本发明提供Y染色体分子标记在推断姓氏 中的应用。
本发明还提供基于Y染色体分子标记高效推断姓氏的方法,基于 Y染色体分子标记,利用统计学方法计算待测样本与数据库样本之间 的最小遗传距离,从而得到待测样本的候选姓氏。
其中,所述分子标记包括STR、SNP或RFLP等常用的,且位于Y 染色体非重组区域的分子遗传标记。
本发明进一步提供基于Y染色体DNA分子标记高效推断姓氏的 方法,以Y-STR标记为例包括以下步骤:
步骤1:提取待测样本Y的基因组DNA,设计引物或利用商品化 试剂盒对样本Y染色体DNA位点进行基因型分析;
步骤2:根据步骤1中相应位点的数据信息,包括基因型、等位基 因或短片段重复数量等,计算待测样本Y与数据库样本X之间的最小遗 传距离d(Y,X),定义待测样本与各已知姓氏样本之间的最小遗传距离 ds=minX∈Sd(Y,X),其中Sm={X:X姓氏为m};
遗传距离ds可根据所使用的Y染色体DNA的数据信息类型进行 相应定义;具体地,针对Y-STR数据,可采用以下两种方法计算ds
(1)余弦距离(cosine distance,dcos)
其中,xi和yj分别表示样本X和Y的STR位点i和j上的短片段重复 数量;
(2)溯祖距离(coalescence distance)
其中,t为样本X和Y的溯祖时间,Ne为有效群体大小,μ=2.5×10-3为STR位点的平均突变速率,n为分析中应用到的STR位点的总数, 表示两样本相同STR的位点数目,即
给定μ、n、k和Ne两样本溯祖时间为t的概率可表示为:
其中,
步骤3:根据ds对姓氏按升序排列;
步骤4:选择前C位姓氏作为待测样本Y的候选姓氏;其中,1≤C ≤数据库中姓氏总数目。
前述的方法,步骤1中使用的试剂盒可以是AmpFSTR YfilerTM PCR扩增试剂盒或AGCU Y18 STR荧光检测试剂盒,以及其它可用 于Y染色体STR分析的试剂盒。
前述的方法,步骤1所述的Y-STR位点包括但不限于 DYS19(DYS394)、DYS388、DYS389、DYS390、DYS391、DYS392、 DYS393、DYS393(DYS395)、DYS413、DYS425/DYF371、DYS426、 DYS434、DYS435、DYS436、DYS437、DYS438、DYS439(Y-GATA-A4)、DYS441、DYS442、DYS443、DYS444、 DYS445、DYS446、DYS447、DYS448、DYS449、DYS450、DYS452、 DYS453、DYS454、DYS455、DYS456、DYS458、DYS459a&b、 DYS460(Y-GATA-A7.1)、DYS461(Y-GATA-A7.2)、DYS462、DYS463、 DYS464、DYS481、DYS485、DYS487、DYS490、DYS494、DYS495、DYS497、DYS504、DYS505、DYS508、DYS518、DYS520、DYS522、 DYS525、DYS531、DYS532、DYS533、DYS534、DYS540、DYS549、 DYS556、DYS557、DYS565、DYS570、DYS572、DYS573、DYS575、 DYS576、DYS578、DYS589、DYS590、DYS594、DYS607、DYS612、 DYS614、DYS626、DYS627、DYS632、DYS635(Y-GATA-C4)、 DYS636、DYS638、DYS641、DYS643、DYS710、DYS714、DYS716、 DYS717、DYS724(CDY)、DYS725、DYS726、DYF385S1、 DYF387S1a/b、DYF397、DYF399、DYF401、DYF406S1、DYF408、 DYF411、DXYS156、YCAIIa&b、Y-GATA-H4、Y-GATA-A10、 Y-GGAAT-1B07。
优选地,步骤1所述的Y-STR位点为DYS19、DYS389I、DYS389II、 DYS390、DYS391、DYS392、DYS393、DYS437、DYS438、DYS439、 DYS448、DYS456、DYS458、DYS635和YGATAH4。
前述的方法,步骤4中C为1-n之间的整数,其中n为预定的目标姓 氏数目。
前述的方法,当步骤2中数据库样本量≥50000时,采用余弦距离 或溯祖距离计算ds,优选余弦距离,以增加推断时效;当步骤2中样 本量<50000时,采用余弦距离或溯祖距离计算ds,优选溯祖距离, 以提高准确性。
本发明还提供一种基于Y染色体DNA分子标记技术开发的用于 推断姓氏的装置,所述装置包括计算待测样本与数据库样本之间的最 小遗传距离的模块及数据分析模块。
其中,计算模块是根据待测样本Y的Y染色体DNA位点信息,计 算待测样本Y与数据库样本X之间的最小遗传距离d(Y,X),定义待测样 本与各已知姓氏样本之间的最小遗传距离ds3minX∈Sd(Y,X),其中 Sm={X:X姓氏为m}。
遗传距离d(Y,X)的计算模块可包含但不限于下述两个子模块,其 中一个子模块用于计算余弦距离,另一个子模块用于计算溯祖距离。
(1)余弦距离(cosine distance,dcos)
其中,xi和yj分别表示样本X和Y的STR位点i和j上的短片段重复 数量;
(2)溯祖距离(coalescence distance)
其中,t为样本X和Y的溯祖时间,Ne为有效群体大小,μ=2.5×10-3为STR位点的平均突变速率,n为分析中应用到的STR位点的总数, 表示两样本相同STR的位点数目,即
给定μ、n、k和Ne两样本溯祖时间为t的概率可表示为:
其中,
数据分析模块用于分析待测样本Y与数据库中候选姓氏之间的最 小遗传距离。
借由上述技术方案,本发明至少具有下列优点及有益效果:
本发明提供的方法可根据Y染色体分子标记,特别是Y-STR遗传 变异信息对中国人群的姓氏进行有效推断,且姓氏推断的准确性随着 每个姓氏样本量的增加而提高,随使用的Y染色体遗传标记的数目增 多而上升。采用本方法可以对中国人群的姓氏进行准确可靠的推断, 并具有广阔的实际应用前景。
附图说明
图1为本发明较佳实施例中分析样本姓氏频率分布。
图2为本发明较佳实施例中姓氏样本量与其包含的单倍型之间的 关系。
图3为本发明较佳实施例中姓氏推断准确性及其与候选姓氏数目 之间的关系。
图4为本发明较佳实施例中姓氏样本量与姓氏推断准确性之间的 关系。
图5为本发明较佳实施例中姓氏推断准确性与Y-STR位点数目之 间的关系。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。若未 特别指明,实施例中所用的技术手段为本领域技术人员所熟知的常规 手段,所用原料均为市售商品。
实施例基于Y-STR分子标记高效推断姓氏的方法
1.样本采集与基因型分析
19009位男性的血样由山东省公安局于2012-2014年实施的Y-STR 数据库项目建立过程中采集,其中包含266个姓氏。样本中99.6%的个 体为山东籍居民,0.4%的个体来自山东省以外的19个省份。各姓氏的 样本量从1位到1889位不等,平均值为71位。有5个姓氏样本量超过 1000,38个姓氏的样本量超过100;超过一半(130)的姓氏样本量不 足10,其中46个姓氏仅有1个样品。样本姓氏的频率分布与我国人口 姓氏分布相似(图1)。
基因组DNA根据Chelex-100的说明提取;提取DNA的质量用 QuantitationSystem定量检测。对以下17个Y-STR位点进行遗 传分析:DYS19、DYS389I、DYS389II、DYS390、DYS391、DYS392、 DYS393、DYS437、DYS438、DYS439、DYS447、DYS448、DYS456、DYS458、DYS635、YGATAH4和DYS385a/b。PCR扩增用AGCU Y18 STR荧光检测试剂盒,在GeneAmp 9700型PCR仪上进行。PCR扩增 产物在ABI PRISM 3130XL型遗传分析仪上通过毛细管电泳进行精细 分离。所有电泳图谱用Genemapper ID 3.2软件确定片段大小和等位基因类型。Y-STR分型和命名遵从国际法医遗传学实验指南。
2.算法
假设数据库中包含了充足的已知姓氏和Y-STR变异谱的样本, Y-STR变异谱可以用向量X=(x1,x2,...,xn)来表示,其中第i个元素对应 Y-STR位点i的等位基因大小。对于一个已知Y-STR变异谱的样本 Y=(y1,y2,...,yn),通过以下3个步骤搜索数据库并记录C(1-10)个姓氏 作为候选姓氏:
步骤1:根据Y-STR数据,计算待测样本Y与数据库样本X之间的 最小遗传距离d(Y,X),定义待测样本与各已知姓氏样本之间的最小遗 传距离dS=minX∈S d(Y,X),其中Sm={X:X姓氏为m};
采用以下两种方法计算dS
(1)余弦距离(cosine distance,dcos)
其中,xi和yj分别表示样本X和Y的STR位点i和j上的短片段重复 数量;
(2)溯祖距离(coalescence distance)
其中,t为样本X和Y的溯祖时间,Ne为有效群体大小,μ=2.5×10-3为STR位点的平均突变速率,n为分析中应用到的STR位点的总数, 表示两样本相同STR的位点数目,即
给定μ、n、k和Ne两样本溯祖时间为t的概率可表示为:
其中,
步骤2:根据dS对姓氏按升序排列;
步骤3:选择前C位姓氏作为待测样本Y的候选姓氏(C=1…c,c< 数据库中姓氏总数目)。
3.数据分析
(1)数据预处理与质量控制:在分型的17个Y-STR位点中, DYS385ab包含两个重复的STR位点,无法明确具体等位基因的基因 型,DYS447在很多个体中数据缺失;剔除这两个Y-STR位点后,最 终有15个Y-STR位点用于数据分析(姓氏推断)。数据格式如表1所示。
(2)缺失数据插补:对个别几个位点少数缺失数据进行插补 (imputation),形成分析输入数据。
(3)姓氏推断:运用上述15个Y-STR位点,根据dcos和dcoal距 离进行姓氏推断。结果的准确率通过5折交叉验证来评估。具体操作 如下:首先将整个数据库分为5个大致相等的子集,1个子集作为验证 集,其他4个作为测试集(类似Y-STR数据库)。通过将5个子集中每一个作为验证集来进行交叉验证。姓氏推断的平均准确率通过计算所 有5个测试集中准确匹配的比例来确定。给定C个候选姓氏,准确匹 配是指待测的姓氏属于推断获得的候选姓氏集。我们将C值设置为1 到10进行一系列推断分析。
此外,我们从15个Y-STR中随机挑选3、6、9、12个Y-STR位点进 行上述分析,以研究Y-STR遗传信息量对姓氏推断的影响。
4.准确性评价和结果评估
4.1数据特征
分析数据包括19,009名男性,含266个姓氏。姓氏的样本量从1 位到1889位不等,平均值为71位。根据样本量排序,前100个姓氏呈 指数分布(图1)。大约有10%的个体在一个及以上Y-STR位点数据缺 失。不考虑缺失数据,在用于姓氏推断的15个Y-STR的等位基因数 目从5(DSY437)到12(DSY389II)个不等,平均(±SD)8.33±1.88(n =17,077)个。整个样本的基因多样性为0.9986±0.0001。较常见的126 个姓氏(样本量≥10)人口占整个样本人口的97.6%;其基因多样 性介于0.2857至1之间(表2)。姓氏频率等级与Y-STR基因多样性显 著相关(Spearman’s rank correlation rho=0.46,P=5.93×10-8);单倍型 数目与姓氏样本量线性相关(R2=0.98),表明常见姓氏的父系遗传多 样性更高(图2)。
4.2姓氏推断准确性
基于最小遗传距离dcoal和dcos推断姓氏的性能如图3所示。总体 而言,dcoal对姓氏推断的准确性略高于dcos,但当只指定1个候选姓氏 时例外,dcoal的准确性比dcos低。总体而言,姓氏推断的准确性随指 定候选姓氏数目的增加而提高。当用dcoal时,整体准确率介于65.21% (C=1candidate)到86.44%(C=10candidates)之间;当用dcos时, 整体准确率在65.38%~86.02%(图3)。当指定候选姓氏的数目超过4(C ≥4)时,两种距离对姓氏推断的准确率均>80%。但姓氏样本量较 小时(如<10)推断的误差较大;排除这些样本,姓氏推断的准确率整 体提高1%。
虽然dcoal对姓氏推断的准确性略高于dcos,但其运算强度远比 dcos高。当C=10时,dcoal耗时100秒,而dcos只用2秒;即dcos比 dcoal快50倍。
4.3姓氏样本量对推断准确性的影响
每个姓氏所包含的个体数目对姓氏推断具有明显影响,分析姓氏 的样本量越大,姓氏推断的变异越小,分析结果越稳定。以余弦距离 (dcos)为例,当推断姓氏的样本量小于10时,推断结果准确性的误 差很大。但当量大于1000时,误差显著减小。此外,候选姓氏越多, 准确性的误差越小(图4)。
4.4Y-STR信息量对姓氏推断准确性的影响
通过从15个Y-STR位点中随机抽取3、6、9、12个位点分别对姓 氏推断来评估,相关结果见图5。不管指定候选姓氏的数目如何变化 (C=1~10),姓氏推断的准确性都随Y-STR的增加而升高。当指定候 选姓氏超过8个时,用9个Y-STR位点推断的准确性就与用15个Y-STR 位点的结果趋近,但用15个位点的准确性还是显著优于用12个位点推 断的结果。以上结果表明,随着Y-STR位点数目的增加,姓氏推断的 准确性明显升高。
以上实施例表明本发明方法可以用于Y-STR对中国人群的姓氏 进行有效推断。同时,姓氏推断的准确性随着每个姓氏样本量的增加 而提高,随使用的Y-STR数目增多而上升。我国有近14亿人口,包含 7000多个姓氏,因此可以推断中国姓氏的实际样本量远远比本实例涉 及的样本量要大,故可以确定仅用实施例中涉及的15个Y-STR即可对 我国人群的姓氏进行可靠推断。此外,实施例中最多仅用了15个 Y-STR基因型数据,当前我国公共安全采集的遗传数据涉及的Y-STR 位点通常超过17个,因此,可以断定根据当前收集的Y-STR数据对中 国人群姓氏推断的准确性会更高。综上,本方法可对中国人群的姓氏 进行可靠准确推断并具有广阔的实际应用前景。
采用本发明提供的方法可根据当前法医遗传学分析常用的15个 Y-STR位点对我国人群的姓氏进行有效推断;在一定条件下推断的 准确性超过80%(图3和图4),表明本方法可以有效地利用人群姓氏和 Y-STR的数据信息。虽然,本方法有待于在更大的人群中进行验证, 但是,本次测试数据中姓氏等级的频率分布(the Zipf plot)(图1),大 致反映了中国人口姓氏频率分布的特点(Baek et al.2007)。因此,可 以推断本方法在整个中国人群中也会有效。由此认为Y-STR数据是 中国人群姓氏追踪中很有应用前景的数据来源,将有助于未来的法医 调查工作。
以上研究结果进一步明确了姓氏的样本量对姓氏推断的准确性 有重要影响。姓氏推断的准确性随姓氏样本量的升高呈现明显上升趋 势(图4)。当姓氏样本量较小时推断的准确性的变异较大,但当样本量 足够大时,推断的准确性趋于饱和。例如,当姓氏样本量从223到1899 变化时,准确率在82%~93%之间浮动。这一现象指导我们在实际应 用中,应将遗传分析的精力多投入到样本量较小,或者说罕见姓氏上。
虽然用更多的Y-STR位点会获得更准确的姓氏推断结果,但我们 的研究结果表明AGCU Y18STR荧光检测试剂盒中的15个Y-STR位点 可对中国人群的姓氏进行有效推断。当用12个Y-STR位点时,姓氏推 断的准确率趋于饱和(图5)。但需说明,这只是本分析案例中的一个现 象,尚需进一步研究。
以上分析案例中姓氏推断高度的准确性表明中国人群的姓氏与 父系遗传谱系之间存在高度的关联性。中国人群的以下几个特征可能 对这种高度关联性相关:首先,中国人的姓氏具有很长的演化历史。 欧洲的姓氏起源于中世纪,而中国的姓氏起源历史可追溯到4000年 前。在中国姓氏较长的演化时间里Y-STR有望积累更多的遗传突变, 据此我们可以区分不同的姓氏。
其次,由于文化传统的约束使得中国姓氏具有长期的保守型、稳 定性和连续性的特点,这进一步增加了姓氏和Y-STR遗传的同步性 (或共祖性)。这种社会文化特征可能提高姓氏和Y-STR平行传演的 概率。这一点也反映在姓氏群体大小和Y-STR多样性的线性关系上 (图1和图2,表2)。由于中国姓氏较长的历史,因此中国姓氏更有可能 反映了人群更深层次的遗传分化,所有更容易被检测到。
最后,中国姓氏的分布呈现突出的地理特点。虽然一些大姓氏目 前呈现全国分布,但是,大多姓氏在自然社区(自然村、镇、县市) 多呈现聚集分布。这一点在我们分析的数据中也有反映(图1)。因此, 一个小地方同姓的个体更有可能起源于相同的祖宗。这一现象自然会 导致姓氏的分离与Y-STR分化程度相一致。
姓氏与Y染色体同步分离为我们根据Y-STR推断姓氏提供了良好 的契机。虽然这类方法可能会很有效,但也存在一些局限性。比如私 生子、领养、改姓等这些情况可导致姓氏与Y-STR变异不一致,无法 根据Y-STR对姓氏进行推断。需要指出,我们分析样本对姓氏的地理 覆盖范围有限,因此,我们的方法有待进一步检验。同时,我们分析 样本对中国姓氏的代表性尚不充分,仅包含266个姓氏,而且我们的 结果主要来自对样本量超过10人的126个姓氏的分析,因此仅代表了 中国姓氏和遗传多样性的一小部分。今后将用更大的数据对本发明方 法进行检验。
尽管如此,从初步分析结果来看,本方法在姓氏推断中具有良好 的应用前景。对于区域性的数据,我们的方法可以根据少数几个 Y-STR位点对姓氏精细准确推断。历史早期的姓氏变迁,将对姓氏推 断造成挑战,但是可以通过把大数据分割为若干较小的区域性数据 集,对其分别进行姓氏推断,予以解决。这一问题也可以通过在姓氏 推断过程中利用更多的地理、社会文化信息来解决。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详 尽的描述,但在本发明基础上,可以对之做一些修改或改进,这对本 领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础 上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (6)

1.Y染色体分子标记在推断姓氏中的应用。
2.基于Y染色体分子标记高效推断姓氏的方法,其特征在于,基于Y染色体分子标记,利用统计学方法计算待测样本与数据库样本之间的最小遗传距离,从而得到待测样本的候选姓氏。
3.根据权利要求2所述的方法,其特征在于,所述分子标记包括位于Y染色体非重组区域的STR、SNP或RFLP分子遗传标记。
4.根据权利要求3所述的方法,其特征在于,包括以下步骤:
步骤1:提取待测样本Y的基因组DNA,设计引物或利用商品化试剂盒对样本Y染色体DNA位点进行基因型分析;
步骤2:根据步骤1中相应位点的数据信息,包括基因型、等位基因或短片段重复数量,计算待测样本Y与数据库样本X之间的最小遗传距离d(Y,X),定义待测样本与各已知姓氏样本之间的最小遗传距离ds=minY∈Sd(Y,X),其中Sm={X:X姓氏为m};
遗传距离ds可根据所使用的Y染色体DNA的数据信息类型进行相应定义;具体地,针对Y-STR数据,定义如下二种距离:
(1)余弦距离(cosine distance,dcos)
<mrow> <msub> <mi>d</mi> <mi>cos</mi> </msub> <mrow> <mo>(</mo> <mi>Y</mi> <mo>,</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mo>&amp;Sigma;</mo> <mi>i</mi> </msub> <msub> <mi>x</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <mrow> <msqrt> <mrow> <msub> <mo>&amp;Sigma;</mo> <mi>i</mi> </msub> <msubsup> <mi>x</mi> <mi>i</mi> <mn>2</mn> </msubsup> </mrow> </msqrt> <msqrt> <mrow> <msub> <mo>&amp;Sigma;</mo> <mi>j</mi> </msub> <msubsup> <mi>y</mi> <mi>j</mi> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> </mfrac> <mo>,</mo> <msub> <mi>d</mi> <mi>cos</mi> </msub> <mo>&amp;Element;</mo> <mo>&amp;lsqb;</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>&amp;rsqb;</mo> </mrow>
其中,xi和yj分别表示样本X和Y的STR位点i和j上的短片段重复数量;
(2)溯祖距离(coalescence distance)
dcoal(Y,X)=∫0 tPr(t|μ,n,k,Ne)dt
其中,t为样本X和Y的溯祖时间,Ne为有效群体大小,μ=2.5×10-3为STR位点的平均突变速率,n为分析中应用到的STR位点的总数,表示两样本相同STR的位点数目,即
给定μ、n、k和Ne两样本溯祖时间为t的概率可表示为:
<mrow> <mi>Pr</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>|</mo> <mi>&amp;mu;</mi> <mo>,</mo> <mi>n</mi> <mo>,</mo> <mi>k</mi> <mo>,</mo> <msub> <mi>N</mi> <mi>e</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mrow> <mo>(</mo> <mfrac> <mn>1</mn> <msub> <mi>N</mi> <mi>e</mi> </msub> </mfrac> <mo>+</mo> <mn>2</mn> <mi>k</mi> <mi>u</mi> <mo>)</mo> </mrow> <mi>t</mi> </mrow> </msup> <msup> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mn>2</mn> <mi>u</mi> <mi>t</mi> </mrow> </msup> <mo>)</mo> </mrow> <mrow> <mi>n</mi> <mo>-</mo> <mi>k</mi> </mrow> </msup> </mrow> <mrow> <mi>I</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>n</mi> <mo>,</mo> <mi>k</mi> <mo>,</mo> <msub> <mi>N</mi> <mi>e</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,
步骤3:根据ds对姓氏按升序排列;
步骤4:选择前C位姓氏作为待测样本Y的候选姓氏;其中,1≤C≤数据库中姓氏总数目。
5.根据权利要求4所述的方法,其特征在于,步骤1所述的Y-STR位点包括DYS19(DYS394)、DYS388、DYS389、DYS390、DYS391、DYS392、DYS393、DYS393(DYS395)、DYS413、DYS425/DYF371、DYS426、DYS434、DYS435、DYS436、DYS437、DYS438、DYS439(Y-GATA-A4)、DYS441、DYS442、DYS443、DYS444、DYS445、DYS446、DYS447、DYS448、DYS449、DYS450、DYS452、DYS453、DYS454、DYS455、DYS456、DYS458、DYS459a&b、DYS460(Y-GATA-A7.1)、DYS461(Y-GATA-A7.2)、DYS462、DYS463、DYS464、DYS481、DYS485、DYS487、DYS490、DYS494、DYS495、DYS497、DYS504、DYS505、DYS508、DYS518、DYS520、DYS522、DYS525、DYS531、DYS532、DYS533、DYS534、DYS540、DYS549、DYS556、DYS557、DYS565、DYS570、DYS572、DYS573、DYS575、DYS576、DYS578、DYS589、DYS590、DYS594、DYS607、DYS612、DYS614、DYS626、DYS627、DYS632、DYS635(Y-GATA-C4)、DYS636、DYS638、DYS641、DYS643、DYS710、DYS714、DYS716、DYS717、DYS724(CDY)、DYS725、DYS726、DYF385S1、DYF387S1a/b、DYF397、DYF399、DYF401、DYF406S1、DYF408、DYF411、DXYS156、YCAIIa&b、Y-GATA-H4、Y-GATA-A10、Y-GGAAT-1B07。
6.根据权利要求4或5所述的方法,其特征在于,当步骤2中数据库样本量≥50000时,采用余弦距离或溯祖距离计算ds,优选余弦距离,以增加推断时效;当步骤2中样本量<50000时,采用余弦距离或溯祖距离计算ds,优选溯祖距离,以提高准确性。
CN201710868578.2A 2017-09-22 2017-09-22 基于y染色体分子标记高效推断姓氏的方法 Pending CN107679365A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710868578.2A CN107679365A (zh) 2017-09-22 2017-09-22 基于y染色体分子标记高效推断姓氏的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710868578.2A CN107679365A (zh) 2017-09-22 2017-09-22 基于y染色体分子标记高效推断姓氏的方法

Publications (1)

Publication Number Publication Date
CN107679365A true CN107679365A (zh) 2018-02-09

Family

ID=61137203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710868578.2A Pending CN107679365A (zh) 2017-09-22 2017-09-22 基于y染色体分子标记高效推断姓氏的方法

Country Status (1)

Country Link
CN (1) CN107679365A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110551830A (zh) * 2019-09-27 2019-12-10 湖北崇新司法鉴定中心 人y-str基因座荧光标记试剂盒及检测方法
CN112746096A (zh) * 2020-12-31 2021-05-04 郑州高新生物技术有限公司 一种基于二代测序的人类y-str检测方法及其应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1439723A (zh) * 2003-02-24 2003-09-03 尹国兴 运用y染色体鉴定技术检测姓氏的方法
US20030207314A1 (en) * 1999-01-25 2003-11-06 Isis Innovation Limited, A United Kingdom Corporation Forensic and genealogical test
CN101988119A (zh) * 2009-07-31 2011-03-23 刘晓明 用dna推算姓氏家族分支和追溯家谱的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030207314A1 (en) * 1999-01-25 2003-11-06 Isis Innovation Limited, A United Kingdom Corporation Forensic and genealogical test
CN1439723A (zh) * 2003-02-24 2003-09-03 尹国兴 运用y染色体鉴定技术检测姓氏的方法
CN101988119A (zh) * 2009-07-31 2011-03-23 刘晓明 用dna推算姓氏家族分支和追溯家谱的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BRUCE WALSH: "Estimating the Time to the Most Recent Common Ancestor for the Y chromosome or Mitochondrial DNA for a Pair of Individuals", 《GENETICS》 *
吴微微等: "用Y-STR单倍型推断男性个体来源的分析", 《中国法医学杂志》 *
孙亚男: "孔姓家系的Y染色体遗传多态性研究与其法医学意义", 《中国优秀硕士学位论文全文数据库-医药卫生科技辑》 *
杨幸怡等: "17个Y-STR基因座遗传结构及用于姓氏推断的价值", 《中国法医学期杂志》 *
翁玮霞: "17个Y-STR基因座单倍型调查、突变研究与法医学应用", 《中国优秀硕士学位论文全文数据库-医药卫生科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110551830A (zh) * 2019-09-27 2019-12-10 湖北崇新司法鉴定中心 人y-str基因座荧光标记试剂盒及检测方法
CN110551830B (zh) * 2019-09-27 2020-07-03 湖北崇新司法鉴定中心 人y-str基因座荧光标记试剂盒及检测方法
CN112746096A (zh) * 2020-12-31 2021-05-04 郑州高新生物技术有限公司 一种基于二代测序的人类y-str检测方法及其应用

Similar Documents

Publication Publication Date Title
AU2022268283B2 (en) Phenotype/disease specific gene ranking using curated, gene library and network based data structures
KR102349921B1 (ko) 시료 미생물의 동정 및 분류 방법
Troyanskaya et al. Sequence complexity profiles of prokaryotic genomic sequences: A fast algorithm for calculating linguistic complexity
Erickson et al. DNA barcoding in land plants: developing standards to quantify and maximize success
US11809498B2 (en) Optimizing k-mer databases by k-mer subtraction
CN114708910B (zh) 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法
CN115631789B (zh) 一种基于泛基因组的群体联合变异检测方法
CN107247890A (zh) 一种用于临床诊断和预测的基因数据系统
Rachtman et al. CONSULT: accurate contamination removal using locality-sensitive hashing
CN110444253B (zh) 一种适用于混池基因定位的方法及系统
CN107679365A (zh) 基于y染色体分子标记高效推断姓氏的方法
CN102618630A (zh) Y-str的应用
US20160078169A1 (en) Method of and apparatus for providing information on a genomic sequence based personal marker
US11475980B2 (en) Methods of analyzing massively parallel sequencing data
CN113362895A (zh) 一种预测抗癌药物反应相关基因的综合分析方法
CN107977550A (zh) 一种基于压缩的快速分析致病基因算法
US20140019062A1 (en) Nucleic Acid Information Processing Device and Processing Method Thereof
CN112885407B (zh) 一种基于二代测序的微单倍型检测分型系统和方法
CN107868843B (zh) 一种筛选绿豆高多态性分子标记位点的方法
CN111028885A (zh) 一种检测牦牛rna编辑位点的方法及装置
Marić et al. Approaches to metagenomic classification and assembly
Esim et al. Determination of malignant melanoma by analysis of variation values
CN114634988B (zh) 一组用于东亚群体生物地理来源鉴识研究的snp位点及方法
CN111118168A (zh) 用于推断中国西北和毗邻中亚国家主体民族的snp标记组合
Hu et al. Biological discovery and consumer genomics activate latent privacy risk in functional genomics data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180209