CN107679365A - 基于y染色体分子标记高效推断姓氏的方法 - Google Patents
基于y染色体分子标记高效推断姓氏的方法 Download PDFInfo
- Publication number
- CN107679365A CN107679365A CN201710868578.2A CN201710868578A CN107679365A CN 107679365 A CN107679365 A CN 107679365A CN 201710868578 A CN201710868578 A CN 201710868578A CN 107679365 A CN107679365 A CN 107679365A
- Authority
- CN
- China
- Prior art keywords
- surname
- sample
- str
- distance
- surnames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Organic Chemistry (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Zoology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Genetics & Genomics (AREA)
- Wood Science & Technology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Immunology (AREA)
- General Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种基于Y染色体分子标记高效推断姓氏的方法,特别是基于Y‑STR分子标记高效推断姓氏的方法。根据多个DNA的标记信息,通过计算个体间遗传距离的方法来预测样本的姓氏。本发明提供的方法可根据Y染色体分子标记(如Y‑STR、Y‑SNP、RFLP等)遗传变异信息对中国人群的姓氏进行有效推断,且姓氏推断的准确性随着每个姓氏样本量的增加而提高,随使用的分子标记数目增多而上升。采用本方法可以对中国人群的姓氏进行准确可靠的推断,并具有广阔的实际应用前景。
Description
技术领域
本发明涉及分子生物学、法医学和生物信息技术领域,具体地说, 涉及一种基于Y染色体分子标记高效推断姓氏的方法。
背景技术
基因DNA分子标记的遗传分析技术给法医侦查带来了革命性的 变化。近30年来,DNA分析已经成为法医调查的必备手段,各级公安 机关都建立了大量相关人群的遗传数据库。其中,Y染色体DNA数据 库,特别是微卫星(Y-STR)数据库是建立最早、规模最大、人口覆盖最广的遗传数据库。近年来,随着芯片技术和新一代测序技术的发 展,Y染色体SNP数据也在不断积累。虽然,这些数据库及其相应数 据的分子标记在亲子鉴定和身份识别方面发挥了重要作用,但是,目 前对Y染色体DNA众多分子标记分析结果的信息利用仍非常局限,没 有充分发挥Y染色体DNA大数据库的应用潜能。
Y染色体绝大部分DNA,即非重组区(Non-combining region of Y, NRY),遵从严格的父系遗传,即只通过父亲遗传给男性后代。这种 遗传模式与我国传统的姓氏继承模式非常相似,即绝大多数新生男丁 出生后都随父亲的姓氏。由于Y染色体DNA的进化很大程度上与姓氏 的传演相互平行,二者在演化上具有高度相关性,从理论角度,根据 男性的Y染色体DNA上的变异模式可以对其姓氏进行推测。同时,中 国自古以来就有寻根问祖的传统,对宗脉有着强烈的认同感。从北宋 《百家姓》到现在由国务院人口普查办公室统计列出的中国名义上最 新姓氏人口数目排名来看,姓氏的组成基本没有变化,其稳定性可有 效提升姓氏推测的可靠性和准确性。这类推断结果可以直接应用于法 医学分析,指导刑侦调查,尽可能的缩小调查范围,提高侦查效率。 然而,目前尚没有根据Y染色体DNA的信息对中国姓氏进行推断的现 成方法。因此,发展基于Y染色体DNA分子标记推断姓氏的分析方法非常必要。
此外,基于Y染色体DNA分子标记推断姓氏的分析方法还具有广 泛的社会人文应用前景。
发明内容
本发明的目的是提供一种基于Y染色体DNA分子标记高效推断 姓氏的方法。
为了实现本发明目的,本发明提供Y染色体分子标记在推断姓氏 中的应用。
本发明还提供基于Y染色体分子标记高效推断姓氏的方法,基于 Y染色体分子标记,利用统计学方法计算待测样本与数据库样本之间 的最小遗传距离,从而得到待测样本的候选姓氏。
其中,所述分子标记包括STR、SNP或RFLP等常用的,且位于Y 染色体非重组区域的分子遗传标记。
本发明进一步提供基于Y染色体DNA分子标记高效推断姓氏的 方法,以Y-STR标记为例包括以下步骤:
步骤1:提取待测样本Y的基因组DNA,设计引物或利用商品化 试剂盒对样本Y染色体DNA位点进行基因型分析;
步骤2:根据步骤1中相应位点的数据信息,包括基因型、等位基 因或短片段重复数量等,计算待测样本Y与数据库样本X之间的最小遗 传距离d(Y,X),定义待测样本与各已知姓氏样本之间的最小遗传距离 ds=minX∈Sd(Y,X),其中Sm={X:X姓氏为m};
遗传距离ds可根据所使用的Y染色体DNA的数据信息类型进行 相应定义;具体地,针对Y-STR数据,可采用以下两种方法计算ds:
(1)余弦距离(cosine distance,dcos)
其中,xi和yj分别表示样本X和Y的STR位点i和j上的短片段重复 数量;
(2)溯祖距离(coalescence distance)
其中,t为样本X和Y的溯祖时间,Ne为有效群体大小,μ=2.5×10-3为STR位点的平均突变速率,n为分析中应用到的STR位点的总数, 表示两样本相同STR的位点数目,即
给定μ、n、k和Ne两样本溯祖时间为t的概率可表示为:
其中,
步骤3:根据ds对姓氏按升序排列;
步骤4:选择前C位姓氏作为待测样本Y的候选姓氏;其中,1≤C ≤数据库中姓氏总数目。
前述的方法,步骤1中使用的试剂盒可以是AmpFSTR YfilerTM PCR扩增试剂盒或AGCU Y18 STR荧光检测试剂盒,以及其它可用 于Y染色体STR分析的试剂盒。
前述的方法,步骤1所述的Y-STR位点包括但不限于 DYS19(DYS394)、DYS388、DYS389、DYS390、DYS391、DYS392、 DYS393、DYS393(DYS395)、DYS413、DYS425/DYF371、DYS426、 DYS434、DYS435、DYS436、DYS437、DYS438、DYS439(Y-GATA-A4)、DYS441、DYS442、DYS443、DYS444、 DYS445、DYS446、DYS447、DYS448、DYS449、DYS450、DYS452、 DYS453、DYS454、DYS455、DYS456、DYS458、DYS459a&b、 DYS460(Y-GATA-A7.1)、DYS461(Y-GATA-A7.2)、DYS462、DYS463、 DYS464、DYS481、DYS485、DYS487、DYS490、DYS494、DYS495、DYS497、DYS504、DYS505、DYS508、DYS518、DYS520、DYS522、 DYS525、DYS531、DYS532、DYS533、DYS534、DYS540、DYS549、 DYS556、DYS557、DYS565、DYS570、DYS572、DYS573、DYS575、 DYS576、DYS578、DYS589、DYS590、DYS594、DYS607、DYS612、 DYS614、DYS626、DYS627、DYS632、DYS635(Y-GATA-C4)、 DYS636、DYS638、DYS641、DYS643、DYS710、DYS714、DYS716、 DYS717、DYS724(CDY)、DYS725、DYS726、DYF385S1、 DYF387S1a/b、DYF397、DYF399、DYF401、DYF406S1、DYF408、 DYF411、DXYS156、YCAIIa&b、Y-GATA-H4、Y-GATA-A10、 Y-GGAAT-1B07。
优选地,步骤1所述的Y-STR位点为DYS19、DYS389I、DYS389II、 DYS390、DYS391、DYS392、DYS393、DYS437、DYS438、DYS439、 DYS448、DYS456、DYS458、DYS635和YGATAH4。
前述的方法,步骤4中C为1-n之间的整数,其中n为预定的目标姓 氏数目。
前述的方法,当步骤2中数据库样本量≥50000时,采用余弦距离 或溯祖距离计算ds,优选余弦距离,以增加推断时效;当步骤2中样 本量<50000时,采用余弦距离或溯祖距离计算ds,优选溯祖距离, 以提高准确性。
本发明还提供一种基于Y染色体DNA分子标记技术开发的用于 推断姓氏的装置,所述装置包括计算待测样本与数据库样本之间的最 小遗传距离的模块及数据分析模块。
其中,计算模块是根据待测样本Y的Y染色体DNA位点信息,计 算待测样本Y与数据库样本X之间的最小遗传距离d(Y,X),定义待测样 本与各已知姓氏样本之间的最小遗传距离ds3minX∈Sd(Y,X),其中 Sm={X:X姓氏为m}。
遗传距离d(Y,X)的计算模块可包含但不限于下述两个子模块,其 中一个子模块用于计算余弦距离,另一个子模块用于计算溯祖距离。
(1)余弦距离(cosine distance,dcos)
其中,xi和yj分别表示样本X和Y的STR位点i和j上的短片段重复 数量;
(2)溯祖距离(coalescence distance)
其中,t为样本X和Y的溯祖时间,Ne为有效群体大小,μ=2.5×10-3为STR位点的平均突变速率,n为分析中应用到的STR位点的总数, 表示两样本相同STR的位点数目,即
给定μ、n、k和Ne两样本溯祖时间为t的概率可表示为:
其中,
数据分析模块用于分析待测样本Y与数据库中候选姓氏之间的最 小遗传距离。
借由上述技术方案,本发明至少具有下列优点及有益效果:
本发明提供的方法可根据Y染色体分子标记,特别是Y-STR遗传 变异信息对中国人群的姓氏进行有效推断,且姓氏推断的准确性随着 每个姓氏样本量的增加而提高,随使用的Y染色体遗传标记的数目增 多而上升。采用本方法可以对中国人群的姓氏进行准确可靠的推断, 并具有广阔的实际应用前景。
附图说明
图1为本发明较佳实施例中分析样本姓氏频率分布。
图2为本发明较佳实施例中姓氏样本量与其包含的单倍型之间的 关系。
图3为本发明较佳实施例中姓氏推断准确性及其与候选姓氏数目 之间的关系。
图4为本发明较佳实施例中姓氏样本量与姓氏推断准确性之间的 关系。
图5为本发明较佳实施例中姓氏推断准确性与Y-STR位点数目之 间的关系。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。若未 特别指明,实施例中所用的技术手段为本领域技术人员所熟知的常规 手段,所用原料均为市售商品。
实施例基于Y-STR分子标记高效推断姓氏的方法
1.样本采集与基因型分析
19009位男性的血样由山东省公安局于2012-2014年实施的Y-STR 数据库项目建立过程中采集,其中包含266个姓氏。样本中99.6%的个 体为山东籍居民,0.4%的个体来自山东省以外的19个省份。各姓氏的 样本量从1位到1889位不等,平均值为71位。有5个姓氏样本量超过 1000,38个姓氏的样本量超过100;超过一半(130)的姓氏样本量不 足10,其中46个姓氏仅有1个样品。样本姓氏的频率分布与我国人口 姓氏分布相似(图1)。
基因组DNA根据Chelex-100的说明提取;提取DNA的质量用 QuantitationSystem定量检测。对以下17个Y-STR位点进行遗 传分析:DYS19、DYS389I、DYS389II、DYS390、DYS391、DYS392、 DYS393、DYS437、DYS438、DYS439、DYS447、DYS448、DYS456、DYS458、DYS635、YGATAH4和DYS385a/b。PCR扩增用AGCU Y18 STR荧光检测试剂盒,在GeneAmp 9700型PCR仪上进行。PCR扩增 产物在ABI PRISM 3130XL型遗传分析仪上通过毛细管电泳进行精细 分离。所有电泳图谱用Genemapper ID 3.2软件确定片段大小和等位基因类型。Y-STR分型和命名遵从国际法医遗传学实验指南。
2.算法
假设数据库中包含了充足的已知姓氏和Y-STR变异谱的样本, Y-STR变异谱可以用向量X=(x1,x2,...,xn)来表示,其中第i个元素对应 Y-STR位点i的等位基因大小。对于一个已知Y-STR变异谱的样本 Y=(y1,y2,...,yn),通过以下3个步骤搜索数据库并记录C(1-10)个姓氏 作为候选姓氏:
步骤1:根据Y-STR数据,计算待测样本Y与数据库样本X之间的 最小遗传距离d(Y,X),定义待测样本与各已知姓氏样本之间的最小遗 传距离dS=minX∈S d(Y,X),其中Sm={X:X姓氏为m};
采用以下两种方法计算dS:
(1)余弦距离(cosine distance,dcos)
其中,xi和yj分别表示样本X和Y的STR位点i和j上的短片段重复 数量;
(2)溯祖距离(coalescence distance)
其中,t为样本X和Y的溯祖时间,Ne为有效群体大小,μ=2.5×10-3为STR位点的平均突变速率,n为分析中应用到的STR位点的总数, 表示两样本相同STR的位点数目,即
给定μ、n、k和Ne两样本溯祖时间为t的概率可表示为:
其中,
步骤2:根据dS对姓氏按升序排列;
步骤3:选择前C位姓氏作为待测样本Y的候选姓氏(C=1…c,c< 数据库中姓氏总数目)。
3.数据分析
(1)数据预处理与质量控制:在分型的17个Y-STR位点中, DYS385ab包含两个重复的STR位点,无法明确具体等位基因的基因 型,DYS447在很多个体中数据缺失;剔除这两个Y-STR位点后,最 终有15个Y-STR位点用于数据分析(姓氏推断)。数据格式如表1所示。
(2)缺失数据插补:对个别几个位点少数缺失数据进行插补 (imputation),形成分析输入数据。
(3)姓氏推断:运用上述15个Y-STR位点,根据dcos和dcoal距 离进行姓氏推断。结果的准确率通过5折交叉验证来评估。具体操作 如下:首先将整个数据库分为5个大致相等的子集,1个子集作为验证 集,其他4个作为测试集(类似Y-STR数据库)。通过将5个子集中每一个作为验证集来进行交叉验证。姓氏推断的平均准确率通过计算所 有5个测试集中准确匹配的比例来确定。给定C个候选姓氏,准确匹 配是指待测的姓氏属于推断获得的候选姓氏集。我们将C值设置为1 到10进行一系列推断分析。
此外,我们从15个Y-STR中随机挑选3、6、9、12个Y-STR位点进 行上述分析,以研究Y-STR遗传信息量对姓氏推断的影响。
4.准确性评价和结果评估
4.1数据特征
分析数据包括19,009名男性,含266个姓氏。姓氏的样本量从1 位到1889位不等,平均值为71位。根据样本量排序,前100个姓氏呈 指数分布(图1)。大约有10%的个体在一个及以上Y-STR位点数据缺 失。不考虑缺失数据,在用于姓氏推断的15个Y-STR的等位基因数 目从5(DSY437)到12(DSY389II)个不等,平均(±SD)8.33±1.88(n =17,077)个。整个样本的基因多样性为0.9986±0.0001。较常见的126 个姓氏(样本量≥10)人口占整个样本人口的97.6%;其基因多样 性介于0.2857至1之间(表2)。姓氏频率等级与Y-STR基因多样性显 著相关(Spearman’s rank correlation rho=0.46,P=5.93×10-8);单倍型 数目与姓氏样本量线性相关(R2=0.98),表明常见姓氏的父系遗传多 样性更高(图2)。
4.2姓氏推断准确性
基于最小遗传距离dcoal和dcos推断姓氏的性能如图3所示。总体 而言,dcoal对姓氏推断的准确性略高于dcos,但当只指定1个候选姓氏 时例外,dcoal的准确性比dcos低。总体而言,姓氏推断的准确性随指 定候选姓氏数目的增加而提高。当用dcoal时,整体准确率介于65.21% (C=1candidate)到86.44%(C=10candidates)之间;当用dcos时, 整体准确率在65.38%~86.02%(图3)。当指定候选姓氏的数目超过4(C ≥4)时,两种距离对姓氏推断的准确率均>80%。但姓氏样本量较 小时(如<10)推断的误差较大;排除这些样本,姓氏推断的准确率整 体提高1%。
虽然dcoal对姓氏推断的准确性略高于dcos,但其运算强度远比 dcos高。当C=10时,dcoal耗时100秒,而dcos只用2秒;即dcos比 dcoal快50倍。
4.3姓氏样本量对推断准确性的影响
每个姓氏所包含的个体数目对姓氏推断具有明显影响,分析姓氏 的样本量越大,姓氏推断的变异越小,分析结果越稳定。以余弦距离 (dcos)为例,当推断姓氏的样本量小于10时,推断结果准确性的误 差很大。但当量大于1000时,误差显著减小。此外,候选姓氏越多, 准确性的误差越小(图4)。
4.4Y-STR信息量对姓氏推断准确性的影响
通过从15个Y-STR位点中随机抽取3、6、9、12个位点分别对姓 氏推断来评估,相关结果见图5。不管指定候选姓氏的数目如何变化 (C=1~10),姓氏推断的准确性都随Y-STR的增加而升高。当指定候 选姓氏超过8个时,用9个Y-STR位点推断的准确性就与用15个Y-STR 位点的结果趋近,但用15个位点的准确性还是显著优于用12个位点推 断的结果。以上结果表明,随着Y-STR位点数目的增加,姓氏推断的 准确性明显升高。
以上实施例表明本发明方法可以用于Y-STR对中国人群的姓氏 进行有效推断。同时,姓氏推断的准确性随着每个姓氏样本量的增加 而提高,随使用的Y-STR数目增多而上升。我国有近14亿人口,包含 7000多个姓氏,因此可以推断中国姓氏的实际样本量远远比本实例涉 及的样本量要大,故可以确定仅用实施例中涉及的15个Y-STR即可对 我国人群的姓氏进行可靠推断。此外,实施例中最多仅用了15个 Y-STR基因型数据,当前我国公共安全采集的遗传数据涉及的Y-STR 位点通常超过17个,因此,可以断定根据当前收集的Y-STR数据对中 国人群姓氏推断的准确性会更高。综上,本方法可对中国人群的姓氏 进行可靠准确推断并具有广阔的实际应用前景。
采用本发明提供的方法可根据当前法医遗传学分析常用的15个 Y-STR位点对我国人群的姓氏进行有效推断;在一定条件下推断的 准确性超过80%(图3和图4),表明本方法可以有效地利用人群姓氏和 Y-STR的数据信息。虽然,本方法有待于在更大的人群中进行验证, 但是,本次测试数据中姓氏等级的频率分布(the Zipf plot)(图1),大 致反映了中国人口姓氏频率分布的特点(Baek et al.2007)。因此,可 以推断本方法在整个中国人群中也会有效。由此认为Y-STR数据是 中国人群姓氏追踪中很有应用前景的数据来源,将有助于未来的法医 调查工作。
以上研究结果进一步明确了姓氏的样本量对姓氏推断的准确性 有重要影响。姓氏推断的准确性随姓氏样本量的升高呈现明显上升趋 势(图4)。当姓氏样本量较小时推断的准确性的变异较大,但当样本量 足够大时,推断的准确性趋于饱和。例如,当姓氏样本量从223到1899 变化时,准确率在82%~93%之间浮动。这一现象指导我们在实际应 用中,应将遗传分析的精力多投入到样本量较小,或者说罕见姓氏上。
虽然用更多的Y-STR位点会获得更准确的姓氏推断结果,但我们 的研究结果表明AGCU Y18STR荧光检测试剂盒中的15个Y-STR位点 可对中国人群的姓氏进行有效推断。当用12个Y-STR位点时,姓氏推 断的准确率趋于饱和(图5)。但需说明,这只是本分析案例中的一个现 象,尚需进一步研究。
以上分析案例中姓氏推断高度的准确性表明中国人群的姓氏与 父系遗传谱系之间存在高度的关联性。中国人群的以下几个特征可能 对这种高度关联性相关:首先,中国人的姓氏具有很长的演化历史。 欧洲的姓氏起源于中世纪,而中国的姓氏起源历史可追溯到4000年 前。在中国姓氏较长的演化时间里Y-STR有望积累更多的遗传突变, 据此我们可以区分不同的姓氏。
其次,由于文化传统的约束使得中国姓氏具有长期的保守型、稳 定性和连续性的特点,这进一步增加了姓氏和Y-STR遗传的同步性 (或共祖性)。这种社会文化特征可能提高姓氏和Y-STR平行传演的 概率。这一点也反映在姓氏群体大小和Y-STR多样性的线性关系上 (图1和图2,表2)。由于中国姓氏较长的历史,因此中国姓氏更有可能 反映了人群更深层次的遗传分化,所有更容易被检测到。
最后,中国姓氏的分布呈现突出的地理特点。虽然一些大姓氏目 前呈现全国分布,但是,大多姓氏在自然社区(自然村、镇、县市) 多呈现聚集分布。这一点在我们分析的数据中也有反映(图1)。因此, 一个小地方同姓的个体更有可能起源于相同的祖宗。这一现象自然会 导致姓氏的分离与Y-STR分化程度相一致。
姓氏与Y染色体同步分离为我们根据Y-STR推断姓氏提供了良好 的契机。虽然这类方法可能会很有效,但也存在一些局限性。比如私 生子、领养、改姓等这些情况可导致姓氏与Y-STR变异不一致,无法 根据Y-STR对姓氏进行推断。需要指出,我们分析样本对姓氏的地理 覆盖范围有限,因此,我们的方法有待进一步检验。同时,我们分析 样本对中国姓氏的代表性尚不充分,仅包含266个姓氏,而且我们的 结果主要来自对样本量超过10人的126个姓氏的分析,因此仅代表了 中国姓氏和遗传多样性的一小部分。今后将用更大的数据对本发明方 法进行检验。
尽管如此,从初步分析结果来看,本方法在姓氏推断中具有良好 的应用前景。对于区域性的数据,我们的方法可以根据少数几个 Y-STR位点对姓氏精细准确推断。历史早期的姓氏变迁,将对姓氏推 断造成挑战,但是可以通过把大数据分割为若干较小的区域性数据 集,对其分别进行姓氏推断,予以解决。这一问题也可以通过在姓氏 推断过程中利用更多的地理、社会文化信息来解决。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详 尽的描述,但在本发明基础上,可以对之做一些修改或改进,这对本 领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础 上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (6)
1.Y染色体分子标记在推断姓氏中的应用。
2.基于Y染色体分子标记高效推断姓氏的方法,其特征在于,基于Y染色体分子标记,利用统计学方法计算待测样本与数据库样本之间的最小遗传距离,从而得到待测样本的候选姓氏。
3.根据权利要求2所述的方法,其特征在于,所述分子标记包括位于Y染色体非重组区域的STR、SNP或RFLP分子遗传标记。
4.根据权利要求3所述的方法,其特征在于,包括以下步骤:
步骤1:提取待测样本Y的基因组DNA,设计引物或利用商品化试剂盒对样本Y染色体DNA位点进行基因型分析;
步骤2:根据步骤1中相应位点的数据信息,包括基因型、等位基因或短片段重复数量,计算待测样本Y与数据库样本X之间的最小遗传距离d(Y,X),定义待测样本与各已知姓氏样本之间的最小遗传距离ds=minY∈Sd(Y,X),其中Sm={X:X姓氏为m};
遗传距离ds可根据所使用的Y染色体DNA的数据信息类型进行相应定义;具体地,针对Y-STR数据,定义如下二种距离:
(1)余弦距离(cosine distance,dcos)
<mrow>
<msub>
<mi>d</mi>
<mi>cos</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>Y</mi>
<mo>,</mo>
<mi>X</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mo>&Sigma;</mo>
<mi>i</mi>
</msub>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
</mrow>
<mrow>
<msqrt>
<mrow>
<msub>
<mo>&Sigma;</mo>
<mi>i</mi>
</msub>
<msubsup>
<mi>x</mi>
<mi>i</mi>
<mn>2</mn>
</msubsup>
</mrow>
</msqrt>
<msqrt>
<mrow>
<msub>
<mo>&Sigma;</mo>
<mi>j</mi>
</msub>
<msubsup>
<mi>y</mi>
<mi>j</mi>
<mn>2</mn>
</msubsup>
</mrow>
</msqrt>
</mrow>
</mfrac>
<mo>,</mo>
<msub>
<mi>d</mi>
<mi>cos</mi>
</msub>
<mo>&Element;</mo>
<mo>&lsqb;</mo>
<mn>0</mn>
<mo>,</mo>
<mn>1</mn>
<mo>&rsqb;</mo>
</mrow>
其中,xi和yj分别表示样本X和Y的STR位点i和j上的短片段重复数量;
(2)溯祖距离(coalescence distance)
dcoal(Y,X)=∫0 ∞tPr(t|μ,n,k,Ne)dt
其中,t为样本X和Y的溯祖时间,Ne为有效群体大小,μ=2.5×10-3为STR位点的平均突变速率,n为分析中应用到的STR位点的总数,表示两样本相同STR的位点数目,即
给定μ、n、k和Ne两样本溯祖时间为t的概率可表示为:
<mrow>
<mi>Pr</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>|</mo>
<mi>&mu;</mi>
<mo>,</mo>
<mi>n</mi>
<mo>,</mo>
<mi>k</mi>
<mo>,</mo>
<msub>
<mi>N</mi>
<mi>e</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mfrac>
<mn>1</mn>
<msub>
<mi>N</mi>
<mi>e</mi>
</msub>
</mfrac>
<mo>+</mo>
<mn>2</mn>
<mi>k</mi>
<mi>u</mi>
<mo>)</mo>
</mrow>
<mi>t</mi>
</mrow>
</msup>
<msup>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mn>2</mn>
<mi>u</mi>
<mi>t</mi>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mi>k</mi>
</mrow>
</msup>
</mrow>
<mrow>
<mi>I</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>n</mi>
<mo>,</mo>
<mi>k</mi>
<mo>,</mo>
<msub>
<mi>N</mi>
<mi>e</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中,
步骤3:根据ds对姓氏按升序排列;
步骤4:选择前C位姓氏作为待测样本Y的候选姓氏;其中,1≤C≤数据库中姓氏总数目。
5.根据权利要求4所述的方法,其特征在于,步骤1所述的Y-STR位点包括DYS19(DYS394)、DYS388、DYS389、DYS390、DYS391、DYS392、DYS393、DYS393(DYS395)、DYS413、DYS425/DYF371、DYS426、DYS434、DYS435、DYS436、DYS437、DYS438、DYS439(Y-GATA-A4)、DYS441、DYS442、DYS443、DYS444、DYS445、DYS446、DYS447、DYS448、DYS449、DYS450、DYS452、DYS453、DYS454、DYS455、DYS456、DYS458、DYS459a&b、DYS460(Y-GATA-A7.1)、DYS461(Y-GATA-A7.2)、DYS462、DYS463、DYS464、DYS481、DYS485、DYS487、DYS490、DYS494、DYS495、DYS497、DYS504、DYS505、DYS508、DYS518、DYS520、DYS522、DYS525、DYS531、DYS532、DYS533、DYS534、DYS540、DYS549、DYS556、DYS557、DYS565、DYS570、DYS572、DYS573、DYS575、DYS576、DYS578、DYS589、DYS590、DYS594、DYS607、DYS612、DYS614、DYS626、DYS627、DYS632、DYS635(Y-GATA-C4)、DYS636、DYS638、DYS641、DYS643、DYS710、DYS714、DYS716、DYS717、DYS724(CDY)、DYS725、DYS726、DYF385S1、DYF387S1a/b、DYF397、DYF399、DYF401、DYF406S1、DYF408、DYF411、DXYS156、YCAIIa&b、Y-GATA-H4、Y-GATA-A10、Y-GGAAT-1B07。
6.根据权利要求4或5所述的方法,其特征在于,当步骤2中数据库样本量≥50000时,采用余弦距离或溯祖距离计算ds,优选余弦距离,以增加推断时效;当步骤2中样本量<50000时,采用余弦距离或溯祖距离计算ds,优选溯祖距离,以提高准确性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710868578.2A CN107679365A (zh) | 2017-09-22 | 2017-09-22 | 基于y染色体分子标记高效推断姓氏的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710868578.2A CN107679365A (zh) | 2017-09-22 | 2017-09-22 | 基于y染色体分子标记高效推断姓氏的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107679365A true CN107679365A (zh) | 2018-02-09 |
Family
ID=61137203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710868578.2A Pending CN107679365A (zh) | 2017-09-22 | 2017-09-22 | 基于y染色体分子标记高效推断姓氏的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107679365A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110551830A (zh) * | 2019-09-27 | 2019-12-10 | 湖北崇新司法鉴定中心 | 人y-str基因座荧光标记试剂盒及检测方法 |
CN112746096A (zh) * | 2020-12-31 | 2021-05-04 | 郑州高新生物技术有限公司 | 一种基于二代测序的人类y-str检测方法及其应用 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1439723A (zh) * | 2003-02-24 | 2003-09-03 | 尹国兴 | 运用y染色体鉴定技术检测姓氏的方法 |
US20030207314A1 (en) * | 1999-01-25 | 2003-11-06 | Isis Innovation Limited, A United Kingdom Corporation | Forensic and genealogical test |
CN101988119A (zh) * | 2009-07-31 | 2011-03-23 | 刘晓明 | 用dna推算姓氏家族分支和追溯家谱的方法 |
-
2017
- 2017-09-22 CN CN201710868578.2A patent/CN107679365A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030207314A1 (en) * | 1999-01-25 | 2003-11-06 | Isis Innovation Limited, A United Kingdom Corporation | Forensic and genealogical test |
CN1439723A (zh) * | 2003-02-24 | 2003-09-03 | 尹国兴 | 运用y染色体鉴定技术检测姓氏的方法 |
CN101988119A (zh) * | 2009-07-31 | 2011-03-23 | 刘晓明 | 用dna推算姓氏家族分支和追溯家谱的方法 |
Non-Patent Citations (5)
Title |
---|
BRUCE WALSH: "Estimating the Time to the Most Recent Common Ancestor for the Y chromosome or Mitochondrial DNA for a Pair of Individuals", 《GENETICS》 * |
吴微微等: "用Y-STR单倍型推断男性个体来源的分析", 《中国法医学杂志》 * |
孙亚男: "孔姓家系的Y染色体遗传多态性研究与其法医学意义", 《中国优秀硕士学位论文全文数据库-医药卫生科技辑》 * |
杨幸怡等: "17个Y-STR基因座遗传结构及用于姓氏推断的价值", 《中国法医学期杂志》 * |
翁玮霞: "17个Y-STR基因座单倍型调查、突变研究与法医学应用", 《中国优秀硕士学位论文全文数据库-医药卫生科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110551830A (zh) * | 2019-09-27 | 2019-12-10 | 湖北崇新司法鉴定中心 | 人y-str基因座荧光标记试剂盒及检测方法 |
CN110551830B (zh) * | 2019-09-27 | 2020-07-03 | 湖北崇新司法鉴定中心 | 人y-str基因座荧光标记试剂盒及检测方法 |
CN112746096A (zh) * | 2020-12-31 | 2021-05-04 | 郑州高新生物技术有限公司 | 一种基于二代测序的人类y-str检测方法及其应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2022268283B2 (en) | Phenotype/disease specific gene ranking using curated, gene library and network based data structures | |
KR102349921B1 (ko) | 시료 미생물의 동정 및 분류 방법 | |
Troyanskaya et al. | Sequence complexity profiles of prokaryotic genomic sequences: A fast algorithm for calculating linguistic complexity | |
Erickson et al. | DNA barcoding in land plants: developing standards to quantify and maximize success | |
US11809498B2 (en) | Optimizing k-mer databases by k-mer subtraction | |
CN114708910B (zh) | 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法 | |
CN115631789B (zh) | 一种基于泛基因组的群体联合变异检测方法 | |
CN107247890A (zh) | 一种用于临床诊断和预测的基因数据系统 | |
Rachtman et al. | CONSULT: accurate contamination removal using locality-sensitive hashing | |
CN110444253B (zh) | 一种适用于混池基因定位的方法及系统 | |
CN107679365A (zh) | 基于y染色体分子标记高效推断姓氏的方法 | |
CN102618630A (zh) | Y-str的应用 | |
US20160078169A1 (en) | Method of and apparatus for providing information on a genomic sequence based personal marker | |
US11475980B2 (en) | Methods of analyzing massively parallel sequencing data | |
CN113362895A (zh) | 一种预测抗癌药物反应相关基因的综合分析方法 | |
CN107977550A (zh) | 一种基于压缩的快速分析致病基因算法 | |
US20140019062A1 (en) | Nucleic Acid Information Processing Device and Processing Method Thereof | |
CN112885407B (zh) | 一种基于二代测序的微单倍型检测分型系统和方法 | |
CN107868843B (zh) | 一种筛选绿豆高多态性分子标记位点的方法 | |
CN111028885A (zh) | 一种检测牦牛rna编辑位点的方法及装置 | |
Marić et al. | Approaches to metagenomic classification and assembly | |
Esim et al. | Determination of malignant melanoma by analysis of variation values | |
CN114634988B (zh) | 一组用于东亚群体生物地理来源鉴识研究的snp位点及方法 | |
CN111118168A (zh) | 用于推断中国西北和毗邻中亚国家主体民族的snp标记组合 | |
Hu et al. | Biological discovery and consumer genomics activate latent privacy risk in functional genomics data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180209 |