CN111883207B - 一种生物学亲缘关系的鉴定方法 - Google Patents

一种生物学亲缘关系的鉴定方法 Download PDF

Info

Publication number
CN111883207B
CN111883207B CN202010759890.XA CN202010759890A CN111883207B CN 111883207 B CN111883207 B CN 111883207B CN 202010759890 A CN202010759890 A CN 202010759890A CN 111883207 B CN111883207 B CN 111883207B
Authority
CN
China
Prior art keywords
relationship
detected
genetic
sample
relationships
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010759890.XA
Other languages
English (en)
Other versions
CN111883207A (zh
Inventor
曾丰波
杨功达
胡秀弟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Lansha Medical Laboratory Co ltd
Original Assignee
Wuhan Lansha Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Lansha Medical Laboratory Co ltd filed Critical Wuhan Lansha Medical Laboratory Co ltd
Priority to CN202010759890.XA priority Critical patent/CN111883207B/zh
Publication of CN111883207A publication Critical patent/CN111883207A/zh
Application granted granted Critical
Publication of CN111883207B publication Critical patent/CN111883207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Ecology (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种生物学亲缘关系的鉴定方法,包括如下步骤:(a)获得待检物种的参考基因组信息,记为Ref;(b)获得待检样本P1和P2的每个多态性位点的变异类型并统计每个多态性位点上的变异类出现次数的分布;(c)按照式I计算待检样本P1和P2的亲缘关系值:(d)获取不同亲缘关系的亲缘关系值:(e)将待检样本P1和P2的亲缘关系值分别与不同亲缘关系样本组的亲缘关系值按照式II进行T检验,得到不同亲缘关系的置信区间;(f)待检样本P1和P2亲缘关系的确定;该鉴定方法中待检样本处理简单,成本低,效率高、准确率的特点;并适用于具有大型基因组的有性繁殖物种,适应范围广。

Description

一种生物学亲缘关系的鉴定方法
技术领域
本发明涉及亲缘关系鉴定技术领域,具体涉及一种生物学亲缘关系的鉴定方法。
背景技术
亲缘关系鉴定是指依照遗传学基本原理,采用现当代化DNA分型检测技术综合评定样本之间是否存在亲缘关系,个体的差异最终是由于遗传物质(核酸)的差异造成的。
现有的个体识别方法包括:
公安和司法体系下是以STR这种变异来进行人的个体识别的;获得个体的DNA样本,对DNA样本的特定STR位点进行长度多态性分型,根据个体在STR位点的分型结果对个体进行区分和识别,通常选取20~30个个体之间有多态性的STR位点。
采用SNP(或Indel)作为个体识别标识,获得个体的DNA样本,对每个SNP(或Indel)位点进行分型,根据分型结果对个体进行区分和识别。
然而,现有方法存在前期处理过程复杂,检测成本较高的问题。
发明内容
针对现有技术中的缺陷,本发明提供一种生物学亲缘关系的鉴定方法,该鉴定方法前期处理简单、鉴定成本较低;此外,该鉴定方法适用于具有大型基因组的有性繁殖物种,适应范围广。
为了实现本发明的上述目的,特采用以下技术方案:
本发明提供一种生物学亲缘关系的鉴定方法,所述鉴定方法包括如下步骤:
(a)获得待检物种的参考基因组信息,记为Ref;
(b)获得待检样本P1和P2的每个多态性位点的变异类型并统计每个多态性位点上的变异类出现次数的分布;
(c)按照式I计算待检样本P1和P2的亲缘关系值:
V=cor(RF(P1),RF(P2)) 式I;
式I中,V为待检样本的亲缘关系值,RF(P1)为待检样本P1在每个多态性位点上RF值组成的向量,RF(P2)为待检样本P2在每个多态性位点上RF值组成的向量,RF值为待检样本与Ref中在同一多态性位点具有相同变异类型出现的次数/待检样本所有变异类型出现次数;
(d)获取不同亲缘关系的亲缘关系值:
获得待检种群多态性位点变异类型的频率作为先验频率信息;
根据先验频率信息模拟不同种类亲缘关系的N对样本组;并按照式I获得每对样本的亲缘关系值记为Vi(k),其中,i为自然数,每个自然数代表一种亲缘关系,k为1,2,3…N;
(e)将待检样本P1和P2的亲缘关系值分别与不同亲缘关系样本组的亲缘关系值按照式II进行T检验,得到不同亲缘关系的置信区间,记为CI(Ti);
Ti=t.test((V-Vi)/mean(Vi),conf.level=0.99) 式II;
式II中,Vi为同一亲缘关系N对样本组的亲缘关系值的集合;
(f)待检样本P1和P2亲缘关系的确定:
计算每个CI(Ti)的中间值的绝对值,选择最小的绝对值对应的置信区间,该置信区间对应的亲缘关系即为待检样本P1和P2的亲缘关系。
优选地,亲缘关系的种类包括同一个体关系、亲子关系、全同胞关系、半同胞关系、祖孙关系、叔侄关系、曾祖孙关系;
所述Vi(k)中i为0,1,2,…6,且依次分别代表同一个体关系、亲子关系、全同胞关系、半同胞关系、祖孙关系、叔侄关系、曾祖孙关系。
优选地,按亲缘关系由近到远依次为同一个体关系、亲子关系、全同胞关系、半同胞关系、祖孙关系、叔侄关系、曾祖孙关系;其中,亲子关系和全同胞关系为一组,半同胞关系、祖孙关系、叔侄关系为一组,在鉴定过程中,如果待测样本的亲缘关系确定为某一组中的某一亲缘关系时,其代表待测样本的亲缘关系可以为相应组中的任意一种亲缘关系。
优选地,所述步骤(d)中,N不低于50。
优选地,所述步骤(b)中,获得待检样本每个多态性位点的变异类型包括:
采用DNA测序仪器对待检样本进行全基因组测序。
优选地,所述测序数量不低于1M。
优选地,所述变异类型为包括SNP、Indel和STR。
优选地,所述步骤(b)中,采用多态性位点识别软件统计每个多态性位点上的变异类出现次数的分布。
优选地,所述物种包括人、猪、马、牛和羊。
本发明的有益效果体现在:
本发明生物学亲缘关系的鉴定方法,待检样本前期处理简单,具有成本低,效率高、准确率的特点;此外,该鉴定方法适用于具有大型基因组的有性繁殖物种,适应范围广。
具体实施方式
下面将对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
本发明实施例提供一种生物学亲缘关系的鉴定方法,该鉴定方法包括如下步骤:
(a)获得待检物种的参考基因组信息,记为Ref;
(b)采用DNA测序仪器获得待检样本P1和P2的每个多态性位点的基因组序列并采用多态性位点识别软件统计每个多态性位点上的变异类出现次数的分布;
(c)按照式I计算待检样本P1和P2的亲缘关系值:
V=cor(RF(P1),RF(P2)) 式I;
式I中,V为待检样本的亲缘关系值,RF(P1)为待检样本P1在每个多态性位点上RF值组成的向量,RF(P2)为待检样本P2在每个多态性位点上RF值组成的向量,RF值为待检样本与Ref中在同一多态性位点具有相同变异类型出现的次数/待检样本所有变异类型出现次数;
(d)获取不同亲缘关系的亲缘关系值:
获得待检种群多态性位点变异类型的频率作为先验频率信息;
根据先验频率信息模拟不同种类亲缘关系的N对样本组;并按照式I获得每对样本的亲缘关系值记为Vi(k),其中,i为自然数,每个自然数代表一种亲缘关系,k为1,2,3…N;
(e)将待检样本P1和P2的亲缘关系值分别与不同亲缘关系样本组的亲缘关系值按照式II进行T检验,得到不同亲缘关系的置信区间,记为CI(Ti);
Ti=t.test((V-Vi)/mean(Vi),conf.level=0.99) 式II;
式II中,Vi为同一亲缘关系N对样本组的亲缘关系值的集合;
(f)待检样本P1和P2亲缘关系的确定:
计算每个CI(Ti)的中间值的绝对值,选择最小的绝对值对应的置信区间,该置信区间对应的亲缘关系即为待检样本P1和P2的亲缘关系。
本发明上述生物学亲缘关系的鉴定方法,待检样本前期处理简单,具有成本低,效率高、准确率的特点;此外,该鉴定方法适用于具有大型基因组的有性繁殖物种,适应范围广。
本发明对亲缘关系不作严格限制,例如,亲缘关系的种类可以包括同一个体关系、亲子关系、全同胞关系、半同胞关系、祖孙关系、叔侄关系、曾祖孙关系;
Vi(k)中i为0,1,2,…6,且依次分别代表同一个体关系、亲子关系、全同胞关系、半同胞关系、祖孙关系、叔侄关系、曾祖孙关系。
在本发明中,对N的数值大小不作严格限制,优选地,N不低于50。通过对提高N值,能够更加准确确定判定阈值,提高鉴定准确率。
在一实施方式中,获得待检样本每个多态性位点的变异类型包括:
采用DNA测序仪器对待检样本进行全基因组测序,测序数量不低于1M。
在一实施方式中,采用多态性位点识别软件统计每个多态性位点上的变异类出现次数的分布。
本发明中鉴定方法不仅适合物种人,同时也能够对具有大型基因组的有性繁殖的物种,例如,猪、马、牛、羊等。
下面结合具体的实施例对本发明的技术方案作进行一步详细说明。
实施例1
本实施例为中国人群中同一个人的两个待检样本进行鉴定,具体包括如下步骤:
(a)获得人的参考基因组hg38信息,记为Ref;
(b)在同一个人身上两次取血液样本,记为待检样本P1和待检样本P2;
分别提取两个待检样本的DNA,并采用illumina仪器获得待检样本全基因组序列,分别得到7.2M(0.684X)和14M(0.71X)的reads数据,并采用bcftools统计每个多态性位点上的变异类出现次数的分布;
(c)按照式I计算待检样本P1和P2的亲缘关系值,计算结果为V=0.629:
V=cor(RF(P1),RF(P2)) 式I;
式I中,V为待检样本的亲缘关系值,RF(P1)为待检样本P1在每个多态性位点上RF值组成的向量,RF(P2)为待检样本P2在每个多态性位点上RF值组成的向量,RF值为待检样本与Ref中在同一多态性位点具有相同变异类型出现的次数/待检样本所有变异类型出现次数;
(d)获取不同亲缘关系的亲缘关系值:
从千人基因组东亚人群的数据库获得中国人群多态性位点变异类型的频率作为先验频率信息,并采用bcftools统计每个多态性位点上的变异类出现次数的分布;
根据先验频率信息模拟不同种类亲缘关系的N对样本组;并按照式I获得每个样本组的亲缘关系值记为Vi(k),其中,i为i为0,1,2,…6,且依次分别代表同一个体关系、亲子关系、全同胞关系、半同胞关系、祖孙关系、叔侄关系、曾祖孙关系,k为1,2,3…N,N为100;
(e)将待检样本P1和P2的亲缘关系值分别与不同亲缘关系样本组的亲缘关系值按照式II进行T检验,得到不同亲缘关系的置信区间,记为CI(Ti);
Ti=t.test((V-Vi)/mean(Vi),conf.level=0.99) 式II;
式II中,Vi为同一亲缘关系N个样本组的亲缘关系值的集合;
(f)待检样本P1和P2亲缘关系的确定:
计算每个CI(Ti)的中间值的绝对值,选择最小的绝对值对应的置信区间,该置信区间对应的亲缘关系即为待检样本P1和P2的亲缘关系。
通过上述鉴定方法确定两个待检样本为同一个人。
实施例2
本实施例为中国人群中另外同一个人的两个待检样本进行鉴定,该鉴定方法与实施例1中的方法相同;
具体鉴定方法中:计算得到的待检样本的亲缘关系值V=0.612;
CI(T0)为:[-0.02877039.-0.02786887];
CI(T1)为:[0.4397604,0.4412442];
通过上述鉴定方法可确定两个待检样本为同一个人。
实施例3
本实施例为中国人群中亲自关系(母子)的两个待检样本进行鉴定,该鉴定方法与实施例1中的方法相同;
具体鉴定方法中:计算得到的待检样本的亲缘关系值V=0.43;
CI(T0)为:[-0.3641856,-0.3638451];
CI(T1)为:[-0.03836463,-0.03101677];
CI(T4)为:[0.2424932,0.2434186]。
通过上述鉴定方法可确定两个待检样本为亲子关系。
实施例4
本实施例为中国人群中祖孙关系的两个待检样本进行鉴定,该鉴定方法与实施例1中的方法相同;
具体鉴定方法中:计算得到的待检样本的亲缘关系值V=0.3102466;
CI(T1)为:[-0.2482437,-0.2410261];
CI(T4)为:[-0.010448560,-0.001119554];
CI(T6)为:[0.1759254,0.1863874]。
通过上述鉴定方法可确定两个待检样本为祖孙关系。
本发明上述生物学亲缘关系的鉴定方法,待检样本前期处理简单,具有成本低,效率高、准确率的特点;此外,该鉴定方法适用于具有大型基因组的有性繁殖物种,适应范围广。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (8)

1.一种生物学亲缘关系的鉴定方法,其特征在于,包括如下步骤:
(a)获得待检物种的参考基因组信息,记为Ref;
(b)获得待检样本P1和P2的每个多态性位点的变异类型并统计每个多态性位点上的变异类型出现次数的分布;
(c)按照式I计算待检样本P1和P2的亲缘关系值:
V=cor(RF(P1),RF(P2)) 式I;
式I中,V为待检样本P1和P2的亲缘关系值,RF(P1)为待检样本P1在每个多态性位点上RF值组成的向量,RF(P2)为待检样本P2在每个多态性位点上RF值组成的向量,RF值为待检样本与Ref中在同一多态性位点具有相同变异类型出现的次数/待检样本所有变异类型出现次数;
(d)获取不同亲缘关系的亲缘关系值:
获得待检种群多态性位点变异类型的频率作为先验频率信息;
根据先验频率信息模拟不同种类亲缘关系的N对样本组;并按照式I获得每对样本的亲缘关系值记为Vi(k),其中,i为自然数,每个自然数代表一种亲缘关系,k为1,2,3…N;
(e)将待检样本P1和P2的亲缘关系值分别与不同亲缘关系样本组的亲缘关系值按照式II进行T检验,得到不同亲缘关系的置信区间,记为CI(Ti);
Ti=t.test((V-Vi)/mean(Vi),conf.level=0.99) 式II;
式II中,Vi为同一亲缘关系N对样本组的亲缘关系值的集合;
(f)待检样本P1和P2亲缘关系的确定:
计算每个CI(Ti)的中间值的绝对值,选择最小的绝对值对应的置信区间,该置信区间对应的亲缘关系即为待检样本P1和P2的亲缘关系。
2.根据权利要求1所述的鉴定方法,其特征在于,所述亲缘关系的种类包括同一个体关系、亲子关系、全同胞关系、半同胞关系、祖孙关系、叔侄关系、曾祖孙关系;
所述Vi(k)中i为0,1,2,…6,且依次分别代表同一个体关系、亲子关系、全同胞关系、半同胞关系、祖孙关系、叔侄关系、曾祖孙关系。
3.根据权利要求1所述的鉴定方法,其特征在于,所述步骤(d)中,N不低于50。
4.根据权利要求1所述的鉴定方法,其特征在于,所述步骤(b)中,获得待检样本每个多态性位点的变异类型包括:
采用DNA测序仪器对待检样本进行全基因组测序。
5.根据权利要求4所述的鉴定方法,其特征在于,所述测序的 数量不低于1M。
6.根据权利要求1所述的鉴定方法,其特征在于,所述变异类型为包括SNP、Indel和STR。
7.根据权利要求1所述的鉴定方法,其特征在于,所述步骤(b)中,采用多态性位点识别软件统计每个多态性位点上的变异类型出现次数的分布。
8.根据权利要求1所述的鉴定方法,其特征在于,所述物种包括人、猪、马、牛和羊。
CN202010759890.XA 2020-07-31 2020-07-31 一种生物学亲缘关系的鉴定方法 Active CN111883207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010759890.XA CN111883207B (zh) 2020-07-31 2020-07-31 一种生物学亲缘关系的鉴定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010759890.XA CN111883207B (zh) 2020-07-31 2020-07-31 一种生物学亲缘关系的鉴定方法

Publications (2)

Publication Number Publication Date
CN111883207A CN111883207A (zh) 2020-11-03
CN111883207B true CN111883207B (zh) 2022-08-16

Family

ID=73205904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010759890.XA Active CN111883207B (zh) 2020-07-31 2020-07-31 一种生物学亲缘关系的鉴定方法

Country Status (1)

Country Link
CN (1) CN111883207B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115198024B (zh) * 2022-08-24 2023-06-27 温州医科大学 一种生母参与的祖孙关系鉴定方法、系统、设备及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7584058B2 (en) * 2003-02-27 2009-09-01 Methexis Genomics N.V. Genetic diagnosis using multiple sequence variant analysis
CN101838686B (zh) * 2009-12-16 2013-01-16 公安部物证鉴定中心 亲缘关系鉴定装置及方法
JP2020533679A (ja) * 2017-09-07 2020-11-19 リジェネロン・ファーマシューティカルズ・インコーポレイテッドRegeneron Pharmaceuticals, Inc. ヒト集団における関連性を予測するシステム及び方法
WO2019047181A1 (zh) * 2017-09-08 2019-03-14 深圳华大生命科学研究院 基于低深度基因组测序进行基因分型的方法、装置及其用途
CN109971846A (zh) * 2018-11-29 2019-07-05 时代基因检测中心有限公司 使用双等位基因snp靶向下一代测序的非侵入性产前测定非整倍体的方法
CN110335641B (zh) * 2019-06-26 2023-03-28 中山大学 一种四个体组合亲缘关系鉴定方法及装置
CN111091869A (zh) * 2020-01-13 2020-05-01 北京奇云诺德信息科技有限公司 以snp为遗传标记物的亲缘关系鉴定方法

Also Published As

Publication number Publication date
CN111883207A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN113744807B (zh) 一种基于宏基因组学的病原微生物检测方法及装置
AU2019272065B2 (en) Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors (SSEs)
CN109182538B (zh) 奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法
CN113160882B (zh) 一种基于三代测序的病原微生物宏基因组检测方法
US20130166221A1 (en) Method and system for sequence correlation
CN110189796A (zh) 一种绵羊全基因组重测序分析方法
CN111883207B (zh) 一种生物学亲缘关系的鉴定方法
CN115458052A (zh) 基于一代测序的基因突变分析方法、设备和存储介质
CN110970091A (zh) 标签质控的方法及装置
CN109182505B (zh) 奶牛乳腺炎关键SNPs位点rs75762330及2b-RAD基因分型和分析方法
CN109182504B (zh) 奶牛乳腺炎关键SNPs位点rs20438858及2b-RAD基因分型和分析方法
CN116646010B (zh) 人源性病毒检测方法及装置、设备、存储介质
CN110867212A (zh) 一种猪的品种溯源方法及装置
CN117649875B (zh) 一种基于探针捕获技术的分子检测样本质控方法及系统
CN114717337B (zh) 一种细胞交叉污染检测方法及其应用
CN115620810B (zh) 基于第三代基因测序数据的外源插入信息的检测方法和装置
CN115044703B (zh) 一种人冠状病毒HCoV-OC43的MNP标记位点、引物组合物、试剂盒及其应用
CN114875131A (zh) 靶向膜蛋白甲基化作为印记基因综合征标志物的检测方法
NL2021473B1 (en) DEEP LEARNING-BASED FRAMEWORK FOR IDENTIFYING SEQUENCE PATTERNS THAT CAUSE SEQUENCE-SPECIFIC ERRORS (SSEs)
CN117649875A (zh) 一种基于探针捕获技术的分子检测样本质控方法及系统
CN115572770A (zh) 一种通过snp错配率判断亲缘关系的方法
CN116895328A (zh) 一种面向模块化基因结构的进化事件检测方法及系统
CN115074459A (zh) 一种烟草杂交种的特异性指纹图谱开发方法
CN117935922A (zh) 微生物多样性检测方法和系统
CN116004871A (zh) 一种基于特异性序列及snp位点的羊布鲁氏杆菌鉴定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant