CN110273005A - 一种基于snp分型的与古人比较相似性的方法 - Google Patents

一种基于snp分型的与古人比较相似性的方法 Download PDF

Info

Publication number
CN110273005A
CN110273005A CN201910442347.4A CN201910442347A CN110273005A CN 110273005 A CN110273005 A CN 110273005A CN 201910442347 A CN201910442347 A CN 201910442347A CN 110273005 A CN110273005 A CN 110273005A
Authority
CN
China
Prior art keywords
sample
crowd
ancients
compared
snp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910442347.4A
Other languages
English (en)
Inventor
李鹰翔
姚笑天
王理中
吴晓立
陈钢
郑强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Morning Know Technology Co Ltd
Original Assignee
Shenzhen Morning Know Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Morning Know Technology Co Ltd filed Critical Shenzhen Morning Know Technology Co Ltd
Priority to CN201910442347.4A priority Critical patent/CN110273005A/zh
Publication of CN110273005A publication Critical patent/CN110273005A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公布了生物信息技术领域的一种基于SNP分型的与古人比较相似性的方法,获取参考人群样本的SNP分型结果,获取待比较的古人样本的SNP分型结果;获取外围的非洲人群样本的SNP分型结果;获取待测样本、参考人群样本、待比较的古人样本以及外围的非洲人群样本进行合并的结果;根据所述相似性,获得显著相似的结果,得到相似性程度;计算所述待测样本的SNP分型结果相比参考人群与古人样本相似性;可以针对性的利用SNP分型结果,对待测样本与古人相似性进行比较,可以广泛的应用在多个不同的领域,例如在考古学方面可以利用该技术对待检测样本与古人比较后,根据被比较的古人的已知来源,从基因层面给出待测考古对象的潜在来源。

Description

一种基于SNP分型的与古人比较相似性的方法
技术领域
本发明涉及生物信息技术领域,具体为一种基于SNP分型的与古人比较相似性的方法。
背景技术
SNP是单核苷酸多态性(Single Nucleotide Polymorphism)的简写,是指基因组上单个核苷酸变异,即A、T、C、G四种碱基的互相改变,形成基因组上同一位置会有多种碱基存在的多态性;
SNP基因分型指的是确定SNP的碱基对类型,除了未检出情况,总共有4*4=16种可能结果。基因分型的不同,可能导致样本的表型不同;
SNP在人群中广泛存在,多态性丰富,是很好的遗传标记物。尤其高通量的SNP检测方法出现之后,被广泛用于生物信息学的分析;
随着高通量的SNP微阵列技术(micro array)以及第二代测序技术(NextGeneration Sequencing,NGS)的发展,人类基因的SNP分型结果已经可以快捷、准确并且低成本的获得。
其中,微阵列(micro array)也被称为寡核苷酸阵列(Oligonucleitide array),属于生物芯片中的一种。该技术的原理是在固体表面上集成已知序列的基因探针,被测生物细胞或组织中大量标记的核酸序列与上述探针阵列进行杂交以后,通过检测相应位置杂交探针来实现基因信息的快速检测。目前成熟商用的微阵列技术已经可以一次性对上百万的SNP位点进行准确分型。
第二代测序技术的核心是边测序边合成测序,通过捕捉新合成的末端的标记来确定DNA的序列。现今使用的第二代测序具有费用低、通量高、速度快以及便于操作的优点,被广泛用于各种大型基因组研究中。利用第二代测序技术进行全基因组SNP的分型,即可以在检测全基因组的SNP的同时达到很高的准确性。
基于所述的基因相关基础技术的发展,可以提供大量并且准确的SNP分型结果,用以作为生物信息分析的基础数据。本发明实施例提供了一种基于这些SNP分型数据相比参考人群与古人比较的方法,可以得到样本相比参考人群与古人相似性的程度,并进行定量分析。
在实现本发明过程中,发明人发现相关技术存在以下问题:随着技术的发展成熟,目前由微阵列芯片、二代测序等都可以快速地对DNA样本进行SNP分型,但是如何针对性的利用SNP分型结果进行信息分析,挖掘其中的隐含的数据,应用于其它场景仍然有待研究,为此,我们提出一种基于SNP分型的与古人比较相似性的方法。
发明内容
本发明的目的在于提供一种基于SNP分型的与古人比较相似性的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于SNP分型的与古人比较相似性的方法,该基于SNP分型的与古人比较相似性的方法包括如下步骤:
获取待测样本的SNP分型结果;
获取参考人群样本的SNP分型结果:
获取待比较的古人样本的SNP分型结果;
获取外围的非洲人群样本的SNP分型结果;
获取待测样本、参考人群样本、待比较的古人样本以及外围的非洲人群样本进行合并的结果;
计算所述待测样本的SNP分型结果相比参考人群与古人样本相似性;
根据所述相似性,获得显著相似的结果,得到相似性程度。
(1)使用芯片或测序技术,获得待测样本的SNP分型结果,转换成特定格式;
(2)从国际项目中,获取跟中国人有关的人群样本的基因数据,提取其SNP分型结果,转换成特定格式,并且将所有跟中国人相关的人群的数据进行合并;
(3)从已发表的权威论文中,获取古人的基因数据,提取其SNP分型结果,转换成特定格式;
(4)从公共数据库中,获取作为外围比较的非洲人群样本的SNP分型结果,转换成特定格式;
(5)根据待测样本、参考人群样本、待比较的古人样本以及非洲人群样本的重叠的SNP名字,获取合并后的SNP分型结果,并转换成特定格式;
(6)使用f4统计方法,设定W为待测样本,X为参考人群样本,Y为待比较的古人样本,Z为外围的非洲人群样本,使用AdmixTools的qpDstat功能,计算出比较相似性结果;
(7)得到的结果包含的类型有Dstat、Zscore、BABA、ABBA、SNP#,根据Zscore,可以进行相似性程度的判断;
(8)设定相似性程度显著的判断标准为Zscore的绝对值大于等于3,即当Zscore大于等于3的行和Zscore小于等于-3的行,表明该行的比较相似性结果具有显著性;
(9)将Zscore大于等于3的行进行输出,得出结论,待测样本W相比参考人群样本X,更接近古人样本Y。且Zscore越大,相似性越大;
(10)将Zscore小于等于-3的行进行输出,得出结论,参考人群样本X相比待测样本W,更接近古人样本Y。且Zscore越小,相似性越大;
(11)如果Zscore的绝对值小于3,得出结论,待测样本W与参考人群样本X,没有谁更接近古人样本Y;
(12)将所有结果格式化后输出
与现有技术相比,本发明的有益效果是:
该基于SNP分型的与古人比较相似性的方法,可以针对性的利用SNP分型结果,对待测样本与古人相似性进行比较,可以广泛的应用在多个不同的领域,例如在考古学方面可以利用该技术对待检测样本与古人比较后,根据被比较的古人的已知来源,从基因层面给出待测考古对象的潜在来源,上述遗传出生地的预测方法开创性的拓展了关于SNP分型结果的应用,是该领域的突破性进展,为各行业提供可靠并且准确的数据支持,具有良好的应用前景。
附图说明
图1为本发明实施例的计算相似性的一个实施例示意图;
图2为本发明实施例提供的当Zscore大于等于3时给出的结果展示;
图3为本发明实施例提供的当Zscore小于等于-3时给出的结果展示;
图4为本发明实施例提供的当Zscore包含了大于等于3和小于等于-3时给出的结果展示;
图5为本发明实施例提供的当Zscore的绝对值小于3时给出的结果展示。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
请参阅图1-5,本发明提供一种技术方案:一种基于SNP分型的与古人比较相似性的方法,该基于SNP分型的与古人比较相似性的方法包括如下步骤:
获取待测样本的SNP分型结果:
该SNP分型结果可以通过以上实施例公开的一种或者多种方式进行基因检测后获得,转换成eigenstrat格式,得到user.ind/geno/snp;
获取参考人群样本的SNP分型结果:
所选取的参考人群样本可以包含任一现代人的人群,转换成eigenstrat格式,得到ref.ind/geno/snp;
获取待比较的古人样本的SNP分型结果:
所选取的待比较的古人样本可以包含任一非现代人的古代人群,转换成eigenstrat格式,得到ancient.ind/geno/snp;
获取外围的非洲人群样本的SNP分型结果:
所选取的外围的非洲人群样本是现代人的非洲人群,转换成eigenstrat格式,得到african.ind/geno/snp;
获取待测样本、参考人群样本、待比较的古人样本以及外围的非洲人群样本进行合并的结果:
使用AdmixTools中的mergeit功能,根据各样本的数据,找到它们共有的SNP名字,获得重叠的SNP名字名单,将所有样本的数据都提取该名单的SNP的基因分型结果,然后将所有样本进行合并,设置参数:
geno1:1.geno
snp1:1.snp
ind1:1.ind
geno2:2.geno
snp2:2.snp
ind2:2.ind
genooutfilename:3.geno
snpoutfilename:3.snp
indoutfilename:3.ind
转换成特定的eigenstrat格式,得到user.ref.ancient.african.ind/geno/snp;
计算所述待测样本的SNP分型结果相比参考人群与古人样本相似性:
使用AdmixTools的qpDstat功能,设置参数如下:
genotypename:3.geno
snpname:3.snp
indivname:3.ind
popfilename:3.pop
f4mode:YES
得到f4统计方法计算的结果;
根据所述相似性,获得显著相似的结果,得到相似性程度,根据f4统计方法计算的结果,获得每组比较的相关值;示例结果如下:
根据Z score的大小,设定阈值为Z score的绝对值要大于等于3。
当Zscore大于等于3时得出结论,待测样本W相比参考人群样本X,更接近古人样本Y。且Zscore越大,相似性越大;
当Zscore小于等于-3时得出结论,参考人群样本X相比待测样本W,更接近古人样本Y。且Zscore越小,相似性越大;
当Zscore的绝对值小于3,得出结论,待测样本W与参考人群样本X,没有谁更接近古人样本Y。
综上所述,本发明实施例提供的比较相似性方法,使用全基因组检测的SNP分型作为数据基础,结合参考人群样本、古人样本、外围的非洲样本,基于f4统计检测,对样本与古人的相似性进行计算,给出相似性的程度。
该预测的祖源成分可以在许多不同的领域中使用。例如,考古学、民族研究、罕见人群研究等领域,为这些领域或者行业提供全新并且可靠的帮助
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (1)

1.一种基于SNP分型的与古人比较相似性的方法,其特征在于:该基于SNP分型的与古人比较相似性的方法包括如下步骤:
获取待测样本的SNP分型结果;
获取参考人群样本的SNP分型结果;
获取待比较的古人样本的SNP分型结果;
获取外围的非洲人群样本的SNP分型结果;
获取待测样本、参考人群样本、待比较的古人样本以及外围的非洲人群样本进行合并的结果;
计算所述待测样本的SNP分型结果相比参考人群与古人样本相似性;
根据所述相似性,获得显著相似的结果,得到相似性程度。
(1)使用芯片或测序技术,获得待测样本的SNP分型结果,转换成特定格式;
(2)从国际项目中,获取跟中国人有关的人群样本的基因数据,提取其SNP分型结果,转换成特定格式,并且将所有跟中国人相关的人群的数据进行合并;
(3)从已发表的权威论文中,获取古人的基因数据,提取其SNP分型结果,转换成特定格式;
(4)从公共数据库中,获取作为外围比较的非洲人群样本的SNP分型结果,转换成特定格式;
(5)根据待测样本、参考人群样本、待比较的古人样本以及非洲人群样本的重叠的SNP名字,获取合并后的SNP分型结果,并转换成特定格式;
(6)使用f4统计方法,设定W为待测样本,X为参考人群样本,Y为待比较的古人样本,Z为外围的非洲人群样本,使用AdmixTools的qpDstat功能,计算出比较相似性结果;
(7)得到的结果包含的类型有Dstat、Zscore、BABA、ABBA、SNP#,根据Zscore,可以进行得到相似性程度的判断;
(8)设定相似性程度显著的判断标准为Zscore的绝对值大于等于3,即当Zscore大于等于3的行和Zscore小于等于-3的行,表明该行的比较相似性结果具有显著性;
(9)将Zscore大于等于3的行进行输出,得出结论,待测样本W相比参考人群样本X,更接近古人样本Y。且Zscore越大,相似性越大;
(10)将Zscore小于等于-3的行进行输出,得出结论,参考人群样本X相比待测样本W,更接近古人样本Y。且Zscore越小,相似性越大;
(11)如果Zscore的绝对值小于3,得出结论,待测样本W与参考人群样本X,没有谁更接近古人样本Y;
(12)将所有结果格式化后输出。
CN201910442347.4A 2019-05-25 2019-05-25 一种基于snp分型的与古人比较相似性的方法 Pending CN110273005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910442347.4A CN110273005A (zh) 2019-05-25 2019-05-25 一种基于snp分型的与古人比较相似性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910442347.4A CN110273005A (zh) 2019-05-25 2019-05-25 一种基于snp分型的与古人比较相似性的方法

Publications (1)

Publication Number Publication Date
CN110273005A true CN110273005A (zh) 2019-09-24

Family

ID=67960227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910442347.4A Pending CN110273005A (zh) 2019-05-25 2019-05-25 一种基于snp分型的与古人比较相似性的方法

Country Status (1)

Country Link
CN (1) CN110273005A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210874A (zh) * 2020-01-07 2020-05-29 北京奇云诺德信息科技有限公司 一种基于基因大数据进行祖源分析预测的算法
CN111681709A (zh) * 2020-06-17 2020-09-18 深圳市早知道科技有限公司 一种设计高密度基因芯片上基因位点的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040229231A1 (en) * 2002-05-28 2004-11-18 Frudakis Tony N. Compositions and methods for inferring ancestry
WO2006089238A2 (en) * 2005-02-18 2006-08-24 Dna Print Genomics Multiplex assays for inferring ancestry
WO2008059165A2 (fr) * 2006-11-15 2008-05-22 Institut Genetique Nantes Atlantique (Igna) Methodes et outils pour determiner l'origine d'un sujet
CN107153776A (zh) * 2017-03-30 2017-09-12 深圳市早知道科技有限公司 一种y单倍群检测方法
CN109346124A (zh) * 2018-10-10 2019-02-15 深圳韦格纳医学检验实验室 基于snp分型的遗传定位方法
CN109402241A (zh) * 2017-08-07 2019-03-01 深圳华大基因研究院 鉴定和分析古dna样本的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040229231A1 (en) * 2002-05-28 2004-11-18 Frudakis Tony N. Compositions and methods for inferring ancestry
WO2006089238A2 (en) * 2005-02-18 2006-08-24 Dna Print Genomics Multiplex assays for inferring ancestry
WO2008059165A2 (fr) * 2006-11-15 2008-05-22 Institut Genetique Nantes Atlantique (Igna) Methodes et outils pour determiner l'origine d'un sujet
CN107153776A (zh) * 2017-03-30 2017-09-12 深圳市早知道科技有限公司 一种y单倍群检测方法
CN109402241A (zh) * 2017-08-07 2019-03-01 深圳华大基因研究院 鉴定和分析古dna样本的方法
CN109346124A (zh) * 2018-10-10 2019-02-15 深圳韦格纳医学检验实验室 基于snp分型的遗传定位方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NICK PATTERSON 等: "Ancient Admixture in Human History", 《GENETICS》 *
于岸洲等: "R语言编程对SNP的分析", 《科技创新导报》 *
宁超: "中国北方古代人群基因组学研究——以新疆下坂地墓地和吉林后套木嘎墓地为例", 《中国博士学位论文全文数据库 (基础科学辑)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210874A (zh) * 2020-01-07 2020-05-29 北京奇云诺德信息科技有限公司 一种基于基因大数据进行祖源分析预测的算法
CN111681709A (zh) * 2020-06-17 2020-09-18 深圳市早知道科技有限公司 一种设计高密度基因芯片上基因位点的方法
CN111681709B (zh) * 2020-06-17 2023-04-28 深圳市早知道科技有限公司 一种设计高密度基因芯片上基因位点的方法

Similar Documents

Publication Publication Date Title
CN103764845B (zh) 用于合成测序中的相保护试剂流排序
US20020137086A1 (en) Method for the development of gene panels for diagnostic and therapeutic purposes based on the expression and methylation status of the genes
CN110029187A (zh) 一种基于竞争性等位pcr构建水稻分子标记图谱的方法及利用其进行育种的应用
CN113278712B (zh) 分析绵羊毛色的基因芯片、分子探针组合、试剂盒及应用
Pinto et al. Computational approaches for detection and quantification of A-to-I RNA-editing
CN110656157B (zh) 用于高通量测序样本溯源的质控品及其设计和使用方法
CN106480221B (zh) 基于基因拷贝数变异位点对林木群体基因型分型的方法
CN110273005A (zh) 一种基于snp分型的与古人比较相似性的方法
Smart et al. A novel phylogenetic approach for de novo discovery of putative nuclear mitochondrial (pNumt) haplotypes
CN106702010A (zh) 一种遗传标记组合、个体基因身份证、二维码、试剂盒及其用途
CN109346124A (zh) 基于snp分型的遗传定位方法
CN105349659B (zh) 一套适于不结球白菜品种核酸指纹数据库构建的核心snp标记及其应用
Stackpole Multi-feature ensemble learning on cell-free dna for accurately detecting and locating cancer
CN106047990A (zh) 一种基于两核苷酸合成测序的pcr产物snp分型/突变检测方法
US6994965B2 (en) Method for displaying results of hybridization experiment
CN114420205A (zh) 基于二代测序的高通量微单倍型检测分型系统和方法
CN113293220A (zh) 分析绵羊耳部大小的基因芯片、分子探针组合、试剂盒及应用
CN105779581A (zh) 一套适于大白菜品种核酸指纹数据库构建的核心snp标记及其应用
CN110305947A (zh) 染色体长片段插入的检测方法及基于MassARRAY平台的长片段插入检测方法
CN110305945A (zh) 一种基于二代测序技术的游离线粒体dna突变检测技术
CN117089636B (zh) 分析山羊肉用性能的分子标记组合及应用
CN108588198A (zh) 一种用于副猪嗜血杆菌分子分型的全基因组测序方法
CN117778565B (zh) Vte风险评估的检测试剂盒及应用
CN111128297B (zh) 一种基因芯片的制备方法
CN117089633B (zh) 分析山羊绒毛有无的分子标记组合及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190924

WD01 Invention patent application deemed withdrawn after publication