CN106570350B - 单核苷酸多态位点分型算法 - Google Patents

单核苷酸多态位点分型算法 Download PDF

Info

Publication number
CN106570350B
CN106570350B CN201510955436.0A CN201510955436A CN106570350B CN 106570350 B CN106570350 B CN 106570350B CN 201510955436 A CN201510955436 A CN 201510955436A CN 106570350 B CN106570350 B CN 106570350B
Authority
CN
China
Prior art keywords
algorithm
allele
genotype
sample
parting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510955436.0A
Other languages
English (en)
Other versions
CN106570350A (zh
Inventor
金力
李士林
王一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201510955436.0A priority Critical patent/CN106570350B/zh
Publication of CN106570350A publication Critical patent/CN106570350A/zh
Application granted granted Critical
Publication of CN106570350B publication Critical patent/CN106570350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于生物信息学领域,具体涉及用于从原始测序数据中对单核苷酸多态位点(Single nucleotide polymorphisms,SNP)进行精确分型的算法。该算法基于统计学和群体遗传学原理,可对样本的指定SNP位点进行分型,且对该分型结果进行相应的质量评估。本发明的标准质量分数能精确的评价分型的准确率,且非常容易在实际工作中使用。可进一步作为实际法医学工作中标准化的质量统计量。

Description

单核苷酸多态位点分型算法
技术领域
本发明属于生物信息学领域,涉及单核苷酸多态位点分型算法,尤其涉及一个用于从原始二代测序数据中对SNP进行精确分型的算法。
背景技术
对生物样本的DNA进行精确解读是进行分子生物学、遗传学及法医物证鉴定等领域的前提。
单核苷酸多态遗传标记位点(Single nucleotide polymorphisms,SNP)是由单个碱基的突变造成。人类基因组上已经发现大约千万级的SNP位点,并且证明其与众多表型、疾病等相关联。
第二代测序技术是目前最流行的DNA测序分型方法。通过使用第二代测序技术,大量的原始人类基因组测序数据在近年来被产生。因此,实践中,需要创建可对这些SNP位点进行精确分型的算法。
基于现有技术的现状,本申请的发明人拟提供一种单核苷酸多态位点分型算法,尤其是能够进行从第二代测序数据中精确分型特定SNP位点的算法。
发明内容
本发明的目的在于提供一种能够进行从第二代测序数据中精确分型特定SNP位点的算法。
本发明提供了进行精确分型特定SNP位点的算法。
本发明通过构建二项分布统计学模型,对SNP位点的等位基因在人群中的分布进行模拟,精确的推测出个体的基因分型。本算法提供了对分型结果的质量评估,从而提供了二代测序数据背景下的质量评价体系。
本发明中,软件基于C/C++语言,适用于linux或windows系统。
更具体的,本发明的单核苷酸多态位点分型算法,其包括步骤:
给定一个SNP位点,本发明的实施例中,分别提取每个样本的两个等位基因的有效乘数(the effective base depth,简写EBD):
对于一个群体,第i个个体的参考等位基因(reference allele)与交互等位基因(alternative allele)的EBD分别为ri和ai。对三种可能的基因型RR、RA、AA,本发明中,假设它们在测序中分别有一个固定的突变等位基因出现率,分别为p(RR)、p(RA)和p(AA);理想情况下p(RR)接近0,p(RA)接近0.5,p(AA)接近1;假设等位基因频率服从哈迪-温伯格平衡,同时有固定的交互等位基因频率(alternative allele frequency)fre,因此:
f(RR)=(1-fre)2
f(RA)=2fre(1-fre)
f(AA)=fre2
本发明中,实际样本由于其基因型未知,认为它是由三种等位基因叠加而成,因此,SNP模型有如下概率模型:
当上述模型建立完成后,引入隐变量:w(RR)i、w(RA)i、w(AA)i来表述这个个体的三种基因型概率;使用Expectation-Maximization(EM)算法进行最大似然估计,其E步骤和M步骤分别是:
E步骤:
M步骤:
最后,对于第i个样本,取w(RR)i、w(RA)i、w(AA)i中最大的基因型作为该个样本的基因型。
本发明中,还对推测出的样本基因型进行对应的质量评估,其包括:构建一个统计量描述,令所选的基因型对应的1-w(geno)i为该基因型的标准质量分数,表征该位点基因分型的准确率;标准质量分数越高,分型准确率越低。
初步结果显示,所述标准质量分数能精确的评价分型的准确率,且非常容易在实际工作中使用。可进一步作为实际法医学工作中标准化的质量统计量。
为了便于理解,以下将通过具体的实施例对本发明的进行详细地描述。需要特别指出的是,具体实例仅是为了说明,显然本领域的普通技术人员可以根据本文说明,在本发明的范围内对本发明做出各种各样的修正和改变,这些修正和改变也纳入本发明的范围内。
具体实施方式
实施例1:对177个特定SNP位点进行分析,数据为729个中国样本上的原始二代测序数据
使用二代测序中比对软件Burrows-Wheeler Aligner将原始测序数据映射至参考人类基因组上(human reference genome,hg19);
使用本发明算法对所有729个样本的177SNP位点进行分型,对于其中某个样本的每个SNP位点而言:
首先建立模型,分别提取两个等位基因的有效乘数EBD:
对于一个群体,第i个个体的参考等位基因与交互等位基因的EBD分别为ri和ai;对三种可能的基因型RR、RA、AA,假设它们在测序中分别有一个固定的突变等位基因出现率,分别为p(RR)、p(RA)和p(AA);理想情况下p(RR)接近0,p(RA)接近0.5,p(AA)接近1;假设等位基因频率服从哈迪-温伯格平衡,同时有固定的交互等位基因频率fre,则:
f(RR)=(1-fre)2
f(RA)=2fre(1-fre)
f(AA)=fre2
实际样本由于其基因型未知,认为它是由三种等位基因叠加而成,因此SNP模型具有如下概率模型:
为了估计上述概率模型的参数,引物隐变量:w(RR)i、w(RA)i、w(AA)i表述所述个体的三种基因型概率;使用Expectation-Maximization(EM)算法进行最大似然估计,其E步骤和M步骤分别是:
E步骤:
M步骤:
通过EM算法对w(RR)i、w(RA)i、w(AA)i进行参数估计,i代表第i样本。取w(RR)i、w(RA)i、w(AA)i中最大的基因型作为该样本的基因型,从而完成对该样本中特定SNP位点的基因分型。同时,令所选的基因型对应的1-w(geno)i为该基因型的标准质量分数,表征该位点基因分型的准确率,标准质量分数越高,分型准确率越低。
对所有729个样本的所有177个SNP位点,重复上述步骤,从而得到所有基因分型结果与相应的标准质量分数。
通过对482个基因型进行Sanger法测序方法进行验证,证明分型结果正确。

Claims (3)

1.一种单核苷酸多态位点分型算法,其特征在于,所述算法是对样本的指定SNP位点进行精确分型的算法,其中,通过构建二项分布统计学模型,对SNP位点的等位基因在人群中的分布进行模拟,从而精确的推测出个体的基因分型;
所述的算法包括步骤:
(1)建立模型:给定一个SNP位点,分别提取每个样本的两个等位基因的有效乘数EBD:
对于一个群体,第i个个体的参考等位基因(reference allele)与交互等位基因(alternative allele)的EBD分别为ri和ai;对三种可能的基因型RR、RA、AA,假设它们在测序中分别有一个固定的突变等位基因出现率,分别为p(RR)、p(RA)和p(AA);理想情况下p(RR)接近0,p(RA)接近0.5,p(AA)接近1;假设等位基因频率服从哈迪-温伯格平衡,同时有固定的交互等位基因频率(alternative allele frequency)fre,因此:
f(RR)=(1-fre)2
f(RA)=2fre(1-fre)
f(AA)=fre2
实际样本由于其基因型未知,认为它是由三种等位基因叠加而成,因此SNP模型具有如下概率模型:
(2)最大似然估计:引入隐变量:w(RR)i、w(RA)i、w(AA)i表述所述个体的三种基因型概率;使用Expectation-Maximization(EM)算法进行最大似然估计,其E步骤和M步骤分别是:
E步骤:
M步骤:
(3)样本基因型确定:对于第i个样本,取w(RR)i、w(RA)i、w(AA)i中最大的基因型作为该样本的基因型。
2.如权利要求1所述的算法,其特征在于,所述算法中还包括对分型结果的质量评估,其包括:构建一个统计量描述,令所选的基因型对应的1-w(geno)i为该基因型的标准质量分数,表征该位点基因分型的准确率,标准质量分数越高,分型准确率越低。
3.如权利要求1-2中任一项所述的算法在用于分析第二代测序技术产生的测序数据中的应用。
CN201510955436.0A 2015-12-17 2015-12-17 单核苷酸多态位点分型算法 Active CN106570350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510955436.0A CN106570350B (zh) 2015-12-17 2015-12-17 单核苷酸多态位点分型算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510955436.0A CN106570350B (zh) 2015-12-17 2015-12-17 单核苷酸多态位点分型算法

Publications (2)

Publication Number Publication Date
CN106570350A CN106570350A (zh) 2017-04-19
CN106570350B true CN106570350B (zh) 2019-04-05

Family

ID=58508647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510955436.0A Active CN106570350B (zh) 2015-12-17 2015-12-17 单核苷酸多态位点分型算法

Country Status (1)

Country Link
CN (1) CN106570350B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493919B (zh) * 2018-10-31 2023-04-14 中国石油大学(华东) 基于条件概率的基因型指派方法
WO2020227952A1 (zh) * 2019-05-15 2020-11-19 深圳华大基因股份有限公司 基于测序数据的碱基突变检测方法、装置及存储介质
CN110706746B (zh) * 2019-11-27 2021-09-17 北京博安智联科技有限公司 一种dna混合分型数据库比对算法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101210266A (zh) * 2006-12-30 2008-07-02 苏州市长三角系统生物交叉科学研究院有限公司 基因组遗传标记间的相互作用与遗传性状相关性的测定方法
CN101539967A (zh) * 2008-12-12 2009-09-23 深圳华大基因研究院 一种单核苷酸多态性检测方法
CN103914631A (zh) * 2014-02-26 2014-07-09 中国农业大学 一种基于snp芯片的综合基因组育种值估计方法及应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101210266A (zh) * 2006-12-30 2008-07-02 苏州市长三角系统生物交叉科学研究院有限公司 基因组遗传标记间的相互作用与遗传性状相关性的测定方法
CN101539967A (zh) * 2008-12-12 2009-09-23 深圳华大基因研究院 一种单核苷酸多态性检测方法
CN103914631A (zh) * 2014-02-26 2014-07-09 中国农业大学 一种基于snp芯片的综合基因组育种值估计方法及应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DNA修复基因ERCC1 C19007T多态与宫颈癌;熊兴东等;《实用妇产科杂志》;20100430;第26卷(第4期);第286-289页

Also Published As

Publication number Publication date
CN106570350A (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
US20200098445A1 (en) Ancestral human genomes
Bocklandt et al. Bionano genome mapping: high-throughput, ultra-long molecule genome analysis system for precision genome assembly and haploid-resolved structural variation discovery
CN107451419B (zh) 通过计算机程序模拟产生简化dna甲基化测序数据的方法
CN113168886A (zh) 用于使用神经网络进行种系和体细胞变体调用的系统和方法
US20210332354A1 (en) Systems and methods for identifying differential accessibility of gene regulatory elements at single cell resolution
CN106446597B (zh) 多物种特征选择及鉴定未知基因的方法
Baird A simulation study of multilocus clines
CN106570350B (zh) 单核苷酸多态位点分型算法
CN106480221B (zh) 基于基因拷贝数变异位点对林木群体基因型分型的方法
CN110010195B (zh) 一种探测单核苷酸突变的方法及装置
Mailund et al. Whole genome association mapping by incompatibilities and local perfect phylogenies
Haimovich Methods, challenges, and promise of next-generation sequencing in cancer biology
Yuan et al. Models, methods and tools for ancestry inference and admixture analysis
Whelan Species tree inference in the age of genomics
KR101810527B1 (ko) 10,000개 이상 유전자 간의 전사조절 네트워크 구축 알고리즘과 이를 이용한 약물반응 원인 유전자 발굴 방법
CN109754843B (zh) 一种探测基因组小片段插入缺失的方法及装置
CN106650311A (zh) 一种微生物的检测识别方法和系统
Schiavinato et al. JLOH: Inferring loss of heterozygosity blocks from sequencing data
Bohutínská et al. Population Genomic Analysis of Diploid-Autopolyploid Species
Kimmel et al. Association mapping and significance estimation via the coalescent
Stram et al. SNP Imputation for Association Studies
CN111128297B (zh) 一种基因芯片的制备方法
CN113674799B (zh) 一种基因网络数量性状定位检测方法和系统
JP2008262427A (ja) Snpを用いた連鎖解析における、候補snpの絞り込み方法、そのプログラム、その記録媒体、及び候補snp絞り込み装置
Zararsiz Development and application of novel machine learning approaches for RNA-seq data classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant