CN111091870A - 基因变异位点质量控制方法及系统 - Google Patents

基因变异位点质量控制方法及系统 Download PDF

Info

Publication number
CN111091870A
CN111091870A CN201911312378.4A CN201911312378A CN111091870A CN 111091870 A CN111091870 A CN 111091870A CN 201911312378 A CN201911312378 A CN 201911312378A CN 111091870 A CN111091870 A CN 111091870A
Authority
CN
China
Prior art keywords
variation
sites
gene
single nucleotide
nucleotide polymorphism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911312378.4A
Other languages
English (en)
Other versions
CN111091870B (zh
Inventor
陈飞
徐涛
周凯欣
王友
何顺民
邵健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Chinese Academy of Sciences
Original Assignee
University of Chinese Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Chinese Academy of Sciences filed Critical University of Chinese Academy of Sciences
Priority to CN201911312378.4A priority Critical patent/CN111091870B/zh
Publication of CN111091870A publication Critical patent/CN111091870A/zh
Application granted granted Critical
Publication of CN111091870B publication Critical patent/CN111091870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种基因变异位点质量控制方法及系统。所述基因变异位点质量控制方法包括:获取包含指定人群基因变异位点的数据集;去除数据集中缺失率大于预设缺失率阈值的个体基因数据,得到第一数据子集;获取第一数据子集中基因的单核苷酸多态性变异位点;对单核苷酸多态性变异位点进行处理,得到期望基因变异位点。本发明公开了基因变异位点的质量控制方法,利用该质量控制方法获得了期望的高质量的基因变异位点,进一步提高利用该基因变异位点所制备芯片的精确性。

Description

基因变异位点质量控制方法及系统
技术领域
本申请涉及一种基因变异位点质量控制方法及系统,属于生物医学技术领域。
背景技术
随着人类基因组计划的顺利完成,开启了人类健康与生命科学研究的新时代。生物样本库的不断发展及技术的日趋成熟,更是为人类疾病尤其是重大慢性疾病的研究提供了丰富的样本资源及临床数据支撑。采用基因芯片技术对样本进行基因分型,通过队列基因数据的生物信息学分析去寻找特定的生物标志物,成为人类攻克一系列复杂疾病的强有力的技术手段。通过基因芯片技术获取基因分型数据,其宝贵价值也日益得到人们的理解与重视,世界各国政府及科研单位更是投入大量资源针对特定国家及地区的特定人群队列进行了诸多人群队列的基因分型工作。
由于不同国家和地区的人群在基因型上有很大区别,所以在对样本进行基因分型时,所使用的基因芯片是有针对性的,其针对的是特定的国家和人群。现有技术中,并没有针对亚洲人群的基因芯片。若想制备针对亚洲人群的基因芯片,首先需要获取亚洲人群的基因变异位点,在获取基因变异位点后,由于变异位点中包含大量的低质量的变异位点信息,如不进行质量控制,则会影响获取的基因芯片的精确性。
发明内容
本发明的目的在于,提供一种基因变异位点质量控制方法,以获取高质量的变异位点,同时,本发明还提供了基于该方法的系统。
本发明提供了一种基因变异位点质量控制方法,包括:
获取包含指定人群基因变异位点的数据集;
去除所述数据集中缺失率大于预设缺失率阈值的个体基因数据,得到第一数据子集;
获取所述第一数据子集中基因的单核苷酸多态性变异位点;
对单核苷酸多态性变异位点进行处理,得到期望基因变异位点。
优选地,所述数据集为包含多个中国人的全基因组测序数据的数据集。
优选地,获取所述第一数据子集中基因的单核苷酸多态性变异位点的具体步骤为:
对所述第一数据子集中的基因变异位点进行过滤,获取单核苷酸多态性变异位点和插入缺失变异位点;
去除单核苷酸多态性变异位点和插入缺失变异位点中全部的插入缺失变异位点,保留单核苷酸多态性变异位点。
优选地,所述对单核苷酸多态性变异位点进行处理,具体为:
去除单核苷酸多态性变异位点中,丢失率大于预设最大丢失率阈值的基因变异位点;
去除单核苷酸多态性变异位点中,次等位基因频率小于预设次等位基因频率阈值的基因变异位点;
去除单核苷酸多态性变异位点中,最小质量值小于预设最小质量值阈值的基因变异位点。
进一步地,所述对单核苷酸多态性变异位点进行处理,还包括:
去除单核苷酸多态性变异位点中,测序深度小于预设最小测序深度阈值的基因变异位点。
进一步地,所述对单核苷酸多态性变异位点进行处理,还包括:
去除单核苷酸多态性变异位点中,哈德温伯格平衡参数小于预设哈德温伯格平衡参数阈值的基因变异位点。
本发明还提供了一种基于上述基因变异位点质量控制方法的计算机系统,所述计算机系统被编程以执行上述基因变异位点质量控制方法的步骤。
本发明的基因变异位点质量控制方法,相较于现有技术,具有如下有益效果:
本发明公开了基因变异位点的质量控制方法,以获得期望的高质量的基因变异位点,使得利用该基因变异位点所制备的芯片的精确性高。
本发明使用全基因组测序数据作为原始数据集,可以获得整个基因组的数据,避免基因不全影响后续制备的基因芯片的精确性,同时,由于全基因组测序数据为高分辨率数据,便于从中获取大型、小型全面的变异位点。
本发明使用最大丢失率、次等位基因频率、最小质量值参数、最小测序深度参数、缺失率及哈德温伯格平衡参数对变异位点进行质量控制,可以获取高质量的变异位点,使得利用该基因变异位点所制备的芯片的精确性高。
附图说明
图1为本发明一种基因变异位点质量控制方法的流程图。
具体实施方式
在阐述之前,首先对本发明所涉及的名词及所涉及的公式进行解释:
本发明中的单核苷酸多态性变异位点的丢失率为:全部测序人群中,在该位点未测到的次数与全部人群数量的比值;
次等位基因频率为:在一特定人群中单核苷酸多态性的等位基因频率较低的频率;
质量值为衡量测序效果的一种指标值;
测序深度为:测序得到的总碱基数与待测基因组大小的比值,可以理解为基因组中每个碱基被测序到的平均次数,计算公式为测序深度=reads长度×比对的reads数目/参考序列长度;
个体的缺失率为:某一个体未测得的全基因组测序位点数量与标准的全基因组测序位点数量的比值;
哈德温伯格平衡参数为:在理想状态下,各等位基因的频率在遗传中是稳定不变的,即保持着基因平衡。在实际状态下,通过卡方分布来衡量等位基因频率的理论值和等位基因频率的实际值差异为哈德温伯格平衡参数。
下面,基于具体的实施例阐述本发明的基因变异位点质量控制方法。
本实施例是以包含2641个中国人的30倍测序深度的全基因组测序数据集为原始数据集,基于该数据集说明本发明的基因变异位点质量控制方法。该质量控制方法的流程图参见图1。
本实施例中,使用SNP变异位点表示单核苷酸多态性变异位点,本发明的基因变异位点质量控制方法,包括如下步骤:
首先获取包含2641个中国人的30倍测序深度的全基因组测序数据集,然后利用GATK工具从基础数据集中提取基因变异位点,得到包含基因变异位点的数据集。GATK工具会对数据集中的基因变异位点进行标记,将各种变异位点进行区分,同时将满足标准的基因变异位点标记为PASS。筛选出标记为PASS的基因变异位点。然后去除标记为PASS的基因变异位点的数据集中缺失率大于预设缺失率阈值的个体基因数据,得到第一数据子集。本实施例中的缺失率阈值为0.05。将2641个中国人的30倍测序深度的全基因组测序数据中每一个个体的基因缺失率与设定的缺失率阈值进行比较,当某一个个体的基因缺失率大于设定的缺失率阈值,去除该个体的基因数据,否则保留该个体的基因数据。执行该步骤的目的在于,进一步去除样本中缺失率较大,影响最终所获得的SNP变异位点精度的个体数据。
获取的第一数据子集中包括单核苷酸多态性变异位点(SNP变异位点)和插入缺失变异位点,总量为1亿个。然后,再将标记为插入缺失变异位点的位点删除,保留单核苷酸多态性变异位点,获得七千五百万个单核苷酸多态性变异位点(SNP变异位点)。
然后利用最大丢失率、次等位基因频率和最小质量值对SNP变异位点进行筛选。最大丢失率阈值设定为0.5,次等位基因频率阈值设定为3,最小质量阈值设定为30。该步的筛选过程为:判断SNP变异位点中每一个变异位点的碱基丢失率,当丢失率大于最大丢失率阈值时,去除该变异位点,否则保留该变异位点。将SNP变异位点中每一个变异位点的碱基的次等位基因频率与设定次等位基因频率阈值进行比较,当某一个变异位点小于设定次等位基因频率阈值时,去除该变异位点,否则保留。判断SNP变异位点中每一个变异位点的碱基质量值参数,当质量值参数小于最小质量值阈值时,去除该变异位点,否则保留该变异位点。
进一步,设定最小测序深度阈值为3,去除SNP变异位点中小于最小测序深度阈值的变异位点。
进一步,设定哈德温伯格平衡参数阈值为0.000001,将SNP变异位点中每一个变异位点的碱基的哈德温伯格平衡参数与设定的哈德温伯格平衡参数阈值进行比较,当某一个变异位点的哈德温伯格平衡参数小于设定的哈德温伯格平衡参数阈值,去除该变异位点,否则保留。利用上述质量控制方法对2641个中国人的基因变异位点进行处理,最终获得一千八百万个SNP变异位点。可见,本发明的方法可以获得期望高质量的基因变异位点信息。期望高质量的变异位点的可信度更高,可在制备芯片过程中提供更可信的位点信息。
本实施例还提供了一种基因变异位点质量控制系统,包括计算机系统,所述计算机系统被编程以执行所述基因变异位点质量控制方法的步骤。
本发明使用最大丢失率、次等位基因频率、最小质量值参数、最小测序深度参数、缺失率及哈德温伯格平衡参数对变异位点进行质量控制,可以获取高质量的变异位点,提高了利用上述变异位点所制备的基因芯片的精确性。
以上所述,仅是本申请的实施例,并非对本申请做任何形式的限制,虽然本申请以较佳实施例揭示如上,然而并非用以限制本申请,任何熟悉本专业的技术人员,在不脱离本申请技术方案的范围内,利用上述揭示的技术内容做出些许的变动或修饰均等同于等效实施案例,均属于技术方案范围内。

Claims (7)

1.一种基因变异位点质量控制方法,其特征在于,包括:
获取包含指定人群基因变异位点的数据集;
去除所述数据集中缺失率大于预设缺失率阈值的个体基因数据,得到第一数据子集;
获取所述第一数据子集中基因的单核苷酸多态性变异位点;
对单核苷酸多态性变异位点进行处理,得到期望基因变异位点。
2.根据权利要求1所述的基因变异位点质量控制方法,其特征在于,所述数据集为包含多个中国人的全基因组测序数据的数据集。
3.根据权利要求1所述的基因变异位点质量控制方法,其特征在于,获取所述第一数据子集中基因的单核苷酸多态性变异位点的具体步骤为:
对所述第一数据子集中的基因变异位点进行过滤,获取单核苷酸多态性变异位点和插入缺失变异位点;
去除单核苷酸多态性变异位点和插入缺失变异位点中全部的插入缺失变异位点,保留单核苷酸多态性变异位点。
4.根据权利要求1所述的基因变异位点质量控制方法,其特征在于,对单核苷酸多态性变异位点进行处理,具体为:
去除单核苷酸多态性变异位点中,丢失率大于预设最大丢失率阈值的基因变异位点;
去除单核苷酸多态性变异位点中,次等位基因频率小于预设次等位基因频率阈值的基因变异位点;
去除单核苷酸多态性变异位点中,最小质量值小于预设最小质量值阈值的基因变异位点。
5.根据权利要求4所述的基因变异位点质量控制方法,其特征在于,对单核苷酸多态性变异位点进行处理,还包括:
去除单核苷酸多态性变异位点中,测序深度小于预设最小测序深度阈值的基因变异位点。
6.根据权利要求5所述的基因变异位点质量控制方法,其特征在于,对单核苷酸多态性变异位点进行处理,还包括:
去除单核苷酸多态性变异位点中,哈德温伯格平衡参数小于预设哈德温伯格平衡参数阈值的基因变异位点。
7.一种基因变异位点质量控制系统,其特征在于,包括计算机系统,所述计算机系统被编程以执行权利要求1~6中任意一项所述的基因变异位点质量控制方法的步骤。
CN201911312378.4A 2019-12-18 2019-12-18 基因变异位点质量控制方法及系统 Active CN111091870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911312378.4A CN111091870B (zh) 2019-12-18 2019-12-18 基因变异位点质量控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911312378.4A CN111091870B (zh) 2019-12-18 2019-12-18 基因变异位点质量控制方法及系统

Publications (2)

Publication Number Publication Date
CN111091870A true CN111091870A (zh) 2020-05-01
CN111091870B CN111091870B (zh) 2021-11-02

Family

ID=70395862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911312378.4A Active CN111091870B (zh) 2019-12-18 2019-12-18 基因变异位点质量控制方法及系统

Country Status (1)

Country Link
CN (1) CN111091870B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020490B (zh) * 2011-09-26 2015-11-25 深圳华大基因科技服务有限公司 目标区域测序中质控位点选取方法及装置
CN105512514A (zh) * 2014-09-23 2016-04-20 深圳华大基因股份有限公司 一种mhc补全数据库、其构建方法和应用
CN105793859A (zh) * 2013-09-30 2016-07-20 七桥基因公司 用于检测序列变异体的方法和系统
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释系统
CN106529209A (zh) * 2016-11-04 2017-03-22 成都鑫云解码科技有限公司 免疫系统对应的基因的突变位点的获取方法及装置
CN106529211A (zh) * 2016-11-04 2017-03-22 成都鑫云解码科技有限公司 变异位点的获取方法及装置
CN106909806A (zh) * 2015-12-22 2017-06-30 广州华大基因医学检验所有限公司 定点检测变异的方法和装置
CN107345248A (zh) * 2017-06-26 2017-11-14 思畅信息科技(上海)有限公司 基于大数据的基因与位点风险评估方法及其系统
CN107779499A (zh) * 2017-10-17 2018-03-09 中国林业科学研究院森林生态环境与保护研究所 基于snp位点的川金丝猴遗传监测和繁育管理方法
CN110491441A (zh) * 2019-05-06 2019-11-22 西安交通大学 一种模拟人群背景信息的基因测序数据仿真系统及方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020490B (zh) * 2011-09-26 2015-11-25 深圳华大基因科技服务有限公司 目标区域测序中质控位点选取方法及装置
CN105793859A (zh) * 2013-09-30 2016-07-20 七桥基因公司 用于检测序列变异体的方法和系统
CN105512514A (zh) * 2014-09-23 2016-04-20 深圳华大基因股份有限公司 一种mhc补全数据库、其构建方法和应用
CN106909806A (zh) * 2015-12-22 2017-06-30 广州华大基因医学检验所有限公司 定点检测变异的方法和装置
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释系统
CN106529209A (zh) * 2016-11-04 2017-03-22 成都鑫云解码科技有限公司 免疫系统对应的基因的突变位点的获取方法及装置
CN106529211A (zh) * 2016-11-04 2017-03-22 成都鑫云解码科技有限公司 变异位点的获取方法及装置
CN107345248A (zh) * 2017-06-26 2017-11-14 思畅信息科技(上海)有限公司 基于大数据的基因与位点风险评估方法及其系统
CN107779499A (zh) * 2017-10-17 2018-03-09 中国林业科学研究院森林生态环境与保护研究所 基于snp位点的川金丝猴遗传监测和繁育管理方法
CN110491441A (zh) * 2019-05-06 2019-11-22 西安交通大学 一种模拟人群背景信息的基因测序数据仿真系统及方法

Also Published As

Publication number Publication date
CN111091870B (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
Schlötterer et al. Sequencing pools of individuals—mining genome-wide polymorphism data without big funding
Browning et al. Haplotype phasing: existing methods and new developments
CN109196123B (zh) 用于水稻基因分型的snp分子标记组合及其应用
CN108998550B (zh) 用于水稻基因分型的snp分子标记及其应用
CN106367481B (zh) 一种扩增brca1/2基因的多重pcr引物及一种多重pcr引物的设计方法
CN104673884B (zh) 利用全基因组和est数据开发多态性est‑ssr标记的方法
CN109337997B (zh) 一种山茶属多态性叶绿体基因组微卫星分子标记引物及筛选和甄别近缘种的方法
CN113674800B (zh) 基于单细胞转录组测序数据的细胞聚类方法
CN110846429A (zh) 一种玉米全基因组InDel芯片及其应用
Singh et al. Next-generation sequencing (NGS) tools and impact in plant breeding
CN110444253B (zh) 一种适用于混池基因定位的方法及系统
WO2024140368A1 (zh) 一种样本交叉污染的检测方法和装置
CN118186103A (zh) 一种大口黑鲈100k液相芯片及其应用
CN107862177B (zh) 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法
CN111091870B (zh) 基因变异位点质量控制方法及系统
KR101539737B1 (ko) 유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술
CN115948521B (zh) 一种检测非整倍体缺失染色体信息的方法
CN117037905A (zh) 基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质
CN111091867B (zh) 基因变异位点筛选方法及系统
Quackenbush Extracting meaning from functional genomics experiments
EP2665009A1 (en) Nucleic acid information processing device and processing method thereof
CN111128297B (zh) 一种基因芯片的制备方法
CN112837746B (zh) 用于小麦外显子测序基因定位的探针设计方法及定位方法
CN114530200A (zh) 基于计算snp熵值的混合样本鉴定方法
CN108504734B (zh) 一种恶性肿瘤组织特定个体归属的判断方法及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant