CN112885407B - 一种基于二代测序的微单倍型检测分型系统和方法 - Google Patents

一种基于二代测序的微单倍型检测分型系统和方法 Download PDF

Info

Publication number
CN112885407B
CN112885407B CN202110128303.1A CN202110128303A CN112885407B CN 112885407 B CN112885407 B CN 112885407B CN 202110128303 A CN202110128303 A CN 202110128303A CN 112885407 B CN112885407 B CN 112885407B
Authority
CN
China
Prior art keywords
sample
haplotype
micro
typing
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110128303.1A
Other languages
English (en)
Other versions
CN112885407A (zh
Inventor
钱刚
韩斐然
戴凡
刘歆
陈云
阎敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Lianchuan Gene Diagnosis Technology Co ltd
Original Assignee
Hangzhou Lianchuan Gene Diagnosis Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Lianchuan Gene Diagnosis Technology Co ltd filed Critical Hangzhou Lianchuan Gene Diagnosis Technology Co ltd
Priority to CN202210067126.5A priority Critical patent/CN114420205A/zh
Priority to CN202110128303.1A priority patent/CN112885407B/zh
Publication of CN112885407A publication Critical patent/CN112885407A/zh
Application granted granted Critical
Publication of CN112885407B publication Critical patent/CN112885407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于二代测序的微单倍型检测分型系统和方法,属于生物信息学技术领域。所述系统包括:数据输入模块、数据库存储模块、MHParser分型模块、MHParser样本相似度计算模块,还可包括MHParser多序列比对模块和MHParser样本聚类模块。所述方法包括:获得检测位点列表和样本二代测序比对文件;利用检测位点列表,根据样本二代测序比对文件计算微单倍型位点,得到微单倍型分型结果;计算任意两个样本之间的相似性分值。利用本发明,可以准确获得任意两个样本之间的相似度,简单可靠,进一步,还可通过多序列比对和聚类分析,对样本进行识别,排除样本混淆和污染问题,进一步提高比对的准确性,具有重要的应用价值。

Description

一种基于二代测序的微单倍型检测分型系统和方法
技术领域
本发明属于生物信息技术领域,具体地,涉及一种基于二代测序的微单倍型检测分型系统和方法。
背景技术
单倍型(haplotype)是指在一条染色体或线粒体上,紧密连锁的多个等位基因的线性组合,每一种组合方式即为一种单倍型。近年来单倍型在法医学中的应用越来越广泛,主要涉及Y染色体、X染色体及线粒体上STR和SNP多态性的研究。
微单倍型(microhaplotype)的片段长度更短,其是在200bp范围内2~5个SNP的组合。由于微单倍型基因座内含有多个SNP位点,所以微单倍型是多等位基因遗传标记,包含更加丰富的遗传信息。微单倍型是近年来国际法医遗传学界广泛关注的一类新型遗传标记,在混合DNA分型领域展现出巨大潜力,且支持人类种族地域推断、复杂亲缘关系鉴定、微量降解检材检验等法医学应用。它兼具STR和SNP遗传标记的优势:
(1)高度多态性。通常SNP位点仅有2个等位基因,若n个二等位基因的SNP构成一个微单倍型位点,那么该微单倍型位点理论上最多有2n种SNP的组合,即最多有2n种基因型。
(2)低突变率。微单倍型的突变率相当于SNP的突变率,为10-9~10-8/代,是STR突变率的百万分之一到十万分之一,在亲权鉴定中有独特优势。
(3)检测无阴影带。基于电泳技术分型的STR会产生阴影带,不利于复杂混合DNA样本的分析。微单倍型通过测序手段检测,无阴影带,且二代测序具有高通量、高灵敏度的优点,在定量分析复杂混合DNA中有很大潜力。
(4)长度优势。STR基因座的等位基因长度跨度很大,因此会产生扩增不平衡问题,而较长的等位基因在降解检材中极可能被破坏,得不到准确的分型结果,微单倍型长度相对均一,可减少因长度差异带来的扩增不平衡问题。
微单倍型检测方法包括二代测序、高分辨熔解曲线、单链构象多态性分析等,其中二代测序,也称下一代测序(next generation sequencing,NGS)或大规模并行测序(massively parallel sequencing,MPS),在科研和临床诊断领域已得到广泛应用。由于微单倍型为近几年才兴起的一种检测技术,基于二代测序数据进行微单倍型分析的方法较少,且功能比较单一,例如一些基于扩增子平台的微单倍型检测软件,只能进行微单倍型的单一计数。
发明内容
为了解决上述技术问题中的至少一个,本发明采用的技术方案如下:
一种基于二代测序的微单倍型检测分型系统,包括:
数据输入模块,用于接受样本二代测序比对文件输入;
数据库存储模块,用于存储检测位点列表;
MHParser分型模块,分别与所述数据输入模块和所述数据库存储模块连接,用于基于所述检测位点列表,根据输入的样本二代测序比对文件计算微单倍型位点,并输出微单倍型分型结果;其中,所述微单倍型分型结果包括单倍型信息及计数信息;
MHParser样本相似度计算模块,与所述MHParser分型模块连接,用于接受所述MHParser分型模块输出的微单倍型分型结果,并根据微单倍型分型结果计算任意两个样本之间的相似性分值;
结果输出模块,用于输出所述相似性分值。
在本发明中,MHParser是自定义名称,对相应模块没有限定作用。
在本发明的一些实施方案中,所述位点包括微单倍型和单独SNP/InDel位点。
在本发明的一些实施方案中,所述检测位点列表格式下表所示:
Figure BDA0002924732700000021
Figure BDA0002924732700000031
在本发明的一个具体实施方案中,所述检测位点列表如下:
Figure BDA0002924732700000032
Figure BDA0002924732700000041
Figure BDA0002924732700000051
在本发明的一些实施方案中,所述计数信息是指支持相应位点的reads数目信息。
在本发明的一些实施方案中,所述MHParser样本相似度计算模块还输出样本整合微单倍型序列信息;所述微单倍型检测分型系统还包括:
MHParser多序列比对模块,与所述MHParser样本相似度计算模块连接,用于接受MHParser样本相似度计算模块输出的样本整合微单倍型序列信息,并根据样本整合微单倍型序列信息进行多序列比对,得到样本多序列比对结果;
MHParser样本聚类模块,与所述MHParser多序列比对模块连接,用于接受MHParser多序列比对模块输出的多序列比对结果,并根据所述样本多序列比对结果进行聚类分析;
所述结果输出模块还与所述MHParser样本聚类模块连接,用于样本输出聚类分析结果。
在本发明的一些实施方案中,所述整合微单倍型序列信息是指将检测位点的序列拼接在一起得到的序列。
在本发明的一些实施方案如此,所述数据库存储模块还用于存储测序变异检测信息。
进一步地,所述MHParser分型模块输出位点的基因型。
更进一步地,所述位点为SNP/InDel位点。
本发明的第二方面提供一种基于二代测序的微单倍型检测分型方法,包括以下步骤:
S1,获得检测位点列表和样本二代测序比对文件;
S2,利用检测位点列表,根据样本二代测序比对文件计算样本的微单倍型位点,得到微单倍型分型结果,所述微单倍型分型结果包括单倍型信息及计数信息;
S3,根据步骤S2的微单倍型分型结果计算任意两个样本之间的相似性分值。
在本发明的一些实施方案中,步骤S3还获得样本整合微单倍型序列信息。
进一步地,所述方法还包括以下步骤:
S4,根据样本整合微单倍型序列信息进行多序列比对,得到多序列比对结果;
S5,根据多序列比对结果进行聚类分析,得到聚类分析结果。
在本发明的一些实施方案中,所述步骤S2中,具体利用以下步骤获得所述微单倍型分型结果:
S21,针对检测位点列表中的任意微单倍型位点,遍历样本二代测序比对文件中的每条序列,根据位点的坐标信息提取reads的碱基组合,得到单倍型,并对具有相同单倍型的reads进行计数;
S22,针对相同单倍型,按照reads数目对不同碱基组合进行排序;
由此得到检测位点列表中所述微单倍型分型结果。
在本发明的一些实施方案中,所述步骤S3中,具体利用以下公式获得所述相似性分值:
S31,按照步骤S2的方法获得多个样本的微单倍型分型结果
S32,按照下面公式计算任意两个样本间的相似性分值:
Figure BDA0002924732700000071
其中,
S为相似性分值;
m为位点个数;
C1为常量,取值1,为两个样本某个位点碱基型相同时的打分值;
C2为常量,取值-1,为两个样本某个位点碱基型不同时的打分值;
G1和G2分别为某个位点样本1和样本2的碱基组合数目,其中,样本1为该位点上碱基组合数目较少的样本,样本2为该位点上碱基组合数目较多的样本;G1∩G2表示该位点上两个样本具有相同的碱基组合的数目。
在本发明的一些具体实施方案中,针对某个位点,如果两个样本在该位点上碱基组合数目相同,则任意一个样本为样本1,另外一个样本为样本2。
针对碱基组合,例如对于某个位点,参考位点为T,G和A;但某个样本该位点有T,A和A;G,G和A;T,G和C;T,-(表示缺失)和G;-,G和C。则该样本的在该位点的碱基组合为5。
例如,针对某个位点,如果两个样本的碱基组合分别为5和6,则碱基组合为6的为样本1,碱基组合为5的为样本2。如果两个样本该位点相同的碱基组合为4,即为4,则针对该位点的相似性为C1*(G1∩G2)+C2*(G1-G1∩G2)=1*4-1*(6-4)=2。
在本发明的一些实施方案中,在步骤S4中,利用mafft软件进行多序列比对。
在本发明的一些实施方案中,在步骤S5中,利用fasttree软件进行样本聚类。
在本发明的一些实施方案中,进一步包括利用可视化软件识别步骤S5获得的聚类分析结果。在本发明的一些具体实施方案中,所述可视化软件为MEGA软件。
本发明的有益效果
相对于现有技术,本发明具有以下有益效果:
本发明的系统和方法采用二代测序技术,相比传统的DNA测序技术,二代测序具有高通量、高速度、集成化、低成本等显著优势,在法医遗传学领域也具有重要应用前景。测序是序列多态性遗传标记最好的检测手段,微单倍型是SNP的线性组合,其本质仍然是SNP,二代测序能够一次性获得复合体系中SNP位点的全部基因分型,也同时获得全部微单倍型遗传标记的准确分型,本发明有助于推动二代测序技术成为微单倍型检测的金标准。
本发明的系统和方法能适用于不同捕获方式产生的测序数据,不论是液相捕获还是多重PCR扩增产生的数据都适用,因此具有广泛的应用场景,易于推广。
本发明的系统和方法除了对微单倍型进行检测计数外,还能进行SNP/InDel的检测计数分型。
本发明的系统和方法除了能检测由多个SNP构成的微单倍型之外,还能容忍微单倍型中包含InDel位点的情况,检测范围更广,算法更通用。
本发明的系统和方法可以利用样本的微单倍型分型结果,进一步判断样本的相似度情况,对样本聚类,进一步对同批次样本进行严格质控,保证检测过程的可靠性。
附图说明
图1示出了本发明实施例1的微单倍型检测分型系统的示意图。
图2示出了本发明实施例2的微单倍型检测分型系统的示意图。
图3示出了本发明实施例4微单倍型检测分型方法的流程示意图。
图4示出了本发明实施例6对11例样本进行微单倍型检测分型的聚类分析结果图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。
实施例
以下例子在此用于示范本发明的优选实施方案。本领域内的技术人员会明白,下述例子中披露的技术代表发明人发现的可以用于实施本发明的技术,因此可以视为实施本发明的优选方案。但是本领域内的技术人员根据本说明书应该明白,这里所公开的特定实施例可以做很多修改,仍然能得到相同的或者类似的结果,而非背离本发明的精神或范围。
除非另有定义,所有在此使用的技术和科学的术语,和本发明所属领域内的技术人员所通常理解的意思相同,在此公开引用及他们引用的材料都将以引用的方式被并入。
那些本领域内的技术人员将意识到或者通过常规试验就能了解许多这里所描述的发明的特定实施方案的许多等同技术。这些等同将被包含在权利要求书中。
下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的仪器设备,如无特殊说明,均为实验室常规仪器设备;下述实施例中所用的试验材料,如无特殊说明,均为自常规生化试剂商店购买得到的。
实施例1基于二代测序的微单倍型检测分型系统
结合图1,本实施例提供一种基于二代测序的微单倍型检测分型系统,其包括:
数据输入模块101,用于接受样本二代测序比对文件输入;
数据库存储模块102,用于存储检测位点列表;
MHParser分型模块103,分别与数据输入模块101和数据库存储模块102连接,用于根据输入的样本二代测序比对文件计算微单倍型位点,并输出微单倍型分型结果,该微单倍型分型结果包括单倍型信息及计数信息;
MHParser样本相似度计算模块104,与MHParser分型模块103连接,用于接受MHParser分型模块103输出的微单倍型分型结果,并根据微单倍型分型结果计算任意两个样本之间的相似性分值;
结果输出模块105,用于输出所述相似性分值。
其中,数据库存储模块102存储的检测位点列表格式如表1所示:
表1检测位点列表格式说明
Figure BDA0002924732700000091
Figure BDA0002924732700000101
MHParser分型模块103输出的微单倍型分型结果格式如表2所示:
表2微单倍型分型结果格式
Figure BDA0002924732700000102
MHParser样本相似度计算模块104的输出结果格式如表3所示:
表3样本相似度结果格式
Figure BDA0002924732700000103
Figure BDA0002924732700000111
实施例2实施例1中的微单倍型检测分型系统的改进
本实施例1提供另一种基于二代测序的的微单倍型检测分型系统,如图2所示,其包括实施例1描述的微单倍型检测分型系统的全部模块,相当于对实施例1的微单倍型检测分型系统的改进,与实施例1描述的微单倍型检测分型系统的区别是:MHParser样本相似度计算模块104还可以输出样本整合微单倍型序列信息;进一步,该微单倍型检测分型系统还包括:
MHParser多序列比对模块106,与MHParser样本相似度计算模块104连接,用于接受MHParser样本相似度计算模块104输出的样本整合微单倍型序列信息,并根据样本整合微单倍型序列信息进行多序列比对,得到多序列比对结果;
MHParser样本聚类模块107,与MHParser多序列比对模块106连接,用于接受MHParser多序列比对模块106输出的多序列比对结果,并根据多序列比对结果进行聚类分析;
结果输出模块105还与MHParser样本聚类模块107连接,并用于输出样本聚类结果。
实施例3实施例1或实施例2的微单倍型检测分型系统的改进
本实施例提供实施例1或实施例2的微单倍型检测分型系统的改进,其包含的模块与实施例1或实施例2的微单倍型检测分型系统完全相同,区别在于:数据库存储模块102还用于存储测序变异检测信息,是为了判断SNP/InDel位点的基因型信息。
实施例4一种基于二代测序的微单倍型检测分型方法
本实施例提供一种基于二代测序的微单倍型检测分型方法,为实施例1的微单倍型检测分型系统的配套使用方法,如图3所示,包括以下步骤:
S1,获得检测位点列表和样本二代测序比对文件;
S2,利用检测位点列表,根据样本二代测序比对文件计算微单倍型位点,得到微单倍型分型结果,该微单倍型分型结果包括单倍型信息及计数信息;
S3,根据步骤S2的微单倍型分型结果计算任意两个样本之间的相似性分值。
实施例5一种基于二代测序的微单倍型检测分型的改进方法
本实施例提供一种实施例4描述的微单倍型检测分型的方法的改进,为实施例2的微单倍型检测分型系统的配套使用方法,如图4所示,其区别在于:步骤S3可获得样本的整合微单倍型序列信息;
相应地,该改进方法除上述步骤S1-S3外,还包括以下步骤:
S4,根据样本整合微单倍型序列信息进行多序列比对,得到多序列比对结果;
S5,根据多序列比对结果进行聚类分析,得到聚类分析结果。
实施例6微单倍型检测分型系统的应用
本实施例提供实施例2的微单倍型检测分型系统的应用,或实施例3对实施例2改进的微单倍型检测分型系统的应用。区别在于数据库存储模块102是否存储有测序变异检测信息。
1.检测位点列表
本实施例检测位点列表信息如表4所示:
表4检测位点列表
Figure BDA0002924732700000121
Figure BDA0002924732700000131
Figure BDA0002924732700000141
2.测序变异检测信息
设置测序变异检测信息(实施例3对实施例2的改进系统),是为了判断SNP/InDel位点的基因型。在该系统中,测序变异检测信息的存储文件为vcf格式,由胚系突变检测软件GATKhaplotyper检测得到。与vcf文件伴随存储的还有后缀为tbi的索引文件。
本实施例的测序变异检测信息如表5所示:
表5测序变异检测信息
Figure BDA0002924732700000142
vcf文件最前面头部注释信息,每行以‘##’开始,示例如下:
Figure BDA0002924732700000151
以上vcf格式信息是一种示例,本领域技术人员熟知其含义。
如果没有该测序变异检测信息(实施例2的系统),系统不会输出SNP/InDel变异的基因型信息,但也会输出SNP/InDel变异的碱基深度和计数信息。
3.样本二代测序比对文件
本实施例共获得11例待比对样本的二代测序信息,11例待比对样本的信息如表7所示:
表7 11例待比对样本的信息
序号 样本名 样本组别 样本来源
1 O1 O组 人源EDTA抗凝全血
2 O2 O组 人源EDTA抗凝全血
3 O3 O组 人源EDTA抗凝全血
4 O4 O组 人源EDTA抗凝全血
5 O5 O组 人源EDTA抗凝全血
6 Mix_1 MIX组,混有O5 人源EDTA抗凝全血
7 Mix_2 MIX组,混有O5 人源EDTA抗凝全血
8 Mix_3 MIX组,混有O5 人源EDTA抗凝全血
9 Mix_4 MIX组,混有O5 人源EDTA抗凝全血
10 NA12878_01 NA12878组 细胞系基因组DNA
11 NA12878_02 NA12878组 细胞系基因组DNA
输入系统的待比对样本二代测序基因组比对文件为bam格式文件,是由样本二代测序结果(FASTQ格式)比对到人参考基因组后得到的比对文件;同时还伴随输入一个对应的bai格式索引文件。bam格式文件为sam格式的二进制形式。
本实施例sam示例文件如表6所示:
表6sam示例文件
Figure BDA0002924732700000161
Figure BDA0002924732700000171
4.MHParser位点分型
以样本Mix_1为例,利用以下步骤获得SNP/InDel变异位点的微单倍型分型结果:
1)以检测位点列表、样本二代测序比对文件和测序变异检测信息为输入,计算输出初始的微单倍型分型结果,具体计算方法为:
对检测位点列表中的某个微单倍型或SNP/InDel位点,通过遍历样本二代测序比对文件中的每条序列,根据位点的坐标信息提取reads的碱基组合,得到单倍型信息,并对具有相同单倍型的reads进行计数,针对SNP/InDel位点,如果有变异检测的vcf文件,还可从中读取到位点的基因型信息。
2)针对相同单倍型,按照reads数目对不同碱基组合从高到低排序,得到排序结果;
3)将排序后的分型文本文件转换成excel文件,方便查阅。
样本Mix_1的微单倍型分型结果如表7所示:
表7样本Mix_1的微单倍型分型结果部分
Figure BDA0002924732700000172
Figure BDA0002924732700000181
Figure BDA0002924732700000191
同样的方法可以获得其他样本的微单倍型分型结果。
5.MHParser样本相似度计算
在得到多个样本的微单倍型分型结果后,可以计算样本相似度,输出单倍型序列,具体步骤如下:
1)将多个样本微单倍型分型的结果列表作为输入文件;
2)利用相似性计算程序,输出任意两个样本间的相似性分值,具体计算方法为:
Figure BDA0002924732700000192
其中,
S为相似性分值;
m为位点个数;
C1为常量,取值1,为两个样本某个位点碱基型相同时的打分值;
C2为常量,取值-1,为两个样本某个位点碱基型不同时的打分值;
G1和G2分别为某个位点样本1和样本2的碱基组合数目,其中,样本1为该位点上碱基组合数目较少的样本,样本2为该位点上碱基组合数目较多的样本;如果针对某个位点,两个样本的碱基组合数目相同,则任意一个样本为样本1,另外一个样本为样本2。G1∩G2表示该位点上两个样本具有相同的碱基组合的数目。
输出由此得到样本的相似性分值如表8所示:
表8样本的相似性信息
Figure BDA0002924732700000201
注:数值为similarity_score,即相似性分值,分值越高,越相似。。
同时,该步骤还输出样本单倍型序列信息(样本微单倍型位点合并序列文件),如下所示:
>O1
ATGCGCGGTCTTCCAGGCCTGATCTGAAGCAACTGATAATGTTACTGGGTGGTCCGTCACC
>O2
ATGCGCGGTCTTCCAGGAGATCTGAAGCAACTAATGTTGGGTGGTTCACCGCC
>O3
ATGCACGGTCCAGATTTGGCCTGAAGAAACTGGTACTGTTGGTTGGGCCGCTGCC
>O4
ATGCGCGGTCTTCCTTCAGATCTGACCTGAAGCAACTAATGGTGTTGGGCCGTCACC
>O5
ACGGTTTTCCAGGCCTGAAACTGATAATACGAAGTGGGCCACTGCC
>Mix_1
ACGGACGCTCCTTTTTCAGGCCTGATCTGAAACAGATGATGATAATGGTACTGTGAAGTGGGTGGTCCACTGTCACCTT
>Mix_2
ACGGACGCTCCTTTAGGCCTGATCTGAAACAGATGATGATAATGGTACTGTGAAGTGGGTGGTCCACTGTCACCTT
>Mix_3
ACGGACGCTCCTTTAGGCCTGAAACAGATGATGATAATACGAAGTGGGTGGTCCACTGTCACCTT
>Mix_4
ACGGTCCTTTAGGCCTGAAACTGATAATACGAAGTGGGTGGTCCACTGCC
>NA12878_01
ACGCGCCGTCTTCAAGAAGGTTTGATTTTAAACTGATAATATTGTTGGGTGGTCCGCCACCTT
>NA12878_02
ACGCGCCGTCTTCATATAGAAGGTTTGATTTTAAACTGATAATATTGTTGGGTGGTCCGCCACCTT
6.MHParser多序列比对
根据上述样本单倍型序列,利用mafft软件进行多序列比对。该步骤会做一个对齐的工作,可以得到fasta格式的多序列比对文件,如下所示:
>O1
ATGCGCGGTCTTCC------AGGCCTGATCTGAAGCAACTGA------TAATGTTAC----TGGGTGGTCCGTCACC-----
>O2
ATGCGCGGTCTTCC------AGG--AGATCTGAAGCAACTAA------------TGT----TGGGTGGTTCACCGCC-----
>O3
ATGCACGGTCC---------AGATTTGGCCTGAAGAAACTGG---------TACTGT----TGGTTGGGCCGCTGCC-----
>O4
ATGCGCGGTCTTCC---TTCAGATCTGACCTGAAGCAACTAA---------TGGTGT----TGGG----CCGTCACC-----
>O5
----ACGGTTTTCC-----------AGGCCTGAAAC------------TGATAATACGAAGTGGG----CCACTGCC-----
>Mix_1
ACGGACGCTCCTTT---TTCAGGCCTGATCTGAAACAGATGATGATAATGGTACTGTGAAGTGGGTGGTCCACTGTCACCTT
>Mix_2
ACGGACGCTCCTTT------AGGCCTGATCTGAAACAGATGATGATAATGGTACTGTGAAGTGGGTGGTCCACTGTCACCTT
>Mix_3
ACGGACGCTCCTTT-----------AGGCCTGAAACAGATGA------TGATAATACGAAGTGGGTGGTCCACTGTCACCTT
>Mix_4
----ACGGTCCTTT-----------AGGCCTGAAAC------------TGATAATACGAAGTGGGTGGTCCACTGCC-----
>NA12878_01
ACGCGCCGTCTTCA---AGAAGGTTTGATTTTAAACTGATAA---------TATTGT----TGGGTGGTCCGCCACCTT---
>NA12878_02
ACGCGCCGTCTTCATATAGAAGGTTTGATTTTAAACTGATAA---------TATTGT----TGGGTGGTCCGCCACCTT---
7.MHParser样本聚类
利用fasttree软件,根据样本单倍型多序列比对结果进行样本聚类,得到nwk格式文件的样本聚类结果,利用可视化软件MEGA识别,以便进一步查看样本聚类的情况,导入可视化后结果如图4所示。
在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims (7)

1.一种基于二代测序的微单倍型检测分型系统,其特征在于,包括:
数据输入模块,用于接受至少两个样本二代测序比对文件输入;
数据库存储模块,用于存储检测位点列表,所述检测位点为SNP位点和InDel位点;
MHParser分型模块,分别与所述数据输入模块和所述数据库存储模块连接,用于根据输入的样本二代测序比对文件计算微单倍型位点,并输出微单倍型分型结果;其中,所述微单倍型分型结果包括单倍型信息及计数信息,所述MHParser分型模块具体利用以下步骤获得所述微单倍型分型结果:
针对检测位点列表中的任意检测位点,遍历样本二代测序比对文件中的每条序列,根据位点的坐标信息提取reads的碱基组合,得到单倍型,并对具有相同单倍型的reads进行计数,针对相同单倍型,按照reads数目对不同碱基组合进行排序,由此得到检测位点列表中所述微单倍型分型结果;
MHParser样本相似度计算模块,与所述MHParser分型模块连接,用于接受所述MHParser分型模块输出的微单倍型分型结果,并根据微单倍型分型结果按以下公式计算任意两个样本之间的相似性分值:
Figure 217083DEST_PATH_IMAGE002
其中,
S为相似性分值;
m为位点个数;
C 1 为常量,取值1,为两个样本某个位点碱基型相同时的打分值;
C 2 为常量,取值-1,为两个样本某个位点碱基型不同时的打分值;
G 1 G 2 分别为某个位点样本1和样本2的碱基组合数目,其中,样本1为该位点上碱基组合数目较少的样本,样本2为该位点上碱基组合数目较多的样本;
Figure 71907DEST_PATH_IMAGE004
表示该位点上两个样本具有相同的碱基组合的数目;
结果输出模块,用于输出所述相似性分值。
2.根据权利要求1所述的微单倍型检测分型系统,其特征在于,所述MHParser样本相似度计算模块还输出样本整合微单倍型序列信息,所述整合微单倍型序列信息是指将检测位点的序列拼接在一起得到的序列;所述微单倍型检测分型系统还包括:
MHParser多序列比对模块,与所述MHParser样本相似度计算模块连接,用于接受MHParser样本相似度计算模块输出的样本整合微单倍型序列信息,并根据样本整合微单倍型序列信息进行多序列比对,得到样本多序列比对结果;
MHParser样本聚类模块,与所述MHParser多序列比对模块连接,用于接受MHParser多序列比对模块输出的多序列比对结果,并根据所述样本多序列比对结果进行聚类分析;
所述结果输出模块还与所述MHParser样本聚类模块连接,用于样本输出聚类分析结果。
3.根据权利要求1或2所述的微单倍型检测分型系统,其特征在于,所述数据库存储模块还用于存储测序变异检测信息。
4.根据权利要求3所述的微单倍型检测分型系统,其特征在于,所述MHParser分型模块输出位点的基因型。
5.一种基于二代测序的微单倍型检测分型方法,其特征在于,包括以下步骤:
S1,获得检测位点列表和至少两个样本的二代测序比对文件;
S2,利用检测位点列表,根据样本二代测序比对文件计算样本的微单倍型位点,得到微单倍型分型结果,所述检测位点为SNP位点和InDel位点,所述微单倍型分型结果包括单倍型信息及计数信息,具体利用以下步骤获得所述微单倍型分型结果:
S21,针对检测位点列表中的任意检测位点,遍历样本二代测序比对文件中的每条序列,根据位点的坐标信息提取reads的碱基组合,得到单倍型,并对具有相同单倍型的reads进行计数;
S22,针对相同单倍型,按照reads数目对不同碱基组合进行排序;由此得到检测位点列表中所述微单倍型分型结果;
S3,根据步骤S2的微单倍型分型结果根据以下公式计算任意两个样本之间的相似性分值:
Figure DEST_PATH_IMAGE006
其中,
S为相似性分值;
m为位点个数;
C 1 为常量,取值1,为两个样本某个位点碱基型相同时的打分值;
C 2 为常量,取值-1,为两个样本某个位点碱基型不同时的打分值;
G 1 G 2 分别为某个位点样本1和样本2的碱基组合数目,其中,样本1为该位点上碱基组合数目较少的样本,样本2为该位点上碱基组合数目较多的样本;
Figure 225545DEST_PATH_IMAGE004
表示该位点上两个样本具有相同的碱基组合的数目。
6.根据权利要求5所述的微单倍型检测分型方法,其特征在于,步骤S3还获得样本整合微单倍型序列信息,所述整合微单倍型序列信息是指将检测位点的序列拼接在一起得到的序列。
7.根据权利要求6所述的微单倍型检测分型方法,其特征在于,还包括以下步骤:
S4,根据样本整合微单倍型序列信息进行多序列比对,得到多序列比对结果;
S5,根据多序列比对结果进行聚类分析,得到聚类分析结果。
CN202110128303.1A 2021-01-29 2021-01-29 一种基于二代测序的微单倍型检测分型系统和方法 Active CN112885407B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210067126.5A CN114420205A (zh) 2021-01-29 2021-01-29 基于二代测序的高通量微单倍型检测分型系统和方法
CN202110128303.1A CN112885407B (zh) 2021-01-29 2021-01-29 一种基于二代测序的微单倍型检测分型系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110128303.1A CN112885407B (zh) 2021-01-29 2021-01-29 一种基于二代测序的微单倍型检测分型系统和方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202210067126.5A Division CN114420205A (zh) 2021-01-29 2021-01-29 基于二代测序的高通量微单倍型检测分型系统和方法

Publications (2)

Publication Number Publication Date
CN112885407A CN112885407A (zh) 2021-06-01
CN112885407B true CN112885407B (zh) 2022-02-22

Family

ID=76051984

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110128303.1A Active CN112885407B (zh) 2021-01-29 2021-01-29 一种基于二代测序的微单倍型检测分型系统和方法
CN202210067126.5A Pending CN114420205A (zh) 2021-01-29 2021-01-29 基于二代测序的高通量微单倍型检测分型系统和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202210067126.5A Pending CN114420205A (zh) 2021-01-29 2021-01-29 基于二代测序的高通量微单倍型检测分型系统和方法

Country Status (1)

Country Link
CN (2) CN112885407B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113981048B (zh) * 2021-08-30 2024-04-30 司法鉴定科学研究院 一种基于二代测序技术检测微单倍型基因座的引物组合物、试剂盒和方法及其应用

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105969843A (zh) * 2016-04-16 2016-09-28 杨永臣 一种基于mlpa的基因拷贝数和突变的高通量测序检测方法
CN108095685B (zh) * 2016-11-23 2021-12-17 中国科学院昆明动物研究所 一种基于互作网络正负关系比值的分类技术及其用途
CN107463800B (zh) * 2017-07-19 2018-05-11 东莞博奥木华基因科技有限公司 一种肠道微生物信息分析方法及系统
CN108060261B (zh) * 2018-01-30 2021-01-15 袁隆平农业高科技股份有限公司 一种对玉米snp标记组合进行捕获测序的方法及其应用
KR101920872B1 (ko) * 2018-02-27 2018-11-28 대한민국 차세대 염기서열분석법을 이용한 마이크로하플로타입 분석 방법
CN108504744B (zh) * 2018-03-14 2019-02-22 中国科学院北京基因组研究所 一种用于法医检测的微单倍型遗传标记及其试剂盒
CN108624700B (zh) * 2018-04-26 2022-05-17 公安部物证鉴定中心 基于二代测序技术同步检测124个微单倍型基因座的试剂盒及其专用引物对组合
CN110415787B (zh) * 2019-07-12 2023-07-04 江南大学 调节糖尿病患者尿液微生态结构的营养制剂的制备方法
CN110305968A (zh) * 2019-07-14 2019-10-08 西安交通大学口腔医院 一种基于ngs分型用于法医学个体识别的snp-dip微单倍型域的复合扩增体系
CN111118169B (zh) * 2019-12-25 2022-06-10 中山大学 一种用于法医学个体识别的59个微单倍型遗传标记分型体系及其应用
CN111518917B (zh) * 2020-04-02 2022-06-07 中山大学 一种用于无创产前亲权关系判定的微单倍型遗传标记组合及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"法医个体识别微单倍型标记的筛选及NGS检测体系的建立";周晶;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20200115(第1期);第13、15、21、24-25页 *
Ultrafast clustering algorithms for metagenomic sequence analysis;Weizhong Li 等;《BRIEFINGS IN BIOINFORMATICS》;20120706;第13卷(第06期);第656-668页 *

Also Published As

Publication number Publication date
CN114420205A (zh) 2022-04-29
CN112885407A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
Bennett et al. Toward the $1000 human genome
Liu et al. A review of bioinformatic methods for forensic DNA analyses
CN103874767B (zh) 对核酸样本中预定区域进行基因分型的方法和系统
CN112967753B (zh) 一种基于纳米孔测序的病原微生物检测系统和方法
WO2020220615A1 (zh) 一种基于竞争性等位pcr构建水稻分子标记图谱的方法及利用其进行育种的应用
Duncan et al. Next-Generation Sequencing in the Clinical Laboratory
Pös et al. Copy number variation: methods and clinical applications
AU2021269294A1 (en) Validation methods and systems for sequence variant calls
US20200294628A1 (en) Creation or use of anchor-based data structures for sample-derived characteristic determination
Smart et al. A novel phylogenetic approach for de novo discovery of putative nuclear mitochondrial (pNumt) haplotypes
CN115083521B (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
CN112885407B (zh) 一种基于二代测序的微单倍型检测分型系统和方法
CN107122625B (zh) 人类短片段串联重复序列高通量测序信息的处理方法
US11475980B2 (en) Methods of analyzing massively parallel sequencing data
CN112466395B (zh) 基于snp多态性位点的样本识别标签筛选方法与样本识别检测方法
CN109524060A (zh) 一种遗传病风险提示的基因测序数据处理系统与处理方法
CN109762909A (zh) 一种用于降解检材法医学个体鉴识的44个InDels位点复合扩增检测试剂盒
Wu et al. Application of third-generation sequencing for genetic testing of thalassemia in Guizhou Province, Southwest China
Kim et al. A Universal Analysis Pipeline for Hybrid Capture-Based Targeted Sequencing Data with Unique Molecular Indexes
CN112908413A (zh) 一种基于abo基因的血型分型方法
EP3942557A1 (en) Methods for partner agnostic gene fusion detection
CA2961563C (en) Methods of analyzing massively parallel sequencing data
CN113284552B (zh) 一种微单倍型的筛选方法及装置
TWI807861B (zh) 鑑定台灣人族群親緣性的方法及其系統
Traisrisilp et al. Thalassemia screening by third-generation sequencing: Pilot study in a Thai population

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant