CN107153776A - 一种y单倍群检测方法 - Google Patents

一种y单倍群检测方法 Download PDF

Info

Publication number
CN107153776A
CN107153776A CN201710203496.6A CN201710203496A CN107153776A CN 107153776 A CN107153776 A CN 107153776A CN 201710203496 A CN201710203496 A CN 201710203496A CN 107153776 A CN107153776 A CN 107153776A
Authority
CN
China
Prior art keywords
group
information
snp
single times
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710203496.6A
Other languages
English (en)
Other versions
CN107153776B (zh
Inventor
姚笑天
王传超
唐森威
陈钢
郑强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Morning Know Technology Co Ltd
Original Assignee
Shenzhen Morning Know Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Morning Know Technology Co Ltd filed Critical Shenzhen Morning Know Technology Co Ltd
Priority to CN201710203496.6A priority Critical patent/CN107153776B/zh
Publication of CN107153776A publication Critical patent/CN107153776A/zh
Application granted granted Critical
Publication of CN107153776B publication Critical patent/CN107153776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种Y单倍群检测方法,包括以下步骤:获取用于参照的Y单倍群树的参照Y单倍群树信息,其中,参照Y单倍群树信息包括Y单倍群树中每个参照单倍群的参照单倍群信息;将每个参照单倍群信息与测试SNP信息进行匹配,得到至少一个满足预设条件的目标参照单倍群;根据目标参照单倍群的参照单倍群坐标信息,获取与目标参照单倍群相关的第一数值与第二数值,并对每个目标参照单倍群进行评分,输出评分最高的目标参照单倍群所对应的结果信息。本发明实施例通过将参照单倍群与测试单倍群进行比对,基于从根节点出发到目标单倍群的路径的评分系统,可以同时适用二代测序结果和高通量micro array的SNP分型结果,检测适用性更高,提高检测手段的应用广泛度。

Description

一种Y单倍群检测方法
技术领域
本发明涉及基因测绘技术,更具体地说,涉及一种Y单倍群检测方法。
背景技术
人的基因组由22对常染色体和XY两条性染色体组成,其中22对常染色体在男性和女性中都有两条;而性染色体,女性有两个X染色体,男性则有一条X染色体和一条Y染色体。所以,Y染色体在人类遗传中,仅能由男性个体从其父亲遗传得到,而且该染色体不会发生同源重组的现象,因此可以用其上的SNP(单核苷酸多态性Single NucleotidePolymorphism)标记,利用分子生物学的方法,来反演推算父系祖源,并形成一个有根的Y染色体单倍群树。
这个Y染色体单倍群树,将现代人类分为18个大类型,用A到R的十八个字母作为索引。树上的父节点对应的SNP是所有子节点共有的。这个树表征了人类从最早的根结点,在迁徙繁衍过程中的不断在Y染色体上累积突变的过程。
目前,有ISOGG、Yfull等机构收录并升级各个研究的Y单倍群树结构的结果,包括树上的分支结构,以及各个节点对应的单倍群名字和所包含的SNP位点。
现有的Y单倍体检测算法大多是科学研究工具,如amy-tree算法,使用的方法适用于二代测序结果,在其算法中会挑选Y单倍群树中,对研究深入的单倍群会有倾向性输出,而且少量在单倍群树的叶子节点的假阳性测序结果,会很容被输出为计算结果,导致计算错误。YHap则是利用群体的低深度测序结果进行预测,不适用直接得到基因型的SNP分型数据。
因此,上述检测算法存在不能同时适用二代测序结果和高通量micro array(芯片数据)的SNP分型结果,使得检测算法适用性不够高,且容易出错的问题。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述检测算法存在不能同时适用二代测序结果和高通量micro array的SNP分型结果,使得检测算法适用性不够高,且容易出错的的缺陷,提供一种Y单倍群检测方法。
本发明解决其技术问题所采用的技术方案是:构造一种Y单倍群检测方法,所述方法包括以下步骤:
获取用于参照的Y单倍群树的参照Y单倍群树信息,其中,所述参照Y单倍群树信息包括所述Y单倍群树中每个参照单倍群的参照单倍群信息,所述参照单倍群信息包括参照单倍群坐标信息;
将所述每个参照单倍群的参照单倍群信息与每个测试SNP的测试SNP信息进行匹配,得到至少一个满足预设条件的目标参照单倍群;
根据所述目标参照单倍群的参照单倍群坐标信息,获取与所述目标参照单倍群相关的第一数值与第二数值,其中,所述第一数值为从所述目标参照单倍群到与所述目标参照单倍群对应的根节点单倍群之间路径上的其他目标参照单倍群数量,所述第二数值为所述其他目标参照单倍群数量与在所述路径上总的有效单倍群数量的比值;
根据所述第一数值与第二数值对每个所述目标参照单倍群进行评分,输出评分最高的目标参照单倍群所对应的结果信息。
实施本发明的Y单倍群检测方法,具有以下有益效果:
1、通过将参照单倍群与测试单倍群进行比对,利用从根节点出发到目标单倍群的路径所获得的数据对该目标单倍群的评分,同时适用二代测序结果和高通量micro array的SNP分型结果,使得检测适用性更高,提高检测手段的灵活度及应用广泛度;
2、利用高通量的SNP位点分型结果,通过遍历Y单倍群树的所有可能结果,基于从根节点出发的全路径评分系统,得到准确的Y单倍群分型结果,具有使Y单倍群的检测过程更加高效、稳定的特点;
3、该检测方法具有很强的容错性,可以根据实际检测的Y染色体DNA数量和质量,灵活调整参数,即使是质量较低的检测数据集也能得到较好的结果。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例一种Y单倍群检测方法的实现流程示意图;
图2是本发明实施例中删除不相关叶子节点单倍群的实现流程示意图;
图3是本发明实施例中测试SNP信息与叶子节点单倍群中参照SNP信息的匹配实现流程示意图;
图4是本发明实施例中获得目标参照单倍群的实现流程示意图;
图5是本发明实施例中参照单倍群的参照SNP信息与测试SNP信息匹配的实现流程示意图;
图6是本发明实施例中对目标参照单倍群进行标记的实现流程示意图;
图7是本发明实施例中一种输出评分最高的目标参照单倍群所对应的结果信息的实现流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
人的基因组由22对常染色体和XY两条性染色体组成,其中22对常染色体在男性和女性中都有两条;而性染色体,女性有两个X染色体,男性则有一条X染色体和一条Y染色体。所以,Y染色体在人类遗传中,仅能由男性个体从其父亲遗传得到,而且该染色体不会发生同源重组的现象,因此可以用其上的SNP标记,利用分子生物学的方法,来反演推算父系祖源,并形成一个有根的Y染色体单倍群树。
这个Y染色体单倍群树,将现代人类分为18个大类型,用A到R的十八个字母作为索引。树上的父节点对应的SNP是所有子节点共有的。这个树表征了人类从最早的根结点,在迁徙繁衍过程中的不断在Y染色体上累积突变的过程。
SNP是单核苷酸多态性(Single Nucleotide Polymorphism)的简写,是指基因组上单个核苷酸变异,即A、T、C、G四种碱基的互相改变,形成基因组上同一位置会有多种碱基存在的多态性。SNP在人群中广泛存在,多态性丰富,是很好的遗传标记物。尤其高通量的SNP检测方法出现之后,被广泛用于生物信息学的分析。本发明是基于Y染色体上的单核苷酸多态性(SNP)建立的应用。
本发明实施例适用于运行在python环境上,并且,python可以运行于debian系统,也可将其移植并运行于linux和windows系统,当然除了上述环境或平台,也可采用其他的环境或平台,本发明实施例对此不作限定。
图1示出了本发明实施例中一种Y单倍群检测方法的流程,为了便于说明,仅示出了与本发明实施例相关的部分。
如图1所示,在本发明的实施例中,包括以下步骤S:
步骤S100,获取用于参照的Y单倍群树的参照Y单倍群树信息,其中,参照Y单倍群树信息包括Y单倍群树中每个参照单倍群的参照单倍群信息,参照单倍群信息包括参照单倍群坐标信息;
步骤S200,将每个参照单倍群的参照单倍群信息与测试Y单倍群树中每个测试单倍群的测试单倍群信息进行匹配,得到至少一个满足预设条件的目标参照单倍群;
步骤S300,根据目标参照单倍群的参照单倍群坐标信息,获取与目标参照单倍群相关的第一数值与第二数值,其中,第一数值为从目标参照单倍群到与目标参照单倍群对应的根节点单倍群之间路径上的其他目标参照单倍群数量,第二数值为其他目标参照单倍群数量与在路径上总的有效单倍群数量的比值;
步骤S400,根据第一数值与第二数值对每个目标参照单倍群进行评分,输出评分最高的目标参照单倍群所对应的结果信息。
本发明实施例中,通过将参照单倍群与测试单倍群进行比对,利用从根节点出发到目标单倍群的路径所获得的数据对该目标单倍群的评分,可同时适用二代测序结果和高通量micro array的SNP分型结果,使得检测适用性更好,提高检测手段的灵活度及应用广泛度;且具有使Y单倍群的检测过程更加高效、稳定的有益效果。
在本发明实施例中,用于参照的Y单倍群树的参照Y单倍群树信息,可以是采用ISOGG公司或者Yfull公司的Y单倍群树信息作为参照Y单倍群树信息。以ISOGG的Y单倍群树举例子,其中共包含2531个参照单倍群。具体的,在参照Y单倍群树信息中,还包含该参照Y单倍群信息中的每个Y单倍群对应的SNP文件每个SNP对应的坐标,突变位点的状态以及对应的参照单倍群名称。
本发明实施例所采用的ISOGG发布的Y单倍群树信息如表1所示:
表1
A00 Root L1122 L1104 L1106 L1107 L1284 L1102 AF05
A0-T Root L1155 L1105 L1124 L1129 L1095 L1098 L1116
根据表1,可以很清楚的看到,图中每一行代表一个参照Y单倍群节点,其中第一列是该参照单倍群名称,第二列是该参照单倍群的父节点的名称。第三列开始,是该参照单倍群所包含的SNP的名字。
本发明实施例所采用的Y单倍群树信息中的每个参照单倍群对应的SNP文件如表2所示:
表2
A9457 02a2b1a1a5b 8550434 C→A
A9458 02a2b1a1a5b 19335462 T→C
根据表2,图中每一行代表一个参照SNP,其中第一列是该SNP的名字,第二列是其所属的单倍群,第三列是该SNP在Y染色体上的坐标,第四列是该SNP的碱基突变类型,如第一行的C->A,代表该SNP正常情况下是碱基C,不属于O2a2b1a1a5b单倍群对应的突变,如果突变成了A,则代表这个SNP属于O2a2b1a1a5b单倍群对应的突变。
本发明实施例所采用的用户的测试SNP数据,可以是微整列芯片的SNP的结果,也可以是二代测序的SNP结果。需要给出测试SNP的检测基因型,包括突变和未突变的测试SNP位点。数据如表3所示:
表3
chrY 21152971 C
chrY 23541348 G
chrY 14263051 C
根据表3,图中每一行代表Y染色体上一个SNP,每一列分别代表染色体名字,测试SNP的坐标信息,测试SNP的检测结果。
如图2所示,图2示出了本发明实施例的为了提高相关检测的效率及降低检测出错率,删除不相关叶子节点单倍群的流程,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例提供了一种删除不相关叶子节点单倍群的流程,如图2所示,该流程包括:
步骤S510,根据参照Y单倍群树信息,获取在参照Y单倍群树信息中的叶子节点单倍群的参照单倍群信息;
叶子节点单倍群为没有子节点单倍群的参照单倍群,位于Y单倍群树的末端。
步骤S520,获取测试SNP信息,将测试SNP信息与叶子节点单倍群的参照单倍群信息中的参照SNP信息进行坐标匹配;
步骤S530,根据匹配结果,删除坐标不匹配的参照SNP信息对应的所述叶子节点单倍群的参照单倍群信息,直至每一叶子节点单倍群的参照SNP信息均有所述测试SNP信息与之匹配。
如图3所示,图3示出了一种测试SNP信息与叶子节点单倍群中参照SNP信息的匹配实现流程,为了便于说明,仅示出了与本发明实施例相关的部分。
在本发明实施例中,该匹配实现流程包括:
步骤S521,获取测试SNP信息,以及参照单倍群信息的参照SNP信息;
作为本发明的一种实施例,测试SNP信息从检测人员提供的对用户检测所获得的SNP检测结果上获取,具体的,所获取的测试SNP信息具有如表2中所列举的数据格式。
步骤S522,将测试SNP信息中的测试SNP位点信息与参照SNP信息中的参照SNP位点信息进行匹配。
例如,若叶子节点单倍群为O2a2b1a1a5,其包含CTS1017,CTS7316,CTS10738这三个参照SNP,将上述CTS1017,CTS7316,CTS10738的参照SNP位点信息即其坐标,与用户的测试SNP位点信息进行比对,看该叶子节点单倍群O2a2b1a1a5中的参照SNP位点信息是否在测试SNP位点信息中。
本发明实施例对所有经获取的叶子节点单倍群的参照SNP进行与测试SNP信息的匹配遍历,查找每个是否有测试SNP的坐标位点与其参照SNP匹配。
根据匹配结果,删除坐标匹配的参照SNP信息的叶子节点单倍群,直至每一叶子节点单倍群的参照SNP信息均有测试SNP信息与之匹配。
例如,若叶子节点单倍群为O2a2b1a1a5,其包含CTS1017,CTS7316,CTS10738这三个参照SNP,将上述CTS1017,CTS7316,CTS10738的参照SNP位点信息即其坐标,与用户的测试SNP位点信息进行比对,若该叶子节点单倍群O2a2b1a1a5中的参照SNP位点信息均未在该测试SNP位点信息中,则可以认定该叶子节点单倍群O2a2b1a1a5为不相关的叶子节点单倍群,执行将其名称及参照单倍群信息删除的指令,以此一一对所有叶子节点单倍群进行匹配测试,以修剪不相关的叶子节点单倍群,最后使得参照Y单倍群树信息中的叶子节点单倍群均包含有与测试SNP位点相对的参照单倍群。
若该参照Y单倍群树信息中,包含有过多与测试SNP不相关的叶子节点单倍群,不仅会影响测试SNP的检测效率,而且可能会提高出错率。本发明实施例先获取参照Y单倍群树信息中的叶子节点单倍群的参照单倍群信息,将不含有测试SNP位点的叶子节点单倍群的信息删除,当对参照SNP与测试SNP进行遍历匹配的过程中,可以有效降低检测出错率,提高检测效率。
如图4所示,图4示出了本发明实施例中获得目标参照单倍群的具体流程,为了便于说明,仅示出了与本发明实施例相关的部分。
在本发明实施例中,该流程包括:
步骤S210,遍历所述参照Y单倍群树信息;
步骤S220,若所述参照Y单倍群树信息中有参照单倍群的参照SNP信息与所述测试SNP信息匹配,则将所述参照SNP信息对应的参照SNP定义为目标SNP;
在本发明实施例中,匹配时,可将上述表2中的参照SNP信息与表3中的测试SNP信息进行对比匹配。
优选的,如图5所示,图5示出了本发明实施例的参照单倍群的参照SNP信息与测试SNP信息匹配的具体流程,为了便于说明,仅示出了与本发明实施例相关的部分。该流程包括:
步骤S221,获取每个测试SNP信息的测试SNP位点信息,以及每个所述参照SNP信息的参照SNP位点信息;
步骤S222,若一所述测试SNP位点信息与一参照SNP位点信息匹配,则将配对后的所述测试SNP的测试SNP碱基突变类型信息,和与之配对的参照SNP的参照SNP分型结果信息进行再次匹配;
在本发明实施例中,首先,将测试SNP遍历所有的树上的节点,若有一个测试SNP位点信息与一个参照Y单倍群树节点上的单倍群A0a1a所包含的SNP名称为V169的参照SNP位点信息一样,则对该测试SNP的分型结果与该单倍群A0a1a的碱基突变类型进行再次匹配。
步骤S223,若两次匹配均成功,则将匹配成功的所述测试SNP定义为目标SNP。
可以理解的,若两次匹配均成功,该测试SNP为大概率与所匹配的参照单倍群一致,两次匹配可以保证其检测结果的准确性。
步骤S230,若有所述参照单倍群满足至少包含有预设比例值的目标SNP,则将满足条件的所述参照单倍群定义为目标参照单倍群。
例如,将含有目标SNP的数量与该参照单倍群的总参照SNP数量的比值为0.1设置为该预设比例值的阈值,对于参照Y单倍群树某一节点的单倍群名称为O2a2b1a1a5,包含CTS1017,CTS7316,CTS10738,CTS1017,M1543,M1694,CTS10738,M1726共8个参照SNP,如果检测结果中检测了其中7个,并且7个中有CTS1017,CTS7316两个测试SNP信息符合O2a2b1a1a5中的突变情况,则该节点满足上述匹配条件的测试SNP比例达到了0.286(2/7),超过了预设的0.1的阈值,将O2a2b1a1a5标记为目标参照单倍群。
优选的,图6示出了本发明实施例中对目标参照单倍群进行标记的流程,为了便于说明,仅示出了与本发明实施例相关的部分。
在本发明实施例中,包括以下判断方式:
若所述参照单倍群为目标参照单倍群,则将所述参照单倍群的状态信息定义为True;
若所述参照单倍群包含有目标SNP但比例低于预设比例值,则将所述参照单倍群的状态信息定义为False;
若所述参照单倍群不包含与测试SNP坐标匹配的参照SNP,则将所述参照单倍群的状态信息定义为None。
进一步的,有效单倍群是状态信息为True或False的参照单倍群。
如此标记,可以清楚地区分用户不同测试SNP与参照Y单倍群树中的参照SNP之间的匹配程度,将用户所有的测试SNP区分为True、False、None三种匹配度,在评分过程中,只将定义为True和False两种状态的参照单倍群作为有效单倍群,进而将有效单倍群作为评分基础,不仅有利于提高检测的效率,还可以提高该评分的可靠度与准确度。
在评分的时候为了能更加方便、直观,目标参照单倍群的评分为所述第一数值与第二数值的乘积,其中,第一数值为从目标参照单倍群到与目标参照单倍群对应的根节点单倍群之间路径上的其他目标参照单倍群数量,第二数值为其他目标参照单倍群数量与在路径上总的有效单倍群数量的比值。
在本发明实施例中,计算的公式可以为Score=P(True)*N(True)。其中P(True)是从Y单倍群树的根节点单倍群出发,到该目标参照单倍群的整个路径上通过的所有的节点,其状态为True占所有不是None的节点的比例。举例来说,如某一目标参照单倍群O2a2b1a1a5为True,则找到从root开始到它,经过所有的节点为“A0-T”,“A1”,“A1b”,“BT”,“CT”,“CF”,“F”,“GHIJK”,“HIJK”,“IJK”,“K”,“K2”,“NO”,“O”,“O2”,“O2a”,“O2a2”,“O2a2b”,“O2a2b1”,“O2a2b1a”,“O2a2b1a1”,“O2a2b1a1a”,“O2a2b1a1a5”,共23个,如果其中20个节点状态为True,2个为False,1个为None,则P(True)等于0.91(20/22)。N(True)为路径上所有状态为True的点,在举例中N(True)等于20。整体的评分所得分数(Score)等于P(True)*N(True),即18.2(0.91*20)。对所有的点,都计算出对应的分数值。
可以理解的,除了上述将第一数值与第二数值相乘得出数值的方式,也可以将第一数值与第二数值作为参考值,进行任何方式的权重计算,以得出对检测结果的比对有利的评分方式。
结合上述标记的方法,对所有状态为True的节点,计算评价分数,可以给出一个较为具有参考价值的结果。
图7示出了本发明实施例中一种输出评分最高的目标参照单倍群所对应的结果信息的流程,为了便于说明,仅示出了与本发明实施例相关的部分。
作为本发明的一种实施例,该具体流程包括:
步骤S410,若评分最高的目标参照单倍群为唯一,则将评分最高的目标参照单倍群所对应的结果进行输出;
例如,当有“O2a2a”“A0a2”“A0b”3个目标参照单倍群时,若其评分分别是“16.8”“21.3”“19.1”,则将获得最高分“21.3”的“A0a2”结果进行输出。
步骤S420,若评分最高的目标参照单倍群不唯一,则比较各个评分最高的目标参照单倍群的目标SNP所占比例,将其中目标SNP所占比例最高的目标参照单倍群所对应的结果信息进行输出。
例如,当有“O2a2a”,“A0a2”,“A0b”3个目标参照单倍群时,若其评分分别是“16.8”“19.1”“19.1”,则“A0a2”,“A0b”同时获得相同的最高分,然后需对比“A0a2”,“A0b”中目标SNP所占比例,若“A0a2”,“A0b”的目标SNP所占比例分别是“0.4”,“0.3”,则将“A0a2”的结果进行输出。
步骤S430,若评分最高的目标参照单倍群不唯一,且其中目标SNP所占比例均相同,则随机输出其中一个评分最高的目标参照单倍群所对应的结果信息。
例如,当有“O2a2a”,“A0a2”,“A0b”3个目标参照单倍群时,若其评分分别是“19.1”,“19.1”,“19.1”,则“O2a2a”,“A0a2”,“A0b”同时获得相同的最高分,且若其目标SNP所占比例均相同,则直接随机输出一个目标参照单倍群的结果。
可以理解的,上述结果输出方法只是其中一种优选方案,也可以根据实际需要进行设计,例如同时输出最高的两个或两个以上数据作为参考,本发明实施例对此不作限定。
在本发明实施例中,结果信息包括评分最高的目标参照单倍群所对应的名称信息、坐标信息、与目标参照单倍群对应的根节点单倍群之间的路径信息的一个或多个。
上述信息可以清楚的表示检测结果的信息,方便检测者根据该信息作出分析及处理。
下面将列举23andMe、amy tree和本方法(记为“本发明实施例”)在不同数据集中的表现情况,来展示本方法的有益效果。
1、使用千人基因组phase3的数据比较,得到的Y染色体单倍型结果如表4所示:
表4
可以看到,三种发放在大部分人的结果分析上有一致的结论(如果不同的单倍群结果,单倍群名字前面的字母和数字一样的话,可以认为是大致一致的,只是精度有差别)。在不一致的部分,本发明实施例与23andMe的结果一致性较好,amy tree部分结果与这两个有较大差异(三角形标记)。
2.使用本发明实施例检测的部分micro array数据比较三种方法,得到的Y染色体单倍型结果如表5所示:
表5
ID 23and Me yhaplo 本发明实施例 amy tree
22271602272658 Ao-TΔ N1c2b2 N1c2b2
27311602271750 Ao-TΔ R1a1a1b2a2a R1a1a1b2a2a
33241602272739 Ao-TΔ C1a1a1 C1a1a2
37661602274626 Ao-TΔ O1b1a1a1a1a2 O1b1a1a1a1a2
37726031800398 Ao-TΔ O2b1a O2b1a
3839548230069 Ao-TΔ R1a1a1b2a2b1b R1a1a1b2a2b1b
43385432200146 Ao-TΔ O2a2b1a2a1a1a1Δ C2e1b2Δ
47061602272612 Ao-TΔ C2e1a1a C2e1b1a
48085262300489 Ao-TΔ O2a1a2 O2a1a2
53071602274893 Ao-TΔ O1a2 O1b1a1a1b
57635432200796 Ao-TΔ E1a2b1a2Δ D1b2a2Δ
61295432200700 Ao-TΔ Q1a2a1c1Δ T1a1a3Δ
67541602272634 Ao-TΔ O1a1a1a1a1 O1b1a1a1b
79941602272898 Ao-TΔ O1b2a O1b1a1a1b
92551602274266 Ao-TΔ Q1a1a1 Q1a1a1
可以看到,23andMe的方法出现了明显的问题,所有人的结果都被认为是相同的,A0-T是非常原始的单倍群,几乎不可能在中国人群总检测到。而本发明实施例的结果更具合理性,得到的结果都是中国人群可能出现的单倍群类型。
3.考察三个方法在缺失数据情况下的表现。
a.随机取千人基因组50%的数据,得到的Y染色体单倍型结果如表6所示:
表6
b.随机取千人基因组10%的数据,得到的Y染色体单倍型结果,如表7所示:
表7
c.随机取千人基因组5%的数据,得到的Y染色体单倍型结果如表8所示:
表8
通过随机挑选一定比例的千人基因组可以看到,23andMe和本方法的一致性很好而amy tree的算法则很不稳定。对比挑选位点之前的结果,23andme和本发明实施例的方法也有很稳定的输出,而amy tree的结果则很容易受异常值得影响,导致不同数据集之间的结果波动很大。
在本发明实施例中,结合上述测试实验结果可知本发明实施例具有以下有益效果:
1、通过将参照单倍群与测试单倍群进行比对,利用从根节点出发到目标单倍群的路径所获得的数据对该目标单倍群的评分,可以同时适用二代测序结果和高通量microarray的SNP分型结果,使得检测适用性更高,提高检测手段的灵活度及应用广泛度;
2、利用高通量的SNP位点分型结果,通过遍历Y单倍群树的所有可能结果,基于从根节点出发的全路径评分系统,得到准确的Y单倍群分型结果,具有使Y单倍群的检测过程更加高效、稳定的特点;
3、该检测方法具有很强的容错性,可以根据实际检测的Y染色体DNA数量和质量,灵活调整参数,即使是质量较低的检测数据集也能得到较好的结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机、手机等终端设备的可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
可以理解的,以上实施例仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制;应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,可以对上述技术特点进行自由组合,还可以做出若干变形和改进,这些都属于本发明的保护范围;因此,凡跟本发明权利要求范围所做的等同变换与修饰,均应属于本发明权利要求的涵盖范围。

Claims (10)

1.一种Y单倍群检测方法,其特征在于,包括以下步骤:
获取用于参照的Y单倍群树的参照Y单倍群树信息,其中,所述参照Y单倍群树信息包括所述Y单倍群树中每个参照单倍群的参照单倍群信息,所述参照单倍群信息包括参照单倍群坐标信息;
将所述每个参照单倍群的参照单倍群信息与每个测试SNP的测试SNP信息进行匹配,得到至少一个满足预设条件的目标参照单倍群;
根据所述目标参照单倍群的参照单倍群坐标信息,获取与所述目标参照单倍群相关的第一数值与第二数值,其中,所述第一数值为从所述目标参照单倍群到与所述目标参照单倍群对应的根节点单倍群之间路径上的其他目标参照单倍群数量,所述第二数值为所述其他目标参照单倍群数量与在所述路径上总的有效单倍群数量的比值;
根据所述第一数值与第二数值对每个所述目标参照单倍群进行评分,输出评分最高的目标参照单倍群所对应的结果信息。
2.如权利要求1所述的Y单倍群检测方法,其特征在于,在所述将所述每个参照单倍群的单倍群参照信息与每个测试SNP的测试SNP信息进行匹配,得到至少一个满足预设条件的目标参照单倍群之前,还包括:
根据所述参照Y单倍群树信息,获取在所述参照Y单倍群树信息中的叶子节点单倍群的参照单倍群信息;
获取所述测试SNP信息,将所述测试SNP信息与所述叶子节点单倍群的参照单倍群信息中的参照SNP信息进行坐标匹配;
根据匹配结果,删除坐标不匹配的参照SNP信息对应的所述叶子节点单倍群的参照单倍群信息,直至每一所述叶子节点单倍群的参照SNP信息均有所述测试SNP信息与之匹配。
3.如权利要求2所述的Y单倍群检测方法,其特征在于,所述获取所述测试SNP信息,将所述测试SNP信息与所述叶子节点单倍群的参照单倍群信息中的参照SNP信息进行匹配,包括:
获取所述测试SNP信息,以及所述叶子节点单倍群的参照单倍群信息的参照SNP信息;
将所述测试SNP信息中的测试SNP位点信息与所述参照SNP信息中的参照SNP位点信息进行匹配。
4.如权利要求1所述的Y单倍群检测方法,其特征在于,所述将所述每个参照单倍群的参照单倍群信息与每个测试SNP的测试SNP信息进行匹配,得到至少一个满足预设条件的目标参照单倍群,包括:
遍历所述参照Y单倍群树信息;
若所述参照Y单倍群树信息中有参照单倍群的参照SNP信息与所述测试SNP信息匹配,则将所述参照SNP信息对应的参照SNP定义为目标SNP;
若有所述参照单倍群满足至少包含有预设比例值的目标SNP,则将满足条件的所述参照单倍群定义为目标参照单倍群。
5.如权利要求4所述的Y单倍群检测方法,其特征在于,所述若所述参照Y单倍群树信息中有参照单倍群的参照SNP信息与所述测试SNP信息匹配,则将所述参照SNP信息对应的参照SNP定义为目标SNP,包括:
获取每个测试SNP信息的测试SNP位点信息,以及每个所述参照SNP信息的参照SNP位点信息;
若一所述测试SNP位点信息与一参照SNP位点信息匹配,则将配对后的所述测试SNP的测试SNP碱基突变类型信息,和与之配对的参照SNP的参照SNP分型结果信息进行再次匹配;
若两次匹配均成功,则将匹配成功的所述测试SNP定义为目标SNP。
6.如权利要求4所述的Y单倍群检测方法,其特征在于,所述若有所述参照单倍群满足至少包含有预设比例值的目标SNP,则将满足条件的所述参照单倍群定义为目标参照单倍群,包括:
若所述参照单倍群为目标参照单倍群,则将所述参照单倍群的状态信息定义为True;
若所述参照单倍群包含有目标SNP但比例低于预设比例值,则将所述参照单倍群的状态信息定义为False;
若所述参照单倍群不包含与测试SNP坐标匹配的参照SNP,则将所述参照单倍群的状态信息定义为None。
7.如权利要求6所述的Y单倍群检测方法,其特征在于,所述有效单倍群是状态信息为True或False的参照单倍群。
8.如权利要求1所述的Y单倍群检测方法,其特征在于,所述目标参照单倍群的评分为所述第一数值与第二数值的乘积。
9.如权利要求1所述的Y单倍群检测方法,其特征在于,所述根据所述第一数值与第二数值对每个所述目标参照单倍群进行评分,输出评分最高的目标参照单倍群所对应的结果信息,包括:
若所述评分最高的目标参照单倍群为唯一,则将所述评分最高的目标参照单倍群所对应的结果进行输出;
若所述评分最高的目标参照单倍群不唯一,则比较各个评分最高的目标参照单倍群的目标SNP所占比例,将其中目标SNP所占比例最高的目标参照单倍群所对应的结果信息进行输出。
若所述评分最高的目标参照单倍群不唯一,且其中目标SNP所占比例均相同,则随机输出其中一个所述评分最高的目标参照单倍群所对应的结果信息。
10.如权利要求1所述的Y单倍群检测方法,其特征在于,所述结果信息包括评分最高的目标参照单倍群所对应的名称信息、坐标信息、与所述目标参照单倍群对应的根节点单倍群之间的路径信息的一个或多个。
CN201710203496.6A 2017-03-30 2017-03-30 一种y单倍群检测方法 Active CN107153776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710203496.6A CN107153776B (zh) 2017-03-30 2017-03-30 一种y单倍群检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710203496.6A CN107153776B (zh) 2017-03-30 2017-03-30 一种y单倍群检测方法

Publications (2)

Publication Number Publication Date
CN107153776A true CN107153776A (zh) 2017-09-12
CN107153776B CN107153776B (zh) 2020-05-12

Family

ID=59792572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710203496.6A Active CN107153776B (zh) 2017-03-30 2017-03-30 一种y单倍群检测方法

Country Status (1)

Country Link
CN (1) CN107153776B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108841968A (zh) * 2018-06-28 2018-11-20 北京水母科技有限公司 一种使用高通量dna杂交芯片的人类y染色体snp分型方法
CN110273005A (zh) * 2019-05-25 2019-09-24 深圳市早知道科技有限公司 一种基于snp分型的与古人比较相似性的方法
CN111210874A (zh) * 2020-01-07 2020-05-29 北京奇云诺德信息科技有限公司 一种基于基因大数据进行祖源分析预测的算法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1570138A (zh) * 2003-07-16 2005-01-26 国家人类基因组南方研究中心 胆石症易感性检测方法和试剂盒
CN101914628A (zh) * 2010-09-02 2010-12-15 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法及 系统
CN105320850A (zh) * 2014-08-03 2016-02-10 晶能生物技术(上海)有限公司 一种高通量测序数据匹配方法
CN105512514A (zh) * 2014-09-23 2016-04-20 深圳华大基因股份有限公司 一种mhc补全数据库、其构建方法和应用
CN106399543A (zh) * 2016-10-26 2017-02-15 四川大学 基于74个y染色体snp遗传标记的法医学二代测序试剂盒

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1570138A (zh) * 2003-07-16 2005-01-26 国家人类基因组南方研究中心 胆石症易感性检测方法和试剂盒
CN101914628A (zh) * 2010-09-02 2010-12-15 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法及 系统
CN105320850A (zh) * 2014-08-03 2016-02-10 晶能生物技术(上海)有限公司 一种高通量测序数据匹配方法
CN105512514A (zh) * 2014-09-23 2016-04-20 深圳华大基因股份有限公司 一种mhc补全数据库、其构建方法和应用
CN106399543A (zh) * 2016-10-26 2017-02-15 四川大学 基于74个y染色体snp遗传标记的法医学二代测序试剂盒

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FESENKO DENIS等: "Biochip for Genotyping SNPs Defining Core Y-chromosome Haplogroups in Russian Population Groups", 《BIOCHIP J.》 *
GALA ZUCCARELLI等: "Rapid screening for Native American mitochondrial and Y-chromosome haplogroups detection in routine DNA analysis", 《ORENSIC SCIENCE INTERNATIONAL: GENETICS》 *
刘树虎等: "和田维吾尔族人群Y染色体遗传多样性分析", 《生物技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108841968A (zh) * 2018-06-28 2018-11-20 北京水母科技有限公司 一种使用高通量dna杂交芯片的人类y染色体snp分型方法
CN110273005A (zh) * 2019-05-25 2019-09-24 深圳市早知道科技有限公司 一种基于snp分型的与古人比较相似性的方法
CN111210874A (zh) * 2020-01-07 2020-05-29 北京奇云诺德信息科技有限公司 一种基于基因大数据进行祖源分析预测的算法

Also Published As

Publication number Publication date
CN107153776B (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
Cheema et al. Computational approaches and software tools for genetic linkage map estimation in plants
CA2964902C (en) Ancestral human genomes
US7831392B2 (en) System and process for validating, aligning and reordering one or more genetic sequence maps using at least one ordered restriction map
US20200082905A1 (en) Admixed synthetic reference panel
CN108154198A (zh) 知识库实体归一方法、系统、终端和计算机可读存储介质
CN109543775A (zh) 一种基于密度聚类的面向聚类算法的特征选择方法
CN104866863B (zh) 一种生物标志物筛选方法
CN107153776A (zh) 一种y单倍群检测方法
CN108830044A (zh) 用于检测癌症样本基因融合的检测方法和装置
CN110097529B (zh) 一种基于语义规则的农田定级单元划分方法及系统
CN108154010B (zh) 一种ctDNA低频突变测序数据分析方法和装置
CN108319984A (zh) 基于dna甲基化水平的木本植物叶片表型特征和光合特性预测模型的构建方法及预测方法
Tabima et al. Populations of Phytophthora rubi show little differentiation and high rates of migration among states in the western United States
CN108804876A (zh) 用于计算癌症样本纯度和染色体倍性的方法和装置
CN110010195A (zh) 一种探测单核苷酸突变的方法及装置
Yang et al. Detecting recent positive selection with a single locus test bipartitioning the coalescent tree
Maenhout et al. Graph-based data selection for the construction of genomic prediction models
CN109390032A (zh) 一种基于进化算法在全基因组关联分析的数据中探索与疾病相关的snp组合的方法
CN107111689A (zh) 用于生成非编码‑编码基因共表达网络的方法和系统
CN101894216B (zh) 从snp数据中发现与复杂疾病相关snp组的方法
US20220068437A1 (en) Base mutation detection method and apparatus based on sequencing data, and storage medium
CN111739582B (zh) 一种基于协同作用网络的生物组学数据分析方法
Zhang et al. nSEA: n-Node Subnetwork Enumeration Algorithm Identifies Lower Grade Glioma Subtypes with Altered Subnetworks and Distinct Prognostics
CN109754843B (zh) 一种探测基因组小片段插入缺失的方法及装置
Yeo et al. DNA marker mining of ILSTS035 microsatellite locus on chromosome 6 of Hanwoo cattle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant