CN110211639B - 一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系 - Google Patents

一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系 Download PDF

Info

Publication number
CN110211639B
CN110211639B CN201810149895.3A CN201810149895A CN110211639B CN 110211639 B CN110211639 B CN 110211639B CN 201810149895 A CN201810149895 A CN 201810149895A CN 110211639 B CN110211639 B CN 110211639B
Authority
CN
China
Prior art keywords
genetic
genetic marker
genetic markers
data
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810149895.3A
Other languages
English (en)
Other versions
CN110211639A (zh
Inventor
陈华
赵石磊
马亮
石承民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xiji Digital Technology Co ltd
Beijing Institute of Genomics of CAS
Original Assignee
Beijing Institute of Genomics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Genomics of CAS filed Critical Beijing Institute of Genomics of CAS
Priority to CN201810149895.3A priority Critical patent/CN110211639B/zh
Publication of CN110211639A publication Critical patent/CN110211639A/zh
Application granted granted Critical
Publication of CN110211639B publication Critical patent/CN110211639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明属于分子生物学和遗传学领域,具体公开了一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系。所述构建方法包括对遗传标记数据进行数据分割和遗传标记挑选,或视情况对分割后的数据进行过滤,或对挑选后的遗传标记进行整合优化。采用本发明所述的方法可成功地使计算的复杂度从O(2n)降低到O(n2)。结合一些简单的预筛策略,本发明所述方法可以处理成千人至万人的全基因组数据,从中挑选遗传标记参照系。在实际应用中,可根据实际需要用所述方法挑选既具有指定准确率(如95%或99%),又包含遗传标记数目较少的参照系。这些特性在在法医或医学遗传研究中具有重要应用价值。

Description

一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标 记参照系
技术领域
本发明属于分子生物学和遗传学领域,具体地说,涉及一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系。
背景技术
法医分析的重要任务之一就是明确个体的群体起源和类群来源,从而有效地缩小调查范围。在过去的几十年中,虽然很多类群特异性遗传标记不断被开发出来,然而仅仅个别几类被应用于实际法医检验。近年来,随着基因型分析技术和测序技术的飞速发展,大量的遗传数据涌现,为充分发掘分子遗传标记的应用潜能提供了机遇。事实上,多态性遗传标记已经被成功用于体貌特征的预测和地理来源和家系起源的推断。可以说,法医科学已经进入了“DNA智能”的新时代。
SNP标记是人类基因组中最丰富的遗传标记,平均1250个碱基中就有至少一个SNP位点。由于SNP标记的稳定性、在基因组中的丰富性以及其反映其变异的等位基因频率模式的完整性,SNP标记已成为群体鉴别最好的遗传标记。STR标记是另一类多态性遗传标记,前基因组时代在群体遗传分析和医学鉴定中最常用的遗传标记。由于其多态性高、等位基因丰富的特点,特别适合亲缘关系较近的群体和个体的区分识别。在当前法医学领域,STR标记是应用最广泛的遗传标记。
近几十年人类群体基因组学和疾病遗传学的研究已经积累了海量的SNP和STR数据资源,使得当前应用SNP和STR进行遗传分析的兴趣持续高涨。然而,很多法医遗传分析中所收集的DNA样品仅仅能满足少数遗传标记位点的遗传分析,很难满足全面的标记分析需要。因此,从海量基因组变异中挑选信息量高的少数SNP和STR位点作为参照系来满足特定的法医遗传分析需要就变得非常重要。
同时,近年来人类群体遗传学研究结果表明,上述基于少数遗传标记参照系的策略具有很高的可行性。相关研究发现大量的遗传变异在不同群体中共享,而仅仅一小部分遗传变异才具有群体特异性。这些群体特异性的遗传标记对个体祖源具有指示作用,然而这些位点在群体中的频率很低,因此很难用于类群的有效推断。在群体共享的常见的遗传标记中还存在一些SNP和STR位点,它们在不同群体中的等位基因频率显著不同,即表现为较高的FST值。这些位点也极具类群来源分析的潜力,可用于法医遗传分析,也是当前相关研究关注的焦点之一。此外,由于基因组水平的SNP和STR都处于连锁不平衡(linkagedisequilibria),因此,它们之间的遗传信息在一定程度上存在冗余;少数代表性的高信息丰度SNP或STR参照系即可有效揭示整个基因组水平的遗传差异情况,从而在有效地减少遗传分析中标记的数目同时又不大范围损失遗传材料所包含的信息。这些高信息丰度的遗传标记在法医和医学遗传分析中极具应用潜力。
已有一些研究采取经验性的方法从大规模基因组数据中挑选遗传标记参照系。然而,这类筛选方法步骤繁杂,而且无法保证所筛选的参照系包含了最优的,亦或接近最优的遗传标记组合。一种更高效的方法是从通过深入地搜索海量的基因组数据资源,从中挑选信息量最高的SNP和STR标记。然而,当前尚缺乏这类方法为法医调查服务。
发明内容
为了解决现有技术中存在的问题,本发明的目的是提供一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系。
一个高效的遗传标记参照系应当同时满足一下两个条件:(1)对类群成员推断的准确性最大化,或者可以达到一个主观设定的准确性阈值;(2)在满足一个准确性阈值的情况下,使得遗传标记参照系中包含的遗传标记的数目最小化。
理论上讲,上述两个条件可以通过对整个基因组数据的穷尽式搜索比较来实现,但从计算的角度而言,穷尽式搜索方法无法实现。因为,穷尽式搜索的运算量是所选参照系包含的遗传标记数目的指数函数,亦即计算的复杂度为O(2n)。例如,要挑选含有200个SNP遗传标记的参照系,则需要穷尽式搜索和评估2200种可能的组合形式,这种繁琐的评估方式和巨大的工作量对实际应用来说,是不现实的。
而本发明所提供的方法,可以克服这一难题。
本发明所述方法实际为一种用于挑选遗传标记参照系的递归算法,该算法不仅可使所挑选的遗传标记参照系可满足上述两个标准,而且可以有效地将计算的复杂度降低到了O(n2),从而使相关方法可用于基因组水平的遗传标记数据。
具体地说,本发明的技术方案如下:
第一方面,本发明提供了一种群体区分和鉴定的遗传标记参照系的构建方法,所述方法如图1所示,包括如下步骤:
(1)数据分割:
以已知的遗传标记数据库作为样本,按照遗传信息差异对样本数据进行分割,得到多个类;
(2)数据过滤:
计算各个类中遗传标记的FST值,并据此对各个类中的遗传标记进行降序排列,当数据中包括的遗传标记数目小于或等于50000时,全部用于下一步分析,当数据中包含的遗传标记数目大于50000时,保留各类中排列于前2%~10%个遗传标记;
(3)遗传标记挑选:
针对数据过滤后得到的全部特征(遗传标记)构成的集合L,以#L表示特征总数量,运用特征选择算法挑选出u<#L个能够极大化累计分类能力(Cumulative ClassificationAbility,CCA)的特征序列(特征子集),该序列构成集合,称为极大分类子(特征)集(记为MaC集),即可作为指征性遗传标记参照系;
其中,所述特征选择算法如算法一所示:
算法一:
步骤一:产生#L个以不同特征为起始元素且长度为u的特征序,对于
Figure BDA0001579751690000041
以/>
Figure BDA0001579751690000042
表示第一个元素为l长度为u的序列,其产生过程如下:
S1、对于
Figure BDA0001579751690000043
产生/>
Figure BDA0001579751690000044
其中l1=l。
S2、对于任意2≤i≤u,若已有
Figure BDA0001579751690000045
选可极大化累计分类能力(CCA)的特征作为第i个元素,
Figure BDA0001579751690000046
并产生
Figure BDA0001579751690000047
其中/>
Figure BDA0001579751690000048
表示子集
Figure BDA0001579751690000049
的余集。
步骤二:比较#L条序列的累计分类能力,并选择最优序列作为极大分类(特征)集(MaC集),
Figure BDA00015797516900000410
其中/>
Figure BDA00015797516900000411
其中,关于累计分类能力说明如下:
若存在有限序列Sn={l1,l2,…,ln},满足
Figure BDA00015797516900000412
Figure BDA00015797516900000413
此序列的累计分类能力递归计算如下:
1、对于S1={l1},定义
Figure BDA00015797516900000414
其中/>
Figure BDA00015797516900000415
为特征l1的分类能力。
2、对于2≤j≤n,Sj=Sj-1∪{lj},定义
Figure BDA00015797516900000416
其中
Figure BDA00015797516900000417
为特征li和lj的标准化互信息。
其中,关于特征的分类能力说明如下:
若已知类标的集合为K,且对于特征l∈L的各取值在每类中的分布频率已知或者已获得估计,并以pkl(g)表示,即类别k∈K中特征l上取值为g∈G的概率。对于两个不同的类k1,k2∈K,可定义从类别k1到k2在特征l上的KL散度为:
Figure BDA0001579751690000051
特征l的分类能力定义为:
Figure BDA0001579751690000052
即任两两类别在特征l上的绝对KL散度之和。
其中,关于标准化互信息说明如下:
对于任意两个特征l1,l2∈L,以G1和G2分别表示特征l1和l2所有可能取值的集合,定义特征l1各取值g1∈G1的分布为
Figure BDA0001579751690000053
定义特征l2各取值g2∈G2的分布为/>
Figure BDA0001579751690000054
以及l1和l2取值的联合分布为/>
Figure BDA0001579751690000055
Figure BDA0001579751690000056
特征l1和l2的标准化的互信息可表示为:
Figure BDA0001579751690000057
其中,
Figure BDA0001579751690000058
和/>
Figure BDA0001579751690000059
分别表示特征l1和l2信息熵,/>
Figure BDA00015797516900000510
为特征l1和l2的互信息,即
Figure BDA00015797516900000511
Figure BDA00015797516900000512
Figure BDA00015797516900000513
(4):整合优化;
具体为:运用另一个特征选择算法,将从每个类中挑选的子集整合成一个综合参照系;
其中,所述另一个特征选择算法如算法一所示:
算法二:
基于贪婪式的逐步添加/验证的算法,对由各子类挑选出的MaC集进行优化整合,并产生全局最优特征集合P。
若已经根据不同子类的组合筛选出m个MaC集,则
步骤一:由于每个MaC集都是一个特征序列,即特征的排列是有顺序的。设置m个指针,并分别指向每个MaC集的第一个元素。初始化空集P。
步骤二:依次测试将每个指针对应的特征加入集合P后应用此集合指征性遗传标记对已知类别进行分类的平均精度增益(即平均精度的提高量)。保留获得最高平均精度增益的特征做为P的新元素,并将指向此特征的指针在相应的MaC集中依序向后移动一个元素。
步骤三:当满足下列任一条件时,终止向P继续添加新元素:1)应用P集中的特征对已知类别进行分类已达到预设的平均精度(例如,≥95%);2)P集中的特征数量已达到预设值;否则,返回步骤二。
需要说明的是,本发明所述方法适用于包括现代人群、动植物等在内的各个物种的群体区分和鉴定。本发明在下文中以现代人的群体作示例性说明,但在实际应用中,所述群体并不局限于人群。
进一步需要说明的是,前述方法中,步骤(2)和步骤(4)并不是必需的步骤。
本发明所提供的群体区分和鉴定的遗传标记参照系的构建方法,包括前述步骤中的步骤(1)和步骤(3),或包括前述步骤中的步骤(1)-(3),或包括前述步骤中的(1)、(3)、(4),或包括前述步骤中的(1)-(4)。
当指征目标类别中存在层次的嵌套关系或者存在已知的需要进行独立进行特征筛选的类别子集时或者需要增强某些子类的区分能力时,可在分别对不同层次或者类别子集进行步骤(3)之后增加步骤(4),对步骤(3)所获得的对应于各类别子集的MaC集进一步优化整合。
所述整合优化具体为:运用另一个特征选择算法(算法二),将从每个类中挑选的子集整合成一个综合参照系。经过整合优化步骤,可使步骤(3)获得子集中,具有最大平均精度的遗传标记提取到综合参照系中。
在本发明所述的方法中,所述特征选择算法可通过多种脚本实现,例如,可通过MATLAB软件包AIM-SNPtag实现,也可通过C/C++、JAVA、PYTHON或R语言实现。因此,本发明不对用于实现特征选择算法的脚本作限定性说明,仅在具体实施方式中以MATLAB软件包AIM-SNPtag作为示例性说明。
所述遗传标记可为任何可反映或体现遗传信息差异的遗传标记,其类型包括但不限于SNP、STR。
由于可反映或体现遗传信息差异的类别指征在遗传特征上存在内部结构,均可依据具体目标进行分割或进行聚类分析,且均可运用特征选择算法进行挑选,因此,本发明虽仅以SNP和STR遗传标记进行示例性说明,但依据本领域技术知识可以毫无疑义地推断本发明所述方法可适用于任何可反映或体现遗传信息差异的类别指征。
所述遗传信息差异指可被所述遗传标记数据库中的遗传标记或遗传标记组合进行区分的遗传信息差异,包括但不限于群体来源、地域祖源、民族起源。
在进行数据分割时,若存在明确的指征目标(例如地域来源),可依据遗传标记在该指征目标上展现的遗传信息差异进行数据分割,若不存在明确的指征目标,可采用主成分分析或层次聚类等方法对遗传标记数据库中的样本进行聚类,依据聚类结果进行数据分割,得到多个类。
本发明在具体实施方式中,以地域来源作为遗传信息差异进行数据分割作为示例性说明,在实际应用中并不局限于此。
通过上述步骤和策略挑选的遗传标记参照系不仅可满足前述标准,还可极大地降低运算负载,从而使得本发明所述方法可应用于百万级的遗传标记数据库。
作为一个应用实例,本发明利用AIM-SNPtag从千人基因组数据中抽提一个SNP参照系用以区分非洲人(AFR)、欧洲人(EUR)和亚洲人(ASA)。千人基因组数据共包含55786541个SNP位点,包含以上三个人群的样本大小分别为108、313和993个个体。用AIM-SNPtag从千人基因组数据中挑选的一个包含16个SNP的参照系(表1),对亚非欧人群区分的平均准确率达到100%。本实例中遗传标记参照系的构建应用了本发明所述方法的所有步骤(图2),即步骤(1)、(2)、(3)、(4)。
作为另一个应用实例,本发明利用AIM-SNPtag从一个包含178个SNP的数据中挑选信息丰度最高的SNP参照系。将该参照系运用到千人基因组数据对以下五个主要人群——非洲人(AFR),欧洲人(EUR)、东亚人(EA)、南亚人(SA),和东南亚人(SEA)人群进行识别,并对其性能进行评价。同时,将该参照系的性能与已发表的参照系进行比较,由AIM-SNPtag挑选的18个SNP的参照系对五大人群(AFR、EUR、EA、SA和SEA)区分的准确率就达到了已报到的74个SNP的参照系的水平。由AIM-SNPtag挑选的一个包含29个SNP的参照系(表2)对五个人群体的总体区分准确率超过95%;如果仅考虑人群洲际起源,准确率到99%以上。本实例中遗传标记参照系的构建只应用本发明所述方法的步骤(1)、(3)、(4)。
作为第三个应用实例,本发明利用AIM-SNPtag从千人基因组数据中抽提一个STR参照系用以区分非洲人(AFR)、欧洲人(EUR)和亚洲人(ASA)。千人基因组数据共包含670646个STR位点,包含以上三个人群的样本大小分别为108、313和993个个体。用AIM-SNPtag从千人基因组数据中挑选的一个包含47个STR的参照系(表3),对亚非欧人群区分的平均准确率达到99%。本实例中遗传标记参照系的构建应用了本发明所述方法的步骤(1)、(2)、(3),但应用于与前两个实施例完全不同的遗传标记类型。
进一步地,所述步骤(1)中,数据分割后,得到不少于2个类,且每个类中包含全部遗传标记。
第二方面,本发明提供了采用本发明前述方法获得的遗传标记参照系。
该遗传标记参照系可为前述步骤(3)所获得的子集/子集集合,也可为步骤(4)所获得的综合参照系。
所述遗传标记参照系中,遗传标记的类型、数量均无限定,只要是利用本发明所述方法构建得到的遗传标记参照系均属于本发明的保护范围。
基于前述技术方案,本发明的有益效果至少在于:
本发明建立了一种从群体基因组数据中挑选遗传标记参照系的方法。使用该方法可成功地使计算的复杂度从O(2n)降低到O(n2)。结合一些简单的预筛策略,本发明所述方法可以处理成千人至万人的全基因组遗传标记数据。在实际应用中,可根据实际需要用所述方法挑选既具有指定准确率(如95%或99%),又包含遗传标记数目较少的参照系。这些特性在在法医或医学遗传研究中具有重要应用价值。
附图说明
图1为AIM-SNPtag方法挑选遗传标记参照系的总体流程。
图2为运用AIM-SNPtag构建亚洲-非洲-欧洲人群特异性16-SNP参照系的流程。
图3为基于16-SNP参照系对亚洲-非洲-欧洲人群区分的准确率随参照系中SNP数目的变化。
图4为基于16-SNP参照系对亚洲-非洲-欧洲人群PCA(A&B)分析和STRUCTURE聚类分析结果。
图5为运用AIM-SNPtag从178个SNP的数据集中挑选的SNP参照系对人群区分的平均准确率随参照系包含的SNP数目的变化趋势(A),及最终获得的29-SNP参照系对各人群区分的准确率(B)。
图6为运用AIM-SNPtag挑选的29-SNP参照系(A&C)和已报到的74-SNP参照系(B&D)PCA(A&B)和STRUCTURE(C&D)分析结果比较。
图7为运用AIM-SNPtag挑选的STR参照系对亚洲-非洲-欧洲人群区分的准确率随参照系中STR数目的变化。
具体实施方式
下面结合实施例对本发明做进一步的解释说明。需要理解的是以下实施例的给出仅是为了起到说明的目的,并不是用于对本发明的范围进行限制。本领域的技术人员在不背离本发明的宗旨和精神的情况下,可以对本发明进行各种修改和替换。
下述实施例中所使用的实验方法如无特殊说明,均为常规方法。
下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
实施例1
本实施例用于说明如何从55786541个SNP中,使用本发明方法构建一个含有16个SNP的参照集,用于非洲人、欧洲人和亚洲人的区分(图2,表1)。
具体步骤如下:
1、数据分割
以千人基因组项目(1000Genomes Project)中的108个非洲人、313个欧洲人和993个亚洲人的55786541个SNP为基础,依据人群的洲际来源,进行数据分割,分割后得到两类。第一类为{非洲,(欧洲,亚洲)},第二类为{欧洲,亚洲}。
2、数据过滤
计算各个类中的SNP的FST值,并据此对各个类中的SNP进行降序排列,保留前20000个的SNP。
3、SNP挑选
运用特征选择算法在数据过滤后的每个类中分别挑选一个包含100个SNP子集,称为MaC-SNP。MaC-SNPs保留了每个类的最大区别力(classification ability)。其中,特征选择算法具体为前文所述的算法一。
4、整合优化
运用另一个特征选择算法(前文所述的算法二)将从每个类中挑选的MaC-SNP集整合优化,使得最终的参照系的准确性指标达到100%(图3)。优化产生的综合参照系包含16个SNP,命名为16-SNP参照系,具体信息详见表1。
基于16-SNP参照系对亚洲-非洲-欧洲人群PCA(A&B)分析个STRUCTURE聚类分析结果见图4。由图4可见,该16-SNP参照系保留得了全部55786541个SNP所反映的群体之间的差异信息;由图3可见,该16-SNP参照系对亚洲-非洲-欧洲人群区分准确率达到100%。
表1.亚洲-非洲-欧洲特异性16-SNP参照系
Figure BDA0001579751690000111
Figure BDA0001579751690000121
实施例2
本实施例使用本发明所述的方法(AIM-SNPtag)从178个SNP的数据集中挑选的SNP参照系。这178个SNP已在“Li C-X,Pakstis AJ,Jiang L,Wei Y-L,Sun Q-F,Wu H,BulbulO,Wang P,Kang L-L,Kidd JR,Kidd KK.A panel of 74AISNPs:Improved ancestryinference within Eastern Asia.Forensic Science International:Genetics 23(2016)101-110.”一文中公开报道。
本实施例用于说明如何不经过步骤(2)——数据过滤,而直接运用步骤(1),(3)和(4)——数据分割、SNP挑选和整合优化,从较小数目的SNP集中挑选构建SNP参照系。
具体步骤如下:
1、数据分割
以千人基因组项目(1000Genomes Project)中非洲人(AFR)、欧洲人(EUR)、南亚人(SA)、东亚人(EA)和东南亚人(SEA)基础,将数据分割,为三个类:第一类为{AFR,EUR,SA,(EA,SEA)},第二类为{EUR,SA},第二类为{EA,SEA}。
2、SNP挑选
运用特征选择算法在每个类中分别从上述178个SNP中挑选一个包含30个SNP子集,即MaC-SNP。其中,特征选择算法具体为前文所述的算法一。
3、整合优化
运用另一个特征选择算法(前文所述的算法二)将从每个类中挑选的MaC-SNP集整合优化,使得最终的参照系的准确性指标达到上述文献报道的74-SNP参照系的水平和95%(图5)。优化产生的综合参照系包含29个SNP,对上述五个人群区分准确率达到95%以上,具体信息详见表2。
参照系性能:
AIM-SNPtag从178个SNP的数据集中挑选的SNP参照系对人群区分的平均准确率随参照系包含的SNP数目的变化趋势(图5A),及最终获得的29-SNP参照系对各人群区分的准确率(图5B)。可见随着包含SNP数目的增加,参照系对人群的区分能力迅速上升。由AIM-SNPtag挑选的18个SNP的参照系对五大人群(AFR、EUR、EA、SA和SEA)区分的准确率就达到了已报到的74个SNP参照系的水平。由AIM-SNPtag挑选的一个包含29个SNP的参照系对五个人群体的总体区分准确率超过95%。如果仅考虑人群洲际起源,准确率到99%以上。所选SNP参照系对东亚人群和东南亚人群的的区分能力略差,但平均准确率也达到了86%以上。
主成分分析(A&B)和STRUCTURE聚类(C&D)分析表明,AIM-SNPtag挑选的29个SNP的参照系(A&C)比已报到的74个SNP的参照系(B&D)对五大人群具有更高的区分能力(图6)。这一优势在亚洲人群中的表现尤为突出。
上述参照系的详细信息汇总于表2。
表2.五大人群特异性29-SNP参照系
Figure BDA0001579751690000131
Figure BDA0001579751690000141
实施例3
本实施例用于说明如何从670646个STR位点中,使用本发明方法挑选一个含有47个STR的参照集,用于非洲人、欧洲人和亚洲人的区分。本实施例只涉及本发明方法的步骤(1)至步骤(3),不涉及步骤(4)。
具体步骤如下:
1、数据分割
以千人基因组项目(1000Genomes Project)中的108个非洲人、313个欧洲人和993个亚洲人的670646个STR为基础,依据人群的洲际来源,进行数据分割,分割类为{非洲,欧洲,亚洲}。
2、数据过滤
首先过滤排除缺失数据超过10%的STR位点;共有90537个STR位点通过这一过滤标准。然后,计算保留STR的FST值,并据此对各个类中的STR进行降序排列,保留前20000个STR。
3、STR挑选
运用特征选择算法在数据过滤后的20000个STR中直接挑选MaC-STR子集。其中,特征选择算法具体为本发明前述的算法一。当挑选MaC-STR对非洲、欧洲和亚洲人区分的准确率达到99%时,继续挑选并增加STR数目,当准确率稳定在99%保持不变是,停止挑选,并将准确率到达99%的最小数目MaC-STR作为最终的STR参照系。
STR参照系对亚洲-非洲-欧洲人群区分的准确率随参照系中STR数目的变化。当包含全部47个STR时,对人群区分准确率达到99%(图7)。
上述参照系的详细信息汇总于表3。
表3.亚洲-非洲-欧洲特异性STR参照系
Figure BDA0001579751690000151
/>
Figure BDA0001579751690000161
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (8)

1.一种群体区分和鉴定的遗传标记参照系的构建方法,其特征在于,包括如下步骤中的步骤(1)和步骤(3),或包括如下步骤中的步骤(1)-(3),或包括如下步骤中的(1)、(3)、(4),或包括如下步骤中的(1)-(4):
(1)数据分割:
以已知的遗传标记数据库作为样本,按照遗传信息差异对样本数据进行分割,得到多个类;
(2)数据过滤:
计算各个类中遗传标记的FST值,并据此对各个类中的遗传标记进行降序排列,当数据中包括的遗传标记数目小于或等于50000时,全部用于下一步分析,当数据中包含的遗传标记数目大于50000时,保留各类中排列于前2%~10%个遗传标记;
(3)遗传标记挑选:
针对数据分割后或数据过滤后的各类遗传标记,运用特征选择算法挑选出可保留每个类的最大区别力的一个子集,该子集的集合即可作为遗传标记参照系;
其中,所述特征选择算法如算法一所示:
算法一:
步骤一:产生#L个以不同特征为起始元素且长度为u的特征序,对于
Figure FDA0004178463330000011
以/>
Figure FDA0004178463330000012
表示第一个元素为l长度为u的序列,其产生过程如下:
S1、对于
Figure FDA0004178463330000013
产生/>
Figure FDA0004178463330000014
其中l1=l;
S2、对于任意2≤i≤u,若已有
Figure FDA0004178463330000015
选可极大化累计分类能力的特征作为第i个元素,
Figure FDA0004178463330000016
并产生
Figure FDA0004178463330000017
其中/>
Figure FDA0004178463330000018
表示子集/>
Figure FDA0004178463330000019
的余集;
步骤二:比较#L条序列的累计分类能力,并选择最优序列作为MaC集,
Figure FDA00041784633300000110
其中:
Figure FDA00041784633300000111
(4)整合优化:
具体为:运用另一个特征选择算法,将从每个类中挑选的子集整合成一个综合参照系;
其中,所述另一个特征选择算法如算法二所示:
算法二:
基于贪婪式的逐步添加/验证的算法,对由各子类挑选出的MaC集进行优化整合,并产生全局最优特征集合P;
若已经根据不同子类的组合筛选出m个MaC集,则:
步骤一:由于每个MaC集都是一个特征序列,即特征的排列是有顺序的;设置m个指针,并分别指向每个MaC集的第一个元素;初始化空集P;
步骤二:依次测试将每个指针对应的特征加入集合P后应用此集合遗传标记对已知类别进行分类的平均精度增益;保留获得最高平均精度增益的特征做为P的新元素,并将指向此特征的指针在相应的MaC集中依序向后移动一个元素;
步骤三:当满足下列任一条件时,终止向P继续添加新元素:1)应用P集中的特征对已知类别进行分类已达到预设的平均精度;2)P集中的特征数量已达到预设值;否则,返回步骤二。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,数据分割后,得到不少于2个类,且每个类中包含全部遗传标记。
3.根据权利要求1所述的方法,其特征在于,所述遗传信息差异为可被所述遗传标记数据库中的遗传标记或遗传标记组合进行区分的遗传信息差异。
4.根据权利要求2所述的方法,其特征在于,所述遗传信息差异为可被所述遗传标记数据库中的遗传标记或遗传标记组合进行区分的遗传信息差异。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述遗传标记为SNP或STR。
6.由权利要求1~5任一项所述方法构建得到的遗传标记参照系。
7.根据权利要求6所述的遗传标记参照系,其特征在于,其为步骤(3)所获得的子集的集合。
8.由权利要求1~5任一项所述方法构建得到的遗传标记参照系,其特征在于,其为步骤(4)所获得的综合参照系。
CN201810149895.3A 2018-02-13 2018-02-13 一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系 Active CN110211639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810149895.3A CN110211639B (zh) 2018-02-13 2018-02-13 一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810149895.3A CN110211639B (zh) 2018-02-13 2018-02-13 一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系

Publications (2)

Publication Number Publication Date
CN110211639A CN110211639A (zh) 2019-09-06
CN110211639B true CN110211639B (zh) 2023-07-04

Family

ID=67778589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810149895.3A Active CN110211639B (zh) 2018-02-13 2018-02-13 一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系

Country Status (1)

Country Link
CN (1) CN110211639B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006089238A2 (en) * 2005-02-18 2006-08-24 Dna Print Genomics Multiplex assays for inferring ancestry
WO2007001195A1 (en) * 2005-06-27 2007-01-04 Biomatters Limited Methods for the maintenance and analysis of biological data
CN101956006A (zh) * 2010-08-27 2011-01-26 公安部物证鉴定中心 获得人种特异性位点的方法和人种推断系统及其应用
CN102121046A (zh) * 2009-06-25 2011-07-13 中国科学院北京基因组研究所 中国人群连锁分析snp标记集合及其使用方法与应用
CN102567652A (zh) * 2011-12-13 2012-07-11 上海大学 一种面向snp数据的筛选方法
WO2015008245A2 (en) * 2013-07-18 2015-01-22 Międzynarodowy Instytut Biologii Molekularnej I Komórkowej Methods of identification of ethnic origin based on differentiated transcription profiles and genetic markers used in those methods
CN104480205A (zh) * 2014-12-10 2015-04-01 西安交通大学 一种基于全基因组str建立动物亲权鉴定系统的方法
CN105349537A (zh) * 2015-12-02 2016-02-24 中国农业科学院棉花研究所 陆地棉snp标记及其应用
CN107012217A (zh) * 2017-04-06 2017-08-04 河南省农业科学院芝麻研究中心 一组用于区分我国育成芝麻品种的snp分子标记
CN107644150A (zh) * 2017-09-08 2018-01-30 杭州和壹基因科技有限公司 一种高密度遗传图谱的构建方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027791B2 (en) * 2004-06-23 2011-09-27 Medtronic, Inc. Self-improving classification system
US20080138799A1 (en) * 2005-10-12 2008-06-12 Siemens Aktiengesellschaft Method and a system for extracting a genotype-phenotype relationship

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006089238A2 (en) * 2005-02-18 2006-08-24 Dna Print Genomics Multiplex assays for inferring ancestry
WO2007001195A1 (en) * 2005-06-27 2007-01-04 Biomatters Limited Methods for the maintenance and analysis of biological data
CN102121046A (zh) * 2009-06-25 2011-07-13 中国科学院北京基因组研究所 中国人群连锁分析snp标记集合及其使用方法与应用
CN101956006A (zh) * 2010-08-27 2011-01-26 公安部物证鉴定中心 获得人种特异性位点的方法和人种推断系统及其应用
CN102567652A (zh) * 2011-12-13 2012-07-11 上海大学 一种面向snp数据的筛选方法
WO2015008245A2 (en) * 2013-07-18 2015-01-22 Międzynarodowy Instytut Biologii Molekularnej I Komórkowej Methods of identification of ethnic origin based on differentiated transcription profiles and genetic markers used in those methods
CN104480205A (zh) * 2014-12-10 2015-04-01 西安交通大学 一种基于全基因组str建立动物亲权鉴定系统的方法
CN105349537A (zh) * 2015-12-02 2016-02-24 中国农业科学院棉花研究所 陆地棉snp标记及其应用
CN107012217A (zh) * 2017-04-06 2017-08-04 河南省农业科学院芝麻研究中心 一组用于区分我国育成芝麻品种的snp分子标记
CN107644150A (zh) * 2017-09-08 2018-01-30 杭州和壹基因科技有限公司 一种高密度遗传图谱的构建方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A panel of 74 AISNPs: Improved ancestry inference within Eastern Asia;Cai-Xia Li等;《Forensic Science International: Genetics》;20160730;全文 *
Analysis of the genetic structure of the Malay population: Ancestry-informative marker SNPs in the Malay of Peninsular Malaysia;Padillah Yahya等;《Forensic Science International: Genetics》;20170930;第30卷;全文 *
AncestrySNPminer: a bioinformatics tool to retrieve and develop ancestry informative SNP panels;Sushil Amirisetty;《Genomics》;20120730;全文 *
一种基于主成分分析的混杂人群祖代信息遗传标记选择算法;张峰等;《中国科学(C辑:生命科学)》;20091015(第10期);全文 *
不同鳊鲂鱼类群体微卫星DNA指纹图谱的构建和遗传结构分析;张倩倩等;《水产学报》;20140115(第01期);全文 *
改进遗传算法与文化基因多标记聚类研究;李彦广等;《控制工程》;20160820(第08期);全文 *

Also Published As

Publication number Publication date
CN110211639A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
US20230368869A1 (en) Systems and methods for visualization of single-cell resolution characteristics
US10347365B2 (en) Systems and methods for visualizing a pattern in a dataset
Talukder et al. Interpretation of deep learning in genomics and epigenomics
US11954614B2 (en) Systems and methods for visualizing a pattern in a dataset
AU784202B2 (en) Coupled two-way clustering analysis of data
US20210381056A1 (en) Systems and methods for joint interactive visualization of gene expression and dna chromatin accessibility
Marçais et al. Sketching and sublinear data structures in genomics
Chen et al. Automated image analysis of protein localization in budding yeast
Chen et al. Automated flow cytometric analysis across large numbers of samples and cell types
Haoudi et al. Bioinformatics and data mining in proteomics
CN105117617B (zh) 一种用于筛选环境敏感性生物分子的方法
US20190177719A1 (en) Method and System for Generating and Comparing Reduced Genome Data Sets
CN112599199A (zh) 一种适用于10x单细胞转录组测序数据的分析方法
CN111913999A (zh) 基于多组学与临床数据的统计分析方法、系统和存储介质
Pham et al. Analysis of microarray gene expression data
Liu et al. Are dropout imputation methods for scRNA-seq effective for scATAC-seq data?
US20140058682A1 (en) Nucleic Acid Information Processing Device and Processing Method Thereof
CN110211639B (zh) 一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系
US20140019062A1 (en) Nucleic Acid Information Processing Device and Processing Method Thereof
JP6356015B2 (ja) 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム
Roqueiro et al. In silico phenotyping via co-training for improved phenotype prediction from genotype
Anastasiadi et al. Bioinformatic analysis for age prediction using epigenetic clocks: Application to fisheries management and conservation biology
Bagley et al. Using ddRAD-seq phylogeography to test for genetic effects of headwater river capture in suckermouth armored catfish (Loricariidae: Hypostomus) from the central Brazilian shield
Dall’Olio et al. BRAQUE: Bayesian reduction for amplified quantization in UMAP embedding
CN111863136A (zh) 一种多组学数据集间关联分析的集成系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 100101 building 104, courtyard 1, Beichen West Road, Chaoyang District, Beijing

Patentee after: Beijing Institute of genomics, Chinese Academy of Sciences

Country or region after: China

Address before: 100101 building 104, courtyard 1, Beichen West Road, Chaoyang District, Beijing

Patentee before: BEIJING INSTITUTE OF GENOMICS, CHINESE ACADEMY OF SCIENCES

Country or region before: China

CP03 Change of name, title or address
TR01 Transfer of patent right

Effective date of registration: 20240314

Address after: 200120, Room 506, Building 3, No. 608 Shengxia Road, Pudong New Area (Shanghai) Pilot Free Trade Zone, Shanghai

Patentee after: Shanghai Xiji Digital Technology Co.,Ltd.

Country or region after: China

Address before: 100101 building 104, courtyard 1, Beichen West Road, Chaoyang District, Beijing

Patentee before: Beijing Institute of genomics, Chinese Academy of Sciences

Country or region before: China

TR01 Transfer of patent right