CN111091867B - 基因变异位点筛选方法及系统 - Google Patents
基因变异位点筛选方法及系统 Download PDFInfo
- Publication number
- CN111091867B CN111091867B CN201911315387.9A CN201911315387A CN111091867B CN 111091867 B CN111091867 B CN 111091867B CN 201911315387 A CN201911315387 A CN 201911315387A CN 111091867 B CN111091867 B CN 111091867B
- Authority
- CN
- China
- Prior art keywords
- gene
- sites
- data set
- gene variation
- variation sites
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 142
- 238000012216 screening Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000007614 genetic variation Effects 0.000 claims description 13
- 238000012070 whole genome sequencing analysis Methods 0.000 claims description 10
- 239000000523 sample Substances 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 206010064571 Gene mutation Diseases 0.000 claims description 5
- 238000010200 validation analysis Methods 0.000 claims description 4
- 102000054767 gene variant Human genes 0.000 claims 4
- 108700028369 Alleles Proteins 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 238000003205 genotyping method Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Databases & Information Systems (AREA)
- Analytical Chemistry (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基因变异位点筛选方法及系统,其中,基因变异位点筛选方法,包括:获取包含指定人群基因变异位点的第一数据集;对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点;对每簇中的基因变异位点进行评分,筛选出评分大于预设阈值的基因变异位点。本发明的基因变异位点筛选方法,更加合理、充分的利用了第一数据集中的基因变异位点,避免了有效基因变异位点的遗漏,使得制备的基因芯片中,包含了更加全面的基因变异位点。
Description
技术领域
本申请涉及基因变异位点筛选方法及系统,属于生物医学技术领域。
背景技术
随着人类基因组计划的顺利完成,开启了人类健康与生命科学研究的新时代。生物样本库的不断发展及技术的日趋成熟,更是为人类疾病尤其是重大慢性疾病的研究提供了丰富的样本资源及临床数据支撑。采用基因芯片技术对样本进行基因分型,通过队列基因数据的生物信息学分析去寻找特定的生物标志物,成为人类攻克一系列复杂疾病的强有力的技术手段。通过基因芯片技术获取基因分型数据,其宝贵价值也日益得到人们的理解与重视,世界各国政府及科研单位更是投入大量资源针对特定国家及地区的特定人群队列进行了诸多人群队列的基因分型工作。
由于不同国家和地区的人群在基因型上有很大区别,所以在对样本进行基因分型时,所使用的基因芯片是有针对性的,其针对的是特定的国家和人群。现有技术中,并没有针对亚洲人群的基因芯片。若想制备针对亚洲人群的基因芯片,需要筛选出针对亚洲人的基因变异位点。现有技术中,使用affymetrix软件从数据集中筛选基因变异位点,但是affymetrix软件筛选的过程中,是从大量的基因变异位点中利用特定的方法筛选出有代表性的基因变异位点,而其他变异位点,虽然并未满足筛选条件,但是其仍然有部分基因变异位点包含有效信息,所以affymetrix软件所筛选出的基因变异位点覆盖并不全面。
发明内容
本发明的目的在于,提供一种基因变异位点筛选方法,以从经过affymetrix软件筛选后的数据集中获取更多的基因变异位点,使得所制备的基因芯片中包含更为全面的基因变异位点。
本发明提供了一种基因变异位点筛选方法,包括:
获取包含指定人群基因变异位点第一数据集;
对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点;
对每簇中的基因变异位点进行评分,筛选出评分大于预设阈值的基因变异位点。
优选地,获取包含指定人群基因变异位点的第一数据集,具体为:
获取指定人群的基因测序数据,提取基因测序数据中的基因变异位点,得到原始数据集;
利用预设筛选条件对所述原始数据集进行筛选,将筛选获得的基因变异位点记为第一基因变异位点;
将所述原始数据集中所述第一基因变异位点之外的基因变异位点作为所述第一数据集。
进一步地,指定人群的基因测序数据为中国人的30倍测序深度的全基因组测序数据。
优选地,对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点,具体为:
获取所述第一数据集中基因变异位点的连锁不平衡值;
基于所述连锁不平衡值对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点。
进一步地,获取所述第一数据集中基因变异位点的连锁不平衡值,具体为:
获取所述第一数据集中次等位基因频率大于等于3%的基因变异位点,组成聚类数据集;
获取所述聚类数据集中基因变异位点的连锁不平衡值。
进一步地,所述聚类数据集中的基因变异位点的次等位基因频率大于等于5%。
进一步地,获取所述聚类数据集中基因变异位点的连锁不平衡值,具体为:
获取所述聚类数据集中,每个基因变异位点与所述聚类数据集中的其他基因变异位点之间的皮尔逊相关系数rij,其中,0<i,j≤N,N为所述聚类数据集中基因变异位点的数量;
优选地,所述对每簇中的基因变异位点进行评分,具体为:
获取经过湿测试的验证数据集;
判断每簇中的每个基因变异位点是否包含于验证数据集中,如果是,则基于验证数据集中的基因变异位点所使用的探针数量对簇中基因变异位点进行评分,筛选出评分大于预设阈值的基因变异位点。评分过程中,所使用探针数量最少的基因变异位点评分最高。
本发明还提供了一种基于上述基因变异位点筛选方法的计算机系统,所述计算机系统被编程以执行上述基因变异位点筛选方法的步骤。
本发明的基因变异位点筛选方法及系统,相较于现有技术,具有如下有益效果:
本发明的基因变异位点筛选方法,利用评分制对经过聚类的变异位点进行筛选,使得筛选出的基因变异位点具有代表性,保证了筛选的质量。
本发明的基因变异位点筛选方法,更加合理、充分的利用了第一数据集中的基因变异位点,避免了有效基因变异位点的遗漏,使得制备的基因芯片中,包含了更加全面的基因变异位点。
本发明使用全基因组测序数据作为基础数据集,可以获得整个基因组的数据,避免基因不全影响后续制备的基因芯片的精确性,同时,由于全基因组测序数据为高分辨率数据,便于从中获取大型、小型全面的变异位点。
附图说明
图1为本发明一种基因变异位点筛选方法的流程图。
具体实施方式
本发明的基因变异位点筛选方法的流程图参见图1,其具体实施过程为:
本实施例是以包含2641个中国人的30倍测序深度的全基因组测序数据为基本数据集。使用全基因组测序数据作为基本数据集,可以获得整个基因组的数据,避免基因不全影响后续制备的基因芯片的精确性,同时,由于全基因组测序数据为高分辨率数据,便于从中获取大型、小型全面的变异位点。本实施例使用中国人的全基因组测序数据,以便利用中国人的基因变异位点,制备针对中国人的基因芯片。
首先,利用GATK工具从基础数据集中提取基因变异位点,得到原始数据集,然后利用affymetrix软件从原始数据集中筛选出第一基因变异位点,本实施例中共筛选出514221个基因变异位点。由于原始数据集中包含大量的基因变异位点,而affymetrix软件利用设定的条件所筛选出的基因变异位点具有局限性,所筛选出的基因变异位点覆盖并不全面,所以将affymetrix软件筛选后的剩余基因变异作为第一数据集,对该数据集进行进一步的筛选,以筛选出更为全面的基因变异位点。
对所述第一数据集进一步筛选的步骤为:
获取所述第一数据集中次等位基因频率大于等于3%的基因变异位点,组成聚类数据集;优选的,所选取的基因变异位点的次等位基因频率为5%以上。限定基因变异位点的次等位基因的目的在于,位于限定范围内的次等位基因,其包含的信息量更多,更利于制备基因芯片。如不限定次等位基因频率,则会导致数据集较大,增加处理时间及处理繁琐度。然后,获取所述聚类数据集中基因变异位点的连锁不平衡值,计算连锁不平衡值的过程为:
获取所述聚类数据集中,每个基因变异位点与所述聚类数据集中的其他基因变异位点之间的皮尔逊相关系数rij,其中,0<i,j≤N,N为所述聚类数据集中基因变异位点的数量;然后根据所述皮尔逊相关系数rij确定连锁不平衡值
进一步地,判断每簇中的每个基因变异位点是否包含于验证数据集中;如果簇中基因变异位点包含于验证数据集中,则基于验证数据集中的基因变异位点所使用的探针数量对簇中基因变异位点进行评分,所使用探针数量最少的基因变异位点评分最高,本实施例筛选出的基因变异位点为评分最高的基因变异位点。当然,也可以预设阈值,从而在每个簇中筛选出评分大于阈值的多个基因变异位点。本实施例中验证数据集为affymetrix提供的经过湿测试的基因变异位点数据集。该数据集中包含了很多的在基因芯片上表现较好的基因变异位点。利用本发明的方法,经过上述步骤共获得了104866个基因变异位点。
进一步地,利用affymetrix软件筛选出的514221个基因变异位点和利用本发明的方法筛选出的104866个基因变异位点制备基因芯片,获得的基因芯片上包含的基因更加全面。
本发明的基因变异位点筛选方法,利用评分制对经过聚类的变异位点进行筛选,使得筛选出的基因变异位点具有代表性,保证了筛选的质量。
本发明的基因变异位点筛选方法,更加合理、充分的利用了数据集中的基因变异位点,避免了有效基因变异位点的遗漏,使得制备的基因芯片中,包含了更加全面的基因变异位点。
本发明使用全基因组测序数据作为基础数据集,可以获得整个基因组的数据,避免基因不全影响后续制备的基因芯片的精确性,同时,由于全基因组测序数据为高分辨率数据,便于从中获取大型、小型全面的变异位点。
以上所述,仅是本申请的实施例,并非对本申请做任何形式的限制,虽然本申请以较佳实施例揭示如上,然而并非用以限制本申请,任何熟悉本专业的技术人员,在不脱离本申请技术方案的范围内,利用上述揭示的技术内容做出些许的变动或修饰均等同于等效实施案例,均属于技术方案范围内。
Claims (6)
1.一种基因变异位点筛选方法,其特征在于,包括:
获取包含指定人群基因变异位点的第一数据集;
对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点;
对每簇中的基因变异位点进行评分,筛选出评分大于预设阈值的基因变异位点;
所述获取包含指定人群基因变异位点的第一数据集包括:
获取指定人群的基因测序数据,使用全基因组测序数据作为基础数据集,从基础数据集中提取基因变异位点,得到原始数据集;
利用预设筛选条件对所述原始数据集进行筛选,将筛选获得的基因变异位点记为第一基因变异位点;
将所述原始数据集中所述第一基因变异位点之外的基因变异位点作为所述第一数据集;
所述对每簇中的基因变异位点进行评分包括:
获取经过湿测试的验证数据集;
判断每簇中的每个基因变异位点是否包含于验证数据集中,如果是,则基于验证数据集中的基因变异位点所使用的探针数量对簇中基因变异位点进行评分,筛选出评分大于预设阈值的基因变异位点。
2.根据权利要求1所述的基因变异位点筛选方法,其特征在于,对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点,具体为:
获取所述第一数据集中基因变异位点的连锁不平衡值;
基于所述连锁不平衡值对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点。
3.根据权利要求2所述的基因变异位点筛选方法,其特征在于,获取所述第一数据集中基因变异位点的连锁不平衡值,具体为:
获取所述第一数据集中次等位基因频率大于等于3%的基因变异位点,组成聚类数据集;
获取所述聚类数据集中基因变异位点的连锁不平衡值。
4.根据权利要求3所述的基因变异位点筛选方法,其特征在于,所述聚类数据集中的基因变异位点的次等位基因频率大于等于5%。
6.一种基因变异位点筛选系统,其特征在于,包括计算机系统,所述计算机系统被编程以执行权利要求1~5中任意一项所述的基因变异位点筛选方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911315387.9A CN111091867B (zh) | 2019-12-18 | 2019-12-18 | 基因变异位点筛选方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911315387.9A CN111091867B (zh) | 2019-12-18 | 2019-12-18 | 基因变异位点筛选方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111091867A CN111091867A (zh) | 2020-05-01 |
CN111091867B true CN111091867B (zh) | 2021-11-09 |
Family
ID=70396391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911315387.9A Active CN111091867B (zh) | 2019-12-18 | 2019-12-18 | 基因变异位点筛选方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091867B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115171781B (zh) * | 2022-07-13 | 2023-04-07 | 广州市金圻睿生物科技有限责任公司 | 肿瘤变异位点是否为噪音的识别方法、系统、装置和介质 |
CN119541655A (zh) * | 2025-01-20 | 2025-02-28 | 深圳市早知道科技有限公司 | 一种基于多人群多表型数据整合的多基因风险评分模型构建方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101845501A (zh) * | 2010-05-18 | 2010-09-29 | 孟涛 | 一种复杂疾病易感性综合遗传分析方法 |
CN102952854B (zh) * | 2011-08-25 | 2015-01-14 | 深圳华大基因科技有限公司 | 单细胞分类和筛选方法及其装置 |
CN106021981A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种基于功能网络多疾病变异位点分析平台 |
CN107301330A (zh) * | 2017-06-02 | 2017-10-27 | 西安电子科技大学 | 一种利用全基因组数据挖掘甲基化模式的方法 |
CN110211631B (zh) * | 2018-02-07 | 2024-02-09 | 深圳先进技术研究院 | 一种全基因组关联分析方法、系统及电子设备 |
CN109920481B (zh) * | 2019-01-31 | 2021-06-01 | 北京诺禾致源科技股份有限公司 | Brca1/2基因变异解读数据库及其构建方法 |
CN109994155B (zh) * | 2019-03-29 | 2021-08-20 | 北京市商汤科技开发有限公司 | 一种基因变异识别方法、装置和存储介质 |
CN110544537A (zh) * | 2019-07-29 | 2019-12-06 | 北京荣之联科技股份有限公司 | 单基因遗传病基因分析报告的生成方法及其电子设备 |
-
2019
- 2019-12-18 CN CN201911315387.9A patent/CN111091867B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111091867A (zh) | 2020-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | A comprehensive comparison of supervised and unsupervised methods for cell type identification in single-cell RNA-seq | |
CN109411015B (zh) | 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质 | |
CN110846411B (zh) | 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法 | |
CN113674800B (zh) | 基于单细胞转录组测序数据的细胞聚类方法 | |
CN111091867B (zh) | 基因变异位点筛选方法及系统 | |
CN112746097A (zh) | 一种检测样本交叉污染的方法以及预测交叉污染源的方法 | |
US12272431B2 (en) | Detecting false positive variant calls in next-generation sequencing | |
CN108350498A (zh) | 分型方法和装置 | |
CN112289376A (zh) | 一种检测体细胞突变的方法及装置 | |
CN115588465B (zh) | 一种性状相关基因的筛选方法及其系统 | |
CN112992273A (zh) | 一种预测早期结直肠癌风险评估模型及系统 | |
Mehta et al. | Epistemological issues in omics and high-dimensional biology: give the people what they want | |
CN101110095A (zh) | 一种对常见脑疾病易感基因的批量检测方法 | |
CN115472219B (zh) | 一种阿尔兹海默病数据的处理方法及其系统 | |
CN111128297B (zh) | 一种基因芯片的制备方法 | |
Hayakawa et al. | A practical guide for single-cell transcriptome data analysis in neuroscience | |
CN116343902A (zh) | 一种用于复杂疾病多基因遗传风险评估的方法和系统 | |
CN111354415B (zh) | 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法 | |
CN111091870B (zh) | 基因变异位点质量控制方法及系统 | |
CN116994647A (zh) | 用于分析变异检测结果的模型的构建方法 | |
CN116646010B (zh) | 人源性病毒检测方法及装置、设备、存储介质 | |
JPWO2002048915A1 (ja) | 遺伝子間の関連を検出する方法 | |
CN119152934B (zh) | 基于低投入起始量的高通量基因组测序变异检测系统和方法 | |
LU503668B1 (en) | Clustering Method of Methylation Samples Integrated with Single-cell Sequencing Analysis Method | |
CN115910200B (zh) | 基于全外显子测序的非靶向区域基因型填充方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |