CN111091867B - 基因变异位点筛选方法及系统 - Google Patents
基因变异位点筛选方法及系统 Download PDFInfo
- Publication number
- CN111091867B CN111091867B CN201911315387.9A CN201911315387A CN111091867B CN 111091867 B CN111091867 B CN 111091867B CN 201911315387 A CN201911315387 A CN 201911315387A CN 111091867 B CN111091867 B CN 111091867B
- Authority
- CN
- China
- Prior art keywords
- data set
- gene variation
- gene
- sites
- variation sites
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Analytical Chemistry (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请公开了一种基因变异位点筛选方法及系统,其中,基因变异位点筛选方法,包括:获取包含指定人群基因变异位点的第一数据集;对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点;对每簇中的基因变异位点进行评分,筛选出评分大于预设阈值的基因变异位点。本发明的基因变异位点筛选方法,更加合理、充分的利用了第一数据集中的基因变异位点,避免了有效基因变异位点的遗漏,使得制备的基因芯片中,包含了更加全面的基因变异位点。
Description
技术领域
本申请涉及基因变异位点筛选方法及系统,属于生物医学技术领域。
背景技术
随着人类基因组计划的顺利完成,开启了人类健康与生命科学研究的新时代。生物样本库的不断发展及技术的日趋成熟,更是为人类疾病尤其是重大慢性疾病的研究提供了丰富的样本资源及临床数据支撑。采用基因芯片技术对样本进行基因分型,通过队列基因数据的生物信息学分析去寻找特定的生物标志物,成为人类攻克一系列复杂疾病的强有力的技术手段。通过基因芯片技术获取基因分型数据,其宝贵价值也日益得到人们的理解与重视,世界各国政府及科研单位更是投入大量资源针对特定国家及地区的特定人群队列进行了诸多人群队列的基因分型工作。
由于不同国家和地区的人群在基因型上有很大区别,所以在对样本进行基因分型时,所使用的基因芯片是有针对性的,其针对的是特定的国家和人群。现有技术中,并没有针对亚洲人群的基因芯片。若想制备针对亚洲人群的基因芯片,需要筛选出针对亚洲人的基因变异位点。现有技术中,使用affymetrix软件从数据集中筛选基因变异位点,但是affymetrix软件筛选的过程中,是从大量的基因变异位点中利用特定的方法筛选出有代表性的基因变异位点,而其他变异位点,虽然并未满足筛选条件,但是其仍然有部分基因变异位点包含有效信息,所以affymetrix软件所筛选出的基因变异位点覆盖并不全面。
发明内容
本发明的目的在于,提供一种基因变异位点筛选方法,以从经过affymetrix软件筛选后的数据集中获取更多的基因变异位点,使得所制备的基因芯片中包含更为全面的基因变异位点。
本发明提供了一种基因变异位点筛选方法,包括:
获取包含指定人群基因变异位点第一数据集;
对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点;
对每簇中的基因变异位点进行评分,筛选出评分大于预设阈值的基因变异位点。
优选地,获取包含指定人群基因变异位点的第一数据集,具体为:
获取指定人群的基因测序数据,提取基因测序数据中的基因变异位点,得到原始数据集;
利用预设筛选条件对所述原始数据集进行筛选,将筛选获得的基因变异位点记为第一基因变异位点;
将所述原始数据集中所述第一基因变异位点之外的基因变异位点作为所述第一数据集。
进一步地,指定人群的基因测序数据为中国人的30倍测序深度的全基因组测序数据。
优选地,对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点,具体为:
获取所述第一数据集中基因变异位点的连锁不平衡值;
基于所述连锁不平衡值对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点。
进一步地,获取所述第一数据集中基因变异位点的连锁不平衡值,具体为:
获取所述第一数据集中次等位基因频率大于等于3%的基因变异位点,组成聚类数据集;
获取所述聚类数据集中基因变异位点的连锁不平衡值。
进一步地,所述聚类数据集中的基因变异位点的次等位基因频率大于等于5%。
进一步地,获取所述聚类数据集中基因变异位点的连锁不平衡值,具体为:
获取所述聚类数据集中,每个基因变异位点与所述聚类数据集中的其他基因变异位点之间的皮尔逊相关系数rij,其中,0<i,j≤N,N为所述聚类数据集中基因变异位点的数量;
优选地,所述对每簇中的基因变异位点进行评分,具体为:
获取经过湿测试的验证数据集;
判断每簇中的每个基因变异位点是否包含于验证数据集中,如果是,则基于验证数据集中的基因变异位点所使用的探针数量对簇中基因变异位点进行评分,筛选出评分大于预设阈值的基因变异位点。评分过程中,所使用探针数量最少的基因变异位点评分最高。
本发明还提供了一种基于上述基因变异位点筛选方法的计算机系统,所述计算机系统被编程以执行上述基因变异位点筛选方法的步骤。
本发明的基因变异位点筛选方法及系统,相较于现有技术,具有如下有益效果:
本发明的基因变异位点筛选方法,利用评分制对经过聚类的变异位点进行筛选,使得筛选出的基因变异位点具有代表性,保证了筛选的质量。
本发明的基因变异位点筛选方法,更加合理、充分的利用了第一数据集中的基因变异位点,避免了有效基因变异位点的遗漏,使得制备的基因芯片中,包含了更加全面的基因变异位点。
本发明使用全基因组测序数据作为基础数据集,可以获得整个基因组的数据,避免基因不全影响后续制备的基因芯片的精确性,同时,由于全基因组测序数据为高分辨率数据,便于从中获取大型、小型全面的变异位点。
附图说明
图1为本发明一种基因变异位点筛选方法的流程图。
具体实施方式
本发明的基因变异位点筛选方法的流程图参见图1,其具体实施过程为:
本实施例是以包含2641个中国人的30倍测序深度的全基因组测序数据为基本数据集。使用全基因组测序数据作为基本数据集,可以获得整个基因组的数据,避免基因不全影响后续制备的基因芯片的精确性,同时,由于全基因组测序数据为高分辨率数据,便于从中获取大型、小型全面的变异位点。本实施例使用中国人的全基因组测序数据,以便利用中国人的基因变异位点,制备针对中国人的基因芯片。
首先,利用GATK工具从基础数据集中提取基因变异位点,得到原始数据集,然后利用affymetrix软件从原始数据集中筛选出第一基因变异位点,本实施例中共筛选出514221个基因变异位点。由于原始数据集中包含大量的基因变异位点,而affymetrix软件利用设定的条件所筛选出的基因变异位点具有局限性,所筛选出的基因变异位点覆盖并不全面,所以将affymetrix软件筛选后的剩余基因变异作为第一数据集,对该数据集进行进一步的筛选,以筛选出更为全面的基因变异位点。
对所述第一数据集进一步筛选的步骤为:
获取所述第一数据集中次等位基因频率大于等于3%的基因变异位点,组成聚类数据集;优选的,所选取的基因变异位点的次等位基因频率为5%以上。限定基因变异位点的次等位基因的目的在于,位于限定范围内的次等位基因,其包含的信息量更多,更利于制备基因芯片。如不限定次等位基因频率,则会导致数据集较大,增加处理时间及处理繁琐度。然后,获取所述聚类数据集中基因变异位点的连锁不平衡值,计算连锁不平衡值的过程为:
获取所述聚类数据集中,每个基因变异位点与所述聚类数据集中的其他基因变异位点之间的皮尔逊相关系数rij,其中,0<i,j≤N,N为所述聚类数据集中基因变异位点的数量;然后根据所述皮尔逊相关系数rij确定连锁不平衡值
进一步地,判断每簇中的每个基因变异位点是否包含于验证数据集中;如果簇中基因变异位点包含于验证数据集中,则基于验证数据集中的基因变异位点所使用的探针数量对簇中基因变异位点进行评分,所使用探针数量最少的基因变异位点评分最高,本实施例筛选出的基因变异位点为评分最高的基因变异位点。当然,也可以预设阈值,从而在每个簇中筛选出评分大于阈值的多个基因变异位点。本实施例中验证数据集为affymetrix提供的经过湿测试的基因变异位点数据集。该数据集中包含了很多的在基因芯片上表现较好的基因变异位点。利用本发明的方法,经过上述步骤共获得了104866个基因变异位点。
进一步地,利用affymetrix软件筛选出的514221个基因变异位点和利用本发明的方法筛选出的104866个基因变异位点制备基因芯片,获得的基因芯片上包含的基因更加全面。
本发明的基因变异位点筛选方法,利用评分制对经过聚类的变异位点进行筛选,使得筛选出的基因变异位点具有代表性,保证了筛选的质量。
本发明的基因变异位点筛选方法,更加合理、充分的利用了数据集中的基因变异位点,避免了有效基因变异位点的遗漏,使得制备的基因芯片中,包含了更加全面的基因变异位点。
本发明使用全基因组测序数据作为基础数据集,可以获得整个基因组的数据,避免基因不全影响后续制备的基因芯片的精确性,同时,由于全基因组测序数据为高分辨率数据,便于从中获取大型、小型全面的变异位点。
以上所述,仅是本申请的实施例,并非对本申请做任何形式的限制,虽然本申请以较佳实施例揭示如上,然而并非用以限制本申请,任何熟悉本专业的技术人员,在不脱离本申请技术方案的范围内,利用上述揭示的技术内容做出些许的变动或修饰均等同于等效实施案例,均属于技术方案范围内。
Claims (6)
1.一种基因变异位点筛选方法,其特征在于,包括:
获取包含指定人群基因变异位点的第一数据集;
对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点;
对每簇中的基因变异位点进行评分,筛选出评分大于预设阈值的基因变异位点;
所述获取包含指定人群基因变异位点的第一数据集包括:
获取指定人群的基因测序数据,使用全基因组测序数据作为基础数据集,从基础数据集中提取基因变异位点,得到原始数据集;
利用预设筛选条件对所述原始数据集进行筛选,将筛选获得的基因变异位点记为第一基因变异位点;
将所述原始数据集中所述第一基因变异位点之外的基因变异位点作为所述第一数据集;
所述对每簇中的基因变异位点进行评分包括:
获取经过湿测试的验证数据集;
判断每簇中的每个基因变异位点是否包含于验证数据集中,如果是,则基于验证数据集中的基因变异位点所使用的探针数量对簇中基因变异位点进行评分,筛选出评分大于预设阈值的基因变异位点。
2.根据权利要求1所述的基因变异位点筛选方法,其特征在于,对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点,具体为:
获取所述第一数据集中基因变异位点的连锁不平衡值;
基于所述连锁不平衡值对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点。
3.根据权利要求2所述的基因变异位点筛选方法,其特征在于,获取所述第一数据集中基因变异位点的连锁不平衡值,具体为:
获取所述第一数据集中次等位基因频率大于等于3%的基因变异位点,组成聚类数据集;
获取所述聚类数据集中基因变异位点的连锁不平衡值。
4.根据权利要求3所述的基因变异位点筛选方法,其特征在于,所述聚类数据集中的基因变异位点的次等位基因频率大于等于5%。
6.一种基因变异位点筛选系统,其特征在于,包括计算机系统,所述计算机系统被编程以执行权利要求1~5中任意一项所述的基因变异位点筛选方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911315387.9A CN111091867B (zh) | 2019-12-18 | 2019-12-18 | 基因变异位点筛选方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911315387.9A CN111091867B (zh) | 2019-12-18 | 2019-12-18 | 基因变异位点筛选方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111091867A CN111091867A (zh) | 2020-05-01 |
CN111091867B true CN111091867B (zh) | 2021-11-09 |
Family
ID=70396391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911315387.9A Active CN111091867B (zh) | 2019-12-18 | 2019-12-18 | 基因变异位点筛选方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091867B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115171781B (zh) * | 2022-07-13 | 2023-04-07 | 广州市金圻睿生物科技有限责任公司 | 肿瘤变异位点是否为噪音的识别方法、系统、装置和介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101845501A (zh) * | 2010-05-18 | 2010-09-29 | 孟涛 | 一种复杂疾病易感性综合遗传分析方法 |
CN102952854B (zh) * | 2011-08-25 | 2015-01-14 | 深圳华大基因科技有限公司 | 单细胞分类和筛选方法及其装置 |
CN106021981A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种基于功能网络多疾病变异位点分析平台 |
CN107301330A (zh) * | 2017-06-02 | 2017-10-27 | 西安电子科技大学 | 一种利用全基因组数据挖掘甲基化模式的方法 |
CN110211631B (zh) * | 2018-02-07 | 2024-02-09 | 深圳先进技术研究院 | 一种全基因组关联分析方法、系统及电子设备 |
CN109920481B (zh) * | 2019-01-31 | 2021-06-01 | 北京诺禾致源科技股份有限公司 | Brca1/2基因变异解读数据库及其构建方法 |
CN109994155B (zh) * | 2019-03-29 | 2021-08-20 | 北京市商汤科技开发有限公司 | 一种基因变异识别方法、装置和存储介质 |
CN110544537A (zh) * | 2019-07-29 | 2019-12-06 | 北京荣之联科技股份有限公司 | 单基因遗传病基因分析报告的生成方法及其电子设备 |
-
2019
- 2019-12-18 CN CN201911315387.9A patent/CN111091867B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111091867A (zh) | 2020-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20140206006A1 (en) | Single cell classification method, gene screening method and device thereof | |
CN110846411B (zh) | 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法 | |
US20110077167A1 (en) | Automated analysis of multiplexed probe-target interaction patterns: pattern matching and allele identification | |
Sun et al. | A comprehensive comparison of supervised and unsupervised methods for cell type identification in single-cell RNA-seq | |
CN112746097A (zh) | 一种检测样本交叉污染的方法以及预测交叉污染源的方法 | |
CN113674800B (zh) | 基于单细胞转录组测序数据的细胞聚类方法 | |
CN106055928A (zh) | 一种宏基因组重叠群的分类方法 | |
CN111091867B (zh) | 基因变异位点筛选方法及系统 | |
CN110246544B (zh) | 一种基于整合分析的生物标志物选择方法及系统 | |
CN110211640B (zh) | 一种基于gpu并行计算的复杂疾病基因互作关联分析方法 | |
KR102543757B1 (ko) | 이종 플랫폼의 dna 메틸레이션 데이터를 이용한 암의 예후 예측용 바이오마커 발굴 방법 및 장치 | |
Roy et al. | NGS-μsat: bioinformatics framework supporting high throughput microsatellite genotyping from next generation sequencing platforms | |
KR20220064951A (ko) | 인간 배아에서의 복제 수 변이의 확인을 위한 단일 뉴클레오티드 변이의 밀도를 사용하는 시스템 및 방법(systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos) | |
EP2665009A1 (en) | Nucleic acid information processing device and processing method thereof | |
CN111128297B (zh) | 一种基因芯片的制备方法 | |
US20090088345A1 (en) | Necessary and sufficient reagent sets for chemogenomic analysis | |
CN112086127B (zh) | 一种基于突变功能的群体遗传差异比较方法 | |
CN116994647A (zh) | 用于分析变异检测结果的模型的构建方法 | |
US20040219567A1 (en) | Methods for global pattern discovery of genetic association in mapping genetic traits | |
CN111091870B (zh) | 基因变异位点质量控制方法及系统 | |
CN116646010B (zh) | 人源性病毒检测方法及装置、设备、存储介质 | |
LU503668B1 (en) | Clustering Method of Methylation Samples Integrated with Single-cell Sequencing Analysis Method | |
CN113793641B (zh) | 一种从fastq文件中快速判断样本性别的方法 | |
CN116343902A (zh) | 一种用于复杂疾病多基因遗传风险评估的方法和系统 | |
Davitavyan et al. | PREDICTION THE RISK OF DEVELOPMENT FOR SCHIZOPHRENIA IN ARMENIAN AND JEWISH ASHKENAZI POPULATION, USING MACHINE LEARNING APPROACHES |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |