CN112735594A - 一种筛选疾病表型相关突变位点的方法及其应用 - Google Patents
一种筛选疾病表型相关突变位点的方法及其应用 Download PDFInfo
- Publication number
- CN112735594A CN112735594A CN202011599663.1A CN202011599663A CN112735594A CN 112735594 A CN112735594 A CN 112735594A CN 202011599663 A CN202011599663 A CN 202011599663A CN 112735594 A CN112735594 A CN 112735594A
- Authority
- CN
- China
- Prior art keywords
- mutation
- sites
- disease
- phenotype
- mining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000035772 mutation Effects 0.000 title claims abstract description 82
- 201000010099 disease Diseases 0.000 title claims abstract description 42
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012216 screening Methods 0.000 title claims abstract description 23
- 238000004458 analytical method Methods 0.000 claims abstract description 40
- 238000005065 mining Methods 0.000 claims abstract description 28
- 108700028369 Alleles Proteins 0.000 claims abstract description 9
- 238000012163 sequencing technique Methods 0.000 claims abstract description 9
- 238000001514 detection method Methods 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims description 8
- 238000007477 logistic regression Methods 0.000 claims description 7
- 206010006187 Breast cancer Diseases 0.000 claims description 4
- 208000026310 Breast neoplasm Diseases 0.000 claims description 4
- 206010009944 Colon cancer Diseases 0.000 claims description 4
- 208000001333 Colorectal Neoplasms Diseases 0.000 claims description 4
- 206010020772 Hypertension Diseases 0.000 claims description 4
- 208000008589 Obesity Diseases 0.000 claims description 4
- 235000020824 obesity Nutrition 0.000 claims description 4
- 208000001072 type 2 diabetes mellitus Diseases 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000011161 development Methods 0.000 claims description 3
- 206010012601 diabetes mellitus Diseases 0.000 description 7
- 230000002068 genetic effect Effects 0.000 description 5
- 230000007614 genetic variation Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- PJVWKTKQMONHTI-UHFFFAOYSA-N warfarin Chemical compound OC=1C2=CC=CC=C2OC(=O)C=1C(CC(=O)C)C1=CC=CC=C1 PJVWKTKQMONHTI-UHFFFAOYSA-N 0.000 description 4
- 229960005080 warfarin Drugs 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003205 genotyping method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 201000000980 schizophrenia Diseases 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 238000001353 Chip-sequencing Methods 0.000 description 1
- 201000003883 Cystic fibrosis Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 208000024556 Mendelian disease Diseases 0.000 description 1
- 208000007536 Thrombosis Diseases 0.000 description 1
- 229940127219 anticoagulant drug Drugs 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000036267 drug metabolism Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 230000002974 pharmacogenomic effect Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 208000007056 sickle cell anemia Diseases 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Data Mining & Analysis (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及生物信息学技术领域,尤其涉及一种筛选疾病表型相关突变位点的方法及其应用。所述方法包括获得多个疾病样本和正常样本的测序数据,进行变异检出;以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘,获得和疾病样本的表型具有强关联关系的突变位点;针对经过关联规则挖掘筛选得到的突变位点进行建模分析得到和疾病表型相关的突变位点。本发明通过将等位基因转换为分类变量进行关联规则挖掘,后针对和疾病表型强关联的位点进行建模分析,可以有效降低分析的样本总量,并且避免等位基因频率对分析结果的影响,只需获得突变基因型信息即可完成疾病表型相关位点的筛选和分析。
Description
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种筛选疾病表型相关突变位点的方法及其应用。
背景技术
人类遗传学的中心目标是识别常见复杂疾病(如精神分裂症和Ⅱ型糖尿病)和罕见孟德尔疾病(如囊性纤维化和镰状细胞性贫血)的遗传风险因素。虽然了解人类健康和疾病的复杂性是目前研究的关键之一,但不是人类遗传学研究的唯一焦点,药理学领域也是同样重要的领域。药物基因学的目的是识别与药物代谢、疗效以及副作用相关的DNA序列变异。例如,法华林是一种稀释血液的药物,有助于防止患者生成的血凝块。在使用法华林的同时,需要严格把控为每个病人制定的药物剂量,并且现有技术普遍认为剂量的多少受到基因所调控。最近的全基因组关联性分析(Genome-wide association studies,GWAS)表明,几个基因的DNA序列变异对华法林剂量有很大影响。这些结果,以及验证性研究,主导了可以用于临床的华法林剂量的基因测试。这种类型的基因检测催生了名为“个性化医疗”的新领域,该领域旨在根据患者的遗传背景和其他生物特征,为其量身定制医疗服务。
GWAS分析应用基因组中数百万计的单核苷酸多态(single nucleotidepolymorphism,SNP),进行全基因组水平上的对照分析或相关性分析,是通过比较发现影响复杂性状的基因变异的一种新策略。GWAS分析在全基因组范围内选择遗传变异进行基因分析,基于病例-对照样本,比较两组之间每个遗传变异及其频率的差异,统计分析每个变异与目标性状之间的关联性大小,选出最相关的遗传变异进行验证,并根据验证结果最终确认其与目标性状之间的相关性。GWAS预测性状与基因的关联,其分析结果受多种因素的影响:1)性状受多少个位点的影响;2)这些位点的等位基因频率和它们效应量的联合分布情况;3)实验的样本量;4)用于GWAS分析的全基因组变异平台;5)研究的性状或疾病的异质性。GWAS的分析结果需要大量样本来支撑,以便有足够大的统计学功效,因此,进行GWAS分析的成本往往较高。
Logistic回归模型是一个分析二分类(如病例-对照等)反应变量的基本工具,也可以分析基因-基因间交互作用。但是Logistic回归模型在用小样本量来估计较多参数(如单核苷酸多态性)时存在一定的局限性,每增加一个SNP位点,所需的样本量将呈指数倍增加,考虑到基因型频率,即使样本量较大,数据分布在高维空间仍显得相对稀疏,很可能出现某系基因组组合没有观察值的情况,这种情况称为“维度困扰”。
关联规则挖掘被认为是可以从大量数据中筛选新颖、潜在未知的知识和信息的一种有效工具,可以为发现各种属性包括属性组合之间的复杂关联提供许多有益的信息,并且对于处理稀疏和弱相关的数据,效率较高。
发明内容
为了解决现有技术存在的问题,本发明提供一种筛选疾病表型相关突变位点的方法及其应用。本发明通过将等位基因转换为分类变量进行关联规则挖掘,后针对和疾病表型强关联的位点进行建模分析,可以有效降低分析的样本总量,并且避免等位基因频率对分析结果的影响。
第一方面,本发明提供一种筛选疾病表型相关突变位点的方法,包括:
获得多个疾病样本和正常样本的测序数据,进行变异检出;
以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘,获得和疾病样本的表型具有强关联关系的突变位点;
针对经过关联规则挖掘筛选得到的突变位点进行建模分析得到和疾病表型相关的突变位点。
进一步地,所述以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘,具体为:
将样本的表型依据患病与否、检出的突变位点的突变类型依据其基因型转换为二分类变量,后作为项目总集进行关联规则挖掘。
进一步地,所述关联规则挖掘包括:
通过多次迭代在所述项目总集中得到频繁项集;
针对所有频繁项集生成多个关联规则,获取置信度大于最小置信度的关联规则作为强关联规则;
选择提升度lift>1的强关联规则作为有效强关联规则。
进一步地,所述关联规则挖掘中最小支持度为0.1-0.3,最小置信度为0.7-0.9。
进一步地,所述通过多次迭代在所述项目总集中得到频繁项集,具体为:
采用FP-Growth算法通过多次迭代在所述项目总集中得到频繁项集。
进一步地,在所述获得多个疾病样本和正常样本的测序数据,进行变异检出后,还包括:
在检出的突变位点中去除不符合如下任一要求的位点:
(1)不符合温迪哈伯格平衡的位点;
(2)基因型缺失率大于1%的位点;
(3)最小等位基因频率低于1%的位点。
进一步地,在所述进行建模分析前,还包括:通过χ2检验或Fisher确切概率法对所述经过关联规则挖掘筛选得到的突变位点进行检验,选择具有统计学意义的突变位点进行后续的建模分析。
进一步地,针对关联规则挖掘得到的转换为二分类变量的突变位点,能处理因变量为二分类变量的模型都可以进行分析,本发明优选采用Logistic回归模型。
本发明进一步提供所述方法在疾病表型相关突变位点的开发中的应用。
本发明提供的方法可以适用于任何疾病表型相关突变位点的开发,只需同时提供患病样本和正常样本即可。例如针对二型糖尿病、高血压、肥胖、乳腺癌或结直肠癌相关突变位点的开发。
本发明具备如下有益效果:
GWAS分析需要大量样本来保证一定的统计学功效,本发明根据突变位点的基因分型,将突变数据及样本表型数据转换成二分类变量进行关联规则挖掘,可以有效降低分析的样本总量,并且避免了等位基因频率的影响,在分析较少样本、大量SNP位点的稀疏数据时,具有较高的效率。并且FPGrowth算法只需扫描两遍数据,通过FP-tree数据结构压缩原始数据,通过两个数据扫描,将原始数据中的事务压缩到一个FP-tree,相同前缀的路径可以共用,从而达到压缩数据的目的,效率较高。实验验证,采用本发明提供的方法可以采用更少的样本数量取得高于全基因组关联分析的技术效果。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明提供一种筛选疾病表型相关突变位点的方法,包括:
S1获得多个疾病样本和正常样本的测序数据,进行变异检出
本发明提供的方法可以针对多种疾病进行相关位点的筛选,例如糖尿病、阿尔茨海默病、精神分裂症、高血压、肥胖、乳腺癌或结直肠癌等疾病,首先取得目的疾病的多个疾病样本(例如血液样本)和正常样本进行基因测序,检出多个突变位点。
进一步地,对于测序得到的多个突变位点先进行位点过滤,去除不符合如下任一条件的位点:1)不符合温迪哈伯格平衡的位点;2)基因型缺失率大于1%的位点;3)最小等位基因频率低于1%的位点。将过滤后的位点用于下一步骤的关联规则分析。
S2以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘,获得和疾病样本的表型具有强关联关系的突变位点
本发明在测序并进行位点过滤后得到多个突变位点后,将这些突变位点和疾病的样本作为关联规则挖掘的项目集合,每个样本作为一个事务。先通过多次迭代从项目集合中得到频繁项集,例如通过Apriori算法或FP-Growth算法通过多次迭代在所述项目总集中得到频繁项集。
得到频繁项集后,遍历所有频繁项集,然后从每个项集中依次取1,2,3,…,k个元素作为后继,项目集中其他元素作为前导,计算该规则的置信度进行筛选,该条规则的置信度如果小于设定的最小置信度值min_confidence,则剔除该条规则,大于最小置信度min_confidence的规则为强关联规则,从强关联规则中将提升度lift>1的有效强关联规则筛选出来。
有效强关联规则的筛选流程如下:
利用最小支持度min_support和最小置信度min_confidence,针对每个频繁项集,根据先导A和后继B在各个事件中出现的频数进行统计和整理,得到四格表:
表1 先导A和后继B的频数统计
根据此表格,则有:
support(A=>B)=P(AB)=a/n
confidence(A=>B)=P(B|A)=a/(a+b)
其中,若支持度lift=1,说明该突变位点与疾病表型相互独立,即使支持度support和置信度confidence都高,但它们之间没有必然的关联联系;满足最小支持度min_support和最小置信度min_confidence的关联关系叫做强关联关系,其中当支持度lift>1时,为有效的强关联关系,当支持度lift<=1,为无效的强关联关系。
进一步地,所述以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘,具体为:将样本的表型依据患病与否、检出的突变位点的突变类型依据其基因型转换为二分类变量,后作为项目总集进行关联规则挖掘。
例如在生成关联规则挖掘的项目集合时,将样本的表型和突变位点均进行编码,依据布尔关联规则输入为二分类变量,例如针对突变位点,将野生型(AA)编码为0,杂合型(Aa)和纯合型(AA)编码为1,则对于任一突变位点,其对应在项目集合中为“突变位点=‘0’或突变位点=‘1’”,针对样本表型时进行相同处理,例如将患病样本编码为1,未患病样本编码为0,其对应在项目集合中为“表型=‘0’或表型=‘1’”。
进一步地,对于经过关联规则挖掘后得到和疾病表型相关的突变位点,进行χ2检验或Fisher确切概率法检验,筛选得到有统计学意义的位点进行后续的建模分析流程。
S3针对经过关联规则挖掘筛选得到的突变位点进行建模分析得到和所述疾病样本的表型相关的突变位点。
本发明针对上一步骤筛选得到的突变位点进行建模分析,例如采用Logistic回归分析进行分析,将这些突变位点作为Logistic回归模型的输入,采用逐步选择法,同时进行前向选择和后向剔除,得到确认性质的病例表型相关的位点。
实施例1
本实施例采用本发明提供的筛选疾病表型相关突变位点的方法进行二型糖尿病相关SNP位点的挖掘,具体如下:
1、选择200例二型糖尿病患者,200例正常人作为对照,进行芯片测序,位点总计743722个。
2、关联规则分析:根据突变位点的基因分型,将突变数据及样本表型数据转换成二分类变量,设置关联规则分析参数,最小支持度min_sup=20%,最小置信度min_conf=80%。
3、应用FP-Growth算法产生频繁项集。
4、得到频繁项集后,从中找出置信度大于min_conf的关联规则为强关联规则
5、从强关联规则中筛选出有效的强关联规则,即选取作用度lift>1.00的所有规则,表2为部分结果:
表2 糖尿病相关突变位点部分关联规则挖掘结果
5、为解决多位点存在的共线性问题,本实施例将步骤4筛选的位点采用逐步回归方法纳入Logistic回归中,确保回归方程中只包含显著性变量。
经以上计算分析,得到数个和糖尿病相关的突变位点,本实施例进一步将得到的突变位点和GWAS分析结果(基于相同样本)进行对比,其中选取GWAS结果中p-value<10-e7的前20个位点,及应用关联规则分析结果中p-value<0.005的前20个位点,得到如表3-表4的对比结果,GWAS的结果中有5个位点(第7、8、9、18和19个位点)是在GWAS Catalog数据库中记录的与糖尿病相关的位点,关联规则分析结果中有10个位点(第4、5、6、12、13、16、17、18、19和20个位点)是在GWAS Catalog数据库中记录的与糖尿病相关的位点。
表3 糖尿病相关突变位点分析结果-GWAS分析结果
表4 糖尿病相关突变位点分析结果-关联规则挖掘结果
实施例2
本实施例选取100例高血压、126例肥胖、410例肺癌、360例乳腺癌、134例结直肠癌及200例正常样本,分别进行GWAS分析及关联规则分析,选取GWAS分析结果中p-value<10-e7的前20个位点及关联规则分析中p-value<0.005的前20个位点,比较两者检出的位点在GWAS Catalog数据库中记录的与表型相关位点的占比,结果如表5:
表5
由此可见各个表型使用关联规则分析得到的SNP位点数在GWAS Catalog数据库中记录的与表型相关的位点的占比均高于GWAS的分析结果。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (10)
1.一种筛选疾病表型相关突变位点的方法,其特征在于,包括:
获得多个疾病样本和正常样本的测序数据,进行变异检出;
以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘,获得和疾病样本的表型具有强关联关系的突变位点;
针对经过关联规则挖掘筛选得到的突变位点进行建模分析得到和疾病表型相关的突变位点。
2.根据权利要求1所述的方法,其特征在于,所述以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘,具体为:
将样本的表型依据患病与否、检出的突变位点的突变类型依据其基因型转换为二分类变量,后作为项目总集进行关联规则挖掘。
3.根据权利要求1或2所述的方法,其特征在于,所述关联规则挖掘包括:
通过多次迭代在所述项目总集中得到频繁项集;
针对所有频繁项集生成多个关联规则,获取置信度大于最小置信度的关联规则作为强关联规则;
选择提升度lift>1的强关联规则作为有效强关联规则。
4.根据权利要求3所述的方法,其特征在于,所述关联规则挖掘中最小支持度为0.1-0.3,最小置信度为0.7-0.9。
5.根据权利要求3所述的方法,其特征在于,所述通过多次迭代在所述项目总集中得到频繁项集,具体为:
采用FP-Growth算法通过多次迭代在所述项目总集中得到频繁项集。
6.根据权利要求1所述的方法,其特征在于,在所述获得多个疾病样本和正常样本的测序数据,进行变异检出后,还包括:
在检出的突变位点中去除不符合如下任一要求的位点:
(1)不符合温迪哈伯格平衡的位点;
(2)基因型缺失率大于1%的位点;
(3)最小等位基因频率低于1%的位点。
7.根据权利要求1所述的方法,其特征在于,在所述进行建模分析前,还包括:通过χ2检验或Fisher确切概率法对所述经过关联规则挖掘筛选得到的突变位点进行检验,选择具有统计学意义的突变位点进行后续的建模分析。
8.根据权利要求1或2所述的方法,其特征在于,所述建模分析采用Logistic回归模型。
9.权利要求1-8任一项所述方法在疾病表型相关突变位点的开发中的应用。
10.根据权利要求9所述的应用,其特征在于,所述疾病为二型糖尿病、高血压、肥胖、乳腺癌或结直肠癌中的一种或多种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011599663.1A CN112735594B (zh) | 2020-12-29 | 2020-12-29 | 一种筛选疾病表型相关突变位点的方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011599663.1A CN112735594B (zh) | 2020-12-29 | 2020-12-29 | 一种筛选疾病表型相关突变位点的方法及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112735594A true CN112735594A (zh) | 2021-04-30 |
CN112735594B CN112735594B (zh) | 2024-04-16 |
Family
ID=75611542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011599663.1A Active CN112735594B (zh) | 2020-12-29 | 2020-12-29 | 一种筛选疾病表型相关突变位点的方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735594B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436681A (zh) * | 2021-07-05 | 2021-09-24 | 温州谱希医学检验实验室有限公司 | 低频变异与目标疾病的关联统计检验方法及相关设备 |
CN113990389A (zh) * | 2021-12-27 | 2022-01-28 | 北京优迅医疗器械有限公司 | 推断肿瘤纯度和倍性的方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022001A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种肿瘤突变位点筛选及互斥基因挖掘的系统 |
CN108038352A (zh) * | 2017-12-15 | 2018-05-15 | 西安电子科技大学 | 结合差异化分析和关联规则挖掘全基因组关键基因的方法 |
CN109715831A (zh) * | 2016-04-14 | 2019-05-03 | 阿瑞斯遗传股份有限公司 | 利用来自细菌基因组和质粒的全部基因信息集用于改善的基因抗性测试 |
WO2020242976A1 (en) * | 2019-05-24 | 2020-12-03 | The Board Of Trustees Of The Leland Stanford Junior University | Methods for diagnosis of polygenic diseases and phenotypes from genetic variation |
-
2020
- 2020-12-29 CN CN202011599663.1A patent/CN112735594B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109715831A (zh) * | 2016-04-14 | 2019-05-03 | 阿瑞斯遗传股份有限公司 | 利用来自细菌基因组和质粒的全部基因信息集用于改善的基因抗性测试 |
CN106022001A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种肿瘤突变位点筛选及互斥基因挖掘的系统 |
CN108038352A (zh) * | 2017-12-15 | 2018-05-15 | 西安电子科技大学 | 结合差异化分析和关联规则挖掘全基因组关键基因的方法 |
WO2020242976A1 (en) * | 2019-05-24 | 2020-12-03 | The Board Of Trustees Of The Leland Stanford Junior University | Methods for diagnosis of polygenic diseases and phenotypes from genetic variation |
Non-Patent Citations (1)
Title |
---|
邹莉玲,赵耐青等: "应用关联规则筛选疾病相关的SNP位点及其组合的分析方法", 《中国卫生统计》, vol. 26, no. 3, pages 226 - 228 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436681A (zh) * | 2021-07-05 | 2021-09-24 | 温州谱希医学检验实验室有限公司 | 低频变异与目标疾病的关联统计检验方法及相关设备 |
CN113436681B (zh) * | 2021-07-05 | 2022-02-25 | 温州谱希医学检验实验室有限公司 | 低频变异与目标疾病的关联统计检验方法及相关设备 |
CN113990389A (zh) * | 2021-12-27 | 2022-01-28 | 北京优迅医疗器械有限公司 | 推断肿瘤纯度和倍性的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112735594B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Taliun et al. | Sequencing of 53,831 diverse genomes from the NHLBI TOPMed Program | |
JP7487163B2 (ja) | がんの進化の検出および診断 | |
Adie et al. | Speeding disease gene discovery by sequence based candidate prioritization | |
Uricchio et al. | Selection and explosive growth alter genetic architecture and hamper the detection of causal rare variants | |
Deshwar et al. | PhyloWGS: reconstructing subclonal composition and evolution from whole-genome sequencing of tumors | |
Nicolae et al. | Trait-associated SNPs are more likely to be eQTLs: annotation to enhance discovery from GWAS | |
US10235496B2 (en) | Systems and methods for genomic annotation and distributed variant interpretation | |
JP2024016039A (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
Jia et al. | Mapping quantitative trait loci for expression abundance | |
US20220130488A1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
US20190338349A1 (en) | Methods and systems for high fidelity sequencing | |
WO2003100557A2 (en) | Computer systems and methods for subdividing a complex disease into component diseases | |
US20050021236A1 (en) | Statistically identifying an increased risk for disease | |
Cao et al. | kTWAS: integrating kernel machine with transcriptome-wide association studies improves statistical power and reveals novel genes | |
CN112735594B (zh) | 一种筛选疾病表型相关突变位点的方法及其应用 | |
WO2022087478A1 (en) | Machine learning platform for generating risk models | |
Lemay et al. | Combined use of Oxford Nanopore and Illumina sequencing yields insights into soybean structural variation biology | |
Silberstein et al. | Pathway analysis for genome-wide genetic variation data: Analytic principles, latest developments, and new opportunities | |
WO2019242445A1 (zh) | 病原体操作组的检测方法、装置、计算机设备和存储介质 | |
Zhang et al. | MaLAdapt reveals novel targets of adaptive introgression from Neanderthals and Denisovans in worldwide human populations | |
KR20210110241A (ko) | 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법 | |
Hancock et al. | Population‐based case‐control association studies | |
Chang et al. | Odds ratio-based genetic algorithms for generating SNP barcodes of genotypes to predict disease susceptibility | |
US20040219567A1 (en) | Methods for global pattern discovery of genetic association in mapping genetic traits | |
Kadarmideen | Genetical systems biology in livestock: application to gonadotrophin releasing hormone and reproduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |