CN112735594A - 一种筛选疾病表型相关突变位点的方法及其应用 - Google Patents

一种筛选疾病表型相关突变位点的方法及其应用 Download PDF

Info

Publication number
CN112735594A
CN112735594A CN202011599663.1A CN202011599663A CN112735594A CN 112735594 A CN112735594 A CN 112735594A CN 202011599663 A CN202011599663 A CN 202011599663A CN 112735594 A CN112735594 A CN 112735594A
Authority
CN
China
Prior art keywords
mutation
sites
disease
phenotype
mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011599663.1A
Other languages
English (en)
Other versions
CN112735594B (zh
Inventor
张静波
姬晓勇
徐冰
单光宇
伍启熹
王建伟
刘倩
唐宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youxun Medical Devices Co ltd
Original Assignee
Beijing Youxun Medical Devices Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youxun Medical Devices Co ltd filed Critical Beijing Youxun Medical Devices Co ltd
Priority to CN202011599663.1A priority Critical patent/CN112735594B/zh
Publication of CN112735594A publication Critical patent/CN112735594A/zh
Application granted granted Critical
Publication of CN112735594B publication Critical patent/CN112735594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Public Health (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及生物信息学技术领域,尤其涉及一种筛选疾病表型相关突变位点的方法及其应用。所述方法包括获得多个疾病样本和正常样本的测序数据,进行变异检出;以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘,获得和疾病样本的表型具有强关联关系的突变位点;针对经过关联规则挖掘筛选得到的突变位点进行建模分析得到和疾病表型相关的突变位点。本发明通过将等位基因转换为分类变量进行关联规则挖掘,后针对和疾病表型强关联的位点进行建模分析,可以有效降低分析的样本总量,并且避免等位基因频率对分析结果的影响,只需获得突变基因型信息即可完成疾病表型相关位点的筛选和分析。

Description

一种筛选疾病表型相关突变位点的方法及其应用
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种筛选疾病表型相关突变位点的方法及其应用。
背景技术
人类遗传学的中心目标是识别常见复杂疾病(如精神分裂症和Ⅱ型糖尿病)和罕见孟德尔疾病(如囊性纤维化和镰状细胞性贫血)的遗传风险因素。虽然了解人类健康和疾病的复杂性是目前研究的关键之一,但不是人类遗传学研究的唯一焦点,药理学领域也是同样重要的领域。药物基因学的目的是识别与药物代谢、疗效以及副作用相关的DNA序列变异。例如,法华林是一种稀释血液的药物,有助于防止患者生成的血凝块。在使用法华林的同时,需要严格把控为每个病人制定的药物剂量,并且现有技术普遍认为剂量的多少受到基因所调控。最近的全基因组关联性分析(Genome-wide association studies,GWAS)表明,几个基因的DNA序列变异对华法林剂量有很大影响。这些结果,以及验证性研究,主导了可以用于临床的华法林剂量的基因测试。这种类型的基因检测催生了名为“个性化医疗”的新领域,该领域旨在根据患者的遗传背景和其他生物特征,为其量身定制医疗服务。
GWAS分析应用基因组中数百万计的单核苷酸多态(single nucleotidepolymorphism,SNP),进行全基因组水平上的对照分析或相关性分析,是通过比较发现影响复杂性状的基因变异的一种新策略。GWAS分析在全基因组范围内选择遗传变异进行基因分析,基于病例-对照样本,比较两组之间每个遗传变异及其频率的差异,统计分析每个变异与目标性状之间的关联性大小,选出最相关的遗传变异进行验证,并根据验证结果最终确认其与目标性状之间的相关性。GWAS预测性状与基因的关联,其分析结果受多种因素的影响:1)性状受多少个位点的影响;2)这些位点的等位基因频率和它们效应量的联合分布情况;3)实验的样本量;4)用于GWAS分析的全基因组变异平台;5)研究的性状或疾病的异质性。GWAS的分析结果需要大量样本来支撑,以便有足够大的统计学功效,因此,进行GWAS分析的成本往往较高。
Logistic回归模型是一个分析二分类(如病例-对照等)反应变量的基本工具,也可以分析基因-基因间交互作用。但是Logistic回归模型在用小样本量来估计较多参数(如单核苷酸多态性)时存在一定的局限性,每增加一个SNP位点,所需的样本量将呈指数倍增加,考虑到基因型频率,即使样本量较大,数据分布在高维空间仍显得相对稀疏,很可能出现某系基因组组合没有观察值的情况,这种情况称为“维度困扰”。
关联规则挖掘被认为是可以从大量数据中筛选新颖、潜在未知的知识和信息的一种有效工具,可以为发现各种属性包括属性组合之间的复杂关联提供许多有益的信息,并且对于处理稀疏和弱相关的数据,效率较高。
发明内容
为了解决现有技术存在的问题,本发明提供一种筛选疾病表型相关突变位点的方法及其应用。本发明通过将等位基因转换为分类变量进行关联规则挖掘,后针对和疾病表型强关联的位点进行建模分析,可以有效降低分析的样本总量,并且避免等位基因频率对分析结果的影响。
第一方面,本发明提供一种筛选疾病表型相关突变位点的方法,包括:
获得多个疾病样本和正常样本的测序数据,进行变异检出;
以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘,获得和疾病样本的表型具有强关联关系的突变位点;
针对经过关联规则挖掘筛选得到的突变位点进行建模分析得到和疾病表型相关的突变位点。
进一步地,所述以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘,具体为:
将样本的表型依据患病与否、检出的突变位点的突变类型依据其基因型转换为二分类变量,后作为项目总集进行关联规则挖掘。
进一步地,所述关联规则挖掘包括:
通过多次迭代在所述项目总集中得到频繁项集;
针对所有频繁项集生成多个关联规则,获取置信度大于最小置信度的关联规则作为强关联规则;
选择提升度lift>1的强关联规则作为有效强关联规则。
进一步地,所述关联规则挖掘中最小支持度为0.1-0.3,最小置信度为0.7-0.9。
进一步地,所述通过多次迭代在所述项目总集中得到频繁项集,具体为:
采用FP-Growth算法通过多次迭代在所述项目总集中得到频繁项集。
进一步地,在所述获得多个疾病样本和正常样本的测序数据,进行变异检出后,还包括:
在检出的突变位点中去除不符合如下任一要求的位点:
(1)不符合温迪哈伯格平衡的位点;
(2)基因型缺失率大于1%的位点;
(3)最小等位基因频率低于1%的位点。
进一步地,在所述进行建模分析前,还包括:通过χ2检验或Fisher确切概率法对所述经过关联规则挖掘筛选得到的突变位点进行检验,选择具有统计学意义的突变位点进行后续的建模分析。
进一步地,针对关联规则挖掘得到的转换为二分类变量的突变位点,能处理因变量为二分类变量的模型都可以进行分析,本发明优选采用Logistic回归模型。
本发明进一步提供所述方法在疾病表型相关突变位点的开发中的应用。
本发明提供的方法可以适用于任何疾病表型相关突变位点的开发,只需同时提供患病样本和正常样本即可。例如针对二型糖尿病、高血压、肥胖、乳腺癌或结直肠癌相关突变位点的开发。
本发明具备如下有益效果:
GWAS分析需要大量样本来保证一定的统计学功效,本发明根据突变位点的基因分型,将突变数据及样本表型数据转换成二分类变量进行关联规则挖掘,可以有效降低分析的样本总量,并且避免了等位基因频率的影响,在分析较少样本、大量SNP位点的稀疏数据时,具有较高的效率。并且FPGrowth算法只需扫描两遍数据,通过FP-tree数据结构压缩原始数据,通过两个数据扫描,将原始数据中的事务压缩到一个FP-tree,相同前缀的路径可以共用,从而达到压缩数据的目的,效率较高。实验验证,采用本发明提供的方法可以采用更少的样本数量取得高于全基因组关联分析的技术效果。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明提供一种筛选疾病表型相关突变位点的方法,包括:
S1获得多个疾病样本和正常样本的测序数据,进行变异检出
本发明提供的方法可以针对多种疾病进行相关位点的筛选,例如糖尿病、阿尔茨海默病、精神分裂症、高血压、肥胖、乳腺癌或结直肠癌等疾病,首先取得目的疾病的多个疾病样本(例如血液样本)和正常样本进行基因测序,检出多个突变位点。
进一步地,对于测序得到的多个突变位点先进行位点过滤,去除不符合如下任一条件的位点:1)不符合温迪哈伯格平衡的位点;2)基因型缺失率大于1%的位点;3)最小等位基因频率低于1%的位点。将过滤后的位点用于下一步骤的关联规则分析。
S2以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘,获得和疾病样本的表型具有强关联关系的突变位点
本发明在测序并进行位点过滤后得到多个突变位点后,将这些突变位点和疾病的样本作为关联规则挖掘的项目集合,每个样本作为一个事务。先通过多次迭代从项目集合中得到频繁项集,例如通过Apriori算法或FP-Growth算法通过多次迭代在所述项目总集中得到频繁项集。
得到频繁项集后,遍历所有频繁项集,然后从每个项集中依次取1,2,3,…,k个元素作为后继,项目集中其他元素作为前导,计算该规则的置信度进行筛选,该条规则的置信度如果小于设定的最小置信度值min_confidence,则剔除该条规则,大于最小置信度min_confidence的规则为强关联规则,从强关联规则中将提升度lift>1的有效强关联规则筛选出来。
有效强关联规则的筛选流程如下:
利用最小支持度min_support和最小置信度min_confidence,针对每个频繁项集,根据先导A和后继B在各个事件中出现的频数进行统计和整理,得到四格表:
表1 先导A和后继B的频数统计
Figure BDA0002870955170000041
根据此表格,则有:
support(A=>B)=P(AB)=a/n
confidence(A=>B)=P(B|A)=a/(a+b)
Figure BDA0002870955170000042
其中,若支持度lift=1,说明该突变位点与疾病表型相互独立,即使支持度support和置信度confidence都高,但它们之间没有必然的关联联系;满足最小支持度min_support和最小置信度min_confidence的关联关系叫做强关联关系,其中当支持度lift>1时,为有效的强关联关系,当支持度lift<=1,为无效的强关联关系。
进一步地,所述以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘,具体为:将样本的表型依据患病与否、检出的突变位点的突变类型依据其基因型转换为二分类变量,后作为项目总集进行关联规则挖掘。
例如在生成关联规则挖掘的项目集合时,将样本的表型和突变位点均进行编码,依据布尔关联规则输入为二分类变量,例如针对突变位点,将野生型(AA)编码为0,杂合型(Aa)和纯合型(AA)编码为1,则对于任一突变位点,其对应在项目集合中为“突变位点=‘0’或突变位点=‘1’”,针对样本表型时进行相同处理,例如将患病样本编码为1,未患病样本编码为0,其对应在项目集合中为“表型=‘0’或表型=‘1’”。
进一步地,对于经过关联规则挖掘后得到和疾病表型相关的突变位点,进行χ2检验或Fisher确切概率法检验,筛选得到有统计学意义的位点进行后续的建模分析流程。
S3针对经过关联规则挖掘筛选得到的突变位点进行建模分析得到和所述疾病样本的表型相关的突变位点。
本发明针对上一步骤筛选得到的突变位点进行建模分析,例如采用Logistic回归分析进行分析,将这些突变位点作为Logistic回归模型的输入,采用逐步选择法,同时进行前向选择和后向剔除,得到确认性质的病例表型相关的位点。
实施例1
本实施例采用本发明提供的筛选疾病表型相关突变位点的方法进行二型糖尿病相关SNP位点的挖掘,具体如下:
1、选择200例二型糖尿病患者,200例正常人作为对照,进行芯片测序,位点总计743722个。
2、关联规则分析:根据突变位点的基因分型,将突变数据及样本表型数据转换成二分类变量,设置关联规则分析参数,最小支持度min_sup=20%,最小置信度min_conf=80%。
3、应用FP-Growth算法产生频繁项集。
4、得到频繁项集后,从中找出置信度大于min_conf的关联规则为强关联规则
5、从强关联规则中筛选出有效的强关联规则,即选取作用度lift>1.00的所有规则,表2为部分结果:
表2 糖尿病相关突变位点部分关联规则挖掘结果
Figure BDA0002870955170000051
Figure BDA0002870955170000061
5、为解决多位点存在的共线性问题,本实施例将步骤4筛选的位点采用逐步回归方法纳入Logistic回归中,确保回归方程中只包含显著性变量。
经以上计算分析,得到数个和糖尿病相关的突变位点,本实施例进一步将得到的突变位点和GWAS分析结果(基于相同样本)进行对比,其中选取GWAS结果中p-value<10-e7的前20个位点,及应用关联规则分析结果中p-value<0.005的前20个位点,得到如表3-表4的对比结果,GWAS的结果中有5个位点(第7、8、9、18和19个位点)是在GWAS Catalog数据库中记录的与糖尿病相关的位点,关联规则分析结果中有10个位点(第4、5、6、12、13、16、17、18、19和20个位点)是在GWAS Catalog数据库中记录的与糖尿病相关的位点。
表3 糖尿病相关突变位点分析结果-GWAS分析结果
Figure BDA0002870955170000062
表4 糖尿病相关突变位点分析结果-关联规则挖掘结果
Figure BDA0002870955170000063
Figure BDA0002870955170000071
实施例2
本实施例选取100例高血压、126例肥胖、410例肺癌、360例乳腺癌、134例结直肠癌及200例正常样本,分别进行GWAS分析及关联规则分析,选取GWAS分析结果中p-value<10-e7的前20个位点及关联规则分析中p-value<0.005的前20个位点,比较两者检出的位点在GWAS Catalog数据库中记录的与表型相关位点的占比,结果如表5:
表5
Figure BDA0002870955170000072
由此可见各个表型使用关联规则分析得到的SNP位点数在GWAS Catalog数据库中记录的与表型相关的位点的占比均高于GWAS的分析结果。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种筛选疾病表型相关突变位点的方法,其特征在于,包括:
获得多个疾病样本和正常样本的测序数据,进行变异检出;
以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘,获得和疾病样本的表型具有强关联关系的突变位点;
针对经过关联规则挖掘筛选得到的突变位点进行建模分析得到和疾病表型相关的突变位点。
2.根据权利要求1所述的方法,其特征在于,所述以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘,具体为:
将样本的表型依据患病与否、检出的突变位点的突变类型依据其基因型转换为二分类变量,后作为项目总集进行关联规则挖掘。
3.根据权利要求1或2所述的方法,其特征在于,所述关联规则挖掘包括:
通过多次迭代在所述项目总集中得到频繁项集;
针对所有频繁项集生成多个关联规则,获取置信度大于最小置信度的关联规则作为强关联规则;
选择提升度lift>1的强关联规则作为有效强关联规则。
4.根据权利要求3所述的方法,其特征在于,所述关联规则挖掘中最小支持度为0.1-0.3,最小置信度为0.7-0.9。
5.根据权利要求3所述的方法,其特征在于,所述通过多次迭代在所述项目总集中得到频繁项集,具体为:
采用FP-Growth算法通过多次迭代在所述项目总集中得到频繁项集。
6.根据权利要求1所述的方法,其特征在于,在所述获得多个疾病样本和正常样本的测序数据,进行变异检出后,还包括:
在检出的突变位点中去除不符合如下任一要求的位点:
(1)不符合温迪哈伯格平衡的位点;
(2)基因型缺失率大于1%的位点;
(3)最小等位基因频率低于1%的位点。
7.根据权利要求1所述的方法,其特征在于,在所述进行建模分析前,还包括:通过χ2检验或Fisher确切概率法对所述经过关联规则挖掘筛选得到的突变位点进行检验,选择具有统计学意义的突变位点进行后续的建模分析。
8.根据权利要求1或2所述的方法,其特征在于,所述建模分析采用Logistic回归模型。
9.权利要求1-8任一项所述方法在疾病表型相关突变位点的开发中的应用。
10.根据权利要求9所述的应用,其特征在于,所述疾病为二型糖尿病、高血压、肥胖、乳腺癌或结直肠癌中的一种或多种。
CN202011599663.1A 2020-12-29 2020-12-29 一种筛选疾病表型相关突变位点的方法及其应用 Active CN112735594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011599663.1A CN112735594B (zh) 2020-12-29 2020-12-29 一种筛选疾病表型相关突变位点的方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011599663.1A CN112735594B (zh) 2020-12-29 2020-12-29 一种筛选疾病表型相关突变位点的方法及其应用

Publications (2)

Publication Number Publication Date
CN112735594A true CN112735594A (zh) 2021-04-30
CN112735594B CN112735594B (zh) 2024-04-16

Family

ID=75611542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011599663.1A Active CN112735594B (zh) 2020-12-29 2020-12-29 一种筛选疾病表型相关突变位点的方法及其应用

Country Status (1)

Country Link
CN (1) CN112735594B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436681A (zh) * 2021-07-05 2021-09-24 温州谱希医学检验实验室有限公司 低频变异与目标疾病的关联统计检验方法及相关设备
CN113990389A (zh) * 2021-12-27 2022-01-28 北京优迅医疗器械有限公司 推断肿瘤纯度和倍性的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022001A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种肿瘤突变位点筛选及互斥基因挖掘的系统
CN108038352A (zh) * 2017-12-15 2018-05-15 西安电子科技大学 结合差异化分析和关联规则挖掘全基因组关键基因的方法
CN109715831A (zh) * 2016-04-14 2019-05-03 阿瑞斯遗传股份有限公司 利用来自细菌基因组和质粒的全部基因信息集用于改善的基因抗性测试
WO2020242976A1 (en) * 2019-05-24 2020-12-03 The Board Of Trustees Of The Leland Stanford Junior University Methods for diagnosis of polygenic diseases and phenotypes from genetic variation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109715831A (zh) * 2016-04-14 2019-05-03 阿瑞斯遗传股份有限公司 利用来自细菌基因组和质粒的全部基因信息集用于改善的基因抗性测试
CN106022001A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种肿瘤突变位点筛选及互斥基因挖掘的系统
CN108038352A (zh) * 2017-12-15 2018-05-15 西安电子科技大学 结合差异化分析和关联规则挖掘全基因组关键基因的方法
WO2020242976A1 (en) * 2019-05-24 2020-12-03 The Board Of Trustees Of The Leland Stanford Junior University Methods for diagnosis of polygenic diseases and phenotypes from genetic variation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邹莉玲,赵耐青等: "应用关联规则筛选疾病相关的SNP位点及其组合的分析方法", 《中国卫生统计》, vol. 26, no. 3, pages 226 - 228 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436681A (zh) * 2021-07-05 2021-09-24 温州谱希医学检验实验室有限公司 低频变异与目标疾病的关联统计检验方法及相关设备
CN113436681B (zh) * 2021-07-05 2022-02-25 温州谱希医学检验实验室有限公司 低频变异与目标疾病的关联统计检验方法及相关设备
CN113990389A (zh) * 2021-12-27 2022-01-28 北京优迅医疗器械有限公司 推断肿瘤纯度和倍性的方法和装置

Also Published As

Publication number Publication date
CN112735594B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
Taliun et al. Sequencing of 53,831 diverse genomes from the NHLBI TOPMed Program
JP7487163B2 (ja) がんの進化の検出および診断
Adie et al. Speeding disease gene discovery by sequence based candidate prioritization
Uricchio et al. Selection and explosive growth alter genetic architecture and hamper the detection of causal rare variants
Deshwar et al. PhyloWGS: reconstructing subclonal composition and evolution from whole-genome sequencing of tumors
Nicolae et al. Trait-associated SNPs are more likely to be eQTLs: annotation to enhance discovery from GWAS
US10235496B2 (en) Systems and methods for genomic annotation and distributed variant interpretation
JP2024016039A (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
Jia et al. Mapping quantitative trait loci for expression abundance
US20220130488A1 (en) Methods for detecting copy-number variations in next-generation sequencing
US20190338349A1 (en) Methods and systems for high fidelity sequencing
WO2003100557A2 (en) Computer systems and methods for subdividing a complex disease into component diseases
US20050021236A1 (en) Statistically identifying an increased risk for disease
Cao et al. kTWAS: integrating kernel machine with transcriptome-wide association studies improves statistical power and reveals novel genes
CN112735594B (zh) 一种筛选疾病表型相关突变位点的方法及其应用
WO2022087478A1 (en) Machine learning platform for generating risk models
Lemay et al. Combined use of Oxford Nanopore and Illumina sequencing yields insights into soybean structural variation biology
Silberstein et al. Pathway analysis for genome-wide genetic variation data: Analytic principles, latest developments, and new opportunities
WO2019242445A1 (zh) 病原体操作组的检测方法、装置、计算机设备和存储介质
Zhang et al. MaLAdapt reveals novel targets of adaptive introgression from Neanderthals and Denisovans in worldwide human populations
KR20210110241A (ko) 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법
Hancock et al. Population‐based case‐control association studies
Chang et al. Odds ratio-based genetic algorithms for generating SNP barcodes of genotypes to predict disease susceptibility
US20040219567A1 (en) Methods for global pattern discovery of genetic association in mapping genetic traits
Kadarmideen Genetical systems biology in livestock: application to gonadotrophin releasing hormone and reproduction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant