CN114341990A - 用于分析基因数据的计算机执行方法和装置 - Google Patents

用于分析基因数据的计算机执行方法和装置 Download PDF

Info

Publication number
CN114341990A
CN114341990A CN202080061338.1A CN202080061338A CN114341990A CN 114341990 A CN114341990 A CN 114341990A CN 202080061338 A CN202080061338 A CN 202080061338A CN 114341990 A CN114341990 A CN 114341990A
Authority
CN
China
Prior art keywords
variants
fine
mapped
phenotype
variant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080061338.1A
Other languages
English (en)
Inventor
文森特·雅恩·玛丽·普雷格诺
R·摩尔
E·M·L·克拉波尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Genomics PLC
Original Assignee
Genomics PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Genomics PLC filed Critical Genomics PLC
Publication of CN114341990A publication Critical patent/CN114341990A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开涉及分析基因数据。在一种布置中,一种方法对输入数据进行操作,该输入数据包括一个或多个包括目标表型的表型与多个基因变体之间的关联强度。将精细映射算法应用于输入数据的全部或子集以识别一种或多种独立的表型‑变体关联。为每个关联识别一个或多个精细映射变体的集。在输入数据和精细映射变体的集的基础上计算精细映射预测模型。从输入数据中减去精细映射变体的集对目标表型的效应以获得残余关联数据。将机器学习算法应用于残余关联数据以识别目标表型和多个基因变体之间的进一步预测相关性。

Description

用于分析基因数据的计算机执行方法和装置
本发明涉及分析关于生物体的基因和表型数据以获得关于该生物体的信息,特别是在能够获得对于感兴趣表型的改进的多基因风险评分(polygenic risk score,PRS)的背景下。
PRS是生物体的遗传DNA对其可能表现出的表型的贡献的定量总结。PRS可能包括与感兴趣表型相关(直接地或间接地)的所有DNA变体,或者如果它们与生物体生物学的特定方面(包括细胞、组织或其他生物单位、机制或过程)更相关,则可以使用其组成部分。PRS可以直接使用,或作为关于该生物体的多个测量结果或记录的一部分,以推断其过去、当前和未来生物学的方面。在改善人类健康和医疗保健的背景下,PRS具有一系列实际用途,包括但不限于:预测疾病或表型发展的风险、预测表型发病年龄、预测疾病严重程度、预测疾病亚型、预测对治疗的反应、为个体选择适当的筛查策略、选择适当的药物干预和为其他预测算法设置先验概率。PRS可以直接用作人工智能和机器学习方法的应用中的输入源,以根据其他高维输入数据(例如成像)进行预测或分类。它们可用于帮助训练这些算法,例如识别基于非基因数据的预测测量。除了在对个体做出预测性说明方面具有实用性外,它们还可用于通过计算大量个体的PRS,然后基于PRS对个体进行分组来识别个体群组(包括但不限于上述应用)。PRS还可以帮助选择个体进行临床试验,例如通过招募更有可能发展相关疾病或表型的个体来优化试验设计,从而增强对新治疗的功效的评估。PRS携带有关他们计算的个体的信息,也包括他们的亲属(其分享这些个体遗传的DNA的一部分)的信息。有关个体DNA对其表型的影响的信息可以源自对携带任何特定DNA变体组合的潜在影响的任何相关评估。在下文中,我们专注于对源自基因关联研究(genetic association studies,GAS)的近期大量信息的分析。这些研究系统地评估了DNA变体对表型的基因基础的潜在贡献。
自2000年代中期(mid-2000s)以来,已经在数以百万计的个体中对成千上万(主要是人)的表型进行了GAS(通常是全基因组关联研究:GWAS,或靶向单个变体,或基因组区域中的变体的关联研究,或限于基因组特定区域的GWAS),从而在基因型和表型之间产生数十亿的潜在联系。然后通常将得到的原始数据简化以产生汇总统计数据。对于每个基因变体(不论是插补的还是观察到的),GAS汇总统计数据由基因变体对GAS表型的推断效应值和推断效应值的标准误差组成。在其它情况下,由研究中个体的完整基因概况和关于其表型的信息组成的个体水平数据可直接利用。然而,由于对个体数据的隐私的要求,个体水平数据通常不太广泛地利用。
在下文中,我们将表型称为与单个研究同义。然而,非常常见的情况是数据可从基于相同或相似表型的多个不同研究获得,或从测量多个不同表型的单个群组获得。
PRS由大量基因变体的效应的聚集体组成,通常每个基因变体具有小的个体效应,以构建感兴趣特征的综合预测因子。包括在这种评分中的变体可以是“因果变体”,意思是变体直接影响特征(弱的,但直接的),或“标记变体”,这意味着它们与其它未知的因果变体强烈相关,但标记变体本身对表型没有直接效应。
PRS可以使用个体水平数据或汇总统计数据来计算。PRS构建策略正在扩展,但构建精确PRS的公认通用方法包括通过研究最佳捕获潜在生物关联的变体的组合对所有关联区域中的信号进行去卷积。该过程为每个关联分配概率权重给每个变体,从而描述哪个或哪些变体可能是直接因果的。该过程被称为“精细映射(fine-mapping)”,并且先前已经提出了数种策略来实现该任务(参见例如Benner等,Bioinformatics 2016,15;32(10):1493-1501)。
关联的数目将变化,其中许多基因组区域含有单个潜在关联,而一些基因组区域将含有多个独立的关联(已报道多达10个,但这是罕见的)。识别负责区域中所有关联的变体的正确组合的技术挑战是这些变体可以彼此相关。相关性越大,分解这些相关性所需的样本数就越多。
一些构建PRS的工具设计成利用汇总统计数据。一种这样的方法是修剪和阈值化:选择最相关的变体为PRS做出贡献,并删除其高度相关的变体。然后选择剩余变体中最相关的变体,并重复该过程,直到剩余变体的重要性降至预定义阈值以下。LDpred软件(https://github.com/bvilhjal/ldpred)推广的另一种方法是在全基因组范围内对合理变体的多个随机选择进行迭代,并在选择或删除变体时估计残余信号。
基于汇总统计数据的策略的优势在于,没有限制共享个体水平数据意味着可以为科学界提供更大的样本量。这就是为什么当前的PRS设计大部分基于这些大型汇总统计数据集。
然而,对于所有基于汇总统计数据的方法,相关变体是通过参考描述变体之间的预期的相关性的外部数据源来处理的。基因变体之间的相关模式称为连锁不平衡(linkagedisequilibrium,LD)。这些外部数据源中的相关性不会完全匹配从用于生成汇总统计数据的个体水平数据中获得的相关性。由于关于正确相关性应该是什么的不确定性,这会在精细映射过程中引入额外的不确定性。因此,基于汇总统计数据的精细映射从根本上受到潜在LD模式的不确定性的限制。
依赖外部数据集来描述LD模式的另一个限制是不同群体具有不同的LD模式。因此,针对一个群体做出的推论不太可能对不同群体同样精确。换句话说,基于参考LD数据集得出的PRSs对群体变异性的稳健性有限。
本发明的一个目的是改进关于生物体的基因数据的分析和/或允许获得个体的更稳健和/或准确的PRS。
虽然LD的模式因群体(population)而异,但影响一个群体中的特征(trait)或疾病的变体通常也会影响不同群体中的相同特征/疾病。因此,使用精细映射技术来识别一个或多个因果(causal)变体,或可能包括或标记该一个或多个因果变体的变体集(set),将使PRS更加准确,特别是通过提高其对群体变异性的稳健性。
然而,并非所有变体都可以进行精细映射,尤其是大量的对目标表型具有很小效应的变体。因此,不需要精确说明哪些变体是因果的而只关注预测问题的替代技术对于PRS构建也很有用。
PRS的准确推导可能在预测疾病或预测个体对特定药物或治疗的反应方面具有很高的临床效用,因此将受益于利用精细映射优势的统计技术,同时还允许适当时使用替代机器学习技术。
根据本发明的方面,提供了一种分析关于生物体的基因数据以获得关于该生物体的信息的计算机执行方法,该方法包括:接收输入数据,所述输入数据包括在一个或多个包括目标表型的表型和所述生物的基因组的感兴趣区域中的多个基因变体之间的关联强度;将精细映射算法应用于所述输入数据的全部或子集以识别所述感兴趣区域内的一种或多种独立的表型-变体关联,包括:对于每种关联识别来自所述多个基因变体的一个或多个精细映射变体的集,和对于每个精细映射变体确定与所述表型-变体关联具有因果关系的估计概率,所述集内的精细映射变体的概率的总和为1;基于所述输入数据和所述精细映射变体的集计算精细映射预测模型,所述精细映射预测模型量化所述精细映射变体的集对所述目标表型的效应;使用所述精细映射预测模型从所述输入数据中减去所述精细映射变体的集对所述目标表型的效应以获得残余关联数据;以及将机器学习算法应用于所述残余关联数据以识别所述目标表型和所述多个基因变体之间的进一步预测相关性。
通过使用精细映射技术来识别与目标表型潜在具有因果关系的精细映射变体,并额外分析在精细映射变体的影响被考虑后剩余的残余信号(通过残余关联数据),该方法可以考虑数据中可能存在的进一步的弱相关性。包括这些额外的相关性提高了模型的预测准确性。
在一实施方式中,关联强度包括多个基因变体中的每个对目标表型的估计效应值,以及每个估计效应值的标准误差。估计的效应值及其误差可作为来自大量研究的汇总统计数据被广泛使用,从而允许访问大量数据。
在一实施方式中,接收输入数据的步骤包括:接收包括对于多个个体中每个的基因型和相应表型的个体水平数据;和使用所述个体水平数据,确定所述多个基因变体中的每个对目标表型的估计效应值,以及所述估计效应值中的每个的标准误差。在一些实施方式中可以使用个体水平数据,因为它不受关于可能存在于汇总统计数据中的区域内变体之间的相关性的基本假设的影响,从而减少引入无意偏差或误差的机会。
在一实施方式中,使用迭代方法执行精细映射变体的集的识别,其中每次迭代包括:基于输入数据,识别在基因组的区域内与任何先前识别的精细映射变体不同的精细映射变体;使用所述基因组的区域内所述基因变体之间的相关性矩阵,更新所述输入数据以说明已经识别的所述精细映射变体对所述目标表型的效应;以及确定是否在所述更新的输入数据的基础上执行进一步的迭代。通过使用迭代方法,可以从未被单个精细映射变体考虑的残余信号中识别多个精细映射变体,从而最大限度地利用汇总数据中存在的信号。
在一实施方式中,识别精细映射变体的集包括使用已知影响目标表型的多个仪器特征(instrument trait),所述仪器特征的使用包括:确定用于所述仪器特征的精细映射变体的集;基于所述多个仪器特征和所述目标表型之间的关系,确定是否将一个或多个用于所述仪器特征的所述精细映射变体中的每个包括在用于所述目标表型的所述精细映射变体的集中。所述多个仪器特征和所述目标表型之间的关系可以考虑所述仪器特征和所述目标表型之间潜在的复杂关联模式。可替代地或另外地,在其他实施方式中,识别所述精细映射变体的集包括识别用于一个或多个已知影响所述目标表型的直接因果仪器特征的精细映射变体的集。在这种情况下,可能不需要考虑所述多个仪器特征和所述目标表型之间的复杂关联模式。
仪器特征的使用可以提高确定表型的精细映射变体的准确性,其中基因变体仅对目标表型的效应很小,但对所述仪器特征的效应更大。
在一实施方式中,精细映射预测模型的计算包括:针对所述一种或多种仪器特征,确定所述精细映射变体的集对所述一种或多种仪器特征的效应值,以及基于对所述仪器特征的效应值和对目标表型的效应值之间的预定关系,确定包括在用于所述目标表型的所述精细映射变体的集中的用于所述仪器特征的每个所述精细映射变体对目标表型的效应值。所述仪器特征也可用于改进效应值的估计,其中基因变体对所述仪器特征的效应大于对所述目标表型的效应。这在所述仪器特征和所述目标表型之间的关系本身已得到充分表征的情况下尤其有效。
在一实施方式中,所述精细映射变体的集对所述目标表型的效应是使用机器学习算法推断的。在此实施方式中,将所述精细映射变体的集及其对应的边际效应值输入到所述机器学习算法中以生成效应值,使得残余关联数据是仅对应于所述精细映射变体的集的边际效应值。所述精细映射变体的集可以进一步包括一个或多个已知对所述目标表型具有高因果可能性的变体。
通过将机器学习算法集中在最有可能是因果关系的变体上,这减少了应用机器学习算法的基因变体的数量。这减少了计算负荷并提高了方法的效率。
在一实施方式中,关联强度包括多个基因变体中的每个对目标表型的估计效应值,以及每个估计效应值的标准误差;并且,精细映射预测模型包括每个所述精细映射变体对所述目标表型的精细映射效应值,考虑到所述精细映射变体的估计概率与表型-变体关联具有因果关系,从所述精细映射变体的估计效应值计算所述精细映射效应值。根据具有因果关系的其概率调整所述精细映射变体的效应值,确保了如果精细映射变体是因果关系的确定性较低,则其重要性不被高估。
在一实施方式中,关联强度包括所述多个基因变体中的每个对目标表型的估计效应值,以及每个估计效应值的标准误差;从所述输入数据中减去精细映射变体的集对所述目标表型的效应的步骤包括获得所述输入数据中多个基因变体中的每个的残余效应值,所述残余关联数据包括所述残余效应值,其中,在对所述效应值进行适当的重新归一化以确保方差相等之后,基因变体i的所述残余效应值
Figure BDA0003524658760000041
由下式给出:
Figure BDA0003524658760000042
其中βi是所述基因变体i的估计边际效应值,N是所述精细映射变体的数量,pj是变体j是因果关系的概率,
Figure BDA0003524658760000043
是第j个精细映射变体对所述目标表型的精细映射效应值,rij是所述第j个精细映射变体与基因变体i之间的相关性。
上述方法使得能够清楚地识别所述基因组的感兴趣区域中变体的残余效应,以供机器学习算法进一步分析。
在一实施方式中,输入数据源自多个不同的基因研究,且将机器学习算法应用于所述残余关联数据的步骤包括:使用与所述目标表型有因果关系的所述多个基因变体中的每个的先验概率(prior probability),所述先验概率取决于所述不同的基因研究之间的每个基因变体与所述目标表型之间的关联强度的一致性。对机器学习算法使用非扁平先验(non-flat prior)允许所述方法通过考虑关于特定数据可靠的确定性的进一步信息来提高其准确性。
在一实施方式中,所述将机器学习算法应用于所述残余关联数据的步骤包括使用与所述目标表型有因果关系的所述多个基因变体中的每个的先验概率,所述先验概率取决于所述感兴趣区域中所述多个基因变体的基因组注释(annotation)。包括所述基因组注释提供了有关特定变体与所述目标表型有因果关系的可能性的进一步数据,从而改进了效应值的确定。
在一实施方式中,所述方法还包括以下步骤:使用精细映射预测模型和由机器学习算法识别的进一步预测相关性,计算个体针对目标表型的多基因风险评分。
考虑到所述机器学习算法识别的进一步相关性,通过允许所述方法考虑未由精细映射变体的集解释的残余信号,提高了PRS的准确性。
在一实施方式中,输入数据源自所述生物体的多个不同群体,并且满足以下任一或两者:分别对所述输入数据的对应于不同群体的部分进行精细映射预测模型的计算以获得多个各个群体匹配的精细映射预测模型;和,分别对所述输入数据的对应于不同群体的部分进行将所述机器学习算法应用到所述残余关联数据以获得多个各个群体匹配的进一步预测相关性的集。
提供与特定群体匹配的精细映射预测模型和进一步残余预测相关性的集允许所述方法考虑基因组的感兴趣区域内的连锁不平衡(变体之间的相关性)的可能变化。
在一实施方式中,所述方法还包括:接收来自具有来自所述不同群体的混合体的基因的个体的输入数据;通过执行以下一项或两项操作来计算所述个体的多基因风险评分:将多个群体匹配的精细映射预测模型中的每个与所述输入数据的与所述群体匹配的精细映射预测模型的群体匹配的对应部分进行匹配,并将每个匹配的精细映射预测模型应用于所述输入数据的对应部分;以及将多个群体匹配的进一步预测相关性的集中的每个与所述输入数据的与所述群体匹配的进一步预测相关性的集中的所述群体匹配的对应部分进行匹配,并将每个匹配的进一步预测相关性的集应用于所述输入数据的对应部分。
使用与来自个体的输入数据的不同多个相应部分相匹配的多个精细映射预测模型和/或进一步残余预测相关性集来计算个体的所述多基因风险评分,允许所述方法提供更准确的预测风险评分,其考虑到与不同群体相关的变体之间的相关性的系统差异。
在一实施方式中,所述方法还包括:接收来自具有主要来自所述不同群体中的一个群体的基因的个体的输入数据;且通过执行以下一项或两项操作来计算所述个体的多基因风险评分:将群体匹配的精细映射预测模型应用于来自所述个体的所有输入数据,所述群体匹配的精细映射预测模型与所述个体的群体匹配;以及将群体匹配的进一步预测相关性的集应用于来自所述个体的所有输入数据,所述群体匹配的进一步预测相关性的集与所述个体的群体匹配。
使用与所述个体的群体匹配的精细映射预测模型和进一步残余预测相关性集来计算所述多基因风险评分,允许所述方法提供更准确的预测风险评分,其考虑到与不同群体相关的变体之间的相关性的系统差异。
在一实施方式中,通过精细映射算法识别一个或多个精细映射变体考虑多个基因变体与除目标表型以外的表型之间的关联。
使用关于其他表型相关性的信息可以最大限度地提高可用于识别所述精细映射变体及其效应值的可用信息的量。这进一步提高了所述方法结果的准确性。
根据替代方面,提供了一种用于分析关于生物体的基因数据以获得关于该生物体的信息的装置,所述装置包括:接收单元,其被配置为接收输入数据,所述输入数据包括在一个或多个包括目标表型的表型和所述生物的基因组的感兴趣区域中的多个基因变体之间的关联强度;和数据处理单元,其被配置为:通过对于每种关联识别来自所述多个基因变体的一个或多个精细映射变体的集,且对于每个精细映射变体确定与所述表型-变体关联具有因果关系的估计概率,将精细映射算法应用于所述输入数据的全部或子集以识别所述感兴趣区域内的一种或多种独立的表型-变体关联,所述集内的精细映射变体的概率的总和为1;基于所述输入数据和所述精细映射变体的集计算精细映射预测模型,所述精细映射预测模型量化所述精细映射变体的集对所述目标表型的效应;使用所述精细映射预测模型从所述输入数据中减去所述精细映射变体的集对所述目标表型的效应以获得残余关联数据;和将机器学习算法应用于所述残余关联数据以识别所述目标表型和所述多个基因变体之间的进一步预测相关性。
将参考附图仅通过示例的方式进一步描述本发明的实施方式,其中:
图1是描述分析基因数据以获得生物体信息的方法的流程图;
图2描述了用于分析基因数据以获得生物体信息的装置;
图3是示出冠状动脉疾病(coronary artery disease,CAD)和低密度脂蛋白(low-density lipoprotein,LDL)之间的效应值比较的图表;
图4示出了代表用于识别四个各自独立的关联信号的逐步前移回归分析中的步骤的四个图表,所述信号用于识别与染色体6的LPA区域中的LDL相关的精细映射变体;
图5是描述图4中识别的四个关联信号的联合LDL效应值对边缘LDL效应值估计的图表;
图6是描述通过将LDpred机器学习算法应用于使用图4和图5的分析获得的残余关联数据而获得的染色体6的LPA区域的CAD PRS权重的图表;和
图7是描述通过将LDpred机器学习算法直接应用于CAD变体数据而不进行任何先前的精细映射步骤而获得的染色体6的LPA区域的CAD PRS权重的图表。
本公开的实施例涉及分析关于生物体的基因数据以获得关于生物体的信息的计算机执行方法。图1描述了这些方法的框架。图2描述了用于执行这些方法的装置6。
在步骤S1中,输入数据2被接收(例如通过装置6的接收单元8)。接收单元8可以包括数据通信接口。数据通信接口允许将输入数据2提供给装置6的数据处理单元10。数据处理单元10可以包括被配置为执行下述的数据处理功能的计算机硬件、固件和/或软件的任何合适的组合。可选地在计算机可读介质上提供的计算机程序可以被提供,其包括用于执行下述任何方法的指令。装置6被描述为独立单元(例如单个PC或工作站),但这不是必需的。在其他实施例中,装置6包括分布式计算系统,该分布式计算系统包括通过网络连接的多台计算机。
在一些实施方式中,输入数据2包含包括目标表型的一个或多个表型和生物体基因组的感兴趣区域中的多个基因变体之间的关联强度。在一些实施方式中,输入数据2包括GWAS汇总统计数据和个体水平数据中的一者或两者。如下文将更详细描述的,该方法可以使用输入数据2来(i)识别对目标表型具有直接因果效应的高置信度的变体(称为精细映射变体);(ii)对于个体在对高置信度变体进行调节和/或预测特征风险(例如,以PRS的形式)之后,获得残余关联数据(其可称为残余信号和/或从残余信号导出)。当用于生物体是人的实施例中时,该方法特别有利。
目标表型可以是已经是GWAS的受试者或相关的个体水平基因数据可用的任何感兴趣表型。这种表型的例子很多,包括:基因(以及相关核苷酸序列)的表达的水平和表达的调控;表观遗传特征(例如,核苷酸修饰、染色体构象);蛋白质或肽的丰度水平;蛋白质或肽的功能和/或分子结构;生物体中分子(例如药物、激素、DNA分子或RNA分子、代谢物、维生素)的数量;生化和代谢过程的特征(例如基础代谢率、凝血酶原时间、活化部分促凝血酶原激酶时间);细胞形态和功能(例如,红细胞平均红细胞体积、中性粒细胞绝对计数);组织形态和功能(例如,骨矿物质密度、头发颜色);器官和器官系统的形态和功能(例如,左心室射血分数、用力肺活量);对外部一个刺激或多个刺激(例如光、声音、触摸或任何其他感官输入)的任何反应;对接触物质或病原体(例如饮食摄入、药物、气体、病毒、细菌)的任何反应;行为和生活方式特征(例如,吸烟、饮酒、职业);生殖和生命历程特征和功能(例如初潮年龄、胎盘重量、受教育年限);疾病或病症(例如糖尿病、心血管疾病、肥胖症)的发病、轨迹和预后;可测量的解剖特征(例如,体重指数、瘦肌肉质量、体脂百分比);可测量的生理或功能特征(例如,心率、血压、智力);和可测量的心理或认知特征(例如,流体智力指标、精神病症状)。这些测量中的任何一个都可能是绝对的或相对的。表型通常也被称为特征。
在步骤S2中,将精细映射算法应用于输入数据2的全部或子集。在一实施方式中,精细映射步骤识别具有高的因果置信度的变体,从而获得精细映射变体集。关于步骤S2的进一步细节下文给出。
在步骤S3中,基于输入数据2和精细映射变体计算精细映射预测模型。精细映射预测模型量化精细映射变体对目标表型的效应值。效应值是指给定变体对疾病风险的影响程度(或更一般地说,具有或发展任何给定表型的“风险”)。例如,1.2的效应值意味着对于给定的变体,每个风险等位基因的风险增加20%(对于每个个体,可以编码为0、1或2)。因此,效应值的量化允许精细映射预测模型基于来自个体的基因数据对个体进行预测。下文给出关于S3的更多细节。
在步骤S4中,使用精细映射预测模型从输入数据2中减去该组精细映射变体对目标表型的效应以获得残余关联数据。下文给出关于步骤S4的进一步细节。
在步骤S5中,将机器学习算法应用于残余关联数据以识别目标表型与输入数据2的多个基因变异之间的进一步预测相关性。在下面的具体实例中,使用了称为LDpred的机器学习算法。LDpred在精细映射和PRS生成领域是众所周知的。用于实施的软件可在https://github.com/bvilhjal/ldpred获得。进一步预测相关性可以量化与除精细映射变体之外的变体相关的效应值(在考虑了精细映射变体的效应之后),由此相对于如果仅将精细映射预测模型应用于来自个体的基因数据,允许细化关于个体的预测。
在步骤S6中,评估了PRS模型。PRS模型可以部分源自步骤S3的精细映射预测模型,部分源自步骤S5中执行的机器学习的进一步预测相关性。如下文将描述的,精细映射预测模型和来自机器学习的进一步预测相关性的组合可以定义用于计算PRS的方法(recipe),该方法采用变体加权和的形式,其中精细映射变体的权重由精细映射预测模型提供,而其它变体的权重由来自机器学习的进一步预测相关性提供。如果可以根据这种变体的加权和来解释经过训练的机器学习算法,这是可能的。在其它实施方式中,经过训练的机器学习算法可能更复杂,因此以不同方式表示为PRS模型的一部分。
在步骤S6中计算的PRS模型可以用于基于来自个体的基因数据来计算PRS分数。PRS模型可以作为表示PRS模型的数据被输出(例如,通过图2的装置6的数据通信接口)。导致并包括步骤S6的步骤(包括机器学习算法的训练)因此可以在一个装置6上执行,涉及PRS模型的使用的后续步骤(例如用于计算个体的PRS分数)可以在包括能够执行必要的数据处理任务的计算机硬件、固件和/或软件的任何合适组合的其他装置(未示出)上执行。可替代地,可以在计算PRS模型的同一个装置6上执行PRS分数的计算。
在步骤S7中,使用在步骤S6中计算的PRS模型来计算个体的PRS分数。PRS分数可以作为表示PRS分数的数据4被输出。
计算出的PRS模型构成了关于处在一般水平的生物体(例如,一般关于人类)的信息,在此意义上其使得能够根据从任何个体获得的基因信息来计算PRS得分。PRS分数构成有关特定个体生物体(例如单个人类受试者)的信息。
示例性应用场景
图3至图7描绘了在示例性场景中使用图1的方法,并将在下面给出的方法步骤的更详细讨论中提及。
图3说明了LDL的效应值如何与CAD在与LDL相关的95个不同位点(loci)的效应值相关。部分观察到这种相关性是因为LDL被认为对CAD具有几乎直接的因果影响。因此,我们将LDL称为用于CAD的合适仪器,这意味着有关LDL的信息可用于提高对于CAD的PRS的准确性。
图4说明了使用图1的方法在染色体6的LPA区域中使用已建立的方法(逐步前移回归)对LDL进行精细映射的结果。每个回归步骤都识别了一个额外的独立表型-变体关联,总共识别了四个独立的表型-变体关联。在每个图块中,黑色三角形代表新识别的精细映射变体或精细映射变体的可信集(credible set,CS)。在每个步骤中,具有低精细映射概率(<1%)的基因变体为灰色。第一个LDL关联信号具有四个后验概率大于1%的精细映射变体,而其余三个LDL关联信号识别了一个精细映射概率>1%的精细映射变体。
图5示出,对于本实例的LDL仪器特征,根据图4中所示的四个独立表型-变体关联估计的四个联合估计效应值与四个边缘估计效应值略有不同。
图6和图7描述了染色体6中相同LPA区域的CAD的导出PRS权重。在图6中,从LDL精细映射和效应值(图4和图5)外推精细映射的CAD变体,并在LDpred分析之前将其从CAD数据中减去以捕获残余信号(表示进一步预测相关性)。因此,图6将源自LDL精细映射(黑色)的PRS权重与源自LDpred残余信号(灰色)的PRS权重组合。这与图7形成对比,对于图7,应用仅基于CAD的标准LDpred分析策略而没有初始精细映射步骤。没有初始LDL精细映射的过程的有限精度的结果之一是在图7中没有检测到第四信号。这是因为单独的CAD数据不足以表征这种关联。
下面给出图1的步骤S2至S7的进一步示例性实施细节,为了说明的目的,在适当的地方对上述示例性应用场景进行参考。
步骤S2:精细映射
如上所述,在步骤S2中,该方法将精细映射算法应用于输入数据2的全部或子集以识别感兴趣区域内的一种或多种独立的表型-变体关联。识别感兴趣区域内的一种或多种独立的表型-变体关联可以包括识别对于感兴趣表型的高置信度的精细映射变体,这些变体是作为因果变体或者因果变体的标签变体的具有高置信度的变体。对于每个关联,从多个基因变体中识别出一种或多种精细映射变体的集。
图4示出了在上述示例性应用场景的条件下精细映射算法的应用。在这种情况下,精细映射算法识别染色体6上一区域内LDL的4个独立表型-变体关联(所示4个图块中的每一个对应一个关联)。
精细映射算法通常被设计为:通过定位一个或多个因果变体或者可替选地定位包含或密切标记一个或多个因果变体的变体的一个或多个可信集,来捕获目标表型的潜在因果生物学。精细映射算法与通常基于机器学习技术(如LASSO、随机森林(random forests)或神经网络)的替代纯预测方法形成对比,后者捕获预测信号,而不提供映射到潜在生物学的数据的离散汇总。
表型-变体关联在以下意义上是独立的:即使在两个识别的变体之间可能存在一定程度的相关性,第二个精细映射变体与表型的关联不仅仅是由于它与和表型相关的第一个精细映射变体的相关性。换言之,即使在考虑或调节与表型相关的第一精细映射变体后,第二精细映射变体也与表型相关。相比之下,CS内的多个变体不是彼此独立的,因为如果我们选择CS内的变体中的一个并且调节这个变体,则CS内的所有其他变体处的关联将消失,即多个关联仅由于变体之间的高相关性而存在。
每种独立的表型-变体关联可以与单个精细映射变体或(多个)精细映射变体的可信集(CS)有关。对于每个关联,从多个基因变体中识别一个或多个精细映射的变体的集。精细映射变体的CS是两个或更多个精细映射变体的集,该两个或更多个精细映射变体被认为与目标表型具有高的因果可能性。该方法为每个精细映射变体确定与表型-变体关联是因果关系的估计概率,在该集内的精细映射变体的概率之和为1。在仅识别一个精细映射的变体的情况下,对于该精细映射变体,估计的概率将简单地为1。在图4中,前移回归步骤2至步骤4显示了识别单个精细映射变体的示例,而前移回归步骤1识别到精细映射变体的CS。
在一些实施方式中,通过精细映射算法识别一种或多种精细映射变体考虑了多个基因变体与除目标表型之外的表型之间的关联。此类实施例的输入数据2因此将包括多个表型与生物体基因组的感兴趣区域中的多个基因变体之间的关联强度。使用与多个表型的关联有助于充分利用来自大量研究的数据,这些数据可能包含广泛的不同表型,并利用许多特征可以共享相同的因果变体的事实。
在一实施方式中,输入数据2包括以边际变体效应值和标准误差的形式描述个体变体和目标表型之间的关联的数据。在这样的实施方式中,关联强度可以包括多个基因变体中的每个对目标表型的估计效应值,以及每个估计效应值的标准误差。估计效应值是边际变体效应值。边际变体效应值是指孤立地考虑时变体的影响,即忽略附近相关变体的影响。例如,标签变体可能具有很强的边际效应值,但其“真实”效应值为零。这种格式的输入数据通常称为汇总统计数据。
在一实施方式中,将精细映射算法应用于输入数据2的全部或子集以识别感兴趣区域内的一个或多个独立的表型-变体关联包括以下内容。通过在给定DNA区域(即生物体的基因组的区域)内使用概率模型(例如贝叶斯统计模型(Bayesian statisticalmodel)),多个研究(每个研究都包含有关目标表型与一种或多种基因变体之间关联强度的数据)分配给集群(cluster),假设每个集群具有相似的因果变体模式。然后使用马尔可夫链蒙特卡罗算法(Markov chain Monte Carlo algorithm)或类似算法来探索可能的集群分配的空间。一旦已执行将研究分配给集群的一定数量的迭代,集群的特征集可用于识别单个变体或基因变体的CS(即一个或多个精细映射的变体的集),其可能是与分配给相应集群的表型为因果关系。使用这种基于大量表型的方法提高识别影响表型的变体的能力和准确性。这种类型的方法的更多细节可以在PCT申请号PCT/GB2019/050525中找到。
在某些情况下,该方法最多可识别给定DNA区域的单个精细映射变体或精细映射变体的单个CS。但是,可能存在多于一个独立的精细映射变体(或相应的多于一个的CS),它们可能在一个区域内是因果关系。识别这些额外的独立精细映射变体将提供额外的感兴趣疾病或特征的预测因子,从而提高预测个体发展疾病或特征的风险的能力。
当只有汇总统计数据可用时的步骤S2的替代实施
当只有汇总统计数据可用时,可以识别其他独立的精细映射变体。在一实施方式中,这通过考虑基因组区域内的基因变体之间的相关性来实现,通常由“LD矩阵”汇总,“LD矩阵”为基因型gi和gj在位置i,j处的相关性rij的矩阵,通常从参考小组的亚群获得,例如千人基因组数据库(1000Genomes consortium)或单倍体型参考数据库(HaplotypeReference Consortium)。诸如FINEMAP(Benner等,Bioinformatics 2016,15;32(10):1493-501)的方法可以适当地适应我们考虑大量研究和表型的情况。
另一个这样的实施方式将通过更新汇总统计数据以说明已经在DNA区域内识别的精细映射变体的效应然后评估用于额外的精细映射的变体的残余证据,来识别额外的因果变体(在本文中称为精细映射变体)。在这种情况下,使用迭代方法来识别精细映射变体的集。每次迭代包括在输入数据的基础上识别基因组区域内与任何先前识别的精细定位变体不同的精细映射变体,更新输入数据以解释对已识别的精细映射变体的目标表型的效应,使用基因组区域内基因变体之间的相关性矩阵,并基于更新的输入数据确定是否执行进一步的迭代(例如,当确定更新的输入数据不再包含任何感兴趣信息时停止,例如当不再超过预定的显著性阈值和/或P值都已相对平坦时停止)。
通过提议添加或删除最多一个精细映射变体,可以迭代地应用该方法来探索DNA区域内精细映射变体的空间(https://projecteuclid.org/euclid.aoas/1507168840)。因此,在一些实施例中,识别与任何先前识别的精细映射变体不同的精细映射变体的步骤包括从精细映射变体的集中移除先前识别的精细映射变体。这些方法的更多细节可以在PCT申请号PCT/GB2019/050525中找到。
使用个体水平数据的步骤S2的替代实施
可替代的精细映射策略是使用个体水平数据执行精细映射。在这样的实施例中,接收输入数据的步骤包括:接收包含对于多个个体中的每个个体的基因型和相应表型的个体水平数据,并且使用该个体水平数据确定多个基因变体中的每个基因变体对目标表型的估计效应值以及每个估计效应值的标准误差。这可以使用逐步回归方法来实现,以使用前移选择、后移消除或两者的组合来探索精细映射变体的空间。
可替选地,个体水平数据可以与汇总统计数据结合使用,从而充分利用从基于汇总统计的精细映射方法(例如PCT申请号PCT/GB2019/050525中描述的方法)获得的信息。可以实现这点的一种方式是使用从诸如PCT申请号PCT/GB2019/050525中描述的方法获得的单个精细映射变体/CS,并在随后的逐步回归步骤中对这些进行调整(如前,可以使用前移选择和后移消除的组合)。
可替选地,可以获取源自个体水平数据的针对已识别的精细映射变体进行调整的残余汇总统计数据。以这种方式,已经识别为高置信度精细映射变体的变体的效应被移除,使得使用残余相关性来识别更多的精细映射变体成为可能。
这与当个体水平数据不可用时对汇总统计数据执行的调整方式类似,其主要优点是不需要LD信息。这些导出的残余汇总统计数据可以用作诸如PCT申请号PCT/GB2019/050525中描述的方法的输入。这个过程可以迭代地重复。该方法可以基于仅使用源自个体水平数据的汇总统计数据,或与使用LD小组从不存在个体水平数据的研究中导出的残余汇总统计数据相结合。
使用一种或多种仪器特征的步骤S2的替代实施
步骤S2的替代实施利用仪器研究,以便精细映射变体的集的识别包括使用一种或多种已知影响目标表型的仪器特征。当该特征与感兴趣特征密切关联时,我们将特征定义为目标表型的仪器。一种特殊情况是目标表型的直接因果/修饰目标表型的仪器。例如,LDL可以被认为是冠状动脉疾病的仪器特征,冠状动脉疾病是总体生存的仪器特征。仪器研究提供了关于仪器特征和关于目标表型被考虑的多种基因变体之间的关联强度的信息。
在许多情况下,变体对目标表型的效应太小而无法识别目标表型的可信集(CS)。然而,使用适当功率的仪器研究,这种效应可能足以实现精细映射。换句话说,由于变体对仪器特征的效应大于变体对目标表型的效应,因此更容易准确地确定变体是否是仪器特征的原因。在这种情况下,精细映射和因果信号识别将完全基于仪器研究,从而提供有关目标表型的信息,否则这些信息不会被表征。
基于上述见解,在一个实施方式中,识别精细映射变体的集包括识别已知影响目标表型的一种或多种直接因果仪器特征的精细映射变体的集。这是使用仪器特征来补充步骤S2的精细映射的一种相对简单的方法,但需要已知的直接因果仪器特征可用。在其他实施方式中,精细映射变体集的识别包括使用已知影响目标表型的多个仪器特征。然后,基于仪器特征与目标表型之间关系,该方法包括确定仪器特征的精细映射变体的集,以及确定是否将仪器特征的一个或多个精细映射变体中的每个包括在目标表型的精细映射变体的集中。在这种情况下,多个仪器特征和目标表型之间的关系可以考虑仪器特征和目标表型之间潜在的复杂关联模式,从而允许使用不一定是直接因果仪器特征的仪器特征。
图3至图5提供了对LDL执行了精细映射的示例,LDL是CAD的仪器特征,并且为LDL识别的精细映射变体(图4)被用于在CAD被用作感兴趣表型的后续步骤中(图6)。
步骤S3:计算精细映射预测模型(例如,估计精细映射变体的效应值)
如上所述,在步骤S3中,该方法基于输入数据2和精细映射变体的集(在步骤S2中被识别)计算精细映射预测模型。精细映射预测模型量化了精细映射变体的集对目标表型的效应。可以使用针对目标表型的精细映射效应值来量化对目标表型的效应,在这种情况下,精细映射预测模型包括针对每个精细映射变体的目标表型的精细映射效应值或由其组成,该效应值解释变体之间相关性。
在关联强度包括汇总统计数据(例如,多个基因变体中的每个对目标表型的估计效应值,和每个估计效应值的标准误差)的实施方式中,可以从来自目标特征(即目标表型)的单个GWAS的边际汇总统计数据直接获得精细映射效应值。当在一个区域内识别出单个精细映射变体时,可以使用在GWAS汇总统计数据中报告的效应值。当识别出变体的CS时,可以根据与变体是因果关系的概率(相对于CS中的其余变体)对GWAS汇总统计数据进行加权。在一些实施方式中,考虑到与表型-变体关联是因果关系的精细映射变体的估计概率(例如,源自输入数据2,例如,作为如上所述的加权),因此可以从精细映射变体的估计效应值(例如,源自输入数据2)计算每个精细映射的效应值。例如,可以基于将估计效应值乘以精细映射变体是因果关系的概率来导出精细映射效应值。
存在相关关联时步骤S3的替代实施
当在相同DNA区域中识别出多个可信集,捕获数个独立的生物关联时,需要对效应值进行校正以控制关联之间的相关性。校正后的效应值通常称为联合效应值(jointeffect size)。这在我们上面参考图4描述的染色体6的LPA区域的精细映射示例中得到了说明。图5示出,对于我们的LDL仪器特征,四个联合估计效应值与四个边际估计效应值略有不同。如果关联紧密相关,则差异可能很大。
当多个精细映射变体与彼此独立的特征相关时,它们之间可能仍然存在一些相关性。需要调整这些独立的精细映射变体的边际效应值以考虑变体之间的相关性。因此,换句话说,联合效应值是一个特征的多个变体的效应值,其考虑到变体之间的相关性,例如考虑到四个变体之间存在一些相关性的LDL示例中的四个精细映射变体。
可以使用汇总统计数据(如Yang等,Nature Genetics 2012,44(4):369-75中所述)应用这种联合效应值估计的校正,前提是DNA区域中的变体相关性(或LD)模式(群体特异性的)被很好的表征。可替选地,可以使用个体水平数据应用此校正,从而使用回归模型联合拟合在DNA区域内识别的所有选定的精细映射变体。如果几个不同的关联与相关联的变体的可信集有关,则此校正是必要的。
使用一种或多种仪器特征的步骤S3的替代实施
效应值估计的替代方法是利用仪器研究。在这种类型的实施方式中,步骤S2中精细映射变体的集的识别包括确定已知影响目标表型的一个或多个仪器特征的精细映射变体的集。然后精细映射预测模型的计算包括确定用于一个或多个仪器特征的精细映射变体的集对该一个或多个仪器特征的效应值,以及基于对仪器特征的效应值和对目标表型的效应值之间的预定关系,确定包括在用于目标表型的精细映射变体的集中的用于仪器特征的每个精细映射变体对目标表型的效应值。因为基因变体对仪器特征的影响高于对目标表型的影响,所以估计该变体对仪器特征的效应值比对目标表型的效应值更容易。
因此,如果外部或全基因组数据允许准确表征仪器特征效应值和目标表型效应值之间的关系,则可以利用更好的对仪器特征的估计效应值以便更准确地估计对目标表型的效应值。表征仪器特征效应值和目标表型效应值之间关系的一种方式是对定义为针对仪器特征和目标表型两者进行精细映射的变体的效应值执行线性回归。
图3示出了一个示例,其中使用LDL相关变体的大集推断LDL的效应值和CAD的效应值之间的关系。在此示例中,LDL充当CAD的仪器特征。
使用所有研究/表型作为潜在仪器特征的步骤S3的替代实施
步骤S3的替代方案是采用为用于训练上述概率模型的所有研究识别的独立精细映射变体(或CS)(如PCT申请号PCT/GB2019/050525中详细描述的)。这导致变体集可能与至少一种疾病/特征是因果关系。
然后可以将步骤S5的机器学习算法应用于变体集(通常,该集中的变体数量远小于用于步骤S5的数量)。因此,使用机器学习算法来推断该精细映射变体集对目标表型的效应,该算法优选地是与在步骤S5中使用的算法相同的算法。步骤S3的此实施方式的输入是每个精细映射变体的边际效应值,即在这个阶段没有应用信号减法。步骤S3的此实施例的输出与步骤S5的输出相同,即,基于说明效应值估计的不确定性和与焦点表型是因果关系的变体的概率的残余效应值的权重集。然后从多个基因变体的效应值中减去为精细映射变体的子集计算的这些权重,从而生成与步骤S4的其他实施方式相当的残余关联数据。
在一些实施方式中,该精细映射变体集可以与文献中报道的变体集组合,该变体集与疾病/特征具有高的因果关系的可能性。因此,该精细映射变体集进一步包括一个或多个已知与目标表型具有高因果关系可能性的变体。
使用跨群体数据的步骤S3的替代实施
可以跨群体的效应值的一致性做出假设。在一个极端情况下,我们可以假设效应值跨群体是恒定的。在另一个极端,如果有足够的数据可用,则只能使用群体特异性数据集来估计效应值,在匹配群体中使用上述任何方法。
中间过程是一层次模型,其借用有关跨群体的效应值的信息,同时在数据支持的情况下允许推断的效应值有一些可变性。
步骤S4和S5:减法和机器学习
在步骤S4和S5中,该方法包括使用精细映射预测模型从输入数据2中减去精细映射变体集对目标表型的效应以获得残余关联数据,并对残余关联数据应用机器学习算法以识别目标表型和多个基因变体之间的进一步预测相关性。
在一实施方式中,机器学习算法包括LDpred提出的模型,并且只需要汇总统计数据来识别残余信号。
在该示例性条件下,我们为每个变体定义了三种类型的效应值:
·βi指变体i的边际效应,即使用汇总统计数据时从汇总统计数据中估计的效应值;
·pj指精细映射的变体j是因果关系的概率(可信集内的概率之和合计达1)。
·
Figure BDA0003524658760000131
指基于精细映射步骤推断的精细映射变体j的因果效应,因此对应于第j个(jth)精细映射变体对目标表型的估计的精细映射效应值。大多数变体将没有因果效应,但在可信集内的精细映射变体将具有非零值且因此具有非零值pj
·
Figure BDA0003524658760000132
是变体i的残余效应值,即变体i的边际效应,但减去可信集中的相关变体的效应。
使用这些符号,并在标准化效应值βi以使其方差(variance)相等之后,我们可以执行减法:
Figure BDA0003524658760000141
其中rij捕获变体i和j之间的相关性,这是群体特异性的,通常被称为连锁不平衡模式。对所有精细映射概率pj不为零的变体执行此减法。因此,在该实施方式中,从输入数据中减去精细映射变体的集对目标表型的效应的步骤包括:从多个基因变体中的每个对目标表型的估计效应值中减去效应值的加权和以获得多个基因变体中的每个的残余效应值。在该实施方式中,残余关联数据包括残余效应值。
然后,可以与如果没有精细映射(即,如果没有执行步骤S2和S3并且机器学习步骤直接对输入数据进行操作)则将执行的方式相同的方式对这些残余效应值执行估计的机器学习步骤。精细映射的添加可导致机器学习过程的输出的显著差异。例如,在使用来自机器学习算法的输出来计算PRS权重(以下定义)的情况下,可以看到这些显著差异,如图6(示出了使用具有精细映射的方法导出的PRS权重)和图7(示出了使用不具有精细映射的方法导出的PRS权重)之间看到的差异所示。此外,精细映射的信号将近似真实的因果变体,其通常在群体之间共享,从而导致对群体差异更好的稳健性。
机器学习步骤S5可以输出用于非精细映射变体(即,包括在输入数据2中但在步骤S2中未被识别为精细映射变体的变体)的权重集,这些权重表明基于残余信号分配给变体的重要性,同时解释变体之间的相关性。该过程受到变体之间的群体特异性相关模式的显著影响,导致群体特异性的变体集和权重集。因此,在输入数据来源于生物体的多个不同群体的实施方式中,第i个变体和第j个变体之间的相关性rij是群体依赖性的。
图6和图7示出了机器学习/LDpred权重如何广泛地分布在该区域上,这与精确地表征被推断为因果关系或至少与真实因果关系变体紧密相关的变体的精细映射输出形成对比。
将相关特征关联数据纳入变体特异性先验
用于诸如LDpred的基因预测的贝叶斯(Bayesian)机器学习算法通常依赖于捕获变体是因果关系的概率的先验值。通常,相同的先验值被分配给所有变体。这被称为扁平先验。分配给所有变体的低先验值导致稀疏的模型,其中大多数权重小或等于零,而较高的值导致更扩散的模型,其中预测权重在较大数量的变体上扩展。标准LDpred模型的替代方案(假设每个变体的扁平先验)是利用交叉特征(cross-trait)信息以便以变体特异性的方式调整先验概率。
一种可能的实现方式是使用逻辑回归模型;二进制结果变量表示了用于目标表型的良好效力的GWAS和使用独立的个体群组的相同目标表型的GWAS之间的边际变体效应值的方向的一致性。
这意味着在输入数据源自多个不同基因研究的情况下,将机器学习算法应用于残余关联数据的步骤可以包括使用对多个基因变体中的每个与目标表型是因果关系的先验概率,其取决于不同基因研究之间每个基因变体和目标表型之间的关联强度的一致性。对相关特征进行的来自GWAS的关联强度(例如P-值)用作输入/预测变量。由输入变量(即拟合值)加权的然后进行归一化过程的回归系数(其中每个回归系数捕获相关特征对目标表型的预测程度)的所得线性组合,可充当变体特异性先验。结果,机器学习算法将为那些具有与目标表型最相关的特征有关联证据的变体生成更高的权重。
定义变体特异性权重的另一种选项是纳入基因组注释,这些注释来自非GWAS的外部基因组研究。在这样的情况下,将机器学习算法应用到残余关联数据的步骤包括对多个基因变体中的每个使用先验概率,该多个基因变体中的每个与目标表型是因果关系,该先验概率依赖于在感兴趣区域中的多个基因变体的基因组注释。此类功能信息,例如蛋白质编码变体的存在,或相关转录因子的DNA结合位点,可以与从GWAS数据定义的先验相结合,以进一步增强机器学习算法并提高预测性能。
步骤S6和S7:计算PRS模型和PRS
在一个实施方式中,该方法还包括使用精细映射预测模型(在步骤S3中计算)和由机器学习算法识别的进一步预测相关性(在步骤S5中)计算个体针对目标表型的PRS。在一个实施方式中,使用精细映射预测模型和机器学习算法识别的进一步预测相关性来定义PRS模型(步骤S6)。PRS模型可用于计算给定来自个体的基因数据3的个体的PRS(步骤S7)。在实施方式中,PRS模型是变体的加权和,其中权重由精细映射预测模型和由机器学习算法识别的进一步预测相关性提供。在实施中,PRS计算如下:
Figure BDA0003524658760000151
其中L是对PRS有贡献的变体的数量,每个变体要么包含在精细映射预测模型中,要么包含在来自机器学习算法的进一步预测相关性中,xl是变体l的基因型,αl是PRS权重,其量化变体l对目标表型的预测影响(即量化变体l对目标表型的关联强度)。PRS权重与效应值相关,并且可以通过精细映射预测模型(如在步骤S3中计算的)或通过来自机器学习算法的进一步预测相关性(在步骤S5中获得的)来指定。
对于精细映射变体,PRS权重αl通常与变体l对目标表型的效应值βl直接相关,由变体是因果关系的概率pl进行加权,因此:
αl=plβl
如果使用了仪器特征,并且已经在仪器的效应值和目标的效应值之间建立了关系(例如成比例的βl=Kβ′l,其中β′l是仪器研究的效应值),则PRS权重基于该仪器:
αl=plKβ′l
对于由机器学习算法分配PRS权重的变体,效应值和PRS权重之间的关系可能不太直接,并且取决于算法的具体情况。
在一些实施方式中,个体的多基因风险评分可以从第一部分多基因风险评分和第二部分多基因风险评分的组合(例如总和)得到,该第一部分多基因风险评分通过将精细映射预测模型应用于来自个体的基因数据(例如仅基于基因数据中的精细映射变体)而提供,该第二部分多基因风险评分通过将来自机器学习算法的进一步预测相关性应用于来自个体的基因数据(例如基于基因数据中除精细映射变体之外的变体)而提供。
导致PRS权重计算的机器学习步骤可能是群体特异性的,这意味着可以根据其血统(ancestry)将不同的PRS应用于不同的个体,这可以使用基因数据进行识别。
在一些实施方式中,输入数据2源自生物体的多个不同群体(例如不同等级的血统),并且满足以下任一或两者:
i)分别对不同群体对应的部分输入数据进行精细映射预测模型的计算以得到多个各自群体匹配的精细映射预测模型;和
ⅱ)对于对应于不同群体的部分输入数据,分别执行将机器学习算法应用到残余关联数据以获得多个各自群体匹配的进一步预测相关性的集。
来自多个群体之一的个体(例如,具有主要来自不同群体之一的基因的个体)的PRS可以如下计算。从个体接收输入数据。通过执行以下一项或两项操作为个体计算PRS:
i)将群体匹配的精细映射预测模型应用到来自个体的所有输入数据,群体匹配的精细映射预测模型与个体的群体匹配;和
ⅱ)将群体匹配的进一步预测相关性的集应用到来自个体的所有输入数据,群体匹配的进一步预测相关性的集与所述个体的群体匹配。
计算混合个体PRS的替代实施
对于混合了两种或更多种明确定义的血统群组的个体,例如非洲裔美国个体,可以将不同的染色体片段分配给这些血统中的每个。精细映射方法的一个关键动机是识别更可能跨群体保持一致的因果变体和CS。然而,除了精细映射之外,包含机器学习方法的预测算法类依赖于连锁不平衡模式,因此也依赖于目标群体。因此,将针对不同的群体得出不同的PRS。
群体遗传学领域已经建立了将个体的染色体片段与这些片段起源的不同群体相匹配的方法。这个过程被称为“染色体绘制(chromosome painting)”。为了正确处理混合个体,我们将此染色体绘制步骤应用于相关个体的基因型数据。我们不是将个体分配到单个群体,而是构建一个混合PRS,分别考虑母本和父本染色体拷贝,其将相关的、群体特异性的PRS应用于适当的染色体片段。
在这种类型的实施方式中,接收来自个体(具有来自不同群体的混合体的基因)的输入数据。通过执行以下一项或两项操作计算个体的PRS:
i)将多个群体匹配的精细映射预测模型中的每个匹配到输入数据的与群体匹配的精细映射预测模型的群体匹配的对应部分,并将每个匹配的精细映射预测模型应用于输入数据的对应部分;和
ⅱ)将多个群体匹配的进一步预测相关性的集中的每个与输入数据的对应部分进行匹配,该输入数据的对应部分与群体匹配的进一步预测相关性的集中的群体相匹配,且将每个匹配的进一步预测相关性的集应用到输入数据的对应部分。
在实践中,精细映射预测模型预计在跨群体中大部分是一致的,这样精细映射变体的集,以及甚至在某些情况下,精细映射变体的效应值都将是唯一的,其中跨群体信息用于使他们正确。因此,在上述方法中,预计最有价值的是针对进一步预测相关性的集对群体进行匹配。因此,在一个实施方式中,通过组合来自多个可用群体数据集的数据来建立精细映射预测模型,用于以下之一或两者:i)精细映射变体的选择和ii)与这些变体相关联的效应值。在这样的实施方式中,多基因风险评分可以通过将共享的群体一致性精细映射预测模型(即,对于多个个体有效的精细映射预测模型,而不管它们属于哪个群体或哪些群体)应用于来自该个体的输入数据而得到,其中仅以群体特异性的方式建立进一步预测相关性。

Claims (26)

1.一种分析关于生物体的基因数据以获得关于所述生物体的信息的计算机执行方法,所述方法包括:
接收输入数据,所述输入数据包括在一个或多个包括目标表型的表型和所述生物的基因组的感兴趣区域中的多个基因变体之间的关联强度;
将精细映射算法应用于所述输入数据的全部或子集以识别所述感兴趣区域内的一种或多种独立的表型-变体关联,包括:对于每种关联识别来自所述多个基因变体的一个或多个精细映射变体的集,和对于每个精细映射变体确定与所述表型-变体关联具有因果关系的估计概率,所述集内的精细映射变体的概率的总和为1;
基于所述输入数据和所述精细映射变体的集计算精细映射预测模型,所述精细映射预测模型量化所述精细映射变体的集对所述目标表型的效应;
使用所述精细映射预测模型从所述输入数据中减去所述精细映射变体的集对所述目标表型的效应以获得残余关联数据;和
将机器学习算法应用于所述残余关联数据以识别所述目标表型和所述多个基因变体之间的进一步预测相关性。
2.根据权利要求1所述的方法,其中所述关联强度包括所述多个基因变体中的每个对所述目标表型的估计效应值,以及所述估计效应值中的每一个的标准误差。
3.根据权利要求1或2所述的方法,其中接收输入数据的步骤包括:
接收包括对于多个个体中每个的基因型和相应表型的个体水平数据;和
使用所述个体水平数据,确定所述多个基因变体中的每个对所述目标表型的估计效应值以及所述估计效应值中的每个的标准误差。
4.根据任一项前述权利要求所述的方法,其中使用迭代方法执行精细映射变体的集的识别,其中每次迭代包括:
基于所述输入数据,识别在所述基因组的区域内与任何先前识别的精细映射变体不同的精细映射变体;
使用所述基因组的区域内所述基因变体之间的相关性矩阵,更新所述输入数据以说明已经识别的所述精细映射变体对所述目标表型的效应;和
确定是否在更新的输入数据的基础上执行进一步的迭代。
5.根据任一项前述权利要求所述的方法,其中识别精细映射变体的集包括使用已知影响所述目标表型的多个仪器特征,所述仪器特征的使用包括:
确定用于所述仪器特征的精细映射变体的集;和
基于所述多个仪器特征和所述目标表型之间的关系,确定是否将一个或多个用于所述仪器特征的精细映射变体中的每个包括在用于所述目标表型的精细映射变体的集中。
6.根据任一项前述权利要求所述的方法,其中识别精细映射变体的集包括识别用于一个或多个已知影响所述目标表型的直接因果仪器特征的精细映射变体的集。
7.根据权利要求5或6所述的方法,其中计算所述精细映射预测模型包括:
针对所述一种或多种仪器特征,确定所述精细映射变体的集对所述一种或多种仪器特征的效应值,和
基于对所述仪器特征的效应值和对所述目标表型的效应值之间的预定关系,确定包括在用于所述目标表型的所述精细映射变体的集中的用于所述仪器特征的每个所述精细映射变体对所述目标表型的效应值。
8.根据任一项前述权利要求所述的方法,其中:
所述关联强度包括所述多个基因变体中的每个对所述目标表型的估计效应值,以及所述估计效应值中的每个的标准误差;和
所述精细映射预测模型包括每个所述精细映射变体对所述目标表型的精细映射效应值,考虑到所述精细映射变体对于所述表型-变体关联是因果关系的估计概率,从所述精细映射变体的估计效应值计算所述精细映射效应值。
9.根据任一项前述权利要求所述的方法,其中所述精细映射变体的集对所述目标表型的效应是使用机器学习算法推断的。
10.根据权利要求9所述的方法,其中所述精细映射变体的集还包括一个或多个已知对所述目标表型具有高因果可能性的变体。
11.根据任一项前述权利要求所述的方法,其中:
所述关联强度包括所述多个基因变体中的每个对所述目标表型的估计效应值,以及所述估计效应值中的每个的标准误差;和
从所述输入数据中减去精细映射变体的集对所述目标表型的效应的步骤包括获得所述输入数据中多个基因变体中的每个的残余效应值,所述残余关联数据包括所述残余效应值,
其中,在对所述效应值进行适当的重新归一化以确保方差相等之后,基因变体i的残余效应值
Figure FDA0003524658750000023
由下式给出:
Figure FDA0003524658750000021
其中βi是所述基因变体i的估计边际效应值,N是精细映射变体的数量,pj是变体j是因果关系的概率,
Figure FDA0003524658750000022
是第j个精细映射变体对所述目标表型的精细映射效应值,rij是所述第j个精细映射变体与基因变体i之间的相关性。
12.根据任一项前述权利要求所述的方法,其中所述输入数据源自多个不同的基因研究,且将机器学习算法应用于所述残余关联数据的步骤包括:使用与所述目标表型有因果关系的所述多个基因变体中的每个的先验概率,所述先验概率取决于所述不同的基因研究之间的每个基因变体与所述目标表型之间的关联强度的一致性。
13.根据任一项前述权利要求所述的方法,其中所述将机器学习算法应用于所述残余关联数据的步骤包括使用与所述目标表型有因果关系的所述多个基因变体中的每个的先验概率,所述先验概率取决于所述感兴趣区域中所述多个基因变体的基因组注释。
14.根据任一项前述权利要求所述的方法,还包括以下步骤:通过将所述精细映射预测模型和由所述机器学习算法识别的所述进一步预测相关性应用于来自个体的基因数据,计算所述个体针对所述目标表型的多基因风险评分。
15.根据权利要求14所述的方法,其中所述多基因风险评分由以下加权和给出:
Figure FDA0003524658750000031
其中L是对PRS有贡献的变体的数目,每个变体包括在所述精细映射预测模型中或包括在来自所述机器学习算法的进一步预测相关性中,αl量化变体l对所述目标表型的关联强度,所述关联强度由所述精细映射预测模型或由来自所述机器学习算法的进一步预测相关性指定,且xl是变体l的基因型。
16.根据权利要求14或15所述的方法,其中所述个体的多基因风险评分源自以下二者的组合:通过将所述精细映射预测模型应用于来自所述个体的基因数据而提供的第一部分多基因风险评分和通过将所述机器学习算法的进一步预测相关性应用于来自所述个体的基因数据而提供的第二部分多基因风险评分。
17.根据任一项前述权利要求所述的方法,其中所述输入数据源自所述生物体的多个不同群体,并且满足以下任一或两者:
分别对所述输入数据的对应于不同群体的部分进行精细映射预测模型的计算以获得多个各个群体匹配的精细映射预测模型;和
分别对所述输入数据的对应于不同群体的部分进行将所述机器学习算法应用到所述残余关联数据以获得多个各个群体匹配的进一步预测相关性的集。
18.根据权利要求17所述的方法,还包括:
接收来自具有来自所述不同群体的混合体的基因的个体的输入数据;和
通过执行以下一项或两项操作来计算所述个体的多基因风险评分:
将多个群体匹配的精细映射预测模型中的每个与所述输入数据的与所述群体匹配的精细映射预测模型的群体匹配的对应部分进行匹配,并将每个匹配的精细映射预测模型应用于所述输入数据的对应部分;和
将多个群体匹配的进一步预测相关性的集中的每个与所述输入数据的与所述群体匹配的进一步预测相关性的集中的所述群体匹配的对应部分进行匹配,并将每个匹配的进一步预测相关性的集应用于所述输入数据的对应部分。
19.根据权利要求18所述的方法,其中执行多个群体匹配的进一步预测相关性集中的每个的匹配,而不执行多个群体匹配的精细映射预测模型中的每个的匹配,所述多基因风险评分的计算包括将共享的群体一致性精细映射预测模型应用于来自所述个体的输入数据。
20.根据权利要求17所述的方法,还包括:
接收来自具有主要来自所述不同群体中的一个群体的基因的个体的输入数据;和
通过执行以下一项或两项操作来计算所述个体的多基因风险评分:
将群体匹配的精细映射预测模型应用于来自所述个体的所有输入数据,所述群体匹配的精细映射预测模型与所述个体的群体匹配;和
将群体匹配的进一步预测相关性的集应用于来自所述个体的所有输入数据,所述群体匹配的进一步预测相关性的集与所述个体的群体匹配。
21.根据权利要求20所述的方法,其中执行群体匹配的进一步预测相关性的集的应用,而不执行群体匹配的精细映射预测模型的应用,所述多基因风险评分的计算包括将共享的群体一致性精细映射预测模型应用于来自所述个体的输入数据。
22.根据任一项前述权利要求所述的方法,其中通过所述精细映射算法识别所述一个或多个精细映射变体考虑所述多个基因变体与除所述目标表型以外的表型之间的关联。
23.根据任一项前述权利要求所述的方法,其中所述生物体是人类。
24.一种用于分析关于生物体的基因数据以获得关于所述生物体的信息的装置,所述装置包括:
接收单元,其配置为接收输入数据,所述输入数据包括在一个或多个包括目标表型的表型和所述生物的基因组的感兴趣区域中的多个基因变体之间的关联强度;和
数据处理单元,其配置为:
通过对于每种关联识别来自所述多个基因变体的一个或多个精细映射变体的集,且对于每个精细映射变体确定与所述表型-变体关联具有因果关系的估计概率,将精细映射算法应用于所述输入数据的全部或子集以识别所述感兴趣区域内的一种或多种独立的表型-变体关联,所述集内的精细映射变体的概率的总和为1;
基于所述输入数据和所述精细映射变体的集计算精细映射预测模型,所述精细映射预测模型量化所述精细映射变体的集对所述目标表型的效应;
使用所述精细映射预测模型从所述输入数据中减去所述精细映射变体的集对所述目标表型的效应以获得残余关联数据;和
将机器学习算法应用于所述残余关联数据以识别所述目标表型和所述多个基因变体之间的进一步预测相关性。
25.一种计算机程序,其包括指令,当所述程序由计算机执行时,所述指令使所述计算机执行根据权利要求1至23中任一项所述的方法。
26.一种计算机可读介质,其包括指令,当所述指令由计算机执行时,所述指令使所述计算机执行根据权利要求1至23中任一项所述的方法。
CN202080061338.1A 2019-08-28 2020-08-28 用于分析基因数据的计算机执行方法和装置 Pending CN114341990A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1912331.4 2019-08-28
GBGB1912331.4A GB201912331D0 (en) 2019-08-28 2019-08-28 Computer-implemented method and apparatus for analysing genentic data
PCT/GB2020/052060 WO2021038234A1 (en) 2019-08-28 2020-08-28 Computer-implemented method and apparatus for analysing genetic data

Publications (1)

Publication Number Publication Date
CN114341990A true CN114341990A (zh) 2022-04-12

Family

ID=68108944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080061338.1A Pending CN114341990A (zh) 2019-08-28 2020-08-28 用于分析基因数据的计算机执行方法和装置

Country Status (11)

Country Link
US (1) US20220367009A1 (zh)
EP (1) EP4022626B1 (zh)
JP (1) JP2022546984A (zh)
KR (1) KR20220053642A (zh)
CN (1) CN114341990A (zh)
AU (1) AU2020338287A1 (zh)
CA (1) CA3151246A1 (zh)
ES (1) ES2934989T3 (zh)
GB (1) GB201912331D0 (zh)
IL (1) IL290904A (zh)
WO (1) WO2021038234A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021231910A1 (en) * 2020-05-15 2021-11-18 The Scripps Research Institute Adjusted polygenic risk scores and calculation process
WO2022251640A1 (en) * 2021-05-28 2022-12-01 Optum Services (Ireland) Limited Comparatively-refined polygenic risk score generation machine learning frameworks
KR20240013547A (ko) 2022-07-22 2024-01-30 인천대학교 산학협력단 인공 지능을 이용한 게놈 서열 분석 기반 covid-19 및 유사 바이러스의 분류 방법, 장치 및 시스템
WO2024081814A1 (en) * 2022-10-13 2024-04-18 Myome, Inc. Application of local ancestry inference and polygenic risk scores for prediction of complex disease risk in admixed individuals
CN116072214B (zh) 2023-03-06 2023-07-11 之江实验室 基于基因显著性增强的表型智能预测、训练方法及装置

Also Published As

Publication number Publication date
ES2934989T3 (es) 2023-02-28
KR20220053642A (ko) 2022-04-29
JP2022546984A (ja) 2022-11-10
IL290904A (en) 2022-04-01
WO2021038234A1 (en) 2021-03-04
EP4022626B1 (en) 2022-11-30
EP4022626A1 (en) 2022-07-06
AU2020338287A1 (en) 2022-03-10
CA3151246A1 (en) 2021-03-04
GB201912331D0 (en) 2019-10-09
US20220367009A1 (en) 2022-11-17

Similar Documents

Publication Publication Date Title
CN114341990A (zh) 用于分析基因数据的计算机执行方法和装置
AU2019227498B2 (en) A computer-implemented method of analysing genetic data about an organism
JP7041614B6 (ja) 生体データにおけるパターン認識のマルチレベルアーキテクチャ
Ochs et al. Matrix factorization for transcriptional regulatory network inference
Le et al. Nearest-neighbor Projected-Distance Regression (NPDR) for detecting network interactions with adjustments for multiple tests and confounding
CN115769300A (zh) 变体致病性评分和分类及其用途
Fan et al. Methods for Copy Number Aberration Detection from Single-cell DNA Sequencing Data
US20150094223A1 (en) Methods and apparatuses for diagnosing cancer by using genetic information
US20240038330A1 (en) Computer-implemented method and apparatus for analysing genetic data
JP2004030093A (ja) 遺伝子発現データ解析方法
CN115715415A (zh) 变体致病性评分和分类及其用途
US20240120096A1 (en) Computational Method And System For Diagnostic And Therapeutic Prediction From Multimodal Data
Ruffieux et al. Variable Selection for Hierarchically-Related Outcomes: Models and Algorithms
Sadhuka A More Holistic Analysis of Privacy Risks in Transcriptomic Datasets
CN116686051A (zh) 用于分析基因数据的计算机实现方法和装置
Gibbons et al. Jiebiao Wang, Eric R. Gamazon, 2, 3 Brandon L. Pierce, Barbara E. Stranger, 4, 5 Hae Kyung Im, 4
McCarthy et al. Optimizing expression quantitative trait locus mapping workflows for single-cell studies
Xu Statistical Methods for Gene-Environment Interactions
Wang Statistical Methods for Genomics and Genetics Data Analysis
Igl Application of Bayesian hierarchical generalized linear models using weakly informative prior distributions to identify rare genetic variant effects on blood pressure
Hormozdiari Statistical Methods to Understand the Genetic Architecture of Complex Traits
Hong Meta-analysis strategies for heterogeneous studies in genome-wide association studies
Sjögren Weighted analysis of microarray experiments
Yang Data-adaptive SNP-set-based association tests of longitudinal traits
Langley Modelling genetic and genomic interactions underlying gene expression and complex traits

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination