CN113808660B

CN113808660B - 基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型及其构建方法和应用

Info

Publication number: CN113808660B
Application number: CN202111071571.0A
Authority: CN
Inventors: 衷画画; 罗苏珊; 赵重波; 卢家红; 朱雯华; 奚剑英; 林洁; 窦同海
Original assignee: Shanghai Angpu Biotechnology Co ltd; Huashan Hospital of Fudan University
Current assignee: Shanghai Angpu Biotechnology Co ltd; Huashan Hospital of Fudan University
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2024-02-13
Anticipated expiration: 2041-09-13
Also published as: CN113808660A

Abstract

本发明公开了一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型的构建方法，包括如下步骤：步骤一、利用云端与本地数据构建病人和正常人群数据库；步骤二、基于自然选择理论的压力趋势，比较正常人群数据库，筛选病人数据库中的高外显致病突变；步骤三、利用步骤二筛选的高外显致病突变去构建贝叶斯模型的先验，步骤四、预测目标遗传性罕见病的患病率。采用本发明的构建方法构建获得的遗传性罕见病患病率贝叶斯计算模型可以用于国内罕见病患病率的预测，其结果准确可靠，具有良好的应用前景。

Description

基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型及其构建方法和应用

技术领域

本发明属于罕见病患病率预测技术领域，具体地说，是关于一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型及其构建方法和应用，是利用公开数据库及本地收集病人遗传信息去预测某一遗传性罕见病在某一特定人种或国家的患病率。

背景技术

近年来国内外不断公开的遗传数据库为计算遗传疾病的患病率提供了一种新的可能。特别是遗传性罕见病的患病率，十几年前仅能根据大规模人口普查或者登记数据库的形式去预估患病率，而遗传数据库的出现为预测遗传性疾病提供了新的可能。

现有的技术通常定位于某一个遗传数据库内进行计算，利用数据库中突变的美国医学遗传学和基因组协会(the American College of Medical Genetics and Genomics,ACMG)评分(SCHRODI S J,DEBARBER A,HE M,等.Prevalence Estimation for MonogenicAutosomal Recessive Diseases Using Population-Based Genetic Data[J].HumanGenetics,2015,134(6):659–669.DOI:10.1007/s00439-015-1551-8.)或者计算机预测的严重程度评分(LIU W,PAJUSALU S,LAKE N J,等.Estimating Prevalence for Limb-Girdle Muscular Dystrophy Based on Public Sequencing Databases:11[J].Geneticsin Medicine,2019,21(11):2512–2520.DOI:10.1038/s41436-019-0544-8.)去筛选高外显率(或者高致病性)的致病突变，以此为基础构建贝叶斯模型的先验(prior)，再去重新计算致病突变的人群分布后验(posterior)，以求得遗传性罕见病的患病率。但是，现有的遗传性罕见病的患病率的计算方法存在如下问题：(1)现有技术采用的计算方案多是限于单一数据库(或基于某一人种遗传数据库)，故所得结果具有人群特异性(如高加索人种占据绝大多数)，缺乏对其他民族(如汉族)的外推性；(2)现有技术的数据来源全部来自公开数据库，缺乏本地临床资源的验证，而且没有很好利用病人数据库与正常人群数据库的可比性；(3)现有技术的致病突变来自ACMG评分或者计算机预测的严重程度评分。前者因不同数据库的质量水平不齐，造成不同数据库ACMG评分的矛盾，同时低质量的数据管理带来了ACMG评分致病性的假阳性。后者基于计算机预测，被证明在基因的内含子区域预测结果的不可靠，同时并不能很好的反映现实，不被建议作为致病突变判定的绝对依据。同时因为外显率的问题，及同一致病突变不一定在每个人身上都会发病(即致病突变外在地显示于病人身上)，不同致病突变的外显率是不一致的。因此筛选那些高度外显(高致病性的)突变成为了难点。(4)现有技术贝叶斯模型采用的先验来源是基于某一大类遗传疾病整体，没有很好体现现代医学所倡导的精准性与针对性，预测结果缺乏准确性。

发明内容

本发明针对现有的遗传性罕见病的患病率的预测技术的准确性低的不足，提供了基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型。该模型通过自然选择理论在病人数据库与正常人群数据库的比较中筛选出高外显(高致病性)的致病突变，可以解决目前遗传性疾病贝叶患病率致病突变判定不准确的问题。

因此，本发明的第一个目的是提供一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型。本发明的第二个目的是提供一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型的构建方法。本发明的第三个目的是提供一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型在非疾病诊断中预测遗传性罕见病患病率中的应用。

为实现上述目的，本发明采用如下技术方案：

作为本发明的第一个方面，一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型的构建方法，包括如下步骤：

步骤一、利用云端与本地数据构建病人和正常人群数据库；

步骤二、基于自然选择理论的压力趋势，比较正常人群数据库，筛选病人数据库中的高外显致病突变；

步骤三、利用步骤二筛选的高外显致病突变去构建贝叶斯模型的先验，

步骤四、预测目标遗传性罕见病的患病率，包括：

1)获得目标遗传性罕见病突变的人群携带率；

2)将人群携带率代入贝叶斯模型的先验；

3)依据中心极限定理，并用含有1自由度的非中心卡方分布模拟计算预测目标遗传性罕见病的患病率。

根据本发明，所述自然选择理论的压力趋势为：高外显致病突变>低外显致病突变>所有突变>正常突变。

根据本发明，步骤二的筛选病人数据库中的高外显致病突变，包括如下步骤：

A、先从病人数据库中筛选出具有从LGMDR2患者身上发现的突变；

B、设立高外显致病突变人群携带率的上限0.01；

C、以病人数据库中ACMG评分为明确致病性的突变报告次数的95％可信区间设立报告次数下限，高外显致病突变的报告次数大于低外显致病突变在病人数据库的报告次数；

D、依据病人数据库中的ACMG评分，排除已经明确为不致病或有矛盾的突变。

根据本发明，贝叶斯模型的先验公式如下：

其中，P(q)是某一遗传性罕见病高外显致病突变的携带率分布——先验，P(θ|q)是目标人群gnomAD和ChinaMAP的高外显致病突变的携带率分布，P(q|θ)即为所求的目标人群高外显致病突变的携带率实际分布——后验，经计算机模拟获得α和β。

根据本发明，所述预测目标遗传性罕见病的患病率，包括如下步骤：

1)获得目标遗传性罕见病突变的人群携带率：

其中，x_i，i∈E为所述目标遗传性罕见病突变在人群E中被检测出突变的染色体数量，E表示含有不同人群的数量；n表示检测人数；

2)x_i，i∈E符合二项分布x_i，i∈E～Binomial(2n_i，i∈E，q_i，i∈E)|，将公式2的q_i，i∈E代入公式1，获得：

3)q_i，i∈E～Beta(α，β)是x_i，i∈E～Binomial(2n_i，i∈E，q_i，i∈E)的共轭先验，后验也符合β分布，即q_p，q∈E～Beta(x_i，i∈E+α，2n_i，i∈E-x_i，i∈E+β)，因此：

5)依据中心极限定理，可以用含有1自由度的非中心卡方分布模拟，如公式6所示，

当目标疾病是常染色体显性遗传病，患病率的预测值为∑q_p；当目标疾病是常染色体隐性遗传病，目标疾病在目标人群的患病率为(∑q_p)²。

作为本发明的第二个方面，一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型，其是采用上述方法构建而成。

作为本发明的第三个方面，一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型在非疾病诊断中预测遗传性罕见病患病率中的应用。

本发明的有益效果：本发明的遗传性罕见病患病率贝叶斯计算模型的结果更接近现有文献报道的结果。且gnomAD东亚人群(1.3个/百万人)和中国人群(1.1个/百万人)取得了近类似的患病率结果。可以用于国内罕见病患病率的预测，其具有针对性，具有良好的应用前景，可为将来在制定经济学效益分析，社会保险政策政策，及卫生资源投入的使用上提供可靠的参考基础。

附图说明

图1(A)和图1(B)为不同病人数据库(LOVD和目标人群病人队列)中突变的ACMG评分。

图2为突变在正常人群的携带率分布。

具体实施方式

以下结合具体实施例，对本发明做进一步说明。应理解，以下实施例仅用于说明本发明而非用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件，或厂商提供的条件进行。

以下实施例以遗传性罕见病肢带型肌营养不良R2(LGMDR2)为预测对象，中国人为目标人群。LGMDR2是致病基因明确的常染色体隐性遗传的罕见病，其致病基因为DYSF，DYSF基因上的致病突变可导致LGMDR2发生。

1、利用云端与本地数据构建病人和正常人群数据库，数据库的来源选用当前研究主流且活跃更新的公开遗传数据库。病人数据库：Leiden open variation Database(LOVD)与Clinvar数据库，提供目前在全球病人身上发现的致病突变。本地数据库(及本地病人)收集足够规模的病人作为目标人群的代表致病突变。正常人群数据库：The GenomeAggregation Database(gnomAD)数据库提供全球不同民族125748人的正常人群的突变携带率，China Metabolic Analytics Project(ChinaMAP)数据库提供中国10588人的正常人群的突变携带率。

2、基于自然选择理论的压力趋势，比较正常人群数据库，筛选病人数据库中的高外显致病突变。自然选择理论的压力趋势的假设是，某一遗传性罕见病的突变在人群中受到的选择压力应符合如下分布：高外显致病突变>低外显致病突变>所有突变>正常突变，受到选择压力越大的突变在进化中处于更不利的地位，将越容易从人群被淘汰。在病人数据库中，高外显致病突变比低外显致病突变更容易被报道发现；在正常人群数据库中，高外显致病突变在人群的携带率最低，即受到的选择压力最大。在正常人群数据库与病人数据库分别设立条件去筛选高外显致病突变。

3、利用上一步筛选的高外显致病突变去构建贝叶斯模型的先验。

依据贝叶斯理论，P(q)代表某一遗传性罕见病高外显致病突变的携带率分布(先验)，P(θ|q)代表目标人群高外显致病突变的携带率分布(gnomAD和ChinaMAP)，P(q|θ)即为所求的目标人群高外显致病突变的携带率实际分布(后验)，经计算机模拟获得α和β。

4、预测目标遗传性罕见病的患病率。

进一步阐述问题，在包含了n_i，i∈E人数的人群E中共有2n_i,i∈E条染色体(一人两条)，某一突变在其中x_i，i∈E条染色体上被检测出，因此该突变在E的人群携带率可写作公式2，x_i，i∈E也符合二项分布x_i，i∈E～Binomial(2n_i，i∈E，q_i，i∈E，将公

式2代入公式1，获得：

因为q_i，i∈E～Beta(α，β)是x_i，i∈E～Binomial(2nx_i，i∈E，q_i，i∈E)的共轭先验，后验也符合β分布，即q_p，p∈E～Beat(x_i，i∈E+α，2n_i，i∈E-x_i，i∈E+β)，因此：

依据中心极限定理，目标疾病若是常染色体显性遗传病，患病率的预测值即为∑q_p。目标疾病若是常染色体隐性遗传病，再依据经典的哈代-温伯格平衡定律，目标疾病在目标人群的患病率可写作(∑q_p)²，其可以用含有1自由度的非中心卡方分布模拟(/>公式6)，即：

5、验证结果。本发明通过与文献和之前已发表的预测结果进行比较，获得罕见病的患病率。鉴于本发明的数据有中国与全世界的完全不同来源的数据集，本发明利用全球数据集中的东亚人群可作为外部验证，验证目标人群(中国人群)中的预测患病率结果。

实施例1构建病人与正常人群数据库

病人数据库LOVD中有1020个DYSF突变，中国本地多中心(目标人群)收集的245病人含有222个突变。

正常人群数据库gnomAD含有4318个突变，包含有美国黑人(African American,AFR)，美国白人(American,AMR)，德系犹太人(Ashkenazi Jewish,ASJ)，东亚人(EastAsian,EAS)，芬兰人(Finnish,FIN)，非芬兰籍欧洲人(non-Finnish European,NFE)，南亚人(South Asian,SAS),其他人种(other population,OTH)。

正常人群数据库ChinaMAP含有10588个突变，人种为中国人(Chinese,CHN)。

实施例2筛选病人数据库中的高外显致病突变

设立具体标准如下：1)先从实施例1中的病人数据库中筛选出具有从LGMDR2患者身上发现的突变，不论其致病性(某些不致病的突变也有可能被病人携带)；2)考虑临床实践中所有LGMD(包含LGMDR2)的患病率不可能大于万分之一，设立高外显致病突变人群携带率的上限0.01(最多即一百人里有一人携带有一个DYSF的致病突变)；3)以病人数据库中ACMG评分为pathogenic(明确致病性)的突变报告次数的95％可信区间设立报告次数下限，高外显致病突变的报告次数应当大于低外显致病突变在病人数据库的报告次数(见图1(A)和图1(B))；4)依据病人数据库中的ACMG评分，排除那些已经明确为不致病或有矛盾的突变(benign,likely benign,conflict)。

据以上标准，在gnomAD数据库筛选出35个高外显DYSF致病突变，在ChinaMAP数据库筛选出9个高外显DYSF致病突变，结果见图1(A)和图1(B)所示。

图1(A)和图1(B)为云端与本地病人数据库中突变的ACMG评分。图1(A)和图1(B)结果显示，病人数据库的高外显致病突变的报告次数95％可信区间下限为≥9，目标人群病人(中国病人)的高外显致病突变的报告次数95％可信区间下限为≥3。

筛选结果见图2。图2为突变在正常人群的携带率分布，很好符合了自然选择的假设。其中高外显致病突变的35个突变的携带率分布即是本实施的先验分布。

从筛选结果的自然选择压力分析，筛选的结果很好符合了自然选择的假设，即自然选择压力越大，突变在人群的携带率越小：高外显致病突变>低外显致病突变>所有突变>正常突变(见图2)。

实施例3贝叶斯计算模型

以gnomAD数据库筛选出35个高外显DYSF致病突变为先验，求出其分布函数q_i，i∈E～Beta(α，β)的α＝1.070，β＝40728.934。

实施例4

在先验的基础上，算出gnomAD各人种以及ChinaMAP中国人群的LGMDR2的患病率。具体见表1。

表1 LGMDR2患病率在不同人群不同方法的预测值

其中，意大利的文献参见MAGRI F,NIGRO V,ANGELINI C,等.The Italian LimbGirdle Muscular Dystrophy Registry:Relative Frequency,Clinical Features,andDifferential Diagnosis[J].Muscle&Nerve,2017,55(1):55–68.DOI:10.1002/mus.25192。

荷兰的文献参见TEN DAM L,FRANKHUIZEN W S,LINSSEN W H J P,等.AutosomalRecessive Limb-Girdle and Miyoshi Muscular Dystrophies in the Netherlands:TheClinical and Molecular Spectrum of 244Patients[J].Clinical Genetics,2019,96(2):126–133.DOI:10.1111/cge.13544.

英国的文献参见KLINGE L,ABOUMOUSA A,EAGLE M,等.New Aspects on PatientsAffected by Dysferlin Deficient Muscular Dystrophy[J].Journal of Neurology,Neurosurgery,and Psychiatry,2010,81(9):946–953.

DOI:10.1136/jnnp.2009.178038.。

日本的文献参见IZUMI R,TAKAHASHI T,SUZUKI N,等.The Genetic Profile ofDysferlinopathy in a Cohort of 209Cases:Genotype-Phenotype Relationship and aHotspot on the Inner DysF Domain[J].Human Mutation,2020,41(9):1540–1554.DOI:10.1002/humu.24036.

韩国的文献参见SHIN H Y,JANG H,HAN J H,等.Targeted Next-GenerationSequencing for the Genetic Diagnosis of Dysferlinopathy[J].NeuromuscularDisorders:NMD,2015,25(6):502–510.DOI:10.1016/j.nmd.2015.03.006.

Liu et al.2019：LIU W,PAJUSALU S,LAKE N J,等.Estimating Prevalence forLimb-Girdle Muscular Dystrophy Based on Public Sequencing Databases:11[J].Genetics in Medicine,2019,21(11):2512–2520.

DOI:10.1038/s41436-019-0544-8.

5.验证。参考于之前类似的但先验范围更大且基于电脑预测致病性的研究方法(Liu et al.2019)。

结果显示，本发明的自然选择贝叶斯模型的预测结果取得了更接近文献报道的结果。更关键的是，在完全不同的两个来源数据集中(世界与中国)，本发明取得了gnomAD东亚人群(1.3个/百万人)和中国人群(1.1个/百万人)近类似的患病率结果。

以上所述仅是本发明的实施方式的举例，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型的构建方法，其特征在于，包括如下步骤：

步骤一、利用云端与本地数据构建病人和正常人群数据库；

步骤四、预测目标遗传性罕见病的患病率，包括：

1)获得目标遗传性罕见病突变的人群携带率；

2)将人群携带率代入贝叶斯模型的先验；

3)依据中心极限定理，并用含有1自由度的非中心卡方分布模拟计算预测目标遗传性罕见病的患病率；

其中，步骤二中所述自然选择理论的压力趋势为：高外显致病突变>低外显致病突变>所有突变>正常突变；

步骤三中所述的贝叶斯模型的先验具体如下：

2.如权利要求1所述的构建方法，其特征在于，步骤二的筛选病人数据库中的高外显致病突变，包括如下步骤：

B、设立高外显致病突变人群携带率的上限0.01；

3.如权利要求1所述的构建方法，其特征在于，所述预测目标遗传性罕见病的患病率，包括如下步骤：

1)获得目标遗传性罕见病突变的人群携带率：

2)x_i，i∈E符合二项分布x_i，i∈E～Binomial(2n_i，i∈E，q_i，i∈E)，将公式2代入公式1，获得：

3)q_i，i∈E～Beta(α，β)是x_i，i∈E～Binomial(2n_i，i∈E，q_i，i∈E)的共轭先验，后验也符合β分布，即q_p，p∈E～Beta(x_i，i∈E+α，2n_i，i∈E-x_i，i∈E+β)，因此：

4)依据中心极限定理，并用含有1自由度的非中心卡方分布模拟，如公式6所示，

当目标疾病是常染色体显性遗传病，患病率的预测值为∑q_p；当目标疾病是常染色体隐性遗传病，目标疾病在目标人群的患病率为(Σq_p)²。

4.一种采用权利要求1-3中任一项所述的方法构建而成的基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型的系统。