CN113808660B - 基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型及其构建方法和应用 - Google Patents
基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型及其构建方法和应用 Download PDFInfo
- Publication number
- CN113808660B CN113808660B CN202111071571.0A CN202111071571A CN113808660B CN 113808660 B CN113808660 B CN 113808660B CN 202111071571 A CN202111071571 A CN 202111071571A CN 113808660 B CN113808660 B CN 113808660B
- Authority
- CN
- China
- Prior art keywords
- database
- prevalence
- mutation
- target
- disease
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 208000035977 Rare disease Diseases 0.000 title claims abstract description 41
- 238000004364 calculation method Methods 0.000 title claims abstract description 16
- 238000010276 construction Methods 0.000 title abstract description 7
- 230000035772 mutation Effects 0.000 claims abstract description 94
- 230000001717 pathogenic effect Effects 0.000 claims abstract description 55
- 238000012216 screening Methods 0.000 claims abstract description 15
- 201000010099 disease Diseases 0.000 claims description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 12
- 208000026350 Inborn Genetic disease Diseases 0.000 claims description 9
- 208000016361 genetic disease Diseases 0.000 claims description 7
- 230000007918 pathogenicity Effects 0.000 claims description 7
- 238000005094 computer simulation Methods 0.000 claims description 5
- 210000000349 chromosome Anatomy 0.000 claims description 4
- 230000037435 normal mutation Effects 0.000 claims description 4
- 230000008094 contradictory effect Effects 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 230000002068 genetic effect Effects 0.000 description 14
- 102100032248 Dysferlin Human genes 0.000 description 6
- 101001016184 Homo sapiens Dysferlin Proteins 0.000 description 6
- 201000009342 Limb-girdle muscular dystrophy Diseases 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 208000024556 Mendelian disease Diseases 0.000 description 2
- 208000022583 Qualitative or quantitative defects of dysferlin Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 208000025341 autosomal recessive disease Diseases 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 201000006938 muscular dystrophy Diseases 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 101150083642 DYSF gene Proteins 0.000 description 1
- 102000004168 Dysferlin Human genes 0.000 description 1
- 108090000620 Dysferlin Proteins 0.000 description 1
- 208000028782 Hereditary disease Diseases 0.000 description 1
- 201000001087 Miyoshi muscular dystrophy Diseases 0.000 description 1
- 208000009376 Miyoshi myopathy Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 208000021024 autosomal recessive inheritance Diseases 0.000 description 1
- 201000009565 autosomal recessive limb-girdle muscular dystrophy Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000003748 differential diagnosis Methods 0.000 description 1
- 201000009338 distal myopathy Diseases 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 208000018360 neuromuscular disease Diseases 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/20—Probabilistic models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Biotechnology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Pathology (AREA)
- Physiology (AREA)
- Probability & Statistics with Applications (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型的构建方法,包括如下步骤:步骤一、利用云端与本地数据构建病人和正常人群数据库;步骤二、基于自然选择理论的压力趋势,比较正常人群数据库,筛选病人数据库中的高外显致病突变;步骤三、利用步骤二筛选的高外显致病突变去构建贝叶斯模型的先验,步骤四、预测目标遗传性罕见病的患病率。采用本发明的构建方法构建获得的遗传性罕见病患病率贝叶斯计算模型可以用于国内罕见病患病率的预测,其结果准确可靠,具有良好的应用前景。
Description
技术领域
本发明属于罕见病患病率预测技术领域,具体地说,是关于一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型及其构建方法和应用,是利用公开数据库及本地收集病人遗传信息去预测某一遗传性罕见病在某一特定人种或国家的患病率。
背景技术
近年来国内外不断公开的遗传数据库为计算遗传疾病的患病率提供了一种新的可能。特别是遗传性罕见病的患病率,十几年前仅能根据大规模人口普查或者登记数据库的形式去预估患病率,而遗传数据库的出现为预测遗传性疾病提供了新的可能。
现有的技术通常定位于某一个遗传数据库内进行计算,利用数据库中突变的美国医学遗传学和基因组协会(the American College of Medical Genetics and Genomics,ACMG)评分(SCHRODI S J,DEBARBER A,HE M,等.Prevalence Estimation for MonogenicAutosomal Recessive Diseases Using Population-Based Genetic Data[J].HumanGenetics,2015,134(6):659–669.DOI:10.1007/s00439-015-1551-8.)或者计算机预测的严重程度评分(LIU W,PAJUSALU S,LAKE N J,等.Estimating Prevalence for Limb-Girdle Muscular Dystrophy Based on Public Sequencing Databases:11[J].Geneticsin Medicine,2019,21(11):2512–2520.DOI:10.1038/s41436-019-0544-8.)去筛选高外显率(或者高致病性)的致病突变,以此为基础构建贝叶斯模型的先验(prior),再去重新计算致病突变的人群分布后验(posterior),以求得遗传性罕见病的患病率。但是,现有的遗传性罕见病的患病率的计算方法存在如下问题:(1)现有技术采用的计算方案多是限于单一数据库(或基于某一人种遗传数据库),故所得结果具有人群特异性(如高加索人种占据绝大多数),缺乏对其他民族(如汉族)的外推性;(2)现有技术的数据来源全部来自公开数据库,缺乏本地临床资源的验证,而且没有很好利用病人数据库与正常人群数据库的可比性;(3)现有技术的致病突变来自ACMG评分或者计算机预测的严重程度评分。前者因不同数据库的质量水平不齐,造成不同数据库ACMG评分的矛盾,同时低质量的数据管理带来了ACMG评分致病性的假阳性。后者基于计算机预测,被证明在基因的内含子区域预测结果的不可靠,同时并不能很好的反映现实,不被建议作为致病突变判定的绝对依据。同时因为外显率的问题,及同一致病突变不一定在每个人身上都会发病(即致病突变外在地显示于病人身上),不同致病突变的外显率是不一致的。因此筛选那些高度外显(高致病性的)突变成为了难点。(4)现有技术贝叶斯模型采用的先验来源是基于某一大类遗传疾病整体,没有很好体现现代医学所倡导的精准性与针对性,预测结果缺乏准确性。
发明内容
本发明针对现有的遗传性罕见病的患病率的预测技术的准确性低的不足,提供了基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型。该模型通过自然选择理论在病人数据库与正常人群数据库的比较中筛选出高外显(高致病性)的致病突变,可以解决目前遗传性疾病贝叶患病率致病突变判定不准确的问题。
因此,本发明的第一个目的是提供一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型。本发明的第二个目的是提供一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型的构建方法。本发明的第三个目的是提供一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型在非疾病诊断中预测遗传性罕见病患病率中的应用。
为实现上述目的,本发明采用如下技术方案:
作为本发明的第一个方面,一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型的构建方法,包括如下步骤:
步骤一、利用云端与本地数据构建病人和正常人群数据库;
步骤二、基于自然选择理论的压力趋势,比较正常人群数据库,筛选病人数据库中的高外显致病突变;
步骤三、利用步骤二筛选的高外显致病突变去构建贝叶斯模型的先验,
步骤四、预测目标遗传性罕见病的患病率,包括:
1)获得目标遗传性罕见病突变的人群携带率;
2)将人群携带率代入贝叶斯模型的先验;
3)依据中心极限定理,并用含有1自由度的非中心卡方分布模拟计算预测目标遗传性罕见病的患病率。
根据本发明,所述自然选择理论的压力趋势为:高外显致病突变>低外显致病突变>所有突变>正常突变。
根据本发明,步骤二的筛选病人数据库中的高外显致病突变,包括如下步骤:
A、先从病人数据库中筛选出具有从LGMDR2患者身上发现的突变;
B、设立高外显致病突变人群携带率的上限0.01;
C、以病人数据库中ACMG评分为明确致病性的突变报告次数的95%可信区间设立报告次数下限,高外显致病突变的报告次数大于低外显致病突变在病人数据库的报告次数;
D、依据病人数据库中的ACMG评分,排除已经明确为不致病或有矛盾的突变。
根据本发明,贝叶斯模型的先验公式如下:
其中,P(q)是某一遗传性罕见病高外显致病突变的携带率分布——先验,P(θ|q)是目标人群gnomAD和ChinaMAP的高外显致病突变的携带率分布,P(q|θ)即为所求的目标人群高外显致病突变的携带率实际分布——后验,经计算机模拟获得α和β。
根据本发明,所述预测目标遗传性罕见病的患病率,包括如下步骤:
1)获得目标遗传性罕见病突变的人群携带率:
其中,xi,i∈E为所述目标遗传性罕见病突变在人群E中被检测出突变的染色体数量,E表示含有不同人群的数量;n表示检测人数;
2)xi,i∈E符合二项分布xi,i∈E~Binomial(2ni,i∈E,qi,i∈E)|,将公式2的qi,i∈E代入公式1,获得:
3)qi,i∈E~Beta(α,β)是xi,i∈E~Binomial(2ni,i∈E,qi,i∈E)的共轭先验,后验也符合β分布,即qp,q∈E~Beta(xi,i∈E+α,2ni,i∈E-xi,i∈E+β),因此:
5)依据中心极限定理,可以用含有1自由度的非中心卡方分布模拟,如公式6所示,
当目标疾病是常染色体显性遗传病,患病率的预测值为∑qp;当目标疾病是常染色体隐性遗传病,目标疾病在目标人群的患病率为(∑qp)2。
作为本发明的第二个方面,一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型,其是采用上述方法构建而成。
作为本发明的第三个方面,一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型在非疾病诊断中预测遗传性罕见病患病率中的应用。
本发明的有益效果:本发明的遗传性罕见病患病率贝叶斯计算模型的结果更接近现有文献报道的结果。且gnomAD东亚人群(1.3个/百万人)和中国人群(1.1个/百万人)取得了近类似的患病率结果。可以用于国内罕见病患病率的预测,其具有针对性,具有良好的应用前景,可为将来在制定经济学效益分析,社会保险政策政策,及卫生资源投入的使用上提供可靠的参考基础。
附图说明
图1(A)和图1(B)为不同病人数据库(LOVD和目标人群病人队列)中突变的ACMG评分。
图2为突变在正常人群的携带率分布。
具体实施方式
以下结合具体实施例,对本发明做进一步说明。应理解,以下实施例仅用于说明本发明而非用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件,或厂商提供的条件进行。
以下实施例以遗传性罕见病肢带型肌营养不良R2(LGMDR2)为预测对象,中国人为目标人群。LGMDR2是致病基因明确的常染色体隐性遗传的罕见病,其致病基因为DYSF,DYSF基因上的致病突变可导致LGMDR2发生。
1、利用云端与本地数据构建病人和正常人群数据库,数据库的来源选用当前研究主流且活跃更新的公开遗传数据库。病人数据库:Leiden open variation Database(LOVD)与Clinvar数据库,提供目前在全球病人身上发现的致病突变。本地数据库(及本地病人)收集足够规模的病人作为目标人群的代表致病突变。正常人群数据库:The GenomeAggregation Database(gnomAD)数据库提供全球不同民族125748人的正常人群的突变携带率,China Metabolic Analytics Project(ChinaMAP)数据库提供中国10588人的正常人群的突变携带率。
2、基于自然选择理论的压力趋势,比较正常人群数据库,筛选病人数据库中的高外显致病突变。自然选择理论的压力趋势的假设是,某一遗传性罕见病的突变在人群中受到的选择压力应符合如下分布:高外显致病突变>低外显致病突变>所有突变>正常突变,受到选择压力越大的突变在进化中处于更不利的地位,将越容易从人群被淘汰。在病人数据库中,高外显致病突变比低外显致病突变更容易被报道发现;在正常人群数据库中,高外显致病突变在人群的携带率最低,即受到的选择压力最大。在正常人群数据库与病人数据库分别设立条件去筛选高外显致病突变。
3、利用上一步筛选的高外显致病突变去构建贝叶斯模型的先验。
依据贝叶斯理论,P(q)代表某一遗传性罕见病高外显致病突变的携带率分布(先验),P(θ|q)代表目标人群高外显致病突变的携带率分布(gnomAD和ChinaMAP),P(q|θ)即为所求的目标人群高外显致病突变的携带率实际分布(后验),经计算机模拟获得α和β。
4、预测目标遗传性罕见病的患病率。
进一步阐述问题,在包含了ni,i∈E人数的人群E中共有2ni,i∈E条染色体(一人两条),某一突变在其中xi,i∈E条染色体上被检测出,因此该突变在E的人群携带率可写作公式2,xi,i∈E也符合二项分布xi,i∈E~Binomial(2ni,i∈E,qi,i∈E,将公
式2代入公式1,获得:
因为qi,i∈E~Beta(α,β)是xi,i∈E~Binomial(2nxi,i∈E,qi,i∈E)的共轭先验,后验也符合β分布,即qp,p∈E~Beat(xi,i∈E+α,2ni,i∈E-xi,i∈E+β),因此:
依据中心极限定理,目标疾病若是常染色体显性遗传病,患病率的预测值即为∑qp。目标疾病若是常染色体隐性遗传病,再依据经典的哈代-温伯格平衡定律,目标疾病在目标人群的患病率可写作(∑qp)2,其可以用含有1自由度的非中心卡方分布模拟(/>公式6),即:
5、验证结果。本发明通过与文献和之前已发表的预测结果进行比较,获得罕见病的患病率。鉴于本发明的数据有中国与全世界的完全不同来源的数据集,本发明利用全球数据集中的东亚人群可作为外部验证,验证目标人群(中国人群)中的预测患病率结果。
实施例1构建病人与正常人群数据库
病人数据库LOVD中有1020个DYSF突变,中国本地多中心(目标人群)收集的245病人含有222个突变。
正常人群数据库gnomAD含有4318个突变,包含有美国黑人(African American,AFR),美国白人(American,AMR),德系犹太人(Ashkenazi Jewish,ASJ),东亚人(EastAsian,EAS),芬兰人(Finnish,FIN),非芬兰籍欧洲人(non-Finnish European,NFE),南亚人(South Asian,SAS),其他人种(other population,OTH)。
正常人群数据库ChinaMAP含有10588个突变,人种为中国人(Chinese,CHN)。
实施例2筛选病人数据库中的高外显致病突变
设立具体标准如下:1)先从实施例1中的病人数据库中筛选出具有从LGMDR2患者身上发现的突变,不论其致病性(某些不致病的突变也有可能被病人携带);2)考虑临床实践中所有LGMD(包含LGMDR2)的患病率不可能大于万分之一,设立高外显致病突变人群携带率的上限0.01(最多即一百人里有一人携带有一个DYSF的致病突变);3)以病人数据库中ACMG评分为pathogenic(明确致病性)的突变报告次数的95%可信区间设立报告次数下限,高外显致病突变的报告次数应当大于低外显致病突变在病人数据库的报告次数(见图1(A)和图1(B));4)依据病人数据库中的ACMG评分,排除那些已经明确为不致病或有矛盾的突变(benign,likely benign,conflict)。
据以上标准,在gnomAD数据库筛选出35个高外显DYSF致病突变,在ChinaMAP数据库筛选出9个高外显DYSF致病突变,结果见图1(A)和图1(B)所示。
图1(A)和图1(B)为云端与本地病人数据库中突变的ACMG评分。图1(A)和图1(B)结果显示,病人数据库的高外显致病突变的报告次数95%可信区间下限为≥9,目标人群病人(中国病人)的高外显致病突变的报告次数95%可信区间下限为≥3。
筛选结果见图2。图2为突变在正常人群的携带率分布,很好符合了自然选择的假设。其中高外显致病突变的35个突变的携带率分布即是本实施的先验分布。
从筛选结果的自然选择压力分析,筛选的结果很好符合了自然选择的假设,即自然选择压力越大,突变在人群的携带率越小:高外显致病突变>低外显致病突变>所有突变>正常突变(见图2)。
实施例3贝叶斯计算模型
以gnomAD数据库筛选出35个高外显DYSF致病突变为先验,求出其分布函数qi,i∈E~Beta(α,β)的α=1.070,β=40728.934。
实施例4
在先验的基础上,算出gnomAD各人种以及ChinaMAP中国人群的LGMDR2的患病率。具体见表1。
表1 LGMDR2患病率在不同人群不同方法的预测值
其中,意大利的文献参见MAGRI F,NIGRO V,ANGELINI C,等.The Italian LimbGirdle Muscular Dystrophy Registry:Relative Frequency,Clinical Features,andDifferential Diagnosis[J].Muscle&Nerve,2017,55(1):55–68.DOI:10.1002/mus.25192。
荷兰的文献参见TEN DAM L,FRANKHUIZEN W S,LINSSEN W H J P,等.AutosomalRecessive Limb-Girdle and Miyoshi Muscular Dystrophies in the Netherlands:TheClinical and Molecular Spectrum of 244Patients[J].Clinical Genetics,2019,96(2):126–133.DOI:10.1111/cge.13544.
英国的文献参见KLINGE L,ABOUMOUSA A,EAGLE M,等.New Aspects on PatientsAffected by Dysferlin Deficient Muscular Dystrophy[J].Journal of Neurology,Neurosurgery,and Psychiatry,2010,81(9):946–953.
DOI:10.1136/jnnp.2009.178038.。
日本的文献参见IZUMI R,TAKAHASHI T,SUZUKI N,等.The Genetic Profile ofDysferlinopathy in a Cohort of 209Cases:Genotype-Phenotype Relationship and aHotspot on the Inner DysF Domain[J].Human Mutation,2020,41(9):1540–1554.DOI:10.1002/humu.24036.
韩国的文献参见SHIN H Y,JANG H,HAN J H,等.Targeted Next-GenerationSequencing for the Genetic Diagnosis of Dysferlinopathy[J].NeuromuscularDisorders:NMD,2015,25(6):502–510.DOI:10.1016/j.nmd.2015.03.006.
Liu et al.2019:LIU W,PAJUSALU S,LAKE N J,等.Estimating Prevalence forLimb-Girdle Muscular Dystrophy Based on Public Sequencing Databases:11[J].Genetics in Medicine,2019,21(11):2512–2520.
DOI:10.1038/s41436-019-0544-8.
5.验证。参考于之前类似的但先验范围更大且基于电脑预测致病性的研究方法(Liu et al.2019)。
结果显示,本发明的自然选择贝叶斯模型的预测结果取得了更接近文献报道的结果。更关键的是,在完全不同的两个来源数据集中(世界与中国),本发明取得了gnomAD东亚人群(1.3个/百万人)和中国人群(1.1个/百万人)近类似的患病率结果。
以上所述仅是本发明的实施方式的举例,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (4)
1.一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型的构建方法,其特征在于,包括如下步骤:
步骤一、利用云端与本地数据构建病人和正常人群数据库;
步骤二、基于自然选择理论的压力趋势,比较正常人群数据库,筛选病人数据库中的高外显致病突变;
步骤三、利用步骤二筛选的高外显致病突变去构建贝叶斯模型的先验,
步骤四、预测目标遗传性罕见病的患病率,包括:
1)获得目标遗传性罕见病突变的人群携带率;
2)将人群携带率代入贝叶斯模型的先验;
3)依据中心极限定理,并用含有1自由度的非中心卡方分布模拟计算预测目标遗传性罕见病的患病率;
其中,步骤二中所述自然选择理论的压力趋势为:高外显致病突变>低外显致病突变>所有突变>正常突变;
步骤三中所述的贝叶斯模型的先验具体如下:
其中,P(q)是某一遗传性罕见病高外显致病突变的携带率分布——先验,P(θ|q)是目标人群gnomAD和ChinaMAP的高外显致病突变的携带率分布,P(q|θ)即为所求的目标人群高外显致病突变的携带率实际分布——后验,经计算机模拟获得α和β。
2.如权利要求1所述的构建方法,其特征在于,步骤二的筛选病人数据库中的高外显致病突变,包括如下步骤:
A、先从病人数据库中筛选出具有从LGMDR2患者身上发现的突变;
B、设立高外显致病突变人群携带率的上限0.01;
C、以病人数据库中ACMG评分为明确致病性的突变报告次数的95%可信区间设立报告次数下限,高外显致病突变的报告次数大于低外显致病突变在病人数据库的报告次数;
D、依据病人数据库中的ACMG评分,排除已经明确为不致病或有矛盾的突变。
3.如权利要求1所述的构建方法,其特征在于,所述预测目标遗传性罕见病的患病率,包括如下步骤:
1)获得目标遗传性罕见病突变的人群携带率:
其中,xi,i∈E为所述目标遗传性罕见病突变在人群E中被检测出突变的染色体数量,E表示含有不同人群的数量;n表示检测人数;
2)xi,i∈E符合二项分布xi,i∈E~Binomial(2ni,i∈E,qi,i∈E),将公式2代入公式1,获得:
3)qi,i∈E~Beta(α,β)是xi,i∈E~Binomial(2ni,i∈E,qi,i∈E)的共轭先验,后验也符合β分布,即qp,p∈E~Beta(xi,i∈E+α,2ni,i∈E-xi,i∈E+β),因此:
4)依据中心极限定理,并用含有1自由度的非中心卡方分布模拟,如公式6所示,
当目标疾病是常染色体显性遗传病,患病率的预测值为∑qp;当目标疾病是常染色体隐性遗传病,目标疾病在目标人群的患病率为(Σqp)2。
4.一种采用权利要求1-3中任一项所述的方法构建而成的基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型的系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111071571.0A CN113808660B (zh) | 2021-09-13 | 2021-09-13 | 基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型及其构建方法和应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111071571.0A CN113808660B (zh) | 2021-09-13 | 2021-09-13 | 基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型及其构建方法和应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113808660A CN113808660A (zh) | 2021-12-17 |
CN113808660B true CN113808660B (zh) | 2024-02-13 |
Family
ID=78941215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111071571.0A Active CN113808660B (zh) | 2021-09-13 | 2021-09-13 | 基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型及其构建方法和应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113808660B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1396178A (zh) * | 2002-06-17 | 2003-02-12 | 成都阳辉生物科技有限责任公司 | 抗乙肝病毒等包膜病毒感染的工程多肽及其制备方法 |
CN106460070A (zh) * | 2014-04-21 | 2017-02-22 | 纳特拉公司 | 检测染色体片段中的突变和倍性 |
CN111883213A (zh) * | 2020-07-28 | 2020-11-03 | 西安电子科技大学 | 基于遗传算法优化的bp神经网络的频谱预测方法 |
CN112071385A (zh) * | 2020-09-23 | 2020-12-11 | 广州瀚信通信科技股份有限公司 | 基于人工智能的罕见病辅助分析方法、装置及存储介质 |
WO2021011990A1 (en) * | 2019-07-25 | 2021-01-28 | Agriculture Victoria Services Pty Ltd | An iterative regression method for genomic prediction |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030082606A1 (en) * | 2001-09-04 | 2003-05-01 | Lebo Roger V. | Optimizing genome-wide mutation analysis of chromosomes and genes |
ES2620431T3 (es) * | 2008-08-04 | 2017-06-28 | Natera, Inc. | Métodos para la determinación de alelos y de ploidía |
US20180173845A1 (en) * | 2014-06-05 | 2018-06-21 | Natera, Inc. | Systems and Methods for Detection of Aneuploidy |
-
2021
- 2021-09-13 CN CN202111071571.0A patent/CN113808660B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1396178A (zh) * | 2002-06-17 | 2003-02-12 | 成都阳辉生物科技有限责任公司 | 抗乙肝病毒等包膜病毒感染的工程多肽及其制备方法 |
CN106460070A (zh) * | 2014-04-21 | 2017-02-22 | 纳特拉公司 | 检测染色体片段中的突变和倍性 |
WO2021011990A1 (en) * | 2019-07-25 | 2021-01-28 | Agriculture Victoria Services Pty Ltd | An iterative regression method for genomic prediction |
CN111883213A (zh) * | 2020-07-28 | 2020-11-03 | 西安电子科技大学 | 基于遗传算法优化的bp神经网络的频谱预测方法 |
CN112071385A (zh) * | 2020-09-23 | 2020-12-11 | 广州瀚信通信科技股份有限公司 | 基于人工智能的罕见病辅助分析方法、装置及存储介质 |
Non-Patent Citations (4)
Title |
---|
Global migration and the changing distribution of sickle haemoglobin: a quantitative study of temporal trends between 1960 and 2000;Dr Frédéric B Piel PhD等;LANCET GLOBAL HEALTH;第2卷(第2期);E80-E89 * |
中医遗传学定义和研究范畴与研究方法及应用;林乔;王米渠;;现代中西医结合杂志;15(第09期);1131-136 * |
基于Hadoop平台和遗传算法的贝叶斯网结构学习;李荣斌;中国优秀硕士学位论文全文数据库信息科技辑(第12期);I140-27 * |
贝叶斯响应变量适应性随机化模拟预测评价方法初探;范扬;李太顺;杨嘉莹;王诗远;刘沛;;中国卫生统计;37(第03期);400-404 * |
Also Published As
Publication number | Publication date |
---|---|
CN113808660A (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ampofo et al. | Beyond 2020: Modelling obesity and diabetes prevalence | |
Wells et al. | GWAS identifies 44 independent associated genomic loci for self-reported adult hearing difficulty in UK Biobank | |
Möller et al. | The heritability of breast cancer among women in the Nordic Twin Study of Cancer | |
Shaw et al. | Epidemiologic characteristics of anophthalmia and bilateral microphthalmia among 2.5 million births in California, 1989–1997 | |
CN108292326B (zh) | 用于识别功能性患者特异性体细胞畸变的整合方法和系统 | |
Alipanahi et al. | Large-scale machine-learning-based phenotyping significantly improves genomic discovery for optic nerve head morphology | |
Deng et al. | The population genomic landscape of human genetic structure, admixture history and local adaptation in Peninsular Malaysia | |
Hou et al. | A sex‐stratified prognostic nomogram incorporating body compositions for long‐term mortality in cirrhosis | |
He et al. | Identification of putative causal loci in whole-genome sequencing data via knockoff statistics | |
Hong et al. | Genetic syndromes screening by facial recognition technology: VGG-16 screening model construction and evaluation | |
Kridin et al. | The risk of COVID-19 in patients with bullous pemphigoid and pemphigus: a population-based cohort study | |
Zhang et al. | Identifying diabetic macular edema and other retinal diseases by optical coherence tomography image and multiscale deep learning | |
CN113808660B (zh) | 基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型及其构建方法和应用 | |
Xiao et al. | Monocytes affect bone mineral density in pre-and postmenopausal women through ribonucleoprotein complex biogenesis by integrative bioinformatics analysis | |
Khanna et al. | Polygenic Risk Score for Cardiovascular Diseases in Artificial Intelligence Paradigm: A Review | |
Li et al. | Automatic landmarking identifies new loci associated with face morphology and implicates Neanderthal introgression in human nasal shape | |
Xu et al. | Investigation of multi-scale spatio-temporal pattern of oldest-old clusters in China on the basis of spatial scan statistics | |
Zhang et al. | Causal relationship between Alzheimer’s disease and cardiovascular disease: A bidirectional Mendelian randomization analysis | |
Kandukuri et al. | Heart Stroke Detection Using KNN Algorithm | |
Xu et al. | Automatic detection of image-based features for immunosuppressive therapy response prediction in oral lichen planus | |
Meng et al. | Causal association between common rheumatic diseases and glaucoma: a Mendelian randomization study | |
CN111968757A (zh) | 一种基于动态网络标志物的区域性传染病疫情预警方法 | |
Gregori et al. | Extreme regression models for characterizing high‐cost patients | |
Abbas-Aghababazadeh et al. | Estimating the local false discovery rate via a bootstrap solution to the reference class problem | |
Feng et al. | Penalized Entropy: a novel loss function for uncertainty estimation and optimization in medical image classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |