CN113808660B - 基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型及其构建方法和应用 - Google Patents

基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型及其构建方法和应用 Download PDF

Info

Publication number
CN113808660B
CN113808660B CN202111071571.0A CN202111071571A CN113808660B CN 113808660 B CN113808660 B CN 113808660B CN 202111071571 A CN202111071571 A CN 202111071571A CN 113808660 B CN113808660 B CN 113808660B
Authority
CN
China
Prior art keywords
database
prevalence
mutation
target
disease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111071571.0A
Other languages
English (en)
Other versions
CN113808660A (zh
Inventor
衷画画
罗苏珊
赵重波
卢家红
朱雯华
奚剑英
林洁
窦同海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Angpu Biotechnology Co ltd
Huashan Hospital of Fudan University
Original Assignee
Shanghai Angpu Biotechnology Co ltd
Huashan Hospital of Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Angpu Biotechnology Co ltd, Huashan Hospital of Fudan University filed Critical Shanghai Angpu Biotechnology Co ltd
Priority to CN202111071571.0A priority Critical patent/CN113808660B/zh
Publication of CN113808660A publication Critical patent/CN113808660A/zh
Application granted granted Critical
Publication of CN113808660B publication Critical patent/CN113808660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Physiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型的构建方法,包括如下步骤:步骤一、利用云端与本地数据构建病人和正常人群数据库;步骤二、基于自然选择理论的压力趋势,比较正常人群数据库,筛选病人数据库中的高外显致病突变;步骤三、利用步骤二筛选的高外显致病突变去构建贝叶斯模型的先验,步骤四、预测目标遗传性罕见病的患病率。采用本发明的构建方法构建获得的遗传性罕见病患病率贝叶斯计算模型可以用于国内罕见病患病率的预测,其结果准确可靠,具有良好的应用前景。

Description

基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模 型及其构建方法和应用
技术领域
本发明属于罕见病患病率预测技术领域,具体地说,是关于一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型及其构建方法和应用,是利用公开数据库及本地收集病人遗传信息去预测某一遗传性罕见病在某一特定人种或国家的患病率。
背景技术
近年来国内外不断公开的遗传数据库为计算遗传疾病的患病率提供了一种新的可能。特别是遗传性罕见病的患病率,十几年前仅能根据大规模人口普查或者登记数据库的形式去预估患病率,而遗传数据库的出现为预测遗传性疾病提供了新的可能。
现有的技术通常定位于某一个遗传数据库内进行计算,利用数据库中突变的美国医学遗传学和基因组协会(the American College of Medical Genetics and Genomics,ACMG)评分(SCHRODI S J,DEBARBER A,HE M,等.Prevalence Estimation for MonogenicAutosomal Recessive Diseases Using Population-Based Genetic Data[J].HumanGenetics,2015,134(6):659–669.DOI:10.1007/s00439-015-1551-8.)或者计算机预测的严重程度评分(LIU W,PAJUSALU S,LAKE N J,等.Estimating Prevalence for Limb-Girdle Muscular Dystrophy Based on Public Sequencing Databases:11[J].Geneticsin Medicine,2019,21(11):2512–2520.DOI:10.1038/s41436-019-0544-8.)去筛选高外显率(或者高致病性)的致病突变,以此为基础构建贝叶斯模型的先验(prior),再去重新计算致病突变的人群分布后验(posterior),以求得遗传性罕见病的患病率。但是,现有的遗传性罕见病的患病率的计算方法存在如下问题:(1)现有技术采用的计算方案多是限于单一数据库(或基于某一人种遗传数据库),故所得结果具有人群特异性(如高加索人种占据绝大多数),缺乏对其他民族(如汉族)的外推性;(2)现有技术的数据来源全部来自公开数据库,缺乏本地临床资源的验证,而且没有很好利用病人数据库与正常人群数据库的可比性;(3)现有技术的致病突变来自ACMG评分或者计算机预测的严重程度评分。前者因不同数据库的质量水平不齐,造成不同数据库ACMG评分的矛盾,同时低质量的数据管理带来了ACMG评分致病性的假阳性。后者基于计算机预测,被证明在基因的内含子区域预测结果的不可靠,同时并不能很好的反映现实,不被建议作为致病突变判定的绝对依据。同时因为外显率的问题,及同一致病突变不一定在每个人身上都会发病(即致病突变外在地显示于病人身上),不同致病突变的外显率是不一致的。因此筛选那些高度外显(高致病性的)突变成为了难点。(4)现有技术贝叶斯模型采用的先验来源是基于某一大类遗传疾病整体,没有很好体现现代医学所倡导的精准性与针对性,预测结果缺乏准确性。
发明内容
本发明针对现有的遗传性罕见病的患病率的预测技术的准确性低的不足,提供了基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型。该模型通过自然选择理论在病人数据库与正常人群数据库的比较中筛选出高外显(高致病性)的致病突变,可以解决目前遗传性疾病贝叶患病率致病突变判定不准确的问题。
因此,本发明的第一个目的是提供一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型。本发明的第二个目的是提供一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型的构建方法。本发明的第三个目的是提供一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型在非疾病诊断中预测遗传性罕见病患病率中的应用。
为实现上述目的,本发明采用如下技术方案:
作为本发明的第一个方面,一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型的构建方法,包括如下步骤:
步骤一、利用云端与本地数据构建病人和正常人群数据库;
步骤二、基于自然选择理论的压力趋势,比较正常人群数据库,筛选病人数据库中的高外显致病突变;
步骤三、利用步骤二筛选的高外显致病突变去构建贝叶斯模型的先验,
步骤四、预测目标遗传性罕见病的患病率,包括:
1)获得目标遗传性罕见病突变的人群携带率;
2)将人群携带率代入贝叶斯模型的先验;
3)依据中心极限定理,并用含有1自由度的非中心卡方分布模拟计算预测目标遗传性罕见病的患病率。
根据本发明,所述自然选择理论的压力趋势为:高外显致病突变>低外显致病突变>所有突变>正常突变。
根据本发明,步骤二的筛选病人数据库中的高外显致病突变,包括如下步骤:
A、先从病人数据库中筛选出具有从LGMDR2患者身上发现的突变;
B、设立高外显致病突变人群携带率的上限0.01;
C、以病人数据库中ACMG评分为明确致病性的突变报告次数的95%可信区间设立报告次数下限,高外显致病突变的报告次数大于低外显致病突变在病人数据库的报告次数;
D、依据病人数据库中的ACMG评分,排除已经明确为不致病或有矛盾的突变。
根据本发明,贝叶斯模型的先验公式如下:
其中,P(q)是某一遗传性罕见病高外显致病突变的携带率分布——先验,P(θ|q)是目标人群gnomAD和ChinaMAP的高外显致病突变的携带率分布,P(q|θ)即为所求的目标人群高外显致病突变的携带率实际分布——后验,经计算机模拟获得α和β。
根据本发明,所述预测目标遗传性罕见病的患病率,包括如下步骤:
1)获得目标遗传性罕见病突变的人群携带率:
其中,xi,i∈E为所述目标遗传性罕见病突变在人群E中被检测出突变的染色体数量,E表示含有不同人群的数量;n表示检测人数;
2)xi,i∈E符合二项分布xi,i∈E~Binomial(2ni,i∈E,qi,i∈E)|,将公式2的qi,i∈E代入公式1,获得:
3)qi,i∈E~Beta(α,β)是xi,i∈E~Binomial(2ni,i∈E,qi,i∈E)的共轭先验,后验也符合β分布,即qp,q∈E~Beta(xi,i∈E+α,2ni,i∈E-xi,i∈E+β),因此:
5)依据中心极限定理,可以用含有1自由度的非中心卡方分布模拟,如公式6所示,
当目标疾病是常染色体显性遗传病,患病率的预测值为∑qp;当目标疾病是常染色体隐性遗传病,目标疾病在目标人群的患病率为(∑qp)2
作为本发明的第二个方面,一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型,其是采用上述方法构建而成。
作为本发明的第三个方面,一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型在非疾病诊断中预测遗传性罕见病患病率中的应用。
本发明的有益效果:本发明的遗传性罕见病患病率贝叶斯计算模型的结果更接近现有文献报道的结果。且gnomAD东亚人群(1.3个/百万人)和中国人群(1.1个/百万人)取得了近类似的患病率结果。可以用于国内罕见病患病率的预测,其具有针对性,具有良好的应用前景,可为将来在制定经济学效益分析,社会保险政策政策,及卫生资源投入的使用上提供可靠的参考基础。
附图说明
图1(A)和图1(B)为不同病人数据库(LOVD和目标人群病人队列)中突变的ACMG评分。
图2为突变在正常人群的携带率分布。
具体实施方式
以下结合具体实施例,对本发明做进一步说明。应理解,以下实施例仅用于说明本发明而非用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件,或厂商提供的条件进行。
以下实施例以遗传性罕见病肢带型肌营养不良R2(LGMDR2)为预测对象,中国人为目标人群。LGMDR2是致病基因明确的常染色体隐性遗传的罕见病,其致病基因为DYSF,DYSF基因上的致病突变可导致LGMDR2发生。
1、利用云端与本地数据构建病人和正常人群数据库,数据库的来源选用当前研究主流且活跃更新的公开遗传数据库。病人数据库:Leiden open variation Database(LOVD)与Clinvar数据库,提供目前在全球病人身上发现的致病突变。本地数据库(及本地病人)收集足够规模的病人作为目标人群的代表致病突变。正常人群数据库:The GenomeAggregation Database(gnomAD)数据库提供全球不同民族125748人的正常人群的突变携带率,China Metabolic Analytics Project(ChinaMAP)数据库提供中国10588人的正常人群的突变携带率。
2、基于自然选择理论的压力趋势,比较正常人群数据库,筛选病人数据库中的高外显致病突变。自然选择理论的压力趋势的假设是,某一遗传性罕见病的突变在人群中受到的选择压力应符合如下分布:高外显致病突变>低外显致病突变>所有突变>正常突变,受到选择压力越大的突变在进化中处于更不利的地位,将越容易从人群被淘汰。在病人数据库中,高外显致病突变比低外显致病突变更容易被报道发现;在正常人群数据库中,高外显致病突变在人群的携带率最低,即受到的选择压力最大。在正常人群数据库与病人数据库分别设立条件去筛选高外显致病突变。
3、利用上一步筛选的高外显致病突变去构建贝叶斯模型的先验。
依据贝叶斯理论,P(q)代表某一遗传性罕见病高外显致病突变的携带率分布(先验),P(θ|q)代表目标人群高外显致病突变的携带率分布(gnomAD和ChinaMAP),P(q|θ)即为所求的目标人群高外显致病突变的携带率实际分布(后验),经计算机模拟获得α和β。
4、预测目标遗传性罕见病的患病率。
进一步阐述问题,在包含了ni,i∈E人数的人群E中共有2ni,i∈E条染色体(一人两条),某一突变在其中xi,i∈E条染色体上被检测出,因此该突变在E的人群携带率可写作公式2,xi,i∈E也符合二项分布xi,i∈E~Binomial(2ni,i∈E,qi,i∈E,将公
式2代入公式1,获得:
因为qi,i∈E~Beta(α,β)是xi,i∈E~Binomial(2nxi,i∈E,qi,i∈E)的共轭先验,后验也符合β分布,即qp,p∈E~Beat(xi,i∈E+α,2ni,i∈E-xi,i∈E+β),因此:
依据中心极限定理,目标疾病若是常染色体显性遗传病,患病率的预测值即为∑qp。目标疾病若是常染色体隐性遗传病,再依据经典的哈代-温伯格平衡定律,目标疾病在目标人群的患病率可写作(∑qp)2,其可以用含有1自由度的非中心卡方分布模拟(/>公式6),即:
5、验证结果。本发明通过与文献和之前已发表的预测结果进行比较,获得罕见病的患病率。鉴于本发明的数据有中国与全世界的完全不同来源的数据集,本发明利用全球数据集中的东亚人群可作为外部验证,验证目标人群(中国人群)中的预测患病率结果。
实施例1构建病人与正常人群数据库
病人数据库LOVD中有1020个DYSF突变,中国本地多中心(目标人群)收集的245病人含有222个突变。
正常人群数据库gnomAD含有4318个突变,包含有美国黑人(African American,AFR),美国白人(American,AMR),德系犹太人(Ashkenazi Jewish,ASJ),东亚人(EastAsian,EAS),芬兰人(Finnish,FIN),非芬兰籍欧洲人(non-Finnish European,NFE),南亚人(South Asian,SAS),其他人种(other population,OTH)。
正常人群数据库ChinaMAP含有10588个突变,人种为中国人(Chinese,CHN)。
实施例2筛选病人数据库中的高外显致病突变
设立具体标准如下:1)先从实施例1中的病人数据库中筛选出具有从LGMDR2患者身上发现的突变,不论其致病性(某些不致病的突变也有可能被病人携带);2)考虑临床实践中所有LGMD(包含LGMDR2)的患病率不可能大于万分之一,设立高外显致病突变人群携带率的上限0.01(最多即一百人里有一人携带有一个DYSF的致病突变);3)以病人数据库中ACMG评分为pathogenic(明确致病性)的突变报告次数的95%可信区间设立报告次数下限,高外显致病突变的报告次数应当大于低外显致病突变在病人数据库的报告次数(见图1(A)和图1(B));4)依据病人数据库中的ACMG评分,排除那些已经明确为不致病或有矛盾的突变(benign,likely benign,conflict)。
据以上标准,在gnomAD数据库筛选出35个高外显DYSF致病突变,在ChinaMAP数据库筛选出9个高外显DYSF致病突变,结果见图1(A)和图1(B)所示。
图1(A)和图1(B)为云端与本地病人数据库中突变的ACMG评分。图1(A)和图1(B)结果显示,病人数据库的高外显致病突变的报告次数95%可信区间下限为≥9,目标人群病人(中国病人)的高外显致病突变的报告次数95%可信区间下限为≥3。
筛选结果见图2。图2为突变在正常人群的携带率分布,很好符合了自然选择的假设。其中高外显致病突变的35个突变的携带率分布即是本实施的先验分布。
从筛选结果的自然选择压力分析,筛选的结果很好符合了自然选择的假设,即自然选择压力越大,突变在人群的携带率越小:高外显致病突变>低外显致病突变>所有突变>正常突变(见图2)。
实施例3贝叶斯计算模型
以gnomAD数据库筛选出35个高外显DYSF致病突变为先验,求出其分布函数qi,i∈E~Beta(α,β)的α=1.070,β=40728.934。
实施例4
在先验的基础上,算出gnomAD各人种以及ChinaMAP中国人群的LGMDR2的患病率。具体见表1。
表1 LGMDR2患病率在不同人群不同方法的预测值
其中,意大利的文献参见MAGRI F,NIGRO V,ANGELINI C,等.The Italian LimbGirdle Muscular Dystrophy Registry:Relative Frequency,Clinical Features,andDifferential Diagnosis[J].Muscle&Nerve,2017,55(1):55–68.DOI:10.1002/mus.25192。
荷兰的文献参见TEN DAM L,FRANKHUIZEN W S,LINSSEN W H J P,等.AutosomalRecessive Limb-Girdle and Miyoshi Muscular Dystrophies in the Netherlands:TheClinical and Molecular Spectrum of 244Patients[J].Clinical Genetics,2019,96(2):126–133.DOI:10.1111/cge.13544.
英国的文献参见KLINGE L,ABOUMOUSA A,EAGLE M,等.New Aspects on PatientsAffected by Dysferlin Deficient Muscular Dystrophy[J].Journal of Neurology,Neurosurgery,and Psychiatry,2010,81(9):946–953.
DOI:10.1136/jnnp.2009.178038.。
日本的文献参见IZUMI R,TAKAHASHI T,SUZUKI N,等.The Genetic Profile ofDysferlinopathy in a Cohort of 209Cases:Genotype-Phenotype Relationship and aHotspot on the Inner DysF Domain[J].Human Mutation,2020,41(9):1540–1554.DOI:10.1002/humu.24036.
韩国的文献参见SHIN H Y,JANG H,HAN J H,等.Targeted Next-GenerationSequencing for the Genetic Diagnosis of Dysferlinopathy[J].NeuromuscularDisorders:NMD,2015,25(6):502–510.DOI:10.1016/j.nmd.2015.03.006.
Liu et al.2019:LIU W,PAJUSALU S,LAKE N J,等.Estimating Prevalence forLimb-Girdle Muscular Dystrophy Based on Public Sequencing Databases:11[J].Genetics in Medicine,2019,21(11):2512–2520.
DOI:10.1038/s41436-019-0544-8.
5.验证。参考于之前类似的但先验范围更大且基于电脑预测致病性的研究方法(Liu et al.2019)。
结果显示,本发明的自然选择贝叶斯模型的预测结果取得了更接近文献报道的结果。更关键的是,在完全不同的两个来源数据集中(世界与中国),本发明取得了gnomAD东亚人群(1.3个/百万人)和中国人群(1.1个/百万人)近类似的患病率结果。
以上所述仅是本发明的实施方式的举例,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (4)

1.一种基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型的构建方法,其特征在于,包括如下步骤:
步骤一、利用云端与本地数据构建病人和正常人群数据库;
步骤二、基于自然选择理论的压力趋势,比较正常人群数据库,筛选病人数据库中的高外显致病突变;
步骤三、利用步骤二筛选的高外显致病突变去构建贝叶斯模型的先验,
步骤四、预测目标遗传性罕见病的患病率,包括:
1)获得目标遗传性罕见病突变的人群携带率;
2)将人群携带率代入贝叶斯模型的先验;
3)依据中心极限定理,并用含有1自由度的非中心卡方分布模拟计算预测目标遗传性罕见病的患病率;
其中,步骤二中所述自然选择理论的压力趋势为:高外显致病突变>低外显致病突变>所有突变>正常突变;
步骤三中所述的贝叶斯模型的先验具体如下:
其中,P(q)是某一遗传性罕见病高外显致病突变的携带率分布——先验,P(θ|q)是目标人群gnomAD和ChinaMAP的高外显致病突变的携带率分布,P(q|θ)即为所求的目标人群高外显致病突变的携带率实际分布——后验,经计算机模拟获得α和β。
2.如权利要求1所述的构建方法,其特征在于,步骤二的筛选病人数据库中的高外显致病突变,包括如下步骤:
A、先从病人数据库中筛选出具有从LGMDR2患者身上发现的突变;
B、设立高外显致病突变人群携带率的上限0.01;
C、以病人数据库中ACMG评分为明确致病性的突变报告次数的95%可信区间设立报告次数下限,高外显致病突变的报告次数大于低外显致病突变在病人数据库的报告次数;
D、依据病人数据库中的ACMG评分,排除已经明确为不致病或有矛盾的突变。
3.如权利要求1所述的构建方法,其特征在于,所述预测目标遗传性罕见病的患病率,包括如下步骤:
1)获得目标遗传性罕见病突变的人群携带率:
其中,xi,i∈E为所述目标遗传性罕见病突变在人群E中被检测出突变的染色体数量,E表示含有不同人群的数量;n表示检测人数;
2)xi,i∈E符合二项分布xi,i∈E~Binomial(2ni,i∈E,qi,i∈E),将公式2代入公式1,获得:
3)qi,i∈E~Beta(α,β)是xi,i∈E~Binomial(2ni,i∈E,qi,i∈E)的共轭先验,后验也符合β分布,即qp,p∈E~Beta(xi,i∈E+α,2ni,i∈E-xi,i∈E+β),因此:
4)依据中心极限定理,并用含有1自由度的非中心卡方分布模拟,如公式6所示,
当目标疾病是常染色体显性遗传病,患病率的预测值为∑qp;当目标疾病是常染色体隐性遗传病,目标疾病在目标人群的患病率为(Σqp)2
4.一种采用权利要求1-3中任一项所述的方法构建而成的基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型的系统。
CN202111071571.0A 2021-09-13 2021-09-13 基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型及其构建方法和应用 Active CN113808660B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111071571.0A CN113808660B (zh) 2021-09-13 2021-09-13 基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型及其构建方法和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111071571.0A CN113808660B (zh) 2021-09-13 2021-09-13 基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型及其构建方法和应用

Publications (2)

Publication Number Publication Date
CN113808660A CN113808660A (zh) 2021-12-17
CN113808660B true CN113808660B (zh) 2024-02-13

Family

ID=78941215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111071571.0A Active CN113808660B (zh) 2021-09-13 2021-09-13 基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型及其构建方法和应用

Country Status (1)

Country Link
CN (1) CN113808660B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1396178A (zh) * 2002-06-17 2003-02-12 成都阳辉生物科技有限责任公司 抗乙肝病毒等包膜病毒感染的工程多肽及其制备方法
CN106460070A (zh) * 2014-04-21 2017-02-22 纳特拉公司 检测染色体片段中的突变和倍性
CN111883213A (zh) * 2020-07-28 2020-11-03 西安电子科技大学 基于遗传算法优化的bp神经网络的频谱预测方法
CN112071385A (zh) * 2020-09-23 2020-12-11 广州瀚信通信科技股份有限公司 基于人工智能的罕见病辅助分析方法、装置及存储介质
WO2021011990A1 (en) * 2019-07-25 2021-01-28 Agriculture Victoria Services Pty Ltd An iterative regression method for genomic prediction

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030082606A1 (en) * 2001-09-04 2003-05-01 Lebo Roger V. Optimizing genome-wide mutation analysis of chromosomes and genes
ES2620431T3 (es) * 2008-08-04 2017-06-28 Natera, Inc. Métodos para la determinación de alelos y de ploidía
US20180173845A1 (en) * 2014-06-05 2018-06-21 Natera, Inc. Systems and Methods for Detection of Aneuploidy

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1396178A (zh) * 2002-06-17 2003-02-12 成都阳辉生物科技有限责任公司 抗乙肝病毒等包膜病毒感染的工程多肽及其制备方法
CN106460070A (zh) * 2014-04-21 2017-02-22 纳特拉公司 检测染色体片段中的突变和倍性
WO2021011990A1 (en) * 2019-07-25 2021-01-28 Agriculture Victoria Services Pty Ltd An iterative regression method for genomic prediction
CN111883213A (zh) * 2020-07-28 2020-11-03 西安电子科技大学 基于遗传算法优化的bp神经网络的频谱预测方法
CN112071385A (zh) * 2020-09-23 2020-12-11 广州瀚信通信科技股份有限公司 基于人工智能的罕见病辅助分析方法、装置及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Global migration and the changing distribution of sickle haemoglobin: a quantitative study of temporal trends between 1960 and 2000;Dr Frédéric B Piel PhD等;LANCET GLOBAL HEALTH;第2卷(第2期);E80-E89 *
中医遗传学定义和研究范畴与研究方法及应用;林乔;王米渠;;现代中西医结合杂志;15(第09期);1131-136 *
基于Hadoop平台和遗传算法的贝叶斯网结构学习;李荣斌;中国优秀硕士学位论文全文数据库信息科技辑(第12期);I140-27 *
贝叶斯响应变量适应性随机化模拟预测评价方法初探;范扬;李太顺;杨嘉莹;王诗远;刘沛;;中国卫生统计;37(第03期);400-404 *

Also Published As

Publication number Publication date
CN113808660A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
Ampofo et al. Beyond 2020: Modelling obesity and diabetes prevalence
Wells et al. GWAS identifies 44 independent associated genomic loci for self-reported adult hearing difficulty in UK Biobank
Möller et al. The heritability of breast cancer among women in the Nordic Twin Study of Cancer
Shaw et al. Epidemiologic characteristics of anophthalmia and bilateral microphthalmia among 2.5 million births in California, 1989–1997
CN108292326B (zh) 用于识别功能性患者特异性体细胞畸变的整合方法和系统
Alipanahi et al. Large-scale machine-learning-based phenotyping significantly improves genomic discovery for optic nerve head morphology
Deng et al. The population genomic landscape of human genetic structure, admixture history and local adaptation in Peninsular Malaysia
Hou et al. A sex‐stratified prognostic nomogram incorporating body compositions for long‐term mortality in cirrhosis
He et al. Identification of putative causal loci in whole-genome sequencing data via knockoff statistics
Hong et al. Genetic syndromes screening by facial recognition technology: VGG-16 screening model construction and evaluation
Kridin et al. The risk of COVID-19 in patients with bullous pemphigoid and pemphigus: a population-based cohort study
Zhang et al. Identifying diabetic macular edema and other retinal diseases by optical coherence tomography image and multiscale deep learning
CN113808660B (zh) 基于自然选择及数据库的遗传性罕见病患病率贝叶斯计算模型及其构建方法和应用
Xiao et al. Monocytes affect bone mineral density in pre-and postmenopausal women through ribonucleoprotein complex biogenesis by integrative bioinformatics analysis
Khanna et al. Polygenic Risk Score for Cardiovascular Diseases in Artificial Intelligence Paradigm: A Review
Li et al. Automatic landmarking identifies new loci associated with face morphology and implicates Neanderthal introgression in human nasal shape
Xu et al. Investigation of multi-scale spatio-temporal pattern of oldest-old clusters in China on the basis of spatial scan statistics
Zhang et al. Causal relationship between Alzheimer’s disease and cardiovascular disease: A bidirectional Mendelian randomization analysis
Kandukuri et al. Heart Stroke Detection Using KNN Algorithm
Xu et al. Automatic detection of image-based features for immunosuppressive therapy response prediction in oral lichen planus
Meng et al. Causal association between common rheumatic diseases and glaucoma: a Mendelian randomization study
CN111968757A (zh) 一种基于动态网络标志物的区域性传染病疫情预警方法
Gregori et al. Extreme regression models for characterizing high‐cost patients
Abbas-Aghababazadeh et al. Estimating the local false discovery rate via a bootstrap solution to the reference class problem
Feng et al. Penalized Entropy: a novel loss function for uncertainty estimation and optimization in medical image classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant