CN116564406A - 一种遗传变异自动化解读方法及设备 - Google Patents
一种遗传变异自动化解读方法及设备 Download PDFInfo
- Publication number
- CN116564406A CN116564406A CN202310520366.0A CN202310520366A CN116564406A CN 116564406 A CN116564406 A CN 116564406A CN 202310520366 A CN202310520366 A CN 202310520366A CN 116564406 A CN116564406 A CN 116564406A
- Authority
- CN
- China
- Prior art keywords
- mutation
- evidence
- variation
- rating
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007614 genetic variation Effects 0.000 title claims abstract description 55
- 238000004458 analytical method Methods 0.000 title abstract description 8
- 230000035772 mutation Effects 0.000 claims abstract description 224
- 230000007918 pathogenicity Effects 0.000 claims abstract description 50
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 108090000623 proteins and genes Proteins 0.000 claims description 76
- 238000000034 method Methods 0.000 claims description 47
- 230000001717 pathogenic effect Effects 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 29
- 230000002068 genetic effect Effects 0.000 claims description 17
- 201000010099 disease Diseases 0.000 claims description 15
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 15
- 238000012217 deletion Methods 0.000 claims description 14
- 230000037430 deletion Effects 0.000 claims description 14
- 150000001413 amino acids Chemical class 0.000 claims description 13
- 108700028369 Alleles Proteins 0.000 claims description 11
- 230000037431 insertion Effects 0.000 claims description 11
- 238000003780 insertion Methods 0.000 claims description 11
- 102000004169 proteins and genes Human genes 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 7
- 101100484967 Solanum tuberosum PVS1 gene Proteins 0.000 claims description 6
- 230000009931 harmful effect Effects 0.000 claims description 5
- 238000013398 bayesian method Methods 0.000 claims description 4
- 108020004705 Codon Proteins 0.000 claims description 3
- 230000007812 deficiency Effects 0.000 claims description 3
- 210000000349 chromosome Anatomy 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 108700003861 Dominant Genes Proteins 0.000 description 2
- 208000026350 Inborn Genetic disease Diseases 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 208000016361 genetic disease Diseases 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003950 pathogenic mechanism Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 108091092724 Noncoding DNA Proteins 0.000 description 1
- 108020005038 Terminator Codon Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及数字医疗技术领域,具体涉及一种遗传变异自动化解读方法及设备,能够预先建立数据库;获取包含变异位点的待测基因组序列变化信息;根据变异位点相关的病例信息、功能信息和人群信息分别进行相应评判,分别得到相应的变异评级证据;根据变异位点的变异类型,进行计算预测信息评判,得到相应的变异评级证据;根据全部的变异评级证据,利用预设算法进行致病性计算,得到遗传变异评级结果。本发明示出的技术方案能够自动化进行标准化的遗传变异解读,提供待测基因组序列变化信息就能够对输入的所有变异给出评级结果,为每个遗传变异位点提供变异评级证据并计算致病性评级,效率高。
Description
技术领域
本发明涉及数字医疗技术领域,具体涉及一种遗传变异自动化解读方法及设备。
背景技术
目前,二代测序技术(NGS)已在临床得到推广应用,辅助临床诊断遗传疾病,预测疾病患病风险,助力个性化诊疗。NGS可以快速有效获取基因组信息,检测基因组上海量的遗传变异。然而,如何正确解读NGS检测出的变异信息,识别致病变异,在目前的临床实践中仍然面临巨大挑战,急需高效标准化的临床变异解读工具。早期的变异解读实践中,各遗传检测实验室没有统一标准,主要依据解读人员的经验和病例报道文献对变异进行致病性评估。这样常常导致不同实验室对同一变异的解读存在很大差异,为临床医生基于变异检测结果进行遗传诊断带来极大挑战。
为了统一变异解读流程,2015年美国医学遗传学与基因组学学会(ACMG)联合分子病理协会(AMP)发布更新版变异解读指南。该指南将人群数据库、疾病知识库、软件预测结果、位点功能实验结果等多种类型的变异评级证据分为28条:致病性非常强(pathogenicvery strong,PVS1),致病性强(pathogenic strong,PS1~4),致病性中等(pathogenicmoderate,PM1~6),致病性支持证据(pathogenic supporting,PP1~5),良性独立证据(benign alone,BA1),良性强证据(benign strong,BS1~4),良性支持证据(benignsupporting,BP1~7)。基于证据等级和累计数目,将遗传变异评级的结果分为五类:致病的(pathogenic,P),可能致病的(likely pathogenic,LP),意义不明的(variant of unknownsignificance,VUS),可能良性的(likely benign,LB),良性的(benign,B)。该指南是目前被广泛接受的变异解读指南。
现有的用于遗传变异自动化解读的方式,有些专注于评估变异的单独一个的证据,有些专注特定类型疾病的变异评估,也存在基于ACMG-AMP指南进行全面的变异评级的工具,但是这些工具有些无法对海量变异批量分析,有些需要大量的人工调整才能够实现批量分析,无法作为高效可靠的工具将这类信息整合。因此,现有的用于遗传变异自动化解读的工具,效率较低,标准化程度不够,无法对海量变异进行自动分析,无法高效辅助临床遗传变异评级。
发明内容
有鉴于此,本发明的目的在于提供一种遗传变异自动化解读方法及设备,以解决现有技术中用于遗传变异自动化解读的工具,效率较低,标准化程度不够,无法对海量变异进行自动分析,无法高效辅助临床遗传变异评级的问题。
根据本发明实施例的第一方面,提供一种遗传变异自动化解读方法,包括:
预先建立包含与各个变异位点相关的病例信息、功能信息和人群信息的数据库;
获取包含变异位点的待测基因组序列变化信息;
根据所述变异位点相关的所述病例信息、所述功能信息和所述人群信息分别进行病例信息评判、功能信息评判和人群信息评判,分别得到相应的变异评级证据;
根据所述变异位点的变异类型,进行计算预测信息评判,得到相应的变异评级证据;
根据全部的变异评级证据,利用预设算法进行致病性计算,得到遗传变异评级结果。
优选的,根据所述变异位点相关的所述病例信息进行病例信息评判,得到相应的变异评级证据,包括:
根据所述病例信息判断出若病人表型与变异位点导致的疾病相似度大于预设相似度阈值,则给出PP4证据;
根据所述病例信息判断出若变异位点为新发变异,且未经父母样本验证,则给出变异评级证据中的PM6证据,若变异位点为新发变异,且经过父母样本验证,则给出PS2证据;
根据所述病例信息判断出若变异位点为显性遗传基因,则根据报道既往病例数目给出PS4相关证据。
优选的,根据所述变异位点相关的所述功能信息进行功能信息评判,得到相应的变异评级证据,包括:
根据所述功能信息判断出若所述变异位点的变异对蛋白质结构和功能有影响,则给出PS3证据。
优选的,根据所述变异位点相关的所述人群信息进行人群信息评判,得到相应的变异评级证据,包括:
根据所述人群信息创建高频变异位点的基因的白名单,判断出若变异位点的基因在所述白名单之外且在数据库中的过滤等位基因频率大于预设阈值时,给出BA1证据;
判断出若变异位点的基因在所述白名单之外且在数据库中的过滤等位基因频率大于特定频率阈值时,给出BS1证据;
根据所述人群信息,判断出若变异位点为显性致病基因且在正常人群中未发现时,给出PM2_Supporting证据;判断出若变异位点为隐性致病基因且在正常人群中检出数量小于特定数量阈值时,给出PM2_Surpporting证据;
根据所述人群信息,判断出若变异位点为显性遗传基因且在正常人群的携带数目大于2时,给出BS2证据;判断出若变异位点为隐性遗传基因且在正常人群中存在纯合子情况,给出BS2证据。
优选的,根据所述变异位点的变异类型,进行计算预测信息评判,得到相应的变异评级证据,包括:
若所述变异位点的变异类型为无功能变异,给出PVS1证据;
获取基因组的重复区域,对于所述变异位点的变异类型为框内插入缺失变异,判断出若重复区域以外的插入缺失变异或终止密码子丧失导致蛋白质长度改变,给出PM4证据;若为功能未知区域的框内插入缺失变异,给出BP3证据;
若所述变异位点的变异类型为错义变异或框内插入缺失变异,判断出若变异位点位于基因热点突变区域,给出PM1证据;
若所述变异位点的变异类型为错义变异且是基因的致病变异类型,给出PP2证据;
统计所述数据库病例信息中报道的致病变异,若其中的截短变异大于90%,则对于该基因中检测到的错义变异,给出BP1证据;
当错义变异与已知致病变异导致相同的氨基酸改变时,给出PS1证据;
当错义变异与已知致病变异导致的氨基酸改变不同,但都位于同一个氨基酸时,给出PM5证据;
判断出若错义变异对基因或基因产物会造成有害影响,则给出PP3证据,否则给出BP4证据;
若变异为同义变异且不影响剪接位点,给出BP7证据。
优选的,根据全部的变异评级证据,利用预设算法进行致病性计算,得到遗传变异评级结果,包括:
利用计数法得到遗传变异评级结果:统计变异评级证据的个数,根据ACMG-AMP指南对变异评级证据的组合标准,将变异分为致病、疑似致病、意义未明、疑似良性、良性五种致病性评级类型,从而得到遗传变异评级结果。
优选的,所述的方法,还包括:
对于计数法得到遗传变异评级结果为意义未明的变异,计算该变异致病性评级类型达到致病或疑似致病所缺失的变异评级证据,并输出。
优选的,根据全部的变异评级证据,利用预设算法进行致病性计算,得到遗传变异评级结果,包括:
利用贝叶斯法得到遗传变异评级结果:
根据全部的变异评级证据,计算几率路径,公式如下:
其中,Ni表示变异评级证据的数目,i表示各变异评级证据的类型,OP表示几率路径;
根据得到的几率路径和预设的先验概率,计算后验概率,公式如下:
其中,p表示预设的先验概率,Post_P表示所述后验概率;
根据所述后验概率,划分变异致病性评级类别。
优选的,在获取包含变异位点的待测基因组序列变化信息之后,还包括:
分别对所述待测基因组序列变化信息中每个变异位点进行注释,注释内容为该变异位点的变异类型和所述数据库中该变异位点相关的所述病例信息、所述功能信息和所述人群信息。
根据本发明实施例的第二方面,提供一种遗传变异自动化解读设备,包括:
主控器,及与所述主控器相连的存储器;
所述存储器,其中存储有程序指令;
所述主控器用于执行存储器中存储的程序指令,执行上述任一项所述的方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
可以理解的是,本发明涉及一种遗传变异自动化解读方法及设备,能够预先建立数据库;获取包含变异位点的待测基因组序列变化信息;根据变异位点相关的病例信息、功能信息和人群信息分别进行相应评判,分别得到相应的变异评级证据;根据变异位点的变异类型,进行计算预测信息评判,得到相应的变异评级证据;根据全部的变异评级证据,利用预设算法进行致病性计算,得到遗传变异评级结果。本发明示出的技术方案能够自动化进行标准化的遗传变异解读,提供待测基因组序列变化信息就能够对输入的所有变异给出评级结果,为每个遗传变异位点提供变异评级证据并计算致病性评级,效率高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种遗传变异自动化解读方法的步骤示意图;
图2是根据一示例性实施例示出的一种遗传变异自动化解读流程的示意框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
实施例一
图1是根据一示例性实施例示出的一种遗传变异自动化解读方法的步骤示意图,参见图1,提供一种遗传变异自动化解读方法,包括:
步骤S11、预先建立包含与各个变异位点相关的病例信息、功能信息和人群信息的数据库;
步骤S12、获取包含变异位点的待测基因组序列变化信息;
在具体实践中,基因组序列变化信息包括:变异所在人类参考基因组的染色体号、染色体坐标、参考碱基序列、突变碱基序列这四项信息。
步骤S13、根据所述变异位点相关的所述病例信息、所述功能信息和所述人群信息分别进行病例信息评判、功能信息评判和人群信息评判,分别得到相应的变异评级证据;
步骤S14、根据所述变异位点的变异类型,进行计算预测信息评判,得到相应的变异评级证据;
步骤S15、根据全部的变异评级证据,利用预设算法进行致病性计算,得到遗传变异评级结果。
可以理解的是,本实施例涉及一种遗传变异自动化解读方法及设备,能够预先建立数据库;获取包含变异位点的待测基因组序列变化信息;根据变异位点相关的病例信息、功能信息和人群信息分别进行相应评判,分别得到相应的变异评级证据;根据变异位点的变异类型,进行计算预测信息评判,得到相应的变异评级证据;根据全部的变异评级证据,利用预设算法进行致病性计算,得到遗传变异评级结果。本实施例示出的技术方案能够自动化进行标准化的遗传变异解读,提供待测基因组序列变化信息就能够对输入的所有变异给出评级结果,为每个遗传变异位点提供变异评级证据并计算致病性评级,效率高。
图2是根据一示例性实施例示出的一种遗传变异自动化解读流程的示意框图,参见图2,在具体实践中,本实施例提供的一种遗传变异自动化解读方法,其中的流程可以命名为基于临床证据的变异解读流程(CLinical Evidence based Variant interpretER,CLEVER),这是一种自动化遗传变异解读流程,根据ACMG和ClinGen发布的指南,采用更新的数据库和软件,内嵌基因特异证据阈值和表型整合工具,批量处理变异位点的注释,只需要准备VCF格式文件,提供变异的染色体号、染色体坐标、参考碱基、改变碱基,即可对输入的所有变异给出变异解读结果,为每个遗传变异位点提供评级证据并计算致病性评级。
本方法的CLEVER的评估结果能自动提供22条ACMG变异解读评级证据。该流程适用于批量分析遗传变异,进行自动化的变异注释、证据标注和评级分类。该流程对致病性变异评级的敏感度为95.2%,良性变异评级敏感度95%(计数法)和100%(贝叶斯法)。CLEVER可以辅助为这些研究提供高质量的变异评级结果,在很大程度上减少了完全由人工评级产生的疏漏和错误,也提高了临床遗传诊断工作效率。CELVER流程高效性和准确性能有效辅助科学研究和临床诊断中遗传变异评级。
在步骤S11中,首先进行数据库的预处理,参见图2的模块1,预先建立包含与各个变异位点相关的病例信息、功能信息和人群信息的数据库。疾病遗传信息数据库(FDCHdb),其中保存有为3万病例出具的高通量测序临床诊断报告,基于这些临床诊断报告,整理疾病遗传信息数据库以MySQL数据库形式储存。数据信息包括病例表型,病例携带变异的坐标,内部人群携带频率,变异遗传模式,关联的病例数目,变异人工评级等。我们提取三种类型信息。1)病例表型转换为人类表型本体(HPOs)表示。2)筛选新发突变,即父母双方样本中不携带的变异。3)既往已诊断病例的致病基因与致病变异的位点信息。将其格式转换为VCF,用于后续变异注释。
ClinVar数据库收录了全球各个实验室提交的变异和各实验室基于ACMG-AMP指南的变异评级结果,ClinVar目前已收录全球各个实验室提交的在人群中检测到的155万条变异记录,及这些变异的临床致病性评级。我们筛选其中至少标记一颗星的变异,即至少有一条评级内容标注评估标准,或多个无冲突的评级内容,用于后续统计位点相关病例数。筛选过后的变异信息转换为VCF贮存。
文献数据库中的内容为通过人工校对整理文献中报道的疾病相关变异。通过MySQL筛选文献数据库中有害变异记录,并提取变异相关的病例报道和实验文献证据以及文献PUBMED数据库编号。
gnomAD数据库收录125,748例全外显子测序和15,708例全基因组测序数据。我们提取每个位点的过滤等位基因频率(Filtering allele frequency,FAF)的95%置信区间上限,作为后续人群频率证据的来源。
本实施例的病例信息从遗传信息数据库(FDCHdb)和ClinVar数据库中获取,还包括了文献数据库中的病例报道;本实施例的功能信息从文献数据库中获取;本实施例的人群信息从gnomAD数据库中获取;由这4种数据库整合构成了本实施例的数据库。
在步骤S12中,获取包含变异位点的待测基因组序列变化信息。在具体实践中,输入文件包含变异位点的基因组序列变化信息,包括变异所在人类参考基因组的染色体号、染色体坐标、参考碱基序列、突变碱基序列这四项信息。这些信息以VCF(Variant CallingFormat)这种文本格式储存。
需要说明的是,在另一实施例中,在获取包含变异位点的待测基因组序列变化信息之后,还包括:
分别对所述待测基因组序列变化信息中每个变异位点进行注释,注释内容为该变异位点的变异类型和所述数据库中该变异位点相关的所述病例信息、所述功能信息和所述人群信息。
在具体实践中,可以采用变异影响预测软件VEP(Variant Effect Predictor)注释输入的变异位点。对每个变异注释变异类型,以及从模块一数据库中收集的信息。VEP注释文件通过VCF处理工具bcftools,将VCF转换为制表符分隔文件(Tab-separated values,TSV)。TSV文件导入R语言统计工具,转换为数据框(data.frame)进行下一步的数据分析。
可以理解的是,通过对变异位点的注释,能够在之后的评判过程中,免去多次查询数据库以及判断变异位点变异类型的操作,进一步的提升运行效率。
在步骤S13中,需要说明的是,根据所述变异位点相关的所述病例信息进行病例信息评判,得到相应的变异评级证据,包括:
根据所述病例信息判断出若病人表型与变异位点导致的疾病相似度大于预设相似度阈值,则给出PP4证据;
根据所述病例信息判断出若变异位点为新发变异,且未经父母样本验证,则给出变异评级证据中的PM6证据,若变异位点为新发变异,且经过父母样本验证,则给出PS2证据;
根据所述病例信息判断出若变异位点为显性遗传基因,则根据报道既往病例数目给出PS4相关证据。
在具体实践中,PP4表型符合证据评判:若病人表型与变异基因导致的疾病高度符合,可以给出PP4证据。可以从自然语言描述的病人临床表型信息中提取HPO(人类表型术语集)术语,结合疾病表型对应的HPO术语集,比较患者表型与疾病表型的相似度。再结合OMIM数据库(持续更新的关于人类基因和遗传紊乱的数据库)中疾病和基因的对应关系,我们可以对病人表型与变异基因导致的疾病相似度进行判断。
PM6新发变异证据评判:新发变异指父母体细胞不携带,但孩子携带的突变。可以通过查询FDCHdb数据库,若FDCHdb数据库仅记录变异来源为新发变异,父母样本存在且不携带代,未经父母样本验证,则给出PM6证据。若数据库记录变异来源为新变异且验证父母和病例的,则给出PS2证据。
PS4:对于显性遗传基因,当报道多个病例时,可根据病例数目给与PS4相关证据。针对这类基因,可以统计文献数据库记录的病例数,和FDCHdb数据库的病例数,若两者的病例数之和大于等于1例,则给出PS4_Supporting,大于等于2例则给出PS4_Moderate证据,大于等于4例则给出PS4证据。
在步骤S13中,需要说明的是,根据所述变异位点相关的所述功能信息进行功能信息评判,得到相应的变异评级证据,包括:
根据所述功能信息判断出若所述变异位点的变异对蛋白质结构和功能有影响,则给出PS3证据。
在具体实践中,PS3:功能实验结果阳性,实验结果证明变异对蛋白质结构和功能有影响可以给出PS3证据。我们统计文献数据库内收集的功能实验报道,如果已收录相关文献,则给出PS3_Surpporting证据,后续人工复核时可依据实验方法和结果调整升降级。
在步骤S13中,需要说明的是,根据所述变异位点相关的所述人群信息进行人群信息评判,得到相应的变异评级证据,包括:
根据所述人群信息创建高频变异位点的基因的白名单,判断出若变异位点的基因在所述白名单之外且在数据库中的过滤等位基因频率大于预设阈值时,给出BA1证据;预设阈值优选为5%;
判断出若变异位点的基因在所述白名单之外且在数据库中的过滤等位基因频率大于特定频率阈值时,给出BS1证据;
根据所述人群信息,判断出若变异位点为显性致病基因且在正常人群中未发现时,给出PM2_Supporting证据;判断出若变异位点为隐性致病基因且在正常人群中检出数量小于特定数量阈值时,给出PM2_Surpporting证据;
根据所述人群信息,判断出若变异位点为显性遗传基因且在正常人群的携带数目大于2时,给出BS2证据;判断出若变异位点为隐性遗传基因且在正常人群中存在纯合子情况,给出BS2证据。
在具体实践中,BA1高频变异:为存在高频变异位点的基因创立白名单。除掉白名单中的基因,当变异在数据库中的过滤等位基因频率(FAF)大于5%时,可以给出BA1证据。
BS1等位基因频率高于疾病发病率:我们对过滤等位基因频率(FAF)大于0.2%的变异位点给出BS1。对于有记录的特定基因则使用基因特异的阈值。
PM2:PM2降级为PM2_Supporting等级。对于显性致病基因,该变异在正常人群中未发现时才可以给出PM2_Supporting证据;对于隐性致病基因,若该变异在正常人群中检出数量很少,也可以给出PM2_Surpporting证据。对于有记录的特定基因则使用基因特异的阈值。
BS2:对于显性遗传基因,变异在gnomAD数据库中正常人群的携带数目大于2,给BS2证据。对隐性遗传基因,变异在gnomAD数据库中正常人群中存在纯合子的情况,给BS2证据
在步骤S14中,需要说明的是,根据所述变异位点的变异类型,进行计算预测信息评判,得到相应的变异评级证据,包括:
PVS1:若所述变异位点的变异类型为无功能变异,给出PVS1证据;
所述无功能变异为当基因的致病机制为功能丧失且变异会导致基因功能丧失(loss of function,LoF)。当基因的致病机制为功能丧失且变异会导致基因功能丧失(loss of function,LoF)时,可以给出PVS1证据。对于LoF变异,可以使用AutoPVS1软件评判PVS1证据。
PM4、BP3:获取基因组的重复区域,对于所述变异位点的变异类型为框内插入缺失变异,判断出若重复区域以外的插入缺失变异或终止密码子丧失导致蛋白质长度改变,给出PM4证据;若为功能未知区域的框内插入缺失变异,给出BP3证据;
可以采用RepeatMasker软件注释的基因组区域作为重复区域。对框内插入缺失变异,重复区以外的插入缺失变异或终止密码子丧失导致蛋白质长度改变的可以给出PM4证据,功能未知区域的框内插入缺失变异则可以给出BP3证据。
PM1:若所述变异位点的变异类型为错义变异或框内插入缺失变异,判断出若变异位点位于基因热点突变区域,给出PM1证据;
对于错义变异和框内插入缺失,若变异位于基因热点突变区域,可以给出PM1证据。可以使用MutScore的分值评判PM1证据,当分值大于等于0.6时,给出PM1证据。
PP2:若所述变异位点的变异类型为错义变异且是基因的致病变异类型,给出PP2证据;
当错义变异是基因的致病变异类型,且基因很少具有良性变异时,可以给出PP2证据;当截短变异是基因的致病类型时,对该基因中检测到的错义变异,可以给出BP1证据。我们基于gnomAD数据库的人群错义突变的Z score,选取分值大于3.09的基因,这些基因的错义突变可以给出PP2证据。
BP1:统计所述数据库病例信息中报道的致病变异,若其中的截短变异大于90%,则对于该基因中检测到的错义变异,给出BP1证据;
可以统计ClinVar报道的较为可信的致病变异(至少一颗星,即至少有一条有评估标准支持的支持信息,或多个无冲突的支持信息)。若已报道的致病变异中90%以上是截短变异,则对于该基因中检测到的错义变异可以给出BP1证据。
PS1、PM5:当错义变异与已知致病变异导致相同的氨基酸改变时,给出PS1证据;当错义变异与已知致病变异导致的氨基酸改变不同,但都位于同一个氨基酸时,给出PM5证据;
这2条都是针对错义变异的证据。我们把筛选过的ClinVar数据库中的致病变异当作已知变异,遍历这些变异位点所有突变可能。用VEP注释后,比较变异导致的氨基酸变化和已知变异导致的氨基酸变化的差别。导致相同的氨基酸改变时,给出PS1证据;当错义变异与已知致病变异导致的氨基酸改变不同,但都位于同一个氨基酸时,可以给出PM5证据。
BP3、BP4:判断出若错义变异对基因或基因产物会造成有害影响,则给出PP3证据,否则给出BP4证据;
当对变异进行保守性预测、进化预测、剪接位点预测后,判断变异对基因或基因产物会造成有害影响,则给出PP3证据,否则给出BP4证据;可以通过软件进行上述预测。从dbNSFP数据库获取BayesDel、MutPred2、REVEL、VEST四款软件的评分,选取其中评级最高的证据,作为PP3、BP4证据。
BP7:若变异为同义变异且不影响剪接位点,给出BP7证据。
若变异为同义变异且不影响剪接位点,则可以给出BP7证据。对于同义变异和非编码区变异,可以使用SpliceAI和SQUIRLS两款软件评判PP3、BP7证据。这两款软件能预测变异对RNA剪接的影响,当SpliceAI评分大于0.2,且SQUIRLS预测为“致病”时给出PP3证据,对于同义突变SpliceAI小于0.1且SQUIRLS预测为“中性”是,给出BP7证据。
在步骤S15中,需要说明的是,根据全部的变异评级证据,利用预设算法进行致病性计算,得到遗传变异评级结果,包括:
利用计数法得到遗传变异评级结果:统计变异评级证据的个数,根据ACMG-AMP指南对变异评级证据的组合标准,将变异分为致病(P)、疑似致病(LP)、意义未明(VUS)、疑似良性(LB)、良性(B)五种致病性评级类型,从而得到遗传变异评级结果。
需要说明的是,所述的方法,还包括:
对于计数法得到遗传变异评级结果为意义未明的变异,计算该变异致病性评级类型达到致病或疑似致病所缺失的变异评级证据,并输出。
在具体实践中,为了帮助研究者解决意义未明(VUS)的变异解读。对于计数法评级结果为意义未明(VUS)的变异,计算该变异致病性评级达到致病(P)或疑似致病(LP)所缺失的证据类型。对于只差一个PP或者PM证据就能达到P或LP的变异,输出缺失证据。可以理解的是,这份缺失证据清单能指导研究者下一步收集怎样的证据,助力于明确该位点的致病性。
在步骤S16中,需要说明的是,根据全部的变异评级证据,利用预设算法进行致病性计算,得到遗传变异评级结果,包括:
利用贝叶斯法得到遗传变异评级结果:
根据全部的变异评级证据,计算几率路径,公式如下:
其中,Ni表示变异评级证据的数目,i表示各变异评级证据的类型,OP表示几率路径;
根据得到的几率路径和预设的先验概率,计算后验概率,公式如下:
其中,p表示预设的先验概率,优选的,可以预设p=0.1,Post_P表示所述后验概率;
根据所述后验概率,划分变异致病性评级类别。
在具体实践中,在原始ACMG-AMP指南中没有BM等级,依据SVI的最新推荐BP4和BS3可能升降级为BP4_Moderate或者BS3_Moderate,因此可以增加BM的计数。
后验概率Post_P处于[0.99,1)变异评级为致病(P),[0.9,0.99)之间为疑似致病(LP),[0.7,0.9)为意义未明偏向致病(VUS_P),[0.10,0.70)为意义未明(VUS),[0.001,0.1)为疑似良性(LB),(0,0.001)为良性(B)。
实施例二
提供一种遗传变异自动化解读设备,包括:
主控器,及与所述主控器相连的存储器;
所述存储器,其中存储有程序指令;
所述主控器用于执行存储器中存储的程序指令,执行上述任一项所述的方法。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种遗传变异自动化解读方法,其特征在于,包括:
预先建立包含与各个变异位点相关的病例信息、功能信息和人群信息的数据库;
获取包含变异位点的待测基因组序列变化信息;
根据所述变异位点相关的所述病例信息、所述功能信息和所述人群信息分别进行病例信息评判、功能信息评判和人群信息评判,分别得到相应的变异评级证据;
根据所述变异位点的变异类型,进行计算预测信息评判,得到相应的变异评级证据;
根据全部的变异评级证据,利用预设算法进行致病性计算,得到遗传变异评级结果。
2.根据权利要求1所述的方法,其特征在于,根据所述变异位点相关的所述病例信息进行病例信息评判,得到相应的变异评级证据,包括:
根据所述病例信息判断出若病人表型与变异位点导致的疾病相似度大于预设相似度阈值,则给出PP4证据;
根据所述病例信息判断出若变异位点为新发变异,且未经父母样本验证,则给出变异评级证据中的PM6证据,若变异位点为新发变异,且经过父母样本验证,则给出PS2证据;
根据所述病例信息判断出若变异位点为显性遗传基因,则根据报道既往病例数目给出PS4相关证据。
3.根据权利要求1所述的方法,其特征在于,根据所述变异位点相关的所述功能信息进行功能信息评判,得到相应的变异评级证据,包括:
根据所述功能信息判断出若所述变异位点的变异对蛋白质结构和功能有影响,则给出PS3证据。
4.根据权利要求1所述的方法,其特征在于,根据所述变异位点相关的所述人群信息进行人群信息评判,得到相应的变异评级证据,包括:
根据所述人群信息创建高频变异位点的基因的白名单,判断出若变异位点的基因在所述白名单之外且在数据库中的过滤等位基因频率大于预设阈值时,给出BA1证据;
判断出若变异位点的基因在所述白名单之外且在数据库中的过滤等位基因频率大于特定频率阈值时,给出BS1证据;
根据所述人群信息,判断出若变异位点为显性致病基因且在正常人群中未发现时,给出PM2_Supporting证据;判断出若变异位点为隐性致病基因且在正常人群中检出数量小于特定数量阈值时,给出PM2_Surpporting证据;
根据所述人群信息,判断出若变异位点为显性遗传基因且在正常人群的携带数目大于2时,给出BS2证据;判断出若变异位点为隐性遗传基因且在正常人群中存在纯合子情况,给出BS2证据。
5.根据权利要求1所述的方法,其特征在于,根据所述变异位点的变异类型,进行计算预测信息评判,得到相应的变异评级证据,包括:
若所述变异位点的变异类型为无功能变异,给出PVS1证据;
获取基因组的重复区域,对于所述变异位点的变异类型为框内插入缺失变异,判断出若重复区域以外的插入缺失变异或终止密码子丧失导致蛋白质长度改变,给出PM4证据;若为功能未知区域的框内插入缺失变异,给出BP3证据;
若所述变异位点的变异类型为错义变异或框内插入缺失变异,判断出若变异位点位于基因热点突变区域,给出PM1证据;
若所述变异位点的变异类型为错义变异且是基因的致病变异类型,给出PP2证据;
统计所述数据库病例信息中报道的致病变异,若其中的截短变异大于90%,则对于该基因中检测到的错义变异,给出BP1证据;
当错义变异与已知致病变异导致相同的氨基酸改变时,给出PS1证据;
当错义变异与已知致病变异导致的氨基酸改变不同,但都位于同一个氨基酸时,给出PM5证据;
判断出若错义变异对基因或基因产物会造成有害影响,则给出PP3证据,否则给出BP4证据;
若变异为同义变异且不影响剪接位点,给出BP7证据。
6.根据权利要求1所述的方法,其特征在于,根据全部的变异评级证据,利用预设算法进行致病性计算,得到遗传变异评级结果,包括:
利用计数法得到遗传变异评级结果:统计变异评级证据的个数,根据ACMG-AMP指南对变异评级证据的组合标准,将变异分为致病、疑似致病、意义未明、疑似良性、良性五种致病性评级类型,从而得到遗传变异评级结果。
7.根据权利要求6所述的方法,其特征在于,还包括:
对于计数法得到遗传变异评级结果为意义未明的变异,计算该变异致病性评级类型达到致病或疑似致病所缺失的变异评级证据,并输出。
8.根据权利要求1所述的方法,其特征在于,根据全部的变异评级证据,利用预设算法进行致病性计算,得到遗传变异评级结果,包括:
利用贝叶斯法得到遗传变异评级结果:
根据全部的变异评级证据,计算几率路径,公式如下:
其中,Ni表示变异评级证据的数目,i表示各变异评级证据的类型,OP表示几率路径;
根据得到的几率路径和预设的先验概率,计算后验概率,公式如下:
其中,p表示预设的先验概率,Post_P表示所述后验概率;
根据所述后验概率,划分变异致病性评级类别。
9.根据权利要求1所述的方法,其特征在于,在获取包含变异位点的待测基因组序列变化信息之后,还包括:
分别对所述待测基因组序列变化信息中每个变异位点进行注释,注释内容为该变异位点的变异类型和所述数据库中该变异位点相关的所述病例信息、所述功能信息和所述人群信息。
10.一种遗传变异自动化解读设备,其特征在于,包括:
主控器,及与所述主控器相连的存储器;
所述存储器,其中存储有程序指令;
所述主控器用于执行存储器中存储的程序指令,执行如权利要求1~9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310520366.0A CN116564406A (zh) | 2023-05-09 | 2023-05-09 | 一种遗传变异自动化解读方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310520366.0A CN116564406A (zh) | 2023-05-09 | 2023-05-09 | 一种遗传变异自动化解读方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116564406A true CN116564406A (zh) | 2023-08-08 |
Family
ID=87501250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310520366.0A Pending CN116564406A (zh) | 2023-05-09 | 2023-05-09 | 一种遗传变异自动化解读方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116564406A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117373696A (zh) * | 2023-12-08 | 2024-01-09 | 神州医疗科技股份有限公司 | 一种基于文献证据库的遗传病自动解读系统及方法 |
-
2023
- 2023-05-09 CN CN202310520366.0A patent/CN116564406A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117373696A (zh) * | 2023-12-08 | 2024-01-09 | 神州医疗科技股份有限公司 | 一种基于文献证据库的遗传病自动解读系统及方法 |
CN117373696B (zh) * | 2023-12-08 | 2024-03-01 | 神州医疗科技股份有限公司 | 一种基于文献证据库的遗传病自动解读系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086571B (zh) | 一种单基因病遗传变异智能解读及报告的方法和系统 | |
Zook et al. | A robust benchmark for germline structural variant detection | |
US10354747B1 (en) | Deep learning analysis pipeline for next generation sequencing | |
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
CN109243530B (zh) | 遗传变异判定方法、系统以及存储介质 | |
CN110957006B (zh) | 一种brca1/2基因变异的解读方法 | |
KR101460520B1 (ko) | 차세대 시퀀싱 데이터의 질병변이마커 검출 방법 | |
CN112802548A (zh) | 单样本全基因组预测等位基因特异性拷贝数变异的方法 | |
CN110021346B (zh) | 基于RNAseq数据的基因融合与突变检测方法及系统 | |
CN109686439A (zh) | 遗传病基因检测的数据分析方法、系统及存储介质 | |
CN105930690A (zh) | 一种全外显子组测序数据分析方法 | |
CN111139291A (zh) | 一种单基因遗传性疾病高通量测序分析方法 | |
CN116564406A (zh) | 一种遗传变异自动化解读方法及设备 | |
CN115052994A (zh) | 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用 | |
CN112746097A (zh) | 一种检测样本交叉污染的方法以及预测交叉污染源的方法 | |
CN111816253A (zh) | 一种基因检测解读方法及装置 | |
WO2021248695A1 (zh) | 基于临床特征和序列变异的单基因病名称推荐方法及系统 | |
CN110648722B (zh) | 新生儿遗传病患病风险评估的装置 | |
KR20150024232A (ko) | 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법 | |
US20240029827A1 (en) | Method for determining the pathogenicity/benignity of a genomic variant in connection with a given disease | |
CN115798579B (zh) | 一种遗传变异的证据判定方法、系统、装置及介质 | |
CN110211632A (zh) | 一种基于神经网络的核苷酸单位点变异检测方法 | |
KR20140099189A (ko) | 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치 | |
Pratella et al. | GenomeMixer and TRUST: Novel bioinformatics tools to improve reliability of Non-Invasive Prenatal Testing (NIPT) for fetal aneuploidies | |
CN117230175B (zh) | 一种基于三代测序的胚胎植入前遗传学检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |