CN117373696B - 一种基于文献证据库的遗传病自动解读系统及方法 - Google Patents
一种基于文献证据库的遗传病自动解读系统及方法 Download PDFInfo
- Publication number
- CN117373696B CN117373696B CN202311676262.5A CN202311676262A CN117373696B CN 117373696 B CN117373696 B CN 117373696B CN 202311676262 A CN202311676262 A CN 202311676262A CN 117373696 B CN117373696 B CN 117373696B
- Authority
- CN
- China
- Prior art keywords
- mutation
- file
- interpretation
- data
- phenotype
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 208000026350 Inborn Genetic disease Diseases 0.000 title claims abstract description 42
- 208000016361 genetic disease Diseases 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000035772 mutation Effects 0.000 claims abstract description 279
- 230000007918 pathogenicity Effects 0.000 claims abstract description 105
- 238000004458 analytical method Methods 0.000 claims abstract description 30
- 238000003860 storage Methods 0.000 claims abstract description 14
- 238000012216 screening Methods 0.000 claims description 92
- 238000012163 sequencing technique Methods 0.000 claims description 83
- 108700028369 Alleles Proteins 0.000 claims description 65
- 206010064571 Gene mutation Diseases 0.000 claims description 46
- 230000001717 pathogenic effect Effects 0.000 claims description 21
- 108090000623 proteins and genes Proteins 0.000 claims description 19
- 201000010099 disease Diseases 0.000 claims description 17
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 17
- 208000024891 symptom Diseases 0.000 claims description 16
- 239000002585 base Substances 0.000 claims description 15
- 238000003058 natural language processing Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 7
- 239000003513 alkali Substances 0.000 claims description 6
- 230000008676 import Effects 0.000 claims description 5
- 230000002068 genetic effect Effects 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 238000002864 sequence alignment Methods 0.000 description 5
- 230000037433 frameshift Effects 0.000 description 4
- 108091026890 Coding region Proteins 0.000 description 3
- 102100031880 Helicase SRCAP Human genes 0.000 description 3
- 101000704158 Homo sapiens Helicase SRCAP Proteins 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 208000011580 syndromic disease Diseases 0.000 description 3
- 208000020221 Short stature Diseases 0.000 description 2
- 108091081024 Start codon Proteins 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 208000007502 anemia Diseases 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000008140 language development Effects 0.000 description 2
- 230000003340 mental effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 102100029791 Double-stranded RNA-specific adenosine deaminase Human genes 0.000 description 1
- 101000987359 Frankia alni (strain ACN14a) Pantothenate synthetase 4 Proteins 0.000 description 1
- 108010051696 Growth Hormone Proteins 0.000 description 1
- 101000865408 Homo sapiens Double-stranded RNA-specific adenosine deaminase Proteins 0.000 description 1
- 108020004485 Nonsense Codon Proteins 0.000 description 1
- 208000035977 Rare disease Diseases 0.000 description 1
- 101150045486 SRCAP gene Proteins 0.000 description 1
- 101100484967 Solanum tuberosum PVS1 gene Proteins 0.000 description 1
- 102100038803 Somatotropin Human genes 0.000 description 1
- 206010044613 Trichomegaly Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 208000019737 familial isolated trichomegaly Diseases 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 239000000122 growth hormone Substances 0.000 description 1
- 210000002411 hand bone Anatomy 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 230000037434 nonsense mutation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011164 ossification Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000001685 thyroid gland Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/60—ICT specially adapted for the handling or processing of medical references relating to pathologies
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Primary Health Care (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Epidemiology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Data Mining & Analysis (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Biomedical Technology (AREA)
Abstract
本发明公开了一种基于文献证据库的遗传病自动解读系统及方法,系统由数据上传模块、变异初筛模块、表型匹配模块和变异致病性判读模块共同集成,所述系统预置有文献证据存储库,本系统提供人工阅读文献证据项的直接来源,无需遗传解读人员逐一去查找对应文献,可直接获取该位点对应的来源于文献的证据项,证据项均根据ClinGen指南框架进行打分升降级的评定,降低人工参与位点致病性评级的程度,为遗传病报告出具提出一种简便、快速的分析方法,有利于位点评级的标准化与系统化,降低遗传解读人员的工作强度。
Description
技术领域
本发明涉及医学数据处理技术领域,特别是涉及一种基于文献证据库的遗传病自动解读系统及方法。
背景技术
在网络和智能化设备发展的几十年间,虽然研发出了遗传病基因组测序分析和解读系统,在基因组和表型数据的广泛采用的标准化格式和命名和优先过滤和查找变异等方面取得进展,但这样的系统由于过去复杂和缺乏遗传咨询师和临床遗传专科科室,一般医生未有具体培训,面对遗传病,往往束手无策,无法利用其识别出许多新型遗传病,对遗传病正确快速诊断构成了重点挑战;
并且,因二代测序产生的变异多,遗传分析环节涉及较多的人工判断,需要大量的遗传咨询师人工完成,耗时耗力,且国内遗传咨询师的队伍建设未成体系,遗传咨询很容易出现错误,误导患者、影响诊治。目前对于判断位点致病性的证据有一些可以进行自动化分析(如人群频率、软件预测等),而有些只能通过人工阅读文献获取,一些辅助解读软件可自动在ACMG指南框架下对变异进行致病性判断(如InterVar),但均需要人工进行校正,才可获取足够的证据项,得到准确的结论。
综上所述,建立一种基于文献证据库的遗传病自动解读系统,显得尤为重要。
发明内容
针对上述现有技术的不足,本申请提供一种基于文献证据库的遗传病自动解读系统及方法。
第一方面本申请提出了一种基于文献证据库的遗传病自动解读系统,所述系统由数据上传模块、变异初筛模块、表型匹配模块和变异致病性判读模块共同集成,所述系统预置有文献证据存储库;
所述数据上传模块,用于获取由目标患者基因数据进行二代测序后的测序下机数据,对所述测序下机数据进行数据导入、序列比对和变异检测后得到初始突变位点,对所述初始突变位点进行变异注释后得到第一解读文件;
所述变异初筛模块,用于接收所述第一解读文件,根据等位基因频率从所述第一解读文件的初始突变位点中筛选出待筛突变位点,通过预设的突变类型对所述待筛突变位点进行二次筛选,通过测序深度和变异碱基型的比例进行三次筛选,根据筛选结果得到第二解读文件;
所述表型匹配模块,用于将所述第二解读文件输入内置的表型匹配软件中,通过所述表型匹配软件进行表型词条匹配,根据表型词条匹配的结果进行变异相关性排序,得到第三解读文件;
所述变异致病性判读模块,用于获取所述第三解读文件,将所述第三解读文件和所述文献证据数据库进行结合分析,分析出表型符合的目标致病性基因突变,根据所述目标致病性基因突变生成完整性遗传病报告;
所述文献证据存储库,用于结合Clingen框架进行证据文件的获取,根据获取的证据文件配合所述变异致病性判读模块进行目标致病性基因突变分析。
在一些实施例中,所述数据上传模块包括原始数据导入单元、序列比对单元、格式转换单元和注释单元;
所述原始数据导入单元,用于获取由目标患者基因数据进行二代测序后的测序下机数据,并选择所述测序下机数据的原始测序数据进行导入;
所述序列比对单元,用于将导入的所述原始测序数据与人类参考基因组进行序列比对,得到bam文件;
所述格式转换单元,用于通过GATK和/或Samtools工具从输入的所述bam文件中获取初始突变位点,同时将所述bam文件转换为vcf格式文件;
所述注释单元,用于对所述vcf格式文件添加注释信息,得到第一解读文件。
在一些实施例中,所述变异初筛模块包括第一位点筛选单元、第二位点筛选单元、第三位点筛选单元和第二解读文件获取单元;
所述第一位点筛选单元,用于从所述第一解读文件的初始突变位点中筛选出第一等位基因频率、第二等位基因频率和第三等位基因频率均小于等于百分之1的待筛突变位点,得到突变位点A文件,所述第一等位基因频率表示ExAC数据库中的等位基因频率,所述第二等位基因频率表示gnomAD数据库中的等位基因频率,所述第三等位基因频率表示千人基因组计划数据中的等位基因频率;
所述第二位点筛选单元,用于在突变位点A文件中对突变类型进行筛选,获得突变位点B文件;
所述第三位点筛选单元,用于在突变位点B文件中筛选出测序深度大于等于5且变异碱基型的比例大于0.2的突变位点,获得突变位点C文件;
所述第二解读文件获取单元,用于将突变位点C文件中的突变位点作为可疑突变位点,获得第二解读文件。
在一些实施例中,所述表型匹配模块包括文件导入单元、辅助数据输入单元、表型词条匹配单元和变异相关性排序单元;
所述文件导入单元,用于接收所述第二解读文件获取单元中的第二解读文件,将所述第二解读文件输入表型匹配软件;
所述辅助数据输入单元,用于输入目标患者的临床资料数据和主要临床症状描述数据;
所述表型词条匹配单元,用于从临床资料数据和主要临床症状描述数据中提取疾病表型,根据自然语言处理算法对所述疾病表型进行智能化表型词条匹配;
所述变异相关性排序单元,用于根据第二解读文件的可疑突变位点和临床表型的关联度进行变异相关性排序,根据变异相关性排序结果得到第三解读文件。
在一些实施例中,所述变异致病性判读模块包括文献证据获取单元、证据总结单元、致病分类单元、目标致病性基因突变分析单元和遗传病报告生成单元;
所述文献证据获取单元,用于通过自动化分析流程对ACMG解读指南的部分非文献获取的证据项进行自动化提取,同时结合所述文献证据库对需要阅读的文献的证据项进行自动化提取;
所述证据总结单元,用于根据文献证据获取单元提取的证据项获得每个突变位点的致病性证据总结;
所述致病分类单元,用于根据所述致病性证据总结获得每个突变位点的致病分类,得到变异致病性判读结果。
所述目标致病性基因突变分析单元,用于结合变异相关性排序结果和所述变异致病性判读结果,分析出表型符合的目标致病性基因突变;
所述遗传病报告生成单元,用于根据所述目标致病性基因突变生成完整性遗传病报告。
第二方面本申请提出一种基于文献证据库的遗传病自动解读方法,包括以下步骤:
获取由目标患者基因数据进行二代测序后的测序下机数据,对所述测序下机数据进行数据导入、序列比对和变异检测后得到初始突变位点,对所述初始突变位点进行变异注释后得到第一解读文件;
接收所述第一解读文件,根据等位基因频率从所述第一解读文件的初始突变位点中筛选出待筛突变位点,通过预设的突变类型对所述待筛突变位点进行二次筛选,通过测序深度和变异碱基型的比例进行三次筛选,根据筛选结果得到第二解读文件;
将所述第二解读文件输入内置的表型匹配软件中,通过所述表型匹配软件进行表型词条匹配,根据表型词条匹配的结果进行变异相关性排序,得到第三解读文件;
获取所述第三解读文件,将所述第三解读文件和文献证据数据库进行结合分析,分析出表型符合的目标致病性基因突变,根据所述目标致病性基因突变生成完整性遗传病报告。
在一些实施例中,所述获取由目标患者基因数据进行二代测序后的测序下机数据,对所述测序下机数据进行数据导入、序列比对和变异检测后得到初始突变位点,对所述初始突变位点进行变异注释后得到第一解读文件,包括:
获取由目标患者基因数据进行二代测序后的测序下机数据,并选择所述测序下机数据的原始测序数据进行导入;
将导入的所述原始测序数据与人类参考基因组进行序列比对,得到bam文件;
通过GATK和/或Samtools工具从输入的所述bam文件中获取初始突变位点,同时将所述bam文件转换为vcf格式文件;
对所述vcf格式文件添加注释信息,得到第一解读文件。
在一些实施例中,所述接收所述第一解读文件,根据等位基因频率从所述第一解读文件的初始突变位点中筛选出待筛突变位点,通过预设的突变类型对所述待筛突变位点进行二次筛选,通过测序深度和变异碱基型的比例进行三次筛选,根据筛选结果得到第二解读文件,包括:
从所述第一解读文件的初始突变位点中筛选出第一等位基因频率和第二等位基因频率均小于等于百分之1的待筛突变位点,得到突变位点A文件,所述第一等位基因频率表示gnomAD数据库中的等位基因频率,所述第二等位基因频率表示千人基因组计划数据中的等位基因频率;
在突变位点A文件中对突变类型进行筛选,获得突变位点B文件;
在突变位点A文件中筛选出测序深度大于等于5且变异碱基型的比例大于0.2的突变位点,获得突变位点C文件;
将突变位点c文件中的突变位点作为可疑突变位点,获得第二解读文件。
在一些实施例中,所述将所述第二解读文件输入内置的表型匹配软件中,通过所述表型匹配软件进行表型词条匹配,根据表型词条匹配的结果进行变异相关性排序,得到第三解读文件,包括
接收所述第二解读文件,将所述第二解读文件输入表型匹配软件;
输入目标患者的临床资料数据和主要临床症状描述数据;
从临床资料数据和主要临床症状描述数据中提取疾病表型,根据自然语言处理算法对所述疾病表型进行智能化表型词条匹配;
根据第二解读文件的可疑突变位点和临床表型的关联度进行变异相关性排序,根据变异相关性排序结果得到第三解读文件。
在一些实施例中,所述获取所述第三解读文件,将所述第三解读文件和文献证据数据库进行结合分析,分析出表型符合的目标致病性基因突变,根据所述目标致病性基因突变生成完整性遗传病报告,包括:
通过自动化分析流程对ACMG解读指南的部分非文献获取的证据项进行自动化提取,同时结合所述文献证据库对需要阅读的文献的证据项进行自动化提取;
根据自动化提取的证据项获得每个突变位点的致病性证据总结;
根据所述致病性证据总结获得每个突变位点的致病分类,得到变异致病性判读结果。
结合变异相关性排序结果和所述变异致病性判读结果,分析出表型符合的目标致病性基因突变;
根据所述目标致病性基因突变生成完整性遗传病报告。
本发明的有益效果:
提供人工阅读文献证据项的直接来源,无需遗传解读人员逐一去查找对应文献,可直接获取该位点对应的来源于文献的证据项,证据项均根据ClinGen指南框架进行打分升降级的评定,降低人工参与位点致病性评级的程度,为遗传病报告出具提出一种简便、快速的分析方法,有利于位点评级的标准化与系统化,降低遗传解读人员的工作强度。
附图说明
图1为本发明的系统原理框图。
图2为本发明的总体流程图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制;相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
第一方面本申请提出了一种基于文献证据库的遗传病自动解读系统,如图1所示,所述系统由数据上传模块、变异初筛模块、表型匹配模块和变异致病性判读模块共同集成,所述系统预置有文献证据存储库;
所述数据上传模块,用于获取由目标患者基因数据进行二代测序后的测序下机数据,对所述测序下机数据进行数据导入、序列比对和变异检测后得到初始突变位点,对所述初始突变位点进行变异注释后得到第一解读文件;
在一些实施例中,所述数据上传模块包括原始数据导入单元、序列比对单元、格式转换单元和注释单元;
所述原始数据导入单元,用于获取由目标患者基因数据进行二代测序后的测序下机数据,并选择所述测序下机数据的原始测序数据进行导入;
所述序列比对单元,用于将导入的所述原始测序数据与人类参考基因组进行序列比对,得到bam文件;
所述格式转换单元,用于通过GATK和/或Samtools工具从输入的所述bam文件中获取初始突变位点,同时将所述bam文件转换为vcf格式文件;
所述注释单元,用于对所述vcf格式文件添加注释信息,得到第一解读文件。
其中,GATK是由Broad Institute 开发的一套发现多样性位点的工具集;
Samtools是一组实用程序,用于操作SAM(序列比对/映射)、BAM和CRAM 格式的比对。它在格式之间进行转换,进行排序、合并和索引,并且可以快速检索任何区域中的读取。
所述变异初筛模块,用于接收所述第一解读文件,根据等位基因频率从所述第一解读文件的初始突变位点中筛选出待筛突变位点,通过预设的突变类型对所述待筛突变位点进行二次筛选,通过测序深度和变异碱基型的比例进行三次筛选,根据筛选结果得到第二解读文件;
在一些实施例中,所述变异初筛模块包括第一位点筛选单元、第二位点筛选单元、第三位点筛选单元和第二解读文件获取单元;
所述第一位点筛选单元,用于从所述第一解读文件的初始突变位点中筛选出第一等位基因频率、第二等位基因频率和第三等位基因频率均小于等于百分之1的待筛突变位点,得到突变位点A文件,所述第一等位基因频率表示ExAC数据库中的等位基因频率,所述第二等位基因频率表示gnomAD数据库中的等位基因频率,所述第三等位基因频率表示千人基因组计划数据中的等位基因频率;
所述第二位点筛选单元,用于在突变位点A文件中对突变类型进行筛选,获得突变位点B文件;
所述第三位点筛选单元,用于在突变位点B文件中筛选出测序深度大于等于5且变异碱基型的比例大于0.2的突变位点,获得突变位点C文件;
所述第二解读文件获取单元,用于将突变位点C文件中的突变位点作为可疑突变位点,获得第二解读文件。
其中,二代测序会发现大量的变异。这些变异中的大部分是良性多态或与疾病无直接关联的变异,可结合疾病的发病率与待解读变异在正常对照人群中的频率、变异所引起的功能改变等参数过滤掉注释数据中的疑似良性/良性变异。基于上述目的,需要进行变异初筛,变异初筛模块的具体筛选执行过程如下:
通过第一位点筛选单元筛选符合人群频率的突变位点:筛选EXACAF≤1%、gnomAD_exome_ALL_AF≤1%、TGPAF≤1%的突变,获得突变位点A文件;
其中,第一等位基因频率,EXACAF表示:ExAC数据库中,该变异位点上突变碱基的等位基因频率,ExAC全名为ExomeAggregation Consortium(外显子组整合数据库);
第二等位基因频率gnomAD_exome_ALL_AF表示:gnomAD数据库(基因组聚合数据库)所有人群中,该变异位点上突变碱基的等位基因频率;
第三等位基因频率TGPAF表示:千人基因组计划数据的所有人群中,该变异位点上突变碱基的等位基因频率;
通过第二位点筛选单元,在突变位点a文件中,对突变类型进行筛选,保留突变类型为init-loss、stop-loss、stop-gain、cds-del、cds-ins、cds-indel、frameshift、missense、nonsense等的突变,获得突变位点B文件;
其中,init-loss表示:该变异导致起始密码子变为非起始密码子;
stop-loss表示:终止缺失;
stop-gain表示:提前终止;
cds-del表示:编码区缺失;
cds-ins表示:编码区插入;
cds-indel表示:编码区缺失或插入;
Frameshift表示: 移码突变;
Missense表示: 错义突变;
Nonsense表示: 无义突变;
通过第三位点筛选单元,在突变B文件中,筛选DP≥5,Aratio≥0.2的位点,获得突变位点C文件;
其中,DP表示:该位点的测序深度,ARatio表示:该位点变异碱基型的比例;
最后,通过第二解读文件获取单元,4. 将突变位点C文件作为可疑突变,将获得的VCF文件进行下一步的解读,得到第二解读文件。
所述表型匹配模块,用于将所述第二解读文件输入内置的表型匹配软件中,通过所述表型匹配软件进行表型词条匹配,根据表型词条匹配的结果进行变异相关性排序,得到第三解读文件;
在一些实施例中,所述表型匹配模块包括文件导入单元、辅助数据输入单元、表型词条匹配单元和变异相关性排序单元;
所述文件导入单元,用于接收所述第二解读文件获取单元中的第二解读文件,将所述第二解读文件输入表型匹配软件;
所述辅助数据输入单元,用于输入目标患者的临床资料数据和主要临床症状描述数据;
所述表型词条匹配单元,用于从临床资料数据和主要临床症状描述数据中提取疾病表型,根据自然语言处理算法对所述疾病表型进行智能化表型词条匹配;
所述变异相关性排序单元,用于根据第二解读文件的可疑突变位点和临床表型的关联度进行变异相关性排序,根据变异相关性排序结果得到第三解读文件。
其中,在表型匹配环节,需将患者的表型与检测到的变异基因所致疾病的表型进行比对分析,因此需借助数据库和文献检索来完成,可借助自动化的表型匹配软件来提高效率。目前有多种软件可流程化实现表型匹配和关联,常用的表型匹配软件包括Phenolyzer、Exomiser、Xrare及商业软件TGex等。
基于海量实际临床病例和人工解读结果开发智能算法,自主开发的表型匹配软件能够根据患者的表型,可实现检出变异按临床表型相关度自动排序,关联度高者排序靠前,优先解读,表型匹配模块具体执行流程如下:
通过文件导入单元,将上述变异初筛步骤获得的VCF文件(第二解读文件)输入表型匹配软件。
通过辅助数据输入单元,在系统中填写临床资料和主要临床症状描述。
通过表型词条匹配单元,在系统根据临床给出的疾病表型根据自然语言处理算法进行智能化表型词条匹配,通过非限定性输入习惯智能关联标准化表型,临床输入的表型可完全匹配也可模糊匹配标准HPO词条;
例如:
a. 临床输入的HPO词条可完全匹配:例如临床输入"贫血",系统自动匹配HPO词条"HP:0001903 贫血"
b. 临床输入的非HPO词条可模糊匹配: 例如临床输入"容易跌倒/经常摔跤/走路容易摔倒",系统通过模糊匹配HPO词条" HP:0002359 频繁跌倒"。
通过变异相关性排序单元根据各种变异与临床表型的关联度进行排序。将获得的结果文件进行下一步的解读,变异相关性排序如表1所示,表1为变异相关性排序表;
表1
所述变异致病性判读模块,用于获取所述第三解读文件,将所述第三解读文件和所述文献证据数据库进行结合分析,分析出表型符合的目标致病性基因突变,根据所述目标致病性基因突变生成完整性遗传病报告;
在一些实施例中,所述变异致病性判读模块包括文献证据获取单元、证据总结单元、致病分类单元、目标致病性基因突变分析单元和遗传病报告生成单元;
所述文献证据获取单元,用于通过自动化分析流程对ACMG解读指南的部分非文献获取的证据项进行自动化提取,同时结合所述文献证据库对需要阅读的文献的证据项进行自动化提取;
所述证据总结单元,用于根据文献证据获取单元提取的证据项获得每个突变位点的致病性证据总结;
所述致病分类单元,用于根据所述致病性证据总结获得每个突变位点的致病分类,得到变异致病性判读结果。
所述目标致病性基因突变分析单元,用于结合变异相关性排序结果和所述变异致病性判读结果,分析出表型符合的目标致病性基因突变;
所述遗传病报告生成单元,用于根据所述目标致病性基因突变生成完整性遗传病报告。
其中,基于变异初筛、表型匹配、变异相关性排序后获得的解读文件,在此基础上进行各位点变异致病性判读,在变异致病性判断环节,判断位点致病性的证据有一些可以进行自动化分析(如人群频率、软件预测等),部分辅助解读软件可自动在ACMG指南框架下对变异进行致病性判断,常用的辅助解读软件包括VarSome、InterVar等。而有些只能通过阅读文献或验证实验获取。
在此基础上我们建立了基于Clingen解读框架的文献证据存储库,可自动对文献相关证据进行自动化出具。
所述文献证据存储库,用于结合Clingen框架进行证据文件的获取,根据获取的证据文件配合所述变异致病性判读模块进行目标致病性基因突变分析。
其中,文献证据存储库为基于Clingen框架的证据项和对应的支持性证据摘要的数据存储库,Clingen框架是ClinGen序列变异解释(Sequence Variant Interpretation,SVI) 专家组对2015年ACMG指南中一些分类标准提出的更为细节的指导和建议,文献证据存储库是自动化解读分析的核心,其具体的内容包括每个相关证据所涉及的文献摘要,文献 ID以及最终根据所有文献汇总得到的该证据累积得分,最终可获得对该证据进行升降级的最终评级结果。
进一步的,变异致病性判读模块的具体执行流程为:
通过文献证据获取单元结合自主研发的自动化分析流程(如人群频率、软件预测等)对ACMG解读指南的部分非文献获取的证据项进行自动化提取。例如PVS1,PS1,PM1,PM2,PM4,PM5,PP2,PP3 等证据项,同时结合文献证据库对其他需要阅读文献获取的证据包括PS2/PM6,PS3,PS4,PM3,PP1等从文献证据库进行自动化获取,上述证据项的具体含义是基于ACMG指南,ACMG指南是美国遗传学与基因组医学委员会(ACMG)于2015年推出的一个标准化分类系统,用于对各种类型的遗传变异(突变)进行分类和解释。
通过证据总结单元对上述证据项进行总结,从而获得每个突变位点的致病性证据总结;
通过致病分类单元根据致病性证据总结获得每个突变位点的致病分类;
通过目标致病性基因突变分析单元结合变异相关性排序结果和所述变异致病性判读结果,分析出表型符合的目标致病性基因突变;
通过遗传病报告生成单元根据所述目标致病性基因突变生成完整性遗传病报告。
为了进一步说明文献证据库对变异解读的重要性,下面将结合具体的实施案例来进一步说明本申请的重要作用,本申请根据一例患者检测结果的解读过程进行阐述,内容包括以下几两个部分:临床资料数据、主要临床症状描述数据和变异解读过程。
临床资料数据和主要临床症状描述数据:
患儿,男性,6岁6个月,因“身材矮小,身高增长缓慢”就诊。
个人史:患儿系G1P1,足月顺产,产时无窒息,出生体重2800g,身长48cm。生长发育史无特殊。自幼即发现生长缓慢,未予特殊检查,近来身高比同龄儿童明显落后。家族史:父亲体健,身高163 cm,母亲体健,身高152 cm,否认父母近亲婚配,家庭其他成员均体健,否认矮小及类似病史。
体格检查:现患儿身高95 cm,坐高50 cm,体重为15.1kg,身高位于全国同年龄同性别正常儿童的P3以下。神志清,精神反应可。甲状腺功能正常,生长激素不缺乏。手骨龄片:腕骨骨化中心4个,骨龄不足3周岁。语言发育落后。特殊面容:三角脸,人中短,鼻头大,鼻孔大,上唇薄, 睫毛长,耳朵大。
患者做了家系全外显子基因检测。
变异致病性解读过程:
1. 经过变异初筛、表型匹配、变异相关性排序等步骤,基于表型相关性排序结果,发现与患儿表型匹配度比较高的目标致病性基因突变:NM_006662.2(SRCAP):c.7303C>T(p.Arg2435Ter) 杂合变异。在OMIM数据库中,SRCAP基因与Floating-Harbor综合征有关。父母该位点均为正常基因型,提示该变异可能为新发变异。下面以该位点为例,举例说明位点变异致病性判定过程。
2. 结合自主研发的自动化分析流程提取非文献证据项:该变异是在EXAC,ESP6500,gnomAD等数据库中正常对照人群中未发现的变异,可以给到PM2的证据。
3.根据文献证据存储库,基于Clingen关于ACMG指南的细解,对其他需要阅读文献获取的证据进行获取。该突变是新发突变,可自动化获得PS2升级为PS2_VeryStrong的证据项。根据先证者数量,可自动化获取PS4降级为PS4_Moderate的证据。
若没有文献证据库,则需要人工阅读文献,基于Clingen对PS2证据的细解,对PS2进行升降级的判定,若使用人工判定,流程如下:
(1)需要查找大量文献去查找观察到的新发变异的先证者数量。
通过查找文献在最少8例Floating-Harbor综合征患者中检出该新发突变(包括denovo with confirmed parental relationships and de novo with unconfirmedparental relationships),文献中的患者表型一致性 (Phenotypic consistency) 都是Phenotype highly specific for gene(基因高度特异性表型),根据Sequence VariantInterpretation Working Group(序列变异解释工作组)给出的关于PS2的评分标准,见表3,PS2证据总分远大于4分,PS2可升级为PS2_VeryStrong的证据项,所查找的文献如下:
文献PMID: 22265015:1例de novo
文献PMID:23165645:1例 de novo
文献PMID:25433523:1例de novo
文献PMID: 26788936:1例 de novo
文献PMID: 31200758:4例 de novo患者
该患者:denovo
表2表示患者denovo的表型匹配评分表:
表2
表3表示PS2的评分标准表:
表3
其中,根据指南,对于罕见疾病,如果先前在多个不相关的受影响个体中发现了该变异,则可以将其作为PS4中等水平的证据。基于此,根据文献查找到的先证者数量,可以得到PS4_Moderate的证据。
语言发育迟缓、身材矮小、骨龄延迟、特殊面容特征等临床表型高度符合Floating-Harbor综合征的临床表型。可以给到PP4的证据。
基于以上的变异致病性判读流程,致病性证据包括:PS2_VeryStrong+PS4_Moderate+PM2+PP4。
根据致病性证据结果,最终判断该变异为致病性突变(Pathogenic)。
结合表型相关性排序结果和变异致病性判读结果,确定表型符合的目标致病性基因突变NM_006662.2(SRCAP):c.7303C>T (p.Arg2435Ter)。
最后根据目标突变生成完整性遗传病报告,解读结束。
其中,在该案例中,PS2_VeryStrong和PS4_Moderate这个两个证据是需要阅读文献获取的证据,根据我们的文献证据存储库,可以直接获取该证据,省去了阅读文献的冗杂过程。
各证据项的具体含义可参照ACMG指南和ClinGen Sequence VariantInterpretation Working Group(SVI WG)关于ACMG指南的细解。
第二方面本申请提出一种基于文献证据库的遗传病自动解读方法,如图2所示,包括步骤S100-S400:
S100:获取由目标患者基因数据进行二代测序后的测序下机数据,对所述测序下机数据进行数据导入、序列比对和变异检测后得到初始突变位点,对所述初始突变位点进行变异注释后得到第一解读文件;
在一些实施例中,所述获取由目标患者基因数据进行二代测序后的测序下机数据,对所述测序下机数据进行数据导入、序列比对和变异检测后得到初始突变位点,对所述初始突变位点进行变异注释后得到第一解读文件,包括:
获取由目标患者基因数据进行二代测序后的测序下机数据,并选择所述测序下机数据的原始测序数据进行导入;
将导入的所述原始测序数据与人类参考基因组进行序列比对,得到bam文件;
通过GATK和/或Samtools工具从输入的所述bam文件中获取初始突变位点,同时将所述bam文件转换为vcf格式文件;
对所述vcf格式文件添加注释信息,得到第一解读文件。
S200:接收所述第一解读文件,根据等位基因频率从所述第一解读文件的初始突变位点中筛选出待筛突变位点,通过预设的突变类型对所述待筛突变位点进行二次筛选,通过测序深度和变异碱基型的比例进行三次筛选,根据筛选结果得到第二解读文件;
在一些实施例中,所述接收所述第一解读文件,根据等位基因频率从所述第一解读文件的初始突变位点中筛选出待筛突变位点,通过预设的突变类型对所述待筛突变位点进行二次筛选,通过测序深度和变异碱基型的比例进行三次筛选,根据筛选结果得到第二解读文件,包括:
从所述第一解读文件的初始突变位点中筛选出第一等位基因频率和第二等位基因频率均小于等于百分之1的待筛突变位点,得到突变位点A文件,所述第一等位基因频率表示gnomAD数据库中的等位基因频率,所述第二等位基因频率表示千人基因组计划数据中的等位基因频率;
在突变位点A文件中对突变类型进行筛选,获得突变位点B文件;
在突变位点A文件中筛选出测序深度大于等于5且变异碱基型的比例大于0.2的突变位点,获得突变位点C文件;
将突变位点c文件中的突变位点作为可疑突变位点,获得第二解读文件。
其中,筛选符合人群频率的突变位点:筛选EXACAF≤1%、gnomAD_exome_ALL_AF≤1%、TGPAF≤1%的突变,获得突变位点A文件;
其中,第一等位基因频率,EXACAF表示:ExAC数据库中,该变异位点上突变碱基的等位基因频率,ExAC全名为ExomeAggregation Consortium(外显子组整合数据库);
第二等位基因频率gnomAD_exome_ALL_AF表示:gnomAD数据库(基因组聚合数据库)所有人群中,该变异位点上突变碱基的等位基因频率;
第三等位基因频率TGPAF表示:千人基因组计划数据的所有人群中,该变异位点上突变碱基的等位基因频率;
在突变位点a文件中,对突变类型进行筛选,保留突变类型为init-loss、stop-loss、stop-gain、cds-del、cds-ins、cds-indel、frameshift、missense、nonsense等的突变,获得突变位点B文件;
在突变B文件中,筛选DP≥5,Aratio≥0.2的位点,获得突变位点C文件;
S300:将所述第二解读文件输入内置的表型匹配软件中,通过所述表型匹配软件进行表型词条匹配,根据表型词条匹配的结果进行变异相关性排序,得到第三解读文件;
在一些实施例中,所述将所述第二解读文件输入内置的表型匹配软件中,通过所述表型匹配软件进行表型词条匹配,根据表型词条匹配的结果进行变异相关性排序,得到第三解读文件,包括
接收所述第二解读文件,将所述第二解读文件输入表型匹配软件;
输入目标患者的临床资料数据和主要临床症状描述数据;
从临床资料数据和主要临床症状描述数据中提取疾病表型,根据自然语言处理算法对所述疾病表型进行智能化表型词条匹配;
根据第二解读文件的可疑突变位点和临床表型的关联度进行变异相关性排序,根据变异相关性排序结果得到第三解读文件。
其中,将上述变异初筛步骤获得的VCF文件(第二解读文件)输入表型匹配软件。
在系统中填写临床资料和主要临床症状描述。
在系统根据临床给出的疾病表型根据自然语言处理算法进行智能化表型词条匹配,通过非限定性输入习惯智能关联标准化表型,临床输入的表型可完全匹配也可模糊匹配标准HPO词条;
S400:获取所述第三解读文件,将所述第三解读文件和文献证据数据库进行结合分析,分析出表型符合的目标致病性基因突变,根据所述目标致病性基因突变生成完整性遗传病报告。
在一些实施例中,所述获取所述第三解读文件,将所述第三解读文件和文献证据数据库进行结合分析,分析出表型符合的目标致病性基因突变,根据所述目标致病性基因突变生成完整性遗传病报告,包括:
通过自动化分析流程对ACMG解读指南的部分非文献获取的证据项进行自动化提取,同时结合所述文献证据库对需要阅读的文献的证据项进行自动化提取;
根据自动化提取的证据项获得每个突变位点的致病性证据总结;
根据所述致病性证据总结获得每个突变位点的致病分类,得到变异致病性判读结果。
结合变异相关性排序结果和所述变异致病性判读结果,分析出表型符合的目标致病性基因突变;
根据所述目标致病性基因突变生成完整性遗传病报告。
其中,基于变异初筛、表型匹配、变异相关性排序后获得的解读文件,在此基础上进行各位点变异致病性判读,在变异致病性判断环节,判断位点致病性的证据有一些可以进行自动化分析(如人群频率、软件预测等),部分辅助解读软件可自动在ACMG指南框架下对变异进行致病性判断,常用的辅助解读软件包括VarSome、InterVar等。而有些只能通过阅读文献或验证实验获取。
在此基础上我们建立了基于Clingen解读框架的文献证据存储库,可自动对文献相关证据进行自动化出具。
所述文献证据存储库,用于结合Clingen框架进行证据文件的获取,根据获取的证据文件配合所述变异致病性判读模块进行目标致病性基因突变分析。
进一步的,对上述证据项进行总结,从而获得每个突变位点的致病性证据总结;
根据致病性证据总结获得每个突变位点的致病分类;
结合变异相关性排序结果和所述变异致病性判读结果,分析出表型符合的目标致病性基因突变;
根据所述目标致病性基因突变生成完整性遗传病报告。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上仅是本发明优选的实施方式,需指出的是,对于本领域技术人员在不脱离本技术方案的前提下,作出的若干变形和改进的技术方案应同样视为落入本权利要求书要求保护的范围。
Claims (6)
1.一种基于文献证据库的遗传病自动解读系统,其特征在于:所述系统由数据上传模块、变异初筛模块、表型匹配模块和变异致病性判读模块共同集成,所述系统预置有文献证据存储库;
所述数据上传模块,用于获取由目标患者基因数据进行二代测序后的测序下机数据,对所述测序下机数据进行数据导入、序列比对和变异检测后得到初始突变位点,对所述初始突变位点进行变异注释后得到第一解读文件;
所述变异初筛模块,用于接收所述第一解读文件,根据等位基因频率从所述第一解读文件的初始突变位点中筛选出待筛突变位点,通过预设的突变类型对所述待筛突变位点进行二次筛选,通过测序深度和变异碱基型的比例进行三次筛选,根据筛选结果得到第二解读文件,所述变异初筛模块包括第一位点筛选单元、第二位点筛选单元、第三位点筛选单元和第二解读文件获取单元;
所述第一位点筛选单元,用于从所述第一解读文件的初始突变位点中筛选出第一等位基因频率、第二等位基因频率和第三等位基因频率均小于等于百分之1的待筛突变位点,得到突变位点A文件,所述第一等位基因频率表示ExAC数据库中的等位基因频率,所述第二等位基因频率表示gnomAD数据库中的等位基因频率,所述第三等位基因频率表示千人基因组计划数据中的等位基因频率;
所述第二位点筛选单元,用于在突变位点A文件中对突变类型进行筛选,获得突变位点B文件;
所述第三位点筛选单元,用于在突变位点B文件中筛选出测序深度大于等于5且变异碱基型的比例大于0.2的突变位点,获得突变位点C文件;
所述第二解读文件获取单元,用于将突变位点C文件中的突变位点作为可疑突变位点,获得第二解读文件;
所述表型匹配模块,用于将所述第二解读文件输入内置的表型匹配软件中,通过所述表型匹配软件进行表型词条匹配,根据表型词条匹配的结果进行变异相关性排序,得到第三解读文件;
所述变异致病性判读模块,用于获取所述第三解读文件,将所述第三解读文件和所述文献证据数据库进行结合分析,分析出表型符合的目标致病性基因突变,根据所述目标致病性基因突变生成完整性遗传病报告,其中,所述变异致病性判读模块包括文献证据获取单元、证据总结单元、致病分类单元、目标致病性基因突变分析单元和遗传病报告生成单元;
所述文献证据获取单元,用于通过自动化分析流程对ACMG解读指南的部分非文献获取的证据项进行自动化提取,同时结合所述文献证据库对需要阅读的文献的证据项进行自动化提取;
所述证据总结单元,用于根据文献证据获取单元提取的证据项获得每个突变位点的致病性证据总结;
所述致病分类单元,用于根据所述致病性证据总结获得每个突变位点的致病分类,得到变异致病性判读结果;
所述目标致病性基因突变分析单元,用于结合变异相关性排序结果和所述变异致病性判读结果,分析出表型符合的目标致病性基因突变;
所述遗传病报告生成单元,用于根据所述目标致病性基因突变生成完整性遗传病报告;
所述文献证据存储库,用于结合Clingen框架进行证据文件的获取,根据获取的证据文件配合所述变异致病性判读模块进行目标致病性基因突变分析。
2.根据权利要求1所述的系统,其特征在于:所述数据上传模块包括原始数据导入单元、序列比对单元、格式转换单元和注释单元;
所述原始数据导入单元,用于获取由目标患者基因数据进行二代测序后的测序下机数据,并选择所述测序下机数据的原始测序数据进行导入;
所述序列比对单元,用于将导入的所述原始测序数据与人类参考基因组进行序列比对,得到bam文件;
所述格式转换单元,用于通过GATK和/或Samtools工具从输入的所述bam文件中获取初始突变位点,同时将所述bam文件转换为vcf格式文件;
所述注释单元,用于对所述vcf格式文件添加注释信息,得到第一解读文件。
3.根据权利要求2所述的系统,其特征在于:所述表型匹配模块包括文件导入单元、辅助数据输入单元、表型词条匹配单元和变异相关性排序单元;
所述文件导入单元,用于接收所述第二解读文件获取单元中的第二解读文件,将所述第二解读文件输入表型匹配软件;
所述辅助数据输入单元,用于输入目标患者的临床资料数据和主要临床症状描述数据;
所述表型词条匹配单元,用于从临床资料数据和主要临床症状描述数据中提取疾病表型,根据自然语言处理算法对所述疾病表型进行智能化表型词条匹配;
所述变异相关性排序单元,用于根据第二解读文件的可疑突变位点和临床表型的关联度进行变异相关性排序,根据变异相关性排序结果得到第三解读文件。
4.一种基于文献证据库的遗传病自动解读方法,其特征在于:包括以下步骤:
获取由目标患者基因数据进行二代测序后的测序下机数据,对所述测序下机数据进行数据导入、序列比对和变异检测后得到初始突变位点,对所述初始突变位点进行变异注释后得到第一解读文件;
接收所述第一解读文件,根据等位基因频率从所述第一解读文件的初始突变位点中筛选出待筛突变位点,通过预设的突变类型对所述待筛突变位点进行二次筛选,通过测序深度和变异碱基型的比例进行三次筛选,根据筛选结果得到第二解读文件,包括:
从所述第一解读文件的初始突变位点中筛选出第一等位基因频率和第二等位基因频率均小于等于百分之1的待筛突变位点,得到突变位点A文件,所述第一等位基因频率表示gnomAD数据库中的等位基因频率,所述第二等位基因频率表示千人基因组计划数据中的等位基因频率;
在突变位点A文件中对突变类型进行筛选,获得突变位点B文件;
在突变位点A文件中筛选出测序深度大于等于5且变异碱基型的比例大于0.2的突变位点,获得突变位点C文件;
将突变位点c文件中的突变位点作为可疑突变位点,获得第二解读文件;
将所述第二解读文件输入内置的表型匹配软件中,通过所述表型匹配软件进行表型词条匹配,根据表型词条匹配的结果进行变异相关性排序,得到第三解读文件;
获取所述第三解读文件,将所述第三解读文件和文献证据数据库进行结合分析,分析出表型符合的目标致病性基因突变,根据所述目标致病性基因突变生成完整性遗传病报告,包括:
通过自动化分析流程对ACMG解读指南的部分非文献获取的证据项进行自动化提取,同时结合所述文献证据库对需要阅读的文献的证据项进行自动化提取;
根据自动化提取的证据项获得每个突变位点的致病性证据总结;
根据所述致病性证据总结获得每个突变位点的致病分类,得到变异致病性判读结果;
结合变异相关性排序结果和所述变异致病性判读结果,分析出表型符合的目标致病性基因突变;
根据所述目标致病性基因突变生成完整性遗传病报告。
5.根据权利要求4所述的方法,其特征在于:所述获取由目标患者基因数据进行二代测序后的测序下机数据,对所述测序下机数据进行数据导入、序列比对和变异检测后得到初始突变位点,对所述初始突变位点进行变异注释后得到第一解读文件,包括:
获取由目标患者基因数据进行二代测序后的测序下机数据,并选择所述测序下机数据的原始测序数据进行导入;
将导入的所述原始测序数据与人类参考基因组进行序列比对,得到bam文件;
通过GATK和/或Samtools工具从输入的所述bam文件中获取初始突变位点,同时将所述bam文件转换为vcf格式文件;
对所述vcf格式文件添加注释信息,得到第一解读文件;
将突变位点c文件中的突变位点作为可疑突变位点,获得第二解读文件。
6.根据权利要求5所述的方法,其特征在于:所述将所述第二解读文件输入内置的表型匹配软件中,通过所述表型匹配软件进行表型词条匹配,根据表型词条匹配的结果进行变异相关性排序,得到第三解读文件,包括
接收所述第二解读文件,将所述第二解读文件输入表型匹配软件;
输入目标患者的临床资料数据和主要临床症状描述数据;
从临床资料数据和主要临床症状描述数据中提取疾病表型,根据自然语言处理算法对所述疾病表型进行智能化表型词条匹配;
根据第二解读文件的可疑突变位点和临床表型的关联度进行变异相关性排序,根据变异相关性排序结果得到第三解读文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311676262.5A CN117373696B (zh) | 2023-12-08 | 2023-12-08 | 一种基于文献证据库的遗传病自动解读系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311676262.5A CN117373696B (zh) | 2023-12-08 | 2023-12-08 | 一种基于文献证据库的遗传病自动解读系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117373696A CN117373696A (zh) | 2024-01-09 |
CN117373696B true CN117373696B (zh) | 2024-03-01 |
Family
ID=89395057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311676262.5A Active CN117373696B (zh) | 2023-12-08 | 2023-12-08 | 一种基于文献证据库的遗传病自动解读系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117373696B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017123664A1 (en) * | 2016-01-11 | 2017-07-20 | Edico Genome, Corp. | Genomic infrastructure for on-site or cloud-based dna and rna processing and analysis |
CN109616155A (zh) * | 2018-11-19 | 2019-04-12 | 江苏科技大学 | 一种编码区域遗传变异致病性分类的数据处理系统与方法 |
CN110544537A (zh) * | 2019-07-29 | 2019-12-06 | 北京荣之联科技股份有限公司 | 单基因遗传病基因分析报告的生成方法及其电子设备 |
CN110544508A (zh) * | 2019-07-29 | 2019-12-06 | 北京荣之联科技股份有限公司 | 一种单基因遗传病基因的分析方法、装置及电子设备 |
CN111863132A (zh) * | 2019-04-29 | 2020-10-30 | 广州欧蒙未一医学检验实验室有限公司 | 一种筛选致病性变异的方法和系统 |
CN111883223A (zh) * | 2020-06-11 | 2020-11-03 | 国家卫生健康委科学技术研究所 | 患者样本数据中结构变异的报告解读方法及系统 |
CN112233725A (zh) * | 2020-10-14 | 2021-01-15 | 合肥达徽基因科技有限公司 | Atp7b基因突变二代测序自动化分析解读方法和报告系统 |
CN114566221A (zh) * | 2022-03-04 | 2022-05-31 | 上海交通大学医学院附属上海儿童医学中心 | 遗传病ngs数据自动化分析解读系统 |
CN114783589A (zh) * | 2022-04-02 | 2022-07-22 | 中国医学科学院阜外医院 | 主动脉疾病遗传突变自动化解读系统(HTAADVar) |
WO2023014816A1 (en) * | 2021-08-04 | 2023-02-09 | Rady Childrens's Hospital Research Center | Method and system for newborn screening for genetic diseases by whole genome sequencing |
CN116564406A (zh) * | 2023-05-09 | 2023-08-08 | 复旦大学附属儿科医院 | 一种遗传变异自动化解读方法及设备 |
CN116926180A (zh) * | 2023-06-05 | 2023-10-24 | 广东省妇幼保健院(广东省妇产医院、广东省儿童医院) | 基因标志物组合在制备用于Noonan综合征谱系障碍诊断产品中的应用 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080241839A1 (en) * | 2006-10-12 | 2008-10-02 | The Regents Of The University Of California | Method for correlating differential brain images and genotypes; genes that correlate with differential brain images |
EP2761520B1 (en) * | 2011-09-26 | 2020-05-13 | Trakadis, John | Diagnostic method and system for genetic disease search based on the phenotype and the genome of a human subject |
US10741291B2 (en) * | 2014-03-27 | 2020-08-11 | The Scripps Research Institute | Systems and methods for genomic annotation and distributed variant interpretation |
-
2023
- 2023-12-08 CN CN202311676262.5A patent/CN117373696B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017123664A1 (en) * | 2016-01-11 | 2017-07-20 | Edico Genome, Corp. | Genomic infrastructure for on-site or cloud-based dna and rna processing and analysis |
CN109616155A (zh) * | 2018-11-19 | 2019-04-12 | 江苏科技大学 | 一种编码区域遗传变异致病性分类的数据处理系统与方法 |
CN111863132A (zh) * | 2019-04-29 | 2020-10-30 | 广州欧蒙未一医学检验实验室有限公司 | 一种筛选致病性变异的方法和系统 |
CN110544537A (zh) * | 2019-07-29 | 2019-12-06 | 北京荣之联科技股份有限公司 | 单基因遗传病基因分析报告的生成方法及其电子设备 |
CN110544508A (zh) * | 2019-07-29 | 2019-12-06 | 北京荣之联科技股份有限公司 | 一种单基因遗传病基因的分析方法、装置及电子设备 |
WO2021248694A1 (zh) * | 2020-06-11 | 2021-12-16 | 国家卫生健康委科学技术研究所 | 患者样本数据中结构变异的报告解读方法及系统 |
CN111883223A (zh) * | 2020-06-11 | 2020-11-03 | 国家卫生健康委科学技术研究所 | 患者样本数据中结构变异的报告解读方法及系统 |
CN112233725A (zh) * | 2020-10-14 | 2021-01-15 | 合肥达徽基因科技有限公司 | Atp7b基因突变二代测序自动化分析解读方法和报告系统 |
WO2023014816A1 (en) * | 2021-08-04 | 2023-02-09 | Rady Childrens's Hospital Research Center | Method and system for newborn screening for genetic diseases by whole genome sequencing |
CN114566221A (zh) * | 2022-03-04 | 2022-05-31 | 上海交通大学医学院附属上海儿童医学中心 | 遗传病ngs数据自动化分析解读系统 |
CN114783589A (zh) * | 2022-04-02 | 2022-07-22 | 中国医学科学院阜外医院 | 主动脉疾病遗传突变自动化解读系统(HTAADVar) |
CN116564406A (zh) * | 2023-05-09 | 2023-08-08 | 复旦大学附属儿科医院 | 一种遗传变异自动化解读方法及设备 |
CN116926180A (zh) * | 2023-06-05 | 2023-10-24 | 广东省妇幼保健院(广东省妇产医院、广东省儿童医院) | 基因标志物组合在制备用于Noonan综合征谱系障碍诊断产品中的应用 |
Non-Patent Citations (3)
Title |
---|
全基因组与外显子组测序的应用评估;刘发娣;洪葵;;临床检验杂志(05);全文 * |
全外显子测序产前诊断Walker-Warburg综合征;乔凤昌;胡平;林颖;王艳;李航;季修庆;罗春玉;许争峰;;临床检验杂志(05);全文 * |
遗传变异分类标准与指南;王秋菊;沈亦平;邬玲仟;陈少科;陈子江;方向东;傅松滨;龚瑶琴;黄国英;黄国宁;黄荷凤;黄山;郝晓柯;冀小平;李红;梁波;廖灿;乔杰;苏海翔;魏军;王磊;王树玉;王晓红;邢清和;徐湘民;袁慧军;杨正林;周从容;周文浩;曾勇;张学军;黄涛生;郑茜;秦胜营;于世辉;关静;王洪阳;王大勇;赵立东;王慧君;孔令印;宣黎明;冒燕;祝轶君;徐君玲;王剑青;王莉;赵婷;秦一丁;夏滢颖;樊丽霞;赵丁丁;邱浩;贺林;;中国科学:生命科学(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117373696A (zh) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033749B (zh) | 一种肿瘤突变负荷检测方法、装置和存储介质 | |
Taliun et al. | Sequencing of 53,831 diverse genomes from the NHLBI TOPMed Program | |
CN110021364B (zh) | 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统 | |
CN109686439B (zh) | 遗传病基因检测的数据分析方法、系统及存储介质 | |
Kalman et al. | Quality assessment of protein model-structures using evolutionary conservation | |
JP5164646B2 (ja) | 臨床検査データ解析支援装置、臨床検査データ解析支援方法及びそのプログラム | |
CN1547721A (zh) | 用于存储、获取和集成临床、诊断、基因和治疗数据的系统、方法和仪器 | |
JP2005515000A (ja) | 臨床判断をサポートするシステム | |
US20130231404A1 (en) | Genome-phenome analyzer and methods of using same | |
Yuan et al. | Evaluation of phenotype-driven gene prioritization methods for Mendelian diseases | |
CN111028947A (zh) | 一种癌症预防健康管理方法及系统 | |
CN107292129A (zh) | 易感基因型检测方法 | |
WO2022125806A1 (en) | Predicting fractional flow reserve from electrocardiograms and patient records | |
RU2626898C2 (ru) | Идентификация медицинских концепций для выбора протокола визуализации | |
Li et al. | Integration of genetic and clinical information to improve imputation of data missing from electronic health records | |
Hukku et al. | Analyzing and reconciling colocalization and transcriptome-wide association studies from the perspective of inferential reproducibility | |
KR101295785B1 (ko) | 유전변이 데이터 베이스 구축 장치 및 방법 | |
Gruendner et al. | Integrating genomics and clinical data for statistical analysis by using GEnome MINIng (GEMINI) and fast healthcare interoperability resources (FHIR): system design and implementation | |
CN117373696B (zh) | 一种基于文献证据库的遗传病自动解读系统及方法 | |
CN112735594B (zh) | 一种筛选疾病表型相关突变位点的方法及其应用 | |
CN111863132A (zh) | 一种筛选致病性变异的方法和系统 | |
Evans et al. | Automated detection of hereditary syndromes using data mining | |
CN112331290A (zh) | 一种基因体检报告自动化生成方法及系统 | |
CN111986728A (zh) | 一种乳腺癌基因变异及用药解读系统及解读方法、装置 | |
CN111128308A (zh) | 一种神经精神疾病新发突变信息知识平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |