CN110021364B - 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统 - Google Patents
基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统 Download PDFInfo
- Publication number
- CN110021364B CN110021364B CN201711189668.5A CN201711189668A CN110021364B CN 110021364 B CN110021364 B CN 110021364B CN 201711189668 A CN201711189668 A CN 201711189668A CN 110021364 B CN110021364 B CN 110021364B
- Authority
- CN
- China
- Prior art keywords
- patient
- hpo
- phenotype
- disease
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Databases & Information Systems (AREA)
- Analytical Chemistry (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种基于病人临床表型信息和全外显子组测序数据的整合来自动筛选单基因病遗传病致病基因的自动化分析系统。本发明系统包含四个自动化分析模块:(1)病人临床报告到标准化表型术语(HPO,人类表型本体)的自动转换;(2)基于病人标准化表型筛选疾病致病基因的自动化分析系统;(3)基于病人全外显子组测序数据筛选疾病致病基因的自动化分析系统;(4)p值整合系统。本发明采用概率模型来计算在给定病人的某个标准表型的情况下其患某个单基因遗传病的概率,并利用计算机统计检验的办法来系统性评估在给定病人的所有标准表型后其可能患某个单基因遗传病的显著程度,从而实现基于临床标准表型筛选候选致病基因的目的。
Description
技术领域
本发明涉及计算机数据处理领域,具体涉及电子数据的查询以及数据加工、处理领域。更具体地涉及在临床诊断实践中应用基于病人临床表型信息和全外显子组测序数据的整合来自动筛选单基因病遗传病致病基因,是一种用计算机技术查询、处理基于概率模型的计算机程序并将其应用在在临床医学研究、实践中的典型应用。
背景技术
分子生物学的快速发展与人类基因组计划的实施,使人们对遗传病的认识达到前所未有的高度越来越多的疾病被证实与遗传相关包括许多危害人类健康的常见病如心脑血管疾病、高血压、癌症等。临床医学与分子遗传学相互渗透、相互结合形成了新的分子医学。同时,随着信息科学的发展,计算机在遗传学的发展中起到了不可替代的作用;计算机的应用开辟了一个新的遗传学研究领域;可以说,以网络计算机技术为基础的在线数据库更改变了研究人员、医务人员和公众获得相关遗传数据信息的方式和手段。
单基因遗传病又称孟德尔遗传病,是由一对等位基因控制的疾病或病理性状,人体中只要单个基因发生突变就足以发病的一类遗传性疾病1。目前最广为使用的一类遗传信息数据库之一就是在线人类孟德尔遗传数据库,简称为OMIM(http://omim.org),其存储着孟德尔遗传病的相关信息。具体来说,OMIM是一个关于人类基因和遗传疾病的综合性数据库,其收录了所有的孟德尔遗传性疾病人类基因信息,其中不仅包含了简略描述的各种疾病的临床特征、诊断、治疗与预防信息,还提供了已知有关致病基因的连锁关系、染色体定位、功能、动物模型等资料并附有经缜密筛选的相关参考文献;可以说,及时性、权威性、全面性和实用性是OMIM的特点。目前已知的单基因遗传病有 7000多种2,其中有约半数疾病的致病基因已知3。尽管每种单基因遗传病在人群中的发病率都很低,但合起来它们可潜在影响约8%的人口,给家庭和社会都带来很大负担4.精确诊断单基因遗传病的致病基因在某些情况下可以带来精准的治疗方案,极大缓解或在一定程度上治愈患者的疾病5。因而,精确诊断单基因遗传病的致病基因在临床实践上具有重大意义和临床价值。
目前,在临床实践上诊断单基因遗传病的方法可分为单基因检测、基因集合检测和全外显子组测序三种手段。前两种方法一般都针对具有特定单基因遗传病或某类单基因遗传病典型临床症状的病人6.,在临床时间上具有一定的局限性。全外显子组测序理论上可适用于任一单基因遗传病,由于其测序成本的迅速降低,现在已成为临床上诊断单基因遗传病,特别是非典型遗传病的主要手段7.无论是那种诊断方法,与病人临床症状的结合都是必须的。这是由于(1)从全外显子组测序数据筛选潜在的致病性变异位点,一般都会获得数百个候选位点8,没有临床症状的结合,无法确定那个位点是致病性位点;(2)在每个健康人的基因组中也存在上百个致病性变异位点8,这更说明了结合临床症状的必要性。
一般情况下,病人的临床症状都是以非标准化语言呈现的。要实现与变异数据的整合,首先需要把非标准化临床症状转化为可被计算机识别的标准化临床表型,如基于人类表型本体论(HPO)数据库所构建的标准化表型术语2。HPO数据库以树状结构存储人类表型(症状) 术语,比如:左心房异常,其父节点为心房异常。该数据库中还存储了每一个表型术语(HPO),其与OMIM数据库中疾病的对应关系。把非标准化临床症状转化为HPO标准化表型可通过医生或遗传分析师阅读临床报告,进行人工操作来实现,也可通过使用计算机工具如 Phenolyzer9等来自动实现。
在有了病人的标准化表型后,可通过与OMIM数据库中定义的每个疾病的标准化表型进行相似性对比,筛选相似性最高的疾病,再通过在OMIM数据库中的疾病-基因关系,挑选候选致病性基因;同时,结合变异数据筛选之后获得候选致病性变异位点,来最终挑选最有可能的致病性基因。目前,已有的方法和工具包括PhenIX5,Exomiser10, Phenomizer11,Phenolyzer9,and Phen-Gen12等。这些方法普遍基于语义学关系来推测病人的标准化表型与OMIM数据库中的疾病之间的相似性,而其中一个关键的步骤是比较两个HPO之间的相关性。这些方法都采用了一种称为MICA(最大信息量祖先节点)的思路。该思路是首先计算每个HPO表型所对应的信息量(一个HPO表型对应的疾病个数越少,则其信息量越大);其次,寻找两个HPO表型在HPO树状结构图中的所有共享的祖先节点;然后,根据每个祖先节点的信息量,找出信息量最大的祖先节点,作为最大信息量祖先节点-MICA;最后,用MICA的信息量作为两个HPO表型之间的相关性。然而,MICA方法的局限性在于,HPO树状结构图是基于表型在解刨学上的相关性而建立的,而与表型在病理上的相关性不一定有直接关系。例如,利用MICA 的IC的方法,HP:0011537(左心房异常)和HP:0011536(右心房异常)有较高的相似度打分,这主要是因为他们的MICA(HP:0011535,心房异常)有高的IC值,然而这两个HPO对应的表征虽然在解刨学上紧密相关(左、右心房),但其所对应的致病基因确完全不同(致病基因分别为CFC1和GDF1)。因而,利用MICA的方法会有可能会导致发现病理不同但解剖上相近的两个表征具有高度的相似性,从而导致假阳性的诊断结果。
本发明系统采取了完全不同于现有方法的技术实现方式,其通过采用概率模型来计算在给定病人的某个标准表型的情况下其患某个单基因遗传病的概率,并利用计算机统计检验的办法来系统性评估在给定病人的所有标准表型后其可能患某个单基因遗传病的显著程度,从而实现基于临床标准表型筛选候选致病基因的目的。同时,本发明所涉及的检测系统还包含了一个从临床病例报告到标准化表型的自动转换子系统,一个从病人全外显子组测序数据自动筛选候选致病变异位点的子系统,及一个整合临床表型筛选结果和全外显子组数据筛选结果的整合子系统,达到了从病人临床表型和全外显子组测序数据出发到自动输出候选致病基因排序的目的,从而为单基因遗传病致病基因的诊断的相关医护、研究以及其他相关人员提供了一种高效、实用、快捷的自动化分析系统。
参考文献:
1.Jamuar,S.S.,and Tan,E.C.(2015).Clinical application of next-generation sequencing for Mendelian diseases.Human genomics 9,10.
2.Kohler,S.,Doelken,S.C.,Mungall,C.J.,Bauer,S.,Firth, H.V.,Bailleul-Forestier,I.,Black,G.C.,Brown,D.L.,Brudno,M.,Campbell,J.,et al.(2014).TheHuman Phenotype Ontology project:linking molecular biology and diseasethrough phenotype data.Nucleic acids research 42,D966-974.
3.Boycott,K.M.,Vanstone,M.R.,Bulman,D.E.,and MacKenzie, A.E.(2013).Rare-disease genetics in the era ofnext-generation sequencing:discovery totranslation. Nat Rev Genet 14,681-691.
4.Shashi,V.,McConkie-Rosell,A.,Rosell,B.,Schoch,K., Vellore,K.,McDonald,M.,Jiang,Y.H.,Xie,P.,Need,A., and Goldstein,D.B.(2014).The uti lityof the traditional medical genetics diagnostic evaluation in the context ofnext-generation sequencing for undiagnosed geneticdisorders.Genet Med 16,176-182.
5.Zemojtel,T.,Kohler,S.,Mackenroth,L.,Jager,M.,Hecht, J.,Krawitz,P.,Graul-Neumann,L.,Doelken,S.,Ehmke,N.,Spielmann,M.,et al.(2014).Effectivediagnosis of genetic disease by computational phenotype analysis of thedisease-associated genome.Science translational medicine 6,252ra123.
6.Yu,Y.,Wu,B.L.,Wu,J.,and Shen,Y.(2012).Exome and whole-genomesequencing as clinical tests:atransformative practice in moleculardiagnostics.Clin Chem 58,1507-1509.
7.Soden,S.E.,Saunders,C.J.,Willig,L.K.,Farrow,E.G., Smith,L.D.,Petrikin,J.E.,LePichon,J.B.,Miller,N.A.,Thiffault,I.,Dinwiddie,D.L.,et al.(2014). Effectiveness of exome and genome sequencing guided by acuity ofillness for diagnosis of neurodevelopmental disorders.Sci Transl Med 6,265ra168.
8.MacArthur,D.G.,Balasubramanian,S.,Frankish,A.,Huang, N.,Morris,J.,Walter,K.,Jostins,L.,Habegger,L., Pickrell,J.K.,Montgomery,S.B.,et al.(2012).Asystematic survey of loss-of-function variants in human protein-codinggenes.Science 335,823-828.
9.Yang,H.,Robinson,P.N.,and Wang,K.(2015).Phenolyzer: phenotype-basedprioritization of candidate genes forhuman diseases.Nat Methods 12,841-843.
10.Robinson,P.N.,Kohler,S.,Oellrich,A.,Sanger Mouse Genetics,P.,Wang,K.,Mungall,C.J.,Lewis,S.E.,Washington,N.,Bauer,S.,Seelow,D.,et al.(2014).Improved exome prioritization of disease genes through cross-speciesphenotype comparison.Genome research 24, 340-348.
11.Kohler,S.,Schulz,M.H.,Krawitz,P.,Bauer,S.,Dolken, S.,Ott,C.E.,Mundlos,C.,Horn,D.,Mundlos,S.,and Robinson,P.N.(2009).Clinical diagnostics inhuman genetics with semantic similarity searches in ontologies.Americanjournal of human genetics 85,457-464.
12.Javed,A.,Agrawal,S.,and Ng,P.C.(2014). Phen-Gen:combiningphenotype and genotype to analyzerare disorders.Nat Methods 11,935-937.
发明内容
本发明涉及一种基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的自动分析检测系统,所述系统具有通用的计算机结构,具有通用的CPU、存储器、显示器等常规的计算机硬件设备,以及常规的输入/输出装置,并能运行通行的操作系统以便能接入互联网等网络资源,所述系统的特征在于能运行如下的自动分析检测流程:
(1)将病人临床报告自动转换成标准化表型术语(HPO,人类表型本体)数据;
当输入内容为病人的临床报告等不规范表型术语数据时,本发明所述系统可自动提取报告中关于病人的临床症状数据,并通过自然语言处理等方式将临床症状转换成标准表型术语编号 (HPO);
(2)基于病人标准化表型数据自动筛选致病基因;
当输入为病人的标准表型编号集合时,
首先,所述系统对疾病表型数据库(OMIM)中的每一个疾病 (暂记作疾病k)及标准表型数据库(HPO)中的每一个表型(暂记作表型a),计算当病人具有表型a时,该病人患疾病k的概率 A,概率A经贝叶斯模型推出;
之后,对疾病k,把所有表型按照前述计算得到的概率大小进行排序,得到疾病k特异性表型排序列表。把病人的标准表型编号匹配到该排序列表中,记录病人的每个标准表型的排序,然后利用单侧K-S检验,检验在疾病k中病人表型排序分布的偏向性 (趋向于排在前列)。K-S检验的p值越小,则代表病人患疾病k 的可能性越大。同时,对所有疾病都按此方法计算K-S检验的p 值;
然后,输出p值从小到大排序的所有疾病的排序列表,排名越靠前的疾病则是病人所患疾病的可能性越大;
最后,对OMIM数据库中每一个致病基因(暂记作基因j), 寻找与其所可能导致的所有疾病在上述列表中中最小的p值,并把该p值赋予基因j。输出所有致病基因根据所得p值的排序列表, p-value越小则说明该基因越有可能是该病人的致病基因;
(3)基于病人全外显子组测序数据自动筛选疾病致病基因;
当输入为病人的全外显子组测序(WES)数据时,所述系统会经过标准流程,通过与参考基因组序列比对,获得病人的变异数据(VCF格式)文件。所述发明所述系统也接受直接输入病人的变异数据(VCF格式)文件;
所述系统还包括有,一变异筛选子系统,用于从病人VCF数据文件自动化筛选候选致病性变异位点;
所述变异筛选子系统,用来执行如下步骤:(a)质量控制; (b)频率筛选;(c)致病性筛选;(d)遗传模式筛选;
之后,所述系统使用上述变异筛选子系统在健康人群的变异数据库或内部数据库中筛选每个健康人基因组中的致病性变异位点;针对每个健康人的致病性变异位点,所述系统会计算其在健康人群中的频率,并在此基础上,计算致病性变异位点频率的累加概率分布;利用该累加概率分布,推测在病人中筛选得到的致病性变异位点的频率所对应的累加概率,并把其记录为该变异位点的p值。
最后,输出所有筛选位点对应的基因为候选致病基因,并定义其p值为其上的变异位点的p值,并按照p值进行排序,p值越小,则其为致病基因的可能性越大;
所述系统会自动整合从病人表型数据和变异数据分别筛选获得的候选致病基因的p值,并基于p值排序,输出基于病人临床表型和全外显子组测序数据的候选致病基因的排序。p值越小,则该基因为致病基因的可能性越大。
附图说明
图1是本发明系统所述的一种基于病人临床症状和全外显子组测序数据筛选单基因遗传病致病基因的自动化分析系统流程图。
具体实施方式
本发明所述系统是一种基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统。所述系统具有通用的计算机结构,具有通用的CPU、存储器、显示器等常规的计算机硬件设备,以及常规的输入/输出装置,并能运行通行的操作系统以便能接入互联网等网络资源,所述系统的特征在于能运行如下的分析检测流程:(1)病人临床报告到标准化表型术语(HPO,人类表型本体)的自动转换;(2)基于病人标准化表型筛选疾病致病基因的自动化分析系统;(3)基于病人全外显子组测序数据筛选疾病致病基因的自动化分析系统;(4)p值整合系统。
以下,分别说明这四个分析检测流程的具体实施步骤。
(1)将病人临床报告自动转换成标准化表型术语(HPO,人类表型本体)数据;
首先,根据标点符号,将临床报告分割成一系列短语(根据标点)。对于每一个短语,在移除若干无意义词汇后,使用公开的或收费的自然语言处理工具标明词性,将短语划分为几个基础语意单元;
之后,在每个基础语意单元中提取名词以及每个名词前最近的形容词,也即所谓的关键词;随后,在标准表型(HPO)数据库根据每个HPO词条及其同义词,寻找其在该基础语意单元内所可匹配的关键词的个数,并保留可匹配该基础语意单元最多关键词的HPO词条;
如一基础语意单元保留了大于一个HPO词条,则检查所保留的 HPO词条之间的关系;如其中一HPO词条为另一词条在HPO树状结构的子节点,则仅保留父节点;在其他情况下,首先选择保留最接近 HPO树状结构中根节点的HPO词条,然后选择其他所有保留的HPO词条的最近共享父节点作为保留的HPO词条。这样,每个基础语意单元最多保留2个HPO词条;
最后,合并所有基础语意单元所选择的HPO词条,输出作为该临床报告所对应的标准表型(HPO)。
(2)基于病人标准化表型筛选疾病致病基因的分析流程
当输入内容为病人的标准表型编号集合时,
首先,本发明所述系统对疾病表型数据库(OMIM)中的每一个疾病(暂记作疾病k)及标准表型数据库(HPO)中的每一个表型(暂记作表型a),计算当病人具有表型a时,该病人患疾病k的概率A。概率A经贝叶斯模型推出。其具体计算如下:
对于疾病k(Disease k),首先定义疾病的精确HPO为在数据库中注释到某个疾病的所有HPO,而且这些HPO之间在HPO树状结构中不能互为父子节点。这样,把OMIM数据库中所有疾病对应的精确 HPO的集合称作HPOd。
定义病人的某个表型为HPOa,则概率A可写为条件概率 P(Diseasek|HPOa),由贝叶斯公式来计算:
所述联合概率P(Diseasek,HPOa)和P(HPOa)在特定的前提条件下,可简化为如下形式:
其中,P(HPOi)为病人表现出某精确HPOi所定义的表型时的概率,P(Diseasek|HPOi)和P(HPOa|HPOi)分别为当病人表现出某精确HPOi所定义的表型时,所患疾病k或被医生解释为表型HPOa的条件概率。这三个概率可以通过以下公式获得:
其中,Ni是某个精确HPO所注释到的疾病的个数,Na是某个精确HPO在HPO树状结构中的所有祖先节点的个数。
之后,对疾病k,把所有表型按照前述计算得到的概率大小进行排序,得到疾病k特异性表型排序列表。把病人的标准表型编号匹配到该排序列表中,记录病人的每个标准表型的排序,然后利用单侧 K-S检验,检验在疾病k中病人表型排序分布的偏向性(趋向于排在前列)。K-S检验的p值越小,则代表病人患疾病k的可能性越大。同时,对所有疾病都按此方法计算K-S检验的p值。
然后,输出p值从小到大排序的所有疾病的排序列表,排名越靠前的疾病则是病人所患疾病的可能性越大;
最后,对OMIM数据库中每一个致病基因(暂记作基因j),寻找与其所可能导致的所有疾病在上述列表中中最小的p值,并把该p值赋予基因j。输出所有致病基因根据所得p值的排序列表,p-value 越小则说明该基因越有可能是该病人的致病基因。
(3)基于病人全外显子组测序数据筛选疾病致病基因的分析检测流程
当输入为病人的全外显子组测序(WES)数据时,所述发明系统会经过标准流程,通过与参考基因组序列比对,获得病人的变异数据 (VCF格式)数据文件。所述发明所述系统也接受直接输入病人的变异数据(VCF格式数据文件。
首先,本发明所述系统包括一变异筛选子系统,用于从病人VCF 文件自动化筛选候选致病性变异位点。所述变异筛选子系统用于执行如下步骤:(a)质量控制;(b)频率筛选;(c)致病性筛选; (d)遗传模式筛选。具体步骤如下:首先进行质量控制:所述发明系统会根据每个变异位点上GATK软件输出的分数、读段的深度、及变异位点的位置和种类来自动筛除质量较低的变异位点。其次,进行频率筛选:所述发明系统会把每个变异位点与dbSNP、1000Genome、 ExAC等公共数据库以及内部数据库进行比对,计算每个位点在正常人群中的分布频率,并自动筛选留下在人群中频率属于罕见性的变异位点。再次,进行致病性筛选:所述发明系统会与HGMD、ClinVar、 OMIM、ACMG等公共或商业化的致病性文献数据库进行比对,筛选留下有文献报道的致病性变异位点。同时,所述发明系统还会使用ANNOVAR、VEP等变异注释软件来自动筛选留下被这些软件注释为潜在致病性的变异位点。最后,进行遗传模式筛选:在有患者父母的变异数据的基础上,所述发明系统还会自动检查每个变异位点的遗传模式,筛除不符合遗传模式的变异位点。
经该变异筛选系统处理后,每个病人会输出约一百多候选致病性变异位点。
之后,本发明所述系统会应用上述的自动化变异筛选系统在健康人群的变异数据库如1000Genome或内部数据库,筛选每个健康人基因组中的致病性变异位点。针对每个健康人的致病性变异位点,本发明所述系统会计算其在健康人群中的频率,并在此基础上,计算致病性变异位点频率的累加概率分布。利用该累加概率分布,推测在病人中筛选得到的致病性变异位点的频率所对应的累加概率,并把其记录为该变异位点的p值。
最后,输出所有筛选位点对应的基因为候选致病基因,并定义其 p值为其上的变异位点的p值,并按照p值进行排序,p值越小,则其为致病基因的可能性越大;
(4)p值整合系统
本发明系统会自动整合从病人表型数据和变异数据分别筛选获得的候选致病基因的p值,并基于p值排序,输出基于病人临床表型和全外显子组测序数据的候选致病基因的排序。p值越小,则该基因为致病基因的可能性越大。
首先,如其中一个p值为1,则最终p值定义为1;
其次,如两个p值都不为一,则使用Fisher方法对p值进行整合。具体公式为t=-2ln(p1)-2ln(p2)。该t值服从自由度为4的卡方分布,最终的p值可从卡方检验获得。
最后,输出基于整合p值的候选基因排序列表。p值越小,则该基因为致病基因的可能性越大。
综合以上的论述,采用本发明所述流程的系统相比于现有技术具有更高地效率和更为精确的检测结果,从而能取得更好地临床使用效果。
Claims (7)
1.一种基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的自动分析检测系统,所述系统的特征在于能运行如下的自动分析检测流程:
(1)将病人临床报告自动转换成标准化表型术语—HPO;
当输入的不规范表型术语数据是病人的临床报告时,所述系统可自动提取报告中关于病人的临床症状数据,并通过自然语言处理方式将临床症状转换成标准表型术语编号;
(2)基于病人标准化表型数据自动筛选致病基因;
当输入为病人的标准表型编号集合时,
首先,所述系统对疾病表型数据库—OMIM中的每一个疾病,暂记作疾病k,及标准表型数据库中的每一个表型,暂记作表型a,计算当病人具有表型a时,该病人患疾病k的概率A,概率A经贝叶斯模型推出;
之后,对疾病k,把所有表型按照前述计算得到的概率大小进行排序,得到疾病k特异性表型排序列表;把病人的标准表型编号匹配到该排序列表中,记录病人的每个标准表型的排序,然后利用单侧K-S检验,检验在疾病k中病人表型排序分布的偏向性,趋向于排在前列,K-S检验的p值越小,则代表病人患疾病k的可能性越大;同时,对所有疾病都按此方法计算K-S检验的p值;
然后,输出p值从小到大排序的所有疾病的排序列表,排名越靠前的疾病则是病人所患疾病的可能性越大;
最后,对OMIM数据库中每一个致病基因,暂记作基因j,寻找与其所可能导致的所有疾病在上述“输出p值从小到大排序的所有疾病的排序列表”中最小的p值,并把该p值赋予基因j;输出所有致病基因根据所得p值的排序列表,p-value越小则说明该基因越有可能是该病人的致病基因;
(3)基于病人全外显子组测序数据自动筛选疾病致病基因;
当输入为病人的全外显子组测序—WES数据时,所述系统会经过标准流程,通过与参考基因组序列比对,获得病人的变异数据VCF格式文件;所述系统也接受直接输入病人的变异数据—VCF格式文件;
所述系统还包括有,一变异筛选子系统,用于从病人VCF数据文件自动化筛选候选致病性变异位点;
所述变异筛选子系统,用来执行如下步骤:(a)质量控制;(b)频率筛选;(c)致病性筛选;(d)遗传模式筛选;
之后,所述系统使用上述变异筛选子系统在健康人群的变异数据库或内部数据库中筛选每个健康人基因组中的致病性变异位点;针对每个健康人的致病性变异位点,所述系统会计算其在健康人群中的频率,并在此基础上,计算致病性变异位点频率的累加概率分布;
利用该累加概率分布,推测在病人中筛选得到的致病性变异位点的频率所对应的累加概率,并把其记录为该变异位点的p值;
最后,输出所有筛选位点对应的基因为候选致病基因,并定义其p值为其上的变异位点的p值,并按照p值进行排序,p值越小,则其为致病基因的可能性越大;
所述系统会自动整合从病人表型数据和变异数据分别筛选获得的候选致病基因的p值,并基于p值排序,输出基于病人临床表型和全外显子组测序数据的候选致病基因的排序;p值越小,则该基因为致病基因的可能性越大。
2.根据权利要求1所述的系统,其特征在于:所述系统采用如下方式来实现病人临床报告到标准化表型术语数据的转换:
首先根据标点符号,将临床报告分割成一系列短语-根据标点,对于每一个短语,在移除若干无意义词汇后,使用公开的或收费的自然语言处理工具标明词性,将短语划分为几个基础语意单元;
之后,在每个基础语意单元中提取名词以及每个名词前最近的形容词,也即所谓的关键词;随后,在标准表型-HPO数据库根据每个HPO词条及其同义词,寻找其在该基础语意单元内所可匹配的关键词的个数,并保留可匹配该基础语意单元最多关键词的HPO词条;
如一基础语意单元保留了大于一个HPO词条,则检查所保留的HPO词条之间的关系;如其中一HPO词条为另一词条在HPO树状结构的子节点,则仅保留父节点;在其他情况下,首先选择保留最接近HPO树状结构中根节点的HPO词条,然后选择其他所有保留的HPO词条的最近共享父节点作为保留的HPO词条;这样,每个基础语意单元最多保留2个HPO词条;
最后,合并所有基础语意单元所选择的HPO词条,输出作为该临床报告所对应的标准表型。
3.根据权利要求1或2所述的系统,其特征在于,所述系统基于病人标准化表型自动筛选疾病致病基因的方法通过如下步骤推导当病人具有表型a时,该病人患疾病k的概率A:
对于疾病k-Disease k,首先定义疾病的精确HPO为在数据库中注释到某个疾病的所有HPO,而且这些HPO之间在HPO树状结构中不能互为父子节点;这样,把OMIM数据库中所有疾病对应的精确HPO的集合称作HPOd;
定义病人的某个表型为HPOa,则概率A可写为条件概率(PDiseasek|HPOa),由贝叶斯公式来计算:
联合概率P(Diseasek,HPOa)和P(HPOa)在特定的前提条件下,可简化为如下形式:
其中,P(HPOi)为病人表现出某精确HPOi所定义的表型时的概率,P(Diseasek|HPOi)和P(HPOa|HPOi)分别为当病人表现出某精确HPOi所定义的表型时,所患疾病k或被医生解释为表型HPOa的条件概率;这三个概率可以通过以下公式获得:
其中,Ni是某个精确HPO所注释到的疾病的个数,Na是某个精确HPO在HPO树状结构中的所有祖先节点的个数。
4.根据权利要求1或2所述的系统,其特征在于,所述系统基于病人标准化表型自动筛选疾病致病基因的方法通过如下步骤来筛选候选致病基因:
当输入为不规范表型术语时,将其转换为标准化表型HPO数据;而当输入为病人的标准化表型编号数据集合时,
首先对所有疾病和所有表型的组合,计算每个组合对应的概率A;
然后,针对特定疾病k,把所有表型HPO按照对应的概率大小进行排序,得到疾病k特异性表型排序列表;把病人的标准表型编号匹配到该排序列表中,记录病人的每个标准表型的排序,再利用单侧K-S检验,检验在疾病k中病人表型排序分布的偏向性-趋向于排在前列;K-S检验的p值越小,则代表病人患疾病k的可能性越大;对所有疾病都按此方法计算在给定病人标准表型情况下的K-S检验的p值;
之后,输出p值从小到大排序的所有疾病的排序列表,排名越靠前的疾病则是病人所患疾病的可能性越大;
最后,对OMIM数据库中每一个致病基因,暂记作基因j,寻找与其所可能导致的所有疾病在上述列表中最小的p值,并把该p值赋予基因j;输出所有致病基因根据所得p值的排序列表,p-value越小则说明该基因越有可能是该病人的致病基因。
5.根据权利要求1或2所述的系统,其特征在于,所述系统基于病人全外显子组测序数据自动筛选疾病致病基因的方法,通过如下步骤来从病人变异数据自动筛选候选致病变异位点数据:
所述变异筛选子系统执行以下几个步骤:
首先进行质量控制:所述系统会根据每个变异位点上GATK软件输出的分数、读段的深度、及变异位点的位置和种类来自动筛除质量较低的变异位点数据;
其次,进行频率筛选:所述系统会把每个变异位点与公共数据库以及内部数据库进行比对,计算每个位点在正常人群中的分布频率,并自动筛选留下在人群中频率属于罕见性的变异位点数据;
再次,进行致病性筛选:所述系统会与公共或商业化的致病性文献数据库进行比对,筛选留下有文献报道的致病性变异位点数据;同时,所述系统还会使用变异注释软件来自动筛选留下被这些软件注释为潜在致病性的变异位点;
最后,进行遗传模式筛选:在有患者父母的变异数据的基础上,所述系统还会自动检查每个变异位点的遗传模式,筛除不符合遗传模式的变异位点;经遗传模式筛选后,每个病人会输出约一百多候选致病性变异位点。
6.根据权利要求5所述的系统,其特征在于,所述系统基于病人全外显子组测序数据自动筛选疾病致病基因的方法通过如下步骤实现:
首先,当输入为病人的全外显子组测序-WES数据时,所述系统会经过标准流程,通过与参考基因组序列比对,获得病人的变异数据-VCF格式文件数据;所述系统也接受直接输入病人的变异数据-VCF格式文件数据;
之后,在输入病人变异数据后,所述系统会利用所述变异筛选子系统从病人变异数据中自动化筛选候选致病性变异位点;
然后,所述系统会应用上述的变异筛选子系统筛选模块在健康人群的变异数据库或内部数据库,筛选每个健康人基因组中的致病性变异位点;针对每个健康人致病性变异位点,所述系统会计算其在健康人群中的频率,并在此基础上,计算致病性变异位点频率的累加概率分布;然后再利用该累加概率分布,推测在病人中筛选得到的致病性变异位点的频率所对应的累加概率,并把其记录为该变异位点的p值;
最后,输出所有筛选位点对应的基因为候选致病基因,并定义其p值为其上的变异位点的p值,并按照p值进行排序,p值越小,则其为致病基因的可能性越大。
7.根据权利要求6所述的系统,其特征在于,所述系统对基于病人标准表型所得的候选致病基因的p值及基于病人全外显子组测序数据所得的候选疾病致病基因的p值通过如下步骤进行整合:
首先,如其中一个p值为1,则最终p值定义为1;
其次,如两个p值都不为一,则使用Fisher方法对p值进行整合;具体公式为t=-2ln(p1)-2ln(p2);该t值服从自由度为4的卡方分布,最终的p值可从卡方检验获得;
最后,输出基于整合p值的候选基因排序列表;p值越小,则该基因为致病基因的可能性越大。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711189668.5A CN110021364B (zh) | 2017-11-24 | 2017-11-24 | 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711189668.5A CN110021364B (zh) | 2017-11-24 | 2017-11-24 | 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110021364A CN110021364A (zh) | 2019-07-16 |
CN110021364B true CN110021364B (zh) | 2023-07-28 |
Family
ID=67185953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711189668.5A Active CN110021364B (zh) | 2017-11-24 | 2017-11-24 | 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110021364B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110544508B (zh) * | 2019-07-29 | 2023-03-10 | 荣联科技集团股份有限公司 | 一种单基因遗传病基因的分析方法、装置及电子设备 |
CN111341458B (zh) * | 2020-02-27 | 2020-11-03 | 国家卫生健康委科学技术研究所 | 基于多层级结构相似度的单基因病名称推荐方法和系统 |
CN111159977B (zh) * | 2020-04-07 | 2020-09-08 | 深圳华大基因科技服务有限公司 | 一种人类表型标准用语确定方法及装置 |
CN111540407B (zh) * | 2020-04-13 | 2023-06-27 | 中南大学湘雅医院 | 一种整合多种神经发育性疾病筛选候选基因的方法 |
CN111883210B (zh) * | 2020-06-08 | 2021-05-25 | 国家卫生健康委科学技术研究所 | 基于临床特征和序列变异的单基因病名称推荐方法及系统 |
CN111710432B (zh) * | 2020-07-16 | 2023-05-12 | 复旦大学附属儿科医院 | 基于表型的致病基因定量测算方法及设备 |
CN112735518B (zh) * | 2020-12-30 | 2024-04-23 | 武汉康圣达医学检验所有限公司 | 基于染色体微阵列的roh数据分析系统 |
CN112735599A (zh) * | 2021-01-26 | 2021-04-30 | 河南省人民医院 | 一种判断罕见遗传性疾病的评估方法 |
CN112687332B (zh) * | 2021-03-12 | 2021-07-30 | 北京贝瑞和康生物技术有限公司 | 用于确定致病风险变异位点的方法、设备和存储介质 |
CN113611363B (zh) * | 2021-08-09 | 2023-11-28 | 上海基绪康生物科技有限公司 | 一种利用共识性预测结果识别癌症驱动基因的方法 |
CN113611361B (zh) * | 2021-08-10 | 2023-08-08 | 飞科易特(广州)基因科技有限公司 | 一种用于婚恋匹配的单基因常染色体隐性遗传病的匹配方法 |
CN113808663A (zh) * | 2021-09-01 | 2021-12-17 | 基诺莱(重庆)生物技术有限公司 | 基于人工智能的基因变异位点的匹配方法、系统及设备 |
CN115910213B (zh) * | 2022-10-26 | 2023-12-29 | 广州金域医学检验中心有限公司 | 人类表型本体的筛选方法、装置、设备及介质 |
CN116246701B (zh) * | 2023-02-13 | 2024-03-22 | 广州金域医学检验中心有限公司 | 基于表型术语和变异基因的数据分析装置、介质和设备 |
CN117457068B (zh) * | 2023-06-30 | 2024-05-24 | 上海睿璟生物科技有限公司 | 基于多组学的功能性生物标记物筛选方法、系统、终端及介质 |
CN117877578A (zh) * | 2024-01-16 | 2024-04-12 | 广东劢智医疗科技有限公司 | 一种用于遗传变异分析的基因变异打分排序方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105506115A (zh) * | 2016-01-05 | 2016-04-20 | 华中科技大学同济医学院附属同济医院 | 一种检测诊断遗传性心肌病致病基因的dna文库及其应用 |
CN105861697A (zh) * | 2016-05-13 | 2016-08-17 | 万康源(天津)基因科技有限公司 | 一种基于家系的外显子组潜在致病变异检测系统 |
CN106575321A (zh) * | 2014-01-14 | 2017-04-19 | 欧米希亚公司 | 用于基因组分析的方法和系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9524373B2 (en) * | 2012-03-01 | 2016-12-20 | Simulconsult, Inc. | Genome-phenome analyzer and methods of using same |
US20140278133A1 (en) * | 2013-03-15 | 2014-09-18 | Advanced Throughput, Inc. | Systems and methods for disease associated human genomic variant analysis and reporting |
WO2015123600A1 (en) * | 2014-02-13 | 2015-08-20 | The Childrens's Mercy Hospital | Method and process for whole genome sequencing for genetic disease diagnosis |
-
2017
- 2017-11-24 CN CN201711189668.5A patent/CN110021364B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106575321A (zh) * | 2014-01-14 | 2017-04-19 | 欧米希亚公司 | 用于基因组分析的方法和系统 |
CN105506115A (zh) * | 2016-01-05 | 2016-04-20 | 华中科技大学同济医学院附属同济医院 | 一种检测诊断遗传性心肌病致病基因的dna文库及其应用 |
CN105861697A (zh) * | 2016-05-13 | 2016-08-17 | 万康源(天津)基因科技有限公司 | 一种基于家系的外显子组潜在致病变异检测系统 |
Non-Patent Citations (2)
Title |
---|
全外显子组序列分析新生儿FGFR2基因相关疾病1例;杨琳等;《中国循证儿科杂志》;20150205(第01期);全文 * |
高通量测序数据分析和临床诊断流程对新生儿多发畸形候选变异的筛选准确性研究;黎籽秀等;《中国循证儿科杂志》;20150205(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110021364A (zh) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110021364B (zh) | 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统 | |
Smoller | The use of electronic health records for psychiatric phenotyping and genomics | |
US10755804B2 (en) | Health information system for searching, analyzing and annotating patient data | |
EP3977343A1 (en) | Systems and methods of clinical trial evaluation | |
US10658073B2 (en) | Methods and systems for interpretation and reporting of sequence-based genetic tests using pooled allele statistics | |
AU2015284640B2 (en) | Methods and systems for interpretation and reporting of sequence-based genetic tests | |
CN109686439B (zh) | 遗传病基因检测的数据分析方法、系统及存储介质 | |
US20210375407A1 (en) | Diagnostic genomic predictions based on electronic health record data | |
EP3533066A1 (en) | Knowledge graph-based clinical diagnosis assistant | |
CN107103207B (zh) | 基于病例多组学变异特征的精准医学知识搜索系统及实现方法 | |
US20140067813A1 (en) | Parallelization of synthetic events with genetic surprisal data representing a genetic sequence of an organism | |
Hukku et al. | Analyzing and reconciling colocalization and transcriptome-wide association studies from the perspective of inferential reproducibility | |
CN111477295B (zh) | 一种基于隐语义模型的中医组方推荐方法及系统 | |
CN110570905A (zh) | 组学数据分析平台的构建方法、装置和计算机设备 | |
EP3120278A1 (en) | Methods and systems for genome comparison | |
US20210104330A1 (en) | Systems and methods for generating a genotypic causal model of a disease state | |
KR101693510B1 (ko) | 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법 | |
Pereira et al. | ICD9-based text mining approach to children epilepsy classification | |
Wang et al. | EHR2Vec: representation learning of medical concepts from temporal patterns of clinical notes based on self-attention mechanism | |
Kaswan et al. | AI-based natural language processing for the generation of meaningful information electronic health record (EHR) data | |
Cheong et al. | Towards Gender Fairness for Mental Health Prediction. | |
KR20180069651A (ko) | 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법 | |
Huang et al. | Study on patient similarity measurement based on electronic medical records | |
CN113284627A (zh) | 基于患者表征学习的用药推荐方法 | |
CN116956138A (zh) | 一种基于多模态学习的影像基因融合分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |