一种单基因病遗传变异智能解读及报告的方法和系统
技术领域
本发明涉及数字医疗技术领域,尤其涉及一种单基因病遗传变异智能解读及报告的方法和系统。
背景技术
新一代测序技术在单基因病的致病突变研究和医疗实践中的应用越来越广泛。近年来,大量的研究证实,全外显子测序是开展单基因病相关研究,对单基因病患者进行致病突变鉴定和分子诊断的理想方法之一。
然而,在精准医学应用层面,基于新一代测序技术在数据分析和临床解读方面还存在着很多问题,例如,现有的基因检测服务仅能够提供基本的基础数据分析,由于这些检测服务仅停留在科学研究层面,不能够直接对遗传变异进行鉴定和解读,因此还需专业的医生依据经验对上述基础数据分析解读后才能给出致病突变的结果,可见,这样通过人工解读的基础数据分析得到遗传变异报告的方式费时费力,效率极低,制约了精准医学的发展,阻碍了基于新一代测序相关产品和技术的推广。
发明内容
本发明的目的在于提供一种单基因病遗传变异智能解读及报告的方法,能够基于患者的基因原始序列数据自动分析出遗传变异的结果,并给出专业的遗传变异分析报告,提高了遗传变异的诊疗效率。
为了实现上述目的,本发明的一方面提供一种单基因病遗传变异智能解读及报告的方法,包括:
获取基因序列数据,并对基因序列数据进行属性标记;其中,基因检测模式为单样本检测模式时,基因序列数据为1组待测人员的基因序列数据,基因检测模式为家系检测模式时,基因序列数据为1组待测人员和至少1组待测人员直系亲属的基因序列数据;
分别将每组基因序列数据与人类参考基因组进行序列比对,得到对应数量的比对数据;
从每组比对数据中获取遗传变异的长度信息、位置信息和碱基改变信息,基于所述遗传变异的长度信息识别其变异类型,以及基于所述遗传变异的位置信息和碱基改变信息预测其变异功能,所述变异类型包括SNP变异和inDel变异,所述变异功能的类型包括变异有害、变异低害和基本无害;
针对每个遗传变异的变异类型识别结果,对遗传变异所在的基因和人群发生频率进行注释,并在家系检测模式时判断其家系遗传模式;
基于每个遗传变异的长度信息、位置信息、人群发生频率、预测的变异功能或家系遗传模式对遗传变异进行临床显著性分级,所述临床显著性分级包括致病、可能致病、致病性不明、可能良性和良性五种类型;
根据各遗传变异的变异类型、人群发生频率、预测的变异功能、临床显著性分级以及是否被数据库收录,获取各遗传变异的影响性评分;
通过待测人员所患的单基因病名称获取与之相关的多个基因,基于所述基因中各遗传变异的影响性评分、遗传变异的遗传模式以及基因对疾病的关联性,计算每个基因的致病性评分;
按照致病性评分值的大小降序输出所述基因,以及按照所述基因中影响性评分值的大小降序输出所述基因中的遗传变异,生成遗传分析解读报告。
优选地,分别将每组基因序列数据与人类参考基因组进行序列比对,得到对应数量的比对数据的方法包括:
针对获取的基因序列数据进行质量检测,对质量检测不合格的基因序列数据进行标记;
将质量检测合格的基因序列数据输入BWA软件,使其与人类参考基因hg19或人类参考基因hg38进行序列比对;
依次对各组比对结果进行去重、indel区域校正、碱基质量校正操作后得到多组比对数据;
所述比对数据的内容包括序列在染色体上的比对位置、比对质量、配对序列在染色体上的比对位置、插入片段长度、序列的碱基组成或序列质量。较佳地,从每组比对数据中获取遗传变异的长度信息、位置信息和碱基改变信息,基于所述遗传变异的长度信息识别其变异类型,以及基于所述遗传变异的位置信息和碱基改变信息预测其变异功能的方法包括:
利用Haplotyper Caller算法基于每组比对数据中遗传变异的长度信息,识别出所述遗传变异为SNP变异或者inDel变异;
当所述遗传变异为错义突变时,采用SIFT软件或者Polyphen2软件对所述遗传变异的变异功能进行预测;
当所述遗传变异为剪接位点变异时,采用HSF软件对所述遗传变异的变异功能进行预测。
进一步地,针对每个遗传变异的变异类型识别结果,对遗传变异所在的基因和人群发生频率进行注释,并在家系检测模式时判断其家系遗传模式的方法包括:
基于每个所述遗传变异的变异类型识别结果,通过公共数据库对所述遗传变异所在的基因和人群发生频率进行注释;
在基因检测模式为家系检测模式时,通过分析各组比对数据中遗传变异的位置信息判断其家系遗传模式,当各组比对数据中遗传变异的位置信息相关联时判断为家系遗传,否则判断为非家系遗传。
可选地,根据各遗传变异的变异类型、人群发生频率、预测的变异功能、临床显著性分级以及是否被数据库收录,获取各遗传变异的影响性评分的方法包括:
通过对每个遗传变异的证据的进行赋值,所述证据包括遗传变异的变异类型、人群发生频率、预测的变异功能、临床显著性分级、是否被数据库收录;
采用影响性评分公式分别计算每个遗传变异的影响性评分,其中,f为证据的数量,wi为第i各证据的权重,si为第i各证据的赋值。
优选地,基于所述基因中各遗传变异的影响性评分、遗传变异的遗传模式以及基因对疾病的关联性,计算每个基因的致病性评分的方法包括:
获取所述基因中的遗传变异,匹配出各遗传变异的影响性评分;
采用致病评分公式Scoreg=max(Scorev)+weSe+wtSt,分别计算每个基因的致病性评分,其中,max(Scorev)为基因中遗传变异的影响性评分最大值,se为所述基因对疾病的关联性赋值,st为遗传变异的遗传模式赋值,we为se的赋值权重,wt为st的赋值权重。
优选地,按照致病性评分值的大小降序输出所述基因,以及按照所述基因中影响性评分值的大小降序输出遗传变异,生成遗传分析解读报告的方法包括:
依次统计各基因的致病性评分,并按照致病性评分值的大小降序输出对应的基因名称;
基于任一基因名称中影响性评分值的大小降序输出对应的遗传变异;
筛选出致病性评分最大值的基因及其中影响性评分值最大的遗传变异,形成致病突变的推荐;
生成遗传分析解读报告,所述遗传分析解读报告的内容包括基因序列数据的个体信息、遗传分析解读结果和单基因病的临床特征。
与现有技术相比,本发明提供的基于病历特征匹配单基因病名称方法具有以下有益效果:
本发明提供的单基因病遗传变异智能解读及报告的方法中,具有两种基因检测模式,当基因检测模式为单样本检测模式时,需获取1组待测人员的基因序列数据即可完成遗传变异的推荐和解读报告的分析,而当基因检测模式为家系检测模式时,需要获取1组待测人员和至少1组待测人员直系亲属的基因序列数据,即可完成家系遗传中遗传变异的推荐和解读报告的分析。
具体地,将任一检测模式中的各组基因序列数据分别与人类参考基因组进行序列比对,得到对应的比对数据;并从比对数据中获取遗传变异的长度信息、位置信息和碱基改变信息,然后基于遗传变异的长度信息识别其变异类型,以及遗传变异的位置信息和碱基改变信息预测其变异功能,并对遗传变异所在的基因和人群发生频率进行注释,当在家系检测模式时还需判断其是否为家系内共分离遗传,紧接着,根据上述得到的遗传变异的长度信息、位置信息、人群发生频率、预测的变异功能或家系遗传模式对各遗传变异进行临床显著性分级,当每个遗传变异的变异类型、人群发生频率、预测的变异功能、临床显著性分级以及是否被数据库收录这些核心信息采集完毕后,依次对所有遗传变异的影响性评分;之后通过待测人员所患的单基因病名称获取相关的基因,然后将基因中的遗传变异与上述计算过影响性评分的遗传变异匹配,评估相关基因中遗传变异的影响性评分,进而通过基因的致病性评分公式,计算出每个基因的致病性评分,并按照致病性评分值的大小降序输出所述基因,以及按照所述基因中影响性评分值的大小降序输出所述基因中的遗传变异,生成遗传分析解读报告,其中致病性评分值越高则说明该基因致病的可能性越高,同理,基因中的遗传变异影响性评分值越高则说明遗传变异致病的可能性越高。
可见,本发明提供的单基因病遗传变异智能解读及报告的方法能够实现从基因序列数据到遗传变异突变和遗传分析解读报告的全程自动化,极大降低人工解读的工作量,大大提高了遗传变异分析和临床解读的效率,有利于单基因病精准医疗相关产品的推广。
本发明的另一方面提供一种单基因病遗传变异解读的系统,包括检测模式设置单元、基因序列数据比对单元、识别与功能预测单元、注释与遗传模式分析单元、致病性分级单元、影响性评分单元、致病性评分单元和致病突变推荐单元;
所述检测模式设置单元用于获取基因序列数据,并对基因序列数据进行属性标记;其中,基因检测模式为单样本检测模式时,基因序列数据为1组待测人员的基因序列数据,基因检测模式为家系检测模式时,基因序列数据为1组待测人员和至少1组待测人员直系亲属的基因序列数据;
所述基因序列数据比对单元用于分别将每组基因序列数据与人类参考基因组进行序列比对,得到对应数量的比对数据;
所述识别与功能预测单元用于从每组比对数据中获取遗传变异的长度信息、位置信息和碱基改变信息,基于所述遗传变异的长度信息识别其变异类型,以及基于所述遗传变异的位置信息和碱基改变信息预测其变异功能,所述变异类型包括SNP变异和inDel变异,所述变异功能的类型包括变异有害、变异低害和基本无害;
所述注释与遗传模式分析单元用于针对每个遗传变异的变异类型识别结果,对遗传变异所在的基因和人群发生频率进行注释,并在家系检测模式时判断其家系遗传模式;
所述致病性分级单元用于基于每个遗传变异的长度信息、位置信息、人群发生频率、预测的变异功能或家系遗传模式对遗传变异进行临床显著性分级,所述临床显著性分级包括致病、可能致病、致病性不明、可能良性和良性五种类型;
所述影响性评分单元用于根据各遗传变异的变异类型、人群发生频率、预测的变异功能、临床显著性分级以及是否被数据库收录,获取各遗传变异的影响性评分;
所述致病性评分单元用于通过待测人员所患的单基因病名称获取与之相关的多个基因,基于所述基因中各遗传变异的影响性评分、遗传变异的遗传模式以及基因对疾病的关联性,计算每个基因的致病性评分;
所述致病突变推荐单元用于按照致病性评分值的大小降序输出所述基因,以及按照所述基因中影响性评分值的大小降序输出所述基因中的遗传变异,生成遗传分析解读报告。
优选地,所述影响性评分单元包括证据赋值模块和第一计算模块;
所述证据赋值模块用于通过对每个遗传变异的证据的进行赋值,所述证据包括遗传变异的变异类型、人群发生频率、预测的变异功能、临床显著性分级、是否被数据库收录;
所述第一计算模块用于采用影响性评分公式分别计算每个遗传变异的影响性评分,其中,f为证据的数量,wi为第i各证据的权重,si为第i各证据的赋值。
进一步地,所述致病性评分单元包括匹配模块和第二计算模块;
所述匹配模块用于获取所述基因中的遗传变异,匹配出各遗传变异的影响性评分;
所述第二计算模块用于采用致病评分公式Scoreg=max(Scorev)+weSe+wtSt,分别计算每个基因的致病性评分,其中,max(Scorev)为基因中遗传变异的影响性评分最大值,se为所述基因对疾病的关联性赋值,st为遗传变异的遗传模式赋值,we为se的赋值权重,wt为st的赋值权重。
与现有技术相比,本发明提供的单基因病遗传变异智能解读及报告的系统有益效果与上述技术方案提供的单基因病遗传变异智能解读及报告的方法有益效果相同,在此不做赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例一中单基因病遗传变异智能解读及报告的方法流程示意图;
图2为本发明实施例二中单基因病遗传变异智能解读及报告的系统结构框图。
附图标记:
1-检测模式设置单元, 2-基因序列数据比对单元;
3-识别与功能预测单元, 4-注释与遗传模式分析单元;
5-致病性分级单元, 6-影响性评分单元;
7-致病性评分单元, 8-致病突变推荐单元。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
图1为本发明实施例一中单基因病遗传变异智能解读及报告的方法的流程示意图。请参阅图1,本实施例提供一种单基因病遗传变异智能解读及报告的方法,包括:
获取基因序列数据,并对基因序列数据进行属性标记;其中,基因检测模式为单样本检测模式时,基因序列数据为1组待测人员的基因序列数据,基因检测模式为家系检测模式时,基因序列数据为1组待测人员和至少1组待测人员直系亲属的基因序列数据;
分别将每组基因序列数据与人类参考基因组进行序列比对,得到对应数量的比对数据;
从每组比对数据中获取遗传变异的长度信息、位置信息和碱基改变信息,基于遗传变异的长度信息识别其变异类型,以及基于遗传变异的位置信息和碱基改变信息预测其变异功能,变异类型包括SNP变异和inDel变异,变异功能的类型包括变异有害、变异低害和基本无害;
针对每个遗传变异的变异类型识别结果,对遗传变异所在的基因和人群发生频率进行注释,并在家系检测模式时判断其家系遗传模式;
基于每个遗传变异的长度信息、位置信息、人群发生频率、预测的变异功能或家系遗传模式对遗传变异进行临床显著性分级,临床显著性分级包括致病、可能致病、致病性不明、可能良性和良性五种类型;
根据各遗传变异的变异类型、人群发生频率、预测的变异功能、临床显著性分级以及是否被数据库收录,获取各遗传变异的影响性评分;
通过待测人员所患的单基因病名称获取与之相关的多个基因,基于基因中各遗传变异的影响性评分、遗传变异的遗传模式以及基因对疾病的关联性,计算每个基因的致病性评分;
按照致病性评分值的大小降序输出基因,以及按照基因中影响性评分值的大小降序输出基因中的遗传变异,生成遗传分析解读报告。
本发明提供的单基因病遗传变异智能解读及报告的方法中,具有两种基因检测模式,当基因检测模式为单样本检测模式时,需获取1组待测人员的基因序列数据即可完成遗传变异的推荐和解读报告的分析,而当基因检测模式为家系检测模式时,需要获取1组待测人员和至少1组待测人员直系亲属的基因序列数据,即可完成家系遗传中遗传变异的推荐和解读报告的分析。
具体地,将任一检测模式中的各组基因序列数据分别与人类参考基因组进行序列比对,得到对应的比对数据;并从比对数据中获取遗传变异的长度信息、位置信息和碱基改变信息,然后基于遗传变异的长度信息识别其变异类型,以及遗传变异的位置信息和碱基改变信息预测其变异功能,并对遗传变异所在的基因和人群发生频率进行注释,当在家系检测模式时还需判断其是否为家系内共分离遗传,紧接着,根据上述得到的遗传变异的长度信息、位置信息、人群发生频率、预测的变异功能或家系遗传模式对各遗传变异进行临床显著性分级,当每个遗传变异的变异类型、人群发生频率、预测的变异功能、临床显著性分级以及是否被数据库收录这些核心信息采集完毕后,依次对所有遗传变异的影响性评分;之后通过待测人员所患的单基因病名称获取相关的基因,然后将基因中的遗传变异与上述计算过影响性评分的遗传变异匹配,评估相关基因中遗传变异的影响性评分,进而通过基因的致病性评分公式,计算出每个基因的致病性评分,并按照致病性评分值的大小降序输出基因,以及按照基因中影响性评分值的大小降序输出基因中的遗传变异,生成遗传分析解读报告,其中致病性评分值越高则说明该基因致病的可能性越高,同理,基因中的遗传变异影响性评分值越高则说明遗传变异致病的可能性越高。
可见,本发明提供的单基因病遗传变异智能解读及报告的方法能够实现从基因序列数据到遗传变异突变和遗传分析解读报告的全程自动化,极大降低人工解读的工作量,大大提高了遗传变异分析和临床解读的效率,有利于单基因病精准医疗相关产品的推广。
具体实施时,获取基因序列数据的方法多种多样,例如,可以由用户基于web界面导入高通量测序的基因序列数据,数据格式为fastq的gz压缩格式,常用的导入方法从本地计算机导入和通过ftp客户端导入,数据导入过程中会对数据进行完整性检查,对不完整的基因序列数据给予相应的提醒。其中,属性信息包括文件名、样本编号、平台、家系编号、个体编号、父亲编号、母亲编号、性别、表型、年龄、种族、居住地、籍贯、疾病名称、临床特征、病历资料、遗传模式等信息。
当属性标记的步骤完成后,还需对基因序列数据的质量进行检查,确保基因序列数据的质量是合格的,能够用于下游分析和解读。质量检查的指标包括:总序列数、序列长度、碱基质量、序列质量、碱基含量、GC含量、碱基水平N含量、序列长度分布、重复序列、过渡表达序列、接头序列、K-mer含量等。其中,该步骤中基因序列数据的检查方法为本领域技术人员常用的技术手段,在此不做赘述。
上述实施例中,分别将每组基因序列数据与人类参考基因组进行序列比对,得到对应数量的比对数据的方法包括:
针对获取的基因序列数据进行质量检测,对质量检测不合格的基因序列数据进行标记;将质量检测合格的基因序列数据输入BWA软件,使其与人类参考基因hg19或人类参考基因hg38进行序列比对;依次对各组比对结果进行去重、indel区域校正、碱基质量校正操作后得到多组比对数据;比对数据的内容包括序列在染色体上的比对位置、比对质量、配对序列在染色体上的比对位置、插入片段长度、序列的碱基组成或序列质量。
具体实施时,依次对各组比对结果进行去重、indel区域校正、碱基质量校正操作后得到多组比对数据的方法包括:
采用Picard MarkDuplicates软件对比对结果进行去重;对indel区域校正的方法为利用GATK RealignerTargetCreator软件产生indel列表,并追加1000基因组数据库中发现的已知indel位点,利用GATK IndelRealigner对这些indel区域进行局部重新比对,以实现indel区域的校正;碱基质量校正的方法为使用GATK BaseRecalibrator软件结合已知位点信息对碱基的质量分数进行校正。
这些操作步骤完成后,可针对比对数据进行汇总性分析,汇总性分析的内容包括比对数据的质量,以及双端测序的原始读序数目、比对到人类参考基因组上的读序数目、平均读序长度、indel的比例、正负链是否平衡等信息。另外,此阶段还可对靶向区域的序列覆盖情况进行观察,以获取基因组长度、靶向区域的长度、总读序数目、靶向区域的读序数目、非靶向区域的读序数目、靶向区域读序所占的比例、靶向区域的平均测序深度等信息。
进一步地,上述实施例中从每组比对数据中获取遗传变异的长度信息、位置信息和碱基改变信息,基于遗传变异的长度信息识别其变异类型,以及基于遗传变异的位置信息和碱基改变信息预测其变异功能的方法包括:
利用Haplotyper Caller算法基于每组比对数据中遗传变异的长度信息,识别出遗传变异为SNP变异或者inDel变异;当遗传变异为错义突变时,采用SIFT软件或者Polyphen2软件对遗传变异的变异功能进行预测;当遗传变异为剪接位点变异时,采用HSF软件对遗传变异的变异功能进行预测。
具体实施时,错义突变为单核苷酸突变的一种形式,是指编码氨基酸的密码子经过碱基替换后变成编码另一种氨基酸的密码子,从而使多肽链的氨基酸种类和序列发生改变,在对其功能预测的过程中,可采用SIFT软件预测氨基酸替换是否影响蛋白质功能,对由氨基酸突变引起的氨基酸改变的预测结果进行归一化评分,评分范围为[0,1],得分越低则表明危害性就越大,通常,分数<0.05代表变异有害(Deleterious),分数≥0.05代表变异低害(tolerate);也可采用Polyphen2软件通过整合蛋白质序列和蛋白质三维结构特征,来预测人类蛋白质的氨基酸替换对结构和功能的影响,Polyphen2的归一化评分范围为[0,1],分数越高,意味着有越大的破坏蛋白功能的可能性,通常分数在0.957~1之间,其相应的预测结果为变异有害(probably damage),在
0.453~0.956之间,其相应的预测结果为变异低害(possible dmage),在0~0.452之间其相应的预测结果为基本无害(benign),另外,剪接位点变异是指发生在基因剪接位点区域的变异,可能影响mRNA的剪接,通过HSF软件预测该变异是否导致剪切的改变,当能够导致剪切的改变时代表变异有害(Deleterious),否则代表变异低害(tolerate)。需要说明的是,上述评分及功能预测为本领域常用的评分方法,本实施例对此不做赘述。
进一步地,上述实施例中针对每个遗传变异的变异类型识别结果,对遗传变异所在的基因和人群发生频率进行注释,并在家系检测模式时判断其家系遗传模式的方法包括:
基于每个遗传变异的变异类型识别结果,通过公共数据库对遗传变异所在的基因和人群发生频率进行注释;在基因检测模式为家系检测模式时,通过分析各组比对数据中遗传变异的位置信息判断其家系遗传模式,当各组比对数据中遗传变异的位置信息相关联时判断为家系遗传,否则判断为非家系遗传。
具体实施时,根据公共数据库对遗传变异所在的基因、转录本、外显子位置、氨基酸改变、变异类型、以及在世界不同人群发生频率等进行注释。转录本参考NCBI RefSeq转录本数据库,对于有多个不同转录剪切的基因,采用包含最多外显子的转录本进行注释。人群频率信息来自于千人基因组(1000genomes)、ESP和gnomAD数据库。若基因检测模式为家系检测模式时,还需通过分析各组比对数据中遗传变异的位置信息判断其家系遗传模式,当各组比对数据中遗传变异的点位关联时判断为家系遗传,否则判断为非家系遗传,若基因检测模式为单样本检测模式时,则无需此步判断。需要说明的是,家系遗传的判断可通过现有仪器分析多组基因序列数据自动识别,本实施例对此不做赘述。
需要说明的是,上述实施例中基于每个遗传变异的长度信息、位置信息、人群发生频率、预测的变异功能或家系遗传模式对遗传变异进行临床显著性分级的方法包括:
参考美国医学遗传学和基因组学学会(The American College of MedicalGenetics and Genomics,ACMG)与美国分子病理协会(Association for MolecularPathology,AMP)提出的变异临床显著性的分级标准和指南,对遗传变异进行临床显著性分级。示例性地如下:
参与ACMG致病性分级的证据包括:
PVS1:当一个疾病的致病机制为功能丧失(LOF)时,无功能变异。
PS1:与先前已确定为致病性的变异有相同的氨基酸改变。
PS2:患者的新发变异,且无家族史。
PS3:体内、体外功能实验已明确会导致基因功能受损的变异。
PS4:变异出现在患病群体中的频率显著高于对照群体。
PM1:位于热点突变区域,和/或位于已知无良性变异的关键功能域。
PM2:ESP数据库、千人数据库、EXAC数据库中正常对照人群中未发现的变异。
PM3:在隐性遗传病中,在反式位置上检测到致病变异。
PM4:非重复区框内插入/缺失或终止密码子丧失导致的蛋白质长度变化。
PM5:新的错义突变导致氨基酸变化,此变异之前未曾报道,但是在同一位点,导致另外一种氨基酸的变异已经确认是致病性的。
PM6:未经父母样本验证的新发变异。
PP1:突变与疾病在家系中共分离(在家系多个患者中检测到此变异)
PP2:对某个基因来说,如果这个基因的错义变异是造成某种疾病的原因,并且这个基因中良性变异所占的比例很小,在这样的基因中所发现的新的错义变异。
PP3:多种统计方法预测出该变异会对基因或基因产物造成有害的影响,包括保守性预测、进化预测、剪接位点影响等。
PP4:变异携带者的表型或家族史高度符合某种单基因遗传疾病。
PP5:有可靠信誉来源的报告认为该变异为致病的,但证据尚不足以支持进行实验室独立评估。
BA1:ESP数据库、千人数据库、ExAC数据库中等位基因频率>5%的变异。
BS1:等位基因频率大于疾病发病率。
BS2:对于早期完全外显的疾病,在健康成年人中发现该变异(隐性遗传病发现纯合、显性遗传病发现杂合,或者X连锁半合子)。
BS3:在体内外实验中确认对蛋白质功能和剪接没有影响的变异。
BS4:在一个家系成员中缺乏共分离。
BP1:已知一个疾病的致病原因是由于某基因的截短变异,在此基因中所发现的错义变异。
BP2:在显性遗传病中又发现了另一条染色体上同一基因的一个已知致病变异,或者是任意遗传模式遗传病中又发现了同一条染色体上同一基因的一个已知致病变异。
BP3:功能未知重复区域内的缺失/插入,同时没有导致基因编码框改变。
BP4:多种统计方法预测出该变异会对基因或基因产物无影响,包括保守性预测、进化预测、剪接位点影响等。
BP5:在已经有另一分子致病原因的病例中发现的变异。
BP6:有可靠信誉来源的报告认为该变异为良性的,但证据尚不足以支持。
BP7:同义变异且预测不影响剪接。
遗传变异分级的联合规则包括:
致病(pathogenic),包括i、ii、iii中任一种情况:
i、包括1个非常强证据PVS1和a-d中任一种证据;
a、一个以上强证据(PS1-PS4)
b、2个以上中等证据(PM1-PM6)
c、1个中等证据(PM1-PM6)和1个支持证据(PP1-PP5)
d、≥2个支持证据(PP1-PP5);
ii、≥2个强证据(PS1-PS4);
iii、1个强证据(PS1)和a、b、c中任一种情况:
a、≥3个中等证据(PM1-PM6)
b、2个中等证据(PM1-PM6)和≥2个支持证据(PP1-PP5)
c、1个中等证据(PM1-PM6)和≥4个支持证据(PP1-PP5)。
可能致病(likely pathogenic),包括i-vi中任一种情况:
i、1个非常强证据(PVS1)和1个中等证据(PM1-PM6);
ii、1个强证据(PS1-PS4)和1-2个中等证据(PM1-PM6);
iii、1个强证据(PS1-PS4)和≥2个支持证据(PP1-PP5);
iv、≥3个中等证据(PM1-PM6);
v、2个中等证据(PM1-PM6)和≥2个支持证据(PP1-PP5);
vi、1个中等证据(PM1-PM6)和≥4个支持证据(PP1-PP5)。
良性(benign),包括i或ii中任一种情况:
i、1个独立证据(BA1);
ii、≥2个强证据(BS1-BS4)。
可能良性(likely benign),包括i或ii中任一种情况:
i、1个强证据(BS1-BS4)和1个支持证据(BP1-BP7);
ii、≥2个支持证据(BP1-BP7)。
致病性不明(uncertain significance),包括i或ii中任一种情况:
i、不满足上述标准或
ii、良性和致病标准相互矛盾。
可选地,为了保证遗传变异的数据有效性,可对部分遗传变异进行过滤,过滤的条件如下:第一种为过滤掉内含子上变异(intron_variant)、基因间的变异(intergenic_variant)、基因上游的变异(upstream_gene_variant)和基因下游的变异(downstream_gene_variant);第二种为过滤掉人群发生频率大于0.1的变异位点;第三种为过滤掉质量评估不合格的遗传变异。
具体地,上述实施例中根据各遗传变异的变异类型、人群发生频率、预测的变异功能、临床显著性分级以及是否被数据库收录,获取各遗传变异的影响性评分的方法包括:
通过对每个遗传变异的证据的进行赋值,所述证据包括遗传变异的变异类型、人群发生频率、预测的变异功能、临床显著性分级、是否被数据库收录;
采用影响性评分公式分别计算每个遗传变异的影响性评分,其中,f为证据的数量,wi为第i各证据的权重,si为第i各证据的赋值。
具体实施时,当变异类型为错义突变和剪接位点变异时赋值4分;当人群发生频率小于或等于10-4或者无消息时赋值1分,当人群发生频率处于10-4至10-3时赋值0.5分,当人群发生频率大于0.05时赋值-1分;当HSF软件预测的变异功能影响剪切时,则赋值2分,使用SIFT软件预测的变异功能为变异有害(Deleterious)时赋值1分,当预测的变异功能为变异低害(tolerate)时赋值-1分,使用Polyphen2软件预测的变异功能为变异有害(probablydamage)时赋值1分,当预测的变异功能为变异低害(possible dmage)时赋值0.5分,当预测的变异功能为基本无害(benign)时赋值-1分;临床显著性分级为致病时赋值3分,可能致病时赋值2分,致病性不明时赋值1分,可能良性时赋值-2分,良性时赋值-3分;数据库包括ClinVar数据库、UniProt数据库或本地数据库,当遗传变异被上述任何一个数据库中收录时,均可累积1分。通过影响性评分公式可分别计算每一遗传变异的影响性评分。
需要说明的是,上述实施例中通过待测人员所患的单基因病名称获取与之相关的多个基因的方法有两种:
第一种为根据用户输入的疾病名称和临床表型特征从公共数据库、
PubMed和CNKI等文献数据库中,利用数据库整合和文本挖掘技术抓取疾病相关的基因。
第二种是根据利用文本病历资料和标准化临床表型信息,采用基于病历特征匹配单基因病名称的方法对单基因病的名称进行推荐,并抓取疾病相关的基因,其中,基于病历特征匹配单基因病名称的方法包括:步骤S1,基于单基因病的公共数据库和文献数据库,建立临床特征与单基因病名称的特征关系数据库;步骤S2,判断患者提供的病历资料为自由文本格式时,执行步骤S3,为标准文本格式时,执行步骤S5;步骤S3,针对自由文本格式的病历资料进行分词处理,得到包括多个临床特征的第一集合;步骤S4,计算第一集合中的各临床特征分别与特征关系数据库中每种单基因病对应的临床特征的相似度值,并基于所述相似度值计算第一集合与特征关系数据库中对应单基因病的关联度评分值,执行步骤S7;步骤S5,从标准文本格式的病历资料中获取包括多个临床特征的第二集合,以及从特征关系数据库中获取每种单基因病对应临床特征的多个集合;步骤S6,采用临床特征富集度分析算法计算第二集合分别与特征关系数据库中各单基因病对应的临床特征集合的显著性值;步骤S7,将多个关联度评分值或者多个显著性值排序,并匹配输出与之对应的单基因病名称。
进一步地,上述实施例中的基于基因中各遗传变异的影响性评分、遗传变异的遗传模式以及基因对疾病的关联性,计算每个基因的致病性评分的方法包括:
获取基因中的遗传变异,匹配出各遗传变异的影响性评分;采用致病评分公式Scoreg=max(Scorev)+weSe+wtSt,分别计算每个基因的致病性评分,其中,max(Scorev)为基因中遗传变异的影响性评分最大值,se为基因对疾病的关联性赋值,st为遗传变异的遗传模式赋值,we为se的赋值权重,wt为st的赋值权重。
具体实施时,基于上述实施例中获取的待测人员的相关基因,分别提取各基因中的遗传变异,并与已计算出影响性评分的遗传变异匹配,得到上述相关基因中各遗传变异的影响性评分,然后采用致病评分公式Scoreg=max(Scorev)+weSe+wtSt,分别计算每个基因的致病性评分,其中,se为所述基因对疾病的关联性赋值,当所述基因为疾病关联的已知基因时赋值10分,其基因他赋值0分;st为遗传变异的遗传模式赋值,当遗传模式为家系遗传时赋值5分,否则赋值0分,we和wt的默认值均为1,并且在实际操作中根据情况可调。
较佳地,上述实施例中按照致病性评分值的大小降序输出基因,以及按照基因中影响性评分值的大小降序输出遗传变异,生成遗传分析解读报告的方法包括:
依次统计各基因的致病性评分,并按照致病性评分值的大小降序输出对应的基因名称;基于任一基因名称中影响性评分值的大小降序输出对应的遗传变异;筛选出致病性评分最大值的基因及其中影响性评分值最大的遗传变异,得到致病突变的推荐;生成遗传分析解读报告,遗传分析解读报告的内容包括基因序列数据的个体信息、遗传分析解读结果和单基因病的临床特征。可以理解的是,基因的评分越高则说明与疾病关联性越强,通过排序就可以使得最可能致病的基因出现在最前面;在同一个基因内部,变异评分越高,提示越有可能引起该疾病。
需要补充的是,使用本发明提供的单基因病遗传变异智能解读及报告的方法,还能够获取显示基因序列数据在遗传变异所在基因和外显子位置、参考基因组序列、遗传变异两侧的覆盖度、遗传变异两侧的比对质量、两侧变异分布等。
对单基因病可能致病的遗传变异进行人工检查后,自动生成遗传分析解读报告。遗传分析解读报告内容包括:基因序列数据的个体信息、遗传分析解读结果、相关单基因病的临床特征,个体信息包括:样本编号、姓名、性别、年龄、籍贯、居住地、疾病诊断、疾病描述等信息。遗传分析解读结果包括:致病突变的物理位置、基因名称、DNA改变、氨基酸改变、东亚人群频率、临床显著性分级、疾病及家系遗传模式。
实施例二
请参阅图1和图2,本实施例提供一种单基因病遗传变异智能解读及报告的系统,包括:
包括检测模式设置单元1、基因序列数据比对单元2、识别与功能预测单元3、注释与遗传模式分析单元4、致病性分级单元5、影响性评分单元6、致病性评分单元7和致病突变推荐单元8;
所述检测模式设置单元1用于获取基因序列数据,并对基因序列数据进行属性标记;其中,基因检测模式为单样本检测模式时,基因序列数据为1组待测人员的基因序列数据,基因检测模式为家系检测模式时,基因序列数据为1组待测人员和至少1组待测人员直系亲属的基因序列数据;
所述基因序列数据比对单元2用于分别将每组基因序列数据与人类参考基因组进行序列比对,得到对应数量的比对数据;
所述识别与功能预测单元3用于从每组比对数据中获取遗传变异的长度信息、位置信息和碱基改变信息,基于所述遗传变异的长度信息识别其变异类型,以及基于所述遗传变异的位置信息和碱基改变信息预测其变异功能,所述变异类型包括SNP变异和inDel变异,所述变异功能的类型包括变异有害、变异低害和基本无害;
所述注释与遗传模式分析单元4用于针对每个遗传变异的变异类型识别结果,对遗传变异所在的基因和人群发生频率进行注释,并在家系检测模式时判断其家系遗传模式;
所述致病性分级单元8用于基于每个遗传变异的长度信息、位置信息、人群发生频率、预测的变异功能或家系遗传模式对遗传变异进行临床显著性分级,所述临床显著性分级包括致病、可能致病、致病性不明、可能良性和良性五种类型;
所述影响性评分单元6用于根据各遗传变异的变异类型、人群发生频率、预测的变异功能、临床显著性分级以及是否被数据库收录,获取各遗传变异的影响性评分;
所述致病性评分单元7用于通过待测人员所患的单基因病名称获取与之相关的多个基因,基于所述基因中各遗传变异的影响性评分、遗传变异的遗传模式以及基因对疾病的关联性,计算每个基因的致病性评分;
所述致病突变推荐单元8用于按照致病性评分值的大小降序输出所述基因,以及按照所述基因中影响性评分值的大小降序输出所述基因中的遗传变异,生成遗传分析解读报告。
具体地,所述影响性评分单元包括证据赋值模块和第一计算模块;
所述证据赋值模块用于通过对每个遗传变异的证据的进行赋值,所述证据包括遗传变异的变异类型、人群发生频率、预测的变异功能、临床显著性分级、是否被数据库收录;
所述第一计算模块用于采用影响性评分公式分别计算每个遗传变异的影响性评分,其中,f为证据的数量,wi为第i各证据的权重,si为第i各证据的赋值。
具体地,所述致病性评分单元包括匹配模块和第二计算模块;
所述匹配模块用于获取所述基因中的遗传变异,匹配出各遗传变异的影响性评分;
所述第二计算模块用于采用致病评分公式Scoreg=max(Scorev)+weSe+wtSt,分别计算每个基因的致病性评分,其中,max(Scorev)为基因中遗传变异的影响性评分最大值,se为所述基因对疾病的关联性赋值,st为遗传变异的遗传模式赋值,we为se的赋值权重,wt为st的赋值权重。
与现有技术相比,本发明实施例提供的单基因病遗传变异智能解读及报告的系统的有益效果与上述实施例一提供的单基因病遗传变异智能解读及报告的方法有益效果相同,在此不做赘述。
本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。