CN115798579B - 一种遗传变异的证据判定方法、系统、装置及介质 - Google Patents

一种遗传变异的证据判定方法、系统、装置及介质 Download PDF

Info

Publication number
CN115798579B
CN115798579B CN202310077781.3A CN202310077781A CN115798579B CN 115798579 B CN115798579 B CN 115798579B CN 202310077781 A CN202310077781 A CN 202310077781A CN 115798579 B CN115798579 B CN 115798579B
Authority
CN
China
Prior art keywords
mutation
determining
site
evidence
variation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310077781.3A
Other languages
English (en)
Other versions
CN115798579A (zh
Inventor
雷文
陈西茜
杨彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhizaotonkang Guangzhou Biotechnology Co ltd
Original Assignee
Zhizaotonkang Guangzhou Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhizaotonkang Guangzhou Biotechnology Co ltd filed Critical Zhizaotonkang Guangzhou Biotechnology Co ltd
Priority to CN202310077781.3A priority Critical patent/CN115798579B/zh
Publication of CN115798579A publication Critical patent/CN115798579A/zh
Application granted granted Critical
Publication of CN115798579B publication Critical patent/CN115798579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请技术方案提供了一种遗传变异的证据判定方法、系统、装置以及介质,其中方法包括:构建致病性判定的自动判定任务,根据自动判定任务对目标家系进行全外显子组测序,得到目标家系全外显子组测序的原始数据;根据原始数据构建变异列表;对变异位点进行联合注释,得到注释后的测序文件;将判断过程的逻辑封装得到自动判定脚本,自动判定脚本通过提取注释信息及判定逻辑依次判定证据;采用自动判定脚本整合判定后的证据,通过整合后的证据对变异位点进行致病性分类。该方法提高ACMG评级给定的效率,取代了人工进行信息检索以及证据查验的方式,并使得致病性结果更为准确,可以广泛应用于基因检测技术领域。

Description

一种遗传变异的证据判定方法、系统、装置及介质
技术领域
本申请涉及基因检测技术领域,尤其涉及一种遗传变异的证据判定方法、系统、装置及介质。
背景技术
基因测序技术目前已广泛应用于临床,用于遗传病因探究、产前诊断筛查、肿瘤伴随诊断等多个领域。
随着近年来临床遗传变异检测量的激增,在进行遗传变异致病能力评判证据时,每一条证据均进行人工信息检索及判读,对人工的依赖较大,效率低下。部分软件可实现少量证据自动化地对变异进行部分证据的注释,然而在实际应用中,自动化程度低加上这些软件所给出的证据往往不准确,仍然给实际应用带来巨大困难。
发明内容
针对现有技术和软件存在的主要缺陷,本申请技术方案进行了相应的改进;其中,缺陷主要包括:
(1)现有技术并未将具体的受检者表型或待查疾病纳入考虑,因此无法准确给出某特定表型或者疾病条件下的相关证据。例如:本申请技术方案认为,需比较待查疾病的发病率与该位点人群频率的大小关系来判定是否给定BS1证据,才能大幅提高证据判定的准确性。而现有软件均不考量待测疾病情况,因此无法给定该证据。
(2)现有软件均不考量受检者的家系关系信息,而实际情况中多有受检者及其父母和其他近亲属均有检测结果的情况,如果采用家系关系信息并且进一步优化家系关系信息的使用方式,进行某些证据的判定,可以极大提高证据判定的准确性,因此相应的信息应该纳入至考量范围,并对相关证据进行判断。
(3)随着人类对疾病及基因的认知提高,基因变异与疾病的关联似乎不是简单的一一对应的关系,每个碱基的改变都有可能影响不同的表型。为了准确找寻与临床表型相关联的变异,需要通过全方位的数据来支持、判定各种ACMG的致病性证据。而现有软件自带的信息源不足,会直接影响了对某些变异的证据给定。在这种情况下,对变异评级的修订仍然需要人工对各项证据进行信息检索,耗费大量人力,十分考验变异解读人员的能力,在检测量激增时,如何提高ACMG评级给定的效率,使其不再成为限速步骤,是需要解决的主要问题之一。
因此,本申请技术方案提供一种方法,能够及时的获取新的证据数据源,通过对相关数据的本地化,结合各项基因与变异相关的公共信息源以及具体受检者表型、待测疾病、家系情况,可以采用R与Python等编程语言,完成各项信息的提取及ACMG证据的自动判定以及变异分类等级的鉴定。
本申请的主要目的在于提出一种判断更为准确,更为高效的遗传变异的证据判定方法、系统、装置及介质。
为实现上述目的,本申请实施例的第一方面提出了一种遗传变异的证据判定方法,所述方法包括:
构建致病性判定的自动判定任务,根据所述自动判定任务对目标家系进行全外显子组测序,得到目标家系全外显子组测序的原始数据;
根据所述原始数据构建变异列表,所述变异列表中包含至少一个变异位点;
对所述变异位点进行联合注释,得到注释后的测序文件;
判断所述测序文件中的致病证据;
将所述致病证据进行整合,根据整合后的致病证据对所述变异位点进行致病性分类;
其中,判断所述测序文件中的致病证据的过程,包括以下步骤至少之一:
确定所述变异位点在所述目标家系中出现共分离;
确定所述变异位点在顺式位置存在已知致病变异或确定所述变异位点在反式位置存在已知致病变异;
确定所述变异位点为双亲样本中未检测到的新发变异;
确定所述变异位点的人群频率;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括以下步骤:
确定所述变异位点在所述目标家系中出现共分离;
确定所述变异位点在顺式位置存在已知致病变异或确定所述变异位点在反式位置存在已知致病变异;
确定所述变异位点为双亲样本中未检测到的新发变异。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,判断所述测序文件中的致病证据的过程,包括以下步骤:
确定所述变异位点的人群频率;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,判断所述测序文件中的致病证据的过程,包括以下步骤:
确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括以下步骤:
确定所述变异位点在所述目标家系中出现共分离;
确定所述变异位点在顺式位置存在已知致病变异或确定所述变异位点在反式位置存在已知致病变异;
确定所述变异位点为双亲样本中未检测到的新发变异;
确定所述变异位点的人群频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括以下步骤:
确定所述变异位点在所述目标家系中出现共分离;
确定所述变异位点在顺式位置存在已知致病变异或确定所述变异位点在反式位置存在已知致病变异;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括以下步骤:
通过历史数据确定所述变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
在另一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括从以下每一组步骤中选择至少一个步骤:
第一组:
确定所述变异位点在所述目标家系中出现共分离;
确定所述变异位点在顺式位置存在已知致病变异或确定所述变异位点在反式位置存在已知致病变异;
确定所述变异位点为双亲样本中未检测到的新发变异;
第二组:
确定所述变异位点的人群频率;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
第三组:
确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括以下步骤:
确定所述变异位点在所述目标家系中出现共分离;
确定所述变异位点的人群频率;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括以下步骤:
确定所述变异位点在顺式位置存在已知致病变异或确定所述变异位点在反式位置存在已知致病变异;
通过历史数据确定变异位点致病性的第一频率;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括以下步骤:
确定所述变异位点在所述目标家系中出现共分离;
确定所述变异位点在顺式位置存在已知致病变异或确定所述变异位点在反式位置存在已知致病变异;
确定所述变异位点的人群频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
确定变异位点所在基因的非截短变异与截短变异的优势比。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括以下步骤:
确定所述变异位点在顺式位置存在已知致病变异或确定所述变异位点在反式位置存在已知致病变异;
确定所述变异位点为双亲样本中未检测到的新发变异;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括以下步骤:
确定所述变异位点在所述目标家系中出现共分离;
确定所述变异位点在顺式位置存在已知致病变异或确定所述变异位点在反式位置存在已知致病变异;
确定所述变异位点为双亲样本中未检测到的新发变异;
确定所述变异位点的人群频率;
通过历史数据确定变异位点致病性的第一频率;
确定变异位点所在基因的非截短变异与截短变异的优势比。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括以下步骤:
确定所述变异位点在所述目标家系中出现共分离;
确定所述变异位点在顺式位置存在已知致病变异或确定所述变异位点在反式位置存在已知致病变异;
确定所述变异位点为双亲样本中未检测到的新发变异;
确定所述变异位点的人群频率;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括以下步骤:
确定所述变异位点在所述目标家系中出现共分离;
确定所述变异位点在顺式位置存在已知致病变异或确定所述变异位点在反式位置存在已知致病变异;
确定所述变异位点为双亲样本中未检测到的新发变异;
确定所述变异位点的人群频率;
通过历史数据确定所述变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
进一步地,在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括以下步骤至少之一:
引入具有亲缘关系的样本数据,根据所述样本数据确定所述变异位点对应的表型和变异存在共分离;
引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异;
根据双亲的外显子变异数据,确定所述变异位点的变异为双亲样本中未检测到的新发变异;
确定所述变异位点的人群频率或确定隐性遗传病中极低频位点的人群频率,并确定所述人群频率高于人群发病率;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
对所述变异位点的变异类型和致病性进行统计,根据统计结果确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
例如,在一些可行的实施例中,判断所述测序文件中的致病证据的过程,包括以下步骤:
引入具有亲缘关系的样本数据,根据所述样本数据确定所述变异位点对应的表型和变异存在共分离;
引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异;
根据双亲的外显子变异数据,确定所述变异位点的变异为双亲样本中未检测到的新发变异。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括以下步骤:
确定所述变异位点的人群频率或确定隐性遗传病中极低频位点的人群频率,并确定所述人群频率高于人群发病率;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括以下步骤:
对所述变异位点的变异类型和致病性进行统计,根据统计结果确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括以下步骤:
引入具有亲缘关系的样本数据,根据所述样本数据确定所述变异位点对应的表型和变异存在共分离;
根据双亲的外显子变异数据,确定所述变异位点的变异为双亲样本中未检测到的新发变异;
确定所述变异位点的人群频率或确定隐性遗传病中极低频位点的人群频率,并确定所述人群频率高于人群发病率。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括以下步骤:
引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异;
根据双亲的外显子变异数据,确定所述变异位点的变异为双亲样本中未检测到的新发变异;
通过历史数据确定变异位点致病性的第一频率。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括以下步骤:
引入具有亲缘关系的样本数据,根据所述样本数据确定所述变异位点对应的表型和变异存在共分离;
引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,包括从以下每一组步骤中选择至少一个步骤:
第一组:
引入具有亲缘关系的样本数据,根据所述样本数据确定所述变异位点对应的表型和变异存在共分离;
引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异;
根据双亲的外显子变异数据,确定所述变异位点的变异为双亲样本中未检测到的新发变异;
第二组:
确定所述变异位点的人群频率或确定隐性遗传病中极低频位点的人群频率,并确定所述人群频率高于人群发病率;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
第三组:
对所述变异位点的变异类型和致病性进行统计,根据统计结果确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
例如,在一些可行的实施例中,判断所述测序文件中的致病证据的过程,包括以下步骤:
引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异;
确定所述变异位点的人群频率或确定隐性遗传病中极低频位点的人群频率,并确定所述人群频率高于人群发病率;
对所述变异位点的变异类型和致病性进行统计,根据统计结果确定变异位点所在基因的非截短变异与截短变异的优势比。
例如,在一些可行的实施例中,判断所述测序文件中的致病证据的过程,包括以下步骤:
引入具有亲缘关系的样本数据,根据所述样本数据确定所述变异位点对应的表型和变异存在共分离;
通过历史数据确定变异位点致病性的第一频率;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
例如,在一些可行的实施例中,判断所述测序文件中的致病证据的过程,包括以下步骤:
引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异;
根据双亲的外显子变异数据,确定所述变异位点的变异为双亲样本中未检测到的新发变异;
通过历史数据确定变异位点致病性的第一频率;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
例如,在一些可行的实施例中,判断所述测序文件中的致病证据的过程,包括以下步骤:
引入具有亲缘关系的样本数据,根据所述样本数据确定所述变异位点对应的表型和变异存在共分离;
根据双亲的外显子变异数据,确定所述变异位点的变异为双亲样本中未检测到的新发变异;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
对所述变异位点的变异类型和致病性进行统计,根据统计结果确定变异位点所在基因的非截短变异与截短变异的优势比。
例如,在一些可行的实施例中,判断所述测序文件中的致病证据的过程,包括以下步骤:
引入具有亲缘关系的样本数据,根据所述样本数据确定所述变异位点对应的表型和变异存在共分离;
引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异;
根据双亲的外显子变异数据,确定所述变异位点的变异为双亲样本中未检测到的新发变异;
确定所述变异位点的人群频率或确定隐性遗传病中极低频位点的人群频率,并确定所述人群频率高于人群发病率;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
对所述变异位点的变异类型和致病性进行统计,根据统计结果确定变异位点所在基因的非截短变异与截短变异的优势比。
例如,在一些可行的实施例中,判断所述测序文件中的致病证据的过程,包括以下步骤:
引入具有亲缘关系的样本数据,根据所述样本数据确定所述变异位点对应的表型和变异存在共分离;
引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异;
根据双亲的外显子变异数据,确定所述变异位点的变异为双亲样本中未检测到的新发变异;
确定所述变异位点的人群频率或确定隐性遗传病中极低频位点的人群频率,并确定所述人群频率高于人群发病率;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
对所述变异位点的变异类型和致病性进行统计,根据统计结果确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,还包括以下步骤至少之一:
确定所述变异位点位于热点突变区域和/或位于已知无良性变异的功能域;
确定所述变异位点对蛋白质功能的影响;
根据注释信息确定所述变异位点的变异类型。
例如,在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,还包括以下步骤:
确定所述变异位点位于热点突变区域和/或位于已知无良性变异的功能域;
确定所述变异位点对蛋白质功能的影响;
根据注释信息确定所述变异位点的变异类型。
在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,还包括以下步骤至少之一:
确定所述变异位点位于热点突变区域和/或位于已知无良性变异的功能域;
根据变异对基因以及基因产物的影响,确定所述变异位点对蛋白质功能的影响;
根据注释信息确定所述变异位点的变异类型,根据所述变异类型确定剪切位点预测信息。
在一些可行的实施例中,一种遗传变异的证据判定方法,其中,根据变异对基因以及基因产物的影响,确定所述变异位点对蛋白质功能的影响,包括:
对所述测序文件中的所述变异位点进行功能性预测;所述功能性预测包括:蛋白进化保守性预测、蛋白结构功能类预测、同源性类预测、区分等位基因多态性类预测以及核酸进化保守性预测;
确定功能性预测结果中存在三个及以上的良性预测结果或三个以上有害预测结果,输出得到蛋白质功能影响的结果。
在一些可行的实施例中,一种遗传变异的证据判定方法,其中,确定所述变异位点的人群频率或确定隐性遗传病中极低频位点的人群频率,并确定所述人群频率高于人群发病率,包括:
获取包含遗传病人群发病率信息的发病率列表,从所述发病率列表中获取目标疾病的人群发病率;
获取所述变异位点的人群频率或获取隐性遗传病中极低频位点的人群频率;
将所述人群频率与所述人群发病率进行对比,根据对比结果输出人群频率判断结果。
在一些可行的实施例中,一种遗传变异的证据判定方法,其中,通过历史数据确定变异位点致病性的第一频率,包括:
根据所述变异位点在第一目标数据库中的临床分级以及在所述第一目标数据库中的检查状态信息提取变异致病记录,根据所述变异致病记录的数量确定所述第一频率;
或者,根据所述变异位点在第一目标数据库中的临床分级以及在第一目标数据库中的检查状态信息提取变异良性记录,根据所述变异良性记录的数量确定所述第一频率。
在一些可行的实施例中,一种遗传变异的证据判定方法,其中,确定所述变异位点对应的受检者符合早期完全外显疾病的症状,包括:
构建早期完全外显疾病的疾病列表,根据所述变异位点所对应的受检者表型在所述疾病列表中进行匹配,确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
在一些可行的实施例中,一种遗传变异的证据判定方法,其中,根据注释信息确定所述变异位点的变异类型,根据所述变异类型确定剪切位点预测信息,包括:
根据所述注释信息在第二目标数据库中进行匹配,得到相似位点;
获取所述相似位点所注释的剪切位点预测信息;
确定所述相似位点与所述变异位点为同义变异,且所述剪切位点预测信息为良性,输出得到变异类型。
在一些可行的实施例中,一种遗传变异的证据判定方法,其中,确定所述变异位点位于热点突变区域和/或位于已知无良性变异的功能域,包括:
根据预设氨基酸范围以及变异位点构建候选区域;
提取所述候选区域中存在变异数据的候选位点,确定所述候选位点的数量不小于预设数值,确定所述候选区域为变异区域;
将所述变异区域在第三目标数据库中进行对比,根据对比结果确定功能域,根据所述候选位点以及所述变异位点确定所述功能域中所有的变异位点信息。
在一些可行的实施例中,一种遗传变异的证据判定方法,其中,对所述变异位点的变异类型和致病性进行统计,根据统计结果确定变异位点所在基因的非截短变异与截短变异的优势比,包括:
获取所述变异位点中良性的非截短变异的第一统计值;
获取所述变异位点中致病的非截短变异的第二统计值;
获取所述变异位点中良性的截短变异的第三统计值;
获取所述变异位点中致病的截短变异的第四统计值;
根据所述第一统计值与所述第二统计值的比值确定第一中间值,根据所述第三统计值与所述第四统计值的比值确定第二中间值,根据所述第一中间值与所述第二中间值的比值确定所述优势比。
在一些可行的实施例中,一种遗传变异的证据判定方法,其中,引入具有亲缘关系的样本数据,根据所述样本数据确定所述变异位点对应的表型和变异存在共分离,包括:
当目标疾病在所述目标家系中存在一个以上目标患者,且所述目标患者的基因中携带有所述变异位点,且非目标患者的基因中不携带有所述变异位点,确定所述变异位点在所述目标家系中出现共分离。
在一些可行的实施例中,一种遗传变异的证据判定方法,其中,引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异,包括:
当目标疾病为隐性遗传病,且所述变异位点以及已知致病位点来源于父母,确定反式位置存在已知致病变异;
当目标疾病为显性遗传病,且所述变异位点以及已知致病位点来源于父母;或者,当目标疾病为隐性遗传病,且所述变异位点以及已知致病位点来源于同一亲本,确定是顺式位置存在已知致病变异。
在一些可行的实施例中,一种遗传变异的证据判定方法,其中,根据双亲的外显子变异数据,确定所述变异位点的变异为双亲样本中未检测到的新发变异,包括:
确定所述变异位点属于双亲样本中未检测到的新发变异,并对所述新发变异在双亲样本中进行检测,根据所述检测结果确定所述新发变异无家族史。
在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,还包括以下步骤至少之一:
确定所述变异位点对应目标疾病的致病机制;
确定与所述变异位点存在相同氨基酸变换的致病性变异;
确定所述变异位点属于重复区域中的插入或者缺失,或者,确定所述变异位点属于非重复区域中的插入或者缺失;
确定所述变异位点的氨基酸变化为错义突变。
在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程,还包括以下步骤:
确定所述变异位点对应目标疾病的致病机制;
确定与所述变异位点存在相同氨基酸变换的致病性变异;
确定所述变异位点属于重复区域中的插入或者缺失,或者,确定所述变异位点属于非重复区域中的插入或者缺失;
确定所述变异位点的氨基酸变化为错义突变。
在一些可行的实施例中,一种遗传变异的证据判定方法,其中,判断所述测序文件中的致病证据的过程为:将判断过程的逻辑封装得到自动判定脚本,自动判定脚本通过提取注释信息及判定逻辑依次判定证据(是否符合判定逻辑)。
在一些可行的实施例中,一种遗传变异的证据判定方法,其中,将所述致病证据进行整合,根据整合后的所述致病证据对所述变异位点进行致病性分类,包括:采用自动判定脚本整合判定后的证据,通过整合后的证据对变异位点进行致病性分类,得到致病性分类。
第二方面,本申请实施例提出了一种基因测序变异结果的致病性检测系统,所述致病性检测系统包括:
第一模块,用于构建致病性判定的自动判定任务,根据所述自动判定任务对目标家系进行全外显子组测序,得到所述目标家系全外显子组测序的原始数据;
第二模块,用于根据所述原始数据构建变异列表,所述变异列表中包含至少一个变异位点;
第三模块,用于对所述变异位点进行联合注释,得到注释后的测序文件;
第四模块,用于判断所述测序文件中的致病证据;
第五模块,用于整合所述致病证据,并根据整合后的致病证据对变异位点进行致病性分类;
其中,判断所述测序文件中的致病证据的过程,包括以下步骤至少之一:
确定所述变异位点在所述目标家系中出现共分离;
确定所述变异位点在顺式位置存在已知致病变异或确定所述变异位点在反式位置存在已知致病变异;
确定所述变异位点为双亲样本中未检测到的新发变异;
确定所述变异位点的人群频率;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
在一些可行的实施方式中,一种基因测序变异结果的致病性检测系统,所述致病性检测系统的第四模块可以用于将判断过程的逻辑封装得到自动判定脚本,自动判定脚本通过提取注释信息及判定逻辑依次判定证据。
在一些可行的实施方式中,一种基因测序变异结果的致病性检测系统,所述系统的第五模块可以用于通过自动判定脚本整合判定后的致病证据,根据整合后的致病证据对变异位点进行致病性分类。
在一些可行的实施方式中,一种基因测序变异结果的致病性检测系统,其在执行计算机程序时实现本发明中第一方面中所述的遗传变异的证据判定方法。
在一些可行的实施方式中,一种基因测序变异结果的致病性检测系统,其中,所述第四模块中判断所述测序文件中的致病证据的过程,包括以下步骤至少之一:
引入具有亲缘关系的样本数据,根据所述样本数据确定所述变异位点对应的表型和变异存在共分离;
引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异;
根据双亲的外显子变异数据,确定所述变异位点的变异为新发变异;
确定所述变异位点的人群频率或确定隐性遗传病中极低频位点的人群频率,并确定所述人群频率高于人群发病率;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
对所述变异位点的变异类型和致病性进行统计,根据统计结果确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
在一些可行的实施方式中,一种基因测序变异结果的致病性检测系统,其中,所述第四模块中判断所述测序文件中的致病证据的过程,包括从以下每一组步骤中选择至少一个步骤:
第一组:
确定所述变异位点在所述目标家系中出现共分离;
确定所述变异位点在顺式位置存在已知致病变异或确定所述变异位点在反式位置存在已知致病变异;
确定所述变异位点为双亲样本中未检测到的新发变异;
第二组:
确定所述变异位点的人群频率;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
第三组:
确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
在一些可行的实施方式中,一种基因测序变异结果的致病性检测系统,其中,所述第四模块中判断所述测序文件中的致病证据的过程,包括从以下每一组步骤中选择至少一个步骤:
第一组:
引入具有亲缘关系的样本数据,根据所述样本数据确定所述变异位点对应的表型和变异存在共分离;
引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异;
根据双亲的外显子变异数据,确定所述变异位点的变异为双亲样本中未检测到的新发变异;
第二组:
确定所述变异位点的人群频率或确定隐性遗传病中极低频位点的人群频率,并确定所述人群频率高于人群发病率;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
第三组:
对所述变异位点的变异类型和致病性进行统计,根据统计结果确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
在一些可行的实施方式中,一种基因测序变异结果的致病性检测系统,其中,所述第四模块中判断所述测序文件中的致病证据的过程,还包括以下步骤至少之一:
确定所述变异位点位于热点突变区域,和/或位于已知无良性变异的功能域;
确定所述变异位点对蛋白质功能的影响;
根据注释信息确定所述变异位点的变异类型。
在一些可行的实施方式中,一种基因测序变异结果的致病性检测系统,其中,所述第四模块中判断所述测序文件中的致病证据的过程,还包括以下步骤至少之一:
确定所述变异位点位于热点突变区域,和/或位于已知无良性变异的功能域;
根据变异对基因以及基因产物的影响,确定所述变异位点对蛋白质功能的影响;
根据注释信息确定所述变异位点的变异类型,根据所述变异类型确定剪切位点预测信息。
为实现上述目的,本申请实施例的第三方面提出了一种基因测序变异结果的致病性检测装置,所述致病性检测装置包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述本发明第一方面所述的一种遗传变异的证据判定方法。
为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述本发明第一方面所述的一种遗传变异的证据判定方法。
本申请提出的一种遗传变异的证据判定方法、系统和装置及存储介质,其中,本发明方法及时地获取新的证据数据源,通过对相关数据的本地化,结合各项基因与变异相关的公共信息源以及具体受检者表型、待测疾病、家系情况,完成各项信息的提取及ACMG证据的自动判定以及变异分类等级的鉴定。
本发明重点引入了家系内双亲及其他有亲缘关系的样本数据,同时引入待测疾病参数,针对具体家系进行具体分析,扩大了自动判定的证据范围,同时针对现有软件中的部分证据的判断逻辑进行了修订。因此,与现有技术相比,一方面提高ACMG评级给定的效率,取代了人工进行信息检索以及证据查验的方式,更能节省人工成本,提高处理效率,另一方面,本发明方法通过全方位的数据来支持各种ACMG的致病性证据,使得判定得到的致病性结果更为准确。
附图说明
图1为本申请技术方案中提供的一种遗传变异的证据判定方法的步骤流程图。
图2为本申请技术方案中致病证据的判断过程的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
为了规范对遗传变异致病能力的评定,美国医学遗传学与基因组学学会(ACMG)曾制定过序列变异解读指南。该指南提出了致病变异分级标准证据分为四类:非常强(PVS1)、强(PS1-4)、中等(PM1-6)、支持证据(PP1-5),良性变异分类标准分为三类:独立证据(BA1)、强(BS1-4)、支持证据(BP1-7)。依据各项标准证据,将遗传变异分为五类:致病的、可能致病的、良性的、可能良性的、意义不明确的。作为临床基因检测规范标准之一,所有临床遗传变异检测均需要在标准报告中,给出所检出的所有遗传变异的分类等级判定以及相应的ACMG支持性证据。作为辅助受检者及医生做临床决策的重要证据,因此ACMG变异等级判定及相应支持性证据的给出是临床遗传变异检测必要的一环,意义重大,需要极高的准确性。
在ACMG序列变异解读指南的基础上,如图1所示,是本申请实施例提供的一种遗传变异的证据判定方法的一个可选的流程图,图1中的方法可以包括但不限于包括步骤S101至步骤S105:
步骤S101,构建致病性判定的自动判定任务,根据所述自动判定任务对目标家系进行全外显子组测序,得到目标家系全外显子组测序的原始数据;
具体在实施例中,可以基于二代测序方法,对三人及以上家系做全外显子组测序,获取目标家系全外显子组测序原始数据。
步骤S102,根据所述原始数据构建变异列表,所述变异列表中包含至少一个变异位点;
具体在实施例中,在获取了家系全外显子组测序原始数据的基础上,经过质控比对获得bam文件,在得到bam文件的基础上,实施例通过GATK工具,获取vcf格式的变异列表,实施例中的变异列表中,包含了多个变异位点的信息。
步骤S103,对所述变异位点进行联合注释,得到注释后的测序文件;
具体在实施例中,可以利用annovar注释工具,对变异位点进行多种类型、多个数据库(refGene,refGeneWithVer,cytoBand,clinvar,dbnsfp42a,gnomad211_exome,intervar,popfreq_all,dbscsnv11)的联合注释,类型分别是:基于基因的注释(gene-baseannotation)、基于区域的注释(region-base annotation)、基于过滤的注释(filter-baseannotation),指定文件输出格式为vcf文件。
步骤S104,判断所述测序文件中的致病证据;
步骤S105,将所述致病证据进行整合,根据整合后的所述致病证据对所述变异位点进行致病性分类。
其中,步骤S105得到的致病性分类即为本发明的致病性检测结果。
具体在实施例中,根据实施例中给出的判定证据,统计各类证据:致病证据(非常强,强,中等,支持证据)、良性证据(独立证据,强,支持证据)的个数。按照表1所示的规则进行致病性分类。将变异位点致病性分为五个等级(致病的,可能致病的,良性的,可能良性的,意义不明确的)。
表1
进一步地,在实施例中,所述致病证据的判断过程,可以包括以下至少之一:
a)根据变异对基因以及基因产物的影响确定所述变异位点对蛋白质功能的影响;
b)确定所述变异位点的人群频率或确定隐性遗传病中极低频位点的人群频率,并确定所述人群频率高于人群发病率;
c)通过历史数据确定所述变异位点致病性的第一频率;
d)确定所述变异位点对应的受检者符合早期完全外显疾病的症状;
e)根据所述注释信息确定所述变异位点的变异类型,根据所述变异类型确定剪切位点预测信息;
f)确定所述变异位点位于热点突变区域,和/或位于已知无良性变异的功能域;
g)获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
h)对所述变异位点的变异类型和致病性进行统计,根据统计结果确定变异位点所在基因的非截短变异与截短变异的优势比;
i)引入具有亲缘关系的样本数据,根据所述样本数据确定所述变异位点对应的表型和变异存在共分离;
j)引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异;
k)根据双亲的外显子变异数据,确定所述变异位点的变异为双亲样本中未检测到的新发变异。
其中,在一些实施例中,所述致病证据的判断过程包括i)、j)、k)中的至少之一。
其中,在一些实施例中,所述致病证据的判断过程包括b)、c)、g)中的至少之一。
其中,在一些实施例中,所述致病证据的判断过程包括d)、h)中的至少之一。
在实施例中,如图2所示,为更加便于对致病证据进行描述,可以采用如下的字符组合进行描述:
PS2:是指患者的新发变异,且无家族史(经双亲验证)。需要说明的是,实施例中双亲验证确认,不仅限于父母样本,还需包括捐卵、胚胎移植的差错等情况。
PM3:是指在隐性遗传病中,在反式位置上检测到致病变异。需要说明的是,实施例中这种情况必须通过患者父母或后代验证。
PM6:是指未经父母样本验证的新发变异。
PP1:是指突变与疾病在家系中共分离,即在家系多个患者中检测到此变异。另外,实施过程中若存在有更多的证据,可作为更强的证据。
PP4:是指变异携带者的表型或家族史高度符合某种单基因遗传疾病。
BS4:是指在一个家系成员中缺乏共分离。
BP2:是指在显性遗传病中又发现了另一条染色体上同一基因的一个已知致病变异,或者是任意遗传模式遗传病中又发现了同一条染色体上同一基因的一个已知致病变异。
BP5:是指在已经有另一分子致病原因的病例中发现的变异。
PS4:是指变异出现在患病群体中的频率显著高于对照群体。具体在实施例中,可选择使用相对风险值或者OR值来评估,建议位点OR大于5.0且置信区间不包括1.0的可列入此项。另外,极罕见的变异在病例对照研究可能无统计学意义,原先在多个具有相同表型的患者中观察到该变异且在对照中未观察到可作为中等水平证据。
PM1:是指位于热点突变区域,和/或位于已知无良性变异的关键功能域,例如酶的活性位点。
PM2:是指ESP数据库、千人数据库、EXAC数据库中正常对照人群中未发现的变异或隐性遗传病中极低频位点。需要说明的是,实施例中高通量测序得到的插入/缺失人群数据质量较差。
PP2:其表明对某个基因来说,如果这个基因的错义变异是造成某种疾病的原因,并且这个基因中良性变异所占的比例很小,在这样的基因中所发现的新的错义变异。
PP3:是指多种统计方法预测出该变异会对基因或基因产物造成有害的影响,包括保守性预测、进化预测、剪接位点影响等。需要说明的是,由于做预测时许多生物信息学算法使用相同或非常相似的输入,每个算法不应该算作一个独立的标准。并且,PP3在一个任何变异的评估中只能使用一次。
PP5:是指有可靠信誉来源的报告认为该变异为致病的,但证据尚不足以支持进行实验室独立评估。
BA1:是指ESP数据库、千人数据库、EXAC数据库中等位基因频率>5%的变异。
BS1:是指等位基因频率大于疾病发病率。
BS2:是指对于早期完全外显的疾病,在健康成年人中发现该变异,或者隐性遗传病发现纯合、显性遗传病发现杂合,或者X连锁半合子。
BP1:是指已知一个疾病的致病原因是由于某基因的截短变异,在此基因中所发现的错义变异。
BP4:是指多种统计方法预测出该变异会对基因或基因产物无影响,包括保守性预测、进化预测、剪接位点影响等。需要说明的是,由于做预测时许多生物信息算法使用相同或非常相似的输入,每个算法不应该算作一个独立的标准。BP4在任何一个变异的评估中只能使用一次。
BP6:是指有可靠信誉来源的报告认为该变异为良性的,但证据尚不足以支持进行实验室独立评估。
BP7:是指同义变异且预测不影响剪接。
实施例中通过这21个证据对待分类变异进行五类评级:意义不明确(Uncertain_significance)、可能良性(Likely_benig)、良性(Benign),可能致病(Likely_pathogenic)以及致病(Pathogenic)。
本申请技术方案的实施例从受试者表型、待查疾病的发病率与该位点人群频率大小关系、亲缘/家系关系信息、碱基位点改变与表型关系等方面深入挖掘,并且经过验证和摸索,建立“热点突变(变异)区域”的具体定义和判断,利用统计检验确认是否为错义变异致病/截短变异致病,从而进一步提高了证据判断的正确性,并且从部分证据的数据来源、判断参数等方面设置,实现了判断的自动化。据此,实施例中提出的证据判定方法既高效,又准确。
示例性地,在PP1,BS4中引入具有亲缘关系的样本数据,判断表型和变异是否存在共分离;在PM1中提出并优化了关于“热点突变区域”具体定义和判断,避免遗漏掉部分重点区域及导致注释错误;在BA1,PM2,BS1引入待测疾病参数,辅助判断“隐性遗传病中极低频位点”,以及“等位基因频率大于疾病发病率”条件;在PP2和BP1中,对clinvar上位点的变异类型和变异的致病性进行统计,并利用统计检验确认其是否为错义变异致病/截短变异致病;在PP3和BP4中选用覆盖不同类型(包括进化保守性,蛋白结构功能,同源性,等位基因多态性)的多个软件/数据库来源;并且进一步实现例如证据PS2、PM6、PM3、BP2、PS4、PP5、BP7等的自动化。本申请技术方案相较于传统的判定方法而言,实现了证据的自动化判定,证据齐全,准确度高,更具有可信度。
具体在实施例中,将步骤中的对致病性进行判定的过程进行封装得到对应的脚本文件,通过该脚本文件可以构建后续的自动判定任务,自动判定变异位点是否致病。
在一些可行的实施例中,方法中根据变异对基因以及基因产物的影响确定所述变异位点对蛋白质功能的影响这一过程,可以包括步骤S201-S202:
S201、对所述测序文件中的所述变异位点进行功能性预测;所述功能性预测包括:蛋白进化保守性预测、蛋白结构功能类预测、同源性类预测、区分等位基因多态性类预测以及核酸进化保守性预测;
S202、确定功能性预测结果中存在三个及以上的良性预测结果或三个及以上有害预测结果,输出得到蛋白质功能影响的结果。
具体在实施例中,根据变异对基因以及基因产物的影响确定所述变异位点对蛋白质功能的影响的过程是PP3,BP4证据判断过程。PP3及BP4均依据不同统计方法预测该变异对蛋白质的功能影响的结果,当多种统计方法预测出该变异会对基因或基因产物造成有害的影响时,给出PP3证据,当多种统计方法预测出该变异会对基因或基因产物无影响时,给出BP4证据。预测方法需包含保守性预测、进化预测、剪接位点影响等。因此针对PP3,BP4两项证据,实施例中所提供的判断过程如下:
对所有错义变异,利用python的pyvcf包提取annovar中dbnsfp42a数据库注释的以下五类功能性预测信息的结果:
(1)蛋白进化保守性预测:SIFT,FATHMM;如果两软件预测结果一致,保留该类预测结果,若不一致,该证据不做判断;
(2)蛋白结构功能类预测:MutationTaster,Polyphen2;两者预测软件结果一致,保留该类预测结构,若不一致该证据不做判断;
(3)同源性类预测:PROVEN;
(4)区分等位基因多态性类的预测:CADD;
(5)核酸进化保守性预测:Phylop;
以上五类证据有三类及以上属于有害或可能有害,保留证据PP3,有三类证据属于良性或可能良性,保留证据BP4。
实施例通过摸索及验证,在证据PP3和BP4的判断过程中,选用覆盖不同类型的多个来源软件/数据,包括进化保守性,蛋白结构功能,同源性,等位基因多态性,使得证据的判断更加准确。
在一些可行的实施例中,确定所述变异位点的人群频率或确定隐性遗传病中极低频位点的人群频率,并确定所述人群频率高于人群发病率的过程,可以包括步骤S203-S205:
S203、获取包含遗传病人群发病率信息的发病率列表,从所述发病率列表中获取目标疾病的人群发病率;
S204、获取所述变异位点的人群频率或隐性遗传病中极低频位点的人群频率;
S205、将所述人群频率与所述人群发病率进行对比,根据对比结果输出所述人群频率判断结果。例如作为示例,优先选择隐性遗传病中极低频位点的人群频率进行对比,如果无法找到隐性遗传病中极低频位点的人群频率,再采用变异位点的人群频率进行对比。
具体在实施例中,确定所述变异位点的人群频率过程,是BA1,PM2,BS1证据判断的过程。其中,BA1,PM2,BS1三项证据均基于人群频率给定相应的证据。当变异为常见人群多态性位点时,给出BA1;当变异为极低频变异位点(人群数据库未收录或隐性遗传病中极低频变异位点)时,给出PM2;当变异的人群频率高于人群发病率时,给出BS1。具体在实施例中,其实现过程可以如下:
1) 统计公开信息中,各遗传病的人群发病率(疾病发病率)。
2) 确认受检者表型相关疾病,从发病率列表中获取该待测疾病的人群发病率。
3) 提取annovar中popfreq_all,gnomad211_exome两个数据库注释的突变位点的人群频率信息(示例性地,实施例可以利用python的pyvcf包提取),如果gnomad_all,gnomad_eas,1000g的人群频率至少有一个大于5%,则保留BA1。如果三者频率均小于例如10e-4,或无人群频率数据库收录该位点,则保留PM2。
4) 将以上提取的基因人群频率与所待测疾病的人群发病率进行比对,若最高基因人群频率大于疾病在各人群中的最低人群发病率,保留证据BS1。
5) 如不满足以上条件,则不对该证据进行判断。
实施例针对BA1,PM2,BS1证据的判断逻辑进行进一步的优化和细化,引入了待测疾病参数,辅助判断“隐性遗传病中极低频位点”,以及“等位基因频率大于疾病发病率”条件,使得这些证据的判断结论更加准确,经过验证,极大提高判断结果的准确度。
在一些可行的实施方案中,通过历史数据确定所述变异位点致病性的第一频率这一过程,可以包括步骤S206-S207:
S206、根据所述变异位点在第一目标数据库中的临床分级以及在所述第一目标数据库中的检查状态信息提取变异致病记录,根据所述变异致病记录的数量确定所述第一频率;
S207、根据所述变异位点在第一目标数据库中的临床分级以及在所述第一目标数据库中的检查状态信息提取变异良性记录,根据所述变异良性记录的数量确定所述第一频率。
其中,第一频率可以是指该变异位点在第一目标数据库中记录为变异良性的频率;第一目标数据库可以是包括但不限于clinvar数据库以及clinvar官方数据表等。具体在实施例中,确定所述变异位点的第一频率的过程,是对PP5和BP6证据判断的过程。PP5及BP6均为依据可靠信息来源的报告对变异的致病性进行判断。当有可靠信息来源支持变异为可能致病及致病,则给出PP5,当有可靠信息来源支持变异为良性或可能良性,给出BP6。实施例采用clinvar数据库作为信息源,该数据库收录的部分位点具有可靠的研究来源证明其致病性。实施例中执行过程如下:
实施例提取annovar中clinvar数据库注释的致病性数据,示例性地利用python的pyvcf包提取,以及提取clinvar官方数据表中的Reviewstatus(评估情况)信息,示例性地利用python的pandas包提取。如果该变异位点在clinvar数据库中的临床分级为是pathogenic或者likelypathogenic并且Review status中包含cretieriaprovided(标准已提供)信息,保留PP5证据。如果该变异位点在clinvar数据库中的临床分级为benign或者likelybenign并且Reviewstatus有cretieriaprovided信息,保留BP6证据。
相关技术方案中未对此条证据进行过自动判断,实施例通过摸索和验证,优化可靠信息来源报告的数据源,使得PP5及BP6的证据判断不仅准确还能实现自动化。
在一些可行的实施方案中,确定所述变异位点对应的受检者符合早期完全外显疾病的症状这一过程,可以包括步骤S208:构建早期完全外显的疾病列表,根据所述变异位点所对应的受检者表型在所述疾病列表中进行匹配,确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
具体在实施例中,确定所述变异位点对应的受检者符合早期完全外显疾病的症状的过程,是针对BS2证据判断的过程。在实施例中,BS2证据通过判断受检者表型是否符合早期完全外显疾病的症状,以及待评级变异是否在健康个体中出现。实施例首先可以通过教科书及文献等公开权威的资料,获取了一份早期完全外显的疾病列表。对于待测患者所患疾病属于疾病列表内的,并且在健康的个体中也发现了待评级的变异,则保留BS2证据。
在一些可行的实施方案中,根据所述注释信息确定所述变异位点的变异类型,根据所述变异类型确定剪切位点预测信息这一过程,可以包括步骤S209-S211:
S209、根据所述注释信息在第二目标数据库中进行匹配,得到相似位点;
S210、获取所述相似位点所注释的剪切位点预测信息;
S211、确定所述相似位点与所述变异位点为同义变异,且所述剪切位点预测信息为良性,输出得到变异类型。
其中第二目标数据库可以包括refGeneWithVer数据库等。具体在实施例中,根据所述注释信息确定所述变异位点的变异类型,根据所述变异类型确定剪切位点预测信息的过程,是对BP7证据判断的过程。在实施例中,可以利用python的pyvcf包提取annovar中由refGeneWithVer数据库注释的信息ExonicFunc.refGene,得到变异位点的变异类型,提取由dbscsnv11注释的剪切位点预测信息。如果该变异位点的变异类型为同义变异,并且剪切位点预测为良性,则保留BP7证据。
在一些可行的实施方案中,确定所述变异位点位于热点突变区域,和/或位于已知无良性变异的功能域这一过程,可以包括步骤S212-S214:
S212、根据预设氨基酸范围以及所述变异位点构建候选区域;
S213、提取所述候选区域中存在变异数据的候选位点,确定所述候选位点的数量不小于预设数值,确定所述候选区域为变异区域;
S214、将所述变异区域在第三目标数据库中进行对比,根据对比结果确定功能域,根据候选位点以及变异位点确定所述功能域中所有的变异位点信息。
其中第三目标数据库可以包括clinvar数据库、gnomAD数据库、uniprot数据库等中的一个或多个。具体在实施例中,根据所述变异区域确定变异位点信息的过程是对PM1证据判断的过程。在实施例中,以下情况满足一点均可输出PM1证据:
1、提取clinvar、gnomAD数据库中该位点前后15个氨基酸范围内的变异数据,若提取到的变异位点大于等于5个,则判定该区域为热点变异区域,则保留该位点PM1证据。
2、提取的uniprot数据库功能域的信息,判断变异位点是否在功能域内,在clinvar、gnomAD数据库中查询位点所属功能域所有变异位点信息,如果该功能域无良性或可能良性的变异位点收录,则保留该位点PM1证据。
进一步地,在实施例中,以下情况满足一点均可输出PM1证据:
1、利用python的pandas提取clinvar数据库中该位点前后15个氨基酸范围内的变异数据,若提取到的变异位点大于等于5个,则判定该区域为热点变异区域,则保留该位点PM1证据。
2、利用python的pandas提取的uniprot数据库功能域的信息,判断变异位点是否在功能域内,在clinvar数据库中查询位点所属功能域所有变异位点信息,如果该功能域无良性或可能良性的变异位点收录,则保留该位点PM1证据。
在本申请技术方案的实施例中,对“热点变异区域/热点突变区域”的概念进行了详细而准确的定义,并且提出了具体的判定方式,优化了“变异位点是否处于热点变异区域/热点突变区域”的判断方法,避免在PM1证据判断过程中由于缺失关于“热点变异区域/热点突变区域”准确的判断而导致的证据内容或部分重点区域遗漏,导致注释或证据判断错误。
在一些可行的实施方案中,获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果是步骤S215;具体在实施例中,是对PS4证据判断的过程。
其中,第二频率可以为在大型外显子测序研究的原始测序数据中,对所有基因组位点进行统计得到的频率;第三频率可以为该变异位点出现在人群频率数据库中的频率。具体在实施例中,PS4证据依据变异是否在患病人群中的频率显著大于健康人群进行判断。为统计某位点在患病人群与健康人群出现的频率,实施例首先统计满足受检者待测疾病的、已发布的(例如病例超过300例)各遗传病进行的大型外显子测序研究,获取其原始测序数据,对所有基因组位点进行频率统计,并将其与人群频率数据库中的频率进行比较。进一步地,实施例使用R语言对以上数据进行logisticsregression,并计算出95%的置信区间,使用R语言的questionr模块计算OR值,若OR值大于5并且置信区间不包括1的,则保留PS4证据。在该证据的判断过程中,实施例通过引入待测疾病的相关外显子测序数据,进行统计,计算各个疾病的人群频率,从而实现对该证据更加准确的自动判断。
在一些可行的实施方案中,对所述变异位点的变异类型和致病性进行统计,根据统计结果确定变异位点所在基因的非截短变异与截短变异的优势比的过程,可以包括步骤S216-S220:
S216、获取所述变异位点中良性的非截短变异的第一统计值;
S217、获取所述变异位点中致病的非截短变异的第二统计值;
S218、获取所述变异位点中良性的截短变异的第三统计值;
S219、获取所述变异位点中致病的截短变异的第四统计值
S220、根据所述第一统计值与所述第二统计值的比值确定第一中间值,根据所述第三统计值与所述第四统计值的比值确定第二中间值,根据所述第一中间值与所述第二中间值的比值确定所述优势比。
其中,第一统计值为变异位点中良性的非截短变异数量;第二统计值为变异位点中致病的非截短变异数量;第三统计值为变异位点中良性的截短变异数量;第四统计值为变异位点中致病的截短变异数量。优势比可以是指OR值;进而实施例中对所述变异位点的变异类型和致病性进行统计,根据统计结果确定变异位点所在基因的非截短变异与截短变异的优势比的过程,可以是指BP1,PP2证据判断过程。实施例中首先统计clinvar数据库各个基因所收录的位点信息,如表2所示:
表2
实施例中OR值的计算公式为:
在实施例中,如果变异总数大于等于50个,则对以上数据进行检验,例如使用R语言中的MASS模块,对以上数据进行fisher检验,使用R语言的questionr模块计算OR值。如果OR>1,且p-value<=0.05,该位点属于错义变异则保留BP1证据。如果OR<1,且p-value<=0.05,并且变异中良性和可能良性占比小于20%,所分析的位点未被clinvar收录的则保留PP2证据。
实施例在BP1、PP2证据判断过程中,对clinvar数据库中位点的变异类型和变异的致病性进行统计,并利用统计检验确认其是否为错义变异致病/截短变异致病,从而使得BP1、PP2的证据判定可实施并且更加准确。
在一种可行的实施方案中,引入具有亲缘关系的样本数据,根据所述样本数据确定所述变异位点对应的表型和变异存在共分离的过程,可以具体为步骤S221:确定目标疾病在所述目标家系中存在一个以上目标患者,且所述目标患者的基因中携带有所述变异位点,且非目标患者的基因中不携带有所述变异位点,确定所述变异位点在所述目标家系中出现共分离。
具体在实施例中,确定变异位点在目标家系中出现共分离的过程是指PP1,BS4证据判断过程。在实施例中,PP1,BS4证据根据该变异在家系内是否出现共分离进行判断。当家系内患病人数大于等于1,并且每个患者中都检测到此变异,而非患者无此变异时则保留证据PP1;如果家系患病人数大于一人,该变异位点在患病人中和非患病人中都存在,或者不是所有病患都携带的,则保留BS4证据。由于相关技术方案中未引入样本间的亲缘关系,因此无法对PP1及BS4证据进行给定。在这两个证据判断过程中,通过对亲缘关系的样本数据的引入,判断表型和变异是否存在共分离,从而实现更加准确的自动判断。
在一些可行的实施方案中,引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异这一过程,可以包括步骤S222-S223:
S222、当所述目标疾病为隐性遗传病,且所述变异位点以及已知致病位点来源于父母,确定反式位置存在已知致病变异;
S223、当所述目标疾病为显性遗传病,且所述变异位点以及已知致病位点来源于父母;或者,当所述目标疾病为隐性遗传病,且所述变异位点以及已知致病位点来源于同一亲本,确定是顺式位置存在已知致病变异。
具体在实施例中,引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异的过程是PM3,BP2证据判断过程。在实施例中,PM3和BP2根据变异位点在顺式或反式位置是否有已知致病变异的存在进行判断。如果待检测疾病为隐性遗传病,该变异位点与一个已知的致病性变异位点分别来自父母,则该变异位点保留PM3证据。如果检测疾病为显性遗传模式,该变异位点与一个已知的致病性变异位点分别来自父母,或者检测疾病为隐性遗传模式,该变异位点与一个已知的致病性变异位点来自同一亲本,则保留BP2。
在一些可行的实施方案中,根据双亲的外显子变异数据,确定所述变异位点的变异为新发变异这一过程,可以具体为步骤S224:确定所述变异位点属于新发变异,并对所述新发变异在双亲样本中进行检测,根据所述检测结果确定所述新发变异无家族史。
具体在实施例中,根据双亲的外显子变异数据,确定所述变异位点的变异为新发变异的过程,是PS2,PM6证据判断过程。实施例中如果该变异位点是新发变异(双亲样本中均未检测到),如果双亲已被验证,则保留PS2;如果双亲没有被验证,保留PM6。
在一些其他的可行的实施方案中,除了对前述的证据进行判断之外,还可以包括其他更多证据的判断以及分析,包括但不限于如下证据:
1)PVS1:当一个疾病的致病机制为功能丧失(LOF)时,无功能变异,例如无义突变、移码突变、经典±1或2的剪接突变、起始密码子变异、单个或多个外显子缺失。在实施过程中,应当注意的是,其一,该基因的LOF 是否是导致该疾病的明确致病机制,例如GFAP,MYH7;其二,3'端末端的功能缺失变异需谨慎解读;其三,需注意外显子选择性缺失是否影响到蛋白质的完整性,其四,考虑一个基因存在多种转录本的情况。
2)PS1:与先前已确定为致病性的变异有相同的氨基酸改变。例如:同一密码子,G>C或G>T改变均可导致缬氨酸到亮氨酸的改变。
3)PM4:非重复区框内插入/缺失或终止密码子丧失导致的蛋白质长度变化。
4)PM5:新的错义突变导致氨基酸变化,此变异之前未曾报道,但是在同一位点,导致另外一种氨基酸的变异已经确认是致病性的,例如:现在观察到的是Arg156Cys,而Arg156His是已知致病的。注意剪切影响的改变。
5)BP3:功能未知重复区域内的缺失/插入,同时没有导致基因编码框改变。
相对应地,实施例中致病证据的判断过程还可以包括步骤S225-S228:
S225、确定所述变异位点对应目标疾病的致病机制;
具体在实施例中,确定变异位点对应目标疾病的致病机制的过程是对PVS1证据判断的过程。实施例中,统计了已有的公开数据,如果我们检测的患者所患疾病的致病机制为功能丧失时,通过pyvcf提取变异位点的变异类型,如果类型属于无义变异、移码变异、经典加或减1或2的剪接变异、起始密码子变异、单个或多个外显子缺失的,则保留PVS1证据。
S226、确定与所述变异位点存在相同氨基酸变换的致病性变异;
具体在实施例中,确定与变异位点存在相同氨基酸变换的致病性变异的过程是对PS1证据判断的过程。实施例中,将变异位点氨基酸改变与已经明确致病性位点的氨基酸改变进行比对,如果改变是一致的则保留PS1。
S227、确定所述变异位点属于重复区域中的插入或者缺失,或者,确定所述变异位点属于非重复区域中的插入或者缺失;
具体在实施例中,步骤S227可以是对PM4、BP3证据判断的过程。实施例中,首先,判断变异位点是否处于非重复区,使用pyvcf提取变异类型,判断是否属于插入或者缺失,再判断终止密码子是否缺失或者提前。如果变异位点属于非重复区的插入或者缺失,或者终止密码子的丧失,导致蛋白质长度的变化,则保留PM4证据。若变异位点属于功能未知的重复区域内的插入或者缺失,并且不存在编码框的改变,即插入或缺失碱基个数是3的整数倍,则保留BP3。
S228、确定所述变异位点的氨基酸变化为错义突变;
具体在实施例中,确定变异位点的氨基酸变化为错义突变的过程,是对PM5证据判断的过程,实施例中通过在clinvar中查询变异位点的染色体位置,如果clinvar未有收录,但是存在同一位点的其他氨基酸类型的改变,并且是致病性的,则保留PM5。
实施例另一方面还提供了一种基因测序变异结果的致病性检测系统,所述致病性检测系统包括:
第一模块,用于构建致病性判定的自动判定任务,根据所述自动判定任务对目标家系进行全外显子组测序,得到所述目标家系全外显子组测序的原始数据;
第二模块,用于根据所述原始数据构建变异列表,所述变异列表中包含至少一个变异位点;
第三模块,用于对所述变异位点进行联合注释,得到注释后的测序文件;
第四模块,用于判断所述测序文件中的致病证据;
第五模块,用于整合所述致病证据,并根据整合后的致病证据对变异位点进行致病性分类。
实施例另一方面还提供了一种基因测序变异结果的致病性检测系统,所述系统包括:
第一模块,用于构建致病性判定的自动判定任务,根据所述自动判定任务对目标家系进行全外显子组测序,得到所述目标家系全外显子组测序的原始数据;
第二模块,用于根据所述原始数据构建变异列表,所述变异列表中包含至少一个变异位点;
第三模块,用于对所述变异位点进行联合注释,得到注释后的测序文件;
第四模块,用于将判断过程的逻辑封装得到自动判定脚本,自动判定脚本通过提取注释信息及判定逻辑依次判定证据是否符合判定逻辑;
第五模块,用于通过自动判定脚本整合判定后的致病证据,根据整合后的致病证据对变异位点进行致病性分类。
在上述的系统中,其中,所述致病证据的判断,包括以下步骤至少之一:
根据变异对基因以及基因产物的影响确定所述变异位点对蛋白质功能的影响;
确定所述变异位点的人群频率或确定隐性遗传病中极低频位点的人群频率,并确定所述人群频率高于人群发病率;
通过历史数据确定变异位点致病性的第一频率;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状;
根据所述注释信息确定所述变异位点的变异类型,根据所述变异类型确定剪切位点预测信息;
确定所述变异位点位于热点突变区域,和/或位于已知无良性变异的功能域;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
对所述变异位点的变异类型和致病性进行统计,根据统计结果确定变异位点所在基因的非截短变异与截短变异的优势比;
引入具有亲缘关系的样本数据,根据所述样本数据确定所述变异位点对应的表型和变异存在共分离;
引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异;
根据双亲的外显子变异数据,确定所述变异位点的变异为双亲样本中未检测到的新发变异。
在上述的系统中,其中,所述系统执行计算机程序时实现前述的一种遗传变异的证据判定方法。
另一方面实施例还提供了一种基因测序变异结果的致病性检测装置,所述致病性检测装置包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述的一种遗传变异的证据判定方法。
本发明实施例还提供了一种存储介质,其存储有对应的执行程序,程序被处理器执行,实现前述的一种遗传变异的证据判定方法。
作为示例,提供以下实施例,为采用前述实施例中所提出的方法进行的评级结果:
受检者X,性别男,初诊疾病为:克罗恩病,L回结肠型,非狭窄非穿透型,阿达木治疗临床缓解。该家系包含父亲及母亲的检测结果,并且所有个体均通过了亲缘关系判定以及性别判定。
检测后筛选到的两个位点:
位点1KIZ:NM_001352434:p.Ile142Val,现有技术给定的评级为PM2,PP3,分类为“意义不明确”,经本发明的方法自动判定评级为:PM2,PS2,专业遗传咨询师人工判定评级为:PM2,PS2,分类为可能致病的。
位点2:HCFC1:NM_005334:p.Thr1119Ile,现有技术评级为BS1,分类为“意义未明确”;经本发明的方法自动判定评级为:PP3,BS4,BS2,分类为:“良性的”。专业遗传咨询师人工判定评级为:PP3,BS4,BS2。
通过以上评级结果可知,本发明实现了自动判定评级,并且经与专业遗传咨询师的人工判定评级对比发现,本发明的评级分类准确度高。
本发明所述的一种遗传变异的证据判定方法、系统及装置以及介质,可以用于各种遗传疾病或者可能与遗传因素引发或有关的疾病的证据判定,包括各种遵循孟德尔遗传模式的遗传疾病,例如包括但不限于克罗恩病、多囊肾病、结缔组织病等等。可以理解的是,本发明所述的一种遗传变异的证据判定方法,还可以用于暂未发现与遗传因素有关的各种疾病,同样可以采用本发明的方法去寻找疾病与遗传变异的关系,从而给出评级。
本发明中所描述的“第一目标数据库”、“第二目标数据库”、“第三目标数据库”作为一种示例性说明,并非是一种限定,本领域技术人员在实际使用本发明的技术方案/判断方法时,可以根据经验或技术发展,根据需求选用适合的数据库,例如当考虑人群数据时,选择人群频率数据库可以包括:千人基因组数据库、ESP6500外显子变异数据库、ExAC外显子数据库等;当考虑疾病数据时,可以选择疾病数据库例如Clinvar数据库、OMIM数据库等。以及其他生物医学数据库包括GWASCatalog、dbNSFP、InterProdomain、dbscSNV、UCSCrmsk、NHGRI临床基因组数据库等,可以根据情况选择使用。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(RandomAccess Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。

Claims (23)

1.一种遗传变异的证据判定方法,其特征在于,所述方法包括:
构建致病性判定的自动判定任务,根据所述自动判定任务对目标家系进行全外显子组测序,得到目标家系全外显子组测序的原始数据;
根据所述原始数据构建变异列表,所述变异列表中包含至少一个变异位点;
对所述变异位点进行联合注释,得到注释后的测序文件;
判断所述测序文件中的致病证据;
将所述致病证据进行整合,根据整合后的致病证据对所述变异位点进行致病性分类;
其中,判断所述测序文件中的致病证据的过程,包括以下步骤至少之一:
确定所述变异位点在所述目标家系中出现共分离;
确定所述变异位点在顺式位置存在已知致病变异或确定所述变异位点在反式位置存在已知致病变异;
确定所述变异位点为双亲样本中未检测到的新发变异;
确定所述变异位点的人群频率;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状;
判断所述测序文件中的致病证据的过程为:将判断过程的逻辑封装得到自动判定脚本,自动判定脚本通过提取注释信息及判定逻辑依次判定证据;
所述对所述变异位点进行联合注释,得到注释后的测序文件,包括:
利用注释工具,对所述变异位点进行联合注释,得到注释后的测序文件,所述联合注释至少包括基于基因的注释、基于区域的注释和基于过滤的注释。
2.根据权利要求1所述的一种遗传变异的证据判定方法,其特征在于,判断所述测序文件中的致病证据的过程,还包括以下步骤至少之一:
引入具有亲缘关系的样本数据,根据所述样本数据确定所述变异位点对应的表型和变异存在共分离;
引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异;
根据双亲的外显子变异数据,确定所述变异位点的变异为双亲样本中未检测到的新发变异;
确定所述变异位点的人群频率或确定隐性遗传病中极低频位点的人群频率,并确定变异位点的人群频率或者隐性遗传病中极低频位点的人群频率高于人群发病率;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
对所述变异位点的变异类型和致病性进行统计,根据统计结果确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
3.根据权利要求1所述的一种遗传变异的证据判定方法,其特征在于,判断所述测序文件中的致病证据的过程,包括从以下每一组步骤中选择至少一个步骤:
第一组:
确定所述变异位点在所述目标家系中出现共分离;
确定所述变异位点在顺式位置存在已知致病变异或确定所述变异位点在反式位置存在已知致病变异;
确定所述变异位点为双亲样本中未检测到的新发变异;
第二组:
确定所述变异位点的人群频率;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
第三组:
确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
4.根据权利要求2所述的一种遗传变异的证据判定方法,其特征在于,判断所述测序文件中的致病证据的过程,包括从以下每一组步骤中选择至少一个步骤:
第一组:
引入具有亲缘关系的样本数据,根据所述样本数据确定所述变异位点对应的表型和变异存在共分离;
引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异;
根据双亲的外显子变异数据,确定所述变异位点的变异为双亲样本中未检测到的新发变异;
第二组:
确定所述变异位点的人群频率或确定隐性遗传病中极低频位点的人群频率,并确定变异位点的人群频率或者隐性遗传病中极低频位点的人群频率高于人群发病率;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
第三组:
对所述变异位点的变异类型和致病性进行统计,根据统计结果确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
5.根据权利要求1至4中任一项所述的一种遗传变异的证据判定方法,其特征在于,判断所述测序文件中的致病证据的过程,还包括以下步骤至少之一:
确定所述变异位点位于热点突变区域和/或位于已知无良性变异的功能域;
确定所述变异位点对蛋白质功能的影响;
根据注释信息确定所述变异位点的变异类型。
6.根据权利要求5所述的一种遗传变异的证据判定方法,其特征在于,判断所述测序文件中的致病证据的过程,还包括以下之一:
确定所述变异位点位于热点突变区域和/或位于已知无良性变异的功能域;
根据变异对基因以及基因产物的影响,确定所述变异位点对蛋白质功能的影响;
根据注释信息确定所述变异位点的变异类型,根据所述变异类型确定剪切位点预测信息。
7.根据权利要求6所述的一种遗传变异的证据判定方法,其特征在于,根据变异对基因以及基因产物的影响,确定所述变异位点对蛋白质功能的影响,包括:
对所述测序文件中的所述变异位点进行功能性预测;
所述功能性预测包括:蛋白进化保守性预测、蛋白结构功能类预测、同源性类预测、区分等位基因多态性类预测以及核酸进化保守性预测;
确定功能性预测结果中存在三个及以上的良性预测结果或三个及以上的有害预测结果,输出得到蛋白质功能影响的结果。
8.根据权利要求2或4所述的一种遗传变异的证据判定方法,其特征在于,确定所述变异位点的人群频率或确定隐性遗传病中极低频位点的人群频率,并确定变异位点的人群频率或者隐性遗传病中极低频位点的人群频率高于人群发病率,包括:
获取包含遗传病人群发病率信息的发病率列表,从所述发病率列表中获取目标疾病的人群发病率;
获取所述变异位点的人群频率或获取隐性遗传病中极低频位点的人群频率;
将变异位点的人群频率或者隐性遗传病中极低频位点的人群频率与所述人群发病率进行对比,根据对比结果输出人群频率判断结果。
9.根据权利要求1至4中任一项所述的一种遗传变异的证据判定方法,其特征在于,通过历史数据确定变异位点致病性的第一频率,包括:
根据所述变异位点在第一目标数据库中的临床分级以及在第一目标数据库中的检查状态信息提取变异致病记录,根据所述变异致病记录的数量确定所述第一频率;
或者,根据所述变异位点在第一目标数据库中的临床分级以及在第一目标数据库中的检查状态信息提取变异良性记录,根据所述变异良性记录的数量确定所述第一频率。
10.根据权利要求1至4中任一项所述的一种遗传变异的证据判定方法,其特征在于,确定所述变异位点对应的受检者符合早期完全外显疾病的症状,包括:
构建早期完全外显疾病的疾病列表,根据所述变异位点所对应的受检者表型在所述疾病列表中进行匹配,确定所述变异位点对应的受检者符合早期完全外显疾病的症状。
11.根据权利要求6所述的一种遗传变异的证据判定方法,其特征在于,根据注释信息确定所述变异位点的变异类型,根据所述变异类型确定剪切位点预测信息,包括:
根据所述注释信息在第二目标数据库中进行匹配,得到相似位点;
获取所述相似位点所注释的剪切位点预测信息;
确定所述相似位点与所述变异位点为同义变异,且所述剪切位点预测信息为良性,输出得到变异类型。
12.根据权利要求5所述的一种遗传变异的证据判定方法,其特征在于,确定所述变异位点位于热点突变区域和/或位于已知无良性变异的功能域,包括:
根据预设氨基酸范围以及变异位点构建候选区域;
提取所述候选区域中存在变异数据的候选位点,确定所述候选位点的数量不小于预设数值,确定所述候选区域为变异区域;
将所述变异区域在第三目标数据库中进行对比,根据对比结果确定功能域,根据所述候选位点以及所述变异位点确定所述功能域中所有的变异位点信息。
13.根据权利要求2或4所述的一种遗传变异的证据判定方法,其特征在于,对所述变异位点的变异类型和致病性进行统计,根据统计结果确定变异位点所在基因的非截短变异与截短变异的优势比,包括:
获取所述变异位点中良性的非截短变异的第一统计值;
获取所述变异位点中致病的非截短变异的第二统计值;
获取所述变异位点中良性的截短变异的第三统计值;
获取所述变异位点中致病的截短变异的第四统计值;
根据所述第一统计值与所述第二统计值的比值确定第一中间值,根据所述第三统计值与所述第四统计值的比值确定第二中间值,根据所述第一中间值与所述第二中间值的比值确定所述优势比。
14.根据权利要求2或4所述的一种遗传变异的证据判定方法,其特征在于,引入具有亲缘关系的样本数据,根据所述样本数据确定所述变异位点对应的表型和变异存在共分离,包括:
当目标疾病在所述目标家系中存在一个以上目标患者,且所述目标患者的基因中携带有所述变异位点,且非目标患者的基因中不携带有所述变异位点,确定所述变异位点在所述目标家系中出现共分离。
15.根据权利要求2或4所述的一种遗传变异的证据判定方法,其特征在于,引入双亲的外显子变异数据,根据所述外显子变异数据确定所述变异位点在顺式位置存在已知致病变异,或确定所述变异位点在反式位置存在已知致病变异,包括:
当目标疾病为隐性遗传病,且所述变异位点以及已知致病位点来源于父母,确定反式位置存在已知致病变异;
当目标疾病为显性遗传病,且所述变异位点以及已知致病位点来源于父母;或者,当目标疾病为隐性遗传病,且所述变异位点以及已知致病位点来源于同一亲本,确定是顺式位置存在已知致病变异。
16.根据权利要求2或4所述的一种遗传变异的证据判定方法,其特征在于,根据双亲的外显子变异数据,确定所述变异位点的变异为双亲样本中未检测到的新发变异,包括:
确定所述变异位点属于新发变异,并对所述新发变异在双亲样本中进行检测,根据检测结果确定所述新发变异无家族史。
17.根据权利要求1-4中任一项所述的一种遗传变异的证据判定方法,其特征在于,判断所述测序文件中的致病证据的过程,还包括以下步骤至少之一:
确定所述变异位点对应目标疾病的致病机制;
确定与所述变异位点存在相同氨基酸变换的致病性变异;
确定所述变异位点属于重复区域中的插入或者缺失,或者,确定所述变异位点属于非重复区域中的插入或者缺失;
确定所述变异位点的氨基酸变化为错义突变。
18.根据权利要求1-4中任一项所述的一种遗传变异的证据判定方法,其特征在于,将所述致病证据进行整合,根据整合后的所述致病证据对所述变异位点进行致病性分类,包括:
采用自动判定脚本整合判定后的证据,通过整合后的证据对变异位点进行致病性分类。
19.一种基因测序变异结果的致病性检测系统,所述致病性检测系统包括:
第一模块,用于构建致病性判定的自动判定任务,根据所述自动判定任务对目标家系进行全外显子组测序,得到目标家系全外显子组测序的原始数据;
第二模块,用于根据所述原始数据构建变异列表,所述变异列表中包含至少一个变异位点;
第三模块,用于对所述变异位点进行联合注释,得到注释后的测序文件;
第四模块,用于判断所述测序文件中的致病证据;
第五模块,用于整合所述致病证据,并根据整合后的致病证据对变异位点进行致病性分类;
其中,判断所述测序文件中的致病证据的过程,包括以下步骤至少之一:
确定所述变异位点在所述目标家系中出现共分离;
确定所述变异位点在顺式位置存在已知致病变异或确定所述变异位点在反式位置存在已知致病变异;
确定所述变异位点为双亲样本中未检测到的新发变异;
确定所述变异位点的人群频率;
通过历史数据确定变异位点致病性的第一频率;
获取所述变异位点在患病人群中出现的第二频率与在健康人群中出现的第三频率的比较结果;
确定变异位点所在基因的非截短变异与截短变异的优势比;
确定所述变异位点对应的受检者符合早期完全外显疾病的症状;
所述第四模块,用于判断所述测序文件中的致病证据,包括:
将判断过程的逻辑封装得到自动判定脚本,自动判定脚本通过提取注释信息及判定逻辑依次判定致病证据;
所述第三模块,用于对所述变异位点进行联合注释,得到注释后的测序文件,包括:
利用注释工具,对所述变异位点进行联合注释,得到注释后的测序文件,所述联合注释至少包括基于基因的注释、基于区域的注释和基于过滤的注释。
20.根据权利要求19所述的致病性检测系统,其特征在于,所述第五模块,用于通过自动判定脚本整合判定后的致病证据,根据整合后的致病证据对变异位点进行致病性分类。
21.根据权利要求19所述的致病性检测系统,其特征在于,所述致病性检测系统执行计算机程序时实现权利要求1-18中任一项所述的一种遗传变异的证据判定方法。
22.一种基因测序变异结果的致病性检测装置,其特征在于,所述致病性检测装置包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至18中任一项所述的一种遗传变异的证据判定方法。
23.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至18中任一项所述的一种遗传变异的证据判定方法。
CN202310077781.3A 2023-02-08 2023-02-08 一种遗传变异的证据判定方法、系统、装置及介质 Active CN115798579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310077781.3A CN115798579B (zh) 2023-02-08 2023-02-08 一种遗传变异的证据判定方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310077781.3A CN115798579B (zh) 2023-02-08 2023-02-08 一种遗传变异的证据判定方法、系统、装置及介质

Publications (2)

Publication Number Publication Date
CN115798579A CN115798579A (zh) 2023-03-14
CN115798579B true CN115798579B (zh) 2023-05-05

Family

ID=85430384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310077781.3A Active CN115798579B (zh) 2023-02-08 2023-02-08 一种遗传变异的证据判定方法、系统、装置及介质

Country Status (1)

Country Link
CN (1) CN115798579B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113832224A (zh) * 2021-09-29 2021-12-24 苏州赛美科基因科技有限公司 一种检测scn1a基因毒外显子变异的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105925685A (zh) * 2016-05-13 2016-09-07 万康源(天津)基因科技有限公司 一种基于家系的外显子组潜在致病变异检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105861697B (zh) * 2016-05-13 2019-08-20 万康源(天津)基因科技有限公司 一种基于家系的外显子组潜在致病变异检测系统
CN109994154B (zh) * 2017-12-30 2021-07-13 安诺优达基因科技(北京)有限公司 一种单基因隐性遗传疾病候选致病基因的筛选装置
CN109086571B (zh) * 2018-08-03 2019-08-23 国家卫生健康委科学技术研究所 一种单基因病遗传变异智能解读及报告的方法和系统
CN109243530B (zh) * 2018-11-20 2021-08-03 荣联科技集团股份有限公司 遗传变异判定方法、系统以及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105925685A (zh) * 2016-05-13 2016-09-07 万康源(天津)基因科技有限公司 一种基于家系的外显子组潜在致病变异检测方法

Also Published As

Publication number Publication date
CN115798579A (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
Beyter et al. Long-read sequencing of 3,622 Icelanders provides insight into the role of structural variants in human diseases and other traits
Salgado et al. UMD‐predictor: a high‐throughput sequencing compliant system for pathogenicity prediction of any human cDNA substitution
Martin et al. Comprehensive carrier genetic test using next-generation deoxyribonucleic acid sequencing in infertile couples wishing to conceive through assisted reproductive technology
CN106462670B (zh) 超深度测序中的罕见变体召集
Smadbeck et al. C opy number variant analysis using genome‐wide mate‐pair sequencing
Zhou et al. Targeted resequencing of 358 candidate genes for autism spectrum disorder in a Chinese cohort reveals diagnostic potential and genotype–phenotype correlations
KR101906312B1 (ko) 추정 자손의 유전질환 발병 위험성을 예측하는 방법 및 시스템
CN110931081A (zh) 一种人单基因遗传疾病检测生物信息分析方法
CN115798579B (zh) 一种遗传变异的证据判定方法、系统、装置及介质
Beal et al. Whole genome sequencing for quantifying germline mutation frequency in humans and model species: cautious optimism
CN111139291A (zh) 一种单基因遗传性疾病高通量测序分析方法
CN107247890A (zh) 一种用于临床诊断和预测的基因数据系统
Young et al. The role of functional data in interpreting the effects of genetic variation
CN110648722B (zh) 新生儿遗传病患病风险评估的装置
CN111863132A (zh) 一种筛选致病性变异的方法和系统
CN116564406A (zh) 一种遗传变异自动化解读方法及设备
CN114429785B (zh) 一种基因变异的自动分类方法、装置和电子设备
Li et al. Whole exome sequencing and methylation‑specific multiplex ligation‑dependent probe amplification applied to identify Angelman syndrome due to paternal uniparental disomy in two unrelated patients
Pinard et al. Actionable genes, core databases, and locus‐specific databases
CN111028885B (zh) 一种检测牦牛rna编辑位点的方法及装置
Mendoza-Alvarez et al. Interactive web-based resource for annotation of genetic variants causing hereditary angioedema (hada): Database development, implementation, and validation
Green et al. Incorporating genetic analyses into birth defects cluster investigations: strategies for identifying candidate genes
Ben Haj Ali et al. Cytogenetic and molecular diagnosis of Fanconi anemia revealed two hidden phenotypes: Disorder of sex development and cerebro‐oculo‐facio‐skeletal syndrome
KR101853916B1 (ko) 단백질 도메인의 생물경로 특이성 판단 방법, 및 이를 이용한 질병 유전자 발굴 방법
US20230272477A1 (en) Sample contamination detection of contaminated fragments for cancer classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant