CN106960122A

CN106960122A - 基因突变引起的遗传疾病预测方法及装置

Info

Publication number: CN106960122A
Application number: CN201710161650.8A
Authority: CN
Inventors: 何巍; 黄峥; 张艺; 熊玉宇; 洪绵娥
Original assignee: Crystal Energy Biotechnology (shanghai) Co Ltd
Current assignee: Crystal Energy Biotechnology (shanghai) Co Ltd
Priority date: 2017-03-17
Filing date: 2017-03-17
Publication date: 2017-07-18

Abstract

本发明涉及生物信息学领域，公开了一种基因突变引起的遗传疾病预测方法及装置。本发明中，构建基因突变位点的数据集，其中，数据集中包括多位遗传疾病患者的基因突变位点；根据数据集中基因突变位点的突变类型不同应用不同的预测软件进行预测，获得软件预测结果；根据软件预测结果通过机器学习的算法训练数据集中的基因突变位点，得到分类模型；将任一患者的基因突变位点应用到分类模型中，得到疾病预测结果，极大得提高了预测的准确性和特异性，能够作为很强的医疗诊断的证据。

Description

基因突变引起的遗传疾病预测方法及装置

技术领域

本发明涉及生物信息学领域，特别涉及基因突变引起的遗传疾病预测方法及装置。

背景技术

基因突变是导致很多遗传疾病的主要原因，随着基因测序技术的发展，使得测序得到特定的基因突变位点成为可能，准确预测这些基因突变位点与遗传疾病的关联无疑为遗传疾病的诊断提供了崭新的思路。

目前，已经有很多从不同角度预测特定基因位点突变致病性的方法，其中包括预测突变基因位点表达蛋白危害性的方法比如：多态性分型(polymorphism phenotyping，Polyphen)，MutationTaster，FATHMM，生物信息学工具(sortingintolerant fromtolerant，SIFT)等基因预测软件；预测突变位点表达蛋白质保守性的方法，比如：fathmm-MKL,MetaLR,MetaSVM等基因预测软件；另外还有一些打分软件比如：计算机辅助药物设计(Computer Aided Drug Design，CADD),CRAVAT等。

这些软件算法都各有优点，且在特定的数据中得到了较好的预测效果，但是，在实现本发明的过程中，发明人发现：应用某一种软件算法进行预测时，往往性能不够全面，而且鲁棒性比较差，只对特定突变数据有效。针对缺失(INDEL)突变，很多软件无法预测。基于任何一种预测算法得到的结果是无法达到疾病诊断所需要的准确性和特异性的。如何整合已有工具得到的结果，从而扬长避短实现高的准确性和特异性，同时减弱对数据的敏感性是一个很有意义的工作。

发明内容

本发明实施方式的目的在于提供一种基因突变引起的遗传疾病预测方法及装置，极大得提高了预测的准确性和特异性，能够作为很强的医疗诊断的证据。

为解决上述技术问题，本发明的实施方式提供了一种基因突变引起的遗传疾病预测方法，包括：

构建基因突变位点的数据集，其中，数据集中包括多位遗传疾病患者的基因突变位点；

根据数据集中基因突变位点的突变类型不同应用不同的预测软件进行预测，获得软件预测结果；

根据软件预测结果通过机器学习的算法训练数据集中的基因突变位点，得到分类模型；

将任一患者的基因突变位点应用到分类模型中，得到疾病预测结果。

本发明的实施方式还提供了一种基因突变引起的遗传疾病预测装置，包括：

数据集构建模块，用于构建基因突变位点的数据集，其中，数据集中包括多位遗传疾病患者的基因突变位点；

软件预测模块，与数据集构建模块连接，用于根据数据集中基因突变位点的突变类型不同应用不同的预测软件进行预测，获得软件预测结果；

训练模块，与软件预测模块连接，用于根据软件预测结果通过机器学习的算法训练数据集中的基因突变位点，得到分类模型；

疾病预测模块，与训练模块连接，用于将任一患者的基因突变位点应用到分类模型中，得到疾病预测结果。

本发明实施方式相对于现有技术而言，通过构建基因突变位点的数据集，其中，数据集中包括多位遗传疾病患者的基因突变位点；根据数据集中基因突变位点的突变类型不同应用不同的预测软件进行预测，获得软件预测结果；根据软件预测结果通过机器学习的算法训练数据集中的基因突变位点，得到分类模型；将任一患者的基因突变位点应用到分类模型中，得到疾病预测结果，极大得提高了预测的准确性和特异性，能够作为很强的医疗诊断的证据。

另外，数据集包括阳性基因突变位点数据集和阴性基因突变位点数据集，构建突变位点的数据集，包括：选取预设数量遗传疾病患者的基因突变位点；对预设数量遗传疾病患者进行基因测序得到所有靶向基因突变位点，评估得到最终致病的突变位点，作为阳性基因突变位点数据集；从预设数量遗传疾病患者的其它靶向基因突变位点中选取与阳性基因突变位点数据集数量相当基因频率达到预设值的突变位点作为阴性基因突变位点数据集，通过选择合适的数据集建立分类模型，提高了预测的准确性和特异性。

另外，预测软件包括Polyphen、MutationTaster、FATHMM、SIFT、fathmm-MKL、MetaLR、MetaSVM、CADD、CRAVAT的至少之一，通过应用多种预测软件进行预测，提高了预测的准确性和特异性。

另外，根据数据集中基因突变位点的突变类型不同应用不同的预测软件进行预测，获得软件预测结果，包括：基因突变位点为SNP突变时，应用Polyphen，MutationTaster，FATHMM，SIFT的预测软件中的至少其中之一预测表达蛋白质危害性，应用fathmm-MKL,MetaLR,MetaSVM的预测软件中的至少其中之一预测表达蛋白质保守性，获得软件预测结果；基因突变位点为INDEL突变时，应用DDGI,MutationTaster的预测软件中的至少其中之一预测表达蛋白质危害性，应用CADD,CRAVAT的预测软件中的至少其中之一进行二种数值型打分，获得软件预测结果，通过对不同的突变类型应用不同的预测软件获取软件预测结果，进而获取分类模型，提高了预测的准确性和特异性。

附图说明

图1是本发明第一实施方式的基因突变引起的遗传疾病预测方法的流程示意图；

图2是本发明第一实施方式的SNP突变的表达蛋白危害性的决策树示意图；

图3是本发明第一实施方式的SNP突变的表达蛋白保守性的决策树示意图；

图4是本发明第一实施方式的INDEL突变的综合危害性的决策树示意图；

图5是本发明第二实施方式的基因突变引起的遗传疾病预测装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种基因突变引起的遗传疾病预测方法。具体流程如图1所示，基因突变引起的遗传疾病预测方法包括：

步骤S10：构建基因突变位点的数据集，其中，数据集中包括多位遗传疾病患者的基因突变位点。

在步骤S10中，选取预设数量遗传疾病患者的基因突变位点；对预设数量遗传疾病患者进行基因测序得到所有靶向基因突变位点，评估得到最终致病的突变位点，作为阳性基因突变位点数据集；从预设数量遗传疾病患者的其它靶向基因突变位点中选取与阳性基因突变位点数据集数量相当基因频率达到预设值的突变位点作为阴性基因突变位点数据集。预设数量根据需要进行选取，要有足够数量的遗传疾病患者，以保证后续以该数据集获取的分类模型全面准确。预设数量也不宜过大，否则会增加计算复杂度。本发明实施方式通过选择合适的数据集建立分类模型，提高了预测的准确性和特异性，进而能够作为很强的医疗诊断的证据。

举例说明，通过对189位遗传疾病患者的基因测序得到所有靶向基因突变位点，经专家评估得到最终致病的突变位点，作为阳性突变位点数据集。同时从189位患者的其它靶向突变中选取与阳性突变位点数据集数量相当基因频率高于0.5的突变作为阴性突变位点数据集。

步骤S11：根据数据集中基因突变位点的突变类型不同应用不同的预测软件进行预测，获得软件预测结果。

基因突变位点的突变类型包括SNP突变和INDEL突变的至少之一。预测软件包括Polyphen、MutationTaster、fathmm、SIFT、fathmm-MKL、MetaLR、MetaSVM、CADD、CRAVAT的至少之一。如此本发明实施方式通过应用多种预测软件进行预测，提高了预测的准确性和特异性。

在步骤S11中，由于SNP突变与INDEL突变对应的预测系统不同，将针对这二类不同类型的突变分开处理。基因突变位点为SNP突变时，应用Polyphen、MutationTaster、fathmm、SIFT的预测软件中的至少其中之一预测表达蛋白质危害性，应用fathmm-MKL、MetaLR、MetaSVM的预测软件中的至少其中之一预测表达蛋白质保守性，获得软件预测结果；基因突变位点为INDEL突变时，应用DDGI、MutationTaster的预测软件中的至少其中之一预测表达蛋白质危害性，应用CADD、CRAVAT的预测软件中的至少其中之一进行二种数值型打分，获得软件预测结果，通过对不同的突变类型应用不同的预测软件获取软件预测结果，进而获取分类模型，提高了预测的准确性和特异性。

步骤S12：根据软件预测结果通过机器学习的算法训练数据集中的基因突变位点，得到分类模型。

在本发明实施方式中，机器学习的算法包括决策树，k-近邻算法，朴素贝叶斯算法，AdaBoost元算法的至少之一。

以决策树算法为例，综合考虑各种软件的打分结果，得到的分类模型包括三种决策树：SNP突变的表达蛋白危害性的决策树、SNP突变的表达蛋白保守性的决策树、INDEL突变的综合危害性的决策树。具体参见图2-4，其中，图2为SNP突变的表达蛋白危害性的决策树示意图，图3为SNP突变的表达蛋白保守性的决策树示意图，图4为INDEL突变的综合危害性的决策树示意图。其中，P表示多态性(polymorphism)，D表示损坏(damage),T表示可容忍(tolerable)，B表示良性(benign)，N表示中性(neutral),A表示自动致病(automatic)，支路上没有字母表示信息缺失。

以图3为例进行说明，对SNP突变预测表达蛋白质保守性时，首先对预测软件fathmm-MKL的预测结果进行判断：

判断为信息缺失时，则对预测软件MetaSVM的预测结果进行判断，仍判断为信息缺失时，则进一步对预测软件MetaLR的预测结果进行判断，继续为信息缺失时，则为no，表示没有得病。

判断为D时，则对预测软件MetaSVM的预测结果进行判断，若判断为信息缺失时，则为yes，表示得病；若判断为T或D时，则进一步对预测软件MetaLR的预测结果进行判断，进一步判断T或D时，则为yes，表示得病。

判断为N时，则对预测软件MetaSVM的预测结果进行判断，若判断为D时，为yes，表示得病；若判断为信息缺失时，则进一步对预测软件MetaLR的预测结果进行判断，若仍判断为信息缺失，则为yes，表示得病；若判断为T时，则进一步对预测软件MetaLR的预测结果进行判断，若继续判断为T，则为no，表示没有得病。

图2和图4以与图3类似的方法进行判断，在此不再赘述。图4中，路径1表示对INDEL突变预测蛋白质危害性的路径。路径2表示对INDEL突变进行数值型打分的路径。true表示得病。

在本发明实施方式中，可以用python撰写的核心代码，通过计算数据集中基因突变位点的不同特征的信息熵，得到不同软件预测结果的优先顺序，从而得到决策树：首先检测数据集中每一个子项是否属于同一分类，其中，子项指的是数据集中的突变位点。如果是，则返回分类标签。如果不是，则寻找划分数据集最好的软件预测结果，划分数据集，并创建分支节点，对每一个划分的子集调用自身并增加返回结果到分支节点中，最后返回分支节点。

步骤S13：将任一患者的基因突变位点应用到分类模型中，得到疾病预测结果。

在步骤S13中，将任一患者的基因突变位点的多种预测软件的预测结果应用到分类模型中，可以得到该患者的疾病预测结果。疾病预测结果可以至少包括得病、可能得病、健康、可能健康以及无法判断五种疾病预测结果中的其中之一。

在步骤S13中，以应用决策树算法形成的分类模型为例，将任一患者的基因突变位点的多种预测软件的预测结果应用到图2-4的三种决策树中，可以得到该患者是否得病。在应用决策树算法形成的分类模型中，SNP突变的表达蛋白危害性的决策树、SNP突变的表达蛋白保守性的决策树以及INDEL突变的综合危害性的决策树分别得到了100％，94.3％和85％的准确性，以及94.6％，94.6％，100％的特异性。因此，这些预测结果可以作为很强的医疗诊断的证据。

本发明实施方式通过构建基因突变位点的数据集，根据数据集中基因突变位点的突变类型不同应用预测软件进行预测，获得软件预测结果；进而根据软件预测结果通过机器学习的算法训练数据集中的基因突变位点，得到分类模型；将任一患者的基因突变位点应用到分类模型中，即可得到疾病预测结果，极大得提高了预测的准确性和特异性，能够作为很强的医疗诊断的证据。

本发明的第二实施方式涉及一种基因突变引起的遗传疾病预测装置。如图5所示，基因突变引起的遗传疾病预测装置包括：数据集构建模块、软件预测模块、训练模块以及疾病预测模块。

数据集构建模块用于构建基因突变位点的数据集，其中，数据集中包括多位遗传疾病患者的基因突变位点。

软件预测模块与数据集构建模块连接，用于根据数据集中基因突变位点的突变类型不同应用预测软件进行预测，获得软件预测结果。

训练模块与软件预测模块连接，用于根据软件预测结果通过机器学习的算法训练数据集中的基因突变位点，得到分类模型。

疾病预测模块与训练模块连接，用于将任一患者的基因突变位点应用到分类模型中，得到疾病预测结果。

在本发明实施方式中，数据集包括阳性基因突变位点数据集和阴性基因突变位点数据集。数据集构建模块用于：选取预设数量遗传疾病患者的基因突变位点；对预设数量遗传疾病患者进行基因测序得到所有靶向基因突变位点，评估得到最终致病的突变位点，作为阳性基因突变位点数据集；从预设数量遗传疾病患者的其它靶向基因突变位点中选取与阳性基因突变位点数据集数量相当基因频率达到预设值的突变位点作为阴性基因突变位点数据集。预设数量根据需要进行选取，要有足够数量的遗传疾病患者，以保证后续以该数据集获取的分类模型全面准确。预设数量也不宜过大，否则会增加计算复杂度。本发明实施方式通过选择合适的数据集建立分类模型，提高了预测的准确性和特异性，进而能够作为很强的医疗诊断的证据。

基因突变位点的突变类型至少包括SNP突变和INDEL突变的至少之一。预测软件可以但不限于Polyphen、MutationTaster、fathmm、SIFT、fathmm-MKL、MetaLR、MetaSVM、CADD、CRAVAT的至少之一。本发明实施方式通过应用多种预测软件进行预测，提高了预测的准确性和特异性。

在本发明实施方式中，由于SNP突变与INDEL突变对应的预测系统不同，将针对这二类不同类型的突变分开处理。训练模块用于：基因突变位点为SNP突变时，应用Polyphen、MutationTaster、fathmm、SIFT的预测软件中的至少其中之一预测表达蛋白质危害性，应用fathmm-MKL、MetaLR、MetaSVM的预测软件中的至少其中之一预测表达蛋白质保守性，获得软件预测结果；基因突变位点为INDEL突变时，应用DDGI、MutationTaster的预测软件中的至少其中之一预测表达蛋白质危害性，应用CADD、CRAVAT的预测软件中的至少其中之一进行二种数值型打分，获得软件预测结果。本发明实施方式通过对不同的突变类型应用不同的预测软件获取软件预测结果，进而获取分类模型，提高了预测的准确性和特异性。

在本发明实施方式中，机器学习的算法至少包括决策树，k-近邻算法，朴素贝叶斯算法，AdaBoost元算法的至少之一。

以决策树算法为例，综合考虑各种软件的打分结果，得到的分类模型包括三种决策树：SNP突变的表达蛋白危害性的决策树，SNP突变的表达蛋白保守性的决策树、INDEL突变的综合危害性的决策树。

疾病预测模块用于将任一患者的基因突变位点的多种预测软件的预测结果应用到分类模型中，可以得到该患者的疾病预测结果。疾病预测结果可以至少包括得病、可能得病、健康、可能健康以及无法判断五种疾病预测结果中的其中之一。

以应用决策树算法形成的分类模型为例，疾病预测模块将任一患者的基因突变位点的多种预测软件的预测结果应用到前述的三种决策树中，可以得到该患者是否得病。在应用决策树算法形成的分类模型中，SNP突变的表达蛋白危害性的决策树、SNP突变的表达蛋白保守性的决策树以及INDEL突变的综合危害性的决策树分别得到了100％，94.3％和85％的准确性，以及94.6％，94.6％，100％的特异性。可见，本发明实施方式的基因突变引起的遗传疾病预测装置极大得提高了预测的准确性和特异性，其预测的疾病预测结果能够作为很强的医疗诊断的证据。

不难发现，本实施方式为与第一实施方式相对应的系统实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种基因突变引起的遗传疾病预测方法，其特征在于，包括：

构建基因突变位点的数据集，其中，所述数据集中包括多位遗传疾病患者的基因突变位点；

根据所述数据集中基因突变位点的突变类型不同应用不同的预测软件进行预测，获得软件预测结果；

根据所述软件预测结果通过机器学习的算法训练数据集中的基因突变位点，得到分类模型；

将任一患者的基因突变位点应用到所述分类模型中，得到疾病预测结果。

2.根据权利要求1所述的遗传疾病预测方法，其特征在于，所述数据集包括阳性基因突变位点数据集和阴性基因突变位点数据集，所述构建突变位点的数据集，包括：

选取预设数量遗传疾病患者的基因突变位点；

对所述预设数量遗传疾病患者进行基因测序得到所有靶向基因突变位点，评估得到最终致病的突变位点，作为所述阳性基因突变位点数据集；

从所述预设数量遗传疾病患者的其它靶向基因突变位点中选取与所述阳性基因突变位点数据集数量相当基因频率达到预设值的突变位点作为所述阴性基因突变位点数据集。

3.根据权利要求1所述的遗传疾病预测方法，其特征在于，所述基因突变位点的突变类型包括SNP突变和INDEL突变的至少之一。

4.根据权利要求1所述的遗传疾病预测方法，其特征在于，所述预测软件包括Polyphen、MutationTaster、FATHMM、SIFT、fathmm-MKL、MetaLR、MetaSVM、CADD、CRAVAT的至少之一。

5.根据权利要求4所述的遗传疾病预测方法，其特征在于，所述根据所述数据集中基因突变位点的突变类型不同应用不同的预测软件进行预测，获得软件预测结果，包括：

所述基因突变位点为SNP突变时，应用Polyphen、MutationTaster、FATHMM、SIFT的预测软件中的至少其中之一预测表达蛋白质危害性，应用fathmm-MKL、MetaLR、MetaSVM的预测软件中的至少其中之一预测表达蛋白质保守性，获得软件预测结果；

所述基因突变位点为INDEL突变时，应用DDGI,MutationTaster的预测软件中的至少其中之一预测表达蛋白质危害性，应用CADD,CRAVAT的预测软件中的至少其中之一进行二种数值型打分，获得软件预测结果。

6.根据权利要求1所述的遗传疾病预测方法，其特征在于，所述机器学习的算法包括决策树，k-近邻算法，朴素贝叶斯算法，AdaBoost元算法的至少之一。

7.根据权利要求6所述的遗传疾病预测方法，其特征在于，所述机器学习的算法为决策树算法时，所述分类模型包括：SNP突变的表达蛋白危害性的决策树，SNP突变的表达蛋白保守性的决策树、INDEL突变的综合危害性的决策树。

8.一种基因突变引起的遗传疾病预测装置，其特征在于，包括：

数据集构建模块，用于构建基因突变位点的数据集，其中，所述数据集中包括多位遗传疾病患者的基因突变位点；

软件预测模块，与所述数据集构建模块连接，用于根据所述数据集中基因突变位点的突变类型不同应用不同的预测软件进行预测，获得软件预测结果；

训练模块，与所述软件预测模块连接，用于根据所述软件预测结果通过机器学习的算法训练数据集中的基因突变位点，得到分类模型；

疾病预测模块，与所述训练模块连接，用于将任一患者的基因突变位点应用到所述分类模型中，得到疾病预测结果。

9.根据权利要求8所述的遗传疾病预测装置，其特征在于，所述数据集包括阳性基因突变位点数据集和阴性基因突变位点数据集，所述数据集构建模块用于：

选取预设数量遗传疾病患者的基因突变位点；

10.根据权利要求8所述的遗传疾病预测装置，其特征在于，所述基因突变位点的突变类型包括SNP突变和INDEL突变的至少之一。

11.根据权利要求9所述的遗传疾病预测装置，其特征在于，所述训练模块用于：

所述基因突变位点为SNP突变时，应用Polyphen，MutationTaster，FATHMM，SIFT的预测软件中的至少其中之一预测表达蛋白质危害性，应用fathmm-MKL,MetaLR,MetaSVM的预测软件中的至少其中之一预测表达蛋白质保守性，获得软件预测结果；

12.根据权利要求8所述的遗传疾病预测装置，其特征在于，所述预测软件包括Polyphen，MutationTaster，FATHMM，SIFT，fathmm-MKL,MetaLR,MetaSVM，CADD,CRAVAT的至少之一。

13.根据权利要求8所述的遗传疾病预测装置，其特征在于，所述机器学习的算法包括决策树，k-近邻算法，朴素贝叶斯算法，AdaBoost元算法的至少之一。

14.根据权利要求13所述的遗传疾病预测装置，其特征在于，所述机器学习的算法为决策树进，所述分类模型包括：SNP突变的表达蛋白危害性的决策树，SNP突变的表达蛋白保守性的决策树、INDEL突变的综合危害性的决策树的至少之一。