CN106960122A - 基因突变引起的遗传疾病预测方法及装置 - Google Patents

基因突变引起的遗传疾病预测方法及装置 Download PDF

Info

Publication number
CN106960122A
CN106960122A CN201710161650.8A CN201710161650A CN106960122A CN 106960122 A CN106960122 A CN 106960122A CN 201710161650 A CN201710161650 A CN 201710161650A CN 106960122 A CN106960122 A CN 106960122A
Authority
CN
China
Prior art keywords
data set
gene
software
site
mutation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710161650.8A
Other languages
English (en)
Inventor
何巍
黄峥
张艺
熊玉宇
洪绵娥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Crystal Energy Biotechnology (shanghai) Co Ltd
Original Assignee
Crystal Energy Biotechnology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Crystal Energy Biotechnology (shanghai) Co Ltd filed Critical Crystal Energy Biotechnology (shanghai) Co Ltd
Priority to CN201710161650.8A priority Critical patent/CN106960122A/zh
Publication of CN106960122A publication Critical patent/CN106960122A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及生物信息学领域,公开了一种基因突变引起的遗传疾病预测方法及装置。本发明中,构建基因突变位点的数据集,其中,数据集中包括多位遗传疾病患者的基因突变位点;根据数据集中基因突变位点的突变类型不同应用不同的预测软件进行预测,获得软件预测结果;根据软件预测结果通过机器学习的算法训练数据集中的基因突变位点,得到分类模型;将任一患者的基因突变位点应用到分类模型中,得到疾病预测结果,极大得提高了预测的准确性和特异性,能够作为很强的医疗诊断的证据。

Description

基因突变引起的遗传疾病预测方法及装置
技术领域
本发明涉及生物信息学领域,特别涉及基因突变引起的遗传疾病预测方法及装置。
背景技术
基因突变是导致很多遗传疾病的主要原因,随着基因测序技术的发展,使得测序得到特定的基因突变位点成为可能,准确预测这些基因突变位点与遗传疾病的关联无疑为遗传疾病的诊断提供了崭新的思路。
目前,已经有很多从不同角度预测特定基因位点突变致病性的方法,其中包括预测突变基因位点表达蛋白危害性的方法比如:多态性分型(polymorphism phenotyping,Polyphen),MutationTaster,FATHMM,生物信息学工具(sortingintolerant fromtolerant,SIFT)等基因预测软件;预测突变位点表达蛋白质保守性的方法,比如:fathmm-MKL,MetaLR,MetaSVM等基因预测软件;另外还有一些打分软件比如:计算机辅助药物设计(Computer Aided Drug Design,CADD),CRAVAT等。
这些软件算法都各有优点,且在特定的数据中得到了较好的预测效果,但是,在实现本发明的过程中,发明人发现:应用某一种软件算法进行预测时,往往性能不够全面,而且鲁棒性比较差,只对特定突变数据有效。针对缺失(INDEL)突变,很多软件无法预测。基于任何一种预测算法得到的结果是无法达到疾病诊断所需要的准确性和特异性的。如何整合已有工具得到的结果,从而扬长避短实现高的准确性和特异性,同时减弱对数据的敏感性是一个很有意义的工作。
发明内容
本发明实施方式的目的在于提供一种基因突变引起的遗传疾病预测方法及装置,极大得提高了预测的准确性和特异性,能够作为很强的医疗诊断的证据。
为解决上述技术问题,本发明的实施方式提供了一种基因突变引起的遗传疾病预测方法,包括:
构建基因突变位点的数据集,其中,数据集中包括多位遗传疾病患者的基因突变位点;
根据数据集中基因突变位点的突变类型不同应用不同的预测软件进行预测,获得软件预测结果;
根据软件预测结果通过机器学习的算法训练数据集中的基因突变位点,得到分类模型;
将任一患者的基因突变位点应用到分类模型中,得到疾病预测结果。
本发明的实施方式还提供了一种基因突变引起的遗传疾病预测装置,包括:
数据集构建模块,用于构建基因突变位点的数据集,其中,数据集中包括多位遗传疾病患者的基因突变位点;
软件预测模块,与数据集构建模块连接,用于根据数据集中基因突变位点的突变类型不同应用不同的预测软件进行预测,获得软件预测结果;
训练模块,与软件预测模块连接,用于根据软件预测结果通过机器学习的算法训练数据集中的基因突变位点,得到分类模型;
疾病预测模块,与训练模块连接,用于将任一患者的基因突变位点应用到分类模型中,得到疾病预测结果。
本发明实施方式相对于现有技术而言,通过构建基因突变位点的数据集,其中,数据集中包括多位遗传疾病患者的基因突变位点;根据数据集中基因突变位点的突变类型不同应用不同的预测软件进行预测,获得软件预测结果;根据软件预测结果通过机器学习的算法训练数据集中的基因突变位点,得到分类模型;将任一患者的基因突变位点应用到分类模型中,得到疾病预测结果,极大得提高了预测的准确性和特异性,能够作为很强的医疗诊断的证据。
另外,数据集包括阳性基因突变位点数据集和阴性基因突变位点数据集,构建突变位点的数据集,包括:选取预设数量遗传疾病患者的基因突变位点;对预设数量遗传疾病患者进行基因测序得到所有靶向基因突变位点,评估得到最终致病的突变位点,作为阳性基因突变位点数据集;从预设数量遗传疾病患者的其它靶向基因突变位点中选取与阳性基因突变位点数据集数量相当基因频率达到预设值的突变位点作为阴性基因突变位点数据集,通过选择合适的数据集建立分类模型,提高了预测的准确性和特异性。
另外,预测软件包括Polyphen、MutationTaster、FATHMM、SIFT、fathmm-MKL、MetaLR、MetaSVM、CADD、CRAVAT的至少之一,通过应用多种预测软件进行预测,提高了预测的准确性和特异性。
另外,根据数据集中基因突变位点的突变类型不同应用不同的预测软件进行预测,获得软件预测结果,包括:基因突变位点为SNP突变时,应用Polyphen,MutationTaster,FATHMM,SIFT的预测软件中的至少其中之一预测表达蛋白质危害性,应用fathmm-MKL,MetaLR,MetaSVM的预测软件中的至少其中之一预测表达蛋白质保守性,获得软件预测结果;基因突变位点为INDEL突变时,应用DDGI,MutationTaster的预测软件中的至少其中之一预测表达蛋白质危害性,应用CADD,CRAVAT的预测软件中的至少其中之一进行二种数值型打分,获得软件预测结果,通过对不同的突变类型应用不同的预测软件获取软件预测结果,进而获取分类模型,提高了预测的准确性和特异性。
附图说明
图1是本发明第一实施方式的基因突变引起的遗传疾病预测方法的流程示意图;
图2是本发明第一实施方式的SNP突变的表达蛋白危害性的决策树示意图;
图3是本发明第一实施方式的SNP突变的表达蛋白保守性的决策树示意图;
图4是本发明第一实施方式的INDEL突变的综合危害性的决策树示意图;
图5是本发明第二实施方式的基因突变引起的遗传疾病预测装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种基因突变引起的遗传疾病预测方法。具体流程如图1所示,基因突变引起的遗传疾病预测方法包括:
步骤S10:构建基因突变位点的数据集,其中,数据集中包括多位遗传疾病患者的基因突变位点。
在步骤S10中,选取预设数量遗传疾病患者的基因突变位点;对预设数量遗传疾病患者进行基因测序得到所有靶向基因突变位点,评估得到最终致病的突变位点,作为阳性基因突变位点数据集;从预设数量遗传疾病患者的其它靶向基因突变位点中选取与阳性基因突变位点数据集数量相当基因频率达到预设值的突变位点作为阴性基因突变位点数据集。预设数量根据需要进行选取,要有足够数量的遗传疾病患者,以保证后续以该数据集获取的分类模型全面准确。预设数量也不宜过大,否则会增加计算复杂度。本发明实施方式通过选择合适的数据集建立分类模型,提高了预测的准确性和特异性,进而能够作为很强的医疗诊断的证据。
举例说明,通过对189位遗传疾病患者的基因测序得到所有靶向基因突变位点,经专家评估得到最终致病的突变位点,作为阳性突变位点数据集。同时从189位患者的其它靶向突变中选取与阳性突变位点数据集数量相当基因频率高于0.5的突变作为阴性突变位点数据集。
步骤S11:根据数据集中基因突变位点的突变类型不同应用不同的预测软件进行预测,获得软件预测结果。
基因突变位点的突变类型包括SNP突变和INDEL突变的至少之一。预测软件包括Polyphen、MutationTaster、fathmm、SIFT、fathmm-MKL、MetaLR、MetaSVM、CADD、CRAVAT的至少之一。如此本发明实施方式通过应用多种预测软件进行预测,提高了预测的准确性和特异性。
在步骤S11中,由于SNP突变与INDEL突变对应的预测系统不同,将针对这二类不同类型的突变分开处理。基因突变位点为SNP突变时,应用Polyphen、MutationTaster、fathmm、SIFT的预测软件中的至少其中之一预测表达蛋白质危害性,应用fathmm-MKL、MetaLR、MetaSVM的预测软件中的至少其中之一预测表达蛋白质保守性,获得软件预测结果;基因突变位点为INDEL突变时,应用DDGI、MutationTaster的预测软件中的至少其中之一预测表达蛋白质危害性,应用CADD、CRAVAT的预测软件中的至少其中之一进行二种数值型打分,获得软件预测结果,通过对不同的突变类型应用不同的预测软件获取软件预测结果,进而获取分类模型,提高了预测的准确性和特异性。
步骤S12:根据软件预测结果通过机器学习的算法训练数据集中的基因突变位点,得到分类模型。
在本发明实施方式中,机器学习的算法包括决策树,k-近邻算法,朴素贝叶斯算法,AdaBoost元算法的至少之一。
以决策树算法为例,综合考虑各种软件的打分结果,得到的分类模型包括三种决策树:SNP突变的表达蛋白危害性的决策树、SNP突变的表达蛋白保守性的决策树、INDEL突变的综合危害性的决策树。具体参见图2-4,其中,图2为SNP突变的表达蛋白危害性的决策树示意图,图3为SNP突变的表达蛋白保守性的决策树示意图,图4为INDEL突变的综合危害性的决策树示意图。其中,P表示多态性(polymorphism),D表示损坏(damage),T表示可容忍(tolerable),B表示良性(benign),N表示中性(neutral),A表示自动致病(automatic),支路上没有字母表示信息缺失。
以图3为例进行说明,对SNP突变预测表达蛋白质保守性时,首先对预测软件fathmm-MKL的预测结果进行判断:
判断为信息缺失时,则对预测软件MetaSVM的预测结果进行判断,仍判断为信息缺失时,则进一步对预测软件MetaLR的预测结果进行判断,继续为信息缺失时,则为no,表示没有得病。
判断为D时,则对预测软件MetaSVM的预测结果进行判断,若判断为信息缺失时,则为yes,表示得病;若判断为T或D时,则进一步对预测软件MetaLR的预测结果进行判断,进一步判断T或D时,则为yes,表示得病。
判断为N时,则对预测软件MetaSVM的预测结果进行判断,若判断为D时,为yes,表示得病;若判断为信息缺失时,则进一步对预测软件MetaLR的预测结果进行判断,若仍判断为信息缺失,则为yes,表示得病;若判断为T时,则进一步对预测软件MetaLR的预测结果进行判断,若继续判断为T,则为no,表示没有得病。
图2和图4以与图3类似的方法进行判断,在此不再赘述。图4中,路径1表示对INDEL突变预测蛋白质危害性的路径。路径2表示对INDEL突变进行数值型打分的路径。true表示得病。
在本发明实施方式中,可以用python撰写的核心代码,通过计算数据集中基因突变位点的不同特征的信息熵,得到不同软件预测结果的优先顺序,从而得到决策树:首先检测数据集中每一个子项是否属于同一分类,其中,子项指的是数据集中的突变位点。如果是,则返回分类标签。如果不是,则寻找划分数据集最好的软件预测结果,划分数据集,并创建分支节点,对每一个划分的子集调用自身并增加返回结果到分支节点中,最后返回分支节点。
步骤S13:将任一患者的基因突变位点应用到分类模型中,得到疾病预测结果。
在步骤S13中,将任一患者的基因突变位点的多种预测软件的预测结果应用到分类模型中,可以得到该患者的疾病预测结果。疾病预测结果可以至少包括得病、可能得病、健康、可能健康以及无法判断五种疾病预测结果中的其中之一。
在步骤S13中,以应用决策树算法形成的分类模型为例,将任一患者的基因突变位点的多种预测软件的预测结果应用到图2-4的三种决策树中,可以得到该患者是否得病。在应用决策树算法形成的分类模型中,SNP突变的表达蛋白危害性的决策树、SNP突变的表达蛋白保守性的决策树以及INDEL突变的综合危害性的决策树分别得到了100%,94.3%和85%的准确性,以及94.6%,94.6%,100%的特异性。因此,这些预测结果可以作为很强的医疗诊断的证据。
本发明实施方式通过构建基因突变位点的数据集,根据数据集中基因突变位点的突变类型不同应用预测软件进行预测,获得软件预测结果;进而根据软件预测结果通过机器学习的算法训练数据集中的基因突变位点,得到分类模型;将任一患者的基因突变位点应用到分类模型中,即可得到疾病预测结果,极大得提高了预测的准确性和特异性,能够作为很强的医疗诊断的证据。
本发明的第二实施方式涉及一种基因突变引起的遗传疾病预测装置。如图5所示,基因突变引起的遗传疾病预测装置包括:数据集构建模块、软件预测模块、训练模块以及疾病预测模块。
数据集构建模块用于构建基因突变位点的数据集,其中,数据集中包括多位遗传疾病患者的基因突变位点。
软件预测模块与数据集构建模块连接,用于根据数据集中基因突变位点的突变类型不同应用预测软件进行预测,获得软件预测结果。
训练模块与软件预测模块连接,用于根据软件预测结果通过机器学习的算法训练数据集中的基因突变位点,得到分类模型。
疾病预测模块与训练模块连接,用于将任一患者的基因突变位点应用到分类模型中,得到疾病预测结果。
在本发明实施方式中,数据集包括阳性基因突变位点数据集和阴性基因突变位点数据集。数据集构建模块用于:选取预设数量遗传疾病患者的基因突变位点;对预设数量遗传疾病患者进行基因测序得到所有靶向基因突变位点,评估得到最终致病的突变位点,作为阳性基因突变位点数据集;从预设数量遗传疾病患者的其它靶向基因突变位点中选取与阳性基因突变位点数据集数量相当基因频率达到预设值的突变位点作为阴性基因突变位点数据集。预设数量根据需要进行选取,要有足够数量的遗传疾病患者,以保证后续以该数据集获取的分类模型全面准确。预设数量也不宜过大,否则会增加计算复杂度。本发明实施方式通过选择合适的数据集建立分类模型,提高了预测的准确性和特异性,进而能够作为很强的医疗诊断的证据。
基因突变位点的突变类型至少包括SNP突变和INDEL突变的至少之一。预测软件可以但不限于Polyphen、MutationTaster、fathmm、SIFT、fathmm-MKL、MetaLR、MetaSVM、CADD、CRAVAT的至少之一。本发明实施方式通过应用多种预测软件进行预测,提高了预测的准确性和特异性。
在本发明实施方式中,由于SNP突变与INDEL突变对应的预测系统不同,将针对这二类不同类型的突变分开处理。训练模块用于:基因突变位点为SNP突变时,应用Polyphen、MutationTaster、fathmm、SIFT的预测软件中的至少其中之一预测表达蛋白质危害性,应用fathmm-MKL、MetaLR、MetaSVM的预测软件中的至少其中之一预测表达蛋白质保守性,获得软件预测结果;基因突变位点为INDEL突变时,应用DDGI、MutationTaster的预测软件中的至少其中之一预测表达蛋白质危害性,应用CADD、CRAVAT的预测软件中的至少其中之一进行二种数值型打分,获得软件预测结果。本发明实施方式通过对不同的突变类型应用不同的预测软件获取软件预测结果,进而获取分类模型,提高了预测的准确性和特异性。
在本发明实施方式中,机器学习的算法至少包括决策树,k-近邻算法,朴素贝叶斯算法,AdaBoost元算法的至少之一。
以决策树算法为例,综合考虑各种软件的打分结果,得到的分类模型包括三种决策树:SNP突变的表达蛋白危害性的决策树,SNP突变的表达蛋白保守性的决策树、INDEL突变的综合危害性的决策树。
疾病预测模块用于将任一患者的基因突变位点的多种预测软件的预测结果应用到分类模型中,可以得到该患者的疾病预测结果。疾病预测结果可以至少包括得病、可能得病、健康、可能健康以及无法判断五种疾病预测结果中的其中之一。
以应用决策树算法形成的分类模型为例,疾病预测模块将任一患者的基因突变位点的多种预测软件的预测结果应用到前述的三种决策树中,可以得到该患者是否得病。在应用决策树算法形成的分类模型中,SNP突变的表达蛋白危害性的决策树、SNP突变的表达蛋白保守性的决策树以及INDEL突变的综合危害性的决策树分别得到了100%,94.3%和85%的准确性,以及94.6%,94.6%,100%的特异性。可见,本发明实施方式的基因突变引起的遗传疾病预测装置极大得提高了预测的准确性和特异性,其预测的疾病预测结果能够作为很强的医疗诊断的证据。
不难发现,本实施方式为与第一实施方式相对应的系统实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (14)

1.一种基因突变引起的遗传疾病预测方法,其特征在于,包括:
构建基因突变位点的数据集,其中,所述数据集中包括多位遗传疾病患者的基因突变位点;
根据所述数据集中基因突变位点的突变类型不同应用不同的预测软件进行预测,获得软件预测结果;
根据所述软件预测结果通过机器学习的算法训练数据集中的基因突变位点,得到分类模型;
将任一患者的基因突变位点应用到所述分类模型中,得到疾病预测结果。
2.根据权利要求1所述的遗传疾病预测方法,其特征在于,所述数据集包括阳性基因突变位点数据集和阴性基因突变位点数据集,所述构建突变位点的数据集,包括:
选取预设数量遗传疾病患者的基因突变位点;
对所述预设数量遗传疾病患者进行基因测序得到所有靶向基因突变位点,评估得到最终致病的突变位点,作为所述阳性基因突变位点数据集;
从所述预设数量遗传疾病患者的其它靶向基因突变位点中选取与所述阳性基因突变位点数据集数量相当基因频率达到预设值的突变位点作为所述阴性基因突变位点数据集。
3.根据权利要求1所述的遗传疾病预测方法,其特征在于,所述基因突变位点的突变类型包括SNP突变和INDEL突变的至少之一。
4.根据权利要求1所述的遗传疾病预测方法,其特征在于,所述预测软件包括Polyphen、MutationTaster、FATHMM、SIFT、fathmm-MKL、MetaLR、MetaSVM、CADD、CRAVAT的至少之一。
5.根据权利要求4所述的遗传疾病预测方法,其特征在于,所述根据所述数据集中基因突变位点的突变类型不同应用不同的预测软件进行预测,获得软件预测结果,包括:
所述基因突变位点为SNP突变时,应用Polyphen、MutationTaster、FATHMM、SIFT的预测软件中的至少其中之一预测表达蛋白质危害性,应用fathmm-MKL、MetaLR、MetaSVM的预测软件中的至少其中之一预测表达蛋白质保守性,获得软件预测结果;
所述基因突变位点为INDEL突变时,应用DDGI,MutationTaster的预测软件中的至少其中之一预测表达蛋白质危害性,应用CADD,CRAVAT的预测软件中的至少其中之一进行二种数值型打分,获得软件预测结果。
6.根据权利要求1所述的遗传疾病预测方法,其特征在于,所述机器学习的算法包括决策树,k-近邻算法,朴素贝叶斯算法,AdaBoost元算法的至少之一。
7.根据权利要求6所述的遗传疾病预测方法,其特征在于,所述机器学习的算法为决策树算法时,所述分类模型包括:SNP突变的表达蛋白危害性的决策树,SNP突变的表达蛋白保守性的决策树、INDEL突变的综合危害性的决策树。
8.一种基因突变引起的遗传疾病预测装置,其特征在于,包括:
数据集构建模块,用于构建基因突变位点的数据集,其中,所述数据集中包括多位遗传疾病患者的基因突变位点;
软件预测模块,与所述数据集构建模块连接,用于根据所述数据集中基因突变位点的突变类型不同应用不同的预测软件进行预测,获得软件预测结果;
训练模块,与所述软件预测模块连接,用于根据所述软件预测结果通过机器学习的算法训练数据集中的基因突变位点,得到分类模型;
疾病预测模块,与所述训练模块连接,用于将任一患者的基因突变位点应用到所述分类模型中,得到疾病预测结果。
9.根据权利要求8所述的遗传疾病预测装置,其特征在于,所述数据集包括阳性基因突变位点数据集和阴性基因突变位点数据集,所述数据集构建模块用于:
选取预设数量遗传疾病患者的基因突变位点;
对所述预设数量遗传疾病患者进行基因测序得到所有靶向基因突变位点,评估得到最终致病的突变位点,作为所述阳性基因突变位点数据集;
从所述预设数量遗传疾病患者的其它靶向基因突变位点中选取与所述阳性基因突变位点数据集数量相当基因频率达到预设值的突变位点作为所述阴性基因突变位点数据集。
10.根据权利要求8所述的遗传疾病预测装置,其特征在于,所述基因突变位点的突变类型包括SNP突变和INDEL突变的至少之一。
11.根据权利要求9所述的遗传疾病预测装置,其特征在于,所述训练模块用于:
所述基因突变位点为SNP突变时,应用Polyphen,MutationTaster,FATHMM,SIFT的预测软件中的至少其中之一预测表达蛋白质危害性,应用fathmm-MKL,MetaLR,MetaSVM的预测软件中的至少其中之一预测表达蛋白质保守性,获得软件预测结果;
所述基因突变位点为INDEL突变时,应用DDGI,MutationTaster的预测软件中的至少其中之一预测表达蛋白质危害性,应用CADD,CRAVAT的预测软件中的至少其中之一进行二种数值型打分,获得软件预测结果。
12.根据权利要求8所述的遗传疾病预测装置,其特征在于,所述预测软件包括Polyphen,MutationTaster,FATHMM,SIFT,fathmm-MKL,MetaLR,MetaSVM,CADD,CRAVAT的至少之一。
13.根据权利要求8所述的遗传疾病预测装置,其特征在于,所述机器学习的算法包括决策树,k-近邻算法,朴素贝叶斯算法,AdaBoost元算法的至少之一。
14.根据权利要求13所述的遗传疾病预测装置,其特征在于,所述机器学习的算法为决策树进,所述分类模型包括:SNP突变的表达蛋白危害性的决策树,SNP突变的表达蛋白保守性的决策树、INDEL突变的综合危害性的决策树的至少之一。
CN201710161650.8A 2017-03-17 2017-03-17 基因突变引起的遗传疾病预测方法及装置 Pending CN106960122A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710161650.8A CN106960122A (zh) 2017-03-17 2017-03-17 基因突变引起的遗传疾病预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710161650.8A CN106960122A (zh) 2017-03-17 2017-03-17 基因突变引起的遗传疾病预测方法及装置

Publications (1)

Publication Number Publication Date
CN106960122A true CN106960122A (zh) 2017-07-18

Family

ID=59470387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710161650.8A Pending CN106960122A (zh) 2017-03-17 2017-03-17 基因突变引起的遗传疾病预测方法及装置

Country Status (1)

Country Link
CN (1) CN106960122A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108592A (zh) * 2017-12-29 2018-06-01 北京聚道科技有限公司 一种用于遗传变异致病性打分的机器学习模型的构建方法
CN109390038A (zh) * 2018-12-25 2019-02-26 人和未来生物科技(长沙)有限公司 群体频率与突变预测相结合的突变致病性检测方法及系统
CN109411015A (zh) * 2018-09-28 2019-03-01 深圳裕策生物科技有限公司 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质
CN110033860A (zh) * 2019-02-27 2019-07-19 杭州贝安云科技有限公司 一种基于机器学习的遗传代谢病检出率提升方法
CN110400602A (zh) * 2018-04-23 2019-11-01 深圳华大生命科学研究院 一种基于测序数据的abo血型系统分型方法及其应用
WO2020077552A1 (zh) * 2018-10-17 2020-04-23 上海允英医疗科技有限公司 一种肿瘤预后预测的方法和系统
CN111933288A (zh) * 2020-08-21 2020-11-13 上海交通大学医学院附属第九人民医院 基于cnn的先天性耳聋疾病预测方法、系统以及终端
WO2021042236A1 (zh) * 2019-09-02 2021-03-11 北京哲源科技有限责任公司 疾病治疗管理因素特征自动预测方法及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105861697A (zh) * 2016-05-13 2016-08-17 万康源(天津)基因科技有限公司 一种基于家系的外显子组潜在致病变异检测系统
CN105925685A (zh) * 2016-05-13 2016-09-07 万康源(天津)基因科技有限公司 一种基于家系的外显子组潜在致病变异检测方法
CN105930690A (zh) * 2016-05-13 2016-09-07 万康源(天津)基因科技有限公司 一种全外显子组测序数据分析方法
CN106011224A (zh) * 2015-12-24 2016-10-12 晶能生物技术(上海)有限公司 神经系统遗传性疾病基因联合筛查方法、试剂盒及其制备方法
CN106407747A (zh) * 2016-11-04 2017-02-15 成都鑫云解码科技有限公司 肿瘤对应的基因的突变位点的获取方法及装置
CN106407746A (zh) * 2016-11-04 2017-02-15 成都鑫云解码科技有限公司 呼吸系统对应的基因的突变位点的获取方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106011224A (zh) * 2015-12-24 2016-10-12 晶能生物技术(上海)有限公司 神经系统遗传性疾病基因联合筛查方法、试剂盒及其制备方法
CN105861697A (zh) * 2016-05-13 2016-08-17 万康源(天津)基因科技有限公司 一种基于家系的外显子组潜在致病变异检测系统
CN105925685A (zh) * 2016-05-13 2016-09-07 万康源(天津)基因科技有限公司 一种基于家系的外显子组潜在致病变异检测方法
CN105930690A (zh) * 2016-05-13 2016-09-07 万康源(天津)基因科技有限公司 一种全外显子组测序数据分析方法
CN106407747A (zh) * 2016-11-04 2017-02-15 成都鑫云解码科技有限公司 肿瘤对应的基因的突变位点的获取方法及装置
CN106407746A (zh) * 2016-11-04 2017-02-15 成都鑫云解码科技有限公司 呼吸系统对应的基因的突变位点的获取方法及装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108592A (zh) * 2017-12-29 2018-06-01 北京聚道科技有限公司 一种用于遗传变异致病性打分的机器学习模型的构建方法
CN108108592B (zh) * 2017-12-29 2020-06-16 北京聚道科技有限公司 一种用于遗传变异致病性打分的机器学习模型的构建方法
CN110400602B (zh) * 2018-04-23 2022-03-25 深圳华大生命科学研究院 一种基于测序数据的abo血型系统分型方法及其应用
CN110400602A (zh) * 2018-04-23 2019-11-01 深圳华大生命科学研究院 一种基于测序数据的abo血型系统分型方法及其应用
CN109411015A (zh) * 2018-09-28 2019-03-01 深圳裕策生物科技有限公司 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质
CN109411015B (zh) * 2018-09-28 2020-12-22 深圳裕策生物科技有限公司 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质
WO2020077552A1 (zh) * 2018-10-17 2020-04-23 上海允英医疗科技有限公司 一种肿瘤预后预测的方法和系统
CN109390038B (zh) * 2018-12-25 2020-01-14 人和未来生物科技(长沙)有限公司 群体频率与突变预测相结合的突变致病性检测方法及系统
CN109390038A (zh) * 2018-12-25 2019-02-26 人和未来生物科技(长沙)有限公司 群体频率与突变预测相结合的突变致病性检测方法及系统
CN110033860A (zh) * 2019-02-27 2019-07-19 杭州贝安云科技有限公司 一种基于机器学习的遗传代谢病检出率提升方法
WO2021042236A1 (zh) * 2019-09-02 2021-03-11 北京哲源科技有限责任公司 疾病治疗管理因素特征自动预测方法及电子设备
CN112771618A (zh) * 2019-09-02 2021-05-07 北京哲源科技有限责任公司 疾病治疗管理因素特征自动预测方法及电子设备
CN111933288A (zh) * 2020-08-21 2020-11-13 上海交通大学医学院附属第九人民医院 基于cnn的先天性耳聋疾病预测方法、系统以及终端

Similar Documents

Publication Publication Date Title
CN106960122A (zh) 基因突变引起的遗传疾病预测方法及装置
Baker et al. AI-based prediction of independent construction safety outcomes from universal attributes
Emrouznejad et al. Ordered weighted averaging operators 1988–2014: A citation‐based literature survey
Sonego et al. ROC analysis: applications to the classification of biological sequences and 3D structures
Girardi et al. Using concept hierarchies to improve calculation of patient similarity
da Cruz et al. TERL: classification of transposable elements by convolutional neural networks
CN115776401A (zh) 基于少样本学习对网络攻击事件进行溯源的方法、装置
Albrecht et al. seqQscorer: automated quality control of next-generation sequencing data using machine learning
Hong et al. Effective indexes and classification algorithms for supervised link prediction approach to anticipating technology convergence: A comparative study
Alatrany et al. Machine learning approaches and applications in genome wide association study for Alzheimer’s disease: A systematic review
CN109036572B (zh) 一种多数据库交互方法及装置
Valente et al. Interpretability, personalization and reliability of a machine learning based clinical decision support system
Zhang et al. LCS-DIVE: An automated rule-based machine learning visualization pipeline for characterizing complex associations in classification
Teimouri et al. Detecting diseases in medical prescriptions using data mining tools and combining techniques
Admojo et al. Estimating Obesity Levels Using Decision Trees and K-Fold Cross-Validation: A Study on Eating Habits and Physical Conditions
Jalili et al. Improving the performance of leaves identification by features selection with genetic algorithms
Manzo et al. Breast cancer survival analysis agents for clinical decision support
Paul et al. A new family of similarity measures for scoring confidence of protein interactions using gene ontology
Fan Data mining model for predicting the quality level and classification of construction projects
Gagolewski et al. Clustering with minimum spanning trees: How good can it be?
Gellrich et al. Feature selection based on visual analytics for quality prediction in aluminium die casting
Ben Khalifa et al. Evidential spammers and group spammers detection
CN114300036A (zh) 遗传变异致病性预测方法、装置、存储介质及计算机设备
Ressom et al. Applications of fuzzy logic in genomics
Perzyk et al. Comparative Study of Decision Trees and Rough Sets Theory as Knowledge ExtractionTools for Design and Control of Industrial Processes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170718