CN107506600B - 基于甲基化数据的癌症类型的预测方法及装置 - Google Patents

基于甲基化数据的癌症类型的预测方法及装置 Download PDF

Info

Publication number
CN107506600B
CN107506600B CN201710785909.6A CN201710785909A CN107506600B CN 107506600 B CN107506600 B CN 107506600B CN 201710785909 A CN201710785909 A CN 201710785909A CN 107506600 B CN107506600 B CN 107506600B
Authority
CN
China
Prior art keywords
data
methylation
cancer
sites
predicting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710785909.6A
Other languages
English (en)
Other versions
CN107506600A (zh
Inventor
杨飞
任一
陈昌岳
郑冠涛
王芳
李静
路远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Majorbio Bio Pharm Technology Co ltd
Original Assignee
Shanghai Majorbio Bio Pharm Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Majorbio Bio Pharm Technology Co ltd filed Critical Shanghai Majorbio Bio Pharm Technology Co ltd
Priority to CN201710785909.6A priority Critical patent/CN107506600B/zh
Publication of CN107506600A publication Critical patent/CN107506600A/zh
Application granted granted Critical
Publication of CN107506600B publication Critical patent/CN107506600B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供基于甲基化数据的癌症类型的预测方法及装置,包括:从DNA甲基化芯片检测到的DNA序列的甲基化数据中随机选取某些位点的数据作为训练数据来训练分类器模型;其中,作为训练数据的甲基化数据所代表的癌症种类为已知;通过训练好的分类器模型预测未知癌症种类的DNA甲基化芯片数据可能代表的癌症种类,或预测单细胞或多细胞的甲基化测序数据可能代表的癌症种类。本发明从测得的甲基化数据中随机选取某些位点的数据来训练分类器,可以在待测癌种类型的样本的某些位点的甲基化数据没有获知时,令分类器根据和待测样本已获知的甲基化位点相同的位点的数据作训练,极大程度上提高了基于甲基化的癌种类型的预测的便利性。

Description

基于甲基化数据的癌症类型的预测方法及装置
技术领域
本发明涉及癌症类型预测领域,特别是涉及基于甲基化数据的癌症类型的预测方法及装置。
背景技术
作为人类基因组最为典型的表观遗传现象,DNA甲基化在多种关键生理活动中扮演重要角色,其甲基化状态与各种疾病,特别是癌症的发生密切相关。甲基化芯片检测已经用于患者样本的DNA甲基化检测中,在此基础上,通过已知癌种类型的甲基化芯片数据训练出的分类器模型就可以用来预测未知癌种类型的甲基化芯片数据可能代表的癌种类型。
然而,这种分类器模型的建立通常会精选一些特异性较好的,即能用于较好地区分样本癌症类型的甲基化位点,相应的,用来训练该分类器模型的数据集也必须是来自这些精选出的甲基化位点的数据。可见,这种分类器模型在预测单细胞或多细胞的甲基化测序数据可能代表的癌种类型方面并不能取得良好效果,原因是:这种分类器模型的甲基化位点相对固定,而单细胞或多细胞数据的捕获通常又比较困难,极有可能捕获不到这些相对固定的甲基化位点的数据,所以说,在某些甲基化位点数据缺失的情况下这种模型就很难使用。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供基于甲基化数据的癌症类型的预测方法及装置,用于解决现有技术中的以上问题。
为实现上述目的及其他相关目的,本发明提供一种基于甲基化数据的癌症类型的预测方法,包括:从利用DNA甲基化芯片检测到的DNA序列样本的甲基化位点数据中随机选取部分位点的数据作为训练数据来训练分类器模型;其中,作为训练数据的甲基化位点数据所代表的癌症种类为已知;通过训练好的分类器模型预测未知癌症种类的DNA甲基化芯片数据可能代表的癌症种类,或预测单细胞或多细胞的甲基化测序数据可能代表的癌症种类。
于本发明一实施例中,所述训练数据还包括:预先捕获的单细胞或多细胞的甲基化位点的数据。
于本发明一实施例中,所述分类器模型包括:随机森林模型、和/或支持向量机模型。
于本发明一实施例中,所述甲基化位点数据是从公共数据库中获取的DNA甲基化芯片检测得到的数据。
于本发明一实施例中,所述甲基化位点数据还包括:预先积累得到的测序数据。
为实现上述目的及其他相关目的,本发明提供一种基于甲基化数据的癌症类型的预测装置,包括:模型建立单元,用于从利用DNA甲基化芯片检测得到的DNA序列样本的甲基化位点,并从检测得到的甲基化位点数据中随机选取部分位点的数据作为训练数据来训练分类器模型;其中,作为训练数据的甲基化位点数据所代表的癌症种类为已知;癌种预测单元,用于通过训练好的分类器模型预测未知癌症种类的利用DNA甲基化芯片数据可能代表的癌症种类,或预测单细胞或多细胞的甲基化测序数据可能代表的癌症种类。
于本发明一实施例中,所述训练数据还包括:预先捕获的单细胞或多细胞的甲基化位点的数据。
于本发明一实施例中,所述分类器模型包括:随机森林模型、和/或支持向量机模型。
于本发明一实施例中,所述甲基化位点数据是从公共数据库中获取的DNA甲基化芯片检测得到的数据。
于本发明一实施例中,所述甲基化位点数据还包括:预先积累得到的测序数据。
如上所述,本发明的基于甲基化数据的癌症类型的预测方法及装置,从检测得到的甲基化位点数据中随机选取部分位点的数据作为训练数据来训练分类器模型。这种随机选取的方式有利于:在待测癌种类型的样本的某些位点的数据没有获知时,分类器模型能根据待测样本已获知的位点数据作训练,从而提高分类器模型的适用性。经过测试,随机选取甲基化位点并以随机得到的位点数据训练出的分类器模型在使用的位点数达到一定数据量后,可靠性能够保证,极大程度上提高了基于甲基化的癌种类型的预测的便利性。
附图说明
图1显示为本发明一实施例中的甲基化数据的癌症类型的预测方法的流程示意图。
图2显示为本发明一实施例中的甲基化数据的癌症类型的预测装置的结构示意图。
图3显示为本发明随机选择部分甲基化位点的数据训练出来的分类器模型的可靠性的实验验证图。
元件标号说明
S101~S102 步骤
2 基于甲基化数据的癌症类型的预测装置
201 模型建立单元
202 癌种预测单元
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
鉴于现有构建分类器模型的甲基化位点相对固定,而单细胞或多细胞数据在捕获时极有可能捕获不到这些相对固定的甲基化位点的数据,本发明提供新型的基于甲基化数据的癌症类型的预测方法及装置,从而解决了在某些甲基化位点数据缺失的情况下现有模型难以使用的问题。
请参阅图1,本发明将通过Illumina Human甲基化450K芯片为例,详细阐述提供的基于甲基化数据的癌症类型的预测方法,但需要说明的是,本发明的方法并不以IlluminaHuman甲基化450K芯片为限,利用其他规格的DNA甲基化芯片来实现本发明方法的技术方案也应当属于本发明要求保护的范围之内。本发明的方法具体包括:
步骤S101:从Illumina Human甲基化450K芯片检测得到的DNA序列样本的甲基化位点数据中随机选取部分位点的数据作为训练数据来训练分类器模型;其中,作为训练数据的甲基化位点数据所代表的癌症种类为已知。
在一较佳的实施方式中,步骤S101所述的甲基化位点数据采用从公共数据库中下载获得的Illumina Human甲基化450K芯片的位点数据,此外,还可以包括一些已经积累到的测序数据。所述训练样本除了使用甲基化450K芯片的样本,还包括一些预先捕获的单细胞或多细胞的甲基化位点的数据。
所述分类器模型可以是随机森林模型、支持向量机模型等,还可以是随机森林模型和支持向量机等模型的组合。
随机森林是多个决策树构成的森林,每个决策树从训练数据学到的知识不尽相同,对新数据所属的分类作出预测的决策也就不同,每个决策树作出的决策可能有失偏颇,多个决策树汇总得到的分类决策通常更为可靠,这可以说是集集体智慧为一体的一种算法模型。
支持向量机作为经典的监督学习算法,在二分类问题中有着广泛应用,在多分类问题中通过参数优化等方式也可以获得良好的表现。支持向量机中核函数的使用也有助于实现更好的分类效果。
步骤S102:通过训练好的分类器模型预测未知癌症种类的Illumina Human甲基化450K芯片数据可能代表的癌症种类,或预测单细胞或多细胞的甲基化测序数据可能代表的癌症种类。
请参阅图2,本发明提供的基于甲基化数据的癌症类型的预测装置2,包括:模型建立单元201、癌种预测单元202。
模型建立单元201从Illumina Human甲基化450K芯片检测得到的DNA序列样本的甲基化位点数据中随机选取部分作为训练数据来训练分类器模型;其中,作为训练数据的甲基化位点数据所代表的癌症种类为已知。
在一较佳的实施方式中,模型建立单元201所述的甲基化位点数据采用从公共数据库中下载获得的Illumina Human甲基化450K芯片的位点数据,此外,还可以包括一些已经积累到的测序数据。所述训练样本除了使用甲基化450K芯片的样本,还包括一些预先捕获的单细胞或多细胞的甲基化样本。
所述分类器模型可以是随机森林模型、支持向量机模型等,还可以是随机森林模型和支持向量机等模型的组合。
随机森林是多个决策树构成的森林,每个决策树从训练数据学到的知识不尽相同,对新数据所属的分类作出预测的决策也就不同,每个决策树作出的决策可能有失偏颇,多个决策树汇总得到的分类决策通常更为可靠,这可以说是集集体智慧为一体的一种算法模型。
支持向量机作为经典的监督学习算法,在二分类问题中有着广泛应用,在多分类问题中通过参数优化等方式也可以获得良好的表现。支持向量机中核函数的使用也有助于实现更好的分类效果。
癌种预测单元202通过训练好的分类器模型预测未知癌症种类的Illumina Human甲基化450K芯片数据可能代表的癌症种类,或预测单细胞或多细胞的甲基化测序数据可能代表的癌症种类。
综上所述,本发明的基于甲基化数据的癌症类型的预测方法及装置,从检测得到的甲基化位点数据中随机选取部分作为训练数据来训练分类器模型。这种随机选取的方式有利于:在待测癌种类型的样本的某些位点的数据没有获知时,分类器模型能根据待测样本已获知的位点数据作训练,从而提高分类器模型的适用性。经过测试,随机选取甲基化位点并以随机得到的位点数据训练出的分类器模型在使用的位点数达到一定数据量后,可靠性是能够保证的,如图3所示,横轴是训练时随机使用的位点的个数,纵轴是测试准确率,可见,随着随机使用的位点的个数的增加,准确率也不断增加,当位点个数增加到一定量后,准确率显示了饱和的趋势。因此,如果能保证位点的个数足够多,则能满足一个可接受的模型准确率,我们使用的数据也补充验证了这一点。
另外,单细胞和多细胞的测序数据很难保证甲基化位点是能被覆盖的,如果未覆盖的位点数较多,不利于模型的学习,对于未覆盖的位点,为了在训练和预测上取得更好效果,可以对这些缺失值作一些处理进行补救,可以将该位点的已知数据的均值代替缺失值。单细胞或多细胞的测序数据和Illumina Human甲基化450K芯片的数据分布有所区别,可通过算法学习的方式进行校正。
本发明从测获到的甲基化位点中随机选取一定数量的甲基化位点,利用这些甲基化位点的数据来训练分类器,考虑到基于高通量测序的甲基化位点的无法检测到的的位点具有随机性,这可以在测试样本的某些位点的甲基化数据没有获知时,令分类器根据测试样本已获知的位点的甲基化数据训练分类器,极大程度上提高了基于甲基化的癌种类型的预测的便利性,有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种基于甲基化数据的癌症类型的预测方法,其特征在于,包括:
从DNA甲基化芯片检测到的DNA序列的甲基化位点数据中随机选取与待测样本已获知的甲基化位点相对应的部分位点的数据作为训练数据来训练分类器模型;其中,作为训练数据的甲基化位点数据所代表的癌症种类为已知;
通过训练好的分类器模型预测未知癌症种类的DNA甲基化芯片数据代表的癌症种类,或预测单细胞或多细胞的甲基化测序数据代表的癌症种类。
2.根据权利要求1所述的方法,其特征在于,所述训练数据还包括:预先捕获的单细胞或多细胞的甲基化位点的数据。
3.根据权利要求1所述的方法,其特征在于,所述分类器模型包括:随机森林模型、和/或支持向量机模型。
4.根据权利要求1所述的方法,其特征在于,所述甲基化位点数据是从公共数据库中获取的DNA甲基化芯片检测得到的数据。
5.根据权利要求4所述的方法,其特征在于,所述甲基化位点数据还包括:预先积累得到的测序数据。
6.一种基于甲基化数据的癌症类型的预测装置,其特征在于,包括:
模型建立单元,用于从DNA甲基化芯片检测得到的DNA序列样本的甲基化位点数据中随机选取与待测样本已获知的甲基化位点相对应的部分位点的数据作为训练数据来训练分类器模型;其中,作为训练数据的甲基化位点数据所代表的癌症种类为已知;
癌种预测单元,用于通过训练好的分类器模型预测未知癌症种类的DNA甲基化芯片数据代表的癌症种类,或预测单细胞或多细胞的甲基化测序数据代表的癌症种类。
7.根据权利要求6所述的装置,其特征在于,所述训练数据还包括:预先捕获的单细胞或多细胞的甲基化位点的数据。
8.根据权利要求6所述的装置,其特征在于,所述分类器模型包括:随机森林模型、和/或支持向量机模型。
9.根据权利要求6所述的装置,其特征在于,所述甲基化位点数据是从公共数据库中获取的DNA甲基化芯片检测得到的数据。
10.根据权利要求9所述的装置,其特征在于,所述甲基化位点数据还包括:预先积累得到的测序数据。
CN201710785909.6A 2017-09-04 2017-09-04 基于甲基化数据的癌症类型的预测方法及装置 Active CN107506600B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710785909.6A CN107506600B (zh) 2017-09-04 2017-09-04 基于甲基化数据的癌症类型的预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710785909.6A CN107506600B (zh) 2017-09-04 2017-09-04 基于甲基化数据的癌症类型的预测方法及装置

Publications (2)

Publication Number Publication Date
CN107506600A CN107506600A (zh) 2017-12-22
CN107506600B true CN107506600B (zh) 2021-05-14

Family

ID=60695627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710785909.6A Active CN107506600B (zh) 2017-09-04 2017-09-04 基于甲基化数据的癌症类型的预测方法及装置

Country Status (1)

Country Link
CN (1) CN107506600B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825819A (zh) * 2019-09-24 2020-02-21 昆明理工大学 一种处理有缺失值和不平衡非小细胞肺癌数据的二分类方法
CN117894452A (zh) * 2024-01-16 2024-04-16 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002077895A2 (en) * 2001-03-26 2002-10-03 Epigenomics Ag Method for epigenetic feature selection
CN103559423B (zh) * 2013-10-31 2017-02-15 深圳先进技术研究院 一种甲基化作用的预测方法、装置
CN104899474B (zh) * 2015-06-09 2018-02-09 大连三生科技发展有限公司 基于岭回归矫正MB‑seq甲基化水平的方法及系统
CN105893787A (zh) * 2016-06-21 2016-08-24 南昌大学 一种蛋白质翻译后修饰甲基化位点的预测方法
CN106650304A (zh) * 2016-12-15 2017-05-10 电子科技大学 一种dna甲基化芯片数据的扩展方法

Also Published As

Publication number Publication date
CN107506600A (zh) 2017-12-22

Similar Documents

Publication Publication Date Title
CN108777873B (zh) 基于加权混合孤立森林的无线传感网络异常数据检测方法
JP6605415B2 (ja) 分光法を用いる識別
JP2021192051A (ja) 誤検知を減少させた分光学的分類のための識別
Lim et al. Sundaland's east–west rain forest population structure: variable manifestations in four polytypic bird species examined using RAD‐Seq and plumage analyses
CN107563448B (zh) 基于近红外光谱分析的样本空间聚类划分法
CN107506600B (zh) 基于甲基化数据的癌症类型的预测方法及装置
CN111048214A (zh) 外来畜禽疫病传播态势的预警方法及装置
CN115798602A (zh) 基因调控网络构建方法、装置、设备及存储介质
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
CN107735792A (zh) 软件分析系统、软件分析方法和软件分析程序
CN113096737A (zh) 一种用于对病原体类型进行自动分析的方法及系统
AU2022218581B2 (en) Sequencing data-based itd mutation ratio detecting apparatus and method
Pan et al. Supervising random forest using attribute interaction networks
Velasco et al. Mapping species diversification metrics in macroecology: prospects and challenges
JP6356015B2 (ja) 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム
CN110728315A (zh) 一种实时质量控制方法,系统和设备
CN115952078A (zh) 一种测试用例排序方法、装置、系统及存储介质
KR102305806B1 (ko) 임상 정보와 유전자 다형성 정보를 이용한 폐암 환자의 수술 후 예후 예측 방법
CN113782092A (zh) 一种生存期预测模型的生成方法及装置、存储介质
Chen et al. BSSV: Bayesian based somatic structural variation identification with whole genome DNA-seq data
CN111383716A (zh) 基因对的筛选方法、装置、计算机设备和存储介质
CN111898807A (zh) 一种基于全基因组选择烟叶产量预测方法及应用
May et al. How well can we detect shifts in rates of lineage diversification? A simulation study of sequential AIC methods
TWI764817B (zh) 基因檢測風險判定方法
Srivatsa et al. A simulator for somatic evolution study design

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant