CN107506600B

CN107506600B - 基于甲基化数据的癌症类型的预测方法及装置

Info

Publication number: CN107506600B
Application number: CN201710785909.6A
Authority: CN
Inventors: 杨飞; 任一; 陈昌岳; 郑冠涛; 王芳; 李静; 路远
Original assignee: Shanghai Majorbio Bio Pharm Technology Co ltd
Current assignee: Shanghai Majorbio Bio Pharm Technology Co ltd
Priority date: 2017-09-04
Filing date: 2017-09-04
Publication date: 2021-05-14
Anticipated expiration: 2037-09-04
Also published as: CN107506600A

Abstract

本发明提供基于甲基化数据的癌症类型的预测方法及装置，包括：从DNA甲基化芯片检测到的DNA序列的甲基化数据中随机选取某些位点的数据作为训练数据来训练分类器模型；其中，作为训练数据的甲基化数据所代表的癌症种类为已知；通过训练好的分类器模型预测未知癌症种类的DNA甲基化芯片数据可能代表的癌症种类，或预测单细胞或多细胞的甲基化测序数据可能代表的癌症种类。本发明从测得的甲基化数据中随机选取某些位点的数据来训练分类器，可以在待测癌种类型的样本的某些位点的甲基化数据没有获知时，令分类器根据和待测样本已获知的甲基化位点相同的位点的数据作训练，极大程度上提高了基于甲基化的癌种类型的预测的便利性。

Description

基于甲基化数据的癌症类型的预测方法及装置

技术领域

本发明涉及癌症类型预测领域，特别是涉及基于甲基化数据的癌症类型的预测方法及装置。

背景技术

作为人类基因组最为典型的表观遗传现象，DNA甲基化在多种关键生理活动中扮演重要角色，其甲基化状态与各种疾病，特别是癌症的发生密切相关。甲基化芯片检测已经用于患者样本的DNA甲基化检测中，在此基础上，通过已知癌种类型的甲基化芯片数据训练出的分类器模型就可以用来预测未知癌种类型的甲基化芯片数据可能代表的癌种类型。

然而，这种分类器模型的建立通常会精选一些特异性较好的，即能用于较好地区分样本癌症类型的甲基化位点，相应的，用来训练该分类器模型的数据集也必须是来自这些精选出的甲基化位点的数据。可见，这种分类器模型在预测单细胞或多细胞的甲基化测序数据可能代表的癌种类型方面并不能取得良好效果，原因是：这种分类器模型的甲基化位点相对固定，而单细胞或多细胞数据的捕获通常又比较困难，极有可能捕获不到这些相对固定的甲基化位点的数据，所以说，在某些甲基化位点数据缺失的情况下这种模型就很难使用。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供基于甲基化数据的癌症类型的预测方法及装置，用于解决现有技术中的以上问题。

为实现上述目的及其他相关目的，本发明提供一种基于甲基化数据的癌症类型的预测方法，包括：从利用DNA甲基化芯片检测到的DNA序列样本的甲基化位点数据中随机选取部分位点的数据作为训练数据来训练分类器模型；其中，作为训练数据的甲基化位点数据所代表的癌症种类为已知；通过训练好的分类器模型预测未知癌症种类的DNA甲基化芯片数据可能代表的癌症种类，或预测单细胞或多细胞的甲基化测序数据可能代表的癌症种类。

于本发明一实施例中，所述训练数据还包括：预先捕获的单细胞或多细胞的甲基化位点的数据。

于本发明一实施例中，所述分类器模型包括：随机森林模型、和/或支持向量机模型。

于本发明一实施例中，所述甲基化位点数据是从公共数据库中获取的DNA甲基化芯片检测得到的数据。

于本发明一实施例中，所述甲基化位点数据还包括：预先积累得到的测序数据。

为实现上述目的及其他相关目的，本发明提供一种基于甲基化数据的癌症类型的预测装置，包括：模型建立单元，用于从利用DNA甲基化芯片检测得到的DNA序列样本的甲基化位点，并从检测得到的甲基化位点数据中随机选取部分位点的数据作为训练数据来训练分类器模型；其中，作为训练数据的甲基化位点数据所代表的癌症种类为已知；癌种预测单元，用于通过训练好的分类器模型预测未知癌症种类的利用DNA甲基化芯片数据可能代表的癌症种类，或预测单细胞或多细胞的甲基化测序数据可能代表的癌症种类。

如上所述，本发明的基于甲基化数据的癌症类型的预测方法及装置，从检测得到的甲基化位点数据中随机选取部分位点的数据作为训练数据来训练分类器模型。这种随机选取的方式有利于：在待测癌种类型的样本的某些位点的数据没有获知时，分类器模型能根据待测样本已获知的位点数据作训练，从而提高分类器模型的适用性。经过测试，随机选取甲基化位点并以随机得到的位点数据训练出的分类器模型在使用的位点数达到一定数据量后，可靠性能够保证，极大程度上提高了基于甲基化的癌种类型的预测的便利性。

附图说明

图1显示为本发明一实施例中的甲基化数据的癌症类型的预测方法的流程示意图。

图2显示为本发明一实施例中的甲基化数据的癌症类型的预测装置的结构示意图。

图3显示为本发明随机选择部分甲基化位点的数据训练出来的分类器模型的可靠性的实验验证图。

元件标号说明

S101～S102 步骤

2 基于甲基化数据的癌症类型的预测装置

201 模型建立单元

202 癌种预测单元

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

鉴于现有构建分类器模型的甲基化位点相对固定，而单细胞或多细胞数据在捕获时极有可能捕获不到这些相对固定的甲基化位点的数据，本发明提供新型的基于甲基化数据的癌症类型的预测方法及装置，从而解决了在某些甲基化位点数据缺失的情况下现有模型难以使用的问题。

请参阅图1，本发明将通过Illumina Human甲基化450K芯片为例，详细阐述提供的基于甲基化数据的癌症类型的预测方法，但需要说明的是，本发明的方法并不以IlluminaHuman甲基化450K芯片为限，利用其他规格的DNA甲基化芯片来实现本发明方法的技术方案也应当属于本发明要求保护的范围之内。本发明的方法具体包括：

步骤S101：从Illumina Human甲基化450K芯片检测得到的DNA序列样本的甲基化位点数据中随机选取部分位点的数据作为训练数据来训练分类器模型；其中，作为训练数据的甲基化位点数据所代表的癌症种类为已知。

在一较佳的实施方式中，步骤S101所述的甲基化位点数据采用从公共数据库中下载获得的Illumina Human甲基化450K芯片的位点数据，此外，还可以包括一些已经积累到的测序数据。所述训练样本除了使用甲基化450K芯片的样本，还包括一些预先捕获的单细胞或多细胞的甲基化位点的数据。

所述分类器模型可以是随机森林模型、支持向量机模型等，还可以是随机森林模型和支持向量机等模型的组合。

随机森林是多个决策树构成的森林，每个决策树从训练数据学到的知识不尽相同，对新数据所属的分类作出预测的决策也就不同，每个决策树作出的决策可能有失偏颇，多个决策树汇总得到的分类决策通常更为可靠，这可以说是集集体智慧为一体的一种算法模型。

支持向量机作为经典的监督学习算法，在二分类问题中有着广泛应用，在多分类问题中通过参数优化等方式也可以获得良好的表现。支持向量机中核函数的使用也有助于实现更好的分类效果。

步骤S102：通过训练好的分类器模型预测未知癌症种类的Illumina Human甲基化450K芯片数据可能代表的癌症种类，或预测单细胞或多细胞的甲基化测序数据可能代表的癌症种类。

请参阅图2，本发明提供的基于甲基化数据的癌症类型的预测装置2，包括：模型建立单元201、癌种预测单元202。

模型建立单元201从Illumina Human甲基化450K芯片检测得到的DNA序列样本的甲基化位点数据中随机选取部分作为训练数据来训练分类器模型；其中，作为训练数据的甲基化位点数据所代表的癌症种类为已知。

在一较佳的实施方式中，模型建立单元201所述的甲基化位点数据采用从公共数据库中下载获得的Illumina Human甲基化450K芯片的位点数据，此外，还可以包括一些已经积累到的测序数据。所述训练样本除了使用甲基化450K芯片的样本，还包括一些预先捕获的单细胞或多细胞的甲基化样本。

癌种预测单元202通过训练好的分类器模型预测未知癌症种类的Illumina Human甲基化450K芯片数据可能代表的癌症种类，或预测单细胞或多细胞的甲基化测序数据可能代表的癌症种类。

综上所述，本发明的基于甲基化数据的癌症类型的预测方法及装置，从检测得到的甲基化位点数据中随机选取部分作为训练数据来训练分类器模型。这种随机选取的方式有利于：在待测癌种类型的样本的某些位点的数据没有获知时，分类器模型能根据待测样本已获知的位点数据作训练，从而提高分类器模型的适用性。经过测试，随机选取甲基化位点并以随机得到的位点数据训练出的分类器模型在使用的位点数达到一定数据量后，可靠性是能够保证的，如图3所示，横轴是训练时随机使用的位点的个数，纵轴是测试准确率，可见，随着随机使用的位点的个数的增加，准确率也不断增加，当位点个数增加到一定量后，准确率显示了饱和的趋势。因此，如果能保证位点的个数足够多，则能满足一个可接受的模型准确率，我们使用的数据也补充验证了这一点。

另外，单细胞和多细胞的测序数据很难保证甲基化位点是能被覆盖的，如果未覆盖的位点数较多，不利于模型的学习，对于未覆盖的位点，为了在训练和预测上取得更好效果，可以对这些缺失值作一些处理进行补救，可以将该位点的已知数据的均值代替缺失值。单细胞或多细胞的测序数据和Illumina Human甲基化450K芯片的数据分布有所区别，可通过算法学习的方式进行校正。

本发明从测获到的甲基化位点中随机选取一定数量的甲基化位点，利用这些甲基化位点的数据来训练分类器，考虑到基于高通量测序的甲基化位点的无法检测到的的位点具有随机性，这可以在测试样本的某些位点的甲基化数据没有获知时，令分类器根据测试样本已获知的位点的甲基化数据训练分类器，极大程度上提高了基于甲基化的癌种类型的预测的便利性，有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于甲基化数据的癌症类型的预测方法，其特征在于，包括：

从DNA甲基化芯片检测到的DNA序列的甲基化位点数据中随机选取与待测样本已获知的甲基化位点相对应的部分位点的数据作为训练数据来训练分类器模型；其中，作为训练数据的甲基化位点数据所代表的癌症种类为已知；

通过训练好的分类器模型预测未知癌症种类的DNA甲基化芯片数据代表的癌症种类，或预测单细胞或多细胞的甲基化测序数据代表的癌症种类。

2.根据权利要求1所述的方法，其特征在于，所述训练数据还包括：预先捕获的单细胞或多细胞的甲基化位点的数据。

3.根据权利要求1所述的方法，其特征在于，所述分类器模型包括：随机森林模型、和/或支持向量机模型。

4.根据权利要求1所述的方法，其特征在于，所述甲基化位点数据是从公共数据库中获取的DNA甲基化芯片检测得到的数据。

5.根据权利要求4所述的方法，其特征在于，所述甲基化位点数据还包括：预先积累得到的测序数据。

6.一种基于甲基化数据的癌症类型的预测装置，其特征在于，包括：

模型建立单元，用于从DNA甲基化芯片检测得到的DNA序列样本的甲基化位点数据中随机选取与待测样本已获知的甲基化位点相对应的部分位点的数据作为训练数据来训练分类器模型；其中，作为训练数据的甲基化位点数据所代表的癌症种类为已知；

癌种预测单元，用于通过训练好的分类器模型预测未知癌症种类的DNA甲基化芯片数据代表的癌症种类，或预测单细胞或多细胞的甲基化测序数据代表的癌症种类。

7.根据权利要求6所述的装置，其特征在于，所述训练数据还包括：预先捕获的单细胞或多细胞的甲基化位点的数据。

8.根据权利要求6所述的装置，其特征在于，所述分类器模型包括：随机森林模型、和/或支持向量机模型。

9.根据权利要求6所述的装置，其特征在于，所述甲基化位点数据是从公共数据库中获取的DNA甲基化芯片检测得到的数据。

10.根据权利要求9所述的装置，其特征在于，所述甲基化位点数据还包括：预先积累得到的测序数据。