CN112599194B

CN112599194B - 甲基化测序数据的处理方法和装置

Info

Publication number: CN112599194B
Application number: CN202110232548.9A
Authority: CN
Inventors: 楼峰; 周涛; 张萌萌; 郭璟; 曹善柏
Original assignee: Beijing Xiangxin Medical Technology Co ltd; Tianjin Xiangxin Biotechnology Co ltd; Beijing Xiangxin Biotechnology Co ltd
Current assignee: Beijing Xiangxin Medical Technology Co ltd; Tianjin Xiangxin Biotechnology Co ltd; Beijing Xiangxin Biotechnology Co ltd
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2021-06-22
Anticipated expiration: 2041-03-02
Also published as: CN112599194A

Abstract

本发明提供了一种甲基化测序数据的处理方法和装置。该处理方法包括：通过变分自动编码的方法建立甲基化测序数据的预测模型；将待测样本的甲基化测序数据输入预测模型；输出预测结果。通过变分自动编码的方法建立甲基化测序数据的预测模型，利用变分自动编码器的优势，将甲基化测序的原始数据转换成另一组数据，转换后的这组数据更符合某种特征分布规律，进而能更准确地建立与表型之间的相关性，进而得到的预测模型预测结果也更准确。

Description

甲基化测序数据的处理方法和装置

技术领域

本发明涉及生物信息领域，具体而言，涉及一种甲基化测序数据的处理方法和装置。

背景技术

DNA甲基化（DNAm）是基因表达程序的表观遗传调控因子，可因环境暴露，衰老和发病机理改变而改变。通常情况下全基因组甲基化测序采用基因芯片技术进行，计算每个CpG靶标的甲基化比例，以beta值表示。

传统方法将DNAm变化与表型数据相关联，进行表观遗传学的研究。尽管DNAm数据具有与基因型数据相似的功能，由于DNAm beta值的连续性、高维度等特性，在使用DNAm数据进行分析时面临多重假设检验和多重共线性等困扰。为了应对这些问题，许多下游EWAS（Epigenome-Wide Association Study，表观基因组关联分析）分析都集中于将数据特征维度缩减为与结果相关联的集合，通过降维和特征选择来限制特征的数量，使分析变得更易于计算，并且减轻多重比较的问题。

以往机器学习方法应用甲基化原始数据分析甲基化状态、进行分类和回归分析。但现有的这些方法仍存在结果准确性低的问题。

发明内容

本发明的主要目的在于提供一种甲基化测序数据的处理方法和装置，以解决现有技术中处理结果准确性相对较低的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种甲基化测序数据的处理方法，该处理方法包括：通过变分自动编码的方法建立甲基化测序数据的预测模型；将待测样本的甲基化测序数据输入预测模型；输出预测结果。

进一步地，通过变分自动编码的方法建立甲基化测序数据的预测模型包括：采用变分自动编码器将已知数据库中的甲基化测序数据转换为拟真数据；利用拟真数据进行模型预训练，得到预训练模型；在模型预训练过程中对预训练模型的超参数进行自动选择，筛选出最优模型，作为预测模型。

进一步地，在模型预训练过程中还包括修改预训练模型的结构，选择性载入预训练模型的权重后，再对预训练模型重新进行模型预训练。

进一步地，采用微调编码器对预训练模型进行结构调整，选择性载入预训练模型的权重；在采用微调编码器对对预训练模型进行结构调整，选择性载入预训练模型的权重之后，处理方法还包括对超参数进行自动选择，从而筛选出最优模型作为预测模型。

进一步地，已知数据库为TCGA数据库，通过变分自动编码的方法建立甲基化测序数据的预测模型包括：从TCGA数据库中选择目的表型的甲基化测序数据，并拆分为训练集和验证集；利用变分自动编码器将训练集和验证集中的甲基化测序数据转换为拟真数据集；并利用训练集的拟真数据集进行模型预训练，优选预训练过程中采用超参数自动选择，得到预训练模型；利用验证集的拟真数据对预训练模型进行验证，并采用微调编码器对预训练模型进行调整，调整包括对预训练模型执行自动超参数扫描，自动调整模型的超参数选择，从而选择最优模型作为预测模型。

在本申请的第二个方面，提供了一种甲基化测序数据的处理装置，该处理装置包括：模型建立模块，用于通过变分自动编码的装置建立甲基化测序数据的预测模型；数据输入模块，用于将待测样本的甲基化测序数据输入预测模型；结果输出模块，用于输出预测结果。

进一步地，模型建立模块包括：数据转换模块，数据转换模块为变分自动编码器，用于将已知数据库中的甲基化测序数据转换为拟真数据；训练模块，用于利用拟真数据进行模型预训练，得到预训练模型；调整模块，调整模块包括自动超参数扫描模块，用于在模型预训练过程中对预训练模型的超参数进行自动选择，筛选出最优模型，作为预测模型。

进一步地，调整模块还包括微调编码器，用于对预训练模型进行调整后，对预训练模型重新进行模型预训练。

进一步地，已知数据库为TCGA数据库，模型建立模块包括：数据选择模块，用于从TCGA数据库中选择目的表型的甲基化测序数据，并拆分为训练集和验证集；数据转换模块，用于利用变分自动编码器将训练集和验证集中的甲基化测序数据转换为拟真数据集；训练模块，用于利用训练集的拟真数据集进行模型预训练，得到预训练模型；调整模块，用于利用验证集的拟真数据对预训练模型进行验证，并采用微调编码器对预训练模型进行调整，调整包括对预训练模型执行自动超参数扫描，自动调整模型的超参数选择，选择最优模型作为预测模型。

根据本申请的第三个方面，提供了一种存储介质，该存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述任一种甲基化测序数据的处理方法。

根据本申请的第四个方面，提供了一种处理器，该处理器用于运行程序，其中，程序运行时执行上述任一种甲基化测序数据的处理方法。

应用本发明的技术方案，通过变分自动编码的方法建立甲基化测序数据的预测模型，利用变分自动编码器的优势，将甲基化测序的原始数据转换成另一组数据，转换后的这组数据更符合某种特征分布规律，进而能更准确地建立与表型之间的相关性，进而得到的预测模型预测结果也更准确。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明的一种优选的实施例的甲基化测序数据的处理方法的流程示意图；

图2示出了本发明的实施例2的处理结果的预测准确性检验结果图；

图3示出了本发明的实施例2的处理结果的ROC曲线图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

术语解释：

TCGA：The Cancer Genome Atlas，癌症基因组图谱数据库。

DNA methylation (DNAm) : DNA甲基化。

Cytosine-Guanine Dinucleotides (CpG): 胞嘧啶（C，Cytosine），磷酸（p，phosphoric acid），鸟嘌呤（G，Guanine ）的缩写。在基因组中富含GC和CpG的序列区段，叫CpG岛（CpG islands）

Auto encoding variationa（VAE）：变分自动编码器，在合理范围内提高生成的数据的多样性。

Fine-tune encoder：微调编码器，通过修改预训练模型结构，选择性载入预训练网络模型权重，对模型重新训练。可以通过相对较小的数据量，快速训练出较优的模型。

超参数：在深度学习模型中，在架构层面的参数叫做超参数，以便与模型参数区分开来。模型参数通过反向传播进行训练。比如，决策树模型中的树深度和人工神经网络中的层数是典型的超参数。不同项目之间由于算法、目标、数据类型及数据量等存在差异，因而没有适合所有模型和所有问题的超参数值的最佳选择，相反，必须在每个机器学习项目的上下文中优化超参数。

如背景技术所提到的，现有的甲基化测序数据仍存在处理结果准确性待提高的缺陷，为改善这一状况，本申请从一种全新的思路，对现有的甲基化测序数据的处理方案进行了改进，提高了处理结果的准确性。在该基础上，申请人提出了本申请的技术方案。

实施例1

本实施例提供了一种甲基化测序数据的处理方法，如图1所示，该处理方法包括如下步骤：

S101，通过变分自动编码的方法建立甲基化测序数据的预测模型；

S103，将待测样本的甲基化测序数据输入预测模型；

S105，输出预测结果。

本实施例的处理方法，摒弃了以往利用甲基化测序原始数据分别进行甲基化状态分析、然后进行分类和回归分析的传统思路，利用已知数据库中的甲基化测序数据及其表型进行机器学习建立预测模块，并首次将变分自动编码器（Auto encoding variationa）思想嵌入深度学习模型中，从而提高了预测模型的预测结果准确性。

上述通过变分自动编码的方法建立甲基化测序数据的预测模型，利用变分自动编码器的优势，将甲基化测序的原始数据转换成另一组数据，转换后的这组数据更符合某种特征分布规律，进而能更准确地建立与表型之间的相关性，进而得到的预测模型预测结果也更准确。

如背景技术中提到的，上述甲基化测序数据的格式是以beta值表示的，每个甲基化位点对应一个beta值，本申请的处理方法就是对这些beta值进行处理，预测结果。

在一优选实施例中，上述步骤S101包括：采用变分自动编码器将已知数据库中的甲基化测序数据转换为拟真数据；利用拟真数据进行模型预训练，得到预训练模型；在模型预训练过程中对预训练模型的超参数进行自动选择，筛选出最优模型，作为预测模型。

超参数的选择对模型的性能有重要影响，而人工选择的超参数往往是凭经验，并非是最优的，因而采用自动选择超参数，能够快速准确地选择性能最佳的架构。超参数优化的过程通常如下：（1）（自动）选择一组超参数；（2）构建相应的模型；（3）将模型在训练数据上拟合，并衡量其在验证数据上的最终性能；（4）（自动）选择要尝试的下一组超参数；（5）重复上述过程；（6）最后，衡量模型在测试数据上的性能。这个过程的关键在于，给定许多组超参数，使用验证性能的历史选择下一组需要评估的超参数算法。有多种不同的方法可以实现上述超参数的自动选择，比如，贝叶斯优化、遗传算法、简单随机搜索等。

在一优选实施例中，在模型预训练过程中，还包括修改预训练模型的结构，选择性载入预训练模型的权重，对预训练模型重新进行模型预训练。训练模型权重可以有很多种方法，比如可以按以下方法操作：在小批量数据上计算损失函数，然后用反向传播算法让权重向正确的方向移动。在另一优选实施例中，采用微调编码器对预训练模型结构进行调整，选择性载入预训练模型的权重，然后再对预训练模型重新进行模型预训练。更优选地的实施例中，在采用微调编码器进行调整后仍需要对超参数进行自动选择，从而获得最优预测模型。

将输入的已知甲基化测序数据处理成拟真数据，然后进行模型预训练，在训练时是有参数的，此时采用自动选择超参数，使模型得到最优参数。在得到预训练模型后，通过微调编码器对预训练模型进行调整，调整后的预训练模型的参数也需要跟着变化，所以需要再次采用超参数自动选择，然后得到最优模型。

上述已知数据库可以为任何与目标表型相关的已知甲基化测序数据库。本申请中优选该已知数据库为TCGA数据库，在一优选实施例中，通过变分自动编码的方法建立甲基化测序数据的预测模型包括：从TCGA数据库中选择目的表型的甲基化测序数据，并拆分为训练集和验证集；利用变分自动编码器将训练集和验证集中的甲基化测序数据转换为拟真数据集；并利用训练集的拟真数据集进行模型预训练，得到预训练模型；利用验证集的拟真数据对预训练模型进行验证，并根据验证结果采用微调编码器对预训练模型进行调整，调整包括对预训练模型执行自动超参数扫描，自动调整模型的超参数选择，选择最优模型作为预测模型。

该优选实施例，使用TCGA数据库中相关表型样本的甲基化数据(HumanMethylation450)，并将其拆分为训练集（Training set）,验证集（Validationset），获得用于训练学习模型的数据集。将训练集与验证集作为输入，通过变分自动编码器处理，将数据特征降维编码成隐向量，使距离相近的向量对应的特征有相近的含义，进行预训练。再通过微调编码器（Fine-tune encoder）对预训练模型进行调整，筛选最终模型。通过模型中perform_embedding 命令实现模型调整。在模型调整过程中，对模型执行自动超参数扫描，自动调整模型的超参数选择，从而选择最优模型作为预测模型。

上述处理方法在选择最优模型作为预测模型后，只需将待测样本的甲基化测序数据输入预测模块，即可获得最终的预测结果。通常在输入待测样本的甲基化测序数据之前，整理好待测样本的甲基化数据集以及表型数据，具体内容包括样本名称、表型及甲基化测序数据。

根据具体研究物种和研究目的的不同，上述待测样本可以来源于人、动物、植物及微生物中的任一种，表型可以是与疾病表型相关的，也可以是疾病之外的其他形状相关的。以植物为例，可以是株高、粒重、抗逆性（如抗虫害、抗旱、抗盐、抗冻、抗高温等）。即，本申请的甲基化测序数据的处理方法，适用于不同物种不同研究目的的表型与甲基化测序数据之间的关联性分析及预测。

实施例2

本实施例以癌症患者的组织样本为例，通过深度学习的方法进行数据分析，将DNAm数据以及表型，建立分类预测模型，根据肿瘤组织特异性识别原发灶不明癌的原发位置。

）目标：利用癌症组织样本的甲基化测序数据分析其所属癌种。

）步骤：

1. 对TCGA数据库中31个癌种（癌种代号见表1）中各癌种样本的甲基化数据进行处理，生成训练集和验证集。两种数据集保存为pkl格式文件，文件内容包括样本名称、所属癌种类型及甲基化测序数据。

表1：

。

2.通过Auto encoding variationa对数据集进行降维处理，并生成拟真数据，并进行预训练，便于模型后续分析。再通过微调编码器（Fine-tune encoder）对预训练模型进行调整，最终筛选出最优预测模型。使用perform_embedding 命令完成该步骤过程。

3. 在步骤2中建立各步模型后，使用launch_hyperparameter_scan 命令对模型超参数进行自动调整，筛选最优模型进行后续使用。

步骤2中共两个模型，第一个是通过拟真数据建立的预训练模型，这个模型进行了“launch_hyperparameter_scan 命令对模型超参数进行自动调整”这个处理，使预训练模型最优。第二个是通过微调编码器对预训练模型进行了调整，调整后也进行了“launch_hyperparameter_scan 命令对模型超参数进行自动调整”这个处理，使模型最优，获得最终模型。所以步骤2中的两个模型均进行了超参数调整，处理预训练模型在前，处理最终模型在后。

4. 通过TCGA数据库建立待测样本的甲基化数据测试集（指从TCGA数据库中选择一些样本的甲基化数据作为测试数据。用这些数据来对模型进行测试，检验预测结果与TCGA中实际所属癌种是否一致），保存为pkl格式文件，文件内容包括样本名称、所属癌种类型、甲基化数据。

5. 使用最终的预测模型与测试集甲基化数据进行结果预测。通过make_prediction 命令完成此步骤。

）结果

部分待测样本的预测结果见表2：

。

进一步对预测结果的准确性进行检验，如图2所示，一共31个癌种，列代表真实结果，行代表预测结果，数值代表样本个数，从图上可以看出，总体正确率为95.1%（位于对角线上的表示预测准确）。

此外，通过ROC曲线检验预测的灵敏度和准确性，结果如图3所示，AUC值达到0.996。可见，采用本申请的甲基化测序数据的处理方法进行处理，结果预测准确性非常高。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

对应于上述方式，本申请还分别提供了一种建立检测微卫星不稳定的基线的装置、一种建立检测微卫星不稳定的模型的装置以及一种检测微卫星不稳定的装置，这些装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

下面结合可选的实施例进一步说明。

实施例3

本实施例提供了一种甲基化测序数据的处理装置，该处理装置包括：模型建立模块、数据输入模块及结果输出模块，其中，模型建立模块，用于通过变分自动编码的装置建立甲基化测序数据的预测模型；数据输入模块，用于将待测样本的甲基化测序数据输入预测模型；结果输出模块，用于输出预测结果。

优选地，上述模型建立模块包括：数据转换模块，数据转换模块为变分自动编码器，用于将已知数据库中的甲基化测序数据转换为拟真数据；训练模块，用于利用拟真数据进行模型预训练，得到预训练模型；调整模块，调整模块包括自动超参数扫描模块，用于在模型预训练过程中对预训练模型的超参数进行自动调整，筛选出最优模型，作为预测模型。

优选地，调整模块还包括微调编码器，用于对预训练模型进行调整后，对预训练模型重新进行模型预训练。

优选地，已知数据库为TCGA数据库，模型建立模块包括：数据选择模块，用于从TCGA数据库中选择目的表型的甲基化测序数据，并拆分为训练集和验证集；数据转换模块，用于利用变分自动编码器将训练集和验证集中的甲基化测序数据转换为拟真数据集；训练模块，用于利用训练集的拟真数据集进行模型预训练，得到预训练模型；调整模块，用于利用验证集的拟真数据对预训练模型进行验证，并采用微调编码器对预训练模型进行调整，调整包括对预训练模型执行自动超参数扫描，自动调整模型的超参数选择，选择最优模型作为预测模型。

实施例4

本实施例提供了一种存储介质，该存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行任一种甲基化测序数据的处理方法。

本实施例还提供了一种处理器，该处理器用于运行程序，其中，程序运行时执行上述任一种甲基化测序数据的处理方法。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：本发明的处理方法和装置，通过将变分自动编码器（Auto encoding variationa）思想嵌入深度学习模型中，生成对原始数据具有高保真度的新数据，通过降维后的拟真数据对模型进行预训练，再通过 Fine-tune encoder 对模型进行微调整。在训练模型过程中，对模型超参数进行自动调整，筛选最优模型，最终得到预测模型，该预测模型的结果准确性更高。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种甲基化测序数据的处理方法，其特征在于，所述处理方法包括：

通过变分自动编码的方法建立甲基化测序数据的预测模型，所述甲基化测序数据为与不同癌种相关的甲基化测序数据，所述预测模型为不同癌种的预测模型；

将待测样本的甲基化测序数据输入所述预测模型；

输出预测结果，通过变分自动编码的方法建立甲基化测序数据的预测模型包括：

采用变分自动编码器将已知数据库中的甲基化测序数据转换为拟真数据；

利用所述拟真数据进行模型预训练，得到预训练模型；

在所述模型预训练过程中对所述预训练模型的超参数进行自动选择，筛选出最优模型，作为所述预测模型；在所述模型预训练过程中还包括采用微调编码器对预训练模型的结构进行调整，选择性载入所述预训练模型的权重后，再对所述预训练模型重新进行所述模型预训练，

在采用所述微调编码器对所述预训练模型进行结构调整，选择性载入所述预训练模型的权重之后，所述处理方法还包括对超参数进行自动选择，从而筛选出最优模型作为所述预测模型。

2.根据权利要求1所述的处理方法，其特征在于，所述已知数据库为TCGA数据库，通过变分自动编码的方法建立甲基化测序数据的预测模型包括：

从所述TCGA数据库中选择目的表型的甲基化测序数据，并拆分为训练集和验证集；

利用所述变分自动编码器将所述训练集和所述验证集中的所述甲基化测序数据转换为拟真数据集；

并利用所述训练集的所述拟真数据集进行模型预训练，优选所述预训练过程中采用超参数自动选择，得到预训练模型；

利用所述验证集的所述拟真数据对所述预训练模型进行验证，并采用微调编码器对所述预训练模型进行调整，所述调整包括对所述预训练模型执行自动超参数扫描，自动调整模型的超参数选择，从而选择最优模型作为所述预测模型。

3.一种甲基化测序数据的处理装置，其特征在于，所述处理装置包括：

模型建立模块，用于通过变分自动编码的装置建立甲基化测序数据的预测模型，所述甲基化测序数据为与不同癌种相关的甲基化测序数据，所述预测模型为不同癌种的预测模型；

数据输入模块，用于将待测样本的甲基化测序数据输入所述预测模型；

结果输出模块，用于输出预测结果，所述模型建立模块包括：

数据转换模块，所述数据转换模块为变分自动编码器，用于将已知数据库中的甲基化测序数据转换为拟真数据；

训练模块，用于利用所述拟真数据进行模型预训练，得到预训练模型；

调整模块，所述调整模块包括自动超参数扫描模块，用于在所述模型预训练过程中对所述预训练模型的超参数进行自动选择，筛选出最优模型，作为所述预测模型，所述调整模块还包括微调编码器，用于对所述预训练模型进行调整后，对所述预训练模型重新进行所述模型预训练。

4.根据权利要求3所述的处理装置，其特征在于，所述已知数据库为TCGA数据库，所述模型建立模块包括：

数据选择模块，用于从所述TCGA数据库中选择目的表型的甲基化测序数据，并拆分为训练集和验证集；

所述数据转换模块，用于利用所述变分自动编码器将所述训练集和所述验证集中的所述甲基化测序数据转换为拟真数据集；

所述训练模块，用于利用所述训练集的所述拟真数据集进行模型预训练，得到预训练模型；

调整模块，用于利用所述验证集的所述拟真数据对所述预训练模型进行验证，并采用微调编码器对所述预训练模型进行调整，所述调整包括对所述预训练模型执行自动超参数扫描，自动调整模型的超参数选择，选择最优模型作为所述预测模型。

5.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1或2所述的甲基化测序数据的处理方法。

6.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1或2所述的甲基化测序数据的处理方法。