CN115831232A

CN115831232A - 一种癌症原发灶溯源方法、装置、系统及存储介质

Info

Publication number: CN115831232A
Application number: CN202310023548.7A
Authority: CN
Inventors: 相学平; 黄德祥
Original assignee: Hangzhou Buping Medical Laboratory Co ltd
Current assignee: Hangzhou Buping Medical Laboratory Co ltd
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-03-21

Abstract

本发明提供了一种癌症原发灶溯源方法、装置、系统及存储介质，涉及癌症溯源技术领域。所述癌症原发灶溯源方法包括：获取样本组织数据，通过甲基化芯片对每个癌症样本赋予原发灶标签；确定候选CpG位点；构建癌症溯源分类器。本发明实现了利用DNA甲基化生物特征和机器学习方法对多癌症进行溯源的技术，具有以下特点：由于DNA分子的高稳定性，较完整地保留了癌症信息，使样本储藏及转运更方便；本发明所针对的癌症覆盖范围广，包括了一般常见肿瘤；癌症特异性CpG位点覆盖面较全；通过癌症特异性位点的分析，排除了正常组织的干扰，提升本发明分类器的精度与适用范围；高精度分类器的发明使癌症诊断流程更简单、准确和高效。

Description

一种癌症原发灶溯源方法、装置、系统及存储介质

技术领域

本发明涉及癌症溯源技术领域，更具体地说，涉及一种癌症原发灶溯源方法、装置、系统及存储介质。

背景技术

传统的肿瘤病理诊断主要包括细胞和组织形态学检查，通常指在显微镜下，观察病变部位的细胞形态，定性确认肿瘤组织的良恶性与细胞起源，其过程一般包括组织处理、切片、染色和镜检。形态学检查具有较高准确性的特点，一直是肿瘤诊断的标准方法。然而，细胞形态学特征的局限性，使得部分肿瘤诊断不明确，无法满足临床治疗的需求，特别是低分化肿瘤；此外，具备相似细胞形态学特征的癌症之间，又存在较大的生物学特征差异。特殊染色、免疫组化等技术极大地促进了基于细胞形态的病理诊断技术的发展，使用多个单克隆抗体组合可以辅助鉴定多种癌细胞的起源。然而技术操作层面，从标本制作到镜检观察过程，既费时又费力；镜检时，辨认结果存在一定程度的主观性；且专业人才的培养时间漫长，临床有效的免疫标志物发掘也达到了瓶颈期，使得临床常用的免疫组化抗体数量仅约不到200种，临床上仍然存在大量无法准确分类或起源不明的恶性肿瘤。近年来，以高通量测序技术为基础的基因组学、表观遗传组学飞速发展与人工智能算法不断突破的时代背景下，基于组学数据，特别是甲基化生物特征的人工智能分子分类器技术，有潜力发展成为下一代肿瘤病理辅助诊断技术。

从正常细胞到肿瘤进展的过程中，伴随着生物大分子的改变，包括mRNA表达和表观遗传修饰等。美国国家综合癌症网指南(NCCN，National Comprehensive CancerNetwork)指出分子谱(Too，Tissue-of-origin)在癌症筛查方面的重要性。迄今，2000基因表达芯片检测方法已获得了FDA批准，其预测与临床诊断结果的整体一致率达到88.5％。在这种组学发展背景下，Shumei Kato等人认为系统性分子谱检测方法将会成为未来癌症治疗不可或缺的一部分(Kato et al.2021)。有临床研究显示部分原发灶不明癌症CUP(CUP，cancer of unknown primary site)通过检测确定原发器官并指导特异性用药可以得到明显的生存改善，比如结直肠癌、乳腺癌、卵巢癌、肾癌、前列腺癌、膀胱癌、非小细胞肺癌等。

目前，国内用于鉴定癌症细胞起源的分子检测方法主要集中在RNA表达层面(杨家亮et al.2019；罗奇斌et al.2021)，却鲜有开发和使用DNA甲基化特征辅助诊断肿瘤良恶性与肿瘤细胞起源的技术。

发明内容

有鉴于此，针对于上述技术问题，本发明提供一种癌症原发灶溯源方法，包括：

获取样本组织数据，通过甲基化数据对所述样本组织数据中的每个癌症样本赋予对应的原发灶标签；

根据带有所述原发灶标签的所述样本组织数据确定候选CpG位点；

基于带有所述原发灶标签的所述样本组织数据，以及所述候选CpG位点，构建癌症溯源分类器，以便于通过所述癌症溯源分类器对癌症样本进行溯源；

优选地，所述原发灶标签包括胸腺瘤、生殖细胞肿瘤、浆液性囊腺癌、胰腺癌、肉瘤、子宫内膜癌、肝癌、肺腺癌、前列腺癌、B细胞淋巴瘤、恶性黑色素瘤、胶质瘤、甲状腺癌、神经肿瘤、消化道肿瘤、乳腺癌、肾癌、其他鳞癌、宫颈鳞癌。

优选地，所述根据带有所述原发灶标签的所述样本组织数据确定候选CpG位点，包括：

根据所述样本组织数据确定显著差异性CpG位点；

计算所述显著差异性CpG位点的绝对中位差，并根据所述绝对中位差确定所述候选CpG位点。

优选地，所述根据所述样本组织数据确定显著差异性CpG位点，包括：

通过ChAMP软件，对所述样本组织数据进行分析，得出分析结果；其中，所述分析结果为所述样本组织数据中的正常组织或癌旁组织分别与对应癌症组织的所述显著差异性CpG位点；

所述分析结果中的所述显著差异性CpG位点的显著性P＜0.05；

所述分析结果中的所述显著差异性CpG位点的差异倍数

优选地，所述计算所述显著差异性CpG位点的绝对中位差，并根据所述绝对中位差确定所述候选CpG位点，包括：

计算所述显著差异性CpG位点在各癌症中的中位数；

根据所述中位数，计算所述显著差异性CpG位点在各癌症中的所述绝对中位差；

优选地，所述计算所述显著差异性CpG位点在各癌症中的所述绝对中位差中，所述绝对中位差的计算公式为：

MAD＝1.4826×median(|X_i-X_m|)；

其中，MAD为所述绝对中位差；i为所述样本组织数据中的第i个样本；X_m为所述中位数；

优选地，所述绝对中位差MAD≥0.45。

优选地，所述基于带有所述原发灶标签的所述样本组织数据，以及所述候选CpG位点，构建癌症溯源分类器，包括：

建立癌症数据集；所述癌症数据集包括训练集和验证集；所述癌症数据集中，所述训练集和所述验证集的比例为7:3；

在所述训练集上训练随机森林模型，得到训练好的所述癌症溯源分类器；

将行为所述样本组织数据中的样本，列为探针的所述验证集中的数据输入所述癌症溯源分类器，得到每个样本患各癌症的概率；

针对所述概率，与每个样本的所述原发灶标签，计算总体准确率、召回率和AUC值，并通过所述总体准确率、所述召回率和所述AUC值作为评估所述癌症溯源分类器的评估指标；

若所述癌症溯源分类器的所述总体准确率、所述召回率和所述AUC值均达到对应的预设阈值，则判定所述癌症溯源分类器通过评估，即得到评估后的所述癌症溯源分类器。

优选地，所述在所述训练集上训练随机森林模型，得到训练好的所述癌症溯源分类器，包括：

在所述随机森林模型中，建立目标数量的决策树；

对所述训练集中的数据通过目标数量的所述决策树进行分类，获得分类结果；所述分类结果为所述训练集中每个样本对各癌症的占比分数，并以所述占比分数作为每个样本患各癌症的概率；

以每次分类作为所述随机森林模型的训练，即得到训练好的所述癌症溯源分类器。

优选地，所述基于带有所述原发灶标签的所述样本组织数据，以及所述候选CpG位点，构建癌症溯源分类器之后，还包括：

利用10倍交叉验证和目标比例逐步剔除特征法评估所述随机森林模型，得到所述随机森林模型对应的非冗余特征数量L；

针对目标数量的所述决策树，随机打乱预设特征在所述决策树中的分布；

计算打乱前精度和打乱后精度的降低程度平均数；

将所述平均数由大至小排列，取前L个特征作为癌症溯源分类器对应的DNA甲基化集合；

优选地，所述计算打乱前精度和打乱后精度的降低程度的平均数的计算公式为：

其中，MDA为所述平均数；v₁为打乱前的精度；v₂为打乱后的精度；所述目标数量＝1000。

此外，为解决上述问题，本发明还提供一种癌症原发灶溯源装置，包括：

打标模块，用于获取样本组织数据，通过甲基化数据对所述样本组织数据中的每个癌症样本赋予对应的原发灶标签；

确定模块，用于根据带有所述原发灶标签的所述样本组织数据确定候选CpG位点；

构建模块，用于基于带有所述原发灶标签的所述样本组织数据，以及所述候选CpG位点，构建癌症溯源分类器，以便于通过所述癌症溯源分类器对癌症样本进行溯源。

此外，为解决上述问题，本发明还提供一种癌症原发灶溯源系统，包括存储器以及处理器，所述存储器中存储有癌症原发灶溯源程序，所述处理器运行所述癌症原发灶溯源程序以使所述癌症原发灶溯源系统执行如上述所述的癌症原发灶溯源方法。

此外，为解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有癌症原发灶溯源程序，所述癌症原发灶溯源程序被处理器执行时实现如上述所述的癌症原发灶溯源方法。

本发明提供了一种癌症原发灶溯源方法，包括：获取样本组织数据，通过甲基化芯片对所述样本组织数据中的每个癌症样本赋予对应的原发灶标签；根据带有所述原发灶标签的所述样本组织数据确定候选CpG位点；基于带有所述原发灶标签的所述样本组织数据，以及所述候选CpG位点，构建癌症溯源分类器，以便于通过所述癌症溯源分类器对癌症样本进行溯源。本发明提供的以DNA甲基化为特征的癌症原发灶溯源方法，结合随机森林算法建立了癌症诊断分类器，与基于RNA测序的癌症筛查方法、PCR甲基化检测方法或传统病理学检测相比，实现了利用DNA甲基化生物特征和机器学习方法对多癌症进行溯源的技术，具有以下特点：由于DNA分子的高稳定性，较完整地保留了癌症信息，使样本储藏及转运更方便；本发明所针对的癌症覆盖范围广，包括了一般常见肿瘤；癌症特异性位点覆盖面较全；通过癌症特异性位点的分析，排除了正常组织的干扰，提升本发明分类器的精度与适用范围；高精度分类器的发明使癌症筛查流程更简单、准确和高效。

附图说明

图1为本发明癌症原发灶溯源方法实施例涉及的硬件运行环境的结构示意图；

图2为本发明癌症原发灶溯源方法第1实施例的流程示意图；

图3为本发明癌症原发灶溯源方法第2实施例中步骤S200细化的流程示意图；

图4为本发明癌症原发灶溯源方法第2实施例中步骤S220细化的流程示意图；

图5为本发明癌症原发灶溯源方法第3实施例中步骤S300细化的流程示意图；

图6为本发明癌症原发灶溯源方法第3实施例中步骤S320细化的流程示意图；

图7为本发明癌症原发灶溯源方法第3实施例中步骤S300之后步骤(步骤S400-步骤S700)的流程示意图；

图8为本发明癌症原发灶溯源方法第3实施例中的整体工作流示意图；

图9为本发明癌症原发灶溯源方法的功能模块化的连接示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面详细描述本发明的实施例，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，是本发明实施例涉及的终端的硬件运行环境的结构示意图。

本发明实施例癌症原发灶溯源系统，可以为PC，也可以是智能手机、平板电脑或者便携计算机等可移动式终端设备等。该癌症原发灶溯源系统中可以包括：处理器1001、例如CPU，网络接口1004、用户接口1003、存储器1005和通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏、输入单元比如键盘、遥控器，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。可选地，癌症原发灶溯源系统还可以包括RF(Radio Frequency，射频)电路、音频电路、WiFi模块等等。此外，该癌症原发灶溯源系统还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的癌症原发灶溯源系统并不构成对其的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、数据接口控制程序、网络连接程序以及癌症原发灶溯源程序。

总之，本发明提供的以DNA甲基化为特征的癌症原发灶溯源方法，结合随机森林算法建立了癌症诊断分类器，与基于RNA测序的癌症筛查方法、PCR甲基化检测方法或传统病理学检测相比更具有优越性，其具有以下特点：由于DNA分子的高稳定性，较完整地保留了癌症信息，使样本储藏及转运更方便；所针对的癌症覆盖范围广，包括了一般常见肿瘤；癌症特异性位点覆盖面较全；通过癌症特异性位点的分析，排除了正常组织的干扰，提升本发明分类器的精度与适用范围；高精度分类器的发明使癌症诊断流程更简单、准确和高效。

实施例1：

参照图2，本发明第1实施例提供一种癌症原发灶溯源方法，包括：

步骤S100，获取样本组织数据，通过甲基化数据对所述样本组织数据中的每个癌症样本赋予对应的原发灶标签；

上述，在步骤S100之前可以包括收集原发实体组织和血液类型样本，针对组织和样本进行诊断，从而获得到样本组织数据。

上述，样本组织数据可以包括原发实体组织和血液类型样本所对应的癌症来源组织信息和诊断信息等。

需要说明的是，所述甲基化数据，为DNA中的C(胞嘧啶)被修饰为mC(胞嘧啶结合一个甲基基团)的一类数据的集合，可以用于表观遗传研究，可以包括但不限于：甲基化芯片、甲基化测序为目的的NGS(next-generation sequencing)数据和纳米孔测序(nanoporesequencing)。

上述，甲基化芯片，可以为Illumina的甲基化芯片(Infinium MethylationEPICBeadChip)，Illumina最早的甲基化芯片是27K(K代表1000，表示大概可以测到的CpG位点数)的数据，后来增加到了450K(主流的甲基化芯片)，而目前Illumina已经出了新一代产品EPIC(850K)，目前技术核心在450K已经成熟，因此450K也是目前数据库主流的甲基化芯片数据。

进一步的，所述原发灶标签包括19种癌症标签，分别为：胸腺瘤、生殖细胞肿瘤、浆液性囊腺癌、胰腺癌、肉瘤、子宫内膜癌、肝癌、肺腺癌、前列腺癌、B细胞淋巴瘤、恶性黑色素瘤、胶质瘤、甲状腺癌、神经肿瘤、消化道肿瘤、乳腺癌、肾癌、其他鳞癌、宫颈鳞癌。

上述，根据每个癌症样本(原发实体组织和血液类样本)对应的样本组织数据，基于甲基化芯片，为每个癌症样本赋予一个对应的确诊的原发灶标签，因此就获得了带有原发灶标签的样本组织数据。

步骤S200，根据带有所述原发灶标签的所述样本组织数据确定候选CpG位点；

上述，候选CpG位点即为确定特征，筛选特征的步骤。从甲基化芯片中，筛选出有特异性的候选CpG位点。

步骤S300，基于带有所述原发灶标签的所述样本组织数据，以及所述候选CpG位点，构建癌症溯源分类器，以便于通过所述癌症溯源分类器对样本进行溯源；

通过随机森林模型，利用已经获得到的候选CpG位点进行训练，从而构建得到基于训练好的模型的癌症溯源分类器，从而在针对于原发灶不明癌症样本进行癌症溯源时，将原发灶不明癌症样本的数据输入进入该癌症溯源分类器进行分析，从而得到对应的癌症溯源分类信息，具体的可以确定其所对应的是19种癌症中的特定癌症。

总之，本实施例提供的以DNA甲基化为特征的癌症原发灶溯源方法，结合随机森林算法建立了癌症诊断分类器，与基于RNA测序的癌症筛查方法、PCR甲基化检测方法或传统病理学检测相比，其具有以下特点：由于DNA分子的高稳定性，较完整地保留了癌症信息，使样本储藏及转运更方便；所针对的癌症覆盖范围广，包括了一般常见肿瘤；癌症特异性位点覆盖面较全；通过癌症特异性位点的分析，排除了正常组织的干扰，提升本发明分类器的精度与适用范围；高精度分类器的发明使癌症诊断流程更简单、准确和高效。

实施例2：

参照图3，本发明第2实施例提供一种癌症原发灶溯源方法，基于上述实施例1。所述步骤S200，根据带有所述原发灶标签的所述样本组织数据确定候选CpG位点，包括：

步骤S210，根据所述样本组织数据确定显著差异性CpG位点；

进一步的，所述步骤S210，根据所述样本组织数据确定显著差异性CpG位点，包括：

步骤S211，通过ChAMP软件，对所述样本组织数据进行分析，得出分析结果；其中，所述分析结果为所述样本组织数据中的正常组织或癌旁组织分别与对应癌症组织的所述显著差异性CpG位点。

所述显著差异性CpG位点需符合如下两个条件：

(1)所述显著差异性CpG位点的显著性P＜0.05；

(2)所述显著差异性CpG位点的差异倍数

上述，ChAMP(The Chip Analysis Methylation Pipeline)软件，是一款用于分析甲基化芯片450K和EPIC的软件。该软件基于Limma软件鉴别差异性甲基化CpG位点。

上述，分析结果即为分析正常/癌旁组织与相应癌症组织的显著差异性CpG位点。

步骤S220，计算所述显著差异性CpG位点的绝对中位差，并根据所述绝对中位差确定所述候选CpG位点。

本实施例中，为使所述显著差异性CpG位点在所有癌症(19种癌症)中都具有变异信息，且波动均衡，本实施例中针对于显著差异性CpG位点进行绝对中位差的计算。

上述，绝对中位差(Median Absolute Deviation，MAD)是一种采用计算各观测值与中位数的距离来评估数据离散程度的方法。

具体的，针对于给定的数据样本集，首先求其中位数，然后求原始数据减去中位数的绝对值从而形成一个新的数据样本，再求新的数据样本的中位数即为绝对中位差。例如，数据样本集X＝{2 3 8 7 9 6 4}，此时数据的中位数是6，原始数据减去中位数求绝对值形成新的数据样本为{4 3 2 1 3 02}，新的数据样本的中位数是2，所以原始数据样本集合的绝对中位差是2。

绝对中位差是一种统计离差的测量。而且，MAD是一种鲁棒统计量，比标准差更能适应数据集中的异常值。对于标准差，使用的是数据到均值的距离平方，所以大的偏差权重更大，异常值对结果也会产生重要影响。对于MAD，少量的异常值不会影响最终的结果。

进一步的，参考图4，所述步骤S220，计算所述显著差异性CpG位点的绝对中位差，并根据所述绝对中位差确定所述候选CpG位点，包括：

步骤S221，计算所述显著差异性CpG位点在各癌症中的中位数；

步骤S222，根据所述中位数，计算所述显著差异性CpG位点在各癌症中的所述绝对中位差；

在步骤S211基础上，首先进行中位数的计算，即计算显著差异性CpG位点在各癌症中的中位数，再计算显著差异性CpG位点在所有癌症中的绝对中位差MAD。

进一步的，根据绝对中位差排序后，取得其中预设排名数量的显著差异性CpG位点即为所述候选CpG位点。

进一步的，所述步骤S220，计算所述显著差异性CpG位点在各癌症中的所述绝对中位差中，所述绝对中位差的计算公式为：

MAD＝1.4826×median(|X_i-X_m|)；

其中，所述绝对中位差MAD≥0.45。

本实施例中，通过ChAMP软件进行分析筛选到显著差异性CpG位点，并且进一步通过先计算中位数，再求取绝对中位差的方法，计算得到每个显著差异性CpG位点在各癌症中的绝对中位差，再根据绝对中位差排序后，取得其中预设排名数量的显著差异性CpG位点即为所述候选CpG位点，从而能够筛选出进一步训练的特征，提高了模型训练的准确性和效率。

实施例3：

参照图5，本发明第3实施例提供一种癌症原发灶溯源方法，基于上述实施例1，所述步骤S300，基于带有所述原发灶标签的所述样本组织数据，以及所述候选CpG位点，构建癌症溯源分类器，包括：

步骤S310，建立癌症数据集；所述癌症数据集包括训练集和验证集；所述癌症数据集中，所述训练集和所述验证集的比例为7:3；

步骤S320，在所述训练集上训练随机森林模型，得到训练好的所述癌症溯源分类器；

上述，利用训练集对随机森林模型进行训练，从而得到癌症溯源分类器。

进一步的，参考图6，所述步骤S320，在所述训练集上训练随机森林模型，得到训练好的所述癌症溯源分类器，包括：

步骤S321，在所述随机森林模型中，建立目标数量的决策树；

上述，目标数量可以为1000，也可以为其他数量。

本实施例中，在随机森林模型中建立1000棵决策树进行训练。

步骤S322，对所述训练集中的数据通过目标数量的所述决策树进行分类，获得分类结果；所述分类结果为所述训练集中每个样本对各癌症的占比分数，并以所述占比分数作为每个样本患各癌症的概率。

上述，建立1000棵决策树后，训练时综合1000棵决策树分类结果，给出每一种癌症占比分数，即每一种癌症概率。

采用分层抽样的方式，每棵决策树随机抽取k×n个样本，其中，k为某癌症的最小样本数量；n为癌症种类数，本实施例中可以为19；每棵决策树随机选取

个特征(进行取整操作，其中x为候选CpG位点总数量)。

步骤S323，以每次分类作为所述随机森林模型的训练，即得到训练好的所述癌症溯源分类器。

步骤S330，将行为所述样本组织数据中的样本，列为探针的所述验证集中的数据输入所述癌症溯源分类器，得到每个样本患各癌症的概率；

步骤S340，针对所述概率，与每个样本的所述原发灶标签，计算总体准确率、召回率和AUC值，并通过所述总体准确率、所述召回率和所述AUC值作为评估所述癌症溯源分类器的评估指标；

步骤S350，若所述癌症溯源分类器的所述总体准确率、所述召回率和所述AUC值均达到对应的预设阈值，则判定所述癌症溯源分类器通过评估，即得到评估后的所述癌症溯源分类器。

上述，将行列分别为样本和探针的验证集数据输入分类器，通过验证集对于癌症溯源分类器进行验证，得到每个样本患某种癌症的概率。以总体准确率、召回率及AUC值(Area Under Curve)作为分类器溯源性能的评估指标。

上述，预设阈值，即为所述总体准确率、所述召回率和所述AUC值对应的预设的评价标准，如果达到该评价标准即可判定癌症溯源分类器通过评估，否则，则不通过评估。

此外，针对于癌症溯源分类器可以进行NGS(High-Throughput Sequencing)可扩展性评估，为评价分类器在NGS数据应用方面的可扩展性，本发明在GEO原发癌或癌细胞系以及自建NGS捕获数据中测试溯源分类器的NGS应用性能。同样，可以以总体准确率与召回率作为评估指标。

在获得到癌症溯源分类器之后，为剔除随机森林分类器的癌症信息冗余特征或筛选重要CpG位点，使用10倍交叉验证、特征逐步剔除和平均精度下降指标等方法对随机森林模型进行评估，得到DNA甲基化panel。

具体的，参考图7和图8，在所述步骤S300，基于带有所述原发灶标签的所述样本组织数据，以及所述候选CpG位点，构建癌症溯源分类器之后，还包括：

步骤S400，利用10倍交叉验证和目标比例逐步剔除特征法评估所述随机森林模型，得到所述随机森林模型对应的非冗余特征数量L；

上述，为剔除随机森林分类器的癌症信息冗余特征，使用10倍交叉验证与以一定比例逐步剔除特征的方法评估随机森林模型精度，因此得到非冗余特征数量L。

步骤S500，针对目标数量的所述决策树，随机打乱预设特征在所述决策树中的分布；

步骤S600，计算打乱前的精度和打乱后的精度的平均数；

步骤S700，将所述平均数由大至小排列，取前L个特征作为癌症溯源分类器对应的DNA甲基化集合(panel)；

上述，针对于1000棵决策树，随机打乱特征v在决策树上的分布，计算打乱前v₁与打乱后v₂的精度降低程度(差值)的平均数。

进一步的，所述步骤S600，计算打乱前的精度降低程度和打乱后的精度降低程度的平均数的计算公式为：

本实施例中，通过使用10倍交叉验证、特征逐步剔除和平均精度下降指标等方法对随机森林模型进行评估，得到DNA甲基化panel，DNA甲基化panel的设计可进一步的降低测序成本和测序时间，提升数据分析准确率。

此外，参考图9，本实施例还提供一种癌症原发灶溯源装置，包括：

打标模块10，用于获取样本组织数据，通过甲基化芯片对所述样本组织数据中的每个癌症样本赋予对应的原发灶标签；

确定模块20，用于根据带有所述原发灶标签的所述样本组织数据确定候选CpG位点；

构建模块30，用于基于带有所述原发灶标签的所述样本组织数据，以及所述候选CpG位点，构建癌症溯源分类器，以便于通过所述癌症溯源分类器对癌症样本进行溯源。

此外，本实施例还提供一种癌症原发灶溯源系统，包括存储器以及处理器，所述存储器中存储有癌症原发灶溯源程序，所述处理器运行所述癌症原发灶溯源程序以使所述癌症原发灶溯源系统执行如上述所述的癌症原发灶溯源方法。

此外，本实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有癌症原发灶溯源程序，所述癌症原发灶溯源程序被处理器执行时实现如上述所述的癌症原发灶溯源方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种癌症原发灶溯源方法，其特征在于，包括：

2.如权利要求1所述癌症原发灶溯源方法，其特征在于，所述根据带有所述原发灶标签的所述样本组织数据确定候选CpG位点，包括：

根据所述样本组织数据确定显著差异性CpG位点；

3.如权利要求2所述癌症原发灶溯源方法，其特征在于，所述根据所述样本组织数据确定显著差异性CpG位点，包括：

通过ChAMP软件，对所述样本组织数据进行分析，得出分析结果；其中，所述分析结果为，所述样本组织数据中的正常组织或癌旁组织分别与对应癌症组织的所述显著差异性CpG位点；

所述分析结果中的所述显著差异性CpG位点的显著性P＜0.05；

所述分析结果中的所述显著差异性CpG位点的差异倍数

4.如权利要求2所述癌症原发灶溯源方法，其特征在于，所述计算所述显著差异性CpG位点的绝对中位差，并根据所述绝对中位差确定所述候选CpG位点，包括：

计算所述显著差异性CpG位点在各癌症中的中位数；

MAD＝1.4826×median(|X_i-X_m|)；

优选地，所述绝对中位差MAD≥0.45。

5.如权利要求1所述癌症原发灶溯源方法，其特征在于，所述基于带有所述原发灶标签的所述样本组织数据，以及所述候选CpG位点，构建癌症溯源分类器，包括：

6.如权利要求5所述癌症原发灶溯源方法，其特征在于，所述在所述训练集上训练随机森林模型，得到训练好的所述癌症溯源分类器，包括：

在所述随机森林模型中，建立目标数量的决策树；

7.如权利要求6所述癌症原发灶溯源方法，其特征在于，所述基于带有所述原发灶标签的所述样本组织数据，以及所述候选CpG位点，构建癌症溯源分类器之后，还包括：

计算打乱前精度和打乱后精度的降低程度平均数；

优选地，所述计算打乱前精度和打乱后精度的降低程度平均数的计算公式为：

8.一种癌症原发灶溯源装置，其特征在于，包括：

9.一种癌症原发灶溯源系统，其特征在于，包括存储器以及处理器，所述存储器中存储有癌症原发灶溯源程序，所述处理器运行所述癌症原发灶溯源程序以使所述癌症原发灶溯源系统执行如权利要求1-7任一项所述的癌症原发灶溯源方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有癌症原发灶溯源程序，所述癌症原发灶溯源程序被处理器执行时实现如权利要求1-7任一项所述的癌症原发灶溯源方法。