CN114038507A

CN114038507A - 预测方法、预测模型的训练方法及相关装置

Info

Publication number: CN114038507A
Application number: CN202111265563.XA
Authority: CN
Inventors: 张捷; 张亚威
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-02-11

Abstract

本申请公开了一种预测方法、预测模型的训练方法及相关装置，其中，预测模型的训练方法包括：从肿瘤基因组图谱数据库中获取初始训练样本，以及从临床数据库中获取初始测试样本；对所述初始训练样本和所述初始测试样本一起进行批次效应消除处理，得到最终训练样本和最终测试样本；对所述最终训练样本进行分类训练，得到肿瘤原发灶的预测模型；利用所述最终测试样本对经分类训练得到的所述肿瘤原发灶的预测模型进行性能验证，基于性能验证结果得到训练后的肿瘤原发灶的预测模型。上述方案，可以对肿瘤原发灶类型进行预测。

Description

预测方法、预测模型的训练方法及相关装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种预测方法、预测模型的训练方法及相关装置。

背景技术

肿瘤原发灶诊断是指经过一系列检查后，对病人做临床评估或者病理特征和分子分析，判断肿瘤原发灶的类型，准确的判断对于选择最佳的治疗方法非常关键。

传统的诊断方式存在一定的局限性：临床评估对诊断肿瘤原发灶类型存在一定的缺陷，临床评估主要使用图像扫描和血清肿瘤标记物，影像学技术虽然已经非常成熟但是仍不能检测到一些小的原发肿瘤；使用病理特征和分子分析也是有很多不完善的地方，例如，免疫组化检测中不同观察者直接的理解有一定的差异，而且免疫组化检测在原发灶不明的患者中临床治疗也没有被证实。有鉴于此，临床上如何判断肿瘤原发灶类型成为极具研究价值的课题。

发明内容

本申请提供一种预测方法、预测模型的训练方法及相关装置。

本申请第一方面提供了一种预测模型的训练方法，所述训练方法包括：从肿瘤基因组图谱数据库中获取初始训练样本，以及从临床数据库中获取初始测试样本；对所述初始训练样本和所述初始测试样本一起进行批次效应消除处理，得到最终训练样本和最终测试样本；对所述最终训练样本进行分类训练，得到肿瘤原发灶的预测模型；利用所述最终测试样本对经分类训练得到的所述肿瘤原发灶的预测模型进行性能验证，基于性能验证结果得到训练后的肿瘤原发灶的预测模型。

因此，通过从肿瘤基因组图谱数据库中获取初始训练样本，由于肿瘤基因组图谱数据库具有大量的公开数据，通过在大量的公开数据上学习数据分布，可以构建肿瘤原发灶的预测模型来有效的辅助医生进行临床诊断，而通过从临床数据库中获取初始测试样本，并对初始训练样本和初始测试样本一起进行批次效应消除处理，初始训练样本在经过处理后形成最终训练样本，初始测试样本在经过处理后形成最终测试样本，对所述最终训练样本进行分类训练，然后利用得到的最终测试样本对经分类训练得到的肿瘤原发灶的预测模型进行性能验证，基于性能验证结果可以得到训练后的肿瘤原发灶的预测模型，由于最终训练样本和最终测试样本进行了批次效应消除处理，可以较好地消除最终训练样本和最终测试样本中不同批次下的训练数据的表达差异，使训练后的肿瘤原发灶的预测模型能够更加准确的预测不同批次下的肿瘤原发灶类型，所得到的训练后的肿瘤原发灶的预测模型具有更好的鲁棒性。

其中，所述从肿瘤基因组图谱数据库中获取初始训练样本，以及从临床数据库中获取初始测试样本，包括：以所述肿瘤基因组图谱数据库或临床数据库作为数据源，以所述初始训练样本或所述初始测试样本作为目标样本数据；获取所述数据源中转录组测序数据的特征基因数据；基于所述特征基因数据，得到所述目标样本数据。

因此，通过从肿瘤基因组图谱数据库或临床数据库中可以获取转录组测序数据的特征基因数据，而利用基于特征基因数据所得到的初始训练样本或初始测试样本，能够更加精准的预测肿瘤原发灶类型。

其中，所述获取所述数据源中转录组测序数据的特征基因数据，包括：获取所述数据源中转录组测序数据的基因表达原始数据；从所述基因表达原始数据中筛选出特征基因数据；以及所述基于所述特征基因数据，得到所述目标样本数据，包括：将所述特征基因数据转换成基因表达量数据，得到所述目标样本数据。

因此，通过先获取肿瘤基因组图谱数据库或临床数据库中转录组测序数据的基因表达原始数据，并从中筛选出特征基因数据，然后将特征基因数据转换成基因表达量数据，以便于对初始训练样本和初始测试样本进行批次效应消除处理，从而使得到的最终训练样本和最终测试样本更好的消除了不同批次下的转录组测序数据的基因表达量的差异。

其中，所述利用所述最终测试样本对经分类训练得到的所述肿瘤原发灶的预测模型进行性能验证，基于性能验证结果得到训练后的肿瘤原发灶的预测模型，包括：利用经分类训练得到的所述肿瘤原发灶的预测模型对所述最终测试样本进行预测，得到所述最终测试样本对应的预测结果；根据所述最终测试样本对应的预测结果对所述肿瘤原发灶的预测模型的参数进行调整，得到所述训练后的肿瘤原发灶的预测模型。

因此，利用经分类训练得到的肿瘤原发灶的预测模型对最终测试样本进行预测，可以得到最终测试样本对应的预测结果，于是根据最终测试样本对应的预测结果，可以判断肿瘤原发灶的预测模型预测的准确程度，然后可以进一步对肿瘤原发灶的预测模型的参数进行调整，从而使得到的训练后的肿瘤原发灶的预测模型能够更加准确的预测不同批次下的肿瘤原发灶类型，所得到的训练后的肿瘤原发灶的预测模型具有更好的鲁棒性。

其中，所述根据所述最终测试样本对应的预测结果对所述肿瘤原发灶的预测模型的参数进行调整，得到所述训练后的肿瘤原发灶的预测模型，包括：基于所述最终测试样本对应的预测结果，采用预设评价指标来评价所述肿瘤原发灶的预测模型的优劣；根据评价的结果对初始的肿瘤原发灶的预测模型的参数进行调整，得到所述训练后的肿瘤原发灶的预测模型。

因此，根据最终测试样本对应的预测结果，可以采用预设评价指标来评价肿瘤原发灶的预测模型的优劣，并根据评价的结果对初始的肿瘤原发灶的预测模型的参数进行调整，从而得到训练后的肿瘤原发灶的预测模型，使得到的训练后的肿瘤原发灶的预测模型能够更加准确的预测不同批次下的肿瘤原发灶类型，所得到的训练后的肿瘤原发灶的预测模型具有更好的鲁棒性。

其中，所述预设评价指标包括精确率指标和F1分数指标中的至少一种。

因此，利用精确率指标和/或F1分数指标来评价肿瘤原发灶的预测模型的优劣，可以根据评价的结果对初始的肿瘤原发灶的预测模型的参数进行调整，从而使得到的训练后的肿瘤原发灶的预测模型能够更加准确的预测不同批次下的肿瘤原发灶类型，所得到的训练后的肿瘤原发灶的预测模型具有更好的鲁棒性。

其中，所述对所述最终训练样本进行分类训练，得到肿瘤原发灶的预测模型，包括：采用随机森林方法对所述最终训练样本进行训练，得到所述肿瘤原发灶的预测模型。

因此，采用随机森林方法对最终训练样本进行训练，可以确定特征的重要程度，并依据重要特征得到肿瘤原发灶的预测模型，使得到的肿瘤原发灶的预测模型具有更好的鲁棒性。

为了解决上述问题，本申请第二方面提供了一种肿瘤原发灶预测方法，所述预测方法包括：获取肿瘤原发灶的初始待预测数据；对所述初始待预测数据进行批次效应消除处理，得到最终待预测数据；利用所述肿瘤原发灶的预测模型对所述最终待预测数据进行预测，得到关于肿瘤原发灶的预测结果。

因此，通过对初始待预测数据进行批次效应消除处理，得到最终待预测数据，可以较好地消除最终待预测数据中不同批次下的数据的表达差异，使肿瘤原发灶的预测模型能够更加准确的对最终待预测数据进行预测，使得到的关于肿瘤原发灶的预测结果更准确。

其中，所述获取肿瘤原发灶的初始待预测数据，包括：获取目标数据中转录组测序数据的特征基因数据；基于所述特征基因数据，得到所述初始待预测数据。

因此，通过从目标数据中获取转录组测序数据的特征基因数据，并利用基于特征基因数据所得到的初始待预测数据进行预测，能够更加精准的预测肿瘤原发灶类型。

其中，所述获取目标数据中转录组测序数据的特征基因数据，包括：获取所述目标数据中转录组测序数据的基因表达原始数据；从所述基因表达原始数据中筛选出特征基因数据；所述基于所述特征基因数据，得到所述初始待预测数据，包括：将所述特征基因数据转换成基因表达量数据，得到所述初始待预测数据。

因此，通过先获取目标数据中转录组测序数据的基因表达原始数据，并从中筛选出特征基因数据，然后将特征基因数据转换成基因表达量数据，以便于对初始待预测数据进行批次效应消除处理，从而使得到的最终待预测数据更好的消除了不同批次下的转录组测序数据的基因表达量的差异，使肿瘤原发灶的预测模型能够更加准确的对最终待预测数据进行预测。

其中，所述肿瘤原发灶的预测模型是利用上述第一方面中的预测模型的训练方法得到的。

因此，在肿瘤原发灶类型的预测过程中，采用上述第一方面中的肿瘤原发灶的预测模型的训练方法得到的肿瘤原发灶的预测模型，能够更加准确的预测不同批次下的肿瘤原发灶类型，从而能够提高关于肿瘤原发灶的预测结果的准确性。

为了解决上述问题，本申请第三方面提供了一种预测模型的训练装置，所述训练装置包括：样本获取模块，用于从肿瘤基因组图谱数据库中获取初始训练样本，以及从临床数据库中获取初始测试样本；样本处理模块，用于对所述初始训练样本和所述初始测试样本一起进行批次效应消除处理，得到最终训练样本和最终测试样本；分类训练模块，用于对所述最终训练样本进行分类训练，得到肿瘤原发灶的预测模型；性能验证模块，用于利用所述最终测试样本对经分类训练得到的所述肿瘤原发灶的预测模型进行性能验证，基于性能验证结果得到训练后的肿瘤原发灶的预测模型。

为了解决上述问题，本申请第四方面提供了一种预测装置，所述预测装置包括：数据获取模块，用于获取肿瘤原发灶的初始待预测数据；数据处理模块，用于对所述初始待预测数据进行批次效应消除处理，得到最终待预测数据；病灶预测模块，用于利用肿瘤原发灶的预测模型对所述最终待预测数据进行预测，得到关于肿瘤原发灶的预测结果。

为了解决上述问题，本申请第五方面提供了一种电子设备，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现上述第一方面中的预测模型的训练方法，或上述第二方面中的预测方法。

为了解决上述问题，本申请第六方面提供了一种计算机可读存储介质，其上存储有程序指令，所述程序指令被处理器执行时实现上述第一方面中的预测模型的训练方法，或上述第二方面中的预测方法。

上述方案，通过从肿瘤基因组图谱数据库中获取初始训练样本，由于肿瘤基因组图谱数据库具有大量的公开数据，通过在大量的公开数据上学习数据分布，可以构建肿瘤原发灶的预测模型来有效的辅助医生进行临床诊断，而通过从临床数据库中获取初始测试样本，并对初始训练样本和初始测试样本之间进行批次效应消除处理，得到最终训练样本和最终测试样本，对所述最终训练样本进行分类训练，然后利用得到的最终测试样本对经分类训练得到的肿瘤原发灶的预测模型进行性能验证，基于性能验证结果可以得到训练后的肿瘤原发灶的预测模型，由于最终训练样本和最终测试样本进行了批次效应消除处理，可以较好地消除最终训练样本和最终测试样本中不同批次下的训练数据的表达差异，使训练后的肿瘤原发灶的预测模型能够更加准确的预测不同批次下的肿瘤原发灶类型，所得到的训练后的肿瘤原发灶的预测模型具有更好的鲁棒性。

附图说明

图1是本申请预测模型的训练方法一实施例的流程示意图；

图2是图1中步骤S11一实施例的流程示意图；

图3是图1中步骤S14一实施例的流程示意图；

图4是图3中步骤S142一实施例的流程示意图；

图5是本申请预测方法一实施例的流程示意图；

图6是图5中步骤S51一实施例的流程示意图；

图7是本申请预测模型的训练装置一实施例的框架示意图；

图8是本申请预测装置一实施例的框架示意图；

图9是本申请电子设备一实施例的框架示意图；

图10是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请预测模型的训练方法一实施例的流程示意图。具体而言，本实施例的预测模型的训练方法可以包括如下步骤：

步骤S11：从肿瘤基因组图谱数据库中获取初始训练样本，以及从临床数据库中获取初始测试样本。

具体地，肿瘤基因组图谱(TCGA)数据库作为目前最大的癌症基因信息数据库，其包括了丰富且规范的临床数据，以及针对每种癌型的大样本量，不仅包括了详细的病例临床基本信息，如基本资料、治疗进程、临床分期、肿瘤病理及生存状况，还包括了全面的基因相关数据，如基因表达数据、miRNA表达数据、拷贝数变异、DNA甲基化、SNP等，数据也包括了原始数据、处理(标准化)的数据和部分分析的结果数据。因此，从肿瘤基因组图谱数据库中可以获取到用于肿瘤原发灶的预测模型的训练的初始训练样本。

可以理解的是，从肿瘤基因组图谱数据库中获取的初始训练样本用于训练，以得到肿瘤原发灶的预测模型，而在得到肿瘤原发灶的预测模型后，还需要利用测试样本来进行再次验证，此时可以从临床数据库中来获取初始测试样本。

请结合图2，图2是图1中步骤S11一实施例的流程示意图。本实施例中，上述步骤S11具体可以包括如下步骤：

步骤S111：以所述肿瘤基因组图谱数据库或临床数据库作为数据源，以所述初始训练样本或所述初始测试样本作为目标样本数据。

步骤S112：获取所述数据源中转录组测序数据的特征基因数据。

步骤S113：基于所述特征基因数据，得到所述目标样本数据。

可以理解的是，肿瘤在其发生、发展、转移的过程中，始终保留其组织起源的基因表达特征，因此，通过从肿瘤基因组图谱数据库或临床数据库中可以获取转录组测序数据的特征基因数据，而利用基于特征基因数据所得到的初始训练样本或初始测试样本，能够更加精准的预测肿瘤原发灶类型。

在一个实施场景中，上述步骤S112包括：获取所述数据源中转录组测序数据的基因表达原始数据；从所述基因表达原始数据中筛选出特征基因数据。此时，上述步骤S113包括：将所述特征基因数据转换成基因表达量数据，得到所述目标样本数据；本申请的基因表达量数据为TPM(transcripts per million，每百万条读长reads的转录本)数据。可以理解的是，通过先获取肿瘤基因组图谱数据库或临床数据库中转录组测序数据的基因表达原始数据，并从中筛选出特征基因数据，然后将特征基因数据转换成基因表达量数据，以便于对初始训练样本和初始测试样本进行批次效应消除处理，从而使得到的最终训练样本和最终测试样本更好的消除了不同批次下的转录组测序数据的基因表达量的差异。

步骤S12：对所述初始训练样本和所述初始测试样本一起进行批次效应消除处理，得到最终训练样本和最终测试样本。

可以理解的是，初始训练样本用于训练以得到肿瘤原发灶的预测模型，初始测试样本用于对肿瘤原发灶的预测模型进行再次验证，由于初始训练样本和初始测试样本来自不同的数据集，因此需要对初始训练样本和初始测试样本进行批次效应消除，以避免由于批次效应造成的误差，从而使最终得到的肿瘤原发灶的预测模型具有更好的预测准确性和精度。其中，初始训练样本在经过处理后形成最终训练样本，初始测试样本在经过处理后形成最终测试样本。

步骤S13：对所述最终训练样本进行分类训练，得到肿瘤原发灶的预测模型。

可以理解的是，通过对最终训练样本进行分类训练，可以进行肿瘤发展的分析工作，从而根据最终训练样本学习出肿瘤原发灶的影响机制，从而训练出肿瘤原发灶的预测模型。

在一实施例中，上述步骤S13可以包括：采用随机森林方法对所述最终训练样本进行训练，得到所述肿瘤原发灶的预测模型。可以理解的是，采用随机森林方法对最终训练样本进行训练，可以确定特征的重要程度，并依据重要特征得到肿瘤原发灶的预测模型，使得到的肿瘤原发灶的预测模型具有更好的鲁棒性。

步骤S14：利用所述最终测试样本对经分类训练得到的所述肿瘤原发灶的预测模型进行性能验证，基于性能验证结果得到训练后的肿瘤原发灶的预测模型。

可以理解的是，利用得到的最终测试样本对经分类训练得到的肿瘤原发灶的预测模型进行性能验证，可以判断肿瘤原发灶的预测模型的预测准确性，然后根据性能验证结果可以选择是否对肿瘤原发灶的预测模型进行调整，从而可以得到训练后的肿瘤原发灶的预测模型，由于最终训练样本和最终测试样本进行了批次效应消除处理，因此能够更加准确的预测不同批次下的肿瘤原发灶类型，所得到的训练后的肿瘤原发灶的预测模型具有更好的鲁棒性。

上述方案，通过从肿瘤基因组图谱数据库中获取初始训练样本，由于肿瘤基因组图谱数据库具有大量的公开数据，通过在大量的公开数据上学习数据分布，可以构建肿瘤原发灶的预测模型来有效的辅助医生进行临床诊断，而通过从临床数据库中获取初始测试样本，并对初始训练样本和初始测试样本一起进行批次效应消除处理，得到最终训练样本和最终测试样本，对所述最终训练样本进行分类训练，然后利用得到的最终测试样本对经分类训练得到的肿瘤原发灶的预测模型进行性能验证，基于性能验证结果可以得到训练后的肿瘤原发灶的预测模型，由于最终训练样本和最终测试样本进行了批次效应消除处理，可以较好地消除最终训练样本和最终测试样本中不同批次下的训练数据的表达差异，使训练后的肿瘤原发灶的预测模型能够更加准确的预测不同批次下的肿瘤原发灶类型，所得到的训练后的肿瘤原发灶的预测模型具有更好的鲁棒性。

请结合图3，图3是图1中步骤S14一实施例的流程示意图。本实施例中，上述步骤S14具体可以包括如下步骤：

步骤S141：利用经分类训练得到的所述肿瘤原发灶的预测模型对所述最终测试样本进行预测，得到所述最终测试样本对应的预测结果。

步骤S142：根据所述最终测试样本对应的预测结果对所述肿瘤原发灶的预测模型的参数进行调整，得到所述训练后的肿瘤原发灶的预测模型。

可以理解的是，利用经分类训练得到的肿瘤原发灶的预测模型对最终测试样本进行预测，可以得到最终测试样本对应的预测结果，于是根据最终测试样本对应的预测结果，可以判断肿瘤原发灶的预测模型预测的准确程度，然后可以进一步对肿瘤原发灶的预测模型的参数进行调整，从而使得到的训练后的肿瘤原发灶的预测模型能够更加准确的预测不同批次下的肿瘤原发灶类型，所得到的训练后的肿瘤原发灶的预测模型具有更好的鲁棒性。

请结合图4，图4是图3中步骤S142一实施例的流程示意图。本实施例中，上述步骤S142具体可以包括如下步骤：

步骤S1421：基于所述最终测试样本对应的预测结果，采用预设评价指标来评价所述肿瘤原发灶的预测模型的优劣。

步骤S1422：根据评价的结果对初始的肿瘤原发灶的预测模型的参数进行调整，得到所述训练后的肿瘤原发灶的预测模型。

可以理解的是，根据最终测试样本对应的预测结果，可以采用预设评价指标来评价肿瘤原发灶的预测模型的优劣，并根据评价的结果对初始的肿瘤原发灶的预测模型的参数进行调整，从而得到训练后的肿瘤原发灶的预测模型，使得到的训练后的肿瘤原发灶的预测模型能够更加准确的预测不同批次下的肿瘤原发灶类型，所得到的训练后的肿瘤原发灶的预测模型具有更好的鲁棒性。

在一实施例中，上述预设评价指标包括精确率指标和F1分数指标(F1 Score，是统计学中用来衡量二分类或多任务二分类模型精确度的一种指标)中的至少一种。利用精确率指标和/或F1分数指标来评价肿瘤原发灶的预测模型的优劣，可以根据评价的结果对初始的肿瘤原发灶的预测模型的参数进行调整，从而使得到的训练后的肿瘤原发灶的预测模型能够更加准确的预测不同批次下的肿瘤原发灶类型，所得到的训练后的肿瘤原发灶的预测模型具有更好的鲁棒性。

请参阅图5，图5是本申请预测方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S51：获取肿瘤原发灶的初始待预测数据。

步骤S52：对所述初始待预测数据进行批次效应消除处理，得到最终待预测数据。

步骤S53：利用所述肿瘤原发灶的预测模型对所述最终待预测数据进行预测，得到关于肿瘤原发灶的预测结果。

具体地，上述对初始待预测数据进行批次效应消除处理的步骤中，需要将初始待预测数据以及前述对肿瘤原发灶的预测模型进行训练用的初始训练样本和初始测试样本一起进行批次效应消除，这样可以较好地消除最终待预测数据中不同批次下的数据的表达差异，使肿瘤原发灶的预测模型能够更加准确的对最终待预测数据进行预测，使得到的关于肿瘤原发灶的预测结果更准确。另外，关于肿瘤原发灶的预测结果可能表达为多个肿瘤原发灶类型的概率值，因此，可以根据预测出的多个肿瘤原发灶类型的概率值转化为对应的肿瘤类型。

请结合图6，图6是图5中步骤S51一实施例的流程示意图。本实施例中，上述步骤S51具体可以包括如下步骤：

步骤S511：获取目标数据中转录组测序数据的特征基因数据。

步骤S512：基于所述特征基因数据，得到所述初始待预测数据。

其中，本实施例中的目标数据可以为关于待预测患者的临床数据，通过从关于待预测患者的临床数据中获取转录组测序数据的特征基因数据，并利用基于特征基因数据所得到的初始待预测数据进行预测，能够更加精准的预测肿瘤原发灶类型。

在一实施例中，上述步骤S511可以包括：获取所述目标数据中转录组测序数据的基因表达原始数据；从所述基因表达原始数据中筛选出特征基因数据。此时，上述步骤S512可以包括：将所述特征基因数据转换成基因表达量数据，得到所述初始待预测数据。可以理解的是，通过先获取目标数据中转录组测序数据的基因表达原始数据，并从中筛选出特征基因数据，然后将特征基因数据转换成基因表达量数据，以便于对初始待预测数据进行批次效应消除处理，从而使得到的最终待预测数据更好的消除了不同批次下的转录组测序数据的基因表达量的差异，使肿瘤原发灶的预测模型能够更加准确的对最终待预测数据进行预测。

其中，该肿瘤原发灶的预测模型是利用上述的肿瘤原发灶的预测模型的训练方法得到的。因此，在肿瘤原发灶类型的预测过程中，采用上述的肿瘤原发灶的预测模型的训练方法得到的肿瘤原发灶的预测模型，能够更加准确的预测不同批次下的肿瘤原发灶类型，从而能够提高关于肿瘤原发灶的预测结果的准确性。

本申请的肿瘤原发灶预测方法，可应用在医生对病人进行诊断治疗时，当医生根据患者的临床检查信息无法判断患者肿瘤原发灶类型时，可以通过对患者肿瘤进行RNA测序，然后使用肿瘤原发灶的预测模型对RNA测序的基因表达量进行预测患者肿瘤原发灶类型，从而可以选择最优的治疗方案治疗患者，提高患者的生存周期。

请参阅图7，图7是本申请预测模型的训练装置一实施例的框架示意图。预测模型的训练装置70包括：样本获取模块700，用于从肿瘤基因组图谱数据库中获取初始训练样本，以及从临床数据库中获取初始测试样本；样本处理模块702，用于对所述初始训练样本和所述初始测试样本之间进行批次效应消除处理，得到最终训练样本和最终测试样本；分类训练模块704，用于对所述最终训练样本进行分类训练，得到肿瘤原发灶的预测模型；性能验证模块706，用于利用所述最终测试样本对经分类训练得到的所述肿瘤原发灶的预测模型进行性能验证，基于性能验证结果得到训练后的肿瘤原发灶的预测模型。

上述方案，通过从肿瘤基因组图谱数据库中获取初始训练样本，由于肿瘤基因组图谱数据库具有大量的公开数据，通过在大量的公开数据上学习数据分布，可以构建肿瘤原发灶的预测模型来有效的辅助医生进行临床诊断，而通过从临床数据库中获取初始测试样本，并对初始训练样本和初始测试样本之间进行批次效应消除处理，得到最终训练样本和最终测试样本，对所述最终训练样本进行分类训练，然后利用得到的最终测试样本对经分类训练得到的肿瘤原发灶的预测模型进行性能验证，基于性能验证结果得到训练后的肿瘤原发灶的预测模型，由于最终训练样本和最终测试样本进行了批次效应消除处理，可以较好地消除最终训练样本和最终测试样本中不同批次下的训练数据的表达差异，使训练后的肿瘤原发灶的预测模型能够更加准确的预测不同批次下的肿瘤原发灶类型，所得到的训练后的肿瘤原发灶的预测模型具有更好的鲁棒性。

在一些实施例中，样本获取模块700具体可以用于以所述肿瘤基因组图谱数据库或临床数据库作为数据源，以所述初始训练样本或所述初始测试样本作为目标样本数据；获取所述数据源中转录组测序数据的特征基因数据；基于所述特征基因数据，得到所述目标样本数据。

在一些实施例中，样本获取模块700具体用于获取所述数据源中转录组测序数据的基因表达原始数据；从所述基因表达原始数据中筛选出特征基因数据；将所述特征基因数据转换成基因表达量数据，得到所述目标样本数据。

在一些实施例中，性能验证模块706具体用于利用经分类训练得到的所述肿瘤原发灶的预测模型对所述最终测试样本进行预测，得到所述最终测试样本对应的预测结果；根据所述最终测试样本对应的预测结果对所述肿瘤原发灶的预测模型的参数进行调整，得到所述训练后的肿瘤原发灶的预测模型。

在一些实施例中，性能验证模块706具体可以用于基于所述最终测试样本对应的预测结果，采用预设评价指标来评价所述肿瘤原发灶的预测模型的优劣；根据评价的结果对初始的肿瘤原发灶的预测模型的参数进行调整，得到所述训练后的肿瘤原发灶的预测模型。

在一些实施例中，分类训练模块704具体可以用于采用随机森林方法对所述最终训练样本进行训练，得到所述肿瘤原发灶的预测模型。

请参阅图8，图8是本申请预测装置一实施例的框架示意图。预测装置80包括：数据获取模块800，用于获取肿瘤原发灶的初始待预测数据；数据处理模块802，用于对所述初始待预测数据进行批次效应消除处理，得到最终待预测数据；病灶预测模块804，用于利用肿瘤原发灶的预测模型对所述最终待预测数据进行预测，得到关于肿瘤原发灶的预测结果。

上述方案，通过将初始待预测数据以及前述对肿瘤原发灶的预测模型进行训练用的初始训练样本和初始测试样本一起进行批次效应消除，可以较好地消除最终待预测数据中不同批次下的数据的表达差异，使肿瘤原发灶的预测模型能够更加准确的对最终待预测数据进行预测，使得到的关于肿瘤原发灶的预测结果更准确。

在一些实施例中，数据获取模块800具体用于获取目标数据中转录组测序数据的特征基因数据；基于所述特征基因数据，得到所述初始待预测数据。

在一些实施例中，数据获取模块800具体用于获取所述目标数据中转录组测序数据的基因表达原始数据；从所述基因表达原始数据中筛选出特征基因数据；将所述特征基因数据转换成基因表达量数据，得到所述初始待预测数据。

请参阅图9，图9是本申请电子设备一实施例的框架示意图。电子设备90包括相互耦接的存储器91和处理器92，处理器92用于执行存储器91中存储的程序指令，以实现上述任一预测模型的训练方法实施例的步骤，或上述任一预测方法实施例的步骤。在一个具体的实施场景中，电子设备90可以包括但不限于：微型计算机、服务器。

具体而言，处理器92用于控制其自身以及存储器91以实现上述任一预测模型的训练方法实施例的步骤，或上述任一预测方法实施例的步骤。处理器92还可以称为CPU(Central Processing Unit，中央处理单元)。处理器92可能是一种集成电路芯片，具有信号的处理能力。处理器92还可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器92可以由集成电路芯片共同实现。

上述方案，处理器通过从肿瘤基因组图谱数据库中获取初始训练样本，由于肿瘤基因组图谱数据库具有大量的公开数据，通过在大量的公开数据上学习数据分布，可以构建肿瘤原发灶的预测模型来有效的辅助医生进行临床诊断，而通过对初始训练样本进行批次效应消除处理，得到最终训练样本，可以较好地消除最终训练样本中不同批次下的训练数据的表达差异，使肿瘤原发灶的预测模型能够更加准确的预测不同批次下的肿瘤原发灶类型，故得到的肿瘤原发灶的预测模型具有更好的鲁棒性。

请参阅图10，图10是本申请计算机可读存储介质一实施例的框架示意图。计算机可读存储介质100存储有能够被处理器运行的程序指令1000，程序指令1000用于实现上述任一预测模型的训练方法实施例的步骤，或上述任一预测方法实施例的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种预测模型的训练方法，其特征在于，所述训练方法包括：

从肿瘤基因组图谱数据库中获取初始训练样本，以及从临床数据库中获取初始测试样本；

对所述初始训练样本和所述初始测试样本一起进行批次效应消除处理，得到最终训练样本和最终测试样本；

对所述最终训练样本进行分类训练，得到肿瘤原发灶的预测模型；

利用所述最终测试样本对经分类训练得到的所述肿瘤原发灶的预测模型进行性能验证，基于性能验证结果得到训练后的肿瘤原发灶的预测模型。

2.根据权利要求1所述的训练方法，其特征在于，所述从肿瘤基因组图谱数据库中获取初始训练样本，以及从临床数据库中获取初始测试样本，包括：

以所述肿瘤基因组图谱数据库或临床数据库作为数据源，以所述初始训练样本或所述初始测试样本作为目标样本数据；

获取所述数据源中转录组测序数据的特征基因数据；

基于所述特征基因数据，得到所述目标样本数据。

3.根据权利要求2所述的训练方法，其特征在于，所述获取所述数据源中转录组测序数据的特征基因数据，包括：

获取所述数据源中转录组测序数据的基因表达原始数据；

从所述基因表达原始数据中筛选出特征基因数据；以及

所述基于所述特征基因数据，得到所述目标样本数据，包括：

将所述特征基因数据转换成基因表达量数据，得到所述目标样本数据。

4.根据权利要求1至3任一项所述的训练方法，其特征在于，所述利用所述最终测试样本对经分类训练得到的所述肿瘤原发灶的预测模型进行性能验证，基于性能验证结果得到训练后的肿瘤原发灶的预测模型，包括：

利用经分类训练得到的所述肿瘤原发灶的预测模型对所述最终测试样本进行预测，得到所述最终测试样本对应的预测结果；

根据所述最终测试样本对应的预测结果对所述肿瘤原发灶的预测模型的参数进行调整，得到所述训练后的肿瘤原发灶的预测模型。

5.根据权利要求4所述的训练方法，其特征在于，所述根据所述最终测试样本对应的预测结果对所述肿瘤原发灶的预测模型的参数进行调整，得到所述训练后的肿瘤原发灶的预测模型，包括：

基于所述最终测试样本对应的预测结果，采用预设评价指标来评价所述肿瘤原发灶的预测模型的优劣；

根据评价的结果对初始的肿瘤原发灶的预测模型的参数进行调整，得到所述训练后的肿瘤原发灶的预测模型。

6.根据权利要求5所述的训练方法，其特征在于，所述预设评价指标包括精确率指标和F1分数指标中的至少一种。

7.根据权利要求1至6任一项所述的训练方法，其特征在于，所述对所述最终训练样本进行分类训练，得到肿瘤原发灶的预测模型，包括：

采用随机森林方法对所述最终训练样本进行训练，得到所述肿瘤原发灶的预测模型。

8.一种预测方法，其特征在于，所述预测方法包括：

获取肿瘤原发灶的初始待预测数据；

对所述初始待预测数据进行批次效应消除处理，得到最终待预测数据；

利用肿瘤原发灶的预测模型对所述最终待预测数据进行预测，得到关于肿瘤原发灶的预测结果。

9.根据权利要求8所述的方法，其特征在于，所述获取肿瘤原发灶的初始待预测数据，包括：

获取目标数据中转录组测序数据的特征基因数据；

基于所述特征基因数据，得到所述初始待预测数据。

10.根据权利要求9所述的方法，其特征在于，所述获取目标数据中转录组测序数据的特征基因数据，包括：

获取所述目标数据中转录组测序数据的基因表达原始数据；

从所述基因表达原始数据中筛选出特征基因数据；

所述基于所述特征基因数据，得到所述初始待预测数据，包括：

将所述特征基因数据转换成基因表达量数据，得到所述初始待预测数据。

11.根据权利要求8至10任一项所述的预测方法，其特征在于，

所述肿瘤原发灶的预测模型是利用权利要求1至7任一项所述的预测模型的训练方法得到的。

12.一种预测模型的训练装置，其特征在于，所述训练装置包括：

样本获取模块，用于从肿瘤基因组图谱数据库中获取初始训练样本，以及从临床数据库中获取初始测试样本；

样本处理模块，用于对所述初始训练样本和所述初始测试样本一起进行批次效应消除处理，得到最终训练样本和最终测试样本；

分类训练模块，用于对所述最终训练样本进行分类训练，得到肿瘤原发灶的预测模型；

性能验证模块，用于利用所述最终测试样本对经分类训练得到的所述肿瘤原发灶的预测模型进行性能验证，基于性能验证结果得到训练后的肿瘤原发灶的预测模型。

13.一种预测装置，其特征在于，所述预测装置包括：

数据获取模块，用于获取肿瘤原发灶的初始待预测数据；

数据处理模块，用于对所述初始待预测数据进行批次效应消除处理，得到最终待预测数据；

病灶预测模块，用于利用肿瘤原发灶的预测模型对所述最终待预测数据进行预测，得到关于肿瘤原发灶的预测结果。

14.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至7任一项所述的预测模型的训练方法，或权利要求8至11任一项所述的预测方法。

15.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至7任一项所述的预测模型的训练方法，或权利要求8至11任一项所述的预测方法。