CN117349670A

CN117349670A - 一种肿瘤检测模型训练系统、方法、设备及存储介质

Info

Publication number: CN117349670A
Application number: CN202311387239.4A
Authority: CN
Inventors: 余捷凯; 唐家琪; 王战鹏; 黄玮; 邬建敏; 栾春燕
Original assignee: Hangzhou Well Healthcare Technologies Co ltd; Zhejiang University ZJU
Current assignee: Hangzhou Well Healthcare Technologies Co ltd; Zhejiang University ZJU
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2024-01-05
Anticipated expiration: 2043-10-25
Also published as: CN117349670B

Abstract

本申请公开了一种肿瘤检测模型训练系统、方法、设备及存储介质，涉及模型训练技术领域，包括：待训练数据集获取模块，用于获取待训练数据集；模型训练模块，用于在当前训练周期中利用待训练数据集对初始模型进行训练得到训练后模型；数据样本筛选模块，用于当待训练数据集中的数据样本不小于预设数量时，筛选出低于预设可信度阈值的目标训练数据集；数据集更新模块，用于将目标训练数据集确定为下一训练周期的待训练数据集，并进行下一训练周期的训练过程；模型输出模块，用于当待训练数据集中的数据样本小于预设数量时，输出包含所有训练后模型的预设模型队列，并结合预设可信度阈值对待预测数据集进行预测。这样一来，本申请可以提高模型精度。

Description

一种肿瘤检测模型训练系统、方法、设备及存储介质

技术领域

本发明涉及模型训练技术领域，特别涉及一种肿瘤检测模型训练系统、方法、设备及存储介质。

背景技术

肿瘤样本和非肿瘤样本的区分一般是基于组织细胞病理金标准，但由于肿瘤的异质性，进入到体液中液体活检的标志物比如蛋白质、多肽、代谢物、外泌、循环游离DNA（DeoxyriboNucleic Acid，脱氧核糖核酸）、循环肿瘤细胞等等都无法做到病理诊断一样将肿瘤和非肿瘤两组队列完全分开，即使借助机器学习深度学习等训练更多标志物特征也无法达到和金标准完全匹配的效果。因此通过液体活检区分肿瘤样本和非肿瘤样本的时候必然存在两组判别样本的交叠区域，也就是灰区，灰区部分区分的效能较差，往往无法给出明确的分类信息。如果能减少落入灰区的样本，有望将液体活检检测区分肿瘤样本和非肿瘤样本的准确率提高。目前常用的方案是利用梯度下降的思想，通过迭代地添加新的基础模型来不断提升预测性能；这样在每次迭代中关注之前模型的误差，通过拟合新模型来纠正这些误差，从而逐步改进整体模型的预测能力。这样用串联迭代的方式集成多个基础模型，但每次迭代的训练样本是相同的，故在进行低可信度的肿瘤亚型分类时效果不佳；并且，串联迭代难以确定基础模型的复杂度，若基础模型过于复杂，会造成过拟合；关键的是，肿瘤样本和非肿瘤样本可能表现出相同的特征表达情况，当训练数据无法涵盖所有情况时，残差大的未必是判断出错的情况，若这些数据带入下次迭代，则会影响准确性。

由此可见，如何提升机器学习模型对肿瘤的预测结果的准确性是本领域要解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种肿瘤检测模型训练系统、方法、设备及存储介质，可以根据样本可信度针对性筛选训练样本，防止模型过拟合，提高了模型预测结果的准确率。其具体方案如下：

第一方面，本申请提供了一种肿瘤检测模型训练系统，包括：

待训练数据集获取模块，用于获取待训练数据集；所述待训练数据集包括通过标签编码处理后的与肿瘤液体活检检测结果对应的数据样本；

模型训练模块，用于在当前训练周期中，基于预设回归算法利用所述待训练数据集对初始模型进行训练，得到训练后模型；

数据样本筛选模块，用于当所述待训练数据集中数据样本的数量不小于预设数量阈值时，基于预设交叉验证方式对所述待训练数据集中数据样本的可信度进行计算，以筛选得到可信度不大于预设可信度阈值的目标训练数据集；

数据集更新模块，用于将所述目标训练数据集确定为下一训练周期的待训练数据集，并跳转至基于预设回归算法利用所述待训练数据集对初始模型进行训练，得到训练后模型的步骤，以进行所述下一训练周期的训练过程；

模型输出模块，用于当所述待训练数据集中数据样本的数量小于所述预设数量阈值时，输出包含当前训练周期和此前所有训练周期对应的训练后模型的预设模型队列，以便利用所述预设模型队列中的模型对待预测数据集进行预测。

可选的，所述待训练数据集获取模块，包括：

初始数据集获取单元，用于获取初始数据集；所述初始数据集包括肿瘤液体活检检测结果和相应的分类编码。

可选的，所述模型训练模块，包括：

算法处理单元，用于基于所述待训练数据集利用预设搜索算法对所述预设回归算法进行超参数优化，以得到与所述待训练数据集对应的超参数；

第一模型训练单元，用于基于所述待训练数据集、所述超参数和所述预设回归算法对初始模型进行训练，得到相应的训练后模型。

可选的，所述数据样本筛选模块，包括：

数据样本划分单元，用于当所述待训练数据集中数据样本的数量不小于预设数量阈值时，基于预设交叉验证折数将所述待训练数据集中的数据样本分成相应数量的N份数据；

第二模型训练单元，用于基于所述N份数据中的任意N-1份数据、所述超参数和所述预设回归算法对所述初始模型进行训练，得到样本预测模型；

训练样本得分计算单元，用于利用所述样本预测模型和预设预测算法计算出所述N份数据中剩余的一份数据中各数据样本的训练样本得分，以得到与所述待训练数据集中各数据样本分别对应的若干训练样本得分；

训练样本可信度转化单元，用于根据预设可信度计算公式将若干所述训练样本得分转化为训练样本可信度；

目标训练数据集确定单元，用于从所述待训练数据集中筛选出训练样本可信度不大于预设可信度阈值的若干数据样本，以得到目标训练数据集。

可选的，所述模型训练模块，包括：

模型添加单元，用于在当前训练周期中，将所述训练后模型添加至所述预设模型队列中，以便在所述待训练数据集中数据样本的数量小于所述预设数量阈值时，输出包含当前训练周期和此前所有训练周期对应的训练后模型的预设模型队列。

可选的，所述系统还包括：

模型选取单元，用于在当前预测周期中，从所述预设模型队列中取出当前模型；

预测样本得分计算单元，用于基于所述当前模型利用预设预测算法预测待预测数据集中的数据样本，以得到相应的预测样本得分；

模型队列判断子模块，用于判断所述预设模型队列是否为空；

样本标签确定单元，用于当所述预设模型队列为空时，将所述预测样本得分添加至预设得分集，并根据所述预设得分集和所述预测样本得分确定所述待预测数据集中数据样本对应的样本标签。

可选的，所述模型队列判断子模块，包括：

预测样本可信度转化单元，用于当所述预设模型队列不为空时，基于预设可信度计算公式将所述预测样本得分转化为相应的预测样本可信度；

目标预测数据集确定单元，用于从所述待预测数据集中筛选出所述预测样本可信度不大于预设可信度阈值的若干数据样本以得到目标预测数据集；

预测样本得分添加单元，用于将所述预测样本可信度大于所述预设可信度阈值的若干数据样本对应的预测样本得分添加至所述预设得分集；

待预测数据集更新单元，用于将所述目标预测数据集确定为下一预测周期的待预测数据集，并跳转至从所述预设模型队列中取出当前模型的步骤，以进行下一预测周期的预测过程。

第二方面，本申请提供了一种肿瘤检测模型训练方法，包括：

获取待训练数据集；所述待训练数据集包括通过标签编码处理后的与肿瘤液体活检检测结果对应的数据样本；

在当前训练周期中，基于预设回归算法利用所述待训练数据集对初始模型进行训练，得到训练后模型；

基于预设交叉验证方式对所述待训练数据集中数据样本的可信度进行计算，以筛选得到可信度不大于预设可信度阈值的目标训练数据集；

若所述目标训练数据集中数据样本的数量不小于所述预设数量阈值，将所述目标训练数据集确定为下一训练周期的待训练数据集，并跳转至基于预设回归算法利用所述待训练数据集对初始模型进行训练，得到训练后模型的步骤，以进行所述下一训练周期的训练过程；

若所述待训练数据集中数据样本的数量小于所述预设数量阈值，则输出包含当前训练周期和此前所有训练周期对应的训练后模型的预设模型队列，以便利用所述预设模型队列中的模型以及所述预设可信度阈值对待预测数据集进行预测。

第三方面，本申请提供了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序以实现如上述的肿瘤检测模型训练方法。

第四方面，本申请提供了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现如上述的肿瘤检测模型训练方法。

由此可见，本申请包括待训练数据集获取模块，用于获取待训练数据集；所述待训练数据集包括以及所述预设可信度阈值；模型训练模块，用于在当前训练周期中，基于预设回归算法利用所述待训练数据集对初始模型进行训练，得到训练后模型；数据样本筛选模块，用于当所述待训练数据集中数据样本的数量不小于预设数量阈值时，基于预设交叉验证方式对所述待训练数据集中数据样本的可信度进行计算，以筛选得到可信度不大于预设可信度阈值的目标训练数据集；数据集更新模块，用于将所述目标训练数据集确定为下一训练周期的待训练数据集，并跳转至基于预设回归算法利用所述待训练数据集对初始模型进行训练，得到训练后模型的步骤，以进行所述下一训练周期的训练过程；模型输出模块，用于当所述待训练数据集中数据样本的数量小于所述预设数量阈值时，输出包含当前训练周期和此前所有训练周期对应的训练后模型的预设模型队列，以便利用所述预设模型队列中的模型以及所述预设可信度阈值对待预测数据集进行预测。这样一来，本申请可以利用前次模型的预测结果计算可信度，为后一次建模使用的训练集提供指导，只针对上次迭代中可信度较低的数据，这样提升了训练效率；并且本申请技术方案在对可信度较低的数据进行特定策略的预测时具有更好的自适应性和鲁棒性；同时每次训练集迭代的数据量会逐渐减小，逐步进行针对性训练，可以提高最终模型在进行样本预测时的可信度。相应的，本申请技术方案可以根据样本可信度针对性地筛选训练样本，防止模型过拟合，提高了模型预测结果的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种肿瘤检测模型训练系统结构示意图；

图2为本申请公开的一种具体的肿瘤检测模型训练方法流程图；

图3为本申请公开的另一种具体的肿瘤检测模型训练方法流程图；

图4为本申请公开的一种具体的利用模型预测数据样本流程图；

图5为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1所示，本发明实施例公开了一种肿瘤检测模型训练系统，包括：

待训练数据集获取模块11，用于获取待训练数据集；所述待训练数据集包括通过标签编码处理后的与肿瘤液体活检检测结果对应的数据样本。

本申请实施例中，待训练数据集获取模块具体用于获取待训练数据集，其中，待训练数据集具体是指经过标签编码处理后的与肿瘤液体活检检测结果对应的数据样本。在一种具体的实施例中，所述待训练数据集获取模块，可以包括：初始数据集获取单元，用于获取初始数据集；所述初始数据集包括肿瘤液体活检检测结果和每个检测结果（数据样本）的分类编码。具体的，初始数据集获取单元用于获取初始数据集，其中的数据样本可以为通过二分类编码的肿瘤液体活检检测结果。

模型训练模块12，用于在当前训练周期中，基于预设回归算法利用所述待训练数据集对初始模型进行训练，得到训练后模型。

本申请实施例中，得到待训练数据集后，可以开始当前训练周期的训练过程，具体可以通过模型训练模块基于预设回归算法，并利用待训练数据集对初始模型进行训练，得到当前训练周期对应的训练后模型。在一种具体的实施例中，所述模型训练模块，可以包括：算法处理单元，用于基于所述待训练数据集利用预设搜索算法对所述预设回归算法进行超参数优化，以得到与所述待训练数据集对应的超参数；第一模型训练单元，用于基于所述待训练数据集、所述超参数和所述预设回归算法对初始模型进行训练，得到相应的训练后模型。

具体的，通过算法处理单元可以基于待训练数据集，并利用搜索算法（本申请中使用遗传算法，也可以使用网格优化、梯度优化等）对预设回归算法进行超参数优化，这样可以得到与待训练数据集契合度高的超参数。之后通过第一模型训练单元，基于待训练数据集、相应的超参数以及预设回归算法对初始模型进行训练，可以得到当前训练周期对应的训练后模型。

在一种具体的实施例中，所述模型训练模块，可以包括：模型添加单元，用于在当前训练周期中，将所述训练后模型添加至所述预设模型队列中，以便在所述待训练数据集中数据样本的数量小于所述预设数量阈值时，输出包含当前训练周期和此前所有训练周期对应的训练后模型的预设模型队列。具体的，在当前训练周期中，得到相应的训练后模型时，将该模型添加至预设模型队列中，以便在若干个训练周期后，可以通过预设模型队列输出此前所有训练周期对应的训练后模型；需要指出的是，本申请中，在不同的训练周期中，都是利用当前训练周期的待训练模型对初始模型进行训练，以得到当前训练周期的训练后模型。

数据样本筛选模块13，用于当所述待训练数据集中数据样本的数量不小于预设数量阈值时，基于预设交叉验证方式对所述待训练数据集中数据样本的可信度进行计算，以筛选得到可信度不大于预设可信度阈值的目标训练数据集。

本申请中，通过数据样本筛选模块从待训练数据集中筛选出部分数据样本，得到目标训练数据集；具体可以基于预设交叉验证方式（本申请中使用K折交叉验证，即K-FoldCross-validation）对该目标训练数据集中的数据样本进行可信度计算，通过数据样本对应的可信度筛选出可信度不大于预设可信度阈值的目标训练数据集。在一种具体的实施例中，所述数据样本筛选模块，可以包括：数据样本划分单元，用于当所述待训练数据集中数据样本的数量不小于预设数量阈值时，基于预设交叉验证折数将所述待训练数据集中的数据样本分成相应数量的N份数据；第二模型训练单元，用于基于所述N份数据中的任意N-1份数据、所述超参数和所述预设回归算法对所述初始模型进行训练，得到样本预测模型；训练样本得分计算单元，用于利用所述样本预测模型和预设预测算法计算出所述N份数据中剩余的一份数据中各数据样本的训练样本得分，以得到与所述待训练数据集中各数据样本对应的若干训练样本得分；训练样本可信度转化单元，用于根据预设可信度计算公式将若干所述训练样本得分转化为训练样本可信度；目标训练数据集确定单元，用于从所述待训练数据集中筛选出训练样本可信度不大于预设可信度阈值的若干数据样本，以得到目标训练数据集。具体的，通过数据样本划分单元可以利用预设交叉验证折数将待训练数据集中的数据样本划分为相应数量的N份数据，通过这样按比例抽取的方式将待训练数据集划分为N份数据；然后基于与待训练数据集对应的超参数以及预设回归算法，利用其中N-1份数据对初始模型进行训练，再利用训练好的模型对剩余的一份数据中的各数据样本进行得分预测，通过这样训练模型再预测数据样本得分的交叉预测方式可以得到针对待训练数据集中所有数据样本对应的训练样本得分；之后通过预设可信度计算公式将数据样本得分转化为相应的训练样本可信度，再筛选出可信度不大于预设可信度阈值的若干个数据样本，以组成目标训练集。在具体的实施例中，预设可信度为支持向量机模型预测得分的绝对值。

数据集更新模块14，用于将所述目标训练数据集确定为下一训练周期的待训练数据集，并跳转至基于预设回归算法利用所述待训练数据集对初始模型进行训练，得到训练后模型的步骤，以进行所述下一训练周期的训练过程。

进一步的，通过数据集更新模块可以将得到的目标训练集确定为下一个训练周期所使用的待训练数据集，同时基于预设回归算法利用该待训练数据集进行下一训练周期的模型训练过程。需要指出的是，本申请中，若一个训练周期对应待训练数据集中的数据样本的数量不小于预设数量阈值，则从该待训练数据集中筛选出目标数据集，将该目标数据集作为新的待训练数据集自动进入下一个训练周期的训练过程。

模型输出模块15，用于当所述待训练数据集中数据样本的数量小于所述预设数量阈值时，输出包含当前训练周期和此前所有训练周期对应的训练后模型的预设模型队列，以便利用所述预设模型队列中的模型对待预测数据集进行预测。

相应的，若一个训练周期对应的待训练数据集中数据样本的数量小于预设数量阈值，这种情况下没有必要再次进行数据样本的筛选；换句话说，在一个训练周期中，当从待训练数据集中筛选出的可信度不大于预设可信度阈值的数据样本（目标数据集，也是下一个训练周期的待训练数据集）的数量小于预设数量阈值时，可以通过模型输出模块提前终止下一个训练周期的模型训练过程，直接输出包含当前训练周期以及此前所有训练周期对应的所有训练后模型的预设模型队列；需要指出的是，输出的是包含所有训练后模型的预设模型队列，通过该预设模型队列可以进行后续针对待预测数据集的预测过程。

在另一种具体的实施例中，还可以包括：模型选取单元，用于在当前预测周期中，从所述预设模型队列中取出当前模型；预测样本得分计算单元，用于基于所述当前模型利用预设预测算法预测待预测数据集中的数据样本，以得到相应的预测样本得分；模型队列判断子模块，用于判断所述预设模型队列是否为空；样本标签确定单元，用于当所述预设模型队列为空时，将所述预测样本得分添加至预设得分集，并根据所述预设得分集和所述预测样本得分确定所述待预测数据集中数据样本对应的样本标签。具体的，在利用包含所有训练后模型的预设模型队列对待预测数据集中数据样本进行预测时，可以通过模型选取单元从预设模型队列中选取一个训练后模型，作为当前模型，然后通过预测样本得分计算单元，基于该当前模型利用预设预测算法预测待预测数据集中的各数据样本，以得到相应的预测样本得分；模型队列判断子模块可以判断预设模型队列中是否还存在没有使用过的训练后模型；相应的，当预设模型队列中的训练后模型均被使用过，即不存在未使用的训练后模型，可以看作预设模型队列为空；此时可以通过样本标签确定单元将待预测数据集中数据样本对应的预测样本得分添加至预设得分集中，并根据预设得分集和相应预测样本得分确定待预测数据集中各数据样本对应的样本标签，这样输出待预测数据集中各数据样本对应的样本标签，即完成了对待预测数据集的预测过程。

在又一种具体的实施例中，所述模型队列判断子模块，可以包括：预测样本可信度转化单元，用于当所述预设模型队列不为空时，基于预设可信度计算公式将所述预测样本得分转化为相应的预测样本可信度；目标预测数据集确定单元，用于从所述待预测数据集中筛选出所述预测样本可信度不大于预设可信度阈值的若干数据样本以得到目标预测数据集；预测样本得分添加单元，用于将所述预测样本可信度大于所述预设可信度阈值的若干数据样本对应的预测样本得分添加至所述预设得分集；待预测数据集更新单元，用于将所述目标预测数据集确定为下一预测周期的待预测数据集，并跳转至从所述预设模型队列中取出当前模型的步骤，以进行下一预测周期的预测过程。具体的，当预设模型队列中存在没有使用过的训练后模型时，即存在训练后模型，不为空时，可以通过预设样本可信度转化单元将待预测数据集中数据样本对应的预测样本得分转化为相应的预测样本可信度；之后通过目标预测数据集确定单元从待预测数据集中筛选出预测样本可信度不大于预设可信度阈值的若干数据样本，以得到目标预测数据集。预测样本得分添加单元可以将预测样本可信度大于预设可信度阈值的若干数据样本对应的预测样本得分添加至预设得分集；可以理解的是，预设得分集暂时保存能够输出的数据样本得分。进一步的，通过待预测数据集更新单元可以将前述得到的目标预测数据集确定为新的待预测数据集，以用于下一个预测周期的预测过程；可以理解的是，预设模型队列中一个训练后模型对应一个预测周期，上一预测周期中的目标预测数据集作为本预测周期的待预测数据集，以此类推，直至预设模型队列中所有的训练后模型均被使用过，再根据最终的预设得分集和相应预测样本得分确定待预测数据集中各数据样本的样本标签。

由此可见，本申请可以利用前次模型的预测结果计算可信度，为后一次建模使用的训练集提供指导，只针对上次迭代中可信度较低的数据进行再次训练，这样提升了训练效率，并且在对可信度较低的数据进行特定策略的预测时具有更好的自适应性和鲁棒性；同时每次训练集迭代的数据量会逐渐减小，逐步进行有针对性的训练，可以提高最终模型在预测时的准确率。

参见图2所示，本发明实施例公开了一种肿瘤检测模型训练方法，包括：

步骤S11、获取待训练数据集；所述待训练数据集包括通过标签编码处理后的与肿瘤液体活检检测结果对应的数据样本。

本申请实施例中，训练模型所使用的待训练数据集为经过标签编码处理后的数据样本，并且是与肿瘤液体活检检测结果对应的数据样本；需要指出的是，本步骤中的待训练数据集包括本次全部模型训练过程中的数据样本，在本次全部模型训练过程中可以包括若干训练周期，每个训练周期对应的训练集均从该待训练数据集中筛选。

步骤S12、在当前训练周期中，基于预设回归算法利用所述待训练数据集对初始模型进行训练，得到训练后模型。

进一步的，在具体的训练周期中，当前训练周期对应有当前的待训练数据集，基于预设回归算法利用当前的待训练数据集对初始模型进行训练，可以得到当前训练周期对应的训练后模型。需要指出的是，在第一个训练周期中，当前的待训练数据集为步骤S11中的待训练数据集；下一个训练周期中的待训练数据集的数据样本是从步骤S11中的待训练数据集中筛选得到的；相应的，后续训练周期对应的待训练数据集均是从上一个训练周期的待训练数据集筛选得到。

步骤S13、基于预设交叉验证方式对所述待训练数据集中数据样本的可信度进行计算，以筛选得到可信度不大于预设可信度阈值的目标训练数据集。

本申请实施例中，当一个训练周期对应待训练数据集中数据样本的数量不小于预设数量阈值时，可以基于预设交叉验证方式（比如K折交叉验证）对该待训练数据集中数据样本的可信度进行计算，这样可以筛选出可信度不大于预设可信度阈值的目标训练数据集。可以理解的是，可信度较低的数据样本需要进行再次训练，以强化模型对该数据样本的识别精度，因此，可以从一个训练周期的待训练数据样本中筛选出可信度不大于预设可信度阈值的若干数据样本，得到目标训练数据集，以便下一个训练周期利用该目标训练数据集对初始模型进行训练。

步骤S14、将所述目标训练数据集确定为下一训练周期的待训练数据集，并跳转至基于预设回归算法利用所述待训练数据集对初始模型进行训练，得到训练后模型的步骤，以进行所述下一训练周期的训练过程。

本申请实施例中，从一个训练周期对应的待训练数据集中筛选出目标训练数据集后，可以将该目标训练数据集确定为下一个训练周期对应的待训练数据集，然后跳转至前述训练模型的相关步骤，以进行下一训练周期的训练过程。可以理解的是，本申请中每个训练周期都是利用当前训练周期对应的待训练数据集对初始模型进行训练，得到当前训练周期对应的训练后模型。

步骤S15、若所述待训练数据集中数据样本的数量小于预设数量阈值，则输出包含当前训练周期和此前所有训练周期对应的训练后模型的预设模型队列，以便利用所述预设模型队列中的模型以及所述预设可信度阈值对待预测数据集进行预测。

相应的，当一个训练周期对应的待训练数据集中数据样本的数量小于预设数量阈值时，可以判定本次模型训练过程达到输出条件，可以输出包含当前训练周期和此前所有训练周期对应的训练后模型的预设模型队列，输出的是包含若干训练后模型的预设模型队列；后续可以利用该预设模型队列中的训练后模型和预设可信度阈值组合成一个集成模型，利用该集成模型进行数据样本的预测过程。进一步的，利用预设数量阈值判断数据样本数量的过程也可以在当前训练周期的开始，具体的，在当前训练周期开始时，获取待训练数据集（上个训练周期中筛选得到的目标数据集），并判断该待训练数据集中数据样本的数量是否小于预设数量阈值，若是，则可以终止当前周期的训练，同时输出包含当前周期之前所有训练周期对应的训练后模型；相应的，若当前训练周期对应的待训练数据集中数据样本的数量不小于预设数量阈值，则可以继续当前训练周期的模型训练以及数据样本筛选的过程。

在一种具体的实施例中，如图3所示，在训练模型时，待训练数据集D_i可以是用-1和1编码（二分类）的数据集（-1表示阴性、1表示阳性），在第一个训练周期中，i=0。同时在训练模型之前，获取支持向量机（SVM，Support Vector Machine）训练算法A（预设回归算法）和相应的预测算法A'（预设预测算法）、训练集数量阈值n（预设数量阈值）、交叉验证折数k（预设交叉验证折数）以及可信度阈值h。进一步的，在一个训练周期开始时，可以用搜索算法对A的超参数进行优化，可以得到相应的参数集P_i。然后基于D_i、P_i和A训练回归模型M_i，并将训练后模型加入到预设的模型队列Q中。得到当前训练周期对应的训练后模型，再判断当前训练周期使用的待训练数据集中的数据样本的数量是否小于阈值n，若是，则可以直接输出包含多个基础模型（训练后模型）的队列Q，结束模型训练过程。相应的，若当前训练周期使用的待训练数据集中数据样本的数量不小于阈值n，则可以筛选出用于下一个训练周期的数据样本；具体的，在D_i中按比例分层抽样，得到k份数据，然后基于P_i和A利用其中k-1份数据训练新的模型，利用这个新的模型和预测算法A'预测剩余的那一份数据中各数据样本的得分，通过这样的方式可以交叉预测得到所有数据样本的得分。再通过预设可信度转化公式将数据样本的得分转化为可信度。令i=i+1，筛选出可信度不大于h的若干数据样本组成D_i；以利用该D_i进行下一训练周期的模型训练过程，依此类推，直至在一个训练周期中出现待训练数据集中数据样本的数量小于阈值n，则可以输出所有训练后模型构成的预设模型队列Q，结束模型训练过程。

进一步的，在另一种具体的实施例中，如图4所示，在利用上述步骤得到的模型队列Q中的模型对待预测数据集中数据样本进行预测的过程中，首先获取待预测数据集D_i（i初始为0）、预测算法A'，可信度阈值h，模型队列Q；在进行一个预测周期时，首先从Q中选取一个训练后模型M_i，基于该模型利用A'预测集D_i，得到各数据样本的得分S_i。需要指出的是，在数据样本预测的过程中，通过判断模型队列Q中是否存在未使用的训练后模型，即是否存在未被选取过的模型，若存在，则不为空，不存在则为空。若Q不为空，则通过预设可信度转化公式将各数据样本的得分转化为可信度，同时令i=i+1，并筛选出可信度不大于可信度阈值h的若干数据样本组成D_i，并且将可信度大于h的若干数据样本的得分加入预设得分集U。进一步的，在下一个预测周期中，基于通过前述步骤得到的D_i、从模型队列Q中选取的模型M_i，进行相应的数据样本预测操作；依此类推，直至Q中的所有模型均被使用过，将最后一次预测周期对应的得分S_i加入预设得分集，得到最终得分集U。然后将U转化为相应的数据样本标签，输出各个数据样本标签，结束本次数据集预测过程。

在一种具体的实施例中，使用一个含3235例肿瘤患者血清多肽质谱检测样本的训练集进行建模，训练集包含了2438例阴性非肿瘤样本和797例阳性肿瘤样本。

在执行训练前要确定可信度阈值，首先使用训练集样本、支持向量机训练模型和遗传算法优化超参数、建立模型，并用训练集样本对模型进行5折交叉验证；这样得到阴性组的验证准确率为89.38%，样本数为2438，其中2179个样本被分类为阴性，259个样本被分类为阳性。阳性组的验证准确率为80.05%，样本数为797，其中159个样本被分类为阴性，638个样本被分类为阳性。具体如下表一所示：

表一

进一步的，将支持向量机模型预测得分的绝对值作为可信度，并计算不同可信度区间内的样本的分类准确率，共分有11个区间。具体如下表二所示：

表二

从表中可以看到按可信度的大小，可以很好的筛选出训练准确高的样本集和准确率低的样本集。按80%的准确率来划分，则可信度阈值可以定为1，可信度不小于1的样本为高准确率样本，或者高可信度样本，可信度小于1的样本为低准确率样本，或低可信度样本。这样可以得到高可信度样本集数为2059，低可信度样本集数为1176，两者的数量如下表三：

表三

具体的，将（预设）可信度阈值1带入训练过程，在第一个训练周期中得到模型1，其预测结果和上述可信度阈值的确定过程相同。本实施例的训练样本（预设）数量阈值为1000，从表三可以看出经过第一个训练周期后低可信度的样本数量为1176，其大于阈值，故进入第二个训练周期。针对这1176例低可信度样本集，重新进行建模训练及超参数优化，建立模型2。模型2交叉验证计算得分并转化成可信度，得到低可信度的样本数量为853，其小于阈值，故不进入下一训练周期。模型1和模型2依次加入到一个队列中，该队列和可信度阈值1组合，形成基于可信度的集成模型。

得到集成模型后，可以进行数据集预测测试；在具体的测试过程中，用包含1619例样本的测试集（待预测数据集）来测试上述集成模型，检验模型的预测效果。测试集1619例样本含1217个阴性非肿瘤样本和402个阳性非肿瘤样本。为评估集成模型的预测性能，使用原模型（目前常用的训练方式得到的模型）和集成模型对测试集进行分类准确率的比较。原模型预测测试集阴性样本的准确率为88.91%，预测阳性样本的准确率为79.60%；集成模型预测测试集的阴性样本准确率为91.29%，预测阳性样本的准确率为82.09%。具体如下表四所示：

表四

进一步的，再对测试集中低可信度样本分别通过原模型和集成模型的预测准确率进行比较。原模型预测低可信度阴性样本准确率为78.06%。集成模型预测低可信度阴性样本准确率为84.76%。原模型预测低可信度阳性样本准确率为60.14%。集成模型预测低可信度阳性样本准确率为66.89%。具体如下表五所示：

表五

根据以上数据，可以看出：集成模型（通过本申请技术方案得到的模型）预测低可信度样本相比原模型预测低可信度样本的准确率有明显的提升，说明集成模型相比原模型在提高低可信度样本准确率上有明显效果。

由此可见，本申请可以利用前次模型的预测结果计算可信度，为后一次建模使用的训练集提供指导，并且在每次迭代中分别进行模型参数优化，并通过交叉验证防止其过拟合；在后续的迭代预测中，可以排除未出现在训练集中，特征表达和训练集中的数据接近但标签不同，可信度又很高的数据的干扰。同时本申请中的模型数量是根据训练集的数据量和预测结果的可信度自主确定的，有着良好的适用性和可靠性；与目前常用的模型训练方式相比，通过本申请技术方案得到的模型对于肿瘤患者的血清多肽质谱检测样本有着更高的样本分类准确率效果。

进一步的，本申请实施例还公开了一种电子设备，图5是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图5为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的肿瘤检测模型训练方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的肿瘤检测模型训练方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的肿瘤检测模型训练方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种肿瘤检测模型训练系统，其特征在于，包括：

模型输出模块，用于当所述待训练数据集中数据样本的数量小于所述预设数量阈值时，输出包含当前训练周期和此前所有训练周期对应的训练后模型的预设模型队列，以便利用所述预设模型队列中的模型以及所述预设可信度阈值对待预测数据集进行预测。

2.根据权利要求1所述的肿瘤检测模型训练系统，其特征在于，所述待训练数据集获取模块，包括：

3.根据权利要求2所述的肿瘤检测模型训练系统，其特征在于，所述模型训练模块，包括：

4.根据权利要求3所述的肿瘤检测模型训练系统，其特征在于，所述数据样本筛选模块，包括：

训练样本得分计算单元，用于利用所述样本预测模型和预设预测算法计算出所述N份数据中剩余的一份数据中各数据样本的训练样本得分，以得到与所述待训练数据集中各数据样本对应的若干训练样本得分；

5.根据权利要求1至4任一项所述的肿瘤检测模型训练系统，其特征在于，所述模型训练模块，包括：

6.根据权利要求1所述的肿瘤检测模型训练系统，其特征在于，还包括：

7.根据权利要求6所述的肿瘤检测模型训练系统，其特征在于，所述模型队列判断子模块，包括：

8.一种肿瘤检测模型训练方法，其特征在于，包括：

将所述目标训练数据集确定为下一训练周期的待训练数据集，并跳转至基于预设回归算法利用所述待训练数据集对初始模型进行训练，得到训练后模型的步骤，以进行所述下一训练周期的训练过程；

若所述待训练数据集中数据样本的数量小于预设数量阈值，则输出包含当前训练周期和此前所有训练周期对应的训练后模型的预设模型队列，以便利用所述预设模型队列中的模型以及所述预设可信度阈值对待预测数据集进行预测。

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求8所述的肿瘤检测模型训练方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求8所述的肿瘤检测模型训练方法。