CN111144473B

CN111144473B - 训练集构建方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111144473B
Application number: CN201911344538.3A
Authority: CN
Inventors: 邱亭林; 孙丰龙; 郑闪; 陈灿灿; 马建辉; 杜君; 郭蕾; 郭强
Original assignee: Cancer Hospital and Institute of CAMS and PUMC
Current assignee: Cancer Hospital and Institute of CAMS and PUMC
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2024-04-23
Anticipated expiration: 2039-12-23
Also published as: CN111144473A

Abstract

本发明涉及一种训练集构建方法、装置、电子设备及计算机可读存储介质，属于数据挖掘领域。该方法包括：构建多个训练集，每构建一个训练集时，计算与当前训练集对应的转移矩阵以及状态序列。后续判断是否满足迭代停止条件；在满足时从已构建的训练集中确定最优训练集；否则继续构建下一个训练集。在上述过程中，通过计算状态序列、转移矩阵，能够清晰地表征出当前所有收敛的神经网络模型对数字病理切片的识别准确率的差异性，然后基于当前得到的状态序列、转移矩阵进行蒙特卡洛重采样更新训练集时，更能拟合总训练集中样本数据的统计分布信息，因此，可以得到尽可能多地表征全部数字病理切片的特征的最优训练集。

Description

训练集构建方法、装置、电子设备及计算机可读存储介质

技术领域

本申请属于数据挖掘领域，具体涉及一种训练集构建方法、装置、电子设备及计算机可读存储介质。

背景技术

随着以卷积神经网络为代表的深度学习技术的不断成熟，数字病理图像识别已成为计算机视觉的一个重要研究方向。受当前的硬件条件和模型容量限制，数字病理图像不适合直接作为深度学习模型训练集。在实际操作过程中，一般将特定放大倍数的数字病理切片切割成固定尺寸的小图后，以一定数量的小图作为深度学习模型的训练集。其中，在对数字病理切片中有癌区域进行切割后得到的小图为阳性小图，在对数字病理切片中无癌的正常区域进行切割后得到的小图为阴性小图。

在现有技术中，当需要构建训练集时，一般从数字病理切片切割后得到的小图集合中随机选取10万阳性小图和30万阴性小图构建正负样本为1:3的训练集(阳性小图为正样本，阴性小图为负样本)，并以此训练集对深度学习分类模型进行训练。

在上述构建训练集的过程中，由于单次构建训练集存在随机性，且单次构建的训练集中的正负样本难以代表所有数字病理切片的有癌区域和正常区域，因此，使得深度学习分类模型难以充分学习到数字病理切片中的数据特征，从而导致模型性能较低。

发明内容

有鉴于此，本申请的目的在于提供一种训练集构建方法、装置、电子设备及计算机可读存储介质，使得最后得到的最优训练集能够尽可能多地表征全部数字病理切片的特征，以便后续可以通过该最优训练集训练得到高性能深度学习分类模型。

本申请的实施例是这样实现的：

第一方面，本申请实施例提供一种训练集构建方法，所述方法包括：依次构建多个训练集，每构建一个训练集时，计算与当前训练集对应的用于表征当前训练集与前一个训练集之间的差异度的转移矩阵以及用于表征总训练集中的各个样本相对于所述当前训练集所确定的概率分布情况的状态序列；判断是否满足迭代停止条件；在满足时，从已构建的训练集中确定出最优训练集；在不满足时，在所述当前训练集的基础上构建下一个训练集；其中，第一个训练集及第二个训练集从总训练集中随机采样得到，其余训练集基于前一个训练集的状态序列及转移矩阵采用蒙特卡洛采样法从所述总训练集中采样得到。在上述过程中，通过计算状态序列、转移矩阵，能够清晰地表征出当前所有收敛的神经网络模型对数字病理切片的识别准确率的差异性，然后基于当前得到的状态序列、转移矩阵进行蒙特卡洛重采样更新训练集时，更能拟合总训练集中样本数据的统计分布信息，因此，可以得到尽可能多地表征全部数字病理切片的特征的最优训练集。

结合第一方面实施例，在一种可能的实施方式中，所述计算与当前训练集对应的用于表征当前训练集与前一个训练集之间的差异度的转移矩阵以及用于表征总训练集中的各个样本相对于所述当前训练集所确定的概率分布情况的状态序列，包括：计算所述总训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值，所述已收敛的神经网络模型由所述当前训练集训练至收敛；将所述总训练集中的每个样本的梯度值离散化，得到所述总训练集中的样本对应于所述当前训练集的状态序列；根据所述总训练集中的样本相对于所述当前训练集的状态序列及所述总训练集中的样本相对于前一个训练集的状态序列，确定所述当前训练集的转移矩阵。

结合第一方面实施例，在一种可能的实施方式中，所述将所述总训练集中的每个样本的梯度值离散化，得到所述总训练集中的样本对应于所述当前训练集的状态序列，包括：将区间[0,1]等分为K个子区间，每个子区间为一个状态；确定出所述总训练集中的每个样本的梯度值所属的状态；得到所述总训练集中的样本对应于所述当前训练集的状态序列，状态序列用于描述所述总训练集中的每个样本的梯度值所属的状态；其中，当某个样本的梯度值属于k状态时，该样本的梯度值的大小属于子区间

结合第一方面实施例，在一种可能的实施方式中，所述根据所述总训练集中的样本相对于所述当前训练集的状态序列及所述总训练集中的样本相对于前一个训练集的状态序列，确定所述当前训练集的转移矩阵，包括：比较相对于所述当前训练集的状态序列与相对于前一个训练集的状态序列两者之间的差异度；根据所述差异度构建转移矩阵其中，a_ij(i,j∈{1,2,…,K})用于表征总训练集中的各个样本相对于所述前一个训练集的状态序列中第i个状态的样本集合与所述总训练集中的各个样本相对于当前训练集的状态序列的第j个状态的样本集合之间的转移概率。

结合第一方面实施例，在一种可能的实施方式中，所述从已构建的训练集中确定出最优训练集，包括：采用预设的性能评价指标评价每个收敛的神经网络模型，得到多个性能值；将所述性能值最大时对应的收敛的神经网络模型所对应的训练集确定为所述最优训练集。

结合第一方面实施例，在一种可能的实施方式中，所述计算所述总训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值，包括：针对每个样本，根据所述已收敛的神经网络模型的激活函数，计算该样本被预测为正样本的概率值、被预测为负样本的概率值；针对每个样本，根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述已收敛的神经网络模型中的反向传播过程中的梯度值。

结合第一方面实施例，在一种可能的实施方式中，所述针对每个样本，根据所述神经网络模型的激活函数，计算该样本被预测为正样本的概率值、被预测为负样本的概率值，包括：当所述激活函数为softmax函数时，基于公式计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值；其中，p₀、p₁分别表示样本被预测为负样本的概率值、被预测为正样本的概率值，所述x₀、x₁分别表示所述神经网络模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值，e表示自然常数；当所述激活函数为sigmoid函数时，基于公式/>计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值；其中，p₀、p₁分别表示样本被预测为负样本的概率值、被预测为正样本的概率值，所述x₁表示所述神经网络模型的输出层预测该样本为正样本的预测值，e表示自然常数。

结合第一方面实施例，在一种可能的实施方式中，所述迭代停止条件为：已构建的训练集的个数达到个数阈值N或者所述当前训练集的转移矩阵与前一个训练集的转移矩阵之间的差的绝对值小于差度阈值ε。

第二方面，本申请实施例提供一种训练集构建装置，所述装置包括：计算模块，用于依次构建多个训练集，每构建一个训练集时，计算与当前训练集对应的用于表征当前训练集与前一个训练集之间的差异度的转移矩阵以及用于表征总训练集中的各个样本相对于所述当前训练集所确定的概率分布情况的状态序列；判断模块，用于判断是否满足迭代停止条件；确定模块，用于在所述判断模块判断为是时，从已构建的训练集中确定出最优训练集；构建模块，用于在所述判断模块判断为否时，在所述当前训练集的基础上构建下一个训练集；其中，第一个训练集及第二个训练集从总训练集中随机采样得到，其余训练集基于前一个训练集的状态序列及转移矩阵采用蒙特卡洛采样法从所述总训练集中采样得到。

结合第二方面实施例，在一种可能的实施方式中，所述计算模块，用于计算所述总训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值，所述已收敛的神经网络模型由所述当前训练集训练至收敛；将所述总训练集中的每个样本的梯度值离散化，得到所述总训练集中的样本对应于所述当前训练集的状态序列；根据所述总训练集中的样本相对于所述当前训练集的状态序列及所述总训练集中的样本相对于前一个训练集的状态序列，确定所述当前训练集的转移矩阵。

结合第二方面实施例，在一种可能的实施方式中，所述计算模块，用于将区间[0,1]等分为K个子区间，每个子区间为一个状态；确定出所述总训练集中的每个样本的梯度值所属的状态；得到所述总训练集中的样本对应于所述当前训练集的状态序列，状态序列用于描述所述总训练集中的每个样本的梯度值所属的状态；其中，当某个样本的梯度值属于k状态时，该样本的梯度值的大小属于子区间

结合第二方面实施例，在一种可能的实施方式中，所述计算模块，用于比较相对于所述当前训练集的状态序列与相对于前一个训练集的状态序列两者之间的差异度；根据所述差异度构建转移矩阵其中，a_ij(i,j∈{1,2,…,K})用于表征总训练集中的各个样本相对于所述前一个训练集的状态序列中第i个状态的样本集合与所述总训练集中的各个样本相对于当前训练集的状态序列中第j个状态的样本集合之间的转移概率。

结合第二方面实施例，在一种可能的实施方式中，所述确定模块，用于采用预设的性能评价指标评价每个收敛的神经网络模型，得到多个性能值；将所述性能值最大时对应的收敛的神经网络模型所对应的训练集确定为所述最优训练集。

结合第二方面实施例，在一种可能的实施方式中，所述计算模块，用于针对每个样本，根据所述已收敛的神经网络模型的激活函数，计算该样本被预测为正样本的概率值、被预测为负样本的概率值；针对每个样本，根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述已收敛的神经网络模型中的反向传播过程中的梯度值。

结合第二方面实施例，在一种可能的实施方式中，所述计算模块，用于当所述激活函数为softmax函数时，基于公式计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值；其中，p₀、p₁分别表示样本被预测为负样本的概率值、被预测为正样本的概率值，所述x₀、x₁分别表示所述神经网络模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值，e表示自然常数；当所述激活函数为sigmoid函数时，基于公式/>计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值；其中，p₀、p₁分别表示样本被预测为负样本的概率值、被预测为正样本的概率值，所述x₁表示所述神经网络模型的输出层预测该样本为正样本的预测值，e表示自然常数。

结合第二方面实施例，在一种可能的实施方式中，所述迭代停止条件为：已构建的训练集的个数达到个数阈值N或者所述当前训练集的转移矩阵与前一个训练集的转移矩阵之间的差的绝对值小于差度阈值ε。

第三方面，本申请实施例还提供一种电子设备包括：存储器和处理器，所述存储器和所述处理器连接；所述存储器用于存储程序；所述处理器调用存储于所述存储器中的程序，以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。

第四方面，本申请实施例还提供一种非易失性计算机可读取存储介质(以下简称计算机可读存储介质)，其上存储有计算机程序，所述计算机程序被计算机运行时执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1示出了本申请实施例提供的一种训练集构建方法的流程图。

图2示出了本申请实施例提供的一种训练集构建装置的结构框图。

图3示出了本申请实施例提供的一种电子设备的结构示意图。

标号：100-电子设备；110-处理器；120-存储器；400-训练集构建装置；410-计算模块；420-判断模块；430-确定模块；440-构建模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再者，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

此外，针对现有技术中在构建训练集时所存在的缺陷的发现过程以及在下文中本申请实施例针对现有技术中的缺陷所提出的解决方案，都应该是申请人在本申请过程中对本申请做出的贡献。

为了解决现有技术中的缺陷，本申请实施例提供一种训练集构建方法、装置、电子设备及计算机可读存储介质。该技术可采用相应的软件、硬件以及软硬结合的方式实现。以下对本申请实施例进行详细介绍。

请参阅图1，本申请实施例提供一种应用于电子设备的训练集构建方法。所述方法包括：

步骤S110：依次构建多个训练集，每构建一个训练集时，计算与当前训练集对应的用于表征当前训练集与前一个训练集之间的差异度的转移矩阵以及用于表征总训练集中的各个样本相对于所述当前训练集所确定的概率分布情况的状态序列。

在本申请实施例中，电子设备先对数字病理切片进行随机切割，从而得到多个固定尺寸的小图组成正负样本总训练集。后续，电子设备从总训练集中选取多个样本，构建多个训练集。假设每次所构建的训练集的下标依次递增，那么第一次构建的训练集为T₁，第二次构建的训练集为T₂，……，第n次构建的训练集为T_n，n为正整数。

在每次构建训练集时，电子设备针对当前构建的当前训练集T_n进行计算，以获取到用于表征总训练集中的各个样本相对于T_n所确定的概率分布情况的状态序列π_n，以及获取到用于表征总训练集中的各个样本相对于前一个训练集T_n-1的状态序列中第i个状态的样本集合与总训练集中的各个样本相对于当前训练集T_n的状态序列中第j个状态的样本集合之间的转移概率的转移矩阵Q_n。

下面将针对获取到π_n以及Q_n的过程进行介绍。

每构建出一个T_n，电子设备都基于T_n对基础的神经网络模型进行训练，并将基础的神经网络模型训练至收敛状态。

在得到收敛的神经网络模型后，电子设备将总训练集输入到收敛的神经网络模型，从而计算总训练集中的每个样本在反向传播过程中的梯度值。

计算样本的梯度值的整体思路为：针对总训练集中的每个样本，先根据收敛的神经网络模型所采用的激活函数，分别计算该样本被预测为不同样本类别的预测概率，即计算该样本被预测为正样本的概率值以及计算该样本被预测为负样本的概率值；然后根据样本被预测为正样本的概率值、样本被预测为负样本的概率值确定该样本在收敛的神经网络模型中的反向传播过程中的梯度值。

具体的，神经网络模型的输出层对输入的样本的分类类别进行预测得到预测值，该预测值包括样本被预测为正样本的预测值x₁以及样本被预测为负样本的预测值x₀。后续，电子设备获取到样本的分类类别预测值后，可以将预测值输入激活函数进行归一化处理，得到样本分别被预测为正样本的概率值以及被预测为负样本的概率值，即得到预测概率值。

可选的，当激活函数为softmax函数时，电子设备可以基于公式计算得到样本被预测为正样本的概率值p₁、被预测为负样本的概率值p₀。其中，x₀、x₁分别表示神经网络模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值，e表示自然常数，label为0表示样本被预测为负样本，label为1表示样本被预测为正样本。

可选的，当激活函数为sigmoid函数时，电子设备可以基于公式计算得到该样本被预测为正样本的概率值p₁、被预测为负样本的概率值p₀。其中，x₁表示神经网络模型的输出层预测该样本为正样本的预测值，e表示自然常数，label为0表示样本被预测为负样本，label为1表示样本被预测为正样本。

在得到样本的预测概率值后，电子设备基于样本的预测概率值与该样本的真实标签计算损失函数。可选的，在本申请实施例中，可以用交叉熵来表示损失函数。该损失函数用于度量样本的预测类别和样本的真实标签间的差异性信息。其中，计算交叉熵的过程为现有技术，此处不再赘述。

在得到交叉熵后，可以得到公式：

softmax函数：sigmoid函数：/>

其中，p₀、p₁分别为神经网络模型输出层通过激活函数之后的样本预测概率，L_CE表示计算交叉熵的损失函数，符号表示关于模型的预测变量x₀、x₁对交叉熵L_CE求梯度。损失函数关于预测变量x₀、x₁下降最快的方向，损失函数越小，表示神经网络模型对训练集中样本分类预测越准确。

由于神经网络模型中参数学习的更新方向为负梯度方向，因此，可以确定样本的梯度与样本被预测为正样本的概率值、样本被预测为负样本的概率值之间的关系：

其中，g(样本)为样本的梯度值，当label为0时，p为该样本被预测为负样本的概率值，当label为1时，p为该样本被预测为正样本的概率值。

通过上述过程，即可以确定总训练集中的每个样本的梯度值。

在得到总训练集中的每个样本的梯度值后，电子设备将总训练集中的每个样本的梯度值离散化，得到总训练集中的样本相对于当前训练集T_n的状态序列π_n。

具体的，每个样本的梯度值为一个概率值，属于区间[0,1]之间。电子设备将区间[0,1]等分为K个子区间，每个子区间为一个状态，分别为1状态、2状态、……、K状态。后续，电子设备确定每个样本的梯度值属于哪个状态，其中，当某个样本的梯度值属于k状态时，该样本的梯度值的大小属于子区间电子设备统计出总训练集中的每个样本所属的状态后，得到用于描述总训练集相对于当前训练集T_n时，其所包括的每个样本的梯度值的概率分布情况的状态序列π_n。

在得到π_n后，电子设备根据π_n-1(总训练集中的各个样本相对于前一个训练集T_n-1的状态序列)及π_n，确定当前训练集T_n的转移矩阵Q_n。

具体的，电子设备可以通过比较π_n-1与π_n之间的差异度，确定当前训练集T_n的转移矩阵其中，a_ij(i,j∈{1,2,…,K})用于表征π_n-1中的第i个状态的样本集合与π_n中的第j个状态的样本集合之间的转移概率度。

值得指出的是，在第一次构建训练集T₁时，电子设备从总训练集中随机选择预设正负样本比例的正负样本构建成T₁。其中，预设正负样本比例可以是1:3(此处仅为示例)，此时，电子设备可以从总训练集中随机选择10万个正样本以及30万个负样本构建成T₁。

此时，根据上述计算过程，获取到与T₁对应的状态序列π₁。由于对于T₁而言不存在前一个训练集，因此，T₁的转移矩阵Q₁为0。

步骤S120：判断是否满足迭代停止条件。

其中，迭代停止条件可以为：已构建的训练集的个数n达到个数阈值N(一般设置为大于3的正整数)，即n≥N，或者当前训练集T_n的转移矩阵Q_n与前一个训练集T_n-1的转移矩阵Q_n-1之间的差的绝对值小于差度阈值ε，即||Q_n-Q_n-1||≤ε。

其中，N与ε的值预先设置，例如在一种实施方式中，N＝20，ε＝0.01。

步骤S130：在满足时，从已构建的训练集中确定出最优训练集。

其中，迭代指的是采用迭代的方式构建训练集。

因为总训练集中各样本都是单一的、不重复的，因此，n个收敛的神经网络模型可能会导致同一样本的梯度处于不同状态。通过比较不同训练集的转移矩阵，可以得到不同的收敛的神经网络模型对总训练集的数据特征的学习程度和表征数据特征的差异程度。若相近几次迭代过程中的转移矩阵相差不大，表明相近几次迭代过程得到的收敛的神经网络模型均已学习到总训练集中数字病理切片的重要数据特征，已达到单一神经网络模型学习和表征数据特征的稳定状态，可停止迭代。因此，当电子设备判断满足n≥N或者||Q_n-Q_n-1||≤ε中任意条件时，电子设备停止构建下一个训练集。

此时，针对当前已经构建出的n个训练集，分别存在n个收敛的神经网络模型。后续，电子设备采用预先确定的性能评价指标(例如AUC值(Area Under Curve))评价每个收敛的神经网络模型，得到n个性能值。在得到n个性能值后，电子设备将n个性能值中最大的性能值对应的神经网络模型所对应的训练集确定为最优训练集。

步骤S140：在不满足时，在所述当前训练集的基础上构建下一个训练集。

当电子设备判断同时不满足n≥N以及||Q_n-Q_n-1||≤ε两个条件时，电子设备在当前训练集T_n的基础上构建下一个训练集T_n+1。

可选的，在构建T_n+1时，依据当前训练集T_n的π_n及Q_n，采用蒙特卡洛采样法从总训练集中采样得到T_n+1。

在进行蒙特卡洛采样法进行采样时，π_n及Q_n起到提供采样标准的作用。其中，蒙特卡洛采样法的具体内容为现有技术，此处不再赘述。

上文提及到，第一个训练集T₁是从总训练集中随机采样得到，且其Q₁＝0，即第一个训练集T₁不能为构建下一个训练集T_n+1提供Q₁，使得不能通过蒙特卡洛采样法构建第二个训练集T₂。为了避免这个问题，值得指出的是，当判断构建出的T₁不满足迭代停止条件，需要构建第二个训练集T₂时，从总训练集中随机选择预设正负样本比例的正负样本构建成第二个训练集T₂。

值得指出的是，在第二次构建训练集T₂时，电子设备依旧从总训练集中随机选择预设正负样本比例的正负样本构建成T₂。此时，根据上述计算状态序列以及转移矩阵的过程，获取到与T₂对应的状态序列π₂，以及与T₂对应的转移矩阵Q₂(π₁与π₂之间的差异度)。

本申请实施例所提供的一种训练集构建方法，电子设备构建多个训练集。每构建一个训练集时，计算与当前训练集对应的用于表征当前训练集与前一个训练集之间的差异度的转移矩阵以及用于表征总训练集中的各个样本相对于当前训练集所确定的概率分布情况的状态序列。后续判断是否满足迭代停止条件；在满足时，从已构建的训练集中确定出最优训练集；在不满足时，在当前训练集的基础上继续构建下一个训练集。其中，第一个训练集及第二个训练集从总训练集中随机采样得到，其余训练集基于前一个训练集的状态序列及转移矩阵采用蒙特卡洛采样法从总训练集中采样得到。在上述过程中，通过计算状态序列、转移矩阵，能够清晰地表征出当前所有收敛的神经网络模型对数字病理切片的识别准确率的差异性，然后基于当前得到的状态序列、转移矩阵进行蒙特卡洛重采样更新训练集时，更能拟合总训练集中样本数据的统计分布信息，因此，可以得到尽可能多地表征全部数字病理切片的特征的最优训练集。

如图2所示，本申请实施例还提供一种训练集构建装置400，训练集构建装置400可以包括：计算模块410、判断模块420、确定模块430以及构建模块440。

计算模块410，用于依次构建多个训练集，每构建一个训练集时，计算与当前训练集对应的用于表征当前训练集与前一个训练集之间的差异度的转移矩阵以及用于表征总训练集中的各个样本相对于所述当前训练集所确定的概率分布情况的状态序列；

判断模块420，用于判断是否满足迭代停止条件；

确定模块430，用于在所述判断模块420判断为是时，从已构建的训练集中确定出最优训练集；

构建模块440，用于在所述判断模块420判断为否时，在所述当前训练集的基础上构建下一个训练集。

其中，第一个训练集及第二个训练集从总训练集中随机采样得到，其余训练集基于前一个训练集的状态序列及转移矩阵采用蒙特卡洛采样法从所述总训练集中采样得到。

在一种可能的实施方式中，所述计算模块410，用于计算所述总训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值，所述已收敛的神经网络模型由所述当前训练集训练至收敛；将所述总训练集中的每个样本的梯度值离散化，得到所述总训练集中的样本对应于所述当前训练集的状态序列；根据所述总训练集中的样本相对于所述当前训练集的状态序列及所述总训练集中的样本相对于前一个训练集的状态序列，确定所述当前训练集的转移矩阵。

在一种可能的实施方式中，所述计算模块410，用于将区间[0,1]等分为K个子区间，每个子区间为一个状态；确定出所述总训练集中的每个样本的梯度值所属的状态；得到所述总训练集中的样本对应于所述当前训练集的状态序列，状态序列用于描述所述总训练集中的每个样本的梯度值所属的状态；其中，当某个样本的梯度值属于k状态时，该样本的梯度值的大小属于子区间

在一种可能的实施方式中，所述计算模块410，用于比较相对于所述当前训练集的状态序列与相对于前一个训练集的状态序列两者之间的差异度；根据所述差异度构建转移矩阵其中，a_ij(i,j∈{1,2,…,K})用于表征总训练集中的各个样本相对于所述前一个训练集的状态序列中第i个状态的样本集合与所述总训练集中的各个样本相对于当前训练集的状态序列中第j个状态的样本集合之间的转移概率。

在一种可能的实施方式中，所述确定模块430，用于采用预设的性能评价指标评价每个收敛的神经网络模型，得到多个性能值；将所述性能值最大时对应的收敛的神经网络模型所对应的训练集确定为所述最优训练集。

在一种可能的实施方式中，所述计算模块410，用于针对每个样本，根据所述已收敛的神经网络模型的激活函数，计算该样本被预测为正样本的概率值、被预测为负样本的概率值；针对每个样本，根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述已收敛的神经网络模型中的反向传播过程中的梯度值。

在一种可能的实施方式中，所述计算模块410，用于当所述激活函数为softmax函数时，基于公式计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值；其中，p₀、p₁分别表示样本被预测为负样本的概率值、被预测为正样本的概率值，所述x₀、x₁分别表示所述神经网络模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值，e表示自然常数；当所述激活函数为sigmoid函数时，基于公式计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值；其中，p₀、p₁分别表示样本被预测为负样本的概率值、被预测为正样本的概率值，所述x₁表示所述神经网络模型的输出层预测该样本为正样本的预测值，e表示自然常数。

在一种可能的实施方式中，所述迭代停止条件为：已构建的训练集的个数达到个数阈值N或者所述当前训练集的转移矩阵与前一个训练集的转移矩阵之间的差的绝对值小于差度阈值ε。

本申请实施例所提供的训练集构建装置400，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

此外，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被计算机运行时，执行如上述的训练集构建方法所包含的步骤。

参照图3来描述用于实现本申请实施例的训练集构建方法、装置的电子设备100。

可选的，电子设备100，可以是，但不限于个人电脑(Personal computer，PC)、平板电脑、移动上网设备(Mobile Internet Device，MID)等设备。

其中，电子设备100可以包括：处理器110、存储器120。

应当注意，图3所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，电子设备100也可以具有其他组件和结构。

处理器110、存储器120以及其他可能出现于电子设备100的组件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，处理器110、存储器120以及其他可能出现的组件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

存储器120用于存储程序，例如存储有后文出现的训练集构建方法对应的程序或者后文出现的训练集构建装置。可选的，当存储器120内存储有训练集构建装置时，训练集构建装置包括至少一个可以以软件或固件(firmware)的形式存储于存储器120中的软件功能模块。

可选的，训练集构建装置所包括软件功能模块也可以固化在电子设备100的操作系统(operating system，OS)中。

处理器110用于执行存储器120中存储的可执行模块，例如训练集构建装置包括的软件功能模块或计算机程序。当处理器110在接收到执行指令后，可以执行计算机程序，例如执行：每构建一个训练集时，计算与当前训练集对应的用于表征当前训练集与前一个训练集之间的差异度的转移矩阵以及用于表征总训练集中的各个样本相对于所述当前训练集所确定的概率分布情况的状态序列；判断是否满足迭代停止条件；在满足时，从已构建的训练集中确定出最优训练集；在不满足时，在所述当前训练集的基础上构建下一个训练集；其中，第一个训练集及第二个训练集从总训练集中随机采样得到，其余训练集基于前一个训练集的状态序列及转移矩阵采用蒙特卡洛采样法从所述总训练集中采样得到。

当然，本申请任一实施例所揭示的方法都可以应用于处理器110中，或者由处理器110实现。

综上所述，本发明实施例提出的训练集构建方法、装置、电子设备及计算机可读存储介质，电子设备构建多个训练集。每构建一个训练集时，计算与当前训练集对应的用于表征当前训练集与前一个训练集之间的差异度的转移矩阵以及用于表征总训练集中的各个样本相对于当前训练集所确定的概率分布情况的状态序列。后续判断是否满足迭代停止条件；在满足时，从已构建的训练集中确定出最优训练集；在不满足时，在当前训练集的基础上继续构建下一个训练集。其中，第一个训练集及第二个训练集从总训练集中随机采样得到，其余训练集基于前一个训练集的状态序列及转移矩阵采用蒙特卡洛采样法从总训练集中采样得到。在上述过程中，通过计算状态序列、转移矩阵，能够清晰地表征出当前所有收敛的神经网络模型对数字病理切片的识别准确率的差异性，然后基于当前得到的状态序列、转移矩阵进行蒙特卡洛重采样更新训练集时，更能拟合总训练集中样本数据的统计分布信息，因此，可以得到尽可能多地表征全部数字病理切片的特征的最优训练集。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，笔记本电脑,服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种训练集构建方法，其特征在于，所述方法包括：

依次构建多个训练集，每构建一个训练集，计算与当前训练集对应的用于表征所述当前训练集与前一个训练集之间的差异度的转移矩阵以及用于表征总训练集中的各个样本相对于所述当前训练集所确定的概率分布情况的状态序列；

判断是否满足迭代停止条件；

在满足时，从已构建的训练集中确定出最优训练集；

在不满足时，在所述当前训练集的基础上构建下一个训练集；

其中，第一个训练集及第二个训练集从所述总训练集中随机采样得到，其余训练集基于前一个训练集的状态序列及所述前一个训练集的转移矩阵采用蒙特卡洛采样法从所述总训练集中采样得到；

构建训练集，包括：

电子设备先对数字病理切片进行随机切割，得到多个固定尺寸的小图组成正负样本总训练集，电子设备从总训练集中选取多个样本，构建多个训练集；

所述计算与当前训练集对应的用于表征所述当前训练集与前一个训练集之间的差异度的转移矩阵以及用于表征总训练集中的各个样本相对于所述当前训练集所确定的概率分布情况的状态序列，包括：

计算所述总训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值，所述已收敛的神经网络模型由所述当前训练集训练至收敛；

将所述总训练集中的每个样本的梯度值离散化，得到所述总训练集中的样本对应于所述当前训练集的状态序列；

根据所述总训练集中的样本相对于所述当前训练集的状态序列及所述总训练集中的样本相对于前一个训练集的状态序列，确定所述当前训练集的转移矩阵；

所述将所述总训练集中的每个样本的梯度值离散化，得到所述总训练集中的样本对应于所述当前训练集的状态序列，包括：

将区间[0,1]等分为K个子区间，每个子区间为一个状态；

确定出所述总训练集中的每个样本的梯度值所属的状态；

得到所述总训练集中的样本对应于所述当前训练集的状态序列，状态序列用于描述所述总训练集中的每个样本的梯度值所属的状态；

其中，当某个样本的梯度值属于k状态时，该样本的梯度值的大小属于子区间，1≤k≤K；

所述根据所述总训练集中的样本相对于所述当前训练集的状态序列及所述总训练集中的样本相对于前一个训练集的状态序列，确定所述当前训练集的转移矩阵，包括：

比较相对于所述当前训练集的状态序列与相对于前一个训练集的状态序列两者之间的差异度；

根据所述差异度构建转移矩阵，其中，/>(/>)用于表征总训练集中的各个样本相对于所述前一个训练集的状态序列中第i个状态的样本集合与所述总训练集中的各个样本相对于当前训练集的状态序列中第j个状态的样本集合之间的转移概率；

所述计算所述总训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值，包括：

针对每个样本，根据所述已收敛的神经网络模型的激活函数，计算该样本被预测为正样本的概率值、被预测为负样本的概率值；

针对每个样本，根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述已收敛的神经网络模型中的反向传播过程中的梯度值；

所述针对每个样本，根据所述神经网络模型的激活函数，计算该样本被预测为正样本的概率值、被预测为负样本的概率值，包括：

当所述激活函数为softmax函数时，基于公式计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值；其中，p₀、p₁分别表示样本被预测为负样本的概率值、被预测为正样本的概率值，所述x₀、x₁分别表示所述神经网络模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值，e表示自然常数，label为0表示样本被预测为负样本，label为1表示样本被预测为正样本；

当所述激活函数为sigmoid函数时，基于公式计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值；其中，p₀、p₁分别表示样本被预测为负样本的概率值、被预测为正样本的概率值，所述x₁表示所述神经网络模型的输出层预测该样本为正样本的预测值，e表示自然常数。

2.根据权利要求1所述的方法，其特征在于，所述从已构建的训练集中确定出最优训练集，包括：

采用预设的性能评价指标评价每个收敛的神经网络模型，得到多个性能值；

将所述性能值最大时对应的收敛的神经网络模型所对应的训练集确定为所述最优训练集。

3.根据权利要求1所述的方法，其特征在于，所述迭代停止条件为：已构建的训练集的个数达到个数阈值N或者所述当前训练集的转移矩阵与前一个训练集的转移矩阵之间的差的绝对值小于差度阈值ε。

4.一种训练集构建装置，其特征在于，包括：

计算模块，用于依次构建多个训练集，每构建一个训练集时，计算与当前训练集对应的用于表征所述当前训练集与前一个训练集之间的差异度的转移矩阵以及用于表征总训练集中的各个样本相对于所述当前训练集所确定的概率分布情况的状态序列；

判断模块，用于判断是否满足迭代停止条件；

确定模块，用于在所述判断模块判断为是时，从已构建的训练集中确定出最优训练集；

构建模块，用于在所述判断模块判断为否时，在所述当前训练集的基础上构建下一个训练集；

其中，第一个训练集及第二个训练集从所述总训练集中随机采样得到，其余训练集基于前一个训练集的状态序列及所述前一个训练集转移矩阵采用蒙特卡洛采样法从所述总训练集中采样得到；

构建训练集，包括：

所述计算模块，用于计算所述总训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值，所述已收敛的神经网络模型由所述当前训练集训练至收敛；将所述总训练集中的每个样本的梯度值离散化，得到所述总训练集中的样本对应于所述当前训练集的状态序列；根据所述总训练集中的样本相对于所述当前训练集的状态序列及所述总训练集中的样本相对于前一个训练集的状态序列，确定所述当前训练集的转移矩阵；

所述计算模块，用于将区间[0,1]等分为K个子区间，每个子区间为一个状态；确定出所述总训练集中的每个样本的梯度值所属的状态；得到所述总训练集中的样本对应于所述当前训练集的状态序列，状态序列用于描述所述总训练集中的每个样本的梯度值所属的状态；其中，当某个样本的梯度值属于k状态时，该样本的梯度值的大小属于子区间，1≤k≤K；

所述计算模块，用于比较相对于所述当前训练集的状态序列与相对于前一个训练集的状态序列两者之间的差异度；根据所述差异度构建转移矩阵，其中，/>()用于表征总训练集中的各个样本相对于所述前一个训练集的状态序列中第i个状态的样本集合与所述总训练集中的各个样本相对于当前训练集的状态序列中第j个状态的样本集合之间的转移概率；

所述计算模块，用于针对每个样本，根据所述已收敛的神经网络模型的激活函数，计算该样本被预测为正样本的概率值、被预测为负样本的概率值；针对每个样本，根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述已收敛的神经网络模型中的反向传播过程中的梯度值；

所述计算模块（410），用于当所述激活函数为softmax函数时，基于公式计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值；其中，p₀、p₁分别表示样本被预测为负样本的概率值、被预测为正样本的概率值，所述x₀、x₁分别表示所述神经网络模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值，e表示自然常数label为0表示样本被预测为负样本，label为1表示样本被预测为正样本；当所述激活函数为sigmoid函数时，基于公式/>计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值；其中，p₀、p₁分别表示样本被预测为负样本的概率值、被预测为正样本的概率值，所述x₁表示所述神经网络模型的输出层预测该样本为正样本的预测值，e表示自然常数。

5.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器连接；

所述存储器用于存储程序；

所述处理器调用存储于所述存储器中的程序，以执行如权利要求1-3中任一项所述的方法。

6.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被计算机运行时执行如权利要求1-3中任一项所述的方法。