CN113240021B

CN113240021B - 一种筛选目标样本的方法、装置、设备及存储介质

Info

Publication number: CN113240021B
Application number: CN202110545898.0A
Authority: CN
Inventors: 唐雯; 陈宽; 王少康
Original assignee: Infervision Medical Technology Co Ltd
Current assignee: Infervision Medical Technology Co Ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-12-10
Anticipated expiration: 2041-05-19
Also published as: CN113240021A

Abstract

本申请提供了一种筛选目标样本的方法、装置、设备及存储介质，该方法包括：利用历史医学图像，对初始筛选模型进行训练，得到训练好的样本筛选模型；针对待筛选的每一个训练样本，将该训练样本输入样本筛选模型中，分别得到四个解码器的解码结果；基于四个解码器的解码结果，计算该训练样本对应的模型识别难度值；利用每一训练样本对应的模型识别难度值，从所有的训练样本中，筛选出模型识别难度值高于预先设置的难度阈值的训练样本作为目标样本。通过上述方式，本申请可以从无标记的医学图像样本中，筛选出病灶分割模型最难识别的目标样本，将筛选出的目标样本作为需要标记的训练样本，从而提高对病灶分割模型的训练准确度。

Description

一种筛选目标样本的方法、装置、设备及存储介质

技术领域

本申请涉及医学图像处理技术领域，具体而言，涉及一种筛选目标样本的方法、装置、设备及存储介质。

背景技术

在处理医学图像数据时，常常需要使用病灶分割模型，对医学图像数据中病灶所在的图像区域进行识别，其中，病灶是指机体上发生异常病变的组织部分，病灶分割模型的训练准确度将直接影响病灶分割模型对病灶所在的图像区域的识别准确度，因此，如何选择病灶分割模型的训练样本，提高病灶分割模型的训练准确度，成为当前医学图像处理技术领域所迫切解决的技术问题。

目前的方法，在选择训练样本时，医生一般采用随机采样的方式，从无标记的训练样本中，随机抽取少量的无标记训练样本作为目标样本，并对抽取出的目标样本中包含的病灶进行标记，例如，将目标样本中病灶所在图像区域标记为1，非病灶所在的图像区域标记为0；在标记完目标样本之后，将标记的目标样本和其他无标记的训练样本，同时输入到病灶分割模型中，对病灶分割模型进行训练。由于标记的目标样本是随机抽取的，因此，无法保证抽取出的目标样本是否具有代表性，从而，造成对病灶分割模型的训练准确度的不确定程度较高，无法对病灶分割模型的训练效果进行预判，导致如此训练出的病灶分割模型的输出结果较为不准确。

发明内容

有鉴于此，本申请的目的在于提供一种筛选目标样本的方法、装置、设备及存储介质，以从无标记的医学图像样本中，筛选出病灶分割模型最难识别的目标样本，将筛选出的目标样本作为需要标记的训练样本，有效地提高对病灶分割模型的训练准确度。

第一方面，本申请实施例提供了一种筛选目标样本的方法，所述目标样本是训练样本中影响病灶分割模型训练准确程度的训练样本，所述病灶分割模型用于识别所述训练样本中病灶所在的图像区域，所述方法包括：

利用历史医学图像，对初始筛选模型进行训练，得到训练好的样本筛选模型，其中，所述初始筛选模型中包括编码器和至少四个解码器，所述四个解码器中的第一解码器和第二解码器用于提取所述历史医学图像的像素点特征，所述四个解码器中的第三解码器和第四解码器用于提取所述历史医学图像的整体图像特征；

针对待筛选的每一所述训练样本，将该训练样本输入所述样本筛选模型中，分别得到所述四个解码器的解码结果；

基于所述四个解码器的解码结果，计算该训练样本对应的模型识别难度值；

利用每一所述训练样本对应的模型识别难度值，从所有的所述训练样本中，筛选出所述模型识别难度值高于预先设置的难度阈值的训练样本作为所述目标样本。

可选的，所述利用历史医学图像，对初始筛选模型进行训练，得到训练好的样本筛选模型，包括：

利用所述历史医学图像中带有病灶标签的历史医学图像，对所述初始筛选模型进行第一阶段训练，得到第一筛选模型，其中，所述病灶标签包括：分割标签和分类标签，所述分割标签用于对每一所述历史医学图像中病灶所在图像区域的像素点进行标记，所述分类标签用于对每一所述历史医学图像中包含的病灶的类型数量进行标记；

利用所述历史医学图像中没有所述病灶标签的历史医学图像，以及第一预设数量阈值的所述带有病灶标签的历史医学图像，对所述第一筛选模型进行第二阶段训练，得到所述样本筛选模型。

可选的，所述利用所述历史医学图像中带有病灶标签的历史医学图像，对所述初始筛选模型进行第一阶段训练，包括：

利用所述历史医学图像中带有所述分割标签的历史医学图像，对所述初始筛选模型中的所述第一解码器和所述第二解码器，进行第一阶段训练，确定第一模型损失值；

利用所述历史医学图像中带有所述分类标签的历史医学图像，对所述初始筛选模型中的所述第三解码器和所述第四解码器，进行第一阶段训练，确定第二模型损失值；

基于所述第一模型损失值和所述第二模型损失值，对所述初始筛选模型进行重复训练，直至所述初始筛选模型达到收敛，将收敛后的初始筛选模型作为所述第一筛选模型。

可选的，所述对所述初始筛选模型中的所述第一解码器和所述第二解码器，进行第一阶段训练，确定第一模型损失值，包括：

将第一历史医学图像输入所述编码器中，得到所述第一历史医学图像的编码结果，其中，所述第一历史医学图像是所述历史医学图像中带有所述分割标签的历史医学图像；

将所述第一历史医学图像的编码结果输入所述第一解码器，得到所述第一历史医学图像的第一解码结果；

将所述第一历史医学图像的编码结果输入所述第二解码器，得到所述第一历史医学图像的第二解码结果；

利用预先设置的分割损失函数，计算所述第一解码结果与所述第一历史医学图像之间的第一分割损失值；

利用所述分割损失函数，计算所述第二解码结果与所述第一历史医学图像之间的第二分割损失值；

确定所述第一分割损失值和所述第二分割损失值的和值为所述第一模型损失值。

可选的，所述对所述初始筛选模型中的所述第三解码器和所述第四解码器，进行第一阶段训练，确定第二模型损失值，包括：

将第二历史医学图像输入所述编码器中，得到所述第二历史医学图像的编码结果，其中，所述第二历史医学图像是所述历史医学图像中带有所述分类标签的历史医学图像；

将所述第二历史医学图像的编码结果输入所述第三解码器，得到所述第二历史医学图像的第三解码结果；

将所述第二历史医学图像的编码结果输入所述第四解码器，得到所述第二历史医学图像的第四解码结果；

利用所述分类标签中包含的病灶的类型数量，分别对所述第三解码结果和所述第四解码结果进行全局平均池化处理，得到所述第三解码结果对应的第一分类预测结果和所述第四解码结果对应的第二分类预测结果；

利用预先设置的分类损失函数，计算所述第一分类预测结果与所述第二历史医学图像之间的第一分类损失值；

利用所述分类损失函数，计算所述第二分类预测结果与所述第二历史医学图像之间的第二分类损失值；

确定所述第一分类损失值和所述第二分类损失值的和值为所述第二模型损失值。

可选的，所述利用所述历史医学图像中没有所述病灶标签的历史医学图像，以及第一预设数量阈值的所述带有病灶标签的历史医学图像，对所述第一筛选模型进行第二阶段训练，包括：

在所述编码器的参数保持不变的情况下，将第三历史医学图像输入所述编码器中，得到所述第三历史医学图像的第一编码结果，其中，所述第三历史医学图像是没有所述病灶标签的历史医学图像或者带有所述病灶标签的历史医学图像；

将所述第一编码结果分别输入所述四个解码器中，对所述四个解码器进行第二阶段训练，确定第三模型损失值；

基于所述第三模型损失值，对所述四个解码器进行重复训练，直至所述四个解码器达到收敛；

在所述四个解码器达到收敛的情况下，保持所述四个解码器的参数不变，将所述第三历史医学图像输入所述编码器中，得到所述第三历史医学图像的第二编码结果；

将所述第二编码结果分别输入所述四个解码器中，利用所述四个解码器的解码结果，确定第四模型损失值；

基于所述第四模型损失值，对所述编码器进行重复训练，直至所述编码器达到收敛，将达到收敛的编码器和达到收敛的所述四个解码器作为所述样本筛选模型。

可选的，所述将所述第一编码结果分别输入所述四个解码器中，对所述四个解码器进行第二阶段训练，确定第三模型损失值，包括：

将所述第一编码结果输入所述第一解码器，得到所述第三历史医学图像的第五解码结果；

将所述第一编码结果输入所述第二解码器，得到所述第三历史医学图像的第六解码结果；

将所述第一编码结果输入所述第三解码器，得到所述第三历史医学图像的第七解码结果；

将所述第一编码结果输入所述第四解码器，得到所述第三历史医学图像的第八解码结果；

利用预先设置的非相似损失函数，计算所述第五解码结果和所述第六解码结果的第一差异损失值；

利用所述非相似损失函数，计算所述第七解码结果和所述第八解码结果的第二差异损失值；

确定所述第一差异损失值和所述第二差异损失值的和值为所述第三模型损失值。

可选的，所述将所述第二编码结果分别输入所述四个解码器中，利用所述四个解码器的解码结果，确定第四模型损失值，包括：

将所述第二编码结果输入所述第一解码器，得到所述第三历史医学图像的第九解码结果；

将所述第二编码结果输入所述第二解码器，得到所述第三历史医学图像的第十解码结果；

将所述第二编码结果输入所述第三解码器，得到所述第三历史医学图像的第十一解码结果；

将所述第二编码结果输入所述第四解码器，得到所述第三历史医学图像的第十二解码结果；

利用预先设置的相似损失函数，计算所述第九解码结果和所述第十解码结果的第一相似损失值；

利用所述相似损失函数，计算所述第十一解码结果和所述第十二解码结果的第二相似损失值；

确定所述第一相似损失值和所述第二相似损失值的和值为所述第四模型损失值。

可选的，所述将该训练样本输入所述样本筛选模型中，分别得到所述四个解码器的解码结果，包括：

将该训练样本输入所述编码器中，得到该训练样本的编码结果；

将所述编码结果分别输入所述四个解码器中，得到所述四个解码器的解码结果。

可选的，所述基于所述四个解码器的解码结果，计算该训练样本对应的模型识别难度值，包括：

计算第一解码器的解码结果和第二解码器的解码结果的差值，将计算得到的差值的绝对值作为第一计算结果；

计算第三解码器的解码结果和第四解码器的解码结果的差值，将计算得到的差值的绝对值作为第二计算结果；

计算所述第一计算结果和所述第二计算结果的乘积值，将所述乘积值的平均值作为所述模型识别难度值。

第二方面，本申请实施例提供了一种筛选目标样本的装置，所述目标样本是训练样本中影响病灶分割模型训练准确程度的训练样本，所述病灶分割模型用于识别所述训练样本中病灶所在的图像区域，所述装置包括：

模型训练模块，用于利用历史医学图像，对初始筛选模型进行训练，得到训练好的样本筛选模型，其中，所述初始筛选模型中包括编码器和至少四个解码器，所述四个解码器中的第一解码器和第二解码器用于提取所述历史医学图像的像素点特征，所述四个解码器中的第三解码器和第四解码器用于提取所述历史医学图像的整体图像特征；

模型输入模块，用于针对待筛选的每一所述训练样本，将该训练样本输入所述样本筛选模型中，分别得到所述四个解码器的解码结果；

指标计算模块，用于基于所述四个解码器的解码结果，计算该训练样本对应的模型识别难度值；

样本筛选模块，用于利用每一所述训练样本对应的模型识别难度值，从所有的所述训练样本中，筛选出所述模型识别难度值高于预先设置的难度阈值的训练样本作为所述目标样本。

可选的，所述模型训练模块，包括：

第一训练模块，用于利用所述历史医学图像中带有病灶标签的历史医学图像，对所述初始筛选模型进行第一阶段训练，得到第一筛选模型，其中，所述病灶标签包括：分割标签和分类标签，所述分割标签用于对每一所述历史医学图像中病灶所在图像区域的像素点进行标记，所述分类标签用于对每一所述历史医学图像中包含的病灶的类型数量进行标记；

第二训练模块，用于利用所述历史医学图像中没有所述病灶标签的历史医学图像，以及第一预设数量阈值的所述带有病灶标签的历史医学图像，对所述第一筛选模型进行第二阶段训练，得到所述样本筛选模型。

可选的，所述第一训练模块，包括：

分割训练模块，用于利用所述历史医学图像中带有所述分割标签的历史医学图像，对所述初始筛选模型中的所述第一解码器和所述第二解码器，进行第一阶段训练，确定第一模型损失值；

分类训练模块，用于利用所述历史医学图像中带有所述分类标签的历史医学图像，对所述初始筛选模型中的所述第三解码器和所述第四解码器，进行第一阶段训练，确定第二模型损失值；

迭代训练模块，用于基于所述第一模型损失值和所述第二模型损失值，对所述初始筛选模型进行重复训练，直至所述初始筛选模型达到收敛，将收敛后的初始筛选模型作为所述第一筛选模型。

可选的，所述分割训练模块，还用于：

可选的，所述分类训练模块，还用于：

可选的，所述第二训练模块，包括：

解码器训练模块，用于：

编码器训练模块，用于：

可选的，所述解码器训练模块，还用于：

可选的，所述编码器训练模块，还用于：

可选的，所述模型输入模块，还用于：

可选的，所述指标计算模块，还用于：

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的筛选目标样本的方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述的筛选目标样本的方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请先利用历史医学图像，对初始筛选模型进行训练，得到训练好的样本筛选模型，其中，所述初始筛选模型中包括编码器和至少四个解码器，所述四个解码器中的第一解码器和第二解码器用于提取所述历史医学图像的像素点特征，所述四个解码器中的第三解码器和第四解码器用于提取所述历史医学图像的整体图像特征；然后，针对待筛选的每一所述训练样本，将该训练样本输入所述样本筛选模型中，分别得到所述四个解码器的解码结果；再基于所述四个解码器的解码结果，计算该训练样本对应的模型识别难度值；最终，利用每一所述训练样本对应的模型识别难度值，从所有的所述训练样本中，筛选出所述模型识别难度值高于预先设置的难度阈值的训练样本作为所述目标样本。通过这样的方式，本申请可以从无标记的医学图像样本中，筛选出病灶分割模型最难识别的目标样本，将筛选出的目标样本作为需要标记的训练样本，有效地提高对病灶分割模型的训练准确度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种筛选目标样本的方法的流程示意图；

图2示出了本申请实施例所提供的一种样本筛选模型的结构示意图；

图3示出了本申请实施例提供的一种计算训练样本的模型识别难度值的方法流程示意图；

图4示出了本申请实施例所提供的一种训练初始筛选模型的方法流程示意图；

图5示出了本申请实施例所提供的一种对初始筛选模型进行第一阶段训练的方法流程示意图；

图6示出了本申请实施例所提供的一种对第一筛选模型进行第二阶段训练的方法流程示意图；

图7示出了本申请实施例所提供的一种筛选目标样本的装置的结构示意图；

图8为本申请实施例提供的一种计算机设备800的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种筛选目标样本的方法、装置、设备及存储介质，下面通过实施例进行描述。

如图1所示，图1示出了本申请实施例所提供的一种筛选目标样本的方法的流程示意图，其中，所述目标样本是训练样本中影响病灶分割模型训练准确程度的训练样本，所述病灶分割模型用于识别所述训练样本中病灶所在的图像区域，该方法包括步骤S101-S104；具体的：

S101，利用历史医学图像，对初始筛选模型进行训练，得到训练好的样本筛选模型。

具体的，其中，所述初始筛选模型中包括编码器和至少四个解码器，所述四个解码器中的第一解码器和第二解码器用于提取所述历史医学图像的像素点特征，所述四个解码器中的第三解码器和第四解码器用于提取所述历史医学图像的整体图像特征。

本申请实施例中，在对初始筛选模型进行训练时，训练的目的是：训练初始筛选模型具备从训练样本中，筛选出影响病灶分割模型训练准确程度的目标样本的学习能力；因此，在训练结束之后，得到的样本筛选模型与初始筛选模型的结构相同，样本筛选模型仍然包括一个编码器和至少四个解码器。

需要说明的是，在本申请实施例中，编码器用于对历史医学图像进行下采样处理，通过编码的方式，对历史医学图像进行压缩，从历史医学图像中初步提取出图像特征；四个解码器中的第一解码器和第二解码器的作用相同，都是用于在编码结果的基础上，对编码结果进行上采样处理，通过解码的方式，从像素点的角度，提取每一个历史医学图像中的像素点特征；四个解码器中的第三解码器和第四解码器的作用相同，都是用于在编码结果的基础上，对编码结果进行上采样处理，通过解码的方式，从全局图像的角度，提取每一个历史医学图像的整体图像特征；其中，使用两个解码器执行相同的特征提取操作是相当于通过互相对照的方式，减少因一个解码器导致的特征提取存在差异性，解码结果准确度较低的问题。因此，通过上述分析可知，为了提高样本筛选模型对目标样本的筛选准确度，在本申请实施例中，初始筛选模型和样本筛选模型中至少包括四个解码器，在此基础上，可以继续增加解码器的数量，对于解码器的可增加数量，本申请并不进行具体限定。

示例性的说明，作为一可选实施例，以样本筛选模型中包括四个解码器为例，图2示出了本申请实施例所提供的一种样本筛选模型的结构示意图，如图2所示，样本筛选模型可以包括：编码器200、第一解码器201、第二解码器202、第三解码器203和第四解码器204。

S102，针对待筛选的每一所述训练样本，将该训练样本输入所述样本筛选模型中，分别得到所述四个解码器的解码结果。

本申请实施例中，样本筛选模型中包括训练好的编码器和训练好的四个解码器，针对待筛选的每一个训练样本，本申请实施例是按照以下步骤，来执行步骤S102，具体的：

1、将该训练样本输入所述编码器中，得到该训练样本的编码结果；

2、将所述编码结果分别输入所述四个解码器中，得到所述四个解码器的解码结果。

示例性的说明，结合图2所示的样本筛选模型示意图，以训练样本A为例，将训练样本A输入编码器200中，得到训练样本A的编码结果a；将编码结果a输入第一解码器201中，得到第一解码器201的解码结果r1；将编码结果a输入第二解码器202中，得到第二解码器202的解码结果r2；将编码结果a输入第三解码器203中，得到第三解码器203的解码结果r3；将编码结果a输入第四解码器204中，得到第四解码器204的解码结果r4。

S103，基于所述四个解码器的解码结果，计算该训练样本对应的模型识别难度值。

具体的，图3示出了本申请实施例提供的一种计算训练样本的模型识别难度值的方法流程示意图，该方法包括步骤S301-S303；具体的：

S301，计算第一解码器的解码结果和第二解码器的解码结果的差值，将计算得到的差值的绝对值作为第一计算结果。

具体的，结合步骤S101中关于第一解码器和第二解码器的作用部分的解释，由于第一解码器和第二解码器用于提取所述历史医学图像的像素点特征，因此，第一解码器的解码结果和第二解码器的解码结果都是以像素点为计量单位进行解码的，在计算第一解码器的解码结果和第二解码器的解码结果的差值时，只需要针对同一像素点，计算该像素点对应的第一解码器的解码结果与该像素点对应的第二解码器的解码结果之间的差值即可。

示例性的说明，以训练样本A为例，可以按照以下公式计算训练样本A对应的所述第一计算结果：

其中，i是训练样本A中的第i个像素点，n是训练样本A中的像素点总数；

r1_i是训练样本A中的第i个像素点对应的第一解码器的解码结果；

r2_i是训练样本A中的第i个像素点对应的第二解码器的解码结果；

X₁是训练样本A对应的所述第一计算结果。

S302，计算第三解码器的解码结果和第四解码器的解码结果的差值，将计算得到的差值的绝对值作为第二计算结果。

具体的，结合步骤S101中关于第三解码器和第四解码器的作用部分的解释，由于第三解码器和第四解码器用于提取所述历史医学图像的整体图像特征，因此，第三解码器的解码结果和第四解码器的解码结果都是以整体图像为计量单位进行解码的，在计算第三解码器的解码结果和第四解码器的解码结果的差值时，只需直接进行减法运算即可。

示例性的说明，以训练样本A为例，可以按照以下公式计算训练样本A对应的所述第二计算结果：

X₂＝|r₃-r₄|；

其中，r₃是训练样本A对应的第三解码器的解码结果；

r₄是训练样本A对应的第四解码器的解码结果；

X₂是训练样本A对应的所述第二计算结果。

S303，计算所述第一计算结果和所述第二计算结果的乘积值，将所述乘积值的平均值作为所述模型识别难度值。

示例性的说明，结合上述步骤S301-S302；仍以训练样本A为例，可以按照以下公式，计算训练样本A的模型识别难度值X_A：

X_A＝mean(X₁×X₂)；

其中，X₁是训练样本A对应的所述第一计算结果；

X₂是训练样本A对应的所述第二计算结果；

mean()是平均值计算函数，用于计算X₁和X₂的乘积值的平均值。

具体的，在本申请实施例中，结合步骤S301和步骤S302中给出的第一计算结果X₁和第二计算结果X₂的具体计算公式可知，以训练样本A为例，在计算训练样本A的模型识别难度值时，相当于将代表整体图像特征的第二计算结果X₂作为权重，针对训练样本A中的每一个像素点，计算每一个像素点的识别难度值，再对每一个像素点的识别难度值进行加权平均处理，将加权平均处理的结果作为训练样本A的模型识别难度值X_A。通过这样的方式，可以在保留像素点特征的基础上，结合全局图像特征，使得计算出的模型识别难度值更加准确，以便更加客观的预测病灶分割模型对每一个训练样本的识别难度，以从所有的训练样本中，筛选出更具代表性的、病灶分割模型较难识别的目标样本。

S104，利用每一所述训练样本对应的模型识别难度值，从所有的所述训练样本中，筛选出所述模型识别难度值高于预先设置的难度阈值的训练样本作为所述目标样本。

在本申请实施例中，针对待筛选的每一个训练样本，计算出的模型识别难度值用于表征病灶分割模型对该训练样本中病灶所在的图像区域进行病灶识别和病灶分割的难度；计算出的模型识别难度值越大，则表征病灶分割模型越难确定该训练样本中是否包含病灶，或者越难确定该训练样本中属于病灶的具体图像区域。

具体的，计算出的模型识别难度值可以具体表征为病灶分割模型对该训练样本进行病灶识别失败的概率值，例如，若计算出训练样本A的模型识别难度值为0.9，则表征如果不对训练样本A进行标记，则病灶分割模型有90％的概率无法识别训练样本A。

需要说明的是，所述难度阈值的具体取值可以根据用户对病灶分割模型的训练准确度的实际期望，来由用户自行设定，对于难度阈值的具体取值，本申请并不进行具体限定。

示例性的说明，若用户设定的难度阈值为0.2，则表征用户对病灶分割模型的训练准确度的期望为：训练准确度高于80％；表示需要从训练样本中，筛选出病灶分割模型识别失败概率高于20％的目标样本，对目标样本进行标记，利用标记后的目标样本对病灶分割模型进行训练时，有利于使病灶分割模型的训练准确度达到用户期望的80％，从而，在提高病灶分割模型的训练准确度的基础上，还有利于用户对病灶分割模型的实际训练准确度进行预判，降低病灶分割模型对训练样本识别的不确定程度。

在一个可行的实施方案中，图4示出了本申请实施例所提供的一种训练初始筛选模型的方法流程示意图，如图4所示，在执行步骤S101时，该方法还包括S401-S402；具体的：

S401，利用所述历史医学图像中带有病灶标签的历史医学图像，对所述初始筛选模型进行第一阶段训练，得到第一筛选模型。

具体的，其中，所述病灶标签包括：分割标签和分类标签，所述分割标签用于对每一所述历史医学图像中病灶所在图像区域的像素点进行标记，所述分类标签用于对每一所述历史医学图像中包含的病灶的类型数量进行标记。

示例性的说明，仍以训练样本A为例，对于分割标签：可以针对训练样本A中的每一个像素点进行判断，若该像素点位于病灶所在的图像区域，则将该像素点的分割标签确定为1，若该像素点不位于病灶所在的图像区域，则将该像素点的分割标签确定为0；对于分类标签：若训练样本A中包括两个病灶，其中，一个是x类型的病灶1、一个是y类型的病灶2，则可以将训练样本A中病灶1所在的图像区域标记为x，将训练样本A中病灶2所在的图像区域标记为y。

需要说明的是，考虑到直接使用无病灶标签的历史医学图像或者混杂使用无病灶标签和有病灶标签的历史医学图像，对初始筛选模型进行训练的难度较大，且训练效果较难预判，因此，步骤S401的执行目的是：先利用带有病灶标签的历史医学图像，对初始筛选模型进行第一阶段训练，使得第一阶段训练结束之后，得到具备一定的样本筛选能力的第一筛选模型。

S402，利用所述历史医学图像中没有所述病灶标签的历史医学图像，以及第一预设数量阈值的所述带有病灶标签的历史医学图像，对所述第一筛选模型进行第二阶段训练，得到所述样本筛选模型。

具体的，结合上述步骤S401的执行目的可知，在执行完步骤S401之后，第一筛选模型已经具备了一定的样本筛选能力，但考虑到步骤S401只使用带有病灶标签的历史医学图像进行模型训练，虽然可以降低模型训练难度，提高模型训练的准确度，但由于使用的历史医学图像类型单一，容易造成第一筛选模型筛选出的目标样本会偏向于带有病灶标签的历史医学图像，因此，在结束第一阶段训练之后，还需要使用没有病灶标签的历史医学图像，对第一筛选模型进行第二阶段训练，这样，在第二阶段训练之后，得到的样本筛选模型对训练样本的筛选能力较为客观，既不会偏向于筛选带有病灶标签的训练样本，也不会偏向于筛选没有病灶标签的训练样本，有利于提高筛选出的目标样本的准确度。

需要说明的是，由于单纯使用没有病灶标签的训练样本进行训练，容易导致第一筛选模型在训练过程中偏移正确的样本筛选方向，因此，在执行步骤S402时，在进行上述的第二阶段训练的过程中，还需要使用少量的(即数量为第一预设数量阈值的)带有病灶标签的历史医学图像，作为校正样本，与没有病灶标签的历史医学图像一同输入到第一筛选模型，进行训练，以防止出现上述的样本筛选方向偏移的情况，有利于提高筛选出的目标样本的准确度。

在一个可行的实施方案中，图5示出了本申请实施例所提供的一种对初始筛选模型进行第一阶段训练的方法流程示意图，如图5所示，在执行步骤S401时，该方法还包括S501-S503；具体的：

S501，利用所述历史医学图像中带有所述分割标签的历史医学图像，对所述初始筛选模型中的所述第一解码器和所述第二解码器，进行第一阶段训练，确定第一模型损失值。

具体的，本申请实施例中，作为一可选实施例，所述对所述初始筛选模型中的所述第一解码器和所述第二解码器，进行第一阶段训练，确定第一模型损失值，包括：

需要说明的是，在本申请实施例中，分割损失函数可以从本领域常用的分割损失函数中选取，对于分割损失函数的具体使用类型，本申请并不进行限定。

示例性的说明，以dice损失函数(一种常用于衡量两个样本之间相似程度的损失函数)作为分割损失函数为例，对于第一历史医学图像A1，可以按照以下公式计算第一历史医学图像A1的第一模型损失值D_A：

D_A＝D₁+D₂；

其中，D₁是第一分割损失值，D₂是第二分割损失值；

r_a1是第一历史医学图像A1的第一解码结果；

r_a2是第一历史医学图像A1的第二解码结果；

|r_a1∩A₁|是r_a1与第一历史医学图像A1之间的交集；

|r_a2∩A₁|是r_a2与第一历史医学图像A1之间的交集；

|r_a1|是r_a1中包含的元素个数；

|r_a2|是r_a2中包含的元素个数；

|A₁|是第一历史医学图像A1中包含的元素个数。

S502，利用所述历史医学图像中带有所述分类标签的历史医学图像，对所述初始筛选模型中的所述第三解码器和所述第四解码器，进行第一阶段训练，确定第二模型损失值。

具体的，本申请实施例中，作为一可选实施例，所述对所述初始筛选模型中的所述第三解码器和所述第四解码器，进行第一阶段训练，确定第二模型损失值，包括：

需要说明的是，在本申请实施例中，分类损失函数可以从本领域常用的分类损失函数中选取，例如，可以使用交叉熵损失函数或者focalloss(灶性损失)函数等分类损失函数，对于分割损失函数的具体使用类型，本申请并不进行限定。

具体的，对于全局平均池化处理，以第二历史医学图像A2为例，若第二历史医学图像A2的第三解码结果为r_a3，第二历史医学图像A2中包括两种类型的病灶，则在对第三解码结果r_a3进行全局平均池化处理时，针对第三解码结果r_a3中的每一个元素，将该元素平均池化为2个子元素，即为对第三解码结果r_a3进行全局平均池化处理，此时得到的全局平均池化处理结果，即为第三解码结果r_a3对应的第一分类预测结果y1。

具体的，关于第一分类损失值和第二分类损失值的计算过程，以交叉熵损失函数为分类损失函数为例，在计算第一分类损失值时，只需将第一分类预测结果y1和第二历史医学图像A2作为自变量，代入交叉熵损失函数中，进行计算即可，对此，本申请不再赘述。

S503，基于所述第一模型损失值和所述第二模型损失值，对所述初始筛选模型进行重复训练，直至所述初始筛选模型达到收敛，将收敛后的初始筛选模型作为所述第一筛选模型。

具体的，基于每次计算得到的第一模型损失值，可以利用反向传播算法对初始筛选模型中的第一解码器和第二解码器进行重复训练，直至初始筛选模型中的第一解码器和第二解码器达到收敛；基于每次计算得到的第二模型损失值，可以利用反向传播算法对初始筛选模型中的第三解码器和第四解码器进行重复训练，直至初始筛选模型中的第三解码器和第四解码器达到收敛；当初始筛选模型中的四个解码器都达到收敛之后，此时，可以确定初始筛选模型达到收敛，将收敛后的初始筛选模型作为所述第一筛选模型。

在一个可行的实施方案中，图6示出了本申请实施例所提供的一种对第一筛选模型进行第二阶段训练的方法流程示意图，如图6所示，在执行步骤S402时，该方法还包括S601-S606；具体的：

S601，在所述编码器的参数保持不变的情况下，将第三历史医学图像输入所述编码器中，得到所述第三历史医学图像的第一编码结果，其中，所述第三历史医学图像是没有所述病灶标签的历史医学图像或者带有所述病灶标签的历史医学图像。

S602，将所述第一编码结果分别输入所述四个解码器中，对所述四个解码器进行第二阶段训练，确定第三模型损失值。

具体的，本申请实施例中，作为一可选实施例，所述将所述第一编码结果分别输入所述四个解码器中，对所述四个解码器进行第二阶段训练，确定第三模型损失值，包括：

需要说明的是，本申请实施例中，非相似损失函数是指用于比较两个样本之间差异程度的损失函数，具体的，作为一可选实施例，非相似损失函数还可以是相似损失函数的非值，例如，使用L1损失函数(范数损失函数)作为相似损失函数，则在执行步骤S602时，可以使用L1损失函数的非值作为上述的非相似损失函数，对于非相似损失函数的具体函数类型，本申请并不进行限定。

具体的，以L1损失函数的非值作为非相似损失函数为例，在计算第一差异损失值时，可以按照以下非相似损失函数L_非进行计算：

其中，L_非是L1损失函数的非值；

L1损失函数用于表征将第五解码结果r5和第六解码结果r6的绝对差值进行最小化；

i是计算单位，用于表征第五解码结果r5和第六解码结果r6中的第i个元素；

m是第五解码结果r5中元素个数和第六解码结果r6中元素个数的最大值。

需要说明的是，第二差异损失值的计算方法与上述计算第一差异损失值相同，在此不再赘述。

S603，基于所述第三模型损失值，对所述四个解码器进行重复训练，直至所述四个解码器达到收敛。

具体的，本申请实施例中，在保持编码器的参数不变的情况下，基于每次计算出的第三模型损失值，调节四个解码器各自对应的解码器参数，直至四个解码器达到收敛。

S604，在所述四个解码器达到收敛的情况下，保持所述四个解码器的参数不变，将所述第三历史医学图像输入所述编码器中，得到所述第三历史医学图像的第二编码结果。

S605，将所述第二编码结果分别输入所述四个解码器中，利用所述四个解码器的解码结果，确定第四模型损失值。

具体的，本申请实施例中，作为一可选实施例，所述将所述第二编码结果分别输入所述四个解码器中，利用所述四个解码器的解码结果，确定第四模型损失值，包括：

具体的，参考步骤S602中的示例，作为一可选实施例，可以使用L1损失函数作为相似损失函数，计算第一相似损失值和第二相似损失值，对此，本申请不再进行赘述。

需要说明的是，正如上述步骤S602中所强调的，在步骤S605中使用的相似损失函数可以和步骤S602中使用的非相似损失函数互为非值，以减少引用的损失函数类型，节约模型训练过程中的数据处理量；但是，也可以使用完全不同类型的相似损失函数和非相似损失函数，只需要明确相似损失函数是用于计算两个解码结果之间的相似程度的损失函数，非相似损失函数是用于计算两个解码结果之间的差异程度的损失函数即可，对于相似损失函数和非相似损失函数的具体损失函数类型，本申请是不需要进行限定的。

S606，基于所述第四模型损失值，对所述编码器进行重复训练，直至所述编码器达到收敛，将达到收敛的编码器和达到收敛的所述四个解码器作为所述样本筛选模型。

具体的，结合上述步骤S601-S606，本申请实施例中，在对第一筛选模型进行第二阶段训练时，采用交替对抗训练的方式，先保持编码器的参数不变，使用非相似损失函数，分别计算第一解码器和第二解码器的解码结果之间的差异性损失，以及第三解码器和第四解码器的解码结果之间的差异性损失，通过计算的差异性损失，调节四个解码器的参数，对四个解码器进行差异性效果的训练，以训练第一解码器和第二解码器对第三历史医学图像的分割效果产生差异，训练第三解码器和第四解码器对第三历史医学图像的分类效果产生差异；在差异性效果的训练结束之后，再保持四个解码器的参数不变，使用相似损失函数，分别计算第一解码器和第二解码器的解码结果之间的相似性损失，以及第三解码器和第四解码器的解码结果之间的相似性损失，通过计算的相似性损失，调节编码器参数，对编码器进行共性特征提取的训练，最终结束交替对抗训练的过程。

进一步的，如图7所示，图7示出了本申请实施例所提供的一种筛选目标样本的装置的结构示意图，所述目标样本是训练样本中影响病灶分割模型训练准确程度的训练样本，所述病灶分割模型用于识别所述训练样本中病灶所在的图像区域，所述装置包括：

模型训练模块701，用于利用历史医学图像，对初始筛选模型进行训练，得到训练好的样本筛选模型，其中，所述初始筛选模型中包括编码器和至少四个解码器，所述四个解码器中的第一解码器和第二解码器用于提取所述历史医学图像的像素点特征，所述四个解码器中的第三解码器和第四解码器用于提取所述历史医学图像的整体图像特征；

模型输入模块702，用于针对待筛选的每一所述训练样本，将该训练样本输入所述样本筛选模型中，分别得到所述四个解码器的解码结果；

指标计算模块703，用于基于所述四个解码器的解码结果，计算该训练样本对应的模型识别难度值；

样本筛选模块704，用于利用每一所述训练样本对应的模型识别难度值，从所有的所述训练样本中，筛选出所述模型识别难度值高于预先设置的难度阈值的训练样本作为所述目标样本。

可选的，模型训练模块701，包括：

可选的，所述第一训练模块，包括：

可选的，所述分割训练模块，还用于：

可选的，所述分类训练模块，还用于：

可选的，所述第二训练模块，包括：

解码器训练模块，用于：

编码器训练模块，用于：

可选的，所述解码器训练模块，还用于：

可选的，所述编码器训练模块，还用于：

可选的，模型输入模块702，还用于：

可选的，指标计算模块703，还用于：

如图8所示，本申请实施例提供了一种计算机设备800，用于执行本申请中的筛选目标样本的方法，该设备包括存储器801、处理器802及存储在该存储器801上并可在该处理器802上运行的计算机程序，其中，上述处理器802执行上述计算机程序时实现上述的筛选目标样本的方法的步骤。

具体地，上述存储器801和处理器802可以为通用的存储器和处理器，这里不做具体限定，当处理器802运行存储器801存储的计算机程序时，能够执行上述的筛选目标样本的方法。

对应于本申请中的筛选目标样本的方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述的筛选目标样本的方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述的筛选目标样本的方法。

在本申请所提供的实施例中，应该理解到，所揭露系统和方法，可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种筛选目标样本的方法，其特征在于，所述目标样本是训练样本中影响病灶分割模型训练准确程度的训练样本，所述病灶分割模型用于识别所述训练样本中病灶所在的图像区域，所述方法包括：

利用每一所述训练样本对应的模型识别难度值，从所有的所述训练样本中，筛选出所述模型识别难度值高于预先设置的难度阈值的训练样本作为所述目标样本；

其中，所述基于所述四个解码器的解码结果，计算该训练样本对应的模型识别难度值，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用历史医学图像，对初始筛选模型进行训练，得到训练好的样本筛选模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用所述历史医学图像中带有病灶标签的历史医学图像，对所述初始筛选模型进行第一阶段训练，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述初始筛选模型中的所述第一解码器和所述第二解码器，进行第一阶段训练，确定第一模型损失值，包括：

5.根据权利要求3所述的方法，其特征在于，所述对所述初始筛选模型中的所述第三解码器和所述第四解码器，进行第一阶段训练，确定第二模型损失值，包括：

6.根据权利要求2所述的方法，其特征在于，所述利用所述历史医学图像中没有所述病灶标签的历史医学图像，以及第一预设数量阈值的所述带有病灶标签的历史医学图像，对所述第一筛选模型进行第二阶段训练，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述第一编码结果分别输入所述四个解码器中，对所述四个解码器进行第二阶段训练，确定第三模型损失值，包括：

8.根据权利要求6所述的方法，其特征在于，所述将所述第二编码结果分别输入所述四个解码器中，利用所述四个解码器的解码结果，确定第四模型损失值，包括：

9.根据权利要求1所述的方法，其特征在于，所述将该训练样本输入所述样本筛选模型中，分别得到所述四个解码器的解码结果，包括：

10.一种筛选目标样本的装置，其特征在于，所述目标样本是训练样本中影响病灶分割模型训练准确程度的训练样本，所述病灶分割模型用于识别所述训练样本中病灶所在的图像区域，所述装置包括：

样本筛选模块，用于利用每一所述训练样本对应的模型识别难度值，从所有的所述训练样本中，筛选出所述模型识别难度值高于预先设置的难度阈值的训练样本作为所述目标样本；

其中，所述指标计算模块，具体用于：

11.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至9任一所述的筛选目标样本的方法的步骤。

12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至9任一所述的筛选目标样本的方法的步骤。