CN114494238A

CN114494238A - 一种病理图像的训练集处理方法和系统

Info

Publication number: CN114494238A
Application number: CN202210146136.8A
Authority: CN
Inventors: 赵鹏飞; 颜利微; 李育威; 曹坤琳; 宋麒
Original assignee: Shenzhen Keya Medical Technology Corp
Current assignee: Shenzhen Keya Medical Technology Corp
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2022-05-13
Also published as: CN113450352B; CN113450352A

Abstract

本公开提供了一种病理图像的训练集处理方法和系统。该方法处理后的训练集用于病理图像的分析学习网络的训练，训练集处理方法包括利用处理器：获取病理图像的训练集，训练集包括多个训练图像；对训练集中的多个训练图像进行分组，使得同组内的训练图像具有相同的图像质量水平；为训练图像的各组，基于图像质量水平确定训练优先级，使得图像质量水平越高则训练优先级越高；将训练图像的各组，按照训练优先级，顺序地用于分析学习网络的训练。本公开能够提升分析学习网络的分析准确性，保证良好分析效果。

Description

一种病理图像的训练集处理方法和系统

本申请是申请号为202110985066.0、申请日为2021年8月26日、发明名称为“一种病理图像的训练集处理方法和系统”的中国发明专利申请的分案申请。

技术领域

本公开涉及图像分析技术领域，特别涉及一种病理图像的训练集处理方法和系统。

背景技术

基于病理图像进行分析和筛查是现代医学中进行癌症确诊的重要手段。而在基于病理图像进行筛查的过程中，需要专业的病理检查人员通过人工读片对病理图像进行分类或分割等操作，其工作量大、分析耗时长，影响后续诊断和治疗效率，因此，现有技术中常用基于人工智能学习模型进行病理图像分类的自动分析系统实现自动化的病理图像分类操作。

深度神经网络作为一种基于人工智能的分析学习网络，在图像识别、特征学习方面具有较强的能力，可通过学习数据的内在规律，成功应用于新的数据上，实现新的数据的自动化分析。但是病理切片中由于其所包含的细胞数目较多，且细胞之间形态各异，同时还存在细胞覆盖、遮挡或细胞膜折叠等问题，影响其数字化后病理图像的质量情况；另外，在对病理切片进行数字化的过程中，受染色剂差异或扫描设备的影响，病理图像之间也会呈现出较大的质量波动，此时，将上述病理图像作为训练集输入至分析学习网络以进行训练的过程中，会导致分析学习网络的训练效果不佳，影响后续使用时的分析效果，导致细胞分类和分割等分析结果的准确性无法满足实际需求。

发明内容

在一个方案中，本公开涉及一种病理图像的训练集处理方法，处理后的训练集用于病理图像的分析学习网络的训练，所述训练集处理方法包括利用处理器：获取病理图像的训练集，所述训练集包括多个训练图像；对所述训练集中的所述多个训练图像进行分组，使得同组内的训练图像具有相同的图像质量水平；为训练图像的各组，基于图像质量水平确定训练优先级，使得图像质量水平越高则训练优先级越高；将训练图像的各组，按照训练优先级，顺序地用于所述分析学习网络的训练。

在另一方案中，本公开还涉及一种病理图像的分析学习网络的训练方法，其利用处理器实现如下步骤：获取经过上述的训练集处理方法处理后的训练集；按照训练图像的各组的训练优先级，顺序地进行所述分析学习网络的训练。

在另一方案中，本公开还涉及一种病理图像的训练集处理系统，处理后的训练集用于病理图像的分析学习网络的训练，所述训练集处理系统包括：接口，其被配置为获取病理图像的训练集，所述训练集包括多个训练图像；处理器，其被配置为：对所述训练集中的所述多个训练图像进行分组，使得同组内的训练图像具有相同的图像质量水平；为训练图像的各组，基于图像质量水平确定训练优先级，使得图像质量水平越高则训练优先级越高；将训练图像的各组，按照训练优先级，顺序地用于所述分析学习网络的训练。

在另一方案中，本公开还涉及一种其上存储有指令的非暂时性计算机可读介质，其中所述指令在由处理器执行时执行病理图像的训练集处理方法，所述方法包括：获取病理图像的训练集，所述训练集包括多个训练图像；对所述训练集中的所述多个训练图像进行分组，使得同组内的训练图像具有相同的图像质量水平；为训练图像的各组，基于图像质量水平确定训练优先级，使得图像质量水平越高则训练优先级越高；将训练图像的各组，按照训练优先级，顺序地用于所述分析学习网络的训练。

本公开实施例的有益效果在于：通过对训练集中的训练图像按照图像质量水平进行分组，对具有不同图像质量水平的分组分别赋予不同的训练优先级，并按照训练优先级顺序将训练优先级高的训练图像组优先输入至分析学习网络中进行训练，降低了分析学习网络的训练难度，保证分析学习网络对图像质量水平高的病理图像具有较高的分类准确性；并在后续使用图像质量水平相对较低的训练图像进行分析学习网络的训练时，提升分析学习网络对图像质量水平相对较低的训练图像的容忍程度，保证其在后续进行图像质量水平相对较低的病理图像的分类时，同样具有良好的分类效果，以达到提升分析学习网络训练效果，提升分析学习网络在后续使用过程中的分类准确性的目的。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开实施例中病理图像的训练集处理方法的流程图；

图2示出了本公开实施例中一种K-MEANS算法实现的分组的流程示意图；

图3示出了本实施例中病理图像的训练集处理方法的另一种实施方式的流程图；

图4示出了根据本公开一些实施例的示例性病理图像处理系统的框图；

图5示出了根据本公开实施例的用于病理图像的分析学习网络的训练方法的流程图。

具体实施方式

此处参考附图描述本公开的各种方案以及特征。

应理解的是，可以对此处申请的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例，并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本公开的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本公开进行了描述，但本领域技术人员能够确定地实现本公开的很多其它等效形式，它们具有如权利要求的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本公开的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本公开的具体实施例；然而，应当理解，所申请的实施例仅仅是本公开的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此，本文所申请的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本公开的相同或不同实施例中的一个或多个。

深度神经网络作为一种基于人工智能的分析学习网络，在图像识别、特征学习方面具有较强的能力，可通过学习数据的内在规律，成功应用于新的数据上，实现新的数据的自动化分析。但是基于病理图像的分析与普通图像分析不同的是，病理图像主要由病理切片数字化后得出，而病理切片主要为待分析组织的细胞切片，由于其所包含的细胞数目较多，且细胞之间形态各异，同时还存在细胞覆盖、遮挡或细胞膜折叠等问题，影响其数字化后病理图像的质量情况；另外，在对病理切片进行数字化的过程中，受染色剂差异或扫描设备的影响，不同批次的病理图像之间也会呈现出较大的质量波动，此时，将上述病理图像作为训练集输入至分析学习网络以进行训练的过程中，会导致分析学习网络的训练效果不佳，影响后续使用时的分析效果，导致细胞分类和分割等分析结果的准确性无法满足实际需求。

为解决上述问题，图1示出了一种病理图像的训练集处理方法的流程图，经过图1所示的处理方法处理后的病理图像训练集，用于病例图像的分析学习网络的训练；具体地，本实施例所述的训练集处理方法利用处理器实现如图1所示的步骤：

S10，获取病理图像的训练集，训练集包括多个训练图像。

训练集是指用于进行分析学习网络训练，并且已经具有明确分析结果的训练数据，例如，针对用于进行宫颈癌细胞分类的训练集，则至少包括多张已经明确其分类结果的训练图像，将上述训练图像输入至分析学习网络后，即可对分析学习网络进行迭代训练，在后续使用过程中即可使用训练好的分析学习网络实现新的病理图像的分类操作。

S20，对训练集中的多个训练图像进行分组，使得同组内的训练图像具有相同的图像质量水平。

获取训练集后，对训练集中的多个训练图像基于每个训练图像的图像质量水平进行分组，形成多个具有不同图像质量水平的图像组，并且每个图像组内的训练图像的图像质量水平相同。图像质量则反映了数字化的训练图像所能呈现的实际病理切片的效果水平，图像质量越高，则表示对应的病理切片中细胞折叠、覆盖、扭曲等情况越少，并且在数字化过程中的染色效果以及扫描效果更好；基于图像质量更高的训练图像进行训练，有利于分析学习网络达到更好的迭代训练效果，保证分类准确性。

在一些实施例中，在进行训练图像的分组时，首先为每个训练图像提取其相应的图像特征，并基于各个图像的图像特征确定每个训练图像的图像质量，并按照图像质量进行分组，最终确定每个分组中训练图像的图像质量水平。具体地，图像特征至少包括以下之一或任何几种的组合：图像清晰度、图像亮度、图像饱和度以及图像灰度直方图分布，上述特征均可以直接通过对数字化的训练图像进行分析得出。在实际实现时，图像清晰度特征可以通过Brenner梯度函数、Tenengrad梯度函数、Laplacian梯度函数、熵函数、EAV点锐度算法函、Reblur二次模糊、均值滤波等方式进行提取；图像亮度、图像饱和度以及图像灰度直方图分布等图像纹理特征则可通过灰度共生矩阵、Tamura纹理特征、自回归纹理模型、小波变换等方式进行提取，本实施例不进行具体限制。

图像质量水平则用于表征同一个图像组内训练图像的图像质量情况，其可以是一个量化的数值，或者是针对不同分组之间设置的不同等级情况，本实施例不限制其具体的标识方式，只要能根据图像质量水平区分各个图像组之间图像质量的优劣情况即可。在基于图像特征进行分组时，可通过无监督特征聚类方法，对各个训练图像按照图像质量进行分组，并在输出不同组别的同时，同步生成各组图像的图像质量评分作为图像质量水平的标识。图2示出了一种K-MEANS算法实现的分组的流程示意图，待分组的训练图像经过图像特征提取和无监督聚类，最终实现分组。图2中每个分组均对应一个图像质量评分，评分越高则表征该组图像的图像质量水平越高。图像质量评分的具体数值则可根据实际需求，为不同图像特征设置不同的权重配比，并基于每个训练图像的图像特征情况进行计算。

在无监督特征聚类的过程中，由于病理图像中所包含的对象可能存在不同，无监督特征聚类所聚类得到的分组中，也可能存在具有相同图像质量水平的多个分组，多个分组中的训练图像则对应多个不同类型的对象，而针对不同类型的对象所在的分组，其在进行图像质量评分时也会根据对象类型的不同具有不同的评分标准(例如配置不同的权重配比)，以实现对训练图像更精细化的分组，保证训练后的分析学习网络的分析结果更加准确。

S30，为训练图像的各组，基于图像质量水平确定训练优先级，使得图像质量水平越高则训练优先级越高。

S40，将训练图像的各组，按照训练优先级，顺序地用于分析学习网络的训练。

由于图像质量水平反映了各组训练图像的图像质量情况，图像质量水平越高则可以表示该组内的训练图像具有更好的清晰度、更细致的纹理特征、或更准确的反映了病理切片的内容。各个图像组的优先级则表示进行分析学习网络的训练时各个图像组输入至分析学习网络中的顺序，对于图像质量水平越高的图像组，其图像中对象的呈现效果更好，更易于分析学习网络进行训练。因此为图像质量水平更高的图像组设置更高的优先级，具有更高优先级的图像组则更早地输入至分析学习网络中进行训练，降低分析学习网络的训练难度，并保证在使用分析学习网络进行后续病理图像的分析时，对于图像质量好的病理图像具有更准确的分析效果。同时，优先进行图像质量水平高的图像组的训练，更有利于提升分析学习网络对图像质量水平相对较低的训练图像的容忍程度，保证其在后续进行图像质量水平相对较低的病理图像的分类时，同样具有良好的分类效果，以达到提升分析学习网络训练效果，提升分析学习网络在后续使用过程中的分类准确性的目的。

在一些实施例中，对于训练图像的数个组具有相同的图像质量水平但包含不同类型的对象的情况下，将上述具有相同的图像质量水平的数个组混合为一个组，并为该混合组设置与上述具有相同的图像质量水平的数个组的训练优先级相同的训练优先级。对分析学习网络进行训练时，由于不同分组代表不同类型的对象或对象的不同表现，将其混合为一组同时进行训练则便于提升分析学习网络的训练集的多样性，并增加分析学习网络的普适性和鲁棒性；同时，在基于混合组进行分析学习网络训练时，则直接从混合组中基于随机读取训练数据的方式进行训练，以保证在增加分析学习网络训练鲁棒性的基础上，表面训练结果偏向混合组中某一类型分组，避免出现针对某些分组的过拟合训练效果。

图3示出了本实施例中病理图像的训练集处理方法的另一种实施方式的流程图。图3中所示的步骤S10至S30与图1中所示的步骤S10至S30完全相同，在此不再进行重复赘述。在针对每组的图像质量水平确定训练优先级之后，执行如下步骤：

S50，为训练图像的各组，基于图像质量水平进行对应的扩增处理。

扩增处理的目的是为了提升训练图像的多样性，现有技术中在进行数据扩增时所使用的扩增方式为对所有当前已经存在的训练图像进行随机扩增，具体扩增的方式包括但不限于旋转、平移、扭曲、缩放以及噪声添加。对于本实施例中的病理图像则按照图像质量水平进行不同程度的扩增，并且在本实施例中所能实现的扩增方式为添加噪声、旋转和偏移中的一种或数种，以避免扭曲和缩放影响病理图像中细胞的原有细胞膜形态或原有核质比等，影响分析学习网络的训练效果。

在一些实施例中，在进行扩增处理时，训练图像的各组的图像质量水平越高，其对应实现的扩增处理的倍率越高。具体地，图像质量水平高的图像组更易于分析学习网络进行训练，将图像质量水平高的图像组进行更高倍数的扩增，有利于降低图像质量水平相对较低的图像的扩增占比，在提升整体训练集中训练图像的多样性的基础上，避免出现因图像质量水平相对较低的图像扩增数量过大而影响分析学习网络的训练效果。在实际进行扩增时，具有相同图像质量水平的图像组所进行扩增的方式和倍数均相同，在提升数据多样性的前提下不影响各个组别的原有占比情况，防止在扩增后某一组别训练图像激增，导致分析学习网络对该组别出现过拟合训练效果。针对图像质量水平相对较低的图像组可以进行低倍率的扩增处理，在实际将病例切片数字化至病理图像的过程中，可能因扫描设备对焦程度或染色剂影响，致使处于关键病变位置的细胞切片在数字化之后清晰度下降，但由于其指示了关键的病变位置，对后续分析学习网络进行病理图像分析也具有指导意义，因此，可进行低倍率的扩增，在不影响分析学习网络鲁棒性的同时，提升分析学习网络的分析准确性。

在一些实施例中，在进行扩增处理时，训练图像的各组的图像质量水平越高，其对应实现的扩增处理的数据改变程度越高。具体地，图像质量水平高的图像组中的训练图像具有更高的扩增处理空间，图像质量更好的训练图像即便经过扩增处理，其所能展示出的图像效果也优于原本图像质量差的训练图像，因此，图像质量水平越高，其对应实现的扩增处理的数据改变程度越高。在实际实现时，添加噪声的方式是通过在原有训练图像中增加噪声数据以得到相对原图像来说模糊的图像，相当于生成了一张新的训练图像，对分析学习网络的训练有效性影响最高；偏移操作则是对图像中所包含对象进行的偏移操作，通常来说在多采样过程中已经获取同一个对象在不同偏移角度下的图像，因此其对于分析学习网络的训练有效性影响中等，低于噪声添加；旋转操作则只是单纯改变图像中各个对象的方向，针对病理切片来说，其主要为针对细胞的切片，而细胞通常来说没有方向的概念，因此旋转操作对于本实施例中分析学习网络的训练有效性影响最低，更适用与图像质量水平较低的图像组中的扩增处理。

在一些实施例中，为训练图像的各组，基于图像质量水平进行对应的扩增处理具体包括：对于图像质量水平高于第一阈值的训练图像的各组，执行添加噪声、偏移和旋转作为扩增处理，实现图像质量水平高于第一阈值的训练图像进行最大程度的扩增，以丰富训练数据量；对于图像质量水平在第二阈值与所述第一阈值之间的训练图像的各组，执行偏移和旋转作为扩增处理，避免因添加噪声导致训练图像过于模糊而影响分析学习网络的准确性；其中，第二阈值低于第一阈值；对于图像质量水平低于第二阈值的训练图像的各组，仅执行旋转作为扩增处理，在不影响图像清晰度的情况下进行图像质量水平较低的训练图像的扩增。需要注意的是，第一阈值和第二阈值的具体值可以根据当前所有图像组的图像质量评分进行确定，或者根据实际训练需求进行设定，本实施例不限制其具体数值或具体等级程度。

S60，将扩增处理后的训练图像的各组的训练优先级设置为扩增处理前的训练优先级。

S70，将扩增处理后的训练图像的各组，按照训练优先级，顺序地用于分析学习网络的训练。

扩增处理后的训练图像的各组本质上为基于其扩增前的训练图像而来，因此，扩增处理后的训练图像的各组应当保持与扩增前的训练图像的各组具有相同的优先级，在进行训练时也同样按照扩增后各组的训练优先级的顺序，将训练优先级最高的扩增后的图像组优先作为训练数据输入至分析学习网络中，以降低分析学习网络的训练难度，并保证分析学习网络对图像质量好的图像的分析效果，提升分析学习网络的分析准确性。

图4示出根据本公开一些实施例的示例性病理图像处理系统300。病理图像处理系统300可以包括网络接口328，借助于网络接口328，病理图像处理系统300可以连接到网络(未示出)，例如但不限于医院中的局域网或互联网。网络可以将病理图像处理系统300与诸如图像采集装置(未示出)的外部装置、病理图像数据库325、图像数据存储装置326连接。图像采集装置可以是获取病理切片的数字化图像的任何装置，例如各类扫描仪设备。

在一些实施例中，病理图像处理系统300可以是专用智能装置或通用智能装置。例如，系统300可以是为图像数据采集和图像数据处理任务定制的计算机，或者云端的服务器。例如，系统300可以被集成到图像采集装置中。

病理图像处理系统300可以包括图像处理器321和存储器322，并且可以额外包括输入/输出327和图像显示器329中的至少一个。

图像处理器321可以是包括一个或多个通用处理设备(诸如微处理器，中央处理单元(CPU)，图形处理单元(GPU)等)的处理设备。更具体地说，图像处理器321可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。图像处理器321也可以是一个或多个专用处理设备，例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等等。如本领域技术人员将理解的，在一些实施例中，图像处理器321可以是专用处理器，而不是通用处理器。图像处理器321可以包括一个或多个已知处理设备，诸如由英特尔公司制造的Pentium TM、Core TM、Xeon TM或Itanium TM系列的微处理器，由AMD公司制造的Turion TM、Athlon TM、Sempron TM、Opteron TM、FX^TM、Phenom^TM系列的微处理器或太阳微系统(Sun Microsystems)制造的各种处理器的任一种。图像处理器321还可以包括图形处理单元，诸如来自Nvidia公司制造的

系列的GPU，由英特尔TM制造的GMA、Iris TM系列的GPU或者由AMD公司制造的Radeon TM系列GPU。图像处理器321还可以包括加速的处理单元，诸如AMD公司制造的桌面A-4(6，8)系列，英特尔公司制造的Xeon Phi TM系列。所公开的实施例不限于任何类型的处理器或处理器电路，这些处理器或处理器电路以其他方式被配置为满足如下计算需求：获取、分析、分组、扩增大量病理数据以实现分析学习网络的训练。另外，术语“处理器”或“图像处理器”可以包括多于一个处理器，例如，多核设计或多个处理器，所述多个处理器中的每个处理器具有多核设计。图像处理器321可以执行存储在存储器322中的计算机程序指令的序列，以执行本文公开的各种操作、过程、方法。

图像处理器321可以通信地耦合到存储器322并且被配置为执行存储在其中的计算机可执行指令。存储器322可以包括只读存储器(ROM)、闪存，随机存取存储器(RAM)、诸如同步DRAM(SDRAM)或Rambus DRAM的动态随机存取存储器(DRAM)、静态存储器(例如，闪存，静态随机存取存储器)等，其上以任何格式存储计算机可执行指令。在一些实施例中，存储器322可以存储一个或多个图像处理程序223的计算机可执行指令。计算机程序指令可以被图像处理器321访问，从ROM或者任何其他合适的存储位置读取，并加载到RAM中供图像处理器321执行。例如，存储器322可以存储一个或多个软件应用程序。存储在存储器322中的软件应用程序可以包括例如用于通用计算机系统的操作系统(未示出)以及软控制设备。此外，存储器322可以存储整个软件应用程序或仅存储软件应用程序的一部分(例如图像处理程序223)以能够由图像处理器321执行。另外，存储器322可以存储多个软件模块，用于实现与本公开一致的将病理图像的训练集进行按图像质量水平的分组方法、基于图像质量水平的扩增方法或训练分析学习网络的过程的各个步骤。此外，存储器322可以存储在执行计算机程序时生成/缓存的数据，例如病理图像数据324，其包括从图像采集装置、病理图像数据库325、图像数据存储装置326等发送的病理图像，或者基于扩增处理生成的扩增图像等。

图像处理器321可以执行图像处理程序223以实现用于病理图像的训练集处理的方法。在一些实施例中，当执行图像处理程序223时，图像处理器321可以将对应处理结果存储到存储器322。

在一些实施例中，分析学习网络可以被存储在存储器322中。可选地，分析学习网络可以被存储在远程设备、分立的数据库(诸如病理图像数据库325)、分布式设备中，并且可以由图像处理程序223使用。病理图像连同分组结果、扩增结果可以作为训练样本存储在病理图像数据库325中。

输入/输出327可以被配置为允许病理图像处理系统300接收和/或发送数据。输入/输出327可以包括允许设备300与用户或其他机器和设备通信的一个或多个数字和/或模拟通信设备。例如，输入/输出327可以包括允许用户提供输入的键盘和鼠标。

网络接口328可以包括网络适配器、电缆连接器、串行连接器、USB连接器、并行连接器、诸如光纤的高速数据传输适配器、USB 3.0、闪电、无线网络适配器如WiFi适配器、电信(3G、4G/LTE等)适配器。系统300可以通过网络接口328连接到网络。网络可以提供局域网(LAN)、无线网络、云计算环境(例如，作为服务的软件、作为服务的平台、作为服务的基础设施等)、客户端服务器、广域网(WAN)等的功能。

除了显示病理图像之外，图像显示器329还可以显示其他信息，诸如病理图像的分组结果、或病理图像的扩增结果等。例如，图像显示器329可以是LCD、CRT或LED显示器。

这里描述了各种操作或功能，其可以被实现为软件代码或指令或被定义为软件代码或指令。这样的内容可以是可直接执行(“对象”或“可执行”形式)的源代码或差异代码(“增量”或“块”代码)。软件代码或指令可以存储在计算机可读存储介质中，并且当被执行时，可以使机器执行所描述的功能或操作，并且包括用于以机器可访问的形式存储信息的任何机构(例如，计算设备，电子系统等)，诸如可记录或不可记录介质(例如，只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存设备等)。

图5示出了根据本公开实施例的用于病理图像的分析学习网络的训练方法的流程图。其步骤501开始于获取病理图像的训练集处理方法处理后的病理图像的训练集，具体地，该训练集包括按照图像质量水平进行分组的多个训练图像组，每个组均按照图像质量水平对应被配置有不同的训练优先级。步骤502则公开按照训练图像的各组的训练优先级，顺序地进行所述分析学习网络的训练，其具体的训练方式可以为有监督的迭代学习，或其他可以实现的训练方式，本实施例不进行限制，只要保证在训练过程中依照训练集中各个组的优先级顺序，从优先级最高的组别开始按照优先级递减的顺序进行训练即可，保证分析学习网络的训练难度从易到难，并优先保证分析学习网络的对图像质量好的病理图像具有良好的分析效果，同时提升分析学习网络对图像质量相对较差的病理图像的分析容忍度，以达到分析学习网络的鲁棒性、准确性提升的目的。

前面的描述是为了说明的目的而呈现的。这不是穷尽的，并且不限于所公开的确切形式或实施例。考虑到所公开的实施例的说明和实践，实施例的修改和改变将变得显而易见。

在本文档中，如在专利文献中常见的那样，使用术语“一”或“个”来包括一个或多于一个，独立于“至少一个”或“一个或多个”的任何其他实例或用法。在本文中，除非另外指出，术语“或”用于指非排他性的，或者使得“A或B”包括“A但不包括B”，“B但不包括A”和“A和B”。在本文档中，术语“包括(including)”和“其中(in which)”用作相应术语“包括(comprising)”和“其中(wherein)”的通俗英语等同物。而且，在下面的权利要求中，术语“包括(including)”和“包括(comprising)”是开放式的，即，包括除了那些在权利要求中在该术语后列出的要素以外的要素的设备、系统、设备、制品、组成、配方或过程，也被视为落入该权利要求的保护范围内。此外，在下面的权利要求中，术语“第一”、“第二”和“第三”等仅被用作标签，并不旨在对其对象施加数值上的要求。

这里描述的示例性方法可以至少部分地是机器或计算机实现的。一些示例可以包括用指令编码的计算机可读介质或机器可读介质，所述指令可操作以配置电子设备执行如以上示例中所述的方法。这种方法的实现可以包括软件代码，诸如微代码、汇编语言代码、更高级的语言代码等。各种程序或程序模块可以使用各种软件编程技术来创建。例如，可以使用Java、Python、C、C++、汇编语言或任何已知的编程语言来设计程序段或程序模块。一个或多个这样的软件部分或模块可以被集成到计算机系统和/或计算机可读介质中。这种软件代码可以包括用于执行各种方法的计算机可读指令。软件代码可以形成计算机程序产品或计算机程序模块的一部分。此外，在一个示例中，软件代码可以诸如在执行期间或其他时间有形地存储在一个或多个易失性、非暂时性或非易失性有形计算机可读介质上。这些有形的计算机可读介质的示例可以包括但不限于硬盘、可移动磁盘、可移动光盘(例如，光盘和数字视频盘)、磁带盒、存储卡或棒、随机存取存储器(RAM)，只读存储器(ROM)等。

此外，尽管在此描述了说明性实施例，但是范围包括具有基于本公开的等效元素、修改、省略、组合(例如，跨各种实施例的方案的组合)、调整或变更的任何和所有实施例。权利要求中的要素将基于权利要求中使用的语言进行宽泛地解释，而不限于本说明书中或在本申请的存续期间描述的示例，这些示例将被解释为非排他性的。此外，所公开的方法的步骤可以以任何方式进行修改，包括通过重新排序步骤或插入或删除步骤。因此，意图仅仅将描述视为例子，真正的范围由以下权利要求及其全部等同范围表示。

以上描述旨在是说明性的而不是限制性的。例如，上述示例(或其一个或多个方案)可以彼此组合使用。本领域普通技术人员在查看以上描述时可以使用其他实施例。而且，在上面的详细描述中，各种特征可以被组合在一起以简化本公开。这不应被解释成意图让不要求保护的公开特征对于任何权利要求而言都是必不可少的。而是，发明主题可以在于比一个公开的实施例的所有特征少的特征组合。因此，以下权利要求由此作为示例或实施例并入到具体实施方式中，其中每个权利要求独立作为单独的实施例，并且可以构想的是，这些实施例可以以各种组合或置换来相互组合。本发明的范围应该参考所附权利要求以及赋予这些权利要求的等同物的全部范围来确定。

Claims

1.一种病理图像的训练集处理方法，其特征在于，处理后的训练集用于病理图像的分析学习网络的训练，所述训练集处理方法包括利用处理器：

获取病理图像的训练集，所述训练集包括多个训练图像；

对所述训练集中的所述多个训练图像进行分组，使得同组内的训练图像具有相同的图像质量水平；

为训练图像的各组，基于图像质量水平确定训练优先级，使得图像质量水平越高则训练优先级越高；

为训练图像的各组，基于图像质量水平进行对应的扩增处理，其中，训练图像的各组的图像质量水平越高，扩增处理的倍率越高，和/或扩增处理的数据改变程度越高；

将扩增处理后的训练图像的各组，按照训练优先级，顺序地用于所述分析学习网络的训练。

2.根据权利要求1所述的训练集处理方法，其特征在于，对所述训练集中的所述多个训练图像进行分组具体包括：

为各个训练图像提取图像特征；

基于图像特征，对各个训练图像按照图像质量分组，且确定各组的训练图像的图像质量水平。

3.根据权利要求2所述的训练集处理方法，其特征在于，所述图像特征至少包括以下之一或任何几种的组合：图像清晰度、图像亮度、图像饱和度、图像灰度直方图分布。

4.根据权利要求2所述的训练集处理方法，其特征在于，基于图像特征，对各个训练图像按照图像质量分组具体包括：

基于图像特征，采用无监督特征聚类方法，对各个训练图像按照图像质量分组。

5.根据权利要求1所述的训练集处理方法，其特征在于，还包括：在训练图像的数个组具有相同的图像质量水平但包含不同类型的对象的情况下，将所述数个组中的训练图像混合为一个组，且为混合组设置与所述数个组中的各个组的训练优先级相同的训练优先级。

6.根据权利要求1所述的训练集处理方法，其特征在于，还包括，将扩增处理后的训练图像的各组的训练优先级设置为扩增处理前的训练优先级。

7.根据权利要求1所述的训练集处理方法，其特征在于，所述扩增处理至少包括如下的任何一种或数种：添加噪声、旋转、偏移。

8.根据权利要求7所述的训练集处理方法，其特征在于，为训练图像的各组，基于图像质量水平进行对应的扩增处理具体包括：

对于图像质量水平高于第一阈值的训练图像的各组，执行添加噪声、偏移和旋转作为扩增处理；

对于图像质量水平在第二阈值与所述第一阈值之间的训练图像的各组，执行偏移和旋转作为扩增处理，其中，所述第二阈值低于所述第一阈值；以及

对于图像质量水平低于第二阈值的训练图像的各组，仅执行旋转作为扩增处理。

9.一种病理图像的分析学习网络的训练方法，其特征在于，利用处理器实现如下步骤：

获取经过权利要求1至8中任一项所述的病理图像的训练集处理方法处理后的训练集；

按照训练图像的各组的训练优先级，顺序地进行所述分析学习网络的训练。

10.一种病理图像的训练集处理系统，其特征在于，处理后的训练集用于病理图像的分析学习网络的训练，所述训练集处理系统包括：

接口，其被配置为获取病理图像的训练集，所述训练集包括多个训练图像；

处理器，其被配置为：

11.一种其上存储有指令的非暂时性计算机可读介质，其中所述指令在由处理器执行时执行根据权利要求1至8中任一项所述的病理图像的训练集处理方法。