CN110853006B

CN110853006B - 一种使用扫描仪获取的数字病理图像质量评价的方法

Info

Publication number: CN110853006B
Application number: CN201911078748.2A
Authority: CN
Inventors: 宋禹辰; 高英; 梁长虹; 刘再毅; 赵可; 韩楚
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-06-23
Anticipated expiration: 2039-11-05
Also published as: CN110853006A

Abstract

本发明提供一种使用扫描仪获取的数字病理图像质量评价的方法，根据数字病理图像实际存在的问题提供检测流程，按照此流程可以有效地实现图像可用与不可用的分类。相较于之前的工作，本发明的优点在于不需要提供标准图像作为对照，解决了除了模糊问题比例过大问题之外的严重影响数字病理图像可用性的问题的检测方式，可以以高准确率，快速的执行速度处理批量的数字病理图像数据，具有更好的通用性。

Description

一种使用扫描仪获取的数字病理图像质量评价的方法

技术领域

本发明涉及数字病理学技术领域，特别涉及一种使用扫描仪获取的数字病理图像质量评价的方法。

背景技术

数字病理学最近发展的非常迅速，越来越多的应用到临床诊断中。传统的病理学诊断方法是由取下的组织制作成载玻片直接在显微镜下进行诊断，数字病理学的主要思路是将载玻片上的光学信息转化为数字信息再通过计算机显示的方式呈现处理。其中当下最通用的做法就是通过扫描仪将载玻片转换为数字信号，再由计算机的显示装置将载玻片本身的信息显示出来，这种做法被证明大大提高了诊断的便利性和准确性，并且为数字医疗、远程医院、病理医学大数据分析等提供了更可靠更有效、可分享的数据基础。而使用扫描仪将一张载玻片转换成为图像的技术称为全载玻片成像(WSI)。本文提出的方法便是对使用扫描仪应用全载玻片成像技术获得的数字病理图像进行评价。

可是，随着病理图像数字化的发展，问题也随之产生，传统的诊断方式只需要保证载玻片的质量即可，而对数字病理图像来说除了载玻片的质量，扫描过程也会对图像的质量产生影响。目前的质量检测和控制流程多数取决于人工判断，这种做法存在诊断标准不统一，评价速度慢，准确性和稳定性差等问题。为解决此类问题，国内外专家也提出了一些自动评价数字病理图像质量的方法，但是尚未实现对全载玻片图像进行高效地处理，因此需要一种能高效数字病理图像的质量的方法，并将这种方法应用到数字病理图像的批处理中。

当前有许多针对数字病理图像的计算与分析工具，比如Openslide框架，它可以实现数字病理图像的转化与特定区域的读取，本发明采用此框架完成数据的预处理部分。

公开号为CN 103175834 B的中国专利公开了一种数字病理载玻片质量检测方法，包括使用扫描仪先确保得到数字图像，再根据标准载玻片的数字图像获得每个色块的R，G，B值等特征，再计算其他块的相关特征与之进行对比确定数字玻片是否可用。这种做法的优点是可以较准确地反映扫描的颜色信息，这种方法主要解决的是染色质量的评价，没有讨论因为扫描对焦操作不当产生的图像质量问题。而且标准图像的定义非常困难，在实际应用中难以获取。

公开号为CN 107945156 A的中国专利公开了一种自动评价数字病理扫描图像画质的方法，使用扫描仪获得数字图像，再编写识别程序识别模糊部位，然后对模糊部位进行标记最后返回评价结果。该方法的确实现了质量评价的自动化，但图像的分割需要较长的时间，且实际应用中存在很多不需要精确到小块级就可以且有必要识别的质量问题。

发明内容

为了解决背景技术中所述问题，本发明提供一种使用扫描仪应用全载玻片成像(WSI)技术产生的数字病理图像的质量评价方法，该方法可高效实现对扫描的数字病理图像进行评价及分类，实现批处理。

为了达到上述目的，本发明采用以下技术方案实现：一种使用扫描仪获取的数字病理图像质量评价的方法，包括以下步骤：

步骤S1：使用扫描仪扫描载玻片，包含H&E与IHC两种染色方式，获得图像集合I；

步骤S2：按照时间整理数字病理图像，将数据进行归档，设图像集合I中有k组数字病理图像数据，按时间划分图像得到图像集合I，定义如下：

I＝{I₁,I₂,...I_k}

选择其中的m组数据作为验证数据，剩下的(k-m)组作为训练和测试解决问题的机器学习的模型；根据上述划分得到用于训练和测试的图像集合I_train&test和用于验证的图像集合I_valid，二者的定义如下：

I_train&test＝{I₁,I₂,...,I_k-m}

I_valid＝{I_k-m+1,...,I_k}

对训练测试集和验证集都划分为正常图像和问题图像两类，对训练和测试集定义两个图像集I_{problem_train&test}和I_{normal_train&test}，对验证集定义两个图像集I_{problem_valid}和I_{normal_valid}，设置初始值为空；

步骤S3：手动整理各组数据涵盖的各个问题的图像信息；需要识别的四种图像问题包括：1)条纹问题、2)未能获取载玻片信息、3)未完全扫描问题4)模糊区域比例过大；首先将每组数据按染色剂划分，再将按染色剂划分的数据再次按照数据的问题类型进行划分，我们将条纹问题、未能获取载玻片信息问题、未完全扫描问题，模糊区域比例过大问题分别定义为p1，p2，p3，p4，正常图像定义为n，对训练和测试集的元素的具体内容定义如下：

对x∈{1,2,...,k-m}，I_x＝{I_{x_H&E},I_{x_IHC}}

I_{x_H&E}＝{I_{x_H&E_p1},I_{x_H&E_p2},I_{x_H&E_p3},I_{x_H&E_p4},I_{x_H&E_n}}

I_{x_IHC}＝{I_{x_IHC_p1},I_{x_IHC_p2},I_{x_IHC_p3},I_{x_IHC_p4},I_{x_IHC_n}}

其中：I_{x_H&E_o1}、I_{x_H&E_p2}、I_{x_H&E_p3}、I_{x_H&E_p4}、I_{x_H&E_n}分别表示训练和测试集中使用H&E染色剂的存在条纹问题、未能获取载玻片信息、未完全扫描问题、模糊区域比例过大以及正常图像的图像集合；I_{x_H&E}表示训练和测试集中使用H&E染色剂的图像分类集合；

I_{x_IHC_p1}、I_{x_IHC_p2}、I_{x_IHC_p3}、I_{x_IHC_p4}、I_{x_IHC_n}分别表示训练和测试集中使用IHC染色剂的存在条纹问题、未能获取载玻片信息、未完全扫描问题、模糊区域比例过大以及正常图像的图像集合；I_{x_IHC}表示训练和测试集中使用IHC染色剂的图像分类集合；

验证组是用来验证我们提出的新方法是否有效，所以需要用同样的方式进行统计：

对y∈{k-m+1,...,m}，I_y＝{I_{y_H&E},I_{y_IHC}}

I_{y_H&E}＝{I_{y_H&E_p1},I_{y_H&E_p2},I_{y_H&E_p3},I_{y_H&E_p4},I_{y_H&E_n}}

I_{y_IHC}＝{I_{y_IHC_p1},I_{y_IHC_p2},I_{y_IHC_p3},I_{y_IHC_p4},I_{y_IHC_n}}

其中：I_{y_H&E_p1}、I_{y_H&E_p2}、I_{y_H&E_p3}、I_{y_H&E_p4}、I_{y_H&E_n}分别表示验证集中使用H&E染色剂的存在条纹问题、未能获取载玻片信息、未完全扫描问题、模糊区域比例过大以及正常图像的图像集合；I_{y_H&E}表示验证集中使用H&E染色剂的图像分类集合；

I_{y_IHC_p1}、I_{y_IHC_p2}、I_{y_IHC_p3}、I_{y_IHC_p4}、I_{y_IHC_n}分别表示验证集中使用IHC染色剂的存在条纹问题、未能获取载玻片信息、未完全扫描问题、模糊区域比例过大以及正常图像的图像集合；I_{y_IHC}表示验证集中使用IHC染色剂的图像分类集合；

步骤S4：统计在集合在I_train&test中存在的各种问题的数量，定义流程如下：

对x∈{1,2,...,k-m}，得到上面所述的I_{x_H&E}与I_{x_IHC}；

计算出I_{x_H&E}里每个元素的长度，得到x_H&E_num_p1，x_H&E_num_p2…；

计算出I_{x_IHC}里的每个元素的长度，得到x_IHC_num_p1,x_IHC_num_p2…；

将每一组数据的统计量添加到对应的统计集合中；

步骤S5：选取H&E染色和IHC染色方式的载玻片，使用全载玻片成像技术获取的数字病理图像各10张，将其分割为1024pixel×1024pixel的小块，然后针对两种染色剂人工筛选出3000-5000张背景区域块、3000-5000张清晰区域块和3000-5000张模糊区域块，使用卷积神经网络CNN模型分成背景区域块，清晰区域块和模糊区域块三类，得到模型M₁,M₂；其中：M₁是针对H&E染色剂进行的区分一个图像小块是背景区域块，清晰区域块和模糊区域的模型，M₂是针对IHC染色剂进行的区分一个图像小块是背景区域块，清晰区域块和模糊区域的模型；

步骤S6：使用Openslide框架将I_train&test集合的全部图像的最小放大倍数层转化为png格式的矢量图像，获得图像集合A；图像仍然使用S3的方法分别按扫描时间，染色剂和图像问题类型进行划分，获得的矢量图像集合A的数学定义如下：

A＝{A₁,A₂,...A_k-m}

对x∈{1,2,...,k-m}，A_x＝{A_{x_H&E},A_{x_IHC}}

A_{x_H&E}＝{A_{x_H&E_p1},A_{x_H&E_p2},A_{x_H&E_p3},A_{x_H&E_p4},A_{x_H&E_n}}

A_{x_IHC}＝{A_{x_IHC_p1},A_{x_IHC_p2},A_{x_IHC_p3},A_{x_IHC_p4},A_{x_IHC_n}}

例如：A_{x_H&E_p1}表示I_{x_H&E_p1}转化成的png格式的矢量图集合；

步骤S7：取出A中的所有存在条纹问题的图像，并在S6获取的计数信息中进行查找找出对应组的两种染色剂的具有条纹问题的数据，然后在正常组中选择等于或略大于对应计数信息的图像数据共同组成样本，然后提取亮度特征，使用支持向量机的机器学习方法，拟合分类模型，得到模型M₃；若模型判断为存在条纹问题则图像不可用，将这个矢量图像对应的原来的图像加入到集合I_{problem-train&test}中，并将问题图像从原来的数据集中移除，反之进入步骤S8；

步骤S8：取出A中的所有存在未成功获取载玻片信息的图像，并在S6获取的计数信息中进行查找找出对应组的两种染色剂的具有未成功获取载玻片问题的数据，然后在正常组中选择等于或略大于对应计数信息的图像数据共同组成样本，然后提取多个描述图像锐度与信息丰富度的特征，然后使用支持向量机SVM机器学习方法，拟合一个分类模型得到分类模型M₄，判断扫描是否未能获取载玻片信息，若模型判断为出现扫描获取载玻片信息则图像不可用，将这个矢量图像对应的原来的图像加入到集合I_{problem_train&test}中，并将问题图像从原来的数据集中移除，反之进入步骤S9；

步骤S9：取出I_train&test中的存在未完全扫描问题的图像集合，并在S6获取的计数信息中进行查找找出对应组的两种染色剂的具有未成完全扫描问题的数据，然后在正常组中选择等于或略大于对应计数信息的图像数据共同组成样本，使用Openslide框架提取载玻片图像的最大扫描倍数的最上面一行，最下面一行，最左面一列，最右面一列的1024pixel×1024pixel大小小块，并对这些小块使用步骤S5得到的模型进行图像分类，通过实验表明，若这些小块有超过1/8被识别为清晰区域块或模糊组织块，则这个载玻片图像被认为是未完全扫描的，图像不可用，将图像加入到集合I_{problem_train&test}中，否则进入步骤S10；

步骤S10：取出I_train&test中的存在模糊区域比例过大问题的图像集合，并在S6获取的计数信息中进行查找找出对应组的两种染色剂的具有模糊区域比例过大问题的数据，然后在正常组中选择等于或略大于对应计数信息的图像数据共同组成样本，将样本图像在最大扫描倍数下完全分割为固定大小的小块，然后使用步骤S5中得到的模型M₁,M₂对小块进行分类，并根据分类结果生成此图像的模糊分布图，若模糊的小块超过非背景区域块(清晰区域块与模糊区域块都属于非背景区域块)的20％则需要在识别模糊的区域增加焦点重新扫描，图像不可用，将图像加入到集合I_{problem_train&test}中，反之则确定图像为合格图像，将所有的图像加入到I_{normal_train&test}中；

步骤S11：使用验证集对上面的方法进行验证，首先将I_valid的全部图像转化为png格式的矢量图像A_valid，然后使用M₃筛选出条纹图像集加入I_{problem-valid}集合中并将问题图像从集合中移除，使用M₄筛选出未成功获取载玻片信息图像集加入I_{problem_valid}集合中并将问题图像从集合中移除，然后使用筛选后的I_{problem_valid}并提取图像的最大扫描倍数的最上面一行，最下面一行，最左面一列，最右面一列的1024pixel×1024pixel像素的小块，使用M₁和M₂获取每张图的边缘小块的分类结果，若这些小块有超过1/8被识别为清晰区域块或模糊组织块则将图像加入I_{problem_valid}中并将问题图像从集合中移除，最后将I_{problem_valid}剩余的图像完全切割为1024pixel×1024pixel的小块，使用M₁和M₂对每张图像的小块进行分类，若模糊区域块超过非背景区域块(清晰区域块与模糊区域块都属于非背景区域块)的20％则将图像加入I_{problem-valid}中并将问题图像从集合中移除，并将剩余的图像全部加入I_{normal_valid}，然后将预测结果与真实结果进行比对确认发明提出的方法是否有效。

进一步地，步骤S8中所述的多个描述图像锐度与信息丰富度的特征具体包括Brenner梯度函数，Tenengrad梯度函数，Laplacian梯度函数，灰度方差函数，灰度方差乘积函数，方差函数，能量梯度函数，熵函数。

与现有技术相比，本发明的有益效果是：

本发明根据数字病理图像实际存在的问题提供检测流程，按照此流程可以有效地实现图像可用与不可用的分类。相较于之前的工作，本发明的优点在于不需要提供标准图像作为对照，解决了除了模糊问题比例过大问题之外的严重影响数字病理图像可用性的问题的检测方式，可以以高准确率，快速的执行速度处理批量的数字病理图像数据，具有更好的通用性。

附图说明

图1为本发明的一种使用扫描仪获取的数字病理图像质量评价的方法详细流程图；

图2为条纹问题，未能获取载玻片信息，未完全扫描三种图像问题的实施例图；

图3为载玻片信息获取失败与成功的对比图；

图4为两张局部的模糊图与真实的对比图；

图5为本发明所应用的卷积神经网络结构图；

图6为将条纹图像转化成的自然图选择等量的正常图像提取每一列的亮度特征并绘制波形得到的波形图；

图7为本发明实施例中生成的模糊分布图。

具体实施方式

以下结合附图对本发明提供的具体实施方式进行详细说明。

本发明的一种使用扫描仪获取的数字病理图像质量评价的方法详细流程见图1，该方法主要定义不可用扫描图像为四种：1)条纹问题、2)未能获取载玻片信息、3)未完全扫描问题4)模糊区域比例过大。图2描述了条纹问题，未能获取载玻片信息，未完全扫描三种图像问题。一般情况下扫描仪参数不当会导致条纹问题如图2左；焦距设置不当会导致获取载玻片信息失败，在最小放大倍数下显示出如图2中的效果，图3表示载玻片信息获取失败与成功的对比，获取失败的图像在最大放大倍数的小块表现为图三左侧的图，图三右侧的图则为正常的块与前面的获取失败形成对比；而载玻片放置位置不当会导致扫描图像发生偏移导致组织信息的丢失，表现情况见图2右，在本发明中称之为未完全扫描问题。而模糊区域比例过大问题表示载玻片包含的整体组织结构可以表示出来，但由于焦点数量不足导致缺失焦点的部分出现的模糊，图4的两张图分别表示局部的模糊与真实的对比。

以下为结合实际扫描的三组数据开发的过程来讲述具体的实施方式：

实施方式总共分为两个模块，一个是数据准备模块，包含从步骤S1到步骤S6的全部内容，另一个是问题检测模块，包含从步骤S7到步骤S11的全部内容。

一、数据准备模块部分：

在步骤S1-S4，主要工作内容是原始图像数据的收集与整理，获取的整理方式详情见发明内容，在讲述具体使用方式实例之前先介绍一下扫描仪获取数字图像的方式，这与本发明的应用前景息息相关。扫描仪获取数字病理图像应用的扫描仪有批量扫描和逐个扫描两种方式，逐个扫描可以大大减少图像出现问题的概率，但每个切片都需要经过人工操作，非常浪费时间；而批量扫描相反，节约时间但出现错误的概率较高，但是它整体上可以保证扫描质量因此可以在诊断上得到应用。

本发明进行的实验是基于批量扫描的，使用的实验数据是应用H&E和IHC两种染色方式的。

表1涵盖了实验例中收集的三个月的批扫描图像，我们将组号为1，2的两组数据作为训练和测试组，将组号为3的数据作为验证组，我们按照步骤S3，S4统计各种问题出现的数目对数据进行归类，得到的结果如表2。

组号	扫描月份	H&E	IHC	总计
					1	2017.10	78	232	310
2	2017.12	83	204	287
					3	2018.04	59	145	204

表1

表2病理图像问题在两种染色剂出现数量

数据收集归档完成之后我们需要训练模型区分图像小块是背景区域块，模糊区域块和清晰区域块，即如步骤S5所叙述。本发明使用卷积网络来实现此三分类问题。本发明应用的卷积神经网络结构如图5。

需要分开按染色剂统计的原因解释如下：染色剂的颜色和深浅差异较大，若不区分染色剂进行分类，分类精度会将下降较多。我们在实验过程发现如果针对两种染色方式对分别建模能正确识别图像小块种类的概率高达99％以上，但是如果不对图像分类将两种染色的样本混在一起分割然后筛选样本准确率会下降到88％，我们对误分类进行分析发现有很多IHC的非背景区域块被识别为背景区域块因为颜色较浅的因素，二者不宜共享分类器参数，因此小块的分类问题应独立于染色剂的使用，即分别对H&E，IHC进行小块的分类训练。对于两种染色剂，分别抽取若干正常图像与部分图像，获得大量小块，并手工筛选背景区域类，清晰区域类和模糊区域类的样本各3000-5000例，然后使用卷积神经网络CNN进行训练，最终获得模型M₁和M₂。

后面的步骤还需要使用原始数字病理图像转化为常见的png格式的矢量图，一般原始的数字病理图像为svs格式的压缩文件，其本质是TIFF文件，有多层可供读取，对应看图软件的不同放大倍数，使用Openslide框架可以读取七层数据，最小是1倍放大最大是40倍放大，步骤S6所提到的最小放大倍数就是提取1倍放大层的图像加入到集合A中。

二、问题检测模块部分

此模块用于探索条纹问题、未能获取载玻片信息问题、未完全扫描问题和模糊区域比例过大问题的解决方案。本实施例中，后面的S7到S10四步都以7：3的比例划分训练集和测试集。例如：若我们有10张图像，则10×0.7＝7张作为训练集，剩余3张作为测试集。

取出A中的所有存在条纹问题的图像，并在S6获取的计数信息中找出每组数据对应的数字，然后在正常组中选择等于或略大于此数字的图像数据共同组成样本

步骤S7中，首先进行预实验，获取组号为1，2的条纹图像转化成的自然图像，并选择等量的正常图像提取每一列的亮度特征并绘制波形，得到的波形如图6所示。不难发现二者的差距可以通过亮度特征的极值与方差来进行拟合，使用支持向量机(SVM)的机器学习算法对其进行二分类，在这里讲述一下实验的拟合步骤，首先介绍一下使用SVM算法进行分类的方法。

分类问题的本质是找到一个决策面使得不同类型的数据划分开，公式为：

W^TX+b＝0

X是我们的特征向量，在应用中通常是多维的，我们的目的是求出权重向量W和偏移量b，而样本分布必然存在上分界线与下分界线，假设范围为k，即上下分界线的公式分别为：

W^TX+b＝1

W^TX+b＝-1

二者的距离之和为：

当D最小时视为最好的分类效果，但是由于实际的数据分布可能无法完全分开，需要引入惩罚系数C和松弛变量ε，分类问题转化为最优化问题如下：

然后应用拉格朗日乘数法，公式如下：

为求得最优值，求函数极值，得到需要满足的两个条件

C-α_i-r_i＝0

将这两个公式代入拉格朗日乘数函数中，得：

注：上述的拉格朗日乘数函数为公知常识，其中的未标注的变量均为公知常识的变量。

然后将SVM算法应用到将由存在条纹和对应的接近数量的正常图像集合中。由公式可以发现除了特征本身外C与ε对分类模型的影响最大，因此采用循环寻找拟合度最好的参数值。表2中，前两组总共包含9个条纹图像，抽取11张无条纹图像与9张条纹图像一同训练，根据前面的叙述包含20×0.7＝14张图像作为训练集，20×0.3＝6张图像作为测试集，测试集的6张图像中包含2张条纹图像，最后6张图像全部被正确识别，证明预测模型有效条纹问题可以被正确识别，在实际检查流程中通过此步骤检测的图像经确认为可用图像即转向下一步骤S9，否则加入问题图像集合I_{problem_train&test}中。

步骤S8中我们提取了八个基于锐度和信息丰富度的特征，包括Brenner梯度函数，Tenengrad梯度函数，Laplacian梯度函数，SMD(灰度方差函数)，SMD2(灰度方差乘积函数)，方差函数，能量梯度函数，熵函数。下面详细介绍这些特征的计算方式。

1)Brenner梯度函数：只计算相邻像素灰度差的平方；

2)Tenengrad梯度函数：采用sobel算子提取水平和垂直梯度；

3)Laplacian梯度函数：定义与Tenengrad梯度函数相同，区别在于改用Laplacian算子提取水平和垂直梯度；

4)SMD(灰度方差函数)：将灰度变化作为清晰度评价依据；

5)SMD2(灰度方差乘积)：对每一个像素领域两个灰度差相乘后逐个相加；

6)方差函数：计算所有灰度值的方差；

7)能量梯度函数；

8)熵函数；

然后利用上面讲述的支持向量机(SVM)算法，将其应用到存在为获取载玻片信息问题和对应的接近数量的正常图像集合中。使用循环调节C和ε参数获取最好的拟合结果，将检测到未获取载玻片信息的文件信息定义为不可用。

根据表2所述，两种染色剂存在未获取载玻片信息共计69例，再随机抽取71例正常的数字病理图像，合计140例进行训练和测试，训练集大小为140×0.7＝98，测试集大小为140×0.3＝42，42张测试集图像结果见表3。

	预测获取信息失败	预测正常
			获取信息失败	22	4
正常	1	15

表3

由上面结果可知模型可以有效检测图像是否成功获取玻片信息，在实际检查流程中通过此步骤检测的图像经确认为可用图像即转向下一步骤S9，否则加入问题图像集合I_{problem_train&test}中。

步骤S9中，对图像集合中的图像在最大放大倍数下提取最边缘行列的小块，平均一幅图像是40000×40000像素级，分割为1024pixel×1024pixel大小的小块可以划分出100多个。从表2我们得知总共有24张未完全扫描图像，我们抽取26张正常图像与之一起训练，共计50张图像，50×0.7＝35张图像作为训练集，50×0.3＝15张图像作为测试集。在此步骤中小块分类的判别阶段需要根据图像实验的染色剂选择使用模型M₁还是M₂。考虑到模型误差和扫描实际情况可以定义阈值来判别，根据训练集的参数调节我们发现当清晰区域块与模糊区域块占比为1/8作为临界条件时结果最好，如果存在1/8的清晰区域块或模糊区域块即可视为未扫描完全。15张测试集图像中有两例预测错误其余均预测正确。在实际检查流程中通过此步骤检测的图像经确认为可用图像即转向下一步骤S10，否则加入问题图像集合I_{problem-train&test}中。

步骤S10中，将图像在最大扫描倍数下分割为小块，并根据模型M₁与M₂进行分类，根据分类结果生成模糊分布图，如图7所示。黑色表示背景区域块，红色表示模糊区域块，绿色表示清晰区域块，此示例图说明排除背景区域约2/3的小块为模糊。由表2我们可以得知存在模糊区域比例过大图像共计78例，随机抽取82例正常图像共计160张图像进行训练与测试，训练集大小为160×0.7＝112，测试集大小为160×0.3＝48，我们通过选择合适阈值的方式来划分图像的模糊比例是否过大，通过训练集的参数调整发现分析，若模糊区域块占非背景区域块((清晰区域块与模糊区域块都属于非背景区域块)比例超过20％则定义为需要重新扫描，如果没有则图像通过。表4表示模糊区域比例过大的测试结果。

表4

几乎所有的模糊区域比例过大可以被识别但是有不少正常图像也会被误识别为模糊区域比例过大。在实际检查流程中通过此步骤检测的图像即可视为可用图像，否则加入问题图像集合I_{problem_train&test}中。

最后是对验证组数据进行验证，我们使用上面得到的模型代码让一组图像逐次进行淘汰最终划分为正常图像和问题图像两大类，最终筛选出来的各个问题的数目与真实数目进行对比，最终得到的结果见表5。

表5

可以看出，验证组在条纹问题和未成功获取载玻片信息问题表现出非常高的精度，几乎可以完全识别，而对于未完全扫描问题，我们提出的方法检测出的数量略高于实际的，产生原因可能在于部分图像留出的空隙过小但仍然没有上下文的缺失，虽然属于可用范围但现实中往往应留出足够的空白区域；而模糊区域比例过大区域也是较大，主要原因在于一味地按照数量定义而对临床的实际应用考虑稍有缺失，有些部位可能在临床中无需添加焦点但被识别为模糊的小块，导致偏差显著多于其他问题。

以上实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于上述的实施例。上述实施例中所用方法如无特别说明均为常规方法。

Claims

1.一种使用扫描仪获取的数字病理图像质量评价的方法，其特征在于，包括以下步骤：

I＝{I₁,I₂,...I_k}

I_train&test＝{I₁,I₂,...,I_k-m}

I_valid＝{I_k-m+1,...,I_k}

对训练测试集和验证集都划分为正常图像和问题图像两类，对训练和测试集定义两个图像集I_{problem_train&test}和I_{normal_train&test},对验证集定义两个图像集I_{problem_valid}和I_{normal_valid},设置初始值为空；

对x∈{1,2,...,k-m}，I_x＝{I_{x_H&E},I_{x_IHC}}

I_{x_H&E}＝{I_{x_H&E_p1},I_{x_H&E_p2},I_{x_H&E_p3},I_{x_H&E_p4},I_{x_H&E_n}}

I_{x_IHC}＝{I_{x_IHC_p1},I_{x_IHC_p2},I_{x_IHC_p3},I_{x_IHC_p4},I_{x_IHC_n}}

其中：I_{x_H&E_p1}、I_{x_H&E_p2}、I_{x_H&E_p3}、I_{x_H&E_p4}、I_{x_H&E_n}分别表示训练和测试集中使用H&E染色剂的存在条纹问题、未能获取载玻片信息、未完全扫描问题、模糊区域比例过大以及正常图像的图像集合；I_{x_H&E}表示训练和测试集中使用H&E染色剂的图像分类集合；

验证组是用来验证我们提出的新方法是否有效，需要用同样的方式进行统计：

对y∈{k-m+1,...,m}，I_y＝{I_{y_H&E},I_{y_IHC}}

I_{y_H&E}＝{I_{y_H&E_p1},I_{y_H&E_p2},I_{y_H&E_p3},I_{y_H&E_p4},I_{y_H&E_n}}

I_{y_IHC}＝{I_{y_IHC_p1},I_{y_IHC_p2},I_{y_IHC_p3},I_{y_IHC_p4},I_{y_IHC_n}}

对x∈{1,2,...,k-m}，得到上面所述的I_{x_H&E}与I_{x_IHC}；

计算出I_{x_IHC}里的每个元素集合的长度，得到x_IHC_num_p1,x_IHC_num_p2…；

将每一组数据的统计量添加到对应的统计集合中；

步骤S5：选取H&E染色和IHC染色方式的载玻片，使用全载玻片成像技术获取的数字病理图像各多张，将其分割为1024pixel×1024pixel的小块，然后针对两种染色剂人工筛选出3000-5000张背景区域块、3000-5000张清晰区域块和3000-5000张模糊区域块，使用卷积神经网络CNN模型分成背景区域块，清晰区域块和模糊区域块三类，得到模型M₁,M₂；其中：M₁是针对H&E染色剂进行的区分一个图像小块是背景区域块，清晰区域块和模糊区域的模型，M₂是针对IHC染色剂进行的区分一个图像小块是背景区域块，清晰区域块和模糊区域的模型；

A＝{A₁,A₂,...A_k-m}

对x∈{1,2,...,k-m}，A_x＝{A_{x_H&E},A_{x_IHC}}

A_{x_H&E}＝{A_{x_H&E_p1},A_{x_H&E_p2},A_{x_H&E_p3},A_{x_H&E_p4},A_{x_H&E_n}}

A_{x_IHC}＝{A_{x_IHC_p1},A_{x_IHC_p2},A_{x_IHC_p3},A_{x_IHC_p4},A_{x_IHC_n}}

步骤S7：取出A中的所有存在条纹问题的图像，并在S6获取的计数信息中进行查找找出对应组的两种染色剂的具有条纹问题的数据，然后在正常组中选择等于或略大于对应计数信息的图像数据共同组成样本，然后提取亮度特征，使用支持向量机的机器学习方法，拟合分类模型，得到模型M₃；若模型判断为存在条纹问题则图像不可用，将这个矢量图像对应的原来的图像加入到集合I_{problem_train&test}中，并将问题图像从原来的数据集中移除，反之进入步骤S8；

步骤S10：取出I_train&test中的存在模糊区域比例过大问题的图像集合，并在S6获取的计数信息中进行查找找出对应组的两种染色剂的具有模糊区域比例过大问题的数据，然后在正常组中选择等于或略大于对应计数信息的图像数据共同组成样本，将样本图像在最大扫描倍数下完全分割为固定大小的小块，然后使用步骤S5中得到的模型M₁,M₂对小块进行分类，并根据分类结果生成此图像的模糊分布图，若模糊的小块超过非背景区域小块的20％则需要在识别模糊的区域增加焦点重新扫描，图像不可用，将图像加入到集合I_{problem_train&test}中，反之则确定图像为合格图像，将所有的图像加入到I_{normal_train&test}中；

步骤S11：使用验证集对上面的方法进行验证，首先将I_valid的全部图像转化为png格式的矢量图像A_valid，然后使用M₃筛选出条纹图像集加入I_{problem_valid}集合中并将问题图像从集合中移除，使用M₄筛选出未成功获取载玻片信息图像集加入I_{problem_valid}集合中并将问题图像从集合中移除，然后使用筛选后的I_{problem_valid}并提取图像的最大扫描倍数的最上面一行，最下面一行，最左面一列，最右面一列的1024pixel×1024pixel像素的小块，使用M₁和M₂获取每张图的边缘小块的分类结果，若这些小块有超过1/8被识别为清晰区域块或模糊组织块则将图像加入I_{problem_valid}中并将问题图像从集合中移除，最后将I_{problem_valid}剩余的图像完全切割为1024pixel×1024pixel的小块，使用M₁和M₂对每张图像的小块进行分类，若模糊的小块超过非背景区域的20％则将图像加入I_{problem_valid}中并将问题图像从集合中移除，并将剩余的图像全部加入I_{normal_valid}，然后将预测结果与真实结果进行比对确认发明提出的方法是否有效。

2.根据权利要求1所述的一种使用扫描仪获取的数字病理图像质量评价的方法，其特征在于，步骤S8中所述的多个描述图像锐度与信息丰富度的特征具体包括Brenner梯度函数、Tenengrad梯度函数、Laplacian梯度函数、灰度方差函数、灰度方差乘积函数、方差函数、能量梯度函数、熵函数。