CN110188613A

CN110188613A - 图像分类方法及设备

Info

Publication number: CN110188613A
Application number: CN201910351314.9A
Authority: CN
Inventors: 熊健皓; 赵昕; 和超; 张大磊
Original assignee: Shanghai Eaglevision Medical Technology Co Ltd
Current assignee: Shanghai Eaglevision Medical Technology Co Ltd
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2019-08-30

Abstract

本发明提供一种图像分类方法及设备，所述方法包括：获取待识别的图像；利用第一分类网络从所述图像中提取第一特征数据，所述第一特征数据是与第一类别相关的特征数据；利用第二分类网络从所述图像中提取第二特征数据，所述第二特征数据是与第二类别相关的特征数据，所述第二类别中不包括所述第一类别；对所述第一特征数据和所述第二特征数据进行融合得到融合特征数据；利用第三分类网络对所述融合特征数据进行分类，得到分类结果，所述分类结果用于表示所述图像是否属于所述第一类别或者所述第二类别。

Description

图像分类方法及设备

技术领域

本发明涉及图像识别领域，具体涉及一种医疗图像分类方法及设备。

背景技术

在神经网络的实际应用过程中，常常会遇到openset(开放集或开集)的问题，即神经网络遇到了从未学习过的图片类别。例如在应用于医疗领域中时，使用大量具有眼底疾病特征的眼底图像训练了一个分类模型后，使用该分类模型识别图像时，分类模型遇到了如图5所示的图片。此图片是误操作眼底相机而拍摄的照片，其中可能出现各种室内场景，如行人、家具等。

虽然此图像属于错误输入，但是分类模型仍将针对该图像是否属于某种眼底疾病类别的问题对其进行分类，它可能将图像中的黑点区域错误地识别为出血点，而将此图片识别为中度糖网病变的类别。

在图像的获取过程中，很可能由于使用者误操作或者数据导入异常等原因向分类模型提供错误的图像，而现有的分类模型及其分类方法无法辨别这种错误的输入内容，只可能输出更错误的分类结果。

发明内容

有鉴于此，本发明提供一种图像分类方法，包括：

获取待识别的图像；

利用第一分类网络从所述图像中提取第一特征数据，所述第一特征数据是与第一类别相关的特征数据；

利用第二分类网络从所述图像中提取第二特征数据，所述第二特征数据是与第二类别相关的特征数据，所述第二类别中不包括所述第一类别；

对所述第一特征数据和所述第二特征数据进行融合得到融合特征数据；

利用第三分类网络对所述融合特征数据进行分类，得到分类结果，所述分类结果用于表示所述图像是否属于所述第一类别或者所述第二类别。

可选地，在利用第一分类网络从所述图像中提取第一特征数据的步骤中，所述第一分类网络针对所述图像所属的第一类别进行分类，所述第一特征数据是所述第一分类网的中间层输出的数据；

在利用第二分类网络从所述图像中提取第二特征数据的步骤中，所述第二分类网络针对所述图像所属的第二类别进行分类，所述第二特征数据是所述第二分类网的中间层输出的数据。

可选地，所述中间层为池化层。

可选地，所述第一类别是与医疗图像能够体现的内容相关的类别，所述第二类别是与医疗图像无关的物体类别。

本发明还提供一种图像分类模型训练方法，所述分类模型包括第一分类网络、第二分类网络和第三分类网络，所述方法包括：

获取训练数据，所述训练数据中包括样本图像及其标签信息，所述训练数据包括两种，第一种是第一图像及其第一标签信息，所述第一标签信息用于指示第一类别，第二种是第二图像及其第二标签信息，所述第二标签信息用于指示第二类别，所述第一图像与所述第二图像是具有不同内容的图像，并且所述第二类别中不包括所述第一类别；

利用所述训练数据对分类模型进行训练，使所述第一分类网络和所述第二分类网络分别对输入的同一样本图像提取第一特征数据和第二特征数据，其中所述第一特征数据是与第一类别相关的特征数据、所述第二特征数据是与第二类别相关的特征数据，对所述第一特征数据和所述第二特征数据进行融合得到融合特征数据，使第三分类网络对所述融合特征数据进行分类，得到分类结果，所述分类结果用于表示输入的样本图像属于所述第一类别或者所述第二类别，根据所述分类结果和所述标签信息的差异调整所述分类模型的参数。

可选地，在利用所述训练数据对分类模型进行训练之前，还包括：

利用第一图像及其第一标签信息对第一分类模型进行训练以使其具备相应的分类能力；

提取所述第一分类模型的输入层和隐层作为所述第一分类网络；

利用第二图像及其第二标签信息对第二分类模型进行训练以使其具备相应的分类能力；

提取所述第二分类模型的输入层和隐层作为所述第二分类网络。

获取第一分类模型的参数，所述第一分类模型是利用第一图像及其第一标签信息对进行训练得到的具有相应分类能力的模型；

将所述第一分类模型的参数导入所述第一分类网络；

获取第二分类模型的参数，所述第二分类模型是利用第二图像及其第二标签信息对进行训练得到的具有相应分类能力的模型；

将所述第二分类模型的参数导入所述第二分类网络。

可选地，在根据所述分类结果和所述标签信息的差异调整所述分类模型的参数的过程中，锁定所述第一分类网络和所述第二分类网络的参数，调整所述第三分类网络的参数。

相应地，本发明还提供一种图像分类设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述图像分类方法。

相应地，本发明还提供一种图像分类模型训练设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述图像分类模型训练方法。

根据本发明提供的图像分类模型训练方法及设备，使用了两种训练数据，这两种训练数据具有内容不同的图像和不相关的类别，可以将一种训练数据视为正确输入，而将另一种训练数据视为错误输入；分类模型中的第一个分类网络作为学习正确输入的特征的网络，分类模型中的第二个分类网络作为学习错误输入的特征的网络，它们分别针对输入图像是否属于相应的类别而提取特征数据。之后融合特征数据，并由第三个分类网络根据融合特征数据得到最终的分类结果，并据此分类结果更新自身的参数，以使其能够辨别两种训练数据，也即达到辨别正确输入和错误输入的目的。

根据本发明提供的图像分类方法及设备，可以将分类模型中的第一个分类网络视为用于提取正确输入的特征的网络、将分类模型中的第二个分类网络视为用于提取错误输入的特征的网络，它们分别针对输入图像是否属于相应的类别而提取特征数据。之后融合特征数据，并由第三个分类网络根据融合特征数据得到最终的分类结果。当使用者提供正确的目标图像时，分类模型能够在其可能所属的类别中确定一个或多个类别，而当使用者输入了错误的图像时，分类模型不会在正确图像的相关类别中进行选择，而会在与错误图像相关的类别中进行选择，以达到辨别正确输入和错误输入的目的。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中所使用的分类模型的结构示意图；

图2为本发明实施例中的一幅眼底图像；

图3为本发明实施例中的一幅自然物体图像；

图4为本发明实施例提供的一种图像分类方法的流程图；

图5为本发明实施例中的一幅室内场景图像。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

图1示出了本发明实施例中所使用的分类模型的结构，其中包括第一分类网络11、第二分类网络12、融合模块13和第三分类网络14。具体地，第一分类网络11、第二分类网络12的输入端用于输入图像，它们的输出端连接融合模块13，并行向融合模块13输出特征数据(feature)；融合模块13输出融合特征数据(feature)，第三分类网络14对融合特征数据进行分类，得到分类结果。

关于第一分类网络11和第二分类网络12，它们的结构可以是完全相同的，也可以是不同的。它们分别包括若干卷积层、池化层和全连接层等，在本领域中将这些层称之为神经网络的中间层(或称为隐层)，而不必设置用于输出分类结果的输出层(如softmax等)。

第三分类网络14的结构与第一分类网络11和第二分类网络12不同，最主要的是它需要具备输出层，用于输出最终的分类结果。

本发明提供了一种图像分类模型训练方法，用于训练如图1所示的分类模型，该方法可以由计算机和服务器等电子设备执行。

首先获取训练数据，训练数据中包括样本图像及其标签信息。

具体地，训练数据包括两种，第一种训练数据是第一图像及其第一标签信息，第一标签信息用于指示第一类别。在一个实施例中，第一图像是医疗图像，例如如图2所示的眼底图像，所谓的第一类别例如是眼底图像所体现的疾病类别，或者是眼底图像中所包含的如黄斑、视盘等器官或组织的类别，通过第一标签信息来表达这些类别。作为一个更具体的举例，眼底图像的类别例如是青光眼病变、糖尿病视网膜病变、眼底出血病变、豹纹状眼底病变等类别中的一个或多个，以及正常眼底类别。一幅第一图像可以只属于某一个类别，或者同时属于多个类别(即单标签或多标签都是可行的)。

第二种训练数据是第二图像及其第二标签信息，第二标签信息用于指示第二类别。在一个实施例中，第二图像是如图3所示的自然物体的图像，所谓的第二类别是图3中呈现的物体的类别，通过第二标签信息来表达这些类别。作为一个更具体的举例，图3中包含“大象”的影像，它的类别即为“大象”。一幅自然物体图像中可以只包含一种物体或者同时包含多种物体，也即第二图像可以只属于某一个类别，或者同时属于多个类别(即单标签或多标签都是可行的)。

第一图像和第二图像是完全不同并且内容完全不相关的图像，相应的第二类别中不包括第一类别。对于上述举例而言，自然物体图像的类别不能包含各种眼底组织或疾病的类别。实际上，医疗图像的第一类别是本模型的识别目标，而自然物体图像可以被视为一种干扰信息。

实际应用时，为了提高模型的性能，需要使第二类别的数量远远大于第一类别的数量，例如共有1000个第二类别，而第一类别只有10个，可以将第一类别视为目标类别，并使模型尽可能地接触到更多与第一类别无关的内容。

本领域技术人员可以理解，训练模型时应当使用大量的上述两种训练数据，并且使两种训练数据的数据量基本相同。

利用上述两种训练数据对分类模型进行训练，使其根据自身输出的分类结果和标签信息的差异调整分类模型的参数。

具体地，当向分类模型输入一个训练数据后，第一分类网络11和第二分类网络12会分别对输入的同一样本图像提取第一特征数据和第二特征数据，其中第一特征数据是与第一类别相关的特征数据、第二特征数据是与第二类别相关的特征数据。例如输入的是图2所示的眼底图像，第一分类网络11会针对该图像是否属于某疾病种类，或者是否属于正常类的问题，而提取其中的特征；同时，第二分类网络12会针对该图像是否属于某自然物体的问题，而提取其中的特征。同样地，如果输入的是图3所示的自然物体图像，第一分类网络11会针对该图像是否属于某疾病种类的问题，或者是否属于正常类的问题，而提取其中的特征；同时，第二分类网络12会针对该图像是否属于某自然物体的问题，而提取其中的特征。

显然，在面对医疗图像时，第一分类网络11会提取到更有价值的特征数据，而在面对自然物体图像时，第二分类网络12会提取到更有价值的特征数据。

在一个实施例中，采用两个结构相同的神经网络作为第一分类网络11和第二分类网络12，它们的输入尺寸(图像尺寸)相同、输出尺寸相同为N*N*L。例如，将输入图像的尺寸调整为160*160，所得到的第一特征数据和第二特征数据的尺寸均为1*1*1792。

关于第一特征数据和第二特征数据，具体为卷积层的特征输出或者是对卷积层的输出做出一定筛选后的结果。这种筛选可以是激活函数，即对每个输出进行数值大小的映射；或者是池化，即对几个输出进行整合后输出整合的结果；也可以是同时包含激活和池化，所以上述中间层可以是多种状况。

在一个优选的实施例中，第一分类网络11和第二分类网络12的最后一个层(输出第一特征数据和第二特征数据的层)是池化层，这两个网络中包含若干卷积层和池化层，但不包含全连接层。上述优选方案可保存所有原始的图像特征，使得融合模块可以得到最大的信息量。在进行融合的过程中有更大的细节辨识度。

融合模块13对第一特征数据(例如N*N*L1)和第二特征数据(例如N*N*L2)进行融合得到融合特征数据，其尺寸为N*N*(L1+L2)，L1和L2可以是不相等的。所谓融合是指对特征数据进行叠加，在本实施例中，融合后的特征数据的维度不变，而对维度下的信息量进行了叠加。在其它实施例中，也可以采用通道合并结合信息量叠加的方式进行融合。

第三分类网络14对融合特征数据进行分类，得到分类结果。分类结果用于表示输入的样本图像属于第一类别或者第二类别。作为具体的举例，分类结果表示输入的图像属于某一种或多种疾病类别，或是某一种或多种自然物体类别。

在一个优选的实施例中，第三分类网络14包含全连接层、归一化层和输出层，首先由全连接层接收融合特征数据并进行处理，再由归一化层进行处理，最后由输出层输出分类结果。

根据分类结果和标签信息的差异调整分类模型的参数，具体可以对第一分类网络11、第三分类网络12和第三分类网络14中的一个或多个的参数进行调整。例如输入的是医疗图像，而分类结果表示其属于某种自然图像，则调整参数以改变这种错误的结果；或者输入的是医疗图像，分类结果表示其属于某种疾病类别，但此分类结果与第一标签不符，则调整参数以改变这种错误的结果。

当使用大量的上述两种训练数据对分类模型进行训练时，分类模型会不断调整自身的参数，以使分类结果加更准确，直至其性能达到设定的条件为止。

根据本发明实施例提供的图像分类模型训练方法，使用了两种训练数据，这两种训练数据具有内容不同的图像和不相关的类别，可以将一种训练数据视为正确输入，而将另一种训练数据视为错误输入；分类模型中的第一个分类网络作为学习正确输入的特征的网络，分类模型中的第二个分类网络作为学习错误输入的特征的网络，它们分别针对输入图像是否属于相应的类别而提取特征数据。之后融合特征数据，并由第三个分类网络根据融合特征数据得到最终的分类结果，并据此分类结果更新自身的参数，以使其能够辨别两种训练数据，也即达到辨别正确输入和错误输入的目的。

为了提高对图1所示分类模型的训练效率，在训练开始之前，可以先使用上述第一种训练数据训练一个分类模型A，使其具有一定的分类能力。作为具体举例，使用医疗图像及其对应的标签信息训练分类模型A，使其能够对医疗图像所属的第一类别进行分类，并具备较好的性能。

类似地，使用上述第二种训练数据训练一个分类模型B，使其具有一定的分类能力。作为具体举例，使用非医疗图像及其对应的标签信息训练分类模型B，使其能够对非医疗图像所属的第二类别进行分类，并具备较好的性能。

分类模型A和分类模型B作为能够输出分类结果的模型，它们具有输出层。而在训练完成后，去掉分类模型A的输出层作为第一分类网络11、去掉分类模型B的输出层作为第二分类网络12；或者，提取分类模型A的参数，导入第一分类网络11、提取分类模型B的参数，导入第二分类网络12。

进一步地，通过上述优选方案获得第一分类网络11和第二分类网络12后，在对图1所示分类模型进行训练时，可以认定第一分类网络11和第二分类网络12的已经具有合适的参数，可锁定这些参数不再进行调整，而只调整第三分类网络14的参数。

根据上述优选方案，通过分步调整各个网络的参数，针对各种分类问题有针对性地调整自身的参数，可以在训练模型的过程中减少参数的组合，提高分类模型的训练效率。

本发明的一个实施例还提供了一种图像分类模型训练设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述图像分类模型训练方法。

本发明提供一种图像分类方法，该方法可以由计算机和服务器等电子设备执行。在本方法中使用了分类网络识别图像，所述分类网络可以是多种类型和结构的神经网络。结合图1和图4所示，该方法包括如下步骤：

S1A，获取待识别的图像。在一个实施例中，本方法用于对医疗图像进行分类，例如是图2所示的眼底图像，也可以是切片图像、CT图像等其它医疗图像。正常情况下，使用者应当提供医疗图像作为待识别的图像，但由于人为或其它外界因素，使用者可能会提供图5所示的非医疗图像作为待识别的图像。

S2A，利用第一分类网络从图像中提取第一特征数据，第一特征数据是与第一类别相关的特征数据。第一分类网络是经过训练并具有合适参数网络，关于训练和参数调整可参照上述实施例中对图1所示分类模型训练过程的介绍。

在一个实施例中，第一分类网络针对图像是否属于某种疾病类别的问题，提取与疾病类别相关的特征数据。针对图2或者图5所示的图像，例如可提取与青光眼病变、糖尿病视网膜病变、眼底出血病变、豹纹状眼底病变等类别中的一个或多个类别相关的特征数据，或者正常眼底的特征数据。

S3A，利用第二分类网络从图像中提取第二特征数据，第二特征数据是与第二类别相关的特征数据，第二类别中不包括第一类别。第二分类网络是经过训练并具有合适参数网络，关于训练和参数调整可参照上述实施例中对图1所示分类模型训练过程的介绍。

在一个实施例中，第二分类网络针对图像是否属于某种自然物体的问题，提取与自然物体类别相关的特征数据，自然物体类别与眼底组织或疾病类别无关。

S4A，对第一特征数据和第二特征数据进行融合得到融合特征数据。具体可参照上述实施例中关于图1所示分类模型的融合模块13的介绍。

S5A，利用第三分类网络对融合特征数据进行分类，得到分类结果，分类结果用于表示医疗图像是否属于第一类别或者第二类别。例如分类结果表示输入的图像属于某一种或多种疾病类别，或是属于某一种或多种自然物体类别。

作为一个具体举例，如果使用者提供的是图2所示的眼底图像，此分类结果至少能够体现该图像属于正常类还是异常类，或者进一步体现属于某一种或多种具体异常类别；如果使用者提供的是图5所示的非眼底图像，此分类结果至少能够体现该图像不是眼底图像，或者进一步体现其所属的自然物体类别。

根据本发明实施例提供的图像分类方法，可以将分类模型中的第一个分类网络视为用于提取正确输入的特征的网络、将分类模型中的第二个分类网络视为用于提取错误输入的特征的网络，它们分别针对输入图像是否属于相应的类别而提取特征数据。之后融合特征数据，并由第三个分类网络根据融合特征数据得到最终的分类结果。当使用者提供正确的目标图像时，分类模型能够在其可能所属的类别中确定一个或多个类别，而当使用者输入了错误的图像时，分类模型不会在正确图像的相关类别中进行选择，而会在与错误图像相关的类别中进行选择，以达到辨别正确输入和错误输入的目的。

在一个优选的实施例中，第一特征数据是第一分类网的中间层输出的数据；第二特征数据是第二分类网的中间层输出的数据。所谓中间层实际上是网络的最后一个层，可以是全连接层或者池化层。

在一个优选的实施例中，所使用的第一分类网络和第二分类网络不具备全连接层，所使用的第三分类网络具有全连接层、归一化层和输出层。

本发明的一个实施例还提供了一种图像分类设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述图像分类方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种图像分类方法，其特征在于，包括：

获取待识别的图像；

2.根据权利要求1所述的方法，其特征在于，在利用第一分类网络从所述图像中提取第一特征数据的步骤中，所述第一分类网络针对所述图像所属的第一类别进行分类，所述第一特征数据是所述第一分类网的中间层输出的数据；

3.根据权利要求2所述的方法，其特征在于，所述中间层为池化层。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述第一类别是与医疗图像能够体现的内容相关的类别，所述第二类别是与医疗图像无关的物体类别。

5.一种图像分类模型训练方法，其特征在于，所述分类模型包括第一分类网络、第二分类网络和第三分类网络，所述方法包括：

6.根据权利要求5所述的方法，其特征在于，在利用所述训练数据对分类模型进行训练之前，还包括：

7.根据权利要求5所述的方法，其特征在于，在利用所述训练数据对分类模型进行训练之前，还包括：

将所述第一分类模型的参数导入所述第一分类网络；

将所述第二分类模型的参数导入所述第二分类网络。

8.根据权利要求6或7所述的方法，其特征在于，在根据所述分类结果和所述标签信息的差异调整所述分类模型的参数的过程中，锁定所述第一分类网络和所述第二分类网络的参数，调整所述第三分类网络的参数。

9.一种图像分类设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-4中任意一项所述的图像分类方法。

10.一种图像分类模型训练设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求5-8中任意一项所述的图像分类模型训练方法。