CN111444365A

CN111444365A - 图像分类方法、装置、电子设备及存储介质

Info

Publication number: CN111444365A
Application number: CN202010229768.1A
Authority: CN
Inventors: 贾玉虎
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-07-24
Anticipated expiration: 2040-03-27
Also published as: CN111444365B

Abstract

本申请公开了一种图像分类方法、装置、电子设备及存储介质，涉及图像处理技术领域。其中，该方法包括：将具有不同尺度的多个子图像分别输入对应尺度下的第一神经网络模型，获取各第一神经网络模型的输出层输出的第一特征向量，所述多个子图像根据待分类的目标图像转换生成；通过特征金字塔网络算法，获取所述目标图像在不同尺度下的特征融合图；将每一尺度下的特征融合图输入对应尺度的第二神经网络模型，获取各第二神经网络模型的输出层输出的第二特征向量；根据所述第一特征向量以及第二特征向量的融合结果进行分类，获取所述目标图像所属类别，从而，对于不同尺度的目标图像，都可以进行分类。

Description

图像分类方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，更具体地，涉及一种图像分类方法、装置、电子设备及存储介质。

背景技术

电子设备对于采集的图像，可以进行分类，即确定图像所属类别。现有技术中，电子设备进行分类的图像通常为单一尺度的图像，无法对在实际应用过程中可能采集到的各种不同尺度图像进行分类。

发明内容

鉴于上述问题，本申请提出了一种图像分类方法、装置、电子设备及存储介质，以改善上述问题。

第一方面，本申请实施例提供了一种图像分类方法，所述方法包括：将具有不同尺度的多个子图像分别输入对应尺度下的第一神经网络模型，获取各第一神经网络模型的输出层输出的第一特征向量，所述多个子图像根据待分类的目标图像转换生成；通过特征金字塔网络算法，获取所述目标图像在不同尺度下的特征融合图；将每一尺度下的特征融合图输入对应尺度的第二神经网络模型，获取各第二神经网络模型的输出层输出的第二特征向量，所述第二神经网络模型与所述第一神经网络模型不同；根据所述第一特征向量以及第二特征向量的融合结果进行分类，获取所述目标图像所属类别。

第二方面，本申请实施例提供了一种图像分类装置，所述装置包括：第一处理模块，用于将具有不同尺度的多个子图像分别输入对应尺度下的第一神经网络模型，获取各第一神经网络模型的输出层输出的第一特征向量，所述多个子图像根据待分类的目标图像转换生成；融合模块，用于通过特征金字塔网络算法，获取所述目标图像在不同尺度下的特征融合图；第二处理模块，用于将每一尺度下的特征融合图输入对应尺度的第二神经网络模型，获取各第二神经网络模型的输出层输出的第二特征向量，所述第二神经网络模型与所述第一神经网络模型不同；分类模块，用于根据所述第一特征向量以及第二特征向量的融合结果进行分类，获取所述目标图像所属类别。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被所述处理器执行用于执行上述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述的方法。

本申请实施例提供的图像分类方法、装置、电子设备及存储介质，待分类的目标图像采样生成多个不同尺度的子图像，并通过对应尺度的第一神经网络模型输出第一特征向量；将目标图像通过特征金字塔网络算法获得的在不同尺度下的特征融合图，输入对应尺度的第二神经网络模型，获取第二神经网络模型输出的第二特征向量。根据第一特征向量以及第二特征向量的融合结果进行分类，确定目标图像的类别。从而，对于不同尺度的目标图像，都可以通过转换为多种不同尺度的子图像以及获取不同尺度的特征融合图，根据对子图像以及特征图的处理结果进行分类。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的图像分类方法的流程图。

图2示出了本申请另一实施例提供的图像分类方法的流程图。

图3示出了本申请一实施例提供的第一支路的结构示意图。

图4a至图4c示出了图像中的像素点排布示意图。

图5示出了本申请一实施例提供的第二支路的结构示意图。

图6示出了本申请一实施例提供的图像分类方法的流程结构图。

图7示出了本申请另一实施例提供的图像分类方法的流程结构图。

图8示出了本申请再一实施例提供的图像分类方法的流程图。

图9示出了本申请实施例提供的图像分类装置的功能模块图。

图10示出了本申请实施例提供的电子设备的结构框图。

图11是本申请实施例的用于保存或者携带实现根据本申请实施例的图像分类方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

图像分类是确定图像所属类别，或者说，确定图像中显示的内容所属的类别。例如，预先设置多种类别，对于待分类的图像，确定该图像显示的内容属于预先设置的多种类别中的哪一种类别。若图像分类方法或者装置仅能对单一尺度的图像进行分类，则无法有效满足某些使用需求。例如，在照相机或相机应用中，有不同的焦距倍数，如1倍焦距，1.5倍焦距等。在不同的焦距下拍照，获得的图像的尺度不同，若要对拍照获得的图像进行分类，则分类方法需要适应全焦段多尺度，从而实现不论选用哪种焦距拍照，获得哪种尺度的图像，分类方法都可以对图像进行分类。在本申请实施例中，可以通过尺寸对尺度进行理解，不同尺度的图片具有不同的尺寸，尺度越大，尺寸越大。其中，尺寸大小可以通过像素衡量，也可以通过其他单位衡量。例如，一个图像的尺寸为3*3，可以表示该图像横向和纵向的像素分别为3。

因此，本申请实施例提供了一种图像分类方法、装置、电子设备及存储介质，通过对图像进行多尺度处理进行分类，从而不同尺度的图像，都可以进行多尺度处理，实现不同尺度图像的分类。下面将通过具体实施例对本申请实施例提供的图像分类方法、装置、电子设备及存储介质进行详细说明。

请参阅图1，示出了本申请实施例提供的图像分类方法。具体的，该方法包括：

步骤S110：将具有不同尺度的多个子图像分别输入对应尺度下的第一神经网络模型，获取各第一神经网络模型的输出层输出的第一特征向量，所述多个子图像根据待分类的目标图像转换生成。

在本申请实施例中，需要进行分类的图像定义为目标图像。目标图像可以转换成不同尺度的图像，定义转换到不同尺度的图像为子图像，不同的子图像具有不同的尺度。不同尺度的子图像，根据尺度大小排列，可以形成目标图像对应的图像金字塔。

将各子图像分别输入不同的神经网络模型，各子图像输入的神经网络模型定义为第一神经网络模型。其中，不同神经网络模型的输入层可以输入的尺度不同，不同的子图像输入的第一神经网络模型为对应尺度下的第一神经网络模型。也就是说，子图像的尺度与其输入的第一神经网络模型可以输入的尺度相同。

将子图像输入对应尺度的第一神经网络模型，可以获取神经网络模型输出层输出的数据，将该数据定义为第一特征向量。不同尺度的子图像输入不同的第一神经网络模型，可以分别获取到对应的第一特征向量。

步骤S120：通过特征金字塔网络算法，获取所述目标图像在不同尺度下的特征融合图。

通过特征金字塔网络(FPN)算法，可以对目标图像通过自底向上的路径，自顶向下的路径以及横向连接(Lateral Connection)处理，横向连接是将自底向上的路径和自顶向下路径生成的相同大小的特征图进行相加以实现融合，获得特征融合图。从而实现把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的横向连接，使得获得的特征融合图具有丰富的语义信息。

步骤S130：将每一尺度下的特征融合图输入对应尺度的第二神经网络模型，获取各第二神经网络模型的输出层输出的第二特征向量。其中，所述第二神经网络模型与所述第一神经网络模型不同。

每个特征融合图具有相应的尺度，将每一尺度的特征融合图输入对应尺度的神经网络模型，获得神经网络模型输出层输出的数据，作为第二特征向量。各个特征融合图分别通过对应尺度的神经网络模型，获得各自对应的第二特征向量。

其中，定义特征融合图输入的神经网络模型为第二神经网络模型。第二神经网络模型不同于第一神经网络模型，不同尺度的特征融合图输入的第二神经网络模型不同。其中，神经网络模型不同，可以是神经网络模型的种类不同，也可以是相同种类的神经网络模型的参数不同。

可以理解的，各第二神经网络模型输入层具有相应的输入尺寸，特征融合图输入对应尺度的第二神经网络模型，表示该第二神经网络模型的输入层的输入尺度，与该特征融合图的尺度相同。

步骤S140：根据所述第一特征向量以及第二特征向量的融合结果进行分类，获取所述目标图像所属类别。

将第一特征向量和第二特征向量都代表了目标图像的特征，融合后进行分类，可以更准确得确定目标图像的类别。

在本申请实施例中，对于不同尺度的目标图像，都可以转换为多种不同尺度的子图像以及获取到不同尺度的特征融合图，并根据不同图像的子图像获取到第一特征向量，根据不同尺度的特征融合图获取到第二特征向量，根据第一特征向量和第二特征向量进行分类，获得目标图像的类别。

本申请实施例提供的图像分类方法，在特征金字塔网络算法中自底向上的路径和自顶向下路径中，也可以通过第二神经网络模型获取特征图。具体的，请参见图2，该实施例提供的方法包括：

步骤S210：将具有不同尺度的多个子图像分别输入对应尺度下的第一神经网络模型，获取各第一神经网络模型的输出层输出的第一特征向量，所述多个子图像根据待分类的目标图像转换生成。

在本申请实施例中，可以训练有多个第一神经网络模型，用于获取不同尺度的子图像的第一特征向量，不同第一神经网络模型的输入尺度不同。待分类的目标图像转换获得的多个子图像，分别输入对应尺度的第一神经网络模型，以第一神经网络模型的输出层输出的数据作为第一特征向量，第一特征向量的数量与子图像的数量相同。

在本申请实施例中，各第一神经网络模型具体为何种神经网络模型并不限定，本申请实施例主要以卷积神经网络(CNN)为例进行说明。

另外，本申请实施例中，在步骤S210之前，可以获取待分类的目标图像；将目标图像转换为不同尺度的子图像，获得具有不同尺度的多个子图像。其中，多个子图像的数量与训练后的第一神经网络模型数量相同，不同子图像的尺度分别对应各训练后的第一神经网络模型。

可选的，若第一神经网络模型包括多个，其中有第一神经网络模型的输入尺度大于目标图像的尺度，选取输入尺度小于或等于目标图像尺度的第一神经网络模型，作为本申请实施例中用于获取第一特征向量的第一神经网络模型。在获取目标图像的子图像时，各子图像的尺度小于或等于目标图像，可以通过缩小目标图像的尺度获得。

在一种实施方式中，目标图像转换获得子图像的方式可以是，对目标图像进行不同倍数的采样，获得采样后具有不同尺度的子图像。其中，具体采样倍数根据各第一神经网络模型对应的尺度确定，使采样后各子图像的尺度一一相等于各第一神经网络模型的输入尺度。

在另一种实施方式中，目标图像转换获得子图像的方式可以是，将目标图像输入一卷积神经网络，获取该卷积神经网络的不同卷积层输出的特征图作为不同的子图像。其中，输出特征图作为子图像的卷积层数量与第一神经网络模型的数量相同，输出特征图作为子图像的各卷积层的输出尺寸一一等同于各第一神经网络模型。

如图3所示，第一子图像、第二子图像以及第三子图像是目标图像转换获得的不同尺度的子图像，第一子图像的尺度与第一神经网络模型A1的输入尺度相同，第二子图像的尺度与第一神经网络模型A2的输入尺度相同，第三子图像的尺度与第一神经网络模型A3的输入尺度相同。将第一子图像输入神经网络模型A1，第一神经网络模型A1的输出层输出第一特征向量a1；将第二子图像输入神经网络模型A2，第一神经网络模型A2的输出层输出第一特征向量a2；将第三子图像输入神经网络模型A3，第一神经网络模型A3的输出层输出第一特征向量a3。

步骤S220：将所述目标图像输入卷积神经网络，获取各卷积层输出的不同尺度下的特征图。

在本申请实施例中，特征金字塔网络算法中自底向上的路径可以是获取目标图像的特征图(feature map)。具体获取方式可以是，将目标图像输入卷积神经网络，并从输出不同尺度的卷积层获取特征图，从而获得不同尺度的特征图。其中，具体获取的特征图的数量可以和用于获取第二特征向量的第二神经网络模型的数量相同，特征图的尺寸与各第二神经网络模型一一对应相同。

步骤S230：将最小尺度的特征图输入对应尺度的第二神经网络模型，获取输出层输出的第二特征向量，以及一卷积层输出的次级特征图。

步骤S240：从次小尺度的特征图开始，每一特征图与根据下一尺度的特征图获取的次级特征图相加获得特征融合图，将所述特征融合图输入当前尺度对应的第二神经网络模型，获取输出层输出的第二特征向量，并在存在上一尺度的特征图的情况下，获取一卷积层输出的次级特征图，其中，尺度从大到小排列的多个特征图中，下一尺度为相邻的更小尺度的特征图，上一尺度为相邻的更大尺度的特征图。

在本申请实施例中，获得的各个不同尺度的特征图可以形成金字塔结构，即自底向上进行从大到小排列的多个特征图形成金字塔结构。其中，对于尺度从大到小排列的多个特征图中，定义下一尺度的特征图为相邻的更小尺度的特征图，上一尺度的特征图为相邻的更大尺度的特征图。

获取最小尺度的特征图，该最小尺度的特征图可以作为最小尺度下的特征融合图。将该最小尺度的特征图输入对应尺度的第二神经网络模型，以该第二神经网络模型输出层的输出数据作为最小尺度的特征图对应的第二特征向量，并且，在第二神经网络模型中，具有卷积层，获取其中一卷积层输出的特征图，定义为次级特征图。该次级特征图根据该最小尺度的特征图获取得到。在本申请实施例中，各第二神经网络模型具体为何种神经网络模型并不限定，本申请实施例主要以卷积神经网络(CNN)为例进行说明。

比最小尺度的特征图更大，且与该最小尺度的特征图大小相邻的特征图定义为次小尺度的特征图。从该次小尺度的特征图开始至最大尺度的特征图，每个特征图可以与根据下一尺度的特征图获取的次级特征图相加获得特征融合图，并且将该特征融合图输入当前尺度对应的第二神经网络模型，获取到第二神经网络模型的输出层输出的数据，作为当前尺度对应的第二特征向量，或者说当前尺度的特征图对应的特征向量。由于除最大尺度以外的其他尺度的特征图，还需要获取次级特征图，用于与上一尺度的特征图相加，所以，除最大尺度以外的其他尺度的特征图对应的第二神经网络模型，还需要从一卷积层输出次级特征图。

其中，每一特征图与根据下一尺度的特征图获取的次级特征图相加之前，若根据下一尺度的特征图获取到的次级特征图与当前该特征图的尺度不同，则将该根据下一尺度的特征图获得的次级特征图转换到与当前特征图相同的尺度，以便相加。

另外，特征图与次级特征图相加，可以是相同像素坐标的像素点的像素值相加。即分别在特征图和次级特征图以相同的方式建立图像坐标系，将特征图以及次级特征图中，在各自图像坐标系下，像素坐标相同的像素点进行像素值相加，相加后获得的图像，作为特征融合图。例如图4a和图4b分别表示尺度相同的特征图和次级特征图，图4a中P1至P16表示图4a中的不同像素点；图4b中p1至p16表示图4b中的不同像素点。P1和p1的像素坐标相同，P2和p2的像素坐标相同，P3和p3的像素坐标相同，依次类推，数字相同的像素点为像素坐标相同的像素点。图4a和图4b中相同像素坐标的像素点的像素值相加，即P1和p1的像素值相加，P2和p2的像素值相加，P3和p3的像素值相加，依次类推，获得的特征融合图如图4c所示，特征融合图中每个像素点到的像素值，等于特征图和次级特征图中相同像素坐标下的像素点的像素值相加。

另外，在本申请实施例中，为了获得更丰富的语义信息，获取的次级特征图可以是具有更低分别率的特征图。例如可以是，将特征图以及特征融合图输入对应尺度的第二神经网络模型，获取一卷积层输出的次级特征图时，获取该第二神经网络模型的所有卷积层中，与输出层最靠近的一个卷积层输出的次级特征图，或者说获取该第二神经网络模型的最后一个卷积层输出的次级特征图。

在本申请实施例中，特征金字塔网络算法中自顶向下的路径可以是上述获取的各第二神经网络输出的次级特征图。横向连接可以是次级特征图与相同尺度的特征图的相加实现的融合。

例如图5示出了以3个特征图为例，获取第二特征向量的示意图。其中，第一特征图、第二特征图以及第三特征图分别为目标图像通过卷积神经网络的卷积层输出的不同尺度的特征图，第一特征图、第二特征图以及第三特征图的尺度依次降低。第一特征图的尺度等于第二神经网络模型B1的输入尺度，第二特征图的尺度等于第二神经网络模型B2的输入尺度，第三特征图的尺度等于第二神经网络模型B3的输入尺度。如图5所示，示出的各个第二神经网络模型中，与全连接层相邻的卷积层是该第二神经网络模型的所有卷积层中，与输出层最靠近的一个卷积层输出的次级特征图，或者说第二神经网络模型中与全连接层相邻的卷积层是该第二神经网络模型的最后一个卷积层。

第三特征图输入第二神经网络模型B3，第二神经网络模型B3的输出层输出对应第三特征图的第二特征向量b3，并且获取第二神经网络模型B3中最后一个卷积层输出的特征图作为次级特征图f3；次级特征图f3与第二特征图累加获得的特征融合图输入第二神经网络模型B2，第二神经网络B2的输出层输出对应第二特征图的第二特征向量b2，并且获取第二神经网络模型B2中最后一个卷积层输出的特征图作为次级特征图f2；次级特征图f2与第一特征图累加获得的特征融合图输入第二神经网络模型B1，第二神经网络B1的输出层输出对应第一特征图的第二特征向量b1。第二特征向量的数量与特征图的数量相同。

在本申请实施例中，第一特征向量以及第二特征向量获取的先后顺序并不限定，可以先获取第一特征向量，可以先获取第二特征向量，也可以同时处理，分别获取第一特征向量以及第二特征向量。

步骤S250：根据所述第一特征向量以及第二特征向量的融合结果进行分类，获取所述目标图像所属类别。

在本申请实施例中，根据融合结果进行分类可以是，将融合结果输入训练后的分类器，根据分类器的输出确定目标图像所属类别。分类器的类别在本申请实施例中并不限定，如传统的线性分类器如线性分类器softmax、全连接层或者非线性分类器SVM。其中，非线性分类器能有效拓展分类维度，降低softmax在非线性分类上的缺陷。

第一特征向量以及第二特征向量的具体表现形式以及融合形式在本申请实施例中可以并不限定，第一特征向量以及第二特征向量的表现形式、排列方式以及融合方式，可以与训练分类器时的输入的数据确定，使进行分类时输入分类器的融合结果与训练分类器时输入分类器的数据表现形式一致。

可选的，在本申请实施例中，第一特征向量以及第二特征向量的融合可以是，将第二特征向量拼接在第一特征向量后，同时保留第一特征向量以及第二特征向量所表现的特征。

可选的，在本申请实施例中，为了降低计算量，提高处理效率，可以控制第一特征向量以及第二特征向量为一维向量。并且，该一维向量相对更高维的向量，处理结果相似。

另外，可选的，由于不同尺度的子图像或者特征图获得的特征向量的长度相同，如三个尺度为4x4，3x3以及2x2的子图像，对应获得的第一特征向量的长度都为1*1028。但是，不同的第一特征向量，代表的实际含义不同，为了保证尺度顺序的一致性，在本申请实施例中，可以将各第一特征向量根据对应子图像的尺度进行金字塔排序；可以将各第二特征向量根据对应特征图的尺度进行金字塔排序，再将排序后的第二特征向量拼接在排序后的第一特征向量之后。例如，由于图3所示第一子图像、第二子图像以及第三子图像的尺度依次降低，图3中获得的第一特征向量a1、a2以及a3的金字塔排序可以依次为a3、a2以及a1；由于图5所示的第一特征图、第二特征图以及第三特征图的尺度依次降低，图5中获得的第二特征向量b1、b2以及b3的金字塔排序可以依次为b3、b2以及b1。各第二特征向量拼接在第一特征向量后为，a3、a2、a1、b3、b2、b1。

在本申请实施例中，待分类的目标图像可以通过两条支路处理后进行融合，再对融合结果进行分类，如图6所示。其中，第一支路如图3所示，用于获取第一特征向量，第二支路如图5所示，用于获取第二特征向量。将第一支路以及第二支路获取的特征向量进行融合后输入分类器进行分类，输出目标图像所属类别。该方案解决了不同尺度下图片的分类问题，有利于全焦段不同尺度的覆盖，避免了只对某一种或者集中尺度敏感的问题。

另外，在本申请实施例中，采取多尺度金字塔网络，从图片及特征图两方面着手，使得模型能够适应多种尺度，适配相机拍照的全焦段覆盖。

本申请实施例中，还可以包括第三支路，即如图7所示，在上述两条支路的基础上，再增加一条支路获取特征向量，用于与前述的第一特征向量、第二特征向量结合后用于分类。

具体的，如图8所示，该实施例的方法可以包括：

步骤S310：将具有不同尺度的多个子图像分别输入对应尺度下的第一神经网络模型，获取各第一神经网络模型的输出层输出的第一特征向量，所述多个子图像根据待分类的目标图像转换生成。

步骤S320：通过特征金字塔网络算法，获取所述目标图像在不同尺度下的特征融合图。

步骤S330：将每一尺度下的特征融合图输入对应尺度的第二神经网络模型，获取各第二神经网络模型的输出层输出的第二特征向量。

步骤S310至步骤S330的描述可以参见前述实施例，在此不再赘述。

步骤S340：将所述目标图像在不同尺度下的特征图分别转换为一维向量，作为第三特征向量。

在本申请实施例中，可以获取目标图像在不同尺度下的特征图。该不同尺度下的特征图可以直接使用获取第二特征向量时获取到的特征图，如图5中的第一特征图、第二特征图以及第三特征图。

另外，本步骤中，目标图像的不同尺度下的特征图也可以单独获取，如在该条支路中，可以单独设置卷积神经网络用于获取特征图。例如，将目标图像输入卷积神经网络，获取卷积神经网络的卷积层输出的不同尺度的特征图。该卷积神经网络与上述获取第二特征向量时的卷积神经网络可以不同。

在本步骤中，将获得的特征图分别转换为一维向量，具体转换方式并不限定，例如可以是，将特征图经过池化层和全连接层，输出向量被压缩至一维向量。第三特征向量与本步骤中获取特征图的数量相同，在本申请实施例中并不限定。

另外，可选的，在本申请实施例中，第一特征向量以及第二特征向量可以都是一维向量。

步骤S350：根据所述第一特征向量、第二特征向量以及第三特征向量的融合结果进行分类，获取所述目标图像所属类别。

在进行特征向量的融合时，将第一特征向量、第二特征向量以及第三特征向量都进行融合，再将融合结果输入分类器进行分类。

其中，融合方式可以参见前述实施例中第一特征向量以及第二特征向量的融合方式，如将第一特征向量按照金字塔结构排序、第二特征向量按照金字塔结构排序、第三特征向量按照金字塔结构排序，将排序后的第二特征向量拼接在排序后的第一特征向量之后，将排序后的第三特征向量拼接在排序后的第二特征向量之后。

在本申请实施例中，在第一特征向量以及第二特征向量的基础上还增加了第三特征向量，在更多特征的基础上提高了分类准确性，并且第三特征向量直接转换特征图，计算速度快，过程简单。

在本申请实施例中，还可以包括对各神经网络模型的训练。具体的，可以是将各条支路作为整体分别训练，再通过训练完成后的各条支路获取特征向量，融合后输入分类器，对分类器进行训练。

具体的，可以获取用于训练的待训练图片。第一支路的训练可以是，获取待训练图片转换到不同尺度下的多个训练子图像，训练子图像的数量等于第一支路中第一神经网络模型的数量，训练子图像的尺度分别等于第一支路中各第一神经网络模型的输入尺度。将各训练子图像分别输入对应尺度的第一神经网络模型，并根据第一支路中中各第一神经网络模型的输出以及损失函数反向传播，对第一支路中各第一神经网络模型的各参数进行优化调整。

第二支路以及第三支路的训练与第一支路相似。例如对第二支路的训练可以是，获取待训练图片转换到不同尺度下的多个训练特征图，训练特征图的数量等于第二支路中第二神经网络模型的数量，训练特征图的尺度分别等于第二支路中各第二神经网络模型的输入尺度。将各训练特征图分别输入对应尺度的第二神经网络模型，或者各训练特征图对应获得特征融合图后输入对应尺度的第二神经网络模型，并根据第二支路中中各第二神经网络模型的输出以及损失函数反向传播，对第二支路中各第二神经网络模型的各参数进行优化调整。

在支路训练完成后，如通过第一支路和第二支路获取特征向量用于分类，则在第一支路以及第二支路训练完成后，将用于训练分类器的图片经过第一支路第一特征向量，通过第二支路获得第二特征向量，将第一特征向量以及第二特征向量融合后作为训练样本输入分类器。通过对训练样本的不停迭代，直至优化函数的值达到最优，分类器收敛，实现对分类器的训练。

在本申请实施例中，对于任意尺度的图像，作为待分类的目标图像，都可以通过尺度转换和特征提取，获取到用于提取第一特征向量的图像，用于提取第二特征向量的特征图，从而可以获取到可以用于分类的向量，实现分类。

另外，单一全局尺度的特征难以区分，本申请实施例中，目标图像转换为不同尺度的子图像以及提取不同尺度的特征图，对不同尺度的子图像和特征图进行特征提取再做处理，可以解决单一全局尺度的特征难以区分的问题。

单一尺度对应单一视野或单一感受野，当图像或者特征图的尺度改变时，对于神经网络模型而言，如卷积神经网络，所提取和感受到的特征视野是完全不同，不同的尺度提取到的特征信息不同。对于自然场景而言，如雪景、沙漠、森林、草原等，其中包含的物体对于场景的类别具有很大的影响，但是场景的类别不仅仅取决于物体，它实际上是由各个语义区域及其层级结构和空间布局决定的。也就是说，自然场景类场景无明确固定的特征。而本申请实施例中，根据目标图像提取的不同尺度的特征图，以及转换到不同尺度获取的图像进行分类，因此，本申请实施例中的图像分类方法可以用于对包括自然场景的图像进行分类，解决了自然场景分类不易提取局部特征只能运用全局特征的前提下的分类准确度不高问题。

本申请实施例还提供了一种图像分类装置400，请参见图9，该装置400包括：第一处理模块410，用于将具有不同尺度的多个子图像分别输入对应尺度下的第一神经网络模型，获取各第一神经网络模型的输出层输出的第一特征向量，所述多个子图像根据待分类的目标图像转换生成；融合模块420，用于通过特征金字塔网络算法，获取所述目标图像在不同尺度下的特征融合图；第二处理模块430，用于将每一尺度下的特征融合图输入对应尺度的第二神经网络模型，获取各第二神经网络模型的输出层输出的第二特征向量；分类模块440，用于根据所述第一特征向量以及第二特征向量的融合结果进行分类，获取所述目标图像所属类别。

可选的，融合模块420以及第二处理模块430共同处理，获取第二特征向量，具体的，可以用于将所述目标图像输入卷积神经网络，获取各卷积层输出的不同尺度下的特征图；将最小尺度的特征图输入对应尺度的第二神经网络模型，获取输出层输出的第二特征向量，以及一卷积层输出的次级特征图；从次小尺度的特征图开始，每一特征图与根据下一尺度的特征图获取的次级特征图相加获得特征融合图，将所述特征融合图输入当前尺度对应的第二神经网络模型，获取输出层输出的第二特征向量，并在存在上一尺度的特征图的情况下，获取一卷积层输出的次级特征图，其中，尺度从大到小排列的多个特征图中，下一尺度为相邻的更小尺度的特征图，上一尺度为相邻的更大尺度的特征图。

可选的，第二处理模块430用于将特征图输入对应尺度的第二神经网络模型，获取一卷积层输出的次级特征图时，获取所述第二神经网络模型的最后一个卷积层输出的次级特征图。

可选的，所述第一特征向量以及所述第二特征向量为一维向量。

可选的，该装置还可以包括第三处理模块，用于将所述目标图像在不同尺度下的特征图分别转换为一维向量，作为第三特征向量。分类模块440可以用于根据所述第一特征向量、第二特征向量以及第三特征向量的融合结果进行分类，获取所述目标图像所属类别。

可选的，该装置还可以包括排序拼接模块，用于将各第一特征向量根据对应子图像的尺度进行金字塔排序；将各第二特征向量根据对应特征图的尺度进行金字塔排序；将排序后的第二特征向量拼接在排序后的第一特征向量之后。

可选的，该装置还可以包括尺度变换模块，用于获取待分类的目标图像；将所述目标图像转换为不同尺度的子图像，获得具有不同尺度的多个子图像，所述多个子图像的数量与训练后的第一神经网络模型数量相同，不同子图像的尺度分别对应各训练后的第一神经网络模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述的各个方法实施例之间可以相互参照；上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。各个模块可以配置在不同的电子设备中，也可以配置在相同的电子设备中，本申请实施例并不限定。

请参考图10，其示出了本申请实施例提供的一种电子设备500的结构框图。该电子设备可以包括一个或多个处理器510(图中仅示出一个)，存储器520以及一个或多个程序。其中，所述一个或多个程序被存储在所述存储器520中，并被配置为由所述一个或多个处理器510执行。所述一个或多个程序被处理器执行用于执行前述实施例所描述的方法。

处理器510可以包括一个或者多个处理核。处理器510利用各种接口和线路连接整个电子设备500内的各个部分，通过运行或执行存储在存储器520内的指令、程序、代码集或指令集，以及调用存储在存储器520内的数据，执行电子设备500的各种功能和处理数据。可选地，处理器510可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器510可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器510中，单独通过一块通信芯片进行实现。

存储器520可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器520可用于存储指令、程序、代码、代码集或指令集。存储器520可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现上述各个方法实施例的指令等。存储数据区还可以电子设备在使用中所创建的数据等。

请参考图11，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质700中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质700可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质700包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码710可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像分类方法，其特征在于，所述方法包括：

将具有不同尺度的多个子图像分别输入对应尺度下的第一神经网络模型，获取各第一神经网络模型的输出层输出的第一特征向量，所述多个子图像根据待分类的目标图像转换生成；

通过特征金字塔网络算法，获取所述目标图像在不同尺度下的特征融合图；

将每一尺度下的特征融合图输入对应尺度的第二神经网络模型，获取各第二神经网络模型的输出层输出的第二特征向量，所述第二神经网络模型与所述第一神经网络模型不同；

根据所述第一特征向量以及第二特征向量的融合结果进行分类，获取所述目标图像所属类别。

2.根据权利要求1所述的方法，其特征在于，所述通过特征金字塔网络算法，获取所述目标图像在不同尺度下的特征融合图；将每一尺度下的特征融合图输入对应尺度的第二神经网络模型，获取各第二神经网络模型的输出层输出的第二特征向量，包括：

将所述目标图像输入卷积神经网络，获取各卷积层输出的不同尺度下的特征图；

将最小尺度的特征图输入对应尺度的第二神经网络模型，获取输出层输出的第二特征向量，以及一卷积层输出的次级特征图；

从次小尺度的特征图开始，每一特征图与根据下一尺度的特征图获取的次级特征图相加获得特征融合图，将所述特征融合图输入当前尺度对应的第二神经网络模型，获取输出层输出的第二特征向量，并在存在上一尺度的特征图的情况下，获取一卷积层输出的次级特征图，其中，尺度从大到小排列的多个特征图中，下一尺度为相邻的更小尺度的特征图，上一尺度为相邻的更大尺度的特征图。

3.根据权利要求2所述的方法，其特征在于，将特征图以及特征融合图输入对应尺度的第二神经网络模型，获取一卷积层输出的次级特征图时，获取所述第二神经网络模型的所有卷积层中，与输出层最靠近的一个卷积层输出的次级特征图。

4.根据权利要求1所述的方法，其特征在于，所述第一特征向量以及所述第二特征向量为一维向量。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

将所述目标图像在不同尺度下的特征图分别转换为一维向量，作为第三特征向量；

所述根据所述第一特征向量以及第二特征向量融合结果进行分类，获取所述目标图像所属类别，包括：

根据所述第一特征向量、第二特征向量以及第三特征向量的融合结果进行分类，获取所述目标图像所属类别。

6.根据权利要求1或4所述的方法，其特征在于，所述根据所述第一特征向量以及第二特征向量的融合结果进行分类，获取所述目标图像所属类别之前，还包括：

将各第一特征向量根据对应子图像的尺度进行金字塔排序；

将各第二特征向量根据对应特征图的尺度进行金字塔排序；

将排序后的第二特征向量拼接在排序后的第一特征向量之后。

7.根据权利要求1所述的方法，其特征在于，所述将具有不同尺度的多个子图像分别输入对应尺度下的第一神经网络模型，获取各第一神经网络模型的输出层输出的第一特征向量之前，还包括：

获取待分类的目标图像；

将所述目标图像转换为不同尺度的子图像，获得具有不同尺度的多个子图像，所述多个子图像的数量与训练后的第一神经网络模型数量相同，不同子图像的尺度分别对应各训练后的第一神经网络模型。

8.一种图像分类装置，其特征在于，所述装置包括：

第一处理模块，用于将具有不同尺度的多个子图像分别输入对应尺度下的第一神经网络模型，获取各第一神经网络模型的输出层输出的第一特征向量，所述多个子图像根据待分类的目标图像转换生成；

融合模块，用于通过特征金字塔网络算法，获取所述目标图像在不同尺度下的特征融合图；

第二处理模块，用于将每一尺度下的特征融合图输入对应尺度的第二神经网络模型，获取各第二神经网络模型的输出层输出的第二特征向量，所述第二神经网络模型与所述第一神经网络模型不同；

分类模块，用于根据所述第一特征向量以及第二特征向量的融合结果进行分类，获取所述目标图像所属类别。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被所述处理器执行用于执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。