CN108229341B

CN108229341B - 分类方法和装置、电子设备、计算机存储介质

Info

Publication number: CN108229341B
Application number: CN201711354471.2A
Authority: CN
Inventors: 蒋正锴; 邵婧; 闫俊杰
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2021-08-06
Anticipated expiration: 2037-12-15
Also published as: CN108229341A

Abstract

本发明实施例公开了一种分类方法和装置、电子设备、计算机存储介质，其中，方法包括：接收待分类图像；基于神经网络和剪裁技术对所述待分类图像进行处理，获得多个特征；对所述多个特征进行融合处理，得到融合特征；利用分类网络，基于所述融合特征获得所述待分类图像对应的分类结果。基于本发明上述实施例提供的一种分类方法，通过剪裁技术，充分利用了全局关键信息和局部特征信息；利用分类网络，基于融合特征获得对应待分类图像的分类结果，基于融合特征获得的分类结果，提升了对图像分类的准确度。

Description

分类方法和装置、电子设备、计算机存储介质

技术领域

本发明涉及计算机视觉技术，尤其是一种分类方法和装置、电子设备、计算机存储介质。

背景技术

行人属性分类是指根据给出一张行人图像，预测出行人图像中行人的性别、年龄、衣着颜色等属性。

通过卷积神经网络对行人进行属性分类，通常是通过卷积神经网络对需判断的行人图像提取全局整体特征，之后将得到的特征作为各属性的分类器的输入，进而实现对行人的属性分类的预测。

发明内容

本发明实施例所要解决的一个技术问题是：提供一种分类技术。

本发明实施例提供的一种分类方法，包括：

接收待分类图像；

基于神经网络和剪裁技术对所述待分类图像进行处理，获得多个特征；所述剪裁技术用于对待分类图像或基于待分类图像得到的完整特征执行剪裁处理；

多所述多个特征进行融合处理，得到融合特征；

利用分类网络，基于所述融合特征获得所述待分类图像对应的分类结果。

在基于本发明上述方法的另一个实施例中，所述基于神经网络和剪裁技术对所述待分类图像进行处理，获得多个特征，包括：

基于剪裁技术，对待分类图像执行剪裁处理，获得剪裁后的至少一个剪裁图像；所述剪裁图像的大小小于所述待分类图像，所有所述剪裁图像拼接后至少包括一个所述待分类图像；

基于神经网络分别对所述待分类图像和各所述剪裁图像进行处理，得到分别对应所述待分类图像和各所述剪裁图像的多个特征。

在基于本发明上述方法的另一个实施例中，在基于神经网络分别对所述待分类图像和各所述剪裁图像进行处理，得到分别对应所述待分类图像和各所述剪裁图像的多个特征之前，还包括：

将所述待分类图像和所有所述剪裁图像缩放到相同大小。

基于神经网络对输入的待分类图像进行处理，得到对应所述待分类图像的完整特征；

基于剪裁技术，对所述完整特征执行剪裁处理，获得剪裁后的多个对应所述待分类图像的特征；所述剪裁后得到的特征的大小小于或等于所述完整特征，所有所述特征拼接后至少包括一个所述完整特征。

在基于本发明上述方法的另一个实施例中，所述对所述完整特征执行剪裁处理，获得剪裁后的多个对应所述待分类图像的特征之后，还包括：

将所有所述待分类图像的特征缩放到相同大小。

在基于本发明上述方法的另一个实施例中，所述神经网络包括至少一个卷积层；

所述基于神经网络和剪裁技术对所述待分类图像进行处理，获得多个特征，包括：

迭代执行：

通过神经网络中上一个卷积层对待分类图像执行卷积计算，得到输出的完整特征图，将所述完整特征图剪裁得到至少两个特征图；所有所述特征图拼接后至少包括一个所述完整特征图；

分别通过所述神经网络中下一个卷积层对各特征图执行卷积操作，得到至少两个新特征图，融合对应同一个待处理图像得到的所有新特征图；将所述融合后的新特征图作为待分类图像，将下下一个卷积层作为上一个卷积层；

直到所述下一个卷积层为最后一个卷积层，输出所述得到的至少两个新特征图。

在基于本发明上述方法的另一个实施例中，分别通过所述神经网络中下一个卷积层对各特征图执行卷积操作之前，还包括：

将各所述特征图缩放为所述下一个卷积层对应的输入图像大小。

在基于本发明上述方法的另一个实施例中，所述对所述多个特征进行融合处理，得到融合特征之前，还包括：

统一所述多个特征的格式。

在基于本发明上述方法的另一个实施例中，统一所述多个特征的格式，对所述多个特征进行融合处理，得到融合特征，包括：

将所述多个特征的维度进行转换，使基于所述待分类图像得到的所有所述特征的维度统一；

将所述维度统一的多个特征在每个维度上将特征值进行连接，得到融合后维度不变的特征图，一个所述融合后的特征图对应一个所述待分类图像。

在基于本发明上述方法的另一个实施例中，将所述维度统一的多个特征在每个维度上将特征值进行连接，包括：

对每个特征分配不同的权重值；

将所述多个特征与相应权重值相乘后进行连接。

在基于本发明上述方法的另一个实施例中，所述利用分类网络，基于所述融合特征获得所述待分类图像对应的分类结果，包括：

将所述融合特征输入所述分类网络，分别得到所述待分类图像对应各分类类别的概率向量；

基于所述对应各分类类别的概率向量确定所述待分类图像的分类结果。

在基于本发明上述方法的另一个实施例中，将所述融合特征输入所述分类网络，分别得到所述待分类图像对应各分类类别的概率向量，包括：

将所述融合特征输入至少一个所述分类网络中；每个所述分类网络中包括至少一个全连接层和激活函数，每个所述分类网络对应一个属性分类族，一个所述属性分类族包括至少两个分类类别；

各所述分类网络分别输出对应不同属性分类族的概率向量。

在基于本发明上述方法的另一个实施例中，所述待分类图像为行人图像；

所述利用分类网络，基于所述融合特征获得所述待分类图像对应的分类结果，包括：

利用分类网络，基于所述融合特征获得所述行人图像对应的分类结果。

根据本发明实施例的另一个方面，提供的一种分类装置，包括：

图像接收单元，用于接收待分类图像；

处理单元，用于基于神经网络和剪裁技术对所述待分类图像进行处理，获得多个特征；所述剪裁技术用于对待分类图像或基于待分类图像得到的完整特征执行剪裁处理；

融合单元，用于对所述多个特征进行融合处理，得到融合特征；

结果单元，用于利用分类网络，基于所述融合特征获得所述待分类图像对应的分类结果。

在基于本发明上述装置的另一个实施例中，所述处理单元，包括：

第一剪裁模块，用于基于剪裁技术，对待分类图像执行剪裁处理，获得剪裁后的至少一个剪裁图像；所述剪裁图像的大小小于所述待分类图像，所有所述剪裁图像拼接后至少包括一个所述待分类图像；

第一特征模块，用于基于神经网络分别对所述待分类图像和各所述剪裁图像进行处理，得到分别对应所述待分类图像和各所述剪裁图像的多个特征。

在基于本发明上述装置的另一个实施例中，所述处理单元，还用于将所述待分类图像和所有所述剪裁图像缩放到相同大小。

第二特征模块，用于基于神经网络对输入的待分类图像进行处理，得到对应所述待分类图像的完整特征；

第二剪裁模块，用于基于剪裁技术，对所述完整特征执行剪裁处理，获得剪裁后的多个对应所述待分类图像的特征；所述剪裁后得到的特征的大小小于或等于所述完整特征，所有所述特征拼接后至少包括一个所述完整特征。

在基于本发明上述装置的另一个实施例中，所述处理单元，还用于将所有所述待分类图像的特征缩放到相同大小。

在基于本发明上述装置的另一个实施例中，所述神经网络包括至少一个卷积层；

所述处理单元，具体用于通过神经网络中上一个卷积层对待分类图像执行卷积计算，得到输出的完整特征图，将所述完整特征图剪裁得到至少两个特征图；所有所述特征图拼接后至少包括一个所述完整特征图；

在基于本发明上述装置的另一个实施例中，所述处理单元，还用于在分别通过所述神经网络中下一个卷积层对各特征图执行卷积操作之前，将各所述特征图缩放为所述下一个卷积层对应的输入图像大小。

在基于本发明上述装置的另一个实施例中，所述融合单元，还用于对所述多个特征进行融合处理，得到融合特征之前，统一所述多个特征的格式。

在基于本发明上述装置的另一个实施例中，所述融合单元，包括：

维度统一模块，用于将所述多个特征的维度进行转换，使基于所述待分类图像得到的所有所述特征的维度统一；

特征融合模块，用于将所述维度统一的多个特征在每个维度上将特征值进行连接，得到融合后维度不变的特征图，一个所述融合后的特征图对应一个所述待分类图像。

在基于本发明上述装置的另一个实施例中，所述特征融合模块，具体用于对每个特征分配不同的权重值；将所述多个特征与相应权重值相乘后进行连接。

在基于本发明上述装置的另一个实施例中，所述结果单元，包括：

概率模块，用于将所述融合特征输入所述分类网络，分别得到所述待分类图像对应各分类类别的概率向量；

结果输出模块，用于基于所述对应各分类类别的概率向量确定所述待分类图像的分类结果。

在基于本发明上述装置的另一个实施例中，所述概率模块，具体用于将所述融合特征输入至少一个所述分类网络中；每个所述分类网络中包括至少一个全连接层和激活函数，每个所述分类网络对应一个属性分类族，一个所述属性分类族包括至少两个分类类别；

各所述分类网络分别输出对应不同属性分类族的概率向量。

在基于本发明上述装置的另一个实施例中，所述待分类图像为行人图像；

所述结果单元，具体用于利用分类网络，基于所述融合特征获得所述行人图像对应的分类结果。

根据本发明实施例的另一个方面，提供的一种电子设备，包括处理器，所述处理器包括如上所述的分类装置。

根据本发明实施例的另一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成如上所述分类方法的操作。

根据本发明实施例的另一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行如上所述分类方法的操作。

根据本发明实施例的另一个方面，提供的一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现如上所述分类方法的指令。

基于本发明上述实施例提供的一种分类方法，基于神经网络和剪裁技术待分类图像进行处理，获得至少一个对应待分类图像的特征；融合各获得的特征，得到融合特征；通过剪裁技术将待分类图像或完整特征进行剪裁处理，同时获得了全局关键信息和局部特征信息；利用分类网络，基于融合特征获得对应待分类图像的分类结果，基于融合特征获得的分类结果，融合特征中不仅包括全局特征信息，还包括局部特征信息，提升了对图像分类的准确度。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明分类方法一个实施例的流程图。

图2为本发明分类方法第一种金字塔输入方式的具体示例的网络结构示意图。

图3为本发明分类装置一个实施例的结构示意图。

图4为用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

现有的行人属性分类大都是以提取全局整体特征为主，很难在既需要掌握整体也需要注重细节的行人属性分类上展现很好的性能。

由于各个属性对低维的纹理特征和高维的语义特征的适应程度不同，直接把图片的特征作为所有属性的分类器的输入，很难提高各个属性的准确度。

图1为本发明分类方法一个实施例的流程图。如图1所示，该实施例方法包括：

步骤101，接收待分类图像。

步骤102，基于神经网络和剪裁技术对待分类图像进行处理，获得多个特征。

其中，剪裁技术用于对待分类图像或基于待分类图像得到的完整特征执行剪裁处理，通过剪裁技术实现“金字塔”输入。具体地，本发明提出了两种金字塔输入，但不限于这两种输入；第一种是，在待分类图像进入卷积神经网络前进行训练图像的金字塔输入，在得到各自的特征以后进行特征的融合，作为各属性分类器的输入。第二种是，先在每个待分类图像上进行卷积神经网络的特征提取，然后将不同层次特征图作为金字塔输入，得到固定尺寸的特征图，把得到的不同层次的特征进行融合，作为各属性分类器的输入。

具体地，得到的特征可以包括特征图或特征向量；神经网络可以是卷积神经网络，基于卷积神经网络对待分类图像的处理为卷积计算，通过卷积计算得到对应待分类图像的特征图或特征向量。

步骤103，对多个特征进行融合处理，得到融合特征。

考虑到attention注意力机制，采用金字塔的输入，这样来充分的利用局部信息，通过对特征图进行融合，达到特征的多重融合，以此来适应各个属性对低维纹理特征和高维语义特征的不同需求，达到更高的识别精度的目的。attention机制是松散地基于人类的视觉注意机制；就是按照“高分辨率”聚焦在图片的某个特定区域并以“低分辨率”感知图像的周边区域的模式，然后不断地调整聚焦点。具体的融合可以是将多个特征连接在一起。

步骤104，利用分类网络，基于融合特征获得待分类图像对应的分类结果。

具体地，分类网络可以包括至少一个全连接层，通过全连接层基于融合特征对待分类图像进行分类，当需要对多种属性进行分类时，可以采用一个分类网络中的多个全连接层分支，每个全连接层分支计算一个属性对应的分类类别；也可以是通过多个分类网络进行多种属性分类，每个分类网络对应一个分类类别。

可选地，本发明分类方法的另一个实施例可作为上述两种金字塔输入的第一种输入的具体实施，在上述实施例的基础上，该实施例中操作102包括：

基于剪裁技术，对待分类图像执行剪裁处理，获得剪裁后的至少一个剪裁图像；

其中，剪裁图像的大小小于待分类图像，所有剪裁图像拼接后至少包括一个待分类图像；具体地，由于神经网络对于每张输入图像的大小要求是一样的，因此，在将待分类图像输入神经网络之前，还可以包括：先将待分类图像缩放resize到满足神经网络的输入要求(例如：缩放到256*256像素)，基于缩放后的待分类图像随机剪裁crop获得至少一个设定大小(例如：224*224像素)的剪裁图像，其中各剪裁图像的大小可以相同，也可以不同。

基于神经网络分别对待分类图像和各剪裁图像进行处理，得到分别对应待分类图像和各剪裁图像的多个特征。

该实施例中，通过神经网络分别对各剪裁图像进行处理，将分别对应每个剪裁图像获得一个特征，获得的特征分别体现待分类图像的部分特征，通过待分类图像获得的特征体现了整体特征。该实施例提供的方法，通过在训练图像进入卷积神经网络前进行训练图像的金字塔输入，实现了兼顾对训练图像中的局部信息和全局信息的利用，对于图像中的局部属性也能准确的进行分类；通过对训练图像进行随机剪裁，克服了现有技术从整张图像提取特征或是人为规划水平窗口对图像进行剪裁的缺点，充分考虑到了区域信息。

当获得的各剪裁图像的大小不同时，在基于神经网络分别对待分类图像和各剪裁图像进行处理之前，还需要包括：

将待分类图像和所有剪裁图像缩放到相同大小。

具体地，经过剪裁获得的对应同一待分类图像的所有剪裁图像构成一个图像金字塔输入，但由于卷积层对于输入图像的大小有要求，因此，在输入卷积网络之前，需要将待分类图像和所有剪裁图像缩放到相同大小，以便输入卷积网络中进行卷积计算。本实施例通过分别对待分类图像和各子图像提取特征图，得到了全局特征和局部特征，解决了数据扩张的同时，保证得到更为细节的特征。

图2为本发明分类方法第一种金字塔输入方式的具体示例的网络结构示意图。图2所示的网络为VGG16的网络。

应用如图2所示结构的网络对图像进行分类的过程如下：

步骤一：将输入的图像进行缩放Resize到224*224像素，将经过缩放Resize的图像上进行剪裁crop出112*112像素和96*96像素两张剪裁图像，共获得缩放的224*224像素图像、112*112像素的剪裁图像和96*96像素的剪裁图像三张图像。

步骤二：将上述三张图像分别经过图2所示的网络到卷积层5(conv5)后，将三个得到的特征连接到一起。

步骤三：将上述连接的特征输入全连接层1(fc1)后直到激活函数(softmax)得到每个类别label的概率，其中，图2中只示出了一个属性的分类分支，对于多个属性的从卷积层5(conv5)后增加同样的全连接层1-全连接层2-全连接层3-预测(fc1-fc2-fc3-prediction)预测分类分支，分类分支的个数为属性的个数。

可选地，本发明分类方法的又一个实施例可作为上述两种金字塔输入的第二种输入的具体实施，在上述实施例的基础上，该实施例中操作102包括：

基于神经网络对输入的待分类图像进行处理，得到对应待分类图像的完整特征；

对完整特征执行剪裁处理，获得剪裁后的多个对应待分类图像的特征。

其中，剪裁后得到的特征的大小小于或等于完整特征，所有特征拼接后至少包括一个完整特征。

该实施例中，通过采用金字塔输入，以及得到特征的联结保障了低级别特征和高级别特征的融合，达到更好的分类准确度的目的；金字塔输入还解决了卷积神经网络中，不同卷积层的提取的特征注重的信息不同，低层更注重纹理信息，高层更注重语义信息，通过不同层的特征融合提高了属性分类的准确度。

在具体实施中，通过不同卷积层得到的特征，通过金字塔输入得到每一个卷积层输出的固定长度的特征图，通过每个层(如：3个层)上分别通过金字塔输入得到的特征图进行联结组成新的特征，这个特征用来描述训练图像中的属性，后面通过新的全连接层与softmaxloss分类损失函数对训练图像的属性进行分类，对训练图像检索的特征进行改进。

在本发明分类方法上述各实施例的一个具体示例中，对完整特征执行剪裁处理，获得剪裁后的多个对应待分类图像的特征之后，还包括：

将所有待分类图像的特征缩放到相同大小。

具体地，特征的大小可以由特征图的长宽决定(对应特征为特征图时)，或由特征向量的维度决定(对应特征为特征向量时)，将所有特征都缩放到相同大小是为了下一步实现特征之间的融合。

在本发明分类方法上述各实施例的一个具体示例中，神经网络包括至少一个卷积层；

操作102还可以包括：

迭代执行：

通过神经网络中上一个卷积层对待分类图像执行卷积计算，得到输出的完整特征图，将完整特征图剪裁得到至少两个特征图，所有特征图拼接后至少包括一个完整特征图；

分别通过神经网络中下一个卷积层对各特征图执行卷积操作，得到至少两个新特征图，融合对应同一个待处理图像得到的所有新特征图；将融合后的新特征图作为待分类图像，将下下一个卷积层作为上一个卷积层；

直到下一个卷积层为最后一个卷积层，输出得到的至少两个新特征图。

在本实施例中，通过将每个卷积层输出的特征图进行剪裁，实现每个卷积层的金字塔输入，剪裁得到的至少两个子特征图输入卷积神经网络后获得至少两个新的特征图，此时，需要对至少两个新的特征图进行特征融合，特征融合后再输入下一个卷积层中，再将下一个卷积层的输出剪裁后实行金字塔输入，通过这种方式，进一步实行了卷积层之间的信息交换；本发明还可以减掉一些没有用的层与层之间的交换，以缩小网络，加速分类。

在本发明分类方法上述各实施例的一个具体示例中，分别通过神经网络中下一个卷积层对各特征图执行卷积操作之前，还包括：

将各特征图缩放为下一个卷积层对应的输入图像大小。

具体地，缩放后的子特征图满足需要输入的卷积层，使卷积层能快速进行卷积计算。

采用上述图2的结构网络，还可以实现本发明分类方法第二种金字塔输入方式的具体示例，该具体示例包括如下步骤：

步骤一：将输入的图像进行缩放Resize到224*224像素。

步骤二：将缩放后的图像分别经过上述网络到卷积层5(conv5)后，得到相应的特征图，从特征图上剪裁crop出三种大小的特征图，然后把这三个特征图连接。

步骤三：将得到的连接的融合特征输入全连接层1(fc1)后直到激活函数(softmax)得到每个类别label的概率，其中，图2中只示出了一个属性的分类分支，对于多个属性的从conv5后增加同样的全连接层1-全连接层2-全连接层3-预测(fc1-fc2-fc3-prediction)预测分类分支，分类分支的个数为属性的个数。

本发明分类方法的还一个实施例，在上述各实施例的基础上，操作103之前，还可以包括：

统一多个特征的格式。

具体地，在对特征进行融合之前，将基于同一待分类图像得到的各特征图进行格式统一，通过对特征图进行格式统一，才能对各特征图进行融合。

在本发明分类方法上述各实施例的一个具体示例中，操作103包括：

将多个特征的维度进行转换，使基于待分类图像得到的所有特征的维度统一；

将维度统一的多个特征在每个维度上将特征值进行连接，得到融合后维度不变的特征图，一个融合后的特征图对应一个待分类图像。

该实施例中，通过维度变换，使多个特征图能够进行连接，连接后的一个特征图对应一个训练图像；例如：将所有特征图转换为一纬向量，具体转换过程可以是将下一维度的向量值依次连接到上一维度向量值的末端。

在本发明分类方法上述各实施例的一个具体示例中，将维度统一的各特征在每个维度上将特征值进行连接，包括：

对每个特征分配不同的权重值；

将多个特征与相应权重值相乘后进行连接。

该实施例中，考虑到了不同特征的不同权重，克服了直接将所有特征图进行连接，没有考虑到不同特征具有不同重要性的问题；具体权重值的设置可根据具体情况进行设定。

本发明分类方法的再一个实施例，在上述各实施例的基础上，操作104包括：

将融合特征输入分类网络，分别得到待分类图像对应各分类类别的概率向量；

基于对应各分类类别的概率向量确定待分类图像的分类结果。

具体地，获得的概率向量中每个值对应一个分类类别，其中对应类别的值最大的，可认为该类别为该待分类图像的分类结果。由于不同卷积层提取的特征注重的信息不同，低层特征更注重纹理信息，高层特征更注重语义信息，本实施例基于融合特征输入作为分类网络输入，很好的融合了高层特征和低层特征，并将高层特征和低层特征配合好来辅助解决图像属性分类的问题。

本发明涉及的神经网络和分类网络可以是同一个分类模型中的两个部分，具体是将分类模型中卷积层的部分作为神经网络，将全连接层的部分作为分类网络。

在本发明分类方法上述各实施例的一个具体示例中，将融合特征输入分类网络，分别得到待分类图像对应各分类类别的概率向量，包括：

将融合特征输入至少一个分类网络中；

其中，每个分类网络中包括至少一个全连接层和激活函数，每个分类网络对应一个属性分类族，一个属性分类族包括至少两个分类类别；

各分类网络分别输出对应不同属性分类族的概率向量。

在实际应用时，通常需要对图像中的不同属性进行分别分类，通过本实施例，通过增加分类网络或增加分类网络中的全连接层分支，解决了不同属性分类族的分类问题，只需在分类模型中增加一个分类网络或在分类网络中增加一个全连接层分支，即可实现对增加的一个属性分类族进行分类，不同的分类网络或不同的全连接层分支共享卷积层和特征图，因此，实现了通过最简化的分类模型结构对多个属性分类族进行分类。

在具体应用中：接收的待处理图像可以是行人图像，利用本发明分类方法可以直接对行人提取特征，用获得的行人图像的分类结果来描述这个行人。

当然本发明分类方法不只可以用于行人属性任务。通过本发明分类方法得到的特征可以用来描述行人，可以进行行人属性分析(如有没有带帽子，是男是女，上衣是什么类型，裤子是什么类型，年龄等等)。还可以给其他多分类问题提供一定的参考信息。

推广到更广的应用场景。目前本发明分类方法可以提取更加通用物体的特征。如车的特征，建筑物的特征。只需要尝试多种金字塔输入模式和不同级别特征融合的方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图3为本发明分类装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图3所示，该实施例的装置包括：

图像接收单元31，用于接收待分类图像。

处理单元32，用于基于神经网络和剪裁技术对待分类图像进行处理，获得多个特征。

其中，剪裁技术用于对待分类图像或基于待分类图像得到的完整特征执行剪裁处理。

融合单元33，用于对多个特征进行融合处理，得到融合特征.

结果单元34，用于利用分类网络，基于融合特征获得待分类图像对应的分类结果。

基于本发明上述实施例提供的一种分类装置，基于神经网络和剪裁技术待分类图像进行处理，获得至少一个对应待分类图像的特征；融合各获得的特征，得到融合特征；通过剪裁技术将待分类图像或完整特征进行剪裁处理，同时获得了全局关键信息和局部特征信息；利用分类网络，基于融合特征获得对应待分类图像的分类结果，基于融合特征获得的分类结果，融合特征中不仅包括全局特征信息，还包括局部特征信息，提升了对图像分类的准确度。

本发明分类装置的另一个实施例，在上述各实施例的基础上，处理单元32，包括：

第一剪裁模块，用于基于剪裁技术，对待分类图像执行剪裁处理，获得剪裁后的至少一个剪裁图像；剪裁图像的大小小于待分类图像，所有剪裁图像拼接后至少包括一个待分类图像；

第一特征模块，用于基于神经网络分别对待分类图像和各剪裁图像进行处理，得到分别对应待分类图像和各剪裁图像的多个特征。

在本发明分类装置上述各实施例的一个具体示例中，处理单元32，还用于将待分类图像和所有剪裁图像缩放到相同大小。

本发明分类装置的又一个实施例，在上述各实施例的基础上，处理单元32，包括：

第二特征模块，用于基于神经网络对输入的待分类图像进行处理，得到对应待分类图像的完整特征；

第二剪裁模块，用于基于剪裁技术，对完整特征执行剪裁处理，获得剪裁后的多个对应待分类图像的特征。

在本发明分类装置上述各实施例的一个具体示例中，处理单元32，还用于将所有待分类图像的特征缩放到相同大小。

在本发明分类装置上述各实施例的一个具体示例中，神经网络包括至少一个卷积层；

处理单元32，具体用于通过神经网络中上一个卷积层对待分类图像执行卷积计算，得到输出的完整特征图，将完整特征图剪裁得到至少两个特征图；所有特征图拼接后至少包括一个完整特征图；

在本发明分类装置上述各实施例的一个具体示例中，处理单元32，还用于在分别通过神经网络中下一个卷积层对各特征图执行卷积操作之前，将各特征图缩放为下一个卷积层对应的输入图像大小。

本发明分类装置的还一个实施例，在上述各实施例的基础上，融合单元33，还用于对多个特征进行融合处理，得到融合特征之前，统一多个特征的格式。

在本发明分类装置上述各实施例的一个具体示例中，融合单元33，包括：

维度统一模块，用于将多个特征的维度进行转换，使基于待分类图像得到的所有特征的维度统一；

特征融合模块，用于将维度统一的多个特征在每个维度上将特征值进行连接，得到融合后维度不变的特征图，一个融合后的特征图对应一个待分类图像。

在本发明分类装置上述各实施例的一个具体示例中，特征融合模块，具体用于对每个特征分配不同的权重值；将多个特征与相应权重值相乘后进行连接。

本发明分类装置的再一个实施例，在上述各实施例的基础上，结果单元34，包括：

概率模块，用于将融合特征输入分类网络，分别得到待分类图像对应各分类类别的概率向量；

结果输出模块，用于基于对应各分类类别的概率向量确定待分类图像的分类结果。

在本发明分类装置上述各实施例的一个具体示例中，概率模块，具体用于将融合特征输入至少一个分类网络中；每个分类网络中包括至少一个全连接层和激活函数，每个分类网络对应一个属性分类族，一个属性分类族包括至少两个分类类别；

各分类网络分别输出对应不同属性分类族的概率向量。

在本发明分类装置上述各实施例的一个具体示例中，待分类图像为行人图像；

结果单元34，具体用于利用分类网络，基于融合特征获得行人图像对应的分类结果。

根据本发明实施例的一个方面，提供的一种电子设备，包括处理器，处理器包括本发明分类方法上述任一实施例的布控装置。

根据本发明实施例的一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与存储器通信以执行可执行指令从而完成本发明分类方法上述任一实施例的操作。

根据本发明实施例的一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，指令被执行时执行本发明分类方法上述任一实施例的操作。

根据本发明实施例的一个方面，提供的一种计算机程序，包括计算机可读代码，当计算机可读代码在设备上运行时，该设备中的处理器执行用于实现本发明分类方法任意一项实施例的指令。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图4，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备400的结构示意图：如图4所示，计算机系统400包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)401，和/或一个或多个图像处理器(GPU)413等，处理器可以根据存储在只读存储器(ROM)402中的可执行指令或者从存储部分408加载到随机访问存储器(RAM)403中的可执行指令而执行各种适当的动作和处理。通信部412可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与只读存储器402和/或随机访问存储器430中通信以执行可执行指令，通过总线404与通信部412相连、并经通信部412与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，接收待分类图像；基于神经网络和剪裁技术对分类图像进行处理，获得至少一个对应待分类图像的特征；融合各获得的特征，得到融合特征；利用分类网络，基于融合特征获得对应待分类图像的分类结果。

此外，在RAM 403中，还可存储有装置操作所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。在有RAM403的情况下，ROM402为可选模块。RAM403存储可执行指令，或在运行时向ROM402中写入可执行指令，可执行指令使处理器401执行上述通信方法对应的操作。输入/输出(I/O)接口405也连接至总线404。通信部412可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

需要说明的，如图4所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图4的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，接收待分类图像；基于神经网络和剪裁技术对分类图像进行处理，获得至少一个对应待分类图像的特征；融合各获得的特征，得到融合特征；利用分类网络，基于融合特征获得对应待分类图像的分类结果。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种分类方法，其特征在于，包括：

接收待分类图像；

基于剪裁技术，对所述完整特征执行分块剪裁处理，获得剪裁后的多个对应所述待分类图像的特征；所述剪裁技术用于对待分类图像或基于待分类图像得到的完整特征执行分块剪裁处理；所述剪裁后得到的特征的大小小于或等于所述完整特征，所有所述剪裁后得到的特征拼接后至少包括一个所述完整特征；

对多个所述剪裁后得到的特征进行融合处理，得到融合特征；

2.根据权利要求1所述的方法，其特征在于，所述对所述完整特征执行剪裁处理，获得剪裁后的多个对应所述待分类图像的特征之后，还包括：

将所有所述待分类图像的特征缩放到相同大小。

3.根据权利要求1所述的方法，其特征在于，所述神经网络包括至少一个卷积层；

迭代执行：

4.根据权利要求3所述的方法，其特征在于，分别通过所述神经网络中下一个卷积层对各特征图执行卷积操作之前，还包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述多个特征进行融合处理，得到融合特征之前，还包括：

统一所述多个特征的格式。

6.根据权利要求5所述的方法，其特征在于，统一所述多个特征的格式，对所述多个特征进行融合处理，得到融合特征，包括：

7.根据权利要求6所述的方法，其特征在于，将所述维度统一的多个特征在每个维度上将特征值进行连接，包括：

对每个特征分配不同的权重值；

将所述多个特征与相应权重值相乘后进行连接。

8.根据权利要求1-7任一所述的方法，其特征在于，所述利用分类网络，基于所述融合特征获得所述待分类图像对应的分类结果，包括：

9.根据权利要求8所述的方法，其特征在于，将所述融合特征输入所述分类网络，分别得到所述待分类图像对应各分类类别的概率向量，包括：

各所述分类网络分别输出对应不同属性分类族的概率向量。

10.根据权利要求1-7任一所述的方法，其特征在于，所述待分类图像为行人图像；

11.一种分类装置，其特征在于，包括：

图像接收单元，用于接收待分类图像；

处理单元，包括：

第二剪裁模块，用于基于剪裁技术，对所述完整特征执行分块剪裁处理，获得剪裁后的多个对应所述待分类图像的特征；所述剪裁技术用于对待分类图像或基于待分类图像得到的完整特征执行分块剪裁处理；所述剪裁后得到的特征的大小小于或等于所述完整特征，所有所述剪裁后得到的特征拼接后至少包括一个所述完整特征；

融合单元，用于对多个所述剪裁后得到的特征进行融合处理，得到融合特征；

12.根据权利要求11所述的装置，其特征在于，所述处理单元，还用于将所有所述待分类图像的特征缩放到相同大小。

13.根据权利要求11所述的装置，其特征在于，所述神经网络包括至少一个卷积层；

14.根据权利要求13所述的装置，其特征在于，所述处理单元，还用于在分别通过所述神经网络中下一个卷积层对各特征图执行卷积操作之前，将各所述特征图缩放为所述下一个卷积层对应的输入图像大小。

15.根据权利要求11所述的装置，其特征在于，所述融合单元，还用于对所述多个特征进行融合处理，得到融合特征之前，统一所述多个特征的格式。

16.根据权利要求15所述的装置，其特征在于，所述融合单元，包括：

17.根据权利要求16所述的装置，其特征在于，所述特征融合模块，具体用于对每个特征分配不同的权重值；将所述多个特征与相应权重值相乘后进行连接。

18.根据权利要求11-17任一所述的装置，其特征在于，所述结果单元，包括：

19.根据权利要求18所述的装置，其特征在于，所述概率模块，具体用于将所述融合特征输入至少一个所述分类网络中；每个所述分类网络中包括至少一个全连接层和激活函数，每个所述分类网络对应一个属性分类族，一个所述属性分类族包括至少两个分类类别；

各所述分类网络分别输出对应不同属性分类族的概率向量。

20.根据权利要求11-17任一所述的装置，其特征在于，所述待分类图像为行人图像；

21.一种电子设备，其特征在于，包括处理器，所述处理器包括权利要求11至20任意一项所述的分类装置。

22.一种电子设备，其特征在于，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至10任意一项所述分类方法的操作。

23.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1至10任意一项所述分类方法的操作。