CN108052894A

CN108052894A - 一种目标对象的多属性识别方法、设备、介质及神经网络

Info

Publication number: CN108052894A
Application number: CN201711308368.4A
Authority: CN
Inventors: 李磊; 董远; 白洪亮; 熊风烨
Original assignee: Beijing Faceall Co
Current assignee: Beijing Faceall Co
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2018-05-18

Abstract

本发明提供了一种目标对象的多属性识别方法、设备、介质及神经网络，多个全连接层可以同时识别出目标对象的多个属性特征，可以根据需要识别的属性特征的数量来设置全连接层的数量，并且修改方便，灵活度高。且上述神经网络的层数不超过34层，在保证精度的情况下，可快速提高单张图片的处理用时。

Description

一种目标对象的多属性识别方法、设备、介质及神经网络

技术领域

本说明书涉及信息技术领域，尤其涉及一种目标对象的多属性识别方法、设备、介质及神经网络。

背景技术

当前，行人多属性识别方式包括多标签的SVM(Support Vector Machine，支持向量机)、Softmax分类器以及神经网络。但是上述SVM和Softmax分类器两种方法的准确率不如神经网络高。而神经网络需要用深层的神经网络来提高准确率，例如，152层的神经网络。而随着神经网络的层数的增加，其处理速度又会逐渐降低，难以满足视频中行人属性识别的速度要求。进一步的，在当前的神经网络中，每次都只针对行人的一个属性进行识别，当存在多个行人属性需要识别时，则需要多个不同的神经网络来实现。

基于现有技术，需要更为有效的多属性识别方法，提高识别速度，以适应视频中行人属性识别的速度要求。

发明内容

本说明书实施例提供一种目标对象的多属性识别方法、设备、介质及神经网络，同时识别多个属性特征，能够满足视频中行人属性识别的速度要求。

为解决上述技术问题，本说明书实施例是这样实现的：

本发明提供了一种对目标对象进行多属性识别的神经网络，包括：

输入层，将包含有目标对象的图片输入至所述输入层；

多个卷积层以及至少一个池化层，提取出所述目标对象的多个属性特征；

多个全连接层，识别所述目标对象的多个属性特征；以及

输出层，确定并输出所述多个全连接层的识别结果。

优选的，在上述的神经网络中，所述多个全连接层中的任意一个与一个属性特征一一对应；

多个全连接层，识别所述目标对象的多个属性特征，包括：

针对不同的全连接层，分别执行以下操作：

该全连接层识别与其一一对应的所述目标对象的属性特征。

优选的，在上述的神经网络中，所述目标对象的多个属性特征中的任意一个，包括多个类别；

该全连接层识别与其一一对应的所述目标对象的属性特征，包括：

该全连接层获取与其对应的所述目标对象的属性特征的所有类别的得分。

优选的，在上述的神经网络中，所述输出层有多个，一个输出层与一个全连接层一一对应；

输出层，确定并输出所述多个全连接层的识别结果，包括：

针对不同的输出层，分别执行以下操作：

获取与其对应的全连接层输出的所有类别的得分；

得分最高的类别即为与其对应的全连接层的识别结果；

输出所述识别结果。

优选的，在上述的神经网络中，所述输出层为Softmax分类器；

输出层，确定并输出所述多个全连接层的识别结果，包括：

Softmax分类器确定并输出所述多个全连接层的识别结果：

针对不同的Softmax分类器，分别执行以下操作：

根据与其对应的全连接层获取的所有类别的得分获取所有类别的概率；

按照概率的大小从大到小对所有类别进行排序；

概率最大的类别即为其对应的全连接层的识别结果；

输出所述识别结果。

优选的，在上述的神经网络中，所述神经网络的层数小于等于34。

本发明还提供了一种目标对象的多属性识别方法，包括：

将包含有目标对象的图片输入至神经网络的输入层；

所述神经网络的多个卷积层以及至少一个池化层提取出所述目标对象的多个属性特征；

所述神经网络的多个全连接层同时识别所述目标对象的多个属性特征；

所述神经网络的输出层输出所述多个全连接层的识别结果。

优选的，在上述的目标对象的多属性识别方法中，所述多个全连接层中的任意一个与一个属性特征一一对应；

多个全连接层，识别所述目标对象的多个属性特征，包括：

针对不同的全连接层，分别执行以下操作：

该全连接层识别与其一一对应的所述目标对象的属性特征。

优选的，在上述的目标对象的多属性识别方法中，所述目标对象的多个属性特征中的任意一个，包括多个类别；

优选的，在上述的目标对象的多属性识别方法中，所述输出层有多个，一个输出层与一个全连接层一一对应；

输出层，确定并输出所述多个全连接层的识别结果，包括：

针对不同的输出层，分别执行以下操作：

获取与其对应的全连接层输出的所有类别的得分；

得分最高的类别即为与其对应的全连接层的识别结果；

输出所述识别结果。

优选的，在上述的目标对象的多属性识别方法中，当所述输出层为Softmax分类器时，输出层，确定并输出所述多个全连接层的识别结果，包括：

Softmax分类器确定并输出所述多个全连接层的识别结果：

针对不同的Softmax分类器，分别执行以下操作：

按照概率的大小从大到小对所有类别进行排序；

概率最大的类别即为其对应的全连接层的识别结果；

输出所述识别结果。

优选的，在上述的目标对象的多属性识别方法中，所述神经网络的层数小于等于34。

本发明还提供了一种目标对象的多属性识别的设备，所述设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该设备执行以上所述的方法。

本发明更提供了一种计算机可读介质，所述介质存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现以上所述的方法。

在本发明实施例提供的目标对象的多属性识别方法、设备、介质及神经网络中，多个全连接层可以同时识别出目标对象的多个属性特征，可以根据需要识别的属性特征的数量来设置全连接层的数量，并且修改方便，灵活度高。且上述神经网络的层数不超过34层，在保证精度的情况下，可快速提高单张图片的处理用时。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例中神经网络的结构示意图；

图2为本发明一实施例中两层残差学习单元的结构示意图；

图3为本发明又一实施例中三层残差学习单元的结构示意图；

图4为本发明一实施例中多属性识别方法的流程图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

本发明实施例提供了一种对目标对象进行多属性识别的神经网络，如图1所示，图1为本发明一实施例中神经网络的结构示意图。所示神经网络包括：输入层101、多个卷积层103以及至少一个池化层105、多个全连接层107以及输出层109；其中，将包含有目标对象的图片直接输入至所述输入层；所述多个卷积层103以及至少一个池化层105提取出所述目标对象的多个属性特征；所述多个全连接层107识别出所述目标对象的多个属性特征，最后，所述输出层109确定并输出所述多个全连接层的识别结果。

首先，将包含有所述目标对象的图片直接输入至所述输入层。所述输入层满足多属性特征的输入。如图1所示，卷积层1031连接于所述输入层，对输入至所述输入层中的所述图片进行卷积运算，在本发明一实施例中，一个池化层1051连接于所述卷积层1031，对所述卷积层1031进行卷积运算后的图片进行降维处理，然后卷积层1032再经过池化层1051降维后的图片进行第二次卷积运算。

需要说明的是，在本发明一实施例中，所述神经网络的层数小于等于34。也就是说，在本发明实实施例中，所述神经网络的卷积层103的数量小于等于34。也就是是说，采用本发明实施例所提供的神经网络，无需采用层深的神经网络即可满足行人多属性识别的速度要求。

具体的，在本发明一实施例中，所述卷积层103的层数可以为小于等于34的任意数值，例如为7层、10层、16层、18层、22层、30层以及34层，当然，在本发明实施例中，并不以此为限，可以根据实际的运算速度和精度的要求进行综合考虑。较佳的，所述神经网络的层数可以取值为18层或者34层。

经过所述多个卷积层103和至少一个池化层105后，提取出所述目标对象的多个属性特征。所述多个全连接层107中的一个全连接层对应一个属性特征，且全连接层与属性特征之间是一一对应的，即一个全连接层来识别与其对应的一个属性特征。然后再通过输出层109输出所述多个全连接层的识别结果。

具体的，对于每一个卷积层103，可以采用两层残差学习单元，如图2所示，图2为本发明一实施例中两层残差学习单元的结构示意图。两层残差学习单元中包含两个相同的输出通道数的3*3卷积。

在本发明又一实施例中，每一个卷积层103，还可以采用三层残差学习单元，如图3所示，图3为本发明又一实施例中三层残差学习单元的结构示意图。三层的残差学习单元使用了1*1卷积，并且是在中间3*3的卷积前后都使用了1*1卷积，先降维后再升维，降低了计算的复杂度。

进一步的，所述输出层109也包括有多个，一个输出层对应一个全连接层，用于输出其对应的全连接层的识别结果。并且一个输出层与一个全连接层一一对应，一个输出层确定并输出与其对应的全连接层所识别的与该全连接层对应的属性特征的识别结果。

对于各个不同的属性特征，每个属性特征包括有多个类别，对于所述多个属性特征中的任意一个，与其对应的全连接层识别该属性特征的过程，包括：

与该属性特征对应的全连接层获取该属性特征的所有类别的得分。然后将该属性特征的所有类别的得分发送给与其对应的输出层，由输出层确定并输出该全连接层的识别结果。

具体的，与该全连接层对应的输出层获取该全连接输出的与该全连接层对应的属性特征的所有类别的得分；该输出层将得分最高的类别确定为该属性特征的类别，确定的该类别即为所述识别结果，该输出层输出该识别结果，即输出确定的该类别。

在本发明一实施例中，所述输出层为Softmax分类器，所述Softmax分类器确定并输出所述多个全连接层的识别结果：

针对不同的Softmax分类器，分别执行以下操作：首先，根据与其对应的全连接层获取的所有类别的得分获取所有类别的概率。然后，按照概率从大到小对所有类别进行排序，概率最大的类别即为所述目标对象的该属性特征归属的类别，即所述识别结果。

上述的神经网络可以用于任何需要识别多个属性特征的情形，例如可以是行人的多属性特征识别，也可以是行人的人脸的多属性特征的识别。在本发明一实施例中，以行人的多属性识别为例进行说明。需要识别的行人的多个属性特征的数量有8个，当然，在本发明的其他实施例中，所述属性特征的数量还可以是其他数量，例如为10个或者更多，或者更少。

当所述属性特征的数量为8个时，所述全连接层的数量也为8个，所述输出层也设置为8个，如图1所示。

所述多个属性特征包括：上衣颜色、下裤颜色、年龄、性别、衣袖长短、下裤长短、背包以及戴帽，其中，上衣颜色包括10类，下裤颜色包括10类，所述年龄包括4类，所述性别包括2类，所述衣袖长短包括2类，所述背包包括2类，所述戴帽包括2类。

具体的，在图1中，全连接层1071用于识别所述目标对象的上衣颜色，并输入至输出层1091，由所述输出层1091确定并输出其识别结果为10个类别中的一类；全连接层1072用于识别所述目标对象的下裤颜色，并输入至输出层1092，由所述输出层1092确定并输出其识别结果为10个类别中的一类；全连接层1073用于识别所述目标对象的年龄，并输入至输出层1093，由所述输出层1093确定并输出其识别结果，其识别结果为4个类别中的一种；全连接层1074用于识别所述目标对象的性别，并输入至输出层1094，由所述输出层1094确定并输出其识别结果，其识别结果为2个类别中的一类；全连接层1075用于识别所述目标对象的衣袖长短，并输入至输出层1095，由所述输出层1095确定并输出其识别结果，其识别结果为2个类别中的一个；全连接层1076用于识别所述目标对象的下裤长短，并输入至输出层1096，由所述输出层1096确定并输出其识别结果，其识别结果为2个类别中的一个；全连接层1077用于识别所述目标对象的背包，并输入至输出层1097，由所述输出层1097确定并输出其识别结果，其识别结果为2个类别中的一个；全连接层1078用于识别所述目标对象的戴帽，并输入至输出层1098，由所述输出层1098确定并输出其识别结果，其识别结果为2个类别中的一个。

本发明一实施例还提供了一种目标对象的多属性识别方法，所述多属性识别方法包括：将包含有目标对象的图片输入至神经网络的输入层；所述神经网络的多个卷积层以及至少一个池化层提取出所述目标对象的多个属性特征；所述神经网络的多个全连接层同时识别所述目标对象的多个属性特征；然后，所述神经网络的输出层输出所述多个全连接层的识别结果。

具体的，在将包含有所述目标图像的图片输入至神经网络的输入层之前，需要先对如图1中所示的神经网络进行训练。

在对行人的多属性特征进行识别的过程中，利用三个较大的行人数据集，分别为DukeMTMC-reID(在杜克大学内采集的行人数据集)、Market-1501(在清华大学校园内采集的行人数据集)以及PETA(PEdesTrian Attribute，行人属性)数据集，且PETA数据集中包含了多个数据集。以上数据集涵盖了各个季节，对于上述三个数据集的联合处理，考虑了季节的因素，提高了行人的多属性识别的准确率，特别是在对犯人追踪中更有效。

在本发明一实施例中，在针对视频中行人的多属性识别时，将行人的属性特征的数量设置为8个，且每个属性特征包括有多个类别，具体的，所述8个属性特征分别为：上衣颜色、下裤颜色、年龄、性别、衣袖长短、下裤长短、背包以及戴帽，其中，上衣颜色包括10类，下裤颜色包括10类，所述年龄包括4类，所述性别包括2类，所述衣袖长短包括2类，所述背包包括2类，所述戴帽包括2类。

使用整理好的图片对所述神经网络进行训练，具体的，用卷积神经网络的反向传播算法来训练所述神经网络。对所述神经网络进行训练的过程就是一个利用所述神经网络进行属性特征识别的过程。具体的，首先将整理好的图片输入至所述神经网络的输入层；所述神经网络的多个卷积和至少一个池化层提取出所述图片的多个属性特征，然后将各个属性特征输入至与其对应的全连接层中，该全连接层对输入的属性特征进行识别。

具体的，所述全连接层即为一个分类器，用于获取与其对应的所述目标对象的属性特征的所有类别的得分，然后将获得的所有类别的得分发送至与其对应的输出层。与其对应的输出层将得分最高的类别确定为与其对应的全连接层的识别结果，并输出该识别结果。在本发明一实施例中，所述输出层为Softmax分类器。所述Softmax分类器的目标是如下公式的损失函数值最小：

其中，i表示某一属性特征的类别的编号，例如，针对属性特征上衣颜色时，i的取值可以是1-10中的任意一个数值，j＝1，…,10；y_i表示该图片中行人的该属性特征的实际类别；f表示与其对应的全连接层输出的该属性特征对于所有类别的得分的一维向量，f_yi表示该属性特征在其实际所属类别上的得分。表示与其对应的全连接层输出的所有类别的得分的总和，的取值范围为0～1，L≥0。与其对应的全连接层的输出越正确，即实际类别的得分相比其他类别的得分更高，的值就越大，即越接近于1，L的值就越小。因此，是的上述公式1中损失函数的值最小即可得到最准确的全连接层。

可以采用上述训练方法同时对所述神经网络的多个全连接层进行训练后，利用上述神经网络对包含有目标对象的图片进行多属性识别。如图4所示，图4为本发明一实施例中多属性识别方法的流程图。

首先，将包含有目标对象的图片输入至神经网络的输入层。如图4中的步骤S402。所述输入层支持多属性特征的输入，使得所述神经网络的多个全连接层同时进行训练，节省了时间。

其次，所述神经网络的多个卷积层以及至少一个池化层提取出所述目标对象的多个属性特征，如图4中的步骤S404。

然后，所述神经网络的多个全连接层同时识别所述目标对象的所述多个属性特征，如图4中的步骤S406所示。

最后，所述神经网络的输出层确定并输出所述多个全连接层的识别结果，如图4中的步骤S408所示。

具体的，所述多个全连接层中的一个全连接层对应一个属性特征，且全连接层与属性特征之间是一一对应的，即一个全连接层来识别与其对应的一个属性特征。然后再通过输出层确定并输出所述多个全连接层的识别结果

基于同样的思路，本说明书实施例还提供一种目标对象的多属性识别的设备，所述设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该设备执行上述的方法。

基于同样的思路，本说明书实施例还提供一种计算机可读介质，所述介质存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如上所述的方法。

在本发明实施例提供的目标对象的多属性识别方法、设备、介质及神经网络中，多个全连接层可以同时识别出目标对象的多个属性特征，可以根据需要识别的属性特征的数量来设置全连接层的数量，并且修改方便，灵活度高。且上述神经网络的层数不超过34层，在保证精度的情况下，可快速提高单张图片的处理用时。进一步的，以18层神经网络为例，单张图片处理时，单核CPU耗时100ms，GPU耗时8ms。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种对目标对象进行多属性识别的神经网络，其特征在于，包括：

输入层，将包含有目标对象的图片输入至所述输入层；

多个全连接层，识别所述目标对象的多个属性特征；以及

输出层，确定并输出所述多个全连接层的识别结果。

2.根据权利要求1所述的神经网络，其特征在于，所述多个全连接层中的任意一个与一个属性特征一一对应；

多个全连接层，识别所述目标对象的多个属性特征，包括：

针对不同的全连接层，分别执行以下操作：

该全连接层识别与其一一对应的所述目标对象的属性特征。

3.根据权利要求2所述的神经网络，其特征在于，所述目标对象的多个属性特征中的任意一个，包括多个类别；

4.根据权利要求3所述的神经网络，其特征在于，所述输出层有多个，一个输出层与一个全连接层一一对应；

输出层，确定并输出所述多个全连接层的识别结果，包括：

针对不同的输出层，分别执行以下操作：

获取与其对应的全连接层输出的所有类别的得分；

得分最高的类别即为与其对应的全连接层的识别结果；

输出所述识别结果。

5.根据权利要求4所述的神经网络，其特征在于，所述输出层为Softmax分类器；

输出层，确定并输出所述多个全连接层的识别结果，包括：

Softmax分类器确定并输出所述多个全连接层的识别结果：

针对不同的Softmax分类器，分别执行以下操作：

按照概率的大小从大到小对所有类别进行排序；

概率最大的类别即为其对应的全连接层的识别结果；

输出所述识别结果。

6.根据权利要求1所述的神经网络，其特征在于，所述神经网络的层数小于等于34。

7.一种目标对象的多属性识别方法，其特征在于，包括：

将包含有目标对象的图片输入至神经网络的输入层；

所述神经网络的输出层输出所述多个全连接层的识别结果。

8.根据权利要求7所述的目标对象的多属性识别方法，其特征在于，所述多个全连接层中的任意一个与一个属性特征一一对应；

多个全连接层，识别所述目标对象的多个属性特征，包括：

针对不同的全连接层，分别执行以下操作：

该全连接层识别与其一一对应的所述目标对象的属性特征。

9.根据权利要求8所述的目标对象的多属性识别方法，其特征在于，所述目标对象的多个属性特征中的任意一个，包括多个类别；

10.根据权利要求9所述的目标对象的多属性识别方法，其特征在于，所述输出层有多个，一个输出层与一个全连接层一一对应；

输出层，确定并输出所述多个全连接层的识别结果，包括：

针对不同的输出层，分别执行以下操作：

获取与其对应的全连接层输出的所有类别的得分；

得分最高的类别即为与其对应的全连接层的识别结果；

输出所述识别结果。

11.根据权利要求10所述的目标对象的多属性识别方法，其特征在于，当所述输出层为Softmax分类器时，输出层，确定并输出所述多个全连接层的识别结果，包括：

Softmax分类器确定并输出所述多个全连接层的识别结果：

针对不同的Softmax分类器，分别执行以下操作：

按照概率的大小从大到小对所有类别进行排序；

概率最大的类别即为其对应的全连接层的识别结果；

输出所述识别结果。

12.根据权利要求7所述的目标对象的多属性识别方法，其特征在于，所述神经网络的层数小于等于34。

13.一种目标对象的多属性识别的设备，所述设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该设备执行权利要求7至12中任一项所述的方法。

14.一种计算机可读介质，所述介质存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求7至12中任一项所述的方法。